一种基于自动车辆特征融合网络的块对象检测方法

抽象的

如今，自动多目标检测仍然是自主车辆技术的具有挑战性问题。在过去的几十年中，深入学习已经证明了多目标检测，例如单次Multibox检测器（SSD）模型。目前的趋势是使用在线自动车辆数据集培训深度卷积神经网络（CNNS）。但是，当检测到小物体时，网络性能通常会降低。此外，现有的自主车辆数据集无法满足国内交通环境的需求。为了提高小物体的检测性能并确保数据集的有效性，我们提出了一种新方法。具体地，原始图像被分成块作为输入到VGG-16网络，该网络在CNN之后添加特征映射融合。此外，构建图像金字塔以尽可能多地将所有块检测结果投射到原始对象大小。除了改进检测方法之外，创建了一种新的自主驱动车辆数据集，其中定义了对象类别和标记标准，并提出了一种数据增强方法。新数据集的实验结果表明，该方法的性能大大提高，特别是对于大图像中的小物体检测。 Moreover, the proposed method is adaptive to complex climatic conditions and contributes a lot for autonomous vehicle perception and planning.

1.介绍

环境感知是自动驾驶系统的重要组成部分，用于感知的传感器包括超声波雷达、毫米波雷达、激光雷达(光探测与测距)和摄像机。通过激光雷达、毫米波雷达和摄像机的融合，实现目标的探测，实现目标空间测距和识别。特别是相机与激光雷达的融合不仅可以实现目标的高精度定位，还可以实现多种类型目标的检测。然而，由于激光雷达的高成本，这种传感器融合在未来不会成为一种流行的方法。相比之下，低成本摄像机将被应用于自动车辆感知系统，如物体检测和分类。

目前有两种目标检测算法，即传统图像处理算法和深度学习分类算法。通过对图像的分析和处理，两种方法都可以返回目标的位置和分类信息，为规划决策系统提供有效的信息。然而，由于图像信息极其丰富，手工建模难度大，传统图像处理方法的准确性不如深度学习方法。因此，越来越多的基于摄像头的深度学习算法可以使自动驾驶汽车的感知更加准确、快速和全面。目前，现有的深度学习系统可分为两类。一种是区域提议法，如R-CNN [1]，快速R-CNN [2]而更快的R-CNN [3.]．另一个是免费方法，例如你只看一次（Yolo）[4]及单发多盒探测器(SSD) [5]．近年来，在检测速度和准确性方面，SSD模型具有明显的视频对象检测优势。但是，SSD模型中仍存在一些问题。第一个问题是数据集。丰富的数据集对于对象检测至关重要。目前，自动驾驶的当前数据集基于外国交通方案，例如基蒂，城市景观等。第二个问题在于分类准确性。SSD模型的检测精度低于R-CNN的速度。特别是，随着网络的加深，在SSD模型的卷积过程中，小物体逐渐丢失。

在这项研究中，我们提出了一种新的方法来检测自动驾驶的对象。我们本文的贡献包括四分。首先，我们将原始图像分成块（块大小为400×400），可以检测来自图像的小对象，然后我们将每个块调整为固定大小（512×512）进行训练。其次，原始图像在1/2次的倍数中被缩小，直到图像尺寸接近块大小，这确保了大物体可以完全覆盖在单个图像块中。第三，作为SSD模型的特征图逐渐缩小，小物体的特征信息消失或变得不起眼。因此，在SSD模型中添加了一种特征融合方法，以确保大图像中的小对象的检测精度。第四，采样被自己收集并用自己标记，我们设计了设计对象类别和注释方法。

本文将描述如下：部分2详细介绍了我们的方法。部分3.描述了我们方法的实验。部分4显示实验结果并分析实验结果。部分5提供讨论和本文的未来工作。

2.方法论

在本节中，我们使用特征融合和图像块分段方法描述了改进的SSD模型的细节，并引入了创建自动驾驶数据集的方法。

2.1。特征融合网络

SSD模型直接从CNN的不同特征映射层中提取不同的尺度，如图所示1(一)．该方法不能融合不同比例尺的特征图，因此不同比例尺的特征图是相互独立的。因此，在SSD模型的基础上，我们提出了一种新的图像特征融合算法，该算法需要多个特征融合过程，且通常耗时较长。

（一种）

（b）

如图所示1 (b)在VGG16网络之后，添加了七个卷积层以提取特征，包括Conv6_1，Conv6_2，Conv7_2，Conv8_2，Conv10_2和Conv11_2。这七个卷积层的特征映射尺寸为32×32,32×32,16×16,8×8,4×4，2×2，1×1。通过分析，当特征映射大小小于16×16时，对象继续缩小，其特性逐渐消失，因此不能实现特征融合。在本文中，Bilinear函数用于熔断不同尺寸的特征图。从conv7_2开始，特征映射是追随的，其尺寸不小于16×16。由于双线性函数将一个像素转换为四个像素，即，当前图像加倍，因此，选择满足2倍关系的CONV7_2，CONV6_2和CONV4_3进行上采样。在双线性操作之前，在图像上执行CUNC 1×1操作，将其缩小FeatureAnd的维度加速计算[6]．具体计算方法如下：在哪里指需要合并的特征映射，是线性插值函数吗是一个放大的特征映射。通过计算该等式，将融合特征映射调整为相同的大小。此外，使用元素 - WISE-MAX方法融合了相同大小的特征映射，其保留两个特征映射中的相应位置像素值的最大值。具体计算方法如下：在哪里表示相同大小的特征图，表示融合后生成的新功能映射矩阵，分别表示合并后的特征图矩阵的像素值。通过元素-wise-max函数的特征融合，生成像素层，对像素层连续采样，生成金字塔特征图，这就是本文的特征融合方法。桌子1比较不同SSD模型的平均平均精度（MAP）和帧速率（FPS）。


结构	类型	基蒂测试（地图）	KITTI测试(fps)

SSD512.	无特征图融合	75.6	42.

DSSD512.	合并功能地图包括提取不同的尺度	76.8.	31.

我们SSD512	在提取不同比例尺之前合并特征图	77.4	35.

２.２.数据集

对于深度学习，数据集的重要性毫无疑问。丰富的数据集对于对象检测至关重要。目前，计算机愿景领域的数据集包括ImageNet [7]，Coco [8Pascal VOC [9)等。此外，自动驾驶数据集主要使用KITTI [10.数据集或城市景观[11.数据集。桌子2比较两个数据集。


数据集	类别	功能	时间

基蒂	汽车，搬运车，卡车，行人，骑自行车的人，电车	自动驾驶场景中计算机视觉算法的评价	2012年

城市风光	平，性质，车辆，天空，物体，人类，建筑	语义城市场景理解	2016年

由于用于自动驾驶的“KITTI”或“cityscape”数据集满足了计算机视觉的要求，因此样本的视角和类别与国内需求不太吻合。因此，有必要建立一个既满足视角要求又能很好地匹配国内交通环境的新数据集。

2.2.1。样品采集

（1）样品收集平台．为了创建符合我们要求的新数据集，我们为自治车辆应用数据采集平台，从真实交通环境中收集样本。数据采集平台配备了高动态摄像头（ACA1920），Velodyne 64-E LIDAR和差分GNSS接收器（SIMPEAK 982）。我们收集的数据集包含来自城市，农村，高速公路场景等的真实图像数据。此外，每个图像都包含至少一个车辆或一个行人。整个系统采样并在10Hz频率上同步。在图像采集系统中，我们自主车辆的摄像机射击距离为13米，捕获图像的分辨率为1920×1200。此外，参考中国交通道路的现状，我们将标签分为七个类别，包括汽车，卡车，公共汽车，小巴，骑自行车的人，人员和摩托车。

（2）采样增强。图像采集平台捕获的交通场景包括城市道路，高速公路，隧道和弯曲的道路。此外，在复杂的气候条件下收集一些样品，例如雨天和雾化天。由于深度学习需要培训大量样本来学习对象特征，我们使用样本增强方法来展开数据集。如图所示2，具体过程如下。

（一种）

（b）

第1步。随机选择来自所有预先训练的图像的图像。

第2步。对于每幅图像，随机采样其中一个小块，设置小块的长宽比为，与物体的重叠率分别为0.1、0.3、0.5、0.7和0.9。

第3步。如果边界框的中心点位于采样块中，则保留重叠部分。

第四步。本文使用固定大小为512×512。要将每个样本调整为固定尺寸，然后在随机电平以0.5的随机电平移位或旋转固定块。

2.2.2。注解

样品的多样性至关重要，以确保检测的准确性[12.]．因此，样品的选择应考虑多个角度，复杂气候条件，闭塞率和截断比。我们为图像注释提出的原则如下。

（1）从多个角度选择样本．来自不同角度的样本的特征存在略有差异[13.]．因此，角度对图像至关重要。我们从正角，反角和侧角标记样品，以确保样品的全面性。桌子3.显示来自不同角度的七种样本数量的统计数据。


	正角				反角				侧角
	多雾路段	雨	阳光明媚的	多云的	多雾路段	雨	阳光明媚的	多云的	多雾路段	雨	阳光明媚的	多云的

人	187.	94.	385.	201.	109.	81.	175.	184.	176.	79.	293.	183.
骑车人	133.	35.	257.	123.	36.	47.	214.	169.	73.	41.	121.	144.
摩托车	89.	47.	101.	82.	59.	42.	97.	59.	33.	29.	61.	64.
车	198	241.	278.	261.	142.	169.	205.	193.	192.	105.	217.	254.
巴士（小巴）	106.	166.	183.	201.	137.	121.	156.	75.	143.	152.	224.	104.
公共汽车	99.	102.	129.	79.	101.	66.	98.	106.	136.	97.	165.	144.
卡车	129.	89.	153.	128.	96.	108.	124.	152.	185.	123.	148.	267.

（2)选择复杂气候条件．在恶劣的天气条件下，该模型受到可见性的大大影响。在分析摄像机的采集高度和清晰度之后，我们将恶劣的天气分成雾，雨，阳光和阴天。此外，我们在不同气候条件下标记样品，以确保样本特征对环境的适应性。

（3）设置闭塞率．人类的眼睛可以很容易地在一段时间内跟踪一个特定的物体[14.]．但是，对于机器，此任务并不简单。通常，对象跟踪过程中存在各种复杂情况，例如遮挡比是重要问题。调查后，我们为遮挡边界框定义了分数。具体的定义方法分为三种情况：重闭塞，部分闭塞，没有闭塞。在本文中，如果车辆的闭塞比大于40％，则将其定义为重闭塞。同样，当车辆的闭塞比在1％至40％之间时，我们认为这是部分闭塞。为了确保检测的准确性，我们规定只有部分闭塞和没有闭塞，并且不标记重闭塞。

（4)设置截断比．并非图像中的所有对象都标记为。根据网络培训的要求，截断比率设定为1/3。换句话说，如果图像边界超出图像的对象区域大于对象区域的1/3，则我们不标记该对象。

根据定义的标记原理，特定标记过程包括三个步骤。第一步是确定标记文件的存储位置和新创建的数据集的存储位置，并为样本中的每个对象绘制边界框。第二步是为每个对象的边界框分配标签类别。第三步是确定样品中的对象是否被遮挡或截断，如果存在，则需要为对象标签添加描述字段。

在这项工作中，标有11550个图像，包括10394次训练集和1156个测试集。此外，新数据集名为SSMCAR。数字3.是SSMCAR DataSet注释的快照。

2.3。图像块架构

从当前GPU的有限可用内存中，深度卷积网络不可行，接受大图像作为输入，特别是对于大于2000×2000的图像尺寸[14.]．在SSD检测模型中，它将整个图像调整为固定大小。如图所示1(一)，它将图像调整为512×512。这种方法的缺点是它直接将图像大小调整为固定大小，这不仅减少了图像本身的分辨率，而且影响对象特征的学习效果，尤其是对于大图像。因此，提出了一种基于图像块的物体检测方法。如图所示1 (b)，根据某个策略将输入图像分成块[15.]，然后每个块根据我们的SSD方法培训。

在我们的SSD512框架中，为了使图像本身的质量更大，我们提出了一种将原始图像划分为具有不同大小的块的策略。由于SSD模型需要预先将图像调整为固定尺寸，例如将图像尺寸调整为300×300或512×512的大小。同时，卷积神经网络的特征表明，原始图像的最小调整对最终检测结果具有小的影响。因此，我们使用枚举方法将原始图像划分为围绕300×300或512×512的块，然后选择最佳块方案。在完成图像块之后，在输入到我们的SSD模型之前，每个块将大小调整为300×300或512×512。这种方法有两个优点。一方面，它减少了在网络学习过程中的小物体的损失，另一方面，它降低了SSD方法中的图像质量劣化问题。不可否认，图像的大小越大，该方法的检测结果越好。在本文中，我们研究的主要目的是自动驾驶的多目标检测。因此，我们使用自己的数据集作为示例来说明块策略的具体细节。

在本文中，样品的尺寸为1920×1200。我们假设输入网络的固定尺寸为512×512，并使用枚举方法选择靠近512×512的不同大小以分段原始图像。计算公式如下所示：在哪里表示水平和垂直块大小。如图所示4，使用从上到下和从左到右的方法沿着水平和垂直方向分割图像。

（一种）

（b）

（C）

（d）

图4.

不同的封锁策略1920×1200的图像。相同的颜色表示相同大小的块，不同的颜色表示不同大小的块。300×300块策略收益两种不同大小的300×300、120×300块,包括24块300×300和4块120×300,(a)中描述。同样,400×400块策略收益两种不同大小的400×400、320×400块,包括12块400×400和3块320×400 (b)中描述。此外,500×500和600×600的区块策略与图(a)和(b)相同，如(c)和(d)所示。

由于我们在图中使用的网络模型1 (b)是512×512模型，我们需要在将块到512×512的大小调整到网络之前调整到512×512的大小。我们定义了两个标准来选择最佳块方案。一个是块的尺寸是最接近512×512的尺寸;另一种是，块和块之间的差异是最小，每个块的宽高比是最大的。在图中4（b），根据我们定义的块方案，400×400块策略产生了400×400和320×400两个不同大小的块，包括400×400的12个块和320×400的3个块，我们发现4（b）是对我们的SSD模型产生最佳学习效果和最小误差的最佳阻塞策略。因此本文采用了这种分块方法，将图像分成400×400分块。

3.实验

3.1。培训我们的SSD模型

我们的SSD模型具有大型培训参数。如果我们从头训练网络的所有特征，那不仅耗时，而且易于数据过度装备和渐变无趋同[15.]．本文中迁移学习[16.的方法。在预训练模型的基础上，采用不同的数据集和不同的网络对模型的训练精度和损失函数进行了比较。

在培训过程中，我们的SSD模型将在图中的每个块中的所有锚点作为窗口，以确定窗口中是否存在对象。如果有一个对象，它会预测对象的类别和位置信息，否则，它将锚定定义为背景。如图所示5，我们的SSD模型将图形的每个块切成了8732个不同尺寸的锚点，每个尺寸都有一个感兴趣的区域（ROI）[17.]．我们使用那些8732个锚点作为批量训练，因此，如果投资回报率和对象满足重叠比率大于0.7的条件，则标签被设置为对象和区域的偏移量anchor被预测，否则，标签被设置为背景。

3.2。我们的SSD模型的损失功能

丢失功能适用于评估SSD模型的网络性能[18.]．损失函数分为本地化损耗（LOC）和分类损失（CONF）[19.，20.]，它定义如下：在哪里是一个匹配的默认框;是所有匹配的默认框，如果，然后．是对象类的softmax损失，这实际上是信心的损失[5]；是个损失(5]基于预测的盒子;通过交叉验证设置为1。

3.3。测试我们的SSD模型

3.3.1。图像金字塔建筑

由于我们的SSD模型旨在对小物体敏感，因此一些大物体分为不同的块，这可能导致原始分辨率的大物体的功能丢失。创建图像金字塔以解决此问题。具体地，提出了一种用于构造图像金字塔的图像金字塔规则，其中低分辨率图像的尺寸是高度高度的0.5倍。此外，由于我们的网络模型为512×512，见图1 (b)，如果图像尺寸小于512×512，这对于对象特征的学习将是有害的。如图所示6，我们的数据集图像的分辨率为1920×1200，并且图像金字塔的第三层的图像尺寸为480×300。根据我们的金字塔施工方法，第四层的图像尺寸为240×150，在学习对象特征中没有值，因此构造了三层图像金字塔结构。

3.3.2。非最大抑制方法

我们注意到SSD模型预测了每一层图像的结果。如图所示6，我们可以看到在我们的图像金字塔架构中有三个边界框，可以产生不唯一的检测。因此，NMS [21.，22.]算法可用于消除冗余(交叉重复)窗口，并找到最佳目标检测位置。

4.结果和分析

评估目标检测性能有三个参数，包括准确率、丢失率和检测率[23.- - - - - -26.]．其中mAP参数为7个对象的平均分类精度，取值范围为0 ~ 1。mAP值越大，分类精度越高。此外，利用帧速率(fps)来评估检测速度。

4.1。准确性

在本文中，我们使用SSD模型和我们的SSD模型来列车和测试VOC数据集，KITTI DataSet和我们的数据集（SSMCAR）。在此过程中，应用单个NVIDIA 1080TI GPU服务器，初始学习速率设置为0.01，迭代的数量设置为100,000和120,000次。

如图左侧所示7，SSMCAR数据集的准确性远高于VOC2007 DataSet或Kitti DataSet。由于VOC2007数据集和基提数据集的分辨率为500×375和1242×375，因此，SSMCAR数据集的分辨率为1920×1200，SSMCAR数据集的图像质量高于VOC2007数据集和基提的图像质量数据集。此外，集合透视和SSMCAR数据集的标签原则与VOC2007数据集和基提数据集不同。在进一步实验之后，它表明，增加样品的数量没有关于提高准确性的影响。而且，来自数字7（a）和7（b）可以看出，当VOC数据集和基蒂数据集的迭代次数达到100,000次且获得最高精度时，就会出现最佳解决方案。如图所示7（c），我们创建的SSMCAR数据集的最佳解决方案出现在100,000到120,000次迭代之间。

（一种）

（b）

（C）

如图所示7，我们的SSD模型的准确性高于SSD模型。与SSD模型直接调整图像到512×512，我们的SSD模型使用图像块，图像金字塔和特征融合方法来保护原始图像的特征。

4.2。损失

在每个完整的培训过程之后，合适的学习率可以保证在一段时间后损失降低到一个小值[27.，28.]．太小的学习率通常会使损失减少非常慢。相反，如果学习速率设置得太大，则初始损失可以非常快地减少，然后在不落下的情况下，它在一定距离处重复在一定距离处[29.]．因此，初始学习率设为0.01，学习率随着每次迭代而减小。而且，损失就是全部损失;包括分类丢失、定位丢失和目标检测丢失。在本文中，随着训练时间的增加，总损失逐渐减小，直到其趋于稳定，训练达到收敛;否则，当训练达到收敛时继续训练，就会发生过拟合。

如图所示8，我们的SSD模型具有比SSD模型更长的训练时间，但其总损失值是最小的。此外，我们数据集的丢失和时间的综合性能优于VOC2007数据集和基提数据集。

（一种）

（b）

（C）

4.3。检测率

随机捕获不同流量方案中的自主驾驶视频，以测试对象检测的结果。如图所示9，在相同的检测模型下，我们的数据集的性能优于KITTI数据集。同时，在相同的数据集下，我们的SSD模型的检测结果远远优于SSD模型。特别是无论目标大小，我们的方法都能有效地对目标进行检测和分类。此外，我们的方法很好地适应环境和气候变化。同时，统计上表4显示了不同方法的分类检测准确率、平均检测准确率和检测率。


检测模型	数据集	类别数量	总数	的数量	测试集数	每个类别的检测精度							总准确性	检测率
检测模型	数据集	类别数量	的训练样本	验证样本	测试集数	人	骑车人	motocycle.	车	小型公共汽车	公共汽车	卡车	总准确性	检测率

SSD.	VOC-2007.	20.	9963	5011	4952	0.5145	0.5379	0.5701	0.5883	0.5534	0.5499	0.5407	0.5507	28FPS.
	基蒂	5	7982	7183.	799.	0.6145	0.6379	0.6701	0.6883	0.6534	0.6499	0.6407.	0.6507	24FPS.
	SSM-Car.	7	11550.	10394	1156.	0.7903	0.8057	0.8109	0.8044.	0.8170	0.7968	0.8102	0.8050.	27FPS.

我们的SSD	VOC-2007.	20.	9963	5011	4952	0.7741	0.7856	0.7812	0.7821	0.7830	0.7904	0.7923	0.7841	31fps.
	基蒂	5	7982	7183.	799.	0.8145.	0.8279	0.8001	0.8083	0.8234	0.8499.	0.8407.	0.8107	29FPS.
	SSM-Car.	7	11550.	10394	1156.	0.9805	0.8972	0.9196	0.9585.	0.9043	0.8807	0.8984	0.9085	33 fps

（一种）

（b）

（C）

5.结论和未来的工作

在本研究中，我们提出了一种基于SSD模型的自主驱动对象检测算法。通过卷积层的特征融合，保证了对象功能的有效传输。在培训过程中，添加了一种图像块方法的策略，以改善小物体的检测性能。此外，我们提出了一种用于大物体的图像金字塔，有效解决了由图像分割引起的大物体特征损失的问题。但是，在本文中，我们定义了标记标准和对象类别以创建自动车辆技术的新数据集。我们的实验结果表明，本文的自主驱动所提出的检测算法具有良好的检测性能。

在将来的工作中，我们将根据检测到的结果跟踪对象，然后分析对象的运动趋势，为自主车辆的决策和路径规划提供有效支持[30.]．

数据可用性

本文中的数据可用性是真实可靠的。

利益冲突

关于本文的出版物没有利益冲突。

致谢

基金资助:国家自然科学基金(批准号:20071010901);陕西省科技计划项目(批准号:61572083);基金资助:国家自然科学基金资助项目(2014JM8351);2017 - zj - 717)。

参考

G. Ross, D. Jeff, D. Trevor，和M. Jitendra，“精确目标检测和语义分割的丰富特征层次结构”计算机视觉与模式识别，卷。2014年1日。查看在：谷歌学术
R. Girshick，“Fast R-CNN，”第十五届IEEE计算机视觉国际会议论文集(ICCV’15)，pp。2015年12月1440-1448。查看在：出版商网站|谷歌学术
S. ren，K。他，R. Girshick和J. Sun，“更快的R-CNN：迈向与地区建议网络的实时对象检测，”n, 2015年。查看在：谷歌学术
J. Redmon，S. Divvala，R. Girshick和A. Farhadi，“你只看一次：统一的，实时对象检测，”2016年IEEE计算机愿景和模式识别大会上的会议记录，CVPR 2016，pp。779-788，2016年7月。查看在：谷歌学术
W. Liu, D. Anguelov, D. Erhan et al，“SSD:单镜头多盒探测器，”计算机科学的讲义说明（包括在生物信息学中的人工智能和讲义中的讲座说明）：序言，卷。9905，pp。21-37,2016。查看在：出版商网站|谷歌学术
邓凯，李建新，庞春燕，周晓峰，“基于加权平面图的访问时间测度”，IEEE知识和数据工程TKDE交易，卷。28，不。8，pp。1959-1970,2016。查看在：谷歌学术
P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun，“Overfeat:集成的卷积网络识别、定位和检测”，发表于ICLR, 2014年。查看在：谷歌学术
J. Hoosang，R. Benenson，P. Dollar和B. Schiele，“有效的检测提案是什么？”图案分析和机器智能的IEEE交易，卷。38，不。4，pp。814-830,2016。查看在：出版商网站|谷歌学术
“基于深度卷积网络的视觉识别的空间金字塔池”，“基于深度卷积网络的视觉识别”，图案分析和机器智能的IEEE交易，卷。37，不。9，pp。1904-1916,2015。查看在：出版商网站|谷歌学术
G. Wang，X. Wang，B. Fan和C. PAN，通过旋转 - 不变矩阵表示的特征提取在空中图像中对象检测，“IEEE地球科学和遥感信件第14卷第2期6，第851-855页，2017。查看在：出版商网站|谷歌学术
Y.Jia，E. Shelhamer，J. Donahue等，“Caffe：快速特色嵌入的卷积架构”ACM多媒体会议的会议记录（MM '14），pp.675-678，ACM，Orlando，FLA，美国，2014年11月。查看在：出版商网站|谷歌学术
M. Everingham，L. Van Gool，C. K. I. Williams，J. Winn和A. Zisserman，“Pascal Visual Object类（VOC）挑战”，国际计算机愿景，卷。88，不。2，pp。303-338,2010。查看在：出版商网站|谷歌学术
J. Li，C. Liu和J. X. Yu，“基于上下文的XML关键字查询多样化”，IEEE关于知识和数据工程的交易第27卷第2期3, pp. 660-672, 2015。查看在：出版商网站|谷歌学术
Y. Lu，W. Wang，J.Li和C. Liu，“XClean：为XML关键字查询提供有效的拼写建议，”2011年IEEE第27届国际数据工程国际会议综合办法，ICDE 2011年，第661-672页，德国，2011年4月。查看在：谷歌学术
N. Alduaiji, A. Datta，和J. Li，“基于群体的社交网络社区检测的影响传播模型”，计算社会系统的IEEE交易，卷。5，不。2，pp。563-575,2018。查看在：出版商网站|谷歌学术
Y.Zhu，R. Mottaghi，E.Kolve等，“使用深度加强学习的室内场景中的目标驱动的视觉导航”2017年IEEE机器人和自动化国际会议的会议记录，ICRA 2017，pp.3357-3364，新加坡，2017年6月。查看在：出版商网站|谷歌学术
C. Chen, A. Seff, A. Kornhauser, J. Xiao，“DeepDriving: Learning affordance for direct perception in autonomous driving”，in第15届IEEE计算机愿景会议的诉讼程序，ICCV 2015，pp.2722-2730，智利，2015年12月。查看在：谷歌学术
L. D. Ackel，D. Sharman，C. E. Stenard，B. I. Strom和D. Zuckert，“用于自助银行的光学字符识别”AT＆T技术期刊第74卷第1期4，第16-24页，1995。查看在：谷歌学术
W. Danwei和Q. Feng，“四轮转向车辆的轨迹规划”2001年IEEE机器人与自动化国际会议的诉讼程序，pp。21-26,2001。查看在：谷歌学术
P.F.Felzenszwalb，R.B.Girshick，D. Mcallester和D. Ramanan，“具有鉴别训练有素的零件型号的物体检测”，图案分析和机器智能的IEEE交易，第32卷，第2期9, pp. 1627-1645, 2010。查看在：出版商网站|谷歌学术
A. Zweig和D. Weinshall，“利用对象层次:结合来自不同类别层次的模型”，发表于2007年IEEE第11届计算机愿景会议的诉讼程序，第1-8页，里约热内卢里约热内卢，巴西，2007年10月。查看在：出版商网站|谷歌学术
G. J. Brostow, J. Fauqueur，和R. Cipolla，“视频中的语义对象类:一个高清地面真实数据库”，模式识别字母，卷。30，不。2，pp。88-97，2009。查看在：出版商网站|谷歌学术
C. H. Lampert，H. Nickisch和S. Harmeling，“学习通过级别的属性转移来检测看不见的对象课程”2009年IEEE计算机愿景和模式识别大会上的诉讼程序，PP。2009年6月951-958。查看在：谷歌学术
M. M.Nwar，C.刘和J.Li，“发现和跟踪了动态信息网络中查询导向的活动在线社交组，”全球资讯网，2018年。查看在：谷歌学术
C. Szegedy，A. Toshev和D. Erhan，“对象检测的深度神经网络”神经信息处理系统的进步， vol. 26, NIPS, 2013。查看在：谷歌学术
Y. Lecun和Y.Bengio，“用于图像，语音和时间序列的卷积网络，”脑理论和神经网络的手册，M. A. Arbib，ED。，MIT Press，1995。查看在：谷歌学术
A. Coates，B. Huval，T. Wang，D. J. Wu，以及A. Y.NG，“深入学习Cots HPC系统”第30届机器学习国际会议（ICML'13）的诉讼程序，卷。28，PP。1337-1345，JMLR：W＆CP，亚特兰大，GA，2013年。查看在：谷歌学术
C. Szegedy，W. Liu，Y.Jia等人，“与卷曲更深，”计算机愿景和模式识别的IEEE会议的诉讼程序（CVPR '15），pp.1-9，波士顿，大众，美国，2015年6月。查看在：出版商网站|谷歌学术
R. Mottaghi，X. Chen，X. Liu等，“野外对象检测和语义细分的角色，”计算机视觉与模式识别，2014，第891-898页，美国，2014年6月。查看在：谷歌学术
王建平，“基于轨迹数据视角的城市人口流动模式研究”，《城市规划》，2014年第4期。IEEE通讯杂志，卷。56，没有。3，pp。142-149,2018。查看在：谷歌学术

复杂性

位置感知大复杂网络数据的分析与应用

抽象的

1.介绍

2.方法论

2.1。特征融合网络

２.２.数据集

2.2.1。样品采集

2.2.2。注解

2.3。图像块架构

3.实验

3.1。培训我们的SSD模型

3.2。我们的SSD模型的损失功能

3.3。测试我们的SSD模型

3.3.1。图像金字塔建筑

3.3.2。非最大抑制方法

4.结果和分析

4.1。准确性

4.2。损失

4.3。检测率

5.结论和未来的工作

数据可用性

利益冲突

致谢

参考

版权

更多相关文章

相关文章