小对象具有多尺度特征的检测

文摘

现有的目标检测算法基于深卷积神经网络需要进行多级卷积和池操作整个图像以提取深度图像的语义特征。大对象的检测模型可以得到更好的结果。然而,这些模型未能检测到低分辨率小物体,极大地受到噪声的影响,因为功能反复卷积操作现有的模型并不完全代表小物体的基本特征。在这篇文章中,我们可以实现很好的检测精度通过提取对象的卷积特性在不同的水平,使用多尺度特性来检测小对象。对于我们的检测模型,提取图像的特征从他们的第三,第四,第五曲线玲珑,分别,然后这三个尺度特性是连接到一个一维向量。使用向量分类对象的分类和定位的位置信息对象边界框的回归。通过测试,我们的模型对小对象的检测精度是11%高于最先进的模型。此外,我们还利用遥感图像中检测飞机的模型,取得了良好效果。

1。介绍

对象检测,不仅需要精确的分类图像中的对象,但也需要精确定位的对象是一个自动图像检测过程基于统计和几何特性。对象分类和对象位置的准确性是很重要的指标来衡量模型检测的有效性。对象检测广泛应用于智能监控、军事目标检测,无人机导航、无人驾驶汽车、智能交通。然而,由于检测对象的多样性,当前模型未能检测对象。多变的光和复杂背景目标检测的难度增加尤其是对象的复杂环境。

图像分类和位置的传统方法多尺度金字塔方法需要在多尺度提取图像的统计特性,然后分类的图像分类器(1- - - - - -3]。因为不同类型的图像具有不同的特性,很难使用一个或多个特性来表示对象,不实现一个健壮的分类模型。这些模型未能检测到对象尤其是有更多的检测对象在一个图像。

深度学习以来取得了巨大的成功在目标检测领域,它已成为目标检测的主流方法。这些方法(例如,RCNN [4],Fast-RCNN [5],Faster-RCNN [6],SPP-Net [7],R-FCN [8)取得了良好的效果,进一步研究多目标检测在图像。但是这些目标检测算法是基于帕斯卡VOC数据集(9训练和测试的)。帕斯卡VOC数据集,它提供了一个标准的评价体系检测算法和学习性能,是应用最广泛的标准数据集对象领域的分类和检测。数据集由20目录与人类生活密切相关,包括人类和动物(鸟、猫、牛、狗、马、羊),车辆(飞机、自行车、船、公共汽车,汽车,摩托车,火车),和室内物品(瓶,椅子,桌子,盆栽植物,沙发,和电视)。从上面的对象分类,我们可以发现大多数物体的实际尺寸大对象数据集。即使有一些小物品,如瓶,这些小对象显示很大的对象在图像因为焦距。因此,基于数据集的检测模型组成的大型对象将不会有效地检测到的小物体在现实10]。

基于这一问题,我们主要研究小对象的自动检测。对于小型对象,我们将它定义为两种类型:一是一个小物体在现实世界中,如鼠标和电话。和其他小物件;这些大型对象在现实世界中,但它们所示的小物体的形象因为相机角度和焦距,如在空中图像或对象检测遥感图像。小对象数据集如图1。

通常,由于小物体附近的低分辨率和大对象,小物件往往被大型对象,它会导致故障自动检测过程中检测到。当鼠标在图1通常放置在监控,共同特点检测模型(11,12)通常专注于更重要的监控和忽略了鼠标。此外,我们不仅找到图像中检测到对象,还需要准确地标记为对象检测对象的位置。因为大检测对象有许多图像中像素,可以准确地定位自己的位置。但是,恰恰相反的是小物体低分辨率和像素。更多,因为小物体像素较少和有限像素包含几个对象特性,很难探测到小对象由传统的检测模型。此外,很少有研究,引用,也没有标准数据集小物体的自动检测。

为了解决这些问题,我们提出一种多尺度卷积深探测网络检测小物体。网络是基于Faster-RCNN检测模型。我们首先结合的特点3th4th,和5th卷积层小物体的一个多尺度的特征向量。然后,我们使用向量来检测小对象和定位对象的边界框。为了培养小物体,本文还使用方法(13专注于小物体)来构建一个数据集。最后,通过比较提出了检测模型与先进的检测模型,我们发现我们的方法的准确性比Faster-RCNN要好得多。

本文组织如下。节2介绍相关工作。之后的部分3,我们将演示检测模型。实验是在一节4。我们得出这样的结论与讨论部分5。

对象检测一直是机器视觉领域的一个热门话题。传统的基于滑动窗口检测方法需要在多尺度分解的图像的图像。通常,一个图像分解为很多好子窗口的数百万不同的地点和不同的尺度。然后使用分类器模型确定检测对象是否包含在每个窗口中。该方法效率很低,因为它需要详尽的搜索。此外,不同的分类器也影响对象的检测精度。为了获得可靠的分类器,分类器的设计是根据不同的检测对象。例如,冷雾特性结合演算法分类器(14)是人脸检测的可用性。对于行人检测,我们使用猪特性(梯度直方图)结合支持向量机(15)和猪特性结合DPM(可变形模型部分)16,17)是经常使用的通用对象的检测。但是,如果有很多不同种类的检测对象在一个图像,这些分类器将无法检测的对象。

自2014年以来,辛顿使用深度学习达到最好的分类精度的ImageNet竞争,然后深度学习已成为一个热门方向检测的对象。对象检测基于深度学习的模型分为两类:第一,是广泛使用的是基于该地区建议(18- - - - - -20.),如RCNN [4],SPP-Net [7],Fast-RCNN [5],Faster-RCNN [6],R-FCN [8]。其他方法不使用地区建议但直接检测对象,如YOLO[意思21]和SSD [22]。

对于第一种方法,模型首先执行roi选择在检测;也就是说,multiple RoI年代是由选择性生成搜索(23),边箱(24),或项25]。然后为每个RoI模型提取特征年代CNN,分类对象分类器,最后获得检测对象的位置。RCNN [4)使用选择性搜索(23]生产约2000 RoI年代对于每一个图像,然后提取和分类的卷积特性2000 RoI年代,分别。因为这些投资回报率年代有大量的重叠部分,大量的重复计算低效率的检测结果。SSP-net [7]和Fast-RCNN [5)提出一个共同的RoI年代功能这个问题。提取的方法只有一个CNN特性从整个原始图像,然后提取每个RoI的特点从CNN特性RoI池独立操作。所以每个RoI的计算提取特征量是共享的。这种方法减少了CNN操作需要2000次RCNN CNN一个操作,从而大大提高了计算速度。

然而,无论是SSP-net或Fast-RCNN,尽管他们减少CNN操作的数量,其消费远远大于时间CNN特征提取的GPU,因为每个对象的边界框的选择需要约2秒/图像CPU。因此,对象检测的瓶颈在于地区的建议操作。Faster-RCNN输入特征提取通过CNN的RPN(地区建议网络)网络和获得建议的RPN网络,因此它可以分享图像特征提取的CNN,从而减少选择性搜索操作的时间。项后,Faster-RCNN分类获得地区建议通过两个完全连接层和回归边界框的操作。实验证明,这不仅是速度更快,但也建议的质量更好。R-FCN认为完整的连接分类为每个RoI Faster-RCNN也是一个非常耗时的过程,所以R-FCN分类过程集成到网络的计算过程。因为这个过程对于不同的RoI是共享的,它比一个单独的分类器快得多。

另一种类型是不使用对象检测区域的建议。YOLO整个原始图像分为意思的年代细胞。如果一个对象的中心落在一个细胞内,相应的细胞负责检测对象并设置每个单元的信心得分。分数反映的概率存在对象的边界框和借据的准确性。YOLO不使用意思地区提议,但直接对整幅图像卷积操作,所以它比Faster-RCNN速度快,但精度小于Faster-RCNN。SSD还使用一个卷积神经网络卷积图像和预测一系列边界框有不同的大小和长度和宽度的比例在每个对象。在测试阶段,网络预测每个类的对象的可能性在每个边界框和调整适应的形状的边界框对象。G-CNN [25)作为目标检测的问题改变检测盒从一个固定的网格的盒子。模型首先将整个图像具有不同规模来获取初始边界框和提取特征从整幅图像卷积操作。然后特征图像包围一个初始边界框调整到固定大小的特征图像的方法Fast-RCNN提及。最后,我们可以获得更准确的边界框的回归。边界框将若干次迭代后的最终输出结果。

简而言之,当前主流的有两种类型的对象检测方法,首先将有更好的精度,但速度慢一些。第二个是精度稍差,但速度更快。不管是哪种方式进行目标检测,特征提取采用多层卷积方法,可以获得丰富的抽象对象特性的目标对象。但这种方法会导致减少检测精度为小目标对象因为特征提取的方法很少,不能完全代表对象的特征。

此外,帕斯卡VOC数据集对象检测的主要数据集,它是由20个类别的对象,例如,牛、公共汽车和行人。但是所有的这些图像中的对象是大型对象。即使在帕斯卡VOC,还有一些小的对象,例如,杯,但这些小对象显示非常大的图像中的对象因为焦距。所以,帕斯卡VOC不适合小物体的检测。

微软可可数据集(26)是一个标准的数据集由微软团队对目标检测,图像分割和其他领域。数据集包括各种类型的小型对象与背景的复杂性,因此它适用于小物体检测。太阳数据集(27)由908年的场景类别和4479对象类别和总共131067张图片,也含有大量的小对象。

为了得到丰富的小对象数据集,本文(13)采用两个标准来构建数据集。首先,对象的实际大小不超过30厘米。另一个标准是,物体的面积不超过0.58%的形象。作者也给RCNN基于数据集的映射,检出率只有23.5%。

3所示。模型介绍

3.1。Faster-RCNN

RCNN模型提出的2014年Girshick对象检测分为四个过程。首先,2000建议区域获得的图像中区域的建议的算法。第二,它分别提取了二千个建议地区CNN的特性和输出固定尺寸特性。第三,根据对象的分类特征。最后,为了获得精确的对象边界框,RCNN准确定位和合并的前景对象回归操作。该算法取得了最好的精度。但它需要一个额外的存储空间和时间为代价,因为RCNN需要提取2000建议在每个图像区域的特征。之后,Fast-RCNN Girshick提出的基于RCNN,模型,建议所有区域映射到一个图像和只有一个特征提取。所以Fast-RCNN大大提高了检测的速度和培训。然而,Fast-RCNN仍然需要提取建议地区RCNN一样。 The proposal regions extracted lead to inefficiency. Faster-RCNN integrates the generation of proposal region, extracting feature of proposal region, detection of bounding box, and classification of object into a CNN framework by the RPN network (region proposal network). So it greatly improves the detection efficiency. The RPN network structure diagram is shown in Figure2。Faster-RCNN的核心思想是使用RPN网络直接生成建议的地区和使用锚定机制和回归方法输出一个客体性分数和退化边界地区的每个建议;也就是说,the classification score and the boundary of the 3 different scales and 3 length-width ratio for each proposal region are outputted. Experiments show that the VGG-16 model takes only 0.2 seconds to detect each image. In addition, it has been proved that the detection precision will be reduced if the negative sample is very high in the dataset. The RPN network generates 300 proposal regions for each image by multiscale anchors, which are less than 2000 proposal regions of Fast-RCNN or RCNN. So the accuracy is also higher than them.

Faster-RCNN只提供一层的RPN改进Fast-RCNN网络相比,不改善功能映射层相比Fast-RCNN网络。Faster-RCNN网络结构如图3。Faster-RCNN执行多个将采样操作过程中特征提取。每个采样导致的图像被减少一半。输出图像在第五层是Faster-RCNN原始对象的1/16;也就是说,only 1 byte feature is outputted on the last layer if the detected object is smaller than 16 pixels in the original image. The objects failed to be detected because little feature information can not sufficiently represent the characteristics of the object.

尽管Faster-RCNN取得很好的检测结果帕斯卡VOC,帕斯卡VOC主要由大型对象。检测精度会下降如果数据集主要由小对象。

3.2。多尺度Faster-RCNN

在现实中,检测到的对象是低分辨率和较小的大小。当前的模型(例如,Faster-RCNN)为大型对象具有良好的检测精度不能有效地检测小物体在图像(28]。主要原因是这些模型基于深层神经网络使图像计算卷积和downsampled为了获得更抽象和高级特性。每个downsampling导致图像被减少一半。如果对象是类似于对象的大小在帕斯卡VOC,对象的细节特性可以通过这些曲线玲珑,将采样。然而,如果检测到对象是非常小的规模,最终的功能可能只是左1 - 2像素经过多次将采样。所以一些功能不能完全描述对象的特征和现有检测方法不能有效地检测出小目标对象。

更深层次的卷积操作,更抽象的对象特性,可以代表对象的高级特性。浅卷积层只能提取底层特征的对象。但对于小物体,低级特性可以确保丰富对象特征。为了得到高层和抽象的对象特性,并确保有足够的像素来描述小物体,我们结合不同尺度的特性,以确保本地对象的细节。与此同时,我们也注意到全球基于Faster-RCNN对象的特征。这个模型会更健壮的特性。模型结构如图4。

模型分为四个部分:第一部分是特征提取层由卷积5层(红色部分),5 ReLU层(黄色部分),2池层(绿色部分),3 RoI池层(紫色部分)。我们正常侧吹风的输出,4日和5日卷积,分别。然后规范化输出被发送到的RPN层和功能组合层代的提议地区和提取的多尺度特性,分别。第二部分是结合了不同尺度的特征组合层特性,第三,第四,第五层到一维特征向量连接操作。第三部分是项层主要实现一代的提议的地区。最后一层,用于实现对象的分类和边界框回归在提议地区,由softmax和BBox。

3.3。L2正常化

为了获得组合特征向量,我们需要不同尺度归一化的特征向量。通常越深褶积层输出规模较小的特性。相反,较低的卷积层输出规模较大的特点。不同层次的特征尺度是非常不同的。大规模的重量特性将远远大于小规模的特点在网络权重调整如果这些不同尺度的特性相结合,从而导致较低的检测精度。

防止如此大规模功能覆盖小规模特性,输出不同的特征张量RoI池前应该规范化这些张量是连接。在本文中,我们使用L2正常化。规范化操作,用于处理每一个特征向量集合,坐落在RoI池。特征向量的归一化后,规模的3th4th,和5th层将被归一化到一个统一的尺度。在哪里是原来的向量从3th4th,和5th层,是归一化的特征向量,D是每个RoI的频道数池。

向量将由规模的统一缩放;也就是说, 在哪里。

误差反向传播的过程中,我们需要进一步调整比例因子和输入向量。具体定义如下:

3.4。Concat层

特性后,第三、第四和第五层L2规范化和RoI汇集,输出向量需要连接。由四元组(即连接操作。,number, channel, height, and weight), where number and channel represent the concatenation dimension and height and weight represent the size of concatenation vectors. All output of each layer will be concatenated into a single dimension vector by concatenation operations. In the initial stage of model training, we set a uniform initial scale factor of 10 for each RoI pooling layer [11)为了确保下游层的输出值是合理的。

然后以确保完整的连接的输入向量具有相同的尺度Faster-RCNN作为输入向量,一个额外的11卷积层添加到网络压缩的通道连接张量的大小,即。,相同数量的通道大小最后卷积特性映射(conv5)。

3.5。算法的描述

快RNN为两种训练方法提供了端到端的培训和候补,还提供了三个pretraining网络与VGG-16大小不同,VGG_CNN_M_1024,分别和ZF。大型网络VGG-16有13个卷积层和3层完全连接。ZF净5卷积层和3层完全连接小型网络和VGG_CNN_M_1024中型网络。实验表明,该检测的准确性VGG-16比其他两个模型,但它需要超过11 g GPU。为了提高模型的训练速度,我们使用VGG_CNN_M_1024模型作为pretraining模型和使用交替训练作为一种训练方法。培训的主要过程如表所示1。


培训过程

输入:VGG_CNN_M_1024和形象
输出:检测模型
步骤1初始化ImageNet pre VGG_CNN_M_1024和训练的RPN网络训练模型。
(1)使用前培训模型参数初始化网络参数
(2)初始化的咖啡
(3)准备roidb imdb
(4)设置输出路径保存咖啡模块生成的中间。
(5)培训的RPN和节省网络的重量
第2步使用训练有素的RPN网络在步骤1中,我们生成roi信息和方案的前景对象的概率分布的地区。
步骤3第一培训快速RCNN网络
(1)建议地区从步骤2被发送到roi
(2)概率分布的前景对象发送到网络中对象的重量提议的地区
(3)通过对比咖啡斑点的大小,我们得到的重量对象以外的提议的地区
(4)loss-cls和loss-box损失函数计算,分类和定位对象,获取检测模型。
步骤4在步骤3中获得的检测模型替换为ImageNet网络模型在步骤1中,重复步骤1 - 3,最终模型的训练模式。

4所示。实验分析

4.1。数据采集

目前,常用数据集在目标探测是帕斯卡VOC,由大对象或对象的尺寸非常小但图像中对象的面积很大,因为焦距。因此,帕斯卡VOC不适合小目标检测。没有数据集小目标对象。为了测试模型的检测效果在小对象,本文将建立一个小对象数据集对象检测基于微软可可数据集和数据集。

建筑小对象数据集的过程中,我们把两个标准中提到的(18]。第一个标准是,检测对象的实际大小不超过30厘米。第二个条件是,所有的小图像中的对象占据0.08%到0.58%的区域形象;也就是说,the pixels of the object are between 1616 - 4242像素。帕斯卡VOC的小物体占据1.38%和46.40%区域的形象,所以它不适合小目标检测。统计信息表如表所示2(18]。


类别	猫	沙发	火车	狗	表	摩托车	马

面积比	46岁。40	33.87	32.33	30.96	23.73	23.69	23.15

类别	公共汽车	飞机	自行车	人	鸟	牛	椅子

面积比	23.04	22.83	14.38	8.14	8.03	6.68	6.09

类别	电视	船	羊	植物	车	瓶

面积比	5.96	3.82	3.34	2.92	2.79	1.38

根据上述标准,我们选择8组成数据类型的对象,包括鼠标,电话,插座,水龙头,时钟,厕纸,瓶子和板。过滤可可和太阳数据集后,我们最后选择了2003图片,包括共有3339个对象。358年282图片,鼠标分布和其他对象,如卫生纸、水龙头,插座面板,和时钟,如表所示3。


类别	鼠标	电话	出口	水龙头	时钟	厕纸	瓶	板

数量的图片	282年	265年	305年	423年	387年	245年	209年	353年
的对象数	358年	332年	477年	515年	422年	289年	371年	575年

本文建立的小对象数据集是基于可可和太阳。因为可可和SUN的数据主要是基于日常生活的场景,图像背景的复杂性在我们的数据集比帕斯卡VOC的要大得多。此外,还有更多的对象在单一图像与帕斯卡VOC相比,大多数这些对象并不在图像中心。这些使对象检测基于小对象数据集比基于帕斯卡VOC更加困难。

在实验中,我们随机选择300图像作为测试集和600年从小数据集,验证集和所有剩余的图像作为训练集训练。

4.2。实验比较

本文比较我们的模型与先进的检测模型Faster-RCNN小目标检测。在模型训练的过程中,我们的模型和Faster-RCNN模型使用替代的训练方法。首先,我们训练的RPN网络和网络使用的RPN pretraining网络训练检测网络。然后重复上述步骤,得到最终的检测模型。在培训过程中,我们有40000项网络和20000次迭代的迭代检测网络。的最终精度检测表所示4。


模型	地图	鼠标	电话	出口	水龙头	时钟	厕纸	瓶	板

快RCNN	0.479	0.360	0.409	0.519	0.392	0.643	0.350	0.485	0.676
我们的模型	0.589	0.402	0.482	0.600	0.506	0.687	0.641	0.585	0.806

随着迭代次数的增加培训网络,不同的模型将显示不同的检测结果。在实验中,我们也试图增加迭代的数量;也就是说,RPN网络迭代60000次,检测网络迭代30000次。获得的结果如表所示5。


模型	地图	鼠标	电话	出口	水龙头	时钟	厕纸	瓶	板

快RCNN	0.491	0.447	0.449	0.549	0.424	0.604	0.309	0.428	0.719
我们的模型	0.587	0.371	0.564	0.572	0.561	0.690	0.546	0.514	0.880

我们可以发现,检测精度是稳定的,当网络是40000项的迭代次数和迭代次数的检测网络是20000年从上面的实验。我们的模型的准确性优于Faster-RCNN所有类型的对象。检测对象的部分效果图如图5。

为了进一步检测模型的鲁棒性,我们还检测遥感图像在现实环境。遥感影像数据集来自谷歌地图和绝缘体的输电线路由无人机拍摄(无人机)。因为图像在现实环境多变的光的特点,复杂的背景,和不完整的对象,我们尽量考虑所有特殊情况在构建数据集。实验结果表明,我们建议的检测模型具有更好的检测结果在小物体检测在实际环境。检测对象的部分效果图如图6。

5。结论

小物体很难检测到,因为他们的低分辨率和较大的影响周围的环境。现有的检测模型基于深层神经网络不能检测到小物体因为对象的特征提取,许多卷积和池操作丢失。我们的模型不仅可以确保大对象的特征的完整性还保存完整的小物体的细节特征提取图像的多尺度特性。所以它可以提高检测的准确性的小对象。

甘斯(生成对抗网)已经广泛应用于游戏领域,取得了好的结果(29日]。未来工作我们相信调查更复杂的技术来提高小目标检测的准确性,包括生殖敌对的网,将是有益的。现有的对象检测通常检测小物体通过学习在多尺度表示的对象。然而,性能通常是有限的偿还成本计算和图像的表示。在未来,我们解决的小目标检测问题,内部的电梯表示“super-resolved”的小物体,实现类似的特征作为大型对象,因此更有识别力的检测。最后,我们使用对抗网络训练检测模型。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金资助下61662033和61662033号,航空科学基金(重点实验室)批准号20162852031,和特殊科学仪器的发展下的中国科技部批准号2016 yff0103702。

引用

p .中提琴和m·琼斯,“快速目标检测使用一个简单的特性,提高了级联”《IEEE计算机学会学报计算机视觉与模式识别会议页,I511-I518考艾岛,夏威夷,美国,2001年12月。视图:谷歌学术搜索
r . Lienhart和j . Maydt”一组扩展的Haar-like特性快速目标检测,”《图像处理国际会议(ICIP ' 02),页900 - I / I / 903,罗切斯特,纽约,美国,2002年9月。视图:谷歌学术搜索
p .中提琴,j·c·普拉特和c .张“多个实例对象检测、提高”诉讼的年会在神经信息处理系统(捏' 05)18卷,第1424 - 1417页,2005年12月温哥华,不列颠哥伦比亚,加拿大。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)俄亥俄州哥伦布市,页580 - 587,美国2014年6月。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。学报》第15届IEEE计算机视觉国际会议(ICCV 15),页1440 - 1448,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2017页。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能,37卷,不。9日,第1916 - 1904页,2015年。视图:出版商的网站|谷歌学术搜索
李y, j·f·戴,k . m . et al .,“R-FCN:通过提出对象检测完全,”30日研讨会论文集在神经信息处理系统(少量的2016)西班牙,巴塞罗那,2016年。视图:谷歌学术搜索
m . Everingham l . van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(VOC)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。视图:出版商的网站|谷歌学术搜索
y任、朱c和s .肖”小目标检测的光学遥感图像通过修改R-CNN更快,”应用科学,8卷,不。5日,第813条,2018年。视图:出版商的网站|谷歌学术搜索
l . Itti c·科赫,大肠Niebur”saliency-based视觉注意力模型的快速场景分析,“IEEE模式分析与机器智能,20卷,不。11日,第1259 - 1254页,1998年。视图:出版商的网站|谷歌学术搜索
m m。程:j . Mitra黄x p h . s .托和S.-M。胡,”全球对比显著区域检测,”IEEE模式分析与机器智能,37卷,不。3、569 - 582年,2015页。视图:出版商的网站|谷歌学术搜索
o . m . c . Chen y . Liu Tuzel et al .,“R-CNN小目标检测,”亚洲会议上计算机视觉卷,10115在计算机科学的课堂讲稿,第230 - 214页,2016年。视图:谷歌学术搜索
j·s·Lim和w·h·金”检测多个人类使用运动信息和基于Harr-like学习演算法的特性,“国际期刊的混合信息技术,5卷,不。2、243 - 248年,2012页。视图:谷歌学术搜索
r P。Yadav,诉Senthamilarasu, k .当时,s . p . Ugale”实现健壮的HOG-SVM行人分类为基础,“国际期刊的计算机应用程序,卷114,不。19日,10到16,2015页。视图:出版商的网站|谷歌学术搜索
l .侯K.-H w .广域网。李,J.-N。黄、g . Okopal和j . Pitton”强健人类跟踪基于DPM约束多个内核从一个移动相机,“信号处理系统杂志》上,卷86,不。1,27-39,2017页。视图:出版商的网站|谷歌学术搜索
a·阿里和m . a . Bayoumi”实时DPM对象探测器司机援助,”学报》第23届IEEE国际会议上图像处理、ICIP 2016,页3842 - 3846年,凤凰城,亚利桑那州,美国,2016年9月。视图:谷歌学术搜索
美国贝尔,c . l . Zitnick k .巴拉和r . Girshick“内外网:检测对象上下文跳过池和复发性神经网络”学报2016年IEEE计算机视觉与模式识别会议,CVPR 2016,页2874 - 2883,拉斯维加斯,内华达州,美国,2016年7月。视图:谷歌学术搜索
t .香港、a .姚明,y . Chen和f .太阳,“HyperNet:对准确地区建议生成和共同目标检测,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)853年,页845 -拉斯维加斯,内华达州,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
f·杨,w . Choi和y林,“利用所有的层:快速、准确的CNN对象探测器与规模相关的池和级联分类器,排斥”学报2016年IEEE计算机视觉与模式识别会议,CVPR 2016,页2129 - 2137,拉斯维加斯,内华达州,美国,2016年7月。视图:谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”学报2016年IEEE计算机视觉与模式识别会议,CVPR 2016,页779 - 788,拉斯维加斯,内华达州,美国,2016年7月。视图:谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“SSD:单身multibox探测器拍摄,”欧洲计算机视觉卷,9905在计算机科学的课堂讲稿页21-37 Springer,可汗,瑞士,2016。视图:出版商的网站|谷歌学术搜索
j·r·r·Uijlings k·e·a . Van De Sande t . Gevers和a . w . m . Smeulders“选择性搜索对象识别,”国际计算机视觉杂志》上,卷104,不。2、154 - 171年,2013页。视图:出版商的网站|谷歌学术搜索
c . l . Zitnick和p .美元”,从边边框:定位对象建议,”欧洲计算机视觉施普林格,页391 - 405年,可汗,瑞士,2014。视图:出版商的网站|谷歌学术搜索
m . Najibi m . Rastegari l·s·戴维斯,“G-CNN:迭代的基于网格对象探测器”学报2016年IEEE计算机视觉与模式识别会议,CVPR 2016,页2369 - 2377,拉斯维加斯,内华达州,美国,2016年7月。视图:谷歌学术搜索
T.-Y。林,m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”欧洲计算机视觉卷,8693在计算机科学的课堂讲稿施普林格,页740 - 755年,可汗,瑞士,2014。视图:出版商的网站|谷歌学术搜索
http://groups.csail.mit.edu/vision/SUN/。
t·h·n·勒y郑,c .朱k并和m . Savvides”多个规模faster-RCNN司机的手机使用方式和手在方向盘检测”学报》第29届IEEE计算机视觉与模式识别会议研讨会、CVPRW 2016页46-53,拉斯维加斯,内华达州,美国,2016年7月。视图:谷歌学术搜索
吴x,徐k, p .大厅”的调查与生成对抗网络图像合成和编辑,“清华科技,22卷,不。6,660 - 674年,2017页。视图:出版商的网站|谷歌学术搜索

国际期刊的数字多媒体广播