研究文章|开放获取
一种通过多尺度地形图的跳跃连接来改进SSD的方法
摘要
SSD(单次MultiBox的探测器)是最好的目标检测算法之一,并能够实时提供高精度的物体检测性能。然而,SSD表示在小物体的检测性能相对较差,因为它的浅预测层,它负责检测的小物件,缺乏足够语义信息。为了克服这个问题,SKIPSSD,多尺度特征映射的一种新的跳跃连接的改进的SSD,在本文提出了增强的语义信息和所述预测层通过跳格地熔合高级别和低级别的特征映射的详细信息。对于融合方法中的细节,我们设计了两个特征融合模块和多个融合策略来改善SSD检测器的灵敏度和感知能力。在PASCAL VOC2007测试组实验结果表明,SKIPSSD显著提高了检测性能,优于许多国家的最先进的对象检测器。With an input size of 300 × 300, SKIPSSD achieves 79.0% mAP (mean average precision) at 38.7 FPS (frame per second) on a single 1080 GPU, 1.8% higher than the mAP of SSD while still keeping the real-time detection speed.
一。介绍
基于深度学习的目标检测算法大致可分为两类:基于区域建议的目标检测算法和基于端到端的目标检测算法。众所周知,以前的模型通常包括R-CNN[1,快R-CNN [2],更快的R-CNN[3],和R-FCN [4]首先生成一组与类别无关的区域建议,用于后续的特征提取和分类。后两种最流行的基于端到端的模型是YOLO(您只看一次)[五]和SSD(单拍MultiBox的检测器)[6],需要设置默认框,训练网络,建立先验框、默认框和地面真值框的关系。
两阶段方法,如SPP-net[7,快R-CNN [2],和更快的R-CNN [3],一般只使用最后一层作为预测层,但接收场大小固定的层不适合太大和太小的目标检测。SSD创新性地利用ConvNet的金字塔特征层次,将多个不同分辨率的特征映射的预测结果结合起来,解决了目标检测器的尺度变化问题。一般来说,SSD不仅能够实现目标的实时检测,而且以其较高的检测精度而著称。关于帕斯卡VOC 2007测试[8],SSD以46 FPS的速度实现77.2%的mAP,使用单个NVIDIA Titan X GPU输入大小为300 × 300[6]。然而,SSD的多尺度预测层间的键是没有充分考虑,和低级特征地图缺乏小物体检测足够语义信息;因此,SSD表示在小物体的检测性能差[9]. 如图所示1,一些小物件,在红色框例如船,不是由SSD检测。
针对SSD在检测小目标的同时表现出性能差的问题,采用了一种新的多尺度特征映射跳跃连接到SSD,并给出了总体结构图2。主要贡献总结如下:(1)SKIPSSD,多尺度特征映射的一种新的跳跃连接的改进的SSD,提出了提高的语义信息和所述预测层通过跳格地熔合高级别和低级别的细节特征;(2)6个多尺度特征融合结构映射在所述SSD网络,以及两个特征融合模块和多个融合策略被设计以调查最佳特征融合框架;(3)在PASCAL VOC 2007测试组实验以比较SKIPSSD的与国家的最先进的其他对象的检测器的性能。
实验结果表明,skipsd算法显著提高了检测性能,并优于许多最新的目标检测器。在输入大小为300 × 300的情况下,skipsd在单个1080gpu上以38.7fps(每秒帧)的速度达到79.0%的mAP(平均精度),比SSD的mAP高1.8%,同时仍保持实时检测速度。
2.方法
2.1条。相关工作
在物体检测领域中,图像金字塔通常用于解决引起的目标尺度的变化检测性能的劣化。然而,这样的一种算法是非常耗时。SSD创新使用来自具有不同比例的多个层的ConvNet的锥体特征层次结构和联合机的预测,减轻在一定程度目标尺度变化的问题[6]。然而,SSD的多尺度预测层间的键是没有充分考虑,和低级特征地图缺乏小物体检测足够语义信息;因此,SSD表示在小物体的检测性能差[9]。
为了应对SSD,DSSD(解卷积单次检测器)的上述问题[10]使用Resnet-101[11]代替了SSD中使用的VGG,增加了反褶积层,引入了大尺度背景。DSSD虽然提高了SSD的小目标检测性能,但其检测速度远低于SSD,无法实现实时检测。之后,在SSD小目标检测的精度和速度上做了大量的工作。RSSD公司[12]在SSD中采用不同层之间的权重分配策略,由于计算复杂度的增加,精度提高了0.8%,速度降低到35fps。FSSD公司[9]使用一个轻量级和高效的功能融合模块,在VOC2007测试集上以65.8fps的速度达到78.8%的mAP,在精度和速度上都优于RSSD300。带保险丝的SSD300[13]简单地进行Conv4_3和SSD的Conv5_3之间elt_sum功能,达到78.9%的MAP,这比FSSD更高一点。相结合的双级和单级方法的优点,RefineDet [14]使用ARM模块缩小搜索空间,通过TCB连接模块将ARM的特征传输到ODM模块,在40.3fps时达到81.8%的映射,输入大小512×512,超过DSSD513。进一步提高SSD、DES(丰富语义检测)的准确性[15]不仅引入了分割模块,以获得掩模,这在客观上提高了的浅特征的语义信息,但也介绍了全球激活模块,以增强的高级特征的语义信息。DES512提升在31.7 FPS在VOC2007测试集映射到81.7%。DES512的精度在速度为代价得到改善。
上述算法提高SSD的检测精度。然而,他们的推理时间增加了不少。整体而言,这是很有价值的,以获得满意的实时性能高精度对象检测性能。
2.2条。多尺度特征融合结构设计
许多研究发现,网络不同层次的特征是互补的,多尺度特征的集成有利于多尺度对象检测[9,10,16]。更具体地说,非常不变性DCNN模型的特性使高级功能DCNN的映射学习数据以及这对物体识别,但显示副作用物体位置不错的抽象特征和低层特征映射含有丰富的空间结构细节的有益的定位对象。由编码器 - 解码器网络U-Net的[启发17]采用跳转连接将低层特征映射与高层特征映射相关联,实现像素级的定位,采用跳转连接SSD的思想增强语义信息。本文设计并评价了一系列基于SSD的多尺度特征映射融合结构,以探索最优融合结构:多尺度预测特征映射跳跃连接(skipsd)、部分跳跃连接(skipsd)、双向跳跃连接(biskipsd),跳过与基本网络(基本skipsd)、相邻连接(邻接ssd)和多尺度预测特征金字塔网络(FPNSSD)的部分特征映射的连接。
数字图3(a)显示了多尺度预测功能图之间的跳过连接,其中skipsd upsamples conv9u 2与conv7u 2熔合以获得conv7u 2熔合,upsamples conv8u 2与conv6u 2熔合以获得conv6u 2熔合,upsamples conv7u 2与fc7熔合以获得fc7u熔合,upsamples conv6u 2与conv4u 3熔合以获得conv4u 3熔合。多尺度预测特征映射跳过连接网络称为skipsd。数字图3(b)展示了SKIPSSD、Conv8_2、Conv9_2的预测层结构,融合的feature map Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff作为多尺度预测层。
(一)
(b)
如图4(甲)介绍了部分滑橇的结构。与skipsd相比,部分skipsd去掉了conv7u2层的特征融合,仅使用原始SSD的conv4u3uff、fc7uff、conv6u2ff和conv7u2、conv8u2、conv9u2作为多尺度预测特征映射。
(一)
(b)
图中的结构5(甲)在本文中称为biskipsd。与skipsd相比,Bi-skipsd分别增加了conv8u2层和conv9u2层的特征融合。Conv6_2经过卷积和池层,然后与Conv8_2合并以生成Conv8_2_ff。类似地,经过卷积和池层的conv7u2随后与conv9u2合并以生成conv9u2uff。数字5 (b)显示,双SKIPSSD使用Conv4_3_ff,fc7_ff,Conv6_2_ff,Conv7_2_ff,Conv8_2_ff和Conv9_2_ff作为多尺度预测特征地图。
(一)
(b)
与上述三种网络不同,图中的基本skipsd6在VGG基础网络的各层与预测层之间进行跳转连接。再将经过卷积和池化层的Conv4_1与Conv4_3合并生成Conv4_3_ff,后fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2与对应的基本特征层以类似的方式合并。融合特征图Conv4_3_ff、fc7_ff、Conv6_2_ff、Conv7_2_ff、Conv8_2_ff、Conv9_2_ff为多尺度预测特征图。
(一)
(b)
图中的结构图7(a)被称为AdjacentSSD。与SKIPSSD相比,AdjacentSSD进行相邻连接而不是跳过连接。层FC7,其经历上采样层,用Conv4_3合并以生成Conv4_3_ff,后者层Conv6_2,Conv7_2,Conv8_2,和Conv9_2与以类似的方式它们的相邻层合并。该图图7(b)显示,AdjacentSSD使用Conv4_3_ff,fc7_ff,Conv6_2_ff,Conv7_2_ff,Conv8_2_ff和Conv9_2作为多尺度预测特征映射。
(一)
(b)
图中的结构图8(a)被称为FPNSSD。从AdjacentSSD,其中,所述高级别层Conv9_2仅与相邻的层Conv8_2稠合以产生Conv8_2_ff不同,FPNSSD采用与所谓的FPN [横向连接自上而下体系结构16],如图所示9,高层Conv9_2层逐层融合,形成Con8_2_ff、Conv7_2_ff等。该图8(b)显示,FPNSSD使用Conv4_3_ff,fc7_ff,Conv6_2_ff,Conv7_2_ff,Conv8_2_ff和Conv9_2作为多尺度预测特征映射。
(一)
(b)
对上述6种基于SSD的多尺度地形图融合结构进行了部分分析,并在PASCAL VOC2007测试集上进行了评价3.4款探索最佳多尺度特征映射融合结构。
2.3条。特征融合模块设计
在本文中,两个特征融合模块设计用于高层次和低层次特征融合和融合效应在我们的实验中进行比较。CONCAT和eltsum是特征融合的两种常用方法。的concat操作是两种特征映射的信道串联。在来自Caffe,还有Eltwise层的三个操作:产物(点积),和(加或减)和max(取大的值),并将该和操作在本文中选择。
如图10,融合模块一个首先对高层特征图进行上采样,生成高层特征图,经过3×3卷积层和relu激活函数得到高层特征图。此外,将经过3×3卷积层和relu激活函数的低层特征映射转化为低层特征映射。然后利用concat或eltsum函数对融合后的低层特征图和高层特征图进行特征融合,得到高-低层特征图concat/sum。最后,利用relu激活函数激活经过1 × 1卷积层的高低层特征映射concat/sum,得到融合后的预测特征映射高低层特征映射。
与融合模块相比,一个在数字中10中,所述融合模块b在数字中11情报官。首先,融合模块bupsamples the high-level feature map to generate high-level feature map_up and transform low-level feature map into low-level feature map_reduce through a 1 × 1 convolutional layer. Then, concat or eltsum function is applied to conduct feature fusion between low-level feature map_reduce and high-level feature map_up to obtain the high-low-level feature map concat/sum. Finally, the high-low-level feature map concat/sum, which undergoes a 3 × 3 convolutional layer to reduce the aliasing effect, is activated with the relu activation function to obtain the prediction feature map high-low-level feature map_fused.
三。结果和讨论
为了评估改进后的SSD网络的性能,寻找最优的多尺度特征映射融合框架,本文设计了四种测试用例:(1)比较skipsd在使用不同特征融合模块时的性能。通过实验,可以找到最有效的特征融合模块。(2)比较不同融合策略对skipsd模型性能的影响。通过实验,可以选择最有效的融合策略。(3)比较对SKIPSSD模型的性能不同的采样方法的效果。通过该实验,可以选择最有效的上采样方法。(4)比较不同地形图融合结构的SSD性能。通过实验,找到了最有效的特征融合结构。
实验硬件和软件配置如表所示1。为了评估SKIPSSD的性能,VOC2007的联盟trainval和VOC2012trainval作为训练数据,以VOC2007测试作为测试数据。为了公平的比较,实验都是基于VGG16进行的,VGG16作为SSD进行预处理,skipsd的训练方法与SSD相同。表中列出了参数设置2。地图和FPS采用的指标评价检测性能。
|
||||||||||||||||
|
||||||||||||||||||||
3.1条。两个特征融合模块对模型性能的影响
In order to find the optimal feature fusion module, SKIPSSD with different feature fusion modules are evaluated on the PASCAL VOC 2007 test, and the performance evaluated with an input size 300 × 300 is recorded in Table3。在该实验中,SKIPSSD的网络示于图3,在融合模块中所有卷积内核后加入BN (Batch Normalization)层。
|
|||||||||||||||||||||||||||||||||||||||||||||||||
根据表的结果3,SKIPSSD与融合模块一个实现了78.1% mAP,比SSD高0.9%,融合模块实现了SKIPSSD mAPb是1.1%,比地图SSD较高,表明多尺度特征的跳跃连接映射确实提高SSD的性能。由于SKIPSSD与融合模块b性能优于融合模块一个在两个精度和速度,该融合模块b被选择在本文中用于高低电平特征融合。
3.2条。融合策略对模型性能的影响
在本实验中,比较了影响因素的两个方面:(1)concat和eltsum融合方法;(2) BN层的全部和部分使用。实验结果见表4。在实验中,上采样方法是去卷积和扩张卷积,并且融合模块是b。
|
||||||||||||||||||||||||||||||||||||||||||||||||
从表的第一行和第三行的数据4在相同的网络结构下,eltsum融合方法比concat方法具有更好的精度。比较表中的第二、第三和第四行4,加入BN层可以提高SKIPSSD的精度。eltsum函数后仅使用BN层时,SKIPSSD的mAP达到78.4%,比融合模块所有卷积层后使用BN层的SKIPSSD高0.1%。经过综合分析,本文的SKIPSSD采用eltsum融合方法,仅在eltsum函数后的卷积层中使用BN层。
3.3。上采样方法对模型性能的影响
为了研究上采样上SKIPSSD性能的方法的效果,我们采用两种方法上采样到SKIPSSD的特征融合模块。第一种方法是去卷积和扩张卷积,以及特定的网络结构参数示于图12. 第二种方法是双线性插值,具体的网络结构参数如图所示13。
桌子五结果表明,采用双线性插值上采样方法的SKIPSSD在PASCAL VOC2007测试集上以38.7 FPS的速度取得了79.0%的mAP,在速度和精度上都优于反卷积和扩张卷积上采样方法。因此,本文选择双线性插值作为上采样方法。
|
||||||||||||||||||||||||||||||||||||
3.4。对模型性能的特征融合结构的影响
本实验比较了6种不同的特征融合结构SKIPSSD、Part-SKIPSSD、Bi-SKIPSSD、Base-SKIPSSD、entssd、FPNSSD在PASCAL VOC 2007测试集上的性能。在本实验中,上采样方法为双线性插值,融合模块为b融合方法为eltsum,BN层仅用于eltsum函数后的卷积层。
如表所示6,碱SKIPSSD达到78.6%MAP,比SSD更高1.4%由VGG基础网络和预测层的层间导通跳过连接。然而,下预测层,例如Conv4_3_ff仍然缺乏对小物体检测足够语义信息。FPNSSD采用与构建高层语义特征的横向连接的自上而下结构映射在所有尺度是用于多尺度物体检测好,但定影设有一层一层是不是足够有效的,同时也有很多的层被组合在一起。和AdjacentSSD达到几乎相同的性能FPNSSD,表明没有必要密集地经由保险丝自上而下架构具有逐层。与FPNSSD相比,通过融合低层次和高层次的功能映射跳格,SKIPSSD更轻便,高效。和部分SKIPSSD和Bi-SKIPSSD的表现证明了少跳过连接不带来速度的明显优势,多跳连接会导致冗余和不带来显著精度的提高。因此,在结束时,SKIPSSD网络被选择作为最佳特征融合的结构。
|
||||||||||||||||||||||||||||||||||||||||||||||||||
3.5条。帕斯卡VOC 2007实验
SKIPSSD的损耗曲线显示在图14(甲). 在训练过程中损失不断减少。在最初的50000个步骤中,损失急剧减少。16000步后,下降速度进一步减慢,20万步后损失曲线趋于不变。相应地,如图所示14(b),在前50,000步中,准确率急剧上升,2000步后趋于稳定,在22,500步时达到79.0%。
(一)
(b)
桌子7显示PASCAL VOC 2007测试集上的对象检测结果。与SSD相比,skipsd在瓶、船、鸟、植物等18类小目标上都有较大的改进,说明了SSD在小目标检测方面的不足。在低维输入300 × 300下,skipsd实现了79.0%的无铃无哨地图,优于许多最先进的目标检测算法,如更快的R-CNN[3],约洛夫2[18],约洛夫3[19],和DSSD [10]. 尽管SkipSD的地图比Refined320低1%[14]通过采用多尺度特征图的跳跃连接,RefineDet_SKIP320的mAP比RefineDet320高出0.4%,说明本文提出的跳跃连接是有效的,也可以集成到其他目标检测器中。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.6条。推断时间
桌子8展示了在PASCAL VOC 2007测试集上skipsd和最新物体探测器的速度和精度的比较。为了公平比较,我们还测试了SSD300[6],RSSD300 [12],和RefineDet320 [14]上的GeForce GTX 1080。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在单个1080 GPU,SKIPSSD300达到79.0%MAP在38.7 FPS,1.8%地图比原始SSD更高和超越大多数其他国家的最先进的物体检测模型,包括两个阶段,一个阶段方法和其他的提高SSD的机型。虽然SKIPSSD的检测速度有点大于SSD慢由于高级别和低级别的特征之间的额外特征融合,但仍高于RSSD [快12]和RefineDet [14]能够实现实时检测。而且RefineDet_SKIP的表现优于RefineDet[14]在精度和速度上,证明了本文提出的跳跃连接在目标检测任务中的性能优于FPN。
3.7条。可视化
如图15,与数字相比15(甲)和15(b),当目标密集时,SKIPSSD比SSD检测更多的同类目标。与数据15(丙)-15(H),SKIPSSD可以更好地检测小的物体比原来的SSD,并且还可以“捕捉”远处的物体,这证明了基于多尺度特征图的跳跃连接的建议SKIPSSD可以提高整个模型的性能和小物体的检测性能。
(一)
(b)
(c)
(d)
(e)中
(F)
(G)
(小时)
4.结论
在本文中,基于多尺度特征的跳跃连接地图是提出了一种改进SSD算法SKIPSSD。为了保险丝高级别和低级别的有效功能,各种特征融合模块和融合连接模块被设计和比较。Experimental results show that with an input size 300 × 300 on 1080 GPU, SKIPSSD achieves 79.0% mAP at 38.7 FPS, 1.8% higher than SSD and can still keep real-time detection speed. In addition, although the skip connection is only adopted to SSD and RefineDet in this paper, it can also be integrated into other object detectors.
在未来的工作中,将采用通道注意机制,通过学习每个通道的重要性,过滤掉不重要的通道,提高特征的显著性。
数据可用性
用来支持这项研究的结果的数据是可用的,请相应的作者。
利益冲突
作者声明本论文的发表不存在利益冲突。
致谢
笔者想感谢江苏海外访问学者计划大学杰出青年和中年教师和校长的支持。(:2016YFB0502103授权号)和中国江苏省自然科学基金项目(批准号:BK20160696)这项工作已被中国的国家重点研究发展计划项目的支持。
工具书类
- R. Girshick,J.多纳,T.达雷尔,和J.马立克,在“用于精确物体检测和语义分割丰富的功能层次,”2014年IEEE计算机视觉与模式识别会议纪要,第580-587页,CVPR,华盛顿特区,美国,2014年6月。查看位置:出版商网站|谷歌学者
- R、 Girshick,“快速R-CNN”,在计算机视觉的IEEE国际会议论文集2015年12月,智利圣地亚哥,1440-1448页。查看位置:出版商网站|谷歌学者
- S.仁,K他,R. Girshick和J.太阳,“更快R-CNN:对实时目标检测与区域网络的建议,”在神经信息处理系统进展,91-99页,麻省理工出版社,加拿大蒙特利尔,2015年12月。查看位置:出版商网站|谷歌学者
- J、 Dai,L.Yi,K.He等人,“R-fcn:基于区域的全卷积网络的目标检测”,in神经信息处理系统进展,第379-387页,巴塞罗那,西班牙,2016年12月。查看位置:谷歌学者
- J、 Redmon,S.Divvala,R.Girshick,和A.Farhadi,“你只看一次:统一的,实时的目标检测”,in计算机视觉和模式识别的IEEE会议论文集,第779-788页,IEEE计算机协会,拉斯维加斯,内华达州,美国,2016年6月。查看位置:出版商网站|谷歌学者
- W、 Liu,D.Anguelov,D.Erhan等人,“固态硬盘:单点多盒探测器”,in欧洲会议计算机视觉的诉讼,第21-37页,施普林格,湛,瑞士,2016年10月。查看位置:谷歌学者
- K、 何,张,任,孙,“空间金字塔在深卷积网络中的集合,用于视觉识别,”IEEE交易模式分析与机器智能,第37卷,第9期,第1904-1916页,2015年。查看位置:出版商网站|谷歌学者
- M.埃弗林厄姆,L.范GOOL,C. K. I.威廉斯,J.温,和A. Zisserman,“该帕斯卡视觉对象类(VOC)的挑战,”国际计算机视觉杂志卷。88,没有。2,第303-338,2010。查看位置:出版商网站|谷歌学者
- Z、 Li和F.Zhou,“FSSD:功能融合单点多盒探测器”,2017年,https://arxiv.org/abs/1712.00960。查看位置:谷歌学者
- 傅昌义,刘文伟,兰加等,“DSSD:反卷积单点探测器”,2017,https://arxiv.org/abs/1701.06659。查看位置:谷歌学者
- K.他,十张,S仁等人,“深残留学习图像识别”,在计算机视觉与模式识别IEEE会议纪要,第770-778,西雅图,华盛顿,美国,2016年6月。查看位置:出版商网站|谷歌学者
- J、 Jeong,H.Park和N.Kwak,“通过连接目标检测功能图增强固态硬盘”,2017年,https://arxiv.org/abs/1705.09587。查看位置:谷歌学者
- G、 曹,谢,杨等,“功能融合固态硬盘:小目标快速检测”,载于第九届图形图像处理国际会议纪要,第14-16页,中国青岛,2018年10月。查看位置:谷歌学者
- S.张,属文,肖B.等人,“为目标检测单次细化神经网络”,在计算机视觉和模式识别的IEEE会议论文集,第4203-4212,盐湖城,UT,USA,2018年6月。查看位置:出版商网站|谷歌学者
- 张,乔,谢,沈,王,和余丽丽,“具有丰富语义的单镜头目标检测”,中计算机视觉和模式识别的IEEE会议论文集,第5813-5821,盐湖城,UT,USA,2018年6月。查看位置:出版商网站|谷歌学者
- T、 Lin,P.Dollar,r.Girshick等人,“用于目标检测的特征金字塔网络”,2016年,https://arxiv.org/abs/1612.03144。查看位置:谷歌学者
- O、 Ronneberger,P.Fischer和T.Brox,“U-net:生物医学图像分割的卷积网络”,in医学图像计算与计算机辅助干预国际会议论文集,第234-241,德国慕尼黑,2015年10月。查看位置:谷歌学者
- J. Redmon和A. Farhadi,“YOLO9000:更好、更快、更强”,in计算机视觉和模式识别的IEEE会议论文集,第7263-7271,檀香山,HI,USA,2017年7月。查看位置:出版商网站|谷歌学者
- J、 Redmon和A.Farhadi,“YOLOv3:渐进式改进”,2018年,https://arxiv.org/abs/1804.02767。查看位置:谷歌学者
- Z、 沈,刘,李,江,陈,薛,“Dsod:从零开始学习深度监控的物体探测器”,年计算机视觉的IEEE国际会议论文集,1919-1927页,威尼斯,意大利,2017年10月。查看位置:出版商网站|谷歌学者
版权
版权所有©2020 Zhang Xiaogou等人。这是一篇在知识共享署名许可,它允许在任何媒体中不受限制地使用、分发和复制,前提是正确引用了原始作品。