文摘
为了改善传统的检出率单发multibox检测算法在小目标检测,feature-enhanced融合SSD对象检测算法提出了基于金字塔网络。首先,所选的多尺度特征层融合金字塔通过功能与尺度不变的卷积层网络结构;同时,地图多尺度特性是分别转换成扇区卷积频道号码使用的内核。然后,获得两套金字塔形状的功能层的进一步功能融合生成一组增强的多尺度特征图谱,并再次执行尺度不变的卷积在这些层。最后,获得了层是用于检测和定位。最后的位置坐标和信心是nonmaximum抑制后的输出。在2007年和2012年帕斯卡VOC实验结果数据集确认地图相比,有8.2%的改善原来的SSD和现有的一些算法。
1。介绍
的迅速发展,计算机视觉,对象检测已逐渐成为该领域的重要研究方向之一,在生活中也有广泛的应用需求,如无人驾驶汽车和水下探测机器人。它也可以用于图像分类(1- - - - - -3]。
近年来,获利的深度学习的发展,目标检测的性能已经迈出了新的一步。R-CNN [4]Hariharan等人2014年提出的结构是最具代表性的。该方法使对象检测方法基于候选区域建议网络发展迅速,如R-CNN越快(5]和面具R-CNN [6]。然而,这些方法的检测是进行特征图谱生成single-scale卷积核,以及每层的特征荷载太大。因此,回归正逐渐提出了检测方法。Redmon等人提出了YOLO[意思7)结构和刘等人提出的SSD (8)模型,通过回归获得的所有对象。网络边界框的框架和类概率,端到端特征提取和对象检测实现速度的提高。虽然传统的SSD模型使用多尺度金字塔特性为边界框提取层,浅特性用于结构只有一层,和不同大小的特征图谱不相关,导致更少的功能细节(9),而小物体的检测要求高分辨率特征图,导致较弱的小目标检测的影响。
目前,许多研究人员进行了相应的研究在提高SSD模型的小目标检测能力。温家宝等人使用一个深黑色的过滤器提高特征图的分辨率提高SSD算法(10)和改进的数据增强小目标检测效果。兴等人改进了特征映射基于多尺度对象分布和比例因子的检测框架使得算法改善在检测行人在小规模闭塞(11]。唐等人利用多视图通过多视图和多通道SSD模型改善SSD模型和并行检测,从而提高精度(12]。虽然小目标检测已得到改进,因为各种各样的地区划分方法,容易分离检测大型对象,而影响检测的鲁棒性和准确性,与单帧检测率较高。傅结合剩余网络ResNet提出D-SSD算法(13];其检测精度有一定的提高,但由于网络深度的增加,不仅使可怜的缺陷的实时检测,还高计算能力,类似于F-SSD算法提出的李,周14]。
此外,还有一些超限分辨重建特征图的使用生成对抗网络减少了小对象的检出率。P-GAN的典型算法由Li et al。15),但这种方法还增加了时间消耗。
针对的问题错过了传统SSD算法的检测小目标检测,特别是对提高小目标检测,特征金字塔网络是用来改善SSD算法,并结合特征融合、功能pyramid-enhanced融合SSD (FPEF-SSD)的基础上,提出了利用特征金字塔网络融合的特点upsampling层和尺度不变的卷积的一层一层,同时保留多尺度特征提取的传统固态结构。首先,执行功能融合,此外,卷积与同样大小的内核是用于执行频道号码转换地图上多尺度特性。然后,两组金字塔形状的特征层融合根据功能级联。最后,生成一组增强的多尺度特征图谱,检测,定位,输出最终的位置坐标和信心后使用NMS (nonmaximum抑制)上执行尺度不变的卷积这一层。
2。相关的工作
2.1。单发探测器(SSD)模型
基于VGG-16网络结构(16),SSD算法提取多个特性集层金字塔的形状预测对象类和对象标签。与区域基于提案的卷积神经网络相比,SSD算法取消大量的地区。提出了生成过程大大提高了检测的速度。进一步研究多目标检测算法,它是一个直接预测对象类和输出边界框的坐标。因为几个金字塔形状的特征图谱,同时检测的时间消耗性能单一特征层的检测算法是有效地消除,效果更好。最初的SSD算法的模型结构如图1。
图1显示SSD的网络结构模型,它是基于VGG-16。在训练中,类似卷积的结构层添加到池层是重复;最初的完全连接层FC-6成了卷积层通过卷积操作内核大小3和过滤器深度1024,和FC-7层与内核执行相同的操作规模1和深度1024;卷积层conv6_1 conv9_2是额外的层。和层conv4_3 FC-7、conv6_2 conv7_2, conv8_2,和conv9_2网络提取预测对象的位置坐标和信心,在conv4_3层需要额外的l2正规化每个像素的通道。原因是图所示2。
图2显示了结果的可视化后的重量微调pretraining模型提供的(8)(X轴参数的顺序,和Y轴的值)。conv4_3层中可以看出,这不是标准化的,重量有很大的波动率的其他特征提取层相比,正规化是必需的。一个 - - - - - -正规化操作规模的元素值对于一个给定的向量 ,这是
因此,l2是正规化的时是2。然而,为了防止特征向量正规化1因为太小的对象,网络很难和正规化的向量是由一定的多个放大。
然后,通过两套卷积核的大小3的数量(是渠道的数量每一层功能,具体确定类别的数量或坐标),为每个特性提取和每个职位,将生成默认盒子将4或6;在每个默认框位置,信心值将生成类别。它预测坐标,包括左上角坐标和宽度和高度值。总之,如果特征地图的大小 ,每个盒子都需要预测值,所以每一层需要给的 输出。
总结每个训练图像的输出后,积极的和消极的样本数据需要相应的决定。的简要描述这些数据的目的是区分所有的输出对真正的协调由相应的类名称根据借据(十字路口在联盟)。公式如下:
所有的输出特征图可以分为正样本或负样本根据借据是否大于一个指定的阈值(一般选择0.5),比例是1:3。
2.2。SSD的多尺度特性分析
最初的SSD的多尺度特征主要表现在不同规模的多元化功能的同时使用地图输出对象坐标和阶级的信心。结合图中的数据1,一个数学公式可用于抽象生成过程的多尺度特性图,如下: 在哪里代表了特征映射;的非线性映射 - - - - - -功能获得的地图特征映射,如卷积和池的联合操作;和是最原始的输入。最后测试的输出可以表达的 在哪里代表的检测结果特征映射,代表最终的NMS操作,是最终的输出结果。
根据上述公式的推理,在SSD模型中,每一层的功能信息仅仅是由上一层。因此,每一个功能层需要复杂和抽象足以检测对象更准确。这意味着选择的特征映射需要一定分辨率的基础上提供更详细的探测器的表达式。
金字塔网络结构特征的图像、高分辨率的特性,在低级层通常包含更少的抽象语义信息;然而,特性对高层低分辨率层通常包含丰富的语义信息。因此,SSD特征提取的过程中,大多数小型原始图像中的对象,地图上高级特性的抽象信息将由多个卷积和少池、探测器毫无察觉。
因此,SSD算法主要使用高层次的抽象特性检测,以及对中型和大型对象检测效果更好。然而,低级特征层用于小规模的对象检测只是conv4_3,所以功能的表达能力是不够的。
3所示。功能Pyramid-Enhanced融合SSD
3.1。在图像处理功能金字塔的分类
阿德尔森提出的图像特征金字塔最初et al。17),其目的是构造图像的多尺度模型可以更好地适应图像的多尺度变化。图像金字塔广泛应用在图像识别和目标检测等领域。有许多类型的金字塔网络和数字3显示了一些类型。
(一)
(b)
(c)
(d)
在金字塔网络分类图3,图3(一个)显示一个图像与一个固定的输入大小;一系列逐渐小层生成卷积和池操作后,和最终功能层是预测输出,这是一种常见的单一特征图检测,主要用于图像识别(18,19]。图3 (b)表示输入图像首先是在多尺度缩放,然后分别输入图像多尺度的特征提取的卷积操作;最后,每个检测获得的特性,叫做图像金字塔(20.,21]。图3 (c)是类似于图3(一个),唯一的区别在于,选择多层逐步小层同时预测和综合结果,叫做金字塔特征层次结构网络(8]。图3 (d)是类似于图3 (b),唯一的区别是,再次使用的地图多尺度特性是upsampled然后用相应的特征融合层获得进一步的预测特征图,其目的是提取和融合更深层次的功能当选择功能层,称为特征金字塔网络(22]。
3.2。对象检测功能Pyramid-Enhanced融合SSD
基于金字塔SSD算法和网络结构,SSD物体检测算法结合金字塔网络融合方法提出了改进的特性,称为FPEF-SSD。这个网络的结构如图4。
在图4首先,网络的输入图像从左到右,和输入图像的大小裁剪300。第一部分是原来的SSD模型特征选择层,然后得到六个金字塔特征图,指定的部分2。1。前五个特征图受到尺度不变的卷积操作通过使用卷积核的大小是1,步长1和256号,他们的目标是统一所有渠道的数量特征图的通道层最高。边缘的特征信息是保存在最大的程度上因为互补的操作。这层被命名为卷积X−1,X代表了原始特征层名称;然后,对这些五层上进行取样操作除了第一层,中间部分如图所示4,这些层放大两倍原来的一个使用最近邻插值;接下来,从底层开始,特征融合进行先后与上一层的上层抽样层(黑色固体圆图4);这里,特征融合element-wise之外,这意味着在对应位置的值两组的功能,所以条件是图层和通道的数量的大小是一样的。
的损失函数训练主要使用分类和回归损失和损失表示如下:
在这里,代表了默认的盒子,代表了真正的盒子,代表了类,代表一个输入的选择匹配度高于0.5;的默认框的交叉比率系数相匹配真实位置盒类 ; 默认设置为1。如果是0,损失是0。和类信心损失函数值和位置坐标损失函数,分别表现在方程(6)和(7):
的功能相对简单,这意味着的比率通过使用将SoftMax损失,对数的总和。在方程,代表真正的标记框,这是图像中类的重新分配,包括四个参数;对应于大小默认计算帧位置,计算 ,和一个区别,最后使用顺利l1损失计算。
第一次融合后操作,因为深和浅的结合特性,插值操作上取样的浅层会带来错误,所以卷积操作通常需要完成模糊去除。本文算法提高了这一层的功能在卷积操作。具体地说,第一次融合后的第一个五层特性与特征融合前再次upsampling(黑色实心方块图4)通过使用级联(Concat)融合功能。这一次,通道的数量在256年两组特征,因此不需要额外的批处理标准化处理,从而尽可能确保检测速度;最后,这些增强功能再次卷积,卷积核的大小使用3层从高到低的特性,但是渠道的数量是512,1024,512年、256年和256年先后。检测是进行最后一个特性的功能层金字塔。
最后,由于SSD算法生成大量的边界框,包括大量的边界与错误,重叠,或信心不足,它必须使用NMS迭代优化,这是所有的边界框根据获得的信心。然后,最大的一个选择,和所有其他的盒子比较。如果比较结果大于给定的借据,盒子被丢弃;否则,盒子是保留,放在最终的结果集。接下来,第二高的盒子置信水平重复上述步骤,直到候选人盒子是空的,以及由此产生的最终预测输出的边界框。
4所示。实验
4.1。实验环境和数据集
本文实验环境中使用的是Ubuntu 16.04,英特尔酷睿i5 - 7500 CPU模型,NVIDIA GeForce GTX 1070 Ti, GPU模型的内存大小是8 gb和16 gb的RAM。使用的主要框架是TensorFlow 1.8.0和OpenCV 3.4.0。
本文实验主要是对2007年和2012年帕斯卡VOC数据集进行。作为标准数据集,帕斯卡VOC是用来测量的基准水平目标检测能力。有20个类,如表所示1。
4.2。实验步骤和评价指标
该算法使用pretrained VGG-16权重在ImageNet上半年FPEF-SSD算法的权重和转换后者的一半VGG-16 FPEF-SSD算法的网络模型。然后,trainval VOC 2007用于培训。最后,VOC 2007测试集上的算法进行了测试,批量大小设置为16,最初的学习速率为0.001,迭代的数量是120000,衰减增加迭代次数,和学习速率设置为0.0001的情况下,设置为0.00001 80000到100000倍的100000到120000倍。
自从类信心和位置需要被评估对象检测问题,每个图像可能包含多个对象在多个类别,所以正确的比率等指标中使用常见的图像分类不能连续使用目标检测问题。2007年帕斯卡VOC测试集,相关算法的检测精度和速度主要是相比。其中,地图(平均平均精度)作为评价指标的准确性,和FPS(每秒帧数)作为评价指标的实时检测。
在这个实验中使用的地图意味着,在多类对象中检测的P- - - - - -R曲线可以根据每个类的精度和召回。精度和召回的计算公式如下: 在哪里代表了积极的预测作为正样本,样本的数量代表负样本预测作为正样本的数量,和代表正样本预测为负样本的数量。
通过交叉的区域P- - - - - -R曲线与坐标轴的平均精度,所以地图意味着平均美联社所有类的价值。这个公式表示如下:
FPS被定义为图片的数量,可以在1秒。表示平滑时,下面的公式可以计算出: 在哪里代表了时间花在每个图像的检测。当帧率通常高于24时,它可以被认为是基本平稳。
4.3。实验结果和分析
FPEF-SSD算法与现有的一些优秀的目标检测算法相比2007年VOC测试集,主要SSD、YOLO,意思和R-CNN更快。结果如表所示2,最初的SSD使用大小为300,这是一样的,在8];YOLO版本意思2007训练集用于培训VOC根据开源代码,批量大小是32,输入大小是320,最初的学习速率为0.001,和总迭代50000次;和更快的R-CNN使用VGG网络,区域的建议是2000,获得的结果(5]。下面的测试结果都是基于0.5的借据。
从表可以看出2,该算法比原来的SSD高5.6%,有3.7%的改善R-CNN快两步检测算法。在检测速度、时间成本算法下的单个图像是关于24女士,这是类似于YOLO算法。意思并与原始的SSD,只有5帧/秒,但地图是大大提高了。
在每个类的检测精度,与这些算法该算法进行比较,结果如表所示3。与其他三种算法相比,改进的SSD的精度提高了在大多数类。并与传统的SSD,拼数据集训练的情况下,改进算法有显著提高目标检测的小样本类,如飞机和植物。
然后,每个测试算法的帕斯卡VOC 2012数据集。具体来说,VOC 2007和2012一起使用的训练集测试2012年VOC的测试集,和所有其他培训流程是一样的只有VOC 2007培训。结果如表所示4和5。
算法与原算法相比,FPEF-SSD几乎完全超过20类和具有良好的效果,尤其是对小样本类比如飞机。与2007年和2012年帕斯卡VOC作为训练数据,最大的改进是8.2%。改进算法的精度提高了2%以上,所以效果明显优于传统的固态硬盘。虽然弱于YOLO或更快的意思R-CNN在某些类,它仍然有机会迎头赶上,和它有优势的速度提高。例如,一些图片是随机从互联网下载的,用于比较这些算法的检测效果,结果如图所示5(基于帕斯卡VOC 2007年和2012年)。
(一)
(b)
(c)
(d)
(e)
根据不同的算法的结果如图5,R-CNN越快是好的,但它需要很长时间,和一些类有多个检测;在图5 (b)(瓶),我们可以看到,我们的算法有更好的效果和原来的SSD最严重的影响;在图5 (c),我们的算法相当于R-CNN越快,消耗更少的时间;在数据5 (d)和5 (e)类有一个略大的大小,所以每个算法显示了前三个算法的一般性能和信心不是很高。综合比较的结果还表明,FPEF-SSD理想,和有一定改善检测的小对象。
图6显示了迭代和损失之间的关系,结果在2007年VOC培训和VOC 2007年和2012年的联合训练。结果表明,当迭代60000次,它开始平和最后收敛,并联合训练的效果优于VOC 2007只训练。
(一)
(b)
此外,为了解释改进该算法对小目标检测的影响能力,训练有素的原始SSD和改进的SSD,分别可视化图像的特征映射过程,结果如图所示7。
(一)
(b)
图7显示的功能映射过程的可视化培训原始SSD和改进的SSD。上述飞机集团的功能层图像卷积后被选中。由于空间的限制,代表底层conv4_3被选中时,由于渠道的数量几百层,具有代表性的是手动选择通道水平。图7(一)显示了原始SSD的底层conv4_3特征映射算法,和图7 (b)改进算法的地图显示了潜在的功能。底层conv4_3层的主要特点是高分辨率但低级抽象,可以学习点的基本特征和颜色。从图可以看出,原算法具有较低的表达能力和提取也不是很充分。这是贫穷的原因影响小目标检测;相反,改善FPEF-SSD提取纹理地图上低级特征和细节特征越发比原来的算法,和轮廓和形状更清晰和明显。
SSD模型主要使用低级特性来检测小对象和使用高级特性来检测中型和大型对象。然而,低级卷积层SSD的小目标检测模型只有一层称为conv4_3,和功能的表达能力是不够的。尽管高级卷积层包含5层,其介质对象特征提取能力仍不足,这使得SSD模型的检测效果中对象和小对象弱于大对象。本文的深层特征映射的SSD合并低功能映射。目的是分配的更抽象的语义信息特征映射到低特征映射,然后对合并执行回归功能映射,所以效果更好。
然后,根据上述各自conv4_3层,预计的位置坐标和对应于所有类输出的信心。检测结果如图8。
(一)
(b)
图8显示了检测盒通过最初的SSD和FPEF-SSD conv4_3层及其对应的信心。自检测框初始数量太大,执行过滤的NMS阈值0.5和0.1的信心阈值。可以看出,改进后的算法具有更好的检测效果在底层特征地图,基本上给了小物体的正确预测,尽管SSD有一些错误检测,这也显示了feature-enhanced融合有很大影响小物体的检测。
此外,还观察到两种算法将检测小物体,如飞机,一艘船,或一只鸟在某种程度上,尽管misdetection不高的信心,也反映了困难检测相似的对象。
基于上述分析,提出FPEF-SSD算法在精度和检测率有一定的优势。然而,由于有限的计算能力,该算法的训练和验证只在执行相同的最小数据集规模,也没有更多的数据集训练相结合。大部分的文献研究表明,如果更多的数据集添加到训练,将会有更好的结果。
5。结论
针对传统单发小对象的检测精度低的检测算法,一个功能pyramid-enhanced融合SSD目标检测算法。一方面,原有的SSD是金字塔网络结合特性,和高级特性映射抽象和丰富的语义信息与低级特征融合高分辨率和更多的细节,可以使底部特征层融合丰富的语义细节信息;另一方面,融合的多尺度特性是金字塔之间的融合特性进一步增强特性。实验结果表明,该地图FPEF-SSD有显著改善,并且没有检测速度明显放缓。但仍有改进的余地小物体的检测,特别是小的misdetection相似的对象。例如,优化上抽样层插值法或者使用高级特性的GAN超限分辨重建层被认为是进一步提高小目标检测的精度。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
本文支持部分由中国国家自然科学基金(61501147)、中国黑龙江省自然科学基金(YQ2019F011),大学护理程序为年轻学者与黑龙江省创新型人才(unpysct - 2018203),黑龙江省科技教育中心的研究项目(11551087),为黑龙江大学基础研究基础(LGYC2018JQ013)和研究生创新基金会(yjscx2012 - 112 hlj)。