对行人目标检测与优化R-CNN面具

文摘

针对行人目标探测精度低的问题,我们提出一种检测算法基于优化面具R-CNN使用深度学习的最新研究成果来提高检测结果的准确性和速度。由于光照的影响,姿势,背景,和其他因素对人类的目标在自然场景图像,目标信息的复杂性高。SKNet用来取代深度的卷积模块的一部分残余网络模型来提取特征更好的卷积模型可以自适应地选择最佳的内核在训练。此外,据统计法律、锚箱的长宽比被修改,使之更符合行人目标的自然特征。最后,建立了行人目标数据集通过选择合适的行人图像可可数据集通过添加噪声、中值滤波和扩展。优化算法与原算法相比,和其他几个主流目标检测算法在数据集;实验结果表明,优化算法的检测精度和检测速度提高,和其检测精度优于其他主流目标检测算法。

1。介绍

科技的进步使得机器视觉在视频监控中有着广阔的应用前景,智能交通,无人驾驶,和其他项目。随着高性能相机的普及设备和自动化分析的视频内容的需求激增,如何准确有效地提取目标的视频已经成为迫切需要解决的问题,尤其是在研究行人目标区域,甚至更多的机器视觉研究领域的一个热点问题。行人检测是大多数行人动态分析的基础。更准确的检测结果是否有关后续跟踪、分割、估计和其他任务可以准确、有效地完成。

目标检测算法主要有两个分支:一个是运动检测算法基于视频序列之间的差异,另一个是基于机器学习的算法。第一种方法具有计算速度快,但抗干扰能力差。当环境变化时,目标出现密集,或目标不动,很容易产生大量的错过和错误的检测,以及鲁棒性很差。这类的常见方法包括帧差分法、背景差分法、氛围算法(1),和氛围+算法(2]。第二种类型的方法分为传统的机器学习和深入学习。深度学习方法使用多层神经网络自学习多次在世界一流的目标探测比赛取得优秀的成果。

目标探测基于深度学习可分为anchor-based anchor-free。这两种方法最重要的区别是锚箱是否用于提取图像的候选目标框架在学习过程。与anchor-based方法相比,anchor-free方法有一个简单的网络结构和模型迁移能力更强。anchor-free方法基于完整的特征是金子塔,有大量的计算,而anchor-based方法降低了金字塔的层数,大大减少计算量,检测速度快,检测精度较高。现在,主流的检测算法,如YOLOv2 [3],YOLOv3 [4),快R-CNN [5),而面具R-CNN [6)anchor-based方法。

目标检测算法基于深度学习已经充分发展超过十年了。现在,有许多分支领域的目标检测。深度学习的目标检测算法基于区域建议由R-CNN [7,8)的一个重要分支。R-CNN显著提高检测结果的准确性,利用卷积神经网络在2014年。这是第一次提取的特征检测的目标。随后,快速R-CNN [9)优化串行R-CNN的特征提取方法,且只有一个CNN用于每一个图像,大大提高了检测速度。之后,快R-CNN [5做了进一步的优化。而不是使用选择性搜索算法来生成候选区域,待检测区域的提取通过地区建议网络(RPN),以便完成目标检测过程是通过神经网络用于进一步提高检测精度和速度,和一个真正的端到端目标探测框架实现。面具R-CNN [6)进一步扩展本系列深度学习的目标检测算法。它添加了一个细分任务分支基于快R-CNN检测分支,和细分任务同时执行分类和回归的任务。检测任务可以更好地扩展到其他任务,和检测效果也更加理想。

SENet (Squeeze-and-Excitation网络)(10)提出了胡锦涛的团队,赢得了2017年ImageNet分类竞争冠军。它仅仅是一个轻量级的网络模型,实现了一个通道,这样网络上关注机制可以自适应地选择合适的功能频道。在此基础上,李等人提出SKNet(选择性内核网络)(11),对卷积内核执行一个注意力机制以便网络能自适应地选择适当的卷积内核在2019年。

如今,目标检测取得了新的发展。许et al。12)提出了两种策略使检测器检测OOD (out-of-distribution)没有OOD样本数据训练。王等人。13]介绍了人体和对象的交叉训练来提高检测性能。Zhang et al。14)提出了一个方法来自动选择积极的和消极的基于对象的统计特征和样本证明简单叠加锚箱的数量不能提高检测精度。

在面具R-CNN目标检测算法基础上,我们已经做了一些优化改进行人目标检测的准确性。本文的主要工作包括以下三个部分:

3所示。提出网络框架

3.1。面具R-CNN算法

面具R-CNN算法是基于越快的改善R-CNN检测算法,介绍了一个完整的卷积网络(FCN)生成的面具。在实时目标检测过程中,目标的像素分类准确,则判断目标的轮廓。算法的框架如图1。

(1)在数据预处理阶段,每个图像与噪声然后fuzzified添加;三种图像被用作pretraining集pretraining集中,这样的数据量是没有重新翻了三倍。数据增强实现。(2)项,锚箱是行人目标的优化。更适合行人目标的比例,使网络训练结果更加合理,提高检测的准确性,没有增加计算,收敛速度检测。(3)ResNet, SKNet轻量级网络模块是用来取代卷积模块的一部分,这样的模型可以在培训过程中自适应地选择最佳的卷积核,提高特征表示的质量,提高检测精度。

首先输入图像到骨干网ResNet和红外系统组成。骨干网提取一些共享的特征图谱,将检测到的目标位置的坐标信息和纹理信息。然后,RPN区域建议网络使用的滑动窗口遍历这些特征图谱生成几个锚帧的固定的规模和比例。这些锚帧候选区域。在锚方案层,框架更可能包含检测目标被选中的候选区域。具体方法是排除超出图像边界的锚架,重叠率、高或低的信心水平。然后,nonmaximum抑制(NMS)方法用于选择锚箱和更高的分数(15]。

RoIAlign层的面具R-CNN算法,量化操作的功能聚合过程取代了双线性插值的方法,避免了不匹配的问题,提高了检测和分割的准确性。面具R-CNN算法股票卷积层与候选人地区一代网络分类和回归问题,提高了算法的效率。面具R-CNN算法使用将softmax函数和多任务函数获取分类值回归参数值。FCN,乙状结肠函数是用来输出面具价值实现进行像素级实例分割。

在培训过程中,面具R-CNN算法定义了多任务损失函数为每个采样感兴趣的区域(RoI)

l_cls是分类错误,l_盒子是检测错误,l_面具分割错误。

l_cls和l_盒子在面具R-CNN被定义为

p_我代表的预测概率我th目标锚点。是由锚点的符号样本。当锚点样本是正的,是1;否则,它是0。这两个t_我和向量组成的四个平移和缩放参数,分别测量变化的积极程度样本锚点相对于预测面积和标签。权重N_cls,N_注册,λ控制两个损失保持平衡。

分类和回归损失被定义为损失

光滑的_l(x)是健壮的损失,它是由翻译吗x修正框架在水平轴上的锚点。它被定义为

l_面具在面具R-CNN平均二进制熵函数描述语义分割树枝的损失。在面具的分支,将输出映射到输入功能k×米×米格式处理后,k和米分别控制的维度和规模特征映射。相对熵是通过地图输出的像素乙状结肠计算功能,和平均熵误差l_面具。

3.2。优化面具R-CNN

我们通过修改优化的RPN的长宽比锚架。我们也修改ResNet的网络结构。

3.2.1之上。优化的RPN

在原始的RPN的训练过程,滑动窗口中的锚框架由三种区域(128²,256年²,512²)和三个方面比率(1:1,1:2,2:1)。有完全9种锚帧(6]。然而,如果只有行人检测到目标,该设置将影响培训学习的收敛速度,降低了检测精度,这是不合理的。根据统计规律,人体的平均比例约0.41站立和行走时(16]。因此,行人目标的RPN网络优化,删除锚架的长宽比2:1,代之以width-height比例。锚框架的比2:5,修改类型的锚架高宽比为1:1,2:5和1:2,维持原来的三个区域不变,锚定帧类型的数量仍然是9。对于每一个图像,锚帧在训练的总数不变从原始面具R-CNN算法。

3.2.2。优化ResNet

面具R-CNN,最常用的残余网络模型ResNet50和ResNet101深处。与ResNet50相比,ResNet101具有更高的精度。我们使用ResNet101网络模型为基础优化和改进。ResNet101如图的网络结构2。

SKNet是一个轻量级嵌入式模块能够自适应地改变卷积核的大小规模变化的信息,从而控制网络的接受域和更好的捕捉目标的特征信息。如图3(11),SKNet由三个部分组成。在分割过程中,特征图谱,分别通过一个卷积3×3内核和卷积5×5内核生成特征图和。在融合过程中,和添加的功能地图吗U。U经过手术称为全球平均分担。然后,U通过两个完全连接层和经过的过程首先降低维度,然后增加维度。在那之后,权重矩阵一个和重量矩阵b可以获得。最终功能映射V通过加权加法的选择过程。

在本文中,SKNet模块嵌入到ResNet101网络。卷积模块与3×3芯取代卷积模块由两个不同的核和通道特性重量完全连接层。被任命为新的特征提取网络sknet - 101。优化ResNet可以更好地表示目标的特点,从而进一步提高了检测精度。sknet - 101的优化网络结构如图4。

4所示。实验结果和分析

10程序运行环境是Windows操作系统,PyCharm 2019.3.3 platform-integrated安装了Python 3.6,和运行时库包括Keras 2.1.6, matplotlib 3.2.2, tensorflow 1.14.0, numpy 1.19.0,和opencv 4.2.0。

4.1。数据集增强处理

经典的可可2014数据集17)作为训练和测试集。可可数据集是由微软发布的目标探测数据集丰富的检测类型。它包含80个不同类型的目标和200000多个标记图像。许多学者用目标探测的培训和学习。我们选择1000行人图像从“人”的范畴,在不同的角度下,画面照明,尽可能和行人密度增加数据的复杂性。1000年的这个数据集是由行人图像,其中900被用作训练集和100作为测试集。有892个积极的训练集的样本图像和3262行人目标和99正样本图像测试集和478行人目标。

为了实现数据增强的目的,我们添加了满头花白噪音900图像训练集,然后使用一个内核的中值滤波器3为每个图像,如图5。一起使用的三种图像训练集优化并与原始训练集数据增强。证明合理的扩张数据集有利于充分学习行人图像的特点和提高检测性能。

4.2。参数设置

面具R-CNN优化行人目标作为模型来完成行人的检测培训目标,培训开始前和一些hyperparameters加快收敛速度,防止过度拟合。

SKNet模块有三个重要的参数。自从dual-weight模型,分支机构的数量米被设置为2。为了实现最优特性表示,组的数量G设置为32,fc缩放比例R被设置为16。如图6,我们首先记录培训损失在不同学习速率的变化(LRs)面具R-CNN整体培训网络。可以看出,训练损失是最小的,当LR设置为0.01。

0.01设置LR的前提下,比较实验几个培训迭代测试精度的影响。实验结果如表所示1。


训练的迭代次数/时间	测试精度(%)

5000年	63.26
10000年	80.79
15000年	87.78
20000年	84.63

整体测试准确率上升的增加训练迭代/时间,如表所示1。

测试准确率15000次迭代后达到高峰。有一个过度拟合情况,测试准确率20000次迭代之后略有下降。因此,我们最终选定15000年迭代在训练。培训的具体值hyperparameters总体模型如表所示2。


Hyperparameter	价值

动力	0.9
体重衰变	0.0001
学习速率	0.01
批量大小	64年
迭代	15000年

4.3。实验结果和分析

我们比较原始的面具R-CNN算法的学习情景训练集没有数据扩张,原始的面具R-CNN算法的学习情况后的训练集数据扩张,面具的学习情景R-CNN算法优化后的RPN训练集数据没有扩张,面具的学习情景R-CNN算法优化后的ResNet训练集数据没有扩张,和学习情况的面具R-CNN算法优化后的RPN和ResNet扩张后的训练集数据。比较实验指标主要有两种,即美联社(平均精度)和帧(帧每秒)。具体的比较实验结果如表所示3。


网络模型	美联社(%)	帧/秒

面具R-CNN	74.63	4.99
面具R-CNN只对数据集进行了优化	80.78	4.99
面具R-CNN优化项	78.54	5.36
只有ResNet面具R-CNN优化	83.37	4.87
为所有三个面具R-CNN优化	85.09	5.27

从表可以看出3美联社的探测器可以通过使用数据扩张,增加了6.15%,FPS几乎不变,仍为4.99。的RPN地区,建议选择一个合适的锚架在每个位置在网络训练阶段,这可以增加美联社0.04和3.91%的FPS略。使用sknet - 101网络结构可以增加AP 8.74%但FPS略有降低。使用三种方法来优化模型可以提高探测器的美联社和10.46%的FPS 0.28当检测行人目标。它证明了优化方法可以显著提高行人目标的探测精度和略提高检测速度。

我们也比较优化检测器与几个主流目标检测算法在测试集。实验结果如表所示4。


网络模型	美联社(%)	帧/秒

YOLOv2	69.73	15.23
YOLOv3	72.87	12.76
快R-CNN	73.58	5.42
面具R-CNN	74.63	4.99
优化面具R-CNN	85.09	5.27

表中可以看到4优化检测器的美联社优于其他主流行人目标探测算法,和检测精度显著提高。

5。结论

我们优化的RPN面具R-CNN并生成一个名为SKNet - 101的新网络结构通过引入SKNet模块在特征提取阶段,网络可以选择自适应适当的卷积核。我们还通过修改目标的优化表示锚架的规模在区域建议阶段。训练集时扩展改进算法的精度检测行人目标。然而,优化方法具有一定的局限性。的优化的RPN只能提高行人目标的检测精度。其他目标检测时,检测精度会降低。此外,在R-CNN系列检测速度相对较慢的问题尚未解决。在未来的研究中,检测速度需要改善。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关这篇文章的出版。

确认

这项工作得到了辽宁省自然科学基金项目(批准号2019 zd0702)和项目的时间序列建模和基于深度学习的应用研究,安徽省教育部自然科学研究项目(批准号KJ2019A1203)。

引用

o . Barnich和m . v . Droogenbroec”氛围:一个强大的随机技术来估计背景的视频序列,”IEEE国际会议上声学学报》上IEEE,页945 - 948年,台北,台湾,2009年4月。视图:谷歌学术搜索
m . v . Droogenbroeck和o . Paquot氛围背景减法:实验和改进,”计算机协会计算机视觉与模式识别会议研讨会,16卷,不。7月16,2012页。视图:谷歌学术搜索
j . Redmon和a·哈蒂”YOLO9000:更好,更快,更强”《30rd IEEE计算机视觉与模式识别会议(CVPR)CVPR,页7263 - 7271年,火奴鲁鲁,嗨,美国,2017年7月。视图:谷歌学术搜索
j . Redmon和a·哈蒂”YOLOv3:增量改进”,2018年,https://arxiv.org/pdf/1804.02767.pdf,。视图:谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2017页。视图:出版商的网站|谷歌学术搜索
k . m .他g . Gkioxari美元p, r . Girshick,“面具R-CNN”IEEE模式分析与机器智能,5卷,不。6,386 - 397年,2018页。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《27rd IEEE计算机视觉与模式识别会议(CVPR)哥伦布,页580 - 587年,哦,美国,2014年11月。视图:谷歌学术搜索
n张j·多纳休,r . Girshick, t·达雷尔”部分原因R-CNNs细粒度的分类检测,”《计算机视觉,2014年大会苏黎世,页834 - 849年,瑞士,2014年9月。视图:谷歌学术搜索
在r . Girshick“快速R-CNN。《15rd IEEE计算机视觉国际会议(ICCV)IEEE,页1440 - 1448年,圣地亚哥,CL。美国,2015年12月。视图:谷歌学术搜索
l . j .胡沈、g .太阳和s . Albanie“Squeeze-and-excition网络”IEEE模式分析与机器智能,99卷,2017年。视图:谷歌学术搜索
x, x l . Hu w·h . Wang和j·杨,“选择性内核网络”会议的程序在计算机视觉和模式识别美国长滩,CL, 2019年11月。视图:谷歌学术搜索
y . c .许y沈,h . x, z .基拉,“广义奥丁:检测out-of-distribution形象没有学习out-of-distribution约会,”会议的程序在计算机视觉和模式识别2020年9月,东京,日本,。视图:谷歌学术搜索
t . t . c . Wang, m . Danelljan f·汗,“学习人造物交互检测使用交互点,”会议的程序在计算机视觉和模式识别2020年9月,东京,日本,。视图:谷歌学术搜索
s . f .张x, y .问:姚明,和z Lei,”之间的鸿沟方面anchor-based和anchor-free检测通过自适应训练样本选择,”会议的程序在计算机视觉和模式识别2020年9月,东京,日本,。视图:谷歌学术搜索
m·m·卡里姆d . Doell r .林嘉德和z z阴”提出深度学习算法检测和跟踪对象在制造工厂,”Procedia制造业39卷,第177 - 168页,2019年。视图:谷歌学术搜索
s . c . w . Liu辽、w .问:任和w·d·胡”高层语义特征检测:行人检测的新视角,”会议的程序在计算机视觉和模式识别2020年9月,东京,日本,。视图:谷歌学术搜索
t . y .林·m·玛丽·s . Belongie和j·海斯,“微软可可:常见的上下文中的对象,”第13届欧洲计算机Vision-ECCV学报》上755年,页740 - 2014年9月瑞士苏黎世。视图:谷歌学术搜索