文摘

近年来,技术基于深度检测模型取得了压倒性的提高检测的准确性,这使得他们最适合的应用程序,比如行人检测。然而,速度和准确性是一对矛盾总是存在的,长久以来困扰研究人员。如何实现它们之间的良好平衡是一个问题我们必须考虑而设计的探测器。为此,我们采用通用检测器YOLOv2,最先进的方法一般检测任务,在行人检测。然后我们修改网络参数和结构,根据行人的特征,使该方法更适合于检测行人。在INRIA的行人检测数据集的实验结果表明,它具有较高的检测速度和一个小精密差距较先进的行人检测方法。此外,我们共享卷积之后添加弱语义分割网络层照亮行人和雇佣scale-aware结构在我们的模型中根据大小范围宽的特点,在加州理工学院的行人检测数据集,它根据最初的改善方面取得更大进展。

1。介绍

行人检测是所属类别的类别的目标检测,这是一个非常受欢迎的研究课题的重要性在许多计算机视觉领域。相当多的应用程序从行人检测技术是分不开的,如智能监测系统和自动驾驶仪系统。尽管伟大的改善准确性,行人检测的任务仍然是一个巨大的挑战各种困难,需要更细致的设计和优化。在过去的几十年里,行人检测方法已经采取了各种不同的措施1- - - - - -4]。一些方法旨在提高检测的速度(1,3]。相反,其他方法都集中在精度(5,6]。而与计算机硬件和软件的迅速发展,深度学习开始引发热浪。尤其是卷积神经网络(CNN)出现的最先进的技术在许多计算机视觉任务的准确性。和方法的基础上,深度学习通常先于大幅度以前传统的综合性能。

当深网络用于行人检测的任务,一系列措施类似计算管道。大多数检测框架,他们通常在两个阶段进行。在第一阶段,利用原始图像的像素级,他们是为了提取高层空间属性或高级特性,以获得感兴趣的一些地区。然后,这些地区的特点被送入分类器或多个分类器判断这样一个地区描述了一个行人。此外,一些多尺度措施可能通常采用检测对象在不同标准对提高检测性能。上述管道将行人检测的任务视为一种分类问题。这也是一个传统的管道。在本文中,我们将介绍YOLOv2 [7网络作为我们的基本框架。从传统的管道不同,它作为检测任务回归问题更高的速度和准确度。

1.1。以前的工作

行人检测的研究经历了几十年,和各种各样的技术曾在行人检测,其中很多已发挥了重要的作用。一些措施旨在改善的基本功能使用(8- - - - - -10),而另一些则旨在优化算法检测(5,11]。与此同时,有些技术将把变形部分模型(12)或利用上下文(12,13]。

有两个显著的行人检测领域的重要任务。一个是美元的贡献等。14]。他们利用一个工具箱和一个公共基准数据集。因此,许多现有的或即将到来的方法可以评估没有偏见。和纳森et al。8]提出一篇繁杂的功能和技术的综合性能评估。另一种是纳森et al。3]提出最快的技术,达到超过100帧/秒的速度,增加行人检测的速度。

由于深度学习进入研究领域,行人检测已经在其准确性大大提高(5,13,15]。然而,他们的运行时间已经有点慢,大约几秒钟的每一张图片都会甚至更慢。此外,还有一些令人印象深刻的方法用于网络。

方法,事先16),使用行人检测的修道院。它将采用卷积稀疏编码的方式来初始化网络的每一层开始,然后很好地调整整个网络随后最后检测。RPN-BF [17]适用地区建议网络(RPN)提出了通用检测器光栅R-CNN [18)生成候选框和高分辨率的卷积特征图谱以及信心的分数。然后它雇佣了RealBoost算法通过使用获得的信息来塑造了森林分类器。两个阶段的完美融合使行人良好的性能测试。F-DNN [19)提出了快速和强大的行人检测与深度融合神经网络。此体系结构能够同时处理几个网络通过提高处理速度。为了将所有可能的辞职,一个检测器训练采用深卷积网络。解决大量的假阳性,它引入了一个策略基于融合技术获得最终成绩的信心。此外,技术集成的语义分割网络主干网络加强行人检测器。

1.2。贡献

深度学习的应用,设计的结构和参数的设置通常是关键的得到好的结果准确性。细微变化参数和结构可能导致截然不同的结果的系统的整体性能。在下面,我们打算建立Redmon等的工作。7),认真分析和修改他们的模型,然后将它们应用于行人检测。我们雇佣他的论文中提到的聚类算法对训练数据集进行预处理得到初始候选框。我们介绍某些技术为不同的数据,如多尺度、语义融合,scale-aware。实验表明,行人检测中使用我们的网络可以得到更好的结果。

2。基于探测器

YOLOv2, YOLO[意思的一个改良版本20.),是一个检测模型与更好的性能应用到一般检测任务。YOLOv2可以运行在不同大小采用小说以及多尺度技术培训。同时它可以提供一个相当好的之间的权衡速度和准确性,能够超越先进技术如R-CNN更快,SSD等等,但仍比所有运行得更快。YOLOv2网络集成的提取候选框、特征提取、目标分类、和目标位置到一个深的网络。,使端到端培训和将传统检测问题转换为一个回归的问题。实现一个高效、准确的行人检测,介绍了通用检测器,YOLOv2,作为我们的行人检测的基本框架模型,然后进行一些修改在网络的结构和参数,更好的适应的行人。为方便描述,我们的名字模型YOLO基于行人检测、意思Y-PD呼吁短,。

2.1。检测算法

Y-PD模型将图像分成 网格,每个网格将检测对象如果这个对象的中心落入网格单元。每一个网格将得到 不同规格的初始边界框。然后 预测边界框 和信心得分 定义为(1通过深卷积网络相应的框):

分数 的概率是该类砍伐盒和对象之间的拟合程度,并预测边界框。 表示,如果他们包含的对象在这个网格单元,他们可以定义如下: Ioutruth pred所示(3)是联盟和十字路口的比例地面真理和预测框:

在得到这些预测盒,Y-PD将雇用nonmaximum抑制算法(NMS),其效果如图1消除冗余预测的边界框,以减少网络学习的困难。然后它处理剩余的预测边界框通过深卷积网络并获得相应的类条件概率 ,这取决于网格单元包含一个对象。然后我们得到个人边界框信心的预测 定义如下:

对于一个输入图像,输出预测将编码 张量。5代表 ,而1代表一个类的信心,

2.2。网络体系结构

YOLOv2网络如图2旨在检测通用对象,其设计理念是相似的地区建议网络(RPN)。这个网络消除了完全连接层和采用卷积网络预测边界框的抵消和信心。然而,在行人检测的任务,其性能还有待提高到一个更高的水平。

3是我们的网络框架模型Y-PD。我们可以很容易的找到YOLOv2和Y-PD之间的差异。卷积模型有23层,6马克斯池层,3重组层,1层融合。首先,为了满足后续重组的尺寸要求,我们改变输入大小从416 416×448×448。其次,聚合来自多个水平的特征图已经被证明是有用的和重要的在许多计算机视觉任务21,22)为他们的能力来收集丰富的层次表示。所以我们添加直通层从一层两层和提取的特征图谱max4 con5_5,分别。这种技术能够充分利用低层次的信息和更高层次的信息,从而提高检测的准确性和位置。之后,我们重组两个直通层,使他们conv6_7一样的大小,这样我们就可以把三层熔融层。

此外,将分为输入图像 网格(如图5)YOLOv2网络中,这使得候选人边框有平等的密度分布的方向X轴和Y轴。通常,然而,行人的分布X轴更密集,分布是稀疏的 等轴图4。这种分裂技术将导致错过率高的原始网络。鉴于上述分析,我们添加一个重组层的模型,相当于把输入图像分成 (M > N,如图6),为了增加密度的方向 轴。

2.3。损失函数

优化整个模型,我们采用原联合损失函数所示(5YOLOv2)设计:

在1obj 表示如果对象提出了单位和1obj ij意味着j盒子预测单元负责的预测。前两个条件的公式用于预测对象的边界框。此外,第三项是用来预测边界框的信心得分和第四项是用于预测信心得分没有一个对象,虽然最后是用于预测每个细胞属于类别。

2.4。改善加州理工学院行人数据集

Scale-Aware结构。加州理工学院的行人数据集是一个具有挑战性的和普遍接受与大规模数据集。通常情况下,大方差的大小会导致伟大的组内差异,这可能严重伤害的性能检测模型。为了解决这个问题,我们采用scale-aware结构(见图8)受Scale-Aware快R-CNN网络(SA-Faster R-CNN) (23]。我们从主干中删除几个褶积层conv6_3。然后改变下游层为两个支行分别负责大型和小型的大小。我们加入加权层重量的输出特征图两个分支逐像素根据参数h每一个细胞。两个支行的权重wlwh 最终预测评分的信心年代p和限定框回归抵消tp可以计算如下: 在哪里 意味着高度的行人在加州理工学院的数据集。年代年代年代l表示输出信心的大型和小型支行,分别。t年代tl表示输出限定框回归补偿的大型和小型支行,分别。

弱语义分割。语义分割pixel-wise分类技术。我们融合弱语义分割网络进入我们的模型作为一个强有力的监督充分利用输入图像的语义信息,使共享卷积的特征提取层更专注于行人,行人就像照亮。融合弱语义分割网络构成只有一个卷积层被附加到conv6_3影响卷积层尽量共享。优化融合弱语义分割网络,我们需要减少损失函数,每一个位置j: 在哪里l年代是一个softmax物流损失, 是真实的语义标签的位置j,年代j网络的输出位置吗j。联合损失函数如下: 在我们组 默认情况下。此外,由于缺乏语义细分标签在加州理工学院行人数据集,我们应该使弱培训标签训练融合语义分割网络。我们利用边界盒行人弱培训标签,边界框内的像素被认为是行人,和边界框外的像素被认为是场景(见图7)。

3所示。实验评价和分析

我们进行广泛的实验活动评估我们的检测模型的性能。时报》报道都是为实现在单一CPU核心(4.0 -4.2 ghz)的英特尔酷睿i7 6700 k 8 gb RAM的服务器。英伟达GTX1080Ti GPU用于CNN计算。

3.1。数据集

INRIA的行人数据集。执行以下实验,我们求助于INRIA行人数据集,一个普遍接受,多尺度数据集具有一定的挑战往往是用来评价行人检测技术的性能。INRIA的行人创建数据集的研究工作(10)在图像和视频检测勃起的行人。分为两种模式: 原始图像与相应的注释和 正面形象规范化成64 x128像素与原始的负面形象。我们使用训练集和测试集来训练和验证我们的模型,分别,这是包含在原始图像与相应的注释。在这个数据集,只有正直的人的高度大于100签署/形象。然而,注释可能是不正确的。有时边界框标示的部分可以是内部或外部的对象,其影响可以忽略。

INRIA的行人数据集包含一个训练集和测试集,火车有614个正面形象,拥有1237个行人。在测试集有228个正面形象,拥有589个行人。图像数据集有复杂的背景,一个明显的光的变化。不同程度的行人、闭塞,穿着不同的服装,有多种尺度和改变姿势。

加州理工学院的行人数据集。加州理工学院的行人数据集由一组视频序列的640×480大小从汽车驾驶在城市环境中。数据集包括一些火车(set00-set05)和测试(set06-set10)的子集。大约有350000在250000帧边界框2300独特的行人注释。根据行人的情况,一个单独的对象将被分配的四个标签,包括“人”(1900年~),“人”(300年~),和“人吗?”(110年~)(只有“人”和“人”将用于我们的实验)。

3.2。评价指标

我们求助于评价指标定义的加州理工学院的行人检测评估协议,这是由美元et al。24]。特别是,方法的性能评估的每个图像之间的权衡假阳性的数量(FPPI)和错过率(先生)。让读者更容易理解,我们将做一个简短的描述等指标。首先,地面真值匹配检测边界框,行人检测算法提供的,如果他们的交集在联盟(借据)大于50%。地面实况将视为一个假阴性(FN)或错过如果没有匹配。相反,如果检测到框不能匹配地面真理,它将被视为一个假阳性(《外交政策》)。然后建议每图像检测到的平均数量作为行人错误被认为是假阳性的平均数量每图像(FPPI)。和错过率(先生)捐赠的数量之间的比率假阴性和阳性样品的总数N所示 有时候,我们可能会取代先生回忆所示

通常,错过率值为0.1FPPI我们特别注意被认为是一个合理的工作条件在实践中一个可用的系统。

3.3。实验过程和结果

Pretraining Y-PD。我们利用pretraining,这意味着初始化模型的权重ImageNet重量训练的数据集。这种技术是最有效的措施之一,为提高深度模型的性能,因为参数的数量通常是远远大于收集的数据进行训练。它使算法有更快的收敛速度或利用更少的数据来获得伟大的结果。我们没有pretraining比较模型,观察表精度的改善1,也就是6.4%。与此同时,我们可以看到从培训损失曲线数据910与pretraining模型训练的收敛速度和较小的最终损失比没有pretraining。

与基线相比在INRIA行人数据集。我们测试所有修补我们已经和观察改进与基线YOLOv2相比。检查表2冠心病的细节,捐赠的方向分布的变化X轴和Y轴和AdL捐赠额外直通层。当我们改变分布,平均精度可以提高2.8%。如果我们只添加直通层,平均精度指的是增加了0.7%。同时结合上述两项措施,平均精度可以提高3.3%。

最先进的算法相比INRIA行人数据集。建立我们的模型的性能水平,我们选择几个典型算法和先进的算法为行人与INRIA的测试数据。MR-FPPI曲线如图所示11。此外,体现我们的模型的优点,提出表3显示平均错过率和检测的速度上面的一些方法。检测的速度可能不是非常准确的原因条件有限,但差距不是太大。虽然我们的模型的精度不高的RPN + BF和F-DNN的差距仅为2.2%和2.3%,分别检测的速度我们是几十倍好他们的。显然,我们的模型能够实现更好的权衡速度和准确性为行人INRIA的测试数据。

与最先进的通用数据集在加州理工学院的行人检测算法。从图12,我们可以意识到我们的模型Y-PD + S和Y-PD + f有更好的检测性能与YOLO v2,意思R-CNN更快,YOLO v3意思当测试在加州理工学院的行人数据集(见表4)。和模型Y-PD +量采用scale-aware结构与Y-PD + S相比增加了6%。

4所示。总结

在本文中,我们提出一个模型名为Y-PD基于YOLOv2行人检测。的架构Y-PD涵盖了行人的特征分布和充分利用低级和高级特性的地图。实验结果显示它可以实现很好的权衡速度和准确度之间的行人INRIA的测试数据。此外,模型采用scale-aware西南偏南约Y-PD +结构基于Y-PD和保险丝弱语义分割网络,使一个伟大的进步在加州理工学院的数据集。然而,由于多样性的大小、分辨率等等,还有一个大我们的模型和技术发展水平差距行人的方法。所以我们的未来任务将主要工作在加州理工学院的设计更好的模型的数据集对行人。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者要求,你也可以通过一些链接下载相关数据集提供的补充材料。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是由中国国家自然科学基金(61561042)、人才介绍西北民族大学的基础。

补充材料

(1)INRIA的数据集。INRIA的数据集收集作为研究工作的一部分,在图像和视频检测正直的人。这项研究详细描述CVPR 2005纸 和他们的 数据集分为两种格式:(a)原始图像与相应的注释文件和(b)正面形象规范化64 x128像素格式(如用于CVPR纸)与原始的负面形象。数据集包含来自多个不同来源的图像:图像 全新的数据集,虽然注释文件和图像从个人数字图像集合了很长一段时间。最初的正面形象通常是非常高的分辨率(约。2592 x1944像素),所以我们出现这些图像突出的人。许多人旁观者从这些输入照片的背景,所以理想的姿势没有特定的偏见。一些图片来自网络使用谷歌图片。只有正直的人(与人高度> 100)标记在每一个图像。注释可能不正确;特别是有时带注释的部分边界盒可能是外部或内部对象。(补充材料)