文摘
行人检测是目标检测的具体应用。与一般的对象检测相比,它显示了相似性和独特的特点。此外,它具有重要的应用价值领域的智能驾驶与安全监测。近年来,随着深度学习的快速发展,行人检测技术也取得了很大的进步。然而,仍然存在一个巨大的,人类的感知之间的差距。与此同时,仍有很多问题,仍然是一个很大的研究空间。关于行人检测在智能驾驶技术的应用,它是必要的,以确保它的实时性能。此外,有必要减轻模型同时确保检测的准确性。本文首先简要描述了行人检测的开发过程,然后集中在总结研究结果的行人检测技术在深度学习阶段。随后,通过总结行人检测数据集和评估标准,行人检测的核心问题的发展现状进行了分析。 Finally, the next possible development direction of pedestrian detection technology is explained at the end of the paper.
1。介绍
目标检测是机器视觉的基本问题和深层学习,它为众多研究的深入发展奠定了基础问题,包括实例分割(1- - - - - -3)、对象跟踪和优化(4- - - - - -6],轨迹预测[7),和图像重建8- - - - - -10]。行人检测是目标检测问题的一个特定的应用程序,并且它已成为近年来的研究热点之一。具有重要应用价值领域的智能驾驶与安全监测。特别是智能驾驶领域,由于人的特殊性和最高的安全要求,更重要的是比其他类型的对象检测。智能驾驶、相机、激光雷达(11- - - - - -13),和无线传感器网络14- - - - - -18]共同感知环境,并进一步采用车载电脑和云计算(19- - - - - -23决策和控制。图1介绍了出版物的数量的趋势与行人检测近年来。相对于其他类型的对象检测、行人检测精度和实时性能提出了更严格的要求,这是非凡的意义领域的智能驾驶。近年来,大量的通用对象检测已经发表评论(24- - - - - -28),但很少有评论的行人检测,缺乏分析的最新进展和讨论当前的困难。通用对象检测执行一个粗略的分析,本文将深入探讨行人检测。
对象检测任务的发展主要经历了两个主要阶段,分别,传统的对象检测时间和检测时间基于深度学习。早在2001年,p .中提琴和m·琼斯提出著名的VJ探测器(29日]。它结合了多种重要技术,如“积分图像,大大提高了检测效率和检测功能,并实现了实时检测的固定对象第一次强烈促进目标检测领域的发展。特别是2005年,中间人和组织提出了面向梯度直方图(猪)功能描述符30.),设计了猪描述符计算密集均匀间隔的单元网格,采用重叠的局部对比度规范化,以提高精度。尽管猪可用于检测各种对象类,其主要研究目标是解决行人检测的问题。该方法取得了非常高的准确率,强烈表明了该算法的有效性。随后,为了促进行人检测领域的发展,INRIA行人数据集,目前仍广泛使用,出版了。在2008年晚些时候,Felzenszwalb提议DPM检测算法(31日),它可以将行人分成不同部分培训和学习以及将他们作为一个检测在分类不同部分的集合。在这种想法下,算法及其改进算法不断获得几年的最佳检测结果,达到传统的相对峰值检测算法。此外,有学者研究通用计算机视觉方法,可以提高各种计算机视觉问题[32- - - - - -37]。
传统的目标检测方法的实现过程类似于VJ探测器。它主要提取对象特征通过人工设计(如猪,哈雾和筛选)和新的特征提取方法38,39),进一步使用SVM, DT (40),和其他分类器识别和检测。在检测之前,通常图像预处理增强图像质量(41- - - - - -43]。在检测过程中,滑动窗口处理通常在图像进行预测的对象。在那个时候,最佳的检测性能。然而,由于滑动窗口方法遍历所有可能的位置和大小比例,它对计算机的计算能力要求高。此外,hand-designed特性表达能力很弱,导致整体检测效果很差。2014年,Girshick等人提出了RCNN算法(44使用CNN)特征提取。这个算法大力刺激对象检测任务的开发和先进的深度学习的发展阶段。一般来说,深度学习可以使用梯度下降法自动优化模型参数(45]。各种目标检测任务取得了跨越式发展。后来,一些优化方法与神经网络出现(46- - - - - -48]。目前,神经网络已经广泛应用49- - - - - -53]。行人检测的开发过程是显示在图中2。
其余的工作安排如下。第二部分,当前主流的行人检测算法进行了总结。在第三部分中,常用的数据集和评价方法提出了行人检测领域。在第四部分中,阻塞问题和多尺度问题,详细分析了影响行人检测的影响。全文进行了总结,展望了在第五部分。
2。行人检测方法基于深度学习
自2014年提出RCNN Girshick等人,行人检测的任务已正式进入了深度学习阶段。一般来说,基于深度学习的检测方法主要包括两类。一个是一个两阶段的处理方法。首先,区域意见箱可能生成对象,然后进一步预测了这些意见箱。另一个是单程的处理方法,该方法直接返回对象区域地图上的特性并给出了最终的预测结果。第二部分总结了具体的应用这两个检测框架在行人检测。
2.1。两级检测框架
两级检测框架主要分为两个阶段:地区建议和目标检测。首先,提出了一系列地区意见箱图像进行检查。然后,进一步进行目标检测。RCNN检测框架提出了r . Girshick 2014年第一次使用选择性搜索(54意见箱)来生成一个地区的形象,然后使用CNN对特征提取,进一步训练SVM分类器和限定框回归,最后预测结果。尽管CNN对特征提取的使用大大提高了检测效果,也遇到很多问题,比如繁琐的培训流程和检测时间长。随后,快速改善RCNN [55]和更快的RCNN [56)算法,提出了解决上述问题。快RCNN完成端到端检测过程。首先,RPN算法替代选择性搜索区域的建议,这大大减少了时间消耗地区的建议。此外,共享特性有助于避免重复特性计算,检测精度VOC07数据集(57,58上的检测精度达到73.2%,可可数据集(59)达到42.7%。更快的框架图RCNN一系列算法如图3。
(一)
(b)
(c)
2015年,蔡等人推断Comp法算法(60]不仅优化分类风险,也更好的结合了特征提取和分类器函数,它扮演着一个重要的角色在促进行人分类在不同的尺度上。2016年,戴笠等人进行了一系列改进基于快RCNN并提出RFCN [61年]。RFCN位置信息集成到池层,提高位置敏感性,并提高了行人检测问题的处理结果更敏感的位置信息。与快RCNN相比,引入FCN达到更多的网络参数和功能共享,减少网络中重复的数量,提高了运行速度。2017年,面具RCNN开明他等人提出的增加了一个卷积层后池层执行面具预测任务。这种结构可以完成任务,比如行人检测和行人从背景中分割和单独的行人。与此同时,结果可以进一步用于人体手势识别。
2017年,林等人提出了红外系统(62年基于速度RCNN]。在此之前,大多数的探测器检测到顶部的网络。虽然具有良好的语义信息分类检测,这是不利于行人由于小功能定位地图。红外系统提出了一种自上而下的预测结构和构建高层语义信息对整个卷积结构,使行人检测大大提高。
2018年,李等人提议SAF RCNN基于感知理论(63年),有效地改善行人检测的性能不同的尺度。
在两级检测方法基于深度学习上面所提到的,RCNN系列方法(RCNN [44),快RCNN [55],和更快的RCNN [56])是最早的近年来提出的。RCNN系列方法是一般的目标检测方法,并不是专门为一个典型的类别和优化可用于各种目标检测任务。RCNN的主要约束性能和快速重复RCNN卷积计算和地区建议网络,已提高更快RCNN,取得最好的结果。Comp法算法(60]介绍了以上主要用于行人检测领域。该算法可以提高行人检测和处理能力可以扩展到其他对象检测问题在一定程度上。RFCN [61年]算法主要是提出了总体目标检测,也可以在特定行人检测领域也取得了不错的效果。面具RCNN [3基于速度RCNN)是一种进步。这是一个解决方案提出了通用对象检测,同时也具有良好的效果在行人检测。红外系统(62年金字塔算法构造一个功能网络,大大提高了通用对象检测和行人检测问题。SAF RCNN [64年]算法主要用于行人检测领域的自然场景。它还可以提高总体目标检测能力,但由于对象领域的规模变化是更常见的行人检测,一般对象检测的改善是有限的。表1总结了上述两级检测方法的计算速度。
两级行人检测框架有两个部分:区域和分类的建议。研究人员可以提高检测效果提出了不同的预选框生成算法和特征提取算法或改进提高预测部分的检测结果。虽然总体框架比单程框架更麻烦,总的来说具有更好的鲁棒性和准确性。
2.2。单程检测框架
与两级检测框架相比,单程检测框架消除了预选框生成算法和直接预测对象中心和对象边界框通过设置一系列锚地图上的特性。2015年,Redmon等人提出了第一个单级探测器YOLO[意思65年深度学习的时代。这个检测器如图的想法4。一个神经网络适用于整个图像,将图像划分为多个区域。这种模式大大提高了检测速度,同时预测每个区域的边界框和概率。在行人检测的任务,特别是在智能驾驶的行人检测技术,检测速度尤为重要(66年]。只有高速检测可以避免一系列的危险。单程检测框架提供了可能性。
与二级探测器相比,YOLO减少了意思的定位精度,因为它只预测预测锚有限数量的对象,小物体和组对象的检测效果很差。针对上述问题,j . Redmon提出YOLOv2 [67年]和YOLOv3 [68年]。他们为上述优化问题,这不仅大大提高了检测的准确性单程探测器也取得了相对速度和准确度之间的平衡。尤其是YOLOv3,三个预测通道是用来改善行人检测的多尺度预测的影响。YOLOv3的构架图显示在图中5。
2016年,刘等人进一步提出一个SSD单程检测框架(69年]。不像YOLO,意思不同大小的SSD算法输出功能层多层映射检测多尺度卷积层中的对象。特别是,小物体的检测效果得到了改进。
2017年,林等人提出了RetinaNet探测器(70年]。为了应对穷人单程检测器的检测效果,引入一个新的损失函数,所以探测器更关注分类样本在训练过程中困难和解决不平衡的问题在单程探测器的工作样本。总的来说,单级检测器可以提高其检测精度的同时保持高检测速度。2018年,刘等人提出了一个有效的单程行人检测架构ALFnet [71年),主要使用不断增加借据阈值训练多个定位模块。它可以提高行人的检测精度检测。它可以实现相同的检测速度和SSD和更快RCNN一样的检测精度;那时,最先进的性能实现CityPersons数据集和加州理工学院的数据集。2019年,郑等人提议DIOU损失和意识丧失(72年优化之前的损失函数。与前面的对象框回归损失相比,它认为重叠区域,中心点的距离,长宽比。边界框考虑距离损失具有更快的收敛速度和较高的收敛精度,使物体的检测精度检测框架。
2020年,阿列克谢Bochkovskiy提议YOLOv4 [73年]。基于多个检测框架的优点,主干部分使用CSPNet结构(74年王等人2020年提出的。原理图的应用CSP ResNet如图6每个周期,增加了一个路径。脖子部分,特征融合是通过添加SPP执行的结构(75年)和锅结构(76年]。此外,集群的优势(77年用于生成预测当前帧大小。SPP结构可以帮助网络集成不同尺度的特征,和锅结构集成来自不同层次的特性。最后,YOLOv4获得65.7% (AP50)检测准确性和65 fps可可数据集的检测速度,实现之间的最佳平衡电流检测帧速度和准确度。此外,一些学者研究对象的应用程序检测到大满贯,促进相关技术的发展(78年]。到目前为止,行人检测算法大多集中在两级网络框架。然而,行人检测在智能驾驶技术实时性能有很高的要求。与精度和实时性能的突破框架如YOLOv4,行人检测技术在未来将更加关注单级检测框架。除此之外,这些算法也为应用程序奠定了坚实的基础的行人检测在智能驾驶。
在上述单程检测方法基于深度学习,YOLO系列意思方法(YOLOv1 [65年],YOLOv2 [67年],YOLOv3 [68年],YOLOv4 [73年])是最早的近年来提出的。YOLO系列意思的算法可用于各种目标检测任务。由于的原因,只有数量有限的对象是预测在一个锚,它常常导致错过了在现场拥挤的行人检测,所以算法的性能将减少在拥挤的场景。然而,这种算法的高检测速度为行人检测技术的应用提供了可能性领域的智能驾驶。SSD (69年]上述算法提出了通用对象检测,可以改善多尺度检测在行人检测的问题。RetinaNet [70年)引入了一个新的探测器损失函数,可提高检测精度一般对象检测领域。ALFnet [71年]算法主要用于行人检测。由于有效的改善行人检测的任务,它可以扩展到一般对象检测在一定程度上。意识丧失(72年)目标检测算法研究边界回归问题,有效地提高了检测效果的各种对象。表2总结上述单程检测方法的计算速度。
2.3。骨干
行人检测算法是不同的。然而,深度学习阶段,第一个是使用卷积神经网络来处理图像获取深特性地图然后执行各种后续处理。这部分获得的卷积神经网络特征映射称为整个算法的“支柱”。骨干能果断地影响网络的影响。本节将回顾这些内容。
2.3.1。VGGNet
后AlexNet [79年]在ImageNet竞争中达到优秀的结果,VGGNet [80年Simonyan提出的)在2014年提高了卷积神经网络,使用一个较小的卷积内核和更深层次的网络结构,并达到更好的结果。
2.3.2。《盗梦空间》
在提取的过程中卷积神经网络的特性,增加网络的深度和宽度可以提高网络的性能。尽管如此,这样做也会导致参数的数量大幅增加,容易过度拟合。《盗梦空间》(81年),在2014年提出,能更好的解决这一问题。它使用三个大小不一的卷积核卷积计算然后瀑布这些部分进入下一层。后来,改进 , ,和版本(82年- - - - - -84年提出了]。
2.3.3。ResNet
基于VGGNet和《盗梦空间》,他等人提出ResNet [85年]2015年,解决这个问题的梯度消失和梯度更新困难。从那时起,ResNet普遍用作各种分类、骨干检测和分割任务。主要的思想是引入一个残块,让卷积网络学习剩余的映射,使网络优化更加容易。
2.3.4。DenseNet
2017年,DenseNet [86年)最大化之间的信息交换基于ResNet前后层。通过建立密度之间的联系所有的前层和层,实现信道的多路复用功能维度。这种结构可以实现更好的性能比ResNet较少的参数和计算。
2.3.5。红外系统
为了提高语义,传统的目标检测模型通常只执行后续操作的最后一个功能层,但最终功能映射往往更详细的信息,使小物体的检测更加困难。2017年,红外系统方法合并不同层的特点,更好的提高了多尺度检测问题。红外系统的总体体系结构主要由四个部分组成:网络自下而上,自上而下的网络,水平连接,和卷积。
2.3.6。DetNet
DetNet [87年]介绍了孔卷积,从而增加了接受域,获得更大的特征地图大小,并使该模型有更大的接受域和更高的分辨率。同时,大对象和小对象的检测纳入考虑。它特别适合检验任务。结构图如图7。
(一)
(b)
(c)
3所示。数据集和评价方法
3.1。数据集
数据集是行人检测的基础任务。它不仅是研究人员的数据源进行实验测试还提供了相同的数据依据不同算法的性能比较。测量的质量数据集包含的数据量和质量的标签信息。丰富的数据集在一定程度上决定了检测器的鲁棒性。与一般的对象检测任务相比,行人检测都有自己独一无二的特点。现在常见的行人检测数据集包括加州理工学院(88年],KITTI [89年],CityPersons [90年],立筋[91年],EuroCity [92年]。此外,目前常见的数据集对象检测领域是可可。这些数据集的相关信息如表所示3。根据每个数据集的不同的内容,它有自己的特点。其中,加州理工学院,KITTI CityPersons数据集有更完整的标签信息和更广泛的应用。在这三个数据集的图像如图所示8。下面简要介绍这些数据集。
(一)
(b)
(c)
3.1.1。加州理工学院
加州理工学院是目前最大的行人检测的数据集,其中包括350000名行人在250000帧图像边框标记,和闭塞和相应的时间也明显。
3.1.2。KITTI
KITTI数据集目前最大的计算机视觉算法评估数据集自主驾驶场景。这个数据集用于评估性能的计算机视觉技术,如音响、光学流,视觉测程法,3 d对象检测和三维跟踪车辆环境中。KITTI包含真实图像数据从现场收集诸如城市、村庄、公路。汽车有15和30行人在每一个图像,不同程度的阻塞和截断。
3.1.3。CityPersons
城市城市数据集包含50个不同城市的街景记录从一组不同的立体视频序列和图像进行像素级注释的。主要标签数据的城市道路上行人获得一个行人检测数据集。
3.2。评价方法
行人检测器的检测能力主要反映在相应的评价指标,和一个优秀的评价方法能客观地反映探测器的探测能力。一般来说,探测器是通过训练集训练数据集,然后评估探测器通过测试集。
目前,最常用的评价对象检测平均精度(美联社)。一般来说,动态模型的性能评价图P-R曲线,在水平坐标是召回率和准确率的垂直坐标。为了比较多类的所有对象类别的性能检测,意味着平均精度(mAP)的所有对象类别通常是作为最终的性能指标。为了测量对象定位的准确性,十字路口在联盟(借据)是用来检查是否重叠预测盒和地面真理盒之间的比例大于一个预定义的阈值,通常定义为0.5。如果大于这个值,对象将被视为成功检测到;否则,它将被定义为错过。2014年之后,由于广泛使用可可数据集,研究人员开始更加注意准确性。在可可,阈值没有使用一个固定的借据。相反,采取多个借据阈值之间的平均0.5(粗定位)和0.95(完美的定位)。这个指标变化促进对象定位更准确。
此外,一些学者在他们的研究中发现,只有使用precision-recall曲线不能准确表达效果。2012年彼得亚雷提出了MR-FPPI曲线,代表错过的检出率和FPPI先生代表错误检测每个图像的数量。这种评价方法是常用的领域的行人检测。
在加州理工学院的数据集,检测结果的一些最先进的行人检测算法在整体数据,数据规模,和遮挡数据如表所示4- - - - - -6。
4所示。一般问题
目前,主流通用图像探测器的探测能力发展突飞猛进,尤其是短距离和大对象的图像可以获得很好的检测结果。目前,行人检测的进一步发展的主要限制在于检测能力对于低质量的图像,包括多尺度和阻塞等关键问题。本节将分析这些问题。
4.1。阻塞问题
对象之间的拥挤和阻塞是常见的困难在行人检测98年),如图9,导致对象的信息丢失,隐形的一部分地区,可能会导致错误或错过了检测器的检测。
与一般的对象检测相比,阻塞更可能发生在行人检测,因为集团在行人运动行为是容易发生,这也是一个主要障碍限制行人检测的应用程序在自动驾驶任务。CityPersons数据集,行人阻塞的比例如表所示7和行人之间的遮挡严重影响行人定位的准确性,这是更敏感的NMS阈值,从而容易抑制类似行人的候选帧。
由于缺乏为行人遮挡下的信息,研究人员使用变量部分模型来解决相关问题。虽然检测结果在一定程度上改善,模型的计算量急剧增加(99年- - - - - -101年]。突破多元探测器的局限性,欧阳等人与遮挡探测器集成不同程度的102年),从而有效地缩短检测时间,进一步研究神经网络集成模型部分改善检测效果。虽然一个有效的方法可以提高行人检测的影响下基于局部model-assisted闭塞全球检测(103年),在增加的价格计算成本和减少了检测速度。因此,这种方法的主要研究方向之一是提高识别率阻塞行人,同时保持了检测器的检测速度。
相似的模型方法,使用一系列的组件探测器相互合并,另一种解决方案需要注意机制的优势(104年)关注行人遮挡检测的关键部分。作为一个模型,SSA-CNN [105年)使用注意机制来执行阻塞检测,从而有效地提高检测效果。此外,一些方法如SDS-RCNN使用语义分割处理遮挡问题,以这种方式使生成的特性更专注于行人,找到可能的步行区,CNN注意行人阻塞部位。该方法的主要思想是迅速定位行人和关注行人的位置的特点。SDS-RCNN框架如图10。
除了上述在行人检测方法用于解决阻塞问题,一些学者关注后处理。刘等人提出了一种自适应NMS (106年)的方法来解决这个问题的敏感性NMS行人检测中阈值,从而有效地提高检测效率。此外,王等人设计了一个新的排斥损失函数RepLoss [107年降低对象之间的相互影响,有效地减轻行人阻塞的检测效果。张等人提出,或者cnn (108年)可以提高损失函数和基于快RCNN ROI池和引入了部分原因的概念,有效地减轻行人阻塞的问题。
目前,行人检测和阻塞问题的处理已经逐渐转移到CNN本身和整个网络架构的改进提高每个处理阶段。
在上面介绍的算法,算法(99年- - - - - -101年)都是早期的方法基于可变形的部分,主要用于行人检测。这种类型的方法不普遍,需要为特定的检测对象而设计的。同样,该算法(102年,103年)也为行人遮挡的问题,设计,很难推广领域的通用对象检测。SDS-RCNN [94年]和SSA-CNN [105年)主要是专为行人检测提高行人检测的影响。自适应NMS (106年)主要是专为行人的拥挤问题检测。该算法可以扩展到一般的对象检测领域在一定程度上,减少了误差的常用NMS算法。类似于(106年],RepLoss [107年),或者cnn (108年)主要是专为行人检测和可以扩展到一般对象在一定程度上检测。然而,因为这些算法是专门为行人检测,一般对象检测的改善是有限的。上面的计算速度的一些算法进行了总结在表8。
4.2。多尺度问题
传统的卷积神经网络采用一个单行的结构,和浅特性映射有一个大的区域,包含更详细的信息,使其适合检测小物体。深特征地图,小面积,只包含语义信息,适用于大型对象的检测。一般来说,卷积神经网络存在的问题多尺度检测大型和小型对象,这还没有被很好地解决了(109年]。多尺度行人图像如图11。对于小目标检测,减少网络的将采样率,这是最简单的方法来提高检测能力,可以增加地图上这个功能的详细信息。除此之外,一个洞卷积可以用来增加后续的接受域层时,将采样率降低。这个卷积方法不能保证修改后的感受野在修改之前是一致的,但可以变化的程度尽可能最小化。此外,许多方法(110年- - - - - -112年提出了解决这一问题。
与改善的目的多尺度检测功能,可以设置几个不同的图像输入规模的训练阶段。在训练,一个是随机选择从多个尺度,和图片是按比例缩小的规模和输入网络,有助于提高网络的健壮性不增加的数量计算。歌等人提出了TLL方法(113年),提高了检测结果通过建立人体模型信息在不同的尺度上。然而,张等人已经有效地减少了漏检率通过进一步调查的标签信息(114年]。
随着层数的增加,传统的卷积网络将扩大接受域和丰富信息的语义信息而造成严重损失的小对象网络的输出。小目标检测能力很差。特征融合的想法(115年- - - - - -120年结合深和浅层次,两者融合的特点,和互补的优势,提高检测性能。项有效果;然而,改善行人检测效果小对象是有限的。李等人,蔡等人提出的SAF RCNN MS-CNN,分别处理规模的变化。此外,固态硬盘也增强了检测效果结合不同的特征层融合为特征。一般来说,多尺度检测的关键是特征提取阶段能否提取行人特性在不同的尺度。
研究者提出TridentNet网络(121年)改变孔的数量在过去卷积层通过分析不同大小的影响接受领域的检测结果。他接受域并行三个不同,相比以前的基础网络的结果。检测结果表明精度显著提高。网络图如图12。
在行人检测,目前有效的方法来解决多尺度问题包括减少将采样率和卷积的洞,多尺度训练MST,功能融合,TridentNet。的核心思想是获得更普遍的检测功能在不同尺度充分挖掘不同尺度特征的特征信息。
在上面介绍的算法,算法(110年- - - - - -112年)都是专为行人检测,部分内容可以扩展到一般的目标检测。同样,算法(113年,114年]也旨在解决行人检测的问题,用于提高行人检测的性能在不同的尺度。两个MS-CNN [95年]和TridentNet [121年通用对象检测设计,也可以取得良好的效果在行人检测技术。检测任务,对象与其他对象领域的规模变化是更常见的行人检测,所以上述算法可以有效地改变行人检测的影响。上面的计算速度的一些算法进行了总结在表9。
5。讨论
目标检测是计算机视觉的四个基本任务之一,也是目前的研究热点。这个任务的主要目的是检测特定对象实例(“猫”“狗”等)从一个给定的图像。作为一个典型的对象检测任务,行人检测和通用对象是一致的检测任务,这是检测行人在给定的图像。近年来,随着深度学习的不断发展122年,123年),对象检测已经取得了很大的进步,特别是multicategory广泛应用的数据集,如可可。大多数研究集中在通用对象检测。作为一个典型的对象检测任务,行人检测在智能驾驶等领域有着特殊的地位,它直接关系到行车安全,行人安全。目前,由于通用对象检测的广泛关注,很少有评论领域的行人检测。例如,引用(24,27)给一个完整的介绍一般对象检测近年来但没有进行详细的分析行人检测。文献[124年)主要讨论了远红外视频中的行人检测问题,不涉及行人检测技术在自然图像。参考文献(88年,114年,125年,126年)没有讨论的研究进展在过去的两年里,由于时间的限制,很少涉及到目前的研究集中在深度学习技巧。文献[127年)主要探讨人类探测技术,不让行人检测的详细分析。
通用对象检测的一般分析基础上,本文深入讨论行人检测问题。本文的主要贡献如下:(1)行人检测算法基于深度学习近年来提出的详细介绍,及其优缺点进行了分析。(2)介绍了常用数据集和评价指标对行人检测。(3)限制行人检测的性能的主要问题在智能驾驶等领域进行了较为详细的试验研究。(4)解释了行人检测的未来发展方向。然而,本文不涉及行人检测的引入在特殊情况下(晚上,雨、雪、雾等),这也是未来工作的方向。
本文中描述的行人检测技术主要是通过视觉来解决方法基于机器学习技术,这也是当前主流的解决方案。然而,这种解决方案有一定的限制。虽然应用图像处理技术已经取得了很大的进步,这种方法有更高需求的外部环境(光线、天气等)。在此基础上,一些人注意到红外图像的研究,取得了一些进展。然而,红外图像数据集的缺乏限制了其发展在某种程度上,它仍然阻塞等敏感因素。建立检测技术有其固有的约束。如何使用多传感器融合技术提高行人检测技术在实际应用效果等智能驾驶是目前的一个主要发展方向。此外,虽然传统的机器学习技术检测速度快、低硬件平台的需求,它可以不再满足当前的应用需求由于其较低的检测精度。虽然深度学习技术在机器学习技术近年来取得了很大的进步,计算模型往往是大型和有很高的需求在硬件平台上。它更难以部署在移动终端与智能汽车等计算资源少。 This is also a major factor affecting the development of deep learning technology.
6。结论
行人检测是计算机视觉的一个重要问题。与一般的对象检测相比,它具有重要的研究价值领域的智能驾驶。它与通用对象检测异同。本文首先介绍了通用对象检测的内容,然后分析了行人检测的发展,阐述了常见的数据集和行人检测所面临的主要问题。虽然行人检测技术取得了很大的进步从原来的传统机器学习当前神经网络,与人类的视觉仍有很大的差距。此外,轻量级的网络也是一个研究的核心。如何将它部署到移动终端,而不影响性能直接影响其应用在智能驾驶。本文认为,行人检测技术的未来发展方向如下:(1)上述多尺度问题和阻塞问题是影响行人检测的核心问题。其中,不同大小的多尺度问题要求行人可以准确地检测到同时,将特征提取网络的要求也越来越高。阻塞问题需要精确检测行人的部分识别算法,并提出了更高的要求。改善这些问题可以直接提高行人检测在复杂场景的影响,这是一个重要的方法来改善行人检测器的能力。(2)尽管当前检测网络已经取得了很大的进步,硬件需求往往很高。因此,如何轻量级网络同时保持检测性能是实际应用中的一个重要问题。这也是未来发展的一个重要方向。(3)目前,一般行人检测仍然使用单个行人作为对象,不考虑与环境中的其他对象之间的关系。考虑对象之间的关系有利于增强对场景的理解,从而提高检测的语义,并使它更接近人类的思维方式,它是一个重要的发展方向。(4)行人检测是智能驾驶一个核心技术问题。当前主要的解决方案是使用图像信息检测。如何使用激光雷达等传感器在智能驾驶加强行人检测的影响在未来是一个重要的研究方向。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持国家重点研究和发展项目的一部分,中国yfb1313400格兰特在2020下的中国国家自然科学基金会授予U1864204,中央大学和基础研究基金在中国授予300102220204。