基于学习功能融合在深学习对象探测器

文摘

在真实图像目标检测是计算机视觉的一个具有挑战性的问题。尽管一些检测和识别技术的进步,健壮和有趣的对象的准确定位图像中的真实场景仍然没有解决,因为组内和组内的差异带来的困难,闭塞,闪电,在不同的层次和规模的变化。在这项工作中,我们提出一个对象检测框架上优于手工功能的融合与深度特性。深特征不同地区的兴趣测试图像与一组丰富的统计功能。我们的假设是加强这些特性与手工制作的特性通过学习最优融合在网络训练。我们的检测框架是基于YOLO对象检测意思架构的最新版本。实验评价PASCAL-VOC和MS-COCO数据集达到了11.4%和1.9%的检出率提高地图上的规模相比,YOLO版本3意思检测器(Redmon和哈蒂2018)。基于提出的重要一步学习特征融合策略是正确识别层喂养的新特性。目前的研究显示了一个定性的方法,以确定最佳层融合和设计步骤喂养卷积网络探测器的额外的特性集。

1。介绍

自然场景对象检测是一个重要的问题,推动许多实际的应用程序。在过去的几十年里,大量的研究工作已经进入目标检测问题的理解与通用和特定领域的挑战[1- - - - - -5]。因此,开发了几种新颖和创新的目标检测方法。尽管研究人员来自不同背景的不断努力,目前最先进的远不令人满意的标准数据集PASCAL-VOC见最近的结果(6]和MS-COCO [7]。

最近的工作对象检测应用总是基于卷积神经网络(cnn)的探测器模型。这些模型都学会了端到端的解决特征提取、参数学习,和后处理,或者最多两级培训过程。这些方法有显著提高艺术对象的状态检测。特征提取的CNN的表征能力取决于测试时间的检测问题的复杂性和可变性的训练数据集内。在真实的应用程序中,一个目标对象的外表经历重大变化由于视图角度,照明,背景杂波,和遮挡。手工制作的特性设计域的理解往往是更多的独特的和可靠的在许多情况下。智能融合的模式特性预计将达到更好的检测性能。在这项工作中,我们提出基于功能增强的CNN对象检测框架上优于手工功能的融合与深度在嵌入空间特性。我们使用基本颜色通道:RGB、HSV,枸杞多糖结合梯度和方向直方图增强深度特性克服由于外观变化预测错误。有效地结合手工制作的特性和基于深度学习功能,我们也调查的问题确定最优层注入特性融合的手工制作的特性。 Our detection framework is based on state-of-the-art YOLO [8)架构,我们将手工制作的特性在适当的层(s)在调整网络的权值训练过程。我们假设融合手工功能在网络学习指南CNN提取更准确和健壮的特性集上,利用互补信息的手工制作的特性,总结了本文的主要贡献如下:(1)我们提出一个新的基于CNN学习融合的目标检测方法简单的颜色通道和梯度直方图特征描述符(9]上优于融合训练一个更健壮的和准确的检测模型。(2)我们使用最新的YOLO反对意思检测体系结构作为我们的基地。我们描述了基于提出的学习特征融合策略,使用定性的方法来选择最好的特性注入层。在这部作品中,提出了工作提出了一种新颖的基于策略融合特性在CNN对象探测器。(3)我们将演示所列出的特征融合方法的性能比较PASCAL-VOC和MS-COCO数据集显示改善原始YOLO对象意思检出率的重要措施。

本文的组织结构如下:部分2介绍了相关的先前的研究工作。我们简要讨论最新YOLO体系结构和意思积分频道功能部分4。部分5讨论的细节和实现问题,提出了目标检测方法。实验评价该对象检测框架在不同的数据集提出了部分6。我们在部分总结本文7呈现的角度来看我们的工作和未来的研究方向。

我们的工作在这篇文章中,该方法在基于CNN有关使用视觉目标检测。已经有大量的工作在这个研究领域。彻底审查文献对象检测和基于CNN的分类和回归超出了本文的范围。下面的讨论评论突出和关键工作的背景下提出了目标检测的方法。

对象检测在自然场景可以使用不同的方法追求:基于模型,上优于,辅助10]。基于模型的方法依赖于启发式决定模型使用的颜色,形状,和强度属性。对象描述这种方法也被称为手工制作的特性,它们是基于专家的工程特性最好的描述表示图像。上优于方法特性从对象会自动从分类器和后用于检测。最后,辅助方法就是对象的位置作为先验信息可视化。辅助方法是昂贵的基础设施部署对象需要被替换为他们是有效的。对象的先验知识的位置降低了计算搜索成本和提高准确性。此外,它有助于消除大量的假阳性。

过去几十年的进步状态的艺术对象检测解决方案已经看到新颖的设计,手工制作的特性如梯度直方图(猪)11)、尺度不变特征变换(SIFT) [12金字塔,猪(13]。这些方法使用简单的歧视的分类器通过扫描图像空间,或者通过特征匹配。琼斯等人。14)使用积分图像特征提取的人脸检测可以快速计算。这些作品产生固定或变量大小对象描述符为一组局部特征向量。在[15),作者提出了基于local-contour特性与两步,半监督学习对象检测。最早上优于对象检测工作,作者在文献[16)提出了学习对象表示稀疏的部分原因。在[17),作者介绍了不同组件上优于基于部分对象自动学习和个人的组合分类器的检测。作者在文献[9]随后结合猪和异构颜色通道行人检测。这些特性被广泛称为积分频道功能(ICF)再次利用积分图像的快速特性计算是一个重要的基于图像扫描的对象检测要求。

在[18],作者提出使用SVM学习不同对象之间的结构部分配方建模对象结构的多尺度混合使用可变形模型的一部分。行人检测的广泛审查使用手工制作的特性提出了(1]。在[19],基于视觉注意力的建模是用于突出对象检测通过引导学习模型。在[20.),作者提出regionlets-the集成不同类型的特性,在本地计算。这些特性被用来由级联模型对象类增加分类器。

CNN最近上升学习方法为基础,提出了几种基于CNN的目标检测模型。Girshick et al。21]提出提出卷积神经网络(R-CNN)作为目标检测模型。R-CNN模型训练独立的组件生成区域边界框的建议使用选择性搜索图像扫描和该地区分类建议对象类别之一。该模型进一步简易R-CNN[一样快22];然而这些模型优化是缓慢和困难。快R-CNN [3)缓解困难的早期版本取代地区建议由网络(RPN)与选择性搜索训练作为一个单一的神经网络与快速R-CNN共享卷积特性集。越快的RPN分量R-CNN导游统一网络调查不同地区的利益。快R-CNN迄今为止被认为是最健壮的和准确的对象探测器;这些模型仍然缺乏实时性能,因为第一个提议生成和随后的建议在已知的类别标记。

戴et al。23最初]扩展共享,充分卷积网络体系结构提出了图像分割([24)两级检测策略区域建议和区域分类。端到端网络学习构造一组位敏得分地图来处理翻译的方差目标对象。分数是由银行的卷积层编码生成的相对空间位置信息结合翻译学习差异。

最近的一些工作对象检测也跟着回归方法包括单发射击Multibox检测器(SSD) [25),Deconvolutional单发射击探测器(DSSD) [26,你只看一次(YOLO)的意思8]。SSD结合边界框的Multibox方法回归预测通过使用一组默认盒子形状抵消在每个图像中的位置和类别的信心。作者VGG-16用作基础网络架构,网络结合预测不同分辨率的不同特征图。DSSD进一步简易SSD转向“encoder-decoder”类型的网络将上下文信息在学习代替VGG-16架构与剩余- 101。

YOLO[意思27),不像其前辈,训练有素的单一的回归量网络与类别别人直接预测对象的边框。这种方法的完整回归没有任何分类步骤产生卓越的实时性能的检测速度。同时,YOLO被虐意思检测精度与所有其他检测系统相比Faster-RCNN除外。结合了边界框锚箱,用于指导预测在一个新设计的网络中,YOLOv2被虐其他现有的帕斯卡voc - 2017年挑战。最新的YOLO(这里意思以后我们将这个版本YOLOv3)声称改善其性能结合了更深层次网络体系结构结合在多尺度预测。一下子YOLO算法意思看到整个图像通过网络的前进传球给更准确和全面的信息。这有助于避免假阳性的检测器比基于分类检测系统只关注该地区的建议。尽管显著进展基于自然图像目标检测中由于深学习策略,现有模型的性能需要改进的精度和实时性能的角度来看。帕斯卡VOC-challenge(最新的结果6]和MS-COCO [7)数据集的建立,还需要做更多的努力来解决发现的问题。

此外,一些CNN建立检测模型设计为特定目标对象(28- - - - - -30.]。这些方法提高了反对目标检测的基准;然而,问题远未解决,(5,31日- - - - - -33]。特定对象检测的一个重要的区别是辅助信息来源的可用性或者用户的反馈帮助研究人员解决问题的可接受的极限。

在这项工作中,我们提出一个特性丰富的对象探测器基于最新YOLO架构的意思。我们选择YOLO架构是基于其意思比较检测准确性和优越的检出率。预计基于CNN检测模型应该能够学习所需的特定对象特征检测;然而,无法保证在单基于目标的学习制定。这个方向的研究探索上优于浓缩的特性,包括额外的模式已经没有了目标检测。在这种背景下,最近的工作前景提取的视频分析(34),一个基于深层神经网络框架,利用多级融合的残余的特点相结合,从不同的卷积层。另一方面,我们的方法是在手工制作的饲料特性在网络指导功能学习过程主要对更精确的检测。上优于功能融合,我们使用ICF描述符显示显著目标检测性能如前所述。

3所示。回顾目标检测问题

对象检测由地区捕捉对象的定位和分配他们的标签处理局部地区。本地化的问题可以制定(i)回归问题,预测该地区利益或(ii)的二元分类问题关注检测领域的前景区域对象。这些方法预测的结果对象边界的四坐标( , , ,和 )如图1。

是一个标签识别对象的区域 - - - - - -类的分类问题,表示数量的类,例如,{树,人,鸟,狗,自行车}或{猫,汽车,树木}。在这两个目标检测问题的阶段,挑战是由于潜在的变化在照明条件下,缩放、闭塞、局部视图和取向。图2从可可数据集显示了一些这样的具有挑战性的情况。

4所示。预赛

之前的对象检测方法使用上优于功能融合,我们简要讨论信道特性和积分YOLOv3的体系结构。我们也在做一些修改YOLOv3架构中提出(35也是在这一节中描述。

4.1。你只看一次对象探测器-YOLOv3

的类YOLO算法[意思8,27,36)看整个图像检测和识别对象时和提取深度信息类和外表,不像其他方法如基于滑动窗口方法或R-CNN算法。这些算法对检测对象作为一个单独的回归问题提供更快的响应降低检测器的设计复杂性。虽然重大成就,速度滞后的算法在准确性方面尤其是小对象。

最新的算法在YOLO家庭,意思就是说,YOLOv3,证明其性能相比其他先进的探测器。的YOLOv3在总分布式架构有107层{卷积= 75;路线= 4;剩余= 23;upsample = 2;检测= 3}。建筑使用的新模式特征提取称为Darknet-53。新模型是明显大于早期版本中使用的模型;然而,它已被证明是更有效的比其他国家的艺术。卷积模型使用53层,需要一个输入图像的大小416416年。图3显示的架构YOLOv3对象探测器。Darknet-53模型pretrained ImageNet (37]。修改检测任务,网络通过删除最后一层纸,然后叠加其他层导致最终的网络体系结构。第一个75层网络中代表52卷积Darknet-53模型的层pretrained ImageNet。剩下的32层被添加到合格YOLOv3对象检测在不同的数据集的进一步培训。除此之外,YOLOv3应用新的残余层类似于跳过连接结合特征图使用elementwise除了导致从两层更细粒度的信息。

(一)

(b)

的YOLOv3取代基于将softmax激活与独立的物流旧版本使用分类器。特征提取使用类似的概念特性金字塔网络。二叉叉也损失现在用于类的预测,这是有益的,当面对图像重叠的标签。k - means用于锚箱一代;然而,9边界框现在使用而不是5。边界框的数量平均分配在三个检测尺度。在目前的设计中,还使用了一个路由层输出层的特征图谱。

以下4.4.1。预测

YOLOv3除以过程图像网格,如果物体的中心落在一个网格单元,那么细胞负责检测对象。网络预测边界框在三个不同的尺度。首先检测规模用于检测大型对象。第二次检测是用于中型规模对象和最后的小对象。三个检测层用红色显示在图3。每个单元预测边界框,每个预测5预测: ,预测和信心的指标代表一个对象。的和参数网格单元框的中心,和是预测框的宽度和高度对整个图像。信心得分之间的交集在联盟(借据)预测盒和地面真理。输出的预测是张量,5是预测的数量/边界框( ,和信心值)是对象类别的总数。图4显示的预测算法YOLOv3为细胞,每个细胞都有边界框。

4.1.2。损失函数

的YOLOv3包括一个损失函数(1)指示网络正确预测边界框和准确的分类规定惩罚假阳性的检测对象:

这些符号解释表1。帽子下的符号表示相应的预测价值。损失函数的方程有三个错误组件:本地化,信心,和分类在方程(1)。不同损失组件结合和平方算法作为优化更容易。本地化的损失负责“负责任的”边界框之间的误差最小化和地面真理对象,如果检测到一个对象在一个网格单元。


象征	定义
	网格细胞的数量在一个图像
	锚箱数量
	信心的我在网格单元边界框
	条件概率的类c我在网格单元
, , ,	边界框的位置和大小
	1,如果一个对象出现在网格单元我;0,否则
	1,如果存在于一个对象网格单元和“负责任的”边界框;0,否则
	1,如果没有出现在对象网格单元和“负责任的”边界框;0,否则
	1,如果预测标签匹配地面实况标签;0,否则
	常数(默认值:5.0)
	常数(默认值:0.5)

4.2。积分频道功能(ICF)

在这项工作中,我们融合不同渠道的信息在ICF提出(9)在YOLOv3体系结构。ICF描述符是一系列图像通道计算从输入图像使用线性和非线性变换。一个通道是指输入图像的表示。接下来,一阶特性提取通过计算矩形区域的总和。评估渠道是颜色通道(RGB、灰色、HSV和爱),梯度幅度和梯度直方图。作者在9]声称最丰富的渠道在独立评估在所有行人检测是猪。此外,爱的结合、梯度和猪给最好的检出率。我们提出要重新计算工作渠道的组合,因为在目前的应用场景不同的挑战。在我们的工作中,为猪窗口大小参数计算依赖于2 d维度的特性,他们将融合(节中讨论4.1)。作为一个例子,如果一层的2 d维度特征融合是1313和输入图像的大小是416416,那么窗口大小将3232所以它导致1313个猪。对于每一个窗口,我们计算出猪使用六个箱子。其他猪参数包括细胞和块大小用于规范化也设置窗口大小一样。块还大步参数设置窗口大小相等两扇窗户之间没有重叠。如图5,ICF对于一个给定的图像的线性串联各个颜色通道正常化后,相应的猪的特性。特性计算的预处理包括输入图像的调整使它与网络层接收输入。进行实验探讨,我们遵循相同的步骤和参数为猪计算讨论了(9]。

5。上优于功能融合YOLOv3

在我们建立该特性融合之前,我们将随后描述所需的步骤:(1)确定候选人卷积特性注入层(2)评估的层次特性注入使用成套ICF渠道(3)评估的不同组合ICF渠道使用前面步骤中获得的最好的网络层(4)训练和测试探测器注入最好最好的ICF通道组合层位置

我们的建议的功能融合是从识别位置和空间在手工制作的特性YOLOv3体系结构。为注入额外的功能集在此体系结构中,我们首先需要确定卷积层附加信息。我们采用一种定性的方法决定层特征融合的验证功能融合在不同的层。的深度空间卷积层代表的数量特征图持有深feature-hereafter称为过滤器。我们需要确定具体的层内的特定数量的过滤器将存储附加功能。首先,我们建议双原数量的过滤器在特定层如图6。

取决于ICF的频道数量,相同数量的过滤器需要保留存储手工制作的特性值。ICF描述符注入网络的训练过程。选中图层的ICF注入,额外的过滤器(介绍通过加倍层深度)复制与ICF从尾部如图描述符6。剩下的过滤器设置为零的开始。随着训练的进行,层权重,即过滤值更新后学习算法。这一层生成的输出的值取决于所有过滤器。拟议的特征融合方法是发散的简单的方法叠加的手工制作的特性与原过滤器选择层。额外的过滤器除过滤器用于存储ICF描述符帮助调整层的权重值。我们保持加倍过滤器特性融合的策略不管具体的卷积层下验证。显示了一个例子程序的数量翻番的过滤器在特定层为ICF问题空间融合如图6。在这个例子中,融合是发生在选择层YOLOv3的网络。上面的图显示了一个部分从原始YOLOv3的网络和底部的过滤器层是翻了一倍。过滤器的数量从1024年到2048年发生了变化。光橙色是新过滤器深度(2048),由最初的过滤器深度有额外的过滤器(1024)连接相同的深度,用绿色表示。此外,过滤器在融合层的数量翻倍,造成设计挑战少于过滤器直接叠加的手工制作的功能。

5.1。设计问题与注入ICF描述符

保险丝手工制作的特性与深度特性,他们的2 d维度匹配层的宽度和高度尺寸。考虑到在图示例6在层,如果输入图像大小是416416然后过滤维度将1313。因此,所有选定渠道融合应该大小1313至符合额外的过滤器。在测试阶段YOLOv3,输入图像的大小是固定的,享年416岁416,所以在ICF的尺寸描述符层将永远是1313。另一方面,在训练阶段YOLOv3,输入图像的大小变化基于随机参数在每10迭代图像的大小定义为32倍,从320年开始320年到608年608年。如果输入的大小是320320年或608年608年,又看了看层过滤器的大小成为1010 - 19分别为19。过滤器的大小与输入图像大小规模的32倍。确保后手工特性是正确的大小,它们的值可以替代选择层中的额外的过滤器。

提出了对象探测器的流程图如图7。用于培训目的,所需的ICF通道的输入图像在不同尺度计算离线。将使用这些图像在不同尺度可变性的培训过程。在测试阶段,ICF通道计算每个图像在固定范围内只有一次。右边的图显示,作为我们提出探测器正在训练/测试融合发生在层命名YOLOv3卷积的层。“一倍数量的过滤器和表示为ICF通道的数量和 ,分别。图显示了ICF重叠的部分居住在深特性的一些额外的过滤器。

6。实验评价

初步评估拟议的框架是PASCAL-VOC数据集上执行(VOC2007检测的任务)。最初的YOLOv3探测器实现67.5%测试的地图与输入图像尺寸设置为416416年。的YOLOv3实现提供(35)用于基准测试我们的实验结果。就像前面提到的5,我们首先确定卷积层注入手工制作的功能,和所需的空间(即。过滤器的数量)。首先,我们找出最好的保险丝ICF渠道层位置。随后,另一组实验中,我们确定ICF渠道的最佳组合。我们单独的一套验证包括十分之一的培训通过随机选择的例子。验证集是用于测试的卷积层和结合ICF渠道最优选择。确定最佳的融合层,我们使用所有渠道的信息在ICF中使用美元的原创作品等。9]。这是通过加倍的过滤层评价下,融合ICF集合的17个频道,并检查生成的地图。我们前两个卷积层检测评估层YOLOv3体系结构。对于每一个实验,25000年的网络训练迭代。剩下的训练参数设置为原始的YOLOv3探测器。我们进行第一个评价一层一层就是最后卷积之前检测层。

过滤器的数量翻一倍层和注射的全套ICF渠道导致69.8%的地图。与基准相比性能的基础上YOLOv3性能,我们实现了地图规模增长了1.7%。接下来的实验层实现了71.5%的地图,这是更有效的比之前的实验。表2列出了地图分数为实验确定的最佳层位置特性融合。观察到,最好的地图分数达到71.5%层。


层数	数量翻倍后的过滤器	地图

59	512年	66.1
60	1024年	68.4
62年	2048年	66.2
77年	1024年	69.8
78年	2048年	70.9
79年	1024年	71.5
80年	2048年	69.8

确定最合适的层ICF融合之后,我们进行实验发现ICF的组合最适合的渠道融合在VOC数据集对象检测任务。在这组实验中,我们融合ICF渠道过滤器的数量增加一倍层。在这个实验中,我们运行50000次迭代的训练过程。融合所有ICF渠道、颜色梯度大小,和猪,取得了77.7%的地图。整个ICF描述符总结17个频道,考虑6猪渠道。把RGB通道从17 ICF渠道增加了地图显示78.2%的增长0.5%来自前面的实验。考虑原始输入图像RGB颜色值,增加并不重要。我们还探讨了其他频道组合;相应的地图展示在表3。


ICF通道组合	数量的渠道	地图

RGB +灰色+ HSV +爱+研究生。+猪	17	77.7
灰色+ HSV +爱+毕业生。+猪	14	77.4
HSV +爱+研究生。+猪	13	78.6
灰色+爱+研究生。+猪	11	78.0
爱+研究生。+猪	10	79.1
灰色+ HSV +研究生。+猪	11	76.8
灰色+ HSV +爱	7	76.2
灰色+ HSV +爱+猪	13	77.1

看来,最好的ICF通道组合VOC2007检测任务由灰色、HSV,爱、梯度大小和猪达到最大地图分数的79.1%。我们重新培训YOLOv3探测器在完成训练集融合完成频道ICF的描述符。网络实现了78.7%的测试集的映射多检出率达到11.2%的原创YOLOv3探测器。

6.1。评价MS-COCO数据集

MS-COCO数据集包括82783个训练,40504验证,40775测试图像属于80类别。在文献中,YOLOv3(8]报道55.3%可可地图数据集的输入图像大小为416416年。所有实验报告在这个工作上执行一个NVIDIA GeForce 1080 GTX GPU桌面在比较薄弱的基础设施中使用的原始论文(8]。因此,我们采用另一种策略为基准,YOLO检测器(原始和提出融合策略)意思是MS-COCO重新训练数据集,我们比较了在50000次迭代检测性能。最初的YOLOv3评价可可测试数据集50000年实现36.5%的地图迭代。

在确定的最佳位置ICF融合使用映射值实现的验证设置如表所示4,我们做了实验,确定ICF通道融合的最佳组合最适合可可数据集(表5)。如表所示4,翻倍层导致地图得分最高(37.3%)。因此,所有后续可可相关实验数据集进行过滤器的数量翻了一番层。所有实验在50000次迭代进行评估。融合所有ICF渠道(颜色、梯度大小和猪)导致37.7%的地图。把RGB从17 ICF渠道导致37.3%的地图。其他频道组合尝试了但没有给出好的结果融合等只猪特性(6频道),爱+猪(9频道),灰色+爱+梯度+猪(11频道)和灰色+ HSV +爱+梯度(8通道)。的最佳组合的最高分数由地图融合所有ICF频道。


层数	数量翻倍后的过滤器	地图

57	1024年	35.2
59	512年	33.7
60	1024年	35.6
73年	2048年	35.1
75年	1024年	36.6
77年	1024年	36.3
78年	2048年	37.3
79年	1024年	36.9


ICF通道组合	数量的渠道	地图

RGB +灰色+ HSV +爱+研究生。+猪	17	37.7
灰色+ HSV +爱+毕业生。+猪	14	37.3
HSV +爱+研究生。+猪	13	37.4
灰色+爱+研究生。+猪	11	36.4

此外,评价测试设备和成套ICF渠道的融合层实现映射值的37.8%。与可可数据集,我们也尝试了标准化在ICF通道的影响。测量标准化的影响网络的性能,我们尝试了两种不同的归一化技术。到目前为止讨论的结果都是没有任何标准化来实现。我们第一次尝试了马克斯正常化技术将每个通道的最大范围,因此所有值落在0到1的范围。马克斯规范化ICF渠道的融合YOLOv3达到38.4%的测试集的映射高于0.6%最好的结果与非规范功能和实现与原有的1.9%YOLOv3的性能。这证实了深层网络的训练原则,建议使用输入标准化作为性能改进的一种工具。在第二个标准化技术中,我们使用基于z分数标准化转换数据在所有渠道意味着0和标准偏差1。然而,z分数归一化没有执行好前面的归一化技术。

7所示。结论和未来的工作

在这项工作中,我们提出一个方法来融合手工制作的特性在卷积神经网络建立对象探测器。手工制作的特性的融合上优于特性在很多早期作品已经证明是有效的。在这项工作中,我们演示了方法步骤手工特征融合的最新版本YOLO探测器。意思我们的实验结合简单的积分频道特征融合YOLO取得了实质性改善意思检出率PASCAL-VOC和MS-COCO数据集。在传统机器学习,早、晚,上优于融合主要特征融合策略。然而,深度学习网络是专为特定输入大小对算法构成挑战设计者输入额外的信息网络,除非网络的重新设计。这项工作提出了一个新颖的方法基于方法论的措施来解决这两个问题。在未来的工作中,我们计划去探索基于学习对象检测和跟踪的方法。

数据可用性

本工作利用标准开放获取的数据集。

的利益冲突

作者宣称没有利益冲突。

引用

p .美元,c . Wojek b Schiele, p . Perona一起“行人检测:一个评估状态的艺术”IEEE模式分析与机器智能,34卷,不。4、743 - 761年,2012页。视图:出版商的网站|谷歌学术搜索
d·t·阮、w·李和p . o . Ogunbona“人类从图片和视频检测:一项调查,“模式识别,51卷,第175 - 148页,2016年。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快r-cnn:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2017页。视图:出版商的网站|谷歌学术搜索
s . Zafeiriou c·张,z,“在人脸检测在野外的一项调查显示:过去、现在和未来,“计算机视觉和图像理解卷,138 - 24,2015页。视图:出版商的网站|谷歌学术搜索
s, r·纳森·m·奥木兰·j . Hosang b·席勒的影子,“我们从解决行人检测多远?“在《IEEE计算机视觉与模式识别会议IEEE,页1259 - 1267年,拉斯维加斯,NV,美国,2016年6月。视图:谷歌学术搜索
帕斯卡视觉对象类主页(pascal-voc):http://host.robots.ox.ac.uk/pascal/VOC/。
Coco-common上下文中的对象(ms-coco):http://cocodataset.org/。
Redmon和a·哈蒂Yolov3:增量改进,2018,https://arxiv.org/abs/1804.02767。
p .美元,z, p . Perona一起,s . Belongie积分频道功能2009年英国,BMVC出版社,斯旺西。
f·阿曼和j·k·Aggarwal”,基于模型的物体识别dense-range图像审查,”ACM计算调查(CSUR),25卷,不。1,5-43,1993页。视图:出版商的网站|谷歌学术搜索
n .中间人和b区格”的梯度直方图的人体检测,”计算机视觉和模式识别1卷,第893 - 886页,2005年。视图:谷歌学术搜索
d·g·劳”独特的形象特征尺度不变的要点,国际计算机视觉杂志》上,60卷,不。2、91 - 110年,2004页。视图:出版商的网站|谷歌学术搜索
答:博世,a Zisserman x穆尼奥斯,“代表与内核空间金字塔形状,”学报第六届ACM国际会议上图像和视频检索,页401 - 408,计算机协会,阿姆斯特丹,荷兰,2007年7月。视图:谷歌学术搜索
p .中提琴和m·j·琼斯,“健壮的实时人脸检测,”国际计算机视觉杂志》上卷,57号2、137 - 154年,2004页。视图:出版商的网站|谷歌学术搜索
j . Shotton a·布莱克,r . Cipolla”Contour-based学习对象检测,在计算机视觉中,”学报第十届IEEE计算机视觉国际会议,1卷,页503 - 510,IEEE,北京,中国,2005年10月。视图:谷歌学术搜索
美国阿加瓦尔·d·罗斯,“学习对象检测的稀疏表示,“欧洲计算机视觉的诉讼哥本哈根,页113 - 127年,瑞典,2002年5月。视图:谷歌学术搜索
p .美元,b . Babenko s Belongie p . Perona一起和z涂,“多个组件学习对象检测”第十届欧洲计算机学报》上,10卷,页211 - 224,施普林格,柏林,德国,2008年6月。视图:谷歌学术搜索
p . f . Felzenszwalb r . b . Girshick d . McAllester和d . Ramanan”对象检测与区别式模型部分原因,“IEEE模式分析与机器智能,32卷,不。9日,第1645 - 1627页,2010年。视图:出版商的网站|谷歌学术搜索
n .通h . Lu,阮x和M.-H。杨”,突出对象检测通过引导学习,”《IEEE计算机视觉与模式识别会议IEEE,页1884 - 1892年,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
x, m .杨朱,和y林,“Regionlets通用对象检测,”《IEEE计算机视觉国际会议页17-24 IEEE,悉尼新南威尔士,澳大利亚,2013年12月。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议IEEE,页580 - 587年,哥伦布,哦,美国,2014年6月。视图:谷歌学术搜索
在r . Girshick“快速R-Cnn。学报IEEE计算机视觉国际会议(ICCV),页1440 - 1448,圣地亚哥,智利,2015。视图:谷歌学术搜索
李y, j·戴,k .他和j .太阳”R-FCN:对象检测通过提出完全卷积网络,”30学报》国际会议上神经信息处理系统西班牙巴塞罗那,页379 - 387,,2016年12月。视图:谷歌学术搜索
j .长,大肠Shelhamer, t·达雷尔“完全卷积网络语义分割”《IEEE计算机视觉与模式识别会议(CVPR)IEEE,页3431 - 3440年,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“SSD:单身multibox探测器拍摄,”欧洲计算机视觉,页21-37,阿姆斯特丹,荷兰,2016年。视图:谷歌学术搜索
c .傅w·刘,Ranga a, a . Tyagi和a·c·伯格Deconvolutional单发射击探测器,2017,https://arxiv.org/abs/1701.06659。
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”《IEEE计算机视觉与模式识别会议IEEE,页779 - 788年,拉斯维加斯,NV,美国,2016年6月。视图:谷歌学术搜索
王x, y, p·罗和x唐,“行人检测深度学习强大的地方,”《IEEE计算机视觉国际会议IEEE,页1904 - 1912年,圣地亚哥,智利,2015年12月。视图:谷歌学术搜索
王x, y, p·罗和x唐,“行人探测深度学习的帮助下语义任务,”《IEEE计算机视觉与模式识别会议IEEE,页5079 - 5087年,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
周y l . Liu l .邵和m . Mellor,”戴夫:一个统一的框架,用于快速车辆检测和注释,”欧洲计算机视觉的诉讼293年,页278 -阿姆斯特丹,荷兰,2016年10月。视图:谷歌学术搜索
b·李,张t, t·夏”车辆检测使用完全从3 d激光雷达卷积网络,”2016年,http://arxiv.org/abs/1608.07916。视图:谷歌学术搜索
l, l .林、梁x和k他,“快r-cnn行人检测做得好吗?“在欧洲计算机视觉的诉讼457年,页443 -阿姆斯特丹,荷兰,2016年10月。视图:谷歌学术搜索
s, r·纳森·m·奥木兰·j . Hosang b·席勒的影子,“在行人检测,在实现人类表现”IEEE模式分析与机器智能,40卷,不。4、973 - 986年,2018页。视图:出版商的网站|谷歌学术搜索
和w·t·Akilan问:m . j . Wu,“视频前景提取使用视点感受野和encoder-decoder dcnn对于交通和监视应用程序,”IEEE车辆技术,卷68,不。10日,9478 - 9493年,2019页。视图:出版商的网站|谷歌学术搜索
a·b·阿列克谢Windows和Linux版本的Darknet Yolo V3意思& V2对象检测的神经网络, 2018年。
j . Redmon和a·哈蒂”Yolo9000:更好,更快,更强”《IEEE计算机视觉与模式识别会议(CVPR)IEEE,页6517 - 6525年,西雅图,华盛顿,美国,2017年7月。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统,第1105 - 1097页,2012年。视图:谷歌学术搜索