Multibranch对象检测方法对交通场景

文摘

的性能基于卷积神经网络(CNN)——对象检测取得了难以置信的成功。然而,现有CNN-based算法受到小规模对象难以检测的问题,因为它可能丧失其响应特性映射已达到一定深度时,这是很常见的对象的规模(如汽车、公共汽车和行人)交通图像和视频中包含的千差万别。在本文中,我们提出一个32-layer multibranch卷积神经网络名为MBNet网快速检测交通场景中的对象。模型利用三个检测分支,其中特征图的大小16×16、32×32岁和64×64,分别为大,优化检测,中期,和小规模的对象。通过多任务的损失函数,可以训练我们的模型的端到端。实验结果表明,我们的模型达到最先进的性能方面的精度和召回率,和检测速度(33 fps)是快,可满足实时要求的行业。

1。介绍

自动检测各种对象(如车辆和行人)从交通场景图像或视频是许多智能交通系统的一个基本前提。合理的交通管理和控制基于车辆和行人的运动可以减少交通事故的发生,道路拥堵,等等。在这方面,相当大的努力已经在过去的十年。一些具有挑战性的基准如KITTI (1]和LSVH [2)也被提出评估和比较各种检测算法的性能。因为由卷积神经网络的泛化特性提取远远高于传统的人工特征,CNN-based对象检测方法在车辆检测取得了举世瞩目的成就,行人检测,和许多其他种类的对象检测任务3- - - - - -10]。

最受欢迎的对象检测方法之一是使用滑动窗口生成候选区域,然后从这些特性可以提取区域和pretrained分类器应用于确定这些区域有一定的对象。然而,它会导致巨大的计算成本。因此,研究人员开始利用高效的计算对象检测方法。两种策略可以使用:地区基于提案的方法和回归方法。前首先使用区域生成算法,如选择性搜索(SS) [11)和边缘盒(12)产生候选区域(即地区建议),然后流程通过卷积神经网络,这些方法精度高但不能满足实时性的要求。代表性的算法包括RCNN [4),快RCNN [7),快RCNN [9),而面具RCNN [13),他们是典型的两阶段方法(使用区域生成方法生成的建议,然后进行分类和回归的建议)。另一物体检测算法基于回归方法,处理检测问题的回归问题,直接预测对象的位置和分类。这些方法是典型的单程方法,他们是快,但精度相对低于两阶段方法。代表性的算法YOLO[意思14],SSD [15],YOLOv2 [16],YOLOv3 [17)等。

尽管CNN的强大性能,当申请对象检测交通场景的一个主要难题是传统CNN-based方法敏感的规模是很常见的,各种对象的规模范围极大的交通图像或监控视频。例如,如图1,公共汽车有规模最大、包含更有效像素比其他对象。准确定位这些多尺度实例非常具有挑战性由于CNN的完整的连接层需要固定大小的输入,传统的ROI池简单复制的部分地区建议填补额外的空间特性指定大小的地图但是之后的原始结构小物体可能被摧毁。在网络训练阶段,填写重复的值不仅会导致向前传播的计算不准确也累积误差向后传播过程中阻碍参数更新。这两个方面误导网络的训练,使网络无法准确探测小型物体。同时,小物体时可能会失去响应特性映射已达到一定深度,这无疑让这些方法更难准确地检测小物体。

现有CNN-based研究解决scale-variance问题主要来自两个方面:通过不同分辨率图像的训练18- - - - - -20.]或融合特征图谱与不同尺度的CNN (5,8,10,21,22]。因此,网络的适应性与各种尺度上改善检测任务。然而,由于尺度上的差异,很难在所有尺度上检测对象由于非理性的设计检测分支或不能满足对无人超市至关重要的实时要求,自主驾驶,人脸识别,检测部分,和许多其他实时应用场景,因为昂贵的计算开销过大造成的参数的数量。

如上建议的讨论,这些任务的网络体系结构应该包括multibranches很大——,中期,和小规模的对象,分别。最近的CNN架构开发房地产,通过编写底层的高级特性。出于这种想法,我们提出一个multibranch卷积神经网络,名叫MBNet网,有效和准确的检测多尺度交通场景中的对象。提出MBNet网和相关方法的图解插图图所示2。卷积MBNet网是一个回归的端到端网络组成的层,马克斯池层,upsample层、路由层,和YOLO检测层意思,将在以下部分中提供具体的解释。特别,它分配动态权重支行对对象的规模,结合多层次特性与不同尺度的检测对象。因此,MBNet网可以实现优于检测性能在各种输入范围和高效的计算。

(一)

(b)

(c)

(d)

总之,本文的主要贡献包括:(1)小说multibranch scale-aware网络提出了目标检测在交通场景,将三个子网纳入一个统一的架构,这是专门为当前输入规模和提高最终的检测性能参数较少。(2)scale-aware机制提出相应调整权重,进行准确检测为大,中,小规模的对象从不同的交通场景,达到更好的性能与其他方法相比,在精度和召回率,也能够满足实时应用的要求。(3)我们构建一个城市交通数据集与大规模的方差,它提供了一个实际应用的平台比较各种检测算法的性能在处理不同的对象。

在其他领域,对象检测基于交通场景也经历了一段时间的发展,和相关的任务包括车辆检测、行人检测、车牌位置,等等。在本文中,我们考虑一个检测方法检测7种对象包括行人、汽车板,各种车辆。早期作品检测各种车辆使用前景和背景之间的相对运动的线索,例如高斯混合模型(GMM) [23,24和法模型25]。他们完成这项任务建模背景的分布比的前景似乎更频繁地占据了图像的一小部分。然后,一些手工制作的基于统计学习方法直接检测不同的物体从图像(视频帧)应用于目标检测在交通场景。这些方法使用常用特性如猪,冲浪(26],伽柏[27],Haar-like [28,29日)来描述图像区域,然后pretrained分类支持向量机、人工神经网络(27),和演算法28)用于将图像区域划分为不同的类别,如对象区域和物体区域。针对问题,现有的行人检测算法检测小姐在复杂的场景或对象的规模太小,Chen等人。30.)提出了级联简单聚合通道特性(ACF)和丰富的深卷积神经网络(DCNN)特性的有效的和有效的行人检测复杂的场景。在文献[31日),一个健壮的车牌定位方法基于小波变换和经验模态分解(EMD)的分析,提出了在实践中处理一些挑战性的问题,如光照变化和复杂的背景。一些研究把光学流与硬件实现(32)和密集的对应字段(33检测对象。然而,这些方法无法区分移动对象的详细分类,例如自行车、汽车、公共汽车、货车或行人。此外,这些方法还需要一系列复杂的后处理算法,如阻塞识别和阴影检测,优化检测结果。

众所周知,传统的CNN-based方法对尺度敏感,很多后来的研究一直致力于解决这scale-sensitive问题。在文献[2),胡锦涛等人提出了一种新的环境敏感RoI池方法取代传统的RoI池可能破坏小物体的原始结构,并进一步提出了一个multibranch决定网络进行回归和分类的任务框。李等人。34]提出使用生成对抗网络(甘斯)检测小型对象,取得了良好的效果。大多数现有的解决方案是受到两种金字塔表示。其中一个应用图像金字塔(图的概念2(一个)),它使用多个大小的输入图像,使网络适合各种规模的输入(6,18,19,35]。然而,该方案的主要缺点是它需要大量计算能力的,这限制了其应用程序实时检测。金字塔的手段进行的其他特性,利用多个特征图的信息从不同的层中提取检测对象与不同尺度(如图2 (b))。的想法与高分辨率浅层探测小型对象特征与低分辨率深度和大型对象特性。这个策略已经采用SSD (15],MS-CNN [10],FCN [36],SDP (5]。然而,由于肤浅的特征图谱是缺乏语义信息和小对象可能丧失其响应特性映射已达到一定深度时,这些小对象上的方法的检测效果很差。

为了充分利用深层信息处理的规模变化的对象,一些研究人员提出结合特征图谱的不同层次来训练一个网络(图2 (c)),比如HyperNet [37和多路径22]。然而,小物体仍很难检测由于使用将采样操作,这样小物体时不能保持充足的空间信息特征映射达到一定深度。详细信息的充分利用浅层和深层的语义信息特征,另一种解决方案是使用高分辨率浅特征地图和upsampled深特征图谱一起预测小型对象,如(21,38]。这个方案可以更好地维护小深特征图中的对象的信息,这正是本文(图中采用的想法2 (d))。

总之,通过合理的设计和调整的三个检测分支机构,我们的方法是实现性能的平衡时间,成本,和检测精度,可以更好地与各种检测对象尺度,同时满足应用程序的实时要求。我们探索一个简单而有效的框架,包括三个子网生成相应的检测结果在每个分支,然后过滤算法(如NMS)是用来提炼这些结果得到最终的结果。

3所示。MBNet网

出于功能金字塔的概念,我们提出一种新的算法,即。MBNet网。MBNet网是一个整体的三个子网scale-specific特征地图是用来检测大型的交通场景中的对象——,中期,和小规模的大小,分别如图3。通过融合不同层次的特点,特征图谱用于检测在我们的模型中都有丰富的高层语义信息特征和底层功能的详细信息,有效地提高了检测的影响小对象。我们的模型的设计使MBNet网能够准确地捕捉不同尺度对象的特点在不同的分支,然后进行分类和定位。最后,一系列的过滤算法用于屏幕检测结果得到最终结果。MBNet网框架的细节图3。

3.1。跨尺度预测

借鉴的想法RCNN更快,我们使用k - means聚类锚箱的帮助下一系列的地面实况盒,可以自动确定锚的大小和数量。然后,9集群被选择,进一步提取特征通过几个卷积层产生特征图专业尺度范围的对象。特别,在城市交通的实验数据集(部分4.1。1),我们预测3边框特征地图上的每个检测分支张量N×N×3×(4 + 1 + 7))4边界框的偏移量,1客体性预测,预测和7类。至于MBNet网设计的三个分支,N分别代表16、32、64。随着锚敏感不仅检测效率,而且定位质量,k - means聚类的方法被用来找到恰当的k通过调整目标函数值最小的在YOLOv2 [16),在函数变量,盒子代表的边界框的信息重心代表集群的信息中心,适当的值k聚类后9。每个图像的分辨率在我们手工制作的数据集是512×512,和9组数据集(11×12),(15×30),(43×32),(37×74),(62×87),(69×139),(173×145),(255×278),(453×432)。

与语义信息和交通场景细节不够编码,特征提取器只描述了外观内容粗糙的水平。为了获取互补信息,我们整合深度语义分割特征映射到原始对象检测框架。详细,一系列的卷积和马克斯池操作,指定大小的地图功能可以自动学习作为第一个检测分支。接下来,我们从前面几层特征映射,提高分辨率的2倍,然后我们把它与另一个功能映射为检测分支之一。我们也卖个低级特征映射和合并与另一个upsampled特性映射使用连接,和几个然后执行卷积操作地图上这个组合特性之前,作为最后的检测部门。低级的组合描述符和高级特性可能导致更好的表演细粒度对象类别的区别。简而言之,MBNet网精心设计三种不同的检测分支覆盖大,中,小规模的对象尽可能在交通场景。

3.2。网络训练过程

表1详细说明了MBNet网的体系结构。卷积网络由32层,其中17层为特征提取、6马克斯池层简化特征图,2 upsample层获得高维特征图(upsample一层提高分辨率的2倍,然后连接到另一个层),和3 yolo层意思接收输出特征图谱,也作为在这三种不同的检测分支机构网络。此外,4线路层用于带特征映射在某一层或从不同的层次融合特征图。在卷积层,我们使用正则化,以抑制过度学习,增加一些重要参数的比重在卷积内核提取更精确的特征图谱。添加批量标准化层每层规范化卷积后的数据输出,大大提高了训练速度和避免发生梯度消失。在网络中,我们使用破ReLU函数作为激活函数。


层	类型	过滤器	尺寸/大步	输入	输出

0	Conv	16	3∗3/1	512年512∗∗3	512年512∗∗16
1	Maxpool		2∗2/2	512年512∗∗16	256年256∗∗16
2	Conv	32	3∗3/1	256年256∗∗16	256 256∗∗32
3	Maxpool		2∗2/2	256 256∗∗32	128 128∗∗32
4	Conv	64年	3∗3/1	128 128∗∗32	128 128∗∗64
5	Maxpool		2∗2/2	128 128∗∗64	64 64∗∗64
6	Conv	128年	3∗3/1	64 64∗∗64	64 64∗∗128
7	Maxpool		2∗2/2	64 64∗∗128	32 32∗∗128
8	Conv	256年	3∗3/1	32 32∗∗128	32 32∗∗256
9	Maxpool		2∗2/2	32 32∗∗256	16∗∗256
10	Conv	512年	3∗3/1	16∗∗256	16∗∗512
11	Maxpool		2∗2/1	16∗∗512	16∗∗512
12	Conv	1024年	3∗3/1	16∗∗512	16∗∗1024
13	Conv	256年	1∗1/1	16∗∗1024	16∗∗256
14	Conv	512年	3∗3/1	16∗∗256	16∗∗512
15	Conv	128年	3∗3/1	16∗∗512	16∗∗128
16	Conv	36	1∗1/1	16∗∗128	16∗∗36
17	Yolo
18	路线14
19	Conv	128年	1∗1/1	16∗∗512	16∗∗128
20.	Upsample		2×	16∗∗128	32 32∗∗128
21	路线20 8
22	Conv	256年	3∗3/1	32 32∗∗384	32 32∗∗256
23	Conv	36	1∗1/1	32 32∗∗256	32 32∗∗36
24	Yolo
25	路22号
26	Conv	128年	1∗1/1	32 32∗∗256	32 32∗∗128
27	Upsample		2×	32 32∗∗128	64 64∗∗128
28	路线27日6
29日	Conv	512年	1∗1/1	64 64∗∗256	64 64∗∗512
30.	Conv	36	1∗1/1	64 64∗∗512	64年64∗∗36
31日	Yolo

网络将整个检测任务视为一个回归的任务,将输入图像分成16×16、32×32岁和64×64小区域(网格细胞),分别。然后,每个小区域(网格单元)预测三个可能包含对象的边界框以及每个类别的概率值。然后,我们把这些盒子与地面真理和错误。整个培训过程如图4:我们对待训练网络作为一个包含几个参数的函数,缩写为 ,在哪里x代表了一些维度和输入y代表它的输出。首先,网络是随机初始化,然后使用训练集的图像作为输入获得相应的输出,即边界框坐标预测,客体性预测,和7个类别预测,如图4。作为一个模块的输入可以通过工作从梯度计算对该模块的输出,使用BP算法来更新网络中的参数在函数调整系数值下一轮的训练。然后,我们以这种方式进行迭代,直到我们的损失函数达到一定范围或当迭代次数达到一定数量的时候我们终止迭代。接下来,我们选择了损失函数值和最具代表性的网络权重值作为最后一个参数的预测网络。在测试阶段,对于每一个输入图像,网络产生各种尺度的输出在不同检测分支。接下来,我们结合在一起,然后使用过滤算法如nonmaximum抑制(NMS)来改进结果。

我们有训练网络的100000倍,获得平均借据和损失函数之间的关系的训练次数,如图5和6,分别。从这些数据,我们可以得出一个结论,网络的损失是在迭代过程收敛,平均借据的价值是增加1。

3.3。边界框类预测和预测

快RCNN和其他一些作品后,我们的系统预测边界框使用维度集群如k - means锚盒子之前。当一个输入图像分为一个年代×年代网格,每个网格单元预测B(9集群划分均匀跨3分支,这里B是3)边界框的前提下MBNet网预测三种类型的锚箱三个检测分支(16×16、32×32和64×64)。一个对象预计的网格单元的中心对象,和网络预测4坐标对于每一个边界框, , , ,和 ,(在哪里 , )是地面真理的中心偏移框左上角的网格单元负责预测和( , )是规模的边界框的大小缩放大小类似于地面真理盒子。他们计算对应

如果细胞图像的左上角的偏移( , )(如方程所示1)和(2))和前锚箱宽度和高度 ,的预测预测边界框的坐标可以通过以下方程: 在哪里 , , ,和参考中心坐标以及地面实况的宽度和高度,分别。和表示锚箱的宽度和高度,分别。从方程(1)- (8),4预测输出坐标的边界框。使用压缩和到[0,1]区域能有效确保网格中的对象中心细胞进行预测和防止过度的偏差。

在训练中,我们使用平方误差的总和损失,和总损失函数的网络方程所示(9),这是用于YOLOv2一样(16]。损失函数的设计目标是实现坐标之间的平衡,边界框的信心和类。我们的梯度是地面真值(从地面实况框计算)-我们的预测价值,第四和第五项所示下列方程

损失函数,是真正的类别,是预测类别,( , , , )的信息是地面真理,( , , , )的信息预测边界框,然后呢 , , ,和重量参数。MBNet网预测每个边界框的信心使用逻辑回归。值应该是1时锚箱重叠地面实况对象比其他任何锚箱。其计算过程方程所示(10)。与YOLOv3 [17),我们选择几个边框与相对较高的信心和平均坐标的但不要只选择一个边界框的最大信心高度重叠检测盒,像在2]。这样,阻挡物体的定位精度提高,召回率增加了6.8%。如果锚箱不负责预测地面实况对象,也就是说,它不满足预设阈值与地面真理盒子的借据,它不得因其损失类预测,只有信心预测,或者有一个很小的重量的协调预测。完整的边界框回归过程如图7。

除了4的坐标 , , ,和和信心,每一个边界框还预测7类分数,7类对应我们的手工制作的数据集。乘以7的信心值类分数,分别的具体分数基于一个特定范畴的边界框然后获得,如方程所示(11)。因此,这些信心得分可以比作预设阈值,以确定哪些类别应该保留。每个边界框使用multilabel分类预测一个边界框可能包含的类别。良好的性能,我们不使用softmax只是使用独立的逻辑分类:二叉类预测在训练过程中损失。使用softmax强加的假设每个箱子只有一个类,这不是通常的情况;例如,苹果可能标签如苹果,水果,食品在同一时间。multilabel方法可以更好的模型中的数据集。

4所示。实验

4.1。数据集和评价指标

进行一系列的对比实验是在这篇文章中,我们使用一个手工制作的城市交通数据集和公众KITTI数据集来评估性能和算法的有效性。

以下4.4.1。城市交通数据集

交通场景通常包含对象(如各种车辆和行人)大规模变化,监控摄像头通常覆盖一个庞大而长远的道路。虽然公开可用的基准是导致进步在这一领域的对象检测、现有交通对象数据集通常包含一个有限范围的内容(只有汽车或行人)和尺度,很难评估实际性能。为了证明该方法更实际的场景,我们构建一个名为城市交通的新数据集数据集提供一个更好的指标,研究工作集中在这些困难的情况下。

城市交通数据集包含对象与一个巨大的方差尺度下的交通场景,其中包括10500已标示图像在不同道路,时间,天气,和交通状态,如图8。数据集被分为三个子集,在训练集:测试组:验证集5:3:2。培训的细节,它由5125张图片和3188图像进行测试,和验证集是2197图片。数据集由七大类,即汽车、汽车板,行人,公共汽车,自行车,摩托车,三轮车,这也是我们所需要的对象从输入图像检测,值得指出的是,我们把汽车板作为训练和测试一个类。

更好地适应网络呈现在这篇文章中,我们已经调整到512×512分辨率的图像。我们的手工制作的数据集的数据分布如表所示2。如表中所示2、对象分为7大类下的三种不同的场景(稀疏、拥挤和夜间)。我们认为一个场景是一个拥挤的场景如果它包含超过15每图像对象;否则,它被认为是一个稀疏场景。


场景	稀疏(白天)	拥挤(白天)	夜间	总

图片	7452年	1819年	1229年	10500年
汽车(C)	37360年	14357年	8814年	60531年
汽车板(CP)	37327年	14233年	8747年	60307年
行人(P)	65467年	22214年	4428年	92109年
总线(B)	4216年	2456年	856年	7528年
自行车(BI)	2213年	1710年	211年	4134年
摩托车(M)	1104年	678年	249年	2031年
三轮车(T)	2337年	742年	367年	3446年

4.1.2。KITTI数据集

KITTI [1)是一种广泛使用的基准车辆检测,其中包含具有不同尺度的对象在不同的场景。网络训练数据集包括7481个图像(包括2494张图片作为验证集)和7518用于测试该模型的图像。KITTI数据集提供了移动物体的3 d边界注释被使用相机,和对象的类别包括汽车、卡车、行人和自行车。根据对象的不同大小,闭塞,和截断标准,数据集组织者将数据集划分为三个层次:简单,温和,和努力,它可以用来判断各种目标检测算法的综合性能。

4.1.3。评价指标

我们采用公认的召回率,平均精度(美联社),十字路口在联盟(借据)指标39)来评估MBNet网的性能对我们手工制作的数据集,和他们已经广泛被用于评估各种目标检测算法(1,39]。我们评估的性能模型汽车,行人,公共汽车,自行车,等等场景下在所有情况下,如拥挤或稀疏,白天或夜间。在实验中,阈值设置在0.1到0.65,这意味着只有预测边界框之间的重叠和地面真理价值大于或等于当前检测被认为是一个正确的检测。此外,我们使用P-R曲线和平均精度(美联社)汽车MBNet网的检测性能,骑自行车和行人在场景与不同的复杂性程度(简单,中等,困难)KITTI数据集。所有的实验结果中可以看到部分4.4。

4.2。实验配置

我们的实验实现在电脑上配备一个Ubuntu 16.04系统和支持NVIDIA GPU和英特尔(R)酷睿i7 1060 - 6700 k的@ 4.0 GHz∼4.2 GHz CPU。除了8.0包CUDA GPU发展和深度学习加速度库cuDNN 6.0安装。然后我们MBNet网是Python 2.7环境下训练。我们的网络的具体参数如下:最初的学习速率是0.001;政策措施;批64;步骤,分别用100、25000和50000;maxbatch是100000;尺度是10、0.1和0.1;动量是0.9,衰变是0.0005。 As shown in Figure5横纵坐标代表的迭代次数,从0到100000不等。超过60000次迭代后,参数已基本稳定。在培训过程中,地区平均借据的变化和损失是重要的参数测量模型训练的质量,我们可以看到数据5和6,损失下降,接近一个常数小,而平均借据约等于1,基本上满足要求的培训。

4.3。各种尺度的解释

我们建议MBNet网有效地检测大、中、小型交通场景中的对象,以减少缺失的检测。进行这些实验是我们的手工制作的数据集和KITTI,其中包含具有不同尺度的对象。通过统计分析数据集的边界框的对象分为三个类别:小型,中型和大型。具体来说,对象的高度或宽度大于10像素小于47像素属于一个“小”类别;对象和47个像素之间的高度或宽度99像素的“媒介”的类别。其他对象的高度或宽度大于99像素的“大”的类别。的三个检测分支MBNet网可以有效地检测这些对象从不同的场景,如稀疏或拥挤。实验结果表明,设计合理的检测分支模型大大提高了召回率和检测精度,而且因为MBNet网是一个32-layer轻量级的网络,每个图像处理的速度是30 ms (33 fps),基本上可以满足实时要求的行业。

4.4。比较与最先进的

4.1.1。城市交通数据集

基于上面的配置中,我们进行我们的实验图支持premarked数据集,用RCNN和实验比较,RCNN更快,SSD,面具RCNN SINet和YOLOv3分别。我们做比较分析召回率,平均精度,平均借据,和时间消耗。重要的是要注意,YOLOv3网络将输入图像划分为13×13、26日×26岁和52×52小区域(网格细胞),并在这篇文章中,我们将原始图像的大小分为16×16日32×32岁和64×64小区域,分别。来验证我们的方法的有效性,我们比较它与其他方法不同阈值下,如表所示3- - - - - -9。


模型	阈值
模型	0.1	0.15	0.2	0.25	0.3	0.35	0.4	0.45	0.5	0.55	0.6	0.65

RCNN [4]	37.32	38.55	40.29	42.78	43.46	44.12	46.29	47.04	51.12	53.47	57.78	59.04
快RCNN [9]	41.92	42.47	43.05	45.11	47.38	48.61	50.29	52.33	55.69	59.61	65.29	68.33
SSD (15]	47.74	49.07	52.14	54.97	57.61	60.14	62.24	64.39	65.57	68.14	71.24	74.39
面具RCNN [13]	51.45	53.23	55.01	56.26	58.38	59.21	62.88	64.49	67.13	70.21	74.44	77.27
SINet [2]	55.41	56.65	57.10	60.21	65.44	68.43	69.98	72.12	74.56	79.28	81.36	82.43
YOLOv3 [17]	54.94	55.07	57.34	59.30	62.35	64.82	66.32	68.73	69.18	72.82	75.32	79.73
MBNet网	58.25	59.31	61.45	62.67	64.94	67.19	70.01	72.33	75.12	77.19	80.01	83.68


模型	阈值
模型	0.1	0.15	0.2	0.25	0.3	0.35	0.4	0.45	0.5	0.55	0.6	0.65

RCNN [4]	76.23	74.55	71.29	68.78	65.46	61.12	59.29	57.04	54.35	49.47	46.78	42.04
快RCNN [9]	82.92	80.47	78.05	74.11	71.38	68.61	66.29	63.33	61.74	57.61	54.29	50.33
SSD (15]	79.74	77.07	74.14	72.97	70.61	68.14	66.24	63.39	61.27	58.14	55.24	51.39
面具RCNN [13]	80.65	78.08	76.54	75.15	72.09	68.98	65.66	64.21	63.37	60.25	56.45	53.10
SINet [2]	86.56	85.55	83.03	82.04	78.08	74.00	70.23	66.49	63.30	61.72	60.28	59.26
YOLOv3 [17]	85.94	82.07	80.34	78.30	75.35	73.82	71.32	67.20	65.14	61.29	59.32	56.73
MBNet网	88.25	86.31	83.45	80.67	77.94	74.19	71.71	67.83	64.20	62.19	60.81	58.33


分表1
模型	平均	稀疏(白天)
模型	平均	C	CP	P	B	BI	米	T

RCNN [4]	58.30	58.27	46.16	55.25	67.98	60.66	64.45	55.32
快RCNN [9]	63.65	64.93	63.20	66.31	69.29	59.45	60.21	62.17
SSD (15]	71.71	74.25	71.27	69.34	78.78	72.10	66.34	69.91
面具RCNN [13]	75.85	82.88	68.69	77.71	84.84	69.25	72.12	75.45
SINet [2]	82.20	86.86	74.40	83.66	87.87	77.23	83.25	82.10
YOLOv3 [17]	78.33	84.12	78.27	76.41	84.53	76.37	72.49	76.10
MBNet网	83.79	88.63	85.52	83.98	86.42	78.72	82.71	80.54


分表2
模型	平均	拥挤(白天)
模型	平均	C	CP	P	B	BI	米	T

RCNN [4]	43.94	42.12	38.28	40.32	55.17	41.31	44.14	46.25
快RCNN [9]	47.73	50.25	43.47	51.06	57.28	45.27	44.04	42.74
SSD (15]	58.00	59.27	51.32	62.21	66.57	57.22	58.18	51.21
面具RCNN [13]	57.78	55.25	58.67	60.20	70.23	56.56	52.33	51.19
SINet [2]	64.95	66.58	57.57	65.35	73.33	61.01	65.59	65.20
YOLOv3 [17]	60.03	63.63	55.72	58.34	68.63	58.01	56.70	59.21
MBNet网	66.45	65.78	61.06	63.74	76.59	65.70	66.81	65.46


分表3
模型	平均	夜间
模型	平均	C	CP	P	B	BI	米	T

RCNN [4]	10.46	8.84	3.38	11.16	16.55	9.94	10.37	12.95
快RCNN [9]	14.71	18.93	9.45	11.17	23.39	8.50	13.22	18.34
SSD (15]	16.15	22.36	11.73	16.66	26.69	9.97	13.35	12.31
面具RCNN [13]	18.87	24.23	16.66	12.57	28.30	12.29	20.87	17.17
SINet [2]	24.00	30.18	18.24	13.89	36.21	28.35	24.24	16.87
YOLOv3 [17]	19.47	23.31	12.20	15.57	26.79	20.01	18.11	20.33
MBNet网	27.16	33.27	21.55	18.91	35.56	27.31	28.85	24.67


模型	阈值
模型	0.1	0.15	0.2	0.25	0.3	0.35	0.4	0.45	0.5	0.55	0.6	0.65

RCNN [4]	72.45	71.12	68.67	66.89	63.21	61.72	59.56	56.01	53.29	50.67	46.59	41.21
快RCNN [9]	78.23	77.67	76.55	74.31	71.29	69.11	67.47	65.12	62.89	59.61	57.23	54.45
SSD (15]	84.67	82.58	80.69	78.97	76.29	75.17	73.90	70.55	68.22	65.14	62.25	58.30
面具RCNN [13]	80.34	79.25	78.58	78.10	77.31	75.69	74.26	72.79	70.99	68.68	64.36	60.01
SINet [2]	88.90	88.08	82.29	81.81	80.22	76.21	73.33	68.68	66.43	64.42	63.99	60.68
YOLOv3 [17]	85.87	84.01	81.44	79.45	77.39	75.88	72.32	69.73	68.97	65.82	64.29	61.33
MBNet网	89.25	87.27	84.45	82.66	79.99	77.11	74.77	71.38	68.20	66.23	65.01	61.58


方法	时间(女士)

RCNN [4]	3130年
快RCNN [9]	125年
SSD (15]	60
面具RCNN [13]	78年
SINet [2]	66年
YOLOv3 [17]	40
MBNet网	30.

因为召回率、检测精度和每个模型的借据价值会改变不同阈值下,我们比较这些指标在不同阈值(0.1∼0.65)。如表所示3,我们比较的平均精度7框架测试设置在不同的阈值。如表所示,每个方法的平均精度增加随着阈值的增加,这是因为在一些较小的阈值可能计数错误的预测。如表所示3,我们的模型可以获得最高的平均精度在大多数情况下,在不同的阈值。阈值是0.1(最小)时,我们的方法的平均精度可以达到58.25%,高于SINet 2.84%和10.51%高于SSD网络;当阈值是0.65(最大),我们的方法的精度达到83.68%,高于SINet 1.25%和9.29%高于SSD网络。我们的方法的平均精度可以达到接近60%的阈值为0.1,这表明,该网络结构提出了适合不同对象的预测。表4展示了各种方法的召回率的比较,和我们的模型主要有最高的召回率在不同的阈值。这表明,我们的方法具有较低的检出率和小姐更适合与不同尺度的检测对象。

表5- - - - - -7使检测结果的统计为七大类测试阈值为0.5,从这些表,我们可以得出结论,我们的方法具有最好的检测结果与其他方法相比,在不同的场景。

借据(十字路口在联盟)主要用于测量预测边界框之间的重叠度和地面的真相:价值越高,预测更准确。中设置的阈值实验实际上是借据值计算。如表所示8,我们比较的平均借据七类的所有方法。阈值的0.1,我们的模型的平均借据达到89.25%,高于3.38%高于RCNN YOLOv3网络和16.8%。当阈值是0.65,我们的方法达到61.58%的平均借据,这也是最高的借据所有方法的价值。在其他阈值下,我们的模型显示了一个好的优势其他框架。表9分析了时间复杂度(消费)的每个框架。因为RCNN不是一个端到端的网络,其时间消费非常高,达到3.13 s /形象。此外,我们的时间消耗低于SSD和RCNNs面具。最后,与YOLOv3网络相比,因为我们的网络只有32层,虽然我们把原始图像上的更详细的分区,总体时间消耗低于YOLOv3网络。

为了显示16×16的大小,32×32岁和64×64更适应我们的模型,我们选择五个不同的大小进行比较,结果如图所示9。为了整洁为了演示,每个大小代表了最小规模的组(例如,16×16代表16×16、32×32岁和64×64)。因为每个网格单元预测3盒,网络消费将增加与地图比例尺的增加功能。可以看到从图9最多,当图像被分为20×20网格,效果不如16×16了。此外,当输入电网分为8×8,准确性会降低迅速随着阈值的增加,这是非常不合适的。摘要16×16的大小可以被视为一种妥协的选择,及其时间消费不是太多,但其准确性是最好的,再加上我们的网络本身没有很多参数,所以总的来说,总时间消费不是很高,基本上满足实时性要求。

在本节中,我们比较了召回率,平均精度,平均借据,与不同的方法和时间消耗,精度在不同分区模式也进行了讨论。总之,我们的网络显示一个好的优势大多数现有模型在上述方面,也可以满足行业需求实时性能。

在图10,我们将展示一些检测结果MBNet网在我们的手工制作的数据集。结果表明,该算法有效地与不同尺度的检测对象,尤其是对一些小型对象(如汽车板)等交通场景在不同条件下的拥挤,稀疏,照明不足。这证明该MBNet网具有良好的应用前景,有望成为智能交通系统的一个重要组成部分。

10/24/11。KITTI数据集

为进一步分析了该方法的有效性,我们训练我们的模型使用KITTI训练集和评估模型在测试集上的KITTI基准。特别,我们比较RCNN的检测性能,RCNN更快,SSD, YOLOv3,面具RCNN SINet和我们的方法对不同的对象(汽车、自行车和行人)。实验结果如图所示11。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

从图可以看出11,P-R曲线下的面积不同的对象被我们的方法比其他方法,也就是说,我们的方法的平均精度较高,这意味着我们的方法的检测性能优于其他方法。此外,我们计算的平均精度(美联社)场景与不同的复杂性程度(简单,中等,困难)KITTI数据集,结果如表所示10。


模型	车			骑自行车的人			行人
模型	容易	温和的	硬	容易	温和的	硬	容易	温和的	硬

RCNN [4]	44.27	35.49	21.78	30.34	22.17	15.68	41.24	33.55	25.57
快RCNN [9]	52.14	41.23	30.77	34.54	25.24	18.29	39.67	26.54	18.23
SSD (15]	83.55	67.87	50.27	57.17	42.14	35.23	62.19	44.53	35.78
YOLOv3 [17]	87.22	71.28	64.67	72.13	60.06	42.77	77.32	65.34	55.58
面具RCNN [13]	84.39	68.28	58.89	73.68	58.45	40.08	78.32	63.69	50.21
SINet [2]	88.35	77.49	62.57	75.72	60.29	43.12	80.49	65.97	54.68
MBNet网	88.67	74.44	65.98	74.53	62.65	45.30	82.59	66.22	56.21

如表所示10,我们的模型可以更好地检测不同的物体在场景复杂程度不同,这是由于我们的模型的合理结构设计。在图12,我们将展示一些KITTI MBNet网检测结果的数据集。从图可以看出12网络提出了对车辆的检测有很好的影响与不同尺度,证明了该算法的优越性在检测各种对象通过使用与不同尺度特征图。

5。结论

总而言之,我们提出一个32-layer multibranch网络,表示MBNet网,用于快速检测的对象有一个很大的方差尺度交通场景。通过设计的三个检测分支,它可以准确地检测大,中期,和小规模的对象从不同的交通场景,如稀疏,拥挤,白天或夜间。此外,我们构造一个新的标签数据集,它包含对象与大规模的方差在交通场景,它提供了一种实用的平台不同的检测算法的评价。MBNet网达到性能最先进的精度和召回率,并实时检测的检测速度足够快。进一步的调查是运用MBNet网更具挑战性的数据集,以及有机会改变网络的总体结构为一个更好的性能。更重要的是,鉴于大多数检测算法的检测效果差的黑暗场景,我们后续工作还将专注于改善算法的检测效果与光线不足的场景。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(41571401)。

引用

R UrtasunP。楞次和盖革,“我们准备自主驾驶吗?在KITTI视觉基准套件。《IEEE计算机视觉与模式识别会议美国国际扶轮,IEEE计算机协会,普罗维登斯,2012年7月。视图:出版商的网站|谷歌学术搜索
肖x, x, y . et al .,“SINet: scale-insensitive卷积神经网络快速车辆检测,”IEEE智能交通系统,20卷,不。3、1010 - 1019年,2018页。视图:出版商的网站|谷歌学术搜索
美国贝尔,c·劳伦斯Zitnick k .巴拉和r . Girshick”Insideoutside净:检测对象上下文跳过池和复发性神经网络”《IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
r . Girshick j·多纳休,t·达雷尔et al .,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议(CVPR)IEEE计算机协会,哥伦布,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
f·杨,w . Choi和y林,“利用所有的层:快速、准确的CNN对象探测器与规模相关的池和级联分类器,排斥”《IEEE计算机视觉与模式识别会议(CVPR)IEEE计算机协会,内华达州拉斯维加斯,美国,2016年6月。视图:谷歌学术搜索
林崔y, w . y . et al .,“Subcategory-aware对象建议和卷积神经网络检测”《IEEE冬季会议上的应用计算机视觉(WACV)美国IEEE圣罗莎,CA, 2017年3月。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。《IEEE计算机视觉国际会议(ICCV)圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
k .他x张任美国,“空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能,37卷,不。9日,第1916 - 1904页,2014年。视图:谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2015页。视图:出版商的网站|谷歌学术搜索
z Cai,风扇,r . s . Feris和n .塞·伐斯冈萨雷斯,他的“一个统一的多尺度卷积神经网络快速目标检测,”《计算机学报Vision-ECCV 20162016年10月,阿姆斯特丹,荷兰,。视图:出版商的网站|谷歌学术搜索
j·r·r·Uijlings k·e·a . van de Sande et al .,“选择性搜索对象识别,”国际计算机视觉杂志》上,卷104,不。2、154 - 171年,2013页。视图:出版商的网站|谷歌学术搜索
c . l . Zitnick和p .美元”,从边边框:定位对象建议,”计算机视觉——2014年大会瑞士巴塞尔,施普林格国际出版,2014。视图:出版商的网站|谷歌学术搜索
h .开明、g .格鲁吉亚,d .彼得亚雷和g·罗斯,“面具R-CNN”IEEE模式分析与机器智能,p . 2018。视图:出版商的网站|谷歌学术搜索
j . Redmon s Divvala r . Girshick et al .,“你只看一次:统一、实时检测,”2016年IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“SSD:单身multibox探测器拍摄,”计算机视觉——2016年大会瑞士巴塞尔,施普林格国际出版,2016。视图:谷歌学术搜索
j . Redmon和a·哈蒂”YOLO9000:更好,更快,更强”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页6517 - 6525年,美国,2017年7月,你好。视图:谷歌学术搜索
j . Redmon和a·哈蒂”YOLOv3:增量改进”,2018年,https://arxiv.org/abs/1804.02767。视图:谷歌学术搜索
Shrivastava a, a·古普塔和r . Girshick”培训提出对象探测器与在线示例矿业,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
谢,r . Girshick p .美元,z,和k .他“聚合残余转换为深层神经网络,”2016年,https://arxiv.org/abs/1611.05431。视图:谷歌学术搜索
k . x张,他任美国et al .,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
a . Shrivastava r . Sukthankar j·马利克et al .,“除了跳过连接:自上而下的对象检测调制,”2016年,https://arxiv.org/abs/1612.06851。视图:谷歌学术搜索
林Zagoruyko,勒雷,t . y . et al .,“多路径网络对象检测,”2016年,https://arxiv.org/abs/1604.02135。视图:谷歌学术搜索
r .风扇、黄r和r .刁,”高斯混合模型集合卡尔曼滤波对于机器参数校准,”IEEE能量转换,33卷,不。3、1597 - 1599年,2018页。视图:出版商的网站|谷歌学术搜索
t . l . Yu Yang, a . b . Chan“Density-preserving分层EM算法:简化高斯混合模型来近似推理,”IEEE模式分析与机器智能第41卷。。6,1323 - 1337年,2019页。视图:出版商的网站|谷歌学术搜索
m·巴尔加斯j·m·米拉s·l·托拉尔et al .,”一个增强的背景估计算法在城市交通车辆检测场景,”IEEE车辆技术卷,59号8,3694 - 3709年,2010页。视图:出版商的网站|谷歌学术搜索
j·w·谢·l·c·陈,d . y . Chen“对称冲浪及其应用车辆检测和车型识别,”IEEE智能交通系统,15卷,不。1、6 20,2014页。视图:出版商的网站|谷歌学术搜索
z太阳、g . Bebis和r·米勒“单眼预碰撞车辆检测:特性和分类器。”IEEE图像处理,15卷,不。7,2019 - 2034年,2006页。视图:出版商的网站|谷歌学术搜索
林Zagoruyko,勒雷,t . y . et al .,“多路径网络对象检测”《英国机器视觉会议2016年9月,英国斯旺西。视图:谷歌学术搜索
美国Sivaraman和m . m . Trivedi”一般为行车车辆识别和跟踪、主动学习框架”IEEE智能交通系统,11卷,不。2、267 - 276年,2010页。视图:出版商的网站|谷歌学术搜索
p . x Chen, w·柯et al .,“行人检测与深度卷积神经网络,”电脑Vision-ACCV 2014车间,2014年。视图:出版商的网站|谷歌学术搜索
美国,李,张,和m . c . Liu Q.-H。孟”小说车牌定位方法基于小波变换和EMD分析,“模式识别,48卷,不。1,第125 - 114页,2015。视图:出版商的网站|谷歌学术搜索
k . Seyid a . Richaud r . Capoccia, y Leblebici,“fpga硬件实现的实时光学流计算,”IEEE电路和系统视频技术,28卷,不。1,第216 - 206页,2018。视图:谷歌学术搜索
c .水斗b Taetz d·斯特里克,“流场:密度对应字段高精度大型位移光流估计,“IEEE模式分析与机器智能第41卷。。8,1879 - 1892年,2019页。视图:出版商的网站|谷歌学术搜索
梁j .李x, y魏et al .,“感知生成对抗网络对于小目标检测,”《IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,嗨,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
p . Sermanet d特征,x, m·马蒂厄·r·费格斯,和y LeCun (“Overfeat:综合识别、定位和检测使用卷积网络,”2013年,https://arxiv.org/abs/1312.6229。视图:谷歌学术搜索
j .长,大肠Shelhamer, t·达雷尔“完全卷积网络语义分割,”IEEE模式分析与机器智能,39卷,不。4、640 - 651年,2014页。视图:出版商的网站|谷歌学术搜索
t ., a .姚明,y . Chen等人“HyperNet:对准确地区建议生成和共同目标检测,”《IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
林t y, p .美元,r . Girshick et al .,“特性为目标检测金字塔网络,”2016年,https://arxiv.org/abs/1612.03144。视图:谷歌学术搜索
m . Everingham l . Van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(voc)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。视图:出版商的网站|谷歌学术搜索