使用改进的面具R-CNN快速车辆和行人检测

文摘

本研究提出了一种简单而有效的面具R-CNN算法更快速检测的车辆和行人。实用价值的方法是防撞预警系统在智能驾驶。深层神经网络有更多的有更大的能力,还必须执行更复杂的计算。为了克服这个缺点,本研究采用resnet - 86作为骨干网络,不同于面具resnet - 101的骨干结构R-CNN算法在实际条件。结果表明,resnet - 86网络可以减少手术时间和极大地提高精度。检测到车辆和行人也放映出基于微软可可数据集。新的数据集是由筛选和补充可可数据集,这使得算法的训练更有效。也许,最重要的部分我们的研究,我们提出一种新的算法,融合红外系统。算法中的参数没有增加,计算量增加了不到0.000001,和平均平均精度(mAP)增加了2.00分。结果表明,与面具R-CNN算法相比,我们的算法减少了体重9.43%的内存大小,提高了训练速度26.98%,提高了测试速度7.94%,损失的价值降低了0.26,地图的价值增加了17.53。

1。介绍

改善行车安全,减少司机疲劳,研究正在进行智能驾驶技术的发展(1]。在智能驾驶,我们首先需要保证人类的安全,因此,辅助驾驶系统(广告)2)提高智能驾驶的安全是一个热点研究。防撞预警系统(CAWS) [3)是特别重要的智能汽车的广告。CAWS的一个关键问题是司机的环境的意识。车辆和行人汽车摄像头捕捉到的图像识别,检测到,并除以对象检测技术,由于复杂场景信息面临着挑战。

车辆和行人检测的两种主要方法是基于机器学习(4)方法和deep-learning-based (5)方法。机器学习方法首先定义功能使用的一个功能获取描述符的梯度直方图等(猪)6),然后使用技术如执行分类支持向量机(SVM) [7]。猪+ SVM方法显示了优越的性能,但患有意味着平均精度低(mAP)和不适合多级过程特征提取(8]。深度学习系统,如卷积神经网络(cnn),显示对象检测的优势,因为他们的目标是发现区别的特性从原始数据9]。CNN是发达国家在1980年代和1990年代(10[],但自从经历再现的兴趣11]2012年,它在计算机视觉领域建立了立足点和快速增长。

随着算法的精度和速度的要求不断增加,车辆和行人识别算法,如R-CNN R-CNN快,更快的R-CNN,面具R-CNN提出了(12- - - - - -15]。面具R-CNN于2017年提出。没有添加任何技能,面具R-CNN优于所有单一识别模型,击败2016年微软可可数据集[冠军16)的挑战。它成为一个领导者,图像识别,检测和分割(15]。针对事实掩盖R-CNN具有速度快和精度高的目标探测任务,它被应用于许多领域17,18]。

面具R-CNN由三部分组成:功能金字塔网络(红外系统),区域建议网络(RPN)和检测。它可以完成三个任务:目标识别(19),检测(20.),和分割21]。面具R-CNN极大地推动计算机视觉的发展,导致一系列提议算法。红外系统的第一部分面具R-CNN,它使用resnet - 101 (22)作为其支柱检测81种目标。网络结构的深度是非常重要的对于许多视觉识别任务。Resnet是一个残余学习框架简化了训练用的网络层与参考学习剩余功能层的输入,而不是学习未引用的函数。

针对本文的研究对象,它是车辆和行人在路上,以下四个改进是基于R-CNN面具。首先,为了获得更精确的功能语义信息结合语义特征图的特征信息,一边融合计算添加红外系统结构,和侧面融合红外系统(SF-FPN)算法。第二是提高resnet - 101网络resnet - 86网络。残块从23日至18日,减少,有效地提高了计算速度。第三是选择500项训练帧和250年预测帧,以进一步降低算法的冗余。第四个是分类和补充可可中的81个样本数据集23)和原始图像的矩形标签更改为多边形标签来提高培训的效果。

2。面具R-CNN

面具R-CNN是一个概念上很简单,灵活,和一般的框架对象识别、检测、分割和实例,可以有效地检测图像中的对象,同时为每个实例生成高质量的分割掩模。金字塔网络特性(红外系统)目标检测(24),第一块面具R-CNN结构,负责特征提取。区域建议网络(RPN) [25),第二块面具R-CNN股票完整图像卷积特性与检测网络,从而使几乎免费的地区建议(26]。然后我们扩大了快R-CNN形成面具R-CNN通过添加一个分支预测对象面具与现有并行分支边界框识别。

应用于面具R-CNN项而不是选择性搜索(27),这样可以共享项卷积特性检测网络的完整的地图。它可以预测边界位置和对象在每个位置,分数也是一个完全卷积网络(FCN) [28]。如表所示1,快R-CNN使用RPN地区一代网络生成候选区域。FPS基于快速R-CNN算法高达5,及其对VOC的地图测试2012也增加到70.4%14]。


网络框架	R-CNN	快R-CNN	快R-CNN	面具R-CNN

提出的时间	2014年	2015年	2016年	2017年
地区的建议	选择搜索	选择搜索	项	项
特征提取	美国有线电视新闻网	CNN + ROI池	CNN + ROI池	CNN + ROI对齐
功能分类	支持向量机	CNN + ROI池	CNN + ROI池
函数	分类、检测	分类、检测	分类、检测	分类、检测、分割
每个图像测试时间(建议)	47秒	2秒	0.2秒	0.2秒
地图(VOC 2012)	62.4%	68.4%	70.4%	- - - - - -

为了进一步提高目标的检测精度,面具R-CNN使用双线性插值算法感兴趣的区域(ROI)对齐,而不是ROI池(29日R-CNN快)的基础上。ROI对齐层删除严酷的量子化的ROI池,妥善将提取的特征与输入。这种ROI方法避免了ROI的任何量化边界对齐或垃圾箱。ROI对齐的算法是用来计算确切的值基于双线性插值的输入特性(30.)在四个定期采样地点在每个ROI本和汇总结果。这种方法提高了面具R-CNN 10%的准确性(15]。

为了使面具R-CNN实现掩模函数,面具R-CNN添加面具分支实现高精度细分实例从pixel-to-pixel对齐。面具R-CNN可以完成三个任务:目标识别、检测和分割。其检测速度仍然可以达到5帧/秒。面具R-CNN如图的流程图1。在输入,图像经过红外系统后,五套功能产生不同大小的地图,和帧生成的区域是RPN候选人。候选人后地区是地图结合特性,该系统可以实现检测、分类和目标的面具。为了进一步提高算法的计算速度,它可以适应智能驾驶防撞预警系统的实时要求。

基于R-CNN面具,我们提出一个方法来提高检测精度和速度通过SF-FPN resnet - 86。在这项研究中,数据集,提高红外系统结构和参数设置项。在这项研究中提出的改进方法能实现识别、检测和分割的目标在同一时间。

3所示。改进基于R-CNN面具

3.1。特征金字塔网络对象检测红外系统)

特征提取是机器视觉领域的一个重要组成部分。随着机器学习的发展,基于神经网络特征提取方法,包括featurized图像金字塔(31日),单一特征映射(32),锥体功能层次结构(33金字塔,功能网络红外系统),已经提出。

如图2(一个)featurized图像金字塔是指图像输入,通过不同的卷积层,集大小不一的卷积核,生成地图多尺度特性,不同大小的地图和输出特性。虽然这个方法获得不同尺度特征图,它增加了大量的计算时间和语义特征映射的信息是不够的。图2 (b)显示了单一特征映射特征提取的方法。这个想法是为了输入图像,通过不同的卷积层从下到上,与去年的输出卷积层作为网络的最终功能输出。这种方法提供了更快的操作和利用每一层上的语义信息。出于这个原因,之前它已经被应用于SPP-net,快R-CNN, R-CNN更快。但多尺度目标探测的性能很差。图2 (c)表明,锥体功能层次结构的方法仍然是对输入图片从底部到顶部和通过不同的卷积层。但是它提取不同尺度特性的不同层预测,这不会增加的计算量,可以获得多尺度特性。尽管锥体功能层次结构方法能保持速度和生成多尺度特性信息同时,该方法可以充分利用低层次语义信息和实现小目标探测的好结果。为此,红外系统添加一个侧链接算法基于锥体功能层次结构的算法,也就是说,当输入一个图像时,它通过不同的卷积层从下到上,然后从自上而下的链接,将低分辨率和强大的语义特征与高分辨率和弱语义特征。它不仅保持原来的计算速度,还生成准确的多尺度特征信息。

(一)

(b)

(c)

(d)

(e)

(f)

自上而下的金字塔(34)算法在图2 (d)利用卷积抽样首先降低大小,然后使用upsampling增加功能映射。网络没有横向连接,即自顶向下的过程不会整合原有的特色,这将使的位置特征的目标变得更加不准确经过多次将采样和upsampling流程。最好的水平只(35如图)算法2 (e)只能够采取的最后一层P2 PFN作为输出,不产生多尺度输出。的RPN的滑动窗口在不同阶段层金字塔的规模变化的鲁棒性将会增加,所以红外系统是用于识别不同大小的鲁棒性的目标,这是只有算法明显优于最好的水平。

从表可以看出2,而C4和C5的输出图像金字塔算法,红外系统算法提高了精度21.7%。特别是在小目标探测,它增加12.9分的一个重要的优势。从图2,我们也可以看到红外系统增加了自上而下侧链接和多尺度输出相比单一特征映射和锥体功能层次结构的算法。这样,低分辨率和强大的语义特征与高分辨率可以完全集成,弱语义特征。从数据表中,我们可以看到,当1000锚生成预测,基于“增大化现实”技术提高了平均6.8分,14.4分的改善对小目标的检测结果。与自上而下的金字塔算法相比,红外系统增加了横向连接和多尺度输出,从而增加10.2点在基于“增大化现实”技术,包括小目标探测的18.4分。最后,与最后的水平算法相比,红外系统多尺度增加输出,在基于“增大化现实”技术提高了4.0分。小目标已经提高了9.8分,这大大提高了鲁棒性。


网络结构	功能	锚	横向	自顶向下

Featurized图像金字塔	C4	47 k	没有	没有	48.3	32.0	58.7	62.2
Featurized图像金字塔	C5	12 k	没有	没有	44.9	25.3	55.5	64.2
自底向上的金字塔		200 k	是的	没有	49.5	30.5	59.9	68.0
自上而下的金字塔		_{200 k}	_没有	是的	46.1	26.5	57.4	64.7
只有最好的水平	P2	200 k	是的	是的	51.3	35.1	59.7	67.6
红外系统		200 k	是的	是的	56.3	44.9	63.4	66.2

第一列是特征提取算法,第二和第三行是两层算法的输出,和第四行包含单一特征映射和锥体功能层次结构。第二列是输出层的名称,在“{}”符号表示独立预测每一层。评价标准使用平均召回(AR)。右上角的基于“增大化现实”技术的数量表明锚由每个图像的数量。字母“s”,“m”和“l”右下角表示小目标,中期目标,分别和大的目标。

面具R-CNN中的红外系统使用resnet - 101为骨干。深残余网络的设计克服了学习效率变得更低的问题由于网络的深化和无法有效改善准确性。深残余网络培训培训系列划分为一个块,这样每个块的误差最小化以达到整体误差最小的目标。resnet - 101是一个国际古典深残余网络使用。大致可以分为五个阶段的卷积层。输出规模是在每个阶段减少一半。这个红外系统+ Resnet网络鲁棒性和适应性,不仅可以发送高级特性低级特征也充分利用所有高级功能信息和潜在的功能信息通过链接,从而提高特征提取能力。红外系统的第一部分面具R-CNN,可获得特征图。如图3,红外系统的基础是建立在图像金字塔(36]。从卷积获得其输入图像层获得五套特征映射(C1, C2, C3、C4和C5),和所有五个upconverted或减少到256维卷积∗1大小的内核。自upsampling C5是一样的C4之一,我们直接使用的降维结果C4。这种连接方法可以连接低分辨率和高的语义信息的高级特性和高分辨率的低级特征和low-semantic信息从上到下的特征尺度上具有丰富的语义信息。也是如此的连接方法P5, P4, P3, P2。为了使大型目标探测效果更好,P5执行结束时的最大池和形式特征映射的P6 16∗大小。

可可数据集包含81个类别。面具R-CNN中的红外系统使用resnet - 101检测81种为骨干的目标。然而,由于探测目标在本研究中只包含三个categories-person,车,巴士是参数冗余的问题当使用resnet - 101检测三种类型的目标。减少冗余,提高计算速度,本研究设计一个resnet - 86只有86层的骨干网络和红外系统探测目标的三种类型。从表可以看出3,Resnet-50 resnet - 86和resnet - 101结构都是由卷积层五部分组成。剩余的数量在Conv_4 Resnet-50和resnet - 101块6 - 23日。在这项研究中,剩余的数量在Conv_4 resnet - 86块更改为18。从实验结果可以看出表4和图4,虽然Resnet-50结构是在识别速度快,识别精度不能满足我们的要求。与resnet - 101相比,resnet - 86不仅增加了约7.94%的计算速度,也减少了体重9.43%的内存。这可以有效地促进深度学习的发展领域的嵌入式开发。因此,本研究使用resnet - 86为骨干的面具R-CNN来提取图像的特征。


骨干	输出的大小	Resnet-50	resnet - 86	resnet - 101

Conv_1	512∗512	64年7∗7日,stride2
Conv_2	256∗256	3)∗3 maxpool stride2
Conv_3	128∗128
Conv_4	64∗64
Conv_5	32∗32
	1)∗1	池,平均1000 - d fc, softmax


Backbone_class	红外系统+ resnet101_81	红外系统+ resnet86_81	红外系统+ resnet50_81	红外系统+ resnet101_3	红外系统+ resnet86_3	红外系统+ resnet50_3

Epoch_steps	160年_1000	160年_1000	160年_1000	160年_1000	160年_1000	160年_1000
总参数	64158584	58549624	45088120	63744170	58135210	44673706
可训练的参数	64047096	58453496	45028856	63632682	58039082	44614442
失败	130205828	118834293	91542609	129377924	118006389	90714705
Memory_size	257.6米	235.0米	180.9米	255.9米	233.3米	179.2米
Train_time	27.98 h	21.77 h	18.25	23.02 h	20.43 h	18.73 h
Test_avg_time (M4,952)	2.14秒	2.014秒	1.39秒	2.10秒	1.97秒	1.36秒

第一行是识别的网络结构和类别。例如,红外系统+ resnet101_81使用resnet - 101红外系统残余网络识别81种。第二行表明,所有网络结构训练160∗1000 = 160000次。Memory_size指内存后网络结构的重量训练。Train_time指每个网络结构所花费的时间训练。总参数和可训练的参数表示的总内存参数和训练内存参数,分别的网络结构。浮点运算(失败)表示的浮点数操作对于每个网络结构,即量的计算。Test_avg_time (M4952)指的是平均时间为每个网络结构测试4952张照片。Min_train_loss指160000年后减肥训练的最小值为每个网络结构。

3.2。端融合红外系统(SF-FPN)

针对优秀的特征提取红外系统的性能,研究人员在机器视觉领域在过去的两年里先后提出了模型如路径聚合网络(PANet) [37搜索(NAS-FPN)[],神经结构38),和双向功能金字塔网络(BiFPN) (39,40)和应用图像识别,检测和分割的各种场景基于他们的研究应用。我们提出了融合红外系统,其主要思想是充分利用功能语义特征信息融合和特征提取,同时增加的计算量尽可能小。功能的目的是充分利用地图信息的语义,也就是说,P2 P6上面提到的,把它们并排。

如图5作为一个开创性的特征提取方法,红外系统提出了一种自顶向下和左右连接方法结合多尺度特性。提出了这个想法后,PANet,添加了一个额外的路径的基础上,红外系统自下而上的聚合网络。该方法进一步结合了功能语义信息更好的特征提取。NAS-FPN使用神经结构网络拓扑搜索获得不规则的特性。该方法可以横向距离融合特点,采用神经网络搜索技术形成一个新特性的金字塔结构。尽管NAS-FPN可以实现更好的性能,它需要成千上万的GPU小时在搜索过程中,和生成的功能网络只有一件事,所以很难解释。下一个方法出现BiFPN。它使用上双向跨连接和加权特征融合来提高检测精度,但与红外系统相比,它仍然需要大量的计算。

(一)

(b)

(c)

(d)

(e)

(f)

再一次,这就是为什么我们建议SF-FPN算法。它是基于红外系统算法,但没有增加任何输出,它尽可能地减少计算量,充分利用高语义特征信息,添加6融合线,P2和P5之间的融合,同时使P6最后融合输出。我们还提出了一个完全连接红外系统比较,也就是说,PANet的基础上,所有的语义特征信息将通过沟通联系。

从经典的红外系统结构,而C2−C5,我们知道P2−P6具有丰富的语义信息。是具有成本效益的融合这五个特征图。因此,本文设计的融合红外系统以这样一种方式,我们只添加六方融合曲线在红外系统的基础。曲线1:P5功能语义信息转移到P3。曲线2:P5功能语义信息转移到P2。曲线3:P4功能语义信息转移到P2。曲线4:转移P4 P6功能语义信息。曲线5:转移P3 P6功能语义信息。曲线6:转移P2 P6功能语义信息。后添加的三个特性融合曲线P1, P2, P3,我们可以看到,P2和P3语义信息可以完全收敛特性。 At the same time, we have modified it in P6. In the original FPN structure, P6 is directly downsampled by P5, the semantic information only comes from P5, and some of the semantic information is lost during the downsampling process from P5 to P6. We output P6 as the last scale and aggregate the rich feature semantic information of the four scales P2, P3, P4, and P5 at the same time.

本文使用侧融合红外系统的第一部分我们提出面具R-CNN并使用我们的设计的残余网络resnet - 86为骨干获得五个尺度特征图。从表可以看出5和6,SF-FPN算法在整个网络框架,我们设计的计算量只有增加了2.54×10⁻⁷。虽然这种计算量几乎是最小的,在测试结果,图增加了2.77点,这是一个明显的提高精度。


Backbone_class	红外系统+ resnet101_81	红外系统+ resnet86_81	红外系统+ resnet50_81	红外系统+ resnet101_3	红外系统+ resnet86_3	红外系统+ resnet50_3

	59.11	58.74	46.16	75.69	74.84	67.09
	55.02	54.88	42.04	70.24	69.23	62.15
	47.45	47.88	35.13	60.34	58.77	51.98
	33.35	33.88	22.85	39.96	39.04	31.59
	76.76	75.96	70.60	80.10	78.89	73.21
	53.29	50.87	45.77	52.73	51.38	46.99
	83.15	81.26	75.86	84.09	83.28	76.71
Min_train_loss	0.9564	0.9092	1.287	0.6592	0.7138	0.8643

评价标准使用地图。地图显示的数量在右上角输入/输出单元的数量(借据)。“人”、“车”和“公共汽车”右下角意味着单一类别的检测。Min_train_loss指每个模型训练后的损失价值。


Backbone_class	SF-FPN + resnet101_81	SF-FPN + resnet86_81	SF-FPN + resnet50_81	SF-FPN + resnet101_3	SF-FPN + resnet86_3	SF-FPN + resnet50_3

Epoch_steps	160年_1000	160年_1000	160年_1000	160年_1000	160年_1000	160年_1000
总参数	64158584	58549624	45088120	63744170	58135210	44673706
失败	130205858	118834323	91542639	129377954	118006419	90714735
	62.64	58.89	46.69	76.82	76.64	69.85
	57.32	55.18	42.79	72.93	71.88	64.92
	49.86	48.16	36.03	63.93	62.41	54.75
	36.02	34.02	23.16	44.55	42.04	34.38
	79.62	79.20	73.05	82.76	82.46	75.21
	55.82	46.96	48.00	53.58	52.18	47.99

3.3。区域建议网络(RPN)

五套功能映射生成的红外系统发送项。从图可以看出6项使用一个小格子,滑过五套特征图生产758664箱,形成区域的建议。我们介绍的RPN的算法生成候选帧。如图6假设有n特征图,每个特性图的宽度 ,地图和特性 ,我们可以获得特征图像素。使用每个像素作为一个锚点,三个尺度和三个规模候选帧生成的同时,也就是说,九个候选人为每个像素帧生成。通过这种方式,我们可以获得候选帧的数量为每个特性图_。因此,RPN生成候选帧的总数在通过所有的特征图谱。

从上面,我们可以知道本文生成五套特征图。这五个特征图的大小是16∗16日32∗32,64∗64、128∗128和256∗256。通过上面的公式,我们可以看到各个阶段的RPN可以生成758664箱。

接下来,该网络将计算758664箱通过nonmaximum抑制(NMS) [38]。网络各种成绩从大到小的四个因素颜色,纹理,总面积合并后,合并后的盒子的总面积在边界框和保留2000火车箱和1000推理盒子。通过NMS算法,需要大量的计算,当网络选择储备3000盒,和网络上执行后续的培训和预测所选3000盒,和大量的计算要求。这是最耗时的RPN的一部分。3000箱是用来检测81年可可数据集类型的目标,但是只有三个类别的检测目标在这项研究。提高网络的速度而不影响检测精度的目标,我们需要保留500火车盒250年培训和推理盒预测。

3.4。数据集的改进

本文的检测对象是汽车、公共汽车和行人。微软的可可公共数据集包含81个类别,它包含82081个图像样本。mask_rcnn_COCO的参数。h5获得的训练数据集通过面具R-CNN检测81种目标。直接使用这个重量检测车辆和行人可以计算过于复杂。因此,对可可数据集有两个变化:第一改变,我们筛选了三类可可图像的数据集(汽车,公共汽车,和人),形成一个新的数据集,我们叫COCO_pcb数据集。第二个变化,我们贴上新的数据集与一个开源图像注释工具叫VGG图像注释器(通过)。带注释的文件名为via_pcb_data.json。数据集使用1000图像作为训练集,100张图片作为验证集,和50图像作为测试集。通过是由视觉几何组,它可以在线或离线使用。如图7标签,我们可以使用注释方法目标矩形,圆,椭圆,多边形,点和线。通过这种方式,我们不仅让三个类别的样本一个有效样本的汽车,公共汽车,和人也确保数据集的数量是足够的。这将协助实验部分的精确的训练,提高目标检测的准确性。

4所示。实验和结果分析

Ubuntu 16.04的实验配置环境包括操作系统,Intel Xeon 2678 E5 V3处理器(∗2),英伟达GTX1080TI 11 g显卡(∗4),三星850 EVO1结核病固态磁盘+ 4 TB的硬盘,E5散热器(∗2),RECC DDR4 2133和64 GB的内存,和快速通道互联(QPI) 9.6 GT / s主板。Python 3的操作环境包括语言,TensorFlow 1.3开源软件库,Keras 2.0.8神经网络API建模系统。

我们使用了通过图像注释工具polygonize获得的原始图像,然后发送新via_pcb_data注释文件。160000年json面具R-CNN网络迭代。我们叫mask_rcnn_via.h5的重量。最后,我们使用mask_rcnn_via。迁移学习的h5作为初始重量。我们使用了coco_pcb数据集,只有三个类别的汽车,公共汽车,和人,执行160000次迭代训练与红外系统+ Resnet101,红外系统+ Resnet50,我们设计了红外系统+ Resnet86。在同样的环境下,进行了1000次迭代SF-FPN + Resnet101 SF-FPN + Resnet50,分别和SF-FPN + Resnet86。

这个实验是进行红外系统+ Resnet101,红外系统+ Resnet86,红外系统+ Resnet50 SF-FPN + Resnet101 SF-FPN + Resnet86, SF-FPN + Resnet50骨干。我们在可可训练数据集包含81类和一个包含三个类COCO_pcb数据集。此外,我们使用了SF-FPN由本文作者设计作为骨干培养COCO_pcb数据集只包含三个类。上面的12集的实验的时代是设置为160。每个时代都包含1000次迭代,迭代的总数是1920000。在实验中,我们记录了权重的内存大小,所花费的总时间培训,时间的平均长度在4952年测试图片,和地图的价值在4952年测试图像。我们还测试了12组实验的参数和失败的值。如数据所示8和9,我们叫张板画损失函数图像。最后,如图8和9,我们选择最小的损失值为每个设置的实验并记录在表4和5。我们测试了4952张图片与最好的重量每组实验和计算每个网络的检测时间。

从表可以看出4,总参数是第一个参数比较的六个网络结构。参数是指包含在网络结构的参数。例如,每一层的n层卷积神经网络,卷积内核宽度 ,内核长度是 ,输入通道的数量 ,和输出通道的数量。然后,我们可以得到每一层的内存参数的卷积神经网络:

通常,一个完整的神经网络结构还包括最后完全连接层。我们假设完全连接层的输入 ,和输出。这充分的内存参数连接层

因此,我们可以得到的总参数:

4.1。实验数据分析,红外系统+ Resnet-50,红外系统+ resnet - 86和红外系统+ resnet - 101

从表可以看出4Resnet101_81相比,Resnet86_3的参数值是减少了6023374,而失败的价值降低了,到12199439年,挽救了近7.55小时的培训时间。测试4952的图片时,平均检测时间减少0.17秒,和其检测速度增加了7.94%。Resnet86_3训练和检测的速度提高,和它的重量降低了24.3 MB内存,这有助于其实现在嵌入式开发。从表可以看出5Resnet86_3的最小损失值是0.7138,也就是15.73分高于Resnet101_81地图的价值,也有一定的提高精度。

与Resnet86_81相比,Resnet86_3参数值降低到414414年,827904年失败值减少,缩短了训练时间的1.35小时。测试4952的图片时,平均检测时间缩短0.04秒。方面的损失,这是0.1954分低于Resnet86_81的损失值,和地图的价值高出16.4分。相比之下,这两个结构resnet - 86 _3和resnet - 86 _81反映的影响检测网络中类别的数量。

与Resnet-50_81相比,尽管resnet - 86不显示优势params盐以及失败,和速度,我们可以看到从图8它不适合我们的目的。这是因为Resnet50_81训练效果表明,最小的损失是地图高(1.287)和(28.68)低于Resnet86_3。这对检测精度不符合我们的标准。我们还可以看到在图8的最小损失Resnet50_3很高(0.8643)和地图(7.75)低于Resnet86_3。

与Resnet101_3相比,Resnet86_3参数减少了5608960,和失败是减少11371535,节省培训时间2.58小时。当测试2895图片,每个图片的平均测试时间减少0.13秒,和测试的速度增加了6.19%。重量的记忆Resnet86_3也是22.6米小于Resnet101_3之一,和地图的价值低于Resnet101_3只有0.85。

从图可以看出8当resnet - 86是设计成面具骨干R-CNN检测汽车的三大类,公共汽车,和人,其训练效果明显优于原始的面具与骨干R-CNN resnet - 101。尽管resnet - 86 _3的映射值的映射值略低于resnet - 101、前一个的检测速度快,符合我们的设计的目标。因此,在最后,我们使用resnet - 86为骨干的面具R-CNN和应用目标检测算法。

4.2。红外系统和SF-FPN实验数据的分析

通过比较12组的实验数据表4和6的参数值,我们可以看到SF-FPN网络结构设计在本文中没有添加任何内存参数保持不变与红外系统相比。至于SF-FPN,添加了六边连接的集成,所以六个网络结构设计基于SF-FPN算法与原结构相比增加了30失败了。与红外系统+ resnet101_81网络结构相比,总增加。通过测试4952的图片,我们也可以看到测试的速度基本上是一样的原始速度。然而,地图的价值增加了2.00。SF-FPN算法,结合resnet - 101测试81类,导致地图增加2.73分。SF-FPN算法,结合resnet86测试81类,导致地图增加2.18分。SF-FPN算法,结合resnet50测试81类,导致地图增加0.62分。SF-FPN算法,结合resnet101测试三个类别,导致地图增加2.93分。SF-FPN算法,结合resnet - 86测试三个类别,导致地图增加2.77分。SF-FPN算法,结合resnet-50测试三个类别,导致地图增加0.75分。

损失曲线的比较实验选定的两组数据8和9如图10。等参数数据集时,网络层的数量,检测的数量分类,训练速度,和训练期间迭代训练的数量是相同的,我们发现效果明显优于红外系统,SF-FPN和损失价值的损失曲线一直低于红外系统的损失值。尤其是在早期阶段,它可以迅速达到一个较低的价值损失,基本上已经提前红外系统培训的效果。

(一)

(b)

考虑质量SF-FPN特点,我们终于SF-FPN作为特征提取的结构,采用的SF-FPN使用Resnet86作为对象识别的网络结构,检测和分类三个类别的汽车,公共汽车,和人。与原始红外系统+ Resnet101结构识别类81,我们设计网络结构SF-FPN + Resnet86_3训练速度提高26.98%,提高地图精度评价17.53分。如图11与上述两种算法,我们测试了两张图片,分别在红外系统+ resnet101_81算法错过了小目标车辆在红在第一帧图像,而SF-FPN + resnet86_3算法提出了准确检测出小目标车辆在红色的框架。当检测第二图像,红外系统+ resnet101_81算法不段红色表框架准确分割过程中,虽然我们的算法准确SF-FPN + resnet86_3段部分,区分车辆和nonvehicle部分。与此同时,网络结构框架设计可以很容易地迁移到其他网络结构模型,如R-CNN更快,SSD, YOLOv3。

(一)

(b)

(c)

在本节中,我们希望提供一个简短的比较评论我们的方法和一些技术发展水平的方法。测试后,地图的价值SSD-based车辆检测算法(41)仅为50.4%,低于26.24%的我们的新算法。如图12(一个)第一个测试图的检测,目标在右下角未被检测到,和有一个错过了检测。车辆检测算法的映射值(42)基于YOLOv3是57.9%,低于18.74%的新算法。从图可以看出12 (b)最左边的目标的检测和定位“车”在第二图像是不够准确的。更快的地图价值R-CNN车辆检测算法(43)是59.1%,但仍低于17.54%的新算法。从图可以看出12 (c)有一个错过了检查的车辆检测数据。同时,结合级联superpixel行人对象分割算法(44),bibox回归的行人检测算法(45)和其他算法进行比较,实验结果表明,基于改进的车辆和行人检测面具R-CNN稍微准确分割的任务情况。

(一)

(b)

(c)

(d)

5。结论

本研究的主要研究内容是关于如何让Mask-RCNN算法检测和部分汽车,公交车,人在路上更准确和更快的防撞预警系统。提高网络的训练效果的准确性,我们筛选和补充数据集。为满足智能驾驶的实时要求,我们设计了resnet - 86网络和使用它作为一个网络骨干。进一步提高网络的检测速度,我们修改保留RPN候选帧的数量。对于更大的精度,我们设计了SF-FPN特征提取算法。通过提高数据集、红外系统项,我们的网络提高了检测速度7.94%,检测精度地图的价值增加了网络上原来的面具R-CNN 17.53分。

基于R-CNN面具,我们改善了网络集成图像识别的功能,检测和分割。从图我们可以看出13,改善网络可以精确检测的距离约200米,即使目标是阻挡了95%。可以看出,网络可以应用于智能防撞预警系统来识别开车,公共汽车,和人。

(一)

(b)

虽然这个网络的识别速度已经达到5帧/秒,对于一些实时系统应用程序,识别速度仍然需要增加,需要的硬件配置需求减少。例如,在车辆跟踪任务,目标探测速度需要更快地完成;在精密仪器细分任务,目标需要更准确地分割;在车辆紧急制动装置,目标需要完成紧急制动检测速度。

在未来,为了提高检测精度,我们可以进一步提高特征提取算法和设计功能更丰富的语义信息。它还可以进一步优化深度残余网络,减少损失函数值,提高网络训练的效果。为了提高检测速度,我们可以结合深卷积神经网络算法和优化,减少网络计算冗余,网络,提高检测速度。也可以结合硬件配置来增强网络计算能力和进一步提高目标检测的速度。因此,如何提高目标检测的速度和准确性在未来仍然是我们的主要研究工作。

数据可用性

使用的数据来支持本研究的发现正在禁运而研究成果商业化。请求数据,6个月后发表的这篇文章中,将会被相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究的部分支持由中国国家自然科学基金(没有。11971034)。

引用

j .聂”设计的视觉特性检测系统的电动汽车智能驾驶”机器人与智能系统国际会议(珊瑚礁动议)ACM,荷兰阿姆斯特丹,2018年2月。视图:谷歌学术搜索
e .太阳,a .分担和z,“基于GPS和谷歌地球的三维辅助驾驶系统在表面矿山卡车,”国际矿业科技杂志》上,20卷,第142 - 138页,2016年。视图:谷歌学术搜索
Y.-S。陈,研究所。赵,s。Hsiau,“安全技术与小说后避碰系统的车辆,“国际汽车技术杂志》上,20卷,不。4、693 - 699年,2019页。视图:出版商的网站|谷歌学术搜索
h·金、j·金和y . Kim”设计基于机器学习的网络威胁检测和分类在云计算,“集群计算22卷,1 - 10,2019页。视图:出版商的网站|谷歌学术搜索
h .兴、g . Zhang和m .商“深度学习”,语义计算的国际期刊,10卷,第439 - 417页,2016年。视图:谷歌学术搜索
n .中间人和b区格”的梯度直方图的人体检测,”《IEEE计算机学会学报计算机视觉与模式识别会议美国圣地亚哥,IEEE CA, 2005年6月。视图:谷歌学术搜索
m . m . Adankon和m . Cheriet“支持向量机”,计算机科学。,卷1,28,2002页。视图:谷歌学术搜索
n·法里斯,s·阿里和m z . a .伊“基于图像的特征提取技术,使用脉冲涡流斜裂纹量化,”中国机械工程杂志》上32卷,19-34,2019页。视图:谷歌学术搜索
k·菲尔,MATLAB深度学习美国伯克利分校,纽约,纽约,2017年。
y l .村b·波沙j . s .德克·d·亨德森和l . d . Jackel“手写数字识别与反向传播网络,”先进的神经信息处理系统,2卷,第404 - 396页,1997年。视图:谷歌学术搜索
a . Krizhevsky i Sutskever g·辛顿,“ImageNet分类与深卷积神经网络,”学报》国际会议神经信息处理系统美国IEEE太浩湖,NV, 2012年12月。视图:谷歌学术搜索
r . Girshick j·多纳休、t . Darrel和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《CVPR美国俄亥俄州哥伦布市,IEEE 2014年6月。视图:谷歌学术搜索
在r . Girshick“快速R-CNN。《IEEE计算机视觉国际会议2015年12月,IEEE,智利圣地亚哥。视图:谷歌学术搜索
任,k . Girshick, j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6日,页。1137 - 1149年,2017年6月。视图:出版商的网站|谷歌学术搜索
k . m .他g . Gkioxari美元p, r . Girshick,“面具R-CNN”《IEEE计算机视觉国际会议2017年10月,IEEE,威尼斯,意大利,。视图:谷歌学术搜索
林t y, m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”欧洲计算机视觉的诉讼施普林格,苏黎世瑞士,2014年9月。视图:谷歌学术搜索
诉比安科,p . l . Mazzeo m . Paturzo c . Distante p·费拉罗,“深度学习辅助便携式红外主动成像传感器位置和标识住人类通过火,”光学和激光工程,124卷,2020年。视图:出版商的网站|谷歌学术搜索
a p l . Mazzeo。阿尔真蒂耶——f·d·卢卡et al .,“卷积神经网络识别和分割的铝型材,”多通道遥感:技术和应用程序,11059卷,2019年。视图:谷歌学术搜索
问:c .锅和H . H,“关键算法的视频目标检测和识别在智能交通系统中,“模式识别与人工智能》国际期刊上4卷,第162 - 142页,2019年。视图:谷歌学术搜索
d . w .杜、y . k . Qi和h . y . Yu”无人机基准:对象检测和跟踪,”欧洲计算机视觉的诉讼施普林格,德国慕尼黑,2018年9月。视图:谷歌学术搜索
w .通用电气、美国杨和y Yu”识别过滤和融合多标记分类、目标检测和语义分割基于弱监督学习,”《CVPR美国IEEE,盐湖城犹他,2018年8月。视图:谷歌学术搜索
s . Xi, r . Girshick p .美元,z,和k .他“聚合残余转换为深层神经网络,”《CVPRIEEE,檀香山,嗨,美国,2017年7月。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”IEEE会议程序计算机视觉和模式识别美国IEEE,内华达州拉斯维加斯,2016年6月。视图:谷歌学术搜索
林t y,美元p, r . Girshick k .他和s . Belongie“特性为目标检测金字塔网络,”《CVPRIEEE,檀香山,嗨,美国,2017年7月。视图:谷歌学术搜索
a . k .法塔尔m . Karg c . Scharfenberger和j . Adamy”Saliency-guided地区建议网络基于cnn对象检测,”诉讼IEEE国际会议上的智能交通系统2017年10月,IEEE,日本横滨,。视图:谷歌学术搜索
Z.-b。赵、张l .研究。气,y y。施”,一代方法基于边缘的绝缘子地区建议盒子,“光电子学字母,13卷,不。6,466 - 470年,2017页。视图:出版商的网站|谷歌学术搜索
j·r·r·Uijlings k·e·a . van de Sande t . Gevers和a . w . m . Smeulders“选择性搜索对象识别,”国际计算机视觉杂志》上,卷104,不。2、154 - 171年,2013页。视图:出版商的网站|谷歌学术搜索
j .长,大肠Shelhamer, t·达雷尔“完全卷积网络语义分割,”IEEE模式分析与机器智能39卷,第665 - 640页,2014年。视图:谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”欧洲计算机视觉的诉讼施普林格,苏黎世瑞士,2014年9月。视图:谷歌学术搜索
a . Bulat j·杨,g . Tzimiropoulos”学习的图像超分辨率,使用甘先学习如何做图像退化,”欧洲计算机视觉的诉讼施普林格,德国慕尼黑,2018年9月。视图:谷歌学术搜索
b·h·陈,y . g . Wang和g .,“端到端网络训练的稀疏编码对图像分类空间金字塔池,“神经处理信件,1卷,页1 - 16,2019年1月。视图:谷歌学术搜索
诉Sindagi h·张,v . m . Patel,“多尺度单一图像dehazing使用感性金字塔深网络,”《CVPR美国IEEE,盐湖城犹他,2018年8月。视图:谷歌学术搜索
m . e . Paoletti j . m .上流社会的r . Fernandez-Beltran j .广场a . j .广场和f .解放军“深锥体残余网络spectral-spatial高光谱图像分类,“IEEE地球科学和遥感卷,57号2、740 - 754年,2019页。视图:出版商的网站|谷歌学术搜索
r·盖尔·m·Paular r·加里·e·玛丽和k . s .海蒂”自顶向下和自底向上治疗方法相比在一个纯失读症的情况下,“失语症学,卷1,1 - 14,2019页。视图:谷歌学术搜索
j . Chen z Cai、j .赖和x h .谢“高效有效patchmatch大位移光流估计,“IEEE电路和系统视频技术,卷99,p . 2018。视图:谷歌学术搜索
f . Dornaika k·萨、m . Melkemi和t . d . a .表象”一个高效的多层次金字塔图像描述符:应用程序映像的停车场监控、”图像和视频处理的信号卷。11日,1 - 7,2019页。视图:谷歌学术搜索
l . s . Liu, h·f·秦,”J。施,j·贾。,“Path aggregation network for instance segmentation,” in《CVPR美国IEEE,盐湖城犹他,2018年8月。视图:谷歌学术搜索
g . Ghiasi t·林r·庞诉勒,“Nas-fpn:学习可伸缩特性为目标检测金字塔架构,”《计算机视觉与模式识别会议(CVPR)美国洛杉矶,IEEE CL, 2019年6月。视图:谷歌学术搜索
美国哇,s .黄》。张成泽,i s Kweon“封闭的双向特征金字塔准确的一次性检测网络”机器视觉和应用程序,30卷,不。4、543 - 555年,2019页。视图:出版商的网站|谷歌学术搜索
j . Hosang r·纳森和席勒的影子,“事先non-maximum抑制,”《德国模式识别会议施普林格国际出版,斯图加特,德国,2016年9月。视图:谷歌学术搜索
x勒、l .香和z,“道路前方车辆检测基于SSD,”软件指南,5卷,2019年。视图:谷歌学术搜索
f·k·张、冯y和l . i . Ce”快速车辆检测方法基于改进YOLOv3,”计算机工程与应用,3卷,第139 - 133页,2019年。视图:谷歌学术搜索
j .唱歌、p .郭和z,“基于faster-RCNN车辆检测,”重庆大学学报/重庆大学学报,40卷,页32-36 6月。2017年。视图:谷歌学术搜索
d·杨黄j . j . Zhang, r·张“级联superpixel行人对象分割算法,在中国控制与决策(CCDC)5卷,41-48,2018页。视图:谷歌学术搜索
c .周和j .元,“行人检测和阻塞估计Bi-box回归,”欧洲计算机视觉的诉讼施普林格,德国慕尼黑,2018年9月。视图:谷歌学术搜索

数学问题在工程

机器学习、深入学习和对运输优化技术

文摘

1。介绍

2。面具R-CNN

3所示。改进基于R-CNN面具

3.1。特征金字塔网络对象检测红外系统)

3.2。端融合红外系统(SF-FPN)

3.3。区域建议网络(RPN)

3.4。数据集的改进

4所示。实验和结果分析

4.1。实验数据分析,红外系统+ Resnet-50,红外系统+ resnet - 86和红外系统+ resnet - 101

4.2。红外系统和SF-FPN实验数据的分析

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章