车辆的正常目标属性识别和基于多任务级联网络的小目标

文摘

复杂背景的干扰,减少信息的小目标车辆属性识别的两个主要问题。本文建立了两级联网络的车辆属性识别解决这两个问题。与正常大小车辆目标,多任务级联卷积神经网络MC-CNN-NT子网使用改进的快R-CNN作为位置。在复杂的背景中提取车辆目标的位置子网划分子网CNN分类。这个任务分解策略的实施有效地消除了干扰的复杂背景目标探测。车辆目标与体积小,多任务级联卷积神经网络MC-CNN-ST应用网络压缩策略和多层特征融合策略提取特征图。这些策略丰富的位置信息和语义信息特征的地图。为了优化非线性映射能力和难以探测样品挖掘网络的能力,激活函数和损失函数两个级联网络的改进。实验结果表明,MC-CNN-NT为正常的目标和MC-CNN-ST小目标达到最先进的性能相比其他属性识别网络。

1。介绍

车辆属性识别可以提供支持的道路交通流的统计数据(1),自动驾驶的车辆2,3),而非法车辆的检测和跟踪4]。为不同大小的车辆位置和识别复杂自然场景智能交通研究的重要问题。

传统的车辆识别方法主要是建立三维模型的车辆和手动提取车辆的特性。车辆方面的属性识别基于3 d模型,贝叶斯算法生成3 d车辆模型匹配的特性和实现车辆分类(5]。一个3 d曲线校准方法(6)建立了识别车辆的类型从一个单一的形象。图像梯度是用来计算的态度得分目标,实现和实时车辆位置(7]。在车辆方面属性手动识别特征提取的基础上,方向梯度直方图(猪)8)是融合与矩形滤波器。特征提取手动识别车辆目标。尺度不变特征变换(SIFT)提出了描述边缘特性和车辆分类(9]。获得edge-oriented直方图提取车辆特征(10]。这些功能是输入到支持向量机(SVM)分类器对车辆进行分类。传统的车辆识别方法本质上使用人造的特性来表示图像。由于手工特征对光照敏感,拍摄角度,背景和目标,算法的泛化能力弱。此外,手动功能的提取速度慢,不满足智能交通的大规模数据的识别。

近年来,由于深卷积网络有良好的性能在处理大数据样本和非线性映射,被广泛应用于目标识别领域。目前,主要有两种类型的目标识别方法的基础上,深度卷积网络。第一个方法是该地区的建议方法,如R-CNN [11],Fast-CNN [12),快R-CNN [13],SPP净(14]。另一种方法是region-free方法,如YOLO[意思15]和SSD [16]。这两个深网络识别方法也应用于车辆识别。建立了多任务R-CNN方法识别四种类型的车辆(汽车、卡车、公共汽车和货车)(17]。改进的速度R-CNN [18)是构造图像检测汽车天线。使用超级地区建议网络(HRPN)和多个提高分类器可以减少错误的检测。SSD的特征融合方法(19]提出了识别车辆的六大类(自行车、确定、公交、面包车、汽车,和卡车)和人。在[19),一个图像分割策略是用来改善小目标的识别效果。车辆属性识别方法的基础上,深度卷积网络是由数据提取功能;这种策略消除了手工的感性特征,方法是普遍的和准确的。然而,上述车辆识别方法的基础上,深度卷积网络全部采用单程网络完成车辆位置和识别在同一时间。做多个任务在同一网络的策略有两个主要缺点。首先,它很容易在复杂背景中产生错误的接受和虚假拒绝(照明变化、局部遮挡,目标尺度变化)(20.]。第二,目标图像进行一些隆起和池,导致消失或转换为小目标特征点的位置。小目标的识别精度降低。

针对两个缺点的单程深卷积神经网络、多任务级联神经网络和多尺度特性建立了融合网络。在多任务级联神经网络方面,两级多任务级联CNN (3)应用于识别车辆。多任务级联网络基于IFR-CNN和CNN (21)获得识别不同类型的车辆。两级联YOLO[意思22)建立开展车辆位置和车牌识别。多任务卷积神经网络设计了部分目标从复杂背景首先然后认识到目标。这些方法将背景和目标和消除干扰的复杂背景下的目标识别。目标属性识别的准确性高于一个阶段深卷积网络。融合方面的多尺度特性,特性金字塔网络(红外系统)23)作为特征提取器达到最先进的单模识别结果可可数据集。红外系统网络使用多尺度融合特性来描述目标的信息,解决问题的功能消失的小目标。特征融合网络广泛应用于人体检测领域的(24],态势评估[25),和人脸识别26]。然而,小目标的多尺度特性融合模型很少的车辆识别属性。

我们将本文的研究车辆属性识别模型。我们的主要贡献是如下。(1)两个级联模型MC-CNN-NT和MC-CNN-ST提议。MC-CNN-NT应用于识别车辆目标与正常大小。MC-CNN-ST用于识别车辆与小尺寸的目标。(2)激活函数和损失函数两个级联网络的改进。特征提取和分类两个网络的性能增强。(3)网络压缩和特征融合的策略MC-CNN-ST受聘。底部的对象边缘信息提取高级过滤器过滤和语义信息提取的融合来实现车辆的精确位置。(4)SYIT-Vehicle数据集和COCO-Vehicle构造数据集和注释。 The target quantity and quality in the two dataset provide the guarantee for verifying network performance.

本文概述如下。部分2和部分3详细描述MC-CNN-NT的架构和MC-CNN-ST,分别。部分4报告两个多任务级联网络的实验结果。部分5表示的结论。

2。体系结构:多任务级联网络MC-CNN-NT

本节演示了多任务的架构级联网络MC-CNN-NT识别车辆目标与正常大小。部分2.1演示了MC-CNN-NT框架。部分2.2介绍了改进的激活函数和MC-CNN-NT损失函数。部分2.3显示了属性识别的基本过程中使用MC-CNN-NT细节。

2.1。MC-CNN-NT框架

针对低精度的车辆目标识别复杂的背景,一个阶段网络,多任务级联网络MC-CNN-NT构造。车辆属性识别问题分解为两个子问题:目标位置和目标分类。采用改进的快R-CNN作为位置MC-CNN-NT子网。这个子网由三部分组成:网络的特征提取,该地区的网络建议(RPN)和网络对象的位置。CNN用作分类级联网络的子网。MC-CNN-NT如图的框架1。

MC-CNN-NT位置的特征提取网络子网VGG-D为骨干网络适用于提取图像特征。13层和卷积前四VGG-D二次抽样层模型选择。第五VGG-D模型中的二次抽样层和三个完整连接层被丢弃。的参数特征提取网络详细表1。项,设置锚的大小。主持人将的长宽比。锚的数量。一个滑动框用于遍历顶级特性的特征提取网络地图。特征地图上每个像素对应于9锚原始大小不同的地图。项的分类和回归层输出层9锚的分数对应每个像素和各自的位置坐标。让顶部特征映射共享卷积的大小。分类层输出的分数候选区域。回归层输出坐标参数。R-CNN一样快,ROI池进行了提案的RPN网络的区域。目标的坐标参数通过多个完整连接输出层。


层	类型	数量	大小	步	填充

1	Conv	64年	3×3	1	2
2	Conv	64年	3×3	1	2
3	池	64年	2×2	2	0
4	Conv	128年	3×3	1	2
5	Conv	128年	3×3	1	2
6	池	128年	2×2	1	2
7	Conv	256年	3×3	2	0
8	Conv	256年	3×3	1	2
8	Conv	256年	3×3	1	2
10	池	256年	2×2	2	0
11	Conv	512年	3×3	1	2
12	Conv	512年	3×3	1	2
13	Conv	512年	3×3	1	2
14	池	512年	2×2	2	0
15	Conv	512年	3×3	1	2
16	Conv	512年	3×3	1	2
17	Conv	512年	3×3	1	2

的分类子网MC-CNN-NT基于CNN。VGG-E被选中为骨干网络的分类子网。根据位置坐标值输出子网,目标区域从原始图像。提取的图像大小归一化。规范化的单一目标图像输入到分类子网车辆类型识别。划分子网的参数详细表2。


层	类型	数量	大小	步	填充

1	Conv	64年	3×3	1	2
2	Conv	64年	3×3	1	2
3	池	64年	2×2	2	0
4	Conv	128年	3×3	1	2
5	Conv	128年	3×3	1	2
6	池	128年	2×2	2	0
7	Conv	256年	3×3	1	2
8	Conv	256年	3×3	1	2
8	Conv	256年	3×3	1	2
10	Conv	256年	3×3	1	2
11	池	256年	2×2	2	0
12	Conv	512年	3×3	1	2
13	Conv	512年	3×3	1	2
14	Conv	512年	3×3	1	2
15	Conv	512年	3×3	1	2
16	池	512年	2×2	2	0
17	Conv	512年	3×3	1	2
18	Conv	512年	3×3	1	2
19	Conv	512年	3×3	1	2
20.	Conv	512年	3×3	1	2
21	池	512年	2×2	2	0
22	足球俱乐部	4096年	1×1	- - - - - -	- - - - - -
23	足球俱乐部	4096年	1×1	- - - - - -	- - - - - -
24	足球俱乐部	6	1×1	- - - - - -	- - - - - -
25	Softmax	- - - - - -	- - - - - -	- - - - - -	- - - - - -

2.2。激活函数和损失函数

为了提高识别性能的级联网络MC-CNN-NT激活函数和损失函数改进更快的R-CNN和CNN。

2.2.1。激活功能:PReLU

激活函数是深层网络的一个重要组成部分。激活函数的形式起着关键作用的特征提取的质量。激活函数可分为两类:饱和激活函数和不饱和的激活函数。由于不饱和激活函数的优势解决“梯度消失”,收敛速度快,它吸引了更多的注意力从研究人员的深度学习27,28]。

摘要ReLU [29日更新]PReLU (27]。PReLU函数公式描述如下:

ReLU函数公式如下所示: 在哪里x激活函数的输入信号,k是一个负的斜率系数控制在PReLU函数,和下标吗我表示该频道我。改进的激活函数PReLU添加一个线性项的负信号。这种策略缓解问题的梯度消失当网络传播的负面信号。当激活函数具有更好的非线性映射能力不同的负面信号,采用学习策略的斜率k_我在模型的训练。

在这篇文章中,k_我通过使用反向传播训练使用动量方法和更新。根据链式法则,梯度的导数公式k_我形成如下: 在哪里模型的目标函数和吗梯度转移函数的卷积神经网络。梯度激活函数的导数证明如下:

相反的更新公式k_我采用如下: 在哪里代表了动量和代表网络的学习速率。

如方程(4),PReLU激活函数的梯度导数只增加了一个非常小的数量的参数。网络的计算复杂度和过度拟合的风险可以忽略不计。整流器参数的适应性k_我提高了级联网络的训练精度。PReLU固有的未饱和函数使它有更好的表现在控制梯度和收敛速度。

2.2.2。损失函数

的位置子网MC-CNN-NT改进速度R-CNN;需要大量的训练和快速R-CNN项。的分类子网MC-CNN-NT需要火车CNN。三种不同的网络,三损失函数 , ,和描述如下:

项和快速R-CNN两个多任务网络。他们的损失函数组成的分类和回归损失损失。CNN只有完成分类任务,和相关的损失函数只是分类损失。在这里,代表分类损失, 代表回归的损失。

R-CNN系列网络框架,常用的损失函数的分类是叉损失函数。叉损失函数使用对数的损失描述的区别真正的样本和预测盒。虽然熵损失函数低损耗值为一个很容易被探测的样本,它仍然很多有助于网络的总体损失由于容易检测到大量的样本。然而,由于难以探测的少量样品,难以探测样品的损失函数的贡献很小。因此,向容易检测到网络的训练样本,从而影响网络的质量认可。在这篇文章中,我们更新叉分类损失函数的局部损失函数。分配不同的权重的策略对不同样品采用增加的贡献难以探测样品的损失函数。

焦损失函数定义如下: 在哪里z_我网络的输出类别吗我, 是输出类别的概率我。焦损失函数添加一个调节因素标准熵损失函数。如图2,和容易地检测出样本很小(大)。他们领导,很小。重量略有调整深度网络反向传播时发生。和大的难以探测样品(是小的)。他们领导,很大。权重大大深网络反向传播发生时调整。学习难以探测样品的加强。在方程(9),调整体重率是一个参数,称为聚焦参数。当 ,焦损失函数等于叉损失函数。调制的影响因素是增加价值的增加。

顺利l₁功能是用作回归损失和函数(30.]。的定义函数是用下列方程表示: 在哪里代表了翻译的缩放值四个预测盒。的四个坐标是地面真盒子。是一个标签函数方程(6)和(7)。如果预测盒的标签是一个正样本, 。否则, 。根据回归的定义项和快速R-CNN,可以看出两个网络的回归损失计算的正样本。在这里,正样本和负样本的定义在打印和快速R-CNN采用文献[的定义13]和文献[12),分别。

在方程(6),分类损失由mini-batch大小归一化。回归损失是规范化的锚。集 , , 。通过使用标准化战略,分类的重量损失约等于的RPN回归的重量损失。在方程(7),分类的重量损失和回归损失快速R-CNN设置为1时,和两种损失的贡献全损是相等的。

2.3。多任务级联网络MC-CNN-NT的基本步骤

使用MC-CNN-NT识别车辆具体步骤如下:步骤1(分区数据集):首先,根据9的比例:1,数据集分为两部分:培训验证集和测试集,然后根据9的比例:1、培训验证组分为两个部分:训练集和验证集。根据这样的划分规则,原始数据集分为三个部分:训练集,验证集和测试集。步骤2(注释数据集):车辆图像中目标的位置标记。的坐标的左上角和右下角的车辆目标图像记录。生成的注释信息保存在相应的XML文件。步骤3(预处理图像数据):图像缩放。图像的颜色格式转换。让缩放比例年代,输入图像大小 ,和缩放图像大小。在这里, 。当图像缩放,长边小于1000,短边是不到600(至少有一个是相等的)。目标区域的图像也在同一尺度缩放。自从咖啡帧识别BGR颜色格式,图像的RGB(红绿蓝)颜色格式转化为BGR (Blue-Green-Red)颜色格式。步骤4(级联网络的设置hyperparameters):让迭代的最大数量的位置子网和分类子网MC-CNN-NT和 ,分别。让最初的学习速率的位置子网和分类子网MC-CNN-NT和 ,分别。第五步(初始化权值和阈值的级联网络):MC-CNN-NT的位置子网,VGG-D模型参数应用于初始化参数的共享和快速R-CNN项卷积层。独特的层的RPN的参数初始化和快速R-CNN通过高斯分布的均值0和0.01的标准偏差。每一层的阈值初始化常数的0。分类子网的MC-CNN-NT, VGG-A模型参数用于卷积前四层的初始化参数,最后三层VGG-E完整连接。其他层的参数初始化的高斯分布的均值0和0.01的标准偏差。每一层的阈值初始化常数的0。步骤6(培训地点子网):列车位置子网使用来自训练集图像。重量和位置调整子网的阈值循环迭代。当位置子网的迭代的数量大于 ,执行步骤7。步骤7(测试位置子网):测试位置子网使用图片来自测试集。目标预测盒在测试图像的输出。预测框的位置坐标。步骤8(提取的目标位置子网):根据目标预测框的坐标位置子网,从原始图像中提取目标区域作为输入的图像分类子网。步骤9(预处理图像分类子网):输入的图像的大小调整分类子网。步骤10(子网)训练分类:分类网络的权值和阈值调整的循环迭代。当迭代的数量大于迭代的数量 ,执行步骤11。第11步(测试分类子网):图像的分类测试子网来自每个测试的测试设置。信心成绩属于不同类别的图像。类别信心得分最高的是目标的识别分类。

3所示。体系结构:多任务级联网络MC-CNN-ST

的小目标图像区域包含几个像素。如果深卷积神经网络用于从深层特征图中提取信息,图像的边缘和详细信息。小目标的识别精度降低。在本节中,为了解决这个问题,采用多任务网络的级联策略和级联网络MC-CNN-ST成立。这种新的网络是更实用的属性识别小目标。部分3所示。1介绍了结构的位置在MC-CNN-ST子网。部分3所示。2演示的结构分类MC-CNN-ST子网。增加部分中描述部分的数据3所示。3。

3.1。MC-CNN-ST的位置子网

在图3,卷积层我被表示为Conv我,二次抽样层我被表示为Dpool我,upsampling层表示为Upool我。FC代表完整的连接层。RS是重塑的缩写,它是一种数据重组层。Softmax是一个分类器。

MC-CNN-ST的位置子网,网络压缩策略和特征融合策略提出了提高特征提取的质量。MC-CNN-ST继承RPN的位置子网络和对象位置MC-CNN-NT网络位置的子网络。改进后的激活函数和损失函数MC-CNN-NT也应用于MC-CNN-ST。图3显示了MC-CNN-ST框架。

MC-CNN-ST网络的特征提取,最后卷积七层VGG-D MC-CNN-NT位置子网络的被遗弃了。网络层的数量是压缩到6。卷积前六层VGG-D使用3×3大小卷积核。第二次卷积卷积层和第四层连接一个2×2大小二次抽样层,分别。这向前传播网络结构与卷积六层和两个二次抽样层被称为为骨干网络的特征提取。为了提取丰富的特征信息,横向连接结构特征提取网络构造。卷积卷积第一层,第三层,和卷积第六层的骨干网连接两个卷积核3×3大小的横向连接路径,分别。网络被称为分支的三个分支1,分支2,分别和分支3。分支1由Conv1 Dpool3 Conv7, Conv8。分支2由Conv2 Dpool1、Conv3 Conv9, Conv10。 Branch 3 consists of Conv4, Dpool2, Conv5, Conv6, Upool1, Conv11, and Conv12. The composition of the three branches is shown in Figure3。

分支1集卷积第一层的信息特征图,和目标的脚印位置保存完好。分支2集成卷积第三层的信息特征图,包括目标的边缘信息和图像的语义信息。分支3集卷积第六层的信息特征图,和强大的语义信息的目标纳入特征图。提取的三个分支的功能包括车辆的细节边缘浅特征图和强大的语义信息的高级特征图。网络融合的实现策略的多样性丰富了提取的特征。一个2×2的二次抽样层和一个2×2 upsampling层添加到分支1和分支3,分别。使用这个方案,规模特征图输出的每个分支是一致的。一个二次抽样和多个旋转后,特征图的大小变成原来的四分之一。特征图的大小变化的过程在图中演示了三个分支4。如图4,分支1生成32特征图谱,分支2生成64特征图,地图和分支生成128特性。特征提取网络堆栈和融合三个分支的输出特征图和地图的RPN产生224特性。

3.2。分类MC-CNN-ST子网

构造一个新的浅卷积网络作为分类MC-CNN-ST的子网络。肤浅的网络应用激活函数PReLU和损失函数MC-CNN-NT焦损失。网络结构如图3。Conv16卷积网络包括三个层次,Conv17, Conv18,两个最大池层Dpool4, Dpool5,数据重组层重塑和softmax分类器。图像分类是单一目标图像提取位置MC-CNN-ST的子网络。图像大小归一化至28日×28。每一批的输入图像的数量设置为50。因为每个图像有三个频道图表的蓝色、绿色和红色,Conv16图像输入到分类网络3×50 = 150。过渡过程从Conv16 Conv18大小如表所示3。这里,来自Dpool5重塑层重新排序功能,地图特征向量的大小成为8192×150。Conv18使用六个8192×1大小的卷积核提取特征。特征图的宽度由Conv18输出(8192−8192 + 0)/ (1 + 1 = 1。的高度由Conv18地图输出的功能是(150−1 + 0)/ (1 + 1 = 150。完整的连接层地图的分布式特性提取Conv18样品标签空间。完整的连接层中的神经节点的数量设置为50×6 = 300。这里,50是图像输入的数量在每个批处理和6是车辆类别的数量。Softmax分类器输出每个目标的概率值属于六个类型的车辆。获得最大概率值的类别是车辆识别的类别。 The network adopts the strategies of inputting multiple images in the same batch and the shallow network, the recognition speed of the network is enhanced.


位置	特征映射输入大小	内核大小	内核数量	步	填充	特征映射输出尺寸

Conv16				1	0
Dpool4				2	0
Conv17				1	0
Dpool5				2	0
重塑		- - - - - -	- - - - - -	- - - - - -	- - - - - -
Conv18			6	1	0

3.3。数据增加

当MC-CNN-ST健壮的定位小目标的性能与不同的大小,位置,和视角,我们用随机抽样来翻译,旋转,翻转,将图像。并给出了具体操作如下。(1)目标随机翻译像素沿着X或Y轴。(2)图像旋转180度。(3)图像的图像翻转沿轴中心。(4)原始图像是随机的长度剪作为输入图像。这些样本包含至少一个中心点的目标。四个数据模型的扩充方案可以有效地避免过度拟合。

4所示。实验

在本节中,两组实验是为了验证MC-CNN-NT和MC-CNN-ST级联网络的有效性。部分4.1介绍了实验的硬件和软件环境和网络的初始设置参数。部分4.2显示了正常实验结果使用MC-CNN-NT目标。部分4.3演示了使用MC-CNN-ST小目标的实验结果。

4.1。环境和初始值的设置

实验使用咖啡框架来实现目标检测算法。使用的硬件实验如下:32 GB RAM,英特尔i7 CPU和NVIDIA Geforce GTX1080Ti 11 g的GPU。该软件在实验中应用如下:Ubutu 16.04, Python 2.7.14, CUDA8.0和CUDNN 6.0。

在MC-CNN-NT,一些网络初始权重pre-trained ImageNet数据集。这些权重部分位于卷积层由打印共享和快速R-CNN位置的子网络,卷积,部分位于前四层和最后三个完整的连接层的VGG-E分类的子网络。其他卷积层初始权值初始化通过高斯分布0的平均值和标准偏差为0.01。的最大迭代数设置为70000。第一个50000次迭代的学习速率设置为0.001。去年20000次迭代的学习速率降低到0.0001。

MC-CNN-ST,高斯分布的均值0和0.01的标准偏差用于随机初始化整个网络的权重。的最大迭代数设置为100000。第一个50000次迭代的学习速率设置为0.001。去年50000次迭代的学习速率降低到0.0001。

两组实验的其他初始参数使用相同的设置策略。最初两个级联网络的阈值设置为0。聚焦参数的局部损失函数被设置为2。动量项设置为0.9。weight-decay系数设置为0.0005。辍学的方法应用于防止过度拟合,丢弃网络神经元的概率是0.5。

4.2。实验正常车辆属性识别的目标

在实验中正常车辆属性识别的目标,两个数据集选择:SYIT-Vehicle数据集和BIT-Vehicle数据集(31日]。两个数据集的共同特征是,它们包含六个类别的车辆总线,微型客车、货车、轿车,越野车和卡车。差异的两个数据集的位置,大小,环境,和数量的图像。

4.2.1。准备数据集

BIT-Vehicle的车辆图像数据集来自道路监控。上面的图片直接获得道路监控摄像头。图像的大小是1600×1200、1600×1080,分别。数据集包含9850张图片和10053辆的目标。其中,公共汽车的数量,微型客车,货车,轿车,越野车,和卡车是558,883,476,5922,1392,和822年,分别。数据集的样本图像如图所示5。

在SYIT-Vehicle车辆图像数据集来自图像捕获设备研究所的优化理论和过程控制在沈阳理工大学。数据集包含车辆图像和多区,多角度,multi-illumination。数据集包含12000张图片和12161辆的目标。其中,公共汽车的数量,微型客车,货车,轿车,越野车,和卡车是1770,2174,1817,2626,1891,和1883年,分别。图像的大小不是固定的。SYIT-Vehicle的车辆目标数据集的背景是更复杂的比BIT-Vehicle数据集。SYIT-Vehicle的车辆目标数据集的大小比BIT-Vehicle数据集的更加多样化。示例如图SYIT-Vehicle的图像数据集6。

本文采用SYIT-Vehicle数据集作为训练验证集和测试集。训练的样本比验证集和测试集是9:1。样本训练集和验证集的比例设置为9:1。BIT-Vehicle数据集作为迁移的数据集。算法的鲁棒性验证通过随机选择3600 BIT-Vehicle数据集的照片。

4.2.2。结果和分析

在本节中,使用描述MC-CNN-NT目标属性识别实验。9网络被选为比较网络。三个noncascaded网络(CNN、快速R-CNN和更快R-CNN)和6级联网络CNN(美国有线电视新闻网(CNN) + (3],IFR-CNN + CNN [21,MC-CNN MC-CNN-P、MC-CNN-F MC-CNN-NT)都包含在九网络。表4描述了九网络参与的主要结构的比较。


方法	结构

美国有线电视新闻网	一个阶段+详尽的滑动窗口+ CNN +方法+单损失
快R-CNN	一个阶段+搜索+ CNN + softmax +选择性多的损失
快R-CNN	一个阶段+ RPN + CNN + softmax +多损失
美国有线电视新闻网CNN +	两个阶段+美国有线电视新闻网CNN
IFR-CNN +有线电视新闻网	两个阶段+ IFR-CNN + CNN
MC-CNN	两个阶段+快R-CNN + CNN
MC-CNN-P	MC-CNN + PReLU
MC-CNN-F	MC-CNN +焦损失
MC-CNN-NT	MC-CNN + PReLU +焦损失

车辆使用MC-CNN-NT属性识别的结果如表所示5和6。属性级联网络的识别精度MC-CNN显著高于noncascaded网络。MC-CNN的识别准确率是84.24% SYIT-Vehicle数据集,这是4.42%高于R-CNN更快。MC-CNN的识别准确率是74.33% BIT-Vehicle数据集,这是4.87%高于R-CNN更快。级联网络的多任务分解策略MC-CNN提高了网络的识别精度。级联网络MC-CNN-P增强了识别精度与MC-CNN在两个数据集相比,0.88%和2.7%。级联网络MC-CNN-F增强了识别精度与MC-CNN在两个数据集相比,2.22%和4.15%。自适应学习策略的负激活函数PReLU和难以探测样品焦损失函数的强化学习策略既能改善级联网络的质量目标识别。MC-CNN-NT SYIT-Vehicle数据集识别精度91.27%。MC-CNN-NT精度的增加11.45%,9.38%,6.31%,7.03%,6.15%,和4.81%相比R-CNN更快,CNN + CNN, IFR-CNN + CNN, MC-CNN, MC-CNN-P和MC-CNN-F分别。 MC-CNN-NT gets 82.63% recognition accuracy on the BIT-Vehicle dataset. The increases of MC-CNN-NT accuracy are 13.17%, 11.19%, 6.99%, 8.3%, 5.6%, and 4.15% than Faster R-CNN, CNN + CNN, IFR-CNN + CNN, MC-CNN, MC-CNN-P, and MC-CNN-F, respectively. MC-CNN-NT that combines the PReLU function with the Focal loss function achieves the best performance of target attribute recognition. Simultaneously, MC-CNN-NT achieves high accuracy in the migration datasets, which verifies that the model has good robustness.


方法	总线(%)	微型客车(%)	小货车(%)	轿车(%)	SUV (%)	卡车(%)	总额(%)

美国有线电视新闻网	80.00	68.65	75.14	63.25	64.33	68.65	70.00
快R-CNN	78.92	70.81	73.51	68.33	70.27	76.22	72.97
快R-CNN	87.03	76.76	78.92	69.73	81.62	77.30	79.82
美国有线电视新闻网CNN +	88.94	79.31	80.14	75.23	83.20	79.41	81.89
IFR-CNN +有线电视新闻网	92.49	84.23	83.74	82.23	84.02	81.41	84.96
MC-CNN	91.35	83.70	83.70	80.92	84.78	81.00	84.24
MC-CNN-P	94.05	84.67	83.62	83.16	84.78	80.46	85.12
MC-CNN-F	94.60	84.62	84.24	84.08	87.57	83.62	86.46
MC-CNN-NT	97.30	91.11	90.57	88.41	90.73	89.49	91.27


方法	总线(%)	微型客车(%)	小货车(%)	轿车(%)	SUV (%)	卡车(%)	总额(%)

美国有线电视新闻网	60.00	41.08	48.11	44.87	52.44	50.27	52.88
快R-CNN	78.92	42.17	48.11	45.95	54.60	58.92	57.30
快R-CNN	81.24	64.33	64.33	62.17	66.49	65.95	69.46
美国有线电视新闻网CNN +	82.24	66.03	67.00	65.57	67.3	68.03	71.44
IFR-CNN +有线电视新闻网	85.24	70.43	78.01	70.21	73.68	76.24	75.64
MC-CNN	83.70	70.19	76.68	69.11	70.19	76.14	74.33
MC-CNN-P	88.03	71.77	82.08	70.73	73.98	75.60	77.03
MC-CNN-F	89.11	73.52	83.70	72.35	75.22	77.00	78.48
MC-CNN-NT	90.19	77.76	86.41	75.60	79.38	86.41	82.63

4.3。实验车辆属性识别的小目标

4.3.1。数据集

COCO-Vehicle数据集是用来进行车辆属性的实验小目标的识别。COCO-Vehicle数据集包含七个类别目标:人,公共汽车,微型客车、货车、轿车,越野车和卡车。数据集是手工注释根据可可数据集的文件(32]。人、汽车和公交车的可可数据集提取,在可可和汽车数据集分为轿车,面包车,微型客车,越野车和卡车。由于可可数据集的卡车数量不多,300辆卡车从VOC2007选择数据集来补充。示例如图COCO-Vehicle的图像数据集7。

摘要小目标的定义,中型和大型的目标是目标,基于文献[的标准33]:代表的roi像素比例在整个图像。的目标被定义为小目标。的目标被定义为媒介的目标。的目标被定义为大目标。COCO-Vehicle数据集,小目标的数量占63.10%,介质目标的数量占32.86%,大目标的数量占4.04%。COCO-Vehicle数据集的统计结果如表所示7。


目标类型	人	公共汽车	小型公共汽车	小货车	轿车	运动型多功能车	卡车	总

小	5083年	240年	356年	261年	3249年	900年	40	10129年
中间	1783年	796年	176年	235年	1430年	483年	372年	5275年
大	16	240年	9	38	273年	40	32	648年
总	6882年	1276年	541年	534年	4952年	1423年	444年	16052年

4.3.2。实验地点的小目标

为了验证MC-CNN-ST的小目标位置的性能,六个网络的对比实验设计。六个网络的主要结构如表所示8。网络成为网络原创R-CNN网络更快。Net-B网络是基于原始R-CNN更快,而压缩卷积的数量特征提取网络到6层。Net-C Net-D网络和保险丝第二,第四,第六层VGG-E卷积。Net-C网络增加了一个卷积层融合的三个分支网络。Net-D网络增加了两个卷积层融合的三个分支网络。Net-E Net-F网络和保险丝第一、第三和第六层VGG-E卷积。Net-F网络的位置子网级联网络MC-CNN-ST。不同于Net-F网络,Net-E网络增加了一个卷积层的三个分支网络。


方法	描述的比较实验

网络成为	原来快R-CNN
Net-B	快R-CNN +结构压缩
Net-C	的融合结构压缩+ 2,4,6功能地图+使用一个5×5
Net-D	的融合结构压缩+ 2,4,6功能地图+使用两个3×3
Net-E	结构压缩+ 1的融合,3、6功能映射使用一个5×5 +
Net-F	结构压缩+ 1的融合,3、6功能地图+使用两个3×3

6网络的位置结果如表所示9和图8。如表所示9,MC-CNN-ST位置网络(Net-F)使用网络压缩策略具有更好的识别能力背景区域的可疑目标。错误的接受的数量减少。增加Net-F网络识别精度为21.23%,8.55%,5.03%,2.42%,和2.7%的超过一个,Net-B, Net-C, Net-D和Net-E分别。Net-F网络使用网络融合策略提高表达能力的目标特性和减少错误的拒绝。Net-F网络的召回率的增长是21.64%,10.03%,5.01%,3.92%,和1.93%相比,网络,Net-B, Net-C, Net-D和Net-E分别。


方法	车辆	TP	《外交政策》	FN	精度(%)	回忆(%)

网络成为	1913年	1237年	546年	676年	69.38	64.66
Net-B	1913年	1459年	319年	454年	82.06	76.27
Net-C	1913年	1555年	262年	358年	85.58	81.29
Net-D	1913年	1576年	211年	337年	88.19	82.38
Net-E	1913年	1614年	222年	299年	87.91	84.37
Net-F	1913年	1651年	171年	262年	90.61	86.30

(一)

(b)

入网的定位结果,Net-B Net-F首先对应的图像,第二和第三列数据8(一个)和8 (b),分别。如图8(一个)网络成为网络识别8和10个目标在两个不同的图像,分别。Net-B网络识别出11和13个目标在两张图片,分别。Net-F网络识别12和14个目标在两张图片,分别。Net-F网络认识最多的目标。纵向网络压缩策略和水平网络融合的战略Net-F网络模型中减少错误的拒绝和改善网络的召回率。在图8 (b),车辆标有红色边界正确认定为前台。建筑物、广告牌和其他背景误判为车辆标有绿色的边界。如图8 (b)Net-F网络中,错误检测的数量是1,小于的数量错误的检测在网络和Net-B。

4.3.3。小目标属性识别的实验

为了验证MC-CNN-ST的小目标识别性能,七个网络的对比实验设计。这七个网络包括三个noncascaded网络(CNN、快速R-CNN和R-CNN越快)和四个级联网络(CNN + CNN, IFR-CNN + CNN, MC-CNN-NT,和MC-CNN-ST)。表中演示了属性识别的结果10和图9。


方法	总线(%)	微型客车(%)	小货车(%)	轿车(%)	SUV (%)	卡车(%)	总额(%)

美国有线电视新闻网	65.25	37.70	38.36	43.93	38.36	51.14	45.79
快R-CNN	70.50	49.18	53.77	44.59	54.09	57.70	54.97
快R-CNN	74.10	53.12	59.67	51.15	55.41	60.62	59.34
美国有线电视新闻网CNN +	74.99	54.89	59.80	52.53	56.99	61.39	60.10
IFR-CNN +有线电视新闻网	75.70	55.12	59.97	53.45	57.41	62.51	60.71
MC-CNN-NT	77.70	57.04	60.00	54.75	58.36	62.62	61.75
MC-CNN-ST	88.27	79.46	75.67	75.10	77.52	79.95	79.33

如表所示10,MC-CNN-ST达到优越的识别结果在7个网络。MC-CNN-ST的准确性的提高33.54%,24.36%,19.99%,19.23%,18.62%,比CNN和17.58,快速R-CNN R-CNN更快,CNN + CNN, IFR-CNN + CNN和MC-CNN-NT,分别。如图9,MC-CNN-ST具有良好的属性识别能力六个类别的车辆。

5。结论

本文致力于解决车辆属性识别的问题。建立了多任务级联网络MC-CNN-NT和MC-CNN-ST识别车辆属性与正常大小和体积小,分别。级联多任务网络提高识别效果的单程网络复杂的背景。网络压缩的实现策略和特征融合策略减少了错误接受率和提高召回率小的目标。使用激活函数PReLU和损失函数局部损失提高了网络的非线性映射能力和挖掘能力难以探测的样本。实验结果表明,提高识别精度的MC-CNN-NT正常的目标是18.3%,11.45%,9.38%,6.31%,和7.03%以上R-CNN快,快R-CNN, CNN + CNN, IFR-CNN + CNN和MC-CNN分别。MC-CNN-ST的识别精度的增加小目标是24.36%,19.99%,19.23%,18.62%,和17.58%相比,快速R-CNN R-CNN更快,CNN + CNN, IFR-CNN + CNN和MC-CNN-NT,分别。在未来的研究中,我们考虑融合的红外图像特征可见图像特性来增强小目标车辆的识别精度。

数据可用性

三个数据集(BIT-Vehicle SYIT-Vehicle数据集,数据集,数据集COCO-Vehicle)中使用的纸可以通过电子邮件(liufang5208@sylu.edu.cn和xuke@sylu.edu.cn)。

的利益冲突

作者宣称没有利益冲突。

确认

这个工作是由开放的基础科学和技术在光电信息安全控制实验室(批准号61421070104),辽宁省教育部门科技项目(批准号LG201715),辽宁省自然科学基金(批准号20170540790),(批准号2019 - zd - 0256)。

引用

李问:w·h·s . Cheng y,和g . y .霍”道路车辆监控系统基于智能视觉物联网,”杂志上的传感器文章ID 720308卷,2015年,16页,2015年。视图:出版商的网站|谷歌学术搜索
问:w·雪陆j。j, k . Wang和y . j . Liu”快速驾驶风格识别车辆使用机器学习和车辆轨迹数据,”《先进的交通工具卷,2019篇文章ID 9085238, 11页,2019年。视图:出版商的网站|谷歌学术搜索
胡,黄永发。赖,c c。郭”,位置感知的细粒度的车辆类型识别使用多任务深网络,”Neurocomputing卷。243年,60 - 68、2017页。视图:出版商的网站|谷歌学术搜索
r . Feris b . Siddiquie y翟,j . Petterson l·布朗和s . Pankanti”属性的搜索在拥挤的车辆监控视频,”学报第一国际会议多媒体检索特兰托,意大利,2011年4月。视图:谷歌学术搜索
j . Prokaj和g . Medioni“基于3 d模型的车辆识别,”学报2009年IEEE计算机视觉的应用研讨会(WACV)UT,页1 - 7,盐湖县,美国2009年1月。视图:谷歌学术搜索
k . Ramnath Sinha、r . Szeliski大肠萧,“汽车制造和模型识别使用3 d曲线一致,”2014年《IEEE的冬季会议上应用计算机视觉(WACV)斯廷博特斯普林斯,页285 - 292年,有限公司,2014年3月美国。视图:谷歌学术搜索
t . n . Tan和k·d·贝克“高效的基于图像梯度的车辆定位,”IEEE图像处理,9卷,不。8,1343 - 1356年,2000页。视图:出版商的网站|谷歌学术搜索
p . Negri x Clady, s·m·哈尼夫和l·普雷沃斯特”一连串的提高了生成和歧视车辆分类器检测,”EURASIP在信号处理的发展》杂志上,卷2008,不。1,文章ID 782432, 2008。视图:出版商的网站|谷歌学术搜索
马x x和w·e·l . Grimson“Edge-based丰富车辆分类,表示”学报第十届IEEE计算机视觉国际会议,第1192 - 1185页,北京,中国,2005年10月。视图:谷歌学术搜索
美国美国销量和t . Braunl Symmetry-based单眼车辆检测系统,”机器视觉和应用程序,23卷,不。5,831 - 842年,2012页。视图:出版商的网站|谷歌学术搜索
r . Braunl j·多纳休、t . Darrelland和j·马利克,“丰富的特性为目标检测和语义细分层次,”学报2014年IEEE计算机视觉与模式识别会议哥伦布,页580 - 587年,哦,美国,2014年6月。视图:谷歌学术搜索
在r . Girshick“快速R-CNN。学报2015年IEEE计算机视觉国际会议(ICCV),页1440 - 1448,圣地亚哥,智利,2015年12月。视图:谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”学报》国际会议神经信息处理系统,页1137 - 1149,伊斯坦布尔,土耳其,2015。视图:谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能,37卷,不。9日,第1916 - 1904页,2014年。视图:谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”学报2016年IEEE计算机视觉与模式识别会议CVPR,页779 - 788年,拉斯维加斯,NV,美国,2016年6月。视图:谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“SSD:单身multiBox探测器拍摄,”第14届欧洲计算机视觉学报》上,页21-37,阿姆斯特丹,荷兰,2016年10月。视图:谷歌学术搜索
z霍,y z夏,b . l .张“车辆类型分类和属性使用多任务rcnn预测,”《国际国会图像与信号处理IEEE,页564 - 569年,上海,中国,2017年10月。视图:谷歌学术搜索
t . y . Tang s . l .周邓z . p, h . x邹和l . Lei“车辆检测在空中图像卷积神经网络和基于区域努力挖掘负面例子,”传感器,17卷,不。2,p。336年,2017年。视图:出版商的网站|谷歌学术搜索
李问:孟,h . s .的歌,g . y . A . Zhang和x张问:“一块基于特征融合的目标检测方法网络自主车辆,”复杂性ID 4042624条,卷。2019年,14页,2019。视图:出版商的网站|谷歌学术搜索
陈平z . Wang, j . x锅”在复杂背景目标探测深度学习的基础上,“重庆理工大学学报:自然科学,32卷,不。4、171 - 176年,2018页。视图:谷歌学术搜索
h .锣,y, f·刘,k .徐“车辆识别使用多任务级联网络”学报》第五新颖的光电检测技术及应用研讨会上,页1 - 8,西安,中国,2018年10月。视图:谷歌学术搜索
傅p和s p .谢”,基于级联卷积神经网络车牌位置,”计算机技术与发展,28卷,不。1,第1451 - 1362页,2018。视图:谷歌学术搜索
林t y,美元p, r . Girshick k .他b . Hariharan和s Belongie“特性为目标检测金字塔网络,”《2017年IEEE会议计算机视觉和模式识别(CVPR)火奴鲁鲁,页936 - 944年,美国,2017年7月,你好。视图:谷歌学术搜索
n .中间人和b区格”的梯度直方图的人体检测,”《2005年IEEE会议计算机视觉和模式识别(CVPR),没有。8日,页。886 - 893年,迭戈,CA,美国,2005年。视图:谷歌学术搜索
d·g·劳”独特的形象特征尺度不变的要点,国际计算机视觉杂志》上,60卷,不。2、91 - 110年,2004页。视图:出版商的网站|谷歌学术搜索
s . Karungaru m . Fukumi, n .赤松“人脸检测在视觉场景使用神经网络,”IEEJ电子信息和交易系统,卷122,不。6,995 - 1000年,2008页。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳”深入深入整流器:超越人类ImageNet分类、性能”学报2015年IEEE计算机视觉国际会议,页1026 - 1034,圣地亚哥,智利,2015年12月。视图:谷歌学术搜索
f . Agostinelli m·霍夫曼,p .萨多夫斯基,p . Baldi”学习提高深层神经网络激活功能,”学报(ICLR)学习国际会议上表示2014年4月,加拿大班夫。视图:谷歌学术搜索
诉Nair, g . e . Hintion修正线性单位改善限制玻耳兹曼机,”学报》第27届国际会议上国际会议上机器学习(ICML)以色列海法,页807 - 814,,2010年6月。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”学报2014年IEEE计算机视觉与模式识别会议(CVPR)科罗拉多斯普林斯,页580 - 587年,有限公司,2014年6月美国。视图:谷歌学术搜索
吴z, y,潘安,y,“车辆类型分类使用semisupervised卷积神经网络”IEEE智能交通系统,16卷,不。4、2247 - 2256年,2015页。视图:出版商的网站|谷歌学术搜索
林t y, m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”《13日欧洲计算机视觉苏黎世,页740 - 755年,瑞士,2014年9月。视图:谷歌学术搜索
辛格b和l·s·戴维斯,“尺度不变性的分析对象检测,剪断”《IEEE计算机视觉与模式识别会议3587年,页3578 - 2018年6月美国盐湖城。视图:谷歌学术搜索

复杂性

前沿数据驱动的方法来理解,复杂系统的预测和控制

文摘