文摘

车辆自动识别是一个重要的主题领域的智能交通系统(ITS),汽车标志是车辆最重要的特征之一。因此,汽车标志的检测和识别是重要的研究课题。因为的问题车辆标志的面积太小检测和数据集太小训练对于复杂的场景,考虑识别的速度和鲁棒性复杂的场景,我们使用深度学习方法是基于数据优化车辆标志在复杂的场景。我们提出三个增强策略车辆标识数据:cross-sliding分割方法,小框架法,高斯分布细分方法。对小样本大小的问题,我们使用cross-sliding分割方法,它可以有效地增加的数据量没有改变原车的长宽比标志形象。扩大区域标识的图像,我们开发的小框架方法提高了检测结果的小区域车辆标识。为了丰富图像中车辆标志的位置多样性,我们提出高斯分布的分割方法,结果表明,该方法是非常有效的。的F1值的方法在YOLO框架意思是0.7765,0.9295和精度大大提高。在R-CNN框架,越快F1我们的方法的价值是0.7799,也比以前更好了。实验的结果表明,上述优化方法可以更好地代表车辆标识的功能比传统的方法,和实验结果已得到改进。

1。介绍

智能交通的核心思想(1)是使用传感器、摄像头和其他方法来收集交通数据,并使用计算机辅助管理取代传统的手工监测。例如,我们可以在视频跟踪移动物体2,3)和凸分析对象(4,5发现流量异常。它可以快速完成交通数据分析(6),共享和检索,实现交通管理的集成。计算机视觉技术在这一领域起着至关重要的作用。一辆车的车牌和商标是两个重要的信息。有各种研究车牌识别(7,8),和大量的成熟和稳定的系统开发并广泛应用于实际生产情况。相反,汽车标志识别的研究是不够的。这是智能交通的一个重要组成部分;因此,对车辆识别的需求将增加在未来。有一些研究车辆的识别标志。Yu et al。9)提出了一个Bag-of-Words-based车辆标识分类的方法。首先,dense-SIFT (dense-SIFT)特征提取是进行车辆的标志。特征提取后,这些特性分为k集群。然后,每个图像的直方图对应于这些集群计算和描述。整个图像的特点最终训练和分类的支持向量机(SVM)。Cyganek et al。10)提出了一个基于张量表示车辆识别方法在文学。这个方法建立了相应的四维张量分类器为每个类车辆标识和实现的功能分类每辆车标志相结合建立分类器。然而,这种方法也定位车辆标志通过检测之前车牌的位置。Llorca et al。11]试图使用各种功能的车辆标志和最后决定构造系统梯度直方图(猪)的形式特征和支持向量机(SVM)。彭et al。12]提出了一种统计随机稀疏分布法来提取车辆的特征标志,然后提取的特征进行分类的分类器。这个方法是优化的车辆标志,所以它比一些更健壮的一般特性,比如猪和筛选。黄等。13)提出了一个基于pretraining车辆识别系统战略。检测和识别是通过结合传统的检测方法与卷积神经网络的识别。为了减少错误的检测误差造成的传统检测方法,系统扩展了检测范围。很快et al。14提出了一种新的预处理方法。之前使用深层神经网络方法来提取特征,他们使用的白色转换技术来处理图像,消除相邻图像的像素冗余,使得汽车标志的特征更加明显。

在以前的研究中,提出了许多车辆标识分类方法(15),但汽车标志的位置一直是智能交通系统的一个困难的问题。在传统的方法中,需要一些prehypothesis位置,如使用车牌的位置或使用前车灯的纹理特征的特征来定位车辆标志(16),这不是强大的复杂情况。然而,目前,许多深层网络能够自动学习功能的汽车标志形象,从而直接检测和识别车辆标识。但也有一些问题在深层神经网络的应用。深层神经网络的参数是非常大的。与此同时,由于其结构的复杂性,有许多hyperparameters,所以很难优化他们(17]。当数据集的规模太小,网络的性能会更糟。为了使深层神经网络更好的学习和提取特征表示,我们采用多种数据优化方法,使网络在车辆的数据标识的表现也更好。

在我们的研究中,我们提出一个新的研究的想法。与传统方法相比,我们提出一个数据基于多种策略相结合的优化方法,基于位置的多样性和规模汽车标志的多样性。

本文提出的方法是基于现有的深度学习的方法。因此,我们的研究需要一个网络框架具有良好的性能。我们选择两个最具代表性的框架,YOLO和更快的R-CNN意思,作为我们的研究对象。与此同时,我们需要Nonmaximum抑制算法来优化检测结果。

2.1。YOLO

YOLO算法是最受欢迎的意思目标检测算法(18- - - - - -20.]。它的主要优点是,它可以实现实时检测,但也得到更好的检测结果。YOLO算法意思的主要思想是将图像,然后直接进行回归检测划分区域。实现端到端直接输入图像的检测到网络来预测。与现有的目标探测系统相比,YOLO性能一般意思在目标区域定位,但它有一个更好的抑制假阳性区域的背景。

将图像划分为网格YOLO检测对象的意思。图像中的对象,它的中心是一个网格,网格负责检测对象。对于这些网格,每个网格预测一些可能包含对象的矩形框,每个对应一个信心得分。这种信心反映的质量预测为每一个边界框的对象。得分越高,越接近这个盒子将地面真理。如果矩形框不包含对象,信心应该是零。对于每一个矩形框,有五个参数预测:后的值XY对象的坐标中心相对于网格,矩形的长度的比值图像的宽度,和上面提到的信心得分。此外,每个网格还预测几个条件概率。这些概率用于确定对象的类别,数量等于类别的数据集的数量。

实验在这篇文章中,五箱预计在每个网格。每箱四坐标数据,包含一个信心和30类别的概率,所以每个网格有5 (5 + 20)= 175输出尺寸。

2.2。快R-CNN

R-CNN快出现之前,研究人员提出的目标检测算法需要使用费时区域推荐算法来推断目标区域(21,22]。虽然一些研究人员采取了多种优化算法,算法的耗时仍然很巨大。在这种背景下,研究人员提出的想法直接使用CNN预测目标区域,和出生的RPN算法23]。

快R-CNN由四部分组成:Conv层,项,ROI池和分类器。Conv层是一个卷积神经网络,它主要用于提取原始图像的特征。它可以使用VGG [24]或ResNet [25]。提取的特征映射将用于RPN层和完整的连接层。的RPN R-CNN快的核心理念。这是一个完整的卷积网络用于生成地区的建议。首先,功能图像通过Conv层进一步复杂,和锚为每个像素在图像生成。之后,这些锚被softmax分类函数来确定他们是否目标区域。同时,锚被边界框修改回归得到更准确的建议。Roi池层是相对简单的。它使用功能映射从Conv层和建议形成一个固定大小的建议项特征地图然后发送到目标识别的完整连接层和位置。最后,分类器将该特性从Roi池层映射到完全连接网络和使用将softmax函数进行分类。 At the same time, L1 loss is used to complete the bounding box regression to obtain the exact position of the object.

2.3。Nonmaximum抑制

Nonmaximum抑制(26](NMS)在计算机视觉领域非常重要。目前,许多成熟的技术,如人脸检测(27和行人检测28),应用。在目标检测的过程中,多个矩形框通常生成。如何过滤这些候选人盒子最好做最后检测效应已经成为一个问题,和NMS可以用来完成这一任务。

核心思想是比较两个候选框的信心和丢弃的一小部分重叠的两个候选框(借据)大于某个阈值。这样的循环,直到两个候选框的借据小于阈值。在这一点上,剩下的候选框是最高的信心,和检测效果是最好的。

3所示。该方法

3.1。增加及其意义

领域的深入学习,大数据是支持学习的基础对象的特征(29日]。训练一个网络需要大量的数据作为支持更好地提取目标的特征。如果一个数据集的数据质量不够好,数据平衡(30.)和数据扩展通常用于优化它。数据增加的重要性将训练数据并生成新的数据通过特定的方法。通过数据,原始数据集可以优化和扩展。它可以防止过度拟合(31日)引起的少量的训练过程中的数据。具有重要意义的识别和检测能力模型。当前车辆的标识数据集,其中大部分是分离场景的标志,用于车辆分类标志图像。这样的数据集不能用于培训。然而,数据集的规模直接标记在原始图像太小,不能满足列车所需的数据量。因此,数据增加应该在数据集上执行,以满足需求。

3.2。传统数据扩增方法
3.2.1之上。旋转

图像中的像素随机围绕中心旋转的角度。

3.2.2。翻转

像素与交换水平或垂直中心线对称,导致整个图像是颠倒或从左到右。

3.2.3。亮度

图像的整体亮度提升或降低。

3.2.4。对比

最亮的像素之间的差异和最黑暗的像素在图像放大或缩小,以及它们之间的像素值相应的转换。

3.2.5。噪音

图像中每个像素的RGB通道值是随机改变比例,并介绍了噪声使图像变化。

3.2.6。裁剪

上,下,左,右边界的图像平面与一定比例削减或某一像素宽度。

至今已提出了许多增强方法,但并非所有的增强方法适用于车辆标志数据集。上面描述的增强方法可以大致分为两类:对原始RGB通道进行像素级操作,如亮度变换和噪声干扰,而没有进行像素级操作,如裁剪变换。通过使用这些数据扩增方法,图像变得更加多样化,这样网络可以更全面地学习图像特征表示。

3.3。Cross-Sliding分割方法

卷积神经网络,因为巨大的参数,需要的数据量也是非常大的,所以我们需要找到一种简单、快捷的方法来生成大量的有效数据。因为标志区域通常是小,不容易段标志区域图像分割。同时,因为汽车标志的位置非常变量,cross-sliding分割用于快速增加有效的图像。这种方法非常快速和容易实现。

我们扫描和拦截图像使用矩形框的长度和宽度1/2的源图像如图1。这种方法大大增加了数据量。因为商标的面积很小,不容易把地面实况框,从而导致无效数据。具体细分步骤如下。

首先,原始图像分为9子图象,和每个子图象的长度和宽度1/2的原始图像:

生成的图像在原始图像的位置

其中, = 0、1、2; = 0、1、2; 左上角的位置是在原始图像生成的图像; 生成的图像的位置在原始图像的右下角; 生成的图像的宽度和高度,分别; 原始图像的宽度和高度。

所有生成的子图象形式 ,而图像可用于培训形式 如果目标区域 ,可用于培训应该包含的子图象 ,所以

Cross-sliding分割方法一共9图上的图像14包含完整的汽车标志信息培训,剩下的应该被直接丢弃,因为它们不包含车辆标识信息或车辆标识信息是不完整的。

3.4。小框架方法

一般图像,汽车标志的比例在整个图像很小,和背景信息过于复杂,导致缺乏主要的信息。与此同时,由于背景信息太多,深层神经网络学习过程中会遇到很多的噪音,导致收敛速度过于缓慢。

因此,如何抑制背景和突出标志的特点已成为一个难题。为了使车辆标志更多的信息有助于整个形象,有必要删除区域没有汽车的标志。非常简单和有效的方法是直接扩大商标的比例大小的图像。

本文随机大小的小矩形框用于选择车辆标志,和其他领域没有车辆标志被丢弃强调车辆标志,以便网络能够更好地提取车辆的特性标识。

生成的图像在原始图像的位置

其中, 左上角的位置是在原始图像生成的图像; 生成的图像的位置在原始图像的右下角; 左上角的位置是在原始图像的目标区域; 目标区域的位置在原始图像的右下角;这个函数 是一个函数,随机生成一个随机数1.5到3; 目标区域的宽度和高度。

定义1。标志图形的面积比率的比率标志地面实况整幅图像的面积。
图的平均比率可以测量目标地区的情况在整个图像数据集。车的标志是一个小目标检测领域的对象,和它的图形比一般低: 其中, 所有标识图的平均比率和吗 形象标志的面积大小 是图像的面积大小
使用上述方法,标志图形的比例数字2从0.00657增加到0.17012,增强数据集的平均标志图比从0.0144增加到0.0526,3.65倍。

3.5。高斯分布的分割方法

因为池存在的操作在卷积神经网络,网络的可靠性数据翻译很差。一些研究表明,相同的图像和网络,只要输入图像由一个像素稍微修改或改变,CNN的输出会发生巨大的变化,网络层越深,就越有可能就会发生这个错误。研究人员认为有一定摄影偏见在一般的数据集。在宏观层面上,只要不进行像素级编码,世界上没有两个完全相同的图像,因此神经网络学不严格的平移不变性和不需要学习。

汽车标志的位置在图像是非常变量,所以有一个高的位置的多样性需求目标的训练集,当数据集很小,我们必须优化车辆的位置标识的数据集。因此,我们提出了高斯分布的分割方法。数据集是由该方法优化后,目标区域的位置将高斯分布。生成的图像的大小

其中, 生成的图像的宽度和高度; X协调和Y协调原始图像的目标区域的中心; 原始图像的宽度和高度。

我们需要建立一个函数,这个函数是用来产生0和1之间的数字,应该符合标准正态分布:

目标中心点的坐标生成的图像

其中, XY目标中心点的坐标生成的形象; 是原始图像的宽度和高度; 生成的图像的宽度和高度; 目标矩形的宽度和高度;和 是一个函数,生成一个数字0和1之间满足高斯分布。

生成的图像在原始图像的位置 在哪里 左上角的位置是在原始图像生成的图像; 生成的图像的位置在原始图像的右下角; X协调和Y原始图像的目标中心的坐标; XY目标中心的坐标生成的形象; 生成的图像的宽度和高度。

4所示。结果与讨论

4.1。实验设置

摘要从大数据的数据和计算智能(BDCI)的竞争。有1131个不同大小的图像注释总计30类别。我们用1006张照片的测试数据集实验的测试集。类的分布如图3

因为我们需要数据的数量,增加扩展数据集的原始数据。作为一个对比,我们已经尝试了各种传统的增强方法和本文提出的方法。我们尽力控制由各种方法生成的数据量在同一水平上,以确保实验的准确性。对于这些方法,我们把他们分为两类:进行像素级操作和non-pixel-level操作。其中,进行像素级操作包括亮度变换,对比度变换,和噪音。Non-pixel操作包括裁剪、旋转和翻转。我们自己的方法基于标识的数据优化都是non-pixel-level方法。所产生的数据量是所有方法原始数据集的2 - 3倍。这些方法产生的数据分布如图4

4.2。实验结果

在这篇文章中,三个参数,P,R, ,作为判断的标准和评价实验过程。其计算方法如下:

其中, 是商标的数量正确检测到, 是标志检测的总数, 是实际数量的标识。

我们研究各种数据的性能优化方法的框架下YOLO。意思通过调整参数和迭代的数量,我们YOLO框架意思下得到最优的结果。首先,原始数据是测试,和损失的变化和数据结果如图5

我们培训了50000名迭代框架下每1000次迭代YOLO和输出结果的意思。观察实验结果,我们可以发现有一个突然的下降,10000年和20000年之间的损失值迭代。原因是在这个地方我们使用的策略学习速率衰减,从而使损失价值进一步下降。与此同时,它可以从(b) 价值往往是在50000年之前稳定的迭代,所以我们可以得到一个最优模型50000次迭代的训练。培训原始数据集的最佳结果如表所示1

在那之后,我们试图优化的数据添加到网络培训。我们尝试用9增强方法,和他们的损失值改变了,如图6

它可以观察到,不管使用什么样的增强方法,有一个循序渐进的损失下降之间的10000年和20000年轮迭代,这证明了我们的学习速率衰减策略是有效的在这些方法。我们有最好的测试结果计算每个模型在上面的实验中,这些数据有助于我们判断哪些方法是有利于汽车标志的测试数据。结果如表2

实验结果表明,裁剪操作改善结果最传统的方法,和 价值增加了2.63。与原始数据相比, 值的三种方法提出了增加了4.11,4.04和5.56,分别。结果表明,我们的方法比传统方法更有效帮助网络来检测车辆的标志。

我们选择最好的三个传统的方法和我们提出的方法进一步的实验来观察我们的方法相结合的效果。为了确保结论的准确性,我们测试中的数据框架YOLO和更快的意思R-CNN,分别得到的结果 值在图7

可以看出,与传统的方法相比,我们的方法可以提高性能更好的框架下YOLO和更快的R-CNN意思。我们选择最好的测试结果的各种方法,让他们成表3

我们的方法主要优化目标的规模和位置多样性多样性。基于类之间的巨大差异的特征和类内差异小,我们提出一种新的数据优化方法。与传统方法相比,我们主要关注两个点用最少的信息在小数据集车辆标志。实验表明,我们的想法是有效的。

从实验结果,我们可以知道我们的方法的改进效果YOLO框架意思优于R-CNN更快。我们的方法比传统方法高出3.77的框架YOLO,意思是比R-CNN更快。原因是我们主要优化车辆的大小和位置标识,这是更有针对性的单程方法像YOLO。意思由于网络项的存在,快R-CNN目标的位置不是很敏感,和 只会增加1.0。单程方法,YOLO框架意思可以直接返回目标从图像的位置。以前的研究已经指出,CNN更敏感图像中目标的位置,因此,回归的目标位置YOLO框架意思更依赖于数据集。我们的方法主要是优化多元化的标志位置,所以我们的方法执行更好的框架下YOLO。意思因此,尽管本文提出的方法可以提高两个网络的性能,更明显提高YOLO。意思的性能

4.3。结果显示

我们将展示一些检测数据增强表后的效果4

在表4,每组的第一列的图像显示的帮助我们改善网络召回率的方法。形象的第一列,由原始数据集和网络训练数据集增强了传统方法不能检测到图像中车辆标志,和我们提出的数据增强方法能成功地检测汽车的标志。第二列的每组图片显示了我们的方法的准确性的提高。错误检测的网络训练和原始数据集的数据集增强传统数据的方法,我们的方法可以在一定程度上抑制它。

5。结论

在本文中,我们提出了一系列数据优化方法用于小样本车辆标志数据集。根据小样本车辆标识数据集的特点,我们从两个方面:提高数据集大小和位置。实验结果表明,本文提出的方法可以提高查全率和查准率与传统方法相比,无论是单独或组合。对于不同的框架,我们的方法更适合单程方法,直接找到目标位置的图像,所以更快的改善效果R-CNN比YOLO。意思是弱

数据可用性

图像数据用于支持这项研究的结果已经存入百度Netdisk库(https://pan.baidu.com/s/10LG6vZGK_tEV6sGbDx4uug)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是由中国国家自然科学基金支持下批准号。61972097,61502105,和61672158,福建省的技术指导项目批准号2017 h0015,福建省自然科学基金批准号下2018年j1798、福建省自然科学基金杰出青年学者在批准号福建省2015 j06014大学生产项目批准号下2017 h6008,福建协同创新中心在政府、大数据应用和福建工程研究中心的大数据分析和处理。