文摘

在高速列车安全检查,两个改变图像来自相同的训练和拍摄的相应部分需要在不同的时间,以确定是否有缺陷。这种变化分类任务的关键的挑战是如何通过使用双时态图片做一个正确的决定。本文提出了两个卷积神经网络来执行这个任务。有别于传统分类的任务只是把每个图像分成不同的类别,网络能够提供的两个本质上检测两幅图像之间的差异,并进一步确定变化用一副图像。这样做,即使在特定组件不可用的情况下,异常的样本在训练中,我们的网络仍然能够使推理是否他们变得异常使用变化信息。这个方法可以用于识别或验证的应用程序不能做出决策只有一个图像(状态)。配备深度学习,这种方法可以解决许多高速列车安全检查的有挑战性的任务,在传统的方法不能很好地工作。为了进一步提高性能,小说multishape训练方法。大量实验证明该方法表现良好。

1。介绍

传统分类任务使用监督学习方法,如神经网络和支持向量机,一般要求所有可用类别和数量的样品就足够了。然而,在高速列车安全检查,异常目标表明有潜在危险在列车运行时稀缺。因此,我们没有一个足够数量的样本来实现对异常目标的探测深度学习。相反,我们设计了一个基于结构相似性的方法(SSIM)在前面的工作1]。在这种方法中,而没有故障历史训练图像是作为基线。当当前图像获取与基线相比,检测到当前列车发生的变化。火车是暴露在户外,有各种复杂因素导致火车表面变化。因此,大多数的变化不是异常目标(正确报警),但安全变化(假警报)如污渍和标志,如图1(一)(第一行和第二行)。此外,为了获得优越的成像质量,我们拍摄火车通常会导致亮度差的辅助照明。亮度的变化通常是错误的异常目标检测,如图1(一)(第3行)。

虽然以前的工作(1)节省了大量的人力,仍然是一个需要核查人员花时间分类变化是危险的。为了进一步降低劳动成本,这项工作的目的是在一个自动识别与深度学习正确的警报。在这个任务中有各种各样的挑战。正确的警报是组件的松散(运动或旋转)或丢失和异物等电力设施受电弓,如图1 (b)。这些异常目标会导致火车停止,甚至导致火车翻车。因此,异常目标检测是非常重要的。然而,正确的警报不能被传统的分类方法,因为他们只输入一个图像(状态)。根据一个州,算法不能分析的组件是否松动或丢失。至于假警报,该算法不仅应该判断是否有污渍或亮度的差异,因为这些现有的迹象并不表明没有松动,损失,等。因此,需要两个阶段之间的变化信息,协助决策。

火车上有许多组件和设备安装,特别是底部的火车。使高速列车太复杂的图像信息提取满意的边缘信息。此外,没有稳定的特性,很难描述污渍,亮度,异物和组件状态的变化。实际上,我们不能描述各种形状的污渍,但我们可以描述一个组件的变态,即使描述都是不明智的。因此,手工设计的描述符,如筛选[2),可能不认为是由于上述因素的最佳方法。另一方面,是轻松获得大量的数据集,其中包含相应的图像对算法根据前面的设计工作(1]。因此,深度学习(3采用。

本文组织如下。部分2探索其他作品,有点像我们的。部分3描述了两个卷积神经网络(cnn)的变化提出详细分类。然后,给出了实验结果和分析4。最后,部分5给出了执行这项研究得出的结论。

2.1。卷积神经网络

cnn,一个家庭的算法特别适合图像分析,应用在不同的方面,包括图像分类、目标检测和语义图像分割。由于其能力强的自动学习的高级特性表征图像,cnn可以提取足够的特征图像分类(4- - - - - -7)和执行优于传统算法,如筛选,猪和冲浪。此外,保护当地的独特特征图像在进行降维的关系。这使得cnn更容易捕获图像的重要特征关系和减少参数的算法来计算。cnn都能够采取作为输入和处理二维图像和三维图像;Ref。8]提出了一种3 dcnn分类计算机断层扫描(CT)的脑部扫描三维卷。基于上述,cnn在图像识别是最受欢迎的机器学习任务。在目标检测中,也有一些优秀的模型,如快R-CNN [9有人知道由罗[],10],SSD (11]。成功的启发,cnn在以上计算机视觉任务,许多研究人员(12- - - - - -15)让他们的努力在不同领域利用cnn和实现最先进的。

2.2。变化的分类

cnn已经应用在不同的上下文中图像对的比较(11- - - - - -15]。尽管他们的任务实现先进的结果有两个图片,cnn还没有被应用到分类变化最好的我们的知识。在参考文献。(16]、[17),(18,cnn进行变化检测领域的地球观测图像分析。通过使用一双coregistered空中拍摄的图像在不同的时间,网络可以推断出改变地图。它可以用来分析土地利用的演变,城市覆盖、森林砍伐、参等。(19]和[20.),网络训练来确定两个图像对应于通过学习他们的相似性度量。被广泛应用于图像检索和脸验证。通过利用卷积神经网络,各种不同的挑战,例如,改变观点,照明问题,材质,和相机设置不同,规避。

总之,第一个工作是检测的变化发生,第二个是计算他们是多么相似。我们的任务是识别发生什么样的变化或判断这些变化是危险的。需要强调,尽管我们使用变化的分类识别异常高速列车的目标,它可以用于识别或验证应用程序的决定应在变化信息。此外,虽然网络的推理过程是由一个阶段,他们本质上把任务分成两个部分,学习改变信息并分类。我们将展示部分45

3所示。该方法

本文参照剩余两个卷积神经网络网络(ResNet)提出了21,22)来执行更改分类。有两个主要差异变化和传统的分类任务。首先,网络的输入应该需要两个图像而不是一个传统的分类任务。第二,除了提取图像特征,提出了网络应该学会比较形象对检测变化信息。

最简单的方法改善神经网络的性能是提高深度(21- - - - - -26),我们的网络被设计成有32层。通过大量的实验,证明了,至于我们的任务,网络会更深层次和更广泛的(更多的单位在每一层)不能带来更高的测试精度,但过度拟合。我们的最终的深度和宽度网络是最优的。网络是训练有素的端到端16 k的图像对,和样品的数量是足够足够的与80 k的迭代收敛。Pretraining与其他数据集不是利用由于之间的差异和我们的传统分类任务,和相当大的类型数据集之间的差异和公开的数据集,如ImageNet女士可可。此外,根据文献[27),如果数据集足够大(> 10 k), pretraining只帮助加速收敛但不提高测试准确性或减少过度拟合。因此,我们的设计被认为是合理的。此外,multishape训练方法介绍了改善性能。

3.1。体系结构

如前所述,cnn是一对的输入图像。在这种情况下,主要问题是如何将两个影像信息提要集成到网络。我们使用的图片是1通道灰度图像。第一个想法是级联的两张图片是一个“双通道图像。双通道图像“虽然过程并不存在,它是方便的cnn使用双通道卷积核。这种架构被称为一个级联模型如图2(一个)。级联模型,双通道图像卷积处理层获得的特征图谱包含变化信息。为了减少过度拟合,全球平均池(16用于这些特征图获得最终的特征向量。最后,改变类别由完全连接输出层(FC)。

第二个架构是灵感来自詹et al。28),在两个平行的网络是用来学习像素域和小波域的信息,和级联融合层来实现图像解封。不同于他们的工作,所涉及的两个平行的网络来提取特征图的历史形象(基线)和当前图像如图2 (b)。相同的级联模型,每个分支应用一系列的卷积层和全球平均池。然后,这两个分支输出连接,给网络,由俱乐部。两个分支可以看作是两个特征提取器和网络作为分类器。符合暹罗和pseudo-Siamese网络(16- - - - - -20.,26,27),根据两个分支的权重是否共享,此体系结构可以分为两种类型。他们的表现部分所示4.2

3.2。网络信息

目前,ResNet [21,22)和《盗梦空间》网络(29日- - - - - -32)是公认的优秀的架构。因此,在设计网络时,我们指的是他们两人。由于有效的收敛性能和简洁的结构,剩余模块主要是利用在我们的网络。我们采用块包括两个瓶颈 和一个 conv内核(33]。这两个 维数降低及增量(内核参与21,22,29日,31日,32),以减少计算工作量。我们选择的原因 conv内核是它已经证明了多个 conv内核有相同的接受域较大和有更好的非线性表达能力由于激活函数被多次使用24,31日]。图3了块的细节,批正常化(BN) [30.)用作preactivation改进的正则化模型。块可以表示为 在哪里 显示一系列BN, ReLU和卷积操作; 块的输入和输出;和 是需要学习的参数模型。递归方程(1)转换成

因此,功能 可以表示任何更深一层的特性 浅的层 加上剩余函数。此外,方程(2)有助于好向后传播属性。表示的损失函数 ,我们可以获得 这样损失可以直接传回给任何浅层和一层无法消失的梯度22]。的网络,将SoftMax层用于生成pseudoprobability分布,并通过计算叉,失去了训练网络。

3.3。Multishape培训

提供的图像直接对以前的工作(1),形状是任意的。即height-width比例是不确定的,我们的网络应该适应不同的形状。解决的问题不同的图像形状在训练中,我们利用三种形状: , , 大致相同的总像素的三个形状确保计算近似的训练。由于全球平均池,被送入FC之前,三个形状可以转换为相同的长度向量。在训练中,交替对重塑形象的三个形状。在测试时,对重塑形象最接近的一个。

在这一过程中,数据集是增强在某种程度上,这种做法的好处是双重的。除了提高测试准确性由于更大的数据量,这有利于改变学习。然而,在此前的许多作品中,如R-CNN [34]和SPP-net [34不推荐),扭曲由于真实性的变化。相比之下,我们的任务是识别而不是什么更改。因此,变形后,改变学习仍不受影响。特别是,污渍,亮度变化,和外国的身体也没有稳定的特性。因此,如果形状改变,我们可能无法意识到。在图所示的例子4

从图4扭曲后,可以看出,新的污渍,亮度变化,产生异物,他们都看起来自然。当然,背景可能会变形。然而,他们是可取的,使网络具有学习能力的变化而不是背景范畴。例如,至于松动,如图所示1(d),训练后,网络可能不了解变化但得知这些组件通常是陷入困境,也就是说,即使组件图1(d)不旋转,它可以被认为是一个正确的报警。可以肯定的是,这种情况不会发生在部分4.5

4所示。实验结果和分析

相比传统的分类任务,它有不同的输入和一个不同的目标。因此,它是没有意义的比较我们的网络和先进的网络如ResNet [21,22)和《盗梦空间》网络(29日- - - - - -32)这些都是应用在传统分类任务。我们的实验的目的是确定最优配置和探索合理的预处理方法改变分类。

所有网络训练与亚当35]。使用一个指数衰减学习速率。初始值是0.01,衰变率是0.99。除了第一个conv层,在卷积之前,BN和ReLU首先,执行和批处理大小是96。为了防止过度拟合,采用L2正规化和泽维尔初始化权值初始化(36]。所有实验实施六次使用Nvidia TensorFlow GTX1080ti GPU和英特尔i7 - 7700 CPU。源代码是公开的https://github.com/vivids/change_classification

实验指标用于我们的模型精度,精度,召回,F1的分数。所示的计算方法如下: TN、TP、FN和FP是显示在表1 是一种综合评价指标。如果 = 1 (7),这是F1的分数。

4.1。数据集和数据处理

的协助下我们的以前的工作1),大约18 k的相应部分的图像对高速列车在不同时间收集相同。这些图片都是来自高速列车的身体和它的关键部件,如机车驱动装置、转向架,轮子,紧固螺栓和管道。由于不同大小不同的关键部件,获得的图像有不同的分辨率大小,从几十到几千。最缺陷包含在这个数据集的前半部分,这是由一个树枝,鸟类和其他动物的身体,塑料袋等垃圾,等等。在运动和旋转,一个缺陷是一个松散的紧固组件的松散和松动的螺栓,分别。

虽然标签图像对,发现许多的类别对模棱两可的共存等多种情况下的第一副图形象1(一),染色和亮度变化同时出现,所以严格正确multiclassification数据集是不可用的。考虑到我们不关心发生什么样的变化,但从他们是否危险,改变分类可以被视为一个二进制分类任务,正确报警或假警报。正确的警报都是结构的变化而虚假的是nonstructure变化,二进制分类是可行的。我们的实验主要是针对二进制分类。Multiclassification实验(不满意Multiclassification数据集)也证明执行网络可以识别不同种类的变化,评估网络的性能。

至于multiclassification任务,数据集分为六大类,污点,亮度,马克,旋转,运动,和异物。关于二元分类,前三类是合并后的假警报,而其余的是正确的。有更多比正确的假警报,我们丢弃一些假的权益的目的。在multiclassification和二进制分类,我们选择约10%的数据来测试网络,和细节如表所示2

在传统的分类任务,在训练之前,图像通常标准相同的分布均值为0,方差为1。然而,它可以消除图像对之间的亮度差异,因此阻碍了网络学习亮度变化。相反,我们只是正常图像像素值[0,1]。图像大小(256×256)个图形训练和交替调整大小(180×360),(256×256),(360×180)multishape培训。

4.2。两个架构

神经网络的深度和宽度hyperparameters。探索最佳设置,我们进行许多实验。在表3以级联模型为例,列出了一些典型的设置。在本节中,我们设计两个架构基于苗条的模型(见表3)来比较他们的性能和将表明,苗条的模型可以表现良好在速度和准确性4.3。这两个体系结构如图2

从表2,我们可以清楚地看到,级联模型优于并行的在所有指标以很大的优势,这是由于两个分支的独立特征提取,结果的并行模型不能学好变化信息。进一步验证独立特征提取妨碍学习的变化,我们构造一个混合模型,显示在图5。在前面的网络的一部分,两个独立处理图像。通过这种方式,网络可以更好的提取的基本信息,如边缘,两个图像。其他是一样的级联模型,这网络有足够的层检测和过程变化的信息。然而,从表4确实,可以看出,独立的特征提取做了伤害。

暹罗模型用于参考文献。16,1718类似于并行模型,但他们可以执行在变化检测是由于两个任务之间的差异。此外,它也表明,提取变化信息主要是在最初的几层,这些层的提出网络对我们非常重要。我们将证明第一个卷积层负责检测变化信息部分4.5。因此,我们应该把两个影像信息。

4.3。架构优化

随着网络的深入发展,通常是提高性能(23- - - - - -26]。然而,他们被证明通过训练和测试一些非常大的数据集,如ImageNet和可可女士。的原因不仅是深层网络具有更好的非线性表示能力也是肤浅的网络被underfit大型数据集。在本节中,我们证明,对于一个小数据集,更深层次和更广泛的网络不能提高性能,但会导致过度拟合和带来更多的计算。我们探索六网络不同的深度和宽度,如表所示3。为定量分析该方法的复杂性,我们分析我们的网络的失败。在我们的网络中,101层(最)和32层(薄)是最大的和最小的网络失败 ,分别。

5介绍了上述六个模型的定量评价。他们每个人6次测试以确保客观性。修改后的ResNet-50模式21,22是应用于实验。修改的通道数量从64年到75年第一个conv内核修改与苗条的模型是一致的。结果表明,模型是最合适的。虽然脂肪模型达到一个优秀的精确率,它糟糕的回忆度规,因此,F1率降低。此外,脂肪模型是耗时的。由于过度拟合,多个参数的模型可能会忽视类别概论的学习,但记忆训练图像。因此,在测试时,结果不可取的。相反,如果模型过于薄或浅,不合格的变化分类任务,也就是说,模型是underfitting。

4.4。数据预处理

预处理是有效预防模型无关的因素在一定程度上的影响。对于大多数识别任务,数据预处理可以增加数据集来提高模型的性能。常见的预处理方法包括翻转、灰度转换、标准化、种植(37)等。然而,对于我们的任务,为不同类别可以中断学习一些预处理方法。改变灰度值的方法不适合亮度变化。考虑到异常目标通常占据一小部分的图片,耕作是不合理的。在本节中,我们首先实现训练和标准化验证它可以导致阻碍学习的亮度变化。然后,我们训练我们的模型与图像水平和垂直翻转,以确认它可以提高准确性。表中列出的结果6

很明显,通过翻转,提高网络的性能,并通过标准化、性能退化了。对标准化的影响进行进一步的探索,我们实现six-category分类实验。从表2可以看到,六个类别的数目是不均匀的,特别是对于马克和异物。我们首先选择350对图像作为测试数据,然后增加的数量标志,异物,运动训练集通过灰度变换和裁剪平衡数据集。正如上面提到的,这些增强方法并不适合所有的场景,它不能用于培训。然而,我们可以增加图像在磁盘和选择理想的。因为提前测试集选择,实验被认为是合理的。

7预测显示,亮度急剧下降的回忆和污渍的回忆从84.00%降低到79.71%。由于亮度差异的减少,模型发现更难分类污点和亮度。根据图6,我们可以发现,标准化后,有更多的亮度的实例预测污渍,以及污渍预测亮度。例如,在图6(一)预测,12.57%的亮度的例子有污点,和9.43%的污点的例子是预测亮度。基于图6 (b)使用标准化后,出错率增加到18%和12.29%。然而,由于亮度差异的减少,网络能更好地学习一些类别,如运动和马克。例如,在混淆矩阵(图6少),马克的例子被归类为染色和亮度。马克的例子被归类为染色或亮度下降了1.14%和1.41%,分别。某些类别可以有针对性的使用标准化方法,但它会导致训练集非均匀分布,并不有利于训练(30.]。因此,在我们的实验中,我们不采用标准化方法。

4.5。Multishape培训

Multishape培训有利于学习从不同的形状变化信息图像。首先,它可以增加数据集。其次,由于被扭曲,背景是变形的,但是改变的信息几乎不受影响。当然,我们应该重塑正确的图像;否则,改变信息也会受到伤害。最后,在测试时,由于处理多个形状的能力,我们可以将图像转换成理想的形状预测。如果高速不是必需的,我们可以推断与各种形状这类投票。此外,如果追求精度,只有当结果与各种形状是一致的预测将最终决定。否则,应提交给检查员来判断。

multishape培训更好地了解,我们实现了控制实验基于苗条模型展示它如何影响网络的性能。Multishape训练可以改善我们的网络的性能。比较实验1和4表8与苗条模型在表5,它可以发现所有分数不同指标的增加。类似于其他数据增强方法,multishape训练可以对小数据集,尤其提高性能的样品是不容易获得的。我们实施额外的实验与理想形状推理二进制和six-category分类数据集。我们一半数量的二进制的数据分类数据集和没有和多尺度训练先后开展实验。从表9可以看出,性能提高了一个相当大的优势。此外,比较数据76(一)率,染色和亮度都错误地预测对方进一步下降。比较的召回six-category分类表9的表7,可以达到相同的结论。此外,它也表明multishape培训适用于所有类别根据增加的所有类别的召回率。

没有更多的形状显示更好的性能。根据实验1,3,4,5,6,尽管(148×442)和(442×148)包括形状,性能几乎没有变化。想象,如果我们继续添加形状(128×512)等一些图像的纵横比4:1将重塑比例1:4。在这种情况下,改变信息可能被破坏,因此呈现这个无用的训练样本。因此,它主要是其他形状,有助于我们网络的更好的性能。

理想形状推理可以帮助提高成绩。在表8,我们预测改变类别使用四个策略:只使用形状(256×256)(1-shape推理);使用最近的预定义的形状采用培训(理想形状推理);使用形状(256×256),(180×360)和(360×180)(3-shape推理);有两个额外的形状和使用5-shape推理:(148×442)和(442×148)。揭示了实验1和2,将原始图像转换为最接近网络识别预定义的形状是有益的变化。

投票可以给预测带来了提振。我们的想法是类似于SPP-net23多视图测试。而不是多视图图像从原始图像裁剪,我们喂养multishape重塑图像从一个测试图像网络来预测其类别。最后,最后的决定是根据多数。从实验1,3,4,5,很明显,投票可以提高考试成绩。

目前,最好的结果是输出的实验8 F1分数达到94.96。根据表7- - - - - -9,它是证明样品继续积累,性能可以进一步提高。

4.6。鲁棒性

为了验证我们的模型的鲁棒性,我们测试了12对图像亮度或旋转的级联模型。结果如图所示8

如图8(一个),有6对图像有不同的光强度。例如,在第一行,3双图像受到强烈的亮度的影响,几乎一半以上的面积覆盖。3对图像的亮度相比,第二行是。我们可以看到,six-pair示例的信心略有不同,得分最高的99.99%和最低分数98.02%。他们都是准确预测亮度。

从人类知识,旋转易于分类为运动异常改变需要检测。以及亮度,在图8 (b),我们选择six-pair旋转的例子不同的旋转角度。从结果,可以发现每图像对非常接近的信心。这表示我们的级联模型具有较强的鲁棒性。

4.7。分析

已经证明了特征提取的不同层次等级(38]。例如,第一层可能提取的基本特征,如边缘。2层响应的角落,深层可能捕获类似材质和更多的职业专用变异。通常,前几层的功能是一致的,这是常见的做法时冻结微调(9,39]。找出我们的网络学习,我们都想象特征图。由于特征提取的深度层过于抽象的理解对我们来说,我们显示四个特征图提取第一层图9。我们可以发现,网络不仅可以提取边缘的基本信息也学会检测(6)列变化。例如,在图9(一个)(R1、C6和R3, C6),组件检测到旋转。至于(R2、C6)和(R4, C6),更改部分分割。在图9 (b)(C6),污渍和亮度变化的位置是强烈的反应。虽然我们直觉地认为,与早期独立的特征提取方法相比,级联模型可能遭受提取两幅图像的基本信息,与困难,从图9级联模型,我们可以看到,可以执行在提取每个图像的特点和检测变化信息。因此,优越的级联模型。

火车的图片内容是复杂的,这使得它不太可能背诵所有情况的网络。然而,大多数的异常目标出现在一些固定的地方,如螺栓,所以它确实有理由怀疑我们的网络学习如何认识到变化。来验证我们的网络不背的组件通常出错但可以识别变化,我们展示四楼的例子是相同的组件的火车在图10。我们可以发现我们的网络有信心,可以做出正确的决定。(R1, C2),即使存在两个螺栓之间的亮度差,网络仍然能够认识到,螺栓松动。证明了网络有优先级,即如果改变和危险的安全同时发生时,网络将法官正确报警。然而,如果危险改变只占一个很小的整体形象的一部分,而安全变化占据多数,比如图所示11,网络不可能评估这是危险的。在图11一眼后,我们可以把它当作一个假警报引发的污渍。但是,如果我们仔细观察,我们会发现一个螺栓松动。我们将进一步研究如何解决这个问题在后续工作。

5。结论

本文提出了一个级联模型和并行实现改变分类。根据实验结果和网络分析,发现,级联模型优越。基于级联模型,实现广泛的实验探索最优设置包括深度、宽度、和预处理方法。这些实验也证明了差异变化分类任务,传统的分类、变化检测等相关工作。此外,一个新颖的培训策略是根据变化分类,即:multishape训练方法。通过实验验证,这种策略可以通过大幅提高性能和适用于所有类别。

虽然我们改变分类适用于高速列车安全检查的任务,也适合其他场景分类的决定不能由一个状态。变更分类也可以视为解决方案与罕见的阳性样本的任务。我们的未来方向是探索如何解决假阴性问题造成的结构性变化占据小地区大图像。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持下由中国国家自然科学基金批准号61771409下的四川和科技项目批准号2019 yj0228。