研究多级分类基于文本挖掘的高速铁路信号设备故障

文摘

摘要高速铁路信号设备故障的多级分类模型提出了基于文本挖掘技术为数据的高速铁路信号故障。提出了一种改进的特征表示方法TF-IDF提取故障的特征信号设备的文本数据。在多级分类模型中,单层分类模型设计了基于叠加综合学习的想法;BiGRU和递归神经网络的BiLSTM被用作初级学习者,和重量组合计算方法是为中等学习者,和k倍交叉验证用于火车叠加模型。多任务合作投票决策树是为了正确的会员关系每一层的分类结果。十年的信号开关机故障数据的高速铁路用于实验分析;实验表明,多级分类模型可以有效地提高信号设备故障分类的多级分类任务评价指标,可以确保从属关系的分类结果的正确性。

1。介绍

高速铁路信号设备是一项重要的基础设施,以确保高速铁路的安全操作(1]。高速铁路运营里程积累,大量的故障信号设备产生的数据。大部分的这些错误数据存储在非结构化文本的形式。这对高速铁路的安全数据包含重要的信息。很长一段时间,业务人员进行故障设备的数据根据经验诊断和分类,因为有许多不同类型的信号设备和设备故障在高速铁路不同的原则,和设备之间的从属关系和故障原因是严格;开展深入的故障数据分析高速铁路的多级分类错误数据是必需的,而手动多级分类工作是容易导致分类不准确。在智能铁路和铁路建设的大数据,迫在眉睫的是基于文本挖掘的研究机器学习算法实现高速铁路信号故障设备的多级分类。

多级分类方法包括自上而下的分类、全球分类,收缩分类(2,3]。高速铁路信号设备故障多级分类“分而治之”的策略适用于自顶向下的分类方法,分解的大规模故障设备多级分类问题转化为一个单级分类问题,得到每一层的分类结果通过一个单一层次分类模型的设计,最后收集和子公司所有级别的分类结果通过投票的多任务协作战略决策树校正实现多级分类的信号故障设备。

单层分类模型是一个典型的文本分类模型。一般来说,特征向量提取方法如弓(袋)4),TF-IDF(术语frequency-inverse文档频率)5)、TM(主题模型)和Word2Vec [6)基于深度学习用于量化文本数据。基于文本特征向量,机器学习模型是用来学习和分类的文本功能。机器学习的文本分类模型包括一个分类器,集成学习分类器,深度学习模型。单一分类器模型包括DT(决策树),SVM(支持向量机)和NBC(朴素贝叶斯分类器)。集成分类器改进通过组合多个单一分类器的分类性能,主要包括装袋和提高。集成分类器的基础上叠加的想法(7)提高了分类和泛化性能叠加不同类型的单分类器。深度学习的两个最常见的模型分类模型RNN(递归神经网络)8和CNN(卷积神经网络)9),以及BiGRU(双向封闭的复发性单元)(10)和BiLSTM(双向长短期记忆)11]。

摘要高速铁路信号设备的多级故障分类模型设计了基于特征提取的研究方法和单层铁路安全的文本分类模型。首先,根据高速铁路信号设备的故障数据的特征,提出一种改进的基于TF-IDF特征提取方法。为了避免过度拟合的问题引起的一个分类器,k倍交叉验证+叠加分类模型是用于实现单层分类模型。叠加模型,重量分配机制,将整个类别体重中等学习者,提出改善单层模型的分类性能。基于铆合模型、任务不同级别分类,和一个多任务合作旨在纠正成员关系的投票决策树分类结果不同的水平和提高分类性能的多级分类模型。最后,实验的信号设备故障数据进行高速铁路从2009年到2018年来验证多级分类模型的有效性和正确性。

2。高速铁路信号故障文本特征提取

高速铁路信号设备的故障数据来自铁路牵引供电管理信息系统(工作)。故障的故障数据记录的详细信息以结构化的形式。故障的原因信息存储在自然语言文本的形式。基于文本数据的分析高速铁路故障原因,本文将故障原因和部位。字符长度最长的故障记录的数据集是100。2596故障情况下选择,如表所示1。


序列号	通信信号	原因分析	故障定位	的失败原因

1	信号	故障排除:为J3 6号投票率的隐患	粘贴检验器	成员调整
2	信号	276 # 1开关安全接触是一个开放的电路,它是调整后恢复	开关机	其他
3	信号	13 #:开关J3反转位置,和冰形成的钩头和锁紧杆头(开关类型:S700 K)	外部锁和安装设备	自然灾害
4	信号	147 # x1反转位置检查是错误的,它将取代以下要点后恢复	密切配合检查	联络小组
5	信号	第一(1/42,S700 K)开关点1滑动底板被冰了	外部锁和安装设备	自然灾害

文本数据的高速铁路信号设备故障原因分析与特性,比如一个开关包含关键词,红光波段和贴纸。TF-IDF用于提取故障的特征文本数据(12]。TF-IDF方法的原则是,如果一个词更频繁地出现在样本和样本少的词全文文件,这意味着这个词影响样本识别更高,具有良好的区分能力。由于大量高速铁路信号设备的故障文件,但每个错误文档是一个简短的文本,TF-IDF方法直接用于提取特征,很容易导致冗余和稀疏的特征向量和缺乏特异性的数据,所以本文提高高速铁路信号设备故障的特征提取方法数据基于TF-IDF方法。

改进TF-IDF高速铁路信号设备故障文本数据特征提取方法如图1。首先,中国应该分割文本内容。摘要Jieba基于专业语料库分词工具和常用语料库是段信号故障文本(13),辅助词如“德”,“勒”,和其他的单词不能代表文档特性是清理干净,然后,TF-IDF是用来计算词汇的重量将形成一个词汇权重矩阵,并计算每个词汇的数量形成一个词汇词典。TF-IDF权重矩阵是文档的数量和所有文档的词汇,所以它有一个大的维度。TF-IDF权重矩阵有一个严重的稀疏。根据TF-IDF价值,这句话在每个样本排序,让单词重复,选择最多的前100个单词样本特性,降低特征向量的维数,更换相应的词的词频ID,形成特征字典矩阵,输入的文本特征向量后,每个级别的标签在一个炎热的编码到文本分类模型。

3所示。单层的文本分类模型基于叠加信号设备故障

高速铁路信号设备的故障文本特征数据集分为训练集,验证集和测试集输入到堆积单层分类模型。基于高速铁路信号设备的故障单层文本分类叠加的基础上,通过使用循环神经网络BiGRU和BiLSTM第一个学习设备的堆放和使用这两种神经网络的预测结果作为功能训练加权二次学习设备相结合,预测结果的主要学习设备集成通过二级学习设备。避免过度拟合问题造成的模型训练训练集和训练多个单层分类模型的目的,实现生产多个预测结果相同的测试集,k采用倍交叉验证方法,如图2。

3.1。BiLSTM原理和BiGRU初级学习者

随着神经网络层的深入,“梯度消失”现象更加严重。为了克服梯度消失,实现深度学习的神经网络,形成(深层神经网络)款。潜在的问题是参数的数量的扩张。所以卷积神经网络形成CNN。CNN中所有神经元连接上下两层用“卷积内核”作为中介。然而,它是不可能的变化时间序列模型。为了满足这种需求,递归神经网络(RNN)出现。RNN是一种神经网络处理序列信息。因为它既存和postdependent结构,RNN已广泛应用于自然语言的应用。RNN的特殊性在于其输出在时间 ,这不仅取决于输入层 ,但也取决于输出之前的节点。它的学习过程是一个预测下一个单词的过程,等 , ,和 ,这是一个输入“开关定位。“然后,和对应于“定位”和“不”这两个项目,下次预测最可能是什么。通过训练信号故障语料库,是最有可能被“代表”。代表隐藏层时的状态 , 代表输入时间 , 代表输出时间 ,和代表了内存单位时间的线性参数矩阵 , 模型。如图3,它的学习过程是一个预测下一个单词的过程。

如果序列太长,RNN将导致梯度耗散。LSTM可以解决这个问题通过学习依靠信息很长时间了。LSTM RNN的变种。LSTM和格勒乌使信息有选择地影响每一刻的状态在RNN门结构设计。“门”的结构是一个操作,使用逐位进行乙状结肠和乘法。这两个操作的组合是一个“门”结构。由于乙状结肠的输出是一个值在0和1之间,选择和忘记是有帮助的信息。0意味着抛弃所有的信息,和1意味着保留的所有信息。一般来说,乙状结肠函数选为激活函数和双曲正切(z)函数和输出函数。

LSTM分为三个大门,输入门,忘记门,和输出门,如图3。LSTM依赖于数量的“大门”,使信息有选择地影响RNN的状态。忘记门决定丢弃信息,输入门由两层组成。首先,乙状结肠层用作输入层确定要更新的值。然后,双曲正切(z)层生成一个新的向量进入细胞状态取代了新的输入信息的信息被遗忘。最后,乙状结肠层决定了哪些细胞状态需要输出在输出层 :

格勒乌是用来改变忘记门,输入,输出门LSTM更新和复位登机口,结合单位状态和输出到一个状态,如图3:

在经典的递归神经网络,由前往后状态是单向的传播。在一些问题,当前时间的输出不仅与之前的状态,还与随后的状态。这时,BiRNN递归神经网络(双向)需要解决这样的问题。双向RNN认为上述资料和以下信息的预测词和保留重要的信息从前面到后面,从后面到前面,可以更有效地预测。BiRNN由两个RNNs叠加在一起。的输出是由美国两个RNNs。通过替换RNN BiRNN LSTM或格勒乌结构,BiGRU BiLSTM形成。

3.2。原理,结合加权二次学习者

结合加权二次学习者不仅考虑神经网络的整体学习能力还考虑神经网络的性能在不同的类别。根据单个神经网络的学习结果在同一输入,单个神经网络的权重分配。精度越高,神经网络的权重就越大。该方法可以有效地抑制一些值和极端值的影响神经网络的学习过程。神经网络在每个类别的重量计算根据公式(4)和(5)。神经网络在一个类别的重量计算通过计算错误的对数比例分类神经网络的一个类别。更好的性能、更小的重量比例错误。当错误比例超过0.5,重量计算为0。最后,根据公式(6),整个神经网络的权重和类别的重量,和模型的预测价值标签重新计算:

在上面的公式中,代表的预测误差比率th神经网络th标签,代表的重量th神经网络th标签,代表的重量值th神经网络作为一个整体。

3.3。叠加单层分类模型

在叠加模型中,两个神经网络用作初级学习者。在数据预处理层、性格特征向量是降低维度,然后转化为嵌入,即输入两个双向神经网络BiGRU BiLSTM,分别。学习后,两个神经网络输出的预测概率分类标签将Softmax层,分别通过重量分类器相结合。预测结果的两个主要学习者综合计算,最后,输入数据的分类叠加模型输出,如图4。

4所示。多任务的原则合作基于决策树的投票

后k倍交叉学习,叠加模型生成k单层分类模型和测试数据使用k倍交叉学习生成k预测的结果。相同数据的不同的预测结果,二级及以上预测结果从属。多任务协作投票决策树的目的是进一步提高叠加模型的准确性和最终预测的可靠性。

决策树主要用于分类和回归的任务。通过ID3、C4.5和C5.0算法,训练决策树并进行适当的修剪操作;然后,它可以有效地对未知数据进行分类。根据不同级别之间的从属关系的信号故障,介绍了多任务的想法合作投票;后k倍交叉验证,k模式对相同的数据产生多个预测结果投票,采用不同级别的投票策略。由决策树表示,多任务合作投票决策树组成。如图5根据投票,多任务数据重新分类决策树。

本文设计了三级投票决策树,可以扩展根据第三级投票原则。3层的层次关系字典。后k倍交叉验证,每个预测任务在每一层预测结果,表示为 , 的价值 , 为支持多任务 , 意味着投票结果包括{0:有效,1:抛弃,2:所有成员放弃了}, 剩余投票,即。、任务删除选中的成员在过去的选举和投票结果再次,显示会员的投票结果之间的关系并设置d .因为这关系是明确的,它将被描述的两个值0和1;0表示会员和1表明nonmembership。方法随机选择从一个子集D预测结果,投票决策树三层多任务如图5。

5。实验验证和结果分析

本文的10年数据开关设备在高速铁路信号基础设备从2009年到2018年用于验证,其中70%是训练集样本,验证集样本20%,10%是测试样本集。数据包括64类别的一流的标签和类别的二等标签。的综合评价模型F1值是由精度和召回。

的精度计算公式

召回的计算公式

的F分数的计算公式是在哪里是所有样品的总数,所有类别的总数,正确的样本数量分为这一类,正确的样本数量确定不是这一类,是误分为这一类样本的数量,然后呢是属于这个类别的样本的数量但误分为另一个类别去了。

5.1。单层故障文本分类的实验分析信号开关机的基础上叠加模型

5.1.1。BiGRU和BiLSTM的整体重量分布

的整体重量BiGRU BiLSTM是根据学习结果相同的单个神经网络的特征向量。摘要BiGRU和BiLSTM被设计成具有相同的网络参数。k倍交叉验证设置k= 5,神经网络迭代轮的数量是50,256年网络输入批量大小,嵌入层尺寸是100,和隐藏层尺寸是512。的损失函数值BiGRU和BiLSTM中小学培训流程如图6,从中可以看出迭代轮的数量是30 - 50之间,损失和损失函数值是接近最低,在很大程度上是稳定的。与BiLSTM相比,BiGRU较小的损失函数和更好的分类性能,和第二个分类变量低于主分类损失函数。随着k值的增加,损失值逐渐降低,趋于稳定在每一次迭代。常用的k值是3、5、6、10、等等,如图6,当k= 5,损失价值往往是一致的k= 4,所以k= 5是选择避免过度学习的发生和underlearning状态。

(一)

(b)

(c)

(d)

后k= 5次的训练,平均每个训练的结果,得到两个神经网络的训练结果,如表所示2。


方法	水平	精度	回忆	F1值

BiGRU	一级分类	0.8745	0.8579	0.8661
BiGRU	第二级分类	0.7456	0.6809	0.7117

BiLSTM	一级分类	0.8671	0.8368	0.8517
BiLSTM	第二级分类	0.6713	0.6025	0.6350

从表可以看出2相同的参数下,两个神经网络,每个评价指标BiGRU高于BiLSTM,和更高的整体重量。

5.1.2中。重量计算BiGRU和BiLSTM类别

每个类别的数量和重量在高速铁路信号设备故障的主要分类如表所示3。由于大量的二级类别,考虑文章的长度,只有分析结果的类别主要类别列出的重量。从表3可以看到,它的故障数据粘贴检验器,外部锁和安装设备,开关机。数据库时小和错误的数量略大,类别重量很小。相反,当支持设备和不明原因故障的数量很大,网络学习效果好和类别的重量也大。


类别	分类网络	分类错误数/类别总数		类别的重量

开关机	BiGRU	5/28	0.1786	1.5259
开关机	BiLSTM	8/28	0.2857	0.9164

外部锁和安装设备	BiGRU	7/13	0.5386	0
外部锁和安装设备	BiLSTM	8/13	0.6154	0

粘贴检验器	BiGRU	2/3	0.6667	0
粘贴检验器	BiLSTM	1/3	0.3333	0.6933

开关控制电路设备	BiGRU	23/66	0.3485	0.6256
开关控制电路设备	BiLSTM	27/66	0.4091	0.3679

维护设备	BiGRU	24/100	0.2400	1.1527
维护设备	BiLSTM	31/100	0.3100	0.8001

支持设备	BiGRU	193/1038	0.1859	1.4769
支持设备	BiLSTM	216/1038	0.2081	1.3364

原因不明	BiGRU	87/436	0.1995	1.3894
原因不明	BiLSTM	93/436	0.2133	1.3051

通过以上实验,每个类别的重量的神经网络。在不同的整体重量分配,一级故障分类和评价指标的二级断层深度学习集成模型的分类如图所示7。从图可以看出,当BiGRU的重量是0.7,BiLSTM的重量是0.3,深度学习集成模型的评价指标是最高的。

(一)

(b)

5.1.3。叠加模型分类

通过验算两个网络的输出与权重相结合,常见的分类预测结果。最终的分类结果如表所示4。可以看出,每个分类评价指标的价值已得到改进。实验表明,叠加单层分类模型是一个模型,该模型可以有效地提高高速铁路信号设备的故障文本分类索引。


方法	水平	精度	回忆	F1值

叠加单层分类模型	一级分类	0.8814	0.8642	0.8727
叠加单层分类模型	第二级分类	0.7691	0.6747	0.7188

5.2。实验分析的基于决策树的投票机制

后交叉验证,叠加模型有5个分类模型在每个级别,和5分类结果相同的测试数据集的生成。基于多任务协作投票决策树设计,投票结果在每个水平如表所示5。第一级没有从属关系,和它的选票都是有效的;第二级有效选票占多数,无效的选票,选票也大。这也是低的主要原因二级分类的准确性。


水平	有效的票	无效的票	票弃

一级分类	345年	0	0
第二级分类	197年	125年	23

后通过投票结果的分类指标,结果如表所示6。从表可以看出6分类索引的多任务协作投票后改善与叠加模型的分类索引相比,尤其是二级分类的改进范围更加明显。


方法	水平	精度	回忆	F1值

叠加+多任务合作投票决策树	一级分类	0.8924	0.8561	0.8738
叠加+多任务合作投票决策树	第二级分类	0.8152	0.7446	0.7783

为了得到更全面的神经网络在不同类别的分类,信号开关设备的故障样本数据所代表的TF-IDF特征向量输入到射频(随机森林)和GBDT(梯度提高决策树)的实验。射频代表装袋算法。GBDT是增加的代表算法。30%的样本用于评估和基分类器的数目设置为50。最后的实验结果如表所示7。从表中可以看出,深度学习集成模型的评价指标设计摘要显然高于成熟的集成学习算法、射频和GBDT。


方法	水平	精度	回忆	F1值

射频	一级分类	0.8516	0.8419	0.8467
射频	第二级分类	0.7526	0.7012	0.7568

GBDT	一级分类	0.8598	0.8316	0.8455
GBDT	第二级分类	0.7614	0.7278	0.7545

叠加+多任务合作投票决策树	一级分类	0.8924	0.8561	0.8738
叠加+多任务合作投票决策树	第二级分类	0.8152	0.7446	0.7783

5.3。实施总结

根据上述实验分析,每个模型的分类指标的平均值计算相应的各级评价指标。性能分析实验,对于BiGRU模型,BiLSTM模型,叠加模型,并行BiGRU BiLSTM模型。每个模型的分类性能图所示8。

从图8,可以看出叠加模型本文设计有效地提高了分类指数的每一层,解决了分类结果的从属基于多任务机制合作投票,并提高了整体的叠加模型的分类性能。实验表明,叠加模型提出了基于文本挖掘技术优势的叠加模型在解决高速信号设备的多级分类问题。

6。结论

文本数据的高速铁路设备故障是重要的数据对矿业高速铁路运行安全状态和安全的法律。有必要实现高速铁路设备故障数据的多级分类基于文本挖掘技术。本文设计了一种多级分类模型的高速铁路信号设备故障文本数据解决所有级别的会员关系分类,有效地提高分类评价指标。摘要k倍交叉验证单层分类模型的基础上,叠加思想保证了算法的区别,初级学习者的多样性,有效地降低了分类的风险过度拟合,并改善了分类指数与单一神经网络分类器相比,和多任务合作投票机制确保会员分类结果的关系。堆积的单一分类模型和多级分类模型本文在铁路文本分类的参考价值。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家重点研发项目(没有。2020 yff0304100),中国铁路研究所的重点工程集团有限公司(2019 yj115),科研项目中国铁道科学研究院有限公司(2052 dz1201)和国家科学基金会中国青年科学家(51707128)。

引用

y林,高速铁路信号技术,中国铁道出版社,北京,2016。
l . y .贾,他W.-H。汉族,s . Tan, Z.-K。陈,“大规模等级分类问题的研究和发展,“中国电脑杂志,35卷,不。10日,2101 - 2115年,2012页。视图:出版商的网站|谷歌学术搜索
b李”,扩大训练数据集和类层次结构层次文本分类,“Acta Scientiarum生物数学学报,51卷,不。02年,357 - 366年,2015页。视图:谷歌学术搜索
s c·h·l . Wu海下,n . Yu”Semantics-Preserving bag-of-words模型和应用程序,”IEEE图像处理,19卷,不。7,1908 - 1920年,2010页。视图:谷歌学术搜索
c .翟和j·拉弗蒂平滑方法对语言模型的研究应用于信息检索,“Acm交易信息系统,22卷,不。2、179 - 214年,2004页。视图:出版商的网站|谷歌学术搜索
p·d·特尼和p . Pantel”,从频率的意义:向量空间模型的语义,“人工智能研究杂志》上,37卷,不。1,第188 - 141页,2010。视图:出版商的网站|谷歌学术搜索
张x, z . Wang和l .梁“卷积神经网络的叠加算法,”计算机工程,44卷,不。4、243 - 247年,2018页。视图:谷歌学术搜索
江f . c . Wang, h·杨,“混合文本框架建模与卷积RNN”二十三ACM SIGKDD国际会议加拿大哈利法克斯,ACM, 2017年8月。视图:谷歌学术搜索
l .依道,r .,22和t . Jaakkola”文本成型cnn:非线性、非连续分布的”印第安纳大学数学杂志,卷。58岁的没有。3、1151 - 1186年,2015页。视图:谷歌学术搜索
y . w . Wang太阳、问:气和w·姚”文本情感分类模型基于BiGRU-Attention神经网络[J / OL],”计算机应用研究,10卷,09-27,2019页。视图:谷歌学术搜索
m .任和g·甘”,情绪分析基于双向长期短期记忆的文本模式,”计算机工程与设计,39卷,不。07年,272 - 276年,2018页。视图:谷歌学术搜索
李x l . Shitianyun p .李et al .,“智能铁路安全隐患分类进化系综分类器的基础上,“交通信息与安全》杂志上,37卷,不。02年,33-39,2019页。视图:谷歌学术搜索
r·l·杨,p . Li雪et al .,“智能铁路信号设备的故障分类基于文本数据挖掘、不平衡”中国铁道学会杂志》上,40卷,不。2,59 - 66年,2018页。视图:出版商的网站|谷歌学术搜索

电气和计算机工程杂志》上

文摘