文摘
目前,中国国家电网公司积累了大量的电力主要设备维护记录。不幸的是,大多数这些导致困难的非结构化数据记录分析和利用它们。自然语言处理技术的出现和深度学习方法为非结构化文本数据提供一个解决方案。提出了一种渐进multitype特征融合模型识别中文命名实体非结构化电力主要设备维护记录。首先,维护记录的文本特征和词分离困难进行了分析,然后7主要实体类别的权力技术术语选择了从非结构化维护记录,和3452年维护记录由这些类别标签,这是所谓的EPE-MR训练数据集。其次,标准测试报告,标准的维护和故障分析报告三种类型的电力主要设备(即主变压器、断路器和隔离开关)用作语料库训练字符嵌入为了获得某些词表示的能力维护记录。之后,进步的多级激进分子特征提取模块旨在获得详细和语义信息,以分层的方式。此外,激进分子特征表示和字符嵌入连接并送往BiLSTM模块提取上下文信息以提高中国实体识别能力。此外,介绍了CRF处理预测标签之间的依赖关系和输出最优预测序列,可以很容易地获得结构化数据的维护记录。最后,比较实验公共数据集同行,中国《人民日报》语料库和实现EPE-MR数据集,分别显示了该方法的有效性。
1。介绍
随着人工智能技术的发展,提取高层结构语义等信息实体、属性和关系从自然语言来解决更高级的任务在各种行业的研究热点1,2]。领域的电力能源,智能电网的要求对相关分析和处理大数据中包含有效信息的电力也不断增加。特别是,它是应对大量的操作和维护生成记录维修过程中各种类型的设备。然而,在现有技术,设备操作和维护记录的管理仅限于电子存储和查询历史数据。很难使用这些数据来做一些有意义的处理实际工作的分析,不能满足智能信息管理和美味的需求管理。主要的挑战是如何识别中文命名实体在非结构化文本的形式维护记录。假设一个可以获得中国命名实体统一结构化文本电力设备的维护记录,可以分析和评估电力操作和维护记录的关键信息(如设备生命周期分析)。最有效的方法之一是构建知识图表。
命名实体识别(尼珥)是一种重要的知识基本步骤图施工,涉及大量感兴趣的场景的信息提取,问答系统,机器翻译(3- - - - - -5]。此外,尼珥是广泛应用于化学领域的(6)、医药(7,8),和军事9]。它的目标是识别一个特定类别的实体从非结构化文本。最初,命名实体识别主要采用基于规则和基于字典的方法10),构造规则模板和字典库由语言学家进行规则匹配的文本。然而,也有一些局限性。首先,这些规则的建设取决于特定的语言,域,和文本样式,而施工过程是复杂和耗时。第二,不同的规则需要构造不同的字段可移植性较差。随后,学者提出statistical-based方法,包括隐马尔科夫模型(HMM),最大熵模型(MEM)、支持向量机(SVM)和条件随机场(CRF) [11- - - - - -14]。然而,这些模型遭受强烈依赖语料库和收敛速度慢。
最近,基于深度学习方法使通过神经网络的端到端命名实体识别,不再依赖手动定义功能(15,16]。最常用的方法是基于字符嵌入,然后输入字符嵌入特性长期短期记忆(LSTM)条件随机场(CRF) [8,17]。然而,这种方法不能代表一个词的多重含义。伯特缓解这个问题的出现和广泛应用于中药18,19),中国成语的建议20.),和中国的情绪分类(21]。另一个缺点是,LSTM不能编码前后颠倒的信息。为了应对这个问题,双向的建议长期短期记忆(BiLSTM) [22)为网络提供了一种方法来捕捉双向语义依赖。此外,汉字的激进分子代表不同的含义,可以提供有用的信息网络,所以这个功能可以被视为包含在网络。图给出了一个例子1。性格”的含义”消失。这是分为两个部分,””和“”。““代表水或河,””是指小。合并这两个激进分子指出水是小,这意味着水消失了或几乎消失了。
基于上述分析,我们提出了一个中文命名实体识别方法基于渐进multitype特征融合(PMTFF)认识到非结构化电力主要设备维修记录。主要贡献如下:(1)我们选择7个主要实体类别的权力技术术语从非结构化维护记录和标签3452非结构化维护记录(EPE-MR数据集)(2)我们采用标准测试报告,标准的维护和故障分析报告的权力主要设备训练伯特模型作为字符嵌入获得言语表达能力(3)我们提出一个进步的激进多层次特征提取模块(PML-RFE)中提取有价值的语义信息
2。数据集的权力主要设备维修记录
权力信息数据库的国家电网的主要设备,设备的基本信息、维修记录,和其他数据存储。这条信息是对设备的管理和维护具有重要意义,判断故障原因,故障区别分析。然而,目前使用手动提取方法是昂贵,效率低下,不利于数据的统计分析。因此,我们建议使用基于深度学习方法进行分析,在大量训练样本是不可或缺的。为了这个目的,我们首先构建EPE-MR数据集的汉语命名实体识别的电力主要设备维修记录。
2.1。分析维修记录文本特点和困难
与一般的中文文本相比,国家电网电力主要设备的数据库包含许多类型的信息,和新实体不断涌现,如损坏位置的设备,制造工厂和用户单位。同时,复杂的故障和维修方法因设备而异,导致广泛的不同的维修记录的文本长度的变化。从现有的数据统计显示,最短的检修记录11的话,最长可到354字。
从收集到的数据和实验,我们得出这样的结论:分词的困难维护记录有以下三点:(我)结构、完整性和文本风格的信息极大的不同是由于不同的维护人的写作习惯。的一个更明显的情况是,一些关键信息略。例如,“(主电压转换器)“略”(主变压器)”,制造了一个障碍,理解维护记录。(2)文本的数字信息依赖于上下文功能实体类别的判断,如电压水平“110 kv,“设备维修时间“2019 - 09 - 0513:46:41”和设备模型”(电容器模型)BAMH2。”(3)对于不同的维修记录,文字描述损坏的部件和设备的维护繁琐的问题内容,复杂的语义,不清楚分割边界。
2.2。数据收集和描述
我们收集和标签的权力主要设备维护记录(EPE-MR)数据集的企业资源规划(ERP)和电力生产管理系统(PMS)湖北国家电网公司。我们使用的标签工具向导标签助理(23],该组织的六名成员一起合作完成注释。在命名实体识别的任务,有两种常用的识别系统:生物和生物。我们采用生物注释标签数据的方法。具体,B(开始)代表一个实体的开始,我(中间)表示一个实体的中间,和O(其他)代表的部分不属于任何类型的实体。在构建数据集,我们定义7个实体在电力领域。具体地说,第一个字符被标记为“B(实体类别),”随后的字符标记为“我(实体类)”,和其他字符不相关领域统一标记为o .我们举个例子在表1。
实体分类现有的维修记录数据不够完整,数据量小,检测精度带来挑战。为了解决这个问题,我们构建EPE-MR数据集,其中包含七个实体类别的权力术语(即。,VoltageLevel, EquipmentName, LineName, TransforSta, DamagePart, RepairCondition, and Time) and involves rich scenarios and a large amount of maintenance data. The entire dataset has a total of 3452 sentences, and we divide them into a training set and a test set at a ratio of 9 to 1. Figure2给句子和实体EPE-MR数据集的例子。
3所示。该方法
该模型的结构如图3。首先,我们代表的激进的特性提出了进步的多级激进(PML-RFE)特征提取模块。然后,字符嵌入和激进的特征表示连接和发送到BiLSTM模块。最后,生成的序列是判断使用CRF模块获得全局最优序列。
3.1。PMTFF模块
3.1.1。字符嵌入
在自然语言处理中,常常使用字符嵌入一个字映射到低维稠密的语义空间,可有效解决传统机器学习方法中的文本特征稀疏问题,这样类似的词在语义空间中有近距离(24,25]。
Pretrained字符嵌入的是有利于提高模型的准确性。然而,据我们所知,没有学者给pretrained字符嵌入中国电力主要设备维修记录。因此,我们使用我们自己的EPE-MR数据集训练字符嵌入。目前,Word2Vec和GPT更常用。然而,这些模型有明显的问题与中国名叫电力设备维护记录。具体来说,Word2Vec嵌入模型是一个静态的词,不能代表一个词的多重含义。GPT是单向语言模型,不能获得一个词的上下文。伯特模型的出现缓解上述问题。它提高了词的语义表示向量通过考虑字符级和字面意思关系特性。与此同时,如果语义知识应用于电力领域的命名实体识别任务,它允许模型更好的我的权力特征信息的记录和短信。 Therefore, we utilize BERT to train Chinese power equipment maintenance records.
3.1.2。进步的根本特性表征
汉字的发展包括两个主要方面。就形式而言,它逐渐改变从图形到中风,象形符号,简单性和复杂性。在人物创建的原则,它经历了一个过程从具象和表意morpho-syntactic。汉字通常解释为包括激进分子和原始的基本部分。自由基能反映汉字的内在含义,可以提供宝贵的语义知识准确识别模型。因此,我们建议提取特征表示的激进分子。
汉字有不同的建筑和广场的形状,这是类似于图像。我们可以利用这些相似之处获取语义知识使用卷积神经网络(CNN)。在这里,我们提出一个进步的多级激进(PML-RFE)特征提取模块。图4的整体示意图显示了激进的特征提取,并给出PML-RFE的具体结构如图5。
不同层次的特征包含不同的信息。低级功能具有丰富的空间结构和深层信息包含有价值的语义线索。充分利用这两种特性可以提供足够的信息网络。然而,如果这两种功能是简单地添加或拼接元素,它将导致冗余的信息,忽略不同级别之间的互补特性。因此,我们提出了进步的注意机制逐渐获得不同级别的功能之间的连接,如图5。
首先,四个不同层次的特征图谱通过CNN。第二,两个相邻特征图谱处理进而得到增强的功能。最后,这个信息是逐渐融合而不是缝合起来。更重要的是,增强注意力机制(AM)获得的特性是我们设计,如图5(a)。具体地说,信息获得的高级功能( )通过全球池和乙状结肠激活函数用作重量指导低级特性( )。然后,加权特性( )合并的高级功能和发送到下一个阶段。方程(1)提出了这个过程的表达。 而全科医生表示全球池,是乙状结肠激活函数,我= (1、2、3)代表3×3卷积,Fr地图是新的特性。
3.2。BiLSTM模块
在尼珥任务中,递归神经网络(RNN)通常是用来处理序列标注问题。然而,传统的RNN不能有效解决序列数据的“远程依赖”的问题(26,27]。通过引入LSTM神经网络,这个问题已经得到了解决。LSTM不仅能获取远程信息但也减轻梯度消失的问题,所以它适用于命名实体识别在电力领域。
图6介绍了LSTM的基本结构,包括忘记门,输入通道和输出通道。长期记忆功能是通过维护和更新网络状态。计算过程中所示 在哪里W是权重矩阵,b是偏差向量,是激活函数,要添加的内容,表示更新状态t,我t,ft,Ot代表输入门口,忘记门,门在时间输出t分别为,ht是输出的时间吗t。
的输出预测LSTM单向和无法处理上下文信息。然而,中国实体的识别能力主要设备维护记录需要判断基于前后的状态信息。
BiLSTM LSTM向前和向后LSTM。图7给BiLSTM框架。执行步骤如下:首先,它计算的输入顺序相反的顺序来获取两个不同隐层表示。然后,最后一个隐层是通过矢量拼接功能表示。通过使用BiLSTM、上下文关系可以提高捕获命名实体识别的准确性。
3.3。CRF模块
考虑到相邻的标签之间的相关性,我们添加一个条件随机场(CRF) [28)推理层BiLSTM网络后获得一个最优的预测序列通过相邻标签之间的关系。CRF算法步骤如下:
假设X= {x1,x2、…xn}是完整的输入向量序列的扩张,预测序列的分数Y= {y1,y2、…yn}所示
而一个是转移得分矩阵,一个ij代表把分数从标签我标签j,矩阵PBiLSTM层的输出,Pij代表的输出分数我下th词jth标签,n代表序列的长度,k代表的数量标签。预测序列的概率Y通过计算 而代表真正的序列和标志Yx是所有可能的标记序列。在培训过程中,正确的标签序列的似然概率最大化,所示
最大的输出序列解码所示后得分
4所示。实验
4.1。数据集和评价指标
我们执行实验自己的权力构造主要设备维护记录(EPE-MR)数据集,同行(29日数据集,中国《人民日报》语料库。(1)EPE-MR是维护记录的数据集我们权力的主要设备。有3452句和7种实体,VoltageLevel, EquipmentName, LineName, TransforSta, DamagePart RepairCondition和时间。据我们所知,这是中国第一个实体识别数据集的主题。(2)中国同行数据集是一个公共数据集实体识别。具体地说,有46364年和4365年句子训练集和测试集,分别。实体类型包括人、组织和位置。(3)中国《人民日报》语料库包含相同类型的实体作为同行。数据集提供了足够的数据信息,与17573年和1718年的句子在训练集和测试集,分别。
在实验中使用的评价指标是精度(P),回忆(R),F1。每个评价指标的计算方法如下: 虽然TP是实体的数量正确分类,FN实体的实体的数量实际上是相关但不认可的模型,和FP的实体的数量实际上是不相关的实体,但法官他们实体模型。
4.2。烧蚀研究
我们使用Python中的PyTorch 3.6.90%实现该模型的数据作为训练集,其余作为测试集。在训练过程中,优化器使用亚当学习速率为0.001。同时,LSTM_dim设置为300,batch_size 32, max_seq_len到300。为了防止过度拟合,辍学被设置为0.5。
我们执行EPE-MR消融分析数据集。表2给出了不同模块的性能分析。F1值的变化对不同模块在测试集呈现在图8。具体来说,F1的方法是88.3%。从综合评价指标F1的角度来看,该方法是14.2%,9.9%,12.1%,8.8%,7.6%,和2.1%高于其他组合。有两个主要原因的成功建议的方法:(i)该方法提高了语义表示通过充分考虑字符级,也能进行,radical-level关系功能;(2)双向结构有助于网络获取上下文信息。
更多的视觉观察,实体识别结果如图9。具体地说,左边的图中显示实体的标签类型,和右边给出了相应的分类结果。可以看出,该方法有很好的词分离效果在电力领域的专业词汇。
4.3。与最先进的方法
评估该方法更全面,我们比较它与董et al。30.],Lattice-LSTM-CRF [31日),曹et al。32],WC-LSTM [33],CNN-BiLSTM-CRF [34在微软数据集,如表所示3。具体来说,Lattice-LSTM-CRF改善了传统LSTM单元网格LSTM然后显式地使用词汇和词序来避免分词的传播错误信息。WC-LSTM使用文字信息来增强语义信息,减少分词错误的影响。上述改进的模型总是呆在性格和词的提取功能,同时不能描述的含义。相比之下,该方法可以很好地解决这个问题。不仅可以学习短语级信息表示还丰富的语义信息特征。
从表可以看出3,F1该方法的值达到96.63%,5.68%,3.45%,5.99%,2.89%,和5.54%高于董et al。30.],Lattice-LSTM-CRF [31日),曹et al。32],WC-LSTM [33],CNN-BiLSTM-CRF [34),分别。每个量化指标的酒吧图表给出了图的不同方法10。总的来说,该方法具有一定的优势。
表4给出了定量的比较Collobert et al。35),赵和尼科尔斯(36),沈et al。37),Lample et al。38),该方法在中国《人民日报》语料库。的F方法1的值达到96.54%。图11描述了不同的条形图定量分析指标模型。从全面的视图的三个评价指标,该方法显示了最佳性能。此外,在实验中,我们发现该模型的性能会降低时遇到错误。
5。结论
在本文中,我们提出了一个中文命名实体识别方法基于渐进multitype特征融合的电力主要设备维护记录。首先,一个数据集的汉语命名实体识别的权力主要设备维护记录收集和标记。然后,得到更符合实际的词向量使用伯特预处理模型。第三,激进的特性表征由PML-RFE提取模块,这些功能是连接字符嵌入和发送到BiLSTM模块。最后,CRF相结合来提高识别效果。实验结果在EPE-MR,同行,中国《人民日报》数据表明,该方法实现卓越的结果与其他现有方法相比。
数据可用性
我们的研究仍处于研究阶段,所以我们不能透露相关信息的数据。
的利益冲突
从作者没有利益冲突。