中文命名实体识别基于Character-Word向量融合

文摘

由于缺乏明确的标记在中文文本定义词的界限,通常更难识别命名实体在中国比在英语。目前,字符或单词向量模型的预处理采用培训的中文命名实体识别模型。针对问题采取的特征向量作为输入神经网络不能使用单词的语义含义和放弃“明确的边界信息,和这个词向量作为神经网络的输入依赖于分割算法的准确性,中文命名实体识别模型基于字符词向量融合CWVF-BiLSTM-CRF(字符词向量Fusion-Bidirectional多空词记忆Networks-Conditional随机领域)提出。首先,Word2Vec用于获得character-character向量和word-word向量的对应的字典。第二,character-word向量作为输入单元的集成BiLSTM(双向多空内存)网络,然后,一个不合理的标签序列的问题是解决使用CRF(条件随机场)。通过提出模型,依赖分词算法的准确性降低,和词的语义特征是有效地应用。实验结果表明,该模型基于character-word向量融合提高中国命名实体的识别效果。

1。介绍

广义上说,命名实体识别(尼珥)的目的是识别文本中的命名实体划分成相应的实体类型。通常,实体类型包括人名、地名、组织名称和日期(1,2]。基本任务在自然语言处理(NLP)、尼珥是广泛应用于知识地图构建、信息提取,机器翻译,公众舆论监控等。3]。在早期的时候,基于规则的方法,主要应用规则模板由语言专家大多采用。这些方法有问题,如高人工成本和可移植性差。现在,研究主要集中在基于概率统计数据和深度学习方法(4]。

尼珥方法基于概率统计和深度学习都需要将文本表示为一个向量。然而,没有明确的标志在中文文本定义边界的话,那么两种预处理方法包括角色基于矢量的方法和基于矢量的方法一词通常用于转换的文本向量。基于矢量的pretraining角色,角色字典是通过学习获得的上下文特征的性格。词典的优点是体积小,没有隐藏的噪声数据。缺点是这个词被切断的边界信息和语义功能隐藏在“丢失”这个词。pretraining的词向量,进行分词,然后生成相应的单词字典。这种方法的问题在于分词错误可能导致错误的命名实体分段,并大字典的维数。优势是保留字边界信息和语义特征。

解决问题用中文命名实体识别基于特征向量或词向量,Chen等人。5改进的词向量的生成。通过联合训练的字符和单词向量,一个汉字的信息介绍了组成一个词,词向量生成的质量改善,但这种方法的前提是进行正确分词,不能解决这个问题,一个汉字在不同的单词有不同的语义。马和Hovy6]使用CNN(卷积神经网络)来提取特征的人物等级,然后把pretrained词向量作为输入的双向递归神经网络。最后,利用条件随机场建立输出标记的依赖。这种方法取得了良好的结果在两个外语评估任务。Lample et al。7]BiLSTM用来提取字符级特性,融合这个词在字典以形成最终的输入向量,向量和BiLSTM CRF模型相结合进行命名实体识别,取得好成绩在英语,德语,西班牙语,和其他测试语料库。马提出的方法和Hovy Lample等人利用这个词命名实体识别向量做外语语料库,在分词的准确性需要不需要考虑,但是中文分词语料库的准确性无法避免。张、杨(8)采用双向复发性网络结构的网格命名实体识别。与命名实体识别模型基于特征向量和向量,这个词模型把重要的词的使用信息,没有分词错误。然而,当用于命名实体识别的模型,它需要输入字符序列之间的动态匹配相应的单词在字典里,这无疑增加了模型的训练时间和复杂性。

为了解决上述问题,提出了一种特征向量的预处理方法,这不仅保证了分词结果不受影响但也合并这个词的特点,和实验模型的基础上结合CRF BiLSTM网络。

我们工作的主要贡献可以概括如下:(1)中国尼珥模型结合character-word向量融合,BiLSTM, CRF提出(2)character-word向量融合是中国命名实体识别的关键,我们提出一个方法来处理向量通过融合特征向量和向量这个词包含的字符

剩下的纸是组织如下。部分2给出了该模型的详细描述。部分3提供了广泛的实验来验证我们的建议的有效性,和部分4总结了这项工作。

2。CWVF-BiLSTM-CRF模型

中文命名实体识别模型的总体结构CWVF-BILSTM-CRF本文构造图所示1。

模型分为三层,即嵌入层字符词向量融合,BiLSTM层,CRF层。转换的输入向量进行嵌入层。的字符和单词注释数据集被pretrained取代character-word向量,和特征向量和向量添加这个词表示的字符形成最终的输入向量。当BiLSTM层接收到当前的输入向量,它提取的上下文特征的当前输入,然后将输出向前LSTM(多空内存)网络和反向LSTM CRF的网络作为输入层。CRF层计算输出在当前时刻根据前一时刻的输出,最后预测单个字符的标签。

2.1。嵌入层

首先,Word2Vec模型用于训练语料库的分布式特征向量和词向量,和相应的词典character-character向量和word-word向量。相应的特征向量和词向量训练数据注释的生物可以阅读字典,然后融合作为模型的输入。为了解决这个问题,不同的角色在不同的单词有不同的含义,本文扩大语料库分词后的长度一样,字符分割后的长度。图2显示了character-word向量融合的一个具体的例子。通过使用占位符处理,这个词语料库分词后的长度转换为字符分割后的长度相同。在培训过程中,相应的向量的单词和字符通过字典,最后融合向量是由添加这个词和特征向量作为模型的输入向量。单词的占位符是用来确保相同的字符在不同的单词有不同的向量,例如,“Ying-de王”和“郭应”代表一个人的名字和英国,分别。由于“应”这两个词有不同的语义,使用特征向量作为表示将忽略这个词的语义信息的角色,而使用这个词向量作为表示将不仅使向量的维数较大的但也导致一个潜在的错误由于分词。因此,character-word向量融合提出了解决上述问题。为了促进这个词向量的融合和特征向量训练期间,单词的信息添加在character-word向量。character-word向量表示为融合后

2.2。BiLSTM层

LSTM [9)是一种变体的递归神经网络(RNN) [10]。它能够选择性地“记忆”前面的特性,同时保留时间序列过程的能力,以解决这个问题,常见的神经网络无法处理长期的信息之前时刻(11]。BiLSTM [12)是由两个LSTM网络在不同时间的方向。通过提取的上下文特征输入单元输入单元的确切含义。BiLSTM网络由两层LSTM网络的方向正序和反向序列。输入序列同时输入两层LSTM网络在特定的时刻。整个时间序列如下:输入序列正序方向。输入方向相反的时间序列。在学习上下文特征的积极和扭转方向,两个方向的LSTM网络不共享。两个LSTM网络在不同方向的输出连接,将进行维度转换的线性层和正常化将通过将Softmax,然后,最终的输出。

2.2.1。向前传播

BiLSTM向前传播的模型是基于一般的深层神经网络,这是计算训练数据的过程由输入层、隐层、输出层,每一层之间的权值。CWVF-BiLSTM-CRF模型图所示1假设输入单元 ,远期隐藏BiLSTM的单位 ,相反的隐藏BiLSTM的单位 ,和输出单元。之间的权重设置为输入单元和隐藏的单元 ,和之间的权重设置为隐藏的单元和输出单元。正向传播过程的具体步骤如下。(1)首先,字符分割和对训练数据进行分词处理,然后,分割后的语料库数据拼接起来,用生物标记。分布向量训练是进行基于character-word融合向量在中国的维基百科。的前提,以特征向量为输入单元,以确保这个角色可以保留它属于这个词的语义信息,信息集成到这个词特征向量。融合向量作为输入模型的(2)输出向前的隐藏单元在当前时刻得到线性变换和非线性变换后的输入在当前时刻和输出前一刻收到BiLSTM向前隐藏单位的。的向后躲单位BiLSTM类似于远期隐藏单元。输出向后隐藏单位的当前时刻得到转换后输入在当前时刻和输出在前面的时刻。输出BiLSTM模型在当前时间是由拼接后将Softmax激活函数的输出向量向前和向后位置隐藏单位的当前时间(3)输出BiLSTM层只代表最高的标记概率的概率分布中所有标签在当前时间,但前一时刻的输出之间的依赖和当前时刻BiLSTM层不考虑。使用CRF层后,扩大根据时间序列可以被看作是一个线性链的一般形式条件随机场。最终的标签序列的预测从给定的随机变量序列可以获得 ,和条件随机场的问题可以解决了利用维特比算法

2.2.2。反向传播

神经网络的训练过程可以分为两个阶段。在第一阶段,模型的预报值可以通过向前传播,在第二阶段,向后传播。反向传播的想法是计算预测值和真实值之间的误差的神经网络使用损失函数。然后,错误将在相反的方向一层一层地转移。梯度下降法是一层一层地用于更新模型参数,最后,模型达到收敛状态。这个模型的反向传播过程如下。

损失函数用于计算预测标记值之间的误差和真正的标记价值的模型,也就是说,CRF层错误,和CRF层过渡矩阵参数更新根据梯度下降法。

落后的隐层BiLSTM层计算,误差和反向隐层的参数更新的梯度下降的方法。远期隐层BiLSTM层计算,误差和远期隐层参数也更新的梯度下降的方法。

2.3。CRF层

每个字符对应的概率标记获得通过将Softmax BiLSTM层的输出函数,但将Softmax函数在每一时刻的输出是相互独立的,没有考虑的顺序标记。应用CRF层后,该模型结合了概率将Softmax计算函数的每个单词对应的标签与标签之间的相互转移概率,而不只是单词的组合对应的最大概率标签在每一个时刻,这使得BiLSTM模型的不足。

3所示。实验分析

3.1。实验方案

根据命名实体识别的任务,两组实验设计。第一个实验是模型参数的优化实验,旨在找到最优参数。第二个实验是基于词的比较模型向量训练,旨在验证的有效性character-word融合向量在命名实体识别。两组实验的详细设计如下。

3.1.1。实验1:模型参数优化实验

当采用相同的算法,神经网络的结构对模型的精度有很大的影响。为了寻找最优结构的命名实体识别模型,这个实验执行优化实验常见参数影响的性能模型。batch_size主要参数在实验中考虑,优化器,隐层节点,和学习速度。根据其他论文的训练经验,模型的初始参数设置如下:Batch_size: 128年,优化器:SGD(随机梯度下降),隐层的节点数:200,和学习速度:0.005。考虑到训练语料库太大,为了避免过度拟合训练过程,辍学设置为0.5,因为在这个值,随机生成的网络结构的数量最大、效果最好的。

3.1.2。实验2:比较与参考模型实验

通过参数调优在实验1中,该模型的最优hyperparameters选择进行训练。此外,为了验证character-word向量融合的有效性,比较实验与参考模型采用词进行矢量数据和模型的前提是相同的,和价值选择的评估标准比较实验。

3.2。预处理的数据集

本文的标注语料库数据1998年《人民日报》采用培训中文命名实体识别模型。在这个语料库,每个单词的词性标注是使用26个基本语言标记,其中注释4类型的名词对命名实体的识别非常重要,也就是说,人的名字nr、地点名称ns、组织名称nt和其他专有名词新西兰。

3.2.1之上。预处理步骤

具体步骤处理《人民日报》语料库的数据如下。(1)只有人类的标签名称、地名,和组织名称在保留原来的语料库,这三个标签与单个汉字注释的格式生物注释,注释后的每一行数据的格式含有小数点相应的标签(2)处理原始的语料库分词,这句话是复制和插入长度相同,扩大语料库作为语料库在步骤(1)(3)处理过的语料库在步骤(1)和步骤(2)被拼接在一起,形成最终的标注语料库。每一行的格式的语料库含有小数点对应词对应的标签(4)最后,步骤(3)中语料库的数据分为训练集,验证集和测试集的比例根据3:1:1

图3显示部分的语料库之前和之后的生物标签人民日报。图中的生物标签(b)是标记字符每一行的开头,和单词之间的性格和生物标签被添加到促进character-word向量的融合在训练。

(一)

(b)

3.2.2。Character-Word向量融合

在数据预处理阶段,原始数据的格式重新贴上含有小数点对应词对应的标签,人物的训练向量和这个词向量进行生成字典character-character向量和word-word向量。

中文命名实体识别模型的训练方法基于character-word向量融合基本上是一样的,根据特征向量和词向量。唯一的区别是训练模型的输入向量的向量相结合的特征向量和向量这个词。从本质上说,本文的训练是进行基于特征向量,但是这个词的字符特征向量融合。通过这种方式,分词结果的影响不需要被考虑。此外,特征向量集的相关特征对应的词,这为解决这个问题提供了一个保证单个汉字很难体现一词的语义信息。

3.3。实验结果和分析

3.3.1。评价指标

为了验证该模型的精度,回忆,和选择分数作为评价指标。

首先,预测值与实际值之间的关系如表所示1,在那里代表了正确的预测,表示错误的预测,代表积极的例子,代表了负面的例子。TP是正面例子正确预测,正确预测TN是负的例子,FP是错误地预测为正面例子,FN和负面例子错误地预测。


预测	积极的	负
实际

真正的	TP	TN
假	《外交政策》	FN

正面例子之间的精度比正确地预测和预测看作是积极的例子,和它的计算公式是显示为

回忆是正面例子正确预测之间的比例和实际的正面例子,显示为计算公式

精度和回忆之间的关系是成反比,因此他们不能反映整体情况。因此,价值是全面的基础上计算精度和召回,及其计算公式显示为

3.3.2。结果和分析

(1)实验1:模型参数优化实验。根据实验设计1,参数影响模型的性能调优。数据4- - - - - -7分别显示的变化趋势价值batch_size价值时,优化器类型,隐层节点的数量,和学习速率调整。在实验期间,上一轮的参数选择的这一轮的调优参数。根据不断变化的趋势价值,batch_size值,优化器,隐层节点的数量,和学习速率终于决定32岁的亚当,200和0.001,分别。

(2)实验2:与模型相比,基于词向量训练。通过设置以上参数,最后的精度,回忆,和价值模型的92.73%、91.77%和92.25%,分别。表2显示了不同类型的标签的详细结果。


类型	精度	回忆

的名字	93.75%	93.35%	93.55%
的地方	93.22%	92.07%	92.64%
机构	91.02%	85.34%	88.09%
所有的标签	92.73%	91.77%	92.25%

结论基于特征向量的模型比基于这个词向量被来自文献[13,14]。为了验证的有效性character-word向量融合,我们将该模型与BILSTM-CRF模型基于特征向量,也在《人民日报》语料库训练,和使用相同的参数的前提;的该模型的价值为92.25%,高于0.71%的模型进行比较。实验结果如表所示3。


模型类型	矢量模型

BiLSTM-CRF	特征向量	91.54%
BiLSTM-CRF	Character-word向量融合	92.25%

4所示。结论

针对问题,传统的词向量表示不能充分代表语义特征,基于character-word CWVF-BILSTM-CRF模型向量融合提出了开展中国命名实体识别。模型的特征向量结合向量信息作为输入单位来补充这个词的语义特征和获得标签序列根据上下文通过BiLSTM层。最后,BiLSTM的输出作为输入的CRF层,它很好地利用预测BiLSTM的输出层的标签信息。实验结果证明,与角色基于矢量的BILSTM-CRF方法相比,提出的character-word向量融合是有效的为中国命名实体识别任务的价值达到92.25%。在未来的工作中,分词的准确性可以进一步考虑和改进,以更准确的信息添加到character-word向量。

数据可用性

1998年人民日报的数据用于支持这项研究的结果已经存入计算语言学的重点实验室(北京大学)教育部,中国,和URLhttps://klcl.pku.edu.cn/gxzy/231686.htm。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持关键的西安科技项目(批准号Z20180253)和西安科技创新领先的项目(批准号Z20180260)。

引用

s . d .陈和x y欧阳,“命名实体识别技术的概述,无线电通信技术,46卷,不。3、251 - 260年,2020页。视图:谷歌学术搜索
方s . c .叮,z, n .王”业务领域基于BiLSTM-CRF命名实体识别,”现代情报,40卷,不。3、103 - 110年,2020页。视图:谷歌学术搜索
n . Li h . m .关·杨和w . y .咚,”中国基于BERT-IDCNN-CRF命名实体识别方法山东大学学报(自然科学版),55卷,不。1,第109 - 102页,2020。视图:谷歌学术搜索
l . Liu和d . b . Wang“回顾命名实体识别,”《中国社会科学和技术信息,37卷,不。3、329 - 340年,2018页。视图:谷歌学术搜索
陈x x, l .徐z . y . Liu m . s .太阳,和h . b .烹调的菜肴,“字符和单词嵌入的共同学习,”《人工智能国际会议德州奥斯汀,页1236 - 1242年,美国2015年1月。视图:谷歌学术搜索
马x和e . Hovy“端到端通过双向LSTM-CNNs-CRF序列标签,”协会学报》第54届计算语言学(卷1:长论文),页1064 - 1074年,柏林,德国,2016年8月。视图:出版商的网站|谷歌学术搜索
g . Lample m . Ballesteros萨勃拉曼尼亚,k .川上和c·代尔”命名实体识别,神经架构”学报2016年大会北美的计算语言学协会章:人类语言技术,页260 - 270,圣地亚哥,加利福尼亚,2016年6月。视图:出版商的网站|谷歌学术搜索
y和j·杨,“中国使用点阵LSTM尼珥,”《第56计算语言学协会年会(卷1:长论文)澳大利亚墨尔本,页1554 - 1564,,2018年7月。视图:出版商的网站|谷歌学术搜索
s .萨钦a . Tripathi n . Mahajan s Aggarwal和p . Nagrath“情绪分析递归神经网络,封闭的”SN计算机科学,1卷,不。2、第74条,2020年。视图:出版商的网站|谷歌学术搜索
k·d·传统y, i s Altingovde et al .,”神经信息检索:在初期,“信息检索期刊,21卷,不。2 - 3、111 - 182年,2018页。视图:出版商的网站|谷歌学术搜索
l .刘和d . b .王”,命名实体识别、调查”《中国社会科学和技术信息,3卷,第340 - 329页,2018年。视图:谷歌学术搜索
吴x h . l . Chen t·t·魏和t . t .粉丝,“中国短的文本情感分析基于self-attention Bi-LSTM,”《中文信息处理,33卷,不。6,100 - 107年,2019页。视图:谷歌学术搜索
z刘、朱c和t .赵”中文命名实体识别与一个序列标签的方法:基于字符,或基于单词吗?“在先进的智能计算理论和应用。用方面的人工智能施普林格,页634 - 640年,2010年。视图:出版商的网站|谷歌学术搜索
y, y, w•格瓦拉t . Liu和f . Wu”域适应CRF-based中文分词使用免费的注释,”学报2014年会议上实证方法在自然语言处理(EMNLP)874年,页864 -多哈,卡塔尔,2014年10月。视图:出版商的网站|谷歌学术搜索

无线通信和移动计算

在2020年Cloud-Aware移动雾计算最新进展

文摘