外来词识别研究近年来缓解数据稀疏一些自然语言处理(NLP)任务,如机器翻译、跨语言信息检索等等。然而,最近的研究对这个话题通常把努力放在张来武语言(如汉语、英语,和俄罗斯);资源缺乏语言,维吾尔族、蒙古族等,由于资源的限制和缺乏注释数据,外来词对这些语言往往有较低的性能鉴定。要解决这个问题,我们首先提出一个词法基于数据扩增方法生成训练数据资源缺乏语言外来词识别;然后,外来词识别模型介绍了基于对数线性RNN提高资源缺乏的性能外来词识别通过合并等特性也能进行嵌入,字符级嵌入,发音相似,和词性(POS)成一个模型。实验结果在外来词识别维吾尔族(在本研究中,我们主要关注阿拉伯语,汉语,俄语,和土耳其外来词在维吾尔族)表明,我们建议的方法达到最佳性能与几个强大的基线系统相比。
双语数据起着非常重要的作用在跨语言自然语言处理(NLP)任务,如跨语言文本分类、跨语言信息检索,机器翻译和神经。然而,双语数据往往很难获得。词法借款发生在几乎所有的语言;图
外来词在Uyghur2的例子。
外来词识别的任务发现外来词的特定语言(供体语言)在另一种语言文本(收据语言)。大约有三种外来语识别方法:(1)基于规则的方法;(2)statistical-based方法;和(3)基于深度学习方法。早期研究外来词识别通常基于规则。例如,麦考伊和弗兰克(
作为一个常用的方法来缓解数据稀疏,数据增强在这一主题中最受欢迎的方法。例如,刘等人。
调查后,我们发现有两个重要的线索在外来词标识:语义相似性和发音相似。这两个功能合并到一个特征,我们提出将语义相似度,也能进行功能和发音相似字符级特性。然后,我们融合成一个功能这两个特性。同时,我们结合融合特性,发音功能,和POS特性为对数线性RNN在外来词识别实现最佳的性能。
本研究的主要贡献如下:
首先,词汇提出了基于数据扩增方法生成更多的外来词训练数据识别的任务。
第二,我们将多层次特征,发音相似的功能,和POS特性为对数线性RNN模型来提高性能的外来词为资源缺乏语言识别模型。
第三,我们进行一个实验外来词(阿拉伯文、中文、俄文和土耳其)识别维吾尔族;实验结果表明,我们提出的模型达到最佳性能与几个强大的基线系统相比。
本文的其余部分组织如下。部分
在本节中,我们提出一些与我们的研究相关工作。
词法借款已经收到了在自然语言处理领域相对较少的关注。Tsvetkov和代尔(
数据增加NLP的主要目标是生成另外,使用的数据合成数据缓解数据稀疏模型训练(
有两种主要类型的序列标签在NLP中的方法,基于如梯度方法和基于搜索的方法(
在以前的研究中,大量的注释数据用于训练外来词识别模型。他们对待外来词检测作为一个序列标签问题。然而,外来词的注释数据识别很难获得。所以,本研究的贡献之一是数据增加外来词识别。我们建议使用一个词汇约束GAN外来词识别模型训练产生更多的句子。本文的另一个贡献是几个功能的组合外来词识别模型;我们介绍三个特性,比如嵌入融合特性(单词级别和字符),发音相似的功能,和POS特性。
我们的方法包括两个部分:
数据增加外来词识别。
对数线性RNN-based外来词识别模型。
产生更多的外来词识别训练数据,我们提出一个词法约束GAN-based数据增强模型。最近外来词的方法识别经常训练的特性,比如发音相似,POS相似,等等。然而,这些方法通常遭受数据稀疏或缺乏语义知识。要克服这一点,我们引入一个对数线性RNN-based外来词识别模型相结合,也能进行字符级别嵌入融合特性,发音相似,和POS特性来预测阿拉伯语、汉语、俄语,和土耳其在维吾尔语外来词。外来语的主要理念识别资源缺乏语言如下:我们首先使用数据扩充模型来生成更多的外来词训练数据识别维吾尔族;然后,等几个功能词和字符级嵌入特性,发音相似,和POS特性提出了建立多个特性fusion-based外来词(图识别模型
我们提出的框架模型。
最近的研究对外来词识别任务经常受到限制的培训数据。在这项研究中,我们建议使用一个词汇约束GAN外来词产生更多的注释数据识别的任务。增甘为一个扩展的传统,我们的数据模型还包括两个主要部分:一台发电机和一个鉴别器。所不同的是,我们使用两个发电机和一个鉴别器来构建资源缺乏的数据扩充模型外来词识别。我们介绍的细节在本节提出的模型。
我们遵循的工作
我们可以定义反向生成器<我nline-formula>
整个句子的发电机可以被定义为
两个发电机有相同的结构,但不同的参数。改善约束句子的连贯性,我们采用一个LSTM-based语言模型和动态注意力机制(称为attRNN-LM)发电机。
我们建议的方法是鉴别器的另一个重要组成部分,将句子对作为输入,并区分是否真实或生成一对给定的句子。它指导的联合训练两个发电机通过分配适当的奖励的信号。这个模块可以是一个二元分类器或士兵。以前的方法(后
有效地训练数据扩充模型,我们首先pretrain向后和向前发电机标准企业损失。不同于(
外来词可以被定义为一个序列标签识别问题。然而,有别于传统的序列标注任务中,外来词识别任务可以应用一些额外的知识,如语义相似性,发音相似,和POS标记。作为数据增加可以提供我们更多的注释数据模型训练,我们建议使用深层神经网络模型来识别外来词在资源匮乏的地区。原理特性的融合是我们使用单词和字符级特性,结合在外来词和发音相似的词关系识别。我们也将外部特性,比如发音相似和POS信息进入我们的方法。在本节中,我们首先描述特性用于我们的方法,然后定义外来词识别方法的细节。
该方法中,我们使用三种特性:融合特性,发音相似,POS特性。
在这项研究中我们用点积的关注:
在外来词识别任务中最重要的特性是这个词的发音相似在捐赠收据语言和其相应的词的语言。卷积神经网络(cnn)已被证明捕捉NLP中的字符级信息任务,cnn可以处理序列在当前接受提出类似于注意力机制(
我们遵循的研究(
马克斯意味着马克斯池操作。我们使用它来捕获重要特性分配最高的值对于一个给定的过滤器。因此,在时间步<我nline-formula>
一起融合,也能进行字符级别的功能,我们建议将两个特性自动调整(图
提出的多层次特征融合方法用于我们的外来词识别模型。字符嵌入和字嵌入被作为特征选择的输入层。
对数线性模型在统计和机器学习起到相当大的作用。最重要的原因,我们选择了对数线性模型的基本框架提出了外来词预测模型是因为功能可以很容易地添加到它。此外,对数线性模型已广泛应用于如SMT和NMT NLP的任务。
适应外来词预测任务,包括丰富的特性,比如BiLSTM、POS、和语义特征模型,我们使用对数线性RNNs [
隐藏的状态<我nline-formula>
我们假设我们有一个先天的固定一定背景的功能<我nline-formula>
因此,外来词的标签<我nline-formula>
在训练我们的提议外来词识别模型,我们使用叉来优化我们的模型的性能损失(
在本节中,我们评估我们的方法的有效性。
全面评估我们的提出的模型的有效性,我们进行阿拉伯语、汉语、俄语,和土耳其在维吾尔语外来词识别。在我们的实验中使用的数据集是列在表中
数据集的大小。
| 数据类型 | 大小 | |||
|---|---|---|---|---|
| 阿拉伯语 | 中国 | 俄罗斯 | 土耳其 | |
| 句子 | 100年,780年 | 125年,085年 | 143年,290年 | 132年,500年 |
| 外来词 | 690年 | 2450年 | 1274年 | 2009年 |
训练数据扩充模型,我们也收集一些语为每个语言(表数据来自互联网
单语数据的大小。
| 语言 | 维吾尔族 | 阿拉伯语 | 中国 | 俄罗斯 | 土耳其 |
|---|---|---|---|---|---|
| 大小(单词) | 0.32 | 1.05 B | 1.70 B | 1.14 B | 1.49 B |
我们训练数据集的数据扩充模型中描述表
我们依靠自己的力量实现了对数线性RNNs。我们还开发了编辑距离算法的扩展版本适应外来词识别任务。POS特性,我们首先pretrained维吾尔族的词类模型;然后,我们根据这个模型标记所有维吾尔语句子。
我们比较我们的方法与几个强大的基线系统:规则(
结果数据扩充和训练数据的大小可以在表中找到
评估数据扩增方法。
| 捐赠 | 指标 | B / F-LM | BF-MLE | 我们的 |
|---|---|---|---|---|
| 阿拉伯语 | BLEU-4 | 0.15 | 0.15 | 0.21 |
| Self-BLEU | 64.32 | 64.58 | 63.46 | |
| 的怪兽 | 66.19 | 66.44 | 65.82 | |
|
|
||||
| 中国 | BLEU-4 | 0.16 | 0.17 | 0.23 |
| Self-BLEU | 64.05 | 64.30 | 63.78 | |
| 的怪兽 | 64.23 | 65.02 | 63.98 | |
|
|
||||
| 俄罗斯 | BLEU-4 | 0.18 | 0.18 | 0.23 |
| Self-BLEU | 62.76 | 63.05 | 62.64 | |
| 的怪兽 | 63.69 | 63.92 | 63.45 | |
|
|
||||
| 土耳其 | BLEU-4 | 0.19 | 0.20 | 0.25 |
| Self-BLEU | 62.51 | 62.86 | 62.18 | |
| 的怪兽 | 62.46 | 63.14 | 62.04 | |
训练数据中生成数据增加的大小(维吾尔语句子)。
| 朗 | 阿拉伯语 | 中国 | 俄罗斯 | 土耳其 |
|---|---|---|---|---|
| 大小 | 302年,480年 | 325年,790年 | 314年,208年 | 336年,852年 |
结果在外来词识别不同的方法可以在桌子上
外来词识别实验结果在不同的方法。
| 捐赠 | 模型 | 外来词识别结果(%) | |||||
|---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
||
| 俄罗斯 | 规则(+) | 72.04 | 72.89 | 69.31 | 70.18 | 70.65 | 71.28 |
| CRF (+) | 71.63 | 72.45 | 67.28 | 68.15 | 69.39 | 70.23 | |
| BLSTM-CNN (+) | 71.45 | 72.26 | 70.50 | 71.31 | 70.97 | 71.78 | |
| ClEmbedding (+) | 73.12 | 73.94 | 71.84 | 72.62 | 72.47 | 73.27 | |
| 我们的(+) | 74.80 | 75.62 | 73.64 | 74.20 | 74.22 | 74.90 | |
|
|
|||||||
| 阿拉伯语 | 规则(+) | 69.05 | 69.84 | 68.17 | 69.02 | 68.61 | 69.43 |
| CRF (+) | 69.83 | 70.65 | 67.42 | 68.29 | 68.60 | 69.45 | |
| BLSTM-CNN (+) | 68.70 | 69.52 | 69.85 | 70.67 | 69.27 | 70.09 | |
| ClEmbedding (+) | 72.95 | 73.76 | 72.03 | 72.85 | 72.49 | 73.30 | |
| 我们的(+) | 73.91 | 74.62 | 72.35 | 73.06 | 73.12 | 73.83 | |
|
|
|||||||
| 土耳其 | 规则(+) | 72.02 | 72.86 | 69.87 | 70.50 | 70.93 | 71.66 |
| CRF (+) | 71.46 | 72.29 | 69.02 | 69.95 | 70.22 | 71.10 | |
| BLSTM-CNN (+) | 71.25 | 72.04 | 70.43 | 71.18 | 70.84 | 71.61 | |
| ClEmbedding (+) | 72.96 | 73.64 | 73.08 | 73.85 | 73.02 | 73.74 | |
| 我们的(+) | 75.24 | 76.09 | 74.36 | 75.14 | 74.80 | 75.61 | |
|
|
|||||||
| 中国 | 规则(+) | 70.32 | 71.13 | 69.77 | 70.58 | 70.04 | 70.85 |
| CRF (+) | 70.85 | 71.64 | 69.24 | 70.05 | 70.04 | 70.84 | |
| BLSTM-CNN (+) | 70.58 | 71.34 | 69.98 | 70.79 | 70.28 | 71.06 | |
| ClEmbedding (+) | 71.67 | 72.48 | 71.35 | 72.14 | 71.51 | 72.31 | |
| 我们的(+) | 74.30 | 75.07 | 72.88 | 73.95 | 73.58 | 74.51 | |
表
第一部分在桌子上
第二个表的一部分
表
外来词的识别结果在不同特性(土耳其和中国外来词识别为例)。
| 捐赠 | 特性(年代) | 外来词识别结果(%) | |||||
|---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
||
| 土耳其 | +融合 | 74.14 | 74.95 | 73.28 | 74.16 | 73.71 | 74.55 |
| + pronun | 73.96 | 74.68 | 73.02 | 73.94 | 73.49 | 74.31 | |
| + pos | 72.54 | 73.36 | 72.25 | 73.07 | 72.39 | 73.21 | |
| +融合,pronun | 73.40 | 74.20 | 72.64 | 73.40 | 73.02 | 73.80 | |
| +融合,pos | 74.63 | 75.42 | 73.70 | 74.52 | 74.16 | 74.97 | |
| + pronun pos | 74.25 | 75.06 | 73.45 | 74.24 | 73.85 | 74.65 | |
| +所有 | 75.24 | 76.09 | 74.36 | 75.14 | 74.80 | 75.61 | |
|
|
|||||||
| 中国 | +融合 | 73.15 | 73.94 | 71.74 | 72.56 | 72.44 | 73.24 |
| + pronun | 72.76 | 73.52 | 71.32 | 72.16 | 72.03 | 72.83 | |
| + pos | 71.30 | 72.09 | 70.58 | 71.25 | 70.94 | 71.67 | |
| +融合,pronun | 72.43 | 73.25 | 71.02 | 71.84 | 71.72 | 72.54 | |
| +融合,pos | 73.61 | 74.40 | 72.26 | 73.02 | 72.93 | 73.70 | |
| + pronun pos | 73.25 | 74.03 | 71.97 | 72.89 | 72.60 | 73.46 | |
| +所有 | 74.30 | 75.07 | 72.88 | 73.95 | 73.58 | 74.51 | |
在表
本研究的主要目的是改善外来词识别资源缺乏语言的性能。我们的贡献包括两部分:(1)数据增加外来词识别和(2)外来词基于多特征融合识别。特别是数据增强缓解数据稀疏发生在外来词识别模型训练;我们优化外来词识别模型通过引入一些特性,比如单词和字符级嵌入的融合特性,发音相似,POS特性基于对数线性RNN成一个模型。评估我们的方法的有效性,我们在几个基线模型进行实验。实验结果表明,我们建议的外来词识别方法达到最佳性能。
在我们未来的工作,我们计划改善外来词识别模型的鲁棒性,生成更多样的训练数据,将丰富的上下文信息。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突有关的出版。
这项研究是由中国国家自然科学基金(没有。61906158)。