CIN 计算智能和神经科学 1687 - 5273 1687 - 5265 Hindawi 10.1155 / 2021/9975078 9975078 研究文章 改善外来词在资源缺乏语言识别数据增强和多特征融合 https://orcid.org/0000 - 0002 - 6367 - 6118 心肌梗死 1 https://orcid.org/0000 - 0001 - 7948 - 4375 少林 2 鲁伊 3 年兽 1 计算机科学学院 西北工业大学 西安 中国 nwpu.edu.cn 2 软件工程学院 郑州轻工业大学 郑州 中国 zzuli.edu.cn 3 中国飞行试验建立 西安 中国 ch-aviation.com 2021年 8 4 2021年 2021年 9 3 2021年 18 3 2021年 25 3 2021年 8 4 2021年 2021年 版权©2021工等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

外来词识别研究近年来缓解数据稀疏一些自然语言处理(NLP)任务,如机器翻译、跨语言信息检索等等。然而,最近的研究对这个话题通常把努力放在张来武语言(如汉语、英语,和俄罗斯);资源缺乏语言,维吾尔族、蒙古族等,由于资源的限制和缺乏注释数据,外来词对这些语言往往有较低的性能鉴定。要解决这个问题,我们首先提出一个词法基于数据扩增方法生成训练数据资源缺乏语言外来词识别;然后,外来词识别模型介绍了基于对数线性RNN提高资源缺乏的性能外来词识别通过合并等特性也能进行嵌入,字符级嵌入,发音相似,和词性(POS)成一个模型。实验结果在外来词识别维吾尔族(在本研究中,我们主要关注阿拉伯语,汉语,俄语,和土耳其外来词在维吾尔族)表明,我们建议的方法达到最佳性能与几个强大的基线系统相比。

中国国家自然科学基金 61906158
1。介绍

双语数据起着非常重要的作用在跨语言自然语言处理(NLP)任务,如跨语言文本分类、跨语言信息检索,机器翻译和神经。然而,双语数据往往很难获得。词法借款发生在几乎所有的语言;图 1的原因给出了几个外来词在维吾尔族(我们在研究中选择维吾尔族作为一个例子如下:(1)有许多外来词在维吾尔族和(2)维吾尔族是一个资源缺乏语言)。如果可以有效地确定资源缺乏语言中的外来词,这将是一个新颖的方法来缓解数据稀疏现有在许多跨语言NLP的任务。

外来词在Uyghur2的例子。

外来词识别的任务发现外来词的特定语言(供体语言)在另一种语言文本(收据语言)。大约有三种外来语识别方法:(1)基于规则的方法;(2)statistical-based方法;和(3)基于深度学习方法。早期研究外来词识别通常基于规则。例如,麦考伊和弗兰克( 1)提出了一个字符串相似性外来词识别模型,依赖于算法。随着机器学习算法在NLP的发展区域,statistical-based方法也提出了( 2]。近年来,深入学习算法,如双向LSTM和卷积神经网络(BLSTM + CNN)也使用在外来词识别任务( 3]。由于缺乏基于规则方法的泛化能力和限制statistical-based训练数据的方法,最近的研究往往将规则和统计特征结合在一起有效地提高模型的性能( 4, 5]。然而,几乎所有这些方法受到数据稀疏模型训练过程中,特别是在缺乏资源的环境中。

作为一个常用的方法来缓解数据稀疏,数据增强在这一主题中最受欢迎的方法。例如,刘等人。 6)建议使用氮化镓模型组成的两个发电机和一个鉴别器产生有意义的自然语言句子。出于这一研究中,我们建议使用一个词汇基于数据扩充模型为外来语识别生成更多的培训数据。不同于( 6),我们把训练数据中的外来词作为词汇约束包含外来词的产生更多的句子。

调查后,我们发现有两个重要的线索在外来词标识:语义相似性和发音相似。这两个功能合并到一个特征,我们提出将语义相似度,也能进行功能和发音相似字符级特性。然后,我们融合成一个功能这两个特性。同时,我们结合融合特性,发音功能,和POS特性为对数线性RNN在外来词识别实现最佳的性能。

本研究的主要贡献如下:

首先,词汇提出了基于数据扩增方法生成更多的外来词训练数据识别的任务。

第二,我们将多层次特征,发音相似的功能,和POS特性为对数线性RNN模型来提高性能的外来词为资源缺乏语言识别模型。

第三,我们进行一个实验外来词(阿拉伯文、中文、俄文和土耳其)识别维吾尔族;实验结果表明,我们提出的模型达到最佳性能与几个强大的基线系统相比。

本文的其余部分组织如下。部分 2介绍了一些最近的研究与我们的主题相关。我们提出我们的方法的细节部分 3。数据集,设置,和实验结果部分中描述 4。我们在部分显示实验结果的分析 5。节 6,我们本研究得出结论并给出一些可能的未来的发展方向。

2。相关工作

在本节中,我们提出一些与我们的研究相关工作。

2.1。外来词识别

词法借款已经收到了在自然语言处理领域相对较少的关注。Tsvetkov和代尔( 7)提出了一个morph-phonological转换模型获得良好的性能预测捐赠形式从借来的形式。Tsvetkov et al。 7)建议使用词汇借贷作为模型在SMT框架翻译OOV的话。Gerz et al。 8]分析了变化的影响在结构和语义属性在通用语言架构建模语言的任务。Mi et al。 9)使用浅特性,比如字符串相似性检测在维吾尔语外来词。Mi et al。 3)提出了一个神经网络外来语识别模型,该模型还包含了一些肤浅的功能。然而,这些方法只训练有素的外来词识别模型基于一些单语语料库。不能项目捐赠语言和收据语言为一个语义空间。训练数据的局限性也存在。

2.2。数据增加NLP

数据增加NLP的主要目标是生成另外,使用的数据合成数据缓解数据稀疏模型训练( 10]。有几个数据扩增方法(NLP地区 11]。第一个是词汇替换试图替换词出现在文本不改变句子的意义( 12]。第二个是翻译,机器翻译中常用的神经(NMT)。重新翻译第一列车中间系统并行数据用于目标语数据转化为源语言。结果是一个平行语料库在源端机器翻译合成输出,而目标是真正的人类写的文本。合成然后简单地添加到真正的双语平行语料库,以列车最后一个系统,将翻译从源到目标语言( 13]。语法树操作被用于( 14];这个想法是为了解析和生成依赖树的原句,变换使用规则,生成一个改写句子。混合物是一种简单而有效的图像增强技术引入Zhang et al。 15]。这个想法是把两个随机图像在一些mini-batch比例来生成合成实例进行训练。最近期的数据增加的方法是生成模型;这种方法试图生成额外的训练数据,同时保留类标签( 16]。

2.3。在NLP序列标签

有两种主要类型的序列标签在NLP中的方法,基于如梯度方法和基于搜索的方法( 17]。基于概率的梯度学习方法如条件随机域(crf)和递归神经网络(RNN),他们有高精度的精确计算梯度和概率信息。然而,这些方法有重要的缺点。首先,基于概率梯度方法通常不支持搜索优化(搜索学习或decoding-based学习),这是重要的序列标注问题,强调学习的速度(例如,对大规模数据集)。在任务复杂的结构,梯度计算通常是相当复杂的有时甚至是棘手的。这主要是因为动态规划计算梯度很难大规模数据集的规模。另一方面,搜索技术更容易扩展到大规模数据集。这是因为搜索学习基于简单得多比梯度学习( 18- - - - - - 20.)——搜索有前途的候选人和输出进行比较与甲骨文标签和更新相应的权重。另一个类别的序列标记方法是基于搜索的学习方法(即。decoding-based学习),比如结构化的感知器和米拉。这些方法的主要优势是他们支持基于搜索的学习,这样不需要梯度和学习是通过简单的搜索和比较有前途的候选人输出与oracle标签和更新模型相应的权重。避免的副产品的梯度计算,这些方法具有更快的训练速度相比,基于概率梯度CRF等学习方法。

3所示。方法

在以前的研究中,大量的注释数据用于训练外来词识别模型。他们对待外来词检测作为一个序列标签问题。然而,外来词的注释数据识别很难获得。所以,本研究的贡献之一是数据增加外来词识别。我们建议使用一个词汇约束GAN外来词识别模型训练产生更多的句子。本文的另一个贡献是几个功能的组合外来词识别模型;我们介绍三个特性,比如嵌入融合特性(单词级别和字符),发音相似的功能,和POS特性。

3.1。总体架构

我们的方法包括两个部分:

数据增加外来词识别。

对数线性RNN-based外来词识别模型。

产生更多的外来词识别训练数据,我们提出一个词法约束GAN-based数据增强模型。最近外来词的方法识别经常训练的特性,比如发音相似,POS相似,等等。然而,这些方法通常遭受数据稀疏或缺乏语义知识。要克服这一点,我们引入一个对数线性RNN-based外来词识别模型相结合,也能进行字符级别嵌入融合特性,发音相似,和POS特性来预测阿拉伯语、汉语、俄语,和土耳其在维吾尔语外来词。外来语的主要理念识别资源缺乏语言如下:我们首先使用数据扩充模型来生成更多的外来词训练数据识别维吾尔族;然后,等几个功能词和字符级嵌入特性,发音相似,和POS特性提出了建立多个特性fusion-based外来词(图识别模型 2)。

我们提出的框架模型。

3.2。数据增加外来词识别

最近的研究对外来词识别任务经常受到限制的培训数据。在这项研究中,我们建议使用一个词汇约束GAN外来词产生更多的注释数据识别的任务。增甘为一个扩展的传统,我们的数据模型还包括两个主要部分:一台发电机和一个鉴别器。所不同的是,我们使用两个发电机和一个鉴别器来构建资源缺乏的数据扩充模型外来词识别。我们介绍的细节在本节提出的模型。

3.2.1之上。发电机

我们遵循的工作 6)和扩展向后和向前发电机适应外来词识别任务。在我们的研究中,我们使用一个特定语言的外来词作为词汇约束生成更多的培训数据。类似于( 6),给定一个外来词,反向生成器以它为句子的起点并生成上半年句子向后。然后,向后发生器产生的序列是逆转,送入发生器。然后学会生成整个句子,目的是欺骗鉴别器。

我们可以定义反向生成器<我nline-formula> G θ b w 作为 (1) P θ b w 年代 < c | w l w = = 1 l w 1 P θ b w w l w | w l w , , w l w + 1 , 在哪里<我nline-formula> w l w 表示给定的外来词<我nline-formula> l 表示生成的训练句子的长度。生成的句子是<我nline-formula> 年代 = w 1 w 2 , , w l w , , w l 。反向生成器生成句子的前半部分,而另一个一半的句子生成的发电机。<我nline-formula> θ 和<我nline-formula> θ 向后和向前发电机参数。

整个句子的发电机可以被定义为 (2) G 年代 | w c ; θ , θ = P θ b w 年代 < c | w l w P θ f w 年代 < c | 年代 1 : l w , 在哪里<我nline-formula> P θ b w 年代 < c | w l w 和<我nline-formula> P θ f w 年代 < c | 年代 1 : l w 提出了如上。

两个发电机有相同的结构,但不同的参数。改善约束句子的连贯性,我们采用一个LSTM-based语言模型和动态注意力机制(称为attRNN-LM)发电机。

3.2.2。鉴频器

我们建议的方法是鉴别器的另一个重要组成部分,将句子对作为输入,并区分是否真实或生成一对给定的句子。它指导的联合训练两个发电机通过分配适当的奖励的信号。这个模块可以是一个二元分类器或士兵。以前的方法(后 21),我们使用Text-CNN作为鉴频器的输出概率表示输入是否人类或机器生成的实验。

3.2.3。数据增强模型

有效地训练数据扩充模型,我们首先pretrain向后和向前发电机标准企业损失。不同于( 6),我们示例中的外来词外来词的词汇列表约束而不是随机选择它。然后,我们使用两个发电机和词法约束生成训练句子。鉴频器是基于真实句子训练正样本和句子由发电机负样本。鉴频器的输出的概率是生成的句子是由人写的。我们使用鉴频器的输出作为奖励鼓励两个发电机共同生成的句子是区别人类书面判决。使训练稳定和防止困惑价值飞涨,我们应用老师强迫给发电机为对照的访问目标后每个策略训练步骤。

3.3。多个功能Fusion-Based外来词识别

外来词可以被定义为一个序列标签识别问题。然而,有别于传统的序列标注任务中,外来词识别任务可以应用一些额外的知识,如语义相似性,发音相似,和POS标记。作为数据增加可以提供我们更多的注释数据模型训练,我们建议使用深层神经网络模型来识别外来词在资源匮乏的地区。原理特性的融合是我们使用单词和字符级特性,结合在外来词和发音相似的词关系识别。我们也将外部特性,比如发音相似和POS信息进入我们的方法。在本节中,我们首先描述特性用于我们的方法,然后定义外来词识别方法的细节。

3.3.1。特性

该方法中,我们使用三种特性:融合特性,发音相似,POS特性。

融合功能。在外来词识别任务中,词同现往往起着非常重要的作用。例如,在英文句子“天安门广场是北京最著名的旅游目的地,“中国外来词“天安门”是中国外来词“北京最相关。“在以往的研究中,字嵌入可以捕获词相似度和词的关系,换句话说一个句子中去。因此,我们应用self-attention获得嵌入在我们的研究中。self-attention的最重要的优点是它可以模型词之间的依赖关系。

在这项研究中我们用点积的关注: (3) DotAtt , K , V = softmax K T V , 在哪里<我nline-formula> , K , V 正在查询中,键和值向量,分别。应该指出的是,self-attention得到扩展。我们设置 (4) = K = V = x t w , 在时间步<我nline-formula> t 嵌入在时间这个词<我nline-formula> t 基于self-attention可以定义为 (5) h t w l = DotAtt x t w , x t w , x t w

在外来词识别任务中最重要的特性是这个词的发音相似在捐赠收据语言和其相应的词的语言。卷积神经网络(cnn)已被证明捕捉NLP中的字符级信息任务,cnn可以处理序列在当前接受提出类似于注意力机制( 22]。与此同时,我们也使用max池来捕获字符级特性。我们使用CNN的方式在我们提出的方法可以被定义为 (6) Conv x t c = 面具 x t c U

我们遵循的研究( 23),使用一个CNN的冗余的位置输入序列蒙面提取字符级特性。<我nline-formula> U 是滤波器的宽度<我nline-formula> k 设置为3。卷积运算来标示<我nline-formula> ,输入序列的垫位置设置为0。

马克斯意味着马克斯池操作。我们使用它来捕获重要特性分配最高的值对于一个给定的过滤器。因此,在时间步<我nline-formula> t ,从当地认为获得字符级表示 (7) h t c l = 马克斯 Conv x t c

一起融合,也能进行字符级别的功能,我们建议将两个特性自动调整(图 3)。最后的融合可以定义为代表 (8) Z = λ 1 h t w l + λ 2 h t c l , 在哪里<我nline-formula> h t w l 和<我nline-formula> h t c l 分别,也能进行字符级别的功能,,<我nline-formula> λ 1 和<我nline-formula> λ 2 相应的参数。

提出的多层次特征融合方法用于我们的外来词识别模型。字符嵌入和字嵌入被作为特征选择的输入层。

发音相似特性。直觉上,我们发现外来词往往也有类似的发音与相应的捐赠。样本的方法来检测外来词是使用一个字符串相似性算法计算字符串相似性得分之间的候选人外来词和捐赠者语言单词列表。然后,我们把分数和以词最好的分数为供体的词。在外来词识别任务中,我们第一次捐赠和收据语言文本转换成相同的书写系统。例如,在中国外来词识别在维吾尔族,我们第一次将这两种语言文本转换成拉丁文。然后,我们应用最常用的字符串相似性algorithm-minimum编辑距离(开采)——我们的外来词识别任务。 (9) h 地中海 l w , 一个 c r t , u = j = 0 l 一个 c r t = 0 l u P r l w | 地中海 u , acrt j , 在哪里<我nline-formula> l 一个 c r t 和<我nline-formula> l u 是长度的捐赠者单词列表和收据单词列表,分别<我nline-formula> acrt 和<我nline-formula> u 代表捐赠者语言(阿拉伯文、中文、俄文和土耳其)和收据的语言(在这项研究表明维吾尔族),<我nline-formula> l w 的外来词标签吗<我nline-formula> th收据的话,<我nline-formula> 地中海 u , acrt j 两个词的最小编辑距离。适应外来词识别任务,我们首先进行文本归一化数据集,将文本转换为规范(标准)的形式。然后,我们进行形态学分割形态丰富的语言,如维吾尔族、俄罗斯和土耳其。

POS特性。作为外来词通常是名词,我们提出一个词性(POS)特性来进一步限制外来词识别模型。我们第一次pretrain词类捐助语言和收据语言模型。考虑到语言的资源和性能,我们选择CRF的词类的框架模型。POS模型已经准备好了,如果一个词在收据和其相应的候选人捐助都是名词,我们POS特性设置为1。

3.3.2。外来词预测模型

对数线性模型在统计和机器学习起到相当大的作用。最重要的原因,我们选择了对数线性模型的基本框架提出了外来词预测模型是因为功能可以很容易地添加到它。此外,对数线性模型已广泛应用于如SMT和NMT NLP的任务。

适应外来词预测任务,包括丰富的特性,比如BiLSTM、POS、和语义特征模型,我们使用对数线性RNNs [ 24作为我们的任务的基本框架。对数线性RNN类似于一个RNN模型。它允许一个更一般的形式输入到网络在每个时间步长;,而不是只允许最新的象征<我nline-formula> x t 作为输入,以及条件<我nline-formula> C ,现在允许任意特征向量<我nline-formula> ψ C , x 1 , x 2 , 。。 , x t 1 , x t 作为输入;这个特性固定维数的向量<我nline-formula> ψ 并允许它被计算在任意(但确定性)从目前已知的结合前缀<我nline-formula> x 1 , x 2 , 。。 , x t 1 , x t 和上下文<我nline-formula> C 。这是一个相对较小的变化,但是一个有用的扩展网络的表达能力。

隐藏的状态<我nline-formula> t 我们可以定义为外来语识别任务 (10) p θ , t x b C , x 1 , x 2 , , x t 1 , x t 经验值 一个 θ , t T ϕ C , x 1 , x 2 , , x t 1 , x t

我们假设我们有一个先天的固定一定背景的功能<我nline-formula> b C , x 1 , x 2 , , x t 1 , x t 同时定义<我nline-formula> 功能定义一个特征向量<我nline-formula> ϕ C , x 1 , x 2 , , x t 1 , x t 固定的维度<我nline-formula> ϕ C , x 1 , x 2 , , x t 1 , x t

因此,外来词的标签<我nline-formula> t + 1 词<我nline-formula> x t + 1 可以被定义为 (11) x t + 1 p θ , t

在训练我们的提议外来词识别模型,我们使用叉来优化我们的模型的性能损失( 25]。

4所示。实验

在本节中,我们评估我们的方法的有效性。

4.1。数据

全面评估我们的提出的模型的有效性,我们进行阿拉伯语、汉语、俄语,和土耳其在维吾尔语外来词识别。在我们的实验中使用的数据集是列在表中 1。我们从互联网上抓取这些语料。然后,我们注释一小部分外来词标签的手中。在所有文本,我们确保每个句子包括至少一个外来词。

数据集的大小。

数据类型 大小
阿拉伯语 中国 俄罗斯 土耳其
句子 100年,780年 125年,085年 143年,290年 132年,500年
外来词 690年 2450年 1274年 2009年

训练数据扩充模型,我们也收集一些语为每个语言(表数据来自互联网 2)。

单语数据的大小。

语言 维吾尔族 阿拉伯语 中国 俄罗斯 土耳其
大小(单词) 0.32 1.05 B 1.70 B 1.14 B 1.49 B
4.2。设置 4.2.1。准备数据增加

我们训练数据集的数据扩充模型中描述表 2。我们同样的hyperparameters向前和向后发电机。隐藏所有发电机包括双层char-level LSTMs 1024单位。字嵌入的尺寸设置为1024;批处理大小、辍学率element-wise梯度阈剪裁,和亚当的初始学习速率优化器设置为128,0.5,5.0,和0.001;层标准化也适用。我们都向后和向前发电机1024隐藏单位的一个分层句LSTM当训练数据集描述表 2。的hyperparameters鉴别器,过滤器窗口大小设置为3,4,5,6,7,每个过滤器的内核数量是512。我们批量的大小设置为64,迭代次数为5000。

4.2.2。外来词识别

我们依靠自己的力量实现了对数线性RNNs。我们还开发了编辑距离算法的扩展版本适应外来词识别任务。POS特性,我们首先pretrained维吾尔族的词类模型;然后,我们根据这个模型标记所有维吾尔语句子。

我们比较我们的方法与几个强大的基线系统:规则( 1],CRF [ 2],BLSTM-CNN [ 3],ClEmbedding [ 4]。

4.3。结果数据增加

结果数据扩充和训练数据的大小可以在表中找到 3 4,分别。

评估数据扩增方法。

捐赠 指标 B / F-LM BF-MLE 我们的
阿拉伯语 BLEU-4 0.15 0.15 0.21
Self-BLEU 64.32 64.58 63.46
的怪兽 66.19 66.44 65.82

中国 BLEU-4 0.16 0.17 0.23
Self-BLEU 64.05 64.30 63.78
的怪兽 64.23 65.02 63.98

俄罗斯 BLEU-4 0.18 0.18 0.23
Self-BLEU 62.76 63.05 62.64
的怪兽 63.69 63.92 63.45

土耳其 BLEU-4 0.19 0.20 0.25
Self-BLEU 62.51 62.86 62.18
的怪兽 62.46 63.14 62.04

训练数据中生成数据增加的大小(维吾尔语句子)。

阿拉伯语 中国 俄罗斯 土耳其
大小 302年,480年 325年,790年 314年,208年 336年,852年
4.4。结果外来词识别

结果在外来词识别不同的方法可以在桌子上 5

外来词识别实验结果在不同的方法。

捐赠 模型 外来词识别结果(%)
P P + R R + F1 F1 (+)
俄罗斯 规则(+) 72.04 72.89 69.31 70.18 70.65 71.28
CRF (+) 71.63 72.45 67.28 68.15 69.39 70.23
BLSTM-CNN (+) 71.45 72.26 70.50 71.31 70.97 71.78
ClEmbedding (+) 73.12 73.94 71.84 72.62 72.47 73.27
我们的(+) 74.80 75.62 73.64 74.20 74.22 74.90

阿拉伯语 规则(+) 69.05 69.84 68.17 69.02 68.61 69.43
CRF (+) 69.83 70.65 67.42 68.29 68.60 69.45
BLSTM-CNN (+) 68.70 69.52 69.85 70.67 69.27 70.09
ClEmbedding (+) 72.95 73.76 72.03 72.85 72.49 73.30
我们的(+) 73.91 74.62 72.35 73.06 73.12 73.83

土耳其 规则(+) 72.02 72.86 69.87 70.50 70.93 71.66
CRF (+) 71.46 72.29 69.02 69.95 70.22 71.10
BLSTM-CNN (+) 71.25 72.04 70.43 71.18 70.84 71.61
ClEmbedding (+) 72.96 73.64 73.08 73.85 73.02 73.74
我们的(+) 75.24 76.09 74.36 75.14 74.80 75.61

中国 规则(+) 70.32 71.13 69.77 70.58 70.04 70.85
CRF (+) 70.85 71.64 69.24 70.05 70.04 70.84
BLSTM-CNN (+) 70.58 71.34 69.98 70.79 70.28 71.06
ClEmbedding (+) 71.67 72.48 71.35 72.14 71.51 72.31
我们的(+) 74.30 75.07 72.88 73.95 73.58 74.51
5。分析

3给外来词识别实验结果数据增大。我们可以发现我们提出词汇约束的方法达到最好的性能与其它强大基线系统相比在所有评价指标。最重要的原因是,我们的方法生成句子的流畅性和语义一致性保证在同一时间。表 4显示了维吾尔语句子的大小(在不同的捐赠者语言与外来词)由我们提出数据增强模型。外来词在不同捐赠者的语言,我们获得最大的维吾尔族数据集与土耳其外来词;一个可能的原因是,维吾尔语和土耳其语是密切相关的。我们用阿拉伯语获得最少的句子;这是因为维吾尔语和土耳其有非常不同的语法和句法。

第一部分在桌子上 5描述了实验结果与最初的训练数据不同的方法。我们发现CRF和基于规则的模型比BLSTM-CNN方法;一个可能的原因是注释数据的限制。因为ClEmbedding模型可以利用语义信息从单语数据,获得ClEmbedding模型实现与CRF相比稍微更好的结果和基于规则的模型。与其他基线模型相比,我们的方法了,也能进行字符级别的特性pretrained从单语语料库为一个模型;因此,我们的方法达到最好的结果,但改善并不重要。这是因为我们在模型训练方法也存在数据稀疏。

第二个表的一部分 5((+))提出了外来词识别结果产生不同的方法与我们的训练数据(数据增加)。我们可以发现生成的训练数据显著改善所有基线模型。CRF-based模型泛化能力,但数据稀疏仍然显著削弱了外来词的识别性能。BLSTM-CNN +方法也与BLSTM-CNN相比达到更好的性能。CRF +和BLSTM-CNN +受益于增加的数据。尽管ClEmbedding +依赖于单语数据,它还获得性能改进由于外来词识别结果。我们建议的方法RNN功能和外部功能合并到一个模型中,所以它在所有基线系统达到最佳性能。

6礼物的结果在不同的功能在我们的方法(我们把土耳其和中国外来词识别为例)。我们发现模型与所有功能实现最佳性能在土耳其和中国外来词识别任务。至于单一特征,融合特性比其他人更重要;一个可能的原因是,融合特性相结合,也能进行字符级别的功能在同一时间。除了融合特性,发音相似特性优于其他特性,因为外来语的发音相似是最直观的特性识别的任务。虽然POS不能达到与他人比较性能,我们发现与POS总是比别人的结合特性。

外来词的识别结果在不同特性(土耳其和中国外来词识别为例)。

捐赠 特性(年代) 外来词识别结果(%)
P P + R R(+) F1 F1 (+)
土耳其 +融合 74.14 74.95 73.28 74.16 73.71 74.55
+ pronun 73.96 74.68 73.02 73.94 73.49 74.31
+ pos 72.54 73.36 72.25 73.07 72.39 73.21
+融合,pronun 73.40 74.20 72.64 73.40 73.02 73.80
+融合,pos 74.63 75.42 73.70 74.52 74.16 74.97
+ pronun pos 74.25 75.06 73.45 74.24 73.85 74.65
+所有 75.24 76.09 74.36 75.14 74.80 75.61

中国 +融合 73.15 73.94 71.74 72.56 72.44 73.24
+ pronun 72.76 73.52 71.32 72.16 72.03 72.83
+ pos 71.30 72.09 70.58 71.25 70.94 71.67
+融合,pronun 72.43 73.25 71.02 71.84 71.72 72.54
+融合,pos 73.61 74.40 72.26 73.02 72.93 73.70
+ pronun pos 73.25 74.03 71.97 72.89 72.60 73.46
+所有 74.30 75.07 72.88 73.95 73.58 74.51

在表 5,我们描述的结果在不同的捐赠者的语言。我们可以很容易发现我们的方法达到最佳性能在土耳其外来词识别任务。一个重要的原因是土耳其和维吾尔族属于同一语系,和他们分享相比其他捐赠者语言词汇和语法。我们的模型也会取得更好的结果,对俄罗斯比中国和阿拉伯语外来词识别;一个可能的原因是,俄罗斯对维吾尔族有着深刻影响,维吾尔语有时是用西里尔字母,这是俄罗斯的基本书写系统。因为人会说维吾尔族通常可以流利的说中文,中国对维吾尔族有显著影响。尽管维吾尔语和阿拉伯语共享相同的书写系统,两种语言属于不同的语系。因此,阿拉伯语外来词识别达到最糟糕的表现。

6。结论

本研究的主要目的是改善外来词识别资源缺乏语言的性能。我们的贡献包括两部分:(1)数据增加外来词识别和(2)外来词基于多特征融合识别。特别是数据增强缓解数据稀疏发生在外来词识别模型训练;我们优化外来词识别模型通过引入一些特性,比如单词和字符级嵌入的融合特性,发音相似,POS特性基于对数线性RNN成一个模型。评估我们的方法的有效性,我们在几个基线模型进行实验。实验结果表明,我们建议的外来词识别方法达到最佳性能。

在我们未来的工作,我们计划改善外来词识别模型的鲁棒性,生成更多样的训练数据,将丰富的上下文信息。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是由中国国家自然科学基金(没有。61906158)。

麦科伊 r·T。 弗兰克 R。 在语音通知编辑距离算法与资源缺乏语言词对齐 计算语言学学会学报》(SCiL 18) 2018年1月 美国犹他盐湖城 102年 112年 AkınŞeker G。 Eryiğit G。 扩展CRF-based命名实体识别模型对土耳其形成文本和用户生成内容1 语义网 2017年 8 5 625年 642年 心肌梗死 C。 Y。 l T。 基于神经网络的模型在维吾尔语外来词识别 学报》第11届国际会议上语言资源和评价(LREC 18) 2018年5月 宫崎骏,日本 心肌梗死 C。 Y。 l T。 向更好的外来词在维吾尔族使用嵌入的跨语言词识别 美国27日计算语言学国际会议 2018年8月 美国纳米圣达菲 3027年 3037年 心肌梗死 C。 l Y。 外来词在资源缺乏语言识别以最小的监督 ACM交易在亚洲和资源缺乏语言信息处理 2020年 19 3 1 22 10.1145 / 3374212 D。 J。 Q。 Lv J。 BFGAN:向后和向前生成对抗的网络词汇方面限制句子的一代 IEEE / ACM交易音频、语音和语言处理 2019年 27 12 2350年 2361年 10.1109 / taslp.2019.2943018 Tsvetkov Y。 戴尔 C。 词汇分层为翻译词汇表之外的词汇 2 协会学报》第53届计算语言学和第七届国际联合会议上自然语言处理 2015年7月 中国,北京 Gerz D。 Vulić 我。 庞帝 e . M。 Reichart R。 安娜 K。 在语言类型学和之间的关系(限制)多语种语言建模 学报2018年大会在自然语言处理的经验方法 2018年11月 布鲁塞尔,比利时, 316年 327年 心肌梗死 C。 Y。 X。 l T。 基于递归神经网络在维吾尔语外来词识别 学报30亚太会议语言,信息,和计算:口头论文 2016年10月 首尔,韩国 209年 217年 J。 Y。 f . X。 J。 提高多核磁共振数据相结合的特征表示为MCI视点信息分类 Neurocomputing 2020年 400年 322年 332年 阿米特 C。 NLP增强视觉的调查数据 2020年 https://amitness.com/2020/05/data-augmentation-for-nlp X。 J。 勒存 Y。 字符级卷积网络文本分类 2015年 https://arxiv.org/abs/1509.01626 Edunov 年代。 奥特 M。 Auli M。 Grangier D。 理解大规模反向翻译 2018年 https://arxiv.org/abs/1808.09381 Coulombe C。 文本数据增加了简单利用nlp云api 2018年 https://arxiv.org/abs/1812.04718 H。 西塞 M。 多芬 y . N。 大卫 L.-P。 混合物:超出经验风险最小化 2017年 https://arxiv.org/abs/1710.09412 库马尔 V。 一个。 E。 数据增加使用pre-trained变压器模型 2020年 https://arxiv.org/abs/2003.02245 太阳 X。 年代。 Y。 X。 对自然语言处理的更容易和更快的序列标签:基于搜索概率在线学习框架(SAPO) 信息科学 2019年 478年 303年 317年 10.1016 / j.ins.2018.11.025 2 - s2.0 - 85056877635 F。 佩雷拉 F。 浅解析条件随机域 《2003人类语言技术会议北美计算语言学协会的章 2003年9月 埃德蒙顿,加拿大 213年 220年 太阳 X。 结构正规化结构预测 少量的酒 2014年 14 2402年 2410年 Vishwanathan s . v . N。 Schraudolph N . N。 施密特 m·W。 加速条件随机域与随机梯度方法的培训 学报》第23届国际会议上机器学习 2006年6月 美国宾夕法尼亚州匹兹堡 969年 976年 l W。 J。 Seqgan:序列生成对抗网政策梯度 人工智能学报AAAI会议 2017年 31日 1 J。 D。 R。 M。 f . X。 J。 Mmhge:轻度认知障碍检测基于multi-atlas视点混合图卷积网络和整体学习 集群计算 2021年 24 1 103年 113年 Z。 程ydF4y2Ba H。 J。 引起多层次特征融合命名实体识别 学报》29日国际联合会议上人工智能和17环太平洋地区人工智能国际会议上{IJCAI-PRICAI-20} 2020年1月 日本横滨 3594年 3600年 Dymetman M。 C。 对数线性RNNs:对复发性神经网络与灵活的先验知识 2016年 https://arxiv.org/abs/1607.02467 J。 J。 H。 H。 Y。 J。 预测神经胶质瘤年级利用multiparametric瘤内和瘤旁radiomic功能核磁共振图像 IEEE / ACM事务计算生物学和生物信息学 2020年 10.1109 / tcbb.2020.3033538