文摘

近年来,基于神经网络的机器翻译已经成为机器翻译领域的主流方法,但是仍有不足的挑战平行语料库和稀疏数据低资源领域的翻译。现有的机器翻译模型通常word-granularity分割训练数据集。然而,不同的分割粒度包含不同的语法和语义特征和信息。只考虑词的粒度将限制的有效训练神经机器翻译系统。针对数据稀疏的问题由于缺乏Uyghur-Chinese平行语料库和复杂的维吾尔族的形态,提出了一种多策略为音节分割粒度的训练方法,音节、单词,和音节词融合和目标递归神经网络和传统的卷积神经网络;网络的缺点是建立变压器Uyghur-Chinese神经机器翻译模型完全基于多线程self-attention机制。在CCMT2019维度结果Uyghur-Chinese双语数据集显示多个翻译训练方法粒度的影响明显比其他粒度分割翻译系统,而变压器模型可以获得更高的蓝色比基于Self-Attention-RNN Uyghur-Chinese翻译模型。

1。介绍

机器翻译是人工智能的一个重要分支和自然语言处理与自然语言自动序列 变成另一个序列 拥有相同的自然语言语义的过程。机器翻译可分为基于规则的机器翻译、基于实例的机器翻译,机器翻译在乐此不疲,神经网络的机器翻译(1]。

统计机器翻译和机器翻译神经网络依靠大规模双语平行语料库。变压器(2]本文模型在资源丰富的语言有很好的翻译效果,但在一系列小如维吾尔族语言翻译任务,有一个平行语料库不足的问题,这是难以满足培训需求的变压器模型。目前,由于缺少Uyghur-Chinese平行语料库,缺乏资源,和低质量的一些现有的数据,有一个严重的资源不对称和维吾尔语和汉语之间的不平衡。其次,维吾尔族是一个典型的语言具有复杂形状,茎和词缀组成的词,同样的茎和不同的词缀构成新词。因此,识别和翻译维吾尔语言有一个数据稀疏和OOV(词汇)问题在语言培训。

因此,本文旨在恐吓资源形势下Uyghur-Chinese翻译的任务并比较四音节分割策略,标志着音节分割,分词,音节词融合分割通过实验下模型的翻译质量。

2。变压器模型

Transformer模型取决于注意力机制,还使用encoder-decoder架构,但其结构要复杂得多的关注。6编码器的编码结束由堆叠在一起,和解码端是一样的。每个编码器包含两层:一层self-attention和前馈神经网络。Self-attention可以帮助当前节点关注当前的单词,以便获得上下文的语义。每个解码器还包括两个网络编码器所提到的,两层过渡层和一层的关注,和当前节点可以获得当前内容关键问题。变压器的结构完全对应的翻译模型的输入和输出,以及不同的切分粒度的影响翻译性能可以更好地观察在相同的模式下,如图1

与传统的基于RNN Seq2Seq mainstream-based机器翻译模型框架,变压器框架取代了RNN的注意机制来构建整个模型框架;变压器框架仍然是一个encoder-decoder结构。图的左边的编码器1由一个多线程的关注网络和一个简单的完全连接前馈神经网络。剩余两个网络之间的连接,层标准化操作,右边的译码器由两个多线程注意网络和一个完全连接前馈网络。它还使用剩余连接和层标准化操作3]。编码器组成N= 6层相同。层细胞上图的左边,有一个“Nx”左边;这是x6。每一层由两个子层,即多线程self-attention机制和完全连接前馈网络。每个子层有一个剩余连接和规范化。编码器解码器具有相同的结构,但是增加了磷层的关注。在培训期间,所有的解码产生一次和地面真理前一步中用于预测。在预测,因为没有地面真理,我们需要作出预测。

多线程注意力如图2。将不胜感激,参数是不共享的,多个点积执行缩放的关注h不同的线性变换,K,V投影。然后,不同的关注结果缝合,最后输出通过一个线性映射。这允许模型的优势学习相关的信息在不同的子空间表示4]。

通过多线程的注意,该模型可以获得位置信息在不同的子空间(5]。的计算公式可以制定为多线程的关注 在哪里 , , , 矩阵是线性映射参数。

首先,使用多线程的注意力在编码器端连接,KV编码器的输出层,是输入的多线程注意解码器。编码器和解码器使用注意翻译和对齐,然后编码器和解码器使用多线程self-attention学习文本的表示(6,7]。

当计算的注意,它主要分为三个步骤(8):首先,查询和关键是用来计算相似性的重量;其次,将Softmax函数用于规范化;第三,重量和相应的键值是用来值加权求和。计算公式可以作为制定

标量积注意结构(9)如图3。扩展点积是使用注意点积计算相似度,然后分裂 的调整,以防止内积太大(10]。计算公式可以作为制定

因为每个单词和翻译相关的位置,需要编码的位置(每个单词11]。RNN的结构,位置信息自动记录的隐藏层RNN周期。在变压器模型中,因为没有使用周期或卷积,为了使用序列的序列信息,相对和绝对位置信息需要输入到模型中。介绍了位置代码,代码应用于输入终端位置;位置信息的输入,在每一个时刻的输入序列编码(12,13]。计算公式可以作为制定

的公式, 代表着地位和 代表词向量的维数。在公式中,正弦或余弦函数根据不同位置,使用单词和向量维度控制 的公式。

在图1,最后每个编码器和解码器模块包含一个完全连接的前馈神经网络,这是应用独立和相同的位置。执行两个线性变换的前馈网络由输入。计算公式可以作为制定

的公式, 代表输入, 代表第一个线性变换的参数矩阵, 代表偏移向量的线性变换, 代表第二个参数矩阵的线性变换 代表第二的偏移向量线性变换(14]。

3所示。Multigranularity分割

在平行语料库是语言翻译的问题稀缺,如果稀疏问题不解决,将严重影响神经之间的机器翻译语言的应用。分段的语料库可以减少低频词汇,提高模型的泛化能力,提高机器翻译的影响(15]。然而,一个大分割单元可以保存相对完整的地方特色,但它会加剧数据稀疏的问题。小分割粒度单位可以缓解数据稀疏的问题,但一些地方相比功能将丢失。因此,本文试图段Uyghur-Chinese双语语料库与不同粒度缓解数据稀疏的问题。的粒度音节,音节,话说,选择和音节词融合实验,因为这个粒度可以描述语言的特点很好,他们非常的代表。从这个粒度的实验,可以更全面地获得语言特性。

3.1。音节的策略

有32个字母在维吾尔语言,包括24个辅音和元音8。与此同时,每个字母都有不同的形式,共有约130种。在维吾尔语,句子是由一个或多个单词,每个单词用空格分开,由一个或多个音节。音节是最小的语音结构和最小的语音段人类听觉自然能感觉到。维吾尔族中音节由一个元音或元音+多个辅音,和每个音节都包含一定的语义信息。这个特性就像汉语拼音的组成。拼音由决赛和首字母,虽然没有中文音节,但我们可以把汉语拼音音节单位。

维吾尔族音节分割具有一定规则:音节结构(攻击)+铅语调+(广播),其中音节必须有一个脖子,必须是元音,和电台的声音可能是也可能不是在攻击和广播。C代表辅音,V代表元音,有12种单词音节,可以表示为

其中,前六是常见的维吾尔语单词音节类型,最后六个外国单词音节类型。一般来说,维吾尔族的最高频率的简历和CVC音节。

3.2。标志着音节策略

我们维吾尔族的数据划分为音节与特定的语义信息,和中国数据转换为单个字符,可以减少翻译单元的数量,增加发生的频率。每个翻译单元的频率的增加提高了网络模型的学习能力。翻译单元的数量的减少可以减少词汇量的大小,降低模型的复杂计算,缩短模型的训练时间。与此同时,它可以有效地解决这一问题的OOV和缓解数据稀疏问题的维吾尔神经机器翻译,从而提高翻译的质量。

3.3。词汇策略

目前,大量的机器翻译系统训练的词级单位。Syllable-level机器翻译系统可能遇到的问题,如缺少语义或分散的数据信息。词与词之间没有明显的分离器在维吾尔族,这使得机器学习校准和翻译更加困难。为了获得良好的特征信息的水平的话,使用分词工具段数据。最后,进行手动校正。

3.4。音节词融合策略

罕见的语言资源在培训过程中,词汇量大导致低频词被表示成subword单位在训练和模型也需要学习这些高维表示能力。出于这个原因,因为分词,本文将根据维吾尔族维吾尔文字紧凑晶格识别方法和合并规则,统计,和减少。具体步骤如下:首先,在分词的基础上,首先提取单词携带pseudo-condensed音节和使用规则来确定其中的音节进行;如果规则不能被识别,然后使用还原法识别它们,如果还原法不能识别规则,然后用最大熵模型识别,最终实现音节融合的效果。这种融合方法的一个特性是,音节和基于融合模型的大小可以通过改变控制词汇。

4所示。测试和结果分析

本文实验数据选择机器翻译评价(2019年CCMT) Uyghur-Chinese平行语料库,在训练集有170000 Uyghur-Chinese平行的句子配对和验证集有1000平行句对。为了分析和比较细分模型基于不同粒度的影响对翻译的影响,四音节粒度的比较实验,音节的粒度,粒度,分别和音节词融合进行了粒度。翻译模型使用变压器模型和Self-Attention-RNN模型进行比较。特定的数据集信息如表所示1

2显示了模型的测试结果的翻译在不同粒径;评分工具使用双语的值是评价替补(蓝色)。

同时,实验测试模型所需的训练周期的数量达到一个稳定的翻译效果在不同的分割策略。数据45展示四种分割策略下的蓝色值Self-Attention-RNN模型的变化随着训练时间的增加,数据67展示了蓝色价值四种分割策略下的变压器模型随着训练时间的增加变化。

分析实验结果,可以得到以下结论。(1)基于变压器Uyghur-Chinese翻译模型确实是比基于Self-Attention-RNN翻译模型。在相同的参数下,蓝色值可以增加约1。(2)培训与音节分割粒度时,模型的翻译效果是最差的。由于其语义信息的损失,当音节分割,无法保留原文表达的信息,和一个很大的噪音。同样,按照汉字分割将失去语义信息由原来的,没有相应的维度在相应的语言翻译,导致双语平行语料库是无效的,所以不翻译的影响。(3)使用文字作为分割的粒度的影响显然是比使用音节作为粒度的粒度,因为原文的语义信息可以相对稳定和保留在单词层面。通过这种方式,相应的单词可以在平行句子更好,以帮助系统获得更多的语义特征和更好的翻译效果。(4)使用标记音节作为分割粒度比使用文字作为分割粒度。维吾尔族的数据分为音节与特定的语义信息。中国数据分为单个字符,这可以减少翻译单元的数量。发生的频率增加。每个翻译单元的频率的增加提高了网络模型的学习能力。翻译单元的数量的减少可以减少词汇量的大小,降低模型的复杂计算,缩短模型的训练时间。与此同时,它可以有效地解决这一问题的OOV和缓解数据稀疏问题的维吾尔神经机器翻译,从而提高翻译的质量。(5)在音节、单词分割大小融合结合音节和词划分的优点,相比其他三个细分的蓝色值显著提高。

5。结论

在本文中,我们研究了多节的粒度的训练方法Uyghur-Chinese翻译与稀缺资源。通过音节、单词和音节词融合,它可以有效地解决这一问题的翻译汉语的介词和连词而不是维吾尔族,避免翻译困难的词汇和句法层面。同时,低频词相对高频subword切成碎片,缓解数据稀疏问题的影响从不同语料库翻译模型显著提高与不同模型和分割不同的语料在同样的模型。通过上面的实验,可以得出结论,不同粒度切割有更大影响机器翻译的影响,以及随后可以尝试引入更多粒度分割和multigranularity融合。在接下来的工作,我们希望能结合不同粒度分割,提高编码器编码在音节和词层面同时,为了有效地获得更多的功能属性,避免中间的复杂的过程,在本文中提出的方法应用于其他翻译任务的单词。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突的研究,本文的作者,和/或出版。