依靠大规模平行语料库,神经在某些语言对机器翻译取得了巨大的成功。然而,收购高质量的平行语料库在机器翻译研究的一个主要困难。为了解决这个问题,本文提出了非监督域自适应神经网络机器翻译。这个方法可以使用只有两个不相关的单语语料库和训练得到一个好翻译的结果。本文首先措施匹配程度的翻译规则通过添加相关主题信息翻译规则和动态计算每个翻译规则和文档之间的相似度在解码过程中翻译。其次,通过多个培训任务的联合训练,源语言可以学习有用的语义和结构信息的单语语料库第三语言,不是平行于当前过程中两种语言翻译成目标语言。实验结果表明,可以获得更好的结果比传统的统计机器翻译。
目前,随着国际交流的逐步加深,人们对语言翻译的需求正在增加一天(
前者是神经机器翻译(NMT)。后者是统计机器翻译(SMT)。Iswarya和达
然而,data-weighting方法在现有技术分配权重根据他们的那些句子相似度的语料库域。上述现有技术密不可分的严重的问题标注语料库,和原来的培训需要的总和。然而,data-weighting方法现有技术分配权重的那些句子根据相似性的语料库域。现有技术没有标注语料库中的严重问题需要几个小元素的原始训练语料库分割导致越来越多的模型参数等复杂的操作,使得神经网络性能的机器翻译是低效的,不能准确地获得各领域之间的适应性(
在这个阶段,统计机器翻译分为生成噪声信道模型(
噪声信道,提出了基于信息理论中编码的想法。在这个模型中,机器翻译任务被认为是目标句子的信息传播过程
根据贝叶斯原理,上述公式可以转化成
基于噪声信道的翻译模型不能使用更多的知识比源和目标的句子句子在翻译过程中,语言模型的重要性和翻译模式是固定的,不能根据实际情况调整。
基于对数线性模型分解的翻译系统翻译成一系列概率组合的特点:
翻译系统基于对数线性模型非常灵活,并且可以根据需要添加一些附加的描述性的功能,比如单词包含在翻译候选人的数量,数量的规则。图
机器翻译系统框架。
有效的特征提取是一种常见的各种机器学习方法的基本元素。如图
非监督训练的基于自动编码。
领域适应气候变化,研究的深度学习算法主要学习输入和输出之间的中间表示。这些中介表示背后的动机是,这些中介表示的结果可以带来更好的跨域机器学习性能。因为深度学习可以进行无监督训练,大规模开放域数据可以用来学习这个领域的主题信息表示。深入学习是增长最快的领域之一近年来机器学习领域的。它取得了突破许多自然语言处理应用程序和是一个值得尝试的方向。
本文使用变压器的基本结构为每种语言创建一个编码器和解码器和分享一些层的参数训练的三个原则。建立培训任务是英语,法语,和德国的同时,和训练模型。例如,当训练英语⟶法语和英语⟶德语的任务,因为法国和德国也有类似的语言结构,有用的语义和结构信息可以从不同的目标共同学习语言。
变压器的主要特征是,它不依赖于RNN或者CNN,但只有使用self-attention机制来实现端到端的翻译模型。self-attention机制执行注意计算句子中的每个词和其他词的句子。目的是为了学习句子中的依赖关系,抓住句子的内部结构。变压器的结构图架构如图
变压器结构。
编码器和解码器的变压器都是多层网络结构,和编码器和译码器
其中,
在这篇文章中,
初始化:模型的初始化是大致分为两个方面,第一个方法使用word2vec训练这个词向量的两种语言分开,然后将这两种语言的词向量映射到相同的潜在空间通过学习一个变换矩阵。通过这种方式,一个双语词汇表可以获得具有良好的精度。第二种方法使用byte-pair编码(BPE)作为subword单元的单词。的优势,同时减少词汇量的大小,它消除了翻译过程中的“UNK”问题。此外,与第一种方法相比,第二种方法选择混合和争夺两个单语语料库学习词向量特征联系在一起。源语言和目标语言可以共享相同的词汇。
语言模型:在双语单一任务模型,语言模型的降噪autoencoder最小化损失函数
其中,
反向翻译:反向翻译的过程是一个训练的过程pseudoparallel句子成对平行句对。培训损失函数公式所示(
反向翻译过程是治疗(
多语言多任务模型变压器下的多任务模型获得的培训架构。假设目前有三种语言L1, L2, L3单语语料库,不相互平行,多任务模型包括6培训任务,即L1⟶L2, L2⟶L1, L1⟶L3, L3⟶L1, L2⟶L3, L2和L3⟶。灵感来自杨等人的研究。
其中,
为了加强共享潜在空间的作用,本文列车生成对抗网络G之间建立三个分类任务三个编码器对应三种语言。它的作用是预测当前编码语言的范畴。把叉损失如下公式所示:
其中,ED (
主题模型是一种统计模型用于发现抽象主题领域的机器学习和自然语言处理。主题措施之间的相似程度,相似模型的翻译规则和主题分布语言翻译。为了计算之间的相似性翻译规则和语言翻译,我们需要分配一个分布概率主题同时源语言和目标语言的翻译规则。使用这个概率分布特征的源语言和目标语言之间的关系这一规则在每个主题。
如果
主题相似度模型,您可以选择车辆疾驰灾难(HD)计算之间的相似主题的翻译规则和文档翻译。其中,高清相似性评价方法是一种对称算法,已经广泛用于比较两个分布之间的相似性。假设分布
显然,通过比较所有语言的翻译候选人和HD翻译,翻译候选人和翻译后的语言之间的相似性。在信息理论中,较小的高清的距离代表了更大的相似性,因为我们的任务是找到最大的翻译选择的语言和翻译后的语言之间的相似性最后的翻译结果。的主题相似度模型,我们的目标是选择最相似的翻译规则翻译语言实现自适应翻译使用主题信息的基础。
phrase-based统计机器翻译的源语言句子
其中,Dis (
摘要机器翻译算法包括三个阶段的处理、培训、调优,和翻译。如图
机器翻译算法的流程图。
训练数据是双语翻译语料库,主要是句子对齐。预处理和字对齐后,得到了各种各样的翻译规则,包括短语转换表,分类概率、和最大熵分类参数。
对于目标语语言语料库,您可以使用目标语言的训练数据,或者你可以添加更多的单语数据,主要是在句子层面上,培养语言模型。除了生成的各种翻译规则和语言模型训练过程中,解码器的操作还需要特征权重。调优的过程是选择功能发展设置权重。
开发集是一个源语言句子集合,和每一个源语言句子有一个或多个参考译文在目标语言。调优通常使用最小误差设置的发展培训。它需要不断迭代的译码器当前的特征参数,自动计算并比较蓝色分数,然后再改变权重来解码,直到达到上限的迭代的数量或翻译系统是稳定的。这是一个多维参数优化的问题。译码器可以实现翻译过程通过使用翻译规则,语言模型和特征权重在训练过程中获得的。
使用测试集进行翻译并执行蓝色评分观察翻译翻译系统的影响。
实验选择1000万单个的句子在英语,德语,法语WMT2007 WMT2010语料库。实验使用亚当作为优化器,失活率(辍学)被设置为0.1,这个词的尺寸设置为512,最高刑期的长度是175,与超过175个单词和句子会进行拦截的超长部分。培训步骤是3.5×105,其余的模型的参数设置为默认参数的变压器模型。三语翻译多任务模型,三种语言的词汇是共享和BPE操作数设置为85000。快速文本工具是用来训练的跨语言词向量学习subworded训练集。
评估的短语级翻译,如果翻译结果候选人是一样的任何一个标准的答案,我们认为这是正确的。评估的字面意思翻译,翻译结果使用的评价指标不区分大小写的第4单元蓝色价值和使用引导重采样方法来测试评价结果的意义。
图
多任务模型和单一任务模型之间的性能比较。
在本文的多任务模型,一个共享的词汇是用于多种语言,这是特别重要的选择一个合适的词汇。在这方面,本文也做了几个实验比较分析。实验结果如表所示
比较不同的词汇量大小的实验结果。
| 不同语言的转换 | 蓝色的价值 | |||
|---|---|---|---|---|
| 60000年 | 80000年 | 85000年 | 90000年 | |
| 英语- >德语 | 9.09 | 10.98 | 12.53 | 11.78 |
| 德国- - >英语 | 13.99 | 14.31 | 14.97 | 15.01 |
| 德国,法国 | 17.13 | 18.76 | 18.22 | 18.65 |
| 法国,德国 | 16.12 | 17.88 | 18.52 | 18.05 |
| 英语- >法语 | 11.76 | 11.67 | 12.59 | 12.56 |
| 法语- - >英语 | 9.88 | 10.22 | 10.67 | 11.08 |
为了比较训练速度,本研究实验中的参数,需要培训。在单任务操作双语翻译任务中,参数的数量级是1.3×108,而在本文的多语言和多任务的翻译模型,总参数约1.7×108。多语言翻译模型的参数的数量仅仅是双语翻译系统的1.3倍,这是远小于6的参数之和分别训练的任务。与单一任务模型相比,多任务模型的总培训时间大约是减少一半。为了比较两个模型的翻译性能和收敛速度更直观,德国⟶法国和法语⟶德语翻译任务的翻译效果改变了最,线形图是用来比较双语单一任务模型和本文提出的多语种;多任务模型如图的效果
比较两个模型的德国< - - >法语翻译任务。
我们比较的影响检索文档的数量和隐层的长度翻译模型的准确性和结果如图所示
检索文档的数量的影响和隐层的长度对机器翻译的准确性。
另一个重要因素是长度
在短语级翻译过程,表中
翻译短语级精度。
| 单一任务 | 文献[ |
文献[ |
文献[ |
这篇论文 | |
|---|---|---|---|---|---|
| 排名前 | 0.621 | 0.812 | 0.789 | 0.822 | 0.819 |
| 前2 | 0.672 | 0.823 | 0.821 | 0.837 | 0.837 |
| 前三 | 0.721 | 0.856 | 0.867 | 0.856 | 0.8895 |
| 前4 | 0.739 | 0.889 | 0.892 | 0.891 | 0.919 |
| 前5名 | 0.751 | 0.923 | 0.929 | 0.921 | 0.967 |
的字面意思翻译评价,我们测试了不同类型的文本的翻译质量,并与其他算法。实验结果如图所示
句子翻译准确率。
每一种都有其各自的特点和灵活的形式,使自动语言处理,包括机器翻译语言之间,需要解决的一个难题。同时,如何为用户提供高质量的翻译服务已成为一个很难解决的问题。因此,本文测量匹配程度的翻译规则通过添加相关学科信息的翻译规则和动态计算每个翻译规则和文档之间的相似度在解码过程中翻译。然后,通过多个培训任务的联合训练,源语言可以学习有用的语义和结构信息的单语语料库第三语言,不是平行于当前过程中两种语言翻译成目标语言。最后,仿真实验证明了该算法的有效性。实验表明,本文算法明显优于对比算法的方法,并且只使用训练数据的一部分,可以达到更好的翻译效果比原来的训练数据,提高了翻译性能,同时降低了翻译系统训练和解码成本。
使用的数据来支持本研究的发现可以从相应的作者。
作者声明没有已知的财务利益冲突或人际关系可能出现影响工作报告。
这项工作是支持的科研项目由陕西省教育局:西安旅游文本翻译策略研究的原型和模型理论(程序没有。18 jk0298)。