研究文章|开放获取
瑞王, ”神经网络基于无监督的机器翻译方法领域的适应”,复杂性, 卷。2020年, 文章的ID6657344, 11 页面, 2020年。 https://doi.org/10.1155/2020/6657344
神经网络基于无监督的机器翻译方法领域的适应
文摘
依靠大规模平行语料库,神经在某些语言对机器翻译取得了巨大的成功。然而,收购高质量的平行语料库在机器翻译研究的一个主要困难。为了解决这个问题,本文提出了非监督域自适应神经网络机器翻译。这个方法可以使用只有两个不相关的单语语料库和训练得到一个好翻译的结果。本文首先措施匹配程度的翻译规则通过添加相关主题信息翻译规则和动态计算每个翻译规则和文档之间的相似度在解码过程中翻译。其次,通过多个培训任务的联合训练,源语言可以学习有用的语义和结构信息的单语语料库第三语言,不是平行于当前过程中两种语言翻译成目标语言。实验结果表明,可以获得更好的结果比传统的统计机器翻译。
1。介绍
目前,随着国际交流的逐步加深,人们对语言翻译的需求正在增加一天(1,2]。然而,世界上有那么多种语言,和互联网已经成为最方便的获取信息的平台,和用户需求日益紧迫的在线翻译(3]。在互联网上有很多种语言,每种语言有很多歧义,和使用的语言也在变化,这给翻译服务(更高的要求4,5]。在先前技术,以实现自动机器翻译,目前常用的基于神经网络的技术方法(6,7)和基于统计机器翻译的方法(8,9]。
前者是神经机器翻译(NMT)。后者是统计机器翻译(SMT)。Iswarya和达10)使用一种无监督的方法实现跨语言嵌入和训练好一个词到一个词模型。这项工作的基础上,Imankulova et al。11)生成pseudoparallel通过降噪和反向翻译语料库进行训练,取得了良好的实验结果。李等人。12)使用字符级译码器来改善形态丰富的语言翻译的质量。Morente-Molinera et al。13)选择颗粒信息编码器和使用多个单词和字符的关注在解码端进行不同粒度的信息协作帮助翻译。Zhang et al。14)建模语言对之间的相似性在同一语系。他们的编码器是由字符级单向RNN和句双向RNN机制来获取和使用自顶向下的层次关注的话。公园等。15subwords]提出的正则化,使用一元语言模型生成多个候选人subword序列,丰富编码器的输入来提高翻译系统的鲁棒性。赵et al。16]介绍了表示multigranularity BPE平均获得词汇的语义表示。Zhang et al。17)认为,编码器词向量层,解码器词向量层,和解码器输出层有不同的功能,所以选择BPE粒度不同层也应该是不同的。Zhang et al。18)使用减噪autoencoders和对抗的训练将两种语言映射到相同的隐式空间和迭代训练翻译模型在两个方向上。王等人。19)首先pretrained词向量,实现了一个无监督的翻译模型使用autoencoder和反向转换。Dabre et al。20.)认为,前面的无监督翻译模型使用一个共享的编码器编码的语义表示不同的语言,这可以很容易地失去了各自不同的语言特点,从而限制翻译性能。因此,他们建议每种语言应使用自己的建模和编码器只分享的最后几层的权重编码器和解码器的前几层。
然而,data-weighting方法在现有技术分配权重根据他们的那些句子相似度的语料库域。上述现有技术密不可分的严重的问题标注语料库,和原来的培训需要的总和。然而,data-weighting方法现有技术分配权重的那些句子根据相似性的语料库域。现有技术没有标注语料库中的严重问题需要几个小元素的原始训练语料库分割导致越来越多的模型参数等复杂的操作,使得神经网络性能的机器翻译是低效的,不能准确地获得各领域之间的适应性(21,22]。为了解决上述问题,本文提出了一种自适应神经网络在无监督机器翻译领域。摘要翻译规则的匹配度是衡量相关主题信息添加到翻译规则和动态计算每个翻译规则和文档之间的相似度在解码过程中翻译。最后,通过多个培训任务的联合训练,源语言可以学习有用的语义和结构信息的单语语料库第三语言不符合当前的两种语言翻译到目标语言的过程。
2。机器翻译相关技术
2.1。机器翻译的框架
在这个阶段,统计机器翻译分为生成噪声信道模型(23,24和歧视的对数线性模型25,26]。我们假设源句子年代和目标句子t。
2.1.1。噪声信道模型
噪声信道,提出了基于信息理论中编码的想法。在这个模型中,机器翻译任务被认为是目标句子的信息传播过程e被转换成源语言年代经过一个噪声通道。寻找的过程t最大化的翻译概率如下:
根据贝叶斯原理,上述公式可以转化成
基于噪声信道的翻译模型不能使用更多的知识比源和目标的句子句子在翻译过程中,语言模型的重要性和翻译模式是固定的,不能根据实际情况调整。
2.1.2。对数线性模型
基于对数线性模型分解的翻译系统翻译成一系列概率组合的特点:
翻译系统基于对数线性模型非常灵活,并且可以根据需要添加一些附加的描述性的功能,比如单词包含在翻译候选人的数量,数量的规则。图1显示了一个翻译系统的施工过程基于对数线性模型。我们可以看到数据的机器翻译系统包含三个部分:训练数据,开发数据和测试数据。语言模型训练在大规模的单语训练数据。翻译系统获得双语词对齐信息通过机器学习方法在双语并行训练数据和提取翻译规则和估计其概率。翻译系统调整功能权重通过最小化误码率培训独立开发的数据。系统性能评价是基于现有模型和权重将测试数据和评价其性能。
2.2。无人监督的领域适应气候变化
有效的特征提取是一种常见的各种机器学习方法的基本元素。如图2假设当前层p-dimensional向量和上一层是一个问维向量 。首先,构造一个p维阿输出层,两层的随机初始化参数。给定输入我,H,隐藏层状态和输出层结果O′,然后,用O, O′之间的差异作为反向传播的损失来更新两层的参数。单隐层神经网络构造以这种方式可以被理解为一个编码输入的过程我得到隐层隐层G H和解码获取输入。如果问<p这样的训练可以获得的,参数压缩编码损失最小化。如果问≥p,那么我们需要添加一个损失函数的正则化因子稀疏编码或维度升级。
领域适应气候变化,研究的深度学习算法主要学习输入和输出之间的中间表示。这些中介表示背后的动机是,这些中介表示的结果可以带来更好的跨域机器学习性能。因为深度学习可以进行无监督训练,大规模开放域数据可以用来学习这个领域的主题信息表示。深入学习是增长最快的领域之一近年来机器学习领域的。它取得了突破许多自然语言处理应用程序和是一个值得尝试的方向。
3所示。基于无监督机器翻译算法领域适应气候变化
3.1。Sequence-Dependency结构
本文使用变压器的基本结构为每种语言创建一个编码器和解码器和分享一些层的参数训练的三个原则。建立培训任务是英语,法语,和德国的同时,和训练模型。例如,当训练英语⟶法语和英语⟶德语的任务,因为法国和德国也有类似的语言结构,有用的语义和结构信息可以从不同的目标共同学习语言。
变压器的主要特征是,它不依赖于RNN或者CNN,但只有使用self-attention机制来实现端到端的翻译模型。self-attention机制执行注意计算句子中的每个词和其他词的句子。目的是为了学习句子中的依赖关系,抓住句子的内部结构。变压器的结构图架构如图3。
编码器和解码器的变压器都是多层网络结构,和编码器和译码器米相同的层。在编码器中,每一层包含两个子层,即self-attention机制层和前馈神经网络层。在每一层的译码器,有3次层。除了一个面具self-attention机制层和前馈神经网络层,还有一个多线程的注意机制译码器的输出。剩余子层之间的连接使用,剩余的方法连接可以通过以下公式表示:
其中,代表的输出我th子层和表示层的功能。
3.2。双语单一任务模型
在这篇文章中,年代和t用来表示句子的集合在源语言和目标语言;米年代和米t分别是单语语言模型训练的源语言和目标语言;和米年代⟶t和米t⟶年代是用来表示源语言。单任务操作的过程模型主要由以下三个步骤的预测概率目标语言和目标语言的翻译模型的源语言。(1)初始化:模型的初始化是大致分为两个方面,第一个方法使用word2vec训练这个词向量的两种语言分开,然后将这两种语言的词向量映射到相同的潜在空间通过学习一个变换矩阵。通过这种方式,一个双语词汇表可以获得具有良好的精度。第二种方法使用byte-pair编码(BPE)作为subword单元的单词。的优势,同时减少词汇量的大小,它消除了翻译过程中的“UNK”问题。此外,与第一种方法相比,第二种方法选择混合和争夺两个单语语料库学习词向量特征联系在一起。源语言和目标语言可以共享相同的词汇。(2)语言模型:在双语单一任务模型,语言模型的降噪autoencoder最小化损失函数 其中,指出这个句子年代属于叉的预期损失年代和K(一个)表示添加噪声后的句子一个现有的句子年代;方法是交换一些单词在句子中的位置或删除一些单词。语言模型:本质上是把句子的训练过程K(b)添加噪声的源输入的句子,和最初的句子年代目标输入的句子。(3)反向翻译:反向翻译的过程是一个训练的过程pseudoparallel句子成对平行句对。培训损失函数公式所示(7)。
反向翻译过程是治疗(K′(b),b)和(K′(一个),一个)平行句子对培训,将无监督问题转换为监督的。重复(2)和(3)是完整的双语单一任务模型的训练过程。
3.3。多语言和多任务模型
多语言多任务模型变压器下的多任务模型获得的培训架构。假设目前有三种语言L1, L2, L3单语语料库,不相互平行,多任务模型包括6培训任务,即L1⟶L2, L2⟶L1, L1⟶L3, L3⟶L1, L2⟶L3, L2和L3⟶。灵感来自杨等人的研究。27),为了区分每个语言的语义结构在学习另一种语言中包含的有用的结构信息,本研究建立一个编码器和译码器对于每个语言,但分享一些层的参数。参数的优化过程λ下列公式所示:
其中,米={1,2,3,4,5,6}的指数是翻译任务;U是句子的数量对;和一个和b在源语言和目标语言的句子在当前的翻译任务。这些参数设置启用不同的语言对学习有用的信息在其他语言。
为了加强共享潜在空间的作用,本文列车生成对抗网络G之间建立三个分类任务三个编码器对应三种语言。它的作用是预测当前编码语言的范畴。把叉损失如下公式所示:
其中,ED (年代′)代表当前的预测结果编码的句子年代L′通过编码器的语言,年代′可能来自于源语言和目标语言;是生成的参数对抗网络G;和L∈{L1, L2, L3}。
3.4。主题相似度模型
主题模型是一种统计模型用于发现抽象主题领域的机器学习和自然语言处理。主题措施之间的相似程度,相似模型的翻译规则和主题分布语言翻译。为了计算之间的相似性翻译规则和语言翻译,我们需要分配一个分布概率主题同时源语言和目标语言的翻译规则。使用这个概率分布特征的源语言和目标语言之间的关系这一规则在每个主题。
如果年代用于表示源语言翻译规则的一部分,t用于表示目标语言翻译规则的一部分,topic_吗年代用于表示源语言的主题设置,和topic_吗t用于表示这个话题目标语言,然后对任何翻译规则,将会有两个主题分布的规则:P(topic_年代|年代)代表的主题分布概率源语言翻译源语言中的规则的一部分,P(topic_t|t)代表的主题分布目标语言的翻译规则的目标语言概率。
主题相似度模型,您可以选择车辆疾驰灾难(HD)计算之间的相似主题的翻译规则和文档翻译。其中,高清相似性评价方法是一种对称算法,已经广泛用于比较两个分布之间的相似性。假设分布P(主题|年代)的翻译规则的话题和分布P(主题|t)从文档中给出的话题是,两者之间的相似性计算公式可以写成
显然,通过比较所有语言的翻译候选人和HD翻译,翻译候选人和翻译后的语言之间的相似性。在信息理论中,较小的高清的距离代表了更大的相似性,因为我们的任务是找到最大的翻译选择的语言和翻译后的语言之间的相似性最后的翻译结果。的主题相似度模型,我们的目标是选择最相似的翻译规则翻译语言实现自适应翻译使用主题信息的基础。
3.5。机器翻译模型和过程
phrase-based统计机器翻译的源语言句子年代= {年代1,年代2、…年代n}翻译使用对数线性模型。通过比较所有翻译候选人的高清距离语言翻译,翻译候选人可以通过翻译语言和翻译后的语言之间的相似性,发现翻译最大的相似性之间的选择和翻译语言翻译后作为最终的翻译结果。目标翻译最大的相似性t= {t1,t2、…tn}:
其中,Dis (年代,t)是功能和特征λn是重量特征。
摘要机器翻译算法包括三个阶段的处理、培训、调优,和翻译。如图4,有必要准备训练数据,目标语语言语料库,开发集和测试集。
训练数据是双语翻译语料库,主要是句子对齐。预处理和字对齐后,得到了各种各样的翻译规则,包括短语转换表,分类概率、和最大熵分类参数。
对于目标语语言语料库,您可以使用目标语言的训练数据,或者你可以添加更多的单语数据,主要是在句子层面上,培养语言模型。除了生成的各种翻译规则和语言模型训练过程中,解码器的操作还需要特征权重。调优的过程是选择功能发展设置权重。
开发集是一个源语言句子集合,和每一个源语言句子有一个或多个参考译文在目标语言。调优通常使用最小误差设置的发展培训。它需要不断迭代的译码器当前的特征参数,自动计算并比较蓝色分数,然后再改变权重来解码,直到达到上限的迭代的数量或翻译系统是稳定的。这是一个多维参数优化的问题。译码器可以实现翻译过程通过使用翻译规则,语言模型和特征权重在训练过程中获得的。
使用测试集进行翻译并执行蓝色评分观察翻译翻译系统的影响。
4所示。结果与讨论
4.1。实验装置
实验选择1000万单个的句子在英语,德语,法语WMT2007 WMT2010语料库。实验使用亚当作为优化器,失活率(辍学)被设置为0.1,这个词的尺寸设置为512,最高刑期的长度是175,与超过175个单词和句子会进行拦截的超长部分。培训步骤是3.5×105,其余的模型的参数设置为默认参数的变压器模型。三语翻译多任务模型,三种语言的词汇是共享和BPE操作数设置为85000。快速文本工具是用来训练的跨语言词向量学习subworded训练集。
评估的短语级翻译,如果翻译结果候选人是一样的任何一个标准的答案,我们认为这是正确的。评估的字面意思翻译,翻译结果使用的评价指标不区分大小写的第4单元蓝色价值和使用引导重采样方法来测试评价结果的意义。
4.2。单一任务模型和多任务模型之间的性能比较
图5总结了翻译单一任务的性能模型和多任务模型在测试集上。从图可以看出5本文改进的多任务模型的四个翻译任务,但改善的效果是完全不同的。两个翻译任务的英语⟶德语和德国⟶英语,测试结果表明,蓝色值少改进。两个翻译任务的德国⟶法国和法国⟶德语,性能明显改善,和蓝色的价值增加了2.88和3.01,但两个翻译任务的英语⟶法语和法语⟶英语,翻译多任务模型的性能下降。
在本文的多任务模型,一个共享的词汇是用于多种语言,这是特别重要的选择一个合适的词汇。在这方面,本文也做了几个实验比较分析。实验结果如表所示1。从表可以看出1当BPE操作数是85000和90000,实验结果较好,但蓝色的价值观两套BPE操作数是没有多少不同。在一些语言对的情况下,祝福BPE操作数的价值90000的祝福值低于BPE操作数为85000。据估计,当进一步增加词汇量的大小,提高实验结果并不重要。因此,在本文的最终模型,选择BPE操作数的大小是85000。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了比较训练速度,本研究实验中的参数,需要培训。在单任务操作双语翻译任务中,参数的数量级是1.3×108,而在本文的多语言和多任务的翻译模型,总参数约1.7×108。多语言翻译模型的参数的数量仅仅是双语翻译系统的1.3倍,这是远小于6的参数之和分别训练的任务。与单一任务模型相比,多任务模型的总培训时间大约是减少一半。为了比较两个模型的翻译性能和收敛速度更直观,德国⟶法国和法语⟶德语翻译任务的翻译效果改变了最,线形图是用来比较双语单一任务模型和本文提出的多语种;多任务模型如图的效果6。
4.3。检索文档的数量的影响和隐层的长度
我们比较的影响检索文档的数量和隐层的长度翻译模型的准确性和结果如图所示7。我们发现,对于大多数的结果,检索文档的数量达到最好的翻译准确性的时候N= 10。这个结果证实了信息检索的主题相似度方法非常有利于确定主题信息,然后它有利于选择翻译规则,一个重要的角色。然而,在实验中,当N很大,例如,什么时候N= 50,翻译性能急剧下降。这是因为随着检索文档的数量进一步增加,topic-irrelevant文档将被引入到神经网络的学习。无关紧要的文件将topic-irrelevant真实的话,这将影响性能的神经网络学习。
另一个重要因素是长度l神经网络的隐层向量。在神经网络学习,这个参数通常是通过经验调整。在图7可以看出,当l小,翻译系统的准确性相对较高。事实上,在的情况下l≤600,翻译性能的差异非常小。然而,当l= 1000,翻译的准确性比其他情况下。主要原因是神经网络参数的数量是如此巨大,以至于不能学得很好。我们知道,当l= 1000,总共有100000×1000的参数之间的线性和非线性层网络。当前训练数据规模并不足以支持这种网络参数训练水平,因此该模型可能会陷入局部最优和不可接受的话题表示信息。
4.4。短语,能翻译语句的性能
在短语级翻译过程,表中2显示前5的短语翻译结果的准确率的候选人。从实验结果可以看出,我们的方法和方法提出了文献[15)、文学(19]和文献[20.)明显好于单一任务的翻译模型,证明了我们的方法是获取最新的翻译。在知识有很大优势。
的字面意思翻译评价,我们测试了不同类型的文本的翻译质量,并与其他算法。实验结果如图所示8。虽然翻译方法在本文中不使用任何pretrained模型,其翻译结果与传统的机器翻译的结果是基于大量的训练数据。这表明翻译本文算法获得的知识是非常有效的。
5。结论
每一种都有其各自的特点和灵活的形式,使自动语言处理,包括机器翻译语言之间,需要解决的一个难题。同时,如何为用户提供高质量的翻译服务已成为一个很难解决的问题。因此,本文测量匹配程度的翻译规则通过添加相关学科信息的翻译规则和动态计算每个翻译规则和文档之间的相似度在解码过程中翻译。然后,通过多个培训任务的联合训练,源语言可以学习有用的语义和结构信息的单语语料库第三语言,不是平行于当前过程中两种语言翻译成目标语言。最后,仿真实验证明了该算法的有效性。实验表明,本文算法明显优于对比算法的方法,并且只使用训练数据的一部分,可以达到更好的翻译效果比原来的训练数据,提高了翻译性能,同时降低了翻译系统训练和解码成本。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者声明没有已知的财务利益冲突或人际关系可能出现影响工作报告。
确认
这项工作是支持的科研项目由陕西省教育局:西安旅游文本翻译策略研究的原型和模型理论(程序没有。18 jk0298)。
引用
- d .郭w·周答:李et al .,“分层复发深度融合使用自适应视频摘要手语翻译,“IEEE图像处理,29卷,第1590 - 1575页,2019年。视图:出版商的网站|谷歌学术搜索
- r . Shadiev A .太阳,和y . m .黄”的研究促进跨文化理解和跨文化敏感性使用语音必经关口语言翻译技术,”英国教育技术杂志》上,50卷,不。3、1415 - 1433年,2019页。视图:出版商的网站|谷歌学术搜索
- ”o . Kernberg Treinta metodos对位destruir la creatividad de los candidatos psicoanalistas,”航空杂志上Psicoanalisis卷,85年,页47 - 62,2019。视图:谷歌学术搜索
- i r . Beiler说,j . Dewilde”翻译translingual写英语练习作为一个额外的语言,“《现代语言,卷104,不。3、533 - 549年,2020页。视图:出版商的网站|谷歌学术搜索
- h . c . Ouertani l . Tatwany和l . Tatwany”基于增强现实技术的移动应用程序实时阿拉伯语翻译,“通信科技,4卷,不。1,30-37,2019页。视图:出版商的网站|谷歌学术搜索
- Jha, A·戴伊r·库马尔和诉Kumar-Solanki”新方法在视觉问答通过参数预测使用更快的地区卷积神经网络为基础,“国际期刊的交互式多媒体和人工智能,5卷,不。5,30-37,2019页。视图:出版商的网站|谷歌学术搜索
- m·a·迪Gangi m . Negri和m . Turchi“适应变压器端到端口语翻译,”2019年INTERSPEECH学报》上。国际演讲交流协会(ISCA)奥地利格拉茨,页1133 - 1137,,2019年9月。视图:出版商的网站|谷歌学术搜索
- s . k . Mahata d Das, s . Bandyopadhyay”Mtil2017:机器翻译使用递归神经网络在统计机器翻译,“《智能系统,28卷,不。3、447 - 453年,2019页。视图:出版商的网站|谷歌学术搜索
- y夏”,研究基于神经网络,统计机器翻译模型”计算,卷102,不。3、643 - 661年,2020页。视图:出版商的网站|谷歌学术搜索
- p . Iswarya诉罗陀,“适应混合动力机器翻译技术跨语言文本检索系统”工程科学与技术杂志》上,12卷,不。3、648 - 666年,2017页。视图:谷歌学术搜索
- a . Imankulova t佐藤,m . Komachi”过滤伪并行语料库提高资源缺乏神经机器翻译,“ACM交易在亚洲和资源缺乏语言信息处理(TALLIP),19卷,不。2、硕士论文,2019页。视图:出版商的网站|谷歌学术搜索
- k . j . Lee曹,t·霍夫曼,“完全没有明确的分割,字符级神经机器翻译”计算语言学协会的事务5卷,第378 - 365页,2017年。视图:出版商的网站|谷歌学术搜索
- j . a . Morente-Molinera g·寇,c .彭日成f . j . Cabrerizo和大肠Herrera-Viedma”,一个自动程序创建模糊本体从用户的观点使用情绪分析过程和multi-granular模糊语言建模方法,”信息科学卷,476年,第238 - 222页,2019年。视图:出版商的网站|谷歌学术搜索
- b, d, j . Su和h段,“环境敏感复发编码器神经机器翻译,”IEEE / ACM交易音频、语音和语言处理,25卷,不。12日,第2432 - 2424页,2017年。视图:出版商的网站|谷歌学术搜索
- c .公园,y, k .公园,和h Lim解码策略提高机器翻译资源缺乏,“电子产品,9卷,不。10,1562年,页2020。视图:出版商的网站|谷歌学术搜索
- 刘张l .赵a, y, h·范”编码基础结构信息联合中国分词和词类,”模式识别的字母卷,138年,第169 - 163页,2020年。视图:出版商的网站|谷歌学术搜索
- 凌z, h .赵k . et al .,“有效的文本理解,subword分割”IEEE / ACM交易音频、语音和语言处理,27卷,不。11日,第1674 - 1664页,2019年。视图:出版商的网站|谷歌学术搜索
- r . y . Zhang,22和t . Jaakkola“Aspect-augmented敌对的网络域的适应,”计算语言学协会的事务5卷,第528 - 515页,2017年。视图:出版商的网站|谷歌学术搜索
- 傅z . j . Wang, m .妞妞,p .张,张问:“Multi-feedback成对排名推荐通过对抗训练,”中国电子杂志卷,29号4、615 - 622年,2020页。视图:出版商的网站|谷歌学术搜索
- r . Dabre c .楚,A . Kunchukuttan“多语言神经机器翻译的调查,”ACM计算调查,53卷,不。5,1-38,2020页。视图:出版商的网站|谷歌学术搜索
- l . h . Baniata美国公园,S.-B。公园,“multitask-based与词性标记神经机器翻译模型集成的阿拉伯语方言,“应用科学,8卷,不。12,2502页,2018年。视图:出版商的网站|谷歌学术搜索
- m . r . Costa-jussa”功能范式:深度学习在机器翻译中,“人工智能研究杂志》上卷,61年,第974 - 947页,2018年。视图:出版商的网站|谷歌学术搜索
- n Pourdamghani和k .骑士,”邻居帮助穷人:提高资源缺乏使用相关语言机器翻译,“机器翻译,33卷,不。3、239 - 258年,2019页。视图:出版商的网站|谷歌学术搜索
- y刘、h·李和m . Wang“单一图像dehazing通过大天空区域分割和多尺度打开黑暗的通道模型,”IEEE访问5卷,第8903 - 8890页,2017年。视图:出版商的网站|谷歌学术搜索
- c . m . y . Liu疯人,p . k . Wong“极端的学习机器的巨大的假设评估统计机器翻译,“认知计算,9卷,不。2、285 - 294年,2017页。视图:出版商的网站|谷歌学术搜索
- j . Su j .曾d .熊y . Liu m . Wang和j .谢“hierarchy-to-sequence注意力神经机器翻译模型”,IEEE / ACM交易音频、语音和语言处理,26卷,不。3、623 - 632年,2018页。视图:出版商的网站|谷歌学术搜索
- f . z, w . Chen王et al .,“无监督神经与体重共享,机器翻译”美国第56计算语言学协会的年度会议,页46-55,墨尔本,澳大利亚,2018年7月。视图:谷歌学术搜索
版权
版权©2020瑞王。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。