Sublemma-Based神经机器翻译

文摘

强大的深度学习方法可以让我们从功能工程在许多人工智能任务。这种方法能够从输入数据中提取有效的表示,如果数据是足够大的。不幸的是,这并不总是可能的收集质量数据。等任务在资源缺乏的情况下,俄罗斯⟶越南机器翻译,洞察数据可以弥补他们卑微的大小。在这项研究中造型俄罗斯⟶越南翻译,我们利用输入俄语单词分解成还subfeatures不仅特性。首先,我们俄罗斯的单词分解成一组语言特点:词性、形态、依赖标签,和引理。第二,引理特性进一步分为subfeatures标签与标签对应位置的引理。与源端一致,越南目标句子表示为子标志序列。Sublemma-based神经机器翻译在我们实验证明自己Russian-Vietnamese双语TED演讲收集的数据。实验结果表明,该模型优于最好的俄罗斯越南模型0.97蓝色。此外,机器自动判断实验结果验证了人类的判断。提出sublemma-based模型提供了一个替代现有模型当我们建立翻译系统从一个屈折丰富语言,如俄罗斯、捷克、保加利亚,在缺乏资源的环境。

1。介绍

许多神经模型介绍了机器翻译(1- - - - - -5]。尽管他们有不同的架构,他们都遵循sequence-to-sequence的模式。源的句子表示为单位序列的来源。源序列是由神经处理模型;然后模型生成相应的目标序列的单位。目标序列然后连接形成目标句子。最直观的表示源/目标单元的单词。如果双语数据集用于训练神经机器翻译(NMT)模型是足够大,模型将能够可靠的统计源/目标单词学习。不幸的是,在实践中,在许多情况下有限的数据,如俄罗斯越南翻译任务。的语言对低资源。此外,俄罗斯是一个高度屈折的语言。一个单词可以有不同的形式在句子根据其语法作用。属性会导致高的机会,我们将满足单词形式不足够频繁发生humble-size训练数据集。

第一次尝试解决俄罗斯的稀缺的数据问题越南翻译工作的任务可以找到阮et al。6]。作者使用系统mixed-level表示,俄罗斯源单位subwords和越南目标单位是词。由于分工的俄语单词、稀有词取而代之的是更常见的subwords;因此,罕见的词汇问题的严重程度降低。俄罗斯的另一个解决稀缺的数据问题越南阮等提出的翻译任务。7]。他们将俄罗斯源单词分解成一组语言特点:词性、形态、依赖标签,和引理。

我们已经评估可用的单位表示的方法Russian-Vietnamese双语收集的数据从TED演讲8]。实验结果表明,该分解方法明显优于mixed-level表示。尽管如此,我们仍然相信subword表示的有效性,已成为许多NMT模型(一个默认的一部分9- - - - - -13]。因此,我们的实验结合源单词分解和subword表示。具体来说,我们执行一个两步过程。首先,我们将俄罗斯源单词分解成一组特性如源单词分解方法。之后,我们继续把词分为sublemmas使用BPE算法(14]。因为许多俄罗斯前题来自同一根不同的前缀或后缀,是有意义的划分成更小的部分。例如,动词“приходить”(到达),“входить”(进入),“проходить”(去),“подходить”(方法),“выходить”(离开),“доходить”(达到),和“уходить”(离开)有相同的根部分“ходить”(去),添加了一个前缀来修改他们的意思。有时,这两个前缀和后缀修改相同的根来创建不同的前题;例如,动词“являть”(显示),“появлять”(出现),“являться”(如图所示),和“появляться”(出现)有相同的根“являть。”

总的来说,我们建议对俄罗斯sublemma-based NMT模型越南翻译。在俄罗斯的来源方面,我们代表的翻译单元作为一个组合词性标记,形态、依赖标签,sublemmas列表和相应的标签通知sublemma是一开始,中间,或者最后一个引理的一部分。在越南的目标方面,我们标记的句子与BPE子标志序列的算法。一个令牌是由空间分隔的字符序列。在俄罗斯,一个令牌是一个词。在越南,有一些情况下,当一个令牌是一个字。通常,一个越南的令牌是一个音节。在这项工作中,我们使用术语“子标志”表示令牌的一部分,无论它是一个词或音节。

这项工作是由六个部分组成的。第一节介绍我们的研究。第二部分回顾相关工作。第三部分描述我们提出sublemma-based NMT模型从先进的变压器NMT模型修正。第四节描述材料和方法。第五部分介绍了实验结果和分析。结论从这个工作在最后一节给出。

在本节中,我们简要描述翻译单元的方法表示NMT模型中影响我们的学习。

而使用的语言特征作为翻译单元的一部分,普遍在传统因素统计模型(15- - - - - -18),直到最近,Sennrich和Haddow一起喝19)已经应用在现代深度模型。作者补充源词的功能。因此,他们代表一个源单元的组合源词及其语言输入功能。他们的方法对英语表现良好德语和英语罗马尼亚的翻译任务。为他们的俄罗斯越南翻译系统,阮et al。7]进一步通过删除源词的列表功能。他们代表一个源翻译单元的组合语言特点:词性,形态标记,依赖标签和引理。在目标越南方面,他们只是用文字作为翻译单元。与源单词NMT模型分解超过基线(NMT模型包括一个Sennrich和Haddow一起喝19]。他们的源代码字分解处理的第一步在我们两阶段过程来表示源翻译单元。

处理罕见的词汇问题,荣誉和理查德森(20.SentencePiece)创建了一个独立于语言的分词算法,把单词分成subwords。他们的工作来自一个直觉,小单位的罕见的词,如化合物,更容易翻译。他们证明了算法在一个英语的质量日文翻译任务。作为工作的奖赏和Richarson20.),Sennrich et al。14]适应两字节编码(BPE)算法最初用于压缩把单词分成subwords。首先,他们认为字符作为翻译单元。考虑词作为翻译单元的序列,他们合并频繁对形成新的翻译单元。他们重复的合并过程预定义的次数。显然,他们的方法也是独立于语言。他们为英语翻译质量的改善报告德语和英语俄罗斯的翻译任务。在这项工作中,我们实际上BPE算法申请代表源翻译单元。而不是分词在最初的工作中,我们使用算法把词分成sublemmas,因为我们已经把俄语单词分解为功能包括引理放在第一位。

是独立于语言的工具,BPE和SentencePiece算法非常受欢迎,因为它们可以为所有的语言操作。然而,这些美妙的工具不应该盲目使用。在俄罗斯越南新闻翻译任务,阮et al。6)表明,一个NMT模型与mixed-level表示超过基线NMT模型BPE算法应用于翻译双方的地方。影响工作为中国传统的统计机器翻译模型越南(21),作者只在俄罗斯源端应用BPE算法,在使用单词在越南的目标方面,考虑到不同的BPE算法对每一方的影响他们的双语语料库。尽管他们的方法很有趣,但它未能考虑稀有外国命名实体,通常发现在越南从外语文本翻译。因为我们的双语语料库包含许多外国两边命名实体和我们已经应用BPE算法在源端,我们选择使用BPE方法标记越南目标句子成子标志序列。

2.1。Sublemma-Based Transformer模型

阮的建议等。22),我们的sublemma-based NMT模型是基于最先进的模型的变压器4]。该模型也有类似的建筑除了嵌入层编码器的变压器。在本节中,我们描述了源和目标翻译单元表示和编码器的变压器模型采用修正提出了翻译单元表示。

2.2。翻译单元表示

2.2.1。源翻译单元的Sublemma-Based表示

我们代表一个源翻译单元的组合sublemma-based特性,后一个两步过程。

在第一步中,我们将俄罗斯源句子转换成一系列的语言特点:词性(POS)、形态(铁道部)、依赖标签(DEP)和引理(LEM),源单词分解方法(7]。语法解析是自然语言处理的帮助下一个工具包,节(23]。典型的俄语单词词性标记所示普遍依赖关系树图资料库(24),如名词、代词、动词、辅助,数字粒子,限定词,形容词和副词。俄罗斯有一个丰富的形态。俄罗斯一词是变形从原来的引理,根据其词性在句子和语法作用。一个词在句子中的语法作用是在依赖加一个标签25]。俄罗斯短句子的一个例子是转化为一系列的语言特征提出了表1。


单词	POS	铁道部	部	登月舱

Когда	SCONJ	_	马克	когда
вода	名词	为了更好=阿齐兹·伊南、案例=笔名,性别=有限元数=唱歌	Nsubj	вода
поднимается	动词	方面= Imp,心情=印第安纳州,数量=唱,人= 3,紧张=总统,VerbForm =鳍,声音=中期	Advcl	подниматься
,	PUNCT	_	Punct	,
потом	阿德	度= Pos	Advmod	потом
отступает	动词	方面= Imp,心情=印第安纳州,数量=唱,人= 3,紧张=总统,VerbForm =鳍,声音=	根	отступать
,	PUNCT	_	Punct	,
находишь	动词	方面= Imp,心情=印第安纳州,数量=唱,人= 2,紧张=总统,VerbForm =鳍,声音=	连词	находить
в	ADP	_	情况下	в
нем	吃	= Loc,性别:德文=,= 3 =唱,人	长方形的	он
новые	邻接的	为了更好=阿齐兹·伊南、案例= Acc,度= Pos = Plur数量	Amod	новый
ракушки	名词	为了更好=阿齐兹·伊南、案例= Acc,性别=有限元数= Plur	Obj	ракушка
。	PUNCT	_	Punct	。

在第二步中,我们应用BPE方法,分段sublemmas前题。分割后,sublemmas比其相应的长序列的序列的其他特性。工作后Sennrich和Haddow一起喝19),我们播放其他特性的序列,以便他们有相同的长度作为sublemmas的序列。具体来说,所有sublemmas提取从一个引理将具有相同标签的功能对应引理。此外,使用他们的subword符号,我们为每个sublemma分配一个标签(标签),根据sublemma的位置相对于最初的引理。sublemma可以开始(B) (I)内,结束(E),或完整的引理(O)。此外,里面的开始和sublemmas后缀为字符“@@”通知他们的角色。sublemma-based语言特征序列的一个示例如表所示2。


Sublemmas	标签	POS	铁道部	部	从引理

когда	O	SCONJ	_	马克	когда
вода	O	名词	为了更好=阿齐兹·伊南、案例=笔名,性别=有限元数=唱歌	Nsubj	вода
подниматься	O	动词	方面= Imp,心情=印第安纳州,数量=唱,人= 3,紧张=总统,VerbForm =鳍,声音=中期	Advcl	подниматься
,	O	PUNCT	_	Punct	,
потом	O	阿德	度= Pos	Advmod	потом
от@@	B	动词	方面=顽皮的小情绪=印第安纳州、数量=唱歌,人=3,紧张=总统,VerbForm=鳍、语音=行为	根	отступать
ступать	E	动词	方面=顽皮的小情绪=印第安纳州、数量=唱歌,人=3,紧张=总统,VerbForm=鳍、语音=行为	根	отступать
,	O	PUNCT	_	Punct	,
находить	O	动词	方面= Imp,心情=印第安纳州,数量=唱,人= 2,紧张=总统,VerbForm =鳍,声音=	连词	находить
в	O	ADP	_	情况下	в
он	O	吃	= Loc,性别:德文=,= 3 =唱,人	长方形的	он
новый	O	邻接的	为了更好=阿齐兹·伊南、案例= Acc,度= Pos = Plur数量	Amod	новый
ра@@	B	名词	为了更好=一转眼,例=Acc、性别=有限元法、数量=Plur	Obj	ракушка
ку@@	我	名词	为了更好=一转眼,例=Acc、性别=有限元法、数量=Plur	Obj	ракушка
шка	E	名词	为了更好=一转眼,例=Acc、性别=有限元法、数量=Plur	Obj	ракушка
。	O	PUNCT	_	Punct	。

总的来说,我们代表俄罗斯源句子的顺序集合sublemma-based特点:sublemma, sublemma标签,词性标记,形态标签,标签的依赖。每个源翻译单元表示的一组功能。

2.2.2。目标翻译单元表示

应用BPE算法(14),我们越南目标句子划分为子标志序列。算法附加字符“@@”开始和内部子标志为以后合并操作。序列的目标子标志用于火车翻译模型。生成的目标子标志合并形成目标序列的句子,“@@基于字符。“越南的句子和相应的子标志序列如表所示3。


越南的句子	“六世vậy钢铁洪流bắtđầu lam việc với tạp气国家地理学会cung cac包khac va dẫn cac cuộc tham hiểm tới南Cực。”
子标志序列	“六世vậy钢铁洪流bắtđầu lam việc với tạp气国家Geo@@图形so@@ ci@@ e@@保泰cung cac khac va dẫn cac cuộc tham hiểm tới南Cực。”

在表3,我们可以看到BPE算法着重于令牌的外国命名实体”地理学会。“这段实体转化为一系列子标志“Geo@@图形So@@ ci@@ e@@泰。”

2.3。嵌入层Sublemma-Based编码器的变压器模型

在[7,19),我们认为所有功能从 - - - - - -th源翻译单元的源序列作为字符串在各自的领域 ,在哪里 , ,组sublemmas, sublemma标签,词性标记,形态标签,分别和依赖标签。的可训练的嵌入的一个功能是提取相应的字典吗 ,在哪里是一个预定义的大小的嵌入特性(方程(1))。

的嵌入源翻译单元表示为连接嵌入的特性(方程(2))。

由于变压器模型不利用翻译单元的顺序在其核心层,它部署位置嵌入原则,如正弦位置嵌入(4]。在总, - - - - - -th源翻译单元的源序列的整体嵌入计算以下方程: 在哪里。

3所示。材料和方法

3.1。材料

NMT评估模型,我们使用双语Russian-Vietnamese组成的语料库句子成对的长度范围内(30 10令牌,令牌)提取TED演讲(8]。所选句子结束标点符号和只包含字符和标点符号。在[26- - - - - -28),我们随机将语料库分成三个数据集:培训、开发和测试数据集。具体来说,一组47750个句子对随机选择从语料库和作为训练数据集。此外,一组1500个句子对选择从左边语料库和用作开发数据集。剩下的1500个句子对作为测试数据集。统计数据集提出了表的总结4。


俄罗斯/越南	培训	发展	测试

平均句子长度	16.1/18.1	16.2/21.2	16.2/21.3
独特的令牌	73205/25939	7202/2646	7120/2692
所有的标记	766446/866175	24257/31741	24363/31948

在表4,我们使用术语“令牌”来表示一个字符序列分隔的空间。俄罗斯语言,它可以是一个词,越南音节或标点符号。

4所示。方法

我们比较了sublemma-based Transformer模型有三个基线变压器模型。这些模型推导模型的基础。第一个基线模型mixed-level Transformer模型(6]。第二个基准模型是subtoken-based Transformer模型(14]。第三个基准模型是变压器模型源代码字分解(7]。我们创建所有模型与一个开源库,OpenNMT-tf [29日,30.]。基线模型的体系结构和hyperparameters中可以找到相应的工作。在这里,我们只描述我们如何构建模型。

该模型描述的报道,我们使用节自然语言处理工具(23)将俄语单词分解成一组特性。然后,我们使用BPE算法(14)与10000年把词分成sublemmas合并操作。我们也使用该算法把越南目标句子分成子标志序列。物品的数量在每个特性领域提出了表5。


语言方面	词汇表	大小

源	Sublemmas	9417年
源	Sublemma标签	4
源	词性标记	15
源	形态学的标签	484年
源	依赖标签	38
目标	子标志	8628年

我们应用的大小179,11日,22日,22日和22 sublemmas嵌入,sublemma标签,词性标记,形态标签,分别和依赖标签。总的来说,我们使用256维度翻译单元的连接嵌入的来源。

在越南的目标方面,我们也使用的嵌入维的256位宾客代表目标单位。

除了嵌入层,提出sublemma-based变压器模型由6个隐藏层。隐藏层包含8-head注意力子层和512维的前馈神经网络。模型的隐状态组成的256的值。为了防止过度拟合问题,我们应用0.1在所有隐藏层的辍学生。生成翻译,模型包含一个推理模块实现定向搜索算法与波束宽度= 5 (31日]。

所有模型的训练过程如下:(1)首先,我们在15000年火车模型的步骤。在每个培训步骤中,我们使用64个句子对训练数据集的优化的工作描述的熵判据穆勒et al。32]。虽然有很多有效的算法优化,我们选择应用LazyAdam优化器(33),因为它是可用的选择OpenNMT-tf图书馆。我们使用优化器和和学习速度。(2)第二,我们保存的模型参数值,当我们完成培训步骤, 。我们使用开发数据集验证所有候选值的翻译质量。发展提供最好的翻译质量的值数据集模型参数的选择。

我们验证模型与蓝色的翻译质量分数(34]。脚本multi-bleu蓝色分数计算。perl (35]。蓝色是“双语评价替补”的缩写的相似性测量候选人翻译相应的引用。它是组成的几何平均数 - - - - - -克的分数, 。所有 - - - - - -克都从候选人中提取翻译。虽然unigrams单词,三元,三元模型,和4克短语2、3,分别和四个相邻的单词。我们计算一个组成 - - - - - -克分数除以的数量 - - - - - -克出现在引用的总数 - - - - - -克的候选人翻译。

训练后的模型,我们使用测试数据集评估他们的翻译质量。有一个完整的评估,我们不仅使用自动蓝色分数也有限的人类判断翻译的结果。我们陪蓝色评分与人类的判断,因为它有一个明显的缺陷。它只措施完全匹配 - - - - - -克的候选人翻译和引用不管他们的意义。为了解决这个问题,我们比较候选人翻译的含义及其引用,考虑同义词,以及相似的含义。我们为所有的水平,从个别单词,短语和完整的句子。

5。结果和分析

蓝色的分数比较变压器模型如图1。

在基线模型,该模型与源单词分解提供了最佳的得分13.52和13.84蓝色的开发和测试数据集,分别。幸运的是,我们提议sublemma-based Transformer模型优于最好的基准模型开发和测试数据集,提供改进的蓝色得分分别为14.46和14.81。0.94和0.97记录蓝色的改进。

模型的性能顺序为开发数据集是维护的测试数据集:mixed-level模型< <模型与源单词分解< subtoken-based模型提出sublemma-based模型。这种一致性使我们更有信心sublemma-based提出模型的有效性。

除了机器判断自动蓝色分数,我们研究语义限制数量的翻译结果最好的两个模型:该模型与源单词分解(从现在开始,我们称之为“基线”模型)和提出sublemma-based模型(从现在开始,我们称之为“提议”模型)。5例的测试数据集随机选择和研究。

表6显示了源,它的意义、目标和句子的基线预测,提出在第一种情况下的模型。第一种情况似乎容易,因为两种模型提供正确的翻译。虽然模型上选择单词不同于参考,意义都是一样的。例如,动词词组“phủnhận”(否定)模型相似意义参考“chối bỏ”(拒绝)。


源	“Мынеможемотрицатьфакттого,чтовсепотреблениепищичеловечествомимеетглобальныепоследствия。”
意义	“我们不能否认这样一个事实,所有人类食用的食物具有全球意义。”
参考	“Khong公司cach giđềchối bỏsựthật la những gi涌taăn coảnh hưởngđến toan cầu。”
基准模型	“钟ta khong thểphủnhận thực tếrằng越南计量thụlương thực của loai người公司tacđộng toan cầu。”
提出的模型	“钟ta khong thểphủnhận rằng mọi thứ越南计量thụthực phẩm tren toan thếgiớiđều公司hậu quảtoan cầu。”

表7第二个案例研究。一般意义的参考是翻译的两个模型,发现除了一个关键词“Phượng黄平君”(凤凰城)。相应的源命名实体“Феникс”(凤凰城)是一种罕见的词;因此两种模型无法翻译命名实体。然而,该模型在语义上执行比基线模型在这种情况下。”这句话虽然cac鸿đảo”(岛屿)模型和短语“鸿đảo”(岛)的基线模型不同于参考“Quầnđảo”(群岛),我们认为前者翻译是在概念上比后者更接近参考翻译。


源	“НовернемсяобратнокостровамФеникс,которыеявляютсятемойсегодняшнеговыступления。”
意义	“但回到菲尼克斯群岛,这是今天的讲座的话题。”
参考	“Nhưng干草码头lại với Quầnđảo Phượng黄平君,đo la chủđềcủa白陈列chuyện不。”
基准模型	“Nhưng码头trởlại với鸿đảo,đo la chủđềcủa白thuyết陈坎不。”
提出的模型	“Nhưng干草码头trởlại cac鸿đảo Erex, chủđềcủa buổi陈列chuyện hom不。”

表8第三个案例研究。虽然翻译的模型包含许多参考的话,他们的意思是不准确的。主要来源的短语“состальныммиром”(世界)是不正确地翻译成短语“với thếgiới ngoai khong吉安”(与世界在外层空间)和短语“với một thếgiới khac”(与另一个世界)的基线和提出模型,分别。相互比较的模型,我们认为该模型比基线模型在这种情况下。“阮富仲khong吉安”(空间)的模型更好地反映源的意义“впространственномсмысле”(在空间意义上)这个短语“ngoai khong吉安”(在外层空间)的基准模型。


源	“Идавайтесравнимеёсостальныммиромвпространственномсмысле。”
意义	”,让我们来比较一下它与世界其他地区的空间意义。”
参考	“Va干草山没有với phần con lại của thếgiới theo giới hạn khong吉安。”
基准模型	“海山没有với thếgiới ngoai khong吉安。”
提出的模型	“海山没有với một thếgiới khac阮富仲khong吉安。”

表9显示了第四个案例研究。尽管该模型没有生成一个翻译全反射的意义来源,相比之下基线模型。它甚至成功翻译罕见的命名实体“Дубаи”(迪拜)。同时,基线模型完全失败,在这种情况下一个不正确的翻译包含生词< unk >。


源	“ЯпереехалвДубаинапостлидераразработкисодержанияпрограммдляЗападнойтелевизионнойсети。”
意义	“我搬到迪拜作为西方电视网络内容开发领导。”
参考	“钢铁洪流chuyểnđến迪拜với vai有望la người chịu咋叻nhiệm vềnội粪曹mộtđai电视của phương茶。”
基准模型	“钢铁洪流chuyển唱< unk >đểnghien cứu vềcac phần mềmở< unk >。”
提出的模型	“钢铁洪流chuyển tới gần迪拜,một nha lanhđạo những chương陈不管dựng chương陈tại Bờ茶。”

表10显示了第五案例研究。这种情况下再次证明了该模型在翻译罕见的力量的话。биоразнообразия很少成功翻译源词(生物多样性)这个短语“sựđa dạng sinh học”的参考。最罕见的词是句子关键字的来源。由于处理罕见的能力的话,该模型发现自己优于基准模型。翻译由该模型保持源句子的意思。另一方面,基线模型忽略了关键源词,因此提供了一个不完整的翻译。


源	“Этиместанаиболеебогатысточкизрениябиоразнообразияинаиболееважнысточкизренияфункционированияэкосистемы。”
意义	“这些网站是最富有生物多样性和生态系统最重要的功能。”
参考	“Đo la những nơi giau) nhất阮富仲đa dạng sinh học va la关丽珍trọng nhất từ关丽珍điểm chức năng hệsinh泰国。”
基准模型	“Những nơi不giau) vềsựđa dạng va关丽珍trọng nhất所以với cach hệ将军”
提出的模型	“Những nơi不rất冯氏福和với sựđa dạng sinh học va关丽珍trọng nhất với phương diện hoạtđộng của hệsinh泰国。”

语义研究测试用例后,我们发现,提出sublemma-based模型倾向于提供更长,比最好的基准模型更好的翻译。手册之间的相似度评价和自动评估巩固我们的建议使用sublemma-based Transformer模型的模型与源单词分解。

6。结论

在这项研究中,我们提出了一个从俄语翻译成越南sublemma-based变压器模型。它与源单词分解模型的推导和模型与subword表示。在提出的模型中,一个源单位sublemma表示成一个组合,它的标签,词性标记,依赖标签,和形态学的标签,而目标单位是子标志。实验结果表明,我们提出的模型对俄罗斯超过所有可用的模型越南翻译任务。人类对翻译质量的判断模型的验证方面的比较蓝色得分。

站在这项研究的结果,我们建议sublemma-based Transformer模型高度屈折的翻译语言,如俄罗斯、保加利亚、捷克。

数据可用性

在这项研究中使用的数据集是可访问的要求相应的作者Nguyen),通过电子邮件:nguyenchithien@tdtu.edu.vn。

的利益冲突

作者宣称没有利益冲突。

引用

k .赵b . Merrienboer c Gulcehre et al .,“学习短语表示使用RNN encoder-decoder统计机器翻译,”实证方法的会议自然语言处理(EMNLP 2014)1734年,页1724 -多哈,卡塔尔,2014年10月。视图:谷歌学术搜索
M.-T。陈德良、h·范教授和c·d·曼宁,引起神经机器翻译的有效方法,”学报2015年大会在自然语言处理的经验方法《里斯本条约》,页1412 - 1421年,葡萄牙,2015年9月。视图:谷歌学术搜索
j·格林m . Auli d . Grangier d . Yarats和y . n .多芬“卷积序列序列学习,”机器学习的国际会议1252年,页1243 -胡志明市,越南,2017年1月。视图:谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“注意你所需要的,”诉讼进展的神经信息处理系统长滩,页5998 - 6008年,CA,美国,2017年12月。视图:谷歌学术搜索
美国Garg s Peitz美国Nallasamy, m . Paulik”共同学习与变压器模型对齐和翻译,”学报》2019 - 2019年EMNLP-IJCNLP实证方法在自然语言处理和会议9日国际联合会议上自然语言处理,页4453 - 4462,香港,中国,2020年11月。视图:出版商的网站|谷歌学术搜索
t .阮、h·阮和p . Tran Mixed-level神经机器翻译,“计算智能和神经科学卷,2020篇文章ID 8859452, 7页,2020。视图:出版商的网站|谷歌学术搜索
t·阮h·勒,V.-H。范教授,”源单词分解为神经机器翻译,“数学问题在工程卷,2020篇文章ID 4795187, 10页,2020。视图:出版商的网站|谷歌学术搜索
n .雷蒙和i Gurevych蒸馏制造单语句子嵌入多语言使用知识,”学报2020年会议上实证方法在自然语言处理(EMNLP)2020年11月,页4512 - 4525。视图:谷歌学术搜索
丁,A Renduchintala, k .咄”呼吁谨慎选择subword合并神经机器翻译,业务”程序的机器翻译峰会十七,页204 - 213,都柏林,爱尔兰,2019年8月。视图:谷歌学术搜索
吴y和h .赵”,找到更好的神经机器翻译,subword分割”学报中国计算语言学和自然语言处理基于自然带注释的大数据施普林格,页53 - 64年,长沙,中国,2018年10月。视图:谷歌学术搜索
k . c . Wang曹,j .顾“神经与字节级的subwords测试,机器翻译”人工智能学报AAAI会议,页9154 - 9160,纽约,纽约,美国,2020年2月。视图:谷歌学术搜索
m . Pinnis r . Krišlauks d Deksne, t·麦克指标”与改善神经形态丰富语言的机器翻译sub-word单位和合成数据,”学报》国际会议文本、演讲和对话,页237 - 245,布拉格,捷克共和国,2017年8月。视图:谷歌学术搜索
h . Deguchi m . Utiyama a . (t . Ninomiya和e . Sumita“双语subword细分为神经机器翻译,”计算语言学国际会议28日学报》上西班牙巴塞罗那,页4287 - 4297,,2020年9月。视图:谷歌学术搜索
r . Sennrich b Haddow一起喝,桦树,”神经与subword机器翻译的稀有词单位,”美国第54计算语言学协会的年度会议,页1715 - 1725年,柏林,德国,2016年8月。视图:谷歌学术搜索
美国休伊特、大肠Manishina f·勒费弗,“Russian-English机器翻译系统因素,”2013年。视图:谷歌学术搜索
答:桦木、m·奥斯本和p·科恩,“20 supertags分解统计机器翻译,”学报第二车间统计机器翻译9 - 16页,布拉格,捷克共和国,2007年6月。视图:谷歌学术搜索
p·科恩和h .黄平君“分解翻译模型”学报2007年联合会议上实证方法在自然语言处理和计算自然语言学习(EMNLP-CoNLL),页868 - 876,布拉格,捷克共和国,2007年6月。视图:谷歌学术搜索
x l . y . Wang Wang曾庆红,d . f . Wong l . s .曹国伟和y . Lu,“语法纠错,分解统计机器翻译”十八会议程序计算自然语言学习:共享任务马里兰州巴尔的摩,页83 - 90,美国2014年6月。视图:谷歌学术搜索
r . Sennrich b Haddow一起喝,“语言输入特性改善神经机器翻译,”2016年,http://arxiv.org/abs/1606.02892。视图:出版商的网站|谷歌学术搜索
t .奖赏和j·理查森,“SentencePiece:一个简单的和语言独立subword记号赋予器和detokenizer神经文本处理”学报2018年会议上实证方法在自然语言处理:系统演示,页66 - 71年,布鲁塞尔,比利时,2018年11月。视图:谷歌学术搜索
p . Tran、d . Dinh和h·t·阮”基于字符水平和文字水平Chinese-Vietnamese机器翻译的方法,”计算智能和神经科学卷,2016篇文章ID 9821608, 2016。视图:出版商的网站|谷歌学术搜索
t .阮、h·阮和p . Tran”探索神经Russian-Vietnamese语言对机器翻译,”学报的发展智能信息隐藏和多媒体信号处理仙台,页393 - 400年,日本,2021年6月。视图:谷歌学术搜索
p . Qi, y, y, j·博尔顿和c d·曼宁”节:{Python}自然语言处理工具箱对许多人类语言,”2020年,https://nlp.stanford.edu/pubs/qi2020stanza.pdf。视图:谷歌学术搜索
j . Nivre M.-C。de Marneffe f“et al .,“普遍依赖v1:多语种树图资料库集合”学报第十届国际会议上语言资源和评价(LREC 16)Portorož,页1659 - 1666年,2016年5月,斯洛文尼亚。视图:谷歌学术搜索
M.-C。De Marneffe t Dozat:对峙et al .,“普遍斯坦福依赖关系:一个跨语言类型学,”LREC,14卷,第4592 - 4585页,2014年。视图:谷歌学术搜索
p . Tran、d . Dinh和l·h·b·阮”re-segmentation Chinese-Vietnamese机器翻译,”ACM交易在亚洲和资源缺乏语言信息处理,16卷,不。2、22页,2016页。视图:出版商的网站|谷歌学术搜索
p . Tran d Dinh、t·勒和l·h·b·阮“Linguistic-relationships-based方法改善词对齐,”ACM交易在亚洲和资源缺乏语言信息处理,17卷,不。1,硕士论文,2017页。视图:出版商的网站|谷歌学术搜索
t·阮l .阮、p . Tran和h .阮”比起改进的基于变压器神经与校准之前,机器翻译”复杂性,2021卷,2021年。视图:出版商的网站|谷歌学术搜索
g . Klein邓y, y . Kim诉Nguyen j . Senellart和a . m .,“OpenNMT:神经机器翻译工具包,”程序的机器翻译协会13日会议在美洲,页177 - 184,波士顿,MA,美国,2018年3月。视图:谷歌学术搜索
g . Klein f·埃尔南德斯、诉阮和j . Senellart”OpenNMT神经机器翻译工具包:2020版,”程序的机器翻译协会14日会议在美洲(AMTA 2020)奥兰多,页102 - 109,美国2020年10月。视图:谷歌学术搜索
m . Freitag和y Al-Onaizan定向搜索神经机器翻译策略”第一届研讨会论文集神经机器翻译,页56 -,墨尔本,澳大利亚,2017年7月。视图:谷歌学术搜索
r·穆勒s·科恩布利思和g·e·辛顿”,当标签平滑有帮助吗?“在诉讼进展的神经信息处理系统32:2019年年度会议在神经信息处理系统,NeurIPS 2019加拿大温哥华,页4696 - 4705,2019年12月,https://proceedings.neurips.cc/paper/2019/hash/f1748d6b0fd9d439f71450117eba2725-Abstract.html。视图:谷歌学术搜索
d . p . Kingma和j .英航“亚当:{一}随机优化方法”第三学习国际会议上表示,学报》2015年{ICLR}美国圣地亚哥CA, 2015年5月,http://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
k . Papineni Roukos, t·沃德,W.-J。朱,“蓝色:机器翻译的自动评价方法,”美国40计算语言学协会的年度会议,页311 - 318,斯特劳斯堡,宾夕法尼亚州,美国,2002年7月。视图:谷歌学术搜索
p·科恩,h .黄平君a桦木、和c·凯里森,“摩西:开源工具包为统计机器翻译”学报》第45届年会的ACL互动海报和示范,页177 - 180,斯特劳斯堡,宾夕法尼亚州,美国,2007年6月。视图:谷歌学术搜索

复杂性

对传统和深模型复杂度和鲁棒性取舍

文摘

1。介绍

2.1。Sublemma-Based Transformer模型

2.2。翻译单元表示

2.2.1。源翻译单元的Sublemma-Based表示

2.2.2。目标翻译单元表示

2.3。嵌入层Sublemma-Based编码器的变压器模型

3所示。材料和方法

3.1。材料

4所示。方法

5。结果和分析

6。结论

数据可用性

的利益冲突

引用

版权

相关文章

相关文章

复杂性

对传统和深模型复杂度和鲁棒性取舍

Sublemma-Based神经机器翻译

文摘

1。介绍

2。相关的工作

2.1。Sublemma-Based Transformer模型

2.2。翻译单元表示

2.2.1。源翻译单元的Sublemma-Based表示

2.2.2。目标翻译单元表示

2.3。嵌入层Sublemma-Based编码器的变压器模型

3所示。材料和方法

3.1。材料

4所示。方法

5。结果和分析

6。结论

数据可用性

的利益冲突

引用

版权

相关文章

更多相关文章

更多相关文章

相关文章