文摘

在本文的研究中,我们研究的问题使用神经机器翻译模型为现代标准阿拉伯语翻译阿拉伯语方言。神经机器翻译模型的解决方案由递归神经网络促使encoder-decoder神经最近提出了机器翻译模型,给出机器翻译序列学习问题。我们提出一个多任务学习的发展(MTL)模型,股票语言对译码器之一,和每一个源语言都有单独的编码器。该模型可以应用于有限体积的数据以及大量的数据。实验表明,该MTL模型可以确保高质量的翻译相比,单独学习模型。

1。介绍

机器翻译是一个复杂的过程,涉及语义,句法,形态,同时和其他品种的语法复杂性和多种语言。问题是进一步复杂实例的源语言和目标语言有一个广泛的语言不同,例如,在阿拉伯语方言不同于目标语言,如现代标准阿拉伯语,语音,语法,形态和词汇水平1]。此外,阿拉伯语方言形态差异;复杂或复合单词转化为更简单的子单元,以调整形态对称(2]。最近,神经机器翻译模型已成功取得显著成绩的翻译质量。统计机器翻译方法相比,神经机器翻译模型优化质量和性能由概括翻译机器翻译的序列问题。神经机器翻译方法的基础上,远程依赖关系和词汇贫乏的问题统计机器翻译可以解决通过神经网络如长期短期记忆(LSTM)。它可以提供理想的词汇概括和最优序列长期记忆技巧。

阿拉伯语是一个双舌的例子,这是定义在[3)如下:“一个相对稳定的语言情况,除了主要的方言的语言,有一个非常不同的高度将叠加品种,大量的车辆和受人尊敬的身体书面文学的学习主要是通过正规的教育和用于大多数书面和正式的口语的目的,但没有使用任何部门社区的普通对话”。这种语法现象被发现在所有阿拉伯国家。阿拉伯语在其目前的形式实际上是一组不同的品种:现代标准阿拉伯语(MSA)代表的高注册语言,整个地区流行。这个寄存器中常用的教育圈,在正式的场合,一个标准的拼字法。阿拉伯语方言(广告),它也被称为方言,是流行口语品种的现代标准阿拉伯语的形式。阿拉伯语方言随着时间的推移,一直受到许多因素的影响,例如,那些与文化差异如欧洲语言的影响和当地古老的成语的影响。这些品种通常出现在社交媒体平台,像Facebook和Twitter。

翻译的质量恶化时的体积为小语种减少训练数据。遇到的一个挑战AD-to-MSA神经机器翻译系统的开发过程中缺乏可用的数据进行训练。阿拉伯语方言中数较少的语言等可用资源和有限或没有访问这个数据是可用的。许多浪漫语言官方语言的特定区域与规定标准,自然发生在平行语料库像欧洲议会4]。广告没有官方身份,很少写,直到社交网络和论坛的出现。最近发布的平行multidialect全集等MPCA [5)允许资源缺乏的传导太实验(6]。在开发机器翻译阿拉伯语方言的神经系统的另一个问题是缺乏标准化的拼字法对所有的阿拉伯语方言及其众多亚变种。这些包括形态差异明显明显的附著词的使用和词缀在现代标准阿拉伯语,否则不存在。

可信的技术从事阿拉伯语方言仍在制定中,没有先前的研究工作已经发现在应用神经机器翻译阿拉伯语方言。提高整体性能和神经机器翻译的质量,我们建议MTL为了翻译阿拉伯语方言的现代标准阿拉伯语的形式。研究表明,选择的方法是成功的,提出了额外的知识建设端到端神经机器翻译模型的阿拉伯语方言。通过提供综合培训几个自然语言的任务在一个模型中,我们可以利用获得的知识和提高性能的阿拉伯语方言的翻译任务。

2。阿拉伯语方言的挑战

阿拉伯语方言与现代标准阿拉伯语分享许多困难。阿拉伯语方言属于闪族语言与复杂的模板派生形态学。大多数是阿拉伯语口语中动词和名词来自根源的集合,通过用人的过程模板根生产茎。模板是拥有知识表示,显示文字的形态特征,如他们的性别的形式,词性标记,他们的单数和复数形式。此外,干细胞也可能接受前缀和/或后缀,进一步形成复杂的单词;因此,阿拉伯语方言称为高度变形品种。这些前缀包括限定词、并列连词,粒子和介词。相关的后缀包括性别、代词,单数或复数形式标记。它增加了许多隐藏单词当尝试测试。这可以在一个非常大量的单词和,反过来,高水平的稀疏。 Arabic dialects have particularities, some examples of which are explained as follows [7]:(我)缺乏标准化的拼字法。大量的单词用阿拉伯语方言不遵循一个标准的拼写系统。(2)一定数量的单词,发生在阿拉伯语方言不重叠与MSA,由于语言借用的实例。一些例子包括等词语كافيهkAfiyh和“咖啡馆”تاتوtAtuw“纹身”,或货币,如负粒子مش心肌梗死 “不”,بلاش巴拉 “不”。的实例赋切换在阿拉伯语方言也很常见。(3)合并的反复出现的语言实践等多个单词连接在一起,放弃字母的单词مبيجلهاشmbyjlhA (他没有去她的),这是一个“妈”号byjy lhA的连接 ”。(iv)改变一些词缀在形式上与MSA同行相比,如女性第二人称代词كk→كي肯塔基州,第二人称复数代词تمtm→تو太瓦。(v)一些形态模式,不存在MSA发生在阿拉伯语方言,如AitofaEal被动模式,اتكسرAitokasar“摔”。(vi)引入新的语言特性,比如进步بb意思是“做”,消极的后缀ش ,像法国“ne-pas”否定结构。(七)替换某些字母和辅音的突变。例如,在埃及方言,信的牙齿之间的声音ثv经常被تt或替换س年代,如在كثيرkvyr→“多”كتيرktyr和声门的站是滑翔,减少جائز晶澳 工业区→“可能”جايزjAyiz。详细研究这些特性的发生在音韵学在弱辅音的分类,其中包括一个辅音的软化,或fortition,辅音的硬化。(八)元音伸长的发生,如راجلrAjil“男人”رجلrajul,元音缩短等ديماdayomA“总是”دايماdAyomA。(第九)使用复数或单数阳性名词形式,而不是双重或女性复数的形式,把一些文章和介词的语法结构,和使用只有一种形式的名词和动词后缀等ينyn代替ونwn和وا佤邦,而不是ون分别wn。(x)除了上面的,有普遍的特性在非正式的文本,如使用表情符号和字符的重复强调,如ادعوﻭﻭﻭﻭﻭﻭلىAdEwwwwwwwliy“为我祈祷”。

在自然语言处理领域,阿拉伯语方言可能会得到一些关注,特别是在机器翻译的背景下。萨卢姆&哈巴什(8)提出了艾丽莎,这是一个翻译系统构建的基础上转换的规则意味着阿拉伯语方言也被阿拉伯语的标准形式。这个系统使用的黎凡特(约旦、叙利亚和巴勒斯坦),埃及,伊拉克,和海湾阿拉伯语方言。Tachicart & Bouzoubaa [9)提出了一个基于规则的方法,依赖于语言模型翻译MSA的摩洛哥方言。这种方法是基于形态分析通过使用Alkhalil形态分析仪,改编为目的和扩展的摩洛哥方言词缀和双语词典(由电视作品场景和从网上收集的数据)。翻译过程的识别步骤将方言与现代标准阿拉伯语;进一步分析了文本和划分为注释乡音的单位。这些输出是与一个或多个MSA相应的单位通过使用双语词典。在生成阶段,摩洛哥的句子选择然后传递给一个语言模型生成现代标准阿拉伯语的句子。萨达特(10)提出了一个模型对突尼斯的阿拉伯语方言的翻译阿拉伯语的标准化的现代形式。这个模型是基于双语词典设计为特定背景下的翻译练习。它使用一组语法映射规则与一个额外的步骤为目的的消歧是基于语言模型的现代标准阿拉伯语短语选择最好的翻译目标,这是一个基于单词翻译系统。模型获得了一个蓝色的分数(11)为14.32,50个句子组成的测试集从突尼斯方言。此外,提出了一种基于规则的方法由Al-Gaphari [12)将Sanaani现代标准阿拉伯语方言。Sanaani方言在也门的首都。系统设计了77.32%的精度测试的时候Sanaani语料库的9386字。

上面提到的大多数方法专注于基于规则的方法,适用于一组语言规则,使单词放在不同的地方,有着不同的意义取决于上下文。然而,基于规则的机器翻译(RBMT)系统有一个很大的缺点:这种系统的建设需要大量的时间和语言资源;因此,它是非常昂贵的。此外,为了提高质量的RBMT需要修改规则,这需要更多的语言知识。修改一个规则不能保证整体精度会更好。

另一方面,Meftouh [13]PADIC提出这是一个multidialect覆盖现代链阿拉伯语,阿拉伯语语料库Maghrebi方言(突尼斯和阿尔及利亚)和黎凡特的方言(叙利亚和巴勒斯坦)。不像最近的工作在该地区,一些实验在几个统计机器翻译系统,跑过所有可能对语言(现代标准阿拉伯语和方言)。作者调查的重要性在机器翻译使用该语言模型采用平滑技术,包括他们在一个更大的框架内。他们取得了令人满意的结果当翻译各种方言之间在阿尔及利亚,很大程度上是由于共享词汇表。这是说,统计机器翻译翻译时表现明显好巴勒斯坦和叙利亚之间的方言。这是由于两个方言的语言接近;关于翻译成现代标准阿拉伯语,非凡的结果与巴勒斯坦方言。

•克尔(14]介绍了一个通用方法转换句子从埃及方言哼声演唱的MSA的句子。为了自动标记和标签阿拉伯语句子,他们使用的统计方法。方法根据一定的规则是为了创建附加符号用于目标在现代标准阿拉伯语的句子。工作评估的数据集1 k的埃及方言的句子(包括培训和测试分别在800年和200年)。转换为方言词MSA单词,系统实现了88%的准确性,而生产这些话到正确的顺序系统执行78%。然而,统计机器翻译方法提出了一些弱点。SMT需要很高的计算资源和无法处理的阿拉伯语方言的语法问题之一是这个词排序问题。词序的分析找出主题,对象,和动词出现在句子。在此基础上,语言可以归类为动宾(英语),(印度语),和VSO(阿拉伯语)。一些语言,比如阿拉伯语方言允许免费的词序。 This means that the word order does not convey information about subject and object, but instead conveys something different, possibly old and new information. These deeper differences pose challenges to SMT because as sentences get longer in length, they are no longer simple enough to contain a subject, object, and verb, but are complex constructions made up of several sentential components.

最近,模型基于多任务学习(MTL)取得了明显的成效,同时解决了多个学习任务,而利用共性和差异的任务。例如,Collobert [15)提出了一个统一的神经网络设计和学习算法,可以用于不同的自然语言处理任务,如词性标注,命名实体识别,分割,语义角色标注。这个模型的基本多任务架构是分享一些层定义和确定共同的特征。共享层后,其余层分为不同的特定任务。而不是利用人工输入功能优化为每个任务,模型学习的内部表示的基础上大量的未标记的训练数据。此外,CNN模型用于这项工作。

Pengfei刘(16)提出了一种多任务学习建筑共同学习跨多个任务。基于递归神经网络架构(RNN),共享信息的三种不同方法被用来模型文本与特定于任务和共享层。完整的网络是所有这些任务共同训练。实验四个基准测试的结果显示建议的模型分类任务的帮助下能够提高任务的性能的其他任务。Jan Niehues和Eunah曹(17]表明,多任务学习方法是成功的和额外的知识引入一个端到端的神经注意力模型。通过培训各种自然语言处理(NLP)任务共同在一个系统中,模型能够利用共享信息,提高个人任务的性能。这些实验是进行German-into-English翻译任务。词性(POS)标签信息和命名实体(NE)被利用作为额外的语言资源。实验的结果表明,翻译质量可以增加了1.5资源缺乏条件下蓝色的点。POS薄铁片的性能也增强了使用多任务学习方案。

提出MTL模型在本研究被证明是一种有效的方法来提高性能的阿拉伯语方言翻译任务的帮助下其他相关任务。通过共享一个译码器在所有任务和为每个源语言使用独立的编码器,提出MTL模型能够利用多个相关任务中包含的有用信息。此外,提出了MTL模型可以学习正确的目标语言的顺序生成句子,使翻译更清晰和更流利。没有先前的研究工作都集中在使用一个解码器执行多个翻译任务的阿拉伯语方言基于多任务学习的方法。

4所示。神经机器翻译(NMT)

最近,神经机器翻译(NMT)已成为高评级和首选方法被认为是比传统的统计机器翻译(SMT)模型。Bentivogli和路易莎(18]阐述了实验结果在SMT和NMT模型之间的比较和提供的信息,对各种情况下,结果明显通过NMT比那些从SMT模型获得。曹(19]和Sutskever [20.)能够设计一个机器翻译的强大体系结构。在这项工作中,我们利用一个两层encoder-decoder系统(图1)长短期记忆(LSTM)单位。

在encoder-decoder架构由Peyman讨论(21),两个递归神经网络(RNNs)一起训练最大化目标序列的条件概率(候选人翻译) ,给定一个源的句子 输入单词按顺序处理连续直到到达输入字符串的结束。编码器扫描文字和地图输入序列为代表一个固定长度的。在每个时间步中 ,输入单词和隐藏的状态进一步更新。这个过程可以表示如下: 在哪里 ,隐藏的状态(向量),是当时的一步 是一个周期性的函数如长期短期记忆(LSTM) [22]或封闭的复发性单元(格勒乌)。 负责更新的隐藏状态层和其他相关单位(如果有,比如内存单位)。 是一个嵌入矩阵源符号( 嵌入的大小)。词根嵌入矩阵是一个查找表(LUT)的细胞被视为网络参数和更新培训。嵌入(数值向量) th词 (词汇)驻留在 表的行。在下一步中,模型进行加工源序列中的所有单词; 是一个总结的输入序列被称为上下文向量( )。另一个RNN的初始化 并试图产生一个目标翻译。有一个词从采样目标词汇 在每一步的过程。译码器条件选择一个目标词的概率 在上下文向量,最后预测目标的象征,和译码器的状态。这可以表达 在哪里 解码器的隐藏状态。因为我们计算的概率选择 目标词, 应该给一个值的范围 最常见的函数 softmax。编码器和解码器RNNs一起训练日志生成的概率最大化目标翻译和给定一个输入序列 ,所以训练标准可以被定义为 在哪里 是一家集网络参数和 指定训练集的规模。如前所述,在encoder-decoder周期性函数模型不是通常的数学函数。RNNs不够强大来捕获所有功能序列,所以更强大的选择,如LSTM RNNs,是必需的。

5。提出了多任务学习阿拉伯语方言NMT的模型

新兴的深度学习方法,如RNN或CNN模型讨论了马修(23),被认为是合理的方法,适用于在不同的自然语言处理任务。此外,一些新的方法观察结合几个相关的任务在一个统一的模型如多任务学习(MTL)。MTL是一个归纳的方法转移,提高泛化使用域信息包含在相关任务的训练信号感应偏压。鉴于 学习任务 所有的任务或者是相关但不相同的一个子集,MTL旨在改善模型的学习 通过使用中包含的知识 的任务。MTL利用之间的相关性和共享表示相关的翻译任务,比如MSA-ENG AD-MSA提高翻译质量通过学习任务并行。对每个任务可以帮助其他学习任务学习更好。归纳转移的目标是利用额外的信息来源来提高学习对当前任务的性能。归纳转移可以用来提高泛化精度,学习的速度,和学习模型的可解性。一个学习者,学习许多相关的任务在同一时间可以使用这些任务归纳对彼此的偏见,从而更好的学习领域的规律。这可以使学习更准确,允许少量的训练数据的任务是学习。

MTL允许功能开发的隐层为一个任务使用的其他任务。此外,它还允许功能开发支持几个任务不会在任何一个开发任务学习(STL)净单独训练的任务。重要的是,MTL还允许一些隐藏的单位成为专业只是一个或几个任务。其他任务可以忽略隐藏单位找不到有用的保持连接到他们的权重很小。MTL是通过坚持硬或软参数并通过隐藏层的共享。硬参数共享应用通过共享隐藏层在所有任务,因为它可以减少过度拟合的风险。在软参数共享,每个翻译任务有自己的模型和特定的参数。

本研究建立了一个统一的MTL模型做翻译,而不是所有的语言对语言训练和高资源(父模型),然后转移在父的参数模型较低的语言对资源(子模型)初始化和培训。整个模型自动学习的能力和共享所需的知识和信息之间的所有必要的翻译任务。该模型利用广告等两个源语言的翻译和MSA和两个目标语言MSA和英语,分别。模型的架构设计在本节RNN递归神经网络是一种基于encoder-decoder架构有两个目标任务和每个人的任务是一个特定的翻译方向。所有的翻译任务共享一个翻译译码器在所有不同语言对MSA-ENG和AD-MSA等。分享更多的信息在整个任务优先和在这一节中描述的模型细节。此外,训练计划为每个单独的任务将讨论。

5.1。模型架构

encoder-decoder模型的一般体系结构有两个部分:E编码器和译码器图2简要描述和这个架构的概要。基线认为这场景,一个模型用于翻译相关的所有任务。第一个任务是现代标准阿拉伯语的翻译(MSA)英语和第二个任务的翻译阿拉伯语方言(MSA)。因此,所有的部分(两个编码器,一个共享解码器)代表所有的任务。我们将有三个组件E1_MSA E2_AD, D_ENG D_MSA,总共。设计多任务学习的一个主要决策架构是共享整个任务的水平非常有益的MSA翻译阿拉伯语方言。这是出于推荐机器翻译多种语言架构(24- - - - - -26];分享一个翻译解码器输出的影响,分析了模型的质量。分享更多的参数在翻译任务(MSA-English和AD-MSA)通过使用共享的解码器,该模型将合适的足够的训练集;可以捕获更多的形态、语义、词汇、和语法功能的阿拉伯语方言;AD-MSA翻译任务的,给一个更好的性能在足够的阿拉伯语方言数据不可用;它被认为是一个资源缺乏语言。

解码器隐藏层的共享(LSTM层其次是辍学层和两个致密层)之间的资源缺乏语言的翻译任务是有用的特别对。在MTL框架中,源语言的数量不是有限的资源缺乏语言对该模型能够更好地表达源语言学习。源语言的表示从多任务模型更稳定,可以被视为一种约束,提高翻译质量的阿拉伯语方言。因此,稀薄的数据问题,可以缓解过度拟合问题的语言对只有少量的训练数据。MTL提高泛化利用训练信号中包含的特定领域的信息相关的任务。它通过培训为AD-MSA翻译任务和并行MSA-ENG同时使用共享的表示。实际上,训练信号作为感应偏压的额外任务。

5.2。编码器的一面

在此体系结构中,有两个双向长期短期记忆(Bi-LSTMs)编码器为所有任务:Bi-LSTM编码一个阿拉伯语方言(广告)的句子,另一个Bi-LSTM编码现代标准阿拉伯语(MSA)的句子。如前所述,它是正常的数学函数encoder-decoder-based架构并不认为周期性函数。同时,传统的递归神经网络(RNNs)不是充分能够获得和捕获所有的知识序列,所以更强大的和健壮的替代,如Bi-LSTM RNNs是必要的。LSTM单位减轻长途依赖性的问题通过提高RNN的记忆向量 一个LSTM单位需要 , 作为输入并产生 通过计算以下方程: 在哪里 , , 指定输入,忘记,盖茨和输出,分别。这些门集体决定如何更新当前的存储单元 和当前隐藏状态 的参数 用于指示LSTM记忆维度,所有的向量的定义体系结构有相同的尺寸。 以聪明元素乙状结肠函数的输出范围 随后, 表明双曲正切函数的输出范围 ;⊙表示element-wise乘法函数;和 , , , ,被认为是网络参数。这个函数 将有一个更好的理解机制的体系结构和控制不同类型的信息需要丢弃的旧记忆细胞。此外, 用于控制的信息存储在当前的存储单元,然后呢 用于控制参数需要提供基于记忆细胞作为输出 LSTMs旨在学习时间序列数据的长期依赖。

在神经机器翻译系统中,有必要翻译所需的特定词汇知识,目标语言可以出现在源语言。源端知识通常是发现从左向右读,类似于目标端,如欧洲语言和其他亚洲语言。源端信息也可以代表从右到左,类似于目标端,如阿拉伯语。因此,考虑到语言,有关特定的输出文字传播和信息分成特定范围的输入端。这个过程达到最好的执行上下文的编码器每一点网络;从这个研究可以看出双向RNN [27作为一个编码器。图3显示双向LSTMs的设计。第一个LSTM (F-LSTM)层读取源句子从左到右,而第二个LSTM (S-LSTM)层读取相同的源句子从右到左。输出从F-LSTM和S-LSTM首先连接,然后喂给下一层(N-LSTM)。这个过程发生在所有编码器使用Bi-LSTM所有翻译任务。

5.3。译码器的一面

一个共享译码器是用于所有的翻译任务。本研究探讨了如果合理分享所有的信息在所有语言对之间的翻译任务,让模型学习如何表示这些任务。因此,在本设计中,一个解码器是共享的。译码器有几个常见的隐藏LSTM层辍学层和两层致密紧随其后。这些致密层被ReLU激活激活函数。共享解码器将模型生成目标单词的英文和MSA。因此,我们有两个编码器E1_MSA E2_AD,和一个共享解码器D_ENG D_MSA。用一个共享的译码器中,我们使用两个输出层的翻译任务。每个输出层由softmax层。图2描述了共享层取决于模型的体系结构。在拟议的多任务学习模型中,硬参数共享是由共享通用解码器内隐层函数相关的任务。

5.4。特定于任务的输出层

在一个特定的任务,一个简单的方法是将输入序列映射到一个固定大小的矢量通过使用一个Bi-LSTM编码器,然后喂向量共享Bi-LSTM译码器,然后将softmax层翻译任务。给定一个文本序列 ,首先查找层被用来获得向量表示法(嵌入) 每个词的 Bi-LSTM译码器的输出可以被视为整个序列的表示。译码器的输出是美联储softmax非线性层预测概率分布对输出词汇。

5.5。优化

所使用的优化方法是亚当,被认为是一种有效的基于算法梯度优化的随机目标函数(28]。许多mini-batches学习固定的大小在一对语言(MSA-English)的迭代次数,然后继续下一个语言(AD-MSA)。我们的布局优化方法如图4

5.6。训练计划

Mini-batches大小256令牌使用了整个实验。重量更新设置通过使用亚当优化算法。参与这项研究的主要思想是采用训练样本的优化算法将用于培训。我们考虑在每个mini-batch一个任务。同时,我们有相同的模型结构和参数设置为整个翻译任务。单个任务的模型有不同的重量由于默认训练计划。最初的执行模型训练MSA-ENG翻译任务,然后培训AD-MSA翻译任务。这个过程是持续交替。显著改善进行该工作是AD-MSA翻译任务。

6。结果与讨论

神经机器翻译实验提出了利用多任务学习的方法在不同的翻译任务:机器翻译从现代标准阿拉伯语(MSA)英语和翻译阿拉伯语方言(广告)现代标准阿拉伯语(MSA)。实验进行了两种类型的阿拉伯语方言:地中海东部的Maghrebi。黎凡特的阿拉伯语方言口语在叙利亚、约旦、巴勒斯坦和黎巴嫩。Maghrebi阿拉伯语是各种标准阿拉伯语口语广泛应用在摩洛哥、阿尔及利亚和突尼斯。神经机器翻译模型基于多任务学习的方法将被用于稀疏数据。进一步,10000 -一对平行语料库是部署MSA-ENG翻译任务。

6.1。数据

我们连接黎凡特的方言(约旦方言,方言叙利亚和巴勒斯坦方言)一起从MPCA PADIC语料库和语料库,我们连接Maghrebi方言(摩洛哥方言,方言阿尔及利亚和突尼斯方言)从相同的全集。因此,13805个句子对被训练为黎凡特的方言(LD)和17736个句子对Maghrebi方言(MD)收集到的电视节目,电影,和社交媒体。为我们使用的测试集2000个句子对地中海东部的方言和2000个句子对Maghrebi方言。变音符号,标点符号,和非阿拉伯字符被阿拉伯语方言和MSA在预处理阶段。除此之外,阿拉伯语的令牌由空格分隔除了实例引用英式缩写、和阿拉伯语方言(地中海东部的和Maghrebi),现代标准阿拉伯语和英语语言被分割使用Python记号赋予器使用默认设置为英语。同时,拼写规范化进行。例如,转换的آٱأإ字符ا字符了。没有阻止或停止词删除已经完成。序列的长度设置为55。MSA包含一个广泛的标记比英语和阿拉伯语方言,及其句子短于英语和阿拉伯语方言。现代标准阿拉伯语比英语更罕见的词的概率。长尾中的词往往是形态复杂,时而从词缀像“基地”“ال”()或“佤邦”“و”(和)。

6.2。培训

我们用19327字的词汇表来黎凡特的阿拉伯语(LA)和22459字的词汇Maghrebi阿拉伯语(MA)在AD-MSA翻译任务。此外,10185字的现代标准阿拉伯语词汇表是用于MSA-ENG翻译任务。数字没有规范化。亚当的优化是使用β1 = 0.9和β2 = 0.999,0.5的垂直辍学,和梯度剪裁超出5的绝对值。培训在GPU上执行256年批次随机选择培训对直到损失开始增加,退火的初始学习速率0.001。最初的学习速率是积极选为最大的学习速率,导致好激活和大但可能更新,尽管最初一个大模型(包含3 M可训练的参数MSA-ENG任务,6米可训练的参数LA-MSA任务,和8.85可训练的参数MA-MSA任务)。字嵌入和隐藏的大小如表所示1。这个模型大小证明每个时代LA-MSA任务需要71秒,每时代MA-MSA任务102秒,每502秒时代MSA-ENG任务。模型训练交替MSA-ENG和AD-MSA任务。将训练数据随机慢吞吞地在每个时代对所有任务。两个平行的句子对语料的损失为每个模型训练通过最小化叉翻译任务。

6.3。实验结果

综述了获得的结果来证明我们的效率提出了多任务学习模型。并发多任务学习模型训练在所有三个训练数据集,而蓝色分数与模型,分别在每个数据集训练。表1显示的是蓝色的分数测试数据集。模型从多任务学习结构优于独立模型训练。结果在表1显示所有的目标语言翻译性能的增强是由于给定的小数据集黎凡特的Arabic-MSA。这个结果是有意义的,因为亲密的黎凡特的现代机架阿拉伯语方言(MSA)和相关语言服务彼此通过共享相同的词汇。也注意到方面的改进是蓝色的分数是一个放大的结果数据。数据放大是一种有效的增加样本容量由于训练信号相关的额外信息的任务。训练时发生噪音信号进行放大。考虑两个任务,B和C,独立噪声添加到他们的训练信号,这都得益于计算隐层特性F的输入。净学习B和C都可以,如果它承认两个任务共享F, F使用两个训练信号学习更好的通过不同的噪声过程平均F。进一步,观察到Maghrebi阿拉伯语阿拉伯语方言和来自不同基础和多种语言的混合物(柏柏尔语,拉丁语(非洲浪漫),古老的阿拉伯语、土耳其语、法语、西班牙语、出自,意大利,和Niger-Congo语言)集成新的英语和法语单词。提出的多任务学习模式能够提高翻译性能的训练数据集Maghrebi Arabic-MSA并演示模型的泛化等多个目标语言MSA-ENG翻译任务。

6.4。模型分析和讨论

实验来解释为什么被做多任务学习模型工作比独立模型训练多个目标机器翻译。多任务学习的模型收敛速度比模型快单独训练,因此,当一个资源贫乏的语言对模型训练。同时,共享解码器参数是发现有用的资源贫乏的语言。源语言的数量是不受限制的多任务学习模型对资源贫乏的语言并能学习更好的表达源语言。此外,源语言的表示从多任务模型是稳定的,可以被看作是一个约束,利用翻译所有语言对的性能。因此,一些训练过度拟合问题的例子和数据稀缺将缓解语言对。多任务学习模式生产高质量的翻译。一些例子如表所示2,3,4。测试数据集的例子。生成的MSA翻译提出了多任务学习模型和单一模型黎凡特的阿拉伯语和阿拉伯语Maghrebi如表所示。机器翻译的常见问题之一,许多神经系统是不翻译的一些特定部分的源句子或部分源句子翻译两次。表中的前两个例子所示,基线模型或单一模型没有来源的许多地方翻译句子或给了错误的翻译。翻译多任务学习方法性能有明显改善。在第一个示例中,单一模型或基线模型不翻译这句话وانتوانتمخلصتواانهيتمالعزايمالدعوات而多任务学习模式翻译正确。此外,多任务学习模型并没有生成精确的翻译相匹配的参考。如Maghrebi阿拉伯语的第三个例子所示,多任务模型没有生成这个词يا和重复这个词زينب两次。MTL模型实现完美的翻译表现不同的语言,如表所示3MSA-ENG翻译任务。一般的多任务学习模型是能够产生正确的序列,阿拉伯语方言翻译的句子,和传达信息动词,主题和对象。此外,提出了MTL模型可以处理自由的阿拉伯语方言的词序问题。

7所示。结论

在这部作品中,挑战中观察到现代标准阿拉伯语的翻译阿拉伯语方言(MSA)进行了研究。进一步,提出研究开发了一种多任务学习模型基于递归神经网络最近提议encoder-decoder架构。

在这个研究中,一个统一的神经机器翻译模型训练的解码器是共享的所有语言对每个源语言都有一个单独的编码器,由于每个阿拉伯语方言有自己的特点和拼字法。据我们所知,一个神经机器翻译模型从现代标准阿拉伯语方言形式没有被调查。实验表明,鉴于小并行训练数据,同时神经机器翻译模型是正确有效地生成序列,产生高质量的翻译,和多个目标的预测结构学习。此外,我们提出了多任务学习模式能够解决这一问题的数据缺乏和不足的问题诽谤拼字法的阿拉伯语方言。我们提出神经机器翻译模型是可行和有效的,发现提供更快和更好的融合为资源缺乏语言和丰富的资源语言在多任务学习框架。本文的性能通过使用机器翻译的任务是提高多任务学习的方法。在未来,我们将继续我们的工作在更实际的设置。例如,我们将调查使用注意方法的性能模型。

数据可用性

生成的数据集在当前研究中可用(AD_NMT)库(https://github.com/laith85/AD_NMT]。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本研究支持的BK21 +项目(SW人力资源发展计划支持智能生活)由教育部资助,计算机科学与工程学院的庆北国立大学、韩国(a20131600005 21日)。