文摘

英语资源层面的词汇,由于缺少词汇对齐结构,神经机器翻译的翻译不忠的问题。本文提出了一个框架,集成了词汇对齐结构神经机器翻译在词汇层面上。拟议的框架下,神经机器翻译解码器接收外部词汇对齐信息在解码过程的每个步骤,进一步减轻失踪词汇对齐的问题结构。具体来说,本文使用统计机器翻译的词对齐结构外部词汇对齐的信息和介绍神经解码步骤的机器翻译。模型主要是基于神经机器翻译,和统计机器翻译词汇对齐结构集成神经网络的基础上和持续表达的单词。模型中解码阶段,统计机器翻译系统提供适当的词汇对齐信息基于解码信息的神经机器翻译和建议基于词汇的词汇对齐信息指导神经机器翻译解码器更准确地估计其在目标语言的词汇。方面的数据处理方法和机器翻译技术,实验进行比较基于语言模型的数据处理方法和句子相似度和基于融合的机器翻译模型的有效性原则。比较实验结果表明,基于语言模型的数据处理方法和句子相似度有效保证数据质量,间接的提高了算法性能的机器翻译模型;神经机器翻译模型结合的翻译效果统计机器翻译词汇对齐结构与其他模型相比。

1。介绍

机器翻译是指转换两种自然语言的过程通过计算机保持语义不变的前提下,在许多领域涉及知识包括语言学、计算机科学和数学1]。日益密切的国际交流,大规模的跨语言交流的场景正在增加。这些场景实时翻译有很高的要求,涉及范围广泛的语言,大量的翻译任务。人工翻译不能满足上述要求。机器翻译技术的诞生提供了理论依据和基础,解决类似的场景。机器翻译、自然语言处理和它的一个重要的下游任务,是人类的终极追求的体现让机器理解人类语言(2]。用机器来实现高质量的翻译语言之间具有非常重要的现实意义。它还可以促进计算机科学和人工智能的发展(3]。

在线英语课程教育平台,其用户支付特定的课程在课程教育平台。这种行为不仅是一种技术接受行为信息系统也是一种消费行为的互联网学习产品和服务。此外,教育产品和其他产品的区别是,在线教育产品通常一次支付。如果用户的第一个课程学习体验不够好,当他们有一个新的需求,基本上是没有需要买其他必修课程同样的平台。根据市场营销理论,开发新客户的运营成本是维护老客户的成本的5倍。因此,提高用户粘性的唯一方法是开发一个在线英语课程平台。只是一个平台,满足用户的需求,了解用户的痛点,并能保持用户的意愿继续使用可以保持活着,和独角兽在线语言领域的教育能够诞生了。

传统翻译工作主要是通过手工翻译,其准确性和翻译质量保证。然而,在全球交易所极其密切的背景下,人工翻译的速度和成本远未满足相应的需求。机器翻译的翻译质量略低于人工翻译,但依赖于计算机的强大计算能力和互联网的迅速发展大大增加了翻译的速度和降低成本。它已经被许多公司在大规模翻译场景。因此,研究机器翻译技术和持续改进机器翻译的质量可以让它更好的服务于经济发展和社会进步,具有重要的现实意义。

提出了一种神经机器翻译模型合并统计机器翻译词汇对齐的结构。首先,带来的问题是,问题的难度进行了分析,并介绍了相关工作。然后,我们详细介绍了模型的体系结构。具体来说,基于神经机器翻译“Encoder-Decoder”为主体,该模型增加了统计机器翻译的词汇知识推荐模块完成统计机器翻译的词汇知识的融合。方面的数据处理方法和机器翻译技术,我们进行了实验对比来评估基于语言模型的数据处理方法的有效性和句子相似性,以及机器翻译模型基于融合的原则。实验结果表明,基于语言模型的数据处理方法和句子相似度可以提高数据质量在某种程度上,和神经机器翻译模型合并统计机器翻译词汇对齐结构可以有效地提高机器翻译的结果。

随着神经网络的发展,神经机器翻译技术的诞生开辟了一条新的道路领域的机器翻译(4]。神经机器翻译技术的出现解决了很多统计机器翻译的上述缺点。神经机器翻译,如统计机器翻译,语言学专业领域知识有较低的要求。这是一个基于平行语料库的翻译方法的源语言和目标语言5]。针对统计机器翻译的局部性问题,神经机器翻译的体系结构采用整体一句接一句的翻译,可以获得尽可能有氧条件依赖关系;问题的统计机器翻译的复杂的过程,许多功能组件,神经机器翻译系统是单一的结构;也就是说,一个完整的神经网络结构可以完成整个翻译过程,不需要考虑各个组件之间的合作和协调像统计机器翻译6,7]。由于神经网络可以自动获取有用的特性数据,神经机器翻译也避免了复杂的手工设计特点。同时,因为它的单一结构和端到端培训,这是与统计机器翻译和神经机器翻译(8- - - - - -10]。翻译过程大大简化。

相关学者提出了semisupervised学习方法,使用单语语料库训练神经机器翻译模型(11]。他们使用不同的模型从源语言到目标语言的源语言和目标语言构建一个编码器自动恢复源语言句子根据目标语言编码向量。相关学者率先将短语级语法知识引入RNN-based翻译模式12]。他们认为语言之间的通信不仅是单词之间的通信也单词和短语之间的对应关系。注意机制在现有神经翻译模型也局限于词的水平。研究人员成功地翻译源语言句法结构添加到神经模型。然而,他们的模型仍有一些缺陷。例如,他们只在自底向上的方式编码句法结构,这意味着节点树的顶部看到全貌。底部节点很难获得完整的句法结构知识;例如,当添加句法结构,编码器双打的隐藏状态,这些状态包含重叠的信息,所以很难注意机制来避免这样的冗余信息(13]。研究人员提出了一个双向树的编码结构,同时,介绍了编码器的树基于结构的叠加机制(14]。双向树编码方法不仅利用自下而上的信息流动,还使用自顶向下的信息流和弥补了缺乏一些树节点的信息。树型覆盖机制可以有效地提取必要的源语言背景知识的解码过程。在翻译方面的性能,模型得到了进一步改善。相关学者提出了forest-sequence-based神经翻译模型,它使用源语言句法森林,避免错误自动注释的语法结构(15]。相关学者使用一种简单的方式来使用源语言依赖句法结构(16]。他们把依赖关系,词性,根和其他信息依赖结构的特性和使用不同的向量来代表他们与这个词向量缝合在一起。源语言的输入向量的话,注意力模型,译码器保持不变。

相关学者提出了机器翻译的经典Encoder-Decoder模型问题[17]。编码器组成的递归神经网络用于编码源语言句子成固定长度的向量,然后目标词是用来预测下一个目标词,实现翻译的效果与传统的翻译方法。但这种编码方式变长句子成固定长度的向量是不合理的,因为不同的句子含有不同数量的信息,和编码成固定长度的向量将向量携带不同数量的信息。每个维度的平均信息密度也不同,所以这个方法变成了一个瓶颈提高翻译的效果。为了应对这一问题,研究人员提出的使用机制来解决这一问题的注意并添加了一个双向循环神经网络翻译模型提高长句的翻译质量(18]。相关学者已经提出了一个神经机器翻译模型变压器基于注意机制(19]。模型不使用循环神经网络和卷积神经网络但使用注意力机制生成隐层的状态。这个词在句子的距离直接学习的依赖,所以它的长距离依赖路径长度是120.]。

3所示。神经机英文翻译机制的关键技术

3.1。网络英语资源信息处理的神经机器翻译

1显示了一个示意图的在线英语资源信息处理的神经机器翻译。不同于一般的深度学习任务,自然语言处理任务通常是顺序学习。主流神经机器翻译模型是学习“序列序列”。整个机器模型由两个神经网络:第一个神经网络称为编码器,编码器的功能是对源语言编码序列需要翻译,然后输出到一个固定长度的向量表示;第二个神经网络被称为译码器,编码器编码后的向量表示解码成一个序列译码器的目标语言。因此,这个模型也被称为“Encoder-Decoder”模型。

3.2。长期和短期记忆LSTM

理论上循环神经网络连接过去与当前任务相关的信息。但是有一个大问题在实际操作21,22]。当模型的任务需要处理相对简单,例如,目前相关信息预测单词输出是相对接近本身,循环神经网络可以充分利用先前学习记忆信息。当要处理的任务更加复杂,所需要的相关信息输出当前预测词是远离本身,和循环神经网络很难使用以前记忆的信息,和贫穷甚至可以导致翻译失败。假设循环链接形成的隐层

隐藏层t可以表示为

介绍了长期和短期的循环神经网络记忆相同的链结构作为标准循环神经网络,也可以处理序列问题。区别在于隐藏层的内部结构。只有一个网络层的递归神经网络隐层单元的标准(通常是一个双曲正切层),以及长期和短期记忆要复杂得多。隐藏在这个神经网络中,每个单元结构用三个门结构控制忘记或内存信息,如图2

在循环神经网络模型中,上下文表示矢量C是一个固定的长度。在编码过程中,所有的信息X需要压缩成一个固定长度的向量。如果输入序列X很长,它将被压。与此同时,每一个x按顺序X没有歧视程度。在实际的语言情境,每个x有不同程度的影响y,这种程度的影响不能反映在传统模式。

3.3。分词技术

分词是非常重要的自然语言处理的数据,这通常是文本处理的第一步(23- - - - - -25]。无论剽窃检测、问答系统或机器翻译离不开分词,它有一个很高的地位。最简单的中文分词方法应该是最大匹配法(正向和反向)。图3显示了基于字典的正向最大匹配方法。

在ICTCLAS分词算法提出了一种改进的多层隐马尔可夫模型(CHMM)的基础上,嗯。简而言之,这是一个简单的多层嗯组合方法。具体来说,这意味着嗯模块在每一层都使用N-Best算法,模型的下一个阶段将使用这些生成的结果,和相邻嗯水平共享相同的分割单词。

3.4。概率估计短语转换表
3.4.1。双向短语翻译的概率

大数据的时候,这个词对齐数据文件已经相对较大,和短语翻译信息提取这是可能达到GB的规模。因此,一般的处理方法是应用外部排序算法。后才处理,提取的短语结果将按源语言和短语出现在序列。在这种情况下,你读到内存中每个部分的短语对秩序和计算其概率分布。

在phrase-based方法中,通常情况下,只有双向短语转换表使用概率。在这种情况下,一旦数据噪声或提取的短语,翻译的结果可能会受到影响。在正常情况下,这句话会被分解成相应的词的翻译,和词汇化加权的平滑方法将被使用,所以它可以检查一些偶尔的短语对是否真的正确。

3.4.2。双向词汇化翻译的概率

在上面的公式中,有内外循环。e在最里面的一层是在目标这个词的句子。内层的目的是计算不同的概率fj句子翻译成e,然后添加和平均。外层将遍历所有目标句子中的词和计算结果的乘积成正比。

3.5。对齐机制

在传统统计机器翻译的处理,词对齐是一个非常基础和重要的一步。一般来说,对齐分为几个不同的形式,如章节、段落、句子、短语和词汇。然而,这一步的目的是找出并行预测数据库,可以互相转化。

当前主流的机器翻译系统是一种phrase-based方法。因此,词对齐是一个相当基本的过程。不仅如此,在随后的短语抽取模块,词对齐的结果作为基本数据输入。当谈到词对齐,人说吉萨+ +,这是一个典型的校准软件实现模型1∼5由IBM和一种改进的HMM模型设计的。主要过程是迭代训练平行双语图书馆通过的最大期望(EM)算法并获得相应的词汇对齐的双语对齐信息。

4所示。神经机器翻译模型合并统计机器翻译词汇对齐的结构

4.1。统计机器翻译词汇对齐的结构

统计机器翻译词汇推荐模块负责感知和使用机器翻译注意信息的神经和神经机器翻译目标语言生成历史信息,使词汇的建议。考虑到历史信息y在神经机器翻译的目标语言生成,统计机器翻译模型是理想情况下针对翻译源语言句子的一部分,和短语表抬起头,加上各种特性评估和分数下一个翻译的候选人: 在哪里yt是一个翻译候选人,xt是相应的源语言的词。嗯(yt,xt)是翻译功能,θ是的重量特性。统计机器翻译模型将推荐合适的词汇知识基于神经机器翻译的评价分数。

上面的公式代表神经机器翻译对齐模型生成的所有词在源语言句子对齐概率根据注意力机制。不同于显式指定词对齐在统计机器翻译,该联合概率的词在源语言句子称为“软对齐”。

的“软对齐”神经机器翻译会带来两个问题统计机器翻译的词汇知识推荐模块。第一个问题的评价和评分排序模型在统计机器翻译模型。排序模型是一个模型,描述不同语言的语序的差异和在统计机器翻译中起着非常重要的作用。然而,统计机器翻译的排序模型是专为统计机器翻译的词对齐。得分排序模型的公式如下:

其中,sp欧美是源语言词的位置对应于目标语言单词yt,sp欧美+ 1是源语言词的位置对应于目标语言单词欧美+ 1。获得的位置信息是基于统计机器翻译的词对齐信息。

本文使用“软对齐”的概率分布来评价和分数基于距离排序模型:

根据这个词在词对齐信息表,统计机器翻译模型可以获得相对应的源语言词的位置到目标语言的词。

在初始阶段,覆盖向量的内容都设置为0。在解码阶段,如果最后一个词出现在统计机器翻译模型生成的词汇组推荐的解码阶段,相应的支付向量组根据词对齐信息统计机器翻译短语表。

4.2。闸门机制模型

为了整合统计机器翻译的词汇知识,闸门机制模型集分类器估计的概率统计机器翻译词汇推荐当前解码一刻,然后使用神经网络门控制调整模型来估计概率和神经机。估计的概率翻译自己的话重新估计。

具体来说,在解码时间t,流程的分类统计机器翻译词汇建议结合了解码信息当前解码时间重新评估和分数统计机器翻译词汇推荐: 在哪里y这个词是推荐的评价,年代t是机器翻译的隐式状态神经译码器在当前时刻,yt−1是这个词的词表示模型生成的前一刻,然后呢ct是在当前时刻上下文向量。 是一个非线性激活函数。

设计模型在这种形式的目的是充分利用解码器的解码信息(源语言句子信息和目标语言序列历史信息)来评估词汇表建议的匹配程度与当前解码的环境。然后,推荐你使用每个单词的评价得分的概率估计匹配与当前解码环境建议:这个词

上述公式表明,词汇在当前解码环境建议概率归一化。门控制调整模型基于神经网络篡改和总结词推荐和词的概率估计概率估计的神经机器翻译本身:

其中,这个词y神经的机器翻译词汇没有出现在推荐的词集,然后

插值概率αt计算如下:

其中, 是一个非线性激活函数。

大门的设置控制调整模型基于神经网络是让模型自动通过判断解码学习环境来确定是否依赖于统计机器翻译提供的词汇知识。门控制模型为统计机器翻译词汇推荐如图4

4.3。直接竞争机制模型

这个模型和闸门机制模型的区别在于统计机器翻译的词汇量的计算概率和概率reestimation神经机器翻译词预测概率。具体来说,在解码时间t,得分设备处理建议结合了统计机器翻译词汇解码信息当前解码时间重新评估和分数统计机器翻译词汇推荐:

在哪里y这个词是推荐的评价,年代t是机器翻译的隐式状态神经译码器在当前时刻,yt−1是这个词的词表示模型生成的前一刻,然后呢ct是在当前时刻上下文向量。 是一个非线性激活函数。

计算模型使用统计机器翻译词汇的建议和神经机器翻译目标语言词概率估计的概率:

5。实验和分析

5.1。数据处理方法对比实验

应用程序数据来自公开数据的一组机器在线英语文本翻译资源。原始数据集包含1000万对平行句子用中文和英语。考虑实际的硬件实验环境和实验条件,指定,100000双平行句子选择构建一个训练数据集,选择和10000对平行句子构造一组测试数据,测试数据集和训练数据集的句子对互斥的。

为了验证基于语言模型的数据处理方法的有效性和句子相似,比较实验不同的机器翻译模型在相同的参数和不同的训练数据集设置进行,和不同的训练数据集被用来训练每个机器翻译模型。我们比较每个训练模式下的蓝色分数相同的测试数据集。

随机,我们选择10000双平行的句子作为测试数据集和应用数据处理方法(Similar-Gram)和基本随机筛选方法(随机)来构建数据包含100000双平行的句子在剩下的数据作为训练数据集。其中,随机选择法选择数据根据随机方法分类和泛化后,和数据集选择从英文到中文的翻译方向。

训练数据集构建使用Similar-Gram和随机的两种数据处理方法被用来训练三种机器翻译模型,包括机器翻译模型的基础上,融合原则(Chunk-based)和基于回复神经网络的机器翻译模型(Encoder-Decoder)和Encoder-Decoder模型基于注意机制。我们比较新算法的应用效果模型和经典算法模型的数据集,以确保培训的共同参数设置过程是相同的。模型训练完成后,蓝色应用获得的分数相同的测试数据集训练模型图所示5

蓝色评分算法模型在测试获得的数据集是用来描述的利弊训练数据集,该算法模型。这可以从图中找到5的三种算法模型,当模型参数设置是一致的,训练数据集由Similar-Gram处理数据处理方法执行比训练数据集处理的随机数据处理方法。实验结果表明,基于语言模型的数据处理方法和句子相似度在一定程度上可以改善应用程序数据。

5.2。机器翻译技术的比较实验

为了验证机器翻译模型的有效性基于融合的原则,从机器翻译的比较模型的基础上,融合原则在不同参数和相同的训练数据集设置,在两个方面进行比较实验,损失和叉机器翻译模型的训练数据集的基于融合原理和训练数据集的蓝色得分与训练的迭代的数量增加。最后,基于融合原则是机器翻译模型。

5.2.1。参数设置

在这个实验中,数据集选择从中国英语翻译方向,和模型的性能改进通过调整参数,主要反映在预测的准确性,培训时间,防止过度拟合。

辍学参数用于控制的概率神经网络模型训练和调优过程中被丢弃。假设辍学设置为0.5,50%的神经元的调谐值随机被忽视在每个模型的训练和优化过程。辍学是一种重要手段,能够防止过度拟合的模型。为了选择最好的辍学值在当前数据和当前的应用场景,我们比较模型的迭代训练辍学时设置为0.3,0.6,和0.9,分别。前5的损失模型叉迭代和训练数据集的蓝色得分数据所示67。在对比实验中,我们确保其余的参数是一致的。我们细胞大小的参数设置为124,参数汉语词汇20000个,参数英语词汇12500个,参数层尺寸3,参数学习速率为0.0004。

从数据可以看出67辍学在一定程度上可以避免过度拟合,但辍学的值设置为更大的值可能会增加模型的训练时间。由于隐藏层的数量模型的设置为2,模型层的数量更少,并结合实验结果的比较,考虑到模型训练时间和过度拟合的风险,我们将辍学到0.2,以确保模型的性能,同时在一定程度上避免模型过度拟合。

学习速率参数用于控制模型训练和优化步长。学习速率会影响模型的学习效率和准确性。设置这个值过高可能导致模型最优解小姐和降低精度。过低可能会导致模型获得局部最优并极大地扩展模型的训练时间。学习速率设置大小与优化器。本文中使用优化器是亚当。优化器需要一个小的学习速率。因此,迭代模型训练时学习速率设置为0.0002,0.0004和0.0008。叉损失模型和蓝色分数的训练数据集在图所示8和图9。在对比实验中,我们确保其余的参数是一致的。

从数据可以看出89模型训练速度慢时,学习速率值设置小,模型可能错过学习速率值设置时的最优解。优化器使用的模型训练是亚当,这需要一个小的学习速率,可以在模型训练调整。我们比较了模型训练迭代影响学习速率为0.0001,0.0005,0.001和学习速率的初始值设置为0.0005。

5.2.2。比较不同的机器翻译模型

我们指定每个机器翻译模型的参数值根据上述参数设置结果和比较常见的机器翻译模型条件下参数设置是一致的。比较法选择Encoder-Decoder模型(Encoder-Decoder)机器翻译技术基于回复Encoder-Decoder和神经网络模型(引起)基于注意机制,比较了融合算法模型在本文中与其他算法模型。培训过程的通用参数设置是一样的。模型训练完成后,蓝色的分数和叉损失在训练数据集和测试在同一测试的结果数据集在图所示10

从图可以看出10每个翻译模型的熵损失在训练数据集是不同的,但缺乏合适的;蓝色分数每个模型的训练数据集在训练停止时相似。在相同的测试数据集,它可以发现翻译机器翻译模型的影响的基础上,融合原则是改善而引起模型和Encoder-Decoder模型的经典模型。图中的数据10也证明了翻译效果模型的测试数据集不完全正相关与拟合训练数据集。

摘要蓝色执行测试数据集获得的分数与算法模型代表了算法模型的优缺点。这可以从图中找到10,在同一个应用程序的数据集,机器翻译模型的基础上,融合原则都在一定程度上提高机器翻译效果。

应该注意的是,由于实验条件的限制,使用的训练数据集的比较实验机器翻译技术只包含100000双平行的句子。语料库不足可能会导致机器翻译模型的培训不足;此外,由于缺乏数据集和缺乏质量和神经网络模型本身的抽象性,实验结果实际翻译模型的训练和测试过程中可能有一定的偏差。然而,比较实验的设置保证训练数据集的一致性测试数据集,和参数设置,比较实验结果可以正确评估机器翻译模型的有效性。

5.2.3。培训和安装机器翻译模型的基于融合原则

机器翻译模型的基础上,融合原理、数据处理方法的训练数据集构建用于培训。数据集选择从中国英语翻译方向。叉损失模型的训练数据集和训练数据集的蓝色得分与训练的迭代的数量增加。变化曲线如图11。从图可以看出11模型训练的迭代的数量增加,训练数据集的总体熵损失显示一个下降的趋势。减少小的头几个迭代训练,然后逐渐增加。然而,在模型往往收敛,叉损失不降至非常低的水平,这可能是由各种原因引起,如数据特点和模型训练。此外,随着模型训练的迭代的数量增加,整个蓝色的训练数据集显示了一个上升趋势,与一个小的头几个迭代增加培训,然后逐渐增加。

6。结论

本文运用统计机器翻译词汇对齐知识减轻神经机器翻译的顺利和不忠的翻译问题。模型主要是基于神经机器翻译,和统计机器翻译词汇对齐的融合信息是基于神经网络和持续表达的单词。具体来说,在每个解码,统计机器翻译提供了建议包含词汇对齐信息基于神经机器翻译的解码信息。神经机器翻译解码器使用这个词汇推荐来调整自己的目标语言词的预测概率,为了充分利用词汇对齐信息更忠实地生成目标语言句子。方面的数据处理方法和机器翻译技术,实验进行比较基于语言模型的数据处理方法和句子相似度和基于融合的机器翻译模型的有效性原则。实验结果表明,基于语言模型的数据处理方法和句子相似度可以确保数据质量在某种程度上,和神经机器翻译模型整合统计机器翻译词汇对齐结构可以有效地提高机器翻译的影响。虽然神经机器翻译取得了突破性成果,训练神经网络依赖于大量的训练数据。然而,没有双语数据对大量的语言,所以无监督机器翻译操作出生。无监督机器翻译是基于单语两种语言之间的数据和建立一个潜在的连接通过神经网络来获取一个粗粒度的对齐关系。在此基础上,粗粒度定位知识逐渐精炼使用迭代等思想。 The syntactic structure is a manifestation of the internal structure of a language. In the future, we hope to use syntactic knowledge to help unsupervised machine translation to better establish the internal connection between languages.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。

确认

这项工作是支持的一般科研项目特殊的陕西省政府的教育部门,2020 -翻译研究基于图像和文本的逻辑语义关系从多元的角度(20 jk0150)。