文摘

神经机器翻译近年来受到广泛关注。传统连续神经网络框架的英文翻译有明显的缺陷,因为它捕获远程信息的能力差,和当前改进框架,如递归神经网络,仍不能很好解决这个问题。在本文中,我们提出一个混合神经网络相结合的卷积神经网络(CNN)和长期短期记忆(LSTM),介绍基于注意机制encoder-decoder结构来提高翻译的准确性,特别是长句。在这项实验中,这个模型是基于TensorFlow实现,结果表明,该方法的蓝色价值明显改善相比,传统的机器学习模型,证明了我们的方法的有效性在英汉翻译。

1。介绍

机器翻译是一个方法,使用计算机自动转换不同的语言,这是一个重要的研究领域自然语言处理(NLP)和人工智能(AI) (1]。它也是互联网上最常见的一种服务。虽然它仍然是具有挑战性的翻译机器翻译质量达到专业翻译的水平,机器翻译在翻译速度有明显的优势在某些情况下,如有关翻译质量不明显,或在特定领域的翻译任务(2,3]。认为机器翻译的复杂性和应用,这一领域被认为是一个关键的研究方向,它已经成为最活跃的研究领域之一,在自然语言处理。

应该提到神经机器翻译(NMT)是最受欢迎的机器翻译方法,加载到神经模型框架和具体算法使用节点到节点的方法来优化模型(4]。目前,大规模语料库的条件和计算能力,NMT已经显示出巨大的潜力,已经发展成为一个新的机器翻译方法。这种方法只需要双语平行语料库和方便培训大规模翻译模型。它不仅具有较高的研究价值,还具有强大的产业化能力。在许多语言对NMT逐渐超越短语统计机器翻译。Junczys-Dowmunt et al。5)使用联合国平行语料库v 1.0比较NMT和短语30日统计机器翻译语言对。它可以发现NMT超过短语27日统计机器翻译语言对。此外,在任务与中国有关,如汉英翻译任务,NMT 6 - 9高蓝色(双语评价替补)值。车间的机器翻译(wal - mart)在2016年(6),NMT系统由爱丁堡大学的超越phrase-based和English-to-German syntactic-based统计机器翻译的翻译任务。此外,在业内,谷歌翻译采用了NMT的统计机器翻译在一些语言提供外部服务(7]。著名的商业机器翻译公司SYSTRAN也开发了相应的NMT系统,包括12种语言和语言对32。

NMT的优势,它可以使用神经网络来实现直接从源语言到目标语言的翻译8]。这个翻译的想法可以追溯到1990年代;一些学者使用小规模语料库来实现神经网络的翻译方法。由于语料库资源和计算能力的限制,它没有收到相应的关注。深度学习热潮的兴起后,神经网络常用于统计机器翻译语言模型,词对齐,翻译规则提取,等等。直到2013年,Blunsom和Kalchbrenner reproposed神经网络翻译方法显示了巨大的应用潜力(9]。随后,Sutskever,曹、琼和其他人,分别实现了基于神经网络(相应的机器翻译模型10]。这些都是经典NMT模型,本质上是sequence-to-sequence模型。他们不仅可以用来为机器翻译也自动问答系统、文本摘要和其他自然语言处理任务。不同于离散形式的统计机器翻译方法,NMT使用一个连续空间表示方法来表示单词,短语,句子。翻译中建模、统计机器翻译的必要步骤,如词对齐和翻译规则提取不需要,神经网络是用于完成从源语言到目标语言的映射(11]。此外,另一个叫做encoder-decoder模型,在编码器读取源语言句子并编码成一个向量与固定的尺寸,和译码器读取顺序向量和生成目标语言词序列。encoder-decoder模型是一个通用的框架,可以由不同的神经网络来实现,如长期短期记忆(LSTM)神经网络12和封闭的回归神经网络(grnn)13]。NMT已证明翻译效果接近或等于phrase-based统计机器翻译方法。它也有翻译的优势在一些细粒度的评价指标。例如,关注English-to-German翻译评估任务在2015年国际研讨会上口语翻译(IWSLT) Bentivogli等人做了一个详细的比较分析短语统计机器翻译和NMT的翻译14]。因此,神经机器翻译,形态误差减少19%,词汇错误减少了17%,和单词排序错误减少了50%。在词序错误,动词顺序错误减少了70%。

当前主流的NMT是结合encoder-decoder结构,算法是连接通过关注机制之间的编码器和译码器(1]。然而,NMT基于编码器和解码器的结构是一个通用模型,并不是专门为机器翻译的任务。这导致一些问题包括两个方面:首先,尽管神经机器翻译是一个重大的改进的注意机制,其缺点是历史的关注信息生成目标语言时不考虑的话,和约束机制是虚弱的。此外,在某些情况下,没有必要太在意源语言信息在生成目标语言的单词。例如,当生成功能词“的”在汉英翻译中,应该注意多目标语言的相关信息15]。除了上述之外,overtranslation欠额翻译问题可能发生在核磁测井仪,它也需要完善现有的注意机制(16,17]。总之,注意机制优化NMT的研究热点和难点。

应该注意,注意机制是一个典型的神经机器翻译模型,提高了源语言的表示和动态生成源与语言信息在解码过程中提高翻译的效果(18]。引起NMT编码源语言句子译成一个向量序列,而不是一个固定的向量。在生成目标语言的单词时,它可以使用源语言信息的生成相关词,和相应的词可以在源语言。实现双语词汇对应的注意机制被称为软对齐。较困难的对齐的统计机器翻译方法,这种方法不限制目标语言的排列长度单词和源语言词汇和可以避免的空对空问题很难对齐方法(19]。然而,注意机制的问题,大量的计算。为了减少计算量,徐et al。20.)注意分为软注意力和硬一代关注的任务形象描述。前者是指将权重分配给所有地区的原始图像,并相对较大的计算量。,后者是指只关注原始图像区域的一部分,这可以减少计算复杂度。基于上述思想,陈德良et al。21)提出了一个本地的注意力模型,这是一个改善全球关注。当计算上下文向量ct全球关注,需要考虑所有的编码序列的源语言。当地的关注只需要关注一个小的上下文窗口的源语言编码,可以大大降低计算的复杂性。该方法的核心是找到一个对齐的位置从源语言中生成的相关词的。当地的注意力只集中在一小部分的源语言生成上下文向量和过滤掉无关的信息,这是适合长句子翻译。在京东商城2014年英语,德语翻译,当地的关注增加了0.9蓝色值相比,全球的关注。在长句翻译实验中,随着句子长度的增加,当地的注意方法不减少翻译质量。此外,English-German词对齐语料库的亚琛技术大学当地注意词对齐错误率为34%,以及全球关注词对齐错误率为39%。特别是,注意监督机制是该领域的热点,使用高质量的前字对齐知识指导注意机制。刘等人提出的方法使用统计机器翻译词对齐信息作为先验知识来指导注意力机制(22]。这种方法使用吉萨+ +获得的词对齐信息训练语料库,然后,在模型训练,统计机器翻译词对齐作为先验知识来指导机制,以便引起关注词对齐为统计机器翻译是可能的。最后,在测试期间不需要之前的词对齐信息。实验使用汉英机器翻译评价主体由国家标准与技术研究所(NIST)在2008年。与引起神经机器翻译相比,该方法提高了蓝色值2.2。清华的词对齐语料库,吉萨词对齐错误率+ +是30.6%,这个词对齐错误率基于关注神经机器翻译是50.6%,和该方法的词对齐错误率为43.3%。可以看出有监督机制可以显著提高注意力的词对齐质量机制,但仍有很大的差距相比,统计机器翻译的词对齐,和注意力机制仍需要改进。

针对上述传统encoder-decoder模型框架的缺点,本文提出了一个英汉翻译模型基于混合神经网络和改进的注意机制。该方法的主要思想是把注意力机制与神经网络训练当地的翻译模型的注意。相比,传统的机器学习方法,如最小二乘支持向量机(LSSVM)和极端的学习机器,深度学习方法,即。,lSTM and convolutional neural network (CNN), have more powerful learning capabilities and good approximation capabilities for the text data in processing regression problems. Therefore, this paper mixes these two networks to improve the ability of the translation model to connect to the context, thereby improving the translation quality of the model.

本文的其余部分组织如下。部分2介绍了encoder-decoder结构模型的细节,CNN, RNN和注意力机制。部分3介绍了混合神经网络提出了一种改进的关注机制我们的工作。实验结果和讨论部分报告4。最后,给出本文的结论部分5

2。材料和方法

2.1。Encoder-Decoder结构模型

摘要encoder-decoder结构设计是机器翻译模型的核心部分,这是由一个编码器和译码器。编码器将神经网络的输入数据转换成固定长度的数据。相反的解码器解码数据,然后输出翻译句子,这也是序列模型的基本思想。主要过程如图1

encoder-decoder模型由三部分组成:输入x隐藏的状态h,输出y。编码器读取输入x= (x1,x2、…x),并将代码转换为隐藏状态h= (h1,h2、…h采用RNN时): 在哪里c在源语言句子表示,f是非线性函数。译码器可以生成目标语言词汇与给定的源语言表示c和前体的输出序列{y1、…yt−1};的定义如下: 在哪里y= (y1,y2、…yT),当使用RNN时,

在这个模型中, 是一个非线性函数,用于计算的概率yt,年代tRNN的隐藏状态,年代t=f(年代t−1,yt−1,c)。编码器和解码器可以训练共同在以下形式:

(xn,yn)是双语句对,θ是一个参数的模型,可以计算梯度下降的方法。

2.2。卷积神经网络(CNN)

CNN是一种特殊的深度学习神经网络,它常被用来处理数据与已知的网格拓扑结构(20.]。广泛用于时间序列分析、计算机视觉、NLP。根据不同的数据流,CNN可分为一维卷积,二维卷积,卷积和三维。一维卷积广泛用于时间序列分析和自然语言处理。CNN结构属于本文采用一维卷积神经网络(20.),如图2

各类CNN由一个输入层和输出层和核心操作部分,即。卷积层、汇聚层和完整的连接层。在一维卷积,卷积的功能可以被理解为提取数据的翻译功能在一定的方向。在我们的工作中,卷积运算的本质是循环产品,此外,及其数学表达式如下: 在哪里y,h,u时间序列,k表示卷积号码,N的长度是u。

一般CNN编码器的基本架构图所示3和其固定架构包括以下六层:层0:输入层,使用嵌入式向量形式的单词和句子的最大长度设置为40个单词。句子短于这个向量,零填充通常放在句子的开头。层1:卷积层层0的窗口大小是3。引导信号注入层为“引导版本。”层2:本地控制层第一层后,这只会让不相邻的特征图的加权和窗口大小2。层3:卷积层2层后,执行另一个卷积,窗口大小是3。第四层:这一层执行全球控制功能图上第三层。第五层:完全连接的体重,这地图的输出层4层作为最终表示。

作为显示在图3卷积在图层1的滑动窗口移动,和类似的定义窗口继续一个更高的水平。正式的句子输入来源x= {x1、…xN},卷积单位F类型特征映射层上l所示如下方程: 在哪里 给出了输出的位置在层l映射类型的特点是f; 的参数是f在层l; 乙状结肠的激活功能;和 表示卷积分割位置图层1, 连接向量输入三个字的句子。

2.3。递归神经网络(RNN)

encoder-decoder框架是一个神经网络的一部分,并有必要构建一个适当的神经网络模型运行框架。RNN是许多神经网络模型中使用最广泛的,它是一个变种的前馈神经网络模型。它的主要功能是处理不同长度的数据系列。图4显示RNN的结构,网络有递归性质,和每次的状态与以前的激活状态有很大的关系。在这个图中,x= {x1,x2、…xT}表示可变长度的序列数据,在每个时间点t隐藏的状态ht更新由以下公式: 在哪里f是一个非线性函数。我们地图输入x,y是目标序列的模型通常是由训练语料库。l损失函数;U隐层的权重矩阵的输入;W是权重矩阵的隐层隐层;V是重量从隐层到输出矩阵,然后呢t权重矩阵的隐层到输出中,的范围(1,T]。整个网络更新如下:

RNN使不同长度序列的输入向量具有相同的尺寸和相同的转换函数,可以使用和参数在每个时间点,哪个更适合处理可变长度的序列数据。此外,循环结构可以捕获所有的前驱状态理论,这在一定程度上解决了长距离依赖的问题。RNN流程可变长度序列循环隐藏状态的单位。然而,梯度和梯度爆炸消失可能发生在RNN RNN的训练,因为它是难以捕捉数据的长期依赖。因此,长期和短期记忆(LSTM)网络提出了解决RNN梯度消失的问题(23]。LSTM递归神经网络是一种封闭的,这是一个RNN的特殊形式,可以捕捉数据之间的长期依赖。

盖茨LSTM细胞结构有三种:忘记门,输入,输出,和结构如图5。LSTM、长时记忆和遗忘的信息实现通过输入门口,忘记门,输出门,和内存单元。如果当前时间t,当前输入状态信息和输出值的内存单元状态是当前LSTM前面的时间。的计算公式LSTM细胞方程所示(9)- (14): 在哪里W每个门的权向量;b偏差向量; 乙状结肠函数;和双曲正切是一个非线性激活函数。

此外,封闭的复发性单元(格勒乌)的变体LSTM,简单的内存单元。这个结构结合了输入门和忘记门的长期和短期记忆周期更新门,然后介绍了复位。它使用更新门控制历史信息和新信息被遗忘在当前状态和使用重置门控制信息数量从历史信息的获得候选人的状态。如图6盖茨,格勒乌内存单元只有两个:重置门和更新门。重设门rt控制程度的前一时刻的状态信息,并更新门zt确定内存保留的数量在前面。格勒乌的简单的内存单元参数小于LSTM,及其性能相当于甚至优于LSTM。重置和更新登机口的计算公式如下: 在哪里Wz,Wr,W一个权重矩阵和bz,br,b一个是偏差向量。

2.4。RNN的注意机制

人类大脑观察一个物体时,它经常关注一些部分,这些部分也获得信息从事情的关键。这些信息有很强的指导作用,认知相似的东西,和注意力机制旨在模仿这一认知过程。应用计算机视觉注意机制和自然语言处理取得了良好的效果。本文关注机制适用于文本的分析。

在分析文本的序列,CNN是用来提取序列的空间特性。太多或nonkey特性将影响LSTM后的最终预测结果用于提取时空特性,注意机制是用来提取序列的关键特性。注意机制类似于加权加法器或关键特性提取器,主要执行加权求和操作。注意模型提出了如图7和向量c要提取的关键特性,显示了以下方程: 在哪里是输入的时间步长和LSTM网络; 是输出LSTM网络的特征向量;和β向量的重量吗 获得重量β,我们添加一个小的神经网络一个注意模型,softmax输出层的激活函数。计算显示如下: 在哪里e可以计算e=一个( )=σ(W +b),σ是乙状结肠函数。W权重矩阵从输入层到隐层图吗7,b偏移值矩阵。

3所示。该方法

为了减少梯度问题造成的长数据序列,一个流行的方法是结合RNN encoder-decoder。然而,encoder-decoder框架的使用性能在一定程度上是有限的,这导致长输入数据有较高的计算复杂度。有限的操作的注意机制可以解决这个问题通过建立解码器和句段传输通道,即。,解码器可以随时返回查看输入数据。通过这种方式,可以省略中间数据;因此,操作性能将得到改善,翻译的准确性将会改善。

左右RNN的顺序操作机制可能会导致模型的并行操作能力的限制和数据模块的损失。注意机制有助于解决上述问题,因为数据翻译数据中的任何位置的距离可以改变,提高了模型的并行性,但取决于前面的顺序运行的影响不再。

注意机制的主要过程包括四个步骤:(1)加权神经网络的输入数据并将它们导入到编码器;(2)将数据导入到译码器;(3)解码器解码过程中查询数据的重量作为反向输入数据;(4)计算的加权平均值数据在每一个国家。简化的注意机制的实现过程如图8

3.1。模型框架

为了突出关注机制的优点,介绍了注意力机制RNN的模型框架,实现了翻译任务通过建立encoder-decoder框架。神经连接模型实现的注意机制的一部分,有助于注意力机制的优势。

9显示了注意机制模型构建本文的总体结构由编码器和译码器。编码器是由单层结构和单层结构的预编码网络,和批号Nc。译码器的结构类似于编码器,也是组成的Nc块,但是没有头层的关注。本文中的神经网络使用微分网络连接,这种方法的显著特征是,网络已进入数据处理的标准水平。

3.2。注意机制模块

注意机制模块主要分为编码器模块和解码模块。编码器的输入部分模块是整个数据序列,和三个输入矩阵用于这部分,也就是说,,K,V。注意机制函数可以被看作是一个映射关系如下:

注意机制的计算过程如下:(1)这个句子翻译数据是由三个不同的加权矩阵,即,K,V,每个句子会得到三个向量(2)上面的重量分布的三个矩阵计算通过扩展点积数值(3)把重量值在步骤(2)的激活函数(4)将步骤(3)的输出V矩阵,得到最终结果

4所示。实验和分析

所有的实验都进行阿里巴巴云服务器ECS的CPU类型是英特尔Skylake与2.5 GHz Xeon 8163白金,和8 GB的内存。所有程序代码是用Python编写的(TensorFlow 3.7.7版)(24]。

4.1。数据采集和评估方法
(1)数据采集:本文的训练数据提取LDC数据(25]。只有部分的来源对小于40个单词长度保留,覆盖90%以上的句子。双语句子训练数据由221 k对,包括500万个中文单词和680万个英语单词。length-limited过滤后,开发集NIST MT03,其中包含795句英语,和测试集MT04 MT05,分别含有1499句,917句。(2)预处理:使用吉萨+ +实现词对齐在两个方向上“growth-determine-final”和“平衡战略”语料库[23]。改进Kneser-Ney平滑4克语言模型训练在中国新英语Gigaword语料库的一部分,其中包含3.06亿个单词,通过使用斯里兰卡语言建模工具包。然后,中国句子解析成一个映射依赖树使用斯坦福解析器。(3)神经网络优化:训练神经网络时,源语言和目标语言仅限于最常见的20 k词在中文和英文,覆盖两个语料库中的词的97%和99%,分别。所有的词汇表和词汇映射到UNK的特殊标记。随机梯度下降法是用来训练联合模型,最小批量大小设置为500。所有联合模型使用2个目标(4克LM)。CNN的最后表示编码器是一个矢量大小为100。最后一款层的联合模型是一个标准的多层感知器,顶层softmax。(4)评价:为了评估预测错误,蓝色值作为评价指标如下:

应该注意的是,蓝色值计算出翻译样本。

4.2。实验测试和结果分析

实验的步骤如下:(1)语料库是处理长句切成单词(2)单词和存储为文件编号、文件存储在一个电脑(3)规范文本,弥补不足的句子长度和拦截过度句子长度(4)培训处理过的句子,然后蓝色值评估

在这项实验中,比较测试用于评估单LSTM[的错误26],LSSVM [27],CNN [28],CNN-LSTM [29日)没有注意机制,LSTM注意力机制(30.),该模型。比较结果如表所示1

从表可以看出1LSTM的翻译效果显著提高了2.8和7.36蓝色后结合CNN和注意力机制相同的设置。此外,LSTM高于CNN的平均值的2.5和0.49蓝色MT04 MT05,分别。结果表明,LSTM和注意力机制可以提供歧视信息解码。值得注意的是,CNN + LSTM比LSSVM的更多信息。因此,推测这是由于以下两个事实:(1)CNN + LSTM避免错误的传播和pseudo-effects学到的词对齐(2)指导信号在CNN + LSTM评估翻译提供补充信息

此外,CNN的原因可以在蓝色是高增益编码整个句子,和表示应该远离的最佳代表共同语言模型。因此,随着CNN的一个非常有用的总结的句子,决议和相关地区的损失可以由源语言。

换句话说,飞行员信号LSTM和注意力机制CNN-based编码器的功能是很重要的,这可以从蓝色值通过CNN和LSSVM的区别。CNN + LSTM可以进一步受益于依赖结构编码的源语言的输入。依赖初始可以用来进一步提高CNN + LSTM模型。LSTM,标志位(0或1)添加到单词嵌入在输入层作为一个标记是否属于源词。为了合并依赖头信息,我们扩展标签规则通过添加另一个标志位(0或1)嵌入到原始LSTM词表明是否依赖的一部分头的兼职。例如,如果x源词和嵌入的相关吗xj依赖标题的单词x,扩展LSTM输入将包含以下方程:

实验的第二部分是集群主体根据长度的句子,然后用不同长度的句子翻译模型的测试来验证翻译模型的能力。测试结果如表所示2。从表可以看出2该模型的性能仍然是最好的在不同的句子长度的情况下,这也证明了该模型具有较强的翻译长句翻译的表现方面。此外,随着句子长度的增加,这个模型的翻译性能的下降小于传统模式,这表明句子长度的变化不太敏感,更准确。

5。结论

针对的问题在传统encoder-decoder翻译翻译不准确和不完整的语义模型,我们提出一种混合神经网络相结合的CNN和LSTM并介绍注意机制。这个模型可以提高上下文语义连接的性能和并行操作,然后有效地提高长句的翻译质量。翻译性能的实验结果表明,改进的混合神经网络翻译模型明显优于传统的翻译模式。在长句翻译测试中,这个模型也有最佳的性能。

在未来,我们将学习新的英语翻译的场景基于大规模的地区。此外,英文翻译系统平台将实现。

数据可用性

使用的数据来支持本研究的发现可以要求作者。

的利益冲突

作者宣称没有利益冲突。