文摘
近年来,随着深度学习的发展,机器翻译使用神经网络已逐渐成为在工业和学术界的主流方法。现有的汉英机器翻译模型通常采用深层神经网络架构基于注意机制。然而,这仍然是一个挑战性的问题同时模型短期和长序列。因此,双向LSTM模型集成机制提出了关注。首先,通过使用这个词向量作为输入数据的翻译模型,在翻译过程中使用的语言符号是数学化。其次,设计两个注意力机制:当地的注意机制和全球关注机制。当地的注意机制主要用于学习单词或短语在输入序列建模更为重要,而全球注意力机制用于学习哪一层输入序列的表达载体更重要。双向LSTM可以更好的融合特征信息的输入序列,而双向LSTM注意力机制可以同时模型短期和长序列。实验结果表明,与许多现有的翻译模型相比,双向LSTM模型与注意力机制可以有效地提高机器翻译的质量。
1。介绍
机器翻译是自然语言处理的一个重要组成部分。机器翻译(MT)主要研究如何自动转换的过程,一个人类语言到另一个由计算机(1- - - - - -5),从而实现不同语言之间的相互转换。随着科学技术和社会经济的快速发展,国内外的文化交流越来越多,从而导致汉英翻译的需求增加。谷歌、微软、百度、搜狗和其他公司正在不断地发展和完善机器翻译系统。机器翻译与人工翻译相比,作为一个低成本和高效的沟通方法,已经成为翻译行业不可缺少的一部分。主流机器翻译模型主要包括统计机器翻译(SMT) (6- - - - - -8机器翻译(NMT)[]和神经9- - - - - -11]。SMT模型,传统的机器翻译方法的统计信息,如词对,平行短语对,句法结构和并行大规模平行语料库翻译过程建立统计模型。研究方法主要包括基于统计方法(12[],phrase-based统计学方法13),和语法基于结构的统计方法14]。其中,phrase-based统计机器翻译将短语(即任何连续词)作为基本的翻译单元,它可以解决本地上下文句子之间的依赖关系,和翻译质量与基于统计方法相比已经大大提高。近年来,随着深度学习的发展,翻译模型使用神经网络映射中国英语已经出现,叫做NMT模型(15,16]。NMT模型显著提高机器翻译的质量,超越传统的SMT方法的性能,成为目前在工业和学术界的主流方法。有别于传统的SMT、NMT致力于构建一个单独的神经网络来实现最佳的翻译性能通过联合训练和调整。基准NMT encoder-decoder框架系统(17),它使用双语平行语料库实现端到端(18)培训过程。编码和解码功能实现了递归神经网络(RNN) [19,20.]。这两个循环神经网络建模的注意层连接,检测相关信息的所有单词在翻译源目标词。这个过程称为注意力机制(21]。RNN是连接模型,它可以捕获输入序列的动态信息在网络节点通过循环操作。与标准前馈神经网络不同,循环神经网络可以保持一个状态,可以在任何长期上下文窗口代表信息。Gulcehre et al。22)提出将RNN语言模型集成到NMT的方法。佐野et al。23)扩大了RNN结构、导数转移到历史信息,提高对长途信息翻译模型的记忆能力。鉴于翻译规则引入NMT的困难,吴et al。24)编码规则和选择规则通过注意机制在翻译的过程中,取得了良好的翻译结果,但也造成了高时间复杂度。近年来,长期短期记忆(LSTM)网络取得了突破性的进步在很多学习任务在计算机领域,如图像,添加字幕语言翻译,手写字体识别。任等。25]扩展LSTM网络结构到16层,使单一模型翻译结果比SMT。然而,通用神经网络模型将不保存中间信息,将同样重量的短序列或短语输入序列。因此,本文提出了一个双向关注LSTM (A-BLSTM)模型集注意力机制。因为不同的单词和短语在输入序列将包含不同数量的信息,A-BLSTM模型包含一个本地的注意机制。当地的注意机制是主要用于学习的词或短语输入序列包含更多的信息。全球注意力机制用于学习层表示向量的输入序列应给予更多的关注(重量)。我们的主要贡献如下:首先,短序列的同步建模和长时间序列,提出了一种层次结构整合的注意机制,从而获得多层中间表示向量的输入序列,而不是一个固定长度的向量。其次,网络层的数量A-BLSTM模型可以改变任务的复杂性。最后,当地的注意机制可以有效地选择相对重要的单词或短语,和全球关注机制可以有效地选择更可靠的中间表示向量。
2。词向量生成
将机器翻译的问题转换成一个机器学习的问题,首先需要mathematize语言翻译过程中使用的符号。翻译模型的输入数据,词向量的质量有很大的影响最终的模型。NMT的数据传输形式,收购词向量的基础研究工作。
2.1。词向量模型
Skip-gram模型用于词向量模型。Skip-gram模型(26),也被称为跳跃模型,以一个字作为输入并预测其上下文在文本序列。例如,对于一个示例文本序列(“的”,“是”,“一个”,“问题”)。给出“是”,假设窗口大小是2,模型需要获得周边的概率是单词“”,“”,“问题”。这时,”是“被称为头的话,和其他词汇被称为背景。这个模型的基本思想是编码所有单词在一个炎热的模式下,输入到神经网络只有一个隐藏层进行训练,并使用隐藏层的表达载体的重量训练后。Skip-gram网络结构如图1。
在这个网络中,输入和输出向量的维度的神经网络都是一样的,而且没有激活函数在隐藏层。为了确保输出向量是一个概率分布,使用softmax输出层。隐层神经元的数量取决于词向量的维数,输出层神经元的数量等于在语料库的字数。假设字典大小 。匹配每个单词在字典里与整数从0到 一个接一个,并建立字典索引集 。对于任何一个单词在字典里,其相应的整数在字典里的索引词。假设一个文本序列的长度,这个词对应的时间吗是 ,和时间窗口的大小 ,然后Skip-gram模型的概率最大化任何中央词生成背景的话,所示的计算方法和公式(1):
为了最大化目标函数,最初的最大似然估计成为公式的最小化(2)。
和代表中央的向量,背景词,分别。词与索引在字典里,这个词的向量作为中央词和词是表示为背景和 ,分别。为了将模型参数嵌入到损失函数,有必要使用模型参数来计算生成背景词从中心词的概率损失函数。假设从中央生成背景词汇词的概率是相互独立的。为中心词和背景的话 ,中心词的概率损失函数生成背景词是通过将softmax函数计算。
当序列长度很大,一个更小的子序列通常是随机抽样来计算损失函数,随机梯度下降法是用于优化损失函数。然后,生成的梯度概率如下:
相当于以下公式:
梯度是由这个公式计算后,随机梯度下降法用于更新模型参数迭代。同样,模型参数可以获得。在最后的训练,这个词与索引在词典中,两组词向量和与这个词的中心词和背景。
2.2。模型优化
它可以发现每一步的梯度计算成本这个词向量模型字典的大小有关 。当字典规模大,普通训练方法将消耗大量的空间资源。因此,有必要使用近似方法计算梯度,以降低计算成本,提高操作性能。softmax近似训练方法采用序列。序列softmax使用Huffman-coded二叉树来表示所有单词的词汇。独立树中的每个叶节点代表一个字。有一个独特的路径从根节点到叶子节点为每个叶节点。这条路是用来估计字由叶节点的概率。序列softmax二叉树结构如图2。
假设表示路径上的节点的数量从根节点到叶子节点。让 是 - - - - - -th节点上这条路,这个节点表示为向量 。然后,词向量模型生成的概率从任意字如下: 在哪里代表乙状结肠功能和代表左分支。
3所示。机器翻译模型集成机制的关注
整个结构的提出A-BLSTM模型如图3。与其他RNN模型相比,该模型的一个优势是,模型层的数量可以改变任务的复杂性。此外,随着网络层的增加,节点的数量A-BLSTM减少一层一层地,和每一层的计算复杂度也减少。我们将三层网络结构为例阐述。特别是A-BLSTM包括以下三个部分:基于BLSTM序列编码器,当地的注意机制结构和全球注意力机制的结构。
3.1。基于BLSTM序列编码器
RNN的隐层的状态在时间通过计算一个函数 ,见公式(7): 在哪里代表当前输入状态代表了一种非线性辐射传递函数。
LSTM是一种改进的递归神经网络,可以有效地解决这个问题在时间序列的长期依赖,所以它在语音识别具有较强的优势。LSTM可以有效地解决这一问题,传统RNN不能长距离依赖在培训过程中学习。LSTM包含一个存储单元单元,根据需要将更新其存储的信息。图4显示了LSTM网络的结构,在每个迭代中重复模块代表隐藏层。
LSTM单位时间是由一组向量,其中包括一个输入门 ,忘记门 ,一个输出门 ,一个存储单元 ,和一个隐藏的状态 。LSTM网络的转换公式如下: 在哪里代表元素的乘法,代表偏差向量参数,代表一个更新。
与单向LSTM相比,双向长期短期记忆网络(BLSTM) [27)使用额外的落后的信息,增强网络的记忆能力的优势。每个节点的隐藏状态BLSTM可以由以下公式计算。 在哪里代表连接操作,~代表BLSTM单元的输出。
3.2。当地的注意机制和全球关注机制
传统LSTM建模使用最后一个隐藏的状态序列向量或平均值来得到最终的序列向量。然而,不同的单词或短语在句子的重要性是不同的28]。因此,我们当地的注意机制引入BLSTM。当地的机理如图的关注5。
为 - - - - - -th层网络结构,代表表示向量的输入序列,其计算公式如下: 在哪里 , 代表了归一化系数向量,代表输入序列的长度。 在哪里和在网络参数。
网络的层数越高,越原始信息保留在句子向量,获得更高的抽象级别的句子的意思。因此,不同的输入序列和任务,网络中的信任每一层的重量应该是不同的。为了奖励正确的层更有意义的分类标签,我们引入了网络的全球注意力机制。全球关注机制如图6。
全球注意力机制的原则是给每一层的分类概率的重量,代表有多少概率神经网络信任这一层的输出。全球关注机制的公式如下: 在哪里 , , , ,和网络中所有参数。我们可以计算一个总体分类概率分布通过每一层的分类概率和信任体重每一层的网络结构。
3.3。A-BLSTM
提出A-BLSTM模型层次结构,不断整合的信息每一层自下而上的方式,最终能有效地模型结合特性。A-BLSTM表达的层数 。为层,输入的- - - - - -th节点计算如下: 在哪里和BLSTM单元的输出。一个单词是输入的第一层网络结构,然后,每一层的输出递归地成为上层的输入到网络结构的顶层。
4所示。实验和结果分析
4.1。机器翻译评价指标
为了评估模型的翻译效果,我们用蓝色(双语评价研究)29日IBM提出的)机器翻译质量的评价指标。蓝色是一种国际公认的机器翻译的评价方法。这种方法获得的评估价值计算相似性机器翻译和人工翻译结果结果。相似度越高,得分越高,也就是说,翻译质量越高。蓝色值的计算公式如下: 在哪里代表了惩罚因子,代表总数,代表的重量,是匹配的准确性。 在哪里代表候选人的长度和翻译代表了参考翻译的有效长度。
4.2。实验数据和数据处理
实验数据选择较小的数据集的国际研讨会上口语翻译(IWSLT)。IWSLT是最具影响力的口头机器翻译评价世界上竞争。IWSLT 2015数据集包括220000汉英平行的句子,其中包括开发集数据开发和三个测试集数据(test1, test2和test3)。各种NMT模型包括A-BLSTM是建立在TensorFlow,深度学习框架。神经网络相关参数设置如表所示1。
在实验中,首先,预处理文集:(1)段corpus-mainly中国数据,使用斯坦福分词把中国句子分成的话,如表所示2;(2)符号处理corpus-mainly英语数据,使用分词器。每一个分词脚本,在摩西的系统中,用英语单词之间插入空格和标点符号数据,表中列出3;(3)把大写字母转换成小写英文资料;和(4)选择前30000个高频词的加工训练语料库和其余的单词替换为< unk >。
4.3。网络层数的功能分析
不同层数的影响在汉英机器翻译任务A-BLSTM模型图所示7。
(一)
(b)
(c)
(d)
可以看出,相比之下,深或浅层次结构,三层A-BLSTM结构取得最好的结果发展集和测试集,两层的性能A-BLSTM结构很差,因为只有一个抽象级别的文本向量表示,所以没有应用全球注意力机制所带来的优势。一般来说,与网络层的增加,网络可以学习更抽象的语义表征信息,和翻译的准确性(蓝色值)也将不断提高。然而,当有太多的网络层的网络结构(三层以上),翻译的准确性将开始下降。这是因为序列建模,太多的层是不必要的,和额外的噪音将会介绍,这将减少汉英机器翻译的准确性。在后续的实验中,A-BLSTM采用三层体系结构。
4.4。注意机制的有效性分析
为了说明全球注意力机制的有效性,我们比较当地的关注BLSTM A-BLSTM (LA-BLSTM)。比较的结果LA-BLSTM和A-BLSTM如图8。显然,A-BLSTM模型的性能优于LA-BLSTM,尤其是test2数据集和test3数据集。实验结果表明,全球注意力机制能够准确地识别网络结构的表示向量的哪一层是翻译更可靠。
4.5。翻译模型的性能比较
不同的神经网络用于训练和测试的翻译模型,与实验结果如表所示4。为了比较不同模型的翻译表现更直观,数据表4由柱状图显示。不同的翻译模型发展的蓝色值集和测试集在图所示9。
从结果表4和图9,我们可以发现NMT的注意机制可以提高翻译性能模型和提出A-BLSTM模型结构可以有效地提高机器翻译的性能通过建模短序列和长序列。主要原因是全球关注的机制可以确定哪些层表示向量的输入序列应给予更多的关注(重量)。
5。结论
提出了一种神经机器翻译模型,A-BLSTM于一体的注意机制。采用层次结构来表示输入序列作为多层表示向量,而不是一个固定长度的向量表示。当地的注意机制的引入可以有效地选择单词或短语与大量的信息输入序列。全球注意力机制的引入可以有效地选择一个更可靠的中间表示向量。实验结果表明,该A-BLSTM模型取得了相对较高的蓝色值中英文机器翻译任务,这超过了其他现有神经机器翻译模型。随后,我们将尝试使用量子弱测量模拟读者的理解句子从量子的角度认知,以便进一步提高翻译的性能。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有利益冲突的报告对于本研究。