文摘
Transformer-based模型获得了重大进展在神经机器翻译(NMT)。变压器的主要成分是多线程注意层。理论上,更提高NMT模型的表达能力。但这并非总是如此。一方面,每个主管关注的计算是在相同的子空间进行的,没有考虑到不同的子空间的所有令牌。另一方面,低秩的瓶颈可能发生,当领导的数量超过一个阈值。解决低秩瓶颈,两种主流方法使头部大小等于序列长度和复杂的分布self-attention正面。然而,这些方法都受到语料库中的变量序列长度和可以学到大量的参数。因此,本文提出了interacting-head注意力机制,导致更深和更广泛的交互注意头由低维计算在不同的子空间的所有令牌,并选择适当的数量的头,以避免低秩的瓶颈。该模型是测试机器翻译任务IWSLT2016 DE-EN, WMT17 EN-DE,和WMT17 EN-CS。 Compared to the original multihead attention, our model improved the performance by 2.78 BLEU/0.85 WER/2.90 METEOR/2.65 ROUGE_L/0.29 CIDEr/2.97 YiSi and 2.43 BLEU/1.38 WER/3.05 METEOR/2.70 ROUGE_L/0.30 CIDEr/3.59 YiSi on the evaluation set and the test set, respectively, for IWSLT2016 DE-EN, 2.31 BLEU/5.94 WER/1.46 METEOR/1.35 ROUGE_L/0.07 CIDEr/0.33 YiSi and 1.62 BLEU/6.04 WER/1.39 METEOR/0.11 CIDEr/0.87 YiSi on the evaluation set and newstest2014, respectively, for WMT17 EN-DE, and 3.87 BLEU/3.05 WER/9.22 METEOR/3.81 ROUGE_L/0.36 CIDEr/4.14 YiSi and 4.62 BLEU/2.41 WER/9.82 METEOR/4.82 ROUGE_L/0.44 CIDEr/5.25 YiSi on the evaluation set and newstest2014, respectively, for WMT17 EN-CS.
1。介绍
Bahdanau等人首先介绍了注意力机制神经机器翻译(NMT)以及复发性神经网络(RNNs):重每个源的重要性令牌机制产生目标令牌。相比之下,传统的方法预测每个目标标记在每一个时间步,使用固定长度的上下文向量(1]。Kalchbrenner et al。2和格林等。3,4)注意机制与模式相结合基于NMT的卷积神经网络(CNN)。比起最近的基于变压器模型成为时尚解决方案sequence-to-sequence (seq2seq)等问题NMT [5- - - - - -7),因为他们比RNN-based模型和CNN-based模型(1- - - - - -4,8,9]。比起在每个的基于变压器模型,采用encoder-to-decoder结构编码源序列为一系列隐藏表示上下文向量,然后目标序列生成基于上下文向量(5]。编码器和解码器通过关注层连接。
比起的的基于变压器模型,它只依赖于注意力机制,比模型基于RNNs CNN,多亏self-attention网络(SAN)的使用。在实践中,比起进一步提高表达能力的基于变压器模型采用多线程self-attention机制。每个项目负责人输入到一个低维子空间和计算相应的关注关系的子空间。这个投影的大小为每个头通常称为头的大小(10]。
然而,这种多线程注意力机制有两个问题。一方面,在理论上,更多正面制作模型表达自然语言处理(NLP)。然而,一些学者表明,更不一定带来更好的性能。低秩可能出现瓶颈,一旦头的数量超过某一阈值(10]。即更多的正面产生多余的头信息,提高模型的计算复杂性,导致功能冗余,降低性能。Voita et al。11和米歇尔等。12)证明,只有一小部分的负责人对NMT是真正重要的,尤其是编码器。等重要首脑形态学、语法和低频词用于多种功能,而其他头只传达重复和不完整的信息。另一方面,每个头是独立而不考虑所有正面的相互关系。计算每个头的注意力只在执行相同的子空间而不是在不同的子空间。多线程self-attention机制只连接所有的结果。
为了避免带来的低秩瓶颈更正面,Bhojanapalli et al。10)将低维空间的参数接近注意矩阵通过增加副标题的序列长度的关键尺寸。Shazeer et al。13)认为,当小标题的维数达到极端水平,点积之间的查询和关键不符合信息匹配功能。为了解决这个问题,头部特写的关注。在这种机制下,注意力可以参加任何查询和关键,不管副标题的数量和尺寸,通过学习前后的线性投影矩阵将softmax函数。然而,注意机制也进行了相同的子空间。此外,前者的方法可能不会提高机器翻译的性能,造成序列长度的变化范围。的头部特写的关注,更多的参数是需要学习的,注意头分布变得更加复杂。
因此,有必要解决头的最大数量为避免低秩的瓶颈和充分利用所有正面的互动信息。参加所有子查询注册表子项和防止低秩的瓶颈,提出了interacting-head注意力机制,基于以下的直觉:(1)当有相对较少的正面,注意头部大小之间的关系在不同的子空间增加头部大小;(2)当有相对多的正面,注意头部大小之间的关系在不同的子空间减少头大小和可能被忽略在最极端的情况下;(3)正确的数量的正面必须选择,因为它是计算密集型计算所有空间中的所有标记的注意。拟议中的interacting-head注意力机制使谈话的头部大小相同的子空间和相互作用在不同的子空间。此外,一个合适的阈值被定义为正面的次数来控制训练和解码时间,同时避免煤瓶颈,确保头部大小。
我们的模型相比,三基线评估模型在三个注意多线程数据集。比较证明了interacting-head注意力机制提高了翻译性能和提高表达能力。在数据集IWSLT2016 DE-EN,我们的模型优于原多线程注意力模型2.78蓝色/ 0.85回答/ 2.90流星/ 2.65 ROUGE_L / 0.29苹果酒/ 2.97 YiSi 3.05和2.43蓝色/ 1.38回答/流星/ 2.70 ROUGE_L / 0.30苹果酒/ 3.59 YiSi评价集和测试集,分别。数据集WMT EN-DE,我们的模型比原模型2.31蓝色/ 5.94回答/ 1.46流星/ 1.35 ROUGE_L / 0.07苹果酒/ 0.33 YiSi和1.62蓝色/ 6.04回答/ 1.39 YiSi流星/ 0.11苹果酒/ 0.87,1.21蓝色/ 6.63回答/ 1.42流星/ 0.51 ROUGE_L YiSi / 0.18苹果酒/ 0.52,1.39蓝色/ 4.64回答/ 0.98流星/ 5.59 ROUGE_L YiSi / 0.24苹果酒/ 0.42,1.26蓝色/ 3.84回答/ 1.70流星/ 0.13苹果酒/ 1.30 YiSi评价集和newstest2014/2015/2016/2017测试集,分别。数据集WMT EN-CS,我们的模型比原模型3.87蓝色/ 3.05回答/ 9.22流星/ 3.81 ROUGE_L / 0.36苹果酒/ 4.14 YiSi 9.82和4.62蓝色/ 2.41回答/流星/ 4.82 ROUGE_L YiSi / 0.44苹果酒/ 5.25,3.78蓝色/ 5.09回答/ 9.09流星/ 4.24 ROUGE_L YiSi / 0.35苹果酒/ 3.97,4.42蓝色/ 2.87回答/ 3.21流星/ 4.42 ROUGE_L YiSi / 0.38苹果酒/ 4.83,3.42蓝色/ 3.97回答/ 2.79流星/ 3.66 ROUGE_L / 0.33苹果酒/ 4.00 YiSi评价集和newstest2014/2015/2016/2017测试集,分别。
这项研究使以下贡献:(1)各种类型的注意机制,用于RNNs, CNN,和变形金刚,综述了数学表达式。(2)作者提出了一个计算方法的最大数量。方法保持头部大小在大级别,这样头注意子空间中计算。此外,计算方法解决了低秩瓶颈和防止过度训练和解码时间长。(3)NMT的interacting-head注意力模型提出了变压器,在所有的注意力完全可以相互通信。
2。预赛
本节回顾变压器结构,这时RNNs和CNN seq2seq任务,审核各种形式的关注的背景下,尤其是多线程注意力用于变压器(5),分析了煤引起的瓶颈多线程注意力标准变压器,并介绍了两种主流的解决方案低秩瓶颈,以及他们NMT的问题。
2.1。变压器
变压器结构解析NMT仅仅依靠关注算法(5]。比起已经证明了的基于变压器模型优于模型使用RNNs和CNN (1- - - - - -4,8,9]。像RNNs和CNN,比起标准的基于变压器模型采用encoder-to-decoder结构NMT [14]。这个结构源序列映射到一个隐藏的状态矩阵作为一种自然语言理解(NLU)任务和视图矩阵元素的上下文向量或条件生产目标序列。编码器和解码器块堆叠在encoder-to-decoder结构。
每个编码器块通常包括一个多线程self-attention层和一层前馈与剩余连接(15),紧随其后的是归一化层(16]。编码器的核心组件,多线程self-attention层捕捉隐藏表示源序列内的所有令牌。这个操作主要取决于圣,学习共同关注分数的源序列中的任意两个令牌。应该注意的是,学会了关注分数构成非对称方阵,因为学参数。例如, ,注重分数的我th令牌的jth令牌,不等于 ,注重分数的jth令牌的我th令牌。具体来说,圣计算按比例缩小的点积的注意力关注分数的算法。因为每个令牌是可见的,编码器可以捕获每个令牌在两个方向上的特性。编码器的有两个主要功能:(1)学习输入序列的隐藏表示作为自然语言生成条件(NLG)的任务,例如,NMT;(2)完成下游NLP的任务,如情绪分类或标签转移学习,培训后独立作为一个蒙面的语言模型(传销)[17)和连接到特定的网络。
译码器块作为编码器块有类似的结构。唯一的区别在于一个额外的子层,计算之间的关注分数表示的源序列由编码器和当前目标令牌代表的多线程圣的解码器。这个子层,称为encoder-decoder注意层,紧随其后的是一个多线程注意层。译码器,两个注意力机制,即多线程self-attention encoder-decoder注意力,排列捕捉隐藏状态的目标在每一块令牌。因为令牌只可见其左方的令牌,self-attention分数低维三角矩阵。换句话说,多线程self-attention层目标是当前目标令牌只关注左方的令牌和面具未来令牌在目标序列。此外,解码器学习左方的令牌表示生成令牌概率分布在每个时间步。在培训过程中,目标令牌的概率分布计算是基于真实的左方的目标令牌或其代表。所有的代表都是由编码器作为上下文向量生成目标序列。在推理过程中,当前令牌概率分布计算是基于先前的目标令牌分布。 All the token representations are given by the encoder. The decoder works in a teacher-forcing way during training, while in an auto-regressive way during inference. The difference between the two stages is that the last token feature comes from the last ground-truth token and the last generated token given by the trained model, respectively.
比起因为注意力机制不是order-aware的基于变压器模型将位置信息添加到标记,例如,绝对位置嵌入。
2.2。注意
NMT的翻译性能取决于注意力机制,除了encoder-to-decoder结构。Bahdanau et al。1)率先使用注意NMT连同RNN的机制。Sutskever et al。8)和陈德良et al。9)进一步先进NMT的注意机制的实现。注意机制的引入,后一个目标令牌不再只依赖于相同的上下文向量。源的不同的角色令牌在目标令牌生成反映。随着变压器的外观,算法复杂的关注已经发展为特定NLP的任务,如单头关注和多线程的注意。除了连接编码器与解码器,这些算法在一个端到端的方式学习的关系。
2.2.1。点积的关注
陈德良等人注重分数的计算方法进行了探讨,研究了它们的有效性,注意力机制分为全球关注和当地的关注9](前所有源目标令牌,而后者认为所有源令牌)的子集,并设计三种计算方法两个张量或向量之间的重量分数连同RNNs核磁测井仪。在这里,一些符号用于Shazeer et al。13采用。三种计算方法可以表示为 在哪里 和 分别匹配和匹配列向量; 是一个学习参数矩阵;是真实的。分数越大,就越重要x的一代吗米。点积的注意力被广泛用于模型实现,由于其速度快,空间效率(5]。符合的符号Shazeer et al。13),两个序列之间的关注 和 通过内积计算操作。 在哪里和的长度是 和 相同的尺寸 ,分别。保持形状不变之间的输入和输出, 被认为是最终的输出或进一步映射到更低或更高维度与线性投影矩阵 得到最终的输出。
2.2.2。按比例缩小的点积的关注
扩展点积的注意力被称为单头注意力在这个研究。这种关注项目输入机制成 - - - - - -空间查询和项目其他输入成 - - - - - -维键和 - - - - - -维的值 。的增加推高的点积,进而使将softmax函数收敛到地区有非常小的梯度(5]。因此,关注分数是按比例缩小的 。
首先,有必要解释关注分数的计算由一个头两个张量之间的关注 和 ,需要下投影操作处理的空间差异。查询的矩阵 ,键 ,和价值观 分别可以获得与线性投影矩阵吗 ,和 在X、M和M .全球计算可以被定义为 在哪里 是输出。的值是过去的线性投影后获得的。如果self-attention分数计算在一个序列,线性投影矩阵 必须在相同的张量函数;也就是说, 。如果不同于 ,encoder-to-decoder关注分数计算公式(3)。应用扩展点生产self-attention圣的编码器和解码器,以及encoder-decoder注意层。事实上,Vaswani et al。5]用变压器捕获令牌依赖,依赖于多线程扩展生产注意点。
2.2.3。多线程的关注
在标准的变压器,它有利于把表示分割成多个正面和连接subresults正面。这是因为更多的正面提升表达能力和改善模型性能。两张量使用 和 ,在哪里表示匹配张量和表示匹配的目的。维度的查询,然后分裂成键和值h部分,等于头的数量。因此,这两个张量可以投射到三个低维矩阵(子查询、注册表子项和subvalues)与相应的低维参数矩阵 为头。在大多数情况下,等于 ,并都设置为 ,与的模型尺寸(5]。
最后,所有的suboutputs 的小标题连接作为最终结果吗 。最终结果可以进一步映射到更低或更高维度与一个线性投影矩阵 。
标准变压器、多线程的注意机制是利用在三个子层:圣,编码器解码器圣,encoder-decoder关注。在模型实现,所有三个子层采用多线程点积的注意。
2.3。低秩瓶颈多线程的注意力和当前的解决方案
2.3.1。低秩的瓶颈
更多的正面理论上提高表达能力,和更少的头意味着较弱的表达能力。然而,Bhojanapalli et al。10)时发现的数量大于 (和分别模型维度和序列长度),出现低秩的瓶颈,使模型不能表示任意上下文向量。消除瓶颈,模型的维d可以增加而增加的。这种方法显然是昂贵的,因为有更多的内存资源所需的强度计算模型的训练。
2.3.2。增加关键尺寸和头部大小
的 总是设置在同一维度( )。在确定模型维度和正面的次数 ,小标题项目 成的子空间 ,通过一系列的投影矩阵 ,在哪里代表序列的长度, 是个子维度。然后,头注意计算 产生一个self-attention方阵 。最后,suboutputs 点积和是连接。
尽管如此,投影到一个低维子空间映射 - - - - - -维度得分矩阵的关注 变量。的增加 , 结果在一个低的瓶颈。这不是理想的减少或增加 。他们减少了表达能力或增加了计算负荷。Bhojanapalli et al。10)提出了一个解决方案,打破约束的 : 通过增加实现的关键尺寸 。这种方法,不改变注意头部的形状或计算过程,满足以下关系:
2.3.3。的头部特写的关注
根据Vaswani et al .,充分增加正面的大小可以提高表达能力。但这是不支持的任何经验证据5]。特别,翻译相当差,当标记嵌入减少到只有一个标量。在这种情况下,查询的点积(标量)和钥匙(一个标量)不能代表他们的子空间特性。Shazeer等人提出了多线程的注意力的一种变体,称为头部特写的注意,增加两个线性变换矩阵之前和之后将softmax函数来计算权重的注意头(13]。增加使每个关注头互相交谈。
在头部特写的关注,关注分数的头 计算一样多头的注意。标准化将softmax函数之前,首先说之间的正面投影矩阵的建立 。
然后,执行标准化注意重量,使用将softmax函数。之后,第二个说的是建立与另一个投影矩阵 。
最后,最终的输出表示相同的方法计算,多线程的注意。
2.3.4。缺陷的两种解决方案
第一个解决方案的目标 或 。的设计者解集的头大小头注意单元定义的输入序列长度和独立于正面的次数。然而,NMT序列长度变化很大。第二个解决方案采用线性变换来改变不同的分布subattention矩阵,大大增加的数量可训练的参数。此外,增加的减少的价值和削弱了功能生成的子空间。因此,第二个解决方案不能提高最终的翻译性能。总的来说,不能有效地解决低秩瓶颈,除非更复杂的高维空间变换被称为寻求帮助。
3所示。Interacting-Head关注
3.1。理论假设
在最初的多线程的注意,一个副标题计算之间的点积subembeddings(大小头)的令牌相同的子空间。头的大小在不同的子空间预计将有强烈的相关性。应该存在着强烈的关联时,头部大小的数量非常大或者头弱小的时候头部大小是小或头的数量大。不同子空间的subembedding可以忽略,因为subembedding相同的子空间非常小。显然,当头部大小限制达到1,正面的个数等于模型维度,subembedding在同一子空间的点积等于两个标量的乘积。这当然不能表达相同的子空间的特征信息。计算头部大小的相关性在不同的子空间,本文提出了一种新颖的注意机制称为interacting-head关注。假设头大小不大于序列长度,旨在防止煤瓶颈。我们的模型的有效性通过实验验证了基于这个假设。
阐明组成,两个相邻标记之间的关系与不同的头部大小在不同的子空间显示在图中1协会,红线表示头部大小相同的子空间,蓝色,黑色,绿色,棕色线指定子空间的头部大小的协会1,2,…,(h−1)和h,分别。事实上,有一个协会之间的任何两个头大小的令牌在不同的子空间。
3.2。图形化表示
如图2,传统的多线程注意结合之前采用分割的方法。每个小标题代表subembeddings在同一子空间之间的匹配。然而,并不是所有副标题彼此相关。如果头的数量增长,依赖一些正面的疏忽将导致较低的性能。更糟糕的是,只有部分注意力在相应的查询和钥匙被认为,尽管传统的机制涵盖了主要的匹配信息。相比之下,我们的机制认为之间的依赖关系的所有关注查询和钥匙。此外,它假定的不同维度的头大小标记表明形态、语法、语义信息,分别。形态也必须有密切联系的形态(更重要的是关注分数)其他标记。不用说,这也是与其他标记的语法和语义信息。
(一)
(b)
我们的机制有以下优点:(1)与头部特写的关注相比,我们的机制不需要学习额外的参数,且仅增加了一些内积计算。(2)我们学习机制通过interacting-head从属信息的关注,除了注意计算的所有令牌的头部特写关注相同的子空间。通过这种方式,所有部件完全可以相互通信。
3.3。足够的首脑之间的相互作用
确保任何注意头参加所有子查询和注册表子项,本文进一步探讨了任何子查询匹配的张量之间的关系 从匹配的张量和所有的注册表子项 ,在哪里和源和目标的特性矩阵序列,和他们的长度,和分别是他们的维度。假设正面将的数量 。像原来的多线程的关注,我子空间,两张量都映射到其他的张量 , , 使用三个线性变换与低维矩阵 , ,和 。实际上,的尺寸 和 必须为解决点积相等。否则, 线性变换矩阵吗与 。这个过程可以表示为
为 ,它和所有的注册表子项之间的关注分数计算,然后通过将softmax函数归一化。 在哪里 注意输出之间的特殊的子查询和动态注册表子项 。确实,interacting-head关注一个序列的计算只需要替换与 。其次,最终的输出可以通过类似串连sub-sub-output sub-output,分别为:
最小的python实现算法1所示。在实践中,深度学习框架keras用于我们的实验。
|
3.4。选择合适数量的正面
节2.2。3的尺寸 , , 矩阵的我头部受到 ,可以写成 。根据[头部大小的定义10),它可以表示为 。如前所述,增加模型维数和正面的次数可以提高表达能力。但沉重的计算负载和大内存需求将接踵而至,这导致煤的瓶颈。最初我们的模型采用一个固定的维度 。灵感来自[10),以防止低秩瓶颈,序列长度被认为是最低头的大小。因此,训练集的意思是序列长度应该计算获得正面的最大数量。在我们的模型中,正面的最大数量计算 在哪里模型维数和吗是均值序列长度的训练集。
4所示。实验
本节测试我们的模型在三个数据集,即IWSLT16 DE-EN, WMT17 EN-DE,和WMT17 EN-CS。他们被广泛用作NMT的基准。在实验之前,三个数据集预处理,hyperparameters配置。三种经典的和高效的模型被选为基线在翻译质量证明我们的模型的优越性。分析了实验结果来验证我们的假设,揭示了我们的模型的优点和缺陷。
4.1。数据集
为IWSLT16 DE-EN语料库,实验数据提取评价活动的国际会议口语翻译(IWSLT 2021) (18]。提取的数据由181 k / 12 k的句子对培训/评价集。的串联tst2010/2011/2012/2013/2014作为测试集,包括大约12 k的句子配对。
WMT17机器翻译任务,EN-DE和EN-CS MT任务被选为我们的问题因为有限的内存资源(19,20.]。对于WMT17 EN-DE EN-CS全集,585万年和100万年的训练集由句子配对,分别。对两个语料库,newstest2013 3 k序列对被视为我们的评估和newstest2014/2015/2016/2017作为测试集。
这两个数据集预处理通过数据标准化和subword细分,使用摩西,统计机器翻译的实际标准工具包(SMT) (21]。首先,这句话对所有的数据集都标记化的,和那些超过80/80/100训练集的IWSLT16 DE-EN, WMT17 EN-CS,和WMT17 EN-DE,分别被丢弃。之后,truecase模型训练在训练集和清洗应用于每个子集。其次,所有序列对被两字节编码加密(BPE) [22),用一个句子工具(https://github.com/google/sentencepiece)[23]。这一步减轻了未知的影响(UNK)填充(垫),和罕见的令牌。在IWSLT16 DE-EN和WMT17 EN-DE翻译任务,源语言和目标语言(EN和德)也有类似的字母。因此,40000/80000的标记的一个共享的词汇学习在IWSLT16 WMT17,分别。在WMT17 EN-CS翻译任务,词汇是学习英语(EN)和捷克(CS)另外,因为两种语言相互远离。
从表可以看出1和图3,序列长度的语言在不同的数据集服从分布相似,仍与均值序列的长度一致。序列的长度范围从3到120年,从1到332年,从1到316,IWSLT16 DE-EN, WMT17 EN-DE,和WMT17 EN-CS,分别。均值序列的长度三个数据集设置为20日分别为25和26日。
4.2。参数设置
我们的实验参数的设置是指(5)首次提出了变压器用于NMT的架构。我们的实验安排优化器基于一个适当的设置,学习速率和hyperparameters。优化器是由亚当与设计的 , ,和 作为我们优化器(24]。热身的学习速率配置策略5)与 。在培训过程中,标签平滑率(25设置为0.1,辍学是固定在0.1。此外,由于GPU内存的限制,线性变换的隐藏状态的尺寸设置为1024,和模型尺寸设置为512。为了避免低秩的瓶颈,正面的最大数量是通过公式(13)。表2列出了可能的值的数量。
所有的实验和TensorFlow 1.4.1 keras 2.1.3参照项目(https://github.com/Lsdefine/attention-is-all-you-need-keras)。获得模型cpt文件也可以转化为PyTorch bin文件中,《变形金刚》(26]。所有的实验都完成了由两个NVIDIA Tesla V100 gpu的32 GB内存。
在推理,定向搜索算法用于光束大小4和批量大小8解码所有测试集。长度的点球被设置为1和0.6 IWSLT16和WMT17测试集,分别。
4.3。评价指标
机器翻译的质量是由多个指标,客观评价包括双语评价替补(蓝色)27),字错误率(回答)28),指标评价翻译与明确的顺序(流星)[29日),recall-oriented替补依据评价(高棉)[30.),一致同意的形象描述评价(酒)31日]和YiSi [32]。(1)蓝色(27]。蓝色,最多种评价方法对机器翻译,使用语法标记匹配评估参考和候选人之间的相似性。质量呈正相关与翻译之间的距离和引用。(2)回答(28]。类似于翻译编辑率(TER) [33这个词),回答计算错误率之间的引用和假想的翻译。这个单词错误包括替换的数量,插入和删除从翻译到参考。率的比例是单词错误的长度参考。(3)流星(29日]。基于显式一个词到一个词匹配,流星在表面形式,包括相同的单词形态变异的形式,和同义词在参考和候选人之间的意义。(4)胭脂(30.]。介绍了胭脂Chin-Yew林的文本摘要。它包含四个不同的措施:ROUGE-N ROUGE-L, ROUGE-W, ROUGE-S。选择这里,ROUGE-L度量评估机器翻译。请注意,l的缩写是最长公共子序列(LCS)之间的引用和候选人。(5)苹果酒(31日]。酒本来是用来评估生成的形象描述。措施生成序列的相似性与一组地面实况的句子写的人类。这种相似性反映了如何生成捕捉语法性的信息描述,特点、重要性,和准确性。(6)YiSi [32]。YiSi是一系列语义机器翻译的质量评价和估算指标。本文选择YiSi-1高平均相关性与人类的评估,由于使用多语言双向编码器从变形金刚(BERT)表示。
蓝色,回答,流星,使用multi-bleu ROUGE_L,苹果酒,YiSi计算。perl (https://github.com/moses-smt/mosesdecoder),pyter (https://pypi.org/project/pyter/),nlg-eval (ROUGE_L流星,苹果酒使用https://github.com/Maluuba/nlg-eval)[34),和YiSi (https://github.com/chikiulo/yisi)。
4.4。基线
(1)原始多线程关注Vaswani et al。5]:比起原始的基于变压器模型实现基于多线程的注意,这让表达能力比单头的注意。模型线性项目查询、键和值不同,学会了投影矩阵 , ,和维度,分别。每个头收益率 - - - - - -维输出值。所有关注头连接到最终值。(2)多线程的关注(头的大小等于序列长度)Bhojanapalli et al。10]:在最初的多线程的注意,头和头部大小的数量之间的比例导致煤的瓶颈。为了克服这个问题,Bhojanapalli等人将头部大小设置为输入序列长度和保持独立的正面。通过这种方式,每个头获得更多的表达能力。他们的方法是通过实验验证的有效性的两个任务斯坦福问答数据集(队)和多媒质自然语言推理(MNLI)。(3)的头部特写关注Shazeer et al。13]:正面的次数的增加,查询向量和关键向量的维数变得如此之低,向量的点积两种类型不再包含有用的信息。这是通常被称为一个低秩的瓶颈。为了解决这一问题,头部特写注意插入两个线性学习投影矩阵的attention-head维度attention-logits张量,允许每个负责人注意目标任何子查询向量和注册表子项向量。这种注意力机制的可行性测试几个seq2seq NLP的任务。但Shazeer等人没有任何测试机制NMT的任务。因此,本文实现了机制评价基准和比较我们的模型。
4.5。结果
为IWSLT2016 DE-EN翻译任务,所有模型几乎达到了巅峰状态在16岁。如表所示3,性能原始多线程的注意力明显下降了3.31蓝色/ 0.41回答/ 2.72流星/ 0.30 2.83 ROUGE_L /酒/ 3.23 YiSi评价集和1.15回答/ 2.63流星/ 2.69 ROUGE_L / 0.27苹果酒/ 2.88 YiSi测试集,随着头的数量从16到32。这种趋势表明煤瓶颈的发生。至于多线程关注固定头部大小,性能达到一个相对稳定的状态,当领导的数量等于16。随着头的数量增加,性能略有改善。在头部特写的注意,性能变化类似于多线程关注固定头部大小。当谈到我们interacting-head注意力,性能明显改善了2.78蓝色/ 0.85回答/ 2.90流星/ 2.65 ROUGE_L / 0.29苹果酒/ 2.97 YiSi评价集和2.43蓝色/ 1.38回答/ 3.05流星/ 2.70 ROUGE_L / 0.30苹果酒/ 3.59 YiSi测试集,与原来的相比多线程的注意。
为WMT17 EN-DE翻译任务,最初的多线程的注意力在16头和最佳的性能表现与越来越多的穷。如表所示4,多线程的注意力与固定头部大小和头部特写注意取得很小的进步通过求解低秩的瓶颈。与我们interacting-head注意力,性能提高了2.31蓝色/ 5.94回答/ 1.46流星/ 1.35 ROUGE_L / 0.07苹果酒/ 0.33 YiSi和1.62蓝色/ 6.04回答/ 1.39流星/ 0.11苹果酒/ 0.87 YiSi评价集和newstest2014,分别。
为WMT17 EN-CS翻译任务,最初的多线程注意力模型再次遇到16头的低秩的瓶颈。如表所示5,我们interacting-head注意力达到更好的结果(3.87蓝色/ 3.05回答/ 9.22流星/ 0.36 3.81 ROUGE_L /酒/ 4.14 YiSi评价集,和4.62蓝色/ 2.41回答/ 9.82流星/ 4.82 ROUGE_L YiSi / 0.44苹果酒/ 5.25,3.78蓝色/ 5.09回答/ 9.09流星/ 4.24 ROUGE_L YiSi / 0.35苹果酒/ 3.97,4.42蓝色/ 2.87回答/ 3.21流星/ 4.42 ROUGE_L YiSi / 0.38苹果酒/ 4.83,和3.42蓝色/ 3.97回答/ 2.79流星/ 3.66 ROUGE_L / 0.33苹果酒/ 4.00 YiSi newstest2014/2015/2016/2017,分别)。
4.6。分析
4.6.1。横向和纵向分析
水平,低秩瓶颈发生不可避免的是,当领导的数量达到一定水平。在某种程度上,前面的模型解决这个问题的代价性能下降。机器翻译是不同语言之间一代的任务。与以前的研究结果相比,我们的模型带来了显著的性能改进和揭示了subembeddings强之间的相关性在不同的子空间。纵向,模型的表达能力增加的数量,直到后者达到瓶颈点 。interacting-head注意力的优越性在最初的多线程关注subembeddings之间函数的结果在不同的子空间。
4.6.2。影响因素分析
如表所示3和4,多线程的注意力与固定头部大小和头部特写注意牺牲性能为解决低秩的瓶颈。最终的性能主要受到四个因素的影响:维度的查询,键值,和正面的次数。注意力的主要来源矩阵的维度查询和钥匙。在多线程注意固定头部大小,注意矩阵实现查询和维度的键,这两个等于平均序列长度。模型的性能取决于等因素值的维度,正面的次数以及平均序列之前/之后低秩的瓶颈点。在头部特写的关注,关注矩阵线性变换有更大影响之前softmax正常化后操作。在我们的实验中,应用了线性转换与功能。表现不佳可能归因于蒙面多线程注意力的译码器的使用。
Interacting-head注意力是更有效的比原来的多线程的注意,揭示一个强大的头部大小不同的子空间之间的关系。具体来说,当领导的数量很小,有一种强烈的不同subembeddings不同子空间之间的关系。头的数量的增长,说关系逐渐削弱。特别是interacting-head注意力演变成多线程的注意,在正面的次数超过d / n。
4.6.3。训练速度
如数据所示4- - - - - -6和表6- - - - - -8时,我们的模型的训练时间延长明显有16头。8的价值选择罢工之间的平衡训练时间和解码性能。特别是,IWSLT16 DE-EN数据集,每个时代的我们的模型的训练时间增加了只有13分钟,而性能提高2蓝色。经济放缓的培训是由计算不同子空间之间的关系的关注。
4.6.4。可训练的变量
与原来的多线程的关注相比,interacting-head注意力模型并不带来更多的训练参数但只会增加张量在不同的子空间的内积计算。不同的令牌的张量计算子空间减缓了培训过程。经济放缓是没什么大不了的,考虑到巨大的翻译模型的改进。除此之外,这个问题可以解决通过设置的最大数量作为一个固定的标量。
4.6.5。最大数量的头
的适用性验证的数量,我们的模型受到了烧蚀试验,正面的次数改变从32到64年。如表所示9,发生低秩瓶颈,一旦头的数量超过一个阈值,尽管我们的模型的性能比原来的多线程的注意。根据性能变化,阈值 的最大数量。测试只进行IWSLT16 DE-EN数据集后因为我们的模型的训练时间呈指数级增长的数量超过阈值。
4.7。讨论
原来在多线程的注意,翻译性能的数量呈正相关,正面,正面2和16之间负相关,正面,正面的数量超过16。在一定的范围内,许多正面提高表达能力。一旦数量超过一个阈值,将煤瓶颈,由于超微子空间的维数。在最初的多线程的注意,有很多正面,每个子查询的维度,注册表子项,和subvalue满足条件: 。在这种情况下,和小,序列长度通常是大于 。
在多线程注意固定头的大小,可以避免通过设置低秩的瓶颈 在子空间中,当有很多正面。
在头部特写的注意,subattention矩阵的独立性提高通过小标题之间的线性变换矩阵的关注,这是表现之间的和 。然而,注意在序列实际上是稀疏矩阵。稀疏可以推断通过句法依赖树和贝叶斯网络,甚至通过可视化工具像Bertviz观察35)(https://github.com/jessevig/bertviz)。不规则的稀疏很难学习的最佳体重从整体的角度关注系数矩阵。
在我们的模型中,两个棘手的问题是解决了。首先,原始的多线程的关注只计算的隐藏特性不同的令牌在同一空间和连接所有subfeatures成最终的输出。然而,我们的实验结果显示某些连接不同的令牌在不同的子空间。其次,我们的模型采用多线程解决方案关注固定头的大小,提出了优化的方法的最大数量,从而防止煤瓶颈诱导的低维子空间。我们的模型的缺点是很多张量计算的要求,延长培训时间。未来的研究将试图减少捕获的张量计算的关键注意和忽视之间的轻微的关注令牌。
5。结论
比起目前的基于变压器模型采用多线程机制NMT的关注,而计算之间的关注分数标记自己和令牌中相同的子空间。然而,语言是复杂的,其中包含多维信息,如词法,句法,语义信息,有不同维度的信息之间的关系。因此,本文提出了interacting-head注意力模型,拥有两个优点。一方面,我们的模型证实了关注不同的令牌在不同子空间之间的关系,利用这种关系提高翻译性能。另一方面,该模型提供了一种新的优化方法的最大数量,这有助于防止煤瓶颈。除此之外,一个阈值被定义为头的数量,旨在避免训练时间的指数增长。在这个前提下,使用我们的模型可以大大提高翻译的性能。总之,本文实验研究认为interacting-head注意机制对NMT显著有效。同时,实验结果表明,有一种强烈的不同维度的信息交互的所有令牌在一个序列。
然而,这个模型有两个缺点。一方面,关注分数序列标记之间是不同的,有些人甚至趋向于0。因此,关注标记之间的关系不应该是一个完全连接网络,但是稀疏网络也可以减少计算的时间复杂度矩阵的重视。另一方面,考虑到关注不同的令牌在不同子空间之间的关系,有必要进行大量的张量内积计算,特别是更多的正面。因此,训练和解码时间延长到一定程度上。这些缺陷的模型将在后续的工作。
数据可用性
的数据公开支持本研究的发现可以从https://wit3.fbk获得。欧盟和https://www.statmt.org/wmt17/translation-task.html。如果IWSLT16 DE-EN语料库应用于你的工作,是文献[18应引用)。如果WMT17 EN-DE和EN-CS全集被用在你的工作,引用(19,20.应引用)。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(批准号61977009)。