TY -的A2 -刘,恒盟-李,东星AU -罗,Zuying PY - 2022 DA - 2022/06/21 TI -比起一种改进的基于变压器神经机器翻译策略:Interacting-Head注意SP - 2998242比起六世- 2022 AB -的基于变压器模型获得了重大进展在神经机器翻译(NMT)。变压器的主要成分是多线程注意层。理论上,更提高NMT模型的表达能力。但这并非总是如此。一方面,每个主管关注的计算是在相同的子空间进行的,没有考虑到不同的子空间的所有令牌。另一方面,低秩的瓶颈可能发生,当领导的数量超过一个阈值。解决低秩瓶颈,两种主流方法使头部大小等于序列长度和复杂的分布self-attention正面。然而,这些方法都受到语料库中的变量序列长度和可以学到大量的参数。因此,本文提出了interacting-head注意力机制,导致更深和更广泛的交互注意头由低维计算在不同的子空间的所有令牌,并选择适当的数量的头,以避免低秩的瓶颈。该模型是测试机器翻译任务IWSLT2016 DE-EN, WMT17 EN-DE,和WMT17 EN-CS。 Compared to the original multihead attention, our model improved the performance by 2.78 BLEU/0.85 WER/2.90 METEOR/2.65 ROUGE_L/0.29 CIDEr/2.97 YiSi and 2.43 BLEU/1.38 WER/3.05 METEOR/2.70 ROUGE_L/0.30 CIDEr/3.59 YiSi on the evaluation set and the test set, respectively, for IWSLT2016 DE-EN, 2.31 BLEU/5.94 WER/1.46 METEOR/1.35 ROUGE_L/0.07 CIDEr/0.33 YiSi and 1.62 BLEU/6.04 WER/1.39 METEOR/0.11 CIDEr/0.87 YiSi on the evaluation set and newstest2014, respectively, for WMT17 EN-DE, and 3.87 BLEU/3.05 WER/9.22 METEOR/3.81 ROUGE_L/0.36 CIDEr/4.14 YiSi and 4.62 BLEU/2.41 WER/9.82 METEOR/4.82 ROUGE_L/0.44 CIDEr/5.25 YiSi on the evaluation set and newstest2014, respectively, for WMT17 EN-CS. SN - 1687-5265 UR - https://doi.org/10.1155/2022/2998242 DO - 10.1155/2022/2998242 JF - Computational Intelligence and Neuroscience PB - Hindawi KW - ER -