研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

表2

可能的数量在我们的模型中。

数据集 模型 数量的头

IWSLT16 DE-EN 512年 25 (2、4、8、16)
WMT17 EN-DE 512年 20 (2、4、8、16)
WMT17 EN-CS 512年 20 (2、4、8、16)