研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

图6

每个时代的四个模型训练时间WMT17 EN-CS数据集。