研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

表7

培训时间在WMT17 EN-DE训练数据集。

模型 头/头的大小
2/256 4/128 8/64 16/32 32/16 64/8

多线程的关注 9小时55米 11小时 11 h 30米 12小时 12 h 30米 14小时
多线程(头部大小=注意n) 11 h 30米 11 h 40米 11 h 50米 12 h 50米 13 h 10米 17小时30米
的头部特写的关注 11 h 5米 11 h 40米 11 h 50米 12 h 20米 13 h 50米 15小时
Interacting-head关注 10 h 40米 11 h 30米 12 h 50米 20 h - - - - - - - - - - - -

请注意。h的单位、m和s代表小时,分钟,其次,分别。