研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

表8

培训时间WMT17 EN-CS训练数据集。

模型 头/头的大小
2/256 4/128 8/64 16/32 32/16 64/8

多线程的关注 1 h 1 h 5米 1 h 8米 1 h 10米 1小时15米 1 h 30米
多线程(头部大小=注意n) 50米 53米 57米 1 h 3米 1小时15米 1小时50米
的头部特写的关注 58米 59米 1 h 1 h 5米 1 h 10米 1 h 30米
Interacting-head关注 53米 58米 1 h 13米 1小时50米 - - - - - - - - - - - -

请注意。h的单位、m和s代表小时,分钟,其次,分别。