计算智能和神经科学

研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

表7

培训时间在WMT17 EN-DE训练数据集。


模型	头/头的大小
模型	2/256	4/128	8/64	16/32	32/16	64/8

多线程的关注	9小时55米	11小时	11 h 30米	12小时	12 h 30米	14小时
多线程(头部大小=注意n)	11 h 30米	11 h 40米	11 h 50米	12 h 50米	13 h 10米	17小时30米
的头部特写的关注	11 h 5米	11 h 40米	11 h 50米	12 h 20米	13 h 50米	15小时
Interacting-head关注	10 h 40米	11 h 30米	12 h 50米	20 h	- - - - - -	- - - - - -

请注意。h的单位、m和s代表小时,分钟,其次,分别。