研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

表3

使用四个引起模型综合评价得分在IWSLT16 DE-EN评价集和测试集。

模型 IWSLT16子集 头/头的大小
2/256 4/128 8/64 16/32 32/16 64/8

(一)
多线程的关注 dev 22.73 25.71 26.44 27.23 23.92 19.50
测试 21.15 24.00 24.38 25.18 22.05 17.94
多线程(头部大小=注意ndmodel = 512) dev 20.93 23.08 24.79 26.00 26.94 26.38
测试 19.35 21.38 22.81 24.61 24.86 24.59
的头部特写的关注 dev 20.66 21.39 22.47 24.02 24.21 23.65
测试 19.13 19.82 20.87 22.24 22.30 21.72
Interacting-head关注 dev 29.59 29.94 29.54 30.01 (+ 2.78) - - - - - - - - - - - -
测试 27.61 28.01 27.44 27.61 (+ 2.43) - - - - - - - - - - - -

(b)
多线程的关注 dev 5.82 4.85 3.56 3.10 3.51 8.73
测试 9.03 7.92 7.71 5.87 7.02 14.39
多线程(头部大小=注意ndmodel = 512) dev 6.90 6.00 5.29 4.59 4.55 3.97
测试 11.47 10.10 8.98 8.16 8.11 7.96
的头部特写的关注 dev 9.03 7.31 6.58 4.81 4.51 4.33
测试 14.46 11.90 9.83 9.10 8.69 8.90
Interacting-head关注 dev 2.41 2.44 2.31 2.25 (0.85) - - - - - - - - - - - -
测试 6.60 5.34 4.77 4.49 (1.38) - - - - - - - - - - - -

(c)
多线程的关注 dev 25.42 26.72 28.58 29.14 26.42 22.63
测试 24.77 25.96 27.67 28.20 25.57 22.02
多线程(头部大小=注意ndmodel = 512) dev 23.47 25.69 25.76 26.51 27.05 27.12
测试 22.84 24.95 24.95 25.88 25.28 26.36
的头部特写的关注 dev 22.48 24.28 23.80 24.46 25.28 26.76
测试 21.85 23.46 23.18 23.94 24.49 25.85
Interacting-head关注 dev 31.73 31.94 31.65 32.04 (+ 2.90) - - - - - - - - - - - -
测试 30.87 31.11 30.76 31.25 (+ 3.05) - - - - - - - - - - - -

(d)
多线程的关注 dev 53.72 55.68 57.85 58.76 55.93 50.52
测试 52.23 54.30 56.23 57.26 54.57 49.24
多线程(头部大小=注意ndmodel = 512) dev 51.46 54.02 55.83 55.52 56.53 56.99
测试 50.21 52.70 55.44 54.31 54.18 55.60
的头部特写的关注 dev 49.26 51.64 52.38 53.72 54.92 55.78
测试 48.23 50.19 51.19 52.30 53.33 54.45
Interacting-head关注 dev 61.02 61.29 61.14 61.41 (+ 2.65) - - - - - - - - - - - -
测试 59.25 59.80 59.62 59.96 (+ 2.70) - - - - - - - - - - - -

(e)
多线程的关注 dev 1.94 2.39 2.61 2.69 2.39 1.89
测试 1.80 2.20 2.39 2.49 2.22 1.75
多线程(头部大小=注意ndmodel = 512) dev 1.99 2.20 2.24 2.27 2.33 2.38
测试 1.84 2.05 2.08 2.10 2.16 2.21
的头部特写的关注 dev 1.70 1.87 1.84 2.09 2.20 2.32
测试 1.57 1.72 1.67 1.91 2.01 2.05
Interacting-head关注 dev 2.93 2.96 2.93 2.98 (+ 0.29) - - - - - - - - - - - -
测试 2.69 2.75 2.71 2.79 (+ 0.30) - - - - - - - - - - - -

(f)
多线程的关注 dev 54.33 55.98 57.91 58.48 55.25 49.83
测试 53.34 54.18 55.88 56.45 53.57 48.44
多线程(头部大小=注意ndmodel = 512) dev 52.05 54.25 55.85 57.15 57.33 56.45
测试 50.63 52.57 54.18 55.51 56.79 55.94
的头部特写的关注 dev 50.19 51.32 52.32 53.02 55.55 57.06
测试 48.97 49.63 50.63 51.69 53.72 55.83
Interacting-head关注 dev 60.92 61.22 60.91 61.45 (+ 2.97) - - - - - - - - - - - -
测试 58.68 59.15 58.67 60.04 (+ 3.59) - - - - - - - - - - - -

请注意。表演的单位是(a)蓝色,(b)回答,(c)流星,(d) ROUGE_L, (e)酒,YiSi (f)。