研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

图2

多线程之间比较关注(a)和(b)机制与4头。
(一)
(b)