研究文章

比起一个改进的基于变压器神经机器翻译策略:Interacting-Head关注

图1

头的大小不同的子空间之间的关联。