研究文章

视觉变压器和深度序列学习人类活动识别监控视频

图2

视觉上变压器架构:(a)的主要架构模型,(b)变压器编码器模块,(c)多尺度self-attention (MSA)的头,和(d) self-attention (SA)的头。