计算智能和神经科学

研究文章

视觉变压器和深度序列学习人类活动识别监控视频

表2

维特模型用于图像分类的不同变体。


模型	层	隐藏的大小	延时的大小	头	参数(M)

ViT-Base	12	768年	3072年	12	86年
ViT-Large	24	1024年	4096年	16	307年
ViT-Huge	32	1280年	5120年	16	632年

特征提取的方法是用粗体文本表示。