研究文章

视觉变压器和深度序列学习人类活动识别监控视频

表2

维特模型用于图像分类的不同变体。

模型 隐藏的大小 延时的大小 参数(M)

ViT-Base 12 768年 3072年 12 86年
ViT-Large 24 1024年 4096年 16 307年
ViT-Huge 32 1280年 5120年 16 632年

特征提取的方法是用粗体文本表示。