研究文章

视觉变压器和深度序列学习人类活动识别监控视频

表5

比较分析方法与传统的深LSTM, non-LSTM-based技术使用HMDB51和UCF50数据集。

技术 精度(%)
HMDB51 UCF50

手工制作的方法 边界梯度直方图+运动边界描述符(41] 62.2 - - -
改进的密集的轨迹(IDT)混合方法(42] 61.1 92.3
多视图超级向量(43] 55.9 - - -
LSTM-based方法 收养复发卷积混合(ARCH)网络(44] 58.2 - - -
Lattice-LSTM [45] 66.2 - - -
关系LSTM [35] 71.4 - - -
TS-LSTM和时间《盗梦空间》(46] 69.0 - - -
时间与多层光学流LSTM [47] 72.2 94.9
3 d-cnns和双向分层LSTM [48] 71.9 - - -
CNN和DS-GRU [21] 72.3 95.2
Non-LSTM-based方法 改进的轨迹(49] 57.2 91.2
层次聚类多任务学习(50] 51.4 93.2
该方法 维特和多层LSTM 73.714 96.144

方法用粗体文本显示最高的性能受人尊敬的类别。