研究文章
视觉变压器和深度序列学习人类活动识别监控视频
表5
比较分析方法与传统的深LSTM, non-LSTM-based技术使用HMDB51和UCF50数据集。
|
| 域 |
技术 |
精度(%) |
| HMDB51 |
UCF50 |
|
| 手工制作的方法 |
边界梯度直方图+运动边界描述符(41] |
62.2 |
- - - |
| 改进的密集的轨迹(IDT)混合方法(42] |
61.1 |
92.3 |
| 多视图超级向量(43] |
55.9 |
- - - |
| LSTM-based方法 |
收养复发卷积混合(ARCH)网络(44] |
58.2 |
- - - |
| Lattice-LSTM [45] |
66.2 |
- - - |
| 关系LSTM [35] |
71.4 |
- - - |
| TS-LSTM和时间《盗梦空间》(46] |
69.0 |
- - - |
| 时间与多层光学流LSTM [47] |
72.2 |
94.9 |
| 3 d-cnns和双向分层LSTM [48] |
71.9 |
- - - |
| CNN和DS-GRU [21] |
72.3 |
95.2 |
| Non-LSTM-based方法 |
改进的轨迹(49] |
57.2 |
91.2 |
| 层次聚类多任务学习(50] |
51.4 |
93.2 |
| 该方法 |
维特和多层LSTM |
73.714 |
96.144 |
|
|
|
方法用粗体文本显示最高的性能受人尊敬的类别。
|