研究文章

视觉变压器和深度序列学习人类活动识别监控视频

表3

拟议中的LSTM网络从视频序列捕获远程时间信息。

层(类型) 输出的形状 不。的参数

输入数据 (没有,30,1000) 0
LSTM (没有,30,128) 578048年
LSTM (没有,64) 49408年
辍学 (没有,64) 0
批正常化 (没有,64) 256年
激活 (没有,64) 0
密集的 (没有,64) 4160年
密集的 (没有,51) 3315年
激活 (没有,51) 0