文摘
人类活动识别是一个活跃的研究领域与几个基于卷积神经网络(CNN)的特征提取和分类方法用于监测和其他应用程序。然而,准确识别哈尔从一个帧序列是一项具有挑战性的任务由于杂乱的背景,不同的观点,低分辨率,部分阻塞。当前CNN-based技术使用大规模计算分类器以及卷积运营商在当地接受字段,限制他们的表现来获取远程时间信息。因此,在这项工作中,我们引入convolution-free方法准确HAR,克服了上述问题,并准确编码相对空间信息。在拟议的框架,框架水准仪通过pretrained视觉变压器特性提取;接下来,这些特性是通过多层长短期记忆捕捉远程依赖行为的监控视频。验证该框架的性能,我们进行了广泛的实验UCF50 HMDB51 HAR基准数据集和精度提高了0.944%和1.414%,分别比最先进的模型。
1。介绍
如今,监测系统越来越多地用于监控安装,确保公共安全,努力减轻罪行(1,2]。因此,大量的数据生成每天从闭路电视摄像头,需要手动监控不受欢迎的活动(3]。对人类来说几乎是不可能监视多个视频流,特别是,同时检查几个相机的识别不同的活动和事件。因此,人类活动的过程自动化识别(HAR)使用图像处理和深度学习技术提供承诺解决这个问题。哈尔计算机视觉技术在监测系统是可靠的来源自动决策,负责识别个体执行可疑活动和适当通知执法机构采取先发制人的行动。除了智能监测、哈尔有许多应用,如视频检索(4)和视频摘要(5]。然而,准确的HAR使用计算机视觉技术挑战是由于瞬时连续过渡的事件框架,光照变化,不同的观点,杂乱的背景,不同的比例(6]。在视频的背景下,活动识别依赖于多个连续的视频帧的集合,空间和时间信息需要分析一个人的身体动作。哈尔相关文献可以大致分为传统的特性和基于深度学习技术,在后续部分中讨论。的传统方法主要包括三个步骤:(1)预处理步骤是用来消除异常值和噪声,(2)预处理的数据进行一些低层次特征提取阶段,和(3)在分类步骤中,提取的特征是智能映射与相应的类。由于我们的模型是基于深刻的特性,因此,在此,我们只讨论深功能方法,但有兴趣的读者被称为基线HAR的广泛评论方法(7,8]。
基于深度学习技术。考虑到传统的有限的性能特征和机器学习方法在哈尔领域,研究人员关注基于深度学习技术,过程数据的端到端地特征提取和分类。CNN-based技术提取功能分层的方式,初始层提取局部特征和最后一层提取全局特征。标准的2 d CNN是有效学习的空间信息,但无法学习时间信息,这是很重要的提高精度的HAR。例如,Karpathy et al。9)使用pretrained CNN模型融合了来自多个帧的信息高效活动的认可。这个工作是延长Simmoyan Zisserman [10),作者提出了一种双柳CNN网络克服运动信息的问题参与哈尔利用光流特征。但是,在这种方法中,远程不考虑上下文信息,最后生成活动预测通过预测的平均分割视频长度的变量,也就是说,10到15帧序列。最近,简单的2 d CNN架构是广泛用于HAR文学;例如,汗et al。11)使用一个轻量级的CNN MobileNet模型覆盖场景在电影中暴力活动。同样的,在另一个研究中,霍夫森林特性结合2 d CNN训练暴力活动的混合模型识别(12]。作者声称他们的方法需要较少的计算时间,但由于复杂的姿势,不同的尺度,灯饰,这种方法不是在真实的情况下有效。在这方面,2 d CNN-based方法和运动表示属性逐渐升级从2 d到3 d CNN,考虑空间和时间信息(13]。研究人员因此引入3 d CNN和它的变体来捕捉时空信息。在这个方向,Tran et al。14)提出了一个3 d CNN (C3D)表示视频数据的时间和空间特性,哈尔优于现有方法。在另一个研究中,Carreira et al。15)提出了一个新颖的机制在pretrained ImageNet 2 d过滤器被修改为活动识别相应的3 d版本。实验得出的结论是,他们的方法达到更高的精度比随机初始化过滤器。同样,侯赛因et al。16)提出了一个轻量级的3 d CNN模型异常行为识别和相机监测环境中的优先级。3 d CNN的变体包括二束3 d CNN (17],pseudo-3D CNN [18],MiCT-Net [19]。然而,现有的3 d-cnn模型只能处理10到16帧有效。他们不能认识到漫长的活动由于时间复杂度指数增加的主要原因时间维度(16]。为了克服这个问题,研究人员尝试混合模型的空间特性提取pretrained CNN模型和学习递归神经网络的时间信息使用变异(RNNs)。
混合模型提取框架水准仪特性使用cnn或光流模型,这是堆叠使用一个预定义的时间戳来学习时间信息,是美联储RNN变体如长短期记忆(LSTM)网络(20.)和封闭的复发性单元(格勒乌)(21)提高哈尔的性能。序列学习的混合模型使用RNN LSTM,和格勒乌但是没有关注选择性信息在空间域的连续序列,这是非常重要的保持帧之间的连通性。然而,提取哈尔的选择性特性和区别的信息在复杂的监控环境22)是一个具有挑战性的任务。因此,研究人员提出了不同的技术;例如,在现有的研究中,李et al。23)提取C3D特性从输入视频序列使用滑动窗口技术生成多维数据集,这是美联储为哈尔LSTM网络。马等。24]利用VGG19空间特性的识别框架,采用多层LSTM最佳活动。AlexNet CNN模型是用于一个基线研究[25]空间特征提取,然后深双向LSTM用于时间学习。作者在26)提出了一种有效的方法在监测系统通过实时HAR MobileNet架构空间特征提取与LSTM顺序学习紧随其后。最近,侯赛因et al。27)取得了显著的性能通过整合CNN功能以支持向量机为连续的学习模式,这并不被认为是更健壮和广义模式学习相比,最近的深度序列模型。
在现有的方法中,cnn的内核主要是为了获取短程时空信息和他们仅限于学习远程依赖关系时,超出他们的接受域。然而,叠加卷积层(10,13),当然,扩展了接受域,但这些策略本质上是有限的获取远程依赖通过短程信息的聚合。远程时间依赖性仍然是悬而未决的,因为上述方法是强烈依赖于疲软的特征选择(27]。同样,捕获远程序列依赖性是一个主要的问题在不同领域如自然语言处理(NLP)在机器翻译28,29日),(自回归词代30.),和问答31日]。因此,该领域的NLP已经彻底改变了self-attention或变压器等新兴技术32]。活动识别和NLP分享几个高层相似之处;例如,句子和视频都是连续形式的数据,在一个字不足以了解其语境意义的句子相似的视频,一帧是不够理解整个视频的语义。在基线研究视觉变压器(ViT) [33),作者提取输入图像的局部空间特征使用修补策略,然后编码这些特性标准变压器从NLP小说修改;结果,他们取得了优越的性能与最先进的分类任务。因此,在这项工作中,我们研究了远程self-attention模型将在哈尔是非常有效的。学习远程哈尔的时空特性的问题通过维特被歧视的解决空间特征提取。因此,框架水准仪特性提取pretrained ViT-Base-16 HAR LSTM紧随其后。该方法的主要贡献如下:(1)我们提出一个新颖的机制,利用CNN-free方法捕捉监控视频远程使用维特时间依赖性,紧随其后的是一个连续的学习方法来实现新的先进的准确性相比现有HAR方法。(2)时空特性准确HAR发挥重要作用,我们采用维特的空间特性和多层LSTM学习时间这些特性之间的关系认识到人类活动与更高的信心。(3)提出了框架的性能评估的挑战HMDB51和UCF50 HAR数据集。实验结果完成新的先进的精度73.714%使用UCF50使用HMDB51和96.144%的准确率。
剩下的纸是组织如下:部分2介绍了拟议的活动识别框架。实验设置,数据集,讨论结果,并给出了部分进行比较分析3。给出了结论和未来的工作4。
2。该活动识别框架
拟议的HAR框架主要包括三个步骤,作为显示在图1。在第一步中,监控摄像头捕捉视频流,然后喂pretrained ViT-Base-16框架水准仪空间特性的提取。空间特性叠加在一起来创建一个合成从连续30帧特征向量。在第三步中,生成特征向量送入多层LSTM网络获取远程时空依赖性HAR。
2.1。使用视觉特征提取变压器
ViT-Base-16的体系结构是完全基于标准变压器(32)的体系结构和实现卓越的精度CNN-based模型相比,图像分类任务。它使用self-attention机制来获取远程输入序列之间的关系。维特实际上是企图用变压器模型的图像分类。基本上,它将输入图像划分为若干块与可学的线性投影位置嵌入学习补丁的顺序随后变压器编码器与多层感知器最终分类。
在第一部分中,输入图像分为不重叠的补丁,因为标准变压器接收1 d标记序列作为输入。通常,在2 d图像格式;因此,处理二维图像,一幅图像 是重塑成一个序列的扁平的2 d补丁 。在此, 代表了高度,宽度,和渠道的形象,虽然 每个图像的分辨率补丁, 是补丁的总数。通常情况下,块的大小选为16×16吗或32×32岁,小的地方P大小能够捕获时间序列,反之亦然。在我们的例子中,我们使用了 特征提取;在后续部分,这些子模块进行了较为详细的试验研究。
2.2。线性嵌入层
补丁序列是线性投射到一个向量维度使用学习嵌入矩阵 。然后,这些嵌入表示连接在一起,可学的分类标记 嵌入的补丁没有秩序;因此,位置信息用于重新排序与原始图像空间信息。嵌入式补丁与令牌的结果是数学中(1)。
2.3。视觉变压器编码器
结果嵌入的补丁((1)是美联储变压器编码器模块,由相同的层,如图2。此外,每个模块分为两个组件,比如多线程self-attention (MSA)块和多层感知器(MLP)。中长期规划的最后一块包括两个致密层。方程(2)和(3)代表MSA和延时的数学表征,分别。
在最后一层编码器的第一个元素序列中的传递给外部头分类器预测类标签。
MSA是变压器的中心组件模型,计算最和最重要的补丁和丢弃之后从输入序列。这是进一步分为四层线性等self-attention,和连接层结合的输出多个正面,图示如图2(c)。基本上,注意力机制可以用关注权重计算的所有值的加权和序列 。三个值,(查询)(关键),(价值),从输入序列乘以计算元素(Q, K)对三个学习矩阵 ;一个SA图形表示在图2(d),而数学公式给出了方程(5):
在给定输入序列,计算一个元素对别人的重要性,的价值向量乘以点积的向量。他们的结果是扩展和传递给SoftMax激活函数找出补丁与高度重视分数的重要性,在给定的数学方程(6):
MSA是多注意正面的结合而不是单个值 , ,和 。健壮的和最优特征选择的结果连接,然后通过前馈预测层可学的重量吗所需的尺寸,用方程(7):
2.4。学习通过LSTM远程时间依赖性
时间特性是非常重要的学习活动识别远程依赖关系。RNN模型是专门为时间序列或连续的数据,但是最近研究人员受他们的表现在活动识别域(34]。它结合了之前的学习信息和当前帧输入视频序列对准确HAR识别。然而,RNN无法容纳远程时间依赖性由于梯度消失的问题,这是解决LSTM [35),能够持有的远程时间信息。在LSTM架构中,有三个门,(1)输入、输出(2),(3)忘了盖茨。表1显示的参数细节用于制定内部机制LSTM为哈尔捕获远程时间依赖性。
最后一门负责保留或丢弃无关信息在输入和前面的输出(36,37]。框架水准仪歧视特征从维特在单位时间内,t传递到堆叠LSTM网络和持有长期时间依赖性。方程(8)(14)显示LSTM网络的数学表示。
在此,这个词代表输入随着时间的推移和乙状结肠激活函数为代表 。术语是由他们的重量和偏见和b,分别。忘记门在时间t保持前一帧的信息是必要的,否则丢弃它。门的输出即将到来的步骤,使信息单位有复发吗激活功能。它是计算从输入的当前帧和前一帧的状态 。计算的RNN隐藏状态激活和存储单元 。活动从LSTM识别不需要中间输出;因此,我们使用最后分类激活(14),用于表示类的数量,也就是说,51 HMDB51 50 UCF50数据集。
2.5。通过维特和多层LSTM建模人类活动识别
最近,维特主导cnn的图像表示,导致更好的分类(33)和分割结果(38]。,更好的表征能力的维特的启发,我们提取空间变压器特性在我们的框架使用pretrained维特模型,其次是连续的学习方法学习输入帧的时间依赖性和解释。有不同的变体维特ViT-Base等模型,ViT-Large, ViT-Huge。ViT-Base-16取得令世人瞩目的精度相比,现有的图像分类方法使用基准数据集,表明其健壮和代表功能潜力。维生素模型不同数量的编码器层,隐藏的尺寸大小,注意正面MSA层所使用的数量,和MLP分类器大小。详细的表2,我们采用ViT-Base-16模型16×16块大小在拟议的框架。
由于复杂的行为模式和时间顺序动作之间的缝隙合并在一起,形成单一的活动,一个LSTM细胞无法准确的学习模式。因此,我们开展了多个实验和堆叠多个LSTM细胞长期学习时间在视频序列模式。表3显示该LSTM网络获取远程时间依赖性活动的识别。ViT-Base-16提取1000年从每一帧特征向量;因此,我们建议的顺序学习模型需要30帧1000空间特征向量。
最初,特征向量包含丰富的模式信息;因此,我们使用128 LSTM单位学习所有可能的区别的特征。的功能空间减少了到64年数字LSTM单位有效地图类的数量,也就是说,51岁和50类HMDB51 UCF50,分别。此外,为了避免过度拟合,使网络更加稳定与更快的学习培训期间,我们利用50%的辍学和批处理规范化。除此之外,我们也进行试验使用不同的学习速率(LR),因为它是最重要的一个hyperparameters,大大影响模型的泛化。当我们把1 e 1 LR模型的重量大幅更新,导致过度由于模型不达到全局最小点和陷入局部最小值。经过多次实验,当我们把1 LR的军医,模型达到73.714%和96.144%的最高精度HMDB51和UCF50数据集,分别。
3所示。实验结果和讨论
拟议的框架的性能验证在两个基准数据集,UFC50 [39]和HMDB51 [40];他们的视觉样本如图3。该方法是使用Python实现(3.6版本)世爵集成开发环境。
一个著名的深度学习框架TensorFlow(2.5.0版)Keras端和附加的库包括OpenCV, Scikit-image, NumPy期间使用实验。此外,在系统配置中,Ubuntu操作系统与GeForce RTX 2080 - ti图形卡是用来加速训练过程。标准的评价指标,如精度,还记得,F1-score,和准确性是用来评估该方法的性能,如表中给出4。
表5显示了比较的结果相比,最先进的模型在UCF50和HMDB51数据集。在随后的部分中,我们定义数据集用于我们的实验和讨论我们的模型所提到的数据集上的性能。
3.1。UCF50
UCF50组成的数据集是一个非常受欢迎的HAR总共50类;所有来自YouTube的视频剪辑”。avi格式。每个类的视频被分成不同的组,分享共同的特征;例如,在一组,钢琴是由一个人扮演的四倍,但有不同的观点。此外,它包括一个多样的人类活动由于高多样性的相机运动,姿势,和对象表象,观点,杂乱的背景,不同的照明环境。该方法的性能与不同的先进的方法相比,例如,手工制作,LSTM, Non-LSTM-based方法,给定的表5,最后一行显示了该方法的准确性的百分比。混淆矩阵图4(a),我们取得了96.144%的准确率。来说精度图所示5,绝大多数类的精度高于90%。的比较分析,评价该方法的性能改善密集的轨迹(IDT)混合方法42),达到92.3%的准确率,而LSTM-based方法,颞光学流与多层LSTM [47),和轻量级的CNN DS-GRU [21)取得了第二个最高精度的94.9%和95.2%,分别。
(一)
(b)
3.2。HMDB51
HMDB51数据集包含不同种类的相关视频人体运动比如面部交互,对象交互的身体和身体动作的人机交互。有6766个行动视频剪辑从不同的独特的来源,收集所有的视频剪辑属于51类。大部分的活动都是不到5秒持续时间与每个视频帧大小为224×224维的训练目的。这个数据集非常具有挑战性,因为在具有挑战性的环境中收集的所有视频剪辑等不同的照明;4到6个视频剪辑相同的类和对象被记录在不同的姿势和观察方向。表5显示了该方法的比较分析与现有最先进的方法这样的手工,LSTM, Non-LSTM方法。混淆矩阵如图4(b),真正的积极价值最高的每个类别表示沿对角线;我们提出的方法准确率达到73.714%。来说精度图所示6,其中横轴表示数量的类,和纵轴显示相应类别的百分比精度。
总结现有文献,精度最高的62.2%,72.3%,和57.2%是通过手工制作的,CNN和LSTM分别和Non-LSTM-based方法。同时我们提出的方法提高了性能1.414% HMDB51数据集相比,这些模型,表中给出5。同样,来说精度如图6,我们的方法达到最好的精度不如竞争对手。
4所示。结论
一个动作是连续多帧的序列;因此,两个时空特性中扮演重要角色准确的HAR。为了这个目的,我们使用pretrained ViT-Base-16提取空间特征在预定义的时间戳。这些空间特性是美联储多层LSTM网络远程学习时间依赖性。我们在两个标准哈尔也进行了广泛的试验数据集,UCF50 IMDB51,和实现识别精度分别为73.714%和96.144%。然而,在该框架中,很少有限制,我们将讨论在未来的研究。例如,哈尔,我们使用单一视图相机,不能提供完整的360°范围;在未来,我们的目标是利用多视图数据有效的HAR。此外,该框架的目的是转化为嵌入式平台执行活动识别边缘。高效学习,二束网络增量学习策略将被用来使它更智能识别复杂的行动在资源受限的环境中。 Furthermore, in the future, we will combine different variants of ViT and different vision-based transformers models such as SWIN Transformer and ViViT for HAR. Our current system is flexible and can be helpful for adaptation in other domains such as emotion recognition, video summarization, and big data analytics.
数据可用性
代码和相关材料可以从https://github.com/Altaf-hucn/ViTLSTM-HAR下载。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由韩国国家研究基金会(NRF)授予由韩国政府资助(MSIT) (2019 r1a2b5b01070067)。