文摘
动作识别是一个基本的和具有挑战性的任务在计算机视觉领域。本文深度学习动作识别方法提出了基于注意机制并成功应用于一些公共数据集,杰出的表现。首先,视频帧采样是基于改进的抽样算法,和视频数据增强算法对原始数据进行预处理,这将减少的过度拟合概率识别模型,减少数据的白噪声。然后,通过引起残余网络进行特征选择。最后,我们完成了行动由LSTM模型和softmax分类。此外,一系列的烧蚀实验是为了验证该模型的有效性。结果表明,与传统的行为识别模型相比,该方法可以有效地提取关键特性,减少造成的过度拟合少量的样本,减少冗余信息的干扰通过无知的视频帧的筛选,并完成动作识别准确,快速,高效。
1。介绍
视觉,触觉,听觉,嗅觉是人类感知的四个主要方面的外部世界,视觉系统最重要的部分,包含80%的感知信息。因此,让计算机也有类似人类的视觉功能,如自动感知、识别、和周边环境的分析,是新一代智能计算机研究的内容。最近,随着科技的发展,计算机的计算能力已经前所未有的进步。同时,人工智能(AI)的上下文中出现的数据驱动的时代。最尖端技术,人工智能已经广泛的应用程序。一般来说,它主要包括计算机视觉(简历)1),机器学习(2图),知识(3),自然语言处理(4]等。其中,计算机视觉,人工智能的研究热点,吸引了许多专家和学者的词,它已逐渐成为最成熟的人工智能技术应用领域。计算机视觉研究的目的是使计算机不仅能够观察外部世界也正在进行自动识别和分析人类活动,并相应地做出决定。可以看出,人类运动识别的研究在计算机视觉的应用起着至关重要的作用。作为人体运动识别涉及到许多学科的交叉应用,如图像处理、特征工程、模式识别、和认知科学,这是一个非常具有挑战性的研究课题。本研究的主要目的是使计算机来分析和理解人的行为的视频。与图像识别相比,基于视频的运动识别是一个动态的识别过程,这需要提取视频帧图像的空间特征和学习视频帧序列的序列关系。因此,如何获得有效的时间和空间特性是人体运动识别的关键。例如,在人类行为识别的过程中,单帧视频图像用于描述一个静态的演员。随着时间的演绎,一系列的静态状态可以构成一个语义动作。追求更安全、智能、方便生活,人体运动识别是逐渐改变人们的生活的各个方面有着不可替代的现实意义。
与人体运动识别研究的深化和发展,大量的不同类型的数据集创建了为了更好的评价方法的性能。根据人类行为的不同的交互模式,人类行为识别的常用数据集可以分为以下三个类别:简单的个人行动数据集,交互式操作的数据集,数据集和群体行动。(1)人类最早期的运动识别的数据集是简单的个人运动数据集。它的特点是规模较小的数据,单一动作场景,简单操作组成,固定拍摄角度,完成一系列简单的动作在一个受限制的环境中。典型代表如下:k数据集和魏兹曼科学数据集。在这样的数据集的操作都属于个人行为(如步行和挥舞的手),并且没有互动的行为(如拥抱和踢球)。(2)持续改进的人体运动识别技术,研究人员开始收集相关数据在更现实的和复杂的场景。因此,许多更大、更直言,更广泛的来源,和更权威的数据集的人体运动识别逐渐出现,如好莱坞,佛罗里达大学体育,UCF11,其中基于32佛罗里达大学体育电影和好莱坞根据BBC, ESPN和其他电视节目。可以看出,这样的数据集来自更多的不同来源和接近现实生活。例如,好莱坞数据集包含了非常逼真的动作场面,如电话、拥抱、亲吻,涉及人造物和人与人之间的相互作用。(3)近年来,由于深度学习理论取得了突飞猛进的发展,与人类行为的结合,识别模型不仅变得越来越复杂,网络和深度越来越深,所以的运动模型来提取特征的能力也越来越强,对于更复杂的和具有挑战性的数据集身份认证,如HMDB51 UCF101,南大RGB + D,和其他数据集。 Among them, HMDB51, UCF101, and NTU RGB+D data sets contain 51, 101, and 60 action categories, respectively. Besides individual and interactive actions, there are also a large number of group actions.
从上面的内容可以看出,在开发过程中人类行为识别的数据集,数据集包含越来越多的动作类,动作成分越来越复杂,动作场面越来越多样化。因此,总的来说,它越来越接近自然状态的人类行为的情况。
总之,在本文中,我们选择这三个公共数据集,其中包括运动在近10000个视频材料,覆盖68行动类别包括运动(打网球、潜水、骑马等)、肢体动作(挥舞着,散步,等等),面部动作(微笑,咀嚼,等等),和一些互动的运动(拥抱、接吻等)。这些行为发生在不同的场景,包括不同的复杂性和多样性。与一个数据集和一个动作类别,我们的数据集将更能充分验证动作识别的有效性和也提供了很好的支持行动识别培训模型。
在我们的论文中,我们介绍了现有的部分研究工作2详细数据和模型建设部分3。节5,我们进行了一次实证分析和讨论结果。最后,我们总结了整个论文部分7。
2。相关的工作
运动的分类(5)的行为来判断人体的视频。作为一个简历的基本和测试差事,运动识别在许多领域具有广阔的应用前景,例如,智能家庭和安全(6,7),human-PC沟通(8),复发和视觉识别(9]。
早期的运动识别的研究,许多学者做出了行动数据集包含许多功能并进行了大量的实验,如剪影,人体结,时空兴趣点,和运动轨迹。因为假的依赖组件提取,其电阻和猜测能力很穷,不能广泛使用(10]。相反,深刻学习技术可以独立学习信息包括和更有效和准确11]。因而,突出提取的深刻学习已逐步取代了手工元素的提取。研究员(12]提出了3 d-cnn计算有趣的是,利用3 d卷积赶上spatio世俗的一部分数据的视频大纲枢轴和涉及人类活动承认。研究人员也(13]提出C3D组织和应用活动确认,现场确认,视频亲密的调查,不同的领域。一些研究人员(14]扩展2 d到3 d卷积,卷积框架扩展3 d I3D卷积网络。长期反复卷积网络(LRCN)模型提出了(15),它使用CNN来提取特征,然后长期短期记忆(LSTM)网络是用来实现分类。在动作识别中,利用CNN和LSTM大大提高识别的准确性,减少了工作量。然而,CNN的加深,严重的问题的梯度和网络退化消失。为了照顾这个问题,本文以关注剩下的组织,这是由CBAM [16)和挥之不去的组织(ResNet) (17使突出),随后,LSTM利用秩序的活动。
目前,现有的研究对动作识别一些限制如下:训练过程容易过度拟合和视频有很多信息噪音干扰模型的训练。网络模型提取关键特性的能力不足,影响识别率的提高。针对上述问题,本文中采用的措施包括在数据准备添加数据增强方法以减少造成的过度拟合小数量的样品。信息可以通过过滤来减少噪音较低的视频帧的信息内容。判别的特征选择方法是通过将注意力增强模块到残余网络。
3所示。模型结构的识别
在视频动作识别,信息处理在这一点上不是一个孤独的图片,但是图片的分组时间要求。如果视频中每条边被视为信息,它会令人难以置信的构建模型的计算费用。所以在本文中,我们以16为每个视频帧组成样本。接下来,我们将我们的样本输入模型学习网络的重量。最后,softmax分类器是用于分类操作。图1本文介绍了该方法的施工,和它可以描述数据准备、特征选择、和行为识别三个阶段。
4所示。数据准备
常用的数据准备阶段可以介绍如下:第一阶段是利用ffmpeg模块来解析视频到视频帧序列;第二阶段是根据培训需求规模的原始视频帧。第三阶段是中心削波的放大视频帧;第四阶段是将剪视频帧转换为张量形式。最后阶段是规范的张量。
上述过程有以下两个问题:首先,视频帧的中心削波将导致亏损边缘信息;第二,训练集包含更少的数据,并在培训过程中很容易overfit行动识别模型。因此,为了解决现有的问题,本文提出一种视频数据增强算法(以下简称算法1),算法的伪代码1如下:
|
||||||||||||||||
在算法1、视频帧序列 代表每个操作视频和该算法进行水平翻译每个图像的视频帧序列的原始顺序在给定范围(翻译的单位长度和方向是随机的, 意味着水平向左翻译; 意味着向右水平翻译)。如果视频包括100帧和设置(5,5)生成随机数,我们终于可以增加500倍的数据。因此,本文将数据增强方法添加到在数据准备阶段。
4.1。视频帧取样
一般视频,拍摄的开始行动和射击目标的行动绝对不能保持同步。因此,一般来说,在一个特定的视频数据集,将会有一些数据噪声的脑袋和尾巴视频,将会干扰我们的模型识别的准确性。此外,抽样过程中,我们也需要考虑计算成本带来的网络模型,我们将面对的问题了。因此,我们提出一个独特的抽样算法来解决这些问题。算法的主要步骤的算法所示2。
|
||||||||||||||||||||
应该注意,在上面的算法,首先,我们获得视频帧序列。接下来的操作我们的算法是根据视频帧的数量决定的。
4.2。特征选择
注意力机制指的是利用神经网络自动获取的信息焦点区域和抑制其它无用的信息。作为一个轻量级的结构,卷积关注模块(CBAM) [16)只有 参数,占据很少的计算资源。因此,在特征提取部分,剩余网络集成到CBAM提出。
4.2.1。准备CBAM基本结构
图2描述了引入CBAM,如图2。通道考虑分配更多的重量与认真了解渠道数据,可以实现关键数据的位置和空间考虑取决于这一点,即定位凸区域输入功能。
从图可以发现2最初,通道考虑模块利用全球正常池和极端池包信息突出图表然后输入两个压实亮点多面的感知器减少和改善维度。终于,两个向量被延时,然后获得收益通过s形的函数,如所示
在乙状结肠激活函数 , ,和权重矩阵在MLP的多层感知器。代表平均池功能,代表的最大池功能。
代表频道关注权重因子,卷积块模块产生关注乘以由 。然后,是贡献空间考虑模块获取空间考虑加权系数 。最后,最后注意功能可以获得乘以吗和 ,所示
4.2.2。改善CBAM
在训练过程中,每个节点的网络将根据输入特征和调整相应的参数更容易受到postinput特征的影响。当共享网络的权重,如果两组特征训练同样的延时,这个问题会在困难的情况下。为了解决这个问题,CBAM频道关注部分的改进,如图3。
首先,平均后池的特性和最大池是拼接和融合,然后,权重和所示,训练通过延时吗
在哪里 拼接和融合后的特征。中长期规划包括两个FC层,每一个都是加权和 ,分别。CBAM频道关注模块改进后,体重通过第一个FC层培训的延时参数比在改进之前,模型的性能更好。此外,虽然改进的参数的数量是一样的改进 ,改进后的第二个FC中长期规划层可以用来计算两个部分的功能最大池和平均池同时,从而更好的拟合关系的特性两部分。为方便描述,改进CBAM叫做G-CBAM,只有数量的参数 。
4.2.3。剩余模块
中残留的网络模型本文借用ResNet50结构,由16个堆叠剩余模块如图4。的部分正确的虚线框代表了快捷方式连接,可以吗直接输出值。如果尺寸不同吗 ,的维数可以通过调整 卷积。在虚线框代表了残余结构,这是由卷积三层。的 卷积核是用来减少通道输入的维数张量,这样 卷积核作用于张量与一个相对较小的规模减少的数量计算。然后, 卷积核是用来提高通道的尺寸的张量,并输出 。因此,整个剩余模块的输出
4.2.4。G-CBAM剩余模块的集成
剩余G-CBAM集成模块,如图5。首先,G-CBAM模块用于更好地提取关键信息输入功能。然后,提取关键信息输入的剩余部分原始残余模块进一步提取深度特性。最后,剩余部分的结果并结合和融合的快捷连接整个模块的输出特性。
4.3。行为分类
递归神经网络(RNN)可以处理时间问题,但是当输入序列很长,不能因为学习梯度消失了。面对这种情况,LSTM提出(18]。作为一个类型的RNN LSTM熟练的将长时间系列的信息。图6显示了LSTM的简要概述。
更新LSTM的递归公式如下:
5。实验
5.1。引入数据集
UCF YouTube数据集包含1600个视频,分为11个动作如射击,摆动,跳跃的球,打网球,跳到蹦床,和打排球。每个类别包含25组的视频,每组至少包含4个视频剪辑。它的分辨率 。
k数据集有600个视频分辨率的频率 。表现数据集由25人组成的六种行为,包括步行、慢跑、跑步、鼓掌,挥舞着,和拳击,在四个不同的场景。
HMDB51数据集包含6849个视频,分为51类型的行动在每个类型,有超过100个视频分辨率 。根据类别,运动大致可以分为五种类型:面部动作,如微笑,咀嚼;有面部动作的操作对象,如吸烟和饮食;一般的身体动作,比如挥手和行走;身体和对象之间的交互,如梳理头发,盘带,画刀;和人机交互,如拥抱和接吻。
确认提出的可行性策略,UCF YouTube和HMDB51数据集分为训练集60%,验证组20%,和20%的测试集。k数据集,由于小数量的样品,5次的平均值采用交叉验证,其中80%的数据被每次培训,剩下的20%是测试。
5.2。实验的细节
首先,对UCF YouTube和HMDB51数据集,他们的决议 。直接使用会导致内存溢出由于太多的计算,所以他们需要扩展。然而,解决k数据集 ,可以直接输入到模型中。其次,由于视频动作识别在GPU计算能力有很高的要求,提高培训的效率模型,转移学习应用于特征选择方法阶段,即体重ImageNet ResNet50训练转移到ResNet结构用于我们的纸。最后,为了避免过度拟合的模型,辍学技术中使用的所有FC层,也就是说,在俱乐部层节点是随机灭活根据一定的概率。
5.3。实验过程
5.3.1。注意模块对模型性能的影响
为了更直观地分析CBAM和G-CBAM对模型性能的影响,准确性和损失曲线ResNet + LSTM(以下简称RLNet) RLNet + CBAM和RLNet + G-CBAM UCF YouTube数据集划分模型,分别如图7。上述三个模型的准确性和损失值较大的波动在初始迭代训练然后稳定随着迭代次数的增加。与RLNet相比,识别率RLNet结合CBAM显著提高,但准确率和损失价值波动更大的培训过程。此外,RLNet纳入G-CBAM识别率最高和最低的损失价值。此外,培训过程中的准确性和损失价值的波动很小,和模型具有最好的稳定性。因为G-CBAM解决问题,不能解决所有的问题同时在CBAM训练,更适合不同特性的相关性,并降低准确性和损失值的波动范围,提高模型的稳定性和识别率。
(一)
(b)
5.3.2。验证改进措施的有效性
为了证明各种改性措施的有效性,消融实验进行模型RLNet RLNet1, RLNet1, 2, RLNet1, 2 + CBAM RLNet1, 2 + G-CBAM UCF YouTube数据集。实验结果如表所示1的缩写,RLNet1 RLNet + Algo1 RLNet1, 2是RLNet + Algo1 + Algo2的缩写。
从表可以看出1,各种改进措施模型识别性能提高1.56%,1.16%,1.88%,和1.27%,分别。
5.3.3。的可视化特性区域
Grad-CAM [19)方法用于可视化行动最后卷积特性有关的特征提取,介绍,如图8。我们可以发现残余网络集成到CBAM不仅可以定位区域关键特性所在,但也抑制其他的无用的信息。与此同时,与CBAM相比,改进的G-CBAM更完整、准确定位关键特性,有效地提高了网络的学习判别功能。
6。实验结果
更充分验证该模型,我们进行了实验UCF YouTube, k, HMDB51数据集。
6.1。验证在UCF YouTube数据集
表2描述的比较结果UCF YouTube数据集,它可能表明,模型训练后,我们建议的方法获得了比所有的基准方法和超过96.72%。
6.2。k数据集上验证
从表可以看出3本文的方法还与其他方法相比具有更好的识别效果k数据集。
6.3。验证在HMDB51数据集
HMDB51数据集主要来自电影,它的特点是广泛的数据分布和高训练难度。为了验证RLNet1的识别效果,2 + G-CBAM在复杂场景中,实验也进行HMDB51数据集,与其他方法相比。结果如表所示4。
从表可以看出4HMDB51上,该方法的精度在一定程度上改善与其他运动识别方法相比,但有一个显著的差距获得的识别精度UCF YouTube和k。主要原因是与其他两个数据集相比,HMDB51有更多复杂的视频资源,也有许多不利因素如相机运动,遮挡、复杂背景、光照条件的变化,导致识别率较低。
7所示。结论
提出了一种深度学习动作识别方法将注意力机制。这个策略降低模型过度拟合的赌博信息预处理的改进计算通过添加信息,减少重复数据的障碍筛查无知的视频大纲,并提高了性能和少量的参数通过整合轻量级结构G-convolutional块关注残余网络模块。最后,UCF YouTube的识别率,k, HDB-51是96.72%,98.06%,和64.81%,分别。此外,HMDB51数据集上的实验结果表明,该模型的识别率很低在复杂的场景。因此,下一步将重点关注如何提高识别率下模型的各种不利因素。
数据可用性
实验数据对这项研究的结果可以在请求从相应的作者。
的利益冲突
作者宣称,关于这项工作他们没有利益冲突。