研究文章|开放获取
李Shirui霍,天瑞,Ce, ”分类器的基础上改进的协作表示人类行为识别的正规化”,电气和计算机工程杂志》上, 卷。2017年, 文章的ID8191537, 6 页面, 2017年。 https://doi.org/10.1155/2017/8191537
分类器的基础上改进的协作表示人类行为识别的正规化
文摘
人类行为识别是一个重要的近期具有挑战性的任务。地图投影深度图像到三个深度运动(数字多用表)和提取深卷积神经网络判别描述符(DCNN)特性特性来描述一个特定操作的时空信息的深度图像序列。在这篇文章中,一个统一的框架,提出了改进的协作表示概率的测试样本属于合作子空间类可以定义和计算。改进的分类器(ICRC)基于协作表示正规化的人类行为识别的可能性最大化提出了一个测试样本属于每个类,然后理论红十字国际委员会调查显示,得到最终的分类通过计算每个类的可能性。加上数字多用表和DCNN特性,实验深度图像动作识别,包括MSRAction3D和MSRGesture3D数据集,证明提出的方法成功地使用一个基于距离表示分类器实现性能优越的最先进的方法,包括SRC, CRC和支持向量机。
1。介绍
人体动作识别的研究在计算机视觉界几十年来,由于其应用在视频监控1),人机交互2),和运动分析3]。前微软Kinect,传统的研究集中在人类行为识别从RGB,但Kinect传感器提供一个负担得起的技术来捕捉RGB和深度(D)实时图像,它可以提供更好的几何线索和光照变化不太敏感行动识别。在[1),一袋3 d点和图形模型得到了描述从深度图像空间和时间信息。在[3),三个深度运动地图(数字多用表)预计将捕获的身体形状和运动,这是一个判别特性来描述一个特定操作的时空信息的深度图像序列。从文献回顾,虽然基于深度的方法似乎是引人注目的走向实际应用,即使有一些deep-learned特性识别,基于深度行动表现仍远不能令人满意,因为大变化的运动。在本文中,我们专注于利用一种代表性的结构模型来提高性能的多级分类与手工制作的数字多用表描述符。在[4),三个通道深卷积神经网络训练中提取特征后的深度图序列预测加权数字多用表三个正交平面上若干时间尺度。验证,该方法使用DCNN特性可以实现先进的结果几乎相同MSRAction3D MSRGesture3D数据集。DCNNs已被证明是一种有效的模型来执行先进的图像识别任务的结果,分割,检测和检索。DCNN的成功,我们也把它作为特征提取和运用于我们的分类器模型。
至于代表模型,许多成就包括图像恢复[基于空间表示5),压缩传感(6,7),形态成分分析(8),和超分辨率9,10]。作为分类器的进步基于表示,几个模式识别问题在计算机视觉领域可以有效地解决了稀疏编码或稀疏表示方法在最近几十年。特别是,线性模型可以表示为 (11), , ,和稀疏的向量表示的数据,和一个给定的矩阵overcomplete样本集,分别。因为成功的稀疏编码算法在图像处理,基于稀疏表示的分类器,如稀疏表示分类(SRC)和协作表示分类(CRC),现在获得了更多的关注。
SRC / CRC的基本思想是在一组代码的测试样品和样品稀疏约束,可以计算最小化。在[12莱特),提出了一个基本的SRC模型由稀疏表示的区别的性质分类,基于新信号是公认的理论以前观察到的线性组合。基于SRC,杨和张提出了一种基于伽柏阻塞字典的SRC,可以大大降低计算成本(13]。在[14),作者结合稀疏表示和线性金字塔匹配的图像分类。而不是使用整个训练集,张先生和李(15使用SRC)提出学习词典。在[16),图是由一个稀疏表示子空间的其他样本。杨et al。14还提出了一个方法来保护图的图像通过使用子空间分类解决失衡问题在图像分类任务。此外,SRC用于健壮的照明(17),屏转换(18),等等。然而,张认为SRC的良好的性能很大程度上应该归功于合作表示一个测试样本的训练样本在所有类和提出更有效的CRC。总之,SRC / CRC仅仅使用重建误差或剩余的每个职业专用子空间确定类标签,和许多修改模型和解决方案算法SRC / CRC也提出了视觉识别任务,包括增广拉格朗日乘子,近端梯度,梯度投影,迭代Shrinkage-Thresholding和同伦(19]。最近,一些研究人员(20.,21指出的目的基于正则化稀疏模式分类。相反,使用基于正规化的表示分类可以做类似的工作正规化,但计算成本会降低很多。
出于CRC的修改工作,在本文中,我们主要的改进分类器(ICRC)基于协作表示人类行为识别的正规化。基于三个数字多用表的描述符特性,国际红十字会的方法是联合的可能性最大化一个测试样本属于每个多个类,最后分类是由计算每个类的可能性。人类行为分类的实验任务,包括MSRAction3D MSRGesture3D数据集,并分析演示了这个算法的性能优越的最先进的方法,包括SRC, CRC和支持向量机。剩下的纸是组织如下。节2,我们介绍相关特性描述符使用价值。部分3细节动作分类器基于红十字国际委员会,和部分4实验结果显示我们的方法对相关的数据集。结论和承认了部分5和致谢部分。
2。特征描述符
2.1。使用深度运动地图
在本节中,我们解释了提取的特征描述符使用深度运动映射(数字多用表)从深度图像,选择和生成的叠加运动能量的深度地图投影到三个正交笛卡尔平面,阵线(看齐),()和()视图(例如, , ,和 ,职责)。至于每个投影地图,它的运动能量计算阈值连续映射之间的区别。运动能量的二进制映射提供了一个强大的线索类别被执行的操作和显示运动区域或运动发生的地方在每个时间间隔。我们建议所有帧都应该部署计算运动信息,而不是选择框架。考虑辨别力和鲁棒性的特征描述符,我们使用规范的绝对差一个框架来定义凸深度序列的信息。因为规范是一个深度序列的长度不变,和规范包含了更突出的信息比其他规范(例如,),我们有 在哪里帧间隔,我代表帧索引,N是总深度序列的帧数。和操作的情况下(1)只使用一个阈值满足,规模影响数字多用表的本地模式直方图。
2.2。利用卷积神经网络
在本节中,我们介绍三个深卷积神经网络(DCNNs)训练功能三个投影平面的数字多用表和执行相结合的三网融合将softmax完全连接层。我们三个cnn的层配置示意图如图1中,有五个卷积在每个网络层和三个完全连接层。我们实现的细节部分4.1.2。
3所示。根据国际红十字委员会行动分类器
基于深度运动地图、功能描述符合并到一个强大的分类器,分类器(ICRC)提出了一种改进的协作表示对人类行为的认可。
3.1。正规化的协作表示分类器
SRC的基本思想是把一个测试样本的稀疏选择少量的原子从一个overcomplete字典包含所有训练样本(12]。用 ,训练样本的集合类 ,假设我们有类的科目。所以 涉及很多样本的所有类 是单个类的训练样本,训练样本的总数,训练样本的维数。查询示例 可以提供的 ,在那里 , ,和稀疏的向量表示的数据,和一个给定的矩阵overcomplete训练样本,分别。
具体而言,协作机制的分类器(CRC)表示,合作的子空间中的每个数据点可以表示为一个线性组合的样品 ,在哪里 是一个 表示向量与训练样本和 subvector对应吗 。一般来说,它是作为一个贺范数最小化凸目标和解决的问题 在哪里是一个积极的标量平衡稀疏的术语和剩余。剩余可以计算 在哪里相对应的系数向量类吗 。然后输出的身份可以获得最低的残余
SRC / CRC的更多细节,可以参考(12]。因为计算耗时的正规化的最小化,1)近似为 在哪里 代表了和如果规范的更小。在(5),是Tikhonov正则化(27计算系数向量,是正则化参数。是正则化项添加一定量的稀疏 ,这是弱于范数最小化。的对角矩阵和系数向量计算如下(21]: 在哪里 是独立于和预先计算的。(3)和(4),数据分配不同的基于身份吗 。
3.2。红十字国际委员会提出的方法
基于训练样本集,提出一种改进的分类器基于协作表示正则化项,与不同的基于概率分配数据点通过添加一个术语试图找到一个点接近公共点在每个子空间的类 。前两个方面 仍然形成一个正规化的协作表示术语,它鼓励找到一个点接近在协作的子空间。因此,(5)是写成 显然,这些参数和平衡三个方面,可以从训练数据集。因此,代表向量的一个新的解决方案获得(7)。
的条件 ,(7)将退化与前两个条件,CRC和 将扮演重要的角色在决定 。当 ,这两个方面 将为所有类是相同的,因此这个词吗将占主导地位的进一步调整通过屈服于一个精确的 。,最后介绍了新添加项进一步调整通过 ,导致一个更稳定的解决方案,代表向量 。
我们可以省略所有类的前两个相同的条款,使分类器规则的最后一学期,并阐述概率指数: 被提议的正规化的人类行为识别方法提出了最大化的可能性测试样本属于每个类,然后在以下部分实验表明,获得最后一个检查哪个类的最大似然分类。到目前为止,上述分类器模型(7)和(8)被任命为改进分类器(ICRC)协作表示。
4所示。实验结果
基于深度运动地图、功能描述符合并到一个强大的分类器,提出了红十字会对人类行为的认可。验证的有效性提出了红十字国际委员会在动作识别算法应用程序使用DMM深度序列的描述符,我们进行挑战性实验深度基础动作数据集MSRAction3D [1]和MSRGesture3D [1人类行为识别。
4.1。特征描述符
以下4.4.1。数字多用表
MSRAction3D [1]数据集是由深度图像序列被微软Kinect-V1相机。它包括20行动由10学科面临的相机。每个主题执行每个操作2或3次。有20个行动类型:手臂波高、水平臂波,锤子,手抓,向前冲,高抛,画X,画勾,画圆,手拍,双手波,拳击,弯曲,向前踢,踢,慢跑,网球,网球,高尔夫球,捡起,扔。每个深度图像的大小为240×320像素。深度数据的背景信息已被删除。
MSRGesture3D [1人类行为]数据集连续在线识别的Kinect设备。它由12个手势由美国手语(ASL)。每个人执行每个手势2或3次。有333个深度序列。行动识别MSRAction3D和MSRGesture3D数据集,我们使用数字多用表的特性计算,每个深度操作序列生成三个数字多用表对应三个投影视图。高臂波的数字多用表类MSRAction数据集在图所示2和美国手语Z类的数字多用表MSRGesture3D数据集在图所示3。
4.1.2。DCNNs
此外,我们实现DCNN功能是基于公开MatConvNet工具箱(28)使用一个Nvidia泰坦X卡。网络权值由mini-batch随机梯度下降学习。类似于(4),势头将衰减设置为0.0005,0.9和重量和重量全部隐藏层使用整流激活函数。在每个迭代中,在每一批256个样本构造和大小为256×256,然后224×224补丁从选定的中心随机裁剪图像增强人工数据。在网队辍学正规化的比率是0.5。此外,最初的学习速率与ilsvrc pretrained模型设置为0.01 - 2012来调整我们的模型,每20世纪和学习速率降低。最后,我们把三4096维的特征向量在7日完全连接层输入后续分类器。
4.2。实验设置
同样的实验装置(1)采用,MSRAction3D数据集被分成三个子集的行动如下:AS1:水平波,锤子,向前冲,高抛,手鼓掌,弯曲,网球发球,皮卡扔;AS2:波高,手抓,画x,画勾,画圆,双手波,向前踢,一边拳击;AS3:高抛,向前踢、侧踢,慢跑,网球,网球,高尔夫,和皮卡。我们进行了三个实验与训练样本和测试样本AS1 1/3 2/3, AS2,分别和AS3。因此,性能评估MSRAction3D平均精度(Accu。单位:%)在三个子集。另一方面,相同的实验设置报告(26,29日,30.)之后。12个手势被leave-one-subject-out交叉验证测试来评估该方法的性能。
4.3。识别结果与数字多用表和红十字国际委员会
我们连接标志,大小和中心特性形成了功能基于数字多用表作为最终功能表示。比较方法类似于(29日,30.]。报告的相同的参数(26这里使用了SI的大小和块。总共20行为是雇佣和一半的受试者(1、3、5、7、9)用于训练和剩下的科目是用于测试。我们的方法和现有方法的识别性能表中列出1。很明显,我们的方法达到更好的性能比其他竞争对手的方法。
显示我们的方法的结果,数据4和5说明每个类的认可率在两个数据集。说有14类获取MSRAction3D数据集,识别利率100%和3类的性能达到最佳MSRGesture3D数据集。所有实验都使用MATLAB英特尔i7 2016 b - 6500 u的桌面和8 GB RAM,以及视频处理的平均时间约26帧每秒,基本上满足实时处理的需求。
4.4。与DCNN特性和红十字国际委员会
此外,为了评估提出了分类器的方法,我们还提取深度特性通过上述传统CNN模型然后输入12288维的向量识别提出了红十字国际委员会的行动。表2表明,DCNN算法的确进步一样好其他流行的图像分类和目标检测的任务,它可以大大提高精度高达6% MSRAction3D MSRGesture3D。这也解释了红十字国际委员会有效特征分类器的重要性。
|
||||||||||||||||||||
5。结论
在本文中,我们提出改进分类器(ICRC)基于协作表示人类行为识别的正规化。数字多用表和DCNN特征描述符作为一个有效的行动表示。的动作分类器,红十字国际委员会提出了基于协作表示有额外的正则化项。新观点集中在一个子空间限制的解决方案。MSRAction3D和MSRGesture3D实验结果表明,该算法执行与最先进的方法,包括SRC, CRC和支持向量机。未来的工作将集中在涉及deep-learned网络深度图像表示和评价MSR3DActivity等更复杂的数据集,UTKinect-Action,南大RGB + D,动作识别的任务。
的利益冲突
作者宣称没有利益冲突。
确认
国家重点实验室的工作是由煤炭资源安全开采合同SKLCRSM16KFD04 SKLCRSM16KFD03,部分由中国自然科学基金合同61601466,和部分基础研究基金2016 qj04合同下的中央大学。
引用
- w·李,张z z . Liu”行动识别基于一袋3 d点”《IEEE计算机学会学报计算机视觉与模式识别会议研讨会(CVPRW 10),页9-14,旧金山,加州,美国,2010年6月。视图:出版商的网站|谷歌学术搜索
- z s . Wang, y, x, c .彭日成和a·g·豪普特曼“Semi-supervised多个特征分析动作识别,”IEEE多媒体,16卷,不。2、289 - 298年,2014页。视图:出版商的网站|谷歌学术搜索
- x杨、c . Zhang和y田,“识别操作使用基于深度运动地图面向梯度直方图,”20 ACM国际会议多媒体学报,2012毫米日本,页1057 - 1060年,2012年11月。视图:出版商的网站|谷歌学术搜索
- w . p . Wang, z高,j .张c . Tang和p . Ogunbona”行动深卷积神经网络识别使用深度图序列,”计算机视觉和模式识别,arXiv预印本,https://arxiv.org/abs/1501.04686,2015年。视图:谷歌学术搜索
- w·e·温吉j·l·格兰特,“稀疏编码和在初级视觉皮层解相关自然视野,”科学,卷287,不。5456年,第1276 - 1273页,2000年。视图:出版商的网站|谷歌学术搜索
- e .萤石,“压缩采样、”美国国际数学大会,3卷,第1452 - 1433页,2006年。视图:谷歌学术搜索|MathSciNet
- 罗n .关道,z, b .元,“NeNMF:非负矩阵分解的最优梯度法,“IEEE信号处理,60卷,不。6,2882 - 2898年,2012页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- J.-L。斯塔克,m·兰德,d . Donoho“冗余多尺度变换及其应用形态组件分离,“先进的成像和电子物理卷,132年,第348 - 287页,2004年。视图:出版商的网站|谷歌学术搜索
- j·杨,j·赖特、t·黄和y妈,“超分辨率图像作为原始图像块的稀疏表示,”学报》第26届IEEE计算机视觉与模式识别会议2008年6月,页1 - 8,。视图:出版商的网站|谷歌学术搜索
- w .咚,l . Zhang g .史,吴x”图像去模糊和超分辨率自适应稀疏域选择和自适应正则化,“IEEE图像处理,20卷,不。7,1838 - 1857年,2011页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 黄k和s Aviyente“对信号稀疏表示分类,”诉讼的损害加拿大温哥华,页609 - 616,2006年12月。视图:谷歌学术搜索
- j·赖特,a, y, a . Ganesh s Sastry,和y妈,“基于稀疏表示的人脸识别,”IEEE模式分析与机器智能没有,卷。31日。2、210 - 227年,2009页。视图:出版商的网站|谷歌学术搜索
- m·杨和l . Zhang,”伽柏基于特征的稀疏表示人脸识别与伽柏闭塞字典,”学报》第11届欧洲计算机视觉大会10)施普林格,页448 - 461年,克里特岛,希腊,2010。视图:出版商的网站|谷歌学术搜索
- j·杨,k, y锣,t·黄“线性空间金字塔匹配利用稀疏编码的图像分类,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09)2009年6月,页1794 - 1801。视图:出版商的网站|谷歌学术搜索
- 问:张先生和李b”,歧视K-SVD字典学习在人脸识别中,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR 10)2010年6月,页2691 - 2698。视图:出版商的网站|谷歌学术搜索
- b . Cheng j .杨燕,傅y,和t . s .黄,“学习与l1-graph图像分析,”IEEE图像处理,19卷,不。4、858 - 866年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- a .瓦格纳j·赖特,a . Ganesh z周,和y妈,“对一个实际的人脸识别系统:健壮的注册和照明在稀疏表示,”《2009年IEEE计算机学会学报计算机视觉与模式识别会议研讨会、CVPR车间2009美国,页597 - 604年,2009年6月。视图:出版商的网站|谷歌学术搜索
- 黄j . z、x l·黄和d·迈塔克瑟白兰地“同步图像变换和稀疏表示的复苏,”学报》第26届IEEE计算机视觉与模式识别会议(CVPR ' 08)安克雷奇,页1 - 8,阿拉斯加,美国,2008年6月。视图:出版商的网站|谷歌学术搜索
- A . y .杨A . Genesh z周,美国Sastry y .马,“回顾快L1-Minimization算法的人脸识别,”国防科技信息中心,2010年。视图:出版商的网站|谷歌学术搜索
- l, m·杨,x,“稀疏表示或协作表示:这有助于人脸识别?“在《IEEE计算机视觉国际会议(ICCV 11)西班牙巴塞罗那,页471 - 478,,2011年11月。视图:出版商的网站|谷歌学术搜索
- p·伯克,b . l .白色,和j . fis,“没有证据表明在视觉皮层活跃sparsification”学报》第23届年会在神经信息处理系统中,少量的2009可以,页108 - 116年,2009年12月。视图:谷歌学术搜索
- j . Chorowski z . j . Wang Liu和吴y, z . Chen”强大的3 d动作识别与随机占用模式,”电脑Vision-ECCV 2012: 12日欧洲计算机视觉,佛罗伦萨,意大利,7 - 10月,2012年,诉讼,第二部分施普林格,页872 - 885年,柏林,德国,2012年。视图:出版商的网站|谷歌学术搜索
- 吴y z . j . Wang Liu, j .元,“矿业actionlet合奏与深度照相机动作识别,”《IEEE计算机视觉与模式识别会议(CVPR 12)普罗维登斯,页1290 - 1297年,RI,美国,2012年6月。视图:出版商的网站|谷歌学术搜索
- l .夏和j·k·Aggarwal时空深度长方体相似性特征活动识别使用深度相机,”学报》第26届IEEE计算机视觉与模式识别会议(CVPR 13)IEEE,页2834 - 2841年,波特兰,矿石,美国,2013年6月。视图:出版商的网站|谷歌学术搜索
- f r . Vemulapalli Arrate r . Chellappa”代表人类行为识别的三维骨架点在李群,”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)俄亥俄州哥伦布市,页588 - 595,美国2014年6月。视图:出版商的网站|谷歌学术搜索
- b . c . Chen m . Liu, j .汉j .军军h·刘,“3 d动作识别使用时段遥测深度运动矢量地图和费舍尔,”学报》25日国际联合会议上人工智能,IJCAI 2016年展出,页3331 - 3337,美国,2016年7月。视图:谷歌学术搜索
- a . n . Tikhonov和v . y . Arsenin病态问题的解决方案约翰·威利& Sons,纽约,纽约,美国,1977年。视图:MathSciNet
- http://www.vlfeat.org/matconvnet/。
- y, b, l .杨c . Chen和w·杨,“行动识别使用局部二进制模式和多个类提高分类器,完成”诉讼第三IAPR亚洲模式识别会议ACPR 2015岬,页336 - 340年,2016年11月。视图:出版商的网站|谷歌学术搜索
- g·l·a·w·维埃拉e . r . Nascimento奥利维拉,z . Liu和m·f·m·坎波斯,“人类行为识别的改进使用时空入住率从深度图序列模式,”模式识别的字母,36卷,不。1,第227 - 221页,2014。视图:出版商的网站|谷歌学术搜索
版权
版权©2017 Shirui霍等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。