-flow) trajectory-based local features with Fisher Vector (FV) to retain the low-level characteristic of motion. Then, the motion parts are extracted by clustering the similar trajectories with spatiotemporal distance between trajectories. Finally the representation for action video is the concatenation of low-level descriptors encoding vector and motion part encoding vector. It is used as input to the LibSVM for action recognition. The experiment results demonstrate the improvements on J-HMDB and YouTube datasets, which obtain 67.4% and 87.6%, respectively. "> 表示动作识别使用当地Trajectory-Based低级特性和中层运动特性 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

应用计算智能和软计算

PDF
应用计算智能和软计算/2017年/文章

研究文章|开放获取

体积 2017年 |文章的ID 4019213 | https://doi.org/10.1155/2017/4019213

小强,丹王,阴, 表示动作识别使用当地Trajectory-Based低级特性和中层运动特性”,应用计算智能和软计算, 卷。2017年, 文章的ID4019213, 7 页面, 2017年 https://doi.org/10.1155/2017/4019213

表示动作识别使用当地Trajectory-Based低级特性和中层运动特性

学术编辑器:经纪人莫拉比托弗朗西斯科·卡洛
收到了 2016年8月04
修改后的 2017年3月22日
接受 2017年9月17日
发表 2017年10月19日

文摘

密集的轨迹和低级的地方特性广泛应用于最近动作识别。然而,大多数这些方法忽略了运动的行动的一部分,这是区分不同的人类行为的关键因素。提出了一种新的两层模型的表示动作识别通过描述视频底层特征和中层运动模型的一部分。首先,我们将补偿编码流( 流式)trajectory-based地方特色与费舍尔向量(艘)保留的低级特征运动。然后,通过聚类提取的运动部分类似的轨迹时空轨迹之间的距离。最后行动的表示视频是低级的连接描述符编码向量和运动部分的编码向量。它被用作输入识别LibSVM的行动。实验结果证明了改进J-HMDB和YouTube数据集,分别获得67.4%和87.6%。

1。介绍

人类行为识别已成为计算机视觉领域的一个热门话题。它开发了一个实用系统将应用于视频监控,互动游戏和视频注释。尽管有显著的研究成果,近年来许多令人鼓舞的进步1- - - - - -3)、动作识别仍远非令人满意的和实用的。有大影响识别准确率的因素如杂乱的背景,照明和闭塞。

大多数行动识别关注的两个重要问题:提取特性在时空的体积和建模操作模式。许多现有的研究人类行为识别往往从整个3 d视频提取功能使用时空兴趣点(站下车)4]。近年来,光学流应用于提取trajectory-based运动特性,已被广泛应用于局部时空特征。当地trajectory-based特性是汇集和归一化向量作为全球视频表示在动作识别。与此同时,大量的工作都集中在发展中有识别力的图像对象识别或视频动作识别的字典。袋的功能(转炉)模型生成简单的视频模型通过集群时空特性的所有训练样本和训练使用 - - - - - - 支持向量机(SVM)。和艺术方法流行费舍尔的状态向量(艘)5基于时空局部特征编码模型。然而,所有这些方法都不是完美的,因为他们只关心底层时空特性基于兴趣点和忽视运动的更高级别的功能部分。对于大多数行动,只有一小部分地方整个视频的运动特征标签相关的行动。当一个人挥舞着,只有运动在手臂或手负责行动鼓掌的手。行动的银行(6]和motionlets [7)采用无监督学习发现操作部分。许多方法(8)集群运动的轨迹,寻求理解时空特性构建中层行动视频表示。向量的局部聚合描述符(弗拉德)[9)是一种描述符编码技术,集合描述符基于特征空间的一个地方标准。保持更多的加工运动部分的时空特征,弗拉德编码得到更好的结果比转炉(10]。灵感来自低级地方特征编码和部分中层运动模型的关键因素是区分不同的人类活动;我们提出一个新的表示形式(如在图所示2行动)识别基于局部特性和运动部分。为了减少背景杂波噪声,我们提取当地trajectory-based特性通过更好的补偿流( 流式)[11)密集的轨迹的方法。然后我们集群通过图形的轨迹聚类算法和编码特性来描述不同的运动部分。最后,我们通过结合低级trajectory-based特性代表了视频编码模型与中层运动部分模型。

本文组织如下。节2,当地的描述符的基础上 流式密集的轨迹和低级介绍了视频编码与阵线。然后我们展示集群运动部分和介绍视频部分的表示3。我们描述我们的方法的评价和讨论的结果部分4。最后,讨论的结论和未来的工作部分5

2。第一层与阵线

轨迹是有效的在视频捕捉对象的运动。我们提取的时空特性 流式的轨迹来表达底层描述符。在本节中,我们介绍了 流式密集的轨迹与阵线和低级的描述符。

2.1。 流式的轨迹

密集的轨迹的概念是基于跟踪的兴趣点。兴趣点在网格采样间隔 每一帧的像素和跟踪。后续帧连接形成一个轨迹点: 在框架是兴趣点的位置吗 轨迹的长度 帧(1]。最近的一份工作Jain et al。11)提出了补偿流( 流式)轨迹密度减少的背景的影响轨迹。的 流式的轨迹是通过消除仿射流矢量从原来的光流矢量。兴趣点的方法是跟踪 流式(11)补偿主要运动(相机运动)。它是有益的对于大多数现有的描述符用于动作识别。这种方法使用的2 d多项式运动仿射模型补偿摄像机运动。仿射流 的主运动是两个连续的图像通常是由相机的运动造成的。我们计算仿射流公开Motion2D软件(http://www.irisa.fr/vista/Motion2D/),实现了一个实时的健壮的多分辨率增量评估框架。最后流矢量 通过消除仿射流向量 从最初的光流矢量如下。 1iDT(显示了密集的轨迹中提取的12)方法和 流式的轨迹。

当地运动轨迹的形状编码模式。轨迹的形状是由连接一组描述位移向量 。同时,利用运动信息密集的轨迹,我们计算描述符周围时空的体积内的轨迹。体积的大小 。和体积分为一个 时空的网格。光流的直方图(霍夫和 霍夫)[1)描述符获取当地的运动信息,计算流场的使用方向和大小。运动边界直方图(MBH) [1)描述符编码沿着两个像素之间的相对运动 轴和形象描述了歧视性的功能动作识别的背景弄乱。的trajectory-based 霍夫在补偿流动特性计算。对于每一个轨迹,霍夫描述符结合运动信息, 霍夫,MBH。单一轨迹特性的形式 轨迹的形状 规范化的位移向量的大小和 的长度是轨迹。

2.2。低级的视频编码

的代表性动作识别的视频是一个至关重要的问题。我们首先对底层编码 流式trajectory-based描述符使用费舍尔向量(艘)编码方法,提出了对图像分类(13]。艘来自费舍尔内核之间的统计编码视频描述符和高斯混合模型(GMM)。我们减少了低级特性( 霍夫,霍夫,MBH)利用主成分分析法(PCA)维度保持90%的能量。当地的描述符 可以通过一个概率密度函数建模 与参数 ,这通常是由GMM模型。 在哪里 模型参数表示权重,意味着,GMM的对角协方差。 是当地的数量描述符。 是混合组件的数量,我们准备好了吗 256年(5]。我们可以计算日志对可能性的梯度模型的参数来表示一个视频。阵线需要GMM的编码特性分布。费舍尔向量是这些偏导数和描述的连接方向模型的参数应该修改为最适合的数据(14]。保持低层次的功能,我们每个视频编码的编码功能。

3所示。表示视频

运动部分编码已被认定为一个成功的方法来表示动作识别的视频。在本节中,我们使用一个图聚类方法向组织集群相似的轨迹。然后表示行动视频连接的底层局部描述符编码和高级运动部分编码。

3.1。轨道集团

为了更好地描述运动,我们集群相似的轨迹分成组,因为关键区域的相关视频到一个特定的行动。的方法(22),他们在轨迹屈服轨迹计算层次聚类组的行动部分。然后我们应用高效的贪婪会凝聚的层次聚类过程组的轨迹。视频中有大量的轨迹;也就是说,有大量的节点图。通过消除轨迹距离不是空间将得到稀疏的轨迹图。贪婪会凝聚的层次聚类是一个快速、可扩展算法,几乎线性复杂度的节点数量相对稀疏的轨迹图。将我们设定的轨迹 视频包含轨迹距离矩阵 轨迹。我们使用轨迹之间的距离度量考虑集群的时空关系。给定两个轨迹 , 在哪里 2距离的轨迹在相应时间点的实例。我们刚刚计算轨迹间的距离 同时存在的 以确保估计空间紧密的团体,我们执行上面的亲和力是零轨迹对没有空间上的接近 。集群的数量在一个视频数量设置为用于(22)和轨迹在集群的数量是根据经验值低于100。

3.2。第二层与弗拉德

描述运动的轨迹集团参与相同的动作类别会有相似之处。捕获的粗时空特征描述符 ,我们计算的均值组描述符( 霍夫,霍夫,MBH)和轨迹的形状。然后,我们将所有的组描述符( 霍夫,霍夫,MBH) 和组形状描述符 所以被描述为 ;弗拉德(9)是一种描述符编码技术,集合描述符基于特征空间的一个地方标准。正如我们所知,经典的转炉使用聚类中心统计数据来表示样本将导致大量的信息的损失。在集团编码,我们表示组码的码字 。组描述符 都是属于的组描述符 词。视频编码为一个向量: 在哪里 大小码书学的吗 ——集群。因此,弗拉德比转炉保持更多的信息。

3.3。视频编码

我们每个视频从一组描述符编码使用弗拉德模型运动的一部分。每个类型的组描述符的电报密码本( 霍夫,霍夫,MBH和 )分别由使用 ——集群。根据组织的平均数量在每一个视频,我们视觉单词的数量设置为50。为了快速找到最近的中心,我们构造一个kd tree当每组描述符映射到电报密码本。我们描述视频编码向量与组织模型为不同的描述符。然后,运动模型是由连接不同的描述符编码的一部分弗拉德集团模式。最后,表示动作识别编码的连接底层局部描述符编码和中层运动部分编码。图2显示了动作识别的概述我们的管道。

4所示。实验

在本节中,我们实现一些实验来评估行动表示的性能。我们验证模型在几个动作识别基准和比较我们的结果和不同的方法。

4.1。数据集

我们验证了模型三个人类行为的标准数据集:k, J-HMDB, YouTube数据集。k数据视图的行为在一个统一的背景面前,而J-HMDB数据集(10)和YouTube数据集(16)从各种渠道收集从数字化电影到YouTube。它们覆盖不同的范围和难度水平行动识别。我们总结和实验协议如下。

k数据集(23行动]包含6类:散步、拍手、手挥舞,慢跑、跑步和散步。背景是均匀和静态在大多数序列。我们遵循实验设置23)将数据集划分为训练集和测试集。我们训练一个多级分类器和报告所有类平均精度作为衡量工作表现的方法。

J-HMDB [10]包含21个动作类:刷头发,抓,鼓掌,爬楼梯,高尔夫球,跳,踢的球,挑,倒,引体向上,,跑步,拍球,射击弓,射枪,坐,站,摆动棒球,扔,走路,和波。J-HMDB HMDB51的子集是来自电影或互联网。这个数据集不包括从HMDB51类别包含面部表情像微笑和握手等与他人互动和专注于单一的身体动作。我们评估J-HMDB包含11个类别涉及到一个单一的身体动作。对于多级分类,我们使用one-vs-rest方法。

YouTube行动数据集(16]包含11个动作类:篮球、骑自行车、潜水,高尔夫球摆动,骑马、足球杂耍,摆动,网球摆动,蹦床跳,排球飙升,与狗一起散步。由于大型相机运动的变化,外观,和姿势,这是一个具有挑战性的数据集。后(16),我们使用leave-one-group-out交叉验证和报告的平均精度对所有类。

4.2。实验结果

该方法提取地结合 流式trajectory-based地方特色通过跟踪密集采样的兴趣点,然后,集群运动轨迹分成组编码部分。

为了选择一个歧视的结合特性,代表底层本地描述符,我们评估基于底层本地描述符 流式的轨迹与费舍尔在第一个基线向量编码实验。GMM 256组件从256000随机选择基于轨迹的局部描述符方式相一个子集。线性支持向量机 作为分类器。我们比较不同的特征描述符在图3那里的平均精度J-HMDB报告数据集。可以看出,MBH描述符,编码的像素之间的相对运动,工作比其他描述符。图3还表明,霍夫的结合, - - - - - -霍夫,MBH描述符达到67.4%,最高精度的各种低级局部描述符。所以,我们在第二个实验中使用这个组合。

第二基准实验,提出了两层模型表示的动作是低级的局部描述符和运动部分的连接描述符编码。表1和图4比较低级的两层方法J-HMDB和YouTube数据集的方法。可以看出,两层的模型有更好的性能比低级编码使用不同的描述符。此外,我们比较该方法与一些经典方法k, J-HMDB,和YouTube数据集,如DT + BoVW [1),中层部分(21传统阵线(),17),堆放阵线(17],DT +蝴蝶结[10],IDT +阵线(17]。如表所示2,两层的模型获得67.4%和87.6%的准确率J-HMDB和YouTube数据集,分别。和J-HMDB数据集的识别精度提高了4.6%和2.2%在YouTube上数据集与其他先进的方法。然而,该方法的k数据集上的性能是不一样的更好的J-HMDB和YouTube上的数据集,因为k数据集收集的固定相机的均匀背景和优势 在这种情况下流式轨迹没有显示。


数据集 特性 底层编码 两层的模型

JHMDB 霍夫 52.2% 56.1%
霍夫 53.9% 57.3%
MBH 58.4% 62.9%

霍夫+ 霍夫+ MBH 62.9% 67.4%

YouTube 霍夫 77.6% 77.9%
霍夫 75.2% 77.0%
MBH 84.2% 85.0%

霍夫+ 霍夫+ MBH 85.3% 87.6%


k YouTube J-HMDB

ISA (15] 86.5% 刘等人。16] 71.2% 传统的阵线(17] 62.83%
Yeffet和狼18] 90.1% Ikizler-Cinbis和Sclaroff19] 75.21% 堆叠阵线(17] 59.27%
程等。20.] 89.7% DT + BoVW [1] 85.4% DT +弓(10] 56.6%
Le et al。15] 93.9% 中层部分(21] 84.5% IDT +阵线(17] 62.8%

两层的模型 92.6% 两层的模型 87.6% 两层的模型 67.4%

5。结论

提出了一个两层的模型表示的动作识别基于局部描述符和运动部分描述符,它实现了改进比低级的局部描述符。它不仅考虑利用低级本地信息编码的视频,而且结合了运动代表视频的一部分。它还提出了一种歧视和紧凑的行动表示认可。然而,仍有改进的余地。首先,该方法不能确定组织的数量在不同的数据集而组织中层编码的性能影响很大。第二,许多团体在视频并不代表操作部分;需要开发一种方法学习的有差别地组织更好的表示视频。在未来,我们会做研究新组聚类方法可以找到更多歧视团体行动的一部分。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

  1. a . h . Wang兰、c·施密德和C.-L。刘”,密集的行动轨迹和运动边界描述符识别,”国际计算机视觉杂志》上,卷103,不。1、60 - 79、2013页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  2. y y, b . Wang,戴,z涂,“Action-Gons:动作识别与歧视的字典不同粒度的结构化元素,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言卷,9007年,第274 - 259页,2015年。视图:出版商的网站|谷歌学术搜索
  3. 拉普帖夫海,m . Marszałek c·施密德,b . Rozenfeld“学习现实的人类行为,从电影,”学报》第26届IEEE计算机视觉与模式识别会议(CVPR ' 08),2008年6月。视图:出版商的网站|谷歌学术搜索
  4. 拉普帖夫海,“时空兴趣点”,国际计算机视觉杂志》上,卷64,不。2 - 3、107 - 123年,2005页。视图:出版商的网站|谷歌学术搜索
  5. j .吴张y和w·林,“对好视频编码实践行动,”美国27日IEEE计算机视觉与模式识别会议,CVPR 2014哥伦布,页2577 - 2584年,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
  6. 美国Sadanand j。j·科索,“行动银行:活动视频的高层表示,“《IEEE计算机视觉与模式识别会议(CVPR 12)2012年6月,页1234 - 1241。视图:出版商的网站|谷歌学术搜索
  7. x y l . m . Wang俏,唐、“Motionlets:中级3 d人体运动识别部分,”学报》第26届IEEE计算机视觉与模式识别会议(CVPR 13)2013年6月,页2674 - 2681。视图:出版商的网站|谷歌学术搜索
  8. w·陈和j。j·科索,“集群行动隐故意的检测运动,”第十五届IEEE国际研讨会论文集在计算机视觉,ICCV 2015的背影,页3298 - 3306年,2015年12月。视图:出版商的网站|谷歌学术搜索
  9. h . Jegou f . Perronnin m . Douze j·桑切斯·佩雷斯·c·施密德,“本地图像描述符聚合成紧凑的代码,IEEE模式分析与机器智能,34卷,不。9日,第1716 - 1704页,2012年。视图:出版商的网站|谷歌学术搜索
  10. h . Jhuang j . Gall s Zuffi c·施密德和m . j .黑色,“对动作识别、理解”学报》2013年第14 IEEE计算机视觉国际会议上,ICCV 2013来自,页3192 - 3199年,2013年12月。视图:出版商的网站|谷歌学术搜索
  11. m . Jain h . Jegou, p . Bouthemy“更好的更好的动作识别,利用运动”学报》第26届IEEE计算机视觉与模式识别会议,CVPR 2013波特兰,页2555 - 2562,或者美国,2013年6月。视图:出版商的网站|谷歌学术搜索
  12. h . Wang和c·施密德,”行动与改进的轨迹,识别”学报14 IEEE计算机视觉国际会议(ICCV 13),页3551 - 3558年,悉尼,澳大利亚,2013年12月。视图:出版商的网站|谷歌学术搜索
  13. f . Perronnin j·桑切斯,t . Mensink”改善费舍尔内核对大规模图像分类,”学报》第11届欧洲计算机视觉大会10)卷,6314在计算机科学的课堂讲稿156年,页143 -克里特岛,希腊,2010。视图:出版商的网站|谷歌学术搜索
  14. Csurka和f . Perronnin,”Fisher向量:除了bag-of-visual-words图像表示,“通信在计算机和信息科学卷。229年,28-42,2011页。视图:出版商的网站|谷歌学术搜索
  15. 问:诉勒,w . y .邹,s . y .杨和a . y . Ng”学习层次行动不变的时空特征识别与独立子空间分析,”《IEEE计算机视觉与模式识别会议(CVPR 11)2011年6月,页3361 - 3368。视图:出版商的网站|谷歌学术搜索
  16. j·刘,j·罗和m .沙”从视频在野外认识现实的行动,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09)IEEE,页1996 - 2003年,迈阿密,佛罗里达州,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
  17. c x Peng邹,y俏,彭,“动作识别与费舍尔向量,堆放”电脑Vision-ECCV 2014: 13日,瑞士苏黎世欧洲会议9月6 - 12,2014年,诉讼,第五部分卷,8693在计算机科学的课堂讲稿施普林格,页581 - 595年,柏林,德国,2014年。视图:出版商的网站|谷歌学术搜索
  18. l . Yeffet和l .狼,”当地三倍的人类行为模式识别,”学报》第12届国际会议上计算机视觉(ICCV ' 09)《京都议定书》,页492 - 497年,日本,2009年10月。视图:出版商的网站|谷歌学术搜索
  19. n Ikizler-Cinbis和s Sclaroff”对象,场景和动作:结合多个特性对于人类行为的识别,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言,卷6311,不。1,第507 - 494页,2010。视图:出版商的网站|谷歌学术搜索
  20. y . g . Cheng Wan, w . Santiteerakul唐,和b . p .扣,“动作识别与时间的关系,”学报2013年IEEE计算机视觉与模式识别会议研讨会、CVPRW 2013波特兰,页671 - 675,或者美国,2013年6月。视图:出版商的网站|谷歌学术搜索
  21. f m . Sapienza Cuzzolin·h·s·托”学习区别的时空行动从弱贴上视频部分,“国际计算机视觉杂志》上,卷110,不。1,30-47,2014页。视图:出版商的网站|谷歌学术搜索
  22. m . Raptis i Kokkinos, s . Soatto”发现歧视行动部分从中级视频表示,”《IEEE计算机视觉与模式识别会议(CVPR 12),2012年6月。视图:出版商的网站|谷歌学术搜索
  23. c . Schuldt拉普帖夫海,和b·卡普托”认识到人类活动:当地的支持向量机方法,”17学报》国际会议模式识别(ICPR ' 04)2004年8月,页32-36,。视图:出版商的网站|谷歌学术搜索

版权©2017小强李等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1378年
下载636年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读