文摘
人类行为识别基于三维骨架已经成为一个活跃的研究领域近年来与最近发达商品深度传感器。大多数发表的方法分析一个完整的三维深度数据,构建中层表示一部分,或者使用轨迹识别人类活动的时空兴趣点的描述符。与以前的工作不同的是,小说和简单的行动表示提出了本文模型的行动作为一个序列不连续的和歧视的骨架构成,命名为关键的骨架构成。骨骼关节的两两相对位置作为特征的骨骼造成开采援助的潜在支持向量机(潜在支持向量机)。我们的方法的优点是抵制对组内变异等噪声和大变形非线性时序的人类行为。我们评估该方法在三个基准数据集被Kinect设备:MSR行动3 d数据集,数据集UTKinect行动,和佛罗伦萨3 d动作数据集。详细的实验结果表明,该方法实现优越的性能最先进的skeleton-based动作识别方法。
1。介绍
人类行为的任务自动识别研究在过去的几十年里,计算机视觉研究的一个重要领域。它有许多应用程序包括视频监控、人机接口、体育视频分析和视频检索。尽管显著的研究成果,许多令人鼓舞的进步在过去的十年中,准确识别人类的行为仍然是一个非常具有挑战性的任务(1]。
在传统的RGB视频、人类行为识别主要侧重于分析时空时空卷卷和代表性。根据各种视觉时空的描述符,人类行为识别工作可以分为三个类别。第一类是本地时空的描述符。一个动作识别方法首先检测到有趣的观点(如煤断层[2]或[轨迹3),然后计算描述符(例如,猪/霍夫[2]和HOG3D [4基于当地运动检测卷)。这些地方特色相结合(如bag-of-words)来表示行为。第二类是全球时空模板,代表整个行动。提出了多种图像测量等填充模板,包括光流和时空方向(5,6)描述符。除了当地的和全面的表征方法,第三类是中级模型表示这一部分温和的行动的一部分。这里,提出了部分社区的时空(7,8)或一个空间关键帧(9]。这些表示试图平衡小片所展现出来的普遍性之间的权衡,例如,视觉单词,和大的特异性,例如,整体模板。此外,随着廉价RGB-depth传感器如微软Kinect (10),很多一直努力行动提取特征识别在深度数据和骨架。文献[11)代表每个深度帧包的3 d点沿着人体轮廓和利用嗯颞动力学模型。文献[12)学习半局部特性自动从数据有效的随机抽样方法。文献[13)选择信息最丰富的关节基于每个关节的歧视措施。灵感来自[14),Seidenari等人模型的运动人体使用运动链和执行行动由近邻分类器识别(15]。在[16),骨架序列表示为轨迹的维空间;然后这些轨迹是解释在黎曼流形(形状空间)。识别是最后进行使用神经网络分类杂多。文献[17)提取一组稀疏的活动关节坐标和这些坐标映射到低维线性流形之前训练SVM分类器。上面的方法一般提取骨架序列的时空表示与精心设计的手工制作的功能。最近,深度学习与发展中,一些递归神经网络(RNN)模型提出了采取行动的认可。为了识别行为根据四肢和躯干之间的相对运动,(18)使用一个端到端的层次RNN skeleton-based行动识别。文献[19)使用骨架序列调整学习的短期记忆(LSTM),这是通过接地深卷积神经网络(DCNN)到行动的视频识别。
最上面的方法依赖于整个视频序列(RGB或RGBD)来执行动作识别,在时空的卷总是选为行动的代表特征。这些方法将遭受敏感组内变异如颞规模或部分遮挡。例如,图1显示两个运动员执行一些不同的姿势,当潜水水,这使得不同时空的卷。出于这种情况下,本文我们试图回答的问题是一些不连续的主要骨架构成是否足以识别执行行动。据我们所知,这是一个未解决的问题,尚未系统地调查。在我们早期的工作(20.),已经证明了一些人类活动可以认识到只有几个不连续的和歧视RGB视频序列的帧。有关我们的工作,非常短的片段(9和歧视特定行为的补丁21)提出了具体行动的表示。然而,在我们的方法相比,这两种方法集中在连续帧。
本文提出了一种新型框架行动识别关键的骨架构成的选为代表的行动在RGBD视频序列。为了使我们的翻译方法更健壮,旋转,普罗克汝斯忒斯和扩展,分析(22)是进行三维骨架关节数据。然后,两两相对位置的三维骨架关节计算作为区别的特征来表示人类的运动。最后,关键的骨架构成,定义为最具代表性的骨架模型动作,开采的三维骨架视频的帮助下潜在支持向量机(潜在支持向量机)23]。在勘探早期的实验中,我们注意到不连续的键骨架构成的数量不小于4。在测试过程中,时间的位置和相似的关键姿势与行为的模型。该方法一直在评估三个基准数据集:MSR行动3 d (24]数据集,UTKinect行动数据集(25佛罗伦萨,3 d动作数据集(26];所有与Kinect设备捕获。实验结果表明,该方法实现了识别精度比几个现有的方法。本文的其余部分组织如下。提出的方法阐述了部分2包括特征提取、识别关键姿势矿业和行动。实验结果和分析部分所示3。最后,我们得出本文的部分4。
2。建议的方法
由于大动作的性能变化,外观,时间结构和运动线索展示大组内变异。所以选择不连续的和区别的关键姿势是一个有前途的方法来表示动作。在本节中,我们回答的问题是什么,以及如何找到区别的关键。
2.1。定义的关键姿态和模型结构
建议的方法的结构如图2。每个操作模式是由几个关键的姿势,和每个关键姿势模型将由三部分组成:()线性分类器可区分的关键构成,()时间的位置和偏移量,关键姿势最有可能出现在附近的半径为,()线性分类器的重量和体重的时间信息。
(一)培训
(b)测试
是一个视频,其中包含帧,在那里是th帧的视频。分数将会计算如下: 在这是关键的集合构成的视频吗,,。例如,是在图3(一个)。的总数是行动中的关键姿势模型;在我们的实验后,从1到20。的序列号是关键帧序列构成的视频。和定义如下: 在这框架的行动开始了。是一个高斯函数,达到峰值时。一直在手动标记训练集,发现的方法在一个测试将节中讨论2.4。
(a)的关键姿势喝是1,9日10日和28(主题1、行动喝、视频4,总32帧)
(b)的关键姿势站起来是1、3、10和11(主题1、动作站起来,视频21日总29帧)
(c)波的主要构成是4、7、8和12(课题2、操作波视频1,总共13帧)
(d)的关键姿势喝5,7,9,11(2,行动喝酒,视频3,共14帧)
2.2。特征提取和线性分类器
实时的帮助下骷髅估计算法,3 d的关节位置是用来描述人体的运动。方法(后1),我们也代表了人类运动关节的两两相对位置。
人类骨骼,关节位置由骨架跟踪估计算法,每个关节在每一帧有三坐标。普罗克汝斯忒斯的坐标归一化是基于分析(22),所以运动是不变的初始身体方向和身体大小。对于一个给定的框架,是关节的数目。这个框架的特性是 和特性是630维度(570两两相对位置的关节和60关节位置坐标)向量MSR行动3 d和UTKinect行动数据集。至于佛罗伦萨3 d动作数据集,这是一个360 -维向量。(选择替代特性表示将在实验结果讨论。)然后,我们训练一个线性分类器为每个关键姿势根据以下方程: 应该使用哪个框架的问题进行培训在部分将讨论吗2.3。
2.3。潜在的关键姿势矿业
很难决定哪些帧包含关键姿势,因为主要构成的空间太大了,列举所有可能的姿势。开明的,23),因为关键姿势训练数据中的位置是不明显的,我们制定学习问题作为一个潜在的结构性支持向量机,对关键姿势位置作为潜变量。
重写(1)如下: 在这被视为潜在的变量。给定一个标签组,在那里和目标是最小化目标函数: 在这是惩罚参数。后(23),模型是第一个初始化:和积极和消极的子集,模型初始化所示的关键帧的算法1。在算法1,和是积极的框架集和消极的框架集,分别。他们是用来训练线性分类器。为了初始化我们的模型,我们首先计算的特性th帧属于第一个视频样本。然后之间的欧氏距离和其他样品的帧的特点在附近的位置半径为在计算。帧的最小欧氏距离在每个样品中添加。然后用于线性分类器训练并选择的平均帧数。选择下一个关键姿势,选择基于的最低分数下一个循环;换句话说,th框架构成最不同于以前的关键是选择在接下来的循环。最后,所有和与线性支持向量机训练算法1就完成了。
|
||||||||||||||||||||||||||||||||||||||
一旦初始化完成后,该模型将迭代训练如下。首先,找到最优值受到在哪里为每一个积极的和更新视频例子的平均值,新的线性分类器训练与修改为每个关键姿势。第二,(6)优化,在那里随机梯度下降法。因此,模型被修改以更好地捕捉骨架特征为每个行动。
2.4。行动与关键姿势的识别
动作识别在实际视频的关键技术问题是我们不知道行动开始,和搜索起始位置在所有可能的地方都是需要花费很多时间。幸运的是,每个可能的起始位置的得分计算,分别。所以如OpenMP或CUDA并行工具可能是有益的。
给定一个测试视频与框架,首先,骨骼功能评分每一帧的提前计算以后我们可以重用它们。然后为每个可能的行动开始的位置,我们计算每个键构成的分数根据以下方程: 这些分数总结在一起的最后得分。如果最后得分大于阈值,然后开始一个动作已被发现和认可。图3显示了不同的操作关键姿势在佛罗伦萨3 d动作数据集。
3所示。实验结果
本节给出实验结果。首先,试图消除翻译,所产生的噪音,和旋转变化的骨架构成,我们普罗克汝斯忒斯的数据集预处理分析(22]。行动,我们进行实验识别UTKinect普罗克汝斯忒斯有或没有分析数据集演示普罗克汝斯忒斯的有效性分析。第二,选择适当的特征提取根据实验结果从四个现有特征提取方法在佛罗伦萨3 d动作数据集。第三,定量实验进行选择不连续的关键姿势的数量。最后,我们评估我们的模型和比较它与一些先进的方法三个基准数据集:MSR行动3 d数据集,数据集UTKinect行动,和佛罗伦萨3 d动作数据集。
3.1。数据集
(1)佛罗伦萨3 d动作数据集。佛罗伦萨的3 d动作数据集(26)收集佛罗伦萨大学在2012年,使用Kinect摄像头捕获。它包括9活动;10个受试者被要求执行上述操作两到三次。这导致样本共计215活动。每一帧包含15骨架关节。
(2)MSR行动3 d数据集。MSR行动3 d数据集(11)由骨骼数据获得的深度传感器类似于微软Kinect。数据捕获15帧每秒的帧速率。每个操作是由10个主题在一个无约束的两到三倍。包括行为的集合高臂波,横臂波,锤,手抓,向前冲,高抛,画 ,画勾,画圆,手拍,双手波,一边拳击,向前踢,侧踢,慢跑,网球挥拍,网球发球。
(3)UTKinect行动数据集。UTKinect行动数据集(24)被使用单一静止的Kinect,包含10个动作。每个操作执行两次10受试者在室内设置。三个同步通道(RGB、深度和骨架)记录每秒30帧的帧速率。10行动走,坐下来,站起来,接,携带,扔,推,拉,波的手,拍手。这是一个具有挑战性的数据集由于巨大的变化角度和高组内变异。所以,这个数据集用于验证普罗克汝斯忒斯的有效性分析(22]。
3.2。普罗克汝斯忒斯数据预处理与分析
骨架给定视频的每一帧中的数据通常由一个固定数量的预定义的关节。关节的位置是由三个坐标。图4显示了MSR的骨架定义行动3 d数据集。它包含20个关节可以由他们的坐标表示。关于视频的原始人类骨骼的功能并不是一个好的选择考虑到skeleton-rotation的本质,缩放和翻译。所以,在实验之前,我们应该正常化普罗克汝斯忒斯的数据集的分析。
普罗克汝斯忒斯的统计数据,分析是一种统计形状分析用于分析一组的分布形状和被广泛应用于计算机视觉领域,如人脸检测。在本文中,它是用来使骨骼关节和消除噪声欠旋转,缩放,或者翻译。普罗克汝斯忒斯的细节分析将描绘未来。
给定一个骨架数据关节,第一步是与翻译转换过程中关节。我们计算均值坐标所有的关节和放在坐标的原点。翻译完成后每个关节坐标减去均值坐标方程表示。扩展的目的是使均方根的关节坐标相当于1。对于骨骼关节,我们计算根据以下方程: 和扩展计算结果如下:。骨骼的旋转是普罗克汝斯忒斯的最后一步分析。消除旋转更复杂,作为标准参考方向并不总是可用的。是一组标准骨架接合点,表示一个动作面对积极的方向x协调轴。的平均坐标放在原点坐标和坐标的平方根是1。然后我们计算旋转矩阵为骨架扩展和改造所提到的方法(9),是33矩阵。与正交奇异值分解吗和和对角。和旋转矩阵等于矩阵乘以矩阵变换。最后,骨架接合点可以与通过计算乘以。
我们跟着的视域测试设置30.普罗克汝斯忒斯]UTKinect数据集上测试的有效性分析。结果显示在表中1。很容易看到,几乎所有行动的识别率提高预处理后骨架普罗克汝斯忒斯联合点分析。特别是,行动的识别率是提高了。原来的平移、缩放和旋转的人类行为骨架普罗克汝斯忒斯视频影响识别准确性和分析是一种有效的方法来消除几何变换的影响。
3.3。特征提取方法的选择
与深入研究行动识别基于骨架,有许多有效的特性表征。我们选择四个(两两1),最丰富的关节角序列(MIJA) [31日),3 d关节的直方图(HOJ3D) [24),和序列最丰富的关节(SMIJ) [13)作为替代特征表示。
给予是一种骨架,在这。成对表示计算如下:对于每一个关节,我们提取两两相对位置特性通过关节的位置之间的区别和另一个共同的立场:,这样的特点是。由于信息量的关节,我们对这个表示连接和。然后新功能。
最丰富的关节角序列作为关节角特性(MIJA)表示。关节的运动轨迹的形状编码当地运动模式为每一个行动。它选择使用11的20个关节动作捕捉信息和中心骨架,用臀部中心联合作为原点的坐标系统。从这个起源,向量的3 d计算各关节的位置。对于每一个向量,它计算角度它的投影x- - - - - -z飞机与积极设在和角之间的矢量和设在。每个关节的功能包括两个角。
直方图的3 d关节(HOJ3D)表示选择12歧视20骨骼关节的关节。需要臀部中心为中心的参考坐标系统和定义根据左和右臀部方向。其余8关节用于计算三维空间分布图。球坐标空间分区84箱。对于每个关节的位置,一个高斯加权函数用于3 d垃圾箱。每一本中选票计数和连接它们,我们可以得到一个84维特征向量。
序列最丰富的关节(SMIJ)表示还需要关节角功能,但它不同于MIJA。它分区关节角动作序列的时间序列的数量相等的时间片段和计算的方差各关节的关节角时间序列在每个时间。6最变量在每个颞关节部分选择提取和映射函数特性。在这里是一个函数,将标量值的时间序列映射到一个标量值。
为了找到最优特性,我们进行一个实验佛罗伦萨3 d动作数据集,每一个视频很短。我们估计其他5关节坐标从原来的15关节在佛罗伦萨的每一帧数据集一样的关节数量的每一帧MSR行动3 d或UTKinect数据集。跨学科实验需要测试设置;一半的数据集是用来训练的关键构成模型,另一个是用于测试。普罗克汝斯忒斯模型有4个关键姿势和分析特征提取之前已经完成。结果如图5。两两特征的总体精度在10行动比SMIJ和MIJA。可以看出,为所有操作除了坐下来,站起来,成对表示显示了有前景的结果。在以下的实验中,我们选择成对特性进行动作识别实验。估计关节坐标产生更多的噪音,所以结果准确性低于原始佛罗伦萨3 d动作数据集(如表所示6)。
3.4。选择的关键构成数字
在本节中,我们实现一些实验来确定有多少关键姿势识别所必需的行动。实验结果如图所示6;横轴表示关键姿势的数量,和纵轴表示建议的方法的识别精度。主要构成的数量范围从1到20。我们可以看到,增加准确性的关键姿势当数小于4。准确率几乎达到最大值时的关键姿势= 4,和准确性并不会增加当关键姿势的数量超过4。考虑精度和计算时间,4是选为关键姿势识别动作的数量在我们下面的实验。
表2只列举了识别精度为每个行动UTKinect行动数据集时,许多重要的构成范围从4到8。可以看出,识别精度随不同的一个动作的关键姿势数。然而,平均识别精度几乎是相同的和不同的关键姿势数,所以4是高成本效益的选择。
3.5。结果MSR行动3 d数据集
据李等提供的标准协议。11),数据集被分为三个子集,表所示3。AS1和AS2是为了集团的行为类似的运动,而AS3意在组一起复杂的行为。例如,行动可能是困惑在AS1和行动皮卡&扔在AS3的组合和高抛在AS1。
跨学科我们评估我们的方法使用测试设置:5个科目的视频被用来训练我们的模型和视频的其他5个受试者被用于测试程序。表4说明了AS1结果,AS2 AS3。我们比较性能与李et al。11夏,et al。24),和阳,田25]。我们可以看到,我们的算法达到相当高的识别率比李et al。11AS1]在所有的测试设置,AS2, AS3。AS2,该方法的准确率最高。AS1或AS3,我们的识别率仅略低于夏et al。24)或阳,田25),分别。然而,我们的方法在所有三个子集的平均精度高于其他方法。表5显示了MSR行动结果3 d数据集。该方法的平均精度达到90.94%。很容易看到我们的方法执行比其他六个方法。
3.6。结果UTKinect行动数据集
UTKinect数据集,我们遵循的视域测试设置30.),其中一半的受试者是用来训练我们的模型,另一个是用来评估模型。我们比较模型与夏et al。24)和氮化镓和陈30.]。图7总结了我们的模型的结果以及竞争UTKinect数据集的方法。我们可以看到,我们的方法达到最佳性能等三个操作拉,推,扔。最重要的是,我们的方法的平均精度达到91.5%,比其他两种方法(90.9%和91.1%夏et al。24)和氮化镓和陈30.),职责)。等操作的准确性拍手和波的手是不太好;原因可能是事实,这些行动的骨骼关节运动范围是不足够大,骨架数据含有更多的噪音。所以,它阻碍了我们的方法找到最优关键姿势和降低了精度。
3.7。结果在佛罗伦萨3 d动作数据集
我们遵循leave-one-actor-out协议由原始数据收集器在佛罗伦萨建议3 d动作数据集。9的所有序列的对象用于训练,而剩下的一个是用于测试。对于每一个主题,我们重复这个过程,最后平均10分类精度值。与其他方法进行比较,识别精度也计算平均行动。实验结果如表所示6。在每一列中,数据代表了每个操作的识别精度,而相应的科目是用于测试。这个数据集的挑战是人造物的交互和不同的方法执行相同的操作。通过分析实验结果的方法,我们可以注意到,该方法对大多数的行为获得很高的精度。我们的方法克服了困难组内变异,如弓和鼓掌。该方法得到较低精度的行动如接电话和看手表;这可以解释为这些行为是人造物与小范围的运动和两两交互功能不能反映运动。此外,结果与其他方法相比,表中列出7。很明显,我们的平均精度比Seidenari et al。15),是一样的Devanne et al。16]。
4所示。结论
在本文中,我们提出了挖掘基于骨架的动作识别的一种方法与潜在支持向量机骨架构成的关键。实验结果表明,人类活动只能被几帧与关键框架构成;换句话说,一些不连续的和代表骨架构成可以描述视频的动作。从特征提取使用成对关节的相对位置,位置的帮助下发现的关键构成潜在的支持向量机。然后用积极和消极模型迭代训练视频的例子。在测试过程中,一个简单的方法是通过计算每个起始位置识别的分数。
我们验证模型三个基准数据集:MSR行动3 d数据集,UTKinect行动数据集,数据集和佛罗伦萨3 d动作。实验结果表明,我们的方法优于其他方法。因为我们依赖于描述符提取方法简单的关节的相对位置,性能就会降低,当行动多变和不提供信息的,例如,这些行为只在前臂演出手势等拍手数据集在UTKinect行动。在未来,我们将探索其他地方特色反映小运动更好地理解人类行为。
相互竞争的利益
作者宣称没有利益冲突有关的出版。