文摘

人类行为识别是一种重要的人类行为识别的研究领域。专注于遮挡的问题领域的人类行为识别,提出了一种新的自适应闭塞状态行为识别方法基于马尔可夫随机场和概率潜在语义分析(向量)。首先,利用马尔可夫随机场方面表示人体器官之间的遮挡关系相空间的闭塞状态变量。然后,我们提出了一种分层区域各种模型。最后,我们使用主题模型的查询词识别人类的行为。实验进行了k、魏茨曼和Humaneva数据集测试和评估方法。对比实验结果表明,该方法能实现比相比,更有效的方法。

1。介绍

自动识别人类活动的视频是一个具有挑战性的问题,引起了研究人员的关注在最近几十年。它已经应用在许多领域,如娱乐、虚拟现实、动作捕捉、体育培训(1)、医学生物力学分析、人机工程学分析,人机交互,监测和安全、环境控制和监控,和病人监护系统。

阻塞状态识别传统解决了应用统计预测和推理方法。不幸的是,基本数值方法已被证明是不够的在处理复杂闭塞场景呈现对象之间的交互(例如,遮挡,工会,或分离),修改的对象(如变形),和现场的变化(例如,照明)。这些事件是很难管理,经常导致跟踪错误,如跟踪不连续,跟踪标签不一致。

图形结构的方法(2),代表人类的身体作为一组矩形区域,不考虑闭塞。Sigal et al。3)认为,遮挡问题可以减少一个occlusion-sensitive可能性模型。如果occlusionstates(即这个方法行得通。,部分的深度排序)是已知的;例如,如果它是在运动的开始,然后指定不随时间变化。但在实践中,对象的深度顺序器官,右手臂、躯干。2 d人类姿态估计是困难的,因为图像的噪声(如光照和背景杂波)、遮挡、和人类外表的品种(即。、服装、性别和体型)[3- - - - - -5]。估计和跟踪3 d人体姿势是更具挑战性,因为大状态空间人体的3 d和3 d的间接知识深度(6]。相比之下,我们的方法着重于遮挡。在所有上述方法建模估计提出了从静态图像,仅存在有限的研究在相同的任务视频。郭et al。7]应用弓模型与人类行为识别的视频序列。Niebles et al。8)成功地应用这个模型对人类行为的视频序列进行分类。小王和森9)指定一个图像序列的每一帧的视觉词分析它所包含的人的运动。Sy et al。10)应用CRF隐藏状态结构来预测人类的手势的整个序列的标签。Sigal et al。3]遮挡处理PS框架建模为一组约束阻挡部分,执行后提取背景减法,使它不适合动态背景场景。

我们的工作是文献[3,7,9,11)通过产生一个铰接框架构成估计健壮的杂乱背景和遮挡不依赖背景减法模式。整流的一步阻挡身体部位通过探地雷达模型受到最近的工作就是为了et al。12]谁探地雷达用于建模参数之间的对应关系面临不同的人的模型。我们的问题是更加困难,因为人体包括多个参数修正和自由度比脸。

为了克服上述缺点,我们提出了一种自适应遮挡状态识别方法估计不仅每个人都配置还遮挡的身体部位。

首先,利用马尔可夫随机场代表之间的遮挡关系人体器官的闭塞状态变量由相空间。然后,我们提出了一种分层区域各种模型。最后,我们推导出人类行为向量。实验对人类伊娃数据集进行测试和评估算法。实验结果表明,该方法识别有效的行动。

2。人类轨迹重建

树结构的运动人体骨架结构使用创建视觉不变量模型(13),人体分为15个要点;即15联合点代表了人体的结构,和15个关节轨迹代表人体行为,然后使用马尔可夫随机场(MRF)通过计算观察、空间关系和运动关系,最终决定了遮挡身体关节的位置和恢复丢失的轨迹。下面介绍具体步骤。

马尔可夫随机场(MRF)是使用一个状态变量,表示身体部位之间的遮挡关系。正式,磁流变液是一个图 ,在那里 组节点和 边的集合。图节点 代表人体部分和图像边缘的状态 模型各部分之间的关系(11]。指定的概率分布在这张图表的潜力定义集合的边缘。磁流变液结构参数定义如下: : th联合点坐标; :身体的提取关键点15; : th关节可见部分,该参数用于确定节点之间的遮挡关系。当阻塞发生时,轨迹之间的交叉 :15身体关节之间的遮挡关系。当 = 0, th和 关节不堵塞。当 = 1, th锢囚 th。当 =−1, th挡住 th; : th咬合关节节点;然后,潜在的运动学关系的计算如下:

这个函数显示两个相邻关节的位置,和关节之间的角度。

Eucidean两个相邻关节之间的距离。 是正态分布 = 0和标准偏差

:阻塞区域属于关节; :如果 联合被挡住, = 1,如果 联合并不闭塞, = 0; :输入图像; 指标重叠部位; :潜在的观察; :潜在的颜色; :潜在的优势; 的运动状态 ( th可见区域的身体关节); 的运动状态 ( th身体关节)闭塞的地区; :潜在的观察; :潜在的运动学关系; :时间关系的潜力。定义一个模式,类似于(12计算三个势函数如下。

首先,我们观察潜在的功能:

颜色的潜力 第一项在哪里吗 发生概率的颜色在可见区,第二项是闭塞的地区。可见项是为制定 在哪里 是像素的颜色的分布 前景和背景。 计算如下: :阻塞区域是由计算重叠区域 , 是所有阻塞节点的总和。

= 1, ,在那里 是低和上限之间的运动区域 由运动机能学定义的。

最后,潜在的计算时间的关系如下: 在哪里 是动态的 在前面的步骤和时间 是一个对角矩阵的对角元素是相同的吗 ,类似于高斯分布。

本文模型的后验分布 条件在所有输入图像到当前的联合 结构、当前时间步 和闭塞状态变量 在哪里 是归一化常数。

总之,我们把 , , 到(4),并让身体阻挡关节位置, 在哪里 接头位置 时间。

锢囚关节之间的关系可以通过公式(2)。 在哪里 位置 时间。

闭塞的关节可以计算磁流变液在整个运动的时间。在这篇文章中,我们连接丢失的数据为了恢复丢失的坐标位置。

3所示。特征表示

人类行为可以认定层次区域模型、相对速度和相对加速度。

3.1。层次区域模型

用于描述人体运动姿势(例如:慢跑、跑步、和行走),我们利用层次区域模型和提取人类的面部区域 ,上肢区域 和腿 。人类的面部区域 在以下方式中提取。(1)根据精明的算法,提取每个面部轮廓点集,和表示 ,在那里 轮廓点的数量。(2)可以最小平方拟合轮廓 在步骤1中获得的。(3)根据步骤1和步骤2,如果身体运动面前,面对面积是最大的,如果人类横过来,面对区域将会改变。因此,面对区域协调 在哪里 是一个框架, 脸的轮廓在所有的帧, 是所有帧中的等高线集。(4)重复步骤1 ~ 3,端面面积可以计算出各帧。

计算 类似于

1曲线表明,一些行人行走的区域特征。图1(一)的面积变化曲线吗 。图1 (b)的面积变化曲线吗 。图1 (b)的面积变化曲线吗

3.2。相对速度和相对加速度

我们可以得到的相对速度和相对加速度轨迹的每个关节。

每个点的体重可以被认为是相同的,并建立统计模型计算相对运动关节之间的相对速度和相对加速度(例如,手和腿)为了运动的初始状态的原因。

在哪里 之间的相对速度吗

area-velocity善良的 得到遵循。T1:慢跑、Δ (左膝盖,右膝),Δ 左脚,右脚,Δ (右膝,右脚)Δ (左脚,左脚踝),Δ (右脚,右脚踝)> 1,Δ (左脚,左膝)> 2。T2:跑步,Δ (左脚,左膝盖),Δ (右脚,右膝),Δ (左脚,左脚踝),Δ (右脚,右脚踝)> 3,Δ (左脚,左膝盖),Δ (左脚,右膝),和Δ (左脚,右脚)> 4所示。T3:走,Δ (左脚,左膝盖),Δ (右脚,右膝),Δ (左脚,左脚踝),和Δ (右脚,右脚踝)> 5。T4:跳,Δ (左脚,左膝盖),Δ (右脚,右膝),Δ (左脚,左脚踝),Δ (右脚,右脚踝)> 6,Δ (左脚,左脚踝),和Δ (右脚,右脚踝)> 7所示。T5:拳击、Δ (左脚,左膝盖),Δ (右脚,右膝),Δ (左脚,左脚踝),Δ (右脚,右脚踝)> 8,Δ (左手,左肘),Δ (右手,右手肘),Δ (左脚,左脚踝),和Δ (右脚,右脚踝)> 9。

阈值 经验确定为1.5,40岁,5.5,60岁,3.5,5.0,7.0,30。

我们集群提取功能,满足阈值条件,并提取操作的典型行为数据集以一个标准动作:慢跑、跑步、散步、跳和拳击。以上5种常见动作分解,得到关节之间的相对速度,当一些行动发生。操作,例如,一个慢跑的相对速度的左腿和右腿,左腿的相对速度比其他人更和左膝关节。

3.3。电报密码本配方

为了构建电报密码本,我们使用 ——集群算法基于欧氏距离的所有特性(层次区域模型、相对速度和相对加速度)从培训中提取帧。每个集群的中心被定义为一个码字。所有中心集群产生的码书训练帧向量模型。框架的培训视频或在测试视频被分配到一个特定的码字的电报密码本帧的最小欧氏距离。最后,bag-of-words中的视频编码方式,也就是说,一个视频使用密语的柱状图表示,消除了时间信息。

4所示。pLSA-Based人类行为识别

向量是一个协会的统计生成模型文件通过潜在的主题和语言变量,代表每个文档主题的混合物。我们的方法在论文中使用单词表示的包(14- - - - - -16]。不同的是,我们使用本地时空层次区域模型的最大价值,相对速度和相对加速度作为我们的特性。我们假设单词是独立的时间秩序的空间秩序,但相关的 ——聚类方法的功能可能会导致不匹配的单词。类似的地方特色出现在不同的位置可能会聚集在一起。当我们计算词的频率,出现不匹配。和这一现象可能减少分类方法的精度。为了解决这个问题,我们将空间信息分配给每个单词。在分类方法中,我们使用向量模型来学习和认识人类行为。

在行动中分类,主题变量 对应于操作类别,每个视频 可视为一个时空集合词呢 。视频的联合概率 、动作类别 和时空词 可以表示为 在哪里 的概率是单词 发生在行动范畴 , 的概率是主题 发生在视频 , 可以被视为先验概率的 。的条件概率 可以通过在所有主题变量边缘化 : 表示 词的出现 在视频 的先验概率 可以建模为 最大似然估计 通过最大化函数采用期望最大化(EM)算法,图模型如图2。客观的EM算法的似然函数是: EM算法包括两个步骤:一个期望(E)步骤计算潜在变量的后验概率,并最大化最大化(M)一步完成数据计算基于后验概率的可能性从E-step获得。这两个步骤将EM算法的查询参数估计下面列出。

E-step:鉴于 估计

M-step:考虑到估计 E-step, ,估计

在人类运动分类的任务,我们的目标是将一个新的类视频到一个特定的活动。在推理阶段,给定一个测试视频测试,文档特定系数

我们可以把向量模型作为一个类的各个方面的活动。活动分类是由方面的最高 。动作类 确定是 在这篇文章中,我们对待每一帧视频中作为一个词和一个视频文件。的概率分布 的概率可以被看作是每个类标签的新视频。培训步骤中的参数定义一个词的概率 从一个方面 。上述标准EM训练程序查询词来代替 在每一次迭代时的最佳可能的值。

动作识别与大量的训练数据,这将导致训练时间长。介绍了EM的增量版本加快训练向量在不牺牲性能的准确性。假设观测数据是相互独立的,我们建议增量EM算法提出了算法1

算法1。增量向量参数估计的EM算法如下。(1)输入;(2) ——数量的行动分类;(3) ——数量的培训视频;(4) ——每个子集的视频数量;(5) ——码书大小的时空的话,(6)输出;(7) ;(8) ;(9)E-Step;
对所有 ,计算 对所有 对和 计算 M-Step:计算如下: (10)重复E-steps和M-step直到满足收敛条件;(11)计算活动的类

5。实验结果

5.1。数据集

我们测试我们的算法对两个数据集:魏兹曼科学人体运动数据集(17),k人类行为数据集(18,19],HumanEva数据集(3,20.]。所有的实验都是在奔腾4机2 GB内存,使用MATLAB实现。数据集和相关的实验结果提出了以下部分。

k数据集是由Schuldt包含25 2391视频序列显示六个动作演员。在4种不同的场景中每个操作执行。

魏兹曼科学数据集是由空白包含93个视频序列显示9个不同的人,每个执行十操作,如跑步,走路,跳跃,跳爆竹,jump-forward-on-two-legs, jump-in-place-on-two-legs,疾驰,wave-two-hands wave-one-hand和弯曲。

HumanEva数据集(3,20.)是用于评估。它包含六种不同的运动:散步、慢跑、手势,拳击和组合。

为了评估和相当的性能进行比较,我们使用相同的实验设置21,22]。为每个数据集,12个视频序列由四个科目(五)用于训练,剩下的三个视频进行测试。实验重复5次。

不同方法的性能显示使用平均识别率。我们报告的总体精度三个数据集。为了评估阻塞状态估计的性能和重建缺失的坐标位置,我们地面上手写真理阻塞状态的测试动作。图3显示了如何指定阻塞状态的地面实况。

5.2。比较

k数据集。它包含六个类型的人类行为(散步、慢跑、跑步、拳击、手挥舞着,和手鼓掌)执行几次25个学科在四个不同的场景:在户外,outdoorswith规模变化,与不同的衣服,户外和室内。代表帧的数据集在图所示4(一)。恢复丢失的coordinateposition的过程后,我们使用该方法,theclassification k数据集通过这种方法得到的结果如图所示5并指出非常少量的视频,特别是行动,“运行”和“鼓掌”,更倾向于被搞糊涂了。

魏兹曼科学数据集。魏兹曼科学人类行为数据集包含83个视频序列显示9个不同的人,andeach执行九种不同的操作:弯曲(a1),跳爆竹(a2)障碍物向前两条腿(a3),用两条腿跳到位(a4),运行(a5),飞驰的横向(a6),步行(a7),挥舞着一只手(a8),挥舞着两只手(a9)。

和稳定跟踪的数据通过使用背景减法面具,这个数据集。一些示例框架如图4 (b)。通过这种方法的分类结果图所示6

HumanEva数据集。HumanEva数据集用于评估,如图4 (c)。它包含五个不同的运动:散步(a1),慢跑(a2)、手势(a3)拳击(a4)和组合(a5)。运动是由四个主题和记录的七个摄像头(三个RGB和四个灰度相机)与地面实况数据的人工关节。通过这种方法的分类结果图所示7

在这篇文章中,我们确定慢跑、跑步、散步和拳击和比较该方法与文献的四种最先进的方法:空白等。18陆,et al。19]Sigal et al。3),常et al。20.),胡安·卡洛斯Niebles [21在三个数据集。如表所示1,23,现有的方法,识别精度较低,因为这些行动不仅是闭塞的情况是复杂的,但腿也复杂,运动和另一组动作。该方法可以克服这些问题,识别准确性和精度高于平均的比较方法。

实验结果表明,本文中提出的方法可以得到满意的结果,明显执行比平均精度的(3,18- - - - - -21),由于实用方法采用。

6。结论和未来的工作

在本文中,我们提出了一种自适应闭塞3 d人体运动状态估计方法。

我们的方法成功地识别没有假设已知和固定深度顺序。该方法可以有效地推断出状态变量,因为它把估计过程到身体配置估计和闭塞状态估计。更具体地说,在闭塞状态估计的步骤,首先,我们代表3 d重建人类轨迹重建人类造成咬合关系,检测身体部位有遮挡关系使用重叠的身体部位通过使用马尔可夫随机场(MRF)的状态函数。最后,我们使用主题模型的查询词进行分类。实验结果表明,该方法成功地估计阻塞状态的遮挡,平均精度约为92.5%,90.1%,和91.4% k数据集,魏兹曼科学数据集,数据集和HumanEva分别比其他方法更好的(3,18- - - - - -21]。

我们推测,该方法可以扩展跟踪姿势(两个或两个以上)相互作用的人。跟踪提出了互动的人,然而,将涉及更复杂的问题,如处理更多的变速运动,inter-person遮挡,和可能的外观相似的不同的人。

利益冲突

作者宣称没有利益冲突有关的出版(如经济利益)。

确认

这一研究工作是由中国自然科学基金会的拨款(没有。50808025)和中国教育部博士基金(批准号20090162110057)。