文摘

基于三维泊松方程,本文提取的特征数字视频人体动作序列。通过求解泊松方程的轮廓序列,时间和空间特性,时间和空间结构特征,形状特性,可以获得和方向特性。首先,我们使用三维时空中的轮廓结构特点和方向特征轮廓的三维轮廓序列的时空代表地方特色和使用3 d泽尼克时刻特性来代表整体轮廓的特征序列。其次,我们将贝叶斯分类器和演算法分类器学习和分类的特点人类行为序列,魏兹曼科学视频数据库上进行实验,进行多种实验使用分类样本的方法和选择部分的组合训练。使用动作捕捉的识别算法,上述过程后,获得了三维模型和匹配模型在三维模型数据库中,序列的最小距离计算,和相应的骨架和动作捕捉的结果输出。在实验过程中,基于大学人体运动跟踪方法匹配内核(EMK)图像使用内核描述符;规模不变的操作符是用来计算多个训练图像的特点,最后,在高维特征空间映射到低维的特征空间近似高斯内核。基于上述分析,主用户网络环境的先验知识。实验结果表明,本文方法能有效地提取人体运动的特点,为弯曲良好的分类效果,英尺跳,垂直跳跃,挥舞着,和其他运动。由于内核空间中的数据的线性可分性,快速执行线性插值回归特征在特征空间,大大提高了鲁棒性和准确性的估计图像序列中的人体运动姿势。

1。介绍

获取和分析各种参数的人类运动视频图像信息是多学科融合的一个重要研究方向。其研究的核心是检测和跟踪人体从一个或多个视频序列,获取人体运动数据,重建的人体三维运动或描述和理解人类的运动(1]。视频人体运动分析的研究领域有广阔的应用前景的人类动画、游戏、虚拟现实和增强现实技术,人机交互、视频监控、体育运动分析、辅助临床医疗诊断(2- - - - - -5]。由于相对轻松地习得和广泛的应用,许多现有的视频人体运动跟踪研究致力于跟踪人体运动图像序列的获得一个相机。大部分的这些方法都是基于从图像帧中提取人体的不同特性的匹配和跟踪。用于跟踪的特征通常是点,区域(图像块),或轮廓。还有一个类的方法,使用基于模型的运动分析的框架来设计不同形式的三维人体模型对单目视频跟踪人体运动(6]。

人体运动的视觉分析人机交互具有广阔的应用前景,视频会议、医疗诊断、虚拟现实等,使其成为一个前沿方向,近年来吸引了研究者的注意(7]。视觉分析的主要目的是探测、识别和跟踪人体从一组图像序列包含人,理解和描述其行为。一般来说,这个过程可以分为底层视觉模块级视觉,数据融合模块,和高级视觉模块。其中,底层视觉模块主要包括运动分析方法运动检测、目标跟踪等;数据融合模块主要解决摄像机实现数据的融合处理:off-layer视觉模块主要包括运动目标识别和语义理解和描述信息(8- - - - - -11]。

本文主要关注关键技术如二维采集人体运动姿态的单目视频和三维重建。工作集中在获取的三维人体运动的单目视频图像包含人类运动和恢复人体的三维运动所代表的共同框架模型。人类行为行为分析的前沿方向之一,吸引了更多的关注近年来计算机视觉领域的。人体运动的视频可以被看作是一个组合的不同动作移动的躯干和四肢。分析和研究三个部分的运动人体目标检测,特征提取的人类行为序列,和人类行为的学习和分类功能根据的顺序分析人类行为的行为。因此,有可能对人体的运动技术进行研究,人体运动规律,和运动能力,这将帮助设计师做出合理评价人类工程学因素在早期设计阶段,减少返工和生产设计的物理原型,并缩短设计过程。此外,将数字人体模型在虚拟生产环境可以解决人类工程学的实际问题,如可访问性、安全分析和标准化的操作工人在生产和装配操作的行为。

在大量的研究实验中,人类运动的分析和识别主要包括三个方面:人体目标的结构分析,运动目标的检测和跟踪,和人类运动的分析和识别基于图像序列。这三个方面是相互促进的。使用的结构模型是通过人体结构的分析。人体目标检测和跟踪的视频中基于人体结构模型获得的一系列动作图像序列的人体结构模型,最后序列进行分析和识别。

Keceli [12)围绕每个行人一个矩形框架和选择矩形的中心点帧的跟踪特性。在跟踪过程中,当前位置估计的中心点的位置在前面的帧。如果有遮挡,只要质心的速度可以区分,跟踪仍然可以成功地进行。斯图尔特et al。13)也提出了一个系统来跟踪人体的二维平移运动。从静态或改变背景图像,恢复的运动前景图像估计通过匹配背景图像中的线段,最后,边界框的中心是用来实现跟踪。李的人体跟踪系统et al。14)使用运动轮廓的角点作为相应的功能。这些特征点使用距离度量基于位置和曲率进行连续帧之间的正向和反向匹配。这种匹配过程已经隐式地假定一定程度的刚度在人类连续帧之间的运动和小运动,所以适用性大大限制,特征提取本身也是困难的。布莱尔et al。15]扩展提出运动估计框架,介绍了联合链约束在机器人控制。使用指数映射,将它集成到偏微分方程,跟踪解决问题是减少到一个简单的线性系统。他们的方法可以从凌乱high-degree-of-freedom人体关节运动跟踪视频序列与明显的噪音。用户需要手动标记初始帧,然后程序自动跟踪它。

乔治奥et al。16)使用一个2 d带模型来代表人类的身体,和一个带状区域代表身体的某一部分。在模型中,5 u型带状区域是用来构造人体,代表了人类头部和四肢。输入灰度图像序列,我们首先分割前景运动目标。在此基础上,每个区域是通过区域检测和描述的抽象过程,和检测带状区域是逐帧跟踪。然后,带状人体模型用于匹配这些跟踪区域,和适当的区域标记为人类的头,胳膊和腿。最后,一个二维的人类骨骼序列可以作为输出。Pfinder(人肉搜索)系统作为人体组成的小面积对应于头部,躯干、四肢、等,并利用高斯分布建立统计模型的这些小区域和背景。映射表是用来表示归因的僵尸,和小面积的位置是由像素在图像帧的归因。他们用这样的小面积特性进行室内单人运动跟踪(17]。规则是一个实时的视觉监控系统跟踪多个室外环境和监控他们的行为。在单眼灰度视频或红外视频,多个人和他们的头,手,脚,和躯干位于通过区域形状分析和跟踪建立每个人的外观模型实现多人的跟踪(18- - - - - -20.]。

3所示。建设数字视频人体运动信息提取模型基于三维泊松方程

3.1。分布的三维泊松方程的解集

通过计算U的二阶偏导数的三维泊松方程,可以提炼出每个部分的局部定位信息,从而将人体分成部分有不同的取向。海赛矩阵构造对于每个像素可以大致估计在每个像素的二阶时空特征。图1的分布是三维泊松方程的解集。

海赛矩阵的特征向量代表当地主方向的像素点,和海赛矩阵的特征值代表了当地的曲率点对应的特征向量的方向。

与RGB颜色空间相比,HSV颜色空间更接近人眼的视觉模型,可以更直接地反映颜色的亮度信息,所以使用HSV颜色空间可以更好地表示阴影部分和移动的目标之间的差异。背景图像,我们第一次初始化HSV颜色空间模型,然后对每个像素进行比较的前景区域检测到相应的背景像素的每一帧图像。

背景建模、单高斯模型或者可以使用混合高斯模型。混合高斯模型通常使用3到5个高斯模型来描述图像中每个像素的特征。每个单高斯模型都有自己的不同重量和优先级。这些高斯模型更高优先级最低的秩序。

混合高斯模型的背景模型更新,除了每一个高斯分布的方差和均值,需要更新他们的重量和优先级。较复杂的高斯混合模型的计算,单高斯模型的计算相对简单,单高斯模型是适合的场合用单一不变的背景。

多重网格方法的主要特点之一是纠错过程在粗网格层可以递归地进行。我们在网格上进行迭代,然后减弱介绍频率成分。

当二维图像坐标是已知的,这个反向通信不会有独特的观点,解决方案空间是一条直线。它也可以从透视投影的针孔模型,得到一条直线通过连接相机的光学中心和成像点。这种歧义从2 d到3 d建模时由于问题本身的发病率,所以我们的困难在于如何使用一些先验知识来消除这种歧义。人体运动序列分成几个子序列,除以干扰的解决方案是删除。

3.2。数字视频算法流

在处理数字视频,如果我们使用 ,两个摄像头观察到这一点 同时可以确定这一点 - - - - - -照相机图像,和点 - - - - - -相机图像的成像点相同的对象 在各自的图像(也称为对应点);然后,我们可以知道,空间点 坐落在 也是位于 包括系统的状态转移概率矩阵和系统代价函数。

因此,点 是两条射线的交点。如果已知几何位置的两个摄像头,摄像头是线性的,那么物体在空间的位置可以通过三角测量原理计算。上述差异描述符提取和检测功能,检测主要是由于不同后处理中使用的预测和不同的判别标准,导致原始特性的检测问题。运动跟踪的问题是不同的。图2数字视频的流结构算法。

经过多次循环处理,网格变厚一层一层地,直到最厚的层。在这个时候,各种频率成分已经减弱,然后,我们开始从最厚的网格,然后返回到细网格。最后,我们获得最好的网格解决方案所需的方程。因此,多栅的方法需要一个迭代的解决方案在一系列不同大小的网格。

每次迭代的粗网格提供了一个更精确的误差校正结果的下一层细网格。的多栅的V-cycle算法,在每一个周期中,只有一个迭代(presmoothing)之前执行错误残留是有限的下一层粗网格,和插值误差校正结果返回。

只有一个迭代之前,细网格层(postsmoothing)。关节的二维图像坐标点和已知的深度坐标的三维人体骨架模型的骨架图像序列中手动。然后,使用的先验数据透视投影关系和人类骨骼的长度,每个三维特征点的坐标在人类模型解决,和三维人体运动骨架序列建立了透视投影。这个方法并不是针对特定人类运动模式(简单运动模式行走、跳跃等)和可以分析大型运动人体的各个部分在一个复杂和不断变化的背景和运动具有丰富的资源信息。

3.3。人类运动信息的提取

一旦确定人体运动信息的对应关系,由这些对象的位置点像点在空间中可以很容易地计算。但是对于一个给定的匹配原始图片,可能不止一个原始常常可以发现与它在另一张照片中,导致模棱两可的问题匹配的匹配或假目标。多个摄像机跟踪系统,它是必要的,以确定哪些相机(几个)或使用哪个图像(几个)。

人体的运动可以描述不同的组合动作的躯干和四肢,一个成年人的身体。因为人体的躯干主要被视为近似静态人体移动时,和四肢更大范围的运动相对于人体的躯干,多样化的人类运动的主要原因是人类的四肢的运动的多元化。然后,从人类肢体的运动特性可以近似人体运动的特点。图3显示了人类运动的分布信息提取的因素。

运动跟踪的目的是建立相应的特征匹配的视频序列中连续图像帧之间,获得连续的位置信息,速度、形状、纹理、颜色。这些跟踪和匹配特性可以点,线,图像块,轮廓,和3 d功能元素。人体运动跟踪是建立这些特性之间的对应人体的图像序列。人体运动跟踪是建立人体特征的对应关系在图像序列。跟踪是人类运动采集和行为理解的基础。我们想建立一个分类规则;对于任何与未知类别样本,这条规则可以应用到其特征向量 确定样本所属的类别。

它是连续的和全面的趋势估计的具体实数空间的真正价值。在这个问题上,相应的标签是一个连续的空间,如人体运动。人体运动跟踪的机器学习方法来估计的值三维姿态 对应于图像空间 由于图像噪声的影响的视频和视频中的人体运动的复杂性,人体运动的跟踪是极其困难的。目前,没有理想和普遍的人体运动跟踪方法。因此,对于复杂的人类活动,手动校准联合点仍不是一个指南。

3.4。模型重量系数分布

根据经验,Sobel算子比普瑞维特算子边缘检测的准确性。Sobel边缘检测算子是基于一阶导数,,这个操作符在平滑噪声的效果很好。这是因为操作员增加了当地平均图像的操作,这可以大大减少噪声的影响。图像处理的效果表明,该操作符有相对准确的定位的边缘图像,但它是容易受到噪音。它非常适合于图像分割与明显的边缘信息和噪声相对较少。使用罗伯特算子检测边缘的地方差异,和边缘的平滑信息处理后获得的图像很差。

和响应是宽,所以使用的罗伯特算子边缘检测时,有必要完善形象改善边缘定位的准确性。索贝尔算子的模板由两套 矩阵,这代表垂直和水平的检测边缘,分别。通过这两个模板与图像卷积,近似的价值可以得到两个方向的差异。图4显示了扇形分布模型加权因素。

图像数据不连续特征,反映了图像的边缘。为深度图像,在图像的边缘,深度值对应像素已经改变了。Sobel算子找到点邻近像素的权重,然后其灰度值来计算一个点的灰度值。边缘检测是通过设置阈值的边缘点。与一般算法相比,平均,然后执行差异,Sobel算子具有更好的抑制效果对独立噪声点。

它可以提供更精确的边缘方向信息,图像的边缘有更大的亮度,使其更容易识别。边缘信息的特征包括振幅和方向。沿着边缘曲线的趋势,像素变化平稳,而在垂直边缘的趋势曲线是垂直的,像素变化剧烈,这剧烈的变化可能是一个斜坡形状或形状。在实际处理中,经常使用边缘检测算子检测边缘的存在与否及其方向。

4所示。应用程序和分析数字视频人体运动信息提取模型的基于三维泊松方程

4.1。数据分析的三维泊松方程

数据在处理三维泊松方程,实验量化联合点的角跟踪误差的人体运动跟踪问题,使用超过2000图像生成的难题软件培训和测试。其中,1927年剪影用于训练数据,和其他418个图像用于测试数据。与此同时,相应的PoserBVH 3 d运动数据生成相应的数据标签。它由15联合分和3自由度为每个关节,+ 1全局方向变量显示运动的相对方向,共有55个数据维度。测试数据的人体姿态估计的运动跟踪结果存储在一个XML页面文件,放在实验室的服务器进行处理。

然后,贝尔曼方程显示可用于获得问题的最优解P1通过经典值迭代算法或策略迭代算法。每一帧的估计价值之间的误差和实际运动姿态的运动捕捉数据库可以获得。同时,人工参数调整(调)是避免让结果往往是最优的。未知的真实值和一个统一的量化平台数据库也最适合人类的运动分析。图5显示的数据节点分布三维泊松方程。

从结果可以看出,对于某些帧的视频数据库,单高斯模型用于模型的背景,然后,一种自适应背景差分法提取前景区域,然后,阴影区域是消除的特点阴影区域的色度变化越小。该方法可以很好地提取运动人体。背景的一部分视频在魏茨曼视频数据库主要是几何形状如墙壁,道路,和一个小窗口的一部分。背景相对简单,单高斯模型是用来模拟视频的背景在数据库中,然后使用背景减法的方法提取目标在理论上是可行的,和实际效果也是可能的。

现在的主要原因是分析如下:分解层越多,越多的表征能力的特点,前一层的低频近似系数是迷失在描述符的提取的特征表征能力远远大于获得的高频细节系数。只使用一层的二维小波变换也有利于维护一个统一的量化间隔选择刻度范围的功能回归映射过程中跟踪预测,和避免过度造成的不稳定性大内核参数的变化区间。

4.2。模拟人体运动信息提取模型

在学习分类实验中,93个样本分为9部分根据不同的人,和每一个部分是由一个人的所有操作。对这些样品9集,我们选择1,2,4,8样本集作为训练样本集训练演算法分类器和使用剩余的样本集作为最终的测试样本集。的实验选择1和8个样本作为训练样本集,9日单独的实验进行了不同的分类情况。每个样本作为训练样本进行实验;即为一个实验需要1样本作为训练样本,9,9实验的准确率平均为1时的正确分类率样本作为训练样本选择。

然而,在真实的网络环境,很难获得的主要用户代理。同样,如果8样本作为训练样本,选择9实验也进行了计算分类准确率。的情况下选择2或4样本作为训练样本,因为有很多的组合,只有一些组合选择实验中,覆盖大部分的样品。图6显示了人体运动信息提取的样本分布。

它可以观察到,当一个人的重心相对较低,人体相对明显的阴影,和灰色信息的变化相对较大而当没有影子。因此,当提取前景信息,无法消除阴影部分通过设置阈值,和这些阴影部分也作为前景来评判。自阴影部分的色度变化很小,阴影部分可以从人体分离部分前景基于这一点。对于某些帧的前景提取阴影已被移除后,阴影消除的过程后,提取的人体部分和背景是不同的颜色除了颜色不同,与人体部分仍然被认为是前景。因此,阴影消除的过程后,人体并没有改变多少。因此,阴影去除方法可以有效地去除轻阴影的前景。图7显示了人类的归一化图像运动信息。

会有一定的误差的深度坐标测量得到的已知点的深度值。为了验证这个错误不会影响重建3 d的姿势,我们调整相机之间的距离和测量对象在图像采集过程中,拍摄三个图像深度值1280毫米,1300毫米和1320毫米。但在计算三维坐标的过程,深度值仍然是1300毫米计算,重建的三组线段的长度和角度得到,所示的文本。的深度坐标点与一个已知的深度值取三个不同的值,比较重建线段的长度和角度的价值 n之间的线段。

因此,我们可以认为,重建结果不敏感深度坐标的误差值。在图像编码, 用于控制压缩比。另一方面,量化值的选择影响系数大于的数量 在某一方向的一维小波变换在搜索最优几何流的方向。因此,选择 太大或太小不利于寻找最佳几何流方向。

4.3。示例应用程序和分析

通过选择块网格大小,该功能可以减少到最低144维度(对应 大小,9-direction网格)。当然,选择网格的数量会影响实际的描述符的提取效果。我们进一步证实 规模特征提取适用于以后的操作,因为提取人头大,很容易得到一个完整的轮廓检测。基本的特征提取过程如下:通过提取出前景和原始图像的背景,然后binarizing图像找到相应的轮廓图像预处理,然后进一步处理图像,消除冗余的阴影噪声和提取最后一部分,由猪编码描述符。

这些完美的关于可再生能源的先验知识,计算任务,通道状态,等。边缘信息通常标志着结束和开始的区域,区域和边缘代表图像的基本特征,和许多其他特性的图像可以被推导获得的基本特性。领域的早期处理内容包括图像处理边缘检测。图8显示了人类身体的边缘检测图像处理的信息。

可以看出,在少量的训练样本的情况下,作为演算法分类器的迭代的数量增加,当迭代次数相对较少,如第一个5、10和15次,分类结果明显改善。这表明当演算法分类器第一次迭代时,由于小数量的训练样本(1示例为每个行动),每个操作之间的差异不能有效地获得。若干次迭代后,行动之间的差异开始显现,这使得测试准确率显著增加。随着迭代的数量继续增加,少量的训练样本,操作之间的差异基本上是确定,所以改善分类结果不明显的一开始,和曲线逐渐变得平坦。在中间跳40迭代,初步分析是判断错误造成的一些类似的行动对于少量的样本。图9是一个比较的人体运动信息检测的准确性。

演算法的分类器,每个迭代生成一个弱分类器,和最终的强分类器融合在一起形成的弱分类器中生成所有迭代的误差在每个迭代中获得的。和每次迭代的结果是基于前一个迭代中,重新分配样本生成一个新的分类器。,每次迭代都将关注在前面的迭代中,分类错误的样本作为演算法分类器的迭代次数的增加,每一次迭代的结果将逐渐接近实际情况;也就是说,迭代精度准确将变得越来越高。最后,分类演算法的测试的准确性强分类器也将会随着迭代次数的增加而增大。

分析的主要原因,这可能是原始图像本身在图像空间中几乎没有差异,导致纹理太相似的特征提取过程中,并不能区分的差异。但总的来说,误差被控制在平均水平大约50毫米的序列,它已达到当前良好的数量指标。事实上,几乎没有大的姿势在人类的视觉相邻图像帧之间的区别。

5。结论

现有的研究基础上,本文进行了深入的分析,运动捕获算法和技术。针对当前的热点动作捕捉方法的缺点,一个动作捕捉算法提出了结合深度图和三维模型。首先,我们使用Kinect收集深度图像,去除背景的深度图像,恢复它的3 d模型,然后建立三维模型数据库。其次,优化的围巾围巾的统计特征变换作为图像的特征回到学习和预测的三维人体运动姿态单眼视频图像。实验验证了最优参数和额外的统计特性的围巾变换时用于人类图像特征的提取,然后各种回归方法用于参数学习,和预测性能和人类进行跟踪测试。针对单目标、单镜头,魏兹曼科学数据库的特点和简单的背景,背景减法的方法选择了单高斯模型提取人体运动区域,并获得了一个相对完整的人类运动轮廓,和阴影区域是用来消除阴影的小色度变化的特性。仿真实验表明,基于有效匹配使用的功能表示内核获得良好的结果。方程是学会获得图像特征和三维姿态之间的映射关系,从而有效地减少运动估计的时间复杂度。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。