文摘

人类运动手势识别是计算机视觉领域最具挑战性的研究方向,并广泛应用于人机交互、智能监控、虚拟现实、人类行为分析等领域。本文提出了一种新型的深卷积生成对抗网络识别人体运动姿势。这个方法使用一个深卷积堆叠沙漏网络准确地提取关键联合点图像的位置。网络的生成和识别部分设计编码第一层次(父)和第二层次(孩子)和显示人体器官的空间关系。发电机和鉴频器在网络设计成两部分,它们连接在一起以编码的外观和可能的关系,与此同时,人体器官的存在的可能性和身体的各个部分之间的关系及其父母的一部分代码。图像的人体模型的关键节点和普通体位可以更准确地确定。测试在不同的数据集的方法。在大多数情况下,该方法得到的结果比其他的比较方法。

1。介绍

人体手势识别是计算机视觉的一个重要研究方向1,2]。其最终目的是输出的结构参数的整体或部分肢体,如人体的轮廓,头的位置和姿态,人类共同的位置点或类别的部分。应该说,手势识别的研究方法覆盖几乎所有理论和技术在计算机视觉领域,如模式识别、机器学习、人工智能、图像图形和统计数据(3,4]。

到目前为止,许多识别方法已经被提出。董et al。5]提出学习的相应的目标轮廓模型分割图像,然后利用提高分类器找到图像中目标的轮廓,以获取位置信息的人体的每一部分。文献[6,7)使用猪方法提取人体的每一部分的信息图像,然后使用经典的支持向量机算法和随机森林识别和分类。崔et al。8]发现全局最优特性等许多功能的傅里叶描述符,形状上下文,边缘和梯度快速、准确地完成从功能的投影过程三维姿势。张先生和陆9)利用梯度方向直方图来恢复人类的姿势和训练有素的多个局部线性回归来恢复人类构成的单帧图像。李等人。10)用精明的经营者从图像中提取边缘特征结合像素深度信息和确定图像中的人的头部位置通过距离变换和模型匹配和定位人体之前根据人体比例。Zhang et al。11]使用迭代最近点(ICP)方法来追踪人类骨架实现初始化人体姿态估计的目的。文献[12)使用马尔可夫随机场(MRF)包含人体点云数据分割成四部分:头部、躯干、四肢,和背景部分检测和识别人体的姿态。纳迪姆et al。13]首先构建了一个三维网格模型的人体找到他们的兴趣点相关的测量从电网极端值,然后使用这些点检测,人体的手和脚。

在过去的几年里,研究人类行为识别基于深度图像已经收到了广泛的关注(14- - - - - -17]。与普通光学图像相比,因为深度图像像素的距离信息和记录color-independent,这克服了上述普通光学图像在一定程度上遇到的问题。随着光电技术的发展,许多研究人员结合深度图像的性质和应用等许多经典算法图像。Alshawabkeh [18)结合像素深度信息和使用精明的算子提取图像的边缘特征,通过距离变换和模型匹配的方法,来确定图像中的人的头部位置和定位人体之前根据人体比例。罗等。19)利用计算机图形学技术构建人类造成的深度图像数据库和使用分类器模型来检测人体器官在一个常见的电脑。Jaffar et al。20.]使用轮廓特征参数结合的时刻,方向梯度直方图,与人类骨骼特征角度来执行multifeature融合深度信息的描述,颜色信息和人体骨骼的信息。Alzahrani et al。21)综合利用深度数据和骨架Kinect提供的数据,有效提高了手势识别的实时性和鲁棒性通过人体测量知识和反向传播神经网络。河等。22)使用Kinect摄像头收集人类骨骼信息和3 d数据对应的联合行动点识别。佛朗哥et al。23)也使用Kinect设备来获取深度信息,设计了一种人体姿势识别系统专门为坐着和站着的姿势。

提出了一种生成对抗网络解决大变形问题的身体部位,同时考虑不同程度的身体部分的复杂性。发电机和鉴频器的内部结构提出了本文进行了优化,它可以模拟人体器官之间的层次关系。分层感知方面也在目标函数中引入标准化父母和孩子之间的关系。等级对抗网络有助于准确地估计人体的各个部分的位置,尤其是身体部位变形或高度阻挡。

2。人类运动手势识别

根据《牛津字典,人体的姿态是一种特殊的姿势的身体和一个人的维护他的物理状态24]。人体姿势识别提取、分类和识别人类的姿态特征和自然语言描述。这是一个研究热点,近年来受到广泛的关注。这是一个人类生理的研究应用,数字图像处理,模式识别,和其他学科领域25]。

2.1。技术的分类

从集合的角度来看人类的姿态信息,人体姿势识别技术可以分为两类:接触识别和非接触识别技术(26- - - - - -29日]。接触识别技术是指一个人的身体穿着一个传感器,通过传感器收集加速度和位置等参数信息的每个部分肢体实现姿态的分析和识别。非接触识别技术通常是基于建立人类的手势识别,也就是说,通过视频监控提取和识别人类的特性,这是一个计算机视觉的热点话题。

2.1.1。接触识别技术

接触人体手势识别技术收集通过传感器戴在人体运动参数和分析实现手势识别的参数信息。接触识别技术能够准确地捕捉姿态的变化通过允许用户穿数据收集设备,和计算机分析后的姿势识别率很高。然而,在实际应用中,它会给用户带来不便,不满足人机交互的需求。同时,这样的设备是昂贵的,在现实生活中难以推广。

2.1.2。非接触识别技术

应用非接触人体姿势识别技术是人机交互领域的一个研究热点。它获得图像信息通过视频捕捉设备如摄像机、计算机处理和分析后,提取特定的代表特性实现姿态识别和分类。

2.2。算法分类

根据不同的分类标准,可分为多种人体手势识别算法。从实现方法的角度,通常分为三种类型:(1)三维模型重建方法,该方法从有效样本中提取三维特性建立一个三维模型(2)人体外观模型方法,建立了二维模型,获取人体的形状特征和使用模式匹配方法来完成识别(3)运动模型的方法是根据运动特征分类

从模式识别的角度,手势识别是一个分类问题时变特性,也就是说,现在的测试序列的匹配过程根据获得的特征信息序列。从匹配方法的角度,通常有两种类型。

2.2.1。模板匹配方法

模板匹配方法作为人体运动姿态的一系列离散的静态图像在一定的时间内。通过提取每个离散图像的静态特性和匹配他们的姿势训练模型,匹配程度最高的运动姿势是最好的结果。

2.2.2。状态空间法

状态空间方法是设定每个键静态姿势到一个特定的状态。,所有动态姿势是一个遍历过程中,连接这些特定状态最好的概率关系,这个时候最好的概率是设置为分类标准的姿势。然而,状态空间方法通过复杂的迭代操作发现全局最优解,因此很难运用于实际工作。

3所示。改善生殖对抗网络算法

3.1。总体框架

如图1,人体姿势识别的主要步骤基于深度信息分为三个部分:首先,我们预处理图像深度信息传感设备采集的数据,然后提取相应的人体姿态图像特性,ROI区域,根据不同的目标和最终使用适当的分类和识别分类算法执行的姿态。训练和分类过程后,您可以查看系统的新输入图像的分类和识别结果,选择一个图片从测试样本集,并输入到网络。据将softmax分类器的结果,标签概率最高的是当前识别结果。最后的识别结果将出现在以下两种情况:当系统预测分类不匹配预期的标签,分类错误显示;当测试结果与预期构成标签,分类显示正确。

3.2。深卷积沙漏网络

深卷积网络的基本单元剩余网络,如图2。它主要包括三个回旋的层。卷积核的大小是不同的。第一层的大小是1×1,第二层的大小是3×3,和第三层的大小是1×1。通过每个卷积层之前,一批归一化层和ReLU激活层将被传递。通过卷积层网络高层特征提取的主要路径。分支跳转层,它是由一个卷积层核心1×1的大小。主要功能是保留原文的功能层,增加模型的非线性,减少计算量。在剩余网络,只有图像的通道的数量改变,和所有卷积的步长层是1。如果输入的频道形象和通道的输出图像N,第一次和第二次卷积层内核的主要路径N/ 2和第三卷积层内核的数量N

基于一阶沙漏剩余网络,网络是构建在它的结构。主循环和分支包括几个残余网络。提取其中,分公司通过跳层原始大小,它可以保留图像上的每个关节的空间信息;主要道路首先使用最大池层改变大小的一半原始大小,然后进行特征提取。通过这种方法,提取网络连接点特征在不同的决议,最后恢复到原始大小通过近邻插值,并将其添加到输出分支。定义图像的特征通过一阶沙漏网络输出F1 ((x),得到以下方程:

其中,C(x)是残余网络的输出特性。

代替虚线内的残留网络中网络与一阶一阶沙漏沙漏网络,网络可以获得二阶沙漏。同样的,三阶沙漏取代它的网络,你可以得到一个四阶沙漏网络。在节点检测网络,堆放四级沙漏网络用作检测网络。其中,每个分支前分支传递的最大池层保护关节之间的空间信息。三个剩余模块用于特征提取每次采样下来后。因此,四阶沙漏网络可以提取原始大小的交接点特性、1/2、1/4、1/8大小。每个特征提取后,通过up-sampling图像恢复到它原来的体积。添加原始大小的特性之后,残余网络用于特征提取。因此,网络不会改变图像的大小,只有渠道的数量特征。定义图像的输出特性通过四阶沙漏网络F4 ((x)),它可以简要描述如下:

3.3。改进的模型

自检测图像的原始大小需要很多时间,像素是第一次减少到64×64通过卷积层和汇聚层,和剩余网络用于特征提取在中间。结构如下:(1)把256×256像素的RGB图像通过64 7×7卷积核的步长2到128×128像素,和我成为64频道的数量。 (2)通过残余网络,输入通道是64和输出通道是128。 (3)进行最大池和进一步减少数据128×128到64×64像素不改变通道的数量。 (4)同样,连续三采样下来后残余网络使用。前两个网络的输入和输出通道都是128,最后输出通道是256。

模型提出了DCGAN,其中包括两个部分:发电机和鉴频器。如图3堆栈堆栈,堆栈1,2,3,分别代表不同的运动姿势。此外,发电机的基本结构和鉴别器是基于沙漏网络,这是一个编码器和译码器网络连接和up-sampling层,可适应不同大小的图像捕捉人体姿势的多样性。沙漏网络的输入和输出是预处理和位使用残差和线性块提取特征和估计身体部位的位置来获取有价值的信心得分地图。

四肢的关节的位置人体属于铰接结构,从而导致明显变形的四肢在执行动作,而且在大多数情况下,在树干上的关节变形程度相对较小。因此,估计是更具挑战性的部分人体的姿态与大变形,和大量的不同的训练样本是必需的支持。为了解决这些问题,本研究优化发电机和鉴别器网络的结构。新设计使用堆叠沙漏网络可以连接到建立人体器官的空间层次。此外,本研究还提出了一个新的损失函数项规范父母和孩子之间的关系。层次敌对的网络设计和新的层次感知损失有助于准确地估计人体的各个部分的位置,特别是对于那些高度变形的身体部位或高度阻挡。

3.3.1。层次一代网络

发电机将输入图像映射到地图的信心P C的父母和孩子,分别。映射可以通过学习函数执行如下:

然后,把信心的地图父母和孩子每个堆栈生成器的输出。预测的姿势可以推断使用以下方程:

估计预测的姿势Z通过总结信心的地图上的所有连接顺序栈和使用softmax信心得分连接的地图。这使得整个过程是培训的端到端:发电机网络本身没有敌对的分支,只能训练通过最小化损失函数如下:

3.3.2。分层网络歧视

训练鉴别器是一个非常重要的一步,因为它是更倾向于重建鉴别器从生成的姿势比从生成的姿势,使鉴别器无法区分生成的姿势是否正确或错误。为了解决这个问题,本文运用平衡战略重构之间真正的体式并生成。使用以下损失函数训练鉴别器:

其中,αβ平衡条件,人力资源和高清是真正的损失条款构成和生成的姿势,分别。

4所示。结果与讨论

4.1。实验数据和实验环境

在本章中,为了验证该网络的性能,将使用三个挑战性的人体姿态估计的数据集进行实验,得到相应的结果。(1)LSP的数据集和它的扩展版本包含12000张图片,其中11000图像将用于培训和其他1000将用于测试。(2)MPII数据集包含25000张图片和40000年人类活动的图像。(3)唇数据集包含了50000张照片,其中16个关键注释用于人体姿态估计。从真实场景数据集收集各种姿势和视图,也包含了许多大型闭塞和低分辨率的图像。(4)创建自己的数据集。本文收集200 5人的图片姿势来构建一个姿势训练数据库。10姿势站、蹲、提高手,散步,折叠的手,穿越的手,弯腰,冲孔,提高腿,鞠躬,组织收集到的图像从体式1到10。

在实验室条件下,本文所需的硬件设备如下:(1)一台电脑与win10系统和Linux系统是必要的。由于Kinect SDK的特殊要求,计算机需要一个64位的系统,计算机CPU是英特尔(R) (TM)核心i7 - 2640 m, CPU频率为2.80 GHz,安装内存是8.00 GB。电脑配置的质量将影响后续分类器训练和分类效率。本文中的实验都是在这台电脑上进行。(2)Kinect的windows相机是必要的。相机的参数如表所示1(3)220 v交流电源是必要的。在实验过程中,图像采集部分使用视觉Studio2015作为开发环境,利用KinectSDK Windows操作相机的数据流,和Opencv函数库组织收集的数据流到所需的人体姿态图像并将其存储在移动硬盘上。随后的CNN在咖啡培训和手势识别算法完成。

4.2。网络训练

首先,初始化网络和输入每组构成训练集样本到先前构造的CNN系统和铁路一构成一个圆。如图4,随着训练样本的增加,损失函数值的网络继续减少,和验证的准确性继续增加。当训练样本达到800,它开始收敛,趋于稳定,确定网络的参数值。可以看出,1000年训练样本可以完全满足网络的培训需求。

4.3。算法识别性能分析
4.3.1。太阳能发电数据集

结果如图5。正确的百分比为模型要点提出了可以达到94.2%。这个结果比的结果(21,23]。这两种方法也认为本文提出的方法,是最接近类似的方法。虽然文献[22]和文献[23)可以更准确地估计人体的结构信息,本文提出的模型可以估计构成挑战身体部位如肘、手腕、膝盖、脚踝。这表明,该网络不仅可以实现的有效性评估人类的姿势也考虑各种身体部位的层次结构。

4.3.2。唇数据

6PCKh结果显示这种方法并比较它们与前面的方法的结果。普通PCK PCKh是一样的,所不同的是,公差的计算方法是基于头部的躯干。本文提出的模型比其他的结果,使用这些数据集训练姿势估计。同样,本文中的模型的层次关系人体结构,可以更好地检测在容易发生大变形的关键部分。对比的准确性手腕部分和方法(22)可以解释这一点。混合构成的机器(30.)和金字塔流网络(31日通常被认为是经典唇训练数据集的方法。本文比较了这两种方法,结果表明,本文的方法是更好的。这也证实了该方法的有效性和编码的重要性的层次结构模型。

4.3.3。MPII数据集

MPII数据集是最具挑战性的基准数据集在人类造成估计因为它包含许多变化在不同姿势的人进行不同的活动。在图7PCKh结果所示,使用MPII测试集的数据集,以及所有结果公差为0.5。与文献中的方法(22,23不考虑层次结构,这种方法对于大多数身体部位估计可以给更好的结果。

PCKh价值这种方法比其他方法的结果平均值的所有部分,手腕和脚踝部分的价值。这再一次证明了该方法的鲁棒性估计困难造成的身体部位。

自从MPII数据集是最具挑战性的在人类的姿势估计,本文将进行比较实验与不同的公差图。这个数据集8显示的平均价值PCKh MPII数据集。从曲线可以看出,本文方法比现有的方法在低宽容。

4.3.4。自创的数据集

通过神经网络的训练和识别,实验结果如图9。从图可以看出9的识别准确率达到90%以上,和预期的准确率目标已经实现。

因为不同的用户有个体差异,如高,矮,胖,瘦,会有用户独立问题在人体手势识别过程中,CNN和人体手势特征提取摘要不变到用户的姿态变化。因此,为了验证识别方法的通用性,450张照片两个胖和较小的用户,并不包含在人体姿势选择数据库来验证本文的识别效果,每种类型的样本是150。实验结果如表所示2

当用户的姿势变化,本文识别方法的分类精度几乎不受影响。这表明人类的姿势本文特征提取方法可以描述人体姿势的特点,在一定程度上解决了用户独立的过程中人体姿势识别。

过去,人体手势识别通常是有限的照明条件,和识别效果往往是有限的环境太暗或太亮灯。为了验证本文的识别算法的识别效果在一个普遍的环境下,本文收集了360样本图像的人体姿势在不同光线和背景条件下同一个人。其中,有120个不同的人体姿势。它被发现,结果如表所示3

实验结果表明,当光和背景变化等环境因素,本文识别方法的分类精度几乎不受影响,整体平均准确率达到0.965,表明本文的识别算法对环境具有普遍适用性。

收集300张图片包含主题下关节闭塞和关节nonocclusion主要计算偏差的实际坐标之间的距离肩,肘、手腕和膝盖关节和他们理论坐标和人体动作识别的最大误差在本文中比较的3厘米。计算后,关节不闭塞,本文的联合识别精度为0.82,如图10。当关节(手腕和膝盖)受阻,联合识别精度可以达到0.98。

5。结论

提出了一种生成对抗网络基于堆叠沙漏,可以隐式地推断出不同身体部位的结构和层次结构。本文提出的网络显示了估计的学习能力身体部位的空间关系。这是训练有素的端到端和三种不同的基准数据集上进行测试。网络显示估计身体部位的能力,这在很大程度上是变形和高度阻挡。本文提出的方法可以克服这些障碍,实现更好的性能。它还获得各种数据集的最新实验结果和比较的结果在其他相关的数据集。此外,本文提出的网络也可以扩展到其他相关特性编码之间相邻的身体部位。此外,网络也适合处理多个层级之间的身体部位。目前我们的算法更敏感,这也是我们的算法的局限性。我们的下一个工作是解决这个问题的算法对光线很敏感。”

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。

确认

这项工作是支持部分由中国国家自然科学基金批准号U1804152。