文摘
本文的研究主要包括如下:的原则行动识别基于卷积神经网络三维扩散模型,整个检测过程进行了从细到粗使用自底向上方法;人类骨骼检测准确性,CNN multibranch多级级联结构,提出了这种网络结构使模型学习人体的关节之间的关系从原始图像,有效地预测阻挡部分,允许同时骨架点位置和骨架点协会预测信息一方面,和细化迭代检测结果的方式。组合问题的离散骨架点,拟以骨架点之间形成的肢体部分为信息载体,构建骨架点使用向量场协会信息模型,并考虑它作为一个特性,获得不同的骨架点之间的关系通过使用检测方法。指出离散骨架点多人场景的重组问题是一个np难问题,可以分解成一系列子问题简化的两偶图匹配,因此提出了一种离散骨架点匹配算法和优化它的骨骼错位和人类遮挡的算法问题。相比与传统的二维图像、音频、视频和其他多媒体数据,三维扩散模型数据描述目标场景的三维几何形态信息和不受灯光的影响变化,旋转和尺度转换的目标,从而可以更全面、逼真地描述现实的场景。扩散模型采集设备的不断更新,3 d重建技术的快速发展,和计算能力的不断提高,三维扩散模型的研究应用的检测和提取人类骨骼在体育舞蹈视频已经成为计算机视觉领域的一个热门方向和计算机图形学。其中,特征检测的描述和模型结合3 d非刚性的模型是一个基本问题具有非常重要的研究价值和意义和挑战性的同时,得到学术界的广泛关注。
1。介绍
3 d传感器的快速发展,如结构光编码和激光雷达三维扩散模型数据的采集近年来变得越来越方便和快速。扩散模型数据进行数学抽象地描述为一个集合点的三维坐标,它本质上是一个离散抽样几何信息的外部世界的一个特定的坐标系统。与传统的2 d图像相比,三维扩散模型数据有以下显著的优势。
1.1。描述的3 d几何形态信息的目标
传统的2 d图像描述外部场景的外观,失去三维空间信息。扩散模型描述目标表面的三维几何数据,因此可以更直接通知计算机视觉任务,如特征提取和匹配。
1.2。不受外界光的变化
最常见的3 d成像传感器使用主动成像,如结构光传感器和激光雷达。因此,光在外部世界的变化不会影响扩散模型数据的采集。
1.3。少受成像距离的影响
传统的2 d图像成像过程容易受到成像距离的变化,导致成像目标的尺度变化。扩散模型数据的离散采样目标表面的3 d几何在外部场景,和成像距离不会改变成像目标的规模,但只影响获得数据的精度和分辨率,因此更适合计算机视觉任务。
近年来,随着三维重建技术的快速发展,日益方便获得3 d模型通过三维数据1]。因为有许多非刚性的对象在现实世界中,3 d非刚性的模型的研究受到广泛的关注,已成为一个研究热点领域的计算机视觉和计算机图形学。
研究体育舞蹈视频图像中人体骨架检测一直是一个非常受欢迎的在图像处理和计算机视觉的研究方向2]。人类骨骼信息可以极大地帮助人们分析的行为目标人体图片或视频,为进一步处理奠定基础的图片和视频3]。人类骨骼检测算法将人类骨骼划分为多个关节,如头部、肩膀,和手腕,然后分析了位置,方向,获得人类骨骼机器人的各关节的运动信息。人类骨骼吸引进一步分析人体的姿态和行为来获取人体活动和运动信息的图像(4]。
应用程序相关的人体姿态估计的前提是基于获得清晰和准确的人类骨骼图像,和骨架提取不准确会导致错误的分析人类的行为和动作,造成无法估量的后果(5]。例如,体育舞蹈领域的,不准确的骨架提取可能导致不正确的行动的分析,甚至可能危及生命的运动员或演员在严重的情况下。因此,重视提高人类骨架检测的准确性。近年来,硬件领域的迅速发展使计算机的计算能力增加,越来越多的优秀的人类骨骼检测算法出现,和人类骨骼检测精度不断提高。作为人体姿势识别的基础,人类骨架检测技术将在增加领域发挥着越来越重要的作用。
2。相关工作
自1970年代以来,几何形态的研究目标三维信息扩散模型已经收到关注,和一系列的结果取得了在1990年代和1980年代。显著区域检测的3 d几何扩散模型是一个复杂的问题,特别是对于三维扩散模型与等距变换(6]。近年来,这个问题一直在深入调查领域的计算机视觉和计算机图形学。文献[7开始解决这一问题的三维可变形模型区域检测通过描述它抽象为寻找最稳定的组件模型。等距变换具有不变性,方法使用扩散几何推导加权函数,提出了两种表示网格表面,即网格基于顶点的和edge-weighted图结构,分别8]。实验结果发现edge-weighted图表示一般比小vertex-weighted图和展品性能优越9]。算法框架已经扩展到处理与卷形状。受认知理论的启发,文献[10]认为凸起地区作为“关键部件”模型,认为它们包含丰富的地方特色。根据这一理论,凸起区域模型的对应部分高突起,可以检测到一个聚类过程中测地线的空间。然而,这种方法是一种不完全分解模型和许多地区没有发现显著(11]。基于几何扩散的方法取得了令人瞩目的成功分析3 d非刚性的模型由于反射模型的内在属性(12]。文献[13)结合拉普拉斯贝尔特拉米操作符的形式与同源性一致性理论生成模型的分层分割方法。文献[14)首先计算每个点的全局特征模型,然后将模型映射到特征空间,最后利用聚类算法在空间实现模型的分割。上述算法使用拉普拉斯贝尔特拉米算子的形式模型分割;然而,形式很容易重大变化或特征向量转换等问题,特别是当相应的特征值之间的差异很小15]。文献[16]介绍了共识的概念聚类到这个域来实现稳定的分割。首先,计算多个集群在全球签名空间指向生成一组异构模型分区。文献[17)认为,一个稳定的模型细分可以从这些分割提取得到的统计信息。这个方法有最好的当前结果的模型数据接收各种干扰。
人类骨骼图像的检测可以分为两个方向:2 d人类骨骼检测和3 d人体骨架检测。3 d人体骨架检测的过程获得3 d形状或人类骨骼点的坐标通过分析图像获得3 d相机如Kinect。
3所示。应用三维扩散模型的检测和提取人类骨骼的体育舞蹈视频
3.1。动作识别原理基于卷积神经网络的三维扩散模型
三维扩散模型神经网络的第一个深刻的学习方法在图像分析领域取得了巨大的成就,目标探测等。这适用于训练过滤器(反向传播算法训练),当地域池操作(防止过度拟合),等在原始输入提取逐渐复杂和高度抽象的特征,以及网络模型可以实现很好的区别的影响通过长期训练与大量数据(18]。和它也有照明、背景提取不变性,等特点,很受欢迎。
作为一个模范的端到端网络模型,卷积神经网络直接在原始输入可以产生影响,使传统的手工提取功能过时了。然而,目前,这种卷积神经网络仍只输入识别等领域的大量使用2 d图像,和图1说明了传统的二维卷积过程。更多地使用它的力量,一些组织扩展到3 d域,生成新的三维扩散模型并将它应用到人类行为的主题识别,产生很好的结果。其主要特征是,它不仅能提取特征空间,还结合了特征提取的时间维度,使用3 d卷积在连续帧捕获人体运动信息。
的主要区别卷积3 d和2 d卷积的区别是知觉场和卷积内核。3 d卷积框架部分的多个连续帧和形成了一个特殊的多维数据集,然后执行卷积操作在多维数据集使用3 d卷积内核。这意味着在一个多层卷积操作,下一层的输入特性映射相关的多个视频帧中的立方体形式在时间维度上一层捕获信息的视频帧。如图2,它的输入特性映射由同一个地方从三个相邻视频帧图像的上层。像二维卷积,卷积3 d还需要几个不同的卷积核提取不同的特征信息的时空特性。作为卷积层数量的增加,我们可以提取更多类型的高层抽象的特点从多个组合主要特征图。
假设 与标签给定的训练样本,共 , ,和网络的输出值,即。,one prediction of the model for the input sample 。训练神经网络的目的是使预测值 尽可能接近真实值 。两者之间的误差可以用损失函数。对单个样本( , ),方差损失函数可以表示为
整个训练样本集的成本函数
在哪里是网络层的数量,和中的节点数量吗层。损失函数包括均方偏差和体重衰减,引入权重衰减项的目的是防止过度拟合训练过程中。损失函数表示的真实值和预测值之间的差别,差别越小表示,网络的更准确的预测。最后的神经网络的训练目标是解决重量参数和偏差参数这样损失函数 是最小化。梯度下降算法(GDA)是一种常见的算法寻找最优解的参数神经网络,及其参数迭代更新过程 在哪里α是学习速率,表明每个更新的参数的大小。梯度下降算法的核心是获取网络参数和扩散梯度上升一层一层地。在一个示例( , )作为一个例子,其损失函数 会有关于和作为
通过计算加权平均得到错误的节点( )圣级别,它代表了节点的数量水平。从方程(6)和7,损失函数的偏导数 关于每个参数是
在传统三维骨架提取方法从一个深度图,一般的步骤是首先提取人体特性,其次由不同部分身体功能分类,最后定位联合点生成3 d人体的骨架。与2 d骨架提取,深度地图能够更好地处理问题,如身体遮挡因为它包含深度信息,但它仍然是更具挑战性的准确预测不同接头的固定位置点在三维空间中。从深度图中提取特定的图像特征是整个过程的一个重要组成部分。能够尽可能地缩短计算时间,提取的图像尺寸不应太大,和功能应该有很强的代表性特征可以区分不同类型的样品。共深度地图功能有些特性包括筛选、冲浪、梯度特性,比如精明的经营者,并与方向梯度直方图,等文献中,作者创造性地结合点特性和梯度特性,和这个方法不能只反映特征像素点周围的信息而不失去功能的深度信息。
特定的操作类似于CNN卷积,一个像素点在深度图中为中心, , ,和 , 深度值,还有相邻频段分,代表8个不同的方向,水平向右的方向参考,表示任何方向向量及其之间的角度,为每一个向量φ和特性的计算公式
这个特性不仅是计算小但也有displacement-invariant空间特征,可用于从图像中提取特征在训练集。
为无序的网络订单不变的3 d数据,点净使用简单的对称函数来获得全球3 d功能。不对称函数,输出值不会改变输入变量的顺序,例如,函数 是对称的,最后一个函数值是一样的,不管你的独立变量。的公式计算三维网是全球特征点
常用的激活函数Sigmod函数,ReLU函数,双曲正切函数,等。激活函数主要用于非线性因素引入到神经网络;否则,神经网络是一个输入的线性组合(19]。在本文中,我们主要使用Sigmod激活函数和ReLU激活函数。的表达Sigmod函数方程所示(11),它可以映射输入值在0和1之间,可用于重量分配机制的关注和Sigmod函数是可诱导的可以用梯度反向迭代优化算法。其微分方程所示(12)。
然而,从方程(8)-(12),导数变得越来越小变得更大、收敛于0趋向于无穷。因此,当训练和反向传播算法,梯度网络变得越来越小的加深,导致梯度消失。
描述的三维CAD模型的边界区域的三角形网格。物体的惯性张量
一个物体的质心的方程
刚性变换的三维几何模型可以用一个矩阵,而并没有严格的变换模型只能描述点匹配;因此,3 d非刚性的模型对齐与高复杂性本质上是一个组合优化问题。与此同时,在现实场景中,三维几何模型数据可能受到各种干扰,如等距变换、孔、小孔、尺度转换、当地的尺度转换、重采样、噪声、散粒噪声、拓扑变换,需要对齐算法具有很强的鲁棒性。
3.2。人类骨骼检测基于三维扩散模型算法
通常,如果我们可以推断出从2 d骨架三维骨架信息信息,它必须由高维的知识,例如,人体运动学和动力学约束。一些组织这个问题变成一个回归问题通过学习回归映射模型对3 d姿势通过整合时空集成特性的序列图片。许多作者都把这个问题转化为一个典型的有约束优化问题的主要误差最小化映射一个未知的3 d对2 d带来未知的观察角度。此优化问题相应的应用程序的限制,有时需要假设3 d构成有更好的优化状态的低维子空间,但这可以敏感,文中针对方法初始化和局部最小值,通常需要昂贵的约束动力学(20.]。深度学习的快速发展,我们更高兴地发现许多算法的影响改变定性的数据量达到一定水平的时候。受该数据驱动架构,我们可以改进前算法通过改变的约束他们一个简单的非参数编码高层约束。这种方法实现的可用性三维骨架信息的大样本数据集,和整个算法流程如下:给定一个3 d构成图书馆,我们产生许多二维预测(从一个虚拟摄像机视图),建立一个配对(2 d, 3 d)人类构成图书馆。使用虚拟相机的过程获得二维投影,利用3 d的骨架提取方法基于一个单眼相机,是通过连接三维骨架,二维骨架原始图片,稀疏表示和深度信息。与这些配对(2 d, 3 d)数据,和2 d骨架提取的结果由普通2 d图片姿势评估算法,使用相应的匹配算法,我们可以转化成对项目最近的2 d的配对样本数据库,并获取相应的三维骨架数据信息。因此,整个算法过程可以简要地概括为两个部分:第一部分从图像中提取相应的2 d骨架用很深的学习方法,和第二部分发现相应的三维骨架从3 d动作数据库数据信息通过使用匹配的算法。具体的过程如图3。
因此,我们可以缩短整个匹配过程的时间通过减少匹配范围在每个匹配,从而提高整个匹配算法的效率,同时考虑到准确率。同时,人体在运动,有一个更快的运动,当直接使用上述算法将导致一个更大的识别错误。Considerin,确保操作的可靠性算法,每一个框架,我们研究整个样本空间;也就是说,我们可以得到一个更精确的3 d的姿势。识别后的14个特定节点图所示4。
自底向上的管道三维骨架点检测也由两部分组成:骨架点检测和骨架点集群。它是一个“好粗”的过程,即,all skeleton points in the image are first detected, and then the detected skeleton points are clustered by some related strategies to form individual by individual [21]。所不同的是,这里的骨架点检测需要检测图像中所有类别的所有骨骼点。
自底向上的检测过程很简单。它只检测一次骨架点的整体形象;运行时间是独立的人数的形象。然而,这种方法有一个离散的点聚合过程,这就需要找到所有骨架点属于哪个人。这是一个np难问题求解整数线性规划在一个完全连通图,几个小时的平均处理时间(例如,Deepcut,这是一个自底向上的方法,需要50000秒处理单个图像)。使用自顶向下方法相比,自底向上方法不受数量影响的身体形象,加快检测速度和更强的鲁棒性,及其检测结果优于自顶向下的方法,如果可以有效地构造骨架点之间的关系,这是本文提出的检测方法。
4所示。实验和结果分析
本文中使用的实验平台TensorFlow 1.6,和培训执行一个显卡,NVIDIA Tesla V100 (16 g)。第一阶段子网使用批处理大小为16和收敛后6000时代UBC3V数据集和时代为本文提供的数据集。第二阶段子网使用批处理大小为8和收敛后4000时代UBC3V数据集和时代为本文提供的数据集。最初的学习速率设置为0.001,和学习速率降低到90%的每5000次迭代后原费率。本文采用数据增加培训期间,2048点是随机抽样从人类3 d模型作为网络的输入在每次培训之前,和3 d数据随机旋转输入之前,周围的旋转角度 - - - - - -轴(垂直轴)是随机选择从(-180°、180°),和周围的旋转角度 - - - - - -轴和 - - - - - -轴是随机选择从-20°,20°。为UBC3V数据集,本文进行训练,验证,和测试根据训练集,验证集和测试集提前除以这个数据集。为小规模数据集提供本文5倍crossvalidation方法本文评估算法。在测试中,人类的3 d模型包含8192点随机分为4人3 d模型包含2048点,然后输入为消歧获得第一阶段子网nonambiguous人类约4000点组成的三维模型,并随机分为2 nonambiguous人类3 d结构组包含2048点(通过随机重复抽样,以确保点)的数量。然后输入节点三维模型预测阶段的子网获得节点三维模型的预测。最后,通过三维人体骨架的3 d模型预测过滤和聚合。
方法本文以人体三维模型作为输入;虽然不能直接处理深度图像,它可以深度图像转化为点云之前加工;这部分比较了本文方法与传统的点云曲线骨架提取方法和人类骨骼估算方法基于传统方法,分别。
从实验结果,获得的人类骨骼LBC, L1,和MDCS算法通常是正确的人体点云模型与单独的四肢,但也有一些丢失的分支,裁员,和破碎的骨骼。为人类带来亲密的身体部位,身体接触,或肢体,LBC的骨架提取,L1和MDCS算法含有更多的错误。这是因为这些传统的点云骨架提取方法不能够感知语义信息,和身体部位接近或接触时,这些方法可能会忽略一些人体结构或感知错误的结构;例如,人类的手臂靠近身体自然地滴下来,当传统方法不能感知手臂分支,导致提取骨架丢失的手臂。相比之下,基于深度学习方法提出了能感知身体部分的语义信息,和相应的联合点预计每个部位;提取的骨架是更准确,接合点的语义信息是由不同的颜色表示。本文的方法可以获得更准确的三维人体骨骼简单和更复杂的人体姿势。
此外,来验证该方法的鲁棒性缺失的数据,使用不同的算法来提取人类骨骼的点云数据与缺失点,和不同的骨架提取结果传统的点云曲线骨架提取算法,该算法在人体点云失踪nonarticular部分,部分缺失的关节部分,完全失踪关节部分。可以看出三个传统的骨架提取算法将有相应的分支缺失或分支nonjoint时抵消部分缺失或联合部分是部分缺失,但本文的方法还可以得到更准确的结果,因为本文的消歧策略在第一阶段已删除点远离关节部分,这使得子网的数据用于第二阶段培训。这使得数据用于第二阶段子网训练人体点云与大量的缺失点nonjoint地区。因此,如果丢失的点发生在nonjoint地区,对本文方法的影响是最小的。这是因为每个连接点有多个预测值,即使表面点的联合点缺少一方面,表面点在另一边仍然会缩小到相应的连接点来获取该连接点的预测值。然而,当所有的点的联合缺少一部分,骨架提取的方法在本文中也将显示分支失踪。
为了减少偏移向量回归的难度,本文将抵消向量回归任务分解成两个子任务,单位向量回归,模态向量回归。验证这一策略的有效性,进行了直接和间接回归偏移向量,分别。图5显示的变化曲线Acc-1训练轮的数量(时代)的偏移向量回归精度的验证集hard-pose UBC3V数据集的子集。战略分解偏移向量回归任务显著提高偏移向量回归的准确性。不满意的原因的结果直接偏移向量在文献中提到的回归是偏移向量的长度从表面指向联合点差别很大从一个到另一个部分,使回归目标有很大的差异,与更大的长度和偏移向量主导培训损失,导致一个更困难的训练。单位长度偏移向量具有相同的模态;因此,本文采取的措施分别回归向量和向量模态的长度避免偏移向量的直接回归带来的缺陷,减少偏移向量回归的难度。
我们可以缩短整个匹配过程的时间通过减少匹配范围在每个匹配,从而提高整个匹配算法的效率,同时考虑到准确率。同时,人体在运动,有一个更快的运动,当直接使用上述算法将导致一个更大的识别错误。经过全面的考虑,以确保操作的可靠性算法,每一个框架,我们研究整个样本空间;也就是说,我们可以得到一个更精确的3 d的姿势。
来验证整个交互系统的可靠性和可行性,我们进行实验验证两个指标:精度和实时。通过比较提出了交互方法的响应时间与传统观点凝视交互方法,说明了整个交互系统的可靠性,因为动作识别新的虚拟现实交互方法都有其优点,因为交互方法丢弃的问题固定按钮和刚性交互在传统的交互方法。因为四种常见肢体动作和相应的命令操作提出了在实验设计中,四个肢体动作分开了,如图6。因此,50个互动实验的四个肢体动作,成功互动的数量和平均交互时间为每一个行动都被记录下来。我们可以看到,所有动作的准确率超过70%,显示了虚拟现实交互的可行性与身体运动,但是我们可以看到,不同动作的准确率大大不同,和动作的识别精度更好更大的振幅和左右扩张,而动作的识别精度差更小的振幅和正反面扩张的速度和频率切换不同的动作也更低。切换不同的动作时,速度和频率并不容易太快,;否则,它将很容易导致可能的误动作或减少命令操作的准确性。
三维扩散模型的识别方法有更好的效果的检测困难的关节,如手腕、膝盖和脚踝。难度进行了分析,这是由于关节如手腕、膝盖,脚踝容易阻塞和失真,而人类识别方法使用三维扩散模型之间的相似性全球地区协助推断;所以,它可以改善这些关节的准确性非常好。同时,传统模型网络的平均PCKh曲线没有三维扩散模型的识别方法和多尺度金字塔网络基于注意机制使用三维扩散模型的识别方法)绘制,如图7。
自从交互系统需要注意它的实时特性,否则它对交互体验有很大的影响,减少了交互效率,我们比较了虚拟现实交互过程的平均时间基于三维扩散模型的识别作用与传统观点的目光相互作用过程,实验结果如图8。
50后的平均时间实验测量,和实验结果表明,人类骨骼的识别时间识别方法基于三维扩散模型主要是短的使用角度凝视系统识别方法,说明了优势的人类骨骼的三维扩散模型识别方法提出了。此外,由于角度的目光交互系统需要安排固定的操作按钮在虚拟空间中,是非常不方便的使用和影响整个虚拟现实空间的身临其境的体验,而基于三维扩散模型动作识别的交互方法完全可以避免这些缺点,使整个交互过程更顺利,更有效率。
5。结论
由于三维扩散模型本身的独特优势,点云采集技术的发展,和硬件计算能力的增强,研究人体骨架的检测和提取已经成为近年来一个新的研究热点。作为核心任务领域的计算机视觉和计算机图形学中,检测要点的描述和模型结合取得了一些研究进展,但仍有许多问题有待解决。在本文中,我们提出一套完整的关键点检测,重点描述,显著区域检测和人体骨架模型对齐算法的检测和提取从当地特色。本文主要做以下工作:(1)提出了构建骨架点检测模型使用一种改进的自底向上方案,这首先检测到人体的骨架点的位置,然后整理个人实例根据协会的信息,和整个图片只需要输入一次的预测网络,从而消除人体的不确定性的影响;(2)建议使用现有的骨架点,(2)建议使用现有的骨架点构造骨架点之间的关联信息提供一个新功能的CNN训练,这样可以获得骨架点之间的关联信息检测问题;和(3)使用多尺度均衡模块分别平衡不同尺度的特点和动态注意力分配不同的权重不同尺度的特征根据损失函数当检测不同的关节,因此可以使用不同的尺度的特点。的特性在不同的尺度是动态分配不同的关注权重根据损失函数当检测不同的节点,这样在不同尺度的特性可以更有效地使用。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。
确认
这项工作得到了桂林科技大学航空航天大学基金会项目:研究设计的表达方式从符号学的角度来看,虚拟空间。XJ20KT22。