文摘
人体姿态估计(HPE)是计算机视觉中的一个基本问题,也是在许多领域应用研究的基础上,可用于虚拟装配,时尚分析、行为分析、人机交互、辅助行人检测。HPE的目的是利用图像处理和机器学习的方法来找出关节的位置和类型的人的照片。HPE主要有两个困难。首先,人类复杂的图像使模型需要学习一个高度非线性映射关系,这个映射关系的学习是极其困难的。第二,高度非线性映射关系需要高复杂性,学会了通过使用一个模型和模型具有较高的复杂性需要大量的计算开销。在这种背景下,本文研究了3 d HPE基于变压器。我们介绍HPE在国内外的研究现状,并提供一个理论依据设计变压器三维HPE模型。我们介绍CNN和变压器的技术原理和优化方案,提出一个基于变压器3 d HPE模型。我们使用两个数据集,可可和MPII数据集,进行大量的实验,找到最好的参数模型开发,然后评估模型的性能。实验结果表明,本研究中描述的策略优于所有其他方法在两个数据集。 The average precision (AP) of our model reaches up to 79% on COCO dataset but a PCKh-0.5 score of 81.5% on the MPII dataset.
1。介绍
当人体进行了分析使用HPE的照片,电脑vision-related技术用于提取人体的重要功能和链接在一起。图像传感器获取人体图片,随后分析了计算机视觉算法来提取重要的点,这些点之间的关系。最后,分析提取人体的要点和它们之间的关系。HPE技术也取得了显著的进步和更好的发展和近年来实现了软件和硬件的发展1]。包括算法的改进和优化,新算法可以分析人体的相关结构更全面、智能和使用较少的资源占用获得更准确的关键点定位。改善图像质量的图像传感器和更详细的图片可以使人体躯干和四肢更清晰,从而达到更好的分析结果。处理器的改进,更快的时钟频率,和更好的性能可以改善算法的处理速度,缩短算法的执行时间,并在同一时间执行更复杂的算法分析2]。对人类构成分析,传统的人工方法首先需要执行光照归一化等预处理方法,直方图均衡化,并在图像灰度校正以获得相对清晰稳定的图像,然后使用猪、筛选,或形态学处理来获得人类的特性,那么这些功能正常化视觉词包和其他方法,最后使用加工特性使用HPE算法来确定是否有人体和人体的关键点的位置,从而达到HPE [3]。传统的人工特征提取步骤繁琐且缺乏高层语义信息,这使得传统方法下的HPE场景的限制,导致低精度和泛化。更困难的是人类关键点的闭塞和识别复杂的姿势。HPE与传统方法相比,深度学习方法由款近年来已经被算法研究人员青睐。与手工特征提取相比,款方法具有更好的鲁棒性(4]。与统计学习方法、机器学习方法需要算法研究人员有相应的域,然后模型先验知识域根据先验知识和规则。特性工程中发挥着重要作用的机器学习方法。简单而有效的建设功能是一个重要的依据判断模型是否好或坏。同时,特征尺寸也将极大地影响的性能模型。太少的特性将使模型无法适应。如果目标问题是,太多的特性将使overfit模型。自动特征提取的优势通过深度学习可以处理特征提取问题。通过设计一种基于卷积模型结构和非线性操作,大量的可以自动提取有效的特征。同时,功能不断组合和抽象模型。 It makes the features have more high-level semantic information and global features [5]。基于模型的更新和修正参数通过梯度反向传播算法最终收敛于局部最优点完成参数学习(6]。同时,overparameterized模型有一个隐式的正则化效果,从而可以缓解过度拟合问题造成太多的参数(7]。简而言之,款算法的优良特性,最流行的算法之一,在商业和学术深度学习,有许多应用程序在计算机视觉、自然语言处理和语音识别。HPE属于计算机视觉领域的研究价值和挑战性的方向和范围广泛的应用于军事、安全、工业、和娱乐,主要在智能视频监控、病人康复系统、人机交互、人体动画捕捉和虚拟现实等等。HPE算法可以实现自动识别人类行为分析和行动。与传统的手工分析算法相比,深度学习算法极大地提高效率,解放生产力,从而使上述行业的自动化和其他相关场景,减少人力资源的消耗,并使更多的新场景。(8]。
本文的主要工作是研究3 d HPE在变压器的基础上,开发一个HPE软件库,为研究人员提供便利HPE算法和应用程序的软件开发人员,和简化算法的研究和开发过程的研究人员和相关的应用程序开发人员。降低开发的难度相关从业者也可以让更多的大学生和其他初级开发人员关注领域的HPE,共同推动这一领域的发展和应用。研究了3 d HPE基于变压器和提供一个理论依据设计变压器三维HPE模型。我们引入CNN和变压器的技术原理和优化方案,并提出一个3 d HPE模型。我们把人类构成和使用各种数据的图像增强技术,如旋转、缩放和饱和度的调整和使用这些数据来训练HPE模型。我们使用两个数据集,可可和MPII数据集,进行大量的实验,找到最好的参数模型开发,然后评估模型的性能。实验结果证明该方法的效率。
2。相关工作
计算机视觉有着悠久的历史,利用3 d模型来识别对象。3 d模型可用于识别限制数量的类别,如汽车和摩托车。设计独特的特点相匹配的合成三维模型与真实的照片(9- - - - - -12]。一些学者开始使用3 d物体识别的神经网络,因为他们的伟大的并行处理能力和他们在对象识别的成功。对3 D对象,梅塔D et al。13Hopfield网络发达,虽然它只是适合光滑的表面。王等人。14指定一个能量损失函数最小值时,识别结果是准确的,和这种方法可能确定几个项目在一个单一的场景。提出的3 d ShapeNets彭et al。15)使用3 d CNN架构学习特性从立体像素网格用于识别目的。前三层的3 d ShapeNets卷积层,第四层是一个完全连接层。考虑对象轮廓识别和分类的影响,没有池操作中使用的网络。这种方法实际上是一个模拟二维深度卷积的过程,但输入源从一幅立体像素网格,和二维卷积操作改为三维卷积,在识别和分类取得了良好的效果。PoseNet相比,它返回6 d姿势直接从RGB图片通过网络,作者(16,17)提出将三维姿态估计问题转化为分类问题,使离散连续构成空间。因为它的回归位移和旋转向量,这两个量需要hyperparameters调和损失函数。另一种方法是不能直接预测对象的构成,但预测像素坐标的重点对象,类似于劳D g .[提出的方法3),因为所有的预测的值在2 d图像,所以没有损失函数需要调和。与不同的损失,整个培训过程将会变得更加稳定。使用一域的去噪autoencoder随机化训练模拟3 d模型的观点,> M a和葛R C [18)输入图像中的对象转换为一个向量,然后确定最近的pretrained向量返回训练数据的适当的位置。任等。19)提出了一种新的估计6款d对象的构成。本文指出,直接返回对象的方法对图像精度有限,匹配对象的渲染图像,它可以进一步提高。提高精度,给出一个初始姿态估计,渲染合成RGB图像匹配目标输入图像,然后计算出更准确的姿势。与传统的姿态估计方法相比,基于深度学习方法有更好的性能,主要依赖于强大的深度学习的特征提取能力,这使得它适合姿势估计任务。全球注册的方法不依赖于最初的姿势,和一个常用的方法是提出的RANSAC算法Badrinarayanan et al。20.]。在每个迭代的方法中,需要注册的两个点集是第一个采样,然后计算,评估,直到两者的区别是低于某个阈值和迭代过程终止。该方法有很高的要求的质量和准确性的3 d模型对象和输入点云,需要更昂贵的计算资源。参考文献(21,22)提出了生成3 d边界框的候选人,首先提取目标物体的点云,然后使用3 d卷积网络学习姿势估计voxelized特性。虽然可以有效地编码几何空间体元表示,他们计算昂贵。此外,一些深度学习框架方法基于三维点云可以直接估计6 d构成三维点云。提出的VoxelNet Gujjar H s [23)使用3 d旋转特性学习voxelized网格的点云,达到很好的结果到目前为止KITTI数据集。基于RGB-D等任务的方法是常用的室内机器人三维物体识别,提出评估和把握。最具代表性的这种类型的方法是LINEMOD算法提出的Du et al。24),从不同的角度和深度图像中提取RGB图像为对象的三维模型生成模板。然后使用这些模板匹配实际的图像,得到初始姿态估计,然后使用ICP算法来优化。Busari et al。25)融合的深度图像的特点在此基础上,和卷积神经网络处理RGB图像和深度图像在同一时间。获取初始姿态信息后,还需要执行后处理优化3 d输入数据来获得最终的姿势。
3所示。方法
3.1。卷积神经网络构成
现代cnn主要由卷积层、汇聚层,完全连接层,激活函数、归一化层,输入和输出。卷积池前端的一部分网络特征提取器,包括激活函数和归一化层。的后端靠近输出可以选择积极的网络层根据不同的任务类型,包括完全连接层,全球池层和卷积层。一个完全连接层与特征提取器的后端在分类或回归的早期阶段,和完全连接层降低了特征的维度。然而,如果过多可能出现过度拟合参数包含在完全连接层。各种组件的CNN描述如下:(1)CNN卷积层是核心组件,由卷积核,其目的是提取局部特征在图像。参数的数量有显著减少当卷积内核上滑过一个图像或特征映射。尽管每个个人的接受域卷积的内核是温和,堆积许多卷积层,接受域的网络可能会更大。卷积核回避一个图像或特征映射并产生激活值基于卷积的点积内核和当前的地区当CNN转发。滑动结束后,卷积层输出映射一个新特性。(2)cnn的另一个重要组成部分是池层,这是一种非线性将采样。常见的池层是马克斯池层,平均池层,全球最大池层,等。其中,最大池层是最常用的池层输入分为一组不重叠的条件和需要在每个子区域最大值代表这个次区域。使用池层的目的是获取翻译不变性,使模型关注的特性,而不是功能的位置。此外,池层也可以减少地图的分辨率特性,可以减少网络的计算成本,同时避免过度拟合。(3)完全连接层:高层语义特征提取后,CNN已经使用许多层的卷积和池中提取特征。在旧的技术,完全与层作为一个“分类器。“这一层中的每个神经元连接到前面的层。地图中的位置信息功能是丢弃的完全连接层,降低了模型的学习过程的参数敏感性。(4)激活函数是一个神经网络中不可缺少的组成部分,通常与卷积层一起使用。为了理解复杂的映射关系,利用非线性变换在激活函数而不是基本的线性变换。一个线性回归模型是没有激活的神经网络函数。常用的激活函数是乙状结肠函数,双曲正切函数,ReLU函数,漏水的ReLU函数等。(5)归一化层:CNN的训练是一个非常复杂的过程,随着网络的深度增加,网络的训练将会越来越难做。这是由于很多原因。首先,如果有一个细微的变化在前几层网络,这一变化将逐渐积累随着层数的增加,从而产生了很大的影响。第二,如果数据在某一层的分布网络的变化,那么这一层的后端网络需要再次了解。网络在训练过程中,需要不断适应变化的输入数据的分布,而且收敛速度的影响。第三,如果输入数据的分布变化,功能的分布在整个网络的每一层的变化,这种现象被称为内部协变量的转变。为了解决这个问题,研究人员建议批量标准化层。除了批量标准化层,常用的归一化层组归一化层,实例正常化层等。
3.2。优化方法
常见的卷积神经网络优化方法包括随机梯度下降法(SGD) AdaGrad,亚当,等等。(1)SGD算法。更新网络参数: 在哪里α学习速率和吗θ模型参数。(2)AdaGrad算法。计算梯度: 累积的平方梯度: 更新网络参数: 在哪里α是全球学习速率,θ模型参数,u是一个常数,梯度平方累积变量r= 0。(3)亚当算法。更新第一次估计:
更新二次矩估计:
正确的第一时刻偏差:
正确的二阶矩偏差:
更新网络参数: 在哪里和是指数衰减率的估计,一阶矩变量年代= 0,二阶矩变量r= 0,和数量的时间步骤t= 0。
3.3。基于改进的3 d HPE算法变压器
变压器神经网络旨在解决sequence-to-sequence任务和轻松地处理长期依赖关系。深入学习模型,使用注意力的机制和由许多self-attention层。不同重量的意义部分输入数据和流程的所有输入数据通过允许并行化,从而大大减少了训练时间。它编码输入数据特性通过注意机制。输入图像分为几个当地补丁和他们的关系的表示计算(26]。变压器可以应用于各种数据形式,最近的研究显示,他们可以达到更高的精度,更好的效率参数,计算效率时应用于计算机视觉领域。在本节中,我们详细描述比起我们的基于变压器模型的训练过程。
3.3.1。培训过程
摄像机捕捉人类构成一个特异性的场景在一定帧率,创造了一个人类构成的数据集,并执行数据增强。数据增强方法包括随机旋转,随机缩放和随机饱和度调整。然后从−45°随机旋转图片+ 45°,图片和随机规模0.7∼1.3倍的原始图像。随机饱和度调整的实现方法是先设定一个阈值t。然后中随机选择一个数字(0,1)。如果是这样,饱和度调整缩放的。如果不满意,一个数字b内随机选择(——),和饱和度调整的比例是b+ 1。二维HPE模型训练,数据处理后图像首先进行二维HPE获得联合点的二维坐标的人体。它具体包括以下:(1)级联金字塔网络(CPN)用于2 d HPE,和面具R-CNN用于人类边界框检测,在面具R-CNN使用resnet - 101为骨干(2)的基础上完成的模型,尼泊尔共产党选择ResNet-50为骨干,和输入图像的大小是384×288(3)重新启动网络的最后一层,所以人类共同的热图点返回相对应的二维联合点数据集(4)级联金字塔训练后网络模型、输入data-enhanced图像金字塔的级联网络2 d HPE并获得二维人体关节的点坐标
在上面的培训过程中,模型hyperparameters设置如下:迭代10000次,Adam优化器选择训练样本的数量在单个批处理是16,和学习速率使用逐步衰减策略。率是0.1。训练后改进的变压器模型,所有的人类共同的二维坐标点组成的序列和功能的改善变压器输入3 d HPE,和人类共同的3 d坐标点。
3.3.2。提高变压器模型训练过程
提高变压器通过可切换的颞孔网络构成图卷积,和改进的变压器模型训练数据集,包括以下:(1)可切换的颞孔网络结构:输入的特征序列大小可切换的颞孔网络(243年,34)。输入特征序列受到一个一维卷积核的大小,扩张的速度,和一个输出通道数为544。然后用剩余功能经过B块结构。每一块首先经历一维可切换的时域卷积核大小的孔卷积3和3 c的孔率。后来,特征序列与内核进行了一维卷积1和膨胀率的大小。每个卷积是紧随其后的是一组1 d批归一化层,ReLU激活函数和辍学层。(2)可切换的颞孔卷积:输入的特征序列大小可切换的颞孔卷积(H, 544)。其中,H代表了H帧图像,544代表通道的数量,和输入特性的时域卷积序列首先受到卷积核的大小3,1的步幅,3 c的孔率。卷积核大小年代,孔率是标准的1和self-attention卷积。的大小特征序列self-attention之后H×H,然后平均池特征尺寸(H, 1),然后转换因子米通过一维卷积,卷积核的大小1和SoftMax。获得的特征序列K2乘以米和特征提取后的特征序列的时域卷积核大小的孔卷积3。获得的特征序列K1乘以(1 - m)特征提取得到的特征序列标准卷积,卷积内核大小的年代。(3)Self-attention机制:问机制第一聚合联合分特性的局部特征信息序列通过姿势图卷积,然后执行矩阵乘法和k,权重矩阵是通过SoftMax最后乘以V获得的输出图self-attention机制。(4)的关系人体关节点包括人体关节点邻接关系,人体关节角度对称关系,和人体关节运动相关性的关系。(5)有四种类型的运动人体的关节之间的关联:左腕连接到右脚踝,左肘与右膝,右手腕是连接到左脚踝,右手肘是连接到左膝盖。(6)损失模型由两部分组成;一个是三维坐标的区别: 在哪里米= 16,是第i个关节的三维坐标点的预测模型,然后呢代表的真正价值的第i个接合点的三维坐标。
另一部分是骨骼的长度的差异在对称的人体的一部分: 在哪里代表C-th骨的长度在左边,是右边的C-th骨的长度,和 。
六个对称部分骨骼的长度差异颈和左、右肩、左和右肩膀和左和右手肘,左和右手肘和左、右手腕,脊椎和骨骼的长度差异左右臀部,骨的长度差异左右臀部和膝盖左右,左和右膝盖。不对称的部分人体的不同长度之间的左和右脚踝。骨骼的意义差异的对称部分人体右手腕的长度和人体的右手肘的长度是一样的左腕和人体的左肘;也就是说,理想的区别这两个应该是0,和损失函数表达式如下: 在哪里和是各自的系数。
本文最后,transformer模型设计如图1。
4所示。实验和分析
4.1。数据来源和参数选择
可以使用一个自定义数据集通过收集相关图片或使用一个自动化工具等,提出的(27)来创建一个数据集相关的图片。在我们的实验中,我们使用两个先进的数据集,可可(28]和MPII [29日- - - - - -31日]。可可是一个大型的数据集提供的微软团队HPE等计算机视觉任务。COCO2017分为训练集、验证集和测试集。它有200000张图片和25000人的标签,标签和每个人的句子包含17个关节。解决姿态估计问题时,可可首先探测目标和定位联合点。第二,评估标准的姿势估计指的是目标检测标准数据集。它使用对象关键点相似(书)评估关节的真实值和预测值之间的相似性。本文的总体网络计算美联社(平均精度)和AR(平均召回)基于书的结果。MPII是评估HPE的另一个数据集的结果。它包含超过28000个训练样本和使用PCK指标评估。在数据准备阶段,本文使用DETR探测人类的边界框。 The original image of COCO is 384×288, which is cut into blocks according to the human body bounding box and then expanded into a single-person image of the same size. Data enhancement includes the following ways: Random rotation [-45°, 45°], random scale [0.7, 1.3], and flip. The MPII data preprocessing procedure is consistent with COCO except that the image resolution is set to 384×384.
变压器hyperparameters编码器层的数量有一定的影响的实验。因此,本文选择编码器层的数量是6、8、10实验比较。结果如图2- - - - - -4。所选评价指标如下。在这个分类指标、精度(ACC)是用来评估模型在样本分布平衡,指样本的比例正确的结果。 在PPV的比率预测实际积极样本阳性样本。
根据曲线的趋势图,6-layer, 8-layer,个人编码器,8-layer编码器性能也是最好的。500 -时代也在训练,8-layer编码器精度最高。在500 -时代培训,8层ACC指标达到90%以上。这表明编码器编码中使用多线程的注意机制的变压器模型可以更好的学习姿势估计之间的关系。
4.2。模型性能测试实验
我们进行了模型性能实验这两个数据集和我们的模型的结果与其他方法相比。表1和2总结结果。
表1展示了本文的预测结果之间的比较和其他可可测试集的方法。可以看出,美联社可可测试集上的我们的方法是71.9%,还是3.7%高于PRTR比率相同的骨干网络。APs CVPR和大会只有62.5%和65.8%,分别。此外,我们的方法是基于“增大化现实”技术的78.1%,这比PRTR高出2.1%。
MPII验证的结果如表所示2,他指的脑袋,同样Sho指肩关节Elb指肘关节,Wri指腕关节,⊙用途制造风筝指膝关节和踝关节。当使用ResNet-50骨干网,PRTR获得pckh - 0.5的得分81.5%的腕关节和踝关节的78.5%。方法在相同条件下的分数分别为82.4%和80.2%,分别。当骨干网resnet - 101取代,PRTR pckh - 0.5分数的手腕和脚踝PRTR分别为81.7%和79.5%,分别。方法在相同条件下的分数分别为83.1%和81.0%,分别。与其他关节相比,本文提出的方法有更多的优势在末端关节的预测结果。
5。结论
HPE在计算机视觉是一个热门的研究方向。因为图片拍摄角度等影响因素,照明,和周围的环境,早期HPE方法基于手工制作的特性一直未能获得令人满意的性能。使用卷积神经网络(CNN)学习特性表征,而不是传统的手工制作的特性可以实现端到端优化。虽然基于CNN HPE方法已经取得了很大的进步,在实际应用中,它仍然面临着一些问题。一方面,大多数HPE研究侧重于提高精度,但它忽略了重要平衡模型的速度和准确性,对HPE效率至关重要。先前的方法没有实现量化误差的重要性和优化HPE的矛盾,这是实现高精度HPE的一个关键问题。这两个主要问题是解决在本研究从三个不同的角度进行研究,有效的网络体系结构设计、模型训练方法和高精度的位置。介绍HPE在国内外的研究现状,它提供了一种理论依据变压器3 d HPE的设计模型。其次,CNN和变压器的技术原理和优化方案,和一个3 d HPE模型提出了基于变压器。两个著名的数据集是用于执行实验来找到最好的参数模型的发展。 Various data enhancement techniques such as rotation, scaling, and saturation adjustments are applied and the model is trained. The experimental results show that the proposed model’s prediction results are better than other methods we compared our work with.
数据可用性
在当前的研究中使用的数据集是可以从作者以合理的要求。
的利益冲突
作者宣称没有利益冲突。