文摘
多人构成估计是计算机视觉的一个重要而复杂的问题。它被认为是人类骨骼问题的联合检测和解决联合热图回归网络近年来。实现准确的姿态估计的关键是学习健壮和歧视特征图。尽管当前的方法已经取得了显著的进展通过层间融合和intralevel融合特征图,一些作品关注这两种方法的结合。在本文中,我们提出一种多级聚合网络多人姿势估计(或然数)。或然数不断学习丰富的潜在空间信息融合功能层内。或然数也增加了层次之间的联系为层间融合在同一分辨率特征图谱,以便重用低级空间信息和完善高层语义信息,获得准确的关键点表示。另外,我们观察到一个输出之间缺乏联系低级和高级信息的信息。为了解决这个问题,一个有效的注意机制提出(SAM)。洗牌旨在促进横渡英吉利海峡的金字塔特征图谱之间的信息交换,而关注使低层和高层表示之间的权衡的输出特性。 As a result, the relationship between the space and the channel of the feature map is further enhanced. Evaluation of the proposed method is carried out on public datasets, and experimental results show that our method has better performance than current methods.
1。介绍
人类造成估计(HPE)可以被理解为人类骨骼关节的位置估计,如头,左手和右脚。这是一个基本没有挑战性任务在计算机视觉和应用在许多领域,如人机交互、行为理解和自动驾驶。近年来,HPE已经取得了伟大的进展与深度学习的方法。
获得信息,有利于骨骼关节的定位和分类,现有方法主要执行层间或intralevel融合的特性。在层间融合,不同层的特点融合神经网络,如图1(一)。相反,intralevel融合指的是融合不同渠道的特征图在同一层,如图1 (b)。例如,堆放沙漏(1)提取的特征融合不同层次,利用跳过连接有效地捕获各种空间关系的要点。高分辨率网络(HR-Net) [2)保持高分辨率特征的空间信息通过低分辨率的特性,使得高分辨率子网不断获得低分辨率的特性通过密集的连接提供的语义信息。在剩余的步骤网络(工匠们)(3],intralevel金字塔特征综合提取更详细的地方空间信息获取微妙的地方表示和准确定位要点。
(一)层间特性融合
(b) Intralevel特性融合
尽管一些特征融合方法实现了改进的性能,他们只使用两种融合方法之一。intralevel特性的融合可以提取更微妙的地方表示,从而留住更精确的空间信息,这是本地化的关键要点。然而,mush不可恢复的信息将丢失下来upsampling intralevel融合的过程。相反,层间融合可以增加将采样装置的容量,从而降低信息的损失。因此,有效改善HPE的准确性通过结合这两个功能融合方法。在现有多人提出评估方法,几乎没有工作雇佣intralevel同时融合和层间融合。改善HPE的准确性,本文探讨了如何把这两个特征融合方法。
为了解决这个问题,本文提出了一种新的多级聚合网络(或然数)。这种或然数的框架如图2。或然数,我们用同样的intralevel融合策略在网络剩余步骤(工匠们)。工匠们,地图频道切割后,特点是downsampled intralevel融合不同尺度。在此基础上,从不同层次特征图谱,但相同的规模由element-wise和融合。加强intralevel融合、功能层之间添加连接,cross-stage特性采用聚合策略有效地传播多尺度特性从早期到现阶段进一步丰富信息包含在当前阶段的特性。
我们注意到网络的输出特性通常直接进入关注权重的机制,因此,网络可能会忽视横渡英吉利海峡的高层特征图谱之间的通信和低级特征图。
为了解决这个问题,本文提出一种新的关注模块,转移注意力机制(SAM)。山姆使用洗牌频道提高横跨海峡的低层和高层之间的信息交换信息,从而调整低级和高级特性之间的相互依存的地图。实验结果也验证山姆可以自适应响应特性的重要部分的地图。
这项工作的主要贡献可以概括如下。(1)我们提出一个新的HPE或然数。或然数提高了图像特征与层间结合intralevel特性融合特征融合,从而提高HPE的准确性(2)萨姆,我们提出一个新的注意力机制可以加强不同层次的特征图谱之间的通信和突出特征图的反应在空间通道
本文的其余部分组织如下。部分2介绍了相关工作,部分3描述了算法用于实现该方法,部分4提出并讨论了实验结果,部分5总结了纸。
2。相关工作
先前的研究在人类姿态估计是建立基于部分原因的概念模型,使用不同的配置部分代表一个人的4]。目前的人体姿态估计方法可以分为两类:自顶向下方法(1- - - - - -3,5- - - - - -14和自底向上的方法15- - - - - -20.]。自顶向下方法首先获得人体逐探测器的位置如你只看一次(YOLO)的意思21]或单发射击multiBox检测器(SSD) [22),然后在人类的地区检测要点的位置。在自底向上的方法,所有人类的要点在直接检测到一个图像,然后这些部分被列为人类的实例。我们主要关注功能融合、加强功能连接在这些方法和讨论功能融合问题方面的有效的特征表示。注意机制也广泛用于这些方法。然而,这些方法直接输入特性映射到关注权重的机制,而不考虑不同语义层之间的通信。我们设计转移注意力机制(SAM)模块加强之间的联系不同的语义层通过洗牌。因此,我们还讨论了常用的注意机制在人类的姿势估计(HPE)。
2.1。人体姿态估计方法
近年来,热图回归网络应用于实现多人姿态估计。最先引入骨骼关节的热图(23),设计解决问题的协调预测骨架关节在传统HPE方法。要点丢失的上下文信息和空间坐标的预测。但热量地图可以解决这个限制,成为最常见的骨骼表示。基于热点图方法的关键是设计一个网络体系结构更有效地回归回归热图。
GRAPH-PCNN [24)提出了一种基于图结构和两级框架模型无关。这种方法增加了定位子网和图结构提出优化模块对原始热图回归框架,在这一网络热图是退化的粗定位的重点和关键点候选人提供集。定位子系统是用来提取视觉特征中的每个kepoint候选集和预测最后的关键点坐标。由于分辨率降低的热图,真实存在量化误差的热图,这将导致模型训练和可怜的推理模型不准确的性能。要解决这些问题,Zhang et al。25)提出了一种新的分布传感(黑暗)HPE坐标表示。在黑暗,运用泰勒展开有效解码坐标生成无偏热图。黄等。26使用encoding-decoding过程生成关键点热图和认为离散像素点作为一个指标。然而,这种方法在数据增强过程有偏差。因此,连续测量标准公正的数据处理(UDP)提出了文献[27]。连续测量标准被用作图像尺寸测量标准,定义为相邻像素之间的距离在一个特定的空间,从而抑制造成的定位偏差离散测量方法。阻塞的情况下也会影响热图的回归;考虑到这一点,秋et al。28)提出了一个形象指导政府通讯网络(IGP-GCN)级联特性适应。IGP-GCN网络综合人力结构和图像上下文来优化估计结果和学习造成位移由进步的方式。这不仅使IGP-GCN捕获姿势结构信息也同时获取背景图像信息。IGP-GCN,闭塞的关节可以从图像的上下文信息推断和构成结构线索。
2.2。特征融合
多人最以前的工作姿势估计获得丰富的特征信息通过层间连接或intralayer连接。卷积的顺序架构造成机器(CPM) [14)使用各种连接策略,隐式地捕捉要点之间的空间关系和获得一个很大的接受域通过一个更大的估计量,因此,它可以实现一个更精致的空间表示。金字塔剩余模块(人口、难民和移民事务局)提出了Cai et al。3)增强了人类的尺度不变性组件和使用层间特性融合时显示了伟大的性能。纽厄尔et al。17)提出了u型堆叠沙漏网络获得不同分辨率的空间特性之间的联系通过将采样和跳过连接。此外,Chen等人。5金字塔]RefineNet结合使用级联网络的层间特性保持高层和低层信息地图多尺度特征。在高分辨率网络(HR-Net) [2),四个子网连接在平行,重复cross-parallel卷积是用于执行多尺度融合,提高高分辨率表示。同时,剩余步骤网络(工匠们)不断增强学习的intralevel特性融合提炼当地表示。虽然这些提到的方法的有效性验证夹层特征融合和intralayer功能融合,探索两者的结合人类姿态估计是罕见的。
2.3。注意机制
在计算机视觉注意机制的性能显著。通道的注意,空间的关注,和空间注意结合通道注意目前最常用的注意机制。
2.3.1。频道的关注
Squeeze-and-Excitation网络(SE-Net) (29日)通过“Squeeze-and-Excitation”块可以自适应地突出了channel-wise建模channel-wise统计特征图。区别的功能网络(DFNet) (30.)使用全球平均池引入全局上下文信息,包括平滑网络与全球信息和通道注意力模型来提高组内的一致性。
2.3.2。空间的关注
Kligvasser et al。31日)提出了一种空间激活函数与深度方面分离卷积。赵et al。32]研究了空间注意机制从信息流的角度。然而,他们只考虑单方面的通道或空间,而忽视空间注意和关注渠道的结合。
空间注意结合通道注意:在回旋的空间和Channel-wise关注网络(SCA-CNN) [33)提出了空间和通道的注意。注意不仅是信道编码也在空间的角度来表示的一部分功能映射需要注意。
楚et al。34]提出了一种多尺度模型multicontext注意力(MCA),注意改善姿态估计的性能。苏et al。12)提出了空间和Channel-wise关注残余瓶颈(SCARB)多人姿势估计,研究了建模的空间和渠道。与此同时,吸引et al。35)提出了一个全球平均池和最大池频道关注模块卷积块关注模块(CBAM)。双重关注网络(DANet) (36]提出了自适应整合地方特色和全球依赖关系,语义依赖模仿了一个平行通道尺寸,和空间维度有两种注意模块。
3所示。方法
多级聚合网络的整体框架如图(或然数)2。这是一个级联的多级聚合块(产)模块。慢吞吞地注意力机制(SAM)是在最后阶段使用。在本节中,我们将详细描述这些模块。
3.1。或然数:多级聚合网络
输入图像的卷积层应用于计算特征图。在这一层,共有104个卷积内核。这一层是紧随其后的是产甲烷网络,其目的是实现intralayer融合和层间融合。产网络的输入特征图经常切成四个部分 在通道上。
产甲烷的产甲烷网络级联系统模块。切片特征图谱被送入第一个产模块。每个产模块包含两个操作模块,根据设计的工匠们(3),如图所示3。在每一块,输入特征图谱被送入卷积网络。四个卷积网络与不同数量的卷积应用内核生成特性的不同尺度四个输入特性,分别。如图3,卷积层的数量在这四个卷积网络是4、3、2、1分别。所有这些卷积层构建通过卷积操作。
假设 第一块的输出吗 - - - - - -产模块。intralevel融合,这些特性输出连接生成块特性 。这些upsampled块特性和美联储的第二操作 - - - - - -产模块。第二块,第一块是相同的操作应用,及其被定义为输出 。最后,这些块之间的层间融合应用于每个产甲烷的输出特性 ,定义在以下方程。
产模块是指监督继电器的想法和执行损失计算为每个产模块。首先,我们使用高斯核喷雾要点到热图的所有标签 ,在方程(定义2),size-adaptation的标准差是对象, 热点图的位置,是真正的标签坐标。在这项工作中,我们构建每个关键点的热图独立的人类骨骼。获得的输出特性每个产模块的关键点预测网络,包括upsample和两个卷积操作,应用特征映射到骨架预测热图。最后,均方误差(MSE)函数用于计算每个产甲烷的预测误差模块,和整体损失的产甲烷网络被定义为方程(3)。
在这里,的MPBs或然数,然后呢是人类骨骼的关键点的数量。预测热的地图吗 - - - - - -th的关键点 - - - - - -th产模块,真理是地面热量的地图吗 - - - - - -关键点。
多级聚合块(产)网络模块利用剩余的方法步骤(工匠们)intralevel融合为层间融合和使用cross-stage连接。梯度特征差距形成的紧密连接结构非常狭窄。此外,渠道不同层次之间具有不同特点的信息可以补充和加强彼此获得更精确的空间和语义信息。
3.2。山姆:注意力机制
慢吞吞地注意力机制(SAM)的最后一个模块中使用多级网络洗牌和体重的输出功能。如图4,山姆的第一个模块是通道洗牌的剩余连接。洗牌后, 卷积操作和乙状结肠激活函数用来获取空间的关注 。山姆的最后一部分是频道的关注,由全球池,两个 卷积操作,ReLU激活功能,乙状结肠激活函数获取渠道关注向量 。
3.3。通道洗牌操作
达到沟通的目的,功能,我们考虑使用一个通道洗牌代替密集的点态卷积。如图4(一)通道洗牌操作可以被描述为一个过程组成的“reshape-transpose-reshape”操作。假设分为输入层组,输入功能重塑 维度,在每一组通道的数量。然后,转置到的特性 维度,以确保以下组卷积操作的输入来自于不同的群体。最后,它被改造成维度 因此,不同群体之间的信息流动。重组特性是由element-wise合并与原来的总和形成通道洗牌的输出模块。
假设输入的山姆 ,这也是去年产的输出模块。通道shuffle可以制定以下方程。
在这里,代表海峡洗牌操作,是输出通道的洗牌模块。
3.4。注意机制
空间注意:关键点位置的特征映射会导致不良的结果由于存在地区的空间信息与要点。空间注意的功能机制是重量特性图,减少无关的干扰区域,和自适应突出相关的区域定位任务。spatial-wise注意体重是由一个卷积操作乙状结肠函数的输入。空间注意可以制定以下方程。
在这里,表示卷积操作是可学的卷积运算的重量。是乙状结肠激活函数。最后,学习空间注意体重新,输出被定义为在方程(6)。是空间注意的输出机制。
3.4.1。频道的关注
每个通道的特性映射功能激活相应的卷积层。自卷积仅在当地的运营空间,很难获得足够的信息来提取通道之间的关系。灵感来自于Squeeze-and-Excitation网络(SENet) (29日),它使用励磁模块学习每个卷积的重量特性映射层,我们把频道关注的过程中自适应地选择卷积层。
在挤压步骤,输出特性的空间注意机制用作输入通道的关注。我们编码整个空间功能一个通道作为全球功能和使用全球平均分担生成频道统计 ,定义在以下方程。
在这里,是 - - - - - -th元素 ,和代表的输出 - - - - - -th卷积核的频道关注网络。
挤压操作获得全球描述特征,但我们需要另一个手术来捕获通道之间的关系。它必须能够学习每个通道之间的非线性关系。此外,学习的关系并不是相互排斥的,因为多通道特性可以代替一个炎热的形式。因此,乙状结肠闸门机制用于信道统计信息 ,定义在以下方程。
在这里, 和 表示两个完全连接层,可学的参数表示ReLU激活函数。
最后,频道注意体重山姆是后天习得的。山姆可以生成的输出由以下方程。
和产甲烷的特性,我们把山姆的输出特性在估计要点 。山姆模块的损失可以被定义在以下方程。
在这里,热的地图吗 - - - - - -关键点的特征预测的山姆。最后,或然数的整体损失函数被定义为在方程(11),由产甲烷和山姆的损失。在训练阶段,该方法得到的权重通过最小化总体损失函数。
4所示。实验
4.1。数据集和实验设置
以下4.4.1。可可数据集
我们评估模型具有挑战性的可可数据集(37]。可可train2017集,其中包括57 K图像和150 K人实例,用于训练模型;可可minival数据集作为测试集,输入图像的大小 。
4.1.2。MPII数据集
MPII人类构成的数据集是一个先进的评估基准人体姿态估计。数据集包括大约25 K图像包含超过40 K人用带注释的身体关节。在这个实验中,数据扩充和培训策略设置在可可数据集一样,除了输入图像大小 。
4.1.3。培训细节
我们在Pytorch实现提出或然数模型,使用Nvidia GTX 2080 ti gpu;每个GPU的最小批量大小是8。亚当采用优化器,线性学习速率逐渐减小为0。的体重衰变 。所有图像旋转和缩放。旋转范围从-45度到+ 45度,设置和变焦范围从0.7到1.35。
4.1.4。测试细节
我们估计热量地图使用高斯滤波器。我们平均预测热图的原始图像与相应的输入图像的结果。四分之一偏移的方向的最高反应第二反应是用于获得最终的要点。类似于金字塔的级联网络(CPN) [5),造成分数的产品平均得分的重点和边界框得分。
4.1.5。可可评价指标
OKS-based意味着平均精度(mAP)作为评价指标为可可数据集。根据欧氏距离发现关键点和相应的地面实况,书的价值定义在以下方程。
在这里,代表一个人的ID在地面实况,代表了 - - - - - -th关键点的人 , 表明, - - - - - -th关键点是可见的代表这个人所占据的平方根区域,从边界框计算的人 。 的归一化因子吗 - - - - - -关键点。和代表的欧氏距离的平方预报值与地面之间的真理。
对于一个预言的人 ,如果书这个人的价值高于阈值 ,预测将被视为正确的。的平均精度定义为以下方程。
4.1.6。MPII评价指标
正确的百分比要点(PCK)报告的关键点检测比例下降的归一化距离内地面真理。PCK定义在以下方程。
在这里,是PCK的预测结果的价值吗 - - - - - -关键点,代表的比例因子 - - - - - -届的人,是一个阈值设置为0.5。
4.2。烧蚀研究
在本节中,我们进行深入的分析,该方法的结构。所有的消融研究可可数据集上执行。
4.2.1。准备产模块的数量
在这个实验中,我们探索与不同数量的产甲烷性能模块。对比结果如图5,产甲烷的数量模块设置为8,16、24、32。当产模块的数量达到32时,该方法达到最佳性能,和地图是70.5。模块的数量持续增长,参数的个数的增加将导致计算成本的增加,因此,我们选择理想数量的MPBs 32。
4.2.2。级联连接和跳过连接
验证在产甲烷的连接策略的有效性,我们比较级联连接和跳过连接。对比结果如图6,很明显,级联连接产生更好的性能。
4.2.3。烧蚀研究的山姆
山姆模块验证的有效性,我们比较现有模块:空间和Channel-wise关注残余瓶颈(SCARB)和姿势Rene机(人口、难民和移民事务局)。输入大小默认值: 。结果如表所示1。可以看出我们的山姆结果在地图上改善0.4相对于SCARB,相对于人口、难民和移民事务局和改善地图0.6。我们也分析不同洗牌位置的影响在山姆模块的性能。萨姆一把洗牌操作之间的空间和通道,和SAM-B将洗牌操作前的空间和通道,如表所示2。SAM-B结果在最好的地图72.3中,这是一个改善在萨姆一0.1。
4.2.4。与最先进的方法
来验证我们的方法的有效性,在这个实验中,我们比较该模型和最新的可可test-dev数据集的方法。比较结果如表所示3。没有额外的数据进行训练,我们的单一模型可以使用或然数骨干网达到70.5地图,并通过添加空间和Channel-wise关注残余瓶颈(SCARB)达到71.9的地图,这是高于0.1 CSM的地图。添加山姆的结果高于SCARB 0.6的地图。这些结果表明,我们的方法更有效。
我们也验证MPII测试集上的或然数。如表所示4,山姆模块产生一个改进在图2.9中,这进一步证明了我们的方法的普遍性。
最后,图7显示了我们的预测结果或然数MPII和可可数据集。
5。结论
在本文中,我们提出一个自上而下的多级聚合网络处理多人姿态估计。或然数学习的关键点表示通过有效intralayer融合和层间融合。我们也设计一个注意力机制模块。洗牌旨在推动横渡英吉利海峡的金字塔特征图谱之间的信息交换,同时注意执行之间做出取舍的低层和高层表示输出特性。总的来说,我们取得一个好的结果在两个关键点基准。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
作者要感谢匿名评论者的有价值,这样的一个早期版本的手稿深刻的评论。这项工作得到了中国自然科学基金(61871196和61871196号),国家重点研发项目中国没有。2019 yfc1604700),中国福建省自然科学基金(2019 j01082和2020 j01085号),和促进中青年教师在科学和技术研究华侨大学(没有。ZQN-YX601)。