文摘

使用计算机视觉的目标检测和识别一直是一个有趣的和具有挑战性的研究领域在过去的30年。专业运动员和体育爱好者可以通过适当的训练纠正训练和辅助训练系统。这样的激励研究人员需要将人工智能与体育领域进行研究。在本文中,我们提出一个面具Region-Convolutional神经网络(MR-CNN)——基础的瑜伽运动识别方法基于图像识别任务的瑜伽运动。改进MR-CNN模型基于region-convolutional网络的框架和结构,提出了一定数量的候选区域的图像特征提取和分类,然后输出这些地区检测到边界框,并使用分割掩模对候选区域的预测分支。改进MR-CNN模型使用一种改进的深残余网络作为特征提取的骨干网,双线性插值的使用感兴趣的区域(RoI)提取候选区域一致,其次是目标分类和检测和分割图像的使用分割分支。卷积模型提高了分割分支的一部分替换原有的标准卷积depth-separable卷积来提高网络效率。实验构建polygon-labeled模拟数据集使用的算法。网络的深化和depth-separable网络的使用提高检测的准确性,同时保持网络的可靠性和验证的有效性改善MR-CNN。

1。介绍

字节的图像生成每天在互联网,包含大量的信息。人们需要处理这些图片是为了有效地浏览和检索它们。图像检索已经成为自1970年代以来在相关研究领域非常活跃。图像检索的进步也离不开数据库管理系统的发展,有效促进计算机视觉领域。受到人类的大部分信息来自视觉,并应用图像检索是特别重要的。图像检索的组件之一,人类行为行为分类是一个非常重要的部分,和人类行为深入调查的影像分类可以提高检索的效率包含人类行为的图片(1- - - - - -4]。人类行为研究基于图像的相关识别模式识别已成为一个领域的前沿研究课题。人类行为识别关注识别一个人的行动或行为从单个图像。考虑到有限的信息来源和复杂背景的图片从网上收集和大量的静态图像的存在在网络上,动作识别基于静态图像需要强劲的发展和有效的方法来更好地理解web图像对图像检索或搜索。同时动作识别有很大的实用性和广阔的应用前景[5- - - - - -8]。随后行动识别系统可以应用于运动数据评估、智能训练援助,等等,例如,计算运动运动,训练得分和虚拟教练教学(9- - - - - -12]。

瑜伽,作为一种方便、时尚的健身形式,可以减轻焦虑和调节精神状态,提高身体免疫力13,14]。当人们学习瑜伽,主流学习方法仍然是离线参加瑜伽训练课程,但练习时间和地点并不是完全免费的,学习内容和进度通常掌握在老师,这给工作带来许多不便人民运动(15]。同时,当前的教师水平的变化,和教师的专业素质更难以保证当完全理解不了,如此多的人选择从网上找到资源自主学习。这种方式非常方便,但是无法保证准确性和科学性的锻炼,不合理的锻炼习惯和错误的姿势会导致人身伤害,这是相反的原始目的锻炼(16- - - - - -18]。

为了解决这个问题,本文分为以下五章:部分1简要介绍了本文的研究背景,研究的现状,论文的结构;部分2简要介绍了瑜伽运动识别的研究进展和不足以及阐述和描述了本文的意义和主要内容。部分3具体介绍了MR-CNN-based瑜伽动作识别网络。特征金字塔技术是用于特征提取部分改善网络的性能在多尺度目标检测。感兴趣的区域提取使用地区的候选网络目标分类和检测经过RoI对齐,而图像分割使用面具分支。最后,改善深骨干网和改进的面具分支网络应用于瑜伽动作识别网络来提高目标检测的准确性。部分4首先介绍了采用识别性能的评价指标,然后验证和评估MR-CNN-based瑜伽动作识别模型的识别效果。实验结果表明,该方案提出了对瑜伽运动识别精度高。部分5简要地总结了本文的研究和实践内容,描述了研究内容的不足和未来研究工作的展望。

瑜伽动作识别属于一个类型的动作在人类行为识别中,主要应用在体育领域,也可以扩展到其他类型的行为识别(19]。人类行为识别是由许多不同的共同实现和交叉学科,如机器学习、人工智能、传感器技术和计算机视觉。有不同的方法获取人类的运动,根据它们可以分为,首先,基于可穿戴传感器和人体运动识别,其次,基于视觉的人体运动识别(20.]。

可穿戴传感器使用传感器固定在关键位置对人体运动捕捉数据并分析计算数据识别人体动作执行的。这种类型的行为识别系统有更全面的数据分析能力,但需要更高的设备和专业技术,采集的参数更不方便。明显的行动建立识别有较高的普遍适用性。同时视频和图片已经成为信息的主要运营商由于网络技术的发展,和人类社会的活动主要是记录在视频和图片。是否从娱乐的角度来看,体育,监测,和安全,研究人类行为识别的图像具有重要意义。人类行为识别主要是用于分析和理解人类的行动,处理和分析图像数据或图像序列。

研究者将人体运动识别分为四个阶段:初始化系统,骨骼提取,造成估计,和姿势识别(21]。研究人员设计了一个姿势识别模型是基于隐马尔科夫模型;这个模型模型人类运动在一个级联的形式,和期望最大化算法的主要特点是使用,以确保可靠性和准确性(22]。一些研究人员设计了一个瑜伽姿势识别系统自我训练和使用一个明星算法提取人类星骨骼点向量检测正在进行的瑜伽姿势(23]。研究人员设计了一个电子基于体细胞的瑜伽教学系统设备,使用分离算法和其他评估的姿态和确定的相似名称(24]。

各种不同的特性广泛应用于瑜伽动作识别,包括位置、轮廓,和时空特性,具体分为静态、动态、和时空特性(25- - - - - -27]。静态特性是颜色、尺寸、轮廓、边缘,对象形状和深度的行为细节和轮廓提取。动态特性是方向、速度、轨迹等,得到的运动模式。时空特性用于视频和图像序列中提取三维数据模型,如空间和时空多维数据集。

尽管许多学者取得了一定的研究成果,瑜伽动作识别的准确性仍需要改进,因为它很容易失去初步特征信息在行动的过程中识别。为了进一步提高瑜伽动作识别的准确性,本文的意义是提高瑜伽动作识别的准确性和充分利用现有资源,进一步推动智能体育产业的发展。的事实,研究瑜伽运动识别技术发展阶段,本文进行了基于MR-CNN瑜伽运动识别技术研究。本文提供了理论支持,瑜伽运动识别,这是伟大的现实意义领域的智能运动和长期应用智能软件和硬件的发展前景。

3所示。MR-CNN-Based瑜伽运动识别网络

瑜伽动作识别任务包括认识瑜伽动作的名称,定位图像中人类的瑜伽动作的位置,并分段瑜伽动作。动作分类目标探测和定位属于两个任务,和最具代表性的算法在目标探测更快地区候选人卷积网络(R-CNN更快)。为了实现进一步的瑜伽动作细分任务,本文扩展了快R-CNN并选择MR-CNN算法检测和分割研究网络。考虑到MR-CNN达到动作分类和定位的面具分支对于细分的瑜伽动作,本章利用MR-CNN实现检测和分割任务,提高了特征提取主干网络,使用改进的深度残余网络的批量标准化层而不是传统的深度残余网络,提高了面具分支,并使用depth-separable卷积而不是传统的卷积。与传统的卷积神经网络相比,残余网络添加快捷方式连接,增加了一批标准化层剩余块去改善它。残块的叠加构成一种改进深残余网络。改善深残余网络可以实现一个更小的平均误差经过多次培训和具有更高的检测精度。

3.1。更快的地区候选人卷积神经网络

目前,目标检测可以分为两种类型的神经网络算法基于回归和候选区域。基于回归神经网络算法具有较高的计算效率和执行规则和使用特性,比如长宽比密集采样,规模和位置来检测目标。然而,检测精度较低的神经网络算法相比,基于候选区域。的主要原因之一是由于类别不平衡问题。本文主要关注目标检测算法基于两阶段检测器。在第一阶段的候选目标的两阶段方法生成框架,并在第二阶段进一步分类和回归。获得最佳性能的两阶段方法等具有挑战性的数据集帕斯卡VOC和可可女士。更快的地区候选人卷积神经网络框架包含了两个部分,提取的候选人框架和目标探测。它可以分为四个部分:首先,使用图像分类模型为骨干网络提取图像特征;其次,输入图像特征区域的候选人网络获取候选区域; third, inputting the results obtained from the previous two steps, i.e., image features and candidate regions, to the RoI Pooling layer to obtain the integrated candidate region features; fourth, predicting the bounding box of the object and the class of the object based on the candidate region features.

地区建议网络(RPN)使用卷积网络构建候选地区不考虑类别通过滑动卷积特性。网络使用分类器只有两类:目标和类别的类别没有目标。项执行 每个点的RoI预测功能映射。因此,输出项 一个RoI协调和 一个目标分数为每个像素位置。

一套锚点为每个点处理生成卷积特性图,和锚点生成的地图上的特性还需要映射到输入图像的大小。特征提取过程只包含了卷积和汇聚层,所以最后的尺寸特性映射正比于原始图像。如果图像的大小 ,然后地图的最终功能是压缩的大小 ,在哪里 二次抽样率。如果一个锚点在地图上的每个空间位置特性,定义的锚点最后的图像将被分离 一个像素,图1显示网络的混凝土框架实现。

网络的具体实现如下:(1)首先,原始图像的特征提取使用卷积神经网络,这是一种常用的图像分类骨干。的形成特征图如下:(2)地图功能产生的滑动扫描,滑动窗口的大小 ,和获得的低维特征向量在下一步来源于卷积层映射滑动窗口的位置。滑动窗口的设计 虽然 看起来小,每个矩形窗口框架是明显的在很大程度上考虑到地图本身体积小的更高级的功能。在映射到低维特征向量用修正线性单位(ReLU),并考虑到 各种可能的锚帧边界以外的每个滑动窗口位置没有考虑锚架,九个候选区域将与功能预测地图大小 ,和该地区提议将产生 一个。(3)地区的建议后,有两种完全连接层,回归和分类层,输入是一个低维的特征向量,和回归层用于生成相对应的边界框 , , ,确保候选人箱不超过图像边界,作物的部分超过它接近边缘,确定候选区域的背景部分或前台部分和分数。为了准确地代表候选区域的坐标,在窗口的结果数回归层 ,和分类结果的层数 ,表明候选人的概率 区域背景和前景,分别。

任务是统一的目标边界框P和地面真理g .想法不是学习的具体坐标G,但学习的规模边界框的变形期间执行转换。转换的想法是将边界框的坐标定位 规模和边界框的大小按比例

假设原始预测边界框 ,和校准的边界框 ,在哪里 表示中心的坐标点的边界框的宽度和高度,分别。为了回归窗口映射变换后得到的边界框 可以更接近真正的窗口G,学习转换关系边界框的主要目标。也就是说,鉴于 ,找到一个映射 ,这样

执行翻译:

然后,执行缩放:

因此,可以看到从上面的公式可以学到四个转换参数 P是没有真正的价值G但预测 值转换后的四个参数;然后,目标函数可以表示为 是特征向量输入的提议, 参数可学,在哪里 表示 , 计算预测价值。根据距离预测值和真实值之间的关系,获得了损失函数

优化目标的函数

行动研究的识别、网络的深度和步长通常互相限制。常见的解决这个问题包括分层图像金字塔和特性。多尺度的培训和测试图像金字塔是耗费时间和计算量,在实践中很难应用。功能分层,即。,each layer predicts the detection results for the corresponding scan resolution separately, allows different feature layers to learn the same semantic information. However, since in convolutional neural networks different layers correspond to different semantic features at their respective levels, shallow networks with high resolution learn more detailed features, and deeper networks with low resolution learn more semantic features. The feature pyramid network (FPN) improves on this problem by introducing feature maps for each resolution into the latter one scaled by twice the resolution to do the summation operation. Since this method only adds additional cross-layer connections to the original network, it adds almost no additional time and computation in practical applications. The network structure is characterized by the ability to fuse the features of each layer and strengthen the semantic information while enhancing the spatial information, and the network structure is shown in Figure2

左边是自下而上的部分红外系统的模型结构,为特征提取与自下而上的路径,使用骨架网络计算。右边是自顶向下的模型,用加权upsampling upsampling从最高的层而不是反褶积的操作,更容易实现,可以有效降低训练参数。水平箭头是一个横向连接,得到的融合结果upsampling特性映射产生的自下而上的。

3.2。MR-CNN框架和结构

框架本文从快速扩展region-convolutional网络通过添加语义分割分支执行预测为每个候选区域分割,在平行于现有骨干用于分类和边界框回归,和整个实例分割框架结构如图3分割的任务主要是由扩展实现分支,这是一个完整的卷积网络作用于每个候选区域进行像素级别的预测分割区域。而常见的实例分类系统进行分类的分割完成,MR-CNN并行实现分类和分割。

RoI池不对齐像素像素,对边界框几乎没有影响,但对面具的准确性产生重大影响。

利用网络候选项窗口后,预测目标处理。由于预测区域不同大小和分辨率,需要统一的量化操作之前提取的功能是完全连接的输入层。自从网络以及图像分割红外系统组成部分的任务,传统的ROI池层是不适合,所以MR-CNN使用ROI调整层的优化。传统的ROI池的具体步骤如下:(1)基于输入图像,ROI特征映射的映射到相应的位置,和舍入操作期间执行计算,即,第一个量化。(2)映射区域分为大小相同的部分,部分划分的数量是一样的输出的维度,和法医操作执行时计算每个部分区域的大小,即。第二量子化。(3)为每个部分最大池操作执行。

上述步骤后,主要过程不同尺寸的箱子,结果地图是固定大小的输出特性,可以实现ROI和卷积特性图大小不影响输出特性图的大小和可以提高处理速度。不过,可以看出,两种量化后的浮点数,候选区域最初绘制地图上的特性会产生偏差,这也会影响之后的回归定位层。为了解决造成的误差量化操作,优化候选窗口处理消除了量化操作时,使用双线性插值获得浮点坐标的像素点上的值如下:(1)遍历所有候选区域,确保浮点边界不量化。(2)分区候选区域 相同的细胞,细胞边界没有量化。(3)四个坐标点的计算每个部分的细胞,通过双线性插值,执行最大池操作。

在目标细分任务, 组件添加计算预测目标分割图像的熵比传统检测网络。因为整个网络在多任务学习模式中,损失函数如下: 在哪里 代表了分类损失, 是目标探测回归损失, 是分割的损失。

3.2.1之上。分类损失

在培训过程中,目标探测网络生成一个 地区推荐窗口。让 正确分类的概率,网络是用来实现multiclassification任务,所以熵函数通常选择作为损失函数,公式如下:

3.2.2。目标探测协调回归的损失

边的预测,这是一个回归的问题,一个平方损失函数,或L2损失,通常可以选择。L2损失函数具有很高的惩罚的错误。因此,一个更温和的绝对损失函数(L1)损失,与错误,而不是线性增长的平方。然而,这个函数没有导数在0点,所以它可能影响刀剑收藏。一个常见的解决方案是分段函数,使用0点附近的一个平方函数使其平滑。这个分段函数称为平滑L1损失函数,或者SmoothL1Loss。

3.2.3。分割的损失

在目标探测网络通过RPN网络和获得将输出区域建议windows,目标分支 矩阵,矩阵元素的概率值[0,1]。对数损失函数应用于测量目标分割结果。如下单像素点的损失。

候选窗口分割图像矩阵有一个维度 ,和整体损失如下: 是图像矩阵维度,和整体损失如下:

为了进一步简化网络参数,提高分割的准确性,可分离卷积神经网络用于取代正常MR-CNN回旋的结构算法面具分离。在传统的卷积认为该地区的第一通道,深层分离卷积认为渠道和区域,也可以减少网络的必需的参数。

分离卷积由深度卷积和逐点详述的卷积相比传统的卷积。深卷积是一组二维卷积内核执行空间卷积在每个输入通道。一个频道负责一个卷积核,所以深卷积操作需要更少的参数。深卷积学习每个通道而不是一个卷积内核对应所有渠道,允许更丰富的功能集,使用逐点详述的卷积 卷积窗操作特性图上一步获得的输出映射到指定数量的渠道。

卷积核的大小设置为标准的卷积 ,地图设置为输入功能 ,输出设置 ,在哪里 地图大小代表输入和输出特性,分别 分别输入和输出通道的数量和大小 卷积的内核。所需的计算标准卷积核的大小

利用卷积的深度结合 卷积而不是传统的卷积,卷积是一个深度的计算

从上面的两个计算量,可以看出一个深度卷积是非常有效和更少的计算量,需要紧随其后 卷积的线性组合输出通道。depth-separable卷积的计算工作

深的计算工作量的比例分离卷积为相同数量的渠道和传统的卷积卷积核

深深分离卷积参数更少和更少的计算量,提高了网络性能。因此,结合MR-CNN面具分支。

4所示。实验结果和分析

瑜伽姿势的图像数据集是来自网络和从网上下载使用搜索引擎。由于缺少相关数据集的瑜伽姿势,注释手动下载的图像。捕获的图像也含有构成不同相机视图。每个类别的数据集100年平均图像。图像不仅包括瑜伽姿势用干净的背景,而且瑜伽姿势等不同背景的森林,草地,和室内。数据集包含200张图片,和图片总数的80%用作训练集和20%作为测试集。锚的顺序数据集的建设是很重要的,它是必要的,以确保使用相同的顺序在比赛训练和预测阶段和卷积的顺序执行。红外系统网络,主持人必须分类可以很容易地匹配锚与卷积的输出层,预计锚分数和位移。首先,他们被金字塔层次排序,第一级的所有锚,紧随其后的是所有第二水平,等等。这使得它更容易独立的锚点的水平。在每个级别,锚的顺序排序的特征映射处理。 Typically, the convolutional layer processes the feature maps starting from the top left and moving right row by row. Figure4显示锚点的数量和特征映射的大小相应的水平。

4.1。网络性能指标

网络的性能分类识别主要是评估使用精度,精度,回忆,和F1值。本文中的示例是分为两种类型,即。、积极和消极和计算公式

精确率用p和召回率用r . TP表示案件的数量实际上是积极和正确确定为积极、FP表示案件的数量实际上是负但错误地认定为正,和FN表示案件的数量实际上是积极而错误地认定为负。TN表示数量的情况下,实际上是消极和正确确定为负。

目标探测任务中使用的评价指标来评估网络的性能主要有两个指标:平均平均精度(MAP)和平均交叉在联盟(MIoU)。地图决定了网络的准确性预测对象的类在箱子里,和MIoU确定检测盒网络与预测的手册。网络地图决定了准确的预测对象的类别在箱子里,和MIoU确定检测盒预测的网络与手动标记框重叠。目标探测设置一个阈值来确定目标是否正确预测,以及阈值影响精度和召回率。美联社平均获得的曲线是不同类别的APs在区间[0,1],并映射值越大,更准确的预测。完整的重叠是理想的网络预测的结果,当intersection-to-merge比率的值是1。

cross-merge比的计算公式

C代表标记目标区域的公式,和G代表了网络检测的候选区域。此时,借据的价值越大,更精确的检测框架的框架目标,网络性能越好。

4.2。分析的结果

5显示了MR-CNN的平均误差的比较经典的残余网络在训练过程中。图显示,平均误差减少迅速在头几个迭代中,但MR-CNN能够实现更小的平均误差在随后的训练过程。

6显示的平均误差的比较MR-CNN古典残留网络中测试。20迭代后的图中显示,改进后的残余网络有较低的平均误差和测试期间的表现更好。

MR-CNN的性能和传统的深残余网络瑜伽动作分类如图7。它可以发现,改进后的残余网络具有更高的识别性能和更好的特征提取性能并能准确识别图像中相应的行动。

使用一个更轻量级的面具depth-separable网络分割的改进MR-CNN加速网络,提高准确率。本文改进MR-CNN设计用来进行瑜伽动作识别和检测实验。在实验中,测试图像被送入训练网络,进行预测计算,从网络和图像输出的结果进行了比较。相应的检测结果用MR-CNN和改进网络训练数据集在图所示8。改进后的网络具有较强的学习能力,可以细分目标区域更准确,提高分割精度,更好地适应预测分割边缘到目标边缘。

在培训过程中损失函数的变化也反映了网络的性能在同一时间。数据910显示配置文件的网络在训练过程中损失30时代。可以看出,提高网络的整体性能损失是更好和损失函数收敛更快。

5。总结与展望

介绍了现状和问题领域的图像检测和分割的瑜伽姿势,和研究设计目标检测和分割网络。基于卷积神经网络的理论基础,结合当前相关网络,识别检测网络提出了基于改进的深度残余网络,和一个网络最优分割的图像,提出了结合识别检测网络实现瑜伽动作识别和检测分割和候选区域处理网络。实验表明,本文提出的方案能有效识别瑜伽姿势。也发现了一些问题在本文中的实验。例如,网络在训练过程中缓慢下降,体重和网络参数可能无法找到全局最优解。多参数优化策略可以在未来研究优化网络培训。相关领域仍面临许多问题,这样的应用前MR-CNN主要集中在二维图像和三维特征的目标在复杂环境中可以补充平面图像特性。后续研究应该探索对象检测与3 d技术相结合以达到有效识别检测。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由青岛大学。