文摘
移动目标识别和分析是计算机视觉领域的一个重要研究方向,广泛应用于我们的生活,如智能机器人、视频监控、医学教育、体育比赛,和国防安全。通过分析视频,举重,本文提取的关键姿势运动员训练,协助教练训练运动员更专业。基于DL(深度学习),体育视频的关键构成提取方法(简称RoI_KP)提出了基于分类学习感兴趣的区域。通过微调CNN(卷积神经网络)网络模型适用于视频分类举重在该地区的利益。最后,根据分类结果,分类结果的选择策略的目的是提取关键姿势。根据不同的模态信息的特点,采用不同的神经网络(深)款,和各种深度网络是我结合人类运动的综合时空特征深度视频。实验结果表明,本文提出的方法是很有竞争力的。
1。介绍
视频分析技术是基于内容的视频检索的基础。在传统的基于文本的查询技术、查询关键字可以反映查询意图(1]。然而,在基于内容的视频检索,是有区别的底层特征和上面的理解,主要是因为底层特征不能完全反映或匹配的查询意图(2]。同时,人类活动在体育视频非常复杂和巧妙,并与日常运动(3),体育视频的分析更加困难和挑战4]。因此,体育视频的分析不仅可以带来更多的观看体育竞赛效果,而且分析运动员和教练之间的比赛,帮助运动员在训练中。手工监测相比,电脑不需要休息,也不会错过重要信息监测由于各种外部因素,允许它大大减少人力和物质资源,同时提高工作效率。这种技术在医学领域也非常重要。病房监控,例如,可以自动检测异常行为在病房和实时通知医院,这不仅降低了病人的突然情况的风险,但也降低了医疗成本。基于内容的视频检索的查询条件是一个图像序列或视频内容的描述。要创建一个索引,首先提取底层特征,计算和比较这些特性之间的距离和查询条件是否相似。
智能车牌识别,实时3 d效果播放的体育竞赛,和其他技术已经出现一个接一个,这使得计算机视觉任务的优点基于机器学习(5- - - - - -8越来越明显,它具有较高的灵活性和开放性,这表明智能图像处理的发展方向(9- - - - - -11]。举重的过程中,无论是运动员的动作是标准与否将直接影响运动员的表现。举重在整个生产过程中,有几个关键的姿势会影响运动员的表现。这些关键姿势是举重的成功非常重要。然而,由于硬件的限制条件的监测设备(相机)和环境因素的影响,有许多复杂和不可避免的干扰因素获得监控录像时,如各种物体之间的遮挡、噪声、背景的影响,和突然的变化,这使得它非常具有挑战性的为我们使用目标探测和跟踪在智能监控和其他相关的应用程序。然而,运动和重量的识别视频还面临着一个巨大的考验:super-large-scale视频的数量要求越来越高的算法的计算性能。同时,随着大量的视频内容的出现如航空摄影和第一人称的角度来看,传统算法的缺陷在处理不同的相机角度,杂乱的背景,闭塞等问题越来越明显。
在运动员的训练过程,判断关键姿势前举重视频主要是根据教练的经验,这不仅浪费人力,而且提取的关键姿势不准确,容易受到主观因素的影响。面对举重,视频分析技术适用于举重训练,并分析了举重运动过程,旨在提出一个可靠的自动提取关键帧姿态运动过程的方法,这是意义深远的运动员和教练尽快掌握运动技术,提高培训效率,提高训练水平。
2。相关工作
文献[12检测输入视频流的边缘,使用边缘特性建立手势描述符,然后集群计算的特性视频流的重要的手势。通过这种方式,可以学到好的模型参数通过循环迭代建模。文献[13,14]应用SVM(支持向量机)对人体运动识别。他们使用本地时空特性,代表人类的运动,然后局部时空特征向量输入到支持向量机来判断人类运动的范畴。文献[15]从静态的兴趣点提取空间特征的视频,和从动态提取时空特征点感兴趣的同时,并获得一个复合特性集包含静态空间特性和动态时空特征,即输入线性支持向量机的分类。一个算法在文献[16)如下:手势的特征是通过训练后获得的边缘特征是边缘检测的视频。运动被大多数成员批准。文献[17)提出了一个全身和一半身体模型,模型采用密集采样的身体形状上下文描述符和之前的模型数据库使用多角度和multi-pose详尽的培训。最后,图像的特性是用来检测图像中人体器官,这是由姿态空间表示和推理算法。
文献[18]介绍了空间金字塔池层到CNN(卷积神经网络)和SPPnet求婚,这减少了CNN网络限制输入图片的大小,提高了准确性。在此基础上,文献[19Faster-RCNN]提出了一种快速检测方法,并提出一个新的创新,也就是说,提取候选区域的RPN(地区建议网络),从而完成了技术进化RCNN Faster-RCNN。文献[20.)提出了一种新的检测方法,其性能与传统的单级和两级框架相比大大提高,特别是在实时情况,其精度远高于YOLOV3以同样的速度。文献[21,22使用神经网络(最近邻)分类器来判断是否成功与否跟踪。神经网络分类器可以测量收集正确的图像之间的相似性和当前新目标图像。款(深层神经网络)和探测器tracking-learning-detection框架提高了在文献[23]。跟踪故障点的分析计算,确定款forward-backward错误和输出的时空相似性。文献[24)直接使用双网络计算目标外观模型的表示误差,与选择区域的目标是最接近目标模型的跟踪结果。HRNet是一个端到端的多人2 d姿势估计方法在文献[25]。自顶向下的方法有一些缺点,比如失调的关键点在拥挤的情况下或不准确的检测在破产的情况下,根据其特点。根据文献[26),组织二维态势节点通过指导所有骨盆关节可以很快完成,取得了很好的效果。如果对方的视频是执行快速和复杂的操作,估计二维姿态不稳定,导致运动失真。
3所示。研究方法
3.1。运动的关键姿态检测
为了检测目标从图像在任何场景,关键是要选择一个健壮的特性集,并应用这个特性集,因此,不同类别的目标有良好的歧视和能够适应同一个类的不同目标。特征用于目标识别主要包括形状、质地和颜色,而目标的形状不受光照等因素的影响,它常常被用来作为目标识别的好功能。不同形状的描述对象产生不同的特性集。
举重的过程一般分为五个阶段:扩展膝盖抬起贝尔,贝尔导致膝盖抬起,施加力量,蹲和支持,站起来。教练和运动员想要观察每个动作的运动过程,并希望观察运动生物力学等参数跟踪每个抓举或挺举,每个阶段的速度,和性能的工作。是不可能使用传统姿势估计方法来精确定位人体的各个部分的位置,然后提取关键帧根据运动估计方法的态度。此外,有一个严重的问题框架之间的相似性。因为运动的连续性,相邻视频帧之间的差异非常小。
在这一章,体育视频的关键构成提取方法(简称RoI_KP)提出了基于感兴趣的区域分类学习。算法流程如图1。
首先,视频帧。然后,基于视频的第一帧,用来训练模型分割和提取前景,并根据标准的视频分割的第一帧。该地区利益直接相关的关键帧提取。此外,CNN网络是用于提取和分类的特点,每个视频帧获取候选关键帧。最后,关键帧提取的策略制定,根据概率值和关键帧选择相应类的每一帧的输出。
因为有很多举重视频中背景干扰信息,本文提取感兴趣的地区减少关键帧提取背景的影响。划分和调整地区:遍历图像与图像的四个角反过来,起点和更新的标签值最小值的每个像素点四个相邻点的标签值不为零,直到所有的标签值点不改变;
到目前为止,一个新的注释的地图区域取得的利益,并且每个非零和连续的地区有不同的号码。最后,只有该地区最多需要选为感兴趣的地区。
与2 d人体姿态估计,3 d人体姿态估计基于DL更具挑战性。这主要是因为2 d姿势估计有更广泛的训练数据集,所以它可以更好地解决遮挡和准确性,而3 d构成估计有很大的挑战在闭塞和准确性由于缺少训练数据集。
三维人体姿态估计是估计的三维坐标 从图片或视频相关的节点,这本质上是一个回归的问题。它广泛用于动作捕捉系统,动画,行为的理解,和游戏。它也可以用作辅助链接的行人识别等算法,它还可以结合其他任务等相关对人体人体分析。
每个块都是基于一个简单的、深,多层神经网络与批量标准化函数。获得2 d要点后,输入到3 dposenet和输出估计3 d坐标要点,每个表示为 。假设3 d联合地面实况,3 d联合MSE(均方误差)损失作为损失函数应用于3 d 3 dposenet:
其中,是真正的3 d坐标框架,而预测相应的坐标,关键点的坐标的三维骨架dposenet预测的3。
在本文中,使用对称约束的损失函数,本文中定义的损失函数公式(3)。 在哪里所有相邻的点的集合, 表示对称的关键部分。当然,还有其他限制人的骨头,如关节角的限制。
介绍了一般解决阻塞问题,使得广泛使用的躯干、四肢、头部。因为2 d的姿势可以准确预测三维姿态,恢复3 d姿势可分为四个州,包括四肢是否覆盖和整个肢体的姿势是否可以预测。本文介绍了时间序列的发展概念信息(17在这种情况下。所不同的是,本文只需要确定一些位置数据,即。,the unpredictable (occluded part) joint position can be determined using the joint points from the previous moment.
,这个职位的连接点(阻塞节点)的预测在时间点 ,和代表的位置时间。是一个矢量,代表的总体目标运动方向的人作为对象。
3.2。基于DL运动识别方法
计算机硬件的快速发展和各领域的成功应用DL计算机视觉的运动目标识别基于DL也发展成为计算机视觉领域的关键技术,它广泛应用于医疗、交通、安全、等,也可以作为其他应用程序的基础技术,如图像处理和三维建模。传统的目标检测方法可以分为三个步骤:选择基于图像的候选区域,提取视觉特征,等一类常用的分类器分类的支持向量机模型。与DL的发展和应用,它不仅简化了传统方法的复杂性,还提高了检测性能。这样的目标检测方法通常是基于区域提取,可分为两种类型:单程法和两阶段法。
从视频获得三维坐标是极其困难的。另一种方法是代表人类直接使用2 d运动姿态的变化。提出了二维人体的不同的观点有不同的形式。观点正常化、multi-viewpoint遍历和观点不变特征提取三种常见技术实现viewpoint-independent表示人类的运动。相机的位置应该是固定的,但这并不是总是这样在体育视频,因为目标移动非常快,和相机经常与它跟上移动目标的运动,或移动的目标将会消失。当跳水视频的拍摄,例如,相机将作为人体瀑布向下移动。本章提出了一种综合信息化动作识别的方法。图2描述了该方法的总体框架。
本文中使用的静态信息是RGB的地图和深度地图。RGB地图包含全球信息环境和人类的身体,可用于消除背景杂波和其他问题。基于款学习模型的基础上,不同的网络结构设计为不同的模式,以便发现运动的时间和空间深度特征视频和提高运动识别模型的性能。
在这一章,CNN网络具有相同结构用于RGB图和深度地图。CNN的RGB图代表人体和背景的颜色和纹理特征的视频,而CNN深度地图准确区分正面和背面的场景视频防止误解的特性由背景干扰引起的。
顶部的网络,这一章使用Softmax损失函数。假设最后一个完整的连接层的输出向量的维度,将Softmax函数定义为:
独立的RGB地图功能和深度地图功能可以获得。在此模型的基础上,首先完全连接层的输出可以被视为一个卷积特性良好的表达效果,并分类和歧视的特点。
人类运动视频的时间特征,所以只有采矿空间深度特性不能表达运动的时间特征。处理时间信息的网络常见的DL方法都是基于RNN的架构(递归神经网络)。在人类运动识别的任务,关键骨架点的轨迹有效时间信息。
以迭代方式RNN网络流程序列数据序列的时间尺度。这种处理方法使得RNN有明显优势的序列数据建模和特征提取。该方法使用交叉熵损失函数: 在哪里在时间是正确的标签吗 ,和是网络预测标签。培训的目标是使损失函数的值达到一个较低的水平通过计算梯度优化参数的损失函数。
静态模型和动态模型学习的时空特征动作视频,分别。与单一模态信息相比,多模式下的特征信息有更多的差异和互补性,所以时空特性的融合可以提供信息与表达能力更强。这个实验的目的是直接连接时间和空间深度特性和估计权重线性组合过程的两个特性测试精度的基础上两个网络模型,以识别不同的特性的重要性。
融合的后期阶段,概率输出使用时空深度特性是通过线性加权叠加得到最终预测值。具体来说,后期融合采用以下方法:
是权重参数, 使用空间深度网络的输出概率特性和时间深度特性,分别和是最后的预测概率,在哪里是样本的数量特征的视频经过多次抽样。
4所示。结果分析和讨论
人体的动作行为不仅是图像空间的区分,但也在时间序列的。图像识别和检测的任务需要我的空间特性,而视频增加了时间维度的信息相对于图像。因此,一个视频人体运动识别算法需要深入挖掘其时间和空间特性。一段视频包含许多帧。
如果所有的视频倾斜用于视频,这将是一个任务,消耗大量的计算时间。与此同时,因为并不是所有的框架都是相关的,识别的效果会降低。因此,这是一个非常重要的任务在视频中,找到最独特的时空特性可以改善上述算法的准确性。
测试512图像帧的正确识别率四个姿势如图3。
实验结果表明,本文提出的算法达到了很好的识别结果为每个类别。膝关节的不正确划分帧图像姿态输出以及每个类别的概率值。所有的错误划分结果发现属于第一类的膝关节或以武力第三类的姿势。不同的场景有不同的背景,甚至同样的动作。同时,应该注意的是,如果人体的服装比赛视频的背景颜色、视频等问题暴露引起的户外照明和天气将很难区分行动和行为。相同的视频可能没有一个静态的背景,和任务为背景的变化将变得更加困难。图4描述了四个类别的概率变化曲线为每个视频帧。
RoI_KP方法提出了极大地改进了性能。它可以看到。CNN传统分类算法分类性能会有很大的波动,这将不稳定的分类。
随着各种新的射击方法的出现,如定时器、空中摄影,和第一象限拍摄,视频信息不可能总是保持同样的相机角度。因此,相同的视频动作序列可能导致不同的特征表示由于不同的镜头角度。因此,识别不同的相机角度也是一个迫切需要解决的问题。实验输入设置为一个连续、有序的视频,所以表示特征的空间信息,同时包含时间信息的一部分。然而,几乎没有训练的深度地图信息,信息网络是从头开始训练。数据5和6两组的比较结果是视频。
而传统的CNN算法显示了第四大波动关键帧和其他姿势的概率值相对较大,对分类结果产生影响,传统的美国有线电视新闻网在第四关键帧算法具有良好的效果和概率值的第四关键姿势是非常大的。训练的过程不是用于RNN而是用于骨点信息,因为加工特性预处理后得到足够的培训。学习迁移允许研究人员获得良好的培训结果即使在新数据集很小,标签不完整或小,训练集和测试集的数据的分布是不同的。低级功能还可用于类似的任务,因为CNN的表示卷积核是一个从低级到高级,从一般到特殊的过程。
摘要3 dposenet网络评估根据公共数据集Human3.6M,和另外两个数据集是用于测试。Human3.6M是应用最广泛的公共数据集3 d目前构成,其中包含360万个视频帧11个主题,其中7主题使用3 d注释构成,每个对象执行15行动,和视频帧(视频的帧率50帧/秒)是由四个摄像头捕捉到的不同角度的视图,如图7。
它表明,3 dposenet模型的结果平均误差低于所有其他方法和其他数据或操作方法不受影响。的平均误差MPJPE 3 dposenet网络的方法是减少了至少6毫米,证明方法的有效性。一般来说,如果一个人的姿势是相似的在两个不同时刻的一个动作,两个描述符之间的距离特性描述人类的姿势将小;另一方面,如果人类的姿势是非常不同的在两个不同的时刻,两个描述符特性之间的距离大,和这个属性没有关系的观点观察运动的位置。自相似矩阵具有相同特征也有类似的模式,如图7,表明体育表现的变化几乎没有影响的自相似矩阵。自相似矩阵基于不同特征的差异很明显从纵向的角度看,自相似矩阵是依赖于图像的底层特征。如图8,它可以清楚地发现,这种方法的准确性大大提高。
所有的视频人体运动被枪杀在固定场景。为了防止移动目标失去视野,移动镜头通常用于拍摄,很难探测到人体的运动光流场。图9显示了3 d CNN在训练前阶段的过程和网络微调阶段,分别。可以看出,波动和损失的输出更大在培训过程中,和网络产出损失减少微调后,从而提高最终模型的分类效果,减少网络学习的时间成本。
动作识别方法基于单模DL包括CNN和递归神经网络。这也解释了单模识别视频运动带来的问题和困难,并引入了多模运动识别方法。DL会得到很好的结果,基于大量的训练数据。不同的深度网络有不同的特点。CNN网络更加关注本地信息之间的关系,所以它适用于图像识别和检测任务。
实验表明,人类的姿势的自相似矩阵获得人类前景图像的利用方向梯度直方图来表示人类的姿势在不同观点具有更好的稳定性。将过滤器应用于3 d构成态度的后处理,可以有效地提高预测态度稳定。成功的动作捕捉的基础上,通过分析和提取运动特征参数,我们可以自动分析和理解各种人类的动作和行为。运动识别技术具有广泛的应用前景和巨大的经济和社会价值的先进人机交互、康复工程、运动分析、躯体感觉游戏控制和基于内容的检索。
5。结论
作为最重要的元素在人类环境,丰富和多样的人类运动携带大量信息为人类社会互动是非常重要的。因此,研究人类活动有着深刻的经济和社会价值。基于视觉的人体运动识别的研究涉及多学科的知识,并集成了计算机视觉的相关研究结果,模式识别、图像处理、机器学习和许多其他学科。当我们回归2 d到3 d节点基于DL,我们可以有效地提高网络模型的准确性通过计算规模的2 d到3 d节点坐标的基于最小二乘法的每一帧。举重提取视频的人体骨架增强特性的表达,从而进一步提高关键帧提取的准确性。深CNN是我用来静态的空间特征信息,提高动态信息的表示和递归神经网络用于处理它。实验结果表明,本文提出的方法是很有竞争力的。
从2 d对3 d姿势估计预测,如果有阻塞,它主要是遮挡,这将极大地影响人们的视觉效果。因此,我们未来的重点工作是为了更好地解决阻塞问题,提高处理速度的框架。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者没有任何可能的利益冲突。