文摘
针对困难的动作识别和预测精度低的问题的过程中音乐和舞蹈运动。提出了一种音乐和舞蹈动作识别和预测方法基于G-ResNet SPP(空间金字塔池)和注意力机制,以提高运动特征识别的准确性。首先,行为识别模型是描述和相关的理论基础和建设抽样函数和权函数的识别。其次,encoder-decoder设计框架描述的识别方法;最后,一群音乐和舞蹈序列用于验证系统和结果表明,识别影响G-ResNet +应用+衰减器模型具有更好的性能在不同的实验数据集。
1。介绍
复杂的舞蹈动作的变化,音乐和舞蹈的一致性,是在线视频现在面临的挑战之一。因此,基于ST-GCN(空间时序图卷积网络)模型和进步的预测模型,舞蹈动作识别和预测算法表现出复杂多变的舞蹈动作更真实(1]。首先,原始图像压缩来表达动作信息;然后,通过提取操作的细节,图像序列作为输入,最后每个属性的特性通过时空卷积提取层。挖出的卷积算法层传递函数之间的关系属性特征和舞蹈动作,实现舞者的动作调整功能。此外,跳舞运动的优化目标函数匹配和优化目标函数结合蚁群理论得到了(2]。最后,自适应调整信息素挥发因子根据信息素浓度在所有music-dance运动段的音乐编排,和信息素更新动态执行根据舞蹈运动匹配的优化方案3]。的主要挑战现有领域的音乐和舞蹈现在姿势识别的基本形式的舞蹈和音乐和舞蹈的一致性。等问题,本文认为动作预测和动作的平滑转换需要强调。的特征提取的实验4]20关节角,使用30关节位置预测50位置从基本的姿势。SPM(空间金字塔匹配)分类器的PPM(部分匹配预测)模型识别效果最好的态度(4]。通过执行损失率和准确性的分析,我们估计这些姿势的起源,测试是对我们自己的Balletto数据集120舞者的准确性达97.14%。10分制中舞者的专家预测50姿势,精度为68.46%分组没有姿势和89.80%的姿势5]。由于计算视频行业的快速发展,当前视频分析手段已经不能满足行业的需要,所以派生的动作预测模型已成为视频行业发展的主要途径。它需要预测未来可能的行动通过当前行为的分析和预测人类行为基于不完整的行为。建立一个高效和健壮的行动框架识别和预测,在文献[6),我们调查的最新技术完成动作识别和预测。现有的模型、算法、技术操作数据库,评估协议,和可能的系统地讨论了未来的发展方向。在这项工作的识别和预测人类的行为,表示高维非线性行为的潜在低维线性空间是被允许的。本文的算法使用Balletto数据集提取一些典型行为,设计实验来评估算法的性能指标,然后在我们的算法,实现的高精度和低延迟动作识别。识别和预测人类的行为,提出了一种混合方法前部和后部action-aware人类行为识别和预测基于卷积神经网络和先进的集成预测模型(7]。CNN(卷积神经网络)结构是人类和对象嵌入到视频图像中的信息,识别和预测前方和后方的视频空间完成。动作序列分析通过VMM(虚拟机监视器)考虑当前,过去,和现在的最佳动作状态,以便最大化舞蹈动作的识别,实现最高精度。实验评价方法的有效性,实验表面动作识别和预测方面有很高的准确性(8]。与传统实验中,我们首先需要引入一个深图汽车编码器学习任务的象征性的场景图,而不是仅仅依靠欧几里得结构化的数据。我们的编码器可以将操作分为两个分支,一个用于识别输入类型,另一个用于预测未来的操作映射。网络输出图像类型标签集检测和预测的行动。我们新基准模型提出了有关Balletto数据集的不同之前的方法,实验表明,我们的模型可以有更高的精度和更低的损失率9]。控制point-random与森林有关的动作识别和预测方法提出了连续动作识别人类骨骼的序列。传统方法通常由构造类别分类和识别人类行为,与建立一个行动识别任务,本文确定了舞蹈动作基于行为的发展序列(10]。在这篇文章中,我们介绍一种新的方法行动预测三维轨迹识别,使用最多的3 d姿势估计MOCCD (multiocular收缩曲线密度算法)来跟踪时间和一个encoder-decoder框架,依靠LDT作为衡量轨迹之间的相似度。真正的价值从10角获得相同的姿态进行了研究,确定当前的行动和预测未来行动的时刻。轨迹识别率高达99%,预测精度也约95%。只需要少量的训练序列。在经验方面,提出的方法在文献[11具有极高的参考工具。具体来说,记忆神经网络用于预测为所有操作建立一个行动。这些预测的行动可以同步音乐在接下来的时刻。根据预测规则和删除规则的长度,每一步预测误差可以被消除,最后预测数量可以用作行动序列标签(12]。行人检测系统的一个重要组成部分司机的安全的旅程,如果这些系统可以识别和预测行人行为,甚至估计每个人穿过马路的时候,将显著提高道路交通的安全。本文研究不仅关注行人行为识别还预测当前行人行为是否在未来遇到危险。它提出了一个视网膜识别模型,使用递归神经网络估计人行横道,和执行周期性网络估计识别行人意图,一个预测过马路(所需的时间13]。深度学习分为无监督特征学习和监督功能的学习。在本文中,我们提出一个多模式的学习和展示深度学习训练完成动作识别的任务。我们将演示如何使用跨通道功能学习。学习之间的表示模式模拟和分类器训练使用的音频数据,然后使用视频数据进行了测试。Balletto数据集的实验验证表明,AVLettes发表演讲最好的视觉共识(14]。Skeleton-based行动识别已经成为一个受欢迎的3 d分类问题,将殖民地结构集成到深层网络结构学习简单的三维动作菌落特征的识别。输入殖民地特性转换成更多的殖民地特性设计一个旋转映射层。降低维数高的特性,我们使用log-mapping层,定期输出数据,并进行分类。通过评价标准3 d人类行为识别数据集,最后实验结果表面该算法由于最传统的深度学习方法(15]。
2。舞蹈动作识别模型
2.1。ST-GCN网络模型
ST-GCN与端到端运动识别模型的不同之处在于,它GCN适用于人类的行为识别系统的骨架,增加关节之间的空间关系的因素,连接关节之间的自然连接和cross-continuous时间连接相同的关节,然后构造多个时空图卷积层集成信息(16]。ST-GCN-based人体运动识别流程如图1。
2.2。建筑的时空图卷积
传统的二维卷积算法(17)为卷积操作通过使用过滤器和图像像素矩阵。过滤器的大小和一个输入特征矩阵的渠道c的二维卷积运算输出位置x可以定义: 在哪里P是抽样函数,根据位置的附近吗x(h, );W作为一个加权函数,提供了权向量c维空间;
之后,通过重新定义抽样P函数和权函数W,您可以扩展上述卷积公式图卷积公式。
2.2.1。抽样和权重函数
对于二维卷积运算,抽样函数 是定义在一个像素矩阵集中在位置吗x,过滤器。定义抽样函数你的邻居节点集 。这 代表的最小长度的路径(18]。抽样函数P在本文中,选择相邻的一组D= 2 。因此,抽样函数 定义如下:
图的权函数卷积的重量值从每个位置的过滤器,然后地图图形节点 。你也可以简化这个操作通过分解图节点的邻近地区。简化权函数如下:
这些多媒体分类器的参数,代表海峡缝合手术。
2.2.2。建设空间图卷积
通过above-given抽样函数和权函数,二维卷积运算可得到图卷积公式计算的空间: 在归一化条件 代表相应的子集的基数为了平衡不同子集到输出的贡献。根据above-given计算方法,最后图在空间卷积公式如下:
2.2.3。时空图卷积的建设
构建骨架时空映射时,您可以选择一个骨架序列(19的时间范围F。通过应用空间映射在这个序列卷积范围,您可以添加一个时间维度来定义时空图卷积公式: 在哪里时间范围在相邻的图,也就是说,时间内核大小。
简化时空图卷积操作,定义的相邻区域的骨点抽样函数和权函数可以映射的结果: 在哪里是的映射结果骨点。
3所示。舞蹈运动预测模型
行动旨在预测预测任务行动范畴y对应于未来视频帧通过观察到的本地视频V。给定一个视频 ,在哪里l是视频的帧总数。给的第一个t-frame可观测视频的一部分 ,这个任务需要预测行动发生的类别t+ 1l框架,让行动类别标签的价格未被注意的部分 。
本文解决了这两个问题通过一个简洁高效的框架,框架是TTPP命名。首先,失败者的长视频分成多个视频剪辑没有重叠 ,每个包含相同数量的连续帧;其次,视频失败者的片段编码到相应片段通过特征编码网络特性 ;随后,聚合时间关注模块t连续视频剪辑功能为实际特性 ;最后,逐步进步预测模块预测以后的视频功能和动作类别分数(20.]。进步预测初始模块共享进步预测模块预测模块和参数 ,在这聚合的历史年代特征丢失模块,和片段特征和相应的行动类别分数预测在接下来的时刻;通过积累之前预测的结果和历史特征 ,随后的特性和行动产生的预测结果。文本处理的模型使用一个encoder-decoder框架,让我们简要地介绍了编解码器的框架。
3.1。Encoder-Decoder框架
如图2,encoder-decoder框架是常用的文本处理领域的。例如,在机器翻译的情况下,编码器将失败者句子转换成一个中间语义向量C(21),编码信息整个失败者的声明: 在哪里米失败者的句子的长度和吗是编码函数。解码器生成句子信息为当前时刻通过语义编码向量C和句子信息生成的历史时刻的失败者。的一代t -时刻作为一个例子,解码过程表示如下 : 在哪里译码器函数表示。解码器以每个解码的结果作为输入到下一个十年中,迭代输出解码序列的长度n。above-given联合分布可以分解成一个有序的条件概率分布: 在哪里 是解码的输出序列。
同样的,进步的运动预测模型基于本章关注设计使用时间关注模块TTM编码器和进步预测模块PPM解码器。接下来,这两个模块的设计思想将被突出显示。
3.2。进步预测模块
WaveNet模型的启发,本章精心设计的进步我预测模块PPM聚合生产历史信息预测结果更精确的行动。PPM模块由一个初始预测子模块和一个parameter-sharing进步预测子模块,每个组成的两个完全连接层,ReLU激活功能,一层规范化LN (22]。
假设未来t+ 1t+l共l时间点会预测,未来的第一个时间点t+ 1将目前;最初的预测模块使用聚合的历史信息 失败者的动作特点和动作得分概率预测未来t + 1的时刻 。这个过程表示如下:
在未来在其他点t+我(我> 1),该特性表征预测前一刻t+我−1是预测缝合在一起行动的概率分和聚合功能和发送人的通道上的进步预测模块。这个过程表示如下:
由于通道缝合手术,失败者parameter-sharing进步预测模块的尺寸是2+C。子都有相同的结构和由两个完全连接层。其中,第一完全连接层降低了特征维数 ,和第二个完全连接层提高了特征维度(23),使用功能转换学习有效的功能表示。值得注意的是,进步parameter-sharing预测子模块,所以整个PPM模块满足轻量级的网络设计。
3.3。模型训练和损失函数
整个TTPP框架的作用下可以实现端到端培训监督PPM预测模块的信号。具体地说,使用了两种类型的损失函数:功能重建的损失 ,和行动分类损失(24]。在这里,通过测量损失预测之间的均方误差特性和相应的真实特性,定义如下: 在哪里 ,这是预测的特点t+我时刻和真值的特征t+我的时刻。是叉损失的总和所有预测时刻,定义如下: 在哪里 事实是向量的一个炎热的编码t+我的时刻。本章优化目标函数由一个功能重建损失和绝对损失函数,表示如下: 在哪里λ超参数用于平衡两个损失函数。
4所示。音乐和舞蹈运动损失函数优化设计
以下是使用的各种损失函数的三个网络组件NTS-Net及其优化过程。
4.1。过滤器的损失
首先,在过滤网络,我们纪念米信息区域不同, 它们包含的信息量表示为(25]。 与此同时,在优化网络,我们将这样做的信心水平米区域表示为 。然后,滤波器的损失函数网络可以定义如下: 的函数f是一个nonincrementing函数表示:如果 ,然后 。在实验中,函数f,我们使用铰链损失函数,计算公式:
的期望损失函数(我,C),我和C在相同的顺序。的损失函数过滤网络反向传播是可微的,用链式法则,可以计算的导数是
这个方程可以直接从派生而来 定义。
4.2。优化损失
我们定义的损失优化网络如下: 在哪里C是信心函数代表真理的程度为指定的区域。第一项的方程(19)代表损失的总和,第二项表示完整的图像的熵损失。
4.3。检查损失
当筛选网络获得K 地区最多的信息,检查网络将得到细粒度的识别结果 。我们使用叉损失分类损失,这是表示如下:
4.4。共同的损失
最后,我们结合联合训练的各种损失。最后一个完整的损失函数定义如下: 在哪里λ和μhyperparameters,在这个实验中我们都将它们设置为1。我们使用随机梯度下降法优化 。
5。案例研究
5.1。评价指标
在实验中,行动计算模型预测的预测精度是欧拉平均误差的形式,特别是通过比较每一帧序列获得相应的帧序列结果,然后画可观测的结果通过折线图,欧拉角的计算如下: 的错误在哪里我frame表示,欧拉角的值的实际数据jth的我frame,预测数据的j我frame。欧拉角的数值。后发现的平方和的错误2、欧拉这个坐标系误差可以通过找到根数。
5.2。数据集
摘要250年舞蹈动作Balletto数据库将用于视频中分解,从一些关键帧运动芭蕾舞蹈将获得的照片,和一些选定的数据将尝试使用ST-GCN模型和进步的预测模型来验证算法的有效性,如图3。
5.3。实验结果和分析
摘要SPP(空间金字塔池)添加到ResNet34,然后注意机制(衰减器)与格勒乌融合网络,和金字塔池和注意力机制介绍FSAG-ResNet网络模型和G-ResNet网络模型首次尝试UCF101数据集,UCF101培训损失和准确性的数据集的比较如图4。
(一)
(b)
从图可以看出4(一)后,改善网络增加了SPP层小于G-ResNet网络模型。的基础上增加了SPP层,然后将注意力机制,网络训练损失小于增加SPP层和与G-ResNet网络相比,最后网络训练损失越小,表明网络更容易优化。根据图4 (b)添加SPP层后,网络的准确性UCF101数据集的改进与G-ResNet网络相比,整合后的注意机制,提高精度与原始网络相比,精度也提高而增加了SPP层。
同样,改善网络HMDB51数据集上进行实验,和培训损失和准确性的HMDB51数据集网络改进前后进行比较,如图5。
(一)
(b)
从数据可以看出5(一个)和5 (b),网络的训练失去HMDB51数据集变得越来越小,增加后的值较小的SPP层和关注,和HMDB51网络数据集的精度也提高了比原来的网络。above-given两个数据集的实验结果表明,改进的G-ResNet网络模型训练少,精度高,并验证该模型的优越性。
改善G-ResNet网络模型的比较结果与G-ResNet数据库在HMDB51 UCF101数据库和数据库,识别准确率的两个数据库如图6如图所示。
与G-ResNet实验的结果相比,SPP层添加后UCF101 HMDB51上的识别率达到95.6%,增长了3.2%,并在HMDB51识别率达到62.6%,比上年增长4.2%。添加关注机制的基础上,SPP之后,UCF101的识别率为96.3%,增长了0.8%,在HMDB51识别率在64.6%增加了2.1%。G-ResNet网络模型相比,本章中给出的FSAG-ResNet网络模型最终在UCF101识别率HMDB HMDB51增加了3.6%。识别率提高了6.0%,结果,介绍了金字塔池的基础上对ResNet34 G-ResNet网络。天鹤座网络融合的注意机制后,模型的识别率UCF101和HMDB51数据集已得到改进,这证明了改进方法的有效性。
本文进行用户调查的真实性跳舞,舞蹈和音乐的本质。dance-generated视频的五个不同的模型被100名观察员得分,每个分数的平均值计算,获得真实的用户评价每个模型。
从图可以看出7模型5的,用户评价最高,它反映了更高的视频处理的模型的真实性。
可以看到从图8,我们的模型比其它模型音乐方面的一致性。据统计,Balletto数据集比其他种类的舞蹈音乐的一致性较高。这表明Balletto编排更符合音乐。具体来说,韩国流行文化所数据集的Model-scored 4.56, 2.89机械舞数据集,3.21嘻哈数据集,数据集模型在韩国流行文化所2得分5.61,4.33机械舞数据集,4.21嘻哈数据集;在韩国流行文化所数据集模型3得分6.56,5.33机械舞数据集和5.41嘻哈数据集:
四个分数的模型,可以看出我们的模型已经收到最好的用户评论相对于其他模型的真实性和音乐舞蹈一致性。
6。结论
摘要计算机视频网络的现状产业领域的音乐和舞蹈动作识别和预测,以及深入学习研究的应用前景,主要使用深度学习,音乐和舞蹈动作的识别和预测提出了ST-GCN基于注意机制模型和进步的预测模型。本文的主要工作如下:(1)建立一个舞蹈运动识别模型。首先,空间图卷积是由抽样函数和权重函数;然后构造加权函数简化;最后,行为识别模型在新构造分区策略。实验表明,该模型的准确性与原模型相比大大提高了。(2)进步的行动的预测基于时间的关注。本文使用一个注意力机制来获取历史信息,支持并行运输,结合神经网络的迭代译码的想法使进步的行动特性预测。数据集UCF101,模型优于普通编码模型在性能和效率,这也进一步验证了模型的有效性。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称,关于这项工作他们没有利益冲突。