文摘
音乐带来的舞蹈运动的一代,音乐运动匹配模型和统计映射模型之间的舞蹈和音乐自我生成的模型。生成的舞蹈运动是不完整的,和长期的舞蹈序列的平滑性和合理性很低。新的舞蹈动作和其他相关问题不能由传统模式生成。为了解决这些问题,我们设计一个基于运动和舞蹈代算法神经网络,将提取的声音和运动特性之间的映射。在第一阶段,韵律特征和音频特征提取音乐作为音乐功能,和关键点的坐标从舞蹈视频作为提取的人体运动功能训练。在第二阶段,音乐和舞蹈动作的基本映射通过发电机模块实现的模型生成光滑的舞蹈姿势;舞蹈和音乐的一致性是通过鉴别器模块实现;音频特征更具有代表通过Autoencoder模块。在第三个和最后一个阶段,模型的修改版本将舞蹈姿势序列转换成现实版的舞蹈。最后,一个现实的版本适合跳舞的音乐。 The experimental data is obtained from dance videos on the Internet, and the experimental results are analyzed from five aspects: loss function value, comparison of different baselines, evaluation of sequence generation effect, user research, and quality evaluation of real-life dance videos. The results show that the proposed dance generation model has a good effect in transforming into realistic dance videos.
1。介绍
视觉和听觉的两种形式是严格相关。只要物体,视觉变化将不可避免地导致听觉声音的生产。目前,大多数机器学习仍然停留在学习的信息在一个单一的模式。近年来,随着人工智能技术的蓬勃发展,从single-modal学习过渡到多通道学习已经成为更好的理解机器感知的关键。越来越多的研究人员开始关注学习的综合信息,包括跨通道检索,综合信息共同做出决定,跨通道的一代。跨通道代旨在合成一个或几个模态模态数据基于不同形式的信息。单向或双向代文本图像,文字,视频,音频,图像,音频和视频都是跨通道的例子。
开发和推广的深度学习近年来,人工神经网络已成功地应用于一代的舞蹈动作。使用深度学习舞蹈生成的显著优势是,他们可以直接从原始数据中提取高级特性。此外,深层神经网络可以创造新的舞步。然而,舞蹈生成算法基于深度学习也有一些问题。例如,由于端到端模型,生成的舞蹈可能不是光滑的前后帧,这将使生成的舞蹈的可视化效果差;另一方面,舞蹈直接生成的算法往往难以与音乐。此外,对于舞蹈的可视化,人们常常会让人体的骨架或直接执行动画处理根据人体的关键点的坐标,并有进一步改善的空间可视化效果。
舞蹈通常来自现实世界的数据。有必要提取连续数据从一个特定的舞蹈视频使用人类的舞蹈动作姿态估计技术,设计一个特定的音频特征提取音频编码器特性从音乐与舞蹈。舞蹈数据的坐标的变化反映了人体在不同时代的关键点。这是一个典型的时间序列数据,所以它有多尺度的特点,多维、动态相关性。
针对舞蹈数据的特点,本文构造一个自定义的音乐和舞蹈的数据集,其中包含大约270000帧的音乐和舞蹈动作。人体姿态估计技术是用于提取标志性的人类骨骼关键点的坐标作为舞蹈构成特性,设计和设计。特定的音乐特征编码器模型提出了一种基于深度学习的舞蹈运动生成和执行端到端提取的舞蹈训练功能和音乐功能。通过定量和定性的实验模型进行了优化,和舞蹈生成模型最适合音乐。最后,使用改进的Pix2Pix模型生成的舞蹈是可视化,和真人舞蹈视频。没有额外的标签数据的前提下,一个端到端的生成模型是通过self-supervised学习跳舞,这是用于智能舞蹈教学,游戏领域,跨通道生成和探索视听信息一定的价值之间的关系。
2。相关工作
当前的研究现状。跨通道一代从音频视频可以分为三类:身体运动的一代,audio-driven图像生成,讨论视频的一代。
合成相应的脸视频通过语音或音乐是一个典型的跨通道一代的任务。早期研究说面临的生成主要是合成一个特定的身份从一个数据集基于任意语音和音频。Kumar et al。1]试图利用延迟LSTM [2)生成要点同步音频,然后另一个网络视频帧生成条件要点。这是第一个网络体系结构,使用任何文本作为输入来生成相应的声音和对口型视频同步照片现实。与其他方法,发表他们的方法仅由一个完全可训练的神经网络,不依赖于任何传统的计算机图形学方法。模型使用三个主要模块:Char2 Wav-based text-speech网络,延迟LSTM生成语音点与音频同步,和Pix2Pix-based网络生成视频基于这些要点。随后,钟等。3]试图使用一个Encoder-Decoder CNN模型学习之间的对应关系最初的音频和视频,曾经面临的共同嵌入和音频来生成合成说面部视频帧。模型输入目标的静态图像和音频语音段的脸和输出目标的lip-shaped视频与音频同步。Jalalifar et al。4)结合RNN和氮化镓(5)来创建一个序列的面孔与输入音频同步两个网络。其中一个是LSTM网络,用于创建基于音频输入唇地标。甘另一条件,用于生成面部图像基于一组给定的唇痕。在一起,这两个网络可以生成一个自然说话脸序列输入音轨同步。Borra et al。6进一步提出了一种时间一致性动态像素损失的方法。与直接audio-to-image法相比,这种级联方法避免配件假视听信号之间的相关性与演讲内容。为了避免这些像素抖动问题,作者加强了网络的关注视听相关领域,提出了一种新的动态和可调进行像素级损失机制的关注。此外,为了产生更清晰的图像和混沌同步的面部运动,他们提出了一个新的回归鉴别器结构,考虑sequence-level信息和框架级别信息。
跨通道通过音频和图像转换是一种跨通道的一代的问题。陈等人。7)第一次尝试使用条件生成对抗网络解决跨通道一代问题,实现相互转换的音乐听起来和相应的玩乐器图片,也意识到跨通道视听相互生成。研究人员分别定义了一个声音形象网络和一个影音网络生成图像和声音,分别。Brahmaiah et al。8从中国科学院自动化研究所和其他人认为是跨通道循环的一代对抗网络和结合不同的子网成一个网络,提出了一种跨通道代模型基于循环对抗一代网络。音乐和图片之间的相互代效应增强。最近,已经有一些研究试图重建面部图像语音片段。Duarte et al。9)提出了一个神经网络,这是从头开始训练在一个端到端的方式和直接从原始语音波形生成的脸没有任何额外的身份信息。他们的模型训练self-supervised的方式是通过使用自然对齐音频和视频功能的视频。另一种类型的跨通道生成任务是生成相应的演讲视频语音或文字的端到端没有指定规则的干预。一些研究人员认为结合声学分析和文本(10),演示的方法生成三维虚拟人从音频信号通过推断语音的声学和语义特征。通过声信号的韵律分析,将单词的语义,动态生成虚拟的面部表情和行为,包括头部动作,眼睛跳阅、姿态,闪烁,盯着。研究表明,他们的技术优于只使用语音韵律生成虚拟人的方法。其他研究人员已经意识到任何给定的演讲者的演讲通过self-supervised培训演讲视频(11),生成相应的演讲姿势没有添加任何语义信息,然后合成现实的演讲视频。
3所示。方法
在本节中,该方法详细描述。首先,长期和短期记忆(LSTM)网络领域中的扩展,然后促销活动,和改进进行了讨论。更新后的公式。此外,深度学习作为基地建设的舞蹈生成模型。然后,提出了韵律特征提取的设计。这是紧随其后的是训练数据的表示。最后,发生器的设计。
3.1。长期和短期记忆网络
长期和短期记忆网络通常缩写为LSTM,这是一种特殊类型的RNN。它的目的是解决复发性神经网络的长期依赖。它介绍了[的Hochreiter和。施密德胡贝尔表示12]。精制,得到许多人在后续工作。LSTM取得好的结果在许多时间序列问题,得到了广泛的应用。
LSTM的第一步是决定哪些信息丢弃的细胞。这个决定是由一个乙状结肠层称为“被遗忘的门。“每个元素的细胞状态 ,忘记门通过输入和然后输出0和1之间的数字,代表的比例从以前保留的信息单元的状态当前细胞 。1的意思是“保持所有这些信息”,0表示“放弃所有这些信息。”的更新公式如下:
下一步是决定什么新信息模型的存储单元中的状态。这一步是分为两个部分。
然后,更新旧的细胞状态的新状态。
最后,更新后细胞状态,最终的输出结果需要根据输入决定和 。输出将基于当前电池状态和一些信息过滤。
3.2。模型的总体设计
图1展示了一个舞蹈的整体设计生成模型基于深度学习。代表的灰色框处理模块或网络模块,和红色和蓝色框代表音乐特点和舞蹈动作特点,分别。浅橙色框代表了损失函数设置。如图,首先执行音频特征提取和动作舞蹈数据特征提取,然后输入音频特性到发电机获得预测的舞蹈姿势,并使均方误差与真正的舞蹈姿势损失;音频功能是通过Autoencoder模块。的音频特征结构构造和音频重建的损失;预测的舞蹈姿势和真正的舞蹈姿势被发送到歧视的鉴别器,和模型训练的损失。
3.3。韵律特征提取的设计
领域的声音处理,Mel-Frequency倒频谱是一个线性变换的基于非线性对数能谱梅尔声音频率的规模。Mel-Frequency Cepstral系数(MFCC)系数构成Mel-Frequency Cepstral频谱。的频带划分Mel-frequency倒频谱是等距划分梅尔,这比线性接近人类听觉系统的频带在正常倒频谱。这种特性表示可以提供更好的声音信号的特征在许多领域,如音频压缩和语音识别。总之,我们选择24-dimensional梅尔频谱特性和八维tempogram特征的向量表示音频旋律,如表所示1。
节奏特征提取的设计考虑到所有音乐有一个固定的节奏;也就是说,每一个音乐都有一个固定的鼓,所以节奏特性可以进一步从音频中提取特征。当音频特征向量代表的旋律和节奏特征向量代表鼓的节奏一起作为神经网络的输入,该模型更容易理解整个音频特征序列。这些节拍特征如表所示2,可以用作舞蹈节拍控制信号生成模型。通过构造一个特征矩阵形式的三维算术序列,该模型可以打败信息的基础上添加音频特性,如表所示2。节拍特征向量的第一个维度是每个音频帧的位置在整个音乐;节拍特征向量的第二个维度是音频帧的位置在每个节奏的音乐;打第三维的特征向量是音乐中的每个音频帧的位置。
3.4。训练数据表示
总之,这些数据从原始舞蹈视频提取训练舞蹈生成模型可以表示如下。
音频特征:
击败特点:
姿势特点:
音频数据:
舞蹈的姿态数据:
所需的训练数据模型可以表示为和 。其中, ,总共音频数据的帧;每一帧的音频数据的表示 ; ;即舞蹈姿势数据对应的音频数据和相同的帧。
3.5。信号发生器的设计
为了描述发电机的设计,我们划分成三个主要阶段。第一个是编码器的设计,从输入中提取音频特性。其次,注意计算的过程就开始了。出于这个原因,一个模块称为注意重量计算设计。最后,译码器设计,解码音频特性。
3.5.1。编码器设计
(1)编码器模块。为了提取长期音频特性,编码器模块由多层LSTM和CNN。输入向量和节奏特征向量提取的音频特性。输出是一个音乐上下文向量。具体的表示公式所示(10)和(11), 三个卷积核,是在每个卷积非线性激活层,然后呢代表了双向LSTM。音乐特征序列特征提取后第一次送到三层卷积层提取音乐上下文信息,然后发送到一个双向LSTM生成隐藏状态编码器。图所示,输入向量 。隐层的状态 在绿色框编码后得到。隐藏状态的编码器生成后,它将被发送到关注网络生成一个音频上下文向量。
3.5.2。设计的关注计算模块
(1)注意权重计算模块。隐层的状态 和隐藏层的状态 可以通过编码器分开计算模块和译码器模块,在哪里和每个隐藏状态的编码层和隐藏状态的解码层的步骤。然后,计算重量和注意分配权重的关注音乐上下文向量获取音频特征向量后重量分配。注意计算发生在每个解码器时间步,和目标隐藏状态和每个源状态计算了一个定制的得分函数生成注意重量。为了减少潜在的子序列重复或遗漏在解码过程中,考虑使用先前解码过程的累积注意重量作为附加的功能保持模型一致当输入序列一起前进。因此,我们的模型使用一个位敏注意机制,这是前面的注意机制的扩展。见公式(12),是前面的位置特性通过卷积注意重量,然后呢 , , , ,和B是被训练参数。关注权重模块后,关注权重之间的隐藏状态和可以获得。
3.5.3。译码器的设计
根据上下文向量生成的音乐,解码任务顺序执行,和每个任务集中在一个或多个音频特征向量;也就是说,不同的权重分配给音频特征向量。编码器部分采用自回归模型和使用的预测价值的舞蹈姿势在以前的时间步骤的输入下一个时间步预测下一个时间步的舞蹈动作。
总之,我们描述发电机训练的过程如下。音乐训练数据集 ,在哪里是一个序列的音频特征向量。相应的音乐舞蹈训练数据集 ,和是舞蹈姿态特征向量对应 。一双样品组成的训练数据 , ,和从生活舞蹈视频通过特定的特征提取方案。模型的目标是培养舞蹈生成器实现之间的映射关系和 。见公式(13),模型是第一个训练 ,和舞蹈之间的MSE损失计算生成的模型和真正的舞蹈 。培训后,我们输入给定的音乐到训练模型获得相应的舞蹈姿势序列。
4所示。实验和讨论
4.1。用户研究结果
我们主要进行用户研究的真实性model-generated跳舞,舞蹈和音乐之间的一致性。首先,我们调查了舞蹈生成的模型是否真实可信。我们邀请了20个观察员进行评分实验和显示每个观察者15舞蹈片段由五个不同的模型根据舞蹈类别。每个观察者根据舞蹈的忠诚。得分最高的是10分,最低为0分。每个模型的得分计算分数的基础上15个视频的得分手,最后的成绩得分平均计算平均值,然后现实每个模型可以获得的分数。
根据图中所示的数据2模型,我们设置一个LSTM-PCA模型,第二个模型是LSTM PCA和鉴别器模型,第三个模型是发电机我们舞蹈生成模型的一部分,和第四模型生成器和鉴别器模型。第五是发电机和鉴别器和Autoencoder模型。从表中我们可以看到,在真实性方面,我们的发电机系列模型比其他模型。具体来说,模型一个得分3.61分,模型两个得分5.43分,模型三个得分6.90分,模型四个得分7.85分,和模型5得分8.52分。
从图可以看出3,我们的发电机系列模型比其他模型一致性的音乐。在数据方面,音乐的一致性韩国流行数据集比高于其他类型的舞蹈。这可能是由于内部数据的巨大差异的其他两个舞蹈的数据集。例如,音乐同样的舞蹈类型是完全不同的。舞蹈训练是更加困难,但韩国流行文化所数据没有这样的问题。它还表明,人体的韩国流行文化所舞蹈更突出的情感表达,以及编排更符合音乐。具体来说,模型1的分数4.54韩国流行文化所数据集,数据集机械舞上的得分是2.87,和3.19分嘻哈数据集;模型2的得分5.61韩国流行文化所数据集,数据集机械舞上的得分为5.61分。分数是4.32,和说唱数据集上的得分是4.21;模型在韩国流行文化所三个数据集的分数是6.54,机械舞数据集上的得分是5.32,嘻哈数据集上的得分是5.39。
模型在韩国流行文化所四个数据集的分数是8.01,机械舞数据集上的得分是7.21,和说唱数据集上的得分是7.45;模型在韩国流行的数据集比5的得分9.01和机械舞数据集上的得分是7.98;嘻哈数据集的分数是7.32。总之,我们的模型得到了最好的用户评论与其他模型相比而言,音乐舞蹈的真实性和一致性。
4.2。图像质量评价结果
如表所示3当地时间,使用全球内容鉴别器和鉴频器,甚至一个单帧的结果,它的分数更好。由于增加缺乏认知态度,态度变得矛盾,然后转移到帧不同的态度,这可能会导致成绩下降。此外,可以观察到更多的显著差异在我们的视频。
为了评估质量的真人舞蹈视频,BRISQUE [13)是用来评估的质量真人舞蹈视频。具体来说,不同的模型被用来生成相同的音乐,舞蹈的姿势和同一组真人发电机用于生成真人视频。对于每一个真人视频,100连续视频帧随机抽样质量评估。根据质量评价结果表中,添加Autoencoder模块的影响略比不添加。这可能是由于Autoencoder引入的额外损失,这减少了生成的结果。
4.3。实验结果
舞蹈生成模型的实验结果对用户研究表明,对于大多数用户来说,我们的模型生成的跳舞超过其他模型的真实性和音乐一致性。这反映了我们的模型的综合舞蹈生成效果是最好的。舞蹈的实验结果生成模型的质量真人舞蹈视频显示生成的姿态序列模型更合理,更少的错误或不合理的姿势帧,所以合成真人效果也是最好的。这说明我们设计的人性化的过程是合理的,这进一步反映了我们的模型不仅取得了良好的结果按顺序生成,而且有效的真正的人类转变。总之,我们的发电机和鉴别器和Autoencoder舞蹈生成模型程序可以有效地提取音乐的特点,生成符合音乐舞蹈动作序列,并将它们转换为现实的舞蹈视频。
5。结论
深leaning-based舞蹈生成算法可以输入有任何类型和风格的音乐。此外,它可以输出音乐适合舞蹈的姿势和真实的人。研究相关的模型,本文完成了以下任务:
它完成了阅读大量的国内外相关文档。此外,它理解的现状和发展趋势,基于深度学习舞蹈生成算法。结合当前流行的舞蹈生成算法和传统舞蹈生成算法有两个问题。第一个问题是很难产生平滑和优雅的舞蹈姿势。第二个问题是匹配的舞蹈动作与音乐的困难。
完成国内外舞蹈的研究方法生成算法,结合音乐和舞蹈的特征数据,并设计音频特征提取和特征提取方案采取行动。舞蹈生成模型通过提取的音频特征向量和动作特征向量:为了实现平稳和完整的舞蹈序列,发电机模块设计;为了实现舞蹈和音乐之间的配合,一个鉴别器模块设计;为了提取的音频特征向量,self-encoder模块是为更好的特性而设计的。为了可视化效果,舞蹈姿态序列生成的舞蹈生成模型转化为一个真正的人。
为目的的实验进行验证的舞蹈从互联网下载的数据集。它的五个方面分析了模型损失函数值,损失的比较不同模型、序列生成效果,用户研究和图像生成真人舞蹈的影响。实验结果表明,在特征提取阶段,韵律和节奏的使用功能在音频功能比单独使用韵律特性。使用错误帧,缺失值的差异,和序列平滑舞蹈姿势可以流畅的动作特性。一代的效果更好。在建模阶段,发电机和鉴别器和Autoencoder模型具有最强的一代效应,可以生成一个舞蹈姿势序列光滑、完整和适合的音乐。真人舞台的舞蹈,改进Pix2Pix模型也在实验中取得了良好的结果。
研究结果起到重要的参考作用,舞蹈生成算法。它解决的问题未能生成光滑、完整的动作场面和舞蹈,在先前的研究适合音乐。它为智能舞蹈教学有一定的价值,游戏领域,跨通道生成和探索视听信息之间的关系。在未来,这篇文章的基础上,可以建立更大舞蹈集扩大训练数据训练更具代表性和健壮的舞蹈一代模型。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突有关的出版。