文摘

在这项工作中,我们提出一个方法来将一个演讲者的演讲信息转换成目标人物的视频聊天;方法可以使口腔形状同步,表达式,在合成和身体姿势更现实的演讲视频。这是一个具有挑战性的任务,因为口形状和姿态的变化加上音频语义信息。模型训练很难收敛,并在复杂的场景模型效果不稳定。现有的语音驱动扬声器的方法并不能很好的解决这个问题。生成序列的方法提出了第一个演讲者的要点脸和身体姿势的实时音频信号然后可视化这些要点为一系列二维图像骨架。随后,我们生成最后的真正的演讲者通过视频一代网络视频。我们采取随机抽样的音频剪辑,编码音频内容和时间相关性使用更有效的网络结构,并优化和迭代网络输出使用微分丧失感知和态度,以获得一个平滑的姿势关键序列和更好的性能。此外,通过将指定动作帧插入到人类构成序列合成窗口,动作姿势合成议长的丰富,使合成的效果更真实和自然。然后,生成的视频最后一个演讲者是通过视频一代网络获得动作要点。 In order to generate realistic and high-resolution pose detail videos, we insert a local attention mechanism into the key point network of the generated pose sequence and give higher attention to the local details of the characters through spatial weight masks. In order to verify the effectiveness of the proposed method, we used the objective evaluation index NME and user subjective evaluation methods, respectively. Experiment results showed that our method could vividly use audio contentsto generate corresponding speaker videos, and its lip-matching accuracy and expression postures are better than those of previous work. Compared with existing methods in the NME index and user subjective evaluation, our method showed better results.

1。介绍

语音驱动扬声器的任务视频是指技术,自动生成相应的字符的演讲的视频通过一个基于计算机的音频信息。谈话的内容必须符合人物的姿势在视频。传统的语音驱动说视频需要专业的设备和运营商执行角色建模,通常非常昂贵的自定义使用。近年来,随着深层神经网络的成功应用,提出了数据驱动的语音和视频合成方法。这些方法通常需要使用大量的高质量的音频和视频数据,和生产过程是复杂的,但合成议长的嘴姿态匹配效果很差。

当前主流的方法主要集中在面部议长合成和在身体姿势和面部表情做更少的工作。具体来说,现有的方法(1,2)演讲者的声音信息输入获得真实感三维人脸模型的递归神经网络的参数,然后安装真实感三维人脸模型映射到二维视频合成模块的要点作为输入,然后输出相应的扬声器图片通过视频合成模型。由于疲软的真实感三维人脸模型的表示能力参数网络,关键错误从真实感三维人脸模型转换获得较大,需要使用三维面部模型作为转换的中间状态,导致一个复杂的整体过程。Eskimez et al。3]面部关键点转换成数据集的平均脸空间删除ID特性和简化了任务。尽管关键指标从网络获得产量相对较低,姿势expressionsare非常单调和刚性,因此,合成议长视频不够现实。

正如上面提到的,现有的语音驱动扬声器方法的匹配效果不理想,和合成议长视频抖动的现象。为了解决上述问题,本文提出了一个方法将演讲者的声音信息转化为目标人的视频聊天。我们使用扩张切除可分离的残留(DDSR)单位编码音频特性(4,5),然后使用格勒乌网络层(6)学习时间特性和约束网络输出使用内容损失函数。通过这个网络结构,编码的音频内容和时间相关信息有效地同时,面部关键指数模型的输出降低,和嘴的形状和姿势的合成议长视频与音频内容更好,另外,合成议长视频更加自然、真实。训练和测试的过程中,我们插入指定的体式序列帧的序列,使音频转换者的口形状和姿势更自然的和生动的。为了丰富演讲者的详细结构,我们引入一个当地的注意机制关键网络和添加空间权重的脸,手指,和其他地区的角色得到更高的关注。

最后,为了更好地评估我们的系统,我们使用高分辨率和帧速率(FPS)相机创建一个数据集,其中包含音频和视频的多个目标阅读选定的文章。与现有的方法相比,我们的方法产生更好的视觉感知。在图1,我们将展示一些图片我们合成的演讲视频。

总之,我们工作的贡献(1)我们使用一个新的扩张切除可分离的残留(DDSR)单位。这种网络结构可以有效地代表了音频内容和时间相关,和面部关键指数模型的输出较低。与此同时,网络模型用于模型的要点脸和人类的姿势,分别。预处理后,它使用了损失函数优化迭代。结果表明,面对细节和人类的姿势更好。(2)我们使用一阶微分损失函数和构成知觉损失函数(7,8)优化模型。其中,一阶微分损失函数可以平滑前后帧的构成,以及构成知觉损失函数使用了时空图形成的分层表示构成序列,以限制网络的时空信息输出。(3)我们建立一个姿势关键点地图添加丰富的姿态和表情生成的人体姿势。此外,我们还提供一个方法来提出在现有的序列窗口转换成相应的关键帧序列。

给定一个扬声器的音频信息,生成相应的人说话的视频吸引了许多研究者的兴趣。早期作品主要应用隐马尔科夫模型(HMM)生成相应的语音和面部动作之间的关系(9- - - - - -14]。其中,品牌(15]提出声音木偶作为HMM-based方法生成对话面临只有声音信号驱动。在另一项研究中,Cosker et al。10,11)提出了一个层次结构模型,可以动画面临独立言论的条件并将它们合并成一个完整的视频。

近年来,随着深层神经网络的成功应用,语音驱动扬声器的相关工作提出了基于深度学习方法。其中,Suwajanakorn et al。16)设计一个LSTM网络直接生成目标身份面临来自音频视频聊天。然而,这种方法需要记录大量的面部视频与特定目标的身份,这限制了其应用在许多场景中。Linsen等人音频信息转换成3 d脸模型参数空间,然后安装真实感三维人脸模型2 d面部关键点。他们的网络使用几层复发性神经网络编码,和网络功能的学习能力相对较弱。面部关键点得到真实感三维人脸模型的转换有一个很大的错误,需要使用和真实感三维人脸模型作为转换的中间状态。这将导致整个过程的复杂性。

此外,包括单级的方法直接转换的音频扬声器视频空间,许多研究人员演讲一代的任务划分为两个阶段。通常,关键信息只对语音内容的信息。范教授等。17)第一次使用LSTM网络语音特征映射到三维可变形形状和旋转参数,最后生成的实时3 d动画面临基于预测参数。在文献[18),他们进一步改进这种方法,取代语音特征与原始波形作为输入和LSTM网络一个回旋的结构。然而,相比于speech-generated姿态关键点网络在我们的方法中,他们的方法是更直观的形状和旋转参数,以及从这些参数映射到特定的手势和面部表情并不清楚。在另一个相关工作,生成的脸,他们的重点是标准化平均脸,而不是一个具体的目标的身份。虽然这有助于消除因素没有直接关系的声音,预测序列关键点的姿势是不自然的。(19)一个扩展人类复杂运动合成方法提出了基于自动调谐复发性网络。他们可以模拟更复杂的运动,包括舞蹈或者武术。在第二阶段的工作,大多数方法使用vid2vid [20.)加强相邻帧之间的时间一致性。Shysheya et al。21)提出了一种方法来从骨架生成现实的视频序列没有建立3 d模型。我们的方法还使用vid2vid网络合成的最后一位演讲者视频姿势骨架图,获得更好的结果。详细的纹理信息的脸和手,我们使用单独的鉴别器在vid2vid优化这些部分。

我们的方法扩展了数据随机音频采样和使用更有效的网络结构学习音频内容和时间相关性。损失函数使用一阶微分损失和造成感知损失优化输出构成时间稳定性和匹配精度。同时,关键字唤醒技术用于生成的序列构成转换成指定的动作姿势。大量的实验结果表明,我们的方法生成一个自然和现实的演讲视频音频,和它的嘴唇匹配和表达式的姿势比以前的工作更富有表现力。

3所示。方法

在本节中,我们主要介绍不同模块的网络。整个网络结构如图2。在我们的方法中,输入信息可以是音频或文本。当音频信息作为演讲者合成网络输入,我们把音频数据转换成log-mel功能;aud2kps网络用于获取人体姿势和面部关键点。使用字典构建和关键姿势插入方法插入指定的行动框架生成的关键序列,合成效果更加自然和真实,然后输出关键点的面部和人类的姿势是可视化为一系列二维骨架图像,这些2 d图像骨架进一步送入Vid2vid生成网络生成最终的图片说话。当输入文本信息,有必要使用声学模型将文本信息转换为获得一个统一log-mel Aud2Kps网络的特征作为输入。下面的步骤是一样的音频信号输入的过程。语音合成方法(TTS)是目前非常成熟,商业化,我们使用开源tactron2 [22)完成我们想要的文本转换结果。在下面几节中,我们描述了每个模块的架构。

3.1。构成要点

在视听传播的转换的过程中,我们使用人体姿态的关键中间状态表示这两个空间张成的空间特性不会太大。相比之下,使用三维人体模型作为中间状态表示,这是更方便的和普遍的过程中训练和推理。我们使用开源方法OpenPose (23,24)获得人体姿势的关键点。这些要点包括137身体的位置坐标信息,脚,手,脸。首先,我们构造这些2 d要点和音频信息为内容的序列,然后火车Aud2Kps网络生成二维坐标对应的姿态要点音频语音信息。

3.2。音频要点(Aud2Kps)

如图2,我们Aud2Kps网络需要log-mel谱图作为输入。 是音频/文本编码的输入向量和 是开放的姿势关键输出向量。从音频log-mel光谱特征提取25)是一组80 -维的向量。我们设计了一个DDSR单位编码特性的语义内容,然后输入格勒乌模型学习的时间特性,最后输入完整的连接层和乙状结肠激活函数来获取关键信息的脸和身体姿势。我们的网络结构有效地描述了音频内容信息和前后时间序列之间的相关性,以便NME面部关键点输出指数较低的模型。当Aud2Kps地图音频序列构成的序列,因为人体的不同部位有不同的尺度,我们需要给他们不同的权重。因此,对于身体、手、面部轮廓,和嘴位置,我们将关注weightsas 1, 10、50和100年,分别。我们也使用一阶微分连续两个姿势之间的损失,确保输出构成要点更加流畅自然。

MSE的损失函数l均方误差是由

颞一阶微分的损失l是由

同时,我们使用一个pose-perception损失函数计算生成的内容之间真正的损失和要点。在大多数内容丢失,VGG网络作为特征提取器(26,27),构成知觉损失函数使用ST-GCN特征提取器的感知损失函数,和骨架的层次表示序列是由使用时空图,可以从数据中自动学习空间和时间模式。我们使用一个扩张剩余块在每个DDSR单元(28),以便每个后续层有很长的时间跨度,扩张后的接受域卷积层与层数增加呈指数级增长。该方法可以有效提高传感接受域的每个输出时间步和获得更好的长程相关性。的实现细节DDSR单元如图3

给定一个pretrained GCNnetwork ,我们定义层的集合 作为 培训对 ,在哪里 是地面真理骨架序列和 是相应的音频,我们的知觉损失是什么

在这里, 是一期Aud2Kps网络在我们的框架。的hyperparameters 平衡每一层的贡献 的损失。

自从文本输入不会影响模型的效率即使在人们之间的语音特征有差异,文本输入会使网络模型更通用。类似的过程使用audio-training Aud2Kps,我们将文本分割成音素,然后使用声学模型通过特征编码生成log-mel特征作为输入的后续议长合成模型。我们使用开源tacotron2模型将文本转换成log-mel特性。以下过程audio-to-keypoint的过程是一样的。

3.3。关键姿势插入

在模型训练过程中,我们发现,尽管Aud2Kps模型可以同步扬声器的音频和视频内容很好,生成的角色动作序列太单调了。这主要是因为角色动作序列是相同的在训练集的次数最多,与姿态变化和动作序列在整个训练集(很稀疏29日]。为了使合成的演讲者的姿态动作视频更具表达性和多样化,我们设计了一个手势序列字典。当指定的关键字出现在音频内容,相应的手势序列输出的窗口Aud2Kps转化为指定的动作,这里的姿势变换使用姿态变换矩阵存储在姿态序列字典。

我们选择一些姿势动作从记录的视频序列,然后构造这些姿态序列和相应的唤醒词变成一个姿态序列转换字典(由变换矩阵)。一旦输入音频内容出现在字典里,我们将改变现有的序列有一定概率。不同的单词之间的概率可能是不同的。为了保持这个姿势的平稳过渡,我们顺利邻帧。

3.4。对视频

我们使用vid2vid发电机网络生成的骨架图像转换成相应的演讲视频。要点后人体姿势从Aud2Kps获得网络,它们是可视化为一系列二维骨架图像,这些2 d图像进一步送入Vid2vid发生器网络(20.]合成最终的演讲视频。在我们的网络结构中,不同位置的人体注意不同程度的重要性和人们倾向于更加关注的脸和手。为了使vid2vid网络更加注意细节纹理合成的脸和手,我们使用一个单独的鉴别器网络训练面部和手部区域的模型,以确保鉴别器更关注生成的面部和手的细节。

4所示。实验

4.1。TalkingPose数据集

我们的音频和视频数据可以从网站上的相关演讲或播放视频。然而,大多数视频网站上的资源在不同时期变化的特征装饰和服装风格,从而增加不可控因素的样本和训练的难度增加。因此,我们指定speakersto执行音频和视频记录。我们的演讲者读不同的主题和脚本,整个录制音频和视频的时间大约是2个小时。视频分辨率为1920×1080,速度是每秒30帧。

记录视频数据后,音频数据可以直接从相应的视频数据分开。我们样品音频数据16 kHZ的采样率和将其转换为log-mel特性作为网络的输入。由于音频音量水平可能有不同,我们首先通过RMS-based规范化规范化体积(29日]。然后,通过稀疏的快速傅里叶变换(sfft),音频从时域表示转换为频域表示。每个频率的值代表了当前帧的语音信号的能量频率,使用多个三角形过滤器和一组。线性光谱sfft处理后获得80 -空间的低维特征模拟高频信号的抑制人类的耳朵。该方法广泛应用于语音特征提取。我们使用随机抽样策略扩大音频特征的数据集在同一段,log-mel特性和姿态关键序列1:4作为模型的输入。图2是数据集的部分例子。

4.2。实现细节

所有的模型都是训练有素的Nvidia GeForce 1080 GTX公司8日Ti gpu。Aud2Kps模型的第一阶段在我们的框架中,模型是实现PyTorch [24),大约需要一天训练500时代。hyperparameters,三个DDSR输出通道的尺寸单位是(128、256、512),格勒乌计时网络中的隐藏节点的数量设置为256,并在最后的节点数量完全连接层的网络设置为137×3 OpenPose参数的数量。pretraining ST-GCN的过程,ST-GCN达到 精密TalkingPose数据集。通过使用亚当优化器(30.)最小化l2Pytorch规范的要点,我们确保音频特性有效地转化为相应的关键点。网络训练批大小是64,和学习速率是0.001。第二阶段,转移对视频,Vid2vid模型大约需要七天培训20时代,以及采用的hyperparameters一样(20.]。在模型训练过程中,数据预处理部分会自动作物原视频分辨率1024×1024。因此,我们的结果都是1024×1024分辨率。

4.3。评价指标

评估的语音驱动的任务视频交谈并不简单,因为(1)没有基准数据集评估speech-to-human构成视频;(2)人们说的语音驱动视频性能的影响是非常主观的,因此很难定义模型的性能。我们选择比较我们的结果和SoTA方法使用用户研究。我们比较LearningGesture [31日],neural-voice-puppetry [32],EverybodyDance [33],Personalized-bodyPose [29日在我们的用户研究。在用户的评价指标的研究中,我们将平均意见分(MOS) [30.)评价指标的语音(TTS)方法(34)来衡量不同模型的有效性。表1显示了所有方法的用户研究的金属氧化物半导体。我们得到最好的整体质量分数超过其他4 SOTA方法。

定量模型预测效果说话的姿态。即使人们说同样的句子,他将不会执行相同的手势在不同的时刻。很难判断演讲内容是否正确地转化为人体的姿态。然而,面部和口腔的形状相同的句子几乎是相同的。因此,我们评估模型的性能通过面部关键点。我们使用NME指标(35)测量的偏差度音频信息转化为相应的真正的面部关键点。NME广泛用于面部具有里程碑意义的检测来评估模型的质量。它是由之间的平均欧氏距离计算预测和地面真理地标,然后是规范化消除图像大小不一致所造成的影响。NME为每个被定义为 在哪里 指的是数量的地标, 指的是预测和地面真理的坐标 分别具有里程碑意义 是归一化的因素,比如眼睛中心的距离(interpupil正常化,IPN)或眼角落的距离(两眼间的归一化、离子)。

评估对视频的影响,我们使用一个主观的评价方法,用户研究。为了评估最终的输出视频,我们邀请了100名参与者在互联网上进行主观测试。我们总共有三个视频展示给受试者。合成视频,其中两个是我们的,一个是演讲者产生真正的人类的音频,视频,另一个是一个演讲者视频来自TTS合成音频,剩下的一个是原始的真正的演讲视频。这三个视频是随机炒,我们没有告诉参与者视频背后的标签。参与者需要主观评价这些视频的质量,从1(强烈不同意)到5(非常同意)。评价选项包括(1)人体的完整性;(2)演讲者的脸在视频中是明确的;(3)人的姿势在视频中看起来自然流畅;(4)的整体视觉体验视频讲的是现实的。

如表所示2,我们合成视频四个项目的总分是3.795,和真正的视频是4.365,这意味着我们提出的总体效果合成视频交谈 真实的视频。它更接近真正的演讲效果的面部细节和人体姿态的完整性。生成的视频评分TTS比声音一代效应,原因是一样的那些表3。主要原因是合成音频信息丢失,因此它不同于原始的音频。这些损失带来的错误到生成的人体姿势,这样的视觉分数合成议长视频很低。

4.4。烧蚀研究

我们使用NME指数评价面部关键点测试集。如表所示3,我们使用不同的时间长短数据集(1.5 1.0 0.5 h, h, h,和2.0 h,分别)训练模型,观察对精度造成的影响的预测。此外,我们评估文本的音频数据合成观察声音变化对结果的影响,使用文本训练和测试网络,并比较结果与音频的结果。最后,我们比较训练只使用格勒乌网络使用我们的网络结构。

从表3,我们可以注意以下。(1)音频训练集后增加到1.5 h,模型的好处并不会通过增加数据集,但模型的效果也可以改善通过进一步增加文本训练集的数据量。(2)从模型中获得的指标从音频和文本数据,可以看出,音频的效果比文本,显示音频转换的要点脸更准确。(3)上的音频数据合成文本测试模型。不如原始音频的影响主要是因为合成音频信息丢失,因此它不同于原始的音频。(4)使用DDSR单位网络模型比只使用格勒乌网络结构特征提取器。虽然只有使用格勒乌网络可以捕获前后帧之间的相关性,特征表征能力弱。DDSR单元和格勒乌的结合可以弥补这个缺点。

为了证明我们的关键姿势插入方法的有效性,我们进行了另一个用户的研究。在这项研究中,我们只是给了一双复合视频,没有插入关键姿势。参与者只需要评估这两个视频是更自然和真实。从最终用户评价,结果表明,合成的视频与姿态actionsbeing插入现有的姿态序列得分 和合成视频没有关键帧姿态只收到 的选票。这说明插入的有效性对丰富的语音驱动的谈话要点视频合成。

5。结论和未来的工作

在这项工作中,我们提出一个新的方法来生成现实的讨论视频的音频信息。我们样本随机音频数据和使用更有效的网络结构学习音频内容和时间相关性。我们使用一阶微分损失和造成感知损失来优化网络的输出,这样脸和姿势音频转换获得的要点是平滑的,索引性能更好。同时,通过指定动作帧插入人类构成序列合成窗口,合成议长的动作姿势更自然和真实。我们的客观和主观评估现有方法比较结果是很有竞争力的。在人的场景中我们当前的方法有良好的效果。在multispeaker视听传播的转换任务,我们使用TTS技术演讲文本转换为消除声音ID信息造成的不便。在未来,我们将进一步探索multispeaker工作目标人物视频合成。

数据可用性

使用的数据来支持这个研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金的中国(42075130)。