TY -的A2 Wang Zhijie盟——张,徐AU -翁,Liguo PY - 2020 DA - 2020/12/29 TI -现实的语音驱动说视频生成个性化的姿势SP - 6629634六世- 2020 AB -在这个工作中,我们提出一个方法来将一个演讲者的演讲信息转换成目标人物的视频聊天;方法可以使口腔形状同步,表达式,在合成和身体姿势更现实的演讲视频。这是一个具有挑战性的任务,因为口形状和姿态的变化加上音频语义信息。模型训练很难收敛,并在复杂的场景模型效果不稳定。现有的语音驱动扬声器的方法并不能很好的解决这个问题。生成序列的方法提出了第一个演讲者的要点脸和身体姿势的实时音频信号然后可视化这些要点为一系列二维图像骨架。随后,我们生成最后的真正的演讲者通过视频一代网络视频。我们采取随机抽样的音频剪辑,编码音频内容和时间相关性使用更有效的网络结构,并优化和迭代网络输出使用微分丧失感知和态度,以获得一个平滑的姿势关键序列和更好的性能。此外,通过将指定动作帧插入到人类构成序列合成窗口,动作姿势合成议长的丰富,使合成的效果更真实和自然。然后,生成的视频最后一个演讲者是通过视频一代网络获得动作要点。 In order to generate realistic and high-resolution pose detail videos, we insert a local attention mechanism into the key point network of the generated pose sequence and give higher attention to the local details of the characters through spatial weight masks. In order to verify the effectiveness of the proposed method, we used the objective evaluation index NME and user subjective evaluation methods, respectively. Experiment results showed that our method could vividly use audio contentsto generate corresponding speaker videos, and its lip-matching accuracy and expression postures are better than those of previous work. Compared with existing methods in the NME index and user subjective evaluation, our method showed better results. SN - 1076-2787 UR - https://doi.org/10.1155/2020/6629634 DO - 10.1155/2020/6629634 JF - Complexity PB - Hindawi KW - ER -