研究文章

现实的语音驱动说视频生成个性化的姿势

图2

管道的方法:输入信息可以音频或文本。当音频信息作为演讲者合成网络输入,我们将音频数据转换成log-mel特性,然后输入Aud2Kps模型构成的关键点。当输入文本信息,有必要使用声学模型将文本信息转换为Aud2Kps log-mel特征作为输入的网络。下面的步骤是一样的音频信号输入的过程。