研究文章

现实的语音驱动说视频生成个性化的姿势

表3

评价指标使用NME(%)面部地标(低更好)。

源自。 Only-GRU TTS-mel 文本

0.5 4.925 5.673 5.871 5.693
1.0 4.921 5.640 5.885 5.690
1.5 4.853 5.644 5.877 5.614
2.0 4.907 5.647 5.829 5.607