研究文章

多任务学习藏语语音识别与当地的关注

表7

演讲者ID识别three-task模型的精度(%)。

体系结构 模型 Lhasa-U-Tsang Changdu-Kham 安多田园

SpeakerID模型 67.75 93.13 95.31

与方言WaveNet-CTC ID和议长ID S-D-S 72.91 98.8 96.12
D-S-S1 70.21 95.23 93.6
D-S-S2 70.35 96.42 96.89

(5)-WaveNet-CTC关注 S-D-S 61.08 83.33 89.53
D-S-S1 62.12 83.33 87.01
D-S-S2 61.99 84.52 90.11

WaveNet-Attention (5) ctc S-D-S 61.99 85.71 92.05
D-S-S1 62.53 82.14 91.08
D-S-S2 61.18 89.28 92.44

WaveNet-Attention (7) ctc S-D-S 60.91 85.71 91.66
D-S-S1 62.04 84.31 92.01
D-S-S2 58.49 86.90 90.69

WaveNet-Attention ctc (10) S-D-S 58.49 84.52 92.05
D-S-S1 59.43 83.33 91.27
D-S-S2 63.47 92.85 97.86