研究文章

多任务学习藏语语音识别与当地的关注

表2

两个任务模型的音节出错率(%)演讲内容识别。

体系结构 模型 Lhasa-U-Tsang Changdu-Kham 安多田园
爵士1 rs2 爵士 rs 爵士 rs 激光器3

Dialect-specific模型 28.83 62.56 17.6
WaveNet-CTC 29.55 −0.72 62.83 −0.27 33.52 −15.92 −5.63

与方言WaveNet-CTC ID或演讲者ID(基线模型) 推理结果4 32.84 −4.01 68.58 −6.02 33.00 −15.40 −8.48
重瓣5 26.80 2.03 64.03 −1.47 30.79 −13.09 −4.21
S-S16 27.21 1.62 64.17 −1.61 29.68 −12.08 −4.02
S-S27 28.13 0.7 62.43 0.13 28.04 -10.44 −3.20

(5)-WaveNet-CTC关注 推理结果 52.19 −23.36 65.24 −2.68 50.22 -32.62 −19.55
重瓣 55.16 −26.33 67.78 −5.22 55.23 -37.63 −23.06
S-S1 77.42 −48.59 85.44 −22.88 82.08 -64.48 −45.32
S-S2 83.32 −54.49 89.15 −26.94 81.47 -63.87 −48.43

WaveNet-Attention (5) ctc 推理结果 21.44 7.39 60.16 2.40 20.46 2.86 2.31
重瓣 23.79 5.04 62.96 −0.4 24.15 −6.55 −0.64
S-S1 34.86 −6.03 63.36 −0.8 40.10 −22.50 −9.78
S-S2 34.83 −6.00 62.70 −0.14 37.63 −20.03 −8.72

1爵士:音节错误率,2rs:相对音节错误率,3屁股:平均相对音节错误率,4d - s:模型训练与方言ID使用转录目标标签序列的开始,就像“一个ཐུགསརྗེཆེ,”5源:模型训练使用方言的转录ID标签序列的目标,6S-S1:模型训练与演讲者ID使用转录的开始目标标签序列,和7S-S2:模型训练使用转录和议长ID年底目标标签序列。