复杂性

研究文章

多任务学习藏语语音识别与当地的关注

表2

两个任务模型的音节出错率(%)演讲内容识别。


体系结构	模型	Lhasa-U-Tsang		Changdu-Kham		安多田园
体系结构	模型	爵士¹	rs²	爵士	rs	爵士	rs	激光器³

Dialect-specific模型		28.83	62.56			17.6
WaveNet-CTC		29.55	−0.72	62.83	−0.27	33.52	−15.92	−5.63

与方言WaveNet-CTC ID或演讲者ID(基线模型)	推理结果⁴	32.84	−4.01	68.58	−6.02	33.00	−15.40	−8.48
	重瓣⁵	26.80	2.03	64.03	−1.47	30.79	−13.09	−4.21
	S-S1⁶	27.21	1.62	64.17	−1.61	29.68	−12.08	−4.02
	S-S2⁷	28.13	0.7	62.43	0.13	28.04	-10.44	−3.20

(5)-WaveNet-CTC关注	推理结果	52.19	−23.36	65.24	−2.68	50.22	-32.62	−19.55
	重瓣	55.16	−26.33	67.78	−5.22	55.23	-37.63	−23.06
	S-S1	77.42	−48.59	85.44	−22.88	82.08	-64.48	−45.32
	S-S2	83.32	−54.49	89.15	−26.94	81.47	-63.87	−48.43

WaveNet-Attention (5) ctc	推理结果	21.44	7.39	60.16	2.40	20.46	−2.86	2.31
	重瓣	23.79	5.04	62.96	−0.4	24.15	−6.55	−0.64
	S-S1	34.86	−6.03	63.36	−0.8	40.10	−22.50	−9.78
	S-S2	34.83	−6.00	62.70	−0.14	37.63	−20.03	−8.72

¹爵士:音节错误率,²rs:相对音节错误率,³屁股:平均相对音节错误率,⁴d - s:模型训练与方言ID使用转录目标标签序列的开始,就像“一个ཐུགསརྗེཆེ,”⁵源:模型训练使用方言的转录ID标签序列的目标,⁶S-S1:模型训练与演讲者ID使用转录的开始目标标签序列,和⁷S-S2:模型训练使用转录和议长ID年底目标标签序列。