复杂性

研究文章

多任务学习藏语语音识别与当地的关注

表7

演讲者ID识别three-task模型的精度(%)。


体系结构	模型	Lhasa-U-Tsang	Changdu-Kham	安多田园

SpeakerID模型		67.75	93.13	95.31

与方言WaveNet-CTC ID和议长ID	S-D-S	72.91	98.8	96.12
	D-S-S1	70.21	95.23	93.6
	D-S-S2	70.35	96.42	96.89

(5)-WaveNet-CTC关注	S-D-S	61.08	83.33	89.53
	D-S-S1	62.12	83.33	87.01
	D-S-S2	61.99	84.52	90.11

WaveNet-Attention (5) ctc	S-D-S	61.99	85.71	92.05
	D-S-S1	62.53	82.14	91.08
	D-S-S2	61.18	89.28	92.44

WaveNet-Attention (7) ctc	S-D-S	60.91	85.71	91.66
	D-S-S1	62.04	84.31	92.01
	D-S-S2	58.49	86.90	90.69

WaveNet-Attention ctc (10)	S-D-S	58.49	84.52	92.05
	D-S-S1	59.43	83.33	91.27
	D-S-S2	63.47	92.85	97.86