文摘

在本文中,我们提出将当地的关注WaveNet-CTC提高多任务学习藏语语音识别的性能。与任务数量的增加,如同时西藏演讲内容识别、方言识别、说话人识别,准确率单个WaveNet-CTC降低语音识别。受到的关注机制,我们介绍当地注意自动调整权重的特征框架在一个窗口和多任务学习的不同关注上下文信息。实验结果表明,我们的方法提高了语音识别的精度对所有藏族方言three-task学习,相对于基线模型。此外,我们的方法极大地提高了资源缺乏方言的准确性5.11% specific-dialect模型。

1。介绍

多任务学习已经成功应用了语音识别来提高模型的泛化性能之间的原始任务通过共享信息相关的任务(1- - - - - -9]。陈和麦6)使用多任务框架进行联合训练的多种资源缺乏语言,探索通用音素集作为次要任务提高每种语言的音素模型的影响。克里希纳et al。7)提出了一个层次化的多任务模型,张来武语言和资源缺乏语言之间的性能差异进行比较。李等人。8)和Toshniwal et al。9]介绍了附加信息的语言ID来提高端到端multidialect语音识别系统的性能。

西藏是中国的少数民族语言之一。它在中国有三个主要的方言,即。U-Tsang,康巴和安多。还有几个地方subdialects每个方言。藏族方言发音非常不同,但训练写字符统一各地方言。在我们以前的工作(10),西藏multidialect多任务进行了语音识别基于WaveNet-CTC,同时执行西藏multidialect演讲内容识别、方言识别和说话人识别在一个单一的模型。WaveNet深生成模型和非常大的接受字段,它可以语音数据的长期依赖模型。学习也是非常有效的语音数据的共享表示不同的任务。因此,WaveNet-CTC训练三个藏族方言数据集和学习共享的表示和语音识别模型参数,议长识别、和方言的认可。自从U-Tsang方言是一个标准的西藏拉萨的演讲中,有比Changdu-Kham全集用于训练和安多田园方言。虽然两个任务WaveNet-CTC提高了语音识别性能的拉萨U-Tsang方言和Changdu-Kham方言,three-task模型对所有方言没有提高性能。与任务数量,增加语音识别的性能退化。

获得更好的性能,注意机制引入WaveNet-CTC多任务学习。注意机制可以设置更大的重量更相关的帧在每一个时间步。考虑计算的复杂性,我们进行本地关注使用滑动窗口的整个演讲功能框架创建上下文向量加权不同的识别任务。此外,我们探讨将本地关注WaveNet内不同位置,即。,分别在输入层和高层。

这项工作是三倍的贡献。首先,我们建议与当地注意WaveNet-CTC执行多任务学习藏语语音识别,可以自动获取上下文信息在不同的任务。该模型提高了西藏multidialect语音识别任务的性能。此外,我们比较当地的性能注意插入在多任务模型中的不同位置。注意组件嵌入到高层WaveNet获得更好的性能比输入层WaveNet语音识别。最后,我们进行滑动窗口的语音帧有效计算当地的关注。

本文的其余部分组织如下:部分2介绍了相关的工作。部分3展示了我们的方法并给出了基准模型的描述,当地的注意机制,WaveNet-CTC与当地的关注。节4西藏multidialect数据集和实验详细解释。部分5描述了我们的结论。

联结主义的分类(CTC)的端到端训练简单和有其优点是语音识别中最受欢迎的方法之一。Das et al。11)直接注册关注造型CTC框架内解决高字错误率(回答)基于字符的端到端模型。但是,在藏语语音识别的场景中,西藏是一个二维平面字符,这是写在西藏字母从左到右,除了有一个垂直叠加在音节,所以基于CTC更适合端到端模型。在我们的工作中,我们试图引入注意机制在WaveNet CTC-based的编码器端到端模型。注意用于WaveNet获取上下文信息在不同任务区分方言内容,方言的身份,和扬声器。

在多任务环境中,有一些最近的工作重点将注意力机制在多任务训练。Zhang et al。12)提出了一个混合声学建模框架基于注意机制LSTM,加权不同语音帧在输入层和自动调整其注意力拼接上下文输入。实验结果表明,注意力机制提高演讲能力模型。刘等人。13)合并为计算机视觉注意机制在多任务学习任务,多任务的关注网络由一个共享网络和特定于任务的soft-attention模块学习特定于任务的特性从全球池,同时允许共享特性在不同的任务。Zhang et al。14)提出了一个关注每个任务层的顶部层的端到端多任务框架,以减轻在语音情感识别过度拟合的问题。刘等人的作品不同于和Zhang et al。13,14),分布式网络中的许多关注模块中,我们的方法是使用一个滑动窗口注意在多任务网络和训练简单的优势。

3所示。方法

3.1。基准模型

我们把西藏多任务学习模式在我们以前的工作(10)作为基准模型如图1最初提出的对中国和韩国的语音识别从徐的工作15)和金姆和公园(16]。工作(10]整合WaveNet [17)与CTC损失(18)实现西藏multidialect端到端语音识别。

WaveNet包含扩张因果卷积的堆栈层如图2。在基线模型中,WaveNet网络由15层,分为3扩张剩余的5层。在每一个堆栈,膨胀率每层增加2倍。因果扩张的滤波器长度运算是2。根据方程(1)和(2),各自的领域WaveNet 46:

在方程(1)和(2),年代指的是栈的数量, 指的是一堆的接受域扩张CNN, 是指一些栈的接受域的扩张CNN,和 是指的膨胀率我- - - - - -层在一块。

WaveNet还使用剩余和参数化跳过连接(19)加快收敛,使更深层次模型的训练。可以找到更多细节WaveNet (17]。

联结主义的分类(CTC)是一个火车深神经网络的算法(20.端到端学习任务)。它可以使标签序列预测在任何时候在输入序列(18]。在基线模型,因为西藏是一个二维平面字符如图3,CTC建模西藏藏语语音识别单元是单音节,否则西藏字母顺序从左到右是不可读。

3.2。当地的注意机制

因为每个语音功能帧的效果是不同的目标标签的输出在当前时间,考虑到计算复杂度,我们介绍当地的关注21到WaveNet每次都创建一个上下文向量加权。当地关注地方的滑动窗口长度2n围绕当前语音功能框架在输入层和在WaveNet将softmax层之前,分别重复产生一个上下文向量 对当前输入(或隐藏)功能框架 的公式 方程所示(3),原理图如图4: 在哪里 注意体重,服从 通过softmax正常化。的 计算方法如下:

它捕获语音帧的相关性对( )。注意操作n帧当前帧之前和之后。评分()是一个能量函数,其值计算方程(5)中长期规划的共同训练与所有其他组件在一个端到端网络。那些 上下文中,得到更大的分数将有更多的权重向量

最后, 是连接 扩展的功能框架和送入下一层WaveNet如图56。注意模块插入输入层图5称为Attention-WaveNet-CTC。注意模块嵌入之前将softmax层图6称为WaveNet-Attention-CTC。

4所示。实验

4.1。数据

我们的实验数据都来自开放自由的西藏multidialect语音数据集(电子邮件保护)(10),文本语料库由两部分组成:一个是在1396年口语句子从书中选择“西藏口语”[22)写的La Bazelen和另一部分包含8000个句子从在线新闻,西藏在互联网的电子小说和诗歌。所有文本语料中(电子邮件保护)包括3497西藏音节。

有40个录音机来自西藏拉萨城市,青海省玉树的城市,西藏昌都的城市,和西藏的藏族羌族自治州。他们用不同的方言说出相同的文本1396口语句子,和其他8000句在拉萨方言大声读。语音数据文件转换为16 k赫兹采样频率,16位量化精度,wav格式。

多任务语音识别实验数据如表所示1,包括Lhasa-U-Tsang 4.4小时,1.90小时Changdu-Kham,安多田园方言和3.28小时,培训和相应的文本包含了1205个音节。Changdu-Kham,我们收集Lhasa-U-Tsang 0.49小时,0.19小时和0.37小时安多方言,分别进行测试。

39的MFCC特征每个观察帧从演讲中提取数据使用128 ms与96 ms重叠窗口。

实验分为两部分:两个任务实验和three-task实验。三个dialect-specific模型和一个没有注意力训练在WaveNet-CTC multi-dialect模型。

WaveNet隐藏单位的数量,控制层是128。学习速率是2×10−4。隐藏的单位在剩余连接的数量是128。

4.2。两个任务的实验

两个任务的共同认可,方言表演的ID或者演讲者ID在输出序列的开始和结束时进行评估,分别。我们设置n= 5帧之前和之后的当前帧计算系数引起的关注WaveNet-CTC,这被称为注意力(5)-WaveNet-CTC和WaveNet-Attention (5) ctc,分别为两个架构图56。相比之下,注意所有系数的计算框架,当地的注意力已得到改进的计算速度快,方便模型的训练。

语音识别结果总结表2。最好的模型提出WaveNet-Attention-CTC前关注嵌入式将softmax层在WaveNet和方言ID标签序列的开始。dialect-specific模型优于7.39%和2.4%,分别为Lhasa-U-Tsang和Changdu-Kham, SER接近dialect-specific模型安多田园,有最高的农业研究所(平均相对音节错误率)三个方言。dialectID-speech模型框架(d - s) WaveNet-Attention-CTC是有效改善multilinguistic演讲内容的认可。演讲内容识别的识别更敏感方言的方言ID比扬声器ID。识别ID有助于识别演讲内容。然而,注意插入之前输入层在WaveNet导致糟糕的识别,这表明,原始语音功能不能提供太多的信息来区分多任务。

方言ID识别,在表3,我们可以看到,该模型添加了注意力机制将softmax层执行比它之前被添加在输入层,初和方言ID是比这更好。从表2和表3,可以看出方言ID识别影响语音识别的内容。

我们也测试扬声器ID识别精度的两个任务模型。结果列在表中4。值得注意的是,Attention-WaveNet-CTC模型上表现在两个扬声器和演讲内容识别的任务。特别是在演讲者识别任务中,识别率speakerID-speech模型在所有三个方言很差。Attention-WaveNet-CTC模型中,可以看出,两种模型的建模能力的dialectID-speech speakerID-speech模型显示了巨大的差距,这意味着Attention-WaveNet-CTC架构不能学习有效地在多个帧之间的相关性多个分类任务的声学特征。相比之下,WaveNet-Attention-CTC模型具有更好的性能在两个任务。关注嵌入式之前将softmax层可以找到相关和重要的帧导致识别精度高。

4.3。Three-task实验

我们比较两个体系结构的性能,即Attention-WaveNet-CTC和WaveNet-Attention-CTC three-task学习与dialect-specific模型和WaveNet-CTC,我们评估n= 5,n= 7,n= 10,分别关注机制。结果如表所示5

我们可以看到three-task模型相比的性能要差两个任务模型,和WaveNet-Attention-CTC低ser Lhasa-U-Tsang和安多田园dialect-specific模型,但是对于Changdu-Kham,相对资源缺乏藏族方言,dialectID-speech-speakerID模型(D-S-S2)基于WaveNet-Attention框架(10)ctc达到所有模型的最高识别率,dialect-specific模型优于5.11%。我们分析了原因,也许是多任务模型的泛化误差的减少与学习任务的数量增加。这对小的数据提高了识别率方言,但是不是大数据方言。自从激光器反映模型的泛化误差,D-S-S2 WaveNet-Attention的最高(10)ctc激光器在所有模型,表明它具有更好的泛化能力。同时,WaveNet-Attention (10) ctc实现更好的性能比WaveNet-Attention (5) ctc和WaveNet-Attention (7) ctc对演讲内容识别,如图7,音节错误率下降的数量n增加三个方言,和Changdu-Kham SER最快的后裔。我们可以得出结论,注意机制需要更长的范围区分多个任务,它更关注在资源缺乏的任务。也观察到WaveNet-Attention (5) ctc比关注(5)-WaveNet-CTC有更好的性能,这表明再次关注机制放在高层可以找到相关和重要的信息导致更精确的比当它是把语音识别输入层。

从表67,我们可以观察到模型关注的性能要差比不注意方言的ID识别和议长ID识别,和更长的注意力达到了更糟的是与大数据识别的语言。它也表明,在多个任务的情况下,注意力机制往往向资源缺乏的任务,比如演讲内容的认可。

总之,结合上述实验的结果,是否两个任务或三个任务,多任务模型可以显著改善性能的资源缺乏任务将注意力机制,特别是当注意力是应用于高层抽象特性。以多任务模型可以实现所有方言的语音识别的改进与基线相比模型。与任务数量的增加,需要增加的多任务模型范围注意区分多种方言。

5。结论

本文提出一种多任务学习机制与当地关注基于WaveNet改善资源缺乏的表现语言。我们整合藏族multidialect语音识别,议长ID识别和方言识别成一个统一的神经网络,比较关注影响架构的不同的地方。实验结果表明,我们的方法是有效的为西藏多任务处理场景。WaveNet-CTC模型添加了注意到高层获得最好的性能unbalance-resource多任务处理。在未来的工作中,我们将评估该方法在西藏大数据集或不同的语言。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者((电子邮件保护))要求。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

王回族和赵曰同样这项工作。

确认

这项工作得到了国家自然科学基金批准号下61976236。