文摘

塞尔维亚是一群高度屈折的和形态丰富的语言,使用后缀很多不同的词来表达不同的语法,句法或语义特征。这种行为通常会产生大量的识别错误,特别是在大的词汇不断时,由于良好的声学匹配正确的引理是预测的自动语音识别系统,经常出现错误的单词结束,然而算作一个错误。这种影响较大的环境不存在语言模型训练语料库。在这个手稿,考虑不同形态类别的词汇语言建模是检查,和好处的字错误率和困惑。这些类别包括词类型,情况下,语法,和性别,他们系统中所有分配给单词词汇,如适用。这些额外的词特征有助于产生显著改善基线系统的关系,对于n-gram-based语言模型和神经网络。该系统可以帮助克服很多乏味的错误在一个大的词汇系统,例如,听写,塞尔维亚和其他语言具有类似特征。

1。介绍

有两个主要组件在任何现代自动语音识别(ASR)系统。第一个是声学模型(AM),描述不同语音的声学特征组件(通常上下文相关的音素)一个扬声器(特定人或speaker-adapted系统)或多个扬声器(在与说话者不相关的系统)。的其他组件,这手稿将集中,是语言模型(LM),它描述了词汇和句子形成规则的语言或语言领域的问题。语言模型是用来提供语音识别器允许在有限的词汇量,单词序列和基于语法的环境,以及帮助声学模型决定正确的单词顺序不同序列(即通过引入成本。、语言模型成本或分数),序列越有可能将有一个较小的成本(一个更好的分数)。在很多应用程序中,一个训练有素的语言模型甚至可以克服某些声学模型中的缺陷,通过消除不自然的,不可能从列表中单词序列的识别结果的可能性。它已经表明,语言模型有能力成为非常接近人类语言理解(1]。

很长一段时间,最好的语言模型存在的统计模型的基础上n-grams-frequencies或个别词序列的概率包括长度n(2]。这些LMs的数组应用被证明是非常有效的,即使他们有几个已知的问题,例如,数据稀疏(平滑的要求(3])和建模的上下文(超过n字)。最近,方法基于递归神经网络(RNNs)提出了要克服n克没有提高实现困难和计算复杂度问题太多了。他们显示优势有关n克(4),但他们仍然计算要求更高,这通常会导致很多训练持续时间更长。

塞尔维亚语言,在过去的几年里,一些变异的RNN-based LMs (RNNLMs)作为语言模型检查和比较(5]。基线都产生了很大的改进n克系统,而最好的方法似乎TensorFlow-based LSTM-RNNLM(长短期基于内存的RNNLM)与修剪晶格改方法,都在生成的词错误率(的问题)和培训时间。不幸的是,许多问题的n3系统似乎依然存在。引理的最大的错误是正确的,但是结束这个词错了,导致性格错误率很低(CER)相比,实际的回答。这个问题的来源被认为是高相同语言inflectivity Serbian-the基本词形式(引理)可以有很多不同的后缀词描述不同的语法或句法角色(表1)。在塞尔维亚的语法,有七个词例(主格、所有格、与格、宾格,呼格,工具,和表示位置的),这适用于所有名词和形容词,以及一些代词和数字,两个语法数(单数和复数),和三个“语法性别”(阳性、阴性和中性)。适用于大多数动词语法数字和性别。情况下,数字,和性别并不适用于不变的单词(介词、副词、连词、粒子和感叹词),即使某些介词总是紧随其后的是某些情况下。

在这个手稿,将前面提到的形态学特征n蟋蟀塞尔维亚检查和RNN-based语言模型为基础,和结果提出了最大的声学建模、塞尔维亚音频数据库以及所有当前可用的文本材料在塞尔维亚语言模型训练。

以下部分将描述有关以前的工作,细节可用的资源,培训方法,实验设置,结果,紧随其后的是结论。

2。有关以前的工作

有几个方法结合形态学的知识转化为其他语言,语音识别系统,其中大部分需要某种形式的解析器(词分解器)来确定重要形态单位(词素、词缀等)代表词汇类物品和词,然后这些信息用于提供额外的约束解码器(结合或代替普通词汇在传统方法)。很多形态丰富的语言面临类似问题(6- - - - - -10]。

另一种方法是使用分解语言模型(制作)11],它明确模型形态之间的关系和词汇项目在一个单一的语言模型,和一个全面退下过程期间使用培训,提高结果的鲁棒性FLM在解码过程中,特别是很少见到单词和n克。的方法在这个手稿,额外的形态信息的文本语料库中所有的词LM训练是显式地嵌入到单词本身,和LM培训执行这个修改后的词汇。考虑到塞尔维亚是一种熔化的语言,这是区别于凝集的语言,他们倾向于使用一个曲折语素表示多个语法、句法或语义特征(这一直是一个问题对于一些形态学模型(8]),计划使用ASR系统的问题在很大但相对有限的词汇环境(具体领域的预期单词和短语),这种方法是合理的,但是未来的研究应该考虑创建开放的可能性词汇系统(12,13]。

3所示。材料和方法

3.1。音频数据库

所有的实验中,使用了最近扩大了塞尔维亚的语音数据库。这个数据库包含三个更小的部分(表2)。第一部分包含音频书记录,记录在工作室环境由专业扬声器。这个数据库的很大一部分已经提到的在以前的论文(14),但最近已经增长了几个新的有声书本。这个数据库是负责168小时的数据,其中大约140小时是纯粹的演讲(其余沉默)。有32个不同的男性和64种不同的女性承认扬声器(轻微的可能性,其中一些实际上是相同的扬声器),但是男性演讲者有更多的材料平均议长。每个演讲者的原始数据进一步分为块最多30到35分钟,和所有的块,除了第一次修改了精心挑选的演讲节奏和音高变化,产生新的,相互subspeakers截然不同。本程序的目的是平衡每个扬声器的材料数量,以及在原始数据有些演讲者有几个小时的演讲,而其他人则半小时甚至更少。通过这种方式,训练有素的声学模型不应该偏向那些演讲者的材料。描述过程导致398 subspeakers截然不同。的第二部分数据库包含广播谈话节目录音,由议长。这部分总计179小时的数据,其中150是nonsilence,有21个男性和14个女性演讲者,再次与男性更多的材料。议长均衡(如上所述)相同的方式是生产420 subspeakers也表现在这里。 These recordings contain mostly more spontaneous speech, with a lot more background noise, mispronounced words, etc., but are crucial for better modeling of conversational speech. The final database part is the so-called Serbian “mobile” speech database, also mentioned in previous papers [15),由手机录音读命令,问题,数字、日期、名称、位置、拼写,和其他基于探究的话语,就像那些会在与语音助理类型的交互应用在智能手机上。这些口语也更自由,但话语很多短于那些在以前的数据库部分,词汇非常面向领域的相对较小,材料已经均匀地分布在扬声器。这部分包含了61小时的材料,其中41是纯粹的演讲中,有169名男性和181名女性不同的扬声器。声学模型训练样本的所有音频数据在16岁kHz, 16位/样本,mono PCM。

此外,出于测试目的,29个小时的材料中提取总(从所有数据库部分在5%到10%之间),23日的演讲中,从81年总测试subspeakers。所有subspeakers用于测试集是完全用于测试(即。从培训),排除完全避免偏见的测试结果。

3.2。文本语料库

所有提到的语言模型,将被训练在同一文本语料库。最大的一部分是文字以前收集的塞尔维亚语言模型训练(5,15),分为段对应不同的功能样式最大新闻语料库,紧随其后的是文学、行政、科学、popular-scientific,会话部分。整个语料库是为了覆盖尽可能多的变化,因为它已被证明,句子结构在不同的功能性风格可以显著差异(16]。此外,音标训练音频数据的一部分的声学建模是附加到现有的语料库。总共大约有140万句,2600万个字。的,20000句仅用于评估(开发、或“开发”),而其余的语言模型训练过程中使用(表3)。

3.3。培训Method-Acoustic模型

利用声学模型的子样品时滞神经网络(TDNNs),被训练使用叉培训在所谓的“链”训练方法(17]。为此,卡尔迪语音识别工具箱(18使用了)。经过训练的神经网络是9层深,每层625个神经元。初始层(1 - 5)拼接在{−1 0 1}的方式(见3个连续帧),而{−3 0 3}拼接被用于最隐藏层(层5 - 9;他们也认为3帧,但互相隔开3帧)。使用这种配置,最隐藏层只需要评估每3帧。没有人工数据扩展用于这些实验。训练了5时代(基于的数据量145次迭代)。比对的深层神经网络(款)之前提供的培训是训练speaker-adaptive HMM-GMM(隐马尔科夫model-Gaussian混合物模型)系统[19同3500个国家和35000高斯函数。声学特性用于训练的人40款高分辨率MFCC特征(Mel-frequency cepstral系数),与他们的一线和二阶导数,以及3 pitch-based features-weighted log-pitch, delta-log-pitch,和扭曲归一化互相关函数(NCCF)值(这是最初在−1和1之间,高表示帧),及其衍生品,生产129维特征向量,这是一个已经使用过的配置其他实验(5,15,17]。上下文依赖树用于“链”培训的特殊模型拓扑结构,允许二次抽样因素3有2000叶子(输出状态)。有效的学习速率的范围从0.001(初始)0.0001(决赛)。

3.4。培训法语模型

的指示物n克语言模型是一个3-gram模型训练的描述文本数据使用SRILM工具包(20.),Kneser-Ney平滑和之前修剪截止10参数进行了优化−7(15]。LM的词汇选择以这样的方式从声音训练数据包括所有不同的单词音标,加上所有其他词提到了至少3次在整个文本语料库。另外,以前看不见的单词从测试数据集音标也添加到词汇,所以没有实际的词汇表之外(OOV)的话,但是这些音标并不用于LM的概率估计。不过,应该承认,添加OOV单词LM训练词汇会影响ASR系统的识别精度。这种方法与计划使用这个系统(相对finite-vocabulary域)和所需的实验结果证明预期会在这样的条件下。此外,类似的方法也是以前[5,15),但未来的研究和实验测量的回答没有添加所有OOV单词测试数据集到的词汇,甚至考虑开放的词汇语言模型能够学习新单词。这里使用的过程导致了249809单词(unigrams),虽然也有187万元和55.1万元用给定的参数。测试数据计算困惑是634.0左右。

RNN-based语言模型训练使用Kaldi-RNNLM [21),一个扩展的卡尔迪工具包,支持RNN-based卡尔迪内语言建模框架和基于加权有限状态传感器——(WFST)解码。这种方法涉及subword功能;更准确地说,信n克数为更好的预测罕见的话说,以及增强特性,比如扩展词unigram对数概率和字长,前者用于更好的范围之外的结果。Kaldi-RNNLM也股神经网络的输入和输出映射进行基于工作了(22),这与subword特性可以产生良好的结果在很大的词汇没有数据稀疏问题(否则通常解决的LM培训期间使用的名单)。最后,每个最频繁N话说收到一个额外的功能,所以最终有一个炎热的热门词汇表示除了他们的信n克数向量(表和两个增强特性4)。

基线RNNLM是一层结合TDNN +快速LSTMP (LSTM预计[23)网络、嵌入维数1024 256年复发和不再发生的投影尺寸。最频繁的单词的数量获得特殊特性是97636(100000计算,但下画一条线一组单词数相同的输入数据)。利用信2克、3克、最低频率的信n被视为一个特性是0.0001克,培训运行30时代(180迭代基于输入数据),与最好的迭代的可能性之前最后一个(最好的迭代计算基于目标函数值在“开发”数据集前面提到的文本语料库部分)。对于RNNLM改,修剪晶格改方法(24)4克近似防止晶格爆炸和RNNLM插值的重量0.8(之前确定为最佳)。基线与这个RNNLM困惑在给定的测试集是使用卡尔迪工具计算约为119.0。

形态信息的方法来整合到这个手稿的塞尔维亚语言模型是明确信息嵌入到单词本身,从而修改ASR系统的词汇。为了找出所有不同的形态类别中的每个单词输入文本语料库句子,塞尔维亚(词性(POS)标记工具25),与塞尔维亚形态学字典(26]。以前,形态单词聚类成类使用一个塞尔维亚的一部分文本语料库是检查,相关的功能被定义为每个词类型(数量,和性别,在引言部分简要提及了手稿,除了子类型,例如,适当的,常见的,或抽象名词和形容词的比较)的程度(27]。并不是所有的附加功能可供所有词类型,即使在某种有些字不像其他人,例如,有一些不变的形容词。下列实验中,词的类型和情况下,与语法数量和性别,作为额外的单词选择特性,和最后一个,相应的引理也考虑在内。

POS标记工具和额外的后处理工具被用来将LM培训所有输入文本数据转换为与标记单词的句子,例如、单词与一个或多个分隔为每个单词后缀表示它的类型决定的,情况下,数字,和性别,适用。在十字类型在塞尔维亚,另外两种类型是introduced-abbreviation和孤立的信时(例如,使用拼写)的东西,因为他们并不真正属于其他类别。有些字的POS薄铁片的未知类型(例如,严重明显文字写成这样的副本或文字印刷错误),所以他们没有分配任何其他的形态学特征。POS薄铁片,形态学字典的帮助下,可以区分六种不同的情况下,配和表示位置的塞尔维亚倾向于共享相同的单词形式。案件也分配给特定的介词,如果他们知道总是紧随其后的是一个词在特定情况下在塞尔维亚。语法的数量和性别没有收到任何特殊待遇;他们已经被用作上述(表5)。

使用该程序,LM词汇的不同的单词数量增长到380747年,一些单词可能,正如预期的那样,不同的某些POS特征值(有时同一个词的形式可能是凯斯/数字/性别的不同组合不同的句子,甚至不同类型在某些情况下)。使用相同的参数平滑和修剪,新3-gram语言模型220万元和52.3万元(相对类似referent 3-gram LM)。这次不过,困惑计算是378.6,现在好多了,可能是因为有一个区别以前相同的词在句子可能完全无关的功能。另一方面,困惑的新RNNLM有点比参照1 - 147.1,这也可能被解释成隐性词汇量的大小增加,这与这有更多的影响n3例(可能是由于应用平滑和修剪技术)。

4所示。结果与讨论

4.1。3-Gram结果

基线3-gram语言模型(250 k的话说,不使用形态学信息)结合产生的声学模型训练的“链”的方法产生一个字错误率为8.89%。问题时可以观察到塞尔维亚的inflectivity比较字符错误率,在这个实验中测量是只有2.63%。最多的识别错误发生在电台谈话节目测试集(12.64%回答),和错误率有声书本在路中间的回答(6.25%),而手机测试集产生一个很小的回答不到1%(0.96%),就像在过去的实验(15),可以解释为很小的词汇(少于4000个不同的字)和重复词模式和句子结构基本上所有扬声器在这个数据集,所以语言模型可以预测这些句子很好学习。当通过最替换的单词的列表,它的顶部,典型的混淆同样测深(英格。,可以找到),以及大量的错误的情况下,“语法性别”,和数字(koja而不是koji,巨济koju,反之亦然;Eng。哪一个),但也有两个不同的单词但功能完全相同的形式(例如,科安达kadaEng。),以及几个明显的排印错误和词汇通常缩短自发的演讲中(例如,znači“nači,开始”z“听起来往往不明显,同样rekao用合作愉快;Eng。所以,告诉)。这些错误应该被考虑到形态学特征自动纠正。另一方面,印刷错误只能固定通过仔细看所有文本的文本由一群跳棋。

相比之下,应用新的3-gram语言模型时分化POS类别的话说,回答是降低到6.90%,以及CER 2.20%,回答相对提高22%和16%的相对改善CER(表6)。故障测试数据库部分(有声书,广播脱口秀,电话录音)表明,相对进步发生在有声书本,最可能是由于专业阅读文本(没有意外或念错单词和句子结构的大部分时间)。少改进可以观察到广播脱口秀,在一个很小的手机数据库发生了恶化,即使出错率仍在1%回答,可能是因为更多的自发性演讲这两个测试集地区和可能POS薄铁片错误和/或限制使用时在非传统的单词形式遇到脱口秀(甚至转录错误或错误地记录音频文件的手机数据库)。替换的总数下降了超过25%。wrong-POS-category错误的数量下降,他们更不辨东西南北的列表的最常见的错误(他们更罕见与其他错误)。插入率下降了19%,删除率9%——错误主要包括很短的不变的话说,和新的LM,一些出现的长和可变字消失从顶部的列表(表错误7)。

4.2。RNNLM结果

第一RNNLM没有形态学特征,已经给了全面改进3-gram系统相比。4.90%是一个46%的平均回答相对基线3-gram系统改进和提高29%到3-gram-POS系统。CER血管测量达到1.61%。最大的进步发生在有声书数据库部分再次回答(2.77%),但是一个大的一步是为电台节目(7.56%回答),甚至是移动电话录音(0.73%回答)。看着替换、插入和删除,相同的错误分配存在的基线3-gram系统,只有在绝对数字。

RNNLM系统与形态学数据考虑了进一步改进回答和CER - CER(表回答平均4.34%和1.48%8)。最好的提升相对有声书(21%),而广播节目错误率降低有点小(8%),和电话录音相对回答增加了10%(绝对误差率仍然很低),就像在n她们体内实验,可能出于同样的原因。可能在训练,对于实际的训练数据,“开发”数据,显示为基线RNNLM始终略好值,可能由于相同的原因困惑(图的差异1),它也表明,一个更好的困惑并不一定意味着一个更好的回答,反之亦然(28]。一个更好的方法来选择一组代表“开发”应考虑。列表顶部的错误类型,尤其是替换列表,现在大多持有错误可分为低的意义。正如前面提到的,有很多印刷错误或badly-pronounced-word错误,单词不止一个等价的类似的形式定期使用,等等。甚至比在清晰的效果n她们体内的情况。

最后一个实验是相关词的使用。,basic forms of words, as additional information for RNNLM training. Similarly to how the most frequent words had their own feature (a one-hot vector representation as a subvector of their own word features), the most frequent lemmas were also given special features, so the words whose lemmas are in this set had an additional one-hot vector as a feature, representing the lemma. The number of top lemmas was chosen to be equal to the number of top words (97k). This experiment produced the best results on the given test database so far—a WER of 4.23% and CER of 1.45%. Even though the resulting feature and word embedding matrices for the RNNLM are quite larger in this configuration (as there are a lot more individual word features), the decoding speed does not suffer (but memory consumption issues have to be prevented in this case by not using machines with insufficient memory capacity).

进一步的改进可以在几个ASR系统的不同部分。首先,声学模型可以得到改善,与神经网络参数优化和音频数据库增加(例如,通过使用语音速度扰动算法,或音频与人工添加噪声来提高系统的鲁棒性)。可以有改善RNNLM训练用的方法是优化训练参数更多,另一个是使更复杂的网络,但这将导致解码速度慢。最后,可以将文本数据清理和展开第一做清洁的方法是使用一个简单的文本处理工具来修复至少是最常见的错误的错误列表,也可以用作识别结果与当前系统后处理程序。目前,有一个额外的文本数据库在准备未来的培训。使用在特定领域,一种RNNLM训练文本可以用一个更大的重量,所以最终系统将主要喜欢的句子结构中找到所需的类型的文本。

5。结论

这手稿中所描述的实验,结果表明,使用额外的形态学知识语言模型训练可以解决大部分的问题高度屈折的语言,作为塞尔维亚语言。该方法将数据附加到单词本身,和一个实验中使用附加RNNLM词的特性。在获得大改进n系统和蟋蟀RNNLM-based系统相对于基线系统中没有使用任何形态数据。使用Kaldi-RNNLM工具包也被证明是优于其他任何以前语言模型训练对塞尔维亚的工具包。仍有改进的空间,有未来的计划来创建更好的声学和语言模型和甚至进一步优化形态类别信息的使用在塞尔维亚的建模语言。最后,一个open-vocabulary能够学习新单词的语言模型需要考虑。

数据可用性

音频和文本数据库用于支持这些发现提出了手稿部分网上,部分收集和属于技术科学系的诺维萨德和AlfaNum公司。所有提到的数据可以根据要求提供相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本文的部分支持由教育部、科学和技术发展的塞尔维亚共和国,在项目中“发展对话系统对塞尔维亚和其他南部斯拉夫语言”(TR32035),尤里卡项目DANSPLAT,”一个语音技术在智能手机上的应用程序平台多瑙河地区的语言”(ЕPlatf),和省秘书处为高等教育和科学研究,在项目中“中央大学的音效库诺维萨德”(114 - 451 - 2570/2016 - 02)。