俄罗斯基于大词汇量连续语音识别的关键字定位系统和语言知识

文摘

本文描述了一个词的关键概念发现俄罗斯基于大词汇量连续语音识别系统。关键算法和系统设置,包括发音变异算法,实验结果真实电信数据。系统架构的描述和提供的用户界面。系统是基于CMU Sphinx开源语音识别平台和语言模型和算法开发的语音驱动LLC。基准统计方法的有效结合,真实的训练数据,密集使用语言知识导致了质量的结果适用于工业使用。

1。介绍

需要了解业务趋势,确保公共安全,并提高客户服务的质量造成的语音分析系统可持续发展将语音数据转换成可测量的和可搜索的索引词,短语,和副语言的标记。关键字定位技术使大量这样的系统的一部分。现代关键词定位引擎通常依赖的三种方法,即语音搜索(晶格1,2),基于模型(3,4),和大词汇量语音识别(5]。在每个方法有其优点和缺点(6后者开始是突出由于公共基线算法的可用性,更便宜的硬件来运行在LVCSR密集的计算要求,最重要的是,高质量的结果。

最近大量的口语词的创新方法检测等提供各种识别系统组合和分数归一化,报告增加20%口语词检测质量(测量ATWV) (7,8]。深层神经网络应用在LVCSR开始实现广泛采用(9]。由于IARPA巴别塔项目旨在快速构建系统,可以应用于任何人类语言为了为分析师提供有效的搜索功能有效地处理大量的真实记录演讲(10]近年来广泛研究开发举行技术资源缺乏语言的口语词检测系统。例如,[11关键字识别粤语)描述了一种方法基于大词汇量语音识别和显示阳性结果的将神经网络应用于识别晶格改。文献[12]提供了一个广泛的描述现代方法用于构建一个关键字定位系统10资源缺乏语言主要关注阿萨姆语,孟加拉语,海地克里奥尔语,老挝,祖鲁语。深层神经网络声学模型是用于作为GMM-based嗯特征提取器系统和计算状态后验和将其转换为比例可能由国家正常化的先知先觉。通过使用多语种瓶颈特性数据增加提供(主题也覆盖着13])。最后语言独立和无监督声学模型训练了语言没有训练数据。平均MTWV报道这些语言范围从0.22祖鲁0.67海地克里奥尔语。在[14)使用基于实例的复发性神经网络实时发现了英语。与更广泛的基于文本的系统相比,这种方法利用口语关键字建立一个基于模型的例子,然后做演讲中的搜索数据。替代混合ANN-HMM方法作者(15)提供一个纯粹的基于神经网络的关键词搜索会话电话语音系统在越南和老挝。对越南的“纯”神经网络系统提供了一个基线ATWV比得上报道混合动力系统工作时更快(实时因子3.4与5.3的混合动力系统)。

作为高质量的语言建模是任何现代不可或缺的一部分关键词定位系统,现在很多努力旨在提高LMs。最近的趋势之一是使用web数据的训练。互联网的出现提供了丰富的数据量很容易用于语音识别社区(16]。这是特别感兴趣的资源缺乏语言和最近的改进(17]提出一种方法来有效地处理规范的挑战和过滤关键字定位的网络数据。提供了两个方法,一个使用困惑排名和其他使用词汇表之外的词汇检测。这导致超过2%的绝对改善在5 ATWV资源缺乏语言。文献[18)覆盖的方面增加基线LMs与精心挑选的web数据,显示博客和电影字幕更相关的语言建模会话电话讲话和帮助获得大幅度减少词汇表之外的关键词。

俄罗斯研究语音识别领域的下降与全球科学趋势一致。值得注意的不过是最频繁的进行研究,以满足一个更一般的目标创建LVCSR系统本身没有具体关注口语词检测。最知名的系统包括Yandex SpeechKit [19)用于识别口头通过web和移动应用搜索查询,实时语音识别系统由语音识别技术中心(20.)用于抄录在广播新闻,演讲LVCSR SPIIRAS[开发的系统21,22多通道环境中用于识别语音,语音识别系统科学研究所Specvuzavtomatika [23基于深层神经网络)。

目前提出了正在进行的研究的结果基本语音分析的商业软件。软件设计遵循最小可行产品的概念,这促使增量技术的并发症而产品的发展。这样的方法激励我们通常依赖于可用的开源工具包和许多现成的知识方法在我们先前的研究开发。

部分2和3大纲的总体设置LVCSR技术关键字定位申请俄罗斯电话会话演讲,包括关键系统参数和实验的描述运行评估系统的质量和性能。特别关注的是语言组件用于训练和识别阶段。部分4描述了现成的语音分析系统开发使用本文中讨论的想法和结果。

2。关键系统参数

本文的目的是描述的系统被用来执行关键字搜索在电话对话演讲。系统提供的SDK和语音记录系统集成和女士作为一个独立的Windows应用程序。系统创建的卡耐基-梅隆的斯芬克斯(24];这个框架选择,因为它很简单和许可模型,允许自由地在商业应用中使用的代码。后的最小可行产品我们主要使用标准的设置在所有系统模块。13 MFCCs衍生品和加速度用于声学前端;triphone连续密度声学模型训练telephone-quality俄罗斯约200小时演讲(8 kHz, 8位,Mono)记录到200年母语。5的态摘要使用矩阵与对角共变,购物车(分类和回归树)算法用于集群到9000年senones声学模型,每个senone被10到30高斯函数描述。培训数据库语言文本模型自动转录的形态和上下文语言处理器(25]。应用一组转录变异规则。Unigram和元语言模型训练成千上万的现代俄罗斯电子书一般都在互联网上可用的。解码器使用了一个标准的卡耐基-梅隆的斯芬克斯令牌环算法与修剪方法广泛用于系统设置包括最大的波束宽度,文字插入点球,点球可能性和声学。

颁发的新奇系统的核心是广泛使用的语言知识训练和口语词检测步骤。系统使用俄罗斯语言处理器内置信息形态有助于为任何词形式生成高质量的副本,从而培养更多可行的声学模型。相同的处理器是用于生成各种形式的的话,确保更好的发现上学期口语检测步骤。基于规则的转录变异算法生成替代音素序列。最终在文本语言建模步骤自动预过滤器的类型的文本只让对话在训练语料库。

3所示。算法,相关问题和解决方案

3.1。声的前端

虽然在整个系统中使用MFCCs标准,需要额外的努力,使前端工作关键字定位在现实的应用程序中。首先,要分析音频文件分成十秒长块为了分裂在多个cpu的解码过程。1秒的重叠是用来保证一个字两个后续语音段之间是不会被删除的。进一步,解析算法应用于部分解码的结果合并成一个文件,以避免冗余的假警报。未来的计划是使用VAD把音频流分成短语这将更好的适应LVCSR-based方法用于本文;然而,我们目前的监督实现了更糟糕的结果,因此使用大块的长度相等。

3.2。声学建模、Grapheme-to-Phoneme转换和转录变异算法

本文的目的是讨论的系统中使用真实的电话环境低声音质量的条件下。覆盖这个需求声学模型训练的真实数据遇到电话信道质量演讲在俄罗斯的电话网络。连续密度摘要使用,导致一系列代表9000 senones GMM与10 - 30组件的描述。

在我们先前的研究[25)语言处理器开发利用形态特征信息的约600 000俄语单词(见图的结构1抄写单词和生成形式的单词。处理器解析文本和定义了句子中的每个单词的词性;然后定义单词重音,和一组预排程序的上下文grapheme-to-phoneme规则应用于推导规范(“理想”)字转录。

当前状态的艺术抄写单词语音识别系统是使用统计grapheme-to-phoneme转换器(26,27]。研究在结合各种技术,例如,在[28)条件随机域和Joint-Multigram模型用于带来额外的质量改进。研究已经完成(29日,30.)引入加权有限状态传感器掌握在字(词)语音序列的概率。完全这些研究轮廓概率方法的关键优势相比,以知识为基础的方法,即语言独立性(很容易移植到一个新的语言),概括的能力,并提供合成新单词(词汇表之外),和需要一个规模更小的语言数据(因此努力)训练grapheme-to-phoneme转换器。

另一方面,大多数共享引用研究结果与语言特征较低数量的单词形式(例如,英语和法语)。同时俄罗斯是一个高度屈折与单词重音语言取决于确切的词形成同音异义的范式和高频率也影响单词重音,因此作为一个潜在的转录错误来源(31日]。这意味着,一个人需要一个更大的手工制作的词典培养高质量的概率grapheme-to-phoneme转换器对俄罗斯。这个障碍的概念与最小可行产品上面描述的动机我们将概率grapheme-to-phoneme转换为目标对我们的未来研究和使用现成的高质量的知识语言处理器。另一个重要因素,指导这个选择是同音异义和消除歧义的能力来生成单词形式(稍后讨论)。

声学模型训练过程的关键因素是转录变异。每个短语用于训练模型收到替代合成通过应用一组预定义的语言规则。然后在训练步骤CMU Sphinx训练模块选择最大化期望的最好的选择。实验显示关键字检出率达到4%的绝对增加由于这样的实现(请参阅部分4为更多的细节在实验)。目前手动导出基于规则语言知识。规则列表然后嵌入识别器是运行在一个训练数据集定义的规则提供质量改进,应该保存在生产系统。作为我们的研究计划的下一步发展足够的语料库自动训练这些规则。

最终训练集上的转录变异规则选择列表包含30上下文phoneme-to-phoneme grapheme-to-phoneme映射基于现代研究的俄罗斯自发的演讲32),从作者的适当的实验与真实数据音频分析。转录变异算法的主要步骤如下所示(请参阅图2):(1)训练有素的文本注释数据库加载。(2)如果不是这个词在词典(主要用于外来词和命名实体),自动启动转录器利用数字化字典的俄罗斯语言,包含60万个单词形态信息和词性(POS)尾随者。由于这一阶段分配给正确的音节的单词重音是每一个字。(3)自动化、规范化应用上下文相关的转录是由letter-to-phone规则。(4)发音变异是由迭代执行应用一套单独的phoneme-to-phoneme规范化转录和转录grapheme-to-phoneme建模规则。

众所周知,知识规则,“实验室”的起源,可能发生在当面对真实世界的数据不足。但是这是我们的意图来检查这个关键的假设在我们的测试材料。此外,在过去的几十年中,俄罗斯语音学的总体转变经历了从实验室完全自发的演讲32,33),我们使用的规则是基于大量研究自发言语特征。

规则分为两个主要的类。第一个包含替换、删除和插入规则,适用于初始语音音标。这里有一些例子这样的规则:(我)[@](“元音”),紧随其后的是一个辅音,轻后重音节被删除。(2)[f]从辅音删除序列(fs) +(任何)无声的辅音。(3)破擦音[c]和[t∫的)代替摩擦音[s]和[),分别(j表示辅音是使颚音化迹象)。(iv)响音[j]删除之前重读元音开头的单词。(v)噪音停止(如[p], [t], [),(元音)删除后的最终位置(即由于闭塞音的发音。,没有破裂后发音纠正器关闭)。

第二组的规则利用形态学和正字法的语言表达水平。因此,这不是修正初始转录(phoneme-to-phoneme规则),但一个单独的组grapheme-to-phoneme规则。下面是一些例子:(我)[@j@]和[uju]轻形容词的词形变化“-ая”和“-ую”改为[@e]和[u],分别。(2)[@v@], [ɨv@], [iv@]轻名词词形变化“-ого”和“-eго”改为[@@],[ɨ@],[i@]。(3)(@t)在动词词形变化“-ат”改为[ɨt]。

为频繁的单词我们也添加另一套规则,产生简单的发音,这是很常见的非正式的自发的演讲。这些包括(]和[v]删除在元位置,()改变(),等等。

3.3。语言模型和相关内容的选择培训他们

最初的语言模型训练和几个gb的用户生成内容在互联网上被发现,包括公共论坛、社交网络和聊天。这背后的想法是,这些内容会更好代表自发的演讲,从而确保更可持续的关键字定位的结果。然而实验表明,这样的语言材料发生一种内在的缺点,因为它包含大量的拼写错误导致数据偏差和错误的前题出现在词典中。因此决定了依靠标准和错误文本来自各种不同类型的书在互联网上可用的。只有现代作者的书籍(1990年代后)选择反映当前俄罗斯演讲的特征。然而只有对话已经从这些书中提取保证沟通的“活”的风格,这是现实世界的电话语音的特征。2 gB的原始文本数据被用作训练结果unigram和元语言模型包含600 000俄罗斯的前题。LMs被训练使用SRILM工具包(34)与Good-Turing打折算法应用。

当前研究领域的语言建模是专注于应用深层神经网络和高层LM改35]。在我们的例子中没有足够的数据训练模型,激励我们转向更简单的模型。概述部分3所示。4我们不依靠最可能的单词序列检测关键词识别结果;等不同,而我们想生成和“粗糙”晶格索引一步保证高概率的口语词检测。简单的三元/ unigram语言建模符合这一目标很好。

3.4。解码,文字识别,和自动词表单生成

使用LVCSR找到关键词背后的主要思想是将语音信号转换成纯文本,然后搜索这个词在这个文本。然而由于不同类型的通信上下文的电话会话演讲中不可行使用顶部解码结果本身。相反,它是有意义的解析结果识别晶格与关键字找到每一个可能的节点。因此语言是第一个索引识别晶格;关键字搜索执行按需在稍后的阶段。

提高识别结果集约利用上述语言处理器。当输入一个词作为一个搜索查询的表单自动生成解决形态字典(见图1)和一组变异派生的词,然后搜索晶格和出现在识别结果列表。例如,当搜索“кусок”这个词(俄罗斯词“一块”)所有单词包含这个序列将识别晶格内搜索;因此,用户将能够发现单词“куска”和“куском”等等。因为俄罗斯是一个屈折语言众多形式可用一个词。因此低阶(unigram和三元)语言模型用于我们的系统导致这个词识别器,使错误的结局。上述简单的想法有助于避免错误和获得更好的结果。

4所示。实验结果

在此描述的系统的目的是在实际应用程序中使用分析telephone-quality演讲。测试10个小时数据库包括对话的录音约50人的记录使用SpRecord LLC的硬件和软件(http://www.sprecord.ru/)。1183种不同的关键词在数据库中搜索。5和15分贝之间的信噪比下降,反映出真实电话信道环境不利。

最大Term-Weighted值(MTWV)是一种预测指标对应的所有值的最佳TWV决定阈值;θ(见公式(1))和实时因子(RTF)指标(公式(2)是用来评估系统性能;前质量指标反映了单词定位,而后者反映了它的速度。RTF参数计算1 3 gHz CPU单元。结果如表所示1。是阈值用于确定击中或错过,然后呢的重量占一个术语的假定先验概率和错过的相对成本和假警报等于0.999在我们的研究中。是时间花在处理文件,测试集的持续时间。


参数	价值

MTWV	0.37
RTF	2.0

为了理解这些结果是否符合当前状态的艺术我们比较他们的结果的另一个科学小组口语词检测电话会话的另一个underresourced语言(粤语)11]。我们看到的是,我们的结果的关键字搜索质量下降之间的报道广东当使用gmm的声学模型,使用深层神经网络时稍差(MTWV 0.335和0.441,resp)。至于实时因素我们的结果比那些报道(14),这可能是由于相对较少的高斯函数每senone我们使用。

5。系统架构和用户界面

5.1。主成分

节中描述的算法2被用于创建“分析”软件工业语音分析系统。图3概述了关键系统组件:单词定位服务器,终端和数据存储库。词定位服务器进程语音数据和与职位搜索关键字的索引保存到数据库中。使用终端的时间表或推出即时搜索查询和查看搜索结果。搜索执行两个步骤:首先,晶格与语音识别结果为每个波生成文件;其次,通过子字符串搜索关键字找到在这个晶格。数据存储库包含语音文件和相应的指标。

5.2。用户界面

人机交互的关键问题在语音分析系统,包括准确的治疗关键字定位结果和优化的工作流程的作用在现代组织中反映在[36- - - - - -39]。图4轮廓分析软件的用户界面开发基于用例验证终端用户。可用性和用例完整真实的环境中进行了测试。所有的设置都可以在1 - 2点击;实时报告显示在屏幕上;导航面板提供所有需要的功能。表1与搜索结果提供了简单的过滤和聆听模式。图3介绍了主板系统的用户界面。

软件的一个重要好处是在实时模式下工作的能力在工作站资源有限,这使得它值得小型组织的电话线路使用的一小部分。

6。结论和进一步的计划

关键字定位系统对俄罗斯基于LVCSR被描述。开源软件的一般可用性使它容易实现和语言模块有助于提高系统的质量,而代表训练和测试数据确保系统现实问题的适用性。

正在进行的研究,旨在进一步调优声学模型和语言模型,在概率框架grapheme-to-phoneme转换,数据驱动的转录差异,引入噪声补偿和暂停检测到前端和创造特定的信心措施以减少误报造成频繁的词语在语言模型中。

在构建我们的自动关键字定位系统基于大词汇量连续语音识别我们依赖科学界的结果,即开源软件CMU Sphinx声学建模和解码和SRILM语言建模。同时系统有几个技术优势:利用语言知识训练和解码,即文本和转录变异的形态解析器生成单词音标,转录变异规则,和自动生成的单词形式找出步骤;实际工业数据用于训练声学模型;准确的语言训练数据的建模通过谨慎的选择来实现;实时运行方式在有限的计算机资源。

我们相信,高质量的自动关键字定位系统基于大词汇量连续语音识别的网络言论可以使用数据分析既是一个技术平台,创建有效的监测和综合系统作为一个现成的解决方案监控全球信息空间。

相互竞争的利益

作者宣称没有利益冲突。

确认

作者要感谢SpRecord LLC当局提供真实telephone-quality数据用于训练和测试本文中描述的关键字定位系统。

引用

t·j·海森、f·理查森和a·马戈利斯”主题识别使用文字和电话识别晶格,从录音”《IEEE研讨会自动语音识别和理解(ASRU ' 07)《京都议定书》,页659 - 664年,日本,2007年12月。视图:谷歌学术搜索
d·A·詹姆斯和s . j .年轻,“快lattice-based词汇方法独立wordspotting”《IEEE国际会议音响、演讲和信号处理,1卷,页377 - 380,阿德莱德,澳大利亚,1994年。视图:谷歌学术搜索
Szoke, p•施瓦兹·Matějka l . Burget m . Karafiat和j .Černocky”基于音素的声学关键词定位在非正式的连续语音,”文本、演讲和对话:第八届国际会议,TSD中2005年,卡罗维发利,捷克共和国,2005年9月12日至15日,。诉讼卷,3658在计算机科学的课堂讲稿施普林格,页302 - 309年,柏林,德国,2005年。视图:出版商的网站|谷歌学术搜索
m . m . Yamada Naito、t·加藤和h·卡瓦依“改善拒绝使用anti-keywords来自大型词汇表的关键字定位的性能考虑声学相似的关键词,”学报》第九届欧洲语音通信和技术会议2005年9月,里斯本,葡萄牙,。视图:谷歌学术搜索
m .松下h . Nishizaki h . Nishizaki s中川et al .,“评估多个LVCSR模型结合NTCIR-3语音驱动web检索任务,”第八届欧洲会议程序语音通信和技术(EUROSPEECH ' 03)瑞士日内瓦,页1205 - 1208,,2003年9月。视图:谷歌学术搜索
即Szoke et al .,“比较关键字在非正式的连续语音识别的方法,”程序二联合车间的多通道交互和相关机器学习算法(INTERSPEECH 05)英国爱丁堡,页633 - 636,,2005。视图:谷歌学术搜索
d . Karakos r·施瓦茨s Tsakalidis et al .,“分数标准化和系统改善关键词定位,结合”《IEEE研讨会自动语音识别和理解(ASRU 13)奥,页210 - 215年,捷克共和国,2013年12月。视图:出版商的网站|谷歌学术搜索
j . Mamou j .崔崔x et al .,“系统组合和分数归一化口语词检测”学报》第38届IEEE国际会议音响、演讲,和信号处理(ICASSP 13)8276年,页8272 -温哥华,加拿大,2013年5月。视图:出版商的网站|谷歌学术搜索
g .辛顿·l·邓,d . et al .,“深层神经网络语音识别的声学模型,”IEEE信号处理杂志卷,29号6,82 - 97年,2012页。视图:出版商的网站|谷歌学术搜索
m·哈珀“IARPA宝贝计划”,https://www.iarpa.gov/index.php/research-programs/babel?highlight=WyJiYWJlbCJd。视图:谷歌学术搜索
j .崔崔x、b Ramabhadran et al .,“开发语音识别系统语料库索引下IARPA巴别塔项目”学报》第38届IEEE国际会议音响、演讲和信号处理(ICASSP 13)IEEE,页6753 - 6757年,温哥华,加拿大,2013年5月。视图:出版商的网站|谷歌学术搜索
m·j·f·盖尔斯k . m . Knill a .情景不禁啜泣和s . p . Rath“语音识别和关键字定位为低资源语言:巴别塔项目研究暗示,”诉讼的第四届国际研讨会上口语资源不足的技术语言16-23页。彼得斯堡,俄罗斯,2014年。视图:谷歌学术搜索
f . Grezl、m . Karafiat和m .简达”概率和瓶颈特性的研究在多语言的环境中,”《IEEE研讨会自动语音识别和理解(ASRU 11)2011年12月,页359 - 364。视图:出版商的网站|谷歌学术搜索
p . Baljekar j·f·雷曼,r·辛格“在线单词定位与复发性神经网络,连续语音”《IEEE口语技术研讨会(SLT的14),页536 - 541,南塔霍湖,内华达州,美国,2014年12月。视图:出版商的网站|谷歌学术搜索
和A . k . Kilgour Waibel”,一个神经网络电话讲话,关键词搜索系统”演讲和计算机:16国际会议,2014年SPECOM诺维萨德,塞尔维亚,2014年10月5 - 9,。诉讼a . Ronzhin, r . Potapova诉Delic, Eds。施普林格,页58 - 65年,柏林,德国,2014年。视图:出版商的网站|谷歌学术搜索
Bulyko, m . Ostendorf m . Siu t·Ng, a . Stolcke和O。Cetin,“Web资源语言建模对话语音识别,”ACM演讲和语言处理事务,5卷,不。1,第一条,2007。视图:出版商的网站|谷歌学术搜索
a . Gandhe l .秦f . Metze a . Rudnicky巷,和m·艾克”使用web文本来提高关键字定位在讲话,”《IEEE研讨会自动语音识别和理解(ASRU 13)奥,页428 - 433年,捷克共和国,2013年12月。视图:出版商的网站|谷歌学术搜索
g .遗传学家e·库珀诉索托et al .,“提高语音识别和关键字搜索低资源语言使用web数据”美国第16届会议的国际言语交际协会(Interspeech 15)德累斯顿,页829 - 833年,德国,2015年9月。视图:谷歌学术搜索
SpeechKit API,http://api.yandex.ru/speechkit/。
k·莱文Ponomareva, a Bulusheva et al .,“自动为俄罗斯直播字幕,”学报》第15届年会的国际言语交际协会(INTERSPEECH 14)新加坡,页1438 - 1442年,2014年9月。视图:谷歌学术搜索
a·卡尔波夫i Kipyatkova, a . Ronzhin“东斯拉夫语言的语音识别:俄罗斯,”学报》第三届国际研讨会上口语语言资源不足的技术语言(SLTU 12),页84 - 89,开普敦,南非,2012年。视图:谷歌学术搜索
a·卡尔波夫k .马尔可夫Kipyatkova, d . Vazhenina和a . Ronzhin“俄罗斯大词汇量语音识别使用syntactico-statistical语言建模、”言语交际卷,56号1,第228 - 213页,2014。视图:出版商的网站|谷歌学术搜索
m . Zulkarneev r . Grigoryan, n . Shamraev“声学建模与深层信念网络言论对俄罗斯,”演讲和计算机:15国际会议,SPECOM 2013年,皮尔森,捷克共和国,2013年9月1 - 5日。诉讼卷,8113在计算机科学的课堂讲稿页17-23 Springer,柏林,德国,2013年。视图:出版商的网站|谷歌学术搜索
K.-F。李,H.-W。亲爱的,r . Reddy“狮身人面像语音识别系统的概述”,IEEE声学,演讲,和信号处理,38卷,不。1、35 - 45,1990页。视图:出版商的网站|谷歌学术搜索
诉斯米尔诺夫,m . n .卡和m . p . Farkhadov“语言系统中处理器的功能言论自动化分析非结构化数据,”自动化和现代技术,没有。8日,22 - 2013页。视图:谷歌学术搜索
m . Bisani h·奈伊,“grapheme-to-phoneme Joint-sequence模型转换。”言语交际,50卷,不。5,434 - 451年,2008页。视图:出版商的网站|谷歌学术搜索
t·海恩,”隐式发音的变化自动语音识别,造型”言语交际,46卷,不。2、171 - 188年,2005页。视图:出版商的网站|谷歌学术搜索
d . Jouvet d Fohr, i Illina”评估grapheme-to-phoneme转换器在自动语音识别的背景下,“《IEEE国际会议音响、演讲和信号处理(ICASSP 12)IEEE,页4821 - 4824年,京都,日本,2012年3月。视图:出版商的网站|谷歌学术搜索
l ., a·戈沙尔和圣Renals“声学数据驱动的发音词典大词汇量语音识别”《IEEE研讨会自动语音识别和理解(ASRU 13)奥,页374 - 379年,捷克共和国,2013年12月。视图:出版商的网站|谷歌学术搜索
s . g .保罗和l·c·奥利维拉”一代的词替代发音使用加权有限状态传感器,”2005年Interspeech学报》上《里斯本条约》,页1157 - 1160年,葡萄牙,2005年9月。视图:谷歌学术搜索
诉Verkhodanova Kipyatkova, a·卡尔波夫,m .Železny”建模的发音,语言和非语言单位在俄罗斯对话语音识别,”计算机科学与应用程序的国际期刊,10卷,不。1,11-30,2013页。视图:谷歌学术搜索
l . v . Bondarko a . Iivonen l·c·w·政客和诉de Silva“共同阅读和自发的演讲和语言相关的语音差异在俄罗斯,芬兰和荷兰”语音科学学报》第15届国际大会(ICPhS ' 03)西班牙巴塞罗那,页2977 - 2980,,2003。视图:谷歌学术搜索
l . v . Bondarko n . b . Volskaya s . o . Tananaiko洛杉矶Vasilieva,“俄罗斯自发的演讲的语音特性,”语音科学学报》第15届国际大会(ICPhS ' 03)西班牙巴塞罗那,2973年,页2003。视图:谷歌学术搜索
a . Stolcke“SRILM-an可扩展语言建模工具包,”学报》国际会议口语处理美国科罗拉多州,丹佛,2002年9月。视图:谷歌学术搜索
t . Mikolov m . Karafiat l . Burget j . Cernocky和s . Khudanpur“递归神经网络建立语言模型”,Interspeech,卷2,不。3,2010。视图:谷歌学术搜索
r . v . Bilik v . a . Zhozhikashvili n . v . Petukhova和m . p . Farkhadov”分析口腔界面的互动服务系统。二。”自动化和远程控制,卷70,不。3、434 - 448年,2009页。视图:出版商的网站|谷歌学术搜索
v . a . Zhozhikashvili n v Petukhova, m . p . Farkhadov“计算机排队系统和语音技术,”控制科学,没有。2,3 - 7,2006页。视图:谷歌学术搜索
v . a . Zhozhikashvili r . v . Bilik v . a . Vertlib a . v . Zhozhikashvili n . v . Petukhova和m . p . Farkhadov“开放排队系统,语音识别,”控制科学,没有。4、55 - 62、2003页。视图:谷歌学术搜索
n . v . Petukhova美国诉脉管'kovskii, m . p . Farkhadov诉答:斯米尔诺夫,语音识别系统的体系结构和特点,“神经计算机:开发、应用,没有。12日,比如22 - 30,2013页。视图:谷歌学术搜索

电气和计算机工程杂志》上

现实生活中的通信信号处理平台和算法和听数字音频

文摘