计算和数学方法在医学

在这一页上

文摘介绍讨论引用版权相关文章

研究文章|开放获取

体积2013年| 文章的ID297860年| https://doi.org/10.1155/2013/297860

估计Phoneme-Specific嗯拓扑结构自动识别的构音障碍的演讲

Santiago-Omar Caballero-Morales ¹

学术编辑器: Volkhard头盔

收到了 2013年5月31日

修改后的 2013年8月16日

接受 2013年8月25日

发表 2013年10月08

文摘

构音障碍是一种经常发生的运动语言障碍可引起神经系统创伤,脑瘫,或退行性神经系统疾病。因为构音障碍影响发声,发音和韵律,口语交流的构音障碍的演讲者会严重受限,影响他们的生活质量和信心。辅助技术的发展导致了语音应用程序提高口语交流的构音障碍的扬声器。在这个领域,本文提出了一种方法来改善HMM-based语音识别系统的准确性。因为发音障碍的主要特征构音障碍的演讲,构音障碍的演讲者的音素的影响在不同的水平。因此,方法在于找到最合适的类型的嗯拓扑(Bakis,遍历)为每个音素在演讲者的语音。拓扑是进一步细化带有合适数量的州对声学模型和高斯混合组件。这代表着差异相比,研究假设一个拓扑音素。找到合适的参数(拓扑结构和混合组件)和遗传算法(GA)执行。实验一个众所周知的构音障碍的语音数据库显示显著改进的建议的方法与单一拓扑方法相比,即使是演讲者与严重的构音障碍。

1。介绍

构音障碍一词最初定义为“一个集体名词,一群言语障碍产生的干扰机制由于肌肉控制演讲中损害中枢或周围神经系统”(1,2]。最近,构音障碍被描述为一个障碍中的一个或多个语言产生的过程:呼吸、发声(控制声带的气道的适当的语音质量和装阀),共振(改变声道的能力,正确的语音和产生共鸣的空间),发音和韵律(适当的强调和音调变化)3]。人受到这种情况经常在口头交流存在重大缺陷和减少可解性瘫痪的特点,虚弱和不协调的演讲肌肉组织(4]。这会影响构音障碍的人们生活的方方面面,从社会互动学习成绩和职业位置(5]。

神经系统的损伤导致构音障碍可能是由于先天性疾病(例如,脑瘫)、脑血管意外(CVA),创伤性脑损伤(TBI)或退行性神经系统疾病如帕金森氏症或阿尔茨海默氏症。这些条件脑瘫和创伤性脑损伤产生nonprogressive构音障碍而帕金森症和阿尔茨海默病产生退行性构音障碍,降低语言随着时间(3]。

受影响的肌肉构音障碍可能包括肺、喉,口咽、鼻咽,软腭,发音器官(嘴唇、舌头、牙齿和下巴)(6]。这些肌肉组织破坏的程度决定了语言障碍和类型的特定模式(faccid、痉挛性共济失调,运动功能减退的,运动过度的)和水平(轻度、中度、重度)的构音障碍。在图1概述相关的言语障碍,每种类型的构音障碍在报道1),值得注意的是,大多数的异常与发声的过程,韵律和清晰度。因此,构音障碍的演讲可能包括不精确的辅音和元音扭曲(节段赤字),不规则的发音故障,过度或等于所有音节,压力和缓慢的演讲phonatory-prosodic不足形容为苛刻,单调,monoloudness [3]。典型症状包括紧张发声,发音器官的精确位置,不完整的辅音关闭导致的响音实现许多停止和摩擦音,并降低嗓音起始时间(嗓音起始时间)停止浊音和清音的之间的区别4]。因为语言障碍或异常的范围广泛的构音障碍的演讲中,通常需要不同的测试评估。

1.1。构音障碍对元音,辅音和韵律

元音失真是常见的,因为构音障碍的扬声器生产单个动作或变化总体声道形状与减少位移和速度(4]。这将导致以下具体的异常:大偏差和集中在共振峰频率,改变元音空间区域,较浅的共振峰山坡,和更大的interspeaker共振峰过渡变化(4]。然而,对于构音障碍的扬声器,元音是身体上容易产生,因为它们不需要动态发音肌肉的运动。

与元音,辅音发音器官的需要精细运动控制。因此,这些影响,难以产生在构音障碍的存在7]。尤其更明显的辅音涉及某种形式的摩擦事件:破裂或瞬态噪声(停止),一个简短的噪声区间(破擦音),或更长的声音间隔(摩擦音)。

生产指标用来衡量辅音的障碍是嗓音起始时间,这被定义为时间的长度,通过停止辅音的释放和表达,声带的振动。构音障碍的特点是嗓音起始时间的显著变化。例如,在[8]痉挛性构音障碍患者产生辅音嗓音起始时间较短言论与正常的人相比。相比之下,在9,10]嗓音起始时间长时间观察痉挛性构音障碍患者。在[11)高嗓音起始时间变异性是共济失调构音障碍患者中观察到。

韵律,减少范围的音调和响度一直指出的韵律特征构音障碍(1压力等)在建筑语言的节奏,语调的影响(12]。声学特性与韵律包括基本频率、幅值、持续时间、和段质量(13),受不同的言语构音障碍引起的肌肉损伤。这种沟通是很重要的,因为缺乏可理解性的韵律特征干扰元音,尤其是当音调。

1.2。发音障碍

构音障碍造成的语言障碍和异常(见图1)导致发音障碍,这是一个最经常观察到的异常被认为在所有类型的构音障碍(1,2,14- - - - - -16]。发音障碍是一个主要特性,指出在构音障碍的临床评估16]。因为一个音素通常被认为是一个抽象的一组语音(电话),被视为等同于彼此在一个给定的语言,发音障碍可能与更普遍的通信赤字(16]。

缓慢的语速和时间产生长时间的音素,这可以使一个单音节词(或认识)视为一个双音节词(一天 刻度盘)。此外,字长无声的站可以被解释为两个词,因为长时间沉默闭塞的中间阶段目标词(之前是)[17,18]。

在自动语音识别(ASR)和认知测试中,发音障碍导致增加删除,插入,替换的音素(7,17,19,20.]。这些特征减少演讲者的清晰度和限制演讲者的语音,导致一些声音或音素说不正确或铰接。

1.3。语音识别技术

构音障碍的人也有肌肉萎缩,这限制了他们的使用开关或键盘通信能力或控制辅助设备(如电动轮椅)。在这种情况下,语音识别技术是一个有吸引力的替代通信和控制尽管难以实现健壮的识别性能,因为发音障碍。

许多辅助基于语音识别的应用程序开发和实现。在[17,21- - - - - -23听写)商业ASR系统的使用(例如,龙自然发言)探讨了提高言语交际。这些研究显示不同程度的识别性能50%到95%的范围内为用户提供不同级别的构音障碍和小词汇表(< 50个字)。

相比之下,在19,24- - - - - -28)特定的ASR系统开发为构音障碍的扬声器。在[24构音障碍的ASR系统扬声器是由人工神经网络(ann)。与商业ASR相比,ANN-based系统实现更高的识别性能。在[25,26]ASR系统构建与隐马尔可夫模型(摘要)29日)取得了重大演出荷兰和日本构音障碍的扬声器,分别。在[27]HMM-based ASR系统能够实现识别精度超过80%,英国人严重的构音障碍和限制词汇表(7 - 10字)来控制电子设备(例如,广播,电视)。在[30.),提出了一种混合的方法,综合摘要和ann来提高识别的无序语音。在[19],HMM-based ASR系统构音障碍的扬声器是建立控制web浏览器47预选词精度达到34.3%到83.3%的范围内。在[31日HMM-based ASR),是集成了语音合成提高清晰度的构音障碍的演讲。65%到80%的识别精度和可懂度的改进以达到平均意见分(MOS)。最后,在[28,32)的开发HMM-based语音输入声音输出(VIVOCA)通信救援设备为无序的演讲。这些设备是为了识别和解释构音障碍的人的言论和生成更多的理解(清晰)版本相同的演讲。该系统实现了67%的平均精度在实际使用情况与小词汇表(14-47词语)。

一般来说,ASR技术集中更准确地识别(识别)句子独立构音障碍的演讲者的语言构音障碍的严重程度。这是非常重要的发展的应用程序(如上述),提高与人沟通和互动的目的或其他辅助系统。

1.4。理由和建议

为构音障碍的演讲中,基于ASR的辅助技术的发展依赖于实现健壮的识别性能。这不是一项容易的任务,因为广泛的异常相关的构音障碍的演讲。此外,尽管高识别性能实现(例如,> 80%),这是经过几个speaker-specific训练获得的。相关的成本,在金钱和时间,不能提供大部分有这种障碍的人。克服这些困难是值得使用ASR人机交互是更适合当构音障碍的人也有肌肉萎缩,限制使用开关或键盘的能力。在这种情况下,ASR互动报道更有效率和速度比使用机制(23,33- - - - - -35]。

提出,ASR系统的语言模式,可以学习大量的训练数据适用于构音障碍的扬声器。前一个方法考虑ASR系统的反应估计音素混淆的演讲者的演讲模式。然后,这些信息被集成到ASR过程纠正那些混乱错误(删除、替换、插入和/或音素),并提供一个更准确的反应(18,26,36- - - - - -38]。这种方法比其他方法利用扬声器适应技术(商业使用的ASR系统),因为在评论(39),这些是不足以应对异常出现在构音障碍的演讲。然而,混淆矩阵方法的性能取决于ASR系统的输出,因此它的性能。

摘要被认为是这项工作,因为这些都是最常见的技术用于识别正常和无序的演讲。这是由于摘要的效率模型语音的统计特性的变化,在时间和频率域(40]。

在这项工作中,一个方法基于找到合适phoneme-specific嗯ASR系统参数。认为这种方法可以提高音素的声学模型构音障碍的影响和提高ASR的性能,因此,其他后处理技术的音素混淆矩阵的方法。

基于构音障碍的语言的特点,提出了在这一节中以下参数为优化考虑ASR的过程。(我)拓扑结构。这被认为是一个重要的参数,因为在工作综述部分1.3指出,对于所有音素或单词在ASR的词汇使用嗯拓扑相同。作为讨论的部分1.1和1.2,有一个显著的变化在元音和辅音的语音障碍。因此,特定的拓扑应该用于每个音素的声学模型的构音障碍的演讲者的语音曲目,因为并非所有音素都以同样的方式影响构音障碍。对于这个工作,架构(Bakis,遍历)和HMM的状态的数量被认为在拓扑参数。这是一个扩展的工作(42],拓扑优化是在寻找最优的状态数字摘要考虑只是Bakis从左到右的拓扑。(2)高斯混合组件的数量。每个状态的一个重要元素在嗯是发射概率。这些代表一个观察向量的概率(例如,语音信号)产生从一个特定的HMM状态(43]。这些概率模型的概率密度函数(pdf)高斯模型表示成一个加权和的pdf文档,每个都有不同的均值和方差43,44]。这被称为高斯混合,高斯pdf文档的数量影响HMM-based ASR系统的响应(4,43,45]。

的选择合适的拓扑和高斯混合组件的数量为每个音素的构音障碍的演讲者的语言进行了遗传算法(GA)优化领域的一个重要工具使用(46]。ASR的表现与结果GA-HMMs相比的方法开发一个特定人(SD)系统,培训的执行摘要具有目标说话人的语音数据(17,27,32,35,39]。建议的方法达到统计上显著的收益在ASR精度测试和构音障碍的演讲的SD方法在一个著名的数据库(穆尔41])。

提议的细节phoneme-specific方法提出了如下。节2,嗯的细节选择拓扑和高斯混合组件的数量为每个音素。然后,在节3,信息的结构和元素使用的GA优化音素HMM的参数。节4,获得的结果与SD建议的方法和比较方法。最后,在节5获得的结果进行了讨论,提出了未来的工作。

2。嗯参数优化

2.1。嗯拓扑

摘要的一个重要元素是拓扑结构或结构。在数据2和3摘要的拓扑识别音素。这些拓扑结构被称为Bakis,最常用的是三态从左到右结构(29日,31日,41,43,45的图2。如今,商业ASR系统是基于音素摘要Bakis结构。

另一个拓扑遍历图所示4。与Bakis拓扑相比,拓扑遍历每个州()可以从其他国家达到在有限数量的步骤29日]。构音障碍的识别的演讲中,遍历常用当ASR系统是基于整词识别7,27,47]。

在综述部分工作1.3和1.4摘要的结构是固定的,所有音素的造型或单词词汇的语音应用程序。在这个工作认为拓扑构音障碍的演讲必须具体每个音素的发音障碍的影响和造成的大范围的异常语音发音器官的影响。因此,发音影响说话速度缓慢和时机可能更明显比其他某些音素。在这种情况下,一个遍历拓扑可能更适合与不一致性模型语音说话速度而不是Bakis拓扑。

另一方面,Bakis结构与大量的国家被报道是适合长造型和低分化语音单位(41]。正因为如此,国家的数量是一个重要的元素被认为是摘要的拓扑结构识别的构音障碍的演讲。不同数量的标准三个州(35,45)八(41和11个州32]。因此,拓扑优化的水平被认为是为每个参数如下:(我)类型:Bakis图2(Bakis-1) Bakis图3(Bakis-2),图的遍历4(三层);(2)为每种类型的状态数:3-to-11(9)水平。

2.2。高斯混合组件

另一个参数为优化考虑高斯混合组件的数量用于每个嗯状态。这个参数对发射概率的造型很重要,它代表一个观察向量的概率(例如,语音信号)产生从一个特定的HMM状态(43]。这些概率描述为一个加权和高斯模型(混合物)的pdf文档,每个都有不同的均值和方差43,44]。

混合高斯pdf文档的数量(组件)影响HMM-based ASR系统的性能4,43,45]。获得高ASR性能与高斯混合组件的范围内八(38)16 (45]。然而,通常使用不到十高斯混合组件(35]。因此,优化的混合组件的数量16水平被认为是基于这些1-to-16范围。

在下一节中,这些参数使用的优化方法的细节。

3所示。优化方法:遗传算法

嗯拓扑的选择和混合组件的数量是由micro-Genetic算法(micro-GA),这是一个计算方法基于达尔文的自然选择规则。遗传算法是一种启发式搜索,模拟自然进化的过程并生成有用的解决方案优化问题(46]。

一般来说,天然气已经使用领域的ASR研究摘要的优化提出了(42,48,49]。在[42,49),用GA优化HMM-based ASR系统的观测概率和过渡状态。与该方法相比,在42),拓扑优化是在寻找最优的状态数字摘要仅仅考虑Bakis-1从左到右的拓扑。该方法扩展了在工作(42)通过消除从左到右的限制和其他考虑拓扑Bakis-2和遍历与更多的国家。在图5的一般结构micro-GA用于这项工作。

GA始于“初始人口”的候选解决方案或“个人”。这些解决方案评估,评估其“健身”,要解决的问题有关。在这种情况下,问题在于找到拓扑的分配和混合组件的数量将增加ASR的性能,和每个表示一组约会。然后,健康评估与接受那获得的识别精度由一个独立的个体。

这些人选择“复制”基于达尔文的“适者生存”规则(例如,个人更好的健康)。预计发生在自然,更好的特色个人生存,繁殖,并产生“后代”继承的特点,他们的“父母”,精制后几代人。然后,对于这种情况,初始种群的个体成为新的解决方案的父母(子女)由生殖构造操作符。预计好的解决方案(拓扑和混合组件的数量的分配)将产生更好的解决方案。父母的选择是基于他们的健身来执行的。

繁殖后,后代评估来评估他们的健康。如果后代比其他个体人群中这些将被替换。迭代过程,直到没有改变整个人口的整体素质是实现(或迭代一定次数后)。

与传统遗传算法相比,micro-GA可以使用一个非常小的初始种群(一般四到五个人50),可以随机生成的。这个算法能够收敛(例如,找到一个最优解)很快在几个迭代并提供估计和传统遗传算法一样好,人口可达1000人。在下面几节中提出了micro-GA的细节。

3.1。初始种群

micro-GA始于10个人(我)1个人的分配由Bakis图的拓扑结构2所有音素与状态(Bakis-1);(2)第二个人的分配由Bakis图的拓扑结构3所有音素与四个州(Bakis-2);(3)第三个人的分配由遍历图的拓扑结构4所有音素状态;(iv)4 th-to-10th个人接受随机生成上述Bakis和遍历性拓扑的州内九节中指定的水平2。1。

为了执行这些个体的繁殖,接受那被编码成“染色体”,呈现在图6。每个解决方案都由一个向量表示有81“基因”或值的地方(我)从基因这些数字代表了拓扑分配到th音素(在这种情况下,):Bakis-1,Bakis-2,遍历;(2)从基因这些数字代表的数量考虑拓扑分配给嗯状态th音素(3-11);(3)基因81代表高斯混合组件用于声学建模与摘要(1 - 16)。

3.2。健康评估

为每个单独的人群中,一组摘要与分配是建立拓扑。这些摘要作为发射和跃迁概率的参数估计与Baum-Welch和维特比算法(43]。执行这个过程,称为监督训练,一组“培训”的演讲。

然后,测量每个人的“适应性”,%词识别精度(WAcc)计算一组“测试”的演讲。这种方法计算在哪里元素的个数(单词或音素)正确转录的口语演讲,然后呢,和被删除的元素数量、替换和插入生成的输出HMM-based ASR系统相比,正确的转录。

3.3。选择的父母

对于这个过程,轮盘赌选择(51)进行如下。(1)为每一个个人在人口健康计算指定节吗3.2。(2)计算选择概率个人是如果有情况负的值获得,最负面的作为参考。然后,引用添加到所有的绝对值值人群中。这样,最消极的价值得到健身的0,和个人用更少的消极获得新的积极的(小)值。积极的人让他们的健身相应增加的绝对参考价值。这种调整不会改变健康的概念作为一个值0代表一个人很可怜的能力来解决这个问题。(3)计算累积概率为每个人。(4)生成一个随机数。(5)如果,然后选择第一个个人(),否则,选择这样。(6)重复步骤4和5次,直到所有个人选择。

这个过程给作为输出或双人情侣的父母然后可以产生后代的繁殖操作符被称为交叉和变异。

3.4。繁殖的父母

后代的繁殖运营商支持创建新的解决方案)从一组初始的个人(父母)。这个过程相当于探索点解空间内的一个问题:父母是最初的问题的解决方案,并创建后代相当于为同样的问题找到其他解决方案。

第一个繁殖操作符被称为“交叉”,在于父母的染色体之间的基因交换(46]。交叉是探究的,因为它使一个跳转到某个地区之间的“在”两个(父母)地区(52]。因此,交叉算子的多样化人口(53]。

有许多交叉方案,使用一种特殊的计划取决于choromosome编纂和类型的问题得到解决。在这种情况下,染色体代表约会表示拓扑和高斯混合组件的数量和每个基因的值是正整数数字。对于这个编纂,线性交叉使用(54- - - - - -56]。考虑两个父choromosomes,和,在那里和是th基因和染色体的长度,对后代的基因吗和得到了, 在哪里重量值,在这种情况下,交叉概率有关。通过这种方式,每个th基因的后代创建一个新值的算术组合在同一基因th父染色体的位置(56]。注意,从显示的选择方法3.3,父母形式夫妻,每对新人都会产生两个后代;因此,后代创建交叉算子。

第二个繁殖算子被称为“突变”,在于改变(随机或基于概率)的所有个体的基因。因此,变异算子可以创建新的个人通过改变一个人。突变是剥削,因为它创造了随机小偏差,从而保持附近(地区)父52]。而交叉算子多样化的人口,变异算子利用新的结果(53]。

执行的变化在选择基因和变异算子可能由给它分配一个不同的值相关的容许范围内,或选择两个基因和交换他们的价值观。对于这种情况,很多父母是随机选择初始种群。然后,对于每个所选父,的值随机选择的基因改变了值相关的范围内。的和数字相关的变异概率如下:

这将导致改变父母,成为后代产生的突变。在这部作品中,概率相关的运营商都是基于以下等价:

突变的概率被设置为参考交叉概率。突变的概率被认为是根据迭代次数增加或一代又一代的遗传算法。这个增量被认为是根据表达式绘制在图是哪一个7。这个表达式,代表micro-GA的迭代次数的百分比。

从图7,四个值被认为是:0.10,0.30,0.40,0.50。如果被定义为micro-GA的迭代的数量,这些吗值被认为是当该算法达到= 10%,30%,50%,70%,分别。这种形式的估计被认为是为了动态变化的强度探测的和剥削搜索过程执行复制操作符。

最初,在迭代= 0,,从而和交叉进行个人在初始种群。GA到达时,迭代的总数的10% (),和,因此交叉进行执行个人和突变个人。这个值为保存到GA达到30%的,在那里和,导致交叉进行个人和突变被执行个人。然后,这个交叉和变异率的GA达到50%,在那里和。这一直持续到GA的达到70%,在那里。

这样,在GA的开始探险的搜索主要是执行,因此加强多样化。随着GA的继续,剥削搜索增加直到都执行相同的强度。最后,考虑水平和符合其他遗传算法实现(53,55]。

3.5。停止条件

在[注释52),停止标准遗传算法有很多,如考虑代或迭代的最大数量,最大数量的功能评估,或收敛。micro-GA,固定数量的迭代被认为,在这种情况下。这是符合提出的遗传算法的停止条件(42(停止后30迭代)。然而,在实验中观察到,20迭代收敛后最小的变化。

4所示。实验构音障碍的演讲

4.1。语音数据

内穆尔实验数据库使用的构音障碍的演讲(41]。这个数据库已广泛应用于ASR研究提出了(31日,36,45,57,58]。内穆尔数据库由十个美式英语演讲者的语音数据构音障碍导致的脑瘫或头部外伤与关联的四肢瘫痪41]。的集合的主要语音数据由74短句子每个演讲者所说的(总共740句)。这些句子都是胡扯的短语,有一个简单的语法形式”是的”,和单音节的名词(74)和吗总共是一个bisyllabic动词(37)现在分词形式。具体的句子生成的随机选择和(不重复)从74年的集合名词,并选择不重复设置的37个动词。这一过程产生的第一个37的句子,和其他37个句子被交换的生成和单词在第一盘。正因为如此,74年完整的句子每个名词和动词有两种发音。词汇在这个集合中包含111个不同的字。

用这个语音数据,初步评估和识别进行了测试与人类听众。因为本文是集中在识别任务,识别评分由人类听众对于每个构音障碍的演讲者展示在表1。这些信息一定要确定严重的扬声器,中度和轻度的构音障碍水平基于识别评分。关于这个测试的更多信息和可懂度评估这些扬声器中可以找到41,59]。

基于表中提供的数据1和提出的识别45),演讲者被归类为表中给出2。在[45),四人被认为是温和的,三是温和的。在这项工作中,演讲者的中度组被送往轻度组根据表中提供的数据1(41]。这个分类是重要的训练计划SD系统部分中给出4.2。

此外,两个读数的叙述标识为“爷爷”和“彩虹”包括每个演讲者。而套74句英语语音学上和正字法贴上标签,叙述不标记在任何级别。因此,额外的标签进行考虑这篇演讲材料。叙事分为句子,导致18个句子“我爷爷”的叙述,和14个句子的“彩虹”叙事。这些故事中的词汇由158个不同的字。在表3句子的选择用于训练,GA-HMMs的健康评估和测试。这个选择是定义为包括所有音素训练语音数据库中,健康评估和测试集。

所有语音数据被编码成MFCC格式所使用的前端12 MFCCs +能源、三角洲和加速系数。还帧时间内10毫秒的汉明窗25 msec和26使用滤波器组通道(43]。

4.2。ASR系统

摘要和识别任务的实现工具执行了HTK [43]。因为在数据库内穆尔40音素识别,40单音原声摘要为每种类型的ASR系统构造。在这个工作,两个ASR系统被认为是。(1)特定人ASR (SD)。摘要有相同的参数(拓扑中,状态,每个状态)的高斯混合组件数量为所有音素,这些都是训练有素的言论(建造)数据目标(测试)的发言人。这是常见的方法发展的ASR构音障碍的演讲中执行(17,27,32,35,39]。因此,这个ASR提供基线(或引用)性能进行比较。关于这个SD ASR的参数,在部分3.1决心,前三个个体的初始种群micro-GA ASR系统构建的拓扑数据吗2,3,4,覆盖标准Bakis和遍历性拓扑。因此,三个基线SD ASR系统被构建为参考系统:SD Bakis-1, SD Bakis-2, SD遍历。此外,两个方案构建SD ASR被认为是:使用训练数据从所有人,包括目标(测试)议长和使用训练数据从目标(测试)议长。注意,如果在计划没有目标说话人语音的数据使用,则系统会完全非特定人(SI),因此,需要一种适应技术。在表4识别精度的比例获得的SD ASR系统这两个培训计划测试集所有扬声器。提出,平均而言,扬声器有轻度到中度的构音障碍训练时获得更高的识别性能的SD还包括数据从其他演讲者演讲。然而,演讲者更严重的构音障碍取得更好的性能,当SD只有目标说话人的语音数据训练。这种情况也观察到在17,45]。因为这些结果,dysarthric-specific SD ASR系统的培训计划被认为是:(我)温和的方案:从扬声器FB训练语音数据,MH, BB,会被用来培养SD为同一扬声器;(2)温和的方案:从扬声器摩根富林明训练语音数据,RL、RK被用来培养SD为同一扬声器;(3)严重的方案:从扬声器BK训练语音数据,BV, SC是用来训练SD同样的扬声器。在表5,识别结果与dysarthric-specific方案。在图8,所有的计划都提出了比较。与dysarthric-specific培训计划可以实现类似的性能(在某些情况下,更高的性能)相比,表中给出的方案4。这是很重要的,因为一个ASR可以为特定类别或建造水平的构音障碍。这可能是原因,观察到在17,45],扬声器有轻微构音障碍获得更多受益于使用ASR建立正常的演讲(适应非特定人ASR系统)比用SD ASR系统(在本例中,轻微的构音障碍的人更接近正常的语音比中度或重度构音障碍的扬声器)。因此,优化的摘要,dysarthric-specific计划用于基线SD ASR系统的创建。(2)GA-Optimized SD ASR (GA-op)。基线SD ASR的摘要与micro-GA优化提出了部分3让每个嗯特定的音素的特点。优化涉及到确定最合适的拓扑和高斯混合组件的数量提高ASR系统的性能。micro-GA, training-independent语音数据用于健身评价(见表3)。

4.3。收敛的Micro-GA

在图9,平均收敛GA-op SD的情节摘要所有迭代的micro-GA健身评价集。这说明不同的拓扑的分配会导致对ASR性能改进。在表6,接受那获得micro-GA每个扬声器的音素。

4.4。GA-op ASR系统的性能

在表7和图10表现的比较的基线SD ASR系统GA-op SD ASR。与基线相比GA-op是SD ASR系统的更高的性能表5。提出,GA-op SD ASR系统的性能高于基线的每个扬声器独立于构音障碍的水平。

平均增长了5.3%达到了所有构音障碍的扬声器(66.20% - -60.90%)。这些结果具有统计学意义值< 0.10中描述使用配对测试(60]。承认,实际上,ASR应该高是正常的演讲小词汇表(80% - -96%)61年];然而,人类语音识别为构音障碍的报道是准确的7%至61%的时间(45,62年]。提议的方法的性能取得了高于人类识别基于这些信息。

5。讨论和未来的工作

在这工作的方法组成的造型每个音素与特定的拓扑构音障碍的演讲了。最初的方法开发SD ASR系统被认为是。结果呈现在图8表明,通过添加其他演讲者的演讲样本具有相似水平的构音障碍的训练SD ASR系统,可以实现更高的性能对于一些扬声器。如表所示7和图10,当优化拓扑的摘要SD ASR系统在识别性能得到更多的收益。在实践中,这种方法可以应用如果演讲者已经有一个SD ASR系统,或dysarthric-specific SD ASR系统的设计。在这种情况下,一个自动教练和建设者的ASR系统必须开发。领域的人机交互(HCI),这种方法可以用来进一步提高效率的辅助接口。

从表6可以看出Bakis-1拓扑结构是最适合所有扬声器与温和的构音障碍,就与中度和重度构音障碍。特别是议长RL拓扑Bakis-1, Bakis-2,遍历同样分配给不同音素平均的7个州和12高斯混合组件的状态。这个演讲者与温和的构音障碍分类根据识别结果表2。然而micro-GA的约会估计表明,这个演讲者可能提供一个广泛的音素的发音变化(,因此,必须考虑更具体的摘要)。注意比近10%的改善获得议长RL优化后的基线SD ASR系统的摘要。

演讲者BK, BV,分类与严重的构音障碍,最合适的拓扑Bakis-1和Bakis-2(遍历),分别。然而注意国家的平均数(7和8 resp)显著高于轻度和中度的扬声器(不包括议长RL)。演讲者BV,高斯混合组件的数量是最高16。

一般来说,扬声器RL, BK, BV需要更多的州的声学建模音素。演讲者FB, MH, BB,我(轻微的构音障碍)和摩根富林明(温和的构音障碍)需要较少的国家,平均4 - 6州的。议长RK,分类与温和(但接近严重)构音障碍,需要更少的国家平均四个。演讲者SC,最低的一个识别性能表2分类与严重的构音障碍,平均需要6个州。

虽然演讲者FB, MH, BB,你,摩根富林明,RL,汉堡王,和接受BV清楚观察到基于他们的构音障碍(例如,轻度到重度构音障碍导致增加嗯声造型)的数量,为演讲者RK和SC中没有观察到这些(例如,约会是严重和严重RK和SC演讲者更温和的构音障碍的相关发言人)。然而,拟议的方法的改进实现所有扬声器和构音障碍水平是相一致的。

总的来说,标准的三态从左到右Bakis拓扑用于声学音素造型需要更多的州的造型构音障碍的演讲。在某些情况下,超过一种类型的拓扑是必需的。同样,这是每个音素的声学特性的依赖在演讲者的曲目。

未来的工作重点是扩展学习的情况下观察到的工作:(我)探索使用动态的拓扑,除了改变的状态数,它们之间的转换也可以改变;(2)提高收敛的micro-GA替代交叉和变异算子;(3)测试方法不同的构音障碍的演讲和更大的数据库(例如,TORGO数据库);(iv)(将后处理混淆矩阵方法18,26,38]为进一步改进,将需要更多的构音障碍的语音数据);(v)探索使用HMM的约会的评估构音障碍的演讲。

引用

f·l·达利a·e·阿伦森和j·r·布朗“微分构音障碍的诊断模式,”言语听觉研究》杂志上,12卷,不。2、246 - 269年,1969页。
视图: 谷歌学术搜索
f·l·达利a·e·阿伦森和j·r·布朗”集群越轨演讲维度的构音障碍”,言语听觉研究》杂志上,12卷,不。3、462 - 496年,1969页。
视图: 谷歌学术搜索
a . b .实物地租的j。Hosom x妞妞,j·p·h·范·Santen m . Fried-Oken和j . Staehely”改善构音障碍的可解性的演讲》言语交际卷,49号9日,第759 - 743页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
h·v·夏尔马声学模型适应[博士承认构音障碍的演讲。论文)美国伊利诺伊大学乌尔班纳,生病,2012。
p·c·道尔·h·a . Leeper a·l·科特勒et al .,“构音障碍的演讲:比较计算机语音识别和侦听器可解性,”康复杂志》上的研究和发展,34卷,不。3、309 - 316年,1997页。
视图: 谷歌学术搜索
a .实物地租x妞妞,j . p . Hosom苗,和j·p·h·范Santen“共振峰重新合成的构音障碍的演讲》《ISCA语音合成车间,2004年。
视图: 谷歌学术搜索
p·d·Polur g·e·米勒,“高频效应谱组件在计算机识别基于Mel-cepstral随机模型的构音障碍的演讲,“康复杂志》上的研究和发展,42卷,不。3、363 - 372年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
w . j . Hardcastle r·a·摩根巴里和c·j·克拉克,“成人构音障碍的发音和表达特点和语言dyspraxic演讲者:乐器的研究中,“英国的交流障碍杂志》上,20卷,不。3、249 - 270年,1985页。
视图: 谷歌学术搜索
g . Weismer”发音帕金森构音障碍的特点:节段和短语级时机,spirantization, glottal-supraglottal协调,”构音障碍:生理学、音响、感知、管理m·r·麦克尼尔,j . c . Rosenbek, a·e·阿伦森。,pp. 101–130, Timonium, Maryland, Md, USA, College Hill Press, San Diego, Calif, USA.
视图: 谷歌学术搜索
r·d·肯特和j . c . Rosenbek言语失用症的声学模式”,言语听觉研究》杂志上,26卷,不。2、231 - 249年,1983页。
视图: 谷歌学术搜索
h·阿克曼和i Hertrich构音障碍在弗里德希氏共济失调:语音段的时机,”临床语言学、语音学,7卷,不。1,第91 - 75页,1993。
视图: 谷歌学术搜索
h . h . Kim Hasegawa-Johnson, a·帕尔曼“声学线索词汇压力在痉挛性构音障碍,”《语音韵律卷,100891年,页1 - 4,2010。
视图: 谷歌学术搜索
r·帕特尔,“韵律控制严重的构音障碍:保存能力标志着question-statement之下,“日报的言论、语言和听力的研究,45卷,不。5,858 - 870年,2002页。
视图: 谷歌学术搜索
j·r·r·d·肯特j·f·肯特达菲和g . Weismer”构音障碍:speech-voice概要文件、相关障碍和神经病理学,”医学语言语音病理学杂志》上》第六卷,没有。4、165 - 211年,1998页。
视图: 谷歌学术搜索
w·齐格勒和p . Hoole“语音质量测量,”神经系统疾病r·d·肯特和m . j .球。单数,页397 - 410年,2000年。
视图: 谷歌学术搜索
r·d·肯特·h·k . Vorperian j·f·肯特和j·r·达菲“多维的声音的声音障碍在构音障碍:应用程序,”交流障碍杂志》,36卷,不。4、281 - 306年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
p . Raghavendra大肠工厂和s . Hunnicutt”调查不同程度的构音障碍的演讲作为输入speaker-adaptive和特定人识别系统,”扩大和替代交流,17卷,不。4、265 - 275年,2001页。
视图: 谷歌学术搜索
s . o . Caballero莫拉莱斯和s·j·考克斯”造型构音障碍的扬声器,自动语音识别中的错误”EURASIP在信号处理的发展》杂志上ID 308340条,卷。2009年,14页,2009。
视图: 出版商的网站 | 谷歌学术搜索
f·哈米迪,m . Baljko:利文斯顿et al .,“一个可定制的语音界面的人dysatric演讲,”学报》第12届国际会议在电脑上帮助人们有特殊需要(ICCHP 10)k . Miesenberger j·克劳斯,w . Zagler和a . Karshmer Eds。卷,6179课堂讲稿在计算机科学(信号)施普林格,页605 - 612年,柏林,德国,2010年。
视图: 谷歌学术搜索
k·罗森和s . Yampolsky“自动语音识别和评估其功能与构音障碍的演讲中,“扩大和替代交流,16卷,不。1,48-60,2000页。
视图: 谷歌学术搜索
l·费里尔·h·谢恩,h·巴拉德,t·卡彭特和a . Benoit”构音障碍的演讲者的清晰度与计算机语音识别和语音特点,“扩大和替代交流,11卷,不。3、165 - 175年,1995页。
视图: 出版商的网站 | 谷歌学术搜索
n . j .之上,k . Hux和j·l·Rankin-Erickson“语音识别训练提高书面语言生成的创伤性脑损伤的幸存者,”脑损伤,14卷,不。11日,第1034 - 1015页,2000年。
视图: 谷歌学术搜索
n .玛k . Hux j . Rankin-Erickson, e . Lauritzen”三个语音识别系统的准确性:案例研究的构音障碍的演讲中,“扩大和替代交流,16卷,不。3、186 - 196年,2000页。
视图: 谷歌学术搜索
g . Jayaram和k . Abdelhamied构音障碍的实验使用人工神经网络语音识别,”康复杂志》上的研究和发展,32卷,不。2、162 - 169年,1995页。
视图: 谷歌学术搜索
h·斯特里克·e·桑德斯,m .鲁伊特和l .太阳”自动识别的荷兰构音障碍的演讲:一个试点研究”第七届国际会议的程序语言处理(ICSLP ' 02),第664 - 661页,2002年。
视图: 谷歌学术搜索
h . Matsumasa t . Takiguchi y Ariki,李和t . Nakabayashi”集成的元模型和声学模型的语音识别,”学报》国际言语交际协会第九届年会(Interspeech ' 08)2008年9月,页2234 - 2237。
视图: 谷歌学术搜索
p . m . s . Hawley恩德比,p .绿色et al .,”一个患有严重的构音障碍,言语交际环境控制系统”医学工程与物理卷,29号5,586 - 593年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
p . m . s . Hawley恩德比,p .绿色,坎宁安,r·帕尔默,“发展语音输入声音输出交流援助(VIVOCA)患有严重的构音障碍,”学报第十届国际会议在电脑上帮助人们有特殊需要(ICCHP 06年)k . Miesenberger j·克劳斯,w . l . Zagler和ai Karshmer, Eds。卷,4061课堂讲稿在计算机科学(信号),第885 - 882页,2006年。
视图: 谷歌学术搜索
l·r·拉宾”教程隐马尔科夫模型和选择在语音识别中的应用,”IEEE学报》,卷77,不。2、257 - 286年,1989页。
视图: 出版商的网站 | 谷歌学术搜索
p·d·Polur g·e·米勒,“嗯/安混合结构的调查使用cepstral构音障碍的分析模式识别应用程序(扭曲)语音信号,”医学工程与物理,28卷,不。8,741 - 748年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m . s . Yakcoub,美国。“Selouani, d . O ' shaughnessy语音辅助技术改善构音障碍的扬声器与机器之间的交互,”学报》第三届国际研讨会通信、控制和信号处理(ISCCSP ' 08)2008年3月,页1150 - 1154。
视图: 出版商的网站 | 谷歌学术搜索
p . m . s . Hawley恩德比,p .绿色et al .,”一个语音输入声音输出交流援助的人严重的语言障碍,“IEEE神经系统和康复工程,21卷,不。1,23-31,2013页。
视图: 出版商的网站 | 谷歌学术搜索
H.-P。常”,为构音障碍的用户语音输入,“《美国声学学会的会议,1993年。
视图: 谷歌学术搜索
n . Thomas-Stonell A.-L。科特勒,h·a·里柏和p·c·道尔”计算机语音识别:可理解性和感知一致性对识别精度的影响,“扩大和替代交流,14卷,不。1,51-56,1998页。
视图: 谷歌学术搜索
m . Hasegawa-Johnson j .甘德森a·珀尔曼和t .黄”HMM-based和基于svm识别语言的演讲痉挛性构音障碍,”学报IEEE国际会议音响、演讲和信号处理(ICASSP 06年),3卷,第1063 - 1060页,2006年5月。
视图: 谷歌学术搜索
w . k . Seong j . h .公园和h k金,“构音障碍的语音识别误差修正使用加权有限状态传感器基于上下文相关的发音变异,”第13次国际会议的程序在电脑上帮助人们有特殊需要(ICCHP 12),k . Miesenberger ai Karshmer, p . Penaz和w·l·Zagler Eds。卷,7383在计算机科学的课堂讲稿施普林格,页475 - 482年,2012年。
视图: 谷歌学术搜索
w . k . Seong j . h .公园和h k金,“多个发音词汇建模基于音素混淆矩阵构音障碍的语音识别,”先进的科学和技术的信件,14卷,年度,2012页。
视图: 谷歌学术搜索
s . o . Caballero-Morales和f . Trujillo-Romero音素混淆的动态评估模式与遗传算法来提高性能的元模型识别的无序演讲,”计算智能的发展,即Batyrshin和m . Gonzalez-Mendoza Eds。卷,7630在人工智能课堂讲稿施普林格,页175 - 186年,2013年。
视图: 谷歌学术搜索
p .绿色,j·卡迈克尔,a . Hatzis·恩德比m . s . Hawley和m·帕克,“自动语音识别与稀疏的训练数据构音障碍的扬声器,”《第八届欧洲语音通信和技术会议(EUROSPEECH ' 03),第1192 - 1189页,2003年。
视图: 谷歌学术搜索
m . Frikha和A . b . Hamida”比较的调查安和混合嗯/安架构稳健语音识别,”美国智能系统杂志》上,卷2,不。1,1 - 8,2012页。
视图: 谷歌学术搜索
x Menendez-Pidal, j·b·Polikoff s·m·彼得斯j . e . Leonzio h·t·邦内尔,“内穆尔构音障碍的演讲中,数据库”诉讼的第四届国际会议上口头语言处理(ICSLP 96),3卷,第1965 - 1962页,1996年10月。
视图: 谷歌学术搜索
c . w .洲邝,k . f .男人,和k . s . Tang“嗯拓扑优化和遗传算法的模型参数,“模式识别,34卷,不。2、509 - 522年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
美国年轻人和p .林地,HTK书,HTK版本(3.4),2006年剑桥大学工程系。
d . Jurafsky和j·h·马丁,演讲和语言处理,普伦蒂斯霍尔出版社,2009年。
f . Rudzicz”,比较特定人和speaker-adaptive声学模型识别构音障碍的演讲,”学报》第九届国际计算机和可访问性(ACM SIGACCESS会议资产' 07)2007年10月,页255 - 256。
视图: 出版商的网站 | 谷歌学术搜索
d·e·戈德堡遗传算法在搜索、优化和机器学习,addison - wesley, 1989。
l·j·费里尔,j·r·戴勒,d .许”使用隐马尔科夫模型的构音障碍的识别的演讲中,“计算机在生物医学方法和项目,35卷,不。2、125 - 139年,1991页。
视图: 出版商的网站 | 谷歌学术搜索
问:y香港和美国邝”,说话人识别基因分类方法,”人工智能技术的工程应用,18卷,不。1、13 - 19,2005页。
视图: 出版商的网站 | 谷歌学术搜索
t .豆类、y Iha和Nagayama,“选择最优结构的连续使用遗传算法,嗯”学报》第五届国际会议上口头语言处理(ICSLP 98),1998年。
视图: 谷歌学术搜索
g . a . Bakare g·k . Venayagamoorthy, o·阿利尤古萨乌,”尼日利亚网格系统的无功功率和电压控制使用micro-genetic算法”IEEE电力工程学会学报大会,2卷,第1922 - 1916页,2005年6月。
视图: 谷歌学术搜索
k . f .梁、f·h·f·梁h . k . Lam和s . h .凌”应用程序的修改神经模糊网络和语音识别的改进遗传算法,”神经计算和应用,16卷,不。4 - 5,419 - 431年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
b·库马尔和r . Dhiman液位罐系统PID控制器的优化使用智能技术,”国际计算机科学和技术杂志》上,卷2,不。4、257 - 260年,2011页。
视图: 谷歌学术搜索
r·库马尔“探究的实验分析,利用运营商的遗传算法操作系统进程调度的问题,“国际工程和技术杂志》上,卷2,不。6,472 - 476年,2010页。
视图: 谷歌学术搜索
t .野村”,分析线性交叉实数染色体在一个无限的人口规模,”学报IEEE国际会议97年进化计算(欧洲的)1997年4月,页111 - 114。
视图: 谷歌学术搜索
j·肖、l .邹和c·李”优化隐马尔可夫模型的遗传算法对web信息提取,”《国际智能系统与知识工程会议(ISKE ' 07),2007年。
视图: 谷歌学术搜索
d . t . Vollmer、t·苏尔和m .躁狂,“距离测量相比,提高综合优化的拥挤问题,”学报》第三届国际研讨会弹性控制系统(ISRCS 10)2010年8月,页31-36,。
视图: 出版商的网站 | 谷歌学术搜索
j . p . Hosom a . b .实物地租,t . Mishra j·p·h·范Santen m . Fried-Oken和j . Staehely”构音障碍的可理解的修改演讲》学报IEEE国际会议音响、言论和信号处理(ICASSP ' 03),1卷,第927 - 924页,2003年4月。
视图: 出版商的网站 | 谷歌学术搜索
w . k . Seong j . h .公园和h k金,“性能改进的构音障碍的语音识别使用上下文相关的发音变化建模基于Kullback-Leibler距离,”先进的科学和技术的信件,14卷,53-56,2012页。
视图: 谷歌学术搜索
h·t·Bunnel和j·b·Polikoff”内穆尔数据库构音障碍的演讲:感性分析,”语音科学学报》第14届国际大会1卷,第786 - 783页,1999年。
视图: 谷歌学术搜索
l . Gillick这样和s·j·考克斯,“一些语音识别算法的比较,统计问题”IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP ' 89)1989年5月,页532 - 535。
视图: 谷歌学术搜索
国家标准与技术研究院(NIST),在NIST自动语音识别的历史评价,2009,http://www.itl.nist.gov/iad/mig/publications/ASRhistory/index.html。
j·m·诺伊斯和c·r·法兰克”残疾人士的语音识别技术”,扩大和替代交流,8卷,不。4、297 - 303年,1992页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2256年

下载

1492年

引用