文摘

本文系统的自动检测和校正发音错误的本地中国英语学习者的语音识别技术设计的帮助下radiomagnetic发音录音设备和计算机辅助软件。本文扩展了标准发音字典通过预测音素混淆的规则的语言学习者的发音可能导致发音错误并生成一个扩展的发音字典包含每个单词的标准发音和发音错误的可能变化,和自动语音识别使用扩展的发音字典来检测和诊断学习者的音素的发音错误并提供实时反馈。给跨语言语音播下它是由系统生成的比较分析不同音素的发音,和数据驱动的方法是使用自动音素识别学习者的语音和分析产生的发音错误之间的映射关系和相应的标准发音规则自动生成额外的音素混乱。在本文中,我们调查的各个方面有关的几个问题基于radiomagnetic英语发音错误的自动校正发音录音设备;设计系统的总体框图等。和一些关键技术和问题进行讨论,包括端点检测、特征提取、发音标准算法的和系统的研究,分析各自的特点。最后,我们设计和实现模型的自动英语发音纠错系统基于radiomagnetic发音记录装置。根据英语发音的特点,修正算法实现在本系统使用相似性和发音时间评级基于日志后验概率相结合的分数,并通过线性映射这个系统标准化得分。该系统可以实现自动识别英语发音错误校正的目的,同时,提高用户的的英语口语发音在某种程度上。

1。介绍

语言是人类交流最自然的工具,和语言的自动处理信息是信息科学的一个重要研究领域。其中,更重要的是研究方向包括大规模的连续语音识别的自然语言理解、语音合成,机器翻译(1]。人机语音交互的人机对话技术基于语音识别,自然语言理解,语音合成。语音合成是人机交互的核心部分之一。涉及许多学科,如声学和自然语言处理、人工智能、信号处理。近年来,语音信息处理发展更加迅速,和口语发音检测是一个重要的研究方向。语音交互是最直接的,自然的,人们使用和有效的方式来传达信息,移动电话的快速发展和其他智能终端产品近年来,新的人机交互已经成为计算机科学研究的热点,语言学、和通信(2]。人机语音交互是一个人机对话技术基于语音识别,自然语言理解,语音合成。语音合成是人机交互的核心部分之一,涉及到几个科目,如声学、自然语言处理、人工智能、信号处理。很多英语学习进行的“真空”的“非语言环境。“一旦进入交际状态,它是更容易受到不可避免的发音缺陷或糟糕的发音在现实背景。其目的是使计算机或其他硬件设备能够自然听起来像人。在这样的环境下,手机,电脑,和其他智能终端设备完全像人一样可以“说”和“听着,”可以理解人类的自然语言,并能得到一些反馈或根据指令完成相应的操作的目标之一是当前人工智能科学领域(3]。然而,对于当前的TTS系统(语音),这是许多企业和大学的主要研究方向,使它产生清晰,可以理解,流利,自然的声音在不同的场景,以更好地满足用户的个性化需求。

语言学习一般包括四个方面:听,说,阅读,和写作,每一种都有它的学习方法。例如,听力理解技能可以提高通过聆听各种外语多媒体资源,包括新闻、电影、和有声读物。我们也可以经常阅读外文报纸、专业论文、世界著名书籍,和其他文本资源练习阅读技巧和在其他语言中获取信息4]。许多人倾向于阅读和写作流利,但他们的英语口语很差,进一步影响听力的提高。英语写作可以通过写日记来练习,翻译英语资源,等。没有好方法提高“说”的能力;虽然它可以练习在“英语角”或相似的地方,这是非常有限的。此外,大量的英语学习是“真空”的“非语言环境,一旦你进入真正的沟通情况,你更有可能受到不可避免的发音缺陷或不恰当的发音因素在现实背景。因为“说”是一个互动的过程,它不能单独训练但是必须与之交互。由于这些原因,“说话”往往成为语言学习者的瓶颈。

电脑给人类带来了巨大的方便因其强大的信息处理、计算和存储能力。语音识别技术已经开发多年,现在开始逐渐进入不同的应用程序。研究语言学习口语和发音检测近年来受到更多的关注,和语音识别的应用程序在计算机辅助语言学习已成为一个重要的研究方向。特别是音频作为信息中人机交互的过程中扮演着重要的角色(5]。因此,英语发音监测和自动校正的研究不仅具有理论意义而且也很大的帮助外来学习者的语言学习;通过检测学习者的发音在语言学习中,它可以帮助学习者理解他们发音的准确性和提高他们的口语水平6]。

口腔发音测试的目的是提供一种机制来学习外语,如英语国家自动纠正发音。许多人倾向于阅读和写作流利但是说得不好,影响听力更[7]。提高听力和口语技能的关键是练习说,收到英语老师的指导和修正,但缺乏和高成本的英语教师在中国留下许多学习者没有机会实践和提高,通常,经过11年的研究中,他们仍然无法与外国人交流,既不说话也不理解。利用学习者的发音错误规则,这些规则融入语音识别检测和诊断的可能误差分类学习者的音素的发音。鉴于口头练习的重要性,主要意味着学习者的练习是反复播放磁带和其它记录媒体,和中继器的出现了英语学习电子产品市场。教学用具使用电子和计算机技术的发展已成为一个关键步骤的过渡从基础研究到产品,和许多机器学习得到了国家的大力支持和输入教育和科技部门(8]。

发音错误检测的主要发展的另一侧系统是1990年代后。在1996年,一个语音交互语言学习系统的发音评分算法,结合隐马尔科夫相似性,句子长度、段长度和段分类计算分数。早些时候该算法和算法的重要区别是,句子或短语的内容大声朗读的人没有指定测试,使其使用更加灵活。识别系统的算法实现和评价法国在以英语为母语的发音,和实验结果表明,分数为同一段时间的一个重要指标发音流利和健壮的背景噪音。1997年,发音评估算法提高了平均评分从给定的发音器多个句子,然后他们获得更高级别的分数,同时结合不同的机器评分,以获得较高的相关系数(9]。实验表明,改进后的算法需要更少的演讲被测试在字面意思分数,增加人机分数相关系数从0.5到0.88,并通过结合不同的得分机器,增加人机分数相关系数7%。2000年,通过计算(CM)信任措施派生从隐马尔可夫模型(HMM)基于音素ASR系统措施(CM) phoneme-level发音错误检测。2003年,发音错误检测方法改进的基于共和党算法。改进的方法表明,音素检测识别器可以确定正确的发音,和CM越低,越高的概率不正确的发音的演讲10]。这些CMs的优点是容易获得通过ASR系统;然而,当分析个人声音,CMs和人类之间的关系判断低相对长期的语音。在音位层面,发现缺少的特性CM导致低相关性评估水平和人类的判断,这些特性计算算法使用类似的特性集语音,不适合执行发音错误检测。2004年,在荷兰作为第二语言学习的发音错误,发现学习者的荷兰有发音问题的元音的长度,这个问题表明,发音错误造成不同于预期的音素发音音素可以导致词的理解偏差11]。

自自动发音检测的研究密切相关的研究语言学、音韵学、面临的问题等,不同的语言在学习另一种语言,如英语不同,必须有针对性的解决方案。一般来说,口语发音测试的机制之一是语音的准确性的评估,一直是研究的一个重要方面。在早期的发音的测试中,创建一个声学模型基于标准的母语语音的发音,然后,从外来扬声器测试学习者的发音12]。一些研究添加来自外来国家的专家演讲训练数据来提高判断的音素的发音的困难。很多研究只进行有限的单词的发音音素,有限的检测和研究进行了连续自然的演讲更大的词汇量。我们认为,很难获得标准音素的发音评分仅通过应用迫使正规化。以来,中国人对英语学习者来说太远离标准英语,发音识别可能无法获得有效的音素发音的准确性。一些研究使用语音识别和正规化的声学模型的输出分数音素的发音评分,这是有用的合理评估音素发音的准确性(13]。

3所示。自动的英语发音错误校正系统的设计基于Radiomagnetic发音录音设备

3.1。自动校准系统模型设计

在本文中,我们提出一种自动检测系统错误的英语学习者不断地口语发音的音素的发音。方法的核心思想是使用错误的模式存在于学习者的发音来检测和诊断的可能误差分类学习者的音素发音语音识别中使用这些模式。面临三个主要问题的方法。音素的发音,我们总结了典型发音错误规则通过crosslanguage语音进行比较和分析。本法是混乱的形式规则从音素音位来预测学习者的可能错误的音素的发音。(一)如何总结错误模式。它是非常困难的和不必要的每种情况的总结分析。本文的方法总结常见错误的情况下在学习者的发音和常规和扩展。混乱的规则表示形式的混乱的规则(b)如何设计一个语音识别系统,错误的法律实际上是结合语音识别作为先验知识来检测和诊断发音错误。发音错误检测主要是面向用户非本地的演讲者,和识别需要精确到音素,哪些地方和系统设计要求。语音识别的准确性将会提高如果法律是集成到语音识别错误减少的负担识别器,识别在识别与先验知识范围(c)如何提供纠正反馈信息。这是一个基本的人机交互问题智能问题错误的发音检测系统和系统的一个重要组成部分。更合理的和直观的反馈可以更快地让学习者理解并纠正发音错误,实现计算机辅助发音训练的目的

不同的功能结构和方法的三个问题,本章将系统划分为三个模块扩展发音字典生成模块、语音识别模块,语音检测和反馈模块;整个系统结构设计如图1

语言学习者面临的主要的发音问题是音素的发音不准确、不恰当的压力和语调、迟滞型和连续发音。原因主要分为以下三种类型:(1)语言的差异,语音,语音发音结构之间的学习者的母语和目标语言和发音器官的运作力的差异;(2)学习者的语言学的误解,音韵学,音素,不知道连续或误解字母发音的规则。前两个原因,语言迁移理论的基础上,本文系统地分析了母语为汉语的英语发音错误的特点从语言学、语音,语音和发现的错误主要集中在那些音素发音存在但不是在中国,和学习者习惯性地替代音素发音的音素的发音类似于这个音素在语言学和音系学,导致发音错误(14]。嘴唇发出人类的声音后,高频部分衰减,所以低频部分的能量总是高于高频部分的能量,结果在一个较小的高频部分的光谱值,不方便进行分析和处理。预加重是让声音通过高通滤波器提高高频部分,这样高,低频范围是相等的。因此,我们推广的典型发音错误模式给跨语言语音播下从音素的发音差异的比较分析,这种模式是一种phoneme-to-phoneme混乱规则预测学习者的可能错误的音素的发音。而第三个原因包含太多的学习者的个人因素,Chimin山知识难以预测,因此,本文采用一种数据驱动的方法,不依赖于先验知识,利用学习者的实际发音错误的识别预测可能的错误的发音上执行代理speech-to-phoneme自动识别学习者的演讲和分析造成错误的发音音素之间的识别结果和标准发音的音素。发音音素之间的映射关系和标准发音音素进行了分析。

语音信号预处理是语音特征提取前的准备工作,主要用于语音信号的频域处理功能。模拟语音信号采样和量化后变成数字信号,它需要preemphasized这样高,低频振幅相等,然后是演讲和窗口的框架。如果声音直接读取数据从一个音频文件,如文件不需要样本量化处理。是因为人类的声音是嘴唇,高频部分会减弱,所以低频部分的能量总是高于高频部分的能量,从而导致一个更小的光谱值的高频部分,这是不容易分析和过程。预加重演讲是允许通过一个高通滤波器,提高了高频部分,使高,低频振幅具有可比性。语音信号与短时平滑缓慢时变信号。的一段语音信号,如果我们需要一个足够短时间(约6 ~ 30 ms),我们发现部分保持不变的特征,但是从长时间(0.6秒或更多),语音信号特征不断变化,从那,演讲者应该表达的内容(15]。因为这个演讲的特点,我们需要把演讲分成几个短时段进行分析,这个过程是“框架。“两个相邻帧之间有一定的重叠,这样演讲的连续性特性是由平滑帧之间的比较。通常,重叠是一半或三分之一的帧长度的大小和帧长度是20到30 ms因为语音信号更稳定的特点。假设一个信号采样频率的16赫兹,一帧的长度25女士,和100帧/秒的帧率,有一个样本每帧,陷害语音信号每秒40000个样本。

关键的方面在TTS text-to-symbol转换文本分析,包括暂停、位置的压力,和层次关系,以及标准化的文本,话说,分工和决心正确发音的词或短语在那个位置。虽然在本节的主要任务不是文本分析,构建一个完整的TTS的关键是文本符号的转换,包括暂停、位置的压力,和层次关系,以及文本的标准化,词的划分,确定正确的发音的单词和短语在那个位置。虽然这一节的主要任务不是文本分析,这也是至关重要的工作过程文本分析来构建一个完整的TTS系统。文本分析的主要功能是使随后的合成阶段正确识别数字表达式从文本转换,类似于代码,执行一个浅分析的文本在一定程度上根据文本的对应关系的句子和理解。文本分析的主要功能是使随后的合成阶段正确识别数字表达式从文本,就像一个电子代码,执行有点肤浅的分析和对文本的理解基于其对应的句子,导致的决心如何在文本中单词和连词应该声音,押韵是需要基于句子特征,基于语义的间隔,等等。这些参数将传递给后端参数的处理过程和发挥大作用合成的有效性。整个文本分析的研究可以分为以下阶段:(1)规范输入文本,找到差距和拼写错误,并删除不合法的字符出现在语料库和错误的单词组成;字母或阿拉伯数字转换为中国发音存在他们的中国同行(2)分词,可以将文本根据动词、名词、连词和其他形式(3)话语的停顿,和马克他们基于分词和标点符号等信息

文本分析系统的框图如图2

在每个发音音位语音错误识别检测,可能是由于插入、替换和删除新音素。和大部分非本地的学习者的发音错误问题等也会出现由于音素混淆。相对应的语音音素的特点相关联的音素字符串,音素开始和结束时间,和评级得到识别和强制对齐后的斯芬克斯系统。这种合成数据,音素检测到错误。威特将发音错误分为两种类型,即音位错误和押韵错误,并进一步将音素错误分为三类:音素的发音错误、遗漏和补充。通常,识别器只执行一个音素序列的识别检测过程,音素对齐后,识别器执行从左到右一个音素识别过程和输出识别结果,但是错过和错误检测的问题经常发生。改善音素识别检测的正确性和准确性,提出了一种音素循环识别检测策略,这将被测试的语音转换成一个特征向量在特征提取后然后音素发音偏差网络扩展到每个音素识别状态,两次和狮身人面像识别器进行循环检测任务的音位特征向量和音素偏见网络获得识别结果。AE音素序列银、K, T, SIL音素单一词对齐后获得的“猫”和持续时间 和声学的分数 特征向量生成的音素。然后,对于每一个,三个 和两个 音素组分别确认了几次,对齐序列进行音素替代,插入和删除。并进一步确定错误类型的音素,音素也确认的时间特性。考试过程中循环识别策略如图3

3.2。英语发音检测方法研究

发音的准确性检测作为语音清晰度评价的基础本文直接相关语音清晰度评价体系的有效性。检测发音错误和提供反馈错误信息可以帮助学习者提高清晰度的演讲水平。在当前语音识别检测,由于学习者的多样性音素的发音错误,相似很容易混淆,这可能会导致丢失的情况和错误检测识别(16]。检测方法基于发音错误网络正在深入研究和应用,和本章提出了一个音素识别检测策略基于音素发音偏置网络的建设,它使用识别器随机周期和执行发音错误分化SVM的检测。本章着重于提高音素识别检测方法非本地的学习者提高识别率和准确性的音位语音功能和提供充分和准确的音素识别功能,为后续的语音清晰度评价。提高正确的音素识别和检测的速度和准确性,提出了一种音素周期识别和检测策略。特征提取后,被测试的声音转化为特征向量,然后,音素发音错误网络扩展到每一个音素。在识别状态,狮身人面像识别器上执行检测任务的两轮语音特征向量进行测试和音位的错误网络得到识别结果。发音错误检测需要一个更高层次的细节比发音评分和通常是基于语音特征,如时间特性,讲话,发音,和节段持续时间,可以计算相对更容易,等检测语音时间特性是更可靠的测量时间语音段和具有更大的相关性与人类的发音质量的判断。发音检测分级通常是用来计算扬声器的发音水平得分或话语水平,也可以本地音素的加权平均分数。和发音错误检测的最简单的方法是使用后验概率算法或共和党算法定义错误检测通过设定界限。

语音信号端点检测的目的是检测语音信号段和噪声段的连续采样得到的数字信号。准确的语音端点检测不仅减少了计算工作量,还提高了系统的识别率。因此,端点,语音分割的重要特性,在很大程度上影响语音识别系统的性能,因此,如何设计一个健壮的端点检测算法在嘈杂的环境中仍然是一个非常棘手的问题。传统端点检测算法依赖于只有一个功能,如信号能量,overzero率、时间和线性预测误差能量。这些方法具有良好的性能在高信噪比,但是在低信噪比的表现。语音处理系统通常运行在不同的噪声环境中,和系统的端点检测方法应适用于各种不利的情况下,使系统达到良好的性能(17]。首先,更高的阈值选择amp1基于语音短时能量,这是在大多数情况下超过这个阈值。这允许一个粗的判断:演讲开始和端点之外的时间间隔对应于这个阈值和短时能量包络的交集。然后,较低的阈值确定amp2基于平均能量的背景噪音,和两个点 的短时能量包络线相交的阈值搜索amp2首次从点 和向后从点 ,分别的 段是语音段由基于短时能量的双阈值方法,完成第一级的判断。然后进行第二个层次的判断,这一次使用一个阈值由短期过剩零率。从分 ,我们搜索前后,分别找到两个点 短时平均零率首次低于阈值时,它们的起始和终点判断语音段。这是显示在图4

标准的发音模型和分级模型的计算机辅助英语口语学习系统通过语料库训练。数据库系统通常需要两种类型的演讲,标准发音语料库和语料库不标准的发音。前者是主要用于训练标准发音模型,和训练语料库应该确保发音的主要培训英语口语学习尽可能多的内容,和语料库的内容主要是来自几个国际知名全集。使用非标准发音语料库训练手动评分专家评分模型,测试系统性能,应该广泛的代表性。提出的语音清晰度评价方法与专家评分的相关实验。之后,本文的评价方法比较与其他现有的语音清晰度评价方法,最后,本文的可解性进行了分析。的得分表现程度评价方法进行了分析。语料库由专家给出的内容,和目标分级评分判断根据不同用户在不同的学习阶段的学习重点。研究的演讲中实现英语学习系统,专注于一些常见发音错误的发音器开始,如各种类似的发音和鼻声音;一些专注于特定于英语发音技巧或困难,如语调、头韵,和压力。 There is also one that focuses on a whole system of learning spoken English, following the phonetic teaching method combined with computers to make the system user-friendly and optimize its performance. Of the above, it makes sense to conduct an in-depth study of a particular problem in learning spoken English, for example, synchronic pronunciation, intonation, and intonation. Simply solving one of these problems applied to a spoken language learning system can make the system function optimally. Speech recognition is the key to performing pronunciation learning, but it is not fully suitable for English spoken pronunciation learning and many improvements are needed.

4所示。分析的结果

4.1。自动校准系统实现

而手动三个评级得分,作者提出了分数相同的语音文件通过使用语音评估技术。基于语音的分析评价技术原则和语言评价的情况下,我发现讯飞是中国最先进的领域的语音评估和提供免费技术支持语音评估研究,所以我最终决定使用讯飞的语音评估功能开放平台实现所有测试语音样本的得分(以下简称“技术得分”)。讯飞开放平台提供语音评估技术(18]。讯飞开放平台提供语音评估技术SDK并解释测试的格式问题,评估结果,和开发人员文档中常见问题,它提供了极大的方便建立的技术得分的环境。在测试的过程中得分的技术环境,发现评估结果分(满分为5分),没有匹配的评分要求HSKK重复听完为初学者(2分和3分中间体)。因此,技术评分结果如下处理 ; 最后的初学者和中级技术评分结果的描述性分析,结果如表所示1

可以看到从上面的表中,主要的技术得分结果测试控制在0和2之间的平均得分高的范围和标准偏差在0.5;中级技术评分结果都分布在1和3之间,平均得分2.3和标准偏差在0.5左右。所有数据显示技术评分结果遇到题得分和分数的要求显示集中和稳定的状态。与人工评分的结果相比,描述性分析结果的技术评分结果发现与人工评分显示高度的协议,这一发现也支持这项研究的猜想。然而,这个假设需要进一步证明,所以在部分5,体力和技术的各个方面得分结果进行了分析和比较,证明了研究假设一个接一个,语音评估技术可以完成得分HSKK postlistening重复问题。

的过程中对语音清晰度评价方法进行实验测试,实验中使用数据库。首先,本文提出的语音清晰度评价方法与专家评级相关实验;之后,本文的评价方法与其他现有的语音清晰度评价方法相比,最后,得分摘要清晰度评价方法的性能进行了分析。同时,本文结合了音素发音偏差网络检测音素发音错误,和每个音素错误率的清晰度水平计算来验证系统的纠错反馈的有效性。该方法之间的相关性在评估中每个专家的英语老师可懂度得分和非本地的测试集和TIMIT设置进行了分析。准确地检测语音信号的端点也可以减少后续处理的计算和提高通信设备的利用率将有助于提高识别系统的性能。实验结果表明,该评价方法可解性的基础上,结合的特性提出了与人类的实际成绩高度相关专家。实验结果表明,本文提出的基于功能的评价方法结合优于共和党评分方法和人工智能基于索引的可懂度评价方法。这主要是因为本文提出的方法结合了两个音素和音素持续时间的信息声评分功能最有效的评价方法,使计算通过优化线性回归模型。如图5

回归分析的语音特征,在概率统计,回归学习的过程估计不同变量之间的关系。回归分析研究的自变量与因变量变化描述因变量变化的趋势特征的概率分布。在语音信号分析,回归分析的特征向量用于探索独立变量和因变量之间的关系,通常应用于属性的言论或参数进行评估和预测。不同的语音特性的关系,他们之间的关系特性和音韵学的线性组合,这对研究有足够的统计角度来看是有用的相关数据。估计可懂度分数,本文使用了一个线性回归模型,这是来自声学/语音措施之间的关系和专家评分。在这篇文章中,独立变量( )和变量 被定义为每个专家评分,所示的线性回归模型被定义为以下方程:

4.2。仿真测试结果的分析

端点检测是之前完成特征提取和识别输入的语音。实验表明,端点检测的准确性有非常重要的影响识别率的语音信号;此外,准确的语音信号的端点检测也可以减少对后续处理的计算量,提高利用通信设备来帮助提高识别系统的性能(19]。端点检测是用来描绘清晰度和沉默区域。现阶段流行的端点检测方法都是基于短时能量,短时平均overzero率和模式识别的基础上,基于逆谱距离,基于小波变换和基于其他方法。在英语学习系统原型实现,使用双门限端点检测方法,首先设置两个闭值的短时能量和overzero率和获得语音信号的端点检测方法由闭值的特定操作的内容。超过了高阈值可以确定声音的开始,和低阈值用于确定真实的端点的声音。超过了低阈值可能不是演讲的开始,它也可能是一个短期的噪声。自开始之间的时间间隔记录和发声的开始通常被认为是第一个100 ms的语音信号作为无声段,平均能量和平均overzero的这段语音信号可以作为特征参数提取时一个粗略的判断。计算的阈值,使用较低的能量阈值,这是作为两次平均能量的背景噪音,和更高的能量阈值作为多个帧的语音数据的平均能量(20.]。超过了高阈值确定演讲的开始,和较低的阈值用于确定演讲的真正的端点。低阈值被超过了不一定是演讲的开始,但也可能是短暂的噪音。当高阈值确定的开始演讲,回去,并使用低阈值来确定演讲的真正开始,和最终的言论是类似的歧视。有时,噪音也很精力充沛,可能超过阈值高,但短期的噪声一般可用于确定是否噪音或演讲中,如图6

确定最有效的纠错反馈决定有助于提高学习者的语音可懂度水平是最后一个问题要解决本文的评价体系。一般来说,外来的整体发音水平学习者在学习英语发音时的标准发音。然而,上校,如果所有的反馈给学习者不考虑语音可懂度的冲击值错误的音素发音,所有的学习者的关键发音会判断发音错误,这将削弱了学习者对学习的信心。学习者发音的音素序列通过给定词汇文本,匹配后,迫使对齐音素发音偏置网络,可能有偏见的发音识别序列的学习者,在{}表示可能的音素发音错误。确定哪些发音音素应该改进,我们定义的优先级 发音的音素 可理解的层面上 是学习者的错误之间的差异率和平均错误率学习者的水平 如下:

基于音素检测的结果,所有潜在的误导音素阅读检测率排名,并通过调整每个音素的优先级确定最需要改进的,哪些音素最好的调整是获得可理解的评级水平对整个单词的发音。目标词的问题音素在语音可懂度最大的影响也考虑到学习者作为位置反馈,告知学习者,提高违规音素将最有效地提高清晰度得分的单词的发音。

检查外来数据的语音错误率在不同清晰度水平,本文进行识别检测实验的发音。发音的平均错误率作为参考对象的平均错误率在每一个可理解的水平。音素的错误率最高清晰度水平只有0.22,而音素的错误率在可懂度1级达到0.53。因为区别的错误率可懂度水平和整体平均音素错误率,进一步分析在每个音素的平均错误率可懂度水平和发现,每个音素的发音的词典,可解性水平越高,较低的平均水平。这是符合人类感知的语音可懂度。同时,基于音素错误检测的结果,我们计算之间的影响趋势的音素错误率和可理解性和验证摘要在线评估系统的设计需要考虑学习者的反馈修正建议,可以最有效地帮助他们改善他们的语音清晰度水平。这是显示在图7

5。结论

自动发音的评估是一个复杂的主题涉及知识外,还可以从许多学科如语言学、声学、信号处理和模式识别。语言的发音规则也很复杂,很难进行自动评估发音。在本文中,我们提出一个系统,使用自动语音识别技术有效地检测错误的音素发音在连续日语发音的英语学习者。研究集中在如何有效地生成一个扩展发音词典来预测可能的发音错误学习者的发音,结合语音识别检测错误的发音音素的分类,并为学习者提供纠正性反馈,帮助他们改善他们的发音。介绍了误差消除计算语音识别和校对,从而有效地提高英语口语的识别能力,避免数据进程错误在传统的识别和校正方法,并优化反馈控制系统来提高系统的语音识别能力和从根本上解决语音识别混乱的问题。本文系统提高了发音模型的影响母语对第二语言的发音,虽然它会取得更好的结果,仍存在一些不足,未来的研究可以进一步探索而言,使用多个语音特征参数综合评价和网络的实现方法。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有竞争的经济利益或个人关系可能出现影响工作报告。