文摘
在英语的教学,越来越注重实用的沟通技巧。因此,口语考试组件从教育专家已经收到了越来越多的关注。与现代计算机技术和网络技术的快速发展,电脑的使用来评估质量的英语口语在相关领域的研究已成为一个热点话题。机器学习评价系统提出了基于线性预测编码以达到英语口语测试的自动评分。首先,线性预测编码和解码的原理进行分析,和传统的线性预测编码和解码算法提高了使用混合励磁代替传统二元激发。第二,机器学习评估系统的总体结构设计,主要包括划分为四个模块:声学模型采集模块、语音识别模块,标准发音转录模块和决策模块。然后,语音识别模块是实现一种改进的线性预测语音编码方法获得语音信号的特征参数并生成语音特征向量。最后,卷积神经网络算法训练语音功能,以实现采集模块的声学模型。实验结果表明,改进的线性预测语音编码方法产生更自然和更高的清晰度语音信号。设计机器学习评价系统能够准确的检测信息的学习者的发音质量。
1。介绍
现代英语教学的重点是发展学生综合应用技能,包括听力和阅读技能。其中,口语训练和口语评估已经收到越来越多的关注。通常有两种类型的评估来说测试:一个自动化的评估和手动评估专家。与随机计算机技术的不断发展,自动化评估的测试开始被用于各种各样的行业(1- - - - - -6]。例如,评估系统可以使用在电话采访自动得分面试者的英语水平。此外,网络教学在教育行业应用场景可以用口语评估系统自动化学生讲素质的得分。自动口语评估系统可以给目标分数根据应试者的表现及时,不主观受个人因素的影响(7,8]。
随着商业竞争继续加剧,越来越对复合型人才的需求。公司需要这些人不仅有扎实的专业知识,而且还能够熟练地表达自己的英语,所以说话技巧很重要。与传统的书面英语教学、口语教学的重点是标准发音。虽然教学形式的多样化,英语口语教学还处于人工阶段,在这个阶段。在传统的语言教学过程中,教师提供全面培训,如听力,阅读,和写作的学生通过面对面的方式,从而达到发展学生的语言交际能力的目的(9- - - - - -11]。其中,学习和训练标准的口语是英语学习的基础和重点。由于约束教师学习资源、学习成本和位置,传统的口语学习和培训的效果并不令人满意。教师需要花很多的时间和精力对学生进行各种主观测试,导致无效的工作效率,特别是在大规模口语测试场景。
目前,研究人员正在实验计算机辅助发音训练系统解决这些问题(12- - - - - -14]。计算机辅助发音训练系统的核心问题是发音偏差测试,即。,发音偏差评估。发音偏差的评估是评估学习者的发音的标准和相应的作业分数或等级,这是计算机辅助发音训练系统的核心功能。发音偏差评估主要是一个在意方法。音素序列首先是标准化和切片获得更加准确的音素边界信息。然后,音素的信心在每个语音段计算,和发音偏差来衡量信心得分。,常见的信任计算方法包括对数似,对数似然比log-posterior概率,和善良的发音(共和党)[15- - - - - -17]。此外,一些方法把信心计算与发音功能,产生更好的联合评分结果。为了评估发音偏差精度高,越来越多的研究人员关注在音素发音偏差的检测水平。
有两个想法自动检测研究音素的发音偏差水平(18]。一个是自动发音偏差的检测方法基于声学语音学。这种方法是基于统计分析的演讲。另一个是自动发音偏差检测方法基于自动语音识别技术。
1.1。基于声学语音学的发音偏差检测
发音偏差检测基于声学语音学发现一个特定组合的特性提取结构、声学和感知特性的演讲进行测试。然后,发音偏差检测是通过统计检验。相似度计算或分类器通常是选择发音偏误类型的分化。
裴瑞兹Morlett et al。19)提出了一种基于时域特性的混合方法和音素发音的边界信息偏差检测的基本英语发音单位,以惊人的结果。这种混合方法使用多层感知器分类器。中村et al。20.)提取不同预处理后帧语音的共振峰来衡量。这时,一个高斯混合模型(GMM)是用于分类和元音发音偏差检测。Dashti和Razjmoo21)定义了一个谐振峰值,降低环境噪音。这种共振峰可以模拟声道形状属性。发音偏差检测然后由计算结构畸变的程度(Bhattacharyya距离)之间的演讲和言论的标准来衡量。
1.2。发音偏差检测基于自动语音识别技术
自动语音识别本质上是一个分类匹配问题,虽然发音偏差检测是一个分类回归的问题,所以发音偏差检测可以使用语音识别技术来解决。基于自动语音识别更简单的发音偏差检测比发音偏差检测基于声学语音学。这是因为自动语音识别可以使用语言模型来抵消不精确的音响效果的影响,从而输出一个合法的字符序列。因此,本研究选择使用自动语音识别来实现英语口语评估系统。自动语音识别技术的关键要素包括语音特征参数的提取和声学模型的选择,这两个也是本研究的重点。
首先,语音特征参数的提取是一个关键步骤的过程中动态语音识别和参数的选择直接影响系统的整体性能。语音信号的预处理后,它需要特征参数的提取和分析。最典型的提取是语音编码器的使用方法。
声码器诞生在1920年代在美国贝尔实验室。从那时起,声码器经历了一个快速发展的时期。大量的研究人员一直在研究语音编码和语音合成,并取得了相当大的结果。声码器的基础是线性预测编码(LPC)。在1980年代早期,美国国防部LPC-10出版。刘等人。22)使用LPC的建立一个参数发音偏差数据库并结合高斯隐马尔可夫模型来实现分类检测发音偏误。Hiroya和Mochida23)使用LPC的提取语音特征参数,然后使用线性判别分析或决策树训练分类模型实现发音偏差检测。
第二,发音检测,提供的约束语言模型不是有用的,因为它会导致错过了发现不正确的发音。因此,健壮的声学模型是重要的区分标准发音和那些不正常的发音。隐马尔可夫模型在传统的语音识别中,高斯函数(GMM-HMM)一直占主导地位的声学模型(24]。然而,随着深度学习技术的不断发展,深度学习模型逐渐被更多地用于语音识别任务。一个卷积神经网络(CNN)是一个多层感知器,包含了卷积计算。CNN的代表算法深度学习的25),通常用于分析视觉图像。CNN由一个输入层、一层卷积,ReLU激活层、汇聚层,和一个完全连接层。CNN也被称为“平移不变人工神经网络”。
在应用到自动语音识别应用程序时,在输入方面,CNN-based自动语音识别技术大致分为两种类型:一种是使用传统的声学特征参数作为输入,如梅尔频率倒谱系数(MFCC) [26],LPC的[27],Fbank [28]。另一种是使用原来的时频光谱作为输入,即治疗时频图作为一个形象。Er et al。29日]分析了深度学习在语音识别技术的研究和需要解决的关键问题。Nakashika et al。30.)复发性神经网络用于语音识别,识别精度高。
从发音偏差检测的角度来看,我们希望保留尽可能多的原始信息的特性得到的输入。这是因为原始信息是最真实的描述学习者的口语的质量。然而,在频域时频地图可能会导致信息丢失,这是不利于发音偏差检测。因此,自动语音识别技术在本文中使用声学特征参数作为输入信息。由于短时平滑的英语口语,发音的声学模型的特征参数偏差检测更新频率较低,这有效地减少了编码比特率(低于2.4 kb / s甚至低于)。简单的LPC声码器能够实现一系列的0.8到2.4 kb / s的编码效率,这就符合编码比特率的要求(31日- - - - - -33]。因此,LPC的用于语音信号特征提取,特征是由卷积神经网络训练算法完成语音识别。本研究的目的是采用LPC的声学特征参数提取和使用CNN作为发音的声学模型偏差检测自动化检测的英语发音偏差。
为了实现自动评分的英语口语测试,机器学习评价系统提出了基于线性预测编码,主要由被分为四个模块:声学模型采集模块、语音识别模块,标准发音转录模块和决策模块。改进激励线性预测语音编码方法用于获得语音信号的特征参数并生成语音特征向量来实现语音识别模块。最后,CNN模型用于训练语音功能,以实现采集模块的声学模型。实验结果表明,改进的LPC + CNN-based评价体系能够准确地检测发音偏差信息。
本文的主要创新和贡献。(1)如何准确地使清音化/表达音调的判断是由英语口语评估系统是很重要的。因此,传统LPC算法提高了使用混合励磁代替简单的二元激发。在声学特征参数提取过程中,提取语音信号的子频带声音强度使用split-band混合励磁技术除了提取基音周期所需的传统LPC模型。(2)英语口语发音评估系统构建了基于LPC的改善和CNN。改进的LPC算法获得语音信号的特征参数并生成语音特征向量,从而实现语音识别模块。CNN是用来训练语音功能,从而实现声学模型采集模块。
剩下的纸是组织如下:在部分2口语发音,代表详细评估体系进行了研究,同时部分3提供改进的LPC的算法。节4机器学习评价系统详细研究了基于ILPC + CNN,虽然部分5提供了实验结果和分析。最后,本文的结论部分6。
2。代表口语发音评估系统
自1990年代以来,许多科技公司和研究机构开展了深入研究领域的发音偏差测试,取得了明显的成效,并推出了不同的应用系统,如表所示1。这些系统已经广泛应用于计算机辅助发音训练等领域,计算机辅助语言学习,和电脑说话能力测试。例如,迪斯科(语音识别技术的开发和集成到语言学习的课件)项目奈梅亨大学(荷兰)34]。迪斯科系统自动检测发音偏差和语法错误的讲话被测试并生成错误检查的详细反馈。雨果系统,由日本京都大学对日本英语学习者而言,使用决策树技术基于语言学和语音数据库检查发音偏误。
3所示。改进的LPC算法
3.1。LPC的原则
最基本的低速率语音编码方法是线性预测编码。在语音信号分析中线性预测不仅能够预测功能,还提供了一个很好的声音通道模型的参数估计。语音信号的线性预测分析可以提供一组模型参数,准确地代表语音信号的振幅谱。线性预测分析的基本思想是使用p采样点的值前一组数据来预测当前或下设置采样点值。LPC分析可以很好地模拟人类的发音系统,因此有一些优势在英语语音特征参数的提取35]。波形拦截和噪声滤波后的语音信号,多个帧的语音信号在一定时间内可以通过帧采样和结合线性时域模型实现特征参数提取。
让表示语音信号。根据LPC的原则,可以用之前的吗采样点。 在哪里 , , 表示线性预测系数。
让预测语音信号,那么它代表显示为:
计算预测误差如图所示:
让 ,然后所有的系数都可以解决,可以获得稳定的语音特征信号。
线性预测声码器的基本原理是,模型参数与励磁参数编码使用线性预测分析整机全极的声音在一个通道模型,导致传输高质量的演讲在低比特率(低于2.4 kb / s)。线性预测声码器的原理图所示1。在接收机的线性预测声码器,获得的预测系数的线性预测分析可以用来直接合成语音传输(36]。图2显示了LPC-10声码器的编码原则。
首先,经过低通模拟滤波器,LPC-10声码器执行一个a / D转换8 kHz的采样率获得演讲的数字化信息。数字化语音处理同时在两个步骤。(1)激发信息处理。演讲后被陷害,每一帧的特征参数提取和编码传输。编码后,基音周期(沥青)和表达/使清音化迹象(V /紫外线)的每一帧。基音周期计算使用平均幅度差函数(AMDF)方法。(2)声音通道参数的提取处理。
因为大多数的语音信号的能量主要集中在低频范围和功率谱衰减与频率、LPC的需要首先进行预处理语音信号,这样高频率的功率谱可以增加,从而提高语音信道参数提取的准确性。 在哪里表示预处理滤波器的传递函数。
3.2。改进动力来源
传统LPC算法使用简单的二元激励源(表示/使清音化)激发合成器。由于低的鲁棒性,语音合成的质量的二进制激励源是可怜的高演讲中噪声的存在。现实生活中的英语演讲经常表达/使清音化,尤其是在嘈杂的演讲片段。因此,表示/使变成无声调的判断的结果可以直接影响语音识别的质量。因此,改善英语口语评价系统的激励源是很重要的。本文混合励磁代替传统的二进制激发,因此提出一种改进的LPC算法(ILPC)。在参数提取方面,除了传统LPC的所需提取基音周期,混合励磁技术还用于提取语音信号的子频带声强。
提取基音周期的步骤在ILPC算法如下所示:步骤1:在通过语音信号x(n在900赫兹)通过一个低通滤波器,前20输出值被获得 。第二步:找到第一个100个样本的最大振幅值和最大振幅值的最后100个样本分别。选择最小值作为阈值水平l。第三步:使center-decimation和三级大规模毁坏获得和分别。第四步:找到相关性之间的信号和 ; 在哪里k范围从20到150年是短时能量。第五步:使用峰值检波器找到相关值的最大值 。如果小于 ,这个框架被认为是表达音调和基音周期设置为P= 0。否则,这个框架被认为是无声的音调,和基音周期设置为P= 。
的过程中提取的子频带声强ILPC计算如图3。
经过带通滤波器,提取语音信号的基音周期。结果一帧语音信号通过五副环带过滤器如图4。五个副环带的声音强度计算如下:0.2452第一副环带;0.4478第二子频带;0.1893第三副环带;0.3707第四副环带;和0.3874第五副环带。
对于每一个无声的语气或犹豫动荡的帧,语音信号在每个子频带的声音强度分别计算。形成激励信号,声音强度将决定权重的脉搏和噪声源在每一个副环带,导致整个频段的激励信号。
4所示。ILPC + CNN基于机器学习评价体系的设计
4.1。通用系统架构
发音偏差的自动检测是人类主观检测过程的仿真。通过机器学习手工检测结果,自动检测甚至可以超越人类专家。英语口语的机器学习评价体系设计本文图所示5。系统分为四个模块:一个声学模型采集模块、语音识别模块,标准发音转录模块和决策模块。
4.2。ILPC-Based语音识别模块
摘要ILPC算法来实现语音识别模块,以便学习者发音的基本单位(音素),包括合法的和非法的发音单元序列,可以准确地确定。自动语音识别的目的是检测学习者的发音文本的内容和输出合法字符序列通过使用声学模型,可以抵消不良的音响效果的影响。在声学特征参数提取过程中,我们使用一个split-band混合励磁技术来提取语音信号的子频带声音强度除了参数基音周期,导致一个精确的有声/无声的音调的判断。
4.3。CNN-Based声学模型采集模块
声学模型采集模块的主要功能是培养一个声学模型。训练有素的声学模型将用于语音识别模块。隐马尔可夫模型在传统的语音识别中,高斯函数(GMM-HMM)占主导地位的声学模型。然而,随着深度学习技术的不断发展,深度学习模型逐渐被更多地用于语音识别任务。卷积神经网络(CNN)是一个多层感知器,包含了卷积计算(37]。CNN是深度学习的代表算法之一,通常用于分析视觉图像。因此,在本文中,cnn采集模块用于实现声学模型。
CNN的输入是由ILPC获得的声学特征参数的算法。CNN的结构如图6。让语音特征的样本集 。首先,演讲中卷积功能层CNN (38- - - - - -40]。 在哪里和代表了重量和偏见的特性在层分别和代表卷积操作。
然后,卷积操作上执行的特点样本。让卷积核的大小 。
得到一个新的样本后再执行卷积操作和转换操作。
所示的限制如下:
在获得的完全连接层卷积神经网络分类器预测样本选择类。
在传统的声学模型训练,相对应的标签每一帧的数据需要知道为了有效地训练。因此,语音信号需要强制对齐前训练模型。虽然有一些相对成熟的开源对齐工具,语音识别的性能上有显著的约束技术与强制对齐。在CNN-based声学模型中,我们想要留下更多的神经网络来执行任务,如自主学习如何对齐。因此,预测定位技术用于解决这个问题。预测调整的损失函数定义如下所示(41- - - - - -43]。 在哪里 表示当输入序列的概率和输出序列Y,年代表示训练集。可以看出,预测对齐可以直接输出序列的预测概率,而不需要外部后处理。的帮助下预测对齐,可以节省大量的人工资源,从而增加效率。本文采集模块是由结合声学模型预测校准和CNN,如图7。
5。实验结果和分析
为了验证的性能ILPC + CNN在英语口语的质量评估,各种实验使用独立的语音样本有不同的口音。实验从开源网站VoxForge(获得语音数据https://www.voxforge.org/zh)。实验数据集的参数如表所示2,比3:1之间的训练和测试样本。CNN模型的参数设置如表所示3。音频数据的采样率为16000 Hz和样本大小是16位。文本的数量(数量的明显的句子)是2268年和音素的总数是44359。扬声器的总数是10包括5个男性和5个女性。首先,不同的帧速率ILPC性能的影响进行了测试。第二,不同的卷积核大小对识别性能的影响进行了测试。最后,设计系统是相对于其他口语发音评估系统。
5.1。对ILPC性能不同的帧率的影响
为了获得最好的帧率设置,语音识别精度的六个数据集在不同的帧速率是验证,如表所示4。
可以看出,随着帧提取的数量增加,识别精度不断提高。帧速率增加到180 Hz, ILPC算法显示了识别精度高。帧速率增加到200 Hz,数据集1,2,3,6显示识别精度下降,而数据集4和图5显示识别精度增加非常小,几乎可以忽略不计。当ILPC用于提取语音信号的特征与不同的样本类型,频率过高会增加语音识别的计算工作,而过低频率将语音信号的重要特征。因此,随后的ILPC算法中使用的帧速率是180赫兹。
5.2。卷积核的大小对语音识别的影响
进一步验证卷积核大小对语音识别性能的影响,英语语音识别精度不同的卷积核条件下测试,如表所示5。
可以看出,英语演讲的识别精度减少当卷积核的大小增加。这可能是因为更少的语言特点是参与操作的卷积核大小太大,导致降低语音识别精度。CNN的比较表明,识别精度较高时,卷积核大小是2 3∗∗2和3。然而,2比3∗∗2更费时3在CNN操作,为了提高实时性能,卷积核的大小是3∗3在后续实验。
5.3。性能分析的ILPC
ILPC声码器的激励信号与LPC声码器相比,如图8。
可以看出ILPC获得的激励信号是一个混合励磁信号。每一帧的言论不再是纯使清音化或语调语气但包含一个不同的周期脉冲串和噪音。因此,语音信号通过ILPC更自然和更好的定义。传统LPC的使用一个简单的二元激励信号来处理输入序列。传统LPC算法相比,ILPC基于混合励磁波形,更像了原始语音信号。ILPC算法可以得到高自然语音信号,和它的波形与原始波形几乎是一致的。
验证ILPC-based语音识别模块的性能,1000个样本来自的六个数据集形成混合的一次演讲中包含6000个样本数据集。这种混合的口语发音偏差数据集使用LPC的检查+ CNN和ILPC + CNN分别。帧速率是180 Hz,回旋的内核是3∗3。检测结果如表所示6和图9。
可以看出ILPC特征提取之后,CNN的检测精度显著提高。由于较低的鲁棒性,语音LPC的质量很差的情况非常嘈杂的演讲,这是由于现实生活中的英语演讲通常有语音音调,使清音化,尤其是在过渡段和言论非常嘈杂的段。当使用ILPC捕获的语音信号的特征提取,每一帧的言论已不再是纯粹的语音音调和语气使清音化,因此保留尽可能多的原始信息。ILPC + CNN迭代收敛约为140,而LPC + CNN大约需要180次迭代稳定。此外,ILPC + CNN的标准差较小而LPC + CNN。
5.4。不同的口语评估系统的性能比较
与传统的口语发音评估方法相比,这个实验的训练数据不需要人工注释。使用上述言论混合物包含6000个样本数据集,设计系统与其他口语发音评估系统相比,结果如表所示7。
共有44359个音素(声母、韵母和音调)从演讲中获得数据集。手动检测结果表明,6033个音素发音语音数据,10407发音音素被SCILL检测系统和9894发音音素TBALL检测到的系统。系统设计摘要(ILPC + CNN)检测7856发音音素,也就是最接近手册(标签)检测结果。实验结果表明,ILPC + CNN算法的确可以减少发音偏差的误判率。这表明该特征参数通过ILPC使用混合励磁反映原始语音信号的特征,因此解码语音质量更好,语音清晰。
最后,实验64发音错误分为三种类型,即最初的错误,最后的错误,和语调错误。这三种类型的发音错误数和结果如图所示10。
正如你所看到的,3种类型的发音错误,语调是最有可能发生。因此,英语学习者需要关注语调。下一个问题是押韵的错误。相比其他两种类型的错误发音,元音错误更容易解决。现象,语调错误远高于另两种类型的错误是符合语言规律,因此实验结果是可靠的。
6。结论
摘要英语口语的机器学习评价体系基于ILPC + CNN算法构造,以自动化的检测学习者的发音错误。设计系统包括四个主要模块:声学模型采集模块、语音识别模块,标准发音转录模块和决策模块。语音识别模块使用ILPC算法获得语音信号的特征参数并生成语音特征向量。声学模型采集模块使用一个CNN模型训练语音特性和CNN的输入由ILPC获得的声学特征参数的算法。实验结果表明,获得的特征参数ILPC使用混合励磁反映原始语音信号的特征,因此解码语音质量更好,语音清晰。与其他英语口语评价系统相比,ILPC + CNN-based机器学习评价体系可以减少误判率发音偏误。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突的报告对于本研究。