文摘
针对的问题长时间消耗和低精度的传统英语口语发音质量评价算法,一个回旋的基于网络的智能评估算法提出了英语口语的发音质量。卷积神经网络结构,给出原始数据收集的英语口语发音语音信号的多传感器检测,和英语口语发音语音信号模型。基于音频和卷积神经网络学习和训练,实现特征选择和分类识别的英语口语发音。PID算法来提取英语口语的情感元素在不同层次上达到准确评估质量的英语口语发音。实验结果表明,该算法的正确的英语口语发音的年平均增长率在本文中为94.58%,发音质量得分是8.52 - -9.18,100个短语的检测时间是2.4秒。
1。介绍
作为一种广泛使用的语言,英语已经吸引了越来越多的人的关注。英语在日常生活中越来越重要。人们欣赏美国的电视节目和好莱坞电影。他们需要使用英语在国外旅行时,他们需要用它来进出口事务。当谈到英语,需要英语学术研究交流,和英语也是工业生产所需,编程和查看技术文件(1]。所以,能够说英语对中国人来说越来越重要。对中国人来说,哑巴英语一直学英语的头号问题。语音信号处理技术的发展,语音信号识别方法的使用智能评估英语口语的质量,结合语音信息处理技术来提高英语口语的发音的质量,具有重要意义在改善英语口语教学的有效性。英语口语发音质量评价的智能评估和计算发音质量和检测的发音错误2]。英语口语发音质量的相关智能评估算法有很大的作用在促进英语口语发音的标准化,它也收到人们的重视。
温(3)提出了一个自动校正系统的设计基于动态时间扭曲的英语发音错误(DTW)算法。依靠语音识别传感器的优化设计和改进设计的语音识别处理器,完成系统的硬件设计;系统的软件设计完成基于英语发音采办计划的设计和英语发音错误信号的提取参数。该方法可以准确地评估英语口语的发音质量,但评估需要很长时间。罗等。4)提出了一个自动评估技术基于深层神经网络算法的英语口语。基于验证实验的真实场景数据上进行大规模的统一英语口语测试在初中和高中学校,提出了自动评价方法比传统方法更大的性能优势基于善良的发音(共和党)。评价该方法的花费更少的时间,但检测精度仍然需要改进。
当用户错误地宣称一个音素音位集中到另一个音素,这个假设可以是一个很好的近似真实的后验概率值,但是当用户的发音不同于任何标准发音的音素集,最大数量的多个候选人不同于和。因此,在某些情况下,这种假设将严重降低信心计算的准确性。针对上述方法的问题,本文提出了一种智能评估算法基于卷积网络英语口语的发音质量。深度学习努力学习更好的从大规模无标号数据表示的数据,所以深学习也叫表示学习或无监督学习算法的特性。深度学习的最常用的场景之一是使用无监督或semisupervised算法自动学习功能来代替手工设计特性。深度学习的卷积神经网络结构是用来训练英语口语语音信号的特点,并基于音频意识到英语口语的发音特征的筛选和分类和识别,在proportional-integral-derivative (PID)算法用于提取语音的情感元素,和英语口语发音的质量可以准确测量。
论文的安排如下:部分1是介绍和文献综述。节2,卷积神经网络(CNN)的结构是详细解释。此外,英语口语的发音特征的语音信号模型。最后,英语口语的发音特征的提取。部分3提出了一种智能算法的英语口语发音的质量评估。此外,英语口语的发音特征的筛选和分类。为了验证该算法,部分4进行实验和分析的结果比较的目的。最后,部分5总结了纸。
2。英语口语发音特征提取基于卷积神经网络
在本节中,卷积神经网络(CNN)的结构是详细解释。此外,英语口语的发音特征的语音信号模型。最后,英语口语的发音特征的提取。
2.1。卷积神经网络结构
深卷积神经网络主要由输入层、隐层和输出层。隐藏层由重复交替多层卷积层和池层,和它的结构如图1。
没有特征提取的初始数据输入到输入层,输入数据通过卷积核的卷积卷积层(C1),获得相应的卷积特性图,卷积是池通过池层(S2)。从获得的特征映射层,获得相应的池特性映射(5,隐层的重复操作(C3, S4)模仿C1和S2。通过设置网络的卷积和池,提取数据的特征可以有效地实现,和检测模型可以提高图像的容忍程度,满足变形不变性(6]。同时,图像的分辨率降低,功能图像增加获取大量的特性数据。输入信息输出最终的检测结果通过完全连接层(7]。
2.1.1。卷积的层
预处理的加速度传感器x,y,z数据(深度3)作为输入数据。为了确保相同的输入和输出的大小,数据需要充满了0。在卷积操作期间,相同的变换卷积内核并不影响它的重量,重量是共享的x设在数据。这个特性可以有效地降低深卷积神经网络的参数的数量,加快网络训练(8]。
所有在深水中的卷积核卷积神经网络自动特征提取的功能。加速度传感器x,y,z数据是通过卷积核的卷积,卷积和各种细节可以提取每个内核(9]。
让卷积核的高度和宽度fh和f ,分别获得二维卷积:
激活函数使用ReLU函数的输入和输出的总卷积层:
2.1.2。最大池层
汇聚层的存在的意义主要是选择和减少输出的维度。最大池策略,集中核心2×2,让年代步长,核心是池的高度和宽度ph和p ,分别获得最大的池:
通过汇聚层,数据的维数和相应的训练参数可以减少在很大程度上和网络训练的速度可以加快。
2.1.3。完全连接层和输出层
深卷积神经网络连接到完全连接层低于其隐藏层,和通透连接层的数量大于或等于1。完全连接层的存在相当于一个多层感知器,相同级别的所有神经元的连接到所有神经元在上层,和卷积层之间的差异和池层也可以明显的在这一层。信息融合的一部分。把ReLU函数作为激活函数的完全连接层可以有效改善深卷积神经网络结构的性能。输出层接收到输出值从底部完全连接层和连接到不同的分类器根据所需的目标。为了防止过度拟合的情况在传统的小规模数据集训练,常规应用程序经常应用于完全连接层。该方法的随机性导致的相应的网络结构数据集传播每次不相符,但所有共享网络结构的重量。这种方法极大地提高了检测模型的稳定性,使每个神经那么复杂当元素相互适应10]。
深卷积神经网络应用卷积层权重分享方法,同时减少其结构参数和困难和防止模型过度拟合的早期阶段,具有更好的泛化能力,通过池。确保模型的稳定性,网络有不同的特点,使其保持翻译、缩放和变形转换时发生。深卷积神经网络有很强的表达效果和可伸缩性,可以应用于各种困难的问题。
2.2。英语口语发音的语音信号模型
为了实现英语口语发音的质量评估基于卷积神经网络,首先,英语口语发音语音信号模型,并采用多传感器检测方法收集原始数据的英语口语发音的声音信号,然后收集到的英语口语发音语音信号采集。规模进行分解和特征提取(11),英语口语发音质量评价和功能进行检测,和数学模型表达的英语口语发音语音信号给出
的公式,叫做英语口语发音声音signal-received信号振幅的吗n数组元素,有时被称为信封,被称为阶段的multiuniform线性宽带阵列,可以得到的傅里叶变换 ,和的传递函数步英语口语发音语音信号。基于卷积神经网络、英语口语发音语音信号进行建模和检测和识别,信息和言论的数组元素分布抽样 。分离的结果英语口语发音的语音特性计算
的公式, 的瞬时频率估计价值收到英语口语语音信号, 是宽带信号的延迟组件事件数组元素,是信号的高阶统计特征信息,然后呢频移分布。英语口语发音的功能组件信息计算
融合权重更新和输出信号组件 可以表示为
的公式,是最好的顺序接收极化向量,可以任意的实数,和声音检测的阶段是什么 。当 ,它旋转频率轴,从而实现英语口语建模的语音信号的统计信息。
2.3。提取的英语口语发音功能
为了提取英语口语的发音特点,基本网络基于深ResNet101卷积神经网络;为了更好地提取英语口语发音的细微特征,中间的卷积层和池层,通过ResNet批量添加到一层一层地。剩余块调整信息传输策略,加快网络训练速度和促进网络的优化(12]。
批规范化算法应用于批量标准化层,集网络层的处理操作输入英语口语发音检测和处理英语口语发音功能通过microbatch标准化样本。
批处理规范化表示为
的公式,x描述所有的向量中输入某一层深卷积神经网络,和X整个训练样本代表了某种价值。batch-normalized网络的输出可以从使用上一层的输入向量和整体价值。每一层的网络输入的训练集是来自前一层的输出,和模型的参数也会限制输入向量。
优化网络参数时,反向传播算法来获得相对应的雅可比矩阵批量输入向量的归一化和整个训练样本值。这个公式是
批正常化是一个大项目所有层的输入过程,它需要计算协方差矩阵,需要很长时间。在这方面,提出了两种简化的改进方法如下:(1)联合规范化处理每个维度的数据被替换为每个维度的数据由独立批规范化处理,公式如下: 公式的描述的输入样本的维度 ,描述的期望 ,和方差描述 。独立批标准化可以有效地加快网络训练的收敛速度,但它并不能保证稳定的初步描述每一层的网络,导致最初的输入输出特性,不能完整地描述它。为了保持添加批量标准化过程的不断变化,参数和被添加到维度的每个输入样本获得的公式 的公式,和是相等的,都是描述输入的标准差,这意味着什么输入样本的维尺度变换后,和 ,是平等的,都是预期的输入,这表明输入样本翻译之后是什么 。一起使用这个参数模型中的每个参数对网络训练可以有效地保证模型的描述水平。(2)随机梯度训练通过microbatch深进行卷积神经网络的样本,每一层的平均值和方差估计通过计算每个样本,和上述操作可以用来实现梯度的反向传播。
假设microbatch样本来标示B,它被描述为样本大小米,某一维输入一定程度来标示x,dimension-wise规范化表示为
通过以上内容,英语口语发音的特征提取基于卷积神经网络实现。
3所示。聪明的英语口语发音质量评价算法
英语口语发音的质量,本节提出了一种智能评估算法。此外,英语口语的发音特征的筛选和分类。
3.1。英语口语发音的筛选和分类功能
当前英语口语发音评估算法主要依靠语言信号的判断,忽略信号的发音错误校正的作用。由于这个原因,一个以听力筛查和分类方法提出了英语口语的发音特征。使用卷积神经网络学习方法,英语口语发音信号的特征筛选和分类。假设输入英语口语发音语音信号是一个单频信号 ,在哪里英语口语发音的频率,口语发音信号的参考组件检测到第一个数组元素设置为构建误差特性筛选的英语口语发音。模型使用时频特性转换方法的动态检测和特征选择英语口语发音的信号,和米块稀疏的特征量
目标源信号检测方法是用于监控的英语口语发音语音信号的特点,并获得英语口语发音错误的特征分布
,英语口语发音语音信号的特征值提取,和波束形成方法是用来关注英语口语语音信号的特征。因此,深层神经网络检测方法用于检测错误英语口语语音信号的特征。输出是
谐波的发音错误的输出特性量的英语口语表达
的公式,是波束域截止频率,谐波截止频率。统计特性分析方法用于分离的特点英语口语的发音错误,和英语口语的发音错误的输出信息
在英语口语发音错误消息的光谱
当信号的先验概率满足收敛条件,英语口语语音信号的时间宽度的计算方法是:
英语口语发音语音信号的频域特征描述
根据贝叶斯公式,英语口语发音的特征信号筛选,检测输出
3.2。聪明的英语口语发音质量评价算法
为了解决这个问题,现有的系统只考虑,语调和节奏在评估质量的英语口语发音,但不考虑语音情感的影响,导致穷人效应和低效率的评价英语口语发音,PID算法用于提取口语的情感元素在不同的水平。充分的不平衡语料库评价数据,数据的各种元素影响英语口语的发音是提取13]。由于传统的系统研究和提取等常规指标语调和节奏,PID算法的基础上,现有的方法来提取各级英语口语的情感因素14]为了提取英语准确评估质量的英语口语发音。
PID算法是最常见的用于远程操作。假设的实际输出值智能评价算法基于卷积网络英语口语的发音质量 ,固定值是 ,和操作偏差评估算法的计算公式
微分(D),比例(P)和积分(I)评分偏差的英语口语发音质量评分系统是线性组合构成了实验室实验操作的远程操作系统,并且每个发音元素是得分,称为PID算法。在虚拟以现实为基础的英语发音质量评分系统,根据标准的口语发音规则和发音特点,P, I, D操作规则适当结合完成语音情感元素的提取(15]。律法的计算公式
的公式,代表了情感元素的比例系数口语发音;代表语音情感指数的有效性;代表了微分时间常数的完成操作;代表提取所需的时间。自传统的评分系统识别的特征数据是有限的,不能连续操作的特征数据,PID算法用于离散化评分系统中数据的信息。离散化的计算公式
的公式,代表分数偏差为0时的初始值;代表言语情感元素的采样周期。离散化后的数据信息通过PID算法,实现了系统的连续操作,保证语音情感的有效提取元素(16]。
根据语音情感元素的提取结果,定量递归分析方法综合评价质量的英语口语发音,最后获得得分结果。的面板数据建立了英语口语的发音质量评价,并结合定量分析的方法和模糊预测是用来获取面板数据的统计回归分析结果的评价英语口语发音质量如下:
的公式,表示特性的平均值;代表了发音的标准偏差;代表演讲的模糊性特征量。
结合最小成本和最好的教学质量平衡法(17),游戏平衡控制的英语发音质量分数进行了选择和优化水平为因变量,和统计检测数量了
的公式,代表音素竞争子集;代表独立阈值;代表了录音速度。
因此,面板数据统计分析英语口语的发音质量评价模型,和一个游戏英语口语的发音质量评价模型,定义为
的公式,代表的因素影响发音评估;代表正确的元音字母和单词输入。总之,定量回归分析方法和充分样本回归测试分析方法用于实现英语口语发音的质量得分。
4所示。实验分析
为了测试算法的性能,本文在实现智能英语口语的发音质量评价,进行了仿真实验。实验设计与MATLAB 7仿真软件验证正确的英语口语发音,英语口语的发音质量分数和算法的响应时间。结果的有效性和温的方法3和罗等。4)被用作实验对比方法。
4.1。实验数据准备
本研究选择使用阿拉伯数字数据集的实验数据集,其中包含大量的英语口语发音数据。为了减少实验的困难,一个16千赫采样率是用来随机选择13500的数据说阿拉伯数字数据集。具体实验数据信息如表所示1。
英语口语发音信号采样节点的数目是120,特征提取的分辨率是200 KHz,信号输出的英语口语发音的长度是1200,来源的数量来衡量是20,和信噪比的干扰−20分贝。
4.2。实验结果分析
基于上述实验数据准备和实验确定评价指标,一个智能评价实验的进行英语口语的发音质量。具体实验结果的分析过程如下所示。
4.2.1。准备分析正确的英语口语的发音错误
正确的英语口语发音错误检测率数据通过实验如表所示2。
如图所示的比较数据表2,10个实验过程中英语口语发音,本文算法有一个英语口语的发音错误检测率高,最高为96.2%,最低为92.5%,平均为94.58%,远高于引用的比较方法。因为本文方法使用卷积神经网络训练英语口语发音数据,它能改善发音错误检测的准确率。实验结果表明,所设计的智能评估算法的英语口语发音质量有更好的错误检测性能。
4.2.2。英语口语发音的质量分析
后应用设计智能化的英语口语发音质量评价算法,校准发音质量分数数据如表所示3。
如表所示3,本文算法的发音质量得分是8.52点,至9.18点,算法的发音质量分数(3)是6.45点,至7.10点,和发音质量分数的算法(4)是6.31点,至7.35点,这表明本文算法有更好的得分影响英语口语的发音质量。英语口语发音质量分数的准确率图所示2。
图分析2表明,在10英语口语的发音质量实验,平均准确率的英语口语发音本文算法的质量分数为93.5%,平均准确率的英语口语发音质量分数的算法(3)为78.5%。英语口语发音质量分数的平均准确率的基础上,算法(4)为71.5%。实验结果表明,口语发音的准确性本文算法的质量分数较高。
4.2.3。比较算法的响应时间
智能评估算法的英语口语发音质量要求极高的性能响应时间,和教练的发音记录应该尽快输出的话,需要纠正。因此,响应时间也是检测系统性能的关键指标。实验使用100个词数据作为测试数据,不包括收集的时间。从最初的输入结束的英语口语发音质量评价,整个过程。测试的结果对比如图3。
图分析3,可以看出,在英语口语发音的过程中测试100个短语,口语发音质量分数的响应时间的算法在本文2.4年代,和响应时间的英语口语发音质量分数的算法(3是8.2秒。在[4),算法的响应时间的英语口语发音质量得分是6.0 s。实验结果表明,本文算法的响应时间较短,和英语口语的发音质量分数的准确性较高,它可以有效地、准确地认识到英语口语发音的智能评估质量。
5。结论
本文提出一种卷积神经网络智能的英语口语发音质量评价算法,选择一个更复杂的比softmax GMM-HMM模型在最初的CNN训练和识别,并构建CNN-GMM-HMM语音识别模型系统。通过音频识别的特征筛选和分类识别意识到英语口语的发音,和PID算法来提取英语口语发音的情感因素,从而实现准确评估质量的英语口语发音。实验证明,英语口语的发音质量的智能评估算法基于卷积神经网络可以提高英语口语的发音错误检测的准确率和获得有效和准确的发音质量评价结果。
数据可用性
使用的数据来支持本研究的发现可以要求作者。
的利益冲突
作者宣称没有利益冲突。