文摘

为了解决的问题太复杂语音提取算法和表示能力不足在英语口语教学中,提出了一种基于多通道融合演讲评分机制。首先,进行特征提取的多通道音频和视频,和多通道语音错误检测模型提出了LSTM-CTC;MCFF的距离,体积强度,和音高跟踪计算的DTW算法,和演讲评分模型。条件下的实验结果表明,没有噪音和强烈的噪音,多通道语音检测可以达到更好的错误检测效果,及其系统分数接近实际情况,从而为英语口语教学方法提供新思路。

1。介绍

口语发音是英语能力的重要体现。发音的准确性决定了沟通的顺利程度,和发音习惯在中国地区有着极大的差异。有129种方言由国家认可。虽然我国高度重视英语学习,我们也鼓励学习英语,但普通话和方言的发音习惯影响学习正确的英语发音(1,2]。英语口语教师在他们的教学容易犯错误。以来科学技术水平取得了举世瞩目的进步,它已经导致了高涨的在线语言教学,但大多数的在线教学不会检查学生的发音和指出他们的错误。实现自动纠错可以检测出学习者的错误的发音和为他们提供反馈,方便学习者的口语学习和具有实际意义。

英语口语教学是一个巨大的多维的评价工作。大部分的现有评价方法只能形成定量评价组件值(3,4]。机器学习的快速发展,语音识别和口语教学评价逐渐整合。从机器学习的角度,音素发音错误检测(PED)可以被视为一个二分法的问题,即确定音素的发音是正确的。因此,许多研究人员设计和改善PED系统从分类器的角度。钱(5)和其他人用英语PED声学建模进行了研究。与知识和数据驱动的语音规则相比,该方法可以获得更好的语音错误,但有一个更高的计算成本;李(6)和其他DBN代替高斯混合模型用于检测水平这个词的发音错误,对齐的一种非语言样本和至少一个母语样本,并提取特征描述位错的程度从对齐路径和距离矩阵。系统的性能提高了替换无监督MFCC的输入或高斯映射后与DBN后地图。此外,基于深度学习的多通道语音识别的研究也逐渐展开。野田佳彦K et al。7)结合去噪与CNN autoencoder提取视频特征和音频特性,分别,这提高了识别系统的可靠性和健壮性。胡(8)提出了一种新的多通道深度学习架构称为循环时间多通道遏制,哪些模型多通道序列通过将连接MRBN序列转换为概率系列模型,这是更容易和高效学习融合功能。

目前,大部分的自动PED只依靠语言信号,忽略PED视频信号和误差修正的作用。因此,它是有意义的整合语音信号和视频信号实现端到端多通道PED。

鉴于上述研究背景,本文深入研究在多峰性,纠正发音,教学质量评估。多通道的英语PED模型提出了基于音频和视频和评估教师的英语口语教学。

2。多模式特征提取

2.1。音频特征提取

许多研究人员指的是人类听觉系统并提出了Mel频率密切相关的声音,这是非线性的共同声音频率(赫兹)。MFCC特征提取方法使用这个关系在梅尔频率倒谱系数计算域。MFCC特征提取过程包括preweighting、框架窗口,快速傅里叶变换,Meyer过滤器银行,离散余弦变换,动态特性等。9]。其中,快速傅里叶变换和滤波器组是最重要的两个过程,主要扮演的角色特征降维。图1显示了MFCC提取流。

一些音频数据集不清楚是因为录制或保存问题。需要手动删除不合格的音频一个接一个,以避免不良对检测结果的影响。音频数据的格式统一设置为WAV文件,采样率设置为50千赫,通道是一个双通道。在预处理阶段最重要的一步是强调音频信号的特点和删除多余的部分促进随后的音频特征提取。因此,预加重、框架和窗口是不可或缺的。与传统的声学模型相比,复杂的强制对齐过程可以被遗弃在预处理阶段。

预加重后,需要对语音信号分为帧。摘要帧长度是25 ms和移码10 ms。事实上,声音信号是由一个固定长度分割窗口,有一个15 ms重叠两个相邻音频帧的动态过程模拟的声音。帧之间仍有翻天覆地的变化,因此有必要添加窗口帧分割后的信号。

2.2。视频特征提取

视频特征提取的目的是获取视频功能,这有利于发音检测和纠错。视频是一个动态的信息,所以很难直接提取视频。主流方法是将视频转换成连续的视频帧,和动态信息的视频是由连续图像帧信息。视频特征提取是提取的本质特性的图像帧。扬声器发音时,嘴唇部分语音检测提供了最大的帮助,所以最重要的部分图像帧特征提取是提取嘴唇的特性。

为了消除噪声的影响在视频帧识别结果,有必要消除干扰分段视频帧获得视频帧包含面对信息的设置。

2.2.1。视频帧

视频数据帧处理分为两部分,第一部分是确定的区间视频分割和第二部分是确定视频分割区间。流程如图2

视频时间是T(秒),分割速度 (帧/ s),因此,视频帧的数量N可以获得。分割视频帧的数量和顺序在唇读的预测非常重要,因为一组排列的视频帧序列,序列和数量或错误将影响性能的动态信息。分割后,每个框架都有一个数字号码的数字视频帧数据集必须安排的顺序从小型到大型,和不应该有错误的订单或少订单,否则,相应的音频和视频信息在时间序列之间的关系将受到影响。

2.2.2。归一化

人脸检测是进行这些视频帧来消除不合格数据,然后嘴唇特征被提取。最后,提取的唇要点标准化保存视频功能。有必要获得较低的视觉表示元音元音的发音。因为基于像素视频特性和混合视频的尺寸特性是相对较大的,和计算过程相对繁琐,本文选择基于模型的视频特征提取方法,在一个级联残余构造回归树获得真正的脸型。每个叶子节点剩余回归树的每一层都有一个剩余回归量。因此,面对对齐可以通过叠加所有残差(10]。

为了避免造成的不利影响演讲者倾向的嘴唇,嘴唇的左派和右派要点detilted,所以线连接的两个平行的水平线,以确保每一帧的嘴唇是垂直的。如图3嘴唇倾斜时,两点之间的线和水平线形成一个夹角,以及所有关键点在相反的方向旋转,可以认为唇形象已经挺直了。下一步是规范化嘴唇大小。点左边的唇,点右边的嘴唇是B,在上唇C,下唇上的点D

点C的规范化坐标表示下列方程所示。 在这里, 代表了规范化的坐标点C,剩下的点信息的规范化。20关键点的唇规范化这样,最后的视觉特征向量包含规范化信息20要点。

2.3。特征融合

多通道融合的互补性可以利用不同的模式来获得更好的融合特性比单模特性。融合功能的使用可以提高深度学习模型的泛化能力和具有较强的鲁棒性。本文采用联合使用的特性融合框架,如图4。音频和视频的融合特征是通过级联特性向量。

多通道联合架构可分为添加剂加入和乘法加入。所示的添加连接以下方程: 在这里, 代表不同的单模信息输入, 通过这种方式,可以转换成不同的模式的语义空间,和级联特性有不同的模态信息。

所示的乘法连接以下方程: 在这里, 代表外积算子。

3所示。基于多通道融合口语评分机制

3.1。PED模型

摘要提出了一种多通道语音错误检测LSTM-CTC模型基于唇角。在音频和视频功能是由前面的方法,提取输入到网络模型。因为可以递归神经网络的预测下一时刻的状态根据之前的状态,在多通道语音识别是必要的,每个音素的识别上下文密切相关,有必要预测当前音素音位的先前的时刻和下一个时刻。然而,由于RNN容易梯度爆炸和梯度消失,时间信息被长期和短期记忆网络,和国家的上下文可以同时捕获。

3.1.1。BiLSTM模型

首先,本文构造双向LSTM网络模型学习音频和视频功能和输出音素的后验概率。其中,激活函数LSTM单位采用双曲正切函数,表示为

LSTM的结构主要由忘记门,输入,输出,忘记门在哪里如下公式所示: 在哪里 代表乙状结肠的函数值。 代表权重矩阵, 代表LSTM神经网络的输出前面的层, 代表输入, 代表了偏移量。的值 元素范围从0到1,表明遗忘的程度,0分代表忘记,1表示所有的记忆。

输入门所示(7)和(8), 代表输入的数量和状态 代表的选择 忘记门和输入门确定当前的状态信息神经网络层,即(9)。

输出门所示(10)和(11)。

BiLSTM结构是指在LSTM,当前时间不仅是连接到下一次,也连接到前面的时间,以便更好的获得序列之间的联系通过信息的双向传输。

音频和视频功能,预测每个音素的发音的影响前一时刻和下一个时刻的状态。双向LSTM可以更好地获得音频和视频的上下文关系融合特性,因此选择双向LSTM建模。音素参与这个数据集的数量是40,这CTC可以识别连续相同的音素。因此,在将Softmax输出层节点的数目双向LSTM的顶层是41岁的后验概率输出音素序列。

3.1.2。CTC训练模型

联结主义的分类(CTC)算法是神经网络的优化方法损失函数。为了确保每一帧语音识别需要反复训练,有必要对每一帧进行反复训练。CTC使用端到端模式,它只需要输入和输出序列,然后将输出序列的概率预测。

CTC的输入长度大于或等于输出长度。假设输入序列的长度xTyt是输出向量归一化,将Softmax层,网络的概率输出标签k在时间T(以下公式所示11]: 在哪里 的k元素吗 这样的概率 可以表示为一个输出路径的

考虑到目标序列y,P(yx)可以表示为(14),因为一个多对一的关系y 在这里, 从一个映射到吗y, 的逆 映射函数首先合并相邻重复类,然后删除空类,即给定标签序列y。CTC被定义为目标函数

CTC解码概率最高的是找到序列在给定的输入和输出序列,如以下公式所示:

3.2。演讲评分模型

MCFF、体积密度和音高的演讲获得分数,和三个标准语音和测试语音的特征参数得到,分别。DTW算法用来计算三个特性数据的距离在两个演讲。距离越大,语音相似性越小,距离越小,相似度越高。根据这个距离,两个阈值可以设置为获得相似的得分。经过反复实验,最终得分公式如下:

其中, 可以得到很多测试数据。我们使用一个发音,非常类似于标准发音(如90%)。作为测试的演讲中,它们之间的距离约为2.5,声音非常类似于标准的语言(如20%),它们之间的距离大约是11,我们可以得到的价值

dis DTW算法计算的距离,和sim卡是两个语音的相似。自三个特征参数用于获得最后的相似性得分,语音预处理后,MFCC的三个特点,体积强度,和音调追踪,分别计算,然后dis1距离的三个特性参数,dis2, dis3的计算。最后得分的结果可以得到以下公式:

其中, , , 代表MFCC的重量、体积强度,分别和音调追踪。这三个特征参数的重量如下:MFCC的重量 强度为70.15%,体积重量吗 是7.45%,距跟踪体重吗 是22.40%。

4所示。实验和结果

4.1。分析的训练模型

没有噪音的情况下,语言的语音识别训练过程模式,基于多通道融合的多模如图56

从上面的结果,我们可以看到,与模型的迭代次数的增加,减少了训练集的不足,训练准确性同样是沿着。没有噪音的情况下,该模型在大约180次迭代收敛。然而,在噪声的存在,多模融合逐渐收敛在第350回合,随着迭代模型的数量的增加。然而,在单模的声音,有一跳,收敛是不稳定的。收敛性的两种多模融合几乎没有差异,这表明多通道模型有一定的抗噪声性能。在嘈杂的环境中,提取的音频特性是复杂的,包含太多的噪音,很难准确地识别。因此,提出了多通道特征识别率不受噪声影响的特征识别的视频。

模型训练经验后,声音和视频语料库的错误被带入上述模型准备额外的行动PED的精度。结果如图所示7

在没有噪声的情况下,演讲中模式识别中扮演更重要的角色。因此,在没有噪声的情况下,一个单模识别率和一个角特性融合低维度比有更好的识别率。基于多通道特征融合方法,它有一个更高的错误检测率圆唇错误传播,这可以看出角特性的引入可以提高发音检测的准确性。

4.2。演讲评分的影响

部分数据从40名学生(男性和女性)被测试了单音节的,two-syllabic,多音节的英语单词。Stul-Stu3指的是数据的三个随机选择的学生测试单音节的词,和测试单词随机选择从30单音节的单词列表。Stu4-Stu7指的是数据的三个随机选择的学生测试双音节的词,在每个学生的模仿单词也随机选择从30双音节的单词列表。Stu8-Stul0指随机选择4的学生进行一个多音节的词测试,和每个学生模仿单词的随机选择30多音节的单词列表。人工评分代表10个英语专业的学生的平均分数分数的学生模仿发音,系统获得的分数代表了相似性分数系统后学生的模仿。Stul、Stu2 Stu8选择进行分析,结果如图所示8

为了分析是否存在任何区别系统得分和手动评分,一个独立的样本t以及与得分形式(系统进行年代和人工)因素。首先,假设是定义测试和测试水平。H0:μ1 =μ2,没有区别不同的得分形式对学生的成绩水平。H1:μ1≠μ2意味着没有区别学生的分数。独立样本的结果t以及如表所示1

从表可以看出1样本的平均值基本上是等于样本的美国独立样本t以及显示团体(F = 0.269,大于0.05,方差是均匀的,和相应的双边测试 = 0.739大于0.05,这表明之间没有显著差异的样本和样本年代在0.05的水平。因此,假设H1被拒绝,也就是说,没有区别样品和样本。

通过上面的数据分析手动评分和评分系统,可以看出,无论对单音节的,双音节的,和多音节的单词,系统之间的相似度结果得分和英语专业的硕士得分不不同,基本上符合人的主观感受。一般来说,相应的测试后,系统基本上是合格的,可以满足的要求比较的中学英语单词和声音,这有利于学生更好的学习课后的英语单词的发音。

5。结论

多通道音频和视频提取的特点,提出了和口腔PED LSTM-CTC多通道模型。通过BiLSTM模型实现特征学习和分类,CTC是用来检测发音错误。实验结果表明,在多通道语音错误检测,它可以实现更好的错误检测效果的情况下没有噪音和强烈的噪音,产生了积极的影响在错误检测精度的提高,有系统的得分无显著差异和英语的主人。

在未来的研究中,我们将关注互动的教学方法,如将虚拟现实技术应用于多通道英语口语教学。

数据可用性

数据集用于支持本研究可从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的“青年创新人才项目(人文社会科学)广东省教育部“项目号码是2018 gwqncx161。这是支持的“教育教学改革项目广东省医疗卫生高职院校的教学指导委员会,“项目号码是2021 lx082。