文摘
目前,有许多智能教学应用基于各种先进的模式识别技术,如登录,课堂行为识别,学生的面部表情识别,和其他系统已逐渐应用于主要的学校。语音情感识别的特点可以分析当前教学的情绪,以便发现教师的规则和细节把握的情感。为了实现情感分类的任务通过机器学习技术在智能教学的过程中,与multifeature融合教学语音情感识别方法,提出了深度学习。该方法前端处理语音频谱特性multifeature融合的方式,并将其与一个人工神经网络分类器,形成最终的语音情感识别模型。首先,语音预处理后,三个特点选择使用网络结构和融合功能训练并行子网。然后,使用的分类器是一种混合神经网络分类器结合卷积神经网络和递归神经网络。最后,100年开放网络课程被用来训练和测试模型。试验结果表明,混合使用multifeature融合神经网络良好的模型具有良好的教学语音情感识别能力。
1。介绍
情感测量在课堂教学一直是教学心理学中的一个紧迫的问题。课堂情绪也很重要,但在教学过程中容易被忽视的问题,这是非常重要的在促进学生素质的发展。目前,大多数教学评价方法仍主要使用人们的主观判断和推论1- - - - - -6]。评价课堂教学质量的方法通过本手册的方法受到不均匀的问题评价基准,太多的主管因素,和可怜的概括,它是不可能拿出更有说服力的数据从客观的角度7- - - - - -9]。与此同时,传统的课堂教学往往只专注于一个或几个教室,而不可能挖出法律的存在优秀的教室从宏观的角度来看。
近年来,大数据和人工智能技术已开始在各行各业的迅速发展。基于人工智能技术的智能教学已得到了广泛的关注。云技术,如登录,教室,智能问答,和图片搜索大大节省老师和学生的时间和精力,改变传统的课堂教学模式。在教学评价方面,人工智能技术还可以用于实现一个更客观的评价的智能教学(10- - - - - -12]。与大量数据的支持,可以保证评估结果令人信服。因此,使用深度学习技术实现教学评价具有重要的研究意义。情感教学是教学评价的一个方面也有一个非常实用的应用价值。
情感教学有一个非常重要的角色在这个过程中智能教学。一个好老师可以准确把握情感教学,可以提高学生的注意力,同时让他们感到幸福和满足,最终使他们享受他们所承担的课程13,14]。然而,情感本身的复杂性导致了缺乏知识关于如何使用情感优化教学指导。如今,深度学习算法的成熟使我们能够有一个更清晰和更客观感知的情感。通过神经网络识别和分析课堂视频,我们可以全面分析教学的特点和缺点的情绪在优秀的教室从宏观的角度来看15- - - - - -17]。蕴藏平台有大量优秀的公开课视频,可以做成一个更标准的课堂演讲后情感数据集专业音频处理。
为了充分探索在课堂上教学情感的特点,从而达到分类的任务教学情感,我们提出一个multifeature融合深度学习方法教学语音情感识别。我们使用经过训练的神经网络来分析和比较更多的公共教室里视频,以便总结当前情感模式的优秀课程。
剩下的纸是组织如下:在部分2详细研究了相关工作,而部分3提供了详细的情感语音信号的预处理。部分4提供了三种特征提取方法的细节。部分5为教学提供了一个总体架构语音情感识别。部分6提供结果和讨论。最后,本文的结论部分7。
2。相关的工作
在1960年代,j.s开花,一位美国心理学家,开始检查emotion-related方面的教学和学习提出了有影响力的情意领域和教育目标分类系统。布鲁姆说,教育是实现发展的基本价值,而不是一个挑战。Ketonen et al (18]提出的教育目标分类理论,基于情感可分为类别。Christelle et al (19)认为,情绪可以被视为一个连续命令根据等级和指出,情感不仅是具象或抽象的解释也无意识的控制很重要。这些研究克服了传统方法无法实践教学评价的影响,使它可能有一个具体的操作方法来评估影响教学。
然而,上述方法描述过于抽象,导致难以实现精确的类别分类由机器没有相关知识。语音信号是最快的、最自然的方式,人类之间的互动。语音情感识别的应用程序来说特别有用需要自然的人机交互,如网络电视、疲劳驾驶、语言翻译、和远程学习。这是因为说话者的情绪状态中起着至关重要的作用在所有方面的沟通。采用语音情感识别的主要目的是调整系统的相应功能,当检测到情绪的声音。目前,语音情感识别系统由两个阶段的20.- - - - - -23]:(1)前端处理(特征提取)中提取适当的语音特性可用的语音数据可用。在语音情感识别每个特性参数只包含语音信号的信息的一部分。为了充分描述语音信号,结合使用各种功能参数成为一个重要的研究方向。如何结合、转换和权衡各种特性参数是一个必须解决的问题;(2)分类器,这决定了潜在的情绪的言论。目前的研究主要集中在分类器的选择。各种现有的分类器的主要类型是隐藏的马尔可夫模型(HMM),高斯混合模型(GMM),人工神经网络(ANN)和支持向量机(SVM) [24- - - - - -26]。这些分类器广泛应用于语音情感识别以个人形式或组合的形式。
解决融合问题的特征参数和分类器的选择问题,multifeature融合的方法是提出了前端处理语音频谱的特点,结合人工神经网络分类器,形成最终的语音情感识别模型。使用的分类器是一种混合神经网络(HNN)分类器结合卷积神经网络(CNN)和递归神经网络(RNN)和实验演示了该方法的有效性。
本文的主要创新体现在以下两点:(1)选择三个功能是基于相似性和互补性的声音特性,使用网络结构和功能融合训练并行子网;(2)提出了HNN分类器,性能优良的CNN部分使用DenseNet图象识别任务,RNN部分使用性能优良的DenseNet LSTM神经网络语音识别和文本注释,这是常用于语音识别和文本注释的任务。两者的结合使其更容易找到数据中的模式与时间序列特性,从而确定目标情绪类更为顺利。
3所示。情感语音信号的预处理
语音信号的预处理包括预加重,短期分析,框架、窗口、端点检测。(1)Preaggravation:语音信号的频谱是由傅里叶变换处理。预加重的主要内容是高频部分,可以确保信号频谱的流畅,从而确保其分析或分析通道参数更容易。(2)短时分析:作为一个整体,语音信号的变化随着时间的推移,它属于一个非平稳的过程,和数字信号处理技术对平稳信号不能用于过程。然而,如果我们看一个短期范围(通常被认为是10 ~ 30 ms),演讲在口腔肌肉运动的频率非常缓慢。因此,演讲的分析和处理都是基于短时间。(3)帧分割:因为在短时间内分析演讲中,信号需要划分和处理。框架通常是10 - 30毫秒,和为了实现平稳过渡,保持连续性,相邻帧通常是重叠的。根据帧长度和步长,所有语音帧的语音段可以获得。(4)窗口:语音信号帧后,常常需要使用傅里叶变化,但然后吉布斯现象发生。因此,我们需要添加窗口处理。常用的窗函数是一个矩形窗和汉明窗。汉明窗函数定义如下: 在哪里N汉明窗的长度。(5)端点检测方法:语音信号的端点开始和准确地发现从一段演讲,和有效的语音信号是分开的无效的噪声信号。
4所示。三种特征提取方法
演讲表达情感,因为它包含参数描述的情感。情感的变化反映了特征参数的差异。特征提取的重点是与因果关系和保留信息消除彼此无关的信息。语音识别的主要特征常用的光谱图,Meier cepstral系数(MFCC)功能,银行(FBank)和过滤功能。在这篇文章中,这三个特性选择教学语音情感识别。
4.1。声音声谱图特征
语音信号是一维信号,直观地演讲在时域的信息可以看到,但不是它的频域信息。因此,本章提取声谱图特征,声音和提取声音的流程图如图声谱图特征1。
帧的长度设置为25 ms,帧转移设置为10毫秒,然后,一个窗口添加到每一帧,在本文中使用的汉明窗。短时傅里叶变换)应用于每一帧窗口。介绍了STFT保留语音信号的时频关系和转换方程如下: 在哪里源信号,是窗口函数,比例因子,是时间。
最后,每一帧信号的转换获得的堆叠从另一个维度来获取声音声谱图特征。
4.2。FBank特性
FBank功能类似于人类的耳朵处理音频,可以优化语音识别系统的识别效果。为了最大化的信息声音信号,得到最好的特征参数,需要提取的FBank功能分割框架和添加窗户,等等的流程图如图2。
Preaggravation指的是利用高通滤波器提高语音信号的高频区域并保持在整个频率范围从低频到高频。高通滤波器函数选择preaggravation过程 在哪里是输入信号,是输出信号,是预加重的因素。是一个值在0.9和1.0之间。在这篇文章中,= 0.97。当提取FBank特性,每一帧的长度设置为25 ms,两帧之间的重叠的长度设置为10毫秒,和窗口函数选为汉明窗。加窗函数后,为了获得信号的光谱能量分布,处理帧信号需要进行快速傅里叶变换(FFT)在以下方式: 在哪里N的样品和数量吗表示我th输入信号的帧。
自从FBank特性考虑到人耳的听觉特性,它也需要变换得到频域特性非线性频谱在梅尔域。梅尔的方程变换如下: 在哪里f是信号频率。
三角形滤波器的数量米并设置 ,米= 1,2,…,米这个过滤器银行的中心频率。这些频率Mel频率轴上均匀分布。频域特性是透过梅尔过滤器银行获取相应的频带能量值为每一帧信号的滤波器。然后,执行对数操作时产生的能源价值最终获得FBank特性。每个滤波器组的对数能量输出计算如下:
4.3。MFCC特征
虽然FBank特性密切匹配的人耳的响应特性,它仍有一些缺点,比如每个过滤器之间的叠加部分银行FBank特性。因此,提出了MFCC特征。MFCC特征可以通过执行离散余弦变换(DCT)的基础上提取的FBank特性,和MFCC特征的提取过程如图3。
DCT服务去除信号在每个维度之间的相关性和信号映射到多维空间。离散余弦变换方程如下: 在哪里lMFCC系数和的顺序吗米是三角形的数量过滤器。
一般来说,以更好地反映信号的动态连续性,静态特性的微分形式可以用来表示动态连续性。 在哪里一阶差分方程表示。二阶差分公式的相关参数可以通过用一阶差分的结果为公式(8)。
5。教学语音情感识别基于Multifeature融合和HNN
5.1。HNN分级机的结构
教学语音情感识别的总体架构由三部分组成,其中前两个构成了HNN。第一部分是一个卷积特性提取器,将谱图作为输入图像的表示一个音频文件。这个特性提取器使用DenseNet [27)对输入图像卷积和合并这几个步骤和地图生成一个传播特性。功能图表示为 一个给定的发声,是原始音频输入和分段声谱图T段的数量。我们获得序列的特征向量 在CNN模块。
第二部分是一个递归神经网络(RNN) [28]。RNN可以处理各种长度的输入,因此不需要音频输入剪辑或填充。LSTM结构选择RNN的地址出现在序列数据长期依赖关系。LSTM学习在一个序列的特征向量 CNN和输出一个序列 。然后,LSTM输出计算的统计数据通过汇聚层。在通常的情况下,只有平均分担。为了获得更丰富的统计信息的输出LSTM网络,我们执行最大池和最小池。LSTM将有128辆。合并过程可以表示如下: 在哪里代表了我th元素 。HNN的网络结构如图4。
5.2。Multifeature声音模型训练
摘要并行子网的网络结构训练用于融合的特性。特征融合的优势是,它可以获得最有效的特性和最小尺寸特征向量集有利于最终决定。并行子网的结构图如图培训5。
特征融合过程训练使用并行,单独的网络三个特性。每个网络由一个HNN和执行三个不同的深加工的特性。一个完全连接层连接之后,其作用是收敛的独立网络的输出使用串联连接形成一个良好的模型。第三部分教学语音情感识别的总体架构由两个完全连接层和一层softmax预测情感类别大小为128,32岁,分别和9。
自本文选择三种不同类型的特性和他们的尺寸是不同的,传统的欧氏距离不能用于直接比较。因此,本文介绍了特性接近和使用维向量之间的间距平均代替欧氏距离来表示不同特征之间的距离。维向量之间的间距平均显示如下: 在哪里 , 表示的意思是间隔和方差区间的平均尺寸的特征向量,分别。 , 表示的向量类的平均值我和j声音特性,分别。 , 表示类的向量的方差我和j声音特性,分别。
6。实验和结果分析
6.1。实验数据来源和预处理
数据的来源是蕴藏100门课程(MUOC)平台的中国大学(https://www.cmooc.com)。在本文中,我们使用基于BeautifulSoup4爬虫Python语言来提取视频连接请求的web页面,然后使用图书馆发送Post请求连接,以便得到视频的下载链接。音频分割使用split_on_silence pydub库中的函数。音频分割决定了演讲者的演讲基于沉默的时间间隔,因此分割音频类的分成很多段根据演讲。100课程爬被分成30000多个音频段音频切割后,并手动标记。带安全标签的数据时的分布如图6,50个教室训练数据集。
可以看出,有一个严重的失衡在标记教学情感数据集的数据。最多的“平静”的标签是10459,占总数的71.52%的数据集,而“惊讶”标签的最低数量只有2,不到总数的0.1%数据集。
因为数据集的分布很不平衡,我们需要一些数据预处理,以确保我们的神经网络有泛化能力,则不会出现严重的过度拟合。欠采样是“冷静”的标签,占总数的71%以上的数据。欠采样操作一个丢弃大量数据的操作,我们随机丢弃数据量的90%左右,留下最后一个样本的1085“冷静”的标签。同样,对于较小的数据集,如“紧张”,“犹豫”,和“满意度”的标签,我们执行一个“过采样”操作。过采样的过程重复比例是积极的数据,以确保数据的数量不是太小,导致过度拟合问题。虽然数据的比例可能改变了过采样和采样后,更好的改进的平衡数据。预处理的分布教学情感数据如表所示1。
6.2。情感识别结果的分析
为了验证multifeature融合的识别效果,本文形成了对比实验通过融合不同的功能组合。因为声谱图特征的维度是相对较大的,其网络结构的基础上添加了一个池层卷积池卷积减少维度。HNN的网络参数设置如表所示2。测试集的错误率比较结果如图所示7。
从图可以看出7、测试我只训练FBank特性识别,所以测试1影响最严重的识别,识别错误率为25.92%。测试二世是基于MFCC特征的介绍FBank功能训练,和识别效果略有提高,识别错误率低于0.41%,测试即测试三世介绍了声音声谱图特征的基础上,测试即识别效果也有所改善,和识别错误率降低0.86%测试即测试VI介绍MFCC和声音声谱图特征测试。分析试验结果的基础上,我们可以得到测试VI的识别效果是最好的,和它的识别错误率降低了1.28%,0.87%,和0.42%,分别比前三个测试。从整体的识别结果,可以获得与multifeature HNN声音模型融合具有更好的教学语音情感识别能力。
6.3。教学情感分布格局
本文基于获得的数据,课程分为以下六大类根据他们的情感特征:平静的课堂,探究课堂,课堂问答,鼓励课堂,激动人心的教室,教室和平衡。教学情绪的识别之后,100年课程的类别分布如表所示3。
几乎所有的教室都是由一个情绪:“平静”的情感。换句话说,目前几乎所有的教室都是老师带着教室。只有三个研究性课程,教师带领的英语课程的比例低于50%,是真正的学生。教师应该探索更多的方式来引导学生,真正让他们教室的主人。
7所示。结论
在这篇文章中,我们融合FBank特性,MFCC特征,和HNN网络培训良好的谱图特征,从而建立一个multifeature声音模型。融合过程使用独立parallel-style子网培训,其次是通过完全连接层常见的训练。使用的HNN分类器是一种混合分类器结合CNN和RNN。从实验结果得出结论,识别影响模型的优化与提高熔融特性。通过培训教学语音情感识别模型,我们可以实现快速识别和分类的情绪智能教学过程。然而,研究具有一定的缺点和需要改进:(1)产生的数据集在数据内容太多的不平衡,这是非常不利于神经网络培训;(2)只有50课堂测试数据集产生,但他们仍然对大规模训练不足。数据和神经网络模型有很多改进的余地和修改。
数据可用性
原始数据支持了本文的结论将由作者提供,没有过度的预订。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。