文摘
使用计算机来帮助人们练习口语是一种常见的方法,但是目前存在一些问题。首先,因为流畅特性计算根据专家知识,关键信息包含在原始的数据集可能会丢失。其次,优化每个模型的参数分别进行模型的性能处于最优状态。为了解决这些问题,英语口语流利评分方法提出了基于卷积神经网络,为了使特征提取考虑短期,中期,和长期的语音信号的特征;摘要卷积三层叠加,共同学习从原始时域信号特征提取和评分模型的输入。在特征提取过程中,我们应用主成分分析有用的数据提取的音频特性。实验结果表明,该方法的评分结果更准确。
1。介绍
计算机辅助教学(CAI)是一个各种各样的教学活动进行的援助下电脑。这对话方式与学生讨论教学内容,进行教学培训。CAI可以为学生提供个性化的学习环境,全面使用多媒体,人工智能,教育数据分析,和其他计算机技术。CAI可以缩短学习时间、提高教学质量,实现最优化的教学目标。近年来,计算机辅助语言学习,作为非英语学生的方法提高他们的英语口语能力,引起了广泛关注。给予宝贵的指导输入和进一步发展得分效率,需要一个以计算机为基础的自动评估模型来评估质量的非英语发音,流利,他们容易和特定的错误。
英语学习者(魔法)microeducated学习英语的学生,通常来自非英语家庭或背景。全球一体化的加速,为人们掌握英语已经成为一项必要的技能。因此,英语学习者的数量的增加,教育工作者面临的考验如何更容易满足这些替补的推进必需品,因为几个英语学生在利用经验问题和英语,这可能会阻碍他们的学习成绩,尤其是在儿童英语教学。本文提出一种神经网络援助儿童英语的方法。过去工作程序评估青少年口腔浏览熟悉包括评分系统在文章或单词级别的水平上。open-finished说作业的过程是用来评估风格以及语言内容的理解和利用。ASR的孩子们开放的话语更加困难比成人的话语,有些复发的巨大范围和时间可变性年轻人的话语,使声显示更多的麻烦。尤其是在l形数据,强调或念错单词,以及学生的任务的不确定性,往往导致犹豫,口服噪音,和不清楚的发音,这是额外的挑战提出了评估系统。
大多数自动评分系统对英语口语流利主要包括ASR的一部分,流畅的一部分特征提取和评分模型的一部分。ASR创建time-adjusted输入语言的词汇。过程中提取流畅性特性,本文选择特性高度相关的英语口语流利,和各种评分系统的特性进行了研究,其中长时间沉默,沉默时间,电话持续时间是正常的特点,英语流利(1]。由于每个特性的不同贡献的最后得分,所使用的特征选择技术通常只能选择几个重要元素。
最近,基于计算机科学的教学框架已经是炎热的探索主题域的软件工程和教育2]。尤其是在巨大范围的语言评估,他们已经开始逐步取代老师在检查和教育地区变成了一个明显的变化,被称为调用框架(3]。许多计算机科学评估框架已经使用了一个巨大的范围在现实教育和评估,例如,英语和计算机科学项目冲压件检查框架框架(4]。这样的框架是更精确的评估,最重要的是,他们节省人力资源和进一步发展的有效性5]。尽管如此,一些考试的问题在许多口语等课程也取得了目前教师(6]。有很多口语评估框架研究和再次指;然而,没有许多评估框架open-finished口头询问,例如,测试,裁员,和个人的反应。纵坐标和演讲专家评分框架被视为普遍的实例使自动化评分;尽管如此,他们不解决这个问题open-finished讨论问题(7]。最近,话语承认创新的进步和博览会检查框架的发展,是很正常的,事实上open-finished谈论问题的编程冲压可以幸存下来,到达地球水平(8]。有一些真正的情况下,重要的是要评估一个演讲者的口语发音能力,例如,普通话测试,口语准备,语言表现评估,和电台主持人测试(9]。到目前为止,这些情况尚未评估人工评分,例如,平均,投票,或团体发起投票,这是过于情绪化,经常需要合理性,不给目标扬声器的输入(10]。传统的口头评价是低效的,对于口语,有很多隐藏的问题存在于口头表达;这些问题的存在在一定程度上可能导致学习者的学习效率(11];为此,方法基于谱密度值在时域和口头评价模型的认知域的分布提出了,并取得了良好的结果(12];此外,一些学者使用深度学习口语的质量评估(13),通过实验验证,该模型基于深度学习比传统模式更有效14]。然后,基于深度学习的综合评价体系模型和HMM模型建立(15]。此外,一些学者对口语通过基于树模型(16],学者们发现,当训练数据集的规模足够大,这些模型的输出结果是几乎相同(17]。同时,学者们提出了一个自动评价英语口语没有主观因素的算法,并通过实验数据验证其有效性(18]。其他一些学者构建了一个新的LSA模型来分析英语口语质量评价(19]。争论的要点为模型明确的文本的正确测定是身体上和一般的评估增加的影响(20.]。增加文本的本质是估计通过增加文本,直到到达一个极限的影响21]。文本的选择,有三个选择:不规则的选择,分组,或选择适度比较文本标记信息。克莱因的战略的好处是,应该可以选择物理标记的文本因此至少努力。该技术的缺点是明显的评估其有效性,必须完成后手动完成总解释的替补的反应。一个问题是,技术自治的边界;语义空间方面和肖像极限边界确定。
2。方法
英语口语质量评分系统在图描述1;首先,输入的原始语音信号转化为一系列的特征,然后基于专家经验和培训评估模型ASR系统,最终输出分数;在本文中,我们使用PCA处理原始输入数据,然后利用CNN训练特点,最后得出一个更有效的模型。
2.1。主成分分析
主成分分析是一种多元统计分析方法,它被广泛用于数据降维、信号处理、模式识别等领域(22]。在保证计算精度的前提下,主成分分析可以明显降低计算成本,消除冗余和提取数据的主要特征。让样本集 。基于最大可分性原理,采样点的投影超平面的新空间 ,在哪里是投影矩阵。
样本点的方差背后的投影点 。如果所有采样点的投影尽可能分离,采样点的方差投影后应该最大化。因此,优化目标可以表述如下:
散度矩阵;是单位矩阵的顺序 。使用拉格朗日乘子法对方程(1): 在哪里是散度矩阵。为了获得的最大方差投影采样点,散度矩阵需要由特征值,来分解得到特征值排序如下: ,的最大特征值对应于第一个主要组件,等等,我们可以获得第二个主要组件,第三个主要组件等。主成分的数量可以获得的累计方差贡献率的方法。的贡献率主成分和累计贡献第一个主要组件,分别定义为:
2.2。卷积神经网络
在本部分中,CNN的结构模型,如卷积层、汇聚层、连接层,和批处理规范化,简要回顾了23]。整个CNN模型的示意图如图2。
2.2.1。褶积层
卷积层神经网络的重要组成部分之一,它的功能是提取的特征数据输入从输入层通过卷积计算。卷积的过程中每一个运动特征值此时将由加法计算通道,和具体的计算公式方程所示(4)。 在哪里是非线性;代表线性卷积;偏差。
2.2.2。汇聚层
汇聚层的功能是选择和过滤从卷积的层,提取的特征信息,以防止过多的数据影响网络的运行速度和消除噪声的干扰。功能收缩的大小通过池层。
2.2.3。完整的连接层
完整的连接层的功能是将前面步骤中获得的特性和转换的输入特征向量通过应用仿射变换,如下所示: 在哪里和是 - - - - - -分别th权向量和偏差。是非线性和利用类的概率年代的在最后一层。
2.2.4。批正常化
不同层正常化,水平正常化,批正常化是垂直的正常化。归一化的目的是使每个神经单元在同一层的方向一批具有不同的均值和方差,以防止梯度的产生爆炸。
2.3。该方法
2.3.1。自动评分的英语口语(美国卫生工程师协会(ASSE))
ASSE是用来给提出了分数未知的质量和公式所示(7)。
2.3.2。根据CNN评分模型
在这个工作中,建议采用以下特点和方法参数 ,和(n维整数向量代表原始时域语音段 )。
为了使特征提取考虑短期,中期,和长期的语音信号的特点,可以叠加三层卷积。如图3,将softmax层地图的概率输出所需的分数。
3所示。实验和评价
3.1。实验环境和数据集
本文的实验环境是MacBook Pro笔记本电脑,MAC 0 10.14.1系统,计算机硬件是I7 2.5 GHz处理器,16 gb的ram。实验中实现Pycharm使用Python 3.7编程语言的开发环境。TensorFlow使用的是版本1.8。采用的数据集是学生英语的口语测试数据集类的文科学院,中国人民大学从2015年到2018年,共有32364块的数据。每一块音频数据的长度从30 - 60秒不等。每个学生至少有两块的音频数据,和示例数据内容如表所示1。
在这里,75%的数据被选中作为训练集,剩下的25%作为测试集来评估性能。从训练集,500年的数据项被选择并取得雅思口语考官。每个句子被四人在一到五的规模。评分标准主要基于流利,发音和语调,语法用词,句子的含义,和准确性,5是得分最高的1的得分最低。表2显示了皮尔森的评级机构之间的相关性。
3.2。美国卫生工程师协会(ASSE)的结果
本研究的范围内,我们选择不同的CNN模型进行比较。表3列出了CNN模型的实验结果和配置。我们希望证明我们提出的模型通过CNN网络的优越性与不同的层次和不同的内核。卷积层由conv表示,完全连接层是由俱乐部。1 M_17代表17模型我们已经上市。其中,第一批八款车型配置为一个卷积层在本文的实验。第九,第十,第十一模型被认为是两个卷积层;剩下的五个模型包含三个卷积层。
在本文中,我们利用皮尔逊相关系数作为评价指标对模型的优缺点进行比较。我们可以看到在桌子上3,通常这种相关性增加比例与核的数量和层次。特别是M_16和_17之间的相关系数达到0.95。M_17相关性最高的0.9670;结果表明,我们建议的方法得到一个优秀的测试数据集。
3.3。流畅性特征和可视化
语音功能更直观,三个卷积的输出层网络中从一个学生的口语音频,得分1、2和3,分别是可视化如图4- - - - - -6。每个句子都是作为训练模型的输入和输出的进化层是可视化。数据4- - - - - -6获得评分1 2和3,分别。
数据7- - - - - -9显示在“M_12卷积的输出层。“在第一层的核心,“conv_1,“它几乎已经学会计算能量,就像原始输入的特征。在某些方面,能量特性高度相关演讲时间和沉默,沉默被认为是流利的以知识为基础的方法的一个重要特征。
(一)
(b)
(c)
(一)
(b)
(c)
(一)
(b)
(c)
4所示。结论
为了使非英语学生学好英语口语,并能够使用统一判断分数学生英语口语,基于原始时域波形作为输入,提出了一种利用主成分分析法(PCA) CNN口语评价方法结合特征选择和预测模型参数优化。方法全面评估学生的不同方面的英语口语最后获得学生的口语成绩。在实验部分,该方法的性能评估通过使用现有的数据集,找到最优的结构,和方法的验证。
数据可用性
本文使用的数据可从相应的作者。
的利益冲突
没有利益冲突,作者对于这个工作。