文摘
在基础教育,及时、准确掌握学生的课堂学习状态可以提供实时的信息参考和综合评价对教师和管理者而言,它有一个非常重要的教育应用价值。目前,大量的信息技术应用于课堂学生的行为状态的分析,和国家分析技术基于课堂视频具有很强的时间性的特点,宽尺寸,大容量,特别适用于分析和采集学生的课堂状态,主要教育技术公司和吸引读者的注意。然而,当前学生状态采集技术基于视频分析缺乏大型场景和实用性较低,最后,基于视频的学生课堂行为状态分析技术主要集中在一个单一的行为特性,不能完全反映学生的课堂行为状态。鉴于上述问题,本研究介绍了基于学生课堂视频人脸识别算法及其实现过程,提高了混合基于传统模型的人脸检测模型,并提出了学生表情识别的神经网络算法基于视觉变压器。实验结果表明,该算法基于学生的课堂视频可以有效地检测学生在课堂上注意力和情绪状态。
1。介绍
教师和行政人员一直难以跟踪所有学生的课堂学习。在传统的教育中,为了更好的教育学生,教师进行课外分析通过传统方法如教学日记、教学文件、观看视频、作业分析,然后根据结果(提供解决方案1]。然而,传统的课后分析方法不仅增加了教师的负担,也很难保证全面性、客观性、实时的分析结果。随着经济的快速发展和教育信息化的不断推广全世界所有国家,教师迫切需要一个智能课堂学习状态分析工具帮助教师学习状态的学生在课堂上,处理和显示课后教室的整体状态,然后反思和改善他们的教学过程2]。智能分析方法具有重要的现实意义为提高教师的专业水平和学生的学习效果。
近年来,教育在大多数国家已经从精英教育转向大众教育。的广泛普及教育旨在提高教育的质量在整个社会。课堂学习的评价体系一直伴随着大众教育,但学生的考试成绩往往作为绝对的标准进行评估。因此,我们只知道结果的质量,但不知道结果的原因,我们无法找到适当的调整方案,提高教育质量(3]。学生在课堂上认真记笔记,积极与老师沟通,这反映出老师的教学内容是有吸引力的。相反,学生低下头或看窗外的风景与消极的面部表情很长一段时间。这些国家表明他们不理解的内容类或不集中精力,间接表明,教学方法不能吸引学生。通常,学校管理者不考虑学生的表现在课堂上,只依靠学生的分数和领导人检查教室的情况。这种单方面的评价教师的教学质量并不准确,也不能帮助教师了解学生的实际学习情况。因此,在这种情况下,学生的课堂教学过程的分析听教育的地位是至关重要的(4]。
原因有很多学生学习效率不好在课堂教学的过程中。作为接收知识的主题在整个过程中,学生的学习状态类可以作为一个重要的评价指标研究的学生在课堂上的学习效率。同时,它也是教师实现有效教学的关键因素。老师希望掌握每个学生的课堂学习情况全面、准确地在课堂教学过程中,使相应的调整教学内容和教学进度,从而达到更有效的教学目的。一般来说,如果一个学生听老师仔细,他大部分的注意力是为了老师上课;也就是说,他抬起头,倾听老师和他的情绪状态集中。
现有教室监控摄像头是安装在教室的前后。通过分析从摄像机获取的图像在教室前面,可以判断学生的听力状况。在课堂上学生学习状态的检测场景分为两个步骤。首先,发现学生的头的位置,然后,头部状态的学生进一步确认是否头抬头听老师或低头看手机或做其他事情5]。然而,目前,许多教师理解学生的课堂学习情况通过课堂观察和提问,这常常会导致信息传递和反馈滞后、片面性的教室。特别受欢迎的智能手机和平板电脑等电子设备,出现了大量的“phubbers”在课堂教学6]。因此,结合统计分析,学生在课堂上“抬头率”和智能算法分析学生的情绪状态可以判断学生的课程集中在某种程度上,从而帮助教师有效地提高课堂教学效率(7]。
2。相关工作
学生的学习状态是学生课堂学习效率的一个重要指标。学生课堂学习的状态通常是指学生是否抬头看教学内容很长一段时间,积极与老师交流,是否仔细做笔记,以及他们的面部表情是否在积极或消极的状态(8]。可穿戴设备侵入性在某种程度上,将不可避免地对研究对象有一定的影响。获得的数据有差距和学生课堂行为的真实状态。此外,可穿戴设备昂贵,规模大,在穿着的过程和复杂,所以很难推广他们在实际课堂教育9]。随着智能设备的快速发展,另一种方法来收集视频,图像,声音,和其他数字信号通过摄像头,麦克风,和其他设备已成为广受欢迎的。这个方法从这些数字信号中提取信息,如学生的面部表情、自然语言和身体语言,最后过程,分析,和整合这些信息得到学生的课堂行为状态。教室里学生状态分析技术基于视频图像的摄像系统,只需要使用教室的低成本和微创和几乎没有影响学生的学习过程(10,11]。通过人工智能算法,学生的学习状态可以实时进行分析,全面、多维。通过上面的分析,学生的课堂行为、情绪状态、学习状态,和其他情境信息的类可以被智能监控设备和移动学习设备。因此,当前的智能教室获得学生的生理信号和行为通过各种设备状态数据,然后收集并分析这些数据来获取当前学生的课堂行为状态,以便更好地把握课堂情况,及时调整教学策略,提高教学效果。(12]。
随着研究的深入,学者们分析了研究现状的分析,学生的课堂行为状态从两个方面,生理信号和视觉图像,根据不同的方法收集学生的特点。生理信号是指当人们的内心情感变化,身体或大脑会发送一个或多个生理信号;通过收集和分析这些生理信号,如脑电图信号,EMG信号,皮肤温度,和眼睛的运动,一个人可以知道当前学生的情绪和心理状态13]。Nourbakhsh et al。14)提出了检测学生的认知负荷水平通过分析皮肤信号在时域和频域。他们收集了皮肤信号由学习者在完成学习任务的过程中产生不同的实验的困难,然后分析这些皮肤信号在时域和频域。通过比较皮肤的光谱特征信号在不同的困难的学习任务,我们发现皮肤最好的信号的频域特性识别能力情感认知范畴。詹(15)联合瞳孔大小,眨眼频率,与面部表情和眨眼频率,构建学习者的情感状态的识别框架。智能教学代理评估学生根据唤醒维度,兴趣维度,和快乐的维度框架,然后做出相应的认知反馈,如知识点建议和学习建议。结合学习者的眼动跟踪和面部表情识别可以启用智能教学代理更准确地识别远程学习者的情感状态和认知状态。Sinha et al。12)提出了使用脑波和其他生理信号跟踪和检测学习过程中学习者的认知和情感状态。这种方法使用脑电图(EEG)波信号来评估学习者的困难理解学习内容,并使用心率变异性和该信号通过皮肤电极收集评估学习者的情绪状态,是与学习者当前的学术表现。朱et al。16使用智能腕带的可穿戴设备提取学习者的生理信号,收集和分析学生的书写状态和心率活动通过智能腕带,然后获得学习者的认知现状。该方法采用multisignal综合判断的方法,所以结果是相对准确。所有上述研究需要获得学习者通过可穿戴的生理数据收集设备和分析学生的课堂行为状态通过使用不同的生理表现人们在特定的状态。由于生理信号的准确性和特异性,可以得到非常准确的分析结果。然而,由于复杂的使用可穿戴设备,测试人员将建立一个心理预设和知道他们是处于测试状态,这将影响结果的客观性的生理信号分析(17]。此外,成本、大小和部署要求收购可穿戴设备很难这样课堂行为状态分析方法被广泛应用。
图像识别的发展取决于图像设备的进展(高清摄像机等智能设备的进步促进了图像识别的研究进展)。整个过程有很多工作和许多链接,所以最后的结果常常是偏见甚至是错误的。随着研究的深入,基于视觉图像的智能分析方法正在增加。在这种方法中,视频图像首先被相机,然后,将数据输入到算法识别、记录和分析学生的表情,姿势,头和其他明确的行动,最后,当前学生的课堂行为状态。根据学生的不同的行为特征,主要有四种方法在人脸检测的基础上,头部姿态估计,面部表情识别,和多个动作识别,讨论了下一个。
2.1。基于人脸检测的方法
藤泽和Aihara13]估计学习者的学习兴趣通过检测脸大小的变换。在实验中,人脸检测算法使用OpenCv的正面探测器(19开源视觉库进行人脸检测通过相机电脑的正上方。实验证明,面对的次数接近材料的屏幕和娱乐是密切相关的,学习者的兴趣。OpenCv视觉开源库包含大量的工具,计算机视觉,图像处理,行为识别,和其他相关领域。侯et al。20.]提出的人脸检测技术的应用的质量评估学生的讲座在2016年。Haar-like脸特性在OpenCv开源视觉训练库选择在这个实验中,和这些特性应用于人脸检测演算法级联算法,和学生的课堂抬头率被检测的数量计算的脸,抬头率和平均教室的学生在一个固定的时间。
2.2。基于头部姿态估计方法
拉赫曼et al。21]提出跟踪学习者的学习状态根据他们的头部姿势和学习者之间的距离和Kinect。在实验中,一个Kinect动作镜头被用来获取信息的学习者的头部姿态角和距离深度,然后建立了利益表达功能。这种方法使用很多物理知识来计算,然后跟踪学习者的兴趣。
2.3。基于面部表情识别的方法
心理学研究表明,积极的情绪促进认知活动中学习,而负面情绪影响认知活动。心理学家的研究结果Mehrabian [22)表明,情感信息由7%的语言,声音,38%和55%的面部表情,所以学生的情绪状态可以通过面部表情的识别和分析。冯et al。23)使用16 Haar-like特征提取面部特征,与学习演算法学习和训练分类器,分类器级联强分类器形成最终的表达式。面部表情识别是通过面部表情分类器进行,和面部表情识别技术带进远程教室,实现表情识别和情感判断系统网络环境下首次和提高网络教学的效率和用户满意度。程等。2434]选择特征点来定义面部几何特征。标记特征点后,伽柏小波用于提取面部特征信息,和SVM(支持向量机)是用于表达式获得表达分类器进行分类。智能教学系统的结构模型提出了基于表达式识别和视觉跟踪技术。太阳et al。25)获得面部表情分类结合面部盟单元和三阶张量。在这个实验中,非盟面部单元被用来消除个体差异对面部表情识别效果的影响,改善面部表情识别的准确性。通过将面部特征从个人面部特征,人脸识别的功能和情感介入可以实现高精度。江et al。26)使用不同的算法来识别和研究学生学习的“困惑”表达过程,得出结论,确定随机森林算法具有最好的影响学生的困惑表情。
2.4。Multifeature-Based分析方法
与深度学习的发展,whitehil顾问公司等。27)标志着学生的参与程度四个水平和收集非盟单位,手的动作,头部姿态信息的学生面临着高斯滤波器和一个支持向量机。通过连续审计网络的训练,结果表明,降低运动头,侧头,嘴和眼睛有很大的重量来判断学生的参与。汉et al。28]麦(活动外观模型)用于马克脸部特征点,然后标记重点训练集,利用主成分分析(PCA)提取平均形状形状模型降维。研究人员研究了歪着头,嘴唇和眼睛的位置特征在类和获得数据的学生“听”,“理解”,“阻力”,和“疑问,鄙视。“检查每个州的头部姿势和验证一个特定的分析学生的表情,面部表情的课堂评估分析和头部姿势。陈等人。29日)建立了一个随机森林模型识别学生的头部姿势和面部表情和利用师生互动平台记录的学习在课堂上教师和学生之间的互动。虽然学者们进行了大量的研究,其中大多数仍基于传统网络,还有一些近期深度学习神经网络的应用程序。在此基础上,本研究将传统方法与最新的方法。
3所示。人脸识别基于混合架构
人脸检测是图像处理领域的一个成熟的方面。学者们提出了多种算法对不同的数据集。因此,本研究提出了一种人脸检测算法的混合架构基于特征下的行和列分布的教室。检测精度高的算法使用了一个算法优良的检测算法和一种算法具有高检测速度的检测算法。算法调用细检测算法和粗糙的检测算法根据不同的条件。
3.1。算法的描述
人脸检测算法是使用密集型多尺度上的检测窗口滑动,然后确定图像的检测窗口是一个脸。人脸检测的目的是要找到相应的位置的面孔图像。算法的输出外矩形的坐标脸的形象,也可能包括姿态信息,如倾斜角度。人脸检测算法首先要有大量的样本,然后提取面部特征在积极的学习样本,然后放入模型训练和最后通过验证结果。
3.2。数据准备
人脸检测之前,我们需要大量的数据来预设规则,告诉机器人脸图像与某些特性,与其他特性而非人类的面孔。阳性样本的多样性可以使算法在不同的场景中正确的答案,而负样本可以使算法更准确排除其他nonface答案非常接近人类的面孔。数据集可以使算法的多样性在不同场景中使用,确保算法的鲁棒性。广泛使用的如表所示1。
3.3。特征提取
早期的模板匹配算法是基于表面的几何特性来确定它是一个脸;算法的改进,提出了越来越多的面部特征的方法。哈雾特性提出Papageorgiou et al。34)是由遍历图像训练面临特性与不同哈雾矩形帧。哈雾特性在不均匀照明场景中有良好的建模能力。朱et al。35)提出了面向梯度直方图(猪),耐光变化的计算和计算梯度方向直方图的图像的局部地区构成特性。局部二值模式(LBP) t . Ojala等人提出的通过运营商描述图像的局部纹理特征;它具有显著的优点,如旋转不变性和灰色的不变性。此外,特征尺度不变特征变换和积分等信道特性用于人脸检测。
3.4。模型训练
模型训练是人脸检测的一个重要组成部分,是通过算法输入的脸特征训练模型,然后可以直接调用人脸检测的模型。目前,常用的人脸检测算法的支持向量机算法,和它的主要原理是通过函数变换映射到样本向量在高维空间映射到高维空间,然后找到接口的最大时间间隔。弗洛伊德提出的演算法,这是一个经典的迭代优化算法。在目标检测中的应用的核心思想是把目标特性作为一个弱分类器,将多个弱分类器组合为一个强分类器根据一定的规则,最后连接的强分类器进行目标检测和分类。然后,提出了经典的卷积神经网络。卷积神经网络可以学习独立检测目标的特征和分类检测的目标在输出层经过卷积层和汇聚层。
混合人脸检测算法依赖于稳定的学生的立场和调用,粗糙的人脸检测算法,根据不同的条件。在课的开始,学生面临首次收集位置信息通过粗略的检测算法,并使用这些信息,学生的座位上,也就是说,静态位置的学生,。在接下来的检测过程中,我们使用表面粗糙的第一人脸检测、检测算法的检测位置信息,和学生比较的静态位置区域。如果没有脸在学生发现静态位置区域,第二层的脸好人脸检测的检测算法被称为学生静态位置区域。如果一个学生静态位置区域使用优良的检测算法来检测没有面临很多次,认为学生消失了,学生的位置静态位置坐标是删除。之后,学生的基本状态是根据手势识别,算法结构如图1。
3.5。课堂行为状态评估
面部表情和头部姿势相结合来分析学生的课堂行为状态。学生获得的表达式使用表达式识别模型的卷积神经网络分为积极情绪和消极情绪。头部姿态估计算法被用来将公认的头部姿势的学生划分为九个方向,和学生的注意力被认定为目标的头部姿势的学生之间的差异和周围学生的姿势。在课堂教学的过程中,学生需要读书,做笔记,回答问题不断。因此,头部姿势不能完全代表学生的学习状态,只能协助其他算法做出更详细的判断。
头部姿势估计(HPE)通常是指识别头部位置和方向参数在空间坐标系中。指的方向参数的三个坐标轴的旋转程度空间坐标系统。三个方向参数偏航、俯仰,滚。头部姿势估计计算中通过比较脸部特征点方向参数与相应的数字图像特征点三维模型。面对获得的数字图像中特征点使用Dlib68特征点探测器人脸定位的基础上,并给出流:
3.5.1。数据采集和处理
自然环境的课堂教学视频是通过相机(模型),和图像提取OpenCv。图像的宽度和高度和H。然后,进行相机标定,3 d相机内部参数矩阵变换坐标二维均匀图像坐标。OpenCv相机校正函数是用来校准相机。相机的内部参数如下: 在哪里是相机的焦距。一般来说,相机的焦距选择图像的宽度和高度, 代表了相机的光轴偏移的图像坐标系统。一般来说,图像的中心点被选中。
3.5.2。特征检测和头部姿势估计
混合人脸检测用于检测的脸,然后,公众Dlib68特征点探测器是用来获得六个特征点的坐标信息的脸:转角的左眼和右眼的转角,鼻子的顶端,左边唇角,正确的唇角,和下巴。2 d / 3 d解决PnP型(perspective-n-point)获得的映射问题,和头部的旋转和转换向量输出。然后,学生的头构成价值(X,Y,Z)是通过将翻转向量转化为欧拉角。
3.6。注意判断
人们的视觉注意力是指物体或人的眼睛视线方向,和学生的注意力可以判断的差异他们的眼睛。首先,鼻子尖坐标得到的特征点探测器作为起点,和鼻子尖坐标的三维坐标的脸被用作终点吸引学生的视线。虽然学生的视线是不同的,但所有的学生都面临着黑板,只有极少数学生的视线向其他位置在教室里,学生们的特殊行为显然可以判断根据学生的视线,和学生们的注意力不集中在这个时候以极大的概率。学生的头姿态被分为九个方向,学生的注意力被认为通过比较目标学生之间的视线和周围的学生。
3.6.1。分区
得到学生的正面头部姿势的三维坐标(X,Y,Z]。
操作。欧氏距离
面对当前学生的协调作为出发点,并协调其他学生面对的数据集作为终点:
3.6.3。筛选和判断
因为班上所有的学生都是面对黑板,双方学生的眼睛是不一样的,所以学生在左边的眼睛没有参考意义右边,右边和眼睛都是相同的。设置通道的距离一个、删除学生的脸的D值大于一个在面对数据集,剩下的学生的面孔的大小D我,得到一个目标设定的距离从近到远。
来判断一个学生的状态,本研究选定的一组9人,判断目标的关注学生的面部定位8的学生之间的差异和目标的学生。8名学生被选中的组在步骤3中获得的脸按升序进行比较。如果目标学生的脸的价值取向是一样的,目标学生的脸的方向,目标学生的注意价值是增加了一个比较,节省最后注意价值。认为学生的注意力价值大于5和班上学生的关注率是通过计算所有学生的价值和比较学生的数量。
3.7。面部表情识别
Mehrabiai心理学家的研究表明,情感信息包含7%的话说,38%的声音,和55%的面部表情。在这项研究中,卷积神经网络用于火车面部表情识别模型和识别面部表情分为积极情绪和消极情绪心理学。基于卷积神经网络识别模型的表达式可以摆脱传统的算法来提取每个表达式的显示特性。相结合的提取每个表达式特性的模糊分类网络,表达式识别模型可以提高性能和泛化能力。
网络优化主要是基于ResNet网络结构,因为ResNet网络结构可以提取图像的特征,以及网络结构的优化可以使网络更好的提取面部特征的地区。模型的整体结构可分为三个部分:特征提取,分类关系建模和表达。优化ResNet用作骨干网提取特征。提取的重量特性是由一层self-attention计算机制,和获得的重量乘以特征矩阵来获取最终的特征矩阵。然后夷为平地和投射到具体维度特征矩阵作为变压器的输入。然后一个变压器编码器用于模型面临着区域之间的关系。网络最终计算输入图像通过一个简单的表达式Softmax函数。面部表情识别神经网络建立研究如图2。(1)图切割:MTCNN [21)模型用于脸位置。根据MTCNN模型的输出结果,面对裁剪。为了模型之间的关系nonocclusion脸区域,裁剪面地区需要划分为均匀分割图像的大小20×20像素。这些分割图像发送到特征提取网络特征提取。为了避免边界分割过程中信息的损失,图像分为重叠图像块在这项研究中。每个图像块都有重复的像素与周围的街区,增加图像块之间的相关性。然后,发送到这些图像块特征提取网络。(2)特征提取:ResNet介绍身份映射到网络,它可以解决网络模型退化和梯度消失的问题与网络深度的增加18),从而提高网络性能。ResNet工作如下:假设输入和一个特定的网络层是设置为 。最初的网络学习输出 。介绍了身份映射后,原来的输入通过快捷键连接传输到输出。在这一点上,网络只需要学习剩余 输入和输出,先前的模型可以解决剩余的问题学习。特征提取是小型处理后图像。如果最大池操作仍在使用,一些全球的特性可能会丢失,所以SoftPool [22)在本研究中采用取代最大池。与其他池操作相比,SoftPool可以保留全球和本地信息在池。识别效果更好。的计算方法SoftPool下列公式所示: (3)为了更好地研究学生的面部表情,这项研究并不直接使用Softmax分类,但也需要发送提取的特征的变压器进行进一步的特征提取。因此,完整的连接层的最后一层是修改,和原来的连接层变成了两个完整的连接层,512年和100年的维度。最后,获得100 -维特征向量是发送到变压器作为培训的令牌,可以保留更多的非线性特性和有效降低过度拟合现象的发生。通过实验,使用SpResNet特征提取可以有效地提高识别的准确性。(4)愿景变压器是谷歌在2017年提出的一个模型。最初用于自然语言处理任务,一个变压器依靠注意力机制,可以使网络注意某些词选择性。后来,Carion [13]介绍了变压器在计算机视觉领域,并提出了一个端到端的目标探测模型,DETR。通过结合CNN和变压器,最终预测结果输出。谷歌提出了一种新的视觉变压器(ViT) [19),变压器最初用于NLP任务迁移到视觉任务的分类,使用变压器代替CNN。最后,取得了良好的结果在大规模数据集。
与传统变压器,接收序列化的令牌作为输入,视觉变压器的输入是一个三维图像,因此,最初的3 d图像数据 需要分为图像块图片,然后扩展到一个一维向量 ,在哪里 是原始图像的分辨率,C图像的数量的渠道,每个图像序列的大小。最后,这些向量是扁平的模型尺寸和输出是嵌入式,这是紧随其后的是添加一个额外的分类标题序列,这是一个可学的分类是最终执行嵌入向量。因为每个图像块在uncropped图像有一定的地位,需要添加到位置编码序列保留位置信息。计算方法如下公式所示: 在哪里是位置嵌入和是初始变压器的输入。变压器由多头self-attention机制和延时模块,每一个都是紧随其后的是LayerNorm (LN)层。变压器的计算方法如下所示: 在哪里l图像块的数量和吗 。多头self-attention (MSA)是变压器的核心机制。它由单头注意机制,即self-attention (SA)。单头关注的计算方法见下面的公式: 在哪里问是一个查询,K是一个关键,V是一个值。他们是线性变化的输入令牌。的尺寸是K。通过计算点积,可以计算不同的令牌之间的相似性,从而获得全球长期关注,这有利于建模剪裁区域之间的关系。多头是一系列的注意机制K单头注意输出,计算方法如下: 在哪里 和是单头的注意机制。
4所示。实验分析
4.1。实验环境
在这项研究中,实验进行了人工智能计算机的配置下,和模型提出使用NVIDIA Tesla GPU V100训练和测试。在这项实验中,MTCNN模型被用来进行人脸对齐和地区种植的所有图像数据集,然后,他们调整到224×224的大小,主要使用ResNet18作为基线实验。亚当被用来优化模型,最初的学习速率是设定在0.001。最新的脸粗糙的检测算法,检测算法,以及本文的混合人脸检测算法,选择检测90秒的课堂教学视频的检测速度和精度分析。数量、精度和速度面临每个算法在检测过程中检测到的15秒,30秒,45秒,60秒,75秒、90秒选择进行分析和比较。表示模型的研究中,B代表CNN的传统优良的检测模型,和C代表了传统演算法粗检测模型。
4.2。实验结果分析
从图3随着时间的流逝,面临着被所有的总数不会改变线性模型,并面临被所有模型的最大数量降低,然后增加缓慢。因为我们随机选择的时间段,它从侧面证明了实验的客观性,而这一现象与现实生活是相一致的。在课的开始,学生坐直,随着类的推移,一些学生开始关注并伴随着各种小运动,导致人脸检测的波动。面临的总数检测到在这项研究中提出的混合模型高于粗和细模型检测到的所有时间里,这证明我们的模型仍然是可靠的改变学生的姿势和时间的流逝。从结果的准确性是最低的粗检测模型,精度检测是在中间。本文中的模型吸收了两种模型的优点,得到更好的结果。
从图4的整体变化,精度检测结果符合实验结果的总数的面孔,其中粗检测,检测有一些相似之处。算法在这项研究中很小的变化随着时间的流逝,也从侧面证明了检测时间长度随机选择不会影响太多的混合模型。从第一个60秒的角度,在这项研究中模型的检测精度略有下降随着时间的推移,而其他两个模型的线性降低。唯一的区别在于,粗检测降到最低点,开始45秒后线性上升,而细检测向后移动了大约15秒而粗检测。从的角度最小检测精度,模型的最小检测精度在这项研究已接近最大粗检测的准确性,约78%和25%高于最低罚款检测的准确性。通过比较上述实验结果从多个角度,研究中的模型不仅达到一个好的面孔的总数,也有相对稳定的检测精度。
从图可以看出5第一1/3时间点随机选择,学生的关注率最高的刺客对应学生的注意力。之后,学生的注意率开始下降,一段时间后开始略有波动。值得注意的是,两种算法得到的最低的关注率45秒;中途,当课堂时间,学生的注意力是最低的。在实际课堂教学中,不建议老师解释这一时期最重要的内容,主要内容应该是集中在上半年的类。班级人数一般不超过50个,单个对象的数量很小的预算算法,所以检出率最高的两种算法是相似的。然而,从平均的结果,本研究的模型是高出10%细检测模型。更重要的是,该方法判断学生的关注率,学生的地位会降低学生的准确性由于不同的方向的眼睛。然而,学生的视力可以适应更多的场景,比如会议室和工作室的大房间,根据目标学生的区别和周围学生的视野,没有额外的人工标志着学生的位置。混合模型集成了各种算法的优点,可以用于各种各样的问题。
面部表情是最直接反映学生的心理情绪。为了更好地测试模型的有效性,我们训练模型在大量的公共面部表情数据集,把3000个测试图片FER20L3到训练有素的面部表情识别模型进行测试。模型有7个表情,愤怒和恐惧却很少出现在教室里。根据心理二分法(积极的和消极的方面),本文将7种表情分为两类。负面情绪的纬度代表个体表现出消极的情绪体验或愤怒的情绪,而积极情绪的维度反映了个体表现出积极情绪。所以我们分类快乐,惊喜,和中立为积极情绪,愤怒、厌恶、恐惧、悲伤的负面情绪。
实验结果如图所示6。通过比较和手动标记算法的实验结果,可以得出结论,面部表情识别模型的准确率自然班的学生是90%。更重要的是,学生的积极情绪继续下降的前2/3从刚开始上课的时候,和他们的负面情绪达到了最高水平的1/2至5/6。实验结果和分析符合实际情况,所以学校管理者应该及时调整课堂内容的分布根据这些结果,以提高学生的学习效率在一个有限的时间。
5。结论
在教育、课堂一直是最重要的机会,让学生和教师学习和交流,和学生在课堂上的行为状态也吸引了学者的关注和研究。本研究收集学生的课堂行为状态基于视频图像,分析了目前课堂教学评价方法和不足之处。课堂行为状态的基本方法进行了综述,介绍了人脸检测算法和表情识别算法,以及实现细节。基于传统算法,改进混合人脸检测算法,基于视觉和面孔表情识别模型t为学生建立和验证系统的可行性和准确性在公共数据集。它证明了学生的课堂视频的智能分析将帮助教师和其他学校管理者使科学教学,提高教学质量。随着智能设备如传感器的不断发展,生理信号和其他模态信息将被添加到更多视频智能分析的大学生,通过多种模态信号互为补充,将所有方面的分析学生的全面的情绪状态,帮助教师和学校管理人员科学教学,进一步提高教学质量。
数据可用性
在这项研究中使用的数据集是可从相应的作者。
的利益冲突
作者宣称,关于这项工作他们没有利益冲突。