文摘
面部特征是一个有效的表示学生的疲劳状态,眼睛更密切相关的疲劳状态。然而,现有的研究工作中存在的主要问题有三个:(1)眼睛的定位很容易受到外部环境;(2)眼部特征需要人为定义和提取状态的判断;(3)尽管学生疲劳状态检测基于卷积神经网络精度高,很难适用于实时终边。针对上述问题,提出了学生疲劳状态的判断方法相结合的人脸检测和轻量级的深度学习技术。首先,学习演算法被用来从输入图像,检测出人脸和人脸的图像显著区域保存到本地文件夹,它用作启闭判断的样本数据集的部分。第二,小说重建金字塔结构提出了改进MobileNetV2-SSD提高目标检测的准确性。然后,基于SE-Net模块功能增强抑制机制引入有效改善功能的表达能力。最后的实验结果表明,与目前常用的目标检测网络相比,该方法具有较好的分类能力的眼睛状态和提高实时性能和精度。
1。介绍
教学活动主要包括教学和学习,学习者扮演重要的角色在教育科目。学习状态是一个重要因素影响和干扰他们的学习效率和成就1- - - - - -4]。学习状态包括注意状态、疲劳状态和情感状态,其中疲劳状态能有效反映学生在课堂上的表现。通过分析学生的疲劳状态,我们可以判断学生感兴趣的知识分和教师的教学。因此,研究学生的疲劳状态有很大的教育意义和价值。
研究学生的疲劳状态,面部特征,包括眼睛,嘴唇,和表情,通常选择进行分析。相关研究已经证明,虽然嘴唇和其他部分可以用来判断和分析疲劳状态,与疲劳眼睛有最大的相关性,其准确性是高于其他地区5- - - - - -7]。虽然人脸检测技术已经发展了几十年,有许多研究在眼睛的位置和检测,还受到外部环境的影响,如光、角和障碍物。(4,8]。假设相机抵消角度太大,侧面,很难定位和检测的眼睛。此外,障碍物的存在,如眼镜、头发和眼睛检测饰品也带来了一些困难。另一方面,为了分析和判断学习者的疲劳状态,需要定义一些特点人为获得他们的眼睛状态数据5,9,10]。因此,对这些关键技术的研究具有十分重要的现实意义。
计算机硬件和软件技术的不断发展,数字图像处理技术和人工智能技术,图像特征分类基于深度学习技术已成为最热门的研究方向。众所周知,近年来,研究深度学习的热潮已经出发,涵盖了很多方面,如发音,文本和图像。深度学习已经被应用于图像分类和识别,能有效避免人工选择的特征提取的问题11,12]。然而,现有的研究工作中存在的主要问题有三个:(1)眼睛的定位很容易受到外部环境;(2)眼部特征需要人为定义和提取状态的判断;(3)尽管学生疲劳状态检测基于卷积神经网络精度高,很难适用于实时终边。
为了解决上述问题,本研究试图检测学生的疲劳状态基于人脸检测和目标探测网络。与传统MobileNetV2-SSD不同,提出了一种新的重建金字塔结构来改善它。它可以提高目标探测的准确性和减少模型参数和尺寸尽可能使它可以应用于智能终端。功能增强和抑制机制基于SE-Net模块介绍了有效改善功能的表达能力。
2。文献综述
目前,疲劳状态检测的研究主要集中在疲劳驾驶领域,而对疲劳状态的研究领域的教育往往是理论研究,也有一些可以实现的检测技术。疲劳状态的检测技术在教育领域类似于疲劳驾驶,关键技术的研究和实现可以参考疲劳驾驶检测(13,14]。目前,国内外研究疲劳驾驶检测采用主观检测和客观的检测。
Barua et al。15嗜睡的判断系统)实现基于面部和眼睛的药物检测技术,分析了眼睛条件基础上眼睑距离和曲率数据。该系统的特点是,它结合了YCbCr肤色模型与模糊逻辑方法和健壮的照明和角度,但是这个系统的实时性能不强。Resalat和萨巴16]实现的疲劳状态判断学习者在网络学习环境中使用正则分类基础上的两个面部特征的眼睛和嘴唇,但精度不高。在Monzo et al。17),学习演算法用于人脸检测,用于眼睛的模板匹配方法检测。然后,建立直角坐标系,用眼球中心原点检测连续黑像素的总数在水平和垂直方向和确定闭眼状态基于比率。然而,当检测到学习者的疲劳和注意力不集中在此基础上,有一个问题,疲劳状态判断的准确率不高。
Shalash [18]提出的理论卷积神经网络可以自动通过学习获得司机疲劳特性。这种方法并没有直接发送整个神经网络的图像识别。网络的训练过程和运行时间缩短,和网络为眼部疲劳检测的准确性在一定程度上改善了。王等人。19)提出了AdUAL-STREAM双向卷积神经网络(GP-BCNN),避免了梯度色散和过学习问题造成网络的层数的增加,网络的训练时间缩短,并获得更好的检测精度。赵et al。20.)关注能力的神经网络特征提取,特征提取能力ImageNet数据集上得到的神经网络应用于眼部特征的提取,解决了这个问题的小眼数据集和启用以更少的投入获得最优特征向量数据,导致高识别率。Huu et al。21)提出了一个基于MobilenetV2的手势识别系统,可以实现良好的性能在小规模数据集通过重用的特性在通过密集的网络连接。
上面的方法都有缺陷,不能完全满足实际需求的疲劳检测领域的教育。解决上述问题,本文提出一种方法来判断学生的疲劳状态通过结合人脸检测与轻量级深度学习技术,克服了干扰的环境因素如光,闭塞,和角度的眼睛在某种程度上,避免了人工操作特征提取。该方法可以提高目标探测的准确性同时最小化模型的参数和尺寸,可以应用于智能终端。
3所示。方法判断疲劳状态的学生
本研究主要是在人脸检测的基础上,结合目标探测深度网络来判断学生的眼睛状态,判断学习者的疲劳状态根据分类结果。
3.1。图像预处理、人脸检测
获得的图像数据集可以转换视频,但为了使功能更加明显,图像通常是前预处理实验。处理过的图像人脸检测算法的输入数据,所以预处理操作集中在算法设计。因为大尺寸的获得的图像,它需要时间来直接处理原始图像。为了加快人脸检测的速度,首先,根据给定的图像缩小规模。人脸检测是由学习演算法实现22- - - - - -24),包括哈雾功能。演算法是基于灰度图像中提取,图像颜色有一定的要求。因此,下一个操作是将现有的小型图像颜色空间的灰色空间。最后一步是直方图均衡化,它可以放大照片中的灰色区分前景和背景通过扩大灰度值的动态范围,以提高整体的对比照片(25]。在本部分中,图像是由三个步骤:预处理大小减少,灰度变换、直方图均衡化,以优化后的实验结果。
人脸检测在指定的位置和作用于所有图片标志着依次在每个图片。在此基础上,脸的图片区域标记帧存储在指定的文件夹中。人脸检测的流程如图1。
首先,学习演算法训练积极和消极的数据集(26),然后获得的弱分类器,然后相应的图像调整权重,权重和正负样本正确分类图像的减少,而不正确的分类图像增加,从而产生新的样本分布。新生成的分布,弱分类器训练来形成一个新的弱分类器,并重复上述过程,直到t弱分类器生成。然后,根据指定的重量分布,所有生成的弱分类器叠加形成一个强分类器。
3.2。设计的目标探测网络模型
眼睛状态的判断主要基于目标探测深度网络分类eye-closing的令人瞠目结舌的照片和图片。首先,大量的样本图片收集,规范化,并转换为一个特定的图片格式,输入到网络学习特性。培训之后,模型,和给定的图像分类和确定使用这个模型。眼睛的框架如图状态判断2。
3.3。改善MobileNetV2-SSD网络模型
与传统方法相比,虽然深度网络可以有效地提高目标探测的准确性、网络的层数增加,参数成千上万,因此很难应用到真实的生活。MobileNetV2深是一种先进的目标探测网络(27),其主要贡献是引入反向残块和线性瓶颈。逆卷积残余MobileNetV2块是一个重要的单元。MobileNetV2逆卷积剩余块结构如图3。
MobileNetV2-SSD网络是一个基于轻量级卷积神经网络目标检测框架。VGG-16模型在传统的SSD网络有许多参数(28),它占据了大量的存储空间,不利于实时、准确运行在嵌入式智能终端。因此,在SSD替换VGG网络网络体系结构与MobileNetV2网络不仅提高了SSD的检测效果,还提高了检测速度定性。MobileNetV2-SSD网络结构模型如图4。
在图4,网络的输入是RGB图像300×300像素,MobileNetV2-SSD提取的网络特性。这对眼睛检测模型使用六个功能层,包括候选帧的目标分类和回归。
3.4。新的重建金字塔模型
SSD的优势是,它增加了金字塔特征层结构,使预测每一层,具有更好的适应性和不同大小的目标。然而,固态硬盘没有功能层之间的连接,不能充分利用当地的低级特征图的细节特征和全球高层特征图的语义特征。然而,小物体在很大程度上依赖于上下文的识别信息,从而导致低检出率的眼睛。
为了提高眼睛的目标的检测能力,提高网络的整体检测精度,本文提出了一种基于MobileNetV2-SSD改进,融合了浅MobileNetV2-SSD细节特征提取的高层语义特征来获取一个新功能层和建构一组特征金字塔根据新功能映射。为了更好地利用低级的局部细节特征,本文也带来38×38特征图融合范围。改进MobileNetV-SSD网络结构如图5。
3.5。基于SE-Net模块功能增强和抑制机制
的缩写是SE-Net squeeze-and-excitement网络(29日),主要用于分配每个通道的权重来帮助网络学习最重要的特性。它也抑制那些很少使用的功能,提高了网络的表达能力,增强了模型的鲁棒性,所以它也可以显示良好的性能在面对复杂的任务。总体结构如图6。
在图6,是输入,每个卷积的输出层的网络,然后呢后最终的输出分配权重。SE-Net模块的实现过程主要包括三个操作:挤压操作,操作兴奋,融合手术。(1)挤压操作。在这个操作中,输入功能的大小C×H×W合成的特性描述吗C×1×1通过全球池,计算公式如下: 在哪里是输出通道c。(2)激发操作。挤压后,只有得到了全球信息网络,不能作为渠道的重量。因此,渠道之间的依赖关系是通过刺激获得全面的操作。这个操作由两个完全连接层和乙状结肠激活函数。这个操作的公式如下: 在哪里是全球信息通过挤压操作;代表ReLU功能;和和是两个完全连接层的权重。(3)融合操作。上述激励后,网络获得每个通道的输入特性的权重映射U,其余的是融合权重与原来的功能。融合的方法是简单的乘法:
SE-Net插件模块,可以结合各种基本网络。因此,SE-Net是嵌入在网络中引入部分3所示。4,背后的嵌入位置是六个功能层参与预测。SE-Net嵌入图如图7。
4所示。实验和分析
4.1。实验环境和数据集
深度学习需要更高配置的计算机硬件和软件。为了便于模型的训练和测试,本文选择Linux操作系统(Ubuntu14.04)实验环境。电脑的具体配置信息如下:英特尔(R) Xeon处理器CPU e5 (R) - 2630 v3,记忆8 g,窗口10系统,和显卡GTX1080。在实验中使用的训练数据是单帧图像,因此有必要拦截收集视频在一个单一的框架。因为眼睛只占据了视频的一部分,直接扩展到300×300将影响特征提取,这纸夹有意义的一部分视频提取视频的一帧。眼睛区域位置和检测的结果在图所示8。
(一)
(b)
(c)
4.2。改善的有效性验证模块
为了验证改进的有效性MobileNetV2-SSD模型,两个改进的小模块单独进行测试。输入图像训练和测试数据集的大小是统一的300×300×3,batch_size = 64,时代= 32,网络配置保持不变。实验结果如表所示1。
从表可以看出1每个模块可以提高精度1%∼2%。金字塔重建可以融合浅特性信息和高级语义信息,使网络更好的提取目标特征,这有利于提高目标探测精度。SE-Net设定不同的权重不同渠道的特点,提高了特征层的权重,在眼睛识别中发挥作用,提高了分类精度。
4.3。性能测试
为了测试模型的性能和效率,分析了疲劳状态的10组的视频文件。这段视频来自几个学生在实验室的学习过程在正常和疲劳条件。减少每个视频,并选择段持续时间约1分钟作为实验材料。测试结果如表所示2。
结果表明,除了第十组,正常状态被误判为疲劳状态,和所有其他的实验团体被认为正确,表明该模型基本满足学生的疲劳状态检测的要求。
说明学生视频检测的改进模型的有效性,它是与原来的相比MobileNetV2-SSD网络。四种典型的视频数据集的选择。一个从学生中提取视频帧每10帧和输入这两个网络疲劳状态检测实验。模型测试结果如图9。
(一)
(b)
可以看出,该模型可以为眼睛提供足够的上下文信息检测利用金字塔重建和多层功能融合,所以它可以更好的检测眼睛区域。同时,增加SE-Net疲劳状态识别模块还增强了有用的特性,降低了目标探测时间,极大地提高了检测率。
5。结论
本文基于传统MobilenetV2网络结构,提出一种改进的MobilenetV2-SSD疲劳检测网络模型。设计思路如下:首先,提出了一种新的重建金字塔结构,提高目标检测精度小烟;第二,SE-Net分支模块嵌入到信心,提高了有效特征,抑制特性几乎没有贡献,进一步提高了检测精度。提出了网络模型的两个改进的模块测试,分别,这证明了提出的改进方案的可行性。与常用的目标检测网络模型相比,结果表明,该网络模型具有更好的检测效果和检测效率。稍后,我们将测试和提高MobilenetV2-SSD网络模型的性能在一个更大的视频数据集和分析大型图像剪裁的检测效果。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突的报告对于本研究。
确认
这项工作是支持的项目”的机制影响在线学习连续大学生基于流体验”的意图。y201942768。