文摘
为空中交通管制员疲劳检测是一个重要然而在航空安全研究具有挑战性的问题。大多数现有的方法这个问题是基于面部特征。在本文中,我们提出一个学习模型,结合面部特征和语音特征和设计一个疲劳检测方法通过multifeature融合,称为面部和声音叠加(FV-Stacking)。具体来说,面部特征,我们首先使用OpenCV和Dlib库提取的嘴和眼睛区域,然后采用结合M-Convolutional神经网络(M-CNN)和E-Convolutional神经网络(E-CNN)来确定状态的嘴,闭目基于五个特性,即。,眨眼时间,平均眨眼时间、平均眨眼间隔,眼睑闭合的学生比例随时间(PERCLOS)和频率的开口(FOM)。声音的特性,我们提取Mel-Frequency Cepstral系数(MFCC)特性的言论。这样的面部特征和语音特征通过一个精心设计的融合叠加模型,疲劳检测。真实实验进行空中交通管制员14日在西南中国民航空中交通管理局。FV-Stacking提出的结果表明,该方法检测精度达到97%,而最好的准确性通过单个模型是92%,最好的准确性通过最先进的检测方法是88%。
1。介绍
2006 - 2015年中国飞行事故的统计数据分解的原因表明,人为因素占25.67%1]。从1994年到2020年,中国有97事故造成的空中交通管制员(2]。同时,一项调查显示控制器疲劳从国家运输安全委员会(NTSB)表明,一些主要的调查确定疲劳作为一个可能的原因,因素,或发现(3]。上述研究和统计数据已经说得很清楚,及时、准确的为空中交通管制员疲劳检测现场执行控制和命令操作是减少危害航空安全的关键。疲劳检测主要分为主观检测和目标检测。主观分类和量化的检测是基于主体的主观疲劳状态的性能。这一类的检测方法操作方便、低成本的优势,并已被广泛采用。然而,他们也遭受一些缺点如可怜的实时性能和人类的主观意识的影响。主观检测方法可以进一步分为三个子类:调查问卷和主观评价形式,口头问答的分析,和活跃的检测模型。李和金发达假设和调查问卷根据采访929名飞行员进行了一项全国性的调查。他们得出结论,不足计划操作,飞行方向,文化不同的伙伴关系,飞机的环境,工作任务,种族差异,酒店的环境,和其他因素可能导致飞行员疲劳(4]。江等人设计了一个问卷调查,基于计划行为理论(“),有效地揭示了心理因素相关疲劳驾驶(5]。
目标检测具有较高的准确性和可靠性,也不是主体的主观意识的影响。这个类别中的方法已经成为研究的焦点疲劳检测,可以分为以下两个子类:接触和非接触。大多数传统contact-based疲劳检测方法测量生理信号,如心电图和脑电波(6,7]。这种方法通过身体接触能产生检测精度高但可能干扰空中交通管制员的正常运行。大多数noncontact-based方法主要跟踪的面部表情,如口状态检测(8],眼动跟踪[9,10),和反应时间(11]。时等人提出了通过比较关节的位置进行疲劳检测当前的姿势(12]。由于非接触方法非侵入性和容易仪器,他们得到了大量的关注。
在本文中,我们提出一个疲劳检测方法通过multifeature融合基于整体学习,称为面部和声音叠加(FV-Stacking)。具体来说,面部特征,我们首先使用OpenCV和Dlib库提取的嘴和眼睛区域,然后采用结合M-Convolutional神经网络(M-CNN)和E-Convolutional神经网络(E-CNN)来确定状态的嘴,闭目基于五个特性,即。,眨眼时间,平均眨眼时间、平均眨眼间隔,眼睑闭合的学生比例随时间(PERCLOS)和频率的开口(FOM)。声音的特性,我们提取Mel-Frequency Cepstral系数(MFCC)特性的言论。这样的面部特征和语音特征融合使用一个精心设计的叠加模型,疲劳检测。堆叠框架用于合奏的信息量增加学习和可以集成不同类型的特征选择和叠加适当的基础模型。真实实验进行空中交通管制员14日在西南中国民航空中交通管理局。FV-Stacking提出的实验结果表明,该方法检测精度达到97%,而最好的准确性通过单个模型是92%,而最好的准确性通过最先进的检测方法是88%。我们工作的主要贡献总结如下:(1)我们开发一个机器学习模型,可以识别的封闭状态与高精度嘴巴和眼睛(2)我们融合语音功能和面部特征检测空中交通管制员的疲劳状态(3)我们设计一个FV-Stacking合奏学习模型,实现疲劳检测的准确率为97%
本文的其余部分组织如下。部分2进行相关的调查工作。部分3提出了整体的设计细节通过multifeature融合学习模型。部分4提出并分析实验结果。我们结束我们的工作5。
2。相关工作
疲劳检测是用于各种场景和主要分为两类,即。、主观检测和目标检测。
在主观方法,疲劳范围经常使用。威廉姆森et al。13)系统地研究了睡眠不足对疲劳的影响,建立了一套主观的方法,可用于评估疲劳。德弗里斯et al。14]声称疲劳评估规模是最有前途的疲劳措施,那里的工人请填写问卷之前和下班后把疲劳量表。
之间的客观方法,有接触和非接触方法进行疲劳检测方法,根据测试工具是否需要身体接触在测试期间测试的人。心跳、脑电波和心电图(EEG)通常用作contact-based检测方法中常用的指标。Arnau et al。15)用脑电图来研究心理疲劳和年龄之间的关系。基于et al。713)提取心电图(ECG)信号的特性和分类通过机器学习来确定一个人的疲劳状态。陈等人。16)确定空中交通控制器是否疲劳通过测量生理信息,包括闪烁融合阈值,拇指和食指力量,收缩压和舒张压之前和之后的工作。非接触检测,许多方法考虑面部表情和声音信号。丁格斯和格蕾丝(17)提出PERCLOS物理量测量疲劳/嗜睡,这被定义为一定比例(如70%或80%)的时候眼睛是单位时间内关闭。一般来说,一个测试的人被认为是疲劳如果PERCLOS超过某个阈值。Zhang et al。18)用卷积神经网络确定眼睛的闭合状态,计算PERCLOS在此基础上,并结合单位时间眨眼的数量来确定疲劳状态。聂et al。19)使用PERCLOS,闪烁速度,闭目时间检测疲劳状态。顾et al。20.)检测疲劳状态通过计算PERCLOS和打哈欠的频率。类似地,声音特性也在考虑一些非接触疲劳检测的方法。沈et al。21)使用修改后的分形维数特征来确定空中交通管制员的疲劳状态。
3所示。整体学习彻底Multifeature融合
整体学习通过结合多个模型的情况下完成学习的任务。选择一个学习模式遵循“好但不同”的原则。它使用一系列的基础模型和一些规则集成多个学习结果获得最后一个,预计比单一的学习方法(22]。整体学习包括几个计划,这些是装袋,叠加,提高,混合等。
我们提出一个模型FV-Stacking结合面部特征和语音特征的疲劳检测。堆是一个分层模型集成框架。第一层是由多个基本的学习者。在FV-Stacking框架中,我们结合五个基本模型,即。,Logistic Regression (LR), Decision Tree (DT), Support Vector Machine (SVM), Long Short-Term Memory (LSTM), and Convolutional Neural Network (CNN), which take the original training dataset as input. The second layer is a simple LR model, which takes the output of the base learners in the first layer as input. The architecture of the proposed FV-Stacking framework is shown in Figure1。
简要介绍每一个基础模型用于FV-Stacking提供如下。(1)LR。逻辑回归使用逻辑函数乙状结肠线性回归的结果映射到[0,1]的范围。在FV-Stacking, LR是用于第一和第二层次。在第一层,逻辑回归分类基于面部特征的疲劳状态,而在第二层,它用于分类合并后的所有基础模型的输入(2)支持向量机。支持向量机是一个分类模型,其基本模型是一个线性分类器特征空间中定义的最大时间间隔。的关键思想是解决分离超平面,可以正确地将训练数据集和最大几何间隔。在本文中,我们使用一个线性支持向量机识别面部特征(3)DT。决策树是一个监督机器学习算法基于树状结构,其中每个内部节点表示一个属性的判断,每个分支代表判断的结果,每个叶节点代表一个分类方法。在本文中,我们使用CART决策树来识别面部特征(4)LSTM。短期记忆是一个递归神经网络,是适合对时间序列数据进行分类。摘要LSTM用于过程MFCC特征,如图2(5)美国有线电视新闻网。卷积神经网络是神经网络的一种执行卷积计算和深层结构。它包括多层包括卷积层、汇聚层,和完全连接层。卷积层和池层对输入数据进行特征提取,和完全连接层执行的非线性组合特征提取得到的输出。摘要,CNN是用于过程MFCC特征,利用卷积三层,三池层,平操作,一个完全连接层,和一个s形的分类器,如图3
FV-Stacking包括视觉数据和语音的输入数据。面部特征的输入包括眨眼次数、平均眨眼时间、平均眨眼间隔,PERCLOS和流分布。声音特性输入MFCC特征。
3.1。面部特征提取
3.1.1。人脸检测和特征点提取
人脸检测是确定图像和特征点提取识别特征点在脸图像。这些都是面部识别最关键的步骤。脸检测的质量和特征点位置的准确性直接影响后续处理的结果。在本文中,我们使用Dlib库和提取的人脸面部特征点。Dlib是现代c++工具,包括各种各样的机器学习算法和工具,提供高质量的机器学习、图像处理、深度学习,和面部识别库23]。人脸识别算法包括人脸检测、人脸特征提取,人脸特征向量的计算。因此,我们选择Dlib库来实现一个高质量的人脸识别系统。Dlib图书馆,pretrained面部具有里程碑意义的探测器是用来估计68年的位置坐标( )映射到面部结构表面上。说明,68年图坐标可视化的索引4。在本文中,我们采用Dlib库中提取68坐标的脸和定位眼睛和嘴巴。
3.1.2。闭目状态识别
提取68眼探测点后,我们使用这些点构造一个眼睛区域的大小 基于面部情商中定义的地标。1),如图5。图5(一个)人眼的标记点的视频,和图吗5 (b)是人类的眼睛的灰度图像中提取。
(一)眼睛特征点
(b)提取眼睛区域的图像
一旦眼睛区域标识,我们使用E-CNN确定眼睛的闭合状态(24]。E-CNN包含三个卷积层,三池层,两层完全连接,一个平操作,和一个s形的分类器,如图6(25]。的输入是一个灰度图像的大小 。
3.1.3。口关闭状态识别
在68面部探测点,我们用这些点的提取口面积的大小 ,基于面部情商中定义的地标。2)。一种提取结果绘制在图7插图。图7(一)是一个空中交通控制器的标记点的嘴视频,和图吗7 (b)是提取灰度图像的空中交通控制器的嘴。
(一)特征点
(b)提取口区域
一旦发现嘴巴区域,我们使用M-CNN确定口关闭状态(26]。卷积神经网络包含三个卷积层,三个池层,两层完全连接,一个平操作,和一个s形的分类器,如图8。
的输入是一个灰度图像的大小 。
3.1.4。眼睛和嘴巴的特性
我们生成的两个队列当识别空中交通管制员在视频流M-CNN和E-CNN。如图9眼睛,第一个队列存储检测结果的状态,和第二队列存储检测结果的状态。我们使用一个标记数字表示的关闭状态每一帧的眼睛或嘴:国旗' 1 '表明眼睛或口是张开的,国旗“0”表明,眼睛和嘴是关闭的。图9(一个)是一个队列,商店的关闭状态与M-CNN嘴,和图吗9 (b)是一个队列,它存储与E-CNN眼睛的闭合状态。
(一)M-CNN检测结果
(b) E-CNN检测过程
我们推导五眼和嘴从队列的特性,即。,blinks, average blinking time, average blink time interval, PERCLOS, and FOM, as defined below:(1)眨眼。眨眼的数量是在一个固定的时间测量。随着疲劳程度的增加,数量也会改变(2)平均眨眼时间(ABT)。它测量的平均数量每眨眼睛闭包在一个固定的时间段,这通常是与疲劳有关,计算 在哪里闭眼帧的总数,眨眼的总数超过一段时间。(3)平均眨眼时间间隔(ABTI)。指的是平均空的时间间隔在一个固定的时间,计算 在哪里表示数量的眨眼时间间隔表示一个眨眼的时间间隔。(4)PERCLOS。闭着眼睛的帧数之间的比例和总在单位时间的帧数,计算 在哪里表示数量的帧闭着眼睛表示帧的总数。(5)流分布。PERCLOS类似,它是指闭着嘴的帧数之间的比例和总在单位时间的帧数,计算 在哪里表示数量的帧闭着嘴表示帧的总数
3.2。声音特征提取
它最具代表性的语音信号特征的提取是至关重要的疲劳检测。在本文中,我们采用MFCC特征提取语音信号的这种独特cepstrum-based提取方法更符合人类听觉的原则,也是最常见的和有效的语音特征提取算法。MFCC提取过程如图10。
如图10,MFCC包括七个步骤,每一个都有自己的功能和数学方法如下简要讨论:(1)预加重。预加重滤波方法,强调更高频率平衡表示声音的频谱陡转出高频区域(2)框架。促进语音分析、语音信号可以被分成小段,这被称为帧。每一帧包含采样点在观察单位。通常情况下,将256年或512年,覆盖大约20 - 30 ms的时间吗(3)窗口。声音在长期不断变化,不能处理没有固定的特点。因此,每一帧被替换成一个窗口函数,和窗外的值设置为0。常用的窗口功能包括方形窗口,汉明窗,汉宁窗,等。考虑到一个窗口函数在频域的特点,汉明窗是经常使用(4)离散傅里叶变换(DFT)。每个窗口的框架转化为DFT频谱通过应用级,计算 在哪里是点用于计算DFT的数量吗(5)梅尔·频谱。梅尔·光谱计算通过傅里叶转换信号通过一组带通滤波器称为Mel-filter银行。梅尔·规模大约是一个线性频率间距小于1 kHz和对数间隔超过1 kHz。梅尔从物理频率的近似计算 在哪里在赫兹表示物理频率,表示频率(6)离散余弦变换(DCT)。DCT应用于改造Mel频率系数产生一组cepstral系数(7)动态MFCC特征。Cepstral系数通常称为静态特性,因为它们只包含信息从一个给定的框架。额外的信息信号的时序动态计算获得的第一和第二的导数cepstral系数
4所示。实验和性能评估
4.1。实验平台
在这项工作中,我们使用OpenCV [27)和Dlib库来处理视频数据集和使用Keras和Sklearn框架构建模型疲劳检测。整个检测系统实现和测试在Windows 10个人电脑配备32 gb的内存和8 gb内存的GPU。
4.2。数据集
对于E-CNN,我们睁着眼睛收集8598张图片和6510图像闭着眼睛。完全,我们使用12086眼图像3022年培训和图像进行测试。同样,M-CNN,我们收集2155张嘴巴和1980图像闭着嘴。完全,我们使用3721口训练图像和414图像进行测试。
我们还收集视频和音频数据的空中交通管制员在现实操作。我们收集14673视频和音频剪辑,每个视频的长度是15秒,每个音频的长度是7秒。因此,我们得到14673面部特征和MFCC特征从这样的视频和音频数据,其中11738用于训练提出了整体学习FV-Stacking模型,和2935用于测试。
4.3。实验
视频数据,我们使用OpenCV和Dlib提取每个空中交通指挥员的眼睛和嘴在每个视频帧,然后使用E-CNN M-CNN模型来确定眼睛和嘴的状态。最后,五个特性计算,包括眨眼、平均眨眼时间、平均眨眼时间间隔,PERCLOS和流分布。音频数据,我们得到一个MFCC特征向量的大小 通过MFCC特征提取过程。
面部特征(即。,blink times, average blinking time, average blink time interval, PERCLOS, and FOM) and MFCC features extracted from the audio are passed to the ensemble learning model as input. We use FV-Stacking to combine facial features and MFCC features to determine whether or not the air traffic controller is fatigued. The overall detection process is illustrated in Figure11。
4.4。实验结果和分析
验证M-CNN的分类性能,ECNN FV-Stacking,我们考虑召回率、精度、准确性,分数,AUC(面积曲线)作为我们实验的主要性能指标,定义如下:(1)回忆 TP和FN表示的数量真阳性和假阴性则的数量,分别。这个指标代表阳性样本的比例,正确确定为积极的样本总数的百分比(2)精度 在FP表示假阳性的数量。这个指标代表了正确确定积极的部分样本的比例的所有样品确认为阳性(3)精度 在TN表示真正的底片的数量。这个指标代表的比例正确分类样本的样本总数(4) 分数
这个指标是基于谐波平均召回率和精度。(5)曲线下面积(AUC)。中华民国的示意图(接受者操作特征)曲线绘制在图12。曲线的横轴是假阳性,计算 纵轴是真阳性率,计算
在图12ROC曲线下的面积和水平轴定义为曲线下的面积(AUC)。显然,这个区域的值不大于1。此外,由于中华民国曲线通常高于线 ,AUC的值范围是0.5到1。越接近AUC是1.0,达到更好的性能检测方法。
E-CNN和M-CNN的性能如表所示1。
评估FV-Stacking的性能,我们比较和分析召回率、精度、准确性,分数,AUC的单一模型和FV-Stacking。结果绘制在图13。
(一)召回率
(b)精密
(c)准确性
(d) 分数
(e) AUC
从图13,我们观察到信号模型的最佳召回率是90%,精度为92%,准确度为90%,分数是90%,AUC是0.96。召回FV-Stacking提出达到97%,精度达到97%,精度达到97%,分数达到97%,AUC达到0.99。这些结果表明,FV-Stacking始终优于任何单一模型。
在一些其他的方法,不同的特性用于疲劳检测。例如,在通过Zhang et al。18),疲劳PERCLOS和闪烁频率来判断。在聂et al。19),疲劳是评判眨眼时间,PERCLOS,眨眼,眨眼频率。在工作的顾et al。20.),疲劳是评判PERCLOS和流分布。一个常见的策略是确定疲劳状态通过设置固定阈值不同的特征。例如,在通过Zhang et al。18),PERCLOS阈值设置为0.25,在聂et al。19),PERCLOS阈值设置为0.06。在[20.),顾等人将PERCLOS阈值设置为0.5。然而,在不同的场景中,这种固定阈值并不总是产生最佳的性能。为了减轻阈值的性能的影响,我们结合不同的功能使用不同的机器学习模型包括支持向量机(SVM),再(资讯),和逻辑回归(LR)来比较不同的疲劳检测方法的性能,总结如表2。
从表2,我们观察到最好的召回率不同的疲劳检测方法是89%,准确性为88%,f1分数是88%,精度为89%,AUC是0.93。FV-Stacking方法提出的召回率达到97%,精度达到97%,分数达到97%,精度达到97%,AUC达到0.99。这些结果表明,FV-Stacking始终优于其他疲劳检测方法。
5。结论和未来的方向
民航飞机日常旅游已经成为一种必不可少的工具。机场路线管理越来越复杂机场规模和飞机数量继续增长。这样高强度的工作导致疲劳的空中交通管制员,这是交通事故的主要因素之一。
我们专注于对空中交通管制员疲劳检测的问题。提高检测精度,我们结合面部特征包括眨眼、平均眨眼时间、平均眨眼间隔,PERCLOS,打哈欠频率以及语音信号的MFCC特征。我们设计了一个学习方法,疲劳检测和现实生活中的视频和音频数据用于绩效评估。
这项研究导致了以下研究结果:(1)M-CNN和E-CNN都能够准确识别的开启和关闭状态的嘴和眼睛(2)通过战略结合面部和语言特征,提出了整体学习模型,FV-Stacking,能够实现持续更好的检测性能与单模型和其他检测方法相比,各种性能指标
我们的工作提供了一个新的视角,疲劳检测方法的发展,结合面部特征和声音的特性。该方法达到一个高的疲劳检出率,有巨大的潜力,有效避免事故造成的空中交通管制员的疲劳。
有许多替代声音除了MFCC特征。这是我们的未来感兴趣的实验与其他声音特性,比如单一频率过滤Cepstral系数(SFFCC) [28,29日)和零时间窗口Cepstral系数(30.]。此外,我们计划合并一些其他特性,也反映了空中交通管制员的疲劳状态,如坐姿(12]。
数据可用性
本文中使用的数据是不公开的。我们签署了一份保密协议与西南中国民航空中交通管理局,因为这些面部视频和声音收集从空中交通管制员执行任务在现实环境的民用航空管理局。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
胡锦涛和刘卓易与平等co-first作者贡献这个工作。
确认
这项工作是支持部分由中国国家自然科学基金(批准号。U1833126, U2033203)和安全的基础和能力发展的中国民用航空局(批准号ASSA2020/16)。