文摘
使用机器学习算法对表情识别和病人监测越来越感兴趣的研究领域。在这项研究中,我们提出一种基于深度学习的面部表情识别算法:卷积神经网络(事先)。从FER2013收集的数据的数据集,其中包含七个通用的面部表情训练的样本。给出的结果表明,该方法提高了面部表情识别的准确性没有编码几层CNN,导致成本计算模型。这项研究提供了解决问题的高计算成本由于面部表情识别的实现提供了一个模型接近先进的模型的准确性。研究得出结论:深l \ earning-enabled面部表情识别技术提高准确性,更好的面部识别和解读面部表情和功能,促进卫生部门的效率和预测。
1。介绍
面部表情是一种非语言的人类之间的沟通方式。面部表情是代表人类的情绪状态和产生巨大影响传递情感。认识到一个人的面部表情的技术类别称为面部表情识别。面部表情识别是利用在各种应用程序中,包括识别精神障碍、抑郁症的分析、预测和健康和刑事检测。七个普遍公认的人类的面部表情是“快乐、悲伤、恐惧、愤怒、惊讶、厌恶,和中立。“这项研究集中在提到的面部表情的分类与深度学习技术的帮助。最近时间,许多技术设计了自动面部表情识别与深层神经网络的帮助。深层神经网络是机器学习的领域,包括神经网络找出解决方案处理人工智能的问题(1]。深层神经网络复制人类大脑的新皮层神经元有几个。这些神经元用于构建深度学习的神经网络模型。深入学习各种类型的神经网络模型(2- - - - - -4]。
卷积神经网络(CNN /事先)用于应用程序基于图像分类、目标检测、图像处理等等。事先有几层,每一层都有不同的目的。层在CNN的输入层,卷积层,探测器层、汇聚层和输出层。事先的输入层是一层的输入,例如,一个图像,。这张图片转化为离散值的像素对应于图像的坐标。这一层的输出传递给探测器层将线性数据转化为一个非线性数据的帮助下直线激活。这一层的功能映射作为提供输入传递给汇聚层。这一层是利用降维的特征映射,使不变性在小翻译输入。这些层包括卷积神经网络的基本架构5- - - - - -8]。
自CNN帮助2 d图像的表示,CNN的一个可以利用这个特性来定位的位置输入图像的特点,进一步可以实现所需翻译的图像图像处理的目的。修改传统建筑的卷积神经网络导致的几个问题更好的解决方案不能满足现有的传统模型。的一些架构设计使用传统CNN模型LeNet AlexNet, GoogleNet [9]。这些架构是修改的结果在CNN的传统模式增加或减少的数量在卷积神经网络层使用。MNIST数据集,LeNet输入层32×32像素,第一次卷积28层×28个像素,池一层14×14像素,第二个卷积层10×10像素,第二个池5×5层,三分之一的卷积1×1,一层完全连接的84像素,第二个完全连接(输出)10像素层(10- - - - - -13]。AlexNet由八层:五卷积层,三个完全链接的图层,ReLU激活函数。GoogleNet架构采用1×1卷积层和一个全球平均池策略增强神经网络的深度能力。它包括一个初始模块(14除了CNN的基本设计。在《盗梦空间》模块的输入,1×1,3×3,5×5卷积,和3×3马克斯池都是并行运行,和输出合并作为最终的输出。
研究人员在这项研究中采用ResNets自动分类的面部表情使用fer2013数据集[15- - - - - -17]。面部表情提供了大量的隐藏信息,可以帮助人类情感和意图的理解和有很大的研究价值。我们提供面部表情识别的策略基于深度学习和CNN克服困难,常发生,识别精度低和概括能力薄弱等传统的面部表情识别算法。这个方法证明了CNN模型更准确地识别病人的面部表情的能力。
2。相关的工作
侯赛因和Al Balushi8)提出的《盗梦空间》的使用层由1×1,3×3和5×5卷积层并行使用ReLU激活函数和两个卷积层神经网络模型。同时培训多项式学习速率被视为baselr 0.5 (1 iter /麦克斯特)。他们的模型给出了一个0.693的准确性。
Suryanarayana et al。18]基于Hist-eq技术探索的概念模型包括第一层操作的输入变换和卷积和池层三层操作,进行中长期规划完全连接两层,产生最一致的结果的网络模型。该模型给出了一个0.6667的准确性。
Zhang et al。11)提出了一个cross-dataset方法FER2013面部表情识别的数据集。随着FER2013,他们包括三个数据集AFLW, Celeb-Faces, Kaggle。这些数据集有相应标签的属性。他们设计了一个桥接层为了使用这些数据集的特点一致,将输出与FER2013数据集。他们的面部表情识别的方法给出了一个0.71的准确性。
Devries et al。16)开发出一种方法估算的位置和形状面部地标,艾滋病在面部表情识别的改进。他们的模型包括三个完全连接卷积层,一个完全连接ReLU隐藏层,和一个输出使用L2SVM激活函数。他们使用数据增强技术,如镜像,旋转,缩放和重新安排随机输入照片。他们的方法给出了0.6721的准确性。所有的结果都显示在表1。
汗等。9)表示,面部识别是重要的生物认证,使用在各种各样的应用程序,包括安全。为了实现这一目标,图像处理技术用于更改数据库存储的个人。本研究提出了一种智能玻璃建筑在识别面孔的能力。使用便携式智能眼镜来实现人脸识别可以帮助执法当局承认嫌疑人的脸。它们的可移植性和额上查看安全摄像头捕捉给他们胜过。
Mollahosseini et al。19]介绍了机器学习技术在人脸识别过程中使用其他技术相比,由于其精度高。人脸检测,它使用Haar-like特性,是人脸识别的第一步20.]。使用3099的特性,这种技术的检出率为98%。卷积神经网络(21)、深度学习的一个分支,它用于识别面孔(CNN)。它是一个多层网络,使用分类做一个特定的任务。面部识别,转移学习训练CNN模型称为AlexNet使用。与2500年变化的照片在一个类中,它拥有98.5%的准确率22]。身份验证过程中使用这些智能眼镜可以在安全区域。
费边Benitez-Quiroz et al。17]介绍了动态面部表情识别(带)方法基于双柳架构与空间和时间CNN与局部二进制模式在三个正交平面(LBP-TOP)功能在他们的论文中。建议方法侧重于地理特征有明显表达框架,以及时间信息在所有表达式从nonexpression帧序列,已经改变了23]。通过跟踪时间上的光流信息部分,这个二束架构已经证明识别在视频领域的行动。
Zhang et al。24]提出的方法应用LBP-TOP特性来提取面部表情变化的时空特征的过程,及其有效性证明在这个部门。CK +用于测试该方法。结果是等价的前沿方法证明建议的体系结构的功效。
层等。25]提出的细节EmotioNet挑战的方法和结果11]。这是第一个任务将计算机视觉算法(26)测试的自动分析大量的面部表情的照片在野外的情感。任务是分成两个部分。第一个追踪评估现有的计算机视觉技术的能力自动检测操作单元(au)。我们检查了11个来自特定的检测。计算机的能力区分情感类别(20.在面部表情的照片在第二个跟踪测试。
王等人。2716]调查识别基本情感和复合类型。挑战的结果表明,当前的计算机视觉和机器学习算法无法可靠地实现这两个目标。当试图辨别情绪,目前算法的局限性(22变得更加明显。
Georgescu et al。28]表明,未成年人决议修改,小阻塞,性别,和年龄没有影响目前的算法,但这3 d的姿势是一个巨大的性能限制的问题。我们过去的领域需要解决详细更紧密地向前发展。
Alelaiwi [29日]讨论了智能医疗系统是结合多通道输入时更精确和可靠的。本文提出使用多通道输入系统的用户的面部图像和语音来评估他们的幸福。所有的输入处理,发现被分发到各利益相关者在智能医疗环境基于他们的满意程度。在云处理期间,大量的图像(30.)和语音特征提取。语音和图像特征表示使用定向衍生品和韦伯局部描述符,分别。使用支持向量机,功能集成到一个多通道信号分类器和美联储。该技术具有满足检测精度为93%。实验表明提出的多通道传感器优于现有人力资源single-modal人力资源传感器主要基于rPPG或卡介苗的鲁棒性和准确性。十个病人有100%的成功率识别自己的情绪基于他们放松和紧张的面部表情。每个病人的运动预测精度与准确性31日使用的热图)观察到的情绪。
默罕默德等。32]提出医疗框架使用面部表情识别系统可能受益于这样一个事实:人类面部表情波动作为一个健康的变化。几个实验中使用大量的数据来验证该系统。至少99.95%的该系统的实验结果显示它可以准确地识别面部表情。
Pikulkaew et al。33]说总会有痛苦;因此,本研究着眼于面部表情技术如何帮助那些遭受它。我们有一个过程,可以分类痛苦不痛苦,痛苦,痛苦的痛苦。一个专家医生的结论进行了比较系统的评估系统的总体性能。分类精度99.75%利率不痛苦,痛苦变得痛苦,为92.93%和95.15%的痛苦是痛苦的。总而言之,我们的研究产生了一个简单的、具有成本效益,并简单地理解为公众替代技术和医疗保健34)专业在入学之前屏幕疼痛。这种分析也可以用来发现传染病通过使用疼痛。
先前的研究[35,36)表明,深度学习在许多应用领域带来突破性的成果,包括语音识别和图象识别,在过去的几年里。与其他的事情,我们正试图使用深学习算法(37)检测实时的面部表情。而不是依靠手工制作的基于功能的技术,该系统能够识别使用摄像头和创建基于面部表情(人类情感38]。它可以区分和检测的脸。
3所示。方法
在本节中,我们将讨论我们所使用的模型和方法对表情识别。有不同的数据对应数据集应用于FER2013为了增加样本数据集。随着数据增加,我们设计了卷积神经网络模型通过引入现有的事先模型中残块。我们选择不同的参数优化模型和改进模型的学习。在这项研究中使用的方法是描绘在图1。
3.1。数据增加
数据增加的目的是解决这一问题的有限样本数据集在某种程度上增加数据的多样性。常用的数据对应翻转、旋转、规模、作物,翻译,和高斯噪声以及一些先进的数据增强技术。在本文中,我们使用了随机扩增技术,作物图像数据分成4部分裁剪中心作物和每个图像裁剪的图像填充的镜子。我们还应用随机翻转数据增强技术(19,24,39- - - - - -41]。
3.2。神经网络模型
卷积神经网络(42在我们工作ResNets)模型实现。ResNets如图的基本架构2。ResNets用于处理的问题消失/梯度爆炸时在模型中增加层数导致大错误值的训练和测试(43]。剩余的块使用技术的跳过跳过几层的神经网络连接,直接连接到输出18,27,29日,44]。使用ResNets的优势是它减少了计算加工成本的信息跳过几层几层的神经网络导致模型与现有模型相比几层使用(32,45- - - - - -48]。在我们的模型中,我们有一个池层,两层卷积的64×64,第一次ResNet块使用第二个卷积的输出层和一个512×512回旋的块使用第三的输出。我们也有三分之一卷积层128×128和512的另一个池层和第四个卷积层汇聚层。我们在我们的模型中使用直线激活函数。我们还包括批处理标准化的概念在我们的模型中,以减少内部协方差和不稳定,以避免过度拟合。
参数:用于计算产生的损失模型训练的时候我们将叉损失损失函数。优化培训期间产生的损失模型,我们在亚当优化器已经实现。该方法使用一个周期学习调度器最大学习速率为0.001。使用这些参数我们训练模型最大40时代。与这些参数,我们能达到的最大精度模型FER2013数据集。
3.3。数据
有几个数据集存在的面部表情识别系统。下面介绍了一些最常用的数据集。(我)CK +(2)MMI(3)杰夫(iv)FER2013
图3显示自动收集的样本FER2013数据集使用谷歌图片搜索API。这是一个训练集,验证集和测试集训练,所有的总和23000张照片。每个图像都属于一个类贴上七个通用表达式,“快乐、悲伤、愤怒、厌恶、恐惧、中性,和惊喜。“有35887图像灰度和48×48像素大小。图3显示一个选择照片的数据集。面部表情识别的深度学习模型训练拿来2013数据集。
4所示。结果和讨论
在本节中,我们将提到的结果推导出实现方法中提到的建议的工作。图4显示了包括精度的混淆矩阵每个类以及整体精度FER2013数据集。混淆矩阵所示,我们的模型达到0.70的准确性非常接近的最先进的模型已经存在但层数更少。图5显示精度测试集上训练后的模型。
ResNets和标准卷积神经网络用于面部表情识别FER2013数据集,如图5。
所显示的图6,我们的模型(结果)给出了一个0.70的准确性降低卷积神经网络的层数(20.便宜)导致计算模型比现有的模型,需要几层卷积神经网络的分类。图7证明了循环学习速率对批处理号。
这个模型的精度水平发挥很好的作用在病人监测情况和预测他们的活动通过他们的面部表情。在这项研究中提出的技术将帮助医生改善他们的服务以及计算机作出准确的健康预测22]。
5。讨论
面部表情都提供了大量的非语言信息,可用于研究更好地理解人类情感和意图。我们在这项研究中提出的方法被证明是有效的在病人面部表情识别性能和提供了一种新途径来解决现有的问题提出早期的文献中。我们的新方法使面部表情与更准确有效地识别和分类从而减少计算成本和时间消耗和改善图像识别率。模型改进病人的脸图像分类的准确性。我们的结果表明,深learning-enabled面部表情识别技术提高准确性,更好的面部识别和解释的面部表情和功能提升效率(49卫生部门)和预测。
6。结论
面部表情情感识别是一个迷人的研究领域已经应用在各种情况下,包括安全、健康、和人机接口。研究人员在这个领域努力改善计算机预测通过开发方式解释,编码和提取面部表情。由于深度学习的异常成功,以下几种架构被用于提高性能。
自从我们提出了模型计算更便宜,它可以包含与其他模型中为了提高数据集使用FER2013面部识别系统的准确性。尽管FER2013数据集是一个非常复杂的数据集,每个类有限数量的样品,为了提高精度,每个类的样本数量可以增加了一个最优数量。面部表情识别的概念可以结合自然语言处理(NLP)为了增加自动面部表情识别系统的维数。如果未来实现范围,它可以扮演更重要的角色在e-Health系统和卫生服务提供。
数据可用性
的数据支持本研究的发现可以要求从相应的作者。
的利益冲突
这个手稿的作者宣称他们没有任何的利益冲突。