研究文章|开放获取
Fuguang姚明,刘东秋, ”面部表情识别基于卷积神经网络融合筛选功能的移动虚拟现实”,无线通信和移动计算, 卷。2021年, 文章的ID5763626, 7 页面, 2021年。 https://doi.org/10.1155/2021/5763626
面部表情识别基于卷积神经网络融合筛选功能的移动虚拟现实
文摘
面部表情识别计算机技术可以获得通过的表达人的情感信息来判断状态和意图的人的人。文章提出了一种混合模型,结合了卷积神经网络(CNN)和密集的筛选功能。该模型用于面部表情识别。首先,本文构建了一个CNN模型和学习的地方特色的眼睛,眉毛,嘴巴。然后,本文特征被发送到支持向量机(SVM) multiclassifier获得后验概率的各种特性。最后,模型的输出结果是决定和融合得到最终的识别结果。实验结果表明,改进的卷积神经网络结构ER2013和CK +数据集的面部表情识别率提高了0.06%和2.25%,分别。
1。介绍
面部表情识别计算机技术可以获得通过的表达人的情感信息来判断状态和意图的人的人。具有重要意义在人机交互、安全驾驶、智能广告系统。CK +数据集是一个典型的面部表情库,其中包含表达图像的愤怒,厌恶,恐惧,快乐,悲伤,惊讶的是,和轻视。表达式是视频序列(1]。它包含一系列的图像相同的表达式从平静到暴力。我们可以提取中性表情图片。
受到距离等因素的影响,图像会有模糊的面孔和更少的脸像素的问题。low-pixel人脸图像的表情识别是识别面部图像质量较低和不显眼的面部特征(2]。通过抽样获得的图像大小 ,这是符合low-pixel特征。面部表情图像的复杂性高。当面部特征不明显,我们很难以识别,提取特定的特征信息。面部表情图像的大小 ,有些学者提出了一个面部表情识别方法的基础上,改进LeNetG5卷积神经网络(CNN)。有些学者提出了一个CNN的面部表情识别方法基于局部二进制模式(LBP)。研究表明,美国有线电视新闻网有更好的效果在low-pixel面部表情识别图像。本文在此基础上提高了CNN模型。我们提出一个表达式low-pixel面部图像识别方法,与其他方法进行比较。结果表明,该方法有更好的识别效果。
2。表达Low-Pixel面部图像的识别方法
2.1。面部表情图像后处理
一般表达式识别方法包括图像后处理,面部特征提取、识别和表达。图像表情识别的后处理阶段执行人脸检测获取面部区域图像(3]。在low-pixel面部表情图像的识别还需要图像增强或图像后处理中超限分辨。图像增强是提高图像的现有信息通过改变像素的分布,和图像超限分辨是通过添加像素恢复一些缺失的像素信息。
该方法的图像后处理包括人脸检测和裁剪,灰色处理,将采样数据增强和图像增强。人脸检测的目的是精确校准的位置和大小的脸的图像。我们使用人脸检测的D-lib模型。D-lib模型可以自动估计图像的面部特征点的坐标和过程OpenCV库中的数据。我们使用这种作物图像,图像的特征集中在脸上。灰度处理的过程中,将彩色图像转换为灰度图像。将采样的图像大小是标准化输入CNN模型。我们使用双线性插值,以确保面临重新取样的位置图像与原始图像相同。我们使用图像识别的CNN。训练数据的数量直接影响最终的识别效果。 The larger the amount of data, the better the effect [4]。常用的数据增强方法包括镜像、旋转,增加噪音。这些方法反映了原始数据和旋转不同的角度和方向,提高数据原始数据的13倍。然后我们添加不同的噪声系数(椒盐噪声、高斯噪声、泊松噪声,和散斑噪声)现有的数据,和最终的数据是原始数据增强了130倍。我们进行直方图均衡化图像和使用局部二进制模式获得增强的图像。其中,直方图均衡化也称为直方图压扁。这种方法的本质是非线性拉伸图像,重新分配图像像素值。这样,某灰度的像素值范围是大致相等的。局部二进制模式是一个操作符,描述图像的局部纹理特征。它具有旋转和灰色的不变性。 It can be used to extract local texture features of the image. The specific reprocessing process is shown in Figure1。
2.2。提高卷积神经网络模型
随着计算机处理能力的发展,CNN在图像识别取得了惊人的成果。CNN-based图像识别方法的效率也在不断提高,已逐渐取代了传统的面部表情图像识别方法。在2012 ImageNet面向对象识别的挑战(ILSVRC),一些学者利用CNN模型Alex净赢得冠军。在2014年ILSVRC竞争,CNN模型谷歌网络架构分类中赢得第一名。一些学者提出CNN-VGG网。分类组的第二名和第一名项目组定位。VGG-Net深化网络层的数量,同时避免太多的参数,所有层使用 小内核卷积,卷积层步长设置为1。多重卷积和非线性激活层的交替结构使得提取更深更好的比一个卷积层结构特性。在ResNet ILSVRC2015竞争,学者提出的,赢得冠军5]。名为捷径的连接方法连接ResNet理论上可以使网络处于最佳状态在网络层不断深化。有足够的面部表情的特征信息来优化模型参数以获得良好的识别效果。Low-pixel脸图像需要充分利用不显眼的功能信息。在此基础上,本文提出了一个CNN low-pixel面部表情识别模型图像提取面部特征更好。
输入的图像大小CNN模型 。我们增加数量的CNN层增加网络的非线性模型。这使得决策函数的识别能力更强。避免梯度消失和梯度爆炸引起的深化网络层的数量,需要一个更复杂的网络结构(6]。有些学者提出了一个网络连接结构的高速公路网络。在这个结构的一些特性可以通过某些网络层直接处理,这使得更容易优化结构。结合这个结构和捷径连接,一个简短的方法避免了梯度消失和梯度爆炸问题在使用更深层次的网络。实验使用的CNN模型图所示2。@之前数量特征图的数量,和@后的大小特征映射( )。
我们输入的大小特征地图,内核的卷积和的大小池操作,步长,输出特性图的大小在卷积运算和池操作。它的数学关系
在哪里是特征地图大小卷积或池操作后,的大小特征映射在卷积或池之前,是内核为卷积和的大小池操作,是像素的数量满是零,步长。我们添加的输出张量模型的第三层和第五层获得128的输出张量特征图的大小 。然后,我们通过ReLU第六层的激活函数作为输入。文章补充说第七和第九层的输出张量模型的获取256特征图的大小 。然后,我们通过ReLU第十层的激活函数作为输入。第十二层是完全连接。我们把第十和第十一层的输出通过ReLU激活函数,然后将获得的张量作为输入的第12层。输出是160个神经元(7]。最后一层是将SoftMax分类器。输出是八个网络节点,代表输入图像的概率表达式州漠不关心。表1是模型的具体描述。内容包括模型的每一层的类型,相应的内核大小和步长,每一层的输出特性图的大小。CNN包括三个基本操作:卷积、池、和全连接。其中,卷积卷积也分为内部和外部卷积。换句话说,它是卷积没有0填充和卷积与0填充。本文假设输入矩阵的 。卷积内核的时刻 ,和 的 ;然后,内部的输出卷积操作 。像素在相应的位置可以表示为
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
是相应的乘法和矩阵的行和列 。假设像素矩阵的相应位置是 ,和像素矩阵的相应位置是 。外卷积的定义是馅0,和填充矩阵的行和列相关的行和列的数量矩阵。这篇文章是一个 卷积矩阵,然后执行内部 。这个公式可以表示为
我们池矩阵 。假设它分为不重叠的块,每个块的大小 。矩阵块可以表示为
在哪里元素的行吗和列在矩阵 , 是一个矩阵块组成的吗 矩阵的元素 ,和 。最大池被定义为
平均池被定义为
我们使用重叠块的大小 downsample最大池和平均汇集 ,分别。这个公式可以表示为
每个输出完全的层可以看作是连接节点在前面的层乘以其权重系数 ,加上一个偏差值 。例如,完全连接层的输入 节点。即输入特征地图是256 @ ,和有80个节点的输出。总共 权重系数和80年偏移量参数是必需的。然后,一个元素在它的输出向量可以表示为
的公式,是输入的数量特征图。
3所示。Low-Pixel面部表情识别的实验图像
3.1。数据集的准备
实验使用CK +数据集,这些数据集是用来评估面部表情识别系统(带),也是一个相对常见的面部表情识别的数据集。从123年主题内容包含593个视频序列。时间范围从10到60帧(8]。数据集显示了一系列的图像从平静到暴力。原始图像的数量在不同的表达分布是不均匀的。中性表情图像是图像在表达式的开始或者结束。根据原来的数量分布,我们选择每个表达式的最后1 ~ 3的表情图像序列。总共有686张图片用于建模。80%作为训练集,20%作为测试集。峰值的图像同样的人同样的表达不会出现同时在训练集和测试集。
本文将数据添加到训练集,我们将测试数据获得和ungained测试集相同的训练模式。由于研究发现,识别精度的差异很小,没有数据获取处理在测试集上。最终的图像训练集的大小是71370,和测试集的图像大小是137。我们执行在所有图像直方图均衡化和局部二进制模式获得三个相同大小的数据集,包括原始图像(9]。表28表达式的显示图像的数量在每一个测试集和训练集。八个表情,原始图像的直方图均衡化后的图像,图像的局部二进制模式如图3。
|
||||||||||||||||||||||||||||||||||||
3.2。评估标准
面部表情识别的主要评估标准方法识别的准确性和识别速度。正确识别准确率的比例是公认的表达式在测试集样本在所有测试集样本的数量。识别速度后,需要认识到每一个测试集样本建立了识别模型。的时间所花费的时间的比率确定测试组测试集样本的数量。
在哪里识别准确率,在测试集样本的总数,指标函数,是给定的样本,样品通过后的输出模型,是一个给定的标签样本,识别速度(10),而所花费的总时间。我们可以通过时间减去第一个测试样本被时间后测试样品是公认的。
3.3。实验过程
因为输入CNN图像像素很低,输出识别效果略有波动,所以我们引入了决策融合和最终的图像识别。在测试阶段,我们使用五个训练网络模型来判断测试集数据,分别。然后,我们使用将SoftMax平均投票(干腊肠)方法融合判决这5个模型的结果。最后,我们得到最终结果,提高识别效果。测试步骤如图4。
它可以看到从一节2.2CNN的输出是一个维向量。向量中每个元素的值的概率是图像可能是一个特定的类别。SoftMax平均投票是平均五个训练有素的cnn的输出结果。把三个实验的平均值从年底的最可能的结果。显卡是940 mx NVIDAGe力量。主频率为1122 MHz,和2.00 GB的内存。的操作系统是Linux Ubuntu 16.04。该软件是Python 3.6, NVIDIA CUDA和cuDNN库。我们采用了培训策略来提高识别精度是添加批量标准化(BN)和ReLU激活函数每次卷积和汇聚层。这可以克服梯度的消失和加快训练速度。
我们选择性地添加L2正规化和辍学缓解过度拟合。采用学习速率衰减策略。我们选择一个更大的值开始学习速率。后轮迭代中,最初的学习速率的衰减是1/1011]。我们使用亚当优化算法在优化过程中,使网络快速找到全球最好的优势。数据集是原始图像,图像的直方图增强、和当地两个。CNN模型训练特征地图使用价值模式,同时,我们网络的参数调整。
根据测试的准确性,我们首先确定我们是否需要添加的L2正规化和辍学一层一层,然后确定哪些地方。我们确定学习速率的近似范围根据损失在训练,训练,和测试精度。两个二分法获得学习速率。
3.4。结果分析
找到最优的面部表情识别系统,我们输入的原始图像数据集,本地二进制模式特征映射的数据集,CNN的直方图均衡数据集模型。平均识别精度和速度得到结果如表所示3。这个实验是三个实验的平均值。
|
||||||||||||||||||||||||
它可以发现,直方图均衡化后的输入数据集的准确性比原始图像的数据集。数据输入的准确性作为局部二进制模式特性映射是最差的。有三个之间的速度差异不明显。数据的识别速度设置输入本地二进制模式特征映射稍快,但是0.29秒的速度有一个小的优点相比,3.6%的准确性。分析不同的数据集在图3,我们认为某些数据的增强将加强图像信息,提高识别精度。因为数据的原始像素太低,我们直接提取特征映射的局部二进制模式,这将增强纹理信息而失去更多的信息(12]。因此,速度是最快的,当精度最低。实验最后选择数据集通过直方图均衡化增强输入CNN模型。我们添加L2正规化和辍学后第12层。辍学参数为0.7,和学习速率的初始值是0.0001。1000次迭代之后,它1/10的初始学习速率衰减。表4的三个实验结果显示改进CNN模型CK + eight-expression识别的数据集。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表可以看出4高兴和惊讶表情的识别率更高。可怕的识别率很低,波动很大。一方面,它可能是第一个两个特征更明显,而害怕和悲伤在某种程度上也有类似的特征。另一方面,CK +数据集,前两个表达式的原始数据量雄厚,和可怕的数据的数量很小。共有15个图片是可怕的测试集。只有五个不同的表情图像原始数据。这导致不平等的培训时间。验证的影响建立识别模型,我们输入JAFFE数据集作为测试集来确定其他表达式除了轻蔑的表情。三个结果的平均识别精度为82.4%。
证明该方法和决策融合方法相关low-pixel面部表情识别的图片,我们在两种情况下进行实验,分别为(13]。一个是替换改进CNN模型与经典的浅LeNetG5卷积神经网络。第二个是尝试不使用决策融合。表5显示的平均识别准确性和比较三个实验在上面的两种情况。
|
||||||||||||||||||
从表可以看出3改进的CNN模型增加了15.9%相比LeNetG5网络识别精度。这证明该方法更适合表达承认low-pixel脸图像(14]。决策融合后的识别精度高于2.6的网络没有决策融合。主要原因是实验效果不稳定,三个实验中,两个实验的识别精度约为90.0%。一个实验的结果是83.9%。然而,每个实验结果的方法获得的平均五个训练网络模型,及其整体稳定性相对较高。这证明这种方法在实践中是有效的和可行的。
近年来,面部表情识别的方法面对图像的大小 提出了一个接一个。CK +数据集,有些学者提出了一个交叉连接LeNetG5 CNN。我们执行的七个分类不包括中性表情的图像,识别准确率是83.74%。有些学者提出了一个浅CNN达到7大类识别精度为97.38%。这是高于该方法的识别精度。
4所示。结论
针对low-pixel脸上的表情识别图像,提出了一种改进的CNN表情识别方法。这篇文章增加网络的非线性模型通过添加一个回旋的层。我们可以学习更层和反映图像信息提取图像特征。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由重庆大学教育的科学研究平台,大数据体育与健康实践平台基于校园物联网,2017号xjpt07;未来的学校(幼儿教育)的国家教育中心中国发展计划,研究基于物联网智能幼儿园的建设,没有。CSDP18FC3204;和重庆人文社会科学重点研究基地“重庆城乡教师教育研究中心整体发展,“18 jdzdwt04。
引用
- f .香港”,面部表情识别方法基于深卷积神经网络结合改进的LBP特征,“个人和无处不在的计算,23卷,不。3 - 4、531 - 539年,2019页。视图:出版商的网站|谷歌学术搜索
- j·赛义德,a . m . Abdulazeez面部美容预测和分析基于深卷积神经网络:复习一下,”杂志的软计算和数据挖掘,卷2,不。1、1 - 12,2021页。视图:出版商的网站|谷歌学术搜索
- x周”,视频的表情识别方法基于递归神经网络和时空特征融合,“杂志的信息处理系统,17卷,不。2、337 - 351年,2021页。视图:出版商的网站|谷歌学术搜索
- x, y, h . Yu j .董m .剑和t·d·范教授,“基于区域并行卷积神经网络自动面部神经麻痹评估,”IEEE神经系统和康复工程,28卷,不。10日,2325 - 2332年,2020页。视图:出版商的网站|谷歌学术搜索
- g . Yolcu Oztel, s .喀山et al .,“面部表情识别基于卷积神经网络监测神经障碍,”多媒体工具和应用程序,卷78,不。22日,第31603 - 31581页,2019年。视图:出版商的网站|谷歌学术搜索
- m . z . Lifkooee O。m .党的,k . Sekeroglu”视频挖掘面部动作单元分类使用统计时空特征图像和日志深卷积神经网络,”机器视觉和应用程序,30卷,不。1,41-57,2019页。视图:出版商的网站|谷歌学术搜索
- j·k·公园和d·j·康“统一卷积神经网络直接面部检测要点,”计算机视觉,35卷,不。11日,第1626 - 1615页,2019年。视图:出版商的网站|谷歌学术搜索
- k . s . Yoon和崔j.y.”压缩的卷积神经网络与全球和当地的面部特征改进的人脸识别,”朝鲜日报》多媒体的社会,23卷,不。8,1019 - 1029年,2020页。视图:出版商的网站|谷歌学术搜索
- x锅”,融合猪和卷积神经网络时空特性视频面部表情识别,”专业图像处理,14卷,不。1,第182 - 176页,2020。视图:出版商的网站|谷歌学术搜索
- n . Mehendale“面部情绪识别使用卷积神经网络(FERC)”SN应用科学,卷2,不。3、1 - 8,2020页。视图:出版商的网站|谷歌学术搜索
- h .足立,k . Oiwa和a . Nozawa“嗜睡水平建模基于面部皮肤使用卷积神经网络温度分布,“电气和电子工程IEEJ事务,14卷,不。6,870 - 876年,2019页。视图:出版商的网站|谷歌学术搜索
- p·巴罗斯:Churamani, a . Sciutti”facechannel:速度与激情深对面部表情识别,神经网络”SN计算机科学,1卷,不。6、1 - 10,2020页。视图:出版商的网站|谷歌学术搜索
- h·廖g .温、胡y和c . Wang“卷积草药处方从多尺度面部特征,构建方法”多媒体工具和应用程序,卷78,不。24日,第35688 - 35665页,2019年。视图:出版商的网站|谷歌学术搜索
- A . Satapathy和l . j·利文斯顿,”lite卷积神经网络建立在交换Xceptio-inception面部活性和Xceptio-reduction模块基于纹理识别,”多媒体工具和应用程序,卷80,不。7,10441 - 10472年,2021页。视图:出版商的网站|谷歌学术搜索
版权
版权©2021 Fuguang姚明和刘东秋。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。