文摘
识别面部表情准确、有效的医疗等领域具有十分重要的意义。针对传统方法的低精度的人脸识别问题,提出了一种改进的面部表情识别方法。该方法进行持续的对抗训练之间的鉴别器结构和发电机结构生成对抗网络(甘斯),以确保增强检测提取图像特征数据集。然后,面部表情的高精度识别是实现。减少计算量,GAN发电机改进基于残余网络的想法。首先降低维度,然后图像处理,确保高精度的识别方法,提高实时性能。论文的实验部分使用JAFEE数据集,CK +数据集,FER2013仿真验证数据集。该识别方法在不同大小的数据集显示了明显的优势。平均识别准确率是96.6%,95.6%,和72.8%,分别。它证明了方法的泛化能力。
1。介绍
识别面部表情可以提供一个更全面的了解人的内心世界1]。它有许多应用在医学、交通、文化、教育(2- - - - - -5]。因此,面部表情的识别和分析具有重要的研究意义和价值。
目前,某些研究人员对图像表情识别进行了研究,其目的是准确地分类和识别七个基本情绪表情的面部图像(6,7)包括愤怒,厌恶,恐惧,快乐,悲伤,惊讶的是,和中立。
传统的面部表情特征提取使用数学方法来计算和处理面部表情图像。主要是,它可分为两种情况进行处理静态图像和动态图像。统计方法、伽柏小波和局部二进制方法属于静态图像的特征提取8,9]。几何法、光流法和模型法属于动态图像的特征提取(10- - - - - -12]。然而,有图像采集的多样性和复杂性。传统的面部表情识别方法面临的问题是非线性样本数据的不确定性。面部表情特征提取中选择特性没有良好的表现能力(13),需要提取手动根据人们的经验。这些问题将会有一个伟大的对模型的识别精度的影响,导致可怜的泛化能力。
应该注意的是,面部表情识别的研究中,其实质是优化和分析大量的数据(14,15]。受益于人工智能技术的发展和大数据技术,深层网络模型可以有效地从大量的多维图像数据中提取有效的图像特征通过不断迭代学习的多层网络。基于其强大的学习能力,与传统的面部表情识别方法相比,它可以将面部表情更准确和迅速16- - - - - -19]。文献[20.]分析了时间序列的面部表情信息的基础上,部分原因分层双向递归神经网络和数据集提取面部时序特征。它可以全面分析面部表情。文献[21)提出了一种基于融合的方法深度信念网络(DBN)和地方特色。该方法提取的眉毛,眼睛,嘴与当地丰富表达的信息表达图像。它还结合了Log-Gabor特性和纹理信息和梯度方向的二阶直方图特性实现面部表情识别的形状信息。文献[22)结合时空特性和使用深层残留网络中提取特征。文献[23)使用三个通道图像,提取的特征表达。然后,提取功能连接和发送到下一层进行处理。
考虑到以前的工作,网络设计本文主要有以下创新:(1)通过持续的对抗训练GAN生成器和鉴频器的深度提取处理表达式实现数据集的特点从而提高相应的面部表情分类和识别的性能。(2)网络的性能和速度提高。添加剩余的概念网络的发电机网络提高了运行效率,同时保证准确性。此外,第二部分介绍了相关的理论方法。第三部分介绍了改进的网络和解释的结构网络中鉴别器和发电机。第四部分介绍了基于不同数据集的实验结果和分析。第五部分是结论。
2。相关的方法和理论
2.1。一般步骤
人脸识别技术包括四个步骤。他们是人脸检测,脸对齐,脸表示,面对匹配,如图1。人脸检测模块用于检测在输入图像的位置。周围的脸对齐模块自动定位要点脸根据输入如眉毛,眼睛,角落的嘴,鼻子尖和轮廓点。脸特征定位是一个图片上面的两个步骤,从它,或者将它转换成一个特征向量。面对匹配部分,提取的特征向量与这些数据库将用于比较。基于两者之间的相似性,可以确定他们是否属于同一个人在数据库中。
需要对图像预处理来提高判断的准确性(24]。传统面临关键检测算法的优点是清晰的架构和容易理解。然而,运行效率不高,不适合处理大量图像。
脸特征处理和分析,数据特征向量通常包含如眉毛的位置信息,鼻子,眼睛,甚至轮廓和形状等附加信息。比较经典的方法包括猪方法,Haar小波方法,eigenface方法。然而,传统的方法是用来提取人脸的前面,但侧面的效果不够好(25]。
面对匹配通常比较提取的人脸特征向量与这些数据库。如果特征向量的距离近,身份信息输出。如果没有匹配的所有面孔数据库,输出不能认可。
2.2。卷积神经网络(CNN)
CNN擅长处理图像(26]。传统的人脸识别方法效果差面临复杂的场景。CNN-based深学习方法可以自动提取功能基于大量的图像数据,在复杂的场景表现良好。
CNN模型本质上是一个很深的前馈模型,通过反向传播更新参数。为了获得更好的结果,它通常需要设计卷积层的核心和汇聚层。他们将不断获得更好的图像特征相结合。
2.3。生成对抗的网络
由于其多层网络结构,卷积神经网络也有太多问题的网络参数设置,使CNN人脸识别培训过程非常脆弱27]。人脸识别研究和分析,微妙的变化在CNN结构或参数的调整将导致偏差的识别结果。
作为深度学习模型广泛应用于当前的图像分析,氮化镓可以解决的问题通过对抗性的学习方法训练过程的不稳定。
甘一个典型的由两个部分组成,即发电机G和鉴频器D。在培训期间,这两个子网玩一个游戏,如图2。
首先,生成的图像和真实图像输入鉴频器同时,鉴频器是训练。随着培训过程的进行,生成器生成的照片变得越来越现实,和鉴频器的分类能力逐渐提高。最后,培训过程达到收敛。鉴别器无法识别真假的输入图像,生成的图像也是一样的真实形象;也就是说,达到纳什均衡状态。整个游戏的训练过程可以被描述在接下来的价值功能 : 在哪里和预期的功能;x是真正的形象;z是输入的图像生成器。G将变量z到的概率生成的图像转换器是一个真正的形象。的变量z基本上是一个样本的分布 。理想的分布数据分布应该收敛 。实践证明,在发电机,最大化对数比减少对数 。
自甘网络有两个模型,鉴频器的损失如下:
当培训损失函数发生器,默认鉴别器有最好的能力。的是一个常数,因此发电机的损失如下:
3所示。方法
3.1。鉴频器网络
甘的鉴别器网络,本文使用VGG-16网络骨干网络结构(28,网络结构如图3。使用或 作为输入, 和 。当输入 ,正确的鉴频器的输出是1和正确的输入输出 鉴频器是0。Leaky-ReLU作为非线性激活函数在每个卷积层鉴别器。
首先,两个卷积和池操作上执行图像,和每个操作包括两个隆起和最大池。然后,三个卷积和池操作执行,每个操作包括三个卷积操作和最大池操作。最后,还有三个完全连接层和一个Softmax层。与传统生成对抗网络相似,鉴别器主要是法官鉴别器输入图像的真实性。输入图像生成的图像大小和尺寸一样,都是3×48×48。敌对的损失定义如下: 在哪里是真正的形象,是提取器的特性,器的参数特性,是一个功能合成器,是合成器的参数特性,鉴频器,鉴频器的参数,鉴频器的损失计算功能。然后,总损失函数如下:
3.2。发电机网络
发电机在GAN使用网络 图像作为输入,其中 , ,网络结构如图4。一些以前的分割方法使用encoder-decoder [29日]。这个结构down-samples然后逐渐标本。
本文使用一个u形结构生成器。特征提取器是用来提取输入图像的特点。图像输入分辨率3×48×48岁,和骨干网络使用ResNet-18 [30.]。与传统网络生成对抗,发电机的输入不是随机噪声,但面部表情图像。首先,特征提取器执行一个3×3输入图像卷积操作 步长为1。然后,有批规范化和ReLU。其次,分别执行卷积操作4模块。然后,平均池操作执行卷积后,窗口大小是2×2。辍学后平均使用池操作。最后,提取的特征输入到两个完全连接层和一个Softmax层。512维的特征向量分为7种面部表情,和面部表情识别结果。分类损失分类器被定义为 在哪里原始输入图像,器的参数特性,是提取器的特性,是分类器的参数,分类器,是真正的标签,然后呢是损失的分类。
同时,本文将剩余模块添加到发电机,如图5(a)卷积向前传播的结构单元如图5(b)。
(一)
(b)
通过发电机和鉴别器之间的对抗训练,特征提取器提取特征的能力和鉴别器的识别能力提高。合成器的特性是对称的结构特征提取器,主要由卷积层和一个upsampling层。连续卷积和upsampling操作后,生成的输出图像恢复到原来的大小。
4所示。实验结果和分析
实验使用TensorFlow框架来实现网络模型训练模拟数据集。为了确保实验的质量,Python作为编程语言。和NVIDIA CUDA 9.0用于GPU加速计算。人脸识别的特定的系统开发环境模拟实验如表所示1。
4.1。参数设置
人脸识别网络训练时,优化方法采用SGD,动量参数设置为0.9,体重衰变率是10−4。学习速率是减少乘法初始的策略lr= 3×10−3由(1 -当前的_iter/马克斯_iter)权力在哪里权力= 0.9,current_iter当前的迭代次数,max_iter在培训过程的最大迭代数。判别网络,亚当的优化方法,贝塔∈(0.9,0.99),和最初的lr= 1×10−4。学习速率降低的策略是一样的方法分割网络培训。考虑到GPU内存限制,实验中的图像大小设置为348×348像素。
4.2。评价指标
度量性能的鉴定方法,应该使用客观、公正评价指标。准确性(AC)、精密(P和回忆R)是在大数据的影像分类研究中,常用的指标,可以用于分析人脸识别的性能结果。计算公式见公式(7)- (9)。
P代表了多少样品,模型的预测是正真类别。R表示为模型的预测类别中有多少是正面例子在真正的类别的样本是正的。
对于分类问题,组合模型的预测结果与真实的样本的类别可分为真阳性(TP),真阴性(TN),假阳性(FP),和假阴性(FN)。
的精度和召回率可以表示为一个混淆矩阵,如表所示2。
同时,损失价值函数c用于评估模型和测量的质量培训GAN模型的性能。适当的迭代次数决定培训过程中的歧视。摘要叉是用来表达概率损失预测样本属于哪种类型的输入,和它的表达式如下: 在哪里y是真正的分类价值,一个是预测值,c代表了失去价值。
4.3。培训过程
甘我们分析识别和分类的性能模型,收集数据和探索集合数据训练的收敛过程。图6显示了收敛性能数据集训练过程的表达式。
在第十次迭代中,训练集样本的识别精度达到了95%。15年底迭代,精度大约是接近100%。同时,通过每次迭代的损失函数的数值分析,可以知道,训练集已经迅速和有效地衰减前10日迭代。在18迭代,损失函数值接近于0。总之,氮化镓的改进的表情识别方法具有良好的收敛性能。
4.4。仿真分析的实验数据集
实验仿真分析进行了使用中提出的方法引用(21- - - - - -23),这篇论文。来验证提出的识别方法的泛化性能数据集的大小不同,小,中,和大型实验模拟数据集选择JAFEE数据集,CK +数据集,FER2013数据集。
JAFFE数据集是由迈克尔里昂团队。收集到的图像数据在这个数据集包含10个日本女性参与者的表情,共有213的面部图像。JAFEE数据集包含7种基本表情:愤怒,快乐,悲伤,惊讶,恐惧,厌恶,和中立。
CK +数据集来自帕特里克Lucey团队在Cohn-Kanade数据集的扩张。CK +数据集收集123面部表情图像的不同的人,共有593个表达序列和951图像样本。图像像素大小是3×48×48。
带2013数据集来自Kaggle竞争,由35886名面部表情图片。有28708个测试集,3589所公立验证集,和3589年私人验证集。每个图像由48×48灰度图像。
4.1.1。JAFFE数据集实验
本文选择JAFFE数据集作为一个小数据集来模拟和验证提出GAN面部表情识别方法的性能。表3显示了稳定的结果基于JAFFE数据集下的不同的方法。
从表可以看出3面部表情的识别JAFFE数据集,我们的方法的准确性为96.6%。它是0.9%,2.1%和2.3%高于引用(21- - - - - -23]。该方法没有明显优势的比较方法模拟运行时。因此,我们认为,当执行表达式识别在小数据集,本文中的方法可以选择高效的歧视。
10/24/11。CK +数据集实验
CK +数据集作为一个中等规模的数据集用于面部表情识别在这篇文章中,和不同的方法也用于比较分析方法。CK +数据集下的人脸识别性能不同的方法如表所示4。
从表可以看出4我们的方法的准确性为95.6% CK +数据集,在文献[高出5.3%23]。文献[使用的相23有更多的网络层。有问题的消失网络梯度在训练,导致一个大缺口识别精度相比之下,我们的方法。本文的仿真时间识别方法是84.23秒,这是比文献[5.3秒短21]。与文献[23),仿真时间相对较近,但参考(23没有优势在识别精度。因此,甘证明具有良好的准确性和面部表情识别的实时性能中等体积的数据集。
4.4.3。FER2013数据集实验
表5显示了大型数据集的仿真分析结果用不同的面部表情识别和分类的方法。
从表5,表情分类和识别的准确性FER2013数据集的所有方法都是低于75%。这是因为有一定数量的错误标签FER2013数据集。所有这一切导致识别方法的准确性较低。然而,我们的方法精度最高的72.8%。我们的方法的运行时间是134.23秒,这是缩短超过10年代相比,引用(21- - - - - -23]。因此,氮化镓的改进的表情识别方法提出了还可以用于大规模数据集的分析。
为了进一步说明识别性能,混淆矩阵用于显示和说明我们的方法的识别结果,如图7。方法识别的准确性的愤怒,厌恶,恐惧,快乐,悲伤,惊讶的是,和中立的表情是65%,62%,57%,88%,58%,85%,和67%,分别。
图7表明,在识别方法执行好“快乐”和“惊讶”,准确率达到了88%和85%,分别。此外,它可以注意到的“恐惧”的面部表情识别能力产生对抗网络低,准确率57%。这是因为在2013年带标签的数据集是不好的。
总之,与其他方法相比,我们的方法具有较高的准确性和操作效率不同体积的数据集。这表明我们的方法具有良好的泛化能力。
5。结论
本文提出一种基于氮化镓的面部表情识别方法。这种方法是基于连续甘发电机结构和鉴别器结构之间的对抗训练,实现准确的提取数据集的特性,保证了准确识别面部表情。GAN网络,通过改善发电机结构残余网络与图像处理技术相结合。因此,确定网络模型的计算量减少。最后,基于一般数据集的大小不同,我们的方法是验证有效的面部表情识别的性能。这是证明了我们的方法在识别精度和处理速度有明显的优势。
在未来,我们还计划增加一个注意机制对网络的进一步提高准确性和修剪网络来提高效率,努力实现工业化。
数据可用性
本文中包含的数据是可用的,没有任何限制。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的“软件工程”(主要科目的教育建设项目)在广东大学。