文摘
先进的面部表情的方法优于人类,特别是由于卷积神经网络(cnn)的成功。然而,大多数现有的工作重点放在分析一个成年人的脸和忽视最重要的问题:我们如何能从婴儿的脸图像和识别面部表情有多困难?在本文中,我们首先介绍一个新面孔的图像数据库,命名BabyExp,其中包含婴儿两岁以下的12000张照片,每张图片是三种面部表情(即。快乐,悲伤,和正常)。我们所知,该数据集是第一个娃娃脸的数据集分析婴儿的脸的形象,这是补充现有的成人脸的数据集,可以阐明探索娃娃脸分析。我们也提出一个功能引导CNN方法新的损失函数,称为距离损失,优化阶级之间的距离。为了方便进一步的研究,我们提供基准BabyExp表情识别的数据集。实验结果表明,该BabyExp网络的识别精度达到87.90%。
1。介绍
面部表情起着重要的作用在人类的交流。能够区分真正的显示带来的情感体验的处理日常社会交往是很重要的。人类和计算机算法可以大大受益于能够区分真正的表达式的构成。自动面部表情识别可能的应用包括更好的转录的视频,电影,或在远程医疗广告建议和检测的痛苦。因此,面部表情识别已经吸引了大量的注意力在过去的二十年里1- - - - - -6]。面部表情识别的发展在很大程度上依赖于一个适当的面部表情的数据库。然而,由于面部表情的本质,有数量有限的公开数据库提供足够数量的面部图像标记准确的表达信息。表1显示现有的图像数据库的主要区别与图像的数量,数量的主题,表达分布,公布的数据大小,和年。然而,大多数现有的工作和数据集7- - - - - -11)重点分析成人面孔,忽略如何分析面部表情从婴儿的面部图像。虽然一些数据集包括儿童,有很少的照片非常年轻的孩子。这些数据集是专门设计来探索孩子的表达。有两个主要原因缺乏娃娃脸的研究分析。第一个原因是,社区还没有意识到的应用价值分析婴儿的面部表情。事实上,有许多的应用分析婴儿的面部表情,如广告营销的父母,智能家庭照顾孩子,和科学育儿。第二个原因可以追溯到获得的额外挑战娃娃脸标签数据集与精确表达式。
我们都知道,0 - 2岁婴儿是一个发展的黄金时期,奠定了坚实的基础为他们一生的身心健康。因此,它是有价值的开发算法解释婴儿的面部表达科学育儿的信号。此外,由于国家政策的支持和人们日益增长的关注孩子的成长和发展,教育市场不断扩大。准确识别面部表情的婴儿是促进科学教育的发展具有重要意义。所有这些真正的需求带来了强大的动力识别研究婴儿脸上的表情。
最近,研究人员已经意识到孩子的面部表情的重要性,为了研究发育表达这些数据集的解释。例如,新NIMH儿童情绪的脸图片集合(NIMH-ChEFS)包含10到17岁的儿童的照片(12),内梅亨面临的数据库包括8至12岁的孩子的照片(13],咖啡厅设置功能2 - 8岁儿童的照片(14]。尽管这些新的数据集给研究人员可以选择使用一个示例2-17岁儿童,没有数据集功能较小的孩子。相反,所有上面提到的数据集对儿童的面部表情只有少量的图像,不适合培训卷积神经网络(CNN)模型。此外,这些数据集包含的面部图像构成表情lab-controlled环境。
在本文中,为了解决上述问题,我们提出一种新的图像数据集与表达标签自动面部表情识别的婴儿的脸。我们的数据集,这叫做BabyExp数据集,包含超过12000个图像从两岁以下的婴儿表现出自发的表情在一个不受控制的环境中。每个面图像与三种面部表情(即注释。快乐,悲伤,和正常)。补充现有的成人脸的数据集,可以阐明探索娃娃脸分析。我们的主要贡献是总结如下:(1)我们提出一个面部表情数据集,名叫BabyExp,其中包含超过12000婴儿的图像显示自发真正的表情在一个不受控制的环境中。每个图像与三种面部表情(即注释。快乐,悲伤,和正常)。(2)我们提出一个新的距离损失函数来有效地提高类之间的距离的区别的能力在无约束的面部表情识别任务。(3)为了促进进一步的研究,我们提出了一种新的方法,面部BabyExp数据集分析和评价其性能。实验结果表明,该网络达到87.90%的识别精度BabyExp的测试集。
2。材料和方法
2.1。数据收集
我们的娃娃脸生成静态图像和视频序列图像上传的父母使用智能手机。我们将介绍在以下BabyExp预处理的数据集。原始图像和原始视频数据,我们首先进行人脸检测,然后进行裁剪,最后进行图像相似度检测。详细描述可以在下面找到。
2.1.1。图像预处理
对于图像处理,我们首先使用Dlib视觉库(15)和OpenCV视觉库对原始图像进行人脸检测和种植。在人脸检测中,我们采用以下策略。首先,如果出现一张脸,面对部分提取。第二,如果没有检测到面部检测期间,我们顺时针旋转图像270度90度。如果一张脸出现在三个旋转检测流程,然后我们作物并保存面临的形象。最后,如果有两个或两个以上的牌面图像中检测到,我们将假定这张图片有一个成年人的脸或者脸,不是一个人脸但误认为是一个人的脸。然后,我们将放弃这些图像。
重要的是要注意,原始图像的面积的婴儿的脸不是很大。在这一点上,这张照片是多余的。如果是直接使用培训,模型收敛缓慢,导致可怜的测试结果。为了减少大量的nonface图像中的信息,因此,在使用上述Dlib人脸检测策略,裁剪的脸时,我们根据特定作物面临区域人工策略并保存它。的主要目的是获得一个无噪声的和高质量的娃娃脸图像数据集为了获得一个更好的模式在培训过程中,测试过程中更好的精度。然后我们农作物的原始图像根据新的图片裁剪的图像大小和最后正常化(标准化的大小是256256)。
2.1.2。视频预处理
我们部分原始的视频数据,采取每30帧图像,然后执行相同的过程为静态图像数据预处理从视频帧图像,检测,旋转,最后裁剪婴儿的脸的照片。应该注意,因为通过截取视频帧照片可能有很大的相似之处,许多图像冗余,所以唯一不同的操作不同于静态图像,图片裁剪并保存后,我们需要过滤的图像执行图像相似性匹配操作。我们使用SSIM [16)进行相似性匹配和指定删除图像相似度大于90%。
2.2。数据注释
预处理后,我们得到了7600张图片,我们将与面部表情标签图片。因为婴儿都在0 - 2岁的阶段,他们的表情不等的成年人。出于这个原因,我们特别挑选的三个主要的婴儿(即表达式。,正常的,悲伤和快乐)BabyExp数据集。标记过程分为三个步骤:手动标签,标签的统计分析,和标签聚合。
在手动标记步骤中,10评级机构来自哈尔滨工业大学被选来手动标签数据。没有给出任何信息,受试者被要求对照片进行分类根据自己的经验。为了节省时间和提高分类效率,我们使用c++语言设计一个手动标记工具手动分类和记录人类的表达式的求值程序选择标签。对于每一个输入图像,我们要求10评级标签3情感类型和1的图像到一个错误折叠:快乐,悲伤,正常的,和错误。评级机构都需要为每张图片选择一个情绪。标签后,将会有四类,即。、快乐、正常的,悲伤,和错误。错误类别代表不是一个人脸图像或面对尚不清楚。
第二步是标签统计分析。10人的手工标记完成后,有必要分析表达式在所有类别。统计的结果是一个表达式的类别选择10人/图片。与标签从10评级机构对于每个脸图像,我们可以生成一个概率分布的情感被面部表情。让表示数量的训练例子 。考虑到 - - - - - -th例子 ,其标签从评级机构分布可以表示为 。自然,我们有
最后一步是聚合每个图像的标签。第二步后,我们需要的标签聚合每个表达式生成的10人。合并后的标记结果是快乐的,正常的,悲伤,和错误。在大多数现有的面部表情数据集,每个面部图像只与一个单一的标签。如果有多个标签的图片,它是自然分配图像最大的标签 。我们尝试多数投票方案。更正式,我们创建一个新的目标分布。
处理后,当遇到一个图像,某种类型的表达式将被选中,这意味着图像对应的类别。如果一个图像具有相同标签的人都有投票的最大数量,图像不是机密,和他们两次,以确定婴儿的表情图像的标签。最后,最后,我们2502年获得快乐图片,4028正常图像,和1070年悲伤的图像,如图1。它可以清楚地看到,这三个孩子表达的表达分布数据集是不平衡的。这是因为婴儿不同于成年人拥有丰富的表达导致均匀分布表达式。自表达式从0到2岁的婴儿仍然是发展中国家和表达式类型相对单调,特别是在缺乏外界干扰的情况下,大多数时候,宝宝处于平静状态的笑声和最后,悲伤的状态,所以我们可以看到,正常的比例比较大,和悲伤的比例相对较少,这是非常符合宝宝的表达特点,但不平衡数据可能产生强烈影响的研究实验结果的准确性;一个解决方案是使用数据扩充和综合平衡的分布类在预处理阶段。
2.3。数据增加
根据上面的数据集的信息,有一个不平衡的数据集,这将影响后续实验工作。尽管深度学习有很强的学习能力特点,一些技术障碍阻止他们成功的应用到我们的数据集。首先,深层神经网络需要大量的训练数据,以避免过度拟合。此外,模型训练使用不平衡面部表情样本泛化能力不佳,容易过度拟合,说明在实验中我们介绍了在实验部分。所以,我们需要执行数据增加促进平衡和促进深度学习的使用实验的方法。
目前,生成对抗网络(甘斯)17)是一个受欢迎的机器学习领域的研究方法。其基本思想是在博弈论来源于两个玩家的游戏。在GAN框架中,“发电机”网络负责愚弄“鉴别器”网络相信自己的样品是真实的数据。甘受的成功应用领域的形象风格转移,该项目将使用氮化镓作为网络模型进行图像增强处理。我们可以使用生成的生成模型来生成面临着除了随机噪声的具体表达式。许多不同类型的甘斯需要配对数据集的图像传输方式。婴儿表情图像悲伤和快乐的表情没有成对的数据对应于相同的婴儿的正常表达,所以这部分的研究内容将画上的重要思想CycleGAN [18)不对称培训未配对image-to-image翻译。这部分的研究内容主要包括数据增加悲伤和快乐的面部表情图像基于CycleGAN婴儿面部表情不平衡数据。
CycleGAN体系结构包含两个发电机和两个敌对的鉴别器:发电机,发电机B,鉴别器,和鉴别器B,发电机Generated_B试图生成图像,类似于图像域B,而鉴别器B旨在区分翻译样本Generated_B和实际样品B算法的整体结构在我们的数据扩充设计如图2。发电机输入正常图像和输出快乐表情图像Generated_B表达式。Cyclic_A发生器产生的B Generated_B又回到原来的正常表达的形象,在Cyclic_A叫做A .发电机B的循环图像输入快乐表情图像B和输出正常表达Generated_A形象。Cyclic_B生成通过发电机,Generated_A带回原来的快乐表情图像B Cyclic_B叫做圆图像的鉴别器是用来区分真假输入正常表达的形象,和鉴别器B是用来区分真假输入的快乐表情图像,分别。同样,悲伤的表达式的数据增强结构相同的过程,幸福的表情,这里不详细描述。
必须指出,由于正常表达的数量是足够的,我们只有提高了悲伤和快乐的表情图像数据。最后,CycleGAN数据增大后,1498年快乐表情图片和2955悲伤表情图像最后选择和生成。面部表情的总量数据我们得到如表所示2。可以看出,数据增大后,4000年我们获得快乐的图片,4028正常的图像,和4025悲伤的画面。我们有12053婴儿面部表情图像。我们称之为BabyExp数据集,其中4453生成图像。三个面部表情的数据量已经达到一个平衡状态对未来学术研究。
2.4。提出的方法
整个管道的深度学习的方法是描绘在图3。我们建议的框架,称为VFESO-DLSE,由四个模块组成:特征提取、功能细化,协方差池和CNN的分类。我们也提出一个新的损失函数,称为距离损失,表示 。
2.4.1。距离损失
分钟夏et al。19)发现功能约束有助于扩大不同年龄段的特征距离特征空间面对图像分布具有类似特征。灵感来自于这一点,我们提出一个新颖的损失函数,称为距离损失,这需要强大的特性约束婴儿学习面部表情。损失的目的是学习的距离表示较低的组内差异和更高的年级之间的距离。我们都知道,通过把样本在特征空间相应的类中心在培训期间,中心损失(20.大大降低组内差异。损失被定义为中心广场之间的距离之和样本及其对应的特征空间类中心。损失是指示为中心 : 在哪里的类标签吗 - - - - - -th样本;表示的特征向量 - - - - - -th样本取自FC层之前决定层;表示所有的中心和样品相同的类标签 ;和mini-batch是样本的数量。我们的距离表示为损失被定义为 在哪里和标签和表示的表达式和表示 - - - - - -th和 - - - - - -中心。具体地说,第一项是用于狭窄的样本之间的距离和相应的中心类,第二项是用来惩罚不同表情之间的相似性。是用来平衡两项的权重。通过最小化损失函数的距离,同样的表达式将更近了,和不同的表达式将推动在特征空间中。
2.4.2。功能引导美国有线电视新闻网
我们都知道,0到2岁婴儿的表情变化会减少扭曲。虽然在图像处理(cnn取得了伟大的成就21- - - - - -23),传统的有线电视新闻网由完全连接层,最大或平均池,卷积层捕获只有一阶信息(24]。我们相信,二阶统计数据更适合捕捉这样的婴儿比一阶统计的表情扭曲。所以,我们把网络体系结构模型4中给出(25)作为基准模型。相关的研究(26,27)已经证明训练深卷积网络可以作为特征提取分类任务的工具,它有一个泛化能力。跟进这个想法,我们应用著名的VGG16 [28模型中特征提取方法。VGG16 CNN是一个典型的模型。它有13个卷积层,5池层,3层完全连接用于人脸识别。提取表达特性,我们使用一个pretrained VGG16网络表达数据集(称为VFE)提取特征。对于每一个面部图像,我们使用1414512第四池层的大小特征图来表示一个图像特征。
功能的细化阶段,我们使用squeeze-and-excitation (SE)块29日)细化CNN功能和突出表达的区域,需要强调,从而显式地建模之间的相互依赖关系渠道由自适应recaliberating反应通道的特性。图中可以看到详细的结构4,本文是一个尺度参数(16)。这个参数的目的是减少渠道的数量,从而减少了计算。代表的是渠道的数量, 代表的高度和宽度特征地图上一层的输入。SE模块首先执行一个挤压操作功能映射通过卷积获得通道级全局特征;在这里,我们使用全球平均池作为挤压操作。然后,一个激发操作在全球执行功能。两个完全连接层形成一个瓶颈结构,通道之间的相关性建模。输出权值的数量是一样的数量输入功能。如图4,我们首先降低特征维度的1/16上升通过ReLu输入,然后激活它,然后回到原来的尺寸通过一个完全连接层,也学习每个通道之间的关系,获得不同渠道和最终的重量乘以原特性映射到得到最终的功能。从本质上讲,SE模块执行注意或浇注操作通道尺寸。这种关注机制允许模型支付更多的关注最多的信道特性信息和抑制那些不重要的信道特性。
然后,三个旋转内核大小33遵循,我们使用ReLU [20.卷积)的激活函数为每个层和两层最大池。然后,一样的基线(25),我们也使用协方差池后之前的最后一个卷积层和完全连接层。在过去的分类部分,网络体系结构的全损培训制定如下: 在哪里表示将softmax损失和表示距离的损失。超参数是用来平衡两个损失函数。
2.5。实验
2.5.1。实验装置
所有的培训和测试进行的NVIDIA GeForce GTX 1080 ti 16 g gpu。我们使用深度学习框架TensorFlow (30.)开发模型。与NVIDIA gpu在Ubuntu Linux系统,需要10 - 15个小时火车模型基于我们的网络结构。
2.5.2。实现细节
我们建立了三个主要的实验:第一个实验是评价先进的成人面部表情分析方法在BabyExp成人的表情识别方法是否适合宝宝图片。在这一部分中,我们使用BabyExp SFEW2.0训练和测试的方法,和表3显示了这个实验的结果。
第二个实验是演示了该方法的有效性VFESO-DLSE。我们比较我们的方法对四个设计架构:DLP (31日),基线(25),基线+距离损失(SO-DL)和基线+距离损失+ SE块(SO-DLSE)(图中可以看到结构5)。应该注意的是,由于我们的基线网络是基于模型从[31日),我们从头开始训练和测试的实验结果与我们的数据集BabyExp更好的比较。在[一样25),在这里,我们使用中心损失(32)在任何情况下训练网络,而不是保损失(31日),因为我们不处理复合的情绪。表4显示了这个实验的结果。为了客观地度量性能,BabyExp数据集分为训练集和测试集,测试集包含2413张图片,其余9640图像数据集作为训练集,然后调整大小以固定大小100100,随后发送到CNN对表情识别分类器。应该注意的是,224年的图像尺寸的大小224只有当进入VFESO-DLSE方法。标记为面部表情数据集非常小;因此,我们使用传统数据扩增方法来生成更多的培训数据。数据中增加阶段,我们增加的训练图像集BabyExp随机翻转,旋转每个±10°,随机的作物。然后火车使用以下参数:700年我们的网络时代学习速率0.0001 - -0.005,体重0.05衰变,动量0.9,128年批量大小,线性自适应的学习速率衰减估计(亚当)优化器。值得指出的是,更好地衡量BabyExp数据集的可用性和结果的准确性,我们报告总精度,每个类精度,每个类回忆,每个类F1-measure作为评价指标。
最后一个实验是验证实验结果由CycleGAN如果数据不平衡的。表5显示了这个实验的结果。原始数据集包含了7600张照片,其中包括2502快乐的画面,4028正常的图像,和1070悲伤的画面。为了客观地测量性能,它分为训练集和测试集。测试集包含1522张图片,剩下的6078张图片作为训练集,我们选择两种方法更好的实验结果在第二个实验中:SO-DLSE VFESO-DLSE。实验设置、参数设置和迭代的数量是相同的在上面的第二个实验。
3所示。结果
表3实验结果显示表达式识别模型训练的成人在成人和BabyExp数据集和测试数据集。我们可以看到,这些方法的性能在BabyExp明显低于成人数据集SFEW2.0 SFEW2.0 54.45% vs 39.7% BabyExp BabyExp SFEW2.0 vs . 40.78%和58.14%,表明婴儿脸大大不同于成人的脸,这是很重要的对于发展中面部表情识别方法婴儿图片。
的表情识别的整体性能提出了不同的实验从头训练BabyExp数据集如表所示4。从结果,我们有以下的观察:首先,我们可以清楚地看到,DLP和基线方法的准确性,当在BabyExp从头训练和测试数据集已经大大提高,39.7%到65.02%和40.78%到79.57%,与数据集训练成人SFEW2.0相比,再次表明婴儿脸大大不同于成人的脸。其次,我们建议的方法VFESO-DLSE达到最好的结果,超过87.90%,约4.8% SO-DLSE表明VGG16比其他CNN方法提取特征。从基线的结果、SO-DL SO-DLSE,我们可以看到距离损失和SE可以达到改善约1.8%。距离损失的目的是学习更低的同一类之间的变化和更高的不同类别之间的距离,和SE块可以自动获得每个特性通道通过学习的重要性。第三,从结果,显然表明,召回,精密,F1-measure可以进一步证实我们的研究结果的可靠性,我们的方法的有效性。
表情识别性能的原始数据不平衡的CycleGAN表中可以看到5。我们有两个BabyExp观察面部表情的识别。首先,我们可以很容易地看到,两个方法,SO-DLSE VFESO-DLSE,原始数据取得了58.61%和74.24%,仍低于83.13%和87.90% BabyExp CycleGAN使相等的表4。其次,尽管这两种方法取得了更高的精度,召回率和F1-measure不是很高,特别是对于悲伤的表情;这是因为表达式的分布是不平衡的,使用原始不平衡面部表情和模型训练样本泛化能力差和容易过度拟合。即使在SO-DLSE方法、召回、精度、和F1-score悲伤表情的值都是0,而VFESO-DLSE方法获得的38.79%,76.14%,51.39%,记得,精度,F1-score,分别,这也表明一方面VGG16比其他CNN方法提取特征。另一方面,它表明我们需要执行数据增加促进数据平衡,促进深度学习的使用方法实验,验证数据CycleGAN均衡的重要性。这一结论也可以来自实验结果表4。
4所示。讨论
面部表情识别(带)一直是计算机视觉的一个具有挑战性的话题。研究人员通常的目标是建立一个系统,可以自动确定图像中的不同的表达式(33]。面部表情识别的研究在很大程度上依赖于一个适当的数据集的面部表情。然而,由于固有的自然面部表情和获取的难度,目前只有数量有限的公开数据库,提供足够数量的面部图像和与准确的面部表情信息标记。表1显示了现有图像数据库的摘要与图像的数量,数量的主题,表达分布,数据规模和年发布。
然而,这些数据集有一些局限性。大部分的现有工作和数据集7,8)重点分析成人面孔,忽略如何分析面部表情从婴儿的面部图像。最近,研究人员已经意识到儿童面部表情的重要性,为了研究发育表达这些数据集的解释。例如,新NIMH儿童情绪的脸图片集合(NIMH-ChEFS)包含10到17岁的儿童的照片(12),内梅亨面临的数据库包括8至12岁的孩子的照片(13],咖啡厅设置功能2 - 8岁儿童的照片(14]。尽管这些新的数据集给研究人员可以选择使用一个示例2-17岁儿童,没有数据集,包括年幼的孩子。相反,所有上面提到的数据集对儿童面部表情只有少量的图像,不适合培训CNN模型。此外,这些数据集包含了表达式在lab-controlled环境中,而不是自发的或自然的面部表情。
5。结论
在本文中,为了解决上述问题,我们提出一种新的图像数据集与表达标签自动面部表情识别的婴儿的脸。我们的数据集,我们称之为BabyExp数据集,包含超过12000个图像从两岁以下的婴儿表现出自发的表情在一个不受控制的环境中。每个面图像与三种面部表情(即注释。快乐,悲伤,和正常)。补充现有的成人脸的数据集,可以阐明探索娃娃脸分析,它将使学术研究社区研究婴儿脸的方式与广阔的文学,在很大程度上依赖于成人的面孔。
因此,我们的新数据集将成为人类表达研究的一个重要的里程碑。这个数据集将计算机视觉的一个重要资源社会基准和比较结果。我们进一步评估先进的成人面对BabyExp分析方法,这表明成人面部表情识别方法不适合婴儿的面部表情识别,开发和新方法是必要的,婴儿人脸识别方法。除此之外,我们也提出了一个基线为表达式自动识别婴儿基于深度学习。我们进行一些实验和报告基线BabyExp数据集的表演。该基线CNN体系结构实现了87.90%的平均分类精度BabyExp数据集。BabyExp数据集上的这些方法的性能明显低于其他数据集,表明娃娃脸面部图像是大大不同于成人的面孔,和重要的是社区发展婴儿的面部表情识别方法。
我们希望BabyExp数据集的释放将鼓励更多的研究工作在表情识别现实世界的孩子,这将是一个有用的基准资源研究人员来验证他们的面部表情分析算法在挑战的条件下。我们将收集更多的数据和分配更具体的面部表情标签(即。,哭和笑)每个图像以扩展数据集。我们将继续探索的方法来实现更好的性能在未来婴儿的面部表情识别。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。