文摘
情感识别是其中一个热门研究领域。这是涉及到多个应用程序。最有趣的应用包括机器人视觉和互动机器人交流。人类情感可以检测到使用语音和视觉形式。面部表情可以被认为是理想的方法检测人的情绪。提出了一种实时的方法实现情感检测和部署的机器视觉应用程序。该方法包括四个阶段:预处理,关键一代,重点选择和角编码和分类。的主要思想是生成使用MediaPipe要点脸网格算法,基于实时深度学习。此外,生成的要点是使用一系列精心设计的网格编码发生器和角编码模块。此外,功能分解利用主成分分析(PCA)执行。 This phase is deployed to enhance the accuracy of emotion detection. Finally, the decomposed features are enrolled into a Machine Learning (ML) technique that depends on a Support Vector Machine (SVM), k-Nearest Neighbor (KNN), Naïve Bayes (NB), Logistic Regression (LR), or Random Forest (RF) classifier. Moreover, we deploy a Multilayer Perceptron (MLP) as an efficient deep neural network technique. The presented techniques are evaluated on different datasets with different evaluation metrics. The simulation results reveal that they achieve a superior performance with a human emotion detection accuracy of 97%, which ensures superiority among the efforts in this field.
1。介绍
承认人类的情感是一个至关重要的阶段,这是涉及到多个应用程序增强和虚拟现实等(1,2),高级驾驶员辅助系统(3),人机交互4),和安全系统5- - - - - -7]。人类有几种方式的解读他人的情绪,如语音和语言方面(8和面部表情9- - - - - -11]。此外,情绪可以检测到基于视线方向(12)和生物包括脑电图(EEG)和心电图(ECG)。情感表达用于智能人机交互(HRI)。情感分析也可以用来追踪学生的情绪提高的学习环境。因此,学生们可以学到更好地使用这种方法。这些信息通过情感分析是有用的监测的总体情绪一群人来识别任何破坏性的事件(13]。在人机交互中,7%的传达情感信息的话,38%是靠演讲语气,55%是靠面部表情(14]。因此,面部情感分析可以是一个可靠的方法来识别HRI应用程序的人类情感。
机器人视觉问题可以使用热图像处理(15- - - - - -17)和RGB图像(18]。提出了一种实时研究情感检测在机器视觉应用程序和部署。该方法包括四个阶段:预处理、特征提取和选择,功能分解和分类。特征提取和选择是由MediaPipe面临网格算法。该算法是基于实时深度学习。此外,该功能是由PCA分解阶段。这一阶段部署加强情感检测的准确性。应使用奇异值分解分解提取特征(计算)。最后,获得特征加入到所选的分类器。此外,MLP神经网络利用。 The introduced techniques are assessed on different datasets with the help of different evaluation metrics. Moreover, this paper introduces a hardware implementation of the proposed models. The main contributions of this work can be summarized as follows:(1)小说快速和强大的情感检测提出了用于机器视觉的应用程序的框架。(2)情感面临网介绍根据自动关键决心从脸图像。(3)重点提出了角编码生成敏感和区分角特性。(4)情感分类是根据不同的机器学习技术来执行的。(5)简要比较了之间的部署技术的准确性、可伸缩性和处理时间。
本文的其余部分组织如下。部分2介绍了引进的文学作品。部分3显示了数据集用于这项工作。此外,该方法讨论了部分4,其仿真结果给出了部分5。此外,结果讨论突出的表现在文学作品中建议的方法部分6。最后,给出了本文结束语部分6。
2。相关工作
一些研究人员提出了HRI的框架来处理这一问题。工作(19)提供了一个conditional-generative-adversarial-network-based (CGAN-based)框架组内方差减少管理单独的面部表情,同时学习生成和歧视表示。一台发电机G和三个鉴别器组成的这个架构(Di, Da, Dexp)。任何查询脸图像转换成一种面部表情被某些因素由发电机G。81.83%的精度。提出了一种基于CNN模型在工作的20.]。它是用于检测微笑,情感识别和性别分类。因此,它被认为是一个多任务模型。它实现了71.03%的准确性。
一些努力已经提出了情感检测使用深度学习。工作(21]介绍了深CNN部署一个面部表情识别系统。这个系统可以自动提取面部表情的特点允许自动识别。此外,它由输入、预处理、识别、和输出模块。此外,它被用来模拟和评估下的识别性能的影响几个方面如网络结构、学习速率,预处理对日本女性面部表情(JAFFE)数据集和扩展Cohn-Kanade (CK +)数据集。使结果更有说服力,作者再使用(资讯)技术。贾菲和CK +数据,性能精度分别为76.7442%和80.303%。另一个模型,提出了在22]。测试一个面部表情HDR图像数据集,考虑面临不同照明条件下的集合。它是基于支持向量机,局部二进制模式(lbp),和外观。它根据日后健壮的特性(冲浪)变换进行情感识别的任务。这个模型显示精度高达80%的水平。在[23)》,作者提出了一个模型提交第五情感识别在野外(EmotiW 2017)组级别subchallenge情感识别。他们部署了CNN从检测到的脸图像提取特征。CNN的另一个作用是训练有素的脸识别任务,而不是传统pretraining情感识别问题。在最后的管道,一个(RF)的随机森林分类器是学会了使用一个可用的训练集预测一种情感得分。此模型实现了75.4%的验证数据的准确性。
另一个趋势在这个领域从视频检测的情绪。的作者(24)提出了一个混合深度学习情感模型检测的视频。CNN一个空间用于处理静态的面部图像和光学流图像的时间CNN。这些两个处理分支用于学习高级视频段时空特性,分别。这两个CNN调整使用pretrained CNN模型和目标视频面部表情数据集。深度融合网络,使用深度信念网络部署(DBN)模型,融合的收集功能segment-level时空分支。注册获得的融合特性为面部表情线性SVM分类任务。作者实现了75.39%的准确性。此外,另一个视频情感检测算法提出了在25]。作者研究了池时空数据的不同方式。视频面部表情识别,他们发现池时空信息更有效率。与给定的框架(24),这项工作是整个视频识别的端到端可训练的。这个框架的目标是创建一个可教育的深层神经网络模式识别框架,集成了从视频时空信息使用cnn和LSTMs。这个框架实现了65.72%的准确性。
3所示。数据集描述
该模型评估三个数据集:Cohn-Kanade (CK +) (26),日本女性面部表情(JAFFE) [27),和真实的情感面临数据库(RAF-DB) [28]。他们每个人的描述如下所示。
3.1。Cohn-Kanade (CK +)
CK +数据集(26从123名参与者)由593年的视频序列。每个序列包含图像从发病开始(中性帧),发展到高峰表达式(最后一帧)。标签与每个序列关联描述从山顶表达式。数据集包含七种不同表情的图片:愤怒、蔑视、恐惧、厌恶、快乐,惊喜,和悲伤。图像的分辨率为640×480像素。在这部作品中,图像裁剪成48×48像素集中在主题的脸。图1显示了每个表达式示例图像。
3.2。日本女性的面部表情(JAFFE)
JAFFE数据集(27)213年十个不同的女演员的照片摆姿势七种不同的面部表情。有六个主要表情:快乐,悲伤,惊讶,愤怒,厌恶,恐惧,再加上一个中性的表情。图像的分辨率为256×256像素。图2显示了每个表达式示例图像。
3.3。真实的情感面对数据库(RAF-DB)
RAF-DB [28)包含15339个面部图像在不受控制的姿态和光照从成千上万的不同年龄和种族的人。中的图像RAF-DB大约40标记的注释。数据库包括六种基本表情+一个中性的表情。样本图像RAF-DB图所示3。
4所示。提出的方法
本文提出了一种基于深度的情感检测方法和机器学习技术。这种方法的主要思想是部署深度学习作为一个自动关键发电机使用MediaPipe技术。因此,一个敏感的数学过程执行编码生成的要点为一组可区分的特征。此外,不同的机器学习技术实现对提取的特征进行分类的任务。该方法包括四个主要阶段。第一个阶段是图像预处理的超分辨率使用SRGAN任务执行。在第二阶段,我们部署MediaPipe生成关键脸上地标图片。此外,我们目前的一个关键里程碑式的分析和一个角编码模块。这个模块包含三个子阶段(关键里程碑式的选择、情感的网格生成和网状角编码)。这个模块的主要思想是生成一个情感网连接选择的重要地标。 Hence, the obtained mesh is encoded into angular values to generate a feature map. Moreover, the generated feature map is enrolled into a classifier to be discriminated into six categories. Figure4代表提出的框架。
4.1。预处理
一般来说,机器视觉设备捕捉到的图像分辨率有限由于硬件限制相机参与这样的系统。此外,大多数人类情感识别可用的数据集缩减,因为存储限制。在建议的方法中,因此,第一个模块是超分辨率。此外,该方法涉及角从脸部图像的几何特征提取,这需要澄清的地标和边界表示的脸图像,允许适当的面部表情识别。SRGAN [29日),生成敌对的网络(GAN)的图像超分辨率(SR),采用在当前研究进一步提高前图像的感知质量的过程。与图像SRGAN super-resolved 4x升级的因素,同时最小化平均SquareError (MSE) super-resolved和原始图像和最大化之间的峰值信噪比(PSNR)。
图5说明了SRGAN预处理步骤采用。图显示的原始图像选择CK +数据集和相应的super-resolved SRGAN后图像。原始图像大小是48×48像素,和super-resolved图像大小为192×192像素。
(一)
(b)
4.2。关键里程碑式的一代
具有里程碑意义的生成过程的关键是使用深MediaPipe执行技术。MediaPipe [30.)是一个开源毫升框架由谷歌和致力于构建真实的计算机视觉应用程序。MediaPipe功能允许开发人员专注于算法或模型开发,在使用MediaPipe迭代改善应用程序与结果是一致的在不同的设备和平台(31日]。解决方案,目前使用MediaPipe包括人脸检测,实现网格注释,虹膜定位、检测,姿势估计,头发分割、目标检测和跟踪,和3 d对象检测(Objectron)。这些解决方案在不同的平台上发布:移动(Android和iOS)、c++、Python和JS。真实的例子MediaPipe毫升解决方案如图所示6。
在当前的工作中,面对从MediaPipe网格解决方案框架是用来注释的地标和边界的脸。面网格计算468实时3 d的脸地标。它使用毫升推断出3 d表面几何仅使用一个相机输入没有专业深度传感器(32]。解决方案提供了一个实时的性能,甚至在移动设备上。图7显示一个图像从JAFFE中选择数据集与468年面部地标带注释的图像。
4.3。提出关键里程碑式的分析和角编码
提出了一个关键的里程碑式的分析和一个角编码模块。这个模块包含三个子阶段(关键里程碑式的选择、情感面网格生成和啮合角编码)。这个模块的主要思想是生成一个情感网,连接选择的重要地标。因此,获得网格编码成角值映射来生成一个特征。下面讨论这个模块的每一步。
4.3.1。关键里程碑式的选择
正如前面所讨论的,MediaPipe脸网格解决方案提供人脸检测功能和468分布在面部地标的脸,以及它们的位置(x和y坐标为每个里程碑式的发现)。在该模型中,只有27个主要地标选择从468年发现地标。这些重要的里程碑定义情感面网格的顶点。表1描述了所选的主要地标和相应的id MediaPipe地标。27个主要地标和它们的位置在一个测试图像如图8。
重要的里程碑及其位置的选择是基于面部动作编码系统(流式细胞仪)33,34),编码个人面部肌肉的运动。它可以用来描述面部行为构成一个表达式基于面部肌肉不管情绪的变化。特定的面部肌肉的运动,称为行动单元(au),通过流式细胞仪进行编码。这需要独特的瞬时变化的面部外观(35]。表2描述了面部emotion-related来自和相应的流式细胞仪的名字。流式细胞仪的设计领域示范隔离来自见(36]。因此,面部情绪可以使用可靠的组合代表不同的来自,见表3。每个关键里程碑式的位置选择,这样更可能受到特定emotion-related盟的影响,寻求更好的识别面部表情。
4.3.2。情感上的网格生成
后选择的主要地标,情感面临创建网格,27个顶点组成的推断从选中的重要地标。的边缘情感面网格,定义顶点之间的连接,是建立一个封闭的网状结构。表4定义了边缘,构成了情感面对网,以及开始和结束的每条边的顶点。表中定义的顶点id1。网格收益率38 27个顶点和边。情绪的脸变形网格测量偏差的边缘之间的角度反映了面部肌肉收缩和放松,这将被用来识别面部情绪。图9显示了示例图像的情感面对网从JAFFE中选择数据集有不同的情感。
4.3.3。网角编码
后获得关键的地标和建立情感面对网,我们使用网格提取情感分类的相关特性。使用的相关特性的几何特性,因为大多数的情绪可以从几何检测到变化。十个特征提取,定义特定的边缘情感之间的角度面对网。度的角度表示的范围(0°、360°)。这些特性是然后美联储毫升分类器学习识别每个情感。低维数的特征(10功能)使他们更拒绝当地面部的变化。此外,可以训练分类器在更短的时间。此外,该框架的整体复杂性明显减少了。角度拍摄的列表作为情感分类的判别功能,和三个顶点标识形成每个角度给出了表5。一个例子描述角特性和它们的位置在一个测试图像如图10。
三个顶点之间的角度可以计算如下(考虑图11)。
这个角之间的线(边缘)的连接P2和P3(边缘)连接的点和线P2和P1是未知的。
这个角β之间的线P2- - - - - -P3和X设在可以计算
同样,角α之间的线P2- - - - - -P1和X设在可以计算
因此,这个角将
使用上面的过程,十个角度规定的边缘之间的情感面对网格计算,然后用于分类。角的值都是积极的,消极的价值观可以避免通过添加360°的值。此外,生成的特征图使用PCA重新分配,以提高它们的分布。
4.4。分类
在这项工作中,我们开发一个自动化的面部表情为机器视觉应用程序标识符识别人类的情感。从脸判别特征提取(部分4.3)是美联储在给定的分类器来识别情感的脸。DT,然而,一个多类支持向量机(37),高斯NB,与反向传播延时,QDA,射频,LR分类器是用于分类。试错法和网格搜索(38)进行识别分类器的最优结构和hyperparameters。此外,10倍交叉验证是用来估计最优hyperparameter组合,以避免过度拟合。分类器的最佳hyperparameters采用当前工作表调查6。
图像数据集分为两部分:训练部分和检测部分。培训的部分是用于火车/验证分类器,和测试的部分是用来测试分类器的性能。分裂计划是80/20,如图12。当前模型中采用的10倍交叉验证员工培训部分的进一步分裂成十倍(子集)。之后,9折被用来训练分类器,而剩下的褶皱是用于验证培训。这一过程持续进行直到每个十折叠完全一旦用于验证。最优配置标识在训练阶段然后应用于测试阶段。
5。实验结果
实验进行一个英特尔酷睿i3 8 GB RAM的机器。Python 3.9作为开发环境。OpenCV 4.5和SRGAN库用于图像预处理。MediaPipe 0.8.6库用作构建块特征提取的关键。Scikit-learn 0.24.2 [39)是用于实现机器学习分类器和计算该模型的评价指标。NumPy、熊猫、数学、OS和Matplotlib用作补充库。精度,精度,记得,F1-score,训练时间是五个指标用于评估拟议的框架。培训时间是基于五分的平均记录。该模型评估使用两个不同的数据集:CK +(6类)和杰夫(6类),面部表情分类基准数据集。CK + 784图像用于训练,而197用于图像分类。贾菲,训练集包含164张图片,测试集包含42个图片。
评估该模型的性能,8个分类器是用于面部表情在两个基准数据集进行分类。每个分类器的hyperparameters雇佣展示在表6。分类是基于十从图像中提取特征在每个数据集使用部分中描述的过程4。
学习曲线,确定交叉验证分数和行为为采用不同大小的训练分类器的CK +,如图所示13。
(一)
(b)
每个分类器的混淆矩阵在CK +数据集使用该模型如图14。它表明每个类精度的愤怒,快乐,和意外类高值和分类器比其他所有的情感,而轻视和悲伤类每个类的准确性较低。此外,分类器的混淆矩阵JAFFE数据集在图所示15。
拟议的框架的性能与8个分类器在CK +,贾菲,RAF-DB [28]数据集提出了表7- - - - - -9。说明结果显示分类报告包括准确度、精度、回忆F1-score以及每个分类器的训练时间。视觉对比数据集使用的分类器精度在图所示16。
结果表明,然而,分类器优于其他分类器的精度,精度,回忆,和F1-score。最好达到97%和95%的精度CK +和JAFFE数据集,分别。高斯NB的精度,QDA, DT, LR,射频,中长期规划,和SVM classifers CK + 84%, 86%, 86%, 87%, 89%, 94%,和94%,分别和杰夫是90%,79%,90%,86%,93%,90%,和88%,分别。此外,所需的时间训练资讯和高斯NB CK + 0.005秒。是最低的时候相比其他分类器。延时和射频分类器训练时期,最高分别为1.82秒和0.74秒。此外,该模型在theRAF-DB评估。评价结果表明,中长期规划提出和SVM模型可以被认为是良好的情感检测模型数据库,特别是对模型的准确性达67%。因此,该方法提供了各种模型,它是强大的情感检测环境的最优选择。
6。讨论
仿真结果表明,该方法显示了一个高性能的人类情感检测。此外,他们阐明了该编码模块与部署的分类器性能优越包括资讯、支持向量机和延时。在本节中,简要比较了该方法与文献中如表中所示10。它可以观察到,该方法有一个性能优越的努力在这个领域。
7所示。结论
人机交互的问题(HRI)已经被讨论了。作为解决方案,提出了面部表情识别的新方法。这个建议的方法包括四个阶段,从面部图像中提取关键点进行使用实时算法(MediaPipe)。此外,这些关键点被注册为一个序列的选择、网格生成器,和角编码模块。此外,生成的特征图使用几种分类算法进行分类,包括支持向量机,然而,射频,QDA, NB, LR, DT,延时。新奇的方法是强调在拟议中的关键点分析和角编码算法。该算法是有效的,因为它只生成10个特征(角值),这是歧视不同的情感分类类别。该方法一直在评估CK + JAFEE, RAF-DB数据集。它揭示了一个性能优越的精度检测和处理时间评价指标。此外,提取特征的低维度使ML-based方法在短时间内达成最佳性能和更低的计算成本比DL-based方法,这需要更多的时间进行收敛性和需要太多的计算成本。
此外,未来的工作可以从本文推导引入情感检测方法与其他方法如视频、口语词汇,和书面文本。此外,该方法的硬件实现是一个研究的趋势,我们正在研究。此外,进一步的机器学习技术,如字典学习和semi-supervised学习可以解决这个问题。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究是由科学研究院长以来公主Nourah少女阿大学通过快速研究资助计划以支持发表在顶级期刊(批准号42-FTTJ-38)。