文摘

作为一个情感计算领域的关键问题,情感识别具有丰富的应用场景和重要的研究价值。然而,单一生物特征识别在实际现场情感识别分类精度低的问题,由于其自身的局限性。为了应对这一问题,本文结合了深层神经网络提出一种深上优于expression-EEG双向融合情感识别方法。这种方法是基于改进的VGG-FACE网络模型实现快速提取面部表情特征和缩短网络模型的训练时间。小波软阈值算法用于将工件从EEG信号中提取高质量的EEG信号的特性。然后,基于长期和短期记忆网络模型和决策融合方法,模型构建和训练使用下的信号特征数据提取expression-EEG双峰性意识到最后的双向融合的情感分类和识别研究。最后,该方法基于MAHNOB-HCI数据集验证。实验结果表明,该模型可以实现0.89的识别精度高,可以增加8.51%的准确性与传统LSTM模型。的运行时间的识别方法,该方法可以有效地缩短20年代与传统方法相比。

1。介绍

情感计算是广泛应用于游戏领域,心理健康,学习,和教育。我们的目标是开发一个计算系统,可以进行“情感沟通。“这是要求算法的类型识别、程度的判断,和反馈速度的情绪应该尽可能接近真实的人类情感反应(1- - - - - -4]。作为一个情感计算领域的关键问题,情感识别具有丰富的应用场景和重要的研究价值,近年来引起了广泛的关注5- - - - - -7]。以医疗工作为例,实时、准确地掌握无意识患者的生理和心理条件起着重要的作用在经济复苏的病人。因此,它具有重要意义使用现有的模式识别技术研究难题如无意识患者的身体状况。

情感识别方法可以分为两类:single-modality和多峰性8- - - - - -10]。Single-modal数据获取容易,分析方法更加成熟。因此,大多数以前的研究集中于monomodal情感识别,也就是说,情感识别模式的数据,如传统的音频,面部表情,生理信号,或某种形式的数据以文本和身体动作11]。

多通道情感识别可以使用所有的特点,不同的信号,如人类的表情和大脑信号,以便多个模式的互补特征在表达情绪反映在最终的算法结果,从而提高识别精度(12,13]。

当前人工智能的产品技术和大数据集合,深层神经网络结合多通道情感识别方法与深度学习网络。通过多层网络模型迭代训练和学习14,15),信号可以有效提取和计算数据。基于持续学习和自己的网络,网络模型参数也可以及时调整。功能冗余和缺乏关键特性的问题已经解决了,和相应的情感识别性能得到了改进。

本文的其余部分组织如下。第二章介绍了近年来相关研究。第三章介绍了双峰基于深度学习的情感识别方法,包括面部表情特征提取和脑电图信号特性。第四章介绍了实验仿真分析方法的可行性和最优性提出了基于MAHNOB-HCI数据集。第五章是本文的结论。

近年来,研究人员已经进行了广泛的研究,对各种类型的模态信息,可以表达情感。研究发现,人类情感的变化可能会改变表情,行为,心理和生理。其中,面部表情、姿势和生理信号能独立表达某些情绪(16- - - - - -18]。

monomodal情感研究的识别,视频,语音,文字,和生理信号都有特定的情感的表达。文献[19)使用事先和DBNs从视频获取信息,良好的性能在某种情绪。文献[20.]情感识别的方法和成果总结近年来利用脑电图(EEG)。文献[21]使用convolutional-recurrent神经网络(CRNN)对多通道进行情感识别脑电图数据和实现理想的结果。

但必须指出,这些类型的情感信息综合显示在人们相互沟通的过程。目前,研究人员发现,单峰数据有一定的限制的表达情感,和每个模式有不同的敏感性不同的情绪22]。因为每个模态有一定的表达情感,一些研究人员开始进行多通道融合的情感识别研究。文献[23)使用一个双模autoencoder研究脑电图的情感表现和眼动信号。实验表明,相比之下,两者的融合,识别脑电图的影响特性和眼动特征分别是贫穷。文献[24]介绍了一种新的建模方法使用三维卷积神经网络(C3D)时空信息,结合多模深度信念网(MMDBN),它可以代表音频和视频流瀑布。eNTERFACE multimodal情感数据库实验表明,该方法提高了多通道情感识别的性能,明显优于最新的研究方案。文献[25),基于径向基函数和支持向量机网络模型,提出了一种多通道情感识别度量学习(MERML);音频和视频的统一分析有很好的情感识别的性能。这类方法通常只结合特性的简单拼接,这很容易导致功能冗余。对于包含很大的样本数据的视频信号,这将导致不必要的实验成本。

具体算法的多通道情感识别,与深度学习方法的突破在计算机领域,神经网络模型逐渐应用于情感识别任务(26]。递归神经网络(RNN)模型得到了广泛的研究和关注由于其明显的优势在处理序列的任务。尽管复发性神经网络可以依靠循环连接捕捉特定序列的上下文信息,RNNs梯度消失在反向传播的问题。也就是说,随着神经网络层数的增加,传输值的量很小,不会引起参数扰动。一个有效的技术来克服采用RNN梯度消失的问题,即长期短期记忆(LSTM)网络(27]。LSTM网络结构有选择地“忘记”一些输入和“盾牌”输出通过“门”结构,以免影响下一层的权重更新,以便LSTM网络能学到最好的时机相关信息的分类任务(28]。在情感识别任务,因为面部表情和EEG信号的连续性,情感表达是时间序列的高度相关。然而,单点面部表情图片和脑电图信号数据通常在面部表情变化的过程中,容易误判的(29日,30.]。因此,对于情感识别任务序列,LSTM处理的序列类似于人类大脑的处理方法对情绪识别任务,和算法的优点自然适应性。

针对现有的情感识别研究工作,提出了一种基于深度学习expression-EEG双向融合情感识别方法。主要贡献如下:(1)针对single-modal情感识别精度低的问题,结合人类的优势表达情感信号识别和脑电图信号识别、情感识别的准确性提高,和六个情绪的愤怒,厌恶,恐惧,快乐,悲伤和惊奇都会行之于色,实现通过准确的分类和识别(2)面对情感识别的识别精度和实时需求模型,它是基于改进的VGG-FACE网络实现表情特征的提取和脑电图特征。首先,self-attention机制之间引入分层网络更好的区分每个训练层,增强系统的鲁棒性。介绍了惩罚项损失函数,进一步提高网络,实现多元化状态向量的每一层。与此同时,它减少了模型训练和学习的时间,有很好的识别效果

3所示。基于深度学习的双向情感识别方法

3.1。Expression-EEG互动情感识别模型

系统框架如图1。LSTM情感识别模型提出了EEG信号之间的互动合作和脸视频主要包括两个阶段:特征提取和互动协作。在特征提取阶段,首先选择关键信号帧需要集中进行数据预处理,然后提取特征具有较强的表达和概括能力。在互动合作阶段,这两个模式的特点首先融合和学习。特殊特性,本文也将使用空间频带的注意机制计算的视觉图像的重要性α,β,γ在EEG信号。强化学习(RL)通过时域的注意机制执行计算的关键信号帧时间信息,需要集中在未来时间点和饲料的特征提取阶段。最后,情感识别结果输出的情感分类器。在这种模式下,输入信号之间形成一个闭环模型动作过程的选择性和反复关注人类情感情绪识别的多通道信号。

3.2。面部表情提取

本文使用微调来完成pretrained网络的再培训。微调的优点是,您可以使用有限的数据模型实现预期的效果。本文运用面对数据集FER2013(面部表情识别2013数据集)来调整现有VGG-FACE网络。

VGG-FACE 16层或19-layer CNN架构开发的视觉几何组(VGG)牛津大学的,在人脸识别任务表现良好(31日]。与VGG ImageNet数据集训练,VGG-FACE训练数据集,数据只包含的脸。和深卷积神经网络模型(DCNN)没有pretraining作为实验比较的基线。

上面所有的网络模型是精确使用FER2013 FER2013测试数据集,验证集和SFEW验证集来观察其性能。实验结果如表所示1

从数据可以看出在上面的表中,大部分的pretrained网络实验结果比DCNN没有pretraining,因为pretrained网络具有更好的初始化模型参数。无论是FER2013或SFEW,最好的结果是VGG-FACE网络pretrained脸上数据集。网络达成89.21%的准确性FER2013测试集和78.24%的准确率SFEW测试集。根据实验结果,本文最后使用pretrained 16层VGG-FACE网络。FER2013网络调整,获得的功能是输出到LSTM单元识别计时功能。

注意机制可以引入模型的输入和输出之间,这样可以提高模型的性能(32]。如图2,主要的注意力机制的工作原理如下:想象中的元素为一系列的来源 数据对,确定元素 ,计算之间的关系 和每个 ,获得的权重系数 对应于 ,然后进行加权 并得到最终的注意价值 :

在哪里 代表源的长度,公式如上所述的含义。self-attention机制并不指注意力机制之间的目标和源但是发生内部元素之间的源或目标。注意机制可以理解的情况 self-attention机制可以更容易捕获远程输入序列中相互依赖的特性。

堆叠LSTM网络,应用三LSTM栈用于确保模型可以学习更高级别的时间特性表示。序列数据操作基于LSTM意味着层的加入可以提高抽象层次输入的观察时间和有更好的表达能力。

为了使每一层堆放的LSTM LSTM网络有不同的比例,本文中的网络模型进一步改进,和self-attention机制介绍LSTM每一层之间的网络。值得注意的是,与注意力机制,它可以通过迭代更新自己的信息。这部分的方法的流程图如图3。这个网络模型主要由一个堆叠LSTM网络嵌入self-attention机制。隐藏状态和单元状态的堆叠LSTM用作self-attention机制模块的输入,并输出相应的权重向量。

向量的维数在哪里 ,向量的维数 , 向量的维度 , , 网络模型的参数, 是self-attention机制模块的输入,它代表了隐藏的状态 或单位状态 某一层的LSTM不利。

点乘以权重向量 LSTM的状态值,我们可以得到的

在哪里 是加权向量 获得堆栈LSTM后更新。计算后self-attention机制,不同的权重可以分配给每一层的网络堆栈LSTM根据它们的重要性。网络在一定程度上进行了优化,和表达能力分层特性的改善。

自self-attention机制相邻时间步骤之间倾向于分配类似的权重,本文增加了一个惩罚项来防止这个问题的发生,使不同级别的权重向量更加多样化。而优化重量,惩罚项不仅减少了冗余的特征信息,也使得堆叠中的层次关系LSTM更有区别。本文使用统计方差方法优化网络。

的公式, ,分别代表的关注重量隐藏状态和单位状态在不同的时间步长和水平:它与原来的损失函数最小化。

在哪里 代表了叉损失函数, 代表模型的实际产出, 代表样本的标签。

3.3。脑电图特征提取
3.3.1。脑电图特征集合

脑电图信号电位的分布在头皮上由大脑神经元活动,通常是通过使用一个脑电图装置。头皮的电极传输大脑信号所产生的电信号收集器,然后进行前置放大和电子过滤(如50 Hz陷波滤波器)。然后,通过功率放大器和A / D转换器,把模拟信号转换为数字信号,可以由计算机处理,然后被传输到计算机进行相关的分析和处理。

根据国际脑电图协会的建议,目前的脑电图电极放置收购通常采用国际体系标准10/20,如图4。把连接行鼻根的根,顶点,和枕骨隆突相同比例的10%,然后把连接行鼻根,外部,耳洞,枕骨隆突到10个相等的部分。电极位置决定根据交叉路口为中心的同心圈的顶点和半径,并且大多数都是放置在一个整数的位置连接的多个10%或20%,所以它被称为10/20系统。总共有21个电极,其中A1和A2是参考电极,如图4 (b)。每个电极名称的开始使用一个或两个字母来表示它的面积,如表所示2。电极的名字后,一个数字或字母是用来表示中心的距离。奇数意味着左脑,偶数意味着右脑:数量越大,远离中心线。中心线的位置使用标记“z”来表示0数量区别于字母o .现代32-lead或64 -铅电极帽也基于10/20系统扩张。然而,应该注意的是,不同的脑电图同样位于电极系统通常有不同的名称。

3.3.2。数据预处理

EEG信号会受到实验设备和呼吸运动的收集过程中收集到的人。噪声会干扰EEG信号,使原始信号的测量结果不可靠。预处理的目的是改善整体识别的脑电图信号质量更准确的分析和测量。噪声的主要类别低频基带漂移(BW)引起的呼吸和身体运动,高频随机噪声引起的电力系统干扰(50或60 Hz),肌肉运动和随机抵消电极接触不良造成的肌肉干扰。

5(一个)显示了原始收集脑电图信号。在过滤过程中,35赫兹巴特沃斯滤波器和一个50 Hz电源干扰去除过滤器是用来消除工频干扰、肌电的干扰,在大多数电力系统电磁干扰。然后,信号通过小波包分解过滤去除基带漂移,EEG信号,去除干扰和基带漂移图所示5 (b)

3.3.3。特征提取过程

面对视频实验参与者的面部活动信号收集的一个普通的相机,这属于视觉信号。收集脑电图信号的方法是让实验参与者穿电极脑电图帽在看emotion-inducing视频,以便获得脑电图信号来自32个不同位置上的人类大脑皮层。很难直接合并两个异构的信号。出于这个原因,本文提出了提取特征具有较强的表达能力和泛化能力,同时使两种形式的特点有效地交流和合作。面对视频,面部表情特征提取是基于VGG-FACE。面对视频的特征提取过程如下:首先,面对地区VGG-FACE视频帧检测的模型。然后,使用VGG-FACE模型提取特征的脸。最后,使用完全连接层处理特性和输出最终的特征向量

EEG信号的特征提取更加复杂:首先,删除原始EEG信号的小波软阈值算法去除工件,从而获得一个相对纯净的信号。然后,EEG信号分为段的时间 接下来,提取光谱能量信息的三个脑波频率乐队α波,β波,γ波的 段数据可视化在32电极相应的电极帽获得脑电图的三个频段图像。不断上升的β波的人类情感激活前额会显著增加。最后,CNN是用来提取层特性 , , 脑电图的三个频段的图像融合,如方程所示(10)和(11)。

在计算空间频带注意力机制是用来计算的重要性 三组的功能,最后,完全连接层用于过程 输出特征向量

的公式, , , 代表重要性分配 , , 分别为:

的公式, 表示矩阵的权重需要学习, 代表了偏差 代表了多层LSTM隐藏状态的时间点

3.4。Expression-EEG双向融合情感识别

本文整合了面部表情和语音信号情感识别和使用决策融合方法33)来解决两种不同形式的融合问题。决策融合的目的是处理每个模型生成的类别和使用再分化的具体标准。在本文的实现,面部表情识别和语音情感识别使用将Softmax功能分类。他们被定义为输出

在哪里 情感类的数量,计算加权决策融合吗

的公式, ,分别代表了权重分配的两种模式。

4所示。实验方案

为了验证上述方法的可行性和实用性,实验仿真机器人硬件环境是一个联想ThinkPad E14灯头,AMD Ryzen 7 4700 u 8核处理器,16 GB的RAM,集成显卡。中国软件环境操作系统Windows 10和英文版本软件微软Visual Studio 2012。

本文使用牛奶深度学习框架来实现模型的训练和测试35 MAHNOB-HCI数据集。数据的实验参与者MAHNOB-HCI数据集分为训练集、验证集A1,和测试集B的比例5:1:1。在数据预处理的过程中,面对的视频数据集downsampled 8 fps。同时,面对图像视频检测和剪裁,图像大小是新 在培训过程中,本文使用了亚当的方法(24)来更新参数。用于每个更新的样本集得到的提取 通过经验从训练集播放机制。为了防止模型过度拟合,辍学的值设置为0.5。设置值的最大时间步Nmax 30。此外,本文中使用的所有调整VGG-16网络只有固定参数和用于提取特征。在实验中,旋转,翻转,颜色失真和图像变换用于扩大数据。整个数据集最初训练了100次的批量大小50。模型的初始学习速率为0.015,这是10000次迭代后设置为0.001。设置权重衰减和动量为0.00015和0.87,分别。值得注意的是,深层情感识别模型是使用随机梯度下降训练计划。

4.1。情绪识别模型优化和分析
以下4.4.1。LSTM叠加层的影响系统的识别率

为了探索LSTM层的数量是否会改善相应的实验结果,本文基于基线模型在不同层LSTM进行比较实验。

6显示LSTMs不同层的影响系统的识别率。实验数据表明,与单层网络相比,多层LSTM有更好的识别效果,可以更好地提取抽象特征序列。当 ,识别影响所选择的数据集是最好的,和识别率可以达到0.89。当 ,显示的效果逐渐降低。因此,本文选择LSTM层数是5。

4.1.2。分层的注意机制的影响系统的识别率

引入注意力机制后,不同级别可以选择性注意在每个时间步。为了研究是否注意机制对网络的改善有一定的影响,本文设计了相应的比较实验。

如表所示3,注意机制的引入改善了模型的识别效果。引入注意力机制后,该模型可以实现0.89的识别精度高,可以增加8.51%的准确性与传统LSTM模型。的运行时间的识别方法,该方法可以有效地缩短20年代与传统方法相比。注意机制用于将不同比例分配给每一层堆叠LSTM,这有利于网络过滤掉更多的有用的信息,提高模型的表达水平,更有利于提取图像的抽象特性。实验结果表明,注意力机制的引入可以提高识别效果。

4.1.3。惩罚项对系统识别率的影响

注意机制,关注的权重系数是用来改善识别效果。其中,新增的处罚条款 可以用来更新权重系数,和识别模型得到不同的权重系数是不同的。通过引入方差,区别不同的权重系数,然后,反向传播算法用于最大化方差。

为了分析的敏感性不同的处罚条款 在该模型优化模型参数,MAHNOB-HCI数据集识别任务是验证实验。

分析了模型参数的最优值的镇定的数据集,如图7。在第一个实验(一) 固定在0.001根据多个实验的设置,然后呢 改变在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,和1.0]学习不同的模型。它可以观察到模型的准确性一般先增加,达到最大值为0.7,然后降低。结果表明,当 设置为0.7,网络模型对参数没有影响的选择。

实验(b)固定的价值 0.7和改变 在一组[0,0.0001,0.0005,0.001,0.005,0.01,0.05,和0.1)进行比较实验。结果表明,识别性能对参数的值非常敏感 , 保证深度学习的优秀的识别性能特性。

4.2。MAHNOB-HCI数据集识别分析

基于上述确定模型的结构和相关参数,本文使用MAHNOB-HCI数据集执行表达式测试最终的融合网络。混淆矩阵的测试集的最终识别结果如图8。每一行代表视频真的所属类别,每一列表示的类别融合网络。

从图可以看出8expression-EEG交互模式提出了执行很好识别“快乐”和“惊喜”样本,识别精度可以达到0.95和0.92,分别。此外,它可以注意到融合网络表情识别能力低的“厌恶”,但识别准确率也达到0.79。从上面的图我们可以看到,大多数“厌恶”样品误认为是“愤怒”“快乐,”和“悲伤”,虽然大多数被归类为“悲伤”样本相似的情绪,如愤怒,厌恶,“和“恐惧”。

4.3。比较MAHNOB-HCI面部表情识别分类算法的数据集

MAHNOB-HCI数据集包含信号和脑电图信号表达式。为了确保在每个模态信号特征可以更好地反映模态的情感信息,两个信号的特点,分别代表每个模态融合得到融合的特点。在文献[MMDDN方法24在文献[],MERML方法25],本文提出的方法有不同的方法来融合多通道特性。这两个方法模型进行分类和识别MAHNOB-HCI数据集,结果如图所示9

如图9,该方法有更高的精度比比较各种情感的分类和识别方法。识别准确率的“愤怒”、“厌恶”,“恐惧”,“快乐”,“悲伤,”和“惊喜”是0.82,0.79,0.83,0.95,0.82,和0.92,分别。

基于上述分析,与其他方法相比,分别获得的多通道融合特性融合每个模态特性本文在情感识别更好的性能。它表明,减少成本的多通道特征选择,每一个情感的分类性能也在一定程度上改善。

5。结论

多通道情感识别是人机交互的一个重要的和具有挑战性的研究问题。面对情感识别的准确性和实时性要求,提出了一种基于深度学习expression-EEG双向融合情感识别方法。这种方法是基于改进的VGG-FACE网络模型实现快速提取面部表情特征和缩短网络模型的训练和学习时间。小波软阈值算法用于将工件从EEG信号中提取高质量的EEG信号的特性。然后,expression-brain电气双峰状态的信号特征提取是基于长期和短期记忆网络模型和决策融合方法实现最终的双向融合的情感分类和识别研究。的运行时间的识别方法,该方法可以有效地缩短20年代与传统方法相比。注意机制用于将不同比例分配给每一层堆叠LSTM,这有利于网络过滤掉更多的有用的信息,提高模型的表达水平,更有利于提取图像的抽象特性。实验结果表明,注意力机制的引入可以提高识别效果。

分析实验结果表明,该方法可以减少模型的情感识别时间约20年代与传统方法相比,和六个典型的情感识别的准确性可以维持0.79以上。未来研究的重点将是该方法的探索platformization,努力实现该方法的商业化。

数据可用性

本文中包含的数据是可用的,没有任何限制。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了安徽省自然科学研究项目教育部(没有。KJ2019A1031)。