文摘
利用卷积神经网络(CNN)图像情感识别方法是深度学习的一个研究热点。先前的研究倾向于使用视觉特性获得从全球角度来看,忽略局部视觉特征情绪激发的作用。此外,CNN浅特征图谱包含图像内容信息;这样的地图获得直接从浅层次来描述低级视觉特征可能导致冗余。为了提高图像情感识别性能,提出一种改进的CNN在这工作。首先,卓越检测算法用于定位图像的情感区域,这是作为补充信息进行情感识别更好。其次,格拉姆矩阵变换在CNN上执行浅特性映射到减少图像内容的冗余信息。最后,设计一个新的损失函数通过使用硬标签和标签的图像情感分类概率减少图像情感主体性的影响。广泛的基准数据集上进行实验,包括FI (Flickr和Instagram)、IAPSsubset, ArtPhoto,抽象的。实验结果表明,与现有方法相比,我们的方法具有良好的应用前景。
1。介绍
图像情感分析成为计算机视觉领域的一个研究热点(1- - - - - -6]。更难分析图像在情感层面与对象的识别在图像7- - - - - -13)主要原因的复杂性和主体性的情绪[4]。首先,由于情感的复杂性,图像情感识别的工作是分析图像在情感层面,情感的表达也受到众多特征信息(14),所以很难设计一个歧视表示功能覆盖足够的特征信息,如颜色、纹理和语义信息。其次,由于图像的主观情感,人们有不同的生活和文化背景可能有不同的情绪反应相同的图像使得很难收集困难的情绪图片的标签,导致图像的不确定性的分类标签。
在以前的研究中,很多研究者提出方法来解决图像情感的复杂性和主体性。例如,波尔斯et al。14)开发了一种视觉情感本体,由1200年的概念和相关的分类器,每个概念是由形容词表达情感和一个名词相关的物体或场景。在图像情感分析的工作,手动功能,包括颜色,材质,成分,平衡,和谐2,15,16),首先被用于分析的情感形象。然而,手工制作的功能无法完全表达视觉信息之间的关系和情感冲动,因为手工制作的特性不能覆盖相关的重要特征图像情感(17]。
最近,研究人员开始利用cnn解决图像情感分类的困难问题,进一步提高分类性能(1]。不同于手动功能,CNN可以学习图像表示在一个端到端的方式。研究结果证明,深CNN特性比手动功能图像情感识别(17]。然而,由于情绪的复杂性和主体性,分析图像在情感层面是一个更具挑战性的任务与传统的视觉任务相比,例如对象分类和检测图像中。大多数图像图像情感的复杂性,可以引起不同的情绪反应,而不是一个独特的情感。先前的研究主要应用视觉特征提取对情感识别图像的全局视图,而忽略了事实的表达情感形象主要取决于图像的局部区域。图1显示的图像样本和主要地区他们唤起的情感。显然,一些当地区域的图像包含更多的情感信息。此外,Alameda-Pineda et al。18)指出,cnn无法有效地提取从抽象绘画情感信息,这意味着情感不仅引起的图像语义,还通过低层视觉特征,如纹理、颜色和形状。
(一)
(b)
为了理解cnn用于目标识别的任务是如何工作在图像情感识别任务中,许多研究在深度特征表示进行卷积神经网络处理水平。研究表明,情感识别的模型主要是基于图像的语义特征,这可以解释CNN在图像情感识别的成功应用2]。另一方面,当图像处理的更深的CNN层,底层视觉特征逐渐减少。在某些情况下,人们更加注重图像的背景比图像中对象,也就是说,物体组件可能比图像更情感内容(18]。这需要我们介绍图像的低层视觉特征在设计的分类特性,但如果我们直接从浅获得使用特征映射网络低层可视特征来描述,将会有冗余的问题,因为功能映射还包含图像内容信息。灵感来源于图像风格转换的工作(19- - - - - -21),我们应用格拉姆矩阵变换的特征图谱的浅层次网络减少冗余的图像内容。
为了提高图像情感识别的性能,提出了CNN与以下改善。首先,使用特点的检测方法提取当地情感区域的特点更好的调用的情绪。其次,引入多个侧枝结构网络获得浅层次的特征图,使用格拉姆矩阵变换特性映射到减少冗余。最后,设计一个新的损失函数通过使用硬标签和标签图像情感分类概率降低图像情感主体性对分类的影响。
总之,我们的论文的贡献总结如下:(1)使用特点检测算法来定位的情感区域在图像和提取图像中情感的特征区域,可以避免噪音信息nonemotional地区,给当地的情感区域更多的关注。(2)设计一个方法来计算的格拉姆矩阵特征映射。格拉姆矩阵变换后,图像内容的冗余信息地图功能降低,和新的低层视觉特征。(3)提出一种新的损失函数通过使用硬标签和标签图像情感分类概率降低图像情感主体性对分类的影响。
本文的其余部分如下。节2,我们总结和回顾了图像情感识别和图像的相关工作特点检测。部分3介绍了我们的模型和改进的工作。部分4介绍了实验中使用的数据集,提出了实验结果和分析的工作。节5未来,我们的主要工作和研究总结了钥匙。
2。相关的工作
图像和视频分析在情感层面上已经吸引了越来越多研究人员的关注22- - - - - -25,已经进行了很多研究工作。在本节中,我们专注于复习相关的图像情感分析和图像特点的检测工作。
2.1。图像情感分析
在图像情感分类的工作,设计多级图像的视觉特征的方法,应用图像情感分析一直广受关注。Yanulevskaya et al。15)首次提出低级视觉特征,包括伽柏和每各月特性,将艺术作品的情感。独唱和楞兹(26]介绍了一种基于颜色的图像描述符和情感。这种方法来源于心理物理实验对图像分类和使用筛选功能情感预测。Machajdik和Hanbury2),艺术和心理学理论的基础上,定义了一个丰富的手工制作的中层特征方面的成分,颜色变化和纹理。赵et al。16]介绍了中层视觉特性设计基于principle-of-art提取情感特征的概念(PAEF)分类图像的情感。然而,与特征提取从CNN模型相比,这些手动功能主要集中在底层视觉特征。由于有限的功能类型和缺乏探索图像的高层语义信息,很难覆盖所有重要因素与图像相关的情感。
近年来,由于CNN出色性能的方法,研究人员应用CNN方法在图像情感分析。彭et al。27)首先应用ImageNet pretrained CNN模型(28)图像情感分析,取得了良好的分类结果。你等。29日]介绍了渐进策略训练培养CNN模型在大规模web图像数据集来检测图像的情感。Rao et al。17)提出了一个多实例学习框架为了获得图像的多级深表示,取得了一个令人兴奋的识别结果。你等。30.)使用注意模型提取当地情感区域特点进行情感分析。杨et al。31日与两个分支]提出了耦合的CNN,用于图像的全局和本地信息。然而,大部分的研究没有充分利用当地的情感区域形象,这限制了模型的分类性能。
2.2。卓越的检测
由于强大的表现能力深特性,基于深度学习的特点检测方法逐渐超越传统方法基于手动功能(32- - - - - -34]。灵感来自完全卷积网络(35),越来越多的研究关注预测显著像素级别的地图。刘等人。36]介绍了注意力机制指导功能一体化进程的u型模型。刘等人。37)提出了一种两级网络算法。该算法生成一个粗糙的特点并结合当地上下文信息映射到提炼卓越地图递归和层级。侯et al。38]介绍了短连接在多尺度端输出捕捉细节。Zhang et al。39]用双向结构之间传递信息的多层次特征提取卷积神经网络更好地预测显著地图。肖et al。40)第一次使用一个分心检测网络D-Net作物图像中的干扰区域,然后使用特点检测网络两者特点的检测。
3所示。该方法
为了提高图像情感识别性能,提出一种改进的CNN,我们的方法的框架如图2。该模型包括以下改进的组件。(1)两个输入分支:一个是原始图像的输入分支,另一种是卓越的图像输入分支。在第一个分支,基于Inception-v4[网络结构被修改41]。首先,完全连接层最后卷积后层Inception-v4网络中移除。其次,介绍了侧分支结构在三个不同深度的网络,和每个侧分支结构由一个卷积层和卷积内核大小 。在第二个分支,网络结构也修改基于Inception-v4,和完全连接层最后卷积层后删除。(2)三层完全连接工作输入完成后的两个分支。(3)softmax层生成每个类别的概率和工作后完全连接层。
在输入的原始图像,图像语义特征的全局视图从去年获得完全连接层,和特征图谱的多层网络得到从侧面分支,这些特征图作为输入来计算格拉姆矩阵。显著图的输入分支,地方情感的特征区域提取上次卷积层。语义特征,当地的情感特征,图像的低层视觉特征集成到混合表示图像情感分类的功能。最后,混合表示特征输入到最终完全连接层和Softmax层预测的情感类别。
3.1。卓越的检测和地方情感特征的提取
人类视觉系统处理图像的重要部分和与此同时很少关注其他部分,证明了人类视觉系统有一定的机制来选择观察对象时对象的位置。因此,研究人员认为图像中的对象区域是一个情感地区有更多的情感。事实上,当地的区域覆盖的对象更容易吸引人们的注意力,激发他们的情感。图像的特点突出了人类关注的学位信息丰富的地区和代表不同地区所呈现的不同的视觉感知的图像。基于图像的显著特征,显著检测是用于定位图像中的局部区域由对象和提取当地形象的情感特征。
首先,图像特点检测算法用于生成凸起的形象 , ,从相应的原始图像 , ,在哪里和h分别代表图像的宽度和高度。卓越的图像是一个二元图像和卓越的图像的大小是一样的原始图像。对象的元素值区域的原始图像是1,而物体区域的元素值是0。因此,当地的情感T可以根据计算 在哪里操作员将矩阵的元素吗X和矩阵Y。然后,输入T暹罗的卓越的图像输入分支网络提取局部图像的情感特征。
3.2。格拉姆矩阵和低级视觉特征提取
图像的低层视觉特征主要集中在浅水层的神经网络17]。存在冗余的问题,如果我们直接从浅层获得使用特征映射网络描述的低级视觉特征,因为功能映射还包含图像内容信息(例如,对象和一般的风景)18]。
摘要低级视觉特征是由格拉姆矩阵转换操作来减少冗余。对于每一个层,使用特征图谱计算格拉姆矩阵有以下步骤。首先,vectorize每个特性映射的大小 在卷积层获取一维向量的长度 。其次,结合一维向量在特征图的顺序获得一个矩阵 ,在哪里N代表的数量特征图卷积层。最后,计算格拉姆矩阵 根据这个卷积的层
每个元素在格拉姆矩阵之间的内积和 ,这可以吗
总结了算法的过程1。
|
||||||||||||||||||
3.3。情感主体性的损失函数约束
情感图像数据的收集,大多数投票策略被广泛用于获取图像的情感标签。我们计算基于标签的图像情感的分布概率来减少图像的主观影响情绪。情感理论研究表明,两个相似的情绪决定了他们之间的关系,和两个从类似于完全相反的情感可以用米克尔轮(42]。如图3,距离方程 定义在米克尔的轮量化两个情感关系。例如,情感恐惧和悲伤情绪之间的距离 ,和情感恐惧和厌恶情绪之间的距离 ,这表明情感悲伤和恐惧情绪之间的相似性较高。
基于距离的定义在米克尔的轮子,情感主导的概率分布和其他情感可以根据计算 在哪里j是占主导地位的情感类别的形象,V表示相同的极性的所有情绪的主导情绪j,的概率是主导情绪,的概率是其他情绪,除了占主导地位的情感j。所以,图像情感的概率分布的标签 可以获得,概率分布的总和被标准化为1。
通过使用硬标签和概率分布的标签,一个新的损失函数可以根据设计的 在哪里是叉分类损失,它可以计算吗 在哪里是地面真理标签和代表图像的概率属于我情感类别。然后,Kullback-Leibler散度(43)是用来衡量损失概率分布之间的标签并预测情感分布 。在这里,控制的重量 ,和可以通过计算
4所示。实验和结果
在本节中,我们的方法与其他方法相比FI, IAPSsubset, ArtPhoto,抽象的数据集来评估我们的模型。
4.1。数据集
在图像情感分析的工作,广泛使用的数据主要包括FI, IAPSsubset, ArtPhoto,和抽象,在这些数据集的图像样本的数量如表所示1。
Flickr和Instagram (FI) [1):这个情感数据集包含大约23308个情感图像。这些照片收集利用8情绪在Flickr上搜索关键词和Instagram社交网站。然后,这些照片被亚马逊土耳其机器人进一步标记,和每个图像的标签是由五人投票。
事实上,图像的实际数量,可以获得在这个数据集是22598,因为一些图像的网络连接失败了。表2显示可用的图像数量的统计。
IAPSsubset [2):国际情感形象系统(iap)是一个国际通用的情感图像数据集,这是广泛应用于图像情感分类。自然图像数据集包含1182个纪录片。米克尔et al。42了iap数据集的395张照片,将它们映射到八情感类别。
ArtPhoto [2):在这个数据集,选择照片的艺术照片分享网站与情感类别搜索关键字,共有806张照片。的情感类别由艺术家决定上传照片。
文摘(2]:这个数据集包含228个抽象绘画。每个抽象绘画的情感类别是由14个不同的人决定。得到最多的票数的情感是每个图像的情感分类。
4.2。实现细节
实验是在计算机上基于Pytorch环境。电脑使用英特尔(R)至强(R)的CPU e5 - 2640 2.40 GHz CPU和NVIDA GeForce GTX泰坦GPU (12 g内存)。我们的网络分类模型是暹罗,Inception-v4骨干网络的两个分支。数据集的图像被随机分为训练集(80%)和测试集(20%):训练集完全有18078图片,完全测试集有4519图片。图像首先尺度图像(320、480)的基于最短的边,然后翻转图像水平获得一个镜像,然后随机作物299×299图像从原始图像块和镜像作为模型的输入。我们使用参数pretrained ImageNet初始化模型的骨干网和使用随机梯度下降法优化模型。我们的模型的参数设置如下:学习速率的模型设置为0.001,体重衰变是设置为0.0001。特别是学习速率除以10后每5时代。模型训练了20世纪。具体参数设置表所示3。由于骨干网pretrained模型,骨干网络的学习速率将全球调整学习速率的1/10。
4.3。基线
4.3.1。手工制作的特性
手工制作的设计特性,我们为了/伦敦/我们+弓(44基于bag-of-words]使用筛选功能建立一个64位的颜色直方图模型全局颜色直方图(我们)和局部颜色直方图(华尔街日报)。赵et al。16]介绍了中层视觉特性设计基于principles-of-art提取情感特性的概念(PAEF)分类图像情感。Rao et al。45)提出了一个基于多尺度块情感分类方法。金字塔分割和简单线性迭代聚类(SLIC)方法用于图像分割成多尺度块。SentiBank [14)开发了一种视觉情感本体,包括1200相关的概念和分类器,每个概念是由形容词表达情感和一个名词相关的物体或场景。
4.3.2。深的特性
深的特点,AlexNet [8],VGG-16 [9],Inception-v4 [41)所有微调pretrained权重ImageNet数据集和完整的情感分类转移的帮助下学习。深SentiBank [46)提出2089 -暗-名词特性基于CNN。相(29日)提出了一个渐进策略训练训练CNN模型在大规模网络图像数据集来检测图像的情感。的基础上AlexNet,饶17)获得多级深度特性通过构造多个侧分支网络。杨(47)提出了一种基于标签的学习方法分布,旨在解决图像情感的主观问题。WSCNet [31日)提出了弱耦合的卷积网络监管两个分支。
4.4。实验验证
摘要大规模情感图像数据集的分类模型(FI)通过使用初始化参数pretrained ImageNet数据集,然后微调FI数据集上的模型来完成分类任务。小型数据集(IAPSsubset、Artphoto和抽象),初始化分类模型通过使用参数pretrained FI数据集,然后进一步微调模型来完成分类任务。
4.1.1。当地的情感特征的有效性
验证本地情感特征的有效性,我们设计了一个数据集比较实验。(1)我们的模型只使用全球功能的最后卷积层原始图像的输入分支模型和底层视觉特征。(2)我们的模型只使用本地从本地情绪情感特征提取区域的图像。(3)我们的模型采用混合分类特征组成的全球语义特征,当地的情感特性,和低级视觉特征。表4显示了我们的模型的分类性能数据集的三种配置。具体来说,全局视图只意味着模型使用全局语义特征和底层视觉特征,情感地区只意味着模型只使用本地从本地情绪情感特征提取区域的形象,和全局视图+情感地区意味着模型使用混合分类特征组成的全球的语义特征,当地的情感特性,和低级视觉特征。如表所示4模型(1)只使用全局语义特征和底层视觉特征,而模型(3)使用当地的情感特征作为补充信息,模型的分类精度提高了约4%,这表明,结合情感特性,从本地情感区域可以有效改善情感分类性能比只使用全局特性。在(2),当模型只使用当地情感的区域特性,模型的分类性能严重下降,这说明了提取语义特征的重要性,从图像的全局视图。
在图4,我们的模型的分类混淆矩阵所示是否使用图像的两个配置当地的情感特征。可以看出,应用本地的情感特性可以提高分类性能模型和产生一个更加平衡的识别结果为每个情感类别。
(一)
(b)
10/24/11。格拉姆矩阵变换的有效性
为了得到更多的低级视觉特征,我们在网络中引入多个侧分支。每一方卷积层组成的分支。我们应用算法1每侧分支,分别和变换功能映射来获取图像的低层视觉特征 。如表所示5,C占全球语义特征组成的混合特性和地方情感特征,l代表了低级视觉特征所描述的功能直接映射,和G代表的低级视觉特征捕获特性映射使用格拉姆矩阵。在表5,可以得到最佳分类结果结合特性C和特性 。捕获的低层视觉特征的功能映射可以获得更好的分类结果。它还可以看到,当 , 或 , 从网络层的添加,分类精度降低。添加功能 , 少对分类性能的影响与添加特性和 。这表明格拉姆矩阵变换可以有效地减少图像内容信息的冗余特征映射。
4.4.3。损失函数的有效性
我们的新损失函数设计通过使用硬标签和标签图像情感类别的概率,试图减少图像情感的冲击的主体性。不同的损失函数的叉 , 最大化情感类的区别,强调情感类别综合约束分类之间的关系和情感损失分布的损失。上面提到的两个损失函数是用来FI数据集,进行对比实验,结果如表所示6。可以看到,模型的分类性能已得到改进后应用损失函数。特别是,我们的模型的分类精度提高了约1.4%后应用损失函数,显示我们的损失函数的有效性。
4.4.4。参数的选择
在这个工作中,参数是用来控制分类的重量损失和情感损失分布。当设置为0,该损失,损失函数是叉和设置为1,表明该损失函数等于KL损失。图5显示了精度变化在不同的参数值 。当从0到0.4,增加分类性能有显著改善。然而,当进一步增加超过0.5时,分类精度开始减少。图5显示的重量设置太大,它可能导致太多的模棱两可。
4.5。与其他方法比较
4.5.1。比较在大规模数据集
为了进一步表明该模型的有效性,我们比较表中所示的方法7。我们的模型显然取得更好的结果相比,该方法基于手动功能SentiBank [14通过使用混合表示特性),这包括全球语义,当地的视觉,低级视觉特征。我们可以看到,我们的模型的性能优于CNN网络专门提出了对象识别任务表7,如AlexNet [8],VGG-19 [9],Inception-v4 [41]。此外,我们的模型达到更好的分类性能较深学习模式提出了图像情感分类,如杨et al。47],MldrNet [17],WSCNet [31日),它显示了我们的全球和地方混合的有效性表示特性,以及我们的损失函数的有效性。
4.5.2。比较在小规模数据集
为了验证模型的性能更全面,我们还设计了一个实验比较小的数据集,包括IAPSsubset,文摘,ArtPhoto。在实验之前,我们随机分割图像每个类别的样本数据集到5批次。然后,5倍交叉验证获得执行结果。尤其是情感类别愤怒只有8和3样品在抽象和IAPSsubset数据集,分别执行5倍交叉验证是不够的。因此,情感的分类结果这两个数据集的愤怒并不报道。实验结果如图6- - - - - -8。我们的方法优于Machajdik et al。2),赵et al。16],MldrNet [17在IAPSsubset、抽象和Artphoto。
5。结论
本文基于CNN框架特点检测和格拉姆矩阵提出了改善图像情感识别性能,和我们的方法已经应用于许多著名问题,包括FI (Flickr和Instagram)、IAPSsubset, ArtPhoto,抽象的。分类精度相比其他竞争文献中的方法,结果表明,我们的方法提高了图像情感识别性能。通过实验分析,可以得出,凸起检测、格拉姆矩阵变换,和新的损失函数是有效提高识别的准确性,这表明该方法具有潜在应用能力。在未来的工作中,我们的主要任务是将这种改进CNN集成到视频数据的实际应用,进行情感识别自动来更好地服务社会。
数据可用性
在这项研究中使用的数据集是Flickr和Instagram (FI) (https://onedrive.live.com/?authkey=%21AH57YMUbsP%2DqNls&cid=AB6522E29F6ED9A0&id=AB6522E29F6ED9A0%21101730&parId=AB6522E29F6ED9A0%21101729&action=defaultclick)、摘要(https://www.imageemotion.org/testImages_abstract.zip),IAPSsubset (https://www.csea.phhp.ufl.edu/media.html)和ArtPhoto (https://www.imageemotion.org/testImages_artphoto.zip)。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金支持,在批准号61977018, the Research Foundation of Education Bureau of Hunan Province of China, under Grant no. 16B006, the Hunan Provincial Natural Science Foundation of China, under Grant no. 2020JJ4626, and the Scientific Research Fund of Hunan Provincial Education Department of China, under Grant no. 19B004.