文摘

社交网络的普及带来了社会图像的快速增长已经成为一个日益重要的图像类型。一个最明显的社会图像标记的属性。然而,sate-of-the-art方法未能充分利用卓越的标签信息检测。因此本文着重于社会图像的显著区域检测使用图像外观特性和图像标记暗示。首先,深卷积神经网络构建,认为外观功能都和标签功能。其次,基于标签的邻居和外观的邻居凸起聚合条件添加到卓越模型来提高凸区域。聚合方法是依赖于个人图像和认为适当的性能差距。最后,我们还构建了一个新的具有挑战性的社会形象和大型数据集pixel-wise凸起注释来促进视觉特点的进一步研究和评估模型。大量实验表明,该方法不仅表现在新的数据集还几个先进的卓越的数据集。

1。介绍

图片和视频是两个主要的方式为社会娱乐和通讯。照片共享网站的流行,社会图像已成为一个重要的类型。社会形象的最明显的特征是,他们通常有一些标记来描述内容。如何使用多媒体任务的标记,如图像索引和检索(1,2这些天,吸引了越来越多的关注(3]。然而,标签是很少考虑先进的显著区域检测模型。因此,在本文中,我们关注社会图像的显著区域检测使用的外表特征和标记功能。

随着凸起检测的发展,大量的特点检测算法开发(4- - - - - -6]。人们已经发现,只有依靠低级特性不能达到令人满意的结果。研究证明,层次和深度的架构(7- - - - - -12显著区域检测是非常有效的。因此,一个显著区域检测方法提出了基于深度学习。此外,各种先验显著的地区也很重要检测(13),例如,面对[14- - - - - -16)、汽车(17)、颜色(14),中心偏差(13[],客体性18- - - - - -20.]。直观地说,标签可能显著区域检测的重要高层语义线索(16,21]。因此,标签纳入我们的显著区域检测模型。

观察到不同的方法执行不同的特点分析(22]。卓越的性能随个人图像。这个问题也存在于深基于特征方法和手工制作的特性的方法。所以手工制作的基于特征的检测方法可以认为是互补性深特性为基础的检测方法。然而,没有地面真理融合过程。它是重要的,以确定哪些显著地图更好。好的特点聚合模型应该在每个单独的图像,可以考虑适当的性能差距。因此,如何融合卓越的地图不同的检测方法是一个需要解决的关键问题。

显著区域检测的框架如图1。它包括两个部分:基于深度学习显著区域检测和手工制作的特性显著区域检测。深度特性包括CNN(卷积神经网络)的特性和标签功能。最后,凸起地图的空间相干性是通过完全连接优化的条件随机域模型。

有各种各样的特点检测基准数据集,从卓越检测场(7,8,23- - - - - -26)或从图像分割领域(27- - - - - -29日]。进一步促进研究和评估社会图像视觉显著检测,有必要构建一个新的数据集的社会形象。

本文主要关注社会图像的显著区域检测。本文的贡献是双重的。首先,基于深度学习的社会图像显著区域检测方法,提出了考虑外观功能都和标签功能。其次,基于标签的邻居和外观的邻居凸起聚合方法,提出了该融合先进的手工制作的基于特征检测方法与我们的深度学习检测方法。聚合方法取决于每个特定个人形象和适当考虑卓越的性能差距。所以检测模型充分利用图像标记。

剩下的纸是组织如下。基于深度学习的模型提出了部分2。部分3论述了手工制作的基于特征的检测模型。节4,提出了卓越聚合方法。空间相干性优化中讨论部分5。节6介绍了社会图像数据集,新特点。节7,大量的实验和分析。最后,给出了结论部分8

2。基于深度学习的显著区域检测

基于深度学习的显著区域检测使用两种类型的功能,外观根据CNN(卷积神经网络)特性和社会图像标记功能。它们是下面讨论。

2.1。基于CNN的显著区域检测
2.1.1。网络体系结构

深层网络外观特征提取有8层(30.)如图2。它包括卷积5层,2层完全连接,1个输出层。底层代表输入图像和相邻的上层代表的区域特征提取。

卷积层负责多尺度特征提取。为了实现翻译不变性,马克斯池操作执行后卷积操作。学特性是由4096个元素组成的。完全连接层随后ReLU(修正线性单元)非线性映射。辍学过程是避免过度拟合。ReLU为每个元素执行操作在以下。 在哪里 是4096个元素的特点;如果 ,然后 ;否则

输出层使用softmax回归计算的概率图像补丁被突出。

2.1.2。多尺度CNN特性计算

在一个图像,突出地区的独特性,稀缺性,明显的差异和他们的社区。受文献[8),为了有效地计算特点,计算三种类型的差异,也就是说,地区之间的差异及其社区,地区之间的差异和整体形象,和该地区的区别和图像边界。计算这些差异,区域提取的四种类型:(1)矩形样本滑动窗口的方式;(2)社区的矩形样本;(3)图像的边界;(4)图像面积矩形样本除外。四种类型的区域如图3

2.1.3。CNN网络培训

咖啡(30.),一个开源框架,用于CNN训练和测试。最初深卷积神经网络训练ImageNet数据集。我们为每个区域提取多尺度特性,调整网络参数。为每个图像训练集,我们农作物样品 RGB补丁滑动窗口的方式的步伐10像素。标签样本补丁,如果超过70%像素在这个例子中是突出的,那么这个样品标签是1;否则它是0。使用该注释的策略,我们获得的样本地区 和相应的标签

在调整过程中,成本函数与衰变的重量将softmax损失 在哪里 是可学的卷积神经网络的参数,包括所有层的偏见和权重; 指标函数; 的概率吗 th示例突出; 是重量的参数衰变; 的重量吗 层。我们使用随机梯度下降训练网络与批量大小 , 。最初的学习速率是0.01。当成本稳定,学习速率下降了0.1倍。80时代是重复的培训过程。辍学率设置为0.5,以避免过度拟合。

2.2。标签语义特征计算

因为对象是凸区域密切相关的,我们使用对象标签来计算语义特征。一个区域是一个特定对象的概率反映了在某种程度上可能是一个突出的地区。因此,区域特定对象的概率可以被视为先知先觉。

RCNN (CNN)的地区31日)是基于深度学习和得到了广泛的应用,因为它出色的对象检测精度。摘要RCNN用于检测对象;因此标签语义转换为RCNN特性。

假设有 对象探测器。为 th检测器,检测过程如下。

(1)选择 建议更有可能包含的具体对象。

(2)计算 th提议概率 th提议的 th对象, , 。与此同时,每个像素 建议也有相同的概率

(3) 提议,每个像素的分数 对象。如果像素包含 th提议,然后 ,否则

后获得每个像素尺寸特性 对象检测器检测。 是规范化维度特征 , 。每个维度的 表明概率作为一个特定的对象。

2.3。融合基于CNN的凸起和标签的语义特征

假定显著地图 和基于RCNN语义特征 ;融合是

标签是先知先觉,融合权重。 代表了融合卓越地图。

3所示。手工制作的基于特征显著区域检测

观察到不同的方法执行不同的特点分析(22]。虽然整体检测效应基于深度特性优于基于手工制作的特性,仍然存在对个人形象的差异。所以手工功能基础的地图可以被视为基于互补性深特性显著地图。在图4第一列显示了原始社会图像;第二个显示地面真理面具;第三显示了突出的地图DRFI方法(25)是基于手工制作的功能;最后代表了MDF的凸映射方法(8),这是基于深刻的特性。我们可以看到,最后一列包括不完整的部分,边界不清楚,错误的检测。纸,一些先进的显著区域检测方法基于手工选择功能互补性对我们提出了深度检测方法。

4所示。卓越聚合

4.1。主要思想

可以看出如果显著区域检测方法对社会有很好的影响形象,这种方法很有可能让音响效果相似的图像。聚集的主要思想是基于这样的假设。

在培训过程中,排序的列表上所有的检测方法可以实现所有图像。排序列表可以被看作是先知先觉的测试。

在测试过程中,我们的搜索然而,最近的邻国(K)图像与测试图像训练集。此外,这种资讯图像列表在训练阶段。然而,图像可以通过排序列表支持检测方法。因此,测试图像能够获得其基于投票排序列表。凸映射的测试图像可以通过聚合计算其显著的地图不同的方法使用排序列表。

培训流程和测试流程如图56

4.2。培训过程

给定一个图像 训练集,它是由地面真理 ;其显著地图使用不同的检测方法来标示 。在这个特点映射集合, 检测方法的数量, 突出的地图吗 方法。

对于每个检测方法,其显著地图可以与地面实况 和产量AUC值(ROC曲线下的面积)。AUC值越大,凸起检测性能就越好。AUC值计算后,可以获得所有方法的列表。

为了方便起见,假设有四种检测方法。排序列表如图7。数据结构是单一的链表。头节点的数据域表示图像和头节点的指针域指向数据节点。Nonheader节点包括三大类:第一个域是AUC值,第二个域是指数的方法,最后一个域是一个指针。

4.3。测试过程

一个社会形象有两部分:图像和相应的标签。在测试集,形象 和它的标记集 给出了, 是标签的数量。我们通过标签搜索邻国语义和图像的外观。排序列表的邻居可以投票给凸映射的图像

4.3.1。基于标签的邻居搜索

有两种类型的标签:对象标记和标签。因为对象是密切相关的重要区域,用于语义搜索对象标签。

有37个对象标签在新的数据集,包括动物,熊,鸟,猫,狐狸,斑马,马,虎,牛,狗,麋鹿,鱼,鲸鱼,汽车,船,汽车,飞机,火车,人,警察、军队、纹身、电脑、珊瑚、鲜花、旗帜、塔,雕像,符号,书,太阳,叶子,沙子,树,食品、岩石、和玩具。

在这些类别,动物有超类和子类关系熊,鸟,猫,狐狸,斑马,马,虎,牛,狗,麋鹿,鱼,鲸鱼;车辆超类和子类关系船,汽车,飞机,火车;人有超类和子类关系与警察,军队和纹身。

虽然超类和子类的类定义有很大的相关性,很多子类有多种不同的环境和外观。所以,动物类,子类需要精确匹配找到邻居;车辆类、子类需要精确匹配找到邻居;因为阶级的特殊性,如果没有子类的准确匹配,匹配可以在人的水平。

4.3.2。基于外观的邻居搜索

256维直方图的RGB颜色空间和使用 距离计算。

4.4。基于投票的凸起地图聚合

假设测试图像 ,标签的数量的邻居 ,和外观的邻居的数量

训练集的基于标签的搜索后,发现邻居号码是 如果 ,然后 选择图像根据外观相似之处 图像。最后,给出基于标签的邻居集 在哪里 是最后的邻居;如果 ,然后 ;否则,

在训练集外貌的相似度计算后, 选择最近的邻居

合并集(4)和(5),得到一组

每个邻居的形象有一个列表,包含所有的AUC值检测方法。AUC值为每个检测方法可以投票。投票权重求和

, th邻居和 检测方法。 是检测的数量模型。

凸映射的图像 在哪里 是凸起的地图吗 检测方法。

融合特点映射可以计算如下。

5。空间相干性优化

在凸起的计算,不考虑相邻区域的空间关系,这将导致噪音显著区域。在图像分割领域,研究者使用完全连接CRF(条件随机场)模型(49)取得更好的分割结果。因此,我们使用完全连接CRF模型优化的空间相干性显著地图。

目标函数定义如下。 在哪里 是二进制变量被突出。 像素的概率是 被突出。最初, , 像素的特点吗

定义如下。

如果 ,然后 ,否则为0。

位置信息和颜色信息被认为是

像素的位置吗 像素的位置吗

是像素的颜色吗 是像素的颜色吗

表明,相邻像素具有相似颜色应该有类似的特点。 控制颜色相似性和距离接近。

只考虑位置信息。目的是去除小面积。

6。建设卓越的数据集的社会形象

本文着重于社会图像的显著区域检测,因此有必要构建一个新的数据集的社会形象,促进视觉特点的进一步研究和评估模型。下面将详细讨论。

6.1。数据源

NUS-WIDE数据集(50)是一个web图像数据集由新加坡国立大学实验室对媒体搜索。这个数据集的图像和标记从Flickr这是一个流行的社交网站。我们随机选择10000 NUS-WIDE的图像数据集。NUS-WIDE数据集的图像来自38个文件夹,包括雕刻、城堡,猫,手机,椅子,菊花,教室,悬崖,电脑、冷却塔、珊瑚、无绳美洲狮,法院,牛,土狼,跳跳舞,鹿,窝,沙漠,细节,潜水员,码头,特写,蝶式,幼崽,娃娃,狗,狗,鱼,国旗,鹰,大象,麋鹿,f - 16,外观和小鹿。

6.2。突出区域注释

因为凸区域的边界框是粗糙,不能揭示区域边界,我们采用pixel-wise注释。在标注过程中,九个受试者被要求指定的有吸引力的地区根据第一眼的形象。

减少标签不一致的注释结果,计算分数像素的一致性。一个像素可以被认为是突出如果50%的受试者选择它(23]。

最后,两个科目使用Adobe Photoshop部分突出的地区。

6.3。图片的选择

首先,10000张图片是从NUS-wide数据集随机选择。然后,选择的图像进一步遵循标准。(1)任何突出的地区和相应的图像的色彩对比小于0.7。(2)突出的地区富含大小。凸区域的比例相应的图像覆盖10年级, , , , , , , , , , (3)至少百分之十的显著区域与图像边界。

经过5轮的选择,数据集包含5429张图片。

新数据集的图像有一个或多个凸区域;突出的位置并不局限于图像中心区域。突出区域的大小是不同的。大量的复杂/杂乱背景图像。有78个标签来自81标签NUS-WIDE数据集。所有这些将带来挑战显著区域检测。

6.4。典型的新数据集的图像

在本节中,图像的典型例子,地面真理面具,下面列出和标签。图像可以有一个或多个凸区域图8。图片可能混乱和复杂的背景图9。突出的地区富含图的大小10

7所示。实验

7.1。实验装置
安装7.1.1。实验数据集

本文的目的是解决社会图像的显著区域检测。所以主要的实验数据集是我们新的数据集,缩写为TBD(基于标签的数据集)。

我们选择20对象标签,包括熊、鸟、船只、建筑、汽车、猫,电脑,珊瑚,牛,狗,麋鹿、鱼、花、福克斯、马、人,飞机,虎,火车,和斑马。相应地,20 RCNN对象探测器选择提取RCNN特性。前1000建议每个探测器是用来计算RCNN特性。

提出基于深度的检测方法是缩写为星展银行(基于深度的特点)。DBS方法相比,27节中最先进的方法7.2.1。27 CB[最先进的方法34),英国《金融时报》(23],赛格[44],RC [14动宾[],17),远程雷达(39,科幻小说45),g (37),CA (33),学生(47],HS [7],TD [48(先生),24],DRFI [25),主成分分析(41,嗯38GC (),36],MC [40),安全域(35],SBF [43)、双相障碍(42],SMD [46,提单32],MCDL [9],MDF [8,腿10],RFCN [11]。这些方法不仅很受欢迎,也涵盖许多类型。

此外,我们还验证部分聚合方法的性能7.2.2

7.1.2。先进的实验数据集

我们还进行了六个最先进的实验数据来验证我们的方法。这些数据集是MSRA1000 [23],DUT-OMRON [24],ECSSD [7],港大代表着[8],PASCAL-S [51),而SOD (27]。在这些数据集,SOD (27从细分领域)是一个数据集;其他人来自卓越的领域。因为这些数据集没有图像水平标记,我们提取对象特征19这些数据集。对象是一种高层次的语义线索,所以对象提示标签特性相似。与DBS的方法相比,该方法使用对象特性而不是标签功能略突发交换(基于对象的特点)。

观察方法,相比之下,11个最先进的方法,包括英国《金融时报》(23],RC [14,科幻小说45],HS [7(先生),24],DRFI [25GC (),36],MC [40)、双相障碍(42],MDF [8),和腿10]。

7.1.3。评估标准

我们采用了流行的绩效评估的定量评价结果,包括公关(精密召回)曲线,中华民国(接受者操作特征)曲线, 测量值,AUC值(ROC曲线下的面积),和梅(平均绝对误差)值分别。

7.2。TBD实验新的数据集
7.2.1。实验基于深度学习的检测方法

DBS是相对于27日最先进的方法。结果在表1和图11

在28日在表的方法1四大方法都是基于深度学习的方法,包括MCDL [9],RFCN [11],MDF [8),和星展。在某种程度上,基于深度学习检测方法比手工制作的特征匹配方法,方面的完整性和准确性的特点地图。AUC DBS方法是最高的价值。 DBS方法的测量值略低于RFCN [11]。美DBS第三低的价值。DBS方法的整体性能很好。

典型的显著图如图11

7.2.2。聚合方法的实验

手工制作的特性为基础的检测方法作为互补性DBS DRFI (25],SMD [46,提单32],MC (40]。

在邻居搜索、标签的邻居是4的数量和外观邻居的数量是4。

为了验证邻居的影响,出现基于邻居的方法和基于标签的邻居的方法进行,分别。外观基于邻居的聚合方法略如ABS(基于外观的特点)。基于标签的邻居聚合方法略TBS(基于标签的特点)。基于标签的邻居和外观的邻居聚合方法略的边后卫(基于融合的特点)。

DBS的检测性能,ABS、TBS的边后卫比较表2

TBS的性能优于ABS的性能。原因如下。ABS方法是基于外观特征基于邻居搜索。外观类似的图像不能保证类似的显著图。然而,TBS方法使用对象的信息。相同或相似的对象可以确保在某种程度上类似的凸区域。所以TBS的性能更好。

公关和ROC曲线如图1213。公关和ROC曲线的边后卫高于27最先进的方法。

典型的例子凸起的边后卫的地图法和DBS法如图所示14。可以看出,聚合结果更完整和细节是更好的。

7.3。先进的实验数据集

实验结果给出了表3。我们可以看到,AUC值最高的所有数据集, 奥林匹克广播服务公司的测量值是最高的在所有的数据集,和梅值最低的或第二低。奥林匹克广播服务公司的性能是最好的。然而,突发的改进并不是那么明显,因为对象特性是不准确的标记功能。因此我们相信,将明显改善的结果,如果我们使用准确的标记注释的图像。

先进的实验数据集验证我们提出的方法的有效性DBS。

8。结论

本文主要关注社会图像的显著区域检测。首先,提出基于深度学习的显著区域检测方法考虑外观功能都和标签功能。标签功能是探测到RCNN模型。第二,标签的邻居功能和外观的邻居功能被添加到凸起聚合模型。最后,一个新的数据库具有挑战性的社会形象和pixel-wise凸起构造注释,可以促进视觉显著模型的进一步研究和评估。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持计划项目北京市教育委员会(KM201511417008),中国国家自然科学基金(批准号62372148),国家自然科学基金(批准号61272352),北京自然科学基金(4152016)。