文摘
传统的显著目标检测模型分为几类基于底层特征和像素之间的对比。在本文中,我们提出一个模型基于多级深度金字塔(MLDP),其中包括融合多个特性在不同的水平。首先,MLDP使用原始图像作为输入VGG16模型提取的高级功能和形成一个初始显著地图。接下来,MLDP进一步提取高层特征形成凸起地图基于金字塔深处。然后,MLDP获得显著地图融合superpixels通过提取底层特征。之后,MLDP背景噪声滤波适用于凸起地图融合superpixels为了过滤背景噪声的干扰,形成一个基于前台的显著图。最后,MLDP结合显著图融合与superpixels显著地图基于前景,导致最后的显著图。MLDP并不局限于低层次的功能虽然融合多个特性和提取凸目标时达到好的结果。在我们的实验中可以看出部分,MLDP比其他7最先进的模型在三个不同的公共特点的数据集。因此,MLDP优势和广泛适用性的显著目标提取。
1。介绍
视觉显著目标提取最重要的区域和目标在一个场景模拟人类视觉注意系统。近年来,视觉显著目标检测模型已经应用于许多应用,如视频摘要(1),特定的对象检索(2,对象检测(3]。
为了计算视觉特点,传统模型通常基于图像的对比。例如,全球contrast-based凸模型(4)将图像划分为几个小的图像区域,和对比小图像区域是用来强调突出目标。这种模型有很好的整体对比度和突出目标的位置是准确的,但其突出目标相对模糊的轮廓。凸模型(5)获得卓越的地图通过比较图像中相邻像素。该方法可以提取显著目标的轮廓,但容易受到复杂的背景,减少目标检测的准确性。
同时凸模型基于低层特征的有很多,最著名的是传统的金字塔模型提出的Itti和科赫6]。在这个模型中低层特征,如颜色、方向,亮度是提取在不同的频道。这个模型可以模拟生物central-surrounding抑制机制在人类视觉系统,卓越的地图是通过融合多尺度特性,但只有低层次特征提取。所以突出目标的轮廓模糊由于背景噪音。因此,为了避免背景噪声干扰,一个模型基于融合的背景和前景7提出了]。这个模型是有用的在避免背景噪声干扰,但仍不够准确。同时,持续改进的深度学习网络和深度卷积网络(8在计算机视觉和图像处理领域,突出模型使用深卷积网络提出了基于高级特性(9)将原始图像划分为小图像块。小图像块费解和各级汇集和迭代获得原始图像的特征词典。然后,计算每个像素的显著成绩功能词典和支持向量机(SVM)。这种模型的优点结合模型基于局部对比度和提取高级功能(如人脸的细节)。然而,由于缺乏色彩,空间,以及其他低级特性,突出的地图很容易受背景噪声的影响。
为了解决这些问题,我们提出一个深金字塔模型称为MLDP金字塔(多级)模型,于一体的低级功能,高级特性,和当地的对比。MLDP模型是基于金字塔的结构(6),VGG16深模型,superpixel分段映射结构,背景噪音过滤结构(7]。
首先,我们把整个图像到VGG16模型产生一个初始凸映射。然后,我们应用一个金字塔结构模拟central-surrounding抑制机制,因为这金字塔结构可以提取特性,基于本地的对比。然后我们最初的显著图划分为六个不同的尺度上形成初始显著地图金字塔。通过这种方式,我们可以比较多尺度图像,提取局部对比度特性。VGG16模型有一个相对较小的卷积核,小的步骤,并且有更好的准确性;因此,我们选择了VGG16模型金字塔高层特征提取。VGG16模型提取高层特征为每个图像金字塔的规模与高级功能,形成一个深的金字塔和多尺度特性映射由center-surround区别。获得特征映射,这种“赢家通吃”的政策,抑制返回用于创建卓越映射基于金字塔深处。它使用VGG16深模型提取高级特性,所以它有更好的特征提取精度较浅的模型。superpixel分段映射结构设计中提取颜色、亮度,纹理,以及其他低级特性,因为superpixels小区域的像素相似的位置,颜色,亮度,纹理,和其他低级特性。 By mapping between superpixels and a saliency map based on a deep pyramid, low-level features can be added to form a saliency map fused with superpixels. Because the saliency map fused with super-pixels is sensitive to background noise, the background noise filtering structure (based on low-level factors such as color and spatial distance) is used to eliminate the effect of background noise. The background noise filtering structure can also enhance the extraction of low-level features in order to obtain a saliency map without background noise (a saliency map based on foreground). The final saliency map is a fusion of the saliency map based on the foreground and the saliency map fused with superpixels, so the feature extraction of the final saliency map is more comprehensive and accurate.
我们MLDP模型做出了以下四个贡献:(1)我们不使用传统的金字塔结构提取三个通道的低级特征如颜色、方向,和亮度。相反,我们创造性地使用VGG16模型提取高层特征形成初始显著地图深金字塔结构的输入。(2)我们添加一个额外的空间金字塔池层VGG16模型以适应不同尺度的金字塔结构。(3)我们使用VGG16模型空间金字塔池层在每一尺度金字塔的构建金字塔结构。与当地的对比特征提取,提取的高级功能可以更加全面和准确。(4)我们创建一个superpixel对比映射结构。superpixel分割是基于低层特征的特点,和这些低级特性被添加到显著地图基于金字塔深处同时提取底层特征。
2。我们的方法
近年来,研究人员一直在受到人类的视觉注意力系统,已经提出了很多视觉显著目标检测模型(10- - - - - -15]。在本节中,我们将介绍MLDP模型,如图1。它包括五个部分:(1)VGG16模型用于提取原始图像的高级特性,形成最初的显著图;(2)我们获得多尺度分割的图像金字塔和应用VGG16模型与空间金字塔池层每个图像金字塔的规模,形成深金字塔;(3)显著地图基于深金字塔与superpixel分割提取底层特征映射;(4)背景噪音过滤结构;和(5)加权融合的多层次结构特点的地图。接下来,我们将介绍这五个部分。
2.1。形成了最初的显著图
我们把原始图像作为输入VGG16模型提取高级特性。VGG16模型在我们MLDP模型类似于传统VGG16模型(8在特征提取方面,包含卷积和池迭代。不同之处在于,我们添加一个空间金字塔层(16)的完整的连接层VGG16模型为了适应不同尺度图像的金字塔。VGG16结构模型如图2。我们用卷积五层,获得初始全局显著地图通过完整的连接层的激活。卷积的五层可以提取全球高级特性,和空间金字塔池层可以避免在完整的连接层参数的变化由于改变了最初的显著图的大小,从而使训练更容易。然而,由于最初的显著图是基于全球高层特征信息,忽略了当地的对比特征信息和低级特征信息,最初的全球卓越地图不能提取显著目标的细节。因此,我们使用深金字塔结构和superpixel分割提取本地和低级特性。
2.2。多尺度金字塔深处
多尺度图像金字塔是一个基于局部特征提取方法的对比。与传统金字塔,我们忽略低层次的功能,如颜色、亮度,金字塔和方向,因为在我们的模型是用来提取与当地的高级特性的对比。我们使用最初的全球卓越地图金字塔结构的输入和应用VGG16模型与空间金字塔池层中的每个尺度金字塔。应用的主要贡献VGG16模型的高斯金字塔VGG16模型提取特征具有良好的能力,但VGG16模型缺乏对抗机制的特性存在于金字塔,对抗机制已被证明是重要的在人类视觉系统的突出对象检测(17]。没有对抗机制,VGG16模型的性能将显著下降对象检测。另一方面,如果金字塔失去VGG16模型,提取的池的性能特性,如颜色、亮度,和方向的传统金字塔将限制在显著目标检测性能。因此,重要的是要VGG16模型应用于高斯金字塔,如图3。
(一)形象
(b)显著地图基于金字塔深处没有VGG16模型
(c)显著地图基于金字塔深处没有高斯金字塔
(d)显著地图基于深金字塔和高斯金字塔VGG16模型
VGG16模型有一个固定规模要求的输入;我们的高斯金字塔不同尺度;如果我们想使用VGG16模型的高斯金字塔,金字塔的多尺度要求必须解决。针对上述问题,我们添加一个空间金字塔池层(16)来解决这个问题是另一个主要贡献在VGG16模型应用到金字塔。如图2、空间金字塔池输入分为固定网格 , , 。通过固定网格,最终输出完整的连接层将正常化 不同规模的输入。在我们的模型中,VGG16模型包含一个空间金字塔池层可以适应多尺度金字塔的需求,形成金字塔深处。
这个想法在我们人类视觉注意力模型的启发是多尺度金字塔深处。所示的研究人类视觉注意力系统(17),人类的视觉系统可以检测视觉突出对象由于冲突感觉领域的中心区域和周边区域的视觉细胞,如果中央区域比周围地区,更突出的突出对象在人类视觉系统是中心区域如图4(一)和4 (c),否则突出对象周围的区域如图4 (b)和4 (d)。因此,中央和周边面对彼此产生最终结果。在我们的模型中,我们选择在周边地区规模 , , 高斯金字塔,规模我们选择的中心区域是规模 , , 在高斯金字塔。类似于高斯金字塔,我们选择规模 , , 周边地区和规模 , , 中心区域。通过以下central-surrounding差异机制,我们的模型可以模拟之间的对抗中央区域和周边区域的感觉在人类视觉系统的视觉细胞。
(一)
(b)
(c)
(d)
VGG16模型中的层数随金字塔的规模,以避免过度可能导致失真图像大小,如表所示1:
然后使用压扁和完整的连接层获得地图多尺度金字塔深处的高级特性。其公式如下: 在哪里与VGG16高层特征的提取模型,是高级特性显著地图多尺度,是压扁的操作,代表完整的连接层,深的高层特征多尺度地图金字塔。
深金字塔模拟central-surrounding区别人类视觉系统,它可以提取局部对比度特性。减去不同级别的高层特征之间的映射的金字塔。公式如下: 在哪里和代表了多尺度金字塔深处的高级特性图,分别表明多尺度之间的点对点减法的高级特征地图金字塔深处,和 获得的多尺度局部对比度特征映射的金字塔。
为了融合多尺度局部对比度特征映射的金字塔,金字塔深处定义一个归一化函数,它有以下公式: 在哪里是输入的多尺度局部对比度特征映射的金字塔,代表了当地地图对比功能,功能得分是当地的最大价值对比特征映射,然后呢是当地的平均特性对比特征映射。
我们正常使用归一化局部对比度特征在不同尺度函数,并执行多尺度融合。公式如下: 在哪里显著图基于金字塔深处。
最初的高级特性的基础上显著地图,深金字塔用于进一步提取高层特征,和当地的对比功能也融合提高显著目标的提取。
2.3。使用Super-Pixel分割减轻低级特征的丢失的突出成绩
Superpixel分割是基于相似性等低级特征的像素颜色和空间距离。这些像素具有类似低级特性被归类为一个地区,为了段区域的像素在低级特征是相似的。这些区域被映射到一个凸起地图基于金字塔深处,以执行一个图像区域分割操作地图上深金字塔凸起基于底层特征相似的原则。像素点的显著成绩的平均值计算出每个地区在该地区。因为像素在同一地区相似的颜色,空间距离,以及其他低级特性,如果像素的显著成绩低于平均得分在同一地区,像素的显著的分数将被平均分数所取代。这种方法是基于高层突出成绩,根据像素的相似性的低级功能在同一地区: 在哪里显示的像素总数在一个小区域, 是每个像素的显著成绩占据显著的一个小区域地图基于金字塔深处,然后呢 是像素的坐标。因此,该方法可以弥补减少的显著成绩缺乏引起的低级功能。
2.4。背景噪声过滤
我们使用显著地图基于前景线索提取方法(7)来过滤背景噪声的干扰。这主要是分成两部分如下详细。
2.4.1。选择前景的线索
我们使用自适应阈值的方法18)与superpixels段显著地图融合,并选择那些突出的分数大于阈值的像素作为前景的线索。我们使用自适应阈值而不是一个固定的阈值,因为自适应阈值可以适应不同起源的输入和有良好的精度。
2.4.2。卓越过滤背景噪声地图
我们衡量一个地区的突出成绩通过计算获得的区域之间的颜色和空间距离superpixel分割匹配前台superpixel获得的线索和地区分割,不匹配的前景的线索。公式如下: 在哪里是前台的设置线索, 代表颜色之间的距离superpixel分割获得的区域匹配前景线索和superpixel获得的区域分割前景线索不匹配,和 代表之间的空间距离superpixel分割获得的区域匹配前台superpixel获得的线索和地区分割,不匹配前景的线索。为了避免零前景线索的自相似性,计算凸分数使用以下公式: 在哪里基数的前景线索吗 , 是每个地区的突出成绩由superpixel分段。因为我们的前景线索包括像素高的突出成绩由自适应阈值选择方法从我们的卓越与superpixels地图融合,提取前景线索可以过滤掉那些像素较低的突出成绩由背景干扰引起的。因此,一个显著地图组成的可以过滤掉背景噪音的干扰。
2.5。加权融合不同的凸起的地图
为了避免造成的弱化效应,显著目标提取背景噪音过滤,我们使用加权融合(19与superpixels]凸起之间的映射(融合)和显著地图(基于前景)。这个公式是: 在哪里和的重量显著地图吗和 ,分别通过最小二乘估计是最后的凸起地图。
3所示。实验
3.1。数据集
在本节中,为了测试和反映我们的模型的影响,我们选择微软的数据集,帕斯卡ECSSD数据集,数据集的处理目标数据集。微软数据集包含5000个不同复杂背景的图片,每张图片的ECSSD数据集有一个定义良好的卓越目标,帕斯卡包含1000个真实的图片超过一个显著的对象。
3.2。评价指标
除了公关曲线中,我们使用F-measure分数(20.评估显著目标的提取。F-measure分数计算如下: 在哪里设置为0.3,通过自适应阈值分割方法。
3.3。结果
为了展示我们的发现,我们比较MLDP模型与其他先进的模型:7 CA (21],BFS [7,提单22],GL [23],MDF [24,腿25),和古人26]。
我们评估这些模型的显著目标的提取结果使用不同的数据集,如图5和6。
(一)
(b)
(c)
(一)
(b)
(c)
如图5,MLDP模型达到良好的精度和召回在同行,ECSSD,帕斯卡的数据集。尽管其他模型的召回率略高于MLDP模型时,记得在ECSSD数据集在0.28和0.3之间,MLDP模型更好的在其他范围的精度和召回。因此,我们MLDP模型具有广泛的适用性。
我们可以看到从图4我们MLDP模型比其他模型就是F-measure得分就越高。综合结果表明MLDP模型相当有效的召回,精密,F-measure。
我们提供一个可视的比较结果为每个模型图7。如图所示,我们的MLDP模型不仅准确定位凸目标还提取显著突出目标细节和清晰的轮廓,尤其是在复杂背景的情况下,如线2和8。大多数其他混淆凸目标和背景模型。因为MLDP模型可以消除复杂背景的干扰因素,突出目标的提取是比大多数其他模型。是否突出目标很小(11行)或大型(10行),我们的MLDP模型具有更好的显著目标提取,特别是当凸目标大,接近边缘的图像(10和线5行)。其他模型将影响图像的边缘,这影响显著目标的清晰。MLDP模型也对低对比度的颜色表现出好的结果(行1行3和6行)。MLDP不仅有一个好的结果在一个单一的突出目标也适用在多个目标(4行,行7和9行)。
3.4。模型组件分析
MLDP模型的优点之一是它结合了传统的金字塔模型与深度学习VGG16模型形成一个金字塔。VGG16模型用于提取高级特性在金字塔的每一个层次,所以MLDP模型的结果是大大改善。背景噪音过滤在我们的模型中也是重要的,特别是对于复杂的背景环境,可以减少干扰背景因素的显著目标的提取。
3.4.1。深金字塔的重要性
深金字塔结构是基于传统的金字塔的地方特色和提取高层特征提取引入深度学习VGG16模型。为了演示的重要性深金字塔,我们比较的结果MLDP模型与BFS模型(7),不使用深度学习框架提取高级特性,如图8。
(一)形象
(b)石
(c) MLDP
图8表明MLDP模型(深金字塔)比BFS模型(没有深金字塔)。虽然MLDP和BFS模型都有一个背景过滤结构,BFS模型仍由传统的基于低层特征的提取方法。MLDP模型,然而,使用一个金字塔深处提取高层特征导致大大提高的结果。
3.4.2。Superpixels映射的重要性
我们不直接提取底层特征根据传统观念,但间接提取底层特征与映射superpixels基于低层特征,我们可以测量它的好处从图9。从红色方块图,我们可以看到,映射在superpixels可以弥补缺乏形状凸目标。映射在superpixels还可以减少背景干扰如黄色框图所示。映射在superpixels MLDP模型有两大好处。
(一)形象
(b) MLDP superpixels没有映射
(c) MLDP superpixels映射
3.4.3。背景噪声滤波的重要性
因为凸目标的提取是容易受背景噪声的影响因素,特别是在复杂背景的情况下,我们适应背景噪声滤波来消除这种影响。说明背景噪声滤波的重要性,我们比较的结果模型没有背景噪音过滤和MLDP模型图10。
(一)形象
(b) MLDP没有背景过滤
(c) MLDP
与没有背景噪音过滤的模型相比,MLDP模型消除了背景噪音的干扰因素。图10表明该模型没有背景噪音过滤的准确性会降低凸目标由于复杂背景的干扰,和周围的背景干扰会出现显著的目标。与此同时,MLDP与背景噪声滤波可以消除这些错误由背景噪声的因素引起的。
4所示。结论
在本文中,我们提出了MLDP模型,它是基于一个金字塔底层特征提取与深度学习模型添加到提取高级特性。MLDP模型的结果比最先进的方法,它能够解决的问题识别凸目标对复杂背景通过消除背景噪声的干扰因素。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。这项工作是公共的数据源。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作一直支持中国的国家自然科学基金(U1762264, 61601203, U1664258 U1764257, 61773184),中国国家重点研发项目(2018 yfb0105003),江苏省重点研究和发展项目(BE2016149)、重点项目发展的江苏省战略性新兴产业(2016 - 1094,2015 - 1084),镇江城市的关键研究和发展项目(GY2017006)。