计算智能和神经科学

在这一页上

文摘介绍相关工作实验结果结论确认引用版权相关文章

特殊的问题

生物启发的方法成像,认知,视野,和智慧

把这个特殊的问题

研究文章|开放获取

体积2015年| 文章的ID875735年| https://doi.org/10.1155/2015/875735

显著增强结构张量的映射

庸他 ,¹ 新陈,² 和希望太阳¹

学术编辑器: 保罗·德尔Giudice

收到了 04年6月2015年

修改后的 2015年9月11日

接受 2015年9月27日

发表 2015年12月14日

文摘

我们提出一个新颖的高效算法计算视觉的特点,基于Itti模型的计算架构。作为著名的自底向上的视觉显著模型之一,Itti方法评估三个低级特征,颜色、强度和方向,然后生成多尺度激活地图。最后,一个显著图与多尺度融合聚合。在我们的方法中,定向功能被边缘和角落特性提取的线性结构张量。之后,这些特性用于生成等高线激活地图,然后所有激活地图直接组合成一个凸起的地图。Itti方法相比,我们的方法是计算效率更高,因为结构张量计算效率比伽柏过滤器,用于计算方向特性和聚合是一种直接的方法而不是多尺度算子。布鲁斯的实验数据表明,我们的方法是一个强大的竞争者的艺术。

1。介绍

视觉特点(也称为视觉显著)是指突出的品质或状态信息相对于邻国和经常吸引人的注意力1]。优先在随后阶段,突出图像作为输入,而不是整体形象。因此,视觉特点已被广泛应用于各种计算机视觉任务,比如分割(2,3),形象重新定位目标(4- - - - - -6),对象检测(7,8),图像采集(9),和对象识别10]。

科赫和Ullman介绍了一个基本的生物启发建筑的视觉特点,称为科赫和Ullman模型(11]。然后Itti等人提出了一个计算架构实现和验证科赫和Ullman模型(12]。在总结(13),大多数的实现技术的视觉显著模型一般有三个阶段:(1)提取:提取底层特征在图像平面位置,(2)激活:形成激活地图的特性,和(3)标准化/组合:正常化激活地图和地图结合成一个单一的特点。

对于Itti方法,第一阶段的目标是提取三个低级特性,强度,颜色,和取向,紧随其后的是使用不同的高斯(狗)形成共有四十激活地图。最后,采用了线性算子进行规范化这些地图,其中最突出的位置选择赢家通吃的神经网络来生成一个凸起的地图。然而,Itti方法的结果有时是模糊的和更喜欢小和地方特性,不适合做进一步的计算机视觉应用,如对象分割和检测。

尽管许多进步的视觉特点近年来,各种评价结果(14)表明,仍有一些关于视觉特点的机制的问题。除了动机调查的一些问题,如低级特征和激活地图的结合,在本文中,我们专注于算法的性能和卓越的结果能否大大受益计算机视觉应用。

结果的一些最近的研究工作表明,特征边缘和角落里也扮演了一个重要的角色在视觉显著(13,15,16]。在我们的研究中,我们还要注意,取向特性不太可能赢得激活地图的结合。此外,伽柏过滤器用于定位提取计算昂贵。

因此,我们提出一个有效的方法来计算显著地图,称为结构张量(ST)显著地图。我们的方法的计算体系结构如图1Itti是一样的方法在特征提取和激活地图生成强度和颜色特征。边缘和角落里提取的特征结构张量和直接结合到一个激活地图,称为等值线图。获得三个激活地图后,我们使用线性组合总激活映射到一个凸起地图多尺度组合和赢家通吃规则。

本文的两个主要贡献如下:(1)我们提出一个新的有效的算法来计算显著地图。与其他方法相比具有挑战性的数据集上执行,除了达到最佳性能,我们的方法获得的结果更清晰的界限是有用的在等进一步的应用程序对象分割和检测。(2)我们的工作表明,边缘和角落里是两个重要的低级功能卓越的一代。

本文组织如下。部分2简要回顾了先进的方法特别强调卓越Itti方法,相关算法和部分3介绍了一些背景的结构张量和正式描述算法的显著图计算。节4,我们目前的实验结果和定量评估在一个具有挑战性的数据集和讨论。本文的结尾,我们工作的结论部分5。

视觉显著方法一般分为面向生物启发的方法和计算方法。有一个广泛的文学领域,但这里我们提到几个相关的论文。一些调查发现在17- - - - - -19在[],最近的一些进展报告20.]。

科赫和Ullman [11)提出了一个基本架构的生物启发方法和定义了一个凸起的地图场景位置的地形图表示惹人注目。他们的工作还引入了一个赢家通吃的神经网络,选择最突出的位置和雇佣了一个返回抑制机制允许关注的焦点转移到下一个最突出的位置。然后Itti等人提出了一个计算模型实现和验证科赫和Ullman模型。自那以后,相关的工作特点地图已迅速成为热门的研究领域之一。

Itti方法采用不同的高斯(狗)操作符来评估颜色、强度和方向特性生成共有四十激活地图和across-scale-combines这些映射成一个凸起的地图。除了昂贵的计算,Itti方法的一个大问题是,结果有时是模糊的,更喜欢小纯粹的地方特色。另一方面,许多算法需要输入的计算机视觉特性相关的轮廓,因为他们需要不同的边界信息。最近,已经提出的一些方法获得锐利的边缘,例如,当地在像素级别的异同(21),多尺度的狗(22),和直方图分析(15]。然而,这些方法的常见的问题是,他们更敏感的噪音。

上一节中提到的,改进Itti方法,我们提出一个有效的算法计算显著地图,和我们的方法的计算体系结构如图1。计算架构的方法是类似于Itti方法,我们的方法评估强度、颜色、边缘、角落的特性而不是强度,颜色,和方向特性。结构张量是用来提取特征的边缘和角落。在最后一步中,我们使用线性组合生成一个显著图而不是Itti赢家通吃规则的方法。

3所示。提出了卓越模型

在本节中,我们简要介绍结构张量和正式的背景描述算法。

3.1。介绍结构张量

在数学中,结构张量是一个偏导数信息的矩阵表示。在图像处理和计算机视觉领域,它通常代表了梯度或边缘信息和有一个更强大的本地模式的描述而不是方向导数通过其相干测量(23,24]。

结构张量的有两类:线性结构张量和非线性结构张量。非线性结构张量相比,线性结构张量是快速和容易实现快速傅里叶变换(FFT)。因此我们选择线性结构张量来提取边缘和角落的特点。

给定一个图像,如果像素翻译为,能量被定义为在哪里是一个窗口中心点和是像素的加权函数。在本文的其余部分,仅仅是写成。

它是由一个一阶泰勒级数近似: 因此,(1)可以写成在矩阵是矩阵结构张量,这也被认为是协方差矩阵。

我们也考虑(3)作为一个近似的二项功能,从几何的观点,二项功能是一个椭圆短轴和长轴表示为特征值和,分别。椭圆是由特征向量的方向。如图2椭圆的方程写成

基于(4),某些类型的结构张量构造。在我们的工作中,我们使用一个线性结构张量分析的输入图像,它被定义为在哪里是一个与方差高斯内核和是一个卷积算子。的参数是图像通道数量。

对于任何类型的结构张量,我们使用简单地代表矩阵(4)。那么这两个特征值计算

3.2。等高线地图激活

如图1,我们与Itti激活地图的颜色和强度的计算方法,和轮廓激活地图详细算法1。

(1)输入:
(2)输入图像我:三通道和大小(,)
(3)输出:
(4)地图边缘特征一个:一个通道和大小(,)
(5)角特性图B:一个通道和大小(,)
(6)等高线地图激活C:一个通道和大小(,)
(7)开始
(8)调整输入图像我(,),称为Im-Re
(9)为 ,做
(10)为 ,做
(11)Im-Re,计算结构张量使用(6)
(12)计算特征值和使用(7)和(8),分别
(13)
(14)
(15)结束了
(16)结束了
(17)规范化一个和B在一个固定范围0⋯1
(18)结合归一化一个和规范化的B成CT
(19)结束

计算的和,我们不需要计算和(7)和(8)和加减计算这些值和。我们直接计算它们在最后一步,我们将功能映射到一个轮廓激活地图如下: 在哪里是归一化映射和边缘特征是规范化角落特性映射。

3.3。圣显著地图生成

我们假设所有功能同样有助于圣显著地图生成。获取轮廓激活地图后,激活地图,强度和颜色激活地图,我们组合成一个显著图如下: 在哪里是一个规范化的操作,它定义在[12),是颜色激活地图,是强度激活地图,等高线地图激活。

一些显著的地图我们的方法如图所示3这些地图不同的边界。

4所示。实验结果

在本节中,我们提出我们的主观评价和定量分析方法和一些先进的方法和这些方法的性能分析。

4.1。卓越的地图

我们比较凸起的地图我们的方法显著地图的一些先进的方法包括Itti方法(12),注意基于信息最大化(AIM)方法(25,26),动态视觉注意力(DVA)方法(27设计领域,视觉显著(GBVS)方法(13),和图像签名()方法(28]。这些方法的MATLAB实现是基于代码作者的网站上。卓越地图如图4。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

4.2。分析性能

我们评估我们的方法在120年布鲁斯数据集包含自然图像与眼睛固定地面实况数据。在布鲁斯的数据集,所有图片的大小是681×511。一些方法是敏感的输入图像的不同尺寸。因此,为了比较不同方法的评价结果,我们调整输入图像大小相同(170×128)为每个方法。

结果从知觉的研究工作29日,30.)发现,人类固定有强壮的中心偏差可能影响一个凸起的算法的性能。删除这个中心偏见,爱说三道四的人等过程后的工作(29日),侯et al。28]介绍了ROC曲线下面积(AUC)分数定量评估不同算法的性能。好的结果应该最大化中华民国AUC得分。比较民国AUC分数,我们遵循[提供的计算方法28),但规模(170×128)是不同的两个输入图像大小用于28]。中华民国AUC分数的比较如图5。

我们进行了测试与英特尔双核笔记本i5 - 4210 u 1.7 GHz CPU和4 G RAM内存。所有代码都是用MATLAB编写的。

总结了方法的执行时间图6的时间平均是120图片。图显示,我们的方法是两倍Itti方法和优于其他先进的方法。原因在于两个部分。首先,结构张量是一种有效的特征提取算法。第二,我们直接将三个激活地图聚合成一个凸起的地图。很明显,性能会大大增加我们的方法是由C / c++实现,它应该满足大多数实时应用程序。

5。结论

在本文中,我们提出了一个高效的算法计算显著地图,有明显的边界,有助于进一步计算机视觉应用程序分割和检测等。计算架构的方法是接近Itti方法,但我们有两个改善底层特征提取和激活地图的结合。由于边缘和角落的特点是视觉特点的重要线索,我们使用一个线性结构张量中提取这些特征。的原因,我们的算法是高效在于以下几点:(1)线性结构张量是一种有效的特征提取算法和(2)我们的线性组合方法是快速的。在布鲁斯的数据集上实验结果的基础上,我们的方法表明,一些计算机视觉任务,特别是实时应用程序,可以受益于我们的方法作为预处理步骤。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由中国国家自然科学基金会(国家自然科学基金委61473201,51405320),江苏省自然科学基金(BK20150339),和苏州的科技项目(SYG201424)。

引用

m·卡拉斯科“视觉注意力:过去的25年里,”视觉研究,51卷,不。13日,1484 - 1525年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
j .汉k . n .颜m·李和周宏儒。张,“无监督提取彩色图像的视觉注意力的对象”IEEE电路和系统视频技术,16卷,不。1,第145 - 141页,2006。
视图: 出版商的网站 | 谷歌学术搜索
e . Rahtu j . Kannala m .萨罗城,j .么“分段凸物体从图像和视频,”电脑Vision-ECCV 2010卷,6315在计算机科学的课堂讲稿施普林格,页366 - 379年,柏林,德国,2010年。
视图: 出版商的网站 | 谷歌学术搜索
美国Avidan和a·沙米尔”Seam雕刻content-aware图像缩放,”ACM交易图片,26卷,不。3、第十条、2007。
视图: 出版商的网站 | 谷歌学术搜索
s . Goferman l . Zelnik-Manor, a Tal,“环境敏感特点检测”IEEE模式分析与机器智能,34卷,不。10日,1915 - 1926年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
d .牧童m . Turk k . Pulli m .哥斯达黎加人和n . Gelfand“形象重新定位目标的调查技术,”数字图像处理时的应用卷,7798学报学报,页779 - 814,有光学工程+应用程序中,圣地亚哥,加利福尼亚州,美国,2010年8月。
视图: 出版商的网站 | 谷歌学术搜索
奥利瓦,a . Torralba m . s . Castelhano和j·m·亨德森“自上而下的控制对象检测的视觉注意力”《图像处理国际会议(ICIP ' 03),页我- 253 - 256年,2003年9月。
视图: 谷歌学术搜索
沈x和y吴”,一个统一的方法来突出对象检测通过低秩矩阵恢复,”《IEEE计算机视觉与模式识别会议(CVPR 12)普罗维登斯,页853 - 860年,RI,美国,2012年6月。
视图: 出版商的网站 | 谷歌学术搜索
m m。程:j . Mitra x黄,S.-M。胡:“SalientShape:集团在图像集合,卓越”计算机视觉,30卷,不。4、443 - 453年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
Rutishauser, d·沃尔特·c·科赫,p . Perona一起“自下而上的关注对象识别有用吗?“在《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 04),卷2,页II-37-II-44, IEEE, 2004年7月。
视图: 谷歌学术搜索
c·科赫和美国Ullman转变选择性视觉注意:对潜在的神经回路,”人类的神经生物学,4卷,不。4、219 - 227年,1985页。
视图: 谷歌学术搜索
l . Itti c·科赫,大肠Niebur”saliency-based视觉注意力模型的快速场景分析,“IEEE模式分析与机器智能,20卷,不。11日,第1259 - 1254页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
Harel j·c·科赫,p . Perona一起“基于视觉特点,”诉讼进展的神经信息处理系统(捏06年)加拿大温哥华,页545 - 552,2006年12月。
视图: 谷歌学术搜索
m m。程,G.-X。张:j . Mitra x黄,S.-M。,“全球对比显著区域检测,”《IEEE计算机视觉与模式识别会议(CVPR 11)普罗维登斯,页409 - 416年,RI,美国,2011年6月。
视图: 出版商的网站 | 谷歌学术搜索
z . t . Liu元,j .太阳et al .,“学习”探测到一个显著的对象,IEEE模式分析与机器智能,33卷,不。2、353 - 367年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
r·瓦伦蒂n·t . Gevers,“图像特点,isocentric curvedness和颜色,”学报》第12届IEEE计算机视觉国际会议IEEE,页2185 - 2192年,京都,日本,2009年9 ~ 10月。
视图: 出版商的网站 | 谷歌学术搜索
a . Borji和l . Itti“最先进的视觉注意力模型,”IEEE模式分析与机器智能,35卷,不。1,第207 - 185页,2013。
视图: 出版商的网站 | 谷歌学术搜索
a . Borji h . r . Tavakoli d . n . Sihite和l . Itti“成绩分析、数据和模型在视觉显著预测”学报14 IEEE计算机视觉国际会议(ICCV 13),页921 - 928年,悉尼,澳大利亚,2013年12月。
视图: 出版商的网站 | 谷歌学术搜索
s . Frintrop e .罗马,h·克里斯坦森,“计算视觉注意力系统及其认知基础:一项调查,“ACM交易应用感知,7卷,不。1,第6条,2010。
视图: 出版商的网站 | 谷歌学术搜索
z Bylinskii t·贾德a Borji et al .,“麻省理工学院卓越基准”,2015年,http://saliency.mit.edu/index.html。
视图: 谷歌学术搜索
Y.-F。马和周宏儒。张“Contrast-based形象关注分析通过使用模糊增长,”学报》第11届ACM国际会议多媒体(毫米' 03)ACM,页374 - 381年,2003年11月。
视图: 谷歌学术搜索
Itti和p . f . Baldi“贝叶斯惊喜吸引人的注意力,”先进的神经信息处理系统,页547 - 554年,麻省理工学院出版社,2005年。
视图: 谷歌学术搜索
t . Brox j . Weickert b Burgeth, p .穆雷查克“非线性结构张量,”图像和视觉计算,24卷,不。1,41-55,2006页。
视图: 出版商的网站 | 谷歌学术搜索
美国Kothe”、边缘和结检测一种改进结构张量,”模式识别页25-32 Springer,柏林,德国,2003年。
视图: 谷歌学术搜索
n布鲁斯和j . Tsotsos“基于信息最大化,卓越”诉讼进展的神经信息处理系统(捏' 05)加拿大温哥华,页155 - 162,2005年12月。
视图: 谷歌学术搜索
n·d·b·布鲁斯和j·k·Tsotsos凸起,注意力和视觉搜索:一个信息理论方法,”杂志的视觉,9卷,不。3、第五条,2009年。
视图: 出版商的网站 | 谷歌学术搜索
x侯和l .张”动态视觉注意力:寻找编码长度增加,”先进的神经信息处理系统,页681 - 688年,麻省理工学院出版社,2009年。
视图: 谷歌学术搜索
Harel j . x侯,c .科赫”图像签名:突出稀疏的区域,IEEE模式分析与机器智能,34卷,不。1,第201 - 194页,2012。
视图: 出版商的网站 | 谷歌学术搜索
b·w·爱说三道四的人,r·j·巴德利,即d·吉尔”视觉相关的固定选择:规模效应和时间,”视觉研究,45卷,不。5,643 - 659年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
l, m . h, t . k .标志、h·山和g·w·科特雷尔,“太阳:贝叶斯框架特点使用自然统计,“杂志的视觉,8卷,不。7,第三十二条,2008年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1604年

下载

1229年

引用