CIN 计算智能和神经科学 1687 - 5273 1687 - 5265 Hindawi出版公司 10.1155 / 2016/2381451 2381451 研究文章 学习模型面向任务的关注 小春就 1 Xinbo 2 江ydF4y2Ba 2 永嘉县 2 Camastra 弗朗西斯科 1 电子与信息学院 西北工业大学 长安校区 邮政信箱886 西安 陕西710129年 中国 nwpu.edu.cn 2 计算机科学学院 西北工业大学 长安校区 邮政信箱886 西安 陕西710129年 中国 nwpu.edu.cn 2016年 9 5 2016年 2016年 27 11 2015年 28 03 2016年 2016年 版权©2016小春就邹et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

对于许多应用程序在图形、设计和人机交互,必须了解人类在一个场景与一个特定的任务。凸起的模型可以用来预测固定位置,但大量的先前的卓越模型集中在自由观看任务。他们是基于自底向上计算,不考虑面向任务的图像语义和经常不匹配实际的眼球运动。为了解决这个问题,我们收集了11眼跟踪数据对象执行一些特定的搜索任务时2511年1307图片和注释数据分割对象,轮廓和8语义属性。使用这个数据库作为训练和测试的例子,我们学习特点的模型基于自下而上的图像特征和目标位置的功能。实验结果说明目标的重要性信息预测的面向任务的视觉注意力。

1。介绍

对于许多应用程序在图形、设计和人机交互,必须了解人类在一个场景与一个特定的任务。例如,面向任务的视觉注意力的理解是有用的自动目标识别( 1)、图像理解、或图片搜索 2, 3]。它可以用来直接视觉搜索和漏斗状图像视频压缩 4, 5和机器人定位 6, 7]。它也可以用于广告设计或实现的智能相机( 8]。

然而,它是不容易的模拟人类视觉行为完全面向任务的机器。注意是一个抽象的概念,它需要客观指标进行评估。判断实验结果直观的观察是不精确的,因为不同的人可能关注同一场景的不同区域,即使任务。为了解决这个问题,眼动跟踪设备,可以记录人眼定位,对准目标,凝视着通常使用。调查人的眼动数据为研究提供更客观的地面真值计算模型的关注。目前,有超过二十多个数据库与眼动跟踪数据对图像和视频在公共领域( 9),主要集中在“自由观看”的眼球运动。

大多数现有的计算视觉注意力显著模型经常被评估与预测人类固定在自由观看任务中,一些生物灵感和基于自底向上计算模型和其他结合基于自底向上的形象特点线索和自上而下的图像语义相关的线索。尽管做好定性模型,模型用有限,因为他们经常只在上下文无关的场景表现良好。

出于这一点,我们两个的贡献。首先是大型数据库的面向任务的眼动跟踪的标签和实验分析,第二个是一个监督学习模型的特点,结合基于自底向上的形象特点线索和面向任务的图像语义相关的线索。数据库包括眼睛跟踪数据在1307张图片来自11个不同的用户。据我们所知,这是第一次这样一个广泛的面向任务的眼动跟踪数据可用于定量分析。对于给定的图像,使用眼球追踪数据创建一个“地面实况”显著地图代表观众实际上看起来与一个特定的搜索任务。我们引入一组自下而上的形象特征和目标位置特征定义突出位置,并使用线性支持向量机训练特点的典范。我们比较显著的性能模型创建不同的面向任务的关注和显示我们的方法执行模型在预测人类视觉注意力的区域比麻省理工学院( 3),这是一个最好的模型在预测上下文无关的人的目光。

本文的结构如下:部分 2提供了一个简短的描述和讨论的一些以前的作品。部分 3是用于描述数据库的特点。节 3.1,我们目前的数据收集方法,图像、眼动跟踪数据和地面实况数据。部分 3.2分析了数据库的属性。我们的模型的详细描述部分 4评估我们的方法使用流行的卓越模型评价分数(AUC)与麻省理工学院卓越模型。在上一节所讨论的讨论和结论。

2。相关工作

关注和卓越在视觉感知扮演重要的角色。在过去的几年中,20多个这样的数据库现在可用在公共领域。固定在脸上(国际足联)[ 10收集从八个科目执行2 s长自由观看任务180颜色自然图像。它演示了面临的事实吸引重要的视觉注意力。受试者发现专注的脸在前两个固定概率超过80%。NUSSEF数据库( 11从池中)是编制的758张图片和75年的主题。每个图像提出了5秒钟,free-viewed至少13个主题。与他人相比,这个数据集的一大特性是,758年的图像数据集包含大量的语义情感对象/场景等富有表现力的面孔,裸体,不愉快的概念,和交互式操作。麻省理工学院数据库从贾德et al。 12收集从Flickr和LabelMe]包括1003图像。眼动数据记录来自15个用户自由主张这些图片3。在这个数据库,注视周围发现的脸,汽车,和文本。许多固定偏向于中心。鸽子数据集( 13)包括101个自然灰度图像( 14]。眼球运动来自29个观察者自由主张收集的图像。然而,所有这些数据库记录眼球运动“自由观看”。另外,麻省理工学院CVCL搜索模型数据库( 15)是记录用户理解的面向任务的眼动模式。观察家们被要求执行一个人检测任务,和他们的眼球运动被发现是一致的,即使目标是缺席。这个数据库记录是基于面向任务的关注,但它的任务是单身。所以有必要创建一个内容丰富的数据库基于面向任务的关注。

几个视觉注意力模型是直接或间接地受到认知概念从心理或神经生理学的研究。赢家通吃(WTA)生物合理的架构与功能集成理论是由科赫和Ullman [ 16]。建立在WTA Itti et al。 17)首先实现使用center-surround机制计算模型和层次结构来预测突出的地区。在这个模型中,一个图像predecomposed成低级属性,如颜色、强度和方向跨多个空间尺度。WTA推理拿出最显眼的位置特征。后来,Le Meur et al。 18)提出了一种自底向上的相干计算方法基于人类视觉系统(HVS)的结构,使用对比敏感度,知觉分解,视觉掩蔽,center-surround交互技术。Krauskopf提取特征的颜色空间和实施特点在三个独立的平行通道:可见性、感知分组、和感知。特征映射为每一个渠道获得,然后一个独特的特点地图是由这些渠道的结合。基于各向同性对称和径向对称Reisfeld运营商et al。 19)和颜色的对称性Heidemann ( 20.),Kootstra et al。 21)开发三个symmetry-saliency运营商和比较人眼跟踪数据。伊斯坦布尔~圣文亚当和伊斯坦布尔~圣文亚当(a . e . 22),马拉et al。 23),而穆雷et al。 24)其他模型指导下的认知结果。

另一类推导数学模型。Itti和Baldi 25]意外刺激定义为那些显著改变一个观察者的信念。这是在贝叶斯框架建模计算KL分歧后和之前的信仰。同样,Zhang et al。 26)提出了太阳(使用自然统计显著)模型自下而上的自然特点出现的self-information视觉特性。布鲁斯和Tsotsos [ 27]目前视觉特点的模型建立在第一原理信息理论公式被称为基于信息最大化(AIM)的关注。亚伯和Lindenbaum的Esaliency工作 28)使用一个随机数学模型来估计最可能的目标。Scholkopf et al。 29日]提出了基于视觉特点(GBVS)模型,利用马尔可夫链的方法来描述不同和质量浓度区域。搜索引擎优化和Milanfar [ 30.和刘et al。 31日其他两个方法是基于数学模型。

另一类模型在频域计算特点。侯和张 32)相关光谱谱残差模型(SRM)提出的残留特征光谱域到空间域。在[ 28),亚伯和Lindenbaum Esaliency提议,一个随机模型,估计的概率一个图像的兴趣。他们大概首先分割图像,使用一个图形化的模型近似全局考虑,以确定哪些地方更突出。

我们建议的方法是与那些学习的模型映射记录眼睛注视或标记突出的地区。这些模型使用一些高级特性从早些时候获得数据库,开展学习机制来确定模型参数。Torralba et al。 33)提出了一个注意力的指导方法,结合了自底向上凸起,场景上下文和自上而下的机制来预测图像区域可能迷恋于人类现实世界的场景。基于贝叶斯框架,模型计算的全球特性通过学习的环境和结构图像,和自上而下的任务可以实现场景先验。瑟夫et al。 34)提出了一个模型,增加了几个高层语义特征如脸、文本和对象预测人眼注视。贾德et al。 12)提出了学习型方法预测凸起。他们用33特性包括低级特性如强度,颜色,和方向;中层地平线探测器等特性;和高级特性,比如脸检测器和一个探测器的人。该模型使用支持向量机(SVM)二元分类器训练。赵和科赫 35)提出了一个模式类似于Itti et al。 17),但与面临额外的特性。他们的模型结合了特征图和学会了权重,使用一组活跃的方法解决最小化问题。在上述模型中,一些关注添加高级特性改善预测性能,而其他人使用机器学习技术澄清特征之间的关系及其特点。然而,所谓的高级功能是模糊概念和不包含所有类型的环境。

这些特点的模型被用来描述roi在自由观看任务中,但是他们的使用在特定的任务仍然非常有限。最近的结果表明,在面向任务的视觉注意力,受试者被要求找到一个特定目标的显示,自上而下的过程中发挥主导作用的指导眼球运动( 36- - - - - - 40]。然而,所谓的自上而下的功能是模糊概念和不包含所有类型的环境。这里,我们利用更多的信息概念包括低级,目标位置,并使用机器学习中心偏差,眼睛定位预测。

3所示。眼睛跟踪数据的数据库

我们收集了大型数据库的眼睛跟踪数据,允许大规模定量分析固定分和凝视路径和提供地面实况数据显著模型研究[ 41]。相比之下,几眼动跟踪公开的数据集,我们的新数据集的主要动机是为研究面向任务的视觉注意力,也就是说,观察人士而决定是否一个场景包含一个目标。

3.1。数据收集协议 3.1.1。参与者

15个参与者,本科和研究生志愿者19-32岁( μ = 23.3 , σ = 38.4 )与未修正的矫正视力正常,自愿加入了这个实验。所有的参与者都来自西北工业大学。

3.1.2。装置

Tobii TX300眼动跟踪被用来记录眼球运动。我们设置采样频率为300赫兹。眼动跟踪容忍一定程度上的头部动作,受试者可以自由行动和自然的刺激。37岁的自由运动主管65厘米×17(宽×高),至少有一只眼睛在眼动跟踪的视野。马克斯头移动速度50厘米/秒23英寸宽屏幕上刺激了TFT显示器。屏幕大小为50.5厘米×28.5厘米。其屏幕响应时间一般5 ms及其分辨率设置为1920×1080。

3.1.3。材料

我们随机选择1307图像VOC2012刺激。最长的尺寸(可以是宽度或高度)的每个图像是500像素,另一维度范围从213到500像素。图像包含八个类别,即飞机,摩托车,瓶子,车,椅子,狗,马,人。

3.1.4。过程

1307图像被分为八个组。每组包含100张图片来自同一类别和其他类别的70张图片(10图像从每一类中选择)。所有受试者坐在约65厘米的距离从屏幕上在一个相对安静的房间。从每组图像提出了随机原始大小的屏幕上。在测试前,五点目标显示用于校准。以确保高质量的跟踪结果,我们检查了每个组后校准精度。如果眼动跟踪的准确性是在1°视角,受试者可以继续下一组。否则,将进行校准一次。主题将给予不同的指令组。例如,对于飞机群,受试者将会被要求找到飞机在每个图片,而图片可能为零,一个,或者更多的飞机。 Subjects should find airplanes as more as possible in one image and switch to the next one through hitting the space key. To encourage the subjects to concentrate on looking for the target, we took two measures to improve authenticity of test. On the one hand, each group (above-mentioned eight groups) was equally divided into three small subsets. Subjects will spend less time to view the small subsets and pay more attention to the stimuli. On the other hand, after each subset, the subjects took a 2 min break and did a memory test: how many airplanes did you find?

3.2。分析数据集 3.2.1之上。一致性

target-present图片,在我们的数据集,所有受试者注视在同一位置,同时,在target-absent形象,受试者注视分布图像。我们分析这种一致性的人类固定在一个图像的熵通过测量平均持续卓越学科之间映射。尽管不同纵横比的原始图像,我们调整他们之前200×200像素图像计算熵。图 1 (c)显示了一个直方图熵的图像在我们的数据库中。它还显示了一个示例(如图12凸起的地图 1(一) 1 (b))与最低和最高熵和相应的图像。

((a)和(b))热图由受试者注视点较低和较高的熵。如果图像具有较高的熵,它通常包含多个对象。(c)显著图的直方图熵。

3.2.2。中心偏差

人类注视我们的数据表明强烈的偏见是附近的中心形象,正如前面符合分析眼动跟踪数据集( 12, 42]。图 2分开显示平均人类卓越地图狗和椅子的范畴,最强和最弱的中心的偏见。狗类,57%的注视点位于中心图像的11%,和80%的注视点位于中心25%的形象。椅类,29%的注视点位于中心图像的11%,和49%的注视点位于中心25%的形象。

(a)的百分比注视点在中心11%和25%的图片,显示的蓝色。与此同时,红色显示目标的注视点的百分比。显然,狗类,目标凝视点的百分比比椅子类别。((b)和(c))的狗和椅子的平均显著地图包含所有注视点,这表明一个偏见的中心形象。

有几种假说中心偏见的根源。在我们的测试中,最主要的原因是,人们往往将对象或有趣的东西照相时中心附近的一个图像(所谓的摄影师的偏见)。为了测试这个想法,我们分别分析目标百分比的注视点,这是凝视点位于中心内的目标对象11%和25%的狗和椅子的范畴。显然,狗类的百分比目标注视点在中心地区比在椅子上类别。这种差异被归因于这样一个事实:目标对象主要位于图像的中心在狗类,但在椅子类别分布在整个图像。

3.2.3。观察者之间的协议

在这个段落中,我们评估协议中固定位置的观察家。眼动模式的分析观察表明,固定强烈限制搜索任务和场景上下文。定量地评估观察者之间的协议,我们研究了人类interobserver (IO)模型预测注视点,在相同的实验条件。IO模型输出,对于一个给定的刺激,地图由另集成来自受试者的眼睛注视下测试在观看刺激。的地图是用来预测固定排除问题。最后,我们使用IO模型性能评估的评估观察者之间的协议。

使用ROC曲线下的面积(AUC)得分,IO模型的映射被视为一个二进制图像中每个像素分类器。大的像素值超过一个阈值被列为固定其余的像素被归入nonfixated。人类使用固定地面真理。通过改变阈值,绘制ROC曲线为假阳性率和真阳性率,和曲线下的面积表明显著地图预测实际人眼注视。

我们分别计算IO模型/ 8类从我们的数据集和选择中值作为结果。表 1模型的显示了AUC得分的平均值。结果表明,观察人士非常符合彼此在固定地点target-present target-absent条件(在每种情况下超过85%)。平均而言,观察者之间的协议是当目标存在高于缺席。这表明,位置固定的观察者target-present图像是由目标位置。

target-present和target-absent主体协议。

组名称 Target-present Target-absent
飞机 0.90 0.90
0.87 0.87
0.86 0.86
椅子 0.83 0.84
0.95 0.95
0.94 0.94
摩托车 0.93 0.93
0.92 0.93
平均 0.90 0.92
3.2.4。在每个刺激注视点

计算图像内目标对象的任务是类似于一个详尽的视觉搜索任务。在我们的设计中,每一个场景都可以包含4个目标。目标大小没有预定的和多种多样的刺激组。在这种情况下,我们预期的观察家详尽的搜索每个场景,不管真正的目标。图 3显示的平均数量的总注视点刺激每一组。出乎意料,计数的注视target-present显然超过target-absent。

平均每个刺激总注视点的数量在每一个组。

分析固定位置target-present图像,我们比较人类的比例固定,属于目标对象和中心区域。在第一种情况中,我们应用地面真理分割目标对象的区域。在第二种情况下,我们计算人类注视位于中心的比例2%,11%,25%,和65%的形象。图 4总结了结果。首先在两种情况下,上面的百分比都是水平的机会。在图的差异 4是统计学意义:中心25%的形象比目标对象区域更好的吸引人的注视。这种效应主要是由主体的侧目的,人类总是注视目标对象。但即便如此,图的图表 4清楚地表明,目标对象的位置(区域中心)和目标对象的面积将吸引人的注视。

百分比的注视点的目标对象和中心区域。

3.2.5。感兴趣的对象

根据贾德et al。 12, 42),如果刺激有一个或多个人类,注视点应该主要定位人脸。然而,在我们的测试中,这种情况是不相似的。

5显示热图的刺激有一个或多个人类。从图 5,我们可以知道:

刺激,它在不同的情况下有不同的热图。

如果人类的目标对象,仍有很多注视点定位人脸。

当受试者搜索目标的刺激,他们可以忽略其他对象和所有关注目标对象。

图中显示热刺激的地图。(一个)显示target-present热图但人类不是目标对象。(b),它显示了target-present热图但是人类目标对象。

从上面所讨论的,我们知道,在我们的测试感兴趣的某个对象是否取决于任务。

4所示。上优于卓越模型

相比之前的计算模型,结合大量的生物的过滤器在一起估计视觉特点,我们使用一个学习方法直接从人眼跟踪数据训练分类器。对于每一个图像,我们预先计算的特征图图像的每个像素的大小为200×200和使用地图来训练我们的模型。图 6地图显示功能。通过分析数据集,我们提倡低级,高层,中心之前的特性。

图中显示底层特征图谱等颜色,强度,方向,和高级特征图如目标对象的位置,最后,值特性图。

低级特性,强度,方向,和颜色对比一直被视为重要特性自底向上凸起。我们包括三个通道对应这些图像特征计算Itti和科赫的显著方法( 43]。关于高级特性,根据我们的数据分析,我们发现,人类总是注视点位于目标对象。所以我们使用目标对象的位置作为高级特性。首先,边界框对象标记,我们用它们作为目标对象的区域。其次,在盒子中,我们使用每个像素的距离框而不是像素的中心。最后,盒子,我们使用零而不是像素。中心偏差,当人类拍照,他们自然框架感兴趣的物体图像的中心附近。出于这个原因,我们包括特性表示每个像素的距离中心( 12]。

评估我们的模型,我们遵循了5倍交叉验证方法。数据库分区的方法为五个随机子集,每个都有 图像。每个子集选择顺序测试集和余数作为训练集。每次我们从4部分训练模型和测试在其余部分。结果然后平均超过所有分区。从地面真理注视点每个图像地图,20像素被随机采样前20%的显著位置,和20像素采样从底部70%显著位置产生训练集3200正样本和3200年负样本。选择1:1的目的抽样比率是平衡正负样本像素的分布在相同的图像。我们选择样本前20%和底部70%为了样品正面的和负面的。训练样本归一化零均值和单位方差。同样的参数用于规范化测试集。

我们使用线性支持向量机( 44]训练模型,首次使用学习每个低级的重量,高层,中心属性在决定之前注意分配的意义。我们使用模型与线性内核,因为他们是更快的计算,以及随之而来的权重属性是直观的理解。为每个组,平均(Avg)和相应的标准差(STD)学会的执行的实验数量重量每个属性如表所示 2。很明显,中心的属性的位置偏差和目标对象的体重高于其他人。显然,在狗群,中心偏差的重量比其他人更强。然而,在椅子上,定位目标对象的重量比其他人更强。对于这一现象,流动可能是至关重要的。领域的目标对象可能导致这一现象。但是我们不知道详细的关系。属性的权重也同意先前的发现在图形-背景感知,在视觉搜索任务中,受试者被要求找到一个特定目标的显示,自上而下的指导过程中发挥主导作用的眼球运动。

表显示了平均(Avg)和相应的标准差(STD)的重量在每个类别的属性。对于每一个类别,大胆的体重是第一个和第二个是斜体的重量。

类别 颜色 强度 取向 目标 中心偏差
Avg 性病 Avg 性病 Avg 性病 Avg 性病 Avg 性病
飞机 0.0319 0.00005 −0.0154 0.00002 0.0098 0.00002 0.1201 0.00012 −0.4344 0.00025
0.0346 0.00006 0.0424 0.00006 0.0294 0.00004 0.1206 0.00009 −0.3586 0.00019
0.0073 0.00001 0.0112 0.00002 −0.0159 0.00002 0.2575 0.00016 −0.2418 0.00012
椅子 0.0234 0.00003 0.0578 0.00006 0.1002 0.00011 0.2766 0.00013 −0.1348 0.00008
0.0066 0.00001 0.0075 0.00001 0.0848 0.00006 0.1065 0.00008 −0.4556 0.00024
0.0241 0.00004 −0.0004 0.00000 0.0240 0.00003 0.1445 0.00011 −0.3182 0.00031
摩托车 −0.0088 0.00002 0.0166 0.00002 0.0276 0.00004 0.2001 0.00015 −0.2733 0.00025
−0.0131 0.00003 −0.0291 0.00003 0.0638 0.00006 0.1241 0.00007 −0.3159 0.00027
5。评价

以度量性能特点的模型,我们表现的比较模型与麻省理工学院模型( 3)这是一个最好的模型在预测上下文无关的人的目光。模型包含自底向上凸起和高级图像语义和适用在自由观看上下文预测凸起。使结果具有可比性,麻省理工学院的模型是一样的训练集训练我们的方法。图 7显示热量地图模型和比较模型。这是一个图像结果在每组。我们进行了实验160图像随机选择。

图中显示热量地图,这是由我们的模型生成模型和麻省理工学院。他们训练同样的注视点和使用相同的训练方法。

8显示了我们的模型接受者操作特征(ROC)和麻省理工学院的模型。这些曲线显示在注视点的比例显著地图建立卓越模型(检出率)与选择的图像面积的比例显著地图(误警率)。卓越模型生成特征图的加权线性组合使用学到的每个属性的权重。它显示了每个主题的注视点可以显著预测的模型。对于每一个类别,我们计算的平均(Avg)和相应的标准差(STD)执行的实验数量的ROC曲线下的面积(AUC),表所示 3

表显示了平均(Avg)和相应的标准差(STD)的AUC在每个类别。

模型 类别
飞机 椅子 摩托车
麻省理工学院
Avg 0.8572 0.7881 0.7865 0.8152 0.8639 0.8583 0.8563 0.7962
性病 0.0016 0.0012 0.001 0.0015 0.0006 0.0008 0.0013 0.0011
我们的
Avg 0.8635 0.8566 0.8873 0.9015 0.8665 0.8663 0.8563 0.8893
性病 0.0012 0.0006 0.0005 0.0004 0.0006 0.0009 0.0007 0.0007

图显示了我们的接受者操作特征(ROC)模型和麻省理工学院(MIT)模型。对于每一个画面,误警率, x 设在,检出率, y 设在。除此之外,对于每一个类别,我们计算的平均AUC分数预测,上面所示的画面。

可以看出,麻省理工学院(MIT)模型,性能并不总是好;然而,我们的模型比麻省理工学院。例如,在瓶、汽车和椅子类别,麻省理工学院的模型预测精度较低的注视点区域(AUC = 0.7881, AUC = 0.7865, AUC = 0.8152)比我们的模型(AUC = 0.8566, AUC = 0.8873, AUC = 0.9015)。从表 3,我们知道的重量目标对象的位置是第一次在车里和椅子类别。因此,促进准确性主要目标指导因素的结果。然而,即使我们的模型无法与人类竞争协议。

6。讨论和结论

根据图 8和表 3,这显然表明,瓶子,汽车,和椅子类别,麻省理工学院(MIT)模型具有较低的性能,而我们的模型有更好的性能比。的主要因素是,在这些类别的目标对象是小或不明显,所以当受试者免费阅读,他们不是卓越的地图。然而,在面向任务的关注,他们成为显著图;这就是为什么自由观看模型不是适当的面向任务的。

我们都知道最近的一些数据集( 10- - - - - - 12, 45所有设置自由观看时间2 - 5 s /形象。在我们的范例中,时间为研究对象,主要是出于以下因素。如果查看持续时间太短,受试者可能没有足够的时间来找到目标对象的重量,也促进中心偏见。另一方面,如果观看时间太长,随着观察的进行,自顶向下或其他因素(如受试者感觉无聊和累)发挥作用和注视点成为吵着。此外,如果观看持续时间太长,注视点可能成为自由观看。

日常人类活动涉及的视觉引导行动,要求观察员来确定特定对象的存在和位置。在此基础上,我们研究了一致的人类凝视点是如何在一个图像。先前的研究和经验表明,几人的注视点位置强烈表明,一个新的主题看,是否target-absent, target-present。我们实现了计算模型的target-present视觉搜索和评估模型预测主题的注视点的位置。在我们的经验中,当受试者看一个场景与一个特定的任务,他们一直付更多的关注目标对象的位置,忽视了其他凸起物,如文本和人。因此,我们的模型结合的位置目标的高级特性。最终,注意力模型指导预测95%的人类与目标对象的位置组件提供最解释力。

在这个工作我们做出以下的贡献。我们开发一个眼动跟踪的数据集合11人在1307图像和公共研究使用。它是最大的眼动跟踪数据库基于视觉搜索,不仅提供准确的受试者注视点但也为每个图像分割的目标对象。在这个搜索任务,目标对象的位置是一个主导因素。我们使用机器学习训练自下而上,自上而下模型基于低级的凸起,高层,中心之前的特性。最后,为了证明我们的模型的性能,使用相同的方法来训练麻省理工学院(MIT)模型。

未来工作我们有兴趣研究,受试者的注视点紧密聚集在非常小的和特定的区域,但是我们的模型选择一个更一般的地区包含许多对象没有注视点。我们相信目标对象的特征,如大小、规模、和形状将主题围绕目标,应该更仔细地研究。

相互竞争的利益

作者宣称没有利益冲突。

确认

中国工作是由NSF(61117115和61117115号),为中央大学基础研究基金,访问量“飙升的明星”和“新人才和方向”程序。

英航 J。 Mnih V。 Kavukcuoglu K。 多个对象识别与视觉注意力 美国学习国际会议上表示(ICLR 15) 2015年 圣地亚哥,加州,美国 傻瓜 t F。 泰勒 c·J。 库珀 d . H。 格雷厄姆 J。 活跃的形状就像他们培训和应用程序 计算机视觉和图像理解 1995年 61年 1 38 59 10.1006 / cviu.1995.1004 2 - s2.0 - 0029182228 答:D。 H.-C。 Pomplun M。 语义引导眼球运动在实际场景 视觉研究 2011年 51 10 1192年 1205年 10.1016 / j.visres.2011.03.010 2 - s2.0 - 79955587251 C。 l 一种新颖的多分辨率时空特点检测在图像和视频压缩模型及其应用 IEEE图像处理 2010年 19 1 185年 198年 10.1109 / TIP.2009.2030969 MR2744464 2 - s2.0 - 72949100573 聊聊 w·S。 佩里 j·S。 实时的漏斗状多分辨率低带宽视频通信系统 3299年 人类的视觉和电子成像三世 1998年 294年 305年 学报学报 10.1117/12.320120 Shubina K。 Tsotsos j·K。 对象的视觉搜索在3 d环境中使用移动机器人 计算机视觉与图像理解 2010年 114年 5 535年 547年 10.1016 / j.cviu.2009.06.010 2 - s2.0 - 77950924840 Siagian C。 Itti l 生物启发移动机器人视觉定位 IEEE机器人 2009年 25 4 861年 873年 10.1109 / TRO.2009.2022424 2 - s2.0 - 69249208586 ·卡萨雷斯 M。 Velipasalar 年代。 平托 一个。 轻量级的前景检测为嵌入式智能摄像机 计算机视觉与图像理解 2010年 114年 11 1223年 1237年 10.1016 / j.cviu.2010.03.023 2 - s2.0 - 77957361056 Borji 一个。 Itti l 最先进的视觉注意力模型 IEEE模式分析与机器智能 2013年 35 1 185年 207年 10.1109 / TPAMI.2012.89 2 - s2.0 - 84870220894 瑟夫 M。 Harel J。 Einhauser W。 科赫 C。 预测使用低级的特点结合人脸检测人类的目光 神经信息处理系统 2007年 20. 241年 248年 拉马纳坦 年代。 Katti H。 ·瑟 N。 Kankanhalli M。 t·s·艾。 眼睛固定数据库特点检测图像 电脑Vision-ECCV 2010: 11日欧洲计算机视觉,伊拉克里翁,克里特岛,希腊,第5 - 11年9月,2010年,诉讼,第四部分 2010年 6314年 柏林,德国 施普林格 30. 43 在计算机科学的课堂讲稿 10.1007 / 978 - 3 - 642 - 15561 - 1 _3 贾德 T。 Ehinger K。 杜兰 F。 Torralba 一个。 学会预测人类看 《IEEE 12计算机视觉国际会议(ICCV ' 09) 2009年9月 日本京都 2106年 2113年 10.1109 / ICCV.2009.5459462 Linde 我。 Rajashekar U。 Bovik a . C。 Cormack l·K。 鸽子:数据库的视觉眼球运动 空间视觉 2009年 22 2 161年 177年 10.1163 / 156856809787465636 2 - s2.0 - 63649091499 范Hateren j . H。 Van der Schaaf 一个。 独立分量自然图像过滤器相比,初级视觉皮层简单细胞 《皇家学会学报B:生物科学 1998年 265年 1394年 359年 366年 10.1098 / rspb.1998.0303 2 - s2.0 - 0032492432 Ehinger k。 Hidalgo-Sotelo B。 Torralba 一个。 奥利瓦 一个。 造型寻找人们900年的场景:一个源模型眼指导相结合 视觉认知 2009年 17 6 - 7 945年 978年 10.1080 / 13506280902834720 2 - s2.0 - 70349919085 科赫 C。 Ullman 年代。 选择性视觉注意的变化:对潜在的神经回路 人类的神经生物学 1985年 4 4 219年 227年 2 - s2.0 - 0022388528 Itti l 科赫 C。 Niebur E。 saliency-based视觉注意力模型的快速场景分析 IEEE模式分析与机器智能 1998年 20. 11 1254年 1259年 10.1109/34.730558 2 - s2.0 - 0032204063 勒穆尔 O。 Le荡妇 P。 胡须 D。 梭罗 D。 一个连贯的自底向上的视觉注意模型的计算方法 IEEE模式分析与机器智能 2006年 28 5 802年 817年 10.1109 / TPAMI.2006.86 2 - s2.0 - 33645236179 Reisfeld D。 沃尔夫森 H。 Yeshurun Y。 上下文无关的注意力运营商:广义对称变换 国际计算机视觉杂志》上 1995年 14 2 119年 130年 10.1007 / bf01418978 2 - s2.0 - 0029275131 Heidemann G。 关注的焦点从当地色彩对称 IEEE模式分析与机器智能 2004年 26 7 817年 830年 10.1109 / tpami.2004.29 2 - s2.0 - 2342595304 Kootstra G。 Nederveen 一个。 德布尔 B。 注意对称 《英国机器视觉会议 2008年9月 英国利兹 1115年 1125年 Erdem那样预言正发党胜利 E。 Erdem那样预言正发党胜利 一个。 视觉特点使用区域协方差估计通过非线性集成特性 杂志的视觉 2013年 13 4、第十一条 10.1167 / 13.4.11 2 - s2.0 - 84878384522 马拉 年代。 何鸿燊港区 T。 格朗 l Guyader N。 Pellerin D。 Guerin-Dugue 一个。 造型时空显著预测视线方向的短视频 国际计算机视觉杂志》上 2009年 82年 3 231年 243年 10.1007 / s11263 - 009 - 0215 - 3 2 - s2.0 - 61349170126 穆雷 N。 Vanrell M。 Otazu X。 Parraga c。 卓越使用非参数估计低级视觉模型 《IEEE计算机视觉与模式识别会议(CVPR 11) 2011年6月 普罗维登斯,美国国际扶轮 IEEE 433年 440年 10.1109 / cvpr.2011.5995506 2 - s2.0 - 80052890815 Itti l Baldi P。 贝叶斯惊喜吸引人的注意 视觉研究 2009年 49 10 1295年 1306年 10.1016 / j.visres.2008.09.007 2 - s2.0 - 67349174184 l m . H。 科特雷尔 g·W。 周日:卓越使用场景的自然统计进行动态分析 认知科学年会31日学报》上 2009年 荷兰阿姆斯特丹 布鲁斯 n . d . B。 Tsotsos j·K。 时空特点:向分层表示的视觉特点 注意在认知系统 2009年 5395年 柏林,德国 施普林格 98年 111年 10.1007 / 978 - 3 - 642 - 00582 - 4 - _8 亚伯 T。 Lindenbaum M。 Esaliency(扩展的特点):使用随机图像建模意义的关注 IEEE模式分析与机器智能 2010年 32 4 693年 708年 10.1109 / tpami.2009.53 2 - s2.0 - 77649273553 Scholkopf B。 普拉特 J。 霍夫曼 T。 基于视觉特点 先进的神经信息处理系统 2006年 19 2006年 545年 552年 搜索引擎优化 h·J。 Milanfar P。 非参数自底向上凸起self-resemblance的检测 《IEEE计算机视觉与模式识别会议(CVPR ' 09) 2009年6月 美国佛罗里达州迈阿密 45 52 10.1109 / cvpr.2009.5204207 2 - s2.0 - 70449570857 T。 Z。 太阳 J。 J。 N。 X。 Shum H.-Y。 学习检测一个显著的对象 IEEE模式分析与机器智能 2011年 33 2 353年 367年 10.1109 / tpami.2010.70 2 - s2.0 - 78650512633 X。 l 卓越检测:光谱残留的方法 《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 07) 2007年6月 美国明尼苏达州明尼阿波利斯 IEEE 1 8 10.1109 / cvpr.2007.383267 2 - s2.0 - 35148814949 Torralba 一个。 奥利瓦 一个。 Castelhano m . S。 亨德森 j . M。 眼球运动相关的指导和关注在实际场景:全局特征对象搜索的作用 心理评估 2006年 113年 4 766年 786年 10.1037 / 0033 - 295 x.113.4.766 2 - s2.0 - 33750341577 瑟夫 M。 Frady e . P。 科赫 C。 脸和文本吸引目光的独立任务:实验数据和计算机模型 杂志的视觉 2009年 9 12 74年 76年 10.1167 / 9.12.10 Q。 科赫 C。 学习特点地图使用固定位置的自然场景 杂志的视觉 2011年 11 3、第九条 1 15 10.1167 / 11.3.9 Borji 一个。 Ahmadabadi m . N。 Araabi b . N。 降低成本的学习注意力的自上而下的调制控制方案 机器视觉和应用程序 2011年 22 1 61年 76年 10.1007 / s00138 - 009 - 0192 - 0 2 - s2.0 - 79551687420 彼得斯 r . J。 Itti l 超越自下而上:合并task-dependent影响的计算模型空间的关注 《IEEE计算机视觉与模式识别会议(CVPR ' 07) 2007年6月 美国明尼苏达州明尼阿波利斯 1 8 10.1109 / CVPR.2007.383337 俾路支 F。 Itti l 自顶向下的注意机制 神经科学的趋势 2011年 34 4 210年 224年 Pomplun M。 眼跳选择性在复杂的视觉搜索显示 视觉研究 2006年 46 12 1886年 1900年 10.1016 / j.visres.2005.12.003 2 - s2.0 - 33344460904 Zelinsky格雷戈里 J。 W。 B。 X。 萨马拉斯 D。 自顶向下和自底向上的角色在视觉搜索过程在引导眼球运动 18 学报第19届会议在神经信息处理系统(捏' 05) 2005年 美国马萨诸塞州剑桥市 麻省理工学院出版社 1569年 1576年 先进的神经信息处理系统 江ydF4y2Ba W。 Xinbo Z。 分析基于视觉搜索的眼睛注视点 IEEE国际会议上橙色技术学报》(ICOT 14) 2014年9月 中国西安 13 16 10.1109 / icot.2014.6954665 2 - s2.0 - 84916243914 M。 J。 Q。 舰队 D。 Pajdla T。 Schiele B。 Tuytelaars T。 卓越的人群 电脑Vision-ECCV 2014 2014年 8695年 17 32 在计算机科学的课堂讲稿 10.1007 / 978 - 3 - 319 - 10584 - 0 - _2 Itti l 科赫 C。 saliency-based搜索公开的和隐蔽的视觉注意力的转移的机制 视觉研究 2000年 40 10 - 12 1489年 1506年 10.1016 / s0042 - 6989 (99) 00163 - 7 2 - s2.0 - 0034003645 风扇 R.-E。 K.-W。 谢长廷 C.-J。 X.-R。 C.-J。 对于大型线性分类LIBLINEAR:图书馆 机器学习研究杂志》上 2008年 9 12 1871年 1874年 2 - s2.0 - 50949133669 布鲁斯 n . d . B。 Tsotsos j·K。 基于信息最大化的特点 18.3神经信息处理系统的进步 2005年 麻省理工学院出版社 155年 162年