学习模型面向任务的关注

文摘

对于许多应用程序在图形、设计和人机交互,必须了解人类在一个场景与一个特定的任务。凸起的模型可以用来预测固定位置,但大量的先前的卓越模型集中在自由观看任务。他们是基于自底向上计算,不考虑面向任务的图像语义和经常不匹配实际的眼球运动。为了解决这个问题,我们收集了11眼跟踪数据对象执行一些特定的搜索任务时2511年1307图片和注释数据分割对象,轮廓和8语义属性。使用这个数据库作为训练和测试的例子,我们学习特点的模型基于自下而上的图像特征和目标位置的功能。实验结果说明目标的重要性信息预测的面向任务的视觉注意力。

1。介绍

对于许多应用程序在图形、设计和人机交互,必须了解人类在一个场景与一个特定的任务。例如,面向任务的视觉注意力的理解是有用的自动目标识别(1)、图像理解、或图片搜索2,3]。它可以用来直接视觉搜索和漏斗状图像视频压缩4,5和机器人定位6,7]。它也可以用于广告设计或实现的智能相机(8]。

然而,它是不容易的模拟人类视觉行为完全面向任务的机器。注意是一个抽象的概念,它需要客观指标进行评估。判断实验结果直观的观察是不精确的,因为不同的人可能关注同一场景的不同区域,即使任务。为了解决这个问题,眼动跟踪设备,可以记录人眼定位,对准目标,凝视着通常使用。调查人的眼动数据为研究提供更客观的地面真值计算模型的关注。目前,有超过二十多个数据库与眼动跟踪数据对图像和视频在公共领域(9),主要集中在“自由观看”的眼球运动。

大多数现有的计算视觉注意力显著模型经常被评估与预测人类固定在自由观看任务中,一些生物灵感和基于自底向上计算模型和其他结合基于自底向上的形象特点线索和自上而下的图像语义相关的线索。尽管做好定性模型,模型用有限,因为他们经常只在上下文无关的场景表现良好。

出于这一点,我们两个的贡献。首先是大型数据库的面向任务的眼动跟踪的标签和实验分析,第二个是一个监督学习模型的特点,结合基于自底向上的形象特点线索和面向任务的图像语义相关的线索。数据库包括眼睛跟踪数据在1307张图片来自11个不同的用户。据我们所知,这是第一次这样一个广泛的面向任务的眼动跟踪数据可用于定量分析。对于给定的图像,使用眼球追踪数据创建一个“地面实况”显著地图代表观众实际上看起来与一个特定的搜索任务。我们引入一组自下而上的形象特征和目标位置特征定义突出位置,并使用线性支持向量机训练特点的典范。我们比较显著的性能模型创建不同的面向任务的关注和显示我们的方法执行模型在预测人类视觉注意力的区域比麻省理工学院(3),这是一个最好的模型在预测上下文无关的人的目光。

本文的结构如下:部分2提供了一个简短的描述和讨论的一些以前的作品。部分3是用于描述数据库的特点。节3.1,我们目前的数据收集方法,图像、眼动跟踪数据和地面实况数据。部分3.2分析了数据库的属性。我们的模型的详细描述部分4评估我们的方法使用流行的卓越模型评价分数(AUC)与麻省理工学院卓越模型。在上一节所讨论的讨论和结论。

关注和卓越在视觉感知扮演重要的角色。在过去的几年中,20多个这样的数据库现在可用在公共领域。固定在脸上(国际足联)[10收集从八个科目执行2 s长自由观看任务180颜色自然图像。它演示了面临的事实吸引重要的视觉注意力。受试者发现专注的脸在前两个固定概率超过80%。NUSSEF数据库(11从池中)是编制的758张图片和75年的主题。每个图像提出了5秒钟,free-viewed至少13个主题。与他人相比,这个数据集的一大特性是,758年的图像数据集包含大量的语义情感对象/场景等富有表现力的面孔,裸体,不愉快的概念,和交互式操作。麻省理工学院数据库从贾德et al。12收集从Flickr和LabelMe]包括1003图像。眼动数据记录来自15个用户自由主张这些图片3。在这个数据库,注视周围发现的脸,汽车,和文本。许多固定偏向于中心。鸽子数据集(13)包括101个自然灰度图像(14]。眼球运动来自29个观察者自由主张收集的图像。然而,所有这些数据库记录眼球运动“自由观看”。另外,麻省理工学院CVCL搜索模型数据库(15)是记录用户理解的面向任务的眼动模式。观察家们被要求执行一个人检测任务,和他们的眼球运动被发现是一致的,即使目标是缺席。这个数据库记录是基于面向任务的关注,但它的任务是单身。所以有必要创建一个内容丰富的数据库基于面向任务的关注。

几个视觉注意力模型是直接或间接地受到认知概念从心理或神经生理学的研究。赢家通吃(WTA)生物合理的架构与功能集成理论是由科赫和Ullman [16]。建立在WTA Itti et al。17)首先实现使用center-surround机制计算模型和层次结构来预测突出的地区。在这个模型中,一个图像predecomposed成低级属性,如颜色、强度和方向跨多个空间尺度。WTA推理拿出最显眼的位置特征。后来,Le Meur et al。18)提出了一种自底向上的相干计算方法基于人类视觉系统(HVS)的结构,使用对比敏感度,知觉分解,视觉掩蔽,center-surround交互技术。Krauskopf提取特征的颜色空间和实施特点在三个独立的平行通道:可见性、感知分组、和感知。特征映射为每一个渠道获得,然后一个独特的特点地图是由这些渠道的结合。基于各向同性对称和径向对称Reisfeld运营商et al。19)和颜色的对称性Heidemann (20.),Kootstra et al。21)开发三个symmetry-saliency运营商和比较人眼跟踪数据。伊斯坦布尔~圣文亚当和伊斯坦布尔~圣文亚当(a . e .22),马拉et al。23),而穆雷et al。24)其他模型指导下的认知结果。

另一类推导数学模型。Itti和Baldi25]意外刺激定义为那些显著改变一个观察者的信念。这是在贝叶斯框架建模计算KL分歧后和之前的信仰。同样,Zhang et al。26)提出了太阳(使用自然统计显著)模型自下而上的自然特点出现的self-information视觉特性。布鲁斯和Tsotsos [27]目前视觉特点的模型建立在第一原理信息理论公式被称为基于信息最大化(AIM)的关注。亚伯和Lindenbaum的Esaliency工作28)使用一个随机数学模型来估计最可能的目标。Scholkopf et al。29日]提出了基于视觉特点(GBVS)模型,利用马尔可夫链的方法来描述不同和质量浓度区域。搜索引擎优化和Milanfar [30.和刘et al。31日其他两个方法是基于数学模型。

另一类模型在频域计算特点。侯和张32)相关光谱谱残差模型(SRM)提出的残留特征光谱域到空间域。在[28),亚伯和Lindenbaum Esaliency提议,一个随机模型,估计的概率一个图像的兴趣。他们大概首先分割图像,使用一个图形化的模型近似全局考虑,以确定哪些地方更突出。

我们建议的方法是与那些学习的模型映射记录眼睛注视或标记突出的地区。这些模型使用一些高级特性从早些时候获得数据库,开展学习机制来确定模型参数。Torralba et al。33)提出了一个注意力的指导方法,结合了自底向上凸起,场景上下文和自上而下的机制来预测图像区域可能迷恋于人类现实世界的场景。基于贝叶斯框架,模型计算的全球特性通过学习的环境和结构图像,和自上而下的任务可以实现场景先验。瑟夫et al。34)提出了一个模型,增加了几个高层语义特征如脸、文本和对象预测人眼注视。贾德et al。12)提出了学习型方法预测凸起。他们用33特性包括低级特性如强度,颜色,和方向;中层地平线探测器等特性;和高级特性,比如脸检测器和一个探测器的人。该模型使用支持向量机(SVM)二元分类器训练。赵和科赫35)提出了一个模式类似于Itti et al。17),但与面临额外的特性。他们的模型结合了特征图和学会了权重,使用一组活跃的方法解决最小化问题。在上述模型中,一些关注添加高级特性改善预测性能,而其他人使用机器学习技术澄清特征之间的关系及其特点。然而,所谓的高级功能是模糊概念和不包含所有类型的环境。

这些特点的模型被用来描述roi在自由观看任务中,但是他们的使用在特定的任务仍然非常有限。最近的结果表明,在面向任务的视觉注意力,受试者被要求找到一个特定目标的显示,自上而下的过程中发挥主导作用的指导眼球运动(36- - - - - -40]。然而,所谓的自上而下的功能是模糊概念和不包含所有类型的环境。这里,我们利用更多的信息概念包括低级,目标位置,并使用机器学习中心偏差,眼睛定位预测。

3所示。眼睛跟踪数据的数据库

我们收集了大型数据库的眼睛跟踪数据,允许大规模定量分析固定分和凝视路径和提供地面实况数据显著模型研究[41]。相比之下,几眼动跟踪公开的数据集,我们的新数据集的主要动机是为研究面向任务的视觉注意力,也就是说,观察人士而决定是否一个场景包含一个目标。

3.1。数据收集协议

3.1.1。参与者

15个参与者,本科和研究生志愿者19-32岁(,)与未修正的矫正视力正常,自愿加入了这个实验。所有的参与者都来自西北工业大学。

3.1.2。装置

Tobii TX300眼动跟踪被用来记录眼球运动。我们设置采样频率为300赫兹。眼动跟踪容忍一定程度上的头部动作,受试者可以自由行动和自然的刺激。37岁的自由运动主管65厘米×17(宽×高),至少有一只眼睛在眼动跟踪的视野。马克斯头移动速度50厘米/秒23英寸宽屏幕上刺激了TFT显示器。屏幕大小为50.5厘米×28.5厘米。其屏幕响应时间一般5 ms及其分辨率设置为1920×1080。

3.1.3。材料

我们随机选择1307图像VOC2012刺激。最长的尺寸(可以是宽度或高度)的每个图像是500像素,另一维度范围从213到500像素。图像包含八个类别,即飞机,摩托车,瓶子,车,椅子,狗,马,人。

3.1.4。过程

1307图像被分为八个组。每组包含100张图片来自同一类别和其他类别的70张图片(10图像从每一类中选择)。所有受试者坐在约65厘米的距离从屏幕上在一个相对安静的房间。从每组图像提出了随机原始大小的屏幕上。在测试前,五点目标显示用于校准。以确保高质量的跟踪结果,我们检查了每个组后校准精度。如果眼动跟踪的准确性是在1°视角,受试者可以继续下一组。否则,将进行校准一次。主题将给予不同的指令组。例如,对于飞机群,受试者将会被要求找到飞机在每个图片,而图片可能为零,一个,或者更多的飞机。 Subjects should find airplanes as more as possible in one image and switch to the next one through hitting the space key. To encourage the subjects to concentrate on looking for the target, we took two measures to improve authenticity of test. On the one hand, each group (above-mentioned eight groups) was equally divided into three small subsets. Subjects will spend less time to view the small subsets and pay more attention to the stimuli. On the other hand, after each subset, the subjects took a 2 min break and did a memory test: how many airplanes did you find?

3.2。分析数据集

3.2.1之上。一致性

target-present图片,在我们的数据集,所有受试者注视在同一位置,同时,在target-absent形象,受试者注视分布图像。我们分析这种一致性的人类固定在一个图像的熵通过测量平均持续卓越学科之间映射。尽管不同纵横比的原始图像,我们调整他们之前200×200像素图像计算熵。图1 (c)显示了一个直方图熵的图像在我们的数据库中。它还显示了一个示例(如图12凸起的地图1(一)和1 (b))与最低和最高熵和相应的图像。

(一)

(b)

(c)

3.2.2。中心偏差

人类注视我们的数据表明强烈的偏见是附近的中心形象,正如前面符合分析眼动跟踪数据集(12,42]。图2分开显示平均人类卓越地图狗和椅子的范畴,最强和最弱的中心的偏见。狗类,57%的注视点位于中心图像的11%,和80%的注视点位于中心25%的形象。椅类,29%的注视点位于中心图像的11%,和49%的注视点位于中心25%的形象。

(一)

(b)

(c)

有几种假说中心偏见的根源。在我们的测试中,最主要的原因是,人们往往将对象或有趣的东西照相时中心附近的一个图像(所谓的摄影师的偏见)。为了测试这个想法,我们分别分析目标百分比的注视点,这是凝视点位于中心内的目标对象11%和25%的狗和椅子的范畴。显然,狗类的百分比目标注视点在中心地区比在椅子上类别。这种差异被归因于这样一个事实:目标对象主要位于图像的中心在狗类,但在椅子类别分布在整个图像。

3.2.3。观察者之间的协议

在这个段落中,我们评估协议中固定位置的观察家。眼动模式的分析观察表明,固定强烈限制搜索任务和场景上下文。定量地评估观察者之间的协议,我们研究了人类interobserver (IO)模型预测注视点,在相同的实验条件。IO模型输出,对于一个给定的刺激,地图由另集成来自受试者的眼睛注视下测试在观看刺激。的地图是用来预测固定排除问题。最后,我们使用IO模型性能评估的评估观察者之间的协议。

使用ROC曲线下的面积(AUC)得分,IO模型的映射被视为一个二进制图像中每个像素分类器。大的像素值超过一个阈值被列为固定其余的像素被归入nonfixated。人类使用固定地面真理。通过改变阈值,绘制ROC曲线为假阳性率和真阳性率,和曲线下的面积表明显著地图预测实际人眼注视。

我们分别计算IO模型/ 8类从我们的数据集和选择中值作为结果。表1模型的显示了AUC得分的平均值。结果表明,观察人士非常符合彼此在固定地点target-present target-absent条件(在每种情况下超过85%)。平均而言,观察者之间的协议是当目标存在高于缺席。这表明,位置固定的观察者target-present图像是由目标位置。


组名称	Target-present	Target-absent

飞机	0.90	0.90
瓶	0.87	0.87
车	0.86	0.86
椅子	0.83	0.84
狗	0.95	0.95
马	0.94	0.94
摩托车	0.93	0.93
人	0.92	0.93
平均	0.90	0.92

3.2.4。在每个刺激注视点

计算图像内目标对象的任务是类似于一个详尽的视觉搜索任务。在我们的设计中,每一个场景都可以包含4个目标。目标大小没有预定的和多种多样的刺激组。在这种情况下,我们预期的观察家详尽的搜索每个场景,不管真正的目标。图3显示的平均数量的总注视点刺激每一组。出乎意料,计数的注视target-present显然超过target-absent。

分析固定位置target-present图像,我们比较人类的比例固定,属于目标对象和中心区域。在第一种情况中,我们应用地面真理分割目标对象的区域。在第二种情况下,我们计算人类注视位于中心的比例2%,11%,25%,和65%的形象。图4总结了结果。首先在两种情况下,上面的百分比都是水平的机会。在图的差异4是统计学意义:中心25%的形象比目标对象区域更好的吸引人的注视。这种效应主要是由主体的侧目的,人类总是注视目标对象。但即便如此,图的图表4清楚地表明,目标对象的位置(区域中心)和目标对象的面积将吸引人的注视。

3.2.5。感兴趣的对象

根据贾德et al。12,42),如果刺激有一个或多个人类,注视点应该主要定位人脸。然而,在我们的测试中,这种情况是不相似的。

图5显示热图的刺激有一个或多个人类。从图5,我们可以知道:(一)刺激,它在不同的情况下有不同的热图。(b)如果人类的目标对象,仍有很多注视点定位人脸。(c)当受试者搜索目标的刺激,他们可以忽略其他对象和所有关注目标对象。

(一)

(b)

从上面所讨论的,我们知道,在我们的测试感兴趣的某个对象是否取决于任务。

4所示。上优于卓越模型

相比之前的计算模型,结合大量的生物的过滤器在一起估计视觉特点,我们使用一个学习方法直接从人眼跟踪数据训练分类器。对于每一个图像,我们预先计算的特征图图像的每个像素的大小为200×200和使用地图来训练我们的模型。图6地图显示功能。通过分析数据集,我们提倡低级,高层,中心之前的特性。

低级特性,强度,方向,和颜色对比一直被视为重要特性自底向上凸起。我们包括三个通道对应这些图像特征计算Itti和科赫的显著方法(43]。关于高级特性,根据我们的数据分析,我们发现,人类总是注视点位于目标对象。所以我们使用目标对象的位置作为高级特性。首先,边界框对象标记,我们用它们作为目标对象的区域。其次,在盒子中,我们使用每个像素的距离框而不是像素的中心。最后,盒子,我们使用零而不是像素。中心偏差,当人类拍照,他们自然框架感兴趣的物体图像的中心附近。出于这个原因,我们包括特性表示每个像素的距离中心(12]。

评估我们的模型,我们遵循了5倍交叉验证方法。数据库分区的方法为五个随机子集,每个都有图像。每个子集选择顺序测试集和余数作为训练集。每次我们从4部分训练模型和测试在其余部分。结果然后平均超过所有分区。从地面真理注视点每个图像地图,20像素被随机采样前20%的显著位置,和20像素采样从底部70%显著位置产生训练集3200正样本和3200年负样本。选择1:1的目的抽样比率是平衡正负样本像素的分布在相同的图像。我们选择样本前20%和底部70%为了样品正面的和负面的。训练样本归一化零均值和单位方差。同样的参数用于规范化测试集。

我们使用线性支持向量机(44]训练模型,首次使用学习每个低级的重量,高层,中心属性在决定之前注意分配的意义。我们使用模型与线性内核,因为他们是更快的计算,以及随之而来的权重属性是直观的理解。为每个组,平均(Avg)和相应的标准差(STD)学会的执行的实验数量重量每个属性如表所示2。很明显,中心的属性的位置偏差和目标对象的体重高于其他人。显然,在狗群,中心偏差的重量比其他人更强。然而,在椅子上,定位目标对象的重量比其他人更强。对于这一现象,流动可能是至关重要的。领域的目标对象可能导致这一现象。但是我们不知道详细的关系。属性的权重也同意先前的发现在图形-背景感知,在视觉搜索任务中,受试者被要求找到一个特定目标的显示,自上而下的指导过程中发挥主导作用的眼球运动。


类别	颜色		强度		取向		目标		中心偏差
类别	Avg	性病	Avg	性病	Avg	性病	Avg	性病	Avg	性病

飞机	0.0319	0.00005	−0.0154	0.00002	0.0098	0.00002	0.1201	0.00012	−0.4344	0.00025
瓶	0.0346	0.00006	0.0424	0.00006	0.0294	0.00004	0.1206	0.00009	−0.3586	0.00019
车	0.0073	0.00001	0.0112	0.00002	−0.0159	0.00002	0.2575	0.00016	−0.2418	0.00012
椅子	0.0234	0.00003	0.0578	0.00006	0.1002	0.00011	0.2766	0.00013	−0.1348	0.00008
狗	0.0066	0.00001	0.0075	0.00001	0.0848	0.00006	0.1065	0.00008	−0.4556	0.00024
马	0.0241	0.00004	−0.0004	0.00000	0.0240	0.00003	0.1445	0.00011	−0.3182	0.00031
摩托车	−0.0088	0.00002	0.0166	0.00002	0.0276	0.00004	0.2001	0.00015	−0.2733	0.00025
人	−0.0131	0.00003	−0.0291	0.00003	0.0638	0.00006	0.1241	0.00007	−0.3159	0.00027

5。评价

以度量性能特点的模型,我们表现的比较模型与麻省理工学院模型(3)这是一个最好的模型在预测上下文无关的人的目光。模型包含自底向上凸起和高级图像语义和适用在自由观看上下文预测凸起。使结果具有可比性,麻省理工学院的模型是一样的训练集训练我们的方法。图7显示热量地图模型和比较模型。这是一个图像结果在每组。我们进行了实验160图像随机选择。

图8显示了我们的模型接受者操作特征(ROC)和麻省理工学院的模型。这些曲线显示在注视点的比例显著地图建立卓越模型(检出率)与选择的图像面积的比例显著地图(误警率)。卓越模型生成特征图的加权线性组合使用学到的每个属性的权重。它显示了每个主题的注视点可以显著预测的模型。对于每一个类别,我们计算的平均(Avg)和相应的标准差(STD)执行的实验数量的ROC曲线下的面积(AUC),表所示3。


模型	类别
模型	飞机	瓶	车	椅子	狗	马	摩托车	人

麻省理工学院
Avg	0.8572	0.7881	0.7865	0.8152	0.8639	0.8583	0.8563	0.7962
性病	0.0016	0.0012	0.001	0.0015	0.0006	0.0008	0.0013	0.0011
我们的
Avg	0.8635	0.8566	0.8873	0.9015	0.8665	0.8663	0.8563	0.8893
性病	0.0012	0.0006	0.0005	0.0004	0.0006	0.0009	0.0007	0.0007

可以看出,麻省理工学院(MIT)模型,性能并不总是好;然而,我们的模型比麻省理工学院。例如,在瓶、汽车和椅子类别,麻省理工学院的模型预测精度较低的注视点区域(AUC = 0.7881, AUC = 0.7865, AUC = 0.8152)比我们的模型(AUC = 0.8566, AUC = 0.8873, AUC = 0.9015)。从表3,我们知道的重量目标对象的位置是第一次在车里和椅子类别。因此,促进准确性主要目标指导因素的结果。然而,即使我们的模型无法与人类竞争协议。

6。讨论和结论

根据图8和表3,这显然表明,瓶子,汽车,和椅子类别,麻省理工学院(MIT)模型具有较低的性能,而我们的模型有更好的性能比。的主要因素是,在这些类别的目标对象是小或不明显,所以当受试者免费阅读,他们不是卓越的地图。然而,在面向任务的关注,他们成为显著图;这就是为什么自由观看模型不是适当的面向任务的。

我们都知道最近的一些数据集(10- - - - - -12,45所有设置自由观看时间2 - 5 s /形象。在我们的范例中,时间为研究对象,主要是出于以下因素。如果查看持续时间太短,受试者可能没有足够的时间来找到目标对象的重量,也促进中心偏见。另一方面,如果观看时间太长,随着观察的进行,自顶向下或其他因素(如受试者感觉无聊和累)发挥作用和注视点成为吵着。此外,如果观看持续时间太长,注视点可能成为自由观看。

日常人类活动涉及的视觉引导行动,要求观察员来确定特定对象的存在和位置。在此基础上,我们研究了一致的人类凝视点是如何在一个图像。先前的研究和经验表明,几人的注视点位置强烈表明,一个新的主题看,是否target-absent, target-present。我们实现了计算模型的target-present视觉搜索和评估模型预测主题的注视点的位置。在我们的经验中,当受试者看一个场景与一个特定的任务,他们一直付更多的关注目标对象的位置,忽视了其他凸起物,如文本和人。因此,我们的模型结合的位置目标的高级特性。最终,注意力模型指导预测95%的人类与目标对象的位置组件提供最解释力。

在这个工作我们做出以下的贡献。我们开发一个眼动跟踪的数据集合11人在1307图像和公共研究使用。它是最大的眼动跟踪数据库基于视觉搜索,不仅提供准确的受试者注视点但也为每个图像分割的目标对象。在这个搜索任务,目标对象的位置是一个主导因素。我们使用机器学习训练自下而上,自上而下模型基于低级的凸起,高层,中心之前的特性。最后,为了证明我们的模型的性能,使用相同的方法来训练麻省理工学院(MIT)模型。

未来工作我们有兴趣研究,受试者的注视点紧密聚集在非常小的和特定的区域,但是我们的模型选择一个更一般的地区包含许多对象没有注视点。我们相信目标对象的特征,如大小、规模、和形状将主题围绕目标,应该更仔细地研究。

相互竞争的利益

作者宣称没有利益冲突。

确认

中国工作是由NSF(61117115和61117115号),为中央大学基础研究基金,访问量“飙升的明星”和“新人才和方向”程序。

引用

j .英航诉Mnih, k . Kavukcuoglu“多个物体识别与视觉注意力,”美国学习国际会议上表示(ICLR 15)美国加州圣地亚哥分校,2015年。视图:谷歌学术搜索
t . f .笨蛋,c·j·泰勒,d·h·库珀和j·格雷厄姆,“活跃的形状就像他们的训练和应用”计算机视觉和图像理解,卷61,不。1,38-59,1995页。视图:出版商的网站|谷歌学术搜索
公元黄,H.-C。王,m . Pomplun”语义指导眼球运动在实际场景中,“视觉研究,51卷,不。10日,1192 - 1205年,2011页。视图:出版商的网站|谷歌学术搜索
c .郭和l .张”,一种新颖的多分辨率时空特点检测在图像和视频压缩模型及其应用,”IEEE图像处理,19卷,不。1,第198 - 185页,2010。视图:出版商的网站|谷歌学术搜索|MathSciNet
w·s·聊聊和j·s·佩里,“实时漏斗状多分辨率低带宽视频通信系统,”人类的视觉和电子成像三世卷,3299学报学报,第305 - 294页,1998年。视图:出版商的网站|谷歌学术搜索
k . Shubina和j . k . Tsotsos”对象的视觉搜索使用移动机器人在3 d环境中,“计算机视觉与图像理解,卷114,不。5,535 - 547年,2010页。视图:出版商的网站|谷歌学术搜索
c . Siagian和l . Itti“生物移动机器人视觉定位的启发,”IEEE机器人,25卷,不。4、861 - 873年,2009页。视图:出版商的网站|谷歌学术搜索
m·卡萨雷斯、美国Velipasalar和a·平托“轻量级突出前景检测为嵌入式智能摄像机,”计算机视觉与图像理解,卷114,不。11日,第1237 - 1223页,2010年。视图:出版商的网站|谷歌学术搜索
a . Borji和l . Itti“最先进的视觉注意力模型,”IEEE模式分析与机器智能,35卷,不。1,第207 - 185页,2013。视图:出版商的网站|谷歌学术搜索
m·瑟夫Harel j . w . Einhauser, c .科赫”预测使用低级的特点结合人脸检测人类的目光,“神经信息处理系统,20卷,第248 - 241页,2007年。视图:谷歌学术搜索
拉马纳坦,h . Katti n·m·Kankanhalli, t·s·艾。蔡”,一只眼睛固定数据库特点检测图像,”电脑Vision-ECCV 2010: 11日欧洲计算机视觉,伊拉克里翁,克里特岛,希腊,第5 - 11年9月,2010年,诉讼,第四部分卷,6314在计算机科学的课堂讲稿页30-43 Springer,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
t·贾德k . Ehinger f和a . Torralba勾勒出“学习预测人类看,”《IEEE 12计算机视觉国际会议(ICCV ' 09)《京都议定书》,页2106 - 2113年,日本,2009年9月。视图:出版商的网站|谷歌学术搜索
Linde, Rajashekar, a·c·Bovik,和l·k·科尔马克打进“鸽子:数据库的视觉眼球运动”,空间视觉,22卷,不。2、161 - 177年,2009页。视图:出版商的网站|谷歌学术搜索
j·h·范·Hateren和a . Van der Schaaf”独立分量自然图像过滤器与初级视觉皮层简单细胞相比,“《皇家学会学报B:生物科学,卷265,不。1394年,第366 - 359页,1998年。视图:出版商的网站|谷歌学术搜索
k . a . Ehinger Hidalgo-Sotelo, a . Torralba和a·奥利瓦”造型寻找人们900年的场景:一个源模型眼指导相结合,“视觉认知,17卷,不。6 - 7,945 - 978年,2009页。视图:出版商的网站|谷歌学术搜索
c·科赫和美国Ullman转变选择性视觉注意:对潜在的神经回路,”人类的神经生物学,4卷,不。4、219 - 227年,1985页。视图:谷歌学术搜索
l . Itti c·科赫,大肠Niebur”saliency-based视觉注意力模型的快速场景分析,“IEEE模式分析与机器智能,20卷,不。11日,第1259 - 1254页,1998年。视图:出版商的网站|谷歌学术搜索
o . Le Meur p . Le荡妇,d .胡须和d·梭罗,”一个连贯的自底向上的视觉注意模型的计算方法”IEEE模式分析与机器智能,28卷,不。5,802 - 817年,2006页。视图:出版商的网站|谷歌学术搜索
Reisfeld d·h·沃尔夫森,y Yeshurun,“上下文无关注意力运营商:广义对称变换,”国际计算机视觉杂志》上,14卷,不。2、119 - 130年,1995页。视图:出版商的网站|谷歌学术搜索
g . Heidemann”,关注的焦点从当地色彩对称,”IEEE模式分析与机器智能,26卷,不。7,817 - 830年,2004页。视图:出版商的网站|谷歌学术搜索
g . Kootstra a Nederveen, b . de Boer在“注意对称,”《英国机器视觉会议利兹,页1115 - 1125年,英国,2008年9月。视图:谷歌学术搜索
伊斯坦布尔~圣文亚当和e . a . Erdem那样预言正发党胜利“视觉特点使用区域协方差估计通过非线性集成特性,”杂志的视觉,13卷,不。4、第十一条,2013年。视图:出版商的网站|谷歌学术搜索
马拉,t . Ho港区,l·格朗n . Guyader d . Pellerin和a . Guerin-Dugue”造型时空显著预测视线方向短视频,”国际计算机视觉杂志》上,卷82,不。3、231 - 243年,2009页。视图:出版商的网站|谷歌学术搜索
n . Murray m . Vanrell x Otazu, c . a . Parraga“卓越使用非参数估计的低级视觉模型,”《IEEE计算机视觉与模式识别会议(CVPR 11)IEEE,页433 - 440年,普罗维登斯,RI,美国,2011年6月。视图:出版商的网站|谷歌学术搜索
Itti和p . Baldi“贝叶斯惊喜吸引人的注意力,”视觉研究卷,49号10日,1295 - 1306年,2009页。视图:出版商的网站|谷歌学术搜索
l, m . h .通和g·w·科特雷尔,”周日:卓越使用场景的自然统计进行动态分析,”认知科学年会31日学报》上荷兰,阿姆斯特丹,2009年。视图:谷歌学术搜索
n·d·b·布鲁斯和j . k . Tsotsos“时空特点:视觉特点的分层表示,”注意在认知系统卷,5395年,页98 - 111,施普林格,柏林,德国,2009年。视图:出版商的网站|谷歌学术搜索
t·亚伯和m . Lindenbaum Esaliency(扩展的特点):有意义的关注使用随机图像建模,”IEEE模式分析与机器智能,32卷,不。4、693 - 708年,2010页。视图:出版商的网站|谷歌学术搜索
b . Scholkopf j·普拉特,t·霍夫曼,“基于视觉特点,”先进的神经信息处理系统,19卷,不。2006年,第552 - 545页,2006年。视图:谷歌学术搜索
h . j . Seo和p . Milanfar非参数自底向上凸起的检测self-resemblance,”《IEEE计算机视觉与模式识别会议(CVPR ' 09)页,45-52迈阿密,佛罗里达州,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
z . t . Liu元,j .太阳et al .,“学习”探测到一个显著的对象,IEEE模式分析与机器智能,33卷,不。2、353 - 367年,2011页。视图:出版商的网站|谷歌学术搜索
x侯和l .张“卓越检测:光谱残留的方法,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 07)IEEE,页1 - 8,明尼阿波利斯,明尼苏达州,美国,2007年6月。视图:出版商的网站|谷歌学术搜索
a . Torralba a·奥利瓦m . s . Castelhano和j·m·亨德森”上下文眼球运动的指导和关注在实际场景:全局特征对象搜索的作用,“心理评估,卷113,不。4、766 - 786年,2006页。视图:出版商的网站|谷歌学术搜索
m·瑟夫·e·p·Frady, c .科赫”面孔和文本吸引目光的独立任务:实验数据和计算机模型,”杂志的视觉,9卷,不。12日,第76 - 74页,2009年。视图:出版商的网站|谷歌学术搜索
问:赵c·科赫,“学习显著地图使用固定位置的自然场景,”杂志的视觉,11卷,不。3,第九条,1 - 15,2011页。视图:出版商的网站|谷歌学术搜索
a . Borji m . n . Ahmadabadi和b . n . Araabi”厂商学习注意力的自上而下的调制控制。”机器视觉和应用程序,22卷,不。1,第76 - 61页,2011。视图:出版商的网站|谷歌学术搜索
r·j·彼得斯和l . Itti“超越自下而上:合并task-dependent影响的计算模型空间的关注,”《IEEE计算机视觉与模式识别会议(CVPR ' 07),页1 - 8,明尼阿波利斯,明尼苏达州,美国,2007年6月。视图:出版商的网站|谷歌学术搜索
f .俾路支和l . Itti”自上而下的注意机制。”神经科学的趋势,34卷,不。4、210 - 224年,2011页。视图:谷歌学术搜索
m . Pomplun眼跳选择性在复杂的视觉搜索显示,“视觉研究,46卷,不。12日,第1900 - 1886页,2006年。视图:出版商的网站|谷歌学术搜索
j . Zelinsky格雷戈里·w·张,b, x,和d·萨马拉斯,“自顶向下和自底向上的作用过程指导眼球运动在视觉搜索,”学报第19届会议在神经信息处理系统(捏' 05)18卷先进的神经信息处理系统麻省理工学院出版社,页1569 - 1576年,剑桥,质量,美国,2005年。视图:谷歌学术搜索
w .剑和z Xinbo”,分析基于视觉搜索的眼睛注视点,”IEEE国际会议上橙色技术学报》(ICOT 14),页13 - 16,西安,中国,2014年9月。视图:出版商的网站|谷歌学术搜索
m .江j .徐,赵问:“在人群特点,”电脑Vision-ECCV 2014d .舰队,t . Pajdla b . Schiele和t . Tuytelaars, Eds。卷,8695在计算机科学的课堂讲稿,17-32,2014页。视图:出版商的网站|谷歌学术搜索
l . Itti和c·科赫saliency-based搜索机制,公开和私下视觉注意力的转移,“视觉研究,40卷,不。10 - 12,1489 - 1506年,2000页。视图:出版商的网站|谷歌学术搜索
R.-E。风扇,K.-W。Chang C.-J。谢长廷,X.-R。王,C.-J。林,“LIBLINEAR:图书馆对于大型线性分类,“机器学习研究杂志》上,9卷,不。12日,第1874 - 1871页,2008年。视图:谷歌学术搜索
n·d·b·布鲁斯和j . k . Tsotsos“基于信息最大化,卓越”18.3神经信息处理系统的进步,页155 - 162年,麻省理工学院出版社,2005年。视图:谷歌学术搜索

计算智能和神经科学