文摘

尽管准确的可用性,商业目光跟踪设备使用红外(IR)技术,可见光目光跟踪是一个有趣的替代通过允许可伸缩性和移除硬件要求。在过去几年,这一领域研究的例子显示性能与红外的替代品。在这项工作中,我们在远程调查之前的工作,可见光凝视追踪和分析等从不同的角度探讨技术标定策略,头姿势不变,目光估计技术。我们还提供信息等相关方面的研究公共数据集测试、开源项目建立,目光跟踪服务直接在应用程序中使用。所有这些信息,我们的目标是为当代和未来的研究人员提供详细地图之前探索思路和所需的工具。

1。介绍

从一个计算机科学家的角度来看,人类是机器接收输入的传感器如耳朵、眼睛和皮肤,与他们生活的世界通过他们的致动器,手,脚,等等。他们的注意力可以通过分析理解他们直接传感器(即。,looking at specific locations or inspecting unknown objects by touching or smelling). Moreover, as in the case of robots, examining this attention can give us hints about their state of mind and their way of reasoning.

人类感官中,看见有一个重要的地方在当今世界我们包围与数字显示是手机、电脑或电视。相反的被动观察的对象,这也给了暗示的人积极选择看穿眼球运动。这些运动的分析,因此,在研究社区引发了极大的兴趣。

设备或系统,跟踪一个人的眼球运动被称为眼睛追踪器或凝视追踪器。目前使用最广泛的技术在这些追踪器利用光源和摄像机,红外(IR)光谱的操作。有许多可用的商业模型,眼镜或表的形式安装设备(1- - - - - -3),还开源替代方案,允许使用自定义硬件(4]。

可见光的目光跟踪,另一方面,不需要任何特殊的硬件和旨在解决常规的任务利用相机。在本文中,我们将集中在这类追踪和调查相关的研究。此外,我们将限制我们的搜索表安装设置(也称为远程设置),因为它无处不在在现代设备和它消除了限制相机位置(少数例外)。我们的目标和贡献如下:(我)提供一个详尽的文献综述。(2)从不同的角度去评论这些作品。(3)公开的数据集。(iv)开源软件。(v)列出凝视追踪器作为一个web服务。

剩下的纸是组织如下:我们将从远程使用的软件结构的概述,可见光凝视追踪器。之后,我们将根据技术分类和解释以前的工作并继续使用两个其他分类方案:如何/如果校准和/如果他们处理头部动作。之后,我们将可用数据集和评论列表,在线目光跟踪服务,开源项目。我们将完成我们的结论对当前状态和未来的发展方向。

2。分类和可见光的目光追踪器的结构

作品的分类,我们分析本文不是微不足道的,因为组之间的边界方法并不总是清晰和文献中不同的命名方案存在。

森本晃司的审查和Mimica初5使用眼外观(即),方法。,eye region image pixels) directly for gaze estimation are called appearance-based or view-based methods, and the rest is left unnamed. Here, the given name refers to all the visible light methods and does not give information about the subcategories. Even in a more recent survey [6)可见光红外(IR)和方法被认为是,后者被认为是只是一个选择,及其子类不清楚。其他分类方案也建立在这模棱两可:外貌和特征(7,8和外貌与基于模型的9,10]。还应该指出的是,“外貌”名称仍被用来指所有可见光方法(11,12),增加了混乱。

之间的边界,目的是清楚地识别不同的可见光的目光估计技术(希望不增加混乱),提出了一种新的分类方案:(1)外貌的。这些方法只使用眼睛图像像素强度来创建一个映射到目光估计。图像的像素转换为一个向量表示通过光栅扫描和美联储估计组件。(2)基于特征。这一类方法也使用一个映射来计算的目光;然而,他们使用更丰富的特性向量方法相比(即在前面的类别。,而不只是像素强度)。(3)基于模型的。相比前两类的区别的方法,属于这一类方法遵循生成方法试图通过模型眼睛,甚至脸。目光是计算几何模型参数。

在解释了我们的分类和其背后的推理,我们可以继续讨论软件这些追踪器的管道。虽然细节的变化是巨大的,一个常见的骨骼结构,描述了其软件实现可以很容易识别,如图1

系统的输入通常是一个视频;然而,系统在静态图像的例子还发现(13]。在前者情况下,以前视频帧处理的结果可用于提高性能为下一个帧(14]。

管道的第一个任务是提取眼睛区域。如果一个可选的头部姿势估计组件存在,如果它的输出包含眼睛的位置信息,它可以直接使用的位置也可能作为一个粗略的初始估计实际的眼睛定位器。否则,眼睛定位器组件使用面探测器的选择限制处理图像面积和降低计算成本15,16]。为了计算准确的眼睛位置,系统可以利用虹膜中心探测器(17),眼角落探测器(18),或者3 d眼睛模型,考虑整个眼睛的外观(19]。

一旦感兴趣的区域(ROI),也就是说,眼睛区域,位于,第二步是准备目光估计的输入组件。根据目光估计方法的类,最后一步变化所需的输入。在外貌的方法,使用的第一步是提取的眼影直接作为输入。在这里,每个图像像素强度视为一维输入向量。随着光照变化和阴影可能会干扰这些输入,这类方法可能并不总是给强大的结果。

基于特征方法试图打破原始像素之间的直接连接强度和最终的输入向量,以增加鲁棒性照明的变化。文献中使用的一些特性如下:(我)像素位置的要点(例如,内眼角落,虹膜中心和眼睑)(20.,21]。(2)他们的相对位置(即。,vectors connecting two positions) [22- - - - - -24]。(3)标准计算机视觉功能导向的梯度直方图等(猪)25,26)和局部二进制模式(lbp) (11,27]。(iv)特性计算卷积神经网络(CNN) (13]。(v)功能分组和总结像素强度(28- - - - - -31日]。

最后,基于模型的目光评估方法需要的参数2 d或3 d模型作为输入。在2 d的情况下,这些参数可以定义虹膜边缘模型(32];在3 d的情况下,它可以更复杂,包括眼球中心的3 d位置(33)或其他面部地标(34]。

最后一步的描述管道的估计是注视,考虑到输入上一步计算的。外貌和基于特征的方法需要一个映射函数,该函数将输入向量映射到注视点或视线方向。常用的技术包括神经网络(NNs) [35,36),高斯过程(GP)回归14,37),和线性插值38,39]。另一方面,基于模型的方法使用他们的3 d几何模型(例如,3 d眼球虹膜的法向量模型)计算的目光(40,41]。

3所示。单摄像机远程视线跟踪的方法

在本节中,我们对作品进行分类,重点根据我们的计划。这些作品的摘要表中可以看到1

3.1。外貌的方法

第一个技术提出了可见光的目光跟踪介绍外貌的方法的分类(16,35,42]。这些方法的特点是使用眼睛图像的像素强度作为目光估计他们的特性。后一个可能的标准化图像直方图归一化一步出现在整个数据集,这些特征向量是美联储估计组件映射到屏幕坐标。

3.1.1。神经网络

最受欢迎的映射函数中使用眼动跟踪是神经网络(NNs)。在他们的开创性工作,Baluja和波默洛35]介绍第一种方法利用得到。他们测试系统广泛不同的输入(虹膜区域或整个眼睛),神经网络结构(单一的连续或分裂隐层)和隐层单元数。在另一个实验中,他们证明,通过训练系统的输入来自不同头部姿势,系统甚至可以处理小头部动作。最后,他们高层系统偏移表用于纠正系统实际的眼动跟踪使用的变化。在最好的情况下,他们的报告精度约为1.5°。

Stiefelhagen et al。16)使用肤色分割和瞳孔检测来取代一个光源的使用任务Baluja和波默洛的原创作品。徐et al。42]介绍了迭代阈值方法来准确定位虹膜区域,提出了高斯平滑的输出神经网络在训练。最近的两项工作(43,44)神经网络技术用于目光跟踪商业平板电脑和报告低精度(平均误差> 3°),主要是因为低采样率的平板电脑和高训练得到的数据需求。

3.1.2。局部线性插值

最近比较流行的替代当地线性插值神经网络映射提出了视线跟踪由Tan et al。38]。在他们的工作,他们认为眼睛区域图像是来自出现歧管,和目光估计冒充是一个线性插值的问题使用这种歧管最相似的样本。虽然这工作对眼睛定位,利用红外照明目光估计技术是纯粹的可见光设置有效。报道的准确性约0.40°显示了该技术的承诺。

小野et al。45计算眼睛图像的分解,考虑变化引起的视线方向,基础眼外观和图片裁剪的变化。使用这种分解,可以遇到3训练样本和使用最相似LLI计算凝视准确率为2.4°。

Sugano et al。46)使用一个LLI允许头部动作的技术。他们集群眼睛图像根据相应的头部姿势,只选择样本插值从集群当前样本相同的头部姿势。他们的系统从用户交互(即学习。,mouse clicks) and continuously updates its parameters, adding clusters for new head poses when necessary. The reported average error is in the range 4-5°. The extended version of the work [47]提供的方法提炼凝视标签通过鼠标点击,丢弃误差高训练样本,和定位眼睛位置更好,从而减少平均误差仅为2.9°。

陆et al。7,29日目光估计问题分解成子问题:(1)估计在固定头部姿势造成的错误和(2)补偿头旋转和眼睛出现扭曲。与其他工作不同,他们不选择最相似的地方训练样本明确;然而,他们认为他们的所有训练样本的加权方法自动选择少量的本地样本。通过学习眼外观变形从5秒钟视频剪辑和应用这两种补偿,他们减少平均误差从6°到2.38°(从13.72°到2.11°和2014年的论文)。在他们以后的工作(48,49),而不是视频剪辑(包含100帧左右),他们只获得4额外的训练样本参考头部姿势和合成额外的训练样本下建模眼外观的变化。

Alnajar et al。50)提出一个calibration-free估计基于假设人类有相似的目光刺激模式相同。这里,初始凝视点计算用户没有校准,然后转换计算用户的目光模式映射到其他用户。对于最初的目光估计,他们要么使用最近的邻居从训练集重构当前眼的外表(与其他用户样本)或项目的眼睛出现一个2 d歧管最相似的样品。

赖et al。8]运用随机森林学习社区结构的联合负责人构成和眼睛的外观特性(HPEA)。目光估计与线性插值使用随机森林的邻居,收益率约4.8°的准确性(水平和垂直结合)。

Sugano et al。51)构建一个多视图数据集,用它来重建面临的3 d的一部分。他们使用这个3 d模型来生成合成样品从不同的摄影角度和使用获得的扩展数据集训练随机森林。在这里,不像他们以前的工作46),他们不把数据严格按照头部姿势;然而,他们与重叠的头部姿势范围建立集回归树(即。,单个样本构成用于建立几套树)。目光计算的平均距离最近的回归结果森林根据头部姿势,导致平均误差为6.5°跨学科与培训。

3.1.3。高斯过程

高斯过程(GP)是另一个选择映射在一些目光跟踪方法。医生预测概率,并允许计算置信区间的输出可以作为检测指标校准时不再有效的测试数据(20.,52]。

阮et al。37,53描述一个系统,他们使用一个中提琴和琼斯15]眼探测器和光流(的)来探测和跟踪相机的眼睛的形象。然后,提取的眼影是美联储GP计算注视点。在扩展工作37),他们表明,当在几个头部姿势,重复校准系统甚至可以成为头部姿势不变。

法等。9)也提出了类似的方法,他们使用几个Viola-Jones探测器(脸、眼睛、鼻子和嘴)选择8脸上锚点自动提取和使用眼影训练医生。在最后的系统,平均误差是2°(水平和垂直结合)。

Sugano et al。10]使用卓越信息自动校准的目光跟踪主题时看一段视频。校准GP-based追踪的时候,而不是使用已知的目光,他们培养全科医生的目光概率地图聚合计算几个显著地图。

3.2。基于特征的方法

在外貌的方法,映射函数的输入是相同的所有技术;因此,我们分类根据他们使用的映射函数。然而,在基于功能的方法,主要的区别是他们的特性集,和我们的分类也反映了这种差异。

3.2.1之上。锚点定位功能

在第一个子类基于特征的方法,重要的锚点的位置和眼内(例如,瞳孔(iris)中心,内外眼角落,和鼻孔)作为特征。在某些情况下,他们构成不同维度的特性,而在其他情况下,它们之间的关系(即。向量连接两个锚点)作为特征。

学生中间角落向量。在红外凝视追踪器,功能广泛用于目光估计是学生center-corneal反射向量(PC-CR) [39]。相当于在自然光的方法是学生中间角落向量(PC-EC)(,或者虹膜中间角落(IC-EC)向量)。

第一次使用自然光PC-EC向量的眼睛追踪器是由两个不同的研究小组提出大约在同一时间(20.,22,54]。汉森et al。20.,54)使用活动外观模型(AAM)和平均跟踪眼睛随着时间的转变,找到学生中心的位置和眼睛的角落。目光估计是通过训练高斯过程(GP)的输入是PC-EC向量。系统结果平均误差约1.6°,和眼动跟踪验证eye-typing接口。朱海洋和杨欣(22),另一方面,提出的方法检测虹膜中心和眼角落与亚像素精度。他们使用一个2 d线性映射来估计凝视位置的特征向量。他们报告的准确性约1.2°的实验。

瓦伦蒂et al。24,55),提出一种新颖的眼角落定位器,结合最先进的眼科中心定位计算EC-PC向量。灵感来自朱海洋和杨欣(22),他们也用目光估计的二维线性映射。在他们以后的工作(56),他们利用头部姿势估计量和使用计算变换矩阵规范化眼睛区域。更准确的眼睛位置发现这种方式,反过来,用于更好地估计头构成反馈回路。解决的目光与头部运动估计问题,他们gdp8 %已知的校准点监控坐标每当有改变头部姿势和再校准系统。有了这些改进,他们实现2°和5°之间的平均误差在两个实验任务。

Sesma et al。39]正常化PC-EC向量,向量组件除以内部和外部之间的欧几里得距离眼角落。目光估计,他们同时使用PC-EC向量内外眼角落和他们的实验显示,平均误差为1.25°当头部运动受限,大约3°当没有下巴休息使用。

门敏et al。57)应用图像矫正矫正眼睛图像一个前置头构成,将其与小说虹膜中心定位法。他们使用二阶多项式方程(如[39])来计算2.42°的目光和测量精度。

张,彭18)符合主动形状模型(ASM)图像直方图规范化使用本地敏感。与他们提出的新方法对虹膜检测中心和眼睛的角落,他们实现的错误1.28°,固定头部姿势和头部动作和2.27°。

其他人。一些基于功能的方法利用锚点位置可能需要一个不同的路径和合并或替代EC和PC职位信息来自其他锚点(例如,鼻孔)或简单地用另一种方式计算功能。

在他的论文,(21)使用几个几何特性如虹膜中心,眼角落,鼻孔位置,头角度,和眼睛的角度创建一个丰富的特性向量和火车目光估计的神经网络。测试系统并不严重;然而,据报道,精度范围在2 - 4°,有时甚至达到7 - 8°。

托里拆利et al。23,58)计算几个距离和角度特性从双眼来填补特征向量。这些特性包括内部和外部的距离眼睛虹膜中心的角落,山坡上的线连接这些点,外眼角落的位置。训练神经网络的目光估计组件结果平均误差范围在1 - 2°。

因斯和金59]跟踪虹膜与一个定制的方法和计算使用虹膜中心的目光随后相机坐标系之间的位移。该系统的精度3.23°(水平和垂直结合)。阮et al。60]采取类似的方法,利用值效应,即注视分布是偏向于屏幕的中心(61年]。他们的系统不需要任何校正,通过计算平均虹膜中心随着时间的推移和估计当前的目光穿过不同虹膜中心和意思。合并后的错误 方向是3.43°的视角。

Wojciechowski和Fornalczyk62年)预处理的眼睛通过计算边缘图像,然后提取他们的特性是边缘像素的几何中心和重心位置。最后一个特性是向量连接这两个位置(GC-CM),用于计算目光估计使用数据从4训练点的加权平均。系统有大约1.5°精度(组合)。

Skodras et al。17]跟踪几个移动和固定锚点(如眼角落,眼睑控制点,和虹膜中心)和从他们的相对位置计算向量构建最终的特征向量。他们使用线性回归映射注视点,实现精度2.96°(组合)。

3.2.2。灰度特征

在一些基于功能的方法,图像像素之间的直接连接强度和特征向量并没有完全坏了。威廉姆斯et al。14)结合图像边缘像素强度与能量特征向量。他们训练稀疏,semisupervised高斯过程(S3GP)也推断失踪的标签部分标记的训练数据。他们使用的信心值GP过滤使用卡尔曼滤波器估计随着时间的推移,实现最终的精度为0.83°。

陆et al。28,63年]提出提取8 d或15 d强度特性的眼睛区域,这是相同的调整灰度图像 像素,分别。连同眼睛区域,提出了亚像素定位方法和自适应线性回归(规律)的目光估计,他们可以估计0.62°的注视点精度。

徐et al。31日]扩展Lu等的工作。28,63年)功能维度增加到120 d(2眼的图像 像素)和使用岭回归的目光估计(1.06°),实现稍差的结果。

3.2.3。传统的计算机视觉功能

计算机视觉(CV)等任务目标检测和分类通常是解决使用面向特性(例如,直方图的梯度(猪)25)、尺度不变特征变换(SIFT) [64年),和局部二进制模式(lbp) [27])凸点在图像中提取。然而,直到最近,这种方法仍在探索的目光跟踪问题。

马丁内斯et al。26]引入这个概念在头安装跟踪器,他们从眼睛图像提取多级猪的特性和使用支持向量回归(SVR)或相关向量回归(RVR)这些特性映射到注视点,并达到2.20°的准确性(组合)。

Zhang et al。36)结合几个特征建立特征向量:颜色、像素强度、方向(从几个伽柏过滤器),Haar-like特性和spatiogram特性(颜色直方图结合空间信息)。在生成这些丰富的表示,他们应用降维技术以减少特征向量大小50和火车目光估计的神经网络。虽然平均误差不是很低(约3.70°,当结合),这项工作是一个很好的例子应用传统的简历管道凝视追踪器。

梁等。11)建立在前面解释道 医生技术(14与CS-LBP特性[]和训练它65年),这是基于枸杞多糖。他们利用谱聚类学习部分标记数据和报告平均误差为0.92°。

施耐德et al。66年]探索几种功能类型(DCT、枸杞多糖、猪)与许多替代回归(医生、 最近的邻居( 神经网络),回归树、SVR、RVR、和样条函数)。他们使用双重监督嵌入方法以降低特征维数,导致 减少错误(最佳精度为2.69°16-dimensional特性基于猪和LBP)。黄等。67年)也采取同样的方法,回顾几种功能类型(日志、枸杞多糖、猪和mHOG)和回归组件( 神经网络、射频、GP和SVR)。他们报告说,随机森林(RF)结合多级猪(mHOG)特性被证明是最有效的组合(3.17°错误)(也就是一个非常具有挑战性的场景。平板电脑),免费的头部动作。

最近,卷积神经网络(cnn)是非常受欢迎的在计算机视觉研究中,和Zhang et al。13)是第一个使用他们的目光跟踪。CNN方法通常需要一个大的数据集,在他们的工作,他们也展示他们的数据集68年)包含200000多个图像。他们计算功能使用CNN和把这些特性与头部姿势信息来构建完整的特征向量。测试后与几个回归函数(随机森林, NN、规律和SVR),最好的精度达到大约是6°。

3.2.4。其他人

法等。30.使用分段虹膜区域来计算他们提出的特性。在他们的特征向量(包含 尺寸大小的眼影 ),一个给定的特征维度是分段的数量对应的行或列的像素虹膜分割图像。他们的系统利用GP对回归和2.23°的准确性(组合)。

3.3。基于模型的方法

基于模型的目光中使用的模型估计方法大致分为两种:虹膜轮廓模型(也称为一个圆算法),椭圆拟合虹膜周围地区,和眼球模型,主要目标是估计眼球中心的位置。

3.3.1。虹膜轮廓模型

直接最小二乘方法拟合椭圆上的点的集合(69年)是影响虹膜目光估计轮廓模型的发展。这种方法,辅以环形虹膜边界的观察显示为一个椭圆在相机图像,使得一些视线跟踪技术的发展。

王等人。32,70年)开发一个圆算法,使用边缘检测发现像素属于虹膜边界,他们符合椭圆这组的位置。然后,椭圆back-projected 3 d空间寻找虹膜轮廓圆,和它的法向量作为凝视的向量。他们的系统平均误差约1°。

汉森和Pece [71年,72年]使用一个追踪虹膜边缘活动轮廓的方法随着时间的推移,和(可能)使用一个圆的方法,他们的系统估计的目光在4°准确性。

吴et al。73年)提出了一个扩展的two-circle算法,他们认为两只眼睛的虹膜椭圆轮廓躺在同一平面或3 d平行的平面上。这种假设,它们能够估计视线方向不需要相机校准。

黄等。74年)使用随机的脚腕转换为虹膜轮廓拟合,而张et al。75年提出一种改进的RANSAC算法。后者工作的报道,精度为0.8°在一个方向。

福田et al。76年]提出亚像素虹膜轮廓估计方法在低分辨率图像,实现综合平均误差为3.35°。穆罕默迪和Raie77年训练支持向量机(SVM)过滤掉无关的边缘部分应用椭圆拟合之前,产生3.48°的准确性。

木材和提高身价12)检测边缘属于虹膜图像的径向导数。拟合椭圆使用RANSAC方法后,目光估计的精度6.88°。

3.3.2。眼球模型

眼球模型技术试图推断出眼球中心位置和视线向量计算线连接虹膜中心的这一点。

石川et al。34)使用一个麦跟踪面对和使用眼睛的角落位置和面临的规模来推断用户的解剖常数(即。、眼睛几何)。这个校准是紧随其后的是虹膜模板匹配的检测和edge-based虹膜细化计算虹膜的中心。计算几何的目光的平均误差为3.2°。

吴et al。40)跟踪虹膜轮廓和眼睑的粒子滤波(PF)和使用几个外观指标来计算给定的粒子(候选人)的可能性。实验结果显示,平均误差大于3.5°。

谢和林78年]推断眼球中心的位置和其他个人使用一个简单的一个目标标定参数。他们计算的目光几何通过虹膜中心位置在图像和眼睛的角落,用2°精度在一个方向。

陈和霁(33)使用一个通用的脸模型,包括几个面部锚点(鼻孔,内外眼角落)和眼球中心之一。个人参数的校准后,他们追踪面部点和适应三维模型与2.7°精度估计的目光。

Yamazoe et al。19,79年眼图像像素分割成三个类:皮肤、巩膜和虹膜。利用分割结果,他们计算最可能的眼睛姿势通过最小化投影错误对于一个给定的候选人。系统报告的准确性在9°。

Reale et al。41)使用检测虹膜轮廓计算眼球中心,和校准后视觉axis-optical轴转变和眼球半径,他们估计视线方向。最后,最近的工作在这个类别是海曼et al。80年),采用典型相关分析(CCA)估计头部对批构成以类似的方式。在初始化期间他们校准眼球半径和估计虹膜中心使用分割方法。他们的系统5.64°的视线方向估计的准确性。

4所示。校准的策略

传统上,眼睛追踪器的校准包括要求主题看看几个已知的目标位置。这样,个人的参数(例如,视觉和光轴夹角的眼睛,眼球半径)或相机参数(如焦距、位置的显示)是习得的。

几篇文章中,我们分析这个工作出现的新技术使这个过程更容易使用跟踪器主题。Yamazoe et al。19,79年采用透明的校准过程,用户不需要知道。随着时间的推移他们跟踪面临构建三维模型的脸和眼睛,开始计算校准时的目光已经准备好了。Alnajar et al。50)使用其他用户的目光模式帮助估计当前用户的模式。Sugano et al。10)完全消除需要训练数据和估计的目光以概率的方式使用计算特点的地图。

另一种方法收集培训数据而无需特殊用户操作的是让用户正常操作这台电脑和取样在鼠标点击[13,46,47]。这种方法是基于假设用户看起来在点击时鼠标指针。

眼动跟踪头部运动构成挑战校准,甚至小运动可能会导致大的错误估计的校准跟踪。这对外貌的目光追踪者尤其适用。瓦伦蒂et al。56解决这个问题的重新定位目标校准目标的位置用户的新视野和校准系统。陆et al。7,29日)要求用户记录5秒钟视频剪辑移动时她/他的头和使用这些纠正错误引起的头部动作。谢和林78年)只需要一个目标校准,用户一直看着屏幕上的同一位置,将她/他的头。Zhang et al。13)采取一种方法基于大型数据集和使用他人的训练数据来校准更准确的追踪。

让用户校准过程透明和收集所需的大量的数据是两个相互矛盾的目标。为了使用全部可用的训练数据,威廉姆斯等人和梁等。11,14)使用部分标记数据和注释的一些自动标记样本。小野et al。45)创建新的样品通过添加变化而裁剪图片,这样他们就能模型产生的外观改变和弥补它搜索本地样本。陆et al。48,49)创建合成训练数据的建模眼睛周围的像素流,而Sugano et al。51)用8相机模型的大部分在3 d和从先前生成训练样本难以察觉的头部姿势。

5。处理头部姿势

基于模型的可见光目光跟踪方法通常是不变的头部动作,如果眼睛定位或模型拟合等预处理步骤不失败。然而,相同的并不持有的外貌和基于功能的系统。陆的et al。29日]表明,运动不仅增加了转移视线角,但也使校准无效的扭曲的眼外观外貌的方法。

天真的头部动作的解决这个问题的方法是添加更多的训练数据。阮et al。37,53]提出重复校准 倍,而赖et al。8)要求每个用户34000个训练样本。

Zhang et al。13)使用一个大型数据集以前收集的图像训练提出了追踪。从许多科目,训练数据收集可用于评估另一个人的目光。头部姿势不变性是通过将头部姿势角度特性集。

在其他方法46,47),multipose训练数据分组根据头部姿势,只有一个子集对应最相似的头部姿势用于主动校准。减少额外的训练数据,陆et al。48)综合生成训练样本对看不见的头部姿势。

而不是投入更多的数据系统,另一个选择是应用补偿或小补丁保持当前的校准工作。陆et al。63年提出一个眼影校准计划撤销这些图像的变形。在他们的其他作品7,29日),他们回归训练任务,结合头旋转补偿。

瓦伦蒂et al。56)保持校准目标和一个灵活的表示gdp8 %这些显示坐标时头部姿势改变和调整他们的系统。

张,彭18]假设PC-EC特性是完全不变的头部姿势,仅适用于旋转补偿系统。

6。可用的数据集

几篇文章中,我们分析了可见光的公开数据集包含一个总结目光跟踪(13,51,81年]。然而,他们大多为目的的比较提出了数据集的提到的工作,从而可能会缺少一些相关的信息。

在表2,我们汇集了所有这些作品中提到的数据集(有几个最近出版的增加),试图为未来的研究提供参考。

一个数据集(82年)引用了在前面的评论已被删除,因为它提供的数据头安装设置。

7所示。视线跟踪服务

在可见光的目光跟踪已成为一个热点话题在学术界近年来(可以观察到在图2),这个行业也不是落后同龄人。在这里,我们讨论一些公司已经提供的目光跟踪服务基于普通摄像机上发现消费设备。

GazeHawk [83年](现在关闭)使其客户转达远程眼动跟踪研究在用户的浏览器上。xlab [84年)是另一个类似的服务,也可以作为Chrome扩展。扩展,一些演示(包括连续校准蚂蚁了不起的游戏)可以尝试。最后,粘性(85年)还提供了一个基于javascript的服务,建议用例,如在线广告位置和网页优化。作为唯一的服务,详细的规范,他们的眼动跟踪提供了一个平均精度为2.4°。

其他可能的客户这种类型的眼动跟踪游戏或应用程序开发人员。SentiGaze [86年)针对Windows平台为开发者提供了一个SDK。FaceTrack从容貌技术(87年)为开发人员提供了一个类似的c++ SDK,增强现实技术,渲染视图控制游戏,视点相关建议尽可能的用例。SDK提供了详细信息,如口轮廓,下巴的姿势,和眼睛开放,除了目光信息。洞察力SDK (88年)需要进一步结合凝视信息与心情,年龄和性别的估计。

与从桌面程序过渡到移动应用近年来,两家公司在这个平台上看到视线跟踪的可能性。金鱼草(89年)为Android应用程序提供了一个SDK,而Umoove [90年)在iOS和Android平台上的产品。

8。开源项目

一些作品,我们分析本文已经发布了他们的源代码的开放源码许可。在本节中,我们列出这些选项,以便新项目在该领域将会有一个代码库的起点。表3显示了一个上市项目的总结。

Opengazer [91年从剑桥大学)是一个眼动跟踪,这是不幸的是不再维护。它使用高斯过程回归与眼睛图像的特性,这是类似于技术被阮et al。37]。NetGazer [92年是港Opengazer Windows平台,不再保持。

近年来,叉子Opengazer项目命名CVC眼动跟踪(93年),是由研究人员提供和维持积极从大学自治巴塞罗那。这个项目在我们的审查是两部作品分析的基础(9,30.]。

神经网络的眼动跟踪(NNET) [94年)是NN-based眼动跟踪实现iPad设备,提出了在两篇文章(43,44]。EyeTab [95年是平板电脑的另一个开源的代码库,它使用木材的虹膜轮廓描述基于模型的方法和提高身价12]。

最近,TurkerGaze项目(31日,96年)是可用在GitHub上。这个应用程序是完全使用JavaScript实现(JS),这使得它的平台独立的(有可能扩展到移动)。图书馆有一个抛光界面校准和验证,带有一个小应用程序分析凝视模式在实验中记录。虽然其拟议的使用面积,使众包眼动跟踪任务平台类似于亚马逊土耳其机器人,我们相信它会有更大的学术著作和基于web的应用程序的影响。

最后一个开源应用程序Camgaze [97年),这是写在Python和计算双目凝视估计。

9。摘要和结论

在这项工作中,我们试图提供一个审查状态的艺术在偏远,自然光凝视追踪器。虽然近年来许多伟大的作品被发表,和准确性差距达到infrared-based追踪器关闭,许多开放问题和未知的方法仍然存在。

除了准确性,这些追踪器的最大挑战(a)为用户降低校准痛苦和(b)允许自由头部动作。正如我们在前面的小节分析致力于这两个问题,最近现场目睹了令人惊叹的作品。一些开放的工作,我们已经确定了在这些领域如下:(我)维护个人的校准。大多数的我们分析需要某种形式的校准工作,无论是对个人参数为用户,为相机属性,或者只是培训凝视映射组件。虽然某些技术可能已经让它(没有显式地声明),重用的校准信息相同的用户仍悬而未决的后续会议广泛的分析。有了这样一个技术,校准之前每个会话完全可以简化或删除。(2)从其他用户使用校准数据。几个文件(尽管在探索13,50),我们相信训练数据的积累(或集合)从当前用户以外的人将获得更多的关注在未来几年。这类似于训练分类器或探测器在其他计算机视觉任务,它会让我们更好地利用我们已经开始建立的大型数据集。(3)其他收集数据的方法。收集校准样品每次用户点击鼠标使我们首次创建非常大的数据集(13,46,47]。尤其是基于javascript的眼睛追踪器的出现(31日),其他的可能性,比如远程众包数据收集将会出现。较大的数据最终会让我们探索以前不可能的想法,这一趋势在计算机视觉中很常见。

这些线的工作大多是在数据收集和校准的话题,他们会帮助解决的大数据需求培训不同的头部姿势。

最近的高性能技术(11,14,28,63年)使用的是基于特征的目光估计,显示这个类别的承诺在外观,或基于模型的方法。图2也显示了这个趋势,基于功能的增加能清晰观察方法。在以后的日子里,我们可能会看到更多类似的工作的例子,下面的焦点:(我)不同的特性。PC-EC向量,像素强度和颜色,和其他标准特性(如猪和LBP)已经使用到目前为止。新特性表征可能更适合手头的问题将大大提高跟踪精度。所需的这些特性的特征(一)不变性头部姿势,(b)不变性强度变化,和个人形象的差异(c)不变性。(2)迁移证明其他简历字段的想法。利用卷积神经网络(cnn) [13),特性,比如猪和枸杞多糖,一般的计算机视觉(CV)管道36正在改变我们的视线跟踪方法的问题。这些想法已经在其他领域的简历,我们相信我们的社区将继续转移观点被证明能对感冒生效的其他问题。

除了这些技术挑战和线条的工作,作为一个社会,我们最大的问题是有关透明度和让他人建立在我们的工作。

首先,只有很少的这些作品报告他们的准确性在公开的数据集或公布他们所使用的数据集。这是一个必须在其它计算机视觉领域,这样的结果可以比较和验证技术。此外,标准化的处理管道将立即跟随(这取决于训练数据结构),并将促进我们的进步。

我们的第二个问题是,只有少数工作使他们的源代码。这可以防止其他研究人员站在巨人的肩膀上和阻碍了我们的进展速度。我们相信,通过释放我们的源代码,我们可以创造更强的联系与合作。

总之,最近的工作的数量和质量的承诺和信号更快进步在未来几年。用这个地图当前状态的艺术,你持有你的手(或盯着通过电子显示),我们希望提供一个参考点,所有这些令人惊异的作品我们不能等待。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持西班牙语州长授予MICINN tin2009 - 10435和2010 MIPRCV Consolider大学。巴塞罗那自治大学拨款,谷歌教师奖。