研究文章|开放获取
Warapon Chinsatit Saitoh武, ”可穿戴的目光估计系统CNN-Based瞳孔中心检测”,应用计算智能和软计算, 卷。2017年, 文章的ID8718956, 10 页面, 2017年。 https://doi.org/10.1155/2017/8718956
可穿戴的目光估计系统CNN-Based瞳孔中心检测
文摘
本文提出一种基于卷积神经网络(CNN)——学生中心检测方法可穿戴的目光估计系统使用红外眼图像。潜在用户的眼睛的瞳孔中心位置可用于各种应用程序,如人机交互、医疗诊断、和心理研究。然而,用户倾向于频繁眨眼;因此,很难估计视线方向。该方法使用两个CNN模型。第一个CNN模型用于分类的眼睛状态,第二个是用来估计瞳孔中心位置。过滤器的分类模型图像闭着眼睛和终止目光估计过程当输入图像显示一个封闭的眼睛。此外,本文提出一种过程创建一个眼睛使用可穿戴相机图像数据集。这个数据集被用来评估该方法,有大约20000张照片和一个宽眼睛的变化状态。我们从不同的角度评估该方法。 The result shows that the proposed method obtained good accuracy and has the potential for application in wearable device-based gaze estimation.
1。介绍
人们通过人类视觉系统获取各种信息。通过观察的眼睛,我们可以观察瞳孔大小的变化,眼睛的方向,和眼睛状态改变,例如,打开,关闭,闪烁,哭了起来。这个信息可以用来估计情感,特征,或利益。图像处理分析的眼睛,眼睛是一个重要的任务,和可穿戴的摄像机和录音设备的发展和可用性眼图像处理,包括目光估计,越来越受欢迎。
目光估算系统(GES)涉及多个摄像头,这样的系统可以估计视线方向和用户看什么。因此,斯如是说可以估计对象的利益。一种类型的电气使用一种由内到外的相机1,2),它是由一个摄像头和一个场景。用户的眼睛相机捕捉影像的眼睛。这样的手势检测瞳孔中心和地图的场景图像。最近,斯如是说已使用在各种应用程序中,如视频摘要(3),日常活动识别(4)、阅读(5),人机接口(6),和通信支持(7]。
很难检测瞳孔中心,因为眼睛是一个非刚性的对象,用户经常眨眼,眼睑和睫毛可以挡住学生。此外,虹膜有各种各样的颜色,比如蓝色,棕色和黑色。然而,当使用一个红外摄像机捕捉的眼睛图片,虹膜会淡出,这使得学生更清晰。这种方法使得图像容易处理。然而,闪烁的仍然是有问题的,因为很难检测瞳孔中心点当用户眨眼。因此,视线方向可能发生错误。
本研究着重于利用红外眼瞳孔中心检测图像提出了一种可穿戴由内而外相机捕捉到准确的检测方法,它使用一个卷积神经网络(CNN)。该方法由两个CNN模型。第一个决定是否可以检测学生在一个输入图像。第二个CNN模型检测输入眼睛瞳孔中心的形象。这个模型输出瞳孔中心- - -坐标。我们评估该方法使用一个数据集红外眼图像被由内而外的相机。结果表明,该方法精度高于其他方法。
通常,cnn使用监督学习训练;因此,他们需要大量的训练数据集。有一些公共数据集的眼睛图片(8,9];然而,这样的数据集一般不包括图像眨眼睛的状态。我们描述一个过程来捕捉一个足够大的图像数据集具有良好的分布和各种各样的眼睛瞳孔位置和状态。
2。相关研究
几项研究都集中在基于眼图像特征点检测(10- - - - - -13]。李等人提出了一个混合眼球追踪方法,集成了基于特征和基于模型的方法10]。他们使用廉价头盔摄像头拍摄到的眼部图像。他们的方法检测瞳孔边缘点和利用椭圆拟合估计学生中心。郑等人提出了一个算法来检测特征点,包括瞳孔中心和半径,眼角落,眼睑轮廓(11]。本森山等人开发了一个生成眼睛区域模型能够一丝不苟地表示详细的外观眼睛眼睛区域的运动跟踪(12]。Chinsatit Saitoh提出了一个快速和精确的眼睛检测方法使用梯度值(13]。然而,如果眼睛图像包含意想不到的对象具有高梯度或强度,如睫毛膏的睫毛或高光点,这些方法很难检测学生。
cnn比传统的算法在不同的研究领域,如人工智能、图像分类和音频处理。张等人提出了一个CNN-based目光估计方法在无约束的日常生活(8]。方法,输入数据是一个眼影和2 d头角度,和输出是一个2 d注视角度向量包含两个视线角,偏航和俯仰。Fuhl等人提出了基于图像的瞳孔检测双重CNN管道(14]。这里,输入是一个眼影,输出估计瞳孔中心位置。在第一个管道阶段,一个输入图像缩减规模和分为重叠的条件。由第一个浅粗瞳孔位置估计CNN。在第二阶段,亚区周围的初始估计使用第二个CNN,评估和最终检测到瞳孔中心位置。蔡等人提出了一项CNN模型分类司机凝视区(15]。这里输入图像是一个眼影,输出的概率是九凝视区。如前所述,大多数相关研究采用cnn试图检测学生的中心点。
本研究的目的是将该方法应用到一个充电器。该方法适用于日常生活;因此,它必须是强大的,因为它并不总是可能的检测瞳孔中心位置,例如,当眼睑覆盖瞳孔闪烁。该方法由两个CNN模型。第一个模型分类的输入图像,如图1。第二个模型运行在一个回归模式(16,17]。总的来说,这个CNN模型输出- - -学生中心的坐标点。
(一)该方法
(b)该方法b
3所示。该方法
CNN是由一个卷积层和一个完全连接层。通常,完全连接层前馈神经网络。输入数据之间的有效层和完全连接层是卷积层,用于检测输入数据的显著特征点之前发送给完全连接层。如果卷积层不能检测目标特征点,输入0到完全连接层。在这种情况下,完全连接层只输出每一层的偏见影响。换句话说,CNN输出值不管输入数据的质量。我们雇佣了一个CNN模型对输入数据进行分类之前发送给检测模型。
我们描述下面的分类和检测模型。
3.1。分类模型
有各种CNN分类模型,每个模型都有特定的特性。AlexNet [18)是一个著名的模型分类任务。我们选择这个模型对眼睛状态进行分类。我们定义三个州在眼图像;也就是说,图像显示了学生作为一个完整的循环(打开状态),眼睑覆盖学生(介质状态),和没有学生从图中看出(关闭状态)。
一些研究已经使用一个单独的CNN模型来执行特定的任务。例如,太阳等人创建了多个模型检测每个功能点(16]。我们也建议使用两种方法,我们称之为方法A和b方法,我们创建一个CNN模型分类输入图像作为开放,中、眼睛或关闭状态,如图1(一)。对于媒介和开放的眼睛图片,我们创建两个CNN回归模型来检测每个图像的特征点类型。方法的分类和回归模型的细节表中列出1(第1行)。如果输入图像是一个开放的眼睛图像,它将被发送到一个CNN模型训练只使用开放的眼睛图片。同样,如果输入图像中眼睛图像发送到CNN模型训练只使用中等眼睛图像。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
拟议的CNN模型可以解决多个问题。注意,大多数以前的研究采用端到端的CNN模型来解决多个问题。我们使用方法B(表1第2行)分类输入图像关闭或(即非闭眼睛。,打开眼睛和中等眼睛图像,分别)。这个分类模型只选择非闭眼睛图片和发送这些图像使用非闭眼睛向CNN训练图像,如图1 (b)。请注意,我们比较两种方法的性能。
必须定义代价函数训练前CNN。培训过程试图最小化代价函数。在拟议的CNN分类模型中,我们使用的均值误差的平方和作为代价函数,这是表示如下: 在哪里是一个估计输出 , 是一个标签 ,和是输出分类结果的数量。
3.2。回归模型
拟议的CNN回归模型(表1,行3)是基于回归事先(17),由五个卷积层和三个完全连接层。卷积层的集合是紧随其后的是池和当地反应正常化层,和完全连接层使用辍学正规化。所有隐藏的重量层使用整流激活(即。,ReLU)函数。大多数CNN架构对象定位使用五卷积层(17,19- - - - - -21]。不同姿势回归事先和拟议的回归模型是归一化层。事先有一个归一化层最后卷积后层(Conv5)。然而,在初步试验中,我们发现,训练数据集使用眼影不收敛时最后卷积后的归一化层是应用层。因此,我们不使用这个架构。这种差异也适用于完全连接层。在我们的架构中,我们使用本地反应正常化(18]Conv1和使用2正常化完全连接层。2规范化定义如下: 在哪里输入节点的索引,在节点是输入的数据吗 , 标准化过程的输出节点吗 ,和层是数据元素的数量。这个正常化过程需要训练收敛。
我们删除激活函数的输出值线性的。提出了CNN的输入是一个眼图像( 像素)。误差函数CNN的回归模型定义如下: 这个函数是地面真值之间的距离和估计点 。
4所示。实验
4.1。数据集
CNN是一种监督式学习的方法,需要一个大型数据集训练模型。此外,各种地面真理必须使模型更加准确。MPIIGaze [8)是一个著名的眼科图像数据集由内侧眼角、外眦,学生分。然而,学生分不中心分。手势,瞳孔中心点是需要计算视线方向。在这项研究中,我们开发了一个系统来捕捉数据集以适当的变化和可靠性使用一种由内到外的相机(2]。
我们需要一个数据集,其中包含眨眼睛图像测试的性能提出了CNN的方法。因此,我们必须设计一个系统来捕捉多个眼图像在适当的条件下。注意,瞳孔的中心的地位取决于视线方向。创建数据集,实验对象戴上一个由内而外相机和观察一个标志显示在监视器。接下来,系统从眼摄像头捕捉图像。我们设计了一个额外的过程,确保主题集中在标记位置。这个捕获系统选择一个箭头(起来,下来,和左)随机和显示它的中心标记。受试者负责按对应的箭头键。我们要求受试者眨眼前大约5次按下键。如果按正确的关键主题,捕捉系统保存图像数据集。 This process improved the variation of eye images in the dataset. The image collection environment is shown in Figure2。数据收集过程的细节描述如下:(我)为这个实验中,我们使用了一个24英寸宽屏显示器和主题之间的距离显示60厘米。我们捕获的图像数据集在一个房间里有足够的光来自自然和荧光光源。(2)我们把显示区域划分为49 分别部分和显示部分的标记。首先,我们洗牌的顺序标记位置,为了使不可预测的位置。主题必须凝视无需移动磁头的标志。(3)然后,用户被要求眨眼约5倍。接下来,按主题相对应的方向键箭头所示的中心标记。capture程序存储20眼图像捕获大约一秒钟前压的关键主题。眼睛图片保存后,自动标记转移到下一个位置。这个过程重复了49次收集 眼睛图像。
收集所有的眼睛图片后,我们手工注释瞳孔中心位置由一个人避免错误的分类由多个人员。我们分类眼睛图像分为三类:开放、媒介,闭上眼睛。每一个类描述如下:(我)开放的眼睛图像清晰地显示了瞳孔的边缘,这使得它容易估计瞳孔中心位置。(2)一个中等眼睛图像显示了眼睑覆盖在一些学生的一部分,这使得它很难估计学生的位置。(3)闭眼睛的图片显示的是没有学生,这使得它不可能估计瞳孔位置。
图3展示了样例眼部图像。十个科目(七雄(a) - (g);三个女性(h) - (j))参与,收集和19600眼图像。所有受试者一般的,不戴眼镜。这个数据集有6526开眼睛的图片,6234中眼睛图像和6840闭上眼睛图像。
瞳孔中心位置的分布在我们的数据集如图4。开放的分布、介质和闭上眼睛图像数据所示4 (b),4 (c),4 (d),分别。这些分布表明,图像类型的数量是每个部分大致相等。注意,瞳孔中心位置是手工注释。媒介和闭上眼睛图像,准确的瞳孔中心位置是未知的。我们假设学生不移动在闪烁;因此,我们使用相同的注释点从先前的睁眼图像帧,如图5,红点显示了人工注释地面实况。在帧1和2,眼睛是开放和容易注释。然而,在帧三到五,眼睛是在中或关闭状态;因此,对于这些图像,我们使用地面真理从坐标系两种。
(一)所有图片
(b)打开眼睛的形象
(c)中眼睛的形象
(d)闭眼睛的形象
4.2。分类评价
我们评估使用分析交叉验证的分类问题。我们使用使用ImageNet pretraining模型训练数据集(22为了避免过度拟合。结果从pretraining模型比没有pretraining模型。模型的分类结果如表所示2(一个)。该模型的准确性 。这个结果表明,闭上眼睛图像的精度大于其他的类。一些图像的分类如图失败6。中等的眼睛的准确性()小于其他类因为一些中等的眼睛图片很难分类,如图6 (c)和6 (d)。然而,这种程度的准确性是合理的。
| (一)分类结果的方法 | |||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||
| (b)分类方法B的结果 | |||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||
(一)标签:开放的眼睛;预测:中等眼睛
(b)标签:开放的眼睛;预测:闭上眼睛
(c)标签:中等;预测:打开眼睛
(d)标签:中等;预测:闭上眼睛
(e)标签:闭上眼睛;预测:中等眼睛
接下来,我们创建了一个模型来分类两类方法B,我们称之为B分类模型。该模型旨在关闭和非闭眼睛图像进行分类。训练模型B,我们随机选择非闭眼图像中眼睛和开放的图像,以确保非闭眼睛图像的数量是一样的闭上眼睛图像。这个模型的分类结果如表所示2(b)。该模型的整体精度 ,和非闭和闭眼睛图像的准确性和 ,分别。这表明B模型的分类精度优于模型a关闭分类和非闭眼睛的图像比这样做容易的三个类的眼睛只因为分类模型B分类两类图像,使精度分类模型相比,a。然而,所有提出的分类模型被设计来确定输入图像的检测瞳孔中心位置是不可能的。因此,两种分类模型可以识别眼睛图像有效地关闭。
4.3。回归模型的评估
我们使用分析交叉验证对回归模型进行评估。与分类模型中,我们使用模型pretrained使用ImageNet数据集[22]在训练数据集与我们的眼睛。作为讨论的部分3回归模型的输入是一个眼影选择分类模型。回归模型,我们必须使用手动标注训练和评估模型眼图像;我们叫的方法和 。回归模型的使用方法培训和在回归模型集成到CNN分类模型。接下来,我们评估的估计点使用一个图像分类模型(A和B)方法。方法A和CNN回归模型来估计有两个瞳孔中心位置在特定的输入图像(开放和中等眼睛图像)。平均误差如表所示3。
|
|||||||||||||||||||||||||||||||||||||||||||||
方法和分类模型的情况是100%的准确率。然而,当我们试图检测瞳孔的位置在图像分类的CNN分类模型(A和B方法),平均误差有点高。接下来,我们提出的方法相比CNN没有分类模型,我们称为简单的CNN。这个模型架构是一样的回归模型的方法和我们训练该模型使用所有眼部图像数据集。图7显示的平均错误方法A和B是比那些没有分类模型的回归模型。此外,我们比较该方法与其他知名cnn用于特征点检测研究(太阳et al。16];Zhang et al。23])。太阳等人提出了多个CNN模型检测面部特征点。张等人提出了而且Auto-Encoder网络,用于检测多个面部特征点。我们训练模型相比,在相同条件下的简单的CNN。获得的结果表明,该简单的CNN模型良好的精度比其他模型。
数据8和9显示样本结果估计方法获得的点a,绿色的点估计学生点,蓝色的点是地面真理从我们的数据集。可以看到,这些点是非常准确的,估计点几乎覆盖地面的真相。然而,对于一些困难的图像显示了学生的一小部分,CNN生成更多的错误,如图10。
5。讨论
我们简单的CNN模型相比,该方法。我们还比较了不同方法之间的影响和方法b方法和表示方法A和B分类模型实现准确性。结果如图7表明的成功率的方法比这更好的方法吗 。这个结果证明当我们允许CNN模型学习一个特定的问题,该模型可以获得更好的结果比单一模型。然而,当我们使用一个输入图像从CNN的分类、方法的成功率略小于方法B是因为B方法的分类精度优于方法A .当我们考虑的难度分类问题,分类非闭和闭眼睛的图像比分类容易眼睛州(即三个类。、开放、媒介和关闭)。单一回归模型(方法B)被训练使用两种类型的图像(开放和介质)。方法B有鲁棒性相对于分类错误与方法。
然而,这两个模型的成功率优于CNN模型(即没有分类模型。相比,简单的CNN)和模型。图11显示了该方法的成功率。这些结果成功图像相比,失败的比率图像时地面实况和估计点之间的距离小于误差距离。当错误的距离大于四个像素,A和B方法的成功率大于 。这表明,该方法具有应用潜力的目光估计任务。
6。结论
本文提出了方法使用CNN模型检测瞳孔中心位置。我们专注于基于摄像头可穿戴。当使用手势在日常生活中,有时是不可能检测到从眼部图像瞳孔中心位置;因此,本文认为避免这种情况,例如,当闪烁掩盖了学生。监督学习的CNN,数据集所需的特定特性,即有效的品种,适当分布的图像类型,和足够的大量的数据,使培训过程的成功。因此,我们创建了一个捕获系统构建一个原始数据集。这个原始数据集提供了关闭,打开,介质眼睛图像具有良好的分布。使用pretrained模型,数据集包含大约20000的图片,这是足以CNN模型有效地训练。
拟议的CNN方法两部分。第一个是CNN模型,用于分类的眼睛状态,,另一个是CNN回归模型,检测瞳孔中心位置。结果表明,该CNN模型有可能眼睛状态进行分类。此外,瞳孔检测的准确性优于简单的CNN模型。
的利益冲突
作者宣称没有利益冲突有关的出版。
引用
- h . Fujiyoshi y Goto, m .木村,“由内而外相机获取3 d注视点,”诉讼在诉讼的自我中心研讨会(第一人称)结合CVPR愿景,2012年。视图:谷歌学术搜索
- j . Iwagami和t . Saitoh容易校准目光估计使用由内而外的相机,”《20韩日联合车间在诉讼领域的计算机视觉(FCV2014),第297 - 292页,2014年。视图:谷歌学术搜索
- j .徐l·慕克吉y, j·华纳,j . m . Rehg诉辛格,“Gaze-enabled通过约束子模块最大化,以自我为中心的视频摘要”《IEEE计算机视觉与模式识别会议,CVPR 2015美国,页2235 - 2244年,2015年6月。视图:出版商的网站|谷歌学术搜索
- h . Pirsiavash和d . Ramanan检测活动的日常生活在第一人称相机视图”学报2012年IEEE计算机视觉与模式识别会议,CVPR 2012美国,页2847 - 2854年,2012年6月。视图:出版商的网站|谷歌学术搜索
- A . Mazzei, s . Eivazi y Marko, f·卡普兰,p . Dillenbourg,“3 d模型的目光自然阅读:估计系统误差校正过程基于注释文本,”《8眼动跟踪研究与应用研讨会上,ETRA 2014美国,页87 - 90,2014年3月。视图:出版商的网站|谷歌学术搜索
- A . Kiyohiko n . Yasuhiro o . Shoichi, o . Minoru”使用人眼鼠标操作输入的支持系统,”IEEJ交易电子、信息和系统,卷129,不。9日,11 - 1713、2009页。视图:出版商的网站|谷歌学术搜索
- 涩谷m . w . Chinsatit, k . Kawada, t . Saitoh“使用目光估计,字符输入系统”程序在程序的通信系统和计算机应用科学国际会议(CSCAS2016),2016年。视图:谷歌学术搜索
- 张x, y Sugano、m·弗里茨和提高身价,“外貌的目光估计在野外,”《IEEE计算机视觉与模式识别会议(CVPR 15),页4511 - 4520,波士顿,质量,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
- y y Sugano,松下,佐藤y“Learning-by-synthesis外貌的3 d目光估计,”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)IEEE,页1821 - 1828年,哥伦布,俄亥俄州,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
- d·李·d·温菲尔德,d .潘克赫斯特”的亮光:视频眼睛跟踪相结合的混合算法基于特征和基于模型的方法,”2005年IEEE计算机学会学报计算机视觉和模式识别会议(CVPR 05)——车间,页79 - 79,圣地亚哥,加利福尼亚州,美国。视图:出版商的网站|谷歌学术搜索
- z郑,j·杨,杨l .,”一个健壮的眼睛在彩色图像特征提取的方法,”模式识别的字母,26卷,不。14日,第2261 - 2252页,2005年。视图:出版商的网站|谷歌学术搜索
- t·本森山t·金、j·肖和j·f·科恩,“一丝不苟地详细的眼部区域模型及其应用分析的面部图像,”IEEE模式分析与机器智能,28卷,不。5,738 - 752年,2006页。视图:出版商的网站|谷歌学术搜索
- w . Chinsatit和t . Saitoh眼睛检测利用梯度值可穿戴的目光估计系统的性能改善,”IEICE技术报告115年,没有。456年,2016年,页149 - 154。视图:谷歌学术搜索
- w·Fuhl t Santini、g . Kasneci和e . Kasneci”Pupilnet:卷积神经网络强大的瞳孔检测,”计算研究库(CoRR),2016,https://arxiv.org/abs/1601.04902。视图:谷歌学术搜索
- I.-H。崔s . k .香港,Y.-G。金”,驾驶员的注视区域使用的实时分类深度学习技术,”《大数据和智能计算国际会议上,BigComp 2016,页143 - 148,中国,2016年1月。视图:出版商的网站|谷歌学术搜索
- x y太阳,小王,x唐“卷积网络级联面部点检测,”学报》第26届IEEE计算机视觉与模式识别会议(CVPR 13)IEEE,页3476 - 3483年,波特兰,矿石,美国,2013年6月。视图:出版商的网站|谷歌学术搜索
- t·费斯k . Simonyan j·查尔斯,a . Zisserman“深卷积神经网络有效的姿势估计姿态的视频中,“课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言卷,9003年,第552 - 538页,2015年。视图:出版商的网站|谷歌学术搜索
- a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12)太浩湖,页1097 - 1105年,内华达州,美国,2012年12月。视图:谷歌学术搜索
- p . Sermanet d特征,x, m·马蒂厄·r·费格斯,和y LeCun (“Overfeat:综合识别、定位和检测使用卷积网络”程序在程序的学习国际会议上表示(ICLR2014),2014年。视图:谷歌学术搜索
- m . Oquab l . Bottou。拉普帖夫海,j . Sivic“学习使用卷积神经网络和传输图像中层表示,”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)IEEE,页1717 - 1724年,哥伦布,俄亥俄州,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
- m . Oquab l . Bottou拉普帖夫海,和j . Sivic”对象定位免费吗?与卷积神经网络——Weakly-supervised学习,”《IEEE计算机视觉与模式识别会议,CVPR 20152015年6月,页685 - 694。视图:出版商的网站|谷歌学术搜索
- o . Russakovsky j .邓·h·苏et al .,“ImageNet大规模视觉识别的挑战。”国际计算机视觉杂志》上,卷115,不。3、211 - 252年,2015页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . Zhang s, m .菅直人和x陈,“而且Auto-encoder网络(CFAN)实时脸对齐,“课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言,卷8690,不。2、硕士论文,2014页。视图:出版商的网站|谷歌学术搜索
版权
版权©2017 Warapon Chinsatit Saitoh武。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。