研究文章|开放获取
本·李,香港富, ”实时的眼睛与级联卷积神经网络检测器”,应用计算智能和软计算, 卷。2018年, 文章的ID1439312, 8 页面, 2018年。 https://doi.org/10.1155/2018/1439312
实时的眼睛与级联卷积神经网络检测器
文摘
一个准确和高效的眼睛探测器是许多计算机视觉应用程序所必需的。在本文中,我们提出一个有效的方法来评估眼睛位置从面部图像。首先,一组候选区域与区域极端点迅速提出;然后,一组采用卷积神经网络(cnn)来确定最可能的眼睛区域和分类区域向左或向右眼睛;最后,眼睛的中心位于与其他cnn。在实验中使用GI4E BioID,我们的数据集,我们的方法获得的检测精度与现有最先进的方法;与此同时,我们的方法更快、适应变化的图像,包括外部灯光变化,面部遮挡、图像形态的变化。
1。介绍
近年来,眼睛检测已成为计算机视觉和模式识别中的一个重要研究课题(1,2),因为人眼的位置是至关重要的信息对于许多应用程序,包括心理分析、面部表情识别、辅助驾驶、和医疗诊断3]。然而,眼睛检测在许多实际应用很有挑战性。相机对光线变化和射击距离敏感,这使得人类的眼睛非常古怪的面部图像。有时面对部分堵塞,我们不能获得一个完整的面部图像。例如,半遮着脸的覆盖测试检测斜视的眼睛(4]。在这种情况下,一些现有的眼睛检测方法不工作,因为他们依赖于面部模型检测定位眼睛。眼睛探测器预计也将适用于各种图像模式,也就是说,红外和可见图像。此外,眼睛应该快速检测算法,因为它在许多实际情况下应该是在线。尽管提出了许多方法来检测眼睛的面部图像,很难找到一个方法,表现良好的准确性、鲁棒性和效率。因此,我们正试图开发一个高效和健壮的眼睛检测算法来满足应用程序的需求尽可能多。
本文的其余部分组织如下。在相关工作,审查相关的工作。在该方法中,我们提出了一个高效的眼睛检测的方法,由候选人地区一代,眼睛区域确定和分类、定位和眼睛的中心。然后,培训计划、评估结果和讨论提出了培训计划,评估,和进一步的讨论。最后,结论的话在上一节。
2。相关工作
许多算法已经提出了基于图像的检测。这些可以概括分为两类,即传统眼探测器和机器学习眼探测器。
传统眼探测器通常根据眼睛的几何特征设计。这些眼睛探测器可分为两个子类。第一个子类是几何模型。Gevers瓦伦蒂,(5)使用了等照度线的曲率为眼睛和学生设计一个投票系统本地化。Markušet al。6)提出了一个眼睛的瞳孔定位方法基于随机回归树的合奏。蒂姆和巴斯7)提出了利用图像梯度和方点产品检测学生。第二个子类是模板匹配。RANSAC (8)方法被用来创建一个椭圆方程适合学生中心。Araujo et al。9)描述了一个探测器眼睛定位基于内积相关性过滤器。传统的眼睛探测器有时可以取得良好的成果,但是他们很容易失败当外部光线的变化,否则将面临闭塞。
机器学习眼睛探测器也可以进一步划分为两个子类。第一个子类是传统特征提取之后,一个级联分类器。陈和刘10)应用Haar小波变换和支持向量机(SVM)的快速分类。沙玛和Savakis11]提出面向学习的柱状图的梯度(猪)特性结合支持向量机分类器获得一个有效的检测器。狮子座et al。12,13)自相似性信息结合形态分析用于眼科中心检测。基于几何特征的约束和神经分类器来检测眼睛区域,提出了在14]。郭台铭et al。15)建立了一个级联回归框架,同时眼睛定位和眼睛的状态估计。金等。16]提出了生成眼虹膜候选区域,利用多尺度形状特征,然后验证这些候选人地区使用猪和细胞平均强度特性。随着深度的流行学习算法(17),一些研究人员使用卷积神经网络训练眼探测器,形成第二个子类。Chinsatit和Saitoh18]CNN-based瞳孔中心检测方法。在Fuhl [19)研究、粗到细的瞳孔位置识别进行了使用两个类似卷积神经网络和作者提出的条件从缩减规模输入图像到减少计算成本。阿莫斯et al。20.训练一个面部里程碑式探测器使用68 12表面特征点描述模型特征点描述眼睛轮廓。基于深度学习的方法显示高鲁棒性和检测精度与传统方法相比。然而,效率仍然是一个问题。面部图像通常比 。这需要大量的计算机资源,如果cnn必须执行一个全球搜索图像的。快速而有效的方法是必要的,提出候选人等地区,只有选中的候选人地区被送入cnn。
除了眼睛区域的决心,左/右眼睛的分类和眼科中心的定位也很重要对于某些应用程序,如眼球跟踪系统和眼部疾病检测。然而,大多数现有的眼睛探测器不能有效确定眼睛区域,区分左边或右边的眼睛,在一轮检测眼睛的中心。因此,我们的目标是提出一种新的方法,该方法克服了现有方法的缺点。
3所示。方法
该方法的总体工作流程如图1。在第一步中,我们计算了当地极端点和完整的面部图像的梯度值;然后眼睛候选区域数量很快被生成,以这些特征点为中心。在第二步中,这些候选人眼睛区域被第一组cnn评估来确定眼睛区域和眼睛类(左或右)。在第三步,第二cnn被用来定位眼科中心。在下面几节中,我们将详细介绍每一个步骤和cnn结构。
3.1。候选人地区代
直接使用cnn高分辨率的面部图像(例如, )需要大量的计算资源。为了减少时间消耗,一些现有的方法(15,16)使用中提琴和琼斯的人脸检测器(21)检测区域。然而,由于光线的变化,闭塞,和其他因素,有时面对探测器不能检测到人脸区域准确。这将直接影响眼睛检测算法的准确性。GI4E BioID人脸检测率,和我们的数据是97.5%,99.4%15)和38.6%(只有脸的上半部分是拍摄的图像数据集,如图6 (c);这些图像中的人脸检测失败),分别。这就是为什么我们避免使用人脸检测,虽然有助于减少候选区域的数量。因此,我们需要迅速提出有效的眼睛候选区域,可以显著减少搜索空间的准确的眼睛位置。在我们的观察中,我们发现瞳孔和虹膜比其他地方的眼睛。当地的极端点的位置在图像更容易的中心位置的眼睛。为了找到这些极端点,我们面部图像卷积 有三个不同方差的高斯内核获得高斯图像 。每个像素的 与它的 邻域像素 , 。如果像素 最大或最小的社区,其局部梯度值 计算如下: 在哪里 高斯核函数的卷积,面部形象。
我们选择最极端点的最大梯度值作为候选特征点。参数的选择将讨论详细的培训计划。我们的目标是确保候选区域可以完全覆盖眼睛区域,使候选特征点的数量尽可能小。然后,我们生成的三种不同大小的候选人眼睛区域 集中在每个候选特征点 眼睛区域,确保生成的候选人可以完全覆盖眼睛区域,如图2。
3.2。眼睛区域确定和分类
生成候选眼睛区域后,我们旨在开发一种方法,可以快速地预测眼位置和分类的眼睛,左眼或右眼。我们开发了一套卷积神经网络(cnn)数据集的有效利用。我们第一组cnn的核心架构总结在图3。与不同尺度的自我们生成的候选区域,三个不同的标签候选人地区分别输入到CNN模型。
在我们第一组cnn,三个sub-CNNs建造和每一个有相同的结构。在每个sub-CNNs,第一层是一个卷积层与内核5×5像素的大小,两个像素的进步,和一个填充,卷积层随后最大池层窗口大小为3×3和两个像素的进步。第二层是一个卷积层与内核3×3像素的大小,一个像素步,一个填充,没有池层。第三层是类似于第一层,除了卷积核的大小是3×3像素。通过三个阶段的卷积和池中,卷积层边缘,眼睛的结构,和其他基本特性,池层帮助网络健壮的细节的变化。接下来,我们使用完全连接(FC)层结合更深层次的知识和生成最终的区域标签和每个候选区域的信心指数。最后,我们选择候选人地区最大指数作为眼睛的区域,根据区域标签分类左边或者右边的眼睛。然后,我们使用这个区域的坐标和恢复它原来的面部图像。cnn的权重都是基于ImageNet的初始化(22微调重量值,这将帮助我们训练网络更快的收敛和获得良好的实验结果。
3.3。眼科中心定位
尽管第一组cnn输出眼睛区域和眼睛类(左或右),它仍然缺乏精确定位眼睛的中心。现有的眼睛探测器通常治疗眼睛的中心地区的中心,这是不准确的,如果话题不是straightwards看。某些情况下,如图4。
找到实际的眼科中心,我们建立了第二组定位瞳孔区域的cnn的眼睛区域。第二cnn的体系结构如图5。第一组cnn相比,第二网络的结构相对比较简单。它由一个卷积层,平均池层,一个完全连接层,和一个物流感知器。这组的输入眼睛区域cnn取决于第一个cnn的输出。其他层的大小并相应地调整,和我们选择瞳孔的中心地区的中心。
(一)
(b)
(c)
4所示。培训计划
4.1。数据集
在我们的实验中,我们使用GI4E [23)公共数据集,其中包含103年与1236年测试对象可见面部图像和BioID [24)的数据集,包括1521年额脸图像显著变化照明和头部姿势。此外,我们建立我们自己的红外/可见光面部图像数据集来自42个受试者经历斜视时检查。在这次考试中,我们随机覆盖他们的左边或右边的眼睛检查,如果他们有斜视。对于每个问题,我们收集了20个面部图像具有不同瞳孔位置。这种变化让我们培养健壮的模型,广义的新面孔。一些图像样本如图6。图像分辨率是 , , 像素。
4.2。特征点的选择
在我们的工作中,我们设置 , 和 。为了提高搜索效率,我们只选择顶部候选特征点。我们设置100、150、200、250和300年,计算图像的百分比至少有一个有效的特征点,如表所示1(这里“一个有效的特征点”意味着该地区集中在这一点上是一个真正的眼睛地区)。我们可以发现,当 ,96%的图像数据集至少有一个有效的特征点。此外,有效的图像的数量并没有明显增加增加。因此,我们选择了最高200点的最大梯度值的候选特征点。
|
||||||||||||||||||||||||||||||
4.3。培训
对于每个选定的候选点,我们生成的三个候选框如图7。在我们的算法中,提出候选人盒子的尺寸15×30、30×60和40×80,分别以确保眼睛完全由至少一个候选区域。我们手动标记左眼或右眼地区每一个形象 。这些区域被用作积极的训练样本。产生更多的训练样本,我们评估了重叠区域候选人之间的区域和 。如果大于一个阈值这眼睛是左眼,我们作为标签1标志着这个地区。如果大于一个阈值这眼睛是右眼,标志着这个地区,标签2所示。如果小于一个阈值,我们这个地区明显标签0。
接下来,我们将标记区域为第一组cnn,导致三大股指在0和1之间,如图7。这些索引代表cnn的信心,盒内的眼睛是候选人。因此,候选框指数最高的地区被选为眼睛。然后这个眼睛区域送入cnn的第二组输出准确的眼科中心。我们使用全球眼内搜索区域提高眼科中心检测的准确性。
5。评价
评估我们的方法进行一个英特尔(R)的核心(TM) i5 - 6600台式电脑16 GB的RAM和NVIDIA GeForce 745 GTX GPU。这个算法是使用MATLAB实现(R2016a)。在评估期间,两个阶段分别讨论了级联cnn的输出。我们评估我们的方法GI4E, BioID,我们的面部数据集。我们随机将数据集分成两个部分为cnn的训练和测试。
5.1。眼睛检测和分类
图8显示了一些定性结果眼睛的区域检测和分类由我们提出1套cnn输出和阿莫斯et al。20.)方法。阿摩司等人的方法依赖于人脸检测定位眼睛。它工作得很好,当整个脸是包含在图像。然而,它失败了,如果脸被挡住,例如,最后的形象。相反,我们的方法是有效的,即使面临被挡住。这证明我们的方法能成功地检测到眼睛位置即使面对不能被检测到。
测量眼分类和检测能力,我们定义归一化误差 在哪里和之间的欧几里得距离地面真理和计算左右眼睛的位置,然后呢之间的欧几里得距离地面实况的左派和右派的眼睛。我们将我们的方法与先进的方法已经应用于BioID离散数据集 处理一个图像和测量的平均时间。
该方法之间的比较和最先进的方法提出了表2。注意,当 ,我们的方法(85.6%)不执行以及瓦伦蒂Gevers (86.1%)、Araujo et al .(88.3%),和郭台铭et al .(91.2%)方法。然而,我们的方法不需要集群和健壮的即使测试人员戴眼镜。我们的算法比Gevers瓦伦蒂,稳定和Araujo等的方法。在郭台铭等的方法,图像不是考虑如果面对探测器不定位的脸。相反,我们所有的图像数据集上运行我们的方法。当 ,我们的检测精度(99.5%)与蒂姆和巴斯(99.7%)、Markušet al .(99.7%),和郭台铭et al .(99.8%)方法,但Markuš方法还依赖于人脸检测的准确性。虽然狮子座等的方法不需要人脸检测,对于眼镜反射和特殊的头部姿势,检测精度和效率较低。此外,我们的方法大大减少计算复杂度和达到最佳性能迄今为止处理一个图像女士(13)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
表明我们不能测量处理时间。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.2。眼科中心定位
图9显示了一些眼睛检测的结果、分类和眼科中心定位的方法GI4E, BioID,和我们的数据集,在蓝色的矩形代表了右眼,橙色的矩形表示左眼区域,和红十字会显示了估计的眼科中心。尽管戴眼镜的主题是,我们仍然可以级联cnn估计眼睛位置。
图10报道一些面部图像的数据集,该方法在检测失败,分类的眼睛,或眼科中心估计。在大多数情况下,这是因为眼睛的阴影,眼镜,强光和眼睑遮挡,该方法不能准确地定位眼睛区域和瞳孔中心。
来验证我们提出的方法的有效性,我们也报道结果的眼科中心平均检出率之间的像素距离正确的函数算法建立和眼睛上手写的位置。图11显示一个阴谋的眼科中心检测算法的性能在不同的数据集。我们的方法具有更好的眼科中心检出率,超过90%,在每个数据集内的误差阈值10像素。而导致测试BioID和我们的数据集,结果GI4E以来更好的图像有一个更高的分辨率和较小的照明的变化。
5.3。进一步讨论
实验结果表明,我们的方法可以达到满意的效果对眼睛区域和眼科中心检测基准数据集。基于级联cnn框架中,我们不仅提高了检测速度,也减少了训练时间。实际上,如果我们只使用一个网络来执行两个眼睛区域检测和眼科中心定位,它可能会有一个更好的结果。但它必须需要一个更大的数据集,是耗时。例如,花了3天培训500名图像( )在我们的数据集使用更快R-CNN [26]。然而,我们的方法只需要4个小时。另外,大多数现有的方法依赖于人脸检测器的准确性,在实践中很难应用。
在我们的实验环境中,眼睛区域和中心是位于大约9女士,在大约2女士在提议眼睛候选特征点2女士在计算时的准确地区左眼或右眼cnn(1组),和30 ms在定位眼睛的中心(cnn二)。帧速率大约是30 - 60 fps对于大多数眼睛检测任务。这表明,我们的方法可以处理实时在现实场景中所出现的问题。
6。结论
在本文中,我们提出了一个有效的级联cnn方法检测眼睛位置的面部图像。我们的方法可以同时检测左、右眼位置和中心即使面对受阻,对可见光或红外线图像。此外,眼睛定位,不依赖于人脸检测器。评价,我们测试我们的方法使用超过5000的面部图像,发现我们的提议眼睛检测器是高效的和有效的。我们使用功能点结合级联cnn为了达到相当高的效率和满意的分类速度。在我们未来的工作,我们计划收集更多面部图像训练更强大的眼睛识别模型。
的利益冲突
作者宣称没有利益冲突。
确认
支持的工作提出了完全的资助香港特别行政区研究拨款委员会(参考号UGC / FDS13 E04/14)。
引用
- h .傅y, f . Camastra p .伤势和h .盛,“眼动跟踪技术的发展:理论、算法和应用程序,”计算智能和神经科学卷,2016篇文章ID 7831469, 2016。视图:出版商的网站|谷歌学术搜索
- l .张曹y、f·杨和赵,“机器学习和视觉计算、”应用计算智能和软计算卷,2017篇文章ID 7571043, 2017。视图:出版商的网站|谷歌学术搜索
- h . Mosa, m·阿里,k . Kyamakya”计算机方法来诊断斜视基于学生分割新方法,”诉讼的理论电气工程国际研讨会,2013年。视图:谷歌学术搜索
- l . Birgit“小儿眼科、Neuro-ophthalmology遗传学:Strabismus-new在病理生理学概念,诊断和治疗,”小儿眼科、Neuro-ophthalmology遗传学:Strabismus-new在病理生理学概念,诊断和治疗Ed, m . c .布罗斯基,施普林格科学商业媒体,和治疗,2010年。视图:谷歌学术搜索
- r·瓦伦蒂Gevers t,“准确的眼科中心位置不变isocentric模式,”IEEE模式分析与机器智能,34卷,不。9日,第1798 - 1785页,2012年。视图:出版商的网站|谷歌学术搜索
- n . Markušm . Frljak i s Pandžićj . Ahlberg和r . Forchheimer”眼睛瞳孔定位的合奏随机树,”模式识别卷,47号2、578 - 587年,2014页。视图:出版商的网站|谷歌学术搜索
- f·蒂姆和e·巴斯”,准确的眼睛中心本地化的梯度,”Visapp11,第130 - 125页,2011年。视图:谷歌学术搜索
- l .Świrski a提高身价,n·道奇森,”鲁棒实时瞳孔跟踪在高度离轴图像”《7日眼动跟踪研究与应用研讨会,ETRA 2012美国,页173 - 176,2012年3月。视图:出版商的网站|谷歌学术搜索
- g . m . Araujo f·m·l·里贝罗e·a·b·席尔瓦和s . k . Goldenstein“快速眼定位没有脸模型利用内积探测器,“1366 - 1370页。视图:出版商的网站|谷歌学术搜索
- 陈和c·刘,”眼睛检测使用歧视性哈雾特性和一个新的高效的支持向量机,”图像和视觉计算33卷,第77 - 68页,2015年。视图:出版商的网站|谷歌学术搜索
- r·沙玛和a . Savakis”面向精益的柱状图的梯度特性有效眼睛检测”电子杂志的成像,24卷,不。6、文章ID 063007, 2015。视图:出版商的网站|谷歌学术搜索
- m .狮子座d . Cazzato t·德马科和c . Distante”无监督方法的准确定位学生near-frontal面部图像,”电子杂志的成像,22卷,不。第三条ID 033033, 2013。视图:出版商的网站|谷歌学术搜索
- m .狮子座d . Cazzato t·德马科和c . Distante”无人监督的眼睛瞳孔定位通过微分几何和局部自相似性匹配,”《公共科学图书馆•综合》,9卷,不。8篇文章ID e102829 2014。视图:出版商的网站|谷歌学术搜索
- t D 'Orazio, m .狮子座,a . Distante”眼睛检测司机警惕系统面对图像,”学报2004年IEEE智能车辆研讨会ita,页95 - 98年,2004年6月。视图:谷歌学术搜索
- k . k . c .郭台铭y Wu Wang Wang F.-Y。王,问:,“一个联合的级联框架同时眼睛检测和眼睛状态估计,“模式识别卷。67年,23-31,2017页。视图:出版商的网站|谷歌学术搜索
- j . h . Kim乔,K.-A。”(音),j . Kim眼睛检测在面部图像基于多尺度形状虹膜特征变化,“图像和视觉计算57卷,第164 - 147页,2017年。视图:出版商的网站|谷歌学术搜索
- d·谢·l·张,l·巴姨,“深度学习在视觉计算和信号处理”,应用计算智能和软计算卷。2017年,1-13,2017页。视图:出版商的网站|谷歌学术搜索
- w . Chinsatit和t . Saitoh CNN-Based瞳孔中心检测可穿戴的目光估计系统,”应用计算智能和软计算卷,2017年,页1 - 10,2017。视图:出版商的网站|谷歌学术搜索
- w·FuhlPupilNet:卷积神经网络强大的瞳孔检测,arXiv预印本arXiv1601.04902卷积神经网络强大的瞳孔检测,PupilNet, 2016年。
- b·阿莫斯,b . Ludwiczuk和m . SatyanarayananOpenface:通用人脸识别与移动应用程序库卡耐基-梅隆的计算机科学学院,Openface, 2016年。
- p .中提琴和m·j·琼斯,“健壮的实时人脸检测,”国际计算机视觉杂志》上卷,57号2、137 - 154年,2004页。视图:出版商的网站|谷歌学术搜索
- j·邓、w .盾和r . Socher“ImageNet:大规模的分层图像数据库,”学报2009年IEEE计算机视觉与模式识别会议(CVPR)255年,页248 -迈阿密,佛罗里达州,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
- a·维兰纽瓦诉Ponz l . Sesma-Sanchez m .亚利桑那州s门和r .自己“混合方法基于地形健壮的检测和眼睛虹膜中心的角落,“ACM交易多媒体计算、通信和应用程序(汤米·),9卷,不。4、第二十五条,2013年。视图:出版商的网站|谷歌学术搜索
- o . Jesorsky k . j . Kirchberg, r·w·Frischholz“健壮的人脸检测使用的豪斯多夫距离,”音频和视频生物识别人的身份验证:第三个国际会议,AVBPA 2001哈尔姆斯塔德,瑞典,2001年6月6 - 8,诉讼、j . Bigun和f . Smeraldi Eds。卷,2091在计算机科学的课堂讲稿施普林格,页90 - 95年,柏林,德国,2001年。视图:出版商的网站|谷歌学术搜索
- m . Asadifard和j . Shanbezadeh”自动适应学生中心检测使用人脸检测和运作进行分析,”学报的国际MultiConference工程师和计算机科学家2010年IMECS 2010香港,页130 - 133年,2010年3月。视图:谷歌学术搜索
- r . Shaoqin,“快R-CNN:对实时目标检测与地区建议网络”先进的神经信息处理系统快R-CNN,页91 - 99年,对实时检测与地区建议网络,2015年。视图:谷歌学术搜索
版权
版权©2018本·李和香港富。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。