利用增强的Viola-Jones和加权投票技术改进基于组件的人脸识别

抽象的

本文利用更好的中提琴组件检测和加权面部部件的概念增强了基于面部组件的技术的识别能力。我们的方法从增强的Viola-Jones面部分量检测和裁剪开始。在所有姿势不断变化的情况下，准确地检测和裁剪面部部件。裁剪组分由面向梯度（HOG）的直方图表示。使用验证过程确定每个组分的重量。通过简单的投票技术结合这些重量。使用了三个公共数据库：AT＆T数据库，PUT数据库和AR数据库。使用本文提出的加权投票识别方法观察了几种改进。

1.介绍

面部识别是模式识别的非常重要的应用程序，数据库用于培训尝试识别其中的每个人的分类器。有关面部识别问题的少数研究在[1］．认知科学研究发现，局部和整体特征可用于人脸识别[2-8.］．有足够的证据证明，人类脸部感知中存在全体，可配置和面部部件信息[2-15］．人类的其他研究已经得出结论，一些面部部件更重要，可用于识别面对其他组分。例如，上表面比下面更重要[13那16］．研究人员通过两种方法接近人脸识别：基于组件和基于全球的面部识别。

1．1.基于组件的人脸识别

此方法依赖于训练多种模型，具体取决于表示图像的组件的数量。与基于全球技术相比，尚未集中研究面部识别技术。因此，它们的方法有限[17］．其中大多数都使用原始像素表示，这就是使它们较不稳定的原因。已经讨论了几种基于组件的面部识别方法[4.那12那16］．用于识别本文的面部部件是眼对，鼻子和嘴巴。Viola-Jones对象检测框架[18用来裁剪面部部件。

1.2。基于全球的人脸识别

相反，对于基于组件的概念，全局的人脸识别方法依赖于单个阵列来表示面部。基于全球的面部识别中的最佳技术与诸如特征费措施，Fisher的判别分析和内核PCA的最佳技术之间的比较可以在[19那20.］．基于全局的人脸识别技术在对抗姿势变化方面存在弱点。该技术必须包括一个面部对齐算法阶段，或被开发来满足基于组件的识别技术的标准[21］．

本文的其余部分组织如下2解释了我们用于成分检测和裁剪的方法。HOG特性在本节中进行了解释3.．部分4.呈现总结和比较的结果。

1.3。3D面部识别

3D面部表面是[22编码成从鼻尖发出的径向串的索引集合。然后，有效地消除了封闭件的部分匹配机制。面部曲线可以表达包含用于检测闭塞面部区域的面部曲线的区域的变形。在 [23[依赖于在露出不同情绪的完整面部和在闭塞的情况下，依赖于依赖于三维面部表面工作的几何特性的新型地图定位的自动化方法。

2.成分检测与裁剪

在人脸识别方法中，检测功能是一个至关重要的过程。组件有助于为数据库中的每个人收集唯一的数据。使用了两种组件检测方法:Viola-Jones对象检测框架[18]，采用几何方法，以及使用回归树集合进行人脸对齐的地标检测[24］．两种人脸成分检测方法都是用来实现在所有情况下(光照和姿态变化)的人脸成分检测。精确的组件裁剪可以带来更好的功能。对面部成分的裁剪越多，在表示中包含的无用信息就越少，因此唯一的数据将参与到学习过程中。

2.1。Viola-Jones对象检测框架

Viola-Jones对象检测框架用于训练检测识别过程所需的面部部件（眼对，鼻子和嘴）的模型。它包括以下部分在[18]：类似哈尔的特征，积分图像，弱分类器和强大的分类器，Adaboost和瀑布。

2.2。增强具有几何方法的中提琴琼斯

维奥拉-琼斯是一个强大的目标探测系统。然而，经过训练的模型可能会出现漏检或检测失败的情况。我们的识别方法依赖于对三个部分(眼睛、鼻子和嘴巴)的准确检测。当检测到面部成分时，漏检是不能容忍的。基于构件的人脸识别系统需要对构件进行裁剪和准确表示。缺失检测可能会导致无用数据的表示(如图所示)1)，从而产生较低的识别成功率。眼对组件是三个提取组件中最关键的部分。这对眼睛承载着一个人面部的主要独特信息。它也是该算法用于检测和裁剪其余面部成分的参考对象。我们训练了一个眼对位置预测模型来估计眼睛对在面部的哪个位置可能被发现。在图2，在提出的解决方案后，结合检测结果演示了一些没有发现眼睛对的情况。鼻口目标检测器可能由于搜索区域不包括整个目标或在搜索区域检测到多目标而无法找到组件。如果未检测到目标，则搜索区域将逐渐扩大，直到找到目标。多目标检测框架发生在口腔区域，通过选取最大目标来解决y坐标。

2.3。区域选择过程

几何方法的概念是集中搜索正确区域中的组件。例如，鼻子不能高于眼对;它位于眼部旁的某处。相同的概念应用于嘴;它必须在鼻子和眼睛旁边。几何方法旨在将搜索区域缩小到鼻子和嘴巴可能发生的位置[25］．区域选择算法（图3.）包括以下步骤：(一)面部是寻找的第一个组件。(b)裁剪人脸图像中的眼睛对检测。(c)在裁剪面部图像内的眼对下方的区域将是鼻子的搜索区域。(d)特定区域用于检测口腔(图)3.)．在多次口检的情况下，所检出的对象越显着y-axis值(最低对象)被选择用作嘴组件。

几个问题面临规例 - 琼斯对象检测框架进行组件检测的使用。它们如下：（1）未能检测眼对。（2）未能检测到鼻子。（3）发现多个假嘴。

数字4.显示错过的检测问题和我们区域选择算法的解决方案。

数据5.和6.显示我们的区域选择算法的错过检测和解决方案。

3.特性

从面部图像中提取的像素块通常太大，无法帮助构建强大的分类器[24］．它们被转换成一个特征向量。特征描述符是描述图像或图像的一部分的数据数组。它有助于提供关于图像的独特信息。它可以支持对该图像中的物体的识别应用。在本文中，我们使用了定向梯度直方图(histogram of oriented gradient, HOG)特征[26］．

3.1。猪特征

面向渐变（HOG）的直方图是使用面向梯度信息的特征描述符[26］．计算Hog的步骤描述如下：（1）对于每个像素I（x, y），水平和垂直梯度值如下获得：（一世）例如，

(2)梯度大小m和方向θ.是计算的（iii）直方图是基于方向累积的幅度构造的。

图像被分成几个小空间区域(细胞)，每个小空间区域(细胞)的梯度方向的局部直方图是通过将每个方向的选票累积到bins中来计算的。当梯度方向被量化为9个bins(0-180)时，获得了最佳性能。相反，投票是由梯度大小加权的，允许直方图考虑梯度在给定像素的重要性。最后，将所有局部直方图拼接到一个向量中，得到HOG描述子。

然而，由于梯度会受到光照变化的影响，因此有必要对细胞直方图进行归一化。数字7.给出了获取HOG特征向量的示例。

4.实验结果

4.1。面部数据库设置

本文对三个数据库进行了研究。它们被选中来测试低分辨率、缺失组件和变化环境下的识别精度。我们使用了PUT [27，美国电话电报公司[28]，以及AR数据库[29］．Put Database由50人组成：每个人都有22个具有不同姿势和不同照明条件的彩色面部图像。AT＆T数据库由40人的图像组成。每个人都有十个不同的面部图像。AR数据库由50人组成。每个人有26种不同的色面膜。桌子1显示不同的随机训练集（K-FLOPS）。例如，对于PUT数据库，为K. = 2, we took 11 out of the 22 as training and 11 for testing. Images with a missing component shall substitute that particular missing component with components detected within its learning/testing set as shown in Figure8.．


K-FLOPS.	放		att.		AR.
K-FLOPS.	L.	T.	L.	T.	L.	T.

2	11	11	5.	5.	13	13
3.	15	7.	7.	3.	18	8.
4.	17	5.	8.	2	20.	6.
5.	18	4.	9.	1	21	5.

在批处理的基础上计算每个图像的HOG特征。批处理是图像裁剪的一部分，用来寻找有用的信息，例如眼睛、鼻子和嘴巴。对于不同长宽比的补丁，可以计算HOG特征。为了充分利用这些特性，我们必须为单个数据库中的所有补丁保持固定的宽高比。眼睛、鼻子和嘴巴的比例分别为1:4、1:1和1:2(图)9.)．

4.2。验证过程

此过程的目的是弄清楚哪种模型对于某些数据库最适合计算其优先级。特定组件的得分越好，其优先级越高。

我们将我们的培训集分为2套：培训（75％）和验证（25％）。

此技术使用验证结果为每个组件分配权重。分配给某个组件的重量越高，它对最终分类结果的影响越大。该过程在图中证明10．

4．3．结果

三个数据库的结果显示在以下小节中。

4.3.1。PUT数据库识别结果

使用我们的验证过程，表2显示PUT数据库的每个组件的优先级。将这些优先事项与投票技术相结合达到了100％的准确度成功率K. = 5 (Table3.)．


	把数据库
	2	3.	4.	5.

眼睛对	0.89091	0.90286.	0.968	0.97
眼对优先权	0.94727	0.97714	0.992	0.99
鼻子	0.91075	0.91379	0.936	0.96
鼻子优先	0.95455	0.98286.	0.992	0.99
嘴	0.96182	0.97714	0.968	0.985
嘴巴优先	0.97636.	0.98571	0.992	1


人脸识别方法	2	3.	4.	5.

平均KNN成功率	0.92	0.93	0.95	0.97
面部部件优先投票	0.97	０．９８	0.99	1

4.3.2。AT&T识别结果

桌子4.显示AT&T数据库中每个组件的优先级。投票识别成功率达到96%K. = 5 (Table5.)．


	AT＆T数据库
	2	3.	4.	5.

眼睛对	0．8	0.775	0.7625	0.8625.
眼对优先权	0.9125	0.875	0.9125	0.925
鼻子	0.8875.	0.93333	0.8875.	0.975
鼻子优先	0.925	0.925	0.875	0.9375
嘴	0.8375.	0.88333	0.9125	0.9375
嘴巴优先	0.9375	0.94167	0.9375	0.9625


人脸识别方法	2	3.	4.	5.

平均KNN成功率	0.84	0.86	0.85	0.92
面部部件优先投票	0.93	0.94	0.93	0.96

4.3.3。AR数据库识别结果

桌子6.显示AR数据库中每个组件的优先级。投票标准将识别成功率从73%提高到87%K.= 2，从84%到94%K. = 5 (Table7.)．


	AR数据库
	2	3.	4.	5.

眼睛对	0.78308	0.8275	0.82	0.868
眼对优先权	0.87077	0.9225	0.92	0.944
鼻子	0.69385	0.785	0.71333	0.804
鼻子优先	0.84154	0.8975	0.88	0.928
嘴	0.73692	0.7925	0.76667	0.852
嘴巴优先	0.84462	0.915	0.85667	0.928


人脸识别方法	2	3.	4.	5.

平均KNN成功率	0.73	0.80	0.76	0.84
面部部件优先投票	0.87	0.92	0.92	0.94

4.3.4。总结的结果

使用了三个公共数据库：AT＆T带有40个科目和400个图像。将数据库放入50个科目和1100张图像。AR数据库包含50个对象和1300张图像。

我们的方法具有以下优点：（一世）在所有姿势变化的情况下，检测面部成分的准确性极佳。(2)通过使用大多数投票结合多种分类来提高识别准确性。

5.结论

提高基于人脸成分技术的识别能力是本文研究的目标。这是通过使用更好的Viola-Jones成分检测和加权面部成分的概念来实现的。通过验证过程，每个组件都被赋予了一定的权重。我们使用了一种投票技术，它包含了所有这些权重。组件加权技术提供了将多个特征纳入成功率的机会，提供了使用特定特征的优势来抑制其他特征的弱点的机会。对所使用的数据库进行了验证，证明了加权投票法的改进。投票技术提高了识别成功率。在投票技术中的成功率的提高分配了权重的重要性在面部成分中，而不满足于一个主要的面部成分。

数据可用性

用于支持本研究结果的数据可根据要求可从相应的作者获得。

利益冲突

作者声明他们没有利益冲突。

参考

R.Chellappa，C.L.Wilson和S. Sirohey，“人力和机器识别面临：调查”IEEE的诉讼程序，卷。83，没有。5，PP。705-741,995。视图:出版商的网站|谷歌学术
J.L.Bradshaw和G. Wallacei，“脸部加工和识别的模型”知觉和心理物理学，卷。9，不。5，pp.443-448，1971。视图:出版商的网站|谷歌学术
J. Sergent，“对面部感知的组成部分和配置过程的调查”，英国心理学杂志，卷。75，不。2，pp。221-242，2011。视图:出版商的网站|谷歌学术
A. Schwaninger, S. Schumacher, H. Bülthoff，和C. Wallraven，“使用3D计算机图形来感知:局部和全球信息在面部处理中的作用”，刊于第四届图形和可视化应用感知研讨会的诉讼程序，pp。19-26，德国德宾，2007年7月。视图:谷歌学术
A. Schwaninger，C. Wallraven，D. W.Cunningham和S. D. Chiller-Glaus，“面部身份和表达的加工：心理物理学，生理和计算的视角”，“了解情绪，第156卷，第321-343页，2006。视图:出版商的网站|谷歌学术
D. Maurer，R. L. Grand和C. J. Mondloch，“配置处理的许多面孔”，“认知科学的趋势，第6卷，第2期6，页255-260,2002。视图:出版商的网站|谷歌学术
N.Sagiv和Bentin，“人体和示意面的结构编码：全面和基于部分的过程”，认知神经科学杂志，卷。13，不。7，pp。937-951,2001。视图:出版商的网站|谷歌学术
M. L. Matthews，“面临的识别建筑歧视：双重处理策略的证据”知觉和心理物理学，卷。23，不。2，pp。153-161,1978。视图:出版商的网站|谷歌学术
E. E. Smith和G. D. Nielsen，“短期记忆中的陈述和检索过程：脸部的认可和回忆，”实验心理学杂志，卷。85，没有。3，pp。397-405，1970。视图:出版商的网站|谷歌学术
X. Cao，Y.Wei，F. Wen和J. Sun，“面对明确的形状回归”对齐“国际计算机愿景，第107卷，第2期2，页177-190,2013。视图:出版商的网站|谷歌学术
R.Dewi Agushinta，A. Suhendra和Y.Hanum，“面部特征距离提取作为面部识别系统组件”ICSIIT.，卷。2007年，p。239,2007。视图:谷歌学术
G. Davies，H. Ellis和J. Shepherd，“脸上的脸部持脸，”Photofit“技术评估，”洞察力，第6卷，第2期3, pp. 263-269, 2016。视图:出版商的网站|谷歌学术
M. J. Farah，K。D. Wilson，M.流失和J. N. Tanaka，关于脸部感知的“特别”是什么？“心理评估，卷。105，没有。3，pp。482-498，1998。视图:出版商的网站|谷歌学术
J. J. Richler, O. S.张，和I. Gauthier，“整体处理预测面部识别，”心理科学，卷。22，没有。4，pp。464-471，2011。视图:出版商的网站|谷歌学术
J. M. Gold，P. J. Muldy和B. S. TJAN，“面部的看法不超过其零件的总和”心理科学，卷。23，不。4，pp。427-434,2012。视图:出版商的网站|谷歌学术
R. Brunelli和T. Poggio，《面部识别:特征与模板》，图案分析和机器智能的IEEE交易，卷。15，不。10，pp。1042-1052，1993。视图:出版商的网站|谷歌学术
B. Heisele，T. Serre和T. Poggio，“基于组成的面部检测和识别框架”，国际计算机愿景，卷。74，没有。2，pp。167-181,2006。视图:出版商的网站|谷歌学术
P. Viola和M. Jones，“使用升高的级联的简单功能的快速物体检测”2001年IEEE计算机愿景和模式识别会议的诉讼程序。CVPR 2001.，考艾岛，嗨，美国，2001年12月。视图:谷歌学术
A. M. Martinez和A. C. Kak，“PCA与LDA”，图案分析和机器智能的IEEE交易，卷。23，不。2，pp。228-233,2001。视图:出版商的网站|谷歌学术
M. H. Yang，“使用内核方法的人脸识别”神经信息处理系统进步的诉讼程序，第1457-1464页，加拿大温哥华，2002年12月。视图:谷歌学术
A. PENTLAND，B. Moghaddam和T. Starner，“基于视图和模块识别的模块识别，”计算机视觉与模式识别1994年6月，美国西雅图，瓦，美国。视图:谷歌学术
O. N. Dagnes, E. Vezzetti, F. Marcolin，和S. Tornincasa，“三维人脸识别的遮挡检测和恢复技术:文献综述，”机器视觉及其应用，第29卷，第2期5，第789-813页，2018。视图:出版商的网站|谷歌学术
F. Marcolin，F.Marcolin，S. Tornincasa，L. Ulrich和N.Dagens，“3D基于几何自动地标本地化，存在面部闭合”，多媒体工具和应用程序，卷。77，没有。11，PP。14177-14205,2017。视图:出版商的网站|谷歌学术
V. Kazemi和S.Josephine，“与回归树的集合，”一毫秒的面部对齐“计算机视觉与模式识别，2014，第1867-1874页，美国哥伦布，2014年6月。视图:谷歌学术
A. ElMaghraby, M. Abdalla, O. Enany，和M. Y. E. Nahas，“使用viola- Jones和几何方法检测和分析面部零件信息”，国际计算机应用杂志，卷。101，没有。3，pp。23-28,2014。视图:出版商的网站|谷歌学术
g .蔡面向梯度的直方图，卷。1，Michigan大学，Ann Arbor，MI，USA，2010年。
A. Kasinski, A. Florek和A. Schmidt， " The PUT face database， "图像处理与通信，卷。13，不。3-4，pp。59-64,2008。视图:谷歌学术
F. S. Samaria和a . C. Harter，“人脸识别随机模型的参数化”，刊于计算机愿景应用的第二个IEEE研讨会的诉讼程序，pp.138-142，萨拉索塔，美国，1994年12月。视图:谷歌学术
A. M.马丁内斯，“AR人脸数据库”。CVC技术报告，“Centre de Visió per Computador (CVC)，巴塞罗那，西班牙，1998,Tech Rep. 24。视图:谷歌学术

工程建模与仿真

抽象的