FaceFilter:脸识别与深度学习和滤波算法

文摘

最近虽然取得了重大进展在人脸识别领域,这些有一定的局限性,尤其是当面临不同的姿势或有不同程度的照明,或当面对是模糊的。在这项研究中,我们提出一个系统,可以直接识别个体所有条件下提取最重要的特性和使用它们来识别一个人。我们的方法使用一个深卷积网络训练中提取最重要的特性。然后使用一个过滤器来选择这些特性的最重要的发现功能大于零,存储他们的指标,比较其他身份的特征与原始图像相同的指标。最后,每个身份的选择特征的数据集是减去从原始图像的特点找到的最小数量是指身份。这种方法给好的结果,因为我们只提取最重要的功能使用过滤器来识别不同姿势的脸。我们获得先进的人脸识别性能使用只有一半的128字节的脸。系统有一个标记的准确性99.7%面临在野外数据集和94.02%在YouTube上面临DB。

1。介绍

最近,深层神经网络尤其是卷积神经网络(cnn)已成为最常用的特征表示方法,在人脸识别问题取得了良好的效果。人脸识别可以分为两类:面对验证,提出了两副面孔,系统需要验证这两个面孔是否属于同一个人,和面部识别,人脸图像是面对一个未知的身份和系统需要确定这个身份。

大多数现有的作品集中在人脸识别已取得了高水平的成功(1- - - - - -13]。然而,如果构成显著改变或面对在一个角度提出,个人不能被识别。

先前的人脸识别方法,基于歧视的分类模型(脸识别)是已知的训练数据集的身份,和一个中间瓶颈层是用来表示认可。这种方法概括为每个面临非常大的表示,但一些作品试图减少这种维度使用PCA (10]。

另一种方法用于FaceNet [14128 - d]直接训练其输出获得嵌入使用一个基于LMNN triplet-based损失函数[9]。这三胞胎组成两个匹配的人脸和nonmatching脸。三联体损失函数的目的是从消极的单独的积极成果一定距离。

相比之下,我们的方法使用一个无监督学习技术获得128字节的脸,然后将这些字节传递一个过滤器,以找到最合适的表示为每一个脸。然后我们减少维数的一半的128字节,表示匹配原始面临与其他面临寻找身份。这种方法可以确定一个给定的面对不同的姿势和可以识别其他面临最类似于原来的身份。

作为一个示例,图1显示一个人的照片在不同的角度和不同的姿势。

本文的其余部分组织如下:部分2讨论了人脸识别最重要的相关工作。我们的方法提出了部分3,包括深层神经网络的描述和我们的算法来处理的功能。部分4和5目前的一些定量结果和评估。

我们的方法是类似于其他近期作品3,10,14),它直接从面对学习它的表示。然而,而不是使用reidentification向量的特性,我们减少了一半的特征向量表示提取每个脸。我们使用一个深卷积神经网络架构的灵感来自于NN4 FaceNet [14]和OpenFace [15)网络,但我们移除L2归一化层,而使用另一个完全连接层。

有大量的人脸识别的研究,我们将简要讨论最相关的工作。

黄等。16)提出了一个回旋的深层信念网络基于局部学习面对表示卷积限制玻耳兹曼机。学习方法是无监督学习和无标号的训练是自然图像数据集。之后,他们将学会表示人脸识别分类方法,如支持向量机。

人脸识别的另一个尝试提出了Taigman et al。17]。这种方法称为DeepFace和这是一个早期的大规模应用3 d模型的人脸识别。他们提取了面对表示使用nine-layer DeepFace模型主要包括两个卷积层,三个本地连接层,两层完全连接(FC)超过1.2亿参数使用几个本地连接共享层没有重量。他们的系统训练4030 4.4 2 d面部图像的身份和他们取得了97.35%的精度基准LFW [18数据集。

斯沃夫等人提出了一个CNN-based方法用于人脸识别和聚类。这种方法叫做FaceNet [14)是基于11卷积和三个FC层。他们已经训练一个深卷积网络数据集的面孔和8 200身份和三重态损失函数直接优化嵌入,而不是一个中间瓶颈层与前面的作品。他们利用三胞胎大致对齐匹配/ nonmatching脸补丁使用在线三联体采矿方法,并实现了先进的人脸识别的性能与128字节为每个脸。

太阳等人提出另一个名为DeepID[的框架5,6,10脸识别和验证。他们的方法利用浅的合奏,较小的深度比DeepFace卷积网络,即。,每个DCNN有四个卷积39层,并使用,31日和1块,分别作为输入。他们的框架是训练有素的202599 10177名受试者的图像。他们的方法是第一种方法,取得的结果超过人类面临伦敦时装周的数据集上验证的性能。

Parkhi et al。19)收集一脸数据集从2622 2.6 2 d的面孔身份提出了一种新的方法从web爬行的面孔。他们提出了一个VGG-Face 16卷积层组成的模型和三个完全连接(FC)层。作者声称,他们已经达到了98.95%的准确率在伦敦时装周(18数据集。

深3 d人脸识别结果由金正日et al。20.]。他们调整VGG-Face网络(19在三维深度图像。之后,他们报告他们的研究结果在三个公共数据集。他们使用一个增广数据集123325微调VGG-Face深度图像。在那之后,他们测试了模型在博斯普鲁斯(21],BU3DFE [5),和3 d-tec(双胞胎)22)数据集。但他们的结果并没有执行先进的卷积方法的结果。

3所示。方法

3.1。深卷积网络

我们使用了一个叫做NN4神经网络深层神经网络结构。他们输入到网络之前,我们都调整图像大小为96×96×3。这些都是作为第一个卷积的输入层,拥有64内核的大小7×7×3 2步。第二个卷积层64内核的大小1×1×3步2,第三卷积层,192内核使用大小3×3×3和2步。这些层后,使用一个初始的架构中,有六块标记3《盗梦空间》,《盗梦空间》3 b,《盗梦空间》3 c,《盗梦空间》4、《盗梦空间》4 e,和《盗梦空间》523]。

因为网络的输入是96×96×3和接受域很小,计算需求大幅减少。参数的总数是3743925,可训练的参数的数量是3734613,与9312年nontrainable参数。我们使用随机梯度下降训练网络(SGD)算法的学习速率从0.05 GPU。202599年脸上的模型训练10177名受试者的图像。表1显示了网络结构。图2描述了模型图,而图3详细说明了本研究中使用这个硕果的结构。


层	大小	大小了	内核	特征映射	不。的参数

输入	96×96×3
ZeroPadding2D	96×96×3	102×102×3
Conv1	102×102×3	48×48×64	7×7×3 2	64年	9472年
规范	48×48×64	48×48×64
ZeroPadding	48×48×64	50×50×64
马克斯池	50×50×64	24×24×64	7×7×3 2
Conv2	24×24×64	24×24×64	1×1×3、2	64年	4160年
规范	24×24×64	24×24×64
ZeroPadding	24×24×64	26×2×64
Conv3	26×2×64	24×24×192	3×3×3,2	192年	110784年
规范	24×24×192	24×24×192
ZeroPadding	24×24×192	26×2×192
马克斯池	26×2×192	12×12×192	3×3×3,2
《盗梦空间》3	12×12×192	12×12×256
《盗梦空间》3 b	12×12×256	12×12×320
《盗梦空间》3 c	12×12×320	6×6×640
《盗梦空间》4	6×6×640	6×6×640
《盗梦空间》4 e	6×6×640	3×3×1024
《盗梦空间》5	3×3×1024	3×3×736
平均池	3×3×736	1×1×736	3×3×3,1
fc1	1×1×736	128年
足球俱乐部	128年	1

在培训之前,我们使用了FaceNet [14)权重作为基准在我们的网络使用的三联体损失函数训练。然后,我们使用了Kullback-Leibler(吉隆坡)发散损失函数来训练我们的模型在变分功能学习(VFL) [24损失函数。我们的损失函数和VFL损失函数之间的区别是,在VFL,他们使用相同的输入和输出两个完全连接层用于预测的意思μ和标准偏差σ高斯分布。的意思是μ和标准偏差σ用于计算的损失函数采用Kullback-Leibler(吉隆坡)发散损失。但在我们训练,因为所有的输入和输出两个完全连接层是相同的,我们使用一个完全连接层“fc1”网络用于预测的意思µ和标准偏差σ高斯分布。的意思是µ和标准偏差σ用于计算损失函数如下: 在哪里表示输出矢量大小,即。128在我们的培训。

200年的网络与softmax训练分类器时代通过使用一个亚当优化器(25),从0.05开始学习速率。训练数据集分为训练集的70%和30%,验证集。

3.2。面对Reidentification方程

每一个原始图像我们想要预测为代表作为一个向量从1到128 128字节的索引。这可以表示为(1): 在哪里是我们想要的原始图像预测和特征的数量吗在这个向量。数据集的向量的身份也将提取的,因为它是表示为(2),并保存在一个单独的模型文件: 在哪里和的形象是一个特定的身份和是指身份的数据集的数量。提取的向量后,我们将通过原始图像的矢量滤波器来提取最重要的价值观可以表示原始图像。过滤器作为选择最高的净值在原始图像的特征向量。它需要与相应的位置的值大于零,即。,每个值的指标: 在哪里特征的数量吗在原始图像的向量,即。、128和是每个特性的指数向量。选择的功能有大于0的值将被存储在吗而相应的指数将存储在。所以,我们可以选择所有功能的每个图像数据集的身份相同的指标选择的原始图像的特点: 在哪里是指一个特定的身份的身份和每个图像的特征数量的身份。选择的功能的身份将选择的指标吗等于所选特征的指标的原始图像吗并将存储在。在这里,我们不需要为每个身份选择的值大于零的数据集;相反,我们取相应的值指数在原始图像中最大的值。这一步是非常重要的特点,例如,可能存储在一个特定的索引;因此,我们需要的特点,在每个图像数据集。

识别身份,我们将计算原始图像的过滤值之间的距离和相应的值标识图像的数据集。最低的过滤值之间的距离原始图像和一个特定的身份形象都具有相同的标识: 在哪里指的是数量的身份。应该注意到,我们只有重量的所有身份获得的图像模型,这些权重已经保存在另一个模型文件承认基地。

3.3。形象面对Reidentification看齐

人脸检测和识别仍有许多问题识别特别是当脸对齐或其他角度的图像。这个问题可以通过寻找解决面临的形象。如果没有脸的图片,我们将旋转图像从0到360°,一步一步,每一步都是14°旋转,直到我们找到一个脸的形象,把它作为一个新的形象。因此,步骤是25的总数。以防我们找不到面对旋转后的图像,我们将通过图像没有旋转,因为可能会有面临的脸的图像在不同的姿态和不能被检测到。图4显示一个图像的脸面对探测器检测不到,但在旋转后,我们发现一张脸而图5显示了一个脸,不能检测到360年之后旋转,所以原始图像将不会改变。

4所示。评价

我们使用神经网络提取的特征脸。特征提取需要128字节的每个面,然后发现重量大于零的原始图像与相应的指标,发现其他的身份与相应指标的权重原始图像。选择权重大于零的过程与相应的指标称为过滤过程的维向量将减少一半的128字节。之后,过滤的距离字节的字节的每个身份的原始图像在同一指标的原始图像计算找到最小数量。最低数量将参考原始图像的身份。我们评估了网络上的标签面临在野外和YTF [26)数据集。这两个数据集已经被使用在大多数以前的作品有一个先进的结果的评估过程。这两个数据集上我们取得了良好的结果。

在评估过程中,我们提取每个图像的特征在每个图像的数据集有128特性和存储在一个单独的文件中。然后,我们把重量分成块总重量除以128寻找身份的数量在(7)。每个块包含128重量和将被视为一个块的一个标识:

我们想确定它的原始图像,我们提取128特性使用我们的模型和传递这些特性过滤器寻找最重要的特征表示和降低维数的一半。后选择的积极的每个特性值原始图像和相应的索引,我们将提取的特征特性的每一块数据集根据原始图像的索引的积极特性如以下方程: 在哪里是滤波器的指标权重的原始图像和的值是索引从0到128的一半。身份的重量吗。最后,我们应用(6)来识别图像。

5。实验

5.1。数据集

我们使用名人面孔属性数据集(CelebA)作为培训面临着在我们的培训。它由10177身份和202599年的脸。培训之前,我们提取的每个图像的数据集使用人脸检测器,然后我们调整我们的神经网络的输入大小为96×96×3像素。

LFW和YTF评估过程中使用的数据集。LFW是一个数据库的脸照片为研究无约束的人脸识别的问题。这个数据库包含13233 5749人的图像检测和集中Viola-Jones人脸检测器和从网上收集。YTF面对视频数据库设计用于在视频学习无约束的人脸识别的问题。1595年的这个数据集包含3425个视频不同的人从YouTube网站上下载。最长最短的视频包含48帧,视频包含6070帧。

5.2。不同的维度

各种嵌入维度探讨了在先前的研究14],因此,维128年被选为它给最好的准确性。比较四个嵌入维数,64,128,256,到512年,显示性能的差异很小。在这项研究中,我们探讨了最好的维度,即。之前和之后,128年,应用过滤器。后将过滤器应用于128年的维数,维数减少到128年128的尺寸精度较高的使用我们的新算法。

5.3。承认基本身份

为了增加数量的身份没有看任何身份数据集的照片再次承认基本模型创建保存每个身份的特征。任何新身份的功能将被保存在承认基础模型。这个承认基础模型将被用来知道其他看不见的脸图片预测的身份。

5.4。人脸检测的影响

大多数人脸检测的框架显示好的结果在人脸检测,然而仍有一些局限性。许多面临没有检测到错误地使用最广泛的框架用于人脸检测。这种限制会影响负面结果。因此,人脸检测仍然需要一些改进。

5.5。LFW和YTF性能

在评估期间,每个身份的特征提取和保留在承认基地。任何其他提取身份将被添加到承认基础与相应标签的身份。每次在评价步骤中,我们花了200 k测试和保持特性的图像与相应的标签与以往任何承认基础特性提取任何身份。这意味着承认基本模型可以存储中的所有图像数据集的特性,它能找到的单一身份的脸在所有这些身份。我们取得了伦敦时装周的数据集分类精度99.70%和94.02% YTF数据集。表2和表3显示分类精度与一些方法相比,我们的分类精度LFW YTF。数据6和7演示比较图表与LFW和YTF先前的研究。


方法	精度(%)

DeepFace [17]	97.35
FaceNet [14]	99.63
High-dim枸杞多糖(27]	95.17
TL联合贝叶斯(28]	96.33
GaussianFace [29日,30.]	98.52
DeepID [5]	97.45
DeepID2 [6]	99.15
DeepID2 + (10]	99.47
DeepID3 [30.]	99.53
我们的方法	99.70


方法	精度(%)

面对reidentification [12]	90.41
DeepFace [17]	91.4
脸表示(11]	92.24
深入学习的脸(10]	93.2
FaceNet [14]	95.12
我们的方法	94.02

6。结论

摘要深层神经网络用于面对reidentification。过滤技术是用来选择的最重要特征的特征提取模型。这种方法可以识别面临的不同姿态和不同层次的照明。360°旋转技术用于面对在不同角度的图像,而这种旋转不能完成深度学习的增强方法。

我们注意到深度学习是非常重要的提取功能,但在准备数学运算提取深度学习的特性,它可以增加模型的精度。

数据可用性

重量模型,提取代码,功能保存在承认基地,和方程评价代码可在以下网址:https://drive.google.com/open?id=1pXMkhAOx9zV4n8ynmer2xlF5lLeQZ3Rz。

信息披露

赞助商的资金没有参与这项研究的设计;在收集、分析或解释数据;写的手稿;并决定发表的结果。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

穆罕默德Al-Ghaili进行编程和写的手稿。庸李指导这项研究。境哈姆迪·阿里校对。

确认

这部分工作是由中国国家自然科学基金(61672215和61672215号),国家重点研发项目中国没有。2018 yfb1308604),湖南科技创新项目(没有。2017 xk2102)。

引用

王朱z, p .罗,x, x,“深度学习identity-preserving面对空间,”《IEEE计算机视觉国际会议IEEE,页1489 - 1496年,悉尼新南威尔士,澳大利亚,2013年12月。视图:出版商的网站|谷歌学术搜索
王朱z, p .罗,x, x,“混合深度学习面对验证,”《计算机视觉国际会议IEEE,页113 - 120年,悉尼新南威尔士,澳大利亚,2013年12月。视图:出版商的网站|谷歌学术搜索
w·刘,y, z . Yu et al .,“Sphereface:深超球面嵌入人脸识别”《计算机视觉与模式识别会议(CVPR)IEEE,檀香山,嗨,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
王朱z, p .罗,x, x,”规范的视图的脸恢复野生深层神经网络,”第3543 - 1404页,2014年,https://arxiv.org/abs/1404.3543。视图:谷歌学术搜索
x y太阳,小王和x唐,“深度学习的脸表示从10000年预测类”会议的程序在计算机视觉和模式识别IEEE,页1891 - 1898年,哥伦布,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
王y, y, x, x,“深度学习的脸表示联合身份认证,”先进的神经信息处理系统2014年,页1988 - 1996,https://arxiv.org/abs/1406.4773。视图:谷歌学术搜索
y Taigman, m .杨·m·a·Ranzato l .狼,“脸识别、网络级培训”会议的程序在计算机视觉和模式识别IEEE,页2746 - 2754年,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
王朱z, p .罗,x, x,“深度学习和理清面临由多视点感知器表示,”诉讼的损害2015年12月,魁北克,加拿大,。视图:谷歌学术搜索
k问:温伯格和l . k .扫罗,”距离度量学习大型保证金近邻分类,“机器学习研究杂志》上,10卷,第244 - 207页,2009年。视图:谷歌学术搜索
x y太阳,小王,x唐”深深学会面对表示稀疏、选择性和强劲,”会议的程序在计算机视觉和模式识别IEEE,页2892 - 2900年,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
d .咦,z Lei, s .廖和s . z李“从头学习的脸表示,”第7923 - 1411页,2014年,https://arxiv.org/abs/1411.7923。视图:谷歌学术搜索
j . y . Wang沈、美国Petridis和m . Pantic“实时和无监督面临再次鉴定为人机交互系统,”模式识别的字母,128卷,2018年。视图:出版商的网站|谷歌学术搜索
王z . Liu p .罗,x, x,“深度学习面对属性在野外,”《计算机视觉国际会议IEEE,页3730 - 3738年,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
f·斯沃夫,d . Kalenichenko和j . Philbin”Facenet:统一嵌入人脸识别和聚类”会议的程序在计算机视觉和模式识别IEEE,页815 - 823年,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
b·阿莫斯,b . Ludwiczuk和m . Satyanarayanan”Openface:通用人脸识别与移动应用程序库,“技术。代表,卡耐基-梅隆学院的计算机科学,匹兹堡,PA,美国,2016年,科技,众议员CMU - cs - 16 - 118。视图:谷歌学术搜索
黄g b、h·李和e . Learned-Miller”学习分层表示的脸与卷积深层信念网络验证,”程序的计算机视觉和模式识别(CVPR)IEEE,页2518 - 2525年,普罗维登斯,RI,美国,2012年6月。视图:出版商的网站|谷歌学术搜索
y Taigman, m .杨·m·a·Ranzato和l .狼”Deepface:缩小差距以人类性能验证,”会议的程序在计算机视觉和模式识别IEEE,页1701 - 1708年,哥伦布,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
黄g . b . m . Mattar t·伯格和e . Learned-Miller”标签面临在野外:数据库为研究人脸识别在不受约束的环境中,”诉讼的研讨会在“现实生活”图片:检测、定位和识别美国马萨诸塞大学阿默斯特,2018年10月。视图:谷歌学术搜索
o . m . Parkhi a Vedaldi, a . Zisserman“深人脸识别,”《BMVC》第六卷,牛津大学,牛津大学,英国,2015年9月。视图:谷歌学术搜索
d·金·m·埃尔南德斯、j . Choi和g . Medioni“深3 d人脸识别,”生物识别技术国际联合会议(IJCB)IEEE,页1703 - 10714年,丹佛,有限公司,2017年10月美国。视图:出版商的网站|谷歌学术搜索
a . Savran n . Alyuz h . Dibeklioğlu et al .,“博斯普鲁斯真实感三维人脸分析数据库”《欧洲生物识别技术研讨会和身份管理,页47-56,施普林格鲁开德那样,丹麦,2008年5月,在计算机科学课堂讲稿。视图:出版商的网站|谷歌学术搜索
诉Vijayan, k·w·鲍耶,p . j .弗林et al .,“双胞胎3 d人脸识别的挑战,”生物识别技术国际联合会议(IJCB),页1 - 7,IEEE,华盛顿特区,2011年10月美国。视图:出版商的网站|谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”会议的程序在计算机视觉和模式识别,页1 - 9,IEEE,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
d . p . Kingma和m·威林”Auto-encoding变分贝叶斯,”2013年,https://arxiv.org/abs/1312.6114ICLR。视图:谷歌学术搜索
d . Kingma和j .英航,”亚当:随机优化方法。”临床骨科和相关研究,2014,https://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
l .狼、t·哈斯内尔和象征,”在无约束的视频中人脸识别与匹配背景相似,”美国计算机协会计算机视觉与模式识别会议IEEE,页529 - 534年,普罗维登斯,RI,美国,2011年6月。视图:出版商的网站|谷歌学术搜索
d . Chen x曹,f·温,j .太阳”维度的祝福:高维特征及其有效的压缩面对验证,”会议的程序在计算机视觉和模式识别IEEE,页3025 - 3032年,波特兰,或者美国,2013年6月。视图:出版商的网站|谷歌学术搜索
x曹,d . Wipf f, g .段和j .太阳,“面对验证,实际转移学习算法”《计算机视觉国际会议IEEE,页3208 - 3215年,悉尼新南威尔士,澳大利亚,2013年12月。视图:出版商的网站|谷歌学术搜索
c . Lu和x唐”,超越人类的脸验证性能与GaussianFace LFW”促进会的人工智能2014年,页3811 - 3819,https://arxiv.org/abs/1404.3840。视图:谷歌学术搜索
y太阳,d .梁,王x, x,“Deepid3:人脸识别有很深的神经网络,”第3819 - 3811页,2015年,https://arxiv.org/abs/1502.00873。视图:谷歌学术搜索

科学的规划