通过人脸识别识别民族的人:深CNN的方法

文摘

人脸识别研究的兴趣在过去十年里发展迅速。人脸识别最重要的一个问题是伦理学的识别人。在这项研究中,一个新的深度学习卷积神经网络的目的是创建一个新的模型,可以认识到伦理学的人通过他们的面部特征。伦理学的新数据集的人由3141张图片来自三个不同的民族。我们所知,这是第一个图像数据集收集人们的伦理学,数据集将用于研究团体。与两个最先进的模型相比,新模型VGG和《盗梦空间》V3,验证每个卷积神经网络计算精度。生成的模型通过几个人的图像进行了测试,结果表明,最佳的性能是通过我们的模型验证的准确性为96.9%。

1。介绍

人脸识别领域最近增加的范围。人脸识别是指识别人的能力从一个图像或视频帧。许多技术已经用于人脸识别。第一个方法是使用一个2 d模式识别问题的一个重要的点之间的距离在一个图像用于识别脸部(1),如计算眼睛之间的距离和其他重要的点之间的距离。

另一种技术叫做整体匹配技术完成面临地区考虑到抓脸系统作为输入数据。最重要的研究,使用这种技术是eigenfaces [2)、主成分分析和线性判别分析(3]。

基于特征结构技术是另一个技术用于人脸识别的地方特色的脸首先提取及其位置和地方统计数据被送入一个结构分类器。

整体和特征提取技术一起使用,新技术被称为混合动力技术,使用3 d图像。人的脸的图像是在3 d;系统后,将会注意等重要特性曲线或形状的脸。系统后,检测图像是否照片或实时确定的位置的脸,和措施的曲线和形状的重要特征脸,面对转换成数值表示和匹配这个数值表示的数据集的面孔。

人脸识别中最重要的技术,最近出现了使用卷积神经网络(CNN) [4]。虽然很多CNN用于人脸识别的研究,这些研究提出了一个健壮的模型识别民族的人通过与分类精度高的人脸上有一些相似之处与不同的道德。

出于这一点,我们提出两个新的模型人脸识别与正规化和没有正规化,他们有能力认识到伦理学和起源的人通过他们的脸的面部。指定,本文的主要贡献是提出了一种人脸识别模型,可以检测的详细特征脸和区分他们使用RGB图像或实时人脸识别。道德不同的人可以通过提取最公认的使用这个模型的详细特性人们的面孔。收集新数据集的目的与高分辨率从三个不同的地区在亚洲。这些图片收集来自像Facebook这样的社交媒体和VK(俄罗斯社交媒体网站)。最后,我们取得了一个有前途的性能测试的另一个数据集收集目的。

本文的其余部分组织如下。部分2介绍了相关的工作。部分3显示了人脸识别的网络设计。新模型的实验和结果给出了部分4。部分5总结了纸。

人脸识别方法提出了基于网格密度直方图的梯度(猪)5]。在这个研究中,面对图像被分为许多密集的网格猪的特征提取。之后,这些猪网格特征向量是由实现功能的表达整个脸部,和k最近的邻居分类器是用于识别。作者使用面数据集训练阶段复杂变化的照明,时间和环境,测试伽马照明修正,空间梯度方向,块的大小,标准化,脸图像分辨率发现和分析最优猪为人脸识别参数。FERET数据库是一个数据集用于面部识别系统评估。

有许多方法在人脸识别具有较高的识别精度,基于深度学习。之一,这些方法有良好的效果在受限环境以及自然环境(6]。作者改进的方法multipatches利用4区域的补丁的脸。为了有更高的性能,他们还使用了一个联合贝叶斯(JB)测量验证。模型已经被一组训练CASIA WebFace和测试的标签在野外伦敦时装周开幕。

学习的人脸识别提出了另一项研究[7]。作者认为,DeepID可以有效地学会了通过富有挑战性的多级人脸识别任务。此外,DeepID泛化能力的增加越来越多的面临类预测在训练。他们利用约10000脸识别训练集生成的模型。验证准确性达到79.45% LFW数据集。深有4个卷积层在事先Maxpooling提取特征分层次其次是完全连接DeepID层并将softmax输出层表明身份类。

发展有效的特征表示为减少内心的变化而扩大人际差异在另一项研究(人脸识别已经得到解决8使用深度学习和使用面部识别和验证信号监督。的身份认证功能(DeepID2)由深卷积网络学习。脸识别任务增加了人际关系的变化通过DeepID2特性提取不同的身份,和面对验证任务减少了内心的变化通过DeepID2特性提取相同的身份。面对验证准确性,通过LFW数据集上的测试方法(9)是99.15%,这个精度不同于验证精度。错误率明显减少了67%相比之前最好的深度学习结果(7]。

提出了另一种方法对人脸识别的卷积神经网络(CNN)和逻辑回归分类器(荣誉奖)相结合4]。CNN用来提取特征来检测和识别脸部图像和荣誉奖(10,11)用于卷积神经网络学习的特点进行分类。CNN在这项研究中使用的结构由四层:输入层、两个卷积层,和一个二次抽样层。第一层是64×64;因此,数据集被调整大小,大小兼容拟议的结构和输出层是一个完全连接层与15个特征图1×1的大小。

在我们的研究中,我们建立两个模型,辍学,没有辍学层发现在培训这一层的效果。本研究涉及伦理学的认可的人通过他们的面部特征通过这两个模型。我们使用一个新的CNN正规化辍学层和没有正规化找到最准确的性能。在训练中,我们使用亚当优化器(12学习速率为0.001和分类熵损失函数。生成的模型可以检测的详细特征脸从RGB图像或通过一个相机。

3所示。卷积的深度学习的人脸识别

3.1。使用深度学习民族识别

我们的深度学习层由12层。四个层Conv层,每个随后Maxpooling层,其中一些Conv层也紧随其后辍学层Maxpooling后层提取面部特征。连接层下降后放置四个Conv层之间的分隔符和两个完全连接层。下降的输出连接层传递给平层平输出之前通过第一个完全连接层。两者之间完全连接层,另一个辍学层使用。将softmax输出层用于识别的类。使用辍学层的目的是摆脱期间过度拟合训练。图1显示了网络层的整个结构预测n类(例如,n3),预测类的数目吗n可以扩展到包含尽可能多的民族。

这个网络的输入是一个图像的128×128×3大小(例如,3特征图)。补丁的大小是3×3相同的填充在每个Conv层和跨越1使Conv层大小大致相同的输出作为输入。每个Conv层的输出传递给Max-Pooling层来减小输入大小。之后,每个Maxpooling层的输出是美联储ReLU激活函数。Conv层特性映射方程在哪里是输出卷积层在一个特定地区的补丁和是输入补丁在一个特定的地区卷积层。第一次卷积层的输入是一个图像的大小分为区域根据窗口大小的块 ,因为它是图所示1。的偏见输出块在同一特定区域。之间的卷积核吗输入补丁和输出的补丁,而乘法和表示卷积。

每个卷积的输出层传递给Maxpooling。Maxpooling层的公式如下:

的神经元输出的补丁池在局部地区的输入补丁。Maxpooling层在每个Conv层的输出传递给ReLU非线性。ReLU集所有负输入零和其他值都保持不变,它显示了乙状结肠函数拟合能力比(13]。

一些Conv输出传递给网络中辍学防止过度拟合。辍学层使用的数量是三个,其中两个用于第二个和第三个Conv层后,第三个是最后两个完全连接层之间使用。

最后一层是两个完全连接层与辍学层之间。这个方程可以表示如下: 在哪里和表示前一层神经元和权重,分别。的输出传递给第一个完全连接层率是0.5和输出的哪里传递到最后完全连接层。和表示第一个完全连接层的神经元和权重传递他们之前层。

事先的输出 - - - - - - softmax预测面临的伦理n不同的伦理。将softmax工作如下: 在哪里是一个向量的输入到输出层,它表示最重要的特征用于识别的脸。的输出向量计算在哪里输出的指数在吗 ,例如,类的数量。

3.2。辍学层网络

有时在测试阶段,结果由于训练误差是不准确的。研究人员认为,因为过度拟合的14),强大的正则化像辍学15用于解决这个问题。辍学的想法是退出一些神经元在神经网络中神经元与概率随机选择问= 1− 。当神经元辍学,这意味着其输入和输出连接将被忽略,这将允许每个神经元学习有用的东西没有过多依赖其他神经元纠正其缺点(16,17]。图2说明了辍学的念头。

输入和输出的每个补丁应用辍学之前计算如下: 在哪里表示网络层的索引。输入补丁和吗是在隐层输出补丁吗 ,层被。是重量和是偏见。表示激活函数。辍学时发生执行以下操作: 在哪里是由元素和元素的乘法是伯努利随机变量的在层神经元概率是1。

3.3。培训两个网络

第一个网络层组成的12层包括辍学层。这个网络的训练准确率是96.9%,验证准确率是96.9%确认损失0.221这意味着过度拟合已经彻底消除,如图3。在第二个网络,辍学层都省略了,训练精度检查。网络的训练准确率是100%,验证准确率是96.9%,和最少的验证损失是0.525。这意味着过度拟合非常高,因此,创建模型的错误率,网络不仅仅是在第一网络。数据3和4显示每个网络的训练精度和验证精度。图的训练精度4时代18号是100%,准确率并没有改变,直到结束的这意味着过度拟合训练错误率很高,因此比错误率在第一网络。

4所示。实验

4.1。实验训练数据集

尽管有许多大规模的面部图像数据库网上,但所有这些数据库不适当的满足本研究的目标。因此,我们手动收集来自不同资源的3141张照片。我们收集了1081中国面部图像,1021名巴基斯坦面部图像,和1039年俄罗斯的面部图像。在收集的图片,他们从整个提取人脸图像处理。总图像后,被分成两组;第一组被用于训练阶段,我们把整个图像的70%,另外30%的图像作为第二组验证阶段。图5显示了新数据集的一个子集。

4.2。与最先进的方法

选择两种最先进的方法,每种方法的最后四层已被冻结和使用我们的完全连接层来确定输出的数量根据数据集的类的数量。这些方法是VGG [18)和《盗梦空间》V3 (19]。培训是在特斯拉K80 GPU谷歌Colaboratory所提供的自由。结果表明,我们的方法验证准确性最高和最不验证的损失。表1显示了训练的结果我们的网络和两种先进的方法。


方法	验证acc。(%)	损失

VGG	91.48	0.23
《盗梦空间》V3	61.92	0.81
我们的网络	96.9	0.22

对比我们的方法和两种最先进的方法VGG和《盗梦空间》V3表所示1在那里观察到我们的方法验证准确性最高(96.6%)和验证(0.22)损失越少,如图3正则化。图4表明,我们的方法没有正规化验证精度相同(例如,96.6%),但损失函数值是不同的(0.525),这表明有一个过度拟合问题,而验证的准确性VGG和《盗梦空间》V3(91.48%)和(61.92%)和验证(0.23)和(0.81),分别如图6和7。

表2和3总结总数为每个类别的图像,图像的数量正确预测和图像的数量为两个模型预测错误。混淆矩阵的模型可视化计算每个模型的性能。


国籍	总图像	正确的预测	错误的预测

中国	540年	511年	29日
俄罗斯	642年	561年	81年
巴基斯坦	582年	527年	55


国籍	总图像	正确的预测	错误的预测

中国	540年	388年	152年
俄罗斯	642年	467年	115年
巴基斯坦	582年	498年	114年

性能指标,被广泛用于评估模型的预测结果精度和召回。结果总结在表4。


	模型与辍学	模型没有辍学

TP	511年	388年
《外交政策》	29日	152年
TN	1088年	968年
FN	81年	144年
回忆(FP)	0.863176	0.729323
FP率	0.025962	0.136079
卡巴	0.904659	0.762491
准确率	90.64626%	76.70068%
精度	0.946296	0.718519

此外,进行统计显著性检验比较两个模型的结果。从评估,第一个模型与辍学层准确率最高(90.65%),而第二个模型没有辍学层准确率最低(76.70%)。

在这项研究中,我们需要一些辍学层插入一些特定的地方在我们的CNN克服过度拟合的障碍,获得高的结果。很难使用一些cnn架构ResNet或SENet因为他们是沉重的,长时间的训练,和很难控制过度拟合的问题很容易在这样的建筑由于困难改变他们的架构。VGG和《盗梦空间》V3也非常沉重的网络培训,很难改变他们的体系结构来控制过度拟合问题。

本文是基于科恩的方法(20.]。科恩的方法测量程度的协议在协议的指定标签纠正的机会。评估,看不见的图片的数量是1764,不包括在训练数据集来评估每个模型的性能。图像中我们发现错误的数量预测使用第二个模型没有辍学层比错误的数量与辍学第一个模型层。

5。结论

在本文中,我们提出一种新的深度学习卷积神经网络用于创建一个新的模型,可以认识到伦理学的人通过他们的面部特征。与两个最先进的模型相比,新模型VGG和《盗梦空间》V3,验证每个卷积神经网络的计算精度。两个模型的创建提出了卷积神经网络与辍学层和没有辍学层发现正规化的影响性能的模型。

一个新的数据集收集使用在训练阶段通过图像识别人的伦理学从三个不同的区域。这个数据集被认为是伦理学的第一个数据集收集的人,将用于研究团体。另一个看不见的数据集收集评估我们的两种模型的性能,并进行统计显著性检验对两种模型的性能进行评估。

数据可用性

收集到的数据已经上传到以下ULR:https://drive.google.com/file/d/1brRMSh7XDR7h5awgXudQXBqxAIiYSHy_/view?usp=sharing。

信息披露

赞助商的资金没有参与这项研究的设计;在收集、分析或解释数据;写的手稿;并决定发表的结果。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由中国国家自然科学基金(批准号61836009和61836009),信息工程国家重点实验室基金(没有。SKLGIE2018-M-4-3),重点实验室开放基金的智能感知与图像理解教育部(没有。IPIU2019007),湖北省重点实验室基金交通物联网(没有。whutiot - 2019004)和自然资源部门的科研项目湖南省(没有的自然资源。201910)。

引用

c·a·汉森人脸识别特罗姆瑟大学计算机科学研究所,Tromsø,挪威,2009。
m·a . Turk和a . p . Pentland“使用eigenfaces人脸识别,”程序的计算机视觉和模式识别IEEE,页586 - 591年,毛伊岛,美国,1991年8月,你好。视图:出版商的网站|谷歌学术搜索
s . Satonkar亚斯b Kurhe Ajay, b·普拉卡什Khanale”人脸识别使用主成分分析和线性判别分析在面部图像数据库整体分析,“IOSR工程杂志,卷2,不。12日,15 - 23,2012页。视图:出版商的网站|谷歌学术搜索
h . Khalajzadeh、m . Mansouri和m . Teshnehlab”人脸识别使用卷积神经网络和简单的逻辑分类器,”软计算在工业应用中施普林格,页197 - 207年,柏林,德国,2014年。视图:谷歌学术搜索
z, h . Tan, w .你们”密集的基于网格的猪的优良性能特征在人脸识别与伽柏和枸杞多糖相比,“IEEE访问》第六卷,2018年。视图:出版商的网站|谷歌学术搜索
l . j .严,y吴et al .,“基于深度学习的人脸识别方法的研究在自然环境中,”《IEEE第八届国际会议上认识科技(iCAST),页501 - 506,台中,台湾,2017年11月。视图:谷歌学术搜索
x y太阳,小王和x唐,“深度学习的脸表示从10000年预测类”《IEEE计算机视觉与模式识别会议哥伦布,页1891 - 1898年,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
王y, y, x, x,“联合身份认证,深度学习的脸表示”诉讼进展的神经信息处理系统加拿大蒙特利尔,页1988 - 1996,,2014年12月。视图:谷歌学术搜索
黄g·b·m·拉梅什t·伯格和e . Learned-Miller”标签面临在野外:数据库为研究人脸识别在不受约束的环境中,“技术代表、马萨诸塞大学阿默斯特,妈,美国,2007年,07-49技术报告。视图:谷歌学术搜索
s . k . Palei s . k . Das,“逻辑回归模型预测的塌顶风险在煤矿巷道、支柱运作:一个方法,”安全科学卷,47号1,第96 - 88页,2009。视图:出版商的网站|谷歌学术搜索
美国许可”,生成和歧视的分类:朴素贝叶斯和逻辑回归,”2005年。视图:谷歌学术搜索
d . Kingma和j .英航“随机优化方法,”2014年,https://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统,25卷,不。2、1097 - 1105年,2012页。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
g·e·辛顿,斯利瓦斯塔瓦,a . Krizhevsky Sutskever,和r . r . Salakhutdinov”改善神经网络通过防止互相适应的特征探测器,“2012年,https://arxiv.org/abs/1207.0580。视图:谷歌学术搜索
s .赌王,p .梁,“辍学训练自适应正则化,”先进的神经信息处理系统,c . Burges l . Bottou m·威林z Ghahramani,和k·温伯格,Eds。,卷。26日,页。351 - 359年,麻省理工学院出版社,剑桥,妈,美国,2013年。视图:谷歌学术搜索
,p . Baldi和p . j .萨多夫斯基“理解辍学”先进的神经信息处理系统,卷。26日,页。2814 - 2822年,麻省理工学院出版社,剑桥,妈,美国,2013年。视图:谷歌学术搜索
刘和w·邓”很深的卷积神经网络为基础的影像分类使用训练样本规模小,”学报》2015年第3 IAPR亚洲会议模式识别(ACPR),页730 - 734,吉隆坡,马来西亚,2015年11月。视图:谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”学报2015年IEEE计算机视觉与模式识别会议(CVPR)美国,波士顿,MA, 2015年6月。视图:出版商的网站|谷歌学术搜索
j·科恩,“名义尺度系数的协议,”教育和心理测量,20卷,不。1,37-46,1960页。视图:出版商的网站|谷歌学术搜索

科学的规划