SP 科学的规划 1875 - 919 x 1058 - 9244 Hindawi 10.1155 / 2020/6385281 6385281 研究文章 通过人脸识别识别民族的人:深CNN的方法 https://orcid.org/0000 - 0002 - 3355 - 6596 AlBdairi 艾哈迈德贾瓦德。 1 2 https://orcid.org/0000 - 0001 - 5645 - 160 x 1 Alghaili 默罕默德 1 至岑溪 1 计算机科学和电子工程学院 湖南大学 长沙410082 中国 hnu.edu.cn 2 计算机中心 大学的巴比伦 Hillah 巴比伦 伊拉克 uobabylon.edu.iq 2020年 14 7 2020年 2020年 11 2 2020年 29日 4 2020年 15 6 2020年 14 7 2020年 2020年 版权©2020 Ahmed Jawad AlBdairi et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

人脸识别研究的兴趣在过去十年里发展迅速。人脸识别最重要的一个问题是伦理学的识别人。在这项研究中,一个新的深度学习卷积神经网络的目的是创建一个新的模型,可以认识到伦理学的人通过他们的面部特征。伦理学的新数据集的人由3141张图片来自三个不同的民族。我们所知,这是第一个图像数据集收集人们的伦理学,数据集将用于研究团体。与两个最先进的模型相比,新模型VGG和《盗梦空间》V3,验证每个卷积神经网络计算精度。生成的模型通过几个人的图像进行了测试,结果表明,最佳的性能是通过我们的模型验证的准确性为96.9%。

中国国家自然科学基金 61836009 61702175 信息工程国家重点实验室 SKLGIE2018-M-4-3 中华人民共和国教育部的 IPIU2019007 湖北交通物联网的重点实验室 whutiot - 2019004 自然资源部门的科研项目湖南的自然资源 201910年
1。介绍

人脸识别领域最近增加的范围。人脸识别是指识别人的能力从一个图像或视频帧。许多技术已经用于人脸识别。第一个方法是使用一个2 d模式识别问题的一个重要的点之间的距离在一个图像用于识别脸部( 1),如计算眼睛之间的距离和其他重要的点之间的距离。

另一种技术叫做整体匹配技术完成面临地区考虑到抓脸系统作为输入数据。最重要的研究,使用这种技术是eigenfaces [ 2)、主成分分析和线性判别分析( 3]。

基于特征结构技术是另一个技术用于人脸识别的地方特色的脸首先提取及其位置和地方统计数据被送入一个结构分类器。

整体和特征提取技术一起使用,新技术被称为混合动力技术,使用3 d图像。人的脸的图像是在3 d;系统后,将会注意等重要特性曲线或形状的脸。系统后,检测图像是否照片或实时确定的位置的脸,和措施的曲线和形状的重要特征脸,面对转换成数值表示和匹配这个数值表示的数据集的面孔。

人脸识别中最重要的技术,最近出现了使用卷积神经网络(CNN) [ 4]。虽然很多CNN用于人脸识别的研究,这些研究提出了一个健壮的模型识别民族的人通过与分类精度高的人脸上有一些相似之处与不同的道德。

出于这一点,我们提出两个新的模型人脸识别与正规化和没有正规化,他们有能力认识到伦理学和起源的人通过他们的脸的面部。指定,本文的主要贡献是提出了一种人脸识别模型,可以检测的详细特征脸和区分他们使用RGB图像或实时人脸识别。道德不同的人可以通过提取最公认的使用这个模型的详细特性人们的面孔。收集新数据集的目的与高分辨率从三个不同的地区在亚洲。这些图片收集来自像Facebook这样的社交媒体和VK(俄罗斯社交媒体网站)。最后,我们取得了一个有前途的性能测试的另一个数据集收集目的。

本文的其余部分组织如下。部分 2介绍了相关的工作。部分 3显示了人脸识别的网络设计。新模型的实验和结果给出了部分 4。部分 5总结了纸。

2。相关工作

人脸识别方法提出了基于网格密度直方图的梯度(猪) 5]。在这个研究中,面对图像被分为许多密集的网格猪的特征提取。之后,这些猪网格特征向量是由实现功能的表达整个脸部,和<我talic> k最近的邻居分类器是用于识别。作者使用面数据集训练阶段复杂变化的照明,时间和环境,测试伽马照明修正,空间梯度方向,块的大小,标准化,脸图像分辨率发现和分析最优猪为人脸识别参数。FERET数据库是一个数据集用于面部识别系统评估。

有许多方法在人脸识别具有较高的识别精度,基于深度学习。之一,这些方法有良好的效果在受限环境以及自然环境( 6]。作者改进的方法multipatches利用4区域的补丁的脸。为了有更高的性能,他们还使用了一个联合贝叶斯(JB)测量验证。模型已经被一组训练CASIA WebFace和测试的标签在野外伦敦时装周开幕。

学习的人脸识别提出了另一项研究[ 7]。作者认为,DeepID可以有效地学会了通过富有挑战性的多级人脸识别任务。此外,DeepID泛化能力的增加越来越多的面临类预测在训练。他们利用约10000脸识别训练集生成的模型。验证准确性达到79.45% LFW数据集。深有4个卷积层在事先Maxpooling提取特征分层次其次是完全连接DeepID层并将softmax输出层表明身份类。

发展有效的特征表示为减少内心的变化而扩大人际差异在另一项研究(人脸识别已经得到解决 8使用深度学习和使用面部识别和验证信号监督。的身份认证功能(DeepID2)由深卷积网络学习。脸识别任务增加了人际关系的变化通过DeepID2特性提取不同的身份,和面对验证任务减少了内心的变化通过DeepID2特性提取相同的身份。面对验证准确性,通过LFW数据集上的测试方法( 9)是99.15%,这个精度不同于验证精度。错误率明显减少了67%相比之前最好的深度学习结果( 7]。

提出了另一种方法对人脸识别的卷积神经网络(CNN)和逻辑回归分类器(荣誉奖)相结合 4]。CNN用来提取特征来检测和识别脸部图像和荣誉奖( 10, 11)用于卷积神经网络学习的特点进行分类。CNN在这项研究中使用的结构由四层:输入层、两个卷积层,和一个二次抽样层。第一层是64×64;因此,数据集被调整大小,大小兼容拟议的结构和输出层是一个完全连接层与15个特征图1×1的大小。

在我们的研究中,我们建立两个模型,辍学,没有辍学层发现在培训这一层的效果。本研究涉及伦理学的认可的人通过他们的面部特征通过这两个模型。我们使用一个新的CNN正规化辍学层和没有正规化找到最准确的性能。在训练中,我们使用亚当优化器( 12学习速率为0.001和分类熵损失函数。生成的模型可以检测的详细特征脸从RGB图像或通过一个相机。

3所示。卷积的深度学习的人脸识别 3.1。使用深度学习民族识别

我们的深度学习层由12层。四个层Conv层,每个随后Maxpooling层,其中一些Conv层也紧随其后辍学层Maxpooling后层提取面部特征。连接层下降后放置四个Conv层之间的分隔符和两个完全连接层。下降的输出连接层传递给平层平输出之前通过第一个完全连接层。两者之间完全连接层,另一个辍学层使用。将softmax输出层用于识别的类。使用辍学层的目的是摆脱期间过度拟合训练。图 1显示了网络层的整个结构预测<我talic> n类(例如,<我talic> n3),预测类的数目吗<我talic> n可以扩展到包含尽可能多的民族。

。事先层。广场内的小长方体表示每个Conv层的地图窗口大小。

这个网络的输入是一个图像的128×128×3大小(例如,3特征图)。补丁的大小是3×3相同的填充在每个Conv层和跨越1使Conv层大小大致相同的输出作为输入。每个Conv层的输出传递给Max-Pooling层来减小输入大小。之后,每个Maxpooling层的输出是美联储ReLU激活函数。Conv层特性映射方程 (1) f x j r = 马克斯 0 , b j r n = 1 k j r x r , 在哪里<我nl我ne-formula> f x j r 是<我nl我ne-formula> j th 输出卷积层在一个特定地区的补丁<我nl我ne-formula> r 和<我nl我ne-formula> x r 是<我nl我ne-formula> th 输入补丁在一个特定的地区<我nl我ne-formula> r 卷积层。第一次卷积层的输入是一个图像的大小<我nl我ne-formula> 128年 × 128年 分为区域根据窗口大小的块<我nl我ne-formula> 3 × 3 ,因为它显示在图 1。<我nl我ne-formula> b j r 的偏见<我nl我ne-formula> j th 输出块在同一特定区域<我nl我ne-formula> r 。<我nl我ne-formula> k j r 之间的卷积核吗<我nl我ne-formula> th 输入补丁和<我nl我ne-formula> j th 输出的补丁,而乘法<我nl我ne-formula> k j r 和<我nl我ne-formula> x r 表示卷积。

每个卷积的输出层传递给Maxpooling。Maxpooling层的公式如下: (2) f x j k = 马克斯 0 , n < 年代 z x j 年代 z + , k 年代 z + n

的神经元<我nl我ne-formula> th 输出的补丁<我nl我ne-formula> f x 池在<我nl我ne-formula> 年代 z × 年代 z 局部地区的<我nl我ne-formula> th 输入补丁<我nl我ne-formula> x 。Maxpooling层在每个Conv层的输出传递给ReLU非线性<我nl我ne-formula> f x = 马克斯 0 , x 。ReLU集所有负输入<我nl我ne-formula> x 零和其他值都保持不变,它显示了乙状结肠函数拟合能力比( 13]。

一些Conv输出传递给网络中辍学防止过度拟合。辍学层使用的数量是三个,其中两个用于第二个和第三个Conv层后,第三个是最后两个完全连接层之间使用。

最后一层是两个完全连接层与辍学层之间。这个方程可以表示如下: (3) f c = 马克斯 0 , x 1 w 1 , j 1 + 马克斯 0 , DOut x w , j , 在哪里<我nl我ne-formula> x 1 和<我nl我ne-formula> w 1 , j 1 表示前一层神经元和权重,分别。的输出传递给第一个完全连接层<我nl我ne-formula> DOut 率是0.5和输出的哪里<我nl我ne-formula> DOut 传递到最后完全连接层。<我nl我ne-formula> x 和<我nl我ne-formula> w , j 表示第一个完全连接层的神经元和权重传递他们之前<我nl我ne-formula> DOut 层。

事先的输出<我nl我ne-formula> n - - - - - -<我nl我ne-formula> 的方式 softmax预测面临的伦理<我talic> n不同的伦理。将softmax工作如下: (4) y = 经验值 x j = 1 n 经验值 x j , 在哪里<我nl我ne-formula> x 是一个向量的输入到输出层,它表示最重要的特征用于识别的脸。的输出向量计算<我nl我ne-formula> x j 在哪里<我nl我ne-formula> x 输出的指数在吗<我nl我ne-formula> n ,例如,数量的类。

3.2。辍学层网络

有时在测试阶段,结果由于训练误差是不准确的。研究人员认为,因为过度拟合的 14),强大的正则化像辍学 15用于解决这个问题。辍学的想法是退出一些神经元在神经网络中神经元与概率随机选择<我talic> 问= 1−<我nl我ne-formula> p 。当神经元辍学,这意味着其输入和输出连接将被忽略,这将允许每个神经元学习有用的东西没有过多依赖其他神经元纠正其缺点( 16, 17]。图 2说明了辍学的念头。

神经元的培训与辍学。隐藏的神经元与伯努利分布随机辍学<我nl我ne-formula> p

输入和输出的每个补丁应用辍学之前计算如下: (5) x l + 1 = w l + 1 y l + b l + 1 , (6) y l + 1 = 房颤 x l + 1 , 在哪里<我nl我ne-formula> l 表示网络层的索引。<我nl我ne-formula> x l + 1 输入补丁和吗<我nl我ne-formula> y l + 1 是在隐层输出补丁吗<我nl我ne-formula> l = 1 , , l 2 ,层<我nl我ne-formula> l 。<我nl我ne-formula> w l + 1 是重量和<我nl我ne-formula> b l + 1 是偏见。<我nl我ne-formula> 房颤 表示激活函数。辍学时发生执行以下操作: (7) σ l 伯努利 p , (8) y l = σ l y l , (9) x l + 1 = w l + 1 y l + b l + 1 , (10) y l + 1 = 房颤 x l + 1 , 在哪里<我nl我ne-formula> 是由元素和元素的乘法<我nl我ne-formula> σ l 是伯努利随机变量的<我nl我ne-formula> th 在层神经元<我nl我ne-formula> l 概率是1。

3.3。培训两个网络

第一个网络层组成的12层包括辍学层。这个网络的训练准确率是96.9%,验证准确率是96.9%确认损失0.221这意味着过度拟合已经彻底消除,如图 3。在第二个网络,辍学层都省略了,训练精度检查。网络的训练准确率是100%,验证准确率是96.9%,和最少的验证损失是0.525。这意味着过度拟合非常高,因此,创建模型的错误率,网络不仅仅是在第一网络。数据 3 4显示每个网络的训练精度和验证精度。图的训练精度 4时代18号是100%,准确率并没有改变,直到结束的这意味着过度拟合训练错误率很高,因此比错误率在第一网络。

培训和验证准确性第一网络。

培训和验证准确性第二网络。

4所示。实验 4.1。实验训练数据集

尽管有许多大规模的面部图像数据库网上,但所有这些数据库不适当的满足本研究的目标。因此,我们手动收集来自不同资源的3141张照片。我们收集了1081中国面部图像,1021名巴基斯坦面部图像,和1039年俄罗斯的面部图像。在收集的图片,他们从整个提取人脸图像处理。总图像后,被分成两组;第一组被用于训练阶段,我们把整个图像的70%,另外30%的图像作为第二组验证阶段。图 5显示了新数据集的一个子集。

三种不同子集的图片收集来自三个不同的地区。

4.2。与最先进的方法

选择两种最先进的方法,每种方法的最后四层已被冻结和使用我们的完全连接层来确定输出的数量根据数据集的类的数量。这些方法是VGG [ 18)和《盗梦空间》V3 ( 19]。培训是在特斯拉K80 GPU谷歌Colaboratory所提供的自由。结果表明,我们的方法验证准确性最高和最不验证的损失。表 1显示了训练的结果我们的网络和两种先进的方法。

比较我们的方法和两种最先进的方法验证率和验证损失值。

方法 验证acc。(%) 损失
VGG 91.48 0.23
《盗梦空间》V3 61.92 0.81
我们的网络 96.9 0.22

对比我们的方法和两种最先进的方法VGG和《盗梦空间》V3表所示 1在那里观察到我们的方法验证准确性最高(96.6%)和验证(0.22)损失越少,如图 3正则化。图 4表明,我们的方法没有正规化验证精度相同(例如,96.6%),但损失函数值是不同的(0.525),这表明有一个过度拟合问题,而验证的准确性VGG和《盗梦空间》V3(91.48%)和(61.92%)和验证(0.23)和(0.81),分别如图 6 7

培训和验证VGG准确性。

培训和验证准确性初始V3。

2 3总结总数为每个类别的图像,图像的数量正确预测和图像的数量为两个模型预测错误。混淆矩阵的模型可视化计算每个模型的性能。

数字图像的预测与辍学正确和不正确的网络层。

国籍 总图像 正确的预测 错误的预测
中国 540年 511年 29日
俄罗斯 642年 561年 81年
巴基斯坦 582年 527年 55

数字图像预测正确和不正确的网络没有辍学层。

国籍 总图像 正确的预测 错误的预测
中国 540年 388年 152年
俄罗斯 642年 467年 115年
巴基斯坦 582年 498年 114年

性能指标,被广泛用于评估模型的预测结果精度和召回。结果总结在表 4

统计每个模型的显著性检验。

模型与辍学 模型没有辍学
TP 511年 388年
《外交政策》 29日 152年
TN 1088年 968年
FN 81年 144年
回忆(FP) 0.863176 0.729323
FP率 0.025962 0.136079
卡巴 0.904659 0.762491
准确率 90.64626% 76.70068%
精度 0.946296 0.718519

此外,进行统计显著性检验比较两个模型的结果。从评估,第一个模型与辍学层准确率最高(90.65%),而第二个模型没有辍学层准确率最低(76.70%)。

在这项研究中,我们需要一些辍学层插入一些特定的地方在我们的CNN克服过度拟合的障碍,获得高的结果。很难使用一些cnn架构ResNet或SENet因为他们是沉重的,长时间的训练,和很难控制过度拟合的问题很容易在这样的建筑由于困难改变他们的架构。VGG和《盗梦空间》V3也非常沉重的网络培训,很难改变他们的体系结构来控制过度拟合问题。

本文是基于科恩的方法( 20.]。科恩的方法测量程度的协议在协议的指定标签纠正的机会。评估,看不见的图片的数量是1764,不包括在训练数据集来评估每个模型的性能。图像中我们发现错误的数量预测使用第二个模型没有辍学层比错误的数量与辍学第一个模型层。

5。结论

在本文中,我们提出一种新的深度学习卷积神经网络用于创建一个新的模型,可以认识到伦理学的人通过他们的面部特征。与两个最先进的模型相比,新模型VGG和《盗梦空间》V3,验证每个卷积神经网络的计算精度。两个模型的创建提出了卷积神经网络与辍学层和没有辍学层发现正规化的影响性能的模型。

一个新的数据集收集使用在训练阶段通过图像识别人的伦理学从三个不同的区域。这个数据集被认为是伦理学的第一个数据集收集的人,将用于研究团体。另一个看不见的数据集收集评估我们的两种模型的性能,并进行统计显著性检验对两种模型的性能进行评估。

数据可用性

收集到的数据已经上传到以下ULR: https://drive.google.com/file/d/1brRMSh7XDR7h5awgXudQXBqxAIiYSHy_/view?usp=sharing

信息披露

赞助商的资金没有参与这项研究的设计;在收集、分析或解释数据;写的手稿;并决定发表的结果。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由中国国家自然科学基金(批准号61836009和61836009),信息工程国家重点实验室基金(没有。SKLGIE2018-M-4-3),重点实验室开放基金的智能感知与图像理解教育部(没有。IPIU2019007),湖北省重点实验室基金交通物联网(没有。whutiot - 2019004)和自然资源部门的科研项目湖南省(没有的自然资源。201910)。

汉森 c。 人脸识别 2009年 Tromsø、挪威 特罗姆瑟大学计算机科学研究所 土耳其人 m·A。 Pentland 答:P。 人脸识别使用eigenfaces 程序的计算机视觉和模式识别 1991年8月 毛伊岛,嗨,美国 IEEE 586年 591年 10.1109 / CVPR.1991.139758 Satonkar亚斯 年代。 Kurhe Ajay B。 普拉卡什Khanale B。 人脸识别整体上使用主成分分析和线性判别分析方法在面部图像数据库 IOSR工程杂志 2012年 2 12 15 23 10.9790 / 3021 - 021241523 Khalajzadeh H。 Mansouri M。 Teshnehlab M。 人脸识别使用卷积神经网络和简单的逻辑分类器 软计算在工业应用中 2014年 柏林,德国 施普林格 197年 207年 Z。 唐ydF4y2Ba H。 W。 密集的基于网格的猪的优良性能特征在人脸识别相比,伽柏和枸杞多糖 IEEE访问 2018年 6 10.1109 / access.2018.2813395 2 - s2.0 - 85043483771 J。 l Y。 基于深度学习的人脸识别方法研究自然环境 《IEEE第八届国际会议上认识科技(iCAST) 2017年11月 台中,台湾 501年 506年 太阳 Y。 X。 X。 深度学习的脸表示从10000年预测类 《IEEE计算机视觉与模式识别会议 2014年6月 美国哥伦布,哦 1891年 1898年 10.1109 / CVPR.2014.244 2 - s2.0 - 84911126535 太阳 Y。 Y。 X。 X。 深度学习的脸表示联合身份认证 诉讼进展的神经信息处理系统 2014年12月 加拿大蒙特利尔 1988年 1996年 g . B。 拉梅什 M。 伯格 T。 Learned-Miller E。 标签面临在野外:数据库为研究人脸识别在不受约束的环境中 2007年 阿默斯特,美国马 马萨诸塞大学 技术报告07-49 Palei 美国K。 达斯 美国K。 逻辑回归模型预测的塌顶风险在煤矿巷道、支柱运作:一个方法 安全科学 2009年 47 1 88年 96年 10.1016 / j.ssci.2008.01.002 2 - s2.0 - 56949086320 许可 年代。 生成和歧视的分类器:朴素贝叶斯和逻辑回归 2005年 Kingma D。 英航 J。 一个随机优化方法 2014年 https://arxiv.org/abs/1412.6980 Krizhevsky 一个。 Sutskever 我。 辛顿 g . E。 Imagenet与深卷积神经网络分类 先进的神经信息处理系统 2012年 25 2 1097年 1105年 K。 X。 年代。 太阳 J。 深层残留图像识别的学习 《IEEE计算机视觉与模式识别会议 2016年6月 美国内华达州拉斯维加斯 770年 778年 10.1109 / CVPR.2016.90 2 - s2.0 - 84986274465 辛顿 g . E。 斯利瓦斯塔瓦 N。 Krizhevsky 一个。 Sutskever 我。 Salakhutdinov R R。 改善神经网络通过防止互相适应的特征探测器 2012年 https://arxiv.org/abs/1207.0580 年代。 年代。 P。 Burges C。 Bottou l 威林 M。 Ghahramani Z。 温伯格 K。 辍学训练自适应正则化 先进的神经信息处理系统 2013年 26 美国剑桥,马 麻省理工学院出版社 351年 359年 Baldi P。 Sadowski p . J。 了解辍学 先进的神经信息处理系统 2013年 26 美国剑桥,马 麻省理工学院出版社 2814年 2822年 年代。 W。 很深的卷积神经网络为基础的影像分类使用小训练样本大小 学报》2015年第3 IAPR亚洲会议模式识别(ACPR) 2015年11月 吉隆坡,马来西亚 730年 734年 Szegedy C。 W。 Y。 与旋转会更深 学报2015年IEEE计算机视觉与模式识别会议(CVPR) 2015年6月 波士顿,美国 10.1109 / CVPR.2015.7298594 2 - s2.0 - 84937522268 科恩 J。 一个协议名义尺度系数 教育和心理测量 1960年 20. 1 37 46 10.1177 / 001316446002000104 2 - s2.0 - 84973587732