基于截短的Alexnet级联网络的3D大置脸对准方法

抽象的

旨在以较低的面部对齐方式准确性，基于截短的Alexnet的级联网络在论文中设计和实现。添加了平行的卷积池层以在原始的深卷积神经网络中与平行串联产生串联，从而提高了输出的准确性。将每次迭代的结果发送到CNN中，并重复迭代以优化姿势参数，以获得更准确的面部比对结果。为了验证该方法的有效性，本文对AFLW和AFLW2000-3D数据集进行了测试。数据集上的实验表明，该方法的归一化平均误差为5.00％和5.27％。与当前流行算法的3DDFA相比，精度分别提高了0.60％和0.15％。

1.简介

作为人工智能和面部识别领域的重要研究主题，学术界和工业广泛关注面部对齐。核心是使用计算设备在面部图像中提取像素的语义，该图像具有出色的理论研究意义和实践应用价值。近年来，使用深度学习的应用成功大大提高了面部对齐的准确性。但是，在真实场景中不受限制的条件下，识别问题中仍然存在许多挑战和瓶颈，其中的姿势变化是不容忽视的因素，从而极大地影响了面部对齐的准确性。

目前，主流面对准方法可以分为两类：2D面对准和3D面对准。作为广泛使用的2D面对准方法，Zhang等人。[[1]基于2014年深度多任务学习的拟议面部标记检测，Lee等人。[[2]通过在2019年使用高斯引导的回归网络进行了改进。然后，Zhu等人提出了珍珠的精细形状检索方法。[[3]。在2015年，他们为偏航角小于45°的中小型态度的面部对齐奠定了基础，并且所有地标都是可见的。2D面对齐的步骤可以大致分为脸部预处理，形状初始化，形状预测和输出。

与传统的2D面对齐相比，3D面对准主要使用子空间模型3D面，并通过最大程度地减少图像和模型外观之间的差异来实现拟合，这使得模型性能在不受约束的场景中更加稳健和准确。当然，3D面对准方法中有几种固有的缺陷。对齐结果与平均模型相似。他们缺乏个性化功能。为了解决该问题，Yin等人。[[4]提出了面部识别的3D变形模型。但是，每个图像需要一分钟，这需要太多时间。刘和乔布洛[5]借助稀疏的3D点分布模型将3D变形模型拟合到2D图像；模型参数和投影矩阵由级联线性或非线性回归变量估算，这些变量实现了任何姿势中人脸的比对。但是，恢复面部细节功能的效果仍然不好。然后，刘和乔布洛[6]使用3D脸型建模来改善将地标在大pose面中定位的结果。但是，对齐结果的准确性仍然受到线性参数化3D模型的限制。仍然需要改进大量对准方法。朱等。[[7]改善了大型姿势的面部对齐性能，并解决了传统模型需要可见的地标点的所有三个挑战，这些挑战不适用于侧面；大型姿势将导致面部从前到侧面发生重大变化，并以大姿势找到隐形地标。第一个密集的面部模型已正确解决了第一个[8]，而其他仍然取决于模型的准确性，而仅取决于方法。因此，我们需要更准确和可靠的模型。作为解决方案，我们提出了基于级联的卷积中性网络（CNN-）回归方法。CNN已被证明具有出色的能力，可以从对象检测和图像分类方面有很大变化的图像中提取有用的信息。在此基础上，我们设计了一种基于截短的Alexnet的新级联网络结构，以提高准确性。

2.模型的培训

2.1。功能选择

良好的功能可以使训练有效并提高模型的准确性。为了获得更好的功能，我们设计了一种基于截断的Alexnet的新级联网络结构。

2.1.1。Alexnet

Alexnet基于LENET加深了网络结构[9]。LENET的结构如图所示1。

Alexnet的结构如图所示2。该网络包含五个卷积层和三个完全连接的层。与LENET相比，Alexnet具有更深的网络结构，并使用几个平行的卷积层和合并层来提取图像特征。它还使用辍学和数据增强数据增强来抑制拟合。

2.1.2。基于截短的Alexnet的级联网络结构

基于Alexnet的结构，本文构建了一种新型的截断Alexnet。结构如图所示3。将附加的平行卷积池层添加到原始结构中，以形成截断的Alexnet级联网络。输入图像与迭代的PNCC堆叠为输入，然后并行地卷入网络中。并行结果一起堆叠以形成完整的连接层。

2.1.3。网络结构

3D面对齐的目的是从单个面部图像估算目标。与现有网络不同，基于3DDFA的级联网络结构，我们在完整的连接层之前添加了一个并行的池层和连接步骤。通常，迭代k（（k = 0, 1, …,k），给定初始参数p^k，我们构建了一个专门设计的功能PNCCp^k并训练卷积中性网络网^k预测参数更新△p^k：

之后，一个更好的媒介参数 ^k成为下一个网络的输入具有与。输入是由PNCC堆叠的100×100×3颜色图像。该网络包含八个卷积层，七个合并层和两个完全连接的层。前两个卷积层共享权重以提取低级特征。最后三个卷积层没有共享权重以提取位置敏感特征，该特征进一步回归为256维特征向量。输出是234维参数更新，包括6维姿势参数（F，音高，偏航，滚动，t_2dX，，，，和t_2dy），199维形状参数α_ID，和29维表达参数α_经验。

2.1.4。PNCC

级联CNN的特殊结构具有其输入功能的三个要求。首先，反馈属性要求输入功能应取决于CNN输出以实现级联的方式。其次，收敛属性要求输入功能应反映拟合精度，以使级联反复进行一些迭代后收敛。最后，可探测的属性要求输入功能上的卷积应该有意义。基于这三个属性，我们按以下方式设计我们的功能：首先，3D平均面被标准化为0-1X，，，，y，和z如以下方程式所述。每个顶点的唯一3D坐标称为其归一化坐标代码（NCC）。在哪里是方程式中的平均形状4。由于NCC具有三个频道为RGB，因此我们还以NCC为纹理表现出平均面孔。第二，带有模型参数p，我们采用z- 以下等式，呈现为NCC颜色的预计的3D脸：在哪里从3D网格呈现图像着色t，和v_3d（（p）是当前的3D脸。之后，将PNCC与输入图像堆叠并转移到CNN。预计的归一化坐标代码（PNCC）如图所示4。

2.2。3dmm

Blanz和Basso [10]提出了3D形态模型（3DMM），该模型描述了带有PCA的3D面空间，并且在面部对齐场中广泛使用[11-13]。以下等式显示了3DMM：在哪里s是3D脸，是平均形状，一种_ID是在3D面上训练的原理轴，并以中性表达和α_ID是形状参数，并且一种_经验是在表达扫描和中性扫描和中性扫描和中性扫描和中性扫描之间训练的原理轴α_经验是表达参数。在这项工作中，一种_ID和一种_经验来自巴塞尔面部模型（BFM）和面部软件[14]，分别。然后将3D脸投射到图像平面上，透视投影较弱。在哪里是模型构建和投影函数，导致模型顶点的2D位置，F是比例因子，PR是拼字图投影矩阵，，，，r是由旋转角度，偏航和滚动构建的旋转矩阵，并且t_2d是翻译向量。所有模型参数的集合是p = [F，音高，偏航，滚动，t_2d，α_ID，α_经验这是给予的^t。

2.3。损失功能

在本文中，损失函数在以下公式中显示：在哪里用于测量预测值之间的误差模型的一世^Th样品和真实标签y_一世。如上所述，有必要尽可能最大程度地减少此值，以改善模型和训练集之间的适应性。健身不是最终评估指数，而是测试错误。因此，正则功能参数ω引入以限制模型，以避免过度安装。它在以下等式中显示：

初始学习率为10^-4，批处理大小为8。在15个完成周期迭代后，学习率降低至10^-5。然后，15次迭代后，学习率降低到10^-6。总的来说，进行了40次迭代进行整个培训。

3.讨论和结果

3.1。评估指数

在本文中，归一化平均误差（NME）[15]用于测量面部比对的准确性，而不是欧几里得距离；原因是，小眼距离的轮廓表面的欧几里得距离不准确。NME在以下等式中显示：在哪里X表示给定面孔的地面真相标记，y是相应的预测，d是地面真相边界框的平方根，计算为。

3.2。实验分析

输入是单图，输出结果是面部检测图像，PNCC和姿势估计结果。结果在2.30GHz CPU和GTX1060上构建。桌子1显示最受欢迎的图像数据集及其主要功能。


数据集	尺寸	姿势	annot。	同步。

300-W	4000	[-45°，45°]	2d	n
300W-LP-2D	61225	[-90°，90°]	2d	y
300W-LP-3D	61225	[-90°，90°]	3D	n
AFLW2000-3D	2000	[-90°，90°]	3D	n
300-VW	218595	[-45°，45°]	3D	n

为了在本文中验证大量姿势的面部对准方法的效果，实验结果基于野生（AFLW）的注释面部标志。AFLW Face数据库是一个数据集，该数据集由各种自然情况下的面部图片组成，并且标记了地标。该数据库适合面部识别，面部检测，面部对齐和其他研究。桌子2和数字5显示主流算法的比较。其中，ESR [16]（明确的形状回归），SDM [17（有监督的下降法），LBF [18]（本地二进制功能），CFSS [3]（外套到细小的搜索），RCPR [19]（强大的级联姿势回归），rmfa [20（限制平均场近似）和3DDFA [21]是基于级联回归的流行方法。


方法	AFLW数据集（21分）				AFLW2000-3D数据集（68分）
方法	[0°，30°]	[30°，60°]	[60°，90°]	意思	[0°，30°]	[30°，60°]	[60°，90°]	意思

LBF	6.24	8.38	14.37	9.66	6.17	16.48	25.9	16.19
ESR	5.66	7.12	11.94	8.24	4.38	10.47	20.31	11.72
CFSS	3.78	7.57	12.53	7.96	3.44	10.9	24.72	13.02
RCPR	5.43	6.58	11.53	7.85	4.16	9.88	22.58	12.21
SDM	4.75	5.55	9.34	6.55	3.56	7.08	17.48	9.37
RMFA	5.21	5.11	7.16	5.83	4.96	8.44	13.93	9.11
3DDFA	5.00	5.06	6.74	5.60	3.78	4.54	7.93	5.42
我们的	4.43	4.65	5.92	5.00	3.61	4.52	7.07	5.27

通过比较表中的实验结果2和数字5和6，它显示了结果的准确性。与3DDFA算法作为主要参考对象相比，AFLW2000和AFLW2000-3D的NME分别降低至5.00％和5.27％，这比几种流行的面孔对齐算法要好，该算法显示了该方法的有效性和准确性。输出结果来自数字7-9。其中，人物7（a），，，，8（a），和9（a）是具有里程碑意义的标签的结果。人物7（b），，，，8（b），和9（b）是PNCC。数字中的立方体7（c），，，，8（c），和9（c）是当前面的姿势估计。它表明本文中的算法在每个姿势中都具有良好的对齐结果。

（一种）

（b）

（C）

（一种）

（b）

（C）

（一种）

（b）

（C）

4。结论

在本文中，提出了一种使用级联统一网络结构的面部对准方法，以进行大量面部对齐。通过使用深度卷积神经网络反复迭代并使用迭代结果返回面部特征点，可以实现大订单环境中的面部对齐，并通过使用归一化的平均误差函数来评估对准准确性，从而改善了结果。实验结果表明，该方法在准确性方面具有明显的优势。但是，在算法的效率方面仍然需要提高它。同时，在存在外部遮挡的情况下，很难实现准确的面部对齐。这些问题需要进一步研究和讨论，这将是后续研究工作的重点。

数据可用性

没有使用数据来支持这项研究。

利益冲突

作者宣称他们没有利益冲突。

致谢

这项工作得到了上海师范大学的一般项目的支持。

参考

Z。计算机视觉论文集 - ECCV，第94-108页，瑞士苏黎世，史普林格，2014年9月。查看：谷歌学术
Y. Lee，T。Kim，T。Jeon，H。Bae和S. Lee，“使用高斯指导回归网络的面部地标检测”，in2019年第34届国际电路/系统，计算机和通信技术会议论文集（ITC-CSCC），第1-4页，韩国济州岛，2019年12月。查看：谷歌学术
S.2015年IEEE计算机视觉和模式识别会议论文集（CVPR），第4998–5006页，美国马萨诸塞州波士顿，2015年6月。查看：谷歌学术
Y. Yin，W。Wan，C。Yang和S. Miao，“基于FEM的3D模型变形中体素的特定材料特性”，在2014年音频，语言和图像处理国际会议论文集，第792–796页，中国上海，2014年1月。查看：谷歌学术
A.2015年IEEE国际计算机愿景会议论文集（ICCV），第3694–3702页，圣地亚哥，美国CL，2015年12月。查看：谷歌学术
A. Jourabloo和X. Liu，“通过基于CNN的密度3D模型拟合的大量面孔对齐”，2016年IEEE计算机视觉和模式识别会议论文集（CVPR），第4188–4196页，2016年6月，美国新南威尔士州拉斯维加斯。查看：谷歌学术
X.2016年IEEE计算机视觉和模式识别会议论文集（CVPR），第146–155页，2016年11月，美国内华达州拉斯维加斯。查看：谷歌学术
Y. Guo，J。Zhang，J。Cai，B。Jiang和J. Zheng，“基于CNN的实时密集面部重建，具有反渲染的照片 - 真实面部图像，”IEEE关于模式分析和机器智能的交易，卷。41，不。6，第1294–1307页，2019年。查看：发布者网站|谷歌学术
G. Wang和J. Gong，“基于改进的Lenet-5 CNN的面部表达识别”，2019年中国控制与决策会议论文集（CCDC），第5655–5660页，中国南昌，2019年11月。查看：谷歌学术
T. V. Basso和V. Blanz，“正规化3D形态模型”，3D建模和运动分析中关于高级知识的第一届IEEE国际国际研讨会论文集2003，第3-10页，尼斯，法国，2003年10月。查看：谷歌学术
L. Tran，F。Liu和X. Liu，“朝着高保真非线性3D面向变形模型”，2019年IEEE/CVF计算机视觉和模式识别会议会议论文集（CVPR），第1126–1135页，美国加利福尼亚州长滩，2019年4月。查看：谷歌学术
Y.2018年IEEE第四届计算机通信国际会议（ICCC）会议记录，第1488–1492页，中国成都，2018年10月。查看：谷歌学术
S. Ploumpis，H。Wang，N。Pears，W。A. P. Smith和S. Zafeiriou，“结合3D形态模型：大型面部和头模型”，2019年IEEE/CVF计算机视觉和模式识别会议会议论文集（CVPR），第10926–10935页，美国加利福尼亚州长滩，2019年3月。查看：谷歌学术
C. Cao，Y。Weng，S。Zhou，Y。Tong和K.IEEE可视化和计算机图形交易，卷。20，否。3，第413–425页，2014年。查看：发布者网站|谷歌学术
F. Liu，D。Zeng，J。Li和Q.-J.赵，“在形状空间中级联回归的3D脸重建”，”信息技术和电子工程的前沿，卷。18，不。12，第1978– 1990年，2017年。查看：发布者网站|谷歌学术
X. Cao，Y。Wei，F。Wen和J. Sun，“面部对齐方式，明确的形状回归”，在2012年IEEE计算机视觉和模式识别会议论文集，第2887–2894页，美国RI，2012年6月。查看：谷歌学术
R. Ranjan，S。Sankaranarayanan，A。Bansal等人，“深入了解面孔：机器可能比人类一样好，或者更好，”IEEE信号处理杂志，卷。35，不。1，第66–83页，2018年。查看：发布者网站|谷歌学术
S. Ren，X。Cao，Y。Wei和J. Sun，“通过退缩局部二进制特征在3000 fps处对齐”，in2014年IEEE计算机视觉和模式识别会议论文集，第1685–1692页，美国俄亥俄州哥伦布，2014年10月。查看：谷歌学术
X. P. Burgos-Artizzu，P。Perona和P.Dollár，“在遮挡下稳健的地标估计”，2013年IEEE国际计算机愿景会议论文集，第1513–1520页，澳大利亚新南威尔士州悉尼，2013年9月。查看：谷歌学术
F. X. Chen，F。Liu和Q. J. Zhao，“基于级联的2D/3D脸型回归的稳健的多视脸对齐”，在中国生物识别识别会议论文集，第40-49页，施普林格·弗拉格（Springer-verlag），中国朱布，2016年10月。查看：谷歌学术
X.IEEE关于模式分析和机器智能的交易，卷。41，不。1，第78–92页，2019年。查看：发布者网站|谷歌学术

凝结物理学的进步

来自元信息和超材料的光场控制和全光信息处理

抽象的

1.简介

2.模型的培训

2.1。功能选择

2.1.1。Alexnet

2.1.2。基于截短的Alexnet的级联网络结构

2.1.3。网络结构

2.1.4。PNCC

2.2。3dmm

2.3。损失功能

3.讨论和结果

3.1。评估指数

3.2。实验分析

4。结论

数据可用性

利益冲突

致谢

参考

版权

更多相关文章

相关文章