文摘
如何准确地重建人脸三维模型是计算机视觉中的一个挑战问题。由于面临重建的复杂性和多样性面临特性,大多数现有的方法旨在重建一个平滑的脸模型忽略细节。本文基于小说深层学习提出了重建方法。它包含两个模块:初始合成人脸重建和细节。在最初面对重建模块,神经网络是用于检测造成的面部特征点和角度的脸,和3 d Morphable模型(3 dmm)用于重建的脸的形状模型。面对细节合成模块,有条件的代对抗网络(CGAN)是用于合成位移映射。地图提供纹理特性呈现于面部表面重建,以反映面部细节。我们的提议是由Facescape评估数据集的实验,取得了更好的性能比其他现有方法。
1。介绍
脸是最重要的一个人类的生物学特性,和脸建模通常用于安全、动画、生物识别技术等领域(1,2]。近年来,由于2 d图像的局限性,人类面临的研究已经逐渐从二维平面图像转向三维空间模型。
真实感三维人脸重建的步骤是非常复杂的重建的一步一步。此外,这种重建模型将导致更多的数据丢失和不准确性。强调这个问题,一步重建模型(见图1)。重建系统分为两个部分:初始面临重建模块和面对细节合成模块,并且都是基于深度学习(3]。最初面临重建模块主要负责脸对齐。监督学习方法是用来训练60 k的脸从300年w-lp图像数据集获取相应的字典。在这个过程中,CNN网络用于调整负面的脸和检测他们的特征点。特征点的输入的主成分分析(PCA)的基础3 dmm [4获得一个粗略的脸型。面对细节合成模块是基于CGAN,输入的原始图像合成位移贴图,和位移映射保留更完整细节的脸5]。面对细节合成模块是指DFDN培养高质量图像和训练数据,这可以从原始图像合成位移贴图。
在本文中,我们提出一个重建系统恢复面部的细节模型。重建系统可以更好地解决面临的问题提出重建和面部表情从输入图像重建。重建的面部细节合成模块系统可以从输入图像中提取面部特征和综合位移映射包含大部分的细节目标的脸。与最初的形状模型相比,用位移贴图细节脸模型有更好的视觉效果和更精确的数据。
剩下的纸是组织如下。部分2描述了3 d脸上研究者的相关工作。部分3描述最初面临重建模块。部分4面对合成模块作了详细描述。部分5实验和分析。部分6总结了纸。
2。相关工作
与应用程序的深度学习图形的方法,从二维平面图像过渡到三维空间模型已成为流行的研究方向之一。Blanz等人提出的概念3 dmm和获得了巴塞尔脸模型(BFM)培训对象和相关数据收集的深度相机(6]。参数化BFM的普遍特点是一个人的脸,和一个畸形的三维模型可以通过输入形状,质地,和属性参数。大量的3 dmm-based算法已经提出。Tran等人提出了一个非线性三维面变形模型方法(7),使用大量的无约束的照片作为训练对象培训新架构3 dmm不使用三维扫描设备。Galteri等人使用CGAN提炼3 dmm [8]。
除了传统的3个数字,一个端到端的基于深度学习的方法也可以更好的重建三维人脸模型。端到端方法可以执行脸对齐输入脸上的形象。在向量空间中,检测到的特征点被映射到面对密集的点云模型。这个方法既简单又快捷。相比与传统的3个数字,在大多数情况下它的准确性更高。姚等人设计PRNet [9)基于CNN网络结构和深层残留网络和使用紫外线向量空间完成真实感三维人脸模型的映射。杰克逊等人提出了一个结合3 dmm和CNN VRN [10)重建的模型nonfrontal脸图像。Tran等人使用端到端神经网络重建的细节极端面(11]。
面模型的渲染也是一个关键组成部分。野生动物等人提出了昏迷的方法生成头网络和一个MPI-IS网格处理库用于呈现(12]。MPI-IS网格处理库是一种有效的三维模型的渲染工具。李等人设计了一个火焰模型渲染的基本形状和表达式的脸模型(13]。Sanyal等人提出了基于火焰RingNet [14]。RingNet可以通过输入面图像和重建头部模型能更好地模拟面部表情。深真实感三维人脸重建方法提出了邓et al。15]。这种方法是基于3 dmm和粗糙的面部表情16),使模型更加准确。
3所示。最初面临重建模块
最初面临重建模块是关键模块提出了重建系统。这个模块输出直接输入面图像的初始模型,其中包括姿势脸对齐,特征点检测和模型拟合。
3.1。粗糙面模型的建设
3.1.1。脸对齐
在我们的方法中,特征点坐标作为输入3 dmm基于PCA算法构建参数化模型。
因为手动标记是耗时和劳动密集型的,传统的特征点检测是在鲁棒性和准确性,我们使用一个CNN的脸对齐处理nonfrontal脸图像。本文使用DLIB库来检测特征点。DLIB图书馆使用回归树组级联(17)生成特征点模型通过监督学习和训练图像集和特征点的注释。输入一个图像,该算法将产生最初的基于目标形状的脸,大约估计特征点的位置。然后,梯度增强算法来减少误差之间的初始形状和真正的里程碑,并使用最小二乘法最小化误差获取级联每一个阶段。 在哪里是级联的数量回归,的形状向量th二级级联回归是输入图像。级联的重点是回归量根据图像像素强度值和指数预测它相对于当前形状向量 。nonfrontal脸图像的特征点分为两个部分:有形和无形的。自后者是很难预测的,深度学习方法可以有效地处理这个问题。
我们训练60 k的脸脸偏转角数据和图像特征点坐标数据在300 w-lp数据集(18)获得一本字典。通过索引字典,发现输出索引目标接近的偏转角输入面图像。此外,指的主要组件的重量设置指PRNet人脸的特征点附近的眼睛,鼻子,嘴巴被赋予更大的权重,突出模型的变化和识别 在哪里检测到面部特征点的坐标是重量。图2显示了一个示例的特征点检测。
3.1.2。3 dmm面临重建
光滑表面的粗糙面模型相对平均,没有太多的面部细节但包含大部分的深度信息的脸。输入面图像拟合模型会改变顶点,BFM和拓扑网络将平均脸模型。方法本文采用BFM2017 [19)适合3 d面对更少的细节。
把原始图像作为输入,假设网格顶点坐标的三维模型 。根据方程(特征点2)是用来计算主成分分析的参数。根据(6),形状向量的初始模型 在哪里是影响权重系数。
根据平均脸的形状从200年的训练集图像,获得每张脸的形状之间的差异模型和平均脸的形状 计算协方差矩阵的形状向量。通过主成分分析,正交坐标系由特征向量的转化为基础:
由于人脸的主要特征的普遍性,形状向量的分布参数正态分布(见方程(5))。纹理参数类似于形状参数。
对形状参数 ,纹理参数 ,和属性参数 ,RGB向量的投影图像重建模型
之间的误差投影图像的重建模型和输入图像
匹配输入面图像与三维建模的脸是一个不适定问题。在脸的向量空间模型中,匹配质量和先验方法可以用来获取解决方案与约束(6]。类似于方程(5),和服从正态分布,通过点对点的方法。根据贝叶斯决策,可以通过输入图像的最大后验概率的参数 ,和模型通过三个参数是重建。但在噪声的影响下,观察到的图像将会被打扰。
如果标准偏差高斯噪声的图像,观察参数观察到的图像的概率
参数的后验概率表示通过最小化代价函数:
3.2。相机模型
3.2.1之上。弱透视投影函数
可视化三维模型,三维模型的拓扑需要投影到二维平面。与正交投影,透视投影可以自由设置还原和投影图像的放大。
在投影过程中,可能出现密集的3 d坐标叠加在二维坐标点由于降维投影表面。针对构成面模型的投影,本文使用弱透视投影函数类似于透视投影函数来处理这个问题的三维模型投影到二维平面(20.]。图3解释之间的差异正射投影和弱透视投影。
在本文中,假设的正方向的弱透视投影相机模型指的方向,(21),我们使用正交投影矩阵 和目标位移标定设计弱透视投影功能:
优化方程(10), 在哪里焦距比,是旋转矩阵,位移系数顶点坐标。弱透视投影功能项目规范化面临网格顶点从三维空间到二维平面,这是方便后续操作和处理。
最小化误差预测初始基于PCA算法重建模型飞机(22]: 在哪里是th特征点的平面的脸, 的坐标吗3 d模型的顶点,的重量吗th特征点是形状参数的正则化系数。
3.2.2。隐藏的表面去除
在密集的3 d网格,nonfrontal面临条件下,一些顶点总是重叠,影响结果和特征点采集的准确性。摘要 - - - - - -缓冲算法(23)是用于解决歧义的深度值。
的 - - - - - -缓冲算法缓冲区的深度价值可见表面深度缓冲区,和隐藏的深度值表面移除。所以,单一视图只有可见的表面的深度。深度值不是真正的欧几里得距离笛卡尔空间坐标系,但相对测量的距离从顶点到观点。假设模型从的角度 - - - - - -轴正方向,表面的投影飞机。 每个像素的坐标在重叠区域的投影表面。平行光线 - - - - - -轴的深度值,和 ,分别和最大的 , )存储在 - - - - - -缓冲区。
图4展示了是否使用的区别 - - - - - -缓冲深度地图。深度图的深度地图使用 - - - - - -缓冲算法不同,没有模棱两可的深度值由于姿势遮挡引起的一个视角。
(一)
(b)
(c)
3.3。脸对齐网络
面对对齐的目的是通过培训获得一本字典。人脸检测后输入面图像索引,等等,然后,目标面临的角度相对于额叶的角度来看,和目标的脸可以对齐24]。面对对齐得到目标的角度面对DLIB图书馆的特征点检测和改进的特征点损失函数。当输入是一个面对图像有一个很大的姿势,不仅可见特征点可以精确地检测到的特征点也无形的由于姿势遮挡可以更准确地预测。
测试图像的测试集次,取平均值地图特征点的位置。改进的损失函数 : 在哪里的平均值吗测试的特征点地标位置地图,是真正的具有里程碑意义的,是特征点的重量。
面对CNN对齐网络架构基于剩余网络(25,26),由10剩余模块。图5面对的是一个图对齐网络结构。
当使用校准网络训练和训练集图像的角度对应的注释,使用三维点云和额外的参数为培训对象,并投影归一化坐标代码(PNCC)特性18],可以表示的形状模型用于生成一个字典。
PNCC由规范化协调(NCC)和代码 - - - - - -缓冲算法。NCC规范化坐标 顶点的三维平均脸模型及其计算公式
PNCC是使用的目的 - - - - - -缓冲算法去除隐藏的表面由NCC规范化实现投影的效果。PNCC计算公式: 在哪里是3 d投影和后表面吗是一个模型参数。
4所示。面对细节合成模块
在最初面对重建模块,虽然3 dmm重建模型基于PCA算法的大部分信息重建的目标,它就失去了部分由于降维的详细信息。我们使用一个面对细节合成模块来弥补面对细节信息。
4.1。基于纹理凹凸位移贴图
脸部的细节包括沟壑和皱纹,所以很难检测和提取它们与一个统一的标准方法。未分化的检测和提取细节整合可以有效地解决这个问题。我们使用深度学习方法建立一个详细的合成网络,检测图像上的脸和提取脸部区域的纹理贴图,和综合位移映射基于纹理映射。
位移映射类似于正常的地图。法线贴图突出模型的不均匀。法线贴图是法向量对应的顶点,但不能改变模型的顶点坐标。由于所有的细节只反映在地图,位移贴图可以使用micropolygon镶嵌细工的(27)改变模型表面的细节。3数字构成的三角形网格,首先,镶嵌一个三角形结构与同样大小的图像像素大小的有效面积模型。凹凸贴图是灰色的,和深度坐标是由灰度。然后,根据三角网获得的马赛克,顶点是沿着原始表面法线方向。然后,确定新的新网格顶点法向量。
较低的和模型的三维坐标表示纹理坐标,即。,图像颜色。坐标是由位移贴图的灰度。的深度信息转移纹理通过灰色纹理是不完整的。脸图像的原因是,一些面部的细节可能被视为噪声,或一些细节的深度太相似的主要区域的脸,结果在一个大模型的偏差。
我们的方法提出了一个详细的合成网络基于灰度位移贴图,和微妙的细节被用作噪声提取难以处理的细节纹理贴图的发电机。提取的细节噪声作为特征映射和周期性合成位移贴图。根据灰度值,模型的深度改变少量突出细节。合成纹理的像素 ,还有更多的像素对应于细节,哪个更方便处理。在图三个图像6RGB纹理贴图、法线贴图、位移贴图。
在图7,红色框区域的细节模型重建的方法本文代表三个细节从小型到大型深度。呈现位移映射到模型中可以清楚地看到,适合不同程度的细节是相对较好。
4.2。面部表情的过程
面部表情的识别和配件是一个需要解决的关键问题领域的三维表面重建。脸的动态变化和严重程度会影响分析的主要组件的脸。当投射,因为3 d空间降维将失去信息的一部分,面部表情模型会出现歧义时投射到二维平面。
我们的方法主要使用表达式拟合函数BFM2017意识到脸的动态变化。根据方程(3),中性表情的脸形状向量的基础上,添加一个附加的表达载体e,即,
然而,BFM2017主要改变了口中的表达式拟合函数向量,和其他面临部分的拟合效果并不理想。因此本文使用语义定义的情感特性预测和外貌特征。情感特征预测是基于深度学习培训来获得相应的表达式参数,和BFM2017的外观特性表达式拟合。
指的是处理DFDN动态面部表情的情感特性预测从450 k训练图像中有11个表达式AffectNet数据集(28]。的 用于表示人类情感的特征向量是通过CNN的网络培训结构,与情感参数标准正态分布的随机生成的。情感特征向量表达式参数用于渲染情感图像集,训练集是情感的输入特性预测获得face对象在图像的特征向量集(22]。情感特征向量结合外貌特征来获取语义定义的特征向量。
根据图像的特征向量之间是一一对应的设置和参数,表达一个字典设置为代表的映射的特征向量表达式参数。输入一个面部表情图像,得到其情感特征向量通过情感特性预测,遍历字典,并找到最接近这个向量表达式参数。
4.3。GAN-Based细节合成网络
条件生成对抗网络(CGAN) (29日)基于氮化镓分为两个部分:发电机网络和鉴别器网络。发电机网络随机生成约束图像,生成的图像通过鉴别器执行功能门槛歧视,保存有效的特性,并循环generation-judgment过程,直到鉴别器不能确定错误的形象。
在本文中,处理3 d人脸模型,CGAN的损失函数如下: 在哪里是输入图像,是特征点,随机噪声。请参考[30.),优化方程(17): 在哪里是发电机损失函数,是鉴别器的损失函数,是发电机的损失函数,设置为100。
基于改进FCN U-net模型(31日)是一种结构包括采样下来和up-sampling,增加图像的准确性的目的。采样下来用于显示环境信息,从采样下来up-sampling结合了环境信息的输入信息up-sampling恢复的详细信息,使人脸的纹理更真实。
这个网络使用U-net-6结构和以最初的目标图像作为输入,产生位移的地图从纹理结构定义的语义地图。发电机层完全连接层网络和限制通过特征点生成的数据和计算主成分分析参数。除了完全连接层,每一个线性部分是由ReLU激活函数。LeakyReLU函数是用来激活之间的完全连接层。U-net-6网络发生器的结构如图8。
网络鉴频器法官通过阈值输出图像的有效性。摘要鉴别器是基于PatchGAN [32]。输入图像分为一个 矩阵,卷积后,一个 矩阵是输出。输出矩阵是平均阈值判断,逻辑输出结果。鉴频器的网络结构如图9。
5。实验和讨论
5.1。面对一致性评估
nonfrontal面临的各种有形和无形的特征点得到的脸对齐将直接影响到后续初步重建。在我们的评估实验中,归一化平均误差(NME)通过对比计算与实际地标表示特征点的准确性。
面部比对实验,本文使用300年w-lp数据集训练集数据集包含人脸偏转。从0到90度,共有超过60 k图像。使用DLIB库来检测人脸和作物每个图像 脸图像。
针对姿态精度评价的特征点在不同的角度,本文从300年w-lp数据集随机选择1000张照片。计算归一化平均误差的平均值(NME) 68检测到的特征点之间的脸和真正的地标来评估的准确性。此外,我们比较我们的方法与其他两个先进PRNet和3 ddfa脸对齐方法。获得的结果在图所示10。
根据图10与其他两种方法相比,我们的方法可以得到更好的结果在300年的特征点检测实验w-lp样本集。
5.2。重建评估受限的场景
面对约束图像重建评估场景,本实验使用Facescape数据集(33]。针对评价的三维模型34),评价实验本文基于均方根误差(RMSE)和标准差(SD)的点云重建模型和地面之间的真理。其中,RMSE用于评估重建模型的准确性,和SD是用来评估分散度的点云重建模型本身。重建评估、中性的脸的精度值评估,面部表情评估,和鲁棒性的评估由RMSE 1, RMSE 2,分别和RMSE 3。RMSE SD,越低越好重建模型的准确性和色散。
5.2.1。额的脸模型评价
在这个实验中,准确性(RMSE 1)和离散值(SD)额面临重建模型作为评价标准。10额在这个评估过程,面临来自Facescape主题的图像被随机选中的数据集作为测试集,测试集1图像重建通过集成网络提出了本文和10套模型。此外,这个实验比较我们的方法与其他三个先进算法,PRNet [9),3 ddfa [18],RingNet [14]。
根据评价标准,平均RMSE 1和SD的10组重建模型计算。测试集的数据见表11。我们方法的详细数据和模型重建PRNet, 3 ddfa, RingNet图所示11。
基于上述数据比较,我们的方法具有较高的准确性和分散在重建额中性面图像相比,其它三种方法。图12显示的例子的热分布样本重建模型误差。
5.2.2。额脸模型表达式求值
面部表情重建的困难往往是大于中性表情的脸重建。我们不受约束的环境中表现出更多的重建图像的模型图13。
(一)
(b)
(c)
在这个实验中,Facescape数据集被用来评估面部表情的重建。Facescape数据集包含20动态面部表情的深度信息数据的收集对象。八个动态面部表情图像对象的随机选择从Facescape重建数据集,和均方根误差(RMSE2)计算(如图14)。
在相同的方法中,面部表情重建模型的准确性往往是略低于中性面重建模型。在图14,虽然脸模型表达式的RMSE 2重建我们的方法是高于平均RMSE 1,它是低于平均RMSE 1的模型与其他中性重建的方法。我们的面部表情的方法重建的准确性明显高于中性面临其他比较方法的重建模型,所以我们在面部表情拟合方法也具有较高的优势。
5.2.3。噪声环境下的鲁棒性评价
领域的3 d重建,鲁棒性是一个重要的评价标准对重建模型算法。它可以清楚地表明算法的适应程度在一个复杂的环境,是否能降低干扰的影响因素对模型重建。鲁棒性评价本文主要是关于面对嘈杂的环境下重建。首先,随机选择6 Facescape数据集的图像,应用高斯噪声和椒盐噪声,这6个图片,分别。我们可以看到在图15,一个例子比较细节的区别重建原始图像和细节的模型重建的模型噪声图像。
(一)
(b)
(c)
图像在应用噪声测试集2。然后,原始图像的噪声图像测试集2通过集成的网络重构,与地面实况,均方根误差(RMSE 3)计算(如图16)。
根据噪声的测试集2评价实验和相应的噪声图像,波动区间的RMSE3噪声图像重建原始图像重建是(-0.04,0.18)。此外,可能会有大量的噪声点覆盖高频细节,这将影响到脸的鉴频器的识别过程细节合成模块,导致迭代和轻微的增加改善整个模型的准确性。
6。结论
我们提出一个面临重建系统模型。最初面临重建模块使用一脸对齐网络和3 dmm最初用光滑的表面重建。面对细节合成网络生成一个位移映射,其中包含的大部分重建对象的细节。面部表情,我们使用一个情感特性预测适合面部表情。详细的脸模型的三维意义上和准确性比3基于PCA的数字重建模型。通过评估的脸对齐、准确性和鲁棒性在无约束的场景,我们的方法获得理想的结果。与其他先进的方法相比,我们的方法也有更多的优势。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的山东省自然科学基金(ZR2020MF119)。