文摘

人脸检测和定位在无约束的环境中总是在边缘设备上部署有限的记忆存储和计算能力较低。本文提出一个单程的方法被称为CenterFace同时预测面部盒和地标位置的实时速度和精度高。该方法也属于anchor-free类别。这是通过(a)学习面对现有语义地图的可能性,(b)学习边界框,偏移量,和五个地标为每个位置可能包含一个脸。具体来说,该方法可以实时运行在单个CPU核心和200 FPS使用英伟达2080 ti vga分辨率的图像,可以同时实现优越的精度(宽脸Val / Test-Easy: 0.935/0.932,介质:0.924/0.921,硬:0.875/0.873,和FDDB不连续:0.980和连续:0.732)。

1。介绍

人脸检测和定位是计算机视觉和模式识别的基本问题,通常部署在移动和嵌入式设备。这些设备通常有有限的记忆存储和计算能力较低。因此,有必要预测脸框的位置和具有里程碑意义的同时,它的速度和精度。

与卷积神经网络(CNN)的大突破,人脸检测近年来取得了显著进展。以前的人脸检测方法继承了范式的anchor-based通用对象检测框架,可以分为两类:两阶段方法(Faster-RCNN [1])和单程法(SSD [2])。与两阶段方法相比,单程方法更有效的,具有较高的召回率,但它往往会获得较高的假阳性率和妥协的定位精度。然后,胡锦涛和Ramanan [3)使用一个两阶段的方法对该地区建议网络(RPN) [1直接检测人脸,而SSH (4]和S3FD [5)开发了一种尺度不变的网络在一个网络检测与mutiscale面临来自不同层。

前面anchor-based方法有一些缺点。一方面,为了提高锚箱之间的重叠和地面真理,一张脸探测器通常需要大量的密集锚达到良好的召回率。例如,超过100 k锚箱设计RetinaFace [6]640×640输入图像。另一方面,锚是一个hyperparameter设计,统计计算从一个特定的数据集,所以它并不总是可行的其他应用程序,这违背了普遍性。

此外,当前最先进的脸探测器取得了相当大的精度基准的宽脸上(7用厚重的pretrained脊椎如VGG16 []8]和resnet50/152 [9]。首先,这些探测器在实践中很难使用,因为网络消耗太多的时间和模型的大小也太大。其次,它为人脸识别应用程序不方便没有面部具有里程碑意义的预测。因此,联合检测和校准,以及更好的平衡精度和延迟,对于实际应用至关重要。

灵感来自anchor-free通用对象检测框架(1,10- - - - - -15),本文提出了一种更简单和更有效的人脸检测和校准方法叫CenterFace,不仅轻便而且强大。关于CenterFace的网络结构如图1,可以训练有素的端到端。我们使用脸的中心点的边界框代表的脸,然后面部盒子大小和里程碑式的直接退化图像特性的中心位置。因此,人脸检测和定位是估计问题转化为标准的关键点16- - - - - -18]。热图的峰值对应的中心。图像特征在每个峰值预测面临的大小和要点。这种方法是充分评估和最新的检测性能在基准数据集人脸检测,包括FDDB [19和更广泛的脸。

总之,这项工作的主要贡献可以概括为四个方面:(我)通过引入anchor-free设计,人脸检测估计问题转化为一个标准的关键点,只使用一个更大的输出分辨率(输出跨越4)相比,以前的探测器(2)基于多任务学习策略,面对点设计提出了预测faceBoxes同时和五个要点(3)提出了一种特征金字塔网络使用公共层进行准确、快速的人脸检测(iv)综合实验结果基于流行的基准FDDB和更广泛的脸,以及CPU和GPU硬件平台,展示了该方法的优越性的速度和精度

2.1。级联CNN方法

级联卷积神经网络(CNN)的方法(20.- - - - - -22)使用级联CNN框架学习特性来提高性能和维护效率。然而,有一些问题关于级联CNN-based探测器。(1)这些探测器是负相关的运行时面临的输入图像的数量。速度将大大降低当面临数量的增加。(2)因为这些方法优化每个模块分别训练过程变得非常复杂。

2.2。锚的方法

灵感来自通用对象检测方法(2,14,15,23- - - - - -27),接受所有最近的深度学习进步,人脸检测(最近取得了很大成就3- - - - - -5,28]。不同于一般的对象检测,面对规模的比例从1:通常是1 - 1:1.5。最新的方法(6,28关注单级设计,人口样本的金字塔脸上位置和尺度特性,展示承诺收益率性能和更快的速度与两阶段方法相比(29日,30.]。然而,致密样品导致长时间消耗。

2.3。Anchor-Free方法

在我们看来,级联CNN方法也是一种anchor-free方法。然而,这些方法使用滑动窗口检测人脸和依赖于图像金字塔。它有一些缺点,如速度慢和复杂的培训过程。LFFD [31日将RFs视为自然锚可以覆盖连续面对尺度,这只是另一种方式来定义锚,但训练时间大约是5天有两个NVIDIA GTX1080TI。我们CenterFace只是由一个点代表面临边界框中心;然后,面部框大小和具有里程碑意义的是直接从图像退化特征的中心位置。因此,人脸检测是点估计问题转化为一个标准的关键。和NVIDIA GTX2080TI的培训时间只有一天。

2.4。多任务学习

多任务学习使用多个监管标签来提高每个任务的准确性通过利用任务之间的相关性。人脸检测和定位(17,20.广泛应用因为对齐任务,并联骨干,提供更好的特性分类的任务与脸点信息。同样,面具R-CNN [32)大大提高了检测性能通过添加一个分支预测对象的面具。

3所示。CenterFace

3.1。移动特性金字塔网络

我们采用Mobilenetv2 (33)为骨干和特性金字塔网络(红外系统)14作为后续检测的脖子。一般而言,红外系统使用一个自上而下的金字塔结构与横向连接来构建一个功能从单一尺度的输入。CenterFace代表了脸的中心点脸盒子,然后脸大小和面部地标退化直接从中心位置的图像特征。因此,只有一层的金字塔是用于人脸检测和定位。我们构建一个金字塔与水平{P-L},l= 3,4,5,l表明金字塔的水平。Pl的1/2l分辨率的输入。所有金字塔水平C= 24通道,我们定义分类损失,盒子回归损失,只在P2和具有里程碑意义的回归损失。

3.2。脸,点

让(x1,y1,x2,y2)的边界框的脸。点位于面部中心c= ((x1+x2)/ 2和(y1+y2)/ 2)。让RW×H×3是一个输入图像的宽度W和高度h .我们的目标是产生热量的地图Y∈[0,1]W / R×H / R,在那里R是输出的步伐,我们使用的默认输出步R= 4。在培训过程中,预测 x,y= 1对应于一个中心, x, y= 0是背景。为每一个地面实况Yx,y,我们计算等效热利用地图y一个非规范2 d高斯表示地面真理。培训的损失是一个变体焦损失(15]: 在哪里αβ是焦的hyperparameters损失,哪些是指定为α= 2,β= 4在我们所有的实验定律和邓34]。

收集全球信息和减少内存使用,将采样应用到一个图像卷积,输出的大小通常是小于图像。因此,位置(x, y)在图像映射到的位置(x / n,y / n)在的热图,n是将采样的因素。当我们重新映射的位置输入图像的热图,一些像素可能没有对齐,这可以极大地影响面部盒子的准确性。为了解决这个问题,我们之前预测位置偏移量调整中心位置稍微重新映射的中心位置输入分辨率: 在哪里ok偏移量,xkykxy协调面临的中心k。我们应用L1损失日渐中心位置。

3.3。盒子和具有里程碑意义的预测

为了减少计算负担,我们使用一个大小的预测年代RW /4×H /4面部盒和地标。被指定为每个真实边界框G= (x1,y1,x2,y2)。在培训期间,我们的目标是了解一个网络位置的映射输出 地图中心位置的特点: 在哪里R是网络的步幅,指定为R= 4。

不同于盒回归,回归的五个面部地标采用目标基于中心位置归一化法: 在哪里lmxlmyxy坐标面对地标,ckckxy面对中心坐标, 和盒子h脸的宽度和高度。我们也使用光滑的L1损失面部盒和具有里程碑意义的预测中心位置。

对于任何培训中心,我们减少损失多任务如下: 在哪里λ,λ盒子,λlm用于规模损失,我们用1,0.1和0.1,分别在我们所有的实验。

3.4。培训细节
3.4.1。数据集

该方法的训练集训练更广泛的基准,包括12880规模超过150000个有效面孔图像,姿势,表情,闭塞,和照明。RetinaFace [6]介绍了五个级别的脸的图像质量和注释五地标的面孔。

3.4.2。数据增加

数据增加提高泛化是很重要的。我们使用随机翻转,随机缩放(35抖动),颜色,和随机作物广场补丁从原始图像和调整这些补丁为800×800产生更大的训练的面孔。面临小于8像素直接被丢弃。

3.4.3。训练参数

我们训练亚当CenterFace使用优化器与批量大小8和学习速率5e−4 140年时代,学习速率下降10x分别在90年和120年的时代。MobilenetV2 downsampling层的初始化与ImageNet pretrain和up-sampling层随机初始化。培训时间是一天有一个NVIDIA GTX2080TI。

4所示。实验

在本节中,我们首先介绍了运行时的效率CenterFace然后评估常用的人脸检测基准。

4.1。运行效率

现有的CNN脸探测器可以通过gpu加速,但他们并不足够快的在大多数实际应用中,特别是CPU-based应用程序。如下所述,我们的CenterFace高效足以满足实用需求及其模型大小只有7.2 MB。在表1,与其他检测器相比,我们的方法可以超过实时运行速度(> 100 FPS)通过使用一个NVIDIA GTX2080TI在不同的决议。由于DSFD, PyramidBox、S3FD和SSH太慢CPU平台上运行时,我们只评估拟议中的CenterFace, FaceBoxes, MTCNN, CasCNN在CPU和vga分辨率图像地图意味着真正积极的速度1000 FDDB假阳性。列在表2,我们CenterFace可以在CPU上运行30 FPS与先进的准确性。

4.2。评价基准
4.2.1。准备FDDB数据集

FDDB包含2845张图片和5171无约束面临来自雅虎新闻网站。我们评估我们的人脸检测器FDDB反对其他先进的方法,结果如表所示3和图2,分别。我们还添加DFSD、PyramidBox S3FD探测器,而这些探测器是慢得多由于较大的骨干和密集的锚。我们CenterFace也可以实现良好的性能在两个不连续和连续ROC曲线,即。,98。0% and 72.9% when the number of false positives equals to 1,000 and it outperforms LFFD, FaceBoxes, and MTCNN evidently.

4.2.2。宽面数据集

直到现在,更广泛的脸是最广泛使用的人脸检测的基准。更广泛的脸数据集分为训练(40%)、验证(10%),和测试(50%)从61年场景类别子集通过随机抽样。相比,所有的方法都是在训练集上训练。测试更广泛的脸上,我们遵循的标准实践6),采用翻转以及多尺度策略。盒子投票(36)是应用于联盟的一组预测faceBoxes使用一个借据阈值为0.4。我们报告结果在表的测试集4,分别。该方法CenterFace达到0.932(简单),0.921(介质)和0.873(硬)测试集。与最先进的方法虽然有差距,但始终优于SSH(使用VGG16为骨干),LFFD FaceBoxes, MTCNN。此外,CenterFace比S3FD使用VGG16为骨干和密集的锚困难部分。

此外,我们还测试更广泛的脸上不仅与原始图像,还用一个推论,我们CenterFace也会产生良好的平均精度(美联社)两个验证集的子集,即。,92.2%(容易),91.1%(媒介),78.2%(硬)验证集。图3显示了一些定性结果更广泛的数据集。

4.2.3。AFLW数据集

评估的准确性脸对齐,我们比较CenterFace MTCNN AFLW数据集。平均误差是衡量估计地标和地面之间的距离真理和规范化的两眼间的距离。如图4,我们给每个面部里程碑的平均误差AFLW数据集(37]。CenterFace显著降低了归一化意味着错误(NME)从6.2%到6.9% MTCNN相比。

4.3。参数,失败,和模型的大小

在本部分中,研究了比较法的角度参数,计算,模型尺寸。边缘设备总是有限的存储空间。我们用失败来测量计算分辨率640×480。参数的数量模型的大小密切相关。然而,与不同的库模型尺寸可能略有不同,和更少的参数并不意味着更少的计算。提出了表的所有信息5

最先进的方法DSFD PyramidBox,他们有大量的参数,失败,和模型尺寸。显然,该方法更高效的光计算和网络,它演示了简洁的网络设计的优越性。

5。结论

介绍了CenterFace该方法的优越性,表现良好的速度和准确性,同时预测面部盒和地标的位置。我们建议的方法克服了缺点之前的anchor-based方法翻译标准人脸检测和定位到一个关键的点估计问题。CenterFace代表了脸的中心点脸盒子,然后脸大小和面部地标退化直接从中心位置的图像特征。全面的和广泛的实验充分分析该方法。最后的结果表明,我们的方法可以实现实时速度和高精度小模型大小,使它成为大多数人脸检测和定位应用程序的理想选择。

数据可用性

使用的数据来支持本研究的发现已被存入http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/WiderFace_Results.html存储库。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持中国国家重点研发项目的一部分(2018 yfc0809200)和上海自然科学基金(16 zr1416500)。