文摘

人脸检测仍然是一个具有挑战性的问题,由于规模和闭塞的高可变性尽管表征强劲的力量深卷积神经网络及其隐含的鲁棒性。努力处理人脸检测在极端情况下尤其是小人脸检测,在本文中,我们提出了一种多尺度混合金字塔卷积网络(HPCNet),这是一个单程完全卷积网络。我们HPCNet包括三个新提出的模块:首先,我们设计了混合扩张卷积(HDC)模块取代VGG16完全连接层,它可以放大局部信息的接受域和降低其损失;其次,我们构建了混合特征金字塔(六)结合语义信息从更高的层次和细节从较低的层;第三,有效地处理遮挡和模糊的问题,我们引入了上下文信息提取器在HPCNet (CIE)。此外,我们提出了一种改进的在线硬例子矿业(OHEM)策略,可以提高人脸检测的平均精度的平衡正负样本的数量。我们的方法取得了精度为0.933,0.924,和0.848的简单,介质,和硬的子集更广泛的脸,分别超过最先进的算法。

1。介绍

面对人类的是一个关键的生物特征,从而使人脸检测应用最广泛的技术领域的目标检测、识别和跟踪。人脸检测的目的是检测存在的脸从一个给定的图像,并返回它的大小和位置,并在实践中,许多人脸识别和行人匹配系统有更高的速度和精度检测的需求。

因为图像是在各种条件下,有规模的高可变性,闭塞,照明条件和视角之间的脸。为了解决这些问题,人脸检测技术的发展经历了三个阶段:模板匹配,演算法和深度学习。

在早期,大多数使用的人脸检测算法的模板匹配技术,也就是说,使用一个模板映像和比较它和所有地区在给定图像判断这个区域包含的面孔。一个代表性的方法提出了罗利et al。1,2),他建立了一个多层感知器模型 脸和nonface图像。他们的方法处理图像的检测不仅前面(1)也不同角度(2]。尽管这个模型在精度表现良好,其检测速度太慢是因为一个相对复杂的分类器设计和密集的滑动窗口抽样。之后,机器学习算法在匹配使用,包括神经网络和群体模式(3),基于内核的支持向量机(4),贝叶斯分类器(5),基于隐马尔可夫模型和统计模型(HMM) [6]。尽管非常慢的速度检测,这些算法没有克服的缺点天真的特性。

2001年,p .中提琴和m·琼斯发表了“快速目标检测使用了简单的级联功能”CVPR,代表未来的演算法(7]。这个Viola-Jones方法和区别式部分原因模型(DPM) [8)是最常见的。这些算法的原则是建立增加简单的弱分类器的帮助下哈雾(9],ACF [10,猪11),和其他手动功能,然后使用它们来构造一个强分类器拥有精度高。然而,由于手动功能是一个数量很少,在自适应差,与稳定,这些算法通常未能处理复杂条件如不同阻塞,照明条件或视角,通常在检测速度慢。

之后,受益于深度学习的快速发展,有效地处理上述问题。卷积神经网络(事先)[12)有很强的表达能力在学习非线性特性。在图像分类它的成功之后,事先很快就被应用于人脸检测和显示精度要明显高于之前的演算法框架(13]。级联CNN (14)可以被认可为代表的传统方法和深度之间的结合学习。类似于学习演算法的时期,它还采用级联结构,只有回旋网作为级联分类器。从级联CNN,基于一系列的深度学习目标检测算法提出了。最具代表性的包括单程算法速度快,如YOLO系列(意思15- - - - - -17],SSD系列[18- - - - - -20.),和两阶段算法精度高,如快速R-CNN系列(21,22],MTCNN [23],R-FCN系列(24]。这些通用检测模型也被应用于人脸检测和执行。

然而,尽管大多数深学习算法取得成功在不同照明条件和视角,他们的表现仍然令人失望当面对复杂环境下多尺度和闭塞。通过比较这些方法,我们发现他们的一个共同缺点是使用单一或简单的复合特性映射而不是结合语义信息从较高图层一起有效地从较低层次的细节。例如,大多数回旋网两级使用几个单一特征地图和忽略来自更高或更低层次的信息,虽然ScaleFace [25从较低的层)结合特性。我们认为这是这些方法的主要原因在极端条件下失败。

在本文中,我们提出了一个基于六氟结构多尺度人脸检测算法和设计一个新的HPCNet人脸检测框架。本文的主要贡献的结论如下:针对大规模的检测,我们设计了一个HDC模块,它可以扩大接受域(RF)迅速获得更高分辨率的特征图谱。介绍了该机制首次从对象分割人脸检测。针对小规模的检测,我们提出了一个六氟结构模型为核心,从更高的层次语义信息相结合一起从较低层次的细节。与特征金字塔网络(红外系统)(26),六氟过程特性更仔细,更卷积操作之前特性融合。针对面对阻塞和模糊,我们引入了CIE模块,减少了计算量,避免功能混乱。

此外,在训练阶段,我们提出了一种改进的OHEM策略面对之间的不平衡正负样本的数量和引入多尺度培训进一步提高模型的鲁棒性。权威的更广泛的脸上跑后(27),我们发现,我们的模型显示精度高的0.933,0.924,0.848三个子集简单,介质,分别和努力。当运行在GTX 1080 ti,推理速度可以达到44帧每秒(FPS)和更高的分辨率。经过一系列的对比实验中,我们证明了我们的方法是合理的。

剩下的纸是组织如下:部分2介绍了一些相关的工作。部分3从一点到总说明了提出方法。部分4提供了实验和部分5总结了纸。

2.1。扩张卷积

SSD (18),陕西林业局(28],DSFD [29日),和其他算法添加几个卷积层VGGNet[结束时30.解决大规模目标或脸。这增加了卷积层进一步帮助来处理信息,减少特征地图的大小,放大射频。扩张卷积也有类似的效果,只有在功能图的大小不变。

具体来说,扩张卷积是卷积核扩张。假设内核的大小 和膨胀系数 ,然后内核的规模扩张

插入像素的数量

内核的扩张过程如图1扩张后,留下的空白由0。迅速扩张卷积可以扩大内核和射频地图不改变大小的特性,从而生成高分辨率的地图功能。扩张卷积也常用于提取结构化和上下文信息。

2.2。特征金字塔

使用不同尺度的特征图对象检测是一种有效的方法来处理规模问题。主要有两种方法来实现:一是特色图像金字塔(31日),另一个是使用多尺度特性映射的网络(如图2(一个))。前有大量的计算由于重复计算和有困难的训练网络端到端的方式,而后者一个成功避免了这个。然而,这两种方法都需要从更高的层次特征图的优点。在低层特征图谱不包含语义信息,不给检测带来了挑战。

我们的目标是充分利用锥体回旋网功能层次结构嵌入,其中包含信息从低到更高的层和构造特征金字塔结合信息从低到高层联系在了一起。

红外系统(26)提供一个相当简单的方法使用特征图。其原理是建立一个自上而下的体系结构通过引入到当前的高级信息层:首先,金字塔水平较高的特征映射upsampled 2倍(使用最近邻upsampling为简单起见);然后,它要经历 卷积层以减少通道尺寸;最后,upsampled地图合并与当前地图(经历 卷积层)elementwise之外。合并的详细流程如图3

2.3。上下文信息

当人类寻找的脸,他们不仅面临着帽子,衣服,环境,和其他信息。上下文信息就是模拟这种行为。当很难判断候选人提议包含的脸,我们可以使用建议周围的信息作为补充,这是一个有效的方法来处理遮挡和模糊。

根据经验,CMS-RCNN [32)结合的脸和身体一起为人脸检测信息。脸和身体之间的空间关系描述如下: 在哪里 分别代表的脸和身体; 是一个固定值; , , , 代表中心坐标、宽度和高度的候选人的建议。CMS-RCNN替代品面对候选人提取到的坐标方程(3)获得身体的候选人,然后地图的脸和身体候选特征图。后接受池层、卷积层,两个完全连接层,他们联合在一起的偏见回归和分类的坐标。CMS-RCNN获取上下文信息的方式可以很容易地结合两级目标检测算法,这是归功于RoI池层。虽然在CMS-RCNN CIE积极对检测结果的影响,它所包含的假设太强是准确的,很难结合单程检测算法。

2.4。OHEM

OHEM [33)是一个完全在线样本挖掘算法,根据非均匀样本和非平稳的分布取决于样本分类损失,并使简单的随机梯度下降的变化。对于每个检测任务,OHEM选择 较高的样品损失成千上万的建议或锚在一个或两个图像。虽然只使用建议的一部分或锚,它向后传播仍然是有效的和鲁棒性。OHEM不使用所有的样品的原因就是这么简单样本贡献小损失。此外,当有太多的负样本,数据充满了简单的样品,完全有一个巨大的损失,影响对分类没有帮助。与支持向量机相同,它是提供真正的困难样本分类。与硬样本开采相比,OHEM不需要构造一个数据集或火车模型;而与随机梯度下降法相比,OHEM利用做出贡献的困难样本分类损失,从而避免无用的计算。

3所示。方法

在本节中,我们将介绍每个提出了模块,给HPCNet总体框架的一个全面的描述。

3.1。组件HPCNet
3.1.1。HDC模块

而不是添加几个褶积层的基本卷积网络像SSD18),陕西林业局(28],DSFD [29日),我们引入扩张卷积的概念来处理大规模的脸,这是一条新路。

存在一些缺点共同扩张卷积。假设有一个像素 th层, 区域,导致 是在 层的位置 因为扩张内核引入了几个0,区域仍是实际的贡献 随着膨胀系数的增加,领域的贡献 th层迅速扩大,而真正的贡献区域保持不变。因此,当地的特色信息逐渐丢失由于0值,导致的相关信息 持续下降。当几个扩张卷积层连接在系列中,这种效应将不断加剧。

假设有三个扩张卷积层形成一个结构 ,内核在哪里 ,膨胀系数是2,滑步是1。与结构 取代了 th层,RF领域真正的贡献 层数据所示4(一)-4(c),蓝色格子中的数字代表其贡献值和白色的网格没有贡献。值在图4假设下计算内核和的值 特征映射都是1。

利用卷积扩张的优势,以及避免当地损失和减少相关的信息,我们设计了HDC模块。HDC只包含三个扩张卷积层,其中内核大小 ,膨胀系数是1、2和3,分别滑步是1。与HDC取代 th层,RF领域真正的贡献 层数据所示5(一)-5(c),很明显从图5在每一个阶段,所有的网格在RF领域做出贡献 ,和增加的重量接近的位置 这个结构显然是合理的。

3.1.2。六模块

虽然红外系统(26]介绍了语义信息从更高的层映射到当前特性,仍然存在三个问题:红外系统生成地图的复合特性elementwise之外,缺乏自适应调节,很容易导致功能混乱红外系统忽略了信息从较低的层构造特征映射时,导致缺乏细节和位置信息,因此将定位和检测小型对象的一个挑战复合功能映射获得高层语义信息,用于检测,这不是一个合理的方式进行太多的任务

我们六(如图2 (b))是一种改进的红外系统针对上述三个问题。总结的过程如下:首先,它upsamples功能的地图从更高的层次(使用双线性插值),减少他们的频道维度生成复合特征图谱与当前公司通过合并;复合功能映射是进一步处理获得真正有用的语义信息通过减少渠道维度;之后,同样,将采样和通道尺寸减少应用于特征图从较低的层获得混合特征图谱通过缝合的复合;最后,混合特征图用于检测后通道变化和信息融合。

更具体地说,在六(如图所示的细节6)如下:对于高层特征图谱,我们使用 卷积层通道降维, 内核不会改变射频和语义学习更适合。对于复合特征图谱,我们使用 卷积层使用时高层语义信息,如 内核可以从而避免upsampling功能混乱,将采样。对于低级特征图谱,我们使用 卷积与跨步2层downsampling为了拯救的详细信息;那么特征图进行另一个 卷积层通道降维提取真正需要的细节。对于混合特征图谱,我们使用3 3卷积层通道变化和信息融合。

我们的六氟是不同的红外系统的几个方面:六、复合功能映射是由频道联合,而红外系统使用elementwise之外。加工过程的特征图谱检测是不同的。在红外系统,复合特征图用于直接检测,而我们六氟复合的过程进一步检测之前,用低级的结合。六氟处理特征图以更仔细的方式和采用一系列维度操作获取有效的信息。

3.1.3。CIE模块

尽管在候选人提议扩大窗口,一个更大的内核是一个更好的选择对于一个单程对象检测算法来获取信息。

SSH (34)采用这种策略运用简单的两大内核提取上下文信息。然而,一个更大的内核通常会导致一个更大的计算量,可以取代由几个较小的串联连接。灵感来自这个想法和嘘,我们提出我们的CIE只包含卷积层 内核。进一步减少计算和防止环境的相关性下降,我们采用一种方法来分享一些卷积层。详细的结构如图7

3.1.4。改进的OHEM

尽管OHEM [33是健壮和高效,它只考虑硬样品没有考虑到正到负样本的比例。大量样本的数据集是消极的,选择的OHEM也可能受到不平衡的两个样本,这显然不利于分类。因此,我们提出了一种改进的OHEM,选择样本更加平衡的方式:假设损失函数的需要 样本,首先,我们积极的和消极的样品损失下降顺序,分别;然后,我们选择第一个 积极的, 消极的人。的默认值 是设置为 在理想的情况下,有 样本选择的比率1:3 (22]。即使小于总数 比并不是1:3完全由于缺乏积极的样本,这些通常不会伤害这个算法的性能。相反,它们可以提高算法的鲁棒性。

3.2。HPCNet的总体布局

HPCNet是一个单程多尺度人脸检测算法。处理大规模和小规模的面孔,HPCNet介绍HDC模块和六氟结构;为了解决遮挡和模糊,HPCNet包含CIE。

HPCNet包含卷积层VGG16 [30.)作为其基本的网络(如表所示1)。总体结构如图8,陶瓷,它们和N6三个子网检测不同尺度的脸,也就是说,小型,中型和大型。这里应注意的是,所有我们使用的褶积层 ,减少参数和计算时除了满足需求进行处理。

在图8,HDC6指提出HDC模块,使符合VGG16的架构(如图9)。

六模块包括HFPx_1(包括HFP4_1和HFP5_1)和HFPx_2(包括HFP4_2 HFP5_2, HFP6_2)。HFPx_1(如图10)是生成复合特征图谱,向前传递高层语义信息;HFPx_2是生成混合特征图谱,高低层相结合的信息。HFP4_2(如图11)使用 卷积层减少通道尺寸的混合特性映射到256,而HFP5_2和HFP6_2频道维度增加到512。HFP4_2这种差异的原因是减少内存占领并保持符合以下模块。

CIE4、CIE5 CIE6三个个人CIE模块,如图所示的结构7。每个子网包含一个CIE模块作为一个分支和一个 作为另一个卷积层。分类的特征图谱是由两个分支在一起,通道尺寸的一半,HFPx_2分别(如图8)。它们和N6频道维度通过CIE5 CIE6是256,而在陶瓷,通过CIE4通道尺寸是128。CIE4渠道少的原因是减少内存占领和加速网络收敛。

4所示。实验和分析

在本节中,我们首先介绍了一些HPCNet的培训策略和参数设置。然后,我们进行了一系列的更广泛的脸上烧蚀实验(27]数据集和HPCNet相比与其他高级算法证明了我们的方法的有效性。

4.1。培训细节
以下4.4.1。数据集

本文所有的实验都是基于广泛的脸(27),它是世界上最大的和最权威的脸图像数据集。在更广泛的脸,有32203张图片包含393703标记的脸,这是高可变性的尺度,闭塞、姿势,和其他方面。在这篇文章中,我们随机选择40%,10%,和50%的数据集作为训练、验证和测试集。在每一组中,数据被分成三个子集(即简单,中等,困难)根据检测的难度。

在进入HPCNet之前,所有的图像放大到不到 更具体地说,我们第一次规模图像的高度 像素。在那之后,是否超过它的宽度 像素,这张图片的宽度扩展 像素。在扩展期间,所有图像的纵横比保持不变。

4.1.2。困难的例子矿业

生成的特征图谱三个子网陶瓷,它们和N6对应 , , 原始图像区域。在使用的前锚N4,N5,N6 , , ,分别。他们都有一个方面比1。在培训期间,我们设置了候选人的建议与交叉联盟(借据)高于0.5作为正样本,而那些借据低于0.3负样本。之后,我们与改进OHEM策略处理数据集。

4.1.3。损失函数

处理分类和回归问题的同时,HPCNet采用多任务损失函数,可以表示为 在哪里 代表了全部损失, 代表分类损失, 代表了回归的损失。为 ,我们使用Softmax针对二进制分类函数,在子网 , 代表样品的数量, 代表整个数据集, 代表的类分数和标签 样本。为 ,我们使用 函数与 代表特征函数:如果 th样本在子网 是积极的(例如, ),然后 ;否则 在这里, 代表的协调预测和预设值 th样本在子网 ; 控制的比例 (设置为1)。如果没有积极的样本在子网 , 设置为0。

4.1.4。Hyperparameter设置

HPCNet的权重是由高斯函数初始化平均为0,方差为0.01。偏见是初始化为0和正则化参数设置为0.0005。培训过程采用一批SGD算法0.9势头,itersize, batchsize 1,初步学习速率为0.004(0.1采用StepLR政策与γ和步幅,18000)。我们的HPCNet使用四GTX 1080 ti GPU为总共21000次列车。

4.2。烧蚀实验和结果
4.2.1。准备分析改善OHEM

我们训练有素的HPCNet OHEM和改善OHEM分别广泛脸上的结果如表所示2

改进的平均精度(美联社)OHEM艰难子集是OHEM高出2.4%,尽管0.4%和0.2%低容易和媒介的子集。努力子集包含最困难的情况下接近一个真正的应用程序,它是证明改进OHEM更好。所有以下实验采用改进OHEM。

4.2.2。HDC分析模块

测试的影响HDC模块,我们摆脱HDC6 HPCNet HPCNet-HDC6和命名网络。结果如表所示3。HPCNet-HDC6是1.6%,1.2%和1.2%低于HPCNet美联社在每个子集。与其他两个子集相比,美联社在减少容易显示了一个更大的子集,这证明HDC6是有效的尤其是在检测大规模的面孔。

4.2.3。分析六模块

清楚地说明低级的详细信息的重要性在六,我们改变了建筑的HFPx_2删除特征图从较低的层。改变HFPx如图12和网络作为HPCNet-Lx命名。从表3,我们可以看到HPCNet-Lx显示一个明显的降低美联社所有子集,重点是困难的子集(从81.9%提高到79.5%,减少了2.4%)。这一结果证明了低级特征图对小规模的人脸检测至关重要。

4.2.4。CIE分析模块

在这个实验中,我们删除了CIEx HPCNet并设置通道在主分支的数量总数(256年在512年的它们,陶瓷和N6)。改变网络和HPCNet-CIEx命名。很明显从表3HPCNet-CIEx是1.6%,1.2%,0.8%低于HPCNet美联社在每个子集,这显示了CIE大规模阻塞问题的影响。

4.2.5。多尺度分析培训

我们采用多尺度HPCNet培训。更具体地说,它是随机缩放图像 , , , , , , 所有的这些尺寸遵循的原则 结果如表所示4和图13。我们的名字多尺度HPCNet_Pd训练后的模型。

从表4,我们可以看到,美联社HPCNet_Pd每个子集是1.3%,1.6%,比HPCNet高出2.9%。这种改善的原因是多尺度训练确实是图像增强策略,生成更面临着不同的尺度,因此增强了模型的适应性和鲁棒性。

4.2.6。与其他算法比较

我们选择几个与HPCNet人脸检测算法比较,即两级CNN (22],MTCNN [23],ScaleFace [25),陕西林业局(28],DSFD [29日],CMS-RCNN [32],SSH [34)、人力资源(35],FacenessNet [36]。选择他们的原因如下:他们是根据事先他们代表不同的流派他们有一个良好的性能在更广泛的脸上他们考虑精度和时间

比较的结果显示在图14和表5。尽管HPCNet,美联社和曲线数据都从网站更广泛的脸27]。图14直接显示算法之间的差异,R代表召回率和P代表了精度。

很明显从表5美联社在三个子集,HPCNet高于经典算法包括两级,FacenessNet, MTCNN, ScaleFace CNNCMS-RCNN,人力资源,和SSH。陕西林业局等最先进的算法和DSFD,尽管HPCNet显示AP略低,其运行速度要快得多。结果表明,HPCNet可以有一个先进的检出率以及运行速度,证明了其合理性和有效性。图15由HPCNet小规模的人脸检测的一个例子。

5。结论

缩放和阻塞是人脸检测目前最具挑战性的问题。我们针对这些问题进行研究并提出一个单程,完全HPCNet卷积人脸检测框架,它包含几个组件设计。在HPCNet,我们介绍了HDC的概念和放大射频处理大规模的面孔。同时,我们提出了一种新的六氟结构高级和低级特征结合在一起来提高性能在小规模的脸上。此外,针对闭塞,我们设计了CIE用更少的参数。特别是,我们利用改进OHEM和多尺度培训策略来平衡不同样品的数量以及提高鲁棒性。通过一系列的消融实验中,我们证明了我们HPCNet的优越性。在未来,这种方法可以应用于其他计算机视觉任务,reidentification等人。

数据可用性

之前报道的数据被用来支持这项研究,在10.1109 / CVPR.2016.596是可用的。这些先前的研究和数据集引用在文本中相关的地方27]。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢公安信息中心和设备集成技术,电子,提供计算平台。