文摘

脸合成技术的快速发展,事情会越来越糟高质量的假脸图像是忽略了人类的眼睛里,也带来了严重的公众信心和安全问题。因此,有效的面部图像伪造检测的迫切需要。我们观察到一些细微的人工构件在空间域变换域内可以很容易认出,和大多数面部特征有一个固有的方向相关性,和生成模型将皱褶这种分布格局。灵感来自于这一点,我们提出一个二束dual-tree复小波的脸伪造网络(DCWNet)暴露的脸图像伪造。特别是dual-tree复小波变换利用获得六个方向特性(±75°±45°±15°)从原始图像不同的频率成分,提取(DCE)和方向相关性提出了块捕获相关的方向。然后,pattern-aware方向线索和原始图像作为网络输入两个互补的。我们也探讨特定频率成分在面对伪造检测工作,提出一种新的多尺度通道注意特征融合的机制。实验结果证明该DCWNet优于开放数据集的最先进的方法如FaceForensics + +和达到高鲁棒性对有损图像压缩。

1。介绍

近年来,各种深度学习技术,如FaceSwap [1],Deepfake [2),和面对面3)提出了面部图像操作改变脸图像的属性。此外,一些生成对抗网络——(甘)4)基础工作甚至可以创建假脸没有目标图像。如图1,似乎这些人工产品行业确实很难找到假脸图像真实的肉眼。这会带来巨大的公共信息安全威胁。例如,这些技术可能会被用来制造色情视频或诈骗。因此,如何区分真和假的脸的图片吸引了更多的关注社会的图像内容安全。

许多作品提出了使用人工智能与人工智能(AI),也就是说,使用深度学习方法从假冒伪劣区分真实图像。其中,一些复杂的卷积神经网络(CNN)结构7- - - - - -10)提出了或者他们与手工相结合的特性11- - - - - -13)来实现更好的性能。然而,是什么让cnn比人类敏锐得多吗?一些研究人员试图提供一些解释从频域(14- - - - - -17]。然而,传统的频域变换的方法,如FFT (18]和DCT [19),不保持原始图像的空间信息。也就是说,独特的视觉内容的图像可能有相同的谱振幅。因此,香草CNN结构可能是不适用的。在[16),频率特性提取frequency-aware分解(时尚)和当地频率统计信息(LFS)结合滑动窗口DCT (SWDCT)来保存图像的空间结构在某种程度上。

小波变换已广泛应用于各种应用,如去噪、图像压缩和纹理分类。相比之下,快速傅里叶变换(FFT)和其他变换,小波变换的多尺度图像空间结构保存好,这使得它被称为文本显微镜。这激励我们,小波变换可以兼容CNN面对伪造检测任务。

direction-related细节如面部轮廓,皱纹,光影交叉线是直观的,但有效的脸图像取证。Dual-tree复小波变换(DTCWT)提出了克服翻译敏感性,具有更高的方向选择性比传统小波(20.]。我们利用DTCWT揭示面部特征之间的相关性在不同的方向。此外,小波变换可以将原始图像分解为多个尺度。其中,低级特性提供了丰富的细节,而高级特性提供更多的语义信息。众所周知,低频和高频信息是有用的图像分类任务(21]。它是相同的脸图像取证?如果是这样,什么角色每个组件在面对伪造检测和我们如何融合多尺度的特征吗?

在这项工作中,我们提出一个新颖的二束深度图像伪造检测网络的脸。一个流利用DTCWT学习多尺度方向特性。在图2,我们的结果显示原脸上的两级DTCWT形象。每一个阶段包含六个不同的方向特性。另一个流的原始图像作为输入提供低频和进行像素级的信息网络。此外,充分利用不同的频率成分,我们提出一种多尺度通道注意(MSCA)机制融合多尺度从方向相关提取频域特性(DCE)块。主要工作和贡献有三个方面:(1)DTCWT结合CNN的脸图像取证。它地址面临伪造检测从一个新的角度,提出了小说的DCE块提取相关特征。(2)MSCA机制提出了改进功能融合效率。(3)我们证明面对图像取证不同于图像分类、和各种频率成分的影响在面临伪造检测研究。

本文的其余部分组织如下:部分2总结了相关的工作。部分3介绍了DCWNet求婚。部分4报告实验结果,并给出结论5

最近AI-enabled脸伪造可以生成假脸图像没有任何明显的人工构件。cnn都取得了极大的成功与早期作品相比,利用手工功能(22,23]。许多面临伪造检测工作提出了更好的准确性和可解释性。

2.1。进行像素级伪造检测

使用最广泛的方法是将原始图像输入CNN,在RGB或HSV颜色空间。在[24],讨厌等人提出了一个CNN-based方法集成了一个注意力机制,提高特征图。灵感来源于图像隐写式密码解密,Nataraj等人提出了脸把像素同现矩阵与CNN伪造检测(13]。生成的模型训练数据集CycleGAN [25),有一个额外的测试面临不同的氮化镓结构生成的图像(StarGAN [26])。实验结果表明,他们的工作具有良好的泛化能力。Afchar等人提出使用两个现有的网络,即Meso-4 Meso-Inception-4,利用图像的介观性质(27]。他们实现了ACC的准确性高达98.4%。郭等人提出了一种自适应操作跟踪提取网络(AMTEN) [14]。它预测卷积操作痕迹的自适应层,也最大化重用操作工件。对各种伪造,AMTEN达到平均98.52%的准确性。Nirkin等人认为Deepfake方法产生差异的脸和他们的背景。他们的方法涉及两个网络和使用这些两个网络的识别信号来检测这种差异(28]。此外,递归神经网络(RNN)也被考虑与时间属性(脸图像29日- - - - - -31日]。一些其他作品利用视觉工件三维头部姿势不连贯等更好的解释(32- - - - - -34]。陈等人提出了一种改进的Xception GAN-generated模型(35]。他们把四个剩余块Xception避免过度拟合问题,和扩张卷积是用来取代常见卷积层。该模型表现良好在他们本地GAN-based生成的脸(LGGF)数据集。

2.2。Frequency-Based伪造检测

图像转换指的是将一个原始图像空间域的频率等其他领域。常见的图像转换包括离散余弦变换(19),快速傅里叶变换(18),而小波变换(36),广泛应用于各种图像应用,如边缘增强、图像平滑和纹理分析。

近年来,变换域处理已经引入面临取证。钱等人提出了一个新颖的F3净(16),它利用frequency-aware分解图像组件和当地频率统计信息。F3净FaceForensics + +数据表现良好,特别是对于低质量的图像。刘等人发现,相位谱的范例操作更敏感比振幅谱和提出公开的范例痕迹利用相位谱(37]。锣等人利用2 d DCT每个RGB通道的原始图像,然后使用AutoGAN [38]合成甘工件在任何图像没有pretrained模型(15]。

2.3。注意机制

注意机制生成一组加权系数,通常自适应加权加强感兴趣区域和抑制无关的背景区域。有三种常见的注意机制。第一个是频道的关注。在SENet [39),全球平均连接池是用来获取渠道的平均值作为输入下面的完全连接层。在ECANet [40),1×1运算代替完全连接层更加关注相邻通道之间的关系。第二个是空间注意机制,强化地方在每个通道。最杰出的作品之一是CBAM [41]。第三个是self-attention [42),模型全局上下文通过self-attention机制有效地捕获长途功能依赖性。

3所示。我们的方法

3.1。方向相关提取块

脸图像具有丰富的方向信息,如皱纹、面部轮廓,光线和阴影的边界。他们分布模式在特定的面部动作。也就是说,有空间相关性。AI-generated假脸可能弱相关性。这可以用作面临取证的线索,它激励我们设计一块DCE暴露,如图3。Conv意味着卷积运算,BN代表批正常化,ReLu是激活函数。

定向关系包含两个部分:(1)本地相关地图在每个方向。(2)相关性在不同方向的地图。为当地的特性,采用3×3卷曲每种类型的方向特征图,分别。 在哪里n的脸特征图吗nth DTCWT获得的方向;C表示卷积内核;和fn,我代表了特征提取C方向n。在这项工作中,两个k设置为6。对于每一个输入,我们获得六频道的特征图谱,获得连接F当地的

SE块(39)是一个现有通道注意方法。输入多通道特性将被映射到全球平均池获得权重数组。考虑小波系数的特点,采用MSCA定向渠道中提取特征(我们将演示MSCA分段3.2。2)。

注意,原始1×1 MSCA卷积是一个完全连接层(MSCA所取代足球俱乐部)。这背后的原因是,1×1卷积更多关注相邻通道之间的相关性。相比之下,完全连接层是一种点对多点的关系,全面描述了区间渠道之间的关系。MSCA除了提取通道之间的相关性足球俱乐部块在地方特色也减少了冗余信息。因此,DCE关注定向组件。然后,我们应用一个1×1卷积操作C1×1进一步利用信道间的相关性。通过这种方式,相同的定向功能共享小波变换的卷积核。

3.2。以多尺度特征融合

从本质上讲,多尺度小波变换的二分了原始图像的频率。每个频率分量如何在面临取证工作任务,如何有效地把从多尺度小波变换获得定向功能?因此,我们提出了一种新的以特征融合方法。

3.2.1之上。在面临取证频率成分的影响

面对伪造检测与传统的不同图像分类任务。在[声称21),深层网络模型对图像分类利用低频和高频信息,导致最终的分类。我们进行初步实验通过选择10 k的脸图像真实和假比率的一半。假脸图像是由四个脸图像伪造。ResNet18是用于实验。这些图像由FFT与重建r随着半径保持中心频率分量(图4(一))。训练和测试过程记录在图4 (b)。水平轴时期训练的数量,纵轴是ACC。r是屏蔽的半径。越大r是,保留更多的高频分量。,我们可以观察到以下几点:(1)低频图像,网络收敛迅速,和三个时代就足够了。(2)初始精度不断提高的增加高频组件。(3)通过引入更高的频率成分,网络的好处少,甚至精度下降。

从上面观察(1)和(2),网络应该学习一些功能从低频组件。注意,频率成分利用并行,有别于传统的图像分类(21]。实际上,这也是符合我们的常识。正如我们所知,图像分类通常是语义层面,而面对篡改检测是一个细粒度的分类任务。从观察(3),因为图像常常包含一些噪声,通常存在于高频组件,高频成分的积累也为网络学习带来了一些困难。

3.2.2。多尺度通道的关注

由于小波变换可以提供多尺度图像描述不同的频率成分。高频和低频分量对面对伪造检测。因此,融合特性是一个关键问题。权重的传统渠道的注意机制是基于平均值的频道,例如,SENet [39]。虽然他们的工作,而忽略一些重要的当地subimportant功能中的信息渠道。这个缺点抑制来自发挥其功能的小波变换的细节表示。灵感来自于人类视觉皮层神经元的感受野,我们提出一种多尺度通道(MSCA)机制,认为地方特色的重要性,减少噪音的副作用。图5显示了MSCA提议。Cn表示不同的DCE特征图。他们都集中C一个

我们执行最大池3×3的内核,5×5和7×7C一个。对于每个池,我们被全球平均1×1通道阵列池。

接下来,我们转置和集中他们3×1频道,然后我们用1×1卷积操作(C1×1)获得 最终的输出是相乘得到的C一个

最大池策略加强地方特色,而平均池突显了全球信息。因此,权重的赋值为每个通道使用MSCA全面考虑。请注意,使用高频组件的方向特性。实验在分段3.2。1证明了低频组件模型中也扮演了一定的角色训练。因此,我们使用一个二束网络利用低频信息,同时进行像素级特性。

基于上述方法,我们提出DCWNet和图6显示了完成工作的框架。

4所示。实验结果和分析

4.1。实验设置

图像数据集。FaceForensics + +是最近面对操纵数据集,已广泛应用于现有的工作(33,43]。扩大从FaceForensics数据集质量三个水平,即原料(原料),总部(高质量)和LQ(低质量)。FaceForensics数据集,每个级别包括1000个视频,它直接来自YouTube不干预。相同数量的假视频是由四个面对伪造包括Deepfake,面对面,FaceSwap,神经纹理。此外,FaceForensics + +数据集还包含363真正的视频从28演员16岁以下场景。因此,FaceForensics + +数据集有1363真正的视频和4000假视频质量。我们提取每个真正的视频等于60帧间隔和16为每个假视频帧。MTCNN [44)用于作物脸图像。因此,我们有63 k假脸图像和63 k真正脸图像,完全126 k的脸图像。我们把他们分成85 k, 35 k,和6 k脸图像作为训练集,测试集,分别和验证集。此外,DFDC预览(45)的数据集,这是一个预览的数据集Deepfake检测挑战,也用于实验。它包含1131真正的视频和4119假视频。我们获得120 k面对DFDC预览数据集的照片。

评价指标。评估模型的有效性,我们利用两个广泛使用的指标,即分类准确性(ACC)和接受者操作特征曲线下面积(AUC)。ACC的近100%,AUC是1,网络达到性能越好。

实验的细节。的ResNet34 pretrained ImageNet (46),是利用两个流的骨干。开明批正常化用于初始化。网络优化通过SGD动量和0.0005与0.9的重量衰变。我们设置了基础学习速率为0.02和使用StepLR作为学习速率调度器每一步学习速率的一半。批处理大小是64,我们对14 k迭代训练模型。整个工作完成后PyTorch 1.1.0两个Nvidia GeForce GTX 1080 Ti gpu。加快培训过程中,我们将小波变换的结果保存到本地磁盘NumPy格式。

4.2。与现有的工作

拟议中的DCWNet测试在不同质量的图像数据集,包括伪造图像所产生的不同的图像篡改的方法。实验中比较了该方法和现有的工作。FaceForensics + +数据集的实验结果如表所示1。显然,拟议中的DCWNet达到一个相当高的ACC(98.73%)和AUC FaceForensics上(0.999)+ +(总部)的数据集。

LQ数据集,DCWNet也达到理想结果的ACC的AUC 97.91%和0.994。基线网络(ResNet34)相比,DCWNet实现ACC的提高约2.05%。这证明了DCE块是有效的。图7报告ROC曲线为不同面对伪造检测方法。我们还DFDC预览数据集进行实验相同的实验设置。表2实验结果报告。

对于不同的操作,我们也测试模型。具体地说,有四个面操作FaceForensics + +假图像的数据集。每个面操纵31 k图像。其中,22 k、8 k、1 k用于培训,测试,分别和验证。类似的实验结果得到,报告在表3

4.3。烧蚀研究
4.3.1。DCE块

证明的贡献提出DCWNet,消融进行研究。我们第一次探索方向的数量的影响,与实验结果记录在表4。即使从一个方向特性,达到高ACC和AUC DCE流。这证明了DCE块强大的本地特性表示。从多个方向与更多的特性,检测精度大大提高。这意味着从不同方向的特性是互补。我们也比较FC层的影响和1×1用于MSCA卷积。我们观察到的使用更多的方向,FC比1×1卷积。

8显示了一些从DCE块提取的特征图谱。我们可以注意到,注意反应的假图像分心,而真正的图像是紧凑。这背后的原因是,定向功能是没有假的脸图像有着密切的联系,而他们更统一的真实的脸图像。

4.3.2。MSCA

证明MSCA的有效性,我们使用不同的特征融合方法的DCE特征图。实验结果被发表在表5。具体来说,我们进行实验第一(S1)和第二(S2)阶段的小波变换,分别。element-wise加法,self-attention (SE)和MSCA用于特征融合。从表5融合,MSCA达到最好的特性。图9也比较的特征图谱DCE SE和MSCA之间的流。

5。结论

在这项工作中,我们提出一个二束DCWNet面对伪造检测。一个流使用DCE块利用多尺度方向相关性。融合不同尺度的DCE特征图,提出了MSCA。其他流使用原始图像作为输入。实验结果表明,DCWNet FaceForensics + +和DFDC达到理想的结果预览数据集。烧蚀的研究中,我们观察到真正的和假的脸有不同的特征图谱,从DCE块。这证明方向分布的相关性是面对伪造检测价值。此外,该MSCA的有效性验证通过比较现有的特征融合方法。我们还探讨不同频率成分有助于面对伪造检测,这对面临取证提供了一些可解释性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。