文摘

最近,各种Deepfake检测方法被提出,其中大部分是基于卷积神经网络(cnn)。这些检测方法遭受过度拟合上表现不佳的源数据集和跨域数据集有不同的分布从源数据集。为了解决这些局限性,本文提出了一个名为FeatureTransfer的新方法,这是一个两级Deepfake检测方法结合转移学习。首先,CNN模型pretrained第三方大规模Deepfake数据集可以用来提取更多的可转让的特征向量Deepfake视频源和目标域。其次,这些特征向量被送入domain-adversarial基于反向传播神经网络(BP-DANN)无监督域自适应训练,在视频源域是真是假标签,而未标记的视频在目标域。实验结果表明,该方法FeatureTransfer Deepfake检测可以有效地解决过度拟合问题,极大地提高cross-dataset的性能评估。

1。介绍

最近,Deepfake视频一代技术吸引了太多的关注,尤其是流行Deepfake应用程序称为“澡”。应用程序需要用户提供一个清晰的个人形象和完整的面部特征验证,但图像采集协议是不友好的。大多数用户表达担忧面临的安全信息。此外,Deepfake技术也可以用来制造假新闻,对用户隐私构成威胁和社会保障1- - - - - -6]。因此,它是至关重要的检测Deepfake图像或视频面临取证。正如我们所知,Deepfake检测、面临取证的一个分支,是一个二进制分类任务。面临取证的目的是检测人脸图像或视频中是否已经创建或操作。

Deepfake视频检测方法主要是使用深度学习技术,通常由两部分组成:人脸检测和分类。对于人脸检测(7- - - - - -9),MTCNN(多任务卷积神经网络)7]和dlib [8)主要是用作面探测器。至于分类部分,一些研究人员检测Deepfake视频可见工件的视频。例如,Matern et al。10)发现左边和右边的不一致的颜色的眼睛和牙齿的几何变形Deepfake视频。李等人。11]发现Deepfake视频的人眨眼的频率更低。杨et al。12)检测到视频Deepfake通过提示不一致的头部姿势。李等人。13通过检测的脸扭曲构件)暴露Deepfake视频。这些方法有效检测一些早期Deepfake视频。然而,随着Deepfake视频生成技术的发展,可见构件使用的这些方法可以显著减少,降低一些artifacts-based方法的性能。因此,一些其他线索Deepfake视频需要发现检测。Zhang et al。14发现upsample或调换使用的卷积Deepfake技术不可避免地导致棋盘效应生成的脸上。在此基础上,他们提出,CNN可以用来学习棋盘效应特征来检测Deepfake视频通过直接输入面对提取视频帧图像,如MesoNet [15]和XceptionNet [16]。与上面提到的空间线索,颞闪烁。,在consistent temporal changes in videos, can be taken as the temporal cues in Deepfake videos. To make full use of both spatial and temporal cues in Deepfake videos, Guera et al. [17和陈等。18CNN和复发性神经网络相结合(RNNs)检测Deepfake视频。不幸的是,李et al。19]发现大多数Deepfake检测方法训练和测试在特定数据集可以达到令人满意的性能,但是他们的表演时显著降低跨域数据集的方法进行测试,表明这些方法过度拟合在一个特定的数据集。提高泛化能力的方法在跨域数据集,多任务学习方法(20.- - - - - -22]介绍了Deepfake检测。具体地说,阮et al。20.)开发了一种同时执行多任务学习方法分类、重建和分割操纵的面部图像。Cozzolino et al。21)提出了“ForensicTransfer”通过结合分类和重建,而李et al。22)提出了“面子”x射线检测Deepfake视频基于混合边界结合分类和分割。然而,这些方法仍然需要提高cross-dataset评估的性能,因为他们倾向于训练分类器(即在一个小规模数据集。,FaceForensics + + (16]数据集),这是很难被推广到其他看不见的数据集生成用看不见的Deepfake操纵方法。

使Deepfake视频检测方法更健壮的跨域数据集,本文提出了一种新的方法称为FeatureTransfer,基于无监督领域适应气候变化。大量实验证明该方法FeatureTransfer可以改善cross-dataset Deepfake检测性能的评估。这项工作的贡献总结如下:(1)无人监督的领域适应这项工作首先是用来检测Deepfake视频。两级培训管道FeatureTransfer设计呼吁Deepfake检测。(2)特征提取器在预处理阶段pretrained在大规模数据集Deepfake DFDC-P [23)中提取更多的可转让的特征向量。(3)基于BP(反向传播)和丹(domain-adversarial神经网络),提出了一个无监督领域自适应的网络称为BP-DANN。

本文的其余部分组织如下。节2,并给出了相关的工作。节3,我们提出的方法的详细描述。节4我们提供全面的实验结果和分析,以及烧蚀的研究。最后,结束语部分5

虽然我们工作的重点在于Deepfake检测领域,FeatureTransfer还与传输领域的交叉学习,特别是无人监督的领域适应气候变化。在一节中,我们清楚地审查之前Deepfake检测方法和传输的学习方法。

2.1。Deepfake检测

检测Deepfake图像或视频,最之前的作品是基于深度学习方法,可分为两种检测方法:CNN-based方法(10,13,15,16,20.- - - - - -22)和RCNN-based方法(11,17,18]。CNN-based方法提取面临来自视频帧图像和输入它们到CNN进行训练和预测获得映像级别的结果。这些方法只使用空间信息Deepfake单帧的视频。此外,钱等。24)发现Deepfake视频挖掘线索在频域而不是RGB域。相比之下,RCNN-based方法需要一个训练和预测得到的视频帧序列图象电平的结果。这些方法同时使用CNN和RNN,他们被称为RCNN。因此,RCNN-based方法可以充分利用空间和时间信息的Deepfake视频。此外,一些Deepfake检测方法(12,25)是基于传统的机器学习方法,杨et al。12和汗·等。25)使用SVM(支持向量机)作为分类器通过提取手工制作的特性,如生物信号。最后,总结在表上面提到的方法1

2.2。学习适应和域转移

转移深度学习的学习是一个重要的分支,它利用源领域的知识协助模型学习的知识目标领域更快更好。最近,转移学习已广泛应用于法医领域(21,26,27]。例如,加载pretrained ImageNet模型在模型的重量是学习训练是一个简单的转移。Cozzolino et al。21]训练样本上的ForensicTransfer从源域,然后进行微调和少量的样本的目标领域改善性能ForensicTransfer在目标域。

转移的一个关键领域学习、领域适应旨在使分布源域和目标域的特征空间尽可能密切。同时,可以转移目标模型训练在源域到目标域获得良好的性能。大多数作品利用深度域适应基于差异测量。例如,相关对齐(珊瑚)[28)和最大平均差异(MMD) (29日)是用来减少分布域之间的分歧。一些工作是基于差异测量domain-adversarial学习,比如domain-adversarial神经网络(丹)30.),multiadversarial领域适应(马达)31日),和转移与动态对抗性的适应网络学习(她女儿)32]。

FeatureTransfer CNN-based方法。在这个工作中,第一次使用第三方Deepfake数据集训练CNN提取特征向量的面部图像。然后,domain-adversarial基于反向传播神经网络(BP-DANN)是利用功能转移训练,可以提高Deepfake跨域数据集上的性能。

3所示。该方法

在本节中,我们将介绍该方法的细节FeatureTransfer。与端到端NANN对抗的训练方法,FeatureTransfer利用两级对抗训练管道。如图1FeatureTransfer由两部分组成:(a)预处理阶段,包括人脸检测和特征向量提取,和(b) BP-DANN无人监督的领域自适应模块。

3.1。动机

大部分的方法研究cross-dataset评价主要训练模型FaceForensics + + (16]数据集或其他小规模数据集,然后其他数据集对其进行测试。不幸的是,这些方法用于生成Deepfake视频在不同的数据集通常是不同的,这可能会导致巨大差距在生成的视频。因此,很难培养模型具有良好的探测能力的全部或大部分小规模Deepfake Deepfake数据集在一个特定的数据集。此外,许多取证方法是数据驱动的,所以重要的是要找到一个大规模的培训模型Deepfake数据集包含各种Deepfake生成方法。幸运的是,大规模数据集Deepfake DFDC-F [23),包括23654年的真实视频和104500假视频,符合我们的数据驱动的要求。假视频DFDC-F数据集是由不同的方法,包括Deepfake Autoencoder (DFAE) [33),MM /神经网络面临交换(34],n [35],FSGAN [36]。因此,特征提取器CNN pretrained DFDC-F数据集可以用来提取更多的可转让的特征向量,将送入BP-DANN无监督域自适应训练。

3.2。问题定义

在无人监督的领域适应Deepfake检测,假设源分布 ,在哪里 输入和标签空间的源域,分别。与此同时,目标分布 ,在哪里 的输入和标签空间目标域。然而,输入样本源域标签但未标记的目标域。 有相同的标签空间,这样吗 ,,“0”代表真正的图像或视频,“1”代表了假的图像或视频。此外,每个输入 ,特征向量提取CNN在预处理阶段,有一个域标签 如果 如果 两个域之间的分布是相似的,也就是说, 这项工作的目的是提取更多的广义特征向量pretrained CNN在预处理阶段和设计一个深层神经网络,使学习转移特性 和自适应分类器 减少两个域之间的差距,这样目标的风险 可以通过减少有限源风险和跨域差异。

3.3。预处理阶段

在预处理阶段,首先用于获得人脸检测网络MTCNN脸部区域的视频帧,和该地区增长了1.2倍,作物图像并将其保存。然后,CNN(即。,se_resnext101_32 × 4 d [37])是第三方pretrained大规模Deepfake数据集(即。,DFDC-F [23])。最后,面对图像被送入CNN提取2048维的特征向量。提取的特征向量是保存,这样就可以快速加载的BP-DANN无人监督的领域自适应训练。

3.4。Domain-Adversarial网络

丹可以学习域不变特性通过端到端的对抗训练。学习过程是一个双方博弈:第一个球员是域鉴别器 这是训练区分源域和目标域;第二个球员是特征提取器 中提取域不变特性,可以迷惑域鉴别器。在敌对的两名球员的训练参数 的特征提取器 被最大化学域鉴别器的损失吗 ,而参数 域的鉴频器 是学会了通过最小化域鉴别器的损失。此外,标签分类器的损失 也最小。丹可以形式化的总体损失函数 在哪里 样品的数量在源域和目标域,分别 域的标签吗 , 是标签的损失预测 是域鉴别器的损失, 是权衡hyperparameter标签分类器和域鉴别器的优化问题。基于方程(2)和方程(3),优化问题是找到最优参数 , , 提供一个鞍点的方程(1培训后)是收敛的。

3.5。BP-DANN网络体系结构

如图1的网络体系结构,提出BP-DANN包括三个部分:特征提取器 ,标签标识符 ,和域鉴频器 这三个部分是由英国石油公司结构。 是由两个完全连接层,也就是说, 输入和输出的尺寸 ,在哪里 是2048, 是512。 设置为64。 是由一层辍学概率( )0.5和一个完全连接层 是由两个完全连接层,也就是说, 获得的更合适的值 , , ,网格搜索用于遍历搜索工作。

4所示。实验

4.1。数据集

在这一部分中,首先介绍了相关的数据集实验。然后,给出实验的细节实现,最后分析了实验结果。DeepfakeTIMIT (DF-TIMIT) (38]数据集包含640 Deepfake视频生成GAN-based方法(39和基于VidTIMIT40数据集。视频分为两个相等的子集:低质量(LQ)和高质量(总部)。在我们的实验中,我们添加了320年VidTIMIT真正的32个相关主题的视频,和LQ子集用于测试。FaceForensics + + (FF) (16]数据集包含1000原始(P)视频和4000所产生的假视频使用的四个最先进的面部操纵方法,包括DeepFakes (DF)、面对面(F2F) FaceSwap (FS),和NeuralTextures (NT)。这个数据集涵盖了三个版本的压缩品质:生、c23, c40。在我们的实验中,FF-DF和压缩质量的c23 FF-FS子集。DeepFakeDetection(过程)(41)含有363真正的视频和3068 Deepfake视频发布的谷歌。类似于FF,这个数据集也涵盖了三个版本的压缩特性,包括原料、c23, c40。在我们的实验中,c23。Celeb-DF [19]包括408真正的视频和795合成视频生成使用Deepfake算法的一个改进版本。DFDC [23]数据集包含两个版本:DFDC-Preview (DFDC-P) [42)和DFDC-Final (DFDC-F) [23]。DFDC-P包括1131的视频和4113假视频。Deepfake检测DFDC-F被释放的挑战,这包括23654年真正的视频和104500年假视频。在我们的实验中,DFDC-F pretrain CNN(即。,se_resnext101_32×4 d)和DFDC-P用于测试。

正如上面提到的,30帧提取每个视频每隔相等。然后,面对地区每一帧的检测并保存为图像。平衡DFDC-F真实和假脸图像,从每个假视频提取30帧,但是从每个真实视频中提取150帧。脸图像的数量在每个数据集表中列出2

4.2。实现细节

与端到端敌对的学习培训丹,FeatureTransfer采用两级培训策略。

在第一阶段,大规模数据集Deepfake DFDC-F CNN(即用于训练。,se_resnext101_32×4 d)。ImageNet CNN与pretrained初始化权重,这样它可以用来提取更多的可转让的特征向量。批处理大小设置为128,总培训时代是10。亚当优化器使用,最初的学习速率设置为2×10−3和体重4×10的衰变−5。培训后,CNN是用于提取图像的特征向量,特征向量是救了根据不同的数据集。

在第二阶段,特征向量是加载,然后BP-DANN训练。在无人监督的领域自适应对抗训练,FF-DF的特征向量(训练集)被选中作为源域,而选择其他的测试数据集的特征向量作为目标域。应该注意的是,由于大量的图像过程中,DFDC-P, Celeb-DF数据集,只有10%的图片(真实和虚假图像的数量都是一样的)在每个数据集作为目标域用于无人监督的对抗训练,然后在每个数据集是所有图片训练后进行测试。至于FF-FS DF-TIMIT数据集,所有图像的数据集作为目标域用于无人监督的对抗训练,批量大小设置为128,总培训时代是50。SGD用于丹,而是亚当优化器的初始学习速率1×10−4使用。抑制噪声信号域分类器在训练过程的早期阶段,hyperparameter 在方程(1)逐渐改变了从0到1基于以下方程: 在哪里 是线性变化的从0到1和培训进展 设置为10。

4.3。结果和分析

该方法与以前的Deepfake检测方法相比,包括Xception [16],FSSpotter [18),面对x射线(22],se_resnext101_32×4 d (37]。跨域Deepfake检测结果表现出的AUC(曲线下的面积)和犯错(等于错误率)最近发布的数据集,如DF-TIMIT FF-FS(测试集),目前,DFDC-P, Celeb-DF。pretrained重量(所有c23。p)提供的作者是加载到Xception,然后模型直接用于测试在其他数据集没有再培训。同样,se_resnext101_32×4 d在DFDC-F训练,然后训练模型直接用于测试在其他数据集没有再培训。由于缺少开源代码FSSpotter和x射线,实验结果在相应的论文直接用于比较。结果片段长度(T)1在FF-DF FSSpotter训练数据集选择映像级别的结果。面对x射线在纸是训练有素的FF和BI (22)数据集。

3列出所有的跨域表现比较方法在不同的数据集。可以看出FeatureTransfer达到最佳的性能在DFDC-P(见数据集)和Celeb-DF(看不见的数据集)相对于其他方法而言,AUC和犯错。FeatureTransfer也获得类似的结果在FF-FS(看不见的面部操作),过程(看不见的数据集),和DF-TIMIT(看不见的数据集)。此外,Xception获得最佳的性能在DF-TIMIT(看不见的数据集)和FF-FS(见数据集),虽然在目前企业面临x射线获得最佳性能(看不见的数据集)的AUC和犯错。FSSpotter相对通用的性能,这可能是由于这样的事实:FSSpotter只是FF-DF数据集上训练。然而,AUC的结果,该方法仅为2.24%低于Xception DF-TIMIT和2.24%低于脸上中的x射线。而se_resnext101_32×4 d, FeatureTransfer达到性能改善的范围从1%到8%的AUC在不同的数据集,尤其是Celeb-DF 8%。与Xception相比,se_resnext101_32×4 d获得更好的性能更多的数据集,这就是为什么se_resnext101_32×4 d用作FeatureTransfer的特征提取器。总的来说,结果表明,在cross-dataset FeatureTransfer达到更好的或类似的性能评估,主要受益于更可转让的特征向量提取更深层次的CNN称se_resnext101_32×4 d DFDC-F pretrained在大规模数据集。此外,使用无监督领域适应也可以提高性能的无标号的Deepfake数据集在目标域。

4.4。烧蚀研究

证实了该方法的有效性,我们探索不同水平的影响评价和本节的影响不同的培训策略。

4.5。影响不同程度的评估

来验证该方法的有效性和更好的泛化不同级别的评估、级别和视频图像的结果进行了比较。得到图象电平的结果,预测评分预测的概率是视频,视频是假的,这是计算平均脸图像的分数从帧中提取的视频。它可以看到从映像级别和图象电平结果如图2图象电平的结果是每个数据集的AUC显著提高(%)。

4.6。不同的训练策略的影响

展示的好处两级培训策略中使用该方法,提出的实验进行FeatureTransfer时代20和丹拥有相同的培训。应该注意的是,只有源域的特征向量FF-DF(训练集)和目标域FF-FS(验证集)用于非监督FeatureTransfer敌对的学习在我们提出的方法。其他数据集训练模型,然后直接评估没有额外的对抗性的学习。丹的支柱是se_resnext101_32×4 d,和丹是由使用一个端到端的培训策略训练与FF-DF(训练集)作为源数据集和FF-FS(验证集)作为目标数据集。如图3,AUC(%)的映像级别结果FeatureTransfer使用每个数据集上的两级培训策略显著提高而丹使用端到端培训策略。

5。结论

FeatureTransfer在这项工作,两阶段Deepfake检测方法基于无监督领域适应气候变化,提出了。从CNN提取的特征向量用于对抗BP-DANN转移学习,导致更好的性能比端到端敌对的学习。此外,大规模的特征提取器CNN pretrained Deepfake数据集可以用来提取更多的可转让的特征向量,大大减少源域和目标域之间的差距在无人监督的领域自适应训练。实验结果表明,该方法达到更好的跨域Deepfake和类似的性能检测与以往方法相比。然而,仍然有一些限制在我们的工作。它不是一个端到端的检测方法,它需要一个大型数据集Deepfake pretrain CNN提取更多的转移特性,这需要大量的时间。因此,在未来的工作中,我们将致力于研究一个端到端的域自适应Deepfake检测方法不需要pretrained特征提取器。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突有关的出版。

确认

这部分工作是支持关键领域的研究和发展项目广东省(2019 b010139003),国家自然科学基金委(U19B2022 61772349, 61872244),广东基础研究和应用基础研究基金会(2019 b151502001),和深圳研发项目(JCYJ20180305124325555)。这项工作是由阿里巴巴集团也支持通过阿里巴巴创新研究(空气)计划。