文摘
最近进展深度学习,尤其是生成模型,使它更容易合成复杂的伪造的脸在视频,导致严重的威胁在社交媒体上关于个人隐私和声誉。因此非常有必要开发取证方法来区分这些伪造真实的视频。现有工作专注于探索框架水准仪线索但利用不够富裕的时间信息。虽然有些方法识别伪造从运动的角度不一致,到目前为止没有一个有前途的时空特征融合策略。为此,我们提出Channel-Wise时空聚合(CWSA)模块融合深度连续视频帧的特征没有任何复发的单位。我们的方法首先种植面对地区的一些背景知识,从而使学习目标从操作到原始和操纵像素之间的区别。深卷积神经网络(CNN)跳过连接有利于保护detection-helpful低级特性,然后利用提取框架水准仪特性。CWSA模块最终使是真是假决定通过聚合深帧序列的特性。评估对大客户的名单面部视频操作基准已经说明其有效性。在所有三个数据集,FaceForensics + +, Celeb-DF,预览和DeepFake检测挑战,该方法优于最先进的方法有显著的优势。
1。介绍
的迅速发展,社交网络和各种移动应用的出现促进了数字视频的创作和传播。这些视频通常含有丰富的内容,个人的脸和声音,这是非常重要的生物身份认证的信息。然而,操纵这些视频将严重破坏他们的真实性。由于人工智能技术的不断发展,现有的工具使操纵比以往更容易,更听不清。同时,多媒体内容的方便的创建和传播使它简单的攻击者获得他们所需的材料,这些工具进行恶意的目的。道德这已经成为一个潜在威胁,法律,个人隐私,一个伟大的警报。因此具有十分重要的现实意义研究有效的取证技术来区分这些假的视频。然而,面部操作之前没有引起太多的注意,因为传统的数字图像编辑方法由肉眼容易发现,法医技术一直处于优势,直到深度学习建立伪造技术的出现。
然而,近年来,基于深度学习的脸合成、处理和交换技术,通常称为术语DeepFakes面临取证带来了新的挑战。原DeepFakes只能交换两个面用一双autoencoders共享相同的编码器,但由不同的解码器。他们训练有素的重建源和目标图像,分别。一旦训练,目标解码器可以生成一个现实的脸的图像目标身份与源的表情脸被美联储与源脸表示信源编码器的输出。
原始DeepFakes时总是产生明显的工件翘曲脸回到目标图像,和这个缺陷已经利用现有的方法(1]。近年来,生成网络的不断发展可以生成非常写实的假面孔或完全合成的视频从一个单一的形象,甚至从肖像绘画2]。这提出了更高要求取证方法的检测精度和泛化能力。取证方法的帮助下也发展深度学习和以前在数字取证工作。根据使用的线索,面对视频的检测方法操作可以主要分为两种:基于intraframe信息和帧间信息。前者侧重于空间构件和实现视频操作处理独立帧的检测。后者捕获视频通过时序模型的动态缺陷如复发性神经网络(RNN) [3)或光学流(4]。
在本文中,我们采用一种新颖的方法来捕捉帧间线索通过聚合深特征序列明智的通道。实现更好的性能与参数相对较少。总结了本文的主要贡献如下:小说模块CWSA提出了利用时间信息通过聚合深连续帧的特点但不同的渠道。与一个强大的特征提取主干EfficientNet B0 [5),我们的方法达到先进的水平在三个大型数据集。透露,通过保持温和的背景在面对裁剪预处理,模型可以学习之间的区别原始像素和操纵获得提高检测精度。我们证明跳过连接保留了detection-helpful低级特征。因此,当深模型中扮演着中心角色用于提取框架水准仪特性。
本文组织如下。节2,我们简要介绍现有的取证方法。节3,我们给我们的方法的详细描述。并给出了实验结果和分析4,我们做一个结论和未来的工作前景部分5。
2。相关工作
2.1。操纵取证
之前基于深度学习的伪造技术的出现,传统的多媒体内容操作,如删除、copy-move,拼接图像编辑技术实现的。多媒体取证的研究一直致力于解决的问题检测这种长时间操作。这些操作往往留下明显的线索,特别是通过编辑或压缩引起的统计特征。考虑这一点,Cozzolino等人提出了一个基于功能的拼接检测方法。他们的算法计算出地方特色的同现矩阵图像残差和参数提取不同图像被证明是有效的检测和定位(6]。同样,研究[7)发现时代的JPEG压缩图像的影响。的帮助下非负矩阵分解模型和离散余弦变换的直方图,可以成功地检测到多个JPEG压缩和间接,图像的真实性。
另一种受欢迎的方法是发现相机本身相关的线索。在2006年,卢卡斯等人提出的身份相机模型通过光响应不均匀性,一个模式,揭示了不同灵敏度的像素光不均匀性造成的硅片(8]。研究人员还发现camera-related模式out-camera处理历史上离开。在[9],Cozzolino等人研究发现和定位伪造了一个基于成像噪音模式。这个噪音模式产生压缩或伽马校正,可以被视为独特的指纹特定的相机模型。然而,这种噪声的估计需要相当数量的样本,当遇到未知相机模型,检测方法和基于噪声模式将显示的弱点。
2.2。氮化镓取证
使用敌对的生成网络(甘),很多假的图像或视频完全生成而不是操纵。这在某种程度上减少了早些时候的性能检测方法。灵感来自相机指纹,最近的研究试图分析指纹图像和探索的可行性将假图像生成氮化镓与特定的体系结构。此外,张等人提出了一个AutoGAN模拟工件由共同的甘斯和检测GAN-generated图像使用光谱特性(10]。在[11),Cozzolino等人试图欺骗智能pretrained嵌入最初是用来区分摄像机捕获图像中痕迹。他们的工作揭示了当前方法的漏洞。Durall等人也调查了工件的视觉内容。他们在经典频域分析的差异,构造一维功率谱的统计数据。使用这个特性,一个简单的二元分类器训练很少有注释样本可以实现良好的性能12]。颜色异常为GAN-generated内容也是一个强烈的暗示。在[13)、甘麦克洛斯基等人表明,发电机可能会泄漏一些线索转换特性时表示红、绿、蓝像素。李等人分析了原始的区别和生成图像HSV, YCbCr, RGB颜色空间,提出了一种统计特性描述的区别(14]。更直接,Nataraj等人训练有素的CNN探测器在同现矩阵从RGB通道中提取在空间域,取得竞争的性能(15]。
2.3。DeepFakes取证
最近,许多新颖的基于深度学习技术也显示惊人的表现面对合成,其中最著名的是DeepFakes。随着DeepFakes的不断发展,相应的取证技术也正在研究。类似于之前的研究,早期的工作主要集中在视觉检测工件。李等人模拟DeepFakes构件通过高斯模糊和仿射弯曲,和他们的评估显示模拟工件可以使CNN探测器更健壮1]。一些其他的工作侧重于动态缺陷在时间域。在管道的3),CNN作为空间特征提取主干,和一个RNN与骨干,聚合CNN输出随着时间的推移,使最终的分类。周等人聚合短期、长期和全局统计特征脸不同区域之间的关系。评估表示这些关系,尤其是tracklet内的时间顺序,识别时间不一致的信息操纵面序列(16]。实际上,大多数动态基于工件检测方法利用CNN骨干首先提取每一帧的特征。
面部表情习惯是独特的在人与人之间,是很难模拟。因此,DeepFakes可能留下痕迹在尊重人格的行为习惯,有时甚至运动或灯饰的物理定律。例如,通过建模的脸和头部动作的独特的特定个人的演讲模式,高预测误差可以是一个很强的暗示,假的。生物信号如眼睛闪烁和脉冲也有差别的线索暴露DeepFakes。李等人发现,常规的眼睛闪烁中不能实现合成视频,他们提出了一个CNN和长期短期记忆(LSTM)联合建筑暴露DeepFakes预测眼睛闪烁(17]。无触点心率检测技术,很容易检测是否有定期的心率在视频和视频识别真伪。同样,费尔南德斯等人提出了估计心率在DeepFakes视频Neural-ODE与规范化训练心率(18]。由于数据不足,研究DeepFakes检测在早期严重受阻。促进DeepFakes检测的研究,许多大规模的数据集和开源。Rossler等人介绍了一个大型的面部操纵数据集与4 k伪造视频名为Faceforensics + +由四种不同的方法(19]。最近,Facebook发布了一个数据库包含19154原始和100 k伪造视频DeepFakes检测挑战(DFDC)。有各种各样的背景条件和操作方法巨大挑战的检测方法(20.]。李等人提出了一项新的名为Celeb-DF的大型基准,包含5639个复杂DeepFakes视频(21]。尽管一些现有方法可以揭露假视频,他们通常使图象电平真/假的分类融合的预测几帧。实际上这并不利用连续帧的特点和留下了一些假的视频检测的空间。结束这个问题,我们建议CWSA模块准确捕获的时间线索融合深连续帧的特征。
3所示。的Channel-Wise时空的聚合
本节提出了我们建议的方法的细节。给定一个补丁序列,weights-sharing骨干提取每个补丁的深层特征。然后提出CWSA模块重组特征映射到一个新的特征序列然后压缩到一个向量和连接到单个神经单元为真或假的分类。完整的管道的方法显示在图1。
我们提出一个简单但有效的模块CWSA如图2。该模块很容易配合骨干和作为CWSA净脸视频取证。具体来说,给定一个深度特性的连续帧序列产生的支柱,虽然不知道我们具体的语义通道,我们假设特征图谱相同的频道但连续帧不同的帧包含动态信息。通过叠加不同的帧的特征图谱相同的频道和单独进行进一步的特征提取,我们既可以捕获框架水准仪工件和更精致的帧间的缺陷。
对于每一个输入框,骨干产生一个特征的地图大小 ,在哪里和表示决议和表示通道。一个视频剪辑,其中包含连续帧,weights-sharing骨干生成一组特征图的大小 。我们的方法首先分解到基地特征映射 并通过重组和叠加有平等的 : 在哪里表示channel-wise叠加。如图2,我们最终得到一套新特性与大小 ,在本文,我们使用EfficientNet B0,等于1280和都是等于7。
下面层处理都是weights-sharing,即。,重复*减少参数的数量。批正常化是第一层,以避免内部协变量可能严重阻碍了培训的转变。接下来,卷积和LeakyReLU块,128年,64年,1内核没有将采样和填充。单一特征映射会被转化为一个元素,无论输入序列的长度,我们将得到一个特征向量的大小 。单一神经与乙状结肠激活连接到它,使分类虚假或真实。提出的管道CWSA总结了算法1。
|
||||||||||||||||||||||||
4所示。评估和讨论
4.1。实验设置
以下4.4.1。数据集和预处理
在这项工作中,我们进行了评估一系列大规模的假脸视频数据集:FaceForensics + + (19],Celeb-DF [21),和DFDC预览20.]。
FaceForensics + + 1000的和4000年伪造视频均匀由四个不同的伪造方法:DeepFakes,面对面,FaceSwap, NeuralTextures。在接下来的部分,我们称之为FaceForensics + + FF + +及其子集DF, F2F, FS, NT为简单起见。
Celeb-DF包括590原始和5639伪造视频由推进DeepFakes技术。源视频公开的YouTube视频,包括59名人的不同性别,年龄,种族。在这项工作中,我们使用300年第二版的这个数据集包含另一个原始与YouTube视频。
Facebook DeepFake检测挑战预览(DFDC-P)是早期版本对于这个竞争,组成1131 66年原始演员,和4113年伪造视频由两个脸合成算法。
表1列出了一些更基本的总帧数和视频大小的信息。
因为面对地区只占一小部分的视频,有必要对作物补丁脸来减少冗余背景的干扰和计算成本。因此,我们设计一个新的脸裁剪策略,是假的检测证明是有益的。
在预处理阶段,我们首先检测在视频,然后进行裁剪,这提出了一个问题关于最优裁剪策略。在早期的工作中,我们自然地认为,伪造的像素是一个CNN的特点主要是学习。在这种情况下,我们只需要作物面临根据人脸检测的结果,和不需要更多的操作。
然而,喂养的评估显示,输入,包括原始和伪造的像素,深cnn可以了解更多关于他们的区别。即,网络可能会受益于这种输入通过检测其全球一致性。验证如果剩下的一些原始像素与检测可以帮助我们,我们进一步评估两个额外的脸裁剪策略进行比较:(1)作物从检测到表达船体的脸随着面部轮廓的关键点。其他区域的像素密度设置为0。(2)作物最小平方,包含检测到脸,没有额外的保证金。(3)作物最小平方,包含检测到脸和扩大1.4倍。
样品的三面临种植策略如图3。表2提出了不同的脸裁剪策略之间的性能EfficientNet B0映像级别分类的准确性。显然,通过保留更多的原始像素,网络能够获得的精度。这是一致的在不同的数据集。
为了验证扩展剪切的影响因素特征提取,我们添加一个简单的基于EfficientNet B0消融实验。实验结果在NT, FF + +的一个子集,是一种高度压缩版本,如表所示3。很明显,利润越大,检测精度,但获得停止当扩大原始保证金的1.3倍。检测精度降低逐渐增加的因素,当它大于1.3。
对于这个结果,我们认为原因是1.3是1.69的广场,其约为0.85的一半。当封闭广场发现的脸没有额外的保证金,面对区域占整个图像的约0.85区域。因此,1.3倍的脸像素和背景像素数量之间的比例接近1:1。即真,伪造的像素的数量之间的比例接近1:1。我们认为,保持一个适当的检测数据的真实和伪造的像素比例有利于提高检测精度。我们比较不同扩展剪裁的准确性收敛因素在整个培训过程模型并将其显示在图4。称量的准确性和稳定性,我们最后选择1.4倍,整体性能更好,推广不同的数据集。
具体地说,鉴于 表示左上角的坐标,宽度和高度分别检测到的脸表示扩大系数控制幅度的大小。我们首先计算这个矩形的中心位置见方程(2),然后产生新的 在方程(3),因此切断一个正方形。然后调整扩大面临统一大小不管原始视频的分辨率,我们集 和 在这工作。
考虑到视频的头部动作是在一个有限的地区在短期内,对每一帧面孔识别是不明智的。因此,我们只有定期检测框架的一部分。未被发现的框架,我们作物面临的检测结果之前检测到帧。在这篇文章中,我们为每20帧的人脸视频以来通常包含30或24帧每秒。
4.1.2。Hyperparameters
报告的性能是不同的:框架水准仪准确性是用来评估脊椎的性能,可以只采用单帧作为输入;视频剪辑水平精度是用来评估模型,以短序列的连续帧。是在表4骨干的培训和CWSA净都由40时代早期没有停止。我们使用minibatch随机梯度下降优化器和设置学习速率= 0.01,动力2.375 = 0.9,学习速率衰减由每个时代的军医。对于模型训练的脸的图像,批量大小= 32迭代= 50。CWSA净,批量大小= 16由于内存限制迭代在每个时代= 100足够的训练样本。所有的表演都是报道3200随机测试样品。
在评价指标方面,我们认为视频取证二进制分类任务,采用二进制分类精度指标,代表有多少样本正确分类。虽然原始和伪造视频DFDC-P和Celeb-DF是不平衡的,我们故意挑选样品的每个类有50%的概率使其平衡训练和测试。我们也报告AUC(曲线下的面积)的综合评估。
请注意,没有任何数据增加用于这项工作。然而,极有可能取得更好的结果与适当的增加,训练hyperparameters和其他技巧。我们选择不这样做,因为这项工作的目的是研究深模型用于面对伪造检测的特点和我们的方法的有效性。
4.2。骨干的选择
骨干是一个关键组件,初步提取深度特性。因此,我们系统地研究不同深度cnn假人脸检测的性能来确定最task-orient。EfficientNet B0 [5)展示了其非凡的潜力,我们考虑我们的方法的支柱。
很难从头设计一个面临取证任务导向模型。虽然神经结构搜索技术可以帮助,但它可能会导致过度拟合在特定的数据集。现有的研究在计算机视觉,尤其是ImageNet一般图像分类,提供了一些现成的深度模型,执行卓越地图像特征提取。然而,他们在ImageNet不能表现唯一的参考点由于通用图像分类和伪造检测的区别。不清楚如何模型架构,内部模块和层组合影响检测性能。为此,我们系统地研究各种深度模型的区别。
是在表5,我们评估的模型和深时确实是有一些一致性模型应用于法医检测。经验,我们选择模型,按不同的标准可分为。考虑跳过连接和《盗梦空间》模块是两个最流行的和有效的组件来构建现代深模型,第一个标准分类选择模型是否包含跳过连接(EfficientNet B0 [5]& Xception [22V3[])(《盗梦空间》23]& MobileNet V1 [24),第二如果模型包含分类《盗梦空间》模块(《盗梦空间》V3 & Xception) (EfficientNet B0 & MobileNet V1)。分类实际/伪造面对补丁,最后的输出卷积层在所有这些模型是由一个全球平均压缩池产生一个特征向量,和一个神经单位乙状结肠激活与分类。
从表可以看出5那跳过连接是影响检测精度的关键因素。这还不够明显在FF + +自精度是饱和的。DFDC-P,它变得更加明显,Celeb-DF差距扩大到27%。一个合理的解释是,低级特性有助于揭露面部操作,和跳过连接可以直接向下游传递这些特性的模型。为了验证这一点,我们删除跳过连接在EfficientNet B0和Xception。在FF + +,这两种模型的性能跳过连接严重下降,甚至比其他两个更糟。这也可以看到另外两个数据集,以及他们的性能降低的水平这些模型跳过连接。总的来说,EfficientNet B0最好执行和推广不同的数据集,是一种理想的骨干为图像特征提取。
进一步验证这一点,我们定义最后的方差分布的致密层神经活动深模型: 为致密层在哪里单位,表示的输出11届神经单元i样本,表示的平均产值11届神经了N样本。因为神经单位最后致密层与一个更大的方差贡献更多的最终分类。因此,一个密集的神经活动表明,大多数单位都活跃在同一水平上,大约同样有助于最终分类。我们计算每一个单位的方差在过去的致密层的四种模式 测试样品。因为Celeb-DF性能是最变量,因此我们显示神经活动在四个模型框图如图5。Xception EfficientNet B0,第一和第三个四分位数非常接近,代表他们神经活动非常密集,大多数单位检测。其余两个,这个范围相对较大,这意味着有很多懒惰的单位,从而减少对检测。
4.3。该方法的性能
DFDC-P Celeb-DF,我们进行充分的实验不同的视频长度,结果如表所示6和7以粗体显示,最好的结果。第一列显示的性能EfficientNet B0骨干框架。显然,CWSA净有效地提高了检测精度,和输入序列长度越长,越检测精度。但这增益长度大约是12岁时停止,而不是继续当长度进一步提高。至于参数,EfficientNet B0骨干是主要部分,包含约4.05参数。下面的层,输入3帧只需要额外的79234参数,然后为每个额外的框架,只需要额外1152参数。我们也评估常用的实验hyperparameters CNN-LSTM架构相同。CNN-LSTM,它还利用EfficientNet B0为骨干,和2048单位LSTM需要全球平均集中输出的骨干1280 - d向量。LSTM随后512 - d致密层和一个神经做出预测。在DFDC-P CNN-LSTM甚至执行比骨干。 Although it indeed makes some gains on Celeb-DF that increases with sequence length, our CWSA Net still outperforms the CNN-LSTM.
为了验证CWSA模块的优越性,我们比较的方法是一个简单的每一帧的平均融合。此外,我们还比较与传统RNN CWSA模块和LSTM基于相同的特征提取主干(EfficientNet B0)。表8提出了一种比较这些方法的准确性在NT, FF + +的子集。应该注意,这里使用的NT是高度压缩,这是低质量的。显然,RNN的性能和LSTM不是很好,甚至不像简单的平均有效融合的每一帧。我们认为这是因为RNN和LSTM失去了空间特征信息在每一帧聚合时间的特性,导致产生负面影响。从实验结果,与传统的RNN和LSTM相比,提出CWSA模块性能更好。
表9提出了一种精度之间的比较我们的方法和先进的所有三个数据集。虽然CWSA净Celeb-DF有点弱,这是,平均而言,比最先进的方法。即使在FF + +,精度几乎浸透,CWSA净仍有一个巨大的优势。此外,值得注意的是,DFDC-P显然是最具挑战性的数据集。这两种方法在检测精度不太理想。然而,CWSA净仍然超过2.9%的最先进的,这是一个重大的进步。
整个基于AUC的比较表10。有很多种方法,从不同的角度推导在名单上。CWSA净达到AUC Celeb-DF和DFDC-P得分最高,证明其效率。很明显,与其他方法相比,CWSA净,从而提高检测性能差距很大。
我们也比较的准确性和AUC四个子集FF + +与多个表的检测方法11和12。在本部分中,提供的结果是EfficientNet B0骨干,也期望使用特别设计的脸裁剪策略。显然,我们的方法达到最先进的平均水平,它超越了其他方法3的4子集。尽管FF + +很容易暴露,和一些以前的方法执行近100%的AUC和二进制分类准确性,我们的方法仍然显示了明显的优势在这个数据集。这些优秀的结果不仅是由于高效B0还因为脸的种植方案提出了这项工作。
4.4。分析
我们现在的一些失败的案例与我们建议的方法建立了人脸检测在高度压缩NT,如图6。第一类型的失败案例如图6(一)和6 (b),很明显,面对探测器未能正确地提取高度压缩的脸,直接降低了检测精度的伪造的脸。因此,提高鲁棒性的人脸检测器可以有效地解决此类故障。对于第二种类型的失败案例,我们调整图像的色彩对比更好的显示的细节和显示数据6 (c)和6 (d)。实际上,颜色对比也是一个主要影响因素的检测假脸。为了处理此类故障,数字图像处理方法可以用来预处理样品颜色对比较低。过去的失败案例数据所示6 (e)和6 (f),样品错误检测到视频帧不同的姿态。由于视频帧的侧面相对较少的数据集,对这些样品检测模型不敏感,导致检测精度不够好。因此,该模型可以用适当的数据扩充表现得更好。
(一)
(b)
(c)
(d)
(e)
(f)
我们的工作是为数不多的现有方法领域的假脸视频检测,利用空域特性和时域特性,在部分4.3,实验结果证明了其有效性。不同,以往的方法集中在寻找线索的伪造图像水平(9,19,29日]。尽管这些方法已经取得了一些成功,他们仍然把改进的余地的检测精度,因为他们不利用重大时间之间的差异真的和假的。和我们的方法试图进一步利用时态特性来提高检测精度,同时保持空间的使用功能。事实上,我们不首先考虑这个3),但以前的工作破坏了空间结构的空间特征提取之前时间特性。这就不可避免地导致精度退化特征表示。因此,不同之处在于,该方法提取时空特征在同一阶段,旨在缓和空间特性的恶化,导致优势在多个数据集。
4.5。工业应用
目前,假脸视频主要的负面影响仍在网络上,呈现在图7,由于法律和政策的约束,他们不太过度带来严重的负面影响。然而,这些脸操纵技术是不可忽视的威胁的系统依赖于人脸识别的词,不仅在网络世界。正常的面部识别系统没有一个强有力的脸antispoofing模块通常需要用户进行相应的面部动作指示,以证实其合法性。如果这一步是通过,系统将从本地或基于云计算数据库检索捕获的面孔,进一步确定他/她是否授权。但是这种没有伪造算法和人脸识别系统的模块通常无法抗拒face-swap攻击。
人脸识别技术,由于其便利和引人注目,已应用于一些交互的智能应用程序。高安全要求在这些场景中,这些很容易暴露的人脸识别系统有许多安全隐患。现有人脸识别系统演示攻击从化妆、印刷、3 d-mask等。近年来,为了确保安全的人脸识别系统,面对antispoofing (FAS)技术也高度关注31日]。玉等人提出了基于神经结构的第一个FAS方法搜索发现适合task-aware网络(32]。然而,伪造的脸也可以间接攻击人脸识别系统在这些方面,几乎可以被忽略。黑客可以利用face-swap算法来模拟后的面部动作指令和打印或显示一些媒介如纸或电子屏幕上伪造的脸为了欺骗系统。这个调用的要求一个额外的假人脸检测模块在第一阶段的人脸识别系统,消除安全隐患,如图8。更重要的是,伪造算法在真实场景中是未知的,和检测算法需要对多个伪造类型高度健壮。CSWA测试基准包含不同类型的脸上交换和重现,这都是能够攻击的人脸识别系统,这些系统可以帮助保护这些攻击。确保用户体验,人脸识别系统通常需要整个管道相对较快,所以面对伪造检测模块只能获得一个短片的脸,但是我们的方法只需要有限数量的帧来实现高精度检测。
5。结论和未来的工作
在这篇文章中,我们描述一个小说法医模块命名CWSA检测视频操作。仔细看看问题操作检测使用深cnn,我们首先研究面临种植策略的影响和不同的网络架构。我们发现面对种植,一个合适的利润率有助于模型表现的更好。和跳过连接通过下游低级特性在这个任务也非常有益。在此基础上,我们提出我们的简单而聪明CWSA净重组特征图属于同一通道分别从连续帧和融合他们旋卷新特性映射集。我们的方法被证明是很有竞争力的评估三个大规模脸上视频操作基准。它达到了先进的水平平均超越其他方法在大多数的数据集。DFDC-P最有挑战性的数据集,我们的和最先进的方法的性能不是很理想但是CWSA净仍然超过了2.9%,这是一个重大的进步。
我们的工作为未来的研究表明一些机会,因为它证明了可行性从时空角度检测伪造的面孔。首先,尽管CWSA模块聚合帧间特征而不破坏其空间结构,没有进一步约束有趣的地区。也就是说,模块能公平对待不同位置的功能。直观的、伪造的信息缺陷暴露在时域因地区而异,和更明智的区域应该更集中精力。因此,我们可以把注意力机制,但由于缺乏地面真理感兴趣的区域,我们必须设计一个无监督或semisupervised地关注模块。未来工作的另一个机会是域泛化。现有的检测方法,包括我们,都不足以让未知类型的假货,但是面对未知的攻击是很常见的在真实的场景中,和推广一个未知领域的能力是至关重要的,如果我们想要我们的方法更加务实。为此,在未来的工作中,我们希望我们的方法不仅仅是一个二进制分类器,通过度量学习但总真正面临时假脸尽可能独立于真实的脸,在这种情况下,假的人脸检测任务被视为异常检测任务。
数据可用性
的数据支持本研究的发现在Yujiang-Lu / CWSA-tensorflow公开可用https://github.com/Yujiang-Lu/CWSA-tensorflow。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作由江苏省基础研究支持部分Programs-Natural科学基金会资助下不。BK20181407,部分由中国国家自然科学基金会在格兰特U1936118号,61672294,U1836208, 61702276, 61772283, 61602253,和61601236,江苏省部分由六峰人才项目(R2016L13),江苏省Qinglan项目,江苏省“333”工程,在中国国家重点研发项目的一部分资助2018 yfb1003205,优先级的学术程序开发部分的江苏高等教育机构(PAPD)基金,和部分大气环境和设备技术的协同创新中心(CICAEET)基金,中国。