文摘

最近,生成对抗网络(甘斯)和它的变体在图像合成显示令人印象深刻的能力。合成假图片在互联网上广泛传播,互联网用户识别,它是具有挑战性的真实性,这对社会造成巨大的安全风险。然而,与强大的图像合成技术相比,GAN-synthesized图像的检测仍处于起步阶段,面临各种各样的挑战。在这项研究中,一个方法叫假图像鉴别器(FID),提出了检测到GAN-synthesized假图片使用强烈的光谱成像过程中相关的自然彩色图像。该方法首先将彩色图像转换成三个颜色组件的R, G, b .离散小波变换(DWT)然后分别应用于RGB分量。最后,子带图像之间的相关系数作为特征向量分类真实性。实验结果表明,该支撑材方法达到令人印象深刻的有效性在StyleGAN2-synthesized面临与先进的甘斯和multitype假图像合成。同时,对四种常见的FID法表现出良好的鲁棒性摄动攻击。

1。介绍

人工智能(AI)的显著发展和进步的高性能计算硬件,大幅图像合成技术的发展。互联网用户在社交媒体分享大量的多媒体内容。是具有挑战性的识别这些内容的真实性,给社会带来巨大的安全风险。特别是,生成对抗网络(甘斯)在2014年提出1)催生了一种新型的图像合成方法。图像合成了四种典型的甘斯图所示1,这是非常困难的对于人类区分乍一看。此外,氮化镓强大的图像合成和编辑功能带来新的工业价值。例如,它可以用来创建虚拟人物,执行视频渲染和声音模拟在电影制作中,并创建一个新的沟通方式。然而,安全和隐私问题也提高了。如果这些假的内容是传播新闻材料,他们会损害新闻机构的声誉和公众的信心在媒体上,甚至误导公众舆论和扰乱社会秩序。日益开放的网络环境创造了一个理想的空间传播的虚假信息。的国家如英国和法国,有例使用深度学习伪造技术生产假图片,甚至欺骗公众进行间谍活动。的危害和影响合成图像传遍世界,导致伦理、法律和安全问题。是非常迫切的找到假图像的有效的检测技术。

GAN-synthesized图像显示高质量令人印象深刻。因此,GAN-synthesized图像的检测已成为一个热点研究领域。各种检测方法提出了GAN-synthesized图像先后[2- - - - - -5),取得了良好的效果。然而,随着越来越多的种类和质量GAN-synthesized图像,以及各种摄动攻击,这些方法开始暴露出其局限性。

克服现有方法的局限性检测GAN-synthesized图像,一个方法叫假图像鉴别器(FID)提出了这项研究。FID法依赖于离散小波变换(DWT)和标准相关系数提取光谱相关的自然彩色图像。此外,支持向量机(SVM)是用于分类。实验结果表明,该FID法优于之前的作品AutoGAN [6]和FakeSpotter [7]StyleGAN2-synthesized脸上并保持鲁棒性在应对四种常见摄动攻击。另一个实验是进行图像伪造其他先进的(SOTA)甘斯,和火焰离子化方法也取得了良好的效果在多种类型的假照片。

本研究的主要贡献如下:(1)FID方法:假图像鉴别器(FID)方法采用DWT和标准检测假图像相关系数。通过分析自然彩色图像的成像过程,发现光谱相关性可以用来区分GAN-synthesized rgb图像,这也是强劲的对四种常见干扰在不同强度的攻击。(2)第一个综合评价是在典型GAN-synthesized图像。实验是进行高质量的伪造图像合成SOTA甘斯。这些假的图像包括脸,建筑、动物、自然场景,等等。实验结果表明良好的支撑材提出方法的有效性和鲁棒性。(3)可扩展性:FID法是基于自然彩色图像的成像过程和分析实际和GAN-synthesized图像之间的区别。这种差异可能是在伪造图像,它可以扩展到其他AI-synthesized图像和DeepFake。

研究的其余部分组织如下。部分2回顾了相关文献的GAN-synthesized图像和检测方法。部分3描述数字图像的成像过程,提出了支撑材的表示方法4。实验结果与分析部分中所示5。部分6总结了研究。

数字图像取证技术是区分的真实性、完整性和图像内容的来源。它主要包括主动取证技术和被动(盲人)取证技术(8]。积极取证适用于图像验证场景数字签名,数字水印,或数字指纹嵌入到数字图像。但在实际环境中,大多数图像没有嵌入信息之前,这限制了主动取证技术的应用。被动取证不需要任何先验信息,图像识别是基于图像特征的变化引起的伪造的操作。目前,大多数的检测方法符合GAN-synthesized图像被动取证。在下面几节中,的最新发展GAN-synthesized图像和图像伪造检测方法将讨论。

2.1。GAN-Based图像合成方法

一般来说,GAN包含一个生成器和一个鉴别器。发电机综合图像和鉴别器区分虚假和真实图像。发电机和鉴别器相互玩游戏,最后达到一个动态平衡。甘自2014年首次提出以来,已显示出令人印象深刻的能力在图像合成、甘应用研究最多的区域。

整个脸合成意味着面部图像可以完全合成甘斯,和合成面临世界上不存在。在整个脸合成,甘斯(PGGAN)[的进步发展9),就模式化发电机架构甘斯(StyleGAN) [10,11),发布了英伟达,产生前所未有的高质量和高分辨率的整个合成的脸。作为一个模型,可以用最高质量生成图像,StyleGAN NVIDIA提出的一个新的发电机架构。在不影响其他层,每一层的输入修改分别控制每一层所代表的视觉特性。CycleGAN [12)取得了令人瞩目的成功image-to-image两个域的转换。因为每一对图像域需要独立建模、CycleGAN有限的可伸缩性和健壮性处理超过两个领域。STGAN [13]和StarGAN [14]关注脸编辑通过操纵人类的属性和表情的面孔,如改变头发的颜色,面部装饰,和表达式。执行image-to-image StarGAN设计发电机的恒星结构转换为多个领域。的统一模型架构StarGAN允许同时从多个领域训练数据集在一个网络。STGAN旨在改善操作的准确性和质量属性。FaceApp澡,FaceSwap采用甘斯生产DeepFake涉及人的脸的交换15,16]。

图像合成的甘斯可以应用在许多方面和交换的个人身份。在许多情况下,假的图像合成与人类SOTA甘斯都几乎无法分辨。我们不能相信我们的眼睛在媒体上了。

2.2。检测GAN-Synthesized图片

传统的forensics-based技术(17- - - - - -19)通常在图像合成和分析引入痕迹检查进行像素级真的和假的图像之间的差距。与传统的假图像相比,GAN-synthesized图像有更好的质量和不引入图像马赛克痕迹。因此,这些检测方法的有效性大大降低。同时,这些方法对微扰攻击敏感像模糊,在媒体中是很常见的图像。

Nataraj et al。3)建立了一个基于深层神经网络进行像素级图像检测模型(款)和检测GAN-synthesized图像提取同现矩阵在像素域三个颜色通道。麦克洛斯基et al。2)发现,饱和GAN-synthesized图像中像素的频率是有限的由于发电机的规范化操作。此外,GAN-synthesized图像颜色的统计关系组成部分不同于自然图像。虽然设计相应的检测策略使用这两个线索,它是容易受到噪声和对抗的例子的攻击。

检测GAN-synthesized图像的另一种方法是学习真的和假的图像同款的区别。Stehouwer et al。20.]介绍了注意力机制来改善面部伪造检测定位和操作区域。王等人。21)使用ResNet-50设计二元分类器来检测图像卷积神经网络(CNN)的合成。Zhang et al。6探讨了氮化镓的指纹(22),提出了一种分类器模型名为AutoGAN基于频谱的输入。AutoGAN识别工件的upsampling组件GAN堂,实现GAN-synthesized图像的检测。DNN-based方法(21,23,24)取得更好的性能比传统的方法基于图像取证和进行像素级的差异。其他工作探索了各种特色研究真正的和合成的面部图像之间的差距。例如,假的不协调的面部特征脸暴露在面部地标(4]。律等。5]头造成的差异作为分类特征。然而,GAN技术进展迅速,使得甘特性提取由上述检测方法难以保持良好的耐用性和普遍性。除此之外,这些作品是容易受常见的摄动攻击,鲁棒性检测假图片在野外至关重要。提出的FakeSpotter王et al。7)取决于监测神经元行为发现AI-synthesized假脸。这种方法表现出有效性对扰动SOTA甘斯而且鲁棒性攻击。

3所示。研究数码影像的光谱相关性

光谱相关性意味着三个颜色分量之间的相关性现有有限的邻近像素的彩色图像。在彩色成像系统,大多数消费级数码相机使用一个CCD或CMOS和成像过程的自然彩色图像如图2

单一传感器摄像头获取图像的颜色信息通过滤色器阵列(CFA)。拜耳CFA是最广泛使用的数组,使用另一种采样模式,RGB分量图所示3。G通道的采样数量两倍的R和B通道,这符合人类视觉系统的空间灵敏度不同的光谱波长。因为只有一种颜色组件捕获每个像素,CFA插值算法需要计算失踪的两个像素的颜色值。

CFA插值算法的主要任务是RGB图像的重建,具体地说,估计失踪的两个邻域像素的颜色值。CFA插值算法有很多,如最近邻,双线性,双三次的,卷积插值算法。这些算法进行插值主要在附近的一个颜色通道。以双线性算法为例,每一种颜色的组成部分R1估计如下:

这个例子说明了估计颜色组件直接相关的价值在附近捕获的彩色像素,所以必须有一个强大的光谱相关性RGB像素的真实形象。无论哪一个CFA插值算法重建数字彩色图像,所有涉及社区抽样值3组件时估计丢失的颜色组件,导致一个强大的光谱相关性存在的R, G, B通道。

不像自然彩色图像的生成过程,氮化镓列车网络与大量数据合成图像,这不可避免地导致在某些特性的差异,尤其是光谱相关性RGB彩色图像的组成部分。进一步证明GAN-synthesized图像和真实图像之间的差异,四种GAN-synthesized图像和真实图像,分别在RGB通道,表现DWT和内核转换RGB组件的密度曲线如图4

每个图都包含三条曲线,代表内核密度曲线的R, G, b第一行显示的RGB分量分布GAN-synthesized图像;的RGB分量第二行是真正的图片。可以看出真正的形象也有类似的核密度曲线三个颜色通道,和高峰和低谷出现区域高度重合。GAN-synthesized图像的RGB分量相对独立,不能清楚地看到和相关性。

总之,强劲的RGB光谱相关性插值操作造成的颜色成像过程,虽然GAN-synthesized图像不具有这一特点。因此,GAN-synthesized图像可以被基于这种差异。

4所示。我们的方法

自然彩色图像的成像过程导致高光谱相关性。相比之下,合成假图像与氮化镓可以削弱甚至消除这种相关性。因此,该方法用于检测GAN-synthesized图像采用小波多尺度分解提取RGB通道的光谱之间的相关性特征。支撑材方法包括特征提取和分类的两个阶段。该方法的框图如图5

4.1。特征提取

DWT可以将图像分解成子带系数表示在相同规模不同的方向信息。将二维图像分解 与DWT,它可以获得 在哪里 是低频近似下j, ,= {H,V,D}, 是详细的组件在水平、垂直和对角方向不同尺度下的图像。金字塔小波变换的多分辨率分解能力可以一层一层地分解图像信息,因此它被广泛用于提取图像特征,尤其是在空间域的统计特性。

DWT利用构造之间的关系的频率光谱图像的三个色彩空间。此外,相关系数是用来衡量构造相关。具体的特征提取过程描述如下:(1)RGB通道分离:由于统计相关性更强的三个组件存在于RGB颜色空间。首先转换成彩色图像的三个独立的颜色组件R, G, B。(2)DWT:每种颜色组件由一级DWT分解,分为四个部分波段图像(加上低频近似本身)。因此,12部分波段图像可以获得彩色图像。(3)计算相关系数矩阵FNCC。co-correlation系数是一个基本的相关性。标准的相关函数是用来测量三个颜色组件的子带图像之间的相关性。详细的计算过程如图6相关系数 两个颜色组件对应的子带图像,它的计算方程所示(2)。在计算所有小波子带图像,3相关系数矩阵FNCC可以获得。 在方程(2)的灰色图像 ,分别。所示的计算方程(3)。×N图像大小。 (4)提取矩阵特点:通过计算矩阵的四个特性(峰度,意思是,偏态,和标准偏差)的单独和GAN-synthesized图像,发现真正的峰度和GAN-synthesized图像有最大差异特性,它可以更好的区分真正的和GAN-synthesized图像。实验结果如图所示7

实验结果表明,峰度的实际和GAN-synthesized图像之间的差异最大。因此,峰态 FNCC是选为彩色图像的最终测量光谱相关性,及其计算如下所示: 在哪里 代表的元素FNCC和的大小FNCC×N。三峰态值可以通过计算相关矩阵的峰度FNCC(RG),FNCC(RB),FNCC分别(GB)。

4.2。分类

支持向量机通常用于模式识别、分类和回归分析。LibSVM [25)是一个工具库SVM林智仁教授在2001年开发的,可用于数据分类或回归方便。因为这项研究的重点是特征提取采用DWT,没有特殊的要求分类,用于分类的最终功能是一组在一个简单的三维向量形式。因此,LibSVM用于本研究实现一个简单的二元分类器,和径向基函数(RBF)内核用于训练支持向量机分类。 在哪里 是一个向量; 是唯一hyperparameter RBF; 表示向量范数。网格搜索方法用于优化参数。

5。结果和分析

在本节中,实验是进行评估的有效性提出FID法在检测GAN-synthesized图像和其对四种常见摄动攻击的鲁棒性。首先,StyleGAN2-synthesized脸上进行实验,结果与最近发表的工作相比,即。,AutoGAN FakeSpotter。

5.1。实验装置
5.1.1。数据收集

实验,收集的真实面孔CelebFaces属性数据集(CelebA) [26由于其良好的多样性。StyleGAN2用于合成假脸。以确保假的多样性和高质量的图像数据集,不同的图像由其他最新甘斯(例如,StarGAN和PGGAN)。表1提出了统计数据的收集假图像数据集从[21]。第一列显示了数据类型,不同意味着有十多个不同类型的虚假图像(如建筑、动物、飞机等等)。第二列表示真正的脸合成假图片的来源。最后一列显示合成假图片的来源,由官方发布,从网上收集的,或者自己合成。

5.1.2中。实现细节

二元分类器由LibSVM实现检测假图片,和RBF核函数。训练数据集包括5000真正的和5000 StyleGAN2-synthesized面孔和1000和1000 StyleGAN2-synthesized面临考验。训练数据集和测试数据集用于评估FID法的有效性和鲁棒性。选择四种常见微扰攻击鲁棒性评价,即压缩、模糊,调整,增加噪音。

5.1.3。评价指标

在检测StyleGAN2-synthesized面孔,八个流行指标采用获得支撑材的综合性能评价方法。此外,性能是与之前的作品相比,即。,AutoGAN FakeSpotter。具体来说,精确,记得,F1-score、准确性,美联社(平均精度),AUC(接受者操作特征曲线下面积),玻璃钢(假阳性),和FNR(假阴性率)报告。AUC也用作度量支撑材的性能评价方法在解决四摄动攻击和检测其他GANs-synthesized图像。

5.2。检测性能

节,DWT的影响水平检测StyleGAN2-synthesized脸是第一个探索。在特征提取阶段,真正的1000和1000 StyleGAN2-synthesized面临遭受多级DWT, AUC得分是用来评估性能。实验结果如图所示8。AUC的整体价值波动的增加DWT的水平。DWT时的AUC得分是最高级别= 1,所以选择一级DWT提取光谱相关性。

三种方法的性能。,the FID, AutoGAN, and FakeSpotter, in detecting StyleGAN2-synthesized faces is measured, and the result is given in Table2。AutoGAN是一个开源工作于2019年出版,利用工件GAN-synthesized图像和检测假图像基于深层神经网络分类器。FakeSpotter斑点AI-synthesized假脸通过监测神经元的行为。实验结果表明,FID法优于AutoGAN和FakeSpotter八个指标,实现竞争性能高的检测率和较低的误警率检测StyleGAN2-synthesized面孔。

为了说明FID法的性能平衡精度和召回,并给出了精度和召回曲线在图9。该方法达到一个好的平衡精度和召回StyleGAN2-synthesized脸上。

5.3。鲁棒性分析

自图像转换是很常见的,尤其是在社会媒体,鲁棒性分析的目的是评估的能力FID法摄动攻击。四个不同的微扰攻击(压缩、模糊、调整和添加噪声)不同强度下用于评估,AUC是作为绩效评估的指标。

至于四摄动攻击,压缩质量措施压缩强度。0到100,分别是最大和最小值。模糊表明,采用高斯模糊的脸。高斯核的价值标准偏差控制的强度模糊,调整和高斯内核大小(3、3),调整比例因子应用于控制大小的图像在水平和垂直轴。高斯加性噪声的图像噪点添加到生产,和方差是用来控制噪声的强度。

FID法的实验结果对四种常见微扰攻击图所示10。随着摄动攻击的强度增加,AUC得分FID法的一个小范围内波动。由于插值和量化操作的调整和压缩,在有限的社区变化像素的关系,使一个相对明显的变化。FID法达到AUC分数约为80%,超过85%为解决压缩和调整攻击,分别。此外,AUC FID法95%以上的分数处理模糊和噪声在不同强度的攻击。

同样,该支撑材方法评估其他GANs-synthesized图像数据集,其中包含丰富的图像类型,与AutoGAN结果比较;训练数据集和测试数据集划分为5比1。美联社得分也作为性能评价指标,并给出实验结果表3。可以看出,FID法总是保持良好的性能与SOTA甘斯为不同类型的图像合成。因为pretrained模型训练CycleGAN和StarGAN AutoGAN美联社CycleGAN和StarGAN获得100%。DiscoGAN CycleGAN也有类似的建筑,所以AutoGAN DiscoGAN上也取得了良好的性能。而在其他甘斯,除了BigGAN, FID AutoGAN相比取得了更好的性能。FID检测图像合成方法的性能由BigGAN PGGAN, StyleGAN并不像其他类型的假高图像。性能差的原因可能是假的图像合成BigGAN和PGGAN涉及更多的图像类型和更复杂的图像内容;因此,特征向量分类超平面更分散。支撑材有一个相对较低的美联社StyleGAN,因为StyleGAN-synthesized图像具有较高的质量和包含三种类型,检测更加困难。尽管GauGAN还包含各种各样的图像,图像的质量不好,美联社到达91.22%。 The AP of detecting other types of fake images is also above 90%. According to the experimental results, the detection of fake images with complex types is still challenging.

5.4。讨论

提出的FID法达到令人印象深刻的有效性检测SOTA GANs-synthesized图像。同时,对四种常见的方法表现出令人满意的鲁棒性摄动攻击。自压缩攻击变化像素有限社区关系和影响彩色图像的光谱相关性,FID方法压缩攻击的性能下降比较明显。

然而,FID法也有一些局限性。例如,多种类型的性能检测假图片不如比单一类型。多种类型的内容在假图片完全不同,使超平面的提取特征向量的分布更分散。这给分类带来的挑战,就不可避免地导致拒绝检测效果。multitype假的检测图像可能是一个未来趋势,构成挑战,呼吁有效的方法。

6。结论和未来的研究方向

人工智能技术的快速发展使人们有可能产生假的内容(例如,假的音频,假视频,和假图片)可以欺骗人类,给社会和人民带来潜在挑战。本研究提出了一种方法检测GAN-synthesized假图像基于DWT和标准的相关系数。同时,成像过程中引入的RGB相关的自然彩色图像进行了研究。除此之外,一个广泛的评估FID检测方法由StyleGAN2和几种典型SOTA假假的图像合成图像。实验结果表明,该方法实现有效检测GAN-synthesized假图片和展示常见的摄动攻击的鲁棒性。此外,分析之间的区别真的和假的图像在图像成像过程可以扩展到其他AI-synthesized图像。

伪造和假冒检测研究是基础,有必要建立一个强大的防御机制,以避免人工智能的风险。目前,面对与DeepFake交换是很常见的,和应用程序的FID DeepFake方法可能是我们未来的工作。

数据可用性

相关图片用来支持这个研究的发现https://github.com/NVlabs/stylegan2https://github.com/peterwang512/CNNDetection。源代码将上传到GitHub,要求可从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国国家重点研发项目(2016 yfb0501900)。