研究文章|开放获取
李晓文,Diqun燕,李董,Rangding王, ”一个Antiforensic方法对AMR压缩检测”,安全性和通信网络, 卷。2020年, 文章的ID8849902, 8 页面, 2020年。 https://doi.org/10.1155/2020/8849902
一个Antiforensic方法对AMR压缩检测
文摘
自适应多频(AMR)压缩音频被开发为一个有效的法医证据来证明音频真实性。一直在考虑,然而,antiforensic法医技术能够愚弄AMR压缩算法。在本文中,我们提出一个基于生成antiforensic方法对抗网络(GAN)攻击AMR压缩探测器。GAN框架是用来修改双AMR音频压缩的底层数据单一压缩。三种最先进的探测器的AMR压缩选为攻击目标。实验结果表明,该方法能够消除AMR压缩的法医检测工件在不同比率平均成功攻击率约为94.75%,这意味着我们的训练有素的发电机所产生的修改音频可以有效治疗法医探测器。此外,我们表明,感知质量生成的AMR音频保存完好。
1。介绍
AMR音频编解码器(1)是最受欢迎的音频编解码标准,优化了语音信号和编码窄带(200 - 3400赫兹)信号,采样频率为8000赫兹(2]。随着越来越多的AMR音频出现作为证据的取证场景,这是极端重要的验证数据的完整性(3]。一般来说,操纵一个AMR音频,攻击者应该首先解压缩成原始波形,然后伪造操作和解压成AMR格式。双压缩音频变得可疑,因为操纵音频总是穿过双压缩。在过去的十年里,许多法医技术提出了检测基于传统方法(AMR音频压缩的历史3- - - - - -5和深刻的学习方法2,6,7]。代表的差异单压缩音频和双压缩音频,传统的AMR压缩检测技术依赖于底层声学特征,如子频带能量和线性预测系数(lpc),获得专业声学知识。最近,深度学习方法在法医研究越来越受欢迎,它可以捕获高度复杂的特性从一个原始样本训练大规模神经网络的样本数据。
然而,正如许多法医技术提出了检测数字文件的完整性,一些antiforensic方法也已提出公开现有的法医技术的缺点和弱点,从而帮助调查人员更好地解决和改善他们的法医技术弱点。例如,Fontani et al。8]首先提出antiforensic中值滤波法(MF),这使得MF探测器(MF图像探测不到的9- - - - - -11)在保持图像质量良好的PSNR。罗等。12甘]应用框架来提高JPEG图像的质量和傻瓜JPEG压缩探测器成功。陈等人。13)使用遗留的痕迹指定的相机来生成一个伪造的图像可以欺骗成功现有的摄像头识别技术。金等。14]采用深卷积神经网络(DCNN)消除了法医从MF痕迹图像,有效恢复MF图像视觉上类似于原始图像。李等人。15)修改了法医痕迹使用数据驱动的方式来误导的结果三个先进的音频源识别技术(16- - - - - -18]。
这些antiforensic方法有点考虑暴露的弱点AMR压缩检测的鲁棒性。一般来说,随着越来越多的AMR音频证据取证场景,帮助研究人员非常重要的弱点AMR压缩探测器。因此,在本文中,我们提出一个甘antiforensic方法利用一个框架,它由两个网络:一台发电机和鉴频器。生成的数据可以统计模型真实数据的分布(19]。提高感知质量的双压缩音频和去除工件由AMR引入压缩过程中,我们采用氮化镓修改双压缩音频,以避免法医检测。为构建antiforensic攻击,我们设计的架构GAN和损失函数。尤其是,三种最先进的探测器的AMR压缩被选为攻击目标来评估我们的方法的性能。
本文的其余部分组织如下。节2介绍相关工作的法医甘AMR压缩方法和框架。我们提议的细节GAN框架提供了部分3。部分4介绍了实验设置和广泛的实验对三AMR压缩探测器。结论给出了部分5。
2。相关工作
在本节中,我们简要介绍三种先进的检测方法,它被认为是作为攻击目标。此外,氮化镓框架也简要回顾。
2.1。AMR检测压缩
一般来说,传统的AMR检测压缩包括两个主要步骤:特征提取和模式分类。
作为第一个工作AMR检测的压缩,沈et al。3)使用传统的声学特性包括平均子频带能量频率比、平均低频子频带能量比,双频谱特性和线性预测谱代表AMR压缩造成的差异。和标准的支持向量机建模技术用于分类。他们实现了检测精度约87%的单一压缩音频双。
在[2),罗等人采取了autoencoder网络自动特征提取。他们证明了深单一压缩音频特性有很大的不同,两人从一个训练有素的autoencoder提取。他们设计了一个多数投票策略分类。
在[6),作者深入研究了堆栈autoencoder (SAE)网络获取更好的深度特性的AMR压缩法医的任务。然后,他们普遍应用背景model-Gaussian混合模型(UBM-GMM)压缩历史的识别。他们改善了分类精度98% TIMIT [20.)数据库。
2.2。生成对抗的网络
生成对抗网络(GAN)首先提出的格拉汉姆·古德费勒et al。21)生成逼真的图像。在氮化镓,两个网络培训相互min-max双方博弈。在迭代训练,发电机的目的是获取真实数据的分布和鉴别器吗是分类的样本来自真正的数据库而不是生成的 。发电机试图使鉴别器的概率最大化误分类生成的数据是真实的,而鉴别器引导发生器产生一个更实际的样品。一般来说,对抗训练过程可以表示为一个min-max游戏,它将损失函数的优化如下: 在哪里表示实际数据和表示随机噪声类似对抗训练后的发电机和鉴频器 。在培训过程中,的目的把损失减小到最低限度值时的吗是最大化。
最近,GAN各领域获得了越来越受欢迎,因为它有效的生殖能力。在这部作品中,氮化镓框架是假定的反向过程AMR压缩来提高感知质量的双压缩音频和移除法医工件。具体来说,发电机和鉴频器可以被视为一个antiforensic模型和AMR压缩探测器,分别。因此,对抗的概念适用于antiforensic任务的AMR压缩检测。
3所示。提出Antiforensic框架
在本节中,我们简要介绍三种先进的检测方法,它被认为是作为攻击目标。此外,氮化镓框架也简要回顾。
首先发送到发电机伪造音频吗 。 和选中的未压缩的音频分类进一步送入鉴频器。通过冻结鉴别器的参数,从损失将反馈 ,这是用虚线表示。
3.1。总体架构
我们攻击的总体目标是消除工件留下的AMR压缩合成音频可以愚弄探测器。部署一个成功的攻击,所生成的音频应该解压AMR格式,因为许多调查人员只接受AMR检测前的文件。因此,生成的音频必须统计模型的分布原始音频这将类似于单一压缩解压缩的音频 。
如图1拟议的框架由一个发电机和一个鉴别器 。去除工件留下的压缩,用于生成伪造的音频吗通过添加一个生成的扰动 。鉴频器的是为了区分一个原始音频吗 ,从来不是通过从一个伪造的音频压缩吗 。在对抗训练和 , 鼓励学习如何最小化之间的区别吗和中实现更好的性能和优化参数生成良好的感知质量 。
3.2。提出了框架的架构
3.2.1之上。发电机
发电机是用于生成antiforensic音频。在这个框架中,我们使用SEGAN [22)作为一个参考体系结构来设计我们的敌对的网络,有效地应用于语音增强。如图2,发电机(大小= 1×8000)作为输入,由7卷积组和相应7 deconvolutional组。
每个卷积组包括一个卷积与64年层过滤器1×30内核和步幅= 2,随后一批标准化(BN)层可以稳定训练过程使生成的音频更为现实。和选择Leaky-ReLU激活函数。deconvolutional deconvolutional组构成的层设置为卷积组,其次是十亿层和ReLU激活函数。重建音频和减少损失的细节当信息流通过卷积和deconvolutional组,我们应用跳过发生器连接,使卷积组对应的deconvolutional组的输出流。跳过连接可以使发电机有更好的性能,如梯度可以通过跳过流更深层次的连接没有痛苦消失(23]。和乙状结肠激活添加限制分类的输出。
3.2.2。鉴频器
由于氮化镓的关键优势是迭代训练获得更好的性能产生样本,看来的体系结构是一个非常重要的约束我们的框架。鉴频器的是为了进行分类和和力生成的音频欺骗探测器。因此,在区分鉴别器必须执行好和 。因此,我们构建一个CNN架构 。如图3,鉴别器被设计为一个压缩探测器基于CNN。它包括6卷积团体和紧随其后的是一群组成的全球平均池层。的网络,致密层加上softmax激活函数放置输出分类概率。
在迭代训练之前,我们首先测试的能力区分原始音频设计鉴别器从双压缩音频 。然后,我们测试的能力设计鉴别器6000年sub-dataset包括原始音频选择从TIMIT数据库及其双压缩音频压缩比特率随机选择从{4.75 kbps, 5.15 kbps, 5.9 kbps, 6.7 kbps, 7.4 kbps, 7.95 kbps, 10.2 kbps, 12.2 kbps}。那时sub-dataset分为培训(70%)和验证(30%)。鉴频器的准确性模型如图4。可以看出我们的鉴别器设计达到良好的性能。
3.3。损失函数
在本节中,我们将演示两个网络的损失函数。为了实现antiforensics的目标,发电机应该有能力学会如何减少修改的双压缩音频的区别吗和原始的音频 ,同时保持可接受的感知质量。在这项工作中,我们定义的发电机作为 在哪里代表了失去知觉 , 表示的对抗性的损失计算 ,和 重量平衡的重要性吗和 。
考虑到攻击需要介绍提高法医用较小的知觉工件,我们采用感知损失为提高质量 。 被定义为 在哪里礼物的输出 ,和和代表的批量大小和位置分别在这批处理。
然后,敌对的损失旨在迫使有一个更好的性能在迭代训练。我们定义的作为 在哪里表示的类概率修改音频计算了 。
在这种对抗的任务,迫使修改类似于 , 应该有能力检测的原始音频正确解压吗或生成的 。因此,定义如下:
4所示。实验结果
在本节中,我们评估我们antiforensic方法对三个高级法医技术(2,3,6]。首先,我们创建一个音频数据库专门为实验。然后,成功的攻击速度(SAR)是用来执行的法医用antiforensic音频和感知语音质量评估(PESQ) [24采用]我们antiforensic音频的质量。
4.1。数据库
TIMIT [20.)是一个典型的语音数据库包括630来自不同方言的美式英语(192名女性和432名男性)和每个演讲者读大约三秒的十个句子。首先,建立法医数据库,我们使用从TIMIT AMR音频编解码器获得单一压缩数据库,与一个随机压缩比特率选自{4.75 kbps, 5.15 kbps, 5.9 kbps, 6.7 kbps, 7.4 kbps, 7.95 kbps, 10.2 kbps, 12.2 kbps}。然后,我们解码,将AMR音频双压缩AMR音频与随机比特率也从4.75到12.2 kbps选择。
在实验中,我们第一次的音频分割成1 s片段和随机将这些片段划分为训练集和测试集。因此,我们获得12000 6900年代培训音频和音频测试。然后,三个探测器(2,3,6]被训练使用训练集和测试集的平均检测精度是87.52%,92.60%,和98.54%,分别,这本质上是同意结果发表在他们的作品。
4.2。实验装置和评价指标
4.2.1。准备实验装置
我们训练我们的网络在补丁大小的音频双集: 。考虑到音频可能分成不同大小的调查员在检测之前,我们针1 s音频获得更多的音频差异大小,包括13800年0.5 s片段,6900 1 s片段,3450 2 s片段,和2300 3 s片段。然后,我们压缩回到AMR格式与随机比特率从4.75到12.2 kbps选择。
亚当(25)采用学习速率的优化器1×10−4为G和5×10−6为 。迭代训练之前,我们执行发电机训练和批量大小= 64和体重方面= 1000,= 0 5时代。然后,和迭代训练30和体重的时代吗= 1000,= 1,迭代比1:5,它给出了鉴别器更多的迭代得到更好的性能。
4.2.2。评价指标
成功的攻击速度(SAR)作为评价指标,这很可能代表我们的法医用antiforensic音频。我们定义特区 在哪里代表了音频解压每个比特率从4.75到12.2 kbps和选择法医探测器的分类结果,也就是说, 而一直并被错误地归类为和0。
与此同时,我们应用PESQ测试知觉antiforensic音频的质量 。PESQ是一个行业标准的语音质量评估方法。范围从0.5−4.5是默认PESQ分数范围,意味着更好的感知质量和更高的分数。
4.3。性能实验与分析
我们执行攻击三个高级法医方法(2,3,6]。具体来说,对于每一个夹在测试集,我们用训练有素的生成器生成的一个副本,然后解压缩复制与八个不同的比特率。 。最后,三个探测器是用来训练我们antiforensic音频分类。
如表所示1,实验结果与预期一致。的antiforensic音频可以极大地欺骗三个先进AMR压缩探测器,和特区的吗明显取得了平均利率约94.71%这意味着法医技术不能正确区分antiforensic音频。显然,我们的方法可以显著法医技术检测不到。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
衡量我们antiforensic音频的质量,我们计算PESQ得分比较原始的音频。如图5,很明显,我们的antiforensic音频可以保持良好的感知质量和大多数的PESQ值超过3.3相比吗 ,这意味着我们的方法可以提高感知质量的而实现antiforensic目的。图6显示原始音频的声音从测试集,它和 ,及其antiforensic音频与随机比特率压缩。相比之下, , 提出了更少的损失比高频率的内容 ,和类似于 。
(一)
(b)
(c)
(d)
5。结论和未来的工作
在本文中,我们提出了一种新的方法来证明AMR压缩的法医探测器的弱点。为此,我们开发了一个为AMR压缩工件的去除氮化镓框架。与常规antiforensic方法不同的是,我们的方法可以保持良好的感知质量有更好的antiforensic能力以数据驱动的方式。通过大量的实验,结果表明antiforensic双压缩音频能有效避免现有AMR压缩方法的检测平均SAR约94.75%,同时保留良好的感知质量。
然而,仍然有很多剩余的取证和antiforensics竞争的问题。在未来,我们打算考虑AMR压缩的法医方法的鲁棒性,即。,whether adversarial framework could obtain a robust discriminator which can detect the antiforensic audios correctly by a well-trained generator or other attack strategy while distinguishing the double compressed audios from single compressed audios successfully.
数据可用性
TIMIT数据集用来支持这个研究的发现是公共的和可用的https://catalog.ldc.upenn.edu/LDC93S1。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究的部分支持由中国国家自然科学基金资助下U1736215号,61672302,和61901237,部分由浙江省自然科学基金批准号。LY20F020010 LY17F020010,黄部分和k·c·麦格纳宁波大学的基金。
引用
- b . Bessette。r .香肠,r . Lefebvre et al .,“自适应多重速率的宽带语音编解码器(AMR-WB)”IEEE语音和音频处理,10卷,不。8,620 - 636年,2002页。视图:出版商的网站|谷歌学术搜索
- d·罗·r·杨,j .黄”检测双压缩使用deeplearning AMR音频,”学报2014年IEEE国际会议音响、演讲和信号处理(ICASSP)2673年,页2669 -佛罗伦萨,意大利,2014年5月。视图:出版商的网站|谷歌学术搜索
- y沈、j·贾和l .蔡“检测双压缩AMR-format录音,”第十语音学研讨会论文集。中国(PCC)2012年4月,页1 - 5,上海,中国。视图:谷歌学术搜索
- 桑帕约j . f . Nascimento,“双压缩AMR音频检测使用线性预测系数和支持向量机,”22日巴西会议自动化学报》上若昂佩索阿,巴西,2018年9月。视图:谷歌学术搜索
- j·f·p·桑帕约和f·a·d·o·Nascimento“AMR检测双压缩使用压缩域语音特性,”法医科学国际:数字调查33卷ID 200907条,2020年。视图:出版商的网站|谷歌学术搜索
- d·罗·r·杨,李b和j .黄”检测双压缩使用堆叠autoencoder AMR音频,”IEEE取证和安全信息,12卷,不。2、432 - 444年,2016页。视图:谷歌学术搜索
- k . Valanchery”分析不同分类器的检测双压缩AMR音频,”国际发展研究期刊》的研究,理念和创新技术4卷,第107 - 98页,2018年。视图:谷歌学术搜索
- m . Fontani和m . Barni”隐藏在数字图像中值滤波的痕迹,”学报2012年20日欧洲信号处理会议(EUSIPCO)IEEE,页1239 - 1243年,布加勒斯特,罗马尼亚,2012年8月。视图:谷歌学术搜索
- m·基什内尔和j . Fridrich”检测数字图像的中值滤波,”学报学报电子图像,安全,隐写术卷,7541年,页1 - 6,水印在多媒体内容,CA,圣何塞美国,2010年8月。视图:谷歌学术搜索
- g .曹y赵,r .倪l . Yu和h .田,“法医检测数字图像的中值滤波,”学报2010年IEEE国际多媒体会议和博览会新加坡,页89 - 94年,2010年7月。视图:出版商的网站|谷歌学术搜索
- 》。元,“盲取证数字imagesfiltering数码图像的中值滤波”IEEE取证和安全信息》第六卷,没有。4、1335 - 1345年,2011页。视图:出版商的网站|谷歌学术搜索
- y罗h .子,问:张先生,x Kang”Anti-forensics JPEG压缩使用生成对抗的网络,”学报2018年26日欧洲信号处理会议(EUSIPCO)IEEE,页952 - 956年,罗马,意大利,2018年9月。视图:出版商的网站|谷歌学术搜索
- Stamm x赵c . Chen, m . c,“Mislgan: anti-forensic相机模型伪造框架使用一个生成对抗的网络,”学报2018年25日IEEE国际会议上图像处理(ICIP),页535 - 539年,雅典,希腊,2018年10月。视图:出版商的网站|谷歌学术搜索
- d . Kim H.-U。张成泽,S.-M。妈妈,崔和H.-K。李,“中值过滤图像恢复和anti-forensics使用敌对的网络过滤图像恢复和anti-forensics使用敌对的网络,”IEEE信号处理信件,25卷,不。2、278 - 282年,2018页。视图:出版商的网站|谷歌学术搜索
- x, d, l .董,r·王”Anti-forensics音频源识别使用生成对抗networkfication使用生成的敌对的网络,”IEEE访问7卷,第184339 - 184332页,2019年。视图:出版商的网站|谷歌学术搜索
- c . Hanilci f . Ertas t Ertas, o . Eskidere”认可的品牌和型号的手机录制的语音信号,”IEEE取证和安全信息,7卷,不。2、625 - 634年,2012页。视图:出版商的网站|谷歌学术搜索
- c . Kotropoulos和萨马拉斯,“手机使用记录语音信号识别,”学报》2014年19国际会议上数字信号处理IEEE,页586 - 591年,香港,中国,2014年8月。视图:出版商的网站|谷歌学术搜索
- d·罗、p .《美韩自由贸易协定和j .黄”乐队能量差源归因的音频取证,”IEEE取证和安全信息,13卷,不。9日,第2189 - 2179页,2018年。视图:出版商的网站|谷歌学术搜索
- s . Chintala e·丹顿、m . Arjovsky和m·马蒂厄2016,如何培养甘?提示和技巧使甘斯(2017)工作。
- j . s . Garofolo l . f .薄层w·m·费舍尔j·g . Fiscus和d s Pallett开始与美国国防部高级研究计划局TIMIT光盘:声学语音连续语音数据库卷。107年,国家标准与技术研究所(NIST), Gaithersburgh,医学博士,美国,1988年。
- 格拉汉姆·古德费勒,j . Pouget-Abadie m . Mirza et al .,“生成敌对的网,”先进的神经信息处理系统大学,页2672 - 2680,蒙特利尔,蒙特利尔,加拿大,2014。视图:谷歌学术搜索
- 帕斯卡,a . Bonafonte和j·塞拉,“SEGAN:语音增强生殖对抗的网络,”2017年,https://arxiv.org/abs/1703.09452。视图:谷歌学术搜索
- k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:谷歌学术搜索
- a·w·里克斯·j·g . Beerends m·p·霍利和a . p . Hekstra“感知语音质量评价(PESQ)——电话网络的语音质量评估的新方法和编解码器,”学报2001年IEEE国际会议音响、演讲和信号处理。诉讼,卷2,页749 - 752,IEEE,盐湖城犹他,美国,2001年2月。视图:出版商的网站|谷歌学术搜索
- d . p . Kingma和j .英航“亚当:随机优化方法,”2014年,https://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
版权
版权©2020 Diqun燕等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。