文摘
如今,验证数字视频的完整性很重要尤其是对多媒体通信的应用程序。在视频取证,发现双压缩可视为第一步分析是否可疑视频进行篡改操作。在过去的十年中,大量的检测方法提出了为了解决这个问题,但大多数现有的方法设计一个通用检测器很难有效地处理各种再压缩设置。在这项工作中,我们发现,不同编码的统计单元(CU)类型具有不同的属性在原始视频是否增加和降低比特率。它激励我们提出一个两阶段的双级联检测方案HEVC压缩基于时态不一致克服现有方法的局限性。对于一个给定的视频,从每个短期铜地图信息提取视频使用我们的建议值的映射策略。在第一个检测阶段,一个紧凑的特征提取是基于不同的铜的分布类型和Kullback-Leibler暂时相邻帧之间的分歧。这个检测功能是输入支持向量机分类器识别异常帧比特率增加。在第二阶段,一个浅卷积神经网络配备致密连接设计仔细学习健壮的时空表示,它可以识别异常帧与降低比特率的法医痕迹检测。在实验中,该方法可以实现更有前途的检测精度与一些先进的方法在不同的编码参数设置,尤其是当原创视频是否有低质量(例如,超过8%)。
1。介绍
与通信网络的快速发展(例如,第五代移动网络,5克(1])和视频压缩技术(例如,高效视频编码(2]),数字视频已经成为最普遍的方法来获得最新的消息。然而,使用复杂的版本的工具,很容易被伪造者篡改数字视频内容,也构成了巨大威胁的真实性和完整性的数字视频传输的通信网络。在视频取证,发现双压缩可以被视为第一步分析是否可疑视频进行篡改操作。这背后的原因是生成一个干扰视频,伪造者需要解压原始视频帧序列,进行intra-frame或frame篡改操作来修改一些特定的视频内容。然后,玩弄帧序列编码视频文件。因此,检测双压缩了多媒体取证领域的研究人员的注意。
在过去的十年中,大量的检测方法提出了双压缩成功。现有检测方法可分为两类根据群的结构是否图片(称为共和党)在原始视频和它是否版本是否一致。检测的双压缩对齐共和党结构,最主要的线索是异常统计双压缩I-frame(即Intra-coded帧)。一些手工制作的特性设计使用第一个数字法(3)和马尔可夫统计(4量化的DCT(离散余弦变换)系数。然后,这些特性是结合传统分类器(例如,支持向量机,简称SVM)检测双压缩。另一方面,检测的双压缩不匹配的共和党结构,在搬迁I-frames编码信息的异常变化是最重要的法医痕迹,在搬迁I-frames表示是否P-frames(即Inter-coded帧)I-frames在原始视频。研究人员提出了不同类型的测量序列,包括预测残差(5,6),宏模块预测足迹的变化(7),和块工件8- - - - - -10),暴露搬迁I-frames的周期性发生。最近,deep-learning-based方法(11,12)应用于定位搬迁I-frames基于卷积和递归神经网络(13]。
在实际应用中,视频可能是是否与不同的比特率,这可能是大于或小于原始比特率在不同程度上。例如,视频传输的通信网络总是是否降低比特率,以满足带宽约束(14]。另一方面,伪造者可能与增加的比特率编码视频剪辑拼接视频剪辑与之前不同的比特率15]。然而,大多数现有的方法提出了一个通用检测器对不同设置的再压缩比特率,这是很难提供可靠的检测结果在比特率的变化相当大。为了克服上述局限,我们提出一个两阶段的级联检测方案frame-wise检测双HEVC压缩基于时态不一致,在frame-wise检测手段决定搬迁I-frames存在于一个可疑的视频。在这项工作中,我们首先分析了统计在HEVC视频的编码信息,如块大小和预测模式的编码单元(称为铜),发现在搬迁I-frames铜类型有不同的属性之间的视频是否增加了比特率和比特率下降。它激励我们应该更适合检测搬迁I-frames分别在上述两种情况。在拟议的计划,短期视频包含连续三帧被视为一个输入样本。铜被认为是两个属性,包括块大小和预测模式,构建铜信息地图使用我们的建议值的映射策略。在第一阶段,一个紧凑的特性是设计基于不同的铜的分布类型及其时态不一致来衡量Kullback-Leibler差异并结合支持向量机分类器来检测搬迁I-frame与增加的比特率(称为TypeI P-frames)。在第二阶段,探索更多的轻微痕迹的搬迁I-frames降低比特率(称为TypeII P-frames),我们提出了一个浅卷积神经网络(CNN)配备密集的连接,可以共同学习健壮的时空深表示压缩域。总结了该方法的主要贡献如下:(我)实现更健壮的检测能力双重HEVC压缩各种再压缩比特率,提出了一种两级联检测方案基于铜的时态不一致信息地图。它不同于大多数现有的方法,只有构建一个通用探测器。(2)在第一阶段,一个紧凑的设计功能是利用不同的铜的分布类型(考虑块大小和预测模式)及其K-L散度来描述时态不一致。然后,这个功能是输入训练SVM分类器获得的结果重新安置I-frames与增加的比特率(TypeI P-frames)。(3)在第二阶段,一个浅CNN配备密集的连接构造,可以共同学习时空的深度表示从低级模式和高级法医语义特征重用的搬迁I-frames降低比特率(TypeII P-frames)。(iv)进行了大量实验,并考虑不同的编码参数设置,如不同的比特率,共和党大小,转换过程,等等。实验结果验证了更可靠和健壮的检测能力的检测方案相比,一些先进的方法。
2。相关的工作
在这项工作中,我们专注于frame-wise检测双HEVC压缩不匹配的共和党,因为HEVC是其中一个最先进的视频编码标准(2),和双压缩不匹配的共和党更有可能发生在现实的法医场景(16]。根据特征提取过程中,现有的方法可以分为两类,包括手工制作的基于功能的方法和deep-learning-based方法。
2.1。手工制作的基于特征的方法
搬迁I-frame是最重要的线索与不匹配检测双重压缩共和党结构。在早期的研究中,研究人员发现,重新安置I-frames会导致异常的增量预测残差明显,应用预测残差序列5,6)及其修改版本进行检测。除了预测残差,搬迁I-frames执行异常变化可能导致其他编码信息。例如,Vazquez-Padin et al。7]杠杆宏模块预测足迹的变化(称为结合)测量周期性发生的搬迁I-frames。这种方法实现了前景检测性能与不同的编码参数设置。在[17),同样的作者扩展结合的提取过程包括运动矢量来获取一个新特性,称为广义结合,可用于制定测量序列或构建基于阈值的分类器来识别搬迁I-frames。HEVC视频,江泽民et al。18)应用低阶的统计预测单元(PU)类型在一个共和党单元特性来检测双重压缩。另一方面,双压缩在压缩的痕迹(像素)域也可以用来构造测量暴露搬迁I-frames序列,如块工件(10)和模糊构件(19]。然而,在压缩域痕迹更容易退化的严重有损量化重新编码的过程。最近,HEVC视频、工件在压缩域(例如,PU类型)和压缩域(光流)结合暴露搬迁I-frames [20.]。
2.2。Deep-Learning-Based方法
深入学习,特别是卷积神经网络和递归神经网络,已成功应用于计算机视觉领域。由于学习能力强的层次表示,研究人员还应用深度学习进行frame-wise检测双压缩。在[11),他等人提出了一个基于CNN frame-wise检测方法,在解压缩帧堆叠在一起作为输入样本。这个网络初始化预处理层可以提取高频组件的输入样本。全球平均池和11卷积核被认为是在网络的架构来缓解过度拟合的影响。基于网络(11),南et al。12)提出了一种双柳CNN可合并解压I-frames和P-frames共和党单元检测双压缩。然而,这种方法只能提供代替定位搬迁I-frames GOP-wise检测结果。不同于(11,12作者在[]21)应用中的编码信息压缩域作为输入和混合网络体系结构设计相结合CNN和长期短期记忆(LSTM)学习时空的表示。实验表明,该方法可以实现原始视频时更健壮的检测能力是否与低质量。
3所示。预赛
在本节中,双压缩视频的生成过程是首先介绍了。然后,统计分析了铜类型不同的P-frames。
3.1。单引号和双压缩视频的生成过程
在本节中,单引号和双压缩视频的生成过程是简要介绍。对于一个给定的原始视频序列( ,在哪里表示届生框架和表示帧的总数),它编码比特率和共和党大小获取单个压缩视频( )。为简单起见,B-frames(双向预测帧)并不认为这项工作。如图1在单一压缩,intra-coding inter-coding过程可以制定如下: 在哪里表示内部预测过程;表示运动预测;表示(内部或国米)预测的剩余th帧的th压缩;和表示后解压缩帧压缩。inter-coding过程中如方程所示(1),预测残差的大小取决于两个因素,包括视频内容的时空变化和运动补偿造成的误差传播在共和党单位。HEVC标准、编码单元(CU)可以被视为基本单位来定义一个区域使用相同的预测模式(intra-coded或inter-coded),在编码树组织单位。不同于一个固定的 宏模块用于MPEG-2/4和h / AVC [22),HEVC标准允许更灵活的分区块CUs取得更好的压缩效率。更具体地说,对于静态区域和内容与光滑的运动,HEVC编码器更可能采用inter-coded铜(P-CU)或跳过铜(S-CU)与一个大的块大小。P-CU应用运动补偿来减少时间冗余,和S-CU可以被看作是一种特殊类型的P-CU运动向量差异和预测残差为零。另一方面,对于变形的快速移动的物体,HEVC编码器更愿意选择intra-coded铜(I-CU)小块大小取得更好的压缩效率和视频质量之间的平衡。I-CU可以用邻近的重构像素进行空间预测。
然后,解压缩的帧序列和编码比特率和共和党大小( )获取双压缩视频( )如图1。再压缩的inter-coding进程可以制定如下:
它可以观察到在图1有两种是否P-frames双压缩视频,即搬迁I-frames(例如,th框架)和p p帧(例如,( )th帧),p p帧编码P-frames P-frames在原始视频。它已被广泛研究了在以前的作品10,17]预测残差的大小在搬迁I-frames异常增加由于当前P-frame(之间的弱相关 )及其参考系( )在重新编码的过程。这个弱相关是由于那个th框架和共和党th帧位于不同的单位,由内部预测编码和帧间预测流程,分别见方程(1)。因此,共和党的误差传播下共和党单位单位无关。
虽然发生的搬迁I-frames不匹配造成的共和党结构,编码信息的统计依赖于具体的再压缩比特率采用重新编码的过程。现有的方法很少考虑搬迁的独特属性I-frames再压缩比特率不同。在下一节中,铜的统计信息在不同的空气压力增加场景进行分析。
3.2。铜的统计分析信息与不同的再压缩比特率
比特率的主要因素是控制压缩视频的质量,特别是对网络传输有限的带宽。在本节中,我们分析铜统计信息执行单个压缩视频时是否有不同的比特率。我们考虑两种类型的再压缩过程,包括增加的比特率和再压缩再压缩比特率下降。对于第一种情况,也称为假双压缩视频比特率视频在以前的作品(23,24),假的视频比特率的视频质量得不到提高而原始视频。另一方面,在第二种情况下,法医再压缩的痕迹,如搬迁I-frames [10,17),受到更明显的退化造成的严重有损量化。请注意,我们不考虑是否相同的视频编码参数,如比特率,由于以下原因。(1)默认设置的视频编辑工具在大多数情况下不同于捕获设备。(2)潜在的转码过程中网络通信是不可控的。除此之外,对于这个特殊的情况,一些现有的方法可以用来进行补充分析(25]。
分析统计数据的编码信息,我们计算的比例在每个P-frame和显示不同的铜类型分布在不同类别的P-frames使用箱线图。在这部作品中,块大小和预测模式是每个铜的两个属性。因此,有12个铜类型,因为有四种类型的块大小(的默认设置在主配置文件HEVC标准),并有三种预测模式,包括I-CU P-CU, S-CU。P-frames我们考虑三个类别,包括搬迁I-frames与增加的比特率(TypeI P-frames),搬迁I-frames与降低比特率(TypeII P-frames),和其他P-frames含有p p帧和单个压缩P-frames(称为TypeIII P-frames)。为一个特定的铜类型,其比例P-frame计算如下: ,在哪里表示4的数量4区块属于这铜P-frame和类型表示4的总数在这个P-frame 4区块。训练样本中5.1采用计算不同的铜类型的比率。我们采用箱线图显示铜的分布类型的P-frames比率在不同的类别。特定比例的铜P-frame类型从一个类别,我们需要计算他们的上缘,上四分位数、中位数、下四分位数和下边缘画箱线图(26),离群值,其值大于上边缘或低于下缘标记为红十字会如图2。我们可以得出以下的结论基于不同铜类型的箱线图的比率在不同类别的P-frames:(我)TypeI P-frames包含更高比例的平均I-CU相比其他两类P-frames为所有类型的块大小,除了64年64年I-CU P-frames很少发生在所有类别。这意味着时间不一致造成的不匹配的共和党可以增加相邻两帧之间的差异使编码器喜欢内部预测模式适用于TypeI P-frames。(2)TypeI P-frames含有较低的比例平均S-CU相比其他两类P-frames尤其是相对较大的块大小,如6464年,3232。(3)P-CU,编码器宁愿选择CUs较小的块大小(例如,88和1616)在TypeI P-frames由于异常增量预测残差的声称3.1节。(iv)虽然铜类型的平均值的比例之间TypeI P-frames和其他两类P-frames歧视I-CU S-CU,每个铜类型动态范围的比率很大,推断,铜类型的统计数据可能受到视频内容。(v)很难区分统计TypeII P-frames和TypeIII P-frames只有利用铜类型的比率。
(一)
(b)
(c)
结论1到4推断可以设计紧凑的特性来检测TypeI P-frames基于不同的铜类型的比率。结论5所示,只有应用低阶统计数据(不同的铜类型的比率)不足以揭露TypeII P-frame。因此,更有识别力的模式在空间和时间域应该利用学习强劲的表现。在下一节中,我们将提出一个两阶段的级联检测方案确定搬迁I-frames双HEVC压缩。
4所示。该方法
所3.2节铜类型,搬迁I-frames执行不同的统计数据。很难揭示搬迁I-frames与不同的比特率,只利用一个通用探测器。在这项工作中,我们提出了一个两级的级联检测方案双HEVC压缩基于时态不一致,如图3,旨在提供健壮的检测能力的再压缩不同的比特率。描述搬迁I-frames的时间不一致,我们首先构建铜每一帧的地图信息。然后,紧凑和高效的检测提取特征来区分TypeI P-frames基于铜的分布类型和其他类别及其时态不一致来衡量Kullback-Leibler散度(称为K-L分歧)。进一步分类TypeII和TypeIII P-frames,浅卷积神经网络配备密集的连接构造,共同学习时空的深度表示的低级模式和高级法医从铜语义信息的地图。最后,我们可以获得搬迁I-frames的检测结果。
4.1。构建铜信息地图
对于一个给定的框架( ,在哪里 和表示的总数P-frames视频),我们首先提取当前帧的铜的信息( )和它相邻的两帧,即和 。在这项工作中,我们考虑的块大小,预测模式,每个铜构建铜信息的运动矢量地图( )的框架。为每一个 子块空间索引 在th框架( 和 ,在哪里 输入视频的空间分辨率),它的价值计算如下: 在哪里 表示映射的值取决于块大小的铜 子块属于。具体来说,块大小 映射到值吗 ,分别; 表示映射值根据预测模式的铜 子块属于。类似于以前的作品(21),运动矢量也被认为是法医提供有用的线索。根据是否P-CUs运动矢量为零,P-CUs可以进一步分为两类,包括与非零P-CU运动矢量(non-ZMV P-CU)和P-CU零运动矢量(ZMV P-CU)。然后,预测模式{I-CU, non-ZMV P-CU, ZMV P-CU,和S-CU}是映射到值 ,分别。在我们的值映射策略,价值就越高 介绍了在当地区域相邻帧之间更强的时态不一致。因此,有 在该方法的铜类型。显然,对于一个给定的框架 ,元素在铜信息地图 的范围内吗 。
4.2。阶段1:检测与紧凑的特性基于铜的分布类型
在第一阶段,我们设计一个紧凑的特性来区分TypeI P-frames和其他两类,由于时间不一致可以被描述为不同的铜类型的比率的基础上分析3.2节。捕捉可疑的帧之间的时空变化及其相邻帧,我们进行以下步骤提取检测特征:(我)为th坐标系,计算不同铜的分布类型( )如下: 在哪里表示类型的铜 44区块属于, ,和 。的价值代表的比例 - - - - - -铜的类型框架。(2)当前帧之间的时间不一致( )及其相邻帧(和 )是衡量K-L发散,K-L散度是一种广泛使用的测量两个离散分布之间的相似度。它可以制定如下: 在哪里表示函数获取K-L分布之间的差异和 。更具体地说, 在哪里表示元素分布的总数和 ; 表示一个很小的值(例如, )用于避免可能造成的不确定的结果中的零元素分布呢或 。(3)最后,检测功能由连接 在方程(4), 在方程(5),这是为制定
然后,检测功能( )的th帧送入训练SVM分类器应用RBF(径向基函数)内核获得检测结果TypeI P-frames(搬迁I-frames比特率增加)。
4.3。阶段2:检测与浅CNN配备致密连接
如果搬迁I-frames是否有降低比特率,法医的痕迹再压缩操作不太可检测由于退化造成的严重有损量化。换句话说,区别TypeII P-frames(搬迁I-frames降低比特率)和TypeIII P-frames(单个压缩P-frames和p p帧)多件,有必要探索空间和时间域有识别力的线索。在这项工作中,我们提出了一个浅CNN配备致密连接(S-DenseNet)学习的时空表示双HEVC压缩,在密集的连接已经成功地应用于处理图像分类任务(27]。铜构造连续三帧的信息地图,然后调整大小 在空间域考虑检测性能和计算成本。预处理铜信息地图作为输入样本(即 ,和表示预处理铜的地图信息帧)。
图4介绍了我们提出的网络体系结构S-DenseNet。它包括六个卷积模块(称为conv模块)和转换模块,其中每个conv模块由一个卷积层,一批标准化层,和一个ReLU层,如图5。转换模块旨在改善网络的密实度,conv模块具有相同的结构,除了有一个平均池层( 池与跨步操作窗口 )后ReLU层以减少输出特征图的空间大小。转型中的卷积的详细设置内核模块(96、96、 , ]。此外,在图4,“俱乐部”代表一个完全连接层和128个神经元“softmax”代表一个完全连接的层2神经元后跟softmax层。应用熵损失优化网络权值,和我们不应用任何其他损失函数的正则化条件。
它可以观察到,对于每个conv模块,输出特性的地图前几个conv模块连接channel-wise和作为未来conv模块的输入。应用密集连接网络体系结构具有以下优点:(1)它有助于减轻vanishing-gradient问题在网络参数的优化过程,特别是铜地图信息的潜在价值是有限的,也就是说, 在我们的方法。(2)致密连接支持重用的特性可以帮助网络学习时空表示从低级模式在早期层和高级法医在高层语义层。
一个输入样本后被送入训练浅DenseNet,输出向量 从将softmax层可以获得和出现的概率,输入样本属于TypeII P-frame和TypeIII P-frame,分别。然后,应用检测得分。如果 ,输入样本分为TypeII P-frame设置为0.5。否则,输入样本分为TypeIII P-frame。
5。实验
在本节中,几个实验进行评估检测性能在不同的场景,如不同的比特率,不同的共和党大小,等等。
5.1。数据库
构建数据库的单引号和双压缩HEVC视频,26个原始视频(YUV序列)收集于互联网,有各种各样的视频内容。原始视频的列表和附录中提供的下载地址。几个例子如图所示6。使不同分辨率的原始视频,1080 p YUV序列调整为720 p YUV序列。注意调整操作不介绍的痕迹有损HEVC压缩(23]。然后,原始视频分为两个重叠组生成样本的训练和测试阶段,分别。对于每一个原始视频,只有第一个200帧被认为是,然后分成两个不相交的视频剪辑(每个视频包含100帧)。最后,还有32个和20个原始视频生成训练和测试样本,分别。
(一)
(b)
(c)
单一压缩视频编码获得的原始视频比特率( )和共和党大小( )。另一方面,双压缩视频第一编码获得的原始视频比特率( )和共和党大小( )。这些单独的压缩视频解压缩,然后是否与比特率( )和共和党大小( )。 和都是选自kbps。我们考虑增加或降低比特率压缩过程。和选择从和 ,分别。最受欢迎的HEVC编解码器,即×265,应用进行编码和解码流程与主配置文件。其他编码参数设置为默认,除非另有说明。因此,培训阶段,288年单压缩HEVC视频和1152双压缩HEVC视频得到构建视频设置 。测试阶段,180单压缩HEVC视频和720双压缩HEVC视频得到构建视频集 。
声称在第四节预处理铜信息短时视频剪辑的地图 作为样本,在哪里设置为224。这个调整操作是由Python成像库使用默认设置。请注意我们只考虑短期视频剪辑它不包含编码I-frames。我们随机选择样品的中间帧TypeI P-frames,样品的中间帧TypeII P-frames, 样品的中间帧TypeIII P-frames构造一组训练样本的设置为3500。以同样的方式,可以基于构造的测试样品 ,在哪里设置为4500。为简单起见,“TypeI P-frame (TypeII / TypeIII P-frame)”的缩写,“中间帧的短时视频剪辑TypeI P-frames (TypeII / TypeIII P-frame)”在以下部分中,除非另有规定。
5.2。训练和测试协议
(我)获取训练SVM分类器(28在第一阶段,所有TypeI P-frames被视为积极的样本样品( TypeII P-frames和 TypeIII P-frames)从一组随机挑选的负样本。设置为3500。获得最优支持向量机分类器通过应用5倍交叉验证。(2)在第二阶段训练S-DenseNet,所有TypeII P-frames被视为积极的样品和TypeIII P-frames从一组随机挑选的负样本。TypeIII P-frames包括单一压缩P-frames和p p帧。设置为3500。然后,对样本是随机分成两部分(9:1)随着训练集和验证集。在训练过程中,在卷积层初始化权重方法(29日]。初始化学习速率为0.0001,每6训练时期后降低了50%。mini-batch大小设置为16。时代的最大数量设置为150,并获得最优S-DenseNet实现最佳的性能进行了验证。实验设备上配备了英特尔酷睿i7 - 8700 k的CPU和GPU GTX 1080 Ti。(3)在测试阶段,TypeI P-frames和TypeII P-frames(即搬迁I-frames)被视为积极的样品而TypeIII P-frames被视为负样本。应用检测准确性的标准来评估检测性能,可以制定如下: 在哪里和表示数量的正负样本正确分类和表示正负样本的总数。
5.3。比较实验
在这个实验中,该方法与一些先进的方法相比,基于功能特性包括手工方法(17)和deep-learning-based方法(21]。样品在和分别用来进行训练和测试阶段。我们简要介绍一些细节的17,21]。(我)在[17),作者扩展的概念结合在7)考虑运动矢量。他们建造了一个功能命名为广义结合(GVPF)确定搬迁I-frames。遵循同样的设置在21),GVPF可以扩展到HEVC视频如下: 在哪里 和 。在方程(9),表示th元素向量 。具体地说,( ),( ),和( )表示的向量元素的数量与块大小不同的铜类型 在一个框架。例如,在 表示的数量I-CU块大小 在框架。可以找到更多的细节在17,21]。然后,扩展GVPF ( )通过基于阈值的分类器来检测搬迁I-frames。阈值是由获得最佳性能的验证集。(2)在[21),作者提出了一个混合网络学习迁移的时空表示I-frames在压缩域。在这种混合网络,一种引起二束ResNet旨在提取空间模式和LSTM用于捕获时间的变化在压缩域编码信息。获得的最优模型是实现最佳检测结果验证集。其他实验的设置是相同的21]。
5.3.1。检测精度有不同的比特率
比特率是一个主要因素控制在编码过程的视频质量。所3.2节铜的统计信息与不同的再压缩比特率有不同的行为。是有价值的评价该方法的检测性能和其他先进的方法和不同的比特率组合( )。实验结果展示在表1。
如表所示1,该方法达到最好的检测结果在所有情况下与其他先进的方法。前景检测方法验证的性能的优越性应用二级级联方案来处理各种再压缩场景。性能改进是截然不同的差异在单引号和双压缩比特率(即 )大于2000 kbps。这个结果推断,这是适当的单个探测器应用于暴露搬迁I-frames不同再压缩比特率而不是一个通用探测器,也是按照铜的分析统计3.2节。另一方面,GVPF[的贫穷的检测结果17)当 表明,铜的低阶统计类型是不足以区分之间的轻微痕迹TypeII P-frames和TypeIII P-frames。此外,所有方法的检测性能变得更好的再压缩比特率的增加( ),自降解有损量化是若在这种情况下。
该方法的时间效率是这个实验评估。1000个样本是随机选择的测试集。更具体地说,一组铜信息地图从短时视频剪辑代表一个样本。因此,需要92 ms和35女士来处理一个样本平均第一和第二阶段,分别。
5.3.2。检测精度和不同大小的共和党
在共和党单位,初始帧intra-coded框架和框架的其余部分inter-coded帧。由于存在的误差传播运动补偿期间,共和党大小是另一个重要因素,对压缩视频的视觉质量有很大的影响。在这个实验中,检测性能评估不同的共和党组合( )。实验结果呈现在图7。
如图7相比,该方法可以实现不同的改进与其他先进的方法,特别是当共和党规模非常小的再压缩过程(例如,该方法提高了超过7%的检测精度 )。与小 ,搬迁I-frames的检测变得更具挑战性,因为共和党P-frames在不同单位之间的矛盾在单一压缩更容易被更频繁的发生退化intra-coded再压缩的帧。该方法的承诺结果验证的优势应用单个探测器来处理不同的再压缩场景。此外,所有的增量方法可以表现得更好由于更少的再压缩期间intra-coding过程的影响。
5.4。分析不同的网络架构
歧视TypeII和TypeIII P-frames,我们设计一个浅CNN配备致密连接可以共同学习时空表示从低级模式在早期层和高级法医在高层语义层。它是有价值的研究不同的网络结构如何影响检测性能。在这个实验中,我们考虑下面的网络架构。(1)普通CNN:所有致密连接从S-DenseNet删除。输出特征图的数量在每一个卷积层保持不变,它的下一个模块的输入特征图相应的修改。(2)S-DenseNet-5:第四conv模块删除和致密连接相应的修改。其他网络体系结构保持不变。(3)S-DenseNet-7: conv模块添加后原第四conv模块。密集的连接也增加了这个新的conv模块之间和其他conv模块。检测精度计算使用所有测试样本的获得是否降低比特率的视频 。其他实验的设置是相同的5.3.1节。
它可以观察到在桌子上2平均检测准确性患有明显降低(2%以上),密集的连接删除。基于网络的结果配备密集连接,添加致密连接可以帮助网络学习时空表示通过功能更有效地重用在早期层。另一方面,相对差检测结果S-DenseNet-5和S-DenseNet-7证明减少conv模块的数量可能会导致学习能力不足而添加额外的conv模块过度拟合的风险。总之,密集的连接是有助于实现一个有前途的性能也是非常重要的构造适当数量的S-DenseNet conv模块frame-wise检测双HEVC压缩。
我们也评估的检测性能S-DenseNet代替平均max-pooling池操作转换模块的操作。有轻微的性能下降(平均约0.75%)修改后的网络,这意味着平均池操作更适合处理铜信息地图包含的潜在变化在当地地区铜类型。此外,基于实验结果,该方法性能略有下降(大约0.55%)调整操作时没有申请铜信息地图在第二阶段。推断,提出S-DenseNet可以学习更有效地从深表示输入样品的元素有更多不同的状态。
5.5。绩效评估与不同的率失真的策略
对于每一个编码器,一个合适的率失真(称为RDO策略)策略应用于平衡压缩视频的质量和计算复杂度。在实际应用中,可疑视频可能编码一个RDO策略不考虑在训练阶段的探测器。不同的RDO策略会导致不同的编码信息在压缩域的属性。因此,它是重要的来分析不同的方法执行不匹配RDO策略在测试阶段。在这个实验中,单引号和双压缩视频生成选项“采访”设置为5的构造视频设置 。然后,测试样本生成使用视频以同样的方式5.2节。265年×,“路”的更高的价值意味着一个更复杂的和详尽的RDO策略是用于实现更好的视觉质量与一个固定的比特率。在5.3.1节,选择“3 rd”作为默认设置生成训练样本。训练模型5.3.1节被用来在这个实验中直接获得检测结果。并给出了检测结果表3。
如表所示3,该方法仍然达到了前景检测结果单压缩视频时是否增加或降低比特率。相比之下,结果在表1,该方法的检测精度受到轻微下降(少于2%)在少数情况下,由于不同的编码统计信息未知RDO策略造成的 。更健壮的检测能力验证我们的检测特性结合支持向量机分类器在第一阶段,和浅CNN配备致密连接在第二阶段是有效的为不同的再压缩场景捕捉独特的时间不一致。另一方面,测试样品产生的未知RDO策略更容易有负面影响的检测性能deep-learning-based方法只建造了一个通用检测器(21]。
5.6。绩效评估与转换过程
视频传输通信网络时,他们很可能与视频编码标准是否与原来不同。这种再压缩过程称为异构转换过程。是重要的双压缩检测方法是健壮的代码转换过程。在这个实验中,我们考虑一个共同transocding在当前网络通信过程,即h视频编码作为HEVC视频。生成测试样品、原始视频剪辑第一压缩使用lib×264这是一个广泛使用的h / AVC编解码器。然后,这些单一压缩视频是否×265。其他编码参数,包括比特率和共和党的大小,等于中的设置5.3.1节。训练有素的检测模型5.3.1节直接应用于获得检测结果没有再培训。不同方法的检测结果展示在表4。
它可以观察到,该方法仍然达到最好的检测结果与其他先进的方法相比当异构转换过程。该方法和CNN-LSTM [21)达到某种性能的检测精度与结果表1,特别是当 。这背后的原因是块分区策略应用于单一压缩(固定1616 h / AVC宏模块)和双压缩(HEVC灵活的分区策略)会导致块边界的不匹配,使得时间不一致的再压缩更明显。
5.7。绩效评估与未知编码参数
在实际应用程序中,可疑视频可能与未知编码的编码参数在训练阶段是看不见的。在这个实验中,不同的方法对未知编码参数的检测能力,包括比特率和共和党大小、评估。测试样本的生成过程是一样的5.1节,除了比特率和共和党的大小设置为不同的值。更具体地说,和从集合中选择吗kbps;选择从 ;和选择从 。其他实验的设置是相同的5.1节。训练模型5.3.1节应用于获得检测结果直接在这个实验中没有再培训。并给出了检测结果表5。
如表所示5,该方法可以实现可靠的测试样品检测结果产生的未知编码参数,包括比特率和共和党的大小。此外,该方法的检测精度和CNN-LSTM [21)取得很小的进步相比的结果5.3.1节。这可能是由于事实比特率之间的差异应用于单和双压缩(即 )在这个实验中是小于编码参数设置在培训阶段,导致更加稳定和可检测双压缩的痕迹。健壮的检测能力对未知编码参数设置在实际司法应用程序是非常重要的。
5.8。绩效评估与不同的视频分辨率
随着视频压缩技术的发展和视频捕捉设备,人们更容易访问数字视频分辨率高(如1080 p和4 k)在实际的应用程序。它是重要的评价该方法的检测能力不同的决议。在这个实验中,原始视频序列(即YUV序列)和不同的决议,包括1080 p和4 k,从互联网上收集生成单引号和双压缩视频。下载地址和原始视频序列的列表呈现在附录中。根据同样的方式中提到5.1节为1080 p YUV序列,比特率选择{1000、3400、6000}kbps和其他编码参数保持不变来生成测试样本表示的集合 。另一方面,为4 k YUV序列,比特率选择{5000、17000、30000}kbps和其他编码参数保持不变来生成测试样本表示的集合 。比特率的增加是由于视频的分辨率就越高。使用训练模型进行检测5.3节直接,180320年中部地区铜信息地图在每个样品裁成一致的决议样本用来训练的原始模型。按照测试方案中提到的5.2节的平均检测精度提出了不同的方法在表6。
如表所示6,它可以观察到,该方法可以实现出色的检测结果为各种决议,如1080 p和k,在不同的检测方法。有些滴检测精度的方法与结果为720 p的视频。这种现象是合理的因为以下原因:(1)我们不从头开始培训新检测模型使用样品用不同的决议和(2)中只有一部分编码信息用于对齐的分辨率样本用来训练的原始模型。鼓励我们更可靠的检测能力,可以检测frame-wise双HEVC压缩与更高的分辨率(例如8 k)在未来的工作中,通过与低分辨率输入样本建立检测模型,然后使用适当的融合策略获得最终的检测结果。
6。结论
在这个工作中,通过分析铜的统计信息(块大小和预测模式),我们发现不同铜的分布类型的比率不同的属性在原始视频是否增加和降低比特率。它激励我们设计一个两阶段的双级联检测方案HEVC压缩基于时态不一致,旨在提供更可靠的检测能力为各种再压缩比特率在实际的应用程序。对于一个给定的视频中,铜的信息地图,首先构造一个短时视频剪辑。在第一阶段的检测、紧凑的检测特征提取是基于不同铜的分布类型和相邻帧的K-L分歧。然后,这个检测功能是输入训练支持向量机分类器识别TypeI P-frames。在第二阶段,一个浅CNN配备致密连接精心设计提取时空表示从压缩域编码信息获得最终的检测结果。在实验中,该检测方案达到明显改善,特别是原始比特率之间的差异和戏剧性的再压缩比特率(例如, kbps)。此外,该方法的检测性能是可靠的各种场景下,如不匹配率失真策略,未知编码参数和代码转换过程。这种优势在现实司法应用具有重要意义。在未来的研究中,我们将扩展这项工作在以下几方面:(1)考虑B-frames中的独特的编码单位,如bi-prediction铜、和(2)利用其他类型的编码信息构造铜铜信息地图,如合并模式。
附录
相同的设置23,YUV序列的列表:720 p: ducks-take-off, old-town-cross, park-joy, FourPeople, in-to-tree,约翰尼,KristenAndSara, mobcal, vidyo1, vidyo3, parkrun,斯德哥尔摩和盾牌;1080 p:概念性的、河床、crowd-run步行街,rush-field-cuts,高峰时段,speed-bag, snow-mnt,地得分,拖拉机,west-wind-easy station2,向日葵。下载地址是https://media.xiph.org/video/derf/。
训练样本的YUV序列列表:720 p: ducks-take-off,约翰尼,KristenAndSara,盾牌,斯德哥尔摩,vidyo3;1080 p:蓝天,crowd-run、步行街、高峰时段,rush-field-cuts, speed-bag, station2,向日葵,触摸下放,west-wind-easy。测试样本的YUV序列列表:720 p: FourPeople, in-to-tree, mobcal, old-town-cross, park-joy, parkrun, vidyo1;1080 p:河床、snow-mnt和拖拉机。
在5.8节下载地址https://media.xiph.org/video/derf/。YUV序列的列表用于生成测试样品:(1)1080 p:阿斯彭,被控制燃烧,晚餐,ducks-take-off, in-to-tree, old-town-cross, park-joy,河床,snow-mnt,拖拉机;(2)4 k: Netflix-FoodMarket2、Netflix-SquareAndTimelapse Netflix-Boat, Netflix-Food市场,Netflix-Tango, Netflix-BoxingPractice, Netflix-Narrator, Netflix-TunnelFlag Netflix-Crosswalk, Netflix-RitualDance。
数据可用性
原始视频的下载地址https://media.xiph.org/video/derf/。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家自然科学基金(61902263和61902263),中国博士后科学基金会(2020 m673276),中央大学和基础研究基金(2020 scu12066和YJ201881)。