文摘

检测帧重复退化的视频中,我们提出了一个而且基于locality-sensitive散列和图像配准方法。该方法由粗匹配阶段,重复验证步骤。在粗匹配阶段,视觉上相似帧序列preclustered locality-sensitive散列和视为潜在候选人重复。这些候选人被重复验证步骤进一步检查。不同于现有的方法,我们重复验证不依赖于一个固定的距离(或相关)阈值判断两个帧都是相同的。我们诉诸于图像配准,这本质上是一个全局最优匹配的过程,确定两帧互相配合。我们综合稳定性信息到注册目标函数为退化使注册过程更加健壮的视频。为了测试该方法的性能,我们创建了一个数据集,包括 不同种类的子集退化和117伪造视频。实验结果表明,我们的方法优于大多数情况下在我们的数据集和最先进的方法表现出杰出的在不同条件下鲁棒性。多亏了而且策略,该方法的运行时间也很有竞争力。

1。介绍

各种非线性编辑工具如Adobe Premiere,微软电影制造商和索尼拉斯维加斯,现在更容易篡改视频的内容。提出了许多不同种类的检测方法(1- - - - - -3]。不同方法之间的视频伪造、帧重复、简单的序列帧复制到另一个位置的时间表,可能是其中一个最方便有效的方法隐藏或假冒事件。伪造的部分视频可以很容易地以可视的方式自然,因此难以手动检测。幸运,因为同时存在于源和目标帧视频帧复制伪造可以通过检测异常暴露相同的帧序列。在此基础上,提出了几种方法(4- - - - - -8]。这些方法有一个共同的方法来判断一帧是另一个副本。这些方法有一个共同的方法来判断一帧是另一个副本。他们从帧中提取特征并设置阈值之间的距离特性。这种方法使得这些方法很难应用于现实的帧复制时表现强劲检测(FDD),在退化是很常见的。退化的视频中,当地的帧结构可以改变略受各种因素,然后提取特征的值相应变化;因此,一个固定的距离阈值不能总是工作得很好。例如,一个有经验的攻击者可能添加一个小扰动(如加性噪声)的源或目标框架;然后,在这个喧闹的场景,很可能的阈值调整为普通情况下会错过一些真正的匹配框架对。事实上,甚至有损编码过程将导致大量的源和目标帧之间的差异; please see Figure1了一个例子。至少自干扰视频将受到双重按压,这个例子表明,退化的视频伪造几乎是不可避免的。这使它很复杂,稳定检测帧在现实场景中重复。

在本文中,我们试图FDD的不同方法。在该方法中,我们不再依赖于一个固定的阈值决定是否一个视频子序列的重复。的主要观点是,任何两个帧 ,如果他们包含相同的对象,与此同时,相应对象的形状和位置是相同的, 可以被认为是彼此的副本。我们求助于图像配准来检查是否三个方面(对象、对象的形状,和对象的位置)的两个坐标系配合同行。具体来说,进行像素级全局最优匹配的问题已经解决了。当一个给定的框架是一致的复制,不应当有任何变形导致偏移场,即。源框架中,每个像素匹配相同的位置在目标框架。我们的方法是健壮的一定大小的视频退化,但全球匹配过程不是那么快等特征提取和网络方法(4]。加速,我们的管道包括一个粗匹配步骤,可以显著提高计算速度。

应该注意的是,就像这个领域的其他方法(4- - - - - -8),我们的方法也不考虑静态场景。因此,我们的方法可以用来公开假冒事件。例如,攻击者可以从历史记录复制一个帧序列假冒事件,一个人通过一个场景;然后,复制帧可以作为证据的存在或缺失,因此植物怀疑那个人或解除他的内疚。

本文的贡献如下。

首先,我们提出一个而且FDD模式的第一个关键步骤是preclustering感知相似序列的帧locality-sensitive散列(激光冲徊化)。通过这个粗匹配步骤,更好的重复验证的计算负荷可以减少几个数量级。

第二,我们使用全局最优匹配的细重复验证,获得的收益对于计算成本的粗匹配步骤。我们将不同地区的稳定信息集成到匹配的目标,导致一个健壮的然而敏感的匹配器吵闹的环境。

本文的其余部分组织如下:在节中“相关工作”,我们简要地介绍相关工作,然后在部分“方法”,该方法是详细的。实验结果给出了部分实验结果。“结论和未来的发展方向是最后在部分“结论和未来的工作。”

我们所知,只有少数FDD。在[8),小王和法提出了第一个FDD方法。视频分为重叠短子序列;然后,对于每个子序列,每一对帧之间的时间相关性和基于块空间计算每一帧内相关性和用作子序列特性的比较。的子序列而且方式相互比较。时间相关的高相似性系数将引发空间相关系数之间的比较(9]。考虑到的帧数, ,子序列比较过程的时间复杂度 方法使用相同的框架包括(4,6),分别使用结构相似度(SSIM) [6)和直方图的相关性测量子序列之间的相似性。

是不同于(8],在[5,7),作者按字母排序的特性(田村纹理和局部二进制模式作为特征(5,7),分别对应于每一帧;然后,邻近特性相互接近的特征空间对应于复制帧。通过这种方式,所花费的时间成本识别匹配框架理论上减少了 ,在哪里 是功能维度。应该注意的是,辞典编纂的排序,整个视频的帧对应的特性必须同时存储在内存中。从实现的角度来看,在内存受限的环境中,增加了 ,辞典编纂的排序有时可以超过所需的存储内存容量。在这种情况下,功能必须存储在磁盘上,而不是;然后,排序过程将包括频繁的磁盘访问很慢。

考虑到编码过程的特点,Subramanyam和伊曼纽尔10面向]的直方图中提取的梯度(猪)功能块对托管的邻国,B和P, B帧对;然后,猪的特性之间的相关性揭示高重复的块,因此帧。然而,这种方法只能用于检测的源和目标框架放置相邻,这很少见。

上面讨论的方法非例外地检测出重复的行为由一个固定的全局阈值,这使得他们更健壮。尽管一些特性,在某种程度上,健壮的退化,很明显,一个阈值校准的特定条件可能不适合别人。这个问题处理时尤为明显退化视频因为有太多不稳定因素造成的,例如,压缩工件或手动添加噪音。

一个主题和FDD near-duplicate识别密切相关(NDI) [11- - - - - -14),其主要问题是版权问题。与FDD NDI,查询的视频剪辑,虽然FDD的目标是找到所有复制帧对视频序列中每一帧可以可能伪造;因此,FDD是更具挑战性的时间复杂度,从而增加与平方的帧数(11]。FDD, NDI的另一个主要区别是,在NDI,潜在的攻击可以在FDD强于,和盗版视频可以几何转换(例如,画中画或夺回视频)插入标志或字幕。从这个意义上讲,NDI方法应该更健壮而不如FDD歧视。

3所示。该方法

3.1。管道

我们检测到帧重复而且的方式。管道包括两个关键步骤:粗匹配和重复验证,如图2。粗匹配阶段的主要担忧是显著减少计算负担的第二阶段。给定一个输入视频 ,后(8),我们首先划分 重叠的子序列, 框架和总数吗 子序列的长度。为每个子序列 ,使用激光冲徊化,我们确定 的连续子序列的视觉相似 通过这种方式,我们的集群子序列 候选人及其复制到相同的组。然后,在重复验证阶段,我们每一对对应的帧之间进行图像配准,分别 和重复的候选人。通过图像配准,我们获得的一系列偏移字段和零炮检距域验证复制。

3.2。激光冲徊化粗匹配的

左边的图的一部分2描述了粗匹配给定的子序列的过程 为子序列 ,我们想要找出,从子序列 ,重复的候选人 ( ),哪些是感知相似 ,这样重复验证过程,更准确但慢,可以比较 只有 不是所有的成功的子序列 为此,我们需要的是一个功能(即敏感内容。,objects, objects’ shape, and objects’ position) change while robust against image degradation. Although many image hashing schemes can be used for this purpose (e.g., the wavelet-based [15]和SVD-based [16]),我们发现基于块依据(17]特性符合我们要求最好的鲁棒性之间的权衡,辨别力,和计算时间。对于每一帧,我们提取基于块要点描述符;然后,描述符提取 帧的子序列 分别是连接形成一维的特征吗 相应的子序列。

我们利用激光冲徊化来确定一个功能 足够接近 给定一个错误概率 和距离阈值 , ,激光冲徊化保证 ,在哪里 碰撞散列值的概率 在本文中,我们使用 - - - - - -稳定的发布出去是依靠激光冲徊化(18]: 在哪里 散列是特征向量, 是一个实值向量的元素是来自独立标准正态分布 ,已被证明是吗 - - - - - -稳定(18(因为我们使用 - - - - - -标准来衡量特征之间的差异), 是一个真正的标量统一来自 ,在哪里 是一个真正的标量。

产生更可靠的结果,我们构造 哈希表和子序列 被认为是一个重复的候选人 只有当的散列值 碰撞多 次了。

如果收集到的候选人包括重复 或多个连续子序列( 在我们的实验中,即,about 0.5 second), then these consecutive subsequences are considered as static scenes and discarded.

注意,这个粗匹配阶段还包括距离阈值, ,但是这个距离阈值不同,在现有工作中使用 不用于做最后的决定。粗匹配步骤是用来消除不必要的计算;因此,在选择 ,我们不需要过多考虑鲁棒性之间的权衡和特殊性;我们应该保证的重复 是的一个子集 事实上,在实践中, 不一定是显式地指定,我们将更详细地讨论这个实验结果部分。

在这个阶段,每个子序列 与一组相关联的潜在候选人重复 然后执行重复验证步骤 这些候选人。

3.3。重复验证

为每个子序列 及其重复候选人 ,我们执行相应的帧之间的图像配准来检查是否两帧包含相同的对象和对应的对象的形状和位置是否恰好是相同的。如果是这样的话,注册将产生新鲜感偏移量字段。然而,它是不容易稳定获得正确的登记结果退化图像。如图1,甚至有损压缩本身会导致巨大的变化之间的框架及其副本,通常导致登记错误。为了解决这个问题,我们建议找到稳定的框架和区域依赖于这些地区比不稳定的地区在注册过程中。我们使用的一个变体哈里斯cornerness响应提出了(19)来衡量一个像素的局部结构的稳定性: 在哪里 , , ; 表示给定的帧, 是一个二维高斯内核,∗表示卷积操作。

为一个框架 ,在一个较大的值 表明自相关矩阵的特征值对应 是大的。这意味着两个正交方向的信号变化显著;这样的点已经被证明在各种条件下是稳定的,除了规模变化(20.,21]。我们使用 体重不同地区在一个框架在登记过程中,和注册目标可以写成 在哪里 是数据项措施匹配像素周围的局部结构的区别, 是保证邻近像素的平滑项也有类似的补偿, 是点的偏移 , 表示的边缘 - - - - - -社区系统

加权矩阵,这样吗 在哪里 , 的归一化版本 我们使用最大过滤分散稳定指向一个小范围的影响。

在(5)是相当小的值( 在我们的实现)使用面具出过度平滑区域时计算的数据项(3)。尽管哈里斯cornerness响应加权平滑区域少,过于平坦的地区仍然在注册过程中造成麻烦。这些区域的局部结构可以很容易地改变了小扰动。图1 (f)这种现象是一个明显的例子,大亮点(视觉词之间的显著差异指数)定位在墙上或地板上,这都是相当顺利。这种过度平滑区域将导致高成本与实际情况不一致的数据。在此基础上观察,我们设置阈值 删除数据成本在这些地区的影响。因此,偏移量字段在这些地区是完全由平滑控制项(4);因此,我们添加一个截断值 在(6)保证平滑约束总是高于一定水平。

数据项(3)和平滑项(4),分别定义为 在哪里 功能点吗 在源, 表示的特性 在目标框架(我们使用筛选描述符(22)中提取一个规模为每个像素的特性),和 分别表示在水平和垂直方向偏移。我们使用截断 - - - - - -规范(8)占不连续在抵消领域,和 用于平衡数据项(3)和平滑项(4)( 还可以组合成(5),我们把它写在这里清晰)。

我们使用双层呆头呆脑的信念传播(23最小化目标函数 通过解耦平滑项(4)在(分为两部分8)相应的两个方向,信息更新的复杂性在每个迭代中减少 ,在哪里 每一帧的像素数量和吗 是可能的数量在每个方向偏移。进一步降低了复杂性 通过距离变换提出了(24]。的多栅的消息传递机制21)也利用显著降低迭代的总数。

光流(例如,25])或筛选流(23)也可以用于图像配准,这本质上是一个pixel-wise对应的评估过程。然而,他们两人可以获得预期结果退化的视频。我们的目标之间的差异和光学流和筛选流很明显:我们不同地区的稳定信息编码到匹配的目标,这使得我们的方法相当强劲的对视频退化。此外,在我们的目标,没有小位移项用于筛选流程以便登记两帧之间的微妙的变化更加敏感。图3显示了两个代表性例子演示三种方法之间的差异。偏移量字段是可视化的颜色编码方案(26];请参见图4为更多的细节。

与典型的FDD的方法(4- - - - - -8),我们的方法依赖于图像配准而不是特征提取和阈值策略。符合数据相似度和平滑度的限制,两帧的像素之间的对应关系是建立在一个“最优”的方式通过一个概率推理过程(即。、双层呆头呆脑的信念传播);此外,像素高的哈里斯角落响应通常位于对象的边界;因此,当哈里斯角落响应集成到注册目标,注册,在某种程度上,视为一个对象级的匹配过程。因此,即使注册目标涉及多个参数(例如, , , )比典型的特征提取和thresholding-based方法做的,我们将展示在我们的实验部分,一旦校准参数,该方法可以执行比特征提取和thresholding-based方法更强劲。

4所示。实验结果

4.1。数据集

据我们所知,没有公开的数据集专用FDD评估。因此,我们创建了一个数据集来评估该方法的性能,特别是对于退化的情况。我们捕获5室内和八个室外视频剪辑(名为“v01”来“v13,”和“v01”∼“v05”室内场景)和松下HDC-Z10000GK摄像机。的视频被枪杀在哈尔滨工业大学的科技园区。的视频捕获不同的场景,其内容包括人物,风景,建筑,和植物。从我们的数据集如图几个截图5。的视频剪辑是由内置h编码的编解码器,然后我们将这些片段转化为mp4格式与Adobe Premiere Pro 5.5 c。视频的分辨率 ,帧率是25 FPS。根据这些原始剪辑,我们创建了三个伪造子集:MCOMP子集,MCOMP + AGN子集,MCOMP + INT子集。这些子集是列在表的细节1。每个原始剪辑对应于9伪造的版本,和整个数据集包含117伪造视频。

加性高斯噪声的大小和强度变化是温和的,所以它们几乎察觉不到的。伪造视频剪辑的持续时间从8秒到30秒。

4.2。LSH-Based粗匹配的效率

正如上面提到的,子序列 ,在粗匹配阶段,我们利用激光冲徊化 , 被重复的候选人 从理论上讲,使用 - - - - - -稳定的发布出去是依靠激光冲徊化,我们必须指定阈值的距离 和错误概率 确定的参数 在(1)。然而,由于我们只使用激光冲徊化粗匹配器和粗匹配的结果不是很准确,我们应该确保 ,在哪里 是重复的 在这个意义上,我们可以确定 通过训练而不是首先分配 然后计算

以确保 ,我们定义 正确地重复收集候选人的完整性,对于训练集,我们应该选择 这样 在哪里 是正确的数量收集候选人和重复 是重复的子序列的实际数量。鉴于(前提9),我们使用碰撞的平均数量, ,粗匹配的效率测量步骤如下: 在哪里 碰撞的总数。它很简单 单调增加 ,我们喜欢小 当(9)是保证。

我们随机选择四个最严重的退化(即视频剪辑。,have been attacked by additive Gaussian noise of the standard deviation of 10 or by downscaling the intensity by )从MCOMP + AGN和MCOMP + INT子集,分别训练参数 基于块的块大小依据功能 ,子序列的长度 设置为5,我们规模每一帧 特征提取前的原始大小。我们建造80哈希表的粗匹配阶段;因此,两个子序列被认为是相同的只有当他们碰撞散列值超过40次。在这种配置下, 如图6。我们设置 ,在哪里 到达 ,

很明显的价值 取决于视频的内容。我们在表2的平均值 伪造的版本对应每一个原始剪辑。大多数的平均值 高于0.98。两个更小的值(0.94 v03和v13)都是由强度退化引起的。的视频剪辑v03 INT95组,的价值 只有0.61。这是因为重复帧的像素强度大;因此,一个小的比例因子可以导致显著的强度变化。平均而言, 复制子序列是错过了在粗匹配阶段。

相反,平均的 为不同的场景是0.10;这意味着,在我们重复验证阶段,平均而言,我们只需要执行0.1为每个子序列比较。相比之下,没有粗匹配阶段,平均而言,我们需要比较每个子序列 其他的子序列, 帧的数量。 通常大于200在我们的数据集,可以在实践中更大。在这个意义上,我们的数据集,计算负载重复验证阶段减少了3个数量级。我们将展示之后,值得执行这个粗匹配步骤,尽管它 时间复杂度。

4.3。检测能力

在本节中,我们调查我们的方法的检测能力。在我们的实现中,我们随机选择7锻剪辑校准 , , , , , 经验将是1.8,635年和12800年,分别。帧大小的一个因素 (加速度)前登记。我们的关键是抵消场图像和掩盖了地区的非零的面积小于 整个形象占离群值。我们使用精度(10),回忆(11), - - - - - -评分(12性能的评价): TP、FP和FN正确检测到重复帧的数量对,错误检测到重复帧的数量对,分别和未被发现的重复的数对。

我们将我们的方法与4,8分别为](表示他和李),及相关参数设置的是相同的(4,8),分别。MCOMP子集的比较结果如表所示3- - - - - -5。“v01”这个标签在第一行表示伪造版本的视频剪辑v01在当前伪造集团和“平均”指的平均值v01 v13,和以下一样。为v07 v12 MCOMP100组,所有三种方法完美地执行。v05 v13,我们的方法获得,而低精度;这是因为一些镜头v05 v13几乎仍然是,和重复验证步骤未能区分过于相似的框架。相反,(4)是很有效的辨别力。我们的方法优于另外两头4例。应该注意的是,(8)中没有一个重复帧v02 v05和v13原因不同。在[8),当帧的子序列的时序相关性都超过一定值,这个子序列被认为是静态的,然后丢弃;因此,在v05 v13,帧的子序列非常类似于彼此没有与其他子序列。相比之下,复制帧v02 v04是错过了由于不恰当的相关性阈值。

MCOMP80集团的精度4]v05和v13降至0.44和0.50,分别的性能(4]其余的视频稍微改变。的性能(8),而可怜的这组:它未能发现8的13伪造视频剪辑。在这一组,给各位的精度和召回v07方法降低为0.50和0.83,分别和其他片段的结果几乎相同的MCOMP100组。

当最后一个压缩的品质因数下降到60岁的性能(4)显著降低。具体地说,6视频剪辑被错误地判断为不变。相比之下,大多数的结果我们的方法保持一个相对稳定的值。

MCOMP + AGN子集的检测结果如表所示6- - - - - -8。在AGN1组(表中6),我们的方法优于其他两个第一4例。我们各位的召回率比其他两个稍低。此外,v05和v13 [4仍然比我们的方法获得更好的结果,而精度v05大幅降至小于0.50。(8)得到最坏的结果v01 v03, v05 v06, v13。在表7有趣的是,精密的4]v05 AGN5组为1.00,这应该是由于较强的噪声小于0.50。根据我们的观察,源和目标帧之间的差异在v05这组确实是小,这可能是由于有损压缩的编码机制。在表8大多数情况下,精度和召回4,8)降至0。相反,我们的方法是相当稳定的在不同的组,和性能几乎没有改变。

MCOMP + INT子集的检测结果如表所示9- - - - - -11。除了v05和v13,我们的方法是等同于或优于其他两种方法在大多数情况下。自[8)使用像素强度的相关性作为他们的特性,这是相当健壮的对抗强度变化,在这个子集,(8]表现好于COMP + AGN的子集。相反,(4对强度变化相当敏感。INT95集团(4]甚至没有发现重复的帧十13伪造的剪辑。

比较退化帧视频时,特征之间的距离很容易脱落的固定阈值的范围。从表可以看出3- - - - - -11当退化变得更强,超过一半的伪造视频剪辑被错误地认为是无辜的了(4,8:没有发现重复的帧。相比之下,我们的方法在不同的测试组表现稳定。虽然,有时候,我们的方法比其他两种方法(特别是v05和v13),平均精度,回忆,和 - - - - - -分数,没有例外,明显优于那些[4,8]。即使是最强的降解组,即。,MCOMP60, MCOMP + AGN10, and MCOMP + INT95, the average values of precision, recall, and - - - - - -分数高于0.8的方法(最坏的情况下, 在INT95)。

4.4。运行时间

三种方法的运行时间密切相关的内容的视频。当序列的比较,一旦发现任何相应的双帧不相同,比较当前子序列终止。因此,视频帧是高度相似的将导致更多的处理时间。运行时间的三种方法之间的比较表12。帧的相应减少的一个因素 所有三种方法,实验是进行工作站与英特尔酷睿i7 - 2600处理器和24 GB RAM。我们实现了MATLAB R2014a的三种方法。

正如前面提到的,在8),如果框架在一个给定的子序列之间的相关系数都高于一个预定义的值,子序列将被视为静态和丢弃。这样的子序列将不会与其他子序列相比,这就是为什么的运行时间(8]是如此短的场景v05和v13(回想一下,8)没有检测到伪造对应这两个场景)。

事实上,结构相似和相关系数用于(4,8),分别计算速度远远超过图像配准过程在我们的方法。每个单独的两帧相比,结构相似和相关系数可以计算在0.03和0.05秒,分别。相反,在我们的方法中,图像配准过程大约需要4秒每一对帧进行比较。即便如此,我们的方法是大多数情况下比其他两个。加速度的粗匹配步骤中起着重要的作用。为我们演示了在表2子序列的总数,可以减少需要更精细的重复验证几个数量级,特别是对于跨帧视频剪辑的内容变化迅速。每一步的平均运行时间在我们的方法是列在表中13

约占粗匹配步骤 总运行时间,需要为每个帧平均不到一秒。这样一个步骤很值得表演:没有粗匹配,即使一个10秒的视频剪辑将花费我们几个小时检测到伪造的。

5。结论和未来的工作

在本文中,我们提出了一种新的帧重复检测的方法,特别是对于退化的视频。我们的方法检测重复而且方式伪造和由两个步骤组成:粗匹配和重复验证。在粗匹配阶段,我们使用locality-sensitive散列precluster视觉相似的子序列。通过粗匹配的子序列的总数,这需要更好的重复验证可以减少几个数量级。重复验证步骤利用图像配准确定相同的子序列。我们编码不同地区的稳定信息到注册目标函数,这样注册工作稳定退化的视频。不同于现有的方法,检测过程不依赖于一个固定的距离阈值,为退化视频通常是不可靠的。实验结果表明,我们的方法优于大多数情况下最先进的方法和在不同条件下表现出优秀的鲁棒性。然而,我们的方法不能区分高度相似的框架;因此,在帧视频剪辑的内容稍微变化,精度可能相当低。 Further efforts should be made to improve the discriminative power of the registration process.

数据可用性

数据集用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了国家自然科学基金(批准号61771168)和中国黑龙江省自然科学基金(批准号F2017014)。