慢动作和放大高清数字视频使用分形

文摘

慢镜头回放和空间缩放特效用于数字视频渲染。目前,大多数技术进行数字空间缩放和慢动作基于插值放大原始图片的大小和生成额外的中间帧。插值是主要通过线性或三次样条函数或运动估计/补偿既可以应用像素到像素,或帧分割成块。本文的目的是介绍另一种技术结合分形理论和小波分解实现空间缩放和慢动作回放的高清数字彩色视频序列。快速场景变化检测,活跃现场检测、分形小波子带分析,和颜色编码基于挖土机的距离(EMD)测量用于减少计算负荷,提高视觉质量。实验表明,该方案实现更好的结果相比,在整体视觉质量的最先进的技术。

1。介绍

今天的电视广播行业正迅速面临新的挑战,追求技术进步如果相比之前的五十年的它的存在。迁移从模拟到数字系统已开始在过去十年的早期的卫星广播也几乎完成了地面。此外,DVB标准的家庭最近延长了舞台上释放,与传统DVB-S,优质,DVB-C,新DVB - h和DVB-SH应对移动应用手持终端,而一些新的服务交付手段出现在传统的陆地和卫星系统,如IP电视视频(IPTV)要么基于XDSL或在不久的将来即将到来的WiMAX访问。这个新的接入技术的共同特点是能够提供宽带服务允许高数字电视(HDTV)成为现实。此外,新一代机顶盒提供的多个异构电视访问特性能够解码输入信号(例如,优质、DVB-S IPTV)。在这个框架中,无论部署的宽带接入技术,越来越多的新的共同的特征和服务开发扩大视频的质量在用户身边。视频渲染是指所有的技术能够增加灵活性,最终用户通过修改视频序列的观点。的诞生新的液晶或等离子屏幕完全支持全高清技术特效图像缩放和调整以及慢动作很可能会在新一代全高清电视机顶盒集成。

慢镜头回放是另一个用于视频特效渲染。它由一个演示的视频场景的利率低于原件。已经合并为一个商业功能模拟视频播放器,今天慢镜头可以扩展到数字格式。在一个模拟框架,给定一个视频序列在特定的帧速,经典的慢动作效果,显示,通过减少一定数量的帧速率,这样一个框架是冻结,没有可见的一段时间成正比慢动作的因素。另一方面,实现模拟慢动作在生产前通过fast-shuttered相机可以捕捉到现场在帧速率高于标准税率(即。25帧/秒,PAL / SECAM制式,NTSC 30帧/秒)。慢镜头是通过拍摄速度快于标准税率,然后突出电影的标准速度。在这种情况下,可实现的慢动作因素是限于快门速度和固定在试制阶段。

在数字环境中,这些限制fast-shuttered相机通过处理技术是可以克服的。

目前,商业数字视频播放器允许用户浏览视频逐帧序列,或通过章选择前缀索引。慢镜头回放是通过降低帧率显示或保持不变(1,2)和序列中插入额外的中间帧插值生成的。插值可以应用在在像素或分组像素块。可以使用数据复制、线性或三次样条一见钟情。这些方法的主要缺点是产量明显退化的视频质量可以注意到的“褪色”效应(花键)和“牛肉干”失真(数据复制),运动导致低质量的人类视觉系统。

类似的问题出现在图像平面上如果使用插值执行空间缩放。块失真和/或模糊效果可以有经验的大框架。

近年来,运动补偿帧插值(MCFI)技术提出了提高性能的慢动作。尽管这些技术以前用于朋友之间转换帧速率,NTSC,高清电视,MCFI方法还用于视频流和会议应用程序(3- - - - - -5]。MCFI想法是实现运动估计在过去和当前帧,然后生成相应的内插帧平均像素在前面和当前帧所指出的运动矢量的一半。可以通过基于块的运动估计或pixelwise方法。一般来说,pixelwise运动估计可以达到更精确的运动领域,但是需要大量的计算。因此,它通常用于离线MCFI而非实时处理。相比之下,块匹配算法(BMA)可以有效地实现和提供良好的性能(MCFI大多数方法都是基于BMA)。比较pixelwise和基于块的运动估计MCFI讨论(6]。

在[7),联合使用分形编码和小波子带分析获得亮度的空间放大和慢动作回放视频序列,提出了避免上面提到的畸变效应的影响。

在数字图片,分形主要是用于实现数据压缩利用自然图像的自相似性8,9),但他们的潜力并不局限于压缩。分形编码允许扩大一个多维信号的属性(例如,图像和视频)以及它的任何维度。分形表征的主要弱点的高计算复杂度搜索块使用仿射转换之间的相似之处;因此,一个“最佳匹配”算法是非常耗时的多维数据集。

提出了几种方法来加速分形编码(10]。一个类所提出的解决方案是基于小波子带分析(11]。由于正交和本地化特性,小波适合和广泛采用的部分波段数据分析和处理。

我们的算法利用这些特性通过执行每个部分波段的分形编码与特别注意的频率分布系数。高计算成本的进一步降低分形编码,我们使用活跃的现场检测,进行分形编码信息(移动)高的地区。此外改善整体视觉质量,使用重叠块编码和预滤器,建议在12),但扩展到三维情况。提出了以下的实验结果表明,相对于传统方法,我们的方法达到更高的主观和客观质量,对先进的技术。

传统的分形编码方案可以很容易地扩展到彩色图像(视频)等公司的代表红、绿、蓝(RGB)组件。因此每个通道在彩色图像可以压缩为一个灰度级的图像。Hurtgen,摩尔,西蒙提出了一个分形变换的彩色图像编码(13]。在RGB分量,利用谱冗余的均方根(RMS)误差测量灰度空间扩展到三维颜色空间fractal-based彩色图像编码(14]。实验结果表明,可获得1.5压缩比提高使用向量在分形编码失真测量固定图像分区比单独在RGB图像分形编码。然而,RGB空间不是感知制服。系统不均匀的小扰动值是线性的可能的变化,感知价值。这意味着一个颜色空间感知距离颜色统一和另一种颜色将被视为常数独立于或。使用nonperceptually均匀空间RGB的缺点,人类视觉系统(HVS)将受到计算机数字视频处理措施,从RGB值的距离不会均匀的可信度。从这些考虑,欧盟委员会国际歌d 'Eclairage (CIE)定义了一个统一的颜色模型,称为L * a * b *代表人类能够解决所有的颜色。Danciu和哈特(15)提出了一个分形压缩彩色图像的比较研究L * a * b *颜色空间与Jacquin迭代变换技术,三维的颜色。它已经表明,均匀颜色空间的使用产生了明显的颜色失真压缩图像小于其它方法。在本文中,我们将提出一个新颖的方法编码彩色图像的基础上联合使用L * a * b *颜色空间和挖土机的距离(EMD)测量16]。EMD适当部署了彩色图像检索应用程序(17]。这是一个向量度量空间和颜色信息相结合来解决彩色图像之间的相似性。在这个工作我们实现一个分形编码方法,依赖于EMD寻找在彩色图像自相似性在L * a * b *颜色空间。该方法取得更好的结果相比,在客观的质量评估的一个经典的编解码器基于有效值测量。

本文是[的自然延伸7高清彩色视频序列的情况下,应对进一步问题独特的颜色分形编码的视频场景。EMD方法中使用编码。这种方法已经被证明是适合检测相似颜色的多媒体内容(18]。降低分形编码的高计算成本,一个活跃的现场使用探测器,以便执行完整的三维编码只有在高信息区域(区域)移动,而静态区域使用一个二维编码器编码。进一步加快编码过程进行小波子带分析而后处理技术用于提高视觉质量。此外,快速场景变化检测算法(17)是利用确定的最佳时间窗口最大化的视频质量缩放和慢镜头处理。

本文组织如下。节2,分形理论应用于彩色视频处理的描述。部分3该方法的细节。实验结果提供了部分4。结论终于在部分5。

2。分形理论应用于彩色视频处理

自然信号的分形表征可能不考虑信号的维度和可用于应用程序有关的声音/声音,图像,视频序列等等。分形表征/编码是基于迭代函数系统(IFS)。IFS方法的基本思想是利用冗余的自相似性总是包含在自然信号。例如,一个“分形图像”可以被视为一个原始图像的拼贴由本部分,通过合适的几何和(即“大规模”转换。、亮度或对比度变化)。

这种技术的数学基础是收缩迭代变换的一般理论8,9]。基本上,图像的分形编码在于建立一个代码(即。,一个particular transformation) such that, if是原始图像,那么,也就是说,下为大约是自我改造。如果是一个收缩变换,大约是吸引子的,也就是说,一些最初的形象。的代码是建立在一个分区的原始图像。每一块这个分区称为值域块和编写独立于其他组件的匹配(本地代码)与另一个块在图像,称为域块。如果和范围和域块的大小(平方的块),分别呢与缩放因子用于局部自相似性搜索。

经典等距变换(即。,rotations, flip, etc.) and massive transform (i.e., contrast scaling and grey shifting). If是范围块的数目,初始图像的分形编码呢在哪里和与一个仿射运算符和一个转变亮度的像素,转换从八个离散选择等距减少的一个因素使用一个平均。换句话说,分形编码,为每一个值域块,一个大域块构成,一个适当的转换后,一个好的近似的范围。

原始图像的分形码所以提取当地规程的集合。这种方法,实现Jacquin [9),给出了图像的表示是由部分本身的副本。经典分形解码阶段包括在一个迭代的过程从任意初始图像。事实上,如果是一个收缩变换,的吸引子给出了一个近似的原始图像独立于最初的形象。从本质上讲,分形编码是一家集线性仿射变换,它没有内在的大小。因此,我们可以假设自相似性,即匹配原始图像大小不同的地区之间是规模无关的。在解码过程,结果”决议独立”,也就是说,在分形解码阶段代码使变焦(19]。实际上,这个操作包括在增加,在解码阶段,块的大小范围,因此域块的大小(被)。变焦的一个因素,新尺寸和,但所有的本地代码因此分形编码将保持不变。

在这个工作我们提出一个新颖的解决方案自相似性搜索IFS分形编码的高清彩色视频序列。起初我们变换图像映射的颜色均匀L * a * b *空间。然后,通过一个聚类过程,对于每个范围和领域块,我们提取一个街区签名这是一个总结的空间和图像的颜色信息块。得到分形编码如前所述,我们比较的范围和领域块签名通过EMD措施。这里,是我们的方法的新颖性。事实上,我们执行的比较总结空间和颜色信息包含在图像块,反对古典IFS方案,比较他们在像素级别的RMS的措施。一个算法的示意图如图1。在下面我们给该方案的细节。

2.1。图像块特征提取

一个图像块签名是一组特性提取的聚类过程。集群技术针对分区中的图像块一组条件,(即。集群)形成的像素聚集距离根据一些规则。每个集群是集群相关特性的代表。正式,因为一个图像块的大小,它的签名,数量的集群,重量,质心(即。,the representative element) of the cluster。聚类过程中,我们使用的经典均值算法(20.]。我们测量距离的像素之间的空间和颜色域。空间域,对每一个像素我们限制搜索区域为中心的圆半径为r。的长度r计算考虑到介质空间之间的距离和初始分布的重心。颜色距离也是HVS的分辨率上有界的制服颜色L * a * b *空间(),也就是说,最小距离L * a * b *颜色空间允许HVS区分两种不同的颜色。在形式上,我们定义通用的像素之间的距离和一个重心作为在哪里和是他们规范化欧几里得距离在空间域和L * a * b *颜色空间,分别。值得注意的是,是负的,对称的,满足三角形inequality-thus我们真的与一个度量空间。聚类过程的同事来根据

的初始位置选择质心不变的仿射变换执行的分形编码。这确保,因为一块签名和一个变换,(16]。

重心的数量选为满足两个约束:最大均匀性在质心之间的距离和几何仿射变换不变性(即。等距)。

最初的12集的重心大小的图像块如图2。这种定位是空间均匀而质心之间的距离以及像素之间的距离和周围的质心本质上是不变的。这个位移不变的8等距。聚类过程的最后一个签名是分配给每个范围和领域块。

2.2。挖土机IFS的距离

在彩色图像自相似性搜索是由IFS比较领域和范围的签名块中定义的部分2.1。匹配的过程依赖于挖土机的距离(EMD)。EMD是一个有用的和可伸长的距离度量,由斯坦福大学视觉实验室(SLV),基于最小成本必须转换到另一个签名。基于EMD运输问题从线性优化,也被称为Monge-Kantorovich问题[21]。假设几个供应商,每个与给定数量的货物,需要提供几个消费者,每一个都有能力有限。对于每一对supplier-consumer来说,运输成本的一个单位的商品。运输问题是找到最便宜的商品从供应商到消费者,满足消费者的需求。签名匹配可以自然地扮演一个运输问题通过定义一个签名作为供应商和其他消费者,并通过设置一对supplier-consumer成本相等地面的距离一个元素之间的第一个签名和一个元素在第二。地面的距离被定义为基本特征之间的距离聚合成的签名。直观地说,解决方案是那么最少的“工作”需要转变成另一个签名。正式EMD被定义为一个线性规划问题。让两块和形象,他们的签名和集群,分别;让是地上两个重心之间的距离和,让之间的流动和,定义为的重量匹配我们想找一个流,最小化总成本:

以下约束:

第一个约束保证单向物资运输来。第二个我们限制供应,集群可以发送的他们的重量。第三个约束允许集群不再接收物资比他们的重量,而最后的约束力量尽可能多的供应。我们称之为总流量。运输问题一旦解决,我们已经找到了最优流,EMD被定义为规范化的工作总流程: 正常化时需要两个签名有不同的总重量,避免给予更多重视小签名。一般来说,地面的距离可以是任何距离和将选择根据手头的问题。我们需要定义一个地面距离匹配我们的目的。提取的范围和领域块签名我们部署一个聚类过程基于距离度量定义在(1)。这样的距离是一个Euclidean-based指标能够比较像素和重心的空间色域。比较是在空间域限制,即中像素之间的空间距离和质心的初始分布。在颜色空间中搜索仅限于质心不同不到人类视觉系统的分辨率(即。,高压)。定义地面的距离,我们使用一个类似的,但稍微不同的方法。虽然我们仍然保持颜色组件的边界,我们使用高压规范化欧几里得度量值,我们没有元素在空间域限制搜索区域。因此,在空间域,我们不设置任何限制,我们只是正常的距离组件的最大测量质心之间的欧氏距离。此外,在基于签名的匹配过程如上定义,成功的搜索空间组件的重要性是不一样的颜色分量的相关性。事实上,在两个图像块相似的颜色分布,颜色的位置是非常不同的,这可能导致疲软的最佳匹配算法。正是基于上述考虑,我们提出以下的地面距离的测量: 在哪里和是一样的(1前),但是,在这里,。事实上,参数在(6)权重重要性的颜色距离的空间距离是选为最大化重建图像的质量。值得注意的是,,以及(5)非负、对称和满足三角不等式,因此它是一个真正的度量。提取分形编码,如果寻找相似性范围和领域块通过比较他们的签名。IFS与收缩转换减少域块的大小范围的一个街区。因此,匹配过程比较签名相同的总重量。在这种情况下,由于地面的距离是一个真正的度量,也EMD (5)定义了一个度量空间。此外,它可以表明,在这种特定的情况下在哪里两个签名和总重量是他们的平均重心。换句话说,地面的平均质心之间的距离两个签名相同的总重量是EMD的下界之间的两个签名(16]。这个属性使用IFS过程减少相似性搜索算法的复杂性。使用EMD IFS最佳匹配搜索有几个优点。事实上,比较摘要信息的图像块提取的聚类过程导致增加鲁棒性的搜索过程来弥补错误。这不是真正的基于像素的RMS方法。此外,它不太敏感的量子化错误由于内在的“平均”性质的聚类过程。

理论的扩展视频信号是非常简单的。在分形视频编码(22)范围和领域块成为三维对象,因此,等距和大规模转换计算的数量更高。这一事实大大提高匹配算法的计算成本。因此,应用分形编码的视频信号结果可能只遵循一个精确的数据简化和简化问题的政策。三维缩放是通过使用分形的代码提取序列视为一个三维对象。

3所示。建议的体系结构

一个交互式HDTV应用程序框架内,用户应该选择感兴趣的一个场景(即。,一个subsequence corresponding to the desired time interval) to be spatially zoomed and replayed in slow motion. The scene of interest is then passed to the proposed architecture shown in Figure3并解释了在这一节中。

感兴趣的场景选择的用户首先分解在均匀的照片为了避免场景变化分形放大过程的一部分。

一组帧包含现场处理感兴趣的视频场景分解。建议的体系结构的一个场景变化确定最优算法是利用时间窗口最大化的视频质量缩放和慢镜头处理。事实上,用户选择的感兴趣的场景需要预处理,以慢动作被分割成均匀的视频镜头,以避免现场参与分形放大过程变化。

clustering-based分割方法用于场景变化检测。基本上,场景变化确定直方图的基础上变化和颜色的变化,这种变化是重要的在一个或两个。特性YUV直方图变差函数和特征函数的子样品YUV帧差异歧视选择合适的阈值。这样的选择通过大津法阈值自动执行(23]。场景变化检测算法(23]。

让现场发现的同构子序列改变算法是由M帧。

起初,分形编码的计算复杂度严格要处理的数据量成正比,框架分为数据包(共和党)长度为N N选择根据时间序列的活动,这样可以选择更高的价值来慢慢改变场景没有大量的时间处理增加。每个共和党被视为一个单位编码。共和党的大小选择根据序列内的时间活动,这样可以选择更大的尺寸来慢慢改变场景没有大量的时间处理增加。

包选择考虑时间序列的方差估计的最小平方误差(MSE)帧之间的度量: 在哪里是像素框架的,在序列帧位置,帧大小和序列的帧的数量。的整体框架构成的序列,选择一定数量的关键帧。包的定义是由一组相邻帧之间的暂时位于两个consecutives关键帧,如图4。

一开始分裂过程的第一帧序列扩大选择的初始帧。更一般来说,一旦一个框架已被确定为第一帧包,一个连续帧被标记为结束帧数据包如果在哪里是阈值选择这样换句话说,对于每个数据包时序方差必须低于50%的时间整个序列的方差。方程(10)保证至少two-packet细分的序列扩展。根据(9)和(10),每一个数据包都可以由一个变量的帧数。在分包过程结束时,每个数据包编码作为一个单元是:以这种方式计算负载,因此,消耗的时间编码都显著降低。

这个分组过程的缺点是,它引入了一个不连续沿着时间轴。限制这种效果,使用时间重叠:每个共和党是编码作为一个边界条件的运动信息。由于这一点,一个缓冲区的存在是必要的保证因果的过程。更一般的约束是共和党大小一定的倍数、大小的块,不小于域块的大小。这保证了数据包被划分范围和领域块,和不喜欢的部分。

在每个共和党积极现场探测器是用来找到“活动对象”这一群三维块提取。每一帧分为瓷砖的大小。EMD属于不同计算帧的相应的瓷砖。如果EMD比前缀阈值高,瓷砖分组形成一个三维的块。由平均EMD阈值自适应地评估所有瓷砖组成共和党。所以提取块的集合定义了活动对象,其余块构成的“背景”。

活动对象是适合与一个完整的三维分形编码的编码,而静态背景是处理一个二维的。分形编码执行根据IFS理论(9:首先,数据划分为若干个区间和域块;然后,创建一个域池通过域块和收缩仿射变换。每个范围块然后相比元素组合域池通过EMD和一组之间的通讯范围块,域块和仿射变换(即。创建,分形编码)。

使用分形放大在解码步骤导致blockness变形(图5)在时间和空间维度。这个问题来源于视频分割成不重叠的范围块在编码过程中,和整体视觉质量降低,当高变焦(即。上面,执行因素)。为了对比这种效果,编码范围重叠块(orb)技术(12使用)。ORB编码扩展到三维活动对象的编码。背景与二维分形编码的代码,因为数据没有变化,在时间轴上,背景块。延长(12),八个不同的活动对象和四个分区的分区的静态背景计算。八个不同的分形编码的活动对象提取和编码独立(图6)。

在解码时,应用逆过程,分形进行缩放。有序立方体重叠(OCO)后处理,定义为一个扩展的命令广场重叠(OSO) [12),合并重叠分区的部分由三维分形编码。OSO在[12)是一个窗口的中值滤波器计算中值所产生的每个分区的ORB。这项技术应用在三维情况下,OCO计算中位数在八个ORB分区。使用ORB和OCO的一个缺点是计算成本的增长的分形编码的过程。

应对高计算负担,用小波的方法(7]。活动对象的三维小波子带分析计算。为整个低通组件然后使用ORB分区提取分形编码。高通组件,执行下列系数分类程序(24]。让是米th部分波段;我们表示的小波系数并通过的柱状图。在从最大的开始和移动的尾巴分布(见图7),两个阈值确定,,。

这些阈值确定小波系数构成的活跃区,也就是说,。换句话说,一个活跃的区域是由这些系数位于分布的尾巴被上述阈值。分类过程后,一个二进制数值面具,表明积极的位置区部分波段内的系数,提取。这些系数,不属于一个活跃的区域被丢弃,而系数是ORB分区,然后分形编码。的参数是独一无二的部分波段并控制加速,,另一方面,分形编码过程的准确性;更高的值对应更高的加速因素,而且降低最终的视觉质量。在解码阶段OSO / OCO过滤应用独立部分波段。一个额外的优势方面的节省时间的小波分析的“并行”的整个过程,增加速度在多线程环境中。

在解码时,应用逆过程,分形进行缩放。提取的分形编码是解决独立以来,在解码过程中可以独立执行扩张以及每个维度(19]。

一个三维(即。,spatial and temporal) expansion of the active object and two-dimensional spatial zoom (i.e., frames of bigger size) of the background are performed. After the inverse wavelet transformation, an OSO/OCO filtering is performed on the background/active object, respectively. Combined ORB code and OSO/OCO filtering enhance visual quality performance of fractal, by coding reducing blocking artifacts generated by the block based nature of the IFS approach. Finally, an active scene merging and a packets merging processes are applied to release the desired output video sequence.

4所示。实验结果

我们测试了该方法的有效性通过比较获得的结果实现了这些,在同样的约束(即。,应用相同的慢动作因素)帧复制和经典插值技术。五个高清电视测试序列在10秒镜头1280水平像素和720年垂直像素(行),逐步扫描在50帧/秒(即720 p / 50),用于实验测试。这些序列是免费在[25]。序列命名CrowdRun、ParkJoy DucksTakeOff IntoTree,OldTownCross。这些序列的一个快照如图8。前三个序列被归类为“困难”问题编码复杂度而IntoTree和OldTownCross被归类为“简单”。

(一)

(b)

框架的广播HDTV、测量质量达到我们参考视频质量评估描述(26)和正式的(27]。这,连续动作的感知人类的视觉能力的表现复杂功能,眼睛和大脑的特点的代表。当面对一个序列的图像在一个适当的频繁的更新率,大脑中间图像篡改,观察者主观似乎看到连续动作,在现实中并不存在。视频显示,急动被定义为认知,人类的视觉能力,最初的连续动作的序列不同的“快照”(27]。通常,痉挛发生在视频场景中的移动物体的位置不够迅速更新。这可能是一个主要指数表现不佳的一个慢动作算法。更一般来说,错误的编码生成的总误差运动物体的视频序列的代表对象的空间扭曲和不正确的定位。在[27类的全参考质量量度测量端到端视频性能特性和参数。特别是,(27)定义了一个框架,用于测量这些参数对编码器引入的失真敏感,数字频道,或解码器。文献[27)是基于一个特殊的模型,称为梯度模型。模型的主要概念是扭曲的量化使用时空梯度,或斜坡上,输入和输出的视频序列。这些梯度代表瞬时变化的像素值在时间和空间。我们可以渐变为三个不同的类型进行分类,对于视频质量测量已被证明是有用的。

(我)在水平方向上的空间信息。(2)垂直方向的空间信息。(3)的时间信息。

特性,或特定的特性与单个视频帧,提取量的时空信息。提取的特征量化的基本感知属性等视频信号在空间和时间上的细节。一个标量特性是一个数量的信息,评估每个视频帧。国际电信联盟推荐(27)将标量特征划分为两个主要团体:基于统计数据的空间梯度图像像素和附近的基于时间变化的统计图像像素。前特性指标的数量和类型的空间信息,或边缘,视频中场景,而后者是指标的数量和类型的时间信息,或在视频运动,从一帧到下一个场景。

时空梯度是非常有用的,因为他们生产措施的感知信息,或视频场景的变化。令人惊讶的是基于标量特征(即参数。,一个single quantity of information per video frame) have produced significant good correlation to subjective quality measurement (producing coefficients of correlation to subjective mean opinion score from 0.85 to 0.95) [26]。这表明所需的参考信息,从视频输入进行有意义的质量测量远小于整个视频帧。一个完整的描述的所有特性和参数27是超出了本文的范围。在下面简要总结上述特性,一个数学提供了上述特性测定(27]。

(我)模糊。全球失真对整个图像,以降低图像的边缘细节和空间。文献[20.)定义了一个失去的边缘能量测量参数模糊效应,导致亏损边缘锐度和输出图像细节的损失。这个损失很容易察觉通过比较输出图像的空间信息(SI) SI的输入图像。失去的边缘能量参数比较边缘能量的输入图像的边缘能量输出图像量化边缘能量丢失了多少。(2)瓷砖。图像的失真的特点是一个基本块编码的外观结构。文献[27)定义了一个高压non-HV边缘能量差参数量化的瓷砖障碍。相比模糊导致丢失边缘能量,瓷砖创造虚假的水平和垂直边缘。通过分析空间信息(SI)的函数角度,瓷砖的效果可以分开的模糊效果。(3)错误块。形式的块失真,图像中的一个或多个块当前或以前的场景,没有相似性常常与相邻块反差极大。文献[27)定义了一个额外的运动能量参数检测和量化误差的知觉影响块。突然出现的错误块产生一个相对大量的添加时间信息。所以说运动能量参数对时间信息进行比较(TI)的连续输入帧对应的TI输出帧。(iv)急动。运动最初是光滑连续被认为是一系列不同的快照。文献[27)定义了一个失去了运动的能量和重复帧参数测量百分比急动障碍。百分比参数重复帧数的百分比TI重复样本;而失去了运动的能量参数集的比例平均失去运动(即。,sums the vertical distances from the input samples to the corresponding repeated output samples, where these distances are normalised by the input before summing).

提取我们部署视频质量度量的性能指标(VQM)软件开发的它的视频质量研究项目(28和符合27]。所有测试进行不同的测试序列产生类似的结果被证明是依赖的自然时间活动序列。为了简洁,以下是唯一获得的结果报道CrowdRun和IntoTree视频序列。CrowdRun是一个序列呈现很多活动因为一半的框架是由一个快速跑步人群。IntoTree是一个序列呈现活动比吗CrowdRun。结果报道4秒的窗口对应的200帧的完整的视频序列。

数据9,10,11,12实验结果显示CrowdRun序列。上面提到的功能是计算的方法(分形扩张)和帧复制和花键立方插值法。慢镜头因素纳入考试,,。结果显示了优势的一般概述使用提出了更高的慢镜头技术因素。图9表明CrowdRun序列的模糊失真慢镜头几乎是相同的所有方法。随着慢动作比率增加三种技术之间的差异越来越明显。该方法的模糊失真是低于其他,这结果是更加明显缓慢的运动。图10比较了瓷砖特性。像预期的帧复制了最高瓷砖而帧插值优越的方法慢动作的因素,反之亦然慢动作的因素。图11比较了错误块的特性。帧复制导致更多错误块分形插值和帧插值结果错误块超过分形扩张。图12急动特性显示了结果。在和帧插值和分形扩张同时具有可比性分形扩张痉挛低于帧插值。

使用复合运动和部分波段分析在分形编码和再次OSO滤波的平滑性能允许的方法实现高性能的流利的运动流在慢动作演示的视频序列。然而,对于所有的比较方法值得注意的是绝对的降解性能的高和快速运动的场景(例如,CrowdRun)。虽然这是众所周知的经典框架副本和三次样条插值,在这种情况下该算法的弱点可以合理的使用相当简单的方法来估计序列内的移动物体。事实上,更复杂的计划,保证优越的精度对运动估计可以应用,这将是一个未来的任务是追求在未来的研究。

图13显示了一个地区的一个慢动作ParkJoy视频的帧序列。左边的图像是由分形插值而图像编码速度由三次样条曲线插值帧编码。很明显,这两个图像质量与原参考系不可比。然而帧插值产生的畸变是客观比分形插值帧。

(一)

(b)

进一步实验会话建立了比较基准方法的性能峰值信噪比(PSNR)。虽然已经证明没有强烈相关的主观质量感知的视频质量评估(19,20.],PSNR值是被广泛接受的全部参考客观度量的图像和视频编码。

PSNR值进行如下实验测试。测试序列已经被丢弃帧子样品时间。丢失的帧被生成的框架复制品,三次样条,分形插值。psnr值在生成帧计算。数据14和15显示的结果IntoTree和CrowdRun扩大与慢动作的因素。所有的方法相比,平均PSNR和实现IntoTree高于平均PSNR实现CrowdRun由于相对较低的运动存在IntoTree。更深层的分析显示,在大多数情况下,一个流行的方法在其他以确认结果的主观和客观ITU-R推荐BT.1683-based之前的分析。

5。结论

在这工作,我们提出了一个替代技术结合分形理论和小波分解实现空间缩放和高清数字彩色视频序列的慢动作回放,可以集成译码器的机顶盒不考虑特定的广播技术。慢镜头回放和空间缩放特效用于数字视频渲染。目前,大多数技术进行数字空间缩放和慢动作基于插值放大原始图片的大小和生成额外的中间帧。在我们的方法快速场景变化检测,活跃现场检测、分形小波子带分析,和颜色编码基于挖土机的距离(EMD)方法用于减少计算负荷,提高视觉质量。实验表明,该方案实现更好的结果相比,在整体视觉质量的最先进的技术。该方法视频呈现符合数字电视系统的新趋势收敛和服务。

引用

郑伊健,a . m . Tekalp和r . Mehrotra“自动足球视频分析和总结,IEEE图像处理,12卷,不。7,796 - 807年,2003页。视图:出版商的网站|谷歌学术搜索
h·潘,p . van发现和m . i Sezan”检测的慢动作回放片段在体育视频亮点代”学报IEEE国际会议音响、演讲和信号处理(ICASSP ' 01),3卷,第1652 - 1649页,盐湖城的犹他州,美国,2001年5月。视图:谷歌学术搜索
t·陈,“自适应时间插值使用双向运动估计和补偿,”学报IEEE国际会议上图像处理(ICIP ' 02),卷2,页313 - 316,罗切斯特,纽约,美国,2002年9月。视图:谷歌学术搜索
k . Hilman h·w·公园,y金,“使用motion-compensated帧频转换为3:2下拉的校正工件在视频序列,”IEEE电路和系统视频技术,10卷,不。6,869 - 877年,2000页。视图:出版商的网站|谷歌学术搜索
m . e . al mualla”运动领域内插帧速率转换”IEEE国际研讨会电路与系统学报》上,卷2,页652 - 655,曼谷,泰国,2003年5月。视图:谷歌学术搜索
c . w . Tang和o . c .盟”,比较基于块和基于像素时间插值用于视频编码,”学报IEEE国际研讨会在ISCAS’98电路与系统()4卷,第125 - 122页,蒙特利,加州,美国,1998年5月。视图:谷歌学术搜索
d . d .谨慎地、m . Murroni和g·索罗“慢镜头回放视频序列的使用分形缩放,”IEEE消费类电子产品,51卷,不。1,第111 - 103页,2005。视图:出版商的网站|谷歌学术搜索
m·f·巴恩斯利,美国Demko迭代函数系统和全球构造分形,“伦敦英国皇家学会学报》系列,卷399,不。1817年,第275 - 243页,1985年。视图:谷歌学术搜索
a . e . Jacquin“基于分形理论的图像编码迭代收缩图像转换,“IEEE图像处理,1卷,不。1,18 - 30,1992页。视图:谷歌学术搜索
m . Polvere和m . Nappi”加速分形图像编码:比较的方法,”IEEE图像处理,9卷,不。6,1002 - 1009年,2000页。视图:出版商的网站|谷歌学术搜索
s . g . Mallat”多分辨率信号分解的一个理论:小波表示,“IEEE模式分析与机器智能,11卷,不。7,674 - 693年,1989页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
e . Reusens”重叠图像自适应分割编码基于迭代函数系统的理论,”IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP ' 94)5卷,第572 - 569页,1994年4月澳大利亚阿德莱德。视图:出版商的网站|谷歌学术搜索
b . Hurtgen、p·摩尔和s . f .西蒙“彩色图像的分形变换编码”视觉通讯和图像处理卷,2308学报学报芝加哥,页1683 - 1691年,生病,美国,1994年9月。视图:谷歌学术搜索
y张和L.-M。阿宝,“分形压缩彩色图像使用向量变形测量,”学报IEEE国际会议上图像处理(ICIP ' 95),3卷,页276 - 279,华盛顿特区,1995年10月美国。视图:谷歌学术搜索
i m . Danciu j·c·哈特,“分形压缩的颜色 $l^{*} {一个}^{*} b^{*}$ 在均匀颜色空间。程序数据压缩会议(DCC的98)美国犹他州,p。540年,雪鸟,1998年3 - 4月。视图:谷歌学术搜索
科恩和l . Guibas“挖土机的距离变换集”学报》第七届IEEE计算机视觉国际会议(99年ICCV”),卷2,页1076 - 1083,克基拉岛,希腊,1999年9月。视图:谷歌学术搜索
l . Atzori d d .谨慎地,c . Perra”自动场景变化检测在未压缩的视频序列,”诉讼的伊特鲁里亚研讨会数字通信(IWDC ' 02)2002年9月,意大利卡普里岛。视图:谷歌学术搜索
l . j . Guibas y Rubner, c .预“挖土机的距离作为度量图像retrivial”技术。众议员斯坦- cs - tn - 98 - 86,斯坦福大学计算机科学系,斯坦福,加州,美国,1998年。视图:谷歌学术搜索
波里道利和J.-L。Dugelay,“缩放使用迭代函数系统”《北约ASI分形图像编码和分析会议1995年7月,挪威特隆赫姆。视图:谷歌学术搜索
j·b·MacQueen“一些分类方法和多变量分析观察,”第五伯克利分校学报》研讨会上数理统计和概率,1卷,页281 - 297,加州大学出版社,1967年伯克利,加州,美国。视图:谷歌学术搜索
s . t . Rachev“Monge-Kantorovich质量转移应用程序及其随机问题,“概率论及其应用卷,29号4、647 - 676年,1987页。视图:谷歌学术搜索
k . Barthel和t . Voye“三维分形视频编码”学报IEEE国际会议上图像处理(ICIP ' 95),3卷,页260 - 263,华盛顿特区,1995年10月美国。视图:谷歌学术搜索
o . Nobuyuki”,从灰度直方图的阈值选择方法,”IEEE系统,人,控制论,9卷,不。1,第66 - 62页,1979。视图:谷歌学术搜索
m .是安次和d . d .谨慎地”,图像数据压缩的自适应矢量量化小波系数分类,”学报第六届环太平洋地区IEEE会议通信、计算机和信号处理,1卷,页330 - 333,维多利亚,加拿大,1997年8月。视图:谷歌学术搜索
ftp://vqeg.its.bldrdoc.gov/HDTV/SVT_MultiFormat。
美国狼”,测量数字视频系统的端到端性能。”IEEE广播,43卷,不。3、320 - 328年,1997页。视图:谷歌学术搜索
ITU-R建议,“客观感知视频质量测量技术标准定义数字广播电视的一个完整的参考,”科技,众议员BT.1683国际电信联盟,2004年瑞士,日内瓦。视图:谷歌学术搜索
视频质量的研究项目,http://www.its.bldrdoc.gov/n3/video/。

国际期刊的数字多媒体广播

数字电视系统和服务的融合

文摘