实时自适应基于内容的多媒体流的同步

文摘

传统的多媒体应用是基于时间同步方案国米,intrastreams之间的关系。这些计划不提供良好的同步的随机延迟。作为一个解决方案,本文提出了一种自适应基于内容的同步方案,同步多媒体流的内容除了占时间。这种同步方法是基于这一事实有两个流取样及时关闭并不总是意味着这些流内容。该方案主要贡献是基于内容的音频和视频流的同步。第二个贡献是适应基于内容的帧速率决定。远程测试自适应基于内容和自适应基于时间同步算法在贝鲁特美国大学和密歇根州立大学表明,该方法优于传统的同步方法。客观和主观评价接收的视频和音频质量证明,基于内容的方案提供了更好的同步和整体质量的多媒体流。虽然展示了使用视频会议应用程序,该方法可以应用于任何多媒体流包括非传统的称为supermedia像控制信号,触觉等感官测量。此外,该方法可以应用于同步两个以上同时流。

1。介绍

三种类型的应用程序是公认的在互联网上:异步、同步和互动同步。异步应用程序不涉及同步传输的媒体流,如文件传输和浏览网页。这样的应用程序不需要严格的时间从网络。在同步应用程序,比如视频查看、多个媒体流(音频和视频)同时被转移。在这种类型的应用程序中,同步显示所需的媒体流。然而,由于没有参与互动,这些应用程序不执行严格的延迟要求在网络上。在这种情况下,应用程序可以开始之前缓冲数据渲染音频和视频屏蔽网络延迟。

至于交互式同步应用程序,其中包括实时应用程序与一个交互式视频会议和网络游戏等性质。还包括使用“supermedia”等非传统应用程序远程手术和遥控操作1,2]。由于他们的互动自然这些应用程序只能接受有限缓冲的数据呈现之前媒体。因此,其质量受当操作在互联网上,和他们的性能是长距离使用时明显退化。

质量退化的原因之一是缺乏不同媒体之间的同步/ supermedia流(1,3]。为了说明,考虑数字音频和视频的情况。音频样本和对应的视频帧应该在特定的时间间隔提供正确的报告。保护这些时间关系被称为基于时间的同步或唇同步3,4]。唇的主要挑战是同步运动观测到的声音被听到,因为互联网展品延误,在本质上是随机的。事实上,主要的挑战是不存在延迟,但延迟变化,称为抖动。所以每个多媒体流沟通通过互联网将面临不同的延迟,这将导致失调的媒体流在接收端。著名的自然的文章,McGurk和麦克唐纳在1976年表示,听到声音和查看嘴唇跟踪另一个声音会导致感知不同的声音(三分之一5,6]。作者在1]讨论了supermedia流同步的重要性。因此,方法应该被应用到这些流重新同步,否则感知质量的退化了。

传统的基于同步方案时间的关系的国际米兰,intrastreams。然而,这些方案并不总是提供最好的解决方案。同步多媒体流基于时间关系本身没有提供最好的同步质量随机延迟的存在条件。作为解决方案,提高产品质量,基于内容的提出了同步。这种方法并不完全忽视时间流之间的关系。然而,根据他们的世代时间不是同步流,他们基于同步时生成和它们包含什么。这种同步方法是基于这一事实有两个流取样及时关闭并不总是意味着这些流内容接近,反之亦然。

为了说明这一点,考虑数据1和2代表实时收集的数据从一个视频会议会议。图1代表了音频变化率与时间,人物2显示了视频的速度与时间的变化。两个例子所示。在第一种情况下,标记(1),人说话但不动;因此,的变化率音频高而的变化率视频非常低。在第二种情况下,标签(2),人的流动性增加,说话;因此,音频和视频的变化率都是显著的。

在第一种情况下,音频流到遥遥领先的视频关于时间。传统的同步方案基于时间关系只会把视频帧被认为是相对“老。“但根据图2,视频变动率很低。因此,从内容的角度来看,它是带着“新鲜”的信息,不应丢弃。第二例显示了相反的场景,音频和视频帧的时间较近,所以基于时间同步方案呈现视频帧,而图2显示视频展示了非常明显的变化,因此,根据内容,它承载着“老”数据,应该丢弃。基于时间的同步方案后会导致不准确的结果,因为它没有考虑内容的变化。

除了正确的同步,重要的是要注意,视频帧速率有很大影响多媒体应用的质量。显然,视频帧率越高质量越好。在基于时间和基于内容的算法,把视频帧消耗资源而不会增加用户感知到的帧速率。因此,最好是避免传输的视频帧可能会下降。这可能是使用一个完成自适应帧率。因此,需要实时自适应基于内容的多媒体流的同步申请的目的提供更好的同步,从而提供更好的质量。本文提出的方法可以应用于任何数量的并发流和非传统媒体称为supermedia。

本文组织如下。部分2提出了一个文献回顾不同的相关工作。节3基于内容的同步和自适应方案详细和分析。部分4介绍了系统实现和解释参数用来评估算法。部分5研究和比较结果从基于内容的同步算法应用到这些得到的基于时间的计划。最后,部分6总结论文的总结和对未来工作的建议。

2。文献综述

文献综述进行了三类:基于时间的音频和视频同步,基于内容的同步和基于内容的检索。

大多数多媒体同步算法是基于音频和视频流之间的时序关系。提出的方法之一是主从时钟,时间戳之间的交换,所有住宅的时钟必须同步以太网叫做“大师的一个时钟。“在这种方法中,子钟将同步主将同步自己的主人。这种同步链继续直到达到大师(7]。第二个方法提出,每个对象都包含时间戳的生成时间由当地采样时钟(SC)和一组播出时钟(poc)——为每个传入的流水槽提供。在这种方法中,一种算法被用来校准播出时钟(poc),负责管理多媒体流的演讲(8]。这些同步机制基于时间关系的局限性是,他们不提供适当的同步不同的延迟和抖动条件下。因此,基于时间的同步并不是最好的选择通过互联网交互的应用程序。

提供多媒体同步的另一种方法是基于内容的同步。只有少数在文献中提出了基于内容的方法。Information-hiding-based同步嵌入音频数据在相应的视频帧使用高比特率信息隐藏技术,和音频数据提取视频帧和玩它的接收器(9]。尽管这种方法保证了可靠的同步音频和视频,它需要大量的处理发送方一侧(嵌入音频视频帧中的数据)和接收端(从视频中提取音频数据帧)。因此,这种方法可用于同步应用程序,但它不适合实时交互式应用程序所需的严格的时间限制。提出了一种不同的基于内容的多媒体同步方案的媒体流等级由小对象,根据他们的内容、逻辑结构和同步是通过推导逻辑单元之间的时间关系的媒体对象(10]。在这种方法中,音频/视频同步展示大量的时间和涉及的豁免,所以交互式应用程序是不可行的。基于内容的同步的概念supermedia流了(1,2]。这种技术主要是针对遥操作的上下文中讨论了应用程序和控制。我们所知,本文中给出的工作是第一个使用的概念内容的同步实时交互式多媒体应用程序。

其他方法,而不是直接解决同步但有关基于内容的多媒体处理,基于内容的检索,使用多媒体表示的内容和索引数据和content-aware上演的流视频。媒体的内容在数据库中提取并描述多维特征向量数据集(描述符),构成特征。来检索所需的数据,用户提交的查询示例检索系统。然后系统代表了这些例子与特征向量。的距离(即。,similarities) between the feature vectors of the query example and those of the media in the feature dataset are then computed and ranked. Retrieval is conducted by applying an indexing scheme to provide an efficient way to search the media database. Finally, the system ranks the search results and then returns the top search results which are the most similar to the query examples [11]。这种方法通过互联网不能使用,因为它需要边界和限制的端到端延迟和/或抖动,几乎是不可能的。也有方案可用于快速相似性的索引和检索图像和视频数据库在分布式环境中。这样的计划是基于检测镜头使用MPEG宏模块的时序分布变化,使用相同的直流系数的算法恢复图像,使用关系之间形成图像,文本,并多次检索返回搜索图像(12- - - - - -14]。此外,还有论文提出的模型,确定实时的基于内容分析的及时性和准确性的要求(15]。因为许多解决方案需要额外处理,分类媒体对象使用XML已被建议作为替代轻量级的解决方案(16,17]。然而,所有上面提到的方法需要事先分类和/或大量的处理。由于这些原因,他们不适合的同步实时交互的应用程序。关于content-aware上演的流视频,还有大量的工作。自适应content-aware上演的视频介绍了通过无线网络在18]。Content-aware下降的视频数据包在拥堵提出了(19]。方法讨论了在这一领域相关管理一个流和不同流之间的同步。

3所示。同步和适应算法

3.1。基于内容的同步算法

开发的基于内容的同步算法演示了使用视频会议应用程序与音频和视频流。然而,这并不限制算法从适应其他类型或组合的媒体流。被选出的音频和视频的原因是他们更常用,同步可以直观地评价和质量。基于内容的同步算法的流程图如图3。

从设计的角度来看,值得注意的是,视频会议应用程序通常使用缓冲(固定或自适应)到达媒体领域几十毫秒。这通常是用来允许更大的视频帧到达相应的音频片段和减少抖动的影响。无论使用的缓冲机制,提出技术应用于媒体片段被列中移除后从缓冲延迟。

开发的基于内容的同步算法采用会计决策的内容除了时间。在音频流算法被认为是主流。这意味着音频将扮演用户只要是为了到达,无论状态的视频。音频被选为主流,原因有两个。第一个原因是因为音频样本通常小于视频帧;因此,通常前到达他们的视频音频样本。其次,人类对音频质量的退化比视频更敏感(20.]。因此,播放音频流只要音频样本比以前更新的样本。至于视频帧,决策是基于内容和时间。

首先,该算法检查更新的视频帧被呈现,如果是框架立即下降,没有理由在视频流退后一步。否则,时间戳的视频与音频播放与确定是哪一个。让正在考虑视频帧的时间戳的渲染,让是音频段的时间戳在平行。通常,由于视频帧比音频样本,音频样本到达之前,视频帧(),但出于完整性的考虑视频帧的情况下提前相应的音频样本()必须被考虑。如果音频视频前(),该算法检查通过计算不同是多么远的时间戳,。在这里,存在两种情况:在第一种情况下,如果,Th配置阈值指示视频帧老得让人无法接受,视频平均变化率因为这个框架是抽样检查。显然这需要知识框架,还没有到达。这就是为什么每个音频样本需要携带视频平均变化率(中定义部分3.1。2)是采样的时候,“音频嵌入”的情况下、音频嵌入给了视频流的洞察未来的状态。如果这个值小于一个阈值,Th_音频,它将知道当这些之间的视频是慢慢地改变音频和视频采样。因此,视频帧被认为是仍有“新鲜”的信息,应该显示给用户。否则,帧被认为是“旧”的信息,它被删除。

在第二种情况下,时差太大,,视频帧被认为是远远比音频样本。通常情况下,帧将被丢弃而不进行进一步的决策(忽略它的内容)。但如果视频的变化率是非常低的,因此,这个视频帧仍持有“新鲜”数据,即使大于阈值?将视频帧而不是呈现在这种情况下会降低同步质量。由于这个原因,该算法建议不删除视频帧之前检查它的内容,即使音频和视频的时差是相当高的。所以对于大型音频和视频帧之间的时间差异,该算法滴视频帧几乎然后检查。几乎把一个视频帧意味着计算帧下降,也就是说,增加了帧的比例,但没有放弃它在现实中。这将影响的行为在控制帧速率自适应算法将在稍后见。决定放弃视频帧或呈现它之前不会采取研究视频的速度变化。视频帧不会被丢弃在现实中如果内容的差异是可以接受的;只是如果下降。一个稍微不同的决策过程必须遵循在未来不太可能事件视频到音频()。由于这个框架的内容展示了将来会发生的事情,它不能被删除。放弃它可能允许一个音频样本没有播放相应的视频帧,从而减少同步质量。由于音频流主流,不需要检查它是否太老向用户呈现,因为它是不管视频流的状态。相反,该算法看着视频流的内容和变化有多快。在前面的情况下,认为是嵌入在音频数据包到达自音频视频的前面。在这种情况下,该算法不能使用这个值自前的视频音频被呈现。的在音频数据包提供视频流的状态信息过去,不能用于同步做决定。该算法考虑了嵌入到视频帧本身,“视频嵌入”。如果流改变了超过一个阈值,Th_视频,该算法框架。持有一个框架将保持在内存中,直到一个音频包接近它及时到达点有关帧的算法作出决定。否则,流没有改变显著,适当的向用户呈现的框架。

3.1.1。时间阈值“Th”

正如前面所讨论的,传统的同步方法只考虑的时间区别样品被呈现给用户。例如,给定一个音频样本和一个视频帧的时间戳和分别框架将呈现在一起如果差异低于某个阈值。最好的同步质量可能与这样一个算法,阈值应小于人类检测框架的水平是不同步的。这一水平被发现在130 ms (20.]。虽然这的确掉帧,太老了,所以不加选择地。它忽略了内容或行为的流。

出于这个原因,在基于内容的同步、帧的门槛被标记为要显示太老,Th,剩下高于传统的基于时间同步算法:500 ms在基于内容和基于时间的150 ms。这允许基于内容的算法基于内容的决策变化超过时间和几乎掉帧,即改变帧率,当他们真的“很老了。“这阈值可以修改根据主流定义在一个特定的应用程序,它也可以使自适应本身取决于网络条件。文学包含人力容忍延迟重要研究多媒体流(20.]。

3.1.2。视频的速度变化””

与MPEG视频编码,在两个连续帧间运动估计的一个概念是基于[21]。MPEG完成了运动估计的搜索算法决定的和绝对的差异(便悄然)为每个宏模块在搜索区域,在MPEG宏模块可以被认为是部分占整个框架。最低的聚积科技悲伤的值决定是最接近的匹配。例如,如果两个宏模块之间的最小悲伤的值是0,那么块都是一样的。因为提高最低伤心值意味着更多的变化,这些值可以用来定量估计的总量发生变化,从一个框架。换句话说,最小的和悲伤的值给出了一个估计的总帧之间的变化,并把这个数字在时差变化的速度。因此, 在哪里是时差, 在哪里,像素空间坐标和吗,相邻图像帧。

使用估计视频变化率将瞬时帧之间变化,但什么是感兴趣的是变化的趋势,视频的经历了。因此,该算法使用了视频的平均变化率,,估计视频的平均变化率之间的音频和视频采样时。

图4展示了一个示例视频的平均变化率()计算当音频的视频。当音频到来前的视频,音频嵌入应计算。这是由包含变化的瞬时利率保持表的视频和相应的音频。当视频帧到达时,平均的年代之间和计算。类似的方法是当视频音频,因此嵌入式的视频应计算。在这种情况下的瞬时变化率视频和相应的视频应该维护表中时间戳。当音频帧到达时,平均的年代之间和从表中计算。

值得注意的是,选择这个定义的变化率最小需要额外的处理便悄然已经被MPEG编码器计算,该方法只是从编码器和提取这些值计算相应的平均音频和视频采样时之间。媒体流的变化很明显,这个定义可以修改视频根据编码或即使使用不同的媒体流。注意变化的速度在MPEG视频也已在文献中定义为一个函数的运动矢量21]。

3.1.3。视频变化率阈值:“Th_音频”和“Th_视频”

表示允许内容变化的阈值,_视频和Th_视频,是重要的同步算法的整体性能。如果过低阈值选择,帧经常也会下降。如果太高,大多数框架将呈现,不管他们的时间与音频流的关系。这两种情况会导致质量的退化。因此,选择一个合适的阈值是至关重要的。使用一个常数阈值似乎是可取的,但仔细观察问题的同步显示,情况并非如此。自同步的终极目标是渲染帧以这样一种方式,他们准确地描述记录在传送机,就需要更加宽容的内容变化帧在时间接近音频样本。例如,考虑一个案件平均收益率的差异80毫秒之间呈现视频及其对应的音频流。回忆,同步的目的是准确地描述记录流,它变得明显,如果一个框架和一个样本有一个时间戳的差异低于平均水平,他们比通常遇到靠的太近。这表明,呈现他们应该支持。 Consider the opposite scenario, where a frame and a sample are being considered for rendering with a timestamp difference larger than the average of 80 ms. Rendering these frames together would be less desirable since they are further apart than average, which results in a lower quality. To allow the synchronization algorithm to adapt in situations like these, the thresholds described above are adjusted in real time. The above discussion suggests an inverse relationship between the threshold and the timestamp differences. Smaller timestamp differences should allow more content variation, while larger timestamp differences than average should allow less content variation. Thus, the threshold is calculated using 在哪里是实际的时间戳和音频样本之间的差异计算视频帧,平均时间戳的区别,平均含量变化差异。这导致所需的行为:当小于允许更多的内容变化,当大于少内容变化是允许的。

可以设置为一个恒定值,但不允许同步条件适应网络环境。被初始化为50毫秒的视频和音频时97 ms相反的场景。从计算这些值选择的音频和视频的平均时间区别十五视频场景和相应计算平均: 将动态更新使用以下公式: 在哪里和瞬时时间音频和视频帧之间的区别。这种动态行为允许取决于瞬时时间区别音频和视频,使决策更加准确和真实和应用程序更加依赖目前的网络环境。

的选择将取决于什么被认为是可接受的内容平均变异率。选择适当的价值,二十播放视频场景中运动活动,和平均含量变化差异计算为每个这些视频。那么相应的平均值计算。选择视频场景包括戏剧部分,包括几人站,步行,并运行。这些场景被认为有一个适度的运动活动(22]: 下面这种方法的价值1050年被发现。这使得算法更激进的快速视频播放时,也就是说,当视频帧的内容变化差异是很高的。视频帧在这种情况下如果瞬时时间呈现差异小于的平均时间不同吗内容变化时,而该算法更为宽容的区别是低的低运动活动视频,允许更大的音频和视频帧之间的时间差异。

3.2。自适应算法

图5介绍了自适应算法的流程图接收设备,考虑到从相机捕捉帧速率或其他设备,是视频帧的速度正在从网络接收,是帧的速度正在下降,然后呢是这个视频帧速率几乎下降了。

同步多媒体流时,统计数据保存与流的状态和质量。这些质量统计数据是各种帧率:,,,。当滴水帧速率或虚拟帧率超过某一值,该算法得出结论:帧被下降的速度不可接受,因此,发送端可以意识到这个事实。

关键参数在接收端自适应帧速率算法的性能是可接受的帧率下降。如果有太多的框架允许下降,自适应帧速率算法的影响将会无效,因为发送率从未降至允许远程主机“迎头赶上。允许“如果太少掉帧,帧的传输端会通知太频繁,这将迫使帧速率保持不必要的低。然而,决策基于帧率下降可能会误导人。考虑一个应用程序从网络接收视频帧每秒的速度大约两()。在这种情况下,下降甚至一帧每秒可能是灾难性的感知质量的应用程序,因为一半的视频数据传输正在下降。现在,考虑另一个应用程序接收视频帧的速度约每秒25 ()。在这种情况下,把一帧每秒会比之前更可接受的情况下,因为96%的视频数据传输被显示出来。这暗示的门槛考虑率下降,是不可接受的,是更适当的比为一个整数值表示为一个百分比。因此,决定是否应该做太多的框架正在下降,而占帧接收率,。这是通过考虑下降的百分比帧/收到的帧,的比例,以及几乎掉帧/收到的帧,。如果这个比例高于某个阈值,,不可接受的帧比例正在下降,发射端是提醒。在这个实现中,被选为50%。之间的比例是一个妥协的选择过于激进,太被动,可以选择不同的滴水和虚拟比率。

自适应算法在送机类似于基于源代码的速率控制算法基于加法和乘法增加减少(AIMD)方法。AIMD如下工作。

如果 其他的 在哪里丢包率,是丢包率的阈值,源发送速率,空气是添加剂增加率,和是发送者的最大速度和最小速率,分别和是乘法减少的因素(23]。以类似的方式,自适应算法是呈现在图6。曾提醒,当前帧速率是不可接受的,传输方面降低其帧速率用乘法或线性,为了避免发送帧没有被显示出来。帧率是用乘法时减少到一半的下降率高是一个结果不同含量高音频和视频帧之间的变化,也就是说,当,而它是线性下降了1帧/秒时,发送者被告知,几乎放弃了视频帧的数量高于阈值,即当。这使得算法更积极地的情况高含量比发生变化的时候音频和视频帧之间的区别。

最终,减少发送帧率允许接收机器下降更少的帧。发送方可以降低其捕获和发送速率,为了避免发送帧没有被显示出来。这给接收机器时间迎头赶上。”Contributing to the reduction in dropped frame rate is improvement in network conditions and/or a reduction in the rate of content change. Once the dropped frame rate is reduced, it becomes desirable to increase the frame rate to take advantage of the improving conditions. In the developed algorithm, speeding up the frame rate is a passive action where the receiving side does not initiate an increase in frame rate by sending a packet. Instead, the sending side monitors how long it has been since it has received a request to slow down. If it has been long enough between requests to slow down, the frame rate is automatically increased by 1 fps (linear increase). An upper bound for the frame rate,,可以设置的上行容量有限。实验的上界是有限的相机的最大捕获率25 fps。在开发应用程序时,时间间隔发送端将等待假设它是安全的之前开始增加帧率设置为5秒。这个值是另一个参数有助于配置算法的行为。如果这个等待时间设置为一个较小的值,将更积极地控制帧速率加快帧速率比如果值设置为一个更大的时间间隔。这种自适应算法的行为类似于速度控制在TCP / IP网络协议,这已经被证明是非常稳定和健壮。注意,从接收方发送回显式通知降低率降低反馈开销。否则,接收者必须不断反馈状态信息发送方发送方为了做出决定。有关适应性行为的贡献的内容纳入决策过程通过使用虚拟概念。

4所示。系统实现

系统评估使用远程测试之间进行的贝鲁特美国大学(AUB),黎巴嫩,美国密歇根州立大学(密歇根州立大学)。远程测试设置如图7。注意,机器在AUB连接到互联网使用无线宽带设置64 kbps的上行带宽和下行带宽的256 kbps。这使得长距离的评估算法通过互联网,在相对有限的带宽条件下。测试的目的,抓帧器用于捕获视频帧从一个DVD播放器安装在个人电脑。这允许玩同样的视频场景基于时间和基于内容的算法,因此执行一致的和重复的测试结果在一个公平的比较这两个方案。

远程测试了在不同强度的运动活动的视频片段。视频活动水平通常被划分为低,中等和高。低的例子活动内容涉及talking heads锚或采访仍和低运动背景。适度活动内容可能是一个戏剧,教育,或新闻现场,仍然站或人,散步或跑步,而高活动内容可能是一个舞蹈或高的音乐运动和照明变化(22]。

视频部分较低、中、高运动进行了测试比较基于内容的同步算法在不同内容的行为改变的变化。在每个远程测试,往返延迟(高压)记录。以下评估:平均时间戳的差异导致呈现放的视频帧和平均含量差异导致帧的渲染放。接收的视频进行客观和主观评价为了比较视频质量。目的方法目标数学估计损伤介绍视频,而主观评价有助于评级由人类样本的统计分析。这些方法使用“视频质量工作室0.32”应用软件。“视频质量Studio 0.32”软件使用的均方根误差(RMSE)基础指标(信噪比或PSNR)和基于离散余弦变换(DCT)——视频质量指标(VQM)客观比较的视频质量。RMSE-based度量的软件计算两帧之间的区别。它应用于数字视频每一帧的平均的结果。然后软件计算peak-signal-to-noise比(PSNR)值为每个,,框架如下所示(见[24): 这个方程表明,PSNR值较高的RMSE值低。获得更高质量的视频,当原始视频序列之间的差异和受损较小的视频序列。

人类的视觉和视觉感知是复杂的机制。视频质量的定义随我们如何感知颜色和运动。出于这个原因,客观视频质量指标计算失真,像RMSE,可能无法与人类的主观知觉,因为他们不考虑人类视觉感知的时空属性。基于dct VQM是一个另类的视频质量评价方法,考虑人类视觉感知的属性。事实上,眼睛对特殊时间模式与高空间和时间频率降低。基于这一事实,高空间和时间信息可以用更少的精确自眼睛不是很敏感信息的损失。该属性利用DCT量化(25]。

主观评价使用意味着执行意见分数(MOS)方法。它提供了一个数值的感知质量后接受媒体传播。MOS表示为一个数字范围(1)(5),(1)是最低的视听传播的质量和(5)是最高品质认知度。平均的结果所产生的金属氧化物半导体是一套标准,主观测试,许多人(15在我们的例子中)率的音频和视频质量给定的场景。每个人需要给评级使用评级方案见表1。


金属氧化物半导体	质量	障碍

(5)	优秀的	听不清
(4)	好	可察觉的但不讨厌
(3)	公平	有点烦人
(2)	可怜的	烦人的
(1)	坏	很烦人的

快速、温和、缓慢运动活动视频播放不同的科目使用基于时间和基于内容的同步算法。慢动作活动视频由锚用一个静态背景;适度的运动活动的现场代表两人同时走路和说话,而快速运动活动视频由几个人跳舞在改变光条件下和不同的相机像爆炸和火灾的影响。这些场景的定义已被选定基于强度的运动活动水平(所22]。每个实验对象被要求评估和记录视频她/他的意见之间的同步音频和视频和现场的总体质量。生成的MOS当时平均记录结果。

5。实验结果和分析

远程测试是使用视频会议应用程序进行修改,以支持基于内容的自适应同步。应用程序编码视频像GSM6.1 h和音频。应用UDP报头后插入一个定制的标题包括内容变化信息和时间戳。此外,为了缓冲方案或持续时间不影响或偏见的结果,实验进行了缓冲女士在0。然而,这并不排除我们的方法被用于任何形式的缓冲。显然,在实际的应用程序中基于内容的同步将必须应用与缓冲以优化整个应用程序的性能。

远程测试与不同的运动活动的视频(低、中等和高运动活动)进行了评估算法的行为内容改变时低(低活动视频),中等(中度活动视频),或高(高活动视频)。在每种情况下,相同的视频片段被用于两种算法。对于每个测试,往返延迟和损失百分比记录在测试期间通过ping远程机器。这允许检测和评估的测试期间的网络环境。表2介绍了RTD获得的平均和标准偏差在每个测试,以及包丢失的百分比。这个表提供详细的实际实验条件的函数在每个特定测试的网络条件。


同步类型	运动的活动水平	平均RTD(女士)	RTD标准差	损失百分比

内容	快	583年	666.3970	8%
时间	快	410年	149.9826	0%
内容	媒介	374年	113.1367	6%
时间	媒介	419年	139.9904	4%
内容	低	408年	138.5518	0%
时间	低	412年	159.9281	2%

获得的平均时间戳的值差异导致呈现放的视频帧和平均含量差异导致帧的渲染,基于时间和基于内容的算法都是比较表3。


同步类型	运动水平	Avg时间戳差异呈现	Avg时间戳差异下降	Avg渲染	Avg下降

内容	快	900毫秒	2203毫秒	1156年	20547年
时间	快	73毫秒	3338毫秒	1340年	1267年
内容	媒介	1495毫秒	3225毫秒	1066年	18680年
时间	媒介	70毫秒	2128毫秒	1235年	1234年
内容	低	2295毫秒	4179毫秒	996年	16516年
时间	低	62毫秒	3063毫秒	1321年	1123年

所有场景表现出相同的行为;因此,对于简单的分析将集中在快速运动的情况。表显示,基于时间同步算法,帧只下降显著倾斜时从音频。对于这个场景,平均时间戳之间的区别的音频和视频呈现发生大约是73 ms,平均时间戳区别音频和视频视频下降时大约是3338毫秒。内容不考虑基于时间同步算法。这是明显的事实的平均值的发生呈现高于发生(平均下降和平均)。这意味着许多视频帧渲染即使相应内容变化差异远远高于其他帧下降算法。这表明基于时间同步方案呈现和滴视频帧之间的时差只有比较音频和视频流,不管对应内容变化的差异。将显示在客观和主观评价,这种行为降低了同步音频和视频之间的质量,因此降低对用户提供的服务质量。

对于基于内容的同步算法,帧渲染在较低数量的内容变化比基于时间的同步方案与基于内容的算法(1156和1340年,基于时间的)。帧也放弃了更高级别的内容变化与基于内容的算法(20547和1267年,基于时间的算法)。这演示了基于内容的算法行为呈现较低的视频帧内容改变和放弃高的内容。至于时差,表显示平均时间戳的差异导致渲染(900毫秒)低于导致下降(2203毫秒)。这表明基于内容的同步算法也需要音频和视频流的时间戳区别考虑渲染和放弃的决定。此表格还显示视频帧渲染如果音频和视频流的区别是平均900 ms即使阈值决定是否使用框架太老了是500 ms。原因是在基于内容的同步,当音频和视频的时差大于阈值,视频帧数好像是放弃了为了让发送方降低发送速率;然而,这个框架不是下降在现实中如果内容变化差异是可以接受的。的高价值的平均时间差异呈现发生是由于存在许多视频帧,要及时从相应的音频流,但展览内容变化小。

表3也表明,基于内容的算法时,音频和视频流的时差导致呈现小运动活动视频的高于低运动活动的视频(900 ms快速运动视频,相比1495 ms的介质运动视频和2295 ms低运动视频)。原因在于,改变不同的内容低运动视频比更快的视频,因此该算法更为宽容,允许更大的时差音频和视频流慢视频运动活动时玩。

所有这些结果表3只是证明算法功能设计;然而,他们并没有证明,这将导致一个更好的质量。应用基于内容的同步的好处是使用客观和主观质量评估措施。的PSNR值,,帧从RMSE-based模型和畸变水平从基于dct VQM获得帧模型提出了表4和5。这些值从玩5分钟视频收集不同的运动活动水平(表4),然后打快,温和,和低活动场景分别(表1分钟的视频5)。结果被记录为基于时间和基于内容的方案。


同步类型	PSNR值	PSNR值	PSNR值	失真

内容	13.6220 dB	32.9594 dB	28.4345 dB	10.5532
时间	11.6838 dB	31.9429 dB	27.5583 dB	11.8282


同步类型	运动水平	PSNR值(dB)	PSNR值(dB)	PSNR值(dB)	失真

内容	快	17.3089	32.5070	28.4788	8.76840
时间	快	14.4529	29.6051	24.1076	11.18156
内容	媒介	22.6527	37.3771	32.7195	5.75631
时间	媒介	21.6807	36.6830	32.0665	6.29525
内容	慢	27.7993	41.8539	35.6949	3.13949
时间	慢	27.5295	41.8142	35.6723	3.14671

表中显示的PSNR值,,当基于内容的算法框架高于基于时间同步算法。此外,它表明的失真与基于内容的框架是小于的基于时间的同步算法。这个定量表明基于内容的方案提供了18%的服务质量比基于时间同步算法由于PSNR值之间的差异大约是1.5 dB的基于内容和基于时间的算法。

表5表明,所有级别的运动活动,基于内容的方案执行比基于时间的计划。的PSNR值,,帧较大的失真框架是基于内容的同步算法时小。同时,表显示PSNR值之间的关系和运动活动水平无论同步类型使用。PSNR值较大时运动活动水平降低(使用基于内容的同步算法,PSNR帧是17.30891 dB的快速活动视频相比22.65270 dB媒介活动视频和27.79932 dB缓慢活动视频),定量意味着视频质量提高80%时减少运动的活动水平。同样,表显示,视频展示它的运动活动时不失真水平降低(失真快速视频帧是8.768407,5.756310为温和的视频,和3.139498低活动视频)。这是合理的,因为事实上更多的活动中要删除的视频帧的更有可能按照算法。同时,更多的运动通常导致较低的压缩编码器,因此更多的带宽需求导致性能退化。另一个注意的是,在PSNR值之间的差异使用基于内容的视频播放和播放使用基于时间的同步算法时最大的视频运动活动水平高。例如,的PSNR值之间的差异帧之间基于内容和基于时间的计划当快动作视频播放(这意味着基于内容的同步算法比基于时间的算法提供了更好的质量约40%)。这种差异随运动活动水平成为温和的活动水平0.69415 dB(8.3%更好的质量与基于内容的同步)和0.04 dB低活动视频(0.46%更好的质量与基于内容的同步)。同样的分析适用于变形水平差异。失真水平之间的差异基于内容和基于时间的计划减少运动活动水平降低。这是解释这一事实越慢运动水平失调的流更宽容。因为帧之间的不同内容的最大帧数相对较低,因此占这种差异不会影响的感知质量。

基于内容的同步性能的评估是由用户感知,主观测试和15个主题进行。一样快,媒介,慢动作活动视频场景评估客观得救了在接收端(MSU)在测试中使用基于时间和基于内容的同步方案。幕后被呈现的主题来记录他们的意见对于同步和整体质量范围从1到5,5是最好,1是最糟糕的表现。一般认为同步和整体质量(MOS值)被记录在图8。

条形图显示了利用基于内容的同步在基于时间的同步方案的同步和整体质量。例如,在适度的运动活动视频的情况下,的MOS值同步质量是3.57基于内容的方案时,相比1.285基于时间的算法。和MOS值基于内容的整体质量是2.71的,1.57相比,基于时间的算法。同样的结果对于其他运动活动水平。这意味着评价者认为更好的质量,基于内容的同步方案适用于不同层次的运动活动。图中的值8也显示之间的关系感知质量和运动活动水平。评价者认为更好的同步和整体质量的视频活动水平较低。例如,同步质量当基于内容的同步应用被认为有一个慢动作活动时的平均值3.71测试与平均值3.57温和的活动视频和3快速活动视频。这是因为当涉及到更多的活动,框架更可能下降,因此会降低质量的看法。

总而言之,自适应基于内容的同步算法构成了对传统的基于时间同步算法的改进。该算法的局限性的选择比例因子的阈值。虽然是自适应的阈值,需要内容改变时差规模和规模这取决于内容变化本身的定义取决于流被编码和所使用的编码器。此外,该方案引入了一些开销由发送瞬时的内容变化导致的差异,,每个包。然而,这种开销的字节大小并不重要,因为它是非常小而发送的数据包的大小。具体来说,最小的是音频数据包发送的数据包大小33字节。因此,瞬时内容变化的差异,,只占3%的开销对吞吐量的音频,因此不会影响服务的质量。此外,内容变化的表的值记录可能增长但可以解决这个问题通过定期删除旧表中的条目后计算所需的参数。

值得注意的是,尽管我们的方法可以结合buffering-based方法改善总体性能如前所述,如果要做直接比较,该方法将超越变量缓冲技术,这些方法只依靠延迟不同缓冲没有内容。考虑我们使用的性能标准,缓冲方法会降低性能的内容及其变化没有被考虑。所以两个帧大小内容变化将被所有变量相同的缓冲技术。这些技术只考虑延迟(估计、最大或最小)收到的数据包在之前讨论喷(26),没有衡量的内容或流的行为。

6。结论和未来的工作

本文提出了自适应基于内容的多媒体流同步中。论文的主要贡献是允许同步的同步方案决策是基于内容以及时间接近。呈现媒体表现出低含量变化差异和滴那些高含量变化,而忽略了时态不同流之间的关系。二级贡献是提出的自适应方案也占内容通过引入虚拟下降的概念。算法测试远程在贝鲁特美国大学和密歇根州立大学在真实网络条件下研究其性能。不同的视频运动活动场景是用于研究和比较基于内容的同步算法在不同内容的行为改变的变化。客观的评估表明,基于内容和传统的基于时间同步算法,对所有运动活动水平,视频帧(,,)有更高的PSNR和帧展品少失真时,基于内容的算法。所有运动的主观评价显示,活动水平,受试者认为更好的同步和基于内容的同步算法应用时整体质量。

未来的工作包括扩展提出了同步技术等多媒体流视频,力量,或者其他感官测量。此外,视频和音频编码方案可以进一步调查和增强提供更好的视频和音频质量,并可能使用其他措施内容的改变如MPEG的运动向量。

承认

贝鲁特美国大学支持的论文是大学研究委员会。

引用

即Elhajj: Xi, w·k·冯长谷川y, y . h . Liu和t .福田“Supermedia增强的基于网络的遥控机器人,”IEEE学报》,卷91,不。3、396 - 421年,2003页。视图:谷歌学术搜索
Elhajj, h·Hummert: Xi, y . h . Liu”同步和控制supermedia通过互联网传播,”学报》国际研讨会上智能多媒体、视频和语音处理,2001年香港。视图:谷歌学术搜索
c·m·黄和c王”,为交互式多媒体表示的同步,”IEEE多媒体,5卷,不。4,44 - 61,1998页。视图:谷歌学术搜索
Schonfeld d s Khanvilkar f·巴希尔,a . Khokhar“多媒体网络和通信”电气工程手册w·陈,学术出版社,2004年版。视图:谷歌学术搜索
h . McGurk和j·麦克唐纳,”听到嘴唇和看到的声音,“自然,卷264,不。5588年,第748 - 746页,1976年。视图:谷歌学术搜索
2002年Arnte声音网站,http://www.hf.uio.no/imk/personer/arntm/McGurk_english.html。
通用汽车获得、f·f·冯·e·h·s . Ryu k .窝打浆机,“定时和同步的音频/视频应用聚合住宅以太网网络,”学报》第三届IEEE消费者通讯和网络会议,2卷,第887 - 883页,2006年1月。视图:出版商的网站|谷歌学术搜索
y谢,c·刘,m·j·李和t . n . Saadawi”自适应多媒体同步在一个电话会议系统中,“多媒体系统,7卷,不。4、326 - 337年,1999页。视图:出版商的网站|谷歌学术搜索
m·杨:布尔巴基、陈z和m . Trifas“一个有效的视听传播的同步方法,”学报th IEEE国际会议多媒体和世博会,第770 - 767页,北京,中国,2007年7月。视图:谷歌学术搜索
d .年轻、美国SampathKumar和p . Rangan“基于内容的inter-media同步”《多媒体计算机和网络卷,2417年,页202 - 214,圣何塞,加州,美国,1995年2月。视图:谷歌学术搜索
c·h·魏和李比较温度”,设计基于内容的多媒体检索”《圆柱国际会议电路,系统、电子、控制和信号处理2006年美国德克萨斯州,达拉斯。视图:谷歌学术搜索
b . Furht和p . Saksobhavivat”,一个快速的基于内容的多媒体检索技术使用压缩数据,”多媒体会议的程序存储和归档系统III,页561 - 571,波士顿,质量,美国,1998年。视图:谷歌学术搜索
j . Calic干腊肠,e . Izquierdo马洛,n .墨菲和n . e . O ' connor”时间为实时提取关键帧,视频分割”IEEE国际会议上声学学报》,演讲,和信号处理第四,页/ 3632 - IV / 3635,奥兰多,佛罗里达州,美国,2002年5月。视图:谷歌学术搜索
m . s . c . Chen l .害羞的,来说n .赵和c,”一个affinity-based多媒体创作和表示,图像检索系统”诉讼ACM国际研讨会上的多媒体数据库2003年美国洛杉矶,新奥尔良。视图:谷歌学术搜索
v . s . w·艾德f . Eliassen o . c . Granmo和o . Lysne”支持的及时性和准确性在分布式实时的基于内容的视频分析,”第11届ACM国际会议多媒体学报》上美国加州伯克利,页21-32,2003年11月。视图:谷歌学术搜索
a . j . Perrott a·t·林赛和a . p . Parkes“实时多媒体闭路电视监控系统标记和基于内容的检索,”诉讼互联网的多媒体管理系统III美国,波士顿,质量,2002年。视图:谷歌学术搜索
h . Blanken t .抓住周宏儒。Schek、r . Schenkel和g·威库姆”,智能搜索XML数据,”课堂讲稿在计算机科学(信号)卷,2818年,页217 - 230,施普林格,柏林,德国,2003年。视图:谷歌学术搜索
a . y . Li Markopoulou、j . Apostolopoulos和n . Bambos”Content-aware播出和数据包调度对视频流通过无线链接,”IEEE多媒体,10卷,不。5、文章ID 4543842, 885 - 895年,2008页。视图:出版商的网站|谷歌学术搜索
y, z, m .蒋介石,a . Robert Calderbank”Content-aware distortion-fair视频流在拥挤的网络,”IEEE多媒体,11卷,不。6、文章ID 5235177, 1182 - 1193年,2009页。视图:出版商的网站|谷歌学术搜索
r·斯坦梅茨“人类感知的抖动和媒体同步”IEEE在选定地区通讯》杂志上,14卷,不。1,第72 - 61页,1996。视图:谷歌学术搜索
f . Halsall多媒体通信:应用程序、网络协议和标准英国斯旺西,addison - wesley, 2001。
k·狮子狗和a . Divakaran测量框架的强度运动活动的视频片段,2003年三菱电机研究实验室。
y y . t . d . Wu侯,张问:“运输实时视频和方法的挑战,”IEEE学报》,卷88,不。12日,第1874 - 1855页,2000年。视图:谷歌学术搜索
理查森,视频编解码器设计:开发图像和视频压缩系统约翰•威利& Sons第3版,2002年版。
a·b·沃森“感知视频质量指标,”人类的视觉的会议和电子成像三世,诉讼相比,加州圣何塞,美国,1998年。视图:谷歌学术搜索
m . Narbutt和l·墨菲“适应性支付缓冲音频/视频在互联网上传播,”《英国IEE话务研讨会都柏林,爱尔兰,2001年5月。视图:谷歌学术搜索