多分辨率为IPTV应用多媒体体验质量模型

文摘

网络电视(IPTV)迅速得到普及和广泛部署在互联网上的内容分发网络。为了积极提供最佳的用户体验质量(体验质量)IPTV,服务提供商需要识别实时网络瓶颈。在本文中,我们开发psycho-acoustic-visual模型可以预测用户体验质量的多媒体应用实时基于在线测量网络状态。我们的模型是基于神经网络和迎合多分辨率IPTV应用程序包括QCIF, QVGA, SD和HD分辨率使用流行的音频和视频编解码器编码的组合。在网络方面,我们的模型占抖动和损失的水平,以及路由器排队学科:packet-ordered和以时间为顺序的FIFO。我们评估我们的多分辨率多媒体体验质量的性能模型预测的特点,精度、速度和一致性。我们的评估结果表明,该模型相关的体验质量实时监控和资源适应IPTV内容分发网络。

1。介绍

网络电视(IPTV)正在迅速流行和预计将达到超过5000万个家庭在未来两年(1]。IPTV部署的关键因素是其成本节约提供网络电话和互联网服务包时,可访问性增加了各种各样的移动设备,并兼容现代内容分销渠道,如社交网络和在线电影租赁。

尽管互联网的最优服务质量(QoS), IPTV服务供应商尚未提供相同或更好的用户体验质量比传统电视技术(体验质量)。因此,他们需要理解和平衡的权衡各种因素影响IPTV部署(如图1)。的主要因素有:用户(视频内容,显示设备),应用程序(编码类型,编码比特率),网络(网络健康、路由器排队规则)的因素。

用户因素与时间和空间活动水平的视频内容。例如,一个新闻剪辑活动水平较低,而体育活动水平高。基于流动性和用户上下文考虑,显示设备可以支持视频分辨率的一个子集,如季度通用的中间格式(QCIF),季度视频图形阵列(QVGA)标准定义(SD),或高清晰度(HD)。通常QCIF和视频QVGA分辨率176×144、320×240,分别适合手持设备,而SD和HD视频分辨率720×480、1280×720,分别适合于固定显示在家里和业务。应用因素与音频(如MP3, AAC, AMR)和视频(如mpeg - 2, mpeg - 4、h)编解码器和相应的编码比特率、峰值的选择是受网络的影响因素。网络因素与因特网之间的端到端网络可用带宽和消费网站,因此网络健康水平是衡量使用延迟,抖动和损失QoS指标。

为了积极提供最佳的用户体验质量(体验质量),供应商和IPTV应用程序开发人员需要确定实时网络瓶颈和评估其影响音频和视频质量退化。当这样做,他们是不切实际的依靠实际最终用户报告他们的视听质量的主观体验质量。同时,他们不能依靠客观的技术,如(2,3),包括帧到帧peak-signal-to-noise比率(PSNR)比较原始和重建视频序列,计算密集型和耗费时间来执行。因此,迫切需要对客观技术可以预测用户体验质量实时对于任何给定的网络健康状况,同时支付由于考虑因素突出用户和应用程序。

在本文中,我们解决这个问题并提出psycho-acoustic-visual模型可以预测用户体验质量的多媒体应用实时基于在线测量网络状态。我们的模型是“零基准”在实践中,因此不需要终端用户和非依赖于实际的视频内容。模型注意突出用户和应用程序通过考虑因素多分辨率IPTV应用程序使用流行的视听传播的编解码器的组合编码和比特率。更具体地说,我们的模型占QCIF, QVGA, SD,高清分辨率和以下编码组合:mpeg - 2视频与音频mpeg - 2, mpeg - 4 AAC音频,视频和h和AAC音频视频。在网络方面,我们的模型占抖动和损失的水平,以及路由器排队学科:(i) packet-ordered FIFO (PFIFO),其中包出口流命令基于包序列号,和(2)以时间为顺序的FIFO (TFIFO),包出口在哪里命令基于包的时间戳。我们评论的一个值得注意的贡献我们的研究本文中描述对应于我们的实验,说明用户体验质量变化取决于多媒体流遍历PFIFO -和/或TFIFO前端之间的网络路径上的路由器和消费网站。

我们建议的解决方案特征如图2。为了开发模型,我们执行一系列精心设计的客观和主观测试用例在离线闭环网路IPTV试验台以人类实验。我们的客观和主观测试的最终目标是提出一组用户体验质量训练数据从人类实验,可以喂神经网络工具。通过提取出重量和偏见的参数训练神经网络,得到封闭表达式为在线用户体验质量的预测。我们使用流行的“意思看来得分”(MOS) [4]随着主观体验质量指标在人类主题实验。体验质量预测对于一个给定的决议()是在线测量网络的函数参数(抖动、损失和比特率)获得从IPTV在监视点流网络。

挑战是人类主体来显著减少实验时间,在不影响充分必要抽样覆盖率达到合理的神经网络模型预测精度。我们使用的最小化的策略之一是客观的测试步骤,我们开发新的测试用例减少计划,即“网络样本空间识别”和“交叉编解码器冗余消除”。这些计划采取作为输入测试用例超集包括所有的突出用户、应用程序和网络因素考虑所需的模型。使用两个小说客观体验质量指标在用户级(“明显的损伤率”)和网络级(“框架包丢失”),我们的计划明显减少测试用例设置为一个可控的号码适用于人类主体实验符合广泛接受ITU-T P.911推荐(4]。我们评估我们的模型的预测性能的总体特征、准确性、一致性,和速度。更具体地说,我们系统地评估模型预测特征一组全面的控制输入和验证预测行为遵循预期模式。模型预测的准确性评估使用相关系数等指标和均方根误差。模型的一致性预测评估使用局外人比率指标。我们使用,规模流动模拟测量模型预测速度。

本文的其余部分组织如下:部分2提出了相关工作。部分3描述我们的IPTV的实验设置和组件配置选择测试用例的执行。部分4介绍了测量方法参与客观和主观测试收集模型训练数据。部分5描述了神经网络架构和模型参数化的过程。部分6提出了我们的模型预测性能评价实验和结果。部分7总结了纸。

多媒体体验质量影响因素在早期作品都已经被广泛地研究过了。在[5),视频活动水平的影响瞬时编码比特率。作者的6,7]表明,更高的活动水平剪辑更影响由于网络拥塞以1%对10%相比,较低的活动水平剪辑。MPEG和H.26x编解码器的性能在IPTV应用程序中使用评估在不同的决议在8]。退化的QoS条件对多媒体体验质量的影响由于网络拥塞和最后一英里接入网瓶颈提出了(9- - - - - -11]。几个目标(例如,PSNR、SSIM PEVQ)和主观(如ACR MOS, dsi MOS)指标量化用户体验质量性能描述(4,12- - - - - -14]。

已经存在一些客观的技术使用pyschoacoustic-visual模型来预测用户体验质量在多媒体内容分发网络资源适应性的目的。最早的是模拟模型(15,16),这是一个pyscho-acoustic模型解决VoIP应用程序。最近,工作等(13,17,18]试图开发pyscho-acoustic-visual模型在线多媒体体验质量的评估。在[17)、视频失真由于使用loss-distortion包损失估计模型。loss-distortion模型使用在线测量包丢失和考虑视频编解码器等输入类型,编码比特率,和分包估计在线relative-PSNR值。在[18),人类视觉系统(HVS)模型提出了产生视频体验质量估计无需重建视频序列。HVS模型主要是针对2.5 / 3 g网络,因此它只占嘈杂的PSNR退化为在线测量无线频道视频编码比特率较低。在[13),提出了一种随机神经网络(RNN)模型,以视频编解码器类型、编码比特率、包丢失和损失释放量作为输入并产生实时多媒体体验质量的估计。在[19),作者使用加权值的QoS指标在质量范围内获得其他实验研究和推导IPTV体验质量估计的计算公式。在[20.),机器学习分类主观测试数据用于在移动网络体验质量实时预测。在[21),它通过模拟显示如何客观体验质量监控信息可以用于基于资源管理通过梯度路由在IPTV内容分发网络。

相比以上的作品,小说体验质量模型包含多个视频决议如QCIF QVGA, SD,和HD广泛与mpeg - 2如mpeg - 2视频音频编解码器组合,mpeg - 4 AAC音频视频,和h与AAC音频、视频以及合并变化在抖动,损失和路由器排队学科网络健康的一面。体验质量模型能够处理如此大的体验质量因素比早期作品由于我们减少测试用例(即的创新方法。,reduction by network sample space identification and reduction by cross-codec redundancy elimination) by objective testing before conducting expensive and time-consuming subjective testing with human subjects. In addition, we have proposed two novel objective QoE metrics at the user-level (“perceptible impairment rate”) and network-level (“frame packet loss”) to aid in the test-case reduction steps. Moreover, we apply a feed-forward neural network [22)和一个输入层、隐藏层神经元和2,和一个输出层。我们的多层神经元的非线性转移函数允许前馈神经网络学习线性和非线性输入(即之间的关系。、抖动、损失,比特率)和输出(即。金属氧化物半导体)向量。

除了以上学术界的努力,最近有重大努力在IPTV产业论坛等视频质量专家组(VQEG),国际电信联盟(ITU-T),电信行业解决方案联盟深圳市),和宽带论坛开发、验证和标准化在线多媒体体验质量模型(23]。我们所知,模型需求正在讨论在这些论坛匹配建模方面的考虑。

3所示。IPTV的实验和实验设置

IPTV的实验设置为我们的实验如图3。我们使用了流行的开源软件(VLC24),流媒体服务器和媒体播放器组件允许视频内容通过IP网络远程用户。没网络仿真器(25]分离两个虚拟局域网(VLAN 1和2)的抽象流提供者和使用者的形象1,分别。对于每一个实验中,我们收集了发送方和接收方一侧使用嗅探PC与包的痕迹tcpdump实用程序和存储在一个交通痕迹库。我们的思路是建立在Linux内核2.6.15和有以下硬件中:英特尔奔腾4 1.70 GHz处理器,512 MB内存,Debian系统,和英特尔10/100接口卡。

我们现在描述用户、应用程序和网络因素组件配置用于我们的实验。

3.1。用户因素

我们生成几个视频剪辑(音轨),低和高的活动水平满意剪辑时间16 - 20秒。提取视频剪辑从各种各样的来源,包括对话场景,新闻节目,自然节目,体育节目和电影预告片。活动水平低剪辑没有主运动和很少或根本没有背景运动。高活动水平剪辑了主体运动与快速变化的背景。未压缩的视频剪辑是出口avi文件格式在QCIF QVGA、SD和HD分辨率。

3.2。应用程序的因素

未压缩的视频剪辑被转换为流与不同的音频和视频编解码器和回放组合使用MPEG-TS容器格式。具体地说,涉及的代码转换以下普遍使用的音频和视频编解码器的组合:mpeg - 2视频与mpeg - 2音频,mpeg - 4 AAC音频视频,和h和AAC音频视频。对于每一个决议,一组视频编码比特率峰值被选择如表所示1基于带宽消耗范围和步大小在实践中常用的。


决议	峰编码比特率(bps)

QCIF (177×140)	32 K, 64 K, 128 K, 256 K, 512 K
QVGA (340×240)	128 K, 192 K, 256 K, 512 K, 768 K
SD (720×480)	512 K, 1米,2米,3米,5米
高清(1280×720)	1米,2米,5米、8米、12米

3.3。网络的因素

我们配置了网络健康,延迟,抖动和损失值使用相应的命令没文档中找到。我们没有限制使用没端到端带宽容量。抖动在我们所有的配置中,我们将延迟值抖动值的两倍,因为延迟值通常需要大于配置的适当的抖动抖动值仿真。因为我们感兴趣的只有回放质量的IPTV内容而不是渠道改变时间,我们没有在我们的实验使用延迟作为一个控制参数。我们合格一同抖动和损失配置使用Iperf和Ping工具和验证,没按预期的行为在我们开始我们的实验。

我们还配置PFIFO / TFIFO路由器排队学科在一同作为控制参数在我们的实验。数据3(一)和3(b)说明TFIFO和PFIFO路由器排队学科之间的比较。我们可以看到TFIFO路由器流程流的数据包在时间与interpacket抖动当他们到达交叉与数据包流。在处理时间,路由器调度程序确保流的数据包出口TFIFO这样原始的是保留。鉴于IPTV交通流小interpacket时期,他们更有可能体验到在互联网上重新排序(26结束,消费者可能会收到几个重新定购商品的数据包。这样的包重新排序不影响总体TCP流量,例如,web文件下载。然而,这严重影响IPTV应用UDP流量,因为它负担的接收端媒体播放器分组排序,以及机顶盒解码器不要试图订单包因其处理约束(图4)。

(一)TFIFO

(b) PFIFO

为了克服这种重新排序的影响,一些网络路由器支持PFIFO排队顺序包在出口基于数据包序列号。然而,在这个过程中,路由器改变inter-packet抖动来。根据inter-packet抖动的大小变化、端到端IPTV交通流抖动差别很大,因此,在接收端多媒体体验质量。

演示的效果端到端网络抖动也经历了由交通流和演示PFIFO和TFIFO路由器排队学科的影响,我们进行了一系列的实验,其结果如表所示2和3。所涉及的实验测量端到端网络抖动使用Iperf (10 Mbps的UDP模式)和Ping工具两个主机之间相隔没配置PFIFO和TFIFO排队学科。我们可以观察到Iperf和萍抖动测量中的关联与配置的思路是抖动值TFIFO情况。然而,对于PFIFO,平关联与配置的思路是抖动抖动测量值,和Iperf抖动测量不关联。这是因为默认inter-packet Ping时间是1秒,这远远大于PFIFO平均处理时间。然而,Iperf UDP数据包的inter-packet时间足够小,Iperf流数据包经验缓冲PFIFO路由器队列,进行加工,出口秩序。PFIFO处理的净效应在IPTV应用交通实际network-induced抖动是包容和音频和视频的障碍感知在接收机端比TFIFO相比减少了处理。


没配置	Iperf测量	平测量

6 ms	6 ms	6 ms
18岁的女士	18岁的女士	17岁的女士
75毫秒	75毫秒	69毫秒
120毫秒	120毫秒	110毫秒


没配置	Iperf测量	平测量

6 ms	1.861毫秒	6 ms
18岁的女士	1.891毫秒	16岁女士
75毫秒	1.494毫秒	61毫秒
120毫秒	1.056毫秒	105毫秒

相关注意的是,网络路径处理由于PFIFO和TFIFO可能有时耽误火车IPTV应用数据包导致间歇性高inter-packet到达时间。在这种情况下,我们观察到“接收缓冲区数据饥饿”客户端,导致在接收端帧凝固障碍事件回放。图5显示了一个例子的数据饥饿由于高inter-packet到达时间。数据以来饥饿情况下可能发生由于网络处理异常,如网络负载破裂或拒绝服务攻击,他们出现在本质上是概率在互联网上。适当注入帧凝固障碍事件客观和主观测试使用的毛病,我们进行了系统的实验思路和得出的结论是,这些事件发生的概率是与相对较高的网络抖动条件PFIFO和TFIFO。因此,我们安装了一个脚本在一同,随机插入一个或多个帧凝固事件/视频序列与相对较高的抖动测试用例设置;特别是我们选择> 200 ms阈值在TFIFO PFIFO和> 50毫秒阈值基于我们的经验观察。

4所示。测量方法

系统地分析多媒体体验质量性能在IPTV内容分发网络PFIFO TFIFO,我们必须处理一个较大的样本空间中存在几个可能的网络健康状况。的网络健康状况由孤立和抖动的影响和损失。很明显,这不是可行的分析多媒体体验质量性能的所有可能组合网络抖动和损失在互联网上。幸运的是,早期的实证研究[10,27]表明,多媒体体验质量往往是在“好”,“接受”或“穷”(GAP)等级的主观感知用户对某些级别的抖动和损失值。好成绩对应情况下人类主体感知没有或最小的障碍和应用程序总是可用的。可接受的等级是指人类主体感知情况下间歇障碍但应用程序主要是可用的。最后,低分是指人类主体感知情况严重和频繁的障碍,使应用程序无法使用。

在本节剩下,我们首先描述的客观测试,以减少测试用例为主观测试是可控的。接下来,我们描述主观测试和数据收集的建模。

4.1。客观测试

客观测试的第一个目标是执行体验质量差距分数映射到不同的QoS级别的决议。这个测试让我们来确定提供明确的QoS级别差距网络健康状况的抽样范围。QoS的这方面的知识水平,我们推断出以下9网络条件(每个用]对),足以模型覆盖:[,,,,,,,,]。客观测试的第二个目标是减少执行测试用例通过消除冗余的测试用例应用的因素。具体来说,我们执行cross-codec消除当我们知道两个编码器在一个给定的网络条件下执行相同的。

以下4.4.1。客观指标

在客观测试,每个测试用例随机活动水平视频剪辑与相应的决议流从VLAN 1使用VLC流媒体服务器在特定比特率与相应的编解码器。配置的思路是与一个特定的网络健康状况和路由器排队规则。视频剪辑流是通过一同在VLAN使用VLC媒体播放器播放前2。我们收集的测量两个客观体验质量指标,一个在用户级和网络级,也就是说,“显性损伤率(PIR)事件/秒”和“框架包丢失(FPL) %,”。

PIR之和音频损伤事件(例如,辍学,回声)和视频损伤事件(例如,瓷砖,冻结帧,痉挛,模糊)计算两个观察者在接收机端(一个“听众”用于音频和视频)的一个“查看器”除以视频的长度。FPL是丢失的数据包数量的百分比(音频和视频)在一个框架和计算流量的数据包数量比失去了痕迹在视频帧的数量。我们使用PIR作为我们的主要指标减少测试用例实验。尽量减少观察者测量PIR的学习效果,我们随机测试用例的执行。同时,我们确认,PIR测量可重复的跨不同人口统计数据和专业知识水平与多媒体应用程序。从PIR重复性研究,我们发现PIR阈值:≤0.2的好成绩,为可接受的等级≤1.2,> 1.2的低分。进一步,我们发现FPL PIR和之间的直接相关,因此我们使用的选择性测量来验证理智FPL PIR测量。

4.1.2。差距网络样本空间的识别

我们进行实验来确定范围的抖动和损失的差距QCIF, QVGA, SD和HD分辨率使用mpeg - 4视频和AAC音频编解码器。视频编解码器的选择是代表,是出于mpeg - 4(特别是mpeg - 4第2部分)被广泛使用,是已知有更好的性能通常比mpeg - 2和h一样良好的性能(特别是mpeg - 4部分10)。同时,我们选择中位数的编码比特率峰值一步大小见表1(即为每个决议。,128 Kbps for QCIF, 256 Kbps for QVGA, 2 Mbps for SD, and 5 M for HD). In each experiment, we gradually increased one of the QoS metric (i.e., jitter or loss) levels till PIR measurements crossed thresholds for GAP QoE grades. We stopped at PIR measurements close to 2, which is the expected human perception capability limit.

图6显示了SD损失缺口边界是如何固定的解决基于PIR阈值。我们的实验结果表明,该损失的特点是独立排队规则,因此损失缺口范围PFIFO和TFIFO相同。同样,图7显示抖动差距边界是如何固定的QCIF TFIFO下决议。抖动的完整列表和损失缺口范围PFIFO和TFIFO不同分辨率下表所示4和5,分别。


显示	度规	好	可接受的	可怜的

QCIF	抖动(女士)	[0 - 200)	(200 - 400)	(> 400)
QCIF	损失(%)	(0 - 2)	(2 - 4.4)	(> 4.4)
QVGA	抖动(女士)	[0 - 200)	(200 - 350)	(> 350)
QVGA	损失(%)	(0 - 1.4)	(1.4 - -2.8)	(> 2.8)
SD	抖动(女士)	[0 - 175)	(175 - 300)	(> 300)
SD	损失(%)	(0 - 0.6)	(0.6 - -2.5)	(> 2.5)
高清	抖动(女士)	[0 - 125)	(125 - 225)	(> 225)
高清	损失(%)	(0 - 0.3)	(0.3 - -1.3)	(> 1.3)


显示	度规	好	可接受的	可怜的

QCIF	抖动(女士)	[0-50)	(50 - 80)	(> 80)
QCIF	损失(%)	(0 - 2)	(2 - 4.4)	(> 4.4)
QVGA	抖动(女士)	[0-40)	(40 - 70)	(> 70)
QVGA	损失(%)	(0 - 1.4)	(1.4 - -2.8)	(> 2.8)
SD	抖动(女士)	[0 30)	(30 - 60)	(> 60岁)
SD	损失(%)	(0 - 0.6)	(0.6 - -2.5)	(> 2.5)
高清	抖动(女士)	[0-20)	(20 - 50)	(> 50)
高清	损失(%)	(0 - 0.3)	(0.3 - -1.3)	(> 1.3)

从上面的结果我们现在讨论凸观测范围不同的决议和排队学科的差距。我们可以看到更高的分辨率对降解更敏感网络QoS条件明显狭窄范围的抖动和损失相比降低分辨率。例如,好成绩的损失范围是[0 - 0.3)高清,而相同的QCIF (0 - 2)。因此,我们可以得出结论,高分辨率流在IPTV部署QoS级别需求明显高于低分辨率流。

同时,我们可以看到PFIFO排队使IPTV流更多的容忍网络抖动TFIFO相比明显抖动范围更高的分辨率。例如,好成绩的抖动范围(0 - 175)在PFIFO的SD,而相同的TFIFO是[0 30)。因此,我们可以得出结论,在PFIFO排队学科路由器在网络中的拥塞点或接入网络的边缘可以减少负担的媒体播放器播放的顺序包消费网站。这反过来显著增加了多媒体体验质量弹性消费地点向更高的网络抖动。

4.1.3。Cross-Codec冗余消除

减少测试用例后差距网络样本空间识别,我们大大减少了样本空间通过专注于网络抖动和损失范围相关。然而,由于大量的应用程序因素考虑,测试用例的数量仍然很大。具体来说,由于9网络条件下,4决议,5比特率,和3编解码器,剩下的540个测试用例PFIFO和TFIFO排队学科。显然,这是不可行的执行主观测试540个测试用例。为了进一步减少主观测试用例的数量,我们考虑一个“cross-codec消除”计划。

这个方案比较两个测试用例在相同的网络条件下,高分辨率,比特率对于一个给定的排队规则,但不同的编解码器,并确定它们是否相同或不同。我们用来确定测试用例等价的方法是基于PIR体验质量目标测量的差异考虑两个测试用例。较小的PIR值的差异,更大的可能性是测试用例都有相同的用户体验质量。因此,如果两个测试用例是等价的,我们只执行主观测试的测试用例,并分配相同的金属氧化物半导体排名到另一个测试用例。如果他们是不同的,我们执行主观测试的测试用例获取MOS排名。

自从PIR值随着越来越严重的网络条件明显增加数据6和7,PIR差异范围相对较小的良好的网络条件和相对较大的网络条件差。因此,我们推出“阈值曲线”为每个阈值曲线值曲线,这样的差距差距曲线值的0.3倍。我们选择0.3的值,因为我们发现,PIR低于这个值差异不明显可察觉地人类观察员。如果PIR区别两种情况低于阈值曲线,我们认为这两个测试用例是等价的。然而,如果两个测试用例的PIR差异高于阈值曲线,我们认为这两个测试用例是不同的。采用这个方案,我们减少了主观测试用例从540年到280年(减少48%)PFIFO排队规则,从540年到322年(减少40%)TFIFO排队规则。

4.2。主观测试

我们的主观测试是基于仿真和在线网络条件不是基于使用presaved剪辑完成其他工作(13]。这使我们不时插入帧凝固事件部分的解释3。

4.2.1。准备主观指标

收集人类主体的主观投票期间MOS排名进行了实验按照ITU-T P.911标准。请注意,我们测量“相对MOS”而不是“绝对MOS”为不同的视频分辨率。绝对的MOS取决于分辨率,而相对MOS不。例如,如果绝对MOS接近理想的网络条件下高清分辨率为4.8,然后绝对MOS QCIF决议将4.2。通过测量相对金属氧化物半导体,在相同的网络条件下,金属氧化物半导体将4.8 HD和QCIF决议。这种方式,视频序列代码转换到其他决议不会影响MOS排名为不同的决议。提供的MOS排名在投票期间人类被试在主观质量的规模,如图1 - 58。

4.2.2。遵守ITU-T P.911

为符合ITU-T P.911,我们开发了一个测试应用程序管理人类实验。应用程序使用Java Socket API,由客户端和服务器模块上安装VLC服务器机器,没机,分别。在指示的开始测试用例的测试管理员在VLC服务器,服务器模块选择一个随机测试视频序列流的VLC客户机并通知没客户机配置相应的测试用例的网络条件。我们采用了最常用的“绝对类别等级”(ACR)方法中指定ITU-T P.911,最常用的方法在主观测试。ACR方法如图8,这是一个单一的刺激方法,测试视频序列提出了一次使用测试管理应用程序和独立的人体。我们的测试管理应用程序,实现了ACR的方法对视频序列的时间模式刺激表现人体。

我们人类受试者分为两组模型建设:(i) 10人体QCIF和QVGA分辨率测试用例和(2)10人体SD和HD分辨率测试用例。注意ITU-T建议4作为统计的最小数量的人类被试需要稳健(13在人类实验。每个人类受试者提供参与的指令,包括目的、过程、潜在风险,预计持续时间、机密性保护,和合法权益。人类受试者给予慷慨的休息,避免疲劳,和每个人的测试时间60 - 80分钟之间的不同。

5。神经网络建模

我们现在建模方法基于神经网络原理推导出封闭表达式的多媒体体验质量。填充后人体MOS排名数据库,我们使用数据库培训psycho-acoustic-visual模型。我们使用神经网络作为建模技术使用Matlab神经网络工具箱(22]。神经网络本质上是一个系统的可调参数(即“权重”。,IW-Initialization重量,LW-Load重量)和(即“偏见”。,B). The parameters are adjusted during the training of the neural network, which results in specific weights and biases. A scalar input is multiplied by the effective weight and added to the bias to produce the target output. The network is adjusted based on a comparison of the output and the target, until the network output matches the target.

在我们的研究中使用的类型的神经网络是一个“前馈网络”,其架构如图9。神经网络由输入层、隐层神经元和2,和一个输出层。输出层作为规范的Purelin类型,它涵盖了整个输出范围。我们的前馈建模模式允许我们近似线性和非线性数据的功能。两个隐藏的神经元是用于执行计算的重量和偏见支付由于考虑到速度和准确度之间的权衡。众所周知,大的隐藏层的数量,更大的是时候采取的模型来计算重量和偏见,和更大的准确性。的Tansig传递函数(覆盖范围−1 - 1)是用来方便准确建模的非线性方面的数据的过程。训练函数我们使用的类型Trainlm(Levenberg-Marquardt反向传播算法),生产适合网络的大小的精度问题。它切断了模型训练(即。,the number of epochs) before the model becomes overtrained with a given data set, and learns much faster than the traditional training functions such asTraingd(梯度下降反向传播算法)。

我们模型的输入参数是:(i)抖动,(ii)损失,和(3)比特率。模型输出的MOS排名范围(1 - 5)。我们开发了多分辨率为每个编解码器组合神经网络模型和排队学科。我们开发了一个共有12个模型对应3编解码器的每个4决议为每个队列纪律。表6和7显示了模型参数的12 TFIFO排队规则模型。表8和9显示了模型参数的12 PFIFO排队规则模型。图10显示了MOS使用神经网络模型参数进行计算。我们的话,我们使用了Matlab神经网络工具箱的“训练状态”情节终止模型训练和派生的重量和偏见参数如表所示6- - - - - -9;情节帮助我们识别不训练过度的重量和偏见参数模型与一个给定的数据集。


参数个数。	QCIF mpeg - 2	QCIF mpeg - 4	QCIF h .	QVGA mpeg - 2	QVGA mpeg - 4	QVGA h .

信息战	1.5925	73.9938	0.54	−1.805	0.8271	−53.9923
信息战	−6.6656	99.6796	0.2806	−1.1208	0.3625	0.9155
信息战	−0.4831	−30.1671	0.0507	−17.6184	−0.0008	8.7659
信息战	0.5170	0.7311	289.0135	−0.7044	−2.9727	−1.249
信息战	0.5438	0.4927	88.5316	−0.3372	−16.2994	−0.5441
信息战	0.0400	0.0803	−25.5375	−0.009	−19.3425	−0.0562
B1	1.7810	65.876	0.6902	−2.9083	1.0195	−31.2057
B1	1.1284	−0.2967	53.7415	−2.3335	48.4183	0.3567
LW	−0.7164	−0.3313	−11.176	−133.596	−19.0374	0.2548
LW	−31.2439	−3.2402	−0.7112	271.4444	0.2697	3.5383
B2	31.5663	4.6002	12.7213	138.3723	19.9051	4.51


参数个数。	SD mpeg - 2	SD mpeg - 4	SD h .	高清mpeg - 2	高清mpeg - 4	高清h .

信息战	−235.618	69.198	1.9839	−2.705	18.0678	13.2719
信息战	−59.4654	66.7891	2.24103	−0.7994	−4.0983	−4.5941
信息战	−0.0141	16.6377	0.2509	−0.0137	2.0437	−0.0316
信息战	1.3085	−1.5325	−272.955	0.9113	−2.7116	2.9783
信息战	1.4055	−0.9056	−69.1575	−6.7765	−0.7866	0.276
信息战	0.1048	−0.0147	−0.0183	−4.5513	−0.0187	0.0075
B1	30.533	−127.695	−2.9503	−1.4931	−14.7136	5.0295
B1	−1.4295	−1.6538	35.7638	1.5997	−0.6561	1.6912
LW	0.8211	−0.2376	−0.7411	51.6476	0.129	65.2392
LW	−1.2851	62.1292	1.194	−26.1423	12.0581	−70.5904
B2	3.0135	63.3574	2.9553	26.7493	13.1543	6.2374


参数个数。	QCIF mpeg - 2	QCIF mpeg - 4	QCIF h .	QVGA mpeg - 2	QVGA mpeg - 4	QVGA h .

信息战	29.5296	5.1324	5.4489	0.0934	−23.7788	−4.4705
信息战	−53.6772	−1.3168	27.4114	0.1402	4.3746	2.3579
信息战	0.7985	−5.0446	−1.5200	0.0025	8.4277	0.0110
信息战	−0.0350	0.0167	−0.0479	5.6176	−0.0377	−0.0672
信息战	−0.1508	0.0736	−0.2183	−0.6570	−0.1304	−0.0397
信息战	−0.0210	0.0131	−0.0360	−26.1136	−0.0205	−0.0015
B1	−15.6984	10.9947	−2.2131	−0.2708	19.0489	10.5100
B1	0.8192	−0.9046	1.4721	16.4723	0.3639	1.0951
LW	0.1918	−0.0691	−0.3595	−3.5616	0.2382	−1.6414
LW	3.1491	−6.7489	2.2291	0.5117	3.3048	17.6250
B2	2.5604	−0.3827	2.4283	4.4878	3.6572	−7.5768


参数个数。	SD mpeg - 2	SD mpeg - 4	SD h .	高清mpeg - 2	高清mpeg - 4	高清h .

信息战	0.0774	8.2689	6.0167	0.1001	0.0470	18.6600
信息战	0.3627	−47.4086	10.5060	0.9631	0.2612	1.4276
信息战	0.0256	2.1463	0.0344	0.0179	0.1268	3.4165
信息战	0.6096	163.2712	14.4661	−0.1703	−0.5565	−0.4194
信息战	−3.0682	46.1962	14.4351	−0.8077	−0.0374	−0.1042
信息战	−0.1490	−35.2372	0.1807	−0.0177	0.0179	−0.0079
B1	−0.6770	−18.4515	0.7189	−1.2166	−1.0055	−48.3245
B1	3.4885	−129.5034	−41.3358	1.0665	−1.1830	−0.9670
LW	−3.5498	0.0098	−43.2699	15.4020	−0.9678	−0.2964
LW	−0.7699	−0.9262	−0.9502	18.0452	12.9946	13.3309
B2	3.7081	3.3711	46.3764	3.8736	15.0390	14.9439

6。绩效评估

在本节中,我们提出我们的绩效评估方法和模型的关键检查后结果。结果对应于我们的模型预测性能的总体特征、准确性、一致性,和速度。

6.1。模型特征

我们验证的特点,所有的多分辨率模型通过观察测试用例的MOS预报系统的抖动和损失增加投入,在不同的比特率设置resolution-specific范围。绘制三维图形的观察是由抖动的损失,和模型预测金属氧化物半导体。数据11和12图表显示例子,它对应于QCIF MOS TFIFO模型的预测和高清分辨率,分别在512 Kbps的比特率。在每个模型的情况下,我们能够确认MOS预测的模型减少抖动的增加和损失水平。此外,预测金属氧化物半导体在最好的网络条件5 0抖动和0损失;它与增加抖动和减少损失和达到1,抖动的最高价值和损失后使用。因此,由于我们上面的系统评价模型的预测特征输入一组全面的控制,我们可以得出结论,该模型预测行为遵循预期模式。

6.2。模型的准确性和一致性

为了验证模型的准确性和一致性,我们选择60验证测试用例包含视频序列和网络条件,不同于在模型中使用的培训。考虑到我们的模型构建:(a)被认为是额外的因素(例如,PFIFO / TFIFO路由器排队学科,在线网络仿真,帧凝固障碍事件)和(b)是专门针对多分辨率视频序列IPTV应用程序,它是不合理的比较我们的模型与现有的实时体验质量模型,如13,17,18)有不同的注意事项和应用程序上下文。因此,我们调查了10人类受试者管理60验证测试用例收集验证MOS (V-MOS)排名使用相同的实验设置部分中解释3。我们比较了V-MOS排名与相应的测试用例模型MOS预报(M-MOS)。指标:(i)相关系数()和(2)均方根误差()是用来评估模型预测精度和离群值比()指标是用来评估模型一致性。

相关系数双(,),V-MOS和M-MOS,计算如下: 有接近1表明,模型MOS排名预测匹配人类主体MOS排名。

V-MOS之间的差异和M-MOS测试用例被定义为绝对的预测误差给出的的的计算如下: 在哪里表示的样品和数量表示映射函数的自由度。

离群值比()被定义为“异常值点”总比点和计算如下: 局外人是定义为一个点,哪一个在哪里(金属氧化物半导体()代表个人成绩的标准差与样品有关。

模型预测性能的金属氧化物半导体(M-MOS)人类的话题金属氧化物半导体排名的验证测试用例(V-MOS)可以看到从图13TFIFO队列纪律和图14PFIFO排队的纪律。评估模型的准确性通过确定M-MOS之间的相关系数和V-MOS排名对应的网络条件。平均的结果和TFIFO和PFIFO模型展示在表10。很明显的结果,即使在最坏的情况下,V-MOS因为M-MOS非常近> 0.9,在所有4 < 0.7决议TFIFO和PFIFO模型。在检查的一致性模型使用度规,我们观察到所有的模型零离群值。


决议	r(TFIFO)	rmse (TFIFO)	r(PFIFO)	rmse (PFIFO)

QCIF	0.98	0.24	0.98	0.37
QVGA	0.98	0.61	0.94	0.51
SD	0.94	0.60	0.92	0.55
高清	0.96	0.56	0.91	0.55

有进一步的证据表明,模型的预测与实际相符的用户体验,使用多分辨率IPTV应用程序在互联网上。

6.3。模型的速度

我们评估模型的预测速度来确定他们可以成功地部署在设备(如路由器、网关、机顶盒、或测量服务器以可扩展的方式。具体地说,即使是在大规模的IPTV内容分发网络,体验质量监视点成千成千上万的IPTV流动过程,模型的速度应该足够小,不覆设备的处理器。流对应的众多网络路径测量关键IPTV服务是提供给消费者团体。评估模型的速度,我们进行运行时分析仿真计算的时间采取任何神经网络模型预测的MOS排名越来越多的流动与随机网络条件。这个模拟的四个单独的测试运行,和平均运行时计算。代表模型运行时结果如图15。从结果中,我们可以看到,即使对于在线预测的情况下MOS排名10000流,该模型速度< 4 ms。因此,任何模型的预测速度可以忽略不计,甚至使他们适合集成嵌入式监控协议如RTCP-extended报告(RTCP-XR) [28在相当大规模的IPTV内容分发网络。

7所示。结论

在本文中,我们提出了一种新颖的方法来培养实时和零基准为IPTV应用多媒体体验质量模型。使用神经网络模型被开发原则为多个决议(QCIF QVGA, SD, HD)视频序列流与流行编解码器组合(mpeg - 2视频与mpeg - 2音频,mpeg - 4 AAC音频视频,和h .视频和AAC音频)和比特率不同的网络健康状况。同时,我们显示的影响PFIFO和TFIFO路由器排队学科在IPTV内容分发网络的多媒体体验质量和发展为他们每个人单独的模型。开发的模型可以用于在线体验质量评估衡量网络抖动和损失等因素。开发模型,我们提出新的测试用例减少计划,即网络样本空间识别和cross-codec冗余消除提供了一个可控的样本空间收集MOS排名从人类主体实验符合ITU-T P.911建议。减少使用我们的测试用例计划和两个小说客观体验质量指标在用户级(PIR)和网络级国家贫困线以下,我们能够减少1080测试场景建模602测试用例没有覆盖组成模型。我们评估模型预测性能的总体特征、准确性、一致性,和速度。在最坏的情况下,我们观察到我们的模型预测MOS排名与< 0.7 > 0.9相关系数均方根误差和零异常率与实际相比人类主体验证MOS排名。另外,我们的模型结果表明,超过10000的流动速度可以处理在< 4 ms。因此,我们印象深刻的性能模型用于展示他们的适用性:(一)连续多媒体体验质量监测设备,如路由器、网关、机顶盒、或测量服务器和(b)实时适应系统和网络资源,在规模,IPTV内容分发网络。

引用

e·乔普林此举和a·萨比亚”预测:IPTV用户和服务收入,在全球范围内,2004 - 2010,”Gartner IPTV市场报告6页,2006。视图:谷歌学术搜索
j . Klaue b Rathke, a . Wolisz”EvalVid-A视频传输和质量评估框架”学报》第13次国际会议上造型技术和工具对计算机性能评价,第272 - 255页,2003年。视图:谷歌学术搜索
ITU-T推荐J.144,“客观感知数字有线电视视频质量测量技术的一个完整的参考,”2001年。视图:谷歌学术搜索
“主观视听多媒体应用,质量评估方法”ITU-T Rec。P.911, 1998。视图:谷歌学术搜索
p . Calyam m . Haffner大肠Ekici, c·g·李,“测量交互在网络视频会议体验质量,”IEEE MMNS卷。4787年,14-25,2007页。视图:出版商的网站|谷歌学术搜索
通用汽车统治下p·佩里,l·墨菲”素质的主观评估自适应方案,“IEEE广播,51卷,不。3、276 - 286年,2005页。视图:出版商的网站|谷歌学术搜索
x, s t m . Zarki r .吉林,“以品质为基础的自适应视频在互联网上,”程序的组合,2003年。视图:谷歌学术搜索
d . m . Ghanbari对路透克劳福德m . Fleury et al ., Ofcom的“未来的视频编解码器的性能,”研究报告(SES2006-7-13), 2006年。视图:谷歌学术搜索
x黑,c .梁j .梁y . Liu和k·w·罗斯,“大规模P2P IPTV系统的测量研究,“IEEE多媒体,9卷,不。8,1672 - 1687年,2007页。视图:出版商的网站|谷歌学术搜索
Claypool m和j·坦纳”,抖动的影响感知的视频质量,”ACM多媒体程序,页115 - 118,纽约,纽约,美国= 1999。视图:出版商的网站|谷歌学术搜索
y和m . Choi”终端用户IPTV住宅宽带接入网络的流量测量,”《IEEE研讨会的端到端监测技术和服务萨尔瓦多,页95 - 100年,巴伊亚,巴西,2008年。视图:谷歌学术搜索
温克勒和r·坎波斯“互联网流媒体应用中,视频质量评价”人类的视觉和电子成像,3卷,第115 - 104页,2003年。视图:谷歌学术搜索
罗宾侬穆罕默德和g”,研究实时数据包使用随机神经网络视频质量,”IEEE电路和系统视频技术,12卷,不。12日,第1083 - 1071页,2002年。视图:出版商的网站|谷歌学术搜索
m . h . mike vanderboegh和狼,“一个新的标准视频质量客观测量方法,”IEEE广播,50卷,不。3、312 - 322年,2004页。视图:出版商的网站|谷歌学术搜索
“模拟模型:用于传输计算模型规划,“ITU-T Rec。G.107, 1998。视图:谷歌学术搜索
a . p . Markopoulou f.a.h ayek Tobagi, m·j·卡拉姆反对“在互联网骨干网络质量的评估,”IEEE Infocom学报》上2002年6月,页150 - 159。视图:谷歌学术搜索
美国道,j . Apostolopoulos和r . Guerin”在IP网络视频质量的实时监控IEEE / ACM交易网络,16卷,不。5,1052 - 1065年,2008页。视图:出版商的网站|谷歌学术搜索
f . Massidda d d .谨慎地,c . Perra”无参考视频质量评估基于人类视觉系统对于2.5 / 3 g设备”学报学报和T电子成像2005年1月,页168 - 179。视图:出版商的网站|谷歌学术搜索
h·j·金和s . g . Choi QoS /体验质量相关性研究IPTV服务,体验质量评价模型”学报》第12先进通信技术国际会议(ICACT 10)2010年2月,页1377 - 1382。视图:谷歌学术搜索
诉Menkovski a . Oredope a李欧塔,a . Cuadra“预测质量的多媒体流,经验”第七届国际会议的程序移动计算和多媒体的发展,(MoMM ' 09)2009年12月,页52-59,。视图:出版商的网站|谷歌学术搜索
s . Balasubramaniam j . Mineraud p McDonagh et al .,“体验质量的评价参数化的基于梯度的路由监测多个IPTV提供者,“IEEE广播卷,57号2、183 - 194年,2011页。视图:谷歌学术搜索
h·德穆斯和m .比尔Matlab神经网络工具箱的用户指南MathWorks, 2000。
高桥,d .手,诉Barriac”在国际电联标准化活动的体验质量评估IPTV,”IEEE通讯杂志,46卷,不。2、78 - 84年,2008页。视图:谷歌学术搜索
“VLC媒体播放器”,http://www.videolan.org/vlc。视图:谷歌学术搜索
卷边,“Netem-Emulating真正的网络实验室,”程序的Linux会议,澳大利亚,2005年。视图:谷歌学术搜索
j . Bellardo和野蛮,“测量包重新排序,”第二届ACM SIGCOMM互联网测量车间(世界地图' 02)2002年11月,页97 - 105。视图:谷歌学术搜索
p . Calyam m .曾经,w . Mandrawa和p . Schopis”h的性能测量和分析。在323年交通。被动和主动测量车间学报》上卷,3015年,第146 - 137页,2004年。视图:谷歌学术搜索
t·弗里德曼,r·卡塞雷斯和a·克拉克“RTP控制协议扩展(服务器XR)报道,“IETF RFC 3611, 2003。视图:谷歌学术搜索