体验质量评价:三角形的实验方法

文摘

介绍了三角形的实验方法来得分的质量经验(体验质量)的移动应用程序,基于测量提取测试试验台进行端到端网络。三角形项目的方法是计算的方法灵活地推广任何移动应用程序的体验质量。生产过程最后一个三角形标志,质量得分,最终可能被用来证明应用程序。

1。介绍

5克的成功(第五代移动通信),4 g,在某种程度上,取决于它能够无缝地提供良好的应用和服务质量的经验(体验质量)。随着用户体验质量对网络运营商很重要,产品制造商(包括硬件和软件),服务提供者。然而,仍没有共识体验质量的定义,以及大量的缩写词和相关的概念(例如,见1])混乱添加到主题:体验质量(质量的经验),QoS(服务质量),QoSD(服务质量交付/通过服务提供者),QoSE(服务质量经验/被客户/用户),等等。在不断进化,这是一场方法和算法的研究的主题许多组织和标准化机构比如ITU-T。

项目采用了三角形的定义所提供的体验质量ITU-T推荐P.10 / G。100(2006)修正案1”的定义质量的经验(体验质量)”(2]。

“应用程序或服务的总体可接受性,终端用户感知到的主观的”

在[2],ITU-T强调体验的质量包括完整的端到端系统的影响:客户机(应用程序),设备,网络服务的基础设施,等等。因此,三角带来了一个完整的端到端网络测试平台和体验质量的评价方法。

符合定义,大部分的工作在这个领域一直关注主观测量的经验。通常,用户规模上的感知质量,导致典型的MOS(平均意见分)。即使在这一领域,主观评价的方法是许多研究的主题3]。

然而,有一个明确的需要体验质量分数有关技术参数,可以监控和改善或恶化的可以通过配置的变化改变了端到端通信信道的不同元素。模拟模型(4],基于造型完成大量的主观测试结果在过去广泛的传输参数,最著名的例子是计算的参数化技术的体验质量。同时,项目的结论P-SERQU之一,由NGMN(下一代移动网络)5)和集中在HTTP的体验质量分析自适应流媒体(已经),是不那么复杂和更精确的测量和预测体验质量比之间的一对一映射基于交通属性通用无线和核心网络QoS体验质量。三角形项目遵循体验质量参数计算方法。

结论在5)指出,大量的模型参数获取困难麻烦是因为所需的测量,因为这将需要更多的数据点和无线电场景优化模型。三角形方法克服这种限制通过各种各样的测量收集,各种各样的端到端网络场景设计,和主要的自动化程度,使密集的执行测试活动涵盖所有场景。

尽管有许多建议来计算质量的经验,一般来说,它们是面向特定的服务,例如,声音[6)或视频(7,8]。介绍了一种方法来计算任何应用程序的体验质量,即使应用程序支持多个服务。

用户感知的体验质量,取决于许多因素:网络条件下,两个核心(CN)和无线访问(跑),终端,服务服务器,和人为因素难以控制。由于复杂性和运行实验或测量所需的时间,大多数的研究限制体验质量的评价一组有限的,甚至是无控网络条件,特别是那些影响无线电接口(衰退、干扰等)。三角形框架提出了一种方法和计算体验质量,技术参数,加权网络的影响条件根据实际使用情况下特定的应用程序。中电联建议G1030 [9]和G1031 [10),用户的影响因素的范围以外的方法开发的三角形。

三角形已经开发了一个端到端的手机网络实验和一组测试用例自动测试应用程序在多个网络环境变化和/或终端和提供一个质量得分。分数加权计算获得的结果测试不同的使用情况下适用于应用程序,与用户相关的不同方面(三角形)的领域,为应用程序和网络场景下相关。框架允许特定QoS-to-QoE翻译被纳入框架基于主观实验新服务的结果。

注意,尽管三角形测试设备和服务项目还提供了手段,这里只给出了流程来测试应用程序。

剩下的纸是组织如下。部分2概述了相关的工作。部分3概述了三角形试验台。部分4介绍了三角形的方法。部分5详细描述了如何获得质量分数的三角形框架。部分6提供了一个示例,此方法的结果应用于评估一个简单的应用程序,Exoplayer。最后,部分7总结了结论。

2。国家的艺术

建模和评估体验质量在当前和下一代移动网络是一个重要和活跃的研究领域8]。不同类型的台可以在文献中找到,从模拟仿真移动/无线台,用于获取主观或客观的体验质量指标,提取一个体验质量模型,或以评估先前生成的体验质量模型的正确性。很多台了已经发展为一个特定的研究,而不是更一般的目的,比如三角形试验台,可以大范围的用户(研究人员、软件开发商、服务提供者、等等)。在本节中,一些QoE-related作品依靠台进行了综述。

体验质量医生工具(12三角形试验台)密切相关,因为它的主要目的是移动应用体验质量的评价准确,系统的和可重复的方式。然而,体验质量的医生只是一个Android工具,可以在不同的层进行测量,从应用程序的用户界面(UI)网络,并量化应用体验质量影响的因素。它可以用来确定一个体验质量退化的原因,但它不能控制或监控移动网络。体验质量的医生使用一个UI自动化工具复制在终端用户行为(三角形术语应用用户流)和测量用户预期的延迟通过检测在屏幕上的变化。其他体验质量指标计算体验质量的医生是移动数据网络消费和能源消费应用程序通过离线分析的TCP流。作者用体验质量的医生评估流行的应用程序的体验质量如YouTube, Facebook,或移动web浏览器。这种方法的一个缺点是,大多数指标是基于检测特定的变化对UI。因此,模块负责检测UI更改必须适应每一个具体的测试应用程序。

QoE-Lab [13)是一种多功能试验台,允许在移动网络体验质量的评价。其目的之一是评价效果的新服务,如VoIP网络场景,视频,或web应用程序。为此,QoE-Lab延伸柏林(14)实验框架支持下一代移动网络和一些新的服务,如网络电话和视频。实验允许的影响的研究网络无线技术之间的交接,动态迁移和虚拟化的资源。相似三角形,实验是在一个可重复的执行和控制环境。然而,在实验中提供(13),笔记本电脑用户设备,通常有更好的性能和更多的资源比智能手机(电池、内存和CPU)。实验还评估了不同的场景对多媒体流媒体服务的影响包括在实验中。的主要限制是不可能来评估不同的移动应用程序运行在不同的智能手机或与CPU的体验质量,电池的使用,等等。

De沼泽等。15)提出了一个以用户为中心的方法的多维评价移动现实环境中体验质量。方法依赖于分布式测试平台,监控网络QoS和上下文信息和集成主观基于现实环境下的用户体验。建议的体系结构的主要组件移动代理,一个组件被安装在用户设备监视上下文数据(位置,速度,对身体传感器,等等)和QoS参数(CPU、内存、信号强度、吞吐量等),并提供一个接口来收集用户体验反馈。处理实体接收(设备和网络)监测数据和分析传入的数据。这个试验台的基础设施的目的是研究不同的网络参数的影响在体验质量来定义新的体验质量评估模型。

在[16),作者评估蝙蝠侠和OLSR路由协议支持网络电话和视频交通从QoS和体验质量的角度来看。通过运行试验评估发生在两个不同的台。首先,实验中运行Omnet + +模拟器使用InetManet框架。第二,同样的网络拓扑结构和网络场景部署在Emulab试验台,真实(模拟)试验台,进行了相同的实验。最后,结果两台(模拟和real-emulated)相比,在统计学上为了找到不一致。实验模拟和仿真环境中显示,蝙蝠侠达到比OLSR并确定不同的协议参数及其性能之间的关系。这些结果可用于实现网络节点,控制在进行堆栈协议参数的函数观察到的流量。

在[17),一个试验台自动提取加密的视频流服务的体验质量模型。试验台包括软件代理被安装在用户设备,能够复制用户交互和收集最终用户应用程序级的测量;网络模拟器的毛病,这改变了链接条件模拟收音机或核心网络,和一个探测器软件,处理所有各级交通,计算TCP / IP指标,并比较测量的最终用户和网络水平。这个实验被用于自动构造模型(模型)和验证加密的YouTube视频性能的流量通过wi - fi连接。

最近,在18),Solera等人提出了一个实验来评估LTE网络的流媒体视频服务。特别是,3 d视频服务的体验质量在LTE评估。试验台由流媒体服务器,没网络模拟器,流媒体客户端。工作的主要贡献之一是没更好的模型的扩展包延迟的特点在丛发性服务,如视频。基于模拟的开发实验之前运行实验,作者进行了模拟运动的LTE模拟器来获取配置参数一同为四个不同的网络场景。这些场景结合在细胞内不同位置的用户和不同的网络负载。从这些作品的评论,它变得明显,模拟或仿真框架的设置无线或移动环境需要,在很多情况下,深入了解网络的场景。三角形旨在减少这种努力通过提供一组预配置的网络场景和MOS的计算以允许研究人员和应用程序开发者关注评价的新应用程序,服务和设备。

3所示。三角形

试验台,测试方法,测试用例的集合了在欧盟资助项目三角形。图1显示了构成三角形的主要功能块测试平台的体系结构。

促进使用三角形的试验台对不同目标(测试、基准测试和认证),远程访问试验台,并收集和现在的结果,一个门户网站,提供一个直观的界面,已经实现了。它提供了访问试验台应用程序开发人员隐藏不必要的复杂性。对于高级用户感兴趣的更深层次的访问配置参数的试验台元素或测试用例,该试验台提供了直接访问Keysight丝锥(测试自动化平台),这是一个可编程的音序器的行动与插件暴露的配置和控制仪器和工具集成到试验台。

除了实验本身,三角形已经开发出一种测试方法,实现一组测试用例,通过门户。实现全自动化测试用例,测试平台组件的控制下的实验管理框架,协调它们的配置和执行过程在每个测试用例,进行的测量和计算体验质量分数为应用程序测试。

此外,作为实验管理框架的一部分,每个实验组件控制通过一个司机,是利用发动机和实际的组件接口之间的桥梁。实验的不同元素的配置是由组内的测试用例来运行测试用例提供三角形或由用户自定义测试用例。实验将测试用例具体配置,设置,和行动为利用命令照顾指挥每个实验组件。

三角形测试用例指定要收集的测量来计算KPI(关键性能指标)的功能测试。从测量仪器直接测量得到,有的需要特定探测器(软件或硬件)帮助提取特定的测量。软件探针,运行在同一设备(问题,LTE用户设备),测试下的程序,包括DEKRA代理和TestelDroid [19从UMA)工具。三角形还提供了一个测量仪器库,这样应用程序开发者可以提供输出,否则不能被提取出来,必须由应用程序本身。硬件探测包括功率分析仪连接问题来测量功耗和无线访问模拟器,其中,提供内部日志协议交换和广播界面层指标较低。

电台访问(LTE)三角形试验台模拟器中发挥着关键作用。试验台运行提供了一个现成的E7515A UXM Keysight无线测试集,一个仿真器,它提供了最先进的测试功能。最重要的是,UXM还提供了无线信道仿真下行广播频道。

为了提供一个端到端的系统,测试平台集成了一个商业EPC (LTE进化包芯)北极星网络,其中包括一个标准的主要元素符合3 gpp LTE核心网络,也就是说,居里夫人(移动管理实体)、信令转换(服务网关),产气井(包网关),高速钢(家庭用户服务器),PCRF(政策和收费规则函数)。此外,这个EPC包括EPDG(进化包数据网关)和ANDSF(访问网络发现和会话功能)组件为双连接性场景。运行模拟器与EPC标准S1接口。实验还提供集成人工缺陷的可能性在核心网络之间的接口和应用程序服务器。

Quamotion WebDriver,另一个三角形元素,能够自动化用户操作在iOS和Android应用程序是否都是本地人,混合,完全基于web的。这个工具还用于事先录音软件的用户流,否则需要自动手动用户操作的测试用例。这就完成了完整的自动化操作。

最后,实验也包含商业移动设备(问题)。试验台的设备物理连接。为了保持广播电台访问模拟器配置条件,运行模拟器是移动设备天线连接器电缆进行。精确测量功耗,N6705B功率分析仪设备的直接权力。其他测量仪器可能被添加在未来。

4所示。三角形的方法

三角形试验台是一个端到端的框架用于测试和基准测试移动应用程序,服务和设备。背后的想法三角形实验中采用的测试方法是推广体验质量计算和计算提供了一种编程方法。使用这种方法,计算的三角形试验台可以容纳任何应用程序的体验质量。

三角形的体验质量评价方法的基本概念是,用户感知的质量取决于许多方面(文中称为域),这种看法取决于其针对性的用例。例如,电池寿命是至关重要的病人在直播的监视应用程序但不重要。

5 g来定义不同的使用情况下,基于三角形工作在下一代移动网络(NGMN)联盟基本白皮书,它指定预期的服务和网络性能在未来5 g网络(20.]。更准确地说,这个三角形项目采取了模块化的方法,把所谓的“NGMN用例”分割成块。这个名字用例一直在三角形的方法来描述应用程序中,服务,或垂直使用网络服务。预计在5 g的多元化服务需要一个具体的分类有一个急剧的用户将相互作用。这是必不可少的理解方面的体验质量评价需要解决。最后用例分类定义在[11),既有服务通常可以通过手机访问(问题)和那些可以集成,例如,游戏控制台,先进的虚拟现实设备,汽车单位,或物联网系统。

三角形域组不同方面,会影响最终的用户体验质量感知。目前试验台实现支持三个已确定的几个领域:应用程序的用户体验(真正的),应用能量消耗(AEC)、设备和应用程序资源的使用(RES)。

表1提供了用例和表2域最初考虑的三角形列表。


*标识符*	用例

虚拟现实	虚拟现实

遗传算法	游戏

基于“增大化现实”技术	增强现实

CS	流媒体内容分发服务

LS	实时流媒体服务

SN	社交网络

海关	高速互联网

点	病人监护

西文	紧急服务

SM	智能计量

SG	智能电网

简历	连接车辆


类别		标识符	域

应用程序		真正的	应用程序的用户体验
		原子能委员会	应用能源消耗
		RES	设备资源的使用
		REL	可靠性
		NWR	网络资源

设备	移动设备	12月	能源消耗
		DDP	数据表现
		DRF	无线电的性能
		半径标注	用户体验与参考应用
	物联网设备	印尼盾	可靠性
		国内流离失所者	数据表现
		IEC	能源消耗

生产数据来评估体验质量,一系列的测试用例设计,开发,实现上运行三角形试验台。显然,并不是所有的测试用例在测试适用于所有应用程序,因为并不是所有的应用程序的需求,或设计,支持所有的功能,可以测试试验台。为了自动确定测试用例适用于被测试应用程序,一份调查问卷(门户中标识为特征问卷),相当于经典的一致性测试ICS(实现一致性声明),已经开发并通过门户来访问。填写问卷之后,适用的测试计划,也就是说,测试活动与适用的测试用例列表,是自动生成的。

用户操作的序列(类型、刷卡、水龙头等)用户需要执行终端(问题)来完成一个任务(例如,播放视频)被称为“应用程序用户流”。为了能够自动运行一个测试用例,实际的应用程序用户流量,用户操作的用户需要执行在电话里完成某些任务中定义的测试用例,也有提供。

每个测试用例意义明确的定义了执行的条件,用户可以执行的动作序列(即。,the app user flow), the sequence of actions that the elements of the testbed must perform, the traffic injected, the collection of measurements to take, and so forth. In order to obtain statistical significance, each test case includes a number of executions (iterations) under certain network conditions (herein called场景)。的各种测量在不同的迭代在任何特定的网络条件下(场景),许多kpi(关键性能指标)计算。kpi归一化到一个标准的状态,通常用于MOS得分,被称为synthetic-MOS所采用的术语,从之前的作品(7,21]。synthetic-MOS值聚集在网络场景产生许多中间synthetic-MOS分数,最终是聚合获得synthetic-MOS得分在每个测试用例(请看图2)。

这个过程获得最后的三角形标志是连续的。首先,对于每一个域,synthetic-MOS分数的加权平均获得的计算域中的每个测试用例。接下来,synthetic-MOS值的加权平均计算的一个用例是在所有领域提供一个synthetic-MOS值/用例。应用程序通常会发展为一个特定的用例,表中定义的1,但可以为多个用例设计的。在后一种情况下,进一步与synthetic-MOS分数进行加权平均获得的每个用例支持的应用程序。这些顺序步骤产生一个三角形标志,整体质量分数,如图3。

这种方法提供了一种常见的用于测试的应用程序的框架,对于基准测试应用程序,甚至不同应用程序认证的。整个过程为应用程序实现功能不同的用例图描述了3。

5。三角形的细节体验质量计算

为每个用例确定(见表1(见表)和域2),大量的三角形内的测试用例开发项目。每个测试用例打算测试一个个体特性,方面,或被测试的应用程序的行为,如图4。

每个测试用例定义了大量的测量,而且测量的结果取决于许多因素,它们不是,一般来说,确定性,和,因此,每个测试用例设计不执行只是一个单一的测量(N)的迭代次数相同的测量。的测量,kpi计算。例如,如果加载第一个媒体框架是测量在一个特定的测试用例,用户平均等待时间KPI可以计算通过计算值的均值在所有迭代。一般来说,不同的用例领域对一组不同的kpi。鼓励读者阅读(11]为进一步详细信息中使用的术语的三角形。

推荐P.10 / G。100Amendment 1 Definition of Quality of Experience [2)指出,总体可接受性可能受到用户的期望和上下文。对语境的定义,技术规格ITU-T G1030”估计在IP网络端到端性能数据应用程序”(9)和ITU-T G1031“网页浏览体验质量因素”(10)被认为是三角形。特别是,ITU-T G1031 [10)确定下列环境影响因素:位置(食堂、办公室和家庭),交互性(高级交互性与低级交互性),任务类型(商业、娱乐等),和任务的紧迫性(紧急与休闲)。然而,用户的影响因素的范围之外的国际电信联盟的建议。

在三角项目中,上下文信息在网络被抓获场景定义(城市——网吧非高峰;郊区购物中心——忙碌的时间;城市——行人;城市——办公室;高速列车-继电器;等)和在指定的测试用例11]。

测试用例指定测试的条件也必须执行的操作序列由应用程序(应用程序用户流)来测试它的功能。例如,测试用例,测试“播放和暂停的功能定义了应用程序用户流如图5。

kpi的变换成体验质量分数是最具挑战性的一步三角形框架。测试用例的执行将产生大量的原始测量数据对系统的几个方面。通过统计分析特定kpi可以提取:意思是,偏差,累积分布函数(CDF),或比例。

kpi将分别插入为了提供一个通用的同类比较和聚集空间。两个函数的插值是基于应用程序,命名为I型和II型。通过使用提出了两种类型的篡改,绝大多数的kpi可以翻译成规范化MOS-type指标(合成-金属氧化物半导体平均),容易为了提供一个简单的、统一的评价。

I型。这个函数执行原始数据的线性插值。的变量和是最坏的和最好的已知值KPI的参考案例。函数映射一个值,v、KPIv '(synthetic-MOS)在[状态]的计算公式如下: 这个函数变换KPI synthetic-MOS值通过一个简单的线性插值最差和最好的期望值之间的参考案例。如果未来的输入数据范围以外的KPI,新值将被设置为极端值(如果它是更糟)(如果它是更好的)。

II型。这个函数执行对数插值和灵感在舆论ITU-T推荐的模型在9)一个简单的web搜索任务。这个函数映射一个值,v、KPIv '(synthetic-MOS)在[状态]的计算公式如下: 的默认值和对应于简单的web搜索任务情况(= 0003,= 0,(12)9,22)和最严重的价值已经从ITU-T G1030。如果在未来实验输入情况下数据范围以外的KPI,参数和将相应更新。同样地,如果通过主观试验其他值被认为是为特定的服务,更好的调整功能可以很容易地更新。

一旦所有kpi译成synthetic-MOS值,他们可以用合适的平均重量。在平均过程中,第一步是通过网络平均场景考虑相关的用例中,如图2。这提供了synthetic-MOS输出值的测试用例。如果有多个测试用例/域,通常情况下,计算加权平均每个域提供一个synthetic-MOS值,如图3。最后一步是平均synthetic-MOS分数除以所有用例支持的应用程序(参见图3)。这提供了最后的分数,即三角形标记。

6。一个实际的例子:Exoplayer测试下

为了更好的理解,获得三角形标记的完整过程为一个特定的应用程序,Exoplayer,在这一节中描述。这个应用程序只有一个用例:流媒体内容分发服务(CS)。

Exoplayer是Android的应用程序级媒体播放器由谷歌。它提供了一个替代安卓的媒体播放器的API,用于播放音频和视频都在本地和互联网上。Exoplayer支持Android API的媒体播放器,目前不支持的特性包括破折号和SmoothStreaming适应性回馈。

三角形项目集中在测试两Exoplayer特性:“非交互的回放”和“播放和暂停。“这些特性导致6适用的测试用例,测试用例的定义在三角形。这些测试用例是真正的/ CS / 001和真正的/ CS / 002,在应用程序的用户体验领域,测试用例的AEC / CS / 001和原子能委员会/ CS / 002,在应用领域,能源消耗和测试用例RES / CS / 001和RES / CS / 002,设备资源的使用领域。

公司/ CS / 002“播放和暂停”测试用例描述,属于真正的领域,如表所示3。指定测试条件,测试用例描述的通用应用程序用户流量,和原始的测量,测试的执行期间收集的。


标识符	公司/ CS / 002(应用程序的用户体验/内容流/ 002)

标题	播放和暂停

客观的	测量的能力AUT暂停和恢复一个媒体文件。

适用性	(ICSG_ProductType =应用程序)和(ICSG_UseCases包括CS)和ICSA_CSPause

初始条件	AUT (AUT_STARTED)模式。(注:定义在D2.2 [11附录4)

步骤	(1)	测试系统命令AUT回放应用程序用户流(应用程序用户流
		按第一次播放按钮,以及后来的暂停按钮)。
	(2)	测试系统措施是否暂停操作是成功的。

后同步信号	(我)	执行后同步信号序列(见2.6节在D2.2 [11附录4)

测量(生)	(我)	回放截止:概率成功启动流繁殖是除了结束的原因
		由用户故意终止。
	(2)	暂停操作:暂停操作是否成功与否。
	(3)	时间负载恢复后的第一个媒体框架(s):用户点击恢复按钮以来的时间
		直到媒体开始繁殖。 (注意:对于Exoplayer RESUME按钮播放按钮)

三角形项目还提供了一个库,包括测量点应该插入到应用程序的源代码使指定的测量数据的集合。表4显示计算所需的测量分测试用例中指定的测量公司/ CS / 002。


测量	测量分

加载第一个媒体框架	媒体文件播放——开始
	媒体文件播放——第一个图片

回放截止	媒体文件播放——开始
	媒体文件播放结束

暂停	媒体文件播放,暂停

加载第一个媒体图片测量获得减去测量的时间戳点“媒体文件播放-开始”从测量角度“媒体文件播放——第一画面。”

在指定11),适用于定义的所有场景用例内容流。因此,测试用例的三个领域目前的实验支持的所有的执行场景。

测试活动结束后,原始的测量结果处理获得与每个测试用例相关联的kpi:平均电流消耗,平均时间加载第一个媒体框架,平均CPU使用率,等等。应用详细的流程表5。基于先前的实验由作者,加载第一媒体的行为框架KPI类似网络响应时间KPI(即。的时间,用户不得不等待服务),因此,建议在网络搜索中引入的意见模型(9),对数插值(II型)已经被用于这个指标。


功能	域	KPI	合成金属氧化物半导体的计算	KPI_min	KPI_max

非交互式回放	原子能委员会	平均能耗	I型	10 W	0.8 W

非交互式回放	真正的	加载第一个媒体框架	II型	女士KPI_worst = 20

非交互式回放	真正的	回放截止率	I型	50%	0

非交互式回放	真正的	视频分辨率	I型	240便士	720便士

非交互式回放	RES	平均CPU使用率	I型	100%	16%

非交互式回放	RES	平均内存使用	I型	100%	40%

播放和暂停	原子能委员会	平均能耗	I型	10 W	0.8 W

播放和暂停	真正的	暂停操作成功率	I型	50%	100%

播放和暂停	RES	平均CPU使用率	I型	100%	16%

播放和暂停	RES	平均内存使用	I型	100%	40%

初始过程的结果,也就是说,kpi计算,译成synthetics-MOS值。计算这些值,每个kpi的参考基准测试值需要使用根据规范化和插值过程中描述的部分5。表5显示了当前使用了三角形的应用用户体验领域,过去也曾被NGMN precommercial试验的参考文献[23]。

例如,对于“时间加载第一媒体框架“KPI表所示5、平均聚合应用的类型和使用的插值公式是II型。

实现稳定的结果,每个测试用例执行10次迭代(10)在每个网络场景。synthetic-MOS值在每个域synthetic-MOS测量值的平均值的计算域。例如,synthetic-MOS值的RES领域获得的平均synthetic-MOS价值“平均CPU使用率”和“平均内存使用情况”两个测试用例。

尽管Exoplayer支持多个视频流的协议,这项工作只有短跑24)(动态自适应流媒体通过HTTP)测试。DASH客户决策应该无缝地适应不断变化的网络环境的视频片段下载(在多个比特率视频编码)。Exoplayer的默认适应算法基本上是throughput-based和一些参数控制和切换时可能发生的频率。

在实验测试中,配置了不同的网络场景中定义(11]。在这种情况下,网络配置更改后动态随机模式,导致不同的最大吞吐量率。被测试的应用程序的预期行为的视频客户端适应可用的吞吐量减少或增加了视频的分辨率。图6描述了客户端如何有效地适应信道条件。

然而,测试的目的进行三角图版实验不仅验证视频客户端实际适应最大吞吐量也可用来检查这是否适应提高了用户的体验质量。

表6显示的总结synthetic-MOS值获得每个场景在一个测试用例的每个域。RES和原子能委员会的领域获得的成绩总是很高。真正的领域,合成金属氧化物半导体相关的视频分辨率显示低分数的一些场景,因为分辨率降低,合理的好成绩的时间来加载第一媒体,和高分回放截止时间比率。总的来说,它可以得出结论,DASH实现视频流的测试客户机能够适应不断变化的网络条件,维护一个可接受的视频截止,rebuffering时间和资源使用。


	真正的域			原子能委员会域	RES域
	公司/ CS / 001的测试用例			测试用例原子能委员会/ CS / 001	测试用例RES / CS / 001
场景	加载第一个媒体框架	回放截止率	视频分辨率模式	平均能耗	平均CPU使用率	平均内存使用情况

高速客运直航	2。1	3所示。1	2。3	4.7	4.3	4.2

郊区的节日	3所示。8	4.7	3所示。1	4.8	4.3	4.1

郊区购物中心忙碌的时间	3所示。7	3所示。7	1.3	4.8	4.4	4.1

郊区购物中心离峰	3所示。6	3所示。1	2。3	4.8	4.3	4.1

郊区体育场	3所示。8	2。9	2。1	4.7	4.4	4.1

城市驾驶正常	2。6	3所示。9	2。8	4.7	4.4	4

城市驾驶的交通堵塞	3所示。4	3所示。7	1.6	4.8	4.4	4

城市网吧繁忙的时间	3所示。8	3所示。7	1.9	4.8	4.4	4

城市网吧非高峰	3所示。8	3所示。1	2。3	4.8	4.3	4

城市的办公室	3所示。8	4.7	3所示。3	4.8	4.5	4.3

城市人行	3所示。9	2。6	2	4.7	4.4	4

	3所示。5	3所示。6	2。3	4.7	4.4	4.1

每个域的最后得分是通过平均synthetic-MOS值的测试网络场景。图7显示了三个域蜘蛛图测试。在用户体验领域,获得的分数低于其他领域,由于低synthetic-MOS值获得视频分辨率。

最后合成金属氧化物半导体的用例流媒体内容分布的加权平均获得的三个领域,代表了用户整体体验质量感知。Exoplayer的最后得分1.516版本和功能测试(非交互的播放和播放和暂停)为4.2,这意味着低分数获得高分的视频分辨率补偿其他kpi。

如果一个应用程序测试下有多个用例,下一个步骤的三角形标志项目的方法是每个用例和聚合聚合所有用例。三角形标记,最后得分是一个估计的总体体验质量感知的用户。

三角形在当前实现中,所有聚合的权重是相同的。还需要进一步研究,以适当地定义每个域的权重和每个用例的总体分数的应用程序。

7所示。结论

三角形的主要贡献项目是提供一个框架,概括了体验质量计算,使广泛的和可重复的测试的执行活动获得有意义的体验质量分数。三角形项目还定义了一个方法,它是基于kpi的转换和聚合,其转型为synthetic-MOS价值观,及其在不同的聚合域和用例。

三角形的方法是计算的方法灵活地概括为任何应用程序/服务体验质量。方法进行验证测试DASH实现Exoplayer应用。确认使用的重量平均过程的适用性和插值参数,以及验证获得的相关MOS得分由用户,作者用真实用户已经开始实验,初步结果是令人鼓舞的。

描述的过程产生的最后一个三角形标志,一个质量得分,最终可能被用来证明应用后实现共识过程的不同的值(重量、限制等)使用。

数据可用性

方法和结果用于支持本研究的结果中包括这篇文章。

的利益冲突

作者宣称没有利益冲突。

确认

三角形的项目由欧盟的地平线2020研究和创新计划(批准协议。688712)。

引用

ETSI、“人为因素:质量的经验(体验质量)要求实时通信服务,“技术。众议员102 643,2010。视图:谷歌学术搜索
P.10 / G ITU-T。”100(2006)amendment 1 (01/07): new appendix I - definition of quality of experience (QoE),” 2007.视图:谷歌学术搜索
f . Kozamernik诉Steinmann, p .伊斯兰教教规,e . Wyckens”SAMVIQ——一个新的欧洲方法在多媒体、视频质量评估”SMPTE运动成像杂志,卷114,不。4、152 - 160年,2005页。视图:出版商的网站|谷歌学术搜索
ITU-T,”G。107: the E-model: a computational model for use in transmission planning,” 2015.视图:谷歌学术搜索
j . De Vriendt d . De Vleeschauwer, d . c .罗宾逊,“体验质量模型使用HTTP的LTE网络上传送的视频自适应流媒体,”贝尔实验室技术杂志,18卷,不。4,45 - 62年,2014页。视图:出版商的网站|谷歌学术搜索
s Jelassi g .罗宾侬h·梅尔文·h·优素福,和g . Pujolle”经验的VoIP服务:质量的调查评估方法和开放的问题,“IEEE通信调查和教程,14卷,不。2、491 - 513年,2012页。视图:谷歌学术搜索
m . Li C.-L。叶,S.-Y。陆”,对视频流服务的体验质量实时监测系统自适应媒体播出,“国际期刊的数字多媒体广播卷,2018篇文章ID 2619438, 11页,2018年。视图:出版商的网站|谷歌学术搜索
美国Baraković和l . Skorin-Kapov”调查和挑战的体验质量在无线网络管理问题,“计算机网络和通讯》杂志上文章ID 165146卷,2013年,28,2013页。视图:出版商的网站|谷歌学术搜索
ITU-T,”G。1030: estimating end-to-end performance in IP networks for data applications,” 2014.视图:谷歌学术搜索
ITU-T,”G。1031QoE factors in web-browsing,” 2014.视图:谷歌学术搜索
欧盟H2020三角形的项目,交付D2.2最终报告的规范化认证过程,需求和用例,2017,https://www.triangle-project.eu/project-old/deliverables/。
问:a, h·罗美国罗森et al .,“体验质量医生:移动应用体验质量诊断与自动化UI控制和跨层分析,”《互联网测量会议(IMC的会议上14)ACM,页151 - 164年,温哥华,加拿大,2014年11月。视图:出版商的网站|谷歌学术搜索
m·a·Mehmood a . Wundsam s Uhlig d·莱文n . Sarrar和a . Feldmann”QoE-Lab:对评估质量的经验为未来互联网条件下,”台和研究基础设施,Korakis T。李,H。,Tran-Gia P., and H. S. Park, Eds., vol. 90 of2011年TridentCom Lnicst施普林格,页286 - 301年,网络和社区的发展,柏林,德国,2012年。视图:谷歌学术搜索
d·莱文,a . Wundsam a Mehmood, a Feldmann,”柏林:柏林实验创新网络、路由器实验室”TridentCom 2010。Lnicsta、t . Magedanz Gavras: h . Thanh和j·s·追逐,Eds。,46卷课堂讲稿的计算机科学研究所、社会信息和通信工程施普林格,页602 - 604年,德国海德堡2011。视图:出版商的网站|谷歌学术搜索
k . De沼泽Ketyko, w·约瑟夫et al。”提出框架评估质量的经验在移动,testbed-oriented生活实验室环境,”移动网络和应用程序,15卷,不。3、378 - 391年,2010页。视图:出版商的网站|谷歌学术搜索
r . Sanchez-Iborra,医学博士。卡诺、j·j·p·c·罗德里格斯和j . Garcia-Haro”实验体验质量性能研究为高要求的高效传输流量在一个特设网络使用蝙蝠侠,”移动信息系统ID 217106条,卷。2015年,14页,2015。视图:出版商的网站|谷歌学术搜索
p . Oliver-Balsalobre m .念美国Luna-Ramirez, r·加西亚Garaluz”建模加密视频服务系统试验台性能指标基于TCP / IP的度量标准,“EURASIP无线通讯和网络》杂志上,卷2017,不。1,2017。视图:出版商的网站|谷歌学术搜索
m . Solera m .念Palomo, g .戈麦斯和j . Poncela”的实验评估LTE的视频流服务,“无线个人通信,卷98,不。3、2753 - 2773年,2018页。视图:出版商的网站|谷歌学术搜索
a·阿尔瓦雷斯,a·迪亚兹,p .美利奴,f . j . Rivas”实地测量与Android智能手机移动服务,”《IEEE消费者通讯和网络会议(CCNC 12)109年,页105 -拉斯维加斯,内华达州,美国2012年1月。视图:出版商的网站|谷歌学术搜索
NGMN联盟”,5 g NGMN白皮书”,2015年,https://www.ngmn.org/fileadmin/ngmn/content/downloads/Technical/2015/NGMN_5G_White_Paper_V1_0.pdf。视图:谷歌学术搜索
b . Pernici。“自适应性和灵活性,基础设施和设计”移动信息系统施普林格,2006年。视图:谷歌学术搜索
j·尼尔森,“响应时间:三个重要极限,”可用性工程,1993年。视图:谷歌学术搜索
NGMN联盟”的定义的测试框架NGMN 5 g试运行网络试验,”2018年,https://www.ngmn.org/fileadmin/ngmn/content/downloads/Technical/2018/180220_NGMN_PreCommTrials_Framework_definition_v1_0.pdf。视图:谷歌学术搜索
3 gpp TS 26.246,“透明的端到端分组交换流媒体服务(PSS);进步和动态自适应流媒体下载通过HTTP (3 gp-dash), 2018。视图:谷歌学术搜索

无线通信和移动计算

台为未来无线网络

文摘