复杂性

在这一页上

文摘介绍相关工作结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

解决工程和科学问题使用复杂仿生计算方法

把这个特殊的问题

研究文章|开放获取

体积2020年| 文章的ID8832715| https://doi.org/10.1155/2020/8832715

自适应有限的全景视频多播流FoV反馈

杰李 ,¹ 凌汉 ,¹ 从张 ,¹ Qiyue李 ,² 和Weitao李 ²

学术编辑器: Zhile杨

收到了 2020年8月21日

修改后的 2020年10月27日

接受 2020年12月01

发表 2020年12月18日

文摘

虚拟现实(VR)提供一个身临其境的360度观看体验,在许多领域得到了广泛的应用。然而,全景视频的传播通常对带宽需求大;因此,很难确保质量可靠的经验(体验质量)在一个有限的带宽。在本文中,我们提出一个视场(FoV)预测方法基于有限FoV反馈可以融合热图和视场信息生成一个用户视图。前者是通过卓越检测,而后者提取随机从一些用户的角度,它包含所有用户的视场目标信息。然后,我们设计一个QoE-driven全景视频系统客户端/服务器(C / S)架构,服务器执行的速度适应基于带宽和预测视场。然后制定一个非线性整数规划(NLP)问题和提出一个最优算法,结合了Karush-Kuhn-Tucker(马)的条件和方法来解决这个问题。最后,我们评估我们的系统在模拟环境中,结果表明,该系统比基线执行。

1。介绍

虚拟现实(VR)技术最近变得越来越重要的交互式应用程序的需求上升。作为最重要的一个应用程序的虚拟现实,360度的视频已经成为越来越受欢迎。头盔显示器(HMD)的帮助下,用户可以自由地调整他们的正面改变的方向看来,它提供了一个非凡的身临其境的体验和深度向四面八方扩散。然而,motion-to-photon延迟要求360度视频必须小于20[女士1];否则,视觉上引起晕动病(VIMS)会发生2]。从网络的角度来看,360度的传播视频需要大量带宽资源。有一个非常大的差距传统无线技术的带宽容量和带宽需求的360度的视频流。例如,带宽需求至少4.2 Gbps 360度视频流时4 k分辨率在120帧每秒(FPS) [3),大大超过了当前无线(如细胞)网络带宽。因此,它是非常困难的360度与高质量流媒体视频传输4 k或更高的分辨率。这个挑战是更严重的实时流媒体视频360度。

由于显示设备的限制,用户可以只看约整个360度的视频通过戴着头盔显示器,这通常被称为FoV [4]。因此,传输整个360度的内容是YouTube的策略(5),结果在一个大的带宽和计算资源的浪费。最受欢迎的360度的视频传输的方法是基于题目自适应传输,这360度的视频帧分为多个瓦片在空间和瓦片编码成multibitrate段。然后,这些瓷砖覆盖用户的视场目标高质量传输,而瓷砖外视场不传播或传播,但较低的质量。最重要的两个方案在基于题目自适应传输速率适应和视窗适应(6- - - - - -8]。

适应方法专注于避免可能的降解率的视频质量或停滞在恶劣的网络条件下360度的视频流。考虑动态和不确定视场和网络条件的影响,是非常重要的视频质量之间做出决定,带宽效率和视场切换延迟。适应速度的目标是研究自适应控制实现最优体验质量的视频比特率为360度的视频流。例如,在[6),作者开发了基于题目的不同体验质量评估标准和设计自适应360度视频最大化用户体验质量。

使用viewport适应适应用户的头部运动预测视场。因为用户的视场只能覆盖360度全场景的一部分在任何给定的时刻,可以采取基于题目部分交付的方法通过预测用户的提前FoV只传输相关的瓷砖。然而,由于头部运动的随机性和不确定性,FoV的准确性预测可能是可怜的。传输只预测视场区域可能会导致观众的真实视场不覆盖任何内容,这将极大地影响他或她的体验质量。因此,改善用户体验质量,non-FoV地区通常也需要较低的传输质量。客户端请求视频瓷砖时,服务器应该选择一个合适的质量水平的实时视频瓷砖在接下来的时刻。视频的质量水平瓷砖覆盖整个360度场景随机分配和传播如果FoV预测不能实时进行,这可能会导致用户想看的视频瓷砖的低质量,从而影响用户的体验质量。

自适应传输,重要的是上传用户的实时视场信息通过上行通道,它可以帮助视频服务器选择的最优表示在360度的视频流传输系统。然而,在等一些视频多播应用VR剧院,每个用户可以选择查看感兴趣的角度360度无线视频由戴着头盔显示器和请求视频瓷砖。自当前通信系统的渠道是不对称的,上行信道的带宽远小于下行信道,上行无线网络带宽不能支持FoV的上传信息实时为所有用户,这可能导致爆炸问题的反馈9]。在这个时候,只有一小部分用户可以上传FoV信息。因此,它是一个挑战,展示如何使用只有少量的视场信息最优多播视频传输。

挑战主要来自两个方面:第一,很难准确地预测用户的视场。例如,[10,11)提出利用用户的当前视场代表他或她的未来的视场,但他们的预测地平线很短。此外,该方法需要上传大量的用户窗口信息,以确保预测的准确性。然后,很难设计一个简单但有效的速度适应算法来解决网络带宽的变化。菅直人et al。12)提出了一个深刻的强化学习(DRL)的速度适应算法最大化用户体验质量。DRL实验室提供了一个良好的性能,但其复杂度非常高,和它的计算速度是缓慢的。

考虑到人类看相似行为(13),每个用户将被吸引到显著区域的视频,代表该地区,大多数用户可能的手表。因此,执行卓越视频可以揭示显著区域检测,这种方法虽然有一定的错误。然后,我们使用一个小的视场目标信息的用户数量校准凸起区获得更准确的视窗所有用户的信息,然后作为优化传输系统的基础。因此,在本文中,一个360度的实时视频自适应传输系统提出了基于有限FoV反馈。具体来说,服务器提取视频特点,结合真实视场有限的反馈信息来估计该地区最有可能关注。我们使用一个低计算融合算法进行实时预测。然后,估计结果和无线网络带宽用于选择适当的质量水平为每个瓷砖最大化传输所有用户的体验质量。我们定义的传输问题设计系统作为一个非线性整数规划问题。为了解决这个问题,我们设计一个算法结合马条件和和方法。

总之,我们的贡献如下:(1)我们提出一个QoE-optimized 360度的视频流系统视场有限反馈。(2)我们提出一个多用户窗口的预测方法,融合其他用户的窗口和凸起地图是从视频序列获得视场目标预测的结果。(3)我们提出一个最优算法,结合了马的条件和方法来解决优化问题。(4)我们提出一个多用户QoE-driven模型来分配每个瓷砖最好的比特率。我们模拟体验质量优化模型,进行详尽的实验仿真试验台。

本文的其余部分组织如下。部分2介绍了相关工作在360度视频和自适应360度的视频流。部分3描述了系统模型和制定优化问题。节4,我们专门描述viewport的预测方法。部分5设计的马条件和算法。绩效评估和比较了部分6。最后,给出本文的结论部分7。

本节介绍了相关方案体验质量模型和360度的视频流在文献中。

360度的视频可以通过一个全向相机记录(例如,三星齿轮360),或多个摄像机可用于单独的视频,然后组合成一个360度的视频软件聚合和缝合。方便的存储和处理360度的视频从一个球形领域,360度的视频从一个球形领域通常是投射到一个二维(2 d)飞机14]。自360年以来度在2 d视频格式可以reprojected HMD[球面上飞机的15),用户可以享受球形戴着头盔显示器的视频内容。与传统的视频相比,传输一个360度的视频需要更高的带宽。因此,基于题目自适应流媒体提出了减少所需的传输带宽和避免可能的视频质量退化或停滞在网络条件差。

目前,360度的投影格式视频包括cubemap投影(CMP)格式,equirectangular投影(ERP)格式,截棱锥投影(TSP)格式。由于ERP和CMP格式比TSP格式,他们是在实践中使用最广泛的16]。摘要QoE-optimized传输方法提出了基于ERP的格式。在球面投影到二维平面上ERP格式,一个360度基于题目的经历自适应流媒体视频。在基于题目自适应流媒体中,服务器通常先暂时把360度与ERP格式视频分成多个组的照片(共和党),每一个都包含一定数量的视频帧。然后,服务器空间每个共和党分为多个瓦片并将它们在不同的编码比特率。根据网络带宽和视场,服务器为每个瓷砖自适应地选择最优质量水平并将其传输到客户端。基于题目自适应传输,视窗适应或速率可以进行改编。前者的核心是预测用户窗口,和后者的核心是资源配置的服务器。

在窗口自适应流媒体的关键作用,FoV预测至关重要。用户的预测未来FoV的目的是提供适当的未来视频片段的一部分。视场目标预测算法在文献[10,11,17- - - - - -24可以分为两类:trajectory-based和基于内容的。例如,冯et al。11)提出了一个天真的预测方法,直接利用用户的当前观点代表她/他未来的角度来看,它可以达到以上的准确率在一个短的时间间隔。然而,当预测用户的位置在接下来的2秒,预测准确率迅速下降。不准确FoV预测之间的不匹配可能会导致内容预取的缓冲和被观众的实际FoV覆盖。在[17),长期短期记忆(LSTM)是用于编码的历史视场扫描路径和结合了隐藏状态特征和视觉特征进行预测提前1秒。在[18],两个深提出了强化学习模型:第一个离线模型被用来估计每一帧的热图的潜在FoV基于视觉特性,然后在线模型用于预测头运动基于过去观察头部位置和地图离线模型的热。最近工作(19)将viewport预测视为一个序列学习问题,提出了预测目标用户的未来视窗不仅基于用户的自己的过去视窗轨迹也是其他用户未来的窗口位置。此外,作者在20.,24]提出了一种基于cross-user学习可以提高FoV预测精度的方法利用用户的类似的看相同的视频。

最大化体验质量在带宽有限的条件下,作者在12,25- - - - - -30.)研究了自适应360度的视频流。其中,(12,26,27]假定用户窗口和直接考虑速度适应瓷砖。例如,[12)提出了一个DRL-based率适应算法最大化用户体验质量传输视频质量适应时变的网络带宽。李等人。26360度]提出了QoE-driven生活系统视频,视频服务器执行率适应基于上行和下行带宽和每个用户的实时视场目标信息。此外,还有研究结合视窗适应和适应。例如,谢et al。29日)提出了一个adaptive-tile-based流媒体传输系统基于概率模型,命名为360 probdash结合视窗适应和适应解决QoE-driven优化问题。在[15),作者提出了一种自适应方法相结合的角度和速度,它使用高斯和Zipf模型来预测用户的观点和优化用户体验质量使用两级优化算法。与[15),我们的自适应方法结合率和观点是基于有限FoV反馈。我们表现的多用户观点预测融合其他用户的视窗和凸起地图从视频序列和优化获得多用户体验质量结合马条件和方法。考虑到视场和带宽估计,作者在30.)提出了服务器端速率适应基于概率的360度的自适应视频瓷砖可见性。

3所示。360度的视频流系统概述

在本节中,我们介绍了应用场景中,我们的360度视频实时流媒体系统视场有限反馈,预计FoV的所有用户和无线资源分配下行根据预测结果最大化总体体验质量。

3.1。系统模型

考虑到应用程序场景如图1,每个人都可以选择感兴趣的视角,戴着头盔显示器在VR剧院。视频服务器将一个完整的360度的视频分为砖在不同的比特率编码和选择合适的视频内容传输给用户根据用户的视场。视频传输也受到下行信道带宽的影响。为所有用户提供最好的体验质量,现有的流媒体系统假设所有用户上传FoV实时信息。然而,由于大量用户都位于一个小区域,上行无线网络带宽不能支持所有用户上传他们的负担fov同时,这将大大影响传输系统优化的结果。获取所有用户的视场信息,我们首先提取视频的凸起热图,代表该地区大多数用户可能的手表。然后,我们使用少量的真实视窗用户校准,提高预测精度。

在本文中,我们设计一个自适应基于有限的360度的视频流系统视场的反馈。系统需要在空间域(即做出决定。瓷砖收购)和质量域(即。,which qualities to acquire), which together constitute a very large search space. We first determine the tiles to be acquired based on the FoV prediction and then determine the quality level of the tiles through a rate adaptation algorithm. As shown in Figure2,该系统主要由两部分组成:处理模块在服务器端和客户端。

服务器上执行的一系列流程上传原来的360度的视频。首先,原来的360度视频传播共和党。服务器空间每个共和党分为很多瓷砖,其中每个共和党由相同大小的块,然后服务器编码每个瓷砖到一个不同的质量水平。服务器的视场估计模块预测用户的窗口在每个时刻基于热图360度获得的视频显著检测和用户的实时FoV反馈。最后,根据用户FoV预测,服务器结合反馈rate-adaptive下行无线信道带宽信息传播,为每个瓷砖选择一个最优质量水平,并将其传输到客户端。其中,视窗预测模块中最重要的模块服务器。

viewport预测模块提取显著热量地图360度的视频,并将其与有限数量的用户视窗通过融合来获得更准确的信息对所有用户的视场。我们使用一个低计算融合方法,该方法计算像素块的相似度通过区域之间的协方差提取的热图和用户的实时视窗。然后,相似的像素块热图和用户的窗口之间的合并获得融合图像,即预测FoV的所有用户。该方法的计算复杂度很低;因此,用户的视场可以实时预测。

在客户端,经过一系列的过程,如解码、映射、编码和渲染,瓷砖终于综合成一个完整的360度通过头盔显示器视频并呈现给用户。此外,客户端传送少量用户的实时视窗信息到服务器通过上行反馈通道,这有助于预测的所有用户的视场。如前所述,目前很难不对称无线通信网络实现实时传输大量用户视窗。为了解决这个问题,客户端上传只有一定量的视窗信息下的每个用户对服务器的带宽的限制。

3.2。问题的形成

假设一个360度的视频分成共和党(用 )空间分成瓷砖(用 )。每个瓦片编码表示(用 )在不同的质量水平。当接收请求从客户端下载模块,服务器自适应地选择最优质量水平为每个瓷砖基于FoV预测结果和网络带宽。我们表示瓷砖的比特率与表示在共和党通过。假设当传输的带宽 - - - - - -th共和党是。

我们使用上面描述的视场目标预测方法来预测所有用户的视窗提前,这样我们可以得到一组瓷砖覆盖的预测视场。为用户 , 表示瓷砖被其视场覆盖。精确模型的经验看一个360度的视频中,我们使用用户体验质量的度量指标如下,这是类似于(31日]: 在哪里表示瓷砖的比特率比特率水平在 - - - - - -共和党。是一个二进制变量,等于1如果瓷砖传播与比特率水平在 - - - - - -否则th共和党和0。函数是一个映射函数,该地图瓦片的比特率用户的感知质量。在本文中,我们利用接收到的比特率的对数函数的形式 ,这符合人眼的视觉效果。

第二项(1)代表摊位的数量。不管缓冲的作用,我们假设时,将发生失速比特率大于带宽的 - - - - - -th共和党和拖延时间约等于的持续时间 - - - - - -共和党。的值是一个指标函数,也就是1什么时候和0。这意味着在一个共和党,当带宽小于视频比特率,将发生失速。k共和党的持续时间。

第三项(1)显示开关质量如何影响体验质量。认为质量随之而来的共和党之间切换。和非负参数用来平衡这三个因素。

所有用户的体验质量,最大化我们的优化问题定义如下: 酸处理

约束(3)意味着只有一个质量级别可以选择任何视频块。约束(4)表明,传输视频的总比特率不能超过提供的带宽通道。

4所示。视窗估计基于有限FoV反馈

理想情况下,如果所有观众的头部动作在一个360度视频会话可以完全获得,我们可以生成best-tiled序列消耗最小带宽。然而,由于无线网络的不对称,只有一小部分用户可以上传窗口实时信息。因此,我们试图结合的实时视窗信息有限数量的用户提供一个360度视频的特点检测方法来预测最具吸引力的地区。首先,我们卓越执行检测在视频中获得显著地图组成的一个视频。然后,我们使用少量的用户反馈FoV信息融合卓越地图是从视频序列获得更准确的信息的用户的视场。此外,我们结合显著图通过low-computational-complexity FoV反馈信息融合方法由于其延迟特性。

4.1。360度的视频显著检测

人类视觉系统(HVS)机制表明,只有一个小区域接收最视觉注意力在高分辨率,而其他周边地区得到微不足道的注意力在低分辨率(32]。此外,一个人的注意力更容易捕捉到物体的移动部件。卓越的目标检测是分析的视频帧找到地区用户最有可能被吸引。

预测人类的关注,360度的视频显著检测近年来被广泛研究。常见的深度学习(DL)方法可以实现好的结果在检测视频的特征。在本文中,我们使用360度的视频显著检测类似于(33),开发了一种深层神经网络(款)架构,结合一个object-to-motion卷积神经网络(OM-CNN)和saliency-structured回旋的短期记忆(SS-ConvLSTM)网络。每帧的凸起热图SS-ConvLSTM 2 d层的生成,它使用的时空特征OM-CNN作为它的输入。特别是OM-CNN,目的子网生成一个cross-net面具卷积的特征层移动子网。目的子网的空间特性和时间特性的运动子网连接通过规范提出的分层特性生成OM-CNN的时空特征。此外,OM-CNN特征作为输入,SS-ConvLSTM利用的长期和短期相关性的输入特性通过记忆细胞和隐状态的1号和2号LSTM层最后一帧。最后,第二LSTM层的隐状态被送入2 d层生成最终的显著图。之后,可以生成一个视频的帧间显著地图,既考虑结构化输出中心偏见和满足人类注意力地图的转换。

因为很难过程在球形全景视频领域,通常是360度的视频投影到二维平面,导致一定程度的失真。ERP使用纬度和经度直接投影在球面上的垂直和水平坐标原始框架,分别,这将导致更大的变形在极地地区的球体。CMP投影球面视频映射到外部数据集。立方体的上部和下部的脸对应于极地地区,和中间的四个面孔对应于赤道地区。这个解决方案在极地地区少失真范围;因此,我们首先把全景与CMP 2 d视频投影,然后执行特点提取与OM-CNN SS-ConvLSTM方法。这个过程如图3。

4.2。用户窗口

提取FoV,服务器需要解析观众的头运动从HMD中收集的数据,通常表示为在欧拉角坐标系横摇角,螺旋角,偏航角。首先,我们可以获得的经度和纬度在哪里和分别表示经度和纬度。

然后,用户可以计算窗口在哪里和分别是图像的宽度和高度。

视场是一个矩形区域,大约是度(HTC万岁HMD)。获得一个灰度图像,我们假设的强度值显示窗口区域遵循一个二维高斯分布,而non-FoV地区有一个强度值0。

4.3。视窗估计基于凸起和视场有限反馈

在本文中,我们试图估计用户窗口通过融合卓越地图是从视频序列和有限的视场信息上传。融合模块采用凸起热图和几个视窗热图作为它的输入。然后,输入图像分成小区域,名叫像素块,每个包含几个像素。我们可以计算相应的像素块的相似性基于协方差的区域信息,最后选择相似的像素块生成估计热图。值得注意的是,运行时间将增加随着融合方法的复杂性增加,这使得它很难执行实时估计并将损害用户体验。在本文中,我们选择区域协方差特征作为相似性度量来构造一个轻量级FoV估计算法。融合过程如图4。

首先,输入图像分为像素块,每个包含像素。让代表像素的强度值。然后,我们选择以下指标作为相似性计算的特性:

(1)强度值为像素。(2)横向偏导数值。(3)垂直偏导数值。

然后,我们得到以下统计特征向量的组合:

一个块与像素,我们计算协方差矩阵如下: 在哪里代表的意思是特性的像素块的价值。

基于协方差矩阵,我们可以计算两个像素块之间的欧氏距离作为相似性度量,然后使用它作为一个基础合并FoV显著图和真实反馈。在本文中,我们定义了两个像素块之间的相似性和作为

显然,较小的协方差矩阵之间的距离两个图像的像素块,相似的两个像素块将越多,反之亦然。

首先,我们把凸起和视场目标灰度图像映射到小像素块,然后计算块之间的欧几里得距离相同的位置在任何两个热量地图,和规范化。如果距离小于一定的阈值 ,我们考虑两个像素块的高度相似,这意味着这部分的视频块有吸引力,以卓越检测软件和真实用户。热图应该合并,我们简单地加在一起的两个像素块的预测结果用户的视场。

5。QoE-Driven速率适应算法

率360度的视频流的适应涉及两个顺序程序:viewport预测和瓷砖之间的分配率。据FoV融合的结果,可以估计的所有用户感兴趣的领域。剩下的问题是如何确定瓷砖的比特率组合来改善用户体验质量,可以表示为一个QoE-driven多用户资源分配问题。通过分析体验质量问题,我们发现问题是一个非线性整数规划问题,可以认证的赋权。我们体验质量的指标函数近似模型与对数函数,这样体验质量函数变成一个连续函数。这个问题变成了一个非线性规划问题。对于一般非线性规划问题,马是必要条件求解约束时的最优解满足线性约束,和马条件也足够当最初的问题是一个凸的问题,即可以获得最优非线性问题的解决方案。

自约束问题(1满足线性约束条件,我们可以使用马条件解决问题的松弛问题(1)。利用对数函数来近似体验质量的指标函数模型和放松整数变量连续变量,我们可以解决放松问题通过应用马条件和拉格朗日函数。然后,我们可以获得原问题的最优值。然后,我们使用和方法来找到最优的解决方案,满足0 - 1的约束,获得的非线性问题。

5.1。马的条件

首先,我们体验质量的指标函数近似模型与对数函数和放松连续变量。这个问题变成了一个非线性规划问题,可以解决使用马条件。问题的拉格朗日函数如下(7): 在哪里

因此,我们可以获得有关马条件:

其中,(12)是一个必要条件带来了拉格朗日函数的极值时,(13)是拉格朗日系数约束(方程),(14)是不等式约束的情况下,(15)和(16)原约束条件,(17)是互补松弛条件。根据马条件求解定理,如果最初的问题是一个凸的问题,那么解决方案,满足马条件也原问题的最优解。因此,通过结合(12)- (17)与马相关的条件下,轻松的非线性问题的最优解,这是用 ,然后和方法可以用来找到0 - 1变量的解决方案。

5.2。和方法

P1和算法旨在解决问题是算法所示1。最初的输入和 ,在哪里代表相应的松弛问题的解决方案解决了使用马条件。代表相应的最优目标函数的值。是解决0 - 1变量的输出和相应的最优目标函数值。

输入: 最优目标函数值松弛问题;最优目标函数值松弛问题;任何值的范围(0,1);

输出: 问题的最优解p−1满足0 - 1约束条件;最优目标函数对应于最优0 - 1解决问题的解决方案p−1。(1)初始化:k= 0,l= 0,(2)选择任何解决方案不满足约束0 - 1 ,也就是说, 。(3)如果然后(4)添加约束问题p−1形成子问题。(5)其他的(6)添加约束问题p−1形成第二子问题。(7)如果(8)k+ +,继续找到解决方案的松弛问题的子问题I和II(表示 ),最优目标函数值在哪里吗。(9)找到最优目标函数的最大值作为新上界,也就是说, , (10)在树枝上,满足0 - 1条件下,找到目标函数的最大值作为新的下界。 , (11)如果然后(12)这个分支。(13)其他的如果 和然后,(14)回到第2步,重复。(15)其他的(16)当时问题的最优解p−1被发现,和(17)如果

6。模拟和实验

来评估系统的性能,我们进行详尽的模拟和实验。

6.1。FoV估计

我们下载4 360度与YouTube视频,每一个至少有4 k的分辨率(3840像素)和24帧每秒。每个视频的时间范围从20到40秒。表1总结了四个视频的内容特征。我们使用了一个HTC万岁作为我们的头盔显示器的360度的视频剪辑捕捉每个观众的头部运动数据。他们招募了15个学生参与实验。所有参与者报告正常或corrected-to-normal视觉头盔显示器的设置。每个参与者看着这四个连续的视频。按顺序播放视频场景的起点固定(0°180°经度和纬度)。HTC万岁之前重新调整下一个参与者观看了视频。在实验过程中,万岁电影院开源玩家收集的头部定位数据(包括音高、偏航和滚动)从内置的传感器在高采样率(约200赫兹)。看视频的时候,每个参与者可以自由探索整个视频场景。

来验证我们的预测方法的有效性(VP)表示,我们估计用户的视窗通过融合特点从视频序列获得地图和有限FoV上传信息。我们第一次执行卓越检测原始视频获取视频凸起组成的地图,如图5。然后,我们使用了少量的用户视场目标信息融合特点映射从视频序列获得获得所有用户的视场。其中,代表时间的间隔时间用来预测未来。我们选择了四套间隔时间执行FoV预测对整个视频,类似于[过程11]。验证的性能预测方法,我们比较了以下两个基本方法:(1)一个算法不考虑用户窗口只执行凸起在视频中检测(仅指示为凸起)和(2)一个算法不包含视频特点检测但只有平均用户视窗(仅指示为窗口)。

但是。瓦重叠比率

heat-map-based FoV基于题目的预测方法适用于流媒体系统,客户端可以请求多个瓦片基于预测FoV热图。因此,我们使用了瓦重叠比率作为性能指标评价heat-map-based方法(19]。首先,我们确定瓷砖的非零值的总数实际用户FoV热图。接下来,我们确定预测的热点图有一个非零的瓷砖和确定预测的非零瓷砖FoV热图的重叠与实际用户FoV热图。非零重叠块的总数的比率的非零块的总数实际用户FoV热图是瓦重叠比率。

实验首先分析预测方法的性能在不同的预测时间间隔。图6显示了连续10预测方法的准确性的预测在未来0.2秒。从图可以看出,在10的预测,预测方法的精度高于两种基本方法。

在数据7(一)和7 (b)我们比较不同时间条件下的性能预测方法。从图中,我们发现随着预测时间间隔的增加,瓷砖重叠率减少。然而,瓦重叠率的方法仍高于两种基线的方法。瓦重叠比率越高,更准确的预测结果。换句话说,我们的预测方法与基线相比平均精度最高的方法。使用显著热量地图和其他用户的显著特征地图可以提供最佳的性能。

(一)

(b)

此外,实验分析了影响反馈用户数量的视窗上的预测方法。数据8(一个)和8 (b)显示的效果反馈用户的数量视窗的性能预测方法。我们的方法和窗口只包括用户视窗预测,和瓷砖重叠率增加反馈用户视窗数量的增加。卓越只不考虑用户窗口,用户视角的数量的变化并不影响基线法。

(一)

(b)

图9展示了我们的方法和不同的时间条件之间的关系和数量的反馈用户视窗。瓦重叠比率增加反馈视窗用户数量的增加和减少随着预测时间间隔的增加。

6.2。瓦率分配

解决优化问题,我们提出了一个rate-adaptive算法的基础上,结合马条件和和方法(如算法1表示)。在模拟中,我们第一次将360度视频分成10个共和党,每个被1秒的时间,考虑到视场的预测结果,然后将每个共和党分成瓷砖的大小相同。我们编码5比特率水平为每个瓷砖和比特率水平 Mbps。

来验证该算法的性能,我们将它与其他两个基于题目的速度适应方案:贪婪的(11](表示算法2),瓷砖FoV预测地区的用户分配与高品质,而剩下的瓷砖质量、最低的分配和基线(表示算法3),所有的瓦片被传输到用户提供相同的质量和视场预测没有考虑。这是一个简单的算法,从而是广泛应用在实践中6]。

本文实验评估的下行带宽的影响整体系统的体验质量。在图10我们可以观察到,该算法可以获得更高的体验质量值不同带宽的条件下,体验质量的价值增加随着带宽的增加。此外,我们的体验质量价值算法明显高于基线的方法。

进一步验证该方案的性能,使模拟更真实,我们进行了模拟使用现实世界网络痕迹(34]以完美的未来网络环境的知识。仿真结果如图所示(11日)。从仿真结果中,我们可以观察到,该算法可以实现更高的体验质量价值和所有四个LTE痕迹因为我们有有效地分配资源。我们也可以观察到一个更大的带宽会导致一个更大的体验质量值进行比较的表演取得了不同的痕迹。

(一)

(b)

(c)

6.2.1。感知质量水平

图11 (b)块瓷砖的平均质量水平为每个流方案。瓷砖的平均质量水平由我们的方案是最高的。

6.2.2。用户感知比

这是由用户实际使用的比特率的比值和预测整体视频比特率。图11 (c)显示了实际消耗的比率和整体视频比特率。结果表明,用户感知比我们的方法明显优于算法2和算法3。

此外,我们还分析了影响反馈用户的数量视窗所有用户体验质量的价值。在我们的方法和算法2,FoV预测是,FoV预测的准确性是影响用户的数量视窗,从而影响用户体验质量的价值。这可以从图中找到12我们的方法和算法2增加反馈视窗用户数量的增加,也是用户体验质量。然而,算法3不考虑用户FoV预测;因此,视窗的数量的变化不会影响用户体验质量。

7所示。结论

在本文中,我们提出一个视场目标预测方法在视场有限反馈的基础上,融合和纠正显著检测获得的热图和视场信息随机提取少量的用户生成一个用户视图,获得更准确的视场预测结果为所有用户。我们使用这个为基础来优化传输系统。多用户QoE-driven 360度的视频流系统是专为适应360度的视频流。根据预测FoV,总传输比特率的限制下,通过结合马条件和方法,我们的算法可以选择为每个视频块的最优质量水平,最大化所有用户的体验质量。仿真结果表明,我们的算法的性能优于其它方案。

数据可用性

使用的数据来支持本研究可从作者(电子邮件保护)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究的部分支持由基础研究基金为中央大学,在格兰特。JZ2019HGTB0089 PA2020GDJQ0027。

引用

r .姚明,t·希斯戴维斯,t·福塞斯,n .米切尔和p .霍伯曼“眼睛vr的最佳实践指南,”眼睛虚拟现实,4卷,2014年。
视图: 谷歌学术搜索
b . Keshavarz、h·赫克特和l . Zschutschke“在视觉上引起晕动病、Intra-visual冲突”显示,32卷,不。4、181 - 188年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
杨,他和郑x, y”Fovr:引起vr流通过带宽有限的无线网络,”学报2019年第16届IEEE国际会议传感、通信、和网络(SECON),页1 - 9,伦敦,英国,2019年。
视图: 谷歌学术搜索
r .瑞士、r . van勃兰登堡和r . Koenen”流uhd-quality vr在现实的比特率:不可能的任务,”学报2017年NAB广播工程和信息技术会议(BEITC),柏林,德国,2017年。
视图: 谷歌学术搜索
z华生,”Vr新闻:新现实?2017。
视图: 谷歌学术搜索
A . Ghosh诉Aggarwal f .钱,“速度适应算法基于题目360度视频流,”2017年。
视图: 谷歌学术搜索
m . Hosseini诉Swaminathan,“自适应360 vr视频流:分而治之,”《2016年IEEE国际研讨会上多媒体(ISM),页107 - 110年,柏林,德国,2016年。
视图: 谷歌学术搜索
o . a . Niamut e·托马斯·l·D 'Acunto c . Concolato f . Denoual郑胜耀Lim,“Mpeg冲刺阶跃恢复二极管:空间关系描述,”第七届国际会议在多媒体系统学报》上,页1 - 8,柏林,德国,2016年。
视图: 谷歌学术搜索
LTE介绍,2013年。
t y包,h . Wu, a . a . Ramli和刘x”拍摄一个移动的目标:motion-prediction-based为360度的视频传输,”学报2016年IEEE国际会议上大数据(大数据),页1161 - 1170年,柏林,德国,2016年。
视图: 谷歌学术搜索
f .钱l .霁,b .汉,诉Gopalakrishnan)“360视频交付/蜂窝网络,优化”学报》第五车间所有细胞的东西:操作、应用和挑战,页1 - 6,柏林,德国,2016年。
视图: 谷歌学术搜索
n .菅直人j .邹李c, n, k . Tang和h,“深基于强化学习的速度适应适应360度的视频流,”学报2019年IEEE国际会议音响、演讲和信号处理(ICASSP),页4030 - 4034,伦敦,英国,2019年。
视图: 谷歌学术搜索
z z . c . Wu Tan王,杨,“探索用户行为的数据集在vr球形视频流,”2017年。
视图: 谷歌学术搜索
h . m . Yu Lakshman, b·吉伦特”一个框架来评估全方位视频编码方案,”《2015年IEEE国际研讨会上混合和增强现实,页31-36,纽约,纽约,美国,2015年。
视图: 谷歌学术搜索
h .元,赵,j .侯x,和邝,“时空consistency-aware 360度的动态自适应流媒体视频,”IEEE选定的主题在信号处理杂志》上,14卷,不。1,第193 - 177页,2020。
视图: 出版商的网站 | 谷歌学术搜索
k . k . Sreedhar a . Aminlou m . m . Hannuksela和m . Gabbouj”Viewport-adaptive编码和360度的视频流对于虚拟现实应用程序,”《2016年IEEE国际研讨会上多媒体(ISM),页583 - 586,伦敦,英国,2016年。
视图: 谷歌学术搜索
吴董y, y, j . et al .,”目光在动态预测360°身临其境的视频,”学报2018年IEEE / CVF计算机视觉与模式识别会议,页5333 - 5342,伦敦,英国,2018年。
视图: 谷歌学术搜索
m .徐,y的歌,j . Wang m·乔l .霍和z . Wang”预测头运动全景视频:深强化学习方法,“IEEE模式分析与机器智能第41卷。。11日,第2708 - 2693页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
刘张w . c . Li, y, y,“非常长期的视野预测360度视频流,”学报2019年IEEE会议多媒体信息处理和检索(MIPR),页297 - 302,伦敦,英国,2019年。
视图: 谷歌学术搜索
y禁令,l .谢许z、x, z,和y . Wang”Cub360:利用cross-users行为视窗预测360年视频自适应流媒体”学报2018年IEEE国际会议多媒体和世博会(ICME),页1 - 6,伦敦,英国,2019年。
视图: 谷歌学术搜索
c .郭、崔y和z,“瓦360 vr优化组播视频,”IEEE无线通信信,8卷,不。1,第148 - 145页,2019。
视图: 出版商的网站 | 谷歌学术搜索
崔k长,y, c .你们和z . Liu”优化无线流媒体multi-quality 360 vr视频利用自然,相对smoothness-enabled和transcoding-enabled多播的机会,“IEEE多媒体,8卷,2020年。
视图: 谷歌学术搜索
崔z . Liu石原,y, y, y .田中,“飞机:联合源和信道编码错误弹性虚拟现实视频无线传输,”信号处理卷,147年,第162 - 154页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
l .谢张x, z .郭,“基于cross-user学习系统为提高体验质量在360度自适应流媒体视频,”第572 - 564页,2018年。
视图: 谷歌学术搜索
a . Zare a . Aminlou m . m . Hannuksela和m . Gabbouj”Hevc-compliant基于题目流虚拟现实全景视频的应用,”2016年。
视图: 谷歌学术搜索
r . j . Li冯,w .太阳,z . Liu和李问:“Qoe-driven耦合的上行和下行速率适应360度的视频直播,“IEEE通信信,24卷,不。4、863 - 867年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
罗西和l .托尼“Navigation-aware适应性策略全方位视频流,”2017年。
视图: 谷歌学术搜索
d . v .阮h·t·t·Tran a·t·范教授和t . c . Thang”基于题目的一个最佳方法viewport-adaptive 360度视频流,”IEEE杂志在新兴和选定的主题在电路和系统,9卷,不。1,29-42,2019页。
视图: 出版商的网站 | 谷歌学术搜索
l .谢z, y禁令,x, z .郭,“360年360 probdash:提高体验质量使用基于题目http自适应流媒体视频,”2017年。
视图: 谷歌学术搜索
问:j .邹c, c . Liu Yang, h .熊施泰因巴赫和大肠,“概率瓷砖visibility-based端速率适应360度适应视频流,”IEEE选定的主题在信号处理杂志》上,14卷,不。1,第176 - 161页,2020。
视图: 出版商的网站 | 谷歌学术搜索
r . i t . d . c .球场,m . c . Luizelli m·t·维加et al .,“预测性能的虚拟现实在移动网络视频流,”2018年。
视图: 谷歌学术搜索
w·林和c c。杰郭:“知觉视觉质量指标:一项调查,”杂志的视觉传达和图像表示,22卷,不。4、297 - 312年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
l .江m .徐t . Liu m·乔和z . Wang”Deepvs:基于深度学习的视频显著预测方法,”2018年。
视图: 谷歌学术搜索
j . van der Hooft s Petrangeli t“et al .,“基于HTTP / 2的自适应流媒体HEVC视频/ 4 g / LTE网络,”IEEE通信信,20卷,不。11日,第2180 - 2177页,2016年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

464年

下载

843年

引用

复杂性

解决工程和科学问题使用复杂仿生计算方法

自适应有限的全景视频多播流FoV反馈

文摘

1。介绍

2。相关工作

3所示。360度的视频流系统概述

3.1。系统模型

3.2。问题的形成

4所示。视窗估计基于有限FoV反馈

4.1。360度的视频显著检测

4.2。用户窗口

4.3。视窗估计基于凸起和视场有限反馈

5。QoE-Driven速率适应算法

5.1。马的条件

5.2。和方法

6。模拟和实验

6.1。FoV估计

但是。瓦重叠比率

6.2。瓦率分配

6.2.1。感知质量水平

6.2.2。用户感知比

7所示。结论

数据可用性

的利益冲突

确认

引用

版权