移动优势协助全方位视频直播系统

文摘

作为一个受欢迎的形式的虚拟现实(VR)媒体,全方位视频(OV)近年来不断发展。OV包含在各个方向的观点,这将要求在120 Mbps 8 k分辨率和25 fps(每秒帧数)。虽然有很多工作要优化传输点播机汇,直播机汇的研究仍很缺乏。OV直播系统的另一个重大挑战是计算资源的巨大需求。现有的终端设备很难完全执行任务,如缝合,编码,和呈现。提出了一种移动优势协助全方位视频直播系统(MELiveOV);MELiveOV可以智能地卸载处理任务启用边缘计算5 g基站。MELiveOV由一个全向视频生成模块,流媒体模块和观点预测模块。MELiveOV原型系统的实现为证明其完整的端到端OV直播服务。评价结果表明,与传统方案相比,MELiveOV可以减少网络带宽需求50%和超过70%的传输延迟,同时保证用户体验的质量。

1。介绍

根据该报告(1)委托英特尔和由卵子,虚拟现实和增强实境应用程序将占5 g数据使用的90%在接下来的十年。全向视频(OV)是一种最成熟的形式的虚拟现实,它有望成为杀手级应用的未来5 g网络(2]。由更强大的网络性能,5 g版机汇上不仅关注现实的视觉效果,还强调用户的互动体验。交互式OV应用的基础是能够实现一个完整的端到端流媒体服务系统,这是这项工作要解决的核心问题。机汇科技的普及给观众带来了新颖的身临其境的多媒体体验,但这种新的经验支持与高分辨率视频内容(通常为4 k、8 k)乘以360度全景视角。OV的传播通常消耗4∼6 x普通视频的带宽相同的可视分辨率,这意味着一个巨大的挑战,传统的流媒体视频架构。更多的数据和更复杂的计算任务的两个主要挑战OV直播系统需要解决。

一方面,OV使用头山(HMDs)和立体显示功能提供身临其境的体验。全向内容被用户时,只有一个子集的整个视频帧将头盔显示器的屏幕上显示。减少造成的浪费网络带宽OV数据的冗余,提出了各种改进的解决方案在学术和工业社区。一些研究工作(3- - - - - -5)设计了基于题目的编码方案,可以有效地优化OV传播。许多相关标准开发组织(sdo)也已经开始工作机汇的范围(6]。但是大多数的这些作品进行按需申请机汇。现在越来越多的用户关注直播的经验,这也是数字多媒体技术在未来的发展趋势。因此,迫切需要一种新的可行的解决方案,它可以减少机汇的带宽要求,同时最大限度地提高用户的体验。

另一方面,除了高带宽消耗在传输过程中,对计算资源的巨大需求是另一个大挑战OV直播系统的设计。收购和生成OV内容需要广泛的缝合和编码工作。特别是当执行OV直播服务,这些计算需要实时地完成工作,这让极高要求的性能处理平台。OV流媒体观看时,系统可以根据不同领域的定制的过程中呈现的视图(FOV)多个用户。准确预测用户的观点可以带来巨大的利益的优化OV直播系统。通过预测视场区域,用户可以看在不久的将来,这些无用的数据传输领域是可以避免的。和OV直播系统能够利用有限的带宽最大化视场目标区域的图像质量。观点的预测依赖于深度学习神经网络算法,也有很高的计算能力的需求。卸载足智多谋云计算密集型任务/雾服务器需要减少用户的设备的压力,同时节省OV设备的成本。与传统的中央云服务器相比,移动边缘计算(MEC)架构可以使计算资源更接近用户,从而大大减少了用户请求服务的响应延迟。

全向移动优势协助直播系统视频(MELiveOV)提出了应对上述挑战的工作。如图1,它由全向视频生成模块,流媒体模块和观点预测模块。通过每个模块的协同工作,MELiveOV达到完整的端到端服务全方位的视频直播。与此同时,它的边缘计算体系结构匹配的需要5 g网络和有一个非常广阔的应用前景。我们实现的原型系统MELiveOV和评估各种性能指标。评价结果表明,MELiveOV可以有效地减少网络带宽需求和在OV直播传输延迟。

本文的贡献总结如下:(我)我们建立一个端到端的移动优势协助全方位视频直播系统(MELiveOV)。的帮助下MEC架构,MELiveOV能够表现良好在两个服务延迟和带宽需求。(2)为了加快全方位的实时生成视频在收购之后,我们设计一种改进的基于整体映射表的缝合算法。(3)介绍了一个基于题目全向视频传输方案MELiveOV减少对网络带宽的压力在OV直播。(iv)为了增强用户的体验质量和降低服务延迟,我们设计一个用户的角度预测算法,使MELiveOV为用户提供主动服务。

本文的其余部分组织如下。部分2讨论相关工作。部分3介绍了MELiveOV的系统架构。部分4提出了全方位的设计视频生成模块基于整体缝合映射表。部分5提出了基于题目流的结构模块。部分6介绍了使用深度学习观点预测模块的架构。部分7描述了我们的实现和评价。部分8总结了纸和讨论了未来的工作。

直播事件的传统上由使用广播电视。DASH还可以应用在互联网上直播(7,8),尽管更严格的延时约束相比,按需服务的视频服务。直播的挑战是最小化之间的端到端延迟内容生成(在服务器上)和表示(客户端)。视频流的主要研究领域集中在优化等不同方面的高分辨率(例如,全向流媒体视频和虚拟现实),低延迟,更高的压缩比和更好质量的经验(体验质量)。许多关注自适应流媒体适合尽可能多的网络情况和充分使用的带宽。在[9),主观体验质量研究涵盖的方面适应维度和策略再现。因此,体验质量影响因素和相应的体验质量模型的识别,和开放问题和冲突的结果进行了讨论。瓦视频源是一个测深方法获得自适应流媒体(10];他们描述如何执行在一个自适应空间访问HTTP流媒体背景下,使用MPEG-DASH及其阶跃恢复二极管扩展。它们描述了一个可配置的这些技术的实现,在GPAC开源播放器,让实验的平铺的视频内容不同的适应策略。启用的新场景虚拟现实(VR)技术的发展已经引起了极大的关注。Ozcinar et al。5)提出了一个端到端的流媒体系统实现,其中包含花砖,小说在MPD的扩展,和破折号比特率水平选择viewport-aware的方式,这可能带来重大的质量改进与传统流媒体的方法。在[11),开发一种新颖的无线视频传输方法,在作者共同探讨如何征服源视频的巨大规模的问题,如何有效地满足用户的视图切换请求,以及如何处理包丢失。在[12],他们开发一个虚拟现实生活的原型架构,结合RTP和冲刺360°VR内容华为机顶盒和三星Galaxy S7。系统的多放映场影剧院单个HEVC硬件译码器提供更快的质量比在传统的群切换图片(共和党)的边界。

至于体验质量方面,在13),相信手机运营商和内容提供商可以极大的提高视频体验质量通过预测通过api可用带宽和分享它。更具体地说,当结合率稳定功能,预测优于现有的视频与最优算法,减少了差距为4%。除此之外,在14),一个分层框架迁移现役封装的应用程序在虚拟机(vm)或容器。这个方法允许大量减少分层服务停机时间。框架很容易实现使用现成的技术,其主要优点之一是它支持容器,这是一种很有前途的新兴技术,在vm提供好处。减少延迟是一个吸引域。麦臣et al。15)提出了一个分层的现役迁移到MEC的框架。这个方法允许大量减少分层服务停机时间(16]。ENA开发一种新型传输调度框架被称为自适应HFR视频流(APHIS)。它是由密集的实验,证明了蚜虫框架能够适当过滤视频帧和调整数据保护优化HFR视频流的质量水平。桑切斯et al。17)提出了一种视频编码和切片机汇流方案。delay-constrained情况,他们的计划大大降低传输成本和提高质量的重建视频序列而非适应传输方案。

全方位视频(OV)允许直接身临其境观看周围场景的扭曲原始图像到正确的角度观看的方向。直播系统机汇(取得18]。他们设计周期和自适应优化框架来适应带宽变化和视场实时预测错误。机汇能提供身临其境的视觉体验当用户配备头盔显示器,但高比特率传输机汇将带来沉重的负担,传输系统在实时的情况下尤其如此。如何压缩视频而不影响用户体验是非常重要的。陈等人。19)回顾了最近的进步全向视频处理的管道,包括预测和评估。一种有效的方式实现,以促进motion-constrained HEVC瓷砖。Sreedhar等人,Skupin et al。20.,21调查各种观点依赖投影方案,他们开发了一种方法来比较这些预测的率失真性能。玉等人,李et al。22,23)考虑评估的问题编码效率与HMD中查看。他们比较了原始和编码视频sphere-to-plane映射后的观点。观察,等积映射收益率8.3%左右比特率储蓄相对于常用equirectangular映射。Ghaznavi-Youvalari等人,Curcio et al。24,25使用基于题目]采用主观评价实验的结果为OV流媒体系统。这项工作可以减少流比特率由44%的平均一个主观DMOS结构值为4.5。Yu et al。26)显示使用拉格朗日优化计算效率解决方案通过将抽样和比特分配约束和编码提高了标准的表示法。伯爵et al。27)描述的使用瓷砖HEVC / H。265和VP9, enabling bandwidth efficient adaptive streaming of omnidirectional video over HTTP. Various streaming strategies have been defined, which can effectively improve the quality of OV streaming service. Li et al. [28)提出了一个基于题目全向视频分割方案可以节省高达28%的像素面积和20%的BD-rate平均比传统equirectangular projection-based方法。Gudumasu et al。29日]显示查看定位跟踪和实时观点提取平台。一般来说,用户只能查看视图的限制领域的内容。这意味着一个重要的部分地区传输高质量的视频带宽浪费,未被可视化。所以,基于题目的出现传输方法以及用户的观点的预测。Ozcinar和Smolic30.)创建了一个新的视觉注意力OV用户数据集,研究观众的行为当消费内容,并分析了最先进的视觉注意力模型的预测性能。尼南,Atluru31日)生成第二个重建图像与视图的方向观众当用户看到第一个重建图像。Ghaznavi-Youvalari和Aminlou32)提出了一个几何运动矢量扩展方法以压缩有效全向的运动信息内容。结果显示与通用的视频编码比特率减少2.2%)阴道假丝(H.266 /致病菌种及标准。Ghaznavi-Youvalari和Aminlou33)将图像分成瓷砖,与视场信息设置不同的优先级。高优先级的瓷砖具有高比特率编码。测量的客观质量全方位视频在观察空间更准确地说,weighted-to-spherically-uniform质量评价方法提出了在34]。

许多标准开发组织在多媒体和通讯领域也开始致力于OV [6]。在R15 [35),3 gpp已经开始考虑应用程序的虚拟现实(VR)在下一代移动网络媒体服务。数字视频广播(DVB)项目建立了一个VR-related商业模块来跟进这个区域(36]。视频编码专家组(VCEG ITU-T Q6/16)和运动图像专家组(MPEG, ISO / IEC JTC 1 / SC 29 / WG 11)开始OV的标准化过程,分别从开始机汇编码和传输技术的研究,并将引导整个OV应用生态系统的发展。有一些联合组织开展一些OV领域的工作,例如,视频编码(JCT-VC)联合协作的团队,负责开发高效视频编码(HEVC)标准(和它的扩展37)和联合视频探索团队(JVET),调查新视频编码方法编码效率超出HEVC [38]。全方位的编码视频吸引了足够的关注,已逐渐成为多媒体技术发展的重点。与VCEG相比,MPEG把更多注意力集中在交付和显示的技术。MPEG建立子群的全向媒体格式(OMAF) [2第2部分),设想成为新兴ISO / IEC 23090 MPEG-I。

3所示。系统架构的MELiveOV

作为端到端服务系统,MELiveOV覆盖整个服务链条从收购到回放。如图1,我们设计了相应的功能模块修改每一阶段的OV直播服务。后的常规方案,收集原始数据的全向相机,在本地生成OV直接。受制于有限的计算能力捕捉设备,全方位的视频生成过程将非常耗时,这将大大影响直播服务的实时性能。在MELiveOV,我们将全方位视频生成过程所需的计算任务第一英里边缘服务器。它通常部署在第一跳的接入点移动通信网络提供最及时的服务来捕获设备。映射,然后缝合操作执行的全方位视频生成模块包含全向场景信息的获取OV数据。

同样,我们部署最后一英里的边缘服务器的访问点5 g网络接近观众。最后一跳前,最后一英里上的流媒体模块边缘服务器优化传输实时根据观众的角度轨迹显示终端的反馈,可以有效降低OV下载过程中带宽的要求。流媒体模块主要应用基于题目OV传输方案。通过将完整的视频划分为多个瓷砖空间区域,我们可以控制不同的瓷砖质量的优化传输。我们使用高比特率的瓷砖在用户的视野(FOV)和较低的比特率以外的地区用户的视场。通过与显示终端的交互,流媒体模块可以最小化的传输带宽要求OV不牺牲用户查看区域的质量。

这可以节省功耗的虚拟现实设备和流量对用户的成本。MELiveOV的显示终端上,我们介绍了主动服务的体系结构。在传统的被动服务架构,服务器只能回应和处理后等待用户的请求到达的。例如,当我们的系统没有主动服务架构,优化过程执行的流媒体模块只能依靠用户过去的观点数据。这种滞后在用户信息会导致降低流媒体模块的性能。因此,我们部署观点预测模块主动预测在未来用户的可能的角度位置。这可以进一步提高体验质量MELiveOV(质量的经验)的用户。基于LSTM观点预测模块设计(长短期记忆)网络。LSTM模型常用于深学习处理时间序列预测数据问题。我们预测模型不仅可以了解用户的个性化的观看习惯的信息,还能感知视频特点的统计分布只有通过多用户观点的数据。

4所示。全向视频生成模块

全向相机通常是由多个摄像头,这样场景的图像数据可以收集来自不同的方向。最具代表性的相机是一个6-lens全向相机可以捕捉,下,左,右,前,后六频道的视频。这些原始数据需要进行映射和缝合生成OV内容。有各种各样的全向图像展开方法,如equirectangular投影(ERP、图的上半部分2),这是普通用户最熟悉的渲染方法,实现展开通过将球面图像转换为矩形空间根据经度和纬度;立方体映射(图的下方2)变换成方块,然后扩大范围立方体的六个面的;Equi-Angular Cubemap (EAC)是一种优化传统多维数据集的扩张,纠正变形立方体的扩张通过保持像素均匀采样。

通常,全向相机需要处理离线数小时后,收购最终产生全方位的视频。这显然是不可接受的OV直播流媒体服务系统,所以我们需要为MELiveOV开发专门的快速实时拼接算法。接下来,我们将介绍全方位视频生成模块的功能设计。

4.1。概述结构模块

传统的全向图像拼接需要动态估计每个摄像机的输入。首先,特征点匹配所需的内部参数和外部参数估计相机,然后在每个图像上执行整个白平衡促进推导最佳拼接图像之间的面具。最后,每两个之间最佳缝合面具照片发现,所有原始图片可以被合并到同一个坐标系形成全方位的框架。显然,缝合过程相当费时。然而,全向图像实时处理要求高分辨率和图像质量,同时低延迟。由于计算能力和算法本身的复杂性高,质量和效率是一对相互排斥的指标。有限,这种情况下,传统的缝合方法很难实现,导致当前鱼眼图像实时缝合技术的缺乏多样性。在我们的方案中,缝合映射表,描述了每个单元的像素坐标投影镜头的最后全向图像像素坐标框架,首先决定,然后映射表是嵌入在图像处理算法实时实现全向图像缝合每一帧,每一帧。

获取参数映射表的过程在我们的方案如下:(1)输入鱼眼图像和单独估计摄像机模型获得的映射点二维鱼眼图像校正三维点半球。(2)大规模三维修正图像,equirectangular投影(ERP)方法,准备后续游行演变模式。(3)提取特征点和估计找到最好的数学。然后,据此计算固有参数和外在参数寄存器之间的空间位置关系图像。(4)根据登记结果,调整之间的空间位置关系五个半球形飞机,重叠的五方纠正半球在世界坐标系中,融合图像像素重叠的部分,然后将三维图像转换为全向帧与ERP。(5)提取并保存整体协调在鱼眼图像的单应性矩阵坐标最后全向帧进行后续的实时处理。

4.2。相机标定和摄像机模型估计

校准相机模型的过程实际上是一个转换一个二维向量的估计在最初的鱼眼平面三维向量在世界坐标。即完成这个过程,内在和外在参数的相机和镜头的畸变参数需要估计。最常用的技术校正镜头畸变参数多项式拟合,和姿势估计参数的单元镜头维矩阵。这两个部分的参数之间的关系是一个复合函数。这种组合优化技术有很强的依赖参数的初始值,和相互干扰是显而易见的,导致很难实现全局优化。我们计划把相机和镜头畸变参数作为一个复合系统,估计整个转换过程。鱼眼计划上的二维点映射到三维向量,然后将它们转换为点表面上的单位球坐标。

我们使用的相机模型提出了图3。让是一个原始的鱼眼图像的像素点, 该图像像素坐标的中心点为原点,让其相应的三维向量是从单一有效的观点,和是单位点的视轴的原点。由于平面坐标变换是一个仿射变换,之间的关系和可以表示为

然后,整个的二维平面坐标映射到三维向量可以写成是一个函数的二维坐标, 。是需要拟合的多项式函数:

多项式拟合过程由Matlab工具箱ocam_calib协助。经过大量的实验,拟合多项式项数并不是尽可能的好。更具体地说,合适的退化的现象会发生为了太多的多项式。最后,这篇报导确定多项式用于拟合。

4.3。展开的球面图像

在获得修正后的三维半球图像从鱼眼图像,我们需要执行后续处理的球面展开。在我们的方案中,使用最广泛的ERP实施实现展开。

我们可以看到在图的下方2,λ位置的经度项目;φ项目的纬度位置;是标准的相似之处(赤道的北部和南部)的规模预测是正确的;地图的中央子午线;x是预计的水平坐标位置在地图上;y是预计的垂直坐标在地图上的位置。它可以得出结论

向前映射:

反向映射:

4.4。空间注册

身体上设置五个摄像机是相互正交的,从理论上讲,使用中央相机的坐标系作为世界坐标系,分别相应的其他相机坐标系旋转90°,即原始三维坐标矩阵乘以相应的旋转矩阵可以保证严格的登记制度,实现三维空间注册。然而,考虑到物理位置和镜头可能引入错误,和中心估计的鱼眼校正过程不是足够原始图像的中心;边缘缝合时可能偏差,纠正三维球面图像需要再次注册。

进行登记,我们首先需要匹配和过滤两幅图像的特征点,选择最佳匹配点,计算单应性矩阵,然后计算相邻两个之间的旋转矩阵修正图片根据单应性矩阵。

根据针孔成像原理,点在摄像机坐标系中可以映射到世界坐标系统通过旋转和翻译。翻译可以写成: 在哪里R旋转矩阵和吗代表的角度相机旋转三个坐标轴。t是翻译向量,然后呢的翻译距离摄像机沿三个坐标轴。

通过校准,外部参数矩阵每个镜头的相机可以获得相对于中心,从而完成空间注册。

4.5。生成整体映射表

最后,前部分是结合的结果,和球面上像素重叠融合产生一个映射表。表描述了源坐标对整个鱼眼地图将被转换到目标坐标全向框架。映射表固定,准备多个线程同时执行像素映射操作在不同区域的全景画面,实时缝合。全方位视频的功能显示图生成模块如图4。我们的模块可以完成缝合过程的OV帧在20毫秒。

5。流媒体模块

高分辨率、低传输延迟的关键点是OV直播系统。当传输延迟达到13女士或比特率太低,用户会感到疲劳,头晕39]。确保良好的观看体验,最好的方法是将全方位视频显示终端,但这种传输方法并不考虑到观众只手表整个完整图像的一小部分。事实上,如果OV玩家提供了一个90年rectangle-view当用户看着一个方向,唯一的六个球出现在用户的版本和其他地区将会不见了。传输non-FOV高比特率会导致浪费大量的网络带宽。因此,我们采用基于题目的一个两层的传导机制减少传输系统上的沉重的负担。

5.1。投影OV内容

全方位视频生成过程后,我们得到一个球面全向我们不能视频编码与现有编码标准h / AVC等H.265 / HEVC。由于编码器只能编码矩形图片,全方位的视频必须映射到矩形用户视图。一个常见的方法叫equirectangular投影是将3 d球体图像映射到一个2 d矩形平面与经度作为参考。然而,不同的视角全景将导致不同的地图区域范围。接近两极的球体,更严重的图像失真。如图5所示,当用户看着球的赤道的位置,对应的投影面积的2 d平面整个全景的框架。和地区得到的最大价值当视图在两极和非常扭曲的(40]。

5.2。两层为OV流模式

方法之一是拦截视场面积和视场图像高比特率传输到客户端。尽管它不考虑实时OV系统是延迟敏感的,如果用户的头部动作太快或图像无法显示终端,显示终端将没有足够的时间来匹配图像正常。用户可能会看到一个空白的区域在这个视图中,它将严重降低用户的体验质量。

所以,我们采用基于题目的一个两层的传导机制,和图6显示了详细的过程。首先,equirectangular投影后,全景帧将被编码H.265 / HEVC。我们称为基本层和低比特率层(提单)将生成。提单代表全向视图在低比特率。同时,全景框架分为瓷砖,瓷砖在视场区域提取的编码器,编码比特率高的瓷砖增强层(TEL)。视场区域等信息收集的屏幕坐标的中心视频客户端会返回到编码器。提单和电话将传送到客户端,这两层叠加显示在客户端。

在这两层基于题目的传导机制,编码器需要根据信息编码FOV瓷砖回来MELiveOV显示终端,确保系统性能。然而,由于观察者运动的随机性质,很难预测用户的长期运动。精度将从92%下降到71%的时间预测增加从1秒到2秒41]。所以,我们组的预测时间是1秒。根据用户的视觉运动轨迹在最初的几秒钟里,预测算法显示的位置在接下来的第二个用户的观点。

如果电话没有抵达时间和电话号码匹配错误,客户端可以显示提单以确保基本观点经验而不是生成一个空白区域。虽然这种方法会导致巨大的计算、传输带宽是更有价值的资源。我们与两层基于题目的方法,解决意外的头部动作和网络流的问题。客户端可以获得全景框架与视场区域的高比特率和低比特率的non-FOV区域,可以节省大约55%的带宽消耗而不影响用户的体验质量。

5.3。自适应视场大小选择

在上面的两层传导机制中,一个固定的视场面积使用。如果视场面积的大小可以动态地选择根据不同的网络情况,该系统将更加适应。当网络处于良好的状态,一个面积较大的高比特率可以获得全方位的视频显示终端,以便用户可以得到更好的体验质量。

因此,我们采用一种自适应策略编码器可以选择不同视场区域大小基于网络条件。关注用户的观点,我们将视场区域设置为90°和120度视场区域,分别。网络情况不好时,编码器选择FOV 90°,较小的全景画面面积与高比特率编码。当网络条件是理想的,编码器选择视场面积120°,这样大的全景画面将编码比特率相对较高。

两层的实际功能如图OV传输方案7。它可以很容易地观察到的全景画面OV视频质量有显著差异的视场和non-FOV之间。

6。观点预测模块

准确预测观众的未来角度轨迹可以帮助MELiveOV更好地增强用户体验。因此,我们设计了一个特殊的预测模型,可为用户提供有效的角度预测间或使用当地的历史数据和全球多用户信息。

6.1。模块的概述

从两个角度角度预测的问题被认为是在视点预测模块。一方面,大多数用户不是第一次看OV。因此,ov他们看到的历史观点数据可能包含一些信息用户的观看习惯。例如,一些用户可能更喜欢将他们的观点慢慢平稳,而其他用户喜欢更快的角度运动。这个定制的信息使我们适应不同的用户模块。另一方面,OV内容提供者可能已经收集了角度轨迹为同一OV来自多个用户的数据来源。通过数据集的分析,可以发现,当不同用户观看OV相同,他们的观点轨迹将会有一个类似的运动模式。这是因为一些帧OV的内容,最能引起用户的兴趣。在观看这些帧时,不同的用户倾向于关注感兴趣的同一地区,所以观点轨迹将会有一个类似的运动模式。通过这种方式,这些现有的模型将有助于提供更准确的观点预测服务作为新用户开始看。

概述流动的角度预测模块如图8。在该方法中,观点预测系统包括两个独立的通道,使预测基于历史的观点之一单用户的数据。和第二通道将使用别人的轨迹数据来自同一OV内容预测的观点。后两个渠道经过均衡器的输出模型,得到最终的预测结果。

如图8,两个渠道的角度预测模块实现预测功能通过LSTM(长短期记忆)网络。LSTM网络通常是用来实现深度学习的时间序列数据的预测。这是一个好方法检测并符合深度数据的规则。基于这些优势,LSTM网络非常适合作为基本预测该模块。

6.2。基于LSTM基本预测

如图8,两个渠道CPVp-LSTM通过LSTM网络实现预测功能。LSTM网络常用的预测时间序列信号。它可以检测和适合的深度特征数据集。基于这些优点,LSTM网络非常适合作为该算法的基本预测。假设用户的时间序列的视窗可以表达的。代表用户的viewport坐标。基本的预测是计算的核心功能从与LSTM网络,N输入序列的长度,米预测区间的长度。历史viewport坐标序列时间是用来预测窗口的位置吗在未来。

提出了基本预测包含两个隐藏层和三个LSTM层,如图9。修正的线性单元(ReLU)激活函数后,隐层增强非线性。LSTM层组成NLSTM单位。每个单元同时生成两个值;一个是当前单元的输出,另一个是收集从之前的所有记忆的信息单位。这两个两个输出值将被发送到下一个单元作为输入,所以LSTM层可以令人难忘。基于交叉熵的损失函数被修改,用于更新网络的各种参数在每个迭代的培训。用户的窗口位置可以通过其欧拉角描述坐标,其中包括3个自由度,音高,偏航和滚(例如,X,Y,Z角)。X和Y角内和 ,分别。在90%的时间,Z角内。基于这种特殊的值范围viewport坐标,我们定义了一种改进的交叉熵损失函数l。它的定义Y组件显示为方程(7)和(8)。一个阈值被用来确定一个界外条件发生,通常设置为缺省值为10。Y预测输出和吗实际值:

正火后和 ,

交叉熵的定义X组件是相似的Y组件。由于小的分布范围Z组件,没有禁止入内的条件在大多数情况下,所以的交叉熵Z组件不会改变。

在CPVp-LSTM,预测中使用两个渠道结构很相似,但每一层的大小和一些参数调整根据输入序列之间的差异。

6.3。预测模型根据用户的浏览习惯

观看习惯不同用户之间的差异是巨大的,需要充分考虑当观点预测基于个人历史数据。我们使用用户ID作为指数轨迹数据库为每个用户创建一个单独的观点。数据库将包含所有ov历史观点数据用户。从用户的行为习惯信息主要包含在用户的相对运动的观点(缓慢或快速),而不是用户的绝对位置密切相关的观点,我们提取微分数据用户观点的轨迹,送他们到LSTM网络进行训练。

在时间 ,其差值可以通过以下公式: 在哪里是当前视点坐标在时间吗和是最后在时间坐标吗。LSTM网络最后得到预测值视点的坐标变化量,最终的输出通道1的结果。

6.4。预测模型基于ROI的看法OV内容

灵感来自一些现有观点预测计划,他们能够提高预测的准确性通过收购感兴趣的区域(ROI)在OV帧。这种类型的方法首先定位通过执行在每一帧图像特征提取ROI predecoded然后同时发送ROI坐标到预测模型以及视点坐标获取传感器的显示终端。每一帧的ROI信息可以有效地提高预测模型的准确性,但是这个操作predecoding和提取特征非常昂贵的大多数显示设备的资源消耗。

在本文中,我们认为这个ROI的信息也应该被包括在视点坐标的时间序列。当OV框架有一个ROI,吸引了大多数用户的关注,用户的角度位置应该在这一刻往往收敛。为了获得ROI信息,我们集群的每一帧的OV视点坐标。这些观点的数据收集从所有用户独立当他们看这个机汇。因为一帧中包含的roi的数量不能预定,DBSCAN的(density-based空间聚类的应用程序与噪音)算法用于聚类。DBSCAN可以自动确定集群的数量通过指定成员之间的距离和集群的最大边界。

图10显示了两个典型的帧的分析结果。图的左边10 ()OV帧的图片,右边是聚类结果这个坐标系的坐标框架的观点。可以看出,大部分的点是cluster - 1上的集群,是黄色的。剩下的孤立点所示蓝色和数量太小组合在一起。黄色框的区域表示OV左边框架对应cluster - 1上的聚类结果。它可以清楚地观察到,此时的浓度的观点是由于潜水员在该地区的存在的黄色框。同样,cluster - 1上的聚类结果图10 (b)是由潜水员OV黄色框的框架,和cluster - 2上的客户是由水下残骸的绿色盒子。

(一)

(b)

因为通道2主要指用户的绝对坐标信息的观点,直接序列作为输入的预测。与此同时,我们每一帧的聚类结果引入到预测模型来提高精度。后在实际部署中,视点预测模块收集来自不同用户的观点数据根据OV ID、集群操作可以完成,只有少量的资源。通道2将直接输出预测视点坐标。

7所示。实施和评价

在本节中,我们将展示MELiveOV原型系统的实现,并讨论它的性能。

7.1。实验原型系统

图11显示了捕获设备的原型系统。它由一个定制的全向相机有六个镜头可以同时捕获视频数据在6方向(上,下,左,右,前,和背部)和5 g CPE。他们通过RJ45网络端口进行通信。定制的相机的结构如图12。我们使用HiSilicon Hi3559AV100控制委员会,负责收集所有原始镜头数据并生成标准视频序列。镜头之间的数据传输和控制董事会通过MIPI接口。

我们的原型系统还包括两个边缘服务器,如图13。5 g的边缘服务器包括小细胞和普通服务器。常规的服务器有一个英特尔(R)至强(R) cpue5 v4和6 - 2630 GTX 1080 ti 11 g;服务器的大小是32 g。我们修改了5 g的转发策略小细胞数据到来后,它将被处理之前由服务器转发。有两套这样的边缘服务器,一个为第一英里边缘服务器,另一为最后一英里边缘服务器。它们之间的通信是通过一个虚拟的实验室里的核心网络。

显示终端的原型系统支持多个异构的播放设备。比如Android手机,电脑,头盔显示器。我们设计了专用的播放器软件在每个平台实现的功能角度预测模块。所有播放器软件可以收集用户的角度数据的采样频率30 Hz。

提出了图14MELiveOV的原型系统,实现了端到端直播机汇的服务。左边的图的一部分14视场内的图片,可以看到由用户通过屏幕显示终端的设备。右上角的图中显示用户的实际情况看OV直播通过Android手机。右下角的图中显示MELiveOV的捕获设备的工作场景。如图,我们把全向相机与电源、手推车和相机与5 g小细胞边缘服务器的无线网络。

7.2。实验和评价结果

在本节中,我们测试了MELiveOV原型系统在不同的场景中,分析了系统的性能。如图15,我们进行了四个实验的OV直播操场上,道路、办公室,晚上场景。我们收集数据的视频质量和网络带宽消耗MELiveOV四组实验。

(一)

(b)

(c)

(d)

机汇的整体分辨率在所有四个场景中大约是4 k (OV全景画面的分辨率是不固定的由于两层传输方案)和帧率是25 fps。除此之外,我们利用FFMPEG编码工具和h / AVC作为我们的编码标准。的PSNR OV图片如图11在直播。在图16,我们使用PSNR(峰值信噪比)评价图像质量在OV直播。红列表示视频图像的质量在用户的视场,和黄色列表示的质量non-FOV区域。在晚上机汇的,质量相对较高,因为图片内容相对简单(主要是黑色)和摄像机是固定的。在路,相机运动和有太多的对象(建筑和树木)在现场,所以PSNR是最差的。的结果操场上和办公室更常见。MELiveOV可以保证用户的视场的PSNR OV直播是大约50分贝。与此同时,我们也可以确保PSNR non-FOV领域保持超过30分贝。当用户的观点轨迹预测是错误的,MELiveOV仍然可以避免图像不完全在用户的视野。

图17分析与SSIM(结构相似度指数)作为质量评价指标。结果表明,MELiveOV SSIM也可以取得更好的性能,视场区域维护的质量高于0.98,和non-FOV地区大约是0.9。

我们已经验证的可靠性MELiveOV在直播的画面质量。接下来,我们将展示MELiveOV的网络带宽情况。我们建立了一个比较系统,将全方位视频生成任务中央云服务器(这是一个云服务器租用公共网络)。比对系统不包括最后一英里的流媒体模块边缘服务器和预测模块的显示终端。它只能实现最基本的OV直播功能。网络带宽消耗实验结果如表所示1。我们可以看到,在所有情况下,MELiveOV可以节省大约50%的带宽需求,可有效降低网络的传输压力。


场景	实现流媒体计划(Mbps)	MELiveOV (Mbps)	减少比率(%)

操场上	35.52	15.10	57.5
路	38.88	16.64	57.2
办公室	29.20	14.48	50.4
晚上	22.48	11.52	48.8

的传输延迟,我们也比较了两套方案。结果如表所示2。我们可以看到,服务请求在OV直播可以及时反应由于MEC的引入架构。MELiveOV的平均传输延迟可以减少70%到80%,大大提高了OV直播的实时性能。从表中也可以看到,在室内场景和固定相机的情况下,系统的传输延迟小。户外和移动相机时,整个系统延迟明显上升。我们认为这主要是由于有限的传输能量的5 g小细胞用于实验。顺便说一下,我们注意到比较系统在夜景也取得了良好的延迟性能。这主要是因为晚上更少的网络用户。和网络条件更好,所以传输延迟明显改善。


场景	非流方案(秒)	MELiveOV(秒)	减少比率(%)

操场上	22.7	6.7	70.5
路	26.4	5.2	80.3
办公室	13.5	2.8	79.3
晚上	8.7	2.4	72.4

8。结论和未来的工作

为了满足需求的全方位视频(OV)直播服务,提出了一种移动优势协助全方位视频直播系统(MELiveOV)。启用5 g的边缘服务器与丰富的计算资源,MELiveOV可以卸载计算OV缝合任务边缘和引入更多复杂的预测算法来优化直播性能。一个端到端的原型系统,和一个完整的服务链捕获OV直播是实现显示。评价实验的结果表明,MELiveOV可以减少网络带宽需求50%和超过70%的传输延迟的图像质量的前提下确保观众。

仍有许多问题需要解决的研究OV直播。例如,摄像机可能之间切换多个5 g基站在长途运动。是非常重要的设计可靠的机制来确保无缝迁移不同边缘服务器之间的计算任务。以及如何实现资源调度和数据融合在多用户情况下也是我们未来的研究方向。最后,5 g MEC是一种很有前途的解决方案,可以满足高分辨率OV直播的需要服务。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的BUPT优秀博士(CX2019102)学生的基础。这项工作也支持的项目”立体覆盖通信网络验证平台中国海”(PCL2018KP002)。

引用

英特尔卵子,5 g的娱乐经济报告,2018年,技术报告。
Hwang哦和美国,“OMAF:广义的哪些地区包装信号全方位视频”学报118 ISO / IEC JTC1 MPEG会议/ SC29 / WG11 MPEG2017 / m40423,2017年。视图:谷歌学术搜索
钱,汉族,问:小,诉Gopalakrishnan)“弹:实际viewport-adaptive 360度为移动设备视频,”《24日一年一度的移动计算和网络国际会议ACM,页99 - 114年,新德里,印度,2018年10月。视图:谷歌学术搜索
m·肖c .周、刘y和陈,“OpTile:对最优瓷砖在360度的视频流,”学报2017 ACM多媒体会议ACM,页708 - 716年,山景城,美国,2017年10月。视图:谷歌学术搜索
c . Ozcinar a De阿伯,Aljosa Smolic,“Viewport-aware适应360视频流为虚拟现实使用瓷砖,”学报2017年IEEE国际会议上图像处理(ICIP)IEEE,页2174 - 2178年,北京,中国,2017年9月。视图:谷歌学术搜索
r . Skupin y桑切斯,Y.-K。王,m . m . Hannuksela、j·博伊斯和w·马赛厄斯,“标准化地位360度视频编码和交付,”学报2017年IEEE视觉通讯和图像处理(VCIP)IEEE,页1 - 4,2017年12月美国佛罗里达州圣彼得堡。视图:谷歌学术搜索
d . v .阮h·t·t·Tran a·t·范教授和t . Cong Thang”基于题目的一个最佳方法viewport-adaptive 360度视频流,”IEEE杂志在新兴和选定的主题在电路和系统,9卷,不。1,29-42,2019页。视图:出版商的网站|谷歌学术搜索
h·艾哈迈迪o . Eltobgy h·穆罕默德,“虚拟现实内容的自适应多播流移动用户,”诉讼的ACM多媒体的专题研讨会ACM,页170 - 178年,山景城,美国,2017年10月。视图:谷歌学术搜索
m . Seufert症,m . Slanina t .寻t . Hobfeld和p . Tran-Gia”调查质量的http自适应流媒体的经验,“IEEE通信调查和教程,17卷,不。1,第492 - 469页,2015。视图:出版商的网站|谷歌学术搜索
j·勒Feuvre和c . Concolato“使用MPEG-DASH Tiled-based自适应流媒体,”学报》第七届国际会议在多媒体系统中,MMSys 16,页41:1-41:3,纽约,纽约,美国,2016年。视图:谷歌学术搜索
崔z . Liu石原,y, y, y .田中,“飞机:联合源和信道编码错误弹性虚拟现实视频无线传输,”信号处理卷,147年,第162 - 154页,2018年。视图:出版商的网站|谷歌学术搜索
c . Griwodz m . Jeppsson h。Espeland et al .,“有效率的生活和随需应变的瓷砖hevc 360 VR视频流,”《2018年IEEE国际研讨会上多媒体(ISM)IEEE,页81 - 88年,台中,台湾,2018。视图:谷歌学术搜索
x开尔文邹,j·厄尔曼诉Gopalakrishnan et al .,“可以准确的预测提高视频流在蜂窝网络,”学报》第16届国际研讨会在移动计算系统和应用程序ACM,页57 - 62年,圣达菲,海里,美国,2015年2月。视图:谷歌学术搜索
c . Li l .托尼·j .邹h .熊和p . Frossard”QoE-driven移动边缘自适应视频缓存位置,”IEEE多媒体,20卷,不。4、965 - 984年,2018页。视图:出版商的网站|谷歌学术搜索
a .麦臣s . Wang k . k .梁b . j . Ko和t . Salonidis“生活服务迁移云在移动优势,”IEEE无线通信,25卷,不。1,第147 - 140页,2018。视图:出版商的网站|谷歌学术搜索
c . j . Wu袁,N.-M。张、陈和c·w·陈,“启用自适应高的帧率视频流在移动云游戏应用程序中,“IEEE电路和系统视频技术,25卷,不。12日,第2001 - 1988页,2015年。视图:出版商的网站|谷歌学术搜索
g·辛格Bhullar y桑切斯,r . Skupin c . Hellge和t . Schierl“延迟影响mpeg OMAF的基于题目viewport-dependent 360°视频流,”IEEE杂志在新兴和选定的主题在电路和系统,9卷,不。1,18-28,2019页。视图:出版商的网站|谷歌学术搜索
l .太阳f . Duanmu y刘et al .,“双层360度视频点播流媒体系统在动态网络,”IEEE杂志在新兴和选定的主题在电路和系统,9卷,不。1,43-57,2019页。视图:出版商的网站|谷歌学术搜索
和y y z . Chen Li,“最近的进步全向视频编码虚拟现实:投影和评估,”信号处理卷,146年,第78 - 66页,2018年。视图:出版商的网站|谷歌学术搜索
k . k . Sreedhar a . Aminlou m . m . Hannuksela和m . Gabbouj”Viewport-adaptive编码和360度的视频流对于虚拟现实应用程序,”《2016年IEEE国际研讨会上多媒体(ISM)IEEE,页583 - 586年,2016年12月,美国圣何塞。视图:谷歌学术搜索
r . Skupin y桑切斯,c . Hellge和t . Schierl”瓷砖HEVC视频头安装显示器,”《2016年IEEE国际研讨会上多媒体(ISM)IEEE,页399 - 400年,2016年12月,美国圣何塞。视图:谷歌学术搜索
h . m . Yu Lakshman, b·吉伦特”一个框架来评估全方位视频编码方案,”《2015年IEEE国际研讨会上混合和增强现实,IEEE 31-36页。2015年10月,日本福冈。视图:谷歌学术搜索
工程学系。李,S.-T。金,大肠Yip B.-D。崔j .歌曲,S.-J。Ko,”全方位视频编码使用纬度自适应采样下来和像素重排,”电子信件,53卷,不。10日,655 - 657年,2017页。视图:出版商的网站|谷歌学术搜索
方r . Ghaznavi-Youvalari a . Zare h . et al .,“比较HEVC编码方案基于题目viewport-adaptive全方位的视频流,”学报2017年IEEE 19国际研讨会上多媒体信号处理(MMSP),页1 - 6,IEEE,伦敦,英国,2017年10月。视图:谷歌学术搜索
i d·d·Curcio h . Toukomaa, d .奈克,“带宽减少全向viewport-dependent视频流通过主观质量评估,”第二届国际研讨会上多媒体替代现实页,9-14 ACM、钙、美国,2017年8月。视图:谷歌学术搜索
h . m . Yu Lakshman, b·吉伦特”全方位视频电影的内容自适应表示虚拟现实,”学报》第三届国际研讨会身临其境的媒体经验ACM,页1 - 6,布里斯班,澳大利亚,2015年10月。视图:谷歌学术搜索
m·格拉夫、c·蒂莫和c·穆勒”向带宽高效自适应流媒体全方位的视频通过http:设计,实现,和评估,”学报》第八届ACM多媒体系统会议ACM,页261 - 271年,台北,台湾,2017年6月。视图:谷歌学术搜索
j·李,z,李,赵y, b .郭和j·温,“小说瓷砖全方位视频的分割方案,”学报2016年IEEE国际会议上图像处理(ICIP)IEEE,页370 - 374年,凤凰城,亚利桑那州,美国,2016年。视图:谷歌学术搜索
s Gudumasu h·艾哈迈德,y, y,“sub-picture-based全方位视频直播平台,”《数字图像处理的应用XLI,卷10752,p . 1075234,国际社会对于光学和光子学,圣地亚哥,美国,2018年8月。视图:谷歌学术搜索
c . Ozcinar和a . Smolic”视觉注意力在全方位视频虚拟现实的应用程序中,”学报》2018年第十届国际会议上的多媒体体验质量(QoMEX),页1 - 6,IEEE,柏林,德国,2018年9月。视图:谷歌学术搜索
尼南和c . Atluru”视图方向建立多级低带宽技术支持全方位的个人用户体验视频,“2018年,美国专利应用。15/842,703。视图:谷歌学术搜索
r . Ghaznavi-Youvalari和a . Aminlou”全方位视频编码、线性几何运动向量扩展”《2018年IEEE国际研讨会上多媒体(ISM)IEEE,页127 - 130年,台中,台湾,2018。视图:谷歌学术搜索
j·勒Feuvre和c . Concolato“使用MPEG-DASH Tiled-based自适应流媒体,”第七届国际会议在多媒体系统学报》上41卷,ACM Worthersee,奥地利,2016年5月。视图:谷歌学术搜索
陆y太阳,a, y,“Weighted-to-spherically-uniform全方位视频质量评价,“IEEE信号处理信件,24卷,不。9日,第1412 - 1408页,2017年。视图:谷歌学术搜索
3 gpp,虚拟现实(VR)在3 gpp(15)发布,媒体服务技术规范(TS) 26.918,第三代合作伙伴计划(3 gpp), 2017年06版本1.0.0。
DVB, DVB研究任务虚拟现实(CM1706)”商业模块,数字视频广播,2016年,DVB项目。视图:谷歌学术搜索
你们y,大肠Alshina j·博伊斯,“JVET-E1003:投影的算法描述格式转换和视频质量指标360年自由,”联合视频勘探队ITU-T SG 16 WP3 ISO / IEC JTC 1 / SC 29 / WG 11日5日见面,联合视频勘探队,瑞士日内瓦,2017年。视图:谷歌学术搜索
j·博伊斯,大肠Alshina, a·阿巴斯,y,“JVET 360视频,常见的测试条件和评估程序”联合视频勘探队(JVET) ITU-T SG16 WP3和ISO / IEC JTC1 / SC29 / WG11 JVET-E1030,2017年,页1 - 6。视图:谷歌学术搜索
m·c·波特,b . Wyble c . e . Hagmann和e·s·麦考特”检测的意义回复13岁女士/图片,”注意、知觉和心理物理学,卷76,不。2、270 - 279年,2014页。视图:出版商的网站|谷歌学术搜索
g .他j·胡、江h和y,“可伸缩视频编码基于用户的实时虚拟现实应用程序视图,“IEEE通信信,22卷,不。1、25 - 28,2018页。视图:出版商的网站|谷歌学术搜索
刘f . Duanmu e . Kurdoglu y, y王”视图方向360度和带宽自适应视频使用双层系统,”学报2017年IEEE国际研讨会(ISCAS)电路和系统,页1 - 4,IEEE,巴尔的摩,医学博士,美国,2017年5月。视图:谷歌学术搜索

移动信息系统