移动信息系统

在这一页上

文摘介绍背景和相关工作材料和方法结果与讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

机器学习、深入学习和对异类传感器信息集成的优化技术

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID8501990| https://doi.org/10.1155/2021/8501990

轻量级的神经网络窗口预测生活VR流在无线视频传感器网络

一位陈 ,¹ Baoning曹 ,¹ 和Ishfaq艾哈迈德²

学术编辑器: Xingsi雪

收到了 2021年8月19日

修改后的 2021年10月07

接受 2021年10月16日

发表 2021年11月09

文摘

虚拟现实(VR)流(即生活。,360-degree video streaming) has become increasingly popular because of the rapid growth of head‐mounted displays and 5G networking deployment. However, the huge bandwidth and the energy required to deliver live VR frames in the wireless video sensor network (WVSN) become bottlenecks, making it impossible for the application to be deployed more widely. To solve the bandwidth and energy challenges, VR video viewport prediction has been proposed as a feasible solution. However, the existing works mainly focuses on the bandwidth usage and prediction accuracy and ignores the resource consumption of the server. In this study, we propose a lightweight neural network-based viewport prediction method for live VR streaming in WVSN to overcome these problems. In particular, we (1) use a compressed channel lightweight network (C-GhostNet) to reduce the parameters of the whole model and (2) use an improved gate recurrent unit module (GRU-ECA) and C-GhostNet to process the video data and head movement data separately to improve the prediction accuracy. To evaluate the performance of our method, we conducted extensive experiments using an open VR user dataset. The experiments results demonstrate that our method achieves significant server resource saving, real-time performance, and high prediction accuracy, while achieving low bandwidth usage and low energy consumption in WVSN, which meets the requirement of live VR streaming.

1。介绍

近年来,随着需求的增加身临其境的多媒体体验,虚拟现实(VR)视频(或称。360度的视频流)已成为越来越受欢迎。主要行业供应商发布各种头盔显示器(HMD)设备。VR高清视频视频内容提供商发起了许多内容,包括军事、教育、房地产、零售、娱乐、医疗和通讯等领域。为了进一步为用户提供一个更直接的身临其境的体验,VR流媒体已经初步尝试生活事件,如体育赛事和新闻网站。与传统的视频流媒体、VR流媒体可以为用户提供全方位的场景,包括一个360度水平和180度的物理空间视图查看器的位置,为了让观众可以随意变化,在回放期间,得到一个身临其境的视觉体验和互动的感觉。

360度的视频有高分辨率的特点。在当前条件下,4 k的决议是最低要求。在未来,决议可能需要6 k甚至更高。同时,因为视野(FoV)被360度覆盖视频360°,相比与传统的2 d视频视野不到50°,360度的视频的数据量超过5倍的二维视频在同一分辨率和视频长度。面对这样一个巨大的数据量,在现有的无线网络带宽条件下,即使最新的H.265 / HEVC和其他标准用于压缩和编码,需要发送一个360度的视频有足够的分辨率和覆盖一个完整的360度的场景。它将占用过多的带宽资源,这将导致视频缓冲延迟,从而影响用户体验。此外,在虚拟现实生活场景,直播也提出了严格的实时要求。

最先进的虚拟现实流的研究主要集中在视窗预测(1- - - - - -16]。现有的解决方案(1,11- - - - - -13)建议预取每一部分的所有瓷砖,和高质量的预取预测视窗的瓷砖。大多数现有的视窗预测算法可以分为trajectory-based [1- - - - - -6和基于内容的7- - - - - -16)方法。然而,这些方法都难以实现足够的预测精度,或者他们在实际部署中占用了大量的服务器资源,不能达到良好的实时性能由于自己的算法的复杂性。因此,他们不能支持住VR流。此外,还有一些研究试图缓解延迟从其他方面问题在虚拟现实生活。太阳et al。17)使用的想法涌向提高性能的预测的视场和边缘缓存服务器住360度的视频,和陈等。18)提出了一种事件驱动的拼接算法改进的缝纫速度360度的视频。

为了节省服务器资源,解决实时预测准确性和有效带宽的挑战,我们提出一个轻量级的神经网络窗口预测方法对虚拟现实生活流在无线视频传感器网络(WVSN)。方法使用一个替代和混合深度学习方法来实现准确、实时、低服务器资源消耗和低带宽使用viewport的预测。具体来说,一方面,我们使用一个GhostNet模块压缩通道(C-GhostNet)对视频内容分析用户的偏好。轻量级的模块压缩特性地图频道网络GhostNet [19),可以显著减少参数和预测时间,提高预测精度。另一方面,为了进一步提高用户的感知的轨迹,我们提出一种改进的门复发单元(格勒乌)模块(GRU-ECA)。通过嵌入一个高效的注意机制方法ECANet [20.到格勒乌(21)网络模块分配不同的权重来用户的观点在不同的时间步骤,以便进一步提高预测精度没有明显增加的预测时间。最后,我们把两个模块生成的预测结果最终用户窗口。此外,针对虚拟现实生活流的特点,即。,online video generation, no historical user data and real-time data, we cannot use the traditional workflow of first training and then prediction for viewport prediction. On the contrary, referring to LiveDeep [15),我们使用另一种方法,即,when the user watches the video, we collect the user’s preference for the video content and the user’s view trajectory information, train in the current video segment, and infer the user’s viewport in the next video segment and constantly update the model during the whole session.

值得注意的是,WVSN系统包含空间分布式无线视频传感器,“全球价值调查”主要根据最近WVSN工作包括(22- - - - - -24]。三个主要模块,“全球价值调查”主要根据图像传感、视频压缩和无线传输。无线视频传感器网络运行在有限的能源供应。可用的能源将会影响最终的视频质量和系统的使用寿命。因为带宽和能源消耗是成正比的传播视频,该方法在这项工作还可以节省WVSN的能源消耗。

这个工作的主要贡献在于两个折叠。

我们使用轻量级模块C-GhostNet格勒乌,用更少的参数和ECANet网络,从而减少整个模型的预测时间,减少服务器的资源消耗。

我们使用GRU-ECA模块来预测用户的窗口轨迹和使用C-GhostNet模块对视频内容分析用户的偏好。该模块可以改善视窗预测的预测精度,同时获得低带宽WVSN使用和降低能源消耗。

2.1。虚拟现实生活流

图1说明了虚拟现实生活的总体工作流程视频窗口的预测。360度全景视频相机捕捉和提供流媒体服务器。在服务器端,视频由封隔器分为段,然后,他们分发到客户端通过使用优化的内容分发网络(CDN)视窗360量自适应检测学位视频流机制(25]。减少带宽,预测窗口内的部分与高质量的编码,和预测窗口外的部分编码质量较低(26- - - - - -29日]。通过这种方式,用户仍然可以观看低质量的视频,以避免中断的VR视频体验即使预测窗口并不准确。

2.2。视窗的预测

视窗预测可分为两类:trajectory-based和基于内容的方法。trajectory-based方法使用用户的头部旋转历史数据来预测未来的窗口。钱等。1)提出了三种方法:简单平均,线性回归,并加权线性回归来预测用户未来的窗口。战斗et al。2)使用马尔可夫链模型来预测概率最高的窗口为用户观看下一个时刻。江et al。3]应用模型基于长期短期记忆(LSTM)来预测未来的头旋转。贾玛利et al。4)使用LSTM encoder-decoder网络执行sequence-to-sequence预测。Nasrabadi et al。5)提出了一个clustering-based方法估计用户的未来的窗口。江et al。6]解释最初的旋转量作为一个正弦值减少偏航方向的预测误差。这些trajectory-based方法可用于生活,因为他们只需要实时数据从当前视频会话。然而,很难实现可接受的预测精度仅使用用户轨迹,尤其是在几秒钟(即大跨度。视频缓冲)的长度,因为用户可能会改变他们的头部动作。

基于内容的方法使用旋转信息和视频内容特征。Dasari et al。7)提出了一个秒差距与超限分辨视窗”相结合的方法预测,提高用户体验的质量。菅直人et al。8)提出了一个DRL-based率适应算法能胜任学习策略达成最优的视频质量之间的权衡,rebuffering的风险,平滑的视频瓷砖的质量通过选择适当的比特率。以前的作品(9- - - - - -12CNN和LSTM)设计了一个混合的体系结构模型。他们用卷积神经网络(CNN)和视频内容特征的提取LSTM显著地图,原始图像或旋转运动从历史信息的模式。冯et al。13)使用光流和高斯混合模型的运动检测和跟踪特性,然后使用一个动态的用户兴趣模型来生成用户未来的窗口。冯et al。14]CNN-based模型用来预测未来视窗的直播通过修改培训/推断过程。早期工作的基础上(14),冯et al。15提出了一种混合模型提高预测精度。冯et al。16)实现低带宽消耗进行实时的基于语义对象级别的检测和跟踪。所有这些方法将实际部署在实际系统的负担,因为它们消耗太多的服务器资源。

3所示。材料和方法

在本节中,我们讨论了设计和实现神经网络的轻量级C-GhostNet / GRU-ECA住视窗预测方法。

3.1。模型架构

本研究方法的主要目标是实现轻量级虚拟直播视窗WVSN预测。我们的方法的总体架构如图2。我们使用C-GhostNet模型来分析用户的偏爱视频内容和使用GRU-ECA模型感知用户的窗口轨迹,然后,我们将两种方法的结果合并到最后预测窗口。整个预测过程开始于输入视频段和结尾输出窗口的预测结果,通过用户的反馈,每个段的视窗训练和预测更新模型。

根据工作流如图2,一系列的视频片段将预处理后得到的输入视频。第一个视频片段的预测,因为训练图像不是标签,不能训练模型。我们的解决方案是让C-GhostNet模块使用随机权重预测用户的窗口和传输的瓷砖预测窗口与高品质和较低的传播预测窗口外的瓷砖质量。用户观看视频片段后,视是预测与实际的窗口相比,计算和损失价值。然后,使用损失值更新C-GhostNet模块和预测第二个视频片段。用户关注的第一个视频片段后,将生成相应的窗口轨迹,输入到GRU-ECA模型进行训练和预测。结合其C-GhostNet模型的预测结果与预测结果的第二个视频片段作为一个新的预测窗口。这样继续下去,直到所有的视频段预计。

3.2。数据收集

现场视窗预测方法得到的数据需要通过收集历史视频培训和用户数据。然而,在虚拟现实直播现场,由于缺少用户浏览历史,收集到的训练图像没有贴上标签。因此,我们必须等待用户观看相应的视频片段,然后得到相应的窗口和用户视图序列作为反馈。然后,根据用户的反馈,我们比较所有瓷砖与实际用户窗口。实际标签相对应的瓷砖视窗标签“感兴趣”,剩下的瓷砖如“不感兴趣”。

视频预处理,我们使用以下步骤:首先,部分现场VR流和输入每个视频片段作为基本处理单元到C-GhostNet模块训练和推理。处理计算资源消耗和处理延迟造成的大量的视频帧,我们按顺序执行时间将采样和空间将采样视频片段。在时间将采样,我们每个视频片段为固定样本帧。在空间将采样,以过程的视频不同的决议和促进网络模型的建设,我们的大小进行调整k帧160×160。对于每一帧,我们均匀分成瓷砖。最后, 瓷砖将VR频带,每一年的产量。在这篇文章中,指LiveDeep [15),视频分割时间设置为2 s,和都是设置为5,设置为8。虚拟视频预处理后高分辨率的输入,每个视频片段最终输出200瓷砖的决议3232的培训和推理C-GhostNet模块。

用户观看视频片段后,相应的中心跟踪用户的窗口从头部动作获得数据。类似于图像数据的预处理,将采样的参数执行用户的中心轨迹的每个视频片段的视窗。最后,抽样结果输入到GRU-ECA模块预测用户的窗口轨迹。

3.3。C-GhostNet模块

针对计算延迟和服务器资源消耗问题造成的传统CNN使用在前面的窗口预测工作,我们选择使用C-GhostNet VR视频内容特征提取主干网络。GhostNet的轻量级卷积神经网络是一种新型使用鬼模块生成更多的特征图谱更少的参数,可以降低计算成本卷积层的同时保持高识别性能。

3.3.1。鬼模块

可视化卷积特性映射后,发现原来的输出特性图卷积层通常包含大量的冗余,其中一些可能会相似。因此,输出特性映射可以获得一些原始特征图谱通过一些廉价转换“鬼”,如图3。具体地说,原始特征图使用一个卷积生成: 在哪里卷积操作和吗卷积内核使用和进一步执行一系列廉价的线性操作每个原始特性生成幽灵特征图: 在哪里是 - - - - - -原始特征映射和在上面的函数 - - - - - -线性操作,用于生成 - - - - - -th鬼特性图。最后一个标识映射用于保存原始特征映射如图3。使用廉价的操作,我们可以获得特征图鬼模块的输出数据。线性操作运行在每个通道,因此计算量远小于普通的卷积。

3.3.2。鬼的瓶颈

利用鬼模块,鬼瓶颈(G-bneck)是专门为小GhostNet CNN。鬼瓶颈集成多个卷积层和捷径。鬼瓶颈主要由两个鬼模块。第一个鬼模块用作层来增加渠道的数量扩张,和第二个鬼模块降低通道的数量匹配快捷方式路径。然后,使用快捷键连接的输入和输出两个鬼模块。

3.3.3。C-GhostNet

图4显示了GhostNet网络架构图。GhostNet主要由一群鬼的瓶颈,这是基于鬼模块。第一层是一个标准的卷积层16卷积核,然后,一系列的鬼魂与逐渐增加渠道瓶颈。最后,全球平均池层和卷积层用于转换特性映射到一个1280维的特征向量对最终分类。SE模块还用于残留层在一些鬼瓶颈。根据实际需求预测的窗口,只有两个类别的“兴趣”和“不感兴趣”输出。然而,在每一层GhostNet的渠道太多了,导致浪费计算机资源,这并不符合我们的实际需要。因此,我们调整GhostNet网络结构,以适应我们的任务。我们删除原来的全球平均池层每层和减少渠道。每个级别的信息C-GhostNet表所示1。可以看出,网络参数的原始GhostNet通道压缩后减少到1307970人。如果不使用通道压缩,原始GhostNet的参数是3904070卡路里。

3.4。GRU-ECA模块

当用户看360度的视频,他们的未来视窗与许多因素有关,如视频内容和场景的细节。一方面,用户很容易吸引了一些功能的视频。另一方面,由于不同的运动模式,历史头运动也是一个关键因素在预测用户未来的窗口。在以往的研究中,LSTM模型经常被用来预测用户的头运动轨迹快速响应用户首选项的快速切换,但这种方法仅限于的正确预测用户的窗口。因此,我们提出了GRU-ECA模块。它几乎不增加延迟开销,同时提高用户的窗口的预测精度。

3.4.1。格勒乌

格勒乌和LSTM作为递归神经网络(RNN)的变体,可以减轻梯度爆炸和梯度消失在长期记忆和反向传播。另一方面,格勒乌LSTM进一步简化了结构。与LSTM相比,格勒乌已经少了一个控制单元,所以它有更少的参数,可以加快整个训练和预测过程,减少计算资源的消耗,还取得了不错的效果。

3.4.2。ECANet

通道的注意机制已经显示出巨大的潜力在改善神经网络的性能。然而,大多数现有的方法是致力于开发更复杂的关注模块来获得更好的性能,这不可避免地会增加模型的复杂性。为了克服性能和复杂度之间的矛盾,ECANet提出了一个高效的信道衰减(ECA)模块;这个模块只需要少量的参数来获得显著的性能提升。在ECANet,通道尺寸不是减少促进学习的有效渠道。只考虑每个通道及其之间的相互作用邻居,输出的重量可以计算为在哪里代表的集合相邻的渠道。显然,方程(3)捕捉当地的多渠道互动,和本地约束避免交互在所有渠道,从而使模型效率高。为了进一步提高网络性能,ECANet使用一维卷积的方法分享重量,也就是说,每组的权重是相同的,这大大减少了参数的数量,从原始 (通道的数量) 。

3.4.3。GRU-ECA

头部运动预测问题是一个非线性回归问题,历史的头运动的独立变量,和未来的头运动是因变量。我们建议GRU-ECA模块来解决这个预测问题,提出了模块结构如图5。首先,将用户的窗口轨迹作为输入并使用格勒乌提取用户的窗口序列的特性。然后把格勒乌的输出特性为ECANet获取特性不同的时间步骤,以便网络能够更好地学习隐序列之间的关系。最后,预测窗口轨迹输出通过一个完全连接层。为了使ECANet适应一维数据的输入,修改AdaptiveAvgPool2d AdaptiveAvgPool1d。

4所示。结果与讨论

进行了大量的实验和分析方法在这一节中。首先,我们引入一个开放的虚拟用户头部运动数据集。其次,我们提出我们的实验环境和相关设置。最后,我们进行时代的影响分析,消融研究和比较不同的先进方法。

4.1。数据集

打开数据集(30.)是一种虚拟现实磁头移动数据集组成的18 48用户观看视频5个类别。它不仅提供了记录用户的运动数据,也包括在实验中使用的视频。为了评估我们的方法的性能,我们选择8代表测试视频数据集的实验测试,如表所示2。这些8视频包括体育、表演、谈话节目、纪录片视频。3和8多个摄像头捕捉到的视频。视频的背景1、4和5是静态的,在剩下的视频和动态背景是由相机运动或多个摄像头之间切换。

以下4.4.1。实验环境

我们的实验是进行图形处理单元(GPU)模式和使用CUDA加速深度学习处理。实验中使用的电脑的详细配置如下:RAM 32 g,英特尔(R)的核心(TM) i3 - 9100 f CPU、Nvidia GTX1080Ti GPU,所使用的操作系统是64位的Ubuntu 16.04。实验选择的脚本语言Python,OpenCV图像处理库和Pytorch深度学习框架安装。

4.1.2。实现细节

C-GhostNet模块,我们设置图像批培训和推理到200。不同于一般的CNN时代环境中,我们设置了时代到10,以满足实时需求带来的虚拟现实生活。此外,我们使用CrossEntropyLoss作为损失函数。

GRU-ECA模块,我们设置hidden_size(即隐层的节点数)的格勒乌64年num_layers(即格勒乌层)2。

4.1.3。评价指标

全面评估我们的方法的性能,我们使用4个评价指标,即预测准确性,带宽使用情况,预测时间,模型参数。首先,预测精度是一个重要的因素,影响用户的体验看虚拟视频。视频的每一帧,如图6,蓝色的矩形代表实际的视窗,红色的网格表示预测窗口。我们比较实际的预测窗口窗口,当实际的窗口是完全覆盖的预测视窗,框架的预测是正确的。如果预测是不正确的,用户只能看低质量的视频。然后,通过计算获得的预测精度是正确的帧数的比值在视频中所有帧的数量,这是不同于十字路口在联盟(借据)在其他工作指标用来评估精度。其次,减少带宽使用VR流视窗预测的基本目标,也是一个重要的指标反映出WVSN能源消耗。为了方便计算,我们忽视视窗外的瓷砖的带宽消耗和定义所有瓷砖的比例相应的预测窗口随着带宽的使用。第三,预测时间评估独特的实时需求所带来的虚拟现实生活。我们将使用viewport预测作为一个完整的数据收集的预测。根据数据收集、数据分割设置顺利实时流经验可以获得只有当每一部分的预测时间小于2 s(忽略视频缝合时间31日])。最后,我们使用模型参数测量的消耗服务器资源的骨干网络。

(一)

(b)

4.1.4。烧蚀研究

说明每个模块的有效性在我们的方法中,我们进行了一次消融研究方法,即。,to evaluate the prediction accuracy, prediction time of each video segment, and parameters of VGG13, GhostNet, C-GhostNet, GRU, GRU-ECA, and C-GhostNet + GRU-ECA, respectively.

表3显示了烧蚀实验的结果。结果表明,与VGG13相比,C-GhostNet进一步提高预测精度,大大降低参数和预测时间,从64%到98%不等。与GhostNet相比,C-GhostNet减少66.5%的参数并没有减少预测的准确性。格勒乌+ ECA的预测准确率在35%和56%之间,这是一个与格勒乌相比,增长了2.1%,而预测时间和参数没有显著增加。C-GhostNet + GRU-ECA的预测精度在86%和99%之间,达成一致的高预测精度在不同的测试视频。图7显示了每一部分的预测精度的视频1和视频8。我们观察C-GhostNet将大幅下跌的预测精度的快速移动用户的观点,特别是在动态背景的视频,以及GRU-ECA模块可以有效地抵制这种情况造成的干扰。因此,与单个模块相比,C-GhostNet + GRU-ECA结合模块可以显著提高预测精度。

(一)

(b)

图8显示的平均预测时间的累积分布的每一段8测试视频使用我们的方法。我们可以观察到,大多数视频片段的处理时间是280 ms和700毫秒之间,和所有的视频段的预测时间是不到800毫秒,远低于2 s,这意味着视窗预测可以视频回放期间完成当前段及时到下一段,和光滑的VR流经验支持。

4.1.5。时代的影响

我们进一步评估我们的方法的性能在不同的时代,这是一个重要的参数,影响整个网络的预测精度和预测时间模型。

一般来说,更多的时代有助于实现更高的预测精度也有更长的预测时间。为了分析时代的影响,对整个网络的性能模型,我们设置三个时期的训练过程,也就是说,6,10,15。结果如表所示4,包括预测的准确性,每个段的平均预测时间,每段的最大预测时间。结果表明,与时代= 10相比,当时代= 6,整个网络模型的预测精度大大降低,和预测时间也就相应地减少了。当时代= 15,预测时间增加,但预测精度的提高很有限。这是因为在我们的方法中,整个模型的复杂性是有限的,和一个太大的时代不会带来显著提高预测精度,但会增加extraprediction时间。因此,我们建议设置时代到10,可以达到较高的预测精度,同时满足延迟开销。

4.2。比较不同的先进方法

4.2.1。准备预测精度

表5显示所有视频片段的平均预测结果在测试视频。结果表明,我们的方法和运动(13取得了较高的预测准确率,整体维持在86%以上。的总体预测精度LiveObj [16)很低,从75%到89%不等。其他方法的性能不稳定,预测精度在不同的视频有很大的不同,最大的区别可以达到49.6%。我们的方法获得最高的预测精度视频1,3,4,5,6,8。视频内容通过进一步分析,我们可以发现视频2,6和7包含大量的动态背景部分,场景切换的数量超过其他视频;我们的方法的预测精度在这些视频是低于其他视频。

4.2.2。预测的时间

图9显示了随机选择的平均预测时间每帧视频,视频的背景1和视频5是静态的,和视频的背景2和视频7是动态的。结果表明,在不同的视频类型,总体预测时间LiveDeep [15]和LiveObj [16高于我们的方法,LiveObj[的预测时间16)对不同框架是完全不同的。视频1和5,预测时间在我们的方法是集中在40毫秒。然而,在视频2和视频7,预测的时间在我们的方法是35和97 ms女士和女士32和96毫秒之间,分别。这些表明,动态背景视频,我们的方法需要更多的时间来预测窗口由于用户感兴趣的内容和快速变化的窗口,和视频内容的复杂性会导致不同的预测时间帧之间存在较大的差异。一般来说,我们的方法获得较低的预测时间,一般保持在100 ms。

(一)

(b)

(c)

(d)

4.2.3。参数

图10展示了不同的方法的参数。结果表明,传统的有线电视新闻网CNN中使用(14]和LiveDeep [15),和网络结构进行了优化。因此,与原始Alexnet和VGG13相比,参数在一定程度上减少了,但总数是10米以上。中使用的目标探测网络Yolov2 LiveObj [16),和它的参数数量仍处于高水平。在我们的方法中,由于使用的轻量级网络C-GhostNet,其参数与其他方法相比,减少了一个数量级,所以服务器资源的消耗减少到更大的程度上预测过程。

4.2.4。带宽使用情况

图11的箱线图显示带宽使用不同的方法,评估基于预测面积的大小在每一帧视频和所有用户。结果表明,运动可以造成巨大的差异在不同的视频和用户之间的带宽使用情况。CNN的结果(14],LiveDeep [15),我们的方法是相对稳定的大多数视频。其中,带宽的使用我们的方法略有增加,但总的来说,它仍然是一个可接受的范围内。

一般来说,我们的方法达到提高预测精度,减少预测时间和参数的前提下降低带宽使用情况和能源消费,所以它的整体性能优于其他方法。

5。结论

在本文中,我们提出一个轻量级的神经网络窗口预测方法在WVSN虚拟现实生活流,包括C-GhostNet模块和GRU-ECA模块对用户内容偏好分析和用户的窗口轨迹感知。C-GhostNet模块可以显著降低参数和预测时间,可以提高预测精度。GRU-ECA模块可以通过关注机制,进一步提高预测精度,同时,它几乎没有影响的预测时间和整体模型的参数。由于这两个模块的贡献,我们的数据集[方法取得了良好的性能30.),特别是在WVSN。

通过分析预测精度和带宽使用在测试视频中,我们注意到仍然有两个难于解决的问题。第一个问题是,在视频与动态背景,尤其是大量的场景切换,如视频2、6和7,该方法的预测精度低是由于视频内容的复杂性和限制模型。第二个问题是,与其他方法相比,带宽利用率的方法仍有进一步下降的空间。我们打算进一步优化这些问题在未来的工作中结合行动识别(32]。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了国家自然科学基金(号。61967012,61967012,61861027)。

引用

f .钱l .霁,b .汉,诉Gopalakrishnan)“360视频交付/蜂窝网络,优化”诉讼五车间的细胞,歌剧院达成。挑战(ATC),页1 - 6,伦敦,英国,2016年8月。
视图: 出版商的网站 | 谷歌学术搜索
l .战斗,r . Chang和m . Stonebraker”动态预取的交互式可视化数据瓦片,”《2016国际会议管理的数据,页1363 - 1375年,旧金山,美国,2016年7月。
视图: 出版商的网站 | 谷歌学术搜索
江x,中州。蒋介石,赵y, y霁”,柏拉图:上优于360度的自适应流媒体视频,”IEEE学报》第43本地计算机网络会议(LCN),页393 - 400年,芝加哥,2018年10月,美国。
视图: 出版商的网站 | 谷歌学术搜索
m·贾玛利s Coulombe, a . Vakili”LSTM-based观点预测multi-quality平铺的视频编码在虚拟现实流,”学报2020年IEEE国际研讨会(ISCAS)电路和系统,页1 - 5、塞维利亚、西班牙,2020年4月。
视图: 出版商的网站 | 谷歌学术搜索
a . t . Nasrabadi a Samiei, r·普拉卡什”视窗预测360年视频:聚类的方法,”30 ACM学报》研讨会在网络和操作系统支持数字音频和视频2020年6月,页34-39,土耳其伊斯坦布尔,。
视图: 谷歌学术搜索
江x, s . a . Naas中州。蒋介石,美国Sigg, y,“高级副总裁:正弦视窗预测为360度的视频流,”IEEE访问,8卷,第164481 - 164471页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
m . Dasari a·巴塔查里亚和美国Vargas,“流360度使用超分辨率视频,”IEEE INFOCOM学报》2020 - IEEE计算机通讯大会上加拿大多伦多,页1977 - 1986,,2020年7月。
视图: 出版商的网站 | 谷歌学术搜索
李和c, n .菅直人j .邹,“RAPT360:基于强化学习的速度适应360度视频流自适应预测和瓷砖,”IEEE电路和系统视频技术,1卷,2021页。
视图: 出版商的网站 | 谷歌学术搜索
吴董y, y, j . et al .,”目光在动态预测360°身临其境的视频,”《IEEE计算机视觉与模式识别会议,页5333 - 5342,盐湖城犹他,美国,2018年6月。
视图: 谷歌学术搜索
问:杨,j .邹k . Tang c·李和h .熊,”单身,顺序视窗预测为360度的视频流,”《IEEE国际研讨会(ISCAS)电路和系统日本札幌,页1 - 5,2019年5月。
视图: 出版商的网站 | 谷歌学术搜索
c . x, s . Wang朱、l .歌曲,r·谢和w·张,“视窗预测与multi-CNN全景视频,”《IEEE国际研讨会宽带多媒体系统和广播(BMSB),页1 - 6,成都,中国,2019年6月。
视图: 出版商的网站 | 谷歌学术搜索
x, a . t . z Kasgari, w•萨阿德“深度学习的基于内容的个性化窗口预测360度虚拟视频,”IEEE网络信,卷2,不。2、81 - 84年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
x, v . Swaminathan s魏,“视窗预测360度的移动视频直播使用用户内容混合运动跟踪,”诉讼ACM的互动、移动、可穿戴和无处不在的技术,3卷,不。2、22页,2019页。
视图: 出版商的网站 | 谷歌学术搜索
保x, z,魏,“探索CNN-based视窗预测虚拟现实生活流,”《IEEE国际会议上人工智能和虚拟现实(AIVR)圣地亚哥,页183 - 186,美国2019年12月。
视图: 出版商的网站 | 谷歌学术搜索
刘冯x, y,和美国,“LiveDeep:在线窗口预测虚拟现实生活流使用终身深度学习,”设计的程序。虚拟现实三维用户界面(VR),页800 - 808年,亚特兰大,乔治亚州,美国,2020年3月。
视图: 出版商的网站 | 谷歌学术搜索
保x, z,魏,“LiveObj:基于语义对象窗口预测移动流媒体虚拟现实生活,“IEEE可视化和计算机图形学,27卷,不。5,2736 - 2745年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
毛l .太阳,y, t .宗庆后和王y, y . Liu”Flocking-based 360度的视频直播,”第11届ACM学报》多媒体会议系统,页26-37,伊斯坦布尔,土耳其,2020年5月。
视图: 出版商的网站 | 谷歌学术搜索
b . Chen z燕、h·金和k . Nahrstedt“事件驱动的缝合基于题目活360视频流,”第十届ACM学报》多媒体会议系统美国马,页1 - 12,阿默斯特,2019年6月。
视图: 出版商的网站 | 谷歌学术搜索
韩k . y . Wang田,j .郭徐,徐和c,“GhostNet:从廉价的操作,更多的功能”《IEEE / CVF计算机视觉与模式识别会议西雅图,页1580 - 1589年,2020年6月,美国。
视图: 出版商的网站 | 谷歌学术搜索
问:小王,b . Wu, p .朱,p . Li w·左问:胡,”ECA-net:高效的渠道关注深卷积神经网络,”2019年,http://arxiv.org/abs/1910.03151。
视图: 谷歌学术搜索
r·戴伊和f·m·萨勒姆”Gate-variants封闭的复发性单元(格勒乌)神经网络,”中西部学报2017年IEEE 60国际研讨会上电路与系统(MWSCAS),页1597 - 1600,波士顿,MA,美国,2017年8月。
视图: 出版商的网站 | 谷歌学术搜索
x雪和j .张”匹配的大规模的生物医学本体与核心概念基于分区算法和自适应进化算法紧凑,”应用软计算卷,106年,页1 - 11,2021。
视图: 出版商的网站 | 谷歌学术搜索
x天雪,杨c, c .江P.-W。蔡、毛g和h·朱”,优化本体一致性通过实体通讯联系学习,”复杂性卷,2021篇文章ID 5574732, 12页,2021。
视图: 出版商的网站 | 谷歌学术搜索
薛x, x, c .江g .毛和h·朱,“集成传感器本体与全球和局部比对拔牙、”无线通信和移动计算卷,2021篇文章ID 6625184, 10页,2021。
视图: 出版商的网站 | 谷歌学术搜索
吴x, d,艾哈迈德,“优化窗口自适应应承担360高学位视频流在”CAAI交易情报技术》第六卷,没有。3、347 - 359年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
y太阳,艾哈迈德,d . Li和y .问:张先生,“提出率控制和无线视频传输的比特分配,”IEEE多媒体,8卷,不。1、1 - 10,2006页。
视图: 谷歌学术搜索
y太阳和i Ahmad”,一个健壮的和自适应速率控制算法对物体视频编码”IEEE电路和系统视频技术,10卷,不。14日,第1182 - 1167页,2004年。
视图: 出版商的网站 | 谷歌学术搜索
j .赵b, c . w .角和艾哈迈德,“mpeg - 4视频传输通过无线网络:链路级性能的一项研究中,“无线网络,10卷,不。2、133 - 146年,2004页。
视图: 谷歌学术搜索
i艾哈迈德和j·罗”,用博弈论来优化视频编码的速率控制,”IEEE电路和系统视频技术,16卷,不。2、209 - 219年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
z z . c . Wu Tan王,杨,“探索用户行为的数据集在vr球形视频流,”学报》第八届ACM多媒体系统会议新的你,页193 - 198年,纽约,美国,2017年6月。
视图: 出版商的网站 | 谷歌学术搜索
j .咦,m . r .伊斯兰教,s . Aggarwal d . Koutsonikolas y . c . Hu和z燕,“迟延活360°视频流的分析系统”第28届ACM国际会议多媒体学报》上西雅图,页982 - 990年,马,美国,2020年10月。
视图: 谷歌学术搜索
邢y和z贾”,深度学习基础动作识别与三维骨架:一项调查,“CAAI交易情报技术,5卷,不。3、80 - 92年,2021页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

592年

下载

507年

引用

移动信息系统

机器学习、深入学习和对异类传感器信息集成的优化技术

轻量级的神经网络窗口预测生活VR流在无线视频传感器网络

文摘

1。介绍

2。背景和相关工作

2.1。虚拟现实生活流

2.2。视窗的预测

3所示。材料和方法

3.1。模型架构

3.2。数据收集

3.3。C-GhostNet模块

3.3.1。鬼模块

3.3.2。鬼的瓶颈

3.3.3。C-GhostNet

3.4。GRU-ECA模块

3.4.1。格勒乌

3.4.2。ECANet

3.4.3。GRU-ECA

4所示。结果与讨论

4.1。数据集

以下4.4.1。实验环境

4.1.2。实现细节

4.1.3。评价指标

4.1.4。烧蚀研究

4.1.5。时代的影响

4.2。比较不同的先进方法

4.2.1。准备预测精度

4.2.2。预测的时间

4.2.3。参数

4.2.4。带宽使用情况

5。结论

数据可用性

的利益冲突

确认

引用

版权