文摘
高效视频编码提供了更好的压缩比与早前的标准相比,h /先进的视频编码。事实上,HEVC节省50%比特率相比,h / AVC相同的主观质量。这种改进结构特别是通过层次四叉树编码单元。然而,计算复杂度显著增加由于完整的搜索率失真优化,可以达到最优编码树单元分区。尽管许多加速算法开发的文学,HEVC编码复杂度在视频编码领域仍然是一个至关重要的问题。朝着这一目标,我们提出本文深入学习基于模型的快速模式决策算法HEVC intermode。首先,我们提供一个深刻理解的概述该CNN-LSTM,起一个内核和关键作用的贡献,从而预测铜分裂和减少HEVC编码的复杂性。其次,大量的训练数据集和推理HEVC intercoding研究训练和测试提出了深刻的框架。基于这个框架,铜的时间相关分区为每个视频帧由LSTM解决网络。数值结果证明了该CNN-LSTM方案降低了编码复杂度与增加58.60%的双相障碍率为1.78%,减少BD-PSNR -0.053 dB。 Compared to the related works, the proposed scheme has achieved a best compromise between RD performance and complexity reduction, as proven by experimental results.
1。介绍
如今,新兴技术的新一代数字媒体和多媒体应用的快速发展,如高清智能城市和UHD监控摄像头应用程序,和快速增长的智能连接设备(物联网)流视频以实时的方式。因此,它的受欢迎程度吸引了行业和学术界的关注。然而,计算设备能力,如CPU和GPU,记忆能力已经受到极大地提高多媒体数据。在这种背景下,视频内容增长紧急要求一个有效的编码技术,可以支持这个技术爆发和避免性能下降,同时保持高质量的水平。
高效视频编码(HEVC)是先进的视频编码标准,2013年也被称为H.265,标准化(1]。比较先进的视频编码h / AVC标准,HEVC节省50%的比特率相同的主观质量(2]。HEVC采用灵活的层次结构,称为四叉树,其中包括编码单元(CU),预测单元(PU)和变换单元(图)(3]。在这方面,最基本的编码结构是树的编码单元(反恐组)。反恐组的大小,范围从64×64 - 8×8可以分为几个不同大小CUs从64×64的0到8×8的3。图1说明了层次四叉树的结构。
此外,HEVC提供了两个分区模式:intracoding和intercoding单位。事实上,intercoding HEVC中是最关键的模块由于其计算复杂度搜索时的最佳预测模式。为了找到最好的铜深度,每个反恐组的详尽的搜索仍在继续,直到最小可能的铜大小。后者被称为率失真优化(RDO)。HEVC, RDO计算从所有可能的深度的水平,最好的铜模式决心通过RDO最低。由于HEVC RDO搜索,计算复杂度大大增加,使压缩速度HEVC实现的一个至关重要的问题。因此,有必要减少intercoding HEVC复杂性。
为此,最近的研究提出了降低编码复杂度,同时减少RD性能。这些研究都是基于经典或深度学习技术(4- - - - - -9]。在[4),一个快速的基于方法的早期铜终止和搜索范围大等人提出的调整是优化的编码效率。同样,作者在5)已经开发出一种快速方案HEVC intermode利用运动矢量信息,旨在加速计算复杂度。另一方面,过去几年里已经看到了成功的深度学习技术在许多应用领域,在视频编码方面取得了良好的结果(6,7]。对于HEVC intracoding,陈等人。8内核CNN)建议fast-learned算法不对称。这种方法取得了更好的编码效率,证明了实验结果。关于intercoding,作者在9)发明了一种机器学习工具来预测铜分区模式,它提供了一个良好的编码时间和RD性能之间的权衡。所有这些方法没有模型在intercoding视频帧的时间相关。
在这种情况下,本文提出了一个深度学习的工具,它可以减少HEVC复杂度的编码时间和RD表演。结构组合的主要贡献包括CNN和LSTM之间的网络。前者提出了预测铜分裂并减少HEVC编码的性能。在HEVC intercoding,有长期和短期的依赖关系intercoding铜相邻视频帧之间的分裂。不幸的是,深CNN不探索这个时间相关;由于这些原因,LSTM网络必须到位。这就是CNN-LSTM-based学习方法,提出了预测intercoding铜分区,而不是古典RDO搜索。
本文的其余部分的结构如下:部分2介绍了概述包括深度学习在视频编码算法和启发式方法。该方案提出了部分3为减少HEVC interprediction复杂性。部分4展示了实验结果,而部分5本文总结道。
2。相关工作概述
优化HEVC编码效率、快速的方法已经提出减少HEVC四叉树分割造成的复杂性。这些快速的方法可以概括为两类:启发式方法和machine-learning-based计划(10- - - - - -21]。
在启发式方法,一些快速铜决定计划已经开发朝着降低HEVC复杂性简化RDO过程(10- - - - - -15]。例如,曹和金(10)提出了一种贝叶斯规则快速铜分区和修剪算法。关于HEVC intercoding,沈等人在11)开发出一种快速intercoding决定计划使用层间和时空相关性的运动矢量,RD成本和预测模式被发现是强烈相关。减少HEVC复杂性,快速铜分区和模式决策方法使用一个有预见性的阶段提出了(12]。作者在13)引入了一个快速算法将CUs HEVC intercoding基于金字塔运动发散。克服编码复杂度intercoding HEVC,基于时间和空间相关性,提出了一种快速铜大小决定计划由张等人在14]。此外,作者介绍了(15)一种自适应的运动搜索范围的方法来减少HEVC编码效率。
另一方面,搜索最优的铜预测模式可以建模为分类问题。在这方面,基于研究人员采用学习方法分类铜模式决定为了减少计算复杂度(16- - - - - -22]。沈和Yu (16)提出了一个铜提前终止算法四叉树的每一层铜分区基于加权支持向量机。此外,一个快速铜决策方法朱等人提出的基于模糊支持向量机(17提高编码效率。减少复杂性(18),作者开发了一种神经网络模式快速铜模式预测模内的分裂和intermode的决定。同样,在19),徐等人提出了一个基于LSTM网络层次铜深度决定,预测HEVC铜分裂为h HEVC代码转换。强化学习(RL)和深RL也采用视频编码学习一个分类任务,找到最佳的铜模式决定。在[20.),铜提前终止算法HEVC开发使用端到端actor-critic RL提高编码的复杂性。
视频编码、视频内容的相似性是显示在视频序列相邻帧,而减少与两个图像之间的时间距离。在本文中,我们开发一个LSTM网络研究铜在intercoding分区相关。这是因为深CNN提出(9)不为每个HEVC探索铜分区的时间信息框架。然后,我们结合CNN-LSTM学习计划预测intercoding铜分裂,这减少了计算复杂度HEVC [9]。
3所示。提出了基于深度学习框架
在本节中,我们首先先授予intercoding数据集模型所需的学习过程。然后,我们介绍了提出CNN-LSTM网络方案预测HEVC intercoding铜分区,从而降低编码复杂度。
3.1。数据库的Intercoding
的HEVC intermode铜分区数据集创建学习模型。然而,114年视频序列选择各种决议(从352 240×2560×1600)(23- - - - - -25)构建数据库。后者是由三个标签组(序列),包括86年10日和18视频序列训练、验证,分别和测试。HEVC编码器用于对数据库进行压缩的视频序列在四个量化参数(每秒){32 22日,27日,37},使用低延迟P (LDP)配置(26]。提供更多的细节,有兴趣的读者可以参考前面的纸(9]。
3.2。CNN-LSTM网络
根据相邻帧的HEVC铜分裂的相关性,本节介绍了方案。拟议中的LSTM网络学习每个视频序列的帧间时间相关。此外,该算法结合了CNN-LSTM呈现在图2。深CNN由三个卷积层(Conv1、Conv2 Conv3),一个连接向量,和一个完全连接层。提出了在(9),深CNN参数学习是基于地面真理和残余反恐组,然后提取的特征深的CNN的输入是提出LSTM网络框架t。这些特性提取第一个完全连接层的深度CNN。
我们可以看到从图2LSTM的架构由三个LSTM细胞对应于三个层次每个铜的分裂。具体地说, 在64×64一级显示是否大小铜将分成32×32大小sub-CUs与否。在2级,和分别指定cpu分区标签从32×32 16×16和16×16 8×8。在每个层面上,两个完全连接层,包含一个隐藏层和输出层遵循LSTM细胞。此外,LSTM细胞用的输出特性在框架t。然而,层次LSTM细胞被激活决定未来四sub-CUs,如果当前水平的铜分裂。否则,预测分裂当前铜是提前终止。最后,预测铜三层用的分区 , ,和 ,如图2。ReLU和乙状结肠激活函数是用来激活隐藏层和输出层,分别为(27]。
LSTM模型学习的长期短期依赖反恐组深处当反恐组分区预测。然后,LSTM细胞包括三个门,如图3:输入门(t),忘记门(t),门的输出(t),分别。在层次l 代表了深CNN输入功能框架t,代表的输出特性的LSTM模型框架t1。在方程(1),2,(3),这三个盖茨提出了: 乙状结肠函数是用在哪里σ(·)。{ , 和}是重量和{ , 和有三门}是偏见。在框架t,国家(t)LSTM细胞可以更新的
element-wise产品由∘指定。的偏见和权重LSTM细胞的状态和 。在下面,LSTM细胞输出可以定义在以下方程:
3.3。损失函数
在训练过程中,训练集的intercoding数据集用于火车LSTM网络,训练模型的地方之间的损失函数最小化反恐组分区预测和地面真理。图4展示了学习的过程。随机梯度下降法(SGD)算法被认为是强大的优化算法学习通过前馈网络结构和落后的子流程,交叉熵的选择成本函数的梯度误差计算器交办Y(··)(6)。在框架t损失函数Ln (t)nth样品铜写如下:
然而,除以N T-frames一起训练样本,LSTM网络可以学到通过优化成本函数。
4所示。实验结果
4.1。实验设置
在本节中,我们目前的结果来验证提出的深度学习框架的编码效率。我们的实验进行HM16.5参考测试模型(26JCT-VC 18日],测试视频类有四个每秒的类E{32 22日,27日,37},使用自民党配置。用于每个视频序列帧的数量是100。所有实现都是Windows 10 OS平台上执行与英特尔®TM核心i7 - 3770 @ 3.4 GHz CPU和16 GB的RAM,该方案的压缩效率的评估。加快网络的速度model-training阶段,我们也使用NVIDIA GeForce 480 GTX GPU,但它不是用于HEVC复杂性减少测试。在实验中,TensorFlow-GPU深学习框架使用。仿真参数定义如下:批量大小、学习速率和LSTM长度(T)被设置为64,0.001,T分别= 20。最后,保存用于训练模型后(框架),旨在预测intercoding铜分区。
对于测试,LSTM模型所处阶段;时,铜分区的预测帧t - 1已经完成,和帧的输出状态t计算。进一步加强RD性能和减少intercoding计算复杂度,bithreshold决定采用方案三个层次。请注意,上部和更低的阈值水平l由和 。在三个层次,LSTM网络提供了概率预测铜分区 。因此,铜决定只能当分裂 。通过这种方式,HEVC复杂性大大降低了跳过是最多余的验证RD的成本。
4.2。评估标准
RD执行性能分析基于Bjøntegaard率(BD)和Bjøntegaardδ峰值信噪比(BD-PSNR) [28]。BD率代表的平均比特率节省计算两个RD曲线同样的视频质量,在负BD-rate值表示实际比特率储蓄和积极的价值观表示多少比特率增加。BD-PSNR RD的整体PSNR值差异曲线有相同的比特率分贝,不是忘记了编码时间是建模的关键指标的验证性能HEVC intermode,见以下方程: 在哪里Tp和To建议的方法的执行时间和原始HEVC,分别。
4.3。仿真和结果分析
表1展示了实现快速提出计划的结果相比,自民党配置下的原始HEVC BD-PSNR而言,双相障碍率,和节省时间。可以观察到在这张桌子上,结果关于减少计算复杂度显著,对于一些序列达到75%。如上所示,该方案减少了执行时间平均为58.60%,最高74.64%的E类,自活动显示在这些序列是较低的运动,从而导致更大的分区。获得至少52.48%的C类,由于视频序列在这门课上有很高的运动和丰富的纹理。这清楚地表明,该方法能很好地适应较低的视频内容运动并给出更高的加速与原始HEVC相比。关于采访我们的方法的性能,双相障碍率平均1.78%,BD应承担的PSNR下降可以忽略不计,原始HEVC−0.053 dB左右,相比之下。总之,该CNN-LSTM模型更好的RD性能和HEVC减少计算复杂度。
图5给建议的RD曲线方法对不同的视频序列和原始HEVC根据序列和高清序列,分别。在这个图中,原始HEVC RD性能之间的差异,该算法非常小每秒。这证明,学好技术可以适应不同的码率点根据和高清视频。
(一)
(b)
此外,图6节省时间的报道“交通”(2560×1600)和“BasketballDrive”在不同QP (1920×1080)。它可以指出,编码时间按比例增加,而QP价值增加。然而,拟议中的CNN-LSTM模型优于原HEVC减少复杂性。
(一)
(b)
为进一步绩效评估拟议的计划,表2显示了编码性能提出CNN-LSTM框架和深度之间的CNN (9]。该方案CNN-LSTM比深CNN的计算复杂度和BD-PSNR性能。具体地说,我们的方法的执行时间平均为58.60%,超过53.99%时只使用美国有线电视新闻网(9]。另一方面,该方法可以减少BD-PSNR性能−0.053分贝,比−0.057 dB通过(9]。此外,我们建议的方法平均BD-rate性能为1.78%,比这更好的9),1.80%。在我们的实验中,我们注意到,提出深度学习达到高HEVC intercoding减少复杂性,因为它能够预测所有的铜分裂的整个反恐组在同一时间。该算法也执行BD-PSNR性能而言,由于预测的高精度铜分区。因此,学习计划基于CNN-LSTM RD性能之间达到一个好的妥协和编码复杂度为了预测HEVC intermode铜分区。这主要是由于LSTM通过相邻帧解决时间相关的能力。
评价,CNN-LSTM的降低复杂度和深CNN在“交通”(2560×1600)和“BasketballDrive”(1920×1080)视频序列在自民党配置图7。如这个图所示,该方法允许更高的编码时间从22当QP值增加到37岁。总的来说,提出深度学习方法优于深CNN节约时间。因此,该方案更有利于减少intercoding HEVC的复杂性和寻找一个最佳的铜分区,相比传统RDO的研究。
(一)
(b)
4.4。比较性能
评估的编码性能提出的学习方法,我们的实验结果与其他先进的方法相比,如reinforcement-learning-based计划(20.],random-forests-based方案[28],deep-learning-approach-based HEVC复杂性减少(29日]。表3总结了该方案的性能相比,基于学习技术工作中引用(20.,28]和[29日]。
在这个表中,该方案优于其他方案complexity-RD性能。在[20.),李等人提出了基于强化学习的铜提前终止为HEVC减少计算复杂度。在[29日),Tahir等人开发了一个快速的方法减少HEVC编码时间基于随机森林分类器。徐et al。30.HEVC]提出了一种快速铜分区算法,包括interprediction和intraprediction,基于深度学习的方法减少HEVC复杂性。具体来说,该方法实现的最大执行时间平均为75%和58.60%,给BD的增加率为1.78%,减少BD-PSNR−0.053 dB。
事实上,该方法能达到较高的计算复杂度减少视频序列的运动缓慢的活动和均匀区域,分区块铜的大分裂情况下较低的百分比,比如“KristenAndSara”视频序列。同样,现有方法证明高类E视频序列编码时间。例如,[20.)达到64%的编码复杂度和BD-rate增加1.58%序列”KristenAndSara”,如表所示3。相同的序列,29日]有77%的节省时间和提高BD四每秒的平均率3.30%。此外,这项工作提出了(30.达到67.23%的编码时间BD率平均为1.55%。
关于根据序列,如“PeopleOnStreet”,我们建议的方法的计算复杂度降低稍低,因为这些序列具有很高的运动和摄像机运动,这是编码在一个小铜分区。因此,该方案执行更好的方面的RD性能和复杂性减少HEVC相比以前的作品。总的来说,所有方法更好的适应运动缓慢的视频内容。
另一方面,平均,43%的节省时间的减少20.)与BD的增加率为2.56%,减少BD−−0.099 dB的PSNR值。提出的方法(29日允许54.57%的编码时间,BD加息2.97%,BD-PSNR退化达到−0.107 dB。关于发明的工作(30.),该方法超过我们建议的方法BD率和BD-PSNR而言,虽然我们建议的方法将节省大量的编码时间58.60%相比,这项工作。当我们工作比较先进的计划(20.,29日]和[30.),我们可以得出结论,提出CNN-LSTM-based学习方法证明最好的编码效率HEVC在intermode为了预测铜分区。
总之,一些现有的作品可以实现显著减少计算复杂度较低的双相障碍率,反之亦然。每个方法减少计算复杂度和BD率呈现不同的值。因此,一个算法可以达到减少复杂性和RD效率之间的权衡;我们使用两个数字的优点(FoM)、双相障碍率和ΔT,常见的程序计算提出了(31日,32]:
BD FoM代表之间的比率增加率和编码时间减少,允许竞争算法的直接比较。因此,FoM使low-penalty之间最好的妥协和高复杂性的降低。表3介绍了FoM的建议的方法与现有的方法相比。FoM的低价值是可取的,因为它是解释为最佳权衡RD效率和减少计算复杂度。与相关作品相比,它可以观察到,我们建议的方法实现了FoM的比率约为3.03,它是证明我们提出框架基于CNN-LSTM low-penalty之间提供了一个良好的平衡和高复杂性的降低。
5。结论
提出了一种CNN-LSTM学习计划预测最优intercoding铜分区,从而最大限度地减少HEVC编码的复杂性。根据相邻帧的时间相关,我们开发了一个新的LSTM架构学习的长期和短期相关性intercoding铜分区。这个模型学会找到最好的铜预测模式代替传统的RDO搜索。实现结果表明,该方法基于深度学习减少了计算复杂度与BD的增加率约58.60%和1.78%的BD-PSNR减少-0.027 dB在自民党的配置。因此,HEVC可以大大降低编码复杂度,当我们与CNN-LSTM网络取代古典RDO搜索决定铜在intermode分裂。总的来说,该方案保存重要的编码复杂度,比其他先前的方法基于机器学习工具。
数据可用性
在这项研究中使用的数据集是可从相应的作者。
的利益冲突
作者宣称没有利益冲突。