基于欧几里德距离的HEVC合并模式加权预测

摘要

合并模式可以实现的，因为减少编码视频编解码器的运动信息的成本相当大的编码增益。然而，简单通过从相邻块的运动信息可能无法达到最佳性能，因为像素和相邻块与它们的距离增大而减小之间的运动的相关性。为了解决这个问题，提出了一种欧几里德基于距离的加权预测算法作为在合并模式的附加候选。首先，通过运动补偿预测（MCP）以从可用相邻块的运动信息产生的几个预测块。其次，由所述预测块的加权平均值以上，其中，所述加权系数被在当前块有关的欧几里德距离从相邻候选像素点产生附加预测块。最后，最好的合并模式是由原始合并候选者中的率失真优化（RDO）和附加候选字的选择。实验结果表明，在共同开发测试模型7.0（JEM 7.0），该算法实现了比下的所有配置，包括随机存取（RA），低延时B（LDB）原合并模式更好的编码性能，以及低时延P（LDP），有轻微的编码复杂性的增加。特别是对于LDP配置，所提出的方法实现了平均1.50％的比特率节约。

一。介绍

作为多媒体信息的主要成分之一，视频的表观特征是数据量。视频编码技术[1]通过消除视频中的各种冗余，包括空间冗余、时间冗余、统计冗余和视觉冗余，可以有效地实现数据压缩。在当前的基于块的混合视频编码框架中，图像被分割成可变大小的块，每个块用一组模式或编码参数进行空间或时间预测。运动信息包括运动矢量（MVs）和参考指标是采用互预测的预测单元（PU）的主要参数。为了消除相邻pu之间的运动信息冗余，采用了先进的运动矢量预测（AMVP）等运动矢量编码技术[2]，块合并和跳过模式[3.]以高效率视频编码引入（HEVC）4]。值得注意的是，跳跃模式可以被视为合并模式的特例，其中预测残差没有被传输，或者预测残差的所有离散余弦变换(DCT)系数被量化为零[5]。块合并为连续运动补偿块的整个区域生成单个运动参数集，因此对于同一合并区域中包含的所有块只需发出一次运动参数信号[6]。在模式决策过程中，率失真优化(RDO) [7]在合并模式、跳过模式、模式间和模内模式之间执行[8]。根据率失真(R-D)代价最小化，选择最佳模式，表示为: 在哪里是R-d成本和是编码失真，其通过重建块和原始块之间的平方差之和来测量；是编码对应的模式和DCT系数的比特;和称为拉格朗日乘子，用于调整失真与比特之间的权衡。

块合并技术显著提高了HEVC的编码性能[9]. 因此，在由联合视频探索小组（JVET）发起的未来视频编码探索中，对合并模式进行了继承和扩展[10]，而新的视讯编码标准已正式命名为通用视讯编码(VVC) [11]在第10 JVET会议。近日，合并模式的一些修改版本，提出了在视频编解码器的实现[12- - - - - -19]，而这些方法大多集中在降低计算复杂度上，代价是R-D性能下降。例如，在[12]，基于全零块、运动估计信息、最大编码单元(LCU)及其子编码单元(CUs)之间的模式选择相关性，提出了一种降低编码计算复杂度的早期合并模式决策算法。在[13]，早期合并模式决策框架是通过识别平滑/单运动区域，其实现了编码时间上平均而降解的速率失真性能在一定程度上的46％降低提出。为了实现合并模式模块基于硬件的编码器，在[14,15]提出了一种新的硬件设计方案，降低了计算量和内存访问要求。由于3D-HEVC需要处理多个视图和深度信息，其编码复杂度要高于HEVC。所以，在[16]，提出了一种自适应的3D-HEVC编码器合并列表结构，以提高编码速度。在[17]，通过分析编码模式的视图间相关性和层次深度相关性，提出了一种3D-HEVC编码器的早期合并模式决策。在[18]，为了更好地平衡计算复杂度和编码效率，根据早期合并模式决策的速率-失真-复杂度特性，研究了几种快速CU编码方案。在[19]为了加速互预测编码，提出了一种基于绝对变换差（SATD）代价之和的合并候选决策和早期合并终止方法，并提出了一种基于合并的编码单元滤波方法来消除不必要的CU估计过程。另外[20.,21[实战练习专注于改进R-D性能而非降低编码复杂度。在[20.]为了更准确地预测可变形块，提出了一种基于邻域块的预测模型，并将其作为合并模式中的附加候选块。Zhang等人。[21提出了一种可变形块运动信息在旋转、缩放和变形运动中派生的合并模式，该模式获得更大的变形块运动信息R-D性能提高，但导致编码器和解码器的复杂性显著增加。

在本文中，我们提出了一种基于欧几里德距离的加权预测方法作为合并模式的补充候选，以进一步改进R-D性能HEVC。它考虑了不同位置像素的运动与候选块的运动之间的相关性，充分利用了所有可用时空合并候选块的运动信息。实验结果表明，该算法实现比原来的合并模式更好的编码性能，具有轻微的编码复杂性的增加。

本文的其余部分安排如下。剖面图2简要回顾了帧间视频编码中的合并模式。剖面图3.提出了基于欧几里德距离的加权预测算法。实验结果在章节中给出4，最后，得出以下结论节5。

2.合并模式中HEVC

为了减少位的数量需要进行编码的运动信息，合并模式[3.]是在HEVC提出的。合并模式利用了空间域和时间域中相邻块的运动相关性。合并模式下不需要运动估计，直接利用相邻编码块的运动信息对当前块进行运动补偿预测。因此，对合并块的运动信息进行编码只需要少量的位来指示合并索引。合并模式的流程图如图所示1。首先构造一个合并候选列表，其中包括几个空间候选和一个时间候选。然后，使用RDO从列表中选择最佳合并候选项。最后，以最佳合并候选点的MV为参数，通过MCP得到当前PU的预测块。

合并候选列表的建筑图中给出了2。该过程的输出是合并候选者的列表，和他们每个人都有的运动参数，其可以被用于当前PU的MCP的元组。该标志NumMergeCands是一个预定义的常量，它指示列表中候选项的数目。在HEVC中，合并候选数为5个，而在VVC中则增加到7个。一旦候选人数量达到，增加候选人的整个过程就会停止NumMergeCands在下面的有序步骤：过程始于最初的候选人从所谓的空间候选者在空间上相邻PU的推导。然后，从PU在时间上并列图片的候选可以被包括在内，这被称为时间候选。由于某些候选的不可用性或者它们中的一些是多余的，初始候选的数目可以小于NumMergeCands。在这种情况下，更多的考生被插入到列表中，以便在列表中考生人数总是等于NumMergeCands。对于空间合并候选选择，最多四个候选从当前画面内编码的相邻PU选择。对于时间合并候选推导，从在编码的前一帧中并置的PU产生的一个候选者。关于合并模式的具体实现可以从[被称为3.]。

MCP包括单预测P帧和双向B框架。以uniprediction为例，MCP表示如下：在哪里和分别是预测图和参考图，以及从合并候选的MV。此外，biprediction需要两个MV和对应的参考索引，用于执行加权预测。

3.提出了合并模式的加权预测

实践证明，这种合并模式可以获得相当大的经济效益R-D因为减少编码运动信息的成本性能的提高。然而，合并模式可以进一步提高，因为在合并模式的MCP不够准确。直观地，一个更精确的预测可以在量化之后减少的非零系数的数目，这直接影响编码比特率。在本节中，我们首先分析MCP的合并模式的特点。然后，欧几里得基于距离的加权预测被提议为在合并模式的附加候选，以获得更准确的预测块。

3.1条。预测残差分布分析

在合并模式决策过程，MCP与每个合并候选者的运动信息，以获得所述当前块的预测信号来执行。一般地，在当前块的距离，像素点之间到其相邻块是合并候选者，增加，它们的运动相关性减小。因此，残留的MCP后的分布是在整个块不均匀，和剩余的大小通常成为具有较小运动相关性大。残余块是原始块与预测块如下的区别是：

如果对MCP采用左上方合并候选体的运动信息，则残差的大小从左到右，从上到下逐渐增大。当MCP采用其他合并候选项时，可以观察到相似的残差分布。其中，合并候选点的位置以及不同候选点MCP后的残差分布如图所示3.。在图图3（a），左(L)、上(T)、右(RT)、左(LB)、左(LT)的位置在当前图像中，而时间运动矢量预测(TMVP)则表示前一帧右底部的位置并置。在数据3（b）- - - - - -3（e）MCP后残留量随箭头方向逐渐增大。

(一)

(b)

(c)

（d）

（e）中

3.2。基于欧氏距离加权预测

通过以上分析可以看出，传统的MCP只有一组运动矢量，由于运动补偿不够精确，无法达到最佳的合并模式性能。因此，为了获得对当前块的更好的预测，在合并模式决策过程中添加了额外的候选者。通过对从可用合并候选者获得的预测块进行加权来生成附加候选者的预测块。数字4说明了添加附加合并候选的示意图，详细步骤如下所述：步骤1：对于每个合并候选位置，根据图中L、T、RT、LB、LT和TMVP的顺序检查可用性图3（a）。值得注意的是，TMVP仅检查临时候选项中同位于右底部的位置。如果可用候选人的数量大于1，则按照以下步骤2和3所述添加额外的候选人。步骤2：根据可用合并候选的运动信息，通过(2）。然后，根据获得的附加候选的预测块（4）与预定义的欧几里德基于距离的权重。在哪里是与点到点的欧氏距离成反比的加权系数吗对应的候选块和是可用合并候选数。加权系数的定义如表所示1，其中和分别是当前PU的高度和宽度。


职位的候选人	预测块

l	P₁
T	P₂
RT	P_3.
磅	P₄
书信电报	P₅
泰马维普	P₆

步骤3:RDO在附加候选项和原始合并候选项之间选择最佳合并模式。如果选择附加的候选项作为最佳合并模式，则需要对当前PU的运动信息进行填充，使其可以作为候选项用于以下单元的编码。这里，步骤1中第一个可用候选对象的运动信息用于填充。

最后，如果选择基于欧几里德距离的加权预测方法对当前PU进行编码，则需要向解码器侧发送一个标志来指示额外的合并候选者。然后，解码器将使用与编码器侧相同的加权算法重建像素块。

四。实验结果

为了评价提出的基于欧几里德距离的加权预测合并模式的性能，将该算法集成到联合勘探测试模型7.0 (JEM 7.0)中[10，它是JVET在HEVC测试模型(HM)的基础上建立的，用于评估新的压缩技术。在JVET通用测试条件(CTC)和软件参考配置下，与锚机(原来的JEM 7.0)进行了若干对比实验[22]。从B类、C类、D类和E类中选择16个测试序列进行低延迟B（LDB）和低延迟P（LDP）的配置，以及从类B，C，和d的13个测试序列被选择用于随机接入（RA）的配置，根据CTC。编码性能由Bjontegaard增量比特率（BDBR）[测量23]其计算相同的峰值信噪比（PSNR）的条件下的平均比特率降低。需要注意的是BDBR的正值表示，而负值意味着性能改进的性能损失。的计算复杂度被编码时间比（EncTR）和解码时间比（DecTR），其定义如下测定：在哪里和分别为所提算法的编码时间和原始JEM 7.0的解码时间。如果时间比大于100%，则意味着计算复杂性增加，反之亦然。

桌子2提供有关编码性能和LDP，六味地黄丸的情况下，计算复杂，且RA配置的实验结果。在表2，的BDBRsY,U，和V组件被给出，并且时间比率是由总时间用于编码或解码来计算。结果表明，所提出的算法实现了分别1.50％，0.11％，平均0.14％，比特率的节省，LDP，LDB和RA的配置下，有轻微的编码复杂度的增加。编码复杂性的增加是由于在最好的合并模式决定的附加RDO过程。值得一提的是，平均比特率节省了LDP的配置比其他两种配置的高得多，这是因为P帧在提高预测精度方面比B框架。


类	顺序	低延迟P主要10			低延迟B主要10			随机存取主10
类	顺序	Y	U	V	Y	U	V	Y	U	V

B	和服	−0.47%	−0.42%	-0.49％	-0.13％	-0.49％	0.14%	-0.06%	0.27%	-0.02％
	公园景色	−0.43%	-0.72%	−1.15%	0.03%	0.03%	−0.22%	-0.02％	-0.09%	-0.15％
	仙人掌	-1.63％	−3.67%	−2.78%	−0.11%	-0.89%	−0.69%	−0.20%	-0.61%	-0.52%
	BasketballDrive	−1.03%	-2.22％	−1.95%	−0.23%	-0.73%	-0.72%	-0.12％	-0.49％	-0.18%
	BQ平台	-6.74％	-6.43％	−6.53%	-0.27％	−0.44%	−2.42%	−0.54%	−1.11%	-1.17％
	平均	−2.06%	-2.69%	-2.58％	-0.14％	-0.50%	−0.78%	-0.19%	-0.41%	-0.41%

C	篮球钻	-1.49％	−2.79%	−3.18%	−0.22%	−0.11%	-0.38％	-0.15％	0.15%	−0.11%
	BQMall	-0.50%	−0.66%	-1.09%	0.09％	0.46%	-0.17％	-0.07%	0.14%	0.05％
	派对新世	−1.47%	−1.69%	−1.14%	−0.31%	−0.66%	-0.16％	-0.19%	-0.28%	-0.26％
	赛马	−0.67%	-1.65%	-1.22%	-0.03％	0.04%	-0.18%	-0.07%	0.02%	−0.11%
	平均	−1.03%	−1.70%	-1.65%	-0.12％	−0.30%	−0.22%	-0.12％	0.01%	−0.11%

D	篮球传球	−0.32%	−0.78%	−0.79%	0.05％	-0.36％	−0.56%	-0.15％	0.12%	0.21%
	BQSquare	-3.24%	-3.20％	-4.92％	-0.25％	0.97％	-2.21%	-0.24％	-0.02％	0.42%
	吹泡泡	-0.85%	-0.96%	−1.26%	-0.09%	-0.51%	−0.59%	-0.02％	-0.04％	-0.25％
	赛马	-0.07%	0.92%	0.34%	0.09％	-0.53%	-0.71％	0.01%	0.02%	-0.07%
	平均	−1.12%	-1.01％	-1.66%	-0.05％	−0.11%	−1.02%	−0.10%	0.02%	0.08％

E	四个人	−1.32%	−1.47%	-0.80％	−0.31%	−1.50%	−2.04%	- - - - - -	- - - - - -	- - - - - -
	约翰尼	-2.82%	-3.84%	−3.66%	0.00%	-0.37％	0.91%	- - - - - -	- - - - - -	- - - - - -
	克里斯蒂安娜萨拉	−1.03%	−2.05%	-3.02%	-0.14％	-0.28%	0.39%	- - - - - -	- - - - - -	- - - - - -
	平均	-1.72％	-2.45%	−2.49%	-0.15％	-0.72%	-0.24％	- - - - - -	- - - - - -	- - - - - -

	整体	−1.50%	−1.98%	-2.10％	−0.11%	-0.39％	-0.60%	-0.14％	-0.15％	-0.17％

	EncTR百分比	104			103			103

	DecTR（％）	99			One hundred.			One hundred.

在LDP的情况下，一些测试序列显示显著速率失真性能的改善和高达6.74％测试序列BQ平台. 数字5显示一些R-DLDP情形下四个不同类别测试序列的曲线比较。我们可以看到，该方法在高比特率和低比特率下都优于原来的JEM 7.0。

(一)

(b)

(c)

（d）

在上述有关合并模式的参考资料中，仅[20.,21[实战练习专注于改进R-D性能而非降低编码复杂度，这类似于我们的方法。因此，合并模式为可变形块通过在双线性内插模型[20.]（MMD-B [20.])变形块的合并模式[21](MMD [21])为进一步的性能比较选择。桌子3.显示Y组件BDBRs和编解码计算复杂性的三场比赛，其中BDBR、EncTR、DecTR的计算都是与对应的原始编码器锚进行竞争。我们可以看到MMD [21有最好的R-D性能，但它显著增加了编码和解码计算的复杂性。MMD-B公司[20.[误正R-D性能改进与轻微的编码和解码时间增加。我们的方法有节制R-D有轻微的编码复杂度增加的性能改进，但它不会增加任何解码时间。


顺序	多党民主运动(21]			MMD-B公司[20.]			我们的方法
顺序	自民党	LDB的	类风湿性关节炎	自民党	LDB的	类风湿性关节炎	自民党	LDB的	类风湿性关节炎

B类	-2.3％	-1.7％	-1.8％	−0.3%	−0.4%	0.6%	−2.1%	-0.1%	−0.2%
C类	-2.2％	−1.2%	−1.0%	-0.1%	−0.2%	−0.2%	−1.0%	-0.1%	-0.1%
D类	-3.3％	-1.7％	-1.3％	-0.1%	−0.2%	−0.2%	−1.1%	-0.1%	-0.1%
E类	-3.3％	-2.6％	- - - - - -	−1.1%	−1.4%	- - - - - -	-1.7％	−0.2%	- - - - - -
整体	-2.7％	-1.7％	-1.3％	−0.4%	−0.5%	−0.3%	−1.5%	-0.1%	-0.1%
EncTR百分比	112	111	116	103	103	104	104	103	103
DecTR（％）	115	114	111	103	103	105	99	One hundred.	One hundred.

5个。结论

在本文中，我们提出了一种基于欧几里德距离的加权预测算法来提高MCP在合并模式下的编码性能。它考虑了不同位置像素的运动与候选块的运动之间的相关性，充分利用了所有可用时空合并候选块的运动信息。实验结果表明，在JEM 7.0平台上，该方法可以获得不同编码结构下的率失真性能改善，其中LDP配置下平均可获得高达1.50%的编码增益。

数据可用性

支持本研究结果的数据可根据要求从通信作者处获得。

利益冲突

作者声明他们没有利益冲突。

致谢

本研究部分由国家自然科学基金41761079资助，部分由云南省地方高校应用基础研究项目2018FH001-056资助。

工具书类

D. Grois，T.阮和D. Marpe，“AV1 / VP9，H.265 / MPEG-HEVC的编码效率相比较，和H.264 / MPEG-AVC编码器，”在图像编码研讨会(PCS)会议记录，第1-5页，德国纽伦堡，2016年12月。查看位置：出版商网站|谷歌学术
J.-L.林，Y.-W.陈，Y.-W.黄和S.-M.雷，“运动矢量在HEVC标准编码，”信号处理精选期刊，第7卷第1期6，第957-968页，2013。查看位置：出版商网站|谷歌学术
P.的Helle，S.奥丁，B.布罗斯等人，“块合并为HEVC基于四叉树分割，”IEEE视频技术电路和系统汇刊，第22卷，第12期，第1720-17312012页。查看位置：出版商网站|谷歌学术
G. J.沙利文，J.-R.欧姆，W.-J.汉和T.韦根，“高效率视频编码（HEVC）标准的概述”IEEE视频技术电路和系统汇刊，第22卷，no。12页，1649-1668,2012。查看位置：出版商网站|谷歌学术
杨国彬，朱玉平，丁晓林，孙晓明，“基于单峰停止模型的早期跳跃模式决策的高效视频编码”，IEEE多媒体期刊卷。19，没有。7，第1431至1441年，2017。查看位置：出版商网站|谷歌学术
“基于机率模型的3D-HEVC相关视图编码的早期合并模式决策，”ACM交易多媒体计算，通信和应用，第14卷，第4期，第1–15,2018。查看位置：出版商网站|谷歌学术
G、 J.Sullivan和T.Wiegand，“视频压缩的速率失真优化”IEEE信号处理杂志，第15卷，第6期，第74-90页，1998年。查看位置：出版商网站|谷歌学术
工程学系。Jung和H. W. Park，“HEVC中使用自适应模式排序的快速模式决策方法”，IEEE视频技术电路和系统汇刊，第26卷，no。10、2016年第1846-1858页。查看位置：出版商网站|谷歌学术
J.-R。Ohm, G. J. Sullivan, H. Schwarz, T. K. Tan和T. Wiegand，“视频编码标准的编码效率比较—包括高效视频编码(HEVC)”IEEE视频技术电路和系统汇刊，第22卷，no。12，第1669至1684年，2012。查看位置：出版商网站|谷歌学术
J、陈，E.阿尔希纳，G.J.沙利文，J.-R.欧姆和J.博伊斯，“联合勘探试验模型7（JEM 7）的算法描述”，in的联合视频勘探队（JVET）论文集ITU-T SG 16 WP 3和ISO / IEC JTC 1 / SC 29 / WG 11第七会议2017年7月，意大利都灵。查看位置：谷歌学术
A、 Kammoun，W.Hamidouche，F.Belghith，J.-F.Nezan和N.Masmoudi，“通用视频编码标准自适应多重变换的硬件设计和实现”《IEEE消费电子汇刊》卷。64，没有。4，第424-432，2018。查看位置：出版商网站|谷歌学术
Z.潘，S.广，M.-T.Sun和J.雷，“早期合并模式决定基于运动估计和层次深度对比的HEVC，”IEEE广播事务，第60卷，第2期，第405-4122014页。查看位置：出版商网站|谷歌学术
基于空间/时间运动一致性的混合模式早期决策，"视觉交流和图像表示杂志，第44卷，第198-213页，2017年。查看位置：出版商网站|谷歌学术
金庭善、李昌镛和h.j。“基于硬件的HEVC编码器的合并模式估计”，IEEE视频技术电路和系统汇刊，第26卷，no。1、第195-209页，2016。查看位置：出版商网站|谷歌学术
T. S.金，H. J.李和C. E.李承晚的“Highly用于基于硬件的编码器HEVC合并模式估计，”在信号处理系统IEEE研讨会论文集， 1-5页，中国杭州，2015年10月。查看位置：出版商网站|谷歌学术
Y. S.许，G爆炸和G. H.公园，“自适应合并列表建构3D-HEVC快速编码器”电子信函，第52卷，第8期，第604-605页，2016年。查看位置：出版商网站|谷歌学术
Y. X.宋和K. B.佳，“纹理在3D-HEVC编码早期合并模式决定”视觉交流和图像表示杂志卷。33，第60-68，2015年。查看位置：出版商网站|谷歌学术
吴建芳，郭炳良，侯建军，颜玉云，姜，“基于合并模式和运动估计的快速CU编码方案在HEVC间预测中的应用”，关于因特网和信息系统的KSII交易，第10卷，第3期，第1195-1211192016页。查看位置：出版商网站|谷歌学术
Z、 Cheng，H.Sun，D.Zhou和S.Kimura，“通过改进合并模式处理加速HEVC交互预测”电子、通信和计算机科学基础学报，第E100.A卷，第2期，第546-5542017页。查看位置：出版商网站|谷歌学术
张，范，赵，高，“可变形块的运动矢量推导”IEEE图像处理国际会议(ICIP)论文集2012年9月，美国佛罗里达州布埃纳维斯塔湖，1549-1552页。查看位置：出版商网站|谷歌学术
N、张，范，赵，高，“变形块运动信息导出的合并模式”IEEE视频技术电路和系统汇刊，第27卷，no。11、第2437-2449页，2017。查看位置：出版商网站|谷歌学术
K. Suehring和X.李，“JVET通用的测试条件和软件参考配置”，在ITU-T SG16WP3和ISO/IEC JTC 1/SC 29/WG11第2次会议联合视频勘探小组会议记录，圣迭戈，CA，USA，2016年7月。查看位置：谷歌学术
G、 Bjontegaard，“RDcurves之间平均峰值信噪比差的计算”，in在ITU-T SC16 / Q6 13日VCEG会议论文集，奥斯汀，德克萨斯州，美国，2001年4月。查看位置：谷歌学术

多媒体的发展

摘要