研究文章|开放获取
Mousumi Das, Atahar Mostafa,汗瓦希德, ”Division-Free Multiquantization现代视频编解码器方案”,多媒体的发展, 卷。2012年, 文章的ID302893年, 10 页面, 2012年。 https://doi.org/10.1155/2012/302893
Division-Free Multiquantization现代视频编解码器方案
文摘
数字融合导致的当前趋势的需要视频编码器/解码器(编解码器)应支持多种视频标准在一个平台上,因为它是昂贵的使用每个标准的专用视频编解码器芯片。提出了一个高性能电路共享架构,可以执行的量子化5 h / AVC等流行的视频编解码器,AVS,但它还是,MPEG-2/4和JPEG。拟议中的量化器架构完全division-free部门操作被移位和加法操作的标准。设计FPGA上实现,后来在CMOS 0.18中合成米技术。结果表明,该设计满足所有的要求最多五编解码器解码能力60 fps在187 MHz Xilinx FPGA平台1080 p高清视频。
1。介绍
一个明显的趋势在现代世界是数字融合在当前电子消费产品。人们想要便携设备的各种功能如视频点播(VOD)、数字多媒体广播(DMB),全球定位系统(GPS)导航系统,便携式多媒体播放器(PMP),等等。由于这种需求,有必要支持广泛使用的视频压缩标准在一个单一的芯片系统(SoC)的平台。所以我们的目标是找到一种方法,因此multicodec系统实现高性能、低成本。
大多数现代多媒体编解码器(编码器和解码器)雇佣transform-quantization如图1。结合进行了大量研究,有效地实现多个编解码器的转换单位,但研究重点是multiquantizer单元的实现。一个统一的逆离散余弦变换(IDCT)架构支持五个标准(如住客,h,但它还是MPEG-2/4,和JPEG)提出了(1]。设计支持4×4 h的变换和量化了(2]。8×8变换和量化h提出了(3]和[4]。其他几个设计基于h .编解码器已报告在5- - - - - -10]。作者在11为住客提供量化的设计。在[设计12描述了一种mpeg - 2编码器。在[13),另一个JPEG编码器实现对图像的量化块设计使用乘法和移位操作,而不是分裂。在[设计14)描述了多重标准支持四个codecs-AVS视频解码器,h,但它还是和mpeg - 2。硅形象公司目前提供了多重标准高清视频解码器(MSVD-HD)支持h的核心,但它还是,MPEG - 1/2编解码器(15]。多路解码芯片成本970 K盖茨使用台积电90纳米技术(包括完整的内存接口,流阅读器功能,和额外的上下文切换逻辑支持)。
然而,没有一个现有的设计可以计算任何视频编解码器的量子化。在本文中,我们提出一个新的division-free量化算法(DFQA)及其有效实现计算量化单位五个多媒体编解码器:JPEG (16],MPEG-2/4 [17],但它还是[18),h / AVC [19],AVS (20.]。
在开发架构,我们仔细考虑所有量化(问)系数问表不同的标准,建立了它们之间的关系。MPEG-2/4和JPEG量化的DCT系数的定义为部门相应的问指定的值问矩阵。另一方面,两个最受欢迎的视频标准,h / AVC和AVS利用乘法和移位操作为目的的量化,以避免除法操作减少了计算复杂度。但它还是的量化定义和类似于mpeg - 2的过程21]。根据观察,我们提出一个新的multiquantizer架构来支持这些五编解码器。架构是后来合成到FPGA和ASIC水平和成本比较与现有的设计。设计作为一个关键单元在multicodec系统转码应用程序(22]和[23]。
2。提出Division-Free量化算法(DFQA)
量子化(问)的定义是由相应的DCT系数的划分问价值。但在h和AVS,它是由乘法和移位操作。因此这些标准定义自己的乘法因素()。这些MFs乘以转换系数,最后右移。然而,量化,但它还是MPEG-2/4,只和JPEG被定义为部门操作(使用8×8矩阵)。因此,挑战是建立一个关系,一般足以合并所有这些计划。经过仔细观察,开发一种新型广义算法分为三个步骤如下。
步骤1。
步骤2。
步骤3。 在哪里表示变换系数,是乘数,表示对应的量化值(水平)。的描述中列出的其他参数表1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
此外,是量化参数指定哪一个。在接下来的部分,我们一般DFQA适用于单独的编解码器。
2.1。DFQA应用于h .
在本节中,我们应用广义DFQA h执行量化操作。首先,变换系数的变换单元直接乘以的价值= 0这个标准,因此没有左移位操作应用于变换系数。在第二阶段抵消左移了然后添加到结果来自第一阶段。这个值是最终正确的转移位在第三阶段,该DFQA的最后阶段。在h(指定19),倍增系数取决于米(= QPmod 6)和位置元素的如下:
矩阵h被指定为曼氏金融
2.2。DFQA用于AVS
接下来,我们应用DFQA AVS执行量化操作。在这种情况下只有DFQA根据表参数改变1。基于[住客,25),取决于。每一个指定一个特定的。的价值为特定由表给出2。一次指定相应的与变换系数的乘积DFQA的第一步。再次在AVS的情况下,变换系数不离开了位的值是0 h的情况相似。之后,在第二步这个结果添加到14位左移抵消值,这是最终正确的15位转移的最后一步。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2.3。DFQA应用,但它还是MPEG-2/4
但它还是使用多个变换大小,但相同的量化规则应用于所有的系数。本标准允许死区和定期的统一量化。在统一的量化,量化间隔是一样的。在数轴上死区是一个区间在零附近,这样unquantized系数躺在间隔是量子化的为零。所有的量化间隔,除了死区是一样的麽死区通常更大。死区导致的使用大大储蓄在低比特率。然而,在高水平的量化过程(标量量化每个独立变换系数量化和编码),但它还是类似于mpeg - 2标准中相应的过程。量化,但它还是是用户定义的,根据21这个过程类似于相应的过程在mpeg - 2标准建议的体系结构,但它还是和MPEG-2/4标准的量化参数是相同的。按照(26MPEG-2/4标准),使用了两个量化矩阵,矩阵和non-intra-matrix内。在这里,我们只关注Intramatrix。intraquantization矩阵如图2:
然而,我们生成对于每个系数的量化矩阵图中指定2。这然后由8位右移。例如,来自DCT系数变换单元除以一个量化值19可以表示为 为19日,因此相应的是14。此外,但它还是量化和MPEG / 2 - 4需要分母(6)乘以量化步骤(),并在该建议的体系结构为简单起见,我们选择,5表示在表1。所以的右边(6)可以作为特征 下面的矩阵显示了对相应的量化矩阵图2: 相对于原始intramatrix图中的元素2元素(8)小这有助于减少RAM的大小。一次获得,这在第一步与4位左移变换系数的乘积的价值吗在这种情况下是4。然而,第二步不适用本标准,因此第一步的输出直接右移在第三步。
2.4。DFQA应用于JPEG
同样,对于JPEG编解码器,我们计算对于每个系数的量化矩阵。JPEG标准没有定义任何固定量化矩阵。的特权用户选择一个量化矩阵。有两个附件中提供量化矩阵K的JPEG标准供参考。这里我们只关注亮度量化矩阵如图3。
下面的矩阵显示了相应的量化矩阵图3: 再次的元素(9)小于原来的亮度矩阵图3,这样可以减少内存的大小。我们计算后,每个人都是直接乘以相应的变换系数在第一步。相似,但它还是MPEG-2/4编解码器,第二步是不应用于JPEG标准。提出DFQA的最后,在第三步,增加输出的第一步是正确的转移8位使所需的量化水平。但它还是降低量化误差,MPEG-2/4, JPEG,我们也算不同数量的正确的移位操作。但这种方法增加了硬件成本,不能显著降低量化误差。因此我们实现量化使用有固定的8位正确的转变。
3所示。硬件实现的DFQA
该费用分摊算法的总体架构如图4(一)。它可以执行的8×8量子化的任何用户所选的五个不同的标准(或另一个主系统)使用select_standard销。提出用四级流水线架构包含三个主要模块:查找表来保存乘以因素(),一个multiquantization单元组成的(只有一个共享乘数),和一个有限状态机来控制所有的标准。这些块的描述及其操作如下所述。然而,处理不需要硬件实现,因为它不处理数据而计算参数量化块用于数据处理。因此我们假设处理之前由软件完成的。
(一)
(b)
(c)
的核心单元multiquantizer单元,如图4 (b),包含一个通用乘法器、加法器和共享移动装置。右移位操作取决于select_standard销。在图的查找表4 (c)包含所有的矩阵五标准。然而,一次一个查表用于根据指定的标准。多路复用器是用于选择有效数据的查找表。降低功耗,一次只能激活一个查找表的使销。一旦用户选择的标准,期望的查表被激活的控制器和所有其他的查找表进入睡眠模式。控制逻辑分配允许信号以及MUX选择相应的信号。
根据图h标准4 (c),有六个查找tables-LUT_H_0 LUT_H_1 LUT_H_2, LUT_H_3 LUT_H_4, LUT_H_5。如果大于5甚至将使用相同的查找表,只有吗将被改变。例如,使用和分别,LUT_H_0 LUT_H_1将使用。同样的查找表的其余部分将被重用的价值正在增加。MUX1选择所需的从这六个h标准基于查找表。LUT_AVS LUT_VC-1 / MPEG, LUT_JPEG包含但它还是/ MPEG-2/4, AVS分别和JPEG。整个操作的详细框图的流水线边界如图5。
根据图5,提出架构运作四个阶段的管道,它包含一个row-column-generator点查找表的行和列,几个多路复用器选择有效的路径,一个共享的乘数为所有五个标准,一个共享的加法器,共享移动装置。量化是由乘法和右移位操作而不是部门操作。在流水线的第一阶段,行和坳的价值指向生成的查找表的行和列的帮助下Row-Column-Generator控制器。这一行和坳倍增系数,查表。之后,在第二阶段的流水线操作多路复用器选择有效。在第三阶段乘数乘以转换系数来自与所需的变换装置。此外,同时在这个阶段抵消值是左移通过左移器只对h和AVS标准。MPEG-2/4,但它还是和JPEG,这左移器不使用参与第三阶段。乘法器的输出和左移器添加最后正确的转移在第四和最后阶段的流水线操作和输出寄存器提供了量化的输出。然而,但它还是MPEG-2/4, JPEG,乘法器的输出直接转移这最后阶段和输出寄存器返回最终的量化水平。AVS的左移和右移位操作,h,但它还是,选择的MPEG-2/4或JPEG select_standard销。除了逻辑如图5每个阶段之间,有流水线寄存器流水线。
共享乘数以及移动装置的设计而不是分频器是整个过程的关键部分。尽管量化定义为该部门操作,AVS和h标准量化定义为乘法和右移位操作。集成旧MPEG-2/4和JPEG标准AVS和h,我们建议整个体系结构作为共享乘法和移位操作。由于这种策略,提出建筑只需要一个共享的乘数,而不是两个乘数(AVS和h)和分频器(MPEG-2/4,但它还是和JPEG),从而降低硬件复杂度和成本。此外,整个设计股票只有一个控制电路,而不是使用特定的控制电路为每个标准,使设计更具成本效益。
4所示。硬件比较
4.1。FPGA的性能比较
拟议的架构是用Verilog HDL实现,操作验证使用Xilinx Vertex4 LX60 FPGA。设计是使用0.18后合成的μCMOS技术。拟议的架构成本553附近地区和298片最大工作频率为187.1 MHz。在表3,我们总结的性能(FPGA)提出multiquantizer支持五个标准的硬件计数,最大工作频率,并支持与其他设计标准。在[设计2)较小的硬件数量比我们的但只支持一个标准,h。
为了更好的评估,我们综合了multi-transform设计(五编解码器)(1]multiquantization提出方案。合并后的设计是在Xilinx FPGA中实现(Vertex4 LX60),结果如表所示4。这种组合架构成本1722附近地区(4-input), 972片,1036注册的最高工作频率187 MHz。注意,multitransform设计的工作频率(1是194 MHz。在表4,我们比较的性能(FPGA)这个组合multi-DCT multiquantizer与现有的设计;这些包括DCT和量化。的设计6]和[10只能支持一个标准,h,因此比我们有较小的硬件。相比现有的设计,我们的设计有更高频率的操作类似硬件计数。因此,它可以从表3和4提出设计可以支持最多的流行和广泛使用的视频标准(即。,住客,h ./AVC, VC-1, JPEG, and MPEG-2/4) and still consumes relatively lesser hardware cost and runs at higher operational frequency.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Y:是的;o:没有;-:没有信息。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.2。在超大规模集成性能比较
在CMOS 0.18中提出的设计合成μ米技术使用工匠库细胞。它消耗了176911μ米2硅面积,19.6 K盖茨,和6.8 K标准电池。操作的频率为88.5 MHz。看到这里,我们的设计的工作频率远高于在FPGA的使用优化附近地区固有的FPGA的类型选择。
在表5提出DFQA,我们比较的VLSI实现方案与现有的估计成本的设计。以来,截止到今天,我们没有遇到任何可以支持所有五编解码器的设计,我们将会显示一个估计的预计成本。独立的量化单位的成本加在一起找到五个独立的编解码器的估计总成本是31.1 K逻辑门。提出了共享数字转换器电路架构的成本是19.6 K逻辑门,可以节省高达36.7%的估计成本五编解码器。图6说明了基于表比较显示减少的百分比5。
4.3。估计节省Multicodec设计领域
为了更好地评估整个译码器硬件的储蓄,我们做一个成本分析,提出了图7在独立的和共享的成本设计。译码器的成本四编解码器(h,但它还是AVS, MPEG2/4)来自(14]。JPEG编解码器的成本来自[24),加上前面的计算总成本为所有五编解码器。这里,MC运动补偿,IP是内部预测,VLD是可变长度的解码器,智商是逆量化,逆变换。计算共享的假设的成本实现中,我们使用MC的实施成本,IP, VLD单位从共享设计提出了(14]。然后它的成本(共享设计取自我们的以前的工作1智商])和成本(从当前工作)。因此,我们可以看到,共享设计(包括提出multicodec DFQA计划)估计节省总体41.1%面积的译码器相比,独立设计五编解码器。
在表6,我们比较的解码能力提出multiquantization方法只与其他量化设计。工作时在最大容量Virtex4 LX60 FPGA,拟议中的multiquantizer可以达到60 fps的帧率(2 4::0 luma-chroma抽样,187×106/ (1920×1080 + 2×960×540)= 60.1≈60)。其他的解码功能的设计也是计算4:2:0抽样。它在桌子上6该方案达到最高解码能力。
4.4。绩效评估使用标准图像
为了验证功能的正确性,在本节中,我们提出算法的性能评估使用几个标准灰度图像。第一图像变换编码(用于(1])和量化(这里介绍)操作,紧随其后的是一个解码(逆)的过程。量化参数(或品质因数)是在所有情况下都设置为10。结果在peak-signal-to-noise-ratio所示(PSNR)和在桌子下面7。图8介绍了原始和重建的图像“莉娜”和“山魈”五编解码器。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(一)
(b) PSNR值:31.73 dB
(c) PSNR值:34.14 dB
(d) PSNR值:38.81 dB
(e) PSNR值:50.65 dB
(f)
(g) PSNR值:27.46 dB
(h) PSNR值:28.91 dB
(我)PSNR值:36.20 dB
(j) PSNR值:50.69 dB
5。结论
在本文中,我们提出一个高性能电路共享架构执行8×8量化操作的五个不同的多媒体编解码器。架构取代昂贵的硬件部门操作与加法和移位操作。除了只有一个控制电路的目的是控制整个架构所有五个标准。这些策略的使用共享乘数和共享控制电路导致更低的硬件成本。性能分析表明,该设计满足所有的要求编解码器和达到竞争的解码能力。方案后验证的功能正确性使用标准图像。总的来说,建筑是现代multicodec适合实时应用系统。
引用
- k·a·瓦希德·m·Martuza m . Das和c . McCrosky”高效的硬件实现8×8的整数余弦变换为多个视频编解码器,”实时图像处理》杂志上。在出版社。视图:出版商的网站|谷歌学术搜索
- r·c·科嗒西维西慈,s . Shirani ASIC和h的FPGA实现DCT量化块,”《IEEE国际会议上图像处理(ICIP ' 05)2005年9月,页1020 - 1023。视图:出版商的网站|谷歌学术搜索
- s . p . Jeoong和t . Ogunfunmi”的新硬件实现h . 8×8变换和量化,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 09)2009年4月,页585 - 588。视图:谷歌学术搜索
- 即Amer、w . Badawy和于连,“高性能的硬件实现h .简化8×8变换和量化,”《IEEE国际会议音响、演讲和信号处理(ICASSP 05)2005年3月,页II1137-II1140,。视图:出版商的网站|谷歌学术搜索
- g . Pastuszak”、变换和量化在高通量h / AVC编码器基于先进的模式选择,”《IEEE计算机学会学报年度研讨会上超大规模集成:在集成电路技术和设计趋势(ISVLSI ' 08)2008年4月,页203 - 208。视图:出版商的网站|谷歌学术搜索
- x t Tran和v . h . Tran合算的h . 130海里向前台积电变换和量化/ AVC编码器,”学报14 IEEE国际研讨会设计和电子电路和系统的诊断(DDECS 11)2011年4月,页47-52,。视图:出版商的网站|谷歌学术搜索
- r . Husemann m . Majolo诉吉马良斯,a . Susin诉依然和j . v .利马”的硬件集成的量子化方案提高计算h .编码器模块”学报18 IEEE /联合会国际会议在VLSI和soc (VLSI-SoC 10)2010年9月,页316 - 321。视图:出版商的网站|谷歌学术搜索
- r·科嗒西维西慈,s . Shirani硬件实现优化的变换和量化块h,”《加拿大电气和计算机工程会议(CCECE ' 04),卷2,2004年5月,页0943 - 0946。视图:谷歌学术搜索
- o . Tasdizen和i Hamzaoglu高性能和低成本的硬件架构h . 264变换和量化算法,”《欧洲信号处理会议13日2005年9月,页4 - 8人,。视图:谷歌学术搜索
- c·p·风扇和y l .程”的FPGA实现低延迟和高吞吐量的4 x4块纹理编码处理器h / AVC,”中国工程师学院杂志》上,32卷,不。1,33-44,2009页。视图:谷歌学术搜索
- 朱张k, y, l . Yu”Area-efficient量子化体系结构与zero-prediction AVS编码器的方法,”程序的编码研讨会(pc ' 07)2007年11月,p。4,。视图:谷歌学术搜索
- k . Suh刘贤Min, k金,j . s . Koh和j·w·庄”设计DPCM编码混合的循环使用单一的一维DCT在mpeg - 2视频编码器,”《IEEE国际研讨会在ISCAS’99电路与系统(),页v - 279 - 282年,1999年6月。视图:谷歌学术搜索
- h·奥斯曼,w . Mahjoup、a . Nabih和通用汽车,“低成本fpga JPEG编码器,”计算机工程和系统的国际会议(icc ' 07)2007年11月,页406 - 411。视图:出版商的网站|谷歌学术搜索
- c . c . Ju y . c, c . y . Cheng et al .,“全高清60 fps AVS / H。264 /但它还是/ mpeg - 2视频解码器对于数字家庭应用程序,”诉讼的VLSI设计国际研讨会、自动化和测试(VLSI-DAT 11)2011年4月,页1 - 4,。视图:出版商的网站|谷歌学术搜索
- 硅图像Inc ., 2011年,http://www.siliconimage.com/products/index.aspx。
- CCITT推荐t . 81年,数字压缩和编码仍然连续色调图像,1992。
- ISO / IEC信息technology-generic编码的图片和相关的音频信息:13818 - 2:1995视频,。
- 标准电视:但它还是压缩视频比特流格式和解码过程,SMPTE 421 M, 2006。
- ITU-T Rec。h . 264 / ISO / IEC 14496 - 10 AVC, 2003。
- GB / T 20090。1信息技术领先编码的音频和视频第1部分:系统,中国AVS标准。
- Srinivasan, p .许t霍尔科姆et al .,“Windows媒体视频9:概述和应用程序”,信号处理,19卷,不。9日,第875 - 851页,2004年。视图:谷歌学术搜索
- a . Vetro c . Christopoulos和h的太阳,“视频转码的架构和技术:概述”,IEEE信号处理杂志,20卷,不。2,29,2003页。视图:出版商的网站|谷歌学术搜索
- 太阳艾哈迈德,x, y, y张问:“视频转码:各种技术的概述和研究问题,“IEEE多媒体,7卷,不。5,793 - 804年,2005页。视图:出版商的网站|谷歌学术搜索
- h·c·c·j·丽安l . g . Chen Chang和y . c . Chang“JPEG编码器的设计和实现IP核心,”亚洲和南太平洋的程序设计自动化会议,29 - 30日,2001页。视图:谷歌学术搜索
- f . l . Yu, j .锣,c .张“AVS-video概述:工具、性能和复杂性”视觉通讯和图像处理卷,5960学报学报2005年7月,页679 - 690。视图:出版商的网站|谷歌学术搜索
- j·b·李和h . Kalva但它还是和h .视频压缩标准的宽带视频服务佛罗里达州,32卷,施普林格,佛罗里达,UDA,第1版,2008年。
版权
版权©2012 Mousumi Das et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。