文摘
图像超限分辨(ISR)是一个热门话题。深度学习的成功,卷积神经网络最近ISR是很大的进步。然而,大多数先进的网络包含数以百万计的参数和数以百计的层。很难应用于实际模型。为了解决这个问题,我们提出一种小波稀疏Coding-based轻量级的网络形象超限分辨(WLSR)。我们的贡献包括四个方面。首先,为了提高ISR性能,WLSR ISR上利用小波稀疏编码的优势。其次,我们利用卷积扩张扩大接受字段。在这种情况下,过滤器在WLSR比常见的卷积过滤器可以获得更多的信息从输入图像。第三,有效地处理稀疏的代码,我们采用变形卷积网络获取回旋的内核,专注于非零元素。 Fourthly, to make WLSR uint8 quantization robust, we take advantage of the Clipped ReLU activation in the end of WLSR and balance the SR performance with running time. Experimental results indicate that, compared with state-of-the-art lightweight models, the WLSR can achieve exceptional performance with few parameters. Moreover, the WLSR contains 30 times fewer parameters than VDSR, but it works better than VDSR on the validation set.
1。介绍
图像超限分辨(ISR)是一个典型的计算机视觉任务,获得高分辨率(人力资源)图像从低分辨率(LR)图像。这是一个病态问题。传统的方法包括interpolation-based模型(1- - - - - -6)和reconstruction-based模型(7- - - - - -9]。随着深度学习的发展,许多学者提出了各种卷积神经网络(cnn) [10- - - - - -28ISR]。
Srinivasan和库玛cnn ISR问题首次在2015年(11),它只使用3卷积层达到最杰出的结果。他们还发现,可以减少资源消耗在cnn的最后阶段升级的形象。因此,东等人创建FSRCNN 2016年(13],它采用PReLU ReLU和反褶积的激活而不是升级操作符。林等人提出的Deep2Space实时ISR任务,如今广泛应用。后来,VDSR [18]介绍了多个层和参数,这表明,cnn使更多的参数性能更好。因此,EDSR [19],WDSR [20.],RCAN [21)继续引入参数,达到巨大的体积。虽然这些方法出现异常结果在标准数据集,巨大的参数限制其应用。由于缺乏内存和运算速度有限,这些模型是很难被部署在移动设备。
ISR网络的轻量级的问题,许多学者提供了重要的解决方案(24- - - - - -28]。IMDN [24)利用蒸馏通道分割和信息构建一个轻量级的CNN。IMDN证明,蒸馏的信息可以让一个普通的CNN达到或超过一个复杂的模型。比以前的成就,NASNet [26)超过了许多非凡的方法通过搜索最优框架。除了关注结构,NASNet也是致力于量化问题。一般来说,量化的问题不涉及网络结构,但在许多情况下,硬件的依赖。一个方法(28是复杂的模型,利用开门信道稀疏,裁剪。通过使用这种方法,可以简化复杂的模型删除不必要的渠道。这些解决方案在ISR是成功的。然而,这些模型仍然不能满足实时要求。轻量级方法的存在的问题包含四个方面:(1)不够优化element-wise操作,(2)非失真和转置操作,(3)不支持的子通道量化,和(4)数据交换引起的大量交叉连接。
总之,有两个方面值得研究。首先,因为众多参数,传统的cnn不能部署到移动设备。其次,数据交换减慢运行速度和定量能力的限制。
减少cnn的参数,我们提出一种小波稀疏Coding-based轻量级网络图像超限分辨(WLSR)。我们的贡献如下:(1)利用小波稀疏编码来提高网络性能。小波稀疏编码块(力)设计WLSR处理图像纹理特别。通过力WLSR过程图像有效。(2)我们利用卷积扩张扩大接受字段。一般来说,接受域越大,更好的性能。(3)介绍了变形卷积网络(宽带运29日]),使过滤器关注非零元素,以恢复的详细信息。(4)WLSR利用轻量级设计。利用卷积,WLSR使用几个参数,但深CNN的效果。此外,我们采用剪ReLU完成定量。大量实验表明,WLSR使用几个参数来实现成果显著。WLSR uint8量化的表现也异常。
2。文献综述
邵et al ., (30.]介绍了sparse-based有效算法,常用的高质量的恢复。后来,Deeba等人在31日)提出了一个受欢迎的稀疏表示图像superquality战略更新。论文的作者声称,足够的词汇选择能充分描述图像块。这个发现后,我们寻找一个有限的图像每一个低分辨率的输入,然后使用这个视图生成的系数高分辨率输出。考虑到大容量(载荷)的神经网络模型和体积8,2020年,科学家们深入集中在使用神经网络,基于深度学习解决SISR问题解决方案。创作共用署名4.0许可证适用于这项工作。
2.1。小波增强老医学图像整体学习
根据Deeba et al。32),这种神经网络帮助收购传统设计功能以及几个深度学习的改进算法。如果合适的质量,升级后的深层神经网络(款)方法费用和大幅减少。
3所示。小波稀疏Coding-Based轻量级网络超限分辨(WLSR)
在本节中,我们介绍了WLSR求婚。设计的意图是使用小波稀疏编码和最先进的结构实现轻量级的网络。表1显示了一些最先进的美国有线电视新闻网的参数。显然,随着ISR的发展,模型参数变得越来越丰富。部署这些cnn几乎不令人满意。然而,我们WLSR只包含22 k参数和实现出色的性能。因此,我们WLSR在移动设备上执行。
3.1。小波稀疏编码块
在正交的多分辨率分析(MRA),目前的空间可以分解为和见以下方程:
在这种情况下,获得力如图1噢,LH、HL和HH,分别表示水平低通垂直低通,水平垂直高通低通,水平垂直低通,高通和水平高通垂直高通组件。力,我们选择Haar小波系数。
相反,重建是编码的逆过程,即小波重构块(方面)。方面,力具有相同的小波系数。
3.2。卷积可变形块
在本节中,我们介绍了变形卷积(DCB)处理小波稀疏的代码块。DCB由可变形的卷积网络(DCNs公司)。宽带包括两个版本,即DCNv1和DCNv229日,33]。
DCNv1是可变形的内核,它使用一个或多个学习补偿卷积。与链卷积相比,有更多的采样点分布在接受域。标准回旋的内核是一个矩形的形式。因此,提取的特征是有限的。然而,宽带使用任意形状,见以下方程: 在哪里尊重点特征图谱,是最初的采样点和补偿, , ,和 ,分别表示重量、内核值和输出特性图。
DCNv1 DCNv2增加调制。
DCNv1仅仅增加了补偿,并基于DCNv1 DCNv2介绍调制,即。,学会了权重的位置。我们用DCNv2 WLSR。
利用DCNv2 WLSR如图2。如果我们使用标准的卷积,在接受领域会有许多零元素。因此,标准的卷积浪费很多参数。DCNv2的部署使滤波器权重集中在非零元素和冷淡零元素。
图3给出了Grad-CAMP [33]热图HH组件。此外,白色的点在图3 (c)表示高梯度。它可以发现宽带的重量集中在纹理。HH组件的有效的价值观也在纹理,这说明DCNv2小波稀疏的工作代码。
(一)
(b)
(c)
(d)
3.3。WLSR结构
在AlexNet,集团提出了卷积GPU的局限性。现有的研究表明,使用得当组旋转提高精度,同时减少计算成本。因此,组织通常用于手机友好的卷积网络。结合级联 和组卷积,卷积WLSR呈现在图的结构4。提取表单输入更多信息,我们利用扩张组卷积在第一层。然后,DBlocks用于处理提取的特征图谱。升级操作后,人力资源方面获得的图像。
ISR和设备的限制,移动运营商不可用。因为重塑和转置运算符不能在部署优化设备,我们不使用洗牌。跳过连接推动培训和提高收敛cnn的深度。然而,太多的跳过连接减慢运行速度,和element-wise操作不能正常优化。在另一个方面,根据盛等人的作品。34),deep-wise卷积增加了量化误差。因此,我们避免滑动块和标准化,以获得杰出的ISR的效果。
当uint8定量使用任何float32或float16 SR模型,我们不能获得杰出uint8定量模型。为了解决这个问题,该模型应该quantitation-friendly。另一方面,定量技术应该有效地进行。
线性激活老广泛应用于模型。对于小波稀疏的代码,我们控制的值从-510年到510年。与浮动16/32模型相比,精度会下降5 - 7 dB。早期的步骤,输出值是不能保证在-510年至510年之间,和中等激活也是无限的。在后来的训练,训练数据将间接强制执行有界性。然而,中间剪ReLU活化层不受影响。在中间活化层,数据流可能收敛于510年左右。这些中间激活创建异常值,把一些重要的信息。相对较低的值是0。因此,当有效值传播到剪ReLU,激活导致沉闷的颜色和PSNR下降。
在培训期间,我们不执行活动函数访问这些大纲窗口,以便实现定量友好。与浮动量化相比,这种策略只需要0.2 - -0.5 dB后裔。表2给出了定量的性能。没有剪ReLU,我们训练该模型,量化WLSR,验证DIV2K的准确性。剪ReLU方程
剪ReLU方便计算以最少的计算负担。虽然一个剪ReLU足以影响中间活化层,随着模型变得更深,正规化的效果可能消失在更深层次的网络。解决方案是用剪ReLUs替换一些ReLUs。
剪ReLU使WLSR很难培养。的原因可以追溯到边界的平面面积。为了获得一个特殊的模型,我们需要设计一个培训策略,部分中描述3。
4所示。实验结果
在本节中,我们首先介绍了测试数据集,即。,Set5 [36],Set14 [37],BSD100 [38],Urban100 [39]。然后,我们说明了培训战略。最后,我们现在比较的结果。
4.1。数据集
进行训练和测试在5基准数据集,即。,Set14 Set5 BSD100、Urban100 DIV2K [36]。对于培训,我们利用DIV2K 1000时代,大约3天。DIV2K包含800张高分辨率训练图像,验证图片,100和100测试图像。公平的比较,我们测试了一些顶级cnn (FSRCNN [13],VDSR [18],ESPCN [40],XLSR [41)在基准数据集,即,Set5, Set14, BSD100, and Urban100. Set5, Set14, and BSD100 consist of natural scenes; Urban100 contains images of challenging urban scenes with details in different frequency bands.
4.2。培训策略
培训,我们作物32 LR图像随机和使用几何变换(原始、旋转和翻转)有相同的概率提高数据。此外,对鲁棒性阐释,我们随机扩展的亮度图像1倍,0.7和0.5。我们雇佣Charbonnier损失, 。如方程所示(5),它是光滑的的损失。实验结果表明,它是剪ReLU承诺。
为了确保收敛,使用以下技巧:(1)我们利用一个三角循环学习速率调度策略。学习的开始 和增加 在50时代。然后,慢慢学习速率降低到一个较低的值,直到5000年时代;它将达到 (2)WLSR训练5000时代,每个时代都包括100 minibatches,批量大小是16。每一批的末尾,我们验证PSNR Set5并保存最好的模型来量化(3)亚当是设置为的因素 和 (4)的卷积层初始化随机变量方差为0.1。目的是使初始化值接近于0,避免大纲窗口(5)我们使用标准的postquantization策略和训练WLSR NVIDIA RTX1070 GPU。培训过程如图5和6。
4.3。双三次的将采样
双三次的是一个广泛使用的合成将采样。我们执行 将采样。人力资源图像平均 社区生成LR图像。给出了定量对比表3,老图片所示数据的一部分7和8。
(一)原
(b)人力资源
(c)双三次的
(d) FSRCNN
(e) VDSR
(f) XLSR
(g) WLSR
(一)原
(b)人力资源
(c)双三次的
(d) FSRCNN
(e) VDSR
(f) XLSR
(g) WLSR
在表3相比,我们WLSR收益最好的结果在最少的模型参数。特别是,我们的WLSR使用30次参数少于VDSR老但达到更高的结果。从表3,它可以看出XLSR VDSR执行最好的除了我们的WLSR VDSR是第二高的表演中结果。在Set5 WLSR比第二名高出0.01 dB, Set14高0.2 dB, BSD100 0.02分贝更高。在结果,XLSR Set14和Urban100表现更好。然而,WLSR 0.12 dB高于XLSR Set14和0.04 dB高于XLSR Urban100。与此同时,在Set5 BSD100, WLSR比第二名高0.11 dB和0.01 dB VDSR,分别。
数据的可视化结果7和8,WLSR恢复更详细的纹理信息和更清晰的轮廓。图像中“0805年”,照片的眼睛恢复的比较方法是模糊的,但WLSR构造一些纹理的狼的眼睛。图像中的“0823”,而cnn不能获得清晰的建筑轮廓,而WLSR构造房子的一部分轮廓和石头上的斑点。
5。结论
超限分辨图像是一个热门话题。对于这个任务,我们提出一种小波稀疏Coding-based轻量级网络超限分辨(WLSR)。首先,我们利用小波稀疏编码设计力。此外,我们利用卷积扩张扩大接受字段,以便从输入LR图像中提取更多的信息。此外,WLSR雇佣的变形曲线玲珑使用不规则的内核来专注于非零稀疏编码。烧蚀研究表明,变形的卷积处理稀疏编码正确。最后,WLSR利用老一个极端的轻量级的结构来完成任务。在这种情况下,我们的模型使用了一些参数来达到杰出的结果。大量实验表明,WLSR包含只有1/30的参数比VDSR相比VDSR和达到更好的性能。虽然4先进的cnn使用多个参数,他们并不比WLSR重建效果。 The WLSR restores more texture and details. Besides, the WLSR has an outstanding quantization effect for uint8, with only 0.28 dB PSNR decreasing.
还有其他的小波变换;然而,我们只处理小波稀疏编码。拟议的研究在未来可以扩展通过使用其他小波变换,如dual-tree复小波变换和离散小波变换的多分辨率。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
我们声明,没有利益冲突有关的出版。
确认
这项工作是支持部分由中国国家自然科学基金资助61971328。