文摘

网络结构(DRSN-GAN)提出了运动图像去模糊相结合的深残余收缩网络交换网与生殖敌对的网络(GAN)解决贫穷问题的噪声免疫力和低去模糊算法完全基于甘斯的普遍性。首先,一个端到端的方法是用来恢复一个清晰的图像从一个模糊的图像,而不需要估计一个模糊的内核。接下来,在GAN DRSN用作发电机从输入图像去除噪声在学习残差来提高鲁棒性。BN和DRSN ReLU层搬到前面的卷积层,使网络更容易训练。最后,还装有由模糊变清晰表现验证使用,科勒,赖昌星的数据集。实验结果表明,模糊的图像产生更多的主观视觉效果和更高的客观评价,而MPRNet等算法。此外,图像边缘和纹理修复效果改善图像质量。我们的模型产生PSNR和SSIM值略高于最新MPRNet,以及增加YOLO检测精度。意思所需的参数的数量DRSN-GAN也减少了21.89%。

1。介绍

图像模糊可以相机抖动造成的或快速运动目标对象在接触,这可能会产生问题,在太空探索1),面部识别(2,视频监控3),和医学图像识别4]。模糊引起的相机和目标之间的相对运动不仅可以减少人类视觉感知的准确性,也为随后的计算机视觉分析创建挑战。因此,如何防止模糊图像退化和提高图像质量的同时一直是图像处理领域的一个紧迫问题。

运动去模糊技术可分为传统和深度学习方法。传统的去模糊往往涉及统计建模之前,而深学习方法通常由数据驱动的。传统的去模糊方法通常由第一估计运动模糊恢复图像内核(5- - - - - -14]。然而,这些方法有局限性,比如复杂的计算,高噪音水平,过度的模糊核估计需求,启发式参数调整,和较低的普遍性,经常阻止他们在各种场景中使用。因此,本文对当前流行的深度学习的方法。

近年来,深度学习的发展导致扩大使用卷积神经网络(cnn)图像处理。徐et al。15)首次提出nonblind去模糊方法基于cnn。随后,一些算法利用深度学习来估计模糊内核和传统方法恢复图像已经被提出近年来(16- - - - - -18]。太阳et al。16)提出了一种方法来估计模糊内核使用cnn,但算法假定图像是当地统一的模糊。Chakrabarti et al。17)提出了一种方法来估计模糊内核使用过滤器来获取图像特征并结合神经网络。这种方法可以估计模糊大小不一的内核,但是边缘特性将模糊图像恢复。龚et al。18)使用一个完全CNN直接估计运动模糊图像的流。然而,这些技术也受到环构件模糊核估计精度往往不够,从而导致非均匀模糊图像。不et al。19)首次提出一个端到端的深度学习方法在动态场景图像中恢复过来。然而,该算法主要依赖于高容量网络模型,和网络结构设计不做好考虑模糊过程的属性。Kupyn et al。20.)提出了一种新的基于生成对抗网络图像去模糊方法(DeblurGAN)。该算法使用剩余网络作为核心块GAN和使用目标检测作为评价方法。然而,这种算法遭受平庸的表现客观的评价。Kupyn等人提出DeblurGAN-v2,方法改进DeblurGAN甘运用金字塔网络(21]。这两个算法证明GAN模型可以更好地保留细节和纹理信息的图像,而不需要估计一个模糊的内核。尽管Suin et al。22)和水等。23实现更好的性能,这些模型需要较大的参数数量。此外,无论是算法示例图像噪声。在过去的20年中,软阈值经常被用作关键步骤在信号去噪24,25]。然而,与传统算法确定最优阈值是很困难的,因为它可能会在不同情况下是。

因此,本文对端到端GAN模型和噪声的处理图像去模糊。总之,基于深度学习的图像运动由模糊变清晰提供低依赖人工经验的优势,快速恢复速度和很强的普遍性。然而,这种方法需要大量的数据支持。现有深学习算法也遭遇问题,如不切实际的恢复步骤,复杂网络模型和鲁棒性差。

为了解决这些问题,本文提出了一种图像去模糊运动过程基于DRSN和氮化镓,修改结构的氮化镓在几个关键方面。本文的主要贡献如下:(1)首先,一个端到端的方法应用,避免了振铃效应,简化了算法步骤。(2)第二,甘DRSN用作发电机在去除噪声在学习从输入图像残差和提高泛化性能。DRSN的内部结构调整,将BN和ReLU层移动到前面的卷积层,使网络更容易训练。(3)最后,由模糊变清晰效果和普遍性还装有验证使用,科勒,赖昌星的数据集。

实验结果显示该DRSN-GAN算法取得了最佳的修复性能与类似的深层网络结构相比,DeblurGAN和DeblurGAN-v2等。也取得了最好的普遍性与最先进的算法相比,如深解模糊,SRN, DeblurGAN, DeblurGAN-v2, Suin et al .,方法和MPRNet。因此,DRSN-GAN本文提出的图像恢复方法代表了一种改进的图像恢复算法。

本文的其余部分组织如下。部分2介绍了运动图像去模糊。部分3简要概述的古典GAN和发达DRSN-GAN的详细阐述。部分4讨论了损失函数。实验比较了部分56结论。

2。运动图像去模糊

运动图像去模糊用于恢复一个清晰的图像从一个模糊的图像。大多数现有的算法都是基于模糊模型如下: 在哪里B是一个模糊的形象,k是点扩散函数(PSF)定义模糊的内核,年代是一个清晰的图像, 代表一个卷积算子,N是一种添加剂噪声项。图像去模糊的主要目标是恢复B表示尽可能接近年代越好。如果k众所周知在由模糊变清晰,过程称为nonblind由模糊变清晰。否则,它被称为盲目的去模糊。在实际情况下,模糊的内核k通常是未知的或难以确定。因此,本研究的重点是常见的情况,一个未知的模糊的内核。

传统的盲目的去模糊方法(5- - - - - -14)首先估计模糊内核,然后deconvolve估计的模糊图像模糊内核获得清晰的图像。这种方法依赖于准确的估计模糊内核,只适用于特定类型的模糊,这对实际场景使得这个过程变得复杂。然而,深度学习和端到端技术的发展(16- - - - - -28盲人去模糊问题提供了新的解决方案。端到端模型提供了几个优势,包括避免模糊核估计,简单的算法步骤,降低计算成本。在这项研究中,氮化镓(保留图像细节的能力(20.])和残余收缩深度网络(与过程噪声的能力)相结合并应用于图像运动首次由模糊变清晰。

3所示。生成对抗和深残余收缩网络

3.1。经典的甘斯

甘斯是一种生成深度学习模型,首次提出由格拉汉姆·古德费勒et al。29日2014年)。甘斯超限分辨图像重建(取得了举世瞩目的成就30.翻译)、图像(31日),风格转移(32),共同生成文本图像(33),和图像绘画(34,35]。此外,这个模型可以在理论方法任意概率分布。甘斯的主要优化目标是实现纳什均衡(36),目标函数定义如下(29日]: 在哪里 是发电机,D鉴频器,E是期望,x真正的数据分布采样Pr, 是model-generated采样数据分布 ,和输入是一个简单的噪声分布。

典型的氮化镓是不成熟和展览等问题消失梯度和模式崩溃问题,限制其发展。因此,几个GAN-based变异提出了克服这些问题,其中包括有条件GAN (CGAN) [37甘),深卷积(DCGAN) [38甘,瓦瑟斯坦(WGAN) [39甘),最小二乘(LSGAN) [40],BigGAN [41]。他们的机制,优势,劣势和适用场景提供了表1

3.2。改进的甘斯

比较分析表1表明WGAN解决了不稳定的问题培训和甘原模型崩溃。WGAN取代了KL和JS散度在传统GAN瓦瑟斯坦距离,使梯度平滑。因此,本文提出的模型是使用WGAN框架开发的。

改进的动态模糊模型如图1,黄色框代表了我们的贡献。DRSN作为骨干网络,允许发电机去除噪声的同时学习残差。发电机的具体网络结构显示在图2和DRSN图3。发电机的目的是学习的潜在分布图像数据样本,同时鉴别器的功能是确定输入样本是否真实或产生的发电机。图像输入鉴频器是由发电机和其相应的清除图像数据集。在训练和对抗的内容丢失,发电机和鉴频器的能力不断提高,直到整个网络达到纳什均衡状态。当鉴别器无法识别数据的来源,它可以近似认为发电机已经学会真正的图像数据的分布。

在这项研究中,氮化镓生成的图像的质量增加,使改善发电机模块。九深残余收缩网络被用作GAN发生器模块。研究运动DeblurGAN用于图像去模糊之前,结合残余网络和氮化镓。然而,这种方法不考虑图像中噪声,影响修复质量,模型训练速度和收敛速度。因此,在这项研究中,残余网络DRSN所取代,为了解决DeblurGAN造成的问题。

3.2.1之上。改善发电机网络结构

发电机的目的是重建清晰的图像从模糊输入图像。因此,它必须在输入图像不仅保留结构细节也消除模糊和噪声尽可能。不同于标准的氮化镓,发电机的输入 使用本文并非随机噪声,但模糊图像恢复。

发电机网络结构如图2由四个卷积层,九DRSNs,和两个调换卷积层。1、4层的结构是相同的(64和3过滤器,分别地。内核的大小7日,跨步1,ReflectionPad缓冲区)。卷积的结构层2和3也一样(256年和512年的过滤器,分别地。内核大小3步2,“相同”填充)。DRSN由BatchNorm(1)批量大小,ReLU, 3×3 Conv(256过滤器,一个内核大小的1步,和ReflectionPad缓冲区),辍学(0.5),身份连接,并注意模块。在图2,只有一个DRSN所示,而其余8 DRSNs简化出于演示目的。

首先,输入模糊图像与一个7×7和两个卷积3×3卷积核的卷积层,以确保生成的网络可以提取图像模糊特性从像素级水平在学习内容。提取浅特性被输入9-deep残余收缩网络用于收购深特性(42]。深的特征是deconvolved确保生成和输入图像相同大小的一代网络。反褶积取而代之的是upsampling和卷积措施避免棋盘的效果。此外,输入第一层直接转移到最后一层通过全球连接。因此,网络只需要正确的残余误差,增加培训和收敛率。这种发电机网络结构类似于DeblurGAN发生器,随着9-deep残余网络被修改生产9-deep残余收缩网络。这个过程是由图中的红色框表示2

3.2.2。深的残余收缩网络结构

深残余收缩网络(DRSNs),深的一个改良版本残余网络(ResNets) [43),形成的核心区块发电机结合深残余网络,注意机制(44,一个软阈值函数。传统的深残余网络如图3(a)。学习的质量特性和由此产生的解模糊图像会存在很大的噪音在输入图像。在这项研究中,一种改进结构发达,对噪声不敏感,由图中的红色虚线框表示3(b),序列的卷积,批处理规范化,然后调整和ReLU激活功能层。具体来说,批归一化层和ReLU激活函数层定位在卷积前层,使网络更容易训练(45]。

此体系结构改进的能力深神经网络从嘈杂的信号中提取有用的特性。在该算法中,添加了一个小型完全连接网络的输出之前经典深残余网络。的工作原理包括识别重要特性,使用一个注意力机制,设置为零与软阈值函数定义如下(42]: 在哪里x是输入功能,y是输出特性,然后呢τ是阈值(积极的参数)。而不是设置负面特性ReLU激活函数为零,软阈值将接近于零的特性设置为0,这样有用的负面特性可以被保留下来。注意机制算法详细表2(以下46]。

3.2.3。鉴频器网络结构

鉴别器网络结构用于确定一个输入图像是真或假图所示4。这里,“true”表示真正的最初的样本,而“假”表明它是由发电机。鉴频器还协助发电机产生模糊的图像更接近真实的图像。的输入维度鉴别器和生成器的输出尺寸都是256×256×3。网络结构主要是由卷积、批量标准化,并激活模块。漏水的ReLU (LReLU) 0.2是用作激活函数的一个参数,和乙状结肠函数的最后一层歧视背后的网络连接。输出映射在[0,1]表示置信水平。DRSN-GAN算法是在表中详细列出3(以下46]。

4所示。损失函数

损失函数的选择直接决定了深度学习的目标和训练模型的有效性。损失函数用于图像恢复的任务在这项研究由两部分组成:对抗和内容的损失。敌对的损失的目的是恢复结构的细节,而内容恢复更一般的损失。损失函数的约束下,发电机和鉴别器训练,最后,他们达到纳什均衡状态。总损失函数被定义为 在哪里l氮化镓表示敌对的损失,lX是内容丢失,λ减肥是用来平衡多个损失函数。的价值λ从50到100不同的间隔10。实验结果显示,恢复图像表现出更好的视觉效果,因为每一个评价指标进行优化λ= 100。下面的实验都使用这些理想条件下进行的。

4.1。敌对的损失

研究表明,引入了一种敌对的损失函数可以用来重建详细的纹理信息,使生成的图像更清晰和更直观地接受。甘斯近年来的快速发展导致了几个敌对的损失函数的出现。其中,常见的算法包括平方损失,叉损失,和瓦瑟斯坦距离损失函数。本研究使用瓦瑟斯坦距离,提出Arjovsky et al。39),因为它提供了优越的平滑。这个术语的定义如下: 在哪里N批量大小,Dd是训练有素的鉴频器, 代表训练生成器,B(n从批处理)是模糊输入图像。

4.2。内容丢失

内容损失函数限制生成图像与输入图像语义一致性的目的,以避免失真。VGG19网络采用由于其简单性和实用性。这是pretrained ImageNet数据集(47)获得更清晰的图像和提高知觉的影响。内容损失计算使用特性差异产生清晰的图像和图像提取的VGG19网络。内容损失函数被定义为(48] 在Φ我,我特征映射在吗j卷积(在激活之前th最大池层)和VGG19网络提前训练。条款W我,我H我,我代表特征的尺寸图。

5。仿真分析

5.1。实验设置

还装有数据集的公共数据库分辨率最高,规模最大,最场景和最广泛应用于图像去模糊的研究。这个数据集提供了现实的图像通过模拟从实时拍摄图像模糊的过程。这些数据是由3214对模糊和锐利的图像分辨率为1280×720×3。训练集由2103对和测试组包括1111对。还装有图像训练集的数据集(19)被用作训练集,分辨率转换从1280×720×256×256×3(减少培训时间)。Keras深学习框架是用来实现模型作为研究的一部分。实验平台成立于PyCharm,内容减肥λ设置为100(基于经验证据)。批处理大小被设置为1,反映个人图像恢复的任务。采用自适应估计时刻(亚当)优化模型的训练,学习速率的10−4。剩余的hyperparameters亚当优化器在Keras被设置为默认值。鉴频器是训练了五个迭代和发电机只训练一次。这是因为,在训练发电机之前,鉴别器必须训练一定程度的歧视。网络模型训练交替迭代,直到实现纳什均衡。硬件配置包括12 GB的内存,一个英特尔酷睿i5处理器,NVIDIA GeForce 940 m GPU。

这种技术的优点是通过还装有图像恢复的评估,科勒,赖昌星的数据集。峰值信噪比(PSNR),结构相似度(SSIM),和单个参数(参数)对图像恢复质量作为评价指标。其中,PSNR措施重建和真实图像之间的像素值的差异,高值代表较小的失真。SSIM措施两个图像之间的相似性的亮度,对比,和结构信息。值接近1表明更高的重建和真实图像之间的协议。参数测量模型的复杂性,用较小的值是更可取的。PSNR和SSIM定义如下: 马克斯是图像像素的最大值(通常255),RMSE映像的均方根误差,μxμy图像的平均值吗xy分别σx2σy2方差的图像吗xy分别σxy两幅图像的协方差,c1,c2,c3小的常数,防止分母为0。此外,c1= (k1×l)2,c2= (k2×l)2,c3=c2/ 2,k1= 0.01,k2= 0.03,l= 255。

5.2。还装有仿真分析的数据集

还装有数据集最高分辨率、最大海侵和最广泛使用的图像去模糊研究公共数据库(19]。这个数据集提供了现实的图像通过模拟从实时拍摄图像模糊的过程。这些数据是由3214对模糊和锐利的图像分辨率为1280×720×3。训练集由2103对和测试组包括1111对。提出的模型的有效性评估通过比较它与几个主流算法应用到相同的数据集。这包括徐等人的传统方法和深度学习方法如太阳等人,Suin et al .,深解模糊,SRN, DeblurGAN DeblurGAN-v2, MPRNet。性能指标(PSNR、SSIM和Params)为每个算法提供了表4

以下是明显的从这些结果:(1)表的最后一列4显示PSNR和SSIM DRSN-GAN值32.67和0.965,分别只有15.7米所需参数。这是表明优秀的图像恢复性能。(2)DRSN-GAN, DeblurGAN [20.],DeblurGAN-v2 [21)表现出类似的网络结构,虽然小完整连接网络训练算法去除噪声。与DeblurGAN相比,PSNR和SSIM增长了14.07%和4.1%,分别同时确保参数的微小增加。与DeblurGAN-v2相比,PSNR和SSIM增长了10.56%和3.32%,分别,而参数下降了74.22%。这些结果表明,该方法提高了恢复图像的质量没有显著增加参数数量。(3)这项研究由Zamir et al。23)是最新的论文发表在领域的图像去模糊。与MPRNet相比,PSNR和SSIM DRSN-GAN略高。此外,参数个数降低了21.89%,表明该模型不仅确保优秀的恢复图像质量,还能显著降低参数数量,减少运行时,提高图像恢复的效率。

由此产生的图像恢复效果和MPRNet相比,在图5,大红色框右下角显示了小红的放大视图框架增强细节。

以下可以观察:(1)5 (c)表明MPRNet增强图像的亮度,但产生显著网格工件。(2)5 (d)表明该方法取得了良好的结果。图像被成功恢复,围护结构和原始图像的颜色特征,和内容基本上是相同的。尽管边缘纹理效果缺乏,由模糊变清晰的效果令人满意。(3)扩大红色框中可以看出每个图的右下角,图像细节更清晰和更真实,由我们的方法和纹理效果优越。

YOLO检测方法意思也用于定量分析的去模糊性能,如图6。在图中,蓝色线表示图像中对象的位置和左上角的红色标签表示对象类别和识别率。以下可以观察到:(1)6(一)包括5人,一个背包被识别的清晰的图像具有高识别率。相比之下,只有3人确定图的模糊图像6 (b),识别率较低。(2)MPRNet和该方法确定了四个人数据6 (c)6 (d)。最左边的人的背包没有被模糊图像,而蹲在中间的人是公认的6 (c)6 (d),但不是6 (b)(3)该方法实现了识别率为0.04高于MPRNet最左边的人,0.02高左中。由此产生的模型修复效果也优于MPRNet。

5.3。科勒数据集的模拟和分析

科勒数据集由四个图像,每个被12个不同的内核。生成的数据记录和分析真正的相机运动,机器人平台上重播。一系列清晰的影像,记录使用6 d相机运动轨迹,基准评估盲目的去模糊算法(50]。然而,这个数据集的图像没有检测到目标,所以YOLO检测意思不能被执行。拟议的技术也应用于这些数据并与五个常规算法(深解模糊,SRN, DeblurGAN、DeblurGAN-v2 MPRNet)使用PSNR和SSIM作为评价指标(见表5)。

这些实验结果表明DRSN-GAN生产的恢复质量优于MPRNet, PSNR和SSIM值增加了0.01和0.002,分别。由于摄影器材和大气的影响效果,一定量的噪声将会叠加在图像。DRSN-GAN可以同时消除运动模糊和噪声,高的普遍性。然而,MPRNet一次只能执行一个任务,如去模糊、去噪、雨水或删除。

我们算法的有效性为科勒数据集由盒装演示区域图7,从中可以得出以下:(1)去模糊结果由MPRNet,如图7 (c),表现出不自然的视觉感官效果,如oversharpening、网格工件和边缘失真。(2)7 (d)表明,与代表MPRNet模型相比,提高发电机模块消除明显的色差和颜色失真。因此,重建的图像更自然、逼真。(3)详细信息的盒子图中显示我们的方法产生更自然的恢复结果,特别是对于精细结构。

5.4。模拟和分析为赖数据集

赖昌星等人介绍了一种合成数据集,包括清晰和模糊图像(51),由一个统一的运动模糊子集和一个非均匀运动模糊子集。因为本文在非均匀运动去模糊问题,非均匀运动模糊子集被选中作为测试集。与其他两种数据集,PSNR和SSIM不能赖数据计算和YOLO检测意思可能无法实现。然而,由于模糊内核来自6 d相机轨迹,可以获得模糊图像旋转、翻译、和可伸缩性。因此,图像以通常的方式不一致。换句话说,没有pixel-to-pixel两幅图像之间的对应。赖的测试结果数据集的可视化提供一个比较算法,如图8。以下的结论可以从这些结果:(1)8 (c)表明赖的去模糊效果由MPRNet数据还装有劣质的数据集。此外,恢复图像分辨率低和去模糊的效果一般都不满意。(2)8 (d)表明该模型产生的去模糊效果(赖数据)也不如还装有数据集的结果。然而,生成的样本相对清晰比MPRNet方法和恢复的程度较高。(3)红色的数字放大框8 (c)8 (d)表明该模型产生的去模糊效果略好场景细节比MPRNet方法。

5.5。噪声图像的模拟和分析

该模型的普遍性和去模糊效果上面了。高斯噪声(均值为0,方差为0.001)添加到图像还装有和科勒的数据集来说明该方法的恢复能力。测试结果的可视化提供了各种算法的比较,如图910。从这些结果可以得出以下结论:(1)数据9 (c),9 (d),10 (c),10 (d)表明,由模糊变清晰的DRSN-GAN不如MPRNet。(2)数据9 (c)10 (c)保留重要的噪声,而数字9 (d)10 (d)大多是无声的。(3)相应的PSNR指数也表明DRSN-GAN超过MPRNet。

5.6。分析和总结

测试结果还装有,科勒,赖数据库导致了以下结论:(1)我们建议的方法提供了更少的参数和更高的PSNR和SSIM值比传统方法,这也为高噪音运动模糊图像产生意想不到的效果。(2)该算法在多个数据集的性能表明,模型提供了良好的普遍性而跨多个数据集生产高质量恢复的结果。(3)与MPRNet相比,视觉清晰、图像质量度量的改进与应用程序提出的技术,特别是对于边缘特性和精细的信息。所需的参数的数量也减少了21.89%。与传统DeblurGAN,我们的模型包括一个关注模块从模糊图像去除噪声。这种机制是由一个小完全连接网络,如图2。随着网络结构的复杂性增加,参数数量仅略有增加。这表明所构造的网络模型和相应的损失函数产生卓越的修复效果,同时减少参数的要求。

6。结论

一幅图片恢复算法基于深残余收缩和生成对抗网络(DRSN-GAN)提出了本文。提出的算法可以去除噪声,提高模型普遍性使用注意机制和软阈值函数,从而避免相关问题,如明显的电网恢复图像和图像恢复的影响。模型训练速度也提高了改变DRSN网络结构。一个端到端的方法也适用,它避免了振铃效应和简化算法步骤。实验结果表明,与深解模糊等流行的算法相比,SRN, DeblurGAN, DeblurGAN-v2,和MPRNet DRSN-GAN方法实现最好的去模糊还装有性能和最高的普遍性,科勒,赖昌星的数据集。此外,当与MPRNet方法相比,参数数量DRSN-GAN显著减少(21.89%)。进一步提高运营效率的DRSN-GAN方法将是未来研究的重点,重点是简化发电机网络结构和优化相关参数。算法参数也将减少进一步提高PSNR和SSIM指标。这项研究的结果适用于高噪音图像的恢复在几个领域,包括人脸识别、视频监控、医学图像识别和太空探索。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者声明他们没有利益冲突或人际关系可能影响本研究报告的工作。

确认

这项工作得到了中国自然科学基金批准号下下61875166,四川科技项目批准号2021 jdjq0027,四川省学术和技术领袖培训计划和西华学者西华大学的培训计划。w·b·江也要感谢西华大学的海外培训计划(09/2014-09/2015,密歇根大学安娜堡,美国)。作者还要感谢LetPub (http://www.letpub.com)为他们的语言帮助和科学咨询在这个手稿的准备。