文摘
盲目的去模糊一个红外图像是一个具有挑战性的计算机视觉问题。因为模糊不仅是运动造成的不同的对象也由相对运动和抖动相机,有一个场景深度的变化。在这个工作中,一个方法基于氮化镓和通道之前歧视提出了红外图像去模糊。不同于以前的工作,我们把传统的盲目的去模糊方法和基于学习方法,盲目的去模糊方法和均匀和非均匀模糊图像分别考虑。通过训练该模型在不同的数据集,证明该方法实现竞争性能由模糊变清晰的质量(客观的和主观的)。
1。介绍
运动模糊的主要原因是快速相机和拍摄对象之间的相对运动,在曝光时间。图像的模糊会减少人类的感知质量。它也有一个负面影响等先进的视觉任务对象检测和语义的理解。图像去模糊是一种常见的和重要的问题在图像处理和计算机视觉领域。然而,由于运动模糊处理的复杂性,大多数现有的方法不能产生满意的结果时,模糊的内核是复杂的,并需要清晰的细节图片非常丰富。此外,由于红外(IR)成像系统比自然更复杂的成像系统,红外图像的退化程度相对较高,如高斯模糊、运动模糊、噪声污染。因此,红外图像去模糊红外成像系统中起着重要的作用。一些研究人员正在致力于研究基于硬件的红外图像去模糊。在文献[1),快门飘动用于解决红外图像去模糊的问题。文献[2)使用一个普通的惯性测量单元(IMU)估计摄像机运动的轨迹在曝光时间。Oswald-Tranta et al。3)使用参数化的维纳滤波方法获得的红外图像模糊的红外探测器microbolometer。Oswald-Tranta也致力于获取准确的温度测量红外图像去模糊(4]。王等人。5)使用迭代维纳滤波器估计PSF过滤器红外图像的运动模糊。基于红外成像的去模糊方法硬件设备更昂贵。因此,算法的红外图像去模糊更广泛使用。罗等。6)开发了一种新的红外模糊图像恢复模型基于非均匀照射的原则。为了消除图像的运动模糊和恢复图像,静等。7)提出了一种红外目标运动去模糊方法基于Haar小波变换。Liua et al。8]提出的方法使用Lp-quasi-linear规范和重叠模糊了红外图像的稀疏的全变差方法。
灵感来自传统的盲目的去模糊方法的很大的进步,最近上优于盲目的去模糊的方法,我们提出一个方法基于氮化镓和通道之前歧视。具体来说,本文的创新总结如下:(我)提出了基于逆之前歧视。这方法是建在一个氮化镓的新框架。它能改善红外图像的盲目的去模糊性能。(2)不同的模糊类型是由摄像机的运动或对象。针对这种情况下,两种不同的方法被用来合成两种模糊数据集。(3)在实验阶段,我们进行了大量实验,进行了在两个不同的数据集。本文中提出的方法与其他四个先进的定性和定量的方法。
2。相关工作
2.1。图像去模糊
去模糊问题的解决方案主要分为两种类型:盲目的去模糊和nonblind由模糊变清晰。早期的相关工作主要是nonblind由模糊变清晰,即模糊度函数被认为是已知的。大多数这些算法依赖于Lucy-Richardson算法和维纳或Tikhonov滤波器对噪声敏感执行反褶积操作并估计获得。然而,在现实中,模糊函数往往是不确定的。是不现实的发现每个像素的模糊度函数。因此,大量的近期作品的重点是盲目的去模糊。第一个现代大胆尝试是费格斯et al。(9)变分贝叶斯方法消除统一的相机抖动。在过去的十年中,许多方法(10- - - - - -20.]解决了相机抖动造成的模糊,考虑到统一的模糊图像。这种算法首先估计相机根据诱导运动模糊的内核,然后反转效应通过执行反褶积操作。不幸的是,这些算法通常是无法消除非均匀运动模糊。
事实上,由于相机旋转,径向相机运动,景深的变化,或快速运动的物体,在野外拍摄的图像可能会遇到更复杂的非均匀模糊。因此,大多数现有的非均匀盲目的去模糊方法(21- - - - - -26)是基于特定的运动模型。例如,古普塔et al。27)提出了相机运动作为一个运动密度函数模型。空间变量的模糊内核可以直接从它派生的。通过指定一个稀疏和密实度的密度之前,制定一个优化问题,和密度函数可以解决迭代解模糊图像。提出了一种新的投影运动路径模型在28,29日]。消除歧义空间变异的另一种方法是通过一个模糊估计内核(30.- - - - - -32]。分段的模糊估计(24,33]也认为造成的空间变化模糊对象的运动。
近年来,一些方法基于卷积神经网络(CNN)出现(23,34- - - - - -42]。舒勒et al。39]首次启发式尝试,专注于统一的盲目的去模糊,包括特征提取模块、模糊核估计和清晰的图像估计。太阳et al。40)利用CNN估计模糊内核。Chakrabarti [43)提出另一个先进的方法。这个方法学会了预测反褶积滤波的复数傅里叶系数的模糊图像的输入补丁,然后用传统的优化策略来估计全球模糊恢复的内核补丁。和龚et al。34)使用完全卷积网络运动流估计。所有这些方法都使用CNN来估计未知的模糊函数。最近,Noroozi et al。23和不et al。44)采用kernel-free端到端方法,使用多尺度CNN直接删除图片。道等的最新作品(42扩展的多尺度CNN [37)递归实现图像去模糊,CNN规模和效果令人印象深刻。Ramakrishnan et al。38)结合pix2pix框架(45和人口卷积网络连接46)进行盲kernel-free图像去模糊。这些方法可以处理不同来源的模糊。自从Ramakrishnan et al .,氮化镓在图像恢复的成功还影响到单一图像的去模糊。Ramakrishnan et al。38)首先解决图像去模糊的问题,指的是图像的想法翻译(45]。最近,Kupyn et al。36]介绍了DeblurGAN;它是由瓦瑟斯坦GAN [47)梯度罚款和损失。
2.2。氮化镓
生成对抗的网络,通常被称为甘,格拉汉姆·古德费勒提出的(48),受博弈论的零和游戏。这个游戏取得了许多令人兴奋的成果在图像恢复49]。风格转换后(45,50,51),它甚至可以用于其他领域。该系统包括一个发电机G和一个鉴别器D;他们为两个构成极大极小的游戏。发电机试图捕捉潜在的实际数据分布和输出新的数据样本,而鉴别器试图区分是否输入数据来自真实的数据分布。游戏极大极小值函数V(G,D)是由以下公式(1]。发电机和鉴频器可以构造基于CNN和训练基于上述想法。 在哪里是真正的数据分布,分布模型,输入z是一个样本从一个简单的噪声分布。
甘而闻名的能力保护结构细节图片,创建解决方案接近真正的形象,和感知有说服力。文献[51)是进一步发展;它是基于甘条件(52)和列车循环一致性的目标。这一目标生成一个更现实的形象的任务形象迁移。灵感来自这个想法,伊索拉(45)最早提出基于氮化镓的图像去模糊的想法。最近,已经取得了很大的进步在图像超分辨率的相关领域53和图像恢复54通过应用甘。
2.3。暗通道先验算法
他等。55)提出了一种除雾算法(DCP)基于黑暗通道之前。DCP是基于假设大多数户外fog-free nonsky补丁图像包含一些像素。这些像素很低强度至少一个颜色通道。对于任何图像我,它的黑暗的通道我黑暗(x)由以下公式给出: 在这代表一个地方色彩块集中在x和我c是cth颜色通道的我。光学通道提出了类似的文章(56)是基于假设最模糊图像块包含了一些像素非常聪明的至少一个颜色通道的强度。对于任何图像我,它的光学通道我明亮的(x)如下:
许多方法使用黑暗的通道和明亮的通道来完成图像除雾(55,56),他们也被用来估计模糊内核在传统的盲图像去模糊15,57]。在[15),锅等人提出使用基于正则化项l0另外在黑暗的通道图像基于改进梯度l0最小化盲目的去模糊方法(11]。在[57),燕等人进一步结合和使用l0基于正则化在黑暗和光明的通道图像。
3所示。方法
在这部作品中,红外图像去模糊模型的目的是恢复一个清晰的图像只有模糊的红外图像。本文提出的体系结构,在51),用于建立甘两套模型。发电机是GB2年代:我B⟶我年代和G年代2B:我年代⟶我B。GB2年代从模糊图像恢复清晰的图像,而G年代2B产生模糊图像清晰的图像。鉴别器是DB和D年代。DB试图区分是否输入是一个模糊的形象,虽然D年代试图区分输入是否锋利。该方法的体系结构如图1。输入方法是模糊图像和清晰的图像。清晰的图像发送到发电机G年代2B生成相应的模糊图像。生成的模糊图像发送到发电机GB2年代生成一个模糊的形象。生成的解模糊图像和真实清晰的图像发送到鉴频器D年代一起来识别真和假。真正的模糊图像输入到发电机GB2年代生成一个模糊的形象。生成的解模糊图像发送到发电机G年代2B合成模糊图像。模糊图像合成和真正的模糊图像发送到鉴频器DB确定真实性。通过不断的迭代,发电机可以生成更现实的解模糊图像。算法流程概括为算法1。
|
||||||||||||||||||||||
3.1。模型架构
我们提出的方法包括两双甘。一对的模型架构图所示2;它包括两个深卷积神经网络(DCNN)模块。提出的发电机类似Johnson et al。50卷积),包括两步与步长为0.5块,9个残块,和两个转置卷积模块。实例化标准化层(在)卷积后添加层每个卷积模块除了ResBlocks。鉴频器的网络结构是一样的的45]。它包括五个卷积模块;除了最后一个模块,每一个卷积层是一层和一层LeakyReLU紧随其后。
众所周知,BN和层使用一批均值和方差规范化特征在训练和使用估计的均值和方差在测试期间的整个训练数据集。应用BN或潜在的动机之一是加快训练神经网络(款)。然而,最近的研究(58)幅图片超分辨率指出BN层将工件在训练和测试阶段。特别是,这些工件更容易发生与网络的深化和培训的框架下甘。变成了盲目的去模糊时,上述经验的讨论表明,在层将类似的工件,也就是说,不规则块颜色转变。因此,没有在和BN层介绍了残块,如图3。发电机和鉴频器的网络配置如表所示1和2。
3.2。损失函数
3.2.1之上。敌对的损失
敌对的损失包括发电机敌对的损失和鉴别器对抗的损失,在发电机敌对的损失被定义如下:
其中,第一项是重建的模糊图像之间的对抗性的损失和鉴频器DB。第二项是重建的清晰图象之间的对抗性的损失和鉴频器D年代。最小平方损失比图像中的均方损失风格转换的任务。因此,鉴别器使用最小平方损失作为敌对的损失:
其中,第一项是鉴别器的损失函数DB错误识别,第二项是鉴别器的损失函数D年代错误识别。
3.2.2。圆感知一致性的损失
甘总,有必要比较重建图像和原始图像在训练阶段与某个指标内容丢失。内容的共同选择损失像素空间损失,最简单的是L1和L2的损失。因为这种损失通常会产生过度平滑像素空间的输出,这将导致生成的图像模糊的工件。这会带来负面因素由模糊变清晰的任务,所以圆感知一致性损失建议(58采用。圆感知一致性损失的目的是保存原始图像结构通过观察高级和低级的组合特征提取的第二和第五池层VGG-16系统[59]。发电机的约束下GB2年代:我B⟶我年代和发电机G年代2B:我年代⟶我B,下面的公式给出了圆形感知一致性的损失:
其中,周期感知一致性的发电机吗GB2年代;周期感知一致性的发电机吗G年代2B。我们的目标是使重建图像与输入图像尽可能接近。由VGG-16获得的特征映射网络的我th最大池层之后jth卷积层。和是相应的维特征图。
3.2.3。之前损失的基础上黑暗的通道和明亮的通道
使用明亮的通道和暗通道提出了公式(2),(3)以下两种不同的能量定义: 在这米和N通道尺寸。我黑暗(x)被定义为公式(2)。我明亮的(x)被定义为公式(3)。这是验证了他等人,徐et al。55,56),清晰的图像暗能量较低和较高的光明能量。为了测试的可分解性(9)和(10)之间的红外清晰的图像我年代和相应的模糊图像我B的画面,FLIR_ADAS_1_3数据集计算。8862的结果显示,清晰和模糊图像对 和 。为了计算结果可视化,200张图片是随机挑选的,所以,曲线提供,如图4。
(一)
(b)
基于这一结论,认为可以区分清晰的图像和模糊图像暗能量和明亮的能源中定义(9)和(10)。为了提高甘从领域知识的角度,判断之前的传统盲图像去模糊方法作为培训损失函数:
在公式(13), , ,和损失函数的权重。根据实验结果, , ,和 ,分别。
4所示。实验
所有模型都是由PyTorch实现深度学习框架。FLIR_ADAS_1_3数据集和LTIR数据集用于火车在桌面2.20 GHz×40英特尔至强(r) Silver4114 CPU、GeForce GTX 1080 ti, 64镶条内存。在本节中,介绍了实验结果并与主流方法的结果。此外,定性结果提供了在真实的图像。
4.1。合成模糊数据集
有两种类型的模糊图片:整体形象的运动模糊是由于成像设备和部分图像模糊是由于成像的运动对象。为了验证我们的去模糊方法对这两种类型的模糊有效,我们模拟了两种类型的图像模糊通过两个不同的计划。
为整体形象模糊成像设备的运动造成的,我们选择使用一个线性模糊内核创建一个合成的模糊图像。太阳et al。40)创建了一个复合模糊图像卷积明确自然图像的73种可能的线性运动内核。徐et al。60)使用线性运动内核创建合成模糊图像。Chakrabarti [61年)创建了一个模糊的内核通过抽样六个随机点和拟合曲线。莱文等人提供八个模糊内核(62年已经使用了多个数据集。然而,这些八个模糊内核的最大模糊内核大小是41×41,这是在实践中相对较小。因此,我们遵循的算法63年)生成四个统一的模糊内核从51×51到101×101通过抽样随机6 d相机轨迹。然后,卷积模型有1%用于合成模糊图像高斯噪声。
为当地运动造成的图像模糊的影像对象,我们选择使用的平均帧视频序列来模拟。这是一个典型的方法模拟模糊图像对的23,37]。这种方法可以创建实际的模糊图像只是限制了图像空间场景视频序列;这使得数据有限。图5显示了两个不同的模糊类型的比较。平均帧显示了生成的模糊图像模糊引起的移动对象和静态背景。汽车在图5 (b)是模糊的,但周围的树木是显而易见的。模糊内核方法模拟整个图像的运动模糊的运动引起的相机。在图5 (c),汽车和周围的树木是模糊。为了验证算法的普遍性,我们使用模糊内核为LTIR合成模糊图像数据集和使用两种合成方法的平均帧为FLIR数据集和模糊内核来模拟运动模糊。模糊数据集模糊合成的内核方法用作FLIR-A数据集;合成的模糊数据集平均帧方法用作FLIR-B数据集。
(一)
(b)
(c)
4.2。FLIR_ADAS_1_3数据集的结果
FLIR_ADAS_1_3数据集提供注释的热成像数据集和相应的未经培训和RGB图像验证神经网络。数据是通过使用RGB相机和热成像摄像机安装在车辆上。数据集包含14452红外图像,其中10228来自多个短视频,和4224年来自144年代视频的长度。所有视频都来自街道和高速公路。大多数图像的采样率是两帧每秒。视频的帧速率是每秒30帧。当很少有目标在一些环境中,采样率是1帧/秒。在实验中,8862 8位红外图像分为7090图像训练集和1772图像测试集。图6显示FLIR-A模糊数据集上的测试图片,和定量结果如表所示3。
为了进一步比较各种方法的去模糊效应在不同类型的模糊图像,我们比较的去模糊结果FLIR-A FLIR-B模糊数据集。图7显示了不同方法的解模糊图像的两种类型的模糊数据集,和评价指标如表所示4。从主观和客观的结果可以看出,我们的方法比其他方法更好的去模糊性能。这个结果是FLIR-B模糊数据集上尤为明显。部分运动所造成的模糊图像的成像对象,由模糊变清晰的效果的其他方法明显减少,原来的清晰的背景变得越来越模糊,和模糊区域没有达到理想的去模糊的效果。然而,我们的方法可以恢复模糊区域,同时保持背景清晰。这有很多与通道的想法之前歧视采用我们的方法。算法是基于局部颜色通道之前歧视补丁。这使得我们的方法有更好的去模糊性能在当地的模糊图像。
(一)
(b)
4.3。LTIR_v1_0数据集的结果
LTIR数据集热红外数据集被用来评估一个对象的跟踪(STSO)在短时间内。目前,只有一个版本是可用的。1.0版包含20个红外热序列平均563帧的长度。这个数据集的subchallenge 2015视觉物体识别(嗓音起始时间)的挑战。在实验中,11262年的8位图像分为训练集的9010张图片和2252张照片的测试集。图8显示LTIR数据集上的测试图像。定量结果如表所示5。
4.4。烧蚀研究和分析
我们进行烧蚀研究的影响损失函数组件去模糊方法在本文提出。结果总结在表6。我们可以看到,我们建议的黑暗通道和明亮的通道先验确定组件是稳步提高PSNR和SSIM。特别是,贡献最暗通道先验确定模块。当我们将知觉损失函数替换为L1和L2损失函数,平均SSIM和PSNR值都降低。从图可以看出9后生成的解模糊图像取代L1和L2的感知损失函数损失函数太光滑了。总之,在知觉损失函数由模糊变清晰的任务,更适合于L1和L2损失函数。
(一)
(b)
(c)
(d)
(e)
4.5。利用先进的视觉任务来比较去模糊结果
基本的视觉任务,包括图像去模糊,为先进的视觉任务。为了进一步验证我们的方法的有效性,我们将几种方法生成的解模糊图像与真实清晰的图像。尺度不变特征变换(SIFT)表示高斯图像梯度统计领域的特征点,是一种常用的图像局部特征提取算法。在匹配结果,匹配点的数量可以用作标准匹配的质量,和相应的匹配点也可以确定两幅图像的相似的地方特色。图10显示的结果匹配解模糊图像与真正的清晰图像通过筛选算法。可以看出从解模糊图像的数量由我们的方法获得比其他方法更正确的匹配对。
(一)
(b)
(c)
(d)
(e)
(f)
在这个实验中,我们使用经典YOLO[意思65年去模糊图像目标检测(图)方法11)。可以看到,该方法生成一个模糊的图像具有更好的检测结果,更能被探测到的目标。
(一)
(b)
5。结论
盲目的去模糊一个红外图像仍然是一个挑战性的计算机视觉问题。在这个工作中,一个方法基于氮化镓和通道之前歧视提出了红外图像去模糊的问题。不同于之前的工作由模糊变清晰,我们把传统的盲目的去模糊和盲目的去模糊方法基于学习方法。考虑到不同类型的模糊引起的成像设备和成像的运动对象,进行了广泛的实验在不同的公共数据集。实验结果表明,该方法比其他流行的图像去模糊方法更具竞争力的去模糊(主观和客观)质量和效率。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。