文摘
图像配准的特征检测和描述是至关重要的步骤,确定重点和描述它们的后续匹配估计两个图像之间的几何变换参数。最近,已经有大量增加检测算子和描述算子的研究方法,从传统方法深度学习的方法。为了解决这个问题,也就是说,这符适用于特定的应用程序问题不同成像条件下,本文系统地综述了常用的描述符和探测器的人工方法深度学习方法,和相应的原则,给出分析和比较实验。我们介绍了手工制作的探测器包括快,快,ORB,冲浪,筛选,KAZE和手工制作的描述符包括轻快,狂,短暂,冲浪,ORB,筛选,KAZE。同时,我们回顾探测器基于深度学习技术包括DetNet、波浪号,多尺度探测器,SuperPoint,和基于深度学习的描述符包括pretrained描述符,暹罗描述符,升力,三重态网络,SuperPoint。两组对比实验比较全面和客观地代表数据集。最后,我们的结论与深刻的讨论和结论的描述符和探测器选择特定的应用程序问题,希望这个调查可以参考图像配准和相关领域的研究人员和工程师。
1。介绍
图像配准是一个重要的过程,用于两个或两个以上的同一场景的图像对齐采取不同的传感器,在不同的时间,不同的观点,有不同的阐释。它提供的概率融合各种视觉数据用于进一步的研究。关键和计算机视觉中的基本问题,其直接的任务是识别和调整范围广泛的视觉信息从多传感器,从而为后续的研究和应用提供更丰富的可视化表示(1,2]。这种技术用于图像融合增强图像质量(3)、图像马赛克从多个图像创建一个无缝的全景图像(这可能是获得从不同的时间,不同的角度,或不同的传感器)(4),图像分割将图像分成若干个特定区域具有独特的属性(5),和对象跟踪对象的构建完整的运动轨迹(4)以及对象检测发现所有图像中感兴趣的目标和确定他们的位置和类别(6]。
登记的现有方法分为灰度和基于功能的管道(7,8]。灰度图像配准对齐两个图像通过与指定的度量一个迭代过程,优化器和变换矩阵。登记的准确性的图像相似度度量方法是由描述图像定位的准确性和决定何时终止优化过程。终极目标是经感觉到图像的坐标参考图像根据获得的变换矩阵和对齐pixel-to-pixel共同区域。基于功能特性的方法始于特征检测功能描述,然后特性匹配,紧随其后的是一个变换矩阵估计,完成图像扭曲。图像配准中使用的地方特色,包括点,线,轮廓,和多边形等。9- - - - - -23]。很难描述和定位线,轮廓,和多边形结构,关键点是作为图像配准的主要特性。关键点检测的算法,称为一个探测器,设计了提取当地独特的地区,和关键点描述的算法,称为一个描述符,是为了表示检测到局部区域的变形几何不变性,照明,等等,称为描述符。在过去的几十年,探测器和描述符广泛开发。这些现有的方法定义并提出(24- - - - - -33]。最近,由于获得深刻的特性和能力表示从线性和非线性空间通过多层网络,深度学习技术越来越长大了,已经用于每一个图像配准的过程取代传统的算法。
尽管大量的图像配准方法已经开发出来,仍然很难构建一个通用方案实际图像用不同传感器在不同成像条件下。成立的方法,它是用于图像对小变形和耗时。keypoint-based管道,一种特定的检测算子是不变的一种扭曲的形象,所以是检测算子。例如,快速将无效的噪音,模糊和压缩,因为规模不考虑空间和去噪。旋转简短的描述符是无效的,因为定位是不被认为是在建设的过程中描述向量(26]。深入学习取得了巨大的成功在图像识别等计算机视觉,分类,增强和分割23,34- - - - - -43]。然而,它仍然面临着巨大的挑战。直接调整图像对通过深入学习网络将由训练数据的缺乏阻碍了丰富的几何变形。相反,它仍然是一个巨大的挑战,实现端到端学习特性检测,使用深度描述和匹配网络,然后直接输出变换矩阵。
大多数现有的调查评估手工制作的方法,回顾相对较少深度学习的技术应用和发展在图像配准44- - - - - -47]。最近,一些评论涉及机器学习和深度学习用于注册一个进程48- - - - - -51]。这些论文从手工制作的方法没有全面调查最新的方法,只涉及其中的一部分。有一些调查论文全面综述了从手工到深度学习(52,53]。然而,这些论文简要描述、总结和评估现有图像配准方法而不是素描相关的原理和分析算法。
这个调查的动机包括考虑到图像配准的精度;我们报告最新发展要点的探测器和描述符,特别是深度学习技巧。形象对对齐的,问题是如何选择最合适的算法来找到一个当地的特性和如何选择最合适的描述符来表示,导致后续成功匹配。和以前的工作相比,二进制方法和深度学习方法,包括算法的相对分析,和更多的各种各样的场景中使用的实验数据24- - - - - -33]。
介绍了手工制作的探测器包括快速从加速段试验(特性)(26),快(二进制健壮的不变的可伸缩的要点)28面向],ORB(短暂)(30.),冲浪(加速健壮的特性)32),筛选(关键点的尺度不变特征变换)31日],KAZE [33)和手工制作的描述符包括快(二进制健壮的不变的可伸缩的要点)28),狂(快速视网膜关键点)29日),简短(二进制健壮的独立的基本特性)27),冲浪,ORB、筛选和KAZE。与此同时,我们审查探测器基于深度学习技术包括DetNet [23),波浪号(42),解除(43),多尺度探测器(36],SuperPoint [39)和基于深度学习的描述符包括pretrained描述符(34],暹罗描述符[37],电梯、三联体网络[35),SuperPoint。这些方法都列在表中1,规模空间旋转不变性,列出了照明。哈里斯和快速只探测器;快,ORB,筛选、冲浪和KAZE探测器和描述符;短暂和怪物只是描述符。在应用程序中,可以采用相对结合具体需求;例如,快速的组合与短暂的(12]。
本文组织如下的提示。部分2介绍了特征检测的方法。部分3给出了特征描述的方法。部分4给出了实验数据集、评价指标和匹配方法。节5,我们对数据集进行对比实验,包括各种各样的场景类型和转换,目前的评估,并讨论各种方法的适用性的评估值。最后,部分6总结和讨论了未来的发展方向探测器和图像配准的描述符。
2。特征检测
基于特征的图像配准的低级处理作为计算机视觉应用遥感观测的重要组成部分,辅助航空和天文学观察。检测本地特性的图像配准由区域描述,匹配,估计转换模型,将两个图像。检测和描述的步骤是至关重要的,因为它决定是否可以执行后续处理。地方特色,包括点、线、曲线,提出了边缘和轮廓,用于12,15,18]。然而,点(又名要点或兴趣点),作为最受欢迎的特性,用于图像配准,因为他们很容易定位和描述与其他特性。因此,探测器和描述符点过度研究[25- - - - - -33]。
良好的探测器是用来找到稳定的和独特的当地区域图像。此外,这些探测器仍然找到或确定当地的区域;即使他们已经改变了观点,照明,规模、模糊和压缩。传统的设计方法是根据之前的数学理论,叫做手工操作符(16,25,33,44,45),分为角落,二进制的角落,和blob。角点,定义为两个边缘线的相交位置,实现由梯度计算(Harris)或比较像素的模板(25,26,28,30.]。快,计算替换为一个二进制像素比较(25- - - - - -30.]。blob探测器是要找到一个最大尺度空间由difference-of-Gaussian过滤器(31日)或非线性过滤器(33]。最近,机器学习和深度学习技术扩展到检测特征点(34,54- - - - - -59]。一些工作使用pretrained网络将图像分解为功能块要点(44]。与此同时,三合网络训练来确定当地的区域是一个有趣的点(35,60]。在下面,我们将介绍这些特性从手工制作的探测器可训练的。不同于其他作品中,我们不仅调查了相关的算法,也给的解释原则的相关算法和他们的优点和缺点的比较实验和见解49,50]。
2.1。哈里斯角落探测器:
基于常见的检测算法主要分为梯度探测器和灰度探测器如哈里斯和快速的介绍如下。哈里斯c和提出的哈里斯角落探测器米史和预识别候选点作为角点梯度的计算。是不变的图像旋转,仿射变换,强度和角度变化的匹配特性(24]。该方法包括三个步骤。第一个是根据数学计算相应的梯度的定义。第二个工作是选择候选角点与指定的阈值。最后,一个地区采用抑制消除离群值。哈里斯探测器被定义为 在哪里是一个平方差异矩阵,代表一个卷积操作,代表一个卷积内核称为过滤窗口,输入图像的梯度图像。获取计算效率,响应方程(2)是用于替换矩阵的特征值的计算米: 在哪里k敏感性系数和常数通常0.04。当响应高于指定的阈值,检测到一个角落里。哈里斯探测器具有旋转不变和照明,但对噪声敏感,梯度计算很容易受到噪声(61年]。它不适合对退化的图像噪声。
2.2。快速:从加速段试验特性
快角落探测器,大肠Rosten和t·德拉蒙德提出的,是一个提高探测器的哈里斯二进制计算和机器学习26]。这是非凡的效率。候选人知识产权被确定为一个角落点如果有一组相邻像素的圆模板都比候选像素的强度吗知识产权加上一个阈值t,或者比知识产权−t(32,62年]。圆的半径模板可以是任何大小或规模的理论。原来的算法3随着半径的值,检查12像素周长。快,只检查所得的像素的位置1、5、9、13个,如图1。如果三个之间的绝对差异知识产权每个1、5、9、13不到知识产权−t或者超过知识产权+t,知识产权是一个候选人的角落。否则,它是排除在外。
机器学习在计算机视觉中的应用,快速结合决策树来区分。增加稳定,速度更快62年增加一个圆形模板的厚度。泛化在不同环境中,采用决策树的集合在快速检测器(63年]。虽然使用机器学习来加快检测加速的快速检测,database-dependent快。存在的问题作为探测器,而不考虑多尺度空间,快速对噪声很敏感,模糊,压缩等。
2.3。筛选:关键点的尺度不变特征变换
blob特征点筛选,由劳提出解决图像旋转,仿射变换,强度和角度变化的匹配特性(31日]。筛选算法由四个步骤组成。首先,使用multi-difference-of-Gaussian,我们构造一个尺度空间的子图象是由减去相邻图像过滤高斯滤波器。操作被定义为
其次,关键点后被确认通过比较一个像素邻国,准确定位,利用三维二次函数被定义为
当偏移量计算大于0.5,最后的关键点位置需要正确和偏移量添加。消除边缘响应和低对比度关键点也在这一节中实现。第三,一个关键点的方向 被定义为
的方向直方图36箱覆盖360度范围内形成的梯度方向区域周围的点。对于匹配的稳定性,只有约15%的点被分配,和多个方向的直方图值在80%的最高峰是必需的。最后,当地的一个关键点是分成44=16个分区与8每个方向直方图的值。因此,关键点的描述符向量由168 = 128特性值。
2.4。冲浪:“骗健壮的特性
从筛选冲浪被修改。然而,冲浪采用积分图像计算二阶海赛矩阵。空间是由规模升级迭代滤波器的大小而不是将采样过滤图像。确定关键点的333社区规模连续层的空间,并为进一步nonmaximum最大保留。圆形半径为6 s′的邻居周围的关键点作为区域小波响应值的累积操作执行每一个60度。的最大总结响应分区定义了关键点的方向。最后一步是构造描述向量。当地一个相同的正方形区域关键点的方向和大小的20倍年代(年代这个关键点的尺度)是用于生成描述和分成44 subsquare地区。 , , ,和由高斯过滤( )在每个子区域分别总结。因此,描述符向量的一个关键点是164 = 64维SURF-16记录。几个冲浪已经开发的扩展版本根据社区的大小,如冲浪- 72和sruf - 144。冲浪是不变的规模、旋转、光照,速度比筛选[32]。
2.5。KAZE特性
KAZE提出的筛选是一个改进版本Alcantarilla等。旨在避免模糊边缘和细节丢失在线性尺度空间构造高斯滤波器的非线性尺度空间是由非线性扩散滤波。快,代谢(加性算子分裂)是利用加速计算(54]。描述的非线性扩散滤波 在哪里t是一个比例因子和div传导函数对应于高斯滤波器用于筛选。三种传导功能已经被使用在不同的细节和剩余的存在 在哪里储备高对比度的边缘,先保留区域宽度大,g3可以有效地平滑区域和保留边界的内部信息。KAZE可以检测比SIFR从理论要点。改善视力KAZE使用先进的数值方案称为快显式扩散(美联储)嵌入在金字塔框架高度加速特征检测的非线性尺度空间(64年]。
2.6。可学的探测器
2.6.1。的背景上优于探测器
深度学习在计算机视觉和图像处理方面取得了快速进展如对象检测、图像识别、图像分类、图像增强。深度学习可用于图像配准的方法分为灰度的方法和基于特征的方法。在古典深神经灰度的方法,一般的解决方案是,深度学习作为一个迭代器来优化之间的损失函数参考图像和浮动图像估计变换函数。当损失值达到所需的范围内,获得变换矩阵(19,65年- - - - - -70年]。快、强化学习和监督转换也被用来加快收敛(6,60,71年- - - - - -74年]。改善变形不变性,半self-supervised学习也尝试使用甘斯和autoencoder [75年,76年]。然而,灰度的方法不适合大位移问题处理的基于特征的方法。
学习计划已经使用基于特征图像配准检测特性,描述特性,来估计图像之间的转换。快速检测器首先使用机器学习技术分类像素点到一个角落点或没有构建描述符(26]。可重复性高,采用了模拟退火算法的优化。值得注意的是,角落里发现使用这种学习算法依赖于训练数据,不能涵盖所有可能的角落。深度学习的发展,马等人回顾了和证明,cnn是主要用于深网体系结构在特征检测,描述和匹配与其他模型相比49,61年,77年,78年]。深上优于检测器的原理构造响应地图,然后搜索要点,这是可微的方式训练和图像之间的几何变换的约束下49,61年,78年]。这种类型的方法可以分为监督,self-supervised [42,43),或无监督方法39]。在本节中,我们介绍代表上优于探测器和素描的主要原则。
2.6.2。协变DetNet:学习功能
Lenc和当地协变Vedali提出无监督学习的方法特征探测器(23]。声称所有常见的和许多稀奇探测器可以理论上可以自动学习和协方差约束下的回归量的几何转换。本文表明,不同的探测器可以转换他们协变的特点。这项工作学习两种互补类型的探测器:一个角落探测器和一个定位,相应的方差约束方程(8)和(9): 在哪里 补丁和转换和优化是在深神经网络的参数吗 。 在哪里 估计的旋转是一个深层神经网络吗 。
本文比较了学会了探测器快(26),difference-of-Gaussian探测器,筛选31日),哈里斯角落探测器(25),黑森点探测器(32]。作者声称“角落探测器”网络训练称为DetNet明显优于其他方法在一个规模,和旋转ROTNET理智比筛选定位检测器。虽然,单一的工作只完成了培训网络和原始模型检测器,如平移、旋转、表现良好,对于实际的应用程序,检测功能复杂的变换,在一片检测多个特性,需要做大量的工作基本方法。罗等人提出的另一种无监督学习方法和命名ASFeat探索局部形状信息学会准确检测特征点(79年]。
2.6.3。波浪号:暂时不变的探测器
Veredie等人提出了暂时不变学到检测器(波浪字符),检测可重复的设计要点与照明的巨大变化,图像的成像条件是不同的一天,天气和季节42]。首先,图像是用来创建训练集由捕捉收集一系列户外摄像头捕获的图像在不同时期的日子,在很长一段。然后,筛选用于检测和定位的位置检测要点,反复在同一位置。最后,训练集包括积极的和消极的样本。正样本的补丁从所有捕获的图像,同时包括关键点在哪里发现或未被发现,以检测的平均值为中心,创造的负样本提取匹配远离摸清。
一个分段线性回归量训练预测得分地图,其值大于阈值,可以确定为关键点。为了区分位置接近或远离关键点和执行重复性的回归量随着时间的推移,三个术语定义的目标函数与分级的损失 ,形状规则化损失 ,和时间正则化损失 。目标函数最小化在三项参数写的回归量如下:
结果表明,使用分段线性函数的回归量给始终比另一种更可靠的要点回归量,然后知道关键点检测器如冲浪和女士(32,80年]。然而,波浪号只仍然是一个最先进的检测方法存在光照变化,但它是有限的情况下,只有摸清一个常见的规模。
2.6.4。电梯:学习变换不变的特性
易等人试图学习检测,定位估计,和功能描述在一个统一的管道,包括三个卷积神经网络(cnn)单独训练按照相反的顺序,但为了表现良好的cnn试图优化不同的目标(43]。他们声称可以被认为是可训练的筛选和优于艺术的状态具有良好的泛化性能。培训过程首先学到的描述符,然后描述符的方向估计,最后探测器。在本节中,我们首先介绍学习方法的探测器,和学习方向估计和描述符将勾勒出部分3。电梯是一个改进的波浪号学会强劲检测功能尽管照明的变化。然而,学习只进行一个数据集没有观点和规模的变化。第一个改进涉及创建训练数据集通过收集图像集等观点的变化在伦敦皮卡迪利广场,罗马论坛在罗马从[81年]。第二个改进涉及采用softargmax函数,定义在方程(11),地图定位特征点的分数 ,允许最大发现除了固定的SfM (structure-from-motion)。然后,补丁 裁剪,然后用作输入方向估计量:
第三改进涉及采用暹罗培训体系结构有四个分支,以作为输入补丁的四胞胎之一(P1,P2,P3,P4)和最小化的重新定义了损失函数的总和 和 ,在哪里是积极的样本,负样本有不同的特色,只是作为一个负面例子没有特色训练检测器。
尺度不变性的方法不了解探测器的培训过程。在运行时,探测器的重复性多尺度获得通过应用在不同分辨率图像的尺度空间中获得分数的地图。尽管该方法提出了一个有效的策略训练每个组件分别,导致共同运行,进一步反对调查执行方法在整个图像而不是preextracted补丁。尺度不变性的探测器不学习培训。
2.6.5。多尺度检测器:学习型方法检测多尺度要点
哈尼(35)提出了一个方法由两个独立的网络:检测网络和描述网络。提前两个网络训练独立。检测网络训练要点、检测和描述网络训练比赛的关键点并给予描述。这个过程类似于传统基于关键点的图像配准方法。在本节中,我们回顾了网络训练了探测器的一部分。
不像电梯,检测多尺度要点的能力是网络而不是运行时学到的。两个主要任务已经完成,一个是建立一个多尺度数据库,另一个是建立多尺度上优于检测网络。大量的数据集使用Structure-from-Motion从三维模型中提取(SfM) [82年)确定好重点和生成匹配补丁在五个尺度: 。生成的补丁集P表示 ,在哪里是一个补丁原始像素,表示补丁的规模,是一个标签。检测网络学习非线性函数能够识别一个补丁是否包含一个关键点。这个网络的框架呈现在图2它包含一个序列的卷积和汇聚层,尺度分支机制,如图2是由蓝色箭头表示,其次是两个完全连接层分类。此外,在这个工作中,大规模的数据集是由使用structure-from-motion从三维模型中提取补丁。
2.6.6。SuperPoint: Self-Supervised兴趣点检测和描述
与提升,SuperPoint构造self-supervised完全卷积框架,实现了完整的兴趣点匹配的管道,也就是说,检测、描述和匹配(7]。不同,这个方法执行全尺寸图像像素级计算机的兴趣点和相关描述符在一个传球前进,而不是依靠preextracted补丁。此外,大数据集pseudoground真理的兴趣点定义和监督由探测器本身,而不是人类的注释。首先,要克服歧义在兴趣点的位置,合成数据集创建从简单的几何形状与三通接头等准确的兴趣点位置,L-junctions,丁字路口,小椭圆的中心,线段的结束。合成数据集被用来训练基地探测器。然后,提高自然图像上的探测器可重复性大角度的变化,对应的适应是为了提高探测器的几何,这表示一个关键点可以检测图像进行各种几何变换。最后的训练数据集是可可上创建图像的技术对应的适应(8]。图像和相应的要点是由对应的适应改变了的,然后聚合生成所需的数据集。最后共同训练了一个完全卷积神经网络两个分支,计算兴趣点的位置和描述向量一个传球前进与图像作为输入。它是呈现在图3。
3所示。功能描述
检测后,剩下的构造一个适当的描述符,描述和识别检测区域。许多技术已经开发的任务。最简单的描述符是数值向量的局部特征区域。然而,它是耗时和敏感视图变换。直方图的像素强度、梯度和方向被用来构建描述符向量几何变形导致的不变性和照明16,25,27- - - - - -32]。速度,二进制文件描述符探索通过比较像素双采样的局部特征区域(26- - - - - -30.]。在本节中,我们回顾描述符从手工到可学的和素描的基本原则。
3.1。基于局部梯度描述符:筛选、SRUF KAZE
Gradient-based描述符已被广泛用于图像配准的效率和不变性的方差照明,旋转和尺度。基于最具代表性的梯度描述符是筛选、冲浪和KAZE和改进与他们有关,也与探测器同时联合设计(32,33,44]。
在筛选描述符向量构造相同的尺度空间探测器,并发现关键点的当地,在当地的一个圆形区域,分为44=16个不重叠的分区支持形成最终的描述符。在每一个分区,每个方向8像素计算,构造和梯度方向直方图显示16个分区与8位垃圾箱;然后,执行标准化的光照不变性。筛选方面取得了举世瞩目的性能检测和描述与其他手工制作的方法。然而,整个处理耗时。改善幻影,即冲浪,探讨积分图像取代海赛矩阵和使用小波响应近似梯度计算,节省计算。描述符,64维向量,构造了一个方形的当地检测到关键点,分为16 subsquare独立区域。有各种版本的冲浪根据社区的大小,如冲浪- 72和sruf - 144。冲浪不仅是规模不变,旋转,和照明,但也比筛检测和匹配利用卷积积分图像,利用小波响应来完成定位任务,不管规模(30.]。
KAZE的筛选是一种改进的视觉结构的非线性尺度空间探测摸清避免模糊的边缘在过滤的过程中。为检测到的特征点描述符的矩形区域 以分为的次区域 条件的大小 有重叠 。对于每一个亚区, 计算,然后用高斯加权( ),然后根据主导方向旋转。最后,描述符向量归一化到一个单位向量在长度为64的不变性的照明(32]。modified-local差异提出了二进制(M-LDB)描述符高加速特性描述非线性尺度空间。这是一个规模和旋转不变和低存储需求84年]。
3.2。简单:二进制健壮的独立的基本特性
灵感来自于快速检测器,提出的简短描述符迈克尔Calonder旨在加快匹配和减少内存消耗。首先,它使用一个简短的二进制串的局部特征区域。描述符是简单匹配快速计算汉明距离(27]。很多方法加速等功能描述和匹配通过减少维度PCA(主成分分析)85年和LDA(线性判别嵌入)86年),设计一个简短的描述符来替换原来的冲浪等筛选[32)或直接binarizing描述符如要点binarizing整个图像(24]。与这些方法相比,短暂的简短的描述符为基础,通过比较样本像素的强度对取自附近的候选人。
它包含采样模式、平滑补丁和测试取样位置的反应对建立一个二进制向量。拐角点,一个当地的补丁以本身作为随机抽样样本点对的空间 。一个二进制向量描述符编码通过比较两个点的完整性根据以下方程: 在哪里 和 是抽样。由二进制文件描述符根据方程(比较结果4)。在最初工作的申请人,实验显示只有256位或128位好:
作为第一个二进制描述符提议,短暂的不涉及具体模式和补偿措施,探测器很简单,对噪声敏感,方向,和规模62年]。
3.3。快:二进制健壮的不变的可伸缩的要点
精度和速度是永恒的追求先进的特征检测和描述。轻快的结构多尺度空间抽样检测和设计模式取向,该尺度和旋转的不变性(28]。首先,尺度空间金字塔是由将采样原始图像与4个八度和4 intraoctaves每个定位中间层次和(如图4)。9 - 16快探测器分别应用于每个八度和intraoctaves来识别潜在的角点。发现连续图像特点不仅平面,而且在规模维度,使用二维二次插入局部三层的亚像素位置和使用一维抛物线沿着规模轴插入导致规模细化。Nonmaxima抑制进行了局部地区实现噪音的不变性。
第二,采样模式不同于简短的取样位置对所在地同样圈同心的关键点和高斯平滑的内核,以避免混叠效应。图5显示了60个采样点的一个角落里的位置点。此外,为了实现旋转不变性,角点的模式方向被定义为方程(14)。 和 代表取样位置对强度: 在哪里 是当地的梯度和是长距离点对的子集,它被定义为方程(15)- (17):
而强度不同和大于 ,这一对和分为长途子集吗 。相应地,短途子集的定义是 。 所有取样位置对的集合。旋转的采样模式 在拐角处,每一位构造一个二进制描述符生成通过比较点的强度差异对 就如下:
最后,轻快的描述符编码为512位是一种改进的简短(27]。在实际的登记工作,快速检测器和简短的描述符共同使用。然而,不变性的性能计算没有考虑噪声原始论文,之后将在实验中已经证明了这一点。
3.4。ORB:面向快速和旋转短暂的特性
ORB是快速检测器和改进的简短描述符(30.),这被视为替代二进制描述的筛选和获得更好的效率,可用于实时应用(30.]。图像对中良好形象的条件下,它还显示了卓越的性能。改进是增加的方向不变性描述。ORB利用强度质心测量角方向。一块特征点的质心知识产权提供的时刻计算如下:
方程(19)是一个功能的时刻补丁。方程(21)是一个功能的重心。ORB是关键点的坐标(x, y)乘以补丁的方向实现旋转的不变性:
低方差使凸起的模糊匹配。恢复方差和减少相关的损失,一个贪婪的搜索已经被用于de-correlating导致更好的性能在匹配29日]。ORB计算速度快和匹配精度高,这使它另一种筛选和冲浪。较短暂,ORB使用静力学的时刻来实现旋转不变性,不是采样像素对。
3.5。狂:快速视网膜关键点
亚历山大提出Alahi和拉斐尔奥尔蒂斯,灵感来自于溶血性尿毒综合征(人类视觉系统),怪物是一个二进制描述符包括视网膜抽样模式类似于视网膜神经节细胞,不同大小的重叠接受字段,而且描述符,和定位机制,类似于快(29日]。
首先,狂不同于短暂和轻快的采样模式。短暂的使用一个圆形取样模式随机样本点对各向同性高斯分布,导致点对分布相当的圈同心。然而,怪物使用视网膜的样本采样网格模拟人类视觉系统的机制。同时,大小不同的高斯核函数是用来光滑的采样点的附近。采样模式如图6。红圈表示接受域。其次,狂点对选择的低相关性和高方差的支持。512双足以描述一个关键点,验证了作者。最后,模仿HVS眼跳丢弃候选点代表90%的粗搜索信息,显著提高匹配效率。由当地梯度的方向狂估计从接受选择对称,这是不同于快速和简单。狂适合与尺度的差异图像对齐,方向,在某种程度上和噪音。
3.6。可学的描述符
3.6.1。基于Pretrained网络描述符
当损失值达到所需的范围内,获得变换矩阵(12,13,65年,70年,87年]。快,也已实施强化学习和监督转换加快收敛(60,71年- - - - - -73年]。在这些方法中,一些方法使用pretrained网络提取特征点,然后使用传统方法来匹配。规定的其他方法训练网络实现图像对之间的变形提出(34,54,59,88年]。然而,这些方法解决图像配准从全球完整性相似或部分特征点,不是完全从探测器和描述符。
在本节中,我们介绍了深度学习技术,用于检测重点和描述图像配准。在[45),杨等人提出了一个模型基于网络VGG16 pretrained深。它从层提取补丁pretrained VGG网络作为特征向量,并使用MLESC算法匹配两个图像之间的补丁。补丁的矢量描述不考虑照明,旋转,和噪音。所以,映像的方法是唯一可行的对翻译的差异。作者的实验已经证明了这一点。我们尝试在图像对不同角从显示的公共数据集和结果图7。如图7 (c),该方法失败,所以它不适合使图像对与旋转的方差。
(一)
(b)
(c)
操作。暹罗描述符:歧视学习深回旋的特征点描述符
Simo-Serra et al。37)也提出了一个简单的示意图的暹罗两个相同的分支组成的网络卷积神经网络学习的歧视表示本地补丁。工作声称学网络可以生成一个128 - d向量来描述对应的特征点有区别地,可作为筛选可靠的选择。然而,暹罗网络的结构非常简单,这是一个三层网络,如图8。使用L2范数作为两个向量之间的相似性度量,铰链的损失 定义如下:
实现一个描述符noncorresponding补丁远和相应的补丁近,这项工作的主要创新体现在样本选择在训练过程中,提出了和困难样本的方法挖掘。随机选择负样本很容易 等于零,导致培训成为无效。在每个时代,补丁后对从一组通过网络和计算他们的损失,他们损失小的子集比指定的硬阈值通过网络backpropagated更新权重。同样,阳性样品,困难的是那些相似块样品,但是很大的距离。在培训过程中,当距离比硬阈值 ,数据保留继续训练网络。拟议的新方法获得的正面和负面的矿业大性能描述。
3.6.3。三联体网络:描述符组成的暹罗网络
哈尼族提出了一个网络架构,用于多尺度检测,另一个三联体暹罗网络体系结构要点的描述(35]。在部分上优于探测器被描述2.6.5。描述符网络组成的三联体暹罗网络学习函数,可以决定是否特性对匹配。这个网络的框架如图9。锚块,积极的补丁,和消极的补丁是美联储通过相同的卷积网络计算其嵌入特征向量,分别;然后,两三个向量之间的欧氏距离计算。火车关键点描述网络,损失函数被定义为方程(24)决定是否两个补丁可以匹配:
相应的实验证明了哈尼的方法的有效性。他的实验结果表明,它优于DeepCopare [89年],MatchNet [38),并与深度学习作为一个迭代器的方法。形象对大观点差异,这种方法变得越来越无效的增加差异。作者的解释是,这很大程度上要归功于训练数据集不同类型的图像。然而,这项工作仍然显示了有前景的结果的深层网络图像配准的描述符。
3.6.4。描述符的提升:学会变换不变的特性
电梯是一种新型的深架构,包括探测器、方位估计和描述符。在实践中,是不可能培养一个完整的架构为每个组件有不同的目标。正如上面上优于探测器已经介绍的,在这一节中介绍了剩下的两个项目。电梯是一种改进的愿景的描述符(43]。实现不同角度不变性,样本补丁对包括补丁和旋转补丁被添加在训练数据集。运动是由结构的方法。暹罗架构描述符包括训练的每个人都是一样的(三个分支43),以作为输入一个三联体补丁:和是积极的样本来自同一个物理点吗负样本来自不同的3 d点。的参数网络的学习通过最小化补丁对损失的总和 被定义为
描述符训练后网络培训提供取向的取向估计量最小化的距离 之间的描述 向量的不同的看法相同的3 d点:
最后,训练有素的描述符和取向估计训练检测器用于进一步的性能。因此,这项工作提出了一个有效的战略网可以训练成一个统一的网络端到端在最后一步。
3.6.5。SuperPoint: Self-Supervised兴趣点检测和描述
SuperPoint [38]self-supervised框架构造训练兴趣点探测器和描述符,适合大量的多视图几何问题在计算机视觉39]。构建合成数据集训练基地探测器网络称为魔法点,采用对应的适应提高魔法的普遍性点真实图像,与基于块的神经网络等,这种模式操作全尺寸图像对和提取兴趣点的位置,相关的描述符,和匹配结果。最后共同训练了双分支”完全与图像卷积神经网络作为输入。描述符网络如图10。
描述符包含学习部分和nonlearned部分。学习部分的第一输出semidense网格描述符,然后,在nonlearned的部分,它执行插值,然后L2-normalization单位长度。失去的和两个中间损失:一个用于兴趣点探测器, ,和一个描述符, 。
最近,有很多研究描述符。大多数这些方法包括暹罗,三,或者multibranched卷积网络学习非线性映射由CNN表示相应优化区分双或noncorresponding补丁,如LF-Net [40]和RF-Net [41]。LF-Net利用列车网络学习从头管道设置在两个分校的局部特性的一个分支。方法是在室内和室外训练数据集,和优越的性能比的状态达到艺术上的稀疏特性匹配的两个数据集。RF-Net LF-Net的改进,集中在两个方面的工作。首先,接受特征图谱保留低级构造规模和高层次的规模更有效地检测要点。其次,引入损失函数项,邻居面具促进培训补丁选择。
4所示。实验设置
4.1。数据集
我们在两个数据集评估这些探测器和描述符。即公开自然光线收集数据集和专业的多通道数据。图11显示了公共数据集的例子属于Mikolajczyk [36,90年)(https://www.robots.ox.ac.uk/∼vgg /)。五种形象转换包括:压缩(图(11日)),照明(图11 (b)),图像模糊(数字11 (c)和11 (d))、规模变化(数据11 (e)和图11 (f)),和角度变化(数据11 (g)和11 (h))。每一个测试图像序列包含6个图片。第一图像,每个后续图像形式的一对图像是一致的。图像的方差对逐渐增加。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
第二个数据集包括三个多通道图像对。第一个从Dronehub (https://medium.com/dronehub/datasets - 96 fc4f9a92e5)是由低空视觉和热航拍图像被小型无人机。第二从陆地卫星(https://serc.carleton.edu/eyesinthesky2/week11/get_to_know_multispectral_imaging.html)由不同的乐队由卫星拍摄的图像和使用调查森林砍伐。第三从SDO(太阳动力学观测台)(https://www.nasa.gov/mission_pages/sdo/main/index.html)和NVST真空太阳望远镜(新)(http://english.ynao.cas.cn/ti/nvst/),由不同波段图像,是由SDO天文台和NVST天文台,与不同的分辨率,旋转和尺度。图12显示了三组例子。图12(一个)是一个样本对红外和可见光图像旋转变换。图12 (b)是一对不同波段的遥感图像。图12 (c)是一对异构多通道天文图像。
(一)
(b)
(c)
4.2。的评估
比较各种探测器的性能和描述符,我们测试的关键点是如何正确地两个图像之间的匹配。精确匹配的比率称为精度作为评估被定义为方程(27中描述)和(85年]: 在哪里是对应点对的数量在粗匹配和获得吗正确的匹配点对。这个精度由两项计算。首先,匹配特性被发现的两个输入特性集(31日,47,90年,91年],它被命名为粗匹配。第二,正确的匹配选择结果的第一个约束指定的转换,和剔除异常值MSAC (M-estimator样品一致)算法(30.,83年]。
4.3。匹配方法
我们将实验分为两个部分。首先,我们进行实验在同一描述符与不同的探测器。这是探测器的性能进行比较。第二,我们进行实验在同一检测器与不同的描述符。这是比较的性能描述符。有三种匹配方法,即阈值,近邻,近邻距离的比例。阈值法确定一对匹配只有在它们之间的距离低于一个阈值。使用这种方法,描述符有多个匹配。近邻的方法决定了一对匹配只有在它们之间的距离小于指定阈值和一个描述符是近邻。使用这种方法,描述符有一个匹配。 The third method determines a matching if the distance ratio between two vectors is low at a threshold, resulting in a descriptor which has multiple matchings. Because of the distinctiveness of descriptors and the application in actuality, we select the nearest neighbour as the correspondence measure in the experiment.
虽然各种方法可供公认的特性对应匹配当地的向量表示,一个简单的匹配策略可能会导致大量的不正确的匹配。因此,一个健壮的、准确、高效的不匹配需要消元法来消除尽可能多的不匹配,在一个特定的几何约束。删除不匹配是最后一个重要的任务在整个图像匹配的管道。一般来说,除不匹配方法可以分为resampling-based [92年,93年),非参数模型(94年- - - - - -96年和放松的方法30.(匹配)和学习64年,97年]。
RANSAC和MSAC代表resampling-based方法,通常用来消除异常值在图像配准30.,83年]。最近,resampling-based方法已经进行进一步研究[98年,99年]。然而,其中的一些被广泛用于图像配准,也许是因为稳定运行时,和其他因素One hundred.]。它是相同的其他两种类型的方法。本文集中于探测器和描述符,这些方法的引入并不发达。
5。实验结果
5.1。探测器的对比试验,
探测器确定局部区域是另一个关键点。我们比较他们的性能测试的正确检测到的特征点匹配精度。公平的比较,我们使用冲浪作为所有检测实验的描述符并使用RANSAC算法来消除异常值在指定的几何约束。探测器包括角落(Harris),二进制检测器(快速、快),旋转二进制检测器(ORB),线性尺度空间的尺度不变的检测器(筛选和冲浪),非线性尺度空间的尺度不变的检测器(KAZE) DetNet,波浪号,多尺度探测器,SuperPoint。我们两组实验数据集。一个是公共数据集如图11,另一种是multimodel数据集,如图12。
5.1.1。在公共数据集实验的结果
图(13日)显示每个探测器的匹配精度随压缩。压缩时的曲线向下稍微增加,这意味着探测器都受到压缩的程度。同样,图13 (b)显示了光照变化影响探测器。如图(13日)和图13 (b)ORB和KAZE执行比其他手工的识别要点与方差的图像对光照变化和压缩变化。可学的探测器包括DetNet、电梯、多尺度波浪号,SuperPoint取得高分的曲线顶部的定位图。提出了波浪字符检测要点在急剧变化的天气和照明条件下可靠地。电梯实现类似于波浪号探测器,方位估计和描述符在一个管道。不断,SuperPoint升力的进一步改进版本涉及合成训练数据集和对应的适应技术,以提高检测的准确性。所以,他们都表现良好和密切。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
数据13 (c)和13 (d)显示每个探测器的精度不同的模糊。模糊增加时,曲线迅速下降,这意味着这些探测器很难处理与高度的图像模糊。图13 (c)表明,ORB得到精度超过50%的纹理图像和模糊。图13 (d)显示KAZE得到精度超过60%的结构化图像对。我们可以得出ORB和KAZE更专业检测关键的变化之间的模糊图像。很明显,学会了探测器明显优于手工制作的探测器作为多个卷积层为检测提供更多的功能空间。尤其是SuperPoint分数比其他方法训练成千上万的图像,由室内、室外,合成数据集。DetNet、多尺度、波浪号和电梯显示更加稳定和不变模糊的方差比手工制作的探测器。
数据13 (e)和13 (f)显示探测器与旋转和尺度变化的结果。曲线下降时,旋转和尺度增加,这意味着这个检测器很难处理图像不同尺度和旋转。结构化场景如图13 (f),曲线下降迅速,不到30%在最后的图像。最严重的情况是哈里斯未能检测第三图像局部特征区域对(第一图像和第四形象是第三条)。在图13 (e)的情况更好的纹理场景除了哈里斯失败。从数据13 (e)和13 (f),我们得出这样的结论:ORB、筛选和冲浪更加稳定和健壮的规模变化比其他探测器或旋转。然而,可学的探测器比手工制作的探测器在进动和稳定。只有多尺度检测器,它不考虑学习过程中的旋转,导致较低的精度比其他可学的探测器。
数据13 (g)和13 (h)显示探测器的结果,不同的结果随视点。曲线显示所有低,精度迅速下降。在图10(g), ORB得分最高的只有24%。结果是更糟糕的是在图13 (h)。匹配失败在处理第四图图像对13 (g)第三个图图像对13 (h)。所以,这是一个巨大的挑战为单个探测器识别要点,可以从图像正确地匹配对观点的改变。SuperPoint、LLFT和多尺度探测器比其他可学的探测器躺在合成训练数据集,能把知识从真实图像的合成数据集,使用单应性适应提高探测器的能力。从图中的结果13很明显,学会了探测器分数强烈匹配精度,既证实了发现白菜等。101年和易建联et al。[32]表明,可学的探测器比手工制作的方法。
5.1.2中。多通道图像实验的结果
我们实验三对无人机的多通道图像,陆地卫星,SDO和NVST精度测量和记录在表中2。角和规模的差异存在于无人机图像对。除了KAZE,其他手工方法都失败。表中的“失败”2意味着正确的匹配要点小于4,也就是说,所需的最低估计变换矩阵。
陆地卫星图像,所有探测器都足够完成特征点的图像配准。因为两个天文图像的图像对具有巨大的差异在分辨率和旋转角度。除了KAZE和筛选,其他手工探测器都会失败。从表2,我们得出这样的结论:KAZE multimodel图像是最健壮的手工制作的探测器。
然而,所有可学的探测器取得了良好的检测结果。三组的图像对,可学的探测器都是有效的检测器足够的特征点来完成注册。从表2,多尺度探测器性能下降与旋转方差检测图像对。提升应用旋转估计和SuperPoint使用单应性显示良好的代检测实际数据。
5.2。对比实验的描述符
5.2.1。在公共数据集实验的结果
在本节中,我们评估的性能描述符的几何变换不同的场景类型。上面了,短暂的,轻快的,怪物,和ORB属于二进制描述符,筛选和冲浪属于线性多尺度空间,KAZE属于非线性多尺度空间。这个实验包括压缩、照明、模糊和观点的变化来说明每个描述符的适用性。根据前面的实验和/或有效地检测和比较,我们选择ORB作为探测器中所有描述符匹配实验。轻快的,狂,短暂,海浪,组织,KAZE,筛选,Pre-Net, Siamese-Net, Triplet-Net,电梯,SuperPoint评估和比较,ORB的检测结果。
图(14日)显示7手工描述符的匹配精度JPEG压缩的变化。曲线逐渐减少与增加压缩,即。,所有描述符都是影响工件。怪物获得最好的精密得分增加压缩程度。ORB和快速获得相当大的性能。筛选的曲线下降最大,显示了该描述符甚至比其他人更受工件。如图(14日)有效地,所有描述符可以表示特征点。可学的描述符,只有Pre-Net分数最低的只有当地区域的矢量地图的功能。SuperPoint、电梯、Siamese-Net Triplet-Net表现良好在退化图像压缩和照明。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
图14 (b)显示了光照变化的结果。图像呈现在图14 (b)。曲线非常接近,慢慢减少,这意味着所有描述符有高水平的不变性照明的变化。短暂,轻快、ORB和怪物使用二进制串表示当地的功能区域。短暂的是第一个二进制描述符,是简单的。轻快、ORB和反常的短暂的改善更具有旋转和尺度不变。没有变化的旋转图像如图14 (b)。描述符不需要描述它,所以短暂的匹配结果,轻快,ORB,怪物接近。SuperPoint和提升在室外训练图像序列,表现出一个巨大的光的变化,他们取得高分,稳定照明的变化。可学的描述符的性能在很大程度上是受训练数据的数量和他们的框架。可学的描述符都表现良好光照变化对大量数据集训练。
数据14 (c)和14 (d)显示不同的描述符,随模糊的结果。曲线匹配的精度都是减少与增加模糊,因为模糊低当地独特的功能区域。二进制描述符得到密切的结果除了ORB突然变异之间的第一个和第五个图片。纹理的场景,快速获得最佳匹配分数作为样本模式更能代表局部区域图的特点14 (c)。结构化场景,怪物获得最好的匹配分数,因为样本模式模仿人类的视觉系统有助于区分本地区域。可学的描述符都取得更高的分数作为多级旋转,可以从多尺度提取特征,这有助于识别特征点。
数据14 (e)和14 (f)描述符的匹配结果表明随旋转和规模。我们比较所有描述符ORB的地区。如图14 (e),短暂的最低分数和失败在第二图像对。在图14 (f),短暂的失败。短暂的结果是一致的原则,因为它是原始二进制串不考虑旋转和尺度不变性。然而,轻快,ORB,怪物都得到一个更高的价值考虑取样的旋转。图的曲线急剧下降14 (e)比图14 (f)由于图像对图的规模相当大的差异8(e)图14 (f)显示KAZE获得零匹配分数从第二图像对。数据14 (e)和14 (f)显示活跃,ORB,狂可以捕获足够的特殊性来旋转和尺度变化。
如图14 (f),注意,是表现最好的竞争对手在两对图像。正如上面所讨论的,提升网络中的旋转估计适用于规范关键点补丁之前生成描述向量。然而,尺度不变性不是可学的描述符;如图14 (e),提升执行比一些手工制作的描述符,因为评估图像搭配同时旋转和尺度变化。同样,描述符的SuperPoint semidensely学习而不是人口,和对应的适应实现旋转不变性,规模,扭曲,等等,只适用于构建self-label训练数据集,导致联合训练结果有旋转和缩放不变性。
数据14 (g)和14 (h)描述符的结果表明随视点。曲线显示所有低,精度迅速下降。最好的匹配分数只有34%被简短。如图14 (h)失败从第三图像对,包括第一图像和第四的形象。这是一个巨大的挑战来描述当地的区域与角度的变化。提升和补充要点SuperPoint表现出更好的性能与观点改变形象。Triplet-Net只是成功的第一个两张图片,部分正确的第三图像,从第四图像对和失败。
5.2.2。多通道图像实验的结果
我们实验三对无人机的多通道图像,陆地卫星,SDO和NVST并记录在表的匹配精度3。角和规模的差异存在于无人机图像对。无人机图像对,所有手工描述符匹配失败。陆地卫星图像,没有显著差异在两幅图像之间的旋转和尺度,因此所有描述符完成。狂和ORB相对精度高的设计考虑的不同规模和旋转。对于天文图像,分辨率有显著差异,两幅图像之间的旋转。除了筛,手工制作的探测器都失败。从表3,我们得出这样的结论:筛选是最稳定的手工描述符multimodel图像旋转和尺寸变化。Pre-Net Siamese-Net显示失败的描述较多的无人机图像的特征点的方差旋转。这两个描述符不学习或学习小表示旋转变化。其他可学的描述符学习有效表示的旋转变化,规模,以及模糊。
6。结论和特性趋势
图像配准是图像处理的基础研究。它提供了多视图和多通道图像融合视觉信息,检测、分割、识别。广泛应用于医学、航空、天文学、交通监控等领域。解决图像配准方法主要是基于功能。检测特征点,多特征点匹配点,估计变换矩阵,扭曲的图像,探测器和描述符是关键程序,确定是否可以开展后续工作。取得了很多重要的研究结果。因此,本文回顾了流行的探测器和描述符从手工到可教育的目标为研究人员和工程师提供一个参考。
常用检测器的审查提供了一个详细的介绍和描述符。手工制作的探测器包括哈里斯,快,快,ORB,冲浪,筛选,KAZE。可学的探测器包括DetNet、电梯、多尺度波浪号,SuperPOINT。手工描述符包括轻快的、反常的,短暂的,冲浪,ORB,筛选,KAZE。可学的描述符包括Pre-Net Siamese-Net Triplet-Net,电梯,SuperPoint。我们比较了探测器和描述符的两个数据集,包含人工数据和一个变化和实际数据和复杂的变化。我们还提供比较和分析这些古典和深度上优于技术通过广泛代表实验数据集。我们的实验结果证明,可学的探测器和描述符比手工制作的方法,只要网络的体系结构是合理的和可训练的日期就足够了。
尽管取得了进展,进一步研究探测器和描述符在未来将专注于以下挑战:(我)大型培训与综合几何变化需要建立数据集,用于列车深网络学习探测器和描述符有泛化。(2)联合训练探测器和描述符在一个管道来实现更好的性能比单独训练。复杂的网络结构和可微性是一个挑战。在管道中,关键点检测器和描述符的方式彼此利益需要仔细调查。(3)变换矩阵直接输出结果。后输入的图像对,网络集成关键点检测、描述、匹配直接在管道和输出变换矩阵。这是一个具有挑战性的问题设计一个封装网络学习直接从图像的变换矩阵。(iv)未来的工作将研究如何提高模型的角度变化的性能。
数据可用性
使用的数据来支持本研究的发现可以从相应的要求或作者https://www.robots.ox.ac.uk/∼vgg /,https://medium.com/dronehub/datasets - 96 fc4f9a92e5,https://serc.carleton.edu/eyesinthesky2/week11/get_to_know_multispectral_imaging.html,https://www.nasa.gov/mission_pages/sdo/main/index.html,http://english.ynao.cas.cn/ti/nvst/。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了中国国家重点研发项目(2018 yfa0404603),中国国家自然科学基金(标题:太阳能图像配准方法,研究在多个通道号11773012),天文学的联合研究基金(Nos, U1831204 U1931141)之间的合作协议下中国的国家自然科学基金(国家自然科学基金委)和中国科学院(CAS),中国国家自然科学基金(11903009和11903009号),和青年创新促进会CAS。