谷歌街视图图像对户外航行的视觉描述符研究

摘要

对几种室外全景图像描述方法进行了比较分析。主要目的在于研究这些方法在移动机器人(车辆)在户外环境中定位过程中的性能，该过程中包含了从环境不同位置获取的图像。为此，我们利用谷歌街景提供的数据库，其中包含在城市环境中捕获的球形全景图像及其GPS位置。使用这些图像的主要好处在于，它允许在世界上任何地方的无数户外环境和现实的捕获条件下测试任何新的定位算法。这项工作的主要贡献在于对不同的图像描述方法进行比较评价，以解决室外密集地图中仅使用视觉信息的定位问题。我们已经测试了我们的算法使用几套全景图像捕捉在不同的室外环境。研究结果可为户外环境下利用谷歌街景数据库选择合适的视觉导航任务描述方法，同时兼顾定位精度和算法计算效率提供参考。

1.介绍

移动机器人的一个基本目标是设计能够在未知环境中自主导航的车辆，并且不需要人工干预。为了达到这个目标，车辆必须能够建立一个环境模型(或地图)，并估计它在这个模型中的位置。在文献中可以找到各种各样的本土化方法。一般来说，机器人的位置和方向可以从本体感受(里程计)或外部感受(激光、相机或声纳)传感器获得，如Thrun等人的工作所示[1和Gil等人[2］.

在外部感受方法中，由于良好的关系，使用计算机视觉来创建环境的表示是非常扩展的信息的量/成本摄像头提供的信息。近年来，利用视觉信息进行地图生成的研究取得了巨大的进展，新的算法不断出现。通常，这些算法的重点之一是对视觉信息的描述，以提取相关信息，从而对机器人的位置和姿态进行估计。一般来说，这个问题可以从两个角度来解决:局部特征提取和全局外观方法。首先，从每个场景中提取一些地标(独特的点或区域)，并对每个地标进行描述，以获得一个不随机器人位置和方向变化而变化的描述符。Murillo等人[3.]提出了一种利用SURF (accelerated Robust feature)描述方法的算法[4，以提高在大数据集中使用全向图像的基于外观的定位方法的性能。另一方面，全局外观方法是用单个描述符表示每个场景，该描述符与场景作为一个整体计算，不提取局部特征。这种方法最近很流行，可以找到一些例子。Rossi等人[5为实现移动机器人的定位，提出了一种利用球面全向图像的傅里叶变换计算图像相似度的度量方法。Payá等[6[]提出了一种多机器人路径跟踪的框架，该框架采用基于外观的全向图像的环境描述方法和基于概率的机器人定位估计方法。最后，Fernández等人[7]利用安装在机器人上的单个全方位摄像机提供的视觉信息，利用全景图像的全局外观和蒙特卡罗定位(MCL)算法来处理机器人定位问题[8］.

由于谷歌街景的服务，如今，代表户外环境的球形图像几乎是无限的。此外，这些图像提供了一个完整的-在地平面上的风景度视图-degree垂直视图。由于这种大量信息，这些图像可用于鲁棒地执行自主导航任务。使用一组这些先前可用的球面图像作为环境的密集视觉图，可以开发自主定位和导航系统，采用由移动机器人或车辆捕获的图像并将其与地图信息进行比较以便解决本地化问题。这样，在本文中，我们考虑使用Google街道视图提供的图像作为环境的视觉映射，其中必须使用从未知位置获取的图像定位移动机器人。

关于使用谷歌街景信息的导航问题的文献比较少，但近年来有所增长。例如，Gamallo等人[9]提出将低成本GPS与粒子滤波相结合，实现基于视觉的定位系统，该系统将摄像机检测到的可穿越区域与之前在地图(由谷歌Maps图像组成)中标记的区域进行比较。这项工作的主要贡献是生成一个机器人从预测位置应该看到的合成图像，并与实际观测结果进行比较，以计算每个粒子的权重。Torii等人[10]尝试预测给定Google Street View数据库的查询图像的GPS位置。这项工作提出了一个匹配过程的设计，该过程考虑数据库图像特征向量的线性组合。关于室内姿势估计，Aly和Bouguet[11]提出了一种算法，该算法以球形谷歌街景图像为输入，输出其在全球范围内的相对姿态。最后，Taneja等人[12]提出了一种利用地籍三维信息细化谷歌街景图像标定的方法。

车辆/机器人的定位问题可以表述为当前捕获的图像与之前存储在密集地图中的图像(数据库中的图像)的匹配问题。目前，在视觉导航的背景下，已经提出了各种各样的检测和描述方法，但在我们看来，在使用户外图像时，在这个问题上并没有共识。

Amorós等[13]，对创建全景场景描述符的不同全局外观方法进行了回顾和比较，以提取最相关的信息。这项工作的作者开发了一套实验，在室内环境中捕捉全景图像，以证明一些外观描述符在机器人导航任务中的适用性，并测量其位置和方向估计的质量。然而，就户外场景而言，并没有对方法进行修订，提供良好的结果。这种情况，再加上谷歌街景图像在自动导航系统中几乎没有经过测试的事实，激发了本文提出的工作。遵循这一理念，我们对全景图像的不同描述符进行了比较，但在本例中，我们使用的是户外环境中捕获的谷歌街景图像。这是一个更有挑战性的问题,由于几个特点:开放性的图像(例如,优势度等结构天空,道路不添加特殊性图像),他们不断变化的照明条件,大型几何图像的点之间的距离被抓获。

考虑到这些功能，我们认为值得在自主户外定位的真实条件下执行不同图像描述符的性能的比较评估，因为它将在实现视觉导航框架之前是必要的一步。在本文中，我们评估了两种不同的方法：基于全局外观的基于局部特征和方法的方法。在这两种情况下，我们根据配置它的主要参数测试描述符的性能，并且我们做出了图形表示精度的回忆［14］.

当一个机器人必须自主地在室外导航时，通常通常对机器人移动的区域进行粗略估计，并且机器人必须能够估计其在这个宽区域中的位置。这项工作侧重于此任务;我们假设机器人导航的区域近似已知，并且必须在该区域更准确地估计其位置。通过这种目标，已经选择了两个不同的广域来评估本地化算法的性能，并且已经从Google Street View数据库获得了每种区域的一组图像。

本文的其余部分组织如下。在部分2，我们介绍了在这项工作中评估的描述方法。在部分3.，介绍了实验装置和使用的数据库。部分4描述在本地化过程中计算描述符所遵循的方法。部分5给出了实验结果。最后,在节6，总结了本文的研究成果和未来的工作。

2.图像描述符

在本节中，我们将介绍五种不同的图像描述符，它们适用于构建每个场景外观的简洁描述[13- - - - - -15］.以前表示作为基于特征的方法的方法之一包括将图像表示为从场景中提取的一组地标以及这些地标的描述。为此标志性描述的方法描述是冲浪（加速强大的功能）。选择进行比较分析的其他方法是以下基于外观的方法：二维离散傅里叶变换（DFT），傅立叶签名（FS），要点,和定向梯度直方图(Histogram of Oriented gradient, HOG)。每种方法都使用不同的机制来表达场景的全局信息。首先，DFT和FS分别基于二维和一维的频域分析。第二，方法要点我们使用的是通过Gabor滤波获得的边缘信息构建，并在几个尺度中分析。最后，HOG从局部区域的梯度方向收集系统信息。这些描述方法的选择将允许分析各种信息在本地化过程中的影响。

本研究的最初目的是比较一些整体外观方法。但是，我们决定在这个比较评价中加入一个局部特征描述方法，使研究更加完整。为了实现这个目标，我们选择了SURF，因为与其他经典的基于特征的方法相比，它的计算成本相对较低。

下一小节将简要介绍比较评价中所包括的描述方法。

2．1．SURF和哈里斯角探测器

加速鲁棒特性(SURF)由Bay等人引入[4］.该研究表明，SURF方法在描述符的重复性、鲁棒性和独特性方面优于现有方法。该方法采用积分图像，基于Hessian矩阵，减少了计算时间。另一方面，描述子表示感兴趣点邻域内的haar -小波响应的分布，有效地利用了积分图像。在这项工作中，我们只包括标准的SURF描述符，它有每个路标64个组件的维度，但是还有两个版本:扩展版本(E-SURF)有128个元素和直立版本(U-SURF)，它不是旋转不变的，有64个元素的长度。另一方面，我们使用Harris角点检测器(基于第二矩矩阵的特征值[16]所以我们的实验表明，该方法在与冲浪提取方法相比，在室外图像中提取了最强大的点。

本文所采用的方法是将这两种算法结合起来。更具体地说，Harris角点检测器用于从图像中提取特征，标准SURF描述符用于描述之前检测到的每个地标。

2．2.二维离散傅里叶变换

来自镜头和行和列时，二维离散傅里叶变换(DFT)可定义为: 哪里频率变量和变换后的函数是什么是一个可分解为量值矩阵和参数矩阵的复函数。这种变换表现出一些有趣的性质，有助于机器人的定位任务。首先，傅里叶域中最相关的信息集中在低频分量，因此可以通过只保留第一个分量来减少内存数量并优化计算成本行和变换中的列。第二,当是全景场景，原始图像的行和/或列的平移仅在参数矩阵中产生变化[15］.这样，量矩阵包含的信息对机器人在地平面上的旋转是不变的，参数矩阵包含的信息可以用来估计机器人相对于参考图像在这个平面上的方向(使用DFT移位定理)。

考虑到这些事实，图像的全局描述由量值矩阵组成以及参数矩阵两个矩阵的维数都是行和列。一方面，是有用的估计机器人的位置，另一方面，信息可以用来估计机器人的方向。

2．3.傅里叶签名

对比分析中使用的第三种图像描述方法是傅里叶特征(FS)，最初由Menegatti等人描述[17］.来自镜头和行和列，FS包括获得每行的一维DFT。该方法具有一些优点，例如简单、计算成本低，以及在处理全景视图时更好地利用机器人在地平面上旋转的不变性。

更具体地，计算FS的过程包括转换每行原始全景图像的，，转换成复数序列，根据1D-DFT表达式：

结果是一个复矩阵,在那里为频率变量，可分解为幅值矩阵和参数矩阵。

多亏了一维dft的特性，它可以表示每一行利用第一个系数，因为最相关的信息集中在描述符中每行的低频分量中，因此可以仅通过保留来减少内存量签名第一栏．另外,当是一个全景场景，模块矩阵是否不变于接地平面中的机器人旋转，并且大小矩阵允许使用DFT移位定理估计机器人方向的变化[15，17，18］.

考虑到这些事实，图像的全局描述由量值矩阵组成以及参数矩阵两个矩阵的维数都是行和列。首先，利用中的信息可以估计机器人的位置，因为它是不变的变化，机器人的方向和第二可以用来估计机器人的方向。

2．4.主旨

概念的概念要点可以将图像定义为激活场景类别记忆的抽象表征[19].这个要点基于描述符的描述符试图通过获取图像的基本信息来表示图像，模拟人类的感知系统以及通过识别颜色显著性或显著结构来识别场景的能力。Torralba [20.[]提出了一种基于Gabor滤波的全局场景特征提取模型，该模型工作在多个空间频率和不同尺度上。他们在场景识别和分类任务中使用这些特征。在以前的著作中[13]我们雇了一个要点-gabor描述符以获得频率和方向信息。由于室内环境中获得的良好结果当移动机器人在地面平面上呈现3个DOF（自由度）运动时，本文提出的比较分析中采用的第四种方法是要点全景图像的描述符。

该方法从两个版本的初始全景图像开始:原始的，与行和列，并在应用高斯低通滤波器和子采样到新的大小等于.之后，两幅图像都用一组Gabor滤波器，其方向均匀分布，覆盖整个圆。然后，为了减少信息量，对两幅图像中的像素进行分组每个图像的水平块，其宽度等于在第一幅图中在第二个。计算每个组中像素的平均值，并将所有这些信息安排到最终的描述符中，这是一个列向量和成分。该描述符不变于接地平面上车辆的旋转。有关该方法的更多信息可以在[13］.

2．5．梯度方向直方图

定向梯度直方图(Histogram of Oriented Gradients, HOG)描述符基于图像局部区域梯度的方向。最初是由Dalal和Triggs描述的[21］.更准确地说，它首先包括获取原始图像中每个像素的梯度的大小和方向。然后将该图像划分为一组单元，并为每个单元编译梯度方向直方图，聚合单元内每个像素的梯度方向信息，并用像素的大小进行加权。

从地平面的特定位置捕获的全向图像包含一行相同的像素，独立于机器人在该平面的方向，但顺序不同。考虑到这一事实，如果我们计算具有相同宽度的原始图像的细胞的直方图，我们得到一个不随机器人旋转而变化的描述符。

我们使用的方法在[22]并且可以概括如下。最初的全景图像和行和首先过滤列以获得具有水平和垂直边缘的信息的两个图像，和。从这两幅图像中，逐像素获得梯度的大小及其方向，并将结果存储在矩阵中和矩阵然后分为水平单元格，其宽度等于.对于每个单元格，一个带有箱子被编译。在这个过程中，每个像素中对应像素的大小加权．在这个过程的最后，一组直方图构成了最终的描述符哪个是列向量成分。

3.实验设置

这项工作的主要目标是对上一节中提出的描述方法的性能进行详尽的评价。所有这些方法都将包含在一个定位算法中，并将从计算成本和定位精度两方面评估和比较它们的性能。对比评价的结果可以让我们知道，在使用谷歌街景图像时，哪种描述方法在室外环境中效果最好。

为此，埃尔切市（西班牙）的两个不同地区这两个区域的谷歌地图图像已获得并存储在两个数据集中。其中每个数据集将构成一个地图，并将通过比较车辆从未知位置捕获的图像与之前的图像，用于随后估计车辆在地图中的位置存储在每个地图中。

两组图像的主要特征如下。

组1。集1由177张全景图组成，分辨率一般可达像素。每幅图像都覆盖了一个视场地平面倾角，垂直180度。数字1显示了每个图像被捕获的GPS位置(蓝点)和经过预处理的两个全景图像示例。这个集合对应一个网格地形数据库，其中包含各种街道和开放区域的图像。图像覆盖面积约700米× 300米。

组2。集2由144张全球面全景图组成。这些图像是沿同一条街道拍摄的，街道呈线性拓扑，覆盖约1700米。这些图像的外观更具城市色彩。数字2显示了每个图像被捕获的GPS位置(蓝点)，以及经过预处理后的三个全景图像示例。

3.1。图像预处理和地图创建

由于采集系统的宽垂直视野，天空通常是Google街道视图图像的大部分。当捕获地图时的一天的时间在一天的不同时间在不同的时间内进行定位过程时，该区域的外观将非常容易发生变化。考虑到这一事实，已经进行了预处理步骤以在幕中移除部分天空。

一旦天空的一部分被从所有场景中移除，图像就被转换成灰度，分辨率降低到像素，以确保算法的计算可行性。

之后，将使用Section中提出的五种描述方法对每幅图像进行描述2．最后，每个图像集和每个描述方法都有一个地图可用。每个地图将由每个全景场景的描述符集组成。

3.2. 本地化过程

一旦映射可用，以便评估Section中引入的不同视觉描述符2要解决本地化问题，我们还使用Google Street View图像。

要执行本地化过程，首先我们选择数据库的一个映像(命名为测试图像).此时，此图像将从地图中删除。其次，我们计算测试图像的描述符（使用第节中介绍的方法之一）2)，并获得该描述符与存储在相应映射中的其余图像的描述符之间的距离。从而以图像距离作为排列标准，对地图图像进行从最近到最远的排列。

如果定位算法返回的第一个图像是在几何上最接近测试图像捕获点的地图点上捕获的，则认为定位算法的结果是正确的(为此目的使用GPS坐标)。我们将这种情况称为中正确的本地化1区．然而，由于这是一个相当具有挑战性和限制性的问题，也很有趣的是，知道算法返回的第一张图像是否在距离测试图像捕获点(2区）甚至在三个几何上最接近的一点之一（3区）.The first case is the ideal one, but we are also interested in the other cases as they will indicate if the algorithm is returning an image in the surroundings of the actual position of the test image (i.e., the localization algorithm detects that the robot is in a zone close around its actual position).

使用集合的所有图像，每个描述方法都重复这个过程1和2作为测试图像。简而言之，测试先前解释的本地化方法的过程包括以下步骤，对于每个图像和描述方法：（1）提取集合中的一幅图像(记为测试图像);然后，将测试图像从映射中消除（2）计算测试图像的描述符（3）计算这个描述符和我们命名的所有映射描述符之间的距离图像的距离（4)保留最相似的描述符，并研究它是否与测试图像捕获点周围捕获的图像相对应(区1、2、或3.）

因此，为单个测试图像保留下一个数据:图像的距离在测试图像描述符和最相似的映射描述符之间，，本地化的结果是1区(正确或错误的匹配)，,在2区，,在3区，．对所有测试图像重复此过程后，结果将由四个向量组成，其维数等于测试图像的个数。第一个向量,，包含距离，，以及其他三个，，,，分别包含中正确或不正确匹配的信息区域1、2、和3.．

4.评价方法

在这项工作中，本地化结果是通过的回忆和精度曲线(14］.建立它们，矢量的组件，，,按第一个向量中出现的距离的升序等排序。然后使用正确和错误匹配的排序结果向量来计算值回忆和精度．让我们专注于分类的比赛矢量1区，．首先，对于这个向量中的每个分量回忆计算为迄今为止相对于测试图像总数获得的正确匹配数。其次，对于同一向量中的每个分量精度是根据到目前为止所获得的与所考虑的测试图像的数量相对应的正确匹配的数量。然后，有了这些向量a的信息精度和召回曲线是建立的，对应的本地化在1区. 这在排序的向量中重复和在中获取本地化结果2区和3区．

在我们的实验中，这种类型的图表的最重要信息是最终点，因为它显示了实验的全局结果（在考虑所有测试图像后最终精确度）。但是，可以从它们中提取额外的相关信息，因为图表还显示了定位算法在考虑特定的同时找到正确匹配的能力图像的距离阈值。如上一段所述，结果已经考虑到距离的上升值。考虑到这一点，随着回忆次数的增加，阈值也会增加。由于这个原因，进化的recall-precision曲线包含关于算法相对于特定算法的鲁棒性的信息图像的距离阈值。如果精度价值保持在高位，独立于回忆，这表明在此距离阈值下，错误结果的数量较少。图3.显示了两个样品recall-precision对所有测试图像运行定位算法后得到的曲线和两种不同的描述方法，考虑1区．两条曲线都显示了类似的决赛精度值，介于和．然而，进化呈现出不同的行为。举个例子，如果我们把与之相关的距离作为阈值回忆= 0.25，从图中可以看出，描述符1的精度为100%，而描述符2的精度为90%。这意味着，考虑到所选图像的距离阈值，使用描述符1的100％概率和使用描述符2的概率的概率占25％的概率。这项研究可以考虑到任何值图像的距离阈值。

在运行算法之前，有必要定义图像的距离．根据使用的描述符的类型，我们使用两种不同的距离度量。

首先，在基于特征的方法（Surf-Harris）的情况下，必须在描述图像的外观之前提取兴趣点。我们建议使用哈里斯角探测器[16]从全景图像中提取视觉地标。然后，使用标准SURF描述每个兴趣点。为了将测试图像与地图图像进行比较，我们首先从所有图像中提取并描述兴趣点。然后，对这些点进行匹配处理。在地图图像中搜索在测试图像中检测到的点，这些点与车辆的特定位置和方向一起捕获。匹配方法的性能不是本文讨论的范围；我们只是把它当作一种工具。一旦匹配过程已经执行，我们评估描述符的性能，考虑到匹配点的数目，因此我们将考虑作为与测试图像呈现更多匹配点的最接近的图像。更简单地说，我们计算测试图像之间的距离和地图的其他图像作为哪里是图像之间的匹配数和，是一个包含图像之间的匹配数的矢量还有地图上的每一张图片为地图中图像的数量。

第二，在基于外观的方法(2D DFT, FS，要点,和HOG)，不需要从图像中提取局部信息。相反，整个图像的外观是比较的。该方法计算测试图像的全局描述子，并得到测试图像与地图图像描述子之间的距离。这里用的是欧氏距离，定义为哪里是测试图像的描述符，是地图图像的描述符吗,是描述符的大小。这个距离被归一化以获得图像之间的最终距离和，根据下一个表达式: 哪里是测试图像的描述符之间的欧几里德距离以及地图图像，是包含图像的描述符之间的欧几里德距离的矢量还有地图上的所有图像为地图中图像的数量。

重要的是要注意，该算法必须能够以准确性估计机器人的位置，但计算成本足以，要知道解决问题是否是可行的，也很重要。为了估计计算成本，我们已经计算过，考虑到实验中的两个映射，计算每个测试图像的描述符的必要时间，以将距离计算到地图描述符并检测到最相似的描述符。我们必须考虑到在离线过程中可以在本地化之前计算所有地图图像的描述符。除了时间，我们还估计了存储每个图像描述符所需的内存量。

最后，我们还建议研究两者之间的关系两个图像描述符之间的距离相对这两幅图像的捕获点之间的几何距离．理想情况下，描述符之间的距离必须随着捕获点之间的几何距离的增加而增加(即，它必须不呈现任何局部极小值)。这种信息在地图构建等应用程序中非常有趣，机器人必须能够仅使用图像描述符之间的距离作为输入信息来构建地图。当需要估计车辆在网格地图中点的位置时，这也是很重要的。此外，它可能有助于检测问题是否视觉混叠存在于环境中(即，两个在几何上距离较远的区域可能呈现出相似的视觉外观，这可能导致映射和定位过程中的错误)。

5.实验结果

如前一节所述，为了确定每个描述符正确定位机器人（或车辆）的能力，我们构建了recall-precision曲线来反映每个实验的结果。数字4使用(a)第一组图像和(b)第二组图像(表示为集合)显示此图形表示1和2在前面部分)。为了构建这个图，我们考虑本地化结果1区．这样，图中显示了定位算法正确检测哪个图像的地图被捕获的更接近测试图像的能力。这是最具限制性的情况。

(一)

(b)

除此之外，该定位算法在区域2和3.也被研究过。这种方式,图5中显示本地化过程的结果2区使用（a）设置1和(b)组2．最后,图6显示本地化结果3区使用（a）设置1和(b)组2．这是所研究的三个案例中限制性最小的一个。

(一)

(b)

(一)

(b)

在所有情况下，结果表明，SURF-Harris描述子在准确性和使用两个图像集方面都比其他描述子表现出相对更好的性能。对于基于全局外观的方法，可以突出HOG的良好性能。在本地化的情况2区在集合中达到60%和50%的精度1和2,分别。这些结果可以被认为是相对较好,考虑的本地化过程是解决以绝对的方式(也就是,我们认为,没有以前的机器人的位置信息是可用的和测试图像与图像存储在数据集)。在实际应用中，通常采用任意一种概率算法来估计机器人的位置，同时考虑到机器人先前估计的位置。这有望提供更高的精度。我们希望在未来的工作中开发这种类型的算法和测试。

通过比较这些方法在开放区域的性能可以得出一些额外的结论(Set1)和市区(集2）.在开阔区域，SURF-Harris、HOG和要点是非常相似的，在所有情况下都是比较好的，而基于离散傅里叶变换的方法往往表现出较差的结果。然而，在城市地区，SURF-Harris优于其他方法，并且要点最坏的结果。

除了定位精度，研究这个过程的计算成本也很重要，因为在实际应用中，机器人在环境中导航时，它必须实时运行。通过这种方法，我们在所有情况下都获得了计算测试图像的描述符并将其与映射中存储的描述符进行比较、检测最相似的描述符并分析结果所需的时间。考虑所有测试图像后，定位过程的平均计算时间如表所示1．要获取此表的结果，已使用MATLAB实现算法。


	二维傅里叶	傅里叶签名	主旨	猪	SURF-Harris

数据集1描述符	0.0087秒	0.0080秒	0.4886 s	0.0608秒	0.5542秒
数据集1匹配	0.0015秒	0.0058秒	0.0006秒	0.0008秒	25.8085 S.
数据集2描述符	0.0085 s	0.0079秒	0.4828秒	0.0621秒	0.5389秒
数据集2匹配	0.0012秒	0.0047秒	0.0005秒	0.0006秒	19.3931秒

就计算成本而言，基于傅里叶变换的方法明显快于其他方法，而SURF Harris的计算成本相当高。关于比较两个描述符所需的时间，要点HOG是最快的方法。在SURF-Harris的情况下，采用蛮力匹配方法会产生较高的计算代价。选择该方法与其他全局外观方法进行了均匀比较。然而，在实际的实现中，一种基于词汇包的方法[23将提高算法的计算效率。

最后，我们已获得存储每个描述符所需的平均内存大小。结果显示在表格中2．主旨是最紧凑的描述符(它能够显著压缩每个场景中的信息)，而SURF-Harris需要更大的内存大小。


	二维傅里叶	傅里叶签名	主旨	猪	SURF-Harris

描述符	16384个字节	32768个字节	4096个字节	8192个字节	110400个字节

综合考虑这些结果和定位精度，我们可以说SURF-Harris描述子在定位精度方面有很好的结果，但其计算代价使其无法在实际应用中求解。HOG在精度方面排名第二，它也有很好的计算成本，因此我们认为，作为未来的工作，更深入地研究这个描述符，并实现该方法的更高级版本，以试图优化精度是很有趣的。同样，除了欧几里得距离之外，还可以研究用于比较图像的其他类型的距离。出于同样的原因，我们也认为更彻底地审查要点描述符，以及使用其他方法提取要点除了定向信息（例如，从颜色信息）之外的场景。

作为最后的实验，我们研究了它们之间的关系两个图像描述符之间的距离相对这两幅图像的捕获点之间的几何距离．如本节开始时所述，这些信息在一些应用中非常有趣，例如从图像构建地图，具有几何精度，或在地图网格的中点定位车辆。重要的是，描述符之间的距离随着几何距离的增长而增长。数字7显示使用(a)集获得的结果1和(b)组2．为了获得这些图形，将一幅图像设置为参考图像，并计算参考图像描述子与其他描述子之间的距离。图中显示了这个距离与每个图像的捕获点和参考图像的捕获点之间的几何距离的对比。在这两种情况下，这种关系单调地增加到大约100米的几何距离。从这一点开始，它趋于稳定，具有相对较高的方差。例外的是局部特征描述符，它从很小的几何距离稳定在最终值。然而，基于外观的描述符在每个图像周围表现出更线性的行为。

(一)

(b)

6.结论与未来工作

在本文中，我们对几种场景描述方法进行了比较评价，考虑了这些方法在大型真实室外环境中准确解决绝对定位问题的性能。我们评估了两种不同的视觉描述符方法，局部特征描述符(SURF-Harris)和全局外观描述符(2D离散傅里叶变换、傅里叶签名、HOG和要点）.

所有的测试都是在真实条件下拍摄谷歌街景的图像进行的。考虑了城市的两个不同区域，一个是开放区域，一个是街道较窄的纯粹城市区域。每个区域的俘获点呈现出不同的地形。第一种是覆盖多条街道和大道的网格地图，第二种是线性地图(即，当移动设备在狭窄街道上穿过一条线性路径时，图像被捕获)。

已经进行了一些不同的研究。首先，我们评估了定位过程的准确性。要做到这一点,查全率和查准率通过计算曲线来比较每种描述方法的性能。我们的阴谋查全率和查准率曲线的两个区域，考虑到不同的精度水平，以考虑定位结果是正确的。在这些实验中，还分析了定位过程的计算代价。

我们还研究了图像捕获点之间的几何距离与描述子距离的关系。为此，我们绘制一条曲线，表示描述符距离与捕获点之间的几何距离。这种度量对于执行导航任务非常有用，因为有了它，我们可以估计描述符的使用范围。

值得注意的是，就定位精度而言，SURF-Harris描述符是最合适的描述符，但就描述符之间的欧几里德距离而言，它提供了较小的工作区域。HOG描述符在解决定位问题方面表现出了相对较好的性能，并且呈现了描述符的良好响应rs距离与捕获点之间的几何距离。如果我们联合分析两个实验的结果并考虑计算成本（表1和2)，我们得出结论，尽管SURF-Harris描述符在召回率和精度曲线方面表现出了最好的结果，但它不允许我们进行实时工作。因此，考虑到HOG是在召回率和精度曲线方面表现第二好的描述符，并允许我们实时工作，我们可以得出结论，HOG是最合适的描述符。

我们计划将这项工作扩展到(a)捕捉沿着几条街道行走的真实户外轨迹，并使用折射率视觉系统捕捉全向图像，(b)将该视觉系统提供的信息与谷歌街景的图像相结合，(c)评估最佳描述符在概率定位过程中的性能。

相互竞争的利益

作者声明他们没有相互竞争的利益。

致谢

西班牙政府通过项目DPI 2013-41557-P支持这项工作，Navegación de Robots en Entornos Dinámicos Mediante Mapas Compactos con Información Visual de Apariencia Global，和Generalitat Valenciana通过项目爱科/ 2015/021,Localización y Creación de Mapas Visuales para Navegación de Robots con 6 GDL，和GV./ 2015/031,Creación de Mapas Topológicos a parr de la Apariencia Global de un Conjunto de Escenas．

参考文献

S. Thrun，D. Fox，W.Burgard和F. Delaert，“Word Monte Carlo本地化为移动机器人”人工智能，卷。128，没有。1-2，PP。99-141,2001。视图:出版商网站|谷歌学者
A. Gil, O. Reinoso, M. A. Vicente, C. Fernández，和L. Payá，“使用SIFT特征的蒙特卡罗定位”，在模式识别和图像分析，第3522卷计算机科学讲义，页623 - 630,2005。视图:谷歌学者
A.Mulilo，J.Guerrero和C.SAGÜÉS，“带有全向图像的有效机器人本地化的冲浪功能”IEEE机器人与自动化国际会议论文集，美国加利福尼亚州圣地亚哥，2007年。视图:谷歌学者
H. Bay, T. Tuytelaars，和L. Van Gool的《Surf: speed up robust features》第九届欧洲计算机视觉会议论文集格拉茨，奥地利，2006年。视图:谷歌学者
F. Rossi, A. Ranganathan, F. Dellaert，和E. Menegatti，“用球形傅里叶变换和未校准相机实现拓扑定位”，刊于自主机器人仿真、建模和编程国际会议论文集(SIMPAR’08)，页319-330，威尼斯，意大利，2008。视图:谷歌学者
L. Payá， O. Reinoso, F. Amoros, L. Fernández，和a . Gil，“移动机器人团队的概率地图构建、定位和导航。应用到路线跟随，“在多机器人系统:趋势与发展，第191-210页，2011。视图:谷歌学者
L.Fernández，L.Payá，D.Valiente，A.Gil和O. Reinoso，“蒙特卡罗本地化”使用全球全球外观图像：算法优化到大型室内环境，“第九届控制、自动化和机器人信息学国际会议论文集(ICINCO’12)，第439-442页，罗马，意大利，2012年7月。视图:谷歌学者
m . MontemerloFASTSLAM：具有未知数据关联的同时定位和映射问题的因素解决方案[PH.D.论文]，卡耐基梅隆大学机器人研究所，美国宾夕法尼亚州匹兹堡，2003年。
C.Gamallo、P.Quintía、R.Iglesias Rodríguez、J.V.Lorenzo和C.V.Regueiro，“低成本GPS与基于先前户外导航地图的视觉定位的组合”，年第十一届智能系统设计与应用国际会议论文集(ISDA’11)，第1146-1151页，西班牙科尔多瓦，2011年11月。视图:出版商网站|谷歌学者
A. Torii, J. Sivic，和T. Pajdla，“通过图像描述符的线性组合的视觉定位”，在IEEE计算机视觉研讨会国际会议记录（ICCV研讨会'11），第102-109页，西班牙巴塞罗那，2011年11月。视图:出版商网站|谷歌学者
M. Aly和j . y。Bouguet，“街景进入室内:从未校准的无序球形全景自动姿态估计”IEEE计算机视觉应用研讨会论文集(WACV’12)，pp.1-8，Breckenridge，Colo，美国，2012年1月。视图:出版商网站|谷歌学者
A.Taneja、L.Ballan和M.Pollefeys，“球面全景图像与地籍三维模型的配准”，年国际三维成像、建模、处理、可视化和传输会议论文集(3dimvt’12)，pp.479-486，苏黎世，瑞士，2012年。视图:谷歌学者
F. Amorós, L. Payá， O. Reinoso，和L. Jiménez，“应用于可视化地图构建和本地化的全球外观技术的比较”，刊于计算机视觉理论与应用国际会议论文集，pp.395-398，罗马，意大利，2012年。视图:谷歌学者
A. Gil, O. M. Mozos, M. Ballesta，和O. Reinoso，“视觉SLAM的兴趣点探测器和局部描述符的比较评估，”机器视觉及其应用，第21卷，第6期，第905-920页，2010年。视图:出版商网站|谷歌学者
L. Payá， L. Fernandez, O. Reinoso, A. Gil，和D. Ubeda，“基于外观的密集地图创建。压缩技术与全景图像的比较，”在控制，自动化和机器人的信息学国际会议的诉讼程序（INSTICC'09），第238-246页，意大利米兰，2009年。视图:谷歌学者
C.哈里斯和M.斯蒂芬斯，“一个综合的角和边缘检测器”，在Alvey Vision会议记录，页23.1-23.6，曼彻斯特，英国，1988。视图:出版商网站|谷歌学者
E. Menegatti, T. Maeda, H. Ishiguro，“基于图像的机器人导航记忆使用全向图像的特性”，机器人技术与自主系统，卷。47，没有。4，pp。251-267，2004。视图:出版商网站|谷歌学者
L.Payá，L.Ferğandez，A.Gil和O. Reinoso，“地图建设和Monte Carlo本地化使用全局外观的全局形象”，传感器，第10卷，第5期。12, pp. 11468-11497, 2010。视图:出版商网站|谷歌学者
A. Friedman，“框架图:知识在自动编码和记忆主旨中的作用”，实验心理学杂志:一般，第108卷，第108号3，第316-355页，1979。视图:出版商网站|谷歌学者
A. Torralba，《物体探测的背景启动法》国际计算机视觉杂志，第53卷，第53期2，页169-191,2003。视图:出版商网站|谷歌学者
N. Dalal和B. Triggs，“面向人类检测的梯度直方图”IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR’05)，第886-893页，美国华盛顿特区，2005年6月。视图:出版商网站|谷歌学者
F. Amorós, L. Payá， O. Reinoso, L. Fernández，和J. Marín，“以外观为基础的方法构建可视化地图和定位——提取全景图像信息的技术比较，”在第7届控制，自动化和机器人信息学委员会第七届国际会议，页423-426,2010。视图:谷歌学者
D. Filliat，“交互式定性定位和绘图的视觉词汇袋方法”，在IEEE机器人和自动化会议的诉讼程序（ICA'07），pp.3921-3926，罗马，意大利，2007年4月。视图:出版商网站|谷歌学者

杂志上的传感器

机器人的视觉和触觉感知与环境互动

摘要

1.介绍

2.图像描述符

2．1．SURF和哈里斯角探测器

2．2.二维离散傅里叶变换

2．3.傅里叶签名

2．4.主旨

2．5．梯度方向直方图

3.实验设置

3.1。图像预处理和地图创建

3.2. 本地化过程

4.评价方法

5.实验结果

6.结论与未来工作

相互竞争的利益

致谢

参考文献

版权

更多相关文章

相关文章