移动信息系统

在这一页上

文摘介绍相关工作结论的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2017年| 文章的ID8104386| https://doi.org/10.1155/2017/8104386

有效的事先与多个RoI特征提取池Landmark-Based视觉自动车辆定位

易侯 ,¹ 香港张,² 周石林,¹ 和Huanxin邹¹

学术编辑器: 保罗·贝拉

收到了 2017年5月12日

修改后的 2017年7月28日

接受 2017年10月11日

发表 2017年11月09

文摘

高效和健壮的视觉定位对于自主汽车是很重要的。达到令人印象深刻的定位精度条件下的重大变化,事先landmark-based方法吸引了人们的注意在几个研究团体包括自主车辆。这种方法在很大程度上依赖于优秀的歧视的力量事先特征匹配检测图像之间的地标。然而,这种方法的一个重大挑战是如何有效地提取有识别力的事先特性。为了应对这一挑战,效率高的启发,感兴趣的区域(RoI)池层,我们提出一个多个RoI (MRoI)池技术,RoI的增强,和一个简单而有效的事先特征提取方法。我们的想法是利用MRoI池利用多层次、多分辨率信息从多个卷积层然后融合他们改进的歧视能力最终事先特性。我们的方法的主要优点是(a)为实时应用程序计算效率高;(b)为移动应用GPU内存效率;和(c)使用pretrained模型没有微调或再培训,便于实现。四个数据集上实验结果表明不仅上面的优势,还事先提取特征的高鉴别力与最先进的定位精度。

1。介绍

高效、可靠的视觉定位等核心智能交通应用程序要求自主汽车,无人驾驶公共交通工具,移动机器人。其目的是使用视觉传感器,如摄像头来解决这个问题“我在哪儿?”和facilitate life-long navigation, by determining whether the current view of the camera corresponds to a location that has been already visited or seen [1]。解决方案相比,使用激光雷达等传感器,视觉定位本质上是更灵活和更便宜的使用(1]。因此,视觉定位交通系统已成为一个热点话题。特别是最近的兴趣自主汽车创造了一个强烈需要视觉定位技术,可以有效地在具有挑战性的环境中运作。尽管当前最先进的方法[方面已取得了很大的进步2- - - - - -12),视觉长期自主车辆导航定位仍然是一个尚未解决的问题当图像外观经历重大的改变引起的时间,季节,天气,相机的姿势等。1]。

最近,一位事先landmark-based视觉定位方法提出了(13)取得了最先进的定位精度的条件下重大环境和角度变化,提高社区的利益(1,14,15]。产生的一些示例图像匹配的例子对这种方法见图1。其主要思想是利用事先特性描述的歧视权力高层视觉地标形象,为了实现角度不变性(1,13]。在这一点上,这种方法在很大程度上依赖于事先特征的描述性强国之间的匹配检测地标图片。与此同时,一个实际的考虑事先特征提取是有效的。

(一)UACampus

圣卢西亚(b)

(c) Nordland

(d) Mapillary

图1

样品产生的匹配图像的例子对事先landmark-based视觉定位方法,提取事先特性由一种变异方法,也就是说,MRoI-FastRCNN-AlexNet(见部分5.1。2详情)。这些图片来自我们的实验中使用的测试数据集(见部分5.1。1详情)。六个图片来自一个数据集,每一行和三对正确说明图像匹配的方法。相同的边框颜色在每一对匹配的图像显示的地标匹配。为了清晰起见,我们只显示十在每幅图像匹配的地标。最好的颜色。

然而,我们所知,有效提取基本上被忽视了在视觉定位的研究中,人们依靠现有事先特征提取方法引入图像分类等计算机视觉应用程序(16- - - - - -18和目标检测19- - - - - -21),没有专业的视觉定位的应用程序。节中,我们将详细讨论3这些现有的方法分为两组:原始图像和功能基因图谱。一般来说,在第一组足够精确定位方法但耗时,而第二组足够快,但作为第一组定位不准确。因此,迫切需要开发一种方法同时实现速度和准确度。

为此,在本文中,我们提出一个简单而有效的方法来提取视觉歧视事先特性的自动车辆定位高效计算和GPU内存,使用这种技术,我们称之为多个RoI (MRoI)池。作为一个特殊的增强池层调用感兴趣的区域(RoI)(20.),MRoI池继承RoI池的效率高。因此,我们能够使用MRoI池有效利用从多个回旋的多层次和多分辨率信息层,而不是只有一个在以前的功能使用地图的方法。此外,我们融合信息跨多个层提高最后的歧视能力事先特性。

广泛的实验结果在四个数据集与各种环境条件的变化表明,(a)我们建议的方法是快速,GPU内存效率和基于pretrained模型没有微调或再培训和(b)的歧视能力高于事先特征提取的方法的特征地图所有测试数据集上的方法。此外,我们的方法也类似与原始图像的方法,用最先进的定位精度。

本文的其余部分组织如下。部分2简要回顾相关文献对视觉定位。部分3描述和分析现有方法提取事先特性。部分4提供我们的方法的细节。部分5介绍了实验和结果。最后,我们得出结论的工作部分6。

CNN的出现之前,视觉定位方法主要依靠手工开发的计算机视觉特性,以代表场景中观察到车辆或移动机器人导航。一个流行的基线算法之间的传统方法是FAB-MAP [2]。用当地冲浪等功能来代表一个图像,实现高效与bags-of-words图像匹配。对于大满贯,RTABMap [22,23使用筛选和冲浪。另一方面,一些方法使用二进制地方特色的高效匹配。例如,通过编码简单和快速二进制字,装进一个袋子里,(24)进行快速定位。最近,ORB-SLAM [25通过使用ORB功能)显示有前途的性能。然而,大多数当地特点的方法证明了有限程度的环境不变性,尽管显示一个合理程度的角度不变性(1]。这种有限的成功的原因是地方特色通常只有部分不变的环境变化。

相比之下,全球基于功能的方法展示了更好的环境的不变性。例如,依据特征被用来构造一个完整的描述符的一个图像在视觉定位应用,如(3,6]。除了要点,BRIEF-Gist [5]进一步集成短暂来提高图像匹配的效率计算的汉明距离。处理重大环境变化由于天气,白天,和季节,SeqSLAM [7)和它的变体(8- - - - - -10已经开发出来。他们利用时间信息和图像序列的一致性,而不是单一的图像定义的地方。然而,这些全球基于特征的方法很容易失败的角度变化。总之,传统方法难以满足实际需求条件,同时体验环境和观点的变化(1]。

与优秀的力量在各种视觉任务,CNN已经普遍应用于视觉定位,取得了可喜的成果12,26,27]。一个综合评价中执行26]表明,事先的歧视能力特性更比最先进的手工的特性,比如要点(28),(29日],费舍尔向量[30.),和弗拉德31日]。此外,事先的优势特性与各种环境变化已经被另一项评估的研究进一步证实了(27]。从那时起,事先特性已被广泛应用于提高一些现有的视觉定位方法如SeqSLAM [7和season-robust方法使用网络流11),取而代之的是事先手工功能特性(12,32]。

而不是直接使用pretrained CNN模型,一些作品33,34)调整或重新设计和重新训练专业cnn的数据集视觉定位,为了进一步提高事先的歧视能力特性。无论如何,因为事先特性仍作为全球形象描述符,上面提到的所有这些方法受观点的弱点敏感性,尽管他们对环境变化的鲁棒性已得到改进。

为了解决这个问题,事先landmark-based方法提出了在13]。它已被证明具有挑战性的环境中最先进的定位精度。这种成功是由于两个原因。首先,角度不变性是通过结合全球和地方特色的好处1]。第二,相比以前的方法是用手工视觉特性,这种方法提高了检测到的描述能力地标,歧视的事先的充分利用功能(26,27]。然而,事先特征提取方法中使用这种方法缺乏时间效率所需的视觉定位自动车辆的应用。它是需要产生一个有效的解决方案具有良好的不变性特性,本文中描述的动机的研究。

3所示。现有事先特征提取方法

在本节中,我们将描述现有的方法提取事先特性和详细讨论其优点和缺点。根据事先的类型的子图象特征提取,现有事先特征提取方法分为两组:原始图像和功能基因图谱。类似于R-CNN [19),原始图像的方法通常是第一批从原始输入图像对应的子图象的边界框如图发现地标1再调整到预先定义的维度,在喂养成一个CNN网络提取事先特性。所示(13),事先由这样一个特征提取方法足够歧视在困难的条件下实现最先进的定位精度。然而,它的计算通常是耗时太长,以满足实时要求。这是因为这些方法不仅需要调整裁剪子图象也反复评估CNN网络的层多次有路标在图像中发现。尽管所有裁剪区域发送到网络作为一个批处理可以减少运行时间,计算效率仍不令人满意。此外,所有裁剪图片批处理的增加GPU内存的要求,使其在嵌入式系统中实现困难或GPU资源有限的移动设备,普遍装备的自主车辆。

相反,特征图谱方法更高效的计算以及GPU内存,但是他们事先特性更少的歧视。类似于快速R-CNN [20.),功能使用地图的方法直接从特征图中提取事先特性在最后和粗卷积层。具体地说,他们利用RoI (20.]直接池特性检测具有里程碑意义的特征图谱,然后生成一个固定长度的表象来描述这个具有里程碑意义的。这样,CNN的卷积层网络只需要计算一次对整个图像。出于这个原因,特征图谱方法比原始图像方法要快得多。尽管计算优势,事先由现有功能基因图谱特征提取方法比原始图像更有识别力的方法。这是由于这一事实特征图谱downsampled形式的原始图像,导致性能损失。例如,每个特性在Conv5层地图的大小一样的小当发送原始输入图像的像素像素到AlexNet网络(16]。显然,这样的一个小功能,地图相当粗糙。因此,事先提取的特征具有里程碑意义的可能不包含足够的区别的信息,如果其边界框不够大。事先特性的缺陷歧视力量往往降低了最终的定位精度,特别是在重要的观点的情况下改变。

总之,现有特征提取方法没有成功解决问题实现计算和GPU内存效率高和高歧视力量同时,作为我们研究的动机。

4所示。我们建议的视觉定位方法

在本节中,我们提出的方法有效的事先landmark-based视觉定位。我们的方法是在图的细节2。将会看到,我们的方法是简单明了的。这里,我们首先描述如何构建提出多个RoI池层然后提出我们的特征提取方法。

图2

说明我们提出事先的特征提取方法与多个RoI池(MRoI)。为了便于理解,我们在(a)现有的功能使用地图的方法,直接使用快速R-CNN [20.)提取事先特性。此外,我们还显示RoI池层的原则(b), (c)中说明了我们的方法。很明显,我们的方法很简单,因为它只需要添加两个额外的RoI池层(例如,和)背后的Conv3和Conv4层。请注意,“” 代表了矢量化RoI池特性从相应的RoI池层。为目的的功能融合,首先是- - - - - -然后连接()。最终的输出事先的特点快速R-CNN和我们的方法被表示为“”和“ ,分别”。为了清晰起见,我们现在只有三个边界框(BBs)检测到在一个图像。

4.1。MRoI:多个RoI池

在本质上,我们建议MRoI是一个增强版的RoI池层,这是一个特殊的池层快速R-CNN Conv5层后(20.]。

一个RoI池层的原理如图2(b),需要作为输入(通道)的数量特征图谱的卷积层和边界框(BBs)所有检测到的地标,如图2(b) (i)。基于变换的原始输入图像的大小之间的关系和特征图谱,这些论坛转换为相应的区域(roi)感兴趣的特征图谱。对于每一个RoI,其地区分为空间垃圾箱,如图2(b)(2)(为了清晰起见,我们只画空间箱)。此外,马克斯池执行在每个空间本在所有频道。因此,对于每一个里程碑式的发现,它的子图象特征图,这是一个多维数组的大小可以获得,如图2(b) - (iii)。这些子图象最后作为RoI池具有里程碑意义的功能。因此,通过使用RoI池层,快速R-CNN等功能使用地图的方法计算整个图像的特征图只有一次然后池功能任意地区的一个里程碑式的发现来生成它的表示。最重要的是,RoI池避免反复计算卷积的层。这是特性的主要原因基于地图的方法通常比原始图像方法快得多。

尽管速度优势,事先由现有功能基因图谱特征提取方法比预期的更少的歧视,因为这些方法从只有一个RoI提取特征池层Conv5层后,即粗卷积层。提高辨别能力,同时保留高计算效率,我们提出一个MRoI池层,它是由三个RoI池层,利用从多个卷积层比这更精细和更丰富的信息可以从一个单一的层。

建设MRoI很简单。如图2(c),我们只需要简单地添加两个额外的RoI池层,也就是说,和 ,分别在Conv3和Conv4层。注意,两个额外的RoI池层很容易插入任何pretrained cnn,因为我们只需要稍微修改相应的配置文件,也就是说,通过复制的设置后面Conv3和Conv4层。因此,我们的方法可以工作在一个“即插即用”的解决方案。

4.2。事先与MRoI特征提取

对于每个图像中检测到的地标,我们提取其事先功能基于MRoI三个步骤:(S1)MRoI池在多个卷积层:从每个RoI池层MRoI,相对应的RoI池特性检测具有里程碑意义的第一次。如上所述,这个RoI池特性是一个多维数组的大小。所以它是矢量化。我们从RoI表示矢量化RoI池功能池层 ,在哪里。(S2) 一层一层地正常化MRoI特性。正常化,我们观察到在我们实验改善定位精度。它的定义如下: (S3)整个MRoI层融合归一化特性。为了提高最后事先的歧视能力特性, ,我们把- - - - - -连接整个MRoI层的特性: 在哪里意味着连接(34]。

所有检测到的地标的事先特征提取如上所述。注意步骤2和3是后处理MRoI层通过步骤1的输出。

5。实验评价

为了验证方法的有效性,我们在四个数据集进行实验评估。在这一部分中,首先提供实验装置方面的测试数据集,方法相比,评价原型,和评价指标。然后,我们将实验结果对定位精度反映提取事先的歧视能力特性,计算成本和GPU内存效率。

5.1。实验装置

5.1.1。测试数据集

本文四个流行的视觉定位数据集,表现出典型的变化在实际视觉定位应用程序被用来评估性能。所有数据表中列出的主要属性1。样本图像如图1。(一)为UACampus(35]数据集,两个子集捕获06:20和二二15被使用,因为他们相对照明展览最大的改变。手动生成地面真理,他们的图像匹配。(b)为圣卢西亚(36]数据集,两个子集收集时间为9月10日,2009年9月11日和15 2009年被使用,因为他们表现出最大的外观变化引起的照明和阴影。在我们的实验中,我们使用1000图像均匀取样的每个两个子集。生成地面真理,两张图片在30米距离的计算基于全球定位系统(GPS)被认为是相同的位置。(c)为Nordland(37]数据集,春天和冬天子集被使用,因为他们表现出最大的变化出现季节性变化所造成的。在我们的实验中,我们使用1000图像均匀取样的每个两个子集。这些子集时间同步是用于创建地面真理。换句话说,一个图像在春天与给定的帧数子集对应于图像帧数相同的冬天子集。(d)的Mapillary(38)数据集从Mapillary下载(39),另一个像谷歌街景服务。它被认为是一个理想的平台,提供了数据集的可视化定位在日常条件下(13]。评价一个重要观点下的性能变化以及一些外观变化由于天气的变化,我们专门下载了2028图像对与不同的观点在欧洲的几个国家。考虑到GPS阅读附加在每个图像相当不准确,我们首先利用GPS数据创建初始地面实况,然后手工精制初始地面实况。

5.1.2中。比较的方法

评估我们的方法的性能,我们将我们的方法与上述两组的代表方法在以下实验。此外,为了检查我们的方法对泛化能力不同的CNN模型,我们进行了AlexNet实验(16]和VGG-M1024 [17),两个基本的和受欢迎的CNN模型。值得注意的是,我们的策略比较性能表现最好是使用单一的CNN层(即。pool5)作为代表和比较它与提出MRoI方法。单层的相对性能成立于我们的早期研究[26),证明使用pool5作为代表。为简单起见,在本文的其余部分,我们采用以下符号引用相比,两种方法和我们提出的方法的两个变量:(我)AlexNet和VGG-M1024现有的两个典型代表原始的基于图像的方法。他们提取事先AlexNet pool5 CNN模型层的特性和VGG-M1024,分别。注意调整子图象可以送入CNN模型两种方式中的一种:一个一个(a)和(b)在一个批处理。两种方式产生相同的事先特性但需要不同的计算成本和GPU的记忆,我们将讨论的结果部分。(2)FastRCNN-AlexNet和FastRCNN-VGG-M1024是两个典型的代表退出功能使用地图的方法。我们直接跑Fast-RCNN (20.]在CNN AlexNet和VGG-M1024模型提取事先在pool5层特性。(3)我们建议的方法的两种变体本质上是上面的增强版本的代表特性基于地图的方法。因此,他们表示MRoI-FastRCNN-AlexNet和MRoI-FastRCNN-VGG-M1024。不仅我们的方法提取事先特性层还补充说和层。的值对应RoI3、RoI4 RoI5层,这些的MRoI-FastRCNN-AlexNet分别是384、384和256的吗MRoI-FastRCNN-VGG-M1024分别是512、512和512。

5.1.3。视觉定位的原型

验证该方法的有效性在事先landmark-based视觉定位,我们跑了视觉定位使用最先进的框架提出了(13]。在这里,我们提供了一个简短的总结这个框架的完整性。更多细节关于这个框架,读者被称为(13]。注意我们的特征提取方法不是特定于这个框架,可以很容易地用于其他框架事先landmark-based视觉定位。(我)具有里程碑意义的检测:在13],100地标图像检测。相比之下,(13),不同的是,我们的实验我们发现地标使用必应(40)而不是EdgeBoxes (41),这两个对象的建议方法检测社区开发的对象。我们喜欢“必应”有以下三个原因:(一)已经证明在42),EdgeBoxes相比,BING已经稍微更好的重复性,这是一个重要的属性定位精度;(b)我们之前的实验也表明,定位精度评估通过必应是可比较的,或在某些情况下甚至比EdgeBoxes存在严重的环境变化;和(c)必应的速度优势,这是一个关键考虑实时视觉定位的应用程序。在我们的测试中,BING比EdgeBoxes快一个数量级,执行时间为24女士/图像在桌面电脑。(2)事先特征提取与降维:提高效率在随后的图像匹配和存储,与一个合适的降维方法通常应用于提取事先特性。后(13),所有事先提取特征的维度在我们的实验中被减少到1024 - d使用高斯随机投影(GRP) [43,44]。注意,所有事先提取功能规范化GRP之前执行。(3)图像匹配:[的方法13)使用双向匹配基于线性近邻搜索找到匹配的地标。这种匹配策略优化的准确度,因此比较适合提取事先的歧视能力特性。因此,我们已经实现的方法(13对我们的评价。确保实验的有效性评估,验证了我们的实现繁殖的结果(13]。

为每个数据集表1,第一个子集被认为是查询的视觉定位,集和第二子集是用作数据库(map)。为每个查询中图像集,我们从数据库中找到自己的最佳匹配图像集。在这里,我们专注于找到正确的位置没有习惯验证使用,例如,多视图几何。因此,对应的地面真理是用来确定正确性,然后评估定位精度。

注意,本文中的实验都是运行在桌面PC和八个核心(电子邮件保护)GHz, 32 GB RAM内存和一个GeForce GTX泰坦X GPU 12 GB的内存。在所有的实验中,我们使用咖啡(45),这是一个流行的深度学习框架,提取事先特性。

5.1.4。评价指标

评估的歧视能力事先特征提取方法的视觉定位,我们比较其定位精度与比较方法在以下四个方面流行的指标:(一)Precision-recall曲线是一个标准的标准用来评估范围的定位准确性的信心阈值(1]。这是定义如下: , ,在那里 , ,和显示的数量真阳性,假阳性,假阴性,分别。通过改变阈值的信心,我们可以产生一个precision-recall曲线。一般而言,在所有回忆值精度高是可取的。(b)最大精度为100%召回是一个流行的标准直接评估定位精度不使用一定的阈值。这一标准是有用的,特别是在环境变化条件下或跨多个不同地区。在这样的环境中,一个最优阈值通常是很难预先确定的信心。为了避免错过可能的正确定位,在这种情况下,每个查询图像总是从数据库中找到一个最佳匹配阈值图像没有信心。(c)最大的召回精度100%是一个关键指标评价方法的性能在优先级的情况下避免假阳性本地化。(d)平均精度(美联社)是非常有用的,当一个标量值需要描述视觉定位的整体性能(26,46]。平均精度捕获此属性通过计算精度在召回所有值的平均值的precision-recall曲线。

此外,平均运行时间的形象测量来评估计算效率。最后,实际的成本GPU内存记录评估GPU内存效率。

5.2。定位精度

在本节中,我们比较两个变量的定位精度的方法,MRoI-FastRCNN-AlexNet / VGG-M1024相比,与上述前四个指标的方法。相应的结果如图3和表2,3,4。从这些结果,通常可以观察到,在所有的方法中,我们的方法的两个变量是最好的或最好的把所有的测试数据集,和原始图像方法是第二或系最好的,其次是功能地图是最糟糕的方法。以下可以进一步观察。(一)我们可以看到在图3和表2,FastRCNN-AlexNet / VGG-M1024相媲美AlexNet / VGG-M1024在环境中不重要的观点的改变,比如UACampus,圣卢西亚,Nordland数据集。然而,他们都不如AlexNet / VGG-M1024在处理重要的观点变化在Mapillary数据集展出。这说明我们的目标是解决的问题。(b)它可以清楚地看到从图3和表3两个变量的方法比原始的基于图像的方法,也就是说,AlexNet / VGG-M1024,环境没有显著的观点改变(作为UACampus展出、圣卢西亚和Nordland数据集),并与这些原始图像方法在环境重要的观点变化像Mapillary数据集。(c)从图一可以清楚地观察3和表4precision-recall曲线和由我们三个数值指标MRoI-FastRCNN-AlexNet / VGG-M1024是高于特性基于地图的方法,也就是说,FastRCNN-AlexNet / VGG-M1024在所有的数据集。此外,两个变量的方法的优越性越来越明显的环境中重要的观点改变如Mapillary数据集。考虑到功能基因图谱方法从只有一个RoI提取特征池层粗卷积后层(即。,the Conv5 layer), these comparison results demonstrate that using our MRoI method to fuse the features extracted from multiple RoI pooling layers is able to enhance the discrimination capacity of the final ConvNet features. As a result, our method improves the localization accuracy of feature map-based methods in environments with different kinds of conditional changes.

表4

定位精度的比较MRoI-FastRCNN-AlexNet与FastRCNN-AlexNet和MRoI-FastRCNN-VGG-M1024与FastRCNN-VGG-M1024的最大精度为100%召回(Pr. 100% Re),最大召回精度在100% (Re.公关。100%),并平均精度(美联社)。最高的价值对每个指标在每个数据集以粗体突出显示。中间斜体值之间的差异MRoI-FastRCNN-AlexNet / VGG-M1024和FastRCNN-AlexNet / VGG-M1024。

(一)UACampus

圣卢西亚(b)

(c) Nordland

(d) Mapillary

定性评估我们的方法的匹配结果,图1显示匹配的图像对的例子和相应的匹配具有里程碑意义的对我们所产生的MRoI-FastRCNN-AlexNet。六个图片来自一个数据集,每一行和三双代表正确匹配图像的方法。可以看出,匹配的地标正确识别,甚至在不同的环境变化。这些结果表明,事先有满意的歧视能力特征提取的方法。

5.3。计算效率

评估计算效率,我们报告平均运行时间的形象我们的方法和比较的方法提取事先特性表5。为AlexNet / VGG-M1024计算成本,我们也报告他们在发送100地标为咖啡一批100年发现的。相应的成本来标示/ VGG-M1024_b。具体来说,平均运行时间的表列出了分解图像,即预处理的计算成本,通过咖啡和后处理。预处理的成本AlexNet / VGG-M1024和/ VGG-M1024_b是最高的。原因如下。在喂养牛奶之前使用一个原始映像的方法时,子图象的检测到地标首先需要根据他们从原始输入图像裁剪边界框,然后缩放和裁剪子图象预定义的尺寸来满足网络的要求。结果,计算成本高达30.3 ms /形象。后处理的,只有我们的方法需要几毫秒正常化MRoI池的输出层。此外,一些进一步的观察可以根据结果表5,如下所示。(一)FastRCNN-AlexNet / VGG-M1024远快于AlexNet / VGG-M1024(次),甚至27/27/ VGG-M1024_b(7 / 6倍)。这验证我们的动机,即功能使用地图的方法在计算效率大大优于原来的基于图像的方法。(b)两个变量的方法,MRoI-FastRCNN-AlexNet / VGG-M1024女士只有大约九,每低于相应的形象特征基于地图的方法,FastRCNN-AlexNet / VGG-M1024。更重要的是,两个变量实现实时计算效率、平均运行时间为29.0和46.2 ms /图像,分别。如此高的效率两个变量预计,因为他们继承的特点功能使用地图的方法。(c)两个变量的方法19和22倍AlexNet / VGG-M1024分别,都是大约5倍/ VGG-M1024_b。

表5

比较平均运行时间的形象和两个变量之间的GPU内存成本我们的方法和比较的方法来提取事先特性。的总运行时间由预处理的计算成本,通过咖啡和后处理。请注意, / VGG-M1024 _b引用的成本计算和GPU内存当发送100地标为咖啡一批100年发现的。“-”意味着计算成本可以忽略不计。我们可以清楚地看到两个变量的计算速度和GPU内存消耗我们的方法是关闭的FastRCNN-AlexNet / VGG-M1024和几次更快和更少的比 / VGG-M1024 _b。

5.4。GPU内存效率

评估GPU内存效率,我们报告GPU内存成本我们的方法和比较的方法提取事先特性表5。可以看出AlexNet / VGG-M1024需要最少的GPU内存(183/229 MB);然而,/ VGG-M1024_b消耗最大GPU内存(880/1965 MB),因为他们发现派遣100名地标为加速咖啡一批100。相比AlexNet / VGG-M1024,GPU内存成本的方法,MRoI-FastRCNN-AlexNet / VGG-M1024分别,增加57 MB和167 MB。然而,我们的GPU内存消耗仍然是大约4和5次不到的/ VGG-M1024_b,分别。此外,相比FastRCNN-AlexNet / VGG-M1024,我们的GPU内存消耗只增加22 MB和29 MB,分别使用MRoI池层的原因。或许最重要的是,我们两个变异的GPU内存成本仍然保留240 MB和396 MB,分别。这意味着我们的方法能够满足视觉定位的要求在GPU资源有限的嵌入式系统和移动设备。

6。结论

在本文中,我们提出了一种简单而有效的方法事先特征提取的多个RoI池landmark-based视觉自动车辆定位。我们的方法的目的是提供优秀的定位精度与原始图像的方法,同时保持高计算效率的特性基于地图的方法。为了达到这个目标,我们的方法利用效率的RoI池和融合多层次、多分辨率信息从多个RoI池层改善事先提取特征的辨别能力。

实验结果在四个受欢迎的视觉定位数据集已经证明,事先区别的特征提取的方法使我们能够实现最先进的定位精度和计算效率高,平均运行时间为29.0毫秒图像在同一时间。此外,我们的方法是GPU内存高效的移动设备。此外,它是基于一个pretrained CNN模型没有微调或再培训为了便于使用,这对我们是很重要的克服困难造成的视觉定位缺乏训练数据的研究。简而言之,该MRoI方法提取高度有效地识别事先特性,以及可能扩展在解决其他视觉任务,目标检测和目标识别等。

的利益冲突

作者宣称没有利益冲突。

确认

作者欣然承认支持湖南省研究生创新基础(CX2014B021)和湖南省自然科学基金(2015 jj3018)。这项研究还支持通过佛山创新团队的项目(批准号由国家自然科学基金委(批准号2015 it100072)和61673125)。

引用

美国洛瑞,n . Suenderhauf, p .纽曼et al .,“视觉识别:一项调查,”IEEE机器人,32卷,不。1 - 2016页。
视图: 谷歌学术搜索
m·康明斯和p·纽曼FAB-MAP:概率定位和映射空间的外观,“国际机器人研究杂志》上,27卷,不。6,647 - 665年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
辛格和j . Kosecka“视觉循环关闭使用要点描述符在曼哈顿的世界,”诉讼的IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”全向机器人视觉工作室,2010年。
视图: 谷歌学术搜索
h·张,“BoRF: Loop-closure检测与规模不变的视觉特性,”《2011年IEEE机器人与自动化国际会议上,ICRA 20112011年5月,页3125 - 3130。
视图: 出版商的网站 | 谷歌学术搜索
n Sunderhauf和p . Protzel BRIEF-Gist——关闭循环通过简单的方式,”学报2011年IEEE / RSJ智能机器人和系统国际会议:庆祝50年的机器人——“112011年9月,页1234 - 1241。
视图: 出版商的网站 | 谷歌学术搜索
y刘和张h .视觉环路闭合检测一个紧凑的图像描述符,”学报》第25届IEEE / RSJ机器人和智能系统,国际会议上——2012年2012年10月,页1051 - 1056。
视图: 出版商的网站 | 谷歌学术搜索
m·j·米尔福德和g . f .惠氏SeqSLAM:视觉基于路径导航阳光明媚的夏天,暴风雨的冬夜,”诉讼的IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,第1649 - 1643页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
y刘和张h .”,提高序列大满贯的效率,”学报第十届IEEE国际机电一体化和自动化(国际会议13)高松,页1261 - 1266年,日本,2013年8月。
视图: 出版商的网站 | 谷歌学术搜索
m·米尔福德”,建立识别:你能到多低呢?”国际机器人研究杂志》上,32卷,不。7,766 - 789年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
e . Pepperell p i刘纪麟m·j·米尔福德,“视觉识别与智能,所有环境”《2014年IEEE机器人与自动化国际会议上,ICRA 20142014年6月,页1612 - 1618。
视图: 出版商的网站 | 谷歌学术搜索
w·t·Naseer l . Spinello Burgard, c . Stachniss“健壮的跨季节使用网络流,机器人视觉定位”人工智能学报AAAI会议2014年7月,页2564 - 2570。
视图: 谷歌学术搜索
z, a .雅各布森o . Lam和m·米尔福德“卷积神经网络识别,”机器人和自动化学报澳大拉西亚的会议上,肢端20142014年12月,页2 - 4,。
视图: 谷歌学术搜索
n . Sunderhauf s Shirazi a .雅各布森et al .,“地方识别事先地标:Viewpoint-robust condition-robust,教练免费,”学报2015机器人:科学和系统会议,RSS 2015,罗马,意大利,2015年7月。
视图: 出版商的网站 | 谷歌学术搜索
p . Neubert和p . Protzel局部区域检测器+基于CNN地标为实际位置识别在变化的环境中,”移动机器人的欧洲会议,ECMR 20152015年9月,页1 - 6,。
视图: 出版商的网站 | 谷歌学术搜索
p . Neubert和p . Protzel“超越整体描述符,要点、和固定补丁:多尺度Superpixel网格位置识别在变化的环境中,“IEEE机器人与自动化信件,1卷,不。1,第491 - 484页,2016。
视图: 出版商的网站 | 谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12)2012年12月,页1097 - 1105。
视图: 谷歌学术搜索
k .地方k . Simonyan a Vedaldi, a . Zisserman“魔鬼在细节的回归:深入深入卷积网,”25日英国机器视觉会议程序(BMVC 14)2014年9月,英国诺丁汉。
视图: 谷歌学术搜索
k . Simonyan和a . Zisserman”大规模图像识别,很深的卷积网络”美国在国际会议上学习表示(ICLR),2015年。
视图: 谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)俄亥俄州哥伦布市,页580 - 587,美国2014年6月。
视图: 出版商的网站 | 谷歌学术搜索
在r . Girshick“快速R-CNN。学报》第15届IEEE计算机视觉国际会议(ICCV 15)2015年12月,页1440 - 1448。
视图: 出版商的网站 | 谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”先进的神经信息处理系统,第99 - 91页,2015年。
视图: 谷歌学术搜索
m·拉贝风和f·米肖德外貌的环路闭合检测在线大规模和长期操作,“IEEE机器人卷,29号3、734 - 745年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
m·拉贝风和f·米肖德在线全球大规模multi-session基于大满贯,环路闭合检测”学报2014年IEEE / RSJ智能机器人和系统国际会议——2014年2014年9月,页2661 - 2666。
视图: 出版商的网站 | 谷歌学术搜索
d . Galvez-Lopez和j . d .缓慢地”袋二进制字快速识别在图像序列,”IEEE机器人,28卷,不。5,1188 - 1197年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
r . Mur-Artal j·m·m·蒙特埃尔和j . d .缓慢地“ORB-SLAM:一个多才多艺的和准确的单眼大满贯系统”IEEE机器人没有,卷。31日。5,1147 - 1163年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
y侯,h·张,s .周“卷积神经网络图像表示为视觉环路闭合检测”《IEEE信息与自动化国际会议上(ICIA)2015年8月,页2238 - 2245。
视图: 出版商的网站 | 谷歌学术搜索
n . Sunderhauf s Shirazi f . Dayoub b . Upcroft m·米尔福德,“事先的性能特性进行识别,”《IEEE / RSJ智能机器人和系统国际会议——2015年2015年10月,页4297 - 4304。
视图: 出版商的网站 | 谷歌学术搜索
a·奥利瓦和a . Torralba建模场景:的形状的整体表示空间信封,“国际计算机视觉杂志》上,42卷,不。3、145 - 175年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
j . Sivic和a . Zisserman”视频谷歌:文本检索方法在视频对象匹配,”学报》第九届IEEE计算机视觉国际会议(ICCV ' 03)2003年10月,页1470 - 1477。
视图: 谷歌学术搜索
f . Perronnin和c跳舞,”Fisher内核对图像分类,视觉词汇表”《2007年IEEE计算机学会学报计算机视觉与模式识别、会议CVPR ' 072007年6月,页1 - 8,。
视图: 出版商的网站 | 谷歌学术搜索
h . Jegou m . Douze c·施密德和p·佩雷斯,“局部描述符聚合成一个紧凑的形象代表,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR 10)2010年6月,页3304 - 3311。
视图: 出版商的网站 | 谷歌学术搜索
t . Naseer m . Ruhnke c . Stachniss l . Spinello和w·Burgard“健壮的视觉在赛季大满贯,”《IEEE / RSJ智能机器人和系统国际会议——2015年2015年10月,页2529 - 2535。
视图: 出版商的网站 | 谷歌学术搜索
m . Shahid t Naseer, w . Burgard”DTLC:深入训练循环关闭检测终身的视觉冲击,”RSS学报》研讨会上视觉识别:它有什么好处呢?2016年。
视图: 谷歌学术搜索
r·阿罗约p . f . Alcantarilla l . m . Bergasa和e . Romera”融合和二值化跨季节,CNN功能强大的拓扑定位”学报2016年IEEE / RSJ智能机器人和系统国际会议——2016年2016年10月,页4656 - 4663。
视图: 出版商的网站 | 谷歌学术搜索
r . y . Liu冯,h·张,“关键点匹配约束,通过异常修剪共识”《2015年IEEE机器人与自动化国际会议上,ICRA 20152015年5月,页5481 - 5486。
视图: 出版商的网站 | 谷歌学术搜索
a·j·格洛弗,w . p . Maddern m·j·米尔福德和g . f .惠氏,“Fab-map + ratslam:外貌的大满贯一天多次,”诉讼的IEEE机器人与自动化国际会议的举行(“国际机器人与自动化会议”10)2010年5月,页3507 - 3512。
视图: 出版商的网站 | 谷歌学术搜索
p . Neubert: Sunderhauf, p . Protzel”Superpixel-based外观变化预测长期导航整个赛季,”机器人和自治系统,卷69,不。1、15 -,2015页。
视图: 出版商的网站 | 谷歌学术搜索
y侯,h·张,s .周”树型索引实时事先landmark-based视觉识别,”国际先进的机器人系统杂志》上,14卷,不。1,2017。
视图: 出版商的网站 | 谷歌学术搜索
Mapillary, 2016,https://www.mapillary.com。
m m。程,z, W.-Y。林,p .托,“BING:关键赋范估计在300 fps,渐变为客体性”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)2014年6月,页3286 - 3293。
视图: 出版商的网站 | 谷歌学术搜索
c . l . Zitnick和p .美元”,从边边框:定位对象建议,”《欧洲计算机视觉大会14)施普林格,页391 - 405年,2014年。
视图: 出版商的网站 | 谷歌学术搜索
j . Hosang r·纳森p .美元,席勒的影子,“是什么让有效检测的建议?”IEEE模式分析与机器智能,38卷,不。4、814 - 830年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
达斯古普塔,“实验随机投影,”不确定性人工智能的会议,第151 - 143页,2000年。
视图: 谷歌学术搜索
e·宾厄姆和h . Mannila随机投影降维:应用图像和文本数据,”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 01)2001年8月,页245 - 250。
视图: 谷歌学术搜索
y, e . Shelhamer j·多纳休et al .,“咖啡:快速卷积架构功能嵌入”ACM国际会议多媒体学报》上ACM,页675 - 678年,奥兰多,佛罗里达州,美国,2014年11月。
视图: 出版商的网站 | 谷歌学术搜索
w·苏y元,m·朱”之间的关系的平均精度和ROC曲线下的面积”第五市立图书馆学报》国际会议信息检索理论,ICTIR 20152015年9月,页349 - 352。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2519年

下载

1671年

引用