文摘
为了提高移动机器人的环境感知能力在语义导航,一个三层感知框架提出了基于转移学习,包括识别模型,一个旋转区域识别模型,和一个“方面”识别模型。第一个模型是用来识别不同地区在房间和走廊,第二个是用来确定机器人应该是旋转的,第三个是用来决定走廊的一边走在房间里或走廊。此外,“边”的正确识别模型也可以实时机器人的运动,根据特定的目标是保证准确到达。此外,语义导航实现仅使用一个传感器(相机)。几个实验是在一个真正的室内环境,进行证明的有效性和鲁棒性提出的认知框架。
1。介绍
使机器人自主导航在现实世界环境中是一个非常具有挑战性的主题领域的机器人技术与信号处理密切相关,机器视觉,等等。机器人应该具有自适应能力的规划中最优路径映射实现任务时(1]。传统的导航方法强烈依赖于度量或拓扑映射和约束的几何描述,假设的最短路径是最好的(2- - - - - -4]。然而,人类导航不依赖于“最好”,但在看到[5]。从图像语义信息可以进一步抽象根据它来决定去哪里。通常情况下,我们可以认识到房间、走廊、门、通道等计划供参考一个房间的运动从一个地方到另一个建筑。此外,我们还应该知道确切的场景中以正确的道路上继续前进。换句话说,我们可以调整回来,如果我们意识到我们正走在一个倾斜的方向。因此,移动机器人应该有能力执行类导航上面提到的。
语义导航被视为一个系统考虑语义信息表达的环境,然后来实现机器人的定位和导航。近几十年来,已经进行了大量的尝试专注于为机器人语义导航找到适用的解决方案。语义导航方法通常采用拓扑结构(6- - - - - -8),抽象语义的地方和对象不同的节点。预计每个节点准确地观察到在运动。然而,这些节点可能不是直接通过观察移动机器人的运动补偿。此外,人类的导航取决于他们的两只眼睛,装备上的多个传感器的移动机器人背后的动机在处理导航任务。
本文的主要贡献是提出一个三层感知框架基于转移学习只使用视觉信息,包括识别模型,旋转区域识别模型,“边”识别模型。使用这个框架,可以实现语义导航通过只有一个相机,可以解决移动机器人的运动补偿。不同于传统语义导航方法,该算法使用转移学习训练和识别环境中的语义信息,只使用一个RGB相机实现整个语义映射和导航。通过输入图像的识别,可以为机器人提供导航的重要语义信息,导航在走廊和识别等领域。
接下来的工作是组织如下。在2.1节讨论一些相关工作后,2.2节讨论的细节提出三层感知框架。第三节展示了我们的方法得到的一些实验结果。最后,第四部分总结了纸。
2。材料和方法
2.1。相关工作
语义信息被用来推断出室内环境信息和提高规划效率(5,9- - - - - -11]。同时,它吸引了大量的关注领域的大规模的导航,寻求处理问题在更高的维度12]。这种类型的导航是灵感来自人类,地方的全球地图,但没有描述的语义信息。在移动机器人导航语义识别主要用于地方,允许移动机器人基于地方建立关系(13]。拓扑结构通常采用语义导航、机器人可以计划他们的路径在一个较高的维度14,15]。在拓扑结构、地方往往抽象节点,和访问订单提取边缘。
各种方法试图解决语义导航问题在不同的观点;例如,约瑟夫et al。16)使用人类的运动模式预测路径根据实际人类走动朝着一个目标,同时避免障碍。小波等。17)提出了一个语义导航方法可以直接从自然语言解析(例如,“进入或离开房间,顺着走廊直到隔壁,等。”)。赵和陈18)编码的场景信息,语义上下文和几何背景条件随机域(CRF)模型,计算一个同步标签图像区域的语义类和结构对象类。霍恩et al。19)使用语义标注技术实现路径规划。在这些系统中,图像中每个像素分类自动到语义类,然后从诱导视觉图像产生知觉,强调某些类。最近,基于学习的神经网络已广泛应用于机器人(20.]。深度学习的方法解决语义导航问题已经成为一个重要的方法获取语义信息(显示了强大的能力21- - - - - -23]。朱et al。24)提出了一种目标导向的视觉导航方法使用强化学习模型,概括了跨目标和场景。Furuta et al。25]提出了基于语义地图导航由生成的深度学习使语义注释的世界地图和基于对象的语义地图导航使用学到的表示。
最上面提到的方法有两个主要问题:(1)每个节点的拓扑结构是一个特定的目标,这可能不是观察到通过边缘移动机器人的运动补偿。(2)使用多个传感器,照相机等移动机器人图像采集和激光映射和运动。
两个问题促使我们当前的工作,旨在为企业实现视觉语义导航类的方式使用只有一个相机。
2.2。基于深度学习的视觉语义导航
人们获得环境的感知通过眼睛看到的图像,然后指导行为。因此,我们可以从“perception-guidance”模型来控制机器人。在本文中,一个三层感知框架基于转移进行学习是一个常见的场景(由多个房间和走廊,如图1)。这个框架只能依靠单个摄像机的图像信息感知周围环境,确定区域机器人站和当前姿势,为语义导航提供决策信息。
2.2.1。三层感知框架
移动机器人通常工作环境如图1。它可以认为房间的数量 和语义任务是移动机器人的一个命名空间 来 。实现这一语义任务,机器人首先需要确定初始语义区域,然后计划路径到达目标区域(虚线的导航路径,如图1)。作为机器人的输入信息仅仅是图像通过一个相机,学习算法可以用来训练机器人的环境感知模型实现语义导航的目的。
每个房间和走廊通常归类为一个类别,但只有机器人所在区域可以被识别。需要额外的传感器实现自动导航的机器人,虽然我们已经获得了语义地图。很难完成整个语义导航在一个单一的神经网络模型,因为它不能同时为机器人提供导航信息。因此,我们设计一个三层感知框架组成的三种感知模型,这是地方识别模型(人口、难民和移民事务局),旋转区域识别模型(3 rm)和“边”识别模型(SRM),如图2。
人口、难民和移民事务局是用来识别语义区域机器人目前所在地。然后根据语义拓扑地图导航任务。3 rm是确定关键区域之间转移时区域,如旋转的位置在一个机器人从一个房间的门的走廊。SRM是提供一个机器人之间的相对姿态信息和环境控制运动。“端”意味着一个机器人位于一侧。机器人可能位于左侧,中心,或右侧,当它在走廊或通道。
(1)位置识别模型(人口、难民和移民事务局)。当机器人实现语义任务,它是必要的,以确定它的语义区域和目标的地方,然后进行语义导航计划。在一个类似于图的环境1,语义任务可能会从一个房间到目标区域的位置的另一个房间,或者从走廊到特定区域的一个房间里。很难执行导航规划,因为初始位置和方向都是不确定的。有几个主要通道行走在一个房间里;因此,一些地区可分为根据这些通道,而且每一个地区被认为是一种语义。语义区域的识别模型可以被训练在机器学习中使用图像分类的方法。它需要收集每个语义区域不同的位置和角度的图像作为训练样本。
语义区域划分的数量th房间在走廊里和语义区域的数量 ;然后,可以计算语义区域的总数
深入学习是广泛应用于图像分类和ImageNet挑战取得了卓越的成就;例如,前5名谷歌的网络模型准确率Inception-V3达到96.5% (26,27]。此外,转移学习可以使用复杂的训练神经网络模型训练新的分类减少训练样本的数量,节省培训时间(28,29日]。因此,语义区域识别的神经网络模型是使用转移设计的学习。Inception-V3模型包括《盗梦空间》的11层模块,它使用多个分支中提取高层特征不同的抽象级别丰富的表达能力。语义感知区域的神经网络模型框架基于转移学习如图3。模型的输入是RGB图像。在ImageNet Inception-V3模型训练数据集的参数用于计算网络向前传播,和2048个节点的瓶颈层。最后完全连接层FC所取代。输出类别的数量总数语义区域 。然后,将Softmax层计算,输出每个语义区域类别的概率。我们直接使用Inception-V3模型图像特征提取,然后将提取的瓶颈特征向量训练一个单层神经网络完全连接。
假设输入RGB图像 ,输出的瓶颈是 (下标””意味着瓶颈;后是瓶颈层节点)的数量计算函数Inception-V3模块和FC的输出层 (下标””意味着完全连接层)。
瓶颈的输出可以被计算
和选择ReLU FC层的激活函数,然后FC的输出层可以给出的 在参数和的重量和偏见是FC层,分别。
FC层的模型参数是需要训练的网络,并可以通过参数的数量 在哪里参数的数量。
最后,将Softmax函数用于获取每个输出的概率。输出 (下标””意味着Softmax层)可以获得的
对于每一个输入图像,属于每个类别的概率值可以计算出人口、难民和移民事务局的模型。和最大概率的类别是最终的识别结果。
(2)旋转区域识别模型(3 rm)。通过识别模型,机器人可以识别该地区位置保持,但它也需要区域转移到达到目标的识别信息,比如如何到达房间的门从一个地区。机器人在语义区域之间转移,通常执行旋转,它需要识别旋转。为了实现机器人的旋转区域的识别图像信息,一个旋转识别感知模型提出了基于转移学习。机器人的旋转位置是被感知的房间走廊和门地区与地区。
通常,机器人的房间和走廊之间的运动分为四个病例:(a)从一个房间到左边的走廊,(b)从一个房间到右边的走廊,从走廊的左边(c)的房间,和(d)从走廊的右边的房间。我们可以获得最好的旋转区域通过分析机器人的体积和转弯半径,这意味着达到近门口的中心线或旋转后走廊。因此,门口的导航识别区域可分为如图4。
导航识别区域三个蓝色虚线框,如图4。和识别区域进入房间的左侧走廊(路径1)。识别区域进入房间右边的走廊(路径4)。识别区域进入房间的左边或右边走廊(路径2和路径3)。总之,和被称为入口处识别区域,然后呢被称为退出识别区域。符号”“在下标意味着房间。
房间里的导航在语义区域之间还需要识别旋转识别区域,如图5。房间里语义区域划分根据前一节中描述的方法。语义区域划分的数量th房间 。机器人应该认识到两个相邻的语义之间的旋转位置区域。因此,它是必要的,以确定的位置和收集图像识别区域。识别区域被描述为图中虚线框5,箭头表示机器人的运动方向。
为了确定旋转识别区域的数量,有必要分析识别区域的分布在房间里。该地区的中线可以连接(如红色虚线图5),然后可以获得所需的识别区域根据连接。等连接“”类型,需要三个区域,而““类型需要两个地区。
我们可以假设的数量””类型的连接th房间 ,和的数量””类型的连接是 ;然后,数的地区房间可以计算
此外,有三个旋转识别区域在每个房间的门;总数的地区
当房间和走廊之间的机器人的移动,它首先需要认识到旋转识别区域,然后旋转到相应的方向。识别区域的位置确定在每个语义区域和图像应该收集相应的方向。然后,每个区域是被训练成一个类别。机器人的位置和方向是有限的在一个固定的范围内对每个识别区域收集图片。在该地区 ,机器人应该在走廊的中心线向正确的方向。在该地区 ,机器人位于走廊的中心线方向向左。在该地区 ,机器人应该在门口的方向的中心走廊(垂直于走廊延伸方向)。此外,我们需要收集图像旋转识别外的地区在神经网络训练不承认。
转移法的神经网络训练学习,和输出节点旋转识别区域和不承认地区;数量是 ,给出的
神经网络结构类似于图2这里没有,它的结构。经过训练的神经网络模型作为旋转识别区域感知模型指导机器人通过不同的语义区域。
(3)“边”识别模型(SRM)。为了减少碰撞时,机器人的移动在走廊或房间,必须能够感知机器人的姿态。作为机器人的输入图像,我们可以学习的过程,人们走在走廊里,然后设计一个“侧”识别模型。首先,我们分析机器人的运行状态在走廊里。其次,认识到机器人位姿的神经网络模型是由转移训练学习。
移动机器人的移动在一个二维平面上;其构成包括位置和姿态。有9个不同国家根据位置和姿态,朝着走廊如图6。其中,职位分为走廊中心,左边,右边,和方向分为中心方向,左,和正确的。为方便描述,机器人的九个州是缩写,如表所示1。当机器人移动在一个房间里,其姿势状态类似于在走廊里,有九个州。门地区相对较少,为了避免碰撞的机器人,它需要感觉和调整其经过门的时候。因此,图像的方法收集每个房间的门口是类似于走廊,如图7。
当机器人处于不同的状态时,它的摄像头(固定在机器人的前进方向)观察不同的图像。因此,我们可以通过图像分类识别姿势状态。类似于上面的培训模式,在走廊里的机器人识别神经网络模型是使用转移学习设计。最后完整的连接层Inception-V3模型修改输出机器人的九个州,然后是单层完全连接神经网络训练。
机器人观察到图像在不同姿势时需要收集培训模型。便于控制和减少感知模型,图像在同一姿势状态放在一起,作为一个类别来训练网络模型。覆盖可能的场景中,数据收集需要两个运动在走廊和门口。
初始位置和方向可能在任何情况下,运动可能会偏离中心方向;有必要根据每种情况下调整控制。姿势状态表中给出相应的控制策略2。机器人的状态可以通过输入图像,识别和相应的控制,使机器人沿着中心。
2.2.2。语义的移动机器人导航
当移动机器人执行语义导航多个房间和走廊之间,有必要确定拓扑关系语义区域根据先验信息。一个室内环境通常包含几个房间和走廊;(如图的拓扑关系8)之间的任何语义地区可以结合室内语义区域划分(如图5)。语义拓扑关系图是一个有向图的连接节点,该节点是一组语义区域和边缘是一组旋转识别区域。语义区域通过旋转识别区域。任何两个语义区域之间的拓扑关系可以计算有向图,和导航路径最小的语义区域数量和最优路径选择。
机器人的语义导航路径可以通过拓扑图自动生成图8,用于指导机器人运动。与此同时,三层感知框架部分中描述3.1用于获取相应的知觉信息做出决策。假设机器人目前门地区的房间 ,语义任务到达房间 ;然后,机器人的决策过程如下:(一)它决定了语义区域使用人口、难民和移民事务局。(b)它获得的姿势使用构成感知模型和调整位置和姿态走向门口。(c)它确定机器人在不承认地区或旋转识别区域使用3 rm。机器人使直接不承认地区。和机器人旋转走廊时退出检测识别区域。(d)它获得机器人的使用SRM构成相对于走廊,和机器人沿着走廊中心通过控制策略表行2。(e)机器人旋转向房间门口时识别区域的空间检测到使用3 rm。(f)机器人沿着门口的中心线的控制策略表2。
我们实现机器人语义导航从当前区域目标通过上面的算法。在整个生产过程中,机器人只依赖于图像信息感知和决策,不使用里程计、激光或其他传感器信息。
3所示。结果与讨论
为了验证提出的视觉语义导航算法的有效性,几个实验在移动机器人平台上进行。首先,介绍了实验环境,然后三级环境感知模型的训练过程。最后,机器人的语义导航实验房间的走廊和房间进行。
3.1。介绍了实验环境
室内环境包括一个走廊,四个房间被选中来验证语义导航算法,如图9。实验使用Mecanum轮子移动机器人是一个全向平台。它能够实现在任何方向运动。Kinect传感器用于实验只使用RGB彩色图像。
3.2。培训的三层感知框架
RGB图像使用Kinect传感器收集培训环境的三个认知模型如图9。
3.2.1之上。人口、难民和移民事务局的培训
模型用于分类的语义地区四个房间和走廊。我们控制机器人移动,同时收集图片。机器人旋转一圈当它向前移动1米。Kinect的帧速率是30 f / s,它可以捕获足够的训练数据。在每一个房间,两个主要通道选为语义区域。节点模型的输出9当添加一个走廊地区。
3.2.2。培训3 rm
模型提供了旋转位置对机器人导航语义区域。首先,识别地区是至关重要的决定在每个房间的门口。根据描述部分3.1在入口处,我们收集图像识别区域,退出识别区域,而不承认。此外,图像识别地区每个房间应该收集。训练网络模型有21个输出节点根据(7)和(8)。
3.2.3。SRM的培训
模型提供了位置和方位知觉信息相对于运动控制的环境。RGB图像采集部分中描述的方法3.1在走廊里。分别九个类别的图像在不同的位置和方向的走廊和房间收集。位置和姿态分为中心,左侧和右侧分别。
此外,我们需要收集走廊图像在两个方向上。九的校正策略提出了机器人是否一致在走廊或房间。因此,图像在同一国家被训练为一个类别和输出节点的数量是9。
使用转让的进行神经网络训练学习算法与丽台科技方形住宅区K4200显卡。10%的样本数据是随机选择被选中作为测试集验证组和10%。这三个模型的训练数据和结果如表所示3。测试集的测试结果的准确性非常高,表明经过训练的神经网络模型有安静好识别对语义的影响区域,识别区域,和机器人姿态。
3.3。视觉语义导航实验
为了验证的有效性提出了机器人的三层感知框架语义导航任务,机器人的实验从走廊到房间和房间。
3.3.1。语义导航实验从走廊到房间
为了验证模型的有效性和鲁棒性,语义导航实验的九个初始姿势。实验结果如表所示4,它显示了机器人的初始位置的图像在走廊,走廊图像观察到相机,和语义导航的轨迹。很明显,走廊图像在不同的位置是不同的,这有利于分类。为了描述语义导航的过程中,使用二维激光建立环境地图,和机器人的轨迹在地图上显示。的轨迹图,它可以观察到,当当前姿势状态之间的偏差和走廊中心,姿势调整是自动实现的。在门口,旋转操作时实现机器人识别入口处识别区域,和多个构成进行调整根据观察到的状态。机器人可以沿着中心门口的方法。
的有效性和稳定性SRM被上面的实验验证。机器人可以正确认识到当前状态的位置和姿态不同初始姿势和实时纠正自己的姿势,以确保稳定的运动。
3.3.2。语义导航实验从一个房间到另一个房间
语义导航实验从一个房间到另一个房间进行验证该框架的有效性。一系列的语义任务” ”进行。机器人最初位于房间门口的语义区域1,但没有得到的初始信息。语义任务到达的地区其他三个房间,分别。
运动轨迹如图10。首先,机器人识别其语义地区人口、难民和移民事务局和生成一个语义导航拓扑。然后,机器人向左旋转到走廊时退出检测识别区域。机器人直接到认识到房间的入口识别区域2和向右旋转进入了房间。相同的过程实现到达房间3和4。通过轨迹可以看出,机器人可以调整本身实现语义任务,继续沿着中线,直到目标地区被公认。
实验表明,三级感知框架只能执行在语义任务使用一个相机。它提供了重要信息,引导导航。此外,它可以正确的运动的态度不断收益率更高的可靠性和稳定性。
4所示。结论
本文提出了一种新颖的视觉语义导航方法使用三层感知框架基于转移学习。模型包括识别模型,旋转区域识别模型,和“边”识别模型,用于确定语义区域和识别旋转区域的位置和姿态信息相对于环境。只有一个相机传感器是用于我们的系统。此外,“边”识别模型能够正确的自动机器人的构成,提高运行可靠性。语义导航实验是在走廊和房间,进行结果验证我们方法的适应性和鲁棒性。我们想要探索环境变化的适应性和语义考虑行人的动态规划算法在未来工作。
信息披露
李王,三位霍是共同第一作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作是由中国国家自然科学基金(61473103,61473103,61473120),黑龙江省自然科学基金,中国(F2015010) Self-Planned任务(SKLRS201715A号、SKLRS201609B sklrs - 2017 - kf - 13)的机器人技术与系统国家重点实验室(打击)的基础创新研究群体的中国国家自然科学基金(没有。51521003),广州科技计划项目(201607010006)。