文摘

传统视觉同时定位和地图(VSLAM)系统主要依赖于静止的世界的假设,这限制了他们的应用程序在实际场景中动态对象。当动态场景中的对象时,系统的定位精度下降严重。在本文中,为了减少动态对象的干扰视觉定位,我们提出一个实时和健壮的动态干扰消除(DIR)方法,基于先验知识和几何信息。我们的方法使用一种新颖的轻量级CNN网络输出语义标签和扩展了语义相关性的基础上描述符生成一个分段的面具。我们设计一个几何一致性检验模块删除动态干扰,计算包的调整预先确定静态要点,然后语义加权纵向约束是用来识别动态异常值。该方法集成到前端的ORB-SLAM2过滤出动态要点相关的已知和未知动态对象。我们公共TUM RGB-D数据集进行实验,定性和定量结果证明DIR方法可以提高系统的性能先进的VSLAM在动态场景。

1。介绍

移动机器人是一个智能系统,集成了多种功能,如环境感知、动态避碰和运动控制。确保各种功能的移动机器人,视觉同步定位和映射(VSLAM)被认为是根本问题。近几十年来,VSLAM系统(1- - - - - -7)基于视觉传感器已经吸引了越来越多的关注和研究,一个令人满意的性能,可以促进高层任务(8- - - - - -10]。通常情况下,一些良好的VSLAM系统已经被开发出来,例如ORB-SLAM2 [3]和LSD-SLAM [2]。给定的序列图像,这些系统可以联合估计相机姿势和生成一个连续的相机轨迹。然而,绝大多数VSLAM系统是基于静态环境的假设,通过静态特性集估计造成的。因此,他们很容易受到意想不到的环境的变化,如动态,尤其是人类。在这些场景中,动态内容影响VSLAM的整个过程,这不可避免地会降低定位精度和可靠性。

为了解决这些问题,采取了许多算法使现有VSLAM系统dynamic-object-aware [8,11- - - - - -19]。算法,如随机样本共识(RANSAC) [20.,21受聘拒绝离群值,可以削弱动态优化的干涉特性。然而,这些算法往往失败当移动物体占据一个摄像机的视野的重要组成部分。与纯粹的优化特征的方法相比,区别一个场景的内容作为静态或动态效益视觉定位在动态场景中(8,11- - - - - -14]。

随着机器学习的发展,VSLAM系统结合发达(深度学习方法15- - - - - -19]。先进的卷积神经网络(CNN)的架构如面具R-CNN [22有人知道由罗[],23],SegNet [24)应用于有效地获取先验知识,用于场景的对象进行分类。然而,这些方法处理已知的对象而忽略未知的动态对象,标记为背景。因此,它并不足以判断对象只有通过先验知识。另外,大多数这些方法受到计算成本高,容易造成信息损失。因此,鲁棒性和较低的计算成本等方法是两个挑战。

在本文中,我们提出一种实时和健壮的动态干扰消除(DIR)方法对于动态场景,这主要包括语义和几何一致性检验模块的一部分。小说的前由语义分割网络和动态相关地区,它介绍了提供pixel-wise分类和扩展的语义与动态对象的地方。后者使用束调整和语义加权纵向约束识别并拒绝动态异常值。总结了该方法的主要贡献如下:(1)我们提出一个新的轻量级的语义分割网络建立在MobileNetV2 [25),动态对象称为De-MNetV2,哪个更敏感和不显眼的细节。获取动态内容完全,我们定义的地方与动态像素的动态相关地区和扩展这一地区的相应的语义。(2)我们设计一个有效的几何一致性检验模块,该模块是基于束调整(BA)和对极几何约束的语义权重。前预先确定静态计算要点,避免信息丢失,强劲,后者用于识别动态要点已知和未知的对象。(3)我们将该方法插入ORB-SLAM2 (3),叫做DIR-SLAM(动态干扰去除大满贯系统)。广泛使用TUM RGB-D基准数据集实验(26)令人信服地证明视觉定位精度在动态环境中可以大大提高。

本文的其余部分组织如下:部分2总结了各种动态大满贯方法并提出了在动态环境中VSLAM问题的本质。部分3描述了该方法的理论内容和验证。部分4展示了实验结果和分析。我们得出一些结论并提供未来的工作部分5

在动态环境中,一些地区的图像可以被动态像素。因此,产生的视觉定位精度无法保证动态内容的融合。为了解决这个问题,我们给出一个综合分析现有的动态VSLAM算法部分2并解释动态VSLAM问题的本质部分2.2

2.1。现有的动态VSLAM算法

直接方法主要依赖于时间和空间相干性的动态点,如几何结构的比较8,11- - - - - -14]。Jaimez et al。11)使用k - means聚类算法和reprojection错误分类几何静态或动态集群,那么密集的动态点删除。Scona et al。8)采用传感器信息融合和点的静态概率优化机器人的姿势。太阳et al。14)设计了一种运动除RGB-D大满贯的方法来解决这一问题在动态环境中,这可以通过密度估计可能的前景点光流计算。根据提供的3 d信息RGB-D相机,深度信息可以被视为唯一的分类标准。李,李12]目前静态加权法来处理深度边缘点来表示一个点的可能性被静态环境的一部分,它可以提高跟踪和映射性能。

尽管是适用于动态环境中,这些方法使用图像中所有像素的姿势估计;因此,投影误差引起的干扰如相机噪声和光照变化不能妥善处理,因此可靠定位结果往往不一致。此外,几何结构只能确定移动物体而不是可移动的物体,比如那些在他们的环境中保持静态。因此,有必要引入先验知识来推断可移动的对象。

繁荣的深度学习技术,基于功能特性的VSLAM结合深度学习方法可以提供先验知识发展迅速推断出动态对象与令人印象深刻的表现(15- - - - - -18]。Yu et al。15)采用SegNet获取语义和检查移动的一致性,然后由过滤优化定位要点对人类。Bescos et al。16)结合多视图几何模型和面具R-CNN检测动态对象和使用区域增长算法删除所有映射过程中的动态点估计静态地图。程等。17)联合使用YOLO3更快R-CNN, SSD检测模型作为先验知识生成模块,然后一个贝叶斯框架应用于确定和丢弃动态区域。

2.2。在动态环境中VSLAM问题

在基于功能的VSLAM系统中,动态对象引起的干扰是多方面的,主要反映在要点、描述符,和几何结构。动态移动物体上的关键点,导致不准确的跟踪地标。与此同时,由于patch-based描述符是由抽样相邻点的面积(27),因此,描述符将包含动态内容时动态要点中存在区域,这是不利于特征匹配和姿态估计。最后,动态要点破坏几何结构的一致性和引起冲突,这直接减少视觉定位的准确性。

VSLAM问题的本质在动态环境中观察;因此,我们过滤掉不可靠观测动态干扰消除。正如我们讨论的部分2.1,因为有高动态概率的对象容易引起姿势估计错误和轨迹跟踪失败,我们认为有必要使用深度学习网络之前推断可移动的对象。然而,网络的预测结果往往不准确,因此不容忽视的几何结构,表达观点的一致性。图1显示动态要点可以摧毁对极几何约束。

相比之下,部分中提到的方法2.1,我们提出的方法分为基于特征VSLAM结合深度学习方法和部分中我们描述了详细的特征3

3所示。DIR-SLAM

3.1。方法概述

ORB-SLAM2 [3)是最常用的解决方案视觉定位和显示性能优良在大多数实际情况。然而,在动态环境中,它受很多。因此,我们提出一个动态干扰消除方法(DIR),名叫DIR-SLAM。DIR-SLAM如图的流程图2

3说明了DIR方法的细节。它包含以下四个部分:(1)语义部分;(2)动态相关性;(2)特征匹配;(3)几何一致性检查模块。语义部分,我们设计一个轻量级的语义分割网络输出的语义标签,根据运动的可能性排列从0(背景)20(人)。然后,语义内容是根据动态扩展相关地区和生成一个分段的面具。中定义的动态相关区域部分3.3。我们使用分割掩模提供语义权重。跟踪特性匹配,摸清当前帧与前一帧之间通过光流(28)来生成初始特征匹配。在几何一致性检验模块中,首先计算英航静态要点,符合前面的相机的姿势然后对极几何约束的语义权重计算识别并拒绝动态异常值。

3.2。语义分割

连续帧捕捉到一个移动相机是不可避免的模糊或出现重影,这需要更高的场景解析能力。此外,经常变化的动态对象的细节,导致强烈的干扰和不显眼的像素帧。因此,值得捕捉细节。为了解决这些问题,我们提出一个发达MobileNetV2 [25)网络,即。,De-MNetV2。De-MNetV2如图的网络结构4

4显示了金字塔池模块(PPM) PSPNet [29日)是与支柱,即PSP头收集全局上下文信息,提供了一个完整的对场景的理解。考虑到网络的低级层次丰富的空间细节(31日),我们插入两个跳过连接分支熔断器的低级功能增加细节,这好处高级特性。树枝首先提取底层特征通过扩张卷积,然后我们用完全连接层尺寸一致。最后,细节从树枝和全局上下文信息提供的PSP头叠加和发送到译码器来预测语义标签。

PSP头既能开发适应性和场景解析在动态环境中减少不匹配和混淆类别。与此同时,细节可以受益网络提高分类性能。我们认为这些改进对于分类在动态环境中非常有用。

3.3。动态相关区域

在基于功能的VSLAM方法,相机姿势估计通过匹配要点的描述符,如ORB (32],筛选[33,狂(34]。在这里,我们以ORB算法为例来说明动态点和邻居之间的关系。接下来,我们地区受到动态对象定义为动态相关地区。

ORB算法使用Rotation-Aware短暂(rBRIEF)描述符。生成rBRIEF描述符,pixel-wise循环采样块集中在关键点是首先根据关键点的方向旋转,保证旋转不变性。为中心的圆形贴片关键点如图5

在图5,假设 是静态的,定向角吗 是计算35] 在哪里 定义如下(35]:

可以看出 密切相关的强度吗 的补丁。因此,当 是移动,重心 飘来 取向偏差角 可以表示如下:

在这些情况下,rBRIEF描述符包含动态内容,从而影响特性匹配。验证的影响,我们模拟定位rBRIEF描述符的计算过程。双帧捕获来自不同条件来表示各种动态环境。我们在图显示比较结果6。首先,我们灰色图像与高斯滤波器的内核 方向是计算(2),和角度偏差 计算每个像素的图像对之间的方程(3)。直观地, 值之间 是按比例缩小的红色通道的 并由一个面具。红颜色、角度偏差越严重,显示较强的动态对象的影响。

仿真结果表明,动态对象不可避免地会影响静态点。尤其是在与半径的圆周边地区 我们注意到动态语义应该occupythese领域,这将更好的发挥知识的作用。因此,我们这些区域定义为动态相关地区。

根据(1)和(2),我们采用形态学膨胀算法扩展动态对象的语义覆盖动态相关地区。扩张的内核 可以解释为

然后,分割掩模框架的更新。不失一般性,如果采用另一个特征提取器,参数 只需要调整基于块的大小。

3.4。几何一致性检查模块

我们设计一种自适应几何一致性两个连续帧之间的止回阀模块,可应用于场景与已知和未知动态对象强劲删除动态干扰。首先,我们计算BA (36估计静态要点,符合前面的相机的姿势。然后,对极几何约束的语义权重计算识别并拒绝动态异常值。

如图7,我们假设关键点 在当前帧 是与 在前面的帧 ,这意味着相机观察 匹配配对的坐标可以表示为 自前一帧的构成,根据reprojection模型,我们可以尊重观察指出,世界坐标系,计算相应的3 d坐标 因此,reprojection错误之间 计算如下: 在哪里 当前帧的投影函数, 前一帧的构成。我们设置一个小的价值 (1.0),从而摸清满足方程(5)被认为是静态的,它是直接保留内围层。对于其他配对,纵向线 的关键点 计算如下: 在哪里 表示基本矩阵和一个,B,C表示真正的向量。然后,的距离 纵向线 用以下方程:

由于传感器误差和动态干扰,摸清偏离纵向线。更大的距离 ,更有可能的关键点是动态的。在这里,我们使用之前的语义信息来衡量距离 ,标签的值是根据安排运动的可能性从低(0)高(20)。因此,高运动覆盖概率低的标签的语义扩展后部分3.3。我们分配的标签值和相应的语义权重如图8

如图8重量,语义与对象移动的可能性增加。我们采用分段面具提供语义的重量 最后距离函数计算如下:

用于识别并拒绝动态异常值。当 大于某一阈值(1.0),关键点是一个动态的点和被拒绝。

我们提取结果的几何一致性检验的单步模块如图9。在图9(一个)绿色的点由英国航空公司预定的窗。这些要点是公认的静态和优先用于避免信息丢失。在图9 (b)语义的距离加权epipoplar几何计算,和动态过滤要点红点所示。蓝色的点代表其余的静态要点,用来跟踪构成。

4所示。实验

证明了本文提出方法的有效性,我们进行对比实验和评估结果定量和定性的方法。在本节中,我们通过实验评价了该方法的有效性从以下两个部分:(1)De-MNetV2网络;(2)DIR-SLAM。

4.1。De-MNetV2网络

De-MNetV2网络数据集训练在2012年帕斯卡VOC (37]。模型可以检测20包含常见的动态对象的类,例如,人,猫,狗,就可以满足测试要求的中空的数据集(26]。如果环境很复杂,模型应该被训练在可可数据集(38)对多类别进行分类。在公共平台上实现培训Keras GTX 2080 ti,英特尔e5 - 2678 v3 CPU和64 gb RAM。为数据增加,我们随机扩展(从0.5到1.5)和左右翻转的输入图像。图像裁剪 和分组批大小6。我们最初的学习速率0.0001,逐渐减少到0遵循“保利”的策略 (39]。网络训练与亚当,重量的衰变设置为0.00001。pixel-wise骰子损失(40)作为损失函数。

我们进行实验评估指标平均交叉在联盟(mIOU)和平均像素精度(mPA)。表1给出了语义分割2012年帕斯卡VOC的比较验证集。

我们的网络实现mIOU 75.75%和mPA的84.06%。与原MobileNetV2相比,mIOU MobileNet + PSPNet减少了2.31%。由于多尺度金字塔池模块抽象高级特性,提高现场解析,但减少轻量级网络的分类能力。跳过插入后连接分支的mIOU De-MNetV2 MobileNet + PSPNet高出2.14%,这表明从低级层次细节的融合可以提炼高级特性,提高整体性能。MobileNet + DeepLabV3相比,执行最佳的语义分割性能的原始论文(25),我们的网络很有竞争性。

10列出的比较场景解析能力和细节De-MNetV2与MobileNet∗DeepLabV3。这些结果表明,动态对象De-MNetV2更敏感,误分类和不连续的标签更少。我们建议De-MNetV2更适合我们的要求。

从表23,我们可以看到,DIR-SLAM竞争吃和RPE值在大多数的序列,这表明,我们的方法达到优秀的性能。结果说明该DIR方法有一个指数增长率相比原ORB-SLAM2在高动态场景中,这是有效的和优秀的。

类似于DS-SLAM,我们段现场,使用纵向约束来确定并拒绝动态异常值。的原因,我们的方法优于DS-SLAM因为我们扩展动态相关地区的语义获取先验信息更全面,我们利用语义权重动态目标的运动更加明显。除此之外,我们不集群像素或几何结构的要点。所有的要点确定强劲及独立实验结果的可行性。与DynaSLAM相比,实验结果表明,我们的性能非常接近。在语义部分DynaSLAM扩展语义相似,但没有进入进一步的理论分析。DynaSLAM依靠面具R-CNN和多视点几何提高语义,这让在昂贵的计算成本。我们的方法是由一个轻量级De-MNetV2实现网络和语义扩展的动态相关地区,快速和高效。

我们评估的准确性与不同的配置系统,和吃的RMSE表所示4。我们测试四种不同配置DIR-SLAM。(1) :MobileNet∗DeepLabV3用于语义分割(2) :语义不扩展到覆盖动态相关地区(3) :语义权重不习惯(4) :英航的几何一致性检验模块不计算

4表明DIR-SLAM比另外一些更好的结果。针对表2,我们注意到我们的方法的实验结果并不理想,在低动态序列。由于鲁棒性,ORB-SLAM2足以克服动态干扰引起的轻微运动。f3 / s / xyz序列,ORB-SLAM2吃的是0.0097米,比我们的方法。然而,表4表明,DIR-SLAM配置了语义优于其他人在这个序列中,语义权值删除。因此,我们认为知识会导致信息丢失。我们使用英航验证要点之间的一致性和前一帧的姿势,预定的静态要点,减少信息损失。DIR-SLAM实验结果而言,差距DIR-SLAM和ORB-SLAM2 f3 / s序列很小。

11显示了比较的结果序列的轨迹。我们使用三种类型的线条来表达轨迹。可以看出DIR-SLAM的轨迹接近地面真理,这表明DIR-SLAM更精确的定位结果。尽管实验结果有一定程度的不确定性,他们仍然基本上遵循规律。基于定性分析的结果,较大的DIR-SLAM更适合高动态场景摄像机运动。

4.2。DIR-SLAM

我们已经评估公共TUM RGB-D DIR-SLAM数据集(26),并与其他先进的VSLAM系统(15,16]。运行时分析了我们方法的有效性进行了验证。此外,我们证明了我们的方法的性能与Kinect V1在实际环境中。

序列的描述评价如下:f3序列动态对象序列,它包含四种类型的相机运动。(1)一半(一半球体):相机一直在移动一个小球体直径约一米的一半。(2)rpy:相机一直沿着主轴旋转(roll-pitch-yaw)在同一位置。(3)静态:相机一直保存在手动位置。(4)xyz:手动相机一直沿着三个方向(某某),同时保持相同的方向。具体来说,f3 / s意味着f3_sitting序列,描述低动态场景,和f3 / w意味着f3_walking序列,描述高动态场景。后缀 代表验证序列与地面未披露的真相。每个序列包含RGB和深度图像记录完整的帧速率 大小。我们完成所有的实验笔记本2.6 GHz的英特尔i7 - 9750 h, 16 GB的RAM, NVIDIA GTX1660Ti, Ubuntu16.04。

定量评价指标的比较,分别采用绝对轨迹误差(吃)和相对误差(RPE)。我们的方法与其他方法相比的均方根误差(RMSE)和标准差(SD)。

我们选择了最先进的动态VSLAM方法DS-SLAM [15],DynaSLAM [16],和原始ORB-SLAM2 [3),性能比较。所有的方法都是基于ORB-SLAM2,比较结果如表所示23

我们的系统是一个实时的语义系统。为了展示效率,我们主要处理模块的平均计算时间相比DIR-SLAM和ORB-SLAM2之间。找到一个关系的计算成本和动态点的数量,我们选择f3 / w /静态序列和f3 / w / xyz序列进行比较。就像前面提到的4.2运动在f3 / w / xyz是更复杂的,因为相机总是移动。结果如表所示5

模块在表5对应图3。具体来说,语义部分与系统作为一个单独的GPU并行运行的线程。在几何一致性检验模块中,f3 / w / xyz花费更多的时间比f3 / w /静态的。因为动态分f3 / w / xyz序列更分散,基本矩阵 需要更多的迭代时间。在姿态估计,DIR-SLAM比原ORB-SLAM2更快,由于动态异常值被拒绝,提出优化的收敛速度正在加快。最后,跟踪是主要的线程来处理每一帧,我们的方法的成本低于100 ms和人脑一样快41]。

4.3。鲁棒性测试在实际环境中

DIR-SLAM ROS和积分在实际环境中进行实验验证了鲁棒性和实时性。Kinect V1相机帧捕获 持续时间约为2分钟。DIR-SLAM在实际环境中测试的实验结果如图所示12。红点是动态的要点,由该方法确定的,蓝色的点是静态的要点。

在实际环境中,一个人拿着一本书坐在前面的相机,相机是静态的。注意,这个人是标记,但这本书却不是。在图12(一个)人在运动,当这本书同时保持静态,动态要点基本上分布在人。在图12 (b)这本书是感动,但人不是,所以我们的方法可以识别动态分布式书中的要点。我们记录完整的实验测试视频:https://wo712268.lofter.com/post/1d4e8522_2b40b2d53

5。结论

在本文中,我们提出一种实时语义DIR-SLAM解决动态环境中的视觉定位的问题。正如我们之前描述的,我们拒绝所有动态要点的先验知识和几何约束。我们使用ORB-SLAM2 [3)的系统框架和执行公共TUM RGB-D实验数据集(26]。从结果中,我们注意到,我们的系统可以比高动态场景超过低动态场景,并坚定地在未知环境中生效。

然而,错误仍然存在。方法不能处理轨迹偏差由摄像机运动引起的。处理造成的估计误差引起的快速和巨大变化的观点,我们打算尝试一个affine-invariant特征提取器更适应相机的运动。除此之外,我们的目标是加入语义映射和背景修复方法DIR-SLAM实现实时密集的映射。

数据可用性

作者使用第三方数据。可以获得更多的信息关于这些数据的引用,C。刘,Z。,Liu, X.J., Xie, F., Yang, Y., Wei, Q., and Fei, Q., 2018. DS-SLAM: A semantic visual slam towards dynamic environments, in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROSs).https://doi.org/10.1109/IROS.2018.8593691。Bescos B。,Fácil, J.M., Civera, J., Neira, and J., 2018. DynaSLAM: Tracking, mapping, and inpainting in dynamic scenes. IEEE Robotics and Automation Letters.https://ieeexplore.ieee.org/document/8421015

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由陕西复杂系统控制和智能信息处理重点实验室(批准号2020 cp05),陕西省自然科学基础研究项目(批准号。2022金桥jm - 711和2022 - 348),西安科技局领先科技创新项目(批准号。21 xjzz0022和21 xjzz0020),陕西省和关键R & D计划(批准号2020 zdlgy06-01),中国国家自然科学基金(批准号61873200)。