文摘
深入强化学习方法在视觉导航领域已经取得了很大的进步,metalearning-based算法获得更多的关注,因为他们极大地提高了移动代理的可扩展性。根据metatraining机制,通常一个初始模型是由现有的训练作为metalearner导航任务,成为在新场景通过递归试验相对较少。然而,如果metalearner训练过度的前任务,它可能很难实现泛化在陌生的环境中导航作为初始模型是比较偏向前环境配置。为了培养一个公正的导航模型和提高其泛化能力,我们提出一个无偏Model-Agnostic Metalearning (UMAML)算法对目标导向视觉导航。灵感来自entropy-based方法,最大化输出标签分类任务的不确定性,我们采取不平等措施用于经济学作为一个简洁的度量来计算损失偏差在不熟悉的任务。简洁地最小化任务损失的不平等,一个公正的导航模型没有偏离剧本表演尤其可以学会根据场景类型Model-Agnostic Metalearning机制。探索代理符合一个更平衡的更新规则,能够收集导航经验培训环境。进行了实验,结果表明,我们的方法优于其他先进的metalearning导航方法的泛化能力。
1。介绍
目标导向机器人视觉导航是一个长期目标的社区。它需要代理导航从任意位置到目标位置1),基于视觉观察和指定的目标(2]。与传统导航模式如大满贯(3)数据效率低,枫树导航模式倾向于将视觉信息聚合成一个有意义的状态,希望学习通过试验解决隐式的导航问题。没有先验知识的任务和内隐记忆的对象之间的关系,一个端到端的枫树学习模式能够映射原始观测值或行为和消除错误应计从主导航工程项目,包括提取观测特征,建立地图,确定目标位置,和规划路径(4]。各种深刻的强化学习方法被采用为视觉导航领域构建DQN等端到端学习体系结构(5]和A3C [6]。与周围环境相互作用后,导航代理能够分析和推断等方面最相关的目标来指导其导航行为。
最近,DRL-based导航研究中存在的主要挑战在于泛化到陌生的环境。这通常被称为模型缺陷问题。DRL模型的事实判断与不变的黑箱模型结构,他们是容易出现变化,在适应新的场景(完全表现不佳7]。一次更新导航模型是完全基于一个特定的任务,它不能被用来解决其他目标或环境的导航问题。为了解决这个问题,提出了大量的工作,如scene-specific模型(8),价值和优势显著地图(9),学习空间上下文(10),和多视图融合技术(11]。然而,这些方法可以充分利用以前的经验和确保良好的稳定当配置为不熟悉的任务。
Metalearning方法介绍了作为一个有效的方法提高DRL模型的泛化能力。根据之前metalearning导航领域的研究,一个初始模型可以被训练在各种培训任务获得的初步认知任务,然后进一步学习最优参数的几个试验达到适应新环境。适应这样的要求不再直接监督但几探索小说环境特色的迭代。很多metalearning-based方法取得了可喜的成果在视觉导航领域提高泛化能力。然而,metalearning算法的主要缺点是,主要模型参数更新可能会偏向某些特定任务在metatraining阶段抽样。某些类的不平衡数据集也可能带来坏影响对模型性能(12]。在这种情况下,初始模型可以容易过度拟合这些特定的场景,不能有效地适应一个陌生的环境与偏离这些偏见的场景。因此,我们尽量避免过度训练的初始模型在一些特定的任务,确保它可以更一般化。
为此,我们提出一个无偏Model-Agnostic Metalearning (UMAML)算法。我们的方法是受不平等的措施中定义经济学,这是以前用来计算收入或投资的区域分异特征。因为每个收入损失训练集可以被看作是一个任务,我们这个指标引入到视觉导航领域task-agnostic导航模型。根据我们的自适应学习架构(4)来自Model-Agnostic Metalearning (MAML) [13),我们通过metatraining解决过度拟合问题的初始模型明确最小化损失的不平等指数的任务。这metalearner需要更新其参数均匀,不过度拟合某些特定的任务。初始参数可以快速调节值方差最容易的任务。作为小说的任务出现时,这些参数继续收敛了一些看不见的环境中探索,直到最后达到适应模型。不像entropy-based MAML方法局限于离散输出从一个模型,我们UMAML算法非常适合深层强化学习机制,使之更适合端到端目标导向导航任务。
2。相关工作
2.1。DRL模型导航
近年来,深入强化学习算法被广泛应用于视觉导航领域。与传统的基于地图的方法(14- - - - - -16)或SLAM-based方法(3,17,18),强化学习方法计划导航路径没有全球运行环境的认知。视觉观察和代理之间的空间关系和对象都是隐式记忆网络。金等。19)关注从视觉中提取环境特征观察,整体导航决策。朱et al。8)提出了一个新颖的深暹罗actor-critic网络导航决策直接根据观察到的信息和目标图像。这样的暹罗网络A3C算法提供了多样化的目标伟大的兼容性。古普塔et al。20.)提出了机器人导航的认知映射器和规划师,旨在产生序列的行为向目标移动。
2.2。视觉和语言
作为目标的视觉特征在同一类别可能截然不同,词汇和自然语言指令已逐渐用于描述目标的导航任务。Misra et al。21)旨在结合原始视觉观察和text-defined目标共同特性。功能由LSTM处理和CNN,代理获得一系列导航指令和移动在一个二维块场景。吴et al。22)重点体现代理可以完成一系列指令在一个简单的迷宫。Radwan et al。23)提出了视觉导航政策上实现一个wheeled-travelling机器人。所有机器人都是所观察到的图像分割的语义类提供一个更好的理解内容的环境,生成更精确的运动轨迹。然而,所有这些研究未能实现泛化到前所未有的环境。
2.3。Metalearning
如今,metalearning方法已经成为更受欢迎的因为他们优化来自多个训练样本的学习经验,快速有效地完成新的任务。常见的metalearning方法包括(1)基于指标的方法(24,25),(2)基于内存的方法(26,27基于],(3)梯度方法(28,29日]。为了达到快速适应新导航任务,采取了许多metalearning技术构建自主学习视觉导航领域的架构。安德森et al。30.)提出了一个metalearning-based之前预先录制的勘探方法优化导航策略。可变性有限机器人可以适应新任务经过一些训练集。刘等人。31日]提出metacritic DRL方法学习参数化技能,移动操作指示的看不见的目标。与这些作品不同的是,我们的方法依赖于MAML算法来完成导航任务在未经训练的场景,促进scene-domain泛化。
3所示。该方法
我们的目标是培养一个公正的导航策略和迅速实现适应陌生环境的能力。除了采用metalearning方法构造一个自适应学习机制,我们的工作提供了新的见解inequality-minimization措施平衡损失函数值计算在metatraining阶段,避免了主模型偏离剧本表演在一个特定的任务。我们将给出一个全面的描述我们的无偏Model-Agnostic Metalearning (UMAML)算法并讨论的特点在本节不平等的措施。
3.1。问题公式化
因为目标导向导航模型的目标是获得最短路径代理其目标的当前位置,RL-based互动过程可以被制定为一个元组( , , , ),视为部分可观测马尔可夫决策过程(32]。观察 ,结合目标在词汇形式和视觉观察当前状态 ,导航模型的处理作为输入。基于强化学习,代理了在室内场景的行为序列 ,在哪里包括三个动作:前进,左旋转,旋转30度。
为了确定最短路径从开始到目标位置,奖励 构造如下:收到奖励10如果代理到达目的地;获得奖励-0.1如果步伐已经过去了。代理停止探索,直到它导航到它的目标或行动的最大数量。评估场景泛化能力,我们设计的一组镜头 和目标对象类 。每个任务用的元组 ,设置场景杂乱的训练任务和测试任务 。剂使学习行为价值函数和更新网络参数在训练和测试过程中,直到它适应测试任务。
3.2。网络体系结构
在图1,显示了该体系结构的概述。DRL模型由四个模块组成:ResNet50模块,fci模块,Vocabulary-Encoding模块,actor-critic模块。这些网络的细节描述如下。
3.2.1之上。ResNet50网络
我们选择ResNet50 (33)网络采用(8从观察到的RGB帧中提取特征。删除最后一个FC层,ResNet50模块插入到前端的模型。所有模块中的参数由ImageNet pretrained然后仍然冻结在整个学习阶段,对培训过程中执行一些特定的场景可能削弱模型的识别性能和带来更多的计算成本。当前处理后观察到框架和三个框架,结合视觉特性是获得并导入到一个完全连接(FC)层与ReLU激活,最终输出512 - d特性决定的基础上。
3.2.2。fci网络
完全卷积Instance-aware语义分割网络(34)采用收购一个分类器,预测,每个像素的语义类根据其可能性分数像素属于特定对象的类别,实现instance-aware语义分割。过滤后nonmaximum抑制(NMS)与一个intersection-over-union(借据,0.3默认情况下),其余地区的利益计算他们的前景面具由每个地图和加权平均分数可能性分类分数,每个像素分配一个炎热的语义类id (35]。类似于ResNet50模块,fci组件也pretrained和训练和测试过程中保持参数不变。当代理小说状态,当前的观察框架将被传递到fci模块和输出作为一个吗 语义地图 ,这表明每个观测区域的语义类(7]。最后,调整四个卷积层,收到512 - d特征向量进行导航的决定。
3.2.3。Vocabulary-Encoding网络
与其他视觉导航模型等,在36),我们利用词汇定义导航目标的观测和目标之间建立语义关系。Word2vec [37)模型配置为另一个输入模块将目标转化为具体的编码向量与上下文关系。宽大的工具包介绍提取word-embedding,带来300 - d功能目标。如图1所示,词向量然后结合ResNet50的输出和fci融合层神经网络类似于暹罗。
3.2.4。Actor-Critic网络
512 - d联合表示连接嵌入的图像和词汇向量,包含两个完全连接层actor-critic模块生成代理需要导航的决定决定了行动。actor-critic梯度和融合模块从政策和价值输出back-propagated低层。
3.3。无偏Model-Agnostic Metalearning
在这项研究中,一个新的task-agnostic学习方法提出了平衡few-shot导航策略。主要培训机制采用基于Model-Agnostic Metalearning (MAML)算法,使主模型来解决新的学习任务仅使用一些训练样本。然而,MAML方法的问题是,在metatraining阶段,初始模型可能会支持一些培训任务,特别是当metatesting任务有很多方差与偏见的。作为一个解决方案,我们介绍了不平等的措施防止metalearner偏离剧本表演培训任务。
3.3.1。MAML-Based视觉导航方法
我们开发一个自适应MAML-based算法来获得正确的初始参数,才能取得快速的进步在导航没有过度拟合的新环境。在测试阶段,任何调整变化将带来巨大的修改任务损失,导致加速收敛。根据MAML,我们定义每个任务 从metatraining采样数据集和metavalidation数据集 。MAML的培训目标如下:
MAML工作的主要目标是确定参数这提供了一个优化的初始模型的快速调整新任务。确保MAML机制可以应用到视觉导航领域,我们已经修改metatraining和meta-adapting阶段。
(1)Metatraining阶段。初始模型和适应过程,提出的参数化功能与参数的损失函数与步长hyperparameters ,在算法概述1。与抽样批次的任务从训练数据集,轨迹使用在收集的操作序列表明当前的导航策略。这样DRL过程涉及到过渡分布 的损失函数采取以下形式:
然后我们采用调整参数分别收集新的轨迹 。毕竟处理,我们最初的自适应模型和参数更新吗所示。
(2)Meta-Adapting阶段。算法1还提出,当初始模型应用于看不见的任务,mini-batch的轨迹是采样。一旦参数终于更新为 ,我们的模型可以在不熟悉的场景可以导航。一般的主要想法是积分产品从 ,任务 ,和相关奖励 作为先验知识迅速泛化测试任务 。
3.3.2。为MAML Inequality-Minimization
MAML和其他一些当前metalearning方法总是有一定缺陷实现泛化metalearner可能偏向特定的培训任务。当处理不熟悉的任务在meta-adapting阶段,这些任务的学习模型的性能可能不满意是训练过度的不同。我们的工作侧重于解决问题的学习偏差和防止metalearning模型过度拟合到一个特定的任务,在任务带来更有效的更新程序。
在这项研究中,我们将介绍不平等性[38)到我们的自适应方法来测量偏差的任务,这是一种金融统计测量经济不平等。损失的每个任务可以被视为收入任务,然后,我们的无偏Model-Agnostic Metalearning算法,损失的不平等应该最小化训练任务平衡对初始模型的影响。因此,由于不熟悉的任务在meta-adapting阶段,模型可以将配备一个更好的泛化能力通过微调无偏初始模型的几个勘探试验的新环境。
这里我们首先描述熵的范式的不平等性。在分类领域,优先计算熵的初始模型抽样在输出概率从 : 在哪里 是一个输出softmax层视为一个分类任务的预测。这个熵不仅可以最大化初始参数的更新,但也最小化更新后用作调整搜索最优参数 。然而,当处理回归和强化学习问题,没有特殊形式的输出来计算熵。我们需要引入不平等性作为替代指标,确保导航模型task-agnostic基于损失或错误的功能。
不平等性来源于熵在信息理论中,认为是数据的差异最大熵和熵。根据方程(3),不平等性采用以下形式: 在哪里的收入吗个人和是所有人的平均收入。表明总个体的数量。在视觉导航领域,和 ,分别代表的损失和所有任务的平均损失 。因此,参数更新如下:
自实现泛化场景包括代理推广到未知的相同和不同,我们设计局部模型和全局模型分别应用到这两个场景。
为当地的模型中,我们定义由采样现场实例的一个特定的任务类型,例如,bedroom01 / bedroom02 / bedroom03 / bedroom04。作为算法1轮廓,轨迹采样,分别从不同的场景一样,最初的模型参数更新根据阶段的不平等性11。
|
对全球模型,我们定义由采样任务的场景不同类型的实例,例如,bedroom01 / bathroom02 / livingroom03 / kitchen04。因为损失在不同房间的偏见和类别需要测量实例,我们分解不平等性和 : 在哪里表示类别和数量的场景表示现场实例的数量。作为和指示的损失实例和总损失场景分类,计算的不平等指标来解决问题学习偏差跨空间实例,而采用测量偏差的损失在房间类型。一批任务采样于 ,代表不同的场景类型。算法2显示初始模型参数是第一调谐当代理探索不同场景实例,然后进一步更新当它从其他类别的场景结合轨迹。全球的meta-adapting阶段模型是按照当地的模型算法3轮廓,最优初始模型逐步推广到小说的任务。
除了不平等性,还有一些其他的不平等的措施,可以利用计算收入或投资的区域分异特征,如基尼系数(39和方差的对数(40]。基尼系数的定义是相对的一半绝对平均差,采取以下形式: 在哪里表明的损失的百分比实例。相比不平等性,基尼系数是更容易偏离中间的分布。对数的定义是方差 在哪里表明的损失实例。对数的方差更容易受到较低的偏差分布的一部分。从基尼系数和方差的对数不能进一步分解,在全球模型,利用这两个指标作为他们在当地的工作模式。导航模型表现的比较使用不同的不平等的措施进行了分析4。
我们的算法有助于深入强化学习模型的泛化采用不等式估计任务偏差的措施。作为最先进的模型通常忽略metatraining任务和测试任务之间的巨大偏差,他们metalearner有很大概率过度适应采样任务在训练阶段。不同于传统的算法,我们的工作介绍了变形的经济指标,以避免偏差的一些特定的任务。通过最小化采样任务的不平等在损失一批(本地模型)和批量抽样任务的损失(全球模型),我们增加的不确定性初始模型在不同的任务来获得一个公正的初始模型,导致一个更好的泛化能力相对于其他metalearning导航方法。
4所示。实验和讨论
4.1。实验装置
我们评估模型通过测试真实3 d导航数据集Matterport3D [41]。一次探索集决心完成(1)vocabulary-defined目标出现视力范围内,代理到达最近的观点,因为在许多场合代理不能直接到达目标,或(2)表现10 k移动步骤未能导航到目的地。如图2所示,导航到床上的探索过程可分为几个阶段:移动(a)大量的移动步骤之后,682年一步观察图像首先包括目标的完整视图。作为代理还没有到达最近的观点,它仍然需要继续探索的场景。(b)与823年执行的操作,代理会到最近的观点,获取目标的局部视图。在这个阶段,代理依然在,只是旋转它的相机捕捉整个床上的照片。(c)在步骤826,代理最后指出理想的形象,完成探索集。与成功的训练集,导航到电视的探索过程未能到达最近的观点;因此,整个探索过程结束10 k移动已经采取措施。
4.2。评价指标
比较与其他视觉导航模型,我们提出的选择指标23)来评估模型的导航性能。成功率(SR)被定义为
与此同时,成功加权路径长度(SPL)计算如下: 在哪里是运行的数量集。最短的距离从一开始的观点的目标和当前事件所显示的长度和 。 以形式为一个二进制向量宣布如果代理成功一集。鉴于我们的模型开发和达到成熟一些探索小说中环境后,我们计算这两个指标在meta-adapting 100集后阶段。
4.3。泛化性能
证明不等式的重要性最小化,尤其是不平等性的影响,我们使用执行一系列的导航任务MAML方法(全局模型)没有画不平等性到模型中。图3介绍了学习曲线meta-adapting阶段有不同的目标和场景。在metatraining阶段,代理探索5房间里每个场景类型的实例,而导航目标是相同的。在meta-adapting阶段,初始模型应用到10陌生的房间实例找到相同的目标。结果表明MAML模型没有不平等最小化实现基本收敛在平均20 k探索步骤不熟悉的卧室02/08和平均50 k探索步骤不熟悉厨房01和04客厅里。然而,在其他陌生的房间情况下,我们的模型不能适应收敛在100集。这种不平衡性能表明,传统MAML算法的初始metatrained模型可能会过度拟合的卧室场景的空间特征,如房间布局和照明条件,导致导航成功率下降的其他场景类型。在接下来的实验中,我们将评估我们公正的泛化能力model-agnostic metalearning算法与传统相比MAML算法和其他DRL导航方法。
我们建议的导航模型是基于无偏训练Model-Agnostic Metalearning算法部分3描述了。学习过程可以完全不同的局部模型和全局模型之间。
4.3.1。当地的模型
在metalearning阶段,4导航任务的一个特定的场景类型(卧室)随机选择组成任务集 。对于每个任务,20轨迹 收集计算相同类型的损失函数 metatrain参数在N(500)批迭代。在meta-adapting阶段,初始模型是实现在陌生的熟悉的目标相同类型(例如,卧室),探索到参数最终收敛于最优值。
4.3.2。全局模型
在metalearning阶段,我们选择4四种场景类型的导航任务(卧室/厨房/厅/浴室)组成的任务集 。对于每种类型的任务,还是20轨迹 收集计算每种类型的损失函数 。调整参数调整根据场景类型和部署,分别获得新的轨迹 。这些轨迹不同的场景类型促进主模型参数的更新。在meta-adapting阶段,该模型是随机测试的任务从所有四种类型的场景。
图4显示了我们最初的学习曲线MAML模型和UMAML模型应用于未经训练的卧室场景。结果表明,我们所有的模型实现初步融合在平均70 k行动。由于其适应性,我们的模型的性能非常优越的模型没有metalearning机制,这需要完全重新训练模型平均500 k - 900 k的探索寻找目标的步骤。此外,相比正式没有不平等性采用局部模型和全局模型,应用无偏Model-Agnostic Metalearning算法大大提高了平均集奖励成功的事件增加了50%。因为探索在相同类型的场景可以带来更好的导航性能,无偏本地模型优于公正的全球模型以微弱劣势。受益于不平等最小化,我们UMAML模型可以更有效地应用于新环境。
我们的模型是进一步评估与其他先进的导航模型相比。这些模型在一定程度上重新配置到我们的泛化实验进行比较:朱TDVG:主模型提出的et al。8)也有类似的架构我们只是使用RGB图像来描述观察和目标。MPSL:该模型实现的抽象目标通过metacritic网络代理可以利用参数化技术来找不熟悉的目标(30.]。GCN:图采用卷积网络模型结合语义关系的先验知识来分析最优的轨迹(42]。我们(loc):该模型对应于当地的模型由MAML训练,表现一种类型的房间的场景。我们(如果):该模型对应的全球模型由MAML训练,训练和测试的四个类型的场景。(GC-loc):我们(GC-loc)训练的当地模型提出了无偏Model-Agnostic Metalearning算法,使用基尼系数作为不平等的措施。(VL-loc):我们(VL-loc)训练的当地模型提出了无偏Model-Agnostic Metalearning算法,使用对数的方差作为不平等的措施。(UM-loc):我们(UM-loc)训练的当地模型提出了无偏Model-Agnostic Metalearning算法,使用不平等性作为不平等的措施。(GC-glo):我们(GC-loc)是全球模型训练提出了无偏Model-Agnostic Metalearning算法,使用基尼系数作为不平等的措施。(VL-glo):我们(VL-loc)是全球模型训练提出了无偏Model-Agnostic Metalearning算法,使用对数的方差作为不平等的措施。(UM-glo):我们(UM-glo)是全球模型训练提出了无偏Model-Agnostic Metalearning算法,使用不平等性作为不平等的措施。
cross-instance泛化性能测试导航模型如表所示1SPL和老所有培训实验在训练数据集进行卧室。我们随机选择导航任务从同样的训练与初始位置至少10个步骤远离目标。在测试阶段,所需的训练模型导航在四个陌生的场景的实例卧室(bedroom01 / bedroom02 / bedroom03 / bedroom04)。可以看出我们的(loc)和(UM-loc)超过基线与大利润。我们的模型的成功率是30%到40%,几乎比其他人高25%。表2显示了cross-scene泛化性能测试模型的训练和测试任务执行在所有四个不同的场景类型(卧室/厨房/厅/浴室)。的成功率(loc)和(UM-glo)增加约15%相比之下。这种差异可能是由于结构框架的限制和训练方法。不同于UMAML, TDVG可以被认为是一个非适应模型,总能在缺乏经验的情况下生成无效的导航决策。MPSL和政府通讯很不稳定,因为他们的任务特征抽象失去可用性场景的外观变化。
最值得注意的是,我们(UM-loc)和(UM-glo)大大减少SPL / SR的标准偏差46% / 56% / 58%和23%,分别。这些结果说明我们的差距极小化机制成功地减少损失的偏差在不同场景实例和分类,这证明了不平等性的引入解决了学习偏差的问题,防止metalearning模型偏离剧本表演一些特定的任务。与其他模型的成功率大大不同在不同的场景,我们UMAML方法保持相对平衡的性能在不同的任务,保证导航稳定在一定程度上。值得一提的是,我们在标准偏差(UM-loc)达到更好的结果比我们(UM-glo)。相比,结果表明,当地的模型,即使损失最小化任务之间的不平等,仍有机会跨场景类型的差异导致略微偏向于特定的任务。
基尼系数和方差的对数也做出了很大贡献提高MAML模型的泛化能力。考虑代理在同一场景导航类型,我们(GC-loc)和(VL-loc)实现类似的SPL, SR,和标准偏差(UM-loc),验证这两个指标可以代替不平等性衡量不平等指数损失的任务在当地的模型。然而,当处理偏差在这两种场景和场景类型实例,不平等性优于其他不平等措施由于其可分解性。也有一些其他不平等措施如广义熵指数(43)和阿特金森指数(44能够解决偏差的问题在DRL导航领域,我们将进行更多的实验来验证他们的可用性。
此外,我们观察到我们的模型的导航性能呈现下行趋势在适应过程中阻塞因素逐渐出现在观察如门,后视镜,和走廊。在这种情况下,有一个高概率的代理卡住或没有取得进展里四处走动。参见图5三前视图生成的轨迹我们(UM-glo)方法。第一两个导航任务陌生的卧室和客厅里,代理在30步到达目标位置。然而,在第三个场景中,床上的导航任务未能完成在100步视图已被门框和墙。考虑导航效率,所有的现实场景采样实验应该分成宽敞的区域去除干扰因素。
5。结论
在本文中,我们提出一个无偏Model-Agnostic Metalearning (UMAML)算法对学习目标导向导航策略。最先进的视觉导航方法相比,我们引入不平等性,一个不平等的措施应用于经济学,作为替代指标来测量偏差在任务。关键思想是培养metalearner通过显式地减少损失的不平等指数的任务,所以metalearner可以更新其参数均匀,避免过度拟合某一特定任务。评估其性能,进行了几个实验找到熟悉的目标不熟悉的场景。结果表明,我们的模型始终优于现有的视觉导航方法和保持令人满意的性能,无论场景的实例或类如何变化。在未来,我们将更加注意观察其他重要特性,比如深度学习导航经验以更有效的方式和重新配置当前metalearning机制来达到更好的泛化。
数据可用性
使用的数据来支持这个研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是国家重点支持的研究和发展项目下的中国授予2018 yfb1700200;中国的国家自然科学基金资助下61803368,61533015,61972389,61903356;中国博士后科学基金会资助下2019 m661156;中国辽宁省自然科学基金的资助下20180540114和20180540114;青年创新促进会CAS;和机器人学国家重点实验室的独立的主体。