杂志上的传感器

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

深度学习和人工智能Non-Vision传感器和成像

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID4294841| https://doi.org/10.1155/2021/4294841

改进的 - - - - - -学习方法与凹障碍Multirobot形成和路径规划

Zhilin风扇 ,¹ 范刘 ,¹ Xinshun宁,¹ 伊琳汉,¹ 剑王,² Hongyong杨,¹ 和李刘¹

学术编辑器: Yunze他

收到了 2021年6月20日

接受 2021年10月26日

发表 2021年12月03

文摘

针对multirobot系统的形成和路径规划在一个未知的环境中,一个multirobot形成基于改进的路径规划方法 - - - - - -提出了学习。基于头目的方法,机器人使用一种改进的 - - - - - -学习算法规划路径和追随者机器人实现跟踪策略的引力势场(GPF)设计一个成本函数选择的行为。具体来说,提高q学习的, - - - - - -值初始化环境的指导目标的GPF。然后,虚拟obstacle-filling回避策略提出了填补non-obstacles与虚拟评价倾向于凹障碍障碍。此外,控制温度的模拟退火(SA)算法实时调整根据学习的情况 - - - - - -学习应用于改善行为选择策略。实验结果表明,改进的 - - - - - -学习算法减少了收敛时间63.4%和89.9%的收敛轮的数量比传统算法。方法的帮助下,多个机器人有一个明确的分工,并迅速计划形成一个全局优化路径在一个完全未知的环境。

1。介绍

随着机器人变得越来越广泛应用于各个行业,一个机器人不能胜任复杂的任务。因此,multirobot形成(1)和路径规划已成为研究热点,他们有很好的应用2,3]在协同搜索、勘探、处理、救援和组操作。multirobot形成的路径规划需要多个机器人组成的形成和维持这种移动到目标位置的关系。安全不仅是必要的,以避免障碍,也找到一条更好的道路。此外,相比简单路径规划在已知环境中,高要求的能力多机器人路径规划在未知的环境中。有很多实现multirobot形成方法,包括基于行为的方法(4)、虚拟结构法(5),头目方法(6]。基于行为的方法是设计sub-behaviors提前和选择行为执行根据形势的变化,但精度不够的集成不同的行为在一个复杂的环境。虚拟结构法作为形成一个固定的刚性结构,不能有效避免障碍。头目方法结构简单、灵活的优势主要是实现信息共享合作的领袖。为机器人的路径规划算法(7)和强化学习(RL)算法(8)是常用的全局路径规划;前者可以有效地解决最优路径,但它需要事先知道所有的环境信息;后者可以自主学习的环境,但这需要更多的时间。人工势场(APF)方法(9)是广泛应用于局部路径规划,可以应对实时变化的环境但缺乏全球规划能力。

对于multirobot形成和路径规划的问题,陈et al。10)提出了一种新的头目控制框架通过引入RH的方法,使快速收敛形成任务的一组移动机器人。基于单个机器人的路径规划,Sruthi et al。11)设计了一种非线性控制器跟踪实现multirobot形成。上述两种方法要求严格的系统的建模和繁琐的理论,这是软弱的应用程序。通过混合形成控制与头目和优先级方法,唱歌等。12]MTAPF算法和一种改进的使用路径规划算法。Das和耶拿13)实现多个机器人的无碰撞路径规划采用一种改进的粒子群算法和进化操作符。瞿et al。14)使用一种改进的遗传算法规划路径为多个机器人通过添加一个共同进化机制。Lazarowska [15)离散APF找到绝对无故障路径用于机器人在动态和静态环境中。上述方法不能在一个未知的环境和一些不能计划进行最优路径。

目前, - - - - - -学习是一种广泛应用的强化学习算法。的局限性 - - - - - -学习是试错学习,这就需要不断的迭代和耗时。因此,它需要改进快速全局最优路径规划。Maoudj和Hentout16)初始化 - - - - - -表来加速收敛,提出一个基于距离的回报函数。宋子文et al。17)综合先验知识获得的FPA的传统 - - - - - -学习,提供了良好的勘探依据加速移动机器人的学习。徐和元18增加了运动的步长和机器人的方向计划快速和平滑的路径。哦,et al。19)指定的初始 - - - - - -传统的价值 - - - - - -通过模糊规则的学习 - - - - - -学习,加速学习和稳定收敛。燕和香20.初始化的 - - - - - -表用逆欧几里得距离当前位置到目标位置,而提高了效率 - - - - - -学习。上述所有的初始化方法 - - - - - -价值仅仅通过一些先验信息改善算法,不考虑避免凹障碍和行为选择策略的调整。

总之,仍有许多困难的问题的形成和路径规划多个机器人在未知的环境中。在本文中,我们采用的头目方法研究multirobot动态形成的问题。摘要创新如下:改善 - - - - - -学习算法规划路径,即环境指导和虚拟obstacle-filling回避策略添加到加速收敛和SA算法应用于改善行为选择策略;追随者的机器人可以实现跟踪的防毒气的战略设计成本函数选择的行动。

2.1。 - - - - - -学习算法

的 - - - - - -学习算法(21)是一个基于temporal-difference RL算法,结合蒙特卡洛抽样法和动态规划的引导思想。与马尔可夫决策过程描述如下:首先,有限状态空间和动作空间。当机器人需要完成一定的任务,它选择和执行行动在当前的状态,这与环境交互。然后,机器人进入下一个状态,给出即时奖励反馈的环境。最后,根据更新的规则更新值函数通过使用奖励传递给它。一轮继续上述过程,直到机器人到达目标,和轮迭代,直到累积最高奖励。更新方程函数是在哪里是国家和在当前时间的行动吗 , 是国家和在下次的行动吗 , 通过执行行动获得的奖励吗在国家 , 是学习速率, 是折扣的因素。

为了保证算法的探索自然,策略通常是采用概率选择行动的最大化价值函数,和小概率仍保留随机探索。数学方程的策略在哪里是选择的策略, 是贪婪的因素, 是一个随机数,是一个随机选择的行动,是一种行动,最大化 - - - - - -在状态的值。

经典的 - - - - - -在Algorithm1学习算法描述。

开始
初始化:
, , %初始化值为0,确定状态集,包含四个操作的操作集
( )%这一事件不能超过m集的最大数量
给定的初始状态 ;
而( )
(1)选择一个行动在国家根据 ;%是行为选择策略;
(2)执行行动 ,然后输入状态并获得奖励 ;%得到即时回报通过执行行为与环境进行交互
(3)更新使用 ;
%更新值函数根据更新方程通过奖励
(4) ;%更新状态
端,
;%更新一集
——
结束

2.2。APF的方法

APF的方法是一个虚拟势场人工建立,包括防毒气的斥力势场。目标产生引力的机器人,使机器人走向它。防毒气的函数在哪里是防毒气的因素,是机器人的状态位置,是防毒气的 , 的状态位置的目标是达成的机器人,然后呢机器人与目标之间的距离,可以通过测量特定传感器实际上是一维的。万有引力的负梯度防毒气的,引力函数被定义为

障碍产生排斥力的机器人,使机器人远离它。排斥势场函数在哪里是斥力势场的因素,是机器人的状态位置,是斥力势场在哪里 , 是障碍状态的位置, 机器人和障碍物之间的距离,可以通过测量特定传感器实际上是一维的。障碍的影响半径,人为地设置在实践中根据实验要求。斥力斥力势场的负梯度和斥力函数被定义为

因此,传统的APF方法指导机器人的运动方向基于引力和斥力的联合力量,但是它的缺点如下:(1)当机器人远离目标,重力远远大于斥力,它可能会影响一个障碍(2)当它们之间的距离相对较近,会排斥机器人太多的障碍达到目标(3)当两个反应部队就消掉了,局部最优或振荡可能出现的现象

由于上述缺点,APF方法一般不能直接使用,需要改进使用。

2.3。SA算法

SA算法的概念来自于固体退火过程,这是一个算法跳出局部最优的全局最优。该算法使用温度参数控制在有限时间内收敛。首先,初始温度和温度设置结束。该算法从初始状态开始,把它作为当前状态。然后,它在它附近生成一个新的状态,决定是否接受这个新国家基于大都市标准。新状态的生成过程迭代而衰变,直到是最终的温度。最后,该算法以全局近似最优解。

大都市的标准是,当一个系统进入状态由于某些状态的变化 ,能源系统的相应变化来然后系统的接受概率方程来是

当 ,新状态被接受为当前状态。当 ,如果 ,新状态被接受为当前状态;否则,新的状态不被接受和系统保持当前状态。是随机生成的数字。

3所示。改进的 - - - - - -学习提出了机器人路径规划的领导

3.1。环境的指导基于防毒气的目标

传统的 - - - - - -学习算法没有先验知识。在早期的学习过程中,机器人的漫无目的的探索会导致很多无效的迭代和收敛速度慢。所以,APF的概念介绍指导移动方法。摘要机器人计划路径在一个未知的环境中,只有任务的启动和目标是已知的。由于更少的环境信息和APF的传统方法的缺陷,介绍了防毒气的目标只有初始化价值不考虑斥力势场的影响。为了使目标方向与增加的方向一致 - - - - - -值,构造成防毒气的函数在哪里是防毒气的因素是负价值和控制的距离成反比,从当前位置到目标的距离,然后呢是一个积极的常数,可以防止分母为0。

机器人的移动时,即时奖励由传感器和检测 - - - - - -初始化表在同一时间。因此,环境信息被添加到的即时奖励 - - - - - -值初始化。RL的目的是最大化的累计回报最大化 - - - - - -价值。机器人总是倾向于选择最大的行动 - - - - - -值,这将引导机器人朝着目标同时避开障碍物。的数学方程 - - - - - -值初始化与环境指导基于防毒气的目标在哪里 , 是规模系数根据实际调整算法,是折现系数,是防毒气的国家吗。

3.2。虚拟Obstacle-Filling回避策略

会有凹障碍在更复杂的环境中。传统的 - - - - - -学习算法可以摆脱这些障碍通过不断探索,大大扩展了学习时间。此外,机器人更有可能落入凹障碍和无法逃脱后添加防毒气的指导。在网格地图环境中,障碍网格是不可行区域,其余是可行的地区。设置某些关键位置网格是可行的路径可能倾向于凹障碍不可行区域可以有效填补和避免凹障碍。因此,虚拟obstacle-filling回避策略是建立了凹障碍。策略是判断当前网格可能倾向于凹障碍通过添加基于目标实时检测信息趋势之前,机器人需要下一步。然后,它填补了non-obstacles可能倾向于凹的道路上障碍与虚拟障碍直到凹形状填充。填充凹的障碍作为一个整体成为不可行区域,因此,机器人不会落入凹的障碍在随后的迭代。该策略充分利用传感器和环境信息已习得的。它不仅可以防止机器人落入凹障碍也减少无效的探索一些不可行的位置,提高路径规划的效率。

虚拟obstacle-filling回避策略的具体实现如下。

首先,传感器是用来检测位置实时状态和距离。和当前位置动作建立数组来存储从当前位置可行的相邻位置。机器人移动之前,欧氏距离网格位置毗邻机器人的当前位置到目标位置计算。下一步的具体判断判断当前网格可能倾向于凹障碍根据计算距离。

如果距离小于当前位置到目标位置的距离,它是进一步判断是否这个相邻的位置是一个障碍。如果相邻的位置不是一个障碍,它是可行的,将被添加到当前位置动作的相应位置数组。

如果相邻位置远离目标或是进一步判断一个障碍,它是一个不可行的位置,不会被添加到相应的位置。

如果当前位置动作最终数组为空,这表明当前位置完全倾向于不可行区域可能在一个凹的障碍。当前位置将装满了一个虚拟的障碍。

最后,机器人的每一步都是判断直到凹障碍了。

一步填充虚拟obstacle-filling回避策略如图1。在图中,红色的网格是机器人,黄色的网格是目标。如图1(一个)显示,机器人进入灰色凹在路径规划过程中障碍。根据距离计算,邻近的位置下来,对的,右下角确定机器人的当前位置的位置靠近目标越来越黑暗的灰色网格图1(b)。这三个相邻的位置进一步判断障碍是不可行的位置,显示当前位置是完全对不可行区域,可能在一个凹的障碍。因此,当前位置充满了浅灰色虚拟障碍物,如图1(c)。

3.3。行为选择策略提高了SA

在路径规划的过程 - - - - - -学习,机器人运动的范围扩大,探索环境和积累的知识环境的奖励和惩罚。最后,它使用价值函数选择最佳的行动。机器人迭代学习的过程,需要更多的探索在早期阶段,但是过多或过长探索将大大延长学习时间和降低学习效率。相反,探索太少会导致经验不足和选择的行动最终可能是次优的。因此,有必要平衡勘探和利用率。传统的常用的策略 - - - - - -学习算法平衡勘探和利用在一定程度上通过设置。然而,固定学习过程使贪婪的因素随机行为选择每次相同的概率,导致收敛速度慢和收敛后的波动。因此,贪婪的因素需要被调整的动态学习过程。一种方法是设置常用的实验减少在一个固定利率,但这不是普遍设定一个固定利率的降低基于经验。

在回答上面的问题,提高了SA用于调整策略提出了动态。SA的温度控制是实时调整根据学习的情况 - - - - - -学习算法。算法探索尽可能在早期阶段的路径规划,增加更多的先验知识,防止局部最优接近收敛时,取消不必要的探索。操作的步骤选择策略提高了SA算法如下:(1)定义的温度参数并设置初始值。然后,使用数字样本标准差的一步连续的迭代控制冷却温度。的数学方程是在哪里 ,分别是步骤的数量连续迭代,的平均数量吗连续的迭代,是控制因素,通过反复调整根据实验效果和控制在合适的范围内。是一个较小的非零常数来预防0后收敛(2)计算的接受概率随机选择的行为根据大都市的标准。并使用它重新定义贪婪的因素在。的数学方程是在哪里是 - - - - - -值随机选择行动的状态 , 是 - - - - - -价值最优行动的状态 , 是一个非零常数防止分子0,然后呢温度参数(3)如果 ,随机选择的行动,否则选择 ,在哪里是随机生成的号码吗

3.4。改进的 - - - - - -学习算法

与原算法相比,有三个创新改进 - - - - - -学习算法提出了。

首先, - - - - - -原始的表 - - - - - -学习算法最初是一个表没有任何先验知识的新鲜感。改进的 - - - - - -学习算法采用防毒气的已知目标的任务初始化 - - - - - -表,增加环境的指导,减少无效的探索。

其次,机器人移动后立即在原始算法中选择一个操作。该算法设计一个虚拟obstacle-filling回避策略判断之前,每一个步骤。它充满non-obstacles认为倾向于凹障碍与虚拟的障碍。

最后,原算法使用的传统战略选择的行为。该策略提高了SA算法在新算法。它调整实时动态地通过调整温度根据学习情况 - - - - - -学习。

改进的措施 - - - - - -学习算法算法所示2。

开始
初始化:
, , , , ,

%建立 - - - - - -表和当前位置动作数组定义连续的迭代,定义随着初始温度,确定国家设置和操作集包含八个动作
( )%这一事件不能超过m集的最大数量
给定的初始状态 ;
如果然后使用计算和更新 ;%调整动态地使用的SA算法。
而( )
(1)如果存在于 - - - - - -表然后继续下一步;
其他使用初始化 ;
%初始化 - - - - - -表
(2)如果是一个可行的区域向目标然后将其添加到相应的位置吗 ;
其他相应的位置一直是空的;
%添加可行的相邻位置从当前位置到当前位置动作的数组
(3)如果然后是空的是完全对不可行区域可能会凹的障碍和填补它与虚拟的障碍;
选择行动在国家根据这是提高了SA);
%填补凹障碍使用虚拟obstacle-filling回避策略在选择行动
(4)执行在 ,输入并获得 ;
(5)更新使用 ;
(6) ;
端,
;
——
结束

4所示。multirobot形成的路径规划方法

4.1。机器人跟踪策略基于防毒气的追随者

的台阶的跟踪策略基于防毒气的追随者机器人如下:

步骤1:如果追随者机器人获得坐标广播的领导者机器人,它将决定下一个目标状态形成,即。在这个时候,所需的目标位置。否则,它意味着形成已达到目标位置和路径规划的目的。

步骤2:追随者机器人移动到目标位置。首先,机器人使用成本函数来计算成本的八个邻国的当前状态,决定了国家以最小的成本。然后,选择相应的行动并执行它。同时,采用虚拟obstacle-filling回避策略与领导机器人共享信息。具体来说,成本函数的目的是通过使用防毒气的的想法。当前位置的防毒气的目标是测量的欧几里得距离当前位置到目标位置,距离成正比。当检查状态是一个障碍,罚函数给出一个积极的价值;否则,该值为0。防毒气的测量方程

成本函数方程在哪里是防毒气的测量,是当前状态的横向协调,是当前状态的垂直坐标,目标的水平坐标在这一刻,目标的垂直坐标在这一刻, 成本函数在吗 , 的状态 , 是行动 , 是调整系数, 是罚函数。

步骤3:如果输入的状态和最小成本目标状态,返回步骤1,继续。如果政府不是目标状态,进入步骤2继续。

4.2。头目的路径规划设计方案的形成

采用头目方法、路径规划设计方案的头目的形成提出了包括三个部分:(1)初始化:采用网格环境中,多个机器人的起始位置和目标位置确定。一个头目形成设计、机器人分为两种类型:领导者和追随者。然后,选择一个机器人作为领袖或虚拟机器人应该作为领导者,和其他追随者机器人。多个机器人有八个动作包括上,下,左,右,左上,右上,左下角和右下角。每个机器人装有一个传感器,可以探测到的环境信息网格围绕它的位置。multirobot行动、步长和传感器的探测范围图所示2(2)机器人路径规划的领导:领导者机器人负责规划的路径。它使用改进的 - - - - - -学习算法来计划一个全局最优路径,避免简单的障碍和凹形障碍物后反复试验培训。与此同时,它将每一步的位置和一些环境信息追随者机器人。领导机器人的路径规划的过程如图3(3)当地信徒机器人:领导人后的追随者机器人负责机器人保持形成根据需求。当追随者机器人接收的位置信息广播的领导者机器人,它决定所需的目标取决于形成。然后,它遵循本地使用跟踪策略基于防毒气的自主和避免障碍。追随者机器人的路径规划的过程如图4

5。实验分析

根据多机器人路径规划的设计方案,通过实验测试的方法。实验使用Python标准的GUI工具箱Tkinter建立仿真环境。

5.1。对比实验的改进 - - - - - -学习算法

为改善 - - - - - -学习算法,网格地图有三个要素:起点,目标点,和障碍,首先建立了。地图大小设置网格,每个网格的分辨率像素。机器人的起始位置由一个红色的网格设置为(0,0),和目标位置由一个黄色的网格(19日19)。障碍,是黑色的网格是随机放置在地图上,包括凹和简单的障碍。区分实际障碍从虚拟障碍物填充算法操作期间,灰色网格虚拟障碍物。

实验进行了比较,和五个算法实现: - - - - - -L1是传统的 - - - - - -学习算法, - - - - - -L2是 - - - - - -学习算法的动态SA的贪婪的因素, - - - - - -L3增加环境的基础上指导GPF - - - - - -L2, - - - - - -L4的 - - - - - -学习算法提出了改进3.1,3.2和3.3, - - - - - -L5是 - - - - - -学习算法与基于修改奖励函数 - - - - - -L4。的实现细节 - - - - - -L1到 - - - - - -L5算法如表所示1。

相同的算法的参数设置如下:迭代轮的最大数量是10000,学习速度0.01,折扣因素呢是0.9。使用传统的策略算法,贪婪的因素0.2,收敛确定数字连续10步迭代的标准差小于5。参数设置为使用SA算法如下:初始温度设置为10,连续的迭代的数量设置为10,常数设置为0.1,控制因素呢设置为0.03,非零常数设置为1。算法使用防毒气的方法改善,防毒气的因素设置为-10,是常数吗被设置为735,比例系数设置为0.1。奖励设置为函数

设置参数后,进行了仿真实验。路径规划的地图,累计奖励变化与圆图,和路径规划步骤号变化与圆图。从图中,路径规划,可以看到每个算法的收敛。数据5(一个)- - - - - -5 (e)分别显示机器人的路径规划地图在算法 - - - - - -L1到 - - - - - -L5。数据6(一)- - - - - -6 (e)分别显示的变化累积奖励与轮算法下的机器人 - - - - - -L1到 - - - - - -L5。数据7(一)- - - - - -7 (e)分别显示更改的步骤号轮算法下的机器人 - - - - - -L1到 - - - - - -L5。

(一) - - - - - -L1

(b) - - - - - -L2

(c) - - - - - -L3

(d) - - - - - -L4

(e) - - - - - -L5

(一) - - - - - -L1

(b) - - - - - -L2

(c) - - - - - -L3

(d) - - - - - -L4

(e) - - - - - -L5

(一) - - - - - -L1

(b) - - - - - -L2

(c) - - - - - -L3

(d) - - - - - -L4

(e) - - - - - -L5

图5 (c)表明,该机器人是被困在一个凹的障碍,无法逃脱。图6 (c)的累积奖励曲线表明,路径规划在迭代过程中不规则变化。图7 (c)显示的步骤数曲线路径规划在迭代过程中不规则变化。上面的三个结果 - - - - - -L3 ndicate算法不收敛的迭代过程,和机器人无法到达目标的目标只有添加防毒气的改善,当遇到凹障碍。

数据5(一个)- - - - - -5 (e)使用表明,该机器人 - - - - - -L1, - - - - - -L2, - - - - - -L4, - - - - - -L5算法能够有效地避免黑色障碍和计划一个红色路径从开始到目标,但计划的路径 - - - - - -L1和 - - - - - -L2算法更加曲折, - - - - - -L4计划平滑算法可行路径和 - - - - - -L5算法计划最优路径。累积奖励曲线显示数据6(一)- - - - - -6 (e)和步数曲线显示数据7(一),7 (b),7 (d),7 (e)都是稳定的迭代到一定回合后,表明算法逐渐收敛的迭代进行。

然而,曲线数据6(一)和7(一)收敛与小波动,曲线的数据6 (b)和7 (b)收敛与平滑度、曲线的数据6 (d),7 (d),6 (e),7 (e)达到平滑减少轮迭代。上面的显示,通过添加本文提出的改进 - - - - - -L4算法和 - - - - - -L5算法,实验取得更好的结果。这种机器人的移动,同时初始化 - - - - - -价值的环境指导基于防毒气的目标,这使得机器人目标方向引导的。它删除无效的运动和加速收敛时间。当机器人遇到一个凹的障碍,它有效地识别不可行区域并与浅灰色填充虚拟障碍物防止机器人落入凹的障碍。SA方法用于动态调整的贪婪的因素加速算法收敛收敛后,使其稳定。此外, - - - - - -L5算法调整奖励函数的基础上 - - - - - -L4算法通过给每一个步骤一个较小的点球,和机器人学习最优路径的最大累积奖励。

表2比较了上述五个算法路径规划后的性能。表中的数据是进行几个实验的平均结果。分析如下:基于传统 - - - - - -学习算法, - - - - - -L2使用SA算法来提高策略。虽然算法的收敛轮增加,收敛时间缩短,提高路径规划的整体稳定性。比较算法 - - - - - -L3和 - - - - - -L4,如果环境指导防毒气的添加到虚拟obstacle-filling算法没有回避策略,该算法难以收敛,当遇到凹障碍。比较算法 - - - - - -L2和 - - - - - -L4,通过添加环境指导和虚拟obstacle-filling回避策略,收敛时间减少了98.5%,和收敛轮降低96.6%;总步骤号和路径的长度是稳定在26和32.6274,分别。比较算法 - - - - - -L4和 - - - - - -L5,调整奖励功能合理的改善 - - - - - -学习算法提出了将机器人计划最优路径快,比传统的短89.9% - - - - - -学习算法。和收敛轮的数量减少了63.4%,数量减少到22步和路径的长度减少到28.6274。

5.2。实验multirobot形成的路径规划

试验后的改进算法领袖机器人的路径规划,追随者的机器人被添加到验证multirobot形成的路径规划方法的有效性。实验使用三角形形成和三个机器人。领袖机器人由红色表示网格,和它的初始位置。追随者机器人是由蓝色表示网格和一个绿色电网,分别和他们的初始位置和 ,分别。领导机器人的目标位置 ,这也决定了追随者的目标位置的机器人。领导机器人使用改进的 - - - - - -学习算法 - - - - - -L5计划最优路径相同的参数设置在5.1仿真实验。两个追随者机器人,分别使用跟踪策略基于防毒气的:惩罚函数和调整系数。

实验效果如图8(一个)这三个机器人快速达到目标与一个固定的三角形形成一个无障碍环境。的环境中使用静态障碍,首先领导者机器人的移动,两个追随者机器人立即移动到相应的位置形成。绿色的追随者机器人首先遇到一个黑人侧障碍。它沿着移动障碍顺利到目标方向,避免了障碍。然后,它继续加速移动到相应的位置形成的当前时间维持形成。最后,领袖机器人计划一个红色的路径,这两个追随者机器人避免障碍本身在接下来的流程和计划一个绿色的路径和一个蓝色的路径,分别。三个机器人到达目标同时完成组建任务。实验效果如图8 (b)。

(一)一个无障碍环境

在一个静态障碍环境中(b)

6。结论

本文通过结合改进的 - - - - - -学习算法和防毒气的方法,一种方法multirobot形成和路径规划算法。在多个机器人之间的分工是明确的。领导机器人使用改进的 - - - - - -学习算法规划路径。发现添加环境目标的指导防毒气的和虚拟obstacle-filling回避策略有效地加速迭代收敛性和避免凹障碍。是稳定和有效的行为选择策略来提高SA)的方法。同时,追随者机器人使用跟踪策略基于改进的实时防毒气的追随,这是简单而高效。这种形成的方法有效地解决了形成和路径规划问题的多个机器人在未知环境中凹的障碍。在未来,multirobot形成的上下文中将进一步研究动态环境和隐私保护。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

支持的工作是由中国国家自然科学基金(61673200)的主要基础研究中国山东省自然科学基金项目(ZR2018ZC0438)和关键研究和中国烟台城市发展项目(2019 xdhz085)。

引用

k . k .哦,m . c .公园和h·s·安,多智能体编队控制的调查,“自动化53卷,第440 - 424页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
a . Muxfeldt d kubu, f . m . Wahl”开发新应用领域为工业机器人——四个例子academia-industry协作”2015年IEEE 20新兴技术会议和工厂自动化(ETFA)2015年,页1 - 7、卢森堡、卢森堡。
视图: 谷歌学术搜索
g .艺术观,j·帕克斯曼,j . v .米罗o .领主和h .这“城市搜救机器人,”第一次国际会议上工业和信息系统Tirtayasa,页294 - 298年,印度尼西亚,2006。
视图: 谷歌学术搜索
f . Yakub m z拉希德,s . a .扎基et al .,“全面审查被领导对控制器的机器人系统,”印度Geo-Marine科学杂志》上,48卷,不。7,985 - 1007年,2019页。
视图: 谷歌学术搜索
m·a·刘易斯和k·h·谭”,形成高精度控制移动机器人使用虚拟结构,”自主机器人,4卷,不。4、387 - 403年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
p . Wang和耿z”,被领导multirobot形成控制系统使用动态表面方法,”第35届中国控制会议(CCC)成都,页7757 - 7762年,中国,2016。
视图: 谷歌学术搜索
w . x阴和阳,“一个完全Astar-based多路径识别算法的合理路线设置在车辆导航系统中,“Procedia-Social和行为科学卷,96年,第1078 - 1069页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
c . Chen x问:陈,f .妈,x j .曾和j·王,“智能船舶知识无偿路径规划方法基于强化学习,”海洋工程第106299条,卷。189年,2019年。
视图: 出版商的网站 | 谷歌学术搜索
p . Sudhakara诉Ganapathy、b . Priyadharshini和k . Sundaran“轮式移动机器人的避障和导航规划使用修改人工势场方法,”Procedia计算机科学卷,133年,第1004 - 998页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
剑,东阳光、杰杨和Haoyao陈,“被领导形成多个不完整移动机器人将滚动时域控制方案,“国际机器人研究杂志》上卷,29号6,727 - 747年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
m . Sruthi k . Rao,诉Jisha”基于向量场的形成multirobot控制系统”,IFAC-PapersOnLine卷,49号1,第194 - 189页,2016。
视图: 出版商的网站 | 谷歌学术搜索
h .唱y你,太阳x, y,和f·刘”,基于改进的混合路径规划算法对无人地面车辆和人工势场的形成,“海洋工程,卷223,不。3 - 4,2021年第108709条。
视图: 出版商的网站 | 谷歌学术搜索
p . Das和p . Jena Multirobot路径规划使用改进粒子群优化算法通过小说进化的运营商,“应用软计算第106312条,卷。92年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
邢h .曲,k, t·亚历山大,“一种改进的遗传算法和协同进化策略全球多个移动机器人路径规划,“Neurocomputing,卷120,不。23日,第517 - 509页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
a . Lazarowska“离散人工势场的移动机器人路径规划方法,”IFAC-PapersOnLine,52卷,不。8,277 - 282年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
a . Maoudj和a . Hentout”优化基于q学习算法对移动机器人的路径规划方法,”应用软计算,卷97,不。2020、第106796条、2020。
视图: 出版商的网站 | 谷歌学术搜索
l . e .宋子文、o·波林和c . k .春”解决最优使用改进的q学习的移动机器人的路径规划,“机器人和自治系统卷,115年,第161 - 143页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
徐x和j .元”,为移动机器人路径规划改进强化学习算法的基础上,“中国惯性技术杂志》上,27卷,不。3、314 - 320年,2019页。
视图: 谷歌学术搜索
c . h .哦,t .中岛美嘉,h . Ishibuchi”初始化加速q学习的q值的模糊规则,”IEEE世界大会在IEEE国际联合神经网络会议安克雷奇,页2051 - 2056年,正义与发展党,美国,1998。
视图: 谷歌学术搜索
c .燕和x香”,基于改进的q学习的无人机路径规划算法,”2018二机器人与自动化国际会议上科学(ICRAS),页1 - 5,武汉,中国,2018。
视图: 谷歌学术搜索
c·沃特金斯和p·达扬q学习的。”机器学习,8卷,不。3 - 4、279 - 292年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
https://link.springer.com/book/10.1007%2f978 - 981 - 16 - 6320 - 8。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

381年

下载

435年

引用

杂志上的传感器

深度学习和人工智能Non-Vision传感器和成像

改进的 - - - - - -学习方法与凹障碍Multirobot形成和路径规划

文摘

1。介绍

2。相关的方法

2.1。 - - - - - -学习算法

2.2。APF的方法

2.3。SA算法

3所示。改进的 - - - - - -学习提出了机器人路径规划的领导

3.1。环境的指导基于防毒气的目标

3.2。虚拟Obstacle-Filling回避策略

3.3。行为选择策略提高了SA

3.4。改进的 - - - - - -学习算法

4所示。multirobot形成的路径规划方法

4.1。机器人跟踪策略基于防毒气的追随者

4.2。头目的路径规划设计方案的形成

5。实验分析

5.1。对比实验的改进 - - - - - -学习算法

5.2。实验multirobot形成的路径规划

6。结论

数据可用性

的利益冲突

确认

引用

版权