文摘
最近,深入强化学习(DRL)吸引了越来越浓的兴趣领域的智能导航和路径规划智能仓储。最新的模仿增强DRL (IADRL)模型取得了良好的性能合作运输任务的自动引导车辆(agv)和无人驾驶飞行器(无人机)。然而,这个模型并不总是目标货物运输优化政策由于过早收敛。因此,我们提出了一个智能AGV-UAV运输路径规划模型。该模型利用协方差矩阵的近端政策优化适应(PPO-CMA)模仿学习和DRL实验室网络,使AGV-UAV联盟计划的最佳运输路线以更低的成本。实验在模拟仓库场景演示了该模型和改进积累培训奖励10%以上,优于现有的先进模型的有效性和效率。
1。介绍
随着全球5 g网络的快速部署,6 g和其在行业的应用吸引了越来越多的注意力从研究人员(1- - - - - -3]。材料存储在智能仓库的数量最近显著增加。仓库空间利用率最大化是一种使6克智能仓库在未来更为常见。在现代智能仓储、货物运输主要是完成自动引导车辆(agv) [4]。由于自主移动小车的有限可及的高度,是不可能运输货物在更高的位置,这限制了商品在仓库货架的高度,导致仓库空间的浪费。当货物的数量超过仓库的负担能力,额外的仓库空间只能打开存储货物,和新仓库空间意味着成本的增加,利润减少。
随着硬件设备的发展,越来越多的无人机(uav)已经开发了各种操作,例如,监测、地面目标跟踪、光学遥感和精准农业(5- - - - - -8]。无人机的最重要的优势是,他们可以在高位进行任务。申请货物运输任务的无人机可以克服自主移动小车的限制。然而,无人机的能耗远高于自主移动小车。因此,无人机的工作时间和操作距离妥协,从而无法进行长途运输任务(9]。因此,我们不能直接用无人机代替自主移动小车的货物运输任务。
基于前面的事实,我们打算自主移动小车和无人机结合,形成合作AGV-UAV运输货物运输任务和解决问题他们不能独自完成。在运输期间,无人机可以在更高的职位目标商品,虽然自主移动小车可以针对那些在较低位置。商品在很长一段距离和高位置,无人机的自主移动小车可以携带货物的位置,然后,无人机可以飞处理货物。这样,无人机自主移动小车的弥补了身高限制,有效地提高仓库的空间利用率,减少了工作时间和功耗的无人机。
AGV-UAV运输,路径规划是一个重要的组成部分,其导航的过程。选择最短的运输路线在运输可以减少运输成本方面的时间和精力。近年来出现的各种路径规划算法,包括传统的路径规划算法(例如,迪杰斯特拉算法10),算法(11),人工势场算法(12])和智能路径规划算法(如遗传算法(13),粒子群算法(14),和蚁群算法15])。这些算法在路径规划实现特定的成就但很容易被环境因素和无法处理大规模的状态空间中的数据。随着人工智能技术的普及,强化学习(DRL)发挥着越来越重要的作用在智能导航和路径规划由于其优秀的感知和决策能力16]。特别是,张等人提出了一个模仿增强深强化学习(IADRL)模型为运输任务在复杂环境中(17]。与传统的算法相比,IADRL使AGV-UAV联盟以更低的成本来完成货运任务。
然而,IADRL可能提前收敛,并在培训过程中陷入局部最优(18]。针对前面的问题,我们提出了一个智能AGV-UAV运输路径规划模型。通过引入协方差矩阵的近端政策优化适应(PPO-CMA) [19到模仿学习的政策(IL)和DRL实验室网络,我们的模型不仅可以学习AGV-UAV联盟的潜在行为特征的演示数据,也为联盟提供了行为决策更好的优化政策。实验结果表明,我们的模型优于其竞争对手解决过早收敛问题,使AGV-UAV联盟以更低的成本完成运输任务。
本文的其余部分组织如下。部分2讨论了相关工作,该方法在节中有详细描述3。部分4给出了实验结果和部分5本文总结道。
2。相关的工作
最近路径规划是机器人研究的一个热点问题,核心要求是找到一个最优路径从起点到成本最低的端点(例如,距离、时间和能量)。现有算法主要可以分为三类:(1)传统算法,智能算法,(2)和(3)DRL-based算法。
2.1。传统的算法
传统的路径规划算法包括迪杰斯特拉算法(10),算法(11[],和人工势场算法12]。迪杰斯特拉算法路径规划领域的经典算法,它使用一个贪婪的政策扩大一个节点一次遍历节点在环境中实现的最短路径从开始到结束。迪杰斯特拉算法的基础上,算法将启发式规则添加到节点展开时收敛速度更快。虽然算法已广泛应用于许多领域,应用程序的场景算法对离散的空间是有限的。人工势场算法集代理和目标之间的引力和斥力和代理之间的障碍,以便代理可以达到目标位置沿方向的合力。然而,不同场景的力比只能手动协调,使得很难获得最优的配置,这限制了它在复杂环境中应用。
2.2。智能算法
智能路径规划算法的一系列算法由观察自然现象和动物的习惯,包括遗传算法(13),粒子群优化(PSO)算法(14),和蚁群算法15]。遗传算法模拟自然选择和遗传机制,寻求最优解决方案。然而,这取决于初始种群的选择,及其解决大规模问题时收敛速度很慢。蚁群算法和PSO算法模仿蚁群和鸟类成群的群体智能行为和具有良好的并行性,收敛速度快。然而,参数设置的影响这两个算法的性能,使它们很容易落入局部最优解。
2.3。DRL-Based算法
强化学习可以优化代理的行动政策,最大化长期回报没有背景知识。它可以找到最优路径完全未知的环境中通过不断试验和错误(20.]。因此,研究人员应用DRL目标路径规划问题。米卢斯基等人提出了一个DRL方法训练特工庞大而丰富的视觉环境中导航通过引入记忆和辅助学习目标(21]。Sallab等人提出了DQN算法对离散的行为和深度确定性actor-critic算法连续行动车道保持辅助(22]。陈等人设计了一个省钱的导航策略基于社会意识与DRL避碰,可以完全自主导航机器人车辆的环境有许多行人(23]。肯德尔等人DRL适用于一个全尺寸的自主车,可以学习政策巷在为数不多的通过一个单一的单眼图像训练集作为输入(24]。通过模仿学习(IL)和DRL、张等人提出了一个IADRL模型AGV-UAV联盟(17)合作高效地完成任务。然而,IADRL模型存在局部最优问题,由于提前收敛。因此,仍有空间提高路径规划性能AGV-UAV运输任务。
3所示。该方法
3.1。动力和挑战
如在介绍部分所讨论的,IADRL模型结合强化学习和模仿学会学习AGV-UAV运输联盟的合作和互补的行为模式从专家数据和交互数据。IADRL采取的行动政策,然而,近端优化(PPO)政策本身的缺陷可能导致IADRL学习过程陷入局部最优,因此无法找到最优路径。
为了更好地分析PPO的缺点,我们只创建一个环境包含二维操作,便于我们想象的分布在迭代过程中选择的政策行动。在这种环境下,平方和的回报是负相关的行动选择的政策,政策时达到最优行动选择的政策都是零。在图1,我们可视化操作的分布在不同的迭代,选择不同的政策,绿色代表有利行动和红色代表negative-advantage行动。
在第一行的数字1,当政策执行多个minibatch梯度下降法与相同的数据在PPO风格不考虑剪切损失,选择的行动策略迭代9点偏离最优点。这种情况会发生,因为离negative-advantage negative-advantage行动推动政策行动。相比之下,有利行动把政策有利的行动。更新过程的每一步移动远离negative-advantage政策行动,最终导致战略偏离最优点。
如第二行图所示1与第一行相比,PPO在迭代过程中不偏离,但随着迭代的进行方法的最优点。然而,最终的政策仍然没有完全达到最佳点。这是因为PPO限制政策的更新范围通过剪切损失预防政策的偏差。但剪裁损失也会导致政策提前收敛和陷入局部最优22]。
基于我们的研究基于强化学习算法,我们指出,PPO-CMA [25PPO的可以解决前面提到的问题。PPO-CMA防止以标准的政策,政策的早期收敛而不是剪切损失梯度的损失和更新政策的方差和均值独立网络,分别。此外,PPO-CMA避免了政策偏差问题造成negative-advantage行动negative-advantage行动转化为积极的通过一个镜像的方法。见图的第三行1PPO-CMA开始收敛,只有当它接近最优点,最终达到最优的策略。
所有这些观察激励我们提出一种新的模型基于PPO-CMA解决过早收敛问题提出了IADRL并提供路径规划AGV-UAV联盟的运输任务。
3.2。该模型
处理在IADRL过早收敛的问题,我们提出一种新的模型的路径规划AGV-UAV联盟使用PPO-CMA作为行动的政策。具体来说,剪裁损失是首次取代了标准的政策梯度亏损,以防止过早收敛。之后,更新政策的均值和方差分别使用独立的网络,进一步扩展方差最优搜索方向。此外,negative-advantage行动变成了一个有利的行动一个镜像的方法。
AGV-UAV运输联盟由元组可以被描述 ,在哪里代表了环境,是奖励函数, 是未来回报的折现系数,AGV-UAV的互补合作模型。的 代表联合对环境的观测值,组成的观测值的AGV和观测值的无人机。的 意味着运输联盟的作用,这包括行动采取的AGV和行动采取的无人机。我们的目标是学习联合value-action函数 使AGV-UAV联盟,以达到最大程度的整体奖励(或最低总成本),同时完成各种任务。
根据生成的敌对的模仿学习(GAIL)模型(25摘要),IL模型包括一个发电机和一个鉴别器 。发电机 ,同样的政策在DRL模型中,负责生产操作接近专家的分布数据基于给定的观察通过鉴别器的检测 。鉴频器的不同专家的数据获得的数据生成器 。在培训过程中,应该最大化,价值函数描述如下(17]:
在这里,的重量吗 , 熵的政策(26), 折扣因素吗 ,和专家提供的政策证明数据。
价值函数DRL模型用于过程中接收到的奖励和评价当前的行动选择的政策 。DRL模型的训练旨在最大化价值函数AGV-UAV的定义 在哪里函数的参数吗 , 是未来回报的折现系数,是增强回报函数。
为了防止过早收敛政策,下列标准政策梯度损失作为损失函数的政策而不是剪切损失。 在哪里价值函数的参数吗 , 是mini-batch样本指数,索引操作变量和是样品批次的数量。 代表的优势函数测量采取行动的回报在国家 。
此外,政策的均值和方差是使用单独的网络,这样生成的意思是更新前的方差可以更新。这使得政策更快地找到最优点延伸探索分布沿最优搜索方向而不是过早收敛方差(27]。
考虑到negative-advantage行动可能导致政策偏差,镜像技术是用来negative-advantage行动转化为积极的。鉴于在当前政策优势的线性的意思 ,可以镜像negative-advantage行动变成有利行动的意思。具体来说,我们 , ,在哪里 是一个高斯内核分配重量少行动远离的意思。
4所示。实验结果和分析
在本节中,我们首先进行了实验的PPO和PPO-CMA OpenAI提供的健身环境。之后,我们建立了一个实验环境AGV-UAV问题和详细的环境配置。在此基础上,我们证明了该模型的有效性和优越性,通过比较实验结果与其他模型。
4.1。健身房的实验
从图1,我们可以看到PPO-CMA解决了PPO的早期收敛的问题,它已不再被negative-advantage行动。更好地展示PPO-CMA的优点,我们进一步比较两种算法在健身房环境。
从图可以看出2MountainCar-v0实验和BipedalWalker-v3表明PPO-CMA可以在实验中获得更高的回报,这表明PPO-CMA优于PPO。此外,PPO-CMA显然比PPO在收敛速度快。
(一)
(b)
图3给出了方差的两个策略培训过程。可以看出,采样PPO-CMA减少到最小值的方差更慢比PPO,有效地扩展了勘探方差,防止陷入局部最优的政策,和PPO-CMA最后达到一个更好的培训效果。
(一)
(b)
4.2。AGV-UAV运输试验
4.2.1。准备实验配置
我们设计了一个虚拟仿真场景的模型基于Unity3D ML-Agents平台(28),我们部署了一个AGV-UAV联盟与50米的大小50米10米,联盟的任务是完成货物的运输最短路径。如图4,青蓝色的方块代表了AGV,黄色的平方代表了无人机,绿色,红色,紫色球体代表目标货物在不同的高度和位置。
在实验中,每个代理的ray-cast传感器提供的Unity3D收集环境的状态。ray-cast传感器投射线到周围环境和所有检测到的对象的位置和他们的距离。自主移动小车的射线只在水平方向上检测环境,而无人机上下波动的射线45度检测环境。所有射线的探测范围设置为20米。观察AGV-UAV联盟是一个向量,它包含的环境信息结合所有的射线检测到的回报。
行动的AGV表示为 ,和无人机的行动表示为 ,在哪里 , ,和代表代理的加速度 , ,和的方向。AGV-UAV联盟的行动是由自主移动小车的作用和无人机, 。
在提出的模型中,建立了鉴别器和两个隐藏层,每128个神经单位。同时,价值函数设置了三个隐藏层每层512单元,和政策建立了与三个隐藏层每层512单元。此外,最初的自主移动小车的位置,无人机和目标货物都是随机的。
环境设计基于奖励AGV-UAV联盟可能会遇到的情况。联合学习最便宜的路径,我们设置一个小惩罚0.01每一步的联盟。由于自主移动小车的电池寿命是无人机的5到10倍,我们设置了罚金的每一步无人机自主移动小车的6倍。因此,在正常情况下,应该由无人机自主移动小车的目的地,然后,无人机开始工作。我们为每个目标设置奖励120,鼓励联合完成这个任务。考虑到实际情况可能会有障碍,我们在现场设置障碍,了一大笔罚款−30的联盟与障碍物相撞。120年获得联盟的最终奖励已经实现了所有的目标。
在实验中,我们可以手动控制代理来完成一些简单的任务和记录数据训练模型专家数据。我们收集了10000步代理的运行数据,数据包括所有基本的场景AGV和无人机合作完成任务。应该注意的是,专家数据使模型学习合作和自主移动小车和无人机之间的互补关系,不是学习路径的优化政策。因此,我们的演示数据只需要反映的行为特征AGV-UAV联盟。也就是说,自主移动小车首先携带无人机到目标位置,然后,无人机起飞,开始工作。此外,没有必要人为地优化路线从联盟的目标。
4.2.2。实验结果
AGV-UAV运输任务,每集最大训练一步是设置为20000。如果联合政府所有的货物,这一事件立即终止,否则,培训持续进行直到代理运行的最大的一步。在实验中,我们比较该模型有四个模型包括PPO、行为克隆(BC) (29日),盖尔,IADRL绩效评估。确保一个公平的比较,我们使用相同的参数,即。,the number of targets, the learning rate, and the maximum step, for all models.
图5首先比较了所有五个模型获得的奖励。显然,该模型具有最高的奖励,表明最好的优化路径规划的能力。根据研究结果,提出模型的最高奖励是4400,但是IADRL小于4000的最高奖励,导致超过10%的改善。IADRL优于PPO,盖尔和BC模型由于IL和DRL的结合。PPO模型可以学习政策环境的基础上,所以它可以快速学会避免障碍训练过程的开始。然而,没有演示的指导数据,它不能学习AGV-UAV联盟的行为特征,导致其训练速度和最终的回报低于IADRL和拟议的模型。此外,它可以看到,PPO IADRL和拟议的模型往往收敛。但盖尔和BC模式失败,这基本上是符合理论推测,盖尔和BC只复制的行动和政策提供的演示数据,而不是获得最优政策,获得更高的回报。如图6,移动步骤的数目在每集的BC和盖尔模型总是等于20000年最大的一步,这意味着他们无法完成运输任务的目标。这是因为这两个模型高度依赖专家数据,不能自适应地适用于复杂环境。
(一)
(b)
在培训过程中,不断与环境交互的代理收集数据。训练样本可以越来越多的增量移动步骤。评估该模型如何执行在不同大小的训练样本,图7(一)显示了不同时期的积累训练奖励值根据训练样本的大小。特别是,我们的报酬曲线在不同时期:绿色的小训练样本的大小,橙色为中等大小,和红色的大尺寸。可以看出,奖励很低但增长更快,当它有一个小训练样本的大小。在这种情况下,我们的模型仍然优于IADRL和PPO模型更高的奖赏,如图7 (b)。
(一)
(b)
图8显示的数量之间的碰撞AGV-UAV联盟在每集和障碍。可以看出,PPO, IADRL,并提出模型可以快速减少碰撞的数量减到最少训练后与许多碰撞早期阶段的训练。但BC和盖尔模型保持大量的碰撞由于缺乏环境的回报。
为了更好地展示该模型的优越性,我们使用以下评价指标:(1)任务完成比例,也就是说,目标达成的联盟的比例在每集的总数目标和(2)的步骤需要完成的任务。IADRL并提出模型进一步对比图9,(一个)显示了任务完成率和(b)显示了移动的步数。可以看出,该模型的完成率是优于IADRL模型。然而,大约250集,该模型的完成率达到一个下面的情节并保持稳定。根据图9 (b)在早期学习阶段,很难模型完成所有货物的运输没有合适的政策。因此,消耗的模型的数量的步骤在每集20000年达到最大值。循序渐进的训练,政策逐步优化,和步骤完成一集的数量减少。可以看出,该模型优于IADRL的任务完成率和移动步骤的数目。
(一)
(b)
4.2.3。讨论
在本文中,我们考虑了能量约束的无人机,概述了AGV-UAV联盟的操作指南。无人机的自主移动小车最初将运输所需的位置,它将起飞所需的高度来完成这个任务。这种方法限制了无人机的作战半径只有区域自主移动小车的正上方。不幸的是,当目标超出了AGV的达到或只能通过漫长的迂回,无人机的有限的活动范围将会增加总成本完成联盟任务。
例如,如图4,紫色目标位于障碍的正上方。尽管无人机可以达到这个目标所在的高度却无法完成运输任务,因为AGV不能直接达到以下目标。此外,红色的目标图4坐落在另一边的障碍,这需要自主移动小车直接绕障碍达到以下目标无人机起飞之前处理的目标。在这种情况下,如果无人机可以横向移动,然后尽快自主移动小车到达附近的障碍,无人机可以处理目标和联盟可以用更少的成本完成这项任务。
5。结论
本文提出了一个智能路径规划模型6克AGV-UAV运输任务的智能仓库环境。该模型利用PPO-CMA IL和DRL实验室网络,防止过早收敛的政策。这使得AGV-UAV联盟学习行为模式,以更低的成本完成运输任务。模拟仓库环境的实验证明该模型优于基线。在未来,重点将使AGV-UAV联盟来完成运输任务互补和合作的工作模式。此外,探讨如何使无人机行动水平进一步降低成本将是一个主题感兴趣的。
数据可用性
使用的数据来支持本研究的结果都包含在这篇文章。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者感谢TopEdit (https://www.topeditsci.com)的语言帮助在准备这个手稿。这项工作是支持的社会科学规划项目下的青岛格兰特QDSKL2201278和青岛市“Government-Industry-University-Research基金服务”创新和创业的大22-7-5-gtt-2-gx下社区项目。