移动信息系统

在这一页上

文摘介绍相关的工作实验结果和分析结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

聪明的反射表面授权6 g网络

把这个特殊的问题

研究文章|开放获取

体积2023年| 文章的ID4916127| https://doi.org/10.1155/2023/4916127

智能路径规划AGV-UAV运输在6克智能仓库

Weiya郭 ¹ 和Shoulin李 ¹

学术编辑器: 他李

收到了 2022年11月28日

修改后的 2023年4月24日

接受 2023年5月09

发表 2023年5月31日

文摘

最近,深入强化学习(DRL)吸引了越来越浓的兴趣领域的智能导航和路径规划智能仓储。最新的模仿增强DRL (IADRL)模型取得了良好的性能合作运输任务的自动引导车辆(agv)和无人驾驶飞行器(无人机)。然而,这个模型并不总是目标货物运输优化政策由于过早收敛。因此,我们提出了一个智能AGV-UAV运输路径规划模型。该模型利用协方差矩阵的近端政策优化适应(PPO-CMA)模仿学习和DRL实验室网络,使AGV-UAV联盟计划的最佳运输路线以更低的成本。实验在模拟仓库场景演示了该模型和改进积累培训奖励10%以上,优于现有的先进模型的有效性和效率。

1。介绍

随着全球5 g网络的快速部署,6 g和其在行业的应用吸引了越来越多的注意力从研究人员(1- - - - - -3]。材料存储在智能仓库的数量最近显著增加。仓库空间利用率最大化是一种使6克智能仓库在未来更为常见。在现代智能仓储、货物运输主要是完成自动引导车辆(agv) [4]。由于自主移动小车的有限可及的高度,是不可能运输货物在更高的位置,这限制了商品在仓库货架的高度,导致仓库空间的浪费。当货物的数量超过仓库的负担能力,额外的仓库空间只能打开存储货物,和新仓库空间意味着成本的增加,利润减少。

随着硬件设备的发展,越来越多的无人机(uav)已经开发了各种操作,例如,监测、地面目标跟踪、光学遥感和精准农业(5- - - - - -8]。无人机的最重要的优势是,他们可以在高位进行任务。申请货物运输任务的无人机可以克服自主移动小车的限制。然而,无人机的能耗远高于自主移动小车。因此,无人机的工作时间和操作距离妥协,从而无法进行长途运输任务(9]。因此,我们不能直接用无人机代替自主移动小车的货物运输任务。

基于前面的事实,我们打算自主移动小车和无人机结合,形成合作AGV-UAV运输货物运输任务和解决问题他们不能独自完成。在运输期间,无人机可以在更高的职位目标商品,虽然自主移动小车可以针对那些在较低位置。商品在很长一段距离和高位置,无人机的自主移动小车可以携带货物的位置,然后,无人机可以飞处理货物。这样,无人机自主移动小车的弥补了身高限制,有效地提高仓库的空间利用率,减少了工作时间和功耗的无人机。

AGV-UAV运输,路径规划是一个重要的组成部分,其导航的过程。选择最短的运输路线在运输可以减少运输成本方面的时间和精力。近年来出现的各种路径规划算法,包括传统的路径规划算法(例如,迪杰斯特拉算法10),算法(11),人工势场算法(12])和智能路径规划算法(如遗传算法(13),粒子群算法(14),和蚁群算法15])。这些算法在路径规划实现特定的成就但很容易被环境因素和无法处理大规模的状态空间中的数据。随着人工智能技术的普及,强化学习(DRL)发挥着越来越重要的作用在智能导航和路径规划由于其优秀的感知和决策能力16]。特别是,张等人提出了一个模仿增强深强化学习(IADRL)模型为运输任务在复杂环境中(17]。与传统的算法相比,IADRL使AGV-UAV联盟以更低的成本来完成货运任务。

然而,IADRL可能提前收敛,并在培训过程中陷入局部最优(18]。针对前面的问题,我们提出了一个智能AGV-UAV运输路径规划模型。通过引入协方差矩阵的近端政策优化适应(PPO-CMA) [19到模仿学习的政策(IL)和DRL实验室网络,我们的模型不仅可以学习AGV-UAV联盟的潜在行为特征的演示数据,也为联盟提供了行为决策更好的优化政策。实验结果表明,我们的模型优于其竞争对手解决过早收敛问题,使AGV-UAV联盟以更低的成本完成运输任务。

本文的其余部分组织如下。部分2讨论了相关工作,该方法在节中有详细描述3。部分4给出了实验结果和部分5本文总结道。

最近路径规划是机器人研究的一个热点问题,核心要求是找到一个最优路径从起点到成本最低的端点(例如,距离、时间和能量)。现有算法主要可以分为三类:(1)传统算法,智能算法,(2)和(3)DRL-based算法。

2.1。传统的算法

传统的路径规划算法包括迪杰斯特拉算法(10),算法(11[],和人工势场算法12]。迪杰斯特拉算法路径规划领域的经典算法,它使用一个贪婪的政策扩大一个节点一次遍历节点在环境中实现的最短路径从开始到结束。迪杰斯特拉算法的基础上,算法将启发式规则添加到节点展开时收敛速度更快。虽然算法已广泛应用于许多领域,应用程序的场景算法对离散的空间是有限的。人工势场算法集代理和目标之间的引力和斥力和代理之间的障碍,以便代理可以达到目标位置沿方向的合力。然而,不同场景的力比只能手动协调,使得很难获得最优的配置,这限制了它在复杂环境中应用。

2.2。智能算法

智能路径规划算法的一系列算法由观察自然现象和动物的习惯,包括遗传算法(13),粒子群优化(PSO)算法(14),和蚁群算法15]。遗传算法模拟自然选择和遗传机制,寻求最优解决方案。然而,这取决于初始种群的选择,及其解决大规模问题时收敛速度很慢。蚁群算法和PSO算法模仿蚁群和鸟类成群的群体智能行为和具有良好的并行性,收敛速度快。然而,参数设置的影响这两个算法的性能,使它们很容易落入局部最优解。

2.3。DRL-Based算法

强化学习可以优化代理的行动政策,最大化长期回报没有背景知识。它可以找到最优路径完全未知的环境中通过不断试验和错误(20.]。因此,研究人员应用DRL目标路径规划问题。米卢斯基等人提出了一个DRL方法训练特工庞大而丰富的视觉环境中导航通过引入记忆和辅助学习目标(21]。Sallab等人提出了DQN算法对离散的行为和深度确定性actor-critic算法连续行动车道保持辅助(22]。陈等人设计了一个省钱的导航策略基于社会意识与DRL避碰,可以完全自主导航机器人车辆的环境有许多行人(23]。肯德尔等人DRL适用于一个全尺寸的自主车,可以学习政策巷在为数不多的通过一个单一的单眼图像训练集作为输入(24]。通过模仿学习(IL)和DRL、张等人提出了一个IADRL模型AGV-UAV联盟(17)合作高效地完成任务。然而,IADRL模型存在局部最优问题,由于提前收敛。因此,仍有空间提高路径规划性能AGV-UAV运输任务。

3所示。该方法

3.1。动力和挑战

如在介绍部分所讨论的,IADRL模型结合强化学习和模仿学会学习AGV-UAV运输联盟的合作和互补的行为模式从专家数据和交互数据。IADRL采取的行动政策,然而,近端优化(PPO)政策本身的缺陷可能导致IADRL学习过程陷入局部最优,因此无法找到最优路径。

为了更好地分析PPO的缺点,我们只创建一个环境包含二维操作,便于我们想象的分布在迭代过程中选择的政策行动。在这种环境下,平方和的回报是负相关的行动选择的政策,政策时达到最优行动选择的政策都是零。在图1,我们可视化操作的分布在不同的迭代,选择不同的政策,绿色代表有利行动和红色代表negative-advantage行动。

在第一行的数字1,当政策执行多个minibatch梯度下降法与相同的数据在PPO风格不考虑剪切损失,选择的行动策略迭代9点偏离最优点。这种情况会发生,因为离negative-advantage negative-advantage行动推动政策行动。相比之下,有利行动把政策有利的行动。更新过程的每一步移动远离negative-advantage政策行动,最终导致战略偏离最优点。

如第二行图所示1与第一行相比,PPO在迭代过程中不偏离,但随着迭代的进行方法的最优点。然而,最终的政策仍然没有完全达到最佳点。这是因为PPO限制政策的更新范围通过剪切损失预防政策的偏差。但剪裁损失也会导致政策提前收敛和陷入局部最优22]。

基于我们的研究基于强化学习算法,我们指出,PPO-CMA [25PPO的可以解决前面提到的问题。PPO-CMA防止以标准的政策,政策的早期收敛而不是剪切损失梯度的损失和更新政策的方差和均值独立网络,分别。此外,PPO-CMA避免了政策偏差问题造成negative-advantage行动negative-advantage行动转化为积极的通过一个镜像的方法。见图的第三行1PPO-CMA开始收敛,只有当它接近最优点,最终达到最优的策略。

所有这些观察激励我们提出一种新的模型基于PPO-CMA解决过早收敛问题提出了IADRL并提供路径规划AGV-UAV联盟的运输任务。

3.2。该模型

处理在IADRL过早收敛的问题,我们提出一种新的模型的路径规划AGV-UAV联盟使用PPO-CMA作为行动的政策。具体来说,剪裁损失是首次取代了标准的政策梯度亏损,以防止过早收敛。之后,更新政策的均值和方差分别使用独立的网络,进一步扩展方差最优搜索方向。此外,negative-advantage行动变成了一个有利的行动一个镜像的方法。

AGV-UAV运输联盟由元组可以被描述 ,在哪里代表了环境,是奖励函数, 是未来回报的折现系数,AGV-UAV的互补合作模型。的代表联合对环境的观测值,组成的观测值的AGV和观测值的无人机。的意味着运输联盟的作用,这包括行动采取的AGV和行动采取的无人机。我们的目标是学习联合value-action函数使AGV-UAV联盟,以达到最大程度的整体奖励(或最低总成本),同时完成各种任务。

根据生成的敌对的模仿学习(GAIL)模型(25摘要),IL模型包括一个发电机和一个鉴别器。发电机 ,同样的政策在DRL模型中,负责生产操作接近专家的分布数据基于给定的观察通过鉴别器的检测。鉴频器的不同专家的数据获得的数据生成器。在培训过程中,应该最大化,价值函数描述如下(17]:

在这里,的重量吗 , 熵的政策(26), 折扣因素吗 ,和专家提供的政策证明数据。

价值函数DRL模型用于过程中接收到的奖励和评价当前的行动选择的政策。DRL模型的训练旨在最大化价值函数AGV-UAV的定义在哪里函数的参数吗 , 是未来回报的折现系数,是增强回报函数。

为了防止过早收敛政策,下列标准政策梯度损失作为损失函数的政策而不是剪切损失。在哪里价值函数的参数吗 , 是mini-batch样本指数,索引操作变量和是样品批次的数量。代表的优势函数测量采取行动的回报在国家。

此外,政策的均值和方差是使用单独的网络,这样生成的意思是更新前的方差可以更新。这使得政策更快地找到最优点延伸探索分布沿最优搜索方向而不是过早收敛方差(27]。

考虑到negative-advantage行动可能导致政策偏差,镜像技术是用来negative-advantage行动转化为积极的。鉴于在当前政策优势的线性的意思 ,可以镜像negative-advantage行动变成有利行动的意思。具体来说,我们 , ,在哪里是一个高斯内核分配重量少行动远离的意思。

4所示。实验结果和分析

在本节中,我们首先进行了实验的PPO和PPO-CMA OpenAI提供的健身环境。之后,我们建立了一个实验环境AGV-UAV问题和详细的环境配置。在此基础上,我们证明了该模型的有效性和优越性,通过比较实验结果与其他模型。

4.1。健身房的实验

从图1,我们可以看到PPO-CMA解决了PPO的早期收敛的问题,它已不再被negative-advantage行动。更好地展示PPO-CMA的优点,我们进一步比较两种算法在健身房环境。

从图可以看出2MountainCar-v0实验和BipedalWalker-v3表明PPO-CMA可以在实验中获得更高的回报,这表明PPO-CMA优于PPO。此外,PPO-CMA显然比PPO在收敛速度快。

(一)

(b)

图3给出了方差的两个策略培训过程。可以看出,采样PPO-CMA减少到最小值的方差更慢比PPO,有效地扩展了勘探方差,防止陷入局部最优的政策,和PPO-CMA最后达到一个更好的培训效果。

(一)

(b)

4.2。AGV-UAV运输试验

4.2.1。准备实验配置

我们设计了一个虚拟仿真场景的模型基于Unity3D ML-Agents平台(28),我们部署了一个AGV-UAV联盟与50米的大小50米10米,联盟的任务是完成货物的运输最短路径。如图4,青蓝色的方块代表了AGV,黄色的平方代表了无人机,绿色,红色,紫色球体代表目标货物在不同的高度和位置。

在实验中,每个代理的ray-cast传感器提供的Unity3D收集环境的状态。ray-cast传感器投射线到周围环境和所有检测到的对象的位置和他们的距离。自主移动小车的射线只在水平方向上检测环境,而无人机上下波动的射线45度检测环境。所有射线的探测范围设置为20米。观察AGV-UAV联盟是一个向量,它包含的环境信息结合所有的射线检测到的回报。

行动的AGV表示为 ,和无人机的行动表示为 ,在哪里 , ,和代表代理的加速度 , ,和的方向。AGV-UAV联盟的行动是由自主移动小车的作用和无人机, 。

在提出的模型中,建立了鉴别器和两个隐藏层,每128个神经单位。同时,价值函数设置了三个隐藏层每层512单元,和政策建立了与三个隐藏层每层512单元。此外,最初的自主移动小车的位置,无人机和目标货物都是随机的。

环境设计基于奖励AGV-UAV联盟可能会遇到的情况。联合学习最便宜的路径,我们设置一个小惩罚0.01每一步的联盟。由于自主移动小车的电池寿命是无人机的5到10倍,我们设置了罚金的每一步无人机自主移动小车的6倍。因此,在正常情况下,应该由无人机自主移动小车的目的地,然后,无人机开始工作。我们为每个目标设置奖励120,鼓励联合完成这个任务。考虑到实际情况可能会有障碍,我们在现场设置障碍,了一大笔罚款−30的联盟与障碍物相撞。120年获得联盟的最终奖励已经实现了所有的目标。

在实验中,我们可以手动控制代理来完成一些简单的任务和记录数据训练模型专家数据。我们收集了10000步代理的运行数据,数据包括所有基本的场景AGV和无人机合作完成任务。应该注意的是,专家数据使模型学习合作和自主移动小车和无人机之间的互补关系,不是学习路径的优化政策。因此,我们的演示数据只需要反映的行为特征AGV-UAV联盟。也就是说,自主移动小车首先携带无人机到目标位置,然后,无人机起飞,开始工作。此外,没有必要人为地优化路线从联盟的目标。

4.2.2。实验结果

AGV-UAV运输任务,每集最大训练一步是设置为20000。如果联合政府所有的货物,这一事件立即终止,否则,培训持续进行直到代理运行的最大的一步。在实验中,我们比较该模型有四个模型包括PPO、行为克隆(BC) (29日),盖尔,IADRL绩效评估。确保一个公平的比较,我们使用相同的参数,即。,the number of targets, the learning rate, and the maximum step, for all models.

图5首先比较了所有五个模型获得的奖励。显然,该模型具有最高的奖励,表明最好的优化路径规划的能力。根据研究结果,提出模型的最高奖励是4400,但是IADRL小于4000的最高奖励,导致超过10%的改善。IADRL优于PPO,盖尔和BC模型由于IL和DRL的结合。PPO模型可以学习政策环境的基础上,所以它可以快速学会避免障碍训练过程的开始。然而,没有演示的指导数据,它不能学习AGV-UAV联盟的行为特征,导致其训练速度和最终的回报低于IADRL和拟议的模型。此外,它可以看到,PPO IADRL和拟议的模型往往收敛。但盖尔和BC模式失败,这基本上是符合理论推测,盖尔和BC只复制的行动和政策提供的演示数据,而不是获得最优政策,获得更高的回报。如图6,移动步骤的数目在每集的BC和盖尔模型总是等于20000年最大的一步,这意味着他们无法完成运输任务的目标。这是因为这两个模型高度依赖专家数据,不能自适应地适用于复杂环境。

(一)

(b)

在培训过程中,不断与环境交互的代理收集数据。训练样本可以越来越多的增量移动步骤。评估该模型如何执行在不同大小的训练样本,图7(一)显示了不同时期的积累训练奖励值根据训练样本的大小。特别是,我们的报酬曲线在不同时期:绿色的小训练样本的大小,橙色为中等大小,和红色的大尺寸。可以看出,奖励很低但增长更快,当它有一个小训练样本的大小。在这种情况下,我们的模型仍然优于IADRL和PPO模型更高的奖赏,如图7 (b)。

(一)

(b)

图8显示的数量之间的碰撞AGV-UAV联盟在每集和障碍。可以看出,PPO, IADRL,并提出模型可以快速减少碰撞的数量减到最少训练后与许多碰撞早期阶段的训练。但BC和盖尔模型保持大量的碰撞由于缺乏环境的回报。

为了更好地展示该模型的优越性,我们使用以下评价指标:(1)任务完成比例,也就是说,目标达成的联盟的比例在每集的总数目标和(2)的步骤需要完成的任务。IADRL并提出模型进一步对比图9,(一个)显示了任务完成率和(b)显示了移动的步数。可以看出,该模型的完成率是优于IADRL模型。然而,大约250集,该模型的完成率达到一个下面的情节并保持稳定。根据图9 (b)在早期学习阶段,很难模型完成所有货物的运输没有合适的政策。因此,消耗的模型的数量的步骤在每集20000年达到最大值。循序渐进的训练,政策逐步优化,和步骤完成一集的数量减少。可以看出,该模型优于IADRL的任务完成率和移动步骤的数目。

(一)

(b)

4.2.3。讨论

在本文中,我们考虑了能量约束的无人机,概述了AGV-UAV联盟的操作指南。无人机的自主移动小车最初将运输所需的位置,它将起飞所需的高度来完成这个任务。这种方法限制了无人机的作战半径只有区域自主移动小车的正上方。不幸的是,当目标超出了AGV的达到或只能通过漫长的迂回,无人机的有限的活动范围将会增加总成本完成联盟任务。

例如,如图4,紫色目标位于障碍的正上方。尽管无人机可以达到这个目标所在的高度却无法完成运输任务,因为AGV不能直接达到以下目标。此外,红色的目标图4坐落在另一边的障碍,这需要自主移动小车直接绕障碍达到以下目标无人机起飞之前处理的目标。在这种情况下,如果无人机可以横向移动,然后尽快自主移动小车到达附近的障碍,无人机可以处理目标和联盟可以用更少的成本完成这项任务。

5。结论

本文提出了一个智能路径规划模型6克AGV-UAV运输任务的智能仓库环境。该模型利用PPO-CMA IL和DRL实验室网络,防止过早收敛的政策。这使得AGV-UAV联盟学习行为模式,以更低的成本完成运输任务。模拟仓库环境的实验证明该模型优于基线。在未来,重点将使AGV-UAV联盟来完成运输任务互补和合作的工作模式。此外,探讨如何使无人机行动水平进一步降低成本将是一个主题感兴趣的。

数据可用性

使用的数据来支持本研究的结果都包含在这篇文章。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢TopEdit (https://www.topeditsci.com)的语言帮助在准备这个手稿。这项工作是支持的社会科学规划项目下的青岛格兰特QDSKL2201278和青岛市“Government-Industry-University-Research基金服务”创新和创业的大22-7-5-gtt-2-gx下社区项目。

引用

j·冯·l·刘,问:裴和k . Li”Min-max成本优化高效分级联合学习无线网络边缘,”IEEE并行和分布式系统,33卷,不。11日,1 - 2700、2022页。
视图: 出版商的网站 | 谷歌学术搜索
l . Liu m .赵m . Yu m . Jan d .局域网和a . Taherkordi”Mobility-aware种任务卸载的自主驾驶车辆边缘计算和网络,”IEEE智能交通系统,24卷,不。2、1 - 14,2022页。
视图: 出版商的网站 | 谷歌学术搜索
毛,l . Liu n . Zhang et al .,“可重构智能surface-assisted安全移动计算网络边缘,”IEEE车辆技术,卷71,不。6,6647 - 6660年,2022页。
视图: 出版商的网站 | 谷歌学术搜索
e . Oyekanlu A . Smith,托马斯w . et al .,“回顾最近的进步自动引导车辆技术:集成挑战和研究领域5 g智能制造的应用,建设”IEEE访问,8卷,第202353 - 202312页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j·马丁内斯,m . Gheisari和l .提问——”无人机集成在当前建设安全规划和监控流程:案例研究高层建筑的建设项目在智利,”工程管理》杂志上,36卷,不。第三条ID 05020005, 2020。
视图: 出版商的网站 | 谷歌学术搜索
b李和吴y”,为无人机路径规划地面目标跟踪通过强化学习,”IEEE访问,8卷,第29074 - 29064页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
e . Alvarez-Vanhard t Corpetti, t . Houet”无人机和光学遥感应用卫星协同效应:一个文献综述,”遥感科学卷,3篇文章ID 100019, 2021。
视图: 出版商的网站 | 谷歌学术搜索
g·梅西纳和g .口风琴”无人机热影像在精准农业中的应用:最先进的和未来的研究前景,”遥感,12卷,不。9,1491年,页2020。
视图: 出版商的网站 | 谷歌学术搜索
Yu, z沈、y彭日成和r·刘”的多智能体强化学习能力受限environment-adaptive多uav-ugv合作,”学报2021年IEEE 17自动化科学与工程国际会议(案例),页2114 - 2118,法国里昂,2021年8月。
视图: 谷歌学术搜索
m . Enayattabar a Ebrahimnejad h . Motameni,”迪杰斯特拉最短路径算法问题区间值毕达哥拉斯模糊环境下,“复杂和智能系统,5卷,不。2、93 - 100年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
鸿星尔克还,d·本·y聂,问:朱,l·肖和d .赵”基于一种改进的a *自主陆地车辆路径规划算法,”国际先进的机器人系统杂志》上,17卷,不。5、文章ID 1729881420962263, 2020。
视图: 谷歌学术搜索
美国Orozco-Rosas, k的海岸边,o .打算“加速进化人工势场路径规划计算基于对于非静态环境,”直观的和2型模糊逻辑神经和优化的改进算法:理论和应用程序施普林格,页271 - 297年,柏林,德国,2020年。
视图: 谷歌学术搜索
m . Nazarahari大肠Khanmirza, s . Doostie“多目标多机器人路径规划使用改进的遗传算法,在连续环境”专家系统与应用程序卷,115年,第120 - 106页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
j . d . x Liu Zhang, t . Zhang和h·朱”路径规划方法基于粒子群优化算法训练模糊神经网络,”集群计算,24卷,不。3、1901 - 1915年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
s . Mirjalili j .宋董,a .刘易斯“蚁群优化器:理论、文献综述和应用于水下机器人路径规划,“产品表面优化器施普林格,柏林,德国,2020年。
视图: 出版商的网站 | 谷歌学术搜索
h . Bayerlein m . Theile m . Caccamo, d . Gesbert”Multi-uav路径规划与强化学习,无线数据采集”IEEE开放通信协会杂志》上,2卷,第1187 - 1171页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
j .张毛s, s . c . Periaswamy z Yu j·巴顿和夏x”Iadrl:模仿增强深度强化学习启用ugv-uav联盟任务在复杂的环境中,“IEEE访问,8卷,第102347 - 102335页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j·舒尔曼f . Wolski p . Dhariwal a·雷德福o·克里莫夫,“近端政策优化算法,”2017年,https://arxiv.org/abs/1707.06347。
视图: 谷歌学术搜索
p . Hamalainen a . Babadi x马,j . Lehtinen”PPO-CMA:近端与协方差矩阵适应,优化政策”学报2020年IEEE 30日国际研讨会在机器学习信号处理(MLSP),页1 - 6,IEEE,埃斯波,芬兰,2020年9月。
视图: 谷歌学术搜索
诉Francois-Lavet p·亨德森,r .伊斯兰教,m·g . Bellemare和j . Pineau“介绍深强化学习,”机器学习的基础和趋势®,11卷,不。3 - 4、219 - 354年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
p .米卢斯基,r . Pascanu f .中提琴et al .,“学习导航在复杂的环境中,”2016年,https://arxiv.org/abs/1611.03673。
视图: 谷歌学术搜索
a . Sallab m . Abdou e·佩罗和s . Yogamani”端到端深车道保持辅助强化学习,”2016年,https://arxiv.org/abs/1612.04340。
视图: 谷歌学术搜索
陈y, m·埃弗雷特·m·刘,j .如何“与深层强化学习具有社会意识的运动计划,”学报2017年IEEE / RSJ智能机器人和系统国际会议(——)IEEE,页1343 - 1350年,温哥华,加拿大,2017年9月。
视图: 谷歌学术搜索
a·肯德尔·j·霍克,d . Janz et al .,“一天学开车,”机器人和自动化学报2019年国际会议上)举行(“国际机器人与自动化会议”IEEE,页8248 - 8254年,蒙特利尔,加拿大,2019年5月。
视图: 谷歌学术搜索
j . Ho和s . Ermon”生成敌对的模仿学习”,先进的神经信息处理系统2016年,卷。29日。
视图: 谷歌学术搜索
s•j•舒尔曼,p . Abbeel m·乔丹和p·莫里茨,在信赖域策略优化机器学习的国际会议PMLR,页1889 - 1897年,里尔,法国,2015年7月。
视图: 谷歌学术搜索
n .汉森“cma进化策略:一个教程,”2016年,https://arxiv.org/abs/1604.00772。
视图: 谷歌学术搜索
a . Juliani e·邓科恩et al .,“团结:一般智能代理的平台,”2018年,https://arxiv.org/abs/1809.02627。
视图: 谷歌学术搜索
a·爱德华兹,h·萨尼、y .史和c的时候,“从观察、模仿潜在的政策”机器学习的国际会议PMLR,页1755 - 1763年,长滩,CA,美国,2019年6月。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

188年

下载

104年

引用

移动信息系统

聪明的反射表面授权6 g网络

智能路径规划AGV-UAV运输在6克智能仓库

文摘

1。介绍

2。相关的工作

2.1。传统的算法

2.2。智能算法

2.3。DRL-Based算法

3所示。该方法

3.1。动力和挑战

3.2。该模型

4所示。实验结果和分析

4.1。健身房的实验

4.2。AGV-UAV运输试验

4.2.1。准备实验配置

4.2.2。实验结果

4.2.3。讨论

5。结论

数据可用性

的利益冲突

确认

引用

版权