文摘
针对低成功率和学习速度慢的问题DDPG算法的移动机器人在动态环境下的路径规划,改进DDPG算法设计。在这篇文章中,RAdam算法是用来取代DDPG的神经网络优化器,结合好奇心算法来提高成功率和收敛速度。改进算法的基础上,优先体验重复添加,和传递学习是提高了培训效果。通过ROS机器人操作系统和露台仿真软件,建立了动态仿真环境,改善DDPG算法和DDPG算法进行了比较。移动机器人的动态路径规划任务,仿真结果表明,改进DDPG算法的收敛速度是增加了21%,成功率是与原DDPG算法相比增加到90%。它有一个良好的效果在移动机器人的动态路径规划与持续的行动空间。
1。介绍
路径规划是机器人自主导航的一个非常重要的部分。机器人路径规划问题可以描述为找到一个最优路径从当前指向指定目标点在机器人工作环境的一个或多个优化目标条件下机器人的位置是已知的(1,2]。目前,常用的算法包括人工势场法(3)、遗传算法(4),模糊逻辑方法(5),强化学习方法(6]。近年来,许多学者提出了在动态环境中路径规划方法。在2018年,钱学森(7)提出了一种改进的人工势场方法基于连通性分析LBS系统的动态路径规划问题的目标。2019年,为了解决长途户外的机器人路径规划问题,黄(8)提出了一种改进的算法,结合高德牌映射基于矢量模型。2020年,奈尔和Supriya [9LSTM]应用神经网络算法在动态环境中路径规划。强化学习(RL)算法是一种学习算法,不需要代理提前知道环境。移动机器人感知当前环境时需要相应的行动。根据当前状态和行动,移动机器人从当前状态迁移到下一个状态。q学习算法(10)是一个经典的强化学习算法简单、收敛并得到了广泛的应用。然而,当环境是复杂的,与状态空间的维数的增加,强化学习算法容易陷入“维爆炸。“深度学习(DL)有很好的处理高维信息的能力。深入强化学习(DRL),它结合了DL和强化学习(11,12),不仅可以处理高维环境信息也进行相应的规划任务通过学习一个端到端的模型。因此,DQN算法(13)应运而生。通常解决问题的离散和低维的行动空间。深决定性策略梯度(DDPG)算法提出的DeepMind团队在2016年使用actor-critical算法框架,借鉴DQN算法的思想来解决这个问题的持续行动空间(14]。然而,当DDPG算法应用于路径规划在一个动态的环境中,它有一些缺点,比如成功率低,收敛速度慢,并且大多数相关研究停留在理论层面,缺乏解决实际问题。
在这篇文章中,一个新的DDPG RAdam算法的算法来代替原算法的神经网络算法结合好奇心算法来提高成功率和收敛速度和引入优先级重放和转移学习经验。原始数据是通过激光雷达由移动机器人动态障碍物信息,和改进的算法应用于移动机器人在动态环境下的路径规划,以便它可以安全地从起点到终点在很短的时间内,得到的最短路径,验证了改进算法的有效性。
本文的组织结构如下:第一部分是简介,第二部分介绍了DDPG算法原理和网络参数设置,第三部分是改进DDPG算法路径规划设计,第四部分显示了仿真实验和分析结果,并在最后一节给出了总结。
1.1。DDPG算法原理和网络参数设置
1.1.1。DDPG算法原理
DDPG本文中使用学习策略的方法,输出连续的动作。基于DPG使用Actor-Critic的优势的策略梯度算法和单步更新和DQN回放和目标网络技术的经验作为参考,Actor-Critic的收敛性得到改善。DDPG算法由网络和政策问网络。DDPG使用确定性的政策选择行动 ,所以输出不是行为的概率,但具体的行为,是政策网络的参数,是行动,是国家所有。DDPG算法框架如图1。
演员使用梯度学习策略和政策选择机器人的行为在当前的环境。相比之下,评论家使用政策评估评估价值功能和产生信号评价演员的动作。在路径规划过程中,环境的机器人传感器获取的数据输入到演员网络,和机器人的行动需要输出。评论家网络机器人的输入环境状态和路径规划和输出相应的行动问价值评估。DDPG算法,演员和评论家都是由款(深层神经网络)。演员网络和评论家网络近似 , ,和函数,分别。算法执行迭代更新时,首先,积累经验池的样本数据,直到达到指定的数量最小批量,然后批评网络通过使用示例数据,更新参数的问网络更新的损失函数和目标函数的梯度相对于行动获得(15]。然后,更新与亚当优化器。
2。DDPG网络参数设置
2.1。状态空间设置
本文中的机器人获得通过激光雷达本身和周围的障碍物之间的距离。激光雷达的探测距离范围是(0.12,3.5)(单位)和激光雷达的角范围16]检测(90−90),也就是说,0°的机器人,向左90°和90°。激光雷达数据是20维度,雷达数据在每个维度之间的角度是9°。依据判断机器人是否击中一个障碍在移动的过程中:如果障碍物的距离小于0.2米,这是判断的障碍。在实际的模拟中,20维激光雷达距离信息。
根据机器人之间的距离和障碍,机器人之间的状态和障碍分为导航状态和障碍物碰撞状态如下: 在哪里是我th维激光雷达距离数据机器人的时间 。当机器人之间的距离和障碍 ,机器人的状态的障碍。当机器人和障碍物之间的距离 ,机器人在正常导航状态(17,18]。
2.2。行动空间设置
DDPG决定网络的最终的输出是一个持续的角速度值在一定区间内。输出是连续的角速度,哪个更符合机器人的运动学特性,因此机器人的轨迹移动的过程中会更流畅,并输出行动会更连续。模拟中,有必要限制角速度不太大,所以设置最大角速度0.5 rad / s。因此,最终的输出角速度DDPG区间是(−0.5,0.5)(单位:rad / s),线速度值是0.25 m / s,前进速度(线速度 ,角速度 )(0.25,0),左转弯速度(0.25−0.5)和右转速度(0.25,0.5)。
2.3。奖励函数设置
在上面的公式中,返回值奖励。是机器人和障碍物之间的距离。在实验仿真,当的返回值小于0.2,200−碰撞与障碍。是机器人和目标点之间的距离值,和100奖励当到达目标点。在其他情况下,目标点的距离之差前一刻和目标点之间的距离在当前时刻,也就是说, ,作为返回值。设计是让机器人移动到目标点不断,这样每一个行动的机器人可以及时得到反馈,确保奖励函数的连续性,加快算法的收敛速度。
2.4。路径规划改进DDPG算法的设计
2.4.1。RAdam优化算法设计
在深入学习,大部分神经网络采用自适应学习速率优化方法,过度的方差的问题。减少这种差异问题可以提高训练效率和识别精度。
在一些神经网络优化算法,SGD收敛,但需要大量的时间。相比之下,亚当收敛快,但很容易落入局部的解决方案。RAdam使用热身方法来解决这个问题,亚当很容易收敛到局部最优解并选择相对稳定的SGD +动量培训早期减少方差稳定。因此,RAdam优于其他神经网络优化。此外,RAdam算法(19]近年来是一个算法,具有快速收敛性和精度高的特点,和RAdam算法可以有效地解决自适应学习方法的差异。因此,RAdam算法引入DDPG算法解决问题的成功率低、收敛速度慢的移动机器人路径规划在动态环境中引起的神经网络方差问题[20.]。RAdam算法公式可以表示如下: 在哪里参数是训练,培训时间,步长,整改项,是移动的二阶矩偏差纠正后,是移动平均偏差纠正后,衰减速率{ , },{ , }是衰减速率t,是一阶矩(动力),是二阶矩(自适应学习速率),是一个梯度,的最大长度是简单的移动平均线,的最大价值是简单的移动平均线,是目标参数,是梯度系数。
2.5。优先体验重播
在移动机器人在动态环境下的路径规划,因为环境的不确定性,有很多无效的经验由于碰撞早期阶段的训练。原DDPG算法使用这些无效的培训经历,导致低成功率的路径规划后培训和浪费大量的时间。为了解决这一问题的成功率在动态环境中移动机器人路径规划不高由于无效的经验,本文设计并添加优先体验重播。当优先体验重播提取经验,是优先考虑提取最宝贵的经验,但不仅最有价值的经历;否则,将导致过度拟合。值越高,提取的概率就越大。最低的价值时,也有一定概率的提取。
优先体验回放使用TD(不同时间)误差的大小来衡量经验学习过程有更大的贡献。在DDPG算法,其核心更新公式 TD-error在哪里 在哪里 是行动移动机器人时选择的行动空间 ,这 的最大价值值对应的所有操作,是训练时间。作为一个折扣因素 ,让它(0,1)之间的值,以便移动机器人并不太在意每个操作带来的奖励价值在未来,也不会成为目光短浅,但只注重立即采取行动回报。返回值是通过移动机器人执行行动和过渡状态来 。优先体验重播的目标是使TD-error尽可能小。如果TD-error相对较大,这意味着我们的电流函数仍然是远离目标函数,应该更多的更新。因此,TD-error是用来测量经验的价值。最后,二叉树方法用于提取有效经验与各自的重点。
2.6。好奇心算法
之间的交互的核心深处强化学习算法和环境的设置奖励机制。合理的奖励机制可以加快代理的学习过程,实现好的结果。然而,在移动机器人的路径规划在动态环境中,移动机器人的工作环境变得越来越复杂,外部奖励培训无法迅速得到好的结果。因此,好奇心算法(21]介绍了文档的形式提供内部奖励减少学习过程的行为和self-errors代理通过内部好奇心模块(ICM),以便移动机器人可以训练的共同作用下,内部和外部奖励和实现路径规划效果好。最后的奖励值加上DDPG算法 ,在哪里总回报价值,是好奇心模块的内部奖励,的外部奖励DDPG算法。
在一个完整的培训过程中,原始的和下一个状态值和动作应通过内部计算好奇心模块如图2。具体来说,好奇心算法使用两个子模块:第一子模块编码成 ,第二子模块连续使用了两个州,和 ,由前面的模块编码预测行动 。,代理将通过远期的作用模型 ,在哪里的预测估计价值行动,和代表的原始状态和下一状态的代理,神经网络参数,函数是逆动态模型。状态之间的误差计算进行远期预测模型和下一个状态的编码,和计算结果获得一个内部奖励。编码原则如下: 在哪里代表一个国家的预测价值,代表一个特征向量编码的原始状态 , 是行动,学习是一个神经网络参数,函数被称为动力学模型。
神经网络参数优化通过最小化损失函数 :
内在奖励值 在哪里比例因子,满意吗 。编码结果的原始状态和下一状态将预测的逆动力学模型。
好奇心的整体优化目标算法总结如下:
的公式,和是标量,是神经网络参数,逆模型和提出的损失模型的权重吗满足 ,梯度输给奖励的重要性在学习测量信号 , 是满意,是损失函数来衡量预测之间的差异和实际行动,内部奖励价值在时间吗 ,和 代表一个参数化的政策。在仿真实验中,是0.2,是0.1。
2.7。仿真实验和结果分析
2.7.1。建立仿真实验环境
仿真实验的硬件配置:英特尔i5 - 3320 m CPU和4 g内存。操作系统是Ubuntu 18.04。ROS旋律机器人操作系统安装,建立了模拟环境下使用露台9 ROS。生成的实验环境如图3。
(一)
(b)
在图的模拟环境3(一个),一个广场环境建立了8米的长度和宽度,没有障碍,移动机器人在起点的位置设置为(−2 2.5),和色圈在目标点设置为(2−2),主要用于火车移动机器人的能力来完成学习目标在一个有限的空间转移。在图的模拟环境3(b),八个动态障碍的基础上添加上述环境,其中中间四(0.3×0.3×0.3)米3障碍是逆时针转动的速度0.5米/秒,上、下两个(1×1×1)m3障碍水平移动的速度0.3米/秒,中间两个(1×1×1)m3障碍垂直移动的速度0.3米/秒。的起始点和目标点移动机器人是相同的第一个模拟环境,和第二个模拟环境是用来训练机器人计划在动态环境中它的路径。
2.8。仿真实验和结果分析
为了验证算法,原始DDPG和改进DDPG移动机器人路径规划算法训练了1500发子弹在仿真环境中相同的动态障碍,和总返回值每轮移动机器人的仿真培训记录。图的训练轮作为横坐标,每个训练轮的返回值为纵坐标绘制如下。
的结果图4表明,当DDPG算法在动态障碍训练仿真环境,总返回值曲线逐渐上升和下降的趋势与训练轮的数量的增加,表明动态障碍环境中移动机器人培训不收敛。总返回值差别很大,从0到200发子弹,和返回值主要是负面的。这表明机器人到达目标点“学习”。观察训练过程中,可以看出,移动机器人的动态碰撞障碍逐渐接近目标点时,和总返回值可以达到大约2400到200年的400。观察训练过程中,可以看出,机器人在一些情况下可以达到目标点。400发子弹后,返回值是高和低,大部分都是稳定在500左右。观察训练过程中,我们可以看到,他们中的大多数人最终与动态障碍物发生碰撞。
图5显示了回归曲线DDPG与转移学习算法在动态环境中训练。从图可以看出5机器人将会朝着目标点的转移的开始,因为学习,所以学习负价值的回归曲线比图要少得多4,但整体曲线是不均匀的,不收敛。
图6显示了回归曲线DDPG算法的训练在动态环境中,只有优先体验重播。因为优先体验重播消除了大量的无效数据的早期训练,从图可以看出6回归曲线逐渐增加从负值和趋于稳定,但收敛速度较慢,并且成功率低。
图7是一个返回图DDPG算法在动态环境中训练的优先级重放和转移学习经验。从图可以看出7返回值曲线与图相比提高了4,但尚未达到收敛的效果。
图8显示,当DDPG算法RAdam介绍和优先级经验回放和转移学习被添加到火车在动态障碍仿真环境中,返回值曲线逐渐增加并趋于稳定的增加训练轮的数量。结果表明,DDPG与RAdam大约是收敛算法动态障碍环境。因为通过结合内部和外部奖励,而图7、收敛速度和成功率明显提高,表明添加RAdam算法优化器有更好的影响在动态环境中移动机器人的路径规划。
图9显示,当改进DDPG算法(即。,curiosity module is introduced on the basis of the RAdam algorithm optimizer) and priority experience replay and transfer learning are added to train in a dynamic obstacle simulation environment, the return value curve gradually increases and tends to stabilize with the increase of the number of training rounds. Compared with Figure8收敛速度和成功率明显提高,返回值也大大改善了与前一个相比由于内部好奇心模块提供的奖励。
数据10 ()- - - - - -10 (d)显示的模拟过程改进DDPG路径规划算法在动态环境中达到目标点。如图10,移动机器人避免所有动态障碍从起点到达终点。
(一)
(b)
(c)
(d)
2.9。实验结果的比较分析
为了验证训练模型的路径规划的成功率在动态环境中,四个培训模型测试了50倍的动态环境中,相同的测试进行了三次的平均值。三次实验完成,以确保数据的有效性。测试结果和时间序列模型是记录在表1。
实验结果表明,在桌子上1,原DDPG算法的成功率可以达到50%,模型的训练时间是14个小时。只有增加传输之后学习,虽然减少了训练时间,成功率会降低。只添加优先体验重播,成功率提高到70%,但训练时间没有减少。通过添加优先级重放和引入转移学习经验,成功率提高到74%,模型训练时间缩短至13小时。添加RAdam算法之后,成功率提高到86%,模型训练时间缩短为12小时。最后,好奇心模块的成功率增加到90%,和模型训练时间缩短到11个小时。与原DDPG算法相比,收敛速度增加21%,成功率增加到90%。
在实验期间,Rviz订阅self-odometer消息奥多姆发布的移动机器人,可视化的构成信息移动机器人在每个坐标轴的形式,并给出了路径规划改进前后到达目标点,如图11- - - - - -13。
的时间和路径结果动态环境中移动机器人到达目标点DDPG算法改进后的表所示2。为了保证结果的有效性,测试结果是平均10次。
根据表中的数据2,它需要86秒和280步原始DDPG到达目标点的路径规划算法在动态环境中移动机器人的这篇文章。添加RAdam神经网络优化算法,时间缩短到76年代,步长减少到250人。好奇心模块介绍的基础上,前一个,达到60年代的时候,步长是缩短到210年。通过实验比较,证明改进的时间和步长DDPG算法在动态环境中移动机器人路径规划的改进,验证了算法的有效性。
3所示。结论
在本文中,一种改进DDPG算法旨在解决收敛速度慢的问题和低成功率在动态环境下移动机器人路径规划。改进算法使用RAdam原始算法的神经网络优化算法,引入了好奇心模块,并添加优先级重放和转移学习经验。DDPG算法和改进的DDPG算法是用来模拟在动态环境中移动机器人的路径规划。比较结果表明,该改进算法具有更快的收敛速度和更高的成功率和具有较强的适应性,在动态环境中移动机器人的路径规划。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关这篇文章的出版。
确认
这项工作得到了中央大学(没有基础研究基金。3072021 cfj0408)。