基于深度强化学习的轮式机器人斜坡地面动态路径规划研究

摘要

现有的动态路径规划算法不能很好地解决轮式机器人在有动态移动障碍物的斜坡地面上的路径规划问题。针对DDQN训练阶段收敛速度慢的问题，提出了基于树-双深度Q网络(TDDQN)的动态路径规划算法。该算法通过优化树结构，抛弃检测到的不完整路径和过检测路径，并将DDQN方法与树结构方法相结合。首先，利用DDQN算法在当前状态下选择动作较少的最优动作，从而得到满足条件的候选路径。然后根据所得到的状态，重复执行上述过程，形成树形结构的多条路径。最后，使用非最大抑制方法从多个符合条件的候选路径中选择最佳路径。ROS仿真和实验验证了轮式机器人在有移动障碍物的斜坡地面上能够有效到达目标。结果表明，与DDQN算法相比，TDDQN具有收敛速度快、函数损耗小的优点。

1.介绍

移动机器人路径规划技术是智能移动机器人研究的核心内容之一[1]。移动机器人的路径规划是指机器人感知环境，根据传感器获取的信息自主规划到达目标的路径的活动。随着科学技术的不断发展，移动机器人面临着越来越复杂多变的环境。传统的路径规划算法缺乏灵活性，容易陷入局部最优解，不能满足移动机器人的需求[2]，如人工势场法[3.]，模拟退火算法[4]和蚁群[5]。针对这一情况，深强化学习已经被提出6]。深度强化学习是近年来在深度学习发展的基础上提出的一种新的学习算法。通过深度强化学习将深度学习的感知能力和强化学习的决策能力结合起来。它是一种更接近人类思维方式的人工智能算法，能够更好地实现机器人在复杂环境下的移动需求。Mnih等人将卷积神经网络与并提出了Deep Q-Network (DQN)，在雅达利2600博弈中得到了很好的验证[7]。HADO等。提出了深双Q-网络（DDQN），它成功地解决了过分乐观的估计函数的问题[8]。在训练DQN时，Tom等人[9]使用基于优先级的经验重放机构，以取代等概率的取样方法，该方法提高了有价值的样本的利用率，但需要大的存储空间。鑫等人。首先提出了基于DQN [移动机器人路径规划方法10]。Tai等。移动机器人路径规划仿真提出DQN算法[11]，但DQN算法存在过高估计动作值和收敛速度慢的缺点。JIE Zequn将树结构强化学习应用到路径规划中，提供多个搜索路径[12]，但其中使用的DQN算法采用了相同的最大值值选择和评价动作，可能会选择次优的动作，从而需要更多的动作来检测目标，影响最终的检测结果。

因此，本文提出了一种基于深度强化学习的动态路径规划算法，即树形双深度Q-Network (TDDQN)。通过改变搜索路径的动作，agent可以在局部路径区域快速找到最优路径，从而进一步提高轮式机器人在斜坡地面上的路径规划效果。agent的动作将被分为两组，每组采用DDQN选择当前状态下的最佳动作。根据执行选定动作后所获得的状态，重复前一步，形成类似树状结构的多条路径。可以选择最佳操作的DDQN特性使代理能够在执行较少的操作后获得满足条件的候选路径。结合树状结构的多条路径，得到多条候选路径，更有利于选择最佳候选路径。

2.基于TDDQN算法深强化学习

2.1。DDQN算法的实现

DQN更新模式使动作值的过度估计[13]。该算法overoptimistically估计特定状态的值，从而在亚最佳作用值大于大最优动作的取值，从而改变最优动作，影响算法的精度。为了解决次优问题值的时候 -本文采用网络来选择和评价动作，采用DDQN来提高选择最优动作的概率[8]。也就是说，DDQN通过 -网络，然后评估通过另一个行动 -网络。假设的目标值 -网络表示为 :

哪里，为当前迭代次数，是当前状态，是在当前状态下执行的操作，为模型的参数，是当前的奖励，为折现系数，为的参数迭代估计网络 ,和是在迭代中的目标网络的参数。目标网络参数只更新于估计网络参数在每一个step和更新之间保持一个固定的值，从而保证目标网络的延迟更新和的准确估计值。

数据样本的池通过执行扩展 -以贪婪的策略寻找环境。在学习期间，利用样本池中的随机数据对网络进行训练，消除观测序列中的相关性，提高算法的稳定性。DDQN算法的损失函数为:

2.2。的TDDQN动态路径规划方法说明

在本节中，树状结构将生成多条路径，每条路径采用DDQN算法[14]。数字1是树形结构的搜索过程。在图中，实线表示所选择的全局路径规划的行动，而虚线表示的局部路径规划的行动。前面的两个水平作为一个例子，在第1级的根节点被称为当前状态，或候选路径。对于目前的候选路径，这两个动作与全局路径规划行动组和本地路径规划行动组中的最高预测值分别选中，这两个动作都在本地导航区域分别进行，以获得两个电流状态：左子树和右子树，即候补区域表示通过在第2级的两个节点通过类推，第三级，等等可分别获得的树结构和所述第四电平。

在对局部导航区域执行操作的过程中，如果获得的奖励值大于阈值，则停止搜索。可能的结果如图所示2，红色线代表实际路径的结果，蓝线代表全局路径规划，和黄线代表的本地路径规划。数字2(一个)可见，结果符合要求，但不是最好的结果，如果本地导航区域移动略向左下角，可以产生更好的路径的结果。在这种情况下，该路径可以被终止，而在树其他路径可以继续执行，直到每个节点的奖励值大于。因此，多路径的选择可以增加达到目标的概率。如图所示2 (b)时，很难通过较少的路径到达目标点。通常，具有太多执行动作的路径不太可能是最终选择的理想路径，因此设置一个上限可以在树中设置关卡数，这样只要搜索关卡数就可以停止超过 ,不管节点是否大于奖励值。

（一个）

（b）中

在图2，红色圆圈表示机器人，红色线代表实际路径的结果，蓝线代表全局路径规划，黄线代表的本地路径规划，紫矩形代表的障碍。根据上述分析，树搜索结构被设计在本文中，如图3.。假设第3级右侧两个分支的奖励值大于 ,搜索停止在4级，所以只有4级的左分支可以继续。依此类推，一些本地路径最终将获得的最佳人选本地路径将通过非最大抑制方法被发现。

2.3。实现TDDQN动态路径规划方法

本文通过TDDQN实现局部路径规划。采用激光雷达进行360度环境信息检测，局部导航区域为传感器范围。局部路径规划的目标点是在局部导航区域边缘最接近全局路径的点。采用激光雷达点矩阵信息和局部目标点坐标作为网络输入，输出为运动方向。

考虑到计算量和实际导航效果，角度分辨率设置为1度，距离限制设置为2米。因此，每个观察点由360个点组成，显示机器人周围2米内的障碍物距离。局部目标点是局部导航区域与全局路径的交点。当有多个交点时，通过启发式评估选择最优点。对于激光雷达晶格信息，角度和距离可表示为[角度,距离]。规则是激光雷达点的角度相对于移动机器人前方顺时针增加，360度产生720个输入数据。同时，局部目标点相对坐标与当前移动机器人体中心坐标[]被作为输入。为了便于网络卷积的设计和实现在训练相对目标点网络权重的输出，40个相对目标点的数据被复制作为输入，即，总的输入是800个的数据集。

输出为8个方向的定长全向运动，运动长度为10厘米。方向是前进、后退、左、右、左前、左后、右前、右后，用表示- - - - - -中，顺序如下：

奖励功能的设计主要考虑避障和接近目标点。满足这两个条件的最短运动路径是最有效的，报酬函数设计如下[15]:

哪里，是当前位置，是局部目标点，和表示具有扩展处理的障碍。由上式可知，当agent遇到障碍时，奖励为−1。如果代理到达目标点，它将获得+1奖励。在其他国家，每次运动的代价是- 0.01。为了在训练中提高累积奖励，agent采用试错学习的方法，尽量短距离到达目标点，避开障碍物。

每个激光雷达测点接收到的连续测量值在0 cm ~ 2 m之间，意味着状态空间趋于无穷大，不可能表达所有状态值。使用DDQN神经网络的泛化能力，训练有素的网络能够接近所有状态。因此，所述试剂可以计划适当的路径，并根据当环境改变网络重量到达目标位置。

为了保证深强化学习的正常衔接，训练池应该足够大，存储每个时间步长的国家行为，维护神经网络训练样本的独立和一致的分布，而对环境的处罚和奖励应达到一定的比例。这是很难实现稳定的训练效果，如果样本空间过于稀疏，也就是主状态是自由空间中的随机运动。对于DDQN训练的不稳定性和在状态空间中的奖赏的稀疏性，起始点在圆圈是随机设定的半径以目标点为中心。的一个小初始值增加随机探索中从起点到目标点的概率，保证样本空间的正激励。随着神经网络的更新和贪婪概率的增加，值逐渐增加。由代理探讨的局部空间如下：

哪里，是当前迭代的时间步长，在学习模型时，情节不是最小的学习单元，但时间步长是每次学习一个状态转换的单元。是初始值 , 的最大值是 , 为空间搜索速度。和为迭代时间阈值，需要根据训练参数进行调整。

在本节中，由三个卷积层和一个全连接层的网络结构，提出了[16]。CNN新闻框架示于图4。输入层是一个大小为的三维矩阵 ,由800个向量元素组成。三维数据代表了激光雷达点的角度和距离。根据输入层的大小，设计第一卷积层，接受野的大小为 ,卷积步骤是 ,feature map的数量为16，因此输出层的大小为。第二卷积层的卷积核大小为 ,卷积步骤是 ,feature map的数量为32,convolutional layer的输出大小为。第三层的卷积核大小为 ,卷积步骤是 ,特征图的数量是128;和输出层的尺寸是。然后将三维结构转换为一维矢量，其中128个元素连接到一个完整的大小连接层。输出层的大小为8。激活函数是ReLU，优化器是Adam。

首先，获得了激光雷达和本地目标坐标的点阵信息。那么当前的状态进入DDQN网络。网络选择根据当前状态从两组动作最佳动作，并且所选择的动作是由评价网络。代理在执行操作之后生成一个新的状态(候选路径)，并充当树结构的下一个节点。重复上述步骤，直到树结构的所有分支都达到检测标准或达到树中级别数的上限为止。最后，利用非最大抑制法选择最优候选路径。基于上述模型的候选路径选择方法实现流程如表所示1。


输入	当前状态（候选路径，树的根节点）
输出	下一个状态（新的候选路段，树的子节点）

步骤1	初始化阈值和最大水平数，并设置初始级别号是1。
步骤2	根据当前状态，分别从全局路径规划行动组和局部路径规划行动组中选取DDQN方法得到预测值最高的两个行动。
步骤3	作为左节点执行全局路径规划动作得到的状态，作为右节点执行局部路径规划动作得到的状态。
步骤4	将树中的级别数加1。
步骤5	如果树中的当前级别数小于并且还存在没有被切断，则执行步骤6的分支，否则，则执行步骤7。
步骤6	如果左节点的奖励值大于 ,它会被切断，否则，左节点将作为其路径的当前状态和步骤2将被执行。因此，如果右节点的奖励值大于 ,否则，右侧节点将作为其路径的当前状态，执行步骤2。
步骤7	该nonmaximum抑制方法被用于选择所有树节点的最佳候选路径，从而形成TDDQN路径规划策略。

TDDQN算法通过优化树结构，丢弃检测到的不完整和过检测路径，将DDQN方法与树结构方法相结合，通过DDQN算法在执行较少的动作后，在当前状态下选择最佳动作，从而获得满足条件的候选路径。然后根据所得到的状态，重复执行上述过程，形成树形结构的多条路径。最后，通过非最大抑制方法从多个符合条件的候选路径中选择出最短路径。TDDQN算法的总体结构如图所示5。

3.局部动态路径规划仿真

我们使用开源机器学习框架TensorFlow来构建TDDQN训练框架[17]。凉亭物理模拟引擎用于构建动态环境。本文所研究的轮式机器人的移动环境是的斜率。如图所示6，蓝色立方体代表的大小的动态障碍物 cm, it moves at a constant speed. The range and direction of movement are indicated by red arrows. The red cube represents the local target locations. Blue cylindrical objects represent mobile robots (agent). During training, the current and target points are randomly generated to ensure the diversity and complexity of the local environment. Two CNN have the same估计网络和目标网络框架。网络参数被随机初始化为正态分布，其均值为0。

训练策略是一个随机变量贪婪规则。在培训开始时，由于缺乏环境信息，经验池采用随机探索的方式进行更新。样品包括5个部分，即 ,哪里表示当前状态，代表的行动,是由当前状态转换所获得的报酬值，指采取行动后的状态，和是一个标志，指示当前迭代的时代是否已经结束。池大小设置到40,000样本。如果样品一定数量的存储池，网络会随机从池中训练选择样本。在随机探索的第一个5000时间步长，网络参数没有更新，但在池中的样本数量增加。当样本大小达到〜5000，该网络进行训练，在每四个时间步长移动。的采用小批量随机采样32个样本的方法对估计网络进行更新目标网络更新的学习率较低，为4hz，使目标网络是接近的参数估计网络，以确保的稳定学习目标网络。如果池的样本量达到上限，则在加入新样本后，采用先入先出的策略将最早的样本排除在池中，从而保证池中样本的持续更新。

根据仿真实验结果,代理和目标点之间的距离可能会太大,如果代理和目标点的位置设置初完全随机,导致代理不能到达目标点与一个固定数量的步骤通过随机探索。因此，为了保证agent检测到目标点，将agent与目标点的初始距离随机设置在范围内 ,,逐渐增加通过探索和训练。这个过程也是环境状态不断变化的过程，导致样本分布更广，如图所示7。

在训练过程中，损失函数值为估计网络和TDDQN算法的目标网络被连续降低。与DDQN算法相比，TDDQN算法具有更快的收敛速度和更低的损失函数值。数字8表示的训练曲线目标网络损失函数的DDQN算法和TDDQN算法。每个单位代表10个时期的平均损失函数值。数字8(一个)示出了损耗函数值是在训练初期，经过200期训练后，TDDQN的损失函数值迅速接近x轴，而DDQN需要超过400期的训练。数字8 (b)显示,TDDQN的网络10,000周期训练后趋向于收敛，损失函数值是约0.25，而DDQN的损失函数值是约0.8。数字9显示平均累积回报曲线。每个单位代表每100个周期的平均累积奖励。从这条曲线可以看出，随着训练时间的增加，平均奖励逐渐增加。经过10000期的训练，奖励值趋于稳定，平均累积奖励大于5。

（一个）

（b）中

4.利用ROS框架在动态斜坡上进行测试

为了验证算法在斜坡环境中的有效性，采用一种带激光雷达的轮式移动机器人，利用ROS框架实现自主导航[18]，如图所示10。的move_base包在ROS中为用户提供了局部路径规划算法，即动态窗口法和轨迹推算法。本文将TDDQN局部路径规划算法以插件的形式移植到ROS中，封装在纯虚函数库中base_local_planner作为nov_core的子类，即TDDQN_local_planner。深度强化学习算法的输出是斜坡上八个方向的运动，然后将运动映射为向前和角的运动。

坡度动态环境的路径规划是在不使用之前建立的SLAM地图的情况下进行导航。数字11是局部环境图，激光雷达只能实时探测局部信息，而暗区是未知的。agent通过局部路径规划来避免障碍物TDDQN_local_planner，将起始位置设为agent当前位置，目标点设为未知区域，将起始点与目标点之间的未知区域视为移动区域。路径规划原理如图所示12。

动态边坡环境布局如图所示13。在图中，红色箭头表示事先规划的全局路径，这是由障碍阻止没有。1，没有。2，没有。3.因此，代理需要重新调整的路径到达目标位置，而不会遇到障碍。

agent在动力斜坡地面上的路径规划时间序列图如图所示14。当代理距离障碍物20厘米时它等待障碍物向下移动。当障碍没有。1离开代理的全局路径，代理向下向右移动。此时，代理被障碍物挡住了。2、继续等待障碍号。向右移动2。当障碍没有。2离开代理的全局路径，代理继续向右下角移动。 Before the collision, the agent senses the obstacle no. 3 and waits for the obstacle no. 3 to move down. When the obstacle no. 3 leaves the global path of the agent, the agent reaches the destination and completes the path planning. The whole process shows that the agent trained by TDDQN can use the data of lidar to perceive obstacles in advance to avoid obstacles and complete the task of path planning on the dynamic slope ground.

D^*是动态的^*(D-Star, Dynamic A Star)是卡内基梅隆机器人中心Stentz博士提出的一种动态启发式路径搜索算法，主要用于机器人动态路径规划。本文采用如图所示的动态场景15与D进行比较检验^*算法。地图上有5个点:起始点X，起始点Y，目标点A，目标点B，目标点C，以及3个蓝色动态移动障碍物。让代理到达目标点,目标B点和目标点C X,依次从起点到达目标点,目标B点和目标点C反过来从起点y记录所花费的时间,把它作为一个周期。相同步骤测试100次取平均值，得到时间结果如表所示2。


算法	目标点
	起点	一个		B	C

D^*	X		55.2	51.6	52.1
	Y		32.8	49.7	48.8
TDDQN	X		45.3	39.8	41.4
	Y		27.4	38.6	39.2

从表分析2该花费更少的时间从两个起点到目标的TDDQN算法点A，B和C比d^*算法。由于TDDQN算法通过优化树结构来丢弃检测到的不完整和过检测路径，所以时间效率明显优于D^*算法。

5。结论

摘要研究了轮式机器人在动态斜坡地面上的路径规划方法，提出了基于深度强化学习的树形双深q网络动态路径规划算法。agent通过学习动作，根据当前局部导航区域选择一系列动作，不断改变其位置，最终达到目标位置。在训练的初始阶段，DDQN稳定损失函数值的时间是TDDQN的两倍。的TDDQN网10000期训练后趋于收敛。损耗函数值是约0.25，和平均累积奖励是大于5，而DDQN的损失函数值是约0.8。实验表明，该算法TDDQN可以灵活地使用激光雷达数据进行动态斜坡地面局部路径规划，并具有更快的收敛速度，比DDQN算法降低损失函数值。与传统的动态路径规划d相比^*算法中，TDDQN可以通过优化后的树形结构快速选择最优路径，使算法在时间上更加高效。

为了更好地适应复杂边坡地，本文的下一步就是增加运动障碍和多种动态场景的模拟训练的数量，因此，该方法具有更多的应用场景和更好的泛化能力，算法将移植到用于实验测试的实际轮型机器人。

为了更好地适应复杂的边坡地面，本文下一步将增加多个运动障碍和多个动态场景进行仿真训练，并对其进行优化 -算法的贪婪探索效率。提出了一种改进策略，通过在网络中加入噪声网络进行强制探测，可以加快TDDQN的收敛速度。使算法具有更多的应用场景和较好的泛化能力。该算法将被移植到实际轮式机器人上进行实验测试。

数据可用性

支持本研究结果的数据可从通讯作者处获得。

利益冲突

作者宣称，有兴趣就本文发表任何冲突。

致谢

这项研究得到了黑龙江省自然科学基金(批准号:)的资助。E2017049)。

参考

M. A. H.阿里和M. Mailah，“路径规划，并使用传感器融合和主动力控制在道路环境中移动机器人的控制，”IEEE车辆技术会刊第68卷，no。3，第2176-2195页，2019年。视图:出版商网站|谷歌学术搜索
“基于策略梯度的深度强化学习的自主水下机器人无极限运动规划系统”，孙洋，程，张，许。智能和机器人系统杂志，第6卷，第1-11页，2019。视图:出版商网站|谷歌学术搜索
O. Khatib，“机械手和移动机器人的实时避障”，国际机器人研究杂志第5卷，no。1986年，第90-98页。视图:出版商网站|谷歌学术搜索
H. E. Romeijn和R. L. Smith，“约束全局优化的模拟退火”，全局优化杂志第5卷，no。2，第101-126，1994。视图:出版商网站|谷歌学术搜索
a . Reshamwala和D. P. Vinchurkar，“利用蚁群优化方法的机器人路径规划:一项调查”，国际杂志高级研究的人工智能第2卷第1期3, 65-71页，2013年。视图:出版商网站|谷歌学术搜索
r.s.萨顿和a.g.巴托，“强化学习:导论”，IEEE神经网络汇刊，第9卷，no。1998年，第1054页。视图:出版商网站|谷歌学术搜索
五Mnih，K. Kavukcuoglu，D.银等人，“通过深入强化学习人类水平的控制，”性质，第518卷，no。7540，第529-533页，2015。视图:出版商网站|谷歌学术搜索
V. H. HADO，G亚瑟和S·大卫·，“深强化学习与双Q-学习，”在人工智能第三十届AAAI会议论文集（AAAI-16），谷歌DeepMind计算机科学，2015。视图:谷歌学术搜索
S. Tom, Q. John和A. Ioannis，优先体验重播，谷歌DeepMind计算机科学，2015。
J.鑫，赵令欢，刘D.和M.李，“在移动机器人路径规划深强化学习中的应用”，在2017年中国自动化大会（CAC），第7112-7116页，IEEE，济南，中国，2017。视图:出版商网站|谷歌学术搜索
戴丽玲及刘先生，通过深度强化学习实现移动机器人的认知探索， arXiv预印本，2016。
梁志强，冯志强，金欣欣，吕文伟，闫s.，“连续目标定位的树结构强化学习”，台北神经信息处理系统国际会议， 127-135，神经信息处理系统，巴塞罗那，西班牙，2016。视图:谷歌学术搜索
吴洋，曾斌，“基于深度强化学习的移动机器人轨迹跟踪与动态避障”，广东工业大学学报第36卷，no。1，第42-50页，2019年。视图:谷歌学术搜索
左，杜，马，“使用动作注意树- ddqn进行目标检测的区域建议生成”，电子与信息技术杂志第41卷，no。3，第666-673页，2019。视图:谷歌学术搜索
“基于深度强化学习的未知环境动态路径规划”，雷x, Zhang Z.， Dong P.，机器人杂志， 2018年，第1-10页。视图:出版商网站|谷歌学术搜索
J.潘，王X.，Y.陈，俞问，“根据演员学习的多源传输双DQN，”IEEE神经网络和学习系统汇刊第29卷，no。第2227-2238页，2018年。视图:出版商网站|谷歌学术搜索
A.马丁，“TensorFlow：大规模的学习功能，”ACM SIGPLAN声明卷。51，没有。9，P。1，2016年视图:出版商网站|谷歌学术搜索
黄玉华，“基于激光雷达的四轮式移动机器人SLAM系统的研究与实现”，黄玉华，王玉华，赵志强，“基于激光雷达的四轮式移动机器人SLAM系统的研究与实现”2018年IEEE智能机器人与控制工程国际会议，第19-23页，IEEE，兰州，中国，2018。视图:谷歌学术搜索

机器人杂志

摘要