机器人杂志

机器人杂志/2020/文章/标签1

研究文章

基于深度强化学习的轮式机器人斜坡地面动态路径规划研究

表1

基于TDDQN的候选路径选择方法。

输入 当前状态(候选路径、树的根节点)
输出 下一个状态(新候选路径,树的子节点)

步骤1 初始化阈值 和最大能级数 ,并设置初始级别号 是1。
步骤2 根据当前状态,分别从全局路径规划行动组和局部路径规划行动组中选取DDQN方法得到预测值最高的两个行动。
步骤3 作为左节点执行全局路径规划动作得到的状态,作为右节点执行局部路径规划动作得到的状态。
步骤4 将树中的级别数加1。
步骤5 如果树中的当前级别数小于 还有一些分支没有被切断,执行第6步,否则执行第7步。
步骤6 如果左节点的奖励值大于 ,否则,将以左节点作为其路径的当前状态,执行步骤2。因此,如果右侧节点的奖励值大于 ,否则,右侧节点将作为其路径的当前状态,执行步骤2。
步骤7 采用非最大抑制方法为所有树节点选择最优候选路径,形成TDDQN路径规划策略。

我们致力于尽快、安全地分享与COVID-19有关的发现。任何提交COVID-19论文的作者,请在以下地址通知我们help@hindawi.com以确保他们的研究被快速跟踪,并尽快在预印本服务器上可用。我们将为已接受的COVID-19相关文章提供不受限制的出版费用减免。注册在这里作为审稿人,帮助快速跟踪新提交的内容。