基于深度强化学习的轮式机器人斜坡地面动态路径规划研究

表1

基于TDDQN的候选路径选择方法。


输入	当前状态(候选路径、树的根节点)
输出	下一个状态(新候选路径，树的子节点)

步骤1	初始化阈值和最大能级数，并设置初始级别号是1。
步骤2	根据当前状态，分别从全局路径规划行动组和局部路径规划行动组中选取DDQN方法得到预测值最高的两个行动。
步骤3	作为左节点执行全局路径规划动作得到的状态，作为右节点执行局部路径规划动作得到的状态。
步骤4	将树中的级别数加1。
步骤5	如果树中的当前级别数小于还有一些分支没有被切断，执行第6步，否则执行第7步。
步骤6	如果左节点的奖励值大于 ,否则，将以左节点作为其路径的当前状态，执行步骤2。因此，如果右侧节点的奖励值大于 ,否则，右侧节点将作为其路径的当前状态，执行步骤2。
步骤7	采用非最大抑制方法为所有树节点选择最优候选路径，形成TDDQN路径规划策略。