|
| 输入 |
当前状态(候选路径、树的根节点) |
| 输出 |
下一个状态(新候选路径,树的子节点) |
|
| 步骤1 |
初始化阈值和最大能级数,并设置初始级别号是1。 |
| 步骤2 |
根据当前状态,分别从全局路径规划行动组和局部路径规划行动组中选取DDQN方法得到预测值最高的两个行动。 |
| 步骤3 |
作为左节点执行全局路径规划动作得到的状态,作为右节点执行局部路径规划动作得到的状态。 |
| 步骤4 |
将树中的级别数加1。 |
| 步骤5 |
如果树中的当前级别数小于还有一些分支没有被切断,执行第6步,否则执行第7步。 |
| 步骤6 |
如果左节点的奖励值大于
,否则,将以左节点作为其路径的当前状态,执行步骤2。因此,如果右侧节点的奖励值大于
,否则,右侧节点将作为其路径的当前状态,执行步骤2。 |
| 步骤7 |
采用非最大抑制方法为所有树节点选择最优候选路径,形成TDDQN路径规划策略。 |
|