研究文章

完善应急救援车辆路径规划在拥挤的城市主干道通过强化学习方法

图4

平均回报PERDQN和DQN培训案例1中不同方案下的步骤。(一)平均奖励根据方案1。2 (b)的平均回报下方案。(c)下的平均回报方案3。(d)平均报酬方案下4。(e)的平均回报比较PERDQN四个方案之一。
(一)
(b)
(c)
(d)
(e)