研究文章

双重放内存引导强化学习

图2

绝对值cartPole中的TD-eror(a)和样本权重(b)。
(a)TD-eror
(b)样本权重