研究文章

上下文传递强化学习使用行为价值的功能

图3

的平均回报的比较学习的4例转移:没有转移,转移从机器人1,从机器人2,转移和转移从机器人。