研究文章

上下文传递强化学习使用行为价值的功能

图2

上下文之间转移的过程任务来源 和目标任务 所有映射是已知的除外