研究文章

控制磁操纵者使用基于强化学习的逐步适应当地的线性模型

图7

比较政策基于磁操纵者的最佳拟合模型的近似方法。