研究文章

控制磁操纵者使用基于强化学习的逐步适应当地的线性模型

图9

控制序列的例子轨迹绘制在政策和价值函数基于模型SNGP 10。