研究文章

控制磁操纵者使用基于强化学习的逐步适应当地的线性模型

图6

的比较V函数基于最佳拟合模型的近似方法:SNGP MGGP, RFWR。