TY -的A2 -阿齐兹,avdin公司AU - Brablc马丁盟——Žegklitz Jan AU - Grepl罗伯特•AU - Babuška罗伯特PY - 2021 DA - 2021/12/20 TI -磁控制机械手使用强化学习基础上逐步适应当地线性模型SP - 6617309六世- 2021 AB -强化学习(RL)代理可以学会控制非线性系统不使用系统的一个模型。然而,有一个模型带来的好处,主要是减少数量的不成功的试验之前实现可接受的控制性能。几种建模方法已用于RL域,如神经网络、局部线性回归,或高斯过程。在本文中,我们专注于技术,没有使用到目前为止:符号回归(SR),基于遗传编程和当地的造型。使用测量数据、符号回归收益率非线性连续时间分析模型。我们基准两个最先进的方法,SNGP(单节点遗传规划)和MGGP(多基因遗传规划),对当地标准增量回归方法称为RFWR(接受域加权回归)。我们引入了修改RFWR算法更适合于低维连续时间系统主要是处理。基准是一个非线性、动态磁操纵系统。结果表明,使用RL框架和一个合适的近似方法,可以设计一个稳定控制器的一个复杂的系统没有任何随意学习的必要性。当所有的近似方法成功,MGGP实现最好的结果高计算复杂度为代价的。 Index Terms–AI-based methods, local linear regression, nonlinear systems, magnetic manipulation, model learning for control, optimal control, reinforcement learning, symbolic regression. SN - 1076-2787 UR - https://doi.org/10.1155/2021/6617309 DO - 10.1155/2021/6617309 JF - Complexity PB - Hindawi KW - ER -