文摘

强化学习(RL)代理可以学会控制非线性系统不使用系统的一个模型。然而,有一个模型带来的好处,主要是减少数量的不成功的试验之前实现可接受的控制性能。几种建模方法已用于RL域,如神经网络、局部线性回归,或高斯过程。在本文中,我们专注于技术,没有使用到目前为止:符号回归(SR),基于遗传编程和当地的造型。使用测量数据、符号回归收益率非线性连续时间分析模型。我们基准两个最先进的方法,SNGP(单节点遗传规划)和MGGP(多基因遗传规划),对当地标准增量回归方法称为RFWR(接受域加权回归)。我们引入了修改RFWR算法更适合于低维连续时间系统主要是处理。基准是一个非线性、动态磁操纵系统。结果表明,使用RL框架和一个合适的近似方法,可以设计一个稳定控制器的一个复杂的系统没有任何随意学习的必要性。当所有的近似方法成功,MGGP实现最好的结果高计算复杂度为代价的。 Index Terms–AI-based methods, local linear regression, nonlinear systems, magnetic manipulation, model learning for control, optimal control, reinforcement learning, symbolic regression.

1。介绍

强化学习(RL)代理与系统交互控制通过测量其状态和应用行动按照国家政策,因此一个特定的目标。策略迭代调整的方式代理接收到尽可能高的累积奖励,这是一个标量值积累系统的状态空间的轨迹。与状态空间中的每个过渡相关的奖励是被一个预定义的值函数。

现有的RL算法可分为critic-only actor-only, actor-critic变体。critic-only变异优化值函数( - - - - - -函数),然后用来推导出政策;actor-only变异的工作没有任何直接的政策优化需要一个值函数;和actor-critic变体同时优化两个函数。的一个例子actor-only RL变体,通常被称为q学习的,可以在1),actor-critic变体的(2]。

从不同的角度,RL算法也可以分为基于模型和模范自由变体。这两种方法的例子可以发现在3,4]。基于模型的变体包括的模型表示系统,可以控制pretrained在模拟时(离线),然后更新实际控制系统(网上)。模范自由网上学习只通过试验和错误的方法。变异都有它们各自的优缺点。我们经常可以发现对模范自由的方法需要更多的数据,特别是在高维情况下(1]。在本文中,我们使用基于模型的,critic-only变体没有任何在线培训,这样我们可以比较不同建模方法。

我们专注于两个前途的近似算法的分类:遗传编程和局部线性回归。我们的目标是为选择最优的方法论的许多现有的建模算法当面对特定的RL的任务。这个问题不仅与RL框架(见[5)但在造型的一般动力系统(6,7]。

遗传算法(GA)和他们的许多变体作为建模工具建立或动力系统的参数估计8,9]。然而,遗传规划作为建模方法中使用RL相对较新,并承诺好的结果与高维系统,其他方法失败。它创建了一个连续时间,全局非线性模型描述的解析方程建立组合预定义的功能(10]。与遗传优化算法,这些方法往往是计算要求。另一方面,当地的回归是一种行之有效的基于模型的造型方法射频代理的模型是由当地的线性模型,提供快速和廉价的近似计算。有一些变异的地方造型方法;全面的例子基于网格的局部线性模型结构和基于数据的局部线性回归(LLR)中描述(11,12),分别。即使本地在RL回归技术的使用已经研究了过去,这主要是基于简单,比如LLR基于内存的近似方法,这是彻底的描述和检查(13,14),和更复杂的增量方法如接受域加权回归(RFWR) [15,16回归(LWPR)[]或局部加权投影17)被省略了,除了18),RFWR算法作为评论家的估计值。RFWR和LWPR方法提供重要的福利更低的内存使用和更高的稳定性采用文中针对(RFWR)或统计(LWPR)方法发现当地的最优分布模型的有效性,即接受字段。

基准造型方法是很重要的,因为大量的现有方法,针对类似的任务,尽管没有简单的方法选择指南。同时,提出算法在RL领域尚未完善。最后,研究磁操纵系统控制算法的重要性,因为在许多工业领域的应用(医学应用、磁悬浮系统等),从而导致本文的两个不同的目标:探索控制算法适用于精确的磁机械手的控制系统和基准不同的建模方法。

在处理实际磁机械手系统,我们还需要解决实际问题中常常被忽视的模拟,即非线性致动器死区等饱和度,库仑摩擦,信号延迟,等等。这些存在重大障碍实现控制算法在实际系统。在某些情况下,死区和非线性饱和问题可以解决或自适应控制律。例如,[19)显示了一个使用高斯隶属度函数的模糊控制方法,这是在实践中类似于RFWR方法,和20.)描述了增益调度自适应方法来处理内部系统。使用RL找到一个控制律非线性系统也有一个好处,那就是它通常可以自己处理这些障碍通过优化过程;例如,只有一个有限的范围的演员输出可能有限,本文中使用的方法。

在本文中,我们还存在轻微调整RFWR算法部分3,提出了降低计算复杂度,同时保留稳定在处理低维问题。

2。方法

2.1。磁机械臂

遗传规划已经应用于非线性系统像一个倒立摆或协作机器人(2,10,21]。为了进一步调查这些方法的逼近能力,我们使用一个不同的系统磁机械手(Magman)。这个系统由四个线圈由独立的电流控制器和一个独立运营的钢球,可以自由移动线圈;参见图1。确保球动作只有在测量方向限制边缘,这是放置在一个槽与10毫米大小。在这种情况下,我们决定限制系统前两个线圈,和四个输入作为一个系统要复杂得多的RL计算复杂度,同时它不丰富与不同的非线性系统,因为它只有空间重复同样的非线性行为。

钢球可以被正确地定位控制线圈的电流,从而磁力。球上的磁力线圈产生高度依赖于球的距离从线圈的中心,它引入了一个重要的非单调非线性(22- - - - - -24]。

所有的实验和模拟在MATLAB脚本。线圈电流的稳定控制的电流源模块,而MATLAB通过USB / RS232通信收发器使用虚拟COM端口(VCP)协议在Windows操作系统。当球位置与激光传感器测量与模拟输出(电压)的Humusoft MF634 IO卡是用来测量信号实时从MATLAB环境采样周期为5 ms。即使窗口操作系统不是一个操作系统,采样频率,周期抖动可以忽略不计(低于0.1%),因此,该系统可以被认为是真正的时间。

1列表的参数我们在我们的实验中使用磁机械手。任务是对象的精确定位在一个磁场,可以找到类似的概念在许多实际应用,例如,磁悬浮,微型机器人,非接触式搅拌的化学物质,等等。

近似运动方程推断使用第一原理方法可以在找到24]。直接测量或者系统参数估计使用MATLAB基于测量数据的参数估计的工具箱。

一般来说,系统可以由一个连续时间描述,状态空间模型的非线性程度如下: 在哪里 状态向量组成的位置吗 和速度 球的,形成了连续系统的状态空间 ; 状态矢量导数;和 是输入向量组成的线圈电流(行动)。 系统输入空间形式 非线性向量函数 因此描述了系统动力学。

本文通过建模系统,我们的意思是底层实函数近似 使用各种方法,这都建立在实验测量输入输出数据。每个数据点是由相应的假定函数的输入和输出 - - - - - - 在实践中,这些数据点都被噪音和其他干扰假定为零的意思。

2.2。SNGP

单节点遗传规划(SNGP)是一个基于遗传编程算法进化人口组织为有序的线性阵列相连的个人,每个节点代表一个程序(2,10,21]。通常,象征性的回归算法试图找到一个模型的形式解析表达式对于一个给定的数据集的形成和演进的表达式的基本功能和操作。在我们的例子中,该算法是基于假设的非线性函数 在(1)可以有效地近似由以下方程: 的非线性函数 ,所谓的特性,开发通过遗传编程 的最大数量的特性, 许多州,系数 最小二乘估计的方法。的特性是由初等函数的列表,以为能够产生所需的提交数据的拟合近似。常见的运营商可以组合的特性或嵌套,但表达的最大深度是有限的,以避免过度拟合。符号模型进化,这样训练数据是最小均方误差。

2.3。MGGP

第二个GP算法我们使用被称为多基因遗传规划(MGGP)。而不是SNGP,它结合了功能也定义了2成类似树状的结构表达式称为基因。最后一个表达式是由这些基因的一个线性组合,作为个人特征方程(2)。这种顶级的参数线性组合再次通过最小二乘估计。更多细节的算法可以找到(25]。我们使用的实际MGGP实现扩展特性的线性组合(26),使该算法找到仿射变换的特征空间通过backpropagation-like技术,从而使驾驶更容易遗传规划算法来近似非线性。

2.4。接受域加权回归

接受域加权回归(RFWR)是一个增量的近似方法,创建了一套当地的线性模型和对应的高斯基函数称为接受字段和逐渐适应输入-输出数据对它们进行更新。局部线性模型的更新与新数据点(称为查询点)使用加权递归最小二乘(RLS)方法的变体和基础功能更新的帮助下通过一个梯度搜索的启发式决策规则。它可以不断地提高模型的集合,同时仍然提供最好的近似函数的估计在每个查询点根据前面提供的数据。原始算法中,首先提出了(15,16),这是我们建立的基础,最好可以被下面的伪代码:(1)为每一个新的查询点 (2)为每个现有的本地模式(3)计算模型的重量 根据(4)(4)如果 激活限制 (5)更新模型参数利用RLS根据(6)和(7)(6)更新相应的接受域使用(12)和(14)(7)结束(8)结束(9)如果没有激活模型(10)新的模型在查询的时候使用(15)(11)如果两个或两个以上的模型被激活的重量 修剪限制 (12)删除模型与小的接受域(13)结束(14)计算模型的输出作为激活当地的加权平均模型(15)结束

通常,接受字段设置为激活限制 这个参数代表重量限制为当地模型根据新数据更新和被包括在输出估计通过加权平均与另一个激活模型。修剪限制通常设置为 ,代表的最高可接受的重叠邻国接受字段。

本文中描述的RFWR变体遵循原文的主要轮廓算法(15)与一些调整和改进为了稳定和低维问题的计算复杂性。这主要担忧的规则添加新的本地模型,调整接受字段和泛化算法的方式接受字段放置在维数低于和优化的模型。这是特别有用的情况下显著非线性时主要发生在一个或两个维度的状态空间系统。这个算法,在最初的实现中,成功地用于近似非线性系统的逆模型作为前馈补偿器(27,28]。图2显示了一个示例RFWR的复杂的单变量非线性函数逼近算法。

每个当地的模型由参数向量 查询与输入向量(点) ,输出 通过计算

重量 局部模型的查询 是由其高斯接受域如下: 中心坐标和向量的模型 诱导的距离矩阵的基函数(接受域)。然后计算整体输出的加权平均输出激活当地的模型。

当地的集合模型的输出估计和他们接受字段计算由以下方程:

我们修改了原始RFWR算法中描述(15)用于低维问题。这些修改包括以下几点:(1)精确位置的新接受字段,考虑接受周围的现有字段的位置和尺寸(见3.3节)(2)启发式规则接受稳定更新的字段(参见章节3.1)(3)接受字段可以分布在一个较低的维数比数据空间的维数(见3.2节)

2.4.1。更新参数的局部模型

获得一个新的查询点时,激活当地模型更新使用递归最小二乘算法(RLS)据 在哪里 的协方差矩阵估计, 是一个遗忘参数, 获得实际输出系统状态吗 查询点。的协方差矩阵 通常需要的是初始化为一个对角矩阵。

2.4.2。基函数的更新尺寸

为了避免矩阵求逆的计算(4)对于每一个当地的模型,一个上三角矩阵 而不是使用 因为对称和积极的明确性,这些矩阵与根据

更新接受域,我们更新 使用梯度下降优化

的成本函数 如下: 在哪里 激活接受域的重量, 各自模型的估计输出查询的时候吗 , 是当地的数量模型。的参数 是梯度优化步长。代价函数的计算 根据(9)是计算非常复杂,我们简化了优化算法通过一组启发式决策规则和实施优化如下:

这个实现引入了一个参数 ,这是一个表达一个简单的启发式来决定是否基函数(重量)的价值在实际的查询点应增加或减少。这使停止更新距离诱导矩阵当满足精度标准和限制局部模型的最大数量,以避免过度拟合。

参数 可以由各种决策规则。一套简单而有效,用于这项研究,可以通过使用创建长期(随时间累积)MSE特定模型根据数据点,可描述的

2.4.3。添加新的本地模型

在优化过程中,有可能没有超过激活模型限制 在这种情况下,一个新的局部模型的接受域添加到近似集。该中心接受域的自动放置在实际的查询点,和模型参数初始化以适应测量近似系统的输出。需要确定什么是状态空间的区域,应该由新创建的接受域。原算法使用一个默认的对角线距离诱导矩阵每一个当地的模型。然而,诱导矩阵可以确定一个最佳的距离。直观地说,新的接受域应该覆盖已经存在的模型之间的差距。诱导的距离矩阵应该作为一个对角矩阵初始化参数,确保新接受域不重叠与任何现有超过一个预设的限制。在我们的例子中,被设定的极限 因为这将是一个复杂的优化任务不适合实时计算,我们简化了标准,分析了两个模型的最大重叠的重量只有在线段连接他们的中心。在这种情况下,距离参数初始化距离矩阵可以由以下equation.where诱导 是一个向量之间的新中心 和邻近的接受域的中心 一个二维的例子是图所示3。这种方法产生一个更好的估计距离的诱导矩阵的新感受野比固定初始维度矩阵在原始算法因为它需要更少的迭代稳定和邻国接受字段之间的差距。

的距离参数 必须为每个现有的本地计算模型,和最小距离 用于初始化诱导的距离矩阵根据 在哪里 是一个统一的矩阵相应的秩序。

在特定情况下的磁操纵者,当地模型对应的输入 和输出

2.5。强化学习

考虑下面的离散状态空间模型的确定性系统的控制: 在哪里 表示离散时间瞬间, 状态向量, 是输入向量。RL代理学习控制系统,实现轨迹的最大累积奖励从初始状态到期望状态(10]。在每个状态转换,所描述的(14),代理接收一个标量奖励根据

奖励函数 通常是基于当前状态到目标状态的距离。最优控制律,所谓的政策, 确定如下,这样它最大化的累积奖励,返回: 在哪里 折现系数和初始状态吗 被选中的状态空间域 任何容许的返回初始状态 捕获的价值函数 定义如下:

一个近似最优的 - - - - - -函数 可以通过解决贝尔曼方程如下:

可以找到最优行动的行动引导系统状态与极大值(21]。这对应于最大化的右边(18):

3所示。实验结果

我们准备好的培训和验证的I / O数据集测量磁机械手与随机输入信号中的数据点列表形式 生成随机输入信号(线圈电流)的方式只有一个线圈是主动一次,消除它们之间可能的电磁相互作用(线圈电流是由HW-based电流反馈控制器控制模块呈现短暂的时间可以忽略不计)。图4显示了一个示例的一个训练数据集。

尽管球测量的立场是非常精确的,它还包含了很大的噪音。因此,时域衍生品的位置(速度和加速度)所需的动态模型近似确定使用Savitzky-Golay过滤器,这是一个冷杉滤波器基于最小二乘多项式近似能够执行数值微分法在过滤噪声同时[29日,30.]。

特别是对于RFWR实现,重要的是要注意,系统的非线性主要是重要的球的位置和系统可以看作是线性参数沿其他维度(加速度和速度)。在这种情况下,一般模型(1)可以重新安排如下: 的函数 代表了重要的非线性适合当地的近似,术语 干摩擦,代表了一种简单的模型 代表了粘滞摩擦,最后一项 模型非线性阻尼引起的电磁感应影响钢球通过磁场而迅速。尽管是非线性的,所有的条款都是线性参数,可以模拟在全球范围内,这意味着本地模型共享参数 通过

这个词 在(20.)实际情况中是相当重要的库仑摩擦并非微不足道。符号函数通常是被用来近似库仑摩擦的影响,哪里有粘滞作用不显著(区别静态和动态摩擦的影响)。有更好的近似模拟的目的,例如,乙状结肠函数;然而,他们中的大多数并不是线性参数,因此不适用于RLS参数估计。

相同的数据集提出了所有的近似方法(RFWR、SNGP和MGGP)。由于两种算法基于遗传编程的随机性质,与不同的伪随机种子是重复相同的过程。总的来说,30分SNGP MGGP和1竞选RFWR。表2显示了MSE结果摘要。

自MSE模型对训练集不足以决定哪些模型是更好,两个独立的测量数据集:一个用于模型的训练,另一个用于验证。然而,由于磁机械手不开环稳定,共同开环验证是不合适的,因为每一个模型发散很快即使参数可能接近理想数值积分引入的错误。因此,模型验证在几个向前一步预测模式。我们也怀疑只能受到其余one-sample-ahead验证噪音测量信号,我们验证了模型1,3,5、10、50、100和250样品。我们使用了five-step-ahead预测(5-SAP)作为基准选择最好的模型进行进一步的实验。选择5个样本的原因是基于实验验证假设短间隔没有显示模型的不精确甚至更长时间间隔造成非常精确模型随机发散。

n提前预测验证是基于一个移动的框架n连续数据点,第一个数据点是应用数值积分的初始条件(使用数值解算器)的动力学模型进行了测试。当仿真到达nth一步,对应的数据点之间的MSE剩余计算和模型预测。由此产生的模型验证指标然后计算残差的总和在每个预测帧。

5显示了模型由每个算法的例子。系统的过渡模型是四维的,可视化的目的,数据显示二维情况为输入向量集 这对应于第一个线圈的时候情况就关闭,第二个线圈的电流设置为最大价值。绘制函数出现在状态空间的部分不可以由系统(通常是高速度接近边缘的框架)。

根据5-SAP验证结果,21日最好的模型(10 x SNGP 10 x MGGP, 1 x RFWR)被选择用于RL磁机械手的控制。基于这些模型,我们计算的近似最优的 - - - - - -使用模糊值函数迭代(10,21]。此外,我们使用方程(19)来计算相应的政策。图6显示了价值函数的例子,导致政策如图7

所有的政策都是测试实际的磁机械手。一系列连续5目标状态被选为一个目标状态轨迹,和一个相应的 - - - - - -为每一个函数计算和政策。在实际控制过程中,使用新政策每次状态改变的目标。图8显示了一个示例的控制实验RL控制器基于模型SNGP 10。此外,图9显示了状态空间中球的轨迹绘制的 - - - - - -功能和政策。

进行所有的实验中,我们测量了球的位置使用激光距离传感器,和作为PCIe I / O卡Humusoft MF634被用来捕捉传感器的模拟输出信号。线圈电流是由一个定制的双通道电流控制器。从MATLAB的设备操作。

3.1。结果

我们比较不同模型的一个复杂的非线性系统的性能创造了三个不同的近似方法,其中两种是基于遗传编程和第三个是基于修改局部线性逼近算法(RFWR)。基于这些模型,我们使用一个基于模型critic-only RL代理控制系统并验证结果。

2显示了生成的估计均方误差值,验证和控制过程。

大多数的模型选择的实际控制实验成功地实现稳定控制,尽管他们不同的精度。图的直方图10显示了两个模型的数量GP-based算法(SNGP和MGGP),分为几个MSE类别。MSE描述了控制精度为目标和实际轨迹之间的均方误差的闭环控制系统。

4所示。结论

首先,结果表明,它甚至可以构建这样一个复杂的非线性系统使用RL框架。结果不显著的控制精度,高度依赖于特定系统,大量的实验数据,以及许多其他因素。一个重要的成就是一个事实,所有的建模算法演示本文提供一个可行的替代常用的方法,更需要大量的计算,(在RFWR的情况下)或更用户友好的(例SNGP和MGGP)。同时,证明了常用RL框架可能甚至在构建汤姆不完美的模型。

很明显的结果的方法至少部分取决于随机数生成(SNGP和MGGP)需要重复运行在寻找最好的解决方案,这明显优于局部近似法的结果(RFWR)。另一方面,RFWR的方法需要计算能力显著低于GP-based方法。还,似乎SNGP和MGGP能够找到同样精确的模型与MGGP拥有较高的概率收敛于最佳解决方案。有趣的是,模型有更好的培训或验证符合并不总是更好的控制,我们可以看到在桌子上2。所有的方法提供了一个有用的工具在强化学习框架内使用GP-based近似方法的主要优势是一种输出(解析表达式),这是可以理解的和可读的,其复杂性是通过直观可控参数。考虑到简化在模拟和实验和相对不精确的控制流程,有空间为未来的研究在修改这些方法适合高维系统,实现GPU,处理特定的非线性(摩擦、滞后等),也使用它们的一个近似 - - - - - -功能和政策。

数据可用性

研究数据的形式模拟和实验结果和MATLAB文件可从相应的(第一个)作者要求((电子邮件保护))。

的利益冲突

作者宣称没有利益冲突。