文摘
自适应动态规划(ADP),属于计算智能领域,是一个功能强大的工具来解决最优控制问题。为了克服解决的瓶颈Hamilton-Jacobi-Bellman方程,本文综述了几种先进的ADP的方法。首先,两种基于模型的离线迭代ADP的方法包括政策迭代(PI)和值迭代(VI),并详细讨论了各自的优点和缺点。第二,多步启发式动态规划(黄芪丹参滴丸)方法,避免了初始容许控制的要求,达到快速收敛。该方法成功地利用π的优点和VI,同时克服了它们的缺点。最后,离散最优控制策略是对电力系统进行测试。
1。介绍
自适应动态规划(ADP) [1- - - - - -4)于一体的优势强化学习(RL) [5- - - - - -8),自适应控制,已经成为一个强大的工具在解决最优控制问题。随着几十年的发展,ADP还提供了许多方法来解决其他控制问题,如鲁棒控制(9,10),最优控制输入约束(11,12),最优跟踪控制(13,14),零和游戏(15),而非零和游戏(16]。此外,ADP方法已经广泛应用于实际系统,如水气交换反应(17,电池管理18),微型智能电网"系统(19,20.),和Quanser直升机(21]。这些提到的论文都是灵感和由ADP-based最优控制的基本工作;即。,optimal control is the core research topic of ADP.
的瓶颈解决非线性最优控制问题的解决方案是获取Hamilton-Jacobi-Bellman HJB方程。然而,这些方程通常是困难甚至不可能分析解决。为了克服这个困难,ADP给了几个重要的迭代学习框架,比如策略迭代(π)2,22,23)和值迭代(VI) (24- - - - - -26]。PI算法从一个初始容许控制策略,然后进行政策评估步骤和政策改进步骤先后直到收敛。π的主要优势是,它可以确保所有的迭代控制政策容许,达到快速收敛。π的缺点也是显而易见的。初始容许控制的要求是一个严格的条件在实践中,严重限制了其应用。不同于π,VI可以从一个arbitrary-positive半定值函数,这是一种易于实现初始条件。虽然初始条件越容易让VI更实用,它也会导致更长的迭代学习过程;第六,达到收敛比π慢得多。因此,需要开发一种新方法,避免了初始容许控制的要求,收敛速度比VI算法。为了实现这些目的,多步启发式动态规划(黄芪丹参滴丸)方法(27)提出了集成π和VI算法的优点,克服自己的缺点。
本文综述了先进的ADP算法离散时间(DT)系统的最优控制。本文的其余部分安排如下。节2,问题公式化。三个迭代的基于模型的离线学习算法以及全面的比较了部分3和4。拟议的DT最优控制策略是在电力系统进行测试第五节。最后,简要得出结论第六节。
2。问题公式化
在本文中,我们考虑一般非线性DT系统: 在哪里 表示系统状态, 表示控制输入 和 系统功能。
最优控制问题的目的是找出一个状态反馈控制策略 ,这不仅可以稳定系统(1),而且减少以下性能指标函数: 在哪里 。的矩阵和确定系统状态和控制输入的性能,分别。考虑到容许控制策略 ,价值函数可以描述的
根据最优控制的定义,最优值函数可以定义
通过使用平稳性条件(28),最优控制策略可以派生 在哪里 。
获得最优控制策略的关键解决以下DT HJB方程(27]:
备注1。图1提供的关系和区别离散和连续时间最优控制。连续时间的实际系统普遍存在形式。数学建模后,他们制定的连续时间系统模型。通过采样和离散化,连续时间系统模型转化为离散的。因此,相关的性能指标和HJB方程离散时间系统的离散化形式与连续时间系统。解决离散时间最优控制问题的关键是离散时间HJB方程,这是一个非线性部分差分方程。现有的连续时间系统不仅仅是工作有关的离散时间系统。为了克服这一瓶颈,几个ADP学习算法及其神经网络(NN)将实现。
3所示。基于模型的PI算法DT的系统的最优控制问题
在本节中,基于模型的PI算法及其神经网络实现将详细介绍。基于模型的PI算法(2,23)所示的算法1。
|
actor-critic的可能结构的梯度下降法是用来实现更新算法1。首先,构建评论家神经网络近似迭代值功能: 在哪里和表示神经网络权重和评论家网络和神经网络的激活函数是下面的梯度下降法的迭代索引方法。
评论家神经网络误差函数的定义: 在哪里 。如果我们选择一个足够大的整数 ,然后,容许控制 ,一个人 (2];也就是说,可以表示为 。
为了最小化误差性能 ,gradient-descent-based更新法律评论家神经网络给出的 在哪里评论家神经网络的学习速率。
类似的设计评论家NN,演员网络,用于近似迭代控制政策,表示为
演员的误差函数神经网络被定义为 在哪里根据算法可以达到1。
最小化误差性能 ,用链式派生规则,更新法律为参与者神经网络设计 在哪里神经网络的学习速率是演员。
备注2。图2显示PI算法的神经网络实现图。首先,神经网络权重的演员应该选择生成容许控制网络。第二,评论家和演员网络更新通过gradient-descent-based学习法律意识到政策评估和改进措施,分别。迭代后,评论家和演员网络实现收敛,NN-based可以获得近似最优控制。许多神经网络实现过程的稳定性证明在现有的作品。在这里,我们介绍以下严格的证据证明最优性和收敛性。
定理1。让目标迭代值函数和控制政策被描述 和 ,分别。让评论家和演员通过(海军新闻更新9)和(12),分别。如果学习利率和选择适当的小,那么神经网络权重呢和渐近收敛到理想值吗和 ,分别。
证明。让
和
。根据(9)和(12),它可以获得
在哪里
和
。
构造李雅普诺夫函数的候选人如下:
李雅普诺夫函数的区别(14)可以作为派生而来
如果学习利率选择来满足
和
,然后一个
,这意味着神经网络权重和将渐近收敛到理想值。
这就完成了证明。
4所示。基于模型的VI算法和多步黄芪丹参滴丸算法
最初的帮助下容许控制、PI算法实现快速收敛。然而,PI算法的缺点是显而易见的。PI算法需要容许最初的控制策略,这是一个严格的条件。如何找到一个初始容许控制政策,仍然是一个悬而未决的问题,这限制了PI算法的实际应用。第六放松严格的条件下,基于模型的算法(24- - - - - -26)所示的算法2,初始条件变得更加容易。
|
备注3。不同于VI PI算法,算法不需要初始容许控制,和一个只需要提供一个特定的初始值的功能,这使得VI算法实际应用更实用。然而,没有帮助的初始容许控制,VI算法通常患有低收敛速度。从上述的内容,它可以观察到,π和VI算法都有自己的优点和缺点。PI算法可以实现快速收敛,它需要一个初始容许控制策略。VI算法可以从一个易于实现初始条件,虽然它通常患有低收敛速度。因此,它将设计一种新方法,可以使PI算法和VI算法之间的权衡。
即,它是想要开发一个算法,达到收敛速度比VI算法,不需要一个初始容许控制策略。为了实现这个目标,多步黄芪丹参滴丸的方法(27)将在算法3。
构造了评论家和演员NNs近似迭代值函数和控制策略如下:
在哪里和神经网络权重和吗和是相关的神经网络的激活函数。
根据算法3,使用NNs估计解决方案将产生以下错误:
让
和
。方程(17)成为
最小化
,我们采用最小二乘法来更新
。收集不同的数据集进行训练,是一个足够大的数字。然后,一个
和
。least-square-based更新法律是由
最小化
,演员NN的gradient-descent-based更新法律是由
|
备注4。从表1和图3,我们可以看到性能比较和PI算法之间的关系,VI算法和多步黄芪丹参滴丸。由于初始容许控制的存在,PI算法快速收敛。然而,最初的容许控制的条件是很难实现的。不同于PI算法,初始条件的VI算法易于实现。然而,初始条件可能不容许,这可能会导致较低的稳定。多步黄芪丹参滴丸是VI算法的初始条件和发展多步政策评估步骤来获得更多的历史数据。因此,多步黄芪丹参滴丸是易于实现,同时达到快速收敛;多步黄芪丹参滴丸,成功地结合了π和VI算法的优点。
5。应用电力系统一个基准
基准的电力系统研究本文如图4。电力系统可以被视为一个微型智能电网",它是由无污染的能源(子系统I和II),负荷需求(子系统III),和常规代(子系统IV)。管理中心核心控制单元,它保持对负载变化频率稳定度。
5.1。系统模型和应用
在图5首先,实际电力系统可以由一个状态空间函数制定通过数学建模。采样和离散化后,可以由电脑控制系统模型。通过迭代ADP学习,可以获得近似最优控制。用近似最优控制系统模型将产生仿真结果。测试的有效性提出了DT最优控制策略,让我们考虑以下电力系统(19,20.]: 在哪里频率偏移;表示涡轮机权力;代表了州长职位价值; , ,和表示涡轮机的时间常数、州长和电力系统,分别;是电力系统的增益;调速系数;表示控制输入;和是状态变量。让 ,在哪里 ,和 。然后,系统(21)可以离散的形式(1)。在性能指标函数中设置矩阵: 和 。
5.2。仿真结果
仿真结果如图所示6。图6(一)意味着没有控制系统的状态不能稳定。然后,我们应用到系统最优控制策略。图6 (b)表示系统的状态可以稳定后8时间最优控制的步骤。比较系统的轨迹,优越的控制性能的最优控制策略可以观察到。图6 (c)显示详细的2 d阴谋收敛轨迹。图6 (d)提供控制输入的演变。上述仿真结果验证了稳定性高、快速收敛,控制成本低的DT最优控制策略。
(一)
(b)
(c)
(d)
6。结论
本文综述了几种先进的ADP-based方法解决DT系统的最优控制问题。π之间取得了一个全面的比较和VI。引入了一个新颖的多步黄芪丹参滴丸方法集成的优势π和VI算法与严格要求初始容许控制或更长时间互动的学习过程。仿真结果证明了该方案的有效性。
数据可用性
数据要求通讯作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作受到了公司的科技基础(批准号SGLNDK00DWJS1900036)。