复杂性

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

Cyber-Physical系统的理论和应用

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID5549678| https://doi.org/10.1155/2021/5549678

神经网络智能计算算法的离散最优控制Cyberphysical电力系统与应用程序

冯江,¹ Kai张,¹ 金晶胡,¹ 和共同王 ¹

学术编辑器: Qiuye太阳

收到了 2021年2月26日

修改后的 2021年3月14日

接受 07年4月2021年

发表 2021年4月17日

文摘

自适应动态规划(ADP),属于计算智能领域,是一个功能强大的工具来解决最优控制问题。为了克服解决的瓶颈Hamilton-Jacobi-Bellman方程,本文综述了几种先进的ADP的方法。首先,两种基于模型的离线迭代ADP的方法包括政策迭代(PI)和值迭代(VI),并详细讨论了各自的优点和缺点。第二,多步启发式动态规划(黄芪丹参滴丸)方法,避免了初始容许控制的要求,达到快速收敛。该方法成功地利用π的优点和VI,同时克服了它们的缺点。最后,离散最优控制策略是对电力系统进行测试。

1。介绍

自适应动态规划(ADP) [1- - - - - -4)于一体的优势强化学习(RL) [5- - - - - -8),自适应控制,已经成为一个强大的工具在解决最优控制问题。随着几十年的发展,ADP还提供了许多方法来解决其他控制问题,如鲁棒控制(9,10),最优控制输入约束(11,12),最优跟踪控制(13,14),零和游戏(15),而非零和游戏(16]。此外,ADP方法已经广泛应用于实际系统,如水气交换反应(17,电池管理18),微型智能电网"系统(19,20.),和Quanser直升机(21]。这些提到的论文都是灵感和由ADP-based最优控制的基本工作;即。,optimal control is the core research topic of ADP.

的瓶颈解决非线性最优控制问题的解决方案是获取Hamilton-Jacobi-Bellman HJB方程。然而,这些方程通常是困难甚至不可能分析解决。为了克服这个困难,ADP给了几个重要的迭代学习框架,比如策略迭代(π)2,22,23)和值迭代(VI) (24- - - - - -26]。PI算法从一个初始容许控制策略,然后进行政策评估步骤和政策改进步骤先后直到收敛。π的主要优势是,它可以确保所有的迭代控制政策容许,达到快速收敛。π的缺点也是显而易见的。初始容许控制的要求是一个严格的条件在实践中,严重限制了其应用。不同于π,VI可以从一个arbitrary-positive半定值函数,这是一种易于实现初始条件。虽然初始条件越容易让VI更实用,它也会导致更长的迭代学习过程;第六,达到收敛比π慢得多。因此,需要开发一种新方法,避免了初始容许控制的要求,收敛速度比VI算法。为了实现这些目的,多步启发式动态规划(黄芪丹参滴丸)方法(27)提出了集成π和VI算法的优点,克服自己的缺点。

本文综述了先进的ADP算法离散时间(DT)系统的最优控制。本文的其余部分安排如下。节2,问题公式化。三个迭代的基于模型的离线学习算法以及全面的比较了部分3和4。拟议的DT最优控制策略是在电力系统进行测试第五节。最后,简要得出结论第六节。

2。问题公式化

在本文中,我们考虑一般非线性DT系统: 在哪里表示系统状态, 表示控制输入和系统功能。

最优控制问题的目的是找出一个状态反馈控制策略 ,这不仅可以稳定系统(1),而且减少以下性能指标函数: 在哪里。的矩阵和确定系统状态和控制输入的性能,分别。考虑到容许控制策略 ,价值函数可以描述的

根据最优控制的定义,最优值函数可以定义

通过使用平稳性条件(28),最优控制策略可以派生在哪里。

获得最优控制策略的关键解决以下DT HJB方程(27]:

备注1。图1提供的关系和区别离散和连续时间最优控制。连续时间的实际系统普遍存在形式。数学建模后,他们制定的连续时间系统模型。通过采样和离散化,连续时间系统模型转化为离散的。因此,相关的性能指标和HJB方程离散时间系统的离散化形式与连续时间系统。解决离散时间最优控制问题的关键是离散时间HJB方程,这是一个非线性部分差分方程。现有的连续时间系统不仅仅是工作有关的离散时间系统。为了克服这一瓶颈,几个ADP学习算法及其神经网络(NN)将实现。

3所示。基于模型的PI算法DT的系统的最优控制问题

在本节中,基于模型的PI算法及其神经网络实现将详细介绍。基于模型的PI算法(2,23)所示的算法1。

	步骤1:初始化()
	让迭代索引。
	选择一个初始容许控制策略。
	选择一个足够小的计算精度。
	步骤2:(政策评估)
	与 ,计算迭代值函数通过

	步骤3:(政策改进)
	与 ,更新迭代控制策略通过

	步骤4:如果 ,停止和最优控制策略收购;
	其他的,让回到第2步。

actor-critic的可能结构的梯度下降法是用来实现更新算法1。首先,构建评论家神经网络近似迭代值功能: 在哪里和表示神经网络权重和评论家网络和神经网络的激活函数是下面的梯度下降法的迭代索引方法。

评论家神经网络误差函数的定义: 在哪里。如果我们选择一个足够大的整数 ,然后,容许控制 ,一个人 (2];也就是说,可以表示为。

为了最小化误差性能 ,gradient-descent-based更新法律评论家神经网络给出的在哪里评论家神经网络的学习速率。

类似的设计评论家NN,演员网络,用于近似迭代控制政策,表示为

演员的误差函数神经网络被定义为在哪里根据算法可以达到1。

最小化误差性能 ,用链式派生规则,更新法律为参与者神经网络设计在哪里神经网络的学习速率是演员。

备注2。图2显示PI算法的神经网络实现图。首先,神经网络权重的演员应该选择生成容许控制网络。第二,评论家和演员网络更新通过gradient-descent-based学习法律意识到政策评估和改进措施,分别。迭代后,评论家和演员网络实现收敛,NN-based可以获得近似最优控制。许多神经网络实现过程的稳定性证明在现有的作品。在这里,我们介绍以下严格的证据证明最优性和收敛性。

定理1。让目标迭代值函数和控制政策被描述和 ,分别。让评论家和演员通过(海军新闻更新9)和(12),分别。如果学习利率和选择适当的小,那么神经网络权重呢和渐近收敛到理想值吗和 ,分别。

证明。让和。根据(9)和(12),它可以获得在哪里和。
构造李雅普诺夫函数的候选人如下: 李雅普诺夫函数的区别(14)可以作为派生而来如果学习利率选择来满足和 ,然后一个 ,这意味着神经网络权重和将渐近收敛到理想值。
这就完成了证明。

4所示。基于模型的VI算法和多步黄芪丹参滴丸算法

最初的帮助下容许控制、PI算法实现快速收敛。然而,PI算法的缺点是显而易见的。PI算法需要容许最初的控制策略,这是一个严格的条件。如何找到一个初始容许控制政策,仍然是一个悬而未决的问题,这限制了PI算法的实际应用。第六放松严格的条件下,基于模型的算法(24- - - - - -26)所示的算法2,初始条件变得更加容易。

	步骤1:初始化()
	让迭代索引。
	选择一个初始值的功能。
	选择一个足够小的计算精度。
	步骤2:改进(政策)
	与 ,计算迭代控制策略通过

	步骤3:(政策评估)
	与 ,计算迭代值函数通过

	步骤4:如果 ,停止和最优控制策略收购;
	其他的,让回到第2步。

备注3。不同于VI PI算法,算法不需要初始容许控制,和一个只需要提供一个特定的初始值的功能,这使得VI算法实际应用更实用。然而,没有帮助的初始容许控制,VI算法通常患有低收敛速度。从上述的内容,它可以观察到,π和VI算法都有自己的优点和缺点。PI算法可以实现快速收敛,它需要一个初始容许控制策略。VI算法可以从一个易于实现初始条件,虽然它通常患有低收敛速度。因此,它将设计一种新方法,可以使PI算法和VI算法之间的权衡。
即,它是想要开发一个算法,达到收敛速度比VI算法,不需要一个初始容许控制策略。为了实现这个目标,多步黄芪丹参滴丸的方法(27)将在算法3。
构造了评论家和演员NNs近似迭代值函数和控制策略如下: 在哪里和神经网络权重和吗和是相关的神经网络的激活函数。
根据算法3,使用NNs估计解决方案将产生以下错误: 让和。方程(17)成为最小化 ,我们采用最小二乘法来更新。收集不同的数据集进行训练,是一个足够大的数字。然后,一个和。least-square-based更新法律是由最小化 ,演员NN的gradient-descent-based更新法律是由

	让迭代索引。
	选择一个初始值的功能。
	选择一个足够小的计算精度。
	步骤2:改进(政策)
	与 ,计算迭代控制策略通过

	步骤3:(多步政策评估)
	与 ,计算迭代值函数通过

	步骤4:如果 ,停止和最优控制策略收购;
	其他的,让回到第2步。

备注4。从表1和图3,我们可以看到性能比较和PI算法之间的关系,VI算法和多步黄芪丹参滴丸。由于初始容许控制的存在,PI算法快速收敛。然而,最初的容许控制的条件是很难实现的。不同于PI算法,初始条件的VI算法易于实现。然而,初始条件可能不容许,这可能会导致较低的稳定。多步黄芪丹参滴丸是VI算法的初始条件和发展多步政策评估步骤来获得更多的历史数据。因此,多步黄芪丹参滴丸是易于实现,同时达到快速收敛;多步黄芪丹参滴丸,成功地结合了π和VI算法的优点。

5。应用电力系统一个基准

基准的电力系统研究本文如图4。电力系统可以被视为一个微型智能电网",它是由无污染的能源(子系统I和II),负荷需求(子系统III),和常规代(子系统IV)。管理中心核心控制单元,它保持对负载变化频率稳定度。

5.1。系统模型和应用

在图5首先,实际电力系统可以由一个状态空间函数制定通过数学建模。采样和离散化后,可以由电脑控制系统模型。通过迭代ADP学习,可以获得近似最优控制。用近似最优控制系统模型将产生仿真结果。测试的有效性提出了DT最优控制策略,让我们考虑以下电力系统(19,20.]: 在哪里频率偏移;表示涡轮机权力;代表了州长职位价值; , ,和表示涡轮机的时间常数、州长和电力系统,分别;是电力系统的增益;调速系数;表示控制输入;和是状态变量。让 ,在哪里 ,和。然后,系统(21)可以离散的形式(1)。在性能指标函数中设置矩阵: 和。

5.2。仿真结果

仿真结果如图所示6。图6(一)意味着没有控制系统的状态不能稳定。然后,我们应用到系统最优控制策略。图6 (b)表示系统的状态可以稳定后8时间最优控制的步骤。比较系统的轨迹,优越的控制性能的最优控制策略可以观察到。图6 (c)显示详细的2 d阴谋收敛轨迹。图6 (d)提供控制输入的演变。上述仿真结果验证了稳定性高、快速收敛,控制成本低的DT最优控制策略。

(一)

(b)

(c)

(d)

6。结论

本文综述了几种先进的ADP-based方法解决DT系统的最优控制问题。π之间取得了一个全面的比较和VI。引入了一个新颖的多步黄芪丹参滴丸方法集成的优势π和VI算法与严格要求初始容许控制或更长时间互动的学习过程。仿真结果证明了该方案的有效性。

数据可用性

数据要求通讯作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作受到了公司的科技基础(批准号SGLNDK00DWJS1900036)。

引用

y, c, d .悦,钟x, x,和j . Tan“事件驱动的ADP控制一类非仿射连续时间非线性系统使用输出信息,“Neurocomputing卷,378年,第314 - 304页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
刘问:魏,p .严“广义迭代离散时间非线性系统的自适应动态规划,政策”IEEE系统,人,和控制论:系统,45卷,不。12日,第1591 - 1577页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
问:太阳,r . Wang w·胡,y, d . Ma和p . Wang”SoC-based下垂系数稳定地区分析电池的独立与恒功率负载供应系统,”IEEE电力电子,36卷,不。7,7866 - 7879年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
b·罗·d·刘,H.-N。吴,d . Wang和f·l·刘易斯“基于数据的最优控制策略梯度自适应动态规划,“IEEE控制论卷,47号10日,3341 - 3354年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
r . Wang问:太阳、d . Ma和z . Liu”droop-controlled变换器的小信号稳定分析电磁时间表,”IEEE可持续能源,10卷,不。3、1459 - 1469年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
刘、杨x·d·王,问:,“Reinforcement-learning-based连续时间不确定的非线性系统鲁棒控制器设计输入约束,“IEEE控制论,45卷,不。7,1372 - 1385年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
问:太阳,r . Wang d马,x,“线路阻抗合作稳定区域识别方法在弱电网的并网逆变器,”IEEE智能电网,11卷,不。4、2856 - 2866年,2020页。
视图: 谷歌学术搜索
d .赵和y朱MEC-a算法在线连续确定性系统,强化学习算法”IEEE神经网络和学习系统,26卷,不。2、346 - 356年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
赵问:张先生,d, d . Wang”基于事件的不确定非线性系统的鲁棒控制使用自适应动态规划,“IEEE神经网络和学习系统卷,29号1,37-50,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j . y . Wang, h .他和c .太阳“决定性策略梯度与整体健壮quadrotor控制补偿器,”IEEE系统,人,和控制论:系统,50卷,不。10日,3713 - 3725年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
他x杨和h,“事件驱动的非线性input-constrained系统使用单网络自适应鲁棒镇定评论家设计,“IEEE系统,人,和控制论:系统,50卷,不。9日,第3157 - 3145页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
b·罗·d·刘,H.-N。吴”,自适应约束最优控制设计与critic-only结构,基于数据的非线性离散时间系统”IEEE神经网络和学习系统卷,29号6,2099 - 2111年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
w·h·刘,h .他j .咦,t·李,“Neuro-Optimal跟踪控制连续搅拌釜反应器具有输入约束,“IEEE工业信息,15卷,不。8,4516 - 4524年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
崔张h . x, y罗,h .江”Finite-horizon美元H_ {\ infty} $未知的非线性系统的跟踪控制与饱和执行器”IEEE神经网络和学习系统卷,29号4、1200 - 1212年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
问:魏、刘、林问:和r的歌,“自适应动态规划为离散时间零和游戏”,IEEE神经网络和学习系统卷,29号4、957 - 969年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
r .歌曲,f·l·刘易斯,问:,“Off-policy积分强化学习方法解决非线性连续时间多人非零和游戏中,“IEEE神经网络和学习系统,28卷,不。3、704 - 713年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
问:魏和刘”,数据驱动neuro-optimal水气交换反应的温度控制使用稳定的迭代自适应动态规划,“IEEE工业电子产品,卷61,不。11日,第6408 - 6399页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
刘魏,d, f·l·刘易斯,y . Liu和j·张,“混合迭代自适应动态规划优化电池能量控制在智能住宅微型电网,“IEEE工业电子产品,卷64,不。5,4110 - 4120年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
h . d . Wang他、μc和d,“智能评论家控制与仿射扰动衰减动力学包括微型智能电网"系统应用程序”IEEE工业电子产品,卷64,不。6,4935 - 4944年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
x杨,h . x中,“自适应动态规划电力系统的有力监管及其应用,”IEEE工业电子产品,卷65,不。7,5722 - 5732年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
罗,H.-N。吴,t·黄”最优输出监管模范自由quanser与多步q学习直升机,”IEEE工业电子产品,卷65,不。6,4953 - 4961年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
王d . x中,“先进的政策学习算法监管,”IEEE / CAA自动化杂志》上》第六卷,没有。3、743 - 749年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
问:魏、刘、林问:和r的歌,“离散最优控制通过本地政策迭代自适应动态规划,“IEEE控制论卷,47号10日,3367 - 3379年,017页。
视图: 谷歌学术搜索
问:魏、刘、林和h”值迭代自适应动态规划的离散时间非线性系统的最优控制,”IEEE控制论,46卷,不。3、840 - 853年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
问:魏,f·l·刘易斯,刘,r·歌林和h,“离散时间本地值迭代自适应动态规划:收敛性分析,“IEEE系统,人,和控制论:系统,48卷,不。6,875 - 891年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
问:魏、刘、林,“离散时间本地值迭代自适应动态规划:可容许和终止分析,“IEEE神经网络和学习系统,28卷,不。11日,第2502 - 2490页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
b·罗·d·刘,黄t . x,和h·马,“多步骤的启发式动态规划最优控制的非线性离散时间系统,”信息科学卷,411年,第83 - 66页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
d . d . Liu, d .赵、魏,n金,“神经元网络对一类未知的离散时间非线性系统最优控制使用全球化双重启发式编程,”IEEE自动化科学与工程,9卷,不。3、628 - 634年,2012页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

205年

下载

703年

引用