文摘
本文开发一个集成的机器学习和增强统计方法对风力发电区间预测。风力发电时间序列预测模型是制定我们的方法的理论基础。该模型考虑风速的两个重要特征:非线性和图示分布。基于该模型,6个机器学习回归算法是用来预测风力发电输出的预测区间。六个方法使用真实的风速测试数据收集在一个风站在澳大利亚。对于风速预测,长期短期记忆(LSTM)网络算法优于其他五个算法。的预测区间,五个非线性算法表现出优越的性能。案例研究表明,结合机器学习适当的非线性回归算法,提出的方法是有效的风能区间预测。
1。介绍
风能是世界各地迅速扩大其市场份额。然而,风能的间歇性和不确定性使它成为一个挑战将风力发电集成到电力系统。风功率预测系统可以极大地帮助以来集成过程系统运营商依靠准确的风能预报设计运营计划和评估系统安全(1,2]。伺服机构是风力发电机的基础,准确的风能预测可以提高参数估计的精度和控制风力涡轮机伺服系统(3- - - - - -5]。风力发电的预测输出通常以点的形式提供预测。点预测的优点是,他们可以很容易地理解。单值将告诉一切未来的发电。现在,大多数的研究工作在风电预测预报仍集中在一点。艺术的状态的评论风能预测可以在找到6,7]。一本关于物理的短期风电预测方法在一定程度上也讨论了艺术风电预测的状态(8]。
然而,即使气象和能量转化过程都得到充分的理解和模仿,总会有固有的和不可避免的不确定性在风力发电预测。不确定性来自于不完整的知识影响未来事件的物理过程(9]。风电预测的不确定性主要取决于当前的气象状态的可预测性和风速预测的水平10]。协助管理预测的不确定性,人们进行广泛的研究,研究,发展风力发电的预测方法。介绍了不同的回归方法(10- - - - - -12]。这些方法使用概率预测所产生的不同的分位数回归方法提供未来风能生产的完整的信息。一个多尺度可靠的风力发电预测(WPF)方法是由燕等人在13]。这种方法提供了预期的未来价值和相关的不确定性由multi-to-multi映射网络和去噪autoencode不利。王等人开发了一个短期风速预测方法与卷积神经网络(CNN)基于邻近的风力发电场的信息14]。一个流行的方法是使用ensemble-based概率预测方法,这使更好的风力发电管理和交易的目的(15,16]。在[17,18),统计分析进行了研究风电预测误差的分布。因为风力发电在本质上是随机的,错误总是存在于风力发电的预测。因此,除了预测未来风力发电的期望值,同样重要的是评估其预测错误。
上述研究的关键弱点在于他们未能建立合适的区间预测的统计模型风力发电也未能考虑到误差分布的图示效果。一般来说,预测区间是一个随机的时间间隔,其中包含风力发电的真正价值与预先指定的概率。因为预测区间可以量化的不确定性预测风力发电,它可以用来评估风险的市场参与者的决策。上面讨论现有的方法不能有效处理风力发电区间预测,因为他们主要集中在风能预测预期的点值。
有两个主要挑战提供精确的区间预测风力发电:(i)风力发电的期望值应该准确地预测。这是困难的,因为风力发电是一种非线性时间序列,因此高度不稳定。研究非线性系统在基础研究具有较高的复杂性,和大量的非线性控制问题不断出现在真正的事实19- - - - - -23];(2)的概率分布预测错误也应该准确地估计。这是更加困难,因为误差分布可以图示。本文提出了一种新颖的方法来预测风力发电的预测区间。一个统计模型是第一个制定适当的风速的时间序列模型。基于该模型,介绍了许多不同的机器学习算法来预测风速的期望值和预测误差分布的参数。风速的预测区间然后构造基于预测风速值和误差分布。风速预测区间终于变成了风能与风力发电机功率曲线预测区间。综合研究执行比较6个机器学习算法的性能在风能区间预测。
本文的主要贡献如下:(1)全面介绍了统计模型,形成风电区间预测的理论基础。(2)不同的机器学习回归方法纳入该模型。比较不同的回归算法的风能预测。(3)提出了综合统计机器学习方法可以突出可用数据的基本信息。
剩下的纸是组织如下:在部分2,风速时间序列的统计模型是制定。我们还介绍了拉格朗日乘子(LM)测试来验证风力发电的预测错误的分布图示。节3、机器学习的基本概念和六个机器学习算法介绍了风力发电的预测。后来,全面执行案例研究部分4。部分5最后总结了纸。
2。风速时间序列的统计模型
预测风力发电机的输出功率,一种广泛使用的方法是预测风速,然后将预测风速转换为风力发电功率曲线。因此,在本节中,风速的统计模型是第一个制定。我们还将简要解释如何将该模型与非线性回归技术预测风速的预测区间。风速时间序列通常可以认为是由以下随机过程: 在哪里表示随机风速和的观测值吗在时间t。 是一个米维解释向量。每个元素的代表一个可以影响解释变量 ,例如,温度和湿度。的当前值可以由它的滞后值 和解释向量 。请注意,映射从 来可以是任何线性或非线性函数。大多数现有的风速预测方法本质上估计映射 ;预测的值的可以被称为点预测的风速。根据(1),风速包含两个组件:是一个确定性的组件,然后呢是一个随机组件,它也被称为噪声。统计和工程模型是一个近似现实,不现实,所以他们总是有某种程度的错误。现在,有很多关于误差跟踪和控制的研究(24- - - - - -29日]。精确的预测和减少错误的所有进一步控制工作的先决条件。详细的统计研究(30.)表明,可以认为遵循正态分布。因此,我们有
因为是一个确定性的函数,我们应该能够具有任意精度的近似采用强大的非线性机器学习方法(如神经网络)。大多数现有的风速预测方法主要集中在评估并选择其作为预测风速的估计值。相反,由于不确定性引入的噪声 ,错误总是存在于风速的预测。因此,估计和估算的不确定性是必要的吗 。在模型(1)和(2),参数和是假定为常数。在实践中,通常可以图示模型参数。因此我们引入以下图示的风速分布模型:
类似于 ,映射和也可以是线性或非线性。根据模型(3图示),风速的不确定性。噪声的均值和方差是由以前的声音,说明向量。请注意,模型(3)是一个泛化的传统弓(自回归条件异方差性)模型;因为通过设置 假设和是线性函数,模型(3)将与ARCH模型。更严格地证明我们的模型,可以使用拉格朗日乘数(LM)的测试来验证风速分布图示。在案例研究中,我们将测试澳大利亚的实际风速数据是否有图示分布通过执行LM检验。
基于统计模型(3风速),我们可以构造预测区间,其中包含风速的真正价值与任何预先指定的概率。可以给预测区间的定义如下。
定义1。给定一个时间序列生成的模型(3),一个
- - - - - -预测区间(π)的水平是一个随机的时间间隔
计算从这样
。
因为噪音通常假定为正态分布,
- - - - - -预测区间因此可以计算的水平
在哪里代表的价值确定的组件在时间
,
置信水平,是标准正态分布的临界值。基于(4)和(5),计算预测区间,我们应该首先获得三个量:风速预测
,的意思是
,和方差的噪音。在实践中,传统的时间序列模型,如ARIMA和GARCH,通常在短期风速预测,因为他们表现不佳是线性模型,因此不能处理复杂的非线性风速数据的模式。给准确的风速预测,三个映射
,
,和在模型(3)应该准确地估计和非线性技术。在这篇文章中,我们介绍了六种不同的机器学习方法来估计
,
,和
。运用机器学习的方法来估计和
,一个尚未解决的问题是如何获得的估计的意思和方差的噪音。本文采用移动窗口法。考虑到噪声系列
,的估计和可以计算为
通过结合机器学习方法与模型(3),风能给出区间预测的主要过程如下:(1)考虑到历史风速数据和解释的矢量数据时间周期
,采用机器学习的方法来估计函数
。表示的估计作为
。(2)计算预测错误
的时期
。请注意,可以被认为是噪声的估计
。(3)基于误差系列
,计算的估计和与方程(6)和(7)。(4)基于误差系列和均值和方差估计系列和
,采用机器学习的方法来估计函数
和
,和使用他们的估计和
。(5)预测的风速
,第一次使用
,
,和计算
,
,和
;然后,计算风速预测区间方程(4)和(5)。(6)风速预测区间变换到风能与风力发电机功率曲线预测区间,这将在以下部分中讨论。
3所示。机器学习方法风能区间预测
在本节中,我们首先提供简要介绍机器学习,在预测是一个重要的研究领域。六个机器学习算法用于本文提出。将风速转化为风力发电的功率曲线。我们最后讨论如何评估风电区间预测方法的性能。
3.1。介绍机器学习
机器学习是科学研究如何使用计算机来模拟或实现人类的学习活动。它是最聪明的,在人工智能前沿研究领域。机器学习技术是必不可少的太阳能和风能等可再生能源集成(31日,32]。
机器学习可以分为监督学习和非监督学习33- - - - - -35]。从图可以看出1,可以分为监督学习分类和回归,和无监督学习可以分为集群和相关性。
回归(36)是一个过程来评估功能数据向量和目标变量之间的映射。回归旨在确定一个连续的目标变量,通常命名为因变量,而数据项本身通常被称为独立变量,解释变量,或预测。例如,在风速预测,预测可以历史风速、温度和湿度,而自变量是未来风速。通常回归估计映射基于训练数据集的所有数据项的独立变量。因此回归是一个监督学习问题的评估由训练数据映射是监督。统计回归也是一个重要的研究领域。最重要的统计方法是线性回归,它假定自变量是由预测的线性函数。近年来,机器学习社会提出了许多其他的回归方法,如深度学习。在本文中,我们将介绍六种不同的机器学习回归技术和整合提出的统计模型进行风力发电区间预测。
3.2。本文采用机器学习回归算法
3.2.1之上。线性回归
线性回归是回归传统和广泛使用的统计方法。这是选为基线技术在本文中,将与5非线性技术。线性回归模型因变量之间的关系和预测的向量 。线性回归假设自变量y是线性依赖于预测x加上噪声项 。模型可以写成 在哪里向量之间的内积吗和 。而这些方程可以写成向量形式 在哪里
通常假定遵循与零均值和方差正态分布 。因此,我们有 和是一个p维参数向量,它指定每个组件的多少导致输出(37]。
3.2.2。多层感知器网络
多层感知器(MLP)网络是一种前馈人工神经网络模型的输入数据集映射到一组适当的输出。基于标准线性感知器,延时使用三个或多个层节点非线性激活函数。一个延时网络由一组源节点作为输入层,一个或多个计算节点的隐藏层,和一个输出层节点。
图2显示了前馈神经网络的信号流程图。MLP网络有两个阶段:一个向前和向后传球。传球前进包括提供一个样本输入网络,让激活流程,直到他们到达输出层(38,39]。
3.2.3。长短期记忆(LSTM)基于网络的深度学习的方法
深度学习的概念被辛顿等人在2006年首次提出。深入学习是机器学习的一个分支。它本质上是一种特殊的人工神经网络。深度学习利用多层网络结构和适当的非线性变换函数适用于每个隐藏节点实现数据的高层抽象的目的。传统的前馈人工神经网络通常只包含一个隐藏层,但也有许多隐层结构深度学习。因此,深度学习采用培训机制完全不同的传统的人工神经网络来解决这一问题的深层神经网络在训练40]。
LSTM是一个时间周期神经网络,可有效解决梯度爆炸和梯度消失问题与传统循环神经网络相比。LSTM是由一组称为内存块的循环子网。每个内存块是由输入的大门,忘记门,和输出门。图3显示了LSTM结构(41]。
一般来说,LSTM递归神经网络由以下组件组成:输入门相应的权重矩阵吗 , , ,和 ;忘记门相应的权重矩阵吗 , ,和 ;和输出门与相应的权重矩阵 , , ,和 。输入通道的功能是记录的新信息选择性细胞状态。忘记门的功能是细胞中选择性地忘记了状态信息;的功能输出门出口从细胞特定的信息。LSTM以下所示的详细工作流程(42]: 在哪里是物流乙状结肠函数[0,1]中的输出和双曲正切代表了双曲正切函数的输出(−1,1)。
3.2.4。懒惰IBK
懒惰IBK是广泛使用的懒惰的学习方法。懒惰的学习方法推迟的决定如何分配因变量,直到一个新的查询说明向量输入。当接收到查询说明向量,检索一组类似的数据记录从可用的训练数据集,用于分配新实例的因变量43]。为了选择类似的数据记录,懒惰的方法采用距离测量,会给附近的数据记录更高的相关性。懒惰的方法选择k最近的查询实例的数据记录。因变量的新实例的基础上决定k最近的实例。
懒惰的学习算法有三个基本步骤:(我)推迟:懒惰学习算法存储所有训练数据和延迟处理,直到一个新的查询。(2)回复:当地的学习方法由Bottou和Vapnik 1992年是一个流行的方法来确定因变量为新闻查询(44]。在Bottou Vapnik学习方法,实例被定义为点在空间和一个相似度函数定义在所有成对的这些实例。(3)冲洗:解决查询后,答案和任何中间结果被丢弃。
3.2.5。回归树
回归树是一种广泛使用的决策树算法。决策树是数据挖掘工具旨在从大型数据集提取有用的信息,利用这些信息来帮助决策过程。回归树由一组节点,可以将因变量的值分配给一个说明向量。回归树构造一个树风格决策规则集,并将训练数据划分为决策树的叶节点根据解释变量的数值或定值。每个叶子节点的回归规则源于数学过程,最大限度地减少回归错误的叶节点45]。
3.2.6。决策表
类似于回归树、决策表还确定因变量的值与一组决策规则(46]。然而,决策表安排决策规则表,而不是一个树。一个决策表通常由许多平行的决策规则。类似于回归树,训练数据将被分为几个组,每一个都将由一个决策规则表示。对于一个给定的解释性向量(输入),选择一个适当的决策规则将首先基于它的解释变量的值。这个输入将被指派的因变量作为因变量的平均的所有训练数据向量对应的组。因变量也可以由对相应的组训练数据进行线性回归。实证研究表明,该决策表回归树也有类似的表现。
3.3。将风速转化为风能
基本方法用于本文将预测风速的预测风力发电输出风力涡轮机和风力农场。提供的风速预测是一个机器学习的六个回归方法上面所讨论的。然后输入风速认证风力发电机功率曲线和转化为风能。
维斯塔斯v90 - 3.0 MW风力涡轮机被选中的案例研究。维斯塔斯v90 - 3.0兆瓦是音高监管逆风风力发电机偏航和三叶转子与活跃。它有一个转子直径90米的发电机额定3.0兆瓦。维斯塔斯v90 - 3.0 MW广泛用于澳大利亚风力发电厂和一个经过验证的效率高。
维斯塔斯的典型功率曲线v90 - 3.0 MW, 60赫兹,106.7 dB (A)如图4。它可以清楚地观察到风力发电的输出成正比对于小风速 。此外,功率曲线是陡峭中风速和平坦的大风速。插入的速度是3.5米/秒,断路器的速度是25米/秒(47]。
3.4。绩效评估
案例研究的结果,建议前几个标准介绍了绩效评估。鉴于T历史风力值 ,1≤t≤T的时间序列这是由T历史风速观测值和相应的预测能力 ,1≤t≤T;平均绝对误差百分比(日军)被定义为
日军对时间序列预测是一种广泛使用的标准。它还将用来评估该方法的案例研究。
提出了两个标准来评估区间预测。鉴于T风力发电的价值观 ,1≤t≤T的时间序列和相应的预测α程度的预测区间 ,1≤t≤T,实证的信心(48)和绝对的报道错误(ACE)被定义为 在哪里是观测的数量,分为预测预测区间(π)除以样本大小。它应该尽可能接近α越好。
4所示。案例研究
4.1。案例研究的背景
在实验中,风力发电预测模型已经被评估使用风速数据从德文波特机场风站,澳大利亚的塔斯马尼亚岛。澳大利亚气象局提供的数据。训练和测试数据有以下四个数值特征:风速、风向、湿度和温度。训练数据从2018年2月1日到2018年3月1日,在测试数据从2019年2月1日到2019年3月1日。
经验证明我们的模型的有效性,我们将首先验证风速数据展示的分布图示效果进行拉格朗日乘子测试(49,50]。LM测试的结果有95%的显著性水平上的数据从2019年2月1日到2019年3月1日在表1。
如表中所示1,显著性水平为0.05,PLM测试值为0 6例。此外,LM统计显著大于临界值的LM测试在所有场合。这两个事实强烈表明,风速数据图示分布有强烈的影响。在测试,订单10意味着方差与它的滞后值至少 。换句话说,风速在10个时间单位t仍然可以影响风速的不确定性在时间吗t。
4.2。风速预测的结果
风速预测是风电预测的第一步。六个回归方法首先被用来执行one-hour-ahead风速预测。六个算法的性能如表所示2。
如表中所示2的地图LSTM和懒惰IBK比其他方法更小。此外,日军LSTM低于10%,这是足够好的考虑风速的波动率非常高。结果表明,这两种机器学习非线性回归方法在风速预测执行好。
三种方法的预测误差图形如图5。在图5,目视检查表明,三种算法的预测误差正态分布。是很重要的知道误差分布的类型,以确保该统计模型具有一个有效的假设。经验证明风速预测误差正态分布,所有六个方法的预测错误检查为正常执行Kolmogorov-Smirnov正常测试。测试结果还表明,所有六个预测方法有正态分布的错误。这些结果再次验证的假设模型的有效性。
(一)
(b)
(c)
4.3。风力发电区间预测的结果
机器学习的风速预测六回归算法然后转化为风能预测部分中讨论3。同样,平均绝对百分误差(日军)是用于评估不同的表现方法。从表3可以看出,对于风力发电预测,日军LSTM仍低于其他五个算法。
基于表2和3,LSTM方法选为风速点(估计量的预测方法 )。讨论的程序部分2然后给风力发电的预测区间。我们将使用所有六个回归估计方法和然后比较他们的表演在风能区间预测。
在表4为95%和99%置信水平,提出了ace不同的回归方法。见表4五的ace非线性方法无论置信水平相似。相反,所有五个非线性回归算法比线性回归。这是一个明确的证明了强劲的风力发电中存在非线性数据。
95%和99%的水平预测间隔由不同的方法给出了数据6和7。可以看出,预测时间间隔由五非线性机器学习算法完全包含风力发电的真实值。这些结果清楚地证明了统计模型的有效性。此外,结果还表明,非线性回归方法是机器学习合适的候选人在风能区间预测。与其他机器学习方法相比,风力发电中表现最好LSTM区间预测。LSTM是一个深度学习神经网络算法。改善结构的深度学习的神经网络将信息深度学习模型的抽象能力更强。因此,它能够从大量数据中提取和学习复杂的信息也更强。风力发电区间预测的准确性将会相应提高。多层感知器(MLP)可分为前馈神经网络。 In the traditional feedforward neural network such as MLP, the input layer, the hidden layer, and the output layer in the network are fully connected, but the nodes within each layer are disconnected. This structure results in the inability of the traditional feedforward neural network to deal with the problem of correlation between inputs. Compared with the feedforward neural network, circular neural network introduces directional circulation. At this point, the nodes between hidden layers in the network are no longer disconnected but connected. And the input of the hidden layer includes not only the output of the input layer but also the output of the hidden layer at the last moment. As a conclusion, LSTM can perform better than MLP.
(一)
(b)
(c)
(d)
(e)
(f)
(一)
(b)
(c)
(d)
(e)
(f)
5。结论
本研究工作发展小说全面综合统计机器学习策略在澳大利亚风电场风力发电预测,包括勘探数据的统计特征的统计工具和开发不同的统计机器学习方法的预测模型。准确的风电区间预测对电力系统规划和运行效率至关重要。风能的特点是其非线性和间歇性,为风力发电的预测带来了重大的挑战。传统的线性时间序列模型不能妥善处理这些挑战,因此不能达到令人满意的表现。在本文中,我们提出一个基于机器学习的统计方法,可以处理非线性时间序列的分布图示,因此适用于风力发电区间预测。
与其他相关参考文献相比,本研究工作表明,经典回归技术不适合复杂的应用程序如风能区间预测。它仅仅是不合适使用线性假设这些问题。此外,其他研究只能通过复杂的机器学习方法未能平衡的重要信息历史数据。实验结果表明,LSTM风能预测是最适合的人选。此外,该模型的有效性和准确性风能区间预测与案例研究也证明。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。