复杂性

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

学习和适应复杂的可再生能源系统的优化和控制

把这个特殊的问题

研究文章|开放获取

体积2020年| 文章的ID3567894| https://doi.org/10.1155/2020/3567894

预测误差和预测区间分析的决策树应用可再生能源供给预测

赵新 ¹ 和Xiaokai聂 ²

学术编辑器: Shubo王

收到了 2020年7月10

修改后的 2020年8月25日

接受 2020年9月13日

发表 2020年10月26日

文摘

可再生能源与传统能源如煤炭相比中已变得很流行。可再生能源与传统能源相比的相对需求是一个重要的指标来确定能源供应结构。需求预测的相对指数已变得非常重要。如决策树数据挖掘方法是相当有效的在这样的时间序列预测,但理论背后是很少讨论研究。在这篇文章中,一些关于决策树理论探索包括偏见的行为,方差,并使用树木平方预测误差和预测区间分析。之后,真正的英国网格数据用于区间预测的应用程序。在可再生能源比例预测应用程序中,可再生能源供应的比例在传统能源可以动态地预测区间覆盖精度高于80%和宽度约22日,类似于其标准差。

1。介绍

可再生能源如太阳能和风能一直扮演着一个不可或缺的重要角色在维持电力供应,缓解环境污染和全球变暖的危机。渗透率的增加可再生能源、确定可再生能源发电的数量是至关重要的维持能量平衡和电网的稳定性和可靠性。预测混合能源的股票提供的指导建立每个能源的发电并确保电网的负荷需求得到满足(1,2]。基于数据的预测方法,特别是机器学习方法,提供一个有前途的解决方案来推断所需的能源发电比例,其中决策树是一种公认的方法由于其满意的精度和解释(3- - - - - -6]。

尽管在预测决策树提供了一种有效的方法,理论解释以及它如何表现良好时很少讨论。所需的可再生能源发电比例可以被看作是一个线性时间序列。在这种背景下,我们探讨树模型执行的偏差,偏差和预测误差。此外,时间序列预测的预测是不够的,我们还提供预测区间选择高斯和分位数区间理论与应用程序中可再生能源比例预测。

决策树(7)是一种非参数用于发现和prediction-oriented监督学习方法分类和回归。我们的目标是创建一个模型,预测目标变量的值通过学习简单的决策规则推断从数据功能。决策树,与其他数据挖掘方法相比,有其自身的优势。(1)随意的关系,它可以处理非线性模型。在大多数情况下,经济更加注重线性模型,而如果是一个非线性模型,它将被转移到一个线性模型。在消费者行为分析等问题,变量的数量超过了正常范围的数十甚至数百个,这肯定会导致高的变量之间的相关性。在这种情况下,系数可能错误的现实的意义。然而,决策树提供变量重要性排名标准,帮助很多。(2)可理解性而言,它往往是相对比“黑箱”模型神经网络,这意味着它可以更清楚地解释数据结构和帮助读者了解相关信息。这些无疑带来方便在医疗决策(8- - - - - -10),电子商务,11- - - - - -13)等等。

我们现在探索树木当安装的性能从线性模型生成的数据。相应的偏差、方差和预测误差之间的安装简化树和真正的简单线性模型计算。然后,这些错误是如何改变时将探索线性数据分布的变化。动机是探索树如何执行在不同的分布。之后,提出了预测区间使用高斯和分位数的间隔,这也解释了为什么分位数区间选择在赵的研究等。14]。使用简单的线性模型在哪里是真正的模型。据推测,在这篇文章中, 独立和。均匀分布的担保,如果树k终端节点,每个节点的样本容量将是方便的在理论和仿真分析。决策树分析在均匀分布的假设包括工作汉考克(15],杰克逊和Servedio [16),和白色和刘17]。其他发行版也可以考虑,但分析将更加复杂每个终端节点的样本大小取决于许多参数。

预期的平方预测误差(SPE)是一种重要的指标来衡量训练模型如何应用于进一步的看不见的数据。所示Hastie et al。18),SPE的回归在一个输入点是

在(2),第一项的方差目标在其真正的意思,无论如何无法避免据估计,除非。第二项是平方偏差,量的估计不同于真正的平均值;最后一项是方差,将平方偏差绕着它的意思。通常更复杂的模型是,越低(平方)偏见但方差越高(18]。

节2,回归树分析时的性能数据,只需遵循均匀分布,与加性高斯噪声。当我们预测时间序列使用简化的树,计算预测误差方差分解成和其他错误。当高斯或统一效果强,这些错误有不同的行为。其他勘探进行第三节包括最好的树深度最小预测误差和高斯的性能和分位数区间在不同条件下的预测。一个真正的区间预测应用程序进行第四节。结论是在第五节。所有计算都使用R(19];”waveslim”(20.)是用于小波分解和“ctree”(21CTree]。

2。偏见方差探索

2.1。分解的背景

为观察 ,(无条件)的期望方差是

他们都没有关系。在这种情况下, 和。因此,对观察,平均的期望和方差所示

2.2。分解在决策树中

在决策树的背景下,拟合模型在一个简化的形式在哪里是树中的终端节点的数量吗和的意思是在终端节点。在树上只有根节点, ,和拟合模型。然后,为点 , 方差是

因此,点是

然后,均方预测误差(摩根士丹利亚洲)

由方差是和的平方偏差

现在的终端数量决策树中的节点扩展一个将军 ;然后,摩根士丹利亚洲, ,和方差为相等的吗由于决策树是假定与相同数量的平等的终端节点在每个终端节点观测。在这种情况下, 对于一般的 ,摩根士丹利是与方差和的平方偏差

很容易看到,在一个较低的 , ,和和更高的 ,方差、平方偏差和摩根士丹利都将减少。

2.3。最优摩根士丹利亚洲降到最低

可以找到理想的终端节点通过最小化摩根士丹利对。在这里是一个离散的整数,所以目标将最近的整数的划分结果。摩根士丹利的一阶导数,计算得到和摩根士丹利的二阶导数总是正的。因此,我们只需要解决

真正的根(18)是

有我们可以近似通过

此外,根的约束也。如果不在 ,摩根士丹利可能总是减少。

用在(19)回(16),我们将会得到很容易看到,增加的和 ,当是固定的,将会增加。其他人将会显示为数字。

因此,如何比率 , , 当参数改变不同?自 , ,和一起出现,他们被视为一个参数。为和 ,重要的是他们的区别,所以我们使用只有改变。在这里,将使用给定的参数计算(19),如果不存在,结果将不会显示。结果在图1(更改 )和图2(更改 )表明,在两种情况下, , ,和所有增加。

(一)

(b)

(c)

(一)

(b)

(c)

在图1,当变大,更容易被均匀分布和增加更准确地描述均匀分布;此外,的比例和在摩根士丹利变大增加。在图2,当变大,高斯分布数据生成和发挥更大的作用减少。这就是为什么增加。和通常减少。更大的下降速度放缓和像预期的那样。

2.4。模拟

在这个模拟,一个简化的树模型将被设计使用模拟数据验证理论结果。也就是说,当参数变化的模拟数据,的分布和也将改变。问题是,如何将Var的统计数据, ,MSE,相应地改变吗?

在简化的树中,是均匀地分成间隔, 。为特定的 , , , , ,和 ,我们要计算摩根士丹利的统计,Var为区间从模拟数据。因此,为间隔,范围是

的观测时间间隔( )是 : 定义和。(我)步骤1:为数据( , )在 ,我们从他们训练模型为模拟 ,和的平均价值吗在。(2)第二步:重复步骤1次了。然后,我们有训练模型 , 。(3)步骤3:模拟均匀的范围。我们要计算 , ,和对于这个特定的。(iv)步骤4:模拟的值使用。(v)第五步:计算的统计数据 , ,和对于这个特定的作为 (vi)第六步:重复步骤3到步骤5 时间和计算的均值 , ,和作为 , ,和。

遵循步骤1到步骤6 , ,摩根士丹利和计算均值, ,和。

与200年模拟试验的结果数据所示3和4。对图3, ,我们有一个最低摩根士丹利。然而,当如图4,摩根士丹利亚洲不断减少。

(一)

(b)

(c)

(d)

图3

当一个例子的存在。的轴标签 :树分裂的数量。摩根士丹利亚洲, ,从200年模拟试验和Var平均计算。黑线是摩根士丹利,蓝线是 ,橙色的线是 ,红线是实线的Var。从模拟数据,虚线是理论计算。给出了参数值如下: , , , , ,和。

(一)

(b)

(c)

(d)

图4

当一个例子不存在。的轴标签 :树分裂的数量。摩根士丹利亚洲, ,从200年模拟试验和Var平均计算。黑线是摩根士丹利,蓝线是 ,橙色的线是 ,红线是实线的Var。从模拟数据,虚线是理论计算。给出了参数值如下: , , , , ,和。

3所示。预测区间

而不是点预测,预测区间也是可取的特别是高方差的时间序列。如果两个点预测和预测区间可以提供,我们将更有信心的预测。本研究也帮助我们决定适当的预测区间方法decision-tree-based回归问题。Gaussian-based预测区间和分位数区间比较下不同的参数分布。

3.1。概率的函数

因为我们的线性模型, 是统一的和高斯分布的总和,概率函数是

通过让 ,我们获得

现在我们得到的概率(29日)。然而,是意味着在一个复杂的形式参数不容易解理论由给定值。

3.2。预测区间为高斯分布

如果我们想要预测区间,说为在水平,理论方法是获得和从方程

然而,的积分不是没有近似分析可以解决的与其他合适的表情。结果也会相当复杂。如果我们知道这些参数值,然后和可以很容易地发现数值。

从图5,如果统一(高斯)分布起着主要的作用,可以近似描述(高斯)均匀分布。条件下,不是太大,不是太小,是1(只有一个区间),我们将近似的分布作为一个高斯分布 :

(一)

(b)

然后,下的预测区间这个标准高斯分布

然后,对于一般 ,预测区间变得这是表单一个典型的高斯预测区间。

3.3。使用高斯预测区间和分位数区间预测仿真

在这个模拟中,我们探索高斯的性能预测区间和分位数下不同的参数组合。这些参数包括 , , ,和。当其他参数是固定的,一个高意味着更强的高斯分布的影响,在这种情况下,高斯预测区间可能工作得很好。当大,均匀分布发挥更大的作用。然后,高斯预测区间可能不工作。高斯预测区间和分位数区间的影响观察终端节点的大小。当样本容量很大,他们可以有稳定的性能,但当样本容量小,性能不同。

使用高斯预测区间在哪里是1.96和RMSPE根均方误差估计从训练数据中每个终端节点。

分位数区间来自每个终端节点的0.025和0.975分位数从训练数据。(我)步骤1:训练数据生成。使用给定的参数 , , , , , ,数据是根据模型生成的因此,我们得到了真正的拟合值。(2)步骤2:RMSPE从训练数据和分位数。从这个训练数据,训练模型,RMSPE和分位数计算下面的步骤。(我)步骤2.1:模型的训练。对训练数据(其余的数据是测试数据),我们对数据排序吗在一个升序后也将重新安排吗 ,然后分为连续约等于折叠,使总观察。观察在褶皱的数量( )是 : 定义。为褶皱的 ,给和 ,将预测的价值在树上上下文。树模型的预测值平均每个终端节点的响应值。样品被分成了不同的终端节点会有相应的平均价值的预测价值。(2)步骤2.2:RMSPE和分位数的计算。当模型是训练有素的 ,预测的值在将。然后,RMSPE训练数据分位数的间隔和0.025和0.975分位数的吗训练数据。(3)步骤3:测试数据生成和模型试验。使用相同的参数 , , , ,和在步骤1中,数据是根据生成的然后,测试数据被放入和覆盖计算 (iv)第四步:重复步骤1 - 3。

重复步骤1 - 3次,得到一个平均覆盖率。

使用参数 , ,和 ,结果如图6。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

(j)

(k)

(左)

(m)

(n)

(o)

结果表明,分位数区间保险更接近0.95的参考线固定 , ,和。高斯预测区间只是接近0.95覆盖是大;否则,它比0.95更广泛的宽度为代价的。当选择是最好的 ,保险接近0.95的参考线增加对分位数和高斯预测区间。然而,当均匀分布的影响变得更强,保险都远离0.95。因此,当观测的数量为每个终端节点大,显然不是高斯分布的数据,提出了分位数区间。当数据是明显的高斯分布,高斯预测间隔建议。

4所示。真正的应用程序

我们已经探索了决策树在不同情况下的性能。一个真正的应用程序在这一节中进行的。数据来自英国Gridwatch (http://www.gridwatch.templar.co.uk/),这是电网的需求数据,每个能源的供应数据。时间序列开始从2011年到2020年,使953824每隔5分钟观察与记录。如图所示的细节7。

从图中,我们可以看到,网格的变化时期的需求预期因为有峰谷值每日和季节性。网格的需求变化的总体趋势。一些种类的能源如风能和生物质供应这些年来增加很多;他们将更频繁地使用比传统能源如煤炭在未来更环保。我们构建一个度量的比例来衡量其他能源供应的煤炭。通过删除观察没有煤或零值,我们有847922的观察,如图8。

我们平均时间序列从每天5分钟的频率,截至2954年,观察了。进行一个预测方法帮助我们知道需要多少可再生能源在不久的将来。我们使用的区间预测方法是我们设计的方法,从赵et al。14),称为ctreeone,它使用在动态区间预测树方法ctree上下文。我们选择的不同的参数是7时间差距(每周动态预测),使其他参数保持不变。

区间预测不仅提供了关键的预测区间预测结果也属于预测点。小的变化经常发生,影响能源供需系统,所以在这种情况下不需要行动。预测比例变化时,预设的限制,警报可能提出帮助系统适应新的情况,例如,通过生产更多的可再生能源提前满足即时的需求。区间预测模型提供了这样一个警报系统来调整能源生产。

结果如表所示1和图9。覆盖和宽度使一个好的平衡;也就是说,更高的覆盖成本相对较高的宽度。我们80.31%的覆盖率和一个合适的宽度22.95相似的标准差比率为19.78。

图9

动态区间预测的结果。黑色的线是原始每天比时间序列;红线是预测值;蓝线是上预测区间;黄线是较低的预测区间。紫色的线描述是否有凹圆形的数据区间。圆意味着模型重新训练时间点。上部和更低的预测区间给一个区间,在大多数情况下,真正的将在未来的价值,这是相似的置信区间的拟合值是最有可能被覆盖。

5。结论

本文构造的数据使用一个简单的模型,包括高斯分布和均匀分布。我们探索的平方预测误差的树木和错误分解为偏见,方差和不可约的错误。偏差减少当树变得更大。然而,对于平方预测误差和方差,并不是单调的关系。我们也算最好的树深度最小均方预测误差。当高斯效应占主导地位,最好的树深度密度减少。然而,当制服效应占主导地位,最好的树深度增加。在两种情况下,均方误差方差和偏差都会增加。

之后,两个选项给出的预测区间使用高斯预测区间或分位数区间。当高斯分布明显占主导地位,提出了高斯预测区间。否则,分位数区间,这也是为什么分位数区间选择的预测在我们的回归应用程序中,尽管他们都相当强劲均匀分布时表现不佳。当观测的数量很小的终端节点,这两个区间结构表现不佳的报道。

在真实数据的应用程序中,我们运用我们的方法对英国电网能源供给和需求数据预测的比例可再生能源供应的煤炭。我们有良好的预测结果80.31%间隔覆盖和22.95区间宽度。该方法可以扩展到其他模型除了决策树。

我们使用区间预测的决策树模型。在实践中,其他模型也可以考虑。例如,大厅等。22)使用多元非线性回归预测和分析气候和天气的变化动态,提出一个简单的模型平均方法来减少模型和预测的不确定性。除了决策树,其他动态回归模型也可以考虑,例如,顾et al。23)动态回归模型用于预测一个特定的空间天气指数的动态预测和提出了一种新的方法使用点云模型参数不确定性分析。动态回归模型也被应用到社会动态行为建模和分析(24]。

在未来的研究中,该模型可以应用于更多种类的数据集测试其生成能力。在模拟,而不是线性模型、非线性模型也可以认为测试树的性能。

数据可用性

理论探索的源代码和仿真数据可从相应的作者。真正的数据应用程序可以从Elexon公开访问门户(引用2020年6月)25]。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是提高鑫赵的博士论文。她感激的金融支持基础研究基金为中央大学(2242020 r40073和2242020 r10051号)和江苏青年科学基金(没有。SBK2020040696)在这个研究中,主要是完成在利兹大学的博士学位研究。Xiaokai聂感谢基础研究的财政支持资金中央大学(没有。2242020 r10053)、南京优先科技创新基金(没有。1108000241),东南大学和基本科学指标改善基金(no.4016002011)在这个研究。

引用

f·冯·Loeper p . Schaumann m . de Langlard r·赫斯r . Basmann诉施密特,“概率预测太阳能电源分布网络,使用预测全球水平的辐射,“太阳能卷,203年,第156 - 145页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
x y, j .夏Zhang et al .,“建模和预测的可靠性分析18-pulse整流电源基于飞机的应用程序,“IEEE访问,8卷,第47071 - 47063页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
m . j .欢h . Li Li和b·陈,“预测基于梯度的溶解氧在水产养殖促进决策树和长期短期记忆网络:张周的研究渔业示范基地、中国,“计算机和电子产品在农业,175卷,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j .刘和李y”,研究风能环境短期负荷预测模型基于特征提取和树回归,”《清洁生产,264卷,2020年。
视图: 出版商的网站 | 谷歌学术搜索
d . Raspopov和p . Belousov”发展的方法和算法识别一种电能消费者使用人工智能和机器学习模型对于智能电网系统,”Procedia计算机科学卷,169年,第605 - 597页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
c。史和D.-p。孟”,供应风险组合预测模型在核电装备制造业基于支持向量机,决策树,”核电工程,32卷,不。5,138年,页2011。
视图: 谷歌学术搜索
l . Breiman j·弗里德曼,c . j .石头和r . a . Olshen分类和回归树美国新泽西州霍博肯市威利,1984年。
f·德·菲利斯,d . Crocetti m·帕里et al .,“决策树算法在局部晚期直肠癌:一个例子的深意和滥用的机器学习方法,“癌症研究和临床肿瘤学杂志》上,卷146,不。3,第765 - 761页,2020。
视图: 出版商的网站 | 谷歌学术搜索
w .旷,杨绍明。关铭Chan工程学系。曾荫权和观测。Siu”,基于机器学习快速内部模式决定hevc屏幕内容编码,通过决策树”IEEE电路和系统视频技术,30卷,不。5,1481 - 1496年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
x赵,理发师,c·c·泰勒和z米兰,“使用wavelet-transformed面板数据时间序列的分类树方法,”计算统计和数据分析卷,127年,第216 - 204页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
耿l . c . Chen,周,“银行crm系统的设计和实现基于决策树算法,”神经计算和应用,p . 2020。
视图: 谷歌学术搜索
m . Durica j . Frnda和l . Svabova”基于决策树模型的业务故障预测对于波兰公司,”Oeconomia Copernicana,10卷,不。3,p。453年,2019年。
视图: 出版商的网站 | 谷歌学术搜索
杨x, y, l·陈,朱,“研究客户流失组合预测模型基于决策树和神经网络”2020年IEEE第五国际会议上进行云计算和大数据分析成都,页129 - 132年,中国,2020年4月。
视图: 谷歌学术搜索
x赵,理发师,c·c·泰勒和z米兰,“区间预测基于流数据回归树,”先进的数据分析和分类,2019年。
视图: 谷歌学术搜索
t·r·汉考克“学习k在决策树的均匀分布。《第六届会议上计算学习理论圣克鲁斯,页352 - 360年,CA,美国,1993年7月。
视图: 谷歌学术搜索
j·c·杰克逊和r . a . Servedio学习随机均匀分布下Log-Depth决策树学习理论和内核的机器施普林格,柏林,德国,2003年。
a . p .白色和w z刘”,偏见在决策树归纳的信息化措施,”机器学习,15卷,不。3、321 - 329年,1994页。
视图: 出版商的网站 | 谷歌学术搜索
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素施普林格,柏林,德国,2001年。
R核心团队,接待员:统计计算的语言和环境,R统计计算的基础,维也纳,奥地利,2018年,https://www.R-project.org/。
查询装备,Waveslim:基本小波的例程一个,两个,三维信号处理,2019,https://CRAN.R-project.org/package=waveslim。
t . Hothorn k Hornik, a . ZeileisCtree:条件推理树,2015年全面R档案网络。
r . j .大厅、h·l·魏和e·汉娜”复杂系统建模的统计预测北大西洋冬季大气变化:北大西洋季节性预测的新方法,”季度皇家气象学会杂志》上,卷145,不。723年,第2585 - 2568页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
博因顿y顾,h·l·魏r . j ., s . n·沃克和m . a . Balikhin”系统识别和数据驱动的AE指数的预测和预测不确定性分析使用一个新的云NARX模型,”地球物理学研究杂志:空间物理学,卷124,不。1,第263 - 248页,2019。
视图: 出版商的网站 | 谷歌学术搜索
h·魏和g . r .境”,食品供应的主导地位在改变非洲人口因素:一个模型使用一个系统识别方法,”社会科学》第六卷,没有。4 p。122年,2017年。
视图: 出版商的网站 | 谷歌学术搜索
e .门户G.b.国家电网状态,2020,http://www.gridwatch.templar.co.uk/。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

386年

下载

904年

引用

复杂性

学习和适应复杂的可再生能源系统的优化和控制

预测误差和预测区间分析的决策树应用可再生能源供给预测

文摘

1。介绍

2。偏见方差探索

2.1。分解的背景

2.2。分解在决策树中

2.3。最优 摩根士丹利亚洲降到最低

2.4。模拟

3所示。预测区间

3.1。概率的函数

3.2。预测区间为高斯分布

3.3。使用高斯预测区间和分位数区间预测仿真

4所示。真正的应用程序

5。结论

数据可用性

的利益冲突

确认

引用

版权

2.3。最优摩根士丹利亚洲降到最低