文摘

可再生能源与传统能源如煤炭相比中已变得很流行。可再生能源与传统能源相比的相对需求是一个重要的指标来确定能源供应结构。需求预测的相对指数已变得非常重要。如决策树数据挖掘方法是相当有效的在这样的时间序列预测,但理论背后是很少讨论研究。在这篇文章中,一些关于决策树理论探索包括偏见的行为,方差,并使用树木平方预测误差和预测区间分析。之后,真正的英国网格数据用于区间预测的应用程序。在可再生能源比例预测应用程序中,可再生能源供应的比例在传统能源可以动态地预测区间覆盖精度高于80%和宽度约22日,类似于其标准差。

1。介绍

可再生能源如太阳能和风能一直扮演着一个不可或缺的重要角色在维持电力供应,缓解环境污染和全球变暖的危机。渗透率的增加可再生能源、确定可再生能源发电的数量是至关重要的维持能量平衡和电网的稳定性和可靠性。预测混合能源的股票提供的指导建立每个能源的发电并确保电网的负荷需求得到满足(1,2]。基于数据的预测方法,特别是机器学习方法,提供一个有前途的解决方案来推断所需的能源发电比例,其中决策树是一种公认的方法由于其满意的精度和解释(3- - - - - -6]。

尽管在预测决策树提供了一种有效的方法,理论解释以及它如何表现良好时很少讨论。所需的可再生能源发电比例可以被看作是一个线性时间序列。在这种背景下,我们探讨树模型执行的偏差,偏差和预测误差。此外,时间序列预测的预测是不够的,我们还提供预测区间选择高斯和分位数区间理论与应用程序中可再生能源比例预测。

决策树(7)是一种非参数用于发现和prediction-oriented监督学习方法分类和回归。我们的目标是创建一个模型,预测目标变量的值通过学习简单的决策规则推断从数据功能。决策树,与其他数据挖掘方法相比,有其自身的优势。(1)随意的关系,它可以处理非线性模型。在大多数情况下,经济更加注重线性模型,而如果是一个非线性模型,它将被转移到一个线性模型。在消费者行为分析等问题,变量的数量超过了正常范围的数十甚至数百个,这肯定会导致高的变量之间的相关性。在这种情况下,系数可能错误的现实的意义。然而,决策树提供变量重要性排名标准,帮助很多。(2)可理解性而言,它往往是相对比“黑箱”模型神经网络,这意味着它可以更清楚地解释数据结构和帮助读者了解相关信息。这些无疑带来方便在医疗决策(8- - - - - -10),电子商务,11- - - - - -13)等等。

我们现在探索树木当安装的性能从线性模型生成的数据。相应的偏差、方差和预测误差之间的安装简化树和真正的简单线性模型计算。然后,这些错误是如何改变时将探索线性数据分布的变化。动机是探索树如何执行在不同的分布。之后,提出了预测区间使用高斯和分位数的间隔,这也解释了为什么分位数区间选择在赵的研究等。14]。使用简单的线性模型 在哪里 是真正的模型。据推测,在这篇文章中, 独立和 均匀分布的担保,如果树k终端节点,每个节点的样本容量将是方便的在理论和仿真分析。决策树分析在均匀分布的假设包括工作汉考克(15],杰克逊和Servedio [16),和白色和刘17]。其他发行版也可以考虑,但分析将更加复杂每个终端节点的样本大小取决于许多参数。

预期的平方预测误差(SPE)是一种重要的指标来衡量训练模型如何应用于进一步的看不见的数据。所示Hastie et al。18),SPE的回归 在一个输入点

在(2),第一项的方差目标在其真正的意思 ,无论如何无法避免 据估计,除非 第二项是平方偏差,量的估计不同于真正的平均值;最后一项是方差,将平方偏差 绕着它的意思。通常更复杂的模型 是,越低(平方)偏见但方差越高(18]。

2,回归树分析时的性能数据,只需遵循均匀分布,与加性高斯噪声。当我们预测时间序列使用简化的树,计算预测误差方差分解成和其他错误。当高斯或统一效果强,这些错误有不同的行为。其他勘探进行第三节包括最好的树深度最小预测误差和高斯的性能和分位数区间在不同条件下的预测。一个真正的区间预测应用程序进行第四节。结论是在第五节。所有计算都使用R(19];”waveslim”(20.)是用于小波分解和“ctree”(21CTree]。

2。偏见方差探索

2.1。分解的背景

观察 ,(无条件)的期望 方差是

他们都没有关系 在这种情况下, 因此,对 观察,平均的期望和方差 所示

2.2。分解在决策树中

在决策树的背景下,拟合模型 在一个简化的形式 在哪里 是树中的终端节点的数量吗 的意思是 在终端节点 在树上只有根节点, ,和拟合模型 然后,为点 , 方差是

因此,

然后,均方预测误差(摩根士丹利亚洲)

由方差是 和的平方偏差

现在的终端数量决策树中的节点扩展 一个将军 ;然后,摩根士丹利亚洲, ,和方差为 相等的吗 由于决策树是假定 与相同数量的平等的终端节点在每个终端节点观测。在这种情况下, 对于一般的 ,摩根士丹利是 与方差 和的平方偏差

很容易看到,在一个较低的 , , 和更高的 ,方差、平方偏差和摩根士丹利都将减少。

2.3。最优 摩根士丹利亚洲降到最低

可以找到理想的终端节点通过最小化摩根士丹利对 在这里 是一个离散的整数,所以目标 将最近的整数的划分结果。摩根士丹利的一阶导数,计算得到 和摩根士丹利的二阶导数总是正的。因此,我们只需要解决

真正的根(18)是

我们可以近似 通过

此外,根的约束 如果 不在 ,摩根士丹利可能总是减少。

在(19)回(16),我们将会得到 很容易看到,增加的 , 是固定的, 将会增加。其他人将会显示为数字。

因此,如何比率 , , 当参数改变不同?自 , , 一起出现,他们被视为一个参数。为 ,重要的是他们的区别,所以我们使用 只有改变 在这里, 使用给定的参数计算(19),如果 不存在,结果将不会显示。结果在图1(更改 )和图2(更改 )表明,在两种情况下, , , 所有增加。

在图1,当 变大, 更容易被均匀分布和 增加 更准确地描述均匀分布;此外,的比例 在摩根士丹利变大 增加。在图2,当 变大,高斯分布数据生成和发挥更大的作用 减少。这就是为什么 增加。 通常减少。更大的下降速度放缓 像预期的那样。

2.4。模拟

在这个模拟,一个简化的树模型将被设计使用模拟数据验证理论结果。也就是说,当参数变化的模拟数据,的分布 也将改变。问题是,如何将Var的统计数据, ,MSE, 相应地改变吗?

在简化的树中, 是均匀地分成 间隔, 为特定的 , , , , , ,我们要计算摩根士丹利的统计,Var 区间 从模拟数据。因此,为 间隔, 范围是

的观测时间间隔 ( ) : 定义 (我)步骤1:为数据( , ) ,我们从他们训练模型 为模拟 , 的平均价值吗 (2)第二步:重复步骤1 次了。然后,我们有 训练模型 , (3)步骤3:模拟 均匀的 范围 我们要计算 , , 对于这个特定的 (iv)步骤4:模拟 的值 使用 (v)第五步:计算的统计数据 , , 对于这个特定的 作为 (vi)第六步:重复步骤3到步骤5 时间和计算的均值 , , 作为 , ,

遵循步骤1到步骤6 , ,摩根士丹利和计算均值, ,

与200年模拟试验的结果数据所示34。对图3, ,我们有一个最低摩根士丹利。然而,当 如图4,摩根士丹利亚洲不断减少。

3所示。预测区间

而不是点预测,预测区间也是可取的特别是高方差的时间序列。如果两个点预测和预测区间可以提供,我们将更有信心的预测。本研究也帮助我们决定适当的预测区间方法decision-tree-based回归问题。Gaussian-based预测区间和分位数区间比较下不同的参数分布。

3.1。概率的函数

因为我们的线性模型, 是统一的和高斯分布的总和,概率函数

通过让 ,我们获得

现在我们得到的概率 (29日)。然而, 是意味着在一个复杂的形式参数不容易解理论由给定值

3.2。预测区间为高斯分布

如果我们想要预测区间,说 水平,理论方法是获得 从方程

然而,的积分 不是没有近似分析可以解决的 与其他合适的表情。结果也会相当复杂。如果我们知道这些参数值,然后 可以很容易地发现数值。

从图5,如果统一(高斯)分布起着主要的作用, 可以近似描述(高斯)均匀分布。条件下, 不是太大, 不是太小, 是1(只有一个区间),我们将近似的分布 作为一个高斯分布 :

然后,下的预测区间 这个标准高斯分布

然后,对于一般 ,预测区间变得 这是表单 一个典型的高斯预测区间。

3.3。使用高斯预测区间和分位数区间预测仿真

在这个模拟中,我们探索高斯的性能预测区间和分位数下不同的参数组合。这些参数包括 , , , 当其他参数是固定的,一个高 意味着更强的高斯分布的影响,在这种情况下,高斯预测区间可能工作得很好。当 大,均匀分布发挥更大的作用。然后,高斯预测区间可能不工作。高斯预测区间和分位数区间的影响观察终端节点的大小。当样本容量很大,他们可以有稳定的性能,但当样本容量小,性能不同。

使用高斯预测区间 在哪里 是1.96和RMSPE根均方误差估计从训练数据中每个终端节点。

分位数区间 来自每个终端节点的0.025和0.975分位数从训练数据。(我)步骤1:训练数据生成。使用给定的参数 , , , , , ,数据是根据模型生成的 因此,我们得到了真正的拟合值 (2)步骤2:RMSPE从训练数据和分位数。从这个训练数据,训练模型,RMSPE和分位数计算下面的步骤。(我)步骤2.1:模型的训练。对训练数据 (其余的数据 是测试数据),我们对数据排序吗 在一个升序 后也将重新安排吗 ,然后 分为 连续约等于折叠,使总 观察。观察在褶皱的数量 ( ) : 定义 褶皱的 , ,将预测的价值 在树上上下文。树模型的预测值平均每个终端节点的响应值。样品被分成了不同的终端节点会有相应的平均价值的预测价值。(2)步骤2.2:RMSPE和分位数的计算。当模型 是训练有素的 ,预测的值 然后,RMSPE训练数据 分位数的间隔 0.025和0.975分位数的吗 训练数据 (3)步骤3:测试数据生成和模型试验。使用相同的参数 , , , , 在步骤1中,数据是根据生成的 然后,测试数据 被放入 和覆盖计算 (iv)第四步:重复步骤1 - 3。

重复步骤1 - 3 次,得到一个平均覆盖率。

使用参数 , , ,结果如图6

结果表明,分位数区间保险更接近0.95的参考线固定 , , 高斯预测区间只是接近0.95覆盖 是大;否则,它比0.95更广泛的宽度为代价的。当 选择是最好的 ,保险接近0.95的参考线 增加对分位数和高斯预测区间。然而,当均匀分布的影响变得更强,保险都远离0.95。因此,当观测的数量为每个终端节点大,显然不是高斯分布的数据,提出了分位数区间。当数据是明显的高斯分布,高斯预测间隔建议。

4所示。真正的应用程序

我们已经探索了决策树在不同情况下的性能。一个真正的应用程序在这一节中进行的。数据来自英国Gridwatch (http://www.gridwatch.templar.co.uk/),这是电网的需求数据,每个能源的供应数据。时间序列开始从2011年到2020年,使953824每隔5分钟观察与记录。如图所示的细节7

从图中,我们可以看到,网格的变化时期的需求预期因为有峰谷值每日和季节性。网格的需求变化的总体趋势。一些种类的能源如风能和生物质供应这些年来增加很多;他们将更频繁地使用比传统能源如煤炭在未来更环保。我们构建一个度量 的比例来衡量其他能源供应的煤炭。通过删除观察没有煤或零值,我们有847922的观察,如图8

我们平均时间序列 从每天5分钟的频率,截至2954年,观察了。进行一个预测方法 帮助我们知道需要多少可再生能源在不久的将来。我们使用的区间预测方法是我们设计的方法,从赵et al。14),称为ctreeone,它使用在动态区间预测树方法ctree上下文。我们选择的不同的参数是7时间差距(每周动态预测),使其他参数保持不变。

区间预测不仅提供了关键的预测区间预测结果也属于预测点。小的变化 经常发生,影响能源供需系统,所以在这种情况下不需要行动。预测比例变化时,预设的限制,警报可能提出帮助系统适应新的情况,例如,通过生产更多的可再生能源提前满足即时的需求。区间预测模型提供了这样一个警报系统来调整能源生产。

结果如表所示1和图9。覆盖和宽度使一个好的平衡;也就是说,更高的覆盖成本相对较高的宽度。我们80.31%的覆盖率和一个合适的宽度22.95相似的标准差比率为19.78。

5。结论

本文构造的数据使用一个简单的模型,包括高斯分布和均匀分布。我们探索的平方预测误差的树木和错误分解为偏见,方差和不可约的错误。偏差减少当树变得更大。然而,对于平方预测误差和方差,并不是单调的关系。我们也算最好的树深度最小均方预测误差。当高斯效应占主导地位,最好的树深度密度减少。然而,当制服效应占主导地位,最好的树深度增加。在两种情况下,均方误差方差和偏差都会增加。

之后,两个选项给出的预测区间使用高斯预测区间或分位数区间。当高斯分布明显占主导地位,提出了高斯预测区间。否则,分位数区间,这也是为什么分位数区间选择的预测在我们的回归应用程序中,尽管他们都相当强劲均匀分布时表现不佳。当观测的数量很小的终端节点,这两个区间结构表现不佳的报道。

在真实数据的应用程序中,我们运用我们的方法对英国电网能源供给和需求数据预测的比例可再生能源供应的煤炭。我们有良好的预测结果80.31%间隔覆盖和22.95区间宽度。该方法可以扩展到其他模型除了决策树。

我们使用区间预测的决策树模型。在实践中,其他模型也可以考虑。例如,大厅等。22)使用多元非线性回归预测和分析气候和天气的变化动态,提出一个简单的模型平均方法来减少模型和预测的不确定性。除了决策树,其他动态回归模型也可以考虑,例如,顾et al。23)动态回归模型用于预测一个特定的空间天气指数的动态预测和提出了一种新的方法使用点云模型参数不确定性分析。动态回归模型也被应用到社会动态行为建模和分析(24]。

在未来的研究中,该模型可以应用于更多种类的数据集测试其生成能力。在模拟,而不是线性模型、非线性模型也可以认为测试树的性能。

数据可用性

理论探索的源代码和仿真数据可从相应的作者。真正的数据应用程序可以从Elexon公开访问门户(引用2020年6月)25]。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是提高鑫赵的博士论文。她感激的金融支持基础研究基金为中央大学(2242020 r40073和2242020 r10051号)和江苏青年科学基金(没有。SBK2020040696)在这个研究中,主要是完成在利兹大学的博士学位研究。Xiaokai聂感谢基础研究的财政支持资金中央大学(没有。2242020 r10053)、南京优先科技创新基金(没有。1108000241),东南大学和基本科学指标改善基金(no.4016002011)在这个研究。