基于CEEMDAN和xgboost的原油价格预测方法

摘要

原油是全球经济最重要的能源类型之一，因此了解原油价格的变化是非常有吸引力的。然而，原油价格序列往往表现出一定的非平稳性和非线性特征，这给原油价格的准确预测带来了很大的挑战。针对这一问题，本文提出了一种将自适应噪声(CEEMDAN)和极端梯度增强(XGBOOST)完全集成经验模态分解(CEEMDAN -XGBOOST)相结合的原油价格预测方法，即CEEMDAN-XGBOOST。首先，利用CEEMDAN将原油价格的非平稳非线性序列分解为多个固有模态函数和一个残差。其次，利用XGBOOST分别对各IMF和剩余货币进行预测。最后，将各IMF对应的预测结果和残差相加作为最终的预测结果。为了证明该方法的有效性，我们对西德克萨斯中质原油(WTI)价格进行了广泛的实验。实验结果表明，本文提出的CEEMDAN-XGBOOST模型在几个评价指标上优于一些先进的模型。

1.介绍

原油作为全球经济最重要的能源之一，对每个国家、每个企业、甚至每个人都有着巨大的影响。因此，如何对原油价格进行准确的预测是摆在政府官员、投资者和研究人员面前的一项重要任务。然而，现有研究表明，原油价格受到供需、利率、汇率、投机活动、国际政治事件、气候等诸多因素的影响[1，2］.因此，原油价格的变动是不规律的。例如，WTI原油价格从1998年12月的约11美元/桶开始，逐渐在2008年7月达到145.31美元/桶的峰值，然后在接下来的5个月里，由于次贷危机，价格急剧下跌至30.28美元/桶。此后，油价在2011年4月攀升至113美元/桶以上，2016年2月再次大幅下跌至26美元/桶左右。近几十年来原油价格的变化表明，由于原油价格具有高度非线性和非平稳性的特点，原油价格的预测是一项非常具有挑战性的任务。

许多学者致力于准确预测原油价格。最广泛使用的原油价格预测方法大致可分为两类：统计方法和人工智能（AI）最近，Miao等人基于最小绝对收缩和选择算子（LASSO）模型探索了影响原油价格的因素[1］.Ye等人提出了一种集成棘轮效应的原油价格线性预测方法[3.］.Morana提出了一种半参数广义自回归条件异方差(GARCH)模型，即使没有历史原油价格的条件平均，也能预测不同滞后期的原油价格[4］.Naser发现，使用具有经验证据的动态模型平均(DMA)比自回归(AR)模型及其变体等线性模型更好[5］.Gong和Lin提出了几种新的非均质自回归(heterogeneous autoregressive, HAR)模型来预测原油价格的好坏不确定性[6］.Wen等人也使用了带有结构突变的HAR模型来预测原油期货的波动性[7］.

虽然统计方法在一定程度上提高了原油价格预测的准确性，但最近的一些研究表明，原油价格的线性假设无法满足，从而限制了预测的准确性。因此，在过去的几十年里，人们提出了各种人工智能方法来捕捉原油价格的非线性和非平稳性[8- - - - - -11］.Chiroma等人回顾了与原油价格预测相关的现有研究，发现人工智能方法正吸引着原油价格预测领域的学者们前所未有的兴趣[8]Wang等人提出了一个人工智能系统框架，将人工神经网络（ANN）和基于规则的专家系统与文本挖掘相结合来预测原油价格，结果表明，所提出的方法是非常有效和切实可行的[9］.Barunik和Malinska利用神经网络预测原油期货价格的期限结构[10］.最近，Chen等人利用深度学习框架对原油价格预测进行了研究，发现随机漫步深度信念网络(RW-DBN)模型在预测精度方面优于长短期记忆(LSTM)和随机漫步LSTM (RW-LSTM)模型[11］.其他人工智能方法，如遗传算法[12，压缩感知[13]、最小二乘支持向量回归(LSSVR) [14]和聚类支持向量机[15，也被用于预测原油价格。由于时间序列的极端非线性和非平稳性，直接对原始时间序列进行预测很难获得满意的结果。一种理想的方法是将预测原始时间序列的艰巨任务分成若干个子任务，每个子任务预测一个相对简单的子序列。然后将所有子任务的结果累积为最终结果。基于这一思想，提出了“分解与集成”框架，并广泛应用于时间序列分析，如能量预测[16，17，故障诊断[18- - - - - -20.]，以及生物信号分析[21- - - - - -23］.这个框架包括三个阶段。在第一阶段，原始时间序列被分解成几个分量。典型的分解方法包括小波分解(WD)、独立分量分析(ICA) [24]、变分模式分解(VMD) [25]，经验模式分解(EMD) [2，26]及其扩展(集成EMD (EEMD)) [27，28]，以及补充的EEMD (CEEMD) [29］.在第二阶段，应用一些统计或基于人工智能的方法来分别预测每个分解的组件。理论上，任何回归方法都可以用来预测每个分量的结果。在最后一个阶段，将来自所有组件的预测结果聚合为最终结果。近年来，各种研究人员都致力于在“分解与集合”的框架下对原油价格进行预测。Fan等人提出了一种融合独立分量分析(ICA)和支持向量回归(SVR)的原油价格预测新方法，实验结果验证了该方法的有效性[24］.Yu等人首先使用EMD将原油价格序列分解为几个固有模态函数(IMFs)，然后使用三层前馈神经网络(FNN)模型对每个IMF进行预测。最后，作者使用自适应线性神经网络(ALNN)将IMFS的所有结果结合起来作为最终的预测输出[2］.Yu等人也使用EEMD和extended extreme learning machine (elm)来预测原油价格，遵循“decomposition and ensemble”的框架。实证结果显示所建议方法的有效性和效率[28］.Tang等人进一步提出了一种集成CEEMD和elm的改进方法来预测原油价格，实验结果表明，所提出的方法优于所有列出的最先进的基准[29]Li等人使用EEMD将原油价格分解为几个分量，然后分别使用核和非核稀疏贝叶斯学习（SBL）对每个分量进行预测[30.，31］.

从分解的角度来看，EMD和EEMD虽然能够提高原油价格预测的准确性，但在重构信号中仍分别存在“模态混叠”和引入新的噪声。为了克服这些缺点，Torres等人提出了一种EEMD的扩展，即带自适应噪声的完全EEMD (CEEMDAN)。[32］.后来，作者提出了改进的CEEMDAN算法，得到噪声更小、物理意义更强的分解分量[33].CEEMDAN在风速预测方面取得了成功[34]、电力负荷预测[35]，以及故障诊断[36- - - - - -38］.因此，CEEMDAN可能具有预测原油价格的潜力。如上所述，任何回归方法都可以用来预测每个分解的分量。最近提出的一种机器学习算法，极限梯度增强(XGBOOST)，可以用于分类和回归[39］.已有研究证明了XGBOOST在预测时间序列方面的优势[40- - - - - -42］.

利用CEEMDAN在分解中的潜力和XGBOOST在回归中的潜力，本文提出了一种将CEEMDAN和XGBOOST结合起来的新方法，即CEEMDAN-XGBOOST，遵循“分解与集成”的框架来提高原油价格预测的准确性。具体来说，我们首先利用CEEMDAN将原油价格序列分解为几个分量。然后，对于每个组件，应用XGBOOST来建立一个特定的模型来预测组件。最后，将每个分量的所有预测结果聚合为最终的预测结果。本文的主要贡献有三个方面:我们提出了一种新的原油价格预测方法，即CEEMDAN-XGBOOST，它遵循“分解与集成”框架;在公众使用的西德克萨斯中质原油(WTI)上进行了广泛的实验，以从几个评价指标方面证明所提出的方法的有效性;我们进一步研究了几个参数设置的影响与提出的方法。

本文的其余部分组织如下2CEEMDAN和XGBOOST描述。部分3.详细阐述了提出的CEEMDAN-XGBOOST方法。本节对实验结果进行了报告和分析4．在本节中，我们还讨论了参数设置的影响。最后,部分5本文总结道。

2.预赛

2.1.EMD、EEMD和CEEMDAN

EMD由Huang等人于1998年提出，并在科学与工程的许多学科中得到了发展和应用[26］.经验模态分解(EMD)的关键特征是按照傅里叶级数的精神将非线性、非平稳序列分解为内禀模态函数(IMFs)。与傅里叶级数相反，它们不是简单的正弦或余弦函数，而是代表原始数据的本振频率特性的函数。这些国际货币基金组织需要满足两个条件:局部极值的数目和交点的数目必须相等或至多相差1和“局部均值”曲线被定义为零。

首先，经验模态分解通过求原始序列的局部极值得到上下包络线。然后，局部极大值(极小值)由两个立方刺连接，分别构造上(下)包络。这些信封的平均数被认为是“当地平均数”。同时，将这个“局部均值”的曲线定义为第一残差，将原始序列与“局部均值”的差值定义为第一IMF。EMD的例子如图所示1．

(a)原序列线、局部均值、上信封线、下信封线

(b)由上述原始序列经EMD分解得到的第一个IMF

对第一个IMF进行EMD分解后，仍然存在残差(局部均值，即图中的黄色点线)1(一))。很明显，残差中也存在极值振荡和高频振荡。EMD将残基分解成另一个IMF和一个残基。如果新残差的方差不足以满足Cauchy准则，EMD将重复分解新残差为另一个IMF和一个新残差。最后，EMD将原始序列分解为多个imf和一个残差。国际货币基金组织和残留物之间的区别被定义为在哪里是k-当时的剩余数t和K是IMF和残留物的总数。

Huang等人随后认为EMD不能完全从原始序列的混合特征中提取出局部特征。其中一个原因是模态混频的频繁出现。模态混合可以定义为在不同的IMF中，在相同的对应位置存在相似的振荡片段，导致单个IMF失去其物理意义的情况。更重要的是，如果一个IMF有这个问题，下面的IMF也无法避免。为了解决这个问题，Wu和Huang将EMD扩展到一个新的版本，即EEMD，它在原始时间序列中加入白噪声，并多次执行EMD [27］.给定一个时间序列和相应的噪声，新的时间序列可以表示为在哪里为原始数据和是我-th白噪声(我＝1，2、……N,N是执行EMD的次数）。

然后，EEMD分解成．为了得到真实的kth货币基金组织, ，EEMD计算的平均值．理论上，由于白噪声的均值为零，因此可以通过计算的均值来消除白噪声的影响，所示

然而，Torres等人发现，由于数量有限在实证研究中，EEMD最终并不能完全消除白噪声的影响。针对这种情况，Torres等人在EEMD的基础上提出了一种新的分解技术CEEMDAN [32］.

CEEMDAN将原始序列分解为第一个IMF和残差，与EMD相同。然后，CEEMDAN得到第二个IMF和剩余，如在哪里表示由序列和分解出的第一个IMF用于设置每个阶段的信噪比。

同样地，k-国际货币基金组织和剩余可计算为

最后，CEEMDAN得到几个imf并计算残差，如图所示

经EMD、EEMD和CEEMDAN分解的序列满足(8）.虽然CEEMDAN可以解决EEMD遗留的问题，但它仍然有两个局限性:模型中所包含的残余噪声伪模的存在性。针对这些问题，Torres等人提出了一种改进CEEMDAN的新算法[33］.

与原CEEMDAN相比，改进后的CEEMDAN通过计算局部平均值来获得剩余值。例如，为了得到如所示的第一个剩余值(9)，它将计算的本地手段N实现（我= 1,2,……N）. 在哪里米()。为序列的局部均值。

然后，它可以让第一个IMF介入

为k-th残数和IMF，它们可以计算为(11)和(12),分别为:

作者证明了改进的CEEMDAN在信号分解方面优于原CEEMDAN [33］.在以下内容中，除非另有说明，我们将把改进后的CEEMDAN称为CEEMDAN。利用CEEMDAN，可以将原始序列分解为多个imf和一个残差，即对原始时间序列进行预测的艰巨任务，可以分解为几个较简单的子任务进行预测。

２.２.XGBOOST

Boosting是一种集成方法，可以将几个弱的学习者组合成一个强的学习者在哪里是弱学习者和K是弱学习者的数量。

在树增强方面，它的学习器是决策树，既可以用于回归，也可以用于分类。

XGBOOST在一定程度上被认为是树式助推，其核心是牛顿助推而不是梯度助推，通过最小化损失函数找到最优参数，所示在哪里是复杂的kth树模型,n为样本量，T为决策树的叶节点数，ω为叶节点的权值，控制树结构复杂度惩罚的程度T,控制正规化的程度．

由于树集成模型在(14)和(15)与欧几里德空间中的传统方法相比，该模型采用相加的方式[43］.它增加了这改进了模型，形成了新的损失函数为在哪里这是对未来的预测我实例在tth迭代和学习能力较弱的学生是否处于最佳状态tth迭代。

然后，牛顿助推对损失函数进行泰勒二阶展开获得，因为二阶近似有助于方便快捷地最小化损失函数[43］.的方程，定义新的损失函数分别为

假设样本集在叶节点中j被定义为＝，问( ）表示从根节点到叶节点的树结构j在决策树中(19)可以转换为以下公式，如中所示

决策树中各叶节点权重的估计公式为

根据(21)，至于树形结构问，叶节点上的损失函数j可以更改为

因此，分支后的信息增益方程可以定义为在哪里和是拆分叶节点后的左叶节点和右叶节点的样本集吗j．

XGBOOST以信息增益最大化为准则对每个叶子节点进行分支，构造基本学习器。

在牛顿boosting的帮助下，XGBOOST可以通过自适应学习来处理缺失值。在一定程度上，XGBOOST基于多重加性回归树（MART）此外，XGBOOST还可以在列之间进行子采样，降低了每个弱学习者的相关性[39］.

3.提出的CEEMDAN-XGBOOST方法

从现有文献可以看出，CEEMDAN在时间序列分解方面有优势，而XGBOOST在回归方面做得很好。因此，本文将这两种方法结合起来，提出了一种新的原油价格预测方法，即CEEMDAN-XGBOOST。提出的CEEMDAN-XGBOOST包括三个阶段:分解、个体预测和集合。在第一阶段，CEEMDAN被用来分解原油价格的原始系列k+ 1组件,包括kIMFs和一个残差。在这些组分中，一些组分显示原始序列的高频特征，而另一些组分显示原始序列的低频特征。在第二阶段，使用XGBOOST建立每个组分的预测模型，然后将所建立的模型应用于预测每个组分，然后得到单独的结果。最后，所有结果都将在将来自组件的lts聚合为最终结果。虽然存在许多方法来聚合来自组件的预测结果，但在建议的方法中，我们使用最简单的方法，即加法，来汇总所有组件的结果。CEEMDAN-XGBOOST的流程图如图所示2．

从图2可以看出，基于“分解与集成”框架提出的CEEMDAN-XGBOOST也是一种典型的“分而治之”策略；也就是说，从原始序列预测原油价格的艰巨任务被划分为几个从更简单的组成部分进行预测的子任务。由于原始序列是极为非线性和非平稳的，而每个分解分量的预测形式相对简单，因此CEEMDAN-XGBOOST能够实现更高的原油价格预测精度。简言之，拟建CEEMDAN-XGBOOST的优点有三个：将具有挑战性的原油价格预测任务分解为几个相对简单的子任务;XGBOOST可以根据构件的特点，建立具有不同参数的模型来预测各构件;和一个简单的操作，添加，用于聚合来自子任务的结果作为最终结果。

4.实验和分析

4．1.数据描述

为了演示CEEMDAN-XGBOOST的性能，我们使用了来自西德克萨斯中质原油(WTI)的原油价格作为实验数据(数据可从https://www.eia.gov/dnav/pet/hist/RWTCD.htm下载)。我们使用了1986年1月2日至2018年3月19日期间的每日收盘价，共8123次观察结果进行实证研究。其中，1986年1月2日至2011年9月21日的前6498个观测值作为训练样本，占总观测值的80%，其余20%用于检验。原始原油价格如图所示3.．

本文进行了多步超前预测。对于给定的时间序列，m-step ahead的预测可表述为在哪里是当时的m步超前预测结果t，f是预测模型，是时间的真实值吗我,l为滞后顺序。

对于SVR和FNN，我们在建立模型之前对每个分解的组件进行规范化，以单独预测组件。具体来说，规范化过程可以定义为在哪里是原油价格系列的标准化系列，为归一化前的数据，的平均值，和的标准差是．同时，由于XGBOOST和ARIMA不需要归一化，对于使用这两种算法的模型，我们直接从每一个分解的分量建立预测模型。

4．2．评估标准

在评价模型的准确性时，我们不仅关注数值的准确性，还关注预测方向的准确性。因此，我们选择均方根误差(RMSE)和平均绝对误差(MAE)来评价模型的数值精度。此外，我们使用方向统计量(Dstat)作为评价预测方向准确性的标准。RMSE, MAE和Dstat被定义为在哪里当时的原油价格是多少t，是预测吗N是测试集的大小。

此外，我们采用Wilcoxon符号秩检验(WSRT)来证明所选模型的预测之间存在显著差异[44］.WSRT是一种非参数统计假设检验，可用于评估同一样本上不同模型的两个预测的总体平均排名是否存在差异。同时，它是一个成对差异检验，可以作为成对学生t检验的替代。WSRT的原假设是损失微分序列的中位数是否等于零，在哪里和模型的误差级数是多少一个和模型b， g(.)为损失函数。如果p当对模型的值低于0.05时，检验在95%的置信水平下拒绝原假设(这对模型的预测存在显著差异)。这样，我们就可以证明最优模型与其他模型之间存在显著的差异。

然而，上述定义的准则是全局的，如果存在一些奇点，由这些准则选择的最优模型可能不是最优模型。因此，我们建立了模型置信集（MCS）[31，45以令人信服地选择最优模型。

为了计算p-值时，MCS对预测序列执行bootstrap，可以减弱奇异点的影响。为j-th模型，假设启动样本的大小为T,t-th引导样本的损失函数定义为

假设有一个集合M₀＝包含n模型，适用于任意两个模型j和k，则这两个模型之间损失的相对值可定义为

根据以上定义，可以将该组优越模型定义为其中E(.)为平均值。

MCS以M为单位重复执行有效性测试₀.每次，消除集合中最差的预测模型。在测试中，该假设为等预测能力（EPA）的零假设，定义为

MCS主要依赖于等效性检验和消元准则。具体流程如下。

第一步。假设M = ，在重要程度上α，用等价检验来检验原假设．

步骤2。如果它接受了无效假设，然后定义，否则，根据消去准则，对M中拒绝零假设的模型进行剔除。直到集合中没有任何模型拒绝零假设，消除过程才会停止米．最后，将模型导入都被认为是幸存的模型。

同时，MCS有两种统计量可以定义为在哪里T_R和分别为区间统计量和半二次统计量，两种统计量均基于t统计量，如(35)-(36)1.这两项统计数字(T_R和）主要是去掉谁的模型p-value小于显著性级别α.当p-value大于显著性级别α，模型可以存活。模型越大p值越大，模型的预测越准确。当p-value = 1，表示该模型为最优预测模型。

4．3．参数设置

为了检验XGBOOST和CEEMDAN-XGBOOST的性能，我们进行了两组实验:使用原始序列预测原油价格的单一模型和基于“分解与集成”框架预测原油价格的集成模型。

对于单个模型，我们将XGBOOST与一个统计模型ARIMA以及两种广泛使用的ai模型SVR和FNN进行比较。由于现有研究表明，EEMD在预测原油价格方面明显优于EMD [24，31在实验中，我们只比较了CEEMDAN和EEMD。因此，我们将提出的CEEMDAN-XGBOOST与EEMD-SVR、EEMD-FNN、EEMD-XGBOOST、CEEMDAN-SVR和CEEMDAN-FNN进行比较。

对于ARIMA，我们使用Akaike信息标准（AIC）[46]选择参数(p-d-q)对于SVR，我们使用RBF作为核函数，并使用网格搜索进行优化C和γ在…的范围内和，分别。我们使用一个包含20个节点的隐藏层来进行FNN。我们使用网格搜索优化XGBOOST的参数;优化参数的搜索范围如表所示1．


参数	描述	范围

升压	辅助使用。	“gblinear”、“gbtree”
N_估计量	增强树的数量。	100,200,300,400,500
Max_depth	最大的树深度为基础学习者。	3,4,5,6,7,8
Min_child_weight	我们允许每棵树的权重估计的最大增量步长是。	1、2、3、4、5、6所示
伽马射线	在树的叶节点上进行进一步分区所需的最小损失减少。	0.01, 0.05,0.1,0.2,0.3
子样品	训练实例的子样本比。	0.6,0.7,0.8,0.9,1
Colsample	构建每棵树时列的子样本比率。	0.6,0.7,0.8,0.9,1
雷格阿尔法	权重上的L1正则项	0.01, 0.05, 0.1
Reg_lambda	权的L2正则化项	0.01, 0.05, 0.1
学习率	提高学习率	0.01,0.05,0.07,0.1,0.2

我们设0.02和0.05为添加白噪声的标准差，分别设250和500为EEMD和CEEMDAN的实现次数。EEMD和CEEMDAN对原始原油价格的分解结果如图所示4和5,分别。

从图中可以看出4在EEMD分解的分量中，前六个IMF表现出高频特性，而其余六个分量表现出低频特性。然而，关于CEEMDAN的组件，前七个显示明显的高频，后四个显示低频，如图所示5．

实验使用Python 2.7和MATLAB 8.6在64位Windows 7上进行，Windows 7的CPU为3.4 GHz，内存为32gb。具体来说，我们使用MATLAB运行FNN和MCS，而对于剩下的工作，我们使用Python。关于XGBoost，我们在实验中使用了一个广泛使用的Python包(https://xgboost.readthedocs.io/en/latest/python/)。

4.4。实验结果

在本小节中，我们使用固定值6作为滞后顺序，并使用1步预测、3步预测和6步预测预测原油价格；也就是说，这三个预测任务的范围分别为1、3和6。

4.4.1.单模型试验结果

对于单个模型，我们将XGBOOST与最先进的SVR、FNN和ARIMA进行比较，结果如表所示2．


地平线	模型	RMSE	梅	Dstat

1	XGBOOST	1.2640	0.9481	0.4827
	SVR	1.2899	0.9651	0.4826
	模糊神经网络	1.3439	0.9994	0.4837
	华宇电脑	1.2692	0.9520	0.4883

3.	XGBOOST	2.0963	1.6159	0.4839
	SVR	2.2444	1.7258	0.5080
	模糊神经网络	2.1503	1.6512	0.4837
	华宇电脑	2.1056	1.6177	0.4901

6	XGBOOST	2.9269	2.2945	0.5158
	SVR	3.1048	2.4308	0.5183
	模糊神经网络	3.0803	2.4008	0.5028
	华宇电脑	2.9320	2.2912	0.5151

从表中可以看出2XGBOOST在水平1和3的RMSE和MAE方面优于其他模型。对于horizon 6, XGBOOST的RMSE最好，MAE次之，略逊于ARIMA。对于视界1,FNN在四个模型中效果最差;然而，对于视界3和视界6,SVR的结果最差。在Dstat方面，没有一个模型总能优于其他模型，而使用horizon 6的SVR得到最佳的Dstat结果。可以发现，随着层位的增加，RMSE和MAE的值逐渐增大。然而，Dstat值并没有显示出这种规律。Dstat的所有值都在0.5左右，即0.4826 - 0.5183之间，这与随机猜测的结果非常相似，说明直接用原油价格来准确预测原油价格的走势是非常困难的。

为了进一步验证XGBOOST相对于其他模型的优势，我们通过WSRT和MCS报告结果，如表所示3.和4,分别。至于WSRTp除ARIMA外，XGBOOST与其他模型的-值均小于0.05，说明XGBOOST、SVR、FNN对人口平均秩的预测结果存在显著差异。此外，MCS的结果表明p价值的和，证明了在MCS中，从bootstrap方法得到的不同样本的全局误差和大部分局部误差来看，XGBOOST是所有模型中最优的模型。根据MCS，和的SVR值大于0.2，因此SVR成为该值下的存活模型和第二佳模型。在ARIMA方面，从全局误差的评估标准来看，ARIMA几乎与XGBOOST一样出色，但没有通过MCS。这表明，在大多数不同样本的局部误差方面，ARIMA模型并没有比其他模型表现得更好。


	XGBOOST	SVR	模糊神经网络	华宇电脑

XGBOOST	1	4.0378 e-06	2.2539 e-35	5.7146 e-01
SVR	4.0378 e-06	1	4.6786 e-33	0.7006
模糊神经网络	2.2539 e-35	4.6786 e-33	1	6.9095 e-02
华宇电脑	5.7146 e-01	0.7006	6.9095 e-02	1


	地平线=1		地平线=3		地平线=6


XGBOOST	1.0000	1.0000	1.0000	1.0000	1.0000	1.0000
SVR	0.0004	0.0004	0.4132	0.4132	0.0200	0.0200
模糊神经网络	0.0002	0.0002	0.0248	0.0538	0.0016	0.0022
华宇电脑	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000

10/24/11。集合模型的实验结果

采用EEMD或CEEMDAN, XGBOOST、SVR和FNN对视界1、3、6的原油价格预测结果如表所示5．


地平线	模型	RMSE	梅	Dstat

1	CEEMDAN-XGBOOST	0.4151	0.3023	0.8783
	EEMD-XGBOOST	0.9941	0.7685	0.7109
	CEEMDAN-SVR	0.8477	0.7594	0.9054
	EEMD-SVR	1.1796	0.9879	0.8727
	CEEMDAN-FNN	1.2574	1.0118	0.7597
	EEMD-FNN	2.6835	1.9932	0.7361

3.	CEEMDAN-XGBOOST	0.8373	0.6187	0.6914
	EEMD-XGBOOST	1.4007	1.0876	0.6320
	CEEMDAN-SVR	1.2399	1.0156	0.7092
	EEMD-SVR	1.2366	1.0275	0.7092
	CEEMDAN-FNN	1.2520	0.9662	0.7061
	EEMD-FNN	1.2046	0.8637	0.6959

6	CEEMDAN-XGBOOST	1.2882	0.9831	0.6196
	EEMD-XGBOOST	1.7719	1.3765	0.6165
	CEEMDAN-SVR	1.3453	1.0296	0.6683
	EEMD-SVR	1.3730	1.1170	0.6485
	CEEMDAN-FNN	1.8024	1.3647	0.6422
	EEMD-FNN	2.7786	2.0495	0.6337

从表中可以看出5CEEMDAN-XGBOOST的RMSE和MAE值在所有方法中都是最低的。以地平线1为例，RMSE和MAE的值分别为0.4151和0.3023，远小于RMSE和MAE的第二值0.8477和0.7594。随着视界的增加，每个模型的RMSE和MAE值都相应增加。但CEEMDAN-XGBOOST在各层均达到最低的RMSE和MAE。对于Dstat的值，所有的值都远远大于随机猜测的值，说明“分解和集合”框架对定向预测是有效的。具体来说，Dstat的值在0.6165到0.9054之间。各层的最佳Dstat值分别用CEEMDAN-SVR或EEMD-SVR进行预测，表明SVR在定向预测中是最好的，但RMSE和MAE的对应值不是最好的。在分解方法上，当预测器固定时，CEEMDAN的RMSE、MAE和Dstat在9个情况中分别有8个、8个和8个优于EEMD，表明CEEMDAN优于EEMD。在预报员方面，当结合CEEMDAN时，XGBOOST在RMSE和MAE方面总是优于其他预报员。而当与EEMD相结合时，在RMSE和MAE方面，XGBOOST优于SVR和horizon 1的FNN，也优于horizon 6的FNN。 With horizons 1 and 6, FNN achieves the worst results of RMSE and MAE. The results also show that good values of RMSE usually are associated with good values of MAE. However, good values of RMSE or MAE do not always mean good Dstat directly.

对于集成模型，我们还进行了基于对模型误差的Wilcoxon符号秩检验和MCS检验。我们设MCS的显著性水平为0.2,WSRT的显著性水平为0.05。结果如表所示6和7．


	CEEMDAN-XGBOOST	EEMD-XGBOOST	CEEMDAN-SVR	EEMD-SVR	CEEMDAN-FNN	EEMD-FNN

CEEMDAN-XGBOOST	1	3.5544 e-05	1.8847 e-50	0.0028	1.6039 e - 187	0.0726
EEMD-XGBOOST	3.5544 e-05	1	4.5857 e-07	0.3604	8.2912e-82	0.0556
CEEMDAN-SVR	1.8847 e-50	4.5857 e-07	1	4.9296 e-09	5.7753 e - 155	8.6135 e-09
EEMD-SVR	0.0028	0.3604	4.9296 e-09	1	2.5385 e - 129	0.0007
CEEMDAN-FNN	1.6039 e - 187	8.2912e-82	5.7753 e - 155	2.5385 e - 129	1	8.1427 e - 196
EEMD-FNN	0.0726	0.0556	8.6135 e-09	0.0007	8.1427 e - 196	1


	地平线=1		地平线=3		地平线=6


CEEMDAN-XGBOOST	1	1	1	1	1	1
EEMD-XGBOOST	0	0	0	0	0	0.0030
CEEMDAN-SVR	0	0.0002	0.0124	0.0162	0.8268	0.8092
EEMD-SVR	0	0	0.0008	0.004	0.7872	0.7926
CEEMDAN-FNN	0	0	0.0338	0.0532	0.2924	0.3866
EEMD-FNN	0	0.0002	0.4040	0.4040	0.8268	0.8092

从这两个表可以看出，对于WSRT的结果，pCEEMDAN-XGBOOST与EEMD-FNN以外的所有模型的-值均小于0.05，说明CEEMDAN-XGBOOST与EEMD-FNN以外的所有模型的总体平均秩有显著性差异。此外，MCS还表明p价值的和， CEEMDAN-XGBOOST始终等于1.000，说明CEEMDAN-XGBOOST是所有模型中全局误差和局部误差最优的模型。与此同时,p -的值和EEMD-FNN的性能优于除CEEMDAN-XGBOOST以外的其他模型，并成为MCS中地平线3和地平线6的第二好模型。同时，对于地平线6，CEEMDAN-SVR也是第二好模型。此外p -的值和EEMD-SVR和CEEMDAN-SVR的平均值高达0.2，成为MCS中地平线6的幸存模型。

从单模型和集合模型的结果可以得出以下结论:由于原油价格的非线性和非平稳性，单一的模型往往不能得到满意的结果。作为一个单一的预测器，XGBOOST可以取得比一些最先进的算法稍好一些的结果;集成模型遵循“分解与集成”的框架，在多个评价指标上都能显著提高预测精度;作为一种分解方法，CEEMDAN在大多数情况下优于EEMD;大量实验表明，CEEMDAN-XGBOOST模型在原油价格预测方面具有良好的应用前景。

4.5。讨论

在本节中，我们将研究与提出的CEEMDAN-XGBOOST相关的几个参数的影响。

4.5.1。CEEMDAN中实现数量的影响

在(2)，结果表明，存在N实现在CEEMDAN。我们探讨了CEEMDAN实现的数量如何影响CEEMDAN- xgboost的原油价格预测结果与地平线1和滞后6。我们将CEEMDAN中的实现数设置为10、25、50、75100250500750、1000 ．结果如图所示6．

从图中可以看出6也就是说，对于RMSE和MAE，实现的数量越大，CEEMDAN-XGBOOST能够获得的结果越准确。当实现的数量小于或等于500时，RMSE和MAE的值都会随着实现的数量的增加而减少。但是，当实现的数量大于500时，这两个值会增加略为下降。关于Dstat，当数字从10增加到25时，Dstat的值迅速增加，然后随着数字从25增加到500而缓慢增加。之后，Dstat略有下降。结果表明，随着实现次数的增加，Dstat的值达到最高值。因此，500是最佳值关于RMSE、MAE和Dstat的实现数量。

4.5.2。滞后订单的影响

在本节中，我们探讨滞后阶数在1的水平下如何影响CEEMDAN-XGBOOST的预测精度。在本实验中，我们将滞后阶数设置为1 ~ 10，结果如图所示7．

根据实证结果如图所示7，可以看出，随着滞后阶数从1增加到2,RMSE和MAE的值急剧下降，而Dstat的值急剧增加。之后，随着滞后阶数的增加，MAE的RMSE几乎保持不变(或略有增加)。但是，对于Dstat，该值从1急剧增加到2，然后从2减少到3。在滞后顺序从3增加到5之后，Dstat几乎保持不变。总的来说，当滞后阶数的值达到5时，在RMSE、MAE和Dstat的值之间达到了一个很好的权衡。

4.5.3。CEEMDAN中噪声强度的影响

CEEMDAN中的噪声强度也会影响CEEMDAN- xgboost的性能，CEEMDAN中的噪声强度表示CEEMDAN中白噪声的标准差。因此，我们将噪声强度设为0.03, 0.04, 0.05, 0.06, 0.07探讨CEEMDAN中的噪声强度在固定视界1和固定滞后6下对CEEMDAN- xgboost预测精度的影响。

如图所示8，当CEEMDAN中的噪声强度等于0.05时，RMSE、MAE和Dstat值同时达到最佳效果。当噪声强度除0.03外小于或等于0.05时，RMSE、MAE和Dstat值随着噪声强度的增加而越来越好。但当强度大于0.05时，RMSE、MAE和Dstat值越来越差。由图可知，噪声强度对预测结果的影响很大，其理想范围约为0.04-0.06。

5.结论

本文提出了一种新的原油价格预测模型，即CEEMDAN-XGBOOST。首先，CEEMDAN- xgboost将原油价格序列分解为几个imf和一个CEEMDAN残余物。然后分别用XGBOOST对imf和残差进行预测。最后，CEEMDAN-XGBOOST将IMFs的预测结果与残差相加作为最终的预测结果。实验结果表明，本文提出的CEEMDAN-XGBOOST在RMSE和MAE方面明显优于其他方法。虽然CEEMDAN-XGBOOST模型对原油价格走势的预测效果不是最好的，但MCS结果表明CEEMDAN-XGBOOST模型仍然是最优模型。同时证明了CEEMDAN的实现次数、滞后和噪声强度是影响CEEMDAN- xgboost性能的重要因素。

未来，我们将研究CEEMDAN-XGBOOST在不同时期原油价格预测中的表现。我们还将应用所提出的方法预测其他能源时间序列，如风速、电力负荷和碳排放价格。

数据可用性

用于支持这项研究结果的数据包括在文章中。

利益冲突

作者声明他们没有利益冲突。

致谢

基金资助:中央高校基本科研业务费专项资金(批准号:20071010901);JBK1902029,不。JBK1802073,没有。国家自然科学基金资助项目(批准号:JBK170505);四川省教育厅科研基金资助项目(批准号:71473201);17 zb0433)。

参考文献

王涛，“原油价格预测的影响因素分析”，《石油学报》，2018年第4期，第1 - 7页。能源经济，第68卷，第77-88页，2017。浏览：出版商的网站|谷歌学者
Yu L.， S. Wang, K. K. Lai，“基于emd的神经网络集成学习模型预测原油价格，”能源经济，第30卷，第2期5, pp. 2623-2635, 2008。浏览：出版商的网站|谷歌学者
M. Ye, J. Zyren, C. J. Blumberg, J. Shore，“具有棘轮效应的短期原油价格预测模型”，大西洋经济杂志，第37卷，第2期1, pp. 37-50, 2009。浏览：出版商的网站|谷歌学者
C. Morana，“短期油价预测的半参数方法”，能源经济，第23卷，第3期，第325-3382001页。浏览：出版商的网站|谷歌学者
H. Naser，“估计和预测原油的实际价格:使用动态模型平均(DMA)方法的数据丰富模型”能源经济，第56卷，第75-87页，2016。浏览：出版商的网站|谷歌学者
“利用HAR框架预测原油价格的好坏不确定性，”龚x，林斌，“基于HAR框架的原油价格好坏不确定性预测，”能源经济， vol. 67, pp. 315-327, 2017。浏览：出版商的网站|谷歌学者
F.Wen，X.Gong和S.Cai，“使用具有结构突变的HAR型模型预测原油期货的波动性，”能源经济，第59卷，pp. 400-413, 2016。浏览：出版商的网站|谷歌学者
H.Chiroma，S.Abdul Kareem，A.Shukri Mohd Noor等人，“原油价格预测的人工智能方法综述，”智能自动化和软计算，第22卷，第3期，第449-462页，2016年。浏览：出版商的网站|谷歌学者
王淑琴，“原油价格预测的新型混合人工智能系统框架”，石油学报数据挖掘与知识管理徐伟;陈振宇。，第3327卷计算机科学课堂讲稿，页233-242，施普林格，柏林，德国，2004。浏览：出版商的网站|谷歌学者
J.Baruník和B.Malinská，“用神经网络预测原油期货价格的期限结构，”应用能源， 2016, vol. 164, pp. 366-379。浏览：出版商的网站|谷歌学者
陈勇，何坤，曹桂芳，“基于深度学习的原油价格预测模型，”Procedia计算机科学， vol. 122, pp. 300-307, 2017。浏览：谷歌学者
R.Tehrani和F.Khodayar，“使用遗传算法预测原油的混合优化人工智能模型，”非洲企业管理杂志，第5卷，第5期。34, pp. 13130-13135, 2011。浏览：出版商的网站|谷歌学者
Yu L.， Zhao Y.， Tang L.，“基于压缩感知的原油价格预测的人工智能学习范式，”能源经济，第46卷，C期，第236-245页，2014年。浏览：出版商的网站|谷歌学者
L.Yu，H.Xu和L.Tang，“原油价格预测中具有不确定参数的LSSVR集成学习，”应用软计算， vol. 56, pp. 692-701, 2017。浏览：出版商的网站|谷歌学者
Qi和W-J.Zhang，“预测国际原油价格波动的改进SVM方法”，年2009年电子商务及商业智能国际会议(ECBI '09)论文集，第269-271页，IEEE，中国，2009年6月。浏览：谷歌学者
M. S. AL-Musaylh, R. C. Deo, Y. Li, and J. F. Adamowski，“结合改进经验模式分解和自适应噪声的两相粒子群优化支持向量回归混合模型的多水平电力需求预测，”应用能源，第217卷，第422-439页，2018。浏览：出版商的网站|谷歌学者
黄磊，“基于小波分解和随机递归小波神经网络的能量波动模型预测”，Neurocomputing，第309卷，第70-82页，2018。浏览：出版商的网站|谷歌学者
孙敏，邓伟，“基于EEMD和多尺度模糊熵的电机轴承特征提取方法”，熵第19卷第2期1、2017年第14条浏览：出版商的网站|谷歌学者
邓文华，张树森，赵海华，杨晓阳，“一种基于经验小波变换和模糊熵相结合的电机轴承故障诊断新方法，”IEEE访问，第6卷，第35042-35056页，2018。浏览：出版商的网站|谷歌学者
付青，王勇，“基于EEMD和优化Elman_AdaBoost算法的滚动轴承故障特征选择与诊断”，中国机械工程，2018,27(11):1279 - 1284。IEEE传感器杂志，第18卷，第12期，第5024-50342018页。浏览：出版商的网站|谷歌学者
李涛，周明，“基于小波包熵和随机森林的心电图分类”，熵第18卷第2期第8页，第285页，2016。浏览：谷歌学者
基于经验模态分解的心电信号去噪与基线漂移校正方法研究生物与医学计算机第38卷第2期1，页1 - 13,2008。浏览：出版商的网站|谷歌学者
J.Lee，D.D.McManus，S.Merchant和K.H.Chon，“使用经验模式分解和统计方法在holter ECG数据中自动检测运动和噪声伪影，”生物医学工程学报，第59卷，第59期6, pp. 1499-1506, 2012。浏览：出版商的网站|谷歌学者
“基于支持向量机的原油价格预测方法研究”，中国石油大学学报(自然科学版)，技术预测与社会变革，第112卷，第245-253页，2016。浏览：出版商的网站|谷歌学者
E. Jianwei, Bao y, Ye J.，“基于变分模态分解和独立分量分析的原油价格分析与预测”，Physica A：统计力学及其应用，第484卷，第412-427页，2017年。浏览：出版商的网站|谷歌学者
黄乃东，“基于经验模态分解和Hilbert谱的非线性非平稳时间序列分析”，伦敦皇家学会学报。系列A:数学、物理和工程科学，第454卷，第903-995页，1998。浏览：出版商的网站|谷歌学者|MathSciNet
吴振武，黄乃恩，“基于噪声辅助的数据分析方法——集合经验模态分解”，自适应数据分析的进展， vol. 1, no. 11, pp. 1 - 41, 2009。浏览：出版商的网站|谷歌学者
“基于网格- ga的LSSVR学习模型在原油价格预测中的应用，”神经计算及其应用第27卷第2期8, pp. 2193-2215, 2016。浏览：出版商的网站|谷歌学者
唐磊，“基于ceemd的原油价格预测的elm集成学习模型，”国际信息技术与决策杂志第14卷第2期1，页141-169,2015。浏览：出版商的网站|谷歌学者
李涛，周敏，郭超等，“基于自适应pso核的EEMD和RVM预测原油价格，”能量，第9卷，第5期。12, p. 1014, 2016。浏览：谷歌学者
李国忠，胡志强，贾彦宏，吴志强，周彦宏，“利用集成经验模式分解和稀疏贝叶斯学习预测原油价格，”能量，第11卷，第5期。7日,2018年。浏览：出版商的网站|谷歌学者
M. E. Torres, M. A. Colominas, G. Schlotthauer，和P. Flandrin，“具有自适应噪声的完整集成经验模态分解”，刊于第36届IEEE声学、语音和信号处理国际会议论文集，第4144-4147页，IEEE，捷克共和国布拉格，2011年5月。浏览：出版商的网站|谷歌学者
M.A.Colominas、G.Schlotthauer和M.E.Torres，“改进的完整集成EMD：生物医学信号处理的合适工具，”生物医学信号处理与控制，第14卷，第1期，第19-29页，2014年。浏览：出版商的网站|谷歌学者
“基于AdaBoost-extreme学习机和两阶段分解技术的多步预估风速模型，”，彭涛，周建军，张超，郑宇宇，“基于AdaBoost-extreme学习机的多步预估风速模型，”能源转换与管理， vol. 153, pp. 589-602, 2017。浏览：出版商的网站|谷歌学者
“基于自适应噪声的全集成经验模态分解与支持向量机优化算法的日负荷预测，”能量，第11卷，第1期，2018年。浏览：谷歌学者
吕颖，王涛，李辉，宋刚，“基于CEEMDAN和改进MMSE的滚动轴承健康退化监测与早期故障诊断”，“基于CEEMDAN和改进MMSE的滚动轴承健康退化监测与早期故障诊断”，材料，第11卷，第6号，p。1009, 2018.浏览：出版商的网站|谷歌学者
R.Abdelkader、A.Kaddour、A.Bendiabdellah和Z.Derouiche，“基于改进的去噪方法的滚动轴承故障诊断，使用完整集成经验模式分解和优化阈值操作，”IEEE传感器杂志第18卷第2期17, pp. 7166-7172, 2018。浏览：出版商的网站|谷歌学者
雷勇，刘志强，刘志强，“一种基于CEEMDAN的滚动轴承故障诊断方法”，机械工程师学会学报，C部分:机械工程科学学报号，第231卷。10, pp. 1804-1815, 2017。浏览：出版商的网站|谷歌学者
T.Chen和C.Guestrin，“XGBoost：一个可伸缩的树推进系统”，年第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集，KDD 2016，第785-794页，ACM，纽约，纽约，美国，2016年8月。浏览：出版商的网站|谷歌学者
B. Zhai和J. Chen，“一种用于预测和分析北京PM2.5日平均浓度的堆叠集合模型的发展，中国，北京，”全环境科学， 2018, vol. 635, pp. 644-658。浏览：出版商的网站|谷歌学者
S. P. Chatzis, V. Siakoulis, A. Petropoulos, E. Stavroulakis, N. Vlachogiannakis，“使用深度和统计机器学习技术预测股市危机事件”，专家系统与应用，第112卷，第353-371页，2018。浏览：出版商的网站|谷歌学者
柯建杰，郑华，杨华，陈旭东，“基于时空深度学习的乘客需求预测方法研究”，交通研究C部分:新兴技术，第85卷，第591-608页，2017年。浏览：出版商的网站|谷歌学者
J.Friedman，T.Hastine和R.Tibshirani，“特邀论文。加性逻辑回归：促进的统计观点：反驳，”统计年鉴第28卷第2期2，页400-407,2000。浏览：谷歌学者|MathSciNet
J. D. Gibbons和S. Chakraborti，“非参数统计推断”，刊于国际统计科学百科全书， M. Lovric, Ed.， pp. 977-979，施普林格，柏林，德国，2011。浏览：谷歌学者
P.R.Hansen，A.Lunde和J.M.Nason，“模型置信集，”费雪，第79卷，第5期。2, pp. 453-497, 2011。浏览：出版商的网站|谷歌学者|MathSciNet
Liu H.Liu、Tian H.Q.和Li Y.F.Li，“用于风速预测的两种新ARIMA-ANN和ARIMA-Kalman混合方法的比较，”应用能源第98卷第1期1, pp. 415-424, 2012。浏览：出版商的网站|谷歌学者

复杂性

预测和预测模型的复杂性

摘要