一种新的时间序列预测方法基于杂交的最小二乘支持向量回归和群体智慧

文摘

本研究旨在建立一种新型混合人工智能(AI)的方法,称为firefly-tuned最小二乘支持向量回归时间序列预测。该模型利用最小二乘支持向量回归(LS-SVR)监督学习技术推广之间的映射函数时间序列数据的输入和输出。为了优化LS-SVR的调优参数包含了萤火虫算法(FA)的搜索引擎。因此,新建筑模型可以从历史数据学习和自主开展预测没有任何先验知识的参数设置。实验结果和比较证明了取得了显著改善在预测的准确性预测人工和实际时间序列数据。因此,该混合方法是一种很有前途的替代方案协助决策者更好地应付时间序列预测。

1。介绍

一般来说,时间序列预测涉及的数据预测未来的值基于历史数据系列的发现模式,推断未来的模式。时间序列预测是一个广泛讨论的问题和它的应用程序出现在各领域的业务和工程(1]。预测未来事件的原因是各种各样的规划和决策过程的关键。对于时间序列数据的应用程序可以很容易地发现在文献中,如风能预测(2],水资源管理[3),交通事故预测(4),和现金流预测建设项目(5]。因此,毫不奇怪,时间序列分析和预测是在增加研究人员之一。

值得注意的是,构建预测模型对时间序列预测是一项非常具有挑战性的任务。因为现实世界的时间序列数据往往表现为非线性,非平稳的,不规则(6]。随机噪声和不明因素的影响是降低预测精度的主要原因。此外,在大多数情况下,底层模型,生成系列是未知的和发现的过程模型常常因为时间数据的随机性质(7]。特别是,对于每一个时间序列,确定一个合适的嵌入维数也是主要问题(8,9]。因此,这些挑战需要先进的开发方法。

近年来,已经有越来越多的努力致力于建立基于人工智能模型预测现实世界的时间数据。各种人工智能方法,如人工神经网络(ANN),基于自适应网络模糊推理系统(简称ANFIS)、支持向量机(SVM)和最小二乘支持向量机(SVM)方法已经被应用于处理时间序列预测在不同的领域(2,4,10]。这些先前的工作已经表明这些技术的应用,为解决时间序列问题的挑战,不仅是可行的而且也很有效。

在人工智能方法中,最小二乘支持向量回归(LS-SVR)是一种先进的机器学习技术求解回归分析(11]。这种方法已经被证明具有许多高级功能(12,13]。LS-SVR的训练过程,提出了一种最小二乘成本函数获取一组线性方程的对偶空间。因此,得出解决方案,它需要解决一组线性方程,而不是二次规划的标准支持向量机。此外,这种线性系统可以有效地解决诸如共轭梯度迭代方法。

研究进行了展示优秀的泛化,预测精度,和快速计算的LS-SVR [13- - - - - -15]。由于时间序列预测可以制定作为回归分析的问题,很可能应用LS-SVR解决手头的问题。然而,LS-SVR的实现需要一个适当的调优参数的设置,即正则化参数和核函数参数。不规范的调优参数可以显著降低机器学习技术的性能。

在人工智能领域,任务参数设置是著名的模型选择过程(16]。这个问题至关重要,越来越吸引了许多学者的注意,在各种各样的学科2,14,17]。在实践中,确定最合适的设置模型的参数往往需要问题域的先验知识或繁琐的试错过程。为了克服这个问题,杂交的机器学习技术群优化算法是一种可行的解决手边的问题(16,18]。

群体智能是一个设计框架基于社会性昆虫行为(19]。社会性昆虫如蚂蚁、蜜蜂、萤火虫和黄蜂是独一无二的在这些简单的个人配合完成复杂,困难的任务。这个合作是分布在整个人口,没有任何集中控制。每个人简单地遵循一个小套规则受到本地可用的信息。这种新兴的行为导致了伟大的成就,没有一个单一的成员可以自己完成(20.]。萤火虫算法(FA)是一个最近的群体智能方法是基于热带萤火虫的闪光模式和行为(21]。根据以前的作品,该算法是非常有效的,可以比传统的算法在解决许多优化问题(22,23]。

因此,本研究的目的是保险丝LS-SVR和FA技术来建立一个新的时间序列混合人工智能预测模型。我们的研究目标是建立一个模型,具有提供准确的能力以及自主操作而无需人工干预。第二部分综述了方法需要实现研究目标。在第三部分中,提出FLSVR的框架_茶匙详细描述。第四部分展示了实验结果。结论我们的研究是在最后一节中提到。

2。文献综述

2.1。时间序列预测

时间序列预测是一个重要课题,过去对一个感兴趣的变量的观察记录和分析建立预测模型(24]。开发的模型构建,期望可以描述底层关系模式在过去和未来值的变量(参见图1)。在当前时间,鉴于时间序列的观测记录,任务是预测未来值。在此,代表了嵌入维度;表示预测地平线。如果是,问题被称为single-step-ahead预测。与此同时,问题涉及更大的价值通常称为multiple-step-ahead预测(25]。

一般来说,在时间序列预测中,历史时间序列转化为高维空间促进隐性模式的探索躺在系列。这个转换的过程,广泛被称为国家重建(8,9),依赖于嵌入维度。方程(1)说明了国家重建进程领先一步的原始时间序列的预测(与元素)转化为一个输入矩阵的大小——- - - - - -和一个输出矩阵的大小1:

在时间序列分析、参数是至关重要的,因为它影响的预测性能。对于每个时间序列数据,嵌入维数可以计算使用“虚假最近邻”(模糊神经网络)方法建立了养犬et al。26]。然而,从机器学习的角度来看,这个参数可以扮演角色的调优参数预测模型及其最优值可以搜索优化技术(27]。

2.2。最小二乘支持向量回归(LS-SVR)

论文的这一节描述了LS-SVR的数学公式。考虑以下模型感兴趣的,推断一个响应变量之间的映射和一个或多个自变量(11,13,28]: 在哪里,,映射到高维特征空间。

LS-SVR回归分析,给定一个训练数据集优化问题规定如下: 在哪里是误差变量;代表一个正规化常数。

在(3),它是发现目标函数由一个平方拟合误差和正则化项的和。这种成本函数类似于标准程序在训练前馈神经网络和岭回归有关。然而,当变得无限的,一个人不能解决这个原始问题。因此,有必要建立拉格朗日和推导出相应的对偶问题。

拉格朗日给出如下: 在哪里拉格朗日乘数法。给出了最优性条件:

消除后和,(5)可以表示为以下线性系统: 在哪里,,。

应用和内核函数如下:

结果LS-SVR模型函数估计表示为: 在哪里和是解决线性系统(6)。内核函数,通常是利用径向基函数(RBF)的内核。RBF核函数的描述如下: 在哪里是核函数参数。

当使用RBF内核时,有两个调优参数需要在LS-SVR待定。正则化参数控制罚款偏离回归函数的数据点。与此同时,内核参数回归函数的平滑度的影响。值得注意的是,需要正确设置这些调优参数达到理想的预测模型的性能。

2.3。萤火虫算法(FA)

足协是一个随机、自然和metaheuristic算法可以找到全球最适条件和当地的最适条件同时有效(21]。闪光的萤火虫是一种神奇的景象在热带和温带地区在夏天的天空。闪光的模式通常是独特的一个特定的物种。从本质上讲,每一个萤火虫是光明的,因为它随机探索吸引而寻找猎物。

英足总算法使用以下三个理想化的规则:(1)所有的萤火虫是不分男女的,所以每个萤火虫吸引其他萤火虫无论什么性别,(2)的吸引力萤火虫正比于它的亮度和降低随着距离的增加。萤火虫随机移动,如果没有其他萤火虫是光明的,和(3)的亮度萤火虫受到影响或由景观的目标函数22,29日]。英足总算法伪代码中所示1。

足总开始
定义目标函数,在那里
生成一个初始种群的萤火虫
制定光强度
定义了吸收系数
而(< Max_Generation)
为 =来(所有萤火虫)
为 = 1,(所有萤火虫)
如果(),把萤火虫对萤火虫
结束如果
评估新的解决方案和更新光强度;
结束了
结束了
萤火虫,找到当前最好的排名
结束时;
结束足总

一个萤火虫的亮度可以定义类似于遗传算法的健身价值(30.]。光强度根据不同平方反比定律如下: 在哪里=源的光强度。对于一个给定的媒介与一个固定的光吸收系数,光线强度随距离。因此,光强度可以按以下方式计算:

合并后的效果的平方反比定律和吸收可以近似为高斯函数形式如下:

的吸引力萤火虫光强度成正比被相邻的萤火虫,吸引力萤火虫的定义为:

任何两个萤火虫之间的距离和在和分别是笛卡尔距离如下:

的运动th萤火虫当吸引另一个更有吸引力(亮)th萤火虫如下: 在哪里和代表苍蝇的位置在和一代又一代。表示苍蝇的位置在和一代又一代吸收系数,通常从0.1变化到10在大多数应用程序;=的吸引力;平衡常数来确定运动的随机行为;兰德代表一个随机数从高斯分布。在本质上,(15)描述的机制更新一个萤火虫在当前的人口。向另一个萤火虫是萤火虫的运动依赖于吸引力和一个数量在动物行为反映了随机性。

3所示。拟议中的Firefly-Tuned最小二乘支持向量回归时间序列预测(FLSVR_茶匙)

这部分投入在描述该预测模型,命名为FLSVR_茶匙在细节。模型的建立(见图2)是通过LS-SVR和FA的融合算法。的FLSVR_茶匙雇佣LS-SVR为监督学习算法挖掘隐含的模式系列。此外,英足总,进化的优化算法,利用自动确定调优参数的最佳值。预测模型的建设依赖于一组调优参数。嵌入维度需要在国家重建进程。正则化参数和核函数参数FLSVR所需的吗_茶匙。

(1)输入数据。的FLSVR_茶匙单变量时间序列作为输入。记录的数据可以以固定的时间间隔,例如,每日、每月、季度,等等。整个数据集分为训练集,验证集和测试集。在我们的研究中,验证设置为训练集的比例是1/5。

(2)调优参数初始化。上述模型的调优参数的范围内随机生成的上下边界(见表1)以下列方式: 在哪里是调优参数在第一代。代表一个均匀分布的随机数在0和1之间。和两个向量的下界和上界为任何参数。


调优参数	符号	下界	上界

嵌入维数		1	20.
正则化参数		0.001	10000年
核函数参数		0.001	1000年

(3)国家重建。随着嵌入维数被指定,时间序列转化为输入矩阵和所需的输出向量(见(1))。改造后,数据是用于LS-SVR的训练过程。

(4)LS-SVR培训。在这一步中,LS-SVR部署学习之间的映射函数输入()和输出(前一步)派生。训练过程需要两个参数和从英足总搜索获得。正则化参数()控制罚款数据点偏离回归函数。与此同时,内核参数()影响回归函数的光滑性。值得注意的是,正确设置这些调优参数是必需的,以确保理想的预测模型的性能。

(5)FA搜索。英足总自动探索了各种组合的调优参数(和)。在每一代,优化器进行突变,交叉和选择过程,引导人口最优解决方案。通过评估每个人的健康,该算法丢弃劣质的组合和,并允许强大的组合这些参数通过第二代。

(6)健康评估。在FLSVR_茶匙,以确定最佳的调优参数集,如下目标函数中使用适应度函数评价的步骤:

在(17),和分别表示的训练误差和验证错误。培训和验证错误所根均方误差(RMSE)计算如下: 在哪里和表示预测和实际值输出th。此外,是数据点的数量。

适应度函数,本质上,代表之间的权衡模型的泛化和模型的复杂性。值得注意的是,合身的训练集可能反映了模型的复杂度。然而,复杂的模型往往遭受过度学习31日]。因此,将验证数据的误差可以帮助识别模型的特性最小化训练误差和泛化属性的平衡。

(7)停止条件。英足总优化进程终止时产生的最大数量。如果没有满足停止条件,英足总继续搜索进展。

(8)最优预测模型。当程序终止时,调优参数的最佳设置已成功确认。的FLSVR_茶匙准备执行预测任务。

4所示。实验结果

在本节中,新开发的FLSVR_茶匙应用于预测三个时间序列:Mackey-Glass系列,每日在Palo佛得角排水沟排水(http://waterdata.usgs.gov/),每月美元/台币汇率(http://fx.sauder.ubc.ca/data.html)。(定义的Mackey-Glass混沌时间序列19)[10]。在此,参数将17。数据在我们的研究中,500例中400例生成用于训练和验证过程。其余的数据用于测试模型如下:

每日水流数据集包括273年数据情况下的日常排水(立方英尺/秒)Palo佛得角排水口排水,从1/1/2011 9/30/2011(见图3)。数据情况下用于测试的数量是30。每月美元/台币汇率包括260条记录从1/1990到8/2011(见图4)。在实验中,36例是用于测试过程数据。这两个时间序列,领先一步预测。

此外,反向传播神经网络(摘要),基于自适应网络模糊推理aystem(简称ANFIS) [32),进化支持向量机推理模型(ESIM) [33)用于结果比较。摘要利用,需要指定隐藏层和隐藏的神经元的数目。简称ANFIS,隶属函数的类型和数量的隶属度函数为每个需要构建预测模型的输入。这些参数的确定往往是由重复的试错调优过程。在这项研究中,对于每个时间序列,我们选择收益率的模型配置验证数据的最小预测误差。

注意到嵌入维度(摘要),简称ANFIS和ESIM模型计算了模糊神经网络的方法(26]。使用这种方法,嵌入维度Mackey-Glass系列,水流系列,和美元/台币汇率系列3,3和4分别。与此同时,在FLSVR_茶匙,英足总自动确定最优嵌入维数。最优FLSVR的调优参数_茶匙这三个时间序列如表所示2。


参数	符号	Mackey-Glass	水流	汇率

嵌入维数		4	3	4
正则化参数		11.6	632.53	509.1
核函数参数		0.71	5.47	1.29

性能比较,均方根误差(RMSE)和平均绝对误差(MAE)培训和测试数据集计算。预测结果的摘要,简称ANFIS ESIM方法,提出FLSVR_茶匙提供在表3。可见,FLSVR_茶匙取得了显著提高预测精度。预测错误的测试数据集产生的新开发的模型比通过其他人工智能方法。这意味着FLSVR_茶匙具有更好的泛化属性和它已经成功减少过拟合问题。


时间序列	结果比较		摘要利用	简称ANFIS	ESIM	FLSVR_茶匙

Mackey-Glass	培训	RMSE	0.029	0.013	0.073	0.005
	培训	美	0.024	0.008	0.059	0.003
	测试	RMSE	0.027	0.011	0.069	0.005
	测试	美	0.023	0.007	0.057	0.004

水流	培训	RMSE	26.66	20.66	25.34	25.15
	培训	美	21.18	15.69	19.31	19.08
	测试	RMSE	15.33	14.13	10.71	10.33
	测试	美	12.55	11.30	8.88	8.35

汇率	培训	RMSE	0.42	0.20	0.44	0.39
	培训	美	0.31	0.13	0.32	0.26
	测试	RMSE	0.60	0.67	0.42	0.36
	测试	美	0.47	0.52	0.33	0.29

预测麦基玻璃系列、RMSE和FLSVR的美_茶匙测试数据分别是0.005和0.004。简称ANFIS显示相对较好预测结果而ESIM的性能很差。在水流的系列中,FLSVR_茶匙和ESIM比摘要和简称ANFIS。然而,FLSVR_茶匙预测是略优于ESIM。在此,RMSE和FLSVR的美_茶匙水流系列的测试数据是10.33和8.35。

在任务预测美元/台币汇率系列,虽然简称ANFIS模型提供最小的误差训练数据集,它的性能测试数据集是不可取的。此外,FLSVR_茶匙收益率RMSE以来最好的结果和梅的测试数据是0.36和0.29。实验结果表明,杂交LS-SVR和FA算法可以提供更优越的性能与其他指标的方法。英足总算法自动确定最合适的值LS-SVR的调优参数以及嵌入维度。这消除了乏味的努力设置模型参数,提高模型的预测性能。

5。结论

本文提出了一种新颖的混合人工智能模型,命名为FLSVR_茶匙,协助决策者在处理时间序列预测。的FLSVR_茶匙是由LS-SVR和FA技术的融合。LS-SVR是用来推断时间序列数据的输入/输出映射函数。与此同时,英足总搜索算法用于标识最合适的调优参数。这种机制消除了需要的技能或试错过程参数设置。此外,模拟的仿真和性能比较,和现实世界的时间序列数据,证明FLSVR的资质_茶匙。这些事实证明的强大潜力提出了时间序列预测模型作为替代。未来发展方向目前的工作可能包括改善当前模型的求解multistep-ahead时间序列预测和应用混合智能模型来预测其他现实世界的时间序列。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

a . Cherif h . Cardot, r .骨头,“SOM与复发性神经网络时间序列聚类和预测,“Neurocomputing,卷74,不。11日,第1944 - 1936页,2011年。视图:出版商的网站|谷歌学术搜索
j .周j·史,g . Li”微调对短期风速预测的支持向量机,”能量转换和管理,52卷,不。4、1990 - 1998年,2011页。视图:出版商的网站|谷歌学术搜索
h . Yoon研究所。小君,y Hyun G.-O。Bae和K.-K。李”,比较研究人工神经网络和支持向量机预测地下水位在沿海含水层,”《水文,卷396,不。1 - 2、128 - 138年,2011页。视图:出版商的网站|谷歌学术搜索
l .头发:Rodriguez和c·蒙特”平滑策略结合ARIMA和神经网络来提高交通事故的预测,”科学世界日报文章ID 152375卷,2014年,12页,2014。视图:出版商的网站|谷歌学术搜索
m . y . Cheng和a·f·罗伊诉”进化模糊决策模型对于使用时间支持向量机的现金流预测,“国际项目管理杂志》上卷,29号1,56 - 65,2011页。视图:出版商的网站|谷歌学术搜索
伊斯梅尔,A .白色或银灰羊绒,r . Samsudin”混合模型的自组织映射(SOM)和最小二乘支持向量机(LSSVM)的时间序列预测,“专家系统与应用程序,38卷,不。8,10574 - 10578年,2011页。视图:出版商的网站|谷歌学术搜索
严w·h·秋和y .雪,“长期的时间序列预测,高斯过程”神经网络国际联合会议(IJCNN ' 09)2009年6月,页3420 - 3427。视图:出版商的网站|谷歌学术搜索
k . Lukoseviciute和m . Ragulskis”进化算法的选择时间滞后时间序列预测的模糊推理系统,”Neurocomputing,卷73,不。10 - 12,2077 - 2088年,2010页。视图:出版商的网站|谷歌学术搜索
m .邹h .道,“短期负荷预测和最小二乘支持向量回归算法,”应用信息和沟通,艾德。j .张卷,228年,页124 - 132,施普林格,柏林,德国,2011年。视图:谷歌学术搜索
j . p ?梅林索托、o·卡斯蒂略和j·索里亚时,“一个新的时间序列预测方法使用简称ANFIS模型的集合体,”专家系统与应用程序,39卷,不。3、3494 - 3506年,2012页。视图:出版商的网站|谷歌学术搜索
j .μf·吴和张,“住房价值预测基于机器学习的方法,”抽象和应用分析ID 648047条,卷。2014年,7页,2014。视图:出版商的网站|谷歌学术搜索
k·德·布拉班特·Karsmakers f·奥赫达et al .,“LS-SVMlab工具箱用户指南1.8版”,内部报告10 - 146、ESAT-SISTA Katholieke项目鲁汶鲁汶,比利时,2010年。视图:谷歌学术搜索
j . Suykens j . v . Gestel j·d·布拉班特b . d .沼泽和j·范德维尔最小二乘支持向量机,世界科学出版商,新加坡,2002年。
h·l . Yu陈、王,和k . k .赖”演进的最小二乘支持向量机对矿业股票市场趋势,”IEEE进化计算,13卷,不。1,第102 - 87页,2009。视图:出版商的网站|谷歌学术搜索
范德维尔j . k . Suykens和j .最小二乘支持向量机分类器”,神经处理信件,9卷,不。3、293 - 300年,1999页。视图:出版商的网站|谷歌学术搜索
h。Tran N.-D。黄平君”,一个人工智能方法groutability估计自动调谐支持向量机的基础上,“《建筑工程ID 109184条,卷。2014年,9页,2014。视图:出版商的网站|谷歌学术搜索
M.-Y。程,N.-D。黄平君,a·f·罗伊诉,Y.-W。吴”,小说time-depended进化模糊SVM推理模型估算建设项目完成,”人工智能技术的工程应用,25卷,不。4、744 - 752年,2012页。视图:出版商的网站|谷歌学术搜索
m . Cheng和n .黄平君Groutability估计与超细水泥灌浆过程使用一个进化基于实例的学习方法,”计算机在土木工程杂志》上,28卷,不。4、文章ID 04014014, 2014。视图:出版商的网站|谷歌学术搜索
e .拿m .民宿,g .特洛拉兹群体智慧:从自然的人工系统,牛津大学出版社,纽约,纽约,美国,1999年。
c . Grosan a·亚伯拉罕m .太极,“群体智慧在数据挖掘中,”研究计算智能,34卷,页1 - 2006。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
X.-S。杨,萤火虫算法英国布里斯托尔,Luniver出版社,2008。
s . k .朋友,c . s . Rai, a·p·辛格”比较研究萤火虫算法和粒子群优化的嘈杂的非线性优化问题,“智能系统和应用程序的国际期刊4卷,50-57,2012页。视图:谷歌学术搜索
X.-S。杨,产品表面优化算法,爱思唯尔,2014年。
g . p .张”,使用混合ARIMA时间序列预测和神经网络模型,”Neurocomputing,50卷,第175 - 159页,2003年。视图:出版商的网站|谷歌学术搜索
杨y, y, t . Xiong, j .张”的比较研究multi-step-ahead预测原油价格与支持向量回归”第四届国际联合会议上计算科学学报》和优化(全封闭的11)2011年4月,页598 - 602。视图:出版商的网站|谷歌学术搜索
m . b .养犬,r·布朗和h . d . i Abarbanel”确定嵌入维相空间重建使用几何结构,”物理评论一个,45卷,不。6,3403 - 3411年,1992页。视图:出版商的网站|谷歌学术搜索
G.-S。苏,”一个新的智能模型对非线性时间序列预测,”《计算机科学和软件工程国际会议(CSSE ' 08),1卷,页435 - 438,武汉,中国,2008年12月。视图:出版商的网站|谷歌学术搜索
M.-Y。程和N.-D。黄平君”风险评分推断桥梁养护项目使用进化模糊最小二乘支持向量机,”计算机在土木工程杂志》上,28卷,不。第三条ID 04014003, 2014。视图:出版商的网站|谷歌学术搜索
a . Hashmi:高尔、美国高尔和d·古普塔“萤火虫为无约束最优化算法,”IOSR计算机工程杂志》上11卷,第78 - 75页,2013年。视图:谷歌学术搜索
r . l . Haupt和s e . Haupt实用遗传算法约翰•威利& Sons 2004。
c . m .主教模式识别和机器学习施普林格,新加坡,2006年。视图:出版商的网站|MathSciNet
js。r .张成泽C.-T。太阳,e .弘水谷去噪和软计算:计算方法学习和机器智能,普伦蒂斯霍尔出版社,1997。
M.-Y。程和Y.-W。吴”,进化支持向量机推理系统建设管理”自动化建设,18卷,不。5,597 - 604年,2009页。视图:出版商的网站|谷歌学术搜索

应用计算智能和软计算