文摘
股票市场的预测是一个重要的金融预测领域,吸引了极大的兴趣,股票买家和卖家,股票投资者、决策者、应用研究,许多人参与资本市场。本文比较研究进行了预测股指值使用软计算模型和时间序列模型。关注应用时间序列计量经济学的声音,因为我们认为系列,我们预测吉大港股票指数从1月1日,2005年5月5日,2011年。我们使用等著名的模型,遗传算法(GA)模型和自适应模糊综合网络系统(简称ANFIS)模型作为软计算预测模型。使用非常广泛的应用时间序列计量经济学预测模型,即广义自回归条件异方差(GARCH)模型被认为是时间序列模型。我们的研究结果显示,使用软计算模型比考虑时间序列模型更成功。
1。介绍
股指价值观发挥重要作用在控制资本市场的动态。结果,适当的股票指数预测的值是一个至关重要的因素对国内/国外股票投资者来说,买家和/或卖家,基金经理、政策制定者、研究人员应用(他想改善这个指数的模型规范),和许多其他人。例如,许多研究人员(1- - - - - -4)和其他人发现,股票明显的经验分布非正态的非线性。股票市场数据也在实践中观察到的混乱和不稳定的性质(例如,看到5- - - - - -8])。这就是为什么股票价值是很难预测的。传统上,基本Box-Jenkins分析一直是主流方法,用来预测股票值在应用文献。由于不断的研究股票市场专家,使用软计算模型(如人工神经网络、模糊集、进化算法,和粗糙集理论)。广泛建立预测股票市场。证据(9,10]表明Box-Jenkins方法时常常无法预测时间序列系列是混沌和非线性的行为。因此,软计算系统出现增加混沌时间序列预测的准确性。原因是这些系统有潜力提供一个可行的解决方案通过通用的自组织方法。因此,在预测文献[11- - - - - -14),人们已经发现,软计算系统产生更好的结果比统计时间序列方法系列是混乱的。本文比较预测的股票价格从软计算预测模型,该模型引入了(15]。我们这种比较的动机在于最近越来越浓的兴趣使用软计算模型用于预测经济和金融变量。因此,软计算模型用于学习非线性和混沌模式在股票系统。几项研究[7,11)相比,软计算模型和传统的Box-Jenkins模型。然而,只有少数比较分析(根据我们的知识)之间的软计算模型和标准时间序列统计模型(13在孟加拉国的股票指数。在本文中,我们检查每日吉大港股票市场指数的性能使用软计算模型和时间序列模型。参见[13)的预测每日达卡股票市场指数的值。因此,我们希望这项研究的发现将有趣的基金经理,许多企业投资者、政策制定者、学者、和人参与这个动荡的市场。论文的结构如下:在下一节中给出的数据和预测模型。统计特性和各种计量经济学讨论了噪声部分3。简要的描述被认为是预测模型中描述部分4。表演的不同评价标准节中解释道5。最后,结束语部分提出了未来的研究给出了在最后的部分。
2。数据和预测模型
2.1。数据
指数,吉大港证交所一直保持自1995年10月10日,是所有公司的股票价格(cse-all)和30所选公司(cse-30)。因此,我们认为每日cse-all和cse-30(数据来源:http://www.cse.com.bd/)价格可用的时间(2005年1月1日至5月5日,2011年)。指标的描述,请参阅上面的网站。
的确人们趋势投资于股票市场,因为它有高回报。股市通常受到经济、社会、政治、甚至心理因素。这些因素以非常复杂的方式相互作用。这就是为什么股票数据观察,混乱和不稳定的天性。众所周知,图表可视化趋势和混沌行为的最好方式,如果出现在任何价格系列。因此,理解的行为考虑指标,cse-all和cse-30绘制与时间图1。非常清楚的是,对时间有降低趋势。有一些原因这些趋势存在。看到http://www.cse.com.bd/获取详细信息。从这个情节也可观察到的这些选择价格系列的行为并不是线性的。这意味着系列可以出现与波动看起来混乱。某种非线性也可以出现在选择系列。
2.2。预测模型
因为我们的系列是时间序列,所以我们选择了最常用的时间序列模型,即自回归(AR)模型。该模型为每个考虑系列的定义如下: 在哪里是一个拦截,是确定性的趋势,是时间变量,延迟订单的基于“增大化现实”技术()模型,~。适当的选择的系列滞后贝叶斯信息准则(BIC)。标准的其他信息,例如Akaike信息准则(AIC),施瓦兹信息准则(原文如此),和其他人也可以用来选择延迟的顺序选择的基于“增大化现实”技术的组件模型。见表1数据大小和提出的基于“增大化现实”技术()模型。
3所示。数据的统计特性
3.1。数字摘要
了解所选指标的特点,总结统计列在下表中2。很明显从上面的表中,大多数时候,cse-all和cse-30指标观察8691和7259.9,分别。标准偏差的措施确认我们考虑价格并不等于8691和7259.9。预期范围的cse-all和cse-30价格可以估计和,分别。偏态的措施表明,股票市场指数显示右偏态分布。这意味着大多数价格低于平均价格。峰度衡量也告诉我们,价格指数是不正常的。
3.2。时间序列属性
现在大多数时间序列的非平稳的程式化事实并包含单位根(例如,看到14])。传统的时间序列方法是基于隐含的假设,即底层数据系列是静止的。这种假设是很少质疑,直到1970年代初,数值分析了如果历史系列是静止的。许多研究(例如,14- - - - - -16]和许多其他人)已经表明,大多数时间序列的非平稳,因此,平稳性的假设是不现实的。因此,模型规范和估计,之前的固定属性数据系列定期测试。否则,这项研究可以产生不现实的结果。这就是为什么选择适当的预测模型对于我们的研究,我们已经测试了第一个考虑的平稳性属性系列。
3.2.1之上。稳定性测试
有很多中可用时间序列平稳性测试文学。,(17- - - - - -19和其他人。测试的非平稳的行为视为模型(1)- (2),我们使用最常用的应用单位根测试,即增强Dickey富勒(ADF)测试提出的表示和迪基(20.)和测试提出的菲利普斯和阶石(PP) (21]。测试程序,请参阅[17]。MATLAB命令Adftest和ppt用于计算ADF和人民党统计和结果被发表在表3。注意,零假设下的ADF和PP系列测试假设的非平稳,在备择假设下系列是静止的。结果显示我们的非平稳(因为所有系列)。因此,零假设被接受的测试。然后我们第一个系列的差异消除non-stationarity和应用又ADF检验和测试页。这些测试结果表明我们第一个系列差异被认为是静止的。这些结果并不是报道的可用空间,但请求。这些测试将显示的效果当我们使用预测模型,该模型是用于第一差异。
3.3。线性测试
文学有许多可用的统计技术来测试是否线性或非线性系列。选择合适的预测方法,我们已经测试了还考虑模型的线性(1)和(2)。这些测试都是基于普通最小二乘法剩余工资。恩格尔提出的统计检验(5是用来测试的存在非线性依赖。测试程序的详细信息,请参阅[22]。线性测试结果列在下表中4。结果表明,在5%显著性水平((检查),非线性是礼物在我们考虑系列)。只是注意在零假设下,该系列被认为是线性的,在备择假设下,该系列被认为是非线性的。表4结果告诉我们小于这表明拒绝零假设。所以表4结果证实,我们认为系列是非线性的。
4所示。模型用于预测
认为统计检验结果表明,所选系列非平稳的,非线性和混沌(图1)。首先删除非平稳,我们使用系列差异。我们选择了非线性预测模型预测吉大港股指、也能够捕捉混乱的行为。我们选择了以下模型来预测指标。简要的描述被认为是预测模型如下所示。
4.1。软计算模型
我们选择了两个非常流行和广泛使用的模型,即遗传算法(GA)模型和去噪模型。
以下4.4.1。遗传算法模型
荷兰(23]介绍了这一技术。这是一个技术基于“达尔文的自然选择原理”和用于解决优化问题。基本的想法是选择最好的,丢弃。处理复杂的多维系统的行为,这种方法已经被有效地用于预测文献(例如,23- - - - - -26和其他人)。参见图2的流程图,说明了遗传算法的基本步骤。见表5,对标准遗传算法选择。简要解释每个步骤如下。
步骤1。创建一个随机的染色体组成的初始种群。了解遗传算法过程,例如,对于一个AR(2)模型,考虑以下随机6和4参数每个染色体:人口(0.13,0.01,0.84,0.68),(0.20,0.74,0.52,0.37),(0.19,0.44,0.20,0.83),(0.60,0.93,0.67,0.50),(0.27,0.46,0.83,0.70)和(0.19,0.41,0.01,0.42)。人口规模通常选择从100年到500年。大的人口可能产生更多的健壮的解决方案。
步骤2。健身比例是用来提供一个染色体的选择执行的问题域。AR(2)模型适应性评估通过一个标准就像RMSE (CC,美也可以使用)。AR(2)模型,我们得到RMSE: 26.19, 32.09, 53.75, 20.18, 18.67和66.64。使用linear-ranking过程,例如,(细节,请参阅Pohlheim [27),适合(RMSE): 1.2, 0.8, 0.4, 1.6, 2.0, 0。
步骤3。基于一步2结果,为下一代选择父母。理解,考虑分布表中找到5和6。
观察到5号染色体是适者染色体,因为它占据了最大的区间,而染色体3是第二个最适合染色体的最小时间间隔。6号染色体是最不合适的时间间隔有一个健身值0,没有得到繁殖的机会。例如,使用轮盘赌方法(目的是消除最严重的染色体和再生更好的替代品),选择4父母:(0.20,0.74,0.52,0.37),(0.13,0.01,0.84,0.68),(0.27,0.46,0.83,0.70),(0.13,0.01,0.84,0.68)。
下一步是产生后代从选定的父母通过结合条目的一对父母(称为交叉),也通过随机变化单亲(称为突变)。
步骤4 (GA operator-1)。基本操作产生新的(改善)染色体称为交叉(人工交配的一个版本)。它产生的后代,父母双方遗传物质的一些地区。后代产生使用中间交叉方法,因为这是一个方法为实值的父母染色体重组(看到细节,Pohlheim [27])。因此,交叉的后代(0.16,0.16,0.85,0.57),(0.13,0.22,0.76,0.43),(0.13,0.15,0.83,0.69)和(0.26,0.45,0.84,0.68)。
第五步(GA operator-2)。后代变异后产生交叉后代这GA算子增加了算法的机会将生成适者RMSE比一步4。GA创建3类型的后代:精英后代(在当前一代最好的RMSE值的数量,保证下一代生存),交叉的后代,和变异后代。理解,考虑一个例子:假设人口规模是20和精英数是2。如果交叉分数是0.8,那么后代的分布是2精英,14(18 * 0.8)交叉后代,剩下的4突变的后代。知道,1意味着所有后代的交叉部分除了精英们交叉的后代,而交叉部分0意味着所有后代变异后代。下后代产生突变的过程,如何看待Pohlheim [27]。发现突变后代(0.16,0.17,0.85,0.56),(0.13,0.22,0.76,0.43),(0.13,0.14,0.83,0.69),(0.26,0.45,0.84,0.68),分别。
步骤6。一旦后代被生产使用步骤4- - - - - -5,后代健身(即。,RMSE values) must be determined (procedure similar to Step2)。我们得到改进的RMSE: 23.37, 28.13, 24.11, 18.62。
如果后代产生比原来的人口规模,然后保持大小,后代必须插入到旧的人口。通过这个步骤,它决定哪些染色体被后代所取代。使用例如,健身类重新插入方法,以下RMSE发现:20.18,18.67,18.62,23.37,24.11和28.13。
如果终止标准没有定义,GA返回到步骤3开始,并且持续到一步6。时满足达到最大数量的后代或当所有染色体的人口是相同的(即。,收敛)。造物主集这个数字运行遗传算法前,确保GA不会持续下去。
4.1.2。自适应网络模糊集成系统(简称ANFIS)模型
我们选择的第二个广泛应用软计算模型是简称ANFIS模型。在计算文献,张成泽(8)提出了这个模型。该模型结合了两个情报系统:神经网络(NN)系统和模糊推理系统(FIS)。这也被称为NN-fuzzy集成系统,神经网络学习算法用于确定FIS的参数。得到非线性统计数据建模工具,可以捕获和模型的输入-输出关系。金融中间人是制定的过程从一个给定的输入输出的映射使用模糊逻辑。这种映射提供了一个基础的决策可以可以看出或模式。FIS的过程包括隶属度函数(mfs),模糊逻辑操作符和if - then规则。简称ANFIS(参见图的结构3其架构)5层:输入层、(一)1 (b) 3代表mfs隐藏层和模糊规则,和(c) 1输出层。简称ANFIS使用Sugeno-fuzzy推理模型的学习算法。作为一个例子,一阶的模糊if - then规则Sugeno-fuzzy模型可以表示如下。
规则1。如果(输入1)和(2)输入,然后(输出)。
规则2。如果(输入1)和(2)输入,然后(输出)。
简称ANFIS学习算法的混合算法,它结合了梯度下降法(GD)方法和最小二乘估计(LSE)的一个有效的搜索参数。简称ANFIS使用双行程学习算法来减少错误:向前和向后传球。计算隐层的GD反馈结构的方法和最终的输出是由伦敦政治经济学院估计的方法(详情,请参阅[8])。
4.2。时间序列模型:GARCH模型
因为我们认为系列是时间序列,比较软的性能计算模型,一个非常受欢迎的时间序列模型,即广义自回归条件异方差(GARCH)模型选择从时间序列计量经济学文献。讨论了该模型的简要描述。
1986年,Bollerslev发明了GARCH模型。要了解清楚,考虑一个AR(1)模型: 在哪里是观察cse-all cse-30价格。这里,当前波动性不仅取决于过去的错误,但也在过去的波动。假设,在那里与,被称为一个GARCH订单的过程和。这个模型被广泛用于知道自然波动时间序列数据中普遍存在。,(6]。
5。讨论的结果
预测有100%的准确度可能是不可能的,但我们可以尽力减少预测错误。因此,找到观察和预测股票系列之间的误差水平意味着考虑模型的预测性能评估对广泛使用的统计措施后,即均方根误差(RMSE),相关系数(CC),并确定系数。
注意,最小的RMSE值表明预测精度高,甚至更高值表示更好的预测。所有计算工作进行了使用MATLAB的编程代码(版本7.0)。我们选择了1月1日,2005年到2009年1月1日的训练时间和休息时间的测试时间。见表7为计算参数选择的预测模型。表8和9总结不同考虑的性能预测模型的训练和测试数据实现了股票价格预测的使用被认为是错误措施RMSE CC,。的所有措施,训练结果表明,cse-all价格系列,GA预测模型表现得更好(指出RMSE值最小,最高CC和比其他预测模型值),其次是简称ANFIS预测预报模型和GARCH模型。cse-30系列中,我们发现,简称ANFIS预测模型表现好于其他预测模型。使用训练数据模型建立后,认为系列预测的测试数据表和表演9。测试结果相比,我们认为预测模型显示,每日cse-all价格系列GA预测模型的预测能力高于其他预测模型。我们指出cse-30价格指数,简称ANFIS预测模型(RMSE值最低,最高执行CC和价值观)比其他预测模型。
6。结论和未来的工作
众所周知,软计算模型特别关注非线性反过来有助于改善复杂的数据预测。在这篇文章中,我们预测吉大港所有公司股票价格指数和股票价格指数30所选公司从1月1日2005年5月5日,2011年。最近时间系列文献显示,大多数股票价格是不稳定的,包含一个单位根。因为这个原因做出适当的预测,利用单位根测试,首先,我们测试了时间序列非平稳特性,因为我们认为系列。我们的测试结果表明,该系列是不稳定的。消除噪音的系列中,我们使用了系列第一差异。然后我们使用统计测试系列的线性线性测试。试验结果表明两个系列被认为是非线性的。因此,我们选择了两个非常著名的软计算模型,即遗传算法预测模型,简称ANFIS预测模型。比较这两个模型的表现,我们也选择最受欢迎的非线性时间序列预测模型。 According to our findings, we would like to conclude that applied workers should select the GA forecasting model to forecast future daily stock price index for all selected companies. In case of daily stock price index for 30 selected companies, the ANFIS forecasting model is more successful than the other considered forecasting models. We believe our findings will be helpful for researchers who are planning to make appropriate decisions with this complex variable. Our next step is to improve and compare the predictions with other recently proposed model, for example, rough set theory and other. This is left for future research.
确认
作者感谢参与者的第17届国际数学大会于2011年12月22 - 24和孟加拉国数学学会组织的数学系,Jahangirnagar大学达卡,孟加拉国。他们极大地承认从匿名裁判,评论和非常有用的建议,大大提高的表示。他们也非常感谢王编辑Yi-Chi和编辑人员埃赛义德的非常有价值的合作。他们极大地承认它。