文摘

本研究调查了使用人工神经网络(ANN)和遗传算法(GA)泰国SET50指数的预测趋势。安是一个被广泛接受的机器学习方法,利用过去的数据预测未来的趋势,而遗传算法是一种算法,可以找到更好的输入变量导入到安的子集,从而使更准确预测的有效的特征选择。导入的数据选择技术指标高度被股票分析师,每个由4个输入变量是基于过去的时间跨度4不同长度:3、5、10和15天之前预测的日子。这个导入任务生成一套大的不同输入变量的指数更多的可能的子集,GA扑杀降至可控数量的更有效的。SET50指数过去6年的数据,从2009年到2014年,被用来评估该混合情报预测精度和混合的预测结果发现更准确比由一个方法只使用一个输入变量为一个固定长度的过去的时间跨度。

1。介绍

股票指数、趋势和市场预测提供一个具有挑战性的任务人员,因为股票指数的运动是许多可能的结果的因素,如公司的增长和盈利能力,当地经济、社会和政治的情况下,和全球经济形势。良好的预测投资风险最小化和最大化回报的关键。

有2种股票分析:基本和技术。第一种是股票的内在价值的分析,基于考虑的基本因素,如公司的增长和盈利能力,其工业集团的发展,和经济趋势。另一方面,第二种是基于过去的数学分析股票指数记录。这种最简单的分析是通过观察股票的运动趋势预测图。更复杂的分析使用复杂的统计方法和机器学习算法。

人工神经网络(ANN)是一个流行的机器学习算法已经应用于时间序列预测和被广泛接受的方法预测股票指数的趋势,市场1,2]。Kimoto et al。3)是第一个,在1990年,应用模块化神经网络机器学习算法来预测股票指数的运动的东京证券交易所和最好的时间购买和出售股票。后来,安开发和广泛应用于证券分析。例如,吴和陆4)使用ANN预测标普500指数相比,其预测结果与由Box-Jenkins模型,和报道,安作出了更为准确的预测,而张、吴(5)使用改进的细菌趋化性优化(IBCO)与反向传播神经网络(摘要)预测相同的索引。Birgul et al。6)使用ANN预测伊势指数。博伦et al。7使用数据在Twitter上发布预测道琼斯指数。Guresen et al。8]使用4 models-ANN多层感知器(MLP),人工神经网络的动态体系结构(DAN2) GARCH-MLP, GARCH-DAN2-to预测纳斯达克指数中长期规划,发现是最准确的。王等人。9结合Elman复发性神经网络与随机时间有效的函数来预测SSE,台湾证交所,KOSPI指数和Nikkei225。不仅对预测股票市场的建立,安也用于预测新兴市场。例如,卡拉et al。2]安和支持向量机用于预测土耳其伊势100指数的运动通过导入几个技术指标,发现安的预测是准确的。帕特尔et al。10]提出了一种制备技术指标的趋势确定的数据导入模型之前,发现了更好的预测结果比由传统的导入过程指标导入4 models-ANN时,支持向量机,随机森林,摘要分类器模式被用来分析CNX俏皮和标普孟买证券交易所市场。Manish和Thenmozhi11安)使用,支持向量机,分对数,随机森林预测标准普尔CNX漂亮的指数的每日运动方向,发现SVM优于其它模型。在上面所有的作品中,安或SVM是顶尖高手。最近,Inthachot et al。12]10技术指标导入到安和支持向量机,用模型来预测泰国SET50指数的运动,发现安比支持向量机更准确,但仍低精度和需要进一步发展。

泰国证交所(套)是一个新兴的股票市场在集团(泰国、印度尼西亚和菲律宾)吸引了亚洲和全球投资者的注意。当设置在4月30日开始运营,1975年,只有16个上市公司注册;在2015年,这个数字超过了500人。SET50指数是一个指数计算出的股票价格50强公司注册设置的大市值和高流动性。SET50指数趋势的准确预测尤其有助于短期投资者降低风险,使获利SET50期货和SET50 TFEX期货市场的指数期权。

如前所述,SET50指数预测的准确性基于技术指标的计算从一个过去的时间跨度仍低,本研究提出了引进技术指标,每个代表了4输入变量基于过去的时间跨度不同lengths-3, 5 - 10 - 15天跨越之前预测的日子来产生更多的不同子集的输入然后扑杀降至可控数量的有效的遗传算法(GA)和传递给安SET50指数趋势的预测。我们的贡献应用GA安是使用遗传算法寻找一个可控的输入的有效子集数安为了提高混合总体趋势预测的准确性。

本文的其余部分被组织成以下部分:部分2是文献综述;部分3描述了方法论、研究数据、数据的预处理、预测模型、测量精度;部分4给出了实验结果和讨论;和部分5总结了研究。

2。文献综述

本文着重于几个研究应用ANN预测股票价格和索引的建立和新兴市场。梁等。13]利用各种类型的模型基于多元分类方法来预测股票指数趋势和报道,分类模型(线性判别分析,分对数,probit概率神经网络)的表现水平评估模型(指数平滑法、多变量传递函数、向量自回归与卡尔曼滤波器和多层前馈神经网络的预测精度股市运动的方向和投资交易的最大回报。陈等人。14)使用概率神经网络(并通过预测台湾证交所运动方向和应用预测制定交易策略。他们发现对所测试的预测结果更准确比获得GMM-Kalman过滤和随机游走。阿尔泰和Satman15]使用安和线性回归预测新兴市场运动方向,发现安给了更精确的预测:57.8%,67.1%,78.3%,每日、每周、月度数据,分别。卡拉et al。2]安和支持向量机用于预测伊斯坦布尔证交所(ISE)运动方向基于股票指数1997 - 2007年的数据和使用10个技术指标作为输入variables-simple移动平均,加权移动平均,动量,随机K %,随机D %,肢体重复性劳损症,乖离率的移动平均值(MACD),威廉姆斯的R %、A / D振荡器和CCI。ANN模型的预测精度是99.27% 76.74%训练数据集和测试数据集,而支持向量机模型的100%为训练集,但只有71.52%的测试数据集。Chang et al。16)使用一个进化部分连接神经网络输入变量(EPCNNs)模型和技术指标来预测股票价格运动的台湾证交所(TSE)。EPCNNs的体系结构是不同于安:神经元之间的连接是随机的;不止一个隐藏层是适应;与GA和重量训练和调整。他们发现他们的模型比获得更准确的预测,TSK模糊系统和多元回归分析。帕特尔et al。10]提出使用确定性输入变量和安,支持向量机,随机森林,摘要模型预测印度股票市场指数的趋势。他们建造了一个层转换10连续输入变量用于卡拉等人的研究。2到确定性输入变量之前将其纳入模型。安的预测结果,支持向量机,随机森林,和摘要是86.69%,89.33%,89.33%,和90.19%准确,分别是高于从使用连续变量模型,获得最高的83.56%来自随机森林模型。

泰国股市的情况下,Sutheebanjard和Premchaiswadi17)使用反向传播神经网络(摘要)预测组指数运动在11月2日7月30,2004(124天),获得预测均方误差(MSE)为234.68,平均绝对百分比误差(日军)的1.96%。Inthachot et al。12]安和SVM应用于预测泰国SET50指数运动采用相同的10个技术指标卡拉et al。2)的索引数据,使用2009 - 2014年,发现每年的一天由安预测结果更精确的比支持向量机。安的这项研究的平均精度很低,为56.30%,相比,伊势指数的预测结果的准确性大幅运动,最有可能是因为怀尔德SET50索引值的波动。

读者想要有一个全面的概述近期股市预测的研究应该咨询审查论文Atsalakis和Valavanis1]。

3所示。方法

3.1。数据准备和预处理

这项工作使用一个数据集之间的每日SET50指数在收盘时间1月5日,2009年和2014年12月30日(1464天)。在此期间,股指上升了795次(54.30%)和669次(45.70%),如表所示1

数据集被分成5组5倍交叉验证运行时,如表所示2。总共有5分每次运行使用一组数据作为测试数据集和其他4组作为训练数据集,每组作为测试数据集完全一次。

从所有的被广泛接受的股价和指数预测[11技术指标2,10,12,18),每个输入变量的方程计算其相应的指标见表3。四个输入变量来自每个技术指标的四个变量的计算基于其中一个4过去的时间跨度长度:3、5、10和15天,总共11×4 = 44输入变量。

所有输入变量被规范化 −1 所以他们都有同样的重量。唯一的输出变量可能需要一个值0或1 a的值为0意味着预测次日SET50指数低于预测天指数(下降趋势),值为1时表示,预计第二天指数高于预测天指数(趋势)。

3.2。预测模型
3.2.1之上。人工神经网络(ANN)

安(由McCulloch和皮特的介绍19)是一个机器学习模型,模拟人类学习的一个方面从过去的经验来预测未来的结果。安是广泛采用在研究股票价格和指数预测1,2,8,16,20.]。它已经被用于预测SET50指数趋势(12)的一项研究中,发现做出更准确的预测比支持向量机(SVM)。然而,它的绝对精度还不是很好。本研究试图进一步开发它,让它更准确预测次日SET50指数运动。我们的ANN模型是一个三层前馈模型由一个输入层、隐藏层和输出层。过去的股票交易数据是由11个技术指标。每个技术指标导入到安4变量基于不同过去的时间跨度长度,占总共44个变量在输入层。在隐层节点的数目设置为100,在一项研究中使用的最佳数量Inthachot et al。12]。节点之间的传递函数在输入层和隐层和隐层和输出层的节点之间是棕褐色的乙状结肠。输出层与日志乙状结肠1神经元传递函数。计算输出可能需要一个值在0和1之间的值等于或小于0.5意味着指数向下运动和一个值高于0.5意味着一个向上运动。重量是每一对连接节点之间分配。最初,所有的重量都是随机生成的;然后他们在培训期间进行调整与动量梯度下降的方法。

需要设置的模型参数是隐层神经元的数量( )、学习速率(lr),动力常数(mc)和迭代学习的数量(ep)。他们将 mc lr = 0.1, = 0.1, 下面那些给最好的精度研究Inthachot et al。12上面提到的。

3.2.2。安和的混合智能遗传算法(GA)

安有几个训练时间长等缺点,不收敛到局部而不是全局最优解,和大量的参数;因此,试图弥补这些缺点通过结合安与另一个算法,可以照顾一个特定的问题。经常与安杂化算法GA。1990年,惠特利et al。21)开始使用遗传算法优化加权连接和找到一个好的体系结构神经网络连接。2006年,金22)提出了一个混合模型GA的安执行实例选择减少维数的数据。2012年,卡里和Yousefi [23)使用遗传算法找到一组权重中每个节点连接一个ANN模型并确定相关纳米流体的密度。从et al。24)提出了一个集成的安和GA预测建模和优化的参数来减小表面粗糙度。其他成功的ANN-GA混合应用的例子是网络入侵检测(25和癌症患者分类26]。受这些成功的启发,本研究尝试用遗传算法来解决一个特征选择问题。找到有效的输入安子集。

我们的想法背后的基本原理使用安和遗传算法的混合智能应该更好的使用,首先,多个输入变量为每个技术指标在本研究(4)基于不同过去的时间跨度(3、5、10和15天),第二,少量的输入变量,将进口的有效子集。由于44变量的子集的数量是天文数字244,它需要太多的计算时间过程。GA的照顾。遗传算法是一种算法,在特征选择是特别强大的,我们用它来找到更好的输入变量的子集。

遗传算法、搜索算法基于自然选择和遗传学的概念,被正式引入了荷兰在1990年代(27]。GA的基本原则是生成一个初始种群染色体(搜索解决方案),然后使用选择和重组操作符生成一个新的、更有效的人口最终将有适当的染色体(最优值)。

的10个步骤操作安和遗传算法的混合智能如下。

步骤1(初始化的人口)。生成一个初始种群的染色体位串随机生成的二进制值。染色体和人口规模,我们使用44和10个,分别。

步骤2(解码)。染色体解码(字符串)找到输入变量将被选中。

步骤3(安)。运行三层前馈神经网络模型来预测第二天SET50指数。参数模型中,我们使用的是相同报道Inthachot et al。12]。

步骤4(健身评价)。把每一个染色体的预测精度从安作为遗传算法的健身价值。

第五步(停止准则)。确定是否继续或退出循环。停止准则不超过10代。

步骤6(选择)。选择染色体交叉使用锦标赛选择技术。锦标赛选择涉及运行多个比赛几个染色体随机的人口。每个比赛的赢家是交叉选择。

步骤7(交叉)。采用算术交叉算子,定义了一个线性组合的两个染色体。

步骤8(突变)。注入新的基因人口均匀变异算子和随机生成一个槽了染色体的数量以及抛槽的二进制值。

步骤9(替换)。取代旧的染色体有两个最好的后代染色体为下一代。

步骤10(循环)。去一步2

所有的步骤如图所示1

3.3。健康评估

我们使用精度来确定染色体的选择(输入变量的子集)染色体,将产生未来一代以及测量的性能预测模型。在GA适应度值作为精度值,可以计算如下: TP是真阳性,FP是假阳性,TN是真阴性,FN假阴性。

4所示。结果与讨论

安和遗传算法的混合智能模型预测了SET50指数运动期间2009 - 2014。每年的交易数据在此期间被转换成11技术指标,每一个都由4个输入变量根据不同长度的过去的时间跨度,因此44输入变量。所有输入变量是相同的规范化和子集的选择由GA和导入安,用它们来做股票指数运动预测。5倍交叉验证是保证运行的可靠性。该混合智能编码,在MATLAB软件环境中运行。

结果成功的运行提出了数字2- - - - - -7和表4。数据2- - - - - -7说明最好的健身价值(这反映了预测精度)实现在每一代每一年的预测。

趋势预测精度性能的方法与另一项研究[12只因为虽然已经有一些工作,他们报道的均方误差股票价格或股票价格指数(17,28- - - - - -30.]。此外,它不是任何一个二元选择模型相比,因为它已经广泛报道的文献,他们的预测性能不如安关于股票市场预测(2,11,12]。

4比较的模型精度通过Inthachot et al。12使用在他们的研究和那些通过安和遗传算法的混合智能模型。可以看出,模型Inthachot et al。12]使用实现了预测精度最低52.57%的2010年,2011年最高精度的59.86%,平均精度为56.58%。另一方面,我们的混合智能实现了预测精度最低60.00%的2010年,2011年最高精度的68.87%,平均精度为63.60%。

本研究的混合智能预测更准确地比Inthachot等所使用的模型。12]每年选择期间最低的比例提高8.0293%,最高的15.0518%,平均提高12.4011%。为了证实这个结论的统计,我们比较他们使用 以及在0.05水平的意义,发现 右尾价值0.0009;因此,结论是有效的。

5。结论

在这项研究中,我们开发了一个安和遗传算法的混合智能模型预测SET50股指运动和测试它在大组过去股票交易数据。发展的目的是实现一个更好的预测精度比以前获得的ANN模型,我们已经开发出12]。试验结果表明,混合智能完成这个目的,获得平均提高12.4011%。它是63.60%的平均预测精度;然而,它仍然不是很高,我们正在调查结合安和其他机器学习模型,以获得更高的预测精度。

相互竞争的利益

作者宣称没有利益冲突有关的出版。