文摘
在当今经济全球化和金融一体化的时代,股市不断复杂,表现出许多偏差,不能用经典的财务分析来解释,但与此同时,一些经典的金融统计特性有惊人的相似之处。这表明,尽管股票市场是复杂的,有普遍规律,可以通过数据挖掘来发现找到其底层操作规则。在这篇文章中,我们构建金融时间序列模型ARIMA、拱、GARCH预测股票市场的价格波动和趋势。ARIMA模型用于符合线性金融时间序列和GARCH模型用于非线性时间序列残差。结果表明,集成树模型基于投票权重的想法高精度预测股市牛市和熊市中,与XGBoost预测精度达到96%,和神经网络模型也非常有效,准确率超过90%。
1。介绍
在今天的全球化经济和金融一体化,股市不断复杂,呈现许多偏差,传统财务分析和经济理论无法解释。具体来说,在有效市场假说所描述的理想市场没有完全安装到实际的股票市场,有时甚至完全背离。高智商,强大的波动,紧密耦合,和不对称展出的股市使它成为一个复杂的非线性、非平稳的金融体系(1- - - - - -3]。然而,与此同时,一些古典金融统计特性,如股票指数、体积和价格转换和波动性有惊人的相似之处。这表明,尽管股票市场是一个复杂的金融系统,可能会有一些普遍规律隐藏在数据的海洋。某些观测变量的统计特征在股票市场可以探索发现背后的统计规律,这样我们可以澄清股市运动的机理,发现其背后的法律操作(4- - - - - -6]。在此基础上,本文将使用机器学习算法,金融时间序列和深层神经网络构建统计模型来描述这样一个复杂的非线性和非对称金融系统在细节和揭示金融时间序列的潜在机制和法律行动,这无疑是巨大的现实意义和理论价值为人们预防金融风险和金融市场监管,这也是本研究的意义和背景。
2。相关工作
在市场经济中,证券市场,特别是股票市场,是国民经济的重要组成部分和一个晴雨表反映宏观经济动态,及其动力学密切相关的整体宏观经济发展(7]。准确预测股市一直调查在业界和学术界的一个重要领域,特别是近年来,股市动荡,许多国内外权威专家、学者致力于金融股票市场的预测研究(8]。
2.1。金融时间序列建模分析
时间序列分析是使用统计方法来分析过去的一系列模型变量的变化特征,并预测未来。时间序列分析已经广泛的应用在经济学、金融时间序列分析研究和进展大致可以从以下事件的时间表。研究美国股票回报,时间序列的异方差性的股票收益的方差被发现通过比较各种股票指数的收益的相关性(9]。在此基础上,金融学者开始关注金融时间序列分析,并试图在股市中引入时间序列指标,和波动性分析模型出现密切相关,最耀眼的是作者提出的拱门型模型的10]。在分析外汇市场风险波动,在分析外汇市场的波动性和风险回报,考虑到风险溢价不能测量,构建一个新的模型解释方面的风险溢价条件方差值,和估值最终安装好。之后,作者在11集群)提出了GARCH模型,扩展了建模的影响不再局限于高级教士的条件方差,但条件方差和均方误差(12]。在[13的ARCH / GARCH模型]GED分布的研究和应用提出了时间序列的异方差性。通过一系列的实验测试,结果表明,复合模型GED分布特征具有较强的金融时间序列预测性能比传统的拱和GARCH模型。
2.2。深度学习在股票市场
随着大数据和人工智能的兴起,学者们逐渐机器学习算法引入股票市场预测研究。作者在14)使用传统金融时间序列分析和LSTM模型扩展标准普尔指数的预测,分别和实证结论表明,价格LSTM模型的预测性能远远优于GARCH模型设置特定参数的条件下。在[15),LSTM深层神经网络模型和传统的神经网络模型(例如,BP神经网络和RNN)建立了进行全面比较研究沪深300指数。在[16],LSTM深建立了神经网络模型来预测股票价格波动和金融时间序列分析介绍了在其上建立一个混合模型来预测收盘价;预测结果表明,该混合模型相比有显著改善预测性能与传统时间序列分析和神经网络模型。作者在17]LSTM深层神经网络用于股市预测短期趋势。这个文献使用近十年股票市场的数据作为一个数据集构建一个长期和短期记忆与多级网络功能系统,它克服了常见的局部最小值的缺点,而不是全球最低的神经网络模型和比较常用的模型如CNN, RNN,和多层感知器(MLP)和实证研究结果表明,LSTM达到优越的预测性能预测,高精度,快速收敛和广泛的应用前景。作者在18)量化投资者情绪指数由BiLSTM CLSTM用于分类特征的情感内涵的新闻和构造混合LSTM预测股票市场趋势变化。作者在19机器学习算法应用于时间序列分析,基于改进XGBoost算法,相空间重建优化方法,和改进的SVR模型指数回归预测,实验结果表明,该机器学习算法可以显著实现股票指数的分类预测,但数值预测效果不显著。
3所示。处理股票交易指标
3.1。股票交易的选择指标
股票收盘价作为LSTM深层神经网络的预测数据,所以相关的影响因素选择股票收盘价运动作为输入数据。的股票收盘价格变化影响因素分为三类:第一类是基本的股票交易数据;第二类是股票技术指标数据,如马、KDJ、周转率(20.]。详细的指标如表所示1。
3.2。数据处理
在本文中,我们使用LSTM深层神经网络来预测股票价格基于交易的多个独立变量指标,但有强烈的独立变量之间的相关性交易指标和太多的输入变量使预测问题更加困难。因此,选择主成分分析将股票交易相关的指标变量,它可以减少交易指标变量的维数,仍然保留的主要信息交易指标变量。股票交易的主成分分析过程的技术指标图所示1。
4所示。LSTM模型设计
隐藏层的数目和节点隐藏层的股票预测模型和优化方法的选择需要分析和详细设计,提高股票预测模型的性能(21,流程如图2。
如果隐层的节点的股票预测模型是太少,股票交易的技术数据的特性不够了解;如果隐层的节点数太多,预测模型将overfitted [22]。两个隐藏层的预测模型,预测模型效果最好,当两个隐层节点是相似的,所以在本文中,隐层节点的数量的股票预测模型是最初设置为64,如图3本文的LSTM模型。
通过分析和研究股票数据和优化方法,在RMSprop(均方根道具)方法是优化选择LSTM深层神经网络的训练。
我们使用LSTM消除错误沟通获得的原始关联点,和原来的沟通有多个或错误对应因素如噪音和类似的特征。这些不正确的对应点影响的质量转换矩阵,从而减少调整精度。因此,错误与排斥策略常用于改善这种情况。因此,本文采用LSTM消除通信系统中的错误如下。首先,我们计算初始对应点剩余价值的浓度,以确定它是否符合设定阈值时的变换矩阵。如果通过矩阵变换的点之间的距离小于给定的阈值,对是正确的,这是写成“内部点对,”和内部点写成“内部点两中心”;否则,点写成“外部点对,”对应点会是错误的。然后,我们输出的“内点”两组对应点对的最多,使用这种“内点”两组作为最终正确的对应点对集合,然后使用一对对应点集计算的变换矩阵。
消除错误并通过LSTM找到正确的点匹配,本文使用了对偶四元数法来解决这个变换矩阵,使用变换矩阵来实现云的准确分布激光阵列。具体解决方案如下:(1)代表四元数形式的点: (2)构建一个矩阵 以四元数分: (3)计算矩阵 : (3)计算矩阵 : (5)计算矩阵的最大特征值对应的特征向量,这个向量是真正的一部分双四元数,计算虚部双四元数: 在哪里 。(6)构造矩阵 : (7)找到和向量 :
5。实验结果和分析
股票收盘价的预测研究是由选择投资股票的选股选股模型的结果。股票交易的基本数据从东方财富获得数据源通过爬虫程序。自2005年中国股市制度改革,本文选择股票交易的基本数据从2006年初到2018年底,并使用500000 - pufa银行为例进行详细的预测分析。表2显示了基本的股票交易数据的示例。
股票价格预测模型使用前N天的股票数据预测的收盘价N+ 1天,最初的N值是10。获得的股票技术指标数据需要根据交易技术指标的计算公式,结合基本的股票交易数据形成了股票交易指标数据集。每个股票交易指标的范围和指标的计量单位是不同的,因此所有的股票交易指标需要标准化,和标准化的数据分为输入数据序列长度n .第二天的收盘价每个样本数据选择股票数据样本的预测价值。
最后,可训练的股票数据样本是随机中断,然后,选择80%的股票数据样本作为训练数据;剩下的20%的股票数据样本作为测试数据来评估股票价格预测模型的预测效果。
5.1。实验分析的股票交易指标的选择
有许多因素影响股票价格在股票市场。在本文中,我们选择的基本交易数据和技术指标数据与股票交易构建股票预测模型。这两种类型的股票数据被用来设计以下3股票价格预测模型选择最好的输入特性。
从表可以看出3的确定系数预测模型M1与基本的股票交易数据作为输入特性是88.9%,和均方根误差为0.874,所以股票价格预测使用基本的股票交易数据是有效的;确定系数的预测模型M2与股票交易技术指标作为输入特性是85.8%,和均方根误差为0.988,相比之下,M1预测模型的预测效果M2显著低于M1。
股票交易技术指标得到基于技术指标的公式,使股票交易技术指标有所损失的基本的股票交易数据信息。从数据4来6,可以看出平方米相比有一个很大的损失了M1模型,训练数据,预测模型达到稳定快速,而验证数据更不稳定。从证券市场理论,可以看出,股票交易技术指标包含有限的信息,和股票市场在中国有10%的限制增加或减少股票价格,而股票交易技术指标没有这样的限制,这使得它们广泛波动。因此,有限的信息包含在股票交易的技术指标和大量的变异导致的无效M2模型。
从表可以看出3预测模型的确定系数M3基本股票交易数据和股票交易技术指标作为输入特性是88.2%,这是略低于预测模型M1。比较数据4和6,它可以看到更大尺寸的预测模型M3输入功能损失误差略高。它可以推断出的学习能力预测模型的训练过程是减少当股票的信息输入特性数据冗余。
因此,对于LSTM深股票价格预测模型的神经网络训练,适当增加股票的有效的信息可以提高预测模型的预测效果,但当添加股票数据尺寸太大,股票信息是多余的,它严重影响股票预测的效果。
5.2。实验分析股票交易技术指标的主成分处理
从股票交易指标的选择,我们可以看到LSTM深层神经网络的输入特征尺寸太大,含有大量的冗余信息,从而影响股票价格预测模型的预测结果。因此,选择主成分分析方法降低股票交易指数数据的维数的M3模型,和处理股票交易指数数据输入LSTM深层神经网络建立股票价格预测模型。
主成分分析的股票数据,保留85%的股票信息,股票交易指数数据的维数减少到11个维度,和选择的股票交易数据作为股票价格预测模型的输入特性构建股票价格预测模型M3_PCA (85)。验证后的股票信息保留的影响主成分分析在股票预测模型的预测效果,90%的股票信息保留在使用主成分分析在股票交易指标数据,和选择的股票数据作为输入数据LSTM深层神经网络构造股票预测模型M3-PCA (90)。
从表可以看出4,预测模型M3-PCA(80),这是建立交易技术指标数据主成分分析后,有一个预测模型确定系数为91.3%,高于3.1的预测模型M3,均方根误差也减少了0.142。比较数据7和8可以看出,预测模型M3-PCA损失(90)有一个很大的波动误差,模型预测效果不稳定。可以看出,股票价格预测模型的预测效果由LSTM深构造神经网络可以改善后进行主成分分析数据维数较高的输入特性和很强的相关性之间的数据。相比之下,系数确定M3-PCA(90)降低和均方误差增加了,所以,当太多的信息保存在主成分分析的股票数据,它会降低股票价格预测模型的预测效果。
5.3。实验分析的股票时间序列长度的选择
LSTM神经网络构建的股票预测模型、时间序列的长度的因素之一,影响股票预测模型的预测效果。根据实验结果前两部分,主成分分析后的交易指数数据作为输入变量,选择和数据处理的时间序列长度5、10、20和30日分别建立模型进行训练和预测结果如表所示5。
从表可以看出5的确定系数预测模型与序列长度为20和30减少与其他预测模型相比,而模型的序列长度10有最好的预测效果。这表明,当时间序列长度短,预测模型不学习足够有用的信息从股票数据样本;当时间序列的长度很长,从训练样本预测模型学习太多的信息和可以学习一些嘈杂的信息预测模型,使预测模型变得不那么有效。
6。结论
本文首先描述了股票交易技术指标,并使用主成分分析处理数据的股票交易技术指标通过分析股票交易技术指标的特点。基本的股票交易数据和处理股票交易相结合技术指标数据,并作为预测模型的输入数据。LSTM深选择神经网络构造股票价格预测模型,预测股票价格。详细的演示实验进行分析的输入功能,时间序列长度和网络结构影响股票预测模型的有效性,这样股票价格预测模型可以被训练来适应股票市场具有良好的预测效果。这提供了一个精确的股票价格预测模型的智能预测模块股票智能预测系统。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突的这方面的工作。
确认
这项工作是支持的青年项目的教育部人文社会科学,21 yjczh003。