文摘

本文提供了一个深入分析机研究股票价格之间的关系,通过机器学习算法指标。由一个金融股票价格很难预测公式,因为有太多的因素会影响股票价格。随着计算机科学的发展,作者现在使用许多计算机科学技术来更准确地预测的股票价格。在这个项目中,作者用机器学习在R Studio预测的价格35股票在纽约证券交易所交易和研究之间的相互作用四个指标在不同国家的价格。进一步,提出了股票和指标在不同国家之间的联系,然后使用预测来优化这些股票的投资组合。为了完成这个项目,作者使用线性回归,套索,回归树、装袋,随机森林,提高了树进行分析。实验结果表明,MRDL深多个回归模型提出了股票的收盘价格趋势预测均方误差区间[0.0043,0.0821]。KDJSV,此外,80%的提议DMISV MACDV,第一劝业股票买卖策略有一个返回大于10%。实验结果验证该买卖策略的有效性和股票价格趋势预测方法。与其他算法相比,该算法的准确性在这项研究增加了15%,并预测的效率增加了25%。

1。介绍

股票是一种所有权证书签发股份公司筹集资金,股东可以获得股息和红利。随着中国经济的发展,股票市场已经成为一个越来越大的一部分我们的经济市场,甚至成为我们经济发展的“晴雨表”(1]。股票市场是一个非常复杂和庞大的金融体系,所以各种经济和政治因素影响股票市场的变化在每一个时刻。股票价格的变化趋势是最关注的股东在股票市场。在我们的股票市场中,股票价格受很多因素的影响,如政策调整、经济环境以及国际形势。因此,股票价格趋势做出合理的预测一直是经济学家研究的关键困难(2]。假设一个人可以做一个好的预测股票价格的趋势。在这种情况下,他或她可以降低投资风险,结合预测股票价格趋势和股票买卖策略来帮助投资者做出合理调整投资结构,最大限度地回报。

目前,有许多指标来判断股市的股票报价,如MACD(指数平滑移动平均线),KDJ(随机指标)和DMI(运动指标或趋势指标)。是不可能考虑到所有这些时判断股票市场。选择一个或多个指标作为参考,结合市场环境来判断股票市场,就是我们所说的买卖策略。选择合适的买卖策略可以帮助我们从众多选择最理想的股票,并确定何时购买和出售股票,股东的投资风险降低3]。

机器学习技术包括许多不同的方法来做分析。更深入的了解不同的方法可以帮助工作使预测更健壮、更准确。因此,机器学习是一个重要的工具,可用于金融世界。在这个项目中,作者使用线性回归,套索,回归树、装袋、随机森林,提高了树的分析。作者将给每个方法的简要描述在接下来的部分。

线性回归模型是一个线性分析方法,模型可以写具体

从模型公式可以看出,线性回归模型很容易解释。 是拦截。 的斜率是变量 线性回归模型采用最小二乘法估计参数(4]。

套索模型是一个更现代的选择分析。传统上,模型线性回归模型和岭回归模型将包括所有变量的结果。然而,拉索模型可以迫使一些系数为零,这使得它更容易理解。套索估计 是通过最小化以下方程:

回归树模型有许多优于前两种方法。首先,回归树模型是易于使用,以及由此产生的规则易于理解和实现。第二,在回归树模型变量的选择和减少是自动的,不需要统计模型的假设。最后,回归树模型不需要大量的使用任务交付数据。然而,回归树模型可以有很高的方差。

装袋(引导聚合)模型是一个解决问题的办法产生的高方差回归树模型。装袋模型也是一个简单的分析方法,但由于强大的思想。它使用平均减少方差和引导,确保大训练数据集(5]。然而,由于装袋过程涉及到随机选择的一个子集的观察,解释结果是很困难的。这个问题可以通过使用相对解决影响情节。本文主要关注美国股市。后续研究将考虑更多的本地股票市场。

随机森林模型,提高了树模型只是模型,建立在袋的方法。部分依赖图和相对重要性图表的方式来解释这些模型很重要。

使用这些机器学习方法,作者可以更好地预测股票价格,和一个可以有一个深刻的理解之间的联系指数在不同国家的价格。预测后,作者将用天真的投资组合优化的启发式。如何获取有价值的信息从大量的股票历史数据?作者研究股票的买卖点,结合深入学习方法来预测股票价格趋势,挖出股票的投资价值,并协助股票投资者在做投资决策。这些研究具有理论和实践意义。

本文的其余部分将进行如下。作者回顾了历史文献2。节3作者介绍了本文中使用的方法和分析。作者讨论的影响预测和投资组合优化的结果部分4。节5,作者总结道。

2。文献综述

2.1。机器学习和优化

机器学习技术和优化数学互动。机器学习技术的坚实基础optimization-however,机器学习的发展和优化专注于不同的领域。机器学习的重点是更直接的数学和生成健壮的常规优化代码(6]。但优化更关注于精度、速度和鲁棒性。

拉索是一个方便的大规模预测模型选择工具。传统OLS回归和逐步回归等方法随机误差。此外,当真实的数据集进行分析R,结果表明,套索执行更好、更准确地比其他传统的方法。另一方面,基于预测曲线拟合和预测结果的均方误差,获得最高精度使用MRDL_4模型来预测股市的30天的趋势。接下来,作者比较了MRDL_4模型与传统的多元回归模型(MLRM)。实验表明,MRDL_4模型适合预测曲线比多个回归模型,验证了该方法的有效性。然而,不同的参数设置MRDL模型对预测结果产生影响。下一步将是调整模型的参数和训练MRDL模型提高预测精度(使用不同的优化函数7]。

2.2。股票价格变动的决定因素

Jothimani回归方法分析使用SSE综合指数和预测股票价格(8]。Asghar用偏最小二乘法做一个简单的预测股票价格的9]。曹等人使用最小二乘回归模型训练选择黄金现货的价格作为一个影响因素来预测黄金股的趋势(10]。Livieris使用一维线性回归方法结合最小二乘回归系数来分析和预测运动训练的人均国内生产总值和人均消费在31个省(11]。阿特金斯等人用最小二乘回归模型训练分析钢筋价格的趋势(12]。

预测股票价格波动是金融世界的中心和具有挑战性的问题。有成千上万的因素会影响股票价格的方向。公司的现金流是一个重要的因素在预测股票价格变动(13]。第二个重要的预测是多样化。青江等人提出使用一个扩展的短期记忆网络(LSTM)来预测股票价格14]。高等人预测未来市场价格基于深度信念网络组成的多层随机隐藏变量(15]。哈克等人预测股票价格基于限制玻尔兹曼机的结构算法在深层信念网络(16]。Ghazanfar等人预测股票价格基于递归神经网络的多因素训练模式17]。帕里克说等人期望股票价格基于多元回归神经网络结合提取有关新闻文本特征(18]。Weihua陈等人结合深入学习方法与股票论坛数据来研究股票市场波动预测精度(19]。

2.3。预测股票价格的机器学习

一个基本的方法是关注生成的模式在股票市场从这些模式和提取知识预测未来股票市场的行为。一个必要的过程是使数据容易可分类的。机器学习中所有方法可以用来预测股票市场,大部分都是足够的和简单分析。

由于众多因素影响股票价格波动和金融市场复杂性高,多数学者在过去的学术研究股票市场选择使用复杂的技术或方法来预测股票价格走势来判断股票买卖点(20.]。这些理论主要涉及股票买卖交易模型丰富了理论知识在金融领域,但随着模型的复杂性增加,被他们的培训模式的时间消耗增加。如果投资者不熟悉股票的运动,他们可以很容易地从股票市场蒙受损失。使用机器学习进行股票价格的预测是提高股票进入市场变得越来越重要。人工神经网络可以在预测股票价格表现得更好。和决策树可以提供一些规则来描述预测。结合这两种方法可以给我们一个全面的知识股票价格预测。

3所示。方法论和分析

3.1。在Excel中收集和处理数据

所有这些35股票价格和四个小公司已经收集了来自雅虎财经。时间从3月7日,2018年3月5日,2021年。价格从雅虎财经下载时,有一些股票和小公司用null值,这些空值替换为相应的股票价格的平均值。此外,在这个项目中,作者用百分比变化预测,也就是说,下面的公式:

此外,作者创造了一个滞后变量的百分比变化,消除国与国之间的时间差异的影响。DenseNet网络的每一层连接到任何其他层前馈的形式,和任何的输入层是所有前一层的输出,和层本身的输出是输入的所有后续层,每一层连接到输入数据,这减少了错误的输入多个层和优化梯度之间的信息传递和信息传递21]。这个优化梯度和信息的流动和提高数据的传输特性。更重要的是,DenseNet网络正规化的影响,这就缓解过度拟合的问题在一定程度上的数据集和更有效地利用数据特性,如图1

此外,DenseNet网络不同于残余网络(ResNet),每一层都有其重量和参数的数量是巨大的。此外,DenseNet网络没有获得新的网络体系结构通过深化网络层的数量,但提高了利用参数通过重用的特性,所以它需要更少的参数和更容易训练网络。正向和反向传播神经网络,ReLU函数只有一个线性关系,所以它花费更少的时间来训练模型。另一方面,ReLU功能不会产生梯度饱和如果输入z是一个真正的数量大于0。因此,ReLU函数作为激活函数的神经网络。

回归模型深度MRDL目标函数是最小化均方误差预测和真实值之间的收盘价计算如下:

2显示列车MRDL_4模型所需的时间与不同数量的隐层神经元及其培训的损失。因此,在本节中,MRDL_4模型使用64个神经元隐层,和64年MRDL_4隐含层神经元的输出H1作为隐层的输入H2, H2和隐含层由小批量的梯度下降法调整。64个神经元隐层H2的输出作为输入的输出层,每个输入数据的重量也决定使用小批量的梯度下降的方法。

DMI是一个中长期指标用于分析股票价格的趋势。大多数现有的股票分析指标计算通过使用每天的股票的收盘价来计算每个索引,忽略了真正的股票当日的困难。例如,当一只股票的打开和关闭一天的价格是一样的前一天的打开和关闭的价格,但最高(最低)一天的价格是不同的,那么这个股票的报价上下两天是不一样的。在大多数其它指标,这是非常难以反映。DMI指标由两组四个参数:一个多头/空头指标包括向上运动+ DI和向下运动−DI和趋势指标,包括ADX ADXR。给定一个股票XDMI的参数指标定义和计算如下。该方法是一种压缩估计。它获得一个更精致的模型通过构造罚函数,这使得它压缩一些回归系数,也就是说,力系数绝对值的总和小于某一固定值;与此同时,设置一些回归系数为零。因此,收缩子集的优点是保留,它是处理数据的偏差估计和多重共线性。

长期/短期指标+ DI和−DI代表的力量股票价格的上升和下降的趋势。+ DI越大,意味着更强的上升趋势,而一个更大的−DI,相反,意味着一个更强大的下降趋势。如果+ DI上涨和−DI下降,如果+ DI穿过−DI,股票价格就会有一个向上的波和买方的力量将增加;相反,如果+ DI瀑布和−DI上升,和+ DI穿过−DI,然后会有一个下行波和卖方的力量将会增加,代表部分股票价格下跌。

一般来说,运动+ DI和指标−DI是最准确的预测短期股票买卖操作,当股票在一个振荡上升趋势,因为在一个振荡下行趋势,反弹是短暂的,和运动指标+ DI和−DI要花很长的时间来反应,因此不可能准确预测上升趋势是否可以继续在这个时候,和同样的问题存在于整合趋势。此外,需要注意的是,当指标上升+ DI上升20或低于50以上,股票可能是一个中间上行波,同样的,当下降指标−DI上升20或低于50以上,股票可能是一个中间下行波。如果两个+ DI和−DI上下波动的基准行20日股票大多是在一个盒子里,股票市场是长期和短期之间的平衡力量。

3.2。描述性分析

为了更好地理解数据集,作者将35股票分成四类。Airline-related股票:木豆,UAL、碱性SKYW, ALGT,保存,会计师,JBLU;运输和协调:UPS,都不会,纳米,EGLE, TK, EXPD, HUBG, DSX;交通运输类股:干茎,CHRW、ODFL KNX, ASTG,亚洲,已经,LSTR,R,用OSG JBHT STNG、铁路、NSC, CSX, UNP, MRTN等等。分类步骤后,分布、相关性、线性关系和季节性的影响进行了分析。

首先,股价的变动百分比的分布和靛蓝的价格是。一些股票和小型股比例变化变化很大。例如,股票与航空相关的改变超过其它股票。图中可以看到3我们选择四个股票有关航空和绘制盒阴谋的分布。百分比变化范围从-40%到40%。

如果ADXR ADX十字架,十字架上被称为黄金交叉,形成明显的实线在图3。这表明一个股票的上升运动的时期。如果ADX ADXR上升到高于50,与此同时,股票市场将有一个中间或更高的上升运动,如果它移动到80以上,股票市场将有一倍以上的市场份额。如果ADX ADXR向下移动到20日,股市正处于整合阶段,没有市场。当ADX之间的距离、ADXR + DI,−DI线缩短,股票市场也在整合,但不同之处在于,该方法利用DMI指数来确定股票市场是扭曲的。

此外,它是发现价格的百分比变化指数小于股票的价格变化的百分比。大部分的百分比变化指数价格在-10%和20%之间。

对于一个给定的股票的每日数据,DMISV买卖原则算法用来计算输出buy-sell点,和buy-sell操作的执行是基于buy-sell点,和股票回报计算方程(6),从而验证DMISV买卖原则的有效性。

第二,相关股的比例变化和线性关系检查。结果是,有一个积极的股票在同一分类之间的关系。然而,这种关系可能不是线性的。让我用船运和协调类别为例。图4显示了这些股票的散点图;我们可以看到,有一些积极的线性关系,如上下都不会。

此外,来自不同国家的指数之间的关系是通过散点图不清楚。从图可以看出5只有SPX NDX有强烈的积极关系,因为他们都是指数来自美国。

股市联动的范围可以有共同的倾向之间、不同国家的股票指数之间的运动之间的一个国家的股票市场和各部分不同的股票资产的价格在每一个环节。

基于原则的区域范围和市场范围的股票指数和股票由大变小,股市联动的主要四个方面介绍了世界股票指数之间的联系方面,同样的国家之间的不同股票指数之间的联系,各个部分之间的连接相同的股票市场和不同的行业,和链接个股中相同的部分22]。第三,季节性效应进行了分析。结果是,只有一些股票相关航空公司有很强的季节性效应。我们可以看到在图6达美航空的股票价格从2018年10月至12月。季节性效应可能是由于假期。经济基本面假说是基于有效市场假说,它声称,股票市场之间的联系来自经济体之间的联系的基本因素。经济基本面,内在原因驱动冲击不同市场之间的传播主要包括市场的微观结构、经济体制、产业结构、宏观经济政策、文化背景。

此外,还发现airline-related股票由COVID-19影响最大。我们可以看到在图7,达美航空的价格相对稳定,直到COVID-19有显著的波动从COVID-19开始。当一个国家的股市遭受资本冲击,投资者在另一个国家的股市不能准确地确定资本冲击是经济风险爆发的结果或系统性错误根据可用的信息。此外,再加上地理差异,政策差异,和制度差异,这导致非理性的决定在经济层面,也就是说,投资组合的调整,导致股市投资股市的波动,所以股市蔓延到下一个。这反映在开放股票市场价格的不同影响的开放时间开放的价格之前打开的股票市场;此外,股市的收盘价开幕式当天影响股票市场价格的第二天。股票市场的联动效应蔓延在金融危机期间更严重。

金融自由化在世界经济越来越被广泛接受,同时,一系列管制措施逐步实现在许多国家,进一步打破金融市场之间的壁垒,投资者可以将自己的资产分配给多个市场,他们希望,和场景的交叉投资逐渐显现。一个国家的股票和货币市场资本流动的影响这些特工在股票和货币市场交易,因此创建一个两个市场之间的联系。同时,由于逐步分解之间的资金流动障碍的各种金融市场,交易实体可以互操作在金融市场的融资资金。在当前形势下,中国股票市场的主要交易实体,如证券公司、信托公司、基金公司,可以通过银行间拆借市场和银行间债券市场短期融资,这种融资活动将导致一定程度的资本流动从货币市场资本市场,这是金融市场的资金流动,使得intermarket。这是金融市场的资金流动,使市场之间的联系更加紧密。

4所示。结果分析

4.1。股票价格的预测分析和印染价格

每个股票和指数进行了分析通过使用线性回归,套索,回归树、装袋、随机森林,提振了树木。对于每个股票,作者使用美国指数和百分比变化的滞后变量指标,以及所有股票的滞后变量的百分比变化。让我用KNX股票作为一个具体的例子来说明我的预测分析。

是最简单的线性回归模型。在线性回归模型中,只有百分比变化的滞后变量的SPX, ODFL的百分比变化滞后变量的百分比变化SKYW, MRTN百分比变化的滞后变量,和ALGT滞后变量的百分比变化显著。均方误差平方只有0.3105和4.2346。有太多的预测时,线性回归是不够的,难以解释23]。

拉索模型结果将更方便,因为它允许一些系数为零。此外,拉索模型的交叉验证表明,当我们获得最低的MSE,回归树模型结果在17个终端节点。我们可以看到这个结果图8

大多数的终端节点树的右边,也就是说,当百分比变化SPX收盘价大于−0.64185。在前两个层次,回归树模型只使用的百分比变化SPX的收盘价。最后,装袋,随机森林,提高了树。有太多的预测模型;所以要理解结果,你可以看看意义的情节。图9显示了情节的重要性提高了树,如图9

前两个预测百分比SPX和NDX的变化。事实上,对于大多数股票价格变化百分比SPX和NDX是最重要的预测因子。

研究股票市场关联理论认为股票市场联系主要是一个共同的趋势变化多个股票资产的价格在股票市场。这个常见的股票市场变化趋势的研究通常是研究两个方面的回报和波动性的股票指数。这项研究的具体范围是指股票市场联系的四个方面:股票指数之间的链接,链接在不同的股指之间相同的国家中,不同行业之间的联系部门和在相同的股票市场,同样的行业和个股之间的联系。最权威的定义市场传染理论从方法论的角度是指显著增加股票市场之间的联系在一个国家或一个地区的金融危机。这一理论是一致的理论增加了股票市场联系后,一场金融危机。市场危机传染理论认为,股票市场不同的国家之间的传播主要是通过溢出效应,季风影响,和净传染效应,贸易溢出和相应的传染机制,金融溢出、产业链接,和净传染。链接之间的关系和市场蔓延是互补的;建立股票市场之间的联系,通过不同的传染渠道,而金融危机的出现打破了原来的市场之间的联系,以及危机加强股票市场之间的联系的过程中市场蔓延。

4.2。天真的启发式和组合优化

本文确定的延迟顺序Johansen协整基于SC和AIC准则和使用Pantula原则确定测试模型有一个确定的趋势项,线性确定性趋势项,二次趋势项。Johansen协整检验表明,有一个欧洲和美国股市的长期均衡关系,prefinancial危机时期和在次级和欧洲债务危机。这表明成熟和发达的资本市场如欧洲和美国股市已经逐步发展经济基础水平联系在经济和金融全球化的背景下,虽然国际金融危机造成的传染效应会削弱经济基础水平的联系,不可能完全抵消,所以欧洲和美国股市将显示长期联系。此外,技术的广泛和快速传播逐渐增加了欧洲和美国经济的相互依存和加强国际经济协调机制,和经济的全球化不断导致金融的全球化;因此,欧洲和美国股市之间的联系已迅速增加。

对于投资组合优化,天真的启发式方法。天真的启发式是基于股票价格预测,排名基于潜在收益和股票分配每个股票同等比例的资本。此外,股票价格预测的计算公式生成的套索。和潜在的回报是今天的收盘价减去前一天的收盘价。这里有一些建议10只股票从3月8日到3月12日,2021年,如图10

对于一个给定的股票的每日数据,KDJSV买入/卖出策略算法用来计算输出buy-sell分和执行买卖操作基于买卖点。KDJSV买入/卖出策略的有效性验证通过计算股票回报。时达到最高的股票回报多空指标增长率等于阈值c = 4。实验结果显示在列R8。使用KDJSV买卖策略算法,78.86%的股票回报率大于30%时c= 4和5.76%的股票有一个负回报。

5。结论

自股票的例子都来自美国市场,结果表明,其价格与SPX和NDX价格高度相关。不同股票之间的联系是不明显的。很难用其他股票价格预测。然而,股票在同一地区倾向于朝着同一个方向。此外,股票价格和指数价格往往在同一方向移动。但是,指数价格的运动将小于股票价格的运动。股票收益最高,多空指标增长速度iDK阈值。专注于52代表不同行业股票的上海和深圳股票市场,买卖点计算使用日常数据从2013.10.1 2018.10.17和KDJSV买卖策略算法。78.86%的股票c= 4回报大于30%,和5.76%的股市已经负回报。DMISV买卖策略是基于DMI指标。KDJSV买卖策略是基于KDJ指标。MACDV买卖策略是基于MACD指标。第一劝业买卖策略,提出了基于DMI, KDJ, MACD指标。股票系统是复杂的,有很多影响因素。本文只股票开盘价、收盘价、选择股票本身的和其他因素,但与股票相关的其他经济因素,如宏观经济和金融政策不考虑;因此,选择其他股票价格波动影响因素作为自变量来判断股票价格趋势是将来研究的内容之一。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。