文摘
准确和有效的金融数据分析是非常重要的对于投资者避免风险和制定有利可图的投资策略。因此,财务数据的分析具有重要的研究意义。然而,金融市场是一个复杂的非线性动态系统受到许多因素的影响。是非常具有挑战性的分析财务数据根据获得的信息。其中,选股是最典型的金融数据挖掘问题。选股的核心是设计一个系统的评分机制,定量评分股票,更直观地反映股票的投资价值。评分机制是基于假设股票得分越高成绩较差有较高的投资价值和股票投资价值较低。选股模型提出了主要包括两个步骤:股票预测和股票得分。首先,构造股票预测和使用机器学习预测方法来预测每个股票的未来价格。其次,构造一个股票评分机制来评估每个股票通过预测因素和财务因素在前面的步骤。 Finally, select high-scoring stocks and make equal-weight investments. This paper applies the model to the empirical study of the A-share market, verifies its feasibility and effectiveness, and makes a systematic comparison with other benchmark models.
1。介绍
随着市场经济的发展,股票的发行和交易发生,促进了市场经济的发展。近年来,股票已经显示出顽强的生命力,和股票市场已逐渐成为整个金融行业不可或缺的一部分,尤其是证券行业。为了更好更快地发展国民经济,随着我国改革进入深水区,在金融部门的改革正在逐步深化(1]。预测股市的发展一直是学者研究和探索的方向来自各行各业。预测股票预测的一个分支的发展。前提是使用科学的方法和方法,有必要知道金融市场的发展规律,了解经济学,充分掌握金融市场的发展规律和当前的发展阶段2]。
面对困惑、高维和大量的历史股票信息,这是一个合理的、有效的方式来分析和过程在计算机的帮助下,从单调乏味的工作,从而使股票分析师专注于分析关键问题(3]。计算机的高速处理能力可以为客户提供更全面和准确的预测在一个短的时间。此外,算法可以提供洞察从小说的角度预测问题实现更好的预测结果,这是人类的分析。模型算法,如机器学习和深度学习适合高维大数据的分析,和电脑的使用自定义辅助软件对股票预测不同的服务对象已成为一个研究热点4]。本文将神经网络和支持向量机结合起来,两个最广泛使用的机器学习模型,并提出改进等问题提供新的解决方案模型混合和股票预测(5]。根据现有的股票分析和预测方法,可以最大化全民的参与,和没有必要有足够的金融专业知识,参与股票投资。研究主题与时间序列等特殊性质和高维股票历史数据,许多预测方法可以用于文献[6]。因此,股票预测具有非常重要意义的研究课题从理论和应用的角度,满足当前的需要。
2。初步研究
2.1。问题定义
整个数据集D= {X,Y}是由输入的因素X和真正的标签Y对应的输入因素X和预测的结果Y通过使用模型吗F(·)预测的数据集D。当设计一个特定的预测方案,输入因素X和标签Y根据预测模型可以区分吗F(·)和预测的目的。因此,输入因素X可时间序列数据、文本数据、二进制特征,等等,和标签Y可以是一个特定值,分类结果,等等。
显然,金融股票预测是一个复杂的问题,它具有以下五个特点:(1)适当使用机器学习来分析和预测金融股票。,输入源的股票预测是巨大的,高维异构和机器学习算法,尤其擅长处理这类数据(7];(2)间接因素,如在互联网上实时数据和公众的情绪也会影响预测结果;(3)在考虑数值数据作为输入功能,基本交易数据和基本的技术指标计算交易数据是巨大的和需要选择,此外,这两个特性可能互相影响;(4)每个股票都有自己的特定开发法律,和训练模型算法并不一定适用于其他股票的数据集;和(5)预测输出,它可分为分类预测和回归预测,根据预测的目的。分类和回归预测不仅反映趋势和股票价格的预测,也为投资策略提供新的想法和价格逆转点(8]。
2.2。BP神经网络
神经网络模型是目前应用最广泛的神经网络。同时,神经网络的预测能力只有在训练和学习,能够适应预测需求,获得学习知识的结构,并将非线性映射到线性函数(9]。主要的结构图和流程图如图1和2。
BP神经网络预测股票时,时间序列我{X}被视为输入值的输入层,和它的一部分被选中进行训练。价格{Y我}得到训练结果与实际价格和调整反馈。经过多次迭代,得到预测模型,然后价格一个+b+c(c≥1)预计在将来的某个时间。价格的非线性关系Y一个+b+c时间序列预测的时候可以通过以下公式表示:
拟合模型f是通过训练集获得的时间序列X一个+Xb++X一个+b,无价值的预测价值。
2.3。支持向量机回归
支持向量机(SVM)是第一个提出Vapnik et al。10)基于结构风险最小化准则,构造最优超平面分离这两种类型的样本在最大的程度上。支持向量机回归(SVR)的扩展支持向量机(11]。SVR与支持向量机的基本原理,但其目的是不同的。它的目标是构建一个最优分类面最小化所有样本的错误分类平面(12]。
有n个训练样本,x我是输入变量和y我是输出变量。SVR可以被看作是一个二次规划问题,见如下方程: 在哪里代表预测误差的边界。
为了保证模型的泛化能力,松弛变量和介绍了修改方程(2),即
在哪里C是惩罚因子,它是最大的宽容错误。
为了解决方程(3)和(4),介绍了拉格朗日函数和转化为对偶问题如下:
解决了拉格朗日方程,得到最优的解决方案和如下:
3所示。金融选股模型的设计基于机器学习模型
3.1。股票预测模型框架
选股模型提出了在本文中主要包括两个步骤:股票预测(用来构造预测因素)和股票得分(用来评估股票价值)(13- - - - - -15]。总体框架如图3。
3.2。金融股票预测和得分
3.2.1之上。金融股票预测
为了构造预测,我们预测所有股票的回报。的时期 ,使用 事务数据预测的股票价格t+ 1,如下所示(13]:
在哪里股票价格的预测吗我时期t+ 1,是kth股票的交易数据我时期t。共有17个交易因素是用来预测股票的未来价格。17日交易因素大致可以分为4类。数量和价格因素包括前一天的收盘价,交易量,开盘价,平均价格,收盘价,最低价格,营业额,最高价格14]。估值因素包括P/B比,P/B比,P/E比,P/年代比(15]。风险因素包括人民币的起伏,跌宕起伏,周转率。规模因素包括总市值和总股本。预测的股票价格通过方程转化为预测股票回报(10):
在哪里代表了预测股票的回归我的时期。此外,规范化获得 ,和过程方程所示(11)。将被用作预测股票的得分在第二步。
在哪里 预测的平均值和吗 的标准偏差预测,在哪里N是股票的数量。
3.2.2。金融股票得分
除了预测因素、财务因素 也被引入我们的选股模型。这些因素被广泛使用在现有的选股模型,和他们通常反映公司的操作条件。例如,罗伊通常反映了公司的盈利能力;负债与股东权益比率(DE)通常反映了公司的酒吧比;流动比率(CR)通常反映了公司的流动性;和库存周转率(ITR)通常反映了公司的运营效率和运营收入(16]。增长率OIG通常反映了该公司的增长等等。与预测收益,规范他们如下17]:
在哪里 金融因素和的平均值吗 是金融因素的标准差,在哪里是股票的数量。
股票的我分数的时期t, ,可以被描述为一个线性组合的预测因素和财务因素如下:
在哪里代表的重量预测因子,代表的重量金融因素,代表股票的综合得分。
每只股票进行排序根据其综合得分从高到低,表示 ,如果 ,然后 在哪里 代表任何两个不同的股票。在每一个时期,顶部米股市大盘投资选择。投资组合回报如下:
在哪里是股票的数量,投资者希望选择和是返回期间股票选择排序的时期t+ 1。是股票的平均收益率选择根据模型在t + 1。
本研究介绍了传播模型的目标函数(适应度函数)。适应度函数(目标函数)被定义为顶级股票的投资组合回报率多空期后综合得分和股票综合得分。
3.3。评价指标
均方根误差(RMSE),平均绝对百分比误差(日军)和定向统计(D-STAT)常常被用于评价预测模型的有效性。本文还使用上述三个指标来评估各种预测模型的有效性,本文如下(18]:
在哪里测试时间的数量,是股票的数量,股票的价格吗时期 , 预测股票价格,什么时候 , ;否则它是0。此外,模型的运行时间也是一个重要的指标来评估模型的性能。它将覆盖整个培训期间的时间和测试时间。
选择高质量的股票大盘投资意味着构建一个大盘"投资组合。投资组合收入可以最直观地反映股票选择模型的有效性。投资组合回报率越高,选股模型的效果就越好。因此,本文采用平均回报的投资组合在测试期间的选股模型的评价指标。此外,投资组合风险也是一个关键问题。SharpeRatio是一种常用的指标来描述投资组合风险。本文还使用SharpeRatio作为选股模型的评价指标之一。具体的计算公式如下(19]:
在哪里投资组合的平均回报的吗期间,也就是说,战略收益的平均值;无风险回报的吗期;是期望;和是投资组合波动性,即战略回报。
3.4。Hyperparameter设置
所有参数参与模型和基准模型提出了参考先前的研究,如表所示1。不管它是一个优化模型和预测模型,随机变量或参数,生成不同的优化值每次运行模式(输出结果不能保证最优结果)。因此,所有模型运行30倍,和他们的平均值作为最终的输出结果。
4所示。实验测试和结果比较
4.1。实验数据集
成交量和中国a股市场总市值在全球金融市场增加一天,和它的地位正在增加。因此,a股乐队字段被选中作为本文的实验样品。总共有2473只股票作为候选股票投资组合,不包括金融行业股票不同的资产负债表结构和特殊处理股票圣这可能是不稳定的。在现有的股票预测模型,本章将介绍收购,加工,和清洁的数据源股指数据和文本数据的两个方面。其中,股票指数数据指的是股票交易相关的数据。新闻的文本数据主要由数据。用于预测股市的交易数据和财务数据的股票得分都是季度数据,他们都来自风数据库。
4.2。基准模型的比较
如表所示2,本文介绍了各种各样的基准模型,包括不同的预测模型(标记为M1),不同的阶乘设计(标记为M2),不同的优化算法(标记为M3),和不同的健身功能(标记为M4)。其中,M0是选股模型本文提出了。接下来,我们将详细介绍各种基准模型的施工方法。
在每个基准测试方法,以确保公平的比较,每种类型的基准模型只改变其独特的变量。摘要利用M1型、BP神经网络和支持向量机回归(SVR)是两个典型的预测模型,广泛应用于股票预测,投资组合,和股票选择的研究。因此,本文将介绍这两种预测模型作为基准模型。M2型,模型提出了包含两种类型的因素,即基本因素和预测因素,像A0表示。现在两个新的设计引入本文的基准模型。设计A1意味着只有金融因素被认为是但不是预测因素,和设计A2意味着只有预测因素考虑而不是金融因素。M3型,较流行的智能优化算法在股票选择模型介绍了作为本文的基准模型,即遗传算法GA算法和粒子群算法。M4型,基于智能优化算法的选股模型,四个常用的优化目标函数(健身功能)作为本文的基准模型,即信息系数(IC)、股权(CR),多空组合赢率(IFHR)和绝对赢率(赢)。
在哪里是培训的数量,是股票的排名在 - - - - - -th时期,股票的收入排名在吗t+ 1,协方差,方差,是选择股票的数量,然后呢是股票选择策略的平均回报的吗t+ 1。它输出1时 ;否则,它输出0。见表1为基准模型的设计。
4.2.1。准备比较不同的预测模型(M1)
当构造预测,本文使用极端学习机榆树预测股票价格。为了证明榆树在股票预测的有效性,两个经典预测方法,BP神经网络(摘要)和支持向量机回归(SVR),介绍了作为基准模型。表3显示了预测的结果。其中,概率。(R1)选股模型的概率是本文的季度收益将高于R1的季度收益;概率。(R2)的季度收益的概率是选股模型,本文将高于R2的季度收益;和马克斯。的平均值是本文的选股模型的最大回报;分钟的平均值是本文的选股模型的最低回报;HitRate代表的概率模型获得积极的回报(20.]。
在表中所示模块3选股模型,在基于“增大化现实”技术的使用榆树表现更加突出,SharpeRatio,概率。(R1)概率。(R2), HitRatio。同时,SVR选股模型在马克斯取得了一点优势。摘要和分钟而选股模型评价指标处于劣势。这表明预测因素由榆树可以更好地协助证券选择决策。为了统计证明使用榆树选股模型明显优于其他基准模型,本节测试每个基准模型。过程如下:首先,在每个模型执行正常测试,正常测试是测试的先决条件。第二,构建一个零假设,H0:选股模型的基于“增大化现实”技术的使用榆树是明显低于其他基准模型。根据模块B,所有模型通过正常测试,所有模型的值小于5%。在95%置信水平,这表明基于榆树比选股模型的基准模型。这证明预测因素由榆树可以更好地协助选股决策。
模块C显示了评价指标的预测方法。显然,使用榆树的方法来预测股票价格把所有基准模型在计算时间,定向精度D-STAT,预测准确性日军,RMSE。在本文的研究中,榆树有预测能力更加突出。同样,为了统计证明预测结果基于极限学习机的榆树明显比其他基准模型,本节进行Diebold-Mariano测试每个基准模型(DM测试)。流程如下:构造一个零假设,基于榆树H0:预测结果明显低于基于基准模型的预测结果。DM测试结果模块D表所示3。所有的值都小于5%,表明预测结果基于榆树比基准模型在95%的置信水平。这证明榆树有更强的预测能力。可以看出,基于榆树的预测结构可以更好地协助选股决策。
4.2.2。比较不同的阶乘设计(M3)
选股模型的创新提出了本文使用的预测因素和财务因素来评估股票的价值。预测因素包含股票市场未来的信息,和股票的基本因素包含历史信息。为了证明这一创新设计的有效性,提出选股模型A0是与基准模型A1和A2的基准模型(如表所示4)。其中,基准模型A1只使用基本的因素,与传统的选股模式相似,指黄所做的研究,和基准模型A2只使用预测因素,指的是黄的研究和Quah。
表4显示了相关的结果。同时,A0选股模型在基于“增大化现实”技术方面取得了杰出的表现,SharpeRatio,最小值和概率(R1)。然而,只有A1选股模型和A2选股模型没有出色的表现引起了不同的评价指标。为了统计证明使用A0选股模型明显优于其他基准模型,本节测试每个基准模型。过程如下:首先,在每个模型执行正常测试,正常测试是测试的先决条件。其次,构造一个零假设,H0:选股模型的平均回报AR A0使用预测因素和财务因素显著低于其他基准模型。根据模块B,所有模型通过正常测试,所有模型的值小于5%。这表明在95%的置信水平下,选股模型A0使用预测因素和财务因素比其他基准模型。这证明增加预测因素可以更好的协助选股决策,和金融因素同样重要。
4.2.3。比较不同的优化算法(M3)
摘要微分进化算法用于优化各种因素的权重。为了证明的有效性,经典的遗传算法遗传算法和粒子群算法PSO是设置为基准模型。如表所示5训练和测试期间,本文使用DE选股模型优越在平均回报AR和SharpeRatio,这不仅表明,DE算法可以更好地协助选股决策但也表明,该算法可以达到最好的性能。优化的因素权重比基准模型有更强的泛化能力。为了统计证明采用的选股模型明显优于其他基准模型,本节测试每个基准模型。过程如下:首先,在每个模型执行正常测试,正常测试是测试的先决条件。其次,构造一个零假设,H0:选股模型的基于“增大化现实”技术的使用显著低于其他基准模型。所示的模块,所有模型通过了正常测试,所有模型的值小于5%。这表明在95%的置信水平下,DE-based选股模型比其他基准模型。因此,它是统计证明了微分进化算法可以更好地协助选股决策。
4.2.4。比较不同的健身功能(M4)
摘要传播适应度函数(旧标准汉数字)用于选股决策,和四个不同的健身功能,如集成电路、CR、IFHR,并赢得现在作为基准模型。结果如表所示6。选股模型使用传播适应度函数在平均回报AR有杰出的表现,夏普比率。选股模型使用适应度函数可以更好的协助证券选择决策。为了使用传播统计证明选股模型明显优于其他基准模型,本节测试每个基准模型。过程如下:首先,汉在每个模型上执行测试,正常测试是测试的先决条件。第二,构建一个零假设,H0:传播的股票选择的平均回报AR模型明显低于其他基准模型。根据模块,所有模型通过正常测试,所有模型的值小于5%。这表明,在95%的置信度,选股模型基于传播比其他基准模型。因此,统计证明,选股模型使用适应度函数可以更好的协助选股决策。
5。结论
本文使用两个机器学习模型、神经网络和支持向量机来预测股票价格和中国a股市场进行实证研究。结果表明,本文采用的机器学习模型有明显优势的ROI和模型的鲁棒性。投资组合的回报构造使用选股模型提出了远高于平均市场表现(即。所有股票的加权组合)和中国a股指数。值得注意的是,在模型优化,预测被赋予更高的权重,这表明在选股股票预测发挥重要作用。这也支持新思想引入股票预测可以提高选股决策。特别是当比较不同的设计因素,选股模型提出了有很大的优势在基准模型A1(只考虑金融因素)和基准模型A2(只考虑预测因素)。本文提供了实证经验和模型设计指导使用机器学习进行选股。
数据可用性
数据集可以在请求访问相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
本研究支持的2020年广西职业技术学院和商业项目党建的“社会治理研究提高党的基层组织的信息化建设”(XY2020DJYB007)和2021年学校广西警察学院的科研项目“研究基层党的现代化信息技术所带来的社会治理。“2022年度基础研究能力提高中青年教师的项目在广西大学“研究量子技术使智能银行的创新趋势的时代ABCDI技术”(数量:2022 ky1350), 2022年度基础研究能力提高中青年教师的项目在广西大学“研究高校人力资源管理的创新和发展路径在大数据时代”(数量:2022 ky0860)。