研究论文|开放存取
结合研究报告和市场情绪对股票超额回报的预测:以中国大陆为例
抽象
股票超额收益的预测是定量交易的一个重要研究课题,基于机器学习的股票价格预测越来越受到重视。本文以2014年7月至2017年9月中国a股的数据为研究对象,提出了一种研究报告与投资者情绪相结合的股票超额收益预测方法。该方法对分析师发布的个股进行测度,分离研究报告关注度和评级情绪两个指标,根据外部市场因素计算投资者情绪,并使用LSTM模型表征股票的时间序列特征。结果表明:(1)采用了精度指标和F1评价指标,提出的算法优于基准算法。(2)深度学习LSTM算法的性能优于传统机器学习算法SVM。(3)投资者情绪作为模型的初始隐藏状态,可以提高算法的准确性。(4)拆分研究报告的注意力以投资者情绪和价格这两个指标作为模型的输入,可以有效地提高模型的绩效。
1.简介
股价预测是基于在过去或当前时刻的股票价格信息,在未来的股票价格预测的方法。传统的量化投资方法主要是基于在预测未来股价的经验。这种方法往往具有弱antirisk能力差的长期预测能力,以及缓慢的分析速度,并且不便于传播和推广。随机出现的统计和金融股票分析方法属于传统的机器学习范畴。他们大多使用自回归模型,随机波动模型和马尔可夫模型进行预测。用实证的方法相比,这种方法速度快。它是快速,准确,但缺点是,它可以处理的信息较少,可以与外部市场数据引起股票价格波动的因素很多完全没有处理。由于通过大数据技术的不断发展提供了大量的财务数据,有可能对人工智能的方法进入金融分析领域。因此,越来越多的研究人员已经开始使用机器学习或深度学习的方法来分析股票价格,并作出预测。相关方法在人工智能领域已经证明对大型数据集无可比拟的优异性能。 This has been verified in areas such as images [1,2]及文本[3-五]。可以预见,与人工智能相关的方法可以解决目前股票价格预测模型中存在的许多问题。由于政策、内部环境和投资者属性的不同,股票在不同的市场有不同的规律。中国大陆的股票市场属于新兴的资本市场。监管政策的不完善和大多数投资者的特点是散户投资者,媒体的报道在很大程度上可以影响股票价格的走势。丁孙的[6]研究表明,在中国A股市场,普通投资者在买入和卖出股票的行为将在很大程度上由金融机构出具研究报告的影响。与新闻媒体的报道,其中重点事件的发生,说明原来的事件相比,研究报告更侧重于与股票价格的金融和市场相关的属性,与股票价格预测的目的。与此同时,作为信息发布者,证券分析师更专业的行业背景和比普通的金融新闻记者更丰富的信息渠道,因此对于普通投资者而言,直接的和专业的研究报告是投资决策的重要参考对象。
为了更好地预测股价的中国内地股市,我们建议,结合研究报告和市场情绪来预测股价异常收益的方法。分析师和分裂的发布的研究报告所提出的方法措施个股。注意与评级情绪,基于外部市场因素计算投资者的情绪,并使用LSTM模型来表示股票的时间序列特征。我们选择A股数据从7月1,2014年,9月30日,2017年,用于实验和比较不同的算法和不同的输入。根据实验结果,我们发现,(1)该算法的准确性和F1的评价都高于基准算法更好(2)深度学习LSTM算法的性能优于传统的机器学习算法SVM(3)投资者情绪作为模型的初始隐藏状态可以提高算法的精度(4)拆分研究报告,投资者情绪和价格两项指标的注意力被用作输入模式,可有效提高模型的性能
本文的其余部分安排如下。部分2条评论分别介绍了基于机器学习的股价预测和对股价的研究报告的影响的文献。部分3介绍了我们提出的方法。部分4介绍了实验设计和细节。部分五给出了实验结果和讨论。部分6使我们的结论和指导今后的工作。
2.相关工作
2.1。基于机器学习的股票价格预测
在传统机器学习领域,Xiang [7]使用改进的梯度提升决策树(GBDT)来预测股票价格。这种模式可以挖掘当前股市一系列的相关功能,但GBDT模型结构本身不适合用于解决像股票串行数据的问题。
Du等。[8]使用了贝叶斯学习(BL)模型来预测股票价格的研究。这种模式实际上类似于移动平均(ARIMA)模型的自回归。基于统计知识,学习它的股票序列的特征。然而,BL模型本身实际上是不适合的序列数据。在深学习领域,Tsantekidis等。[9在他们的研究中提出了一个基于CNN编码器的股票价格预测模型。CNN是一个非常有效的图像输入模型。为了使其适应序列数据,首先使用编码器对序列数据进行编码,然后使用CNN进行训练。这种方法与信号和系统非常相似。在滤波理论中,序列数据可以看作是一个时间信号,而CNN可以看作是一个滤波器进行卷积。Bao等人[10]与自动编码器(AE)的长短期存储器(LSTM)组合构成基于回归神经网络(RNN)在一个特殊的算法。神经单元结构使得它非常适合于处理序列的数据,如股票。这种方法甚至增加了自动编码器进行编码,通过培训的股票序列,然后使用LSTM网络进行训练。基于基本的深度学习模式,更多的研究已经考虑到股市的基本特征,并将其纳入方法。张和谭[11]使用的历史价格数据来预测未来回报基于深层神经网络通过一个新的选股模型排名的股票。Li等人。[12]已经建立了一个系统,采用深度学习架构,以改善特征表示并使用极端学习机预测市场的影响。他们的结论是深度学习的特征表示极端学习机一起能够提供市场影响的预测更准确。Li等人。[13情绪向量是通过对新闻文章的情绪分析得到的,并将情绪向量加入到LSTM模型中来预测股票价格。香港股市的实验表现良好。
2.2。基于研究报告的股票价格预测
李等人[14认为受媒体情绪影响后,投资者会对未来资金流动和投资风险形成主观、客观的综合判断,称为“投资者情绪”。“当投资者情绪极度乐观或悲观时,股价波动性增大。同时,为了晋升,佣金收入,客户或业务萎缩,等等,证券公司的研究报告写并不总是中立,他们将与严重的选择性偏差传递信息,市场满足投资者的需要,这样的偏差往往是乐观的。以《华尔街日报》网站“与市场同步”栏目的数据为样本,Tetlock [15[]构建了媒体悲观指数,发现媒体悲观情绪异常高或异常低都会导致市场交易行为暂时活跃。Hribar和McInnis [16在他们的研究发现,当投资者情绪很高,分析师的乐观情绪更趋于明显。乐观情绪的存在往往扭曲了股票价格,严重影响投资者的决策。赵等人。[17)提出,在股价高度同步的公司中,分析师的乐观情绪往往对其后续盈利预测的准确性影响较弱。Xu等人[18]认为,乐观往往会导致高昂的交易量,但也容易导致未上市公司的负面消息及时被披露,以及未来股价崩溃的风险。陆和陈[19发现极端乐观和极端悲观对股票价格指数的影响是不对称的,短期极端悲观与股票价格指数呈负相关关系。
2.3。任务
在和股份的起伏决定股票回报率,大多数股票价格与股市环境的变化而波动。当股市处于“牛市”,大多数股票将上涨,而当股市处于“熊市”,大多数股票将跟随趋势和下降。简单地预测股票在下一个交易日上升或下降不能客观反映股票的收入。因此,本文采用股票超额收益作为研究对象,探讨在未来一定的时间间隔由个股获得的超额收益是正,负或持平。个股超额收益的计算方法如下: 哪里当日的回报率是否异常Ť股票ķ,是日收益的实际速率Ť股票ķ,是它的期望的产率(或预期的正常返回)。有许多方法来计算预期收益率正常。为了排除有关市场收益回报的一部分,本文采用马尔基尔和法玛[20]市场模型来衡量。因此,个股的实际产量可表示为 哪里是日的市场收益率Ť,是随机误差项,并估计和获得的值和 。衡量预期正常回报的模型是
最后,计算股票的累计异常收益ķ事件窗口期间:
由于中国a股市场普通投资者的换手率较高,平均持有时间在1个月左右,因此本文选取1个交易日至5、15、30个交易日的超额收益作为预测目标。
3.方法
3.1。概述
为了更好地理解股票价格之间的时间序列关系,我们的方法是使用LSTM网络[21]作为模型的基本单元,并在此基础上将研究报告和市场情绪量化到股票价格的过程中。数字1显示了我们的方法模型的结构。
首先,为了更好的表明一只股票在当前股票市场的状态,我们对股票价格(price)、研究报告评级情绪( ),研究报告的关注( )哪个连接起来得到 ,和的计算方法示于下式中:
然后,用作LSTM的输入端,和LSTM的初始隐蔽状态是投资者情绪情米。原因在于相对于股价的积极波动,市场情绪米在一段时间的稳定,可以看作是市场情绪在短期内的一个指标。最后,LSTM的输出由SOFTMAX函数计算来获得该模型的最终输出。LSTM的计算方法, , ,和将在下面的章节中详细描述。
3.2。长-短期存储网络
Hochreiter和Schmidhuber提出的LSTM [21]在1997能够有效地处理该序列中的长期相关性,并且在图其结构示2。
LSTM谎言在其存储器单元中的核心,以及相关的信息通过存储器单元传送落后。理论上,该存储器单元可以在整个序列传播过程传送的信息,以便在先前的时间的信息可以被用于预测在稍后的时间的输出,因此它可以解决传统回归神经网络的短期记忆问题。另外,信息存储在存储器单元中的向后转移的过程中,增加了LSTM或通过三个栅极删除在存储单元中的信息。这些门可以被看作是不同的神经网络,这可以训练自动学习什么样的信息,以保持或忘记。的LSTM处理信息的过程如下。首先,LSTM将使用“忘记门”,以确定哪些信息应被删除。该输入由Sigmoid函数在0和1之间进行映射。的趋势为“1”的装置,以保持所述信息;否则,就意味着忘记的信息。在“输入门”被用来确定哪个信息需要被更新。 The Sigmoid function is used to determine whether it needs to be retained. Then, the tanH函数将输入值映射到[−1,1],从而生成新的存储单元状态并将其添加到原始存储单元。接下来,要更新存储器单元的值,首先将存储器单元乘以遗忘门,丢弃需要遗忘的信息,然后将从输入门获得的输入信息相加,得到新的存储器单元值。最后,“输出门”决定输出哪个存储单元信息,即隐藏状态。LSTM的计算公式如下: 哪里 , , ,和 ,分别代表遗忘门、输入门、输出门和存储单元。为Ť时间步长,表示前一个时间步的隐藏状态,表示权值矩阵,表示s函数,,表示点乘法运算。
3.3。研究报告的衡量
我们测量从关注和评价情绪两个方面的研究报告。该研究报告的重视可以衡量的股票在整个市场分析师的普及。该评级情绪表明对标的股票未来走势的分析师的判断。
3.3.1。研究报告注意事项
不同的股票在市场上受到不同程度的关注。我们计算一个股票日研究报告的绝对数量与当月a股市场所有股票研究报告总数的比率,以衡量股票的关注度,和 。价值越大,股票分析师的注意力就越高。被计算为如下式中: 哪里是的股票研究报告总数ķ在Ť第一天为当月a股市场所有股票的研究报告总数(米)。
3.3.2。在研究报告评级信心的措施
由分析师发布的研究报告的文本中包含的个别公司的经营状况,未来的发展前景,盈利预期,投资建议和风险提示的乐观或悲观的态度。该报告中包含的信息,两个重要的关键信息:第一,额定电流,和第二,评级变化。其中,额定电流的买盘提供投资咨询,销售或持有的个股;评级变化表明额定电流和先前费率变化报告。在以前的文献中,在讨论股票投资评级对他们的异常收益率的影响时,基本的评级和评级调整总是单独分析,难以让投资者选择在这两个级别是不一致的。例如,当一个分析师给出了“持有”评级个股,以及评级调整为“向下”,更加难以为投资者决定是否买入或卖出,所以本文创新性提出了“研究报告评级情绪”指数, ,考虑到基本评分和评分变动两大因素;的计算方法示于下式中: 哪里是基础等级和是评级的变化。当某只股票在一天内出现多个评级结果时,本文将对这些研究报告的评级进行平均,得出一个综合的评级情绪。
3.4。衡量投资者情绪的
在实际的交易过程中,投资者情绪会影响投资者对未来收益的主观判断。当投资者情绪上升或变得更加悲观时,就会触发其信息的“非理性”行为,导致市场异常。投资者情绪量化的计算方法借鉴了hai yuan的想法[22],选择上海和深圳等城市交易额(VOLUME),新投资者开户(NEWIN)的数量,以及消费者信心指数(CCI)。封闭式基金折扣率(基金)和广阔的市场失误率(HS_TVR)的五个指标被用于主成分因子分析,并使用相应的方差贡献率作为权重计算每个月的初始投资者情绪指数。然后,宏观调控被引入,对变量进行回归分析,并计算出的残留值被用作投资者情绪指数。最后,这一时期的简单平均投资一世滞后于研究报告日期(其中一世 = 3) was used to obtain the final investor sentiment index.
首先,上述五个指标是标准化的,并且在这些标准化变量进行主成分因子分析(PCA)。具有最高方差的解释的三个主要组分进行选择,并且各特征值被用作权重,以获得加权平均后的因子载荷,并且随着初步情绪指数的主分量系数,初步情绪指数在示出下式:
然后,控制宏观经济变量的影响。以上述初步情绪指标作为解释变量,以及消费者消费指数(CPI),新增信贷(IC)的量,经济增长(GDP)的比率,以及货币供应量(中号2)作为解释变量(预先标准化数据,以消除二维影响),回归分析 ,残余序列可以用作投资者情绪的指标:CSI(中国情绪指数)。 哪里初步的投资者情绪指数是多少米个月,是常数,然后为待估计的回归系数。
最后,考虑到投资者情绪的滞后性,在其研究报告公布前一个月三个月的景气指数被选为计算平均值作为最终的投资者情绪指数。
4.实验
4.1。数据收集
本文选取2014年7月1日和2017年9月30日之间通过66家证券机构发布了关于2225中国A股上市公司的研究报告,为研究对象。上公布的研究报告的数量,出版日期,标题,基本的评级,并将评级变化的数据是从东方财富网站。如股票收益,流通股的市场价值,股票周转率的经济数据从数据库风取。对于选定的一段时间内,中国A股市场的走势大致可以分为两个阶段:2014年7月至2015年6月为上升期的股市,属于“牛市”和2015年7月至2017年9月是股市周期的下降,属于“熊市”。采样时间跨越牛熊周期,这可以更有效地验证算法的鲁棒性。
4.2。数据预处理
4.2.1。数据剔除
本文删除了一些异常数据:第一,未分级或不明确的研究报告;第二,新的库存数据,因为在新的股票销售的连续涨停,股票价格的波动并不真正反映市场波动的影响,并在此期间,很少有投资者能够成功购买新股票,所以从七月发出至九月2017年新股均匀消除;第三,在长期停牌时的个股研究报告,因为股票的长期停牌无法交易,而股票的价格不能与市场平均价格没有波动的比较(暂停股票不除外)。
4.2.2。评级合并
在所有收集到的报告中,总共包含了27个不同的基本评级,经过同义词合并,我们总共得到了14个不同的评级。同时,我们整理出四种不同的评级变化。参考您等人的研究[23],我们用它来分配评级和评级调整离散值。本文分配“中性”的评级为1.0,增加或减少0.1根据所述强度变化以获得基本额定G, 。具体的评分值如表所示1:
|
||||||||||||||||||||||||||||||||||||||||||||
对于四个等级变化“向上”,“第一”,“维护”和“向下”,我们根据等级变化0.1分配“维护”为1.0,增加或减少,以获得评级变化C, ;评级变化任务的具体值示于表2:
|
|||||||||||||||||||||||||
4.3。细节
根据80%,10%,和10%的比例的所有数据被分成训练集,验证集和测试集。我们使用分类交叉熵作为损失函数模型的反向传播,其被定义为在优化所述目标参数 哪里地面真理的形式是一热,和是模型预测的超额收益为“正”、“负”和“par”向量的概率。在模型训练过程中,Adam [24]被选择用于优化,其中,所述初始学习速率设定为1功能Ë- 4,最小批量尺寸设置为32。
5.结果与讨论
为了从不同角度衡量模型的性能,本文选择了经典的分类算法SVM和香草的LSTM模型作为基准方法与我们的工作进行比较。表格3给出了实验结果。结果表明,在5日、15日和30日的超额收益预测中,无论正确率和F1测度,我们提出的方法都能获得最佳的表现。在5日、15日和30日的比较中,各方法对15日超额收益预测的准确率最高。这与研究报告的发布周期有关。根据统计数据,数据集中所有股票研究报告的平均周期为18.9天。当周期超过20天时,会出现多个报告重叠,最新的报告会影响股价波动,从而影响超额收益。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们在选定的交易周期中包括了“牛市”和“熊市”。不同的市场状态呈现出不同的交易情绪,因此我们进一步分别训练了“牛市”和“熊市”数据,并在测试集表中进行了测试4显示了比较结果。与“牛市”和“熊市”数据聚合训练相比,根据不同市场情况分别训练后的所有方法的准确性都有所提高。同样,我们提出的方法在第5、15、30次超额收益预测中表现最好,准确率最高的是“牛市”第15次超额收益预测。从表中可以看出,“牛市”的整体准确率高于“熊市”,这一结论与hai yuan的研究结果一致[22]。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了验证增加研究报告的指标对模型的有效性和投资情绪,我们删除相应的投入和对它们进行比较。表格五显示结果。Among them, LSTM + 表明原来隐藏LSTM用途作为模型的初始隐藏状态,模型的输入仅为股票价格。基于 ,模型的输入是股票价格和RRA的串联,OURS_full表示我们的完整模型。实验结果表明,掺加量的增加是有效的 ,RRA,并且可以RRRS逐步提高模型的准确性。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6.结论
关于在中国内地股市的超额收益,首先的预测,本文措施的研究报告,分析师发布并拆分研究报告分为两个指标:研究报告和评级情绪的关注度;其次,我们量化的外部环境可能影响股价变化为投资者情绪;那么,我们分裂的调研报告指标和投资者的情绪作为输入和LSTM的初始隐藏状态;最后,在实验的比较,我们提出的方法取得的最好业绩。
数据可用性
本文中所有数据均来自公开网站(https://www.eastmoney.com/)。
利益冲突
作者宣称没有利益冲突。
参考
- A. Krizhevsky,一Sutskever和G. E.韩丁,“深卷积神经网络Imagenet分类,”在神经信息处理系统的进展,第1097-1105页,太浩湖,美国,2012年12月。视图:谷歌学术搜索
- “挤压与激励网络”,清华大学出版社计算机视觉和模式识别的IEEE会议论文集,第7132-7141页,美国犹他州盐湖城,2018年6月。视图:出版商网站|谷歌学术搜索
- S. Kombrink,T. Mikolov,M.Karafiát和L. Burget“在会上表彰复发基于神经网络的语言模型,”在国际演讲交流协会第十二届年会会议记录2011年8月,意大利佛罗伦萨。视图:谷歌学术搜索
- “统计语言建模的三种新图形模型”,台北第24届国际机器学习会议暨icml ' 07会议论文集,第641-648页,科瓦利斯,美国,2007年6月。视图:出版商网站|谷歌学术搜索
- S.会林,P. Diyun, Xin h, Jun f,“基于自适应增量聚类的微博热点发现研究”,上海交通大学学报(自然科学版)第24卷第2期3, 2019年第364-371页。视图:出版商网站|谷歌学术搜索
- 丁l.,孙宏辉,“中国股票市场推荐效应研究%”,管理。世界,第000卷,no。5,第111-116页,2001。视图:谷歌学术搜索
- l .香多因子量化选股计划规划中的实现上XGBoost算法,上海师范大学,上海,中国,2017年。
- B.杜,朱H.和J.赵,“在贝叶斯学习高频交易最佳执行”物理A:统计力学及其应用卷。461,第767-777,2016。视图:出版商网站|谷歌学术搜索
- A. Tsantekidis, N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj,和A. Iosifidis,“使用卷积神经网络从极限订单预测股票价格”,载于对商业信息的2017年IEEE第19会议论文集(CBI)2017年7月,希腊塞萨洛尼基,7-12页。视图:谷歌学术搜索
- W.宝,J.悦,和Y饶,“使用堆叠自动编码和长短期记忆金融时间序列深深的学习框架,”公共科学图书馆·一第12卷,no。7日,2017年。视图:出版商网站|谷歌学术搜索
- X. Zhang和Y.谭“深股票排行器:对股票选择LSTM神经网络模型,”在数据挖掘与大数据,第614-623页,施普林格,柏林,德国,2018。视图:出版商网站|谷歌学术搜索
- 李、曹、潘,“基于深度学习架构的市场影响分析”,神经计算及其应用第31卷,no。10,第5989-6000页,2019。视图:出版商网站|谷歌学术搜索
- 李欣欣,吴p,王w,“整合股价和新闻对股市预测的影响:以香港为例”,信息处理与管理,文章编号102212,2020视图:出版商网站|谷歌学术搜索
- C. M. C.李,施莱弗A.和R. H.泰勒,“投资者情绪与封闭式基金之谜”该财经杂志卷。46,没有。1,第75-109,1991。视图:出版商网站|谷歌学术搜索
- 《为投资者情绪提供内容:媒体在股市中的角色》,P. C. Tetlock著,该财经杂志第62卷,no。3,第1139-1168页,2007。视图:出版商网站|谷歌学术搜索
- P. Hribar和J. McInnis,《投资者情绪和分析师收益预测错误》,管理科学卷。58,没有。2,第293-307,2012。视图:出版商网站|谷歌学术搜索
- L.赵,李正东,和J.刘,“管理者的偏好,在投资水平和私人信息的获得的评价;优化”管理。世界卷。4,第33-47,2013。视图:谷歌学术搜索
- “利益冲突、分析师的乐观态度与股价崩盘风险”,徐新军,蒋欣欣,易志毅,徐新欣,“利益冲突、分析师的乐观态度与股价崩盘风险”,经济研究杂志第7卷,no。127, p. r140, 2012。视图:谷歌学术搜索
- 吕志强、陈志强,“极端投资者的股票指数与股票指数之间的不对称关系”系统工程卷。2,第13-22,2013。视图:谷歌学术搜索
- B. G.马尔基尔和E. F. Fama就“有效的资本市场:理论和实证工作的审查,”该财经杂志第25卷,no。1970年第383-417页。视图:出版商网站|谷歌学术搜索
- S. Hochreiter和J.施米德休,“长短期记忆,”神经计算卷。9,没有。8,第1735至1780年,1997。视图:出版商网站|谷歌学术搜索
- Y.一N.海元,“对投资者情绪的媒体报道效应的研究:从中国股市的证据,”(哲学社会科学版)厦门大学学报卷。2,P。11年,2016年。视图:谷歌学术搜索
- 邱元秋,刘志军,“安全分析师预测行为的变脸现象:声誉博弈模型与证据”,管理科学学报。中国第16卷,no。6、2013。视图:谷歌学术搜索
- 《一种随机优化方法》,清华大学出版社。arXiv1412、6980、2014。
版权
版权所有:宋惠林等这是一篇开放获取下发布的文章知识共享署名许可,允许在任何媒体中不受限制地使用、发布和复制原创作品,只要原稿被正确引用。