文摘
投资者情绪的研究已广泛应用于股票市场,以及如何准确衡量投资者情绪仍在探索。随着社交媒体的兴起,投资者情绪不再是只受到宏观经济数据和新闻媒体的影响,还受国家语委和支离破碎的信息。我们把数据从2020年1月至2020年12月中国a股为研究对象,提出了股票价格预测方法,结合了投资者情绪与多源信息。首先,宏观经济数据的情绪,券商研究报告,新闻,和国家语委计算,分别,然后投资者情绪向量结合多源信息是通过多层感知器。最后,LSTM模型用于表示股票时间序列特征。结果表明,(1)该算法优于基准算法准确性和F1-score而言,(2)投资者情绪向量可以有效地衡量股票的投资信心,和(3)与载体连接相比,多层感知器可以更好地代表了投资者人气。
1。介绍
行为金融学,来自金融、心理学、沟通、和行为科学,认为股票价格不仅是决定一个企业的内在价值,但在很大程度上受到投资者的心理和行为(1]。在行为金融学的想法是,投资者在市场并非完全理性的人。在投资决策的过程中,投资者往往不能做出正确、合理的判断因素如情感偏好和认知偏差。换句话说,投资者情绪反映了投资者行为和在一定程度上影响最终的投资决策。研究人员试图解释市场行为从投资者的角度来看。验证投资者情绪的有效性,阿克洛夫和希勒2]发现投资者情绪与股票价格之间的关系通过研究投资者情绪与股票价格的波动。你和吴3]“沉默的螺旋”理论用于沟通的媒体效应研究研究信心指数对证券资产定价的影响从媒体的角度来看。情绪,影响投资者的心理活动,然后他们的行为,已逐渐成为一个重要的研究问题在股票价格预测的任务。
投资者情绪在股票价格预测中起着重要的作用。歌等。4)提出了一种预测方法相结合的股票超额收益研究报告和投资者情绪,可以验证在中国a股市场能够有效地提高预测的准确性。李等人。5)也进行了一项类似的研究,所不同的是,研究对象是香港股市。波尔克和萨皮恩扎6显示在他们的研究中,投资者情绪是类似于股票市场错误定价行为。其他的观点认为,投资者情绪是由错误的估计资产的价值,这在一定程度上表明投资者的投机倾向(7]。尽管投资者情绪的定义尚未达成一个统一的概念,从不同的定义可以看出,投资者情绪是一个未来股票收益的期望,而且由于投资者的非理性行为和原因不完全基于基本面分析,投资者将会有一定的偏差在他们的期望8]。
在最近的研究中,投资者情绪指标可以分为三类。第一个是直接测量方法,该方法利用从市场调查获得的指标直接取代投资者人气。第二个是间接测量方法,使用单一的经济变量和变量组合作为代理变量来衡量投资者情绪。第三类使用机器学习方法来提取网络文本信息在社会媒体,进一步构建一个投资者信心指数来衡量投资者情绪。信息爆炸和支离破碎的自然大数据时代的不足使其单独使用任何一种措施来衡量投资者情绪。在我们看来,投资者情绪的测量应同时考虑四个因素:宏观经济条件下,券商研究报告,新闻,和国家语委信息。在此基础上,我们提出了一种多源信息融合的方法来预测股票的价格投资者的情绪;首先,宏观经济数据的情绪,证券研究报告,新闻,和媒体计算,融合多源信息是通过串联操作的ISV(投资者情绪向量,ISV),最后LSTM模型用于表示股票时间序列特征。本文的贡献如下:(1)一个投资者情绪测量方法提出了集成多源信息(2)投资者情绪的积极作用在股票预测的任务是验证(3)股票价格预测框架,提出了基于深度学习
本文的其余部分组织如下。部分2审查投资者情绪测量及其与股票价格的关系。部分3介绍我们的方法。部分4介绍了实验和细节。部分5给出了实验结果和讨论。部分6使我们的结论和未来工作的方向。
2。相关的工作
随着互联网的不断发展,社会媒体的出现提供了一个新的平台,用户搜索信息,表达自己的感情,交换意见。使用社交媒体指数作为投资者人气的代理也成为一种方便的方法来捕捉市场的投资者情绪。根据谷歌搜索索引,Da et al。9)构建投资者情绪指数通过谷歌搜索关键词,发现该指数可以预测股市的短期回报和波动性。孟et al。10)使用百度搜索指数来衡量投资者情绪,发现投资者情绪与股市联动机制。虽然量化指标是可行的在反映投资者的关注股票市场,它们难以衡量投资者人气更深入的信息(11]。
崛起的大数据,文本挖掘,机器学习,和情感分析技术,研究人员可以更快速、准确地从文本中提取有价值的信息对投资者情绪的建设(12]。奥利维拉et al。(13]研究表明,投资者的情绪从社交媒体平台对股票价格有一定的影响,和社交媒体也提供了大量的数据源建设的投资者情绪。博伦和毛14)分析和比较传统投资者情绪指标的预测能力和社交媒体,发现信心指标从社交媒体有一个更好的预测效果。信心指标从社交媒体内容的文本分析已经广泛应用于股票市场预测,但没有一致性的研究结论(15]。马和张16]认为,造成的不一致的结论是不同样本数据选择和投资者情绪测量的准确性。目前,研究不再局限于判断投资者情绪是否能预测股票市场。如何从大量的数据中提取有价值的信息并将其应用于投资者建设指数已成为研究的焦点。
Prollochs et al。17]分析了信息在金融新闻媒体,发现情绪财经新闻的否定句与股票价格。信息有用性而言,斯派格et al。18)指出,许多专业和业余投资者和分析师使用Twitter发布新闻的评论和意见,通常比专业的新闻媒体更频繁。信息传播的速度,南et al。19)认为,投资者的情绪通过社交媒体传播更有可能影响股票价格迅速,而投资者的情绪传播更慢要花很长的时间来影响股票价格和更有可能预测价格在接下来的几天里。除了Twitter, StockTwits [20.和雅虎财经21,22)也用于我的投资者情绪。
3所示。方法
我们提出一个股票价格预测方法,包括一个投资者情绪模块和股票预测模块。投资者情绪模块分别计算宏观经济的四维状态,代理报告情绪,新闻的情绪,通过不同的方法和self-media情绪,然后获得中长期规划的ISV(多层感知器)23]。股票预测模块由一个LSTM [24),第一个输入LSTM投资者情绪,和随后的输入是股票价格。方法流程如图1。
3.1。投资者情绪向量
3.1.1。宏观经济状况
女士(宏观经济状态)包括市场地位和经济地位。对市场状态,我们选择五个指标来衡量事务量(体积),新投资者账户(内温)的数量,消费者信心指数(CCI),封闭式基金折价率(基金)和市场周转率(HS_TVR)。经济状况是衡量四个指标:居民消费指数(CPI),新的信贷(IC)的数量,经济增长率(GDP),货币供应量(M2)。宏观经济状态测量可分为两个步骤。
第一步是计算初步人气指数:Sentiment1。具体来说,首先规范市场状态指标,然后进行主成分因子分析指标,并选择最高的三个主成分方差解释作为权重;最后,负载因素,情绪的系数1,加权平均后得到。
第二步是控制经济状态指标的影响并进行回归分析 ,见公式(2)。剩余价值的测量指数macrosentiment(女士)。
其中,米是一个月,是一个常数,然后呢∼回归系数的估计。
3.1.2。券商报告情绪
指的方法在文献[4),我们首先将券商研究报告分为关注和评级的情绪然后把两个的乘积br(券商报告情绪),如图所示以下方程:
所不同的是,本文关注每日计算(在文献[4),每月计算)。具体地说,关注指数的比例是由股票的绝对数量的报告吗k在那一天所有的总数那天股市a股市场的报告。所示的计算方法如下: 在哪里报告的股票总数吗k天t和是所有股票的总数的报告在a股市场t。
股票k报告评级信心( )综合考虑了两个因素的基础评分和评级变化。具体来说,基础等级的分配和评级变化如表所示1,计算方法如下: 在哪里基本评级和吗是评级变化。当有多个评级的个股在一天,平均评级机构的研究报告。
3.1.3。新闻的情绪
新闻在网络上是一个长文本,标题本身并不能准确地和完全表达文本。因此,我们首先生成一个摘要的新闻,获得准确的文本的意图,然后计算NS(新闻人气)。
(1)新闻摘要的一代。我们使用的架构Seq2Seq [25)生成摘要,编码器将序列作为输入,编码序列中的信息语义向量,然后通过译码器输出总结文本。模型如图2。
编码器是双向的短期记忆(Bi-LSTM)网络。输入消息是表示为 ,我们编码x为隐藏状态向量
。特别,是双向的合并的结果最后隐状态。解码器使用LSTM一部分的初始状态是输出编码器。在步骤t之前,解码器接收到译码器的状态和以前生成的令牌 ,和译码器的当前状态计算如下:
这个方法只使用连接编码器和译码器,编码器将整个序列信息需要压缩到一个固定长度的向量,这是有限的。当输入序列的长度增加时,输入的信息首先是稀释后输入的信息。为了更好的解码,我们使用注意机制(26)指导解码器生成下一个单词通过概率分布源词。注意分布可以通过计算和 : 在哪里 是可学的参数和计算上下文向量 :
包含解码信息,我们最终得到的概率分布输出的词 : 在哪里和是可学的参数。
(2)新闻情感计算基于规则。指气的研究(27),我们构造相关的语义规则挖掘的真实情感语义词在不同的上下文中。具体来说,根据语义词汇的数量,文本分为多个集群,文本的情感价值是集群的语义值的总和。计算公式如下: 在哪里集群的人气值没有消极词汇;集群的人气值与消极词汇;年代情感词的语义价值;度值修改的程度副词的语义词汇;程度副词的程度值,修改负面的词;是消极词汇的数量。然后,所有的消息语义的平均值计算,即新闻语义(NS)。
3.1.4。国家语委情绪
我们选择的数据来计算WMS(国家语委情绪)来自股票BBS(电子布告栏系统)。散户投资者帖子和回复的形式交流,和他们发布的信息通常是短的。分析之后,我们认为一篇文章,包括发布信息和回复信息,代表了投资信心,所以我们结合后的简短文本并回复到一个长文本和计算长文本的情绪。引用公式(11)- (13WMS计算)。
3.1.5。多源信息融合
我们使用一个多层感知器(23]融合四种不同情绪的输出向量,然后使用股票的总输入向量作为第一个预测LSTM。ISV计算如下:
3.2。基于LSTM股票价格预测模型
LSTM需要编码器的输出作为输入 时间步指导后续股票价格的预测,并输出LSTM的时间步的输入t时间步长。在训练阶段,ISV和股票价格 ,概率公式预测下一个交易日的股票价格如下: 在哪里和 ,分别代表输入LSTM−1和步骤t,代表股票的收盘价的交易日开始,和代表股票的收盘价最后交易日。整个模型的损失函数公式如下: 在哪里代表ISV。
4所示。实验
4.1。数据和预处理
选择实验数据从2020年1月1日,12月31日,2020年,不包括新股和长期暂停股票。所有的web文本被scrapy爬虫框架和预处理的分词和删除停用词。(1)宏观经济数据:考虑到宏观经济数据的滞后,选择的数据从2019年9月到2020年9月,数据源是风数据库(https://www.wind.com.cn/NewSite/edb.html)。(2)券商研究报告:32724报告于63年公布的2365家a股公司证券机构包括在内。数据发布的数量报告,发布日期、标题、基本评级,评级的变化得到从East-money (https://www.eastmoney.com/)。券商评级信心数据如表所示2。(3)新闻:我们选择的四个权威网站的新闻中国证券网(http://www.cs.com.cn/新浪财经(),https://finance.sina.com.cn/),网易财经(https://money.163.com/),证券时报》(http://www.stcn.com/)新闻数据源和捕获的内容包括新闻标题,发布时间,新闻内容。排序后,共有96532个新闻文章。(4)国家语委:国家语委数据来自Guba (https://guba.eastmoney.com/)和雪球(https://xueqiu.com/),两个论坛,中国散户投资者讨论股票。“拉帮结派”文本拼接后的数量是183938。
4.2。基线
本文作为研究对象来预测股票回报率是否个股获得的回报在将来一定时期内是积极的,消极的,还是平的。为了确保鲁棒性,所有的数据都是标准化的根据市场的回报。测量模型的优点和缺点从不同的角度,本文选择支持向量机,LSTM模型,RrmsNet [4],SenticNet [5)作为基准的方法与我们的工作。
4.3。指标
在实验中,采用精度和F1-score评估每种方法的性能。让表示样本和的总数表示真正的标签的样本的数量 。这些指标定义如下: 在哪里 , 类的样本总数 , 是样品的总数,样品的数量是正确的标签是什么和预测的标签 。 和精度和召回。
5。结果
5.1。主要结果
由于信息传播的及时性,我们选择5日、15日和30日的窗口期的实验观察。表3显示了详细对比实验的结果。一般来说,我们提出的方法取得了最好的结果准确性和F1-score,这表明投资者情绪向量结合多源信息可以有效地提高股票价格预测的性能。
图3显示了不同时间的准确性和F1-score窗口。从图可以看出,随着时间的推移,所有方法的准确性和F1-score已经拒绝了。以我们的方法为例,准确率5日、15日和30天是0.749,0.693,和0.668,分别和F1-score是0.723,0.699,和0.641,分别。这有两个原因。首先,所有方法,无论是否包括第三方的信息,都是基于历史股票价格预测未来股票价格。因此,时间越大,预测的不确定性就越大。第二,投资者情绪综合计算的基础上不同的信息本质上是一种信息传播的表达,所以对股票价格预测的影响随着时间的推移会削弱。这是与信息沟通的理论一致,也就是说,时间越长,较弱的信息的影响。
5.2。烧蚀实验
为了更好地观察MSI的影响,br、NS、和WMS股票价格预测的性能,进行了一个烧蚀实验。主要的思想是将上面的一个指标,分别获得四个模型Without_MSI Without_BRS Without_NS, Without_WMS。然后,准确值和比较F1-score Our_full模型。差异越大,越大的影响和贡献。烧蚀结果如表所示4。一般而言,不包括任何索引,准确性和F1-score低于Our_full模型,这说明这四个指标衡量投资者情绪对股票价格产生积极的影响的预测。其中,Without_BRS模型不包括BRS指标与Our_full模型相比,最大的差距表明,在四个指标,br对股票价格的预测有最大的影响。有两个原因。首先,br、作为专业券商的研究报告,更容易被股东。第二,与其他信心指标相比,券商研究报告将直接给买卖建议,更直接。
接下来,我们把两个指标进行进一步的测试模型的性能。具体地说,一个是被同时删除女士和br Without_MSI_BRS模型,另一个是让Without_NS_WMS同时通过移除NS模型和世界媒体峰会。女士的原因是和br信息是更加正式和来自官员或机构来源,而NS和WMS信息来自互联网上的新闻和评论,这是更随意和自由。结果表明,Without_MSI_ br和Our_full模型之间的差距较大,这表明,虽然从互联网上的新闻和评论信息是更大的,股票的价格更受到官方的经济指标和券商的影响。
最后,我们比较不同融合方法的影响的四项指标对股票价格的预测。串联模型拼接四项指标为一维向量LSTM输入和结果表明,其性能不如Our_full模型,表明本文提出的融合方法更适合股票价格预测的任务。
5.3。长期的股票价格影响分析
检查是否有长期影响股票价格的信息的影响,我们选择45进行实验,60,90窗口期。结果如表所示5。从表中可以看出,所有方法的准确性和F1-score在0.50和0.60之间,和它不清楚地表明方法具有更好的性能。通过案例的分析,发现,45、60、90天时间窗口的信息公布后,股票价格预测股市的性能不稳定,甚至呈现一定程度的随机性。
第一,股票价格预测的基本方法在其他除了支持向量机模型都是基于LSTM模型,和LSTM模型本身的问题输入序列太长和梯度消失了。此外,投资者情绪向量聚合由我们提出方法作为初始输入的LSTM模型(t= 1)。随着观测窗口扩大到45天或者90天,投资者情绪向量的影响在随后的时间步长逐渐减弱。
第二,在self-media时代,市场相关信息的更新周期相对较短。我们选择在四个信息来源,MSI周期是每月更新,BRS更新周期是20天,NS更新周期是2周,和WMS是每天更新,如表所示6。换句话说,所有信息的最长30天,这意味着新的新闻将覆盖旧新闻,影响投资者的决策。
最后,中国a股市场是半封闭的,不成熟的市场。投资者的决策往往是受到最新的信息的影响,导致频繁交易,持有期限短。据统计,平均持有期a股市场的个人投资者账户小于20个交易日;即使对于投资机构,平均持有期大约是30 - 40交易日。市场的特点决定市场的方向。
总之,投资者情绪向量计算从信息收集的日子对股票价格影响有限45天或者90天之后,也就是模型的表现不佳的原因。
6。结论
投资者情绪与股票价格之间的关系一直是一个热门研究课题。在大数据时代,投资者获取信息的渠道已经改变的研究报告和新闻由国家语委信息的证券经纪人。多个来源的信息带来了新变化投资者情绪的措施。基于多源信息融合,提出了一种新的测量方法的投资者情绪和框架包含了新的投资者人气的股票价格预测。在实验的数据从2020年1月至2020年12月中国a股,结果表明,(1)投资者情绪是影响股票价格波动的一个重要因素,(2)在不同的投资者情绪指标,券商报告情绪对股票价格的影响最大,和(3)多层感知器可以更好地整合情绪指标。
数据可用性
本文中所有数据来自公开信息在互联网上。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了江西省自然科学基金(批准号20212 bab202016)和江西省科学技术研究项目教育部(批准号GJJ200318)。