文摘
互动信息区块链架构建立一个有效的用户和企业之间的沟通渠道,使他们能够全面和有效的沟通方式。因此,采取区块链互动信息为研究对象,本文探讨了官方信息投资者的干预是如何影响股票价格运动然后让预测股票价格根据互动的情感倾向的信息。与情绪上下文信息融合计算模型建立了基于卷积神经网络提取和量化的情感功能区块链互动信息。结合投资者的情绪特征,股票价格预测模型提出了基于长期短期记忆。实验结果表明,提高了模型的精度将介入情感特性,从而证明信息澄清在股票价格能有积极的效果。
1。介绍
股票价格建模和预测研究人员和投机者的具有挑战性的目标,因为样本的噪声和非平稳的特性1]。自1965年法玛提出了有效市场假说,它已被普遍接受传统金融领域(2]。这一假说假设股票市场将受到市场信息的影响,股票价格将反映资产的可用信息。当相关信息发生变化时,股票价格也会相应地改变。考虑到股票市场相关信息是最重要的一个因素可能会导致股票市场波动性,因此它应该被包括在股票市场波动影响因素(3]。
与区块链技术的进步4- - - - - -8对股市),相关信息已经被广泛的存储和传播在区块链架构(9]。因此,众多的研究一直在进行网络媒体的影响股票价格运动基于网络媒体所产生的舆论,留言板和社交媒体等(10,11]。阮等人使用历史股票价格和雅虎论坛文本预测股票价格(12]。在比较模型的预测结果,只有使用股票历史交易数据添加了那些情感特征,他们发现模型,添加情感分析的结果比那些只使用历史数据的模型。李等人使用一个计量经济学回归模型来分析社会媒体对股票价格的影响(13]。在分析微博与标普100指数成份股企业之后,他们发现社交媒体情绪对股票收益的影响。随着计算机技术的发展,深度学习模型取得了好的结果在分析和预测。李等人还提出了一个tensor-based预测模型(14],高维的市场信息和其内部连接来研究股票趋势在媒体的影响下。
上述研究都证明,投资者情绪已广泛应用于股票价格分析。然而,大多数的信息来源为这种类型的研究关注新闻,消息板,和社交媒体,不考虑信息的传播和变化。此外,只有少数研究的互动和影响多个信息源进行到目前为止。
随着互联网技术的发展,新的网络媒体渠道为代表的互动媒体正逐渐显现。数字互动媒体依赖于某些官方渠道建设问题和答案(问答)投资者和上市公司的平台。问答等平台包括文本代表消费者情绪和真正的官方新闻,股票市场注入信息内容环境基于官方与投资者互动。为了调查信息的传播和互动,数字互动媒体“投资者问题”和“官方答案”作为研究对象值得进一步研究。
然而,股票市场的影响分析基于数字互动媒体面临两个重要的挑战。首先,文本信息的互动性质很难分析这些信息。第二,上市公司的交易数据是连续在交易日层面,而问答信息的披露时间数字互动媒体是断断续续的。此外,《纽约时报》的两个数据维度是异构的。
基于上述分析,本文设计了一种数字互动媒体情绪分析股票价格预测模型,以解决上述挑战。首先,提取的方法和量化的情感特征数字互动媒体信息基于卷积神经网络(CNN)的建立。摘要文本分类及其上下文信息集成在一起,并使用人工标注模型训练数据集,有效提高交互文本分析模型的准确性。第二,股票预测模型基于长期短期记忆(LSTM)方法。这包含了投资者情绪特点遵循官方信息模型,探讨了情感因素的影响的深度和广度。实验结果表明,模型的准确性将干预的情感特征已得到改进,从而证明市场信息需要有效的干预和指导。
本文的其余部分组织如下。第二部分介绍了相关工作新闻对股票价格波动的影响。第三部分构建了情感计算模型和股票价格预测模型。第四部分描述了算法。第五部分详细分析了实验的细节。第六部分介绍了实验结果,第七部分总结了文章。
2。相关工作
研究新闻对股票价格波动的影响,第一个被广泛使用的指数来衡量股票相关的新闻消息是数量的影响。陈研究新闻的数量和多余的股票收益之间的关系(15]。他名的定量特征提取新闻文章和使用这些作为解释变量回归股票超额收益。他的研究结果表明,投资者的反应负面新闻低于他们的反应是积极的消息;然而,新闻对投资者的影响与它的实际内容。因此,使用体积总结新闻消息的影响投资者可能有明显的局限性。Tetlock使用金融新闻的文本信息进行股票价格预测和证明新闻对股票价格预测的有效性16]。在这项研究中,作者使用了文本挖掘方法,提取特征的文本可能会影响市场变化,并提高了特征提取的方法。结果表明,股票价格预测方法考虑到金融新闻比其他方法更有效。
互联网行业的不断扩张和发展web2.0技术全面互联、客体,投资者情绪对股票市场可以共享和传播以交互式的方式通过互联网平台。情绪和事件结合张量对股票预测(14,17]。Das和陈首次提出一个方法来提取投资者情绪从雅虎留言板18]。他们的算法结合了多种分类算法,准确地分析投资者情绪在留言板,经验证明,在科技行业股票成交量和波动密切相关。
在分析投资者情绪对证券价格的影响,常用的分析模型是基于统计模型、计量经济学模型和机器学习模型(19- - - - - -21]。其中,经济计量模型包括线性回归模型、逻辑回归模型和自回归移动平均(ARIMA)模型集成。计量经济学模型着重于分析股票价格之间的因果关系和信息。Antweiler和弗兰克研究超过150万条消息发布在雅虎的影响(22]。使用线性回归模型来分析股票收益的财务公告2000年,他们发现,股票信息帮助预测市场波动。统计模型使用单变量统计模型或二元统计模型来测试信息来源和股票之间的关系变化在不同假设测试。基于样本2009年1月1日,10月31日,2014年,李等人开发了一个LSTM模型是基于投资者情绪从互联网股票留言板和市场数据进行样本外预测沪深300指数的开放和关闭的价格在中国股票市场。他们的研究结果表明,日常投资者情绪可以充分预测随后的交易日的市场开放的价格,而《每日收盘价的预测信息是弱23]。
随着计算机技术的发展,越来越多的机器学习模型用于研究股票和舆论之间的关系。当使用这些模型表示的信息,可以提取和合并多个信息源,然后将它们应用到模型,如神经网络、支持向量机和贝叶斯分类器。春等人提出了一个基于感性的股票预测系统的概念框架(esp)重点考虑多维个人投资者的情绪。实施和评估拟议的esp,情绪指标(EIs)生成使用情感词frequency-inverse情感文档频率。股票价格预测使用深层神经网络(款)24]。esp的性能比较,情绪分析和幼稚的方法使用。实验结果表明,预测的准确性使用EIs比使用其他方法预测的准确性。金等人进行比较研究关于人工神经网络的预测性能,支持向量回归(SVR)和自回归综合移动平均和选择SVR来研究投资者情绪的不对称效应在不同的行业指数的预测。结果表明,行业受投资者情绪影响是由年轻的公司高增长和高的压力(25]。
当投资者情绪对股票市场的影响分析在上述研究中,所选择的新闻来源往往只代表一方(投资者或者政府)和不能反映了双方之间的信息交互26,27]。方法应用而言,基于机器学习模型是更常用的文献[28- - - - - -30.]。虽然机器学习模型方法可以融合多个信息源,信息之间的相互影响机制的研究是不够的。因此,以数字互动媒体为研究对象,本文运用机器学习模型(如神经网络)为了研究市场信息和澄清之间的交互信息对股票市场的影响。
3所示。基于情感分析的股票价格预测模型
我们的工作,如图1,包括媒体数据采集(建筑文本语料库),数据预处理,情绪分析,贸易数据收集和股票价格的预测。
3.1。媒体数据采集和代表性
考虑到有限的新闻文本数据获得,因为内容主要集中在金融领域,金融新闻CA8的一部分,中国pretrained词向量数据集,在模型中被选中。其中,pretrained词的数据向量训练从6.2 g财经新闻收集的CA8建设者。提取的上下文特征是“词+字符”模式,和训练方法是skip-gram -抽样。skip-gram模型由三部分组成:输入层、隐藏层和输出层。下面是每个单词的过程。
步骤1。基于构建培训文档的词汇,词之后是一个炎热的编码。改变向量的维数来标示 ,在哪里代表单词的总数系统。
步骤2。这个词通过从 隐藏层。
步骤3。隐藏层计算权向量的点积 和 ,因此获得 ,在哪里代表了隐层神经元的数量。
步骤4。通过输出向量 隐层到输出层。计算输出层之间的点积运算 和重量矩阵 ,从而获得输出向量 。
第5步。将SoftMax回归分类器是用来计算的概率输出向量。使用方程的计算方法 在哪里指的是词的预测的位置,实际上指的是词出现在的位置 , 这个词指的是目前进入指的是词的向量在预测位置 。
3.2。情绪的分类
CNN模型由嵌入式层,卷积层、汇聚层,和一个完整的连接层。在嵌入层中,我们输入一个固定长度 矩阵,顺序可以的形式pretrained词向量和非静态的向量或多通道。在这里,代表序列的长度,每个单词对应词向量维度。
在回旋的层,卷积的内核窗口使用的输入序列 为卷积操作,导致功能 。只需要一维卷积,因为数量的文本数据通常是一个渠道,其中代表的字数的窗口,代表的权重矩阵 维度,代表偏差参数,代表了 - - - - - -大小的窗口形成的th的行 输入矩阵的行。
池层中,卷积的输出层的最大价值最大化通过附近的特性。然后,输入数据的维数降低,固定长度的输出。
完整的连接层,特征提取的卷积和池层输入到分类器进行分类。
3.3。股票价格预测
该指数从定量获得文本结合的基本预测股票价格指数基于长期短期记忆(LSTM)模型。图2显示了LSTM模型的过程。
首先,火车 , ,和与当前输入和输出之前的状态:
其次,我们考虑LSTM的组件模型。
内部的忘记阶段模型,训练用作忘记控制确定哪部分记得,忘记之前的状态。
的方程,表示前一个节点的状态。其具体计算方法给出模型的下一个阶段。
在选择记忆的阶段在模型中,模型选择记忆输入数据封闭的控制下 。然后,结果忘记阶段,选择记忆阶段,和国家可以得到如下:
在内部的输出阶段模型中,模型进行扩展的获得的控制下 ,之后,我们决定输出的当前状态如下:
4所示。该算法
首先,本文清洗和量化的原始数据收集。然后,CNN是用来预测问答文本的情感倾向,和整体的情感价值股票当天计算根据情感倾向的问答。最后,情感价值和基本数据输入,和LSTM用于培训。该算法给出如下。
步骤1。问答的文本和把单词。通过编写网络爬虫,我们能够收集原始的问答数据。然后,我们合并的主要中国stopword stopwords和删除列表的文本。最后,文本数据分割。
步骤2。媒体表示。在这里,我们介绍了开源pretrained词向量CA8数据集,pretrained词向量转移到清洁文本数据,并量化文本词向量。
步骤3。训练神经网络模型。我们输入量化标注数据集到CNN然后训练神经网络。验证集是用来检查模型的准确性得到培训。如果精度未能通过测试,参数调整对模型进行再培训。
步骤4。计算一天的情感倾向。的神经网络模型进行精度检测是用来对训练数据集的文本情感分类。基于每个文本的情感取向,我们计算的整体情感取向股票每一天。计算每日积极或消极倾向的积极或消极的文本数量除以这部分的天总使用以下方程: 在哪里和 ,分别代表股票的积极倾向和消极的倾向 , 和 ,分别代表了积极的和消极的文本数量的股票问题或答案,和表示文本的总数量的股票问题或答案。
第5步。分析了文本分类的结果。情感倾向变量的信息集成的基本指标,和股票价格预测的输入LSTM模型。通过比较融合和未溶化的情绪指标的预测结果,融合情感的准确性指标可以被评估。
5。实验测试
研究了a股股票从2012年到2020年初为研究对象。数据集由两个subdatasets:数字互动媒体数据和上市公司交易数据。如表所示1、数字互动媒体数据包括查询数据时间、用户名、公司名称、和公司代码从每个站点。从全景交互式数字互动媒体数据收集,上海E互动,和SSE互动。成立于1999年,全景证券投资者和互动是一个交互式网站提供了一个有效的a股上市公司和投资者之间的交流平台。上海E互动和SSE交互式数字互动媒体平台正式成立,上海证券交易所和深圳证券交易所。
原始数据表所示的一部分2。可以看到,2020年2月以来,COVID-19造成企业经营在不同寻常的情况下,从而提高许多问题。这种情况意味着投资者情绪一直面对这样的显著影响不可抗力。此外,在某种程度上,一个公司的官方介绍有关情况的开始可以缓解投资者担忧。
接下来,我们将文本信息过滤和清洗了爬行按照下列规则:
规则1:删除重复在每个股票的问答。
规则2:删除交易活动的公司暂停超过10个交易日内连同他们的问答数据。
规则3:删除公司退出市场或暂停上市期间连同他们的问答数据。
规则4:只有相应的股票代码,股票名称、问题文本,问题时间,答案文本,并回答时间为每个问答保留文本数据集。其他不相关的属性必须被删除。
上市公司的交易数据主要包括股票代码、交易日期、收盘价,开盘价,高价格,低价格,和流动率。
股票交易从TuShare金融大数据中心收集的数据接口。数据预览,包括市场价值,营业额,流动比率,收盘价,天高,一天低,市场回报,和股票回报,如表所示2。
交易数据也排除公司退出市场,永久中止或暂停超过10天。
数据清理后,从2012年到2015年数字互动媒体数据分为训练集。而确定文本的情绪的方法通过使用情绪词典,使用手动标记文本的情感倾向可以确保训练集的分类的准确性。因此,本研究使用三人投票方法在训练集的情感倾向每个问答集。
数据集被标记后,进一步划分训练集和测试集,测试集是预留给模型试验。一些标签的数据集的属性如表所示3。
文本数据集清洗和分区后,分词。
首先,因为文本数据来自网页,我们删除标记语言、特殊符号,和空间的文本。
第二,鉴于中国文本包含一些stopwords并不有利于文本分析,这些被删除的文本在预处理阶段。
三个常用stopword列表是集成:stopword列表达到大学的机器智能实验室的停止词库的四川大学,和百度stopword列表。然后,我们使用Jieba库打破文本。预处理完成后,用于存储文本数据预览列表。
TextCNN模型的输入序列长度是固定的,量化的文本序列应该被截断和补充。在前面的部分,根据数据探索文字在每个查询数据的平均数是69,而平均数量的单词组合的问答是166年。因此,模型中的最大序列长度的问答和问答语句将69年和166年,分别。对序列的时间比的意思是,我们截断他们的平均长度。比平均值序列短,所有空缺的部分充满了0。
后常规序列长度模型的输入到嵌入式层,该层输出样本长度的词向量矩阵乘以这个词向量维数。然后,我们好词向量矩阵转变成卷积层。中国文字是由两到四字,卷积核的大小被设置为2,4,5进行卷积操作词向量矩阵。后设置一词向量维卷积核的大小,经历了最大的数据池和完整的连接层完成分类任务。
CNN在完成训练模型,文本数据从2016年1月1日到2020年2月然后使用训练分类模型,和情感倾向那天每个股票的价值也被计算。
最后一步是处理股票交易数据和交互信息数据之前使用LSTM模型来预测股票价格。股票交易数据,它必须标准化。文本数据,因为某一天可能没有问答,情绪指标的空值数据应该为零。
一旦所有的数据处理完成后,训练集和测试集被分成数据。我们预测当天的收盘价有或没有信心指标(见表4)。
6。实证分析
结果验证了模型的准确性往往是稳定在第五到第七轮培训。如数据所示3和4准确率的训练集和测试集的提问数据分别为97%和90%,分别而训练集和测试集的自动问答数据分别为97%和89%,分别。误差在可接受的范围之内的。
有许多上市公司参与这项研究,分析预测结果为平安银行,以验证模型的结果和结论更直观的,如表所示5。
首先,确定系数的两种预测都是高于95%,表明所选择的股票交易数据有更高程度的影响预测结果。此外,联合影响程度的情绪指标也更高。这表明该模型对股票价格的预测有很好的影响情感指标是否补充道。
第二,与其他评价指标相比,均方误差、均方根误差、平均绝对系数预测通过添加情绪更小。没有情感的补充指标预测,预测模型的均方误差为0.23,而均方根误差达到0.48。这些值表明,没有情感的补充指标,模型的误差很大,和模型的精度不够高。
的均方误差和均方根误差模型是0.12和0.35,分别。这两个值远低于模型的没有情感,从而表明提高模型预测的准确性通过添加人气指数。同样,使用股票交易的平均绝对误差模型直接预测的数据是0.37,而模型的信心指标是0.26。这也表明,增加情感指标提高了模型预测的准确性。
因此,我们证明,增加情感指标显著改善了模型与条件不包括在这些指标。
除了模型的评估指标,数字5和6结果也显示,通过添加情感预测指标比预测的不添加这些指标。
7所示。结论
使用几个数字互动媒体平台,本研究分析了投资者情绪的影响下官方新闻和比较短期股票的预测趋势和没有情感分析。为了解决上述问题,本研究从两个方面进行。
首先,我们构造一个文本分类指数投资者情绪的特点问答文本。在这项研究中,我们使用了三人投票方法手动标签的情感取向互动媒体文本数据从2010年到2015年。然后,我们用这个作为训练集训练CNN模型。训练模型被用来分类文本数据从2016年到2020年第一季度为了提取投资者的情感倾向。
其次,本文验证了投资者情绪的影响在短期股价预测的准确性。比较能证明投资者情绪和投资者情绪在官方的指导下可以改善这样的价格预测的准确性。最后,良好的索引结果证明实验方法是准确的和有效的。
这项研究的结果可以指导市场参与者制定他们的决策计划。具体地说,这项工作提供了重要的理论参考和实践指导维护投资者的权益,规范上市公司的行为,和优化证券市场的稳定。为市场参与者、实时市场获得的信息必须及时避免非理性决策由于信息偏差。此外,上市公司必须建立一个完整的谣言排斥机制来确保市场的信息是正确的和保持稳定的市场份额。
未来,这项研究旨在扩大主题从几个方面。首先,我们旨在增加数据的完整性并添加平台,近年来出现了,如秘书东方财富的问题。第二,在文本情感分析方面,不平衡分类分析必须执行文本数据,和不平衡的提取文本必须集成优化深度学习模型的准确性。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(批准号。71874215,71874215,72004244),北京市自然科学基金(批准号9182016和9182016),在中国教育部人文社会科学(MOE)项目(批准号。15 yjczh081, 17 yjazh120, yjczh253 19日),北京社会科学基金(批准号18 jdglb022),北京双世界级的发展计划(个性化的内容聚合,在跨媒体大数据表示和应用研究),项目创新研究的中央财经大学。