文摘

关键字用于传统股票价格预测主要基于文献和经验。本研究设计一个新的关键字文本挖掘方法增强基于自然语言处理模型包括双向编码器表示从变压器(BERT)和神经连续性表示对中国语言理解(NEZHA)自然语言处理模型。伯特向量化和NEZHA关键字歧视模型扩展相似度和重要性的种子字从两个维度,分别为,从而构建关键字同义词典对股票价格的预测。此外,种子词和我们的预测能力生成单词LSTM模型相比,以沪深300指数为例。结果表明,相比之下,种子字,提取词的搜索索引有更高的相关性与CSI 300和可以提高其预测性能。因此,关键字增加模型在本研究有助于设计提供参考其他金融时间序列预测的变量扩展。

1。介绍

股票市场是宏观经济的晴雨表,它反映了市场上许多投资者的预期未来的经济状况。随着中国金融市场的不断改革和逐步开放市场,股票市场在国民经济中发挥着越来越重要的作用。以来股市资源配置等重要作用,经济调整,价格发现,CPI密切相关,利率,和其他指标,股票市场指数的一个重要参考价值政府的宏观经济政策,中央银行的货币政策;因此,它一直是学术和工业研究的重点。

股票市场价格的预测研究有着悠久的历史。虽然法玛(1]开发了有效市场假说,这表明在理想环境下,信息在过去已完全反映在股价中,因此股票价格只能影响新出现的信息。但由于其苛刻的假设,理论总是受到其他研究人员。在市场、基本面分析、技术分析、定量分析等方法在活跃的投资仍然占据一席之地。随着行为金融学的兴起,人们逐渐意识到市场非理性行为普遍存在。例如,心理特征,如群体效应使市场上一则新闻可能导致股票市场剧烈波动;因此,它是可能的数据统计方法,然后分析网络舆论预测股票市场价格。与我们的关键词扩展策略提出基于双向编码器表示从变压器(BERT)和神经连续性表示对中国语言理解(NEZHA),金融机构,例如,可以通过网络搜索获得更及时时间序列指数和改善他们的风险管理策略来应对不断变化的市场波动。

本研究的结构如下:第二节介绍了自然语言处理和有关文学的发展。第三节介绍了基本模型和算法用于这项研究。第四部分介绍了框架的股票预测方法在本研究中设计的。第五部分是实验研究通过实证研究沪深300股票指数预测,和第6节给出了结论。

股票价格趋势的预测一直是研究的学者。现有的研究股票预测模型主要是反映在两个方面。一方面,传统的计量经济学模型,如回归模型、ARIMA的框架下最小二乘,因为一系列的约束和非线性数据,无法处理,和模型的性能的影响是有限的2- - - - - -4]。另一方面,机器学习和深度学习模型应该改进和使用。股票数据的预测是常见的特性(开放和体积等)建立一个稳定和高精度预测模型(5- - - - - -7]。数据类型的预测目标,股票预测可分为分类预测基于股票的上升和下降8- - - - - -10)和回归预测基于股票时间序列数据(11- - - - - -13]。区别在于预测目标的数据类型是否离散的或连续的,和这个研究属于后者的类型。

学者在股票价格预测取得了显著成就。不过,现有文献的共同特征是改善预测的方法来提高预测精度,在特征选择有以下缺点:(1)虽然预测广泛应用,预测指标的选择主要依靠文献和经验直觉,并且没有相对科学的计量标准。因为关键字的选择是受主观因素影响在某种程度上,这是不可避免错过重要的关键词,由于有限的选择范围。然而,如果关键词索引设置为一个预测变量选择不当,就会影响股票价格预测的准确性在很大程度上。(2),前者自然语言处理(NLP)向量化技术在语义识别和理解是不够的,很容易导致信息丢失,从而导致词汇扩展的质量恶化的预测变量。例如,单词向量的平均值忽略词序和语义的重要性,导致信息丢失。地图的矢量化Word2Vec模型词固定向量,不能考虑上下文的单词联想和缺乏概括表现能力。

NLP旨在理解和挖掘人类由计算机文本语言的内涵。这是一个有效的方法来分析大量的网络文本数据。从统计语言模型深度学习语言模型、模型代表了自然语言文本的能力不断提高,甚至超过人类表示在一些地区。统计语言模型主要是基于词频提取关键词和主题字分布(14- - - - - -17]。随着计算机计算能力的发展,深度学习语言模型基于大规模神经网络实现了。与传统的统计语言模型相比,它有一个强大的文本挖掘能力。谷歌提出的伯特模型改进的静态表示Word2vec算法(18),集成了艾尔摩模型和GPT模型的优点来区分polysemic单词和并行pretraining [19,20.),并通过深入开展pretraining双向变压器结构。伯特模型可以实现融合上下文语义(这个词表示21]。基于伯特模型,NEZHA模型(魏et al ., 2019)22]采用整词屏蔽(WWM)和其他技术来提高中文文本特征和实现SOTA效应在许多中文自然语言任务。现有文献表明,伯特从不同的角度展示了语义识别能力强在文本分类、机器翻译、问答,和其他任务;因此,本研究采用伯特和NEZHA模型实现种子字扩张任务(23- - - - - -25]。

预测缺失的数据,香港等人提出了一个新颖的multitype健康数据privacy-aware预测方法基于locality-sensitive散列(26]。随着大数据的时代,搜索引擎的出现为网络舆论提供越来越多的定量数据分析。其中,关键字搜索指数广泛应用于股票价格预测的研究由于其功能直观的数据形式,更新速度快,时效性强。当前研究主要创新的基于网络搜索指数预测方法(27- - - - - -30.),这也为本研究的研究提供了思路。

持续改进和发展的深度学习机器学习技术,LSTM可以自动搜索数据中的非线性特性和复杂的模式,它显示了良好的预测性能在实际应用研究。例如,在投资组合的研究应用,费舍尔和克劳斯(2018)与其他预测模型相比,基于LSTM建立的投资组合可以获得更好的投资业绩(31日]。李斌et al。(2019)建造了一个股票投资回报预测模型在基本定量使用循环神经网络和长期和短期记忆网络和其他技术,结果表明,LSTM模型明显优于传统的线性算法识别异常因素之间的复杂关系预测和超额回报(32]。刘等人表明LSTM可以捕捉历史气候数据之间的关系,为预测温室气候(具有良好的实用性33]。Mehtab,门敏等。研究还表明,深度学习LSTM模型具有杰出的表现在股票预测34,35]。

基于上述分析,本研究提出了以下研究方法。首先,基于种子字数据库总结现有文献中,爬虫技术,和搜索引擎采用捕获web文本相关股票价格作为文本数据库,和大量的关键词分词后得到。第二,伯特模型是用来表示这个词向量化和计算相似度进行初步筛选,然后是潜在的预测变量的关键词扩展。然后,NEZHA模型选择与更好的性能在Mindspore框架下整合关键字数据集和获得词汇的重要性结合上下文来筛选出预测变量和进一步扩大关键词与更高质量的预测变量。最后,本研究使用机器学习LSTM预测模型来实证测试获得的预测变量的设置和比较,分析模型的预测效果的扩张之前和之后的一组变量。

3所示。模型和算法

3.1。JIEBA分词算法

JIEBA分词算法是一个高效的中国句子分割算法。与英语相比,汉字之间没有明显的分离标记;所以中文分词算法尤为重要的语义分析。的分词原理JIEBA分词算法主要包括以下三个部分(36]。

3.1.1。句子中生成所有可能的DAG基于前缀字典

JIEBA算法使用单词查找树的数据结构来存储超过300000个常用汉字。前缀树保存大量的单词在一个树状路径,连接词从根节点开始。与传统的哈希表相比,它具有效率高、速度快的任务搜索中文单词。

字典,根据上面的前缀JIEBA算法提取所有可能的中国句子分割成一个有向无环图(DAG)和记录训练样本的词频单词查找树进一步确定最可能的分割组合。

3.1.2。使用DP找到最可能的路径和分割基于词频

熟练的技艺,动态规划(DP)可以用来找到最大概率路径基于词频的样本。集 。我们的编程的目标

在哪里 每个节点代表我们可能把句子分开。 代表的概率,这是由词的频率在语料库,从另一个节点的节点。我们将这些节点链接在一起,以确保得到最可能的分割的句子。让概率最大的路径 在实践中,我们发现最可能的路径。为 ,背后有节点等 假定最大分裂路线到达前一个节点内 , , ,等等。我们可以在DP状态转移方程:

通过这个DP问题得到解决,我们可以发现概率最大的路径。

3.1.3。用嗯和维特比算法来推断狼狈的单词

假设有四个隐状态为每个汉字在汉语词汇本,即B-Beging E-End M-Middle, S-Single。JIEBA算法使用隐马尔可夫模型(HMM)来推断隐藏状态链未上市的单词。隐藏的马尔可夫链的转换概率在每个位置被存储在词典上面的前缀,和目标句子提供了可见的状态链。因此,维特比算法是用来解决隐藏状态链狼狈的词语来实现分词的目的。

3.2。NEZHA

最初的伯特模型是由谷歌开发的。虽然取得了良好的培训成果在英语和其他文本,主要pretrained英语文本,而不是优化了中文文本;因此,仍有很多需要改进的地方。华为诺亚方舟实验室开发了一个模型专注于为中国语言理解神经更符合实际的表示,这称为NEZHA简称[22]。

与原伯特模型相比,NEZHA模型主要强化以下四个方面:(1)使用功能相对位置编码,有利于模型的序列关系的理解文本。(2)在pretrained传销任务,WWM技能,结合JIEBA分词。如果一个汉字,其他汉字属于同一个词的汉字句子也会覆盖。虽然改进模型pretraining的难度增加,它有助于模型更好地理解中文文本的词维度信息。(3)使用mixed-precision训练方法,数据减少从FP32-bit FP16-bit梯度计算过程,从而减少模型参数的数量和加快培训。(4)使用Layer-wise适应性时刻优化配料(羊)培训优化器优化模型,缩短训练时间,自适应地调整学习速率,当批大小很大,和维护的准确性梯度更新。因此,本文使用伯特模型最初选择匹配的派生的关键字,然后采用NEZHA模型从相关股票价格中提取关键词文本捕获在网络上。

自NEZHA基于伯特是一个改进的模型,我们首先介绍了伯特模型结构的基础上,研究Devlin et al [21]。双向编码器陈述变压器(BERT)是一个双向表示编码器基于变压器。与传统的RNN-based自然语言处理模型相比,伯特具有以下优点:(1)使用编码器从变压器模型的基本结构、并行训练可以实施,从而提高整体模型的训练速度。(2)与其他生殖模型相比也使用的变压器结构pretraining(比如OpenAI GPT),伯特模型使用双向表示pretraining更好地理解上下文信息标记级任务。

伯特模型打破了许多文本理解任务的记录,这是离不开伯特的结构模型。NEZHA模型和伯特模型几乎相同的模型结构,使用的编码器部分变压器结构来处理输入文本通过堆叠多线程self-attention机制和完全连接网络。变压器结构,输入文本的嵌入特性的矢量和三个向量,包括令牌嵌入,嵌入部分,位置嵌入。NEZHA和伯特模型有相同的性能在字(词)嵌入和段嵌入。然而,位置嵌入编码而言,NEZHA编码伯特的绝对位置和改善功能相对位置编码,这有利于模型的理解文本的顺序关系。

变压器的编码器部分包含六层,每一层都包含两个子层,即多头Self-Attention和前馈网络(FFN)。有剩余的每个子层之间连接机制和一层标准化机制防止梯度色散和爆炸。

NEZHA self-attention机制是关键,伯特模型挖掘文本语义。通过计算分数的关注体重原来的嵌入,注意力机制可以让学习的语言模型从远处文本之间的依赖关系。同时,多线程的注意机制是由叠加多个关注模块。模型可以从不同的表示子空间提取相关信息在不同的位置。针对关键字扩展需求在股票价格预测问题,这种机制可以有效地学习的深层语义关键词在原文除了位置信息,然后提取高质量的关键词相关的股票预测。注意机制的具体原则如下:第一,模型复制原始嵌入矩阵对应的权重矩阵构造三个特征矩阵的查询(Q),密钥(K)和价值(V)。假设嵌入矩阵的原始文本 ,和相应的重量训练 , ,上面的矩阵的计算公式

然后,通过查询矩阵和权重计算的关键矩阵,和归一化将softmax函数,它与价值加权矩阵诉的具体计算步骤如下:首先,矩阵 矩阵乘以点积计算初始关注权重矩阵 为了防止将Softmax函数的梯度扩散问题造成的过度值,初始体重进一步扩大获得 ,然后将Softmax函数用于正常的体重。最后,进行加权计算值矩阵。整体的计算公式如下:

多线程的注意机制堆放在同一时间可以从多个并行的子空间中提取文本信息,因此,多关注结果拼接,然后乘以培训矩阵 多线程的注意机制的总体计算公式如下: 单一的注意机制在哪里 函数代表多个注意正面的拼接。每个参数矩阵的维度被训练 , , ,

下一个完全连接FFN将进一步完善多线程self-attention机制层的计算结果。它包含两个线性变换和一个中间ReLU激活函数。具体形式如下:

NEZHA和伯特模型增加了残留在深之间的网络连接和规范化处理常见上述多线程self-attention层和前馈神经网络层。他们可以用于多层改善网络的性能;因此,每个子层的输出处理如下:

输出结果的维度 ;因此,NEZHA的基本结构中实现我们的实验是在这项研究中(见图1)。在这个结构中,我们尤其修改andutilize段嵌入,使模型更好的区分我们的输入ofkeywords和句子。

功能相对位置编码采用NEZHA模型魏et al。[22]主要提高了计算self-attention机制以便关注分数可以考虑这两个标记之间的相对位置关系。让网络文本输入的序列爬行股票 ,输出序列值 ,在哪里 , , 被定义为。然后输出值计算如下: 在哪里 关注分数计算首先扩展查询的点积矩阵 和关键矩阵 之间的位置 和位置 ,然后处理的 :

在公式(9), 代表的价值功能相对位置编码。至于情况的维数 ,计算如下:

在这个位置编码规则下,三角函数有不同的波长在不同的维度,这将有助于学习模型中包含的信息在不同的维度的相对位置标记,从而帮助改善下游任务的模型的性能。

3.3。LSTM

LSTM短长期短期记忆。主要改进的基于原始RNN的隐藏层。通过引入输入门,忘记门,和输出门,LSTM可以有效地解决这个问题,RNN网络不能捕获长距离依赖在长途序列[的Hochreiter和讨论。施密德胡贝尔表示37]。本研究使用NEZHA模型来获得关键字和LSTM模型来预测股票价格序列。LSTM可以挖掘关键词之间的依赖网络搜索指数和股票价格与传统的线性模型。

输入门,忘记门,和输出门LSTM模型的细胞扮演着不同的角色。假设细胞状态值之前的一刻 ,LSTM在前一时刻的输出结果 ,和网络输入值在当前时刻 忘记门口负责控制的程度 保留之前的时期,生成忘记阈值向量 ,和输入门负责控制当前的网络输入值的大小 ,并生成输入阈值向量 这两个工作一起生成当前电池状态 之后,输出门负责输出当前LSTM输出结果 ,其输出阈值向量 [的基于Hochreiter。施密德胡贝尔表示37),具体公式如下: 在哪里 代表忘记门的权重矩阵,输入门,分别和输出门。 偏差矩阵。 代表了 函数。

在计算的过程中当前电池状态值 ,首先计算中间变量 通过激活函数 通过当前的输入值 和输出值 LSTM的前一刻,和公式 在哪里 对应的权重矩阵的中间变量 是偏差矩阵,然后呢 代表了双曲正切激活函数。所以细胞状态值的计算公式 在时间 在哪里 代表点乘法。

因此,输出值 细胞的计算根据输出门完整的细胞内的计算:

总之,LSTM模型总结的基本细胞结构在图2

4所示。方法

基于我们现有的种子字,本研究首先收集大量的web文本相关股票价格通过网络爬虫。第二,我们使用JIEBA段种子关键词的相关文本,从而扩大关键字词汇的数量和产生可能的候选词删除后停止词。之后,我们使用伯特模型的话,然后计算其相似性进行向量化。通过构造(候选关键字、文本)对关键字的数据集,我们应用NEZHA下游转移学习和进一步整合模型,结合上下文来确定每个单词的重要性。因此,我们成功地提取高质量的股票价格预测。最后,本研究使用LSTM预测沪深300指数基于种子生成关键词和关键词,分别。我们的算法在算法的细节1。

输入最初的种子从文献关键词
阶段1:伯特词向量相似度的选择
(1) 初始化空相似的单词词汇量
(2) 每个种子字
(3) 收集相应的百度百科文本
(4) 构建关键字词汇 基于JIEBA分割
(5) Vectorize种子关键词 在词汇和潜在的关键词 基于BERTvec
(6) 每个关键字 潜在关键字词汇
(7) 余弦相似性计算分数 之间的
(8) 如果 阈值然后
(9) 添加 相似的单词词汇量
(10) 结束了
(11) 结束了
(12) 的输出单词词汇表
阶段2:NEZHA词选择的重要性
(13) 初始化空类似&重要词汇
(14) 从线索收集数据的数据集的形式(关键词,文本)
(15) 随机选择单词从文本中pseudo-keywords的比率1:1
(16) 构建整合数据集(关键字/ Pseudo-Keyword、文本标签)
(17) 构造训练集 和发展 从数据集
(18) threshold BERT-TensorFlow、BERT-MindSpore NEZHA-MindSpore训练集
(19) 选择表现最好的模型 (NEZHA-MindSpore)精密发展集
(20) 每个关键字 在类似的单词词汇量
(21) 计算上下文重要性评分 基于模型
(22) 添加 类似的和重要的词汇
(23) 结束了
(24) 保持与前100单词词汇的重要性得分
输出类似的和重要的词汇
阶段3:LSTM股票指数预测
(25) 关键字
(26) 滞后项 在1到10
(27) 计算滞后时间序列搜索索引
(28) 结束了
(29) 使用皮尔逊相关系数选择最相关的滞后项
(30) 结束了
(30) 火车LSTM预测CSI300股指在2215天的训练数据集
(31) 计算和比较模型RMSE 243天的测试数据集
输出模型RMSE
4.1。Pretraining伯特和NEZHA

转让成功实践学习NLP,伯特和NEZHA模型显著降低整合的难度训练通过执行两个无监督pretraining大量的文本,从而实现各下游任务主要结果。Unsupervisedpre-training方法包括蒙面LM(传销)和下一个句子greatimportance的预测(NSP)在这个阶段9]。关键字提取任务在本研究推断关键词和句子之间的连接;因此,它是必要的,不仅要挖掘文本的意义在单词层面,也要理解句子之间的逻辑关系。相比与传统的单向语言模型训练从左到右,伯特和NEZHA模型、深度双向网络模型,可以预测单词结合上下文的意思,从而提高模型的字面意思语义信息的学习能力。

在传销任务,15%的词块在每个句子序列是随机覆盖的,标记为(面具)。模型增加了神经网络的分类层,然后使用编码器 功能网络的输出转换成的预测概率中的每个单词的词汇量。之后,我们选择概率最高的词作为预测结果。因为15%的词块,需要随机蒙面,模型只替换(面具)词块有80%的概率,随机词概率为10%,在10%的情况下,模型maintainsthe同一个词。这确保了pretraining可以处理句子没有(面具)块。因此,代之以一个随机词的概率仅占全文的1.5%,而不会产生重大影响模型的语义理解。具体而言,NEZHA模型采用整词屏蔽方法,这意味着模型面具不仅单一汉字还其他角色属于同一个中国的词。这个技能有助于模型更好地理解中国的句子以一种更自然的方式和istherefore有利于我们的关键词提取。

与传销的任务相比,主要矿山标记级信息里面的句子,该规划的任务集中在理解句子的逻辑连接,所以它是非常有用的任务,关注文本的逻辑,比如问答(QA)任务和自然语言推理(NLI的)。在该规划的任务,pretrained文本句子和它的下一个句子。其中,句子B有50%的概率匹配一个句子,这是标记为在下。其他50%的情况下,句子B是随机选择从语料库和标记为NotNext。由于传销和NSP模型本质上是分类任务,选择熵函数作为损失函数;因此,总体损失函数是通过添加和总结上述结果。textpairs的培训安排,总的来说,包括与各种句子长度,使我们toprocess两个不同的文本之间的逻辑内涵,使得从句子选择关键词的理想选择。

基于上述pretraining过程,伯特和NEZHA模型一直在pretrained大量的语料库,从而显著减少下游任务的培训成本通过这种转移学习方法;因此,本研究使用了来自谷歌和华为pretraining参数。它使伯特模型的单词进行向量化和NEZHA模型优化训练参数下游关键字歧视。

4.2。伯特词向量相似度的选择

通过大量pretraining伯特具有较强的文本表示能力随着网络层数量的加深。然而,随着网络层数的增加,网络的每一层的输出结果,特别是最后一层,将偏向pretrained目标函数:传销任务,该规划的任务。因此,倒数第二的网络输出层更客观、公平和适当的代表词向量。在这项研究中,我们选择倒数第二网络的输出伯特这个词向量来表示这个词的意思后平均池。

向量化的选择过程使用伯特模型种子进行向量化关键字和种子之间的余弦值计算关键字和候选关键字之间的相似度来判断单词和它们的值。然后我们设定一定的阈值,进行初步筛选候选人的同义词典根据相似性,和keywordscorresponding高相似度值被保留(详细过程,见图3)。

4.3。NEZHA词重要性选择

在这项研究中,现有NEZHA模型采用基于关键字的股票价格预测,结合关键字语料库材料线索整合的任务数据集识别关键字(17]。一方面,我们从种子开始关键词的股票预测,收集百度百科文本对应于每个关键字,并使用JIEBA分段和重组encyclopadia文本构建的组合(候选关键字、文本)。因此,候选人的一组关键字在广度扩展。另一方面,本研究整合新闻语料库线索的数量,结构(关键词/ pseudo-keywords、文本、标签)数据集相同的步骤,并执行整合培训通过NEZHA模型构建关键词选择模型。最后,整合模型用于筛选潜在关键字,因此过滤关键字设置深度。整个优化过程如下(图4)。

在数据集内英语NLP模型评价,胶的数据集已被广泛接受并采纳。它已经成为一个标准测试数据集评估许多NLP模型的影响。快速发展的中国NLP,线索,中国基准测试数据集类似于胶,。线索的数据集称为汉语理解评价基准,这是第一次大规模开源NLP模型基准测试数据集在中国38]。提取关键字对于股票价格预测的任务,本研究选择news2016zh线索作为下游的训练数据的数据集整合培训。原始数据集包括(关键词,文本)对。本研究使用JIEBA分词工具,把文本和随机选择伪关键词,不同于原来的关键字的文本。在这个过程中,最初的关键词比伪关键词是维持在1:1。因此,一组数据(字/ pseudo-keyword、文本标签)是构造为后续伯特/ NEZHA模型训练和验证的分类效果。

输入(关键字/ pseudo-keyword文本),伯特/ NEZHA模型编码相同的方式在pretraining作为编码器的输入向量和计算数值的输出向量的位置(CLS),其中包含的编码表示整个句子。高度完全连接分类模型层的后端编码器。假设完全连接层的参数矩阵 和输出向量(CLS)位置 ,最后的预测结果

因此,熵损失函数计算和back-propagated以便所有的参数被训练模型的端到端更新。

本研究基于上述结构构建一个模型,并使用伯特和NEZHA模型训练Tensorflow框架和Mindspore框架下,分别。具体来说,它包括三种类型的模型:Bert-Tensorflow Bert-Mindspore, NEZHA-Mindspore。TensorFlow框架由谷歌开发和维护,是采用最深度学习模型由于其优秀的硬件兼容性和可视化能力。然而,静态图操作Tensorflow采用了很长一段时间有利于项目部署,但它带来了巨大困难快速调试和代码的迭代。相比之下,使用的动态计算图框架如Pytorch非常有利于调试,但是很难进一步优化性能。Mindspore框架由华为采用不同的方法,采用基于源代码自动微分方法转换,这不仅给模型带来了方便建设也获得良好的性能通过静态编译和优化(39]。我们感谢MindSpore部分支持这项工作,这是一个新的深度学习计算框架(40]。

模型的hyperparameter选择而言,大部分的参数在本文中默认情况是一致的。同时,比较每个模型的分类效果,训练集上的批量大小和时代,开发集和预测集统一设置。其中,批量训练集的规模是最大的批处理,不会导致我们的内存(伯父)错误代码测试加速模型的训练。同时,训练集上的培训期间设置的推荐Devlin et al (21]。开发集和预测集,模型的批量大小是一致的默认模型只有一个时代。选择的参数表1

在训练集上,本研究比较不同模型的分类结果发展集不同框架下,以选择最好的模型分类应用程序设置的预测。在预测模型的输出结果集处理 和用于单词的分数上下文重要性进一步屏幕与预测的潜力。

4.4。LSTM股票指数预测

我们使用LSTM模型实证预测股票价格基础上生成的web搜索索引词测试生成的单词的解释和预测能力在股票价格上。在时间序列预测中,适当的延迟处理的数据有助于准确地描述解释变量和解释变量之间的关系,从而提高预测的效果。因此,本文首先对数据执行一定的滞后处理顺序,采用皮尔逊相关系数屏幕,选择可靠的预测变量,并有很强的相关性(见图5)。

LSTM等深度学习模型,选择hyperparameters将大大影响模型的预测能力。的参数设置LSTM被称为在唐等人的作品。41),滑动窗口设置为30天,这意味着下一个交易日的股票价格预测在训练集上通过学习过去一个月的数据。的神经元节点设置为10,迭代的总数是500时代,和学习速度是0.0006。Theoptimizer亚当优化器使用。每个门的激活函数是乙状结肠,但激活函数输出门采用双曲正切函数,综合起来都是LSTM的默认设置。

5。实验

5.1。实验数据

沪深300指数作为我们的预期目标。通过引用现有文献和百度指数的建议,我们从宏观和微观方面选择种子关键词,分别在表2

在此基础上,本研究使用上述词汇作为搜索关键字,搜索相关文献从百度百科和过滤器19609长文本语料库的长度超过50个单词。JIEBA分割分别在每个文本上执行,并停止词删除,从而构建一个潜在的预测变量的词汇,共有114 k候选词(在不同的上下文中)。

5.2。相似的选择

基于pretraining BERT向量化参数和潜在的预测变量股票价格相关词汇的形式表示向量通过多层堆叠编码器机制。然后是单词筛选从相似性的角度,和semanticallyhighly相关词汇。本研究使用词向量之间的余弦值作为衡量词语的相似度,并计算每个种子字的余弦相似性的股票价格预测和其相应的候选词。阈值设置为0.9,17720潜在股票指数预测相应关键字和文本上下文通过初步筛选。一些结果如表所示3

5.3。选择的重要性

伯特向量化模型计算相似度的初步筛选,该模型有效地消除了许多单词,与种子低相关和词汇股票指数预测的。在此基础上,我们引入NEZHA模型融合的背景下,候选关键字和进一步过滤的初始筛选词通过培训下游整合任务,从而仔细选择关键词根据上下文的重要性。

在这个阶段,本研究使用线索的新闻文本数据集的数据集。相应数量的伪关键词是随机从文本获得保持平衡训练样本的基础上手动标注的关键词。之后,我们生成的标准数据集(文本、关键字/伪关键字标签(0或1)。在下游整合阶段,模型的输入安排是:(CLS) +文字+[9]+关键字/伪关键词。NEZHA模型的训练过程中,输入是由词编码嵌入,嵌入,嵌入位置然后计算多层编码器生成的输出向量(CLS)。然后我们使用后端完全连接分类网络结构和Softmax预测概率,代表关键词在文本的重要性。

共534893个样本训练集的筛选,共有19609个样本在发展。这项研究列车BERT-Tensorflow, BERT-Mindspore,和NEZHA-Mindpore模型训练集比较伯特模型的性能和NEZHA模型在Mindspore Tensorflow框架和框架发展集。由于本研究的目的是提取关键词识别关键词,在任务重要性高的三个模型的准确性进行比较,计算公式如下:

其中,TP代表真阳性,也就是说,样本本身是正确的关键字,和模型法官是正确的关键字的数量;FP代表假阳性,样品本身就是一个pseudo-keyword,模型法官正确的关键字的数量。三种模型的性能发展设置如表所示4

以上三种模型的性能验证了performanceof我们的实验设计。其中,NEZHA根据Mindspore框架,取得了最佳的性能在开发中设置关键字歧视的任务。本研究使用这个词重要性概率计算NEZHA-Mindspore模型为基础的排名。NEZHA模型的一些结果如表所示5

本研究排名上述单词的重要性,选择前100名生成的单词作为候选股票价格预测。然后我们使用web爬虫获取对应的百度搜索索引。设置的时间间隔从2011年1月1日,2021年2月29日。一些单词被由于小搜索量。重复数据删除后,共有61个有效生成的单词和87有效种子字。表的细节6

5.4。预测与LSTM CSI 300指数

沪深300指数涵盖了上海和深圳交易所的股票组成的选择股票,和行业组成符合市场行业分配比;因此,我们选择沪深300指数作为实证对象的测试。

因为网络搜索数据在各个方面受到公众舆论的影响,一些搜索数据可能会有很多噪音,可能影响的预测能力LSTM当预测沪深300指数;因此,本研究首先利用皮尔逊相关系数分析方法分析相关性。字删除,而降低系数的绝对值阈值为0.6。更重要的是,延迟订单设置为10。本研究选择最高的滞后项中的相关系数的绝对值10-order滞后的每个关键字作为预测变量。我们最后确定的预测变量执行上述操作种子词和生成的词,如表所示7

沪深300指数的预测时间间隔设置从1月1日,2011年3月1日,2021年。假期没有交易数据被过滤掉,并进行为期10天的滞后获得总共2458天的有效数据。这项研究使用了2215天的百度搜索索引数据在2月29日之前,2020年,作为训练集,从3月1日和243天的数据,2020年,3月1日,2021年,随着测试集比较预测能力生成的种子词汇和词汇。其中,沪深300股票指数数据来自风数据库,和关键字的数据来自百度搜索索引。后LSTM列车trainingsets沪深300指数的种子字,生成单词的训练集,分别预测测试集。Wedid很多实验,发现生成的关键字的RMSE低于种子的RMSE关键词在大多数情况下,这表明我们的预测模型与稳定性。在这里,我们提出了我们的一个实验结果如图67

与沪深300指数的种子的话,生成的相同数量的词汇向量相似性伯特获得的过滤和NEZHA关键词选择更稳定和沪深300指数平滑预测结果。对于我们的预测任务,本研究使用根均方误差(RMSE)指标来衡量模型的预测能力。越小RMSEmeans更好的预测效果。计算公式是 在哪里 代表真正的价值, 代表的预测价值, 代表测试集的样本大小。结果表明,在本实验中,RMSE 154.1831当沪深300指数本身的滞后项和种子关键词searchindexes作为预测变量。然而,RMSE 110.6976当滞后项的沪深300指数本身和生成的关键字“searchindexes作为预测变量。降低利率是28.20%。

相比,我们的实验结果表明,与原始种子字,NLP文本挖掘技术在本研究设计提高了预测精度和准确性的LSTM沪深300股指新生成的关键字与更好的预测稳定性和更好的预测能力。

6。结论

基于伯特和NEZHA模型的人工智能,我们优化文本挖掘技术对股票价格指数预测和深入扩大关键词的更高质量的预测变量。在此基础上,我们使用LSTM预测模型实证预测沪深300股票指数。实证结果表明,基于文本信息挖掘的方法伯特模型相似性和NEZHA模型的重要性,我们可以筛选出高质量的预测变量与更高的相关性和预测能力更强的网络文本,从而大大促进了CSI 300指数的预测效果。

影响如下:第一,人工智能文本挖掘技术基于伯特和NEZHA边境可以更好地应用于股票价格预测,这不仅丰富了股票价格预测的指标体系,而且也帮助监管机构和投资者评估股票价格趋势和控制股票价格风险。其次,文本挖掘技术可以实现股票价格预测的关键字扩展,提供研究思路和参考其他宏观指标系统的扩张。此外,该方法具有较强的可扩展性。未来的研究可以考虑更多的分析角度基于相似性和实现更高质量的重要性关键字扩展,这也是值得探索在以下研究。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突有关这项研究的出版物。

确认

作者承认有用的匿名审稿人的评论。Xiaobin唐是由CAAI-Huawei MindSpore开放基金(没有。caaixsjljj - 2021 - 045 - a)和对外经贸的优秀青年学者资助项目。21 jq09]。丹马是支持中国的国家社会科学基金(批准号。21 &zd149)。