预测股票市场的知名公司:知识图的方法

文摘

越来越多的著名的公司的投资者们关注的股票预测假设未来市场的寻找新的有效的方法通过行为金融学的应用。因此,研究股票预测是成为学术界和工业界的流行方向。在这项研究中,我们的目标是建立一个模型来预测股票价格运动通过知识图财经新闻的知名企业。与股票预测的传统方法相比,我们的方法考虑了事件元组特征对股市的影响图和深度知识的基础上学习。该模型和其他特征选择模型被用来进行特征提取的网站汤森路透和有线新闻网络。大量实验获得的证据的有效性图嵌入在股票预测分类任务的知识。比较的平均精度相同的特性组合提取六股表示,该方法通过这种方法来实现更好的性能比表现出只使用股票数据,bag-of-words方法和卷积神经网络。我们的工作突出了实用性的知识图实施业务活动和帮助实践者和管理者做出业务决策。

1。介绍

股票市场研究公司预测已经成为受欢迎的引入法玛的有效市场假说(EMH) [1),但近年来,越来越多的人发现,股票市场的知名公司的变化是随机的,复杂的,和不稳定,因为他们受到许多因素的影响。公司股票市场变化是文化方面的影响,从根本上影响投资者情绪;传统文化往往决定了人们的投资心理,进而影响股票市场资金的流入和流出。公司里面能激发问题,如公司股票价格和市场上的操作的影响因素(2]。以这些因素为基础准确预测股票价格波动给投资者希望最大的利润将达到最少的股票投资。相应地,分析股票市场走势既具有挑战性和对研究者和投资者的吸引力。此外,正如知识图的发展自然语言处理(NLP),金融领域的研究人员开始关注财经新闻的文本挖掘。所维护的有效市场假说和人工智能技术,最好的结果是实现新闻信息是用来预测股票市场运动,还可以控制金融风险的业务活动。

2012年5月,谷歌正式宣布其知识图项目,旨在改善搜索引擎效果和搜索质量以及用户体验与发动机(3]。知识图的发展促进了广泛使用的人工智能技术在智能搜索、智能问答任务,和聪明的财务。在金融、知识图的目的是找到实体之间的关系,如公司的管理,新闻事件和用户首选项。这些实体可以使用实现高效的金融投资者基于数据的决策和获得业务洞察力预测股票市场(4]。由于这些原因,目前的研究集中在如何使用知识图来提高股票价格预测的准确性。知识图数据库,实现语义搜索,保存多个实体之间的关系。基于事件元组知识图(5),我们可以推断事件元组的定义(A, P, O),在那里一个代表了一个代理,P代表一个谓词O代表一个对象(6]。针对每个事件元组已知的对象转换,转换成向量时,失去了更多的语义信息。事件相关元素的元组联系在一起,可以作为一种有效的提高预测精度的方法。结果,我们提出一个事件元组的学习模式,保留最大的语义特征。

知识图嵌入学习知识图是一种表示。目前,一些算法(3)之间的映射关系探索翻译距离模型中的实体和关系。TransE模型(7)是一种计算有效的预测模型,满意地代表一种一对一的关系。它被用来作为基础发展的不同的翻译距离模型。TransH模型(8]地图矢量的脑袋和尾巴上的超平面,之后这两个组件完成超平面上的翻译过程。TransR模型(9),这是基于TransE模型,由位于不同的实体和关系维度的空间。对于每一个关系,该模型定义了一个矩阵,用于实体向量转化为空间。动态模型也由一个实体之间的关系。TransD模型(10)是一个TransR模型的改进,前者使用为基础在考虑一个变换矩阵。在比较这些模型,解决新闻元组映射的脑袋和尾巴在一个单一的空间需要简单的一对一的映射实体提取特征。这个功能在TransE模型;本研究是用于建立一个功能组合模型metagroups新闻事件。

这项工作选择六个全球著名公司预测股票价格运动,也就是说,苹果、微软、三星、波音,谷歌,和沃尔玛作为应用程序场景。据汤森路透(Thomson Reuters)之间的不同数据源和有线新闻网络,我们揭示一些算法的案例研究的结果,这说明相结合的性能特性优于只使用股票数据,使用bag-of-words算法,并使用卷积神经网络。虽然已经有一些强大的深度学习在NLP中的应用(11),如语音识别、文本分类、机器翻译,大多数以前的研究在预测股票价格运动(12基于语义信息的消息,忽略了语义特征的结构化活动。深度学习和知识图的应用程序在著名公司的股票很少是可用的。因此,我们的工作为金融市场提供了一个可行的应用程序框架,也可以扩展到其他方面的金融。

对于股票市场的预测,我们制定一个知识图embedding-driven(图的方法,包括四个主要阶段1)。首先是数据检索,开始搜索关键字,如“苹果”或“谷歌”汤森路透或有线新闻网络(CNN),如图2。黄色的部分是财经新闻的头条,橙色部分是金融新闻的发布时间。然后使用一个网络爬虫来获得网站的财经新闻,并与相应的股票数据,结合所有这些信息到一个语料库。第二阶段包括预处理,包括语料库分析、文本规范化、文字标记,标签,标签和word-to-vector转换。的特性来源于词嵌入和股票数据层然后选择特征值的计算,之后生成一个特征向量图嵌入使用机器学习和知识。第三个阶段是模型创建,股市预测标签(增加或减少)被分配到财经新闻训练分类模型。最后,财务决策依赖于预测这个框架的性能。具体地说,一个小进步直接影响决策,这就增加了著名公司的利润。第四阶段涉及到模型的评估,结果和结论的提取每个机器学习模型进行了分析。

论文的其余部分组织如下。部分2回顾现有研究中使用机器学习股票市场预测。部分3介绍了本研究中采用的方法,包括数据描述和特征选择的方法。部分4介绍了分类结果,部分5讨论的结果和影响。部分6结论与总结。

2。文献综述

在表1机器学习技术的应用,股市预测是一个新兴的研究领域。机器学习模型的优点是能够促进处理大量的数据。过程常见的这些模型是来自不同数据源的连接特性为一个特征向量。对于大多数机器学习模型,研究重点是预测股票趋势(增加或减少)。


纸	文本类型	特征提取	模型类型	性能测量

(13]	专业报纸	股票数据	注	精度
(14]	专业报纸	股票数据	支持向量机	精度
(15]	留言板	股票数据	回归	相关系数
(16]	从	股票数据	然而,支持向量机	准确性,F1-score
(17]	聚合新闻	股票数据, bag-of-words	SVR	MSE、准确性
(18]	公司信息披露	股票数据, bag-of-words	多个	准确率、召回、精密,F1-score
(19]	财经新闻	股票数据, 情绪	DT	准确率、召回、精密,F1-score
(20.]	网络媒体	股票数据, bag-of-words。	SVR	准确率、召回、精密,F1-score
(21]	混合类型	股票数据, bag-of-words 情绪,	SVR	RMSE、精确度、准确度
(22]	留言板	股票数据, 情绪	支持向量机	精度
(23]	混合类型	股票数据, 技术指标, 情绪	安,支持向量机,DT	准确性、AUC F1-score,精度
(24]	没有一个	股票数据	回归	相关系数
(25]	媒体新闻	股票数据	回归	相关系数

我们的金融专家系统	财经新闻	股票数据, 技术指标, bag-of-words, 语法	多个	准确性,F1-score

各种特征的抽取,已经提出了著名的公司的股票价格预测。在早期,大多数公司的股票预测取决于经济计量模型的实证分析,即特征提取原始数据公司的股票。然而,以前的工作忽略了非结构化数据的潜在影响对公司股票。bag-of-words以来被广泛使用在任务的文档分类、词出现的频率可以作为分类的特征。因此,词语的袋模型只计算频率的单词和不考虑上下文中的词序或字稀疏,这直接影响预测结果。此外,有效市场假说发现情感冲动的著名公司在公司股票投资者经常观察到的异常波动。泰特罗克(26]采用流行的新闻从《华尔街日报》发现情绪对公司股票的预测能力。陈等人。27发现信息comentions通过情绪对股票收益产生重大影响分析。此外,投资者的情绪趋势正面消息后,导致购买趋势,和股票市场价格上涨而负面新闻股票出售后导致价格的下降。然而,情绪分析只能用于特定的文本。如果情绪是隐式的而非直接的情感词,然后使用情绪分析预测能力的著名的公司的股票价格是相对有限的。Mittermayer和Knolmayer16]说明news-CATS达到性能,优于其他ATC模型用来预测股票价格的趋势。李等人。21)提出了一个media-aware量化交易策略利用情绪信息网络媒体。仿真交易回报高达166.11%。阮et al。22)提出了一个特色主题情绪改善股票市场预测的性能。他们的方法实现了精度优于9.83%的历史价格法和3.03%比人类情绪的方法。

我们利用语法分析的特点是提出了(6,12];即一个结构化的元组提取从一个非结构化文本语义结构的基础上每一块的新闻。图可以丰富知识的结构化表示新闻事件,有效保留新闻事件的特征向量。的主要特征提取之前的研究(28,29日情绪分析,被忽视的事件特征的文本。此外,现有的文献[23,29日]证明了积极的技术指标对股票市场的影响的预测。总之,我们的研究强调了语法分析在金融新闻,也包含了与其他特征提取(股票数据、技术指标和bag-of-words)。因为各种各样的特性,本研究将提供一种改进的预测股票市场价值的著名公司至少3.6%。

先前的研究[30.)是应用与传统的机器学习算法,特别是由于强大的应用程序基于机器学习的深度学习的能力。深度学习利用的几项研究预测股票价格的运动。克劳斯和Feuerriegel31日]预测股票收益基于财务披露,和他们的结果表明,更高的深度学习定向超过传统的机器学习。丁等。5]说明深度学习也可以预测股市的知名公司。Sim et al。32)提出,技术指标转化为时间序列图的图像,它检查深度学习在股票市场上的适用性。总的来说,我们采用多个模型预测股票价格的著名公司,这证明了我们的模型比较不同算法的可靠性。这项工作应用深度学习与知识图嵌入特征提取,检查功能相结合方法的适用性的著名公司股票价格的运动。

3所示。材料和方法

我们开发了一个基于知识的方法,包括三个步骤,即数据描述、数据预处理、特征选择。

3.1。数据集描述

表2显示自定义金融新闻语料库由标题来自两个数据集。汤森路透公布的第一个数据集包含新闻文章,包括那些关于苹果公司(Apple),微软公司(Microsoft),和三星电子有限公司有限公司(SSNLF)。第二个数据集包括新闻报道发表在CNN,包括波音公司报告(BA),谷歌(Google)和沃尔玛公司(wal - mart)。它还包括金融新闻标题发表在特定的时间间隔,每个新闻报道伴随着一个标题和发布日期。标题是用于事件嵌入和特征提取、使用和发布日期作为参考在确保一致性对应的财经新闻和交易数据时间序列。见以前的工作(5,31日),使用一个标题构建语料可以帮助减少噪音在文本挖掘标题简明地表示一个文本的内容。我们只使用从路透社和CNN新闻标题预测股票价格的运动。


财经新闻数据集	股票	公司名称	时间间隔	许多新闻标题

	AAAL	苹果(aapl . o:行情)。	3.10.2011——31.7.2017	6423年
汤森路透(Thomson Reuters)	微软	微软公司	30.9.2011——29.11.2017	6623年
	SSNLF	三星电子有限公司。	30.9.2011——29.11.2017	6900年

	英航	波音公司	8.9.1998——23.2.2017	2999年
美国有线电视新闻网	google	谷歌(goog . o:行情)。	25.5.2006——24.2.2017	5278年
	京东商城	沃尔玛公司。	7.5.1997——24.2.2017	4913年

每日股票指数的数据报告在每个公司收集的雅虎财经在同期股票数据和金融新闻头条。每日交易数据,这是常见的股票价格预测23,33),功能和技术指标被用于我们的模型。开盘价、收盘价、高价格、低价格、体积和三个技术指标。

表3金融新闻标题显示了一些示例的过滤。说明6423标题关于苹果公司(Apple inc .)提取,然后通过混响过滤后减少到2799年的头条新闻(34]。让我们把这篇文章”接下来苹果董事会是什么?”,发表在2011年10月6日,作为一个具体的例子。文章的标题不能转化为一个事件元组使用混响。因为这句话是在疑问形式,没有事件元组构成一个规则。时间匹配后的数据和股票数据,剩下941年的头条新闻。每日新闻和股票数据对齐创建输入-输出双,除了没有消息发布的日子。例如,在2012年1月9日,三个新闻被报道,但是我们选择符合股票市场数据只有一个标题。新闻事件可能发生在一天几次,但他们不会每天都在发生,与股票交易不同的是,它每天发生,除了非贸易的天落在周末或假日。


日期	新闻标题	新闻标题事件元组

3/18/2012	中国作家协会起诉苹果:官方媒体	中国作家协会、起诉、苹果

4/13/2012	德国法院主张禁止苹果推送邮件	德国法院奉行禁令,苹果推送邮件

4/4/2012	苹果,两家出版商坚持反对清算报告	苹果——两家出版商,坚持反对,清算报告

3/26/2012	苹果公司首席执行长库克与中国官员	苹果首席执行官库克,满足,中国官员

4/25/2012	我们STOCKS-Apple最佳增益结果使纳斯达克正轨	苹果,结果,纳斯达克正轨最佳收益

表4显示匹配发现对事件元组和股票之间的数据。从这个完整的数据集,我们使用训练数据样本的80%,剩下的20%为测试数据。这种选择方法是一样的以前的文献[5,24]。


数据源	公司	培训	测试	总

	苹果	780年	161年	941年
路透	微软	832年	208年	1040年
	三星	855年	214年	1069年

	波音公司	528年	132年	660年
美国有线电视新闻网	谷歌	1010年	252年	1262年
	沃尔玛	798年	200年	998年

3.2。数据预处理

预处理的以下三个步骤,准备特征提取和模型的创建。

(1)为每个新闻标题标签的标签。五个可能的标签以分类值如下:0为一个非常消极的标签,负面标签1,2表示一个中性标签,3为一个积极的标签,和4来表示一个非常积极的标签。根据每个新闻标题的特点的时候,一个事件是手动为每个新闻标题标记标签。表5显示了每个公司的标签应用:标签0意味着一个公司的竞争对手在这一事件发生;标签1意味着该公司失去了一些;标签2意味着它没有对公司造成任何影响;标签3意味着这个事件使得公司获得的东西;和标签4意味着公司增加了利润或创造了更多的价值。


	公司
标签	苹果	微软	三星	波音公司	谷歌	沃尔玛

0	502年	967年	1433年	133年	661年	206年
1	537年	432年	379年	200年	245年	287年
2	661年	557年	378年	152年	389年	233年
3	692年	707年	724年	233年	683年	438年
4	407年	228年	193年	147年	196年	180年

总	2799年	2891年	3107年	865年	2174年	1344年

(2)词向量变换。我们使用了word2vec [35)算法训练字嵌入和维度的数量设置为300。嵌入这个词也使用Google新闻训练数据集,其中包含1000亿个单词,特点是连续bag-of-words结构。

(3)技术指标的计算。三个额外的技术指标计算的基础上,使用了日常交易数据如下:

(一)随机振荡器(% K)。这个指标是一个动力分析方法由乔治·c·莱恩。当价格上涨趋势,收盘价往往接近一天的最高价格。当价格下滑趋势,收盘价往往接近一天的最低价格(36]。

(b) Larry williams % R指标。这个指标是一个振荡指标测量的比率最高的价格每日收盘价。它表明股票价格波动的比例在一定时期内,从而提供一个信号的股市趋势的逆转(37]。

(c)相对强弱指标(RSI)。在市场上买卖的意图进行了分析通过比较收盘价在给定的时期。股票有更多或更强的积极变化有更高的肢体重复性劳损症比那些有更多或者更消极的变化。0到100之间的强度指标下降;投资者出售如果这个值≥80,购买如果≤20 [23,36]。

3.3。变量/特征选择

应用预测模型评估的有效性的基础上财经新闻,我们设计了四组特性预测股票价格运动(表6)。3和4用于事件特征特性。每个特性在接下来的部分说明。目标输出由一个二进制变量,的值表示一天的收盘价t + 1将高于一天t值0表示,在一天的收盘价t + 1将低于一天t。


	功能	特性表达式

1	股票价格昨天+的趋势(在部分3.3.1)	,
2	+ bag-of-words(节相同3.3.2)	, ,
3	相同+一些功能推断通过卷积神经网络部分3.3.3)	, ,
4	同样+功能通过推断功能组合(在部分3.3.4)	, ,

3.3.1。只股票数据

我们认为历史价格作为输入预测股票价格运动和使用它作为基准进行比较与其他的特性集。特性用于火车只使用股票数据的机器学习模型和。输出价格运动的指示器(增加或减少)检查每笔交易日期。

3.3.2。袋的话

输入特性集是基于词的一袋新闻和股票价格趋势。先前的研究[18,38,39)广泛使用和确认bag-of-words算法的可行性,但是这种方法忽视了语法和语序等元素的文本。在目前的研究中,我们首先准备每个标题数据预处理,然后预处理标题变成一个特征向量使用术语frequency-inverse文档频率(TF-IDF)算法(40),分配高体重特征向量。研究[41,42)强烈证明TF-IDF算法在特征提取的有效性从新闻头条。估计这个词的频率在一个文档集合的最大文件和评估的重要性,一个词在一组文件。这样的重要性会按比例增加单词出现在文档的数量。特性用于火车bag-of-words机器学习模型 , , ,的价格变动(增加或减少)检查每笔交易日期。

3.3.3。卷积神经网络

给定单词的顺序一个标题,word2vec模型(35)可以用来嵌入这些词在实际valued-vector 。在这项工作中,我们设置维度每个词向量在30(例如, )。我们连接的词向量中的所有单词标题顺序形成一个矩阵 (35)作为卷积神经网络模型的输入。对于一个标题话说,合成输入矩阵的维度 ,和新闻表示的尺寸也为30。

在图3,这个卷积神经网络模型由连续四层:第一层是输入,第二层是卷积,第三层是max-pooling,最后一层是一个完全连接层。卷积和max-pooling层被设计使用text-attentional卷积神经网络(43),有效地进行情感分类。在卷积层,输入矩阵X可变内核 ,其中n是一个词向量的大小在我们的工作(30),和它的尺寸是50。k表示一个滑动窗口的大小(k = 3在这项研究中)。计算可以制定如下: 在哪里输入的一部分吗滑动窗口内,表示可选的抵消,是乙状结肠函数。

在下一步中,我们使用池层减少卷积神经网络参数空间,从而最大限度地减少信息损失的池处理和捕捉最重要的特性。滤波器的特征向量在池层是切成3块和最大值在每个块;我们获得了3个特征值。卷积的输出向量Z分为p窗户,只有3在每个窗口的最大特点是保存一段到最后完全连接层。完全连接层是线性回归,输出层特征分类在0和1之间。

卷积神经网络模型的目的是提取的特征向量完全连接层来描述输入标题的情感特征。直觉后,一个好的特征向量应该导致事件的准确分类标题的特点,我们完全连接后附加一层softmax层卷积神经网络模型训练时。整个模型训练分类的五个情感标签描述事件的特点,和合成模型将能够提供一个有意义的情感特征向量为每个输入标题。与此同时,我们定义的损失函数卷积神经网络模型。用来训练这个机器学习模型的特性 , , ,的价格变动(增加或减少)相应的交易日期。

3.3.4。结合特性

在本文的引言部分,我们描述了各种翻译模型。因为TransE模型代表了两个实体之间的一对一的关系(7),许多实体之间的关系必须不断纳入文献和知识图(44]。该模型结合了卷积神经网络与文本信息提取,这充分利用知识图和文本的语义信息(45,46]。在图4、知识图包含丰富的语义实体描述文本,但它不是完全利用特征提取。大多数现有的文本表示模型仅仅通过word2vec训练文本词向量,通过平均获得文本表示,等。因此,这些方法往往失去更多的语义信息。因此我们提出了从新闻文本中提取特征向量使用卷积神经网络模型结合TransE模型,这也充分整合两个部分的功能的信息。

在图5,这种架构用于特征组合模型包括两部分,即一个卷积神经网络部分3.3.3)和TransE模型。每个单词的特征组合集平均向量在一个实体和它使用word2vec模型获得的。两个实体向量映射到相同的关系空间,和这些实体使用一个训练有素的低秩矩阵[重量47]。

假定在TransE模型,向量之间的关系R应该满足”E + R≈T”。模型可以表示为一个参数集 ,在哪里X, E,R代表一个单词,一个实体,一个关系,分别。和r是实体的映射矩阵的结构模型和代表卷积神经网络的权重。例如,这个句子是“三星起诉苹果侵权”,所以“三星+苹果≈起诉”。的损失函数这个结构模型的定义如下: 在哪里h, r,和t代表头实体、关系和尾巴实体事件元组,分别为(47]。

和文本表示部分是一致的3.3.3这表示: 在哪里代表了头实体和尾巴实体在文本表示。和代表一个头部的实体h和尾巴的实体t在文本表示,另一个是在结构表示。

此外,我们结合两种类型的学习(卷积神经网络和功能组合)表示地图新闻标题;这些向量将转化为特征向量。向量的关系R相同的结果的特征提取层卷积神经网络结构模型。此外,我们结合这些损失的分类损失卷积神经网络使用L2正则化,获得总体损失函数对特征选择, 在哪里是一个常规项目。和hyperparameters,衡量文本信息的损失和普通物品的重量,分别。W表示层和回旋的内核负样本集吗(7]。头部的实体和尾巴实体随机取代一个实体或关系在另一个元组。特别是,如果元组已经取代T,它将不会被添加到负样本。因为两个h和t代表两种类型的实体,有基于结构的表示和基于文本的表示基于间隔损失函数。随机梯度下降法(SGD)被用来减少上述损失函数。

在这个结构中,我们选择最优参数作为followe: SGD的学习速率= 0.001,表示向量的维数的实体和关系k= 100,这个词向量维度实体的描述文本n= 100,培训期间和批量大小是1440。卷积层窗口大小。这个实验是在1000年执行迭代训练和最优参数是基于测试集。

因此,用于培训机器学习模型的特性 , , ,的价格运动(增加或减少)在相应的交易日期。

4所示。实验和结果

4.1。实验设置

本节比较了不同模型的性能从财经新闻的特征提取与完整的特性集。评价的目的是获取证据表明该特征组合模型优于其他特征选择模型在预测股票价格的运动。如表所示7例如,我们选择线性模型,后勤回归和朴素贝叶斯。其他非线性模型,例如,整体学习(随机森林、演算法、梯度增加)的比较。我们不断调整参数在网格搜索和选择最优参数值;他们的参数值已被证明适用于机器学习方法(29日,48]。


方法	分类	参数和值

传统的机器学习	决策树(DT)	标准=基尼,分配器=最好,最大深度= None,最小样本分= 2,最小样本叶= 1,最小重量分数叶= 0.0,
	后勤回归(LR)	随机状态= 1
	朴素贝叶斯(NB)	没有内核估计量
	随机梯度下降法(SGD)	损失=铰链,点球= l2
	支持向量机(SVM)	多项式核函数与指数= ,RBF核函数与γ= 0.01

系综学习	随机森林(RF)	随机抽样的候选人在每个分= log2 + 1, max-depth = 2,随机状态= 0
	演算法(AB)	多项式核函数与指数= ,RBF核函数与γ= 0.01,n -估计= 100
	梯度增加(GB)	N-estimators = 100,学习速率= 1.0,= 0 max-depth = 1,随机状态

我们使用电脑的英特尔酷睿i5处理器组成的四核2.9 GHz和8 GB RAM MacOS平台。我们使用Python的Scikit-learn图书馆在实验中涉及传统的机器学习算法和TensorFlow 1.4实验中深度学习和TransE模型。缩写用于比较分类性能展示在表8。在测试期间,2倍交叉验证对模型的稳定性进行评价。和我们比较性能预测股票价格运动为第二天的测试数据集和评估模型的性能的准确性和F1-score [49]。


算法	股票数据(SD)	袋的单词(鞠躬)	卷积神经网络	特征组合模型(FC)

DT	DT_1	DT_2	DT_3	DT_4
LR	LR_1	LR_2	LR_3	LR_4
注	NB_1	NB_2	NB_3	NB_4
SGD	SGD_1	SGD_2	SGD_3	SGD_4
支持向量机	SVM_1	SVM_2	SVM_3	SVM_4
射频	RF_1	RF_2	RF_3	RF_4
AB	AB_1	AB_2	AB_3	AB_4
GB	GB_1	GB_2	GB_3	GB_4

4.2。结果

4.2.1。准备汤森路透(Thomson Reuters)的案例研究

汤森路透(Thomson Reuters)是一个跨国大众媒体和信息公司。三家著名公司在网站上选择的分析。第一个是苹果公司(Apple Inc .),这是一个美国跨国科技公司设计,发展,和销售消费电子产品,计算机软件和在线服务。第二家公司选择的是微软,这是一个美国跨国科技公司开发,生产,支持,和销售计算机软件,个人电脑,和其他服务。最后一个公司选择的是三星,韩国跨国电子公司。我们认为这三个典型数据科技公司为我们的问题。

测量的平均精度如表所示9为每个著名的公司,结果对预测基于不同特性见图6。我们计算的平均每个模型的四个特性构建方法这三家公司之间进行比较。该特征组合模型产生最好的结果,实现平均精度水平的61.63%,59.18%,58.48%,苹果,微软,分别和三星。这些数字与利率在先前的研究报道相一致。然而,许多研究只分析一个公司或使用只有一个算法。当前研究的基础上,探讨了三家公司信息从一个公共数据源建立预测模型特征选择不同的功能和不同的算法。我们使用股票数据,bag-of-words算法、卷积神经网络和功能组合,加上8算法。显示在表9,该预测模型实现了73.68%的数据提取使用LR_4为苹果和67.78%的数据提取使用SVM_4为微软。特别是,LR算法用于苹果取得的准确性和F1-score 0.7326和0.7360,分别突出了其强大的功能在一个两级分类。


算法	公司	股票数据(SD)	袋的单词(鞠躬)	卷积神经网络	特征组合模型(FC)

		精度/ F1 -得分	精度/ F1 -得分	精度/ F1 -得分	精度/ F1 -得分

DT	苹果	0.4993/0.5079	0.4889/0.2460	0.6150/0.5814	0.6524/0.6486
	微软	0.4868/0.1819	0.5065/0.5682	0.5817/0.5915	0.6587/0.6502
	三星	0.4707/0.4033	0.5654/0.5830	0.5529/0.6820	0.5680/0.6260

LR	苹果	0.5240/0.6727	0.5055/0.5083	0.6845/0.6911	0.7326/0.7368
	微软	0.4757/0.1253	0.4430/0.4884	0.5274/0.5333	0.5467/0.5611
	三星	0.4947/0.3755	0.6054/0.6726	0.6541/0.6343	0.8053/0.7978

注	苹果	0.5109/0.5123	0.4778/0.3896	0.5027/0.4497	0.5122/0.4030
	微软	0.4840/0.0363	0.4557/0.4055	0.4599/0.2889	0.5000/0.5439
	三星	0.5293/0.5810	0.5144/0.6130	0.5048/0.6578	0.5117/0.6601

SGD	苹果	0.4672/0.1119	0.4778/0.4404	0.4974/0.6008	0.5366/0.2692
	微软	0.5173/0.6819	0.4852/0.3222	0.6103/0.4231	0.6108/0.4193
	三星	0.5223/0.6541	0.4766/0.2000	0.5187/0.6751	0.5571/0.6548

支持向量机	苹果	0.5022/0.6121	0.5747/0.5542	0.6150/0.6129	0.6220/0.6173
	微软	0.4784/0.1722	0.4439/0.4566	0.5232/0.5462	0.6875/0.6798
	三星	0.5008/0.3875	0.5047/0.5508	0.5135/0.6281	0.5352/0.6574

射频	苹果	0.5240/0.6554	0.5278/0.6083	0.5337/0.6232	0.6203/0.6243
	微软	0.4840/0.2653	0.4177/0.1687	0.5325/0.2432	0.5721/0.5189
	三星	0.4872/0.3480	0.4485/0.1194	0.4766/0.3708	0.5052/0.5481

AB	苹果	0.5343/0.5384	0.4722/0.2963	0.4819/0.3333	0.6203/0.5420
	微软	0.4687/0.2041	0.4768/0.0461	0.6147/0.6044	0.6202/0.6146
	三星	0.4857/0.3619	0.4579/0.2368	0.6010/0.6820	0.6338/0.6549

GB	苹果	0.5314/0.5129	0.4667/0,2941	0.6096/0.4748	0.6341/0.6591
	微软	0.4743/0.2125	0.4728/0.1007	0.4557/0.4557	0.5385/0.2258
	三星	0.4872/0.4171	0.5192/0.6599	0.5337/0.6572	0.5622/0.6335

评估我们的研究的有效性,我们比较了功能组合模型,使用事件元组股票数据的方法和bag-of-words算法。结果表明,事件tuple-based模型的平均精度优于股票数据的方法和bag-of-words算法10.01%和10.87%,分别。我们也使用股票数据特征提取方法相比,bag-of-words算法和机器学习。使用深度学习的预测精度提高了5.25%和6.11%的水平实现股票数据和袋的话,分别。因此,我们可以得出结论,使用该特征组合模型在特征提取和深度学习有助于提高股票价格运动预测的准确性。这些结果也充分证明了嵌入层特征提取精度提高的有效性。

4.2.2。CNN的案例研究

CNN是一个美国基本的有线电视和卫星电视新闻频道属于特纳广播系统。三家著名公司在这些网站上被选为分析报告。首先是波音公司,它是一家美国跨国公司设计,制造,和销售飞机,全世界旋翼飞机、火箭和卫星。第二个公司是谷歌,这是一个美国跨国科技公司,专门从事互联网相关业务和产品。第三是沃尔玛,一家美国跨国零售企业连锁经营超市的打折商店、杂货店。

结果平均精度如表所示10和图7。这些发现非常类似派生在前面的案例研究,以及他们的比较证实,该特征组合模型能超越其他特征选择模型在股票价格运动的预测。关于bag-of-words底部特征选择的算法,生成的CNN案例研究更健壮的结果比路透社的案例研究。bag-of-words算法的平均精度低于股票数据的方法在路透案例研究。在CNN的案例研究,提出了功能组合模型的平均精度水平分别为57.94%,58.79%,57.67%,波音公司,谷歌,分别和沃尔玛。在路透社的案例研究,平均精度超过60%没有达到的任何公司,说明数据源的差异直接影响股票价格的运动。


算法	公司	股票数据(SD)	袋的单词(鞠躬)	卷积神经网络	特征组合模型(FC)

		精度/ F1 -得分	精度/ F1-score	精度/ F1-score	精度/ F1 -得分

DT	波音公司	0.4950/0.3489	0.5413/0.6258	0.5414/0.6347	0.5591/0.5821
	谷歌	0.4858/0.5600	0.5182/0.3575	0.5692/0.4631	0.5491/0.5471
	沃尔玛	0.4996/0.4422	0.5300/0.4891	0.5088/0.4815	0.5722/0.5829

LR	波音公司	0.4923/0.2378	0.5113/0.4348	0.6923/0.6923	0.7596/0.5733
	谷歌	0.5041/0.6105	0.6235/0.6491	0.6250/0.6111	0.6563/0.6516
	沃尔玛	0.5290/0.5468	0.5412/0.5083	0.7320/0.7347	0.7719/0.7720

注	波音公司	0.5162/0.6503	0.5489/0.5161	0.5197/0.6738	0.5564/0.7619
	谷歌	0.5112/0.6527	0.4899/0.5191	0.5587/0.5281	0.5344/0.4843
	沃尔玛	0.5044/0.3284	0.4794/0.5302	0.5206/0.5674	0.5300/0.6083

SGD	波音公司	0.4897/0.2407	0.5564/0.4870	0.5433/0.4727	0.5714/0.7220
	谷歌	0.5165/0.6769	0.5425/0.4375	0.5789/0.6364	0.5910/0.6327
	沃尔玛	0.5004/0.3804	0.5206/0.5280	0.5250/0.5581	0.5670/0.5922

支持向量机	波音公司	0.4897/0.3068	0.5714/0.6275	0.5385/0.6418	0.5940/0.7033
	谷歌	0.5077/0.6297	0.6032/0.6230	0.5749/0.5532	0.5789/0.5840
	沃尔玛	0.5118/0.4333	0.5000/0.5314	0.5200/0.5000	0.5614/0.5455

射频	波音公司	0.4906/0.1345	0.5113/0.3925	0.5096/0.5405	0.5276/0.5714
	谷歌	0.4923/0.1777	0.6032/0.6260	0.5223/0.5564	0.5951/0.5763
	沃尔玛	0.5118/0.5373	0.5300/0.3188	0.5300/0.4405	0.5000/0.5446

AB	波音公司	0.4945/0.3404	0.5197/0.5120	0.4961/0.5294	0.5673/0.5872
	谷歌	0.4876/0.3141	0.5101/0.6667	0.5893/0.5619	0.5951/0.6850
	沃尔玛	0.5073/0.5029	0.5150/0.5359	0.5497/0.5650	0.5619/0.5503

GB	波音公司	0.4899/0.3169	0.5118/0.4364	0.4409/0.4580	0.5000/0.5094
	谷歌	0.4912/0.3387	0.5870/0.5854	0.5625/0.5243	0.6032/0.6202
	沃尔玛	0.5003/0.4955	0.5050/0.5123	0.5361/0.5109	0.5497/0.5650

我们选择深度学习和知识图的组合来构建我们的特征选择模型,因为这种组合表现出优越的预测性能比较实验中涉及其他特征选择策略。预测结果基于不同特征如表所示10。我们发现,深度学习特性比bag-of-words和股票数据的使用。事件元组与股票市场的相关性相对较高(5,31日),但bag-of-words算法相对分散,事件元组和股市数据之间的相关性相对较弱。事件元组特性结合深度学习极大地提高了预测的结果,表明股票市场走势和知识之间的关系图。

5。讨论

5.1。研究发现

我们试图比较我们的预测结果与先前的研究在预测这些也是基于著名的公司的财经新闻。然而,研究结果无法比拟的,因为不同的研究使用不同的数据集或算法,这些方法很难调查使用金融新闻头条。在当前的研究中,我们在一个公司没有评估性能数据集,这个决定使我们的知识图方法超过基线预测仅仅基于价格高达3.6%。这也证明了特征提取在深比传统机器学习更有效。深度学习和知识的结合图完全集成了财经新闻的语义信息,有效地预测股票价格运动的著名公司。

这项工作证明深度学习和知识图的应用在金融领域。尽我们所知,知图已很少应用在股票预测。因为最小的金融培训集知识图,财务知识提取的主要任务是组织建设知识图。这样的提取至关重要的深层语义的理解和处理事件元组,这也直接影响金融新闻的特征提取。

5.2。对业务活动

基于知识的效用功能组合模型图并不局限于财务分析。目前,知识图数据可用于医学诊断、语音识别、精确营销和财务风险控制(4]。我们的模型也可以应用在这些领域。

反欺诈活动是金融学的一个重要组成部分。应用我们的模型的基础上知识图客户帮助组织所有相关知识片段通过深层语义分析和推理,可以验证与客户的银行信息。此外,客户通常使用关键字搜索产品,可以为客户提供相关的信息和知识图。如果一个完整的知识系统的用户描述和收集,系统将更好地理解和分析用户的行为。

5.3。局限性和未来的工作

深学习模型使用监督学习,需要一个数据集有足够的标签,但是我们的数据集不工作与深度学习金融新闻文章的少数股票数据相匹配。目前,知识图中嵌入不可避免地产生亏损消息语义,因为学习原则或标记向量化的知识表示。因此,连续在知识表示图仍然是一个巨大的挑战。我们试图应用回归使用上述算法,但结果显示性能不佳。更确切地说,苹果的结果验证了我们的预期。

大规模的应用知识图仍相对有限,和知识图智能搜索、智能问答任务,社会媒体,和其他领域还处于初始阶段,相当大的改善空间。应该考虑以下知识图的优势:(a)的有效组织和表达一种数据,知识推理(b)和(c)的扩张将深度学习的认知能力。传统知识元素(实体、关系、属性),提取技术,在有限的领域和方法取得了良好的效果,但由于许多约束和可伸缩性差,知识图不完全金融预测功能的约束和可怜的可伸缩性。

6。结论

著名公司的股票运动预测是一个艰巨的任务,因为股票价格受到很多因素的影响。本研究提出了一种新颖的方法,将知识图嵌入与股票市场预测。本研究的贡献可以概括如下。首先,我们开发出一种新颖的特征组合模型,构造了一个特征向量映射为每一对tuple-news同时考虑实体和关系的多样性。第二,功能组合模型已成功应用于不同类型的企业和数据集,表现出良好的性能在分类任务。

著名公司的股票市场的预测建立在知识为业务活动图是一个有趣的话题。鉴于知识图的特性集的研究仍处于起步阶段,我们期望它被应用在一个广泛的学术研究。也更多的公司将获得利润和创造更多的机会通过使用知识图的特性集。

数据可用性

在这项研究中使用的数据可以通过访问https://github.com/linechany/knowledge-graph。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

支持这项工作由中国学术委员会(CSC)在格兰特号码:201508390019。作者还要感谢欧盟的研究项目rfc,这部分通过研究项目AutoSurveillance支持这项研究,与项目ID 847202。

引用

b·g·麦基尔和e . f .农夫,“有效资本市场:理论和实证研究的回顾,“《金融,25卷,不。2、383 - 417年,1970页。视图:谷歌学术搜索|MathSciNet
d . Galai和r·w·Masulis”股票的期权定价模型和风险因素,”金融经济学杂志,3卷,不。1 - 2日,53 - 81年,1976页。视图:出版商的网站|谷歌学术搜索
毛问:王,z, b . Wang和l .郭”知识图嵌入:一项调查的方法和应用,“IEEE工程知识和数据卷,29号12日,第2743 - 2724页,2017年。视图:出版商的网站|谷歌学术搜索
h . Paulheim和p . Cimiano知识图细化:一项调查的方法和评价方法,”杂志Web语义:科学、服务和代理在万维网上,8卷,不。3、489 - 508年,2016页。视图:出版商的网站|谷歌学术搜索
张x, y, t·刘,j .段“深度学习事件驱动的股票预测”《24日国际联合会议上人工智能,IJCAI 2015年展出阿根廷,页2327 - 2333年,2015年7月。视图:谷歌学术搜索
张x, y, t·刘,j .段“知识事件嵌入股票预测,”学报》第26届国际会议上计算语言学,科尔2016年日本,页2133 - 2142年,2016年12月。视图:谷歌学术搜索
a .誉为n . Usunier j·韦斯顿,o . Yakhnenko”翻译为建模multi-relational数据嵌入,少量的的进步26卷,第2795 - 2787页,2013年。视图:谷歌学术搜索
w·h·林y . Liu, y,和z,“对知识学习的实体和关系嵌入的决议。”Procedia计算机科学卷,108年,第354 - 345页,2017年。视图:谷歌学术搜索
g .霁k·刘,s .他和j .赵”知识图完成自适应稀疏的传递矩阵,”学报30 AAAI会议上人工智能,AAAI 2016,页985 - 991,美国2016年2月。视图:谷歌学术搜索
g .霁s .他l .徐k . Liu和j .赵”知识通过动态映射矩阵,图嵌入”协会学报》第53届计算语言学和第七届国际联合会议上自然语言处理(卷1:长论文),第696 - 687页,北京,中国,2015年7月。视图:出版商的网站|谷歌学术搜索
y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
问:李、陈y j . Wang和h·陈,“网络媒体和股票市场:一个调查和未来的发展方向从大数据的角度来看,“IEEE工程知识和数据,卷4347,p . 2017。视图:谷歌学术搜索
b·伍斯里奇诉曹,梁,d . Permunetilleke k . Sankaran和j·张,“每日股市预测从网络文本数据,”学报1998年IEEE国际会议系统,人,控制论(猫。No.98CH36218), SMC 98,3卷,第2725 - 2720页,1998年10月。视图:谷歌学术搜索
g . Pui畅Fung j .徐Yu, w . Lam”股票预测:整合文本挖掘方法使用实时新闻,”学报2003年IEEE国际会议上为金融工程计算智能,cif 2003卷,2003年,页395 - 402,中国,2003年3月。视图:谷歌学术搜索
w . Antweiler和m z弗兰克”,是讲声音?信息内容的互联网股票留言板。”SSRN电子杂志,2001年。视图:出版商的网站|谷歌学术搜索
M.-A。Mittermayer和g . f . Knolmayer NewsCATS:新闻分类和交易系统”数据挖掘学报第六届国际会议上,ICDM 200612月,页1002 - 1007,中国,2006。视图:谷歌学术搜索
r·p·舒梅克h·陈,“文本分析股票市场的预测使用违反财经新闻:AZFin文本系统,”ACM交易信息和系统,2009年1至29页。。视图:出版商的网站|谷歌学术搜索
美国美国Groth和j . Muntermann”盘中市场风险管理方法基于文本分析,“决策支持系统,50卷,不。4、680 - 691年,2011页。视图:出版商的网站|谷歌学术搜索
t . Vu s .常问:哈,和n·科利尔,”一个实验在twitter集成科技股票预测的情绪特征,”学报研讨会信息提取和实体对社交媒体数据分析,3卷,政府,2012页。视图:谷歌学术搜索
王b、h·黄和x王”小说文本挖掘的金融时间序列预测方法,”Neurocomputing卷,83年,第145 - 136页,2012年。视图:出版商的网站|谷歌学术搜索
李问:李,王t, p . l .刘问:锣,和y陈,“新闻和公众情绪对股票走势的影响,“信息科学卷,278年,第840 - 826页,2014年。视图:出版商的网站|谷歌学术搜索
t·h·阮、k . Shirai和j . Velcin”情绪分析社会媒体对股票运动预测,“专家系统与应用程序,42卷,不。24日,第9611 - 9603页,2015年。视图:出版商的网站|谷歌学术搜索
b·翁·m·a·艾哈迈德,f . m . Megahed“股市单日领先运动预测使用不同的数据源,”专家系统与应用程序卷,79年,第163 - 153页,2017年。视图:出版商的网站|谷歌学术搜索
j·埃伯哈德、j·f·拉文和A . Montecinos-Pearce“基于网络的动态分析在股票市场上,“复杂性卷,2017篇文章ID 3979836, 16页,2017年。视图:出版商的网站|谷歌学术搜索
z, y, d .沈和w·张,“大众媒体之间的动态互关联的消息,新媒体新闻,和股票回报,”复杂性卷。2018年,11页,2018年。视图:谷歌学术搜索
p c。泰特劳克博士说“给投资者情绪内容:媒体在股票市场的作用,“金融杂志,卷62,不。3、1139 - 1168年,2007页。视图:出版商的网站|谷歌学术搜索
k, p .罗l . Liu和w·张,“新闻、搜索和股票co-movement:调查信息扩散在金融市场上,“电子商务研究与应用28卷,第171 - 159页,2018年。视图:谷歌学术搜索
f . z兴、e·威尔士和y张“Sentiment-aware波动预测,”以知识为基础的系统卷,176年,第76 - 68页,2019年。视图:出版商的网站|谷歌学术搜索
毕加索,s . Merello y妈,l . Oneto和e·威尔士”技术分析和市场趋势预测情绪嵌入的,”专家系统与应用程序卷。135年,60 - 70、2019页。视图:出版商的网站|谷歌学术搜索
a . Khadjeh Nassirtoussi, s . Aghabozorgi t .应华和d . c . l .非政府组织“文本挖掘的市场预测:系统回顾,“专家系统与应用程序第41卷。。16,7653 - 7670年,2014页。视图:出版商的网站|谷歌学术搜索
m·克劳斯和s . Feuerriegel”决策支持与深层神经网络财务信息披露、转让学习,”决策支持系统38 - 48,卷,104,页2017。视图:出版商的网站|谷歌学术搜索
h . s . Sim h . i . Kim和j·j·安,“深学习图像识别适用于股票市场预测?”复杂性卷。2019年,10页,2019。视图:谷歌学术搜索
m . Jasemi A . m . Kimiagari和A . Memariani“现代神经网络模型做股票市场时机的基础上古老的日本烛台,投资技术”专家系统与应用程序,38卷,不。4、3884 - 3890年,2011页。视图:出版商的网站|谷歌学术搜索
a .音量控制器s Soderland, o . Etzioni“开放的信息提取,确定关系”会议的程序实证方法在自然语言处理中,EMNLP 2011,页1535 - 1545,计算语言学协会,英国,2011年7月。视图:谷歌学术搜索
g . t . Mikolov k . Chen拉和j·迪恩,“有效评估词表示的向量空间,”页1 - 12,2013年,https://arxiv.org/abs/1301.3781。视图:谷歌学术搜索
林x、z杨和y的歌,“智能股票交易系统基于改进的技术分析和回声状态网络,”专家系统与应用程序,38卷,不。9日,第11354 - 11347页,2011年。视图:出版商的网站|谷歌学术搜索
K.-J。金姆和汉族,“遗传算法特征离散化方法在人工神经网络对股票价格指数的预测,”专家系统与应用程序,19卷,不。2、125 - 132年,2000页。视图:出版商的网站|谷歌学术搜索
w . y . Yu段,问:曹”的影响社会和传统媒体公司股权价值:情感分析的方法,”决策支持系统,55卷,不。4、919 - 926年,2013页。视图:出版商的网站|谷歌学术搜索
m . Hagenau Liebmann m, d·诺伊曼”自动化新闻阅读:股票价格预测金融新闻使用context-capturing特性的基础上,“决策支持系统,55卷,不。3、685 - 697年,2013页。视图:出版商的网站|谷歌学术搜索
郎a Aizawa”tf-idf措施的信息理论的角度来看,“信息处理与管理,39卷,不。1,45 - 65年,2003页。视图:出版商的网站|谷歌学术搜索
a . Khadjeh Nassirtoussi, s . Aghabozorgi t .应华和d . c .非政府组织“文本挖掘的新闻标题为外汇市场预测:多层降维算法与语义和情绪,”专家系统与应用程序,42卷,不。1,第324 - 306页,2015。视图:出版商的网站|谷歌学术搜索
d . Peramunetilleke和r·k·黄”从新闻标题货币汇率预测,”澳大利亚计算机科学通信,24卷,不。2、131 - 139年,2002页。视图:谷歌学术搜索
y . Kim“卷积神经网络对句子分类,”2014年,https://arxiv.org/abs/1408.5882。视图:谷歌学术搜索
j . z . Wang, j·冯,z,“知识图和文字共同嵌入”学报2014年会议上实证方法在自然语言处理中,EMNLP 2014卡塔尔,页1591 - 1601年,2014年10月。视图:谷歌学术搜索
徐j . x秋k . Chen和黄x”知识图表示共同结构和文本编码,”学报》第26届国际联合会议上人工智能,IJCAI 2017年展出澳大利亚,页1318 - 1324年,2017年8月。视图:谷歌学术搜索
j·r·谢z . Liu, h .烹调的菜肴和m .太阳”表示学习知识与实体图形描述,”学报30 AAAI会议上人工智能,AAAI 162016年2月,页2659 - 2665。视图:谷歌学术搜索
f .田,b高、大肠陈和t . Liu”学习更好的词嵌入知识的不对称低秩投影图,“计算机科学与技术杂志》上没有,卷。31日。3、624 - 634年,2016页。视图:出版商的网站|谷歌学术搜索
f . z兴、e·威尔士和r . e . Welsch“基于自然语言的财务预测:一项调查,”人工智能审查,50卷,不。1,49 - 73年,2018页。视图:出版商的网站|谷歌学术搜索
c . Goutte和e . Gaussier”概率的解释精度,回忆F分数,影响评估”先进的信息检索d . e . Losada和j . m . Fernandez-Luna Eds。卷,3408在计算机科学的课堂讲稿施普林格,页345 - 359年,柏林,德国,2005年。视图:出版商的网站|谷歌学术搜索

复杂性

2019年金融网络

文摘