文摘

本文探讨了新闻的情绪来预测财务回报的力量,特别是返回的一组欧洲股市。基于过去的决策支持工作回到德尔菲法,介绍了文本分析专家权重算法,通过动态聚合的反应人类和算法选择最佳答案根据以前的性能。提出的系统是通过一个实验,让乐团的专家测试,人群,和机器分析汤森路透新闻故事,并预测相关股票的回报提到后出现的故事。在大多数情况下,专家权重算法比还是一样好或人类最好的算法。算法动态地选择最佳答案的能力从人类和机器的结果在一个不断发展的集体智慧:最后的决定是一个最好的自动聚合个人答案,其中一些来自机器和一些人类。此外,本文表明人类的团体,算法,和专家权重算法与他们有关,特别是新闻主题,这些组织擅长做预测。

1。介绍

决策支持有时依靠人们的意见,有时在电脑上。作为在线人群和社区显示潜在的各种任务,兴趣增加了学习的原因和应用程序集合人类,一些专家,一些没有,执行任务,并预测。相关的研究已经观察了人群输入可用于提高机器学习。在过去,机器算法是在人类的控制下。在一些最近的研究,人类是机器的控制下。机器请求人类执行任务;这些任务的输出作为输入机器算法。

新现象为现在的信息系统理论提出了挑战。例如,很多信息系统都集中在用户愿意采用新技术。在目前的一些工作人群,重点是电脑的程度应采取认知人类的输出,其性能是可变的。

当前研究趋势会导致不同的概念化的决策支持,在人类和电脑都视为参与者在一个复杂的决策过程。鉴于人类和计算机有不同的认知能力和表演根据图灵测试(1),任务应如何分配?

这个问题一般可以通过一系列的研究。这里我们报告一个这样的研究的结果。我们选择一个地面真理存在的认知复杂的任务。具体来说,我们选择的领域市场预测,在这,我们要求人类和计算机预测未来股票价格根据过去的价格和新闻报道。无论是人类还是电脑可以执行这个任务与高度的准确性(2:的确,一些人认为,这样的市场是随机漫步3]。许多实证研究(4- - - - - -6)已经表明,定性变量影响股票价格有一个心理因素在起作用:价格不是完全基于预期的未来现金流的现值。例如,有一个交易量之间的联系和信息活动在互联网聊天室7]。同时,交易量与芝加哥交易所的声音水平自营交易员坑(8]。

此外,许多最近的研究(9,10]表明,投资者的反应速度不同的发布新闻信息,因此,至少在理论上,可以预测投资者将如何应对新闻不久。这个任务是复杂的,因为它需要了解新闻故事,以及他们如何可能违反投资者的预期,导致投资策略的变化。市场,企业的投资经验和领域知识,行为经济学,心理学可能是有益的。

总之,任务是期待这取决于各种技能之一。工作上的成功很容易测量。因此,它提供了一个理解人的相对优势和机器在一个丰富的数据域。这种理解可能,反过来,导致新的和不同的体系结构决策支持系统相关预测市场。研究结果也为进一步的研究提供一个基础来确定如何实现这种架构在不同种类的问题。

人和机器之间的互补性是人类贡献独特的数据给出了他们的专业技能,知识,记忆,直觉,协会分析,学习不相关的任务的能力。相比之下,机器可以使用可用的数据优化函数。因此,也可以设计一个两阶段算法:在第一阶段,人类和不同的机器学习算法的输入计算,在第二阶段,一个算法优化人类和机器的正确组合基于特定的性能标准。因此,人类和机器的结合应该丰富决策过程。结果可能是至少相当于最好的个人预测,即使没有理论支持导致了这一结果。原则上,人类可能excel和有限的机器可读数据的任务,虽然机器在工作表现很好,需要大量的数据,预测函数应该校准等特定维度不同的时间范围。

其他相关方面,激励我们的人机整体算法,任何合奏算法得益于其专家的多元化,人类或机器。不同专家的聚合有助于管理权衡bias-diversity避免偏差在一定方向当所有的专家非常相似11- - - - - -13]。

几项研究(14)表明,机器算法可以执行至少薄弱的学习者,他们的预测是略优于机会;然后,可以减少预测误差时的多样性一个薄弱的学习者是最大化他们的错误相互抵消。

总之,整体的强度预测模型算法的多样性和使用的数据。作为人类建立自己的心智模式,群体成员的模型可能根据他们的人口来源不同。

计算机可以分类财经新闻的假设得到了强有力的支持在学术文献[15- - - - - -17]。然而,这些研究只使用自然语言处理(NLP)方法对新闻没有将人类的输入进行分类。我们所知,只有少数论文混合计算语言与人类的输入方法。Archak et al。18)结合NLP与群众投入技术开发一个计量经济学模型,评估文本产品评论的影响在决定购买一个特定类型的产品。另外,Ipeirotis和Gabrilovich [19)提出了一个系统,评估用户和从它们中获得知识并选择最好的为特定的任务。从我们的角度来看,这相当于在人群中选择最好的工人(20.,21]。但是这些研究都没有考虑的可能性,将众包情绪分类纳入一个智能系统集成的人类解释能力与计算机处理(22)来预测财务回报。因此,本文的鸿沟的关键挑战是在我们对机器产生的理解和人类分类,考虑他们不同的起源。特别是,我们要求如下:(1)可以学习算法相结合的输出机器和人类改善预测?(2)考虑到人类(个体和人群)和机器有不同的认知能力,他们关注其他特征分析和分类新闻什么时候?

本文探讨了这些问题的发展一个新的文本分析专家权重算法,骨料,根据之前的表现,人类和算法的预测基于几种自动文本分析方法,我们描述在附录中:(1)关于第一个问题,我们比较的性能不同的人类群体和一些机器学习方法使用不同的文本分析方法分类新闻情绪。NLP研究通常使用标记数据集被人类或其他机制作为黄金标准开发和测试新的算法。我们的研究使用一些人类组织和机器学习算法分类新闻,重新测试这些分类与历史资产回报和评估他们的表现与几个性能的措施。(2)关于第二个问题,我们建立一个网络的人类和机器学习算法基于最相关的数量和不同群体之间的共同话题。我们在社区集群组,根据主题进行比较他们预测最好。我们的实验表明,人类和机器学习算法自然分离成社区更好地预测当面对主题与每个社区相关联。

这些是额外的贡献本文的文献:(1)我们提出一个新颖的方法,自动文本分析预测资产回报的几个方面:多个特性,包括频率字格(bag-of-words)词类,关键字字典与情绪有关,预选的语义框架,解释短语的意思,在新闻和共同的话题。大多数以前的研究在金融或会计遵循bag-of-words或字典的方法。然而,我们的方法捕捉新闻的几个方面使用一些文本分析方法的结合。(2)我们排名不同的文本分析方法和证明bag-of-words的结合,关键字字典和语义框架显示重要的改进比使用单一方法预测资产的回报。(3)我们也提出许多功能的聚合,机器学习算法,和人类组织相结合的混合专家权重算法能够根据他们的表现不同的预测。这种方法也与最近的工作Archak et al。18)和Bajari et al。23)和广泛的计量经济学文献,结合独立成一个单一的预测模型预测(24- - - - - -26]。然而,我们的方法使用一个动态模型能够在线决策所需的大型异构数据集生成的新闻和社会媒体。据我们所知,之前的金融研究并未同时探索不同的文本分析方法和优化算法和动态。(4)我们最后的结果表明,bag-of-words生成的选择功能,字典,和语义框架,处理许多与人类分类算法和综合使用专家权重算法可以获得显著的相关性在大多数情况下资产的回报。虽然机器学习算法可以处理大量的信息调整一些时间范围,其输出的组合与人类分类模拟人工集体智慧至少能产生类似或更好的结果比任何单独的方法探索。

2。背景

2.1。机器可读的新闻和情感分析

原因有很多决策者可能需要自动分类的新闻。这创造了一个市场为机器可读的新闻;例如,汤森路透(Thomson Reuters)提供了一个特别新闻feed阅读从电脑及其解释情绪的这个消息。许多人试图解析这些在学术界和其他电子新闻来源。例如,一项研究显示,一个比例的消极词汇(媒体悲观)的《华尔街日报》(WSJ)和完整的《华尔街日报》和道琼斯新闻社(9)与价格下降的趋势。沿着这些线路,某些词的企业年度报告“风险”等与低回报(27),还发现,正面或负面的新闻稿相关资产收益率(收益28]。积极的和消极的情绪有一个相应的对股票价格的影响29日]。这些研究是几个例子的文献评估媒体的经济或金融效应(30.- - - - - -36和社交媒体37- - - - - -41]。

其他属性的新闻报道也影响证券的价格。关于货币问题的新闻每天的股票价格有很大的影响而失业,通货膨胀率,实际活动新闻没有重大影响价格(42]。只有第一个四个最近的新闻的新闻类别5年期公债价格有很高的影响(43]。正面消息的价格影响的持续时间是短于负面新闻的影响44]。交易员反应不够有力发布新闻(45[],投资者反应过度旧信息10]。

2.2。众包

因为情绪分析旨在预测人们将对新闻做出反应,这是明智的过程中涉及到相关人员。人类分类的过程(46- - - - - -48)和NLP方法(49- - - - - -51)也在认知科学领域的中心。然而,这样的研究旨在了解人类如何思考和复制人类行为不感兴趣,在复杂的社会问题。因此,认知心理学家通常研究个人的认知过程而执行简单的任务。这样做可以减少先验知识对个人的任务绩效的影响。但这样的研究很难概括现实世界的任务,比如分类新闻人气和预测市场趋势。

尽管这种脱节,几项研究在认知科学与工作报告。例如,格里菲斯和特南鲍姆(50)发现人类预测日常事件的持续时间遵循一个模式预测的贝叶斯模型,得出的结论是,人类复杂的推论使用先验分布。这个结论被不好的挑战等。52)表明,heuristic-based推理只依赖一些实例(1 - 3)也可以解释格里菲斯和特南鲍姆(50)的结果。莫泽尔et al。52)提出,“群众的智慧”可以调和这种表面上的矛盾:许多决策相结合的知识有限的个人(而不是先验分布)与贝叶斯的角度是一致的。

综上所述,格里菲思的结果和特南鲍姆50)和莫泽尔et al。52]表明,人群有限的知识可以共同预测更像一个专家知识(53,54]。人群中也得到了证实的有效性更开放式的任务生成文本的想法(55和设计草图56]。然后众包可能是一个可行的方法分类新闻情绪。探索人群分类新闻情绪的能力,这比创意更少的开放式比预测的正确的值,将有助于研究群众工作的有效性和组织(22,57,58]。此外,结果数据,由人群分类,可以提供洞察情绪分析的认知过程。

2.3。由人类情绪分析和算法

这些不同的研究使用human-labeled数据集或NLP情绪分类的方法。虽然人机结合的方法已被用于改善预测市场的业务决策(59),这种文学并没有探索混合人机方法分类新闻情绪及其对资产收益的预测能力提出了。我们的方法,专家权重算法,总量的预测人类的预测几种自动文本分析方法描述在附录中。

我们的论文探讨新闻情绪来预测财务回报的力量,尤其是返回的一组欧洲股市。我们发现情绪在几个不同的方面:第一,所定义的人群中表现最好;第二,由一群训练有素的评价者;第三,金融专家;第四,通过几种学习算法。我们建立一个混合专家权重算法,骨料的自动反应人类组织和/或机器学习算法根据他们过去的表现。我们创建一个学习算法(60,61年),使用人类和计算机分类的历史。我们比较这些不同组织的有效性。然后我们试图理解人类和机器不同通过检查他们的相对成功的各种新闻。

3所示。预测决策支持

本部分主要介绍了本研究中使用的分析方法;附录包括一个正式的描述所使用的算法。

3.1。自动文本分析

流行的方法分析文本bag-of-words(弓)由于其鲁棒性和简单性62年]。弓的实现需要字典为特定文档的建设探索。不同的方法包括分类根据给定的每一个字看作是积极的还是消极的词汇或字典63年]。积极词汇的比例决定了新闻的总体情绪或文档中所有情绪词。当张和Skiena (64年)这种方法适用于预测股票价格波动,他们找到一个有利可图的交易策略的消息情感得分与股票收益高度相关。Bollegala et al。65年)和Godbole et al。63年)表明,选择合适的词汇不同的任务可能会提高该方法的性能。例如,词典的应用来评估风险披露形式的积极或消极的情绪66年- - - - - -68年),提交给SEC的备案文件命名部分之前的69年),收益公告(70年)要求开发或使用专门的字典。在这方面,伍斯里奇et al。71年)开发了一个关键字系统预测主要市场指数。不同的字典是生成新功能应用程序的每一个字的情感意义和使用监督学习系统的输入我们在这项研究中使用它。影响在语言的字典(DAL) [72年)评价话语或文本的情感意义使用规模评估的8742字的1到3维的愉快(pi),激活(Act),和图像(Img)。阿加瓦尔et al。73年]应用木豆的归一化平均分数不同的词类(POS)情绪分析,和谢et al。17)这个观点用于股票价格预测。

弓和任何字典的主要问题是,他们不确定情绪的目标。例如,“X垮掉的一代Y“是正的X但是是负的Y。弓不能提供这样的信息。因为不同的单词在不同的领域可能存在不同的观点,也不可能屈服于确定变量之间的因果关系研究,没有语义信息。自弓使用每一个字作为一个特性,一个大型数据集生成一个广泛的特性集和无关的信息。因此,一个适当的方法来提取有用的信息,如框架语义的方法,计算出情绪仍然是至关重要的(62年,74年,75年]。框架语义解析的文档是指发现语义的自动化任务目标,解释清楚他们的语义框架,是指特定的事件和确定它们的框架元素。例如,我们包括对法国电信这两个例子:(1)法国电信将收取10美分多为其服务。(2)政府指控法国电信欺诈。

这些例子的核心词是“电荷。”电脑的主要问题是识别不同的含义的“充电”在这两个句子。在这方面,语义分析可以提供进一步的信息来理解这两个句子的区别。下面是基于框架语义解析结果(76年框架元素在括号:(1)法国电信(卖方)将收取(Commerce_collect) 10美分(钱)为其服务(原因)。(2)政府(Arraign_authority)指控(Notification_of_charges)法国电信(指责)欺诈(指控)。

第一句话是收费,而第二个是关于一个诉讼。除了从语义分析获得不同的含义,我们也可以确定行动发起者和行动的目标。法国电信在第一句话行动启动程序,可能有更多的收入。在第二句,法国电信的目标诉讼,和它的操作可以负面影响。

框架语义,如前所述,使用了一个句子“框架”结构。框架描述了类型的句子,句子中的实体,实体的角色和相互作用。关键字在一个句子唤起特定的框架,和句话说标识的角色。一般来说,提供的知识框架语义有助于理解一个句子。

框架语义学的理论动机的发展等本体FrameNet词典(77年),作为存储库的语义框架(旧金山那里)及其框架元素。2015年1月,FrameNet有超过10000字的感觉,170000手动标注的句子,和1200帧。每一帧包含一个单词列表,唤起了框架。这句话被定义为词汇单位。例如,在Commerce_buy框架,“买”“购买”和其他类似的单词是词汇单位。框架元素描述句子中词语的角色也包含在每一帧。遵循同样的例子Commerce_buy框架,“卖方”,“买家”和“商品”的核心框架的元素,而“地方”和“目的”非核心框架元素。FrameNet还描述了框架之间的关系和角色之间的关系。例如,继承关系表明,框架是最一般的。

FrameNet提供的注释信息进一步处理。自动语义解析器需要分析,确定目标,和标签一个新的句子,如提出的基于规则的系统SEMAFOR Das et al。78年]。SEMAFOR使用潜变量的对数线性模型来识别语义框架和概率模型来确定他们的框架元素。在这项研究中,我们使用SEMAFOR识别语义框架(F与他们的目标()T)和框架元素(E)的每个新闻条目,考虑到这个系统达到一个非常高的公共性能精度为0.9。

消除后停止的话,本研究使用主要bag-of-words从消息中提取特征,影响在语言的词典词性,和元素的语义框架。我们把这些特性在大型稀疏矩阵来预测资产回报方向使用附录中描述的无监督和监督方法。我们引入一个文本分析专家权重算法在下一节。

3.2。预测市场和德尔菲法

我们提出一个混合人机系统基于德尔菲法和预测市场,人群,专家和机器学习算法为预测贡献他们的反应。市场预测是基于聚合订单买卖对未来事件。有一个广泛的预测市场的成功的例子,比如好莱坞证交所电影票房预测回报,爱荷华州电子市场预测政治事件,NewsFutures预测未来事件的世界新闻交换。这些预测市场假设信息的聚合一群或群众的智慧可以帮助预测成功的概率事件。Delphi方法比预测市场更直接。它依赖于一个专家小组预测事件和访问彼此然后再预测的预测。这个过程可以重复几次,结果,预测往往收敛(图1(一))。Dalkey和赫尔默79年)描述其使用原子弹的数量估计针对特定的美国工业领域。

3.3。文本分析专家权重算法:聚合的个体预测

我们的算法,呈现在图2文本分析专家权重算法,聚集一些专家预测预测资产的回报。它的输出应该类似或优于最好的个人预测。与德尔菲法一样,它收集几个专家的投入;然而,而不是返回个人预测所有的专家,它结合了所有的预测到一个单一的预测基于每个专家的过去的表现,如图所示1 (b)

简化我们的在线学习算法的演示,我们引入一个资产的情况下,可以很容易地扩展N资产。在这个研究中,每一个专家都是人类或机器学习方法与训练集计算。我们参考序列的专家 在哪里 是专家的数量。

二进制标签是预测其中1表示期望的积极情绪,否则返回或输出,0。

专家的结果 在时间 是预测 最后的分数 在时间 通过总结专家的预测使用指数权重函数加权的过去的表现由Littlestone引入和Warmuth [80年)和Cesa-Bianchi et al。81年]。如果这个得分大于或等于0.5,我们认为这种积极情绪;否则,事情很消极。

指数权重公式提供了一种不同的方法来计算后验分布的贝叶斯方法。该算法的一个有趣的特性是,它并不预测某些实例;结果,预测是非常可靠的。

奶油和弗洛伊德82年和奶油83年)提出了学习算法的应用,特别是专家权重算法预测价格趋势和发现新的交易策略。这种方法也与贝茨和格兰杰的开创性工作24),结合独立预测到单个预测模型。我们想知道如果一个学习算法相结合的机器和人类提高了预测的输出。评估这个问题,我们使用新闻观点的人群,专家和机器学习算法来预测资产回报的方向。我们期待,我们的专家将超越个人专家权重算法。不过,它总是一个加权算法可能overfit过去的表现,因此做比个人更差。

4所示。预测实验

4.1。数据收集

使用以下顶替主题类别,我们选择一个分层抽样1000新闻与STOXX50 T.R.新闻存档的公司2005:(1)跨市场,(2)固定收益、f . x和货币市场,和(3)中央银行,经济,和机构。这些主题最相关的类别来生成一个分层抽样的新闻。单一“跨市场”的类别,包括各种各样的企业新闻,新闻中占69%,而类别“固定收益、f . x和货币市场”和“中央银行、经济、和机构”与新闻的5%和4%,分别。其余的新闻报道与多个类别相关联;然而,“跨市场”类包含在大多数情况下。最后我们使用的新闻数量是743后消除新闻,没有合适的价格,不完整的新闻,包含市场报告新闻,新闻摘要,同时包括来自许多公司的信息。我们比赛的时间戳的消息的时间戳最相关的相关资产的价格。新闻是贴上积极资产回报时积极和0否则,后1、5和15分钟,1,2,3小时。我们每个新闻条目关联到一个特定的公司使用路透仪器代码(RIC)基于第一个主要句子的新闻,这在大多数情况下是第一个领域RIC Related_RICS顶替新闻存档;然而,我们证实这个消息是关于所选的里克。 Whenever a news is mentioned, first the company of an external analyst or a manager that issued an opinion or shared news about a particular company, we select the target company instead of the analyst’s company. We extract the text of every news item from the T.R. news archive field Take_Text, and we substitute any missing data of this field with the corresponding header (HEADLINE_ALERT_TEXT).

STOXX50代表50个最有影响力的公司资本的水平。我们选择2005年作为我们想要避免市场过度反应的任何消息与2007年的金融危机有关。

我们也探讨了顶替新闻分析,提供新闻与积极情绪得分(顶替情绪),中性和负。顶替情绪与特定资产,基于NLP算法,由专家和验证。时间戳结合资产的价格时间序列的顶替蜱虫的历史。对于本文,我们选择2003年至2012年期间引入T.R.新闻情绪之间的整体关系和金融或经济事件,见下一节。然而,我们不会拿顶替情绪和学习算法由于顶替情绪的专有的性质。

4.2。数据的特点

自2006年6月,顶替的比例的正面消息的故事STOXX50公司减少而STOXX50指数继续增加(见图3)。最高点是2007年6月,当金融危机开始后在美国这个月,STOXX50只有贬值,直到2009年3月,美国经济开始复苏。2008年8月,前雷曼兄弟(Lehman Brothers)破产,正面消息的比例达到了最小值点。在以下期间,正面消息的比例增加,尽管与高水平的波动与金融危机的动态一致。为期一天的利好消息滞后之间的相关性和STOXX50指数从2005年1月到2006年6月−0.33。最具挑战性的时期的危机(2007年6月到2009年3月),这种相关性是0.49,在恢复期(2009年3月)后,相关性是0.43。

3表明,正面和负面的情绪分布几乎是对称的。每天的数量之间的相关性正面和负面新闻之前,期间,和2008年的金融危机后−0.44−0.21,分别和−0.65。STOXX50指数之间的相关性和滞后非容积(中性和负面的)新闻在上面的时间是0.33,0.49−−0.43,分别。为期一天的滞后的相关负面新闻故事在同一时期−0.18−0.41,分别和−0.22。非负的值大于负面新闻。考虑这种对称行为的新闻事情情绪和额外的信息被消极新闻,我们只评估新闻事情积极和消极情绪之间的二元分类作为一个市场人气指标而不是评估三个情绪类别:积极的,负的,中性的。此外,相反的符号相关观测到积极的新闻报道的数量和非容积新闻之前和期间2008年的金融危机表明,新闻情绪也可以用来预测主要的市场走势。

4.3。过程

我们的框架来预测金融市场趋势使用文本分析自动化和骨料的答案几个机器学习算法和人类是呈现在图4和下面的部分。

4.3.1。自动化

本文自动化的金融新闻分类包括预处理和分类根据人类和学习算法。在一个完全自动化的系统有一个很大的新闻,人类的组件可以消失或变得非常小,因为它可能是转化为规则的最终的计算模型。

人类参与者评估743年批50新闻报道新闻。减少疲劳,参与者必须等待至少一个小时来检查一批,如果他们读多个批处理。新闻报道是基于整体的事情分为积极和消极情绪。以下组进行分类:(1)最好的人群:这是一个从人群中选择组的工人,在第一次新闻(训练数据集)的70%的错误率低于中位数时所有的工人情绪评分被用来预测资产回归的趋势。这组是每个时间重新计算(1、5和15分钟,1,2,3小时)用来预测资产的回报。人群是基于9亚马逊土耳其机器人工人的多数票(工人)的新闻故事。这个信息被收集在2012年7月。我们也要求每个工人的基本信息:年龄、性别、城市,国家,邮编,如果工人认为自己是一个金融专家。工人有一个最低达到95%的支持率,他们是美国居民所有的新闻都用英语,和他们补偿0.01美元每一个新闻的分类。(2)培训评估:基于分类3评价者培训财政的信心。(3)专家:一个评估者与高级金融培训和专业经验。

每个新闻故事的最终分类是基于每组的多数票。

作为一个基本的检查,我们发现三分之二的顶替情绪,一种工业标准,群众的情绪是一样的(67%)、训练评估者(65%)、和专家(62%)。

消除停止词后,我们使用以下方法中引入部分3所示。1并结合他们从消息中提取定量特性:(1)Bag-of-words(弓): - - - - - - 1 -、2 -和3克。(2)影响语言的词典词性(PDAL): pi年代,行动,和Img分数为所有单词(全部)、动词(V.B.),副词只(R.B.)、形容词(J.J.),和名词(N.N.)。(3)潜在语义分析(LSA):k尺寸选择(参见背书的一节)。(4)潜在狄利克雷分析(LDA):主题生成(见部分a)。(5)词性(POS): - - - - - - 1 -、2 - 3克的词性标记PDAL中描述。(6)语义框架(SF): - - - - - - 1 -、2 - 3克的语义框架(F)、目标(T),框架元素(E)。

我们还结合这些方法有或没有弓由于其简单性和预测能力在文本分析的研究。LSA与乔治的默认使用的主题数量是100。

我们预测资产回归趋势使用上述特性和下面的学习算法在附录中解释说,因为它们不同的方法论的方法分类:(1)逻辑回归(LR):一个著名的线性回归算法作为基线算法。(2)Na ve贝叶斯(NB):一个基于一些已知的先验分布的贝叶斯参数估计问题。(3)支持向量机(SVM):基于线性判别函数分类器。(4)购物车:决策树或非参数方法,使用名义或连续数据分类。(5)整体方法如下:(一)演算法:一个方法,最大限度地减少偏见。(b)随机森林(RF):一个方法,最大限度地减少方差不增加偏见。(6)专家权重算法如下:(一)专家权重(EW):它结合了机器学习算法的输出和相关群体的研究。学习算法的权重和人类组织取决于他们过去累积的回报。这个算法是研究提出Archak et al。18)相结合的特征生成的文本挖掘技术和人群的计量经济学模型,和贝茨的角度和克莱夫。24),结合独立预测为主要计量经济模型。(b)专家(算法)权重(EWa):电子战只是基于学习算法的结合。(c)专家(人类)权重(EWh):电子战仅仅是基于人类群体的组合。

4.3.2。实现

我们使用第一个观察(520)的70%作为训练数据集,剩下的30%(223年)作为测试数据集来预测资产回归趋势后1、5和15分钟和1,2,3小时。我们我们的测试数据集分割成十子集按日期排序,这是用来计算性能指标的平均值。每个小组都有大约21观察(如一个月仅基于交易日),尽可能少的观测由于初始化问题。我们使用斯坦福POS尾随者标签的POS新闻,NLTK Python包预处理数据,gensim包运行LDA和LSA模型,和Scikit-learn包训练分类算法的默认值。经过几次测试,以避免过度拟合和找到最好的表演者,我们运行一个线性支持向量机,演算法和50个迭代,购物车有200最低样品需要在一个叶节点的最大深度3和NB多元伯努利分布一个α平滑参数为0.01(最小平滑)。我们应用专家权重算法(图2结合我们的预测方法根据他们的表现来生成一个加权情绪预测。

与其他文件如高et al。84年)使用精度评估股票市场的预测方向,我们选择Matthews相关系数(MCC) (85年)作为我们的二元分类的性能测量。MCC可以管理不平衡数据集特征的显著差异的数量分配给每个标签的观察。在我们的例子中,积极的标签代表从39%到54%的完整的测试样本根据时间范围,所以使用MCC似乎是适当的。

我们比较每组的MCC的区别与逻辑回归算法,基线算法,使用t以及平均差。我们也运行方差分析过程比较人类之间的性能差异,个人学习算法,新算法。这种比较帮助我们评估本文的第一个主要问题:一个学习算法相结合的输出机器和人类改善预测?

MCC的公式或的 也称为系数 ,相当于二进制情况下的皮尔森相关系数。MCC也可以混淆矩阵的计算使用以下公式: ,在哪里 是观察和TP的数量、FP TN, FN代表真阳性,假阳性,真阴性和假阴性的观察,分别。当两个类具有相同数量的观察,1或极端值 预计。值为0意味着50%的准确性。

4.3.3。聚合

作为一个压力测试,我们评估人类的能力和算法的预测(没有再培训)来检测测试集的前30%的回报,即使没有训练算法识别这些极端事件。

用随机森林100棵树,不限制其规模和限制的十特性评价最好的分裂,我们提取前5% T.R.主题(4)我们所有的分类器(人类和算法),相关预测:(1)返回方向,(2)前30%的回报。我们选择最高的主题随机森林的重要性得分,这是基于每个特性的影响,计算样本外预测精度。

这些结果,我们建立无向网络为每个类型的回报。这些网络的节点分类器,和边缘的数量每一对普遍主题分类器的加权随机森林的重要性得分。最常见的主题在所有分类器是排除在网络计算,消除不必要的链接。

我们人类集群网络和算法使用社区检测方法基于贪婪优化的措施称为模块化86年]。模块化措施一个分区的质量评估如果有许多链接在社区和社区之间有联系的证据。

我们选择最常见的主题与每一个社区评估本文的第二个主要问题:人类(个体和人群)和机器时专注于不同的主题分析和分类新闻?这种分析有两个步骤:(1)评估如果新社区或集群是一致的与我们的主要组织的分析(人类,机器,和专家权重算法),和(2)识别特定主题为这些社区可能表明他们的决策过程的差异。

5。结果

5.1。人群

人群中包括134名工人从美国38个州,平均年龄为37.7 53%为女性。

logistic回归分析显示,下面的工人的变量不会影响情绪时的出错率是用来预测相关资产1分钟后返回趋势:性别、状态,平均响应时间,如果员工认为自己是专家。然而,人均年龄和答案的数量直接相关的出错率。在完整的样例中,总体错误率加权响应的每个工人的数量是50.5%。这个值会减少当工人至少五条进行评估,并达到47%的最低2 - 5新闻故事。错误率会略微增加52.44%,6 - 10新闻故事,十个新闻报道后,平均错误率为50%。平均响应时间随新闻报道的数量(见表处理1)。

人群结果改进后消除临时工(不到两个新闻评价)和工人回答得太快了。考虑的临时工和影响人群的平均错误率接近随机,我们消除了临时工当我们选择最好的工人从训练集分类测试集的消息。我们将这组称为最好的人群。

5.2。学习和专家权重算法

我们的测试表明,BoW-SF-PDAL (bag-of-words语义框架和影响语言的字典)是顶部的文本分析方法根据支持向量机和电子战,我们最好的个人和混合算法,分别。这种结合方法捕获的不同方面的消息:PDAL包括相关的单词,可能与市场情绪,弓捕获大部分的条款的新闻,和科幻捕捉每个词的基本含义。此外,专家给出最一致的预测(波动性最低)。所有人类群体2小时预报中有更好的表现。SVM和电子战算法提供最佳性能最扩展视野三个小时。在分类器性能的差异和时间BoW-SF-PDAL根据方差分析非常重要p值的表2。因此,我们只提供我们的模拟结果与三个小时地平线和BoW-SF-PDAL作为我们的首选方法。

SVM是占主导地位的算法预测3小时资产回报和逻辑回归显著不同,我们的基线算法,随机森林,演算法和na 贝叶斯。尽管SVM略优于车(见图5(一个)),车的标准误差是最大的这群算法。专家和最好的人群人群中也有类似的表现,而训练有素的评估显示较低的MCC(图5 (b))。

关于我们的第一个问题,每一个专家权重算法类似于或优于其组件。它们都比逻辑回归,而电子战与EWa表现出更好的性能比EWh(见图5 (c))。

MCC的大多数方法探索显示恶化当原始分类是用来预测的方向前30%的回报。演算法,其次是na 贝叶斯,是最好的算法和唯一的方法,极大地提高他们的性能。专家优于其余的人类,和电子战EWa仍然是占主导地位的算法(图5)。

的差异表现在每个主组(人类,个人学习算法,和电子战算法)和水平的回报(返回前10%,20%,30%,40%,和50%的回报方向)根据方差分析非常重要p值的数据5(一个)- - - - - -5 (c)。同样,在所有组织和性能差异也显著的回报。

假设每一个算法与认知风格或一个学习的过程,专家权重算法(EW),结合个人的预测算法和人类可以被视为一种人工集体智慧,可以处理一个复杂的和大量的信息。然而,算法的预测能力是影响质量的投入使用。正如上面提到的,这个过程BoW-SF-PDAL包括功能与情感相关的每一个字的意义(PDAL)和基本的短语(旧金山那里),大大提高学习算法的预测能力。当电子战算法计算使用弓,MCC是0.14。这个值增加到0.2 BoW-SF-PDAL使用时。特定的短语的重要性与特定主题相关的研究5.4,我们讨论不同社区聚合的性能相关性的共同话题。

5.3。复杂性

的培训时间复杂性研究机器学习算法的操作和大的数量O符号表3。我们试图保持这些算法的简单实现促进专家权重的计算算法。我们使用206478功能生成的NLP方法中引入部分4.3。1:弓、PDAL LSA, LDA, POS和科幻小说。只有弓生成196636功能,生成的其他方法。

逻辑回归、线性支持向量机和na 贝叶斯复杂性 这些方法必须采取 步骤来评估 特性和遍历 数据点。购物车必须遵循相同的过程的每一个节点树。因此,它的复杂性 与前面的值是乘以深度 的树。在本文中,我们一起工作 ,所以车的复杂性是三倍的复杂性之前算法(见表3)。在最坏的情况下,树的深度 而二叉平衡树的深度 我们用后者来计算随机森林的复杂性的算法是基于一个森林的树木,和我们没有限制树的深度。因此,其复杂性 是一样的复杂的决策树在哪里 乘以 树木或车300倍的复杂性。

演算法使用决策树桩(决策树与单个或分裂 )薄弱的学习者,那么演算法的复杂性 是决策树的复杂性 乘以数量的估计或弱专家 我们使用不超过50估计;那么它的复杂性是16倍车的复杂性 这些算法的复杂性可能会改变根据模型的定义。例如,复杂的非线性或内核支持向量机可以从

专家权重算法的复杂性,相当于每个个体的复杂性和算法+ 然而,一旦我们获得的预测方法,边际专家权重算法的复杂性 对于每一个观察,它只有结合不同的方法根据其性能。同样的逻辑也适用于专家权重算法,包括人类。开销或这些算法的时间复杂度的人类组成部分可以近似人类的平均响应时间如表所示1

5.4。社区检测

我们可以作为我们组的机器和人类专家构成一组节点连接通过他们擅长评级的故事作为一个社交网络。我们可以使用社区检测算法集群网络中的节点是否充分理解这些群体的差异。算法分离混合物的社区和描述每个主题的基础上使用最频繁的话题是边在网络的建设。我们使用最频繁的话题为每个社区每个社区使用的近似最相关的方面对新闻进行分类,然后评估我们的第二个问题,如果人类和机器专注于不同的主题。

最常见的主题的类别,我们发现:(1)“地缘政治单位”:国家或国家,如德国和法国,(2)“业务部门”:广泛的企业银行服务或保险等领域(3)“事件”:有关公司行为如“结果预测/警告”未来的企业业绩。

我们使用Clauset提出的检测方法等。86年]。该方法识别三个社区预测报表和符合我们的主要群体的分析(见图6(一)和表4):(1)算法:非线性分类器(车,随机森林和演算法)和na 贝叶斯,(2)人类(专家和培训评估者)和线性分类器(SVM和逻辑回归),和(3)人群:人类人群(最好的人群)和人工智能的人群(电子战,EWa, EWh)。

只有第二个社区,包括人类“事件”作为主题的类别。这个社区包括内部对一个公司的未来预测结果(“结果预测/警告”)和更少的关键主题(“合并、收购和并购”)。对于其他两个社区,主要类别是“地缘政治单位,主要包括新闻与德国相关(见表4)。因此,人类是由分类识别的事件可能会影响未来价格和机器学习算法更难以认识到它们涉及预测人类反应人类的期望。相比之下,大多数新闻文章的学习算法检测,导致价格变化包括一个特定的关键字,如德国。表现最好的是第三个社区包含所有版本的电子战算法和最好的人群。电子战与随机森林有一些相似之处,考虑到它的结果是基于一些个体专家的输出的组合。在大多数情况下,然而,正如他们过去的结果衡量专家,EW比随机森林算法更好的结果,所以他们被分配到一个不同的社区。

前30%的分类还会导致以下社区的分类器(见图6 (b)和表5):(1)人类,电子战、EWh和几种算法。(2)最佳算法:演算法,EWa。它还包括前面的网络的最佳算法(SVM)和逻辑回归。

当第一个社区仍然选择“地缘政治单位”(德国和法国)的主要类别,第二个社区认识到“业务部门”是最重要的一类。这一组的主题是所有与金融公司:银行服务、金融和保险。尽管专家在人类中具有最好的性能,演算法和EWa可以检测主要返回第二社区的变化和收敛。作为其定义每一个社区成员之间的共同话题,所选主题的预测能力部分解释了每一个社区的性能及使用方法。在这种情况下,不同版本的新算法的优势可以用其来解释能力选择最佳性能的算法,和间接的最佳组合的话题。电子战算法可以被描述为一个不断发展的集体智慧,因为它的容量评估的输入几个专家,并将其决定根据专家的滞后表现最好。

6。讨论

“事件”的主题类别分类的重要性回报人类可能是因为他们认识到事件的价格影响的能力使用历史和新闻报道中提供的信息。事件是独一无二的,复杂的,和他们的结果根据情况可能会改变。他们需要复杂的解释。例如,一个事件的类型“合并、收购,收购”可能意味着公司X接管公司Y反之亦然。然而,新闻报道可能非常模糊或不提供任何细节:“全球钢铁巨头米塔尔钢铁C…。周三证实,在讨论可能的交易与湖南华菱钢管&电线有限公司有限公司…。但不会详细讨论”的性质(87年]。

专家与正确的信息可能预测这笔交易的价格影响,甚至人群也能猜到,任何企业交易可能产生价格的影响虽然不知道正确的方向。然而,一个算法可能有困难解释与合并有关的故事是不同的看法相同的事件展开。此外,语义框架,一个先进的解释NLP技巧使用的算法,可以仅适用于短语或相对较短的段落。但事件的描述可能会延长,分散在不同的新闻,也可能不提供足够的信息,如以下警告消息:“TCI相信大多数交易所股东将反对交易所的证交所收购要约”(88年]。这个消息包括“反对”一词的算法可能解释消极。然而,一个人可能意识到反对收购的显示可能为公司从长远来看是积极的;因此,它可能有一个积极的价格冲击。

最高30%的回报预期,第一个社区包括人类,EWh,电子战,一些算法。由于这种混合物的不同群体,“结果预测/警告”(“事件”类别的一部分)成为第二个最重要的主题。减少额外的解释事件的重要性在一个极端的情况是,他们可能会导致过度自信或由人类情感反应(89年]。在这些情况下,算法有一个好处,那就是它们是冷静的。每个主题的重要性是基于随机森林的重要性得分表明每个主题的贡献的样本外预测准确性。

学习和专家权重算法,用于预测报表最关键的主题类别“地缘政治单位”包括主题,如“德国”或“法国”。

在大多数情况下,这个话题与住宅有关的公司,而不是指一个特定的国家:一个算法很容易认识到一个公司的名字,并将它与它的过去的表现。在这种情况下,如果一个公司的性能在测试数据集符合其性能在训练数据集,然后返回预测来说是足够的。问题发生在公司的业绩变化或新闻可能引用不同的公司或事件。例如,该算法可能记住公司的性能X是正的。然而,新闻故事可能提及的公司X公司金融分析师,遵循公司的关系Y。因此,目标是公司的消息Y。在这些情况下,语义框架可能有利于消除歧义与常用单词几个新闻,但有不同的目标。类似的分析也适用于“业务部门”最重要的主题类别预测最高30%的回报社会的算法。

专家和最好的人群属于不同的社区,即使他们显示类似的性能预测回报考虑到有限的人群可以共同预测更像一个专家知识认知文学(50,52提出了]。最好的人群和专家权重算法都是在同一个社区,分享相似的主题(“地缘政治单位”和“业务部门”),其中所有的预测都是基于聚合的最佳个人决策让我们相信他们的认知过程是相似的。出于这个原因,我们参考专家权重算法作为人工集体智慧能够预测至少以及任何个人的专家。相同的区别我们做了以上由人类主题选择和算法适用于不同的主题和可能潜在的认知过程电子战专家和社区之间的算法和最好的人群。

总结,结合个人预测通过其他版本的电子战算法会导致一种改进聚合预测。此外,人类的社区,算法,和专家权重算法与不同的主题相关联。

7所示。结论

作为努力理解这个角色的一部分,人群和专家在解释新闻和预测的影响,几种不同的人群和算法是组装描述新闻故事的情绪。评估的人群,这种情绪是用来预测直接返回。此外,专家权重算法设计和测试;该算法自动化和聚合机的预测和人群输入进行预测。结果,对证券随着时间的推移,测试表明,专家权重算法非常类似于或优于最好的算法或人类在大多数情况下。从认知的角度来看,动态选择最好的专家或它们的组合在专家权重算法,基于先前表现遵循的精神发展的集体智慧。

介绍财务会计变量,结合新闻人气与信息公司的故事丰富了专家权重的算法。此外,其他方面的内容的人,地方,和概念提到——也可以探索附加功能可以提高资产回报率的预测。尽管本文关注资产回报,这项工作可能会扩展到预测其他社会,政治,或市场活动。

关于群众工作研究,我们的研究结果表明,在人群聚集并不总是善于解释,在人群中一些人或者一些专家可能会非常擅长它,找到这些专家是一个可取的做法。他们可以做出准确的预测并生成一个强烈的信号,表明可以利用机器学习算法。人类可以执行的行为解释,机器是没有能力的。然而,一旦这一行为的解释执行,机器可能会从中学习。此外,在许多情况下,人工输入可能是必要的。例如,当环境突然变化,人类可以说是比电脑更好地适应。这项研究显示,人类和算法属于不同的社区以不同的预测技能对特定的新闻话题。人和机器都可以集成到一个混合系统,结合机器的处理大量数据的能力与人类的解释能力。

当前商业环境过程大量的异构数据,很快到达。使用专家或群众解释并不总是实用。这个研究表明之间的距离可以减少机器和人工解释,将原文转换为组件模拟人类如何处理信息将有意义的关键词,捕捉人类情感结合语义解释的简短的新闻报道。当一个专家权重算法评估这个预处理信息,人工智能的人群,其预测能力优于其他分类方法。结果显示一条路径对人造集体智慧(90年]。

附录

答:自动文本分析方法

. 1。无监督学习算法

无监督学习算法通常集群类别或主题的一系列文档没有先前知识的类别。最受欢迎的方法是潜在语义分析和潜在狄利克雷分配:

A.1.1。潜在语义分析

潜在语义分析(LSA)是一个方法来近似一个文档矩阵 利用奇异值分解。这个过程生成一个低秩近似 ,它允许代表每个文档k维度。这些k尺寸决定的k主要代表的最大特征值的特征向量 每个文档的k维度可以用来计算文档之间的相似之处,术语中,一个查询,一个文档(92年]。

A.1.2。潜在狄利克雷分配

主题模型方法(93年在一系列的文件]发现常见的主题。这种方法假定文档是一个混合的话题,在一个主题是基于词的概率分布。潜在狄利克雷分配(LDA)评估一个新文档通过选择主题根据其分布和关键词。我们可以推断出主题颠倒这个过程用于生成文档。LDA模型是一个接受的主题方法捕捉潜在的大量的文档的结构。LDA只是假设这个话题分布遵循狄利克雷之前(94年]。这种方法有助于我们集群在大型数据集的新闻话题。

这些无监督方法的应用业务问题仍然是非常有限的。咸海et al。95年]用LDA中提取常见的主题2397股票的建议;奶油等。91年)应用LDA提取共同话题在企业网络中,用它来预测报表;包和达塔96年),在管理科学的一篇文章中,使用了一个扩展版的LDA主题模型来评估风险披露的10 - k的影响投资者的风险知觉形式;和谢et al。17)测试了几种NLP方法如弓,LDA,木豆和语义框架对股票价格的预测。

由信用证。传统的监督学习算法

本节介绍一组分类或监督学习算法,使用不同的文本分析特性来预测资产回报的方向。他们所有人产生相似的分类输出。然而,我们决定探索这些不同的方法,因为他们强调分类问题的不同方面。

下面的方法包括一个向量的输入 预测二进制输出 的训练数据集 包括对 , ,在哪里 对应于一个实例的特点 二进制标签是预测。

A.2.1。逻辑回归

逻辑回归模型(60)和后验概率 使用线性回归向量的特性 作为

这些概率的总和等于一。逻辑回归结果更好的解释使用优势比

我们使用逻辑回归作为基线算法。

A.2.2。Na ve贝叶斯

Na ve贝叶斯(NB)是一个简单的贝叶斯分类器假设一个原因 影响一些影响 这是条件独立的特定类 他们的联合分布或na ve贝叶斯模型 条件独立性假设大大简化了计算过程的联合分布。尽管它很简单,这个模型已经被证明是非常有效的,即使条件独立性假设是不满意的。出于这个原因,NB通常使用的弓模型。这个模型分类文档使用- gram的频率作为特征来训练分类器。此外,NB是一个合理的模型来模拟人类认知判断考虑使用先验分布为特定日常预测任务要么单独(50)或集体52]。

A.2.3。支持向量机

Vapnik [97年]提出的支持向量机(SVM)分类方法的基础上,使用内核的预处理数据比原来的高维度空间。这个转换允许一个最优超平面将数据分为两类或值。

定义为一个超平面 在哪里。

强烈的预测规则学习的支持向量机模型 (见Hastie et al。60])。

NB和SVM在NLP是最受欢迎的方法用于文本分类。李(98年)建立了NB模式分类10 - k和10 -形式的前瞻性陈述。Antweiler和弗兰克(7)使用少量的手工标注短信训练NB和SVM模型,然后计算了150万条短信的情绪。舒梅克和陈75年)建立了一个支持向量机模型使用弓,名词短语,和金融新闻的命名实体模型的特性来预测股票价格的变化。名词短语比其余的特性达到57.1%的准确率。Mittermayer [99年)设计了一个类似的系统,支持向量机和邻居再使用 - - - - - - 作为模型的特征。支持向量机与一个多项式内核表现出最好的性能。Hagenau et al。62年用单词组合的特性,一个 方法选择最好的特性,以及支持向量机的分类算法。逻辑单元和亚历山大One hundred.)支持向量机用于盘中价格预测。

A.2.4。决策树

分类和回归树(CART)是一个受欢迎的决策树算法提出的Breiman et al。101年]。购物车构建二叉决策树后自顶向下方法的根节点是最好的特性,其分支值和数据分离成两部分根据信息增益等测试。购物车重复这个过程先后与每个节点的后代,创建两个新的节点,直到没有进一步的信息获得或任何其他停止规则是满意。另一种实现种植尽可能多的树,然后修剪每个节点,大多数提高准确性。在这一点上,车包括最常见的叶节点目标属性的值。

获得的信息 介绍的目标特性一个和训练的样本观测年代被定义为 和熵不洁 在哪里 观察的比例吗年代属于类c,代表了不同的目标特性值。

哦,盛102年]手动标记7109博客帖子和使用决策树C4.5,这非常类似于车评估剩下的博客。他们的研究结果表明,监督方法执行略优于一个词典。Yu et al。103年)显示,购物车,紧随其后的是随机森林,优于支持向量机和人工神经网络预测脱碳公司的信用评级。

出具。监督式学习:整体算法

本节介绍了提高和随机森林,两个著名乐团的方法预测资产回报的任务自动化,聚集许多个体专家的输出使用相同的算法。增加的情况下,在每一个迭代增加观测而随机森林分类错误的重量随机选择不同的样本和特征构建多个决策树。

A.3.1。提高

弗洛伊德提出的演算法是一个分类学习算法和Schapire14并介绍了图7。演算法反复适用于弱或基础的学习者(至少一个算法性能略优于随机猜测)每个实例 的训练集,并产生一个预测规则 映射 映射 而不是 增加的灵活性弱的学习者。0可以解释为“没有预测。“每次迭代之后 ,性能预测分数 通过添加更新修正的小弱的预测功能。重量 是分配给每个实例 使用一个指数函数的分类错误的实例接收比其他人更大的重量。生成的假设是薄弱的学习者在每个迭代中结合成一个强大的规则使用加权多数投票

我们决定使用增加的学习算法因为其特征选择能力,其误差界证明(14),它的可解释性,结合定量和定性的能力变量,和先前应用金融预测由奶油和弗洛伊德(104年]。

A.3.2。随机森林

随机森林是一个变种的装袋Breiman提出的决策树(105年]。我们选择了这个算法,因为它提出了最佳公开相结合的决策树和装袋。

如果训练集 由双 , , 对应于一个例子的特点 是一个类标签或数值响应预测。随机森林生成多个树 从统一的引导与更换样品 和从几个变量 随机选择使用任何决策树。因此每棵树生成预测 是一个数值反应,预测的平均值是最后的预测:

如果 是一个类标签, 通过个人的多数投票预测

当树木的数量是巨大的,森林的泛化误差是收敛的。Breiman [105年)表明,随机森林的准确性与演算法一样好或更好。随机森林生成一个标准化分数、z分数表明每个变量的重要性在最后的分类。

俄南et al。106年]表明,装袋和随机森林,最常见的关键词提取,比其他经典的机器学习算法,如NB,逻辑回归和支持向量机的文本分类。

数据可用性

的新闻与股票价格用于支持本研究的发现是由汤森路透在许可证,所以不能免费提供。请求应该访问这些数据https://www.reutersagency.com/en/contact-us

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了格兰特豪学校联盟的史蒂文斯理工学院的技术管理。