实时预测冠状病毒大流行使用机器学习和大数据流系统

文摘

Twitter是一个虚拟的社交网络,人们分享他们的文章和观点对当前形势下,如冠状病毒大流行。它被认为是最重要的流数据来源为机器学习研究的分析、预测,知识提取和意见。情感分析是一个文本分析方法,得到了进一步的意义由于社会网络的出现。因此,本文介绍了实时系统的情绪预测使用Twitter的流数据对冠状病毒的大流行。该系统的目标是找到最优机器学习模型,获得最佳的性能对冠状病毒情绪分析预测,然后使用它在实时。拟议的系统已经发展成两个部分:开发一个在线离线情绪分析和建模预测管道。该系统有两个组件:离线和在线组件。离线的系统组件,历史推的数据集收集时间23/01/2020 01/06/2020和过滤的# COVID-19 #冠状病毒标签。文本数据分析的两种特征提取方法被使用,语法和TF-ID、提取数据集的基本特性,使用冠状病毒收集标签。然后,五个常规机器学习算法进行比较:决策树、逻辑回归,k最近的邻居,随机森林,支持向量机来选择最好的在线预测模型组件。研制了在线预测管道使用Twitter流API, Apache卡夫卡,和Apache火花。实验结果表明,使用unigram RF模型特征提取方法取得了最佳的性能,和用于情绪预测冠状病毒的Twitter流数据。

1。介绍

冠状病毒疾病或COVID-19是一种新型的病毒疾病,开始在2019年的最后一年(1]。世界卫生组织(世卫组织)于2020年3月11日,COVID-19作为流行病的爆发(2]。病毒,出奇的快,现在已经在世界各地传播;和近28所有国家现在对抗它,努力阻止传播这无形的杀手一样可以达到3]。开始从世界上人口最多的国家,中国,COVID-19蔓延并杀死了成千上万的人来自各个国家,包括意大利、西班牙、美国、伊朗和其他欧洲国家。最近,特别是在去年一半的可能,虽然这在世界范围内大流行一直继续影响数百万人的生命在几个国家,一些国家没有其他解决方案但诉诸完全封闭。Twitter,被认为是一个广泛使用的社交网络网站,是一个快速发展和侵袭性在线平台,通过它人们可以做各种活动,包括创建、发布、更新和阅读limited-length短信称为tweet。这些tweet形成一个简单的方法让用户共享和交换他们的意见,观点,对给定主题的想法。另一方面,情绪分析(SA)是识别和分类的方法一个特定的文本文档的极性,句子和短语(4,5]。情感分析是一种工具基于机器学习方法和自然语言处理中最重要的领域之一(6,7]。最近,世界战斗COVID-19过去六个月,和世界各地的大多数人正在封锁。许多人用Twitter等社交网络来表达他们的观点和态度COVID-19并分享他们的经验在面对这种病毒。因此,Twitter的重要性增加了比以往任何时候都和情绪分析Twitter数据数据科学研究已成为一个热点话题。因此,Twitter已经成为丰富的多的信息/数据,对人们的意见COVID-19,导致一些研究人员使用这些数据对COVID-19进行他们的研究和实验。一些研究者应用情感分析研究人们对COVID-19的意见。例如,塞缪尔et al。8机器学习分类)用于分类冠状病毒的微博。同时,阿里et al。9]使用机器学习算法在微博冠状病毒分类数据推到积极的和消极的。另一方面,数据流在社交网络的规模,比如Twitter,呈几何倍数增长10]。流数据是有价值的来源,收集实时数据分析。然而,实时情绪分析被认为是一个最迫切的研究领域需要健壮的Apache火花等大数据分析的工具。处理流数据使用传统预处理方法是一个挑战;因此,研究人员和组织使用Apache火花等大数据平台(11)和Apache卡夫卡(12处理和存储流数据。此外,最近的研究已经使用机器学习与大数据技术,使他们的经验。例如,Das et al。13)已经开发出一种实时情绪系统来预测股票价格从Twitter数据的情绪。Rath et al。14]也开发了一种基于定向广告的实时情感分析系统。先前的研究应用情感分析技术来研究和分析的态度和看法冠状病毒从Twitter使用收集到的历史数据。没有研究面向实时情绪分析冠状病毒大流行期间我们所知。因此,这激励我们引入一个新的实时情绪预测系统,包括冠状病毒大流行的Twitter流数据。提出了系统(即结果。,classified predicted people’s opinions about coronavirus) could be emitted to any data source such as real-time reporting and dashboard, storage, and mobile apps. The predicted results will help healthcare organizations, medical industries, organizational psychology experts, and society monitor current and future studies.

这篇论文的贡献可以概括如下:(1)开发一个实时系统预测冠状病毒大流行使用Twitter流数据的情绪(2)收集微博数据对冠状病毒使用# COVID-19和#冠状病毒标签然后再培训使用TextBlob推数据(3)应用不同的n元大小与TF-IDF特征选择方法(4)比较五个机器学习分类找到最优模型用来预测实时的冠状病毒情绪

本文的其余部分组织如下。相关工作提出了部分2。提出系统的实时情绪预测中引入部分3。实验结果讨论了部分4。最后,结论提出了部分5。

研究人员最近情绪分析和词频技术应用于分类从推文人们的态度。我们将相关工作划分为以下两类:实时预测分析医疗和冠状病毒大流行情绪分析。

2.1。为医疗实时预测系统

最近,一些研究人员已经把机器学习和大数据技术在微博实时数据来做实验。例如,海格等。15]介绍了实时系统预测心脏病基于Apache火花和Apache卡夫卡的推流。他们应用常规机器学习算法,包括DT,支持向量机,射频,LR,交叉验证和网格搜索优化模型,实现最佳的性能。射频分级机的研究人员发现,获得最佳的性能与其它模型相比,然后选择它来预测心脏病状态实时从病人身上推。扎基et al。16]也开发了一个框架来收集、处理、预测和可视化Twitter数据。他们也有一个实时分析模型来预测伊拉克情绪从流媒体微博基于Apache火花。此外,Hashim [17]介绍了实时系统基于Apache火花检测Twitter假账户。他使用火花MLlib和开发不同类型的机器学习算法,包括DT,支持向量机,朴素贝叶斯(NB)。此外,他开发了一种实时报告和仪表板组件可视化情绪分析结果。

2.2。冠状病毒大流行情绪分析

拉其普特人et al。18)使用两种技术,词频和情绪分析,分析微博关于冠状病毒爆发的消息。他们利用unigram、三元、三元模型来描述一个词的利率,两个字,三个字,分别。在情感分析,TextBlob,即。,Python package, was used to classify tweets into positive, negative, and neutral. Recently, Bhat et al. [19收集了微博使用两个标签,# COVID-19和#冠状病毒。作者应用的情绪分析Twitter数据分类成正的,负的,中性的。同时,Dubey [20.)收集了报复性的tweet COVID-19 11/03/2020 31/03/2020。他已经确定了来自不同国家的人们对COVID-19的情感世界。他用NRC词汇分析和分类推到八种情绪。此外,Manguri et al。21)收集了微博数据七天冠状病毒09/04/2020 15/04/2020。同时,他们利用TextBlob分类推到积极、消极、中立。结果表明,中性比例最高的。此外,梅德福et al。22)提取微博相关COVID-19感染和测量关键字的频率约束行为,治疗和系统发育的偏见。

3所示。实时情绪预测系统

提出系统的实时情绪预测包括两个主要部分,它正在开发离线情绪分析模型和一个在线情绪预测管道,如图1。每个组件是下面的详细描述。

3.1。开发一个离线情绪分析模型

离线情绪分析模型开发了训练和测试使用的机器学习模型来找到最优模型在网络情绪预测管道。已使用的机器学习模型决策树(DT)、支持向量机(SVM),随机森林分类器(RF),逻辑回归分类器(LR),再(资讯)。机器学习模型的训练和测试使用收集到的微博数据集对冠状病毒。图2描述了该组件的主要阶段/步骤,包括数据收集、数据预处理、pretrained tweet,数据分割,特征提取,优化/培训模型和模型评估。每个阶段描述如下:

3.1.1。数据收集

Twitter是最广泛使用的社交平台之一,对人们的互动,内容发布、共享、和评论人的各种话题讨论,包括健康问题。如今,世界上患有COVID-19大流行,人们开始发布的微博。这个巨大的信息可以是一个很好的来源,但它需要分析COVID-19流行的时代的积极和消极。因此,情绪分析Twitter流数据在传播过程中发挥作用的医疗信息的冠状病毒大流行。实现该系统的数据收集阶段,Twitter api已经考虑摄取流数据。Twitter的流API分为搜索API和流API (23]。Twitter的搜索Twitter API是用来收集历史数据离线,而Twitter的流API用于流实时数据通过网络阶段。对于离线阶段,我们收集了历史Twitter数据之间的持续时间对冠状病毒23/01/2020和01/06/2020过滤# COVID-19和#冠状病毒标签。在这一过程中,我们已经创建了一个授权连接与Twitter API使用Twitter流。特别是,使用OAuth身份验证协议授权应用程序访问Twitter服务。Twitter的流API用于流从Twitter的实时数据,它使用在网络阶段。收集到的tweet的例子对冠状病毒大流行使用# COVID-19和#冠状病毒标签如表所示1。


标签	推特

# covid19	好7角落VA商店雇佣外部停止没有面具好解释协议大服务commun covid19
# coronaviru	美国数超过103 000人死亡病毒传染coronaviru covid19战胜共和党米加election2020 voteblue2020 rememberinnovemb trumpdeathtoll103k
# covid19	科比乔治·弗洛伊德通过乔治·弗洛伊德连接整个世界是一个舞台抗议实在covid19
# covid19	evolut covid19跟随阿玛斯meme igshid 5 x3z8d9bmc3h

3.1.2。数据预处理

数据预处理是非常重要的在任何社会网络分析系统(即。,sentiment analysis of streaming Twitter data) as it directly impacts the effectiveness of the sentiment analysis due to the data’s complexity. According to our work, although Twitter is considered a gold mine of data, it is regarded as one of the noisiest data because it consists of many links, hashtags, special symbols, emojis, and so on. Therefore, the collected Twitter data have been preprocessed using the following steps: noise removal, tokenization, normalization, and stems, which are described as follows:噪声去除。在这个阶段,删除无用的数据在以下步骤:(我)下套管,小写是最有效的形式的文本预处理,保证相关特性集内和稀疏问题。例如,CovId和CovId应该转换为COVID-19。(2)删除的网址。在这一步中,我们已经删除了链接嵌入Twitter帖子无关。(3)删除特殊符号。在这一步中,我们已经删除了特殊符号就像标点符号。(iv)删除标签。Twitter标签是用来索引关键字或主题在推特上,用#符号。在这部作品中,基本使用# COVID-19和#冠状病毒被移除。(v)删除停止词。停止词无关紧要的词在一种语言和无用的情绪分析,用于语言语法结构。我们已经过滤掉这些停止词,包括文章、连词、介词、代词、等常用单词,,,,,,,等等。标记。标记在预处理指长字符串的文本分解成令牌(即。小块)。这些令牌可能是段落可以进一步分成短句子,可以,反过来,分为单词。例如,考虑这句话之前的标记:“辛苦工作总有回报的。”归一化。预处理正常化一步是将文本转化成标准形式增加文本预处理的一致性。它包括所有文本转换为大写或小写。阻止。标记步骤后,下一步是阻止。阻止一步是改变单词到他们原始的形式(即。,root form to decrease the number of word types or classes in the data). For example, the terms “Walking,” “Walked,” and “Walker” will be reduced to the word “walk”.

3.1.3。Pretrained推

情绪分析识别作者持有(即情感或态度。,Twitter handle/user), whether these emotions/attitudes can be positive, negative, or neutral. Therefore, we used a TextBlob [24),一个Python库,对收集的数据进行情感分析Twitter。由TextBlob, TextBlob采用朴素贝叶斯分类(NB)模型,然后返回两个属性作为输出,即极性和主体性。TextBlob矛盾意味着识别情绪取向(正面、中性、负面),而主体性意味着表达一些个人情绪,感情,意见,或信仰。我们使用的输出极性微博标签收集到的数据集是安装在机器学习模型在评价步骤关于这项工作。

3.1.4。数据分割

在这一步中,结果pretrained数据集分为训练数据集的90%和10%的测试数据集使用分层方法。训练集用于优化和训练机器学习模型,虽然看不见的测试集是用来评估机器学习模型。

3.1.5。特征提取

文本数据分析的挑战之一是由于学习从高维数据特征提取(25]。最好使用一些特征提取方法将文本转换成一个矩阵或向量的特性。因此,我们申请了两个最受欢迎的特征提取方法对收集到的历史数据,也就是说,n克和TF-IDF。n元建模是一个流行的特征选择和分析方法广泛应用于文本挖掘和自然语言处理。根据文本数据分析,语法是用来计算一个连续的序列单词长度n在一个给定的窗口。在这项工作中,我们使用了n克的方法,包括n= 1,n= 4(即。,unigram, bigram, trigram, and four-gram) to represent the context the Twitter data.术语frequency-inverse文档频率(TF-IDF)是一个著名的方法在评估重要性水平的单词在一个文档中使用检索信息和自然语言处理。TF-IDF的目标是计算中的词频大规模文档中的文本语料库。TF-IDF方法使用相对频率水平通过语料库的参考文档,它可以被视为伟大的功绩。

3.1.6。优化和训练模型

机器学习模型如下:使用支持向量机(26],DT [27,然而,28],射频[29日],LR (30.]。对于每一个实验,训练集用于优化模型的hyperparameters利用网格搜索技术。网格搜索方法与分层10倍交叉验证(CV)已经被用来发现的最佳hyperparameters ML算法。最后,生成的模型用看不见的测试集进行评估。我们使用一个网格搜索和分层10倍交叉验证发现的最佳hyperparameters所有模型。

3.1.7。评估模型

四个标准指标是用来评估模型的准确度,精密度,回忆,和F1-score, TP是真阳性,TN是真的负,FP是假阳性,FN是假阴性给出以下方程:

3.2。在线情绪预测管道

在线情绪预测管道组件的情绪分析旨在预测冠状病毒实时tweets和评估提出了实时系统的工作能力。这样做,它收集流tweet,然后执行实时处理数据的美联储的ML模型来预测冠状病毒的情绪分析tweet。开发的在线预测管道组件使用Twitter流API,分布式信息系统(即。、Apache卡夫卡)和大数据处理平台(即。Apache火花)。它介绍了两个步骤:twitter流数据收集和实时情感分析和预测。每一步可以描述如下。

3.2.1之上。Twitter流数据收集

在这一步中,我们使用Twitter流API Twitter数据流过滤的#冠状病毒和# COVID-19标签和Apache卡夫卡从Twitter摄取数据。Twitter流API用于检索关于冠状病毒在实时生产数据来推断如何积极、消极或中性的感觉对这个大流行。对于连接到Twitter API和检索数据,我们使用一个名为Tweepy的Python库。我们使用一个持久的HTTP连接和用户授权支持OAuth协议。

Twitter流API是建立连接后,我们已经完成了开发脚本检索从20/06/2020 30/06/2020过滤,流媒体微博# COVID-19和#冠状病毒标签。例如,如果有人文章以下信息(见图3),我们将收集的信息添加到流媒体数据集。然后,Twitter的实时流数据摄取动态卡夫卡的话题。

3.2.2。实时情感分析和预测

上市后的intersteps twitter流数据收集步骤,流数据摄取形成twitter卡夫卡的话题。火花流和机器学习能力然后利用过程流tweet并执行最好的情绪分析预测模型。特别是,火花流预处理冠状病毒的收集微博即时转换成向量最好安装在机器学习模型;然后最好的机器学习模型实现实时预测每一个相应的情绪。实质上,intersteps实时情感分析和预测列出如下:(我)分析步骤,火花流API从卡夫卡的主题检索微博并执行预处理步骤,包括噪声去除、标记化,规范化,阻止。然后,提取特征将其发送到一个向量结构最好的模型。(2)预测步骤,火花在离线阶段使用获得的最佳预测模型分类每个tweet的情绪对冠状病毒分为三个明显的类:积极的,消极的,实时和中性。例如,使用检索到的推图3,该系统可以预测Twitter用户对电晕负面情绪,因为他害怕生病。在线预测结果可以发出任何数据源等实时报告和仪表板,存储和移动应用程序。

4所示。结果与讨论

在本节中,提出系统的实验评估,开始通过描述实验设置。

4.1。实验设置

我们提出了系统实时情绪分析了在Python中使用火花的Mlib实现机器学习模型包括射频、DT, LR, SVM和资讯。Twitter流从Twitter API被用来收集数据,和Apache卡夫卡被用来接收流媒体数据然后摄取到卡夫卡的话题。火花流是用于读取消息流从卡夫卡的话题。实验已经使用火花集群执行版本2.6.0由一个主节点和两个工人节点配置了一个20 GB的RAM, 7芯,100 GB的磁盘和运行Ubuntu Linux 18.04。

开发离线模型的实验目的是找到最优性能最高的使用机器学习模型的实时预测情绪极性。我们检查5个机器学习模型的性能使用收集到的微博数据集,它是关于冠状病毒(Twitter标签#冠状病毒和# COVID-19)期间30/01/2020和01/06/2020之间。就是数据预处理,包括清洁、障碍消除,并遏制措施,如前一节所描述的。然后,数据集pretrained为正极,负极,使用TextBlob API和中性。机器学习模型首次培训90%的数据,然后用剩下的10%的测试数据。五个机器学习分类器实现了使用Scikit-learn 0.21.3包在Python 3.7。的分类。此外,分层10倍交叉验证用于hyperparameter调优和模型训练。四个标准的指标用于评价模型,包括精度、精度、召回和F1-score。我们使用TF-IDF特征提取方法与不同大小的语法n= 1,n= 4。因此,离线阶段,我们的实验可分为unigram,三元,三元模型,和four-gram两个矩阵大小:1000年和3000年。接下来的两个部分讨论的收集结果详细离线阶段和在线阶段。

4.2。离线阶段的结果

在本节中,应用五个机器学习模型的结果包括交叉验证结果和测试结果。每台机器学习模型讨论了性能使用四个尺寸的TF-IDF特征提取,包括unigram,三元,三元模型,和four-gram,和两个矩阵大小:1000年和3000年。

4.3。交叉验证结果

我们通过实验演示10倍的性能简历5机器学习模型的结果与两个不同的矩阵大小(即数据集使用。1000年和3000年)。表中所示的结果2- - - - - -6DT,然而,LR、射频和支持向量机,分别数据集使用3000矩阵大小对所有TF-IDF特征提取方法更高的性能,包括unigram,三元,卦,four-gram。我们认为这种行为矩阵内的大量的单词。当的字数略大,权重指标变得越来越重要,这提高了机器学习模型性能。然而,使用3000年机器学习模型的性能矩阵大小不同的基于模型和特征提取方法。例如,如表所示2,使用unigram 3000 DT模型矩阵规模取得了最高的性能(精度为87.09%,精度为87.14%,87.15%的回忆,和F1-score 86.4%)。然而,最严重的DT模型性能已经达到使用four-gram和1000矩阵大小(准确度为81.32%,精密度为81.93%,81.37%的回忆,和F1-score 81.14%)。LR模型相似,性能已经达到最高使用unigram 3000矩阵(准确度为89.22%,精密度为89.36%,89.22%的回忆,和F1-score 89.08%)(表3)。最糟糕的LR模型性能已经达到使用four-gram和1000矩阵大小(准确度为83.47%,精密度为84.79%,召回83.47%,和F1-score 83.05%)。关于资讯,最高的表演取得了使用four-gram和300矩阵大小等特征提取(准确度为69.25%,精密度为76.16%,69.25%的回忆,和F1-score 66.56%)(见表4)。此外,然而,记录使用unigram和1000年最严重的性能矩阵大小(准确度为65.75%,精密度为73.33%,65.75%的回忆,和F1-score 63.5%)。如表中所示的结果5,射频模型使用unigram取得了最高的性能和3000矩阵尺寸相对于其他特征提取方法(精度为89.56%,精度90.05,89.62召回,和F1-score 89.3%)。然而,我们注意到,使用four-gram射频记录最低的性能和1000矩阵大小(准确度为85.29%,精密度为86.62%,85.34%的回忆,和F1-score 84.96%)。表中可以看到6改进支持向量机已录得最高使用unigram和3000矩阵大小(准确度为88.8%,精密度为89.52%,88.8%的回忆,和F1-score 88.54%)。相比之下,使用four-gram方法获得的最低性能与100矩阵大小(准确度为84.56%,精密度为86.27%,84.56%的回忆,和F1-score 84.1%)。


特征提取方法	矩阵的大小	测试性能				交叉验证性能
特征提取方法	矩阵的大小	精度	精度	回忆	F1-score	精度	精度	回忆	F1-score

Unigram	1000年	78.91	78.91	78.91	78.48	82.85±0.37	83.32±0.49	82.89±0.35	82.38±0.56
Unigram	3000年	80.31	80.09	80.31	80.06	87.09±0.75	87.14±0.66	87.15±0.66	86.84±0.66
三元	1000年	78.34	78.32	78.34	77.96	82.17±0.22	82.72±0.29	82.09±0.28	81.78±0.26
三元	3000年	81.13	80.91	81.13	80.88	85.76±0.5	85.86±0.45	85.86±0.47	85.59±0.58
卦	1000年	77.92	77.92	77.92	77.53	82.23±0.53	82.84±0.52	82.25±0.48	81.93±0.47
卦	3000年	80.31	80.1	80.31	80.09	86.23±0.87	86.13±0.86	86.09±0.81	85.98±0.87
Four-gram	1000年	77.97	77.96	77.97	77.6	81.32±0.59	81.93±0.43	81.37±0.49	81.14±0.53
Four-gram	3000年	80.37	80.15	80.37	80.09	85.73±0.75	85.66±0.74	85.73±0.82	85.45±0.72


特征提取方法	矩阵的大小	测试性能				交叉验证性能
特征提取方法	矩阵的大小	精度	精度	回忆	F1-score	精度	精度	回忆	F1-score

Unigram	1000年	62.15	69.94	62.15	58.99	65.75±0.52	73.33±0.65	65.75±0.52	63.5±0.6
Unigram	3000年	63.77	70.11	63.77	59.36	68.36±0.61	74.72±0.54	68.36±0.61	65.7±0.76
三元	1000年	62.97	70.96	62.97	59.5	66.09±0.59	73.85±0.89	66.09±0.59	63.74±0.76
三元	3000年	64.49	71.02	64.49	59.96	69.13±0.76	76.04±0.56	69.13±0.76	66.44±0.97
卦	1000年	63年	70.72	63年	59.57	66.08±0.54	73.69±0.71	66.08±0.54	63.75±0.65
卦	3000年	64.54	70.69	64.54	60.07	69.07±0.75	75.61±0.66	69.07±0.75	66.39±0.96
Four-gram	1000年	62.93	71.24	62.93	59.53	66.09±0.63	73.76±0.93	66.09±0.63	63.75±0.8
Four-gram	3000年	64.62	71.04	64.62	60.06	69.25±0.82	76.16±0.66	69.25±0.82	66.56±1.05


特征提取方法	矩阵的大小	测试性能				交叉验证性能
特征提取方法	矩阵的大小	精度	精度	回忆	F1-score	精度	精度	回忆	F1-score

Unigram	1000年	80.82	81.22	80.82	80.38	84.54±0.4	85.53±0.48	84.54±0.4	84.16±0.43
Unigram	3000年	82.94	83.01	82.94	82.61	89.22±0.4	89.36±0.42	89.22±0.4	89.08±0.41
三元	1000年	80.8	81.33	80.8	80.33	83.98±0.31	85.11±0.35	83.98±0.31	83.56±0.32
三元	3000年	82.32	82.84	82.32	81.84	88.52±0.38	88.86±0.43	88.52±0.38	88.31±0.39
卦	1000年	80.56	81.08	80.56	80.09	83.92±0.32	85.04±0.39	83.92±0.32	83.5±0.33
卦	3000年	82.32	82.84	82.32	81.84	88.52±0.38	88.86±0.43	88.52±0.38	88.31±0.39
Four-gram	1000年	80.32	80.87	80.32	79.85	83.47±0.31	84.69±0.33	83.47±0.31	83.05±0.33
Four-gram	3000年	82.32	82.35	82.32	82.01	88.36±0.43	88.55±0.46	88.36±0.43	88.18±0.44


特征提取方法	矩阵的大小	测试性能				交叉验证性能
特征提取方法	矩阵的大小	精度	精度	回忆	F1-score	精度	精度	回忆	F1-score

Unigram	1000年	83.36	84.69	83.36	82.73	86.43±0.48	87.41±0.46	86.37±0.49	86.02±0.57
Unigram	3000年	84.71	85.8	84.71	84.06	89.56±0.34	90.05±0.46	89.62±0.34	89.3±0.48
三元	1000年	83.05	84.41	83.05	82.38	85.79±0.51	86.87±0.52	85.81±0.49	85.4±0.61
三元	3000年	84.7	85.81	84.7	84.09	89.48±0.36	89.79±0.45	89.44±0.35	89.12±0.45
卦	1000年	83.11	84.49	83.11	82.45	85.81±0.46	86.93±0.49	85.76±0.41	85.4±0.44
卦	3000年	84.67	85.82	84.67	84.04	89.39±0.44	89.9±0.35	89.48±0.39	89.2±0.33
Four-gram	1000年	83.07	84.49	83.07	82.46	85.29±0.51	86.62±0.57	85.34±0.57	84.96±0.56
Four-gram	3000年	84.61	85.82	84.61	84年	89.41±0.44	89.85±0.41	89.4±0.39	89.11±0.41


特征提取方法	数据集	测试性能				交叉验证性能
特征提取方法	数据集	精度	精度	回忆	F1-score	精度	精度	回忆	F1-score

Unigram	1000年	79.66	82.38	79.66	78.52	85.63±0.48	87.03±0.51	85.63±0.48	85.26±0.52
Unigram	3000年	81.17	83.33	81.17	80.35	88.8±0.32	89.52±0.37	88.8±0.32	88.54±0.36
三元	1000年	79.43	82.28	79.43	78.26	85.07±0.48	86.63±0.53	85.07±0.48	84.65±0.53
三元	3000年	80.79	83.08	80.79	79.95	88.44±0.4	89.19±0.45	88.44±0.4	88.15±0.44
卦	1000年	79.61	82.25	79.61	78.47	85.04±0.5	86.6±0.52	85.04±0.5	84.62±0.55
卦	3000年	80.78	83.07	80.78	79.93	88.43±0.37	89.19±0.45	88.43±0.37	88.15±0.42
Four-gram	1000年	79.62	82.29	79.62	78.49	84.56±0.55	86.27±0.54	84.56±0.55	84.14±0.59
Four-gram	3000年	80.5	82.8	80.5	79.67	88.33±0.37	89.09±0.44	88.33±0.37	88.04±0.42

4.4。测试结果

在本节中,我们讨论了使用看不见的五机器学习模型的泛化性能测试数据集有两个不同的矩阵大小(即。1000年和3000年)。表2- - - - - -6描述了机器学习模型的测试性能包括DT,然而,LR,射频,分别和支持向量机。如表所示2,DT模型达到了最高的测试性能使用三元特征提取方法和3000矩阵大小(准确度为81.13%,精密度为80.91%,81.13%的回忆,和F1-score 80.88%)。然而,它与1000年表现最糟糕的测试矩阵大小使用卦方法(准确度为77.92%,精密度为77.92%,77.92%的回忆,和F1-score 77.53%)。LR与交叉验证取得了一致的测试表现表现。它取得了最高的测试使用unigram方法表演和3000矩阵数据集的大小(准确度为82.94%,精密度为83.01%,82.94%的回忆,和F1-score 82.61%),使用four-gram方法和最低的表演被报道有1000矩阵大小(准确度为80.23%,精密度为80.87%,80.32%的回忆,和F1-score 79.85%)(见表4)。虽然资讯报道最低的测试性能,它们与交叉验证性能一致(见表3)。例如,然而使用four-gram方法取得了最高的测试性能(精度为64.62%,精度为71.04%,64.62%的回忆,和F1-score 60.06%)。射频模型,取得了最高的测试表现与3000年使用unigram方法矩阵大小(准确度为84.71%,精密度为85.8%,84.71%的回忆,和F1-score 84.06%)(见表5)。也可以看出,最低的测试使用三元方法表演已报告有1000矩阵大小。支持向量机模型中描述表6unigram使用3000矩阵数据集规模取得了最高的测试性能相比其他特征提取方法(准确度为81.17%,精密度为83.33%,81.17%的回忆,和F1-score 80.35%)。然而,它可以注意到unigram方法已报告的最低使用1000矩阵大小测试性能。值得注意的是,LR和资讯模型报道一致的测试和交叉验证的表演,表演,DT,射频,和SVM模型没有,即使所有的测试性能较低而交叉验证性能。

5。讨论

从获得的结果在我们的实验中,数据4和5描述实证结果在大局交叉验证性能和测试结果,分别。他们显示的性能最好的模型为每个特征提取方法。总结模型相比的性能,我们探索每个模型的平均交叉验证和测试结果使用不同大小的特征提取方法,语法n= 1,n= 4,1000年和3000年两个尺寸的矩阵。再次,它可以注意到所有模型利用大的矩阵大小的数据集的数据集使用3000矩阵尺寸来改善他们的结果。平均而言,射频模型取得了最高的平均交叉验证和测试性能平均相对于其他常规机器学习模型。交叉验证结果,射频模型的准确性达到89.56%,精度为90.05%,召回89.62%,F1-score 89.3%使用unigram特征提取方法。性能测试、射频取得了84.71%的精度,精度为85.8%,召回84.71%,F1-score 84.06%使用unigram方法。LR取得第二好的交叉验证的结果性能使用unigram方法超过3000矩阵数据集的大小(82.94%的精度,精度83.01%,82.94%的回忆,和F1-score 82.61%)。此外,据报道的次优结果使用unigram方法性能测试(82.94%的精度,精度83.01%,82.94%的回忆,和F1-score 82.61%)。支持向量机实现第三等级平均unigram交叉验证的性能和测试结果。交叉验证结果记录的准确性88.8%,精度为89.52%,88.8%的回忆,和F1-score 88.54%,测试结果,81.17%的精度,精度为83.33%,召回81.17%,F1-score 80.35%的记录。DT和资讯报道最低的交叉验证和测试的结果,在DT实现第四等级和资讯取得第五等级。 For cross-validation results, DT has reported the accuracy of 87.09%, precision of 87.14%, recall of 87.15%, and F1-score of 86.4% using the unigram method.

相比之下,然而,报告了69.25%的精度,精度为76.16%,69.25%的召回,并使用four-gram F1-score 66.56%的方法。与测试结果类似,DT报告了81.13%的精度,精度为80.91%,召回81.13%,F1-score 80.88%使用三元方法。相比之下,然而,报告了64.62%的精度,精度为71.04%,召回64.62%,F1-score 60.06%使用four-gram方法。因此,射频是优于SVM, DT, LR,然而,交叉验证和测试结果。基于这些结果,可以初步得出结论,一个射频分类器使用unigram特征提取方法将用于情绪预测模型的实时性能。

5.1。提出了系统的实时性能

在线情绪预测管道组件的目的是评估拟议的系统的工作能力在实时收到来自Twitter的消息流。特别是,它是用来估计系统的强度来预测人们从实时tweets的意见。测试和开发离线情绪分析模型组件后,最好的开发模型与unigram射频和3000大小的特征矩阵用于实时预测人们对冠状病毒的意见。该系统收集从Twitter微博使用Twitter流API然后吸入到卡夫卡的主题。火花流读取消息流从卡夫卡的主题,适用于实时分析步骤。预处理微博发送最好的模型来预测情绪包括中性、实时积极或消极的。在我们的工作中,系统的实时性能评估使用2000条推讯。微博分为800中性色,800阳性,400底片。

6。结论

本文提出了一种系统实时情绪预测冠状病毒大流行的Twitter流数据。该系统已经开发使用Twitter流API, Apache卡夫卡,Apache火花,和普通的机器学习模型。它是由两个部分组成的,即开发离线情绪分析模型和在线预测管道。离线模型组件是用于获得最好的机器学习模型,将用于在线情绪预测使用语法和TF-ID特征提取方法。我们评估五个机器学习模型,DT, LR,然而,射频,和支持向量机,用收集到的数据集(例如,historical streaming tweets in the period 23/01/2020 and 01/06/2020 filtered by #COVID-19 and #Coronavirus hashtags). The empirical results have proved that the RF model using the unigram feature extraction method has achieved the best performance compared with the other models. The online prediction pipeline component is used to predict the coronavirus tweets’ sentiment polarity in real-time. It has used the Twitter Streaming API to collect streaming tweets about coronavirus in real-time then sends them to Kafka. Spark streaming has analyzed the ingested tweets and forwards them to the best machine learning model, which is the RF model, to predict the sentiment polarity about the coronavirus in tweets in real-time. The experimental results show that the RF model using the unigram feature extraction method has achieved the best performance.

数据可用性

历史推的数据收集从23/01/2020从Twitter和过滤30/06/2020 # COVID-19和#冠状病毒标签。

的利益冲突

作者宣称没有利益冲突。

引用

y z h . Wang Wang Dong et al .,“Phase-adjusted冠状病毒病2019例的数量估计在武汉,中国,“细胞的发现》第六卷,没有。1,1 - 8,2020页。视图:出版商的网站|谷歌学术搜索
w·h·组织,“冠状病毒”,2020年,= tab_1 https://www.who.int/health-topics/coronavirus选项卡。视图:谷歌学术搜索
g . Barkur和g . b . k . Vibha”情绪分析全国性封锁由于COVID 19爆发:证据来自印度,”亚洲精神病学杂志》卷,51条ID 102089, 2020。视图:出版商的网站|谷歌学术搜索
n . f·f·达席尔瓦l·f·s . colletta e . r . Hruschka和e . r . Hruschka Jr .)”使用无监督信息改善semi-supervised tweet情绪分类,“信息科学卷,355 - 356,348 - 365年,2016页。视图:出版商的网站|谷歌学术搜索
n . colletta“twitter情绪分析,一个分类系统”Procedia计算机科学卷,132年,第946 - 937页,2018年。视图:谷歌学术搜索
w . Medhat, a·哈桑,h . Korashy“情感分析算法和应用程序:一项调查,”Ain Shams工程杂志,5卷,不。4、1093 - 1113年,2014页。视图:出版商的网站|谷歌学术搜索
b . Liu“情绪分析和观点挖掘,”合成人类语言技术的讲座,5卷,不。1、1 - 167、2012页。视图:出版商的网站|谷歌学术搜索
j .塞缪尔·g·g·m·n·纳瓦兹·阿里·m·m·拉赫曼e . Esawi y撒母耳,“Covid-19公众情绪的见解和机器学习分类,“信息,11卷,不。6,314年,页2020。视图:出版商的网站|谷歌学术搜索
r·阿里·a·Bharathi, k . Saritha”COVID-19爆发:基于微博分析和可视化对冠状病毒在世界上的影响,”Gedrag en Organisatie,33卷,不。2、2020。视图:谷歌学术搜索
m . j . Koval w·w·劳顿,j·g·泰勒和s . l .冬天,“数据流协议多媒体数据流数据处理系统”谷歌的专利,1994,https://patents.google.com/patent/US5339413。视图:谷歌学术搜索
Apache的火花,“Apache火花”,2020年,https://spark.apache.org。视图:谷歌学术搜索
Apache卡夫卡“Apache卡夫卡,”2020年,https://kafka.apache.org。视图:谷歌学术搜索
s Das r·k·Behera m·库马尔和s . k . Rath“twitter情绪分析实时流数据对股票预测,“Procedia计算机科学卷,132年,第964 - 956页,2018年。视图:出版商的网站|谷歌学术搜索
l . r . Rath s·d·谢蒂和美国迪帕克·谢蒂,“基于流媒体实时大数据分析情绪定向广告,”国际电气和计算机工程杂志》(IJECE),7卷,不。1,p。402年,2017。视图:出版商的网站|谷歌学术搜索
a·海格·e·m·g·尤尼斯,a . Hendawi和a·a·阿里,“心脏病患者的识别引发社会的帖子,机器学习解决方案,”未来一代计算机系统卷,111年,第722 - 714页,2020年。视图:出版商的网站|谷歌学术搜索
n·d·尤尼斯,n . y . Hashim y . m . Mohialden m·A·穆罕默德,t . Sutikno和A·h·阿里“实时大数据情绪分析伊拉克微博使用火花流”电气工程和信息学的公告,9卷,不。4、1411 - 1419年,2020页。视图:出版商的网站|谷歌学术搜索
基于d Hashim”,一个火花大数据分析框架对于流数据实时情绪预测,“软件:实践和经验卷,49号9日,第1364 - 1352页,2019年。视图:谷歌学术搜索
b . a·格罗弗·n·k·拉其普特人,v . k . Rathi”一词的频率和情绪分析twitter消息冠状病毒大流行期间,“2020年,https://arxiv.org/abs/2004.03925。视图:谷歌学术搜索
m . Bhat m·卡Noor-ul-Asrar乞讨,m . Kundroo n . Ahanger和b . Agarwale”情绪分析社交媒体响应Covid19爆发,“大脑、行为和免疫力卷,87年,第137 - 136页,2020年。视图:出版商的网站|谷歌学术搜索
公元Dubey,”Twitter COVID19暴发期间情绪分析,”2020年,文件:/ / / C: /用户/ 12628 /下载/ SSRN-id3572023.pdf。视图:谷歌学术搜索
k . h . Manguri r . n . Ramadhan p·r·m·阿明,“Twitter情绪分析全球COVID-19疫情,”库尔德斯坦应用研究杂志》上,5卷,不。3,54 - 65年,2020页。视图:出版商的网站|谷歌学术搜索
梅德福r . j . s . n .萨利赫,a . Sumarsono t . m . Perl和c·莱曼,”一个“infodemic”:利用大容量twitter数据理解COVID-19公众情绪爆发,“开放论坛传染病,7卷,不。7日,2020年。视图:出版商的网站|谷歌学术搜索
推特,“Twitter流API”, 2020年,https://developer.twitter.com/en/docs/tweets/filter-realtime/guides/connecting.html。视图:谷歌学术搜索
Python,“TextBlob”, 2020年,https://textblob.readthedocs.io/en/dev/。视图:谷歌学术搜索
h·艾哈迈德·特拉奥雷i s萨阿德,”检测的在线使用语法分析和机器学习技术、假新闻”学报》国际会议智能、安全、可靠的系统在分布式和云环境施普林格,温哥华,加拿大,2017年10月。视图:谷歌学术搜索
艾哈迈德,m . Basheri m·j·伊克巴尔和a·拉希姆“支持向量机的性能比较,随机森林,入侵检测和极端的学习机器,”IEEE访问》第六卷,第33795 - 33789页,2018年。视图:出版商的网站|谷歌学术搜索
b . Basheri d . Wang s . Cheng和x谢,“建模和分析基于决策树的垂直切换车辆在异构网络,”IEEE访问5卷,第8824 - 8812页,2017年。视图:出版商的网站|谷歌学术搜索
朱x z . Wang, d . Cheng m .宗庆后和美国,“大数据高效的神经网络分类算法k,”Neurocomputing卷,195年,第148 - 143页,2016年。视图:出版商的网站|谷歌学术搜索
m·朱“随机森林分类器的遥感分类、”国际遥感杂志》上,26卷,不。1,第222 - 217页,2005。视图:出版商的网站|谷歌学术搜索
d . g . Kleinbaum m·克莱因和e·r·普赖尔逻辑回归施普林格,柏林,德国,2002年。

复杂性

动态分析、学习和复杂系统的鲁棒控制

文摘

1。介绍

2.1。为医疗实时预测系统

2.2。冠状病毒大流行情绪分析

3所示。实时情绪预测系统

3.1。开发一个离线情绪分析模型

3.1.1。数据收集

3.1.2。数据预处理

3.1.3。Pretrained推

3.1.4。数据分割

3.1.5。特征提取

3.1.6。优化和训练模型

3.1.7。评估模型

3.2。在线情绪预测管道

3.2.1之上。Twitter流数据收集

3.2.2。实时情感分析和预测

4所示。结果与讨论

4.1。实验设置

4.2。离线阶段的结果

4.3。交叉验证结果

4.4。测试结果

5。讨论

5.1。提出了系统的实时性能

6。结论

数据可用性

的利益冲突

引用

版权

相关文章

复杂性

动态分析、学习和复杂系统的鲁棒控制

实时预测冠状病毒大流行使用机器学习和大数据流系统

文摘

1。介绍

2。相关工作

2.1。为医疗实时预测系统

2.2。冠状病毒大流行情绪分析

3所示。实时情绪预测系统

3.1。开发一个离线情绪分析模型

3.1.1。数据收集

3.1.2。数据预处理

3.1.3。Pretrained推

3.1.4。数据分割

3.1.5。特征提取

3.1.6。优化和训练模型

3.1.7。评估模型

3.2。在线情绪预测管道

3.2.1之上。Twitter流数据收集

3.2.2。实时情感分析和预测

4所示。结果与讨论

4.1。实验设置

4.2。离线阶段的结果

4.3。交叉验证结果

4.4。测试结果

5。讨论

5.1。提出了系统的实时性能

6。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章