文摘

COVID-19情况下的快速增长已成为恐惧的象征,焦虑,和世界各地的人们的恐慌。大众媒体发挥了积极作用在社区教育解决这个流行的健康信息。人们通过分享他们的想法和情感互动通过社交媒体平台。有一个相当大的需要实现不同措施和更好的感知COVID-19相关的事实和信息通过阐明公众情绪。在这项研究中,检疫生活千微博是基于的数据集#检疫、#检疫天#隔离生活,#我的大计划,#检疫和寒冷从1月到2020年9月已经收集了来自Twitter。通过预处理技术提取的数据已经擦洗。分析了情绪和主题提取微博通过文本BLOB,维德,艾芬的方法。结果表明,人们痛苦和害怕由于COVID-19大流行。然而,大多数人喜欢玩游戏,看电影,读书在封锁期间。根据目前的荟萃分析,体力活动干预有助于改善痴呆患者的认知。拟议的框架说明了洞察COVID-19对人体生理的影响,主要集中在情绪动力学在局部层面的评估。

1。介绍

COVID-19不仅仅是一个传染病通过飞沫传播发出当人们咳嗽、打喷嚏,或者说话;错误信息传播推广社交媒体已经一个压力的来源,抑郁和焦虑。假的社会媒体信息传播迅速,从而对心理健康造成负面影响。在这一时期的社会距离和封锁,个人主要依靠互联网,和大多数活动是社会媒体报道。意见挖掘和情感分析新兴自然语言处理应用的重要性变得越来越高。人们分析文本数据集的意见,评估,情绪,态度,和情感使用意见挖掘和情感分析。可以确定人们的情绪,情绪分析应用到几乎所有的社会媒体平台,如Twitter、Facebook、YouTube和滚筒。

已经证明理解表达的情感通过某些资源,如微博、博客、报告、文件、或从政治演讲片段,对人类具有重要意义[1]。然而,巨大的,大量的观点是人类处理具有挑战性的任务。提取来自多个来源的观点,保持增长,复杂性和多样性需要自动化过程。在线社交网络(OSNs)提供一个媒介(,不同的人可以参与、展示和表达自己的想法)。微博是一种快速的方式通信,比如Twitter,滚筒,和Facebook最受欢迎的微博平台,数以百万计的消息出现。通过分析在社会媒体内容,形成的一个显著的转变公众已经占主导地位的社会显示用户。(2]。最近,数据在社交媒体平台上相关COVID-19流行需要处理和提取有意义的信息创造意识的人。由于这次大流行情况,政府实施了锁定从2020年1月至2020年9月到挽救人们的生命。锁定的时期是非常艰难的人们在他们的家园和他们是有界的社交媒体应用程序用于交换信息和意识。Twitter已经成为广受欢迎的社交媒体平台,人们分享他们的思想,观点,音频、视频和评论各种主题和想法。大部分微博病毒在COVID-19与标签符号(3]。标签是一组关键字,有助于找到有用的信息。标签(#)符号表明发布信息,评论,和想法,是重要的5000万Twitter上的信息组织与关键字标签(4]。来自世界各地的人们由于这次大流行影响严重。在本研究,我们的目标“#句子”COVID-19从世界各地的人们在Twitter流行。六个重要的关键词或趋势相关COVID-19流行的目标如下:(1)#检疫(2)# Covid-19(3)#检疫天(4)#生活隔离(5)#我的大流行计划(6)#检疫和寒冷

相关数据期间这些趋势—9 2020收集寻找人们的日常生活和他们的日常生活中使用情感分析和主题建模。在这个提议研究中,以下目标设定如下:(1)收集的数据来自Twitter COVID-19大流行(2)分析人们的观点使用极性倾向(3)对比算法更好的可视化结果(4)主要趋势是人们关注社会媒体用户利用LDA模型?

与COVID-19世界各地的巨大增加,研究人员专注于社交媒体应用情绪分析方法观察人们的精神健康。本节包含相关工作的总结COVID-19研究基于社交媒体数据。答:珍妮弗描述混合情绪分析基于Twitter数据的方法。情绪词汇被Senti-WordNet创建并增强,随着语义规则,无监督机器学习方法和模糊集(5]。助教混合标准分类进行,然后升级到一个混合先进的分类(6]。他们内置混合先进方法建模的语言语义极性分类使用模糊集。新的情绪分析方法被用来计算一个给定的句子的极性为电影评论数据集。

苏雷什et al。5使用实际tweet)描述了一种模糊聚类模型在一年的时间里收集的目的分析与某一品牌相关联的情绪。他们进行了比较研究K——聚类算法,采用技术和精度,精度,回忆,和时间复杂度。根据实验分析,该方法被证明是有效地进行高质量的情绪分析在twitter上。其他两种方法相比,该模型给出了一个76.4,需要更少的时间建立的准确性。Supriya et al。7)提出了一个三步算法提出了分析Twitter微博的公众情绪。算法的步骤包括清洗、实体识别、情感分析和分类。分类器的性能测量使用精度,回忆,和准确性。Elaziz et al (8)提出了一个新颖的方法来可视化诊断COVID-19通过机器学习分类胸部x光图像分成两个类,COVID-19病人积极或消极COVID-19人。他们使用新的分数多道指数瞬间(FrMEMs)从胸部x光图像中提取特征。他们使用一个框架来加速计算过程。之后,他们使用一种修改MRFO(蝠鲼觅食优化)是基于微分进化中提取最重要的特性。他们做了这种方法在两个COVID-19数据集,96.09%和98.09%的准确性从这两个数据集。Jain和Sinha [2)提出了加权关联影响(组织)的方法,以集成的相对影响trend-specific和twitter用户的基于时间轴的特征。他们使用Twitter趋势#冠状病毒大流行量化他们的建议的方法的性能。该组织表现出更好的性能比现有的方法。Sharma et al。9]给见解的重要问题的公司正面临着由于COVID-19和它们是如何检查的战略选择。他们把数据从twitter纳斯达克100公司和使用文本分析工具找出公司面临的问题,他们采取的策略。还推荐了一些超前的创新策略的供应链。撒母耳et al。10)提供洞察COVID-19流行恐惧情绪恶化。他们还提出了相关的方法、影响的机会,和局限性。

他们的分析是基于Covid-19 tweet和R统计工具以及文本挖掘包。他们还建立了证据表明增长fear-sentiments COVID-19从一开始就存在的,随着爆发在美国达到了顶峰,运用描述性的文本分析。

此外,他们提供了两个基本的方法论概述机器学习分类方法(朴素贝叶斯和逻辑回归),应用于文本分析,比较其效率在分类冠状病毒的微博。朴素贝叶斯和逻辑回归分类方法提供了一个91%和74%的准确性,分别长度较短微博,但这两种方法显示,相对较低的精度和冗长的tweet。李等人。11检查COVID-19对心理健康的影响。他们使用的方法在线生态识别(12]基于几个机器学习预测模型评估微博(微博框架在中国)的文章。他们使用收集到的数据来计算这个词的频率,情绪指标的分数(抑郁、焦虑、愤怒和牛津幸福),以及认知指标(生活满意度和风险的判断)。他们表现情感分析和示例t以及检查之前和之后的差异COVID-19的肯定。

结果表明,消极情绪的分数增加而积极的。Cinelli et al。13)使用不同的社会媒体平台(Twitter, Instagram, Reddit)分析意识和关注的主题COVID-19和微分的评估提供了一个全球话语每个平台的进化和他们的用户。他们发现相似的传播模式可靠和可疑的信息来源。周et al。14]分析了人的情绪动态澳大利亚新南威尔士(NSW) COVID-19期间利用Twitter的微博。他们分析了情绪在地方政府区域(地方政府)水平是基于收集的超过9400万条Twitter休战一段时间从2020年1月1日开始。结果表明,积极的情绪下降是由于大规模增加COVID-19确诊病例。汉et al。15)提出了一个话题提取和分类模型来分析媒体数据的早期阶段COVID-19在中国。他们广义COVID-19相关微博7主要和13个更详细的次要的内容。然而,他们的研究有一定的局限性。他们使用社交媒体来分析文本,但是图片和视频也可以的。

3所示。提出的方法

本研究分为一系列步骤如图1。第一步是收集数据通过Twitter API,在收集大量的微博,这些微博都存储在一个文本文件中。在第二步中,提高了分类精度进行一些预处理技术,如折叠,清洗,词规范化和遏制。这些过程都进行Lexicon-based机器学习方法。Lexicon-based方法,文本Blob,维达情绪,和Afinn用于确定每一个Twitter用户的极性。主题建模被用来找到有用的信息集团的tweet。此外,我们采用t-distributed随机邻居嵌入(t-SNE)技术,在一定程度上减少了人类不能感知向量空间超出3 d。

3.1。数据集

实时数据收集从Twitter使用Python脚本语言获得了来自Twitter的数据。数据收集从12020年1月19日th2020年8月。收集和分发的数据集,使用Twitter API (Tweepy)。

twitter API收集数据的实时数据在地理区域的国家见图2。应该有一个有效的twitter帐户,和应用程序应该被登记在twitter上提取tweet。twitter的用户发送请求API的数据,并返回数据根据用户定义的查询。提取一个样本的16696条推讯。在这个工作中,查询“检疫生活”,所有的数据都属于这个关键字的提取。提取的数据包括Tweet id、名称、屏幕名称,地点,描述,追随者,和以下数量的用户。

3.2。预处理

文本挖掘需要一些主要部分在本质上是准备要转换的文件使它更加结构化的。在这个分析中,预处理步骤如下:(1)情况下折叠是第一步,替换整个文本变成小写,即。,“Alan, self-isolation, Day 4” into “Alan, self-isolation, day 4.”(2)清洗需要得到这个分析中使用的数据。从这一阶段,我们排除语法、符号、缩写、指定客户端和tweet。剩下的唯一角色在这个阶段是单词。(3)形式化在twitter上的结果是有限的160封信。因此,Twitter用户倾向于写的句子。解决这个问题,一个规范化应用程序需要以其默认形式嵌入这个词。(4)阻止这个步骤使用的工具,将单词拿着文档转换成自己的基本形式使用固定的规则。

3.3。Lexicon-Based方法

机器学习算法应用于检查极性在文本。我们使用三个算法AFINN,维达(情绪推理价知道字典),和TEXTBLOB检查极性在文本和语义分析。

3.3.1。维德

维德是一个基于规则的词汇和分析工具,尤其用于情绪分析。它是用来提取情绪被表达在社会媒体,和在这一领域它执行异常很好。维德情绪分析(16)主要是基于明确的关键因素如标点、大小写、连词、程度修饰词,和前三元模型。维达将情绪分为积极、中性和负面的类别和安全的复杂的分数是由总结每个单词的词汇和价分数归一化的范围(−1,1),最极端的正面是“1”,最极端的负面“−1。“如果复合分数小于−0.05,文本将被认为是阴性;如果分数大于0.05,文本将被认为是积极的;如果得分是0.05和0.05−之间,文本的极性将中性。维德有一个主要的优势,它不需要的数据预处理和训练的模型可以直接利用原始微博产生情感极性。它还支持emoji情绪分类,足够快使用在线而不影响速度性能。

3.3.2。AFINN

Afinn是一个英语单词列表和一个整数之间的5和−5已明显设计微博等微博。它最大的优势,它每年更新新的术语和短语。

3.3.3。TEXTBLOB

文本的团是一个Python库(就像一个Python字符串)用于处理文本数据。它的目标是提供一个一致的API来处理常见的NLP(自然语言处理)任务,如词性标注,名词短语提取、翻译、文本挖掘、文本处理模块、文本分析、情绪分析,分类,和更多。文本blob分析句子水平上的文本(16]。首先,需要输入的数据集,然后它将评审分为句子。整个数据集的极性可以通过计算确定的正面和负面的句子数量并决定是否响应基于的总数是积极的还是消极的正面和负面的评论。一个情绪()函数可以用来找到给定评论的极性和主体性。它返回一个元组两个参数称为极性和主体性。函数返回一个元组组成的极性和主体性,极性的分数范围从−1比1。主观范围是0到1,1是最主观的,0是最客观的。

3.4。主题建模

主题建模(17)由发现文本文档中包含的信息和展示它的形式主题(取决于所使用的技术,主题也可以找到)的相对重要性。主题建模是一个无监督分类技术文件在多个主题。从表示空间的角度,TM是减少的维向量表示。语料库的而不是代表一个文档向量空间的话说,组成这个语料库的词汇是由一个向量表示。在这个语料库的主题的空间,这个向量的每个值对应的相对重要性本文的主题。流行的现代技术潜在狄利克雷分配(LDA)被用于这项研究[18),和LDA用于主题识别的文档。它基本上告诉有多少话题存在于在每个文档相似性基地。这个模型指出所有的词汇和主题分布与P (P =概率),如图3。研究人员更喜欢LDA方法中寻找主题上下文文件或基于文本的数据19,20.]。

LDA的数学表示: 在哪里βK的词分布的话题吗K,θ是文档的主题比例,z这个词的主题分配在一个文档中。

4所示。结果与讨论

4.1。极性计算

共收集16696条twitter API。收集到的记录没有目标的一群人。让目标群体看来,三个词汇算法被使用。每个分析仪描述tweet是否积极、中性或负面的。作者声称,社会媒体已经无法提出正确的方向网民应当战斗COVID-19这样的大流行,已经证实了这个词云如图4(一)- - - - - -4 (c)。大多数的单词已经描述的每一个情绪使用WordCloud可视化模块。这些还存在的话,不能验证任何危机期间代表一个可能的解决方案的效率。在三个情绪分析我们发现文本blob最高利率与中性情绪的tweet 44.42%。维德情绪负面人气最高的86.46%的速度。然而,Afinn给人气最高利率42.08%,如表所示1和图5。表2显示了一些随机的与目标类微博:积极的,负的,中性的。我们执行实验通过艾芬ved和文本blob,通过随机的tweet,然后算法分析微博包含积极的,消极的,和中性情绪。

4.2。主题建模

发现情绪从数据后,下一步是确定主题。主题建模的最好方法是发现多少抽象话题存在于语料库。在LDA模型文档包含多个主题。占主导地位的主题通常是其中的一个主题。表3显示了每个句子提取的主要话题。LDA主题建模中的每个字都包含这些权重显示多少重量和一个特定的关键字是很重要的话题。然而,单词统计表示重复的单词在特定主题的频率。

5展示主题和关键字的重量。我们的目标是找到词发现多个主题和其相对频率超过他们的体重。在许多情况下,这样的话并不像看上去的那么重要。从图6,通过使用t-SNE情节高维度数据到一个低维字嵌入等人类很难理解。这类词根据四个主题和覆盖句情绪的颜色。

从数据78,我们需要选择四个主题来分析使用Python 3.6.1和LDAvis16]。我们设置λ4 = 1,主题和关键词。主题的名字根据其生成类似的关键词来阐述主题。泡沫是代表了主题和泡沫的大小正比于其患病率在语料库。相似的主题形成接近彼此;主题远更相似。距离是用来确定他们的中心主题16]。

5。结论

VADAR、AFINN和文本BLOB极性显示积极的,负的,中性的频率。大多数这些dictionaries-based算法之间的结果是中性的。这项研究描述,大多数人害怕COVID-19流行情况,另一方面一些人享受他们的封锁时期如他们喜欢住在家里,玩,看电影,和阅读。该研究表明,体育活动和锻炼能改善认知在大流行期间。COVID-19爆发研究病因、临床特征、传播模式、和管理,但没有做什么来探索其对心理健康的影响和防止歧视的方法。人们的行为可以显著影响大流行的动态改变其严重性,传播,传播和后果。提高公众意识可以帮助处理这个灾难的现状。尽管高频干预对认知功能的影响小相伴,阈值还有待解决。在未来,我们将提取各种疫苗接种微博数据集研究和分析疫苗效力和有效性。

数据可用性

的数据支持本研究的发现可以从相应的作者,在合理的请求

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢他们的同事来自不同机构在巴基斯坦分享他们的见解和专业知识在这个研究项目。