文摘

COVID-19大流行对很多人产生了毁灭性的影响,产生严重的焦虑,恐惧,和复杂的情感或情绪。启动后对冠状病毒疫苗,人的感情变得更加多样化和复杂。我们的目标是了解和解决他们的情绪在本研究使用深度学习技巧。社交媒体是目前最好的方式来表达感情和情绪,和推特的帮助下,人们可以有个更好的主意是什么趋势和人们的思想。我们的动机研究是理解人的不同情绪对疫苗接种的过程。在这个研究中,收集的时间推July21从12月21日。包含的tweet信息最常见疫苗最近来自世界各地。各种情绪的人关于疫苗的使用自然语言处理(NLP)评估工具,价知道字典情绪Reasoner(维德)。初始化得到的极性情感分成三组(正面、负面和中性)帮助我们想象整个场景;-我们的发现包括积极的33.96%,17.55%,和48.49%中性反应。 In addition, we included our analysis of the timeline of the tweets in this research, as sentiments fluctuated over time. A recurrent neural network- (RNN-) oriented architecture, including long short-term memory (LSTM) and bidirectional LSTM (Bi-LSTM), was used to assess the performance of the predictive models, with LSTM achieving an accuracy of 90.59% and Bi-LSTM achieving 90.83%. Other performance metrics such as precision,, F1-score, and a confusion matrix were also used to validate our models and findings more effectively. This study improves understanding of the public’s opinion on COVID-19 vaccines and supports the aim of eradicating coronavirus from the world.

1。介绍

COVID-19爆发带来了重大关注医疗保健行业在最近的时代,它改变了安全的概念在我们生活的方方面面。社会距离是一种有效的方法减少冠状病毒的传播。安全措施,如戴着面具,经常洗手,保持谨慎关于亲密目前非常重要的。但是,这些只能减少冠状病毒的传播,没有完全根除它。这里,疫苗接种走进光作为唯一的解决方案,可以最有效地打击冠状病毒,可能消除它。进行了严格的测试与第一mRNAvaccines介绍;超过40000人参加了30000年辉瑞疫苗试验和现代化疫苗试验。两试验疫苗的功效平均大约是94%,他们中的任何一个,没有死亡。早期发现另一个名为强生的病毒载体疫苗,证明能够打击冠状病毒和刺激接受者的免疫反应显示率> 85%的有效行动没有严重副作用(1]。疫苗接种程序在世界范围内全面展开,如图1。可能会有一些地区由于不同的紧迫性之间的冲突和经济障碍(在我们的论文后面解释),但最主要的,我们试图提供实际数据对人民接种疫苗地位没有偏见。

从数据1(一)1 (b),它可以清楚地观察到,大多数人口在不同的大洲尚未接种疫苗。多个剂量的疫苗的生产是一个主要的担忧,但是人们的令人惊讶的缺乏意愿和利益的接种更令人担忧,关注健康的科学家想了解其背后的原因。人们对整个疫苗接种过程有复杂的感情从一开始;我们甚至已经面临这种冲突或问题从自己的家庭成员。在不同的研究中,研究人员试图去理解背后的原因这样的犹豫。这在科学论文最近被广泛的讨论,其中包括人们为什么想对接种疫苗的两倍多。的一些原因是疫苗研究发明了这么快,可能有不足,他们可能导致癌症3)或不孕,担忧的功效得到第二剂量,过敏反应(4),血液凝结,生产行业的合法性,政治和宗教信仰,社会媒体,网络的趋势(5),和阴谋论6- - - - - -8]。

几项研究已经评估人们的感情之前和之后都接种疫苗的出现。Snscrape [9)是用于收集历史推COVID-19疫苗从1月7日,2020年,2021年1月3日。总共4552652条推文被提取。这些tweet由1566590用户,1012419散列标签和2258307参考条件。我们价知道字典用于情绪Reasoner(武士),一个Python词典和基于规则的情绪分析工具,开发评估社会媒体情感的基础上个别单词和短语,分配评级的积极、消极或中性每个tweet。提取后,我们确定了微博对疫苗和人们对他们的看法及相关数字的增长随着时间的推移,地理位置,新兴的话题,关键短语,邮政接触率,和报告。获得的积极和消极情绪之间的区别是略有不同,用积极更占主导地位,获得更强的反应。

另一项研究[10)发现,在大流行,微博公民的英国和美国收集通过Twitter的应用程序编程接口(API)和实验来回答是否情绪是积极的,消极的,中性的。人员执行相对情绪分析通过使用维德获得的主要感受公民,他们引入了一个修改的方法,可以计算个人的影响。通过这种方式,他们能够把情绪分析进一步解释的一些数据的变化。三大公司参与研究疫苗是谁确定为辉瑞、阿斯利康、约翰逊和约翰逊(11];研究人员提取Instagram的帖子从一开始的疫苗接种和接收的数据从用户使用自己的标签。这些公司的(即定性手稿和视觉的变化特征。,image categorization by transfer learning) are initially presented in this research. The Instaloader was used to extract the images, and the images were classified using VGG-16, Inception V3, and ResNet50. Designing and conducting a controlled experiment confirmed the accuracy ranking of the algorithms used and identified the two best performing ones. Finally, the analysis of the polarity of users’ posts using a convolutional neural network (CNN) clearly showed an overall neutral to negative feeling among users with highly divisive posts. This study [12]目的是执行一个情绪分析在Twitter上的疫苗,也就是说,科兴生物制品公司和辉瑞,印度尼西亚。2020年10月和11月间数据抓取和处理理解用户的情感。有两种类型的数据集:北京科兴生物制品有限公司和辉瑞。数据集都是手动标记是积极、消极或中性的。标签和准备数据后使用Twitter爬行crossvalidation和验证他们的10倍,支持向量机(SVM),朴素贝叶斯算法,随机森林被用来评估性能和获得适当的标记结果与预测。这项研究的作者(13菲律宾公民)收集信息对菲律宾政府的努力使用Twitter web。政府分析这些反应,NLP技术应用于理解整体情绪。数据科学工具“RapidMiner”训练的这些感觉,和朴素贝叶斯模型分类英语和菲律宾tweet积极、消极或中性的准确。在另一项相关研究(14对人们的情绪),分析收集的Twitter。这种分析旨在提取重要问题和情绪在推特上和主题相关COVID-19疫苗使用机器学习的方法。他们专注于三个因素:COVID-19围绕疫苗接种和态度,COVID-19感染控制措施的宣传,和COVID-19控制的误解和抱怨。2020年1月到10月之间,他们收集了31100个英语微博包含COVID-19从Twitter用户在澳大利亚相关关键词。特别是微博分析说明高频文本数据云和词的相互作用令牌。识别最常提到的主题在一大推样例中,他们创造了一个潜在狄利克雷分配(LDA)模型。情绪分析也获得执行的总体感觉和情绪在澳大利亚COVID-19有关。本研究[15)提出了一个基于贝叶斯机器学习框架优化检测COVID-19从临床角度和解决相关问题。一个优化的方法(16)考虑个人的隔离和社会距离的特征。根据数值数据,个人动机增加超过85%,家庭隔离的比例增加。建议游戏理论激励模型被用来解释封锁政策的可持续性。

上述研究表明高度满意的结果关于COVID-19疫苗反应及其评价。pandemic-induced相关的一些研究包括情绪压力,和一些讨论接种疫苗的问题。然而,大部分研究成立,优先考虑哪些地区或area-wise,大多只有情绪进行分析工具。大部分集中在特定的国家和特定于特定疫苗生产的疫苗生产企业。

我们的研究分析的数据所有可用的疫苗,包括辉瑞/ BioNTech,现代化,牛津/阿斯利康,Covaxin,人造卫星V,国药控股,北京科兴理解的积极、消极,中性情绪对COVID-19百分比有关疫苗接种。我们的研究还集中在时间轴上的推特是一个重要的和小说contribution-because情绪变化随着时间的流。此外,我们的研究表明,与文本输入,我们的系统可以检测一个句子正确的情绪。目标和本研究的贡献是提供一个清晰的了解公众的情绪和想法关于COVID-19疫苗接种过程。这将有助于卫生研究者和政策制定者采取适当的措施,以提高疫苗的轻信和让人们更安全、更清楚。

在下面几节中,组件技术的研究及其成果使用分析工具。部分2描述了方法和技术术语用于分析情绪。节3的工作,适当的可视化工具,这些可视化的描述情绪,结果被发现了。之后,我们的研究的成果,如何有效的和有利于人类,以及它如何可以进一步改善带来世界的改良进行了讨论。我们的工作提出了部分4

2。方法和材料

2.1。完整的大纲所提出的系统

在这个研究中,收集的数据来自Kaggle [17),其中包含不同类型的微博相关COVID-19疫苗。检查后独特的价值观和null值,完成预处理,数据字符detokenized句子分解成文字和标签。接下来,一个情绪列,包含积极的,消极的,和中立的价值观、添加和使用维达计算。架构的深度学习的时间,短期记忆(LSTM)和双向LSTM (Bi-LSTM)是用来检查的性能预测模型。根据文中提出的方法,系统的详细大纲图所示2

2.2。数据集

数据集命名为“所有COVID-19疫苗tweet”从Kaggle17)选择在本研究的数据几乎所有著名的疫苗,如辉瑞/ BioNTech,牛津/阿斯利康,现代化,Covaxin,人造卫星V,国药控股,科兴生物制品公司,是可用的。这里,数据集的形状由16 125906年,包括用户名、日期、地点、数量的朋友,转发,标签和来源。

2.3。数据预处理,处理和标记

首先,删除一些不必要的列后,所有的网址和电子邮件信息已清除。然后,所有的新行字符,双、单引号,标点符号都删除。对于这种类型的处理,之前所有的微博都被应用的所有方法来消除这些文本。这是然后detokenized转化成NumPy数组。

2.4。情绪分析器工具(维德)

维德,提出C.J.赫托(18]2014年,是一个NLP-based情绪分析仪和pretrained模型,使用基于规则的值根据社交媒体的观念表达和其他适用的文本字段。它有完美的性能在社交媒体领域的文本。基于综合规则,维德可以执行各种词汇的情绪分析特征,如图3

看的价值中的每个单词词典,维达提供了文本的百分比比例,碎成积极、消极或中性的类别和总结1的概率值。情感分析的复合分数是最常用的测量;价值浮动区间(1 + 1)是一种复合分数,其指数是由添加的值中的每个单词词典,根据规则,然后标准化范围。

2.5。数据可视化工具

在这项研究中,各种类型的分析来直观地观察数据相关。不同类型的图,比如酒吧情节,线形图,和词云,实现理解模式之间的数据集。对于可视化,我们使用许多Python所提供的预先构建的库。

2.6。绩效评估过程

基于递归神经网络(RNN)的建筑叫做LSTM被用来评估模型。LSTM和Bi-LSTM实现在我们的评估过程。LSTM是一种RNN地址其他RNNs额外的细胞,输入和输出。Bi-LSTM是两个LSTMs组成的序列处理模型。需要输入向前,向后移动它。Bi-LSTMs有效提高网络信息的数量来提高计算精度。

2.6.1。LSTM

LSTM的控制流类似于一个RNN的,如图4。向前移动时,它处理数据并将其传递。五门,构成了LSTM架构顺序门口,输入门,忘记门,控制门,门输出。

一系列的方程描述LSTM[的盖茨19]。在描述方程之前,有必要先了解一些这些计算中使用的变量。乙状结肠激活函数 使用,权重矩阵是什么 ,前面LSTM块的输出为代表 ,和相应的偏好盖茨为代表 最后,现有的时间戳输入 ,和输入通道 :

的数据可以给细胞选择使用这个方程。忘记门 在方程(2)决定哪些数据从输入端之前的记忆应该忽略:

在方程(3),双曲正切规范化值在1和1之间的距离,在哪里 候选细胞状态的时间戳,控制细胞 更新:

输出层( )升级两个隐藏层 和输出层根据方程(4):

这是我们的提议LSTM配置图5

2.6.2。Bi-LSTM

Bi-LSTMs受双向RNNs (20.)使用两个隐藏层解析顺序输入两个向前和向后的路径。Bi-LSTMs两个隐藏层合并成一个输出层。的配置展开Bi-LSTM层,它包含一个向前和向后LSTM层,如图6

的输出序列层 从次创建多次与正序输入 ,而逆向层的输出序列 从次测量了反向输入 基本LSTM方程(1)- (4)被用来计算前后两层输出。Bi-LSTM层产生一个输出向量形式 ,每个元素的计算通过使用方程(5)如下:

两个输出序列是连接的σ函数,它也可以表示为最终的输出。它可能是一个连接,求和,平均,或者增加功能。Bi-LSTM层的最终输出可以表示为一个向量以同样的方式,一个LSTM层的最终输出, ,预计在接下来的迭代。

拟议中的Bi-LSTM架构设计如下图7

3所示。结果与讨论

3.1。结果的概述

辉瑞/ BioNTech,牛津/阿斯利康,现代化,Covaxin,人造卫星V,国药控股,科兴生物制品公司是最普遍接受疫苗。根据我们的研究,人们的反应不同的疫苗因国家而异。散列标签情绪分析的分析是一个重要的特征表现在我们的实验中。最重要的一步是将微博使用比率分析显示数字和百分比的反应是积极的,消极或中性的。然后,我们验证了我们的模型使用特殊类型的RNNs LSTMs和Bi-LSTMs等。我们分析了相对指标、精度损失和其他等效指标性能评价方法并以图形方式显示它们。使用LSTM和Bi-LSTM架构中,我们展示了我们的模型可以预测特定角色的输入(微博)。我们使用Wordcloud,情感分析任务的常用的可视化工具,显示微博被归类为三种不同类型的观点来理解这些tweet背后的心理基础。

3.2。微博根据用户位置和来源

微博从不同来源收集世界各地;我们的分析是在下面的事实和数字。在图8显示,疫苗不良反应的最大来源是Twitter,最常用于传递思想的平台COVID-19情况。数据包含tweet来自世界各地;图9显示了一些主要地区tweet来自哪里。

3.3。无论是“流行词”的用法

10显示关键字最常用在美国像“现代化”,这是他们自己的本地生产疫苗。“辉瑞”一样经常使用的“现代化”,其次是“剂量”,“,”“人”“第二剂量”和其他关键术语显示人民关于接种COVID-19百感交集。图11显示在英国最常见的术语。在英国生产的疫苗名称如“OxfordAstraZeneca”和“PfizerBioNTech”经常出现在他们的微博以及恐怖的词语如“血块”,“感觉”和“审判。“数据1213显示关键术语中使用微博的人在加拿大和印度。在这里,“第一剂量”、“第二次剂量”,“现代化”,“辉瑞”“巴拉特BioNTech”,“死亡”,“紧急”“Covishield,”和“临床试验”非常常用。

3.4。标签会把每条

标签是重要的和高度使用的大多数用户在Twitter上,他们有时带有特定的事件或趋势相关的重要意义。在图14,标签位于的总数 - - - - - -轴,和那些最常用的数量在推特上 - - - - - -轴代表的密度的微博。

3.5。时间轴的Tweet反应

微博的数量不同。图15显示的变化之间的微博数量的疫苗接种过程,直到最新的时间框架。

从1月21日到2月21日,微博与疫苗相关的数量少于500;从3月21日,飙升至近3000,表明人们非常兴奋完成临床试验后的疫苗和疫苗需要注射大量。从March21到现在,微博对于COVID-19疫苗波动每月从1000年到2500年,表明人们情感的改变。

3.6。情绪分析和评价
3.6.1。标准数字和百分比的情绪

在图16,微博的数量分为积极的,消极的,和中立的绿色柱状图所示,这三个类别的百分比呈现蓝色的条形图。绿颜色的 - - - - - -轴的数量决定了微博, - - - - - -轴类决定了情绪。在蓝色的图表、概率分布上所示 - - - - - -轴和情绪类 - - - - - -轴。

从数据集,分析了125906条使用lexicon-based维达和隔离成三个参数:积极的,负的,中性的。在这里,42765年积极的推文(33.96%)、22094 - tweet(17.55%),和61047中性tweet(48.49%)被发现后分析。中性微博形成了多数;负面反应的频率较低,表明混乱,COVID-19疫苗接种程序有关的冲突,和不确定性仍然存在。

操作。时间轴的情绪

17演示了如何情绪随时间改变或重组。三种情绪类三种颜色所示。和中性情绪为积极的,消极的,颜色是绿色,红色,和蓝色分别。

波动的情绪或情感随着时间的推移,在大流行期间在图清晰可见17。很明显,情绪达到顶峰的疫苗的最终审判结束时3月21日。中性情绪有一个每月高极性,直到July21和消极情绪极性显示低于中性情绪在最近一段时间。

3.6.3。根据极性情绪词

使用WordCloud,特定的词或术语被分为极性组。在图(18日)显示,条款作为积极的情绪。图18 (b)显示了负面情绪的话,和中性情绪词图所示18 (c)

3.7。绩效评估

RNN-based架构LSTM和Bi-LSTM被用来评估模型表现在我们的实验中。在数据序列和分裂的部分,我们需要处理过的数据转换成向量由分词并将值转换为目标标签。培训测试分割方法从scikit-learn库使用。分割数据形状x_train: 94429年,x_test: 31477年,y_train: 94429,和y_test: 31477。在本节中,两种模型的性能指标和预测能力。

3.7.1。性能分析与LSTM Bi-LSTM

用来训练我们的工具模型LSTM和Bi-LSTM都列在表中1在下面。

在这项研究中,直言crossentropy作为损失函数。这损失函数最小化错误对于一个特定的类。均方根传播(RMSprop)优化器被用来训练模型。在这项研究中,softmax充当一个激活函数。它压扁的主要得分,最终输出的概率得分。训练LSTM和Bi-LSTM模型训练数据集,我们只用10时代。

数据1920.显示模型的准确性和损失LSTM模型的训练和测试数据。验证的准确性为LSTM架构设定为90.59%。

的模型精度和模型损失Bi-LSTM模型的训练和测试数据图所示2122。Bi-LSTM模型,发现90.83%的准确性的验证和测试集。

从数据1921,我们可以看到,在LSTM Bi-LSTM,开始训练精度约为75%。当评估美联储数据,LSTM给85%的初准确性和90.59%最后,和Bi-LSTM开始时显示的准确性86%和90.83%。实现Bi-LSTM后,模型的精度略微增加从90.59%降至90.83%。

根据架构,LSTM只执行向前推移,而Bi-LSTM执行既可以向前,也可以向后传递。因此,当我们都符合我们的数据集模型,LSTM采用序列只前进的方向而Bi-LSTM序列在每个+文字的方式有自己的序列。这就是为什么网络与Bi-LSTM更深入地学习,从而使情感分析任务稍微更好的性能。

3.7.2章。其他性能指标

评估模型基于不同的性能指标,本研究使用精度,还记得,F1-score,和一个混淆矩阵与真阳性等不同的值(TP),假阳性(FP),真正的负面(TN),假阴性(FN)。

精度:这描述了模型的性能测试数据。它显示了模型预测的数量正确的积极的类:

回忆:总数的百分比有关结果准确分类的算法称为回忆:

F1-score: F1-score只是精度和召回的调和平均数:

2显示上述性能指标的价值。

23显示了我们的混淆矩阵预测模型与三个不同的极性。

最后,模型正确分类91%的积极情绪。混淆矩阵,94%属于中性的,这是真阳性,而73%是准确归类为负类。此外,并被错误地归类为中性,2.6%和3.2%,最高的百分比是负面情绪类别,约11%和15%。最后,积极情绪预测,但被错误地归类为中性和负面的5.4%和3.9%,分别。

3.7.3。情绪预测表

3显示了一些精致的tweet的结果。

4所示。结论

我们的研究显示了深度学习技术用于情感分析任务。基本的NLP-based工具实施理解人的情绪在3个极性,即积极的、消极的,和中立的;我们的研究结果显示,33.96%的人是积极的,17.55%是负的,48.49%是中性的,直到2021年7月,在疫苗接种程序在全球各地。我们的研究也包含RNN-based LSTM Bi-LSTM,决定我们如何精确地模型建立能够预测和分析情绪。LSTM架构显示90.59%的准确率,Bi-LSTM模型显示90.83%的准确率,和两个模型显示,精确预测成绩好,记得,f - 1的分数,混淆矩阵计算。许多人决定自己接种疫苗,和大量仍然困惑;许多人害怕和许多拒绝接种疫苗。

本研究将有助于健康研究人员获得适当的知识关于疫苗接种过程的问题。公司生产疫苗、政府、卫生部门的不同国家,或卫生部门的决策者们,比如谁(21),可以有适当的了解是否他们的疫苗是有效和比例的有效性。他们可以了解哪些行业需要改进,这样人们就可以在疫苗接种过程中有信心。我们相信我们将扮演一个小但有效的参与帮助一线工人对抗这种新型冠状病毒和保持我们的生命健康和安全。

数据可用性

数据用来支持这些研究成果可以在网上https://www.kaggle.com/gpreda/all-covid19-vaccines-tweets

的利益冲突

作者宣称他们没有利益冲突的报告关于这项研究。

确认

作者感谢塔伊夫大学的研究人员的支持支持项目(TURSP-2020/211),塔伊夫大学,塔伊夫,沙特阿拉伯。