文摘

生成大量的数据每一秒对于微博,内容共享通过社会媒体网站和社交网络。Twitter是一个重要的流行微博让人们表达他们的意见的日常问题。最近,分析这些观点的主要关心的是情绪分析或意见挖掘。有效地获取、收集和分析情绪一直具有挑战性的研究人员。应对这些挑战,在本研究中,我们提出一个高度精确的方法SA COVID-19假新闻。假新闻数据集包含COVID-19假新闻;我们开始通过数据预处理(就是代替缺失值、噪声去除、和阻止)。我们应用术语的语义模型频率和逆文档频率加权数据表示。在测量和评价步骤中,我们应用八机器学习算法如朴素贝叶斯、演算法, - - - - - -最近的邻居,随机森林、逻辑回归、决策树、神经网络、支持向量机和四个深度学习CNN, LSTM, RNN,格勒乌。之后,根据结果,我们与python煮一种高效的预测模型,我们训练和评估分类模型根据绩效指标(混淆矩阵、分类率、真阳性率…),然后测试模型的非保密COVID-19假新闻,来预测每个假新闻的情绪类COVID-19。结果证明比其它模型精度高。最后,提供了一系列建议与本研究未来的发展方向,帮助研究人员选择一个有效的情绪分析模型在推特上的数据。

1。介绍

NLP特定的研究领域,涉及计算机如何参与现象的理解和操纵人类语言(文本和语音)执行有用的操作。这是一个领域,在分析数据,提出的模型能够抓住有关或使用上下文和有用的数据输入可以用不同的方式表示(1]。近几十年来,人工智能(AI)已经改变了我们的生活和发展迅速。NLP是人工智能技术,参与文本分类、信息存储和检索、信息提取、语义分析、机器翻译、对话系统,语音识别,和更多2]。人工智能技术是非常受欢迎的智能家居,智能工业、智能交通、智能医疗、智能城市,和卫星。它包括很多物联网设备(事情)配备不同的传感器,执行器,存储、计算和通信的功能比传统互联网收集和交换数据。内的数据捕获和处理物联网网络安全需求的敏感性可能的入侵。不同的安全机制,如防火墙、身份验证方案,不同的加密方法,防病毒目前用于保护敏感数据的安全攻击。自然语言处理允许系统上执行操作自然人类语言和翻译机器可以理解的格式(3]。(4州在他们的研究中,实际群优化算法(PSO)是一个复杂的搜索方法用于食品蜜蜂分群方式不同。使用算法解决多个问题的优化。他们提出了一个技术称为WE-PSO,令人难以置信的解决优化问题。他们评估模型在15个不同的都知道任务。结果表明,WE-PSO执行这个任务非常相比其他多通道和单峰技术。Metaheuristic算法用于文本和数据分类任务(5- - - - - -9]。这些算法提供更好的性能在特征提取阶段的文本阶段(10- - - - - -15]。

由于大数据由用户生成的,在社交媒体上,讨厌演讲数量也增加了。自然语言处理是专注于仇恨言论检测在社交媒体上,尤其是这个任务的自动化检测仇恨社交平台上的演讲(16]。乌尔都语(Mustafa et al ., 2017)使用虚假新闻在COVID-19检测在twitter上有争议的乌尔都语演讲。自然语言处理也可以用来探索他对社会公正与社会的影响。NLP技术可用来检测假评论(17]。(18提供一个全面的概述在他的作品中,自然语言处理是如何适用于心理学。(19NLP)提供了一个全面的文献回顾和生物信息学领域的文本挖掘。(20.描述了他们的研究,使用人工神经网络在许多分类任务,但这一传统技术有一些缺陷。为了克服这些缺点,他们训练有素的基于神经网络的反对实用群优化。他们也进行了性能分析表明(OPSONN)执行效率最好的其他方法。

用户生成内容(UGC)在不同的社会互动的处理是一种新的数据来源科学家和行业。UGC评论网站上包含重要的信息以文本形式和提取使用SA和意见挖掘技术(21]。个人成长和发展的一个重要方面是理解人类的情感。情绪和行为举行大规模的重要性怎么有效和成功的沟通。情绪分析和情感计算有能力提高推荐系统的功能和客户关系管理(22]。完成的工作(23)描述了一种NLP-based方法来处理用户生成内容(酒店评论)和形式产生有价值的见解。(24)开发了一个在线酒店评论预测模型预测的乐于助人的评论。情感分析是一门研究文本中表达的观点写的用户/客户。这个观点描述了积极的,消极的或中性的行为/用户/客户的态度。这个研究主要侧重于实现不同的机器学习分类算法分析餐馆评论。和支持向量机对给定的数据集[更好25,26]。仅向前型计数器传播网络方法用于诊断疾病的避孕方法选择。他们的研究工作提出了一个方法命名为仅向前型计数器传播网络(FOCPN)解决医学领域分类任务。进行实验和结果清楚地表明,提出的模型收敛是非常快,效率和可靠性有更高的分数。

字嵌入是有用的和重要的方法之一几个自然语言任务。在这个研究,他们提出了一个方法,使用情绪先验知识从两个层次:文档和词水平(27]。的研究(28]介绍了他们的方法对于twitter数据SA使用字嵌入方法考虑同现统计特征和潜在的上下文语义关系。(29日SA)提出了一种模糊方法,用模糊隶属度。他们比较他们的方法主要用于情绪分类器的性能,结果表明,他们的方法表现略好。提出的主题基本情绪分析方法是(30.)了解Twitter的用户的意见。研究主要集中识别文化、经济、环境和社会因素与公共卫生和环境有关。他们使用# WordEnviromentDay生成数据集。蝙蝠算法是一种算法的灵感来自大自然。它是用来解决问题的优化。英航有一些局限性,本研究工作提出了一个英航和命名它为IBA的新闻方面。这种变体修改,提高了局部最小值的能力。结果表明,该方法比传统的神经网络优于。

情绪挖掘文本数据的类型分析过滤高频的单词和句子,举行有意义的信息。情绪是指情感或态度,所以我们可以说,情绪分析用于获取,强调和分析隐藏情绪。大数据从互联网的快速生成和在线社区,这些数据可以用于投资决策。为此,(31日)提出了一种动态预测方法在线金融社区行为,股票市场,行为金融学的角度使用与财务相关的新闻和博客文章(32]。微博用户的通用平台是讨论社会、环境、技术、科学、娱乐等等。这些数据反映了用户的角度对一个主题可以是负的,积极的,或中性的。他们提议的方法对中国微博分类文本主题,是积极的,消极或中性的。情绪矿业或情感分类是一个非常困难的和敏感的任务挖掘重要和有用的信息从文本上可用在线社交媒体网站。

过去几年,一个有趣的研究领域是解决问题的股票时间序列的预测。完成的工作(33)提出了一个方法,使用金融对股市预测微博考虑股票指数的时间序列和时间序列的情绪。(34]国家在他们的研究中,许多局部的技术检测和情感探测认为重要的微博数据噪音。为了解决这个问题,他们提出了一种多通道进一步与情绪主题微博SA模型。(35]阐述了概念级别分析情绪的概念。它使用评价的概念和特点,由用户提供。早期的研究使用有界概念水平情绪分类规则。因此,本研究提出一套规则来克服这些限制的概念级情感分析。提出系统显得非常有效的87.5%的准确性分数。

剩下的纸是组织如下:部分2讨论了文献综述。部分3论述了类型的分类算法。部分4概述的方法。实验结果讨论了部分5。我们工作的结论和未来前景进行了部分6

2。文献综述

根据(36),传统的自然语言处理技术相比,并没有太多的可行的应用对大数据检测的情绪。因此,他们提出了一个模型通过整合自组织映射,主成分分析,为非监督机器学习和亚当DL,降维,分别和计算分类。此外,他们建议的方法之间进行了比较研究和国家的艺术方法。他们用七个数据集包含15 k, 30 k, 45 k, 60 k, 75 k, 90 k, 100 k,分别。分类精度的数据是84.67%,85.12%,85.89%,86.78%,87.21%,87.63%,和88.34%,分别。结果显示了一个有趣的现象,通过使用大一号的数据模型还提出增加的性能。他们研究了四种算法(PCA-based CNN, LR、多项式回归和RF)在他们的研究和得出结论,建议的方法中精度高88.34%。

(37]国家在他们的研究中,大多数研究aspect-level分类的观点是基于监督机器学习肯定需要标记示例数据。为了解决这个问题,他们提出了一个方面水平情绪分类与semisupervision基于变分autoencoder (AL-SSVAE)。模型输入编码器和解码器基于给定方面VAE(变分autoencoder),然后添加一个分类器ATAE-LSTM。他们将他们的模型与LSTM AE-LSTM AT-LSTM, ATAE-LSTM表明他们的模型性能更好。结果清楚地表明,AL-SSVAE领导在所有模型在所有四个数据集。提出模型的精度比例在所有数据集来了,PHNS,休息,和LAPT是79.72%,80.66%,86.72%,和88.98%,分别

(38]国家在他们的研究中,CNN获得了有前途的情绪分类领域的关注和讨论。CNN他们也用于分类数据基地的情绪,但添加连续卷积层为此也比较该模型与其他国家的艺术深度学习方法以及机器学习方法使用三个不同的数据集。他们提出的CNN模型包含一个嵌入层,两个卷积层、汇聚层,和一个完全连接层。许多机器学习的研究集中在两个或两个以上的情绪标签。提出了CNN模型与NB相比,DT, SVM和射频。结果清楚地表明,连续层CNN是领先的有81.06%,78.3%,和68.3%的准确率使用电影评论,客户审核,分别和斯坦福情绪树图资料库的数据集。他们还测试了模型三元分类和应用模型,数据集。他们的模型会有68.3%的准确度在所有毫升和DL模型

完成的工作(39]描述了他们的研究,和情绪在社交网站上分享可以利用许多有用的目的。他们所做的情绪分析电影数据库IMDb使用混合特征提取模型。他们加入了TF和TF-IDF机器学习功能以及词汇特征。他们比较了机器学习模型和混合模型导致的复杂性和准确性。实验后,结果清楚地表明,当不同的机器学习分类器像SVM, NB,然而,和使用最大熵特征选择方法与混合特性,它给了有前景的结果的准确性和复杂性。

(40)描述了在他们的研究中使用的大多数文献情绪分类方法基于词典或ML技术。先前的研究也只考虑二元分类而忽略中性审查。词典的方法和ML方法的缺点是系统取决于词汇字典和资源和系统的性能取决于算法,分别。为了解决这个问题,提出了一个混合模型,使用机器学习算法(SVM, NB、LR和DT)和词汇的方法(SentiWordNet)。三个不同的数据集IMDB,亚马逊产品评论的数据集,数据集和Twitter用于分类和情感分析的目的。四个机器学习分类器的性能测试在使用和不使用词典的方法。结果表明,所有分类器的上下文中使用词典方法感知表现更好,记得,和准确性,但支持向量机和LR胜过所有。

(41)在他们的工作,多愁善感的正确性分析工作依赖于特定领域词典完全基于字典的正确性。为了解决这个问题,他们提出了一个方法使用情感特征从审查的片段,而不是整个评审条件随机域算法(CRF)。然后,他们将权重分配给特性不对称和应用支持向量机分类的目的。他们收集的数据来自两个资源。一个数据集是来自中国评论网站关于奥迪A4的车,和其他数据集收集关于三星S7手机从亚马逊网站。他们执行三种不同的实验和使用(CRF +不对称的加权支持向量机),(TDIDF + SVM),和(CRF + TDIDF + SVM),在1、2和3分别使用这两个数据集。实验后,结果清楚地表明,中国数据集的平均精度提高到90%,和英语的平均精度数据集也增加到91%使用条件随机域算法和不对称的权重。

(42)描述了工作,许多研究致力于通过机器学习使用文本情感分析,只是表情符号或图像。文字与表情符号的组合一直被忽视。因此,他们提出了一个模型和算法找到SA使用文本和表情符号。他们分析了文本和文本表情符号分别用毫升和DL和也的总和。他们对航空公司收集的数据来自Twitter的评论。他们还生成了表情符号,词典包含大大所有用户使用表情符号在Twitter和在他们的研究中使用它。他们使用SVM, NB、LR、随机森林,LSTM, CNN的机器学习和深度分析学习算法。LSTM和CNN优于所有算法精度为0.89,0.81,0.88,和0.79(文本+表情符号)和文本,分别。这清楚地表明,深入学习算法执行比机器学习算法。他们还他们提出的模型与现有模型相比,文本的准确性SA增加从57到78年,和准确性的文本和表情符号与模型提出了从65年到89年。

(43]SA进行研究药物的评论。他们在他们的研究中,医疗和健康状况评价分析研究不多的NLP和DM。他们提出两个命名为3 w1dt和3 w3dt融合模型。第一次融合模型的组合深度模型与传统的学习算法(格勒乌,CNN, 3 crnn NB, DT,射频,和资讯。和第二次融合模型有三个深模型与传统模型之一。他们使用药物评估数据集包含215063评论类看作是积极的,负的,中性的。实验数据集上执行时,第一个实验后在所有七种不同算法之间的NB执行好。第二个实验3 w1dt执行时,在所有3 crnn-nb执行好。第三个实验使用3 w3dt执行时,NB优于与第二融合模型精度高在所有。之后,他们将他们的最佳模型3 w3dt-nb现有模型,并提出模型精度为88.36%

(44]介绍了通用机器学习方法 - - - - - -克IDF特征提取。特征提取后,自动的ML工具被用于分配数据根据情绪。他们使用的数据集,其中包含文件相关的移动应用程序审查,堆栈溢出相关问题的答案,不同的评论Jira的问题。他们的分布式数据集转化为积极、中性和负面的子文档按他们的方法要求。首先,他们应用文本处理的数据集。之后,他们用 - - - - - -克IDF特征提取。然后,他们sklearn用于自动分类评论或评论到积极、消极,中性的。结果清楚地表明,他们提出了模型优于所有现有模型精度高的正确预测。在堆栈溢出,程序审查和Jira问题准确率是1317/1500,293/341,884/926。

(45]国家在他们的研究中,twitter数据对政治保持重视政党,他们从他们的tweets可以预测他们的支持者的观点。他们提出了一个模型,该模型使用了两个 - - - - - -克混合动力技术和NB分类的目的。该模型提高了精度和召回的准确性 - - - - - -克模型通过求解“零计数问题。“建议的方法进行情感分析,适用于两个两个阶段 - - - - - -克模型:least-order - - - - - -克模型和最高位 - - - - - -克模型。他们使用证明OMD麦凯恩(奥巴马)作为基准数据集。实验后,算法表现良好在所有先前的研究在相同的数据集上执行。这个模型增加76.14% unigram模型的准确性, - - - - - -克模型以67.00%,80.00%杂化模型。这表明使用unigram和 - - - - - -克模型相结合可以更准确地预测情绪。

(46)工作目标情绪分析,侧重于检测情绪在一个特定的主题。他们提到,先前的研究大多采用RNN与背景和目标词来检测目标的情绪。为了克服这个问题,本研究提出了一个模型称为注意力编码器网络。这个模型RNN远离我和使用注意相反,和模型使用层嵌入层,注意力编码器层,具体目标层,最后输出层。在这里,嵌入层进一步划分成两种类型命名为AEN-GloVe和AEN-BERT。他们三个数据集用于评估目的。SemEval 2014任务4包含餐馆评论和笔记本的评论。其他数据集命名为ACL 14包含Twitter数据。这些数据进一步划分为积极、中性和负面的。结果清楚地表明,他们提出的模型AEN-GloVe AEN-BERT, BERT-SPC表现得更好在所有分析方法。

(47]国家在他们的研究中,aspect-level分析认为重视但在这个研究领域的主要障碍是标记数据相对于aspect-level分析。因此,他们提出了一个模型称为转移胶囊网络(TransCap)。这基本上转移文档级别知识方面的知识。他们评估方法使用两个数据集的餐厅和笔记本评论来自SemEval 2014 task 4。对知识转移的目的文件,他们使用Yelp,亚马逊和Twitter的评论。后评估,结果清楚地表明,提出的方法达到79.5%和73.87%的准确率在餐厅和笔记本数据集,分别在所有分析技术。

(48DL)描述了他们的研究工作方法大大用于意见挖掘,情绪采矿、文档分类、文档聚类等等。他们为SA对DL模型进行了全面研究。CNN和LSTM主要关心的。他们分析了以前所有技术从土耳其获得土耳其电影评论的网站。他们用这些技术检查单词嵌入的影响,也开发了一些变异的CNN和LSTM模型通过改变层。实验后,结果清楚地表明,使用PWE (pretrained字嵌入)所有深度学习模型可以提高其准确性。是通过CNNLSTM测试精度最高的98%。

(49DL)评估模型假新闻检测使用Contraint@AAAI 2021 COVID-19假新闻检测数据集。使用分类算法依赖于CNN, LSTM bi-LSTM +关注,汉族(等级关注网络)BERT-base, DistilBERT。他们的目标是将虚假或真实的新闻。这个任务也被认为是作为文本分类任务。他们主要集中在写新闻,他们完全忘记了其他功能,如用户特征和社交圈子。伯特和DistilBERT方法pretrained COVID-19上微博语料库显示最佳的性能在所有其他,只有整合数据集。模型称为BERT-cased手动对准COVID-19 tweet语料库和与Covid-Twitter-BERT方法性能更好。汉表现最好的是所有nontransformer方法比较

(50能分类语句执行一个任务。他们执行多个测试与CNN上训练pretrained词向量字面意思分类任务。他们试着CNN组合(Word2Vec + CNN,手套+ CNN,艾尔摩+ CNN和伯特+ CNN)。结果清楚地表明,伯特+ CNN上执行比所有其他组合两个数据集,分别为:宣言项目语料库训练模型和冠状病毒(COVID-19)新闻发布会上语料库进行测试的性能模型。伯特+ CNN F1评分准确率达到68.65%和64.58%。

(51]在他的研究中,人类和监督检测错误的故事几乎是不可能完成的任务。模型与加工技术的进步,毫升、DL模型,和用户的参与可以将模式识别任务分配给计算机所取代,但它需要一个大型数据集的真实和虚假新闻。他收集周围的新闻这个词从2020年1月15日到2020年2月15日,但数据标记。删除不必要的数据和标签新闻文章后,数据集包含2426篇文章真1646篇文章贴上假的标签。分类实验后,LR达到75.65%的准确率,嵌入密集层达到86.93%的准确率,嵌入LSTM层达到86.9%的准确率,和bi-LSTM模型已经达到了72.31%的准确率。

(52国家在他们的研究中,假新闻在每个人的生活有重要的作用在这些天。个人的生活完全可以改变由于这些假COVID-19新闻。作者介绍了一个方法来检查真实和虚假新闻的观点基于COVID数据。他们执行文本分类模型基于额外的神经分类头由多个隐藏层。数据集由COVID-19英文内容从Twitter, Facebook,和Instagram。他们将数据集分为三个部分:火车,验证和测试。该模型优于在所有使用叠加,结合不同的神经和nonneural特性集。这个模型F1-score达到0.972。

(53]介绍了一种技术来检测冠状病毒的误导信息。他们的训练模式共享数据上的继电器COVID-19在不同的平台上使用不同的账户像谁,联合国儿童基金会、联合国和可靠的网站。他们建立了一个整体系统,利用多个DL技术检测误导性信息。他们还使用两个步骤来提高他们的系统的性能:数据准备和数据预处理与特征相结合工程的步骤。他们检查他们的模型使用14种不同的性能参数。结果是有前途的,包含精度高。(54]国家在他们的研究中,有大量误导COVID-19社交媒体数据。他们的研究提出了一个应用程序(CO-verified),使用机器学习和人力来访问消息的可信度。他们还训练bi-LSTM模型从GoAID 1275新闻金币和F1的分数达到0.93。

(55]阐述了社交媒体的影响我们的日常生活。他们还强调了误导性信息在社交媒体和它对我们生活的影响。他们提出了一个方法来检测假和真正的冠状病毒的消息。模型实现了F1的分数高,占据排行榜的第二位。他们使用生成的数据集(patwa et al ., 2020)包含文章和tweet来自Facebook、Twitter和Instagram。他们已经将数据集分为训练测试和验证部分。他们试着在这个数据集上不同的基线模型NB、支持向量机、LR、XGBoost。他们也使用不同的变压器模型。他们依勒克拉模型达到了0.9827 F1-score官方测试集。

(56)在他们的研究说,假新闻相关冠状病毒传播速度比真正的事实。这些假消息给高风险人们的生活。他们首先介绍coron病毒twitter数据集称为清洁技术基金,也通过提出一个模型来检测他们贡献更多的真实和虚假微博名为cross-SEAN (crossstitch-based semisupervised端到端神经注意力模型)。清洁技术基金的数据集包含了45.26 k tweet总共18.55 k的标记为真正的和26.71 k贴上假。他们比较的行为他们的模型与现有7个方法,及其实现模型优于所有的F1得分(0.9557]。假新闻已经获得巨大的普及的社会,商业和政治原因。新闻相关冠状病毒线下社区留下了很大的影响。在这些情况下,变得更重要的区分真实和假COVID-19新闻来避免这种危险的病毒的恐惧。他们使用生成的数据集从web关心二进制COVID-19假新闻的分类。他们应用预处理数据集和使用TF和IDF特征提取。使用决策树之后,他们训练模型和随机森林和评估他们的模型使用不同的参数。与射频分类器模型准确率达到94.49%和92.07%的准确率DT。

(58)应用古典ML算法结合多种语言特征包括可靠性、 - - - - - -克、标点和情感基调。他的研究使用不同的实验预处理步骤。系统的性能测量使用F1-score参数以及准确性,回忆,和精度。实验是进行不同的预处理和特征集。NB、射频、支持向量机、LR和多层感知器。模型,达到最高的性能是基于线性支持向量机与95.70% F1-score超过基准模型的数据集。第二个表现最佳模型逻辑回归F1-score为95.42%。

3所示。类型的分类算法

有许多机器学习分类算法和深度学习,可以在各种情况下可用。下面列出了主要的分类算法:

3.1。支持向量机(SVM)

支持向量机是一种毫升分类器应用于我们的研究。SVM同时适用于线性和非线性问题,并提供了可观的结果对于许多实际的应用程序(59]。支持向量机分割数据类的帮助下一条线/超平面。它最适合non-inear问题由于其函数称为内核,将低维输入空间和将其转换到高维空间。不久,支持向量机能够执行高度复杂的数据转换和数据分离到各自的类。

3.2。逻辑回归(LR)

LR是使用最广泛的分类算法之一。它是一个基于统计模型,利用向量的变量和发现重量为每个变量,在此基础上预测的类声明假新闻在COVID-19词向量的形式。LR因变量时只能用二分(二进制)。LR,之间没有线性关系的依赖和独立变量和自变量是正态分布和方差相等的在一组(60]。

3.3。朴素贝叶斯

NB概率分类器是基于贝叶斯定理。它的流行的主要原因是它的简单性,准确性和可靠性。它已经应用于各种实际的应用程序,但它发现大多数应用程序在自然语言处理问题。NB的基本假设是每个特性使得结果的平等和独立的贡献,这就是为什么NB叫做“天真。“计算的概率属性使用前可能与该属性的信息。

3.4。演算法

演算法也被称为自适应提高第一推动机器学习算法。推动算法是众所周知的懒惰学习转化为积极的学习态度(61年]。它主要用于提高懒惰学习者通过训练他们的预测能力。演算法结合多个缓慢的学习者,使一个强大的学习者。它是迭代。最初,所有实例被分配的重量和在接下来的迭代中,错误地分类实例的权重更新;因此,正确分类实例的重量减少,更进一步的实例的重量增加。

3.5。 - - - - - -神经网络

资讯分类算法分类实例的最近邻多数票。找到最近邻分类器使用的距离度量和发现你的邻居的最小距离。之间的距离被测试实例和实例的所有训练。使用已知的距离可以测量距离等措施欧几里得距离(62年]。收获一个特定的值是使用所有最近邻训练例子然后需要哪一个出现大多数预测价值和数量分类新测试数据集。然而,给高度准确的预测;因此,它是用于需要高精度的应用程序。

3.6。决策树

决策树代表决定在叶子的树形式标记与类属性和内部节点表示的属性描述形式。它们是最流行的数据挖掘中。它是由倒与根节点。他们非常容易和简单的解释,这最主要的原因是使用。对于一个给定的节点 ,的孩子 对应于相关联的所有可能的值的属性。他们是强大的噪声数据。该算法首先选择最好的特征产生的大多数信息分类的过程。过程将结束时,所有的叶子节点成为纯(属于同一类的所有实例)或当不需要额外的分类(63年]。

3.7。随机森林(RF)

射频狮子座Breiman和阿黛尔卡特勒在2001年提出的是一个著名的机器学习分类器。它是一个整体的方法,通过结合子空间的概念和“装填”[64年]。射频的决策树构建一组可用的训练数据集(65年]。标签是决定在收集选票来自多个决策树。这是一个最好的准确分类大型数据集的分类算法。射频的应用包括药物发现、遥感、网络入侵检测、遥感。

3.8。多层感知器

延时子部分从前馈人工神经网络(ANN)。安的现象反映了所有人类的大脑工作。大脑接收输入的方式,理解它,生成响应的主要灵感安。安可以通过输入数据和相关所需的输出变量。感知器是人工神经网络的基本单元。每一个感知器需要使用一些激活函数加权输入并生成输出。他们有多个现有的应用程序作为字符识别、数据压缩、模式识别、计算机视觉、语音识别、和蛋白质二级结构。

3.9。卷积神经网络(CNN)

增加中长期规划的参数数量及其复杂架构复杂的使用。介绍了深度学习,以减少这些越来越多的参数。深度学习的最受欢迎的课是CNN。过去十年以来,它已经被用于模式识别和图像处理等各个领域。获得的抽象特性作为输入对深层传播。他们所使用的主要优点是,小预处理相比与其他图像分类算法。CNN的主要问题是不能上实现时态数据。

3.10。递归神经网络(RNN)

RNN用于处理连续数据和识别模式。创建RNN背后的主要思想是利用它来处理时态数据。就像安,RNN与三个不同的神经元层(输入、隐藏和输出)。区别于传统安在于隐藏层。这一层有一个时间循环,使RNN不仅产生输出,还喂这个输出。通过这种方式,他们开发短期记忆。他们记得序列;由于这种能力,他们有广泛的使用在各个领域。他们在NLP中的应用,机器翻译、语音识别、文本摘要。

3.11。长短期记忆(LSTM)

LSTM是一种人工神经网络用于复发深度学习技巧。前馈神经网络没有反馈连接但LSTM hasthem。它可以处理单个数据点像一个图像或一个词,整个就像整个视频序列或整个文本。它由输入门,忘记门,输出门,和细胞。细胞持有剩余价值为每个间隔而盖茨的细胞内外信息的控制流。RNN患有消失在反向传播梯度问题,权重是通过梯度升级。盖茨LSTM解决这个问题通过使用内部结构,调节内部和外部的细胞如前所述。广泛应用于语音分析、文本生成和语音识别。

3.12。封闭的复发性单元(格勒乌)

格勒乌被Kyunghyun秋2014年推出。就像LSTM加上忘记门,但却不如LSTM约束。我们也可以把它描述成一种封闭RNN的现象。最好表明其性能或等于长期短期记忆在许多任务,如语音和音乐信号模型以及NLP的任务,但它分析了显示良好的和准确的性能上更少的数据集。它还消除了梯度问题的消失问题使用更新和重置盖茨现象。这些门是向量和决定哪些信息应该显示为输出的一部分,而这些盖茨可以容纳的无关信息很长一段时间是它的特色。如果他们被训练得很好,他们可以在复杂的数据集产生高度精确的结果。格勒乌被很多研究者在许多现实世界的问题。

4所示。方法

方法论的方法可以归纳为四个主要步骤:

4.1。数据集

本研究工作中使用数据集标题是“COVID假新闻数据集”由(苏米特Banik, 2020)和发表冠状病毒病研究Community-Covid-19。数据集包含10202个COVID假新闻分享在社交媒体平台包括Facebook、Instagram帖子,和社交媒体新闻关键词COVID-19、冠状病毒、流感大流行。数据集被组织在两列。第一列标题是标题,第二列标题是结果。第一列包含字符串属性,第二个包含二进制0和1的标签。O显示标题是假,1表示标题是真实的。

4.2。数据预处理

假新闻在预处理步骤COVID-19必须清洗;在这个阶段,我们应用一些清洗和过滤技术在这些假新闻等COVID-19删除链接,标识符,删除单词包含数小于3个字符,和过滤空词。

4.3。向量化的数据

文本数字向量的转换,因为大多数自动学习算法不采取文本直接但是数字向量执行转换的文本根据bag-of-words技术与数字向量TF-IDF方法计算每个单词的分数。

4.4。分类模型构建

我们选择最有效的分类算法根据结果,然后我们建立分类模型。

4.5。模型评估和测试

分类模型的训练和评估性能的措施(混淆矩阵、分类率)一组测试数据,测试模型表示一组非保密COVID-19假新闻,来预测每个假新闻的情绪类在这个集合中COVID-19。图1显示了我们的分类系统的体系结构。

评估性能的目的,我们有五个指标计算。精度之间比例的相关情况下重新出现,在召回基本上是分工的相关文档恢复的总和。我们计算的平均查全率和查准率,称为F1-score。另一方面,混淆矩阵测量不同参数用来评估分类算法的性能。

根据这一研究获得的结果,来分析虚假新闻的感受COVID-19使用文本挖掘和数据挖掘技术,我们使用了13个不同的分类器:随机森林,支持向量机, - - - - - -最近的邻居,朴素贝叶斯、逻辑回归、决策树演算法,简要,CNN, LSTM, Bi-LSTM,格勒乌,RNN。从不同的措施的比较,我们发现BiLSTM和CNN执行比其他学习方法,即使机器学习算法给出一个好的准确性,但CNN和BiLSTM是最有效的,因为他们给了一个非常高的准确性为97%。因此,我们发现CNN和BiLSTM最有效的分类器构建一个模型分类COVID-19情绪假新闻。我们的自动学习模型只能处理数值向量或矩阵。准备我们的假新闻COVID-19自动学习模型中,我们创建一个逆文档频率向量化(TF-IDF)。向量化的结果是一个中空的矩阵,包含每个句子的表示一个向量,和向量具有相同的长度作为我们的词汇,即。,所有的单词的列表中观察到我们的学习数据,每一个字代表一个条目的向量。

评估模型的性能,我们将一个单独的测试集上执行一个测试,估计广义模型的性能。

1显示8个分类模型,验证使用精度等评价指标,回忆,和F1-score,而表2显示了这些结果与相应的宏观和加权平均。

3显示五个深度学习算法的结果表4显示深度根据精度上优于模型结果,召回,F1-score。实验的结果表明,CNN和BiLSTM表现等各个方面的执行时间,非敏感异常值,减少噪音。使用分类算法获得的结果完全使用真实的样品获得可靠的存储库。对所有实验在本节中,是基于显示的性能测试数据集。

数据2- - - - - -14解释数据集已经由数据分析处理技术和可视化工具用于应用颜色的条形图来表示高度和宽度称为热图。它是非常有用的可视化之间的集中值矩阵的两个维度,并帮助寻找模式和视角的深度。在这里,我们应用一个热图观察数据。因此,广义的数值为我们的数据集。在我们的例子中,热量地图显示各种属性。

数据1516演示性能指标:精度、召回和F1-score范围从0到1。每当系统表现良好,值是1。

5。比较讨论

所有基于机器学习模型的结果,测试中可以看到上述数据和表。所有分类器的表现非常优秀;尽管如此,某些分类器的表现在精度方面,记得,f1-score和准确性,相比其他机器学习分类器。我们已经测试了各种模型在大数据集包括COVID-19假新闻。我们已经将我们的数据集分成两半,一个用于培训和一个用于测试,以下列方式:每个80%和20的虚假新闻,分别。 - - - - - -最近邻、多层感知器和随机森林是最精确的机器学习分类器,准确率达到了97%。96%的准确率达到使用逻辑回归、决策树、支持向量机,和演算法,而天真的贝叶斯获得了95%的准确率。当我们分析的准确性、召回和f1-score,精确地随机森林的地位至高无上,回忆,和f1-score 0.99, 0.98,和0.98,分别。多层感知器与准确性名列第二,召回,f1-score 0.98, 0.98,和0.98,分别。

6。比较讨论

基于深度学习分类器的结果可以发现前面描述的表和数据。在这个研究中,我们采用5基于深度学习分类器包括LSTM BiLSTM格勒乌,RNN, CNN。我们使用各种测量他们的性能测量,如精度、回忆,准确性,F1-score。结果显示,CNN和BiLSTM得分97%的最大精度这些常用的分类器。另一方面,LSTM格勒乌,RNN实现了95%的准确率。结果清楚地表明,深度学习分类器都是优秀的在一个特定的主题分类虚假新闻。这些分类器也最有效的时间,速度,和处理。CNN和BiLSTM精度、召回和F1-score增加了0.97,0.97,和0.97,分别虽然LSTM, RNN,格勒乌提高其准确性,回忆,和F1-score 0.91, 0.95,和0.93,分别。

7所示。结论

在我们的研究中,八个机器学习算法如朴素贝叶斯、演算法, - - - - - -最近的邻居,随机森林、逻辑回归、决策树、神经网络、支持向量机和四个深度学习CNN, LSTM, RNN,格勒乌是用来检测情绪在COVID-19假新闻。我们审计的各种技术和从一个可靠的库进行了数据集实验找到或适应的最佳分类器情绪分析。此外,分析了该系统在精度、回忆,F1-score所有算法。

在未来,我们的目标是使用一个庞大而复杂的数据集,和标签的数量也会增加。我们也可以包括其他语言和使用特殊字符和数值。是有价值的包含表情符号被广泛应用于社会媒体代表表达式。同时,我们将尝试使用Twitter流API来检索实时tweets为了做一个真正的情感分析和探索其他社交网络的时间。

数据可用性

这项工作是女士的一部分论文的学生。数据不可用,直到论文答辩。如果任何疑问,请让我知道。

的利益冲突

作者宣称没有利益冲突。