复杂性

在这一页上

文摘介绍材料和方法结果与讨论结论数据可用性的利益冲突引用版权相关文章

研究文章|开放获取

体积2020年| 文章的ID8885861| https://doi.org/10.1155/2020/8885861

假新闻使用机器学习整体方法检测

伊夫提哈尔•艾哈迈德 ,¹ 默罕默德Yousaf,¹ Suhail Yousaf ,¹ 和默罕默德Ovais艾哈迈德 ²

学术编辑器: m . iran Uddin

收到了 2020年9月04

修改后的 2020年9月14日

接受 2020年9月16日

发表 2020年10月17日

文摘

万维网的出现和快速的采用社会媒体平台(比如Facebook和Twitter)铺平了道路信息传播在人类历史上从来没有见过。与当前使用的社会媒体平台,消费者比以往任何时候都创建和分享更多的信息,其中一些误导,没有与现实之间的关系。自动文本分类的文章错误或虚假信息是一项非常具有挑战性的任务。甚至一个专家在一个特定的域有探索多个方面给予定论之前一篇文章的真实性。在这项工作中,我们建议使用机器学习整体方法自动分类的新闻文章。我们的研究探讨了不同的文本属性,可以用来区分虚假内容真实。通过使用这些属性,我们训练不同的机器学习算法的组合使用各种4日整体方法和评估他们的表现现实世界的数据集。实验评价证实了我们提出的性能优越合奏学习者的方法相比,个体学习者。

1。介绍

万维网的出现和快速的采用社会媒体平台(比如Facebook和Twitter)铺平了道路信息传播在人类历史上从来没有见过。除了其他用例,新闻媒体受益广泛使用的社会媒体平台通过提供近乎实时的更新新闻的用户。小报,新闻媒体从报纸和杂志等数字形式在线新闻平台、博客、社会媒体提要,和其他数字媒体格式1]。它成为消费者更容易获得在他们的指尖的最新消息。Facebook推荐占新闻网站流量的70% (2]。这些社交媒体平台的当前状态非常强大和有用的能力允许用户讨论和分享想法和争论诸如民主、教育和健康。然而,这样的平台也使用消极的角度一般由某些实体货币收益(3,4)和创建有偏见的观点,在其他情况下操作心态,传播讽刺或荒谬。这种现象通常被称为假新闻。

有快速增加假新闻的传播在过去的十年中,特别是在2016年美国大选(5]。分享文章在线扩散,不符合事实导致了许多问题不仅限于政治但覆盖各种其他领域如体育、卫生、科学(也3]。这样一个领域受到假新闻是金融市场6),谣言会带来灾难性的后果,可能会带来市场陷入停顿。

我们的能力决定我们消费主要依赖的类型信息;我们的世界观是形状信息的基础上我们消化。有越来越多的证据表明,消费者对荒谬的新闻,后来被证明是假的7,8]。最近的一个案例是新型冠状病毒的传播,在互联网上传播的虚假报道的起源、性质和行为的病毒(9]。情况恶化,因为更多的人读到网上虚假内容。确定这样的在线新闻是一项艰巨的任务。

幸运的是,有许多计算技术,可用于某些文章标记为假的基础上他们的文本内容10]。大多数的这些技术使用事实检查网站如“PolitiFact”和“Snopes网站。”有很多库维护的人员,包含的网站列表被认为是模棱两可的和假的11]。然而,这些资源的问题是,人类的知识是需要识别文章/网站是假的。更重要的是,检查网站包含文章特定领域如政治和不通用识别假新闻文章从多个域,如娱乐、体育、和技术。

万维网包含数据以各种不同的格式,如文档、视频和音频。新闻发表在一个非结构化的格式(如新闻、文章、视频和音频)相对难以检测和分类这种严格要求人类知识。然而,计算技术,如自然语言处理(NLP)可用来检测异常,单独的一个文本文章本质上具有欺骗性的,从文章基于事实的12]。其他技术涉及的分析虚假新闻的传播与真正的新闻(13]。更具体地说,本文方法分析如何假新闻传播的不同网络相对于真正的文章。响应,一篇文章可以分化在理论层面上对这篇文章进行分类是真是假。更混合的方法也可以用来分析一篇文章的社会反应以及探索文本特性来检查是否在本质上具有欺骗性的一篇文章。

大量的研究主要集中在检测和分类的假新闻Facebook和Twitter等社交媒体平台(13,14]。在概念层面上,假新闻被分为不同的类型;然后扩展到知识归纳机器学习(ML)模型对多个域10,15,16]。艾哈迈德的研究等。17)包括从文本中提取等语言特征字格的文章和训练多个毫升模型包括再(资讯),支持向量机(SVM),逻辑回归(LR),线性支持向量机(LSVM),决策树(DT)和随机梯度下降法(SGD),实现最高精度(92%)与支持向量机和逻辑回归。根据研究的数量在增加 - - - - - -克计算特定文章,总体精度下降。现象一直在观察学习模型用于分类。蜀et al。12)取得更好的与不同的模型精度,结合文本功能和辅助信息,比如用户社交媒体的社会活动。作者还讨论了社会和心理理论和他们如何可以用于在线检测虚假信息。进一步,作者讨论了模型结构的不同的数据挖掘算法和技术共享的特征提取。这些模型都是基于知识,如写作风格和立场和传播等社会背景。

另一个方法是紧随其后的是王(18]。作者文本功能和元数据用于训练各种毫升模型。作者主要关注使用卷积神经网络(CNN)。卷积的一层是用来捕获元数据向量之间的依赖性,紧随其后的是一个双向LSTM层。max-pooled文本表示是连接元数据从双向LSTM表示,这是美联储完全连接层与softmax激活函数来生成最终的预测。是在数据集上进行的研究从政治领域包含语句从两个不同的党派。连同一些元数据,如主题,演讲者,工作,国家,党,上下文,还包括和历史特性集。精度27.7%实现组合的功能,如文本和演讲者,而27.4%的准确率是通过结合所有不同的元数据元素和文本。有竞争力的解决方案提供了里德尔et al。19),这是一种姿态检测系统分配的四个标签的一篇文章,“同意”,“不同意”,“讨论”或“无关”,根据文章标题和文章文字的一致性。作者使用的语言属性的文本如项频率(TF)和项frequency-inverse文档频率(TF-IDF)特性集,和一个多层感知器(MLP)分类器是使用一个隐藏层和softmax最后一层的输出函数。数据集包含的文章标题,身体,和标签。“不同意”的标签上的系统精度测试例子很穷,而它执行最好的关于“同意”的标签。作者使用了一个简单的延时与一些微调hyperparameters达到88.46%的整体精度。蜀et al。12]还讨论了几个品种的真实性评价方法在线检测假新闻。两个主要类别的评估方法研究:一个是语言提示方法,另一个是网络分析方法。两者的结合创造了一个更健壮的混合方法对假新闻在线检测。语言方法涉及深层语法、修辞结构和话语分析。使用这些语言的方法来训练支持向量机等分类器或朴素贝叶斯模型。基于网络的方法包括分析和处理社交网络行为和关联数据。一个独特的方法是紧随其后的是Vosoughi et al。13]探索新闻传播在社会媒体的属性;即。,the authors discussed the spread of news (rumors) on social media such as Twitter and analyzed how the spread of fake news differs from real news in terms of its diffusion on Twitter. Multiple analysis techniques are discussed in the paper to explore the spread of fake news online, such as the depth, the size, the maximum breadth, the structural virality, the mean breadth of true and false rumor cascades at various depths, the number of unique Twitter users reached at any depth, and the number of minutes it takes for true and false rumor cascades to reach depth and number of Twitter users.

1.1。我们的贡献

在当前的假新闻语料库,有多个实例,监督和非监督学习算法用于文本分类(20.,21]。然而,大多数的文献侧重于特定的数据集或域,特别是政治域(10,19,21]。因此,该算法训练效果最好在特定类型的文章的领域,不达到最优结果当暴露于其他领域的文章。从不同领域的文章有一个独特的文本结构,很难训练效果最好的通用算法在所有领域特定的消息。在本文中,我们提出一个解决方案使用机器学习合奏的假新闻检测问题的方法。我们的研究探讨了不同的文本属性,可以用来区分虚假内容真实。通过使用这些属性,我们训练不同的机器学习算法的组合使用各种合奏方法不彻底的探索在当前文学。合奏学习者已被证明是有用的在各种各样的应用程序中,随着学习模型倾向于减少错误率通过使用技术,如装袋和提高22]。这些技术促进不同的机器学习算法的训练在一个有效和高效的方式。我们也进行了广泛的实验4现实世界公开的数据集。结果验证我们提出的改进的性能技术使用4常用的性能指标(即精度、精度、召回和f - 1分)。

2。材料和方法

在下面,我们描述我们提出框架,其次是算法的描述,数据集和性能评价指标。

2.1。提出了框架

在计划的框架,如图1,我们正在扩大对当前文学通过引入整体技术与各种语言特性集分类新闻文章从多个域或真或假的。整体技术语言调查和单词计数(LIWC)的特性集用于这项研究是我们建议的方法的新颖性。

有许多著名的网站发布合法的新闻内容,和其他一些网站比如PolitiFact和Snopes网站用于检查。此外,还有开放存储库维护的人员(11保持一个最新的现有数据集列表和潜在的事实检查网站的超链接,可以帮助消除虚假新闻传播。然而,我们选择三个数据集实验包含来自多个领域的新闻(如政治、娱乐、科技、和体育)和包含一个混合的真实和虚假的文章。数据可以显示在线,从万维网。第一个数据集是ISOT假新闻数据集(23];第二个和第三个数据集在Kaggle公开(24,25]。中提供了一个数据集的详细描述部分2。5。

万维网的语料库收集预处理后作为输入用于训练模型。文章的不必要的变量,比如作者、日期发布URL,和类别都过滤掉。文章正文或有不到20个单词在文章中身体也会被删除。多列的文章转变成单一列文章格式和结构的均匀性。所有数据集上执行这些操作实现一致性的格式和结构。

一旦数据清理后的相关属性选择和探索阶段,下一步涉及语言特征的提取。语言特征涉及某些文本特征转换为数值形式,这样它们可以作为输入用于训练模型。这些特性包括百分比的话暗示正面或负面情绪;比例的停止词;标点符号;虚词;非正式的语言;和比例的某些语法用于句子,如形容词、介词和动词。完成从语料库提取的特性,我们使用了LIWC2015工具将文本分为不同的离散和连续变量,其中一些是上面提到的。LIWC工具从任何给定的文本提取93种不同的特性。 As all of the features extracted using the tool are numerical values, no encoding is required for categorical variables. However, scaling is employed to ensure that various feature’s values lie in the range of (0, 1). This is necessary as some values are in the range of 0 to 100 (such as percentage values), whereas other values have arbitrary range (such as word counts). The input features are then used to train the different machine learning models. Each dataset is divided into training and testing set with a 70/30 split, respectively. The articles are shuffled to ensure a fair allocation of fake and true articles in training and tests instances.

不同的学习算法训练hyperparameters达到最大精度对于一个给定的数据集,与方差之间的优化平衡和偏见。每个模型与一组不同的参数训练多次使用一个网格搜索优化模型为最好的结果。使用一个网格搜索来找到最好的参数是计算昂贵的(26];然而,采取的措施是确保模型没有overfit或underfit数据。

小说研究,装袋等各种集成技术提高,投票分类器性能的评价研究在多个数据集。我们使用两个不同的投票分类器组成的三种学习模式:第一个分类器投票是一个逻辑回归,随机森林,和资讯,而第二个投票分类器由逻辑回归、线性支持向量机,分类和回归树(CART)。用于训练分类器投票的标准是培养个体模型的最佳参数,然后测试输出的模型的基础上,选择标签的基础上主要投票通过这三个模型。我们已经训练一个装袋合奏100决策树组成的,而使用两种提高整体算法、XGBoost和演算法。一个k倍(k= 10)交叉验证模型用于合奏的学习者。使用的学习模型详细描述部分2。2。评估每个模型的性能,我们使用精度,精度、召回和F1得分指标中讨论部分2。6。

2.2。算法

我们使用以下学习算法结合我们建议的方法来评估假新闻检测分类器的性能。

2.2.1。逻辑回归

因为我们是文本分类的基础上广泛的特性集,与一个二进制输出(真/假或真正的文章/假的文章),使用逻辑回归(LR)模型,因为它提供了直观的方程分类问题转化为二进制或多个类27]。我们执行hyperparameters调优为所有单个数据集得到最好的结果,而多个参数进行测试之前获得最大的从LR模型精度。数学,逻辑回归假设函数可以定义如下27]:

逻辑回归使用乙状结肠函数变换输出概率值;目标是最小化代价函数达到最优的概率。计算成本函数所示

2.2.2。支持向量机

支持向量机(SVM)是另一个模型二元分类问题,可用在各种内核函数(28]。SVM模型的目标是估计一个超平面(或决策边界)特性集的基础上进行分类的数据点(29日]。超平面的尺寸根据不同特征的数量。因为可能有多个超平面存在的可能性N维空间,任务是识别飞机区分两类数据点的最大利润。成本函数的数学表示支持向量机模型中给出的定义是(30.所示), 这样

上面的函数使用一个线性内核。内核通常用于数据点,不容易分离或多维的数据点。在我们的例子中,我们使用乙状结肠SVM,内核支持向量机(SVM)多项式,高斯SVM,和基本的线性支持向量机模型。

2.2.3。多层感知器

多层感知器(MLP)是一个人工神经网络,与一个输入层、一个或多个隐含层和一个输出层。延时可以简单的三层;然而,在我们的实验中我们已调整了模型的各种参数和层数来产生一个最佳的预测模型。一个基本的多层感知器模型与一个隐层可以表示为一个函数如下所示31日]: 在这里,偏差向量,权重矩阵,和是激活函数。在我们的例子中,激活函数是ReLU亚当解算器,与3个隐藏层。

2.2.4。K最近的邻居(资讯)

资讯是一种无监督的机器学习模型,不需要一个因变量预测结果在一个特定的数据。我们提供足够的训练数据模型和让它决定特定社区一个数据点所属。资讯模型估计一个新的数据点的距离其最近的邻居,和的值K估计大多数邻国的选票;如果该值的K是1,那么新的数据点分配给一个类最近的距离。的数学公式来估计两个点之间的距离可以计算如下(31日]:

2.3。合奏学习者

我们建议使用现有的整体技术和文本特征作为特征输入提高整体精度为目的的分类之间的真实和虚假的文章。合奏学习者倾向于有更高的精度,因为不止一个模型训练使用一个特定的技术来减少错误率,提高整体性能的模型。整体建模背后的直觉是同义的,我们已经习惯在我们的日常生活中,如请求多个专家的意见采取特定的决定之前为了最小化的机会一个糟糕的决定或不受欢迎的结果。例如,可以训练一个分类算法在一个特定的数据集与一组独特的参数可以产生一个与数据的吻合程度在一定程度上决定边界。这个算法的结果不仅取决于提供的参数训练模型,但也对训练数据的类型。如果训练数据包含更少的方差或统一的数据,那么该模型可能overfit,在看不见的数据产生偏见的结果。因此,交叉验证等方法用于最小化过度拟合的风险。大量的模型可以在不同的参数来创建多个决定边界随机选择的数据作为训练数据。因此,利用集成学习技术,这些问题可以得到解决和减轻通过训练多个算法,和他们的研究结果可以为附近的最优组合的结果。其中一个方法是使用分类器投票,最终的分类取决于所有提供的主要投票算法(32]。然而,还有其他的集成技术,在不同的场景中可以使用如以下。

2.3.1。随机森林(RF)

随机森林(RF)是一种先进的决策树形式(DT)也是一个监督学习模型。射频工作分别由大量的决策树预测类的一个结果,最后预测是基于一个类,获得多数选票。随机森林的错误率低与其他模型相比,由于低树之间的相关性(33]。我们使用不同的参数训练随机森林模型;即。,different numbers of estimators were used in a grid search to produce the best model that can predict the outcome with high accuracy. There are multiple algorithms to decide a split in a decision tree based on the problem of regression or classification. For the classification problem, we have used the Gini index as a cost function to estimate a split in the dataset. The Gini index is calculated by subtracting the sum of the squared probabilities of each class from one. The mathematical formula to calculate the Gini index ( )如下(34]:

2.3.2。装袋系综分类器

引导聚集,或简言之装袋分类器,是早期合奏方法主要用于降低方差(过度拟合)在训练集。随机森林模型是一种最常用的变体装袋分类器。直观地说,对于一个分类问题,装袋模型选择类的基础上主要的票估计数量的树木减少总体方差,而每棵树的数据选择用随机抽样从整体数据集替换。对于回归问题,然而,装袋平均多个估计模型。

2.3.3。提高整体分类器

提高是另一个广泛使用的整体方法训练弱模型成为强的学习者。为此,随机树的森林是训练,最后预测是基于每棵树的多数投票的结果。这种方法允许弱学习者正确分类数据点的增量方法通常被误诊。最初平等加权系数是用于所有数据点对给定的问题进行分类。连续几轮,加权系数下降的数据点增加正确分类和分类错误的数据点(35]。每个后续的树形成在每一轮学习减少前一轮的错误和正确地增加总体精度分类是不是在前几轮的数据点。提高整体的一个主要问题是,它可能overfit训练数据对看不见的情况下(这可能会导致不正确的预测36]。有多个增强算法可用,可用于分类和回归的目的。在我们的实验中我们使用XGBoost [37和演算法38]算法分类的目的。

2.3.4。系综分类器投票

投票合奏一般用于分类问题因为它允许两个或两个以上的学习模型的组合训练在整个数据集39]。每个模型预测结果的样本数据点被认为是“投票”的模型预测的类。一旦每个模型预测结果,最终的预测是基于多数人投票给一个特定的类32]。投票合奏,装袋和提高算法相比,更简单的实现。如前所述,装袋算法创建多个子集的数据的随机抽样和更换整个数据集,从而创建一个数据集的数量。每个数据集用于训练模型,而最终的结果是一个聚合的每个模型的结果。在增加的情况下,多个模型训练的顺序,每个模型较前增加重量的更进一步的学习点,从而创建一个通用模型能够正确分类的问题。然而,投票合奏另一方面是多个独立的组合模型,产生分类结果导致整个预测多数投票。

2.4。基准算法

在本节中,我们将讨论我们比较的基准算法性能的方法。

2.4.1。线性支持向量机

我们使用线性支持向量机的方法提出了21]。以确保一个有意义的比较,我们训练有素的特性集的线性支持向量机中讨论(21用5倍交叉验证)。注意,这种方法被称为Perez-LSVM文本。

2.4.2。卷积神经网络

王(18)卷积神经网络(CNN)用于自动检测的假新闻。我们使用同样的方法使用数据集。然而,我们不能使用的特性集王(18]随着数据集只包含简短的语句。这种方法被称为Wang-CNN文本。

2.4.3。双向长期短期记忆网络

王(18)也使用双向长期短期记忆网络(Bi-LSTM),我们使用同样的方法,不同的特性集。这种方法被称为Wang-Bi-LSTM文本。

2.5。数据集

我们在这项研究中使用的数据集是开源和免费在线。数据包括虚假和真实的新闻文章从多个领域。真实的新闻文章发表包含真正的描述真实世界的事件,而假新闻网站包含声称与事实不一致。声称来自政治领域的整合这些文章可以手动检查事实检查网站如politifact.com和snopes.com。在这项研究中,我们使用三个不同的数据集提供的简要描述如下。

第一个数据集被称为“ISOT假新闻数据集”(23](以下称为DS1)包含真实和假文章从万维网。真正的文章从reuters.com,这是一个著名的新闻网站,而假文章从多个数据源中提取,基本上由politifact.com网站的标记。数据集包含一个共44898篇文章,其中21417是真实的文章和23481假文章。总全集包含来自不同领域的文章,但是最显著目标政治新闻。

第二个数据集可以在Kaggle [24)(以下称为DS2)总共包含20386篇文章用于培训和5126篇文章用于测试。来自多个源的数据集是建立在互联网上。文章并不局限于单个域如政治包括假药和真正的文章从各种其他领域。

第三集是也可从Kaggle [25](以下称为DS3);它包括共3352篇文章,假药和真实的。真正的文章从值得信赖的在线资源如CNN,路透社报道,纽约时报,和各种人,假新闻文章提取不可信的新闻网站。它覆盖的领域包括体育、娱乐和政治。

联合数据集收集文章的三个数据集(以下称为DS4)。的文章不同性质在每个数据集,第四创建数据集来评估算法的性能数据集上涵盖了广泛的领域在一个数据集。

2.6。性能指标

评估算法的性能,我们使用不同的度量。他们中的大多数是基于混淆矩阵。混淆矩阵的表格表示分类模型的性能测试集,由四个参数:真阳性、假阳性,真阴性和假阴性(见下表1)。

2.6.1。精度

精度往往是最常用的指标代表的比例正确预测观察,或真或假。计算模型的精度性能,可以使用以下方程:

在大多数情况下,精度高值代表一个好的模型,但考虑到我们训练一个分类模型在我们的例子中,一篇文章被预测为真而实际上是假(假阳性)可以有负面影响;同样的,如果一篇文章被预测为假虽然包含实际的数据,这可以建立信任的问题。因此,我们使用三个其他指标考虑了错误分类的观察,即。、精密、召回和F1-score。

2.6.2。回忆

召回代表积极的总数分类正确的类。在我们的例子中,它代表的文章数量总数的预测是真正的真正的文章。

2.6.3。精度

相反,精确的分数代表了真正的阳性的比率预测所有事件是真实的。在我们的例子中,精确显示文章的数量标记为真正的所有积极的预测(真正的)文章:

2.6.4。F1-Score

F1-score代表之间的权衡精度和召回。计算每两个之间的调和平均数。因此,它需要假阳性和假阴性的观察。F1-score可以使用以下公式计算:

3所示。结果与讨论

表2总结了每种算法精度通过四个数据集。很明显,最大精度达到在DS1 (ISOT假新闻数据集)是99%,通过随机森林算法和Perez-LSVM。线性支持向量机,多层感知器,装袋分类器,提高分类器实现了98%的准确性。合奏学习者的平均精度达到97.67% DS1、为个人学习者而相应的平均是95.25%。个体学习者和合奏学习者之间的绝对差是2.42%并不重要。基准算法Wang-CNN和Wang-Bi-LSTM表现不如其他算法。在DS2、装袋分类器(决策树)和提高分类器(XGBoost)表现最好的算法,实现94%的准确性。有趣的是,线性支持向量机,随机森林,Perez-LSVM DS2表现不佳。个体学习者报道的准确性47.75%,而整体学习者的准确性为81.5%。类似的趋势是观察DS3,个体学习者的精度是80%而合奏学习者的准确性为93.5%。 However, unlike DS2, the best performing algorithm on DS3 is Perez-LSVM which achieved an accuracy of 96%. On DS4 (DS1, DS2, and DS3 combined), the best performing algorithm is random forest (91% accuracy). On average, individual learners achieved an accuracy of 85%, whereas ensemble learners achieved an accuracy of 88.16%. The worst performing algorithm is Wang-Bi-LSTM which achieved an accuracy of 62%.

图2总结了以上算法的平均精度4数据集。总的来说,表现最好的算法是装袋分类器(决策树)(精度为94%),而表现最差的算法Wang-Bi-LSTM(精度为64.25%)。个体学习者的精度是77.6%而合奏学习者的准确性为92.25%。随机森林取得更好的在所有数据除了DS2准确性。然而,准确性分数本身并不是一个好的测量来评估模型的性能;因此,我们也评估性能的学习模型的基础上,还记得,精密,F1-score。

表3- - - - - -5总结召回、精度和F1的算法在所有四个数据集。的平均精度(表3),提高分类器(XGBoost)取得最好的结果。提高分类器的平均精度(XGBoost)在所有四个数据集是95.25%。随机森林(RF)达到79.75%的精度;然而,在三个数据集(消除得分最低的数据集,即。DS2),随机森林的平均精度跃升至96.3%。相应的分数提高分类器(XGBoost)是96.3%。

基于召回性能指标,装袋分类器实现召回(决策树)是最好的得分为0.942。这是紧随其后的是提高分类器(XGBoost)达到0.94召回。在基准算法,发现Perez-LSVM表现最佳算法,实现召回得分为0.92分。算法表现出类似的性能行为F1-score的精度。提高分类器(XGBoost) F1-score 0.945,最好的在所有的技术,其次是装袋分类器(决策树)和逻辑回归(LR)。

图3是一个图形表示的平均学习算法的性能在所有数据集使用精度,召回,F1-score。可以看出,没有多少区别的性能使用各种性能指标除了线性支持向量机学习算法,然而,Wang-CNN, Wang-Bi-LSTM。

合奏学习者XGBoost表现更好相比其他学习模型在所有性能指标。导致XGBoost的优越性能的主要因素是有效的工作原理识别错误和减少他们在每个迭代中。背后的基本直觉XGBoost的工作是使用多个分类和回归树(CART),结合多个弱分类错误将更高的权重分配给学习者数据点。因此,在每次迭代中,模型能够正确识别分类错误的点,而正则化参数用于减少过度拟合问题。

逻辑回归是一个相对简单的模型,但实现了平均超过90%精度的三个数据集(DS1, DS2、以及DS3)。可以有多个解释实现平均精度高;首先,逻辑回归模型使用一个广泛的网格搜索不同hyperparameters调整;其次,一些数据集(如DS1)也有类似的写作风格的作家,导致逻辑回归模型的97%的准确率。DS4,是所有三个数据集的组合(从而包括更多样化的写作风格),逻辑回归的准确性下降到87%。

4所示。结论

手动分类的任务消息需要深入的知识领域和专业知识来识别文本中的异常。在这个研究中,我们讨论的问题分类假新闻文章使用机器学习模型和集成技术。我们在工作中使用收集的数据从万维网和包含新闻从不同领域覆盖大部分的新闻,而不是专门分类政治新闻。研究的主要目的是识别模式的文本区分假文章真正的新闻。我们从文章中提取不同的文本功能使用一个LIWC工具和使用特性集作为模型的输入。学习模型训练和parameter-tuned获得最佳的准确性。一些模型取得了相对比别人更高的精度。我们使用多个性能指标比较结果为每个算法。合奏学习者的整体更好的成绩在所有性能指标相对于个体学习者。

假新闻检测有许多开放的问题,需要研究人员的注意。例如,为了减少假新闻的传播,识别关键要素参与新闻的传播是一个重要的步骤。图论和机器学习技术可以用来识别关键参与传播假新闻的来源。同样地,实时识别假新闻的视频可以被另一个可能的未来方向。

数据可用性

之前报道的数据被用来支持这项研究和可用https://www.kaggle.com/c/fake-news和https://www.kaggle.com/jruvika/fake-news-detection。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

道格拉斯:“新闻消费和新电子媒体。”国际期刊的出版社/政治,11卷,不。1,29-52,2006页。
视图: 出版商的网站 | 谷歌学术搜索
j .黄”,几乎所有的假新闻网站的流量来自facebook,新的数据显示,“2016年。
视图: 谷歌学术搜索
雷泽,d·m·j·m·a·鲍姆y Benkler et al .,“假新闻的科学。”科学,卷359,不。6380年,第1096 - 1094页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
s a·加西亚·g·g·加西亚,m . s .普列托a·j·m·格雷罗州和c·r·吉梅内斯,“任期假新闻的影响在科学界科学性能和映射的网络科学,”社会科学,9卷,不。5,2020。
视图: 谷歌学术搜索
公元Holan,2016年的谎言:假新闻Politifact,华盛顿,美国,2016年。
美国Kogan、t·j·莫斯科维茨和m . Niessner“假新闻:来自金融市场的证据,”2019年,https://ssrn.com/abstract=3237763。
视图: 谷歌学术搜索
答:罗伯,“假新闻的丑闻,解剖”《滚石》杂志卷。1301年,只愿降价,2017页。
视图: 谷歌学术搜索
j . Soll后“假新闻的漫长而残酷的历史,”政治报杂志,18卷,不。12日,2016年。
视图: 谷歌学术搜索
j .华和r·肖”冠状病毒(covid-19)”infodemic”通过数据和新兴问题镜头:中国的情况下,“国际环境研究和公共卫生杂志》上,17卷,不。7,2309年,页2020。
视图: 出版商的网站 | 谷歌学术搜索
n . k .康罗伊诉l·鲁宾和y . Chen”自动欺骗检测方法:方法寻找假新闻,“信息科学技术协会的诉讼,52卷,不。1、1 - 4,2015页。
视图: 出版商的网站 | 谷歌学术搜索
f . t . Asr和m . Taboada Misinfotext:新闻文章的集合,虚假和真实的标签,“2019人。
视图: 谷歌学术搜索
j . k ., a . Sliva s . Wang Tang和h·刘,假新闻检测在社交媒体上,“ACM SIGKDD探索通讯,19卷,不。1,22-36,2017页。
视图: 出版商的网站 | 谷歌学术搜索
s . Vosoughi d·罗伊,咸海,“真假在线新闻的传播,”科学,卷359,不。6380年,第1151 - 1146页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
h . Allcott和m .根茨科”,社会媒体和假新闻在2016年的选举中,“《经济视角没有,卷。31日。2、211 - 236年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
诉l·鲁宾:康罗伊y . Chen, s·康威尔。”假新闻还是真相?运用讽刺信号来检测潜在的误导消息,”学报第二车间计算欺骗检测方法7 - 17页,圣地亚哥,CA,美国,2016年。
视图: 谷歌学术搜索
h . Jwa d .哦,k .公园,j·m·康和h Lim”exBAKE:基于双向编码器自动假新闻检测模型从变形金刚(bert)表示,“应用科学,9卷,不。19日,2019年。
视图: 出版商的网站 | 谷歌学术搜索
h·艾哈迈德·特拉奥雷i s萨阿德,”检测的在线使用语法分析和机器学习技术、假新闻”学报》国际会议智能、安全、可靠的系统在分布式和云环境施普林格,页127 - 138年,温哥华,加拿大,2017。
视图: 出版商的网站 | 谷歌学术搜索
w . y .王骗子,骗子的裤子着火:假新闻的新基准数据集检测计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2017年。
b·里德尔Augenstein, g . p . Spithourakis和s·里德尔,“假新闻的挑战的一个简单但挑战基线姿态检测任务,”2017年,https://arxiv.org/abs/1707.03264。
视图: 谷歌学术搜索
n . Ruchansky美国Seo,刘y“Csi:假新闻的混合深度模型检测”学报2017 ACM会议信息和知识管理,页797 - 806,新加坡,2017年。
视图: 谷歌学术搜索
诉Perez-Rosas b . jonkleinberg a勒费弗,r . Mihalcea”自动检测假新闻”,2017年,https://arxiv.org/abs/1708.07104。
视图: 谷歌学术搜索
p . Buhlmann“装袋、提高和整体方法”计算统计手册施普林格,页985 - 1022年,柏林,德国,2012年。
视图: 谷歌学术搜索
h·艾哈迈德·特拉奥雷i s萨阿德,“使用文本分类检测认为垃圾邮件和虚假新闻,“安全性和隐私,1卷,不。1,2018。
视图: 出版商的网站 | 谷歌学术搜索
Kaggle,假新闻Kaggle,旧金山,CA,美国,2018年,https://www.kaggle.com/c/fake-news。
Kaggle,假新闻检测Kaggle,旧金山,CA,美国,2018年,https://www.kaggle.com/jruvika/fake-news-detection。
j . Bergstra和y Bengio hyper-parameter优化、随机搜索”机器学习研究杂志》上13卷,第305 - 281页,2012年。
视图: 谷歌学术搜索
t·m·米切尔机器学习的学科美国宾夕法尼亚州匹兹堡卡内基梅隆大学,2006。
n Cristianini和j . Shawe-Taylor介绍支持向量机和其他基于学习的方法英国剑桥,剑桥大学出版社,2000年。
t·霍夫曼,b . Scholkopf和a·j·Smola“内核方法在机器学习,”统计年报,36卷,不。3、1171 - 1220年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
诉Kecman,支持向量机一介绍支持向量机:理论与应用”施普林格,纽约,纽约,美国,2005年。
美国艾克塔,f·侯赛因,f·r·拉贾et al .,“提高英语为母语的学习者使用阿拉伯语词汇的发音错误检测深卷积神经网络特性,”电子产品,9卷,不。6、2020。
视图: 出版商的网站 | 谷歌学术搜索
d .太阳和b . Gabrys分类器选择多数投票。”信息融合》第六卷,没有。1,第81 - 63页,2005。
视图: 出版商的网站 | 谷歌学术搜索
b . Gregorutti b·米歇尔,p .圣皮埃尔,“变量相关性和随机森林的重要性,”统计和计算,27卷,不。3、659 - 678年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
l . Breiman j·弗里德曼,r . Olshen和c .石头,分类和回归树施普林格,柏林,德国,1984年。
r . e . Schapire”,简要介绍提高。”IJCAI卷,99年,第1406 - 1401页,1999年。
视图: 谷歌学术搜索
e·m·多斯桑托斯、r . Sabourin和p . Maupin“过度拟合谨慎的选择与遗传算法分类器集合体,”信息融合,10卷,不。2、150 - 162年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
t·陈和c . Guestrin“Xgboost:一个可伸缩的树增加系统”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘旧金山,页785 - 794年,CA,美国,2016年。
视图: 谷歌学术搜索
t . Hastie美国安全,j·朱和h .邹”多层次演算法”,统计及其接口,卷2,不。3、349 - 360年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
l . Lam和郑胜耀孙”,多数投票模式识别的应用:其行为和性能的分析,“IEEE系统,人,控制论,部分:系统和人类,27卷,不。5,553 - 568年,1997页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

154989年

下载

19207年

引用