研究文章|开放获取
曾于吴,燕、杰杨Zhenni赵, ”微博谣言识别基于整体学习沟通和叠加”,离散动力学性质和社会, 卷。2020年, 文章的ID9352153, 12 页面, 2020年。 https://doi.org/10.1155/2020/9352153
微博谣言识别基于整体学习沟通和叠加
文摘
谣言在网络空间的识别研究有助于发现公众和社会问题的关注并不容易发现,它也能帮助净化网络空间,维护社会稳定。然而,真正的谣言的复杂性使得其识别技术很难消除定性描述和定量计算之间的语义鸿沟的谣言。首先,现有的谣言定义大多是定性描述,所以我们提出的技术定义网络谣言方便定量计算。其次,因为谣言识别研究中使用的特性集不是有效的,通过结合通信,我们构造一个更适合谣言识别的特性集。第三,针对传统分类算法的问题不适合复杂的谣言信息识别、谣言识别方法提出了基于整体学习堆积。我们的实验结果表明,该方法具有更高的精度,更少的算法执行时间,和更好的实际应用效果。
1。介绍
如今,互联网是充满了各种信息,如网络谣言,恶意软件,和假新闻,它是困难的为人们说出真相的信息。随着网络的发展,研究网络错误逐渐主要集中在网络谣言识别,网络谣言传播,恶意软件和病毒传播假新闻检测,和水军检测。
恶意软件和病毒传播研究集中在恶意的传播恶意软件建模来预测它的传播行为1),而对水军的研究主要是关于检测水军在大量的社会媒体用户在线主题,防止负面影响公众舆论的发展(2]。谣言的传播可能会影响个人声誉,侵犯公众隐私,或导致公共秩序混乱,导致群体事件,危及国家的稳定。因此,建模网络谣言的传播的社会网络来帮助控制错误信息的传播是非常重要的3]。然而,它也至关重要找出什么是网络谣言和如何识别它们以一种更有效的方法。
在文献[4),皮特森等人提出,谣言,一般来说,指的是一个未经证实的帐户或解释的事件,在人与人之间传播,用于修饰或说明一个对象,事件,或公众关心的问题。自那时以来,谣言已经被赋予一些特殊的特征,如模糊、传播性和及时性。随着互联网的发展,信息传播的加快,和网络谣言。在文献[5],曹国伟等人认为,网络谣言是未经证实的信息通过互联网用户以特定的方式。大多数学者认为,网络谣言的传播在互联网上进行,因为网络连接是宽,任意的,这使得网络谣言的传播速度,扩大覆盖面的影响,和损坏的程度更大6]。然而,现有的定义不能准确地描述网络谣言的技术特点和其他元素从可计算性的角度。
目前,一方面,网络谣言识别研究着重于提取特性集,可用于检测的谣言。另一方面,网络谣言的分类建模,不需要各种特性,但大量的数据,已成为一个研究热点。然而,网络谣言的特征选择更适合少量的数据集。
当前使用的功能集互联网谣言识别是基于提出的功能卡斯蒂略et al。7)和Qazvinian et al。8]。一般来说,功能设置分为三种类型:内容功能,用户特性、传播特性;有时是进一步细分为时间特性,网络特性,两种的组合。这些特性通常是简单的统计特征,文本的深层语义信息没有开采。因此,识别精度的影响缺乏关键特性。在文献[9),Kwon等人应用RNN学习消息之间的深层含义。基于保护机制,陈et al。10)提出了一种新的RNN模型来识别网络谣言通过时间序列获取潜在的上下文的变化。尽管神经网络模型可以克服稀疏特性的问题通过使用连续向量来表示文本,它有太多的参数和收敛速度慢,需要大量的语料库。
分类算法通常用于谣言识别研究包括支持向量机、决策树、朴素贝叶斯和神经网络。例如,在文献[11),段等人利用支持向量机来检测假信息微博评论观点的来源。在文献[12),陈等人利用回归方法网上认识到食品安全的谣言。然而,这种方法是有限的主题类型的谣言,只能确定这篇文章有关的谣言。在文献[13),陆等人基于Co-Forest算法,提出了一种改进的方法,提高了预测的准确性未标记的样本,解决数据不平衡的问题。
由于数据难以获得,目前的研究倾向于提取文本信息的统计特征。此外,添加新特性的实验方法的基础上,以前的研究使特征尺寸不断增加,导致不准确的模型参数。此外,经典算法如支持向量机、决策树、朴素贝叶斯不再适合识别与复杂的互联网信息内容。在特定的问题和场景中,每个模式都有其优点和缺点。识别的结果可能会更好地结合多个模型的优势(14]。例如,在文献[15),谢等人提出了一种高精度脑电图情感识别模型通过整合LightGBM XGBoost,随机森林。在文献[16),段微博等人的情绪分类文本整体学习使用叠加方法,准确率高达93%。
在这篇文章中,我们给网络谣言的定义基于通信的5 w公式,和三个特征的用户信誉,情感的一致性,区域构造相关。然后,我们验证功能的有效性通过使用卡方检验,以便更好的过滤特性。最后,分析现有的分类算法,采用整体学习叠加,我们提出一个谣言识别方法结合不同模型使用交叉验证和优化。最后,进行的实验是在不同的方法和数据集。
本文的结构如下:第一部分介绍了相关工作。叠加模型的设计,包括功能建设和选择,和描述的模型建设的第二部分。在第三部分中,我们进行了实验和分析结果。本文的结论和未来工作的介绍在过去的一部分。
2。相关工作
2.1。整体学习和叠加
对于不同的问题,速度、精度和机器学习模型的泛化能力是不同的。获得模型泛化能力强和高鲁棒性,提出了集成学习方法。当前的主流方法是增加(通常演算法,GBDT, XGBoost),装袋(通常是随机森林)和叠加。叠加模型应用于本文分层框架。最初的训练数据集输入到多个初级学习者在第一层,第一层的预测结果作为输入训练集用于下一层的学习者。最后,预测结果在前一层输入到最后metalearners得到最终的预测结果(见图1)。
2.2。其他方法
支持向量机(17)是一种二元分类模型,利用利润最大化的策略。它最小化结构风险,经验风险和置信区间,提高泛化能力。因此,在一个小统计数据集,它还可以获得良好的统计规律性。
决策树J48 [8基于C4.5)。它使用各个击破的策略,具有较高的可信度;和它的结果很容易理解。
随机森林(18)是集成学习方法之一。通过结合多个弱分类器,最后的结果是通过投票或计算平均值。该模型具有较高的精度和泛化性能。
逻辑回归(19)是一个广义线性模型,以及经典的分类方法用于解决与似然函数的优化问题的目标函数。
3所示。微博谣言识别
3.1。谣言的定义
基于现有的谣言定义,本文结合了通信的5 w的谣言传播的要素划分为传播者,内容,对象,效果和渠道。沟通可以个人或一个组织。内容的信息传播者想传递给观众。对象是信息的接受者或信息处理的沟通者。观众的效果是影响发送的信息沟通,导致的改变他们的想法,行为,等等。英吉利海峡是沟通的意思。有时网络谣言也是沟通的对象,所以我们把它们作为相同的元素进行分析。因此,网络谣言的定性定义给出本文所示的定义1。
定义1。网络谣言:网络谣言是指网民通过网络媒体发布的信息平台,模棱两可的内容,未经证实的官员,在某种程度上对社会有害。其表达式包括文本、图片、音频和视频。
本文的研究对象是微博。微博谣言,可以分为纯文本,图片不匹配的文本,和假图像,是一种互联网谣言。因为大多数的微博包含文本,目前承认微博谣言主要集中在文本。为了促进网络谣言的识别,如定义所示2从可计算性,给出了它的正式定义。
定义2。微博谣言:谣言识别的对象是一个微博 ,和 。 每一个微博的特性集。用户的特性集 代表的属性我th微博的出版商。内容的特性集 代表的属性我th微博的文本。传播特性集 代表的传播属性我th微博。是否的信心值吗是一个谣言, 。当更接近于1,的概率谣言是更高,反之亦然。
3.2。谣言识别过程
目前,谣言识别研究主要集中在特色建设、和添加新功能的方法基于之前的研究工作将使特征维数增加和模型参数估计不准确的。因此,利用卡方检验测试新功能的有效性可以获得一组特性,更适合互联网谣言识别。网络谣言识别被认为是一种二元分类问题。本文考虑使用叠加的思想整体学习建立一个新的分类模型(参见图因为每个算法都有其优势2)。
3.3。功能建设
结合论文的研究(8]和文献[20.),我们选择24基本特征,分为内容特征(续),用户功能(用户)和传播特性(TRAN)。内容特性包括文本的长度,@,#的数量,数量的问题/感叹号,是否有图片或url,并积极/消极的单词的数量。用户功能包括用户名的长度,性别,朋友的数量,数量的追随者,相互的追随者的数量,数量的微博帖子,最喜欢的微博数量,认证信息,个人描述,和用户的影响。传播特性包括meme的数量,评论的数量,喜欢的数量,用户注册时间和微博发布时间之间的时间间隔,和微博的关注。
上述功能主要是统计功能;为了更有效地识别微博谣言,本文构造的新特性在三个方面,用户、内容、和传播特性,挖掘文本信息背后的隐藏的含义。
定义3。用户信誉(UCRE):用户的信誉是由许多因素决定的。通过集成等信息的用户数量的朋友们,共同的追随者,微博发布的数量,和认证信息,用户的影响力和构造活动计算用户的信誉。可信的用户越多,更可信的信息他/她的职位。用户可信度的计算公式如下: 在哪里是用户的影响力,是用户的认证信息,是用户的信息是否完整;用户的信息包括用户名、性别、个人描述、注册的地方,和概要文件的照片。用户的影响力越大,影响越大的微博发布在一个特定的时间和空间。用户的影响主要取决于用户的追随者的数量和相互的追随者的数量。计算公式如下: 在哪里是用户的帖子我th微博,的数量是共同的追随者的数量是的追随者。
定义4。情绪一致性(经济学):情绪一致性是微博的人气是否符合人气微博的评论。当微博显示了强烈的情感,它可能煽动他人的感情;那么微博更有可能是一个谣言。通过分段的文本和评论,我们获得文本的词向量集
,在哪里是加工过的词,和我个微博的jth评论词向量集
,在哪里是处理过的词。
积极/消极的词的数量计算通过使用情感词汇本体(21]。具体公式如下:
在哪里年代是这个词的情感向量集,是积极的词汇的数量,然后呢是消极词汇的数量。然后我们可以得到最终的情感所以如下:
1代表积极,−1代表-,0表示中立。计算每个评论的情感计算的整体情感评论如下:
比较的情感和
,情感的一致性计算如下:
定义5。区域相关性(有数只):区域相关性指的是地方之间的距离在微博中提到的和用户的登记的地方。距离越长,越不可信的微博。本文使用欧氏距离来计算距离。公式如下: 在哪里 城市之间的距离吗x和城市y协调的城市x是 ,和城市的坐标y是 。在中国城市之间的距离,计算距离矩阵如下所示: 根据不同用户注册微博提到的地方,这个地方,它可以分为4例:①用户注册的地方和在微博上提到的地方在中国。②用户注册的地方是在中国,但微博中提到的地方不是。③用户注册的地方不是在中国,而是在微博上提到的地方。④用户注册的地方也在微博中提到在中国的地方。因为大多数的微博谣言发生在中国,当前的研究主要集中在情况①。②,③,④,距离将被设置为10000,这表明最大阈值。
3.4。特征选择
为了测试的有效性的基本特性和新特性,我们使用卡方检验获取功能排名结果,如表所示1。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
如表所示1区域相关,情感的一致性,和用户可信度排名第3,5日和9日,所以我们构造的三个新特性是有效的。
两组控制实验是在不同的模型进行的。一个是基于新特性并添加功能一个接一个根据排名结果的特性。在另一项实验中,特性集添加一个接一个根据排名结果的特性。实验结果如图3和4。
如图3和4,随着特征数量的特性集的增加,模型的识别精度逐渐增加,但当超过一定数量的特性,模型的识别精度往往会减少。
在图3朴素贝叶斯的准确性最高,功能的数量增加到15;当特征的数量从3增加到12日的准确性显著高于SVM决策树。当添加特征的数量超过12,决策树开始超过SVM的准确性。随着特征数量的持续增加,随机森林模型的准确性继续增长,但精度减少特征数量超过21岁。一般来说,每个模型的结果是最好的,当特征的数量大约是13 - 14日。
在图4,结果是没多大区别的结果图3。特征的数量特性集和更好的结果主要是在16岁。总之,我们使用第一个16特性见表1特性集。最后的特性集用于谣言识别如图5。
3.5。分类算法
采用叠加法作为一个组合整体学习的策略。我们选择支持向量机,随机森林,朴素贝叶斯的初级学习者和逻辑回归metalearner。支持向量机使用铰链损失函数计算代理损失,这使得它稀少。同时,它考虑了结构风险最小化经验风险和使它稳定(22),所以它具有更好的泛化能力和更小的计算成本当使用核函数(17]。随机森林可以估计缺失数据和平衡不平衡数据的错误(18]。当属性之间的相关性很小,NB模型的性能更好。模型结构如图6。
具体算法描述的算法1。
|
而时间随机森林和逻辑回归模型的复杂性和 (k是功能)的数量,确定支持向量机的核函数和朴素贝叶斯可以达到吗 。根据叠加模型的策略,其时间复杂度=初级学习者和metalearner最大值。因此,算法的时间复杂度1是 。
4所示。实验和分析
4.1。数据集
我们使用数据从马et al。23),其中包含2313谣言事件和2351年nonrumor事件,约380万的微博信息,270万块的用户信息。在实验中,我们将数据集分为训练集和测试集的比例根据8:2。
同时,为了验证本文方法的有效性在实际网络数据,我们收集的数据在微博平台上,建立了一个经验数据库。用于本文实证研究的数据集如表所示2。
|
|||||||||||||||||||||
4.2。算法的比较
来验证本文提出的方法的有效性,我们比较下列方法和模型:tanh-RNN [23),该方法用于数据源的纸;支持向量机(20.),第一个方法用于微博谣言识别;决策树J48 [8),第一个方法中使用Twitter假信息识别;演算法和随机森林,代表整体的学习方法;本文提出的方法。支持向量机,决策树J48通常用作基准网络谣言识别在大多数研究工作。
4.3。实验程序
(一)特性集的比较:基于识别模型本文提出我们对不同的特征集进行实验来验证新功能的有效性提出了(b)算法比较:为了测量精度和泛化能力的识别方法提出了,我们比较不同算法精度,精度,召回,F1-score(c)算法执行时间比较:我们比较不同模型的训练时间和测试时间性能分析模型(d)实证分析:识别方法的实用性进行实验验证本文提出的最新事件
4.4。特性比较
在本文中,我们比较不同的特性集通过使用本文提出的识别模型。实验结果如表所示3(是内容的特性集,是用户的特性集,传播的特性集,UCRE用户信誉,经济学是情感的一致性,中华民国是区域相关性,然后呢功能设置如图5)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
表3显示使用的准确率微博谣言识别低至70%,这表明很难检测谣言在更复杂的内容。相比之下,只有依靠通过识别,识别结果和更好的;特别是,精度提高了20%。在实验的结果 , ,和 ,我们可以看到,他们的准确性为0.2%,低于1.9%,和2.6% ,分别。的准确性 ,仅由三个新特性构造,高达90.8%,这表明用户可信度的三个新特征,情感的一致性,本文构造和区域相关性对微博谣言识别具有良好的效果。然而,实验的结果不低于三个新特性 ,的准确性和是93%。谣言和nonrumor识别的准确率和召回率都超过90%,和F1-score也稳定在93%。本文提出的特性集值高于其他特性集,这表明我们的特性集更有效检测微博谣言。
为了验证每个功能的有效性选择本文应用谣言识别方法叠加的基础上,我们进行16个不同的实验每次删除一个特性。结果如表所示4。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
如表所示3和4,每个实验的准确性比低 ;基于特性集和谣言识别准确性没有区域相关性最低,这表明区域相关性最大的对识别结果的影响。总之,16个特征选择本文对谣言识别有积极的影响。
4.5。算法的比较
我们比较不同算法与谣言识别模型提出来说明我们提出的模型的精度和泛化能力。结果如表所示5。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
如表所示5与tanh-RNN相比,支持向量机,决策树J48,叠加模型准确率最高的93.5%。叠加模型可以识别谣言与96.5%的召回率和精度91.4%,这表明,该模型能够识别更多的谣言;和叠加模型可以识别nonrumor事件F1-score和识别谣言F1-score分别占93%和93.9%,与其他算法相比更高。上述结果表明,叠加模型提出的识别效果最好。
4.6。算法执行时间
我们计算每个算法的训练时间和测试时间分别和结果如表所示6。
|
||||||||||||||||||||||||||||||||||
表6显示了朴素贝叶斯算法花最短的时间在训练中,但叠加模型提出了在培训花费的时间最长,因为它合奏多个算法。在测试阶段,叠加模型需要的最短时间,朴素贝叶斯的只占7.8%,第二个最短的逻辑回归模型是2.7倍叠加模型。
4.7。实证分析
为了验证微博谣言识别方法的实用性提出在这篇文章中,我们使用三个事件试验(见表2),结果如图所示7。
(一)
(b)
(c)
(d)
图7表明,在不同的事件,每个模型的性能略有不同。射频回忆和77%的准确率98%,这表明,射频模式可能承认大多数nonrumor微博是谣言。虽然堆积模型回忆和80%的准确率93%,高于其他模型。因此,本文提出的模型是相对有效的在实际识别。
此外,为了验证新功能的有效性提出本文的比较实验进行UCRE的特性集,经济学,和有数,功能设置排除它们。结果如图所示8。
(一)
(b)
(c)
(d)
如图8,评估精度,精度,回忆,和F1-score叠加模型上实现UCRE的特性集,经济学,有数只执行得更好。总之,新特性提出了适合实际的谣言识别。
5。结论
本文基于之前的研究,三个新特性是由结合沟通的5 w的公式;我们获得的最佳特性集微博谣言识别通过卡方检验等方法。然后,基于叠加方法的想法,我们选择支持向量机,随机森林,朴素贝叶斯的初级学习者和逻辑回归模型和分析微博谣言的metalearner认可。实验结果表明,本文构造的特性,提出了识别方法可以有效地检测谣言在微博。
然而,仍然有一些缺点。举个例子,在2019 - ncov,虽然内容信息是更复杂和更大的信息量,本文提出的算法的性能比其他的两个事件。因此,有必要进行更深层次的语义挖掘微博文本内容;例如,使用语音转录文本的内容和情感缩写需要特殊处理。此外,设计一个更合适和有效的集成策略的分类算法对微博谣言识别是一个未来的工作。此外,检测与微博谣言文本信息值得进一步研究。
数据可用性
与开放的数据集进行了实验,这可以在下载http://alt.qcri.org/ wgao /数据/ rumdect.zip。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的研究网络群体事件管理和预警机制,国家社会科学基金(xfx013 17日)。
引用
- w·p·刘和s . m .钟“网络恶意软件传播模型和最优控制策略,”科学报告p。42卷。7日,2017年。视图:出版商的网站|谷歌学术搜索
- z h .谢张y, l .张“舆论的识别病毒的微博基于逻辑回归,”微型计算机和它的应用程序,36卷,不。16,67 - 69年,2017页。视图:谷歌学术搜索
- w·刘,吴x, w·杨朱x,和美国中,“网络谣言传播在移动社交网络建模:舱的方法,”应用数学和计算卷,343年,第229 - 214页,2019年。视图:出版商的网站|谷歌学术搜索
- w·a·彼得森和n . p .要点”,谣言和舆论。”美国社会学杂志》卷,57号2、159 - 167年,1951页。视图:出版商的网站|谷歌学术搜索
- n . p .曹国伟和黄x”,研究“谣言”现象在网络通信中,“信息研究:理论与应用,27卷,不。6,586 - 589年,2004页。视图:谷歌学术搜索
- g .他x Lv, z . Li和l . p .徐”微博谣言自动识别,”图书馆和信息服务卷,57号23日,第120 - 114页,2013年。视图:谷歌学术搜索
- c·卡斯蒂略,m·门多萨,b . Poblete“twitter上的信息可信度,”20国际会议的程序在万维网上,页675 - 684,纽约,纽约,美国,2011年。视图:谷歌学术搜索
- 诉Qazvinian e·罗森格林·d·r·Radev问:z .梅,“流言蜚语:识别错误的信息在微博”学报2011年大会在自然语言处理的经验方法,页1589 - 1599,纽约,纽约,美国,2011年。视图:谷歌学术搜索
- s . Kwon m . Cha, k .荣格“谣言检测在不同时间窗,”《公共科学图书馆•综合》,12卷,不。1 - 2017页。视图:出版商的网站|谷歌学术搜索
- h . x t . Chen Li阴,j .张“唤起注意谣言:深度关注建立复发性神经网络谣言的早期筛查,”在计算机科学的课堂讲稿卷,41 40-52,2018页。视图:出版商的网站|谷歌学术搜索
- d . g .段c . s . Wang z . m .汉和b·李,“谣言检测模型基于微博的评论,“计算机模拟,33卷,不。1,第390 - 386页,2016。视图:谷歌学术搜索
- 周x y y . f . Chen, l .张”研究方法来识别网络食品安全rumor-related文档基于语义匹配同现,“信息研究:理论与应用第41卷。。6,130 - 136年,2018页。视图:谷歌学术搜索
- t .问:陆、b .史和z . m .严”Semi-supervised学习算法应用于微博谣言检测”计算机应用研究,33卷,不。3、744 - 748年,2016页。视图:谷歌学术搜索
- w .董和x h .曰,“多个元模型加权叠加方法回归问题,“学报》第38届中国控制会议33卷,第7516 - 7511页,2019年。视图:谷歌学术搜索
- 问:谢,z . t . Liu和x w·丁”脑电图情感识别基于叠加分类模型,”第37届中国控制会议进行41卷,第5548 - 5544页,2018年。视图:谷歌学术搜索
- k . j . d .段s r . Liu, r . y .太阳,“文本情感分类方法基于集成学习。”济南大学学报(自然科学版),33卷,不。6,43 - 488、2019页。视图:谷歌学术搜索
- k·p·哥打和g . v . s . r . Anjaneyulu”比较分析支持向量机和逻辑回归的倾向响应建模为基础,“社会科学电子出版,4卷,不。3、7 - 16,2015页。视图:谷歌学术搜索
- c . Su,美国居、刘y和z,“提高随机森林和旋转森林高度不平衡的数据集,”智能数据分析,19卷,不。6,1409 - 1432年,2015页。视图:出版商的网站|谷歌学术搜索
- h·李,统计学习方法,清华大学出版社,北京,2016。
- f·杨,x h . Yu y . Liu和m .杨”自动检测在新浪微博上的谣言,”诉讼的ACM SIGKDD研讨会上挖掘数据语义卷。19日,13-20,2012页。视图:谷歌学术搜索
- l·h·徐h·f·林,y,和h .任“构建情感词汇本体,”《中国社会科学和技术信息,27卷,不。2、180 - 185年,2008页。视图:谷歌学术搜索
- z h .周机器学习,清华大学出版社,北京,2016。
- j . Ma w·高,p . Mitra, s . Kwon”与复发性神经网络检测从微博谣言,”美国25日人工智能国际联合大会27卷,第3824 - 3818页,2016年。视图:谷歌学术搜索
版权
版权©2020余吴等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。