网络Pseudohealth信息识别模型:一个集成架构的潜在狄利克雷分配和数据块更新

文摘

网络pseudohealth的肆意传播信息对人们的健康带来极大危害,生活,和财产。是很重要的检测和识别网络pseudohealth信息。在此基础上,本文定义的概念pseudohealth信息,数据块和数据块集成,设计一个架构,结合了潜在狄利克雷分配(LDA)算法和数据块更新整合,并提出了组合算法模型。此外,爬虫技术用于爬行pseudohealth在新浪微博平台上的信息传播中“疫情”从2020年2月至3月的模拟试验实验数据集。研究结果表明,(1)LDA模型可以深入我的网络pseudohealth信息的语义信息,获得document-topic分布的特点,分类和火车主题特征作为输入变量;(2)数据集划分方法可以有效数据块的文本属性和类标签网络pseudohealth信息,可以准确地分类和集成块的数据通过数据块融合方法;和(3)考虑到组合模型具有一定的限制网络pseudohealth的检测信息,支持向量机(SVM)模型可以提取数据块的粒度内容pseudohealth实时信息,从而大大提高识别性能的组合模型。

1。介绍

目前,新冠状病毒引起的肺炎已经有效控制全国,但造成的恐慌和恐惧使人紧张。人们试图寻找各种有效方法提高免疫力抵抗病毒入侵的新冠状病毒,防止病毒感染。在此背景下,一些人利用公众的恐慌心理的产生和传播大量pseudohealth信息在互联网上的健康。例如,“喝高度酒可以杀死新型冠状病毒,”“喝板蓝根和吸烟醋可以预防新型冠状病毒,”“喝消毒液体可以杀死新型冠状病毒,”和“穿多层口罩可以防止新型冠状病毒。“这个pseudohealth的出版商和传布信息,与个人利益,作为“不健康”的名义“健康”和诱导不明智的行为的人也不知道真相,也带来了巨大的危害公众的身心健康;此外,它会导致财产损失和生命危险。各种各样的“健康”的文章,“癌症警报”和“私人部门”都是在微信的朋友圈。不仅在社交平台上,而且整个网络环境突出了一个严重的问题:医疗卫生信息充满了各种伪科学,和信息足以让一些缺乏健康知识和素养的人认为这种pseudohealth信息。此外,pseudohealth信息传播不客气地在农村地区,导致一系列严重的后果。例如,近年来,已经有活动促进假冒医疗产品在中国的农村地区。 The swindlers take advantage of the mentality of rural residents, such as seeking cheap prices and worrying about health, to carry out swindling actions which results in heavy losses to farmers. In 2015, Financial Channel of China Central Television reported that acetochlor pesticide residues were detected in strawberries, and long-term consumption would cause cancer risks. For this kind of pseudohealth information, it is difficult for nonprofessionals to distinguish whether the information is true or false. Although professionals interpreted that dosage determines toxicity with eight validation samples, it still caused a large scale of unsalable strawberries and brought great economic impact to farmers. Therefore, effective identification of pseudohealth information in networks is of great significance for maintaining the physical and mental health of the general public.

目前,没有公认的社会“pseudohealth信息”的定义。一般来说,pseudohealth信息解读为虚假医疗信息没有事实依据,但在现实世界中,pseudohealth信息是根据特定制作的事实,只有扩展,扭曲,夸大,甚至编造的事实。因此,pseudohealth信息研究是捏造没有事实依据,或与某些事实依据,但扭曲或夸大的出版商,所谓的健康信息偏离事实。网络pseudohealth信息是指捏造虚假医疗信息或扭曲真相传播专门通过社会媒体网络。这是“噪音”在健康传播;它经常诱发人们形成正确的健康认知甚至参与健康行为不当,带来不可估量的伤害公众的身心健康。因此,它具有十分重要的现实意义,研究网络pseudohealth信息的识别方法,以防止pseudohealth信息的传播和维护社会稳定。

互联网pseudohealth信息大多属于谣言的本质,具有快速传播的特点,影响范围广,巨大的社会危害。它经常引发广泛的网络舆论或公共卫生事件,吸引了广泛的关注。目前,pseudohealth信息识别的研究主要集中在以下三个方面:(1)“选择实例”(或滑动窗口)的分类方法。例如,莫里纳罗和希腊选择算法提出了一种两级实例,它分为两个阶段:概念检测和再培训。如果检测到健康的语义类,算法将自动更新分类器和找到分类标签类卫生信息数据的分类(1]。汉等人提出了滑动窗口算法,可以处理网络pseudohealth信息的属性分类问题(2]。霍恩等人提出了一个支持向量机(SVM)模型,检测网络pseudohealth信息,和网络pseudohealth的分类信息实现了通过更新实例的重量分配(3]。(2)批量分类方法。例如,Sutskever等人提出了批处理的信息模型,实现批处理类的健康信息,不断更新分类器,从而实现pseudohealth信息的分类(4]。罗德里格斯和Laio提出了一个集成模型基于时间限制,可以初步比较和区分pseudohealth信息和健康信息在网络5]。(3)在线学习的分类方法。例如,pseudohealth信息网络在线学习结合模型提出的布热津斯基和Stefanowski由网络在线分类器。由于分类器的数量通常是固定的,因此,加权和更新也固定(6]。施等人提出了一个在线增量算法来处理网络pseudohealth信息的分类。由于狭隘的在线增量的价值,导致可怜的容错(7),Eskandari和Javidi采用网络在线学习方法通过集中pseudohealth信息进行分类处理,但其分类精度相对较低,分类效果也差(8]。

在以往的相关研究中,学者们提出了多种分类算法的识别网络pseudohealth信息,包括不同的算法的组合模型。这些算法和模型有良好的识别影响pseudohealth信息明显的信息来源和文本语义标签的识别。然而,难以识别pseudohealth信息不清楚信息来源不清楚网络中的语义标记和也很难检测和分类。在前面研究pseudohealth信息识别,是否“选择实例”(或滑动窗口)分类方法,批量分类方法,或在线学习分类方法,每个都有自己的优点和缺点。尽管pseudohealth信息可以分类从不同方面,现有的方法主要是单分类器或批处理,导致不能有效分类或识别精度不高。通过研究pseudohealth信息,本文旨在帮助人们区分pseudohealth信息和改善他们的健康信息素养,从而从根本上提高网络健康信息质量和净化网络健康信息的环境。在此基础上,本文提出了一个集成的组合潜在狄利克雷分配(LDA)算法和数据分区和准确的更新。通过主题,通过识别网络pseudohealth信息类标记块准确地更新与数据块和集成,有效地识别和分类pseudohealth信息。

3所示。研究方法

3.1。概念定义

结合本文算法确定网络pseudohealth信息的问题,核心是网络pseudohealth信息对应的数据集划分为“粒度”块根据它的类标签属性。检测的最小信息单位属性中包含的数据集,数据集不断更新块根据信息类别的属性中包含的最小信息单位和重新根据数据块的范畴和分类,能够有效地识别pseudohealth信息。参与这个概念结合算法如下。

定义1。Pseudohealth信息(语义定义)。所谓pseudohealth信息指的是误导别人盲从或接受虚假宣传误导和欺骗的方式以健康的名义实现个人利益的生产者和广播公司和伪造。
总之,pseudohealth信息通常出现在健康信息的外在形式。它利用人们对健康信息的需求,并使用假,欺骗、误导,和其他方法和手段来传播和倡导不科学的,虚假的内容来达到个人的目的,和被伪造的信息。pseudohealth信息偏离信息标题的语义和语义标签和概念漂移与原来的意思。根据这个,pseudohealth信息可以被定义的信息从信息传播的角度,定义所示定义及其信息2。

定义2。定义Pseudohealth信息(信息)。类卫生信息数据集 ,在哪里属性值和吗是向量类的标签,其联合概率分解成。如果先验概率和条件概率样本的类卫生信息数据集变化、语义概念漂移发生在卫生信息数据集的类 :在语义概念漂移,如果没有变;变化,它属于条件改变类的概念漂移;即类健康信息确定真正的健康信息;如果和改变,它属于的概念漂移特性变化;也就是说,类似的健康信息是假的健康信息;也就是说,它是决定错误的健康信息。
一般来说,健康信息指的是类似的健康信息的属性或标签中包含的数据集的信息没有改变,但他们的外部表征或条件改变了在一段时间内;然而,pseudohealth信息是指那些表现为“健康”,分布相对稳定的特性。然而,类健康信息发生变化或偏离类标签与“健康”相对应的特征向量。

定义3。数据块。如果信息数据集分为序列排列顺序 ,每个序列包含一个数据记录或几个逻辑标记;如果每个序列由特征向量和类标签 ,序列的元素被称为数据块。

定义4。数据块集成。如果信息数据集分为数据块吗统一尺寸,每种类型的数据块包含的信息数据块;为每个新添加的块 ,分类器的重量加权的加权函数。加权函数依赖于分类器的分类精度。如果数据块的大小设置为不超过限制,分类,添加到数据块的某种类型;如果一个数据块集合是一个完整的集合,新添加的数据块的重量大于剩余的数据块,新添加的数据块替换最弱的块在最初的设置中,这个过程被称为数据块集成。

3.2。算法设计

3.2.1之上。算法思想

组合算法提出了块健康数据集的数据;即基于健康的类标签数据集,主题识别、信息数据集的分区,数据块分类集成,和语义偏移检测参与LDA模型算法1、支持向量机模型和算法2。的逻辑框架组合模型图所示1。

	输入: :一个实例信息数据集划分成块d;K:数据集的成员的数量;B:一个实例缓冲区的大小d; :分类质量测量。
	输出: :集成分类器的加权。
(1)	信息数据块
(2)	根据和 ,候选人分类器建立和授权;
(3)	根据和 ,所有分类器在集合授权;
(4)	如果 ,然后 ;
(5)	其他的如果 ,然后替换块在最弱 ;
(6)	初始化B;
(7)	;
(8)	计算所有类型的错误来 ;
(9)	的所有实例上运行命令 ;
(10)	如果
(11)	结束了

	输入: :实例数据流的信息, :信息语义偏移探测器, :集成的成员数量, :实例缓冲区大小 , :分类质量测量, :的实例数量;
	输出: :抵消检测器与1分类器和集成 - - - - - -类加权分类;
(1)	对所有实例做
(2)	逐渐取代与
(3)
(4)	如果或偏移量检测,那么;
(5)	根据W和 ,候选人分类器构造和授权;
(6)	根据和 ,分类器在集成是授权;
(7)	如果 ,然后 ;
(8)	其他的如果 ,然后替换最弱的集成块 ;
(9)	初始化D;
(10)	;
(11)	如果
(12)	结束了

3.2.2。LDA模型

Andrew Ng LDA提出了大卫•布莱和迈克尔。乔丹在2003年。主要用于document-topic生成和包含三个层次的结构:文档,话题,词。因此,它也被称为概率模型的三层贝类叶阶段(9]。一旦LDA模型提出,它引起了学者们的注意,特别是在语义挖掘的领域,这可以大大减少表示文本的尺寸,从而使该模型广泛应用(10,11]。此外,作为典型代表无监督模式,LDA模型的优点是话题的数量可以确定,只要确定模型中的重要输入参数;因此,算法过程大大简化(12]。在此基础上,在确定最优值的文档主题,本文选择困惑作为索引来评估模型的优缺点,及其计算公式如下:

的方程,米文档的数量,D文档中单词的集合,这个词,的字数,的概率是单词在文档中。

根据统计结果,用户发布微博信息基本上没有传播虚假医疗信息的行为,和他们的用户信誉可以以粉丝的数量来衡量,追随者的数量和比例;对于那些用户观察,但有更少的粉丝,可信度相对较低,他们的球迷常常互联网水军。这些用户最有可能被出版商或大量pseudohealth来源信息。他们发布或传播pseudohealth信息通过各种网络社交平台,如新浪微博和微信。因此,用户的信誉可以定义为

的方程, , ,和粉丝的数量,追随者的数量,和微博帖子的数量,分别后标准化。测量是一个重要的依据用户的信誉。更大的价值是,用户可信度越高。

对于用户来说,球迷的数量,数量的微博转发,评论的数量,和赞扬的数量是评价他们的影响力的基础。一般来说,粉丝用户越多,概率就越大,微博用户发布的出现和传播他人越多,相应的转发,评论,和赞美。无论什么样的微博粉丝执行操作行为,他们都关注用户发布的内容。因此,用户的微博的影响力可以定义根据以下方程:

的方程, , , ,和粉丝的数量,转发,评论,和赞美标准化。的影响是一个重要的指标来评估用户的微博。的价值就越大是,用户微博的影响力就越大。

3.2.3。数据块更新集成算法

(1)数据集的分区算法。识别网络pseudohealth信息决定的本质信息语义根据目标类标签之间的偏差度和语义本体。如果语义概念信息数据集取而代之的是和类型的偏差是一个颠覆性的偏差,“健康”的信息中包含的信息内容的语义被pseudohealth信息,其信息语义本体发生了根本性的变化,网络的语义本体pseudohealth信息属于这一类。根据这一原则,数据集的信息现在分为数据块流 ,每个数据块包含一个或多个逻辑记录记录。分类器构造,新添加的数据块被赋予了力量。分类器的分类性能是由加权函数。信息数据集划分的过程中,如果某种类型的数据块集合不是一个全套,数据块添加到这种类型的设置;如果一组数据块是完整的组块的重量大于任何块,最弱的块被替换。块集成算法显示了数据集的算法1。

(2)数据块集合分类集成支持向量机模型。支持向量机是一种典型的代表二进制分类模型优越分类泛化能力;因此,它已广泛应用领域的信息和数据分类(13,14]。本文识别网络pseudohealth信息时,采用支持向量机模型集成和分类数据块设置为实例样本数据集转化为求解凸二次规划问题。那么,最好的分类超平面的样本空间。分类超平面方程如下:

的方程, 法向量,确定超平面的方向;位移项,确定超平面之间的距离和原点;和样本点的特征向量。超平面的距离是一个可控因素,使得两种类型的样本点之间的距离和分类超平面达到最优规模基于分类精度的要求(15]。此外,SVM模型具有良好的容错在培训过程中,和最优解的最优分类超平面方程如下:

的方程,的特征向量是吗 - - - - - -样本点,的松弛变量吗 - - - - - -样本点,的类别标签吗 - - - - - -样本点,训练样本的数量,是惩罚系数。分类的性能是由其核函数的支持向量机模型。选择不同的核函数将导致分类精度的差异。目前,内核函数常用的支持向量机模型包括线性、多项式、径向基函数(RBF) (16]。由于RBF核函数的分类精度远高于其他内核函数和适合的情况下特征的数量小于或等于样本的数量(17,18),本文选择了RBF核函数,见以下方程:

分类支持向量机模型和训练时,惩罚系数和在RBF核函数需要提前确定,模型的容错控制前,两者之间是一种负相关;惩罚系数越大容错是越小。当太高,过度拟合现象发生(19,20.];然而,当C很小,在某种程度上,模型的分类精度将会相应减少。换句话说,参数RBF核函数的影响分布的样本点映射到高维空间,发挥对惩罚系数产生影响 ,从而使SVM模型集成分类精度高。

(3)语义偏移检测算法。语义网络pseudohealth信息的变化是非常复杂的。现有研究使用在线加权和增量分类方法来检测目标语义网络的变化pseudohealth信息,但数据块集成比增量分类更加复杂,和现有的语义偏移检测算法有缺陷。为了弥补这一缺陷,本文采用语义偏移检测算法。该算法的原理是,每个数据块包含一个或多个逻辑标记记录,数据块集合分类支持向量机模型需要批量加工,和候选人分类器集成组件对应的数据块为一个分类检查设置触发。如果当前数据块集正确分类,原始数据块的分类集成可以保持不变;如果当前的容错数据块分类集成是贫穷或分类精度低,再加权集成组件和类标签数据块中慢慢提高分类器的分类精度,有效检测目标语义属性。因此,语义偏移检测算法算法所示2。

4所示。实验结果和分析

4.1。实例数据采集

摘要爬虫软件用于抓取实验数据和pseudohealth信息发布的新浪微博社区管理中心的宣传部分被用作参考。这pseudohealth信息报道由于虚假信息,清楚地证实了政府pseudohealth信息。由于各种pseudohealth信息传播的新型冠状病毒疫情期间,新浪微博中的pseudohealth信息是相当大的。本文从新浪微博的API爬pseudohealth信息从2月1日到3月31日,2020年,随机收集1183名pseudohealth点信息。其中,759年的原始微博有超过100条评论。每个微博的内容是标记,统计,并按其数量的转发,评论,和赞扬,实验数据集是建立用户信息和粉丝和粉丝的数量。

防止分类器将所有实验数据划分为健康信息,我们添加了一个手动验证步骤和选择一些微博评论大于100和文本,不是单纯的符号,长度大于10。分类的基础上获得通过手动验证技术并与卫生信息。总共有368件卫生信息数据通过逐层筛选,有超过9643万的评论文本。基于评论异常参数的特征和支持向量机模型参数确定算法,本文手动标记数据集收集的实例。所选实例数据集包括pseudohealth信息的359件和268件卫生信息。当验证pseudohealth信息识别模型,我们充分利用剩余的100件pseudohealth信息和100块的健康信息进行精确比较训练实验。实验例子的数据集组成如表所示1。


类别	关键字	数量

从2020年2月至3月Pseudohealth信息数据	抵抗病毒	217年
	免疫病毒	123年
	感染病毒	119年
卫生信息数据从2020年的2月到3月	病毒	368年

4.2。LDA主题识别和预处理

根据数据表中给出的变量2,LDA模型被用来预处理实例数据集挖掘document-topic pseudohealth信息数据集分布特征;表中列出的变量2LDA模型预处理所需的特征指标,和每个变量的含义对应于其特点指标,在哪里指示用户是否的微博帐号已经验证了个人信息。如果是经过验证的,是1;否则,它是0。其他变量的特征指标与变量特性指标是一致的用户信誉和困惑方程。


特性	Document-topic分布			用户的特点			微博功能

功能指标	0	…	n	身份验证	的粉丝数量	数量的关注	发布微博	数量的前锋	数量的评论	数量的赞扬

变量	p_莫	…	P_锰	验证	追随者	后	全国矿工工会	转帖	评论	就像

LDA模型预处理的结果如图2。在图中,横轴是主题的数量,纵轴是困惑,折线是3到28,间隔是1。见图2越来越多的科目,困惑也继续上升,但上升的轨道有一定的波动。受试者的数量是5,困惑时达到最小值。随着话题的数量增加,困惑也会增加在一波和达到最大数量的话题时28。基于最小原理”困惑+数字的话题,“5是选为主题LDA模型的参数值。

在确定最优主题LDA模型的参数值,LDA模型可以用来执行深层语义分割的实例数据集训练,然后确定的分布规则“document-topic”和“topic-word”来确定主题和词的类标签或分类特征和准备的块和重返社会实例数据集。培训结果如表所示3。见表3,LDA模型训练的结果获得5主题。现在,选择前5字代表每一个主题,并给出每个单词的发生概率。


话题1	酒精	高温	学位	杀死	病毒

概率	0.043	0.039	0.037	0.015	0.009
话题2	消毒液体	喝	病毒	杀死	效果
概率	0.022	0.017	0.013	0.009	0.006
话题3	面具	多层	停止	停止	有效的
概率	0.075	0.046	0.033	0.028	0.025
主题4	双黄连	抑制	病毒	缓解	治疗
概率	0.049	0.039	0.027	0.021	0.021
主题5	5克	传播	辐射	携带	病毒
概率	0.036	0.023	0.023	0.008	0.005

接下来,我们随机选择6个文件作为例子,展示他们的“document-topic”分布的概率地图探索他们的主题和主题的单词。具体结果见图3。见图3,6个文档主题的概率是不同的,但总有更高的概率的一个或两个主题,而其他主题的概率较低,这表明,LDA模型可分为微博的主题文本,提供一个良好的基础本文下一步的阻止和集成微博pseudohealth实例数据集的信息。

(一)

(b)

(c)

(d)

(e)

(f)

4.3。集成的数据分区和分类

4.3.1。块实验数据集

实验数据集通过LDA模型是那么您交替确认处理次,实例数据集( )是输入。这是随机分为K子集( )不同大小和互斥。此外,训练和测试次;也就是说,在迭代,子集是保留作为测试集,剩下的子集被用于训练。块效率迭代的训练时间除以总数量的实验。的 - - - - - -折交叉验证使用的分类器算法1提取的重量互动信息。交叉验证实验的目的是验证块算法的效率和性能1。

根据算法1对于一个给定的实例数据集,如果信息的属性和类标签文本是显而易见的,实例数据的准确性非常高;如果属性和类标签的文本是含糊不清或不明确的信息,窗口算法(算法2)需要用来检测语义偏差。在分组实例数据集的过程中,候选人分类器的变化 ,歧视的分类边界也在改变。所有分类器重量、实例信息数据集分为不均匀大小的数据块: 。;候选人分类器建立了根据和 ,并赋予相应的决策边界实例数据集不会落入一维的中心点,二维,三维球面高斯一步一步,交叉验证数据块呈现高斯分布和歧视的边界是由两个街区双曲表面。块的决定不是单连通区域但的地方两个椭圆轮廓线形成的概率密度分布,如图4(一)和4 (b)。

(一)

(b)

在图4(一),候选人分类器实现实例的分区数据集的属性类标签。它使用所有候选分类器在集合分配和更新数据块和创建组件保留原来的类标签的数据块。重量更新基于实例缓冲区的大小确保所有数据块对应的非零权重。在图4 (b),实例的缓冲不仅可以保留的类标签数据块也决定是否将数据块替换为最弱的类标签的数据块组根据分类器。此外,数据块与最弱的类标签可以删除或收集到的其他类有效块实例数据集。

4.3.2。数据块分类和集成

需要向量化数据块分类和集成。本文采用支持向量机分类模型和集成训练,调用libSVM工具,调整参数的值和使协方差矩阵实例的数据块组分布等于获得两个 - - - - - -维球形分布信息集,即“健康”和“pseudohealth”信息数据块分类集成数据集和 ,在哪里和位于两侧的吗 - - - - - -量纲归一化超平面。该超平面分类决策边界的两个。中央线的两个 - - - - - -维球形分布形成的和是垂直的超平面,如图5(一个)和5 (b)。分类集成过程中,假设 ,所有分类器在一组授权根据和。如果所有类型的错误来是相等的,那么所有数据块进行分类和加权。通过测量每个数据块的欧式距离 - - - - - -均值向量,边界的最小距离(超平面)是基于来评判显示和分类,分类和收集加权数据块到最近的数据集( ),和最弱的数据块( )被替换为实现初步分类和集成的数据块,如图5(一个)。

(一)

(b)

窗口算法(算法2)是不同于其他集成分类器。其结合SVM模型可以不断更新和授权数据块;因此,数据块进行分类并集成到形式的类标签,和语义偏差的数据块可以有效地检测到。候选人分类器在算法2和所有的分类器在集合确定分类集成数据集之间的距离和superplane,它不断更新实例数据块组的重量。两种类型的数据集之间的距离和分类超平面分离通过最好的分类超平面的最大支持向量机模型(见方程(4))。与此同时,松弛变量介绍了提高容错性能在SVM的训练过程,采样点参数的影响RBF核函数的映射到低维空间,不断纠正分类和整合效率的实例数据集可以准确地分为“健康”和“pseudohealth”信息集和。精确的分类和集成过程如图5 (b)。

4.4。绩效评估的分类检测

为了说明本文提出的算法的优势,物流算法(21),决策树(DT) [22)和人工神经网络(ANN) [23]目前采用的比较。此外,在四个算法分类精度测试。这四种算法的分类器可以更新和分类实例数据块集通过使用滑动窗口以自由组合的方式。因此,实验数据块集可以分类和综合。因为交叉验证策略可以克服分类器,提高泛化能力的过度拟合的四个算法,分类精度的四个算法相比,采用交叉验证的策略。10实例本文是随机子集用于训练来验证不同模型的分类精度。实验结果如图所示6。

(一)

(b)

(c)

见图6算法的检测效果,DT,物流,和安比,本文提出的方法在0 - 100秒。然而,本文方法比其他三种算法在超过100秒,因为平均绝对误差(MAE)的分类方法在报纸上高于其他三种方法在100秒;然而,在超过100秒,它是低于其他三种方法,和三个重叠窗口都有类似的情况。为了进一步说明这个问题,窗口单位设置为分钟,滑动窗口大小是100分钟,和重叠的大小等于20%,50%,和70%的窗口大小。四个算法用于检测数据集的例子,和检测效果如图7。

(一)

(b)

(c)

在图7,DT,物流,和ANN算法可以大大减少美通过调整参数设置,采用监督/ semisupervised方法提高分类效果后30分钟。本文算法可以有效地检测和分类实例数据集从一开始,和其美价值总是在0.5和0.8之间波动。因此,无论是在几秒或几分钟,本文的算法明显优于DT,逻辑算法,和ANN模型。

四种算法的分类精度相比,本文中的示例数据集。实验结果如表所示4。见表4,四个分类器的分类精度相当不同:本文算法的分类精度最高,训练样本的分类准确率高达96.88%,测试样本的分类精度为98.73%,DT分类精度最低,其训练样本和测试样本的分类精度为71.35%和76.29%,分别逻辑算法的准确性和安在这两个之间,和安的精度略高于逻辑算法。


数据类型	分类器
数据类型	DT	物流	安	该方法

训练样本	71.35	84.62	87.40	96.88
样品测试	76.29	86.07	91.18	98.73

5。结论

网络pseudohealth信息的识别不仅是前沿,专注在新闻传播领域的焦点和数据挖掘领域的困难。尽管一些学者研究这个问题,提出了很多识别方法,现有方法主要是单一分类器或批处理,导致这一事实不能有效分类或识别精度不高。基于网络pseudohealth的类标签属性数据集的信息,提出了一种组合算法集成数据分区和分类更新基于之前的研究结果,LDA主题识别模型,集成数据集分割算法,支持向量机数据块分类集成模型、语义偏移检测算法,和其他方法,并采用网络爬虫技术进行仿真实验基于pseudohealth新浪微博平台的信息在流行从2月1日到3月31日,2020年。仿真结果表明,该组合算法提出了具有良好的优越性在pseudohealth信息的主题识别和阻止和集成数据集分类的实例。相比之下,DT,物流算法,安,实验结果表明,该方法的集成分类精度高于这三种方法,这充分说明了该方法的可靠性和实用性。将来pseudohealth信息的识别具有重要意义对维持正常的公共卫生秩序,建立一个“健康中国。“传统主流媒体具有较高的权威性和影响力。作为一个公共社会的工具,媒体应该执行它的功能为观众和社会服务,加强检查的假健康信息澄清其真实性。同时,媒体也应该及时澄清pseudohealth信息,扰乱人们为了防止pseudohealth信息的传播,这也是一种媒体维护自己的形象和权威。因此,我们不仅要关注存在的问题在各种信息的传播,而且还充分利用技术手段和工具来抑制pseudohealth信息的进一步传播和影响力。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。

确认

这项研究得到了山东省自然科学基金的一般程序(没有。ZR2019MG021)和全国统计科学研究计划重点项目(没有。2019 lz19)。研究也支持了社会科学规划(显性纪律)山东省研究项目(没有。19 bysj19)。

引用

c·莫里纳罗和s·格列柯多项式时间查询数据库不一致与函数依赖和外键,“数据与知识工程,卷69,不。7,709 - 722年,2010页。视图:出版商的网站|谷歌学术搜索
j·w·汉、m . Kamber和j .贝聿铭数据挖掘:概念和技术摩根考夫曼,伯灵顿,妈,美国,第三版,2011年版。
t·r·霍恩r . Polikar n v·乔,“学习与概念漂移流数据和不平衡:概述,“人工智能的进展,1卷,不。1,第101 - 89页,2012。视图:出版商的网站|谷歌学术搜索
Sutskever, j·马顿斯、美国达尔和美国e·辛顿”的重要性程序初始化和动量在深度学习,”机器学习的国际会议,页1139 - 1147年,亚特兰大,乔治亚州,美国,2013年6月。视图:谷歌学术搜索
a·罗德里格斯和a . Laio”集群的快速搜索和发现密度峰值,”科学,卷344,不。6,1492 - 1496年,2014页。视图:出版商的网站|谷歌学术搜索
d·布热津斯基和j . Stefanowski”相结合的基于块和在线学习方法从概念漂移的数据流,”信息科学,卷265,不。5,50 - 67年,2014页。视图:出版商的网站|谷歌学术搜索
F.-L y史。钟,王,“一种改进TA-SVM无需矩阵求逆方法及其快速实现非平稳的数据集,”IEEE神经网络和学习系统,26卷,不。9日,第2018 - 2005页,2015年。视图:出版商的网站|谷歌学术搜索
美国Eskandari和m . m . Javidi”在线流媒体使用粗糙集特征选择,”国际期刊的近似推理,卷69,不。2,一,2016页。视图:出版商的网站|谷歌学术搜索
t . Gocken和m . Yaktubay”,比较不同的聚类算法通过遗传算法对于VRPTW,”国际期刊的仿真模型,18卷,不。4、574 - 585年,2019页。视图:出版商的网站|谷歌学术搜索
j .瞿z霁,c·林和h . Yu”快速寻求与敌对的交互网络共识,”复杂性卷,2018篇文章ID 7831317, 15页,2018年。视图:出版商的网站|谷歌学术搜索
d . Kurunathan s Shanmugathas, k .阿育王”关系的分析客户行为和信息技术市场,”系统和管理科学杂志》上,9卷,不。1,第104 - 87页,2019。视图:谷歌学术搜索
刘x z汉,j .口,“跨学科主题识别基于Rao-Stirling指数和LDA模型(一个案例研究的纳米技术,”信息科学,38卷,不。2、116 - 124年,2020页。视图:谷歌学术搜索
郑y、x胡和j .阴”健康基于多任务支持向量机的数据融合方法,”系统工程理论与实践,39卷,不。2、418 - 428年,2019页。视图:谷歌学术搜索
y杨、f . Zhang和h .雪”模态傅Liye-support向量机优化方法重建进水监控、异常数据”运筹学和管理科学,28卷,不。2,52-59,2019页。视图:谷歌学术搜索
李x, x, s . Wu, h .元,和d .赵”粒子群优化支持向量机模型在高压断路器机械故障诊断,”中国机械工程杂志》上,33卷,不。6、1 - 10,2020页。视图:出版商的网站|谷歌学术搜索
k . Bi和t .秋”,一个聪明的支持向量机建模过程对原油性质预测基于混合GA-PSO方法,”中国化学工程杂志》上,27卷,不。8,1888 - 1894年,2019页。视图:出版商的网站|谷歌学术搜索
李y, y, w·魏,吴z, h·金,“interorganisational商业网络的形成和演化:大型中国摩天大楼的一个案例研究,“复杂性ID 2727419条,卷。2020年,17页,2020。视图:出版商的网站|谷歌学术搜索
r . Goyat g·库马尔,m·k·拉伊和r·萨哈”区块链技术在供应链管理的含义,”系统和管理科学杂志》上,9卷,不。3、92 - 103年,2019页。视图:谷歌学术搜索
Natalija和美国德拉甘”,加速多个流积累算法使用MPI集群上电脑,”在信息学的研究和控制卷,29号3、307 - 316年,2020页。视图:谷歌学术搜索
t . Saric, g .希穆洛维奇d . Vukelic k .希穆洛维奇和r . Lujic”数控磨削工艺参数估计使用不同的神经网络,”Tehnicki Vjesnik-Technical公报,25卷,不。6,1770 - 1775年,2018页。视图:谷歌学术搜索
m·李和h徐“可靠性窗口零门基于物流模型,分析差距”系统工程理论与实践,39卷,不。2、531 - 538年,2019页。视图:谷歌学术搜索
t·陈和l .朱”评估决策树和神经网络模型的性能在映射的土壤属性,“山科学杂志》,16卷,不。8,1883 - 1847年,2019页。视图:谷歌学术搜索
l . Macyszyn c Jedryczka, r . Staniek”设计和小说两级磁进动齿轮的有限元分析,“国际期刊的仿真模型,18卷,不。4、586 - 595年,2019页。视图:出版商的网站|谷歌学术搜索

复杂性

人工智能的智能系统仿真

网络Pseudohealth信息识别模型:一个集成架构的潜在狄利克雷分配和数据块更新

文摘

1。介绍

3所示。研究方法

3.1。概念定义

3.2。算法设计

3.2.1之上。算法思想

3.2.2。LDA模型

3.2.3。数据块更新集成算法

4所示。实验结果和分析

4.1。实例数据采集

4.2。LDA主题识别和预处理

4.3。集成的数据分区和分类

4.3.1。块实验数据集

4.3.2。数据块分类和集成

4.4。绩效评估的分类检测

5。结论

数据可用性

的利益冲突

确认

引用

版权

相关文章

复杂性

人工智能的智能系统仿真

网络Pseudohealth信息识别模型:一个集成架构的潜在狄利克雷分配和数据块更新

文摘

1。介绍

2。相关的工作

3所示。研究方法

3.1。概念定义

3.2。算法设计

3.2.1之上。算法思想

3.2.2。LDA模型

3.2.3。数据块更新集成算法

4所示。实验结果和分析

4.1。实例数据采集

4.2。LDA主题识别和预处理

4.3。集成的数据分区和分类

4.3.1。块实验数据集

4.3.2。数据块分类和集成

4.4。绩效评估的分类检测

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章