网络pseudohealth的肆意传播信息对人们的健康带来极大危害,生活,和财产。是很重要的检测和识别网络pseudohealth信息。在此基础上,本文定义的概念pseudohealth信息,数据块和数据块集成,设计一个架构,结合了潜在狄利克雷分配(LDA)算法和数据块更新整合,并提出了组合算法模型。此外,爬虫技术用于爬行pseudohealth在新浪微博平台上的信息传播中“疫情”从2020年2月至3月的模拟试验实验数据集。研究结果表明,(1)LDA模型可以深入我的网络pseudohealth信息的语义信息,获得document-topic分布的特点,分类和火车主题特征作为输入变量;(2)数据集划分方法可以有效数据块的文本属性和类标签网络pseudohealth信息,可以准确地分类和集成块的数据通过数据块融合方法;和(3)考虑到组合模型具有一定的限制网络pseudohealth的检测信息,支持向量机(SVM)模型可以提取数据块的粒度内容pseudohealth实时信息,从而大大提高识别性能的组合模型。
目前,新冠状病毒引起的肺炎已经有效控制全国,但造成的恐慌和恐惧使人紧张。人们试图寻找各种有效方法提高免疫力抵抗病毒入侵的新冠状病毒,防止病毒感染。在此背景下,一些人利用公众的恐慌心理的产生和传播大量pseudohealth信息在互联网上的健康。例如,“喝高度酒可以杀死新型冠状病毒,”“喝板蓝根和吸烟醋可以预防新型冠状病毒,”“喝消毒液体可以杀死新型冠状病毒,”和“穿多层口罩可以防止新型冠状病毒。“这个pseudohealth的出版商和传布信息,与个人利益,作为“不健康”的名义“健康”和诱导不明智的行为的人也不知道真相,也带来了巨大的危害公众的身心健康;此外,它会导致财产损失和生命危险。各种各样的“健康”的文章,“癌症警报”和“私人部门”都是在微信的朋友圈。不仅在社交平台上,而且整个网络环境突出了一个严重的问题:医疗卫生信息充满了各种伪科学,和信息足以让一些缺乏健康知识和素养的人认为这种pseudohealth信息。此外,pseudohealth信息传播不客气地在农村地区,导致一系列严重的后果。例如,近年来,已经有活动促进假冒医疗产品在中国的农村地区。 The swindlers take advantage of the mentality of rural residents, such as seeking cheap prices and worrying about health, to carry out swindling actions which results in heavy losses to farmers. In 2015, Financial Channel of China Central Television reported that acetochlor pesticide residues were detected in strawberries, and long-term consumption would cause cancer risks. For this kind of pseudohealth information, it is difficult for nonprofessionals to distinguish whether the information is true or false. Although professionals interpreted that dosage determines toxicity with eight validation samples, it still caused a large scale of unsalable strawberries and brought great economic impact to farmers. Therefore, effective identification of pseudohealth information in networks is of great significance for maintaining the physical and mental health of the general public.
目前,没有公认的社会“pseudohealth信息”的定义。一般来说,pseudohealth信息解读为虚假医疗信息没有事实依据,但在现实世界中,pseudohealth信息是根据特定制作的事实,只有扩展,扭曲,夸大,甚至编造的事实。因此,pseudohealth信息研究是捏造没有事实依据,或与某些事实依据,但扭曲或夸大的出版商,所谓的健康信息偏离事实。网络pseudohealth信息是指捏造虚假医疗信息或扭曲真相传播专门通过社会媒体网络。这是“噪音”在健康传播;它经常诱发人们形成正确的健康认知甚至参与健康行为不当,带来不可估量的伤害公众的身心健康。因此,它具有十分重要的现实意义,研究网络pseudohealth信息的识别方法,以防止pseudohealth信息的传播和维护社会稳定。
互联网pseudohealth信息大多属于谣言的本质,具有快速传播的特点,影响范围广,巨大的社会危害。它经常引发广泛的网络舆论或公共卫生事件,吸引了广泛的关注。目前,pseudohealth信息识别的研究主要集中在以下三个方面:(1)“选择实例”(或滑动窗口)的分类方法。例如,莫里纳罗和希腊选择算法提出了一种两级实例,它分为两个阶段:概念检测和再培训。如果检测到健康的语义类,算法将自动更新分类器和找到分类标签类卫生信息数据的分类( 在以往的相关研究中,学者们提出了多种分类算法的识别网络pseudohealth信息,包括不同的算法的组合模型。这些算法和模型有良好的识别影响pseudohealth信息明显的信息来源和文本语义标签的识别。然而,难以识别pseudohealth信息不清楚信息来源不清楚网络中的语义标记和也很难检测和分类。在前面研究pseudohealth信息识别,是否“选择实例”(或滑动窗口)分类方法,批量分类方法,或在线学习分类方法,每个都有自己的优点和缺点。尽管pseudohealth信息可以分类从不同方面,现有的方法主要是单分类器或批处理,导致不能有效分类或识别精度不高。通过研究pseudohealth信息,本文旨在帮助人们区分pseudohealth信息和改善他们的健康信息素养,从而从根本上提高网络健康信息质量和净化网络健康信息的环境。在此基础上,本文提出了一个集成的组合潜在狄利克雷分配(LDA)算法和数据分区和准确的更新。通过主题,通过识别网络pseudohealth信息类标记块准确地更新与数据块和集成,有效地识别和分类pseudohealth信息。
结合本文算法确定网络pseudohealth信息的问题,核心是网络pseudohealth信息对应的数据集划分为“粒度”块根据它的类标签属性。检测的最小信息单位属性中包含的数据集,数据集不断更新块根据信息类别的属性中包含的最小信息单位和重新根据数据块的范畴和分类,能够有效地识别pseudohealth信息。参与这个概念结合算法如下。 Pseudohealth信息(语义定义)。所谓pseudohealth信息指的是误导别人盲从或接受虚假宣传误导和欺骗的方式以健康的名义实现个人利益的生产者和广播公司和伪造。 总之,pseudohealth信息通常出现在健康信息的外在形式。它利用人们对健康信息的需求,并使用假,欺骗、误导,和其他方法和手段来传播和倡导不科学的,虚假的内容来达到个人的目的,和被伪造的信息。pseudohealth信息偏离信息标题的语义和语义标签和概念漂移与原来的意思。根据这个,pseudohealth信息可以被定义的信息从信息传播的角度,定义所示定义及其信息 定义Pseudohealth信息(信息)。类卫生信息数据集<我nline-formula>
一般来说,健康信息指的是类似的健康信息的属性或标签中包含的数据集的信息没有改变,但他们的外部表征或条件改变了在一段时间内;然而,pseudohealth信息是指那些表现为“健康”,分布相对稳定的特性。然而,类健康信息发生变化或偏离类标签与“健康”相对应的特征向量。 数据块。如果信息数据集<我nline-formula>
数据块集成。如果信息数据集<我nline-formula>
组合算法提出了块健康数据集的数据;即基于健康的类标签数据集,主题识别、信息数据集的分区,数据块分类集成,和语义偏移检测参与LDA模型算法
输入:<我nline-formula>
输出:<我nline-formula>
输入:<我nline-formula>
输出:<我nline-formula>
Andrew Ng LDA提出了大卫•布莱和迈克尔。乔丹在2003年。主要用于document-topic生成和包含三个层次的结构:文档,话题,词。因此,它也被称为概率模型的三层贝类叶阶段(
的方程,<我talic>
米 根据统计结果,用户发布微博信息基本上没有传播虚假医疗信息的行为,和他们的用户信誉可以以粉丝的数量来衡量,追随者的数量和比例;对于那些用户观察,但有更少的粉丝,可信度相对较低,他们的球迷常常互联网水军。这些用户最有可能被出版商或大量pseudohealth来源信息。他们发布或传播pseudohealth信息通过各种网络社交平台,如新浪微博和微信。因此,用户的信誉<我nline-formula>
的方程,<我nline-formula>
对于用户来说,球迷的数量,数量的微博转发,评论的数量,和赞扬的数量是评价他们的影响力的基础。一般来说,粉丝用户越多,概率就越大,微博用户发布的出现和传播他人越多,相应的转发,评论,和赞美。无论什么样的微博粉丝执行操作行为,他们都关注用户发布的内容。因此,用户的微博的影响力<我nline-formula>
的方程,<我nline-formula>
的方程,<我nline-formula>
的方程,<我nline-formula>
分类支持向量机模型和训练时,惩罚系数<我nline-formula>
摘要爬虫软件用于抓取实验数据和pseudohealth信息发布的新浪微博社区管理中心的宣传部分被用作参考。这pseudohealth信息报道由于虚假信息,清楚地证实了政府pseudohealth信息。由于各种pseudohealth信息传播的新型冠状病毒疫情期间,新浪微博中的pseudohealth信息是相当大的。本文从新浪微博的API爬pseudohealth信息从2月1日到3月31日,2020年,随机收集1183名pseudohealth点信息。其中,759年的原始微博有超过100条评论。每个微博的内容是标记,统计,并按其数量的转发,评论,和赞扬,实验数据集是建立用户信息和粉丝和粉丝的数量。 防止分类器将所有实验数据划分为健康信息,我们添加了一个手动验证步骤和选择一些微博评论大于100和文本,不是单纯的符号,长度大于10。分类的基础上获得通过手动验证技术并与卫生信息。总共有368件卫生信息数据通过逐层筛选,有超过9643万的评论文本。基于评论异常参数的特征和支持向量机模型参数确定算法,本文手动标记数据集收集的实例。所选实例数据集包括pseudohealth信息的359件和268件卫生信息。当验证pseudohealth信息识别模型,我们充分利用剩余的100件pseudohealth信息和100块的健康信息进行精确比较训练实验。实验例子的数据集组成如表所示
根据数据表中给出的变量 LDA模型预处理的结果如图 在确定最优主题LDA模型的参数值,LDA模型可以用来执行深层语义分割的实例数据集训练,然后确定的分布规则“document-topic”和“topic-word”来确定主题和词的类标签或分类特征和准备的块和重返社会实例数据集。培训结果如表所示 接下来,我们随机选择6个文件作为例子,展示他们的“document-topic”分布的概率地图探索他们的主题和主题的单词。具体结果见图
实验数据集通过LDA模型是那么您交替确认处理<我nline-formula>
根据算法 的过程实例数据集划分:(a)候选人的初步分区分类器<我nline-formula>
在图
需要向量化数据块分类和集成。本文采用支持向量机分类模型和集成训练,调用libSVM工具,调整参数的值<我nline-formula>
分类集成过程:(a)的初步分类集成数据块;(b)精确分类集成的数据块。 窗口算法(算法
为了说明本文提出的算法的优势,物流算法( 检测每一个分类器的性能在不同的重叠窗口大小单位:秒。 见图 检测每一个分类器的性能在不同的重叠窗口尺寸单位:分钟。 在图 四种算法的分类精度相比,本文中的示例数据集。实验结果如表所示 分类精度的四个分类单位:%。
数据类型 分类器
DT 物流 安 该方法
训练样本 71.35 84.62 87.40 96.88
样品测试 76.29 86.07 91.18 98.73
网络pseudohealth信息的识别不仅是前沿,专注在新闻传播领域的焦点和数据挖掘领域的困难。尽管一些学者研究这个问题,提出了很多识别方法,现有方法主要是单一分类器或批处理,导致这一事实不能有效分类或识别精度不高。基于网络pseudohealth的类标签属性数据集的信息,提出了一种组合算法集成数据分区和分类更新基于之前的研究结果,LDA主题识别模型,集成数据集分割算法,支持向量机数据块分类集成模型、语义偏移检测算法,和其他方法,并采用网络爬虫技术进行仿真实验基于pseudohealth新浪微博平台的信息在流行从2月1日到3月31日,2020年。仿真结果表明,该组合算法提出了具有良好的优越性在pseudohealth信息的主题识别和阻止和集成数据集分类的实例。相比之下,DT,物流算法,安,实验结果表明,该方法的集成分类精度高于这三种方法,这充分说明了该方法的可靠性和实用性。将来pseudohealth信息的识别具有重要意义对维持正常的公共卫生秩序,建立一个“健康中国。“传统主流媒体具有较高的权威性和影响力。作为一个公共社会的工具,媒体应该执行它的功能为观众和社会服务,加强检查的假健康信息澄清其真实性。同时,媒体也应该及时澄清pseudohealth信息,扰乱人们为了防止pseudohealth信息的传播,这也是一种媒体维护自己的形象和权威。因此,我们不仅要关注存在的问题在各种信息的传播,而且还充分利用技术手段和工具来抑制pseudohealth信息的进一步传播和影响力。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。
这项研究得到了山东省自然科学基金的一般程序(没有。ZR2019MG021)和全国统计科学研究计划重点项目(没有。2019 lz19)。研究也支持了社会科学规划(显性纪律)山东省研究项目(没有。19 bysj19)。