-means algorithm for hotspot discovery in internet public opinions is presented based on the analysis of existing defects and calculation principle of original -means algorithm. First, some new methods are designed to preprocess website texts, select and express the characteristics of website texts, and define the similarity between two website texts, respectively. Second, clustering principle and the method of initial classification centers selection are analyzed and improved in order to overcome the limitations of original -means algorithm. Finally, the experimental results verify that the improved algorithm can improve the clustering stability and classification accuracy of hotspot discovery in internet public opinions when used in practice."> 研究热点的发现基于改进——在互联网舆论 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

计算智能和神经科学

PDF
计算智能和神经科学/2013年/文章

研究文章|开放获取

体积 2013年 |文章的ID 230946年 | https://doi.org/10.1155/2013/230946

Gensheng王, 在网络舆论热点研究发现基于改进 ”,计算智能和神经科学, 卷。2013年, 文章的ID230946年, 6 页面, 2013年 https://doi.org/10.1155/2013/230946

在网络舆论热点研究发现基于改进

学术编辑器:Saeid Sanei
收到了 2013年3月31日
修改后的 05年6月2013年
接受 2013年7月21日
发表 2013年9月10日

文摘

如何有效地发现互联网舆论的热点是一个热门研究领域相关的研究人员为政府和企业中扮演着重要角色在互联网找到有用的信息从质量数据。一种改进的 ——在网络舆论热点发现算法分析的基础上提出了现有的缺陷和原始的计算原则 则算法。首先,一些新方法是为了网站文本进行预处理,选择和表达网站文本的特点,分别和定义两个网站文本之间的相似度。第二,集群原理和初始分类中心选择的方法进行了分析和改进,以克服原有的局限性 则算法。最后,实验结果验证改进算法可以提高集群的稳定性和分类精度在网络舆论热点的发现在实践中使用时。

1。介绍

互联网的快速发展产生深刻影响的国家,社会,个人和如何有效地掌握质量数据和提取热点信息在其中是一个迫切需要解决的问题的管理网络舆论。解决这个问题具有广泛的应用前景:首先,对个人,它是一个重要手段迅速、方便地获取当前社会热点信息;第二,为企业,它可以帮助企业掌握最前沿的信息和热技术在他们的领域,通过这种方法提高企业竞争力;特别是,它可以为政府有关部门提供重要线索,及时了解当前社会舆论的方向,有利于政府分析和引导公众的意见,积极引导网络舆论的健康发展;与此同时,帮助政府掌握在每个时期的人们主要关心的问题,以及在这些问题上的观点和态度,使科学和正确的决策,保持社会稳定,真正达到目的,互联网为社会和人民服务。过去,舆论工人依靠手工工作的内容网页发现社会的热点信息,不仅工作效率低,而且容易主观影响,使结果偏离事实。目前,搜索引擎,在某种程度上,满足人们的需求迅速获取所需的信息在大规模和混乱的信息;然而,它采用简单的关键字匹配查找信息导致大量的冗余和不相关的内容在搜索结果中,导致冗余信息所需的信息,导致不完整的分析主题的相关人员,很难有一个全面的掌握。通过搜索引擎发现热点信息的前提是,分析师们事先知道这种问题的存在,所以这种方法显然是滞后,不利于发现新的问题,解决问题容易错过最好的时机,使传播和难以控制的问题。因此,如果实时热点信息在一段时间内将获得和互联网要定期在当前社会热点话题发现,自动的解决方案成为一个有价值的研究方向。

2。文献综述

目前,网络舆论的研究热点发现国内外主要关注互联网信息处理和数据挖掘等两个方面。 在互联网信息处理方面,国内外学者的主要研究内容包括分词技术、测量多维向量空间的文章主题(1]。 互联网数据挖掘方面的内容涉及信息采集的公众意见、自动分类、自动聚类,等等,这种方法取得了一定的成就。例如,哈默尔和埃尔坎,的基础上,分析了原始的短缺 ——及其原因,提出了一种新的模式挖掘和分析网络舆论信息,并说明了应用程序的文本挖掘在网络舆论的分析2];克里斯蒂娜分析了网络舆论的基本情况,设计了一个分析模型的互联网舆论基于主题(3];Andreas结合的优势综合partitional集群和凝聚的集群和提出一种增量式层次聚类算法和应用在网络舆论热点话题的发现(4];瓦格斯塔夫和罗杰斯结合自然语言处理和信息检索技术,提出了一个非常有效的单一粒度话题识别方法的事件特征(5];丫一个热点事件的发现系统设计面向互联网新闻报道,能够自动发现网络上的热点事件在任何时期(6];布拉德利和Managasarian,根据要求互联网舆论的分析,建立了网络舆论热点问题的发现和分析系统基于聚类(7]。对于大规模网络舆论信息,如何提高有效性和效率的分析和处理以及分析的准确性和效率网络舆论热点仍然是当前研究的热点。

目前,国内外研究网络舆论的聚类方法主要分为以下类别:partitional集群、层次聚类、基于密度的聚类,人工神经网络聚类,聚类是基于互联网,集群广泛应用等等。根据不同的对象、应用领域和目标的集群,上有具体要求质量,效率,和结果可视化程度聚类的聚类方法。因此,应当选择合适的聚类算法根据特定的条件,其中文本聚类, 集群,则由于其特性,比如增量,批处理,快速,和效率,以及它的优势,适用于动态过程质量数据的网络媒体信息,广泛应用于检测网络热点话题。然而,聚类质量 则算法过度依赖于集群的初始数量和初始聚类中心,并在实际应用中被征服。

——algorithmis最好的信息数据挖掘中的聚类方法可以提取和发现新的知识。但这是发现 则算法用于处理孤立点的数据有很大的局限性(6- - - - - -8]。本文试图提出一些改进克服这些限制,利用强大的分类能力的算法来发现在网络舆论热点。

3所示。文本预处理

热点发现取决于网站的文本聚类可以被描述为一个给定的文本集 ,最终获得一个集群的设置 , 得到所有 , ,并使目标函数 达到最大或最小值,其中 总文本值, 是最终的聚类数,然后呢 ,

3.1。特征的选择和表达网站文本

向量空间模型(VSM)通常被用来表达每个文本。在这个模型中,每个文本 被认为是一个向量的向量空间。 作为衡量特征向量,这衡量给每个词的重量 。看到(1)计算的重量:

在(1), 词的频率 在文本中 , 是所有的文本数量的单词 中包含的文本 , 是总文本数量。特征选择后,文本 向量的形式,每个维度的价值是对应的吗 重量值,因此文本可以表示如下:

其中 词汇条目和吗 特征向量的维数。然而,在特征选择, 仍然是非常大的,至少成千上万的维度和成千上万的维度最多在每个相应的文本向量的非零词频很少,这使得文本特点显示高维度。

3.2。相似的定义

摘要余弦距离是用来测量网站文本之间的相似度,定义了两个文本的相似度 如下:

为了减少的影响,不同长度的文本在文本相似度计算,每个文本向量已经集成到单位长度。看到(2):

因此, 和余弦相似性的两个文本向量的点积;也就是说,

4所示。热点发现算法的推导过程

4.1。 则算法原理

步骤 聚类算法则如下(8)(见图1):(1)选择 对象作为集群的初始种子原则;(2)重新分配每个对象最相似集群的集群种子的价值;(3)更新集群的种子;,再计算在每个集群对象的平均值,并采取中值点对象作为新集群的种子。(4)重复 每个集群,直到没有变化。

4.2。限制 则算法

则算法用于集群数据,聚类结果的稳定性仍不够好;有时,聚类效果很好(当数据分布convex-shaped或球形),虽然有时聚类结果有明显偏差和错误,而在于数据分析。是不可避免的集群数据孤立点,指的是一些数据的情况偏离高密度数据密集的区域。集群意味着点(所有数据的几何中心点一类)作为新集群的种子 集群计算则进行下一个聚类计算,在这种情况下,新聚类种子可能会偏离真实的数据密集的区域,进一步导致聚类结果的偏差9]。因此,发现使用 则算法处理孤立点的数据有很大的限制。

4.3。改善的 则算法原理

最初的 则算法选择 点作为初始聚类中心,然后迭代操作开始。不同选择的初始点可以实现不同的聚类结果。减少的聚类结果对初始值的依赖和集群稳定性的提高,更好的初始聚类中心的搜索算法可以通过集群中心(9,10]。

在搜索过程中,抽样数据试图不失真,能够反映原始数据通过随机数据抽样分布,如图2其中,原始数据分布(a)、(b)抽样数据分布。

采样数据和原始数据集群 则算法,分别和小的变化最终集群中心。因此,抽样方法适用于初始聚类中心的选择。为了减少抽样对选择初始聚类中心的影响,每次提取的样本集应该能够被加载到内存中,最好让提取的样本集的总和 次相当于每个样本数据中提取原始数据集。集群 则算法产生一组集群中心,分别;的量 次生产 集群的组织中心,然后聚类准则函数值的比较进行 组集群中心,一群最低集群中心 值作为最优初始聚类中心。

对分段保护大型集群成小集群的标准函数,该算法将初始集群 。根据质量要求和时间, 价值的妥协的选择。更大的 价值能够扩大搜索范围的解决方案,和某些极值点附近没有初始值的现象消失了。利用原始数据搜索初始集群中心的集群 则算法和输出 聚类中心,然后指定的每个集群数量的减少 研究价值。

4.4。改善初始分类选择的中心

的基本思想新的选择初始聚类中心的方法是基于假设的分布网站文本集已经知道;一个好的初始聚类中心应该满足以下规则。(1)分别选择的初始中心属于不同的集群;也就是说,任何两个初始中心不能相同的集群;(2)选择初始聚类中心应该代表这个集群,也就是说,是尽可能接近集群中心。选择 文本作为初始聚类中心,同时确保 文本就属于不同的集群,这样严格的约束是很难通过随机抽样尽可能因此认为,为了减少抽样对初始聚类中心的影响, 倍量和样本量 ,其中, 是文本的文本集的数量,价值的 是,每个样本大小应该投入的主要存储和尽可能满足这一事实的总和的样本吗 次相当于原始文本集,每个示例文本采取集群 ——集群算法产生一组文本 集群中心,分别; 取样操作产生的时期 在所有集群中心,然后会凝聚的层次聚类算法单键集群获取算法 集群,是最终的平均价值 初始聚类中心。不同的部门所采取的策略 算法,则会凝聚的层次聚类算法不存在初始聚类中心的选择。它首先将每个文本视为一个集群;文本的中心是集群,集群的每一步将两个最相似的集群组成一个集群,直到所有的文本都集成到一个集群或只 集群。与类似的文本聚类集成到一个集群逐渐和分层聚类能够自动生成不同的层次聚类模型。

会凝聚的层次聚类算法和组合 则算法,基于层次聚类算法 ——写给选择初始聚类中心;产生的集群中心 的方法抑制烧结的空间则会凝聚的层次聚类算法。初始聚类中心的选择方法通常是描述如下。(1) 取样的时候被文本集,分为 样本集 (2)每个样本集执行 则算法,分别 集群中心。(3)另一个集群是完蛋了 集群中心的会凝聚的层次聚类算法(单键算法),直到只有 集群,每个集群的平均值作为初始聚类中心的下一个步骤 则算法。

从之前的算法,这是看到的文本集样本小于原始文本集,所以搜索过程的初始聚类中心较少,迭代次数少,速度快;同时,也确保了最终属于不同的集群和集群中心有足够的表示。

本文中使用的具体算法流程可以参考参考8]。

5。实验验证

5.1。数据采集和预处理

本文验证数据采集和预处理主要包括以下步骤。 舆论数据采集采用网络搜索技术,遍历整个web空间指定范围内收集各种各样的舆论信息,通过索引器获得的信息建立索引,并保存在索引数据库中。数据采集的对象主要是各大门户网站,论坛,博客,等等。 网站文本的分词处理:舆论信息获得的非结构化数据,预处理。中文分词的研究已经成熟。本文采用计算技术研究所的汉语词法分析系统ICTCLAS。 文本特征抽象:选择特性的目的是进一步过滤工作没有太多的信息量,减少影响舆论热点的发现,达到网站特征向量的降维的效果,以提高加工效率和降低计算的复杂性。降维的形式采用本文构建评价函数的网页主题通过统计方法,评估每个特征向量和选择单词会议网页的预设阈值作为特征项; 特征表现:本文采用向量空间模型(VSM)表明舆论信息;这里省略的具体形式。

5.2。实验结果

考虑到消息是高度关注在互联网信息和很容易收集信息,本文以网络新闻为验证数据。首先,随机选择8919件新闻的政治新闻12月1日,2012年到2012年12月15日,作为测试样本获得的集群功能的网页。如网页来自真正的网站,网页数据有一定的复杂性和随机性。分词处理后,总共有68213字;52173个单词后得到停止词处理为后续计算执行信息;把前10%的话,6512字,网页文本的特征向量。测试结果如表所示1,2,3。表1是词汇和词频的统计表格与大型信息增益值;表2是新闻热点主题的统计结果;表3是本文算法的聚类性能比较和普通吗 ——(8]。


钓鱼岛 美国 中国 叙利亚 俄罗斯 军事 日本 日本首相安倍晋三(Shinzo Abe) 奥巴马 乌戈•查韦斯

12156年 8973年 9987年 4612年 3416年 1256年 3421年 1281年 2521年 1452年


新闻的主题 的页面数量 功能词

钓鱼岛 1524年 主权,日本首相安倍晋三(Shinzo Abe)岛购买、护送、军事、战斗机,美国,中国,日本
叙利亚危机 642年 反对派穆斯林什叶派,逊尼派,岜沙,反恐,伊朗,俄罗斯,美国,阿拉伯联盟


典型值 原始的 算法则落入实验这一区间的频率 改善的 算法则落入实验这一区间的频率

0.20 1 0
0.30 2 0
0.40 2 0
0.50 4 0
0.60 5 0
0.70 7 9
0.80 2 11
0.90 1 8
1。0 0 0

在表3, 意味着 测量值, 分布广泛的用来说明不同算法的性能(3- - - - - -6,11]。之前介绍的使用数据和具体计算项目中可以看到[8]。从表可以看出3存在稳定性差的普通的聚类结果 则算法和分散 衡量价值,但改进的聚类算法有更好的聚类结果的稳定性,更为集中 衡量价值,更高 测量平均值。实验表明,改进的聚类算法大大提高了其准确性和稳定性。在普通的使用 则算法, 值聚类结果的散射从0.60到0.75;在改进算法的使用,其值从0.75到0.85的稳定。

6。结论

如今,互联网已经成为人们获取和发布信息的主要渠道,网络舆论信息的指导作用越来越大;它引起了业内广泛关注如何进行公众意见收集和热点地区发现的基础上,网络舆论信息采集以及跟踪和分析热点来保证信息安全。在这样的背景下,本文基于分析各种聚类算法的优点和缺点,选择 ——集群作为网站文本聚类模型,并提出一项新发现算法的网络舆论热点通过改善其缺点对初始数量的集群和初始聚类中心。测试说明了方法的适用性和可靠性。未来的研究应集中在集群网络信息文本的特征,为了最终实现聚类算法适用于所有的语言。

引用

  1. h·刘和j·h·许”,研究网络舆论热点检测,”公告的科学和技术,27卷,不。3、421 - 425年,2011页。视图:谷歌学术搜索
  2. g·哈默尔和c·埃尔坎”,基于k - means算法及其应用在网络舆论热点检测”模式识别,32卷,不。6,521 - 534年,2012页。视图:谷歌学术搜索
  3. l·m·克里斯蒂娜“文档聚类在减少维向量空间,”《计算机应用,27卷,不。10日,37-49,2011页。视图:谷歌学术搜索
  4. h . j . Andreas”文本文档聚类的研究”,计算机模拟,24卷,不。7,84 - 99年,2010页。视图:谷歌学术搜索
  5. c·d·瓦格斯塔夫和罗杰斯”与背景知识约束k - means聚类”,《计算机工程与应用程序,21卷,不。5,467 - 479年,2011页。视图:谷歌学术搜索
  6. b . t .是的,”研究舆论热点检测基于支持向量机,”科技管理研究,25卷,不。2、64 - 69年,2009页。视图:谷歌学术搜索
  7. p·s·布拉德利和l . s . Managasarian“K-plane集群、”杂志的全局优化》16卷,23-32,2010页。视图:谷歌学术搜索
  8. y唐问:美国荣,“基于k - means聚类算法的实现,“湖北民族学院杂志》上,22卷,不。1,第71 - 69页,2011。视图:谷歌学术搜索
  9. z h·杨和y·t·杨,”文档聚类方法基于SOM的混合和k - means, "计算机应用,27卷,不。5,73 - 75年,2012页。视图:谷歌学术搜索
  10. y . f . Zhang和j·l·毛”,一种改进的k - means算法”,计算机应用,23卷,不。8日,33节,2009页。视图:谷歌学术搜索
  11. 李n和d·d·吴”,使用文本挖掘和情感分析的在线论坛热点检测和预测,“决策支持系统,48卷,不。2、354 - 368年,2010页。视图:出版商的网站|谷歌学术搜索

版权©2013 Gensheng王。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点2110年
下载1047年
引用

相关文章