文摘

随着互联网的发展,现在网络上的信息量迅速增长,导致增加了困难,获取有效的信息。特别是对于个人、企业和机构提供大量的信息,这是一个几乎不可能完成的任务整合和分析网络信息通过人力资源以极大的困难。网络热点事件挖掘和分析技术可以有效地解决上述问题,缓解信息过载,将冗余信息,提炼核心信息。在本文中,我们解决上述问题和研究热点事件主题句生成技术领域的热门事件采矿和设计一个混合事件候选集构造算法基于主题的核心词映射和事件三选择。算法使用PAT-Tree技术提取高频核心词汇的热点话题和地图高频单词到句子生成事件的核心句子的一部分。事件核心句子的其他部分提取的热点话题,使事件三元组作为候选元素,和句子包含事件元素提取的热点话题。组事件核心句子生成的两种方法混合,过滤和排序获得候选集,可用于建立一个词主要基于服务频道(MSC)模型。在这篇文章中,我们还提出一种改进的基于MSC模型和用它来提取事件主题的句子。基于上述研究,实现热事件分析系统。系统分析了现有主题数据,并使用事件主题句生成算法研究了生成热点的标题,即热事件。 At the same time, the topics are displayed from different dimensions, and data visualization is completed. The visualization includes the trend change of event hotness, trend change of event sentiment polarity, and distribution of event article sources.

1。介绍

网络热点事件挖掘和分析技术可以有效地解决上述问题,缓解信息过载,将冗余信息,提取核心信息。网络热点事件是指一系列的新闻热点话题在网上与突然的增长在短期内,它的特点是巨大的数量,快速传播和广泛传播。一般来说,网络热点事件热点,人们关心和含有大量的有效和有用的信息,这是对企业和政府监管部门,具有重要意义,也普遍互联网热点,网民关注。大多数当前的研究热点事件主要是基于聚类技术的热点话题的发现,但主题不能等同于事件,这是聚合来自多个热点描述相同的事件,而事件是一个短语,可以高度概括一个话题的主要内容,我们可以了解事件主题的标题。网络热点事件的研究挖掘技术涉及到自然语言处理技术,如主题检测与跟踪(TDT),热点集群技术和标题一代技术(1]。这种技术是我的有价值的信息人们根据特定需求从大数据信息。与其他学科技术往往是cross-fused形成新的应用程序。其中,热点挖掘是数据挖掘的衍生产品,在热点和热点挖掘通常是自然语言。基于加工、矿业的重要信息的目的是通过算法实现。话题检测与跟踪技术可以自动识别新主题,不断跟踪已知话题新闻媒体信息的流动,可有效发现生成热事件在一段时间内,事件挖掘的理论基础。热点聚类技术可以集群和分析在互联网上大量的新闻热点。通过非制导的集群的新闻热点,热点内容的相似文章可以聚集在一起形成一个初步的热点事件。标题一代技术可以生成主题标题、热事件,通过分析新闻热点话题内提取句子主题的核心内容和使用压缩技术。

一般来说,主题更专注于学术的体现集群,而事件是简短的表达主题的主题。互联网热事件是一种语言的词汇现象,反映了热点问题和热点事件,人们普遍关心的一段在国际、国家、或区域环境。热事件密切相关的社会现象,表达公众舆论的功能和监测舆论突出。通过发现网络事件,我们可以全面了解当前的方向从点对点网络舆论,这是重要的及时发现负面的公众舆论和预防突然的大传播舆论(2]。基于现有的主题,我们使用multidocument标题生成技术来分析话题热点,从而生成事件主题句的话题。事件主题句可以反映主题内容,让用户知道这个话题显然,节省用户的时间阅读热点的话题。因此,事件主题句生成技术的研究热点话题挖掘技术具有非常重要的现实意义和价值,研究的主题是少,非常有意义和具有挑战性的研究。

热点挖掘技术高速发展在1990年代,这个技术用于我的有价值的信息为人们从大数据信息根据特定的需求。这种技术通常是与其他学科层层叠加形成新的应用程序,其中热点挖掘是数据挖掘的一个衍生物,它和热点挖掘通常是基于自然语言处理的热点,挖掘重要信息的目的是通过算法(3]。其中,热点集群技术属于数据挖掘的重要手段之一;热点中使用这种方法可以发现潜在的模式从一个大的想法和复杂的热点集群类似热点到一个类别和分析基于星团内的热门话题和intercluster热点信息,实现数据挖掘的目的。

热数据挖掘方法是指一个计算机处理技术从热数据中提取有价值的和有效的信息和知识,它是数据挖掘的一个重要分支。与其他大数据分析方法,它通常是用来处理非结构化数据。传统的数据分析方法难以直接应用于热点的分析,和中国更难以进行分析和利用,因为其特殊的特点。一直以来,学术界一直由学者在数学和计算机领域的这种类型的数据的研究方法。话题检测与跟踪技术可以自动识别新的主题和跟踪已知话题的新闻媒体流的信息。它可以有效地发现生成热事件在一段时间内,事件挖掘的理论基础。热点集群技术可以对大量的执行聚类分析在互联网上新闻热点。通过非制导的聚类的新闻热点,文章具有类似热点内容可以聚集在一起形成一个初步的热点事件集群。标题一代技术可以提取这个话题的核心内容,分析内的新闻热点话题,并使用句子压缩技术来生成主题标题,即热事件。然而,随着方法的发展和社会的需要,国内外许多学者已经取得了很大的进步在矿业近年来的研究热点,已涉及到很多领域,如管理、医学、政治和金融。

语言的话题检测与跟踪系统的设计在文献[4]。文献[5)设计增量TF-IDF(基于术语frequency-inverse文档频率)主题事件检测系统,这是验证工作。文献[6)计算词的重量通过选择对数似测试,使用不同的语言,它可以处理文档的不同来源,不同类别。文献[7]分析热点挖掘,提出了一个词频统计方法,有效地自动分类操作,这个想法处理允许自动化的机器处理的热点。文献[8)提出了概率索引方法和基于概率模型自动分类的要求。文献[9调查向量化表示,标准化处理、热点和分类方法。文献[10]给出了一个完整的研究框架对热点数据预处理和数据分析的结果。大多数以前的研究集中在算法和模型的影响,尽管他们不深入研究数据的隐藏含义及其应用在各个领域,他们都促进的推广和应用自然语言处理方法,如关键字提取,coword分析和情感分析,为进一步的研究打下坚实的基础。

矿业的发展热点,热点集群技术也开始迅速发展。热点地区属于非结构化数据,因为中国的特色,中国的研究热点矿业起步相对较晚,到目前为止还没有很成熟的方法,主要依赖于国外的研究理论,本身仍在探索的过程中。然而,汉语是非常深刻的,多重含义,没有空间互相分离的话,也有明显的区别与西方语言(如英语,所以不可能直接应用国外方法。文献[11]研究热点分裂和提出相关的分割方法。本技术的后续研究也开始迅速发展和其他相关学科技术被引入。近年来,热点挖掘的理论在中国也被发达。文献[12)建立了一个lexical-based特征选择方法在这项研究中,结合与TF-IDF词典编集。的过程中语义图结构描述的热点,文献[13)应用语义相似度矩阵和执行这样的相似性计算基于相应的最大公共子图和基于k - means算法进行聚类分析,结果表明,热点相似度的准确性显著提高在这种处理方式,可有效满足相关的应用程序的要求。文献[14]第一选择两个最遥远的点数据集作为初始聚类中心,然后将其他数据点划分为集群接近它们,直到集群数据点的数量达到了最大值,计算中心的质量,获得新的集群中心根据一定的规则,并执行上述过程周期性减少初始聚类中心的影响设置聚类结果。文献[15]改善计算复杂度高的问题,传统的k - means算法在处理大规模数据集和加快收敛集群中心通过一批聚类方法和更新集群中心使用随机梯度下降法。文献[16)改善了传统层次聚类算法基于组平均距离,解决了这个问题,其层次结构不能修改一旦确定,和改进算法的运算速度。此外,文献[17)使用网和wordnet扩大语义,从而实现集群的一个更大的改善效果。单向的聚类算法在文献[18)是一种增量式聚类算法的典型代表,有简单的原理和运行速度快的优点,常应用于在线话题检测任务,但是该算法文档输入顺序的影响,和不同的聚类结果可能是由于获得不同的文档输入顺序在处理相同的文档集合。为了解决这个问题,文献[19]引入了“代”的概念在单程的操作算法,输入文档中设置批次,集群每一批文档的第一,然后聚类的初始聚类结果与现有的主题集群,这有效地缓解order-sensitive问题order-sensitive单程算法的问题,但使聚类结果的影响初步聚类过程。在文献[20.),k - means聚类算法的基础上,介绍了树冠算法初始化数据,和算法不断更新的结果结合罩中心树冠算法和k - means算法类集群中心虽然canopy-k-means算法的并行操作是基于Hadoop平台实现的。在文献[主题聚类结果21)基于这个方案新闻数据的输入顺序影响较小,但仍需要提前设定的主题,这是很难预测准确地在复杂的网络环境。在文献[22),提高单次的算法设计和实现的操作结果的算法独立于数据处理的订单通过引入策略,如双向聚类添加一个时间片设置在第一个集群和集群中心的类,而词的阶段分离,热点特征提取,基于Hadoop和主题发现进行了优化平台,提高算法的运行效率,分别。然而,在巨大的热点处理任务,Hadoop平台仍然有一定的缺陷,因为它需要经常读写磁盘文件系统,它是低于基于内存的火花平台的处理效率和性能。

3所示。热点挖掘算法实现数字媒体在移动互联网环境中

3.1。热点挖掘算法

热点话题挖掘和跟踪的实现首先需要处理消息到一个数字形式由计算机可以理解的使用热特性表征,然后实现话题簇的划分的聚类算法,最后显示和跟踪热点话题基于主题暑热评价方法。本章研究相关技术在上面的过程,主要包括四个方面。(1)在本文中,我们提出一个热门话题特征表示方法结合NE-LDA和火炉。(2)其次,我们使用一个单程的聚类算法。单次的聚类算法用于实现新闻热点话题的发现,和单次的算法的并行实现方案设计基于火花的平台。(3)介绍了熵权法的话题热度评估和主题暑热客观评估是基于三个视角:一次,媒体和用户。(4)基于热点话题挖掘的结果和位置属性的用户,有推荐的热门话题。

热点的主要功能特性表示每个新闻报告中提取特征,并将其转换成数字形式,可以被计算机所理解,这是基本的工作热点话题挖掘和跟踪任务,对后续处理过程有重要影响等划分主题集群(23]。LDA常用热点特征表示方法包括使用主题模型和火炉词向量模型,分别关注热点功能的不同方面,。LDA描绘了一个热点的话题,而word2vec关注热点的语义信息描述。然而,新闻,可能有多个报告相同的事件出现在不同的位置,当LDA的描述他们的主题将是非常相似的,导致他们被分类在同一主题。为了解决这个问题,目前,学术界和产业界统一热点位置和人等关键词命名实体和命名实体识别技术与LDA技术结合,构建NE-LDA模型,可有效提高主题识别的性能。尽管NE-LDA模型可以提高新闻识别性能,热点上下文之间的语义信息仍NE-LDA模型中忽略,所以本文提出了一个模型,融合NE-LDA和word2vec综合特性表征的新闻报道24]。基于上述分析,本部分首先介绍了LDA主题模型的基本原理,命名实体识别技术和word2vec模型,最后详细描述了融合NE-LDA word2vec方法用于本文。

LDA主题模型主要是基于贝叶斯原理模型所描述的热点话题信息。热特性表征的主要功能是提取每个新闻报道的特性,并将其转换成数字形式,计算机可以理解。是热点话题挖掘的基本工作任务和跟踪和有重要影响的后续过程划分主题集群。在实际应用程序中,每一篇文章的主题分布和这个词分布在每个主题计算基于输入文档收集和给定的主题,及其具体的操作过程和原则下,阐述了LDA概率图模型如图1

经过几十年的发展,学科的热点矿业一直在发展和演变。热点处理的类型越来越丰富,富有,快速变化的技术,它实现了扩张和应用场景。它可以概括为以下特征。作为一个应用领域,热点挖掘整合了大量来自多个领域的技术,和图2显示的例子有重大影响的学科热点矿业的发展。这一特点规定是不实际的讨论热点挖掘隔离与其密切相关的学科,无论是理论研究还是工程应用。一个特定的任务通常需要一个聪明的不同的技术组合;例如,我自然语言热点数据,更受欢迎的将热点挖掘与网络爬虫和自然语言处理技术,详细的论文为特定的应用程序。热点挖掘的集成和应用各种学科知识的目标可以显著提高发现和集成来自多个学科的新方法。参见图2

根据培训结果LDA的话题模型,所有文档的主题分布和这个词分布的几个主题。因此,document-topic矩阵和topic-word矩阵,和主题信息可以概括和分析了这两个矩阵。LDA document-topic分布狄利克雷分布所示(1);也就是说,任何文档的主题分布γd如下,在哪里β的hyperparameter分布,设置为默认值在这个实验中,因为没有更多的先验信息,和它是一个n维空间向量,n代表了预定数量的话题K,这也是hyperparameter的模型:

主题的进化力量可以表示基于热细分模式又一次切片的结果。一般有两种方法来衡量对辣度:第一个是基于文档的数量下的主题,但这方法是粗糙的,另一个是基于通过LDA模型生成的概率值。在本文中,我们选择的平均概率计算方法基于期刊摘要的特点和主题的数量之间的关系和样本量,结合概率差值的阈值设定方法,使文档的概率值属于几个话题。通过这种方式,平均概率计算方法可以清楚地显示的强度演化这个话题。具体的强度计算公式所示以下方程:

KL散射是相似的共同措施之一。KL散射距离的测量是由以下方程:

公式表示之间的区别这两个话题组诉如果这种差异较小,那么这两个主题是更相似。然而,这种相似性的度量应该是对称的,和KL距离差异不对称,所以相似性的测量可以通过使用JS距离。公式如下:

不同时期维度下的数据结果进行相似性度量和匹配概率变化的热点词可以反映内容进化趋势的主题,根据主题和结果计算强度可以反映同一主题的关系强度在不同的时间区域(25]。本文算法的优点充分利用基于词图的最短路径算法,并使用合理的重量和边得分点。最后搜索还实现了集群的动态评分结束节点。因此,它具有信息容量和语言的连贯性。各方面表现良好,得分最高。话题演化分析的分析过程如图3滑动时间窗口,数据选择的分割实验是结合主题定位的相似性度量。参见图3

3.2。实现数字媒体热点移动互联网环境中挖掘算法

互联网集团沟通是一种特殊形式内容,渠道,在网络空间和结构,一种沟通行为基于意义生产和信息收集,不仅展示了独特的形成条件和扩散过程,但也有互联网通信的基本特征。有三个主要原因的形成网络组通信。①第一个原因是社会原因。社会学理论表明,社会结构的失衡的主要原因是网络组通信。当这些社会矛盾积累到一定程度,没有地方传播,社会媒体成为一个公共平台,这些矛盾和冲突表达和通风。因此,行为影响的互联网集团沟通充斥着大量交织在一起,相互冲突的社会矛盾和隐藏的问题。②第二个原因是心理上的原因。社会心理学研究表明,整体社会满意是网络组通信的一种内在的原因。“社会心理地图”由中国科学院心理学研究所包括生活满意度(LS)、收入满意度(是)、社会地位的满意度(SPS),当地经济满意度(LES),国家经济满意度(NES)和社会正义的满意度(sj)。的向下转移重心的互联网应用,大量的青年团体是隐藏“小损失”的心理状态和互联网参与社会弱势群体和贫困所带来的社会结构的不平衡,和相对剥夺的感觉刺激了群体性事件的产生。 ③ The third reason is technical causes. The essence of clustering is the process of dividing samples into different categories according to the degree of similarity between the sample features in the data set, and it is required that the similarity between samples in the same cluster should be as large as possible, and the similarity of samples in different categories should be as large as possible. It may be small. The development and maturity of mobile Internet technology will provide model innovation for Internet group communication at the basic level and become the technological motive for shifting Internet communication from “individual fragmentation” to “group circling.” The “mimetic environment” formed by social media is an important field for people to break free from social norms, present themselves, and seek group identity on the one hand, and various elements of the real society are amplified and fermented by the network on the other. On the other hand, various elements of real society are amplified and fermented by the Internet. Therefore, although Internet technology brings technical advantages to the dissemination of group information, it also brings the possibility of the formation and proliferation of negative information, such as social conflicts, civil pressure, and group polarization.

主题是主题暑热辣度的变化在不同的时间片;介绍了“主题指数”的概念提出的文献[26),使用“主题指数”来表达这一主题的暑热的变化过程,来表达更多的图形主题的变化,来表达主题的变化T随着时间的推移;线图主题指数随时间变化的描述。从趋势图的主题索引,你可以看到多长时间主题的过程T已经从一代一代的高潮,你可以了解当前的发展状况的话题,等等。构建的过程线图的主题指数变化如图4

随着事件的发展和互联网用户的反馈,一个新闻话题会延长很多相关的话题,也就是说,主题内容的变化,因此本节的重点是每个小标题的相关关系在不同的时间片。可能会有话题之间的相关性在不同的时间片,也是这些次要的内容之间的相关性变化构成整个主题发展的整个生命周期。每个时间片上的次要的开采利用上面提出的复合模型,和次要表示为向量加权词。挖掘这些次要的内容通常需要使用之间的相关性相似度度量,计算基于小标题之间的相似性和次要的前和后在一定的时间内,跟踪整个生命周期发展的热门话题。每个热门话题有以下四个阶段。第一阶段是萌发阶段:一个主题的出现,也就是说,一个话题刚刚创建并还没有被广泛报道。第二阶段传播阶段:主题是注意到,随着网络媒体报道,网民逐渐关注的主题,这是登山时间这个话题成为热门话题。第三个阶段是高潮阶段:主题的高峰期,与信息发布的各种告密者,或一个重要事件的主题。高潮阶段后,从山顶往下看,主题将会下降,因为新出现的话题,但这一阶段的热量仍很高。第四阶段是下降阶段:主题将显示一个下降的趋势随着时间的推移,直到它消失了。 In the whole life cycle of hot topics, along with the development process of topic generation, spread, expansion, sublimation, and extinction, the development stages and changes of topics are analyzed.

4所示。实验设计和验证

20日实验网站与新闻内容发表在一周内测试语料库,和500年新闻文章被用作标记数据。实验包括两个方面的算法复杂性和模型性能,算法的复杂性测试主要措施提出的时间消耗label-vec聚类模型和基线不同规模的语料库。算法复杂性测试测量的时间消耗提出label-vec聚类模型和基线不同尺寸下的语料库。性能测试包括两个部分:星团内指标和intercluster指标。

测试语料库由500块在一周新闻内容,分为十个测试全集增加大小。实验结果对比如图5

的时间消耗label-vec算法明显优于k - means和单次的算法。此外,label-vec时间消费的增长速度相对较慢,而语料库增加。

见图5,模型的时间消耗也不是线性增加的,因为对于每个样本,计算是否核心样本需要计算样本的距离,并且在它位于桶中,样本数量的增加,样品的平均数量的桶也增加。

模型的性能包括两个部分:内部和外部索引。外部指标包括Jaccard相似性、调频指数,和兰德指数;内部指标包括DBI指数和邓恩指数。性能分析测试语料库是8000新闻新闻实验室的数据。其中,1000块标记数据用于标记指标。

6测试外部label-vec算法的性能指标和使用单程和k - means算法作为参考。与单程和k - means聚类算法相比,外部label-vec算法的性能指标更好,尤其是调频指数和RI指数明显优于单次的k - means,表明label-vec算法能更有效地处理intercluster集群在新闻热点集群。这表明label-vec算法能更有效地处理intercluster关系更容易和识别异常值和噪声数据。参见图6

7测试内部label-vec算法的性能指标和使用单次的算法和k - means作为引用。的内部性能指标label-vec算法比单次的算法和k - means算法,特别是信息熵明显更好,这表明label-vec算法可以处理集群形状相应的新闻热点更有效密度聚类。社会学理论研究表明,社会结构的失衡的主要动机是互联网集团的传播。当前社会的过程中,深刻的变化。由于社会结构的不协调,社会群体通常的反对,矛盾或冲突。当这些社会矛盾积累到一定程度上,他们无处可传播。社交媒体已经成为一个公共平台,这些矛盾和冲突可以通过表达和发泄。因此,网络组通信的行为效应水平充满了大量的社会矛盾和隐藏的问题相互交织,相互交织在一起的。这表明label-vec算法可以处理集群形状对应新闻热点更有效地通过密度聚类。从上面的性能测试,可以看出,内部和外部的性能指标label-vec k - means聚类模型比和单次的模型。 The reason is that compared with the K-means algorithm, the label-vec algorithm does not need to decide the number of cluster centers in advance to prevent the problem of local optimum, and it has better performance in dealing with heterogeneous clusters and outliers. It also has better performance in handling heterogeneous clusters, outliers, and noise points. Compared with the single-pass algorithm, the similarity calculation model of label-vec takes into account multidimensional information, such as words and semantics, and the accuracy rate is higher. See Figure7

从图8,我们可以看到,本文的算法优于单程和k - means算法的信息内容和语言的连贯性。我们分析了98事件主题句生成的三种算法,发现基线方法往往产生“八卦”活动主题句;即生成事件主题句并不代表的主题活动,但主题句表现更好的语言连贯性与信息内容得分。基线算法精度低的原因是,该算法使用提供的文字语言的条件概率模型获得的最高得分顺序的话,单词之间计算条件概率;概率越高,越容易两个词一起使用,所以语言一致性是保证。然而,该算法考虑的信息内容仅是有帮助生成候选句子的集合,所以由此产生的事件主题句信息内容得分较低,平均语言连贯性的分数。基于词图的最短路径算法,使用预定义的句子长度,导致“截断”的现象;生成的句子可能是不完整的,这样可以在一定程度上保证信息内容,但句子连贯性得分不高,因为句子截断。本文算法利用基于词图的最短路径算法,并使用合理的权重,边的权值为得分和还实现了动态评分集群在最后结束节点搜索,所以它表现良好信息内容和语言连贯性和得分最高。然而,本文算法在执行这个词比基于最短路径生成算法的句子压缩性。 See Figure8

挖掘有效的热点信息通过一定的技术手段对大量的网络热点数据,本文提出了一个研究框架,数字媒体热点挖掘算法在移动互联网环境下基于研究现状,研究方法和研究过程中的不足在多方面的研究。热点话题挖掘并没有一个统一的评价标准来判断结果。权重的概念纳入传统的语言模型训练这个词向量,提高重要的热点词的特征表示,便于后续有效的提取有价值的信息的特征提取,并结合卷积神经网络实现特征提取的语义和上下文深度探索不同参数对实验结果的影响,通过调整参数的实验。实验结果表明,卷积核的参数选择对热点分析的f值有影响,有一些不同的参数选择对不同的数据集。

算法结合k - means算法和单次的算法的优点,提出了聚类算法label-vec选择与最大密度点移动的范围,实现优化的k - means算法的选择和选择的k - means密集的点作为初始目标点移动自动根据密度值。在算法设计中,不同于单通道,提出了动环的概念范围的聚类方法选择加快点遍历和减少计算工作量。实验结果表明,label-vec算法的最大密度选择分在一定范围内移动有更好的整体性能的聚类效果和运行时间。

在不同的数据集大小,加速比增加随着计算节点数量的增加,因为节点的数量的增加提高了并行算法的运行效率。与此同时,数据集规模越大,加速比的增加越明显。在相对较小的数据大小,加速率增加的趋势逐渐与节点的数量的增加,因为在大规模数据集下,增加计算节点的数量可以有效地共享计算体积,从而提高算法的执行效率,但当数据集规模很小,太多的计算节点将导致过度的沟通成本和节点之间的调度开销,这使得算法的效率提高不明显。

5。结论

在信息技术和大数据的时代,大量的非结构化的描述性信息隐藏在互联网。热点挖掘技术主要是提取和矿山未知的信息从大量的原始未经处理的文件,它允许用户快速获取有效信息大量杂乱的信息,做出准确的判断和处理相关问题,甚至阻止未来通过处理提前根据开采的信息。热点挖掘技术的进一步成熟,热点采矿技术的发展和广泛应用是一种必然趋势在未来,这项技术将越来越广泛应用于各个领域的科学研究、社会和生活。在本文中,我们关注热点集群和主题两个方面提取。首先,我们介绍详细热点挖掘的主要理论知识,了解热点挖掘之后,我们了解更多关于聚类分析和主题提取。进一步,基于理论研究,本文爬行的文章在互联网上通过网络爬虫技术,分析了爬的文章R语言和关键词进行深入分析,得出结论:组织关注的重点是集中在某一个方面。分析凝聚层次聚类算法的原理,提高重复计算的缺点的凝聚层次聚类算法基于单链接法计算,介绍三重存储,并提出一种改进的凝聚层次聚类算法。从实验结果可以看出,改进后的算法可以减少算法的运行时间,提高效率。最后,处理热点功能选择,表示为一个文档词矩阵进行后续分析。聚类和主题提取的k - means算法用于聚类,和TF-IDF模型被用于主题提取的文章,和热点地区分为五类,然后分类主题提取更好的研究热点的内容。

摘要热点话题挖掘解释的背景和意义,国内外的现状研究热点话题挖掘详细研究和分析,以及总结了现有算法的优缺点;建模是一个重要的步骤在新闻文本主题挖掘;提高新闻主题挖掘的正确性,文本引入word2vector模型训练单词包含上下文语义向量,向量算法和加权词。改善新闻主题挖掘的正确性,文字介绍了word2vector模型训练词向量包含上下文语义,提出了加权向量算法结合了词权重计算TF-IDF算法和词向量,分析粘性分层聚类算法的原理,提高了重复计算的缺点凝聚层次聚类算法基于单链接法,并引入了三元存储提出一种改进的凝聚层次聚类算法。因为提高凝聚力的层次聚类算法的缺点,不能改变结果和k - means算法,随机选择初始聚类中心,提出了一种复合模型聚类算法,将两种算法结合在一起。改进的凝聚层次聚类算法可以提供新闻主题的数量和初始聚类中心的k - means算法和k - means算法可以弥补的缺点改进的凝聚层次聚类算法。在热点话题挖掘方面,本文仔细分析了新闻网页的特点,改善传统的暑热TF-PDF算法评估,介绍了用户参与包括阅读和评论的数量。了解热门话题的整个过程,本文介绍了“主题指数”,提出time-slice-based主题挖掘方法,把一天当作一个时间片,分析每日热门话题理解老热点话题的变化状况和挖掘新的。通过分析《每日热门话题,我们可以理解老热点话题的变化状况,探索新的热点话题。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者声明,关于这个研究,不存在利益冲突。