文摘

web 2.0的快速发展,网络用户之间的信息生成和传播成为深深交织在一起的。如何有效地,立即发现新兴主题,进一步揭示其演变规律是如何仍然开放,迫切需要研究和实践领域。提出了一种新颖的进化早期新兴话题检测及其法律基于动态社区检测方法识别框架的事和可伸缩的异构社会网络。框架由三个主要步骤。首先,一个可伸缩的事和复杂网络表示KeyGraph通过的文本特征进行深入细致的分析研究,建立了各种各样的数据来自异构在线社交网络平台;其次,提出了一种新颖的动态社区检测方法,检测到新兴主题建模的事和可伸缩KeyGraph网络;第三,统一定向话题传播网络建模被众多短的文本包括微博和新闻标题设置和前面的话题演化规律早期发现新兴主题是被充分利用本地网络变化和模块化的优化和定向话题传播网络的事。证明了我们的方法产生更好的结果在大量的计算机生成的测试数据和大量真实网络数据爬从主流异构社会网络。

1。介绍

近年来,快速发展的web 2.0,社交网站如Facebook,新浪微博和推特在短时间内崛起,一个巨大的异构在线社交网络逐渐形成,在线用户的功能作用是改变消费者的信息扩散器和生成器(1]。不同的在线社交网络的信息传播方式深深融合。例如,来自新闻网站的信息转发到个人(微)博客等网站后,有特定的组织;BBS(电子公告栏)的信息控制广播属性共享个人博客(微)。以上活动使不同用户之间的信息生产和传播成为一个巨大的data-heterogeneous,的事,可伸缩的复杂网络。因此,如何有效和及时的识别和揭示了新兴的话题,甚至其演化过程(法律)可伸缩,的事,和异构的在线社交网络已成为热门的研究话题检测与跟踪领域的位置。

广为人知,复杂网络的社区结构,代表一个集群的网络节点密集交织边缘群体内部但零件之间的连接(2]。群落结构不仅揭示了粗结构的网络也扮演着重要的角色在网络的功能3,4]。例如,社会网络中的社区代表真正的拥有相同的背景的人组成的社会团体或利益;社区合作网络代表了相同的相关论文研究课题;生物学或电路网络中的社区代表节点组相同的网络功能。邓et al。5)提出的一个热点话题检测算法基于一个网络社区。林和Guan-Zhong。(6]还发现使用社区的论坛热门话题检测的概念应用于BBS网络和验证效率和一致性的手动校准确定主题和社区。一些研究人员(7,8]发现疫情传播机制利用复杂网络的社区结构分析。识别复杂网络的社区结构通常可以实现特定的基于应用程序的目的,因此,社区标识和拓扑演化发现已成为最重要的焦点在复杂的网络结构分析领域。虽然在网络社区检测/鉴定研究多年,大多数存在方法设计简单的静态网络(9,10)和统一均匀网络(11]。然而,在现实世界和本文研究社会网络的事和异构由于时变时间互动的社会沟通和不同的社交网络平台。

虽然已经得出结论,传统的静态社区检测方法可以应用于异构网络的事的事网络转化为一系列静态的快照子网通过重新排列节点和链接属于相同的时间戳,而在这个过程中,社区的语义关系和动态属性可能有暴力甚至受损或丢失。另一个结论的方法是识别网络社区而不是从头开始的存储和使用的历史结果执行静态社区检测算法以及网络演变过程(12,13]。然而,大量的时间和空间需要计算成本和算法的效率随着时间变得慢飞行。最近,社区发现的事和异构网络已成为一位杰出的挑战,吸引了很多研究人员的关注。太阳et al。14)提出了一种基于狄利克雷过程混合模型的算法描述异构星型模型网络社区检测。

总之,当应用现有的事和异构网络社区检测方法,通常遇到的三个主要问题:(1)大多数存在社区检测方法提出了简单的静态和均匀网络;(2)语义关系和动态属性的社区暴力破坏,甚至直言不讳地失去了由于人为分割网络;(3)大量的计算时间和空间存储所需的成本是历史社区结构信息作为初始输入值。

旨在解决这些问题,我们提出一个新兴话题识别与进化拓扑发现框架基于一种新型动态社区检测方法的事和异构社会网络。首先,一个统一的简短文本网络是由建模从不同的在线社交网络异构简短文本爬成一个网络。表示为KeyGraph共存的基础上爬短的文本的关键词。其次,一种新颖的动态与著名的静态社会社区检测方法检测算法核心嵌入式的鲁汶算法和应用KeyGraph,结果,新兴主题形式的新生社区发现。最后,话题演化拓扑发现的深入分析社区的规模和节点变化与社区发现的事。

本文的其余部分介绍如下。我们简要回顾相关研究工作部分2,我们的方法提出了第三节介绍,数值结果和评估第四节,最后,我们的结论和讨论我们未来的工作第五节

话题检测与跟踪(TDT)由DARPA 1996年首次提出。最初的目标是自动识别网络舆情话题从网络媒体流的形式,进一步跟踪先前确定的传播和扩散过程/检测到的话题。之后,TDT)已成为关键技术领域的互联网舆论/情绪矿业领域。经典TDT)方法包括潜在狄利克雷分析(LDA) (15)和概率潜在语义分析(查询)16)方法。他们的主要概念是一个主题是基于概率分布的套词汇同现的概率分布之间的套词是最大化/优化。

社区的另一个重要属性是一个复杂的网络,除了小世界和无尺度特性。它不仅提供了一个粗的网络结构,也实际上戏剧和代表网络的某些功能。社区描述节点这意味着节点之间的亲密关系是密切相关的群体内部,而节点不同社区之间是松散的联系。

Sayyadi和Raschid17)提出了一个图分析方法来检测和识别主题;他们提议KeyGraph算法将原始文本数据转换成一个术语图基于属性彼此共存关系的文本数据。此外,他们利用一个社区检测方法所构造的一部分KeyGraph网络社区拓扑和他们认为每个确定社区作为一个检测到的话题。如今,社会网络结构分析检测是一项基本技术,许多创造性的方法来发现社区在静态和均匀网络已经部署在过去几十年。图一般可以分为两类:基于理论算法和sociology-based算法。Sociology-based算法一般可以分为分裂和聚合方法。经典的GN算法(2)属于分割方法,其基本原则是获取网络社区通过寻找边缘分数最高的中间性和通过移除它从网络。纽曼提出了一个快速聚合算法(9与GN),类似的准确性,但性能明显改善。金发女郎et al。18]提出了基于模块化的鲁汶算法优化方法,这是一个简单,高效和易于实现的方法寻找大规模网络中的社区结构。该方法实际上是一个贪婪的优化方法,试图优化tag-indexed“模块化”的每一个可能的目标网络的分区。

然而,分辨率极限问题是常见使用modularity-based社区检测方法在静态和同构网络。这里的“静态”主要是指时间和整个网络结构保持静态不随时间变化。解决极限问题意味着网络的规模足够大时,在一个大一个小社区网络不能正常、高效地检测到,导致重叠社区的现象。这种现象称为分辨率极限问题时在大规模网络中使用模块化方法用于网络社区检测(19,20.]。然而,这些社区检测方法缺乏的能力处理的事和不能直接用于异构网络。作为我们的问题识别和揭示新兴主题及其进化大规模拓扑,时变,异构的在线社交网络,之前和经典社区检测方法面临巨大挑战。

2.1。动态社区检测同类社交网络

跟踪检测到社区的拓扑演化需要考虑的事网络的动态特性。通常利用和总结框架(21- - - - - -24)是应用静态社区检测算法为每个静态快照子网节点和边组成的具有相同的事网络的时间戳,然后生成的进化社区通过计算社区两个相邻静态快照子网之间的亲密关系。丰田章男和Kitsuregawa25首先选择这些web页面高关注数字(翘拇指号码)作为种子网页最后获得社区包括种子网页页面利用亲密计算算法与hyperlink-induced主题搜索为核心计算框架。Palla et al。26)获得的社区拓扑快照使用集团渗透聚类方法和评估其有效性通过科学家们的合作网络和电信用户网络。Chakrabarti et al。27)提出了一个进化与k - means聚类模型和层次聚类方法来确定社区法律进化的过程中动态社区检测。

另一个政策跟踪社会进化的事网络是通过整合优化模块化和本地网络的结构变化成一个多目标优化问题。其主要概念是治疗社区拓扑之前的时间戳 作为基线网络,目前时代t时,网络的变化范围 ,也就是说, 是主要的焦点以外的整个网络的时间是t。通过检测的社区拓扑变化时间范围期间网络的一部分 虽然网络的其他部分保持不变来提高整个社区检测算法的效率28- - - - - -33]。杨和刘28]提出了物理增量模型建模节点之间的关系的一个网络控制的吸引力和排斥力在牛顿力学提出。其他增量动态社区检测方法通常利用网络的关键特性;这些算法首先获得社区网络的拓扑结构初始急射通常使用静态社区检测方法,然后随着时间的飞行,网络人时间范围期间的变化重新计算及其社区拓扑识别(29日- - - - - -33]。然而,这些方法通常用于同构网络。

2.2。动态异构社会网络社区检测

最近,在异构网络社区检测已成为一个热点研究。赵et al。34)提出了一个统一的框架,用于检测和跟踪社会进化。他们首先模型的实体和它们之间的关系相同的时间戳到异构网络。其次提取基于快照功能,delta-based特性,利用自回归方法最终获得社区拓扑结构及其演变规律。太阳et al。35]介绍了社区进化多模网络和提出一个框架,分区多模网络为一组bipartie网络。太阳等人使用网络集群(14)来描述社区并提出了Evo-NetCluster自动检测社区。吴et al。36)提出了一个张量分解框架来检测异构网络社区在一般的事。然而,这些方法要么需要知道这个拓扑方案像明星或双边的或需要满足张量分解的要求,这是棘手的/难以在真实的应用程序中使用。唐et al。37)提出了一个主要模块化最大化方法,他们首先分析了模块化的不同关系维度,然后根据其特征值和特征向量的关系维度,主要结构特征提取;第三,他们每个网络相关的主要结构特点获得整个网络的共享社区拓扑这将使整个网络模块化优化。

web 2.0和移动网络的快速发展,事件检测异构数据近年来吸引了更多的关注。杨et al。38)提出了一个统一的模型来动态地学习如何代表异构的数据具有不同特性的社交网络。刘等人。39)治疗突发新闻作为异构社会数据流和发达国家如何从动态数据流中提取事件。刘等人。40)延长了异构数据流语言场景;曹et al。41)开发了一种knowledge-preserving和增量社会事件检测框架使用卫星系统,进行应用在异构社会网络。

在求和,TDT方法上面给出面临三个挑战如下。首先,尽管大多数先前的话题检测方法具有良好的结果在静态在线社交网络,他们很少与新兴的研究话题检测的事和动态社会网络下的情况。其次,话题检测的研究主要集中在寻找新的方法来检测显著或明显的主题。他们很少注意揭示主题随时间演化过程同时话题检测过程的飞行。第三,解决极限问题还没有被很好地解决了现有模块化社区检测方法。

原来在这篇文章中,我们提出一个新兴话题检测和拓扑演化识别框架,首先检测新兴在线主题其次揭示其发展全球异构拓扑在线社交网络。

3所示。问题公式化和方法

3.1。KeyGraph网络建模

介绍我们提出动态社区检测方法之前,我们首先建立KeyGraph短的文本来自异构网络社交网络平台两个步骤。首先,每一个短的文本被建模为一个节点/顶点的关键网络图。任意两个短的文本之间的联系被建模为它们之间的边缘状态。其次,我们获得相对应的关键词设置每个短使用分词技术。因此最初的简短文本网络可以缩写为复杂网络基于关键词的亲密。

在本文中,我们为KeyGraph表示和名称G= {V,Eij在以下方式}, 代表了ij短的文本来自异构社会网络和标有一个数字, 的关键词集吗i短的文本使用分词技术, 是常见的关键词的统计数字属于关键词集的CCj; i网络上的节点, 代表之间的边缘ij短的文本这是常见的关键词数量密切相关Nij。的关系Eij 下列公式所示:

出于演示目的,差406文本包含新闻标题和微博都是爬的多的人参与了1000年的10月1日,2019年。其在随机和KeyGraph Fruchterman Reingold分布如图1。图1(一)KeyGraph的随机分布,图吗1 (b)KeyGraph Fruchterman Reingold分布。它显示了一个明确的社区结构。

3.2。动态社区检测和主题检测的事KeyGraph网络

不同于静态网络,应该注意到短的文本形成的网络爬实际上来自异构在线社交网络的发展随着时间的飞行,和网络的关系也是如此。因此,Keygraph网络建模3.1节其实的事和可伸缩的网络。在本文中,我们表示它的事和可伸缩的网络Gt= {Vt,Et}的规模,增加大小的节点Vt或边缘Et甚至他们随着时间的推移。

在本文中,我们提出一个动态社区检测方法,不仅可以有效地缓解解决极限问题,但也能发现社区结构的事和可伸缩的网络Gt。其主要思想是在给定时间的时代t在当时的时代网络的社区结构 ,也就是说, 假定使用静态鲁汶明确检测算法和已知,网络改变的一部分/在时间间隔变化吗 而不是整个网络,即 在时间 是我们的重点。通过计算当地时间间隔期间改变了子网的亲密 与历史的社区网络 ,当地两偶图。当地两偶图由两组节点。一个是群节点拥有宽松的亲密与社区 并表示 ,和另一组节点与社区紧密联系的 表示为 通过应用静态社区检测。,Louvain algorithm on subnetwork is composed of both the 和历史的社区 ;也通过应用鲁汶算法 ,全新的新兴社会与历史的社区联系松散 将被检测到。网络的社区结构的事在当时的时代 ,也就是说, 通过结合社区发现检测结果在这些由两部分构成的图形在时间范围 通过简单地利用本地改变网络属性,复杂性和运行时间仅依靠当地改变网络的一部分,而不是整个网络 ,也就是说, ,使其在大规模的网络应用程序。我们提出了动态社区检测的流程图方法呈现在图2

显式地展开具体的动态社区检测方法之前,我们提出一些相关和重要定义提前我们的算法如下密切相关。

3.2.1之上。相关定义

定义1。亲密程度的节点网络的时代t,也就是说, 被定义为 使用以下公式计算: 在哪里 网络的相邻矩阵吗 , 意味着节点j属于网络 ,和节点属于网络

定义2。亲密的节点属于地方改变了网络的时间范围 与网络 被定义为 使用以下公式计算: 如果 ,相信该节点在时间范围 与历史的社区网络有着密切的关系 相比之下,网络 ,如果 ,然后相信节点在时间范围 有一个宽松的和历史的社区之间的关系 相比之下,网络

定义3。纽曼和Girvan提出的模块化模型提出了以下公式: 在哪里 是相邻矩阵, 是克罗内克函数, 当两个节点j在同一个社区;否则, 总网络节点的集合, 节点的程度吗j在整个网络,的总重量是整个网络的所有边缘。
通过重写克罗内克函数 ,模块化的功能可以改写以下公式: 在哪里C代表任何的社区网络, 在社区代表总边C, 代表总边的总和与社区C
在我们的论文,模块化收益指数被定义为模块化模块化价值差异之前和之后重新分配节点走进社区,节点j属于模块化增益计算使用公式(4)和(6)。

3.2.2。动态社区检测方法

呈现基本和必要的定义和公式后,我们给我们的具体框架动态的事网络社区检测方法如下。

首先,对网络的事 由短的文本和其关系爬来自异构社会网络平台之前,当时的时代t,这里的静态社区检测算法称为鲁汶算法是利用获得的社区结构 其次,通过平分本地不同网络在时间范围 分成两组两偶图;一个是子网表示 组成的新兴节点有密切的关系/连接历史的社区 ;另一个是子网表示 的新兴节点组成的松散关系历史的社区网络 ,和我们建议公式(3)来量化当地不同节点的亲密时间范围之内 与历史的社区网络 最后,通过应用静态社区检测方法为当地不同的网络 ,我们可以确定这些新兴的社区从属属性节点在时间范围内 ,也就是说,which nodes should belong to the historical communities of network 随着新兴节点历史社区在时间范围内 ,和哪些节点应该假定整个新兴社区在时间范围 ,分别。

正如上面提到的,有一个静态社区检测算法嵌入和应用当我们确定双方的网络的社区结构 ;这里的鲁汶算法选为嵌入式静态社区检测方法。众所周知,高价值的模块化表明一个好的团体目标网络的分区。这一标准最大化利用各种优化算法一直是一个受欢迎的研究集中在过去的几十年。然而,难以找到的全局最优模块化。因此,提出了许多近似优化算法。在这些算法中,贪婪的概念引入的金发et al。18),称为鲁汶算法已被证明是最有效的算法具有优良的性能,特别是在大规模的网络。鲁汶算法实际上是分层集群社区检测方法,主要包括两个步骤。在第一步中,模块化优化本地社区的每个节点;在第二步中,聚合节点在同一个社区到出错,从而形成一个新的粗粒度的聚合网络。这两个过程是迭代进行直到全球价值网络模块化停止增加任何运动网络中的节点,具体鲁汶算法如下。步骤1:将目标网络的每个节点作为每一个社区步骤2:为节点和它的邻居节点j,我们计算出模块化收益 和它的最大价值 ,如果 ,然后我们认为节点和节点j应该属于同一个社区第三步:重复步骤2的所有节点和它的邻居节点j直到没有社区改变网络的所有节点步骤4:压缩网络与社区作为一个聚合节点,聚合节点的程度的原始程度相应的社区第五步:重复步骤1到步骤4直到模块化增益压缩网络 整个网络没有增加,算法停止

模块化增益 在步骤2节点加入到社区的邻居节点j计算使用公式(6)。

因此,我们充分展示了动态社区检测算法与鲁汶方法嵌入网络的事

主要算法如下:步骤1:利用鲁汶算法获得网络的社区结构 步骤2:角平分线当地不同网络在时间范围 分成两组两偶图使用公式(3),表示为 ;步骤3:应用鲁汶网络的方法 ,并结合社区检测结果作为最终的社区网络的结构

3.2.3。话题检测方法

更详细的过程我们新兴话题检测方法介绍如下。我们首先构建命名KeyGraph网络使用关键字的简短文本爬异构社会网络平台根据建模规则所示3.1节;其次,采用的的事属性构造KeyGraph,我们提出利用动态社区检测方法识别的社区结构的事KeyGraph网络;第三,对于每个KeyGraph社区发现,我们计算的总人数参与(即。,reviewing, thumbing-up, retweeting) each detected community, which actually reflects the keywords of the original short texts belonging to the detected community; finally, we rank and select the top-N detected communities according to the sequence of the statistic value. According to the selected top-N communities, the highest frequently mentioned keywords of the detected community are chosen as the keywords of the newly detected emerging topic.

直到现在,我们的话题检测方法基于动态社区检测方法已经完全发现,及其具体算法如下:步骤1:KeyGraph模型用于最初的简短文本网络映射到KeyGraph网络,因此短的文本数据集的时代t改变到KeyGraph网络 步骤2:确定网络的社区结构 使用鲁汶算法步骤3:添加新的新兴简短文本数据在时间范围 进入网络 和形成新的网络时代 ,也就是说, 步骤4:确定网络的社区结构 使用动态社区检测方法第五步:重复步骤3和步骤4,直到短的群落结构形成的网络 已经完全识别第六步:计算的总人数参与每个检测到的网络社区 第七步:选择——顶部N社区的最总参与人数统计第八步:选择前N社区,计算关键词的频率从属每个社区,选择频率最高的头n个字的关键字对应的主题

3.3。方法减轻分辨率限制问题

需要指出的另一个优点是,我们提出的动态社区检测方法能有效缓解解决极限问题常见modularity-based社区检测方法复杂的网络。出于演示目的,图3提出说明动态社区检测方法可以缓解分辨率限制问题,自适应预设定离散时间步 提出了动态社区检测方法。

提出了图3时代,在最初的时间 ,我们设置了离散时间的第一步 ,在时间范围 ,当地改变网络是由节点标记为橙色圈和被指示为社区1,浅蓝色的圆圈被指示为社区2,和青色圆被指示为社区3;在当时的时代 ,我们自适应设置第二个离散时间步 ,在时间范围 ,相应的地方改变了网络是由节点标记为青色圆,粉红色的圆,和浅蓝色圆圈,表示如社区3,社区,和社区2,分别有新兴顶点在社区2和社区3与社区时代之前的时候 ,全新的新兴社区和社区4是在时间范围 ;在当时的时代 ,我们设置时间步 ,在时间范围 ,当地改变/不同的网络是由节点标记为粉色圆圈,深蓝色的圆,社区4扩大规模与新兴顶点,同时整个新兴社区检测到5。该模式后,这一过程持续进行和递归嵌套的方式随着时间的推移。因此,对的事和可伸缩的网络,通过选择合适的时间步长 ,解决极限问题可以有效地缓解。

3.4。话题演化法识别

在本节中,我们关注的是如何发现社区拓扑发现话题的演化3.2.2节。应该注意到构造KeyGraph网络实际上是一个有向图的话题传播形势下而不是简单地话题检测场景,因为话题传播通常反映了信息传播方向话题扩散过程中,虽然我们的话题提出了检测方法3.2.2节说明使用的事,无向KeyGraph网络。因此,在本节中,我们首先应该扩大模块化公式(4)为无向网络到定向网络所示的公式。 在哪里n边的总数, ,j直接网络的相邻矩阵元素值, 是节点的入度, 是节点的出度j 是克罗内克函数定义。

同时,我们扩大了模块化收益 对无向图的有向图,它在以下公式: 在哪里 节点的程度吗, , 代表了一个新的边缘连接的地方改变节点数量与历史的社区, 代表边缘与社区的总数C

因此,用公式(8)和(9)动态社区检测方法3.2.2节,我们可以提出话题演化算法拓扑结构识别的目的。步骤1:建模用户在当时的时代t参与确定的主题3.2节作为导演的话题传播网络 ;步骤2:确定指导网络的社区结构 利用我们提出的动态社区检测方法;步骤3:添加当地改变了用户参与到导演话题传播网络 在时间范围 并形成了可伸缩的网络 ;步骤4:分离当地改变用户在时间范围 偶图,有一个松散的关系网络 ,表示为 ,和其他与网络有着密切的关系 ,表示为 ;第五步:对子网组成的 ,采用动态社区检测算法,提出的增量信息历史的社区 在时间范围 是发现。步骤6:子网组成的 ,全新的新兴社区标识使用提出了动态社区检测算法;第七步:合并的社区检测结果步骤5和6,社区话题传播网络的检测结果在当时的时代 标识;

4所示。实验和结果

来验证我们提出的话题检测的有效性和演化法识别方法,我们使用人工复杂网络由计算机生成的数据和真实的网络由原始数据来自异构和受欢迎的社交媒体平台。相比之下社区的检测结果在静态鲁汶算法和提出的动态与鲁汶算法嵌入社区检测方法,提出了动态社区检测方法会产生更好的效果,验证其有效性和可行性。

4.1。在人工计算机网络实验

在人工生成的数据组成的复杂网络,我们生成人工复杂网络通过选择节点的连接概率p在同一个社区,在社区之间的节点连接概率设置为1 -p和价值观p和1 -p令人满意的 ,这意味着亲密之间的节点在社区内大于节点的社区。在这里,人工电脑网络,其中包含68个节点, 设置为0.78。社区使用静态鲁汶算法检测结果呈现在图4(一)。

同时考虑到财产的事在我们的实际情况,人工电脑网络的节点和边的属性保持不变。虽然我们随机选择节点随着时间的推移,时代的一部分t标记,这些随机选择节点和边在当时的时代t组成的网络 ,剩下的节点被视为新兴网络的节点在时间范围 ,社区使用动态社区检测方法检测结果如图所示4(b)。

4显示了人工电脑网络社区检测结果与68节点和边随机与参数 描述(a)使用静态鲁汶社区检测算法和(b)使用与鲁汶社区检测算法,提出了动态检测方法。节点使用相同的颜色代表,他们属于同一个社区使用相应的社区发现算法。蓝线并联的x相互重合的分离线不同的社区。蓝线并联的y相互重合时间的分隔线;从图可以看出4(b),三个蓝线并联x相互重合分离三个不同的社区。

为了验证的效率提出了动态与鲁汶算法嵌入社区检测方法,我们选择五组人工生成的数据和使用静态鲁汶算法和动态与鲁汶算法嵌入社区发现方法,检测计算机生成的人工网络的社区结构。相同的操作环境下,这两个算法的时间效率比较,如图5

这可以从图中找到5静态鲁汶算法的运行时间基本上是相同的动态社区发现方法与鲁汶算法嵌入当网络规模相对较小(网络的顶点和边的数量相对较小),但随着网络规模的快速增长,我们的动态社区检测方法的运行时间与鲁汶算法嵌入远小于简单的静态鲁汶社区检测算法。

4.2。实验的话题检测真正的简短文本数据爬从真正的社交网络平台

在本节中,我们随机选择86短的文本从10月1日,2019年10月3日,2019年,来自异构为人工注释在线社交网络。后,人工注释的结果用于验证结果验证我们提出的动态社区检测方法。的86个短的文本,46个文本短爬从新浪微博社交平台,17个文本短crwaled从新浪新闻网站社交平台,15个文本短爬从搜狐新闻网站社交平台,和8个短的文本从凤凰爬新闻网站社交平台。在手工注释的结果,总86短文本分为11个社区,其中最大的社区包含28件短的文本,和最小的社区包含2件短的文本。

根据KeyGraph网络的建模规则,上述人工注释简短文本数据转换为无向KeyGraph网络,86个节点和530边缘,其中244边的重量占总数的46.04%,整个网络的边缘。KeyGraph网络的重量范围是0,1,2。

正如我们知道的重量边缘社区最终检测结果有很大的影响,并通过应用提出动态与鲁汶社区检测方法算法嵌入在不同的边的权值,结果比较表1,检测率计算使用以下公式: 在哪里n人工注释的总数是短的文本,然后呢年代社区是误测的总数。

从表1,它可以发现社区检测比手动简短注释文本是更高,这意味着社区检测结果更准确的重量时阈值设置为1 0和2。因此,在话题识别实验中,我们选择边缘权重阈值为1。

除了飞行员实验选择最佳边缘权重阈值,接下来,我们将使用真正的简短文本数据抓取新浪微博,新浪新闻网站,搜狐新闻网站,和凤凰新闻网站,主流新闻发布网站和微博平台是受欢迎的。我们媒体意味着公民新闻,主流新闻发布网站和微博平台在中国现在是受人欢迎的公民新闻。总共262246件短数据从10月1日2019年10月3日,2019年,从前面列出的异构在线社交网络中提取真正的实验数据集。

根据时间戳,爬短文字总数10月1是85980块,爬的总数10月2是86768块,短的文本和爬短的总数文本10月3是89498块。中文分词和关键词提取上执行这些爬原始实验简短文本数据,和五个关键词选择代表原来的短新闻标题和文本内容的微博。

在这里,时间间隔设置为1天(24小时)和边缘权重阈值设置为1,当我们使用动态与鲁汶算法嵌入社区检测方法。首先,我们构造一个网络 10月1日使用的简短文本数据和网络 有85980个节点和420800个边缘KeyGraph网络的基于模型定义。提出应用动态社区检测方法与鲁汶算法嵌入KeyGraph网络 其次,添加10月2日的原始爬简短文本数据,然后网络KeyGraph网络来标示 ,然后KeygGraph网络 有172748个节点和1506583边缘,提出应用动态社区检测方法与鲁汶算法嵌入KeyGraph网络 ;第三,添加爬原10月3日到KeyGraph网络短文本数据 ,然后新变化KeyGraph网络来标示 ,KeyGraph网络 有262246个节点和3250235边缘。我们应用提出了动态社区检测方法与鲁汶算法KeyGraph网络上围住 节点的数量对应于每个社区图所示6,横坐标代表总发现社区数量和纵坐标代表的节点数量属于每个相应的社区。

KeyGraph模块化的网络 是0.886,222133个社区被发现通过使用动态与鲁汶算法嵌入社区检测方法;节点包含在每个相应的社区如图6。横坐标代表总发现社区,数,纵坐标表示节点的数量在每个社区。

从图6,可以发现,几乎所有节点社区的大小是小于250和社区大小小于100的比例大于99%。从社区发现的结果,我们可以发现信息的稀疏分布的在线社交网络的不同来源(222133社区发现的262246短的文本),和社区的规模一般较小。

根据我们提出的动态与鲁汶算法嵌入社区检测方法,然后我们计算的总人数参与(回复,转发,竖着大拇指)短(对应于每个社区);我们排名,选择的社区参与者的人的总数大于100000;然后我们计算每个社区的关键字的频率,排名,和获得前五名的关键词作为我们的代表关键词检测到的话题,如表所示2

如表所示2的五大关键词5短社区在第一列,所选择的关键字被假定为主题的关键词检测到第二列所示,参与的人数和总简短的文本的方式讨论,转发,或者竖起大拇指第三列所示。

从表可以看出2,前5个关键词暴露出现频率最高的简短文本社区”男子篮球、亚洲锦标赛、伊朗,中国团队,亚洲;“他们发现主题形式“中国男篮亚锦赛,”参与的人的总数最高,约391238在线用户来自异构社会网络平台。

4.3。验证主题的演变规律

在本节中,检测到的主题“中国男篮亚洲冠军,”参与的人数最高,选择拓扑演化来验证我们的话题识别的目的。368件相关的新闻和微博,参与的人141318年的总和,其中10月1日有1324人8045人于10月2日,3872人在2019年10月3日。

建模的相关数据后发现主题“中国男篮亚洲冠军”为指导主题网络传播所示的定义3.4节,总共有14318个节点和14962个边缘。社区动态社区检测方法的检测结果直接话题传播网络如图7

检测到336个社区和模块化价值0.514通过设置时间步,一天(24小时)。这个话题传播网络的动态属性如表所示3。它可以发现,直到10月3日,约92.48%的用户已经参与这个话题而大约56.19%的用户被添加于10月2日,约258人在10月2日是新兴的社区。

从图8,我们可以看到节点的规模属于社区每天检测对应主题“中国男篮亚洲冠军”在10月2日达到高峰,逐渐消退至零,直到10月6日。拓扑发现话题演化从10月1日为零,在10月2日达到峰值,逐渐消退至零从10月3日到10月6日。

5。结论和前景

在本文中,我们提出一个话题探测和拓扑演化识别框架基于动态社区检测方法。首先,一个统一的事KeyGraph网络共存的基础上构建关键字的简短文本爬异构在线社交网络平台。其次,提出了一种动态的事网络社区检测方法和构造上的主题是被其利用KeyGraph网络。第三,对检测到的话题在前面的步骤中,定向话题传播网络是建立基于短的文本检测相关的话题,和主题演化拓扑主要反映节点规模的社区发现。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。