文摘
社区检测已成为越来越受欢迎的工具来分析和研究复杂网络。许多方法已经提出了准确的社区检测,其中一个是谱聚类。大多数谱聚类算法实现了人工网络,和社区的精度检测仍不满意。因此,本文提出了一个凝结的谱聚类方法与电导和边。在这种方法中,最相似的节点是基于特征向量空间和边的凝聚。此外,电导是用来识别密集连接集群而凝结成块。该方法显示改进的性能相关的工作和被证明是高效的从实验中真实复杂网络。
1。介绍
近年来,社会网络中检测已成为一个主要的主题领域,如生物学、计算机科学、物理学、应用数学(1- - - - - -3]。在网络中, ,在那里是一组节点和节点之间的边(关系),一个社区是一组节点彼此紧密相连的边和节点的社区展示类似的特征。例如,在社会网络中,人在一个社区显示类似的利益这一趋势在一个社区,例如,购买相同的产品在网上销售。在生物网络、蛋白质在一个社区展示类似的特定功能,而且,在万维网,网站聚集在一起显示同一主题的网页。科学家发现在许多领域做出重大贡献社区通过许多不同的方法,例如图分区(4,5),层次聚类(6,7),和谱聚类8,9]。
在图分区,分为网络集群的方式连接集群的边的数量最少,也就是说,一个集群的边缘是密集的内部比外部(也称为电导(10])。此外,最低数量的大小需要指定集群。Girvan和纽曼3]介绍了流行的图像分割算法。Girvan和纽曼3)使用模块化集群(也称为电导)社区,但方法是慢于其他社区检测算法(11,12]。后来,Djidjev [13)提出了一个计算更快的版本的算法。然而,电导并不总是明确的定义,定义可以在某些情况下(假5]。因此,图分区仍然需要进一步的推论。提出了大量的方法来解决这个问题。著名的方法之一是引入的纽曼(5]。他们与模块化最大化利用谱聚类算法,模块化的功能才可能实现集群网络,结果证明光谱集群与集群电导可以有效地社区。
层次聚类用于复杂网络因为他们经常有一个层次结构(14]。分层集群由一个部门(15)和集聚阶段(16,17]。在划分阶段,网络被认为是一个集群在开始和网络分为集群在每个迭代中,最不同的节点在哪里分开。在集聚阶段,类似的节点是凝聚在一起,直到满足终止条件或集群结块为一个社区。然而,层次聚类需要一个定义明确的相似性函数和聚类可以不准确,如果所有节点都相似。
然而,类似的问题节点和相似性函数可以解决节点投射到高维特征空间使用谱聚类,因为预计特征向量显著区分类似的节点在特征空间更疏远的位置。使用特征向量空间的原因而不是使用原始的观点是,原始聚类的属性是由更多的不同的特征向量空间。谱聚类的原始分转化为特征向量空间中的一个点集,聚类是通过分析特征向量空间。聚类特征向量空间的一个方法是使用则算法(18]类似的节点聚集在一起的地方。然而,传统的谱聚类模型选择的问题,取决于启发式。问题可以解决了使用加权内核与原始光谱聚类(KSC)和双表示(19- - - - - -21]。基隆贝(21]关注类似的原理,预测节点特征向量空间中聚集在一起。在基隆的另一个工作,一个聚集技术引入KSC叫做凝结的分层内核谱聚类(AH-KSC) [22]。AH-KSC使用特征向量空间找到节点之间的距离,它聚集了节点。AH-KSC的主要目的是让层次聚类但AH-KSC精度并不显著提高在肯尼迪因为AH-KSC允许间接连接节点凝聚在一起,也没有终止条件满足社区。肯尼迪和AH-KSC选择特征向量的问题,改善社区检测的准确性,和只使用手工生成的数据通常不显示与现实生活中网络相同的特点。
上述方法专注于减少计算时间和提高社区检测的准确性。已经被充分研究过的方法提高了算法的计算时间,可以通过技术进步和技术解决23- - - - - -25),如并行计算和GPU编程。改善社区检测的准确性一直具有挑战性的任务,因为网络通常是结构化的复杂性与数以百万计的节点和边。因此,本文提出了一种烧结的谱聚类方法与电导和边提高社区检测的准确性。的特点,该方法非常适合精确的复杂网络社区探测因为谱聚类的特征向量空间提供了不同的点聚集用于相似度函数。电导是用于敏感的终止条件的集聚和边缘的重量是一个主要因素评估更准确的相似。此外,该方法的性能与AH-KSC和肯尼迪利用现实生活的社交网络数据真实,LiveJournal和Orkut网络。这种方法可以帮助提高社区检测的性能从之前的作品21,22]。
本文的其余部分如下:部分2介绍了问题的陈述和背景,这有助于理解该方法。该方法的核心算法在部分说明3。实验部分中概述4和部分5报告的结论。
2。基本概念
2.1。问题陈述
在基隆,数据分为训练,验证集和测试集。在训练阶段,训练数据的特征向量空间签订,用于集群网络中节点。的符号特征向量点在同一集群是相同的。在验证阶段,模型选择执行识别聚类参数。使用测试数据的特征向量空间评价从训练数据获得集群使用汉明距离函数。肯尼迪是集群的问题取决于编码/解码特征向量空间。编码的值都是在肯尼迪签署(21)和特征向量的两个元素之间的区别仅仅是“1”或“0”这样类似的特征向量点成为吵了。例如,如果在特征向量空间中, 和 可以的关键,这两个值“1”和“0”。尽管如此,和预计在类似的功能空间,编码的结果显示不同的结果。这个问题可以通过烧结的层次解决KSC (AH-KSC)。在AH-KSC [22),而不是签署特征向量空间,空间用作数据点来获取网络中节点之间的距离和密切与节点直到只有凝聚在一起集群或更少。
肯尼迪和AH-KSC仍然有一定的缺点。两种方法计算内核矩阵通过计算边的数量连接两个节点之间的共同的邻居, : ,在那里是一组常见的邻居吗 ,和是常见的邻居,然后呢图的邻接矩阵。然而,常见的邻居节点之间会引起间接连接节点集中在一起,这样在不同的集群可以集群节点。为了解决这个问题,使用邻接矩阵作为一个内核矩阵所以凝聚节点可以直接连接。此外,肯尼迪和AH-KSC只使用第一 特征向量编码/解码,但剩下的特征向量仍然可以为集群提供相关信息。考虑到这一点,在这项研究中,所有的特征向量空间被用来评估节点之间的相似性。此外,AH-KSC,没有终止的标准凝结的集群。因此,电导作为终止判据在满足集群的集聚。
2.2。背景
一般来说,肯尼迪所描述的是一个非配方。给定一个网络, ,在那里表示的顶点,边,训练数据 ,原始问题[21)是 在哪里 是投影,它是训练数据在特征空间的映射点的方向, , 表明分数变量的数量,需要编码集群,是内核的度矩阵的逆矩阵的矩阵, , 是 特征矩阵, ,是正规化常数,是 矩阵的。的原始形式的数据点表示为 在哪里 是映射到高维特征空间,在哪里在图的节点数量, , 特征向量的数量,是偏差项。原始问题的对偶问题相关 在哪里是内核矩阵th条目, ;对角矩阵的吗的元素 ;是一个定心矩阵定义为 ,在那里是 单位矩阵;是双变量;和内核函数的相似度函数图。的参数,如社区的数量 ,估计使用训练数据, ,和验证数据, 。此外,所有节点都聚集在训练和验证阶段。特征向量空间是用来寻找所有集群独特的代码字母 , 码, 可以获得的关键特征向量矩阵的行。最后,测试数据的特征向量空间, ,使用汉明距离(解码21)和集群的结果评估。因此,特征向量空间是用来推导出节点之间的相似性,将在以下部分中详细解释。
3所示。提出社区检测算法
本节介绍与电导率凝结的谱聚类方法的细节。特征向量空间用于查找节点和结块最相似的节点之间的相似性进行新的组合节点网络图。新的组合节点添加到图在集聚和改变图迭代,直到满足终止条件。
结块两个节点,一个相似性函数被修改的相关节点之间的距离函数如下: 在哪里节点之间的相似性我和j在的范围0,20是完美的相似性和2被完美的不同。特征向量的值, ,在特征向量空间中,th行,列。
特征向量空间不足以完全表达凝聚节点之间的相似性,因为节点相互连接到特征空间投射到一个类似的地方,很难区分类似的预测。另一方面,这些类似的预测可以使用的差异区分边缘的节点之间的连接。凝聚节点可以有多个相互连接的边缘。因此,更紧密相连的节点有更多的相似之处。例如,在图1,类似的节点是在第一个迭代和节点相结合有两个连接的凝聚节点n4和n5和有一个连接的凝聚节点和 ,这更有可能凝聚的n5和n4。在第二次迭代中,新的凝聚节点用于发现新的特征向量空间和凝聚的类似的节点。在这一过程中,图的边的数量不变,某些节点有多个边缘。如前所述在节点的例子n6,两个节点之间的边是用作意味着给节点之间的相似性得分来提高算法的精度。另一方面,节点之间的边的数量可以改变太多和相似性函数的值(4)太不同了。因此,相似性函数将过份强调边数;也就是说,漠视特征向量空间的分数。在目前的研究中,一个s形的函数用于规范化边缘值来解决上述问题。
方程(4)被修改,如表达 在哪里边缘和的最大数量吗 节点之间的边的数量吗 。乙状结肠图的垂直价值被认为是边缘相似性得分从0.5到1水平值,边的数量,范围从0到边缘的最大数量。方程(5)用来找到最相似的节点的节点从其他节点图 。在第一个迭代中,第一个节点成为候选人,如果有类似的节点比候选人,候选人被替换了。这个流程将继续,直到所有节点的相似性评估。因此,最相似的节点到节点是由 在哪里 ,图中的所有节点吗 ,和是最相似的节点的节点 。
此外,获得更准确的聚类结果,本研究认为一个好的团体的定义,即“边缘连接的密度应该更高的内部比外部”(10]。类似的节点在每次迭代中凝聚在一起,并且凝聚成为一个节点集群社区经过一系列的迭代。如果集群内部和稀疏连接到外部连接紧密,没有必要进一步聚集,因为集群充分满足是一个很好的社区,这个社区集聚是终止。此外,两个社区凝聚当他们彼此紧密相连的。例如,在图1(c),内部边缘直线,外部边缘是虚线,图为聚集成三个凝聚社区等 , ,和 。在社区 ,它有三个内部边缘和两个外部边缘连接到两个和这有一个密集的内部比外部连接。因此,不需要进一步集聚。考虑内部和外部边缘的比例为(5),两种可能的情况是当节点分裂候选人是最相似的节点对节点 :(1) (2)
在哪里节点内部节点的数量吗和节点内部节点的数量吗 。
在第一种情况下,边缘节点内部的数量最多等于外边缘连接到节点的数量 。然而在接下来的情况下,边缘节点内部的数量不仅仅是外部边缘连接节点的数量 。因此,共同凝聚的只有紧密相连的节点(5)可以修改使用内部和外部边缘: 在哪里边缘节点内部吗 , 边缘节点内部吗 , 连接节点的边吗 ,是社区密度参数。
后发现节点之间的相似性使用(7),聚集最相似的节点开始。最相似的节点在每个迭代中,每个节点被发现如果节点最相似是 ,相反的不明确 。因此,只有两个节点的情况下选择彼此凝聚最相似的节点。因此,凝聚节点是 在哪里 和图中的所有节点吗 。
终止条件满足时凝聚所有节点连接更加紧密的内部比外部见伪代码1。
4所示。实验
本节介绍该方法的结果和比较数据与传统社区检测工作21,22通过改变参数的值。LiveJournal和Orkut用于评价的真实社交网络。LiveJournal博客和社交网站,自1999年以来已经存在。LiveJournal上的数据有400万个节点和3500万个边缘。LiveJournal真实数据有287512个社区。为了显示检测到社区通过不同密度参数的变化对于不同的网络,我们也使用网络Orkut因为两个网络的密度差可以清楚地强调了选择最优密度参数的重要性。Orkut是一种免费的在线社交网络,用户彼此友谊。Orkut数据300万个节点和1.17亿个边缘。Orkut真实数据有6288363个社区。网络是巨大的和复杂的,这使得聚类任务更加困难。 The dataset is available athttps://snap.stanford.edu/data/。
评估使用的测量指标,如精度(),回忆(),分数。 在哪里是正确的集群和节点的数目吗是错误的集群节点的数量。 在哪里是节点的数量应该是集群,但未能这样做。 在哪里分数是调和平均数的精度和召回。
聚类结果显示,不同的价值 ,这是社区密度参数在图2,有三个社区。右侧社区是最小的61个节点,社区有109个节点,中间和左边社区是最大的社区331个社区。一个最优值从训练数据的评估一个试错的方法。开始 ,如图2(一个),每个社区内部聚集成小尺寸的集群。集群性能提高了增加的价值到 。中间和右边社区集群成功但最大的社区左边未能集群因为左侧社区是非常复杂的,有许多边缘。在这种情况下,可以提高聚类性能的放松 。三个社区成功集群的时候 ,如图2 (c)。如果该值的继续增加,变得比的聚类性能 因为集群标准太放松增加。与 ,左边社区聚集成4个社区,如图2 (d)的值,当达到7,左边社区分离成更小的社区,如图2 (e)。
(一)
(b)
(c)
(d)
(e)
图3显示了不同密度参数的值进行比较Orkut的网络。与LiveJournal网络Orkut更密集的集群网络,LiveJournal上的节点和边的比例是1:8.6而Orkut 1: 38.1。因此,Orkut的密度参数需要更严格的比LiveJournal因为集群都是人口聚集。如果密度参数是不严格的,它将使人口群集节点的凝聚在一起。第一列的图3真实展示了社区在黄色和有色列检测到网络由不同密度参数从0.1到4。第一行所示图3与密度参数,发现社区0.1显示想要的结果但是精度大幅下降,当我们增加了密度参数,因为发现社区的规模不断增加。第二行图3显示不同的特征相比,第一行的种子节点已经凝聚成不同集群密度参数由于放松。第三行网络有类似特征的第二行网络密度参数表明,放松会导致更少的人口聚集的社区。第四行网络类似的结果的第一行显示,如果我们允许轻松的密度参数,网络将继续扩大。社区检测的最优结果获得了0.1在网络Orkut, LiveJournal网络中的最优值是4。因此,实验结果表明,该网络的密度参数密切相关,密度的密集的网络需要更严格的密度参数。这意味着评估密度参数的最优值时,应考虑网络的密度。
图4显示的结果分析该方法的聚集过程 和AH-KSC随着迭代次数的增加。图4(一)显示了早期聚集的结果中产社区(17迭代)。AH-KSC的早期成功集群的红色,但在中途阶段迭代(26日),中间社区凝聚在一起,某些节点包含在左边社区,即使没有直接连接节点。在集聚过程的后期阶段(在30日迭代),中间社区聚集着成群的右侧社区虽然右边社区满意社区,如图4 (c)。图4 (d)该方法的早期阶段。像AH-KSC的集聚过程中产社区集群(在第23届迭代)。在中间阶段的集聚在26日(迭代),中间社区集群成功是因为只有直接连接节点是凝聚根据(5),节点之间的边的数量添加到相似的功能。在后期阶段(在第39次迭代),右侧社区是集群的比例准确,因为内部和外部边缘连接应用于(7),这样的社区已经停止凝结的右边。图4 (f)显示了该算法的最终结果。
(a)中间集群早期结果
集群(b)中一半的结果
(c) AH-KSC方法的结果
(d)中间集群早期结果
集群(e)中间一半的结果
该方法(f)的结果
本研究比较了该方法的检测精度和AH-KSC KSC真实使用LiveJournal上网络。显示比较方便,只有四个部分的使用网络,因为网络太大,超过400万个节点。如图5,有四个结构不同的子网。第一网络有292个节点和1858个边缘,和真实社区,种子节点所属,有24个节点。第二个网络有356个节点和33616个真实社区的边缘52节点。第三网络有652个节点和63044个边缘,和真实社会22节点。最后网络有119个节点和866个边15个节点的一个真实的社区。第二和第三网络非常复杂,很难发现社区虽然第一和第四网络结构良好,也就是说,平均困难。在图5,淡黄色的节点组在第一列是真实社区,绿颜色的节点组在第二列的社区发现方法,和红色的节点组的结果发现社区AH-KSC和肯尼迪,分别。从实验的观察,AH-KSC聚集你的邻居节点成功的早期阶段集聚,正如上面提到的,但它未能终止集聚,第一个和最后一个网络在图所示4由于缺少终止条件。此外,当网络过于复杂,如第二和第三网络、集群不是有效地完成。KSC AH-KSC也会产生类似的结果,但比AH-KSC集群网络组织良好的情况下,与第四届网络。AH-KSC提供了一个更好的结果比肯尼迪当网络非常复杂,如第二和第三网络。
表1显示社区的总体精度检测使用LiveJournal真实网络的精度,回忆,和评分方法,AH-KSC,基隆。对于AH-KSC,平均精度、召回和得分分别为0.57、0.7和0.61,分别。肯尼迪,平均精度、召回和得分分别为0.55、0.82和0.62,分别。该方法的平均精度,回忆,和得分分别为0.64、0.95和0.75,分别。AH-KSC的整体精度和KSC相似2%差异但KSC更高的性能在整个召回了超过12%,这意味着KSC真阳性节点检测到超过AH-KSC从网络。平均分数AH-KSC和肯尼迪是相似的,只有1%的差别。该方法优于AH-KSC和肯尼迪在所有评价指标。平均精度,该方法改进AH-KSC和肯尼迪相比7 - 9%。在平均回忆,该方法改进与最高25 - 13%。平均分数的方法提高了14%。
5。结论
介绍了烧结的谱聚类与电导和重量检测边缘的社区。该方法项目最初的点在第一阶段特征向量特征空间。在第二阶段,特征向量空间和节点之间的边的数量被用来评估节点之间的相似性。每个节点发现候选人最相似的节点。第三阶段发现节点及其之间的电导的候选人。如果只有电导提高,节点是凝聚。三阶段过程迭代,直至网络不需要进一步聚集。相比,该方法的时间复杂度增加AH-KSC因为我们检查每个凝聚节点的电导,但更准确的检测是必要的。从实验的分析,该方法优于AH-KSC KSC使用一个真实网络,LiveJournal上。
这种方法的两个贡献可以概括如下。一个是改善准确性比较相关的工作。另一个是实际情况的方法是可行的,因为方法的性能适合于现实生活中的社交网络。另一方面,计算特征向量空间在每个迭代中,计算时间比肯尼迪的慢。我们未来的工作将集中在改善时间复杂度和并行计算等方法。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由教育部(NRF - 2016 r1d1a1b03932447)。