文摘

骨干的自然抽象是一个复杂的网络,它可以帮助人们理解网络系统更加简化形式。传统的骨架提取方法往往包含许多局外人骨干。更重要的是,他们经常遭受所有节点或边的计算inefficiency-the详尽的搜索常常是非常昂贵。在本文中,我们提出一个骨架提取启发式与不完全信息(BEHwII)找到支柱在一个复杂加权网络。首先,严格的过滤规则是精心设计来确定边缘保留或丢弃。其次,我们提出一个本地搜索模型检查的一部分边缘以迭代的方式,它只依赖于本地/不完整的知识而不是网络的全局视图。实验结果在四个真实网络演示BEHwII在经典的优势差异筛选方法有效性和效率的有效性。

1。介绍

复杂网络已经成为一个重要的方法对于理解系统涉及交互对象(1]。因此,网络系统已经渗透到广泛的领域,从生物学和计算机科学的自动控制2,3]。网络系统是越来越大,理解和揭示出其潜在的现象发生在这样的系统正面临相当大的挑战。骨干的存在是一个签名或抽象的本质为理解复杂的系统,可以提供巨大的帮助在更简化形式(4]。例如,检测骨干在嫌疑人犯罪网络可以更好的目标5]。同时,城市规划者试图检查公共交通系统的拓扑分析他们的脊椎6]。

近年来越来越兴趣提取骨干在各种大规模加权网络4,7- - - - - -9]。许多网络演变成大规模和重量分布跨越好几个数量级,提取他们的脊椎已经成为研究和应用的一个关键任务的各种用途。一般情况下,骨干应该被认为是一组节点和边,互连网络各个部分,提供一个路径不同的子网之间的信息交换10]。因此,骨架提取一个有前途的方法是将原始网络映射到一个更小的网络中节点和边的数量应该足够小,经得起检验分析和可视化。

在文献中,现有的方法大致可以分为两类,一个基于粗粒化,另一是基于过滤器。基于粗粒化方法(4,7,11- - - - - -14]丛节点共享共同的属性在同一组/社区整个集团作为一个单元,然后再考虑在新的网络。然而,通常没有明确声明属性的初始网络是否应该保存在集群的网络(15]。

基于过滤器的方法(8,9,16- - - - - -18)通常采用一个自底向上的策略,提取主干。他们通常先定义一个节点或边缘的统计属性,这个属性是作为标准来确定节点/边保存或丢弃。在这种情况下,观察范围是固定的和网络的代表象征着不改变。相反,这些元素、节点和边缘,携带相关网络结构的信息,保存,其余的则被丢弃。然而,基于过滤器的方法可能包括大量的异常值,而不应列入自然骨干。更重要的是,他们经常遭受计算效率低下:穷举搜索的节点或边缘往往是非常昂贵。

在这项工作中,我们试图设计一种新颖的基于过滤器的方法从大规模提取骨干加权网络。与穷举搜索采用现有的方法,该方法只需要完整信息,然后调用迭代局部搜索方案提高效率。所以,这部小说被称为骨架提取启发式方法不完全信息(BEHwII)。特别是,尽管 提出了在8采用]作为过滤准则,BEHwII强加 而不是 提高过滤规则,以便提取太多的离群值的情况下进入骨干是可以避免的。我们的方法自然是启发式的,因为它不检查所有网络中的边。另外,BEHwII贪婪地选择最优边缘在一个迭代和将这条边添加到如果预定义的支柱 过滤规则是满意。广泛的各种现实世界的网络实验证明BEHwII的优越性在全局滤波方法的有效性和效率。

本文的其余部分组织如下。节2,我们引入了预赛和动力的工作。节3,我们将讨论本地搜索机制,然后BEHwII的算法细节。实验结果将给出部分4。我们现在部分的相关工作5最后总结本文的部分6

2。预赛和动机

由于骨架提取的方法是一个基于过滤器模型从本质上讲,我们首先提供基于过滤器模型的初步知识。因此,我们分析现有基于过滤器方法的一些缺点,它会导致更好的理解本文的动机。

基于过滤器模型通常采用一个自底向上的策略,提取主干。他们通常先定义一个节点或边缘的统计属性,这个属性是作为标准来确定节点/边保存或丢弃。结果,保存节点及其链接,或者保留边缘和端点组成的骨干网络。因此,基于过滤器的方法的关键步骤是如何定义一个合理的过滤属性节点/边。例如, 生水起是一个著名的过滤特性,用于构造层次拓扑过滤器(16]。然而,许多简单的过滤属性(例如, 生水)不适合加权网络。与此同时,现实世界的加权网络通常具有较强的障碍重尾分布的权重(19]。也就是说,概率分布 任何给定的链接有重量 是广泛分布的,跨越好几个数量级。这个特性产生重要的挑战来定义过滤属性加权网络,很大程度上归因于缺乏规模特征。塞拉诺et al。(8)解决这一挑战通过引入差异滤波器基于零假设;也就是说,归一化权重对应于一个特定节点的连接度 是由均匀分布的随机分配。给定一个节点 及其与体重有关 ,归一化权重 被定义为 在零假设下,零模型然后,在这吗 点与均匀概率分布区间 。作为一个结果, 生成的小区间,其中长度代表预期的值 归一化权重 根据零假设。这些变量的概率密度函数为一个特定值 基于2给定一个边缘的概率 表明其规范化的重量 兼容零模型和可以被定义为 在哪里 节点的程度吗 。因此, 采用的过滤标准(8加权网络。给定显著性水平 携带重量的边缘,可以被认为是不符合随机分布可以过滤掉一定的统计学意义。也就是说,边缘 应该保留,因为他们拒绝零假设。

标准 生了一种有效的基于过滤器骨架提取方法(8]。然而,两个缺点吸引了我们的注意力。最大的限制之一是,它可能包括大量的异常值,而不应列入自然骨干。接下来,我们试图探索其原因,给出修改方案。

为节点 与学位 的权重可以计算为当地的异质性 因此,在完美的同质性,当所有的链接共享同一节点的强度, = 1独立的 ,而在完美的非均质性的情况下,当只有一个链接节点的整体强度, 等于 。使用预定义的零模型,加入两间隔可以被定义为概率分布 在哪里 是亥维赛阶跃函数,它可以用来计算的统计数据 零模型。平均 和标准偏差 估计是 在现实网络中,观察到的当地的异质性,用 ,可以比较反对零模型的期望。即观测值符合零假设当他们之间完美的同质性和撒谎 。和当地的异质性将被只有 遵循

的参数 是一个常数确定置信区间评价的零假设。更大,更加严格的零模型就更无序的重量应该为当地异质性被检测出来。一个典型的价值 在类比高斯统计可以设置为2。在图1,我们将展示两个地区(当地的异质性和本地兼容性)与不同有关 。显然,小的节点的度(例如, )更有可能落入当地兼容的地区,这意味着这些节点小程度不应保存在骨干。

在[8),获得的多尺度骨架是保存的所有链接显著水平 至少一个链接的两个节点的结束而打折。请注意, 不对称的;也就是说, ,如果 。在一个节点的情况下 与学位 连接到一个节点 与学位 ,我们可能 。然后保存此链接将被保留下来 。然而,正如上面所讨论的,节点 可能会落入当地兼容的地区,应远离主干。考虑到一个中间幂律度分布通常是观察在现实系统中,差距过滤器(8)可能包括大量的离群值。为了避免包括许多局外人骨干,可以实施 而不是 提高过滤规则,所以保存连接时所涉及的两个节点的强度具有重要意义。

其次,大多数现有的基于过滤器的方法(8,9,16,17患有计算效率低下,所有节点或边的穷举搜索网络。例如,基于过滤方法 是严重依赖链接的数量。许多社交网站正演变成在超大尺度,例如,包含数百万甚至数十亿的节点和边缘,计算将是可怕的!

根据上述分析,本文提出了一个本地的方法提取脊椎从加权网络。特别是,我们试图回答以下两个问题:(我)Q1:如何精心设计一个过滤准则,以避免包括许多局外人骨干?(2)Q2:如何减少骨架提取算法的计算复杂度?

3所示。骨架提取启发式与不完全信息(BEHwII)

是一个给定的加权图, 组节点( ), 边的集合( )连接节点 , 每条边的重量在吗 。骨架提取是制定寻找图的一个子集 ,即骨干, , 。这意味着骨干也显著减少边的数量,同时保留最基本的连接。

在本节中,我们提出一个骨架提取启发式与不完全信息(简称BEHwII)。首先,我们介绍了BEHwII的基本理念,覆盖本地搜索机制。其次,我们目前的算法细节包括BEHwII的复杂性分析。

3.1。本地搜索模型

在本文中,我们采用过滤标准 提出了在8]。然而,一个主要的缺点在于,它可能包括太多的离群值到骨干如上所述2。探索其原因,我们认为这个缺点源于松动的过滤规则,也就是说, 。因此,BEHwII试图强加 而不是 提高过滤规则,所以保存连接时所涉及的两个节点的强度具有重要意义。在BEHwII,优势 保存在支柱,如果 在哪里 的概率是派生通过比较规范化的体重吗 与零模型,如所示3。过滤规则,BEHwII旨在提取一定比例(用 边缘的满足8为骨干。

骨架提取的一个简单的方法是使用穷举搜索,也就是说,检查所有的边缘,并添加边缘的骨干8满意。显然,这穷举搜索计算效率低下,特别是当网络变得更大。在这里,我们介绍一个本地搜索模型来解决这个问题。我们将探索图划分为三个区域:已知的当地 ,边界区域 ,和一个更大的未知区域 ,如图2。最初,我们随机选择一个节点 开始节点和添加 。然后,所有的邻居节点 (例如, )被添加到 。本地搜索模型选择一个最佳的边缘 用最小的 如果持有,并将其添加到骨干8。区域 也相应扩大。选择另一个边缘和检查,直到一定数量的边缘包括骨干。

备注1。本地搜索模型流和迭代计划本质上(20.]。一个迭代过程调用检查每个节点与其邻居和执行计算,结果是相关的节点处理。这样的方案是一个非常有前途的技术,扩展现有的方法。此外,本地搜索模型是独立于“全球知识”;也就是说,它只需要获取节点邻接表的一部分内存。由于小世界效应,我们的模型验证稍微依赖初始节点选择,实验结果将在部分4.1

3.2。算法细节

在本节中,我们介绍如何使用BEHwII提取骨干从任何随机选择节点。BEHwII最初随机选择源节点 到当地( ),增加了其邻国 。两个数据结构用于BEHwII描述如下:(我)最小堆 边缘信息存储,包括 ,在 ,所以,每一个更新过程 时间;(2)列表 商店骨干的边缘,和每一个插入过程 时间。

我们一步一步描述BEHwII算法大致如下。

步骤1。找到边缘 的最小值 并将其添加到 如果它满足8

步骤2。如果任何端点被认为是边缘 不包括在 ( ),删除 ;否则,删除边 ,转向步骤1

步骤3。删除边 和删除额外的节点( )

上述过程将持续进行,直到它凝聚一定百分比的边缘,也发现了整个封闭组件,哪个先发生。注意,如果 的最小值 在步骤1不满足8,我们仍然检查其端点并添加相应的边缘 。在这里,节点之间 可以被视为过度节点继续搜索过程。看算法1更确切的伪代码。

(1)过程BEHwII (
(2) ;
(3) ;
(4) ,在那里 ;
(5)
(6)得到最小 ;
(7)如果 然后
(8) ;
(9)如果
(10) ;
(11)如果 然后
(12) ;
(13) ;
(14) ;
(15)如果
(16)如果 然后
(17)打破;
(18)如果
(19)结束时
(20)返回 ;
(21)结束程序

计算复杂度。上述算法的计算成本主要来源于检查边的数量 。对于每个检测边缘 ,BEHwII需要计算的价值 和更新最小堆 。因为 取决于节点的度 归一化权重 ,因此,它需要 时间来计算 在每个研究优势。更新(插入或删除)的成本 对于每个检测边缘 。一般来说,算法的运行时间 ,在那里 是图的平均程度。

4所示。实验结果

四个真实的无向加权网络,Lesmis,USAir97,OClinks,RTNN,用于实验。这些网络的特点如表所示1,在那里 分别表示节点和边的数量,在网络, 显示的平均程度 表示平均体重。Lesmis(21)是网络coappearances维克多·雨果的小说中的人物,在节点代表人物和边缘连接任何一对字符出现在同一章的书。USAir97(22]收集2126在332年美国机场航班信息,其中重量表示两个机场之间的归一化距离。OClinks(23)是一个网络创建一个在线社区,节点代表学生在加州大学和边之间建立了两个学生,如果一个或多个消息已发送从一个到另一个。RTNN(24)也是一个coappearance网络包括所有单词/在线9·11袭击的故事,每一个节点代表一个单词和每一个领带意味着这两个词出现在相同的故事。

4.1。比较结果

在本节中,我们比较BEHwII和差距过滤器(DF)提出的塞拉诺et al。(8在性能和可伸缩性。BEHwII是一个基于本地搜索算法,它可以从任何随机选择源节点。调查的影响参数 ,我们修复 并采取 分别在哪里 是high-connected节点和 low-connected。这两个 从最初的网络是随机选择的。为了方便起见,我们表示BEHwII从 通过 ;然后 代表BEHwII从 。对于一个给定的提取目标(边缘保持骨干百分比)的有效性 , ,DF可以验证通过测量的平均体重和节点介数提取的骨干,而效率可以通过检查的数量测量边缘和整体运行时间。

有效性。图3显示了提取的脊椎的平均体重当原始图中提取的 , DF,分别。请注意,作为DF是唯一的参数 ,对于一个给定的网络,提取边缘的一部分 是一个单调递增函数的 。为方便比较,DF和BEHwII使用相同的参数 ,逐渐增加,相应的边缘提取数量的增加。从图两个观察是值得注意的3。首先,与DF相比, 显示轻微的改进的平均体重,无论它是什么 是输入。 时不执行好吗 将是太小了。例如, 获得 骨干的平均体重低于10Lesmis网络,但在使用 DF提取骨干,平均体重明显增加。另一个重要的观察是, 将趋势一致 增长到一定水平。从数据可以看出3(一个)3 (b),当边缘长到约0.25的分数,提取的骨干 将有相同的平均体重的价值。作为 增加了局部最优边缘为骨干,即使从low-connected源节点,它可以嗅几个high-connected节点有限的步骤。因此, 将进化 经过一定比例的边缘被发现。

然后我们广泛探索的平均节点中间性骨干提取Lesmis,USAir97,OClinks,RTNN。节点介数中心是所有最短路径的一部分包含给定节点的网络中,它反映了节点的连通性。图4显示的平均中间性提取节点不同分数的边缘 在脊椎。我们可以清楚地发现 超越DF的测试图。这意味着边缘提取BEHwII总是隔两个high-connected节点。至于DF,过滤规则是如此宽松,有些离群值(节点度等于1)将包含在脊椎,这将降低提取骨架的连通性。

然后我们看直接提取的骨干。的LesmisUSAir97网络是用在这里的两个例子。我们设置 。在的情况下Lesmis提取的骨干了 如图5(一个)。源节点的颜色是用绿色的,蓝色的节点和边的那些保存在脊椎,节点表示强度的大小( ),边缘的厚度代表了重量。有趣的是,获得的骨干 保留了几乎所有高度连接节点和必要的连接。然后我们使用DF直接在这个网络和获得一个骨干,如图5 (b)。clique-like模式上面是错过了,,更重要的是,两个离群值(突出显示虚线圆圈)。

至于USAir97网络中,节点放置在平面上根据他们的实际坐标在地上。的骨架提取 ,如图5 (c),几乎涵盖了所有美国的地理区域。此外,运输系统的层次结构是完全强调,不仅包括大多数高通量连接还小重量统计上显著的边缘,因为他们代表相关的信号在小的尺度上。然而,DF的骨架提取包括许多小机场在阿拉斯加和美国西海岸(虚线椭圆中突出显示)。

的效率。6比较BEHwII的效率和DF,提取目标 。检查边缘的数量 , 和DF四个测试网络如图6(一)。很显然, 检查少比DF边缘。后者将检查网络中所有的节点和边。图6 (b)验证我们的分析3.2;的运行时间,BEHwII源于检查边的数量。有趣的是发现的运行时间 依然近常数相对密度大的图形(例如,OClinksRTNN),也就是说,因为这两个网络的“小世界效应”(23,24),大多数节点可以达到互相通过少量啤酒花或步骤。在这种背景下, 可迅速嗅这些high-connected节点;因此他们的整体运行时间几乎是一致的。

4.2。内部BEHwII

在这里,我们需要进一步探索BEHwII影响性能的几个因素。我们选择BEHwII从high-connected源节点,也就是说, 实验。两个内部因素进行了调查:显著水平 和内部过滤规则。

显著水平 。这是特别有趣的分析骨干的拓扑属性提取的行为 在提高水平的显著水平 。数据7(一)7 (b)显示累积度分布的演变, ,不同的值 USAir97OClinks,分别。提取的骨干, 累积度分布类似于原始的网络。较小的值 有平坦的初创公司,表明提取的脊椎包含更少的低度节点。重量分布的演变( )和不同的价值观 数据所示7 (c)7 (d)我们观察到的原始状态USAir97OClinks网络都是沉重的跟踪。有趣的是,几乎所有的鳞片都是保持在搜索过程中,直到 变得太受限制,在这种情况下 适用于一个很小的值 。一个限制 削减 从下面的 ,这可能会丢弃该地区小重量。最后,我们分析了累计提取骨干节点介数中心分布。值得一提的是,给出节点介数中心的骨干,在最初的网络。数据7 (e)7 (f)给累积中间性的进化中心分布不同 。对于测试图, 如果从一个非常低的价值 适用于一个很小的值 ,这意味着那些low-connected节点将不会被包括在脊椎。

因此,我们可以得出这样的结论:值 范围内 是最优的,在某种意义上,脊椎提取 在这个地区有一个大比例的high-connective节点和必要的连接,和稳定的固定程度/重量分布,与原来的网络。重要的是要强调 还包括与最大的重量出现在网络连接。这是由于沉重的尾巴 分布主要是由相关的大规模的重量。这显然是见数据7 (c)7 (d)

在过滤规则。我们进一步探索有助于成功的关键因素 。作为讨论的部分3.1, 使用严格的过滤规则来吸收边。这里,我们放松之前内部过滤规则,实行 而不是 ,所以连接保存时的强度是一个重要的节点。在这种宽松的 (用 ),一个边缘 保存在支柱,如果 。我们想象的骨干LesmisUSAir97中提取的 在图8。为每个测试网络,我们设置 。在的情况下Lesmis网络,六个局外人(突出显示虚线圆圈)提取 ,也未能发现许多必要的连接。显然,它的性能比 通过比较数据8(一个)5(一个) 取得了进展的情况吗USAir97,美国的大部分地区已经提取的骨干,如图8 (b)。然而,它还包括许多小机场在阿拉斯加和美国西海岸和DF(虚线椭圆中高亮显示)。

在文献中,现有的骨架提取方法可以分为两类:基于粗粒化的方法和基于过滤器的方法。方法基于粗粒化丛节点共享共同的属性在同一组/社区整个集团作为一个单元,然后再考虑在新的网络。沿着这条线包括盒子,一些方法技术(4),分形骨架(7),和传统的社区检测技术如Kernighan-Lin算法(11),潜在的空间模型(12),随机块模型(13),和模块化优化(14]。这些方法之间的差异最终归结到一个社区的精确定义。然而,通常没有明确声明属性的初始网络是否保存在网络组。

基于过滤器的方法通常采用一个自底向上的策略,提取主干。他们通常先定义一个节点或边缘的统计属性,这个属性是作为标准来确定节点/边保存或丢弃。在这种情况下,观察范围是固定的和网络的代表象征着不改变。相反,这些元素、节点和边缘,携带相关网络结构的信息,保存,其余的则被丢弃。一个著名的例子是分层拓扑过滤器 生水起分解(16),过滤规则作用于节点的连通性。在加权的情况下网络,减少两个基本技术指的是提取的最小生成树17)和应用全局阈值(18)边,所以那些超过阈值被保留,作为现实世界的加权网络,通常有强烈的障碍重尾分布的重量,它定义过滤属性发挥重要的挑战。塞拉诺et al。(8)解决这一挑战通过引入基于零假设差距过滤器。

总之,尽管骨干提取基于粗粒化和过滤模型进行了广泛的研究,他们都需要完整的知识网络。仍然需要进一步研究之间寻找一个平衡性能好,效率高。我们的工作试图填补这一空白,基于一个有效的BEHwII进行骨架提取方法。

6。结论

在这项工作中,我们提出一个骨架提取启发式与不完全信息(BEHwII)找到支柱在一个复杂加权网络。首先,严格的过滤规则是精心设计来确定边缘保留或丢弃。其次,我们提出一个本地搜索模型检查的一部分边缘以迭代的方式,它只依赖于本地/不完整的知识而不是网络的全局视图。实验结果在四个真实网络演示BEHwII在经典的优势差异筛选方法有效性和效率的有效性。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究部分由中国国家自然科学基金(国家自然科学基金委)拨款61103229和61103229,国家国际联合研究中心在电子商务信息处理2013 b01035格兰特,中国国家关键技术研发项目下2013 bah16f01格兰特,国家软科学研究计划资助下2013 gxs4b081,江苏科技支柱产业项目计划在格兰特BE2012185,和关键/表面工程在江苏省高校自然科学研究资助12 kja520001 14 kja520001, 14 kjb520015。