互动介数中心在大型复杂网络的逼近

文摘

实际系统的分析通过复杂网络的视角通常需要一个节点重要性函数。虽然很多这样的意见存在的重要性,全球节点重要性度量常用中间性中心,量化的次数一个节点发生在网络中最短路径。这个中心的节点往往大大取决于网络中节点的存在;一旦缺少一个节点,例如,由于失败,其他节点的中心值会发生戏剧性的变化。例如,这种观察是重要当拆除一个网络:按递减顺序而不是删除节点的静态中间性,验算切除后的中间性创造了非常强大的攻击,在最近的研究已经证明。这个过程被称为互动介数中心。然而,很少有研究计算中心间的互动,鉴于其计算成本高,最坏的运行时的复杂性O(N 4)网络中节点的数量。在这项研究中,我们解决研究问题,是否可以得到近似的互动介数中心减少计算成本和质量/准确性需要多少交易以获得显著减少。我们的互动中间性近似的核心框架中,我们使用一组建立了中间性近似技术,它有一个广泛的参数设置。考虑到我们感兴趣的是顶级节点(s)交互式拆除,我们对这些方法进行了相应的优化。此外,我们探索批量删除的想法,组top-k排名节点删除之前中间性中心值的重新计算。我们在现实世界和随机网络进行的实验表明近似互动的特定变体中间性框架允许两个数量级的加速,而准确的计算,而获取算法的结果。这项工作有助于分析复杂网络现象,尤其关注获得可伸缩的技术。

1。介绍

复杂网络理论提供了强大的工具来理解许多复杂系统的结构和动力学。从本质上讲,这些系统被建模为节点表示实体和实体之间的链接表示依赖关系。许多研究工作已经花在理解不同类型的关键基础设施系统,例如,能源(1,2)、沟通(3,4),航空运输(5- - - - - -8)、铁路(9),和社交网络(10]。对这些网络变化的现象和过程进行了分析研究,包括弹性分析(11,12),延迟/信息传播(13- - - - - -15),增长模式分析,和许多其他人。然而,许多分析任务的核心是确定节点重要性的问题,也就是说。量化的网络中的一个节点的相对价值。事实上,它是重要的识别非常重要节点维护网络的结构和功能。

这些节点重要性值变化有两个原因。首先,可以测量的重要性对于不同的观点的重要性,而是当地和全球或拓扑对流式的观点。取决于选择的观点,提出了许多不同的节点中心措施,包括学位中心,接近中心(16),特征向量中心(17],Katz中心[18],中间性中心(19]。第二,一个节点的重要性常常大大取决于网络中其他节点的存在。一对节点的冗余功能,例如,关于传播,一个节点可以成为更重要的没有其他节点。这种效果是显示在图1。最初,网络中节点9并不重要。14然而,一旦节点失败,大部分的流动网络中的路由通过节点9,因为所有流得通过剩下的右边路。因此,网络中的一个很小的改变,这里指的是一个节点的失败,可以显著改变节点的重要性。

现有的方法通常不考虑节点重要性值的这种依赖性,主要是因为有限的计算资源。例如,计算精确的中间性中心网络中每个节点的值有一个坏的时间复杂度立方数量的节点,因为从本质上讲,所有成对的所有节点之间的最短路径计算(20.]。计算互动介数中心需要再计算每个节点删除后的中间性中心,最坏时间复杂度增加到四次在网络中节点的数量,也就是说, 。如此高的计算复杂度抑制甚至中型网络计算,考虑到网络的大小增加10倍将会增加10000倍所需的计算资源。而静态中间性中心计算可以大大加快并行化(21),互动介数中心不能进一步加快,鉴于每个攻击步骤之间的依赖关系的选择:子网的一步只是一旦确定要删除节点步骤我是固定的。

在这项研究中,我们的目标是探索可能性计算近似值的互动介数中心更大的网络。为了实现这个目标,我们制定一个评估框架。我们利用中间性近似技术网络中节点的选择非常重要。有几种广泛应用静态中间性近似方法,所带的各种参数。此外,为了避免再计算近似中间性在每个迭代中,我们选择一些优秀的节点(而不是唯一的)。在随机和实际网络进行的实验表明这种策略计算排名非常类似得到确切的交互式计算中间状态。此外,网络拆除实验表明,近似结果的互动中间性接近的交互式中间状态,但在运行时要求要低得多。我们的工作有助于分析复杂网络现象,尤其关注获得可伸缩的技术。

2。方法

2.1。整体的框架

我们设计了一个交互式的中间性近似框架组成的一组静态中间性近似算法和不同的选择k批量删除(删除k前中间性较高的节点重新计算)。确切的交互式计算验算切除后中间状态值(节点。然而,静态中间性计算的时间复杂度 ,N是节点的数量和在哪里E是网络中边的数量,这是禁止的大型网络,使交互计算更加昂贵。降低计算成本,我们利用近似方法,因为这种方法可以权衡速度和高中间状态节点的识别。注意身份最高的中间性节点交互计算的核心部分。此外,我们还考虑的选择k(即。,choice of how many nodes to remove in each iteration): instead of removing a single node with the highest betweenness, batch removal reduces the number of iterations of interactive computation. Based on the above ideas, our framework has two core parts:(1)静态中间状态估计:计算估计中间性所有节点的值在当前GCC(巨大的连接组件)的网络。(2)选择批量删除:获得Top-k排名从网络节点和删除它们,然后回到(1)。

(1)部分中,每个节点的近似算法估计中间性值在当前GCC。近似的精度影响的质量这样的交互式计算:如果近似法不能识别——顶部k正确的节点,它将导致连续错误在随后的迭代中,传播和经常与越来越多的节点变得更糟。因此,我们需要选择近似方法权衡好质量和运行时。(2)部分中,参数的选择k也是值得考虑的。一方面,如果我们选择小k,我们将得到更好的质量。最极端的选择之一是设置k= 1,验算中间性每个节点移除后,这将是非常耗费时间,但可以得到精确的结果。另一方面,如果我们设置k非常大的,我们可以减少运行时的价格质量恶化。在最好的情况下,k值自适应地选择在每个迭代中,只可能有一个或多个高中间性节点在当前GCC。综上所述,我们的互动中间性近似框架一起关注近似方法的选择的数量和大小批量删除。

2.2。静态中间性近似

现有的中间性近似算法计算估计的静态网络中的所有节点的中间状态。因为所有的近似方法是基于Brandes的算法,我们首先回顾这个算法。一个节点对 ,Brandes [20.)定义了pair-dependency节点 ,用 ,和依赖的节点年代在节点 ,用 ,作为

此外,Brandes证明遵循在哪里代表所有的家长t广度优先搜索(BFS)年代。在此基础上,中间状态的价值可以计算。也就是说,给定一个网络N节点和E边,一个石从一个源节点年代可以计算每个节点的依赖需要哪一个时间。获得中间状态的所有节点,每个节点的网络应该设置为一个源节点,它需要NBFS迭代。总的来说,精确的计算所有节点的静态中间性的需要大型网络的时间,这是非常昂贵的。此外,密集的网络 ,最坏的情况下,时间复杂度。

降低计算成本,近似方法计算节点的一个子集依赖关系或对依赖性所需的所有依赖项的集合而不是精确的计算。不同的策略选择子集构成的几种近似方法。一般来说,有三种分类:(1)轴心抽样:这些方法进行BFS从源节点的一个子集,称为轴心每个节点,计算节点依赖于选定的轴心。(2)节点对抽样:不考虑节点的依赖性,这些方法示例对节点和计算对依赖于每个节点从选定的节点对。(3)有界BFS:这种方法改变BFS的停止条件,只考虑最短路径的一个子集。

除了这三个分类,最近也有一些中间性近似方法,包括基于sparse-modeling的方法(22),mpi的自适应采样方法(23),GNN-based方法(24]。更多细节不同的静态近似方法和参数设置在附录A。

2.3。选择的大小批量删除

在本节中,我们描述如何确定的更多细节k根据目前的GCC在每个迭代中。如果k很小,一些节点移除当前的GCC,需要更多的迭代和较高的计算成本。相反,如果k大,计算成本将减少但质量下降因为许多删除节点已经失去了它们的重要性。因此,我们需要一个质量和速度之间的权衡。请注意,这是更合理的选择一种自适应k基于价值的数量尤其是中央节点在每个迭代中。首先,我们需要大约估计的范围k对于不同的网络。我们选择k= 1,互动的中间性的计算进行了大量实验对48个真实网络和不同的大小。我们想象的分布(需要移除的节点数量减少50% GCC)在图2。如图2(一个)可以切成50%,一些大的网络删除几个节点(例如,删除不超过10节点可以网络上和大小会减少50%10000)。此外,的分布在图2 (b)表明,切除不超过50个节点会导致许多网络GCC减少50%。感兴趣时固定大小批量删除,我们集k (1、2、4、8、16)。

(一)

(b)

图3显示了中间状态值的分布在不同的攻击策略。我们可以看到,当(互动4日攻击)和红外(互动剩余),有2个节点高中间状态(例如,节点2和3中间状态值= 0.5红外)这两个节点相同的重要性。我们可以删除他们两人在一次迭代分解GCC。在I3(互动第三攻击),只有一个节点(即。,node 5) with high betweenness value (0.5), that is, there is only one particularly central node. For such an outstandingly important node, it is reasonable to setk= 1,只有把单独的节点从GCC。灵感来自网络的例子中,我们,另外,考虑设置k与中间状态的节点数量0.5,使其适应范围。除此之外,我们还考虑的情况下设置k与中间状态的节点数量(中间状态的平均+标准差值)。

(一)

(b)

(c)

(d)

此外,我们可以删除一定比例的节点在每个迭代中。剩下的实验,我们选择了1%,5%,10%,20%。综上所述,我们决定k值在每个迭代中基于中间性的分布值在当前GCC的节点。表1显示的概述k设置批量删除。


类别	描述	参数	命名

k=常数	删除常数的节点数量	k(1、2、4、8、16)	例如,2
k=分数的节点	删除节点的某些部分	k(1%,5%,10%,20%)	例如,20%的
k=的节点数量	删除所有节点	Ø	作为
k=自适应^d的节点数量与	删除某些节点与	Ø和自适应^d(1、2、4、8、16)	0.5

:中间状态的一个节点。 :在当前的GCC中间性的平均价值。 :在当前GCC中间状态值的标准偏差。^d适应性:k= ,在哪里代表与中间状态的节点数量0.5(例如,如果有9节点和中间状态0.5,然后k= 8)。

2.4。措施的比较

2.4.1。精度

给出一个近似算法和确定k设置,我们的框架是一个排名的节点的输出从高互动中间性低互动中间性。分析了近似排名,我们考虑四个方面:(1)识别重要的节点:在许多情况下,人们更关心顶部节点高中间性。我们使用三个措施:最高——1%——来袭,最高——5%——支安打,最高——10%——支安打。(2)排名sortedness:与精确的排名相比,近似的sortedness排名可以通过反演数量进行描述。(3)加权系数:考虑到顶级节点的重要性,我们使用Weightedtau添加顶级节点之间交流的重量。(4)破坏网络:在交互计算,GCC的大小不断减少,我们保持删除节点。高的一个好方法可以识别节点介数,这可能对网络连接有很大的影响,导致快速拆除过程和快速减少GCC。我们认为需要被删除的节点数量GCC切成10%。

总的来说,我们设计六个措施评估精度标准相比排名(即。的排名,节点的精确计算k= 1)如下:(1)最高——1%——点击:节点通过近似方法正确识别的分数最高——1%的节点。(2)最高——5%——点击:节点正确识别的分数最高——5%的节点。(3)最高——10%——点击:节点正确识别的分数最高——10%的节点。(4)反演:归一化反演估计数量排名以精确的排名为标准。计算反演数量后,我们归一化映射到[0,1]:反演= ,在哪里N节点和数量吗是准确的反演的数字。(5)Weightedtau:一个节点一个映射到重量1 / (一个+ 1)和两个节点之间的交换一个和b有重量1 / (一个+ 1)+ 1 / (b+ 1)。顶级节点有更高的权重,增加交流的影响重要节点。(6)GCC减少10% ( ):它代表有多少个节点方法需要删除拆除网络直到GCC10%N。归一化值映射到[0,1]和1意味着需要的最小节点数的方法得到10%减少GCC。

2.4.2。运行时

我们进行实验在同一台计算机上有四个核心i7 - 6500 u (2.50 GHz)和16 GB的RAM。我们单独运行每个近似方法和记录准确的运行时。

2.4.3。权衡

考虑六个措施的准确性,我们规范化运行时并绘制规范化措施看到哪个方法可以提供一个很好的权衡。为了分析结果在不同的网络,我们计算归一化运行时和平均测量值。综上所述,我们使用六措施评估的准确性,我们还分析了运行时和权衡。此外,我们设置命名作为近似algorithm_parameter_时间表k(例如,使用RAND2 RAND2_64_2代表算法与轴心的数量= 64和k= 2)。

3所示。结果

3.1。网络在这个研究

首先,我们生成9 ER (Erdos-Renyi)图表,9 BA (Barabasi-Albert)图,和27 WS (Watts-Strogatz小世界)图与不同尺寸和参数。表2概述了随机网络和发电机参数。图4随机网络可视化四个选择。在这些随机图,我们进行了灵敏度分析的Top-1-node-identification三为了选择合理的参数选择方法。此外,我们选择48真实网络的不同大小和结构,涵盖各种领域,如获得http://networkrepository.com/networks.php:(我)社交网络(4):网络社会人们之间的友谊。节点和边缘人代表他们的连接。(2)生物网络(5):网络显示生物系统元素之间的交互。(3)大脑网络(7):代表在大脑功能连接网络。我们选择不同的大脑网络的鼠标,猕猴,飞翔。(iv)生态网络(2):网络显示物种之间的相互作用。(v)网络经济(2):代表相互联系的经济主体之间的相互作用网络。(vi)基础设施网络(3):网络组成的连锁之间的基本设施。(七)电力网络(5):网络传输的电力。(八)道路网络(2):网络代表路十字路口之间的连接。(第九)网络技术(2):网络组成的连锁之间的技术系统。(x)Web网络(5):网络代表万维网网页之间的超链接。(十一)电子邮件网络(2):网络显示邮件交往两个地址。(十二)网络转发(7):描述在Twitter上转发关系网络。(十三)Cheminformatics网络(2):网络反映材料的化学相互作用。


ID	的名字	发电机参数	命名方案

呃	Erdos-Renyi	节点的数量n {300、700、1000} 边缘的概率 {0.015,0.02,0.025}	ER_n_
英航	Barabasi-Albert	节点的数量n {300、700、1000} 边的数量从一个新节点附加到现有的节点米 {2 4 6}	BA_n_米
WS	Watts-Strogatz	节点的数量n {300、700、1000} 最近的邻居的数量与每个节点( ) {3、5、7} 重新布线每条边的概率 {0.2,0.5,0.8}	WS_n__

(一)

(b)

(c)

(d)

表3概述了我们的48个真实数据集,包括网络属性。


类别	范围内的节点	范围的边缘	范围的密度	范围的最大程度

社交网络	(889、12645)	(2914、49132)	[0.000615,0.008053]	(102、4800)
生物网络	(453、3343)	(1948、6437)	[0.001139,0.019780]	(37岁,523年)
大脑网络	1770年(29日)	[16089]	[0.003157,0.712596]	927年(31日)
生态网络	(97、128)	(1446、2075)	[0.25529,0.310567]	(90、110)
经济网络	(257、1258)	(2375、7513)	[0.009502,0.072197]	(106、206)
基础设施网络	(332、4941)	(2126、15645)	[0.00054,0.038693]	[242]
电网	(494、5300)	(586、8271)	[0.000589,0.004812]	(9、17)
公路网络	(1039、2640)	(1305、3302)	[0.000948,0.00242]	(5、10)
技术网络	(2113、10680)	(6632、24316)	[0.000426,0.002972]	(109、205)
网络网络	(643、12305)	(2280、47606)	[0.000258,0.011046]	[59,199)
电子邮件网络	(143、1133)	[[623、5451)	[0.0085,0.061361]	[71]
转发网络	(2280、9631)	(2464、10314)	[0.000211,0.000948]	(267、7655)
Cheminformatics网络	(123、125)	(139、141)]	[0.018194,0.018526]	[5]

3.2。灵敏度分析和参数选择

为了选择合理的参数的近似方法,我们评估的质量(节点的识别与每个选定的方法通过计算静态中间性每个方法生成的随机网络。图5报告网络,每个竞争对手的分数可以正确识别(节点。RAND2:图5显示了识别的结果(在随机网络节点对不同数量的枢轴点采样。可以看出质量的比例(衡量正确识别节点)增加的轴心和取样的数量与512年枢轴点是最好的。RAND2_64可以选择作为一个权衡,它正确地识别WS网络和节省时间70%以上。RK:如图5表明,它可以得到最好的质量当我们集合。然而,它只识别60%的随机图形。随着RK和0.3不能识别(在所有ER节点网络,我们选择和0.1。KPATH: KPATH图所示的结果5。质量RAND2和RK相比是最糟糕的。KPATH_0.2_4和KPATH_0.2_8在所有选定的设置是合理的。

(一)

(b)

(c)

与这些结果,我们选择RAND2_512、RAND2_64 RK_0.07_0.1, RK_0.10_0.1 KPATH_0.2_4, KPATH_0.2_8进一步分析在研究的其余部分。

3.3。精度

由于计算在实际网络是昂贵的,我们首先分析结果生成的随机图,为了选择对手,开展进一步的实验在现实世界的网络。图6介绍了平均测量值66的竞争对手。我们可以看到,RAND2_512_1提供最高的精度。

图7介绍了分布的GCC减少66的竞争对手10%。我们可以看到,10% GCC减排措施,拆除问题密切相关,RAND2_64_1的质量也很好。此外,RAND2_64的准确性接近RAND2_512不同k。表4显示测量值和运行时在一个特定的ER网络。RAND2_64、RK_0.10_0.1 KPATH_0.2_4可以节省运行时RAND2_512相比,RK_0.07_0.1, KPATH_0.2_8。考虑到高昂的计算成本更大的网络,我们选择RAND2_64 RK_0.10_0.1, KPATH_0.2_4进一步分析48现实世界的网络。


测量	RAND2_512	RAND2_64	RK_0.07_0.1	RK_0.10_0.1	KPATH_0.2_8	KPATH_0.2_4

运行时(年代)	39.7	22.9	28.5	23.7	8.1	4.2
最高——1%——支安打	0.75	0.75	0.75	0.25	0.75	0.75
最高——5%——支安打	0.75	0.75	0.81	0.69	0.88	0.81
最高——10%——支安打	0.90	0.87	0.81	0.81	0.77	0.67
Weightedtau	0.01	0.12	0.08	0.17	0.02	0.01
反演	0.78	0.81	0.82	0.80	0.84	0.84
	0.97	0.97	0.94	0.94	0.83	0.69

3.3.1。现实世界的网络

我们跑48现实世界的网络和计算实验6个测量值的准确性。图8介绍了测量值的分布。我们可以看到,RAND2_64k= 1是杰出的所有措施。此外,当设置不变k值,质量变得更糟的是当我们增加k价值。在测量(GCC)降低10%,很明显,质量变得更糟k= 1%k= 20%。此外,RAND2_64和RK_0.10_0.1删除某些节点0.5也可以提供良好的准确性。相比RAND2_64 RK_0.10_0.1, KPATH_0.2_4不好的质量。我们计算的平均测量值48现实世界的网络,和结果如图所示9:RK_0.10_0.1_1 RAND2_64_1 RAND2_64_0.5, RK_0.10_0.1_0.5是好的。

3.4。运行时

计算的运行时交互中间性的大小取决于网络的选择k,选择的近似算法。我们分析了运行时不同k值相同的近似方法。此外,我们评估不同的近似方法的运行时是一样的k设置。

3.4.1。运行时再分类不同k设置

图10情节RAND2_64的运行时(以秒为单位),RK_0.10_0.1和KPATH_0.2_4相同k设置(例如,k=某些节点 )在不同的现实世界的网络y设在=秒,运行时x设在=N日志N在哪里N是网络中节点的数量。我们可以看到,图10表明,时间复杂度对于这些稀疏的现实世界的网络。注意,密集的网络,运行时将近从理论上讲。此外,RAND2_64是最高的运行时,虽然KPATH_0.2_4三种近似方法是最快的,但是它没有提供好的质量。

3.4.2。运行时再分类不同的近似方法

图11显示了RK_0.10_0.1的运行时k从1到16。我们可以看到,运行时增加k减少。如果我们选择小k,那么更少的节点在每个迭代中移除,从而导致更大的迭代次数和计算成本。此外,翻倍k值将节省50%的运行时k 2。当k= 1,运行时达到最大值,而不是相比翻了一番k= 2。

总之,在稀疏的现实世界的网络,实际运行时从我们的结果和一个线性关系k 2。

3.5。加速

在本节中,我们提出的加速互动中间性近似标准相比BETWI(具体互动介数计算)。BETWI根据我们的实验结果和其他近似方法进行了在同一台计算机上,我们计算的加速效果三个ER网络与不同大小(N= 300,400,500,600,700,800,900,1000),但是同样的发电机参数。类似于我们的运行时分析,评价互动中间性近似的加速效果两方面,揭示了不同中间状态的加速效果近似算法和增加的加速效果k。图12(一个)显示RAND2_512的加速效果,RAND2_64、RK_0.07_0.1 RK_0.10_0.1, KPATH_0.2_4, KPATH_0.2_8相同k设置。我们可以看到,加速增加随着网络变得更大。作为一个快速算法,KPATH RK和RAND2相比提供极大的加速效果。图12 (b)提出了加速效果不同k设置。删除一个节点从GCC在每个迭代中诱发低加速效果,而翻倍k价值大约一倍加速。

(一)

(b)

3.6。权衡

从结果质量和运行时,一些竞争对手(如RAND2_64_0.5)获得高质量但需要小时最大的网络。几种方法(例如,KPATH_0.2_4k= 16)非常快但是质量不好。在本节中,我们专注于这些选择竞争对手的权衡。

3.6.1。权衡在特定的网络

图13提出了权衡质量(即。,the values of six measures of accuracy) and speed (exact runtime). We used 3 colors to distinguish 3 approximation methods and 3 markers to label 3 typicalk设置,包括更快的一个(k= 16),最慢的一个(k= 1)k作为一个权衡= 4。我们可以看到RK_0.10_0.1k= 4得到很好的权衡之上——1%——来袭,采取不超过25%运行时得到高精度的最大运行时相比,而当我们考虑转化措施,KPATH_0.2_4k= 1是好的。此外,RAND2_64k= 4还提供了愉悦的权衡这两个最高——1%——支安打,Weightedtau。

(一)

(b)

(c)

(d)

(e)

(f)

操作。平均的权衡

有数量级的运行时在不同网络之间的偏差,分析权衡在48个真实的网络,我们在每个网络规范化运行时= 1,最快最慢= 0,然后计算平均48网络规范化运行时。此外,我们进一步规范化测量值,这些值映射到[0,1]在每个网络和计算平均归一化测量值。图14显示了结果。我们使用相同的标签如图13并添加传说这些竞争对手平均归一化运行时0.5和平均归一化测量值0.6。我们可以看到设置k在[2 4 1%,0.5]能充分权衡与特定的近似方法。

(一)

(b)

(c)

(d)

(e)

(f)

4所示。结论

中间性中心是一个被广泛使用的节点重要性的方法,计算最短路径的节点数出现在网络。然而,如果一个节点在网络被攻击或失去功能,其他节点的中间状态值将会改变。即所有中间状态值需要重新计算,以更新的实际节点的重要性。最近的研究表明,在网络拆除问题,交互式地删除一个节点最高的中间性优于删除节点基于获得的排名一次中间状态计算。然而,互动中间性计算需要静态中间性每个节点删除后重新计算当前的GCC,它有非常显著的计算昂贵的(一个数量级)相比,静态方法。

在本文中,我们系统地研究了近似交互式中间性的中心。我们提出一个框架,用于交互式中间状态估计k批量删除。我们的框架由一组静态中间性近似算法与各种参数设置识别顶级中间性和选择高的节点有多少个节点在每个迭代中被删除。换句话说,我们不仅分析了删除一个顶级节点的性能也是评价一批节点的删除。互动的中间性的计算比静态中间性的计算更加昂贵,我们专注于选择近似方法和参数设置k值(要删除的节点数量在每一次迭代)也可以提供高质量和很好的精度和速度之间权衡。确保我们的数据集覆盖不同的网络结构,我们45生成随机网络,包括ER、WS, BA网络,选择48真实网络和从不同的领域不同的大小。我们设计了六个措施来评估准确性考虑识别的重要节点,排名的相似性,对GCC减少的影响。

初步选择合适的参数设置,我们进行了灵敏度分析的静态中间性近似算法和评估的质量(节点随机网络的识别。我们选择六个近似方法、包括RAND2_64 RAND2_512, RK_0.07_0.1, RK_0.10_0.1 KPATH_0.2_4, KPATH_0.2_8。至于k设置,根据GCC降低50%的结果,我们发现,许多网络节点可以与一小部分拆除,我们选择了11个不同k设置(k(1、2、4、8、16 1%,5%,10%,20%,0.5])。我们跑测试66的竞争对手(六近似算法有11个k在随机网络设置)进一步选择竞争对手。基于随机网络的结果,我们选择RAND2_64, RK_0.10_0.1和KPATH_0.2_4 11k设置,在较大的现实世界的网络进行了大量实验。我们发现RAND2_64_1, RAND2_64_0.5、RK_0.10_0.1_1 RK_0.10_0.1_0.5提供高精确度。此外,我们分析了关于不同的近似算法和运行时k设置。我们的分析在不同的近似方法是一样的k表明RAND2_64最慢,KPATH_0.2_4最快的竞争对手。此外,我们还发现,翻倍k值会运行时减少50%k 2,运行时达到最大值k= 1(图所示11)。我们的分析表明,RAND2_64和RK_0.10_0.1k= 2 4 1%和0.5之间提供一个很好的权衡精度和速度。

在合成中,我们提出了一个新颖的互动框架中间性近似。我们系统地评估近似算法的选择与各种参数设置和选择不同的批量删除来自三个方面:准确性、运行时,以及它们之间的权衡。我们的工作有助于分析复杂网络现象,尤其关注获得可伸缩的技术。未来的工作可以调查其他网络的交互式近似计算中心的措施。

附录

答:静态中间性估计技术

. 1。枢轴点取样

Brandes和Pich25]介绍了中间性RAND1近似。RAND1样本源节点的一个子集均匀随机计算所有节点的估计中间性扩展它 ,在哪里是采样源节点的数量。巴德et al。26]提出GSIZE算法决定了枢轴点的数量的样品图的大小。GSIZE利用一种自适应抽样技术引入的立顿和诺顿27]。给定一个节点 ,GSIZE保持采样主年代直到。Geisberger et al。28]提出了基于随机抽样RAND2近似静态中间性所有节点的值。RAND2修改RAND1通过扩展线性函数。RAND2减少源节点和节点的贡献接近可以解决RAND1的过高的问题。

由信用证。节点对抽样

Bergamini和Meyerhenke29日)提出了一种完全动态估计算法(DA)计算中间状态。DA跟踪旧的最短路径和替代品只有当他们是必要的。Riondato和Kornaropoulos30.)提出了RK样本双节点,而不是进行BFS从源节点采样。RK是一个考虑到允许附加误差ϵ的概率RK保证每个节点的误差小于ϵ的概率至少。RK决定样本大小的VC维(Vapnik-Chervonenkis维度)介绍31日)而不是网络的大小。Riondato和Upfal32)提供了一个方法岩洞。磨料使用进步的抽样和设置停止条件利用随处平均Shalev-Shwartz和Ben-David[提出的33和引入pseudodimension波拉德34在统计学习领域)。

出具。有界的石

埃弗雷特和Borgatti35)发现节点的中间状态在其自我网络的中间状态有关在网络。自我的网络由节点 ,所有的邻居 ,这些节点和边缘连接。埃弗雷特和Borgatti35]随着距离的邻居= 2用于自我近似算法。换句话说,自我界限BFS 2跳从源节点。菲和Carley36]介绍了KPATH方法计算介数中心值的基础上k中心地位的措施。菲和Carley36)认为,这些节点远离彼此不会导致中间状态的值。(相比35),BFS KPATH是有界的k啤酒花从源节点,这些节点的距离从源节点不考虑。Borassi和纳塔尔37KADABRA]介绍了一种自适应算法,它可以近似中间性的所有节点或者只是计算Top-k节点。KADABRA使用双向平衡BFS样本最短路径。而不是进行完整石年代来tBFS KADABRA执行,年代和石t同时,直到两个bfs相互接触。

正如上面提到的,我们近似算法分为三个分类:枢轴点采样、节点对抽样和石。我们选择一个方法和一个运行时从每个分类和质量之间的权衡。为轴心的抽样方法,我们选择RAND2,因为它提供了一个出色的精度与权衡。从实验的角度来看,结果(38,39)都表明RAND2优于其他方法测试网络。从理论的角度来看,通过线性扩展,RAND2可以处理RAND1的过高的问题。因此,可以选择RAND2代表基于枢轴点采样的方法。然而,RAND2是由样本大小的性能。正如RAND2需要(抽样数量的轴心)迭代BFS,静态RAND2的时间复杂度。一方面,如果我们样品几枢轴点,我们不能确定(节点(最高的节点介数)。另一方面,如果我们样品太多枢轴点,我们将做冗余计算。作为Geisberger et al。28)建议,我们选定的恒定的样本大小。我们选择RK Riondato和Kornaropoulos[提出的30.]节点对之间的抽样方法。结果——1%——点击上面提供的基准Alghamdi et al。38]表明RK是一个更好的选择对于识别至关重要的节点。作为一个方法,ϵ可以极大地影响速度和质量通过确定样本容量(40]: 在哪里是网络的估计vertex-diameter精确的计算vertex-diameter相当昂贵。因为我们专注于识别(节点互动近似,我们可以设置ϵ高于0.01(默认)。我们评估了RK的性能。至于δ,我们将它设置为0.1(默认)。此外,我们选择KPATH引入菲和Carley36)作为一个典型的基于有界BFS方法之一。KPATH近似静态中间性中心值使用k中心地位的措施。KPATH假定节点距离提供零依赖关系。KPATH停止BFS直到到达k啤酒花。因此,只有对依赖关系的两个节点的距离k可以促进中间状态的值。KPATH决定样本大小的参数α:样品的数量成正比 ,其中N是网络中节点的数量。区分k在KPATH从我们k批量删除,我们的名字k在KPATH 。我们设置。此外,考虑到α价值观,我们将它设置为0.0,0.2和0.4进行综合比较。三种选择方法及其参数设置,我们选择的命名方案作为method_parameter(例如,KPATH_0.2_4 KPATH方法α= 0.2,= 4)。表5概述我们的选择方法。


方法	参数	描述

元素	Ø	Brandes算法计算确切的中间状态
RAND2		随机抽样枢轴点均匀
RK	,	使用和采样节点对
KPATH	,	有界BFS内啤酒花

数据可用性

在这项研究中使用的所有网络都可以从公共存储库http://networkrepository.com/networks.php。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本研究研究基金支持的从中国的国家自然科学基金(批准号。61861136005,61861136005,71731001)。

引用

r·阿尔伯特。艾伯特,g . l . Nakarado“北美电网结构脆弱性。”物理评论E,卷69,不。2、文章ID 025103, 2004。视图:出版商的网站|谷歌学术搜索
l . Cuadra s Salcedo-Sanz j . Del Ser s Jimenez-Fernandez z和w·Geem”关键电网使用复杂网络的鲁棒性的概念,“能量,8卷,第9265 - 9211页,2015年。视图:出版商的网站|谷歌学术搜索
h, s·h·Yook桢,a·l·巴斯”互联网的大规模拓扑建模,美国国家科学院院刊》上,卷99,不。21日,第13386 - 13382页,2002年。视图:出版商的网站|谷歌学术搜索
r·阿尔伯特·a·l·巴斯”复杂网络的统计力学。”现代物理学的评论,卷74,不。1,47 - 97、2002页。视图:出版商的网站|谷歌学术搜索
m . Zanin f .签约,“造型复杂的航空运输网络:一个简短的评论,“欧洲物理专题》杂志上,卷215,不。1,5 - 21日,2013页。视图:出版商的网站|谷歌学术搜索
太阳x,我们美国,f的左翼,”欧洲航空运输系统演化分析:空中导航航线网络和机场网络,”Transportmetrica B:传输动力学,3卷,不。2、153 - 168年,2015页。视图:出版商的网站|谷歌学术搜索
x太阳和我们美国,“网络导航路线系统的相似性分析,“运输研究E部分:物流和运输审查卷,70年,第434 - 416页,2014年。视图:出版商的网站|谷歌学术搜索
t . Verma n . a . Araujo h·j·赫尔曼,“揭示世界航空网络的结构。”科学报告,4卷,不。1,p。5638年,2014。视图:出版商的网站|谷歌学术搜索
我们,和太阳x, z . Wang”全球铁路骨架网络:提取方法和初步分析,“IEEE智能交通系统,18卷,不。8,2206 - 2216年,2017页。视图:出版商的网站|谷歌学术搜索
p . a .女警诉Kashirin, p . m . Sloot“相对无效的犯罪网络中断,”科学报告,4卷,不。1,p。4238年,2014。视图:出版商的网站|谷歌学术搜索
a·卡迪罗,m . Zanin j . Gomez-Gardenes m .浪漫,a·j·g . del Amo和s . Boccaletti”建模欧洲航空运输网络的多层性质:弹性和乘客调用随机故障下,“欧洲物理专题》杂志上,卷215,不。1,23-33,2013页。视图:出版商的网站|谷歌学术搜索
我们美国,x的太阳,d·冯·m·Zanin和s . Havlin network-dismantling方法的比较分析,“科学报告,8卷,不。1,2018。视图:出版商的网站|谷歌学术搜索
r . Pastor-Satorras和a . Vespignani”在复杂网络流行动态和流行国家,”物理评论E,卷63,不。6、文章ID 066117, 2001。视图:出版商的网站|谷歌学术搜索
a . v . Goltsev Dorogovtsev、j·g·奥利维拉和j·f·门德斯,“本地化和在复杂网络传播的疾病”,物理评论快报,卷109,不。12篇文章ID 128702 2012。视图:出版商的网站|谷歌学术搜索
m·萨利希r·沙玛m . Marzolla m·马格纳尼·Siyari d . Montesi,“在多层网络,传播过程”IEEE网络科学与工程,卷2,不。2、65 - 83年,2015页。视图:出版商的网站|谷歌学术搜索
g . Sabidussi”的中心地位指数图,心理测量学没有,卷。31日。4、581 - 603年,1966页。视图:出版商的网站|谷歌学术搜索
p . Bonacich”,保理和加权方法状态得分和小团体识别,”《华尔街日报》的数学社会学,卷2,不。1,第120 - 113页,1972。视图:出版商的网站|谷歌学术搜索
l . Katz,“一个新的地位指数来源于社会经济的分析,“心理测量学,18卷,不。1,39-43,1953页。视图:出版商的网站|谷歌学术搜索
l·c·弗里曼,“一套措施基于中间性的中心,“人与人之间,40卷,不。1,35-41,1977页。视图:出版商的网站|谷歌学术搜索
美国Brandes“中间性中心更快的算法。”《华尔街日报》的数学社会学,25卷,不。2、163 - 177年,2001页。视图:出版商的网站|谷歌学术搜索
r .风扇、徐k和j .赵“中间性的基于gpu的解决方案快速计算中心在大型加权网络,”PeerJ计算机科学卷,3 p . e140 2017。视图:出版商的网站|谷歌学术搜索
中村r .松尾r . h . Ohsaki,“中间性sparse-modeling建立方法研究中心估计,”学报2018年IEEE第42届会议(COMPSAC)计算机软件和应用程序2018年7月,东京,日本,。视图:谷歌学术搜索
a . van der Grinten和h . Meyerhenke缩放中间性近似数十亿mpi的自适应采样的边缘,”2019年,https://arxiv.org/abs/1910.11039。视图:谷歌学术搜索
s . k .孔雀王朝、刘x和t .日本村田公司”近似的中间性和图神经网络中心,”学报》第28届ACM国际会议信息和知识管理2019年11月,北京,中国。视图:谷歌学术搜索
Brandes和c . Pich”大型网络中心估计,”国际期刊的分歧和混乱,17卷,不。7,2303 - 2318年,2007页。视图:出版商的网站|谷歌学术搜索
d·a·巴德s Kintali k . Madduri m . MihailWeb-Graph近似中间性中心算法和模型海德堡,激飞柏林,柏林,德国海德堡2007。
r . j .立顿和j·f·诺顿,“估计广义传递闭包的大小,”学报》第15届国际会议上非常大的数据基地VLDB 89,摩根Kaufmann出版商Inc .)、旧金山、钙、美国,1989年,http://dl.acm.org/citation.cfm?id=88830.88847。视图:谷歌学术搜索
r . Geisberger、p·桑德斯和d·舒尔特更好的近似中间性中心工程& Expermiments会议的程序算法工业与应用数学学会,费城,宾夕法尼亚州,美国,2008年,http://dl.acm.org/citation.cfm?id=2791204.2791213。
大肠Bergamini和h . Meyerhenke完全动态的近似中间性中心Algorithms-ESA 2015艾德邦萨尔N和Finocchi我海德堡,激飞柏林,柏林,德国海德堡2015。
m . Riondato和e . m . Kornaropoulos“中间性的快速近似中心通过抽样,”数据挖掘和知识发现,30卷,不。2、438 - 475年,2016页。视图:出版商的网站|谷歌学术搜索
v . n . Vapnik和a . y . Chervonenkis一致收敛的概率事件的相对频率施普林格国际出版,可汗,瑞士,2015。
m . Riondato和大肠Upfal磨料。”ACM交易数据的知识发现,12卷,不。5,1-38,2018页。视图:出版商的网站|谷歌学术搜索
Shalev-Shwartz和s . Ben-David了解机器学习:从理论算法,剑桥大学出版社,纽约,纽约,美国,2014年。
d·波拉德,“收敛的随机过程,”受到经济,52卷,不。208,529年,页1985。视图:出版商的网站|谷歌学术搜索
m·埃弗雷特和s . p . Borgatti”自我网络中间状态,”社交网络,27卷,不。1,31-38,2005页。视图:出版商的网站|谷歌学术搜索
j·菲和k . m . Carley。”k-centralities:本地全球措施基于最短路径的近似,”21国际会议的程序在万维网上,WWW的12个伴侣ACM,纽约,纽约,美国,2012年。视图:出版商的网站|谷歌学术搜索
m .纳塔尔Borassi和大肠KADABRA是中间状态的自适应算法通过随机逼近算法(ESA 2016) 24日年度欧洲研讨会(莱布尼茨国际诉讼信息学(LIPIcs),城堡Dagstuhl-Leibniz-Zentrum为了Informatik Dagstuhl,德国,2016年,http://drops.dagstuhl.de/opus/volltexte/2016/6371。
z Alghamdi f . Jamour s . Skiadopoulos, p . Kalnis“中间性的基准中心近似算法在大型图表,”学报》第29届国际会议上科学和统计数据库管理(ACM),页1 - 12,芝加哥,2017年6月。视图:谷歌学术搜索
j·马塔、g . Ercal和k . Sinha”比较方法的速度和准确度中间性中心近似,”计算社交网络》第六卷,没有。1,2019。视图:出版商的网站|谷歌学术搜索
Har-Peled和m . Sharir”相对p,ε)近似几何。”离散与计算几何,45卷,不。3、462 - 496年,2011页。视图:出版商的网站|谷歌学术搜索

复杂性

文摘

1。介绍

2。方法

2.1。整体的框架

2.2。静态中间性近似

2.3。选择的大小批量删除

2.4。措施的比较

2.4.1。精度

2.4.2。运行时

2.4.3。权衡

3所示。结果

3.1。网络在这个研究

3.2。灵敏度分析和参数选择

3.3。精度

3.3.1。现实世界的网络

3.4。运行时

3.4.1。运行时再分类不同k设置

3.4.2。运行时再分类不同的近似方法

3.5。加速

3.6。权衡

3.6.1。权衡在特定的网络

操作。平均的权衡

4所示。结论

附录

答:静态中间性估计技术

. 1。枢轴点取样

由信用证。节点对抽样

出具。有界的石

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章