文摘
基于拓扑相似性的算法中扮演重要角色链接预测。然而,大多数传统的算法基于节点的影响只考虑端点的度忽略邻居的贡献差异。通过慷慨的探索,我们提出了测距装置(映射熵推导)之间的映射关系模型对节点及其邻居访问适当的节点的影响。丰富的九真正的网络实验表明,该模型可以提高链接预测的精度和执行比传统算法显然没有时间复杂度的增加。
1。介绍
大量复杂的系统在本质上可以被描述为复杂网络(1]。网络中的节点代表真实系统中的个体,和连接两个节点的边代表个人在现实系统的关系。世界上现有的网络可以分为社会网络、生物网络(2,3),等等。链接预测评估的可能性之间的联系网络中两个节点在已知网络结构或节点属性。通过链接预测,我们可以发现现有的联系但未知网络中遗漏了一些数据。除此之外,我们还可以预测网络的未来发展的联系(4]。链接预测在实际应用中发挥着重要作用。例如,通过链接预测,预测未知蛋白质之间的相互作用,避免了实验成本高(5]。此外,它还扮演了一个角色在用户推荐(6]。
在早期,大多数研究人员从事链接预测关注的属性节点的相似性,比如年龄,职业,兴趣等等2,7)来判断链接的可能性。该方法可以实现高精度预测。然而,很难提取的属性节点在复杂网络和信息的可靠性难以保证8]。所以,研究人员将注意力转向网络结构的研究(9,10]相对较低的计算复杂度。
基于网络结构的相似性算法可以分为三类:局部相似性算法,全局相似度算法,quasilocal相似性算法根据路径长度(11]。地方相似的核心理念是常见的邻居。在此基础上,考虑到端点从不同角度的影响,各种局部相似性指数。例如,常见的邻居(CN)指数12)认为,如果两个节点有更多的共同的邻居,那么他们更有可能有连接边缘。Adamic-Adar (AA)指数(13)持有的共同邻居小程度上有更大的贡献。因此,每个节点是一个重量。因为这些局部相似性指数只考虑网络的局部结构导致低精度,提出了三阶和高阶路径相似性指数如Katz指数(14]。Katz指数考虑两个无关的节点的所有路径的短路径优先级。毫无疑问,这大大增加了计算复杂度。与上述两种算法相比,quasilocal相似性算法与温和的复杂性和精度越来越广泛的应用。叠加随机漫步(SRW)指数(15]是一种指数基于马尔可夫模型。
在传统算法,只有端点被认为是当我们评估的程度的影响。这考虑邻居节点的影响程度而失去间接邻居的影响(16,17]。事实上,由于不同程度的邻居,他们的影响力在端点应该是不同的。度越大,影响越大。然而,考虑到全球节点将会增加算法的复杂性,结果未必是好的。因为端点的影响是有限的,它只有很大的影响在附近的邻居。因此,本文提出了使用映射的推导过程熵(测距装置)的节点来表示影响,代表一个节点和它的邻国之间的映射关系。它不仅考虑节点的重量也是邻国的重量。图1显示了一个明确的说明。
(一)
(b)
在上述讨论的基础上,我们改善SRW模型,考虑到间接的影响邻居。通过大量实验9复杂网络,结果表明,测距装置可以实现较高的精度比传统的算法在大多数情况下。
剩下的纸是组织如下。节2,我们提出一个新的基于测距装置指数模型。节39,我们引入复杂网络和实验方法。节45介绍了经典模型作为参考。节5、结果和分析。节6我们的研究,我们得出一个结论。
2。熵模型推导的基础上的映射
2.1。网络模型
被定义为一个网络,在哪里是节点集和边缘设置节点的总数和总边数 。通用设置U可以有 链接。链路预测的方法是给一个分数这表明每一对无关的节点连接两个节点的可能性。然后,所有无关的节点按降序排列的分数。节点对的最高代表两个节点是最可能产生一个连接。为了测试算法的精度,已知的边集分为训练集吗和测试集 。只能用来计算测试集的分数。很明显, 和 。我们定义一个属于边缘U而不是E作为一个不存在的优势。在本文中,我们使用精度(18)测量的准确性链接预测算法,用于描述top-L联系的实际链接的比例最高的分数。如果有米真正的链接top-L链接,可以表示为算法的精度
为了简化模型,我们用无向和未加权的网络。
2.2。叠加随机漫步( )模型
SRW模型启发从LRW模型认为端点之间的随机漫步和 ,使附近的节点更有可能连接到目标节点(19]。它被定义为 初始密度矢量在哪里 和它的发展 。 代表的概率转移矩阵 ,和 链接时存在;如果不是这样, 。除此之外,表示时间的步骤。
2.3。推导的映射熵( )模型
灵感来自于香农熵、信息熵(20.网络可以表示为 在哪里学位中心节点吗 。一个节点及其邻居构造一个子网。局部熵( )(21)的子网起源于端点下列公式所示: 在哪里学位中心节点吗 ,属于你的邻居吗的节点 。在节点和它的邻国之间的映射关系考虑在内,我们可以获得映射熵(我): 在哪里学位中心节点吗和的学位中心的一个邻居节点 。
灵感来自我指数,我们介绍的推导映射熵:测距装置,它是由交叉节点的度和 。
定义考虑节点的度和邻国的度考虑了间接的影响邻居。这可能是用于区分邻居的重要性。基于SRW模型,我们考虑使用测距装置指数代替端点的影响,它可以执行比我模型引入基于叠加后通过实验随机游走。模型被定义为
正如上面提到的,为了更好的比较,我们也应用我SRW模型和索引模型如下所示。
3所示。实验数据
为了证实测距装置模型的有效性,我们进行大量实验九真正的网络。他们列出如下:(1)美国空军(USAir),描述美国航空运输系统的网络(22];(2)酵母酵母(PPI),表达的蛋白质关系网络酵母(23];(3)食物网(食物),描述了协会在柏树佛罗里达湿地生态系统碳交换(24];(4)电网(权力),表达了美国西部的电力交通网络(25];(5)加州大学欧文分校,代表社会网络(Ucsocial),描述了一个在线社交网络的学生组成的加州大学欧文分校(26];(6)爵士,表明爵士音乐家之间的协作关系(27];(7)EuroSiS Web (EuroSiS),显示社会科学之间的交互演员从12个欧洲国家28];(8)路由器,路由器之间的传输的数据包在网络4];(9)詹姆斯国王,来自数据集陆等人收集。提到网络的基本拓扑特性表中列出1。
我们的模型应用于无向和未加权的连接网络。因此,我们让弧变成无向链接。此外,我们删除循环和多个连接。随后,每个原始数据集的最大提取edge-connected图保证整体的连接。
在实验前,边集9网络分为两部分和随机。训练集包含90%的整个边缘。测试集包含了10%。的连通性保证的添加边随机最小生成树,直到训练集包含90%的链接。接下来,30组单独的实验数据为每个网络分为大小相同。然后,他们申请的平均精度统计方法来避免结果的随机性。
4所示。参考标准
为了突出我们的算法的优越性,列出了五个经典方法如下。(1)共同的邻居(CN) [12),相似性判断邻居共享的节点的数量x和节点y,它被定义为 在哪里代表的邻居节点的集合 。除此之外, 指的是常见的邻居节点的数量和 。(2)优惠附件(PA) (29日)认为,一个新的链接连接到节点的概率成正比 ,因此,节点之间的概率和成正比 。该指数被定义为 这个指数不需要每个端点的邻居的信息。因此,它具有较低的计算复杂度。(3)在Adamic-Adar (AA) (13),我们的想法是,节点的贡献小的程度更大。所以,每个节点权重值等于 在哪里从常见的邻居节点的程度。相似的定义是 在哪里代表共同邻居的程度 。(4)资源分配(RA) (30.),来自AA,考虑网络的资源分配。给出每个节点权重值等于 ,和相似度的定义是 (5)叠加随机漫步(SRW)一直在讨论部分2在细节。
5。结果和分析
为了证明测距装置的有效性模型,丰富实验进行了9个真实网络。结果如下所示。
在图2,我们情节变化的平均精度得到SRW随机漫步步骤,我,和测距装置在9个网络的情况l= 100。我们可以看到,测距装置性能更好显然比SRW 8 9网络。此外,SRW和我模型相比,测距装置模型实现的最大精度6 9网络。因为我指数反映了本地网络的鲁棒性,更适合应用在网络攻击来表示节点的重要性。因此,我们得出一个结论,测距装置可以实现最高精度在大多数情况下,当随机漫步的一步t是最优的。除此之外,它能达到的最大精度最低数量的措施,这样就可以减少相同的计算精度。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
表2包含图的详细描述2。此外,还比较了我们的模型与其他五个经典模型。加粗的最大精度是强调和相应的步骤是在括号。5所示,测距装置模型精度达到最高6 9网络条件下的l= 100与其他五个传统模型相比。
为确保实验的完整性,我们还在的情况下进行实验l= 50。结果如表所示3。我们用斜体字的值比SRW当测距装置模型更准确。还有6网络。然而,相比优势不明显与其他五个综合模型。这意味着测距装置模型性能更好的前100名50多个链接的链接。实际上,l通常被定义为大量避免随机误差。
测距装置模型的原因可以有一个很好的性能是它需要一个节点之间的映射关系,综合考虑其邻国。通过这种方式,不同的邻居的贡献(即。,the influences of indirect neighbors) are included, so that the model can assess the importance of endpoint better.
虽然测距装置模型可以实现更好的性能在大多数数据集进行实验,我们也没有优势在一些网络如爵士乐。通过分析这些网络的拓扑特性,我们发现他们通常有相同的特性。这个模型我们建议可能不适合网络具有良好的结合性系数和高聚类系数。我们推断出原因是邻居节点的贡献差异在这样网络不能反映。
此外,时间复杂度评估指数也是一个重要因素。例如,CN指数计算复杂度而RA的复杂性 。SRW认为本地路径的复杂性 ,和远低于 。模型介绍相同的时间复杂度 SRW但可以实现更高的精度。
6。结论
现有的链路预测算法的基础上,结构相似的影响主要集中在路径或节点只有他们的学位。因为邻居的贡献差异并不认为,算法的精度是有限的。通过分析,我们提出了熵(测距装置)的映射模型的推导,交叉度的节点及其邻居。我们调查CN模型相比,PA, AA,风湿性关节炎,SRW,我在九个真实数据集模型。结果表明,测距装置模型突出表现比其他六个模型和能达到的最大精度最小数量的步骤,减少了计算的精度。此外,测距装置模型并不增加时间复杂度。
测距装置模型的有效性提出了我们的研究揭示了区分不同的邻居的贡献。这一发现可以为未来的研究提供参考。然而,我们只考虑间接邻居的影响,忽略其他因素如coreness和h指数可以描述最大连通子图。除此之外,我们不知道测距装置的性能模型加权和指导网络。
我们的研究有意义的结果,他们对学术研究的实际应用具有重要意义。我们可以把它应用在推荐系统中,社会合作网络,信息和通讯技术,生物网络潜在的相互作用,等等。值得注意的是,这项工作可以激发进一步的工作来添加h指数等其他因素的基础上,我们的模型和优化中的测距装置模型加权和指导网络。
数据可用性
在这项研究中使用的数据集是可从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家自然科学基金(61821007和61821007号)和河南省科技重点项目(研究在复杂网络链路预测的关键技术)(没有。202102311007)。