复杂性

在这一页上

文摘介绍相关工作结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

链接预测树状网络和计算机通信

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID1277579| https://doi.org/10.1155/2021/1277579

自适应相似性函数网络嵌入失踪链接预测的结构特点

Chuanting张 ,¹ Ke-Ke商 ,² 和Jingping乔 ³

学术编辑器: 丹Selişteanu

收到了 2021年8月17日

修改后的 2021年10月14日

接受 2021年10月30日

发表 2021年11月19日

文摘

链接预测是数据科学的一个基本问题,通常要求展开micro-dynamics治理机制的网络。在这方面,使用功能从网络嵌入预测链接吸引了广泛的关注。虽然方法基于边缘特征或节点相似性提出了解决链路预测问题,许多技术难题仍然存在由于独特的网络结构属性,特别是当网络是稀疏的。从图挖掘的角度来看,我们首先给经验证据的启发式和学习优势特性之间的矛盾。然后,我们提出一个新颖的链接预测框架,AdaSim,通过引入一种自适应的相似性函数使用功能从网络嵌入基于随机漫步。节点特性表征是一个基于目标函数得到优化。而不是使用二元操作符生成边缘特性,我们执行链接预测仅仅利用网络的节点的功能。我们定义了一个灵活的相似性函数和一个可调参数,作为一个点球的最初的相似性度量。最优值是通过监督学习,因此学习自适应数据分布。评估算法的性能,我们进行广泛的实验在11个不同的网络上的现实世界。实验结果表明,AdaSim达到更好的性能比最先进的算法和健壮的不同稀疏网络。

1。介绍

网络最近成为代表的一个重要工具和分析多种交互系统从生物到社会科学(1]。技术创新和数据爆炸收集速度,我们人类正进入大数据的时代,因此和参与的这些网络正在迅速扩大。研究这些复杂的联锁网络可以帮助我们了解实际系统的运行机制。因此,在过去的几年中,大量的工作一直致力于研究进化(2,3],拓扑[4,5),和特征6的网络,吸引研究人员从物理学、社会学、和计算机科学。

然而在许多情况下,当前各种网络数据的观测远不完整(7]。例如,在蛋白质相互作用和代谢网络,两个节点是否有链接必须是由实验决定的,这是非常昂贵的。因此,已知的链接可能代表不到1%的实际链接(8]。除此之外,在像Facebook这样的社交网络,只有部分用户显示的观察网络之间的友谊,和仍然存在的用户对已经互相认识但不通过Facebook连接。因此,它始终是一个具有挑战性的有意义的任务来确定双节点连接在当前网络不可能在实际的网络连接,即。预测失踪链接。获取这些知识是有用的,例如,在生物领域,它给予宝贵的指导,开展有针对性的实验,在社交网络领域,它可以用来推荐有前途的友谊,从而提高用户的忠诚到web服务。

的方式来解决链路预测问题(9- - - - - -14大致可以分为两类,即。无监督方法和监督方法。在无人监督的链接预测目前的研究工作,他们把主要精力集中于定义相似性度量无关的节点对使用从网络拓扑结构提取的信息。定义的指标代表不同种类的一对节点之间的距离和有不同的性能在各种网络和没有人能支配他人。大部分指标很容易计算和解释,但他们是不变的,根本无法应付动态,相互依赖,在网络和其他属性15]。链路预测问题还可以冒充一个二进制分类监管任务从机器学习的角度来看16]。从那时起监督链接预测方法的研究已成为著名的[15,17- - - - - -19),这些研究的结果提供确认的证据,一个监督方法可以提高预测性能的联系。

选择一个适当的特性是至关重要的任何监督机器学习任务(20.- - - - - -22]。链接预测,每个样本数据集对应于一对节点。一个典型的解决方案是使用多个拓扑相似性特征,这是最直观的方式。但所有这些特性是手工制作和成本人类劳动。除此之外,他们常常依赖于领域知识,因此在不同的领域限制泛化。

另一种方法是学习网络的自动功能。将网络视为特殊的文档组成的一系列节点序列,该节点特性可以学到通过求解一个优化问题23]。获取节点的特点后,链接预测的任务是使用两种方法进行的传统。第一个是相似性排序法(24),例如,余弦相似度是用来测量双节点的相似性。两个独立节点,相似度值越大,连接概率越高。另一个是基于边缘特征的分类方法(25,26]。在这种方法中,启发式二元操作符生成的边缘特性等阿达玛操作员和平均操作符。然后训练一个分类器使用这些特性,用来区分两个无关的节点之间的链接是否形成。

随着功能从网络嵌入保护网络的局部结构,余弦相似度适用于强烈选型网络但未能捕捉网络的disassortativity,即。宁愿在大尺度上建立连接,节点在小尺度(7]。因此,使用余弦相似性链接预测患有统计性能缺陷。此外,边缘特征通过二元操作符将可能失去节点的信息,由于节点的特点是学会了通过求解一个优化问题,但边缘特性(见图1一个明确的解释和节将讨论细节3.3)。此外,边缘有相同的维数和节点特性,通常在几百的规模。这意味着即使逻辑回归等线性模型,它仍然需要学习数以百计的参数,提出了我们的问题可行性特别是当数据规模很大。如何设计一个简单的,通用高效的链路预测方法使用节点特性直接从网络嵌入仍然是一个开放的问题。

(一)

(b)

为了解决上述问题,我们提出一个新颖的链路预测方法,AdaSim(自适应相似性函数),对大规模网络。节点特性表征得到了通过优化基于目标函数使用随机梯度下降法技术。而不是使用启发式二元操作符生成边缘特性,我们执行链接预测仅仅利用网络的节点的功能。我们的重要贡献在于定义一个灵活的节点相似性函数只有一个可调参数,作为原始相似性的一个点球。最优值可以通过监督学习,因此自适应数据分布,使AdaSim能够捕捉不同网络的各种链接形成机制。与原来的余弦相似度相比,该方法推广跨各种网络数据集。

总之,我们的主要贡献如下:(我)我们建议,AdaSim,小说链接预测方法通过引入一种自适应相似性函数使用功能从网络嵌入。(2)我们表明,AdaSim足够灵活只有一个可调参数。它是可调节的网络属性。这种灵活性赋予AdaSim的力量捕获不同网络的链接形成机制。(3)我们证明的有效性AdaSim通过进行实验各种不同网络的真实。结果表明,该方法可以提高链接预测在不同程度的表现。此外,我们发现AdaSim工作高度稀疏网络特别好。

剩下的论文结构如下。部分2评论链接预测相关的一些研究工作。链接预测的问题定义和特性介绍了学习部分3,数据集上的一些实证研究也在这一节中。部分4说明了提出的链路预测方法AdaSim每个组件的详细说明。实验结果与分析部分表示5。最后,部分6总结了纸。

早期作品链接预测主要集中在探索拓扑信息来源于图表。Liben-Nowell和jonkleinberg27]研究拓扑特性,比如常见的几个邻国Adamic-Adar, PageRank和卡茨,发现拓扑信息是有益的在预测与随机预测的链接。随后,一些架构预测提出了链接预测,例如,资源分配(28],community-enhanced预测[8)和聚类系数链接预测(29日]。

艾尔哈桑等人是第一个模型链接预测二元分类问题从机器学习的角度来看16]。各节点之间的相似性度量对从网络中提取和作为监督学习设置功能;分类器是由这些特征作为输入来区分正样本(链接形式)和负样本(不形式)的链接。此后,监督分类方法已经普遍预测领域的联系。Lichtenwalter等人提出了一个高性能的称为HPLP链接预测框架。一些新的视角链接预测,例如,一个算法的通用性,拓扑的原因,和抽样方法,包含在裁判。15]。后,监督随机walk-based Backstrom和Leskovec提出的算法17)有效地将信息从网络结构丰富的边缘节点和属性数据。

此外,链路预测问题也扩展到异构信息网络(30.- - - - - -33]。在这些作品中,提出了基于网络模式的核心概念,即meta-path。多个信息源可以有效地融合成一个单一的路径和不同的元路径有不同的物理含义。一些相似的措施可以使用元计算路径;然后,他们被视为特征分类器的区分正面和负面的链接。

所有上述工作监督链接预测使用手工特性,这通常需要昂贵的人类劳动和依赖于领域知识。缓解这个问题,可以使用自动通过表示学习中学到的潜在特性(34]。网络的无监督特征学习方法通常使用不同的光谱特性图的矩阵表示,如邻接和拉普拉斯算子矩阵。在线性代数的角度来看,这种方法可以被看作是一种降维技术。几位工作35,36)已经完成的目标获得的节点特征图,但计算eigendecomposition矩阵是昂贵的,因此这些方法不切实际的大型网络规模。

Perozzi et al。23]扩展skip-gram模型图,提出了一个框架,DeepWalk,代表了网络作为一种特殊的“文档”组成的一系列节点序列,生成的随机漫步。DeepWalk可以学习功能,为网络中的节点,和表示学习过程与下游节点分类和链接预测等任务。之后,提出了Node2vec Grover和Leskovec [26]。与DeepWalk相比,Node2vec使用偏置随机漫步来控制节点的采样空间序列。同质性等网络特性和结构可以被Node2vec等价。链接预测进行了使用边缘特性通过启发式二元操作符在节点功能。在[37),作者提出了一个深模型称为SDNE捕捉网络的高度非线性特性。一阶和二阶距离共同利用捕捉当地和全球网络结构,分别。最近,王et al。38)提出了一个新颖的模块化的非负矩阵分解(M-NMF)模型将不仅当地和全球网络结构,而且社区信息网络嵌入。为了模型的各种角色进行交互节点与其他节点交互时,涂等。39)提出了一个上下文感知网络嵌入(甘蔗)方法通过引入共同关注机制。甘蔗更精确地模型节点之间的语义关系。为了节省计算时间,在24),链接预测直接使用余弦相似度的节点特征而不是边缘特征。

上面的工作主要集中在网络嵌入技术和忽视链接形成的典型特征。现有的工作和我们的努力之间的主要区别在于,我们考虑一个适应性的相似性函数和学习型的想法,使我们的模型足够灵活来捕获各种链接形成的不同的网络模式。例如,一个负面的价值可以削弱“结构等效”的作用,提高分数不同的节点对,因此捕捉disassortativity链接形成。

3所示。问题陈述和功能学习框架

在本节中,我们首先给出链接的正式定义预测问题。然后特性提出了网络学习框架。最后,我们介绍了实证研究结果在几个网络数据集在使用节点链接预测功能。

3.1。问题公式化

给定一个网络 ,在哪里是一组节点, 是链接的设置,不允许有多个链接或self-links网络中任意两个节点。假设网络中的一些链接在现阶段未被注意的或失踪。链接预测任务的目标是预测的可能性之间的联系两个无关的节点使用固有的信息网络。

因为我们正在考虑一个监督方法链接预测,我们首先需要构建一个标签的数据集 ,在哪里特征向量的吗样品和相应的标签。具体地说, 在这和表示节点的特点和 ,分别。从网络节点特性表示学习。从节点功能节点是一个映射函数对特征。任何节点在 , 表明该节点对属于正样本和负样本。阳性样品的边缘, ,从网络随机挑出来的。我们删除从G获得并保持子( )完全连接。为了生成负样本,我们对从样品同等数量的节点没有边缘连接。数据集啐分为两部分:训练数据集和测试数据集。一个分类模型数据集可以学会吗 ,然后这个模型将被用于预测一对节点是否在数据集应该有一个链接连接它们。我们的算法是典型的方法从图像挖掘的领域。因此,与我们之前的论文的一部分(9,10),我们遵循约定在人工智能领域中(阳性样本)50%的观察到的链接,和分数是基于的结合和相同数量的nonobserved链接(负样本)。高度稀疏性接触网络,只有少量的节点,而不是由所有观察到的链接。

3.2。网络嵌入的特性学习

对于一个给定的网络 ,一个映射函数从节点到特征向量可以学到链接预测。在这里是一个指定的参数,它表示特征向量和维度的数量是一个矩阵的大小参数。映射函数通过一系列的学习文档节点序列,使用优化技术起源于语言建模。

语言建模的目的是评估一个句子出现在文档的可能性。使用语料库构建的模型。更正式,它旨在最大化对所有训练语料库,这个词的词汇,的上下文包括单词的左侧和右边。最近的研究表示学习使很多关注利用概率神经网络来构建一个通用表示的话,扩展语言建模的范围超出了原来的目标。每个词是由一个连续和低维的特征向量。然后是最大化的问题在哪里表示的潜在表示一个单词。

网络的社会表示可以学到类似地通过一系列的节点序列生成的特定的采样策略。类似于单词的上下文在语言建模中,被定义为节点的邻居吗使用抽样策略。网络的节点表示可以通过优化以下表达式

学表示可以捕获共享在当地图结构网络中的节点之间的相似性。节点有类似的社区将会获得类似的表示。

3.3。实证结果在几个网络数据集

在了解网络中的节点表示,链接预测任务有两种方法,即。,node-similarity-based法和edge-feature-based法。前者是简单的和可伸缩的,后者是复杂而强大的。但是这两种方法都有它们的局限性在有效地描述链接节点对的形成模式。自从node-similarity-based方法没有参与学习,不能意识到全球网络属性链接预测的影响。边缘特征方法不能描述节点两人关系很好使用启发式二元运算符在功能层面,作为从节点特性映射过程中存在信息丢失边缘特性。我们的经验证据显示这两种方法的局限性下面。

3.3.1。启发式二元操作符的限制

图1(一)显示了一个玩具网络(krackhardt风筝图)与10节点和18边缘。每个节点和边缘有一个独特的标签。给定一个特定的采样策略 ,我们可以获得节点序列和序列后同时执行相应的优势在网络上。因此,表示两个节点和边缘表示网络的使用优化技术是可以习得的。为一个特定的节点,学会边表示被称为“真正的”特性和生成的边表示使用二进制运算符叫做“启发式”特性。众所周知,如果一个二元运算符是足够好,它应该能够准确地描述成对的节点之间的关系,即。,启发式特征之间的相关性和真实的特性应该尽可能的强大。18在玩具网络边缘,五个不同的启发式二元操作符(26)(见表1)(选择生成边缘特性部门运营商,我们省略的因为它有非常相似的结果相比 ),与真正的优势及其相关特性显示在图中1 (b)。

从图的基础上的证据1,我们可以看出不同的运营商有不同的结果代表的特性对节点和没有人可以支配别人。的边缘,例如,边缘10和16,可以的阿达玛运营商,而另一些人,例如,边缘12日14日和17日的特点平均操作符。此外,最值小于0.5,这意味着启发式边缘之间的弱相关特性和真正的边缘特征。这验证我们声称边缘特性通过启发式二元操作符可能会导致节点特性的信息丢失。

3.3.2。相似性方法的限制

给定一个无关的节点组 ,几个指标可以用来衡量他们的相似之处,例如,共同邻居之间和 ,和访问路径的数量和。但这里我们只考虑余弦相似性的度量因为我们有一对节点的特征向量和 ,分别。余弦相似度用来描述链接形成概率,它被定义为在哪里表示转置和意味着 - - - - - -规范的一个向量。余弦相似度测量的是两间夹角的余弦值 - - - - - -维的向量从网络获得表示学习。事实上余弦相似性的概念已被用于链接预测在几个工作(24,40,41]。但有一些问题当直接使用余弦相似性链接预测。第一个是它没有考虑节点对的标签信息。因此,它属于无监督学习的范畴。然而,大量的作品表明,监督学习方法链接预测可以提高性能(15,18,19]。另一个是余弦相似性太死板,捕捉不同形成机制不同的网络链接。

表示阶段的学习网络,假设两个节点有类似的表示,如果他们有类似的上下文节点序列采样策略。对于网络来说,这表明,如果两个节点是结构(三个节点图中,假设的测地距离 2, 5,我们说什么更接近于比 )对方,然后他们有一个高概率同时发生在同一序列导致一个高价值的余弦相似性。但在实际网络中,两个节点是否会形成一个链接不仅仅是受到这种结构性的亲密。网络中两个节点远离彼此也会有很高的建立关系的机会,如果他们在结构上是相同(26]。为两个节点图的距离越近,越容易为他们建立联系”不一定,尤其是当网络稀疏和非选型。

如图2,我们可以看到,不同的网络有不同的模式在建立新连接(部分中描述的数据集5。1)。这些模式是密切相关的网络属性,如聚类系数、密度和assortativity的图表。一些网络assortativity高,两个无关的节点往往是连接结构紧密,而另一些则不是。更具体地说,两个独立节点的链接形成的概率大大减少与测地距离的增加C.elegans数据集,97.8%新跨越的测地线距离小于3的链接。但对于努特拉数据集,测地距离的增加,形成概率的链接先增加后减少,和大部分的新链接(62.4%)是由节点和距离等于5或6双。为路由器数据集,新链接跨度范围广泛的测地线距离2 - 34,几乎一半的新链接(48.67%)跨越距离大于5。链接形成的分布概率比其他两个更复杂的数据集。

(一)

(b)

(c)

图2

不同网络之间的联系形成模式。的 - - - - - -轴代表了测地距离一对节点之间和 - - - - - -轴代表的联系形成的概率。计算出的概率是在这是积极的数量随机抽样从网络链接,然后呢是对节点的数量,他们的测地线距离到底是什么。(一)Epinions这样。(b)努特拉。(c)路由器。

余弦相似度函数分配更高的分数对节点如果他们相互接近,反之亦然。它可以捕获链接图的形成模式2(一个),即,the shorter the distance between two unconnected nodes, the higher the probability to be connected. But cosine similarity fails to capture the patterns in the cases of Figures2 (b)和2 (c),特别是图2 (b),链接形成模式遵循一个高斯分布。图的模式2 (b),节点更倾向于与那些建立连接相对远离他们。当执行一个链接预测任务在这种情况下,对节点有一个相对长的距离应该比那些更短更相似。

因此,我们需要设计一个灵活的相似性函数链接预测和捕捉链接形成的各种模式。除了相似函数应该设计的基础上,简明和可伸缩性。这可以通过调整节点的相似性对和平衡链接形成概率在不同的距离。灵感来自于这一点,我们提出一个修改后的相似性函数被定义为在哪里是一个平衡的因素控制节点的相似性对与不同的测地线距离。标签的节点对,最优值可以学到监督。

4所示。拟议的框架

在这项工作中,我们提出一个新颖的链接预测框架,AdaSim基于自适应相似性函数使用的功能从网络表示。整个框架见图3。它可以分为三个部分:子图生成、特征表示、相似性函数学习。首先,积极的和消极的节点索引是通过随机抽样。相应的子图通过生成边缘去除。然后我们学习的表示网络中节点使用一个无监督的方法。最后,定义相似度函数和最优参数决定通过监督学习。相似函数获得最优惩罚可以直接用来解决链路预测问题。

4.1。子图生成

不像其他任务,比如链接聚合或节点分类,完整的结构信息是可用的,一定比例的链接需要删除之前执行网络链接预测表示学习(42- - - - - -44]。为了实现这一目标,一个迭代可以选择一个链接并确定是否它是可移动的。但此操作不太有效,非常耗时,特别是当网络非常稀疏,因为它需要遍历中的几乎所有的节点图。

相反,我们提出一个快速积极的抽样方法基于最小生成树(MST)。一个MST原始图像边缘的一个子集的所有节点连接在一起。这意味着所有的边都是可移动的,除了那些属于MST和删除不折断的性质的连通性。算法中的1 - 4行1显示我们的方法的核心。我们首先生成一个MST表示为使用克鲁斯卡算法。积极的样品是随机选择的。产生负样本 ,我们对从样品同等数量的节点 ,没有边缘连接(5 - 7行)。然后删除所有的边缘从并获得的子图(第8行)。

输入: ,积极的优势比
输出:节点对样品和子图
(1)
(2)
(3)	洗牌( )
(4)
(5)	为和做
(6)	附加来
(7)	结束了
(8)
(9)	返回 ,

4.2。特征表示

现在我们继续执行功能的子图的学习任务。这个任务包括两个核心组件。,a node sequence sampling strategy and a language model.

4.2.1。准备节点序列抽样

的节点序列抽样,最经典的策略是广度优先搜索(BFS)和深度优先搜索(DFS) [26]。BFS是从一个特定的节点和探讨了邻居先移动到下一个水平。相反,DFS遍历网络从一个节点开始,探索尽可能在每个分支在回溯。BFS和DFS代表两个极端的抽样策略对他们探索的搜索空间,带来价值的影响表示。事实上,附近采样通过BFS可以反映结构等效网络和采样节点的DFS可以反映出宏观视野的社区,这是至关重要的在推断社区基于同质性(26]。尽管他们是派拉蒙的意义产生有趣的表征,同时也不能揭示了复杂网络的属性。抽样策略,我们需要一个能顺利插入DFS和BFS之间的需求可以满足随机漫步在图表。

随机漫步的长度在扎根在节点是一个随机过程,随机变量这样和随机选择一个节点均匀的邻居吗。随机漫步出现在各种模型的大规模网络,如计算节点相似之处(19,45),学习等级节点(46,47,估计网络属性(48]。除此之外,它们是一类输出敏感的基础算法,采用计算群落结构的局部信息。

这个连接的原因促使我们用随机漫步的节点序列中提取网络信息的采样策略。

算法中的1 - 6行2显示节点采样序列的过程。如图3,我们可以获得一系列的节点序列使用随机漫步。例如,如果我们想要一个随机游走的长度扎根在网络上的玩具,我们可能得到的结果。同样获得的其他序列。

输入: ,窗口大小 ,特征尺寸 ,走过每个节点 ,走的长度
输出:节点表示
(1)	为来做
(2)
(3)	为做
(4)	走=随机散步( , , )
(5)	结束了
(6)	结束了
(7)	为走走做
(8)	为做
(9)
(10)
(11)	结束了
(12)	结束了
(13)	返回

4.2.2。语言模型

为了得到网络的表示,目标是解决在哪里 , 是上下文大小,是表示节点的映射函数特性。为 ,我们可以使用softmax,对数线性分类模型,得到后验分布的节点。然而softmax涉及总和所有节点对和做这样计算每个训练实例非常昂贵,使其不切实际的大型网络规模。

为了解决这个问题,一种直觉是限制输出向量更新每个训练实例的数量。因此,分层softmax [49提出提高学习效率,我们采用在这工作。最后,我们使用随机梯度下降法(SGD)技术来优化算法的目标函数(7行2)每个节点的社会表征,即, ,图中。如图3为玩具网络中的每个节点,我们可以得到一个 - - - - - -与之关联的维表示。

4.3。相似度函数的学习

节点对 ,我们使用和从网络获得表示学习作为他们的特性。考虑偏差分布在不同的测地线距离真正的链接,我们提出一种新颖的相似性函数定义为

我们表示和为了简单起见。然后,(7)可以写成

一双物流功能申请映射节点相似度值 ,这是一个概率表明它属于积极类或消极类。我们使用表示这个概率,表示为

为了测量预测值之间的亲密和真正的标签,我们选择熵损失作为我们的目标,这被定义为

随机梯度下降方法用于得到的最优值通过最小化 ,它的更新规则可以写成在哪里

算法3显示了参数学习过程的核心部分。训练数据集和测试数据集是第一个通过1号线算法3。的最优值学会了使用SGD训练数据集(2)行。用于测量节点的相似性对吗我们可以得到他们的概率算法通过线路连接3到63。最后,评估结果通过第7行。

输入:节点表示 ,成对的节点 ,培训测试分流比
输出:评价结果
(1)	,
(2)
(3)	为做
(4)
(5)
(6)	结束了
(7)	val = GetEvaluation ( )
(8)	返回瓦尔

5。实验

在本节中,我们首先给出一个简短的描述中使用的数据集的实验。接下来,我们介绍了基线模型链接预测和评价指标。然后,实验结果给出了详细的分析。随着AdaSim框架包括几个参数,最后,我们将展示这些参数的不同的选择如何影响链接预测的性能。

5.1。数据集

全面评估计划的链路预测算法的性能,我们使用十个真实数据集进行实验,而这些数据集通常用于预测领域的联系。这些数据来自各领域和他们的细节描述如下:(我)秀丽隐杆线虫(50的神经网络秀丽隐杆线虫有虫吃。节点代表神经元和边缘表示突触或缝隙连接。(2)PB(51)是一个网络对美国政治博客之间的超链接。(3)Wiki-vote(52包含所有维基百科]是一个社交网络投票数据从维基百科,直到2008年1月的《盗梦空间》。网络中的节点代表维基百科用户和定向边缘节点到节点代表该用户投票用户。(iv)Email-enron(52)是一个通信网络,涵盖了所有电子邮件沟通大约一半一百万封电子邮件。节点网络的电子邮件地址,如果至少有一个电子邮件地址为了解决 ,然后他们有一个他们之间的联系。(v)Epinions这样(52是who-trust-whom在线社交网络。网站的成员Epinions这样才能决定是否相互信任。如果用户信任用户 ,还有他们之间的联系。(vi)Slashdot(52与技术有关的新闻网站。网络包含了朋友和敌人Slashdot的用户之间的联系。(七)性(53)是一个著名的性接触网络。这个网络非常稀疏,几乎没有封闭的三角形。(八)Roadnet(52)代表一个加州公路网络,这是一个典型的稀疏和树状网络。(第九)权力(50)是一种传统的稀疏网络,表示美国西部的电网。(x)路由器是路由器级别的互联网络收集的Rocketfuel项目(54]。(十一)p2p-Gnutella(52努特拉)是一个对等文件共享网络。网络中的节点代表主机和边缘代表这些主机的努特拉之间的联系。

这些网络的基本拓扑信息是列在表中2,包括节点和边的数量,平均学历,平均聚类系数、直径和密度的网络。我们大致把网络稠密和稀疏的基于平均度和平均聚类系数。总之,我们在网络的各种特性进行实验,即。稀疏和密集,大大小小的。因此,数据集可以全面反映了该方法的特点(不同于其他网络,有观察到的链接的高度稀疏性接触网络由于小数量的节点)。

5.2。基线的方法和评价指标

为了验证算法的性能,我们进行比较AdaSim按照以下链接预测模型。(我)常见的邻居(CN):节点 ,让表示的邻居的。两个节点,和 ,有一个高概率的连接如果他们有许多共同的邻居55,56]。最简单的方法来测量这个社区重叠是通过直接计算共同邻居的数量,也就是说, (2)资源分配(RA) (28:一对无关的节点和 ,假设可以发送一些资源媒介的邻居。之间的相似性和可以被定义为接收到的资源从 ,这描述为在哪里的程度。(3)优惠附件(PA) (57:优先连接机制用于生成随机的无标度网络,连接的新链接成正比。同样,一个新的连接的概率和成正比。的巴勒斯坦权力机构相似性指数被定义为 (iv)索尔顿海指数(SI) (40]:SI的另一个名字是余弦相似性和被定义为 (v)聚类系数预测(CCLP)[链接29日:这是一个相似性指数与当地更多的结构信息。在这种方法中,聚类系数的本地链接信息转达了共同的邻居。在哪里通过节点是三角形的数量。(vi)异质性指数(10]:这个方法是基于网络异构性和稀疏和树状网络的最先进的。在哪里是一个免费的异质性指数。(七)Node2vec(26):这是一个监督的方式链接使用逻辑回归预测。在这种方法中使用的功能是通过启发式生成二元操作符的节点对功能从网络嵌入。有两个参数,和 ,控制节点序列抽样。注意,当 ,node2vec等于DeepWalk [23]。

旁边Node2vec无人监督的功能,还有其他方法学习图表,如光谱聚类(58和线59]。我们在这工作,因为他们已经排除他们不如Node2vec(26]。我们也排除其他监督方法,如整体学习(15)和支持向量机(16]。这些方法可以得到相对更好的性能,但高复杂性为代价的,这不是我们的初衷。

我们采用接受者操作特征下的面积(AUC)定量评估链路预测算法的性能。AUC值量化的概率随机选择缺失的环节给出更高的分数比一双随机选择的节点没有一个链接。更高的分数意味着更好的性能。

5.3。实验结果

为了获得以下结果,我们设置了参数的典型值在[26]。也就是说, ,和一个时代的优化运行。百分之五十的边缘被视为积极的例子。消极的节点对没有边缘连接随机抽样从网络。的两个参数,和 ,在Node2vec,他们选择通过网格搜索结束。准备数据集后,我们使用10倍交叉验证评估性能。为了客观、每个数据集上的实验是重复十次,平均结果被发表在表3。

一般的观察我们可以从这些结果是,该链接预测算法,AdaSim比所有基线方法,可以获得更好的性能在所有的数据集。更具体地说,无人监督的相似性链接预测方法实现比监督的价值相对较低,因为标签信息不是杠杆来提高模型的性能。但是,巴勒斯坦权力机构预测达到竞争结果相比AdaSim甚至比Node2vec五11的数据集。这是因为优惠附件的关键特性之一发电法律无标度网络。它反映了网络演化的机制,涉及添加新的节点和边。因此,它可以获得更好的性能在链接预测问题。但相似性链接预测方法执行极其糟糕的网络稀疏时因为有限或没有封闭的三角形结构存在于这些网络。

在所有的监督链接预测方法,AdaSim优于两DeepWalk和Node2vec在所有的11网络获得不同尺度的比率。增益比率从0.75%变化到43.04%的AUC值相比Node2vec。

直观地显示处罚的影响在链接预测性能,设置为特定的值来与固定增量(这里出于演示)和显示AUC在三个数据集的结果,也就是说,秀丽隐杆线虫,路由器,Wiki-vote,在图4。请注意, 对应于原始的余弦相似性度量。它可以清楚地看到,从图4,AUC的结果是大大影响的价值。与刚性余弦相似度相比,我们的提议AdaSim可以大大提高链路预测的性能。这也验证我们的实证研究部分3.3不同的网络有不同的链接形成模式,从而灵活和适应性的相似性函数链接预测是需要捕获这些不同的模式。

(一)

(b)

(c)

我们选择三个代表稀疏网络,即性(小)、电力(媒介),和p2p-Gnutella(大),并报告CN,时钟时间CCLP,黑,Node2vec, AdaSim表4。从这个表我们可以观察到,随着网络规模的增加,预测所有算法所需的时间也会增加。此外,上优于比相似性的算法通常需要更多的时间因为向量乘法需要更多时间不仅仅是计算两个节点的邻居信息。虽然我们的预测算法需要更多的时间,它也取得了相当大的性能提升,如上所述。

5.4。与不同的稀疏网络性能

网络在现实世界中通常是稀疏的,我们只知道非常有限的节点之间的信息交互。例如,80%的细胞内分子相互作用的酵母和99.7%的人类仍然是未知的(40]。一个好的链接预测方法应该健壮的性能与不同的稀疏网络。

我们改变的稀疏网络通过随机删除一定百分比的原始网络链接,然后按照上述实验设置报告不同的方法的结果。Wiki-Vote数据集上的结果显示在图中5。只有四个基准图中列出的方法CN,CCLP,DeepWalk执行同样的类风湿性关节炎和Node2vec,分别。

从结果可以看出,AUC值降低的增加删除边比因为它变得越来越具有挑战性的使用信息网络拓扑描述节点相似性。相似性方法表现良好时,删除边比例相对较小。此外,AdaSim表现一贯良好,健壮的不同稀疏的网络条件。即使百分之八十的边缘是移除,AdaSim仍然可以保持约0.95的AUC性能。总的来说,AdaSim不仅是强大的不同网络条件也比基线达到更好的性能。

5.5。参数的敏感性

有几个参数参与AdaSim算法和图6,我们检查参数的不同的选择如何影响的性能AdaSimWiki-Vote数据集。除了被测试的参数,其他参数假设默认值。

(一)

(b)

(c)

我们测量维度的AUC的函数表示 ,走的长度和走每个节点的数量。我们观察到学习表示节点的尺寸限制了对链路预测性能的影响。随着维数的增加,AUC值略有增加,饱和时达到128。它也可以观察到一个更大的和将提高性能;这是因为更多的种子节点的邻居信息包含在表示学习过程,可以更精确地捕获和节点相似之处。

6。结论

在这项工作中,我们专注于功能从网络嵌入链接预测问题。边缘特性通过启发式二元操作符是一个产生信息损失原始节点的投影特性,我们定量的证据之间的矛盾启发式边缘特性和学习的。此外,我们已经开发出一种新颖的链接预测框架AdaSim通过引入一种自适应相似函数来处理余弦相似度的不灵活性,特别是稀疏或树状网络。AdaSim首先学习网络的节点表示解决基于目标函数,然后添加一个惩罚参数, ,在最初的相似性函数。最后,最优值通过监督学习学习。被提议的AdaSim是灵活的,因此自适应数据分布,可以捕获各种链接形成机制不同的网络。我们使用公开可用的真实网络数据集进行实验,和广泛的比较AdaSim与七成熟的代表基线的方法。结果表明,AdaSim达到更好的性能在所有数据集比最先进的算法。也是强劲的稀疏网络和获得竞争性能虽然大部分的边缘人失踪。

数据可用性

所有的数据集都可以获得相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(61901247,61901247),山东省自然科学基金ZR2019BF032,国家社会科学基金重大项目(zda149 19日和19日zda324),中央大学和基础研究基金(14370119和14370119)。

引用

m·纽曼网络:介绍,牛津大学出版社,Inc .,纽约,纽约,美国,2010年。
g . Palla A.-L。巴斯和t . Vicsek量化社会群体进化。”自然,卷446,不。7136年,第667 - 664页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
j . Leskovec j . jonkleinberg和c·凯利斯图进化:致密化和缩小直径,“ACM交易数据的知识发现,1卷,不。1,2007。
视图: 出版商的网站 | 谷歌学术搜索
m·e·j·纽曼,“复杂网络的结构和功能,暹罗审查,45卷,不。2、167 - 256年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
m·e·j·纽曼和a . Clauset”注释的网络结构和推理”,自然通讯,7卷,不。1,文章ID 11863, 2016。
视图: 出版商的网站 | 谷歌学术搜索
l, l·潘,t·周张y . c, h·e·斯坦利,“向链接复杂网络的可预测性,”美国国家科学院院刊》上的美利坚合众国,卷112,不。8,2325 - 2330年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
a . Clauset c·摩尔,m·e·j·纽曼”层次结构和失踪链接网络的预测,”自然,卷453,不。7191年,第101 - 98页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
Soundarajan和j . Hopcroft”,利用社区信息改善链路预测方法的精度,”21国际会议的程序在万维网上,爵士。WWW的12个同伴ACM,页607 - 608年,里昂,法国,2012年4月。
视图: 谷歌学术搜索
K.-k。商,m .小,W.-s。燕,”链接方向链接预测,“自然史答:统计力学及其应用卷,469年,第776 - 767页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
K.-k。商,苏耿赋。李,m .小d·伯顿,y,“链接预测为树状网络,”混乱:一个跨学科的非线性科学》杂志上卷,29号6、文章ID 061103, 2019。
视图: 出版商的网站 | 谷歌学术搜索
吴x、y . Li j . Wu和张问:“链接预测的事网络基于节点排名,“以知识为基础的系统文章ID 105740卷,195年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
l . Wang j .任许,j . Li w·罗和f .夏”模型:motif-based深特性学习链接预测,“IEEE计算社会系统,7卷,不。2、503 - 516年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
a·罗西·d·巴博萨,d . Firmani a . Matinata和p . Merialdo“知识图嵌入链接预测,”ACM交易数据的知识发现,15卷,不。2,1-49,2021页。
视图: 出版商的网站 | 谷歌学术搜索
l . Cai j·李,j . Wang和美国,“线图链接预测神经网络,”IEEE模式分析与机器智能,卷99,p . 2021。
视图: 谷歌学术搜索
r . n . Lichtenwalter j·t·西尔和n v·乔,“链接预测,新的视角和方法”第16届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,爵士。知识发现(KDD)的10ACM,页243 - 252年,纽约,纽约,美国,2010年7月。
视图: 出版商的网站 | 谷歌学术搜索
m·艾尔哈桑诉Chaoji,萨勒姆,和m .扎基“链接预测使用监督学习,”诉讼长效磺胺的06:链接分析研讨会,反恐和安全美国,马里兰州贝塞斯达,2006年1月。
视图: 谷歌学术搜索
l . Backstrom和j . Leskovec”监督随机漫步:预测和推荐链接在社交网络,”第四届ACM国际研讨会论文集在网络搜索和数据挖掘,爵士。WSDM的11ACM,页635 - 644年,纽约,纽约,美国,2011年2月。
视图: 谷歌学术搜索
d·戴维斯、r . Lichtenwalter和n v·乔,“监督multi-relational链路预测的方法,”社会网络分析和挖掘,3卷,不。2、127 - 141年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
a . De s Bhattacharya s Sarkar n . Ganguly和s . Chakrabarti”区别的链接预测使用本地,社区,和全球的信号,”IEEE工程知识和数据,28卷,不。8,2057 - 2070年,2016页。
视图: 谷歌学术搜索
x Chang f .聂周x, y . Yang s . Wang和c,“复合排名- k美元对双线性预测分析,“IEEE神经网络和学习系统,27卷,不。7,1502 - 1513年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
y z h . Wang Li Li比比Gupta,崔和c“视觉特点指导复杂的图像检索,”模式识别的字母卷,130年,第72 - 64页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
d .元,x Chang P.-Y。他问:刘黄,z,“Self-supervised深相关跟踪”,IEEE图像处理,30卷,第985 - 976页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
b . Perozzi r . Al-Rfou, s . Skiena“Deepwalk:在线学习的社会表示,”20 ACM SIGKDD国际会议的程序知识发现和数据挖掘,爵士。知识发现(KDD)的14ACM,页701 - 710年,纽约,纽约,美国,2014年8月。
视图: 谷歌学术搜索
梁Zhiyuli, x, x,“学习结构特点的节点在大规模网络链接预测,”《第三十AAAI会议上人工智能,爵士。AAAI的16AAAI出版社,页4286 - 4287年,凤凰城,亚利桑那州,美国,2016年2月。
视图: 谷歌学术搜索
c, h, d .元,m .张“基于深度学习的链接预测与社会模式和外部属性知识文献网络”学报2016年IEEE国际会议上智能数据(SmartData)Chengudu,页815 - 821年,中国,2016年12月。
视图: 谷歌学术搜索
a·格罗弗·j . Leskovec”Node2vec:可伸缩的特性为网络学习,”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,爵士。知识发现(KDD)的16个ACM,页855 - 864年,旧金山,CF,美国,2016年8月。
视图: 谷歌学术搜索
d . Liben-Nowell和j . jonkleinberg”link-prediction社交网络的问题,“《美国社会信息科学和技术,卷。58岁的没有。7,1019 - 1031年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
t .周和l . Lu”预测失踪链接通过当地信息,“欧洲物理期刊B,卷71,不。4、623 - 630年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
林y, z . Wu和s . Gregory j . Wang”链接与节点聚类系数,预测”自然史答:统计力学及其应用卷,452年,页1 - 8,2016。
视图: 出版商的网站 | 谷歌学术搜索
y太阳,r·巴伯·m·古普塔c . c . Aggarwal和j·汉,”合著者关系预测在异构网络书目,”《2011年国际会议上的进步社会网络分析和挖掘,爵士。ASONAM的11,页121 - 128,IEEE计算机协会,华盛顿特区,2011年7月。
视图: 谷歌学术搜索
y, j . Tang s吴et al .,”链接预测和推荐跨异构社会网络,”第12届IEEE国际研讨会论文集在数据挖掘,爵士。ICDM”12,页181 - 190,IEEE计算机协会,华盛顿特区,2012年12月。
视图: 出版商的网站 | 谷歌学术搜索
y, j . Zhang j . Tang n . v .拉和b . Wang“Coupledlp:链接预测耦合网络,”《21 ACM SIGKDD国际会议上知识发现和数据挖掘,爵士。知识发现(KDD)的15ACM,页199 - 208年,悉尼新南威尔士,澳大利亚,2015年8月。
视图: 谷歌学术搜索
张j . p . s . Yu”综合锚跨部分对齐的社会网络和社会链接预测,”学报》24日国际联合会议上人工智能,爵士。IJCAI”展出15AAAI出版社,页2125 - 2131年,布宜诺斯艾利斯,阿根廷,2015年7月。
视图: 谷歌学术搜索
y Bengio、a .考维尔和p·文森特,”表示学习:审查和新视角,”IEEE模式分析与机器智能,35卷,不。8,1798 - 1828年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
s . t . Roweis l . k .扫罗,“通过局部线性嵌入非线性降维,”科学,卷290,不。5500年,第2326 - 2323页,2000年。
视图: 出版商的网站 | 谷歌学术搜索
m·贝尔金和p .他”,拉普拉斯算子eigenmaps维数降低及数据表示,“神经计算,15卷,不。6,1373 - 1396年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
崔p·d . Wang, w·朱,“结构深层网络嵌入”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,爵士。知识发现(KDD)的16个ACM,页1225 - 1234年,旧金山,CF,美国,2016年8月。
视图: 谷歌学术搜索
j . p . x Wang崔,j . Wang裴,w•朱和s·杨,“社区保护网络嵌入”美国31日AAAI会议上人工智能,爵士。AAAI的17AAAI出版社,页203 - 209年,旧金山,CF,美国,2017年2月。
视图: 谷歌学术搜索
c, h·刘,刘z和m .太阳“甘蔗:上下文感知网络嵌入关系建模,”学报55的计算语言学协会年度会议上,爵士。ACLACL,页1 - 10,温哥华,加拿大,2017年7月。
视图: 出版商的网站 | 谷歌学术搜索
l . Lu和t .周”,在复杂网络链路预测:一项调查,”自然史答:统计力学及其应用,卷390,不。6,1150 - 1170年,2011页。
视图: 谷歌学术搜索
f·高,k . Musial c·库珀,s . Tsoka”链接预测方法和精度不同的社交网络和网络指标,”科学的规划文章ID 172879卷,2015年,13页,2015。
视图: 出版商的网站 | 谷歌学术搜索
r·阿尔伯特·h·宋,a·l·巴斯”错误的攻击宽容和复杂网络研究[J],”自然,没有。406(6794),页378 - 382,2000。
视图: 谷歌学术搜索
贾德,凯文·m·小,托马斯•Stemler“无尺度和其他网络的性质到底是什么?”EPL (Europhysics字母)103.5 (2013):58004。
视图: 谷歌学术搜索
商,Ke-ke,迈克尔从小型,Wei-sheng严,“健身网络对现实世界系统通过修改优惠附件”自然史答:统计力学及其应用474 (2017):49-60页。
视图: 谷歌学术搜索
f .入手,a . Pirotte j . m。呈现和m . Saerens“随机游走图的计算节点之间的相似性与协作应用程序的建议,“IEEE工程知识和数据,19卷,不。3、355 - 369年,2007页。
视图: 谷歌学术搜索
n . a . w . Yu Mamoulis, h·苏“反向top-k搜索使用随机游走和重启,”美国养老,7卷,不。5,401 - 412年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
h。陈和c·l·贾尔斯“asco + +:非对称相似度衡量simrank加权网络来解决这一问题,”ACM交易数据的知识发现,10卷,不。2,15-26,2015页。
视图: 出版商的网站 | 谷歌学术搜索
t·c·库珀Radzik, y Siantos快速低成本估计的网络属性使用随机漫步,爵士。不稀罕的13施普林格国际出版,剑桥,妈,美国,2013年。
g . t . Mikolov k . Chen拉和j·迪恩,“有效评估词表示的向量空间,”2013年,ArXiv预印本。
视图: 谷歌学术搜索
d·j·瓦和s . h .““集体动力学的“小世界”网络,”自然,卷393,不。6684年,第442 - 440页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
l·a·亚当和n一眼,“政治博客圈和2004年美国大选:划分他们的博客,”学报》第三届国际研讨会上链接发现,爵士。LinkKDD 05第36页。ACM,纽约,纽约,美国,2005年4月。
视图: 谷歌学术搜索
Leskovec和a . Krevl“临时数据集:斯坦福大学大型网络数据收集,”2014年,http://snap.stanford.edu/data。
视图: 谷歌学术搜索
p . s . Bearman j .喜怒无常,k .研究”连锁店的感情:青少年恋爱和性爱的结构网络,”美国社会学杂志》,卷110,不。1,44 - 91,2004页。
视图: 出版商的网站 | 谷歌学术搜索
n .春天,r . Mahajan d Wetherall, t·安德森,“测量与rocketfuel isp拓扑,”IEEE / ACM交易网络,12卷,不。1 - 18,2004页。
视图: 出版商的网站 | 谷歌学术搜索
g . Kossinets“缺少的数据在社交网络的影响,”社交网络,28卷,不。3、247 - 268年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m·e·纽曼,“集群和优先连接在日益增长的网络。”物理评论。E、统计、非线性和软物质物理学文章ID 025102卷,64年,2001年。
视图: 出版商的网站 | 谷歌学术搜索
a·l·巴斯和r·阿尔伯特”出现随机网络的扩展,“科学(纽约,纽约),卷286,不。5439年,第512 - 509页,1999年。
视图: 出版商的网站 | 谷歌学术搜索
l . Tang和h .刘”分类,利用社交媒体网络”数据挖掘和知识发现,23卷,不。3、447 - 478年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
m . m . j . Tang瞿,m . Wang, j .燕问:梅,“行:大规模信息网络嵌入,”《24日国际会议在万维网上1077年,页1067 -佛罗伦萨,意大利,2015年5月。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

492年

下载

711年

引用

复杂性

链接预测树状网络和计算机通信

自适应相似性函数网络嵌入失踪链接预测的结构特点

文摘

1。介绍

2。相关工作

3所示。问题陈述和功能学习框架

3.1。问题公式化

3.2。网络嵌入的特性学习

3.3。实证结果在几个网络数据集

3.3.1。启发式二元操作符的限制

3.3.2。相似性方法的限制

4所示。拟议的框架

4.1。子图生成

4.2。特征表示

4.2.1。准备节点序列抽样

4.2.2。语言模型

4.3。相似度函数的学习

5。实验

5.1。数据集

5.2。基线的方法和评价指标

5.3。实验结果

5.4。与不同的稀疏网络性能

5.5。参数的敏感性

6。结论

数据可用性

的利益冲突

确认

引用

版权