随着大量的链路预测方法的出现,如何准确地评价和选择适当的已成为一个关键问题是不容忽视的。AUC以来在2008年首次用于链接预测评估,它可以说是最首选的指标,因为它平衡的角色赢得(测试链接得分高于无法链接)和吸引的作用(它们有相同的分数)。然而,在许多情况下,AUC没有显示出足够的歧视在评估链接预测方法,尤其是基于局部相似。因此,我们提出一种新的衡量标准,叫做W-index,只考虑胜而不是平的效果。我们广泛的各种网络实验表明,W-index使链接预测方法的准确性分数更多的区分,它不仅可以扩大当地的这些方法也扩大其全球的距离。我们进一步证明的可靠性W-index排名变化分析和相关分析。特别是一些以社区为基础的方法,被认为是有效的,我们重新评估后不显示任何优势。我们的研究结果表明,W-index链接预测是一个有前途的指标评价,能够提供令人信服的歧视。
链接预测复杂网络的最基本问题之一,旨在推断网络链接形成过程预测了基于目前观察到的链接(或未来的关系
许多定量评价指标用于链接预测采用从二进制分类任务
由于这些问题与固定阈值指标,推荐使用阈值曲线作为替代(
尽管AUC是一个很好的衡量链接预测评价(
简单来说,我们认为是胜而不是平计数。本文的目的是提出一种新的衡量标准,称为W-index,只关心谁赢得更多的测试链接和未被注意的链接,而不是多少次他们画,获得有识别力的链路预测方法的评价。
本文的其余部分组织如下。节
在本节中,我们首先介绍两个广泛使用的评价指标,即。精度和AUC。然后,我们提出一个新颖的评价指标名叫W-index只考虑获得的数量的测试链接得分高于未被注意的链接。
鉴于所有未被注意的链接的排名和测试链接,精度定义为相关的链接选择比选择链接的数量。也就是说,如果我们把-<我nline-formula>
更高的精度就意味着更高的预测精度。
鉴于所有未被注意的链接的排名和测试链接,AUC值的概率可以看作是一个随机选择的测试链接(链接<我nline-formula>
更高的精度就意味着更高的预测精度。如果所有成绩都来自独立且相同的分布,然后AUC值应该是大约0.5。因此,AUC值超过0.5的程度表明比纯粹的更好的一个算法执行的机会。精度和AUC指标被认为是在最近的研究中由于他们不同的焦点。如果两个链接预测方法有相同的AUC得分,一个精度更高的得分被认为是更好的。
链接预测评价,是常见的。我们考虑了作为副产品的“退化”的问题,由陆发现et al。
在这里,我们考虑了图的副作用
的两个副作用吸引链接预测评估方法。
2,吸引的B预测的数量远远大于预测,但获胜的B的数量低于A。如果我们不奖励0.5分画,它得到一个更好的区分两个预测因子。因此,吸引的一个副作用是它缩小两者之间的精度预测的差异,使预测的更少。在大多数应用程序中,找出一个执行明显比其他人更好的预测也是不容忽视的。以蛋白质交互网络为例,他们可以降低实验成本和速度的步伐揭露真相(
更糟的是,可能会误导人,如例3所示。预测更多的画被认为是比预测B与清晰的成功与失败。假设在一个案例中,使用预测,的次数的相似性得分高于测试链接,等于,和低于未被注意的链接占88%,6%,和6%的总时间,分别。相应的三个比例B预测是90%,0.8%,和9.2%,分别。预测的AUC得分是0.91,和预测B是0.90,这意味着比B .然而,预测B赢得多次预测A .怀疑预测是否真的比预测B。
缓解两个吸引的副作用,我们提出一个新的指标,称为W-index,评估链接预测,它只取决于数量的赢了,不管画的数量。它被定义为
显然,W-index范围从0到1的值。新的评分标准可以减少“简并的州”的影响,使成绩更有识别力的准确性。
在本节中,我们主要描述关于链路预测问题的基本定义和相关的概念,然后介绍十个链接预测预测工作。
考虑一个无向网络<我nline-formula>
一般来说,我们不知道哪些链接丢失的或未来的链接;否则,我们不需要做预测。因此,测试算法的准确性,观察到的链接,<我nline-formula>
每个链接的集合<我nline-formula>
最简单的链路预测算法的框架是相似性算法。由于计算复杂度较高的全球相似性预测(
相似性算法。
| 预测 | 方程 |
|---|---|
| CN |
|
| LHN |
|
| 类风湿性关节炎 |
|
| CN-W |
|
| LHN-W |
|
| RA-W |
|
| 每各月 |
|
| ICRA |
|
| LP |
|
| LRW |
|
在这里,我们考虑三个经典预测基于本地信息:常见的邻居(CN), Leicht-Holme-Newman (LHN)指数
考虑到每一个普通的邻居不同有助于连接的可能性,提出了一些预测基于社区的信息。因此,我们必须应用集群方案图之前计算这些预测。在这里,我们选择五个地方相似预测基于社区信息预测:WIC [
拟局部相似性预测需要考虑当地的路径比当地提供一点信息。在这里,我们考虑两个因素:本地路径(LP) [
在本节中,我们实现的实验来验证该W-index指标六个真实网络从不同的领域。首先,我们探讨每个AUC和W-index下预测的预测精度。接下来,我们检查的准确性和稳定性W-index通过排名变化分析和典型相关分析。第三,我们分析了局部和全局预测性能之间的距离。我们进一步反思链接预测方法的选择从W-index的角度评价。最后,我们算出网络结构和训练集长度的影响在这些预测的性能W-index和AUC。
我们考虑六个代表真实世界网络从典型的网络科学领域,包括协作、交通、生物网络和社会网络。
注意,这里所有的相似性预测认为会给评分0到一对节点位于两个断开连接的组件。因此,我们并不认为这些孤立节点,strong-connected所有上面的网络。这些现实网络的具体结构特点如表所示
六个真实网络的结构特点和基本信息。
| 网络 |
|
|
|
|
|
|
|---|---|---|---|---|---|---|
| 爵士乐 | 198年 | 2742年 | 27.70 | 2.24 | 0.62 | 0.02 |
| USAir | 332年 | 2126年 | 12.81 | 2.74 | 0.63 | −0.21 |
| 代谢 | 453年 | 2025年 | 8.94 | 2.66 | 0.65 | −0.22 |
| PB | 1222年 | 16714年 | 27.36 | 2.74 | 0.32 | −0.22 |
| Tvshow | 3892年 | 17239年 | 8.86 | 6.28 | 0.37 | 0.56 |
| 酵母 | 6008年 | 156945年 | 52.25 | 2.54 | 0.17 | −0.08 |
爵士:爵士音乐家之间的协作网络。每个节点都是一个爵士音乐家,一条边表示两个音乐家一起玩在一个乐队
USAir:网络在商业机场的航班在美国(
代谢:线虫的代谢网络<我talic>
秀丽隐杆线虫我talic>(
PB:美国政治博客的网络在2004年美国大选。一个节点代表一个博客,边代表两个博客之间的超链接。最初的边缘是导演;在这里,我们把他们当作无向的(
Tvshow:社交网络Facebook页面的电视节目。节点代表的页面和边缘之间的相互喜欢他们(
酵母:生物学网络成千上万的蛋白质之间的相互作用(
评估的有效性评价指标,观察到边的集合,<我nline-formula>
在表
6网络预测精度。
| CN | CN-W | LHN | LHN-W | 类风湿性关节炎 | RA-W | 每各月 | ICRA | LP | LRW | ||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 爵士乐 | AUC | 0.953 | 0.826 | 0.902 | 0.796 |
|
0.829 | 0.809 | 0.956 | 0.945 | 0.912 |
| W | 0.946 | 0.708 | 0.901 | 0.680 |
|
0.712 | 0.690 | 0.956 | 0.945 | 0.912 | |
| USAir | AUC | 0.933 | 0.778 | 0.770 | 0.741 |
|
0.783 | 0.768 | 0.950 | 0.923 | 0.908 |
| W | 0.909 | 0.604 | 0.755 | 0.570 |
|
0.613 | 0.594 | 0.936 | 0.919 | 0.902 | |
| 代谢 | AUC | 0.920 | 0.748 | 0.739 | 0.731 |
|
0.753 | 0.744 |
|
0.917 | 0.869 |
| W | 0.881 | 0.532 | 0.730 | 0.520 | 0.946 | 0.542 | 0.528 |
|
0.915 | 0.868 | |
| PB | AUC | 0.917 | 0.893 | 0.762 | 0.770 | 0.922 | 0.895 | 0.890 | 0.927 | 0.931 |
|
| W | 0.890 | 0.843 | 0.745 | 0.725 | 0.904 | 0.851 | 0.840 | 0.910 | 0.930 |
|
|
| Tvshow | AUC | 0.905 | 0.892 | 0.904 | 0.891 | 0.907 | 0.892 | 0.892 | 0.906 |
|
0.946 |
| W | 0.813 | 0.786 | 0.814 | 0.786 | 0.815 | 0.786 | 0.785 | 0.815 |
|
0.899 | |
| 酵母 | AUC | 0.883 | 0.673 | 0.706 | 0.662 | 0.892 | 0.673 | 0.669 | 0.894 |
|
0.906 |
| W | 0.843 | 0.383 | 0.682 | 0.374 | 0.868 | 0.386 | 0.379 | 0.871 |
|
0.906 | |
为每个预测精度差AUC和W-index指标。(一)爵士W-AUC精度变化。(b) USAir W-AUC精度变化。(c)代谢W-AUC精度变化。(d) PB W-AUC精度变化。(e) Tvshow W-AUC精度变化。(f)酵母W-AUC精度变化。
W-index是否在不同的上下文中可以维护可靠性是一个重要的问题。我们利用基于经验数据的两种常见方法比较分析来验证W-index的准确性和稳定性。首先,图
十精度预测量化精度在六个网络。(一)爵士乐。(b) USAir。(c)代谢。PB (d)。Tvshow (e)。(f)酵母。
W-index得分之间的相关系数和精确分数和AUC分数和精确分数六网络。
| 网络 | 爵士乐 | USAir | 代谢 | PB | Tvshow | 酵母 |
|---|---|---|---|---|---|---|
| W-precision | 0.373 | 0.412 | 0.695 | 0.880 | 0.236 | 0.295 |
| AUC-precision | 0.491 | 0.601 | 0.845 | 0.954 | 0.253 | 0.435 |
W-index得分之间的相关系数和精确分数和AUC分数和精确分数六网络而不考虑CN-W LHN-W RA-W, WIC预测。
| 网络 | 爵士乐 | USAir | 代谢 | PB | Tvshow | 酵母 |
|---|---|---|---|---|---|---|
| W-precision | 0.840 | 0.995 | 0.898 | 0.956 | −0.295 | 0.774 |
| AUC-precision | 0.853 | 0.995 | 0.902 | 0.967 | −0.311 | 0.748 |
在链接预测,我们认为评价有两个目的。一是量化算法的性能,也就是绝对的评价。另一种是量化的程度,一个因素比另一个叫做相对评价。在这里,我们使用预测精度作为绝对的评价得分,例如,1分的AUC意味着一个完美的预测,和0.5分的AUC意味着预测不是比纯粹的机会。此外,我们使用两种预测的预测精度差异相对评价得分,例如,AUC指标下,RA的准确性是CN的0.97和0.95,然后是相对评价得分是0.02。
一般来说,使用W-index度规,之间有一个较大的可分性评估方法比使用AUC度量这六个真实的网络,这是由以下两个原因造成的。首先,衡量W-index时,绝对评价得分最高的为每个网络仍然是足够高的精度。换句话说,没有明显降低得分最高的衡量了AUC W-index相比之下。具体来说,最高精度的差异不超过0.01的四个六网络。其次,衡量W-index时,相对评价得分最高的为每个网络变得更高的精度。也就是说,不同预测的预测精度差异的AUC W-index都要比其他测量。例如,预测精度0.018 RA和CN的区别是爵士乐AUC,虽然0.024 W-index下。因此,W-index度量可以更好的区分这些链接的性能预测方法。
此外,我们讨论之间的总距离预测性能,给出的
总距离度量性能计算(a)曼哈顿距离和欧几里得距离(b)。
自从W-index鼓励歧视链接预测评价方法,它提供了另一个角度来观察预测的性能。具体来说,我们使用CN和LP的评价分数的比较。与LP相比,它使用高阶路径信息,CN只考虑其二阶路径。因此,其状态也一般限于告诉测试链接和未被注意的链接之间的差异,和更容易画。因此,一个自然的猜测是,CN的性能可能不准确的资讯。不过,我们可以在图中找到
从我们W-index的定义
因此,通过使用W-index,我们可以明确地指出,LP LRW,总体预测性能优越,举行,“国际机器人与自动化会议”而CN-W LHN-W RA-W, WIC表现不佳。正如我们所料,在W-index指标下,拟局部相似性预测显示更明显优于局部相似性预测。令我们吃惊的是,社区信息不一定提高链路预测的准确性。例如,W-form CN并不显示性能优良在先前的研究中,但性能没有显著差异,举行的“国际机器人与自动化会议”这表明引入社区信息的方法对预测的性能有很大的影响。更直观地,我们显示的性能预测的统计分布来衡量AUC和W-index六网络图
统计分布测量的所有措施的性能(a) AUC和(b) W-index。每个盒子里面的线表示中位数的六个网络上的预测精度。
所
Watts-Strogatz (WS)是一种常见的网络小世界网络模型,通常用来描述现实世界的社交网络。改变网络结构,一系列WS小世界构造图如下。首先,一枚戒指<我talic>
n我talic>创建节点,然后环中的每个节点加入它<我talic>
k我talic>最近的邻居。接下来,执行一系列的重组:每条边(<我talic>
u我talic>,<我nline-formula>
表
六组WS小世界网络的网络结构。
| 网络 |
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|---|
| WS-Group1 | 100 - 1000 | 500 - 5000 | 10 | - - - - - - | - - - - - - | - - - - - - | - - - - - - | - - - - - - |
| WS-Group2 | 1000年 | 1000 - 25000 | - - - - - - | 0.002 - -0.05 | - - - - - - | - - - - - - | - - - - - - | - - - - - - |
| WS-Group3 | 1000年 | 5000年 | - - - - - - | - - - - - - | 3.26 - -50.45 | - - - - - - | - - - - - - | - - - - - - |
| WS-Group4 | 2000年 | 10000年 | - - - - - - | - - - - - - | - - - - - - | 0.001 - -0.008 | - - - - - - | - - - - - - |
| WS-Group5 | 1000年 | 5000年 | - - - - - - | - - - - - - | - - - - - - | - - - - - - | 0.09 - -0.67 | - - - - - - |
| WS-Group6 | 1000年 | 5000年 | - - - - - - | - - - - - - | - - - - - - | - - - - - - | - - - - - - | 5 - 100 |
我们建造十网络平均10度,但不同节点的数目从100年到1000年,如WS-Group1表所示
性能的预测在AUC W-index WS-Group1。(一)由AUC精度测量。(b)由W-index精度测量。
可以看出,AUC指标下,随着节点数的增加,最初的以社区为基础的局部相似性预测性能显著增加,然后略有增长。图
网络密度描述了所有潜在的部分连接网络的实际连接。我们建造8包含1000个节点的网络,网络的密度变化从0.002到0.05,如WS-Group2表所示
性能的预测在AUC W-index WS-Group2。(一)由AUC精度测量。(b)由W-index精度测量。
两个节点之间的最短路径的定义是最小的路径长度。网络的平均最短路径长度定义为平均最短路径的所有成对的节点。我们建造十网络与1000个节点和5000个边缘。这些网络的平均最短路径长度变化从3.26到50.45,如WS-Group3表所示
图
性能的预测在AUC W-index WS-Group3。(一)由AUC精度测量。(b)由W-index精度测量。
中心表达的程度一个节点是整个网络的核心,它可以帮助识别的重要节点。有几种常见的中心算法;在这里,我们以中间性中心为例。中间性中心措施通过节点最短路径的一部分。我们建造十网络与2000个节点和10000个边缘。这些网络的平均中间性中心变化从0.001到0.008,如WS-Group4表所示
性能的预测在AUC W-index WS-Group4。(一)由AUC精度测量。(b)由W-index精度测量。
聚类系数是一个系数用来描述程度的集群节点之间的一个图表。具体地说,它是节点的相邻节点的连接。图的平均聚类系数的算术平均当地所有节点聚类系数的值,衡量的集聚程度图。我们建造十网络与1000个节点和5000个边缘。这些网络变化的平均聚类系数从0.09到0.67,如WS-Group5表所示
性能的预测在AUC W-index WS-Group5。(一)由AUC精度测量。(b)由W-index精度测量。
图的直径被定义为所有成对的节点之间的最大距离。我们建造十网络与1000个节点和5000个边缘。这些网络的直径变化从5到100年,如WS-Group6表所示
性能的预测在AUC W-index WS-Group6。(一)由AUC精度测量。(b)由W-index精度测量。
从上面的分析可以看出,除了节点的数量,其他网络结构产生更大影响的性能预测。由于这些网络结构是高度相关,例如,网络直径越大,越大网络聚类系数和边介数越大,所以实验结果在这些网络看起来很相似,显示的趋势逐步改善性能。当然,由于W-index本身的特点,其范围的变化会比AUC。此外,虽然不是很明显,可以看出,只有三行中可以清楚地看到这10个曲线。这表明这些预测几乎是分为三个类别,即当地的相似性预测)举行(包括“国际机器人与自动化会议”,当地的相似性预测基于社区信息预测)举行(除了“国际机器人与自动化会议”,并拟局部相似性预测。差距在W-index大于下AUC的差距,这是类似于我们之前的结论。
我们都知道,在机器学习和深入学习社区,重要的是要合理划分训练集和测试集,和链接预测问题也是如此。在这里,我们进行实验研究的性能预测在不同比例下的训练集时使用W-index和AUC进行评估。在实验中使用的数据集是相同的
六个中的每个预测网络的性能在不同训练集的比例。
可以看出,随着训练集的比例增加,预测性能的变化与网络结构有关。例如,在Tvshow,所有预测的性能显著提高,增长速度是降低随着训练集的比例增加。同样发生在代谢和酵母,除了LHN预测值。然而,在USAir, AUC和W-index指标下,所有的性能预测波动随着训练集的比例增加,到达最高峰当训练集的比例是0.7。除了LHN预测,爵士乐。PB网络结合了上述两种情况。LHN的性能、LHN-W LRW,和LP预测震荡作为训练集的比例变化,而剩下的预测性能的提高随着训练集的比例增加,增长率逐渐下降。此外,预测性能的改善下W-index大于AUC下评价。
通过以上的观察,不难发现,预测网络适应性;是否可以提高预测性能随着训练集的长度的增加也与预测的性质有关。例如,在大多数情况下,LHN指数的变化不同于其他地方相似预测。此外,拟局部相似性的性能预测是不太敏感的抽样比率比当地的相似性预测。
W-index的属性比较与AUC在以下:
所
随机预测(纯机会)是判断的基准链接预测方法的优点和缺点。然而,随机预测的W-index分数不再是一个固定值,像AUC得分0.5分。具体来说,随机预测的分数随生成一个随机的方式得分。例如,如果所有的测试链接和未被注意的链接得到相同的分数,随机预测的W-index分数是0。另外,如果随机分布的分数是正常的,随机预测的W-index分数接近0.5,或者从离散均匀分布随机生成分数,W-index分数随机预测是一个正数小于0.5。简而言之,随机预测的W-index分数范围从0到0.5。
0.5点仍然是一个基准W-index分数,但它的意思已经改变。AUC指标下,0.5分意味着相同数量的成功与失败,也就是说,给分数由纯粹的机会。这意味着一个链接预测的性能比机会只有当其AUC大于0.5。与这个不同,根据W-index,纯机会的分数不再是一个固定值,但其上限是0.5分。因此,一个链接预测方法得分高于0.5必须比纯粹的机会。此外,当赢的数量等于平,损失的总和,W-index值是0.5分。很明显,竞争方法应该更胜比平,损失。综上所述,只有一个链接得分在0.5以上预测方法是有效的。度超过0.5,越大越好算法执行。
事实上,提出W-index厂商是一种特殊情况下的评价指标。在无向和未加权的图,我们可以作为链接预测二元分类问题,对所有节点分为观察边缘和未被注意的边缘。分类结果包括三种情况。第一个是正确的分类,即测试链接得分高于或未被注意的环节,即获胜。第二个是错误的分类结果,即损失,可以进一步细化为以下两个。一个是治疗观察边缘未被注意的边缘,命名<我talic> L1我talic>,另一种是治疗未被注意的边观察边,命名<我talic> L2我talic>。第三是它不能被分类,也就是说,有相同的分数的测试链接未被注意的链接,或者,即画。其中,后两个是分类的结果<我talic> L1我talic>,<我talic> L2我talic>和画会带来成本。
以蛋白质交互网络为例,我们来执行大量的昂贵和耗时的实验发现未知的交互。在<我talic> L1我talic>小姐,我们实验我们应该执行和无法获得发现。在<我talic> L2我talic>,我们做无用的实验,发现。在画中,我们需要执行所有实验,但这需要大量的时间和金钱。
W-index下,我们有相同的处罚这三个成本,也就是说,我们在平,得到0分的损失。然而,在不同的环境,不同的分类结果常常带来不同的成本。此外,我们可以专注于成本很高的情况下,使用分类结果的总成本作为评价标准。例如,我们给−10分<我talic> L1我talic>。这样,虽然一个链接预测方法精度最高的AUC度量下可能被遗弃,在应用程序中具有重要的现实意义。
在本文中,我们讨论两个副作用AUC的吸引并提出W-index,只关心谁获胜,获得有识别力的链路预测方法的评价。介绍了一系列的工具测量的可靠性和性能的新指标。基于经验数据,两种方法,即,ranking change and correlation analysis, are applied for comparative analysis to verify the reliability of the W-index. To evaluate the performance of the W-index, we utilize local and global distances to measure the differences between link prediction methods. Moreover, the impact of the network structure and training set length on the performance of predictors is clarified under W-index and AUC. These tools may shed light on the study of new evaluation metrics.
从我们的实验主要观察各种网络总结如下。首先,W-index能够有效评估的性能预测和AUC相比,这是由以下参数。链接预测方法的性能排名当使用W-index和AUC变化不明显,分别和相关性分析的结果W-precision和AUC-precision(见表
最后,我们要提醒读者,在1995年,足球联赛增加胜利的奖励从两到三分,这条规则变化的主要目标是鼓励更多的很让她兴奋和吸引她的比赛。此后,经验数据证明三点系统的引入减少了足球比赛的吸引和产生一个更正确的排名的团队
在这项研究中使用的网络是可用的
作者宣称没有利益冲突有关的出版。
云元,精卫王同样贡献了这项工作。
这项工作是支持部分由中国国家重点研发项目(批准号2019 yfb1704700),中国国家自然科学基金(批准号。61573257,71690234,71690234,61973237),和上海市科学技术委员会(批准号。19 jg0500700和20 jg0500200)。