文摘

评估科学论文一直是一个具有挑战性的任务,使之更加困难不断发展的引文网络。尽管许多试图解决这个问题,大多数现有的方法没有考虑在引文网络的联系关系,这常常会导致偏见的评估结果。为了克服这个限制,我们提出一种优化排名算法,利用P-Rank算法和加权引文网络提供一个更准确的文章排名。该方法使用两个双曲正切函数计算的相应年龄的文章和引文的数量,同时更新的链接关系每篇论文引用网络节点。我们使用三个验证该方法的有效性评价指标和三个公共数据集进行实验。获得的实验结果表明,本文优化排序法可以实现竞争性能相比其他无关紧要的排名算法。此外,我们注意到最优斯皮尔曼等级相关和鲁棒性都可以通过使用以下参数的组合: , ,

1。介绍

年代cholarly影响评价一直是一个热门话题,这有利于促进公众理解和应用的科学成就1- - - - - -3]。然而,评估和计算学术成就已经被证明是一个艰巨的任务由于引文网络的不断变化的性质4,5]。此外,利用不同的评价指标或排名算法也将导致评估和排名结果的显著差异(6]。早在1972年,加菲尔德介绍了期刊影响因子(出售JIF)作为排名的估计方法不同学术刊物(7]。1983年,加菲尔德扩展出售JIF方法计算社区(作者的学术影响力8]。此外,布劳恩等人介绍了期刊h指数作为一个综合衡量出版物的数量之间的关系和期刊的学术影响9,10]。

作为一个著名的排名评价算法,网页排名(11- - - - - -13)方法已经广泛和有效的用于解决各种排名等任务的网络流量预测和社区发现。在[14),科学家在作者的学术影响和活动社区可以通过利用网页排名算法评估。此外,博伦等人采用一种变体的PageRank算法优化期刊影响因子的计算机制(12]。值得注意的是,排名评价方法的视图的生成节点条引文网络作为一个静态状态。然而,在异构网络学术文章,写发表,引用先后顺序。显然,以上这些方法没有考虑到这样的引文网络的动态变化特征,新生成的节点往往忽视了由于缺乏足够的引用。为了考虑和利用时间信息充分引文网络中的节点,Sayyadi等人开发了一个排名评价方法称为FutureRank [4基于time-aware和网页排名算法。排名与其他评价方法相比,FutureRank更先进的评估每个学术的学术影响实体在真实的异构学术社区。通过使用一个简单的网络流量模型与时间信息,排名评价算法称为CiteRank [15)提出了预测将来引用每一篇文章的数量。然而,学术实体分数背后的改变机制不能充分利用网络流量模型来解释。此外,尽管PageRank方法更先进的认识到全球信息网络结构,它不考虑那些会影响局部元素的性能和评价方法的结果。为了解决上述问题,严et al。16)提出了一个名为P-Rank的增强的评估方法。P-Rank涉及建立一个异构的学术网络包含了各种实体如文章、作者和期刊。然后执行一个子网之间的传播方法评估和计算单个实体的影响。除了P-Rank, jonkleinberg [17)提出了一个算法称为冲击,其重点是权威的概念。具体而言,不同的学术实体可以首先分为中心和权威的概念,然后计算获得的分数相辅相成地利用当地的结构。为了提高评价的有效性达到算法,王et al。18)引入了一个称为PageRank +点击排名算法框架,已经被证明可以产生准确和可靠的排名结果,使之成为一个受欢迎的选择领域的学术网络分析。尽管增强性能通过这些排名的方法,他们往往忽视了不同网络之间的连接权重。这可能导致偏见的文章排名结果,这使得它考虑链接权重排名过程中至关重要。PageRank +点击框架中获取灵感,链接优化方案称为W-Rank [19)开发,该链接权重分配到相应的子网通过引用相关的计算和作者的贡献。相关实验结果表明,将链接权重纳入排名方法能够提高准确性和更可靠的结果。

从本质上讲,对算法的需求是完全不同的排名算法设计时预测和比较分析。现有的文章排名算法很少考虑将链接权重集成到异构学术网络,这将导致偏见的文章排名结果。这样的排名算法认为不同实体之间的联系相关单位,这意味着链接之间的差异将被忽略。在[2,3),周等人开发了一个基于并行智能虚拟引文网络框架。并行智能系统采用多智能代理,形成一个集成的建模,考虑macrogroup现象之间的相关性和规则以及可变性microindividual行为和决策。与此同时,这种建模方法阐明了各种实体单元在复杂网络的交互行为和社区影响整个系统,而验证虚拟和真实的社区之间的相干特性(20.,21]。因此,本文开发了一个链接权重算法,该算法用于分配重量不同文章之间相应的链接节点根据其实际意义和代表性。本研究的目的是探索和验证评估排名算法的性能是否可以改善通过链接权重分配给相应的网络,并引入时间信息。与有关工程相比,这里提出研究的主要优势是四倍:(1)该方法综合考虑了影响的时间信息和引用文章引文网络中节点的数量(2)我们采用两种不同的双曲正切函数来计算相应的节点之间的链接权重,建立加权引文网络(3)我们充分评估优化排名算法的性能调优配置和参数组合在不同条件下的函数(4)通过加入适当的链接权重引文网络,优化排名的方法在不同的数据集达到与原排名算法相比性能优越

本文的其余部分组织如下。部分2介绍了异构学术网络和详细提出了优化排序法。节3,我们目前的实验结果分析功能配置和参数设置的影响算法的性能。此外,我们验证的好处将链接权重在引文网络评估算法的性能。最后,我们总结论文部分4

2。方法

本节详细介绍了提出优化排序法。更具体的,异构的学术网络可以被定义为一个网络组成的三个实体元素(作者、文章和期刊)和不同的实体元素如何在这些三层通过各种链接彼此是相互联系的。此外,基于加权的优化排名方法引用网络开发计算和评估文章的质量。

2.1。介绍异构学术网络

整个异构学术网络通常由三个实体元素,即作者社区,本文引用网络,期刊,如图1。实际上,学术网络可以被视为一个异构网络集成不同信息的作者,文章和期刊为异构单元和允许他们通过子网相互作用。

它可以观察到在图1存在三个三个实体元素之间的连接关系,即。,“Write” indicates the relationship between the authors and the articles, and the term “Cite” denotes the citation relationship between an original article and the articles that cite it. Similarly, the term “Publish” denotes the relationship between the publications and the corresponding articles. In [16),异构学术网络由三种类型的学术实体(作者、文章和期刊),它可以表示如下: 在哪里 , , 代表作者节点,节点,条和《节点在给定实体层。 在引文网络中,表示“引用”链接 从作者的文章“写”链接,然后呢 从文章“发布”链接到出版杂志》上。

如图2,这三个子网连接三个学术实体可以表示为 , , ,分别。箭头在图2表示特定的实体行为和取向关系。值得注意的是, 是两个无向子网,和相应的链接 只表示“写”和“发布的行为。“相比之下,异构网络 条引文网络是一个有向网络和箭头的方向文章引用。在图2例如, 意味着 引用 此外,它可以观察到 发表在 是写的 表明作者层和文章层之间的关系是多对一的(也就是说,可以由不同的作者)共同撰写的一篇文章,而文章层和杂志层之间的关系是一对一的(也就是说,只能在一个杂志上发表的一篇文章)。在这项研究中,我们将介绍一个链接权重更新未加权的引文网络的方案: 在这 表明在引文网络的链接。与 中定义的引文网络,异构网络学术 可以更新如下:

为了确保一个更客观的评价三个学术实体,我们假设引文网络中节点引用两篇文章之间的相关性主要是年龄和条数的影响本文引用(参见章节2.2更多细节)2,3,6,18,19]。

2.2。在引文网络链接优化

排名评估的方法查看文章引用作为一个静态的过程,而不重视在引文链接关系的动态变化过程。值得注意的是,引用关系起着至关重要的作用在评估质量,还应该考虑条引文网络。此外,影响评估和分析基于主题建模是一个重要的数据挖掘领域的研究工作,主要用于用户行为建模、情感分析、文本挖掘等方面的社会网络。在[22,23),例如,唐等人开发了一个基于主题的建模,将一个随机游走计算框架的文章,同时作者和期刊。实验结果表明,基于主题的方法实现承诺的性能相比,某些其他基线模型。在这项工作中,一个优化排名方法基于加权引文网络发达,可以提高评估性能和排序方法的合理性。更具体地说,该方法更新引文网络中的节点之间的链接关系通过考虑年龄和数量的引用的相关文章。与二进制引用方法相比,引用计算加权的方式更有效评估科学出版物的实际学术影响力,因为它充分考虑一些潜在的和重要的元素在网络的动态变化。二进制引文网络之间的草图和加权引文网络如图3

在最初的PageRank和P-Rank,引文网络 表示为一个文章 邻接矩阵中不同商品之间的链接权重计算使用

灵感来自于工作(2,3),本研究认为利用两个双曲正切函数来计算相应的年龄和引文的数量和更新条链接不同的文章引文网络中节点之间的关系。的影响权重函数,表示年龄条引文网络可以表示如下: 在哪里 是一个双曲正切函数; 表示的年龄 在个月th节点; 是一个体重因素决定文章的概率 被引用。值得注意的是, 应该遵循两个原则:(1) ;(2) 在间隔增加 文章年龄之间的关系 和体重因素影响文章被引用的概率是描绘在图4

随后,我们还采用双曲正切函数来描述之间的关系权重概率和引用的文章数量,制定如下: 在哪里 是一个双曲正切函数; 表示引用的数量已经收到; 是决定文章的概率权重因素 被引用。理性的功能 遵循三个定性原则:(1) 在间隔增加 ;(2)总体的斜率 总是递减区间 ;(3) 引文的数量之间的关系已经收到 一篇文章和加权因子影响的文章被引用的概率如图5

基于 (年龄)条 (引用的文章),节点之间的连接权重 和节点 可以计算 在哪里 从文章节点表示的重量 条节点 在引文网络和 表示重量的年龄和数量引用文章的概率,分别。参数 是两个相关系数,可以定义如下: 在哪里 代表一个参数指数函数和塑造 表示的媒体价值 ,分别。来,让

因此,未加权的引文网络 可以更新使用

现在,我们首先定义 作为一个化为分数引用矩阵。接下来,我们 表明PageRank向量的向量 , 可以利用计算 在这 因此,PageRank特征向量 可以通过计算 (一般设定在0.85)作为一个控制系数。来,让 然后 因此,对于任何给定的 ,向量 可以通过

2.3。优化排序法

加权评估分数可以表示成条样品 ,的特征向量可以写成: 在哪里 表示一个向量,它包含每个作者写的文章的数量在一组文章和 表示一个向量,包括信息在每个期刊发表的文章数量。三个学术实体之间的相互依存关系可以利用操纵参数 (通常设置为0.5)。因此, 可以通过计算

在优化排名方法中,最初的每一篇文章的分数数据集设置 和的总数 所有的文章在每个迭代中设置为1。此外,阈值设置为0.0001,这样可以递归地执行上述步骤收敛。优化排名方法的伪代码所示算法1

输入: ,所有文章的引文数量和年龄信息
输出:PageRank分数每一篇文章
设置: , , , , , , , , ,
步骤:1初始化所有文章样本的得分:
,在哪里
表示文章集的总数。2更新链接权重在引文网络利用方程(6)和(8):
不收敛
结束返回
, ,

3所示。实验

在本节中,我们首先验证评估拟议的排名算法在不同条件下的性能。此外,我们验证优化排名算法的鲁棒性和中华民国的性能与不同的参数组合。

3.1。数据集和设置

在这项工作中,我们三个公开数据集上执行排名评价实验,即。,arXiv (hep-th) (http://www.cs.cornell.edu/projects/kddcup/datasets.html)、科拉(http://people.cs.umass.edu/mccallum/data.html)和杂志(https://aminer.org/open-academic-graph)。选择这三个数据集的原因是,他们提供的更全面的表示一般的结果。此外,收敛速度和鲁棒性优化排名方法需要验证的三个相同类型的数据集。在实验之前,每个样本列表可以表现为四种元素,即。,article serial number, article age, the number citations of article, and article score. Table1提供了一个全面的汇总统计三个数据集。

数据预处理,并在服务器上进行了相关实验,3.60 GHz Intel 19 - 9900 k的Linux 4.17.0处理器和操作系统。实现优化算法在Python中第3.7.6 64位,这中可以看到https://github.com/Weighted-P-Rankhttps://github.com/pjzj/JIF-Modeling

3.2。评价指标

在本节中,我们详细介绍使用的两个评价指标。

3.2.1之上。斯皮尔曼等级相关的

评估和排名的文章一直是一个艰巨的任务,由于难以准确量化的真正学术质量或影响在现实的一篇文章(24]。此外,排名评价结果也受到重大变化基于排名指标或方法利用(25]。在[4),Sayyadi等人利用FutureRank分数作为评价基线指南。然而,这种方法可能会导致一些老文章接收更高的分数因为PageRank的迭代本质上是偏向老节点条引文网络。解决的局限性用人FutureRank分数作为基线指南,王等人利用引文的数量在未来的岁月里,另一种评价指标,它提供了一个更公正的评价的文章质量关注未来的引用而不是历史因素(18,19]。在这项研究中,我们还采用斯皮尔曼等级相关的评估排名优化方法在不同的参数条件下的性能。对于一个给定的样本集 ,在哪里n表明,初始数据转换为排名数据。来,让 代表的具体排名 在前两个实验中,然后让 代表的平均排名过程中两个实验。因此,斯皮尔曼等级相关 计算如下:

3.2.2。鲁棒性

在众多评价指标可用,鲁棒性是指一个系统或算法的能力来维持其性能和稳定性即使面对或干扰其操作过程中可能产生的变化。在这项研究中,整个过程可以分为两个不同的阶段,利用相应的历史时间节点为每个数据集。例如,让 表示历史时间节点在一个数据集,然后之前的时间节点 和整个持续时间可以表示为 ,分别。因此,文章的排名方法的鲁棒性的数据集(历史时间节点定义为 )可以计算之间的关系 阶段,整个时间 之间存在着正相关关系,该算法鲁棒性和时间之间的相关性两个截然不同的时间。

3.3。实验结果和分析
3.3.1。功能配置

在实验中,我们使用两个参数( )调节功能配置。通过利用各种功能配置,我们评估和分析优化排名方法相比,之前的研究。条件和各自的参数描述如下:(1) ( ):表示,传统P-Rank方法用于计算排名吗(2) ( ):双曲正切函数 是纳入考虑文章的引文网络时代(3) ( ):双曲正切函数 引入引文网络只雇佣了文章的引文数量吗(4) ( , ):两个双曲正切函数( )引入考虑文章的引文网络的年龄和数量同时引用的文章

3.3.2。三个参数( , , )在两个双曲正切函数

从图的观察和分析4,它可以发现翻译的程度和整体曲线的斜率在图4综合影响参数吗 在方程(4)。同时,可以看出图5这个参数 反映了每个曲线的斜率图5。灵感来自于研究[2,3),存在三种参数设置在这个工作:(1)最小采样条件: ; ; (2)基线取样条件: ; ; (3)最大抽样条件: ; ;

与上面的假设,我们将验证斯皮尔曼的排名相关性和所有数据集,提出了优化方法的鲁棒性,可以在图中找到6和表23

图中可以看到6最优斯皮尔曼的排名相关(arXiv: 0.603;科拉:0.335;和杂志:0.553)和健壮性(arXiv: 0.854;科拉:0.446;和杂志:0.707)的优化方法可以通过共同使用的参数 , , 此外,我们注意到,该优化方法有三个参数配置( , , ; , , ; , , )所有实现竞争力排名性能相比原P-Rank和网页排名。即基于加权引文网络的优化排名方法明显优于以前的作品。这个结果似乎表明,评价的性能,可以增强文章的排名方法全面考虑年龄和文章的引用数条引文网络。

它可以观察到在图6(一)和表2- - - - - -3这条年龄越大(越小 ),斯皮尔曼的排名越高相关性和健壮性往往会。此外,一个注意等级提出了优化算法的性能改善作为参数 变得越来越小。

随后,我们采用ROC曲线和AUC进一步验证的评价性能优化方法有三个参数组合(参见图7)。最初,所有样品都得分和排名利用网页排名算法。基于默认阈值,所有文章分为阳性样本和样本阳性样本。以确保实验结果的可靠性,我们每个数据集上进行五个独立测试和记录的平均性能不同的排名算法。

如图7,它可以观察到,该优化方法有三个参数组合排名( , , ; , , ; , , )所有达到竞争ROC性能三个数据集。值得注意的是,最优AUC值(arXiv: 0.5529;科拉:0.4531;和杂志:0.5912)在三个数据集得到的优化排序法 , , 相比之下,中华民国的性能和AUC值通过网页排名(arXiv: 0.4533;科拉:0.3279;玛格:0.4503)和P-Rank (arXiv: 0.3289;科拉:0.3484;和杂志:0.5020)是令人不满意的。结果表明,考虑不同节点之间的链接权重引文网络可以有效地提高排名的合理性评价算法。

4所示。结论和未来的工作

提炼科学论文的评价至关重要,但它带来了重大困难由于复杂的和不断发展的多元化的学术网络的性质。在这项研究中,我们提出了一个基于加权的优化排名算法引文网络和P-Rank算法。开发优化排序法的主要目的是将链接权重引文网络中的不同节点通过计算相应的文章年龄和引用文章的数量。的有效性提出了优化排名方法可以完全由进行相关的实验验证三个不同的数据集。实验结果表明,优化排名方法表现出优越的性能在所有三个数据集,以及实现在特定条件下的最优结果 , , 此外,它可以发现,提出优化排名方法与不同的参数组合达到竞争ROC性能在三个数据集。综上所述,可以发现,该链接权重方案有利于提高文章排名算法的性能,特别是与其他未加权的方法。

在未来,我们想进一步检查的有效性和普遍性链接权重方案通过测试它对更多的排名评估算法。此外,可以考虑利用各种方法的优点和纪律和话题等因素排名进一步提高该方法的性能。

数据可用性

实现优化算法在Python中第3.7.6 64位,这中可以看到https://github.com/Weighted-P-Rankhttps://github.com/pjzj/JIF-Modeling

的利益冲突

作者宣称他们没有利益冲突有关的出版。

确认

这项工作得到了浙江省级重点研究和发展项目(2023 c01233)。