文摘
许多学者进行了深入的研究学者们的科学评价和预测的影响,同时发现各种因素影响成功的学者。在所有这些相关因素,学者的年龄被举世公认为最重要的一个因素可以解释许多实际的问题,例如,找到主管,发现新星,和研究经费或授予应用程序。然而,由于无法理解或隐私问题得到学者的个人数据,研究探索当前学者的真实年龄。另外,学者们的出版物的信息可以通过各种各样的数字图书馆。受这个事实,我们提出一个新颖的学者的年龄预测方法基于他们的文章的信息。我们的方法首先将影响学者的年龄的因素分为直觉和复杂类型根据其计算复杂度,然后应用机器学习算法来预测的学者基于这些因素。真实数据集上的实验结果表明,我们的方法可以有效地预测学者的真实年龄。鉴于没有完全准确的数据集,因为连续发表学术论文,然后,我们运用我们的方法不完整的数据集。然而,我们的方法在这种情况下仍具有较高的预测精度。
1。介绍
学术大数据的快速增长,评价和预测具有重要意义的科学影响因为它可以揭示许多实际问题,如排名机构、研究经费的分配提供依据,招聘能力,此外,促进科学发展1,2]。因此,越来越多的学者开始探索学者[的影响成功的因素3]。其中,许多研究已经证实的至关重要的作用,学者们的实际年龄他们未来的成就,它还可以提供依据学术决策(4,5]。
认识到时代的学者,一系列的学术问题可以回答。举例来说,重要的是为学生找到合适的导师或导师都将在他们的整个学术生涯中起到至关重要的作用在许多情况下,如培养学生的专业兴趣,引导他们的研究方向,甚至为他们的工作提供一些有用的建议选择。提前了解上司的年龄可以提供依据学生在学校时自己的学术计划。与此同时,学者们的年龄也是一个重要指标,当申请研究经费或学术奖项。此外,研究机构或大学的基本成份是学者。他们的研究和教学能力会影响机构在很大程度上的发展。因此,许多大学已经尝试不同的方法来优化教师的年龄结构包括搜索和招募年轻学术新星,并且知道学者们的年龄可以为这些问题提供依据。此外,从经济学的角度,了解科学家的时代给我们的重要信息的重要科学教育、成本知识的积累,和改变生产力模式生命周期的科学家,特别是因为强大的群体效应在起作用由于知识的增加负担6]。
然而,由于一些隐私问题,许多学者都不透露自己的真实年龄,因此发现学者们的真实年龄是要解决的关键问题之一。基于上述事实,本文的主要内容是预测学者的真实年龄根据他们的出版物的信息。
大多数当前的预测研究工作的学者的真实年龄源于用户属性挖掘社交网络的研究(7]。社交媒体的日益普及,越来越多的人加入和使用社交媒体网络分享日常生活和浏览他们感兴趣的新闻。Facebook目前拥有近20亿用户不断地创造和分享大规模多媒体信息,如文章、照片和视频。YouTube上传视频每分钟约100小时,每月超过60亿小时,同样,Facebook用户上传超过2500亿张照片。如此丰富的多媒体信息可以提供巨大的重要线索暴露用户的信息,包括年龄、性别、个人利益,职业,等等。分析这些用户的属性信息可以导致很多购物网站的商品推荐等服务(8]。然而,大多数在线社交网络,如Facebook, Twitter,和SinaWeibo,不直接提供给用户的属性信息,为了保护他们的隐私。因此,研究人员开始利用社交网络来寻找用户属性数据(9,10]。基于社交网络的大量数据,研究人员尝试从不同的角度探索用户属性和分析他们的行为通过这些属性,例如,探索多样化的语言使用习惯在Facebook用户的性别和组织。研究人员还预测一些个人属性,比如种族、宗教、政治观点,甚至基于社交媒体的记录(性取向11,12]。除了挖掘用户属性,研究人员可以通过数据分析和预测用户行为在社交网络上在同一时间(13,14]。
的一个重要社会人口特征是人们的年龄,它已被证明是研究生产力的关键影响因素15]。然而,由于这些数据的隐私,获得的真实年龄学者直接是很困难的,导致缺乏相关的研究工作。为了弥补这个缺点,研究人员使用替代方法来考虑学者的年龄的影响。例如,考虑到学术的学者和学者发布的时候他们第一个论文来研究它们对科学的影响影响或学术合作模式(16]。尽管这些替代因素有一定相关性随着年龄的增长,他们不能准确反映了学者的真实年龄。与此同时,与社交网络的用户属性挖掘问题,在社交网络和各种数据量非常丰富,用户自己密切相关,大多数scholar-related数据可以获得的信息是他们的论文。此外,我国学者的年龄明显重要。例如,许多大学有特定的规则,学者们的年龄在招聘教师时,例如,讲师的年龄应在35岁以下。此外,我国选择“一流大学和学科”每五年。对于那些选择的大学和学科在这个项目中,他们可以从政府获得更多的财政和政策支持。能力在大学的年龄分布在选择过程中是一个重要的指标。因此,许多大学已经尝试不同的方法来优化他们的教师年龄结构包括搜索和招募年轻学术新星。此外,由于连续出版的学术文章,学者的整个出版的不完备的信息会增加预测的复杂性学者的年龄(17]。
出于上述事实,本文的主要工作是预测的实际年龄学者通过他们的文件的信息。我们建议的方法包括两个主要部分:发现相关因素,然后利用机器学习算法来预测学者的年龄。首先,我们利用出版物的数据(标题、摘要、作者等)的学者去探索因素与年龄相关的学者。为每一个因素,我们提出一个具体的定量计算方法,然后是学者的真实年龄这些因素可以预测的输入到机器学习算法而XGBoost GBDT, SVR算法已经广泛使用和认可的主流行业。因此,XGBoost GDBT和SVM算法选择的预测。总之,我们在本文做出以下贡献:(我)我们提出一个新颖的学者的真实年龄预测方法,依靠学者的论文信息,而不是从社会网络的多个数据类型。(2)我们进行深入探索影响学者的预测因素的年龄和发现几个密切相关的因素,包括第一篇论文的发表时间和合作者的分布。(3)实验进行实际数据表明,我们的方法可以有效地预测学者的真实年龄。此外,尽管有限的不完备的数据集,我们仍然可以实现高精度。
本文的其余部分组织如下:部分2介绍了相关的工作。第三节介绍我们的方法。第四节展示了我们的方法的实验结果。最后,我们结束我们的工作第五节。
2。相关工作
飙升的社交网络,用户属性挖掘研究吸引了越来越多的关注。基于社交网络的数据,如用户的帖子或社会关系,研究人员可以预测用户的性别,宗教信仰,和年龄。学者们的年龄预测问题的研究源于用户属性的挖掘社交网络(18,19]。本节将介绍当前在上述领域的研究工作。
2.1。用户属性挖掘
利用不同的社交网络数据,研究人员开始预测用户基于文本信息的属性。Garera et al。20.)使用文本数据挖掘其结构和传输特性来预测用户属性,如生日,职业,和国籍。曼et al。21)应用上下文学习方法来提取用户属性信息,如出生地。Bergsma et al。22)利用概念的属性类预测社交网络用户隐藏的本质。尽管上述工作可以有效地提取用户属性信息使用基于规则的和基于模式的学习方法,学习模式或规则是局限于特定的属性,这将导致他们的nonuniversality。
因此,一些研究者尝试将用户交流信息与网络多媒体数据挖掘用户属性。用户配置文件极大地影响他们的特点和社交活动(23]。这些研究[24- - - - - -26]分析了用户配置文件之间的关系和他们的社会活动,他们提供一个可靠依据通过用户数据推断它们的属性。大多数当前的研究工作还解决了这些问题,通过设计相关的属性和使用现有的分类算法。Garera et al。27)扩展了基于n元模型利用社会语言学特征和支持向量机模型。Rao et al。28)用社会语言学特征和语法模型预测Twitter用户类型。Bergsma et al。22)提出一个基于集群通信数据和位置的方法从Twitter来改善用户分类的结果。基于网络的动态演化,茱莉亚et al。29日)提出一个预测方法运用贝叶斯网络增量学习。Culotta et al。30.)在网站上使用的交通数据预测人口特征。
当挖掘用户属性,当前的研究侧重于提供更复杂的基于特征分类器。Rao et al。28]提出一种支持向量机(SVM)方法基于社交网络用户属性。Rao et al。31日]提出一种分层贝叶斯模型来预测用户在Facebook的种族和性别,这从他们的Facebook应用语法方法提取特征信息。通过考虑该地区密切相关的词汇表,地理上连贯的语言区域,以及地区之间的变化和主题,艾森斯坦et al。32)提出一个级联的话题模型对用户的地区进行分类。太阳et al。33)提出了内容增强网络嵌入方法(CENE),使社会网络结构的协同使用信息和内容信息以一种无监督学习的方式。
2.2。年龄矿业
基于上述的算法基础属性挖掘,研究人员开始深入挖掘时代属性。研究人员在34,35)观察到用户的利益可以通过分析探讨文章发布的追随者。可以看出,社交网站如Twitter, Facebook和YouTube,用户的兴趣主要是受到他们的追随者。随着登录网络的体积增加,研究人员也开始使用的子网的追随者来预测用户的年龄36]。此外,用户的年龄也可以通过概率预测通过分析网页浏览数据的机器学习算法。这些方法,可以有效地进行大规模数据和获得一个精确的结果,将年龄预测工作转换为预测问题或分类问题。以下研究工作将从上述两个方面。
人类的年龄可以从一系列的图像识别,例如,每年的形象的人不同于以前的。受,郭et al。37]预测年龄设计分析多媒体数据的概率模型。在[38),考虑到特征提取博客和论坛,和用户的年龄预测线性回归算法。类似于(38),Nane et al。39)学者的年龄还预测利用线性回归算法从不同的学科。
年龄的预测也是公认的分类问题。在[28),它预测Twitter用户的年龄属性基于SVM分类方法。世界卫生组织(世卫组织)提供了一组年龄群体中占主导地位的美国,但Twitter用户的年龄根据年龄段不准确地反映用户的年龄。例如,在17至30年龄段,18岁和27岁的人将划分为同一类别。因此,根据分类结果,是不可能的后续研究工作提供一个准确的依据。研究人员还细粒度的方式改善以前的方法分类年龄(40]。然后,我们使用这个postsequence数据集训练监督学习的方法。用户分为不同的年龄组和其他特性,比如生命阶段用于细粒度的时代的预测。
总之,大多数研究年龄预测集中在使用社交网络的数据预测网络用户的年龄,而很少研究了预测学者的时代。学者是一个相对特殊的社区的巨大贡献我们的社会,和他们的年龄扮演重要的角色在许多重要的发现新星和奖项或资金等问题的应用程序。因此,它是非常必要的预测学者的年龄。此外,目前的研究中使用的数据集被认为是完整的。然而,考虑到一个重要学者的特殊性是他们倾向于不断发表文章,导致一个实际的问题,不能完全准确的数据集。因此,受当前研究的上述缺点,我们提出一种新颖的学者们的年龄预测方法和特定的程序是在以下部分中引入的。
3所示。学者预测的年龄
与传统社交网络的属性挖掘问题,学者的类型数据得到学者们的出版物是相对简单的。与个人信息相比,学术出版物可以在很大程度上反映了学者的研究的进展,而不是可以揭示学者自己的信息。因此,预测学者的年龄构成了巨大挑战。为了解决这个问题,我们首先探索之间的关系,学者们通过深入调查的信息。通过分析相关出版物的数据集和提取隐藏在其中的各种关系,我们探索的关键因素相关学者的预测。采矿参数密切相关学者的年龄很大程度上取决于数据的类型。因此,以下各部分将描述中包含的特定信息数据集。本节将介绍该方法的学者的年龄预测因素的角度来看这是重要的学者和相应的预测算法。
3.1。确定学者的预测因素的年龄
在本部分中,我们提出的一系列因素相关学者的时代。考虑到不同专业背景和应用场景的学者,我们分裂的因素分为两类:直观的因素和复杂的因素。直观因素指的是这些因素可以直接获得或计算通过简单操作从出版的信息而因素应该获得的具有专业背景的复杂计算被定义为复杂的因素在我们的工作。这些因素的具体计算过程如下所示。
3.1.1。因素可以直接从出版获得的信息
我们首先从最直观的信息,可以获得来自出版和利用它提出属性相关学者的真实年龄。在本文中,我们定义了直观的属性或因素如下:获得的属性,可以直接从学者们的出版物没有复杂的操作。下面是详细的介绍这些直观的因素,可以得到相应的论文信息的学者。
当给一组学者的论文,我们可以直观地获取以下信息:发表论文的数量 ,论文引用的总数 ,第一作者发表的论文的数量 ,学者们发表第一篇论文的时间 ,学者发表的时间过去 ,发表第一作者论文的时间 ,合作者的数量 ,论文类型 ,期刊影响因子 ,论文的总长度 ,引用的数量 ,资金类型 ,和资金资助金额 。上述属性可以通过简单平均和加法操作。
学者发表的论文总数和论文引用的学者的数量,平均参考量学者可以获得。学者的学术年龄可以计算的时候,第一篇论文发表和最后的论文发表的时候。以第一作者的论文,学术年龄以第一作者发表的学者可以计算。根据论文的数量,第一作者论文的数量,和合作者的数量,平均每个学者和第一作者论文的合作者数量可以计算( , )。的基础上发表论文的数量,第一作者论文的数量,和引用的数量,平均每个学者和第一作者论文的引用数量可以获得( , )。根据一些学者的第一作者论文和相应的引用,第一作者的论文的平均引用可以计算。得到学者的学术年龄和发表论文的数量,第一作者论文的数量可以计算。我们设置的平均数量每年学者发表的论文,第一作者论文的平均数量和 。
然后,根据论文的总数,第一作者,文章的长度,平均长度的学者的论文的平均长度的论文第一作者可以获得。基于论文的总数,第一作者的论文,数量和类型的纸张,研究文章的比例和评论文章可以计算。总数的论文,第一作者论文的数量和类型的基金资助,资助类型的平均每个第一作者的论文( , )可以获得的。通过论文的总数,由第一作者的论文数量,和数量的基金资助,资助每篇论文的平均数量,每个第一作者的论文( , )可以计算。上述直观因素可以总结表1。
3.1.2。因素通过复杂的计算
根据获得的直观的属性在前一节中,我们进一步引入复杂的属性。考虑到不同的应用场景和不同研究人员的专业知识,我们把学者的年龄因素的影响分为两类。较直观的属性,可以通过简单的数学运算,复杂属性学者们的专业知识和技术有更高的要求。此外,直观的属性,由于其较低的依赖的专业领域,它的应用更普遍比复杂的。然而,复杂属性可以揭示影响因素的学者从更多的方面,尽管它的结果在一个较高的计算复杂度。我们将详细描述过程的计算每个复杂的属性。
一般来说,学者的专业知识会随着时间积累,以及他们的影响力。因此,我们首先建议因素描述学者探讨的学术水平影响年龄预测。有很多方法来评估一个学者的能力,比如最直观的引用。其次,学者 - - - - - -索引值和合作网络的PageRank值可以反映学者自身的能力。与此同时,学者的趋势 - - - - - -索引值也可以描述学者的能力从潜在的学者的角度。受到加速度的概念在物理学中,我们提出一个方法来计算加速度学者的学术能力。原始加速度计算公式如下: 在哪里代表了加速时间, 是速度的时间吗 ,和是速度的时间吗 。
上述公式的基础上,我们定义的学者的学术能力加速如下: 在哪里代表学者的速度的影响不同 , 是学者的 - - - - - -索引值在时间 ,和是 - - - - - -索引值的学者 。 表明学者的加速度的影响 , 学者的影响变化的速度在时间吗 ,和代表学者的速度的影响 。
此外,论文在网络的重要性得分也可以作为测量的质量。我们第一次执行网页排名算法在引文网络计算学术论文的重要性和第一作者论文( , )。在某种程度上,作者的能力可以在很大程度上反映了论文的质量。随后,我们测量的影响合作伙伴的能力和他们的背景,揭示了纸的质量。三个参数包括论文总数、总引用,合作者的平均引用最直观的参数用来测量合作者的能力。然后,基于上述三个参数,我们可以得到合作伙伴的的总和 - - - - - -索引值,最大的 - - - - - -合作者的索引值,最小的 - - - - - -索引值的合作者,伴侣的平均水平 - - - - - -索引值。此外,我们将获得学者和相应的之间的区别 - - - - - -索引值。
除了评估合作者的影响,研究背景和学者之间的差异本身是用来测量纸的质量。我们描述的学者之间的差异和他们的合作者在两个方面。一个考虑因素是信息机构和国家的差异,另一个是不同学者的研究的方向。我们在论文中关键词的信息索引代表学者的研究方向。具体来说,合作者之间的区别可以测量的信息熵。此外,学者们的研究方向之间的差异考虑进去。具体计算过程如下: 在哪里 , ,和代表学者组织的区别他们的合作者,国家,和研究方向。是这个词的频率出现在所有合作者的信息,单词的总数吗 。 是这个词的频率出现在所有合作者的国家信息,单词的总数吗 。 词的频率在所有合作者的论文关键词信息,和的总数是 。
最后,我们假定学者的写作风格随他们的学术年龄的增长。随着学者进入学术界,他们的写作技巧和论文的质量将会大大提高,和他们的写作风格也将改变。在这个工作中,由于数据的局限性,而不是原文,我们分析的抽象信息提取功能相关学者的写作技巧。考虑到我们的框架的效率和准确性,我们将文本抽象数据转换为一个低维空间。表示学习算法可以自动学习等信息的抽象表示。在自然语言处理中,表示学习可以提取隐藏在文字的内在特性,段落或章节。表示学习的一个优势是,它可以将数据转换为一个低维向量同时保留原始数据的基本特征。因此,根据词代表学习的算法,我们代表抽象的信息,将它转换为一个低维稠密向量作为输入的预测算法。
表示我们选择学习算法是一种基于称为paragraph2vec表示算法,可获得理想的结果的过程中简短的文本数据(41,42),它可以短信息更有效地学习。这个算法的细节将在下面描述。第一部分的算法来表示单词。它映射到一个矩阵的每一个字和索引的元素表示这个词在字典里的位置。给定一个训练短语列表 ,这个词向量的目标是最大化平均对数概率,由下列公式计算:
为了解决上面的公式,我们把它转换成下列方程基于将softmax方法: 在哪里是每个输出的非规范对数概率单词并且可以通过以下公式计算: 在哪里和是参数和表示矩阵的列向量提取的总和和矩阵 。
基于上述单词的学习表示向量,段落向量可以被认为是一个单词表示一个上下文的信息缺失。随后,这个词向量和段落向量随机梯度下降法训练。培训后,段落向量可以被视为下游机器学习的输入数据预测算法。总之,可以总结表的复杂因素2。
3.2。预测方法
每个因素的详细计算过程,相关学者在上面描述的时代。接下来,我们将详细具体的预测算法。本文的预测任务可以被定义为预测学者通过数据的真实年龄从学术论文。假设 代表的真实年龄序列学者, 表明代表这些学者从数据集中提取的特征。在本文中,我们将这些特性输入相应的预测算法和获得一个输出函数 ,在哪里代表学者的年龄预测 。我们将详细描述预测算法的计算过程如图1。
摘要本文XGBoost学习算法选择。XGBoost是一个端到端的基于树的可伸缩的方法推广,这是一个改善GBDT算法。由于其优越的效率和精度高,它吸引了越来越多科学家的关注。GBDT算法由多个决策树,和所有的子树都整合到一起的结果得到最终的输出。GBDT算法的基础上,我们详细描述XGBoost算法如下。的第一部分XGBoost的正则化算法学习目标。给定一个数据集 包含样品和特性,树集成模型使用添加剂的功能可以预测输出如下: 在哪里 的向量空间回归树,代表的结构树,将样本映射到相应的叶节点,和是树的叶节点包含的数量。对应于每棵树的结构和叶重 。与决策树,每个回归树每个叶节点,包括连续值代表的价值叶节点。总之,它分为叶子的决策规则树( ),和所有的值对应的叶子( )是总结预测最终结果。为了学习预测模型中的规则,下列正则目标函数是最小化: 在哪里是一个成本函数,可以用来计算预测结果(之间的区别吗 )和实际值( )和是一个常规术语,以避免过度拟合。
欧洲传统的向量空间中使用优化方法不能适用于上述树集成模型;因此,积累方法纳入培训部分。添加功能的目的是提高模型: 在哪里代表的预测结果实例迭代。
随后,该模型优化的快速通过使用第二个泰勒展开方法如下: 在哪里 和 代表的一阶和二阶梯度统计成本函数,分别。为了简化函数、常量可以删除。简化的公式如下:
定义样本集的叶节点的函数 ,然后,把上面的公式通过扩大常规项目如下:
对于一个给定的树结构 ,叶子节点的重量的优化过程如下:
在此基础上,可以获得相应的优化功能。计算过程如下:
上面的公式可以用来评估一个树结构的分数 。
总之,基于我们提出的因素,我们预测年龄XGBoost学者的算法。更重要的是,我们分析每个特性的重要性和影响力,然后计算每个特性的分数。我们的方法的有效性在预测的时代学者将下面的验证。
4所示。实验和结果
在本节中,我们使用Web的科学数据集来评估该方法的性能。首先,我们调查的准确性预测学者之间的年龄每台机器学习算法和比较方法,我们提出的因素。然后,讨论了上述因素的重要性得分。最后,每个方法的预测精度与不完整的数据集验证。我们将首先介绍本文所使用的数据集和比较方法在以下部分。
4.1。数据集
为了预测学者的真实年龄,有必要分析学者的论文。岁起属于隐私信息,很难获得。此外,相同名称的实验的两位学者是一个不可避免的问题。在此基础上,我们选择诺贝尔奖得主和图灵奖获得者数据作为数据集。这两个奖励公布获奖者的具体出生年份的官方网站可以消除错误尽可能。
因为我们专注于学术论文,我们把诺贝尔和平奖和文学奖项的特异性。学者的数据在这一节中来自图灵奖获得者,诺贝尔化学奖,诺贝尔物理学奖,诺贝尔生理学或医学奖得主,和诺贝尔经济学奖。由于学科的多样性,我们从网上获得的数据集进行实验的科学。我们将介绍诺贝尔奖得主的细节和图灵奖获得者,如表所示3。
然后,我们描述中包含的信息科学的网络数据集。网络的科学是一个在线数字图书馆,包含大量的论文数据从不同的学科。科学的论文信息网络不断更新。这些信息主要包括主题、作者、摘要、机构、引用、关键词、期刊、日期、论文类型和资金信息。可以看出,科学全面的网页所提供的资料。根据诺贝尔奖和图灵奖获奖者的名单,我们从网上抓取相应的论文的科学数据库和最后subdataset包含486个学者和38478篇论文。
4.2。基线的方法
调查我们的工作的有效性,我们比较它与下面的基本方法:(一) 算法:适用于处理大量的预测特性之间的非线性关系变量和目标变量。它是一个迭代的决策树算法。算法由多个决策树,树都加起来的结果作为最终输出。(b)SVR: SVR是支持向量机(SVM)的回归模型。SVR与支持向量机的基本框架。它们之间的区别是,支持向量机是针对解决分类问题而SVR是针对解决回归问题。
4.3。评价指标
评估不同的学习算法的性能和因素,提出了四种典型的指标:美(平均绝对误差),日军(平均绝对百分比误差),MSE(均方误差)、ACC(精度),和 。考虑到真实价值和预测价值 ,上述各项评价指标的值可以计算。
4.4。学者预测的年龄
在本文中,我们将影响因素划分为直观的因素和复杂的因素。本文的主要目的是考虑不同学者的研究背景和应用场景。例如,当研究人员无法获得更多的信息来计算复杂的属性,它们可以简单预测的学者利用直观的因素。相反,当研究人员的目标是获得较高的预测精度,可以考虑同时直观的和复杂的因素。因为学者有相同的出生的概率相对较小,我们设置一个空间带的宽度 。当预测结果落入这个区间,预测的结果被认为是准确的。
每个方法在预测的准确性学者们的年龄是探索。其中, , ,和表示只使用性能的直观因素在每个预测算法; , ,和显示使用复杂的因素在不同的性能预测算法; , ,和表明利用直观的和复杂的预测性能因素同时预测的学者。区间的宽度 由 和 这些数字中可以看到。预测结果越接近 预测精度就会越好。从图可以看出2当同时使用直观的和复杂的因素来预测年龄的学者,性能是最好的。具体来说,在每个预测方法,三种方法 , ,和可以获得最高的预测精度。虽然所有属性可以实现最高精度,但其计算复杂性同时也是最高的。然而,应用直观属性的准确性( , ,和 )高于 , ,和 。因此,可以推断,直观的因素是有效的在预测的学者。当研究人员不追求更高的精度,使用直观因素预测就可以简化计算过程,提高预测的效率。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
当学者的出生年是在1920年至1960年之间,它可以观察到,这个区间的预测结果更好。如果一个学者的出生年不在这个区间,有更多的离群值。这主要是因为不完备的数据集。1920年以前出生的学者和1960年之后是学者的占总数的26%。然而,这些学者发表的论文的数量只占14%。这是因为早期的学者是有限的获取知识的方式和学者之间的交流的困难。因此,学者之间的合作的频率小于今天的学者。因此,早期学者的数据在数据库中是不完善的,导致学者的预测错误的年龄。总之,XGBoost算法达到最高的精度都比较方法,预测的结果是最好的方法。
随后,我们使用上述评价指标MSE,梅,日军,ACC,进一步衡量每个方法的预测结果的有效性。其中,MSE、美和日军是用来测量预测结果和真实值之间的差异。它们的值越小,预测性能就越好。相反,代表了预测结果和真实值之间的相关性,和ACC可以显示预测结果的准确性,所以都是值越大,预测精度越好。根据表4,使用XGBoost作为预测算法仍然达到最佳性能。其中,在同等条件下, , ,和比其他的更准确的预测算法。同时,使用所有因素预测的准确性的时代学者仍然是所有方法中最高的一个。的准确性及其算法超过90%价值也代表了高度的相关性预测学者的年龄。
4.5。因素贡献分析
通过上面的分析,每个方法的准确性对学者们的年龄可以验证的预测,而每个因素的重要性和贡献还有待探索。首先,每个特性的重要性计算通过使用机器学习算法的特性的重要性。然后,重叠的方法是用来评估的贡献都直观的因素和复杂的因素。重叠的方法包括两种情况:(1)只使用一个因素来预测(添加);(2)删除一组预测因素和使用剩下的因素(减法)。基于这两种情况下,上述两种因素的个人贡献的整体预测任务可以探索。
根据上述实验结果,学者们的年龄预测的准确性是最高时直观的和复杂的属性组合利用XGBoost算法。因此,我们主要分析每个因素的重要性方法。XGBoost算法,等于一个特征的重要性决策树分裂的节点的数量。数据3和4显示所有因素的重要性。从上述结果,直观因素的整体重要性分数高于复杂因素,和学者发表第一篇论文的时候是最重要的特性。具体来说,十大功能 , , , , , , , , ,和 。根据他们的排名,学者的学术年龄也是非常重要的预测真实年龄的学者,和论文的数量和影响的合作者对预测他们的年龄也是至关重要的。不同于之前的研究,我们也考虑本文研究资金的影响。实验结果表明,该类型的研究资金也有一定的影响的预测学者的年龄。
随后,刀切法应用于执行这两种因素的贡献分析。如图5直观的因素是移除时,明显的准确性预测结果是显著降低。这个结果显示直观的属性的重要性在预测的学者。然而,当复杂的因素是,精度略有下降。这个结果也证明了直觉的重要性因素在另一边。当因素的类型增加,明显改善后的准确率的直观因素也可以观察到。本文验证了直观的因素起着重要的作用在预测学者从多个角度的年龄。总之,当研究人员没有更高的精度要求为学者的年龄,他们可以使用直观的因素有学者的快速估计的年龄范围。
(一)
(b)
(c)
4.6。预测结果在不完整的数据集
由于学术的动态特性数据,确实存在没有准确地包含所有论文信息的数据集。因此,不完整的数据会影响实验的结果。完整的数据集在这工作是指整个出版物的数据我们从我们的数据库获得的学者。和不完整的数据集是指失踪的几篇文章的学者。为了研究不完整的数据集上的实验结果的影响,我们随机移除10%和30%的每个学者的论文数据集,然后预测学者的年龄。
从图可以看出6,当数据被删除了10%,每种方法的预测精度降低,但差异不明显。进一步证明实验结果,我们计算了MSE,梅,日军,ACC,值为每个方法。如表所示5,每个方法的精度有所降低,与不完整的数据集。因此,当有少量的缺失数据的数据集,对实验结果的影响并不显著。随后,然后删除了30%的数据。如图7和表6,精度显著降低的情况下失踪的30%数据预测结果相比,使用完整的数据集。可以推断,大规模缺失的数据将导致严重影响实验结果和验证的方法。在所有的方法中,XGBoost算法的预测精度仍然是最高的。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
5。结论
相关研究表明,学者的实际年龄在评估和预测他们的科学中扮演着关键角色的影响,因为隐私问题,年龄数据难以直接获得。受这一事实,本文我们主要的目的是预测学者通过学术文章的年龄信息。为了解决这个问题,我们首先探讨年龄因素影响的学者。考虑到不同研究背景的研究人员和不同的应用场景,影响因素分为两类计算复杂度,是直观的因素和复杂的因素。然后,我们将文本数据转换为一个低维向量表示学习方法,和机器学习算法用于预测学者的年龄。
由于难以获得真正的学者和年龄的名字歧义问题,我们爬诺贝尔和图灵奖获得者的年龄数据来验证我们的方法的有效性。基于列表的赢家在诺贝尔化学奖,诺贝尔奖生理学或医学奖,诺贝尔经济学奖,图灵奖获得者,他们的论文从网络获得相应的科学数据库。实验结果表明,预测的准确性学者的年龄是90%以上采用本文提出的方法和直观的因素和复杂因素的组合显示最佳的性能当预测学者的年龄。与此同时,单独使用直观因素的准确性高于复杂的因素。在所有的因素中,学者发表第一篇论文的时候,最后一个纸的时候,和他们的合作者是最相关的因素的影响。此外,我们的方法的性能仍然是最好的在所有基线尽管不完整的数据集。在未来,我们将进行更广泛的各种各样的实验数据集从学科来证明我们的工作的有效性。
数据可用性
诺贝尔奖和图灵奖获奖者可以获得特定的出生年份从他们的官方网站(https://www.nobelprize.org/和https://amturing.acm.org/byyear.cfm)。根据诺贝尔奖和图灵奖获奖者的名单,我们访问相应的论文信息科学的Web数据库(http://www.webofknowledge.com/)。出版的数据用于支持本研究的发现可以从相应的作者以合理的要求。
的利益冲突
作者宣称没有利益冲突有关这篇文章的出版。
确认
作者要感谢每个人在阿尔法实验室的大连理工大学特别是施Weixin在撰写本文的过程中有价值的贡献。这项工作得到了中国自然科学基金批准号。71904022和71904022为中央大学和基础研究基金批准号DUT20RC 026 (4)。