文摘

计算机科学学科包括许多研究领域,相互影响,促进彼此的发展。这带来了两大挑战预测各研究领域的研究课题。一个是如何建模研究领域的细粒度话题表示。另一个是主题如何建模研究的不同领域,保持语义的一致性研究主题当学习其他相关领域的科学影响上下文。不幸的是,现有的研究主题预测方法不能处理这两个挑战。要解决这些问题,我们使用多个不同的递归神经网络链模型研究主题不同的领域和提出一个研究主题预测模型基于空间注意和语义consistency-based科学建模的影响。空间的关注是受雇于领域话题表示可以有选择地从字段中提取的属性主题区分领域主题属性的重要性。语义consistency-based科学影响建模研究主题不同的字段映射到一个统一的语义空间来获得其他相关领域的科学影响上下文。广泛的实验结果在五个相关研究领域计算机科学(CS)纪律表明,该模型比最先进的方法和实现良好的主题预测性能。

1。介绍

近年来,随着计算机科学技术的迅速发展,在许多研究领域的论文数量的计算机科学学科已迅速增加。这些研究领域相互影响和促进自己的发展1]。跟踪的研究进展和预测的研究课题趋势这些研究领域具有重要意义。科技创新具有重要的参考价值决策(2),帮助指导政府机构制定科学的发展战略和方针政策。它也是具有重要意义的研究人员跟上快速发展的研究(3]。

越来越多的出版物和快速变化的研究趋势很难跟上不同研究领域的科学研究的发展趋势。近年来,跟踪和理解进化的科学研究课题吸引了广泛关注4,5]。例如,基于信息检索的数据集出版物,陈等人研究主题发展趋势,通过分析话题演化动力学,和语义的单词(6]。主题演化算法,包括主题分类和主题依赖关系计算(7)有效地发现重要的主题和反映进化的重要研究课题。Soumya等人提出一种有效的方法来发现科学的发展趋势采用基于主题分类的学术出版物(8]。然而,小的努力已经取得了预测未来趋势的研究主题。现有的预测方法对未来主题主要是基于专家的评估。在本质上,预测未来的趋势研究课题是一个时间序列预测问题[9- - - - - -11]。一些研究已经进行预测未来趋势的研究课题。例如,传统的时间序列预测方法ARIMA (12)被用来预测会议论文的研究主题的发展趋势在计算机科学的学科,它包含在17年共有5982篇论文。萨曼等人构建一个科学知识网络通过使用关键字的文章在计算机科学期刊和会议和使用链接预测方法来预测未来的结构关键字网络(13]。随着深度学习的发展,一些复发性神经网络格勒乌和LSTM等都进行了广泛的研究了序列建模(14- - - - - -16)和应用在进化过程中分析和预测任务(17,18]。例如,陈等人以计算机会议为研究对象19]部署格勒乌模型主题序列和提出一个相关的神经影响(圆锥)模型。具体来说,复发性神经网络编码研究主题会议进入一个隐藏的状态是一个密度和低维向量(每个维度代表会议主题)的一个属性特征捕捉会议的研究兴趣。同时,CONI验证未来会议主题趋势受到同行会议和模型的科学影响力的会议主题通过计算会议和同行之间的相似的主题会议。

然而,上述方法的研究主题序列建模基于递归神经网络不区分不同属性的重要性领域的研究课题。直观地说,每个属性字段的主题不是同样重要。更重要的是,不同领域的研究主题也不同,应由不同的递归神经网络建模。现有科学顺序递归神经网络建模的研究课题利用模型的所有字段相同的序列递归神经网络链,共享相同的参数,导致贫困话题预测精度。所以,主题的不同序列递归神经网络研究领域应使用不同的区别。,受语义一致性建模(20.,21),当使用相关领域的研究主题模型的科学影响的研究主题领域,我们需要变换成一致的语义空间来计算相似度。

基于上面的讨论,提出了一种基于空间的关注和研究主题趋势预测模型语义consistency-based科学影响建模(SASC)。SASC雇佣了多个不同的RNN链,有自己的参数模型研究不同领域的主题。空间关注雇佣了一个self-attention网络来产生不同的空间注意重量来区分不同属性的重要性的话题在不同的研究领域,可以学习细粒度话题表示。语义consistency-based科学影响建模一个线性变换适用于实现语义一致性学习。它将研究主题的每个字段映射到一个一致的语义空间,获得科学影响上下文通过计算相似的主题领域及其相关领域。

本文的贡献如下:(1)我们提出一个主题的表示方法不同领域基于空间的关注。空间的注意机制赋予不同的权重的不同属性字段的主题来区分每个属性的重要性表示实现细粒度的话题。(2)我们使用多个不同的RNN链模型不同领域研究课题并提出语义consistency-based科学影响建模方法,可以研究主题不同的字段映射到一个相应的特征空间模型不同领域之间的互动的科学影响上下文语境提高科学的质量影响。(3)我们提供一个研究课题的预测数据集包括五个领域的出版物计算机科学纪律和将向公众开放。我们在数据集进行实验证明提出的主题预测模型的有效性。实验结果表明,该模型可以大大提高预测精度的话题。

本文的其余部分组织如下:部分2讨论了相关工作,以及部分3描述了预赛。部分4介绍了研究课题的趋势预测模型基于空间和语义consistency-based科学影响建模细节的关注。部分5报告的实验结果和分析,我们总结这部分工作6

2.1。科学研究趋势预测

研究趋势预测,人们做了一些探索。首先,引用预测被广泛研究。例如,基于高被引论文的特点,燕等人应用预测回归模型研究有趣的引用计数(22]。李等人使用同行评审的综合语义表示数据学习论文建立神经预测模型提高引文预测的性能(23]。第二,预测话题吸引了许多学者的兴衰。普拉巴卡兰等人训练主题模型和修辞功能分类器主题模型映射到他们的修辞作用。它证实这个话题的修辞功能是高度预测最终的增长或下降(24]。而不是主题,概念是用来构建一个模型来预测他们的上升和下降的趋势(25),考虑到修辞功能。此外,其他类型的科学研究趋势预测的任务也受到关注。例如,Rotolo)等人如何分类技术定义为“新兴”技术,确定五个特征的新技术的出现26),用于检测和识别的主要实证方法研究新兴技术。跨会话用户行为研究[27]揭示各种行为信号之间的相关性,建立一个专门的下载的预测模型。谢提出一种学习模型(28)来预测人员的数量的合作者拟合的演变趋势的研究人员的数量的合作者。提出了一种两步解决方案来解决新兴主题预测问题。在第一步中,介绍了未来流行得分,这是一个新的指标反映的影响和经济增长预测候选主题。第二步选择候选人的流行小说主题域特色主题(29日]。本文研究主题的预测科学研究和提出了一种预测模型的研究主题。

2.2。以时间序列预测

注意机制已广泛应用于时间序列预测任务。目前,以时间序列预测的一个关键问题是代表和学习时间序列的时空关系。研究人员采用基于注意机制从不同的应用程序的角度不同的时空特征。采用反向时间关注模型使用电子健康记录数据,从而达到预测精度高,同时保持可解释性[30.]。基于两级神经机制,注意递归神经网络用于预测地理传感器的读数(在接下来的几个小时31日]。它认为多个传感器的数据,气象数据和空间数据预测空气质量和水质。的有效性引起递归神经网络(RNN)短期和长期预测的溶解氧进行了研究,系统地讨论和比较溶解氧预测方法的应用基于空间注意,时间的关注,时空的独立的关注,和时空联合的关注[32]。施等人提出一种新颖的端到端引起Periodic-Temporal神经网络(33捕捉空间,短期和长期循环依赖,实现准确的交通预测。多级关注时空图提出了网络流量预测模型(34)动态捕捉相同的空间相关性要求社区和不同的社区。此外,注意机制是用来提取动态时间依赖。一般来说,不同时间序列预测网络基于注意机制可以应用于不同的任务。本文研究不同领域的特点注意机制在计算机科学,实现精确预测不同领域的研究主题。

2.3。科学影响建模

测量科学的发展的影响是非常重要的科学和资源配置。一些科学影响h指数等指标(35]和g-index [36)提出了评价学者或期刊的影响。朱等人介绍了j-index [37)模型主题水平学术影响力根据每篇文章的新颖性和引用文章的贡献。提出了一种新颖的方法来量化出版物的高阶引证影响量化和可视化引文流在学科和评估他们的程度的多科性考虑两个直接和间接引用(38]。胡等人构建time-aware加权图(39)量化建立链接的重要性在不同的时间融合丰富的信息相互强化排名框架同时多重天体的未来影响排名。上面的方法不使用的科学探索主题预测影响未来的研究趋势;只有少量的研究探索了这一主题。相关的神经影响(圆锥)模型(19)提出了整合的科学影响同行会议预测研究会议的主题。证明同行会议会议有重要影响的未来预测会议的主题。然而,它并不考虑不同的会议主题的语义空间一致性建模时的科学影响上下文同行会议,导致影响环境质量差。通过映射主题从不同研究领域一致的语义空间,我们可以提高科学的质量影响环境,实现更准确的预测研究课题。

3所示。预赛

3.1。递归神经网络

递归神经网络(40](RNN)可以处理文本数据的长期有序的输入序列。它模拟人的顺序读一篇文章,读每一个字从开始到结束,并将有用的信息编码为状态变量,它有一定的记忆能力,并且可以帮助更好地理解后面的文本。

在香草RNN模型中,有一个严重的问题在培训的过程中;也就是说,梯度消失或梯度爆炸。为了解决这个问题,LSTM [41和格勒乌42提出了]。香草RNN的结构、LSTM和格勒乌图所示1

在图1(一), RNN的输出,计算公式如下: 在哪里 代表的元素的步骤t在输入序列 分别是,RNN的输出的吗tt−1时间步。U,V,W是参数。

在图1 (b),门机制的存在使LSTM序列中的长距离依赖视觉模型。通过学习门参数,网络可以找到适当的内部存储行为。的计算公式如下: 在哪里 是参数。

在图1 (c),格鲁只有两个门,重置门R和更新门ZRZ共同控制如何获得新的隐藏状态 从之前的隐藏状态 的计算公式如下: 在哪里 是参数。

3.2。注意机制

注意机制是广泛应用于各种任务的自然语言处理(NLP)基于深度学习。Bahdanau等人的注意机制应用于机器翻译任务(第一次43]。然后,注意机制的神经网络已成为一个研究热点。注意力是指注意提取句子注意信息的使用没有任何额外的信息。注意机制在各种任务也取得了良好的效果。它有一个非常良好的性能在许多NLP的任务。

的本质的关注可以被描述为一个输入的映射(查询)(键-值对),如图2。第一阶段是计算之间的相似性查询和每个键的重量。共同的相似功能点积,拼接,感知器等等。第二阶段是通过将softmax规范化这些权重函数。最后,重量和相应的键值加权得到最终的输出。目前,在NLP的研究中,键和值通常是相同的;也就是说,键=值。

4所示。研究课题预测模型基于空间注意和语义Consistency-Based科学建模的影响

4.1。问题定义的预测模型

对于一个特定的研究领域,研究主题的话,可以充分反映该领域的研究热点。在这工作,研究主题是词的代表名词或形容词,频繁的出现在这一领域的论文。例如,对于研究领域在一年t,我们收集所有这个研究领域的论文的标题,将停止词,然后用单词词频大于1为研究主题。

收集的文件P= {f1,f2、…fn}在计算机科学学科涉及n字段,fi代表了th研究领域。的词汇量大小P 在一个炎热的向量 被用来代表主题句tthfi场, = , 是归一化词的频率 , 计算如下: 在哪里 是词的频率的话题单词 fi场和全国矿工工会是所有的主题句的数量吗fi字段。

研究课题的预测是基于历史观测数据来预测未来的研究主题。这可以作为时间序列预测问题制定如下。

给定一个炎热的向量 ,的研究课题,分别代表fi在一年t和年t+ 1。鉴于 作为模型的输入,我们的目标是学习一个映射函数的预测等 ,导致一个精确的主题的预测精度 换句话说,模型训练预测目标主题系列t基于功能+ 1时间步系列从过去t时间的步骤。主题预测模型优化的近似分布预测的话题 目标主题分布

在计算机科学学科,一个领域的研究课题与其他相关领域的发展将会改变。领域的研究课题t+ 1应该预测之前,根据自己的研究课题t+ 1年之前和相关领域的研究课题t。复发性神经网络编码领域研究课题进入一个隐藏的状态是一个密度和低维向量来表达每个领域的研究兴趣。每个维度的代表一个属性特征领域的话题。每个属性的重要性每个研究领域的主题是不同的。代表每个领域的研究主题的时候,我们应该区分每个属性的重要性不同的研究领域的主题。

同时,不同的领域有不同的研究主题,属于不同的语义空间。选择相关领域的科学影响上下文时,应充分考虑语义空间的变换来获得最优科学影响上下文。因此,本文基于递归神经网络,我们采用多个不同RNN链有自己的参数模型研究主题不同的领域和提出一个主题预测模式基于空间注意和语义consistency-based科学影响建模(SASC)来提高预测精度的研究主题。模型如图3

4.2。空间引起连续建模领域的研究课题

为了跟踪每个领域的研究进展和探索其序列特征,RNN部署模型研究主题序列。需要研究课题的当前时间作为输入和迭代步编码研究课题进入一个隐藏的状态来捕捉这一领域的研究课题。所有领域建模的序列递归神经网络由多个链。假设有三个研究领域,,j,k;将字段为例,介绍了我们的模型更新如何隐藏的状态根据历史研究主题的研究主题。

考虑到主题序列的研究领域, ,在哪里 的研究课题是吗t年的研究领域 字嵌入矩阵 是用来变换 成一个密集的低维向量时为了避免维度的诅咒,词汇量的大小增加 的研究课题tth年的研究领域是由 在哪里 。研究主题嵌入 作为输入,隐藏的状态 捕获的研究主题的在一年t是迭代更新。计算如下: 在哪里RNN有不同的变体,如香草RNN、格勒乌和LSTM,在这项工作中,我们使用LSTM。每个维度的 代表不同的功能属性领域的话题。人工智能领域的研究课题为例。研究课题可能受到多种因素的影响,如频率和流行话题。不同的特征属性有不同的影响最终的主题表示,不能平等对待。所以,我们采用空间注意计算注意重量来区分每个属性字段的主题的重要性。空间注意机制是部署到传统RNN-based主题序列建模来区分每个属性的重要性序列的研究课题。因为任何属性值在任何时候都有其相应的重量,主题领域的代表在空间关注权重之后 同样,研究的主题t -1th年的研究领域j和现场k可以用 计算在 在哪里 , , , , , , , hyperparameters。

4.3。科学影响上下文建模基于语义一致性

在一定领域,复发性神经网络部署到捕捉这一领域的研究课题(44]。未来的研究课题领域将受到其他相关领域的研究课题。因此,除了跟踪领域内的研究课题,我们还需要跟踪相关领域的研究主题和计算影响上下文的其他领域。通过关注的部署机制,我们可以有效地选择相关领域的科学影响上下文(45]。科学基于语义一致性的影响建模如图4

的研究主题tth年的领域 预测未来的研究主题,科学影响上下文的研究主题t−1th年的相关字段,字段应该学习。事实上,对于字段jk, ,分别表达他们的研究主题t−1th的一年。此外,由于不同研究主题的不同领域,其语义空间不在可比空间。在计算科学领域之间的影响,我们需要将它们映射到类似的语义空间,然后计算出影响上下文,以确保最佳的选择影响上下文。因此,我们基于语义空间模型影响上下文的一致性。

首先,我们地图 , , 相同的语义空间的线性变换。因此, , , 是改变了 , , 计算如下: 在哪里 是参数。

然后,领域的影响jk现场 ,计算如下: 在哪里 是一个elementwise乘法。影响字段之间的关系表示为矩阵g .据推测研究主题领域的进化受到所有相关领域的研究课题。 ;G显示字段受到所有相关字段。所以,如果 , ;否则, 与此同时,我们学习一个影响参数向量 代表的力量影响领域j。科学影响环境 领域的研究课题计算如下:

然而, 不属于一致的语义空间,所以我们地图吗 这是在一致空间吗 在融合之前。 在哪里 是一个参数。

将softmax函数用来输出的预测分布的研究主题 字段在下一个时间步t+ 1。隐藏的状态 和影响上下文向量 连接和美联储将softmax预测如下: 在哪里 是参数。

4.4。培训主题的预测模型

我们使用泛化的多项物流损失为目标函数为方程(13),这样可以最大限度减少Kullback-Leibler散度(46)之间的词分布预测话题 和真正的词分布 在哪里年代是指一个特定的研究领域和是相关研究领域年代。模型训练通过最小化损失的研究课题序列的研究领域。我们使用反向传播算法来优化参数。

5。实验结果和分析

5.1。数据集和预处理

我们爬的数据出来了1从2006年到2020年在各个领域的计算机科学学科,共有319078篇论文。我们从五个领域:论文摘要计算和语言(CL)、计算机视觉和模式识别(简历),机器学习(毫升)、信息检索(红外)、人工智能(人工智能)。一篇论文的题目最能反映论文的主题。所以,我们只使用每个论文的标题作为文本主题提取单词训练主题预测模型。具体地说,我们先删除停止对每个研究领域的论文,然后统计每个单词出现的频率在每一个研究领域,最后使用频率大于1的单词作为主题。统计数据如表所示1

5.2。评价指标

为了评估模型的预测性能,预测的真正主题词汇和话题词汇评估是基于以下指标:(1)根均方误差(RMSE),RMSE根均方误差测试集。 在哪里代表了研究领域,t代表一年, 是真正的主题分布的在一年t, 是主题词汇范畴的预测分布研究吗在一年t(2)Precision@n。在预测n主题的话,正确的预测概率如下: 在哪里 主题文字的数量预测正确吗 是主题的数量预测错误。

5.3。比较的方法

我们比较方法和四种预测方法。第一种预测方法是经典的时间序列预测方法ARIMA (47]。主题是第二种预测方法基于递归神经网络预测方法LSTM和格勒乌。第三种预测方法是encoder-decoder-based研究主题的预测,我们参考文献(48]。Encoder-decoder-based预测研究课题包括encoder-decoder(不可或缺)[49],DARNN [50],Temp-Attn-RNN [32]。四种预测方法是一个主题预测方法基于相关神经影响(圆锥)建模19]。(1)经典的时间序列预测方法。(1)华宇电脑。华宇电脑是一个广泛使用的时间序列预测方法。对于每一个研究领域,每个主题的频率动态词在每年被视为时间序列,分别和ARIMA预测明年每个单词的频率。(2)基于递归神经网络的预测方法。(1)LSTM。主题预测模型基于LSTM模型的研究主题每年每个字段的时间序列,并使用封闭的单位来捕获长期依赖主题预测的过程。(2)格勒乌。主题预测模型基于格勒乌LSTM合并不同的单位,也结合了细胞状态和隐藏的状态,从而导致更少的参数和容易收敛和适用场景和少量的数据。(3)基于encoder-decoder预测方法。(1)不可或缺。这种方法最初是用于机器翻译,我们部署它来预测不同领域的研究主题。它编码领域主题成固定长度的向量,译码器负责预测未来的研究课题。(2)DARNN。DARNN是一个双阶段引起RNN encoder-decoder为单步时间序列预测。它采用多层感知器注意捕捉空间相关性和长期依赖性。(3)TARNN。encoder-decoder方法基础上,采用了一种时间注意机制的隐状态编码器获取和学习更健壮的时序关系。(4)主题预测方法建模基于相关神经的影响。(1)公正的。相关神经影响(圆锥)建模可以整合科学相关领域的影响,共同话题演化模型的递归神经网络相关领域在一个统一的框架。我们使用LSTM主题不同领域的时间序列模型。

5.4。实验设置

我们对待第一个2006 - 2019年的数据作为训练集,2020年的论文作为测试组,训练模型的过程中,我们使用的数据从2006年到2018年的数据来预测2019年预测模型训练的研究主题。我们被阻止的话所有的数据。这个词嵌入pretrained基于计算机科学的各个领域的319078篇论文。Word2Vec的实现就业。特别是,我们采用skip-gram维度设置为100,窗口大小,最小数到5,10的二次抽样的阈值−2。skip-gram模型训练5次迭代目标语料库。该网络是使用PyTorch框架实现。亚当优化器是用于训练网络。我们采用辍学技术来防止过度拟合。其他参数是解决的最好的表演在实验中。

5.5。比较不同的主题预测模型

在本节中,我们给传统的时间序列预测模型的预测结果ARIMA、主题基于递归神经网络预测模型LSTM格勒乌,encoder-decoder-based主题预测模型不可或缺,TARNN, DARNN,主题预测模型。RMSE主题预测精度,平均精度,平均RMSE基线,和该方法SASC五个研究领域如表所示23

2显示了我们的RMSE值和平均RMSE值方法SASC和基线5计算机科学学科的研究领域。从表中可以看出,SASC的RMSE值和平均RMSE值在所有的研究领域都是最小的,除了RMSE值SASC CL领域不如ARIMA。它可以得出结论,在培训的过程和优化我们的SASC提出模型,预测话题的分布逐渐趋于主题分布的真正的研究领域。这表明我们提出的主题预测模型是有效的。

3展示了主题预测精度和ARIMA的平均精度格勒乌,LSTM,不可或缺,TARNN, DARNN,圆锥,SASC。从表中可以得出,主题预测模型的精度明显高于ARIMA基于递归神经网络,这表明主题序列使用递归神经网络建模是有助于提高预测精度的话题。此外,主题的精度预测模型基于递归神经网络优于基于encoder-decoder。主题的精度预测模型基于相关神经影响()建模类似于主题基于递归神经网络预测模型。SASC远远超过主题的精度预测模型基于相关神经递归神经网络建模和影响。CONI和RNN-based主题预测模型之间的区别是,CONI认为这一领域的研究课题是受其相关领域和模型科学影响上下文。SASC和公正的区别在于SASC不仅认为科学的背景下,在相关领域的影响力也认为主题空间在不同领域的一致性。也就是说,不同的领域有不同的主题空间,需要分别建模。这表明尽管CONI认为科学影响上下文建模,这个话题不大大提高预测精度,因为它没有考虑到研究主题在不同领域应该属于不同的主题空间。SASC有效预测研究主题的不同领域采用多个不同RNN链捕捉主题不同的研究领域和使用空间注意机制模型的代表性领域的主题和不同的领域主题映射到一个统一的语义空间上下文获取科学的影响。

接下来,我们报告的平均精度的变化曲线(Precison@10, Precison@20、Precison@40 Precison@60)和平均RMSE五个研究领域的主题预测模型ARIMA格勒乌,LSTM,不可或缺,TARNN, DARNN, CONI,和SASC越来越多的迭代。变化曲线如图5

从图可以看出5(一个),开始训练模型,每个模型显示的主题预测精度的趋势迅速改善。当迭代次数达到一定数量时,这个话题预测精度SASC仍在提高,而其他预测模型的精度是稳定的。数据5 (b),5 (c),5 (d)反映了同样的规则如图5(一个)。可以得出结论,SASC结合语义一致性的科学建模和空间的关注领域主题表示具有较高的预测精度。

6显示的平均RMSE每个主题的变化预测模型在五个研究领域随着迭代的数量的增加。从图可以看出6,随着迭代次数的增加,每个模型的平均RMSE五个字段显示一个下降的趋势,和RMSE SASC下降最快的。这表明,我们的模型SASC具有良好的预测表现主题。

5.6。烧蚀研究

为了进一步验证SASC的有效性,我们进行比较的变体SASC如下:(1)SASC没有空间注意(SASC-SA):评估multi-RNN领域主题的影响表示基于语义consistency-based科学对模型性能的影响建模,我们评估的性能变异时不使用空间注意的SASC预测研究的话题。通过消除空间的注意,该模型不能区分的影响因素领域研究课题表示。该模型采用多个RNN链来表示不同的主题和地图研究领域主题的每个字段一致的语义空间,然后是科学领域中影响上下文建模通过计算主题相似。我们称这种模式为SASC-SA。(2)SASC没有语义一致性(SASC-SC):评估基于空间领域主题的影响表示关注模型的性能,我们评估的性能变异的SASC不使用multi-RNN领域话题表示基于语义consistency-based科学影响建模建模时科学影响上下文相关的字段。这个模型使用空间注意区分的属性字段研究课题的重要性。我们称这种模式为SASC-SC。

我们比较的精度SASC、SASC-SA SASC-SC在每个字段和五个领域的平均精度。实验结果如图所示7。与此同时,我们也比较SASC的RMSE, SASC-SC, SASC-SA在每个研究领域和的平均RMSE五个领域。实验结果如表所示4

7显示SASC的精度比较的两个变体。的性能SASC-SC和SASC-SA比SASC。我们相信SASC-SC使用空间注意区分不同领域主题的每个属性的重要性。但它不能解决问题,研究主题的空间不同的研究领域是不一致的。所以,SASC-SC比SASC的性能。SASC-SA首先采用多个RNN模型不同的研究领域和地图研究这些不同领域的主题一致和相似的语义空间。所以,科学影响上下文可以通过计算主题研究领域之间的相似性。然而,它忽略了不同属性的重要性专题领域的表达主题,所以话题预测的精度比SASC。SASC使用空间注意区分领域主题属性主题表达的重要性,采用多个RNN链来区分不同领域的研究主题,基于语义一致性和模型科学影响上下文的主题,以获得最好的主题预测性能。

4显示RMSE和平均RMSE话题预测模型SASC有两个变种的五个研究领域。的RMSE和平均RMSE SASC-SC和SASC-SA都高于SASC完整的模型。这进一步显示了我们的模型SASC的有效性。

5.7。案例研究:研究主题趋势预测的有效性

在这一部分中,我们使用最好的主题预测模型SASC 2020年预测三个领域的研究主题,给真正的主题在2020字。如表所示5可以看到,我们的模型预测精度高的话题与真正的主题2020年五个研究领域。

6。结论

在本文中,我们使用多个不同的RNN链模型不同领域的研究主题和提出一个研究主题预测模型基于空间注意和语义consistency-based科学建模的影响。基于主题特征序列递归神经网络的建模方法,采用空间注意区分不同的主题特征的重要性的研究领域来表达一个字段的细粒度的研究课题。基于主题的表达在不同的研究领域,语义consistency-based科学影响建模用于研究主题不同的字段映射到一个类似的特征空间来提高科学影响环境的质量。具体地说,研究主题在不同的研究领域在不同的语义空间,并映射到一致的语义空间模型交互式环境科学的影响。实验结果在计算机科学学科五个研究领域说明了模型的有效性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国国家重点研发项目(2018 yfb1402600)和中国国家自然科学基金(国家自然科学基金委)(批准号。61772083,61772083,61877006)。