文摘
科学出版物的数量呈指数级增长。研究文章引用其他工作由于各种原因,因此,关联文档已经被广泛的研究。认为不是所有引用相同级别的重要性。有必要理解引用的原因,称为引用的目的或功能。文本信息可以提供如果新的自然语言处理技术应用于捕获文本数据的上下文。在本文中,我们使用了更符合实际的词嵌入文本特征的数值表示。我们进一步研究了各种机器学习技术的性能的数值表示文本。每一个分类器的性能评估是两个最先进的数据集包含的文本功能。在不平衡数据集的情况下,我们观察到的线性支持向量机(SVM)“背景”类的准确率达到86%,训练是广泛的。剩下的课程,包括“动机”,“扩展”和“未来”这台机器是训练少于100条记录; therefore, the accuracy was only 57 to 64%. In the case of a balanced dataset, each of the classes has the same accuracy as trained on the same size of training data. Overall, SVM performed best on both of the datasets, followed by the stochastic gradient descent classifier; therefore, SVM can produce good results as text classification on top of contextual word embedding.
1。介绍
科学文章出版的增长使得发现重要的是,相关研究人员研究困难。引用识别影响力的研究一直是研究[1]。然而,并非所有的研究文章中的引用扮演相同的角色。引用研究的一篇文章可能有不同的原因,因此,亲缘的强度可能会有所不同。一些和Murugesan2)认为,大部分的引用在文章理解工作和提供有关研究问题的背景知识。Teufel et al。3)分类与积极引用分为三个阶级,弱,或中性与引用论文的关系。更加与众不同等。1)称,该引用也许六种不同的原因,这些类别的相关性的强度不同。
已经进行了各种尝试为了理解引用的原因和意图。最近的技术深度网络用于阅读的引文上下文引用(4- - - - - -7]。他们设定一个窗口提取引文上下文。窗口边界通常包含引用的段落。它可能还包括之前和之后的句子。引文上下文给出图的一个例子1拟议的方法引用,被引用的比较工作。
其他方法使用的书目信息研究的文章,它创建了一个网络引文在边缘节点相互连接的引用(9]。这些方法合理找到引用文件之间的关系,但通常不能提供的原因引用,因为它们给每个引用同样的重量。元已经广泛使用了引用目的提取。研究基于文本的功能是有限的统计相似性的文章和通常不研究这些特性的内部环境(10]。自然语言处理方面的新进展,尤其是文字嵌入,使它能够理解文本上下文和标签他们意图的一个类(11]。
本文评估的分类方法在将文本信息转换为数值表示。我们使用计算Linguistics-Anthology协会参考语料库(ACL-ARC)和科学引文(SciCite)数据集,在下一节中所讨论的,提取文本特征相关的文献记录。分类的终极目标就是找到引文意图基于我们选中的文本特性列表。实验表明,线性支持向量机(Linear-SVM)分类器在两个数据集都表现不错。我们也评估了分类器的预测个人引用目的类。结果表明,该算法表现良好,特别是对于那些类预测的训练集是巨大的;例如,在Linear-SVM的情况下,“背景”类有一个F1分数的86%,而其他类,包括“未来”和“扩展”65%和61%,分别。本研究的总体目标包括以下:(1)理解文本的引用目的分类特性的影响在使用上下文编码(2)评估结果和比较分类模型引用意图标签(3)理解训练集规模的影响分类器对个人的biasness引用类(4)利用引文的作者和标题意图分类
剩下的纸是组织如下:在部分2介绍现有的引用目的分类方法和标记类的数目。部分3论述了提出研究框架。每个步骤的细节部分进一步讨论的部分3。部分4评估的分类模型和比较结果。最后,我们总结我们的研究5。
2。相关工作
引用的意图,也称为引用或引用函数的原因,长期以来一直研究分析本文研究的关系。随着每一篇文章,平均40引用和随着时间的推移,在研究论文的引用文章的数量增长(12),有必要理解为什么一篇论文被引用。本节讨论各种尝试识别引用的原因。
罗马et al。4]上下文嵌入用于捕获的上下文中引文上下文。他们使用一个自动化的方法注释的未经数据集引用目的,取得了良好的精度,召回,F1的分数。他们还开发了一个庞大的数据集包含一百万标签引文上下文,C2D-I命名。作者声称数据集作为新的先进的数据集来设计新的引用目的的方法。C2D-I注释的意图三个类:背景、方法和结果。虽然他们可以成功开发一个巨大的深度学习所需标签数据集,他们没有任何推荐系统开发识别引用的原因。他们的方法是对数据集注释,而不是引用的原因识别。
哈桑et al。13)提出了一个deep-learning-based方法分类的重要性从列表中引用的引用论文。他们认为,不是所有的引用都有相同程度的相关性。他们使用基于短期长期记忆——(LSTM) (14)深度学习模式区分重要的和不重要的引用。他们还提出了一个基于机器学习的分类模型选择表现最好的功能使用(RF)随机森林分类器(15]。作者列出了14个特征的引文上下文描述引用的原因,除了一个重要的或者不重要的引用。
科汉et al。16)批评预定义hand-engineered特性,比如语言模式提取论文内容和借来的脚手架的想法从Swayamdipta et al。17]。他们认为,可以直接从数据获得更好的表示。他们提出了一个多任务将知识从一篇论文结构框架。他们设计的框架包含了两个任务结构脚手架:(1)预测部分的标题和(2)预测是否需要引用。他们的脚手架也预测引文的引用目的作为背景,方法或结果类。他们还创建了一个SciCite数据集的6627篇论文在11020年由众包。作者将他们的模型与先前的最先进的更加与众不同et al。(1]方法引用目的分类,取得更好的结果在精度方面,回忆,和F1的措施。作者基于模式的功能,包括使用阶段顺序,词类,词汇类别描绘积极或消极的情绪,和具体的类别,如单词“我们”和“较先进的方法。“他们借来的列表模式从西蒙Teufel18)和扩展新发现模式和类别。他们进一步暴露了基于主题的特点,认为主题主题框架可以指出引用函数。例如,引文上下文描述方法更有可能与“使用”功能,而一个引文上下文提供的一些定义是“背景”类。
他们还探讨了典型的参数特性和调查的参数列表反映类的引用。为典型的参数中,他们发现了频繁发生的争论在句法位置。例如,单词“跟随”,“展开,”和“扩展”经常发生“扩展”类的引用。创建一个向量代表一个论点的发生。这些事件的相似性决定的平均引文引用类。详细研究用自然语言处理功能来衡量引用的原因和重要性,并被证明是最先进的研究在这个领域。这项研究表明,作者对话语结构敏感和出版地点时援引的研究论文。
表1互联网提供的列表引用类。桌子上还列出了每个类的数据集。一些引文上下文的例子来自这些可用的数据集,这属于那些引用目的类。
3所示。提出研究框架
在本节中,我们讨论提出研究的各个步骤,如图2。拟议的研究开始于数据流处理和清洗步骤,其次是将文本数据转换为数字表示法。将文本数据转换为数值数据后,我们运用不同的分类算法通过喂养这个数据层分类器的输入。最后,我们收集结果和比较各种评估措施比较分类算法的影响。在下一步中,我们详细讨论数据准备和预处理步骤。
3.1。数据准备
数据准备步骤开始为我们的研究数据的提取。我们使用两个先进的数据集ACL-ARC和SciCite。这些数据集是公开和广泛用于引用目的分类。ACL-Anthology参考语料库(ACL-ARC)是一种基于人工神经网络(ANN)——引用目的分类数据集(1,19]。数据集有大约2000条记录。它有很多功能,包括引文上下文已经放置在文内引用,引用和引用paper_id,可用于使用web服务访问文章细节,出版年,论文标题、作者id、扩展上下文包括更多的信息在文内引用的上下文,节数,节标题、引文标记偏移量,这个句子在引文上下文之前,最后,引用意图的最重要特征指定一个参考的原因。ARL-ARC数据集的引用目的有六个引用类表中描述的意图2。
第二个数据集,我们使用SciCite数据集[3]。这个数据集已经实现了13%的增长F1 ACL-ARC得分相比。数据集包括,还有一些其他重要特性,部分的名称在文内引用,引用和引用id、引文上下文,引文意图类,带注释的引用目的类的信心水平。功能包含在数据集是最少的,只有少数ACL-ARC中列出的特性相匹配。第二个最先进的数据集包含了引用目的注释在只有三个类:背景、方法和结果。这个数据集是五倍ACL-ARC数据集,与超过9159个实例引用目的分布表中列出2。
为了保持数据持久化和比较这两个数据集和评估结果,我们做了一个平衡SciCite版本,其中包括缺少必需的功能,为我们的研究。的名字,很明显,SciCite的平衡的版本是一个平衡与同等数量的每一个类的实例。我们使用了语义学者API (https://api.semanticscholar.org/)通过引用和引用ID来提取失踪的特征信息。
3.2。文本信息的准备
本研究是基于两个数据集的特征选择在前一节中讨论。表3提供功能列表中选择我们的研究的数据集。桌子上还提供了选择这些特定功能的原因作为机器学习分类器的输入。
包含信息的文本形式和特性,因此,需要自然语言处理预处理步骤可以作为输入。执行以下操作,数据准备步骤。
3.2.1之上。标记
这个任务是用于将段落或句子分解成词用空格或特殊字符作为分隔符。
3.2.2。停止词删除
停止词包括词经常出现在文本和正在讨论的话题没有显著影响。他们通常包括词类。自然语言工具包(NLTK) [27)定义了一个巨大的停止词列表16个不同的语言。
3.2.3。删除标点和空格
我们延长了NLTK停止单词列表在Python中通过添加数字和特殊字符,删除停止的话。
3.2.4。大小写转换
不管句子中单词的位置,我们已经改变了文本的情况下小,这样一个文本的情况下不会影响文本的意义。
3.2.5。阻止
Kantrowitz et al。28]研究带来的影响在词中嵌入使用TFIDF和证明,成果显著。它是一个特定于语言的任务,将文字从根形式派生形式。我们有NLTK包用于阻止我们的文本数据。
一旦文本数据在一个清洁的形式,我们需要将nlp_input转换为数值形式作为机器学习算法所需的数值表示的信息进行处理,在下一节中讨论。
3.3。文本数据的数值表示
原始数据以文本格式转换为数值表示这样类似的话接近彼此在向量的大小。我们使用字嵌入数字表示法。表4讨论了各种类型的字嵌入以及它们的优缺点。我们选择伯特字嵌入伯特是好的在获取上下文信息从文本和已经被罗马et al。4对于类似的任务。伯特使用变压器模型(35,36]编码向量表示,使用encoding-decoding架构。我们使用变压器库(37]伯特实现Kaggle平台上使用Python语言(https://www.kaggle.com/)。
3.4。分类模型
一旦数据被转换为数字表示法,类似的话在向量空间是封闭的。我们准备喂这些信息来引用分类模型和评估结果确定最佳分类算法引用目的类预测。分类方法分配预定义的类特性数据。定义我们的问题,我们考虑我们的训练数据集, 的记录。每条记录分配一个引用类从
的任务是找到最好的分类方法 ,在哪里 可以分配一个准确的新实例引证的意图 。研究分类器的准确性,一些分类算法已经被证明是最好的自然语言处理任务,列入表中5。下面列出的步骤在这个阶段执行,图中所示3。(1)提供的分类模型输入参数,表中列出5从ACL-ARC SciCite数据集。80%的记录作为训练数据提供。(2)我们训练一个模型输入参数的基础上,调整输入重量目标类的引用目的。(3)训练模型被用于预测剩余20%的记录。(4)预测引用类与实际检查类的输入。(5)防范跳到结论没有足够证据,我们计算的平均精度通过多次重复实验。
设置通用准则和执行步骤之后上面所讨论的,我们进行了一个实验,比较了机器学习算法选择在下一节中讨论。
4所示。结果的分析和比较
训练后的模型中列出的表5,我们进行实验测试数据集的一部分。在本节中,我们讨论的结果,每个模型使用精度,回忆,和F1的措施。精密计数阳性预测值和类的数量正确识别。回忆是实际的分数类标识。增加一个通常会降低,因此,调和平均数的计算这两个值的F1的措施。通过评估结果对这些措施,我们希望看到的模型相对于其他模型都表现不错。
创建一个多级混淆矩阵使用sklearn [44)、NumPy seaborn库如图4和5ACL-ARC和SciCite数据集。显然混淆矩阵描述的数量真阳性,假阳性、假阳性、假阴性预测为每个类的各自的数据集。精密的计算是基于真阳性和假阴性的参数。真正的正面是除以真阳性和假阴性的总和。
(一)
(b)
(c)
(d)
(e)
(f)
(一)
(b)
(c)
(d)
(e)
(f)
一个多级混淆矩阵表6对线性回归ACL-ARC数据集分类器。我们使用这个表给出了一个样本的计算精度,召回,F1的分数。模型的精度是它的每个类的精度测量的平均值。因此,线性回归分类器的精度计算如下:
同样的,
因此,线性回归分类器的平均精度为73%。同样的,其余的为每个分类器精度计算,给出表7和8分别为ACL-ARC SciCite数据集。第二个衡量评价是回忆。记得发现实际积极正确的比例确定。计算回忆,真阳性的总和除以真阳性和假阴性。
召回ACL-ARC数据集上的线性回归计算如下:
同样的,
平均使用ACL-ARC召回线性回归,因此,66%。
精度和召回措施总是紧张,增加一个结果在减少。因此,第三个叫F1的措施得分,这是一种加权平均的两个以前计算给出的措施
一个示例计算线性回归F1的SciCite数据集如下:
线性回归的平均F1得分只有63%使用ACL-ARC数据集。尽管一些引文意图类的F1的分数非常高,对于背景类,它是83%,然而这个分类器的整体F1评分明显减少。这是因为ACL-ARC数据集的不平衡的性质,像一些其他类的最小数据集记录,和他们的培训没有表现很好。
表7和8提供精确的完整列表、召回和F1分数为每个分类器。的整体精度分类数据所示6和7。Linear-SVM数据集的精度最高,有78.49%和77.8%。背景类措施ACL-ARC数据远高于其他类ACL-ARC不是一个平衡的数据集和,因此,是偏向于类有更多的培训记录。动机、扩展和未来课程最少的F1分数由于训练数据规模小,拥有不到100条记录在每一种情况下。进一步验证我们的结论,我们观察到,在我们的平衡SciCite数据集,F1的分数是非常封闭的类,而结果类F1得分最高。SGD分类器有第二高的精度与线性回归分类器有什么区别。
5。结论
理解的原因研究的一篇文章引用调查必要的相关文件是至关重要的。机器学习可以在数值分类元数据表现良好。自然语言处理的进步使人们有可能将文本数据转换为矢量表示。向量可以传递给分类算法来注释记录在科学数据集。我们使用伯特,更符合实际的词表示,将文本数据转换为矢量。分类器的评估,和两个先进的数据集,ACL-ARC SciCite,。训练模型表现良好,尤其是在我们SciCite平衡版本。线性支持向量机实现了86%的F1分数的“背景”类培训记录是1000以上。引用的目的类,培训记录的数量少于100,支持向量机实现只有57 F1分数的64%。在一个平衡的数据集的情况下,支持向量机和其他算法没有那么多分类器的准确性差。 This study has utilized only the text features from the dataset. In the future study, the meta- and NLP feature, consisting of text information, can both be combined to classify citation intent class.
数据可用性
通讯作者的数据要求。
的利益冲突
作者宣称没有利益冲突的研究。
确认
这部分工作是支持对应服务的建设襄阳科技创新中国创新试点城市。