文摘
关键字提取是指选择最重要的过程中,相关的,和描述性术语作为关键字,呈现在一个文件中。关键字提取主要应用在信息检索领域,如分析、总结,索引和搜索文档。在本文中,我们提出一个新颖的监督从中型文档关键字的提取技术,即基于语料库上下文语义平滑(ccs)。ccs扩展上下文语义平滑(CSS)的概念,认为项使用模式相似的文本来改善项相关信息。我们介绍四个特性超出了CSS小说的贡献在这工作。我们系统地比较ccs技术与其他技术的性能,当实现收集数据集,ccs优于所有最先进的关键词提取等技术在文献中提出的。
1。介绍
关键字提取可以被定义为选择最重要的过程中,相关的,和描述性术语作为关键词,这存在一个文档内,“术语”指任何规模的不同字格。关键字表示尊敬和专门的概念和注定要传达的信息内容加载文档。关键字提取主要应用在信息检索领域,如摘要(1,2),索引(3),搜索(4),标签(5,6),上下文广告(7,8),和个性化推荐9]。
文件一般可以分为长期,中期,和short-sized文档、网页、新闻文章、和研究论文代表long-sized文档,研究论文的摘要、电子邮件和问答对话描述中等大小的文件,而microposts和短消息服务(SMS)表示short-sized文档。每种类型的文档具有独特的特点和挑战需要处理在任何关键字提取技术可以成功地应用。Long-sized文档包括词汇量、中型文档包括缺乏上下文,而short-sized文档包含挑战与低信噪比、广泛的预处理和multivaried文本组成(10]。
取代author-assigned关键词研究论文的摘要、话题识别的电子邮件,和主题推荐问答对话有一些重要的应用程序从中型文档关键字提取在现实世界中。
研究论文摘要可以提供用户各自的研究文章的总结,在没有他/她访问后者。因此,从研究抽象提取的关键词将代表从各自的研究文章中提取的。同时,研究论文包含关键字,由各自的作者手动标记。手动标记关键词包含偏见,帮助各自的研究论文出现在顶部结果,当搜索用户利用这些索引词。这可以通过观察观察ACM的例子(https://www.acm.org/)和IEEE (https://www.ieee.org/),这两个领先的研究机构在计算机科学和工程领域,分别,因此拥有大部分作者在这些领域,当考虑在一起。ACM,作者需要提供计算分类系统(CCS) (https://dl.acm.org/ccs是由ACM)概念,而且作者定义的关键字。对IEEE,作者需要提供自己的关键字定义为索引词。自动选择,关键词或索引搜索过程中相关条款应排除偏见到一定水平,如而言(见部分4.2)。
关键字提取文献中已经完成在所有类型的文档(long-sized [11),中等(12],short-sized [13),同时利用各种技术。关键字提取技术发展到目前为止一直要么监督(14)或无监督(15]。无人监督的技术可用于多个文档集合不需要昂贵和耗时的标签之前。另一方面,监督技术虽然从human-labeled需要定期培训文档集合,他们仍然可以更准确16,17]。
在本文中,我们提出一个新颖的监督从中型文档关键字的提取技术,即基于语料库上下文语义平滑(ccs)。ccs扩展上下文的概念语义平滑(CSS) (10),认为项使用模式相似的文本来改善项short-sized文件的相关信息。事实上,CSS执行平滑TFIDF矩阵的使用语义特征,即φ系数,同时保持语料库上下文考虑在内。我们介绍四个特性超出了CSS小说在这个工作贡献为了处理进一步的挑战与中型相关文档。
2。相关工作
网页排名是基于无监督独立于语言的排名算法,提出的页面等。18),它使用链接信息迭代分配全球重要性分数网页。网页排名是基于原则:“一个顶点是很重要的,如果有其他重要的顶点指向它,”可视为投票或顶点之间的推荐。在网页排名关键词提取,计算候选关键字的排名分数总结所有unigrams在关键字的排名分数(19- - - - - -21]。然后,候选关键字按降序排名的成绩排名,和顶部候选人选为关键词。
提出了各种方法在文献中推断出单词和文档的潜在主题。这些方法被称为潜在的主题模型,推导出潜在的主题从大规模文档集合根据词出现的信息。潜在狄利克雷分配(LDA),由布莱et al。22]是一种生成统计模型,允许集的观察被未被注意的团体解释解释为什么有些部分的数据是相似的。代表潜在的话题模型,嵌入监督学习,更有可行性推理,可以减少过度拟合的风险。
刘提出的局部PageRank (TPR)、et al。23),是基于PageRank (18),衡量一个单词的重要性不同的主题。给定一个文档的主题分布,计算排名分数的话就这些话题,每个话题和顶级排名的话中提取关键词,从而导致一个好的文档的主要话题的报道。TPR结合LDA和TFIDF / PageRank的优势,利用外部主题信息(如LDA)和内部文档结构(如TFIDF / PageRank)。
刘等人。24)设计了一个无监督的技术关键字提取,首次发现范例文档中利用方面,集群、和语义关系,保证文档的语义覆盖这些范例条件(集群)的重心。然后,从文档中提取关键字使用这些范例。这项技术包含词同现,只认为名词短语关键词候选人信息。
Tsatsaronis et al。25]设计SemanticRank,再次基于PageRank (18),但排名关键词和句子在文档基于各自的相关文档。技术构造一个语义图使用的节点,以及他们的隐式链接而利用Omiotis相似性度量,WordNet,维基百科知识库和统计信息。
3所示。基于语料库的上下文语义平滑为中等大小的文档
中等大小的文档的集合 和特定领域的信息(stopword和标准化列表),关键字提取技术输出关键字从一个文档 。我们把我们的方法分为两个阶段,即关键字提取(unigrams)和关键词提取等( - - - - - -克, )。首先,所有实验优化关键词提取的过程,然后参数重新优化关键词提取等的过程。
基于语料库的上下文语义平滑(ccs,见图1)扩展上下文的概念语义平滑(CSS) (10)认为项使用模式相似的文本来改善项相关信息。事实上,CSS执行平滑TFIDF矩阵的使用语义特征,即φ系数,同时保持语料库上下文考虑在内。
3.1。词性标注
在文献中,词性的不同组合(POS)曾为了过滤不可能从一个文档关键字,如表所示1。
作为第一个特性,我们尝试了POS(包括一些表中提到的各种组合1),选择被认为是所有POS除了情态动词的组合,作为候选关键词在文档中。情态动词是辅助动词,如“可以”或“将”用于表达形态。这种组合的POS尚未使用过的文献,从表明显1。实验5.1节介绍了与此相关的特性。
3.2。标注语料库
作为第二个特性,我们利用组成的语料库的标签。我们国家我们的假设”一词应视为候选关键字的文档,如果它被指定为一个标签标注语料库中至少一次。“我们获得收集(https://www.theiet.org/publishing/inspec/)和ACM (https://doc.novay.nl/dsweb/Get/Document-115737/ACM-URLs.txt)将他们所有的标签集合到一个语料库。收集和ACM集合包含科学期刊论文的英文摘要。更多细节关于语料库提供的部分4.1。我们尝试了各种频率术语分配标签标注语料库,最后发现我们的假设是正确的。在文献中,语料库已经用作功能(1,28,39- - - - - -44),但是一般都标注语料库,尤其是这种全集的结合,没有被使用。这个特性提出了相关实验部分5.2。
3.3。比率指标
作为第三个特性,我们引入了一个新的度量每一项的资格作为候选关键字。 在哪里代表的频率源文档中考虑下,代表的频率在标注语料库在考虑,代表一个阈值下的比例和应该是为了被认为是一个候选关键字。开发这个指标的动机和候选关键字的过滤这些术语 。这个特性提出了相关实验部分5.3。
3.4。关键词提取等
一旦我们确定了重要的关键词在第一阶段,我们在第二阶段对形成重要的关键词,通过四种不同组合的两个阶段。
首先,我们认为最简单的方法,所有相邻的关键词是利用关键词。
第二,所有相邻位置关键字 ,我们选择——顶部(是一个整数之间和 )关键词从它们作为重要的关键词来考虑不同大小的文档。
第三,类似于选择最高关键词在每个作为重要的关键词,我们重新审视和改进关键字提取过程通过选择前(是一个整数之间和 )关键字在每个作为其重要的关键字,然后选择所有相邻位置关键字作为重要的关键词。
第四,我们首先选择前(相同的值作为结果从两个阶段的第三个组合)关键字作为其重要的关键字,然后选择前(是一个整数之间和 )关键词在每个作为重要的关键词。在文献中,关键词选择使用前度量;然而,最高的过程关键词的选择在前关键字被选择并没有提出。相关实验提出了两个阶段的组合部分5.4。
4所示。数据分析和实验设置
4.1。数据分析
收集的数据集包含了英文摘要的期刊论文学科的计算机和控制,和信息技术,从来 ,是一家集文档。由专业分配的关键字索引器可能是也可能不是在抽象。然而,索引器时访问完整的文档分配关键字。摘要在这个数据集包含两个部分;标题和摘要,而在这工作我们的重点是抽象的部分。所有实验在第五节在这个数据集进行。
ACM的数据集包含了英文摘要的期刊,会议和研讨会论文发表的ACM四个领域的计算机科学、分布式系统、信息搜索和检索、学习、和社会和行为科学,它由一个总文档。这个数据集只有被用于创建一个标签语料库(见3.2节)。
4.2。实验装置
以下将采用实验评价指标:(我) 的分数相关的实例中检索实例。 在哪里和分别表示真阳性和假阳性。(2) 是检索的相关实例的一部分。 在哪里表示假阴性。(3) 调和平均数的吗和 。
5。实验结果和讨论
我们遵循相同的序列实验中提到的部分3。
5.1。词类
作为讨论的部分3.1、表2礼物的POS尝试不同的组合关键字提取的任务。
在这里,没有=名词,广告=形容词,F=外来词,I =无关的术语中,V =动词,ν=数字,G =属格标记,AG) =代理和MV =情态动词。
外国文字包括非英语文字,不相关的术语是由工会代表所有的介词,连词,限定词,物主代词,粒子、副词、感叹词45),属格标记显示所有权、测量、协会或来源,例如,“男孩”和“男孩”。
尽管POS的组合选择方法不同的尝试中排名第四,我们,出于显而易见的原因,避免这些组合包括外国文字或无关紧要的方面。
5.2。标注语料库
作为讨论的部分3.2、表3显示各种频率的条件分配标签标注语料库,尝试对关键字提取的任务。
5.3。比率指标
作为讨论的部分3.3我们尝试用不同的阈值x的任务关键字提取和发现x=5方面的最优值F -措施,如表中所述4。
所有结果与过程的不同阶段关键字提取总结在表5,如部分中讨论3.1- - - - - -3.3。
在这里,F1,F2,F3代表的词类标注语料库,分别和比率指标特性。
5.4。关键词提取等
第三节中讨论,取得了前三个特性的最优值的过程关键字提取然后重新取得最优值的关键词提取等过程。虽然相同的最优值产生第一两个特性的比率指标特性产生一个最优值x=如表中所述6,也反映在表4和5。
这是最简单的组合关键字提取和关键词提取等过程,所有相邻的关键词d是利用关键词。
作为讨论的部分3.4,我们的第二个关键字的组合提取和关键词提取等过程,我们尝试了不同的值 ,,发现=55岁的最优值F -措施,如表中所述7。
作为讨论的部分3.4我们的第三个关键字的组合提取和关键词提取等过程,我们尝试了不同的值 ,,发现= 59的最优值F -措施,如表中所述8。
作为讨论的部分3.4,因为我们的第四组合关键字提取和关键词提取等过程,我们尝试了不同的值 ,,发现=55岁的最优值F测量,所表9。
所有结果相关的不同组合关键字提取和关键词提取等过程总结在表10节中讨论3.4。
5.5。ccs和最先进的技术
我们系统ccs的性能与其他技术相比,当实现收集数据集,提出了在文献中,这样的分析提出了表11。很明显,ccs已经超过所有最先进的关键词提取等技术在文献中提出的。
6。结论和未来的工作
在本文中,我们提出了一种新颖的监督从中型文档关键字的提取技术,即基于语料库上下文语义平滑(ccs)。ccs扩展上下文语义平滑(CSS)的概念,这被认为是类似的文本术语使用模式改进项相关信息。我们介绍了四个功能以外的CSS作为小说的贡献在这工作。我们系统ccs的性能与其他技术相比,当实现收集数据集,ccs显然超出了所有最先进的关键词提取等技术在文献中提出的。
我们未来的工作包括利用ccs在索引和搜索的应用,总结,和多语言总结,中型文档。目前我们也从事编译所有关键词的文献综述的采用,包括上述的应用。
数据可用性
之前报道的收集和ACM数据集被用来支持这项研究和可用https://www.theiet.org/publishing/inspec/和https://www.innovalor.nl/,分别。在这项研究中使用的数据集是可从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者欣然承认穆罕默德阿里真纳大学(MAJU),卡拉奇,巴基斯坦,和院长职的研究,伊斯兰Madinah大学Madinah,沙特阿拉伯王国,为本研究提供的支持。这项研究是由院长职的研究,伊斯兰Madinah大学Madinah,沙特阿拉伯王国。