文摘

先前技术搜索专利确定发明的专利性约束通过有组织的审查现有技术文档的来源。这种搜索技术提出了挑战,因为固有的词汇不匹配的问题。手动处理所有检索到的相关专利的整体是一个繁琐和费时的工作,要求自动化专利摘要为了便于访问。本文采用深度学习模型的总结,因为他们利用大规模数据集专利中提高摘要连贯性。这项工作提出了一种新颖的方法专利摘要名为药品资格预审规划:基于现有技术的专利摘要器使用限制玻耳兹曼机遏制和双向短期记忆(Bi-LSTM)模型。药品资格预审规划还通过查询地址不匹配的词汇问题扩张与领域本体和WordNet等知识库。进一步提高了检索速度通过主题建模和书目引文耦合。实验分析各种相互关联的智能设备专利样本集。该药品资格预审规划表明可恢复性增加萃取和摘要式的总结。

1。介绍

创新技术发展的重要性已经被建立在许多工业领域。同时,企业评估他们的发明在知识产权方面主要通过他们的专利(知识产权)。随着全球各种技术的快速进步,专利搜索和分析已成为一个重要的任务的政府和私营部门1]。企业使用此法律和技术文档(专利)获得先进的技术,揭示商业趋势,激发新的解决方案(2- - - - - -5]。这些专利权持续了大约20年,给发明者发明使用商业上的权利。专利的主题和专利性限制因地区而异。企业的专利律师、发明家和人员投入大量的时间和资源来找到合适的专利来发现新的技术发展,并将他们的研究集中在这个方向(6]。他们还执行该现有技术搜索当前创新的防止侵权与既定的技术和知识产权。它通常是执行以确保发明的创意。这是公开的发明已经存在的证据。这种搜索技术更有效地评估这项发明的新奇和非显而易见性,识别潜在的相关和相互竞争的艺术,最后确定专利发明的强度和范围。

大多数传统的先前技术搜索技术的关键字。专利审查员或专利分析师通常帧的专利搜索查询专利申请文件通过考虑这个词的频率。优先日期和分类代码通常是包含在这个frequency-based关键词搜索技术。由于专利的模棱两可的和非标准的语言,关键字的文档发现先前技术搜索不足以使索赔无效。制定查询扩展的术语或短语等外部资源的国际专利分类(IPC)代码定义(7],同义词典[8),或知识库9)来提高检索速度和应对这个词不匹配的问题。

专利引文,除了专利文本字段和分类代码,可以提高检索率(10]。它们代表专利之间的关系。引文链接帮助更重要的发现和有价值的文档通过授予权力引用或引用的文本。方法基于引文[11包括书目耦合(BC), co-citation,直接引用。co-citation,两个文档相关如果他们认为由一个或多个文档,文档在公元前,一对相关如果引用一个或多个相关的文档。书目结对是越强,越引用书目的耦合的文本对股票。公元前是回顾而co-citation前瞻性。本文利用BC提高现有技术检索专利搜索成千上万的文档的组成。结果集有很多不相关的文档。搜索整个设置并找到相关的繁琐和费时。所以,排名基于相关性通过加入专利特征将工作做得更好,提高精度。

此外,由于这些文档的词汇不同,手工处理(阅读和理解)并确定重要信息从现有技术检索中的每个专利文件搜索组将更加困难。文本摘要技术的发展和法律文件已经优先考虑解决这个问题。摘要旨在创建简洁深刻总结检索专利文档集合,同时保留文档的意义。从广泛的文本语料自动生产总结长期以来吸引了研究人员的兴趣在信息检索和自然语言处理。这些摘要生成一个要点(压缩版)的文本,强调只有最相关的点12]。自动摘要分为采掘或抽象的产生取决于摘要。选择最重要的句子或段落和组装在采掘总结形式描述。相反,抽象总结生成有意义的句子。

该药品资格预审规划关注生成有效的总结现有技术搜索结果。现有技术搜索专利文件是基于获得的搜索查询和通过扩大初始查询与信息知识库。使用这种方法获得的先前技术专利缺乏一些相关文件并可能包括相关文档。主题建模方法和引文分析进一步提高现有技术使用结果集。萃取和抽象总结产生的结果集。药品资格预审规划包括采掘和摘要式的技术专利是漫长的和具有挑战性的获取要点通过保留全部的信息。

本文的主要贡献如下:(1)过滤基本查询处理器专利合成它包含更多的粗材料的设置为无关紧要的文件通过潜在狄利克雷分配(LDA)。(2)提高过滤专利通过书目耦合。(3)现有技术检索搜索专利排名基于结构相似性。(4)生成萃取与堆叠遏制总结。(5)采用Seq2Seq模型pretrained嵌入用于生成摘要式的总结和关注。

剩下的纸列出如下。部分2描述现有的作品进行搜索查询公式,专利引文分析,专利摘要。部分3概述了模型的背景和技术用于文本摘要。提出的系统描述的详细流部分4。部分5- - - - - -7详细讨论拟议的系统的方法。实验结果作为该工作的一部分进行详细的节8。最后,部分9本文总结和讨论了未来的工作。

本节介绍了挑战与现有技术在三维空间中搜索和礼物。首先,我们关注查询公式和扩张现有技术的搜索技术。其次,我们考虑通过引用的方法提高检索速度,最后,我们目前的专利技术总结文档。

2.1。现有技术的搜索查询处理

现有技术搜索查询公式和扩张是提高现有技术研究的焦点搜索和检索。因此,大多数以前的搜索查询依赖专利方面从不同的文本区域(13- - - - - -18]。因为抽象的或通用的专利权所有人提供的条款来优化他们的保护范围,这个关键字查询公式技术落后,词汇不匹配的问题仍然存在。这种方法通常需要额外的研究专利应用程序域。为了解决这个问题,作者使用外部资源,如词典和特定领域知识库(WordNet,维基百科和维基词典)9,19,20.)和domain-dependent知识库(IPC和领域本体)(7,9,21]扩展查询。扩张与特定领域知识库提高精度,而且记得滴由于缺乏上下文信息。IPC的定义也被用来扩大查询(7]。虽然提高召回在化学领域,结果不一致的话题。这个系统创建领域本体和扩展查询术语和短语从领域本体解决词汇不匹配的问题。

2.2。通过引用专利检索

专利引文是必不可少的建立专利和展示技术发展和演进之间的关系(22]。在这个工作中,作为主要的来源提取,作者采用文内引用专利和非专利文献和额外的元数据。Mahdabi和类似的方法使用伽马安基丁酸,扩大现有技术搜索查询词分布的出版物的引用网络(23]。富士et al .,另一方面,使用引用连接到排名专利出版物(24]。作者用文本数据和引文联系分数和排名的专利。这提出了药品资格预审规划不同之前的系统,它使用一个书目耦合的专利引文网络寻找失踪有关的专利。

2.3。专利摘要

机器学习和人工智能的发展有简化的多任务。的一个主要任务让人类通过这些技术简单自动文本摘要。几种方法用于文本总结迄今为止已经开发出来。而这些总结系统需要产生一个简明的代表源文档中提供的信息。基于生成的方式总结,总结技术下降两类:采掘和摘要式的。萃取总结(25)技术从源文档而选择句子摘要式的技术(26)生成类似human-crafted总结通过考虑整个文档。

最常见的技术用于萃取汇总生成统计数据,基于主题的、discourse-based和图论方法。统计技术使用的统计特性(27,28)如句子位置(29日,30.),句子中心,单词或专有名词频率(31日),标题相似度和句子浓密的方向。个别句子得分基于分配特征权重计算,与高分和句子更有可能包括在生成的摘要。另一方面,基于主题的方法识别术语描述文档的主题和使用签名或模板来得分的句子。句子中表示为节点图论方法(32,33,形成一个连接如果有他们之间的关系。许多机器学习技术已经用于总结,包括潜在语义分析(LSA),贝叶斯模型(34),主题模型和隐马尔可夫模型(摘要)35]。外部知识库,如维基百科(36和本体37,38),也用于文本摘要识别有意义的句子,他们在本体概念映射。最近,文本摘要增长迅速,深刻学习技术的进步像元39,40递归神经网络(RNN) [],41),而卷积神经网络(CNN) (39,42]。一些研究人员认为文本总结作为一个序列标签任务(43),生成的摘要。SummaRuNNer [41Nallapatti等人提出的)是一个序列标签任务,作者评估一个句子的概率被包括在总结然后包括他们,直到达到摘要长度。

抽象总结任务最近收到足够的重视,因为其产生声音的能力和口头健壮的总结的人类44]。这个任务主要是进行多对多Seq2Seq模型,并首次引入由曹et al。45)和Sutskever et al。46]。拉什et al。47)提出了一个抽象的句子总结模型包括当地引起编码器和译码器神经网络语言模型。Chopra et al。48)提出了一个条件RNN解码器和卷积模型引起编码器符合句子总结。该模型优于其他先进的模型Gigaword语料库的数据集。我们可以看到,这些总结的模型主要集中在新闻或CNN邮件数据集。

尽管文本摘要近年来获得关注,为专利文件生成的摘要远非人为总结,只有少数的研究(49- - - - - -53)解决这一问题的专利文本摘要。这些作品既依赖于一些指标来检索句子或段落使用本体(包括在总结49]或集中在专利文件的部分(51]。他们利用指标的话语总结。这些方法还不够,因为专利包含许多重复出现的抽象术语如“装置”,“方法”“,”和“设备。“此外,仅仅关注索赔部分包含的结果体现发明的生成的摘要。该药品资格预审规划系统是小说,因为它结合了萃取和摘要式的技术生成专利摘要通过深度学习技术主要是遏制和Bi-LSTM,分别。

3所示。Encoder-Decoder架构

本节概述的深度上优于模型用于抽象总结技术,如RNN LSTM,格勒乌。encoder-decoder架构是基于sequence-to-sequence模型(46]。文本摘要是一个多对多序列的问题,输入序列(段落或文档)映射到另一个相似的可变长度的序列(总结)。编码器和解码器是这种方法的两个主要组件。他们是成堆的递归神经网络的单位。编码器读取整个输入序列并生成上下文向量作为一种内部表示。在每一个步伐,译码器读取上下文向量并生成输出总结。在以下部分中,我们将看看如何结合不同的深度学习模型这个框架来生成摘要式的总结。

3.1。递归神经网络

按顺序输入文本处理RNN通过反馈回路。这些循环将数据分布在不同的节点和收集信息,并以此为根据做出推测。因此,RNN保存输入序列中的单词的顺序。每当收到一个新的输入,预测是由考虑前面的输出状态。在培训期间,RNN计算梯度在每个步伐通过时间(BPTT)使用反向传播算法。这个网络执行与短序列。漫长的输入序列,患有消失梯度问题[54,55]在反向传播梯度变越来越小,以便更新就微不足道了。大的序列的另一个主要问题是培训和评估由于计算和内存限制(56]。

3.2。封闭的RNN

长短期记忆(LSTM)和封闭的复发性单元(格勒乌)处理的问题消失梯度使用他们的大门。他们有控制隐状态之间的信息传递。这两个网络在本质上是RNN的变异与独立隐藏和细胞状态。图1描述了两个网络的差异,RNN LSTM。LSTM有三个盖茨所示图:忘记,输入和输出。忘记门(方程(1)是一个单层架构与乙状结肠激活。这个激活函数的忘记门协助确定保存信息或丢弃它。

信息,输入门试图学习新信息(方程(2)和(3))和量化信息的意义(方程(4))。基于意义,信息存储在细胞状态。

从当前时间戳信息传递到下一个通过输出门,同样是由方程(5)。如上所述,在这些方程,隐藏状态的值是由穿过乙状结肠和双曲正切函数。这隐藏的状态 (方程(6)用于预测。格勒乌LSTM非常相似;但是,它缺乏内存单元。同时,不太复杂的只有两个门,即盖茨重置和更新。

3.3。双向RNN

在预测单向RNN只考虑前面的序列,和有噪声的可能性。因此,未来的预测受到影响,降低质量的总结。为了解决这个问题,双向RNN流程输入序列前后两个方向,即。在常规时间内,输入序列为一个网络和逆转为另一个网络。在每个时间步,输出两个网络的连接和传输到下一个水平。因此,网络将信息前和下一个序列构造一个总结。双向RNN提高生成摘要的质量。

3.4。网络的关注

Seq2Seq模型可以提高的性能更好的网络结构。一个上下文向量作为输入传递encoder-decoder网络编码器和译码器。然而,如果输入序列是漫长的,这不足以捕获完整的本质。因此,各种上下文向量推导为了关注输入序列的某些部分(57]。当地的关注和全球关注被陈德良杰出et al。58]。当地的关注只考虑几个隐状态的编码器在确定参加上下文向量,而全球关注考虑所有隐状态。

3.5。定向搜索

定向搜索技术经常用于与译码器的任务,比如生成多个语言,文本摘要和机器翻译(59,60]。解码序列需要搜索所有可能的序列和排名根据他们的可能性。因为这些任务的词汇通常由数十个或数以百万计的单词,这搜索变得棘手(非完全多项式)。随着输入的大小上升,启发式方法提供一个或多个输出序列近似,这可能是也可能不是充分的。这些算法使用概率和贪婪或定向搜索解码序列。在贪婪的搜索,选择一个输入序列的最佳人选在每个时间步基于可能性。然而,生产只有一个候选人可能导致次优的解决方案。相比之下,梁分析许多候选人搜索输入序列在每个步伐。

4所示。药品资格预审规划:基于现有技术的专利史书

该药品资格预审规划的功能在图描述2。查询处理器检索专利基于查询的初始构建知识库(领域本体和WordNet)和《专利申请文件。虽然这集检索多个检索相关文件,它可以有不相关的文档和错过一些相关文件信息过载。药品资格预审规划系统过滤器使用LDA无关紧要的文档和使用书目引文耦合网络来提高检索效率。排名结果文档集然后使用结构相似性度量。药品资格预审规划然后地址的高工作负载专利分析师通过总结排名专利萃取和摘要式的方式使用深度学习技巧。每个模块的详细解释在以下部分中给出。

5。查询处理器

的查询处理器构建初始查询专利分析师发布的专利申请文件。最初的查询是由从不同的文本字段中提取名词短语标题、抽象、技术领域,和描述。候选人名词短语选择建立一个初始查询基于术语frequency-inverse场频(TF-IFF)得分。专利文件是冗长而详细,每个专利有它的词汇;因此,词汇不匹配。纠正这种不匹配,药品资格预审规划文档检索系统使用知识库等领域本体和WordNet丰富初始查询语义相关的概念和术语。域的基于本体的查询扩展使用智能设备领域本体扩展与领域相关的概念,而WordNet-based查询系统扩张依赖于WordNet,英语的词汇数据库。专利文档检索系统的谷歌搜索使用谷歌现有技术从最初的搜索API来检索专利查询。引文分析模块用于进一步的处理所有的文件通过这三个系统。关于这个查询处理器的更多细节在我们的以前的工作(详细9]。

6。引文分析

查询处理器模块进行专利分析表明,无关紧要的文件检索,除有关文件。一些相关的文件从检索发现由于流行的词汇不匹配的问题。这个引用分析仪模块采用过滤机制通过LDA和书目耦合方法来减少不相关的专利检索和进一步增强了相关文档检索。

6.1。主题过滤

主题过滤器使用LDA发现抽象的主题,一个无监督模式从一个话题建模。中央直觉LDA文档过滤是组每个文档基于其词,并进一步相关文档是集群形成的话题。它是基于假设集合中的每个文档是一个混合的话题,因此,该文档属于主题的强度是至关重要的。这个过滤器分析标题、摘要和描述相关的专利。字段预处理,LDA和倒塌的吉布斯抽样(61年是就业。这是一个马尔可夫链蒙特卡罗方法,模型参数的后验分布为每个迭代。

但是。许多主题的识别

主题的数量通常是决定基于统计测量困惑(62年]。它决定了预测模型的质量。低困惑值表示更好的性能。但根据Chang et al。63年),困惑不相关人的判断。因此,药品资格预审规划包括一个试错的方法和不同的价值观为主题基于相干值的数量。获得的主题以及他们的主要关键词和手动生成类别名称详细表1专利样本应用程序名为“蓝牙信标考勤系统基于智能手机和应用程序的方法。“对于此示例的专利检索,通过试错的方法,主题的数量决定45。

6.1.2。相关性与小说专利申请

过滤器采用主题概率分布的每个文档过滤检索到的相关专利文件。LDAvis [64年),一个交互式工具,用于解释和可视化分布,如图3。这里的话题被表示为圆的中心是由计算主题之间的距离决定的。圆的大小描述了语料库的流行话题。使用Jensen-Shannon intertopic距离计算散度,对称相似性度量。基于intertopic距离,密切相关的集群与样品专利申请的主题选择集群相关文件和其余集群过滤掉。

3代表了intertopic距离使用LDAvis工具示例专利应用程序标题“蓝牙信标考勤系统基于智能手机和应用程序的方法”。这个数字关注的 主题及其与其他相关主题的亲密。作为他们的亲密都代表着他们的相似性,紧密联系的话题只是考虑进行进一步处理。在这种情况下,文档属于主题突显了这一个红色的盒子只选为集群相关文档。

6.2。专利文献Coupling-Based寻回犬

过滤后,每个相关专利的引用是通过开放专利服务(OPS),欧洲专利局(促红细胞生成素)的web服务。这个过程允许访问EPO的原始数据通过XML接口。这个web服务提取每个过滤专利的所有引用链接设置和存储在数据库中。数据,我们建立一个引用图,每个之间的专利文档作为一个顶点和顶点,这是一个有向边如果专利文档引用或引用的另一个。书目耦合有助于检索相关文件没有被检索,因为信息过载。BC组中的专利文献引用图指的是同一组引用专利文件。基本思想是,如果一个文档 被另一个文档吗 ,这意味着 以某种方式相关和必要的 这种关联性有助于识别丢失的专利申请文件的相关文件。公元前强度代表共同引用的数量。对于每一对专利文件和应用程序文档,这公元前公元前强度计算和专利强度大于一个阈值被认为是缺少相关专利检索,包括新设置。

因为专利包含众多的学科领域,它可能引用另一个文档的这些主题或主题领域。因此,检索的新设置的可能性有几个不相关的文档。这些引用和主题不需要所有相关专利申请文件。因此,新专利检索集过滤基于余弦相似度的专利申请文件和一个阈值。

6.3。结构性Relevance-Based专利士兵

排名文档的基于相关性的搜索查询条件。在先前技术搜索,因为整个专利申请作为查询和压缩由于专利文件的详细性质,相关性指标仅将不足以专利。专利结构相似性固有特性是纳入相关性评价。我们的分析不同的文本字段的重要性(标题、摘要、背景、和描述)在我们以前的工作(9)发现,不同的领域有不同的影响。的术语描述字段的相同点多于摘要和标题字段。这种现象是因为description字段包含技术术语。因此,与源文档的相似度是给予不同的权重。的相关性估计量分配字段权重依次为: 在这里 表示的重量从标题字段, 表示抽象的重量,和 表示从描述部分词语的权重。这些文本字段的结构相关性得分计算是由以下方程:

在这里,老 是结构相关性得分, 之间的相似性查询语义丰富, ,文档标题。同样的, 代表之间的相似性查询语义丰富 分别和文档抽象和描述。l , , 代表文档标题的长度,抽象,分别和描述。

7所示。专利摘要器

专利摘要器创建摘要通过一个统一的模型结合先进的采掘和摘要式的方法。组成两个神经网络模块,即。,summary extractor and abstractive summary generator. The summary extractor encodes each document, extracts the sentences from them, and clusters the individual summaries, and the abstractive summary generator paraphrases each summary clusters.

7.1。史书RBM-Based萃取专利

史书RBM-based采掘专利(RBM-EPS)输入文档集D与多个相关专利文件 一个文档d在文档中设置由多个句子 每个专利文件 ,RBM-EPS创建一个新的文档摘要 通过选择的句子 ,它聚集成三组基于语义和语法关系的程度与源文档。RBM-EPS包含三个子,将详细深入研究他们每个人。

7.2。专利特征提取器

第一步萃取总结是通过识别句子选择的突出特征。专利特征提取器依赖于手工特征对应于专利文件的句法和语义信息的句子。许多的这些特性被广泛使用的摘要句子选择(38,40,65年- - - - - -67年),他们的措施规范化在0到1的范围为实际使用。这个模块的特性提取详细表23

7.3。堆叠遏制

该系统利用一个受限制的玻耳兹曼机、非确定性生成模型,提取重要的句子。疟疾是一个两层网络的输入层节点(可见 隐藏的节点(节点)和一个输出层 节点)。一个单元的两层组织遏制形成一个完全偶图,药品资格预审规划的工作流程(图2)。在这里,只存在两层的节点之间的连接,而不是在在一层的节点 输入节点 被连接到 隐藏的节点 由一个重量 此外,所有节点(可见光和隐藏)表示为一个常数的偏见 据此可见,隐藏层。这个系统堆栈疟疾行动创建一个深层结构。第一单元是Gaussian-Bernoulli元(67年),第二个是Bernoulli-Bernoulli元。

7.4。摘要聚合器

总结文件分为三组密切相关,中的相关,和弱相关的基于词发的距离(大规模杀伤性武器)71年)得分。大规模杀伤性武器(方程(8使用词)措施之间的不同文档嵌入也考虑了袋的话表示。 在哪里 代表了采掘的总结 专利和 显示搜索查询之间的大规模杀伤性武器得分或源文档和采掘总结。它使用pretrained word2vec嵌入(27]。

7.5。史书Bi-LSTM-Based摘要式的专利

摘要式的专利摘要生成使用sequence-to-sequence (Seq2Seq)网络(46),一个encoder-decoder架构。在这个多对多序列问题,编码器解析输入序列 = 并创建一个隐藏的序列 译码器和前锋。这个隐藏的译码器利用上下文信息并生成摘要序列表示 在这里 代表的数量编码器令牌(输入文档长度)和解码器令牌(摘要长度),分别。编码,药品资格预审规划利用Bi-LSTM最好理解上下文的信息保存在两个方向向前向后(过去)和(未来)。史书Bi-LSTM-based抽象结构的专利图表示4。在这里,三层双向长期短期记忆(堆叠Bi-LSTM)形式编码器和一个单层LSTM作为译码器以及一个嵌入层。除了这个基本的结构,它包含的注意机制有效的总结,我们将探索每一个细节。

7.5.1。编码器

尽管LSTM和封闭的复发性单元(格勒乌)试图解决梯度消失的问题,有比较好的性能,本工作使用LSTM因为简单的调优和训练时间。在双向设置,编码器流程输入序列在前进 落后的方向

是7.5.2。定向搜索译码器网络

译码器(单层LSTM)利用编码器隐藏状态和以前的解码器并更新译码器的输出到一个新的隐藏状态 并选择一个新的令牌这一步的译码器输出。这种译码器集成了定向搜索目标词预测而不是通常的贪婪的技术。在每个时间步 ,定向搜索保留最高得分 序列的基础上, 在前面的时间步长序列, 是由梁宽度或梁的大小。波束宽度决定了序列的数量在每个保存在内存中 目标词 对时间步 是基于概率的预测成绩。

7.5.3。嵌入

ConceptNet NumberBatch [30.]pretrained嵌入在嵌入层选择了两个原因。首先,它是建立在其他pretrained嵌入如手套(72年]和word2vec [73年),其次,它结合了嵌入的知识库,如WordNet和DBpedia。

7.5.4。注意机制

在一个简单的Seq2Seq模型,编码器通常返回一个固定长度的上下文向量将不会保留重要的信息主要是如果输入序列很长在专利文件。为了解决这一问题,Bahdanau et al。57)开发了一个对齐机制,在每个时间步,它关注文本的关键零组件并生成一个上下文向量 上下文向量是通过计算注意分配 在整个序列的令牌隐藏编码器状态 和译码器状态 在时间步 对齐的分数 计算使用添加剂的注意。添加剂注意线性结合编码器和解码器的隐状态并给出的 这两个 权重矩阵。

8。实验结果

8.1。查询处理器

实验与查询处理器进行智能设备专利的文本字段通过谷歌专利搜索引擎收集。这个实验的数据集包括753智能手机专利,478 smartwatch专利和421 smarthome专利。药品资格预审规划的查询处理器分析以下几个方面:(我)影响现有技术专利文本字段的搜索查询:系统探讨了专利文本字段(标题、摘要、背景、技术领域、摘要、描述,并宣称),发现它们对每个人的影响在先前技术搜索查询。结果表明,从现有技术中的描述字段搜索查询产生更好的结果比其他字段。(2)文档检索系统:它包含域基于本体的查询扩展系统(各)WordNet-based查询扩展系统(wq),和谷歌的专利搜索系统(停靠)检索专利。

现有技术的搜索查询各和wq建立通过查询扩展与智能设备领域本体和WordNet初始查询。构造一个先前技术搜索查询自动停靠。检索效率的三个子系统的平均精度(MAP)和回忆是描述在表4。表结果表明,各执行比wq比停靠。这种差异在检索性能是由于搜索词的数量和质量。更详细的分析这两个方面的查询处理器系统提出了9]。

8.2。引文分析

药品资格预审规划引文分析的子集中在3个方面:基于主题的过滤检索到的专利文件集,通过公元前失踪有关专利文件标识,专利排名基于结构的相关性。每一个方面都是挖掘下面。

8.3。基于主题过滤检索专利集

每次主题过滤过程大约1000项专利检索的文档检索系统。只考虑标题和抽象字段过滤。尽管所有这些专利是针对一个特定的查询来检索,检索到的专利覆盖范围广泛的主题。可观察到同样的令牌和词汇频率表中描述5专利检索设置的各种查询。

主题的数量为每个专利检索生成主题模型之前必须选择过滤掉不相关的文档。滤波器计算一致性评分来确定主题的数量。它雇佣了一个试错的方法来发现最好的模型构建多个LDA模型主题从10到120。比较多个模型的一致性评分后,与最优相干分数选择模型。多个LDA模型样本的相干分数先前技术搜索查询5次迭代之后,他们的平均得分为不同的主题图所示5。这里,一致性评分从0.22到0.28,增加主题数量的增加。选择最优相干得分随着模型一致性最高得分前显著下降或压扁。最优相干时获得分数 基于intertopic主题之间的距离,所选择的主题。这个话题接近集群及其文档的主要相关的主题是有关。

IPC编码被用来检查专利过滤掉任何有关专利文件是否被包括在内。这个过滤集没有任何相关的文件。此外,过滤掉文件显著降低数据集的大小进行进一步处理。表6显示检索到的专利为样本大小统计滤波前后的专利申请。这个表也得到一组样本的IPC手动编码研究专利被过滤,过滤掉。例如,过滤的IPC标准专利申请的专利“蓝牙信标考勤系统智能手机和应用方法”G07C1、H04L29 H04B5、H04M1 G06Q50 G06Q10,等等。反过来,这些IPC代码分配给专利指定“时间和出勤登记注册或指示或记录,”“安排相关数字信息的传播,”“近场传输系统,”“电话communication-substation设备,”“特定的业务领域,数据处理系统”和“管理和数据处理系统的管理,分别”这些主题相关的专利申请。过滤掉的IPC标准检索专利,另一方面,指定纸板或室内游戏,测量诊断设备和探索通过特定的方法或分析材料,安全安排保护电脑,等等。这个结果证实,与这些话题相关的专利是不相关的,可以过滤掉。

8.4。通过文献耦合识别丢失的相关专利

主题的引用,引用专利检索过滤专利。这个引用数据收集的日期范围被认为是来自样品的优先日期2020/11/31专利申请。因为丰富的专利申请和授予专利,相关专利可以在引用被忽视。结果,公元前强度之间的专利对检查以确保没有被排除在处理相关专利。BC的力量,如前所述,代表了专利之间的关系。例如,有6265项专利连接通过样本的引证专利申请“基于智能手机的蓝牙信标考勤系统和应用程序的方法。”6265年专利引文,3494专利文献耦合对被识别。公元前对低强度被排除在外。公元前的平均强度计算和设置阈值。公元前263年专利强度大于阈值(3)被检索到的相关专利,和整体,查询处理器模块和引文分析产量1337项专利(1074 + 263)。相同的其他专利申请列表在表的统计信息7

8.5。排名基于结构性Relevance-Based专利专利士兵

以及专利相似性计算基于固有专利特点,精确的结构相似。所有的专利申请和专利商标局和世界知识产权组织有一个定义的结构,包括必要的文本字段标题、抽象、描述和背景。在我们以前的工作的实验的查询处理器模块(9),我们发现各种文本字段变量影响的一代和检索现有技术搜索查询。因此,权重应用于现场描述,抽象,降序和标题,值为0.75,0.5,和0.25,分别。

8.6。专利摘要器
8.6.1。数据集

实验对萃取总结方法与智能设备进行专利文件集。这个专利文件集包含专利从smarthome smartwatch,检索和智能手机领域,作为查询的一部分处理器模块和引文分析仪模块图2。这些专利文档收集通过谷歌搜索应用程序编程接口(API)使用扩展搜索查询和引文分析。这里,作为输入,使用专利的详细描述和总结summary字段作为参考。本文档设置为每个搜索查询包含500个文档。

摘要式的总结模型训练使用BIGPATENT [28数据集。这个数据集包括130万专利文件分组下九大类基于合作专利分类(CPC)。每个专利体现作为输入,抽象写的申请人可以作为黄金标准总结。黄金标准总结的平均长度约为100字。很难在内存中保留很长序列并生成这个长度的摘要。因此,该抽象总结只使用从抽象和使用它们作为前两个黄金标准总结。随机下专利技术类别选择“g”和“h”培训和验证。

所有专利文件考虑预处理去除数字和特殊符号,和文本转换为小写。在130万个文档,包含17743个文档的模型训练和验证7605项专利。平均来说,训练和验证的文件选择平均100个句子和45个单词/句子。所以,小于50的专利文件的句子并不认为在训练和验证。这个数据集的统计数据总结表8。培训和验证的平均萃取长度是756年和687年,分别。同样,平均human-crafted摘要长度为40个单词训练和验证。这些总结的模型进行测试与总结器模块的结果。

8.7。评价指标汇总

胭脂(Recall-Oriented替补依据评价)74年recall-based测量),用于验证提取和抽象总结模型的性能。胭脂是基于预测之间的重叠字格(内容重叠)和黄金标准的总结。胭脂的变体中,最常见的措施,例如ROUGE-1 (unigram),胭脂2(三元),ROUGE-L (lcs)这里用于评估。对于这些指标,它展示结果的精度、召回和f值。

8.8。史书的萃取效果

我们总结器模块由两层元14感知器在输入层。隐层的大小是输入的两倍,因为它有助于发现潜在的因素。最后一个隐层是一层softmax 2神经元。2神经元代表类的句子在哪里被包括在总结。这个模型是固定的学习速率0.1。质量产生的总结总结器模块测试通过应用在智能设备专利文件集和他们的结果与最先进的方法相比潜在语义分析(LSA)和TextRank。结果与总结工具免费史书(http://freesummarizer.com/)。摘录(前3个句子)总结萃取堆叠元模型,生成的LSA, TextRank,史书和免费测试文档如表所示9

观察表9,生成的采掘总结使用堆叠遏制是一贯和组织良好的。在另一方面,LSA和TextRank冗余项。在文理学院中,句子2和3是多余的。

同样,在TextRank,多余的行为是观察到的句子1和2。虽然我们消除冗余的条目和阅读它们,它们是不一致的,很难找到文档的最终目标或主题。免费史书另一方面产生冗余系统总结,但句子组织。

10揭示了胭脂获得的分数不同的萃取总结模型和工具。在这些模型中,LSA、TextRank和免费的史书有50%的压缩率,而堆遏制平均压缩率约为60%。从表10,我们总结器模块使用堆叠遏制ROUGE-2得分方面达到更好的结果比其他指标(ROUGE-1和ROUGE-LCS)。堆叠遏制优于所有其他采掘总结的方法和工具,因为以下两个原因。

最重要的原因是特征提取器。提取的特征是通过考虑语义,句子特点,冗余和相干源文档和现有技术搜索查询。语义的重要性计算与智能设备领域本体与概念相关领域本体和句子为主。冗余是通过句子之间的相似度计算对消除。同时,连贯性与先前技术搜索实现标题和搜索查询相似计算功能。其次,遏制发现比其他方法更潜在的因素。观察从表10,所有胭脂的精密分指标高于召回范围。这是因为获得短于金本位采掘总结总结。解决这个问题的一个可能的解决方案是要总结一代从输入文本限制数量的句子而不是突出句子生成基于特征的提取。

虽然基于度量,堆放遏制性能更好,可以提取相关,突出句子的专利,至关重要的是评估候选人通过领域专家总结定性。可读性的一部分生成的摘要是由专利分析和定性分析的领域专家从学术界。两个专利分析师和五个计算机科学领域专家评估50独立候选人总结关于金本位真理和输入专利文本。评估人员评估通过专注信息量,可读性,生成的有效性方面总结。信息量评估是否生成的相关总结。也检查是否输入文本的总体内容是否传达了在生成的摘要。可读性检查一致性或连贯性理解性质的总结。最后,有效性评估是否可以使用生成的摘要等。这些因素是通过测量评估的分数范围从0到5与5更连贯,读,和信息,1是不合理的,而不是总结的有效替代。在表11,平均得分的三个因素(信息量、可读性和有效性)萃取模型列表。结果列在下表中11表明堆叠遏制达到良好的得分在所有三个焦点相对于其他方法。

每个算法的平均执行时间图6。它可以注意到从堆叠的执行时间的图元比其他模型更高的一边,因为它涉及到内部参数的数量评估。另一方面,与自由的史书,平均执行时间是静态的,因为它是基于网络的,它不会消耗太多的时间。尽管它消耗时间、摘要生成证明值得的时间消耗。

8.9。的影响摘要式的史书

所有的实验和LSTM Bi-LSTM进行512潜在的维度和128嵌入大小。Seq2Seq模型与单层LSTM从培训文档学习嵌入与堆叠LSTM Seq2Seq模型时(2层)和注意力和堆叠Bi-LSTM Seq2Seq模型(3层)利用pretrained嵌入ConceptNet NumberBatch和关注。避免过度拟合,进一步提高模型的性能,采用辍学。LSTM和Bi-LSTM层0.3的编码器有辍学,辍学0.2采用译码器。0.3或0.2辍学意味着30%或20%的神经元可以在训练。亚当[75]参数 1 = 0.9, 2 = 0.999, 与学习速率 = 0.001被用于所有的抽象总结实验优化。亚当被选中,因为它结合了其他的属性如RMSProp和AdaGrad随机梯度优化算法。LSTM模型训练50时代而Bi-LSTM模型训练100时代。模型,早期停止成立后,验证数据的损失并不能提高5时代(耐心= 5)。同时,为了避免爆炸梯度问题,梯度阈值的剪裁技术应用5。10的波束宽度模型中使用这意味着它认为最多10个词在每个时间步,生成目标词。所有这些抽象的相加模型训练在谷歌Colab笔记本与T4 Tesla GPU环境。这些模型运行10倍他们随机初始化模型与这些参数,提出了和他们的平均成绩表12

观察从表12,使用堆叠Bi-LSTM Seq2Seq模型关注和ConceptNet pretrained嵌入实现更好的性能比其他模型。这胭脂的分数可以看到堆叠Bi-LSTM改善ROUGE-1叠LSTM 5.7%, ROUGE-LCS ROUGE-2 3.6%, 4%。这些模型生成的示例总结在表表示13。在表中,文本的讨论基于蓝牙考勤管理系统使用智能手机。讨论所涉及的组件和系统的工作模型。研究结果表13表明使用LSTM Seq2Seq模型缺乏主要关键词和重复公共关键字而Seq2Seq模型与堆叠LSTM比LSTM有更好的总结。同时,总结堆叠LSTM比LSTM词汇表示。这种改善是由于ConceptNet嵌入。在另一方面,Seq2Seq模型LSTM学习从较小的训练数据嵌入相比pretrained嵌入数据集的大小。比较这两个模型,使用Bi-LSTM Seq2Seq模型生成的摘要,注意,ConceptNet嵌入合理得多。虽然摘要并不代表所有关键词出现在参考总结如“识别系统”,“应用系统”,“芯片”等等,这是可以理解的,主要概念相关的文本。

9。结论

在本文中,我们提出了药品资格预审规划,专利的采掘和抽象的史书。这史书是基于搜索查询提取突出方面的专利申请文件,扩展domain-dependent和特定领域的知识库。药品资格预审规划过滤器使用LDA-based主题无关的文档建模和提高相关专利检索通过书目耦合进一步提高检索效率。药品资格预审规划提出一套排名排名结果检索模型,通过提供weightage不同领域的专利。最后,它使用深度学习模型叠加遏制和Bi-LSTM总结排名的专利萃取和抽象地。

药品资格预审规划模块的评估结果支持该方法的有效性。约1600智能手机的专利申请,smartwatch和smarthome域与药品资格预审规划系统测试。药品资格预审规划查询处理器模块使用domain-dependent和特定领域本体,从而为现有技术检索大约1000现有技术专利搜索查询生成和扩张。查询处理器系统的子模块的检索效率评估,并发现与领域本体的查询扩展完善相关文档检索召回了约28%和56%,分别在WordNet-based查询扩展系统和谷歌现有技术搜索系统。使用相干LDA-based专利文件过滤排除无关的文档得分和intertopic距离地图。结果手动审查使用IPC,专利检索可能错过了由于信息过载使用BC。合成专利集萃取与堆叠遏制总结。平均ROUGE-1、ROUGE-2 ROUGE-LCS召回堆叠遏制的得分0.46,0.68,和0.46,分别是更好的比其他先进的模型像LSA, TextRank,史书和自由的工具。摘要式的专利摘要生成使用seq-seq Bi-LSTM NumBatch嵌入和关注超过其他模型平均召回0.399,0.252,0.35,ROUGE-1 ROUGE-2和ROUGE-LCS分别。作为未来的工作的一部分,我们打算更新汇总模型更多的句子。

数据可用性

专利数据用于支持本研究的发现是通过谷歌收集的专利搜索API和公开专利服务。它们可以爬和检索。

的利益冲突

作者宣称没有利益冲突。

确认

本研究由Visvesvaraya博士计划电子&程序(批准号3408 / PD6 /神/ 2015)。