使用概念语义注释非结构化文档相似性

文摘

有大量的信息形式的非结构化文件构成挑战的信息存储、搜索和检索。这种情况引发了几个信息搜索方法。一些建议考虑条款中指定查询的上下文意义。语义标注技术可以帮助在非结构化文档检索和提取信息。我们提出一个语义注释战略非结构化文档的语义搜索引擎。在这个提议,本体是用于确定实体的上下文查询中指定的名称空间。我们提取上下文策略重点是概念相似。每个相关的文档与本体的实例相关联。相似性之间的明确关系是通过组合测量的两种类型的关联:每一对概念之间的联系和关系的重量的计算。

1。介绍

网络的迅速发展产生了大量的非结构化文档的形式的信息。搜索引擎为用户已经成为常见和基本的工具。然而,在执行搜索引擎仍有困难,因为都是基于关键字的搜索方法,他们不捕获和不探索的意义和上下文的用户的需求。这一挑战吸引了关注感兴趣的几个研究小组解决问题与信息存储和搜索和检索相关的信息在这个巨大的积云的数据。

另一方面,语义Web的持续增长动力知识结构在不同领域的发展和应用,像维基百科1),有关开放数据(LOD) [2],DBpedia [3],Freebase [4],YAGO [5),在其他应用程序中。此外,一些本体几个领域已经开发出来,如snom CT (6)和uml (7为医学领域和AGROVOC []8农业领域)。本体是一种知识的形式化描述,在语义网中起着非常重要的作用,因为它能够表达的含义和关系。本体在知识提取有价值的技术,尤其是在知识从非结构化文档的聚合。本体语义协会是一个关键的组成部分,它是一个过程形式化知识通过连接词或短语的纯文本(提到或命名实体)本体(概念或实体)的元素。

文档的语义注释在于找到文档的文本块之间的映射和本体的实例或个人。注释中扮演一个重要的角色在各种语义的应用程序中,如代的关联数据,开放信息的提取,对齐的本体和语义搜索。具体来说,语义搜索允许用户表达信息需求方面的知识库的概念。与传统的关键字搜索、语义搜索可以利用本体的语义关系来完成新任务,如炼油与更广泛的用户查询或更具体的概念。

语义注释已被应用于不同领域的知识。例如,它已被应用于生物系统等生物医学实体的识别基因,蛋白质,和它们之间的关系;此外,它已经被应用于识别人的新闻分析,组织和地方。

目前,语义注释策略进行不考虑上下文(9- - - - - -11];这些作品不分析的意义或语义条件。一般来说,作者认为词汇就足以表达文档中术语的含义。然而,在很大程度上,一个概念的语义决定的背景下发生的。因此,识别的意义可能导致歧义的问题。许多研究工作已经证明了词义消歧(WSD)的复杂性,传统的一个术语在哪里搜索的数据字典(例如,WordNet) [12]。其他方法选择分析条件改善的背景下注释过程(13]。语义注释问题仍然是一个开放的研究课题。

注释的过程可以是一个来源的不同类型的问题,例如,(i)模棱两可的注释,当被指派给一个以上的实体概念本体,(2)错误的注释,当文本的意思不是发现本体,和(3)错误的注释,注释不提供任何价值实现的语义搜索。在这个意义上,本文提出一种策略在非结构化文档的语义注释。我们的方法是基于本体和提取本体的上下文语义信息的实体。一个实体的语义上下文本体是由他们的关系。因此,我们建议通过计算提取的语义上下文实体协会每一对概念之间的相似度和权重的计算关系的实体。我们用这个策略,处理模糊的问题,错误的,错误的注释。我们的方法的语义注释是一个在自然语言语义搜索系统的一部分,它一直在评估语料库编纂李和威尔士(14)和DBpedia的。

本文的组织结构如下:部分2描述我们的建议的背景下,部分3介绍了相关工作,部分4介绍了系统的体系结构,部分5介绍了该方法的评价,最后,部分6提供了一些结论和未来的工作前景。

2。基金会

本节介绍了概念和提出的语义标注方法的基础。

2.1。本体

本体由模式和实例(参见图1)。模式被定义为在哪里是一组类/概念 ,是数据类型的集合,组属性吗类之间的关系。实例表示知识和表示一个实例类和它们之间的关系。实例可以被定义为一个图表 ,在那里实例的集合,是关系或谓词绑定实例的集合。

在本体、类、属性数据类型和实例明确识别的统一资源标识符(URI)。此外,他们代表实体内的本体,以他们的文本描述中声明的属性rdfs: label。这可能词汇变化定义为rdfs: label= , 。

图1显示了一个片段本体的研究领域。模式定义了类,如水平实验室和教授和属性等为了。

实例级表示实例化模式。例如,本体是类的一个实例吗ResearchGroup;方法,和爱丽丝·佩雷斯有关财产吗writtenBy和属于类出版和作者,分别。的阿卡普尔科实例包含的文本描述和两个词汇的变化rdfs: label= , capulco德华雷斯 。

2.2。语义注释

语义注释是基本语义搜索中获得更好的结果,因为文档在概念空间中表示。

文档的语义注释在于连接条件在与实体的本体描述的内容最好的文本描述(见图2)。也就是说,让一对entity-term ,在哪里在本体和一个实体是一个词/短语的 ,这之间有一个映射中定义的文本描述标签rdfs:标签的和。

在语义标注技术,文档分析以确定其相关术语和定义每个术语的重要性。有工具来识别提到,比如TagMe [15和焦点16]。

语义注释时不考虑上下文,其条款或提到的实体与本体没有考虑他们的意义。这导致模糊或错误的注释。

我们的研究工作提出了分析注释,以确定其意义的上下文本体中的实体,并以这种方式来避免歧义。提取的背景下,每个实体的显式关系的本体进行了分析。例如,图2显示之间的关系本体实体和ResearchGroup和爱丽丝·佩雷斯。

语义搜索涉及到不同的组件:(i)预处理,(ii)语义查询翻译,语义注解和索引(3),(4)检索的语义内容,以及语义排名(v)。

目前,有几个研究适用于不同领域的语义web的贡献。一些通用工具开发了支持注释过程,同时,特定领域本体和知识库研究小组提出的。

通用的工具。有几个可用的服务命名实体的注释文档,可以使用基于rest的api访问如OpenCalais的情况下(17]。

让我们评论,AlchemyAPI [18]和OpenCalais [17)使用基于上下文的统计技术来消除歧义注释术语候选实例。这些工具使用专有词汇和本体的实例都与DBpedia通过猫头鹰:不同的关系。然而,OpenCalais为DBpedia提供一些有限的联系。同时,OpenCalais主要集中在组织。这种方法有两个缺点。首先,它只探讨了表面图每个DBpedia实例考虑到标签,抽象,Wiki页面的链接,和同义词。其次,这种方法注释术语DBpedia的只有一个实例。因此,这种方法不能利用DBpedia的语义信息来消除歧义的词语注释一个给定的实例。

DBpedia聚光灯(16)是一个语义注释工具数据实体在一个文档是基于DBpedia的注释。消歧,该工具提供接口,包括一个支持XML的Web API, JSON, RFD格式。

门(19文本工程)是一个工具,帮助用户在文本的过程中手工注释。这个工具提供了基本的处理功能,如命名实体的识别,句子分隔器,标记,等等。

Ontea [20.)是一个工具,从文档中提取语义元数据。这个工具使用正则表达式模式作为文本分析工具,和它检测到语义上等价元素根据领域本体中定义的工具。这个工具创建一个新的个人本体定义类和它指定检测元素作为本体的属性类。正则表达式的模式用于注释文本没有格式与本体中的元素。

这些方法有两个主要缺点。一方面,他们只是为每个DBpedia实例探索图形的表面;他们主要考虑标签,抽象,Wiki页面的链接,和同义词。因此,这些方法不利用DBpedia的语义信息来消除歧义的词语注释一个给定的实例。这项工作的另一个缺点在于它丢弃的关系,其中包含相关信息项。也就是说,他们不丰富的描述相关的语义图包含DBpedia的实例文档的上下文相关的。一些工作面对这些缺点通过注释文档图从DBpedia提取。

特定领域的工具。有特定的工具等生物医学注释MetaMap [8],Whatizi [21],Semantator [22]。大部分的方法和工具是基于词典的搜索策略。这些方法在于发现出现的一个概念链在文本片段使用严格的巧合的术语。

语义标注方法基于信息检索技术。波波夫和他的同事们(23)现在的金正日,信息和知识管理的平台,注释、索引和语义检索。这个工具提供了一个标量基础设施个性化信息提取和文档管理和其相应的注释。金的主要贡献是命名实体的识别,根据本体。

卡斯特等人。24提出一个注释分类使用本体信息检索模型。这个模型使用了一个基于本体的半自动语义注释的模式文档。本研究扩展了费尔南德斯et al。25)提供自然语言查询。

Berlanga et al。26)提出一个语义注释/查询策略一个语料库使用几个知识库。这种方法是基于统计框架的概念知识库和语料库文档的表示都是一样的,通过语言的统计模型。这使得有效的语义标注的语料库。

Nebot和Berlanga27]探索语义注释在生物医学领域的使用。他们提出一个可伸缩的方法来提取特定领域的关系。他们提出一个概率的方法来测量同义关系也是一个方法来自动发现抽象的语义关系。

Fuentes-Lorenzo et al。28)提出一个工具来提高网络搜索引擎结果的质量,执行一个更好的分类查询的结果。

在文献中我们可以找到一些方法来优化查询结果。Swoogle [29日)是一个基于光栅系统发现、索引和查询RDF文档。SemSearch [30.)是另一个搜索引擎依赖语义索引和基于芝麻(31日),Lucene。的排名算法是专门为提取本体通过注释。在[32)提出了一个搜索引擎来推断Web页面的上下文并创建相关Web页面的链接。洛佩兹et al。33开发了一个基于本体的信息检索系统。这个系统使用自然语言查询作为输入,并将其转换为语义实体使用自动问答系统。PowerAqua [33)是一个系统恢复和分类文件通过TF-IDF措施(34]。

4所示。语义注释架构

本文提出一种新颖的基于本体的语义标注方法改进的信息搜索的非结构化文件。我们提出一个方法来注释,丰富和语义描述文档的内容使用本体的相似性的实体。具体计算每一对概念之间的关系体重的关系。

我们的方法的目标是(a)连接的实体意义为了进行注释和(b)提供一个框架语义搜索使用自然语言处理。语义标注方法提取的语义上下文通过相似性分析计算的显式关系协会和所涉及的实体关系的重量。图3显示了我们的解决方案的概述语义注释。

4.1。文档索引

通常,自然语言处理(NLP)是用于非结构化文档的分析,以及提到或命名实体的识别和提取35]。

在这种方法中,非结构化的web文档的索引生成反向索引,包含的术语是相对于实体本体论。我们提出一个算法使用Lucene的索引文件。这个算法的输出是一个反向索引包含的术语或关键字列表和一组文件条款出现的地方。

因此,该算法提供了一个从术语映射到文档和注释搜索结果的机制。此外,它获得的位置信息:项ID的列表,与文档的ID,它的位置。

4.2。实体识别

给定一个文档和一个知识库,这一阶段的目标是提取的文本描述和语义上下文有关的所有信息从知识库中。

提到的识别。文件进行了分析检测。一般来说,这个过程称为承认提到或命名实体35]。提到这个词/短语在文本对应于知识库中一个实体。

从本体论的角度来看,一个实体可以表示类、关系或实例。实体可以是人、组织、位置等等。有不同的工具来定义实体,像聚光灯16]和TagMe [15),等等。TagMe使用维基百科作为一个字典条款提到的检测。我们使用这个工具相同的目的。

TagMe分析输入文本和检测提到使用字典的实体/单词(表面形式)。为每一个词,它注册的实体被集名称。这本词典由提取单词从四个来源:维基百科文章,重定向页面,维基百科页面标题和其他变体。

很少出现的词和单个字符的单词被丢弃。最后,额外的过滤丢弃单词链接概率较低(例如,小于0.001)。概率的定义是在的联系在哪里提到的次数显示为一个链接表示提到的次数发生在维基百科。

提到的检测进行了比较克(直到 )的文档。

4.2.1。准备提取的实例

每个文档中发现搜索在本体,如果实例匹配的文本描述,提取标签吗rdfs: label。中包含的值rdfs: label(词汇变化)视为标签相比后的文档索引。

图4显示的片段墨西哥实体代码包含URI、阶级和文字描述有两个词汇的变化墨西哥和美国墨西哥。

4.2.2。提取的语义上下文实例

在这个过程中,提取的语义上下文实例详细分析了。明确的关系URI也进行了分析。提出了一些策略来评估实体根据它们的语义特征的距离21]。语义度量基于图表的使用让我们比较概念,术语,和实例。这项措施是在语义图表示为一个优势为了确定本体概念之间的关系强度。

因此,本研究使用语义度量作为一项战略措施的强度明确实体之间的关系。两种类型的措施被认为是:每一对概念之间的关系体重的关系。每个测量反映了相似度或本体实体根据其意义之间的关系。

概念成对协会。一个实体是明确相关的其他概念的本体。测量每一对之间的关联强度的概念和 ,我们通过计算每一个成对比较相似。图2显示了阿卡普尔科实体有四个明确相关概念(卡洛斯,格雷罗州,墨西哥,理查德。)。

之间的关联强度可以测量每一个成对考虑不同的特征,如两两之间的最短路径的概念,他们的共同祖先的深度和信息内容(36]。

我们采用了蕾斯尼克的方法(37)来衡量两个概念之间的相似度和根据信息内容,使用公式在哪里表示的共同祖先和与更高的信息内容。为每个节点计算的信息内容在本体,而本体中的特定节点越多,其信息内容就越大。有不同的度量来计算(36]。

一般来说,这些指标是内在的。也就是说,他们是基于本体的拓扑信息和考虑发生的实例。这种方法考虑了发生的一个实例量化的新配方,如上所述在哪里表示数量概念的实例和代表本体实例的数量。

从本体图2其中包含1000资源包括实体人,出版,ResearchGroup,我们可以看到一群600人感兴趣的一些研究小组(ResearchGroup)和100人(作者)谁写的一些出版物(出版)。的信息内容为了和writtenBy所获得的吗信息内容的属性代表了歧视的强度之间的关系。然而,这并不足以确定实体的意义。我们建议测量每个属性的重量与一个概念。

重量的关系。基于信息理论,随机变量中包含的信息量超过另一个变量是用互信息来衡量。这一战略提出了覆盖(38),我们已经适应测量成对的关系强度和。在哪里的概率是关系吗属于一组属性和。关系的概率是属于组属性的 ,而的概率是关系吗属于组的属性。

图5显示的关系writtenBy,memberOf,hasAdvisor,而在属于理查德。实体的本体。这些关系的实例如图所示6。

作为一个例子,让我们计算重量之间的关系理查德。和方法,这是writtenBy计算,如上所述应该注意,可以有多个实例的关系。因此,计算重量会有高计算成本的关系。因此,我们计算互信息如上所述在哪里代表所有的关系在设置的关系,代表所有关系(主题),代表所有关系(对象)。

结合协会和体重的关系。权重的组合需要考虑几个聚合方法,如平均、加法和乘法。加权和作为组合方法来调整每个因素的影响总重量被选中。最后,结合每一对概念之间的关联(见(2))的权重关系(见(7)),我们计算最终的重量来获取实体上下文,如上所述在哪里 , 。和归一化的吗范围由单位规范化(13),在

4.3。提取和文档注释

实例的文本描述和实体语义上下文获得前一个阶段进行反向索引提取和生成一个文档的注释表包含本体实体,属于文档,和它的重量(见表1)。


实体	文档	重量

http://ex/onto状态	D1	0.5
http://ex/onto状态	D2	0.2
http://ex/onto状态	D87	0.67
http://ex/onto墨西哥	D1	0.45
http://ex/onto墨西哥	c15	0.6

注释的重量通过TF-IDF算法完成。词频率(TF)是当地的权重因子反映文档中的一个术语的重要性。文档频率(DF)是全球权重因子考虑文档集合中的一个术语的重要性。逆文档频率(IDF)计算文档集合内的频率。特遣部队和IDF计算使用公式说明(10)和(11)。在哪里出现的次数项吗在文档和是出现的次数内所有条款文件吗。在哪里在收集和文档的总数吗表示词的文档出现了。重量为在TF的组合吗以色列国防军。

最后,注释的形式表示序列化JSON-LD三胞胎。

5。评价

皮尔森和斯皮尔曼相关协议,为了测量使用人类的判断。皮尔森相关措施两个变量之间的线性相关,使用范围,订单的数量每组的主题,并将这些范围进行比较。斯皮尔曼是两个连续随机变量之间的相关措施。

实验装置

本体知识库和金姆平台(23]。这个本体有271类和120和属性的关系。一些声明类等人,一般重要组织,政府,和位置。知识库由200000实例,50000位置,130000年组织6000人,甚至更多。

DBpedia [3]。DBpedia在本质上是通用和多语种的全面性。出于这个原因,它被选为我们的实验。英文版本包含685类和2795个属性;知识库是400万多个实例。DBpedia包含多个分类系统,如YAGO,维基百科分类,分层DBpedia本体的子图。维基百科分类系统覆盖率最高的实体在所有三个选项。为了克服这些问题,我们使用维基百科的类别层次结构由Kapanipathi et al。39]。

数据集。LP50是数据集的文档编制的李和威尔士(14),这是用于我们的实验。LP50由50通用消息文档长度在50到126个单词。

Lucene。Lucene的索引文件来生成一个文档索引,包括提及的列表和文档他们出现的地方。同时,TagMe工具被用于文件中提到的检测。我们使用Jena库的分析和提取实体本体论。我们使用Jena TDB三重存储在本地经营DBpedia。

空间问题,表2只显示前25注释的结果文件。第二列显示了在每个文档的字数。列3显示了提到每个文档中发现。4和图5显示的列提到有关金正日和DBpedia本体,分别。


#医生	单词	提到检测	与金	DBpedia有关

	80年	13	8	30.
	98年	21	10	37
	98年	17	7	34
	106年	24	4	42
	80年	13	9	47
	97年	15	14	43
	97年	27	8	39
	82年	24	10	35
	126年	12	7	28
	76年	23	11	41
	83年	17	7	31日
	67年	15	8	38
	103年	4	10	21
	105年	16	9	24
	90年	17	12	45
	75年	18	11	41
	73年	15	8	29日
	62年	16	7	25
	103年	27	13	33
	122年	19	11	25
	94年	18	6	31日
	61年	12	6	22
	72年	13	7	23
	54	13	5	16
	57	13	5	29日

表2只显示几个提到与金正日的知识库。这主要是由于这一事实(i)本体和实例是有限的,(ii)的实体必须有一个价值rdfs: label。

在第一种情况下,如果本体和知识库有限范围,提到的本体可能不存在。因此,本体与一个更大的人口(DBpedia)将覆盖大部分的文件中提到了。

在第二种情况下,实体必须价值rdfs: label,因为这取决于提到和实体之间的联系。DBpedia mention-entity链接更多因为它包含超过400万个实例。

表3显示DBpedia语义注释的结果评价。精密的标准措施,记得,测量,精度是用于评估获得的注释。精度之间的率相关本体的实例和实例检索的总数和回忆之间的比率是检索相关实例的数量和总数量的相关本体存在的实例: TP(真阳性)在哪里设置相关的检索实例,FP(假阳性)的一组不相关的检索实例,和FN(假阴性)的实例集作为nonrelevant错误地检索。


意味着	上下文无关	基于上下文的

精度	0.621	0.893
回忆	0.839	0.799
测量	0.678	0.815
精度	0.644	0.835

结果表明,我们提出的基于上下文的语义标注方法提高了上下文无关的注释方法的结果。

比较先进的。我们的相似度计算方法的结果相比,不同的策略显示状态的艺术。有些方法只考虑边缘的重量,每一个成对概念之间的关系,本体结构。我们用不同的方法相比,我们的方法在文献中测量文档之间的相似度和使用LP50数据集。方法分析了潜在语义分析(LSA) [40),显式语义分析(ESA) (41),突出语义分析(SSA) [40),图形编辑距离(GED) [42],ConceptsLearned [43]。

比较我们的方法的结果与其他方法使用LP50数据如表所示4。皮尔森和长枪兵相关方法的值分别为0.745和0.65,分别。这个结果是最好的相比其他方法的结果。因此,我们的方法明显优于,据我们所知,最具竞争力的相关方法,尽管ConceptsLearned更好的皮尔森和斯皮尔曼相关(0.81和0.75)。这是因为ConceptsLearned使用17个更多的功能与我们的相比,但计算成本很高。


方法	皮尔森相关	斯皮尔曼相关

文理学院	0.59	0.53
欧洲航天局	0.68	0.59
SSA	0.71	0.64
格	0.72	0.64
我们的方法	0.745	0.65
ConceptsLearned	0.81	0.75

与其他指标的信息内容(IC)计算。我们执行测试用不同的指标来计算外在的信息内容和使用方法。内在的信息内容方法可以执行使用两个参数:类和深度一个类的后代。

表5显示了轻微的优势考虑外在信息内容的本体实例。


参数	度规	皮尔森相关

深度	内在	0.743
后代	内在	0.743
实例	外在	0.745

6。结论

在本文中,我们提出了一种非结构化文档的语义标注方法。认为相似的概念本体通过其语义关系。

非结构化文档表示为图,节点代表提到,边代表的语义和关系。每个语义关系有一个权重衡量分配。因此,有更高的体重的重要关系。

背景提取是通过计算两两之间的关联的概念和实体关系的重量。两个值的总和是一个实体的意义或上下文的措施。我们还利用实例知识库中测量信息内容类和关系。

根据艺术的状态获得的结果与我们的方法给最好的结果。

作为未来的工作,我们正努力减少知识库通过选择实体的定义更可能是在语料库中使用。此外,Word2vec工具可以使用语义提取的术语和文件。

最后,这种方法也一直与其他方案相比在文献中可用。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本研究工作已经由欧洲委员会和CONACYT提供部分资助,通过SmartSDK项目。它也有部分由TecNM与项目6021.17 - p。

引用

t·张,k . Liu和j·a·赵”基于维基百科的概念及其应用之间的相似性度量实体链接系统,”《中文信息处理卷,29号2,58 - 67、2015页。视图:谷歌学术搜索
c . biz t, t·伯纳斯·李”有关数据,故事到目前为止,“国际期刊在语义网和信息系统,5卷,不。3,第122条,2009年。视图:谷歌学术搜索
c . biz, j·莱曼,g . Kobilarov et al .,“DBpedia-a结晶点数据网络”,杂志Web语义:科学、服务和代理在万维网上,7卷,不。3、154 - 165年,2009页。视图:出版商的网站|谷歌学术搜索
k . Bollacker r·库克和p·塔夫茨,“毒品:共享数据库的结构化一般人类知识,”在22日国家会议上人工智能(AAAI ' 07),卷2,页1962 - 1963,AAAI出版社,不列颠哥伦比亚,加拿大,2007年7月。视图:谷歌学术搜索
f . m . Suchanek g . Kasneci, g .威库姆”Yago:语义知识的一个核心,”学报》第16届国际万维网会议(WWW ' 07),页697 - 706,阿尔伯塔,加拿大,2007年5月。视图:出版商的网站|谷歌学术搜索
l . Bos和k·唐纳利”,先进的电子健康的术语和编码系统”,研究卫生技术和信息卷,121年,第290 - 279页,2009年。视图:谷歌学术搜索
j . m . Ruiz-Martinez r . Valencia-Garcia j . t . Fernandez-Breis f . Garcia-Sanchez和r . Martinez-Bejar”本体学习生物医学使用uml,自然语言文档”专家系统与应用程序,38卷,不。10日,12365 - 12378年,2011页。视图:出版商的网站|谷歌学术搜索
c·卡拉乔洛,a . Stellato a Morshed et al .,“AGROVOC关联数据集”,网络杂志的语义,4卷,不。3、341 - 348年,2013页。视图:出版商的网站|谷歌学术搜索
a·r·阿伦森和F.-M。朗,“MetaMap的概述:历史视角和最新进展,”美国医学协会杂志》上,17卷,不。3、229 - 236年,2010页。视图:出版商的网站|谷歌学术搜索
r . Berlanga诉Nebot e·吉梅内斯,“语义注释的生物医学文献检索概念”,Procesamiento del Lenguaje自然,45卷,第250 - 247页,2010年。视图:谷歌学术搜索
w·m·戴:Shah宣et al .,“自由文本映射到本体上一个有效的解决方案,”美国医学协会学报》研讨会上转化生物信息学(AMIA-TBI ' 08)美国,华盛顿特区,2008年11月。视图:谷歌学术搜索
r . Navigli和m . Lapata”图连通性的实验研究非监督词义消歧,”IEEE模式分析与机器智能,32卷,不。4、678 - 692年,2010页。视图:出版商的网站|谷歌学术搜索
e . Agirre o·l·德·路易斯,a . Soroa“以知识为基础的词义消歧的随机漫步,”计算语言学,40卷,不。1,57 - 84,2014页。视图:出版商的网站|谷歌学术搜索
m·李和m·威尔士”实证评价模型的文本文档相似性,”学报的27年会上认知科学协会(认知科学05),第1259 - 1254页。Erlbaum Stresa,意大利,2005年7月。视图:谷歌学术搜索
p . Ferragina和美国Scaiella”,快速和准确的短注释文本与维基百科页面,“IEEE软件卷,29号1,第75 - 70页,2012。视图:出版商的网站|谷歌学术搜索
p·n·门德斯,m·雅各布·a . Garcia-Silva和c . biz”DBpedia焦点:阐明在网络上的文件,“第七届国际会议在语义系统学报》(I-SEMANTICS 11)格拉茨,页1 - 8,奥地利,2011年9月。视图:出版商的网站|谷歌学术搜索
OpenCalais, 2014,http://www.opencalais.com/。
2015年IBM, AlchemiLanguage,https://alchemy-language-demo.mybluemix.net/。
d·o·c·s·谢菲尔德大学的与门开发语言处理组件,8版,2017https://gate.ac.uk/userguide。
m . Laclavik m .Šeleng m . Ciglan, l . Hluchy”基于Ontea:平台模式的自动语义标注,“计算和信息,28卷,不。4、555 - 579年,2009页。视图:谷歌学术搜索
d . Rebholz-Schuhmann m·阿瑞奎,s . Gaudan h .樱桃白兰地和a .港务局”文本处理通过web服务:调用它是啥,”生物信息学,24卷,不。2、296 - 298年,2008页。视图:出版商的网站|谷歌学术搜索
c t、d .歌曲、d·沙玛,c . g .槽”Semantator:语义注释器将生物医学文本转换为关联数据,”生物医学信息学杂志,46卷,不。5,882 - 893年,2013页。视图:出版商的网站|谷歌学术搜索
波波夫,a . Kiryakov基里洛夫,d . Manov d . Ognyanoff和m . Goranov“KIM-semantic注释平台”第二届国际会议上语义Web会议(ISWC ' 03)卷,2870在计算机科学的课堂讲稿施普林格,页834 - 849年,森尼贝尔岛,佛罗里达州,美国,2003年10月。视图:出版商的网站|谷歌学术搜索
p·卡斯特,m·费尔南德斯,d . Vallet“基于本体的信息检索的向量空间模型的适应,”IEEE工程知识和数据,19卷,不。2、261 - 272年,2007页。视图:出版商的网站|谷歌学术搜索
m·费尔南德斯Cantador,诉洛佩兹,d . Vallet·卡斯特和e·莫塔,“语义增强信息检索:基于本体的方法,”网络杂志的语义,9卷,不。4、434 - 452年,2011页。视图:出版商的网站|谷歌学术搜索
r . Berlanga诉Nebot m·佩雷斯,“语义搜索定制语义注释,”网络杂志的语义,30卷,第81 - 69页,2015年。视图:出版商的网站|谷歌学术搜索
诉Nebot和r . Berlanga”,利用公开信息提取的语义标注:一个生物医学领域的经验,”知识和信息系统,38卷,不。2、365 - 389年,2014页。视图:出版商的网站|谷歌学术搜索
d . Fuentes-Lorenzo:费尔南德斯j . a . Fisteus l·桑切斯,“提高大型搜索引擎与语义标注,”专家系统与应用程序,40卷,不。6,2287 - 2296年,2013页。视图:出版商的网站|谷歌学术搜索
l .叮,t . Finin a Joshi et al .,“Swoogle:语义web搜索和元数据引擎,”学报13 ACM国际会议信息和知识管理(CIKM ' 04)华盛顿特区,页652 - 659,美国2004年11月。视图:谷歌学术搜索
y Lei,油状虫诉和e·莫塔”SemSearch:语义web搜索引擎,”管理知识在网络的世界里、无助和诉Svtek Eds。卷,4248在计算机科学的课堂讲稿施普林格,页238 - 245年,柏林,德国,2006年。视图:出版商的网站|谷歌学术搜索
道,z Yongjuan z .沈,c . Chengcai和c·亨”与扩展芝麻框架,建立语义信息搜索平台”学报》第八届国际会议上语义系统(ISEMANTICS 12),页193 - 196,纽约,纽约,美国,2012年9月。视图:谷歌学术搜索
萨哈,a . Sajjanhar美国高,r·露和y赵“交付使用RSS提要和web服务分类新闻,”学报第十届IEEE计算机和信息技术国际会议(ScalCom 10)布拉德福德,页698 - 702年,英国,2010年7月。视图:出版商的网站|谷歌学术搜索
诉洛佩兹,m·费尔南德斯·e·莫塔,n . Stieler”PowerAqua:支持用户查询和探索语义Web,”网络杂志的语义,3卷,不。3、249 - 265年,2012页。视图:出版商的网站|谷歌学术搜索
a . Singhal g·索尔顿海、m . Mitra和c·巴克利“文档长度归一化,信息处理与管理,32卷,不。5,619 - 633年,1996页。视图:出版商的网站|谷歌学术搜索
即Augenstein、l . Derczynski和k . Bontcheva”命名实体识别概括:定量分析,“计算机语言,44卷,第83 - 61页,2017年。视图:出版商的网站|谷歌学术搜索
吴z和m·帕尔默,“动词语义和词汇选择,”学报》第32届计算语言学协会(ACL的94)ACM,页133 - 138年,拉斯克鲁塞斯,海里,美国,1994年6月。视图:出版商的网站|谷歌学术搜索
p .蕾斯尼克,”使用信息内容语义相似性评估分类,”学报14人工智能国际联合大会(95年IJCAI”展出),卷2,页448 - 453,摩根Kaufmann出版商Inc .,魁北克,加拿大,1995年8月。视图:谷歌学术搜索
t . m .封面和j·a·托马斯,信息理论威利系列的元素在通信和信号处理约翰·威利& Sons,纽约,纽约,美国,2007年。
p . Kapanipathi p . Jain, c . Venkataramani和a . Sheth“层次兴趣图谱,”2016年,http://wiki.knoesis.org/index.php/Hierarchical_Interest_Graph。视图:谷歌学术搜索
哈桑和r . Mihalcea“语义相关度使用突出的语义分析,”美国25日AAAI人工智能大会旧金山,页884 - 889年,Claif,美国,2011年8月。视图:谷歌学术搜索
大肠Gabrilovich和美国Markovitch使用wikipedia-based明确的语义分析,语义相关度计算”诉讼20国际联合会议上的人工智能(IJCAI 07年展出),页1606 - 1611,海得拉巴,印度,2007年1月。视图:谷歌学术搜索
m . Schuhmacher和s . p . Ponzetto“知识图文档建模”第七届ACM国际会议程序网络搜索和数据挖掘(WSDM 14)ACM,页543 - 552年,纽约,纽约,美国,2014年2月。视图:出版商的网站|谷歌学术搜索
l .黄d·米尔恩·e·弗兰克,h·威滕,“学习concept-based文档相似性度量,”信息科学与技术协会的杂志上,卷63,不。8,1593 - 1608年,2012页。视图:出版商的网站|谷歌学术搜索

科学的规划