研究文章|开放获取
Asma Adala Nabil Tabbane,萨米Tabbane, ”一个框架,用于自动基于语义Web服务发现和NLP技巧”,多媒体的发展, 卷。2011年, 文章的ID238683年, 7 页面, 2011年。 https://doi.org/10.1155/2011/238683
一个框架,用于自动基于语义Web服务发现和NLP技巧
文摘
更多的Web服务是可用的今天,自动发现被认为是一个重要的任务。促进服务发现的自动化,创建了不同的语义语言描述的功能服务,允许在一个机器可判断的形式使用语义Web技术。问题是,用户没有亲密知识语义Web服务语言和相关的工具包。在本文中,我们提出一个发现框架,使语义Web服务发现基于关键词写在自然语言。我们描述一种自动发现语义Web服务的新途径,采用自然语言处理技术来匹配用户请求,用自然语言表达,语义Web服务描述。此外,我们提出一个有效的语义匹配技术来计算本体概念之间的语义距离。
1。介绍
提供大量的web服务是现在和未来这一趋势将持续下去。需求增加,因此框架自动发现服务对用户需求高度相关。
启用Web服务的广泛采用一套灵活的和可扩展的基于xml的标准,如WSDL (1UDDI (),2),和肥皂(3]。然而,这些目前只提供基于xml规范语法的描述Web服务提供的功能,因此仍然需要人工交互特别是在发现过程。因此,一个更可靠和有效的Web服务发现方法,适用于自动处理,是必要的。
语义网(4]视觉鼓励研究人员充实现有的Web服务描述与machine-interpretable语义,语义Web服务,以自动化相关Web服务的核心任务,如发现、组合、选择和调用。语义Web服务技术的目标是尽量减少手动发现和使用Web服务,允许软件代理和应用程序自动识别、整合和执行这些Web资源来实现用户目标。
提出了很多方法自动Web服务发现,部分中讨论4。然而,他们目前几个主要的局限性。首先,一些提出发现框架是基于一个用户请求后表示在特定的语义描述语言owl - s (5],WSMO [6),或WSDL-S [7]。因此,他们要求最终用户非常熟悉语义Web服务和相关描述和实现细节,使最终用户的使用困难。第二,发现这些方法的范围往往局限于一些发表在一个特定的Web服务描述的标准。最突出的语义Web服务框架后基于owl - s和WSMO标准。这个限制是不切实际的,因为它预计所有广告服务语义标记描述,尤其是绝大多数的描述已经存在的Web服务是使用Web服务描述语言(WSDL)指定和没有相关的语义。此外,它使假设使用服务描述语言,它将限制特定的广告服务的发现过程。
另外,从服务请求者的角度来看,请求者可能不知道的所有知识构成了领域本体。具体地说,服务请求者可能不知道所有相关服务条款的要求。由于许多相关服务请求可能不会被视为服务发现过程中。
另一个限制一些拟议的框架由语义匹配方法。事实上,这两个服务提供者和服务请求者使用领域本体构建语义服务描述文件。语义媒人使用双方的领域本体来确定他们的语义匹配度。大部分提出方法假定两个服务提供者和服务请求者使用相同的领域本体来描述服务功能在真实的场景中不适用。为了克服这种本体异构性,需要利用本体映射技术来协调这些本体支持互操作性之间的差异。
为了解决了现有方法的局限性,我们首先提出一个发现框架基于用户查询用自然语言表示的。然后,我们使用自然语言处理(NLP)执行查询预处理技术以从用户查询中提取关键字。与正式的查询,关键字查询有很多优势。他们提供了一个简单的语法方面的关键词短语和开放的词汇表的列表中用户可以使用自己的语言来表达他们的信息需求。同时,关键字搜索更熟悉的用户由于其广泛的使用(例如,搜索引擎,UDDI注册中心)。
然而,创建一个语义Web服务发现引擎使用的关键字的方法可以是一个复杂的任务。事实上,许多问题应该考虑为了回答这些问题。(我)如何提取最相关的信息从一个语义Web服务描述?(2)如何从用户查询匹配关键字从语义Web服务描述文本信息?(3)如何将英语单词映射到本体概念为了执行语义匹配呢?
其次,我们建议的框架不做任何假设Web服务描述语言的广告。实际上,一个发布Web服务WSDL中描述或在任何后像owl - s和WSMO语义Web服务描述语言。最后,为了解决本体异构性问题,我们提出了框架雇佣了一些自然语言(NLP)技术来提取感官从用户关键字和Web服务的描述。它还包含一个映射模块把英语术语出现在WordNet [8,9)词汇数据库提出上层本体合并(相扑)[10]。
本文的其余部分的结构如下。我们现在部分的相关工作2。节3,我们提供一个背景材料,了解了方法至关重要。部分4详细介绍我们的提议发现框架及其不同的模块。节5,我们现在的一些结论。
2。相关工作
许多研究已经努力发现Web服务框架。他们通常设计成syntactic-based方法和基于语义的方法。这两种方法之间的主要区别是总结表1。syntactic-based搜索引擎通常是基于WSDL发布在UDDI Web服务描述。一个例子就是搜索eSynaps [11)引擎。Seekda !(12]试图更进一步,通过从WSDL文件中提取语义,使运行时类似的服务和组合服务的交换。Seekda !还没有在现有的语义Web服务描述文件,但只有利用Web服务的WSDL文件。
|
|||||||||||||||||||||||||||
基于语义的方法利用Web服务的语义描述自动发现过程和使用语义Web技术。戈蓝[13),例如,是一种目标驱动的方法搜索WSMO Web服务。它由一个存储库与WSMO目标和国家允许用户通过编写一个句子用浅显的英语他们的目标。语言分析器将从用户中提取关键词的句子和WSMO目标将基于这些关键字搜索。最高的WSMO目标匹配将被送到WSMX, WSMO服务发现和组合的一个执行环境。WSMX将寻找WSMO Web服务连接到给定WSMO目标通过一些WSMO中介器并返回WSMO Web服务返回给用户。这种方法很好地利用WSMO框架的功能,但它不能申请后等语义语言owl - s、没有这样的目标表示元素。
Sycara等人介绍了云雀(14用于描述代理功能和请求,他们的相亲。媒人的发现/匹配引擎代理是基于各种不同的复杂性和过滤精度,用户可以选择。然而,该模型缺乏在定义服务请求将由用户指定。同时,云雀假定存在一个共同的基本词汇为所有用户。
METEOR-S发现(15)框架解决发现的问题在一个场景中,服务提供者和服务请求者可能用不同的本体。他们的方法依赖于注解服务注册中心(为特定域)和利用这类注释中发现。
3所示。背景
在本节中,我们描述了一些概念定义和方法利用在我们的框架。我们首先提出一些语义网相关技术。然后,我们简要描述一些自然语言处理(NLP)技术利用我们的方法来处理用户查询用自然语言和Web服务描述在执行语义之前相亲。我们终于对WordNet和相扑项目概述。
3.1。本体
本体是一个显式的共享各种概念的规范在一个特定的领域。它在语义网起着至关重要的作用,试图捕捉一个域的语义通过部署知识表示原语,使机器理解概念域之间的关系。
因为一些关系和公理,本体可以有效地推断,因此我们可以表达一个概念的语义通过建立其他概念之间的复杂关系,属性和实例。领域本体的层次概念的详细描述。摘要和总结对象、关系和类被表示为一个词汇。词汇表中的词汇的集合的概念。本体是一个世界概念化的详细描述。领域本体是集的概念域。在实际的应用程序,人们总是构建领域本体在各自领域(如旅游本体,通信本体和医学本体)。
3.2。本体语言
提出了本体的描述语言来解决语义异构网络资源和服务。然而,猫头鹰被认为是一个主要的技术为未来实现语义Web,因为它是基于XML的猫头鹰不同类型的计算机之间交换的信息可以很容易地使用不同的操作系统和应用程序的语言。
Web本体语言(OWL) (16)是一个Web本体语言来定义和实例化。它曾被称为DAML + OIL语言。OWL的本体可能包括类的描述,以及它们的相关属性和实例。猫头鹰是专为使用的应用程序需要处理信息的内容,而不只是提供信息给人类。它促进更大的机器比XML支持的Web内容的可解释性,资源描述框架(RDF),和RDF模式通过提供额外的词汇表和一个正式的语义17]。猫头鹰有三个子:OWL lite, OWL dl和OWL full。这三个越来越富有表现力的子被设计用于特定的实现者社区或用户(16]。
3.3。Web服务描述语言
传统的Web服务描述使用基于xml的标准并发布到一个特定的注册标准。
3.3.1。WSDL
WSDL (1)是XML格式来描述网络服务的抽象术语来源于具体的数据格式和协议用于实现。然而,WSDL不支持服务的语义描述。例如,它不支持的定义逻辑约束之间的输入和输出参数的概念虽然XSD定义的输入和输出类型。
3.3.2。UDDI
UDDI (2)是一个著名的Web服务存储库。UDDI规范由一个程序员的API以及一个支持数据结构和消息的XML模式定义。UDDI存储库包含的信息业务,服务,服务绑定以及额外的元数据进行分类。然而,UDDI并不代表服务功能。它使用tmodel提供一个标签机制。执行服务的UDDI搜索的字符串匹配定义的字段。因此,它不适合定位服务语义的基础上规范的功能。
3.4。语义Web服务描述语言
语义Web服务是服务,富含machine-interpretable语义。语义描述旨在提高集成和Web服务发现利用的机器可读的结构表示。
提出了几个标准来创建语义Web服务。每个人都有自己的力量,可以在特定的情况下使用。一些流行的语言描述如下。
3.4.1。为了进行
为了进行(5)是一个基于owl Web服务本体,向Web服务提供者提供一组核心的标记语言,描述属性的构造,功能明确的Web服务和计算机可判断的形式。为了进行描述是由三个部分组成的服务配置,服务模式和服务的基础。服务配置文件描述了服务能力和发现过程中使用的部分。服务模型描述服务是如何工作的(内部流程),和服务接地指定如何访问服务的细节。
3.4.2。WSMO
WSMO [6]提供了一个概念性的框架和一个正式的语言来描述Web服务的所有相关方面促进服务发现的自动化使用语义。WSMO的总体结构分为四个主要元素(6]。(我)本体:提供其他WSMO元素所使用的术语。(2)Web服务描述:描述Web服务的功能和行为方面。(3)目标:代表用户的欲望。(iv)介质:旨在自动处理不同WSMO元素之间的互操作性问题。
3.4.3。WSDL-S
当前的WSDL操作在句法层面,缺乏语义表达能力需要代表Web服务的需求和功能(18]。WSDL-S [7)是一种轻量级的方法添加语义Web服务。WSDL-S,语义模型维护以外的WSDL文件和引用的WSDL文档通过WSDL可扩展性元素。
3.5。NLP
自然语言处理(NLP) [19,20.)是计算机科学和语言学的领域涉及计算机和人类之间的交互(自然)的语言。NLP是一个探索的研究领域和应用程序如何使用计算机来理解和操纵自然语言文本或语音做有用的事情。从理论上讲,自然语言处理是一个非常有吸引力的人机交互的方法。NLP与计算语言学领域有很大的重叠,通常被认为是人工智能的一个分支,它。
在我们的工作中,我们采用一些NLP技术介绍如下。(我)分词:文本(即解析连接的过程。,text that contains no spaces or other word separators) to infer where word breaks exist.(2)阻止:减少变形的过程(或有时派生)话说茎,基地,或者根形式。例如,阻止算法减少了单词“钓鱼”、“钓鱼”,“鱼”和“雪”根词,“鱼”。(3)词性(POS)标签:标记词在文本的过程(语料库)对应于一个特定的词性,基于它的定义以及它的上下文。POS薄铁片使识别单词的名词,动词,形容词,副词,等等。(iv)词义消歧(WSD):识别的过程的一个词(即感。,意义)在句子中使用这个词有多个含义(一词多义)。
3.6。WordNet
WordNet [8,9]是一种电子词汇数据库为普林斯顿大学英语语言意识到乔治·米勒的团队和基于心理语言学理论。在WordNet,名词、动词、形容词和副词分为认知同义词集(同义词集),每个表示一个截然不同的概念。它是相互关联的概念语义和词汇关系。
WordNet是感兴趣的,不仅因为它是一个巨大的词汇库数据,还因为它是如此广泛使用。它已经被用于自动化sense-disambiguation,扩张在红外系统,建设文档内容的结构表征。事实上,WordNet如此受欢迎,它几乎被认为是NLP社区的事实上的标准。
3.7。相扑
相扑(建议上层本体合并)10]是一种本体Teknowledge公司创建的大量输入锁(标准上层本体)21)邮件列表,它已被建议作为一个入门文档锁IEEE-sanctioned工作组。
相扑是由合并公开本体论内容到一个单一的、全面的、和凝聚力的结构。
4所示。提出了框架
在本节中,我们提出我们的发现框架呈现在图1。我们给详细描述对我们提出的关键字搜索Web服务发现方法,使用句法或语义描述语言和通知在Web服务注册中心。这个搜索机制结合自然语言处理技术来建立用户之间的匹配搜索查询,包含英文关键词,和一个Web服务描述。整个过程在一个序列图建模表达UML(统一建模语言)标准和呈现在图2。
4.1。框架体系结构
我们发现过程旨在使高效搜索适当的Web服务根据用户查询。在提出发现框架,我们假设有一组Web服务WSDL中描述,为了进行,或者WSMO语言和由服务提供商在Web服务注册中心进行发布。这些描述是由我们的系统解析和阅读为了提取所有有用的信息元素的相亲过程。NLP技术被应用于提取信息,为下一步找到有用的单词。单词可以有不同的感官,某种意义上进行消歧。为了在相扑每个单词映射到相应的概念本体,WordNet /相扑映射。中的最后一个过程框架语义相亲。它是基于本体中定义概念之间的语义距离计算。
从服务请求者的角度来看,我们的系统提供了一个简单的图形用户查询接口,以便发现过程。因此,框架作为输入一个查询用自然语言表达,从中提取有用的关键词。因此,整体架构和实现技术对用户透明。必须也预处理匹配用户查询服务描述使用相同的流程作为服务描述。最后,概念映射到感官消除了歧义的搜索查询匹配的概念映射到Web服务描述的感官消除了歧义。
4.2。解析器和读者服务
提出了在部分3所示。3和3所示。4,存在许多Web服务描述语言。为每个服务注释,不同的读者是必要的。读者必须能够提取元素的Web服务描述和它的本体在语义标注的情况下使用。
后的owl - s和WSMO Web服务,元素名称和非功能性描述等功能(输入/输出),Web服务的条件,影响应该提取服务读者。提取概念的元素后,服务读者搜索他们的非功能性描述从本体的数据库中提取相关的本体。
在WSDL描述的情况下,服务读者提取操作参数(所有条款在<元素名称>和<文件>标记)。
从Web服务描述中提取单词之前,必须解析描述。不同的语言可以代表不同的语法,因此需要不同的解析器。例如,对于像WSMO4J WSMO上解析器(22可以使用)。芝麻(23和耶拿24)是为了进行解析器的例子。
4.3。服务和查询预处理器
Web服务描述必须预处理为了变换元素提取到有用的单词,可以稍后处理。用户查询必须也从一个查询预处理提取有用的关键词写在自然语言。预处理,利用一些NLP技巧。
首先,分词如果需要执行一系列书面语言分割成它的组成单词。一个词的空白是一个很好的近似分隔符。在元素名称的情况下,只需把单词足够当情况发生了转变,因为在大多数情况下,他们被编写为骆驼的话(例如,TravelCheckingService)。为WSD找到有用的单词,句子中的每个单词发现必须与正确的词性标记(PoS)如名词、动词和形容词。标记和标点符号然后删除。还需要大写字符转化为小写。第二,停止一切话从提取的元素。阻止最终加工转换获得根等四个方面。
4.4。词义消歧
词义消歧模块建立了语境收到预处理器通过提取相关的感官。这将导致一系列的感官,每个代表一个一个字的意义。概括地说,WSD包括给定单词的协会服务描述或在用户请求一个定义或意义(感觉),这是区别于其他含义可能归因于这个词。任务因此必然涉及两个步骤:(1)确定每一个字的所有不同的感官和(2)分配一个词的每一个适当的意义。
在我们的方法中,我们使用的一种变体SSI算法(25)获得感官的一组词,因为它表明(1)。该算法避免一个词(词基于一组之前消除了歧义的词汇和相关的感官。每一词(),一个相似的感觉从上下文()计算并选择最高的感觉相似。选择之后,这个词和它的意义将被添加到上下文()和迭代将完成。这一过程持续进行直到没有模棱两可的单词了 在过程的开始,一个上下文尚未建立。为了消除歧义的含义的话,可以有多个感官,一分之一必须找到更多的单词,只有一个(单义的话说)初始化上下文。如果所有的单词有多个感官(一词多义的词),至少选择模棱两可的词,和它的每个感官,该算法模拟好像被用作初始上下文。每次新添加到上下文,新的意义和上下文之间的相似性。创建的意义相似措施的最高金额在其模拟用于上下文初始化。
相似度函数(sim卡)中定义的部分3所示。6。
4.5。WordNet /相扑映射
WordNet之间的映射和相扑可以被看作是一个自然语言索引相扑。它提供了一个工具,允许用户输入英语术语和返回相扑概念与输入相关条件通过WordNet同义词集。WordNet /相扑映射模块提供的功能分配的结构意义相扑自由文本。事实上,所有提取的感官从WSD模块在相扑本体匹配等价的概念。因此,语义相亲可以应用到用户查询相关的概念与service-description-related概念。
4.6。语义媒人
一个基本的语义相亲一步是计算概念之间的语义距离在本体中定义。在语义匹配模块中,我们利用一种新型edge-based方法测量两个本体概念之间的语义距离,提出了细节在我们以前的工作(26]。边缘是直接在本体两个概念之间的语义关系。在我们建议的方法,两个概念之间的语义距离是一个函数边的权重值在两个概念之间的路径。优势的重量取决于两个参数父节点的深度(超级概念)的层次结构()和当地的父节点的密度()。这个语义距离函数中定义 的计算优势体重是表达的 相扑的语义媒人在输入两组概念。一组代表了用户查询和其他代表了服务描述。
方程(4)应用于计算最后两组之间的语义匹配度的概念
5。结论
这项工作提出了提供了一个自动发现Web服务的方法。
我们注重这一事实,因为用户经常没有web服务相关知识技术和实现细节,发现框架,用户查询表达自然语言作为输入是必要的。我们建议的框架提供了一个发现机制,使Web-service-discovery-based关键词写在自然语言和任何限制使用Web服务描述语言。我们提出了一种新颖的方法,这种方法获取优势从简单的关键字搜索和语义web紧急技术自动化web服务的发现过程。
我们的一些工作旨在扩大我们的服务发现方法,以支持服务调用和工作流组成。
引用
- W3C Web服务描述语言,http://www.w3.org/TR/wsdl。
- 统一描述、发现和集成,http://uddi.xml.org/uddi-org。
- SOAP 1.2版本。W3C推荐标准,2007年,http://www.w3.org/TR/soap12-part0/。
- t·伯纳斯·李,j·亨德,o·斯莱虽然“语义Web,”《科学美国人》,2001年,http://www.w3.org/2001/sw。视图:谷歌学术搜索
- 为了进行:web服务语义标记,OWL-white纸,http://www.ai.sri.com/daml/services/owl-s/1.2/overview/。
- j·d·Bruijn c . Bussler j . Domingue et al .,“Web服务建模本体(WSMO)”http://www.w3.org/Submission/WSMO/。视图:谷歌学术搜索
- k . Sivashanmugam k Verma a . Sheth和j·米勒,“添加语义web服务标准,”《国际会议上的Web服务401年,页395 -拉斯维加斯,内华达州,美国,2003年6月。视图:谷歌学术搜索
- g·a·米勒,“WordNet:英语词汇数据库,”ACM的通信,38卷,不。11日,39-41,1995页。视图:谷歌学术搜索
- c .编辑WordNet:电子词汇数据库美国剑桥,麻省理工学院出版社,质量,1998年。
- 即奈尔斯和a·皮斯,”连接词汇和本体:wordnet映射到上层本体合并,建议”国际会议信息和知识工程学报》(艾克' 03)416年,页412 -拉斯维加斯,内华达州,美国,2003年6月。视图:谷歌学术搜索
- eSynaps: eSynaps Web服务搜索,2009。
- 语义技术研究所:Seekda !,2009年。
- j·m·戈麦斯m . Rico f . Garcia-Sanchez r . m . Bejar和c . Bussler”戈蓝:目标驱动的语义web服务编排,”车间的程序建模本体实现Web服务卷。113年,CEUR研讨会论文集,2004。视图:谷歌学术搜索
- k . Sycara s Widoff m . Klusch, j . Lu”云雀:动态异构网络软件代理之间的相亲,”国际会议自治代理诉讼和多重代理系统,2002年。视图:谷歌学术搜索
- s . Oundhakar k Verma k . Sivashanmugam a . Sheth和j·米勒,“发现web服务的multi-ontology和联合注册中心环境,”Web服务的国际期刊的研究,卷2,不。3、学会年会,2005页。视图:谷歌学术搜索
- y Alsafadi,肯尼迪。b . j ., s . Bechhofer et al .,“OWL Web Ontology Language指南”,2004年,http://www.w3.org/TR/owl-guide/。视图:谷歌学术搜索
- d·l·麦吉尼斯和f . v . Harmelen OWL Web Ontology Language概述”,2004年,http://www.w3.org/TR/owl-features/。视图:谷歌学术搜索
- m·赫曼·m·a·Aslam, o . Dalferth”应用语义(WSDL、WSDL-S OWL)在面向服务的体系结构(SOA),”第十届国际门生会议学报》上2007年,布达佩斯,匈牙利,。视图:谷歌学术搜索
- d . Jurafsky和j·h·马丁,演讲和Langugage处理,Prentice Hall,上台北,美国,第二版,2008年版。
- n Indurkhya f . Damerau,自然语言处理的手册,CRC出版社,泰勒和弗朗西斯集团,第二版,2010年版。
- 标准上层本体,http://suo.ieee.org/。
- 欧盟坚持把它:WSMO4J API, 2008,http://wsmo4j.sourceforge.net/。
- 芝麻,2009,http://www.openrdf.org/。
- 2008年惠普实验室语义Web:耶拿,http://jena.sourceforge.net。
- r . Navigli和p . Velardi”结构的语义互联:知识型的词义消歧方法,”IEEE模式分析与机器智能,27卷,不。7,1075 - 1086年,2005页。视图:出版商的网站|谷歌学术搜索
- a . Adala n Tabbane, s . Tabbane”服务功能的edge-based语义匹配方法,”计算机技术及应用》杂志上,卷2,不。8,2011。视图:谷歌学术搜索
版权
版权©2011 Asma Adala等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。