文摘

本体描述的物种解剖模型,用于规范实验数据的注释,例如基因表达模式。物种之间比较这些数据,我们需要建立本体描述不同物种之间的关系。本体匹配是一种解决方案,找到不同的本体的语义实体之间的通讯。马尔可夫逻辑网络统一概率图形模型和一阶逻辑提供了一个很好的框架本体匹配。我们把几个不同的匹配策略通过一阶逻辑公式根据解剖结构的本体。成年小鼠解剖学和人体解剖学实验证明了提出的方法的有效性的结果一致性的质量。

1。介绍

本体论技术已经广泛应用于医学和生物学研究[1]。本体描述的物种解剖模型,用于规范实验数据的注释,例如基因表达模式。这样的本体结构和开发促进组织功能的数据属于一个物种。物种之间比较这些数据,我们需要建立本体描述不同物种之间的关系(2]。例如,所有基因表达模式中描述ZFIN(斑马鱼模式生物数据库)是使用斑马鱼解剖学本体论注释。这种本体的列表继续开放的生物医学本体(鄂博)网站3]。

异质性是本体由不同党派的固有特性相同(或相似)的领域。语义异构性的主要障碍已经成为异构本体之间的共享和互操作。本体匹配,发现不同本体的语义实体之间的对应关系,是一种解决语义异构性问题(4]。匹配技术可以在第一级分类为级技术,探讨技术。级技术获得孤立地考虑到实体对应的本体,因此忽视了他们的本体结构的一部分。探讨技术获得通讯通过分析实体如何在本体的结构5]。

最近,概率方法本体匹配的本体实体在全球产生了竞争方式比较匹配的结果(6- - - - - -9]。征兆(6)是第一种方法的使用概率表示本体映射规则和概率推理来改善现有的本体映射的质量。它使用一个贝叶斯网络来表示潜在的概念在本体映射之间的影响。基于征兆,Albagli et al。7)引入了一个新颖的概率方案iMatch本体匹配利用马尔可夫网络而非贝叶斯网络与几个改进。iMatch更好支持使用无向网络的因果依赖关系的性质。Niepert et al。8)提出了一个probabilistic-logical本体匹配基于马尔可夫逻辑框架。马尔可夫逻辑有几个优点超过现有的匹配方法,提供了一种统一的语法,支持不同的匹配策略相同的语言。李等人。9)提高马尔可夫逻辑模型匹配传播策略和用户反馈。参考文献(8,9]显示会议数据集马尔可夫逻辑模型的有效性。

在这篇文章中,我们考虑到马尔可夫逻辑为解剖学基础框架本体匹配。我们把几个不同的匹配策略通过一阶逻辑公式根据解剖结构的本体。

2。材料

评估我们建议的方法的性能,我们进行实验研究使用成年小鼠解剖(2744类)和NCI同义词典(3304类)描述人体解剖学、大型和精心设计的本体。他们也不同于其他本体对特定的注释和角色的使用,例如,广泛使用的部分_关系。这两种资源是开放的生物医学本体的一部分(鄂博)[3]。我们下载的猫头鹰版本两个本体和参考对齐(1516通讯)OAEI解剖跟踪(10]。

NCI同义词典出版的美国国家癌症研究所(NCI)包含许多数据系统的工作术语在NCI使用。它的范围是广泛的,因为它涵盖了词汇对临床护理以及平移和基础研究。在其37386年的概念,4410例(11.8%)符合解剖实体(解剖结构、系统或物质层次)。成年小鼠解剖本体开发的一部分老鼠基因表达数据库(GXD)项目提供标准化的术语在产后小鼠解剖实体。它将用于注释和集成不同类型的数据相关的解剖学,例如基因表达模式和表型信息,这将有助于一个集成的生物现象的描述在鼠标11]。

3所示。方法

在本节中,我们提出我们的马尔可夫逻辑模型结构本体匹配。我们的模型偏离(8,9在几个重要的方面)。首先,我们定义的重要层次结构模型part_of的财产,虽然以前的工作只考虑子类-超类层次。相比之下,我们的模型并不模型属性对应很少有在解剖学本体属性定义。另一个区别是在计算先验的相似之处。会议数据集,8,9]运用相似度度量匹配的实体的名称。然而,解剖学本体的类名是毫无意义的签名如“NCI_C12877。“因此,我们应用的标签相似度度量类。

我们计算一个对齐解剖学本体通过以下三个步骤。首先,我们基于Levenshtein距离计算先验相似标签不同本体的两个类和一个阈值应用到生成候选匹配。然后,我们输入本体的表示形式转换为一阶谓词逻辑,定义一组公式匹配策略。最后,我们执行图推理生成的马尔可夫网络的调整过程和输出最优调整。我们的匹配系统架构基于马尔可夫逻辑网络如图1

3.1。马尔可夫逻辑网络

马尔可夫逻辑网络(12)是一种基于一阶逻辑的统计关系学习语言和马尔可夫网络。一组在一阶逻辑公式可以被视为一组硬约束的组可能的世界:如果世界甚至违反了一个公式,它的概率为零。马尔可夫逻辑的基本思想是软化这些约束:当一个国家违反了一个公式不太可能,但并非不可能。公式一个违反世界越少,越有可能。每个公式都有一个关联的重量,反映出强烈的约束:重量越高,差异越大的世界之间的对数概率满足公式,另一个没有,其他条件不变。

定义1。马尔可夫逻辑网络 是一组对吗 ,在那里 一阶逻辑与一个公式吗 是一个实数。一起一组有限的常数 ,它定义了一个马尔可夫网络 如下:(1) 包含一个二进制节点为每个可能的每个谓词出现在接地 。节点的值是1如果地面原子是真的和0。(2) 为每个可能包含一个功能接地的公式 。这个特性的值是1,如果地面公式是正确的和0。的重量特性

MLN可以被视为一个模板构造马尔可夫网络。给定不同的常数,它将产生不同的网络,但所有将在结构和参数有一定的规律,由MLN相同的(例如,所有停飞的公式都有相同的重量)。我们称这些网络地面马尔可夫网络区别于一阶MLN。从定义1概率分布在可能的世界中 指定的地面马尔可夫网络 是由 在哪里 是真正的停飞的数量吗 , 是原子的状态(真值)出现在 ,

在本体匹配的背景下,可能世界对应校准和给定的目标是确定最可能的对齐的证据。结果表明:马尔可夫逻辑提供了一个极好的框架本体匹配,因为它捕获两个硬逻辑公理和软不确定关于潜在的本体论实体之间的通讯。

3.2。本体表示

本体指定一个概念化一个域的类和属性和由一组公理。匹配是发现的过程从不同的本体关系或实体之间的通讯。通讯的对齐是一组。通信是一个三元组 断言的关系 拥有本体实体之间 ,在那里 从本体是一个实体 从本体是一个实体 (4]。对应的通用形式捕捉范围广泛的通讯通过改变什么是容许作为匹配的元素和语义关系,例如,等价( )、一般( )。在下面我们只是感兴趣在解剖学本体等价类之间的对应关系。

OWL描述的两个输入本体(Web本体语言)。组织的概念在吗子类-超类与多个遗产层次结构。的属性_一个部分_描述部分和整体两个类之间的关系。的属性disjointWith描述两个类之间的关系是理解为十字路口的空虚的解释。例如,在猫头鹰我们可以说,植物和动物有很多类:任何个人可以是植物和动物(这将使SlimeMold空类)的不幸后果。SaltwaterFish可能是鱼和类SeaDwellers的十字路口。图2描述了人类和小鼠解剖本体的碎片。

我们引入一组谓词匹配模型本体的结构。定义谓词如表所示1。我们使用谓词 从本体来表示一个类 。例如, (“NCI_C33854”)代表“NCI_C33854”从本体是一个类 。我们使用谓词 在本体模型类的层次结构 例如, (“NCI_C33854”、“NCI_C25762”) (“NCI_C33854”、“NCI_C12686”)。谓词 模型剥离两个类之间的关系,例如, (“NCI_C21599”、“NCI_C25444”)。谓词 (“NCI_C33854”、“Vascular_System”)代表“Vascular_System类“NCI_C33854”标签。“我们也提出一个谓词 代表标签不同本体的两个类之间的相似之处,例如, (“Vascular_Endothelium”、“血管内皮”, ), 是一个实数。如果我们应用相似性测量基于Levenshtein距离(13),我们有 (“Vascular_Endothelium”,“血管内皮”)等于0.54。一个阈值的应用 是一个标准的技术在本体匹配。我们只生成原子 对于那些对标签的相似性大于 。对应相似性小于 被认为是不正确的。

我们区分两种类型的谓词:隐藏和观察。地面观测的原子谓词被编码和描述知识本体。隐藏的地面原子谓词是没有见过,必须使用地图推理预测。我们使用隐藏的谓词 模型对应的受欢迎的类。

我们使用以下符号约定在表1通过本文的其余部分:(1)所有实体从本体 下标“1”;所有实体从本体 有一个下标“2”。(2)小写字母 , , 有或没有一个下标是一个类。(3)小写字母 有或没有一个下标是一个标签。

3.3。匹配公式

与谓词定义,我们现在可以继续将我们的策略对任务使用加权一阶逻辑公式。马尔可夫逻辑结合软硬一阶公式。这允许包含两个已知的潜在逻辑语句和不确定的公式建模通讯和结构本体的属性。然后它使联合推理两个和多个相互依存的隐藏的谓词。

我们将介绍五种不同的匹配策略约束模型,即先验信念,基数约束、一致性约束,稳定约束和匹配传播。没有重量的公式是一种硬约束,在每一个计算对齐。重量的公式是软约束和体重反映出强有力的约束。为简单起见,我们将从现在开始假设谓词 隐式添加作为一个前提为每个类出现在每一个公式公式。

先天的信心。我们计算一个初始先验相似 每一对标签的两个类在本体基础上,Levenshtein距离(13),使用截止阀值 生产匹配的候选人,上面地面原子谓词 被添加到地面马尔可夫网络。标签的两个类之间的相似度越高,越有可能两个类之间的对应关系是正确的。我们介绍以下公式模型对应的先验信心:

在这里,我们使用相似 标签之间的分子量,因为信心是正确的通信取决于他们的标签是多么相似。

基数约束。一般来说,比对可以各种基数:1:1(一对一),1:m(一对多),n: 1(许多),和m: n(很多很多)。在这项工作中,我们假设的一个约束。我们使用两个公式说明一个概念本体 可以最多相当于一个概念在本体 的一致性,确保计算排列,反之亦然:

一致性约束。一致性约束对齐过程中减少不连贯。这些约束公式添加公式很难保证满意的计算结果一致。下面的公式描述本体的两个不相交的类 将两类本体不匹配 同时与各自的子类关系,反之亦然:

稳定约束。稳定约束的概念是一个对齐不应该引入新的知识结构。稳定约束的公式是软公式与权重反映了约束是多么强大。当一个对齐违反一个软公式不太可能,但并非不可能。公式(5)和(6)的概率减少比对映射的概念 如果 是一个子类 不是的一个子类 :

在这里, 是负面的实值权重,使对齐满足公式可能但可能性较小。

匹配传播。一般来说,如果两个概念 比赛,有一个关系 之间的 和一个匹配的关系 之间的 ,那么我们可以增加匹配的概率 。这是通过添加以下公式模型。公式(7)指出,如果两个类匹配,它更有可能的是,他们的父类比赛。公式(8)描述,如果两个类的部分匹配,它更有可能匹配的类:

在这里, 是正实值权重,本体的结构传播的一致性。这些公式获取本体结构的影响和本体的语义关系和实体之间的增加匹配的概率已经在两个本体匹配实体的邻居。这些公式帮助识别正确的通讯,使基于假设推导了通讯。

3.4。地图推理作为校准过程

后生成所有地面观测的原子谓词中引入前一节中,我们可以选择一个最优校准使用地图从传入的假设推理在马尔可夫逻辑网络产生的匹配公式。给两个本体,我们计算的隐藏的地面原子谓词集的概率最大化给定和地面观测的地面原子谓词公式。让 是地面观测的原子谓词和让 是隐藏的原子组地面谓词 对给定的本体,我们计算 在哪里 公式的重量吗 是世界的数量公式在哪里 成立。

4所示。结果与讨论

4.1。实验装置

我们进行了实验,实现了在java中使用Jena API (jena.apache.org)和SecondString库(14)创建地面原子和基于Levenshtein距离计算标签之间的相似性。然后,我们应用theBeast [15地图推理在马尔可夫逻辑网络,使用整数线性规划(独立)作为基本解算器。theBeast是一个软件工具,提供了马尔可夫逻辑网络推理和学习的方式。实验与英特尔i5 Fedora 7(电子邮件保护)Ghz和4 GB内存。

我们评估模型为解剖学本体匹配相似度阈值 从0.65到0.95不等。手工软公式确定的权重。尽管权重公式可以与在线学习者学习,能够手动设置定性权重作为训练数据通常不可用是至关重要的。进一步,学习权重从参考对齐过度拟合训练数据将导致结果数据。我们设置权重稳定约束处理类层次结构−0.01和设置的重量匹配传播到0.05的基础上考虑,他们是互惠的理念与稳定约束,因此与大致相当的重要性。

我们评估五个不同的设置:之前:制定只包含一个先天的信心。ca:制定包括先天的信心和基数约束。ca +有限公司:制定包括先天的信心、基数和一致性约束。ca +公司+圣:制定包括先天的信心,基数约束,约束一致性约束和稳定。ca +公司+圣+ mp:制定包括先天的信心,基数约束、一致性约束,稳定约束和匹配的传播。

4.2。实验结果

我们使用精度,回忆,F-measure测量的性能匹配结果。鉴于参考校准,我们计算精度随着正确数量的通讯在对应的总数计算对齐方式。我们计算出回忆随着正确数量的通讯/通讯的数量参考对齐。然后,我们计算F-measure作为

3比较精度,回忆,F-measure生成比对的得分参考调整阈值从0.65到0.95在不同设置。从图3我们可以看到,我们的方法达到设定的精度最高ca +公司+圣+ sp实现最高的回忆,而设置的先天的。我们获得显著改善 测量时添加更多的匹配公式到模型中。我们也注意到,没有明显的区别caca +有限公司。因为只有disjointWith的人体解剖学本体定义了关系。然而,我们保持一致性约束我们的模型,因为它可以进一步提高结果的质量如果disjointWith的关系在未来加入鼠标解剖学本体。总的来说,精度随阈值的增长,而召回稍微降低各设置更高的门槛。不同设置之间的利润成为高阈值比低阈值较小。因为只有少量的不正确的通讯在候选人当我们应用一个阈值大于0.8。我们达到最大 测量分数阈值0.8。

我们手工样品几个假阳性通讯和假阴性的对应分析。我们发现,假阳性通讯主要是由类似的标签拼写。例如,错误的信件(“NCI_C33592”、“MA_0002058”)也有类似的标签“Spiral_Artery”和“腓动脉。NCI_C33592“此外,超类的超类(“NCI_C12372”)和“MA_0002058”(“MA_0002058”)相匹配,而造成的假阳性通讯主要是不同的标签,如“Tarsal_Plate”“NCI_C33736”和“眼睑睑板”“MA_0000270。”和“NCI_C33736”没有子类和部分;因此我们无法找到对应通过公式(7)或(8)。

4是我们的方法的性能的比较和参与系统OAEI 2014也在解剖追踪产生相干对齐。从图4,我们可以看到,我们的方法(MLN-OM)优于大多数系统和可比较的是最好的系统(LogMapLite)。请注意,我们使用一个简单的基于Levenshtein距离相似度测量在修剪阶段,专注于本体的马尔可夫逻辑模型匹配,而LogMapLite使用外部词典(例如,WordNet或UMLS-lexicon)计算一组初始阶段的等效锚映射,它可以很容易地通过我们的方法在修剪阶段进一步提高匹配结果的质量。

5。结论

在本文中,我们提出一个马尔可夫逻辑模型解剖本体匹配。模型结合五种类型匹配的策略,即先验信念,基数约束、一致性约束,稳定约束和匹配传播。实验结果证明了该方法的有效性。

相互竞争的利益

作者宣称没有利益冲突。

确认

这项研究是国家自然科学基金支持的部分中国批准号。61170020和61170020下,江苏省高校自然科学研究项目批准号13 kjb520021,江苏省科技支撑项目批准号下江苏BE2012075为科技型企业技术创新基金项目批准号BC2013124,苏州市科技支撑项目批准号SG201257 2013苏州市级专项资金项目加快信息化建设,以及江苏省研究生创新研究项目。CXZZ13_0813。