文摘

成功应用的基因本体的推理功能基因产物之间的关系近年来提出了需要间的语义相似度计算方法来自动计算基因产物基于基因本体术语的语义相似度。然而,现有的方法,尽管已经广泛用于各种各样的应用程序,可能大大高估了语义相似性实际上是没有功能相关的基因,从而产生误导的结果应用。为了克服这个限制,我们建议代表基因产物作为向量组成的信息内容的基因本体论注释的基因产物,和我们建议计算两个基因之间的相似产品相应的向量的亲缘使用三个措施:皮尔逊相关系数,余弦相似性,Jaccard指数。我们专注于生物过程域酵母基因本体和注释的蛋白质研究的有效性提出措施。结果表明,语义相似度得分计算提出的措施比得到更符合已知的生物知识使用一个现有的方法列表,显示我们的方法的有效性在描述功能基因产物之间的关系。

1。介绍

在过去的几年里,领域本体已经成功地应用于描述实体在不同的生物领域,与例子包括功能基因产物之间的关系的推导基于基因本体论(去)1- - - - - -3),表型相似性的推理基于人类的人类疾病表型本体(HPO) [4,5),一般的建模计算任务在系统生物学的基础上,系统生物学本体(SBO) [6),和许多其他人7- - - - - -9]。本体提供控制和结构化的词汇在一个特定的生物域和域与词汇注释来描述实体,实体之间的关系可以通过本体的语义相似性量化,从而提供了一个方便而强大的手段,分析实体及其语义关系(1]。然而,实体之间的语义相似度的自动推导基于注释的特定领域本体仍然是一个巨大的挑战,呼吁有效的发展和方便的计算方法10]。

一般来说,领域本体提供了一组控制和关系的词汇来描述特定领域的知识。词汇表,也称为概念或术语,通常是组织作为一个有向无环图(DAG)的顶点表示术语和边缘代表项之间的语义关系。也常见的本体具有多个语义关系。例如,在基因本体,有多种类型的语义关系,如“ is_a ”(任何实例 也是的一个实例吗 )和“ part_of ”(的一个实例 是一个组件的实例吗 )[1]。给这样一个领域特定实体映射到本体和注释术语中,大多数现有的方法首先计算两两之间的语义相似度计算使用本体的结构和注释的实体和实体之间的相似性推导出基于相似性的条件(10- - - - - -14]。

以基因本体为例,为了达到前者的目标,蕾斯尼克提出使用的信息内容(发生的相对频率的负对数项注释的一组基因产物)的共同祖先最低的两个查询条件来衡量他们的语义相似度11]。林修改这一措施通过信息内容的查询项考虑12]。Schlicker等人进一步整合发生的相对频率最低的共同祖先的测量林(14]。江和Conrath提议将查询条件的信息内容通过使用一个公式不同林(13]。作为另一个分支,王等人提出的计算之间的语义相似度去条款只使用底层基因本体的结构信息,考虑两种类型的语义关系:is_a和part_of10]。

用相似性计算,两个查询基因产物之间的语义相似度通常是计算使用mean-max规则[10]。更具体地说,一个词和一组术语,术语之间的相似性,集被定义为最大相似性的项,每项集合。此外,两个集合之间的相似条款被定义为一组的平均每一项之间的相似度和其他集合。最后,因为一个基因产物是由一组注释方面,两个基因产物之间语义相似度被定义为对应的两组之间的相似条件。

上面的方法已经成功地应用于各种领域,与例子包括蛋白质功能相似性的计算基于基因本体论(去)推断疾病的基因(2)之间的表型相似性描述基于人类的人类疾病表型本体(HPO) [5),和许多其他人7]。软件包实现这些方法也被公布和公开可用的生物信息学和计算生物学的社区,与例子包括GOSemSim [15],FuSSiMeG [16],OWLSim [4]。然而,这些方法的缺点也是显而易见的。例如,尽管方法如(12- - - - - -14)努力修改了蕾斯尼克的方法(11),他们的方法通常比执行蕾斯尼克在真实的应用程序中(10),这表明很难有效信息的修订内容。同时,虽然王等人系统地考虑结构和多个基因本体的语义关系(10),他们丢弃的宝贵的资源的信息内容条款,导致一个方法执行比蕾斯尼克在许多应用程序中,如候选基因的优先级2]。此外,结果部分中我们将看到,所有这些方法倾向于高估相似性蛋白质实际上是不相似的功能,从而产生误导的结果应用。

摘要与这些理解,我们建议使用向量代表一个基因产物是由信息内容的条件注释的产品基因本体。基于这种想法,我们建议基因产物之间的语义相似度计算相应的向量的亲缘使用三个措施:皮尔逊相关系数,余弦相似性,Jaccard指数。我们专注于生物过程名称空间的基因本体和注释出芽酵母的蛋白质酿酒酵母执行一系列的综合研究的有效性提出措施。我们计算语义相似度得分之间的酵母基因依赖于生物过程域的基因本体,用产生的语义相似度得分来衡量功能的蛋白质之间的关系,并研究这种关系之间的一致性和已知的生物知识。结果141酵母生化途径,1022蛋白质的家庭,和两个大规模酵母蛋白质交互网络表明语义相似度得分计算提出的措施比得到更符合生物知识使用一个现有的方法列表,显示我们的方法的有效性在描述基因产物之间的语义相似度。

2。方法

2.1。基因本体论和物种特定注释

基因本体论(去)提供了一种控制词汇的术语来描述基因产物的特征。这个本体涵盖三个领域:生物过程(BP),分子功能(MF),和细胞组件(CC)。生物过程域定义了操作或设置的分子事件定义的开始和结束,相关功能的活细胞,组织,器官和生物。分子功能域代表元素活动在分子水平上的基因产物,如绑定或催化。细胞组件域描述的部分细胞或细胞外环境1]。这三个领域是根据有向无环图(DAG)的组织结构,表示为 ,在那里 是一组顶点表示概念和 是一组边表示语义条件之间的关系。在这样一个图,我们使用 表示父母和孩子的设置项 ,包括 本身,分别,我们使用 表示的祖先和后裔的术语 ,包括 分别本身。注意,在基因本体,有多种类型的语义关系,如“ is_a ”(任何实例 也是的一个实例吗 )和“ part_of ”(的一个实例 是一个组件的实例吗 )。

一种指定注释提供了一个从物种的基因产物映射到一个词在一个域(BP、MF或CC)的基因本体。以下常见的规范,注释的基因产物 暗示的注释与所有祖先的基因产物 。有了这个概念,我们代表基因产物的注释 使用二进制注释向量 ,在那里 如果 这个词的注释是索引 或者它的后代 在一个域的总数术语。

3所示。语义相似度相关的信息内容

给定一个域的一组基因本体和注释的基因产物,产品注释术语的概率 或其后代估计使用发生的相对频率 计算及其后代的注释 在哪里 注释的词吗 注释的总数。术语的信息内容 然后计算

此外,所有条款内容的信息域可以表示成一个向量 这个词索引的信息内容 。计算的阿达玛(entrywise)产品 ,我们获得基因产物向量的信息内容 作为 ,在那里 。这样一个向量计算出每一个基因产物,我们提出以下三个措施量化两个实体之间的语义相似度。

首先,我们建议计算相似度的绝对值皮尔森的两个向量之间的相关系数 两个基因产物 作为

在这种方法中,我们假设两个基因产物信息内容, 有一个线性关系,说, 因此,它是自然的使用确定系数( ),衡量好观测结果符合这一线性模型量化两个向量之间的相似度。为了缓解计算,我们只计算相关系数的绝对值,而不是 。请注意,交换 线性模型中的收益率相同的

第二,我们计算相似性的两个向量之间夹角的余弦值 两个基因产物 作为 这相当于两个向量计算偏心的相关系数。很明显,余弦度量将产生相似的结果相关的测量的方法 很小。

第三,我们计算相似性的Jaccard指数两个注释向量 两个基因产物 作为 这相当于计算元素的个数的比率在十字路口和工会两套注释的基因产物

4所示。现有计算语义相似度的方法

大多数现有的方法首先获得条款之间的相似性得分,然后计算语义相似度得分之间的基因产物之间的相似性得分注释方面的产品集合。更准确地说,有两个主要类别的方法计算成对概念相似性得分: 方法基于基因本体和信息方面的内容 方法基于本体结构的绅士。

第一组的方法计算两项之间的相似度 依靠最具体的信息内容项 在他们的共同祖先。一般来说,一个更具体的意义的词往往有更高的信息内容,因此 与这个概念,蕾斯尼克(11定义之间的相似性 作为 林(12)定义了相似 Schlicker et al。14)定义的相似性 江和Conrath13定义两届之间的不同 这相当于定义其倒数相似

第二组的方法计算相似性条件取决于基因本体的结构。简单,因为一个术语索引 王等人,迭代计算的 值为每一个祖先 来衡量的贡献 的语义 作为 的重量 如果 is_a关系, 如果 有part_of关系10]。这时,一个词的语义值 被定义为 。最后,两个词之间的语义相似度得分 被定义为

用两两之间的语义相似度得分方面要准备好,词之间的相似性 和一组术语 被定义为 在哪里 计算使用上面的方法。两组之间的相似性 可以计算的吗

最后,两个基因产物 注释的两组 分别两个对象之间的语义相似度定义为

5。结果

5.1。数据源

已经有相当多的领域特定本体用于描述实体在各种生物域。尤其是鄂博(打开生物和生物医学本体)铸造了八个本体提供标准的描述实体在生物领域14]。在这些本体、生物过程(BP)、分子功能(MF)和细胞组件(CC)通常被称为基因本体论(去),已被广泛用于描述功能的基因。基因本体还提供注释的基因产物几个研究生物模型,包括酵母、果蝇和老鼠1]。在本文中,我们关注的生物过程域和出芽酵母的注释酿酒酵母验证该措施的有效性。我们从生物中提取22688条款过程域的基因本体论(发布于2012年4月27日),获得22798 6383酵母基因的注释(发布于2012年4月28日)。

5.2。随机基因的分布语义相似度得分对

很明显,一对基因随机选择几乎不可能有类似的功能,因此这样的一对基因之间的语义相似性得分应该接近于零。来验证这个观点,我们计算语义相似度得分100000对酵母基因的随机选择,我们总结分数的分布在图1。我们可以清楚地看到从图的相似性得分中位数相关措施(0.004894)几乎是0是余弦度量(0.003196)。Jaccard测量的平均相似度得分(0.03846)高于相关性和余弦措施,但仍低于五个现有的方法。蕾斯尼克的方法生成最小值相似性得分(0.04395)在现有的方法中,紧随其后的是Schlicker的方法等。(0.04810),(0.09115),和王et al。(0.2138)。江等人的方法产生最大的相似性得分中值(0.3460)。从这些观察中,我们得出结论,现有方法倾向于高估基因之间的语义相似度是不相关的功能。另一方面,提出的措施,虽然比现有方法更简单,没有这样的缺点,从而产生更合理的结果在评估随机选择基因对之间的语义相似度。

5.3。基因之间的一致性语义相似度和路径数据

众所周知,大多数生物功能从协同效应的几个蛋白质通常涉及相同的生物过程和形成途径17]。因此,基因产物(蛋白质)在同一路径应该有类似的注释在生物过程本体,反过来这本体的语义相似度得分高。相反,属于不同通路的基因产物应该拥有语义相似度得分相对较低。评估提出了相似性措施是否符合这些知识,我们比较蛋白质之间的语义相似度得分之间的通路和蛋白质参与不同途径如下。

我们下载酿酒基因组数据库(SGD) (18]141通道,每个包括至少两个蛋白质。对于每一种途径,我们计算成对语义相似度得分的蛋白质参与的途径,我们平均这些分数在所有成对的蛋白质中获取语义相似度得分均值通路( )。为每个通路,与此同时,我们进一步随机选择10倍数量的蛋白质的途径,这些蛋白质之间的语义相似度计算分数和途径,并对这些成绩得到平均值语义相似度得分之外的途径( )。然后,我们绘制的意思是相似的分布分数内外所有路径图2。从图中,我们观察到通道内平均相似性分数一般大,而外部途径通常是小的。尤其是,三巨头的提议的措施(相关性,余弦,Jaccard),中位数之间的差异的相似性得分内外途径更明显比现有的五个方法。例如,使用相关测量,我们获得值 随着所有通路0.6578和中位数 为0.02564。使用余弦度量,我们获得一个值 0.6600和一个值 0.02733。相比之下,王的方法生成一个值 0.7405和一个值 是0.2489,蕾斯尼克的方法生成一个值 0.4662和一个值 0.09956。

我们进一步计算为每个通路的比例意味着语义相似度得分在途径在这之外的途径( 等),我们平均比率在所有141个途径获得标准称为褶皱变化中的语义相似度得分途径以外的途径。我们总结了叠图的变化3,我们可以清楚地看到该措施的有效性。例如,使用相关测量,我们获得29.93倍增强。使用余弦度量,我们获得一个26.65折的变化。相比之下,王只产生一个折叠的方法改变为3.03,和蕾斯尼克的方法产生一个略大的褶皱变化为4.83。

这些观察支持这样的结论,提出措施产生更合理的结果在评估功能性蛋白质内途径之间的关系,因此这些措施比现有方法更符合生物知识。

5.4。基因之间的一致性语义相似度和蛋白质域数据

蛋白质通常是由一个或多个功能区域,通常称为蛋白质域(19]。不同的领域通常占蛋白质包含他们的不同的功能,因此蛋白质域的不同组合产生的各种各样的蛋白质在自然界中发现。因此,蛋白质可以分为不同的家庭根据域包含的蛋白质。此外,蛋白质包含相同的域,或者说属于同一个家庭,应该有类似的功能,因此分享一些类似的注释在生物基因领域本体。因此,蛋白质属于同一个家庭应该根据基因本体语义相似度得分高。相反,蛋白质属于不同家庭应该拥有语义相似度得分相对较低。评估提出了相似性措施是否符合这些知识,我们比较蛋白质之间的语义相似度得分之间的蛋白质家族,这些蛋白质属于不同家庭如下。

包含了数据库(20.)提供了大量的高质量的蛋白质家族(Pfam-A)和低质量的家庭(Pfam-B)。26.0版本的Pfam-A集合(2011年11月发布),收集13672个蛋白质家族。从这个数据源,提取1022蛋白质家族,每个包括至少两个酵母蛋白质。对于每一个家庭,我们计算成对语义相似度得分的蛋白质属于家庭,和我们这些平均成绩在所有成对的蛋白质在家庭中获得平均语义相似度得分( )。每个蛋白质家族,与此同时,我们进一步选择随机数量的10倍的蛋白质家族,这些蛋白质之间的语义相似度计算分数和那些属于家庭,和对这些成绩得到平均值语义相似度得分之外的家庭( )。然后,我们计算每个蛋白质家族的比例意味着语义相似度得分在家庭以外的家庭( 等),我们平均比率对所有1022个蛋白质家庭获得标准称为语义相似度得分在蛋白的折叠变化对家庭以外的家庭。我们总结了叠图的变化4,我们可以清楚地看到该措施的有效性。例如,使用相关测量,我们获得一个6.915折的变化。使用余弦度量,我们获得一个6.511折的变化。使用Jaccard测量,我们获得一个3.267折的变化。相比之下,王只产生一个折叠的方法改变为1.856,和蕾斯尼克的方法产生一个略大的褶皱变化为2.370。

我们进一步改变最小数量的蛋白质属于一种蛋白质家族从2到10,计算每种情况下的褶皱变化,目前的结果表1。短暂,褶皱的变化随蛋白质的最小数量的蛋白质家族,但是观察的褶皱变化提出措施比现有的方法保持不变。例如,当考虑含有至少10蛋白质的蛋白质家族,我们获得褶皱变化为9.273,9.814,和4.516的相关性,余弦,分别和Jaccard措施。相比之下,王的褶皱变化的措施,蕾斯尼克,和Schlicker是2.090,2.846,和3.430,分别。从这些结果,我们推测,该措施产生更合理的结果在评估功能性蛋白质之间的关系属于相同的蛋白质家族。因此,我们得出结论,提出更符合生物knowledgethan现有的方法措施。

5.5。基因之间的语义相似性和PPI数据一致性

生物知识表明,蛋白质通常相互作用协同代生物功能(21]。所有物理相互作用的集合在一个生物体通常被称为蛋白质的相互作用(PPI)网络中,节点是蛋白质和边缘的物理之间的相互作用的蛋白质。相互作用的蛋白质通常参与类似的生物过程,因此也有类似的生物过程域的注释基因本体论和语义相似度高的分数。评估我们的相似性措施是否符合这些知识,我们评估相互作用的蛋白质之间的关系和他们的语义相似度得分如下。

我们下载两个手动策划PPI网络的酿酒酵母。从BioGrid(生物通用存储库交互数据集)22,23),我们提取PPI网络由3529个节点和16285边缘。从浸渍(蛋白质相互作用数据库)24,25),我们提取一个相对小的PPI网络包括2902个节点和7005边缘。对于每一个网络,我们计算语义相似度得分为相互作用的蛋白质和那些相同数量的随机选择不相互影响的双蛋白,我们这些分数的分布数据5(一个)5 (b)。从图中,我们明显看到蛋白质交互的语义相似度得分总体上比那些不互相作用的蛋白质,这存在观察BioGrid和网络。

然后,每一个网络,我们在相互作用的蛋白质之间的语义相似度得分平均获得的平均语义相似度得分相互作用蛋白( )。与此同时,我们在语义相似度平均分数不相互影响的双蛋白获得的平均语义相似度得分不相互影响的蛋白质( )。最后,我们计算出褶皱的变化 测量方法的有效性区分功能性蛋白质相互作用之间的关系。我们现在的结果总结在图6,我们可以看到该措施的有效性。例如,BioGrid网络,我们获得一个褶皱改变6.15当使用的相关措施。泡网络,褶皱的变化是5.44的相关措施。余弦和Jaccard措施,我们观察到类似的结果。从这些观察结果,我们推测,计算的语义相似度得分提出措施符合生物知识相互作用的蛋白质。

它也表明,蛋白质近在PPI网络往往有更多的类似的功能(4]。有了这一份了解,我们使用两个蛋白质之间的最短路径的长度在PPI网络测量的网络距离蛋白质,使用语义相似度得分两种蛋白质来衡量他们的功能相似,和情节的变化与亲密的蛋白质在图相似性得分6。从图中,我们可以看到,蛋白质对往往有更高的语义相似度分数如果他们在PPI网络。例如,BioGrid网络和余弦度量,语义相似度得分中值是直接相互作用的蛋白质对0.2590,0.0720被另一个蛋白质,蛋白质对媒介0.0372两个其他蛋白质,蛋白质对在其中起到了中介作用等等。类似的结果观察到的其他两个措施。这些结果表明,蛋白质相似分数与PPI网络亲密,又符合生物知识。

6。结论和讨论

在本文中,我们提出了一种方法来表示注释基因产物的基因本体使用向量组成的本体方面的信息内容。基于这个概念,我们提出了计算成对基因产物之间的语义相似度,使用三个措施(皮尔逊相关系数,余弦相似性,Jaccard指数)量化对应的向量之间的亲缘关系。我们已经进行了一系列全面研究的有效性提出措施使用生物过程的本体和出芽酵母的注释酿酒酵母。综合语义相似度之间的关系研究的基因产品和生化途径,蛋白质家族,和蛋白质相互作用网络表明语义相似度得分计算提出的措施比得到更符合生物知识使用五现有方法的列表,显示我们的方法的有效性在功能基因产物之间的相似性描述基于基因本体。

拟议措施的主要优点是简单的计算和描述基因产物之间的语义相似度的有效性。基因产物的表达载体的信息本体术语的内容很简单,跟着计算容易理解。演示的简单也有利于计算时间复杂度较低,从而使我们的方法适合于大规模的语义相似度计算不仅基于基因本体的应用程序也使用其他本体。

当然,该措施可以从以下几个方面进一步完善。首先,尽管一个术语的贡献在领域本体的特点是其信息内容,可以进一步完善这种贡献通过调整信息内容与以前的知识。例如,不难把注释实现更精确的估计不同的生物基因本体概念的信息内容。另一种可能性是开发一个贝叶斯方法估计的信息内容,使用现有的注解来推导出先验分布。

第二,尽管域实体的表示为向量的概念是简单而有效的,合并的基础本体中的概念的结构可能会进一步提高该方法的性能。现有算法计算相似性两树结构(26沿着这个方向)可能是一个潜在的候选人。

利益冲突

作者没有任何利益冲突。

承认

这项工作是由中国国家自然科学基金(没有。71101010)。