科学世界日报

PDF
科学世界日报/2012年/文章
特殊的问题

计算系统生物学

把这个特殊的问题

评论文章|开放获取

体积 2012年 |文章的ID 435257年 | https://doi.org/10.1100/2012/435257

文森特VanBuren Hailin陈, 评估集成策略支持基因调控网络建设”,科学世界日报, 卷。2012年, 文章的ID435257年, 12 页面, 2012年 https://doi.org/10.1100/2012/435257

评估集成策略支持基因调控网络建设

学术编辑器:江r .
收到了 2012年10月04
接受 2012年11月25日
发表 2012年12月27日

文摘

基因调控网络(入库单)建设是系统生物学的中心任务。整合不同数据源来推断和构建入库单是成功的一个重要考虑事项。在本文中,我们将讨论数据集成入库单建设独特的策略。基本上,整合不同数据源的过程分为两个阶段:第一阶段是收集所需的数据,第二个阶段是数据处理与先进的算法来推断入库单。在本文中,这两个阶段被称为“结构一体化”和“分析集成,”。与nonintegration策略相比,集成策略执行很好和有更好的协议与实验证据。

1。介绍

1.1。传统的策略构建入库单

生物功能包括众多生物组织的各级反应,包括细胞,组织,器官和身体,与环境交换。总的来说,每一个生命现象中发现这个多级系统支持通过许多反应相互连接组成生命的交响乐团。因此,在生物医学研究中至关重要的有一个系统的视角。获得这样一个复杂系统的概述,我们可以想象它的网络。例如,蛋白质相互作用、代谢反应和基因规定分别对应蛋白质交互网络(PPI),代谢网络和基因调控网络(入库单),复杂的多层次系统的子网。的表示网络中,节点通常对应于分子,而边缘代表节点之间的关系。研究生物网络,入库单是最受欢迎的车型之一,特别是在发展的领域。发展入库单提供重要线索,阐明在开发过程中基因表达的时空动态。海胆和的使用果蝇导致了一些最伟大的成功研究发展入库单来解释复杂的发展过程(1,2]。传统上,第一步是识别假定监管通过全基因组筛选基因,如微阵列表达,在不同的时间和空间。定量PCR用于事后验证特定的表达模式(3]。令人惊讶的是,使用的基因控制的发展相对守恒的跨物种,从而调控基因可以被sequencing-based同源性比对4]。作为建模发展入库单的主要目标是识别这些基因上位性之间的关系,第二步是定义实验扰乱/激活系统通过功能丧失和功能试验和检查响应(3]。在海胆入库单的一项研究中,扰动与morpholino-substituted反义寡核苷酸(石匠给)是主要的方法5]。救援的实验也在这一步的一个重要组成部分。最后,通过将从许多个别实验发现,调查人员可以建立发展入库单。建立入库单的验证通过诱变调节器绑定网站可以实现精确的目标基因观察废除监管效应(6,7]。

说明内中胚层规范中的基因调控的海胆和发展的果蝇胚胎提供强有力的例子类型的复杂性的研究揭示了入库单。海胆胚胎,blimp1autorepressive当其产品积累向更高层次迈进。同时,它提供了一个必需的输入Wnt8表达式,它产生一个积极的反馈效应blimp1通过诱导Tcf激活blimp1表达式。Wnt8可以用这种感染邻近的细胞/地区生物信息学手段通过扩散流循环。由于这个流终止blimp1autorepression [8]。在早期的发展果蝇胚胎,蜗牛抑制因子激活的合成δ配体的腹侧通过抑制转录的中胚层汤姆的抑制剂δ,这被称为双重否定。δ触发器切口信号在相邻细胞通过扩散。然而,转录的切口信号目标基因由intraterritorial压抑蜗牛镇压在腹侧中胚层。完全并行机制导致转录交替inter-territorially还发现在海胆skeletogenic中胚层(1,2]。尽管有这样的成就,仍有很大一部分的入库单在动物模型中没有定义。费力的方法为每个节点从实验中阐明入库单,每条边产生可靠的生物信息作为先验知识支持新奇的发现。然而,由于入库单的并发症如前所述,阐明复杂的真核生物的完整入库单对整个基因组使用这种策略是极其困难的,需要尽可能多的时间和劳动力即使对于一个有条件的状态。上述策略是网络建设的自底向上的方法。计算策略提供了一个自上而下的方法补充什么是上面描述的网络建设。

1.2。计算策略构建入库单
1.2.1。Nonintegration策略

在这盛开的生物医学研究的时期,高含量的实验数据是推动系统生物学研究,如入库单在全基因组范围内建设。例如,表情微阵列能够检测基因的相对丰度记录通过比较两个或两个以上的生物样品入库单施工中是非常常见的。新方法提供了一个视角对全球分子相互作用之间的桥梁内部和外部信号响应。有几种流行的算法被用来构造从表达数据入库单(了9])。

入库单的图形表示,节点通常代表基因转录因子对应蛋白质或目标基因,而边缘代表转录因子之间的规定和目标。布尔网络描述每个元素作为一个变量的值0或1来表示元素的状态为“关闭”或“,”。一个布尔网络 被定义为一组节点对应的基因吗 和布尔函数的列表 描述了网络中基因改变他们的状态(开或关)从一个时间点。元素的未来状态完全取决于美国的其他元素(监管机构)通过底层逻辑布尔函数。

第二,贝叶斯网络模型的生物网络有向无环图。”导演”意味着有箭头指示因果影响,和“无环”意味着因果循环是被禁止的。对于每个元素,一个条件分布 (十五∣父母(十五))是通过条件概率表的应用程序定义的(CPT)父母(十五)表示变量对应于该元素的监管机构。此后,应用优化方法,贝叶斯信息准则(BIC)优化来推断最合适的网络模型之间的一组有限的模型。

在第三个选择,微分方程从高通量实验数据中提取网络通过考虑到每个元素的瞬时浓度。每个元素的瞬时浓度是完全由浓度( )涉及监管功能的其他元素。

微分方程建模:

在第四个选择,coexpression用于基于协方差分析模型入库单。然而,协方差的数据集在不同尺度之间的比较是困难的。皮尔森相关系数解决了这个困难。它措施coexpression任意两个元素之间的一系列州导致的价值从−1比1,这使得网络建立基于某一阈值的大小相关。

最后,互信息(MI)提供了另一种方法来建模基于概率理论的入库单。网络中任意两个元素的相互依赖是衡量使用MI。据报道,心肌梗死的相关性优于一些研究[10,11]。使用合理的阈值,网络将会准确地构造。上下文关系的可能性(CLR) (10,12),MRNet(最大相关性/最小冗余网络)(R包),和ARACNE(重建算法准确的蜂窝网络)(11,13)是网络建设的三个代表策略应用MI。无数的入库单施工方法已经开发使用的各种组合上述五个主要方法。

1.2.2。一个集成策略的动机

最受欢迎的算法造成的建设上面描述基因表达数据的入库单。然而,每个人都有一定的缺陷。布尔算法每个变量分配一个二进制值,可以省略连续变量的重要信息。贝叶斯网络建设承诺代表和推断因果关系,但这种策略只是有效的建设小入库单,由于表示指数增加大型网络的算法运行时间。微分方程算法需要知识的动力学方程和参数估计优化入库单模型与实际数据进行比较。然而,推导一个适当的动力学方程仍然是一个挑战。此外,解决微分方程系统的任何现实的复杂性是很困难的。的相关性和互信息算法,手动设置适当的阈值没有原则参考带来了困难。与这些缺点并不满意策略应用的算法;因此,它激励我们改进的计算策略。 New strategies continue to be developed against those difficulties. It is a great challenge to refurbish algorithms to improve GRN construction using genomic expression data. Improvements are difficult to obtain algorithmically; however, the integration of multiple types of genome-wide datasets with literature-based information of regulation as prior knowledge is a straightforward alternative to offer improvement. Generally, in the computational GRN construction methods mentioned above, only genomic expression data like microarray data is used to produce the desired network applying one of the algorithms described [10,11]。基于一个简单的直觉,更多相关信息生成更好的信心进行正确的预测,我们乐观的前景改善的数据集成。我们有增加可用性的全基因组数据对生物学的各个方面,基因表达数据,基因组序列,蛋白质组学数据,全基因组protein-DNA绑定网站数据(14基因组单核苷酸多态性),高含量的数据收集从各种生理或病理研究创建目标。因此,参照规定的以信息作为先验知识和多种类型的全基因组数据集作为可分析的数据,提供一个集成的策略可以提供一个很好的机会阐明完成入库单。

2。集成策略来构建入库单

2.1。源的集成

过去的几十年里是一个快速发展的时代在生物医学科学的发展。众多先进技术以及新发现的有根据的理论引导在工业和学术生物医学研究。例如,生物医学研究人员已经开发出由微阵列基因表达,快速基因组测序和微生物、蛋白质组定义通过质谱分析,全基因组protein-DNA ChIP-seq绑定网站定义,基因组SNP SNP数组,鉴定和文献挖掘知识含量高。不知所措的令人印象深刻的全基因组成果数量,我们鼓励应用策略,以充分利用他们凭直觉,例如入库单妥善整合建设。首先我们需要的生物医学资源可用的状态。

很难总结所有的生物医学资源来源大多是分散在不同的研究论文。我们将我们的注意力集中的数据库,因为他们是一个有效的重新安排和存储形式来源为特定目标。核酸研究(NAR)总结了生物医学数据库状态每年(图1)(http://nar.oxfordjournals.org/)。这是一个表(表1总结一些流行的系统生物学研究的全基因组数据库。


类别 数据库

代谢途径 KEGG、酶
信号通路 KEGG, WikiPathways
蛋白质相互作用 绑定,字符串
转录因子结合主题 JASPAR, TRANSFAC
遗传相互作用网络 绑定,BioGRID
基因表达 地理,ArrayExpress
序列 UCSC基因组Browrer
Protein-compound交互 针,DrugBank ResNet CLiBE
基因与疾病相关性 人类

2.2。结构集成

大量的全基因组来源是可用的,没有完全杠杆来推断小说入库单。之前进入讨论分析算法的集成多个入库单建设全基因组数据集,我们必须首先解决的挑战中提取所需的数据集的海洋生物来源。结构来自多个异构数据源的集成检索所需的数据,便于查询的数据进一步分析集成。有许多复杂的方法用于结构整合目标数据集通过编程提取和重组。结构集成总体而言,这些方法可分为三大类:仓库集成、基于中介的集成和导航集成(15]。

之前讨论的方法结构集成在以下部分中2.2。1- - - - - -2.2。3,我们将结束本节讨论的一些结构集成的关键特征。

各种各样的数据
这描述了典型的数据,可以集成,包括高通量数据集、分子结构、分子相互作用,分子通路、基因本体论注释,和疾病的特点,因此垂直整合的聚合语义相似来自多个异构数据源的数据,而横向一体化的成分是语义互补来自多个异构数据源的数据(15]。

异质性的描述性术语
语义是形式和意义之间的关系的研究。每个源的数据或知识可以引用相同的语义概念或领域有自己的描述性术语或标识符,这可能导致许多来源之间的语义混乱。相反,有些来源可能使用相同的术语,指的是不同的语义概念。为了匹配语义映射是必不可少的描述性术语或标识符在多个异构数据源或源和目标之间的集成数据集。

异质性的命名和标识
当前数据集成工作中的一个主要障碍是命名和身份的问题,各种各样的别名(例如,同义词基因符号)存在许多基因,蛋白质,和关键词。别名映射通过查找检索所需的数据来自多个异类源的关键。

2.2.1。仓库集成

仓库安排所需的集成来自多个数据源的数据集到一个本地仓库(如本地数据库)在查询之前,通过加载所需的数据从不同的来源和转换成标准的格式存储在本地。更少依赖互联网连接来访问数据限制访问限制等各种问题的影响,网络瓶颈,低响应时间,和偶尔的不可用。此外,使用本地仓库允许提高精度,为后续的查询效率和灵活性,因为它在本地执行。然而,这种集成整体系统维护的一个重要缺点。是昂贵的仓库定期更新,以反映这些修改的异构的外部资源(15,16]。此外,由于数据检索和存储在仓库最终会转化成warehouse-specific格式每次更新仓库,仓库数据库的语义结构可能需要经常重新格式化。

NCBI UCSC基因组浏览器(17),和EMBL-EBI (http://www.ebi.ac.uk/三个代表数据仓库。鉴于这些资源的吸引力,越来越多的努力改善仓库策略对其缺点。一族平台是努力改善数据库维护的效率。一族是一个生物数据仓库集成(集成平台18]。代表数据库选择覆盖面积广泛的生物医学研究在构造一族数据库。这个仓库提供的数据EMBL-EBI UniPort (Swissport和TrEMBL), ExPASy (PROSITE和酶),NCBI (Entrez,分类,Pubmed、RefSeq资源库,和人类),Biomart, ArrayExpress, InterPro,基因本体,KEGG(基因、通路、orthology和药品),和网页(基因、药物和疾病)。加载器应用程序负责从每个源数据库相应的数据转换成格式兼容一族模式旨在协调任务,比如别名映射。为了克服的困难维护,一般模式和一个特定的模式都是开发的一族。物理上存储数据,通用模型框架(普通模式)认证的数据库,同时支持该通用模型与一个具体的元模型(具体模式)从具体的贡献,所有的实体和关系数据库指定本地(18]。因此,添加/修改数据库到这个仓库需要修改的元模型,而不是在通用模型。

2.2.2。基于中介的集成

基于中介来自多个异构数据源的集成检索所需的数据集的查询通过查询翻译,而不是数据翻译体现在数据库创建时在仓库集成(15,16]。中介,或者查询翻译的核心,是一个接口负责调整查询的用户进入查询的底层数据源的本地模式通过一个调解模式定义的基于中介集成平台。因此,需要一个映射在调解模式来捕获或别名身份”的语义关系之间的关系源和给定的查询,从而允许将查询由用户通过中介翻译成相应的查询到个人来源。这对应映射创建中介是一个关键的一步,因为它会影响查询重构和添加或移除旧的新来源渠道的集成系统。

主要有两种方法建立中介,global-as-view (GAV)和local-as-view(洗手间)15,16]。GAV中介,直接给定的查询转换为源的格式的查询。洗手间有格式的查询在每个源定义为中介的通用格式,这是通过包装器定义的中介。因此,每一个当地的来源需要一个包装器组件出口一个视图的本地数据到一个共同的格式通过介导的中介模式。自从基于中介集成检索数据查询、运行时的访问限制等问题,网络瓶颈,低响应时间,和偶尔的来源可能发生的不可用。然而,由于以实时的方式执行查询,没有特殊需要通过手动更新数据库系统维护。更具体地说,厕所很简单的添加或删除资源,而对于GAV添加或删除来源是更加困难的,因为它需要修改的调解模式对应的映射。

中介的数据集成方法是一个非常受欢迎的方法。平台K2, TAMBIS、Discovery-Link BACIIS都基于此方法设计的。在Discovery-Link平台(http://www.redbooks.ibm.com/abstracts/sg246290.html/数据源特定),包装象征着其进一步集成的数据源。

2.2.3。导航集成

提取所需的数据集,导航集成的工作流查询从源作为查询输入重定向输出到下一个资源,直到达到所需信息(15,16]。它就像网络的天性中越来越多的数据源,它,因此,让用户手动浏览一些网页或数据来源以获得所需的数据集。然而,导航集成的缺点是类似的基于中介集成,如访问限制,网络瓶颈,低响应时间,和偶尔的不可用。此外,建立对应的映射所需的时间和精力仍然是昂贵的。

这种方法的例子是可以和DiseaseCard数据库。DiseaseCard [19)是一个基于网络的协作服务,旨在全面整合遗传和医疗信息,包括罕见遗传疾病的信息。

2.2.4。选择结构集成的方法

这是一个简短的比较(表2),总结了不同结构的集成方法的特征提取所需的数据集的海洋生物来源。


方法 维护 系统的稳定性 有效性

仓库 困难,昂贵的 稳定的 可怜的
基于中介的 容易盥洗室 取决于源可用性、可访问性、交通 公平
导航 容易 取决于源可用性、可访问性、交通

结构集成在大多数情况下的主要目的是为具体目标编译所有可用的信息准备任意分析集成根据用户兴趣。

理想的集成方案应该有以下特点。(1)非常高效。它可以优化查询用户需要完成的时间。最近的一个想法是构建语义网。(2)易于维护。(3)稳定。(4)系统性能指标。至关重要的一个集成系统研究源数据以改进查询计划,提高整个系统的功能和性能。应该学习的基本统计数据来源的报道,平均响应时间,成本,和源之间的重叠15]。(5)高质量的。提取各种异构数据源的数据集成,有不同程度的质量。例如,与旧的数据相比,改进的技术可能更好的最新数据质量;同时,相比之下,计算预测数据,实验数据预计将有更好的质量。在异构数据源质量不同,和一些努力占这些差异应考虑在数据集成的策略。(6)自动化。操作优化和机器学习的学科应该申请一个有效的自动化程序。

2.3。分析集成

连同所需的通过结构集成来自多个异构数据源的数据集提取,分析集成来推断执行入库单通过数据集成算法应用到所需的数据集。集成算法,因此,优化入库单建设必不可少的部分。与上面的部分中描述的算法相比,集成算法需要能够同时处理多种类型的数据。因此,异构数据应该合并顺利无论数据类型的差异。正如我们前面所讨论的部分1,许多类型的全基因组数据集可以为入库单建设作出贡献。在接下来的讨论分析入库单建设集成来自多个类型的全基因组数据集或参照先验知识,思考有三种主要模式:朴素贝叶斯的应用程序,监督学习和网络拓扑结构的应用程序。这些模式代表了一种不同的方法来分析整合,然而,每个可以应用于多个类别的假设推理,如转录调控、蛋白质相互作用、基因-疾病协会。

2.3.1。朴素贝叶斯的应用程序

贝叶斯模式应用朴素贝叶斯在生物中指定上下文:如果两个分子协会发生在多个异构数据源,有一个增加的可能性,他们可能有强烈的连接,例如,包括一个生产监管或不可或缺的物理交互。因此,评估功能的重要性两两连接通过其发病率在多种渠道。和许多类型的全基因组数据集,例如基因表达和系统配置文件,将有助于感知功能的重要性两两连接在全基因组范围内。因此,然后应用到一个评分系统评价的功能重要性两两连接在全基因组范围内了解关于推断入库单或质子泵抑制剂的信心。两个成功的例子与朴素贝叶斯应用程序如下所述。

字符串的web应用程序被设计来推断PPI通过整合多种类型的全基因组数据集。它主要是由三个全基因组数据集的集成,包括系统配置文件,一个转录单位的数据库,一个数据库的基因融合事件(20.- - - - - -24]。系统配置文件是来源于进化树。在进化过程中,功能与蛋白质往往同时保存或取消在新物种。这个属性相关的进化是杠杆的字符串描述每个蛋白通过其系统发育信息的数据库,记录一个同源蛋白的存在与否在每个已知的基因组。这些蛋白质有匹配的配置文件有强烈倾向功能联系在一起。转录单位(操纵子)通过识别提取的基因组保守基因簇。基因的蛋白质产物转录单位假设功能相互联系。基因融合的例子可以解释的事件相互作用的蛋白质GyrA和GyrB子单元大肠杆菌DNA促旋酶直接同源的一个融合链在酵母(拓扑异构酶II);因此,GyrA和GyrB段的相似性拓扑异构酶II可以用来预测其功能互动大肠杆菌。字符串被开发为一个多维集成接口通过结合其三个原始组件(系统配置文件、转录单位和基因融合)的基因表达和基因组数据集通过文本挖掘从PubMed抽象发现蛋白质间交互作用,等等。假定的PPI可以评估蛋白质间交互作用的信心得分两种蛋白质功能之间的联系在那些全基因组数据集。不同的数据集加权不同各自贡献的信心得分。字符串中的项目,重量是分配给每个数据集通过基准测试的性能预测数据集与一组常见的引用的可信赖的知识。开发者选择了蛋白质的功能分组维持在KEGG(京都基因和基因组的百科全书)作为共同参考集。每个数据集的基准体重在字符串对应的概率预测的相关蛋白在这个数据集在同一个KEGG途径。分方程的信心,信心的分数作为 ,每个数据集都是作为的重量 , 是qualfied数据集的数量与发病率的两两连接。因此,假定的评估蛋白质间交互作用的信心得分在世界杯预选赛上的朴素贝叶斯概率的发生相应的蛋白质连接在多个数据集独立的假设下的各种数据集。更大信心得分显示更高的信心功能蛋白质协会: 在哪里 是重量分配给每个数据集在常见的引用集。

2显示了一个示例的一个字符串查询(http://STRING-db.org/)的蛋白质-蛋白质之间的关系由Gata4播种,一个著名的转录因子在心脏的发展。

信心得分对于每一个假定的蛋白质相互作用,因此,Bayesian-probability-like得分由几种类型的全基因组数据集。假定的PPI因此遵循评价在全基因组范围内获得信心。

另一种方法应用贝叶斯模式合理延长核糖体生物转化途径在酵母(25]。李等人建立了一个计算预测推断核糖体生物起源的基因通过集成多个异构数据集到一个概率模型。该模型采用朴素贝叶斯概率评分系统集成多个全基因组数据集,包括基因表达、蛋白质相互作用的全基因组数据集来自文学内容管理,大规模酵母2台混合动力分析的全基因组数据集,一个全基因组数据集的亲和纯化加上质谱分析,基因交互数据集在网上全基因组交互数据集(图网络3)。假定的合理性酵母基因属于核糖体生物转化途径被计算的朴素贝叶斯概率评估的发病率与已知的核糖体基因生物起源的途径。中华民国情节从交叉验证来检查这个模式(图的有效性3)。高分的212个基因是手动选择为进一步实验验证。

贝叶斯模式应用朴素贝叶斯概率是一个强大的方法来分析整合。他们的应用程序在提高网络建设的例子与多个全基因组数据集评估假定的网络集成计算分数的信心。该模式总是优于non-integration策略。例如,应用贝叶斯模式的算法称为魔法,与表达式的聚类方法相比,预测更真实阳性比聚类方法相对于假阳性的数量(26]。

2.3.2。监督式学习

监督学习假设部分信息以预测变量和结果,这部分信息杠杆使更深层次的目标假设的推断。已知的信息作为先验知识。监督方法在统计开发新的推论先验知识的研究目的是结合其他相关数据集。关于网络拓扑推断的准确性与精确的先验知识的数量呈正相关。相比之下,无人监督的方法有问题,他们更有可能预测的联系是不可靠的。监督式学习模式可以推断更少出错。一个分析集成方法使用监督学习集成PPI的先验知识和其他相关的全基因组数据集改善PPI建设的有效性。

卡托等人开发了一种监督式学习模式的酵母PPI使用已知的蛋白质-蛋白质之间的关系作为先验知识集成与其他相关的全基因组数据集(27]。在这种监管网络建设,内核应用矩阵为基础的集成。内核相似矩阵是一个矩阵,基于内核的网络中边的连接节点被分配到内核值(相似性)超过一定阈值 。内核是一个适当的矩阵表示方法,监督PPI建设、网络建设问题归结为推断一个集成的问题,内核的成对蛋白质连接矩阵结合已知的酵母蛋白质-蛋白质之间的关系与其他相关的全基因组数据集。这里,加藤等人产生的三个主要步骤酵母PPI建设应用监督学习。

步骤1。他们翻译了先验知识(酵母PPI的一部分)扩散到内核矩阵的内核。扩散内核函数来处理网络结构挖掘底层内核中的节点矩阵之间的关系。然而,这导致了地区成对蛋白质的核矩阵连词全基因组范围,因为只有成对内核值(成对蛋白质关联强度)的蛋白质,在已知的PPI可以重建的一部分。区域内核矩阵可以大约恢复已知的PPI当适当的阈值 内核的应用价值。

步骤2。全基因组数据集(如基因表达)相同的目标可以用来建立一个新内核的矩阵。卡托等人考虑了多种类型的全基因组数据集的PPI建设。他们结合这些新生成的核矩阵,每个计算从一个特定的全基因组数据集,如基因表达和基因组系统配置文件,到合并内核矩阵成对蛋白质协会的酵母。

步骤3。他们整体的联合内核区域核矩阵的矩阵已知的酵母PPI的一部分来推断成对蛋白质的集成核矩阵的连接提供了成对内核值在全基因组范围内能够有资格PPI边缘通过内核值与阈值比较

边的预测精度是衡量一个10倍交叉验证。设置参数的3.0内核扩散的程度当已知的PPI翻译成内核矩阵通过扩散内核,中华民国推断酵母PPI指数为0.929。

监督学习改善PPI建设通过整合experimentally-proven研究客观的证据作为主管到其他相关的全基因组数据集的分析。因此,入库单建设还可以应用模式的监督学习通过已知的转录基因因素指标规定的先验知识集成与其他expression-relevant全基因组数据集。一项研究入库单建设监督与非监督方法方法相比,发现比无监督的监督方法更可靠(28]。

2.3.3。网络拓扑结构的应用

在最近的几十年里,大量的实验证据收集生物网络,这是加上进展阐明网络拓扑特性。网络生物学方法促成了这些进展包括无标度网络,小世界网络,适应图案,反馈主题,”和“和”或“逻辑主题,和模块化的网络。因此,系统需要利用网络拓扑特性和有利于网络建设的有效性。模块化是一种最接受网络拓扑特性的入库单。入库单可以用基因模块的模块化成员通过共享转录因子组合重新绑定。因此,在这种基因模块清单coexpression成员。基因表达和基因组转录factor-DNA绑定网站因此,集成到入库单建设通过识别coexpressed与守恒的TF结合位点的基因启动子(29日,30.]。两个例子应用集成模式推理的入库单是下面讨论。

克是一个算法发现入库单,通过融合转录因子(TF)绑定的信息主题,基因组序列,基因表达(31日]。监管关系实际上是被全基因组dna结合蛋白通过爆破TFs相应位置分析TF结合主题与启动子的结合位点序列来推断全基因组范围。然而,位置分析可能推断出潜在的物理TFs和DNA之间的相互作用在全基因组范围内但未必识别功能绑定。将位置分析与基因表达,克雇佣了入库单的有效和详尽的战略建设。它会搜索所有可能的组合的TFs表示位置分析。结合位点在近距离时,相应的TFs定义组合。TF的组合是用来识别调节基因集的成员有共同的组合TFs绑定他们的位置定义的启动子分析。从完整的基因集,是由一个子集成员高度相关的表达式,表达式的数据集。子集作为基因的“种子”模块。然后克再添加更多的基因的基因表达有相对较高的相关基因表达的“种子”模块(图少用严格的标准4)。克基因可以属于不止一个模块。之间的监管,因此,推断co-expression模块及其TFs组合培养入库单建设。

在克项目中,这个模式应用于106年的TF绑定主题数据TFs,超过500微阵列表达实验酿酒酵母。入库单是重建通过识别模块。基因模块也被确定为组织的基因注释和类似的途径。识别基因模块由多个TF,控制的证据推断TFs的交互(蛋白质-蛋白质之间的关系)。克可以分配不同的监管机构与类似的基因表达模式,不能单独使用表达聚类的方法来实现的。此外,通过应用特定的DNA结合主题的浓缩试验,发现模块中的基因更有可能coregulated相比,使用基因组位置分析获得的基因。

另一个应用程序的集成方案在入库单建设是由西格尔et al。32]。作者设计了一个算法集成酿酒酵母与全基因组基因表达数据集TF结合位点,通过搜索相应的推断TF结合全基因组范围的主题。在他们的框架,一个管理模块是一组基因被共享的协同监管监管程序。规定程序指定的基因的表达模块的函数表达的一组小的监管者(图5)。TF绑定的浓缩测试图案后监管模块,小说规定TFs过多绑定对应图案之间的预测和入库单管理模块培养建设。西格尔等人发现在许多监管模块相对应的TFs过多绑定模块的主题匹配已知的监管机构模块的基因很好。

通过集成应用模块化特性在入库单建设与全基因组基因表达TF结合位点提高网络建设的质量。然而,只有有限的信息已被阐明的入库单拓扑特性。模式与入库单拓扑应用预计将执行更咄咄逼人地随着知识特性的入库单。

2.3.4。选择一个分析集成的方法

贝叶斯朴素贝叶斯概率定理应用模式在大多数科学领域广泛接受。朴素贝叶斯集成了多种类型的相关的全基因组数据集到一个评分系统,产生一个信心分数推断网络(例如,PPI和入库单)。然而,这种方法有一个重要的警告:它是理性应用朴素贝叶斯定理只有当满足基本假设,每种类型的数据集是独立于任何其他来源。因此,在这种假设下,之间没有依赖任何两种类型。然而,在现实中一些数据依赖关系。例如,在字符串的情况下,实验的数据,数据库和文本挖掘不是完全相互独立的。的方法评估个人的体重也是一个有争议的模式的一部分。对于字符串,KEGG用作标准计算权重。然而,KEGG在全基因组范围内,是一个不完整的数据库,它实际上是由各种各样的实验,数据库,和文本挖掘资源,所以它必然是依赖这些资源。因此,不是一个好的标准,因为它是biased-giving高自身资源的权重,同时也给了低重量。 This may promote its accuracy but limit its predictive power. Hence, naïve Bayesian applications in GRN construction may be affected by those limitations.

监督式学习整合先验知识研究的目的与其他相关的全基因组数据集学习网络(如PPI,入库单)。然而,其预测的质量随数量的先验知识。当涉及多个数据集,权重每个数据集仍然是有问题的。如果我们雇佣nonweighting集成方法的主要预测未知的部分由先验知识训练之前,我们可能更好的质量对整个预测即使先验知识的数量相对较小。

网络拓扑结构的模式是一个令人信服的策略通过整合入库单建设与全基因组基因表达TF结合位点。它同事两个来源通过模块化功能连接与守恒的TF结合位点的基因co-expression推动者。然而,正如前面提到的两个例子,TF结合位点是推断从相应的TF结合主题通过全基因组。将改善当CHIP-seq数据集对于不同TFs受聘来生成全基因组TF结合位点。这种发展模式使一步的发展我们的知识网络的拓扑特性。

监督学习和网络拓扑结构应用的模式可能被描述为高级形式的贝叶斯应用程序的模式,从天真的以证据为基础的逻辑进展。这些方法使用原则和逻辑集成的数据集,而不是整合。随着增加实验证明知识管理关系,网络拓扑结构的模式应用程序可以结合监督学习来获得增加信心推断入库单。总的来说,一个正反馈效应,有助于更好的入库单有助于发展我们的额外的入库单拓扑特性的知识,而更多的拓扑特性为入库单”建设提供更多或更好的线索。PPI可以嵌入到入库单来评估TFs的组合规则。

3所示。总结和未来的发展方向

入库单建设通过整合多种类型的全基因组数据集或通过以监管信息作为先验知识在一定程度上避免或克服的缺点nonintegration策略。随着不断增加新的数据源的可用性,为我们新的机会出现使用集成策略构建入库单。有两个主要类别的集成策略:结构的集成提取和重组所需的数据集和分析集成处理查询数据集来推断入库单。有三个主要类型的结构集成:仓库集成天真地聚集到本地存储在数据查询所需的数据集,基于中介的集成建立一个中介应用程序检索所需的数据集通过用户的查询的格式重新格式化查询本地数据源的数据处理,和导航集成遵循数据查询时数据处理链通过使用查询输出过程的一个步骤查询输入下一个步骤。在随后的分析整合,贝叶斯应用程序使用朴素贝叶斯概率的模式集成多种类型的全基因组数据集到一个评分系统来计算推断入库单的信心得分。监督式学习整合研究目标的先验知识和其他相关的全基因组数据集学习入库单。和网络拓扑的应用程序集成的模式与全基因组基因表达TF结合位点通过模块化功能连接与守恒的TF结合位点基因co-expression福斯特入库单建设的推动者。总的来说,表现良好的集成策略和可靠而non-integration策略。结构集成和分析集成核心作用在入库单的整体集成策略建设。

最近,传统的实验方法和计算方法激励合作生物医学研究。这些新方法提供计算能力推断小说从先验知识和相关假设数据集来指导实验通过设置研究重点。一个突出的例子成功合作定义了如何合理延长核糖体生物转化途径在酵母(25]。从贝叶斯揭示212名候选人后应用集成多个相关的全基因组数据集的分析,实验用来验证他们的发现。李等人发现15以前未报告的核糖体生物起源的基因(TIF4631、SUN66 YDL063C, JIL5, TOP1, SGD1, BCP1, YOR287C, BUD22, YIL091C, YOR006C / TSR3 YOL022C / TSR4 SAC3,,不丹和FUN1)。西格尔等人使用一个类似的工作流验证入库单建设(32]。因此,入库单从分析推断出多种类型的集成数据集提供了一个复杂的设置研究重点阿特拉斯。

缩写

BIC: 贝叶斯信息准则
EMBL的: 欧洲分子生物学实验室
走: 基因本体论
入库单: 基因调控网络
KEGG: 京都基因和基因组的百科全书
NAR: 核酸的研究
NCBI: 国家生物技术信息中心
聚合酶链反应: 聚合酶链反应
PPI: 蛋白质相互作用
SNP: 单核苷酸多态性。
术语表
贝叶斯信息准则(BIC): 在统计数据,它是一个标准的模型中选择一组有限的模型
顺式主题: 核苷酸模式非常普遍,有调节因子的生物学意义绑定
ChIP-seq: 技术,它结合了chromotin免疫沉淀反应(芯片)和大规模测序识别DNA-associated蛋白的结合位点在基因组范围内
交叉验证: 技术评估统计分析的结果将如何推广一个独立的数据集
上位性: 在遗传学中,这种现象在一个基因被修改的影响通过一个或多个其他基因
基因本体论: 注释的基因和基因产物的受控词汇表
基因调控网络: 网络在生物过程,总结了基因调控的影响
在网上: ALatin用来表达的意思是“计算机上执行”或“计算机模拟”
中胚层: 在所有的两侧对称动物动物,中胚层的三个主要在早期胚胎生殖细胞层
操纵子: 在遗传学中,一个操纵子是一个功能单元包含一个集群的基因组DNA的基因的控制下一个监管信号或启动子
系统简介: 也称为系统发育树,是一个分支图或“树”显示的各种生物物种之间的进化关系或其他实体基于异同的物理和/或遗传特征
模式: 的表示计划、理论或数据结构,通常表示为一个大纲或模型
语义: 有关意义的语言或逻辑;在生物环境下,这通常是指专门定义注释的意义,概念,或生物实体之间的逻辑关系
包装: 一个计算机程序,将数据的一种格式到另一个或一个计算机程序,简化了用户交互与一个更复杂的程序。

确认

作者感谢David c . Zawieja杰瑞Trzeciakowski,徐彭在纸上的评论。

引用

  1. e·h·戴维森和m . s . Levine,“发育基因调控网络的性质,”美国国家科学院院刊》上的美利坚合众国,卷105,不。51岁,20063 - 20066年,2008页。视图:出版商的网站|谷歌学术搜索
  2. m·莱文和e·h·戴维森”基因调控网络的发展。”美国国家科学院院刊》上的美利坚合众国,卷102,不。14日,第4942 - 4936页,2005年。视图:出版商的网站|谷歌学术搜索
  3. e·李和e·h·戴维森”建设发展的基因调控网络”,出生缺陷研究部分C,卷87,不。2、123 - 130年,2009页。视图:出版商的网站|谷歌学术搜索
  4. d·h·欧文·e·h·戴维森,“过去常见的两侧对称动物的祖先,”发展,卷129,不。13日,3021 - 3032年,2002页。视图:谷歌学术搜索
  5. e·h·戴维森,j·p·拉斯特,p .奥利维et al .,“发展的基因调控网络,”科学,卷295,不。5560年,第1678 - 1669页,2002年。视图:出版商的网站|谷歌学术搜索
  6. d . Calva f·s . Dahdaleh g . Woodfield et al .,“发现SMAD4的启动子,转录因子结合位点和删除在少年息肉病病人,”核酸的研究,39卷,不。13日,5369 - 5378年,2011页。视图:谷歌学术搜索
  7. k . s . Zaret, j·k·刘,c . m . DiPersio”定点诱变揭示了白蛋白肝脏转录因子的转录增强器,”美国国家科学院院刊》上的美利坚合众国,卷87,不。14日,第5473 - 5469页,1990年。视图:出版商的网站|谷歌学术搜索
  8. j·史密斯,c . Theodoris和e·h·戴维森”基因调控网络分支电路驱动动态的基因表达模式,”科学,卷318,不。5851年,第797 - 794页,2007年。视图:出版商的网站|谷歌学术搜索
  9. h·德容,”基因调节系统的建模与仿真:一个文献综述,”计算生物学杂志》上,9卷,不。1,第103 - 67页,2002。视图:出版商的网站|谷歌学术搜索
  10. j。j信仰,b . Hayete j . t . Thaden et al .,“大规模映射和验证的大肠杆菌转录调控的表达谱,”公共科学图书馆生物学,5卷,不。1,文章e8, 2007。视图:出版商的网站|谷歌学术搜索
  11. a . a . Margolin Nemenman, k .男低音歌手et al .,“ARACNE:一个基因调控网络的重建算法在哺乳动物细胞中,“BMC生物信息学7卷,补充1条S7 2006。视图:出版商的网站|谷歌学术搜索
  12. a . Madar a·格林菲尔德大肠Vanden-Eijnden, r·邦”DREAM3:网络推理使用动态上下文联系的可能性和inferelator”《公共科学图书馆•综合》,5卷,不。第三条e9803, 2010年。视图:谷歌学术搜索
  13. p . Zoppoli、美国摩根氏菌属和m .,切”TimeDelay-ARACNE:逆向工程的基因网络时间进程数据的信息理论方法,”BMC生物信息学第154条,卷。11日,2010年。视图:出版商的网站|谷歌学术搜索
  14. m·b·格斯坦a . Kundaje m . Hariharan et al .,“人类的监管网络的架构来源于编码数据,”自然,卷489,不。7414年,第100 - 91页,2012年。视图:谷歌学术搜索
  15. t·埃尔南德斯和美国Kambhampati集成的生物来源:当前系统和挑战,”Sigmod记录,33卷,不。3,51-60,2004页。视图:谷歌学术搜索
  16. l·d·斯坦“整合生物数据库”,自然遗传学评论,4卷,不。5,337 - 345年,2003页。视图:出版商的网站|谷歌学术搜索
  17. p . a . Fujita b . Rhead a s Zweig et al .,“UCSC基因组浏览器数据库:2011年更新,“核酸的研究39卷,数据库问题,D876-D882, 2011页。视图:出版商的网站|谷歌学术搜索
  18. j . Arrais j·e·佩雷拉j·费尔南德斯和j·l·奥利维拉”一族:生物数据集成平台”,国家科学院院刊、工程和技术58卷,第855 - 850页,2009年。视图:谷歌学术搜索
  19. g·s·迪亚斯,j .韦森特,j·l·奥利维拉和f . Martin-Sanchez”整合医学和基因组数据:罕见疾病的成功的例子,”研究卫生技术和信息卷,124年,第130 - 125页,2006年。视图:谷歌学术搜索
  20. l . j .詹森·m·库恩·m·斯塔克et al .,“弦8 630年全球对蛋白质和它们的功能交互生物,“核酸的研究37卷,数据库问题,D412-D416, 2009页。视图:出版商的网站|谷歌学术搜索
  21. Snel, g .莱曼·博克和m . a . Huynen”字符串:服务器检索并显示多次发生邻里的基因,”核酸的研究,28卷,不。18日,第3444 - 3442页,2000年。视图:谷歌学术搜索
  22. c·冯·仅仅m . Huynen d。杰西,s .施密特·博克和b . Snel,”字符串:数据库的预测功能的蛋白质之间的联系,“核酸的研究没有,卷。31日。1,第261 - 258页,2003。视图:出版商的网站|谷歌学术搜索
  23. c·冯·仅仅l . j .詹森·m·库恩et al .,“弦7-recent集成的发展和预测蛋白质相互作用,“核酸的研究35卷,数据库问题,D358-D362, 2007页。视图:出版商的网站|谷歌学术搜索
  24. c·冯·仅仅l . j . Jensen b Snel et al .,”字符串:已知和预测蛋白质协会、集成和转移的生物,”核酸的研究33卷,数据库问题,D433-D437, 2005页。视图:出版商的网站|谷歌学术搜索
  25. z李,李,e . Moradi n . j .挂a·w·约翰逊和e·m·马克特“理性的延伸使用network-guided遗传学核糖体生物转化途径,”公共科学图书馆生物学,7卷,不。10篇文章e1000213 2009。视图:出版商的网站|谷歌学术搜索
  26. o . g . Troyanskaya k . Dolinski A·b·欧文·r·b·奥特曼和d Botstein“贝叶斯框架结合基因功能预测异构数据源(在酿酒酵母),“美国国家科学院院刊》上的美利坚合众国,卷100,不。14日,第8353 - 8348页,2003年。视图:出版商的网站|谷歌学术搜索
  27. t·加藤、k·津田和k . Asai“选择性集成多个生物数据的监督网络推理,”生物信息学,21卷,不。10日,2488 - 2495年,2005页。视图:出版商的网站|谷歌学术搜索
  28. l . Cerulo c·埃尔坎,m,切”学习基因调控网络从只有积极的和未标记数据,”BMC生物信息学第228条,卷。11日,2010年。视图:谷歌学术搜索
  29. g . Pavesi p . Mereghetti g .毛里,g . Pesole“除草机网络:发现的转录因子结合位点的一组序列重新基因,”核酸的研究32卷,web服务器问题,W199-W203, 2004页。视图:出版商的网站|谷歌学术搜索
  30. g . Pavesi和g . Pesole”使用除草机守恒的转录因子结合位点的发现,“当前生物信息学技术第二章:2.11单位,2006年。视图:谷歌学术搜索
  31. bar - joseph z, g·k·戈贝尔,t . i .李et al .,“计算发现基因模块和监管网络,”自然生物技术,21卷,不。11日,第1342 - 1337页,2003年。视图:出版商的网站|谷歌学术搜索
  32. e·西格尔m . Shapira a Regev et al .,”模块网络:确定监管模块及其condition-specific监管机构从基因表达数据,”自然遗传学,34卷,不。2、166 - 176年,2003页。视图:出版商的网站|谷歌学术搜索

版权©2012 Hailin陈和文森特VanBuren。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。

相关文章

对本文没有相关内容可用。
PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点2226年
下载1220年
引用

相关文章

对本文没有相关内容可用。

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读