文摘
高通量技术促使进步的组学研究,包括基因组学和转录组。比较研究,使我们回顾了改善归因于高通量测量的下一代测序技术。比较基因组学已经成功地应用于进化分析时采用比较转录组表达谱的比较从两个微分表达式或微分coexpression对象,使他们在进化发育生物学(今晚)研究中的应用。今晚的研究集中在进化压力影响发展的形态发生和以前作品进行说明最保守在胚胎发育阶段。旧的测量这些研究是基于形态相似的宏观视图和新技术使微观检测相似的分子机制。胚胎发展的进化模型,其中包括“烟囱似的”模型和“沙漏”模型,评估了这些新的比较转录组的组合方法与以前的比较基因组信息。虽然技术促进了今晚的研究进入一个新时代,技术和材料的限制依然存在,进一步的调查需要更微妙的研究设计和过程。
1。介绍
进化发育生物学(今晚)研究动力学的发展如何影响引起的表型变异进化遗传变异及其与表型的相关性。这门课有一个核心问题,这是最保守的时期或关键部分在整个生物体的发育过程。为了解决这个问题,形态研究中,发育生物学的主要方法,在过去几年里一直在进行不同的物种。然而,这些传统的观测方法是不能满足的要求精确的量化分析。在这样一个需求,比较转录组研究一直在利用这些研究并生成一些关于胚胎发育的进化压力的模型。
下一代测序技术已经在很大程度上改善了规模比较基因组学研究的高通量检测的基因序列,使新基因组的组装容易。此外,不仅比较基因组学研究和病例对照研究设计达到了一个新的水平,而且多个物种的进化研究基于基因组序列已经可行。当比较转录组研究胚胎发展配备这个强大的工具,它还产生了前所未有的革命在今晚的领域和提高分辨率从宏观到微观的观点。提出了一些策略来说明现有的模型选择压力作用于胚胎发育,提供进一步理解形态发生的分歧。
2。比较基因组和转录组比较研究
2.1。比较基因组学:从多个物种的病例对照
病例对照研究设计中广泛采用流行病学调查疾病和暴露之间的关系是比较研究的最初的原则。在基因组研究中,这种设计有效地比较两个对象的工作,它的目的是为了说明表型差异和遗传差异之间的关系。表型差异代表疾病而遗传差异代表暴露的流行病学。从基因组的意见、遗传差异之间的变异情况和控制样品。许多分析全基因组关联研究(GWAS)也采用病例对照研究设计研究种群之间的遗传变异的潜在影响1- - - - - -3],它促进了多种疾病的理解(4]。
在微阵列时代,有很多比较基因组研究采用阵列比较基因组杂交(aCGH)技术来确定拷贝数变化(CNVs) [5]或寡核苷酸阵列技术调查单核苷酸多态性(snp) [6]。随着下一代测序(上天)技术的诞生,这些基于微阵列技术已经取代了他们不方便获得任何感兴趣的生物的基因组序列测序。除了一些从头测序工作(7,8),大多数研究往往进行重测序过程与病例对照研究设计(9,10]。序列比较是有意义的主题和检测潜在的遗传差异,比如Atanur等人发现高血压可能的细胞基础通过比较月菌株的基因组与BN大鼠鼠参考基因组(11]。双峰骆驼基因组测序和分析财团已经确定字符的驯养骆驼通过比较杂合性的野生和家养的双峰骆驼(12]。根据门店的技术,GWAS也从常见变异变成罕见变异(图1)。
比较基因组的病例对照研究设计是狭义上是不必要的限制两个对象之间的比较。多个对象比较包括种内的比较和种间比较为不同的目的而设计的。种内的比较打算发现菌株多样性为特定物种或人口的变化对某些物种。星财团利用SNP数组来说明不同的遗传背景不同的内在实验室老鼠菌株(13),后续工作由Atanur等人根据下一代测序(14]。类似的研究进行了研究人工选择鸡驯化期间(15]。Navin等人应用single-nucleus测序研究肿瘤人口结构和演化在人类乳腺癌[16]。实际上多个对象之间的比较是至关重要的特别是在进化分析(17]。种间比较关注进化分析,探讨了选择性约束作用于基因组的序列。张等人的扩张或收缩,相比有两个蝙蝠和其他八个哺乳动物物种之间的基因家族,揭示了遗传和进化背景的功能角色蝙蝠(18]。除此之外,许多研究跟踪某些物种在基于相似性之间的直接同源序列研究的发展史和几个已知的物种(12,19- - - - - -21]。
2.2。比较转录组方法:微分表达式和微分Coexpression
测序技术给伟大的动力比较基因组研究,虽然远远超出了DNA序列的测序对象。捕捉记录在细胞使rna还可用于测序平台,用于量化的表达式或可变剪接事件的检测。测序技术也提高了比较转录组研究它产生了很多RNA转录组数据调查(图1)。
传统比较转录组也在病例对照研究设计的基础上,在这几个样品的基因表达式每组测量和统计测试是用来检查例和对照组之间的差异基因表达。相关的差异表达基因被认为是表型差异比较对象和他们潜在的候选生物标志物案件情况。最近,针对高通量技术如微阵列或RNA序列,1万个基因的表达可以发现在同一时间。巨大的进步扩大规模的表达检测也导致多重比较的问题。问题降低了统计能力这几个基因表达改变是被忽视的。旁边的多重比较的问题,微分表达式分析后,网络中也有缺陷分析。例如,为了研究其功能,总是一致的差异表达基因在交互网络由先验知识的蛋白质相互作用,不会发现基因的新连接。
我考虑这些不足,有必要进一步的信息隐藏矩阵表达式,这提示的诞生微分coexpression分析关注的开关基因之间的联系,而不是单个基因的表达变化值之间的样品(22]。系统的生物,基因被组织成网络而不是分开,和基因总是与监管机构如TF,导致两个基因由相同的TF展示相关的表达谱。相关的基因对不同在不同的条件,因为基因之间的调控关系将开关当机体暴露于不同的情况。基于这一原则,与几个样本用例和对照组,分别,我们能够测量每一个基因的相关系数对每组中。通过比较这些例和对照组之间的相关系数,微分coexpression基因对可以被识别。微分coexpression方法不仅补充了微分表达式的结果分析,还使重组事件的识别在基因调控网络(入库单)。
2.3。注释的监管元素:基因组学和转录组的集成
下一代测序不仅提示基因组研究的效率(23),但也促进基因组库的建设数量(24]。然而,对于序列我们发现深奥的信息的积累与生物功能突显出基因组序列。为了进一步了解生物功能,我们需要分析基因组元素的调控机制,导致转换从比较基因组转录组比较。在这样的需求,DNA序列元素的百科全书(编码)项目和模式生物百科全书的DNA元素(modENCODE)项目已经出生,专注于基因组注释的监管元素包括人类、老鼠,苍蝇,和虫25- - - - - -28]。他们也有异形转录组中几个关键特性如转录因子的结合位点(TFs),外遗传性修改,这些物种和基因表达水平,提供丰富的数据集进行转录组分析。根据外遗传性修改的配置文件,安永等人有人类染色质分为15个州代表激活条件(29日]。根据绑定的TFs,犬吠等人有歧视基因组区域使用机器学习的方法30.]。通过关联外遗传性修改cis-regulation地区和每个物种基因的表达情况,陈等人证明,染色质功能基因表达是可以预测的飞行和蠕虫31日];同时东等人也模型组蛋白的化学修饰基因表达水平的概要文件在人类细胞系(32]。最后,一个通用的模型已经被证明在cis-regulation地区外遗传性修改预测这三个物种的基因表达(33]。
虽然不是每个组织能够产生如此多样的数据集,基因信息的集成与转录组信息已经通过许多调查人员。这些研究在理解监管元素不同基因组序列。多个层面的集成,也代表研究使现在的趋势,是基于假设开关在更高的水平将会影响低水平协调中心法则。换句话说,它提出了基因序列的基因突变会导致下游基因的表达水平的变化。应用这一原则,Akavia等人开发了一个算法来识别的遗传畸变在癌症将染色体拷贝数变异(CNV)和基因表达数据34]。金等人已经确定了潜在的因果基因结合表达数量性状基因座(eQTL)分析与路径信息35]。多个级别的集成数据不仅增加了数据的利用率,还可以确保结果的可靠性。生物调查现在广泛采用,尤其是在癌症的研究是由癌症基因组图谱(TCGA) [36,37]。
总之,作为计算机科学的一个分支,生物信息学已被大数据时代的到来。越来越多的数据集将由财团TCGA编码和生成,和荟萃分析仍将是未来的趋势。
3所示。今晚的研究对于理解物种的形态多样性
3.1。从宏观到微观形态研究的基因研究
开发过程的动物提出了严格的选择压力下,以确保过程的精度。进化压力限制胚胎不同生物体的表型多样性在一定程度上,导致胚胎的形态相似性在某个阶段发展为不同的物种。和胚胎的区段相似性物种多样化的发展过程中,使发展生物学家研究进化压力的波动作用于不同的胚胎阶段。发展生物学家使用这个胚胎形态比较法研究有机体发展很多年了。例如,von Baer第三定律提出了早期的发展阶段是高度相似的不同物种之间相互和胚胎逐渐出现分歧在个体发生(38]。代表个体发育的阶段发展过程与phylotypic时期相比,不同物种的胚胎的形态是如此高的相似性,这些发展阶段被认为是夺回在进化发展史。正如上面提到的,不同的个体发育的阶段从phylotypic阶段在今晚的核心问题研究。然而,形态比较方法的一个缺陷是很难量化的形态学特征,这将导致问题使用nonquantitative形态特征来评估量化程度的保护。和某些形态特征不同的阶段多个门,这限制了形态学比较,只有可以进行一定的门。综上所述,这些会混淆选择性约束作用于阶段的明确的检测在多个物种。
随着分子生物学技术的进步,发展生物学家已经能够从微观视角分析发展阶段。例如,Duboule发现Hox基因的表达特性的phylotypic阶段(39]。从分子的信息比较个体发育的阶段,提供了更精确的识别模式phylotypic在胚胎发育阶段会产生量化的信息。直到最近,新的高通量技术,具有更精确的定量特征,已被应用于发展研究。根据微阵列,Vassena等人检验基因表达在人类胚胎植入前的发展40,整个发展时间序列的表达谱斑马鱼被Domazet-Lošo检查和陶41]。核糖核酸测序方法也已经采用的表达谱开发多个物种包括飞(28],蠕虫[27)、人类和老鼠(42]。
进步的技术使今晚的研究从宏观到微观。从微观来看,发展生物学家将进一步解读可能进化机制假说,它是更具挑战性的和有意义的。这些分子水平的研究被认为是优越与形态学方法相比,基因序列的信息更接近继承实体与形态。然而,这仍然是一个有争议的问题的歧视和phylotypic阶段个体发育的阶段在胚胎发育过程中对多个物种。新的高通量技术有潜力来区分这些阶段根据比较转录组分析,这将进一步导致了解底层的分子进化机制的发展。
3.2。两个有争议的关于限制发展模型
上面我们提到了有争议的分区和phylotypic阶段发展阶段个体发育的阶段,这可以说明问题定义phylotypic阶段在特定的发展时期。Phylotypic阶段应该是发展阶段不同物种之间的相似性,在自然选择的特性,如基因表达或基因序列应该是守恒的。在个体发育的阶段,物种特定分化和功能发生在这些阶段应该减少守恒。特别是,因为他们的守恒特性,进化论者,他打算标签这些阶段在特定的发展时期对理解的进化发展,这是今晚的研究的核心问题,也是兴趣phylotypic阶段。
生物体发育过程可分为三个主要时期:早期的著名事件,合子基因组激活(ZGA) [42当Hox基因开始表达[],中间阶段43),和后期形态形成开始(44]。晚期一致是最nonconserved因为胚胎的不同物种多样性在这些阶段,已有形态差异或基因表达的变化。虽然田等人发现,晚期表现出最强的保护和黏菌弱的可发展性盘基网柄菌(45少),这些阶段仍被认为是守恒的大多数生物,尤其是脊椎动物。除了这罕见的黏菌的情况下,两种规范进化模型的开发提出了:“烟囱似的”模型,它认为早期胚胎阶段是最保守,“沙漏”模式,中间的发展阶段的实施具有最强的进化约束(46]。
“烟囱似的”模型,它描述的形状选择性约束作用于发展一个漏斗(图2),已经植根于von Baer第三定律。表明本法选择性约束逐步减少在开发和发展的早期阶段是最严格的选择压力下。开发过程从一个受精卵细胞开始,随着细胞分裂发生;它形成胚泡是由多个细胞有不同的命运。这个过程看起来非常类似于生物的进化,从单细胞到多细胞。因此,phylotypic阶段被认为夺回演化历史的发展史和发展过程应该是一个扩展过程从简单到复杂。早期,这被认为是单工,应该暴露在严格选择,以便以后发展程序可以巧妙地执行。这是和谐发展负担假说(47),假定元素早些时候在胚胎负责下游发展基础设施,以便早期的进化。
(一)
(b)
“沙漏”模型,它假定mid-embryonic阶段,显示了最严格的限制和约束的形状看起来像一个沙漏,有两个宽边和窄中间(图2)。这个模型最初取决于功能重要性和复杂的中间阶段,监管网络的Hox基因表达和胚胎形式的身体计划(39]。这个基本的过程被认为是胚胎发育的关键基础设施,扰动对器官发生在这些阶段将造成巨大的影响。在旧学校胚胎形态,尽管一些替代模型提出了(48- - - - - -51],沙漏模型已经被观测验证多种脊椎动物胚胎的形态特征(52- - - - - -55]。近年来,胚胎发展阶段已经被平行测序,异形沙漏可以检查在基因水平。通过对比表达谱在甲鱼和鸡胚胎发展,王等人已经验证了沙漏模型在这两个物种的发展21]。
比较转录组研究中有两种主要的方法来说明沙漏模型或烟囱似的模型,我们将讨论在后期(图2)。
4所示。比较转录组的胚胎发育的研究
4.1。相关基因的表达方法
基于病例对照研究设计,直观的保护措施来比较两个对象之间的相似基因的表达。表达谱的比较进行一对一的直接同源基因,通常保持单一副本和被认为具有相同的生物功能对应的物种。因此,一对一的直接同源基因的表达模式应该提供一定程度的相似性。在这种方法的定义,保护测量通过计算两两之间的相关系数表示一对一直接同源基因在每个发展阶段。保护的水平决定根据总结的所有相关系数在每个阶段。某个阶段的高相关系数表明保守基因表达在这个阶段,应该被认为是在强大的选择性压力下(图2)。之间可以进行比较基因组学研究和物种内,比较转录组研究也可以说明内基因表达的多样性物种或物种之间。Kalinka等人已经使用这些比较转录组研究在六测序基因表达的相关性果蝇物种(56],Ninova等人发现微rna表达的相关性在两个不同的果蝇(57]。这两个研究证明沙漏模型的广泛存在多种类型的记录果蝇物种。作为证据的沙漏模型物种之间,王等人的研究了两个不同的物种(21]。老大,Kuratani证明了共同的研究存在的沙漏在脊椎动物通过比较四个物种的表达谱(46]。这些开创性的调查已成功应用表达相关方法在今晚的研究中,这证明比较转录组的方法是强大的进化研究。
转录组相似方法也有一些缺陷,比如相关性检查只取决于整个转录组的一部分(一对一直接同源基因)和计算必须进行两个主题/物种。一对一的直接同源基因只占一部分表达式的签名相比,每一个对象。特别是对于研究遥远的物种之间,一对一的直接同源基因的比例变得更小。它导致表达信息的损失,这将进一步影响的结论。特别是,两个目标生物的进化距离不是成正比的损失表达信息,这将导致不同研究的困难使用成对的物种与不同的进化距离。除了丢失信息的问题,另一个困难是相应的开发时间点的选择搭配生物。只有发展阶段的两个物种在相应的开发时间点是一致的;的相关系数可以计算在每个阶段相一致。然而,物种之间的发育时间各不相同,这使得它很难找到的精确比对阶段。为了解决这个问题,研究者采用枚举法计算成对阶段之间的相关系数在所有的方式7,56]。枚举方法处理的问题选择相应的阶段,但它将引入人工决策特别是在案件中一个物种有多个相应阶段的其他物种,如飞的双重对齐和蠕虫发展阶段发现格斯坦et al。33]。
4.2。基于进化指数方法
我们已经讨论了基于相关性比较转录组方法和它的两个主要的局限性。这种方法提供了一个过于简单化的过程。它不仅忽略了nonortholog基因的信息,也不利用先验知识。先验知识的保护包含在表达基因的序列在每个发展阶段。这样的知识已经被之前的评估比较基因组研究[58]。例如,每个基因都有独特的出生日期发展史这意味着一个特定的基因已经在某些古代出生。时代信息的基因应该应用于研究。在进化基于指数的方法,首先一个特定物种的基因表达在胚胎发育一直是异形。然后一套专门激活的基因已经被鉴定为每个发展阶段和每个基因集的年龄指数是用来测量相应阶段的保护。根据基因的年龄指数,Domazet-Lošo等人已经开发出一种phylostratigraphy方法为基因表达中胚层,指定不同的phylostratum内胚层、中胚层d .腹胚胎(59]。phylostratigraphy方法的原理是古代基因与小标签和年轻的基因与大号码,系统发育年龄基因是量化。它也被用来研究多细胞生物之间的关系和癌症的起源60]。基于这种方法,Domazet-Lošo等人进一步提出了转录组年龄指数(TAI),并结合phylostratigraphy乘法和stage-specific基因表达信息,评价斑马鱼的选择性压力阶段发展(41]。本研究不仅证明了斑马鱼的沙漏,还另一项研究拟南芥胚胎发生,保护也被测量通过TAI,显示沙漏在植物界的存在61年]。根据转录组信息,TAI措施古代基因的相对比例和年轻的基因在特定的发展阶段(图2)。这种方法代表之前的结合比较基因组知识的不同发展阶段在一个物种之间的基因表达信息。
与转录组相似性方法相比,基于进化指数的方法有显著的优势,比如它只需要表达谱的一个物种和充分使用先验知识。特别是,除了基因时代指数,更进化的信息可以从先验知识检索。例如,基因可以跟踪的自适应选择产生的同义替换率(dN/dS)的序列在特定的系统发育进化枝,和较低的基因dN/dS比被认为是选择性压力在某些物种(62年]。除此之外,还有很多扩张或收缩的基因家族在每个物种的形成,导致同族体基因的拷贝数变化在不同的物种63年]。因此,基因重复的州也意味着不同的选择压力在不同基因的物种。结合这两个指标与基因时代指数,Piasecka等人已经测量了胚胎发育的转录组保护和评估保护转录调控在斑马鱼64年]。他们完全重新审视了保护发展阶段基于表达谱的斑马鱼胚胎发生,也就是数据集采用Domazet-Lošo和陶41]。他们的结果显示漏斗模型和沙漏模型的共存模式,随着这些进化指数地址选择压力的不同方面,他们无法做出一致决定模型。此外,新方法被开发出来,并试图结合进化与基因表达指数识别物种之间的守恒coexpression模块(65年]。该方法已应用于研究格斯坦et al。33),调查了守恒coexpression模块蠕虫的发展阶段和飞行。
5。讨论
作为今晚的两个主要的转录组研究的现有方法,这两种基因表达的相关性方法和基于进化指数方法(表显示了一些优点和缺陷1)。相关基因表达的方法可以测量保护国际米兰——/ intra-species /科目而进化基于指数法结合年龄指数和评估保护在一个单一的主题。Piasecka等人的研究表明,这两种方法解决不同方面的进化,这样的结合会让一个更全面的结论对胚胎发育的进化模型。我们总结了三个主要指标应采用评价模型的发展,沙漏和漏斗模型(图2)。这三个测量包括基因表达的相关性,dN/dS比率,和转录组年龄指数显示进化选择的不同方面。例如,基因表达相关性代表成对转录组的相似性,dN/dS比率显示基因序列的选择性压力,基因表达和转录组年龄指数结合了与系统发育的年龄。这三个测量存在显著不同的模式为每个模型。例如,在沙漏模型中,中间阶段目前最高的这些阶段相关基因表达和基因不仅有保守序列,也出生在古代。在烟囱似的模型中,这些签名出现在胚胎发育的早期阶段(图2)。
细胞生物发展扩张过程,从单细胞到多细胞有不同的命运。这个过程将从简单到复杂的细胞成分的多样性,这是更和谐von Baer的第三定律。然而,现在越来越多的比较转录组研究支持沙漏模型,提出最守恒的中间阶段的时期,而不是早期的。沙漏模型还没有结束,因为这些比较转录组研究技术限制。例如,除了受精卵,其他阶段的胚胎是由多个细胞,和增加这些胚胎细胞的多样性随发育时间线。RNA来源比较转录组研究是从胚胎中提取样本在多个发育时间点和RNA提取多个细胞的混合物。和开发过程,RNA提取包括从各种细胞RNA越来越多样化。RNA混合物的不同程度在不同的开发时间点会影响保护的进化分析结果,因为这些比较转录组研究假定每个代表不同发展阶段被认为是单身,等价的。基于人类胚胎的单个细胞RNA序列数据集(66年),我们已经显示,即使在早期阶段,有了选择压力,downfluctuation [67年]。然而,这些单个细胞RNA序列数据集只覆盖一些物种的胚胎的早期阶段(42,66年,68年]。
除了技术上的限制,实验材料固有的问题。例如,许多研究,试图说明沙漏模型普遍存在于多个物种,进行了生物模型,如鼠标,蠕虫,苍蝇。与正常的生物,这些生物模型分享一些共同的特征,如代周期短和快速发展,代表一个特定的发展机制,将潜在的偏见的结果模型进化研究[54]。随着测序成本的降低,更多的生物,特别是那些长期发展过程中,应该与多个异形对象排序。根据单一细胞核糖核酸测序技术,整个胚胎发育的物种将异形。此外,精确的研究应该被设计来说明这个问题,构建复杂模型的进化发展。
利益冲突
作者宣称没有利益冲突。
作者的贡献
天成刘起草。林提供了发育生物学的指令。香港李修订。Lei刘和李宜构思审查。所有作者阅读和批准了期末论文。天成刘、林于同样起到了推波助澜的作用。
确认
这项工作是由中国国家基础研究计划(2011 cb910204 2011 cb510102, 2010 cb529200),国家重点技术支持计划(2013 bai101b09),国家重点科学仪器和设备开发项目(2012 yq03026108),兄弟姐妹知识创新项目(2014 kip215),和SA-SIBS奖学金计划。