文摘

多样化的生命起源的研究一直受到技术和概念上的困难,争议和先验论。现在普遍认为宇宙生命之树植根于无核细胞和古细菌和真核生物的妹妹组。然而,进化的研究绝大多数集中在核酸和蛋白质序列,这部分满足只有两三个主要步骤的系统发育分析,制定现实的进化模型和优化树重建。没有性格的极化,即确定祖先和派生角色状态的能力,任何声明的支持生命之树应该被认为是可疑的。在这里,我们表明,大分子结构和一个新的系统发育框架的分析,着重于生物系统的部分,而不是整体提供深度和可靠的系统发育信号和使我们提出假设。phylogenomic研究我们回顾十多年,我的信息在基因组普查数以百万计的编码蛋白质和rna。我们展示如何使用流程模型符合韦斯顿的分子堆积的普遍性标准支持一致的phylogenomic场景,在该场景中,多样化的生命的起源可以追溯到古菌的早期历史。

1。介绍

想象一个孩子在林地流,一根枝条插进涡流流动的电流,从而破坏它。但艾迪迅速改革。孩子再分散。再次改革,引人入胜的游戏还在继续。有你有它!生物弹性模式在湍流流动模式的能量流”——卡尔伍斯(1]。

了解多元化生活的起源是一个具有挑战性的命题。它涉及的使用历史和retrodictive表意的思考,而不是制定法律的探索,是普遍和预测(2]。实验科学的大部分是制定法律的;寻找真理来自通用语句可以概念化作为普遍的预测效用。制定法律的探索一般哲学上和操作上不太复杂的追求比表意的探索。相比之下,retrodictions谈论单数或复数的事件在历史上必须由“转换”,符合正式的进化公理(3)和界面框架的解释力最大化(4]。基本语句,生物的多样性是进化的产物主要是由一个三个嵌套公理的最高水平的普遍性3]:(i)发生进化,包括其原理的历史变化需要时空连续性(美国标准莱布尼茨),(2)只有一个历史的所有生活或灭绝的实体及其组成部分存在演替的结果,和(3)功能的实体(字符)通过系谱保存通过代后裔。必须符合历史的连续性原则,“最重要的是支持进化论。的公理化理论”自然非facit saltum“林奈,突出了莱布尼茨和牛顿必须被视为一个普遍性的自然变化和“富有成果的原则,发现。“我们注意到,这个公理的普遍性,我们已经讨论了在生命起源的背景下研究[5),包括罕见的标点符号(如量子飞跃变化如基因组复制和重组或罕见的进化出现的新的折叠结构)嵌入在一个逐渐变化的织物(如点突变引起的变化)。渐变和标点符号都是相互关联的,而且总是表达在时空的连续性(例如,结构性标点符号序列映射成RNA结构(6])。这解释框架可以解释新奇和复杂性科学探究的原则,最大限度地对retrodictions断言的解释力。

系统发育理论体现在进化的“树”和“模型。”Trees (phylogenies) are multidimensional statements of relationship of the entities that are studied (phylogenetic taxa). Models are evolutionary transformations of the biological attributes examined in data (phylogenetic characters), which define the relationships of taxa in trees. The tripartite interaction between characters, models, and trees must occur in ways that enhance retrodictive power through test and corroboration [4]。换句话说,它必须遵循科学探究Popperian支柱或合适的哲学类似物。我们注意到retrodictive语句允许图推断过去使用现存的信息(即。今天,我们可以访问),必然是现代。在时间旅行的挑战不仅取决于做出推断陈旧的生物学信息来自现代生物系统还解释retrodictive语句没有被现代性概念的限制。历史的理解,这是一个重要的障碍从分级假设受亚里士多德的存在之链,scala naturae

在五十年代威利亨尼希第一次正式retrodiction在定量方面7]。从那时起,他的“分类学”从众多受益概念和生物信息学的发展,现在负责现代系统任何类型的系统发育分析:从分子和生物到语言和文化,从工程应用到天体物理学。Astrocladistics为例,侧重于星系的演化和多样化造成的改变事件,如吸积,互动,和并购(例如,8])。虽然主要的观点出现了“发现操作”(美国标准(2])的系统分类模式,包括最大的吝啬和频率论的不确定性最大似然法和贝叶斯思维的观点,主要技术和哲学的挑战持续(9]。更重要的是,我们将在下面解释,技术和哲学方面的表意框架在某些情况下已经变成了风景的专制和先验论3]。这个阴险的趋势是普遍的“生命之树生根”领域的调查(10)是生物化学和生物多样性我们这里讨论的起源。

在本意见书中我们地址找到一个起源对生物多样性的挑战并提出一个新的框架进行深入系统分析生物系统关注的部分,而不是整体。我们回顾这个框架的应用程序数据来自结构和功能基因组学和认为的起源细胞生活的逐渐积累分子相互作用和层次化和模块化结构的崛起。我们讨论我们的研究结果,提供强有力的支持非常早期的原始古血统和古生菌的出现作为第一个领域多元化细胞生命(超界)。生命的“域”一词强调有机体超群的凝聚力,很像域在蛋白质和核酸压力原子组成的分子内聚性。相反,“超界”一词(superregnum)明确的事实有一个嵌套的层次组织的生物,其中许多共同的祖先(即。,他们是单元)。我们建议新兴血统的崛起是嵌入在原始“进化等级”(美国标准赫胥黎(11]),一群生物多样化(原始archaeons)积极转变,最初由相同的统一和古老的生理水平的复杂性。我们的讨论将试图调和多元化生活的起源的一些不同的看法,并将提供一个通用的场景“转折点”的起源可能生物学复发。

2。的三方世界生物的多样性

卡尔伍斯和他的同事们的乌尔班纳学校负责生物体的突破性发现世界是三方;也就是说,它包含两个但细胞生活的三大“域”(古生菌,细菌和真核生物)。三个“土著”行中的两个像样的最初概念化为“urkingdoms”的深源微生物和从本质上不同于真核生物(12]。他们与古生菌和细菌。古生菌的发现挑战了建立无核细胞/真核细胞分裂(我们使用术语“无核细胞”来描述一个细胞没有真正的细胞核。这一项补充“真核生物”(“欧盟”,不错,和“细胞核”内核),这是与历史无关的。新学期带走了广泛使用的时间分量“原核生物”(“pro”)的定义,这可能是错误的对许多微生物领域的生物)支持“梯子”的场景从简单的微生物逐渐演变到“更高的”生物,顽强地捍卫的分子生物学家和微生物学家。伍斯和福克斯12明确表示:“进化似乎进展“量子化”的时尚。一个级别或域的组织给最终上升到一个更高(更复杂)。原核生物和真核生物”实际上代表了两个这样的领域。因此,尽管它是有用的在每个域定义系统模式,它不是有意义的构建系统发育领域之间的分类:原核真核的王国不可比性。”发现是革命性的,尤其是因为scala naturae深深地坐在无核细胞/真核细胞分裂的根源和微生物被认为是原始的形式不保证同等重要的地位相比,真核生物的复杂组织(见[13]历史帐户)。三方的意义世界很快意识到,建立生动地抵制。其阻力仍体现在今天的新提议的起源,如archaeon-bacterium融合假说来解释真核生物的崛起(见下文)。值得注意的是普遍的树的根细胞生物,“生命之树”(ToL),最初不是驱动的问题。这改变了蛋白质的序列分化,基因重复前一个假定的共同祖先与系统发育分析方法和比较用于根托尔(14,15]。Paralogous基因夫妇包括伸长因素(例如,EF-Tu和EFG)、atp酶(αβ子单元),信号识别颗粒蛋白,和[氨基甲酰磷酸合成酶,所有被认为是非常古老的(了16])。在许多情况下,细菌序列是第一个分支(底部)出现在重建的树木,迫使古细菌和eukaryal序列被妹妹组。这种“规范”计划的托尔(图加油1(一))是公认的事实,很快被认可的支持者乌尔班纳学校(17]。事实上,接受“规范化”加油细菌变得如此之深,已促使人们搜索的起源真核生物分子和生理宪法的假定的古姐姐集团(18]。例如,Embley和同事用守恒的蛋白质生成序列的发展史和先进的算法来表明真核生物出现在古菌(19- - - - - -21](参见[22批判性分析])。重要的是,这些分析受到技术和逻辑序列树重建中固有的问题。例如,蛋白质如伸长因素,tRNA合成酶和其他通用的蛋白质中使用他们的分析很容易替换率高(23]。数学上,它会导致信息丢失关于根清醒和钢铁(ToL如图所示的24](参见[25更多的讨论)。另一方面,paralogous加油有时反驳对方,很快就和正确地认为是软弱和不可靠的(23,26,27]。paralogy-based支持方法的有效性已被证明是一个数量的问题,严重的损害了工件的序列分析(例如,朗布兰奇吸引力,突变饱和,分类抽样,水平基因转移(HGT),隐藏的逻辑倒错,和历史的节段性基因异质性)。因此,没有合适的外群,可用于根的托尔是建立从分子序列,,目前,没有适当的序列进化的模型可以提供一个可靠的“进化的箭头。“因为这个事实,古细菌和eukaryal加油应该考虑同样可能规范化细菌(图加油1 (c))。这是一个重要的实现需要明确强调,特别是因为它影响进化的解释和多元化生活的场景的起源的可能性。

3所示。挖掘古代在通用系统信号分子

伍斯关键的见解是进化研究核糖体的明确选择。核糖体合奏的普遍性及其在蛋白质合成确保核心作用,它将一个古老的和压倒一切的记忆细胞系统进行了研究。这显然是第一次ToL重建。相比之下,许多由paralogous基因编码的蛋白质夫妇(如翻译因素)可能把复杂的历史的蛋白质域cooption或重要的系统偏差引起的,例如,通过蛋白质序列的突变饱和。核糖体是细胞生命的核心特点:“ribocells的签名。“然而,嵌入式系统的签名也错综复杂。核糖体是异构的宪法。核糖体代表一个3 - 4的核糖体RNA (rRNA)和蛋白质(r-protein) ~ 70分子,根据物种,并体现了多个与细胞环境所需的交互功能(例如,装配和拆卸;与内质网的膜的相互作用)。一组34 r-proteins存在跨细胞的生活(28]。核糖体历史已经证明涉及复杂的模式protein-RNA共同进化的进化保守的核心(29日]。这些模式表达明显的主要成分。虽然主要的子单元并行发展,原始的核心,体现了前进的成立非常早在进化和催化功能。这种原始核心后来的搭配结构元素(例如,吸积大量的核糖体rna螺旋段和稳定一个小交互)和r-proteins(例如,地级/ L12刺激EFG的GTPase活性的蛋白质复合体),增强其功能属性。这包括扩张在核糖体rna的结构元素,不仅是特定的子单元,但也生活的各个领域。图2为例,展示了核糖体的phylogenomic模型分子吸积的调查中提取出来的蛋白质域结构基因组和子结构核糖体rna分子。组成部分的吸积过程的普遍刻意核心似乎是一个缓慢的过程,展现~ 20亿年期间和重叠的第一集生物的多样化(30.]。尽管这种复杂性,生物多样性研究的重点是几十年来,小亚基核糖体rna分子(31日]。这种关注近年来并没有改变多少。因此,生物的历史和人口正在讲述的坐在小亚基核糖体rna分子的信息。换句话说,历史叙事通常来自宪法只有~ 1%的核糖体的分子。这个重要的和被隐藏的偏见已经明确在早期的系统发育研究。例如,德Rijk et al。32]证明的发展史从小型和大型单元重构核糖体rna分子不同,大亚基的重建更健壮,更适合建立宽领域的关系。小型和大型的结构单元也携带有不同的系统发育签名(33]。然而,只有几个进化研究大小亚基rRNA历史重建相结合。值得注意的是,在所有这些情况下系统信号显著提高(例如,34])。

4所示。建造巴别塔从比较基因组的序列同源性

分子进化论者是局限性的认识到只关注历史的几个组成部分,根据定义可以发散。当基因组序列的普及,跳上了潮流先锋的进化基因组学和从整个体验获得系统性知识的可能性的基因和分子(例如,35- - - - - -39])。例如,基因革命迅速物化基因树重建的内容直接从他们的进化基因组进化的单位,的基因(例如,[37,39,40]),或域翻译蛋白的成分35,41]。多个基因的序列也结合或连接尝试提取深度系统信号(42- - - - - -44]。所得到的测试结果一致支持三国世界,倒车的乌尔班纳学校。然而,线索的祖先和血统导致现存类群仍下落不明。

无一例外,专注于RNA和蛋白质分子的结构(见下图),基于基因组序列分析,基因内容,基因秩序,和其他基因组特征无法产生的树没有外围集团的帮助;额外的特别的假设是外部的生物被研究,通常携带强大的假设。一个“时间之箭”是不包括在基因组进化所使用的模型。与序列,生成工具都拔起(图1(一))和一般的后验声称规范化根是正确的或对字符进行假设严格改变可能是不正确的。在最近的一个例子,基于距离的方法被用于构建通用网络树从基因家族由互惠最好的爆炸冲击45]。这些网络显示中点之间的托尔加油细菌和古生菌。然而,这涉及到一个复杂的优化加油的路径长度分割网络和关键假设血统进化速度大致类似。这减少了中点的信心支持,尤其是当考虑距离推断从爆炸的不确定性分析和基因领域持有不同的历史和利率的变化。另一个前景看好的但ill-conceptualized情况下是基于距离的加油树推断通过研究的频率l- m组蛋白质中的氨基酸在蛋白质组水平(46]。成分数据生成托尔当随机根植于真核生物蛋白质组序列作为外围集团。随机性的假设与托尔的根相关但是不支持或可能是错的,特别是因为蛋白质序列空间及其映射结构远从随机47]。更重要的是,大部分现代蛋白质已经进化的蛋白质折叠结构当第一个多元化的血统来自细胞的共同祖先的生活(48]。这些进化体验不能自称是随机的。

基因组学无法提供明确的答案生根问题提升(某种程度上)吝啬思考和探索进化意义的差异,可以作为“锚”,可能传授“极性”树语句(49]。我们将在下面描述,我们节俭的思想应用于蛋白质和RNA结构的进化(41,50,十多年来我们一直在生成的工具,描述蛋白质组的进化与增加解释力。然而这项工作已经在很大程度上不被承认的。相反,分子进化论者关注的焦点几乎完全集中在分子序列在托尔的问题寻找解决方案。例如,分析基因插入和删除在paralogous (indels)罕见基因集的群之间的托尔放线菌和革兰氏阴性细菌和厚壁菌门和古生菌(51]。不幸的是,很少有人知道indel生成的动力学,生物基因复制的作用,其影响paralogous蛋白质的结构对(例如,52])。如果接近序列动态,indels应考虑所有相同的序列分析的局限性,包括朗布兰奇吸引工件,性格独立,不适用的字符。树拓扑,吝啬也用于优化基因组的进化转换功能。例如,当考虑到发生的蛋白质丰富的领域,在基因组域结构的变异逐渐积累;操作域结构本身不能失去了一次获得。这使的使用的一种变体拔起Dollo计算方法(例如,[53]);Dollo吝啬模型(54)是基于假设生物特性非常复杂时失去了在进化过程中通过垂直下降不能恢复了。然而方法不能应用于akaryotic基因组,这些受到广泛的横向基因转移,和直到最近55没有延伸到托尔重建。

吝啬的思考也调用“转型分析,”方法,试图建立极性的性格变化,例如,研究同源蛋白水解蛋白质的复合物如蛋白酶体、膜和细胞信封生化化妆,和身体结构的鞭毛,有时由于爆炸查询(56,57]。精化不过仅限于少数分子和细胞结构进行了分析,从成千上万,填充akaryotic和真核细胞。是本地的方法,尚未利用的客观分析系统框架,并且不权衡收益,损失,转移和算法的实现。因此,许多语句会祈祷或不正确的优化过程的收敛的结构和功能,包括cooptions常见的代谢酶(58]。转换也未能考虑的分子组成复合物检查(如光合作用反应中心的进化),通常与异构举行域历史在不同生物的群体。例如, ATP合成酶复杂,细胞过程的吸积的领域已经有很长的历史跨度近38亿年的历史,它是比这更老的核糖体(59]。最后,建立进化在极化转换方案的有效性可以很有问题;每个转换,研究需要有充分根据的假设(60),其中一些还没有被正确地阐述了。

无法解决问题和加油坚持从分子序列中提取深度系统信号容易突变饱和的质疑的可能性找到托尔的根源。Bapteste和Brochier60)明确概念困难声称科学家在这一领域采取了亚怀疑的逻辑。误解如何进化基因组学进行表意调查有效的阻止了巴别塔的reerection解释基因组(图的多样化3)。相反,有“混乱的疑虑。”Unfortunately, the impasse was aggravated by aprioristic tendencies inherited from systematic biology [3,10),分歧的进化作用垂直和横向继承和同源性的问题(61年),目前的分歧关于达尔文进化论在物种形成的实际作用和托尔的问题(13,62年]。

在十年的进化基因发现、HGT发展史上的影响(63年)封面。高度是作为压倒一切的过程调用。然而,很少有人注意到微分等替代解释基因变异,古代或派生的,几乎没有关心的其他来源的网状物。高度肯定是一个重要的进化过程,复杂系统发育分析的“树”的概念和必须仔细研究(例如,64年- - - - - -66年])。在某些细菌的分类群,如变形菌门、高度被发现普遍和挑战物种的定义67年]。这样的情况下促使激进的建议,ToL应该放弃,应该使用“网络生活”来描述微生物的多样化和多细胞生物68年]。不过,有两个方面的问题,必须单独考虑。

(我)力学。的广泛和有效的自然高度必须加以解决。它存在真正的妥协系谱树语句的有效性呢?而对一些细菌血统(HGT似乎重要69年),其在古细菌,真核生物进化的影响并不如广泛(例如,61年,70年])和它的全球角色可以有争议71年]。反过来,病毒在基因交换和RNA药物的作用仍然是替代(例如,72年])和网状的来源可能是至关重要的。此外,微分基因丢失和高度之间的关系还没有充分形式化,特别是基因非常古老。建立模式的损失需要建立极性的改变和根树木,这正如我们前面已经讨论了仍然没有实现工具重建从分子序列。

(2)解释。高度一般实现之间的不匹配的历史基因在基因组和生物的历史。由于基因组基因的功能定义集合,网状影响生物体的基因,而不是历史,鉴于进化假设由于层次关系(例如,73年])。因此,乍一看,网状流程(高度、基因重组、基因的复制和基因损失)不消除垂直系统的信号。然而仍然是复杂的问题。托尔可以被视为一个整体血统相互嵌套的74年]。蛋白质将嵌套域血统基因谱系;将嵌套的基因血统基因家族的血统;基因家族将嵌套在有机体的血统;高等生物的生物将嵌套在血统分组(人口、社区、生态系统和生物群落),等等。所有血统的水平是由生物复杂性和生命的层次组织和遵循一个分形模式分布,每一层贡献垂直和横向向整个系统信号。然而,在一个层次级别sublineages可能持有不同的历史相比,高和低的历史水平。历史不匹配介绍,例如,血统排序和网状代表一个复杂系统发育分析的问题。例如,基因之间的不匹配和有机的发展史中存在差异的存在由于基因组的排序组件,例如,物种灭绝或基因重组。这些不匹配违反基本进化枝的假设历史遵循一个分支的过程,但可以解释相似(趋同进化),水平homology-homoplasy阴阳的“跟踪”系统的信号。在概念上类似的问题不能解决的,而是一个特定水平的层次结构74年]。专注于生物的水平,例如,不能解决杂交所带来的问题严格或宽松的有性生殖或viral-mediated基因交流,或融合或内共生的古代事件的问题。然而,相似和人物和进化枝的树的优化分析提供了一个严格的框架来发现的规模和来源nonvertical进化过程。因此,支序分类学或托尔不失效的网络信号。事实上,最近的离散数学公式,测试树结构的基本公理也证明了树的分支历史保存尽管进化网状(75年]。虽然没有“怀疑”困惑在这个级别,巴别塔的混乱并没有阻止。

进化基因组学揭示破碎,煽动假设嵌合体和融合。的发展史的基因被发现高度不一致。被测序的生物共享很少基因序列,而更麻烦的是,基因树生成具有不同的拓扑结构,特别是在akaryotic生物。随着时间的推移,几乎普遍的基因的数量和分布不一致的增加而减少。比较基因组的序列同源性表明,有组织的基因只有共享生活的某些领域。因此,基因组的组成似乎嵌合。假设的嵌合真核生物的起源提出了基于真核生物基因表达的妹妹共享集团系统与细菌和古菌的关系(64年,76年]。一个值得注意的是真核生物的兴起的“生命之环”融合archaeon和细菌(例如,77年]),在一个打击打败树状和三方自然的生活。在这个学校,同源性搜索的爆炸对数据库~ 380万akaryotic序列允许分配古细菌,细菌或模棱两可的祖先中的基因在人类基因组中并解释相同的模式作为文物akaryotic人类的祖先(78年]。值得注意的是,古细菌基因倾向于参与信息流程、编码更短更核心蛋白,参与遗传的人类疾病的可能性较小。真核生物的嵌合起源融合正当竞争;没有合适的证据支持它的存在(79年]。不幸的是,对网状嵌合打开大量猜测。生命的历史是被许多人通过镜头的“森林”基因的历史(80年]。网状物,最终高度被迫解释嵌合模式。融合假说的核心问题转移生根的托尔和促使独立分析真核起源和akaryotic进化。

达冈和马丁(64年谴责,托尔是一个百分之一的“树”,因为只有一小部分序列可以被认为是普遍的,也可以是开采深系统信号。其余将占横向流程混淆垂直下降。索赔从根本上来自网络构造使用爆炸启发式搜索短和强劲的比赛在基因组序列。akaryotic基因的系统发育“森林”之后增加索赔(81年]。这些网络是由6901棵树的基因使用最大似然方法。只有102的这些树来自几乎普遍的基因和垂直系统信号贡献很小。最初的结论是惊人的:“原始的生命之树的概念已经过时了;它不会是百分之一的树”81年]。然而,垂直信号出现在森林里理所当然的重新评价:“更换ToL网络图会改变我们的整个认知过程的进化和无效进化重建”(82年]。我们注意到,在这些研究中一个超度量树的无核细胞从垂直信号中恢复过来的supertree几乎普遍的基因。根树,用来模拟时钟样式行为,揭示了早期的散度Nanoarchaeum equitans然后古生菌(81年]。而矛盾的森林supertree高系统发育深度,增加相关supernetwork显示没有古菌和细菌之间的网状组织。因此,深根信号的热点多样化可能是善意的,值得进一步研究。

而那些价值树思想在很多方面有争议的托尔是“过时”(例如,13]),我们的辩论很简单。基因序列之间的同源性建立了通过“皇帝的爆炸”(美国标准(71年])是可怜的替代品从基因序列重建系统发育树。同样,发展史重建序列是可怜的替代品的发展史,考虑编码的分子结构和功能的产品。基因序列不仅容易突变饱和但通常它们。这些作品代表进化和结构模块主机编码的功能分子。蛋白质域,例如,三维(3 d)自主安排的二级结构元素的褶皱(83年),是紧凑的84年),进化保守(85年,86年]。探索进化变化的景观在功能和蛋白质的作用域进化是(87年]。在序列水平变化,包括替换、插入和删除,可以对结构几乎没有影响,反之亦然;序列的改变至关重要的网站可以在功能和健康带来毁灭性的后果。然而,并没有详细分析的历史基因序列之间的不匹配和域结构在托尔的水平。值得注意的是,虽然高度似乎猖獗在序列水平,其影响在域结构水平是有限的88年]。这使得树木来自域有效99%的“树”,其使用非常强大。主要由垂直下降这一事实领域多元化(例如,89年- - - - - -91年)表明,基因网状只是反映了普遍和有效的组合的影响域重组蛋白(92年),也许。这个重要的索赔必须仔细评估。它提供的可能性解剖继承层次的组织如何影响过程的生物学。

5。的僵局:部分和整体的演化结构系统

托尔的支持显然是混乱的高动态特性变化的蛋白质和核酸序列和补缀的性质和网状物在基因层面上存在的复杂性。然而,也有可能托尔最终是技术的问题。我们已经取得的情况下,使用分子序列在很多方面是有问题的,包括突变饱和,网站在序列的同源性比对的定义,不适用的字符,分类单元采样和树不平衡,和不同的历史签名域的多畴的蛋白质(93年]。特别是,仅仅存在违反性格独立的原子结构是一个非常严重的问题困扰的系统发育分析序列。我们在这里提出一个解决僵局。我们表明,托尔可以用不同的方法的,注重结构和功能,它的根是生活会放在古生菌。

就认识论而言,系统角色必须符合对称破坏和时间的不可逆性94年]。换句话说,人物必须建立转型同源关系和作为独立证据语句。

(我)字符必须同源和遗传树终端单元(类群)。性格相同是一个中央和有争议的概念,体现了历史的连续性信息的存在74年]。字符“基本”证据语句组成列数据矩阵用于树重建。他们猜测感知相似性是公认的事实研究期间,加强了Hennigian互惠照明,并且可以考验通过与其他角色一致,这些都是适合的树木。很有用,字符必须遗传和信息数据的分类单元行矩阵。这可以评估,例如,支序分类学信息内容(CIC)测量(95年]。找到有用的字符可以特别具有挑战性的特性,研究了在快节奏当类群样本宽,因此深系统发育谱。在构建托尔时,变化的高度动态特性的序列组成蛋白质或核酸分子的挑战的能力来获取可靠的系统发育在类群签名,即使分子普遍分布和海港进化保守的地区深系统信号(例如,rRNA)。原因是给予足够的时间,功能或结构约束区域的序列将固定(结构上开凿运河(6])将提供小如果发现任何过去的有意义的信号,例如,普遍rRNA的核心。反过来,突变饱和无约束的地区将迅速抹去的历史。

突变饱和问题是数学上明确的清醒和钢24)使用互信息和时间作为信息破坏过程的概念。互信息 两个随机变量之间 被定义为 趋于0, 成为独立的,没有方法可以预测 从知识的 。重要的是,互信息方法0之间的时间 增加一个马尔可夫链。不管使用吝啬,最大似然,或Bayesian-based框架的分析, 会特别小当序列网站被太多的饱和替换由于高替代率或大的时间尺度。祖先的国家内部节点的树无法建立信心从现存的信息甚至在最优的情况下知道底层的发展史和角色演化的模型。简单模型下,问题不在于减轻由于终端数量的树叶和最初的来源系统发育信息随时间增加。由于相变发生在替代概率超过一个临界值96年),僵局的出路之一是找到足够数量的变化特征比序列的网站速度慢得多,测试如果互信息是重要的,克服了范诺不等式。这些特性中存在有分子生物学和系统发育重建。例如,蛋白质分子的三维折叠结构(87年)或阀杆模块的RNA结构(97年),特性,相比变化非常缓慢的速度相关的序列。例如,蛋白质三维结构核心发展线性氨基酸替换/网站和改变以慢3 - 10倍的利率比序列(98年]。这么高的保护强调了分子结构的演化动力学。值得注意的是,利率变化的蛋白质执行相同的功能是由功能约束但加速蛋白质或包含indels执行不同的功能。反过来,折叠结构多样性爆炸成模块化的结构在低序列的身份可能引发的功能多样化。结构保护的上下文中,折叠结构结构和进化模块积累蛋白质组的基因复制和重组和传播在生物网络招聘(例如,99年)还提供了一个解决系统信号消失的问题。因为褶皱积累随时间马尔可夫链,互信息必须增加,扭转破坏信息的“数据处理不平等”,使深进化信息。

(2)字符必须表现出至少两个不同的字符。这两个州(转型同系物)必须祖先(“plesiomorphic”状态)和其他必须派生(“apomorphic”状态)74年]。只有分享和派生功能(共源性状)提供垂直系统发育证据。因此,确定替代的相对祖先状态定义的极性字符转换和根底层的树。这是一个系统发育推断的基本属性。极化树重建使“时间之箭”(美国标准爱丁顿entropy-induced不对称),解决了加油的问题,满足其他认识论要求。

Cladistically来说,性格极性是指祖先之间的区别和派生的状态和共源性状的鉴定。然而,进化论的观点极性也指性格状态转换的方向在系统模型中。从历史上看,三个接受替代品用于支持树(One hundred.- - - - - -102年),群外的比较,个体发生的方法,古生物学或地层方法。虽然三种方法不包括进化过程的假设,他们的话题讨论和他们解释的争议。前两个是然而合理的假设多样性的结果在一个嵌套分类层次结构,这可能是也可能不是引起进化。我们不会讨论地层的方法,因为它依赖于辅助假设关于化石记录的完整性。前面提到的中点加油标准将不讨论。的争夺过程存在异构性问题在利率变化的系统发育树和准确的描述问题的距离。

在外围集团比较,极性推断小集团的角色状态的分布(感兴趣的群分类单元)和妹妹组(群外类群利息)。在一个简单的情况下,如果字符状态只存在于派系,它必须考虑。外围集团比较方法的选择,因为phylogeneticists往往有信心支持假设:高级关系之外的小集团,相当于比较个体发育的阶段,和人物状态分布适当调查。不幸的是,这个方法是“间接”,因为它依赖于假设的存在一个高级群和派系之间的关系。因此,该方法不能根托尔,因为在这一水平目前还没有更高层次的关系。此外,该方法本身不极化字符。它只是连接小集团的托尔(One hundred.]。

个体发育的标准授予极性的分布状态的个体发生同源字符的小集团,一般通过关注角色状态的普遍性,与更广泛的分布式状态被认为是祖先。纳尔逊的规则”给出一个个体发生的转换从一个字符观察到更一般的人物观察到更少将军,更一般的性格是原始的和少一般先进”(103年]。这种“生物起源的法律”出现强大的,因为它只取决于假设小集团类群的个体发生适当的调查。这也是一种“直接”方法完全依赖派系。因此,它有可能在托尔根。不幸的是,尼尔森的“普遍性”解释在许多方面,特别是在个体发育的序列相关(引起更多的混乱102年]。它还涉及到比较发育嵌套生活和不同的历史阶段,很难扩展方法(脊椎动物种系发生的最初概念)微生物世界。然而,韦斯顿(One hundred.,104年)明确表示,个体发育的标准体现了一个更广泛的“一般性准则”角色的taxic分布状态是另一个分布的一个子集。换句话说,性格,特征必须考虑整个团队的祖先相对于另一种状态,是该集团的一个子集。除了嵌套模式的中心,通用性标准嵌入的核心假设每个同源性在本质上是一个共源性状的嵌套分类层次和同源性的层次由于添加剂系统发生改变(One hundred.]。韦斯顿的一般规则因此州“鉴于分布的两个同源的人物, ,是被所有的物种拥有其同族体,性格 和至少一个其他物种不, 可能是假定apomorphous相对于 (104年]。唯一的方法的假设是相关字符州小集团中适当的调查。这个新规则至关重要的是替代品的概念个体发育的更一般的概念转换的同源性和添加剂系统发生变化,可应用于案件中,积累“迭代”进化同源实体(例如,生成paralogous基因的复制)。由于后天性水平(xenologs)并不认为共源性状,他们对系统噪声和贡献被排除在外后计算相似和保留指数(即。字符、拟合优度指标发展史)。

我们应用“一般性准则”托尔的支持通过极化策略体现公理的进化过程。图4给出三个例子。扎根发展史描述5 s rRNA分子的进化从范围广泛的生物采样重建从分子序列和结构(105年]。的托尔在古生菌根paraphyletically(图中恢复过来4(一))。人物状态转换的模型是基于RNA分子进化的公理是优化增加分子的持久性和高稳定的折叠构象。在RNA结构体外分子持久性实现,碱基对关联和脱离速度高达0.5−1(106年]。这个折叠过程的动力学和能量使一些结构性构象快速达到稳定状态。这个过程是进化优化通过结构性运河网(6),进化达到分子功能增加平均寿命和选定的构象的稳定性和减少它们的相对数量。因此,构象多样性的测量,例如,香农熵的热力学稳定的碱基配对概率矩阵或特性作为“今晚”代理的RNA分子的一般性准则,标准的相似性(如个体发生的转换)是位置参数和成分的信件。使用不同的方法,我们最近扩大系统的使用约束分析(107年,108年),借用一个正式的控制论的方法,一个reconstructable系统分解为它的组件(109年),用它来根ToL源自tRNA序列和结构(图4 (b))。托尔再次根植于古生菌。所需要的额外的步骤数力(约束)特定类群为单源组被用来定义一个谱系聚结距离( )来测试单系统的替代假说。这些假设被命令根据 在进化的时间价值。自 记录的相对分布特征在taxic集,它也体现了加油的通用性标准。最后,我们生成的工具描述蛋白质组的演变直接从人口普查的蛋白质折叠结构在蛋白质组(图4 (c))。这个托尔显示古生菌的原生动物加油。方法提取系统信号从蛋白质组学大量的蛋白质折叠结构,认为最丰富和广泛分布的折叠是古老的起源在定义转换系列(41]。极化机制,导致蛋白质组的逐渐增长,又代表了一个化身的普遍性标准语句的同源性(折叠结构)由于添加剂系统发生变化(增加丰富)。值得注意的是这些ToL重建考虑每个折叠结构的基因丰度在每个蛋白质组和在整个矩阵,从而生成一个沮丧的系统。一般来说,非常高的丰富的只有少数折叠不再吸引类群(物种)派生分行的托尔。的祖先类群是由丰富和折叠结构角色之间的相互作用。例如,代谢折叠等那些参与细胞内ATP水解普遍存在和被认为是非常古老的。这些也是最古老的折叠的发展史。相比之下,一些流行eukaryote-specific折叠(如免疫球蛋白超科)是高度丰富但派生的方式出现在我们的发展史。因此我们原因没有循环参与角色的极化。

组合方案与paralogous序列扩展支持的概念,整个蛋白质组补充,从基因家族的水平One hundred.)结构层次结构。三个例子利用不同生根依据但提供一致的情况下的多元化生活的起源。从技术上讲,Lundberg根是推断的方法(110年),不需要任何外类群规范。这种方法根树后验通过附加的假设的祖先,拔起的分支网络,将产生最小树增加长度(从而保持节俭原则)。

(3)字符必须作为独立进化的假说。有效的系统优化要求字符是独立的证据。字符不应依赖于其他字符。违反独立性的假设时,人物太胖的分析和结果发展史不能代表真正的历史111年]。多种可能的依赖关系是,从结构到功能,从发展生态。这些依赖关系扭曲和模糊系统发育信号,必须避免或编码到系统模型通过参数或重量修正。

我们将精心制作的,性格独立的问题部分整体在生命的层次结构和嵌套层次结构的托尔。生物系统根据定义的部分不管部分定义的方式。在进化过程中,多元化和一体化的统一为凝聚力的实体部分,部分模块,然后分散(112年]。这个过程和模块的增加可以解释进化的复杂性和组织和结构生物学(广义)的出现分层。层次结构在蛋白质分子的结构,是由明显,低水平的部分聚合物(氨基酸残基)相互作用,建立有凝聚力的更高层次的模块化部件,建立交互网络和分子功能和交互至关重要的蛋白质与细胞环境。因此,蛋白质的结构可以被描述为增加层级结构抽象:序列,图案,循环,域,家庭,总科,拓扑结构,折叠,体系结构和类。两个公认的黄金标准的蛋白质分类、蛋白质结构分类(吟游诗人)113年)和类结构拓扑结构同源性(导管)114年),使用这个不完整的方案的部分来描述原子分子的复杂性。我们注意这些分类不考虑未实现结构,如蛋白质折叠,是有可能的,但从来没有被确认在蛋白质结构的自然世界。我们有时也注意模块进行组合游戏。例如,蛋白质域重新安排在进化过程中通过融合和裂变产生的巨大多样性选择域重组中存在的多畴的蛋白质(92年]。

由于生物系统进化和有共同的祖先,这些系统的部分定义的发展和自己有共同的祖先。换句话说,部分的历史体现在托尔的血统的合奏。系统发育分析的焦点然而绝大多数生物体的生物系统,努力致力于作证的分类学分类,系统生物学,和托尔的建筑。基因革命提供了丰富的部分氨基酸序列的蛋白质和核酸分子的网站,已被用作分析的分子系统发育字符代表生物。这一直保持重建树的焦点系统(整体)。例如,氨基酸的蛋白质通常是适合一个数据矩阵(定位),然后使用它来构建树的基因和生物(图5(一个))利用现代算法实现115年]。然而正如我们所提到的,蛋白质氨基酸之间的相互作用而导致的复杂结构在三维原子级别。这些分子内的相互作用,或至少其中一些(116年),诱导蛋白质折叠和划分子功能和蛋白质的稳定性。supersecondary,他们负责蛋白质二级域名,和三级结构,根据定义,他们仅仅存在诱发违反性格独立。彭妮和柯林斯117年)提出了简单的思想实验的bioinformatician交流行序列网站一致性矩阵,问的过程中失去的东西。随机化的字符(列)在数据矩阵不会改变系统树。然而,随机破坏分子的结构和很有可能它的功能。这证实了重建树从序列信息网站违反了性格独立,在这个过程中,忽略了结构和生物学。违反独立性格的影响可能是最小的树序列是密切相关的。然而,树描述深刻的历史关系要求序列发散,这最大化的机会更大分歧分子结构中不占的序列进化的模型。

基因革命还提供了丰富的3 d原子结构模型。这些结构作为黄金标准分配结构模块序列高的信心。如前所述,蛋白质组体现蛋白质域的集合定义良好的结构和功能。蛋白质组蛋白质域数量被用来生成树的蛋白质域(图5 (b))使用标准的进化枝的方法和行之有效的方法(了87年])。这些树在全球层面描述蛋白质结构的演变。他们实际上是树的部分。域相互作用在多畴的蛋白质或与其他蛋白质的域,建立蛋白质-蛋白质之间的关系不违反这些交互的部分性格独立。这是因为系统角色实际上是蛋白质组、系统定义的结构状态,存在水平远高于蛋白质域,不远处的生物水平。值得注意的是,不丢失信息,当字符矩阵中的列随机思想实验。蛋白质组的顺序字符矩阵不遵循任何理由。字符不下令或营养级的生物的生活方式。独立生存的生物很少会偏向他们之间的相互作用域组成,如果是这样,这些字符可以被排除在分析之外。甚至建立共生或专性寄生的交互,比如nodule-forming共生,根瘤菌与豆科植物之间,可能对性格独立,几乎没有影响,只要主人的联合包容共生有机体是可以避免的。

6。证据支持热点普遍树的加油

4显示生成的工具的例子RNA和蛋白质序列和结构的分子。不同phylogenomic拓扑方法得出一个共同的根源,干细胞群古生菌的底部托尔(古图的支持1 (c))。然而,部分和整体的进化关系提示使用树的部分,专注于高级结构,降低系统树的力量的信心。这些概念已经应用于研究历史的核酸和蛋白质结构十多年来和提供额外的证据支持热点加油的场景。

6.1。比较基因组论证

gene-encoded产品的分布的基因组测序生物和吝啬的思维可以揭示全球进化模式没有正式的系统发育重建。我们将展示如何简单的数值分析的蛋白质域,分子活动定义的基因本体论(去)财团118年),和RNA的家庭生活的特定领域或领域之间共享可以揭示细胞生活的三方分工,排除嵌合原产地的场景,并提供初始洞察力在托尔的支持(图6)。

独特的蛋白质折叠中观察到的数量自然是非常小的。吟游诗人版本。1.75只定义了~ 2000倍总科(fsf)组同源域统一的基础上常见的结构和进化关系,总共110800种已知域蛋白(113年,119年]。fsf代表高度保守的进化的单位,适用于研究生物的多样化(87年]。Yafremava et al。120年]绘制不同的总数FSF (FSF多样性)与平均重用FSF有机体(FSF)丰富的蛋白质组。这个练习发现了一个扩展行为的典型本福德分布与蛋白质组学的一个线性政权于超线性增长为微生物有机体和政权的真核生物(图8 [120年])。这些相同的扩展模式时观察研究开放阅读框架和基因组大小之间的关系(121年]。值得注意的是,古细菌和eukaryal蛋白质组表现出最小和最大FSF丰度和多样性水平,分别。然而细菌蛋白质组显示中间水平。我们注意到一般扩展行为符合一个场景,在该场景中,进化多元化收益简单蛋白质组的渐进的方式越复杂,支持时空连续性的原则,揭示了嵌套系统层次结构的生物。在这种情况下(和结果的120年]),streamlined古细菌蛋白质组代表细胞生活的最早形式。值得注意的是,热点窝藏高温和hyperthermophilic生活方式最精简FSF体验(图进行编码7)。显然,现代高温archaeons最密切相关的古细胞居住地球几十亿年前(也读下文)。

FSF域分布在三个领域的基因组的生活提供更多的洞察他们的进化。纳西尔et al。122年,123年)生成的维恩图来说明FSF共享模式古生菌的基因组,细菌和真核生物(图6(一))。这些图显示的总数fsf特有的一个域的生活(分类群的a、B和E),只有两个共享(AB,和AE),和那些普遍(安)。大约一半的fsf(786 1733),在所有三个领域,其中453中至少60%的生物研究( ,在那里 分布索引从0到1)。这一事实约70%的广泛共享fsf(672)属于安倍分类群强烈支持一个共同的进化起源细胞。进化时间表已经证实,大量的这些普遍fsf在场的祖先生命的三个领域,urancestor(图1),大部分保留在现存的蛋白质组48]。

有趣的是,被fsf ~ 10倍的数量大于AE和AB fsf(324和38和38)(图6(一))。的发现细菌和真核生物编码一个很大数量的共享FSF领域值得关注和提示对前所未有的强烈的生命进化的这两个领域之间的联系。此外,大量fsf普遍存在的细菌和真核蛋白质组;56 324共享fsf的超过60%的细菌和eukaryal生物体进行了分析(图6(一))。这是一个古老的强有力的证据垂直进化跟踪从共同祖先(预期在123年])。该跟踪唯一支持古托尔的支持。反过来,规范化和真核替代加油极不可能没有单独解释的显著的多样性可以分类组(以及它的古老的起源;(123年])。安倍的显著的纵向跟踪分类组和微不足道的纵向跟踪AB组(只有一个FSF共享60%以上的生物)还伪造融合假说负责一个假定的嵌合真核生物的组成。根据这些研究结果,比较基因组数据的最简洁的解释是,古生菌是第一个领域多样化的移动生活。

FSF共享的模式进一步加强了终端能级的分子功能的基因分布(图6 (b))。生命的三个领域共享约四分之一(526)的1924项调查。总共232个安倍条款共享60%的生物分析。再次,约76%的广泛共享条款(306)属于安倍分类群强烈支持一个共同的纵向跟踪,当发现细菌和真核生物分享一个很大数量的再条款(272)支持古托尔的支持。另一种解释的非常大的大小是可以大规模代谢相关基因转移从线粒体和叶绿体的祖先现代真核生物的祖先(124年]。然而,我们注意到,只能代谢组并不局限于功能。它还包括fsf和非政府组织参与细胞内和细胞外的流程和监管和信息功能125年]。这样的非常大的大小是一个重要的结果最有可能受到垂直进化场景和完全不能解释为寄生/共生关系存在于细菌和真核生物(123年]。此外,简单的热点FSF体验并不是由于缺乏可用的古细菌基因组数据。我们证实,意味着FSF覆盖(即。,number of proteins/annotated to FSFs/GOs out of total) for Archaea, Bacteria, and Eukarya was largely comparable (e.g., Table S1 in [122年])。最后,我们将在下面描述,这些比较模式和初步结论证实了phylogenomic分析(91年,122年,126年]。得到了一致的发展史(图4 (c))和不平等和类群的随机抽样。因此,古细菌基因组的相对较低的数量也不会妥协我们的推论。

我们注意到许多真核生物股票信息基因与细菌与古菌和许多操作基因。而信息基因已经被认为更耐火材料高度比noninformational基因,我们已经证实在水平,这并非如此。ToL由去条款表明,事实上noninformational homoplasious较小,而统计显示高度浓缩分析几乎没有任何功能偏好去术语跨层级。我们最近从non-HGT工具相比重建的条件和工具重建信息提取方面,从non-HGT条款(Kim女士等人在审查;下面的也读)。在这两种情况下,作为基底古生菌出现并系群工具和常见的细菌和真核生物的起源是维护。因此,272年去共享由细菌和真核生物港口一个强大的垂直痕迹。

另一个观察经常用作支持Archaea-Eukarya亲属关系的发现几个eukaryote-specific蛋白质(如肌动蛋白、微管蛋白H3, H4, ESCRT,核糖体蛋白,和其他人)在一些热点[127年),他们完全没有从细菌(除了记录微管蛋白高度从真核生物细菌属Prosthecobacter;(128年])。这表明要么是真核生物出现从一个古家族(127年)或真核生物和古菌是复杂的和现代的祖先古菌是高度降低(25]。事实上,一些eukaryote-specific蛋白质已经被发现在一些热点(在某些情况下只是一个物种!)。我们认为这个可怜的传播不能作为证据Archaea-Eukarya妹妹的关系。这需要健壮的系统发育分析,证实了使用蛋白质序列时,不幸的是不可能的。最近,我们描述了一种新的策略推断垂直和水平[痕迹123年]。该方法计算的传播fsf和非政府组织之间共享two-superkingdom组(即。、AB、AE)。平衡分布通常表明垂直继承而偏向分布显示水平通量。例如,青霉素结合分子活动(去:0008658)出现在采样细菌蛋白质组的100%,但仅出现在11%的热点123年]。因此,在古生菌存在的:0008658归因于HGT获得细菌。使用这个简单的方法,我们建立了细菌和真核生物都被更强大的垂直联合跟踪比古生菌。事实上,古细菌基因组的强劲还原倾向记录(123年]。因此,在我们看来,存在eukaryote-specific蛋白质只有很少的热点事件实际上是一个高度不被序列的发展史。

反过来,许多参数支持现在Bacteria-Eukarya姐妹除了基于结构的发展史和平衡分布的分子特性。例如,细菌和真核生物有类似的脂质膜,可以用作参数的进化关系。此外,古生菌从根本上不同于真核生物的virosphere。病毒感染古细菌和真核生物是截然不同的,最近讨论Forterre [25]。

RNA的基因分布的家庭来自迪斯霍普纳et al。129年),还显示了一个垂直进化痕迹在五个关键Rfam宗族普遍,包括tRNA, 5 s rRNA,亚基rRNA,核糖核酸酶P RNA。这些普遍的RNA组织很可能受高度的影响最小。然而,99%的Rfam家族和家庭是特定于域的生活,只有11 1148组共享的 的水平。这清楚地表明,RNA的功能复杂性物化很晚在有机体的多元化,并不是一个好基因功能探索托尔的支持。只有五个RNA的家庭是生活的两个域之间共享,且只有一个这些这样做 23 s rRNA的G12基因,这是存在于细菌和真核organellar rRNA。而大亚基rRNA支架支持G12基因与其垂直的痕迹,所有五个interdomain RNA家庭可以解释最吝啬地高度。因此,只有少数古老而普遍的RNA物种可用于根托尔。

指出我们的维恩图一致表明,古生菌港口最少的独特(A)和共享(AB和AE) fsf、条款或RNA的家庭。这一趋势支持早期从urancestor生命领域的分歧,这种分歧的可能性是由进化还原事件。我们原因,这样损失会更简洁的早期进化比后来的时期。这是因为基因通常增加丰富进化时间(由基因的复制、高度和其他流程)。因此有理由认为失去一个古老的基因更可行的早期进化相对于失去它很晚。

6.2。Phylogenomic RNA序列和结构的证据

系统发育分析的几个RNA是普遍的家庭和显示一个重要垂直进化跟踪(图6 (c))提供令人信服的证据支持的早期进化的外表古生菌(105年,107年,108年,130年- - - - - -135年]。这里我们简要总结证据tRNA, 5 s rRNA,核糖核酸酶P RNA。未发表的核糖体rna序列的分析和结构使用先进的系统方法还表明,古菌是第一个域的生活。

tRNA分子通常短(~ 73 - 95核苷酸长度)和高度保守的。因此,他们的顺序通常包含有限的系统发育信息。通过分析整个tRNomes[已经克服这些局限性136年),一组有机的图示的长度延伸到超过2000个基地。雪et al。130年,131年)之间的遗传距离分析tRNA序列之间的平均alloacceptor转运rna从不同组tRNomes使用多个分子碱基替换模型。距离被映射到一个拔起发展史的tRNA分子(图8(一个))。“时间之箭”的假设在这些研究古代tRNA假字相似彼此当血统来自接近时间的基因复制。值得注意的是,结果显示古生菌的原生动物的ToL加油。根是专门靠近hyperthermophilic产烷生物Methanopyrus kandleri(图8(一个))。这个特定的场景中加油的假说已经被其他几个支持的研究(134年,137年),包括研究paralogous之间的遗传距离对氨酰合成酶(aar)蛋白质131年]。非凡的匹配距离的tRNA与对aar假字(图8 (b))不仅证实了古生菌的早期出现,也表明一个共同进化的跟踪与分子相互作用,负责相关的遗传代码。事实上,最近的一项详尽phylogenomic tRNA和aar共同进化的明确的分析,将揭示遗传密码的起源和演化和底层的分子遗传学基础59]。Di朱里奥(132年,133年)也提出了生命之树的一个古细菌加油,特别是血统导致Nanoarchaeota的门。这个支持是基于独特和祖先的基因特征Nanoarchaeum equitans分裂基因分别编纂的5′和3′半tRNA,没有操纵子的情况下,被认为是分子化石(132年]。然而,这种说法需要额外的支持,对比现在认识到证据n equitans作为一个高度派生热点(138年]。

除了序列,结构特点的tRNA分子还支持古托尔的支持。RNA结构证据的应用程序在系统发育研究50,139年- - - - - -141年)有多个优势序列数据在研究古代事件,特别是因为RNA结构更保守序列。这已经证明了一个系统的方法,使用RNA结构信息来重建进化史等大分子rRNA [29日,50],tRNA [107年,108年),5 s rRNA [105年],P RNA(核糖核酸酶135年),和正弦RNA (142年]。几何和统计特性的结构(例如,茎或循环通常存在于RNA分子的二级结构)被视为线性有序多态系统的字符。为了构建的树,一个进化趋势构象订单用于极化改变的性格状态转换。这定义了一个假想的祖先来根使用Lundberg方法的小集团。重建的发展史产生树的分子和工具(例如,图4(一))或子结构树描述结构组件的逐步进化的吸积成分子(图9)。例如,系统发育树的tRNA分子历史和子结构定义显式模型表明,tRNA起源于分子的受体干细胞(108年]。值得注意的是,树重建的tRNA来自各个领域的生活证明吸积事件发生的顺序不同,古生菌的细菌和真核生物相比,这表明一群姐姐进化的细菌和真核域(图之间的关系9(一个))。类似的结果从5 s rRNA子结构树显示不同的分子吸积序列的热点分子当这些比较细菌和eukaryal同行(105年),在一个完全不同的分子再次确认系统的历史生活的领域。

核糖核酸酶P RNA的结构的分析也提供了类似的结论135年]。而ToL重建从分子结构类型古细菌分子在其基地(一个拓扑结构,类似于托尔5 s rRNA),树的核糖核酸酶P RNA子结构发现了RNA的分子吸积分量的历史古老的核酸内切酶和显示一个了不起的还原进化趋势(图9 (b))。分子起源于干细胞P12,立即上点缀催化P1-P4催化核心基因结构与核糖核酸酶P蛋白核酸内切酶的复杂和古老的tRNA的片段。不久这个重要的增长阶段,进化分子失去第一杆古生菌(茎P8),几个吸积步骤比茎在真核生物的首次亏损或Bacteria-specific茎的首次亮相。这些系统报表提供额外的大力支持的早期起源古超界分歧之前细菌和真核生物的共同祖先。如下我们将讨论,早期的结构的分子吸积过程中部和古老的RNA家庭是重要的。它表明新兴热点血统受到强烈的还原进化压力在早期演化的一个非常古老的RNA分子。

6.3。Phylogenomic证据从蛋白质域结构

g . Caetano-Anolles和D。Caetano-Anolles [41)是第一个利用蛋白质域结构域的类群和重建树(tod)描述他们的进化。图10显示了一个扎根ToD由FSF基因组结构在981年的人口普查(数据来自122年,123年])。这些树是独一无二的,他们的终端树叶表示一组有限的组成部分(87年]。这些部分描述在全球层面上蛋白质的结构多样性的世界。FSF在构建树,可以计算每个FSF域结构的年龄从tod只需计算距离在树的根节点和其相应的终端叶。这是可能的因为托德展览高度不平衡(齿形的)结果的拓扑semipunctuated域外观和积累的过程。这个节点距离(nd),新从0到1,提供了一个相对时间尺度研究FSF进化历史上出现的顺序(126年,143年]。王等人。144年)表明,nd线性相关与地质时间和定义了一个全球分子钟的蛋白质折叠。因此,nd可以作为一个可靠的代理时间。策划fsf的年龄在每个进化确诊的7个分类群的语句我们先前的维恩图推导出图6。安倍分类组包括古代和广泛分布fsf的大部分。这是预期。拥有一个强大的垂直跟踪、分子多样性必须划定一个嵌套分类层次结构。安集团之后,进化是集团的外观,这之前第一个特定于域的结构,这是Bacteria-specific (B)。值得注意的是,Archaea-specific (A)和Eukarya-specific (E)结构同时出现和相对较晚。这些一般趋势,盒子里捕获块图10时,已发现多次研究域结构各级结构的复杂性,从折折的家庭91年,126年),当使用导管或吟游诗人结构定义(122年,145年]或当探索终端的发展条件。

虽然早期的崛起是fsf支持从urancestor古生菌的早期分化,逐渐失去结构的非常重要的趋势发生在古域的血统和很晚出现的Archaea-specific结构(例如,126年)需求的解释。因为古代fsf广泛分布于蛋白质组(图10),他们不能从单独的收益出现fsf的细菌和真核生物或水平结构的传播的过程。这已经明显的维恩图的图6。此外,是姐妹关系排除古生菌进一步支持fsf参与脂质合成的检验和运输(表1)。膜脂质非常相关的多元化生活的起源([146年)和引用)。细菌和真核生物编码类似脂膜而古细菌膜有不同的脂质成分(类异戊二烯醚)。检查如果脂质合成是另一个共源性状,我们确定了17 fsf参与脂质代谢和运输(表1)。值得注意的是,大部分的这些fsf 17(7)是集团所特有的。相比之下,没有出现在AE或AB组。安倍组包括5万能fsf,而一个是细菌和四人eukarya-specific独有。反过来,没有FSF古生菌所特有的。是fsf不能解释现代侵犯蛋白质组的变化影响积累fsf或域重排过程,因为这些出现在蛋白质世界很晚在进化92年]。FSF的唯一和最节约的解释模式分布展开托德是早期(长期)的古域进化过程的还原,可能引发urancestral血统的适应恶劣的环境和生存模式。extremophilic条件下典型的hyperthermophilic环境中,相当大的投资信息必须的蛋白质和个知识点持久性(120年]。这将限制可行的蛋白质结构(147年]。Extremophilic环境将因此风度维护一组有限的fsf的持久性紧急多样化的血统。这将引起一个还原进化的原始集FSF曲目,解释为什么hyperthermophilic和嗜热古细菌物种最减少蛋白质组(图7)。它还将解释存在于fsf的偏见,包括家庭和RNA(图6),hyperthermophilic和嗜热古细菌物种的放置在工具的基础。由于古生菌填充海洋和有时在细菌数量的竞争对手在这些环境中,我们进一步解释后期出现Archaea-specific fsf的殖民后期的结果由古代archaeons这些温和的环境和新兴真核生物。这个放松原始extremophilic压力蛋白质结构,使后期热点探索结构的灵活性和功能的新鲜感。

6.4。完整的循环:证据从蛋白质组和Functionomes树树来自病毒经由在超界的分布

虽然我们不信任树的系统,尤其是工具由序列,使用高水平的抽象结构的分子结构有可能减轻一些限制的序列分析93年]。例如,扎根工具由丰富计数域结构和终端的条款在独立生存的有机体的基因组描述蛋白质组(例如,[的进化91年])。所有托尔重建这些近似生物体的生理、解剖生命的三个主要领域,并揭示了早期原生动物extremophilic热点血统起源,其次是已故的表象单元细菌和真核生物。这些模式被可靠地恢复用不同大小的数据集不考虑结构分类方案(91年,122年,126年,145年]。即使树分布的重建2662年病毒经由超界的一个详尽的病毒基因组的比较基因组分析显示基底古生菌配售和妹妹类群细菌和真核生物(图之间的关系11)。

6.5。额外的证据从比较基因组学

蛋白质域结构的不均匀分布在蛋白质组(图6)是保存我们爬在结构层次结构。这是最近明显当研究导管进化的领域(145年]。图的维恩图12显示在数字域结构在各分类群的减少增加进化的保护。在导管建筑最高级别,有32个通用架构,但没有特定于域的架构。四个架构共享由细菌和真核生物中至少60%的蛋白质组进行了调查。另外两个interdomain架构是相当陌生的拓扑设计缺乏蛋白质组之间共享和复杂性都进化。他们是架构在真核生物和丢失盒子架构的核苷酸切除修复共享的古细菌,真核生物。最吝啬的这些分布模式的必然结果是损失的分类群必须出现结构古生菌。的确,托德描述导管域结构的进化早期再次确认外观古生菌的结构,因此他们的损失。

7所示。原生动物起源:古历史上成绩和演化支

说,“托尔是植根于一个域的生活”是一种不正确的声明,来自系统方法(使用外围集团)和趋势看过去与现代的眼睛。工具的演化支根相对于彼此通过生成拔起树和通过定义现存生物作为外群分类单元。然而必须考虑ToL植根于urancestor细胞的生活(图1)。这栽边缘连接到现存生物的派系代表一个细胞状态,生产多样化(成功的血统)缺席。原始urancestral边缘导致“相变”,最后细胞祖先(LUCA),所知甚少。的生理学urancestor不能被视为与任何现存的生物,即使它拥有共同的分子与所有的核心。urancestor不是archeon,细菌或真核生物(148年]。它未必是高温。也许这是一个公共实体或一个megametaorganism现代合胞体(多个细胞融合的结果)和一个现代的多核细胞(多个细胞分裂的结果)。有机体的边界可能是现在,从广泛分布的蛋白质域的数量与膜的基础,出现在我们的托德和acidocalcisome普遍存在的细胞器149年]。然而,urancestral细胞的分子结构是最有可能的流体和quasistatistical;urancestral种群的曲目分布不平等的公共部分,当然,范围内分隔的持久性。这urancestral人口因此一致的想法提出的原始干细胞线Kandler和伍斯(150年,151年]。然而,它是相对丰富的分子结构和功能而不是简单的细胞系统由伍斯假设。现代分析也证实了这种丰富的蛋白质组和functionomes揭示大量的蛋白质域和非政府组织在三个超界普遍共享。虽然每个合胞体/ megaorganism交换的多核细胞元素组成部分的细胞的稳定性和持久性,这个过程不能等同于现代的高度。原始细胞的交换社区不够凝聚力水平交换有意义。大分子最有可能建立宽松的和多样化的相互关联和较小的分子,然而有限的平均寿命短结构构象。随着时间的推移,分子better-optimized属性从事更耐用的交互,稳定紧急细胞和细胞增加凝聚力。这将urancestral社区对相变(结晶;(148年]),在细胞组织有不同的属性和个性化。我们相信这是古家族的起源的时间29亿年前(48]。

底部的工具从基因组数据,重建基底古细菌类群原生动物血统(人物出现4(一)4 (c))。这些血统可能源自urancestral人口亚域结构和分子功能普遍失去至关重要的。这是一个进化等级在上面描述的场景。新兴的血统与urancestral社区共享一个统一的条件,与古老的生物化学。换句话说,urancestral和新兴热点血统表达谚语的基本结构和功能体验,但显示在每个新兴和持久的原生动物血统少数截然不同的新开发的特征。这些特征可以是全球性的,比如增加一些关键成员的蛋白质的热稳定性曲目或膜构成的变化,或地方,如选择性失去至关重要的结构和功能。图13用树模式描述的结构和功能等价urancestral和新兴热点演化支血统和缓慢的发展成绩。

8。通过虫洞:“Megaorganism”和化妆的新兴热点血统

人物状态重构的蛋白质组体验来自工具耦合tod的时间表提供了一个有效的方法来定义的祖先蛋白质域补urancestor [48),因此,可能构成的新兴热点血统。urancestral蛋白质组拥有一个下界的~ 70 FSF域结构,其中75%是组成的α/βα+β蛋白质。大约50%的fsf的代谢酶,包括丰富的工具箱核苷酸转移酶和酶的代谢。其他领域参与功能相关信息(翻译、复制和修复),细胞内过程(运输、蛋白质修饰、蛋白水解活动),监管(激酶、磷酸酶和DNA结合功能),和小分子绑定。urancestor已经有限的aar和翻译的因素。它包含一个原始核糖体与有限的核心通用核糖体蛋白质。它有许多膜蛋白所必需的交通工具,包括一个相对先进的ATP合成酶复杂,和结构所必需的细胞组织(细丝和原始细胞骨架结构)。脱氧核苷酸的细胞缺乏酶生产,所以很可能细胞urancestor本身没有港口DNA基因组。细胞缺乏功能与细胞外的过程(细胞粘附、免疫反应和毒素/国防)和细胞活性,表明古代生活世界没有生存的竞争战略。

9。结论

托尔的支持一直在进化生物学(总是有争议26,152年,153年]。虽然被普遍接受,ToL基于序列的发展史植根于无核细胞和古细菌和真核生物的妹妹,只有两三个主要步骤的系统发育分析(104年与序列)已经部分实现了。这包括选择一个适当的统计或nonstatistical进化模型的性格变化和种系发生树重建的优化方法。但是,没有足够的方法存在极化识别祖先和派生的字符在序列。没有健壮的极化的方法,任何声明的加油ToL应该考虑嫌疑人、推理结论的话题。在这里,我们表明,信息来自基因组结构和功能普查数以百万计的编码蛋白质和rna加上符合韦斯顿的流程模型的通用性标准提供的手段剖析多元化生活的起源。这些研究的普遍性标准是实现聚焦等模块的积累蛋白质域结构,元素的RNA子结构,或个体发育的分子功能的定义。一般来说,这些特性是吸积过程的主题符合添加剂系统内改变嵌套分类层次结构,导致丰富的变化。这些过程包括那些负责分子的增长(例如,多畴的蛋白质),分子集合体(例如,核糖体)和分子体验(例如,蛋白质组)。一致的新方法发展进化的场景,在该场景中,多样化的生命的起源要追溯到古菌的早期历史。值得注意的是,这种微生物urkingdom现在正义的古老的起源。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢GCA实验室的成员和朋友富有成果的讨论。这项研究支持由美国国家科学基金会(mcb - 0749836和瓦兹- 1132791)和美国农业部(illu - 802 - 909和illu - 483 - 625)从KRIBB Gustavo Caetano-Anolles和研究计划项目和下一代BioGreen 21项目,农村发展管理局(PJ0090192013) Kyung莫金。