研究文章|开放获取
Arshan纳西尔,Gustavo Caetano-Anolles, ”蛋白质组的比较分析和Functionomes提供见解的起源细胞多样化”,古生菌, 卷。2013年, 文章的ID648746年, 13 页面, 2013年。 https://doi.org/10.1155/2013/648746
蛋白质组的比较分析和Functionomes提供见解的起源细胞多样化
文摘
重建现代物种的进化历史是一个困难的问题复杂的概念和技术系统树构建方法的局限性。在这里,我们提出一个比较蛋白质组学和基因组进化functionomic推理框架,允许解决三方分工细胞和描绘他们的历史。进化的推论来自保守分子的传播特性,如分子结构和功能,在蛋白质组和functionomes当代生物。使用方式和重用这些特征产生了重大的见解的起源细胞多样化。结果发现前所未有的强大的细菌和真核生物进化关系,揭示标志着古细菌基因组体验进化还原倾向。nonvertical进化过程的影响(如高度、趋同进化)被发现是有限的,而还原进化和分子创新似乎是流行在细胞的进化。我们的研究揭示了历史上强大的垂直跟踪相关的蛋白质和分子功能,可靠地恢复使用比较基因组学的方法。跟踪支持干细胞的存在的血统和古生菌的早期出现多样化的超界,但未能发现一个隐藏的规范模式,细菌是第一个超界部署superkingdom-specific结构和功能。
1。介绍
跟踪现存生物进化的一种普遍通用的基本生物细胞的祖先生活的重要性。现代生物可以分为三个主要的细胞超界、古生菌,细菌和真核生物(1]。分子、生化和形态学证据支持这个三分的部门。虽然three-superkingdom系统是广泛接受,建立这三个哪一个是最古老的仍是有问题的。初始建设基于基因的共同进化的拔起的发展史联系在一起的一种古老的基因重复事件表明,每组paralogous基因、古细菌和真核生物的妹妹从去年archaeal-eukaryal共同祖先(组织和分化2,3]。这种“规范”生根的地方细菌底部的“生命之树”(ToL)仍被广泛接受,尽管许多其他paralogous基因夫妇产生了不和谐的拓扑,尽管已知技术构件与这些序列进化深的发展史4,5]。因此,重建一个真正的“通用”托尔把所有现有物种的进化关系仍然是进化生物学中最具争议的问题之一。这部分归功于可用系统角色和树优化方法的缺点,受到重要的技术和概念的局限性6,7),未能产生一个共识。进一步复杂化的事实之间交换遗传物质很容易物种,特别是无核细胞(即。古菌和细菌,缺乏核)通过水平基因转移(HGT) [8- - - - - -10]。Nonvertical进化过程伴随着不确定性进化假设大大复杂化重建过去进化的问题。最近,工具的使用保守的蛋白质结构信息域(11,12),其注释功能(Kim et al .,重新提交女士),和普遍的RNA的家庭(13- - - - - -18提供新的方法来根的发展史。这些研究发现嗜热古细菌物种是最密切相关的原始细胞。发现不仅挑战细菌托尔的支持,但也强调采用可靠的系统方法和假设的重要性当重建深进化的历史7]。
在这里,我们推进结构和功能的方法通过提供一个简单的解决方案系统发育重建的问题。我们认为基本的量化和比较基因组分析不调用系统发育重建足以解决三方分工细胞和素描的历史。我们比较的方法包括分析超界,和他们的有机成分,与全球分享彼此的基因特性。基因组特征我们选择整个体验的分子结构和功能(以下统称为特征)。他们定义两个特定基因组数据集。的结构数据集包含的发生和丰富1733倍总科(FSF)域981年完全测序蛋白质组。FSF域分隔使用蛋白质的结构分类(吟游诗人版本。1.75),这是一个手动策划的数据库结构和蛋白质的进化信息域(19,20.]。FSF的吟游诗人层次包含域,已经背离了从一个共同祖先的进化(21,22]。相比之下,函数数据集描述了1924个基因的存在和丰富本体(去)条款23,24在249年functionomes]。我们注意到全球的fsf描绘了整个结构的生物,去描绘她们真实的生理的曲目。两个物种多样化提供有用的信息。我们限制我们的分析只包括结构和功能比基因序列(他们更保守25- - - - - -27),允许深进化的比较。相比之下,核苷酸序列是容易受到较高的突变率和不断重新安排在基因组产生小说域组合和分子功能(6]。换句话说,FSF域结构或分子功能的丧失是更昂贵的细胞,因为它有时包含损失数以百计的基因进化积累了长期的时间。这是复合的,尤其是对于特征非常古老,因为他们有更多的时间用在基因组和增加他们的基因丰度28,29日]。因此分子仍然保存在细胞结构和功能相对较长时间,使可靠推断候选人深进化关系。
在这里,我们表明,超界之间的特征分布的分析,基因组之间的分布能超界,和丰富数量允许解剖历史(表意)模式使用的比较与历史无关的(图(制定法律的)方法1)。灵感来自比较分析RNA的家庭(30.),我们测量的力量进化超界之间的联系作为个体的共享模式的函数特征(图1)。我们注意我们的方法是充分信息可靠推断关于进化的不同情况,采用多元化的三个超界。这种方法再次被广泛接受的理论关于多元化生活的起源(31日,32和伪造融合33)和氢假说(34真核的起源,多支持。这个练习然后提示验证的系统树重建,我们先前报道(见[26,28,29日,35])。根据这些考虑,比较运动提供了一个易于使用的和可靠的替代其他复杂的系统发生树重建方法。这些分析可能产生重要的洞察细胞的进化,如果仔细解释,提供强有力的论点赞成生根的托尔古生菌和嵌入式FSF的典型模式和创新。
2。材料和方法
2.1。数据检索和操作
FSF域分配981年完全测序提取蛋白质组从本地MySQL安装总科的版本。1.75数据库(36使用严格的)价值截止10−4(37]。总科数据库分配结构蛋白质序列使用概要文件隐马尔可夫模型(摘要)搜索,上乘检测远程同源性(38]。数据集包括652个细菌、古细菌,70和259 eukaryal蛋白质组编码总曲目1733重大FSF域。在这项研究中,确定了fsf吟游诗人使用字母数字标识符(例如,c.37.1, c代表类的域结构(α,β,α+β,α/β等),37倍,1 FSF)。这构成了结构数据集。
准备函数数据集,我们下载了基因本体协会(果)文件1595年生物从欧洲生物信息学研究所(http://www.ebi.ac.uk/GOA/proteomes)。这些文件被筛选排除strain-level和寄生生物。他们受到50%覆盖率阈值(注释的基因产品数量术语除以总数量的基因产物),以确保高质量的注释。在这项研究中,我们只采样最终水平去条款从分子功能层次结构(简单地称为神仙或功能从以下),因为它们代表了高度专业化功能注释和近似分子活动的细胞(进化信息)(25]。我们进一步排除GOs的高度可能扫描的总组2039终端非政府组织在我们的数据集对蛋白质水平基因转移中列出数据库(HGT-DB) [39]。这使得115年的排斥潜在HGT-derived神仙。最后一个函数数据集包括249只在functionomes从183年的细菌,45古生菌,21个真核生物编码组1924神仙。
2.2。基因组特征普查
我们进行了基因的人口普查结构和函数数据集通过计算发生(存在/没有)和数量(冗余项)所有蛋白质组和functionomes的特征。这些数据矩阵然后扫描生成特征共享的维恩图和箱线图显示模式之间和蛋白质组内部和functionomes超界集团。
2.3。在蛋白质组和Functionomes计算的传播特征
超界中的每一个特征的传播是一个计算的值指示蛋白质组的数量/ functionomes窝藏特质除以总数量的蛋白质组/ functionomes有机组织。的值方法低一个无处不在的特质,但那些不太广泛分布。
2.4。估计进化特征的时代
我们使用一个相对时间尺度来确定fsf在分子进化的起源。这种规模的定义了节点的距离(nd)作为计算的种系发生树FSF域(见[26,28,35为实际细节)]。从技术上讲,nd从它的位置是一个特定的距离特征在种系发生树的根节点。它给出一个范围从0(最古老的或根节点)到1(高派生或终端节点)。生物,它反映了进化FSF相对于其他FSF的年龄。nd已成功地应用于过去描述细胞进化的重要事件(例如,26,28]),可以被认为是一个可靠的代理来估计生物分子特征的起源。
3所示。结果
3.1。确定垂直痕迹
维恩图演示FSF的进化分类和特征去七可能和互斥的维恩分类群,安倍(即。,present in all three superkingdoms), AB (present only in akaryotes), BE (present only in Bacteria and Eukarya), AE (present only in Archaea and Eukarya), and the three superkingdom-specific groups, A, B, and E (Figure2)。值得注意的是,大部分的特征(结构总量的45%和27%的功能),在所有三个超界,支持共同祖先(图的假说2)。自托尔的定义是一个嵌套的层次分类,我们建议提升共享特征的分类群指向一个古老的“垂直跟踪”的差异从一个共同祖先的说明。反过来,低数字分类组表明其他进化过程除了家族分裂,包括还原进化,HGT,趋同进化,微分损失,和二次进化的适应性。
(一)
(b)
two-superkingdom分类群的大多数信息尽可能每个体现一个垂直的痕迹和超界的起源进化的假说。在AB的数量特征,AE,因此分类群是指示性的力量进化无核细胞之间的联系,古细菌和真核生物和细菌和真核生物。值得注意的是,和直觉,AB和AE分类群的大小~ 9折小比的结构数据集(38和38与324)(图2(一个))。这一趋势也恢复了函数数据集,大大超过AB和AE(272年和100年和11)(图2 (b))。这些重要的偏见提出一个有趣的祖先进化的细菌和真核生物之间的联系,非常大量的安倍特征表明一个祖先的所有生物之间的联系。而同时收益特征的细菌和eukaryal蛋白质组可能,高分享是分类组织的结构和功能使其吝啬地可能点而不是进化的场景,在该场景中,这两个超界从共同祖先分化。尤其发现支持的趋同进化的结构是罕见的40),似乎不太可能发生在如此高的水平。我们注意到细菌与真核生物相关生物更紧密,建立许多共同进化的细菌与真核宿主寄生、共生互动;这是形成鲜明对比与生物的相互作用涉及古生菌(41]。这些相互作用可以促进蛋白质的交换和生物之间的功能体验。然而,函数数据只包括独立生存的GO-annotated生物HGT-acquired GOs的排斥,因此是免费的从自适应共生或寄生的生活方式的影响。数据还显示,高表示的是组相对于AB和AE组(图2 (b))。简而言之,非常大的大小差异比较的AB和AE组织是一个重要的进化结果,无法解释仅仅通过寄生、共生的过程。
最后,维恩图表明Eukarya-specific特征总是比Bacteria-specific Archaea-specific同行,这表明一个膨胀的进化增长模式在akaryotic真核体验或还原模式,或两者兼而有之(图2)。这是一个预期的结果作为一个高度多样化的真核生物编码和复杂的基因组和能够执行许多先进分子的活动,特别是与发展和免疫反应有关。基于我们最初的比较基因组锻炼,我们提出三个初步结论:(i)相关的所有现存细胞因共同的血统,(ii)细菌和真核生物从一个共同祖先分化,和(3)真核生物比无核细胞明显更复杂的多的独特的特征。
3.2。识别水平的痕迹
维恩图简单描述全球超界的共享模式,不能解剖的受欢迎程度在每个超界的生物特征。换句话说,超界中的一个特征的存在并不一定意味着它是垂直遗传;这种特征可能只存在于其成员。在这种情况下,收购的特征nonvertical(如HGT通量、趋同进化)或混淆(如微分损失,模仿HGT)进化过程变得更加可能。全面探讨这些真实或虚拟的“横向”痕迹导致生物体的蛋白质组的发展超界和进一步测试图的维恩图的初步结论2,我们计算了FSF的流行和传播特征在超界的生物,我们的术语价值。的价值是生物的数量在维恩分类组窝藏特质除以总数量的生物分类群和超界。它给出一个相对规模从0(缺席)到1(无所不在)。使用这个简单的方法,我们首先确定17 fsf(表1)和26 GOs(表2),是存在于所有蛋白质组和functionomes,分别。这群特征真正代表了“普遍”的核心特征是存在于生命的共同祖先,urancestor,强烈保留所有的后代。这些特征表现至关重要的代谢和信息角色和中央细胞ATP水解和离子结合等,占核糖体蛋白质的结构组成,并参与DNA复制和蛋白质转译过程(表1和2)。此外,共有245 fsf和95神仙了暗示普遍存在并建议还原损失其余10%的蛋白质组和functionomes(数据没有显示)。这个全球分析基于蛋白质组的流行特征和functionomes表明urancestor尤为丰富(结构上和功能上)的代谢功能(29日),说明了的力量价值在解剖的痕迹垂直和水平的产业。因此,我们将分析扩展到的蛋白质组和functionomes前的七个分类群的成员。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们首先比较了fsf的传播结构数据集使用的箱线图表示值分布(图3(一个))。我们的假设是显而易见的:高值和平衡垂直分布反映出痕迹,而低价值观和偏见分别分布回声水平(flux-loss)痕迹。786年安倍最高的结构分布值和中位数增加的顺序,古生菌(中位数)、(0.74),细菌和真核生物(0.90)(图3(一个),安倍分类群)。大量的安倍结构在所有三个超界普遍加强了假设生命的共同祖先。相对较低的值值在无核细胞(0.6 0.90 0.74古生菌和细菌和真核生物)可以用基因来解释已知发生还原事件与相对高频akaryotic微生物(26,42),也体现在superkingdom-specific特征(图的数量2)。38 AB结构很差但同样分布(中位数值= 0.14)在古细菌和细菌蛋白质组,与古细菌结构表现出倾向于更加广泛的(长尾)(图3(一个)AB)。此模式支持的存在水平跟踪无核细胞之间,弱的偏见在flux-loss超界(注意但是没有常见的异常值能被探测到的)。相比之下,38 AE结构高度(中位数表示值> 0.94)在相应的超界的生物(图3(一个)AE)。再次,古细菌结构显得更为广泛共享,但也显示较长的尾巴表明可能flux-loss集。乍一看,这种强大的垂直和谐AE集团的痕迹,可能是集团的竞争对手。然而,这可能并非如此。324年在细菌和平均结构差代表eukaryal蛋白质组(中位数值< 0.15)(图3(一个))。整体相对统一的传播,与弱偏向高等真核生物中表示。然而,53和59结构被广泛的细菌和真核生物的蛋白质组(),分别(阴影区域图3(一个))。这一部分是结构数值的两倍的总组高度代表AE结构。因此,越强的垂直跟踪结构继续支持一个姐妹群关系细菌和真核生物和古菌的早期多样化。我们注意到这个推断是由于我们有652个细菌和259 eukaryal蛋白质组相比,只有70古细菌蛋白质组。存在任何结构在这样大量的基因组意味着强大的选择压力和保护的特点。最后,分享superkingdom-specific结构在每个超界(中值低值= 0.01 - -0.34),最小平均值最大细菌和真核生物(图3(一个),A, B, E)。值得注意的是,从164年Bacteria-specific结构,没有,但是,存在于> 50%的蛋白质组(图3(一个),B)。没有一个预期的同质分布强烈表明,高度和其他均质化过程的作用可能非常有限在塑造细菌蛋白质组的进化。Eukaryal-specific结构分布具有较高值(图3(一个)E),相对较低的传播superkingdom-specific结构表明,这些结构是获得独立后,散度从每个超界最后的共同祖先。
(一)
(b)
推论的箱线图函数数据集(图3 (b))支持来源于一般的结论结构数据集。安倍分布有高值,与古生菌(中位数)大大低于细菌(0.57)和真核生物(0.57)(图3 (b)安倍)。细菌和eukaryal分布是非常平衡的,提供额外的支持,他们最近的差异从一个共同祖先。中位数古生菌的值最低,可以解释为高基因组减少事件(26]或偏见的数量去古细菌基因组的注释。非政府组织更可靠和广泛策划对于细菌和真核生物,和这个因素可以减少古细菌基因组的全面检测。然而,比较的分布函数和结构数据显示,支持结果一致,表明这可能的缺点的影响有限。这里,安倍分布模式后观察fsf,因此被认为是可靠的。所有的AB、AE和被分类群显示平衡分布(图3 (b)、AB、AE)。100 AB分类组存在神仙(~三倍大于相应的结构),分布式声望较低(图3 (b)AB)。一般来说,这些功能更丰富的细菌与古菌,因此建议一些分子活动横向从细菌转移到古生菌(确认)。AE分类组未能大力支持AE分布结构数据集。这个群体包括只有11 GOs eukaryal相对更丰富的蛋白质组(图3 (b)AE)。最后,分类组织还支持患病率的增加在eukaryal功能基因组相比,细菌基因组(0.39与中值0.03),表明引入水平跟踪效果或偏见去注释方案(图3 (b))。然而,的特点是组的数量大大高于AB或AE组织和包括一个很大的功能数量相对广泛的()(图3 (b))。这是鲜明的对比与AB或AE分类群的模式。高度代表的子集功能因此最有可能的古代垂直签名的遗迹,结合细菌和真核生物在托尔姊妹集团。该跟踪非常符合的模式获得结构数据集(图2(一个)和3(一个))。
最后,再次superkingdom-specific功能分布较低值。古生菌只有一个独特的去,出现在古细菌基因组的40%(图3 (b))。与此形成鲜明对比的是,852年有162个细菌和eukaryal-specific神仙。细菌功能再次显示的证据非常有限的传播在生物体(图3 (b)广泛的细菌高度的说法,B)挑战。反过来,eukaryal功能适度广泛(图3 (b)E)。这些结果符合推论关于晚早些时候和独立收购superkingdom-specific特征。
3.3。水平通量的识别模式
箱线图分布关于超界的散度模式提供有益的线索。然而,他们不允许我们量化程度的横向和纵向继承。因此,我们计算的差别所有特征值的AB、AE分类群。如果之间的区别值> 0.6,特征在两种超界的存在被认为是可能的高度活动的结果。这个阈值是任意设置为只包括这些特征更为丰富的超界但几乎存在于另一个。例如,“t-snare蛋白质“总科(吟游诗人id: a.47.2],这是大量存在于酵母和哺乳动物细胞,形成桥梁调解细胞内贩卖(43),有一个价值0.996在真核生物暗示它是无处不在的。然而,它只是存在于一个652个细菌蛋白质组分析(S1)(表,补充材料网上http://dx.doi.org/10.1155/2013/648746)。这最有可能是结构获得通过高度的一个例子发生在真核生物与细菌的方向。使用这一标准,只有一个结构(“tRNA-intron酶n端域”[d.75.1])收购水平在真核生物AE古生菌的分类组,而6从真核生物转移到古生菌(表S1)。同样的,只有一个FSF横向转移到细菌与古菌(“硫化叶菌的特性,6-bisphosphatase-like”[d.280.1]),而没有获得互惠。最后,细菌可能35结构转移到真核生物而获得52的回报(表S1)。其余237结构偏差不显著的传播在这些分类群和可能获得的垂直或在进化过程中获得了独立。
而言,函数,没有一个特征很可能转移到细菌与古菌。然而,9 GOs候选人从细菌转移到古生菌(表S2)。也许最有趣的是在这些横向收购“青霉素结合分子活动”(去:0008658)是普遍存在于细菌也出现在古细菌蛋白质组的11%(表S2)。同样,从古生菌没有转移到真核生物分子的功能,只有一个(“dolichyl-diphosphooligosaccharide-protein glycotransferase活动”[去:0004579])了。最后,4分子功能很可能从细菌转移到真核生物和28获得回报(表S2)。总的来说,推断的影响水平转移过程似乎相当有限,没有严重失效的推论。此外,水平的贡献古生菌细菌或真核生物是最少的,这是符合上述最小共享特征(数字2和3)。相比之下,细菌和真核生物表现出更高水平的垂直和水平遗传特征和显示一个强大的进化协会,一个结论可能威胁的古代事件内共生。
3.4。确定使用丰富计数祖先的特征
特征的古代起源预计将出现在丰度比最近收购了。这是真的因为特征出现之前有更多的时间来积聚在基因组和增加他们的代表6]。因此,高的特点在一个特定的维恩分类群是指示性的存在相对更古老的特征和一个古老的起源。因此,基因丰度可以作为一个代理来估计分类群的时代。我们计算了大量的特征出现在每一个蛋白质组和functionome和这些值在箱线图分布(图表示4)。安倍的平均丰度值最高的分类组结构(图4(一)),函数(图4 (b))的数据集,再支持这群保留大部分的urancestral特征有享受最大的时间繁殖并成为现代蛋白质组和functionomes丰富。是集团一直怀有特征相比,更丰富的AB和AE组(图4)。最后,Eukarya-specific特征明显丰富eukaryal蛋白质组和functionomes,检测到的基因丰度相比,更加丰富Archaea-specific或Bacteria-specific特征(图4)。这个结果证实了存在一个强大的垂直方向跟踪在现代细胞从安倍和e .真核生物很可能保留大部分的最古老特征逐渐消失在akaryal生物,从古生菌和细菌展现更晚。以前phylogenomic分析证实了强烈的还原akaryal蛋白质组的趋势(26,28,35]。古生菌也与基因组的进化事件开始减少早期的外观是之前在进化和分类组(28,35]。然而,相对较晚损失特征的细菌是有趣的。几个已知种类的细菌寄生的生活方式适应后基因组(减少44]。因此,细菌基因损失可能是一个持续的进化过程暗示对一个主要二级进化过渡。这也表现在非常贫穷的传播Bacteria-specific特征(图3)。
(一)
(b)
我们后期损失提供依据细菌仔细检查AE特征。大多数38 AE fsf和11个非政府组织在信息丰富的函数(例如,翻译起始,核糖体蛋白质、DNA结合蛋白质和蛋白质参与DNA复制;表S3和S4)。这个结果与现有的知识是一致的。事实上,古细菌和真核生物更相关的信息的过程,而细菌和真核生物彼此相似新陈代谢(45]。因此,高人气的AE fsf可能是由于偏见归因于晚微分结构这些功能类别的损失。例如,11 AE GOs包括关键分子的功能,比如“DNA聚合酶持续合成因素活动(去:0030337)”和“tRNA-intron酶活动(去:0000213)。“前者是监管者的复制叉46,47而后者是参与处理tRNA基因内区(48]。这两种活动可以在细菌,与后期的损失,因为他们似乎集中重要的细胞功能。因此,虽然高度趋同进化和共同进化的特征似乎不太可能,我们不能排除广泛的基因组akaryal物种减少的可能性。
3.5。跟踪垂直跟踪
为了进一步剖析维恩分类群的进化,我们绘制了1924终端GOs 16个一级父走了。图5显示终端的分布率高,被分类,每个16父类别。这个练习证实推论来自早期的实验和突出的方向垂直的痕迹。值得注意的是,只有安,和E在一级分子功能丰富而大多数终端条件的可以被称为“催化活性(去:0003824)”或“绑定(去:0005488)”(图5)。这是一个有趣的结果。先前的分析金和Caetano-Anolles [25)证实,这两个分子活动最先出现在进化和共享的所有生物。相比,衍生分子活动首次出现在分类组(例如,“结构分子活动(去:0005198),”“核酸结合转录因子活性[去:0001071],”和“渠道监管活动[去:0016247]),“尽管最近创新独特的发生在真核生物(例如,“受体调节器活动(去:0030545),“翻译监管活动(去:0045182),”“metallochaperone活动(去:0016530),”“成形素活动(去:0016015)”和“蛋白质标记(去:0031386)”)。相比之下,没有AB, AE, A, B分类群的独特的存在(图1级分子功能5)。值得注意的是,很大一部分是终端的非政府组织是致力于最古老的催化和绑定活动(图S1)。相比之下,“运输活动[去:0005215]”被发现AB集团中来自AE数值时小得多(图S1)。这些发现证实一个垂直的存在跟踪从安倍最后E(也是支持的结构数据集)。Akaryal祖先可能分化后从该跟踪路径对真核生物基因组的减少而丰富的体验参与基因重复事件和探索小说域组合(12,49]。
3.6。验证推断进化时间表
验证与历史无关的比较方法,我们展开FSF的外观和性状进化时间(nd),而在每个超界策划基因丰度。FSF进化的历史分析(图6)和终端条件(数据未显示)一致,显示两个明确的模式:(1)基因组损失体现古代早期的模式的崛起是分类组(红圈),通常涉及与丰度特征的水平至少一个数量级高于其他分类群的水平(例如,AE和AB);和(2)一个规范化的模式superkingdom-specific外观特征揭示早期细菌的崛起才跟着联合外观独特的古细菌和真核生物。这一历史分析因此支持比较分析发现的古代垂直跟踪流从安集团是和E组。这三组分布以最大的丰度值在时间显示保留大量来自共同祖先的特征。这个垂直跟踪定义了一个古老的血统干细胞线负责初发放的热点血统和细菌新奇事物,和解规范化和古托尔的支持。然而无法预测规范化与历史无关的分析模式,从比较分析维恩分类群特征分布的超界,生物不能适应竞争假说的支持体现在进化过程中在不同的时间。块图6还显示显著增加丰富fsf eukaryal进化后期,这可以解释为显著发展的多区域蛋白结构及其相关函数(12,49]。域和功能的组合是可能的罪魁祸首时,我们观察到的两相的模式专注于真核生物。
4所示。讨论
我们的方法很简单(图1)。它不涉及计算的序列比对或使用复杂的数据矩阵的系统发育重建。相反,它关注的是人口普查的分子(结构和功能)特征在现代细胞的基因组。分析的基本原理是使用在维恩分类群特征分布来解释垂直进化的痕迹,使用值解释水平的痕迹,和使用特征丰富代表年龄。的顺序组合这些方法剖析最有可能出现的情景超界的多样化,不调用系统发育的分析框架。
我们的运动比较基因组显示证据支持一个共同的祖先细胞,建立了托尔的深分支模式。细菌和真核生物的遗传复杂性暗示对一个强大的和古老的进化两个超界之间的联系。本协会的联系比其他超界。我们的研究结果也符合进化论的场景,在该场景中,古生菌成为第一个超界的生活从原始干细胞行不同的血统,起源于urancestor (26,28]。这条线可能遇到的极端温度,蛋白质组学发展的影响,阻碍收购新分子特征在这些环境中。在这种恶劣的环境,新兴古细菌细胞的持久性策略最有可能生存而非浓缩(50]。这就解释了为什么我们观察到最低数量的特征在现存的热点。相反,细菌和真核生物共用一个旷日持久的共同进化的历史。他们的多样化发生后从urancestral行古生菌的原始分。细菌是朝着探索各种不同的栖息地,使高水平的基因发现。这就解释了大量独特的细菌特征在细菌物种之间的分配不平等。细菌种类也从事基因组还原过程和简化他们的特征表示。这可能发生分歧后从原始干细胞线。最后,真核生物进化而来的,(我)增加了大量的古代特征(通过基因的复制和域重组),发现小说特征,(2)或(3)。这些发现伪造一个进化场景中第一次出现的细菌细胞(2,3]或融合假说与真核生物的起源(例如,33),没有一个似乎与我们的数据兼容。然而,我们并不认为病毒可能的角色扮演在细胞进化。已知病毒导致细胞的遗传多样性和被认为是非常古老的35,51- - - - - -53]。在不久的将来,我们将完成这项任务。
减少基因组是一个持续的进化过程,往往会引发的生活方式转变的细胞(例如,从独立生存的细胞内寄生虫44])。我们建议简化基因组在无核细胞的进化中发挥了关键作用,尤其是古生菌。我们的数据表明,该分类组丰富的分子特征相比相对贫穷fsf和GOs AB和AE组(图2)。事实上,进化时间显示是集团很早就出现在进化和丰富与高水平的细菌和eukaryal fsf的蛋白质组(图6)。这些发现被视为早期发生的损失古生菌的特征的进化。虽然可以认为这样损失可能发生在古血统和多元化后细菌,我们比较和进化数据表明这可能不是很有可能。古代特征的损失在进化后期系统成本高昂,这意味着许多基因和蛋白质积累了进化过程中执行一个特定分子的任务。相比之下,古代特征在进化初期损失更简洁,符合时空连续性的原则。然而,另一种解释可能是高度的混杂效应的过程。然而,这是显示最近大量的核糖体蛋白质在热点分布不均(54,55]。因为核糖体蛋白质通常耐火HGT,片状和不均匀分布在古血统是更好的解释为微分损失更复杂的古细菌祖先。综上所述,这些研究结果有力地表明,原始还原进化过程定制古细菌进化。
当放置在进化的时间特征创新(图6),维恩分类群的发现了一个惊人的模式,比较基因组方法无法切割。这种隐藏的模式体现了原始的崛起Bacteria-specific特征之后多并发Archaea-specific外观和Eukarya-specific创新。这个重要的继承支持“规范化”腐烂的托尔担当最基底的职务而古生菌和细菌真核生物成为派生姊妹集团(2,3]。从支序分类学的角度来看,特征独特超界autapomorphies,派生功能独特的终端组。这些autapomorphies不能用于在系统发育分析或解剖重建树的选择进化的场景比较基因组的方法。相比之下,fsf和GOs共享的任何两个超界反映共源性状(共享和派生功能),让历史(系统),并与历史无关的(比较)的推论。我们注意到特征独特的共享的任何两个超界可以出现在两个超界的增益特性或损失。丰度水平和分布模式支持后者的情况,特别是如果损失是一个古老的特征。因此,早期的原始fsf和共源性状在古生菌嵌入后来autapomorphies早期获得的细菌。
隐藏的规范模式的图6已经报告了一个详尽的结构性phylogenomic探索域进化的褶皱和FSF各级结构抽象的26),促使蛋白质进化的三个时代的定义和有机世界和原产地的假设。在第一个“建筑多样化”时代,新兴生物的社会积累了丰富的工具箱的蛋白质结构和功能。这个公共的世界就像古代的multiphenotypical precells Kandler提出(56]启发伍斯的早期细胞进化的更高级的场景57]。然而,在与简单的蜂窝系统寻求Kandler和伍斯precell分子构成,从phylogenomic分析推断出非常丰富的复杂的结构和功能(29日]。今天的丰富性表达数量可观的结构和功能共享的所有超界,并揭示了我们比较探索。建筑多元化时代的末期,子组的域结构的普遍丧失urancestral precell人口导致原始古成绩,组织生物多样化的积极转变,首先统一了生理的复杂性urancestral社区但后来获得了所需的细胞凝聚力建立血统和真正的模式生物的多样化。虽然难以建立的时候这些“阈值”(美国标准57])是由原始古细菌交叉的成绩,这些都是源于urancestral干细胞线,还原留下深刻的历史进化的早期过程签名组成的古生物体中嵌入域结构的时间(26]。第二个“超界规范”时代带着第一批Bacteria-specific域结构和后来的并发外观Archaea-specific和Eukarya-specific结构。这superkingdom-specific外观结构的规范模式,展开在缺乏早期和主要还原的进化趋势,信号的时间新兴超界被创新塑造。在这个时代,成绩变成了演化支,precell“交换商店”战略逐渐取代了有机体的凝聚力。显著降低值在此期间建议谱系分类更频繁地发生在越来越多的血统。最后,在“生物的多样化”时代,承诺策略和生活方式进一步增强超界之间的分歧并削弱了干细胞线的贡献的后裔。两股力量特别的意义起着至关重要的作用在这最后的时代,模块的组合使用域多畴的真核生物的蛋白质(12,49)负责丰富水平高,图的两相的模式6和蛋白质的HGT-driven组合交换体验在血统的细菌26),最大限度地减少特征分布在图3。
我们强调我们的比较基因组的推论已经被种系发生树重建批准之前(例如,11- - - - - -13,17,22,26,28),从而建立了我们的方法的力量。然而,我们的分析依赖于结构和函数的精度和采样和数据的可靠性。的函数特别是数据集,是依赖于稳定的注释和偏向eukaryal生物更仔细注释。这个因素降到最低,我们取样183 45细菌和古细菌functionomes相比只有21真核生物。尽管大量的akaryal functionomes在我们的数据集,我们仍然能够突出eukaryal的令人难以置信的丰富体验。此外,推论来自函数在协议结构都应该被认为是可靠的。
而回溯进化历史从现在到第一个细胞是一个复杂的问题,推断物种多样化的模式通过比较使用和重用现存的分子特征的细胞必须被视为一个健壮的inferencial方法是免费的从许多外部假设和技术问题时面临重建系统发育树。唯一的缺点可能是解释之一,我们在这里展示的场景中我们已经讨论了起源。然而,我们试图限制语句场景是最符合给定的数据。60%的一个例子是使用一个阈值的差异特征检测的流行HGT-derived结构和功能。这一标准是任意确定最有可能只有HGT-transfers而可能导致故障检测的一些真正HGT-acquired特征,尤其是对那些intersuperkingdom和intrasuperkingdom迅速转移发生。虽然此类事件不太可能,但仍有可能发生。然而,检测这样的转移是一个困难的问题,不能可靠地确认没有实验证据。考虑到保护水平的结构和功能特征和可能的相对贫穷的曲目HGT-acquired特性S1和S2(表),我们安全地假设这个因素并不严重妥协我们的推论。最后,我们的方法是一个系统应用程序的形态分析,最初是用于高阶生物进行分类。未来的工作应该专注于先进的应用我们的方法达成共识关于细胞的进化。
5。结论
我们推断进化模式通过检查在当代生物分子的扩散特性。所有细胞的分析揭示了一个共同的起源,古生菌的早期分化,妹妹细菌和真核生物之间的关系。古细菌演化主要受基因影响减少,细菌由两个截然不同的阶段:(i)早期创新的时期,正值上升和多样化的细菌超界,和(2)一段postdivergence血统表现出相对较晚基因组减少事件。分支导致现代真核生物被还原的影响最小压力和保留大部分的祖先的特征。真核生物进一步丰富了基因丰富的这些特征通过基因重复和域重排过程和通过发现新颖结构和分子的活动。所有这些事件的痕迹可以可靠地检测到现代蛋白质组和functionomes。特别强烈的垂直跟踪从urancestor干细胞线统一细菌和真核生物和真核生物的祖先可以推断。这强烈的垂直跟踪强烈支持干细胞的存在的后裔,从所有三个超界出现了,非常符合Kandler细胞之前行早期土著生物化学进化的思想,接受cellularization [56]。最后,nonvertical进化过程中似乎只有有限的角色定义步骤细胞进化的。的比较框架允许勘探深度进化历史没有调用树重建算法和外部的进化假说。这种方法符合各种出版系统发育分析和理论提供了强有力的支持有利于古细菌来源的多样化的生活。
确认
作者感谢杰伊·e·Mittenthal有价值的建议和理查德Egel审查和提供广泛的发人深省的讨论。研究是由美国国家科学基金会支持(mcb - 0749836和瓦兹- 1132791)和美国农业部(illu - 802 - 909和illu - 483 - 625), GCA。投资者没有参与研究设计、数据收集和分析,决定发表或论文的准备。
补充材料
表S1: fsf的名单,有可能获得通过AB HGT, AE,分类群。吟游诗人和字母数字标识符是用来定义fsf。高度方向推断f区别,这是不同的f -之间的值f前(例如在AB分类组)和奉承在AB (B)。
表S2:非政府组织的名单,有可能获得通过AB HGT, AE,分类群。高度方向推断f区别,这是不同的f之间的值f前(例如在AB分类组)f后者在AB (B)。
表S3:独特的fsf列表中发现的蛋白质组AE分类组。
表S4:列表中发现独特的终端GOs functionomes AE的分类组。
图S1:饼图显示终端的分布率在一级父项。数据显示终端的总数GOs注释每个父词汇类别。条款可能会被映射到多个父。
引用
- c·r·伍斯o . Kandler, m . l . Wheelis”对生物体的自然系统:建议域古生菌,细菌和真核生物,“美国国家科学院院刊》上的美利坚合众国,卷87,不。12日,第4579 - 4576页,1990年。视图:出版商的网站|谷歌学术搜索
- j . p . Gogarten H . Kibak p > et al .,”空泡的H + atp酶的进化:对真核生物的起源,”美国国家科学院院刊》上的美利坚合众国,卷86,不。17日,第6665 - 6661页,1989年。视图:谷歌学术搜索
- n .腺上皮k . Kuma m .长谷川大泽生,s和t . Miyata”进化关系的原始细菌、真细菌和真核生物的系统发育树的复制基因,”美国国家科学院院刊》上的美利坚合众国,卷86,不。23日,第9359 - 9355页,1989年。视图:出版商的网站|谷歌学术搜索
- 美国Gribaldo h·菲利普,“古老的系统发育关系,”人口生物学理论,卷61,不。4、391 - 408年,2002页。视图:出版商的网站|谷歌学术搜索
- h·菲利普·p·Forterre,“宇宙生命之树的支持是不可靠的,”杂志的分子进化卷,49号4、509 - 523年,1999页。视图:出版商的网站|谷歌学术搜索
- g . Caetano-Anolles和a·纳西尔”使用分子结构和丰富的好处phylogenomic分析,“遗传学前沿2012年,3卷,第172条。视图:谷歌学术搜索
- f . Delsuc h . Brinkmann h·菲利普,“Phylogenomics和生命之树的重建,”自然遗传学评论》第六卷,没有。5,361 - 375年,2005页。视图:出版商的网站|谷歌学术搜索
- e . v . Koonin、k . s . Makarova和l . Aravind”水平基因转移在原核生物:量化和分类,“年度回顾的微生物学,55卷,第742 - 709页,2001年。视图:出版商的网站|谷歌学术搜索
- o . Popa及来自t·达冈”趋势和障碍在原核生物基因的横向转移,”目前看来在微生物学,14卷,不。5,615 - 623年,2011页。视图:出版商的网站|谷歌学术搜索
- r . Jain, m·c·里维拉和j·a .湖”水平基因转移基因包括:复杂性假设,”美国国家科学院院刊》上的美利坚合众国,卷96,不。7,3801 - 3806年,1999页。视图:出版商的网站|谷歌学术搜索
- g . Caetano-Anolles和d . Caetano-Anolles”蛋白质的结构进化的宇宙架构。”基因组研究,13卷,不。7,1563 - 1571年,2003页。视图:出版商的网站|谷歌学术搜索
- m . Wang和g . Caetano-Anolles“全球系统由蛋白质域的结合在蛋白质组,“分子生物学与进化,23卷,不。12日,第2454 - 2444页,2006年。视图:出版商的网站|谷歌学术搜索
- f . j .太阳和g . Caetano-Anolles”进化模式转移核糖核酸的序列和结构:早期古细菌和病毒的起源,”PLoS计算生物学,4卷,不。第三条ID e1000018, 2008。视图:出版商的网站|谷歌学术搜索
- f . j .太阳和g . Caetano-Anolles tRNA推断的起源和演化的系统发育分析结构,”杂志的分子进化,卷66,不。1,21-35,2008页。视图:出版商的网站|谷歌学术搜索
- f . j .太阳和g . Caetano-Anolles”的进化历史5 s核糖体RNA的结构,“杂志的分子进化,卷69,不。5,430 - 443年,2009页。视图:出版商的网站|谷歌学术搜索
- f . j .太阳和g . Caetano-Anolles“核糖核酸酶的结构P的古代历史和早期古生菌的起源,”BMC生物信息学第153条,卷。11日,2010年。视图:出版商的网站|谷歌学术搜索
- h·雪k . l .通c . Marck h . Grosjean和j·t·f . Wong“转移核糖核酸假字:证据共同进化遗传code-amino酸生物合成和古根的生活,”基因,卷310,不。1 - 2日,59 - 66年,2003页。视图:出版商的网站|谷歌学术搜索
- m . di朱里奥”,生命之树可能根植于分支导致Nanoarchaeota,”基因,卷401,不。1 - 2、108 - 113年,2007页。视图:出版商的网站|谷歌学术搜索
- a·g·Murzin s e·布伦纳,t·哈伯德和c . Chothia“吟游诗人:蛋白质结构分类数据库序列和结构的调查,“分子生物学杂志,卷247,不。4、536 - 540年,1995页。视图:出版商的网站|谷歌学术搜索
- a . Andreeva d·豪j . m . Chandonia et al .,“吟游诗人数据库数据增长及其影响:新发展,”核酸的研究,36卷,不。1,D419-D425, 2008页。视图:出版商的网站|谷歌学术搜索
- j·d·Caetano-Anolles k . m . Kim e . Mittenthal和g . Caetano-Anolles”蛋白质组进化和代谢转换和细胞生命的起源,”杂志的分子进化,卷72,不。1,14-33,2011页。视图:出版商的网站|谷歌学术搜索
- d . g . Caetano-Anolles m . Wang Caetano-Anolles, j . e . Mittenthal”的起源、演化和结构蛋白的世界,”生物化学杂志,卷417,不。3、621 - 637年,2009页。视图:出版商的网站|谷歌学术搜索
- m . ashburn c a球,j·a·布莱克et al .,“基因本体:工具的统一生物学,”自然遗传学,25卷,不。1、25 - 29,2000页。视图:出版商的网站|谷歌学术搜索
- m·哈里斯,j·克拉克,a .爱尔兰et al .,“基因本体论(去)数据库和信息资源,”核酸的研究32卷,D258-D261, 2004页。视图:谷歌学术搜索
- k·m·金和g . Caetano-Anolles”的出现和发展现代分子功能从phylogenomic本体论数据的分析推断,“分子生物学与进化,27卷,不。7,1710 - 1733年,2010页。视图:出版商的网站|谷歌学术搜索
- l·s·m . Wang Yafremava, d . Caetano-Anolles j . e . Mittenthal和g . Caetano-Anolles”还原建筑体验的进化在蛋白质组和三方世界的诞生,“基因组研究,17卷,不。11日,第1585 - 1572页,2007年。视图:出版商的网站|谷歌学术搜索
- k . Illergard d·h·Ardell, a . Elofsson”结构是三到十倍守恒的测序研究蛋白质结构响应的核心,“蛋白质,卷77,不。3、499 - 508年,2009页。视图:出版商的网站|谷歌学术搜索
- k·m·金和g . Caetano-Anolles蛋白质折叠的进化历史的家庭和蛋白质组确认了古细菌祖先比其他超界的祖先更古老,”BMC进化生物学,12卷,不。1,第十三条,2012。视图:出版商的网站|谷歌学术搜索
- k·m·金和g . Caetano-Anolles”蛋白质组的复杂性和多元化生活的原始祖先的崛起,“BMC进化生物学,11卷,不。1,第140条,2011。视图:出版商的网站|谷歌学术搜索
- m·p·迪斯霍普纳p·p·加德纳,a . m .普尔”RNA家庭的比较分析揭示了不同的体验生活的每个领域,“PLoS计算生物学,8卷,不。11篇文章e1002752 2012。视图:谷歌学术搜索
- g·j·奥尔森,c·r·伍斯和r . Overbeek”之风(进化)变化:呼吸新生命到微生物学,”细菌学期刊,卷176,不。1、1 - 6,1994页。视图:谷歌学术搜索
- c·r·伍斯“细菌进化”,微生物学检查,51卷,不。2、221 - 271年,1987页。视图:谷歌学术搜索
- m·c·里维拉和j . a .湖”生活的环为真核生物的基因组融合起源提供了证据,”自然,卷431,不。7005年,第155 - 152页,2004年。视图:出版商的网站|谷歌学术搜索
- w·马丁和m·穆勒“氢假设第一真核生物”自然,卷392,不。6671年,37-41,1998页。视图:出版商的网站|谷歌学术搜索
- 纳西尔,k . m . Kim和g . Caetano-Anolles“巨型病毒与细胞的祖先共存,代表一个不同的超群超界古细菌和真核生物,“BMC进化生物学第156条,卷。12日,2012年。视图:谷歌学术搜索
- j·高夫和c Chothia,“总科:摘要代表所有已知结构的蛋白质。吟游诗人序列搜索,对齐和基因组作业”,核酸的研究,30卷,不。1,第272 - 268页,2002。视图:谷歌学术搜索
- d·威尔逊,m .ㄧc·沃格尔c . Chothia和j·高夫,“2007年总科数据库:家庭和功能,“核酸的研究,35卷,不。1,D308-D313, 2007页。视图:出版商的网站|谷歌学术搜索
- j·高夫,k . Karplus r . Hughey, c . Chothia”转让同源基因序列使用隐马尔可夫模型库,代表所有已知结构的蛋白质,”分子生物学杂志,卷313,不。4、903 - 919年,2001页。视图:出版商的网站|谷歌学术搜索
- s . Garcia-Vallve e·古兹曼·m·a·蒙特和a . Romeu”HGT-DB:公认的水平转移基因在原核数据库完整的基因组,”核酸的研究没有,卷。31日。1,第189 - 187页,2003。视图:出版商的网站|谷歌学术搜索
- j·高夫,“趋同进化的领域体系结构(很少见),“生物信息学,21卷,不。8,1464 - 1471年,2005页。视图:出版商的网站|谷歌学术搜索
- c . Moissl-Eichinger h·胡贝尔,“古细菌共生体,寄生虫。”目前看来在微生物学,14卷,不。3、364 - 370年,2011页。视图:出版商的网站|谷歌学术搜索
- c . g . m . Wang Kurland)和g . Caetano-Anolles“还原蛋白质组的进化和蛋白质结构,”美国国家科学院院刊》上的美利坚合众国,卷108,不。29日,第11958 - 11954页,2011年。视图:出版商的网站|谷歌学术搜索
- Ungar d和f . m . Hughson“网罗蛋白质结构和功能,细胞和发育生物学的年度审查,19卷,第517 - 493页,2003年。视图:出版商的网站|谷歌学术搜索
- k . Georgiades诉Merhej k . El Karkouri d .拉乌尔和p . Pontarotti”基因得失立克次氏体和Orientia物种,”生物学直接第六条,卷。6日,2011年。视图:出版商的网站|谷歌学术搜索
- s . Gribaldo a . m .普尔诉Daubin, p . Forterre和c . Brochier-Armanet“真核生物的起源及其与古细菌的关系:我们在phylogenomic僵局吗?”自然评论微生物学,8卷,不。10日,743 - 752年,2010页。视图:出版商的网站|谷歌学术搜索
- Kuriyan和m . O ' donnell“DNA聚合酶的滑动夹”分子生物学杂志,卷234,不。4、915 - 925年,1993页。视图:出版商的网站|谷歌学术搜索
- 斯蒂尔曼,“在DNA复制叉,智能机器”细胞,卷78,不。5,725 - 728年,1994页。视图:出版商的网站|谷歌学术搜索
- k . Kleman-Leyer d . w .时常要和c·j·丹尼尔斯,”h . volcanii tRNA基因内区酶的性质揭示了古细菌和eucaryal tRNA基因内区处理系统之间的关系,“细胞,卷89,不。6,839 - 847年,1997页。视图:谷歌学术搜索
- m . Wang和g . Caetano-Anolles”的进化力学领域组织蛋白质组和模块化的崛起在世界的蛋白质,”结构,17卷,不。1,第78 - 66页,2009。视图:出版商的网站|谷歌学术搜索
- l . s . Yafremava m . Wielgos美国托马斯et al .,“生物系统的持久性策略总体框架有助于解释生活的领域,”遗传学前沿第十六条,卷。4日,2013年。视图:谷歌学术搜索
- e . v . Koonin t . g . Senkevich,诉诉Dolja,“令人信服的理由为什么病毒相关的起源细胞,”自然评论微生物学,7卷,不。8日,第615条,2009年。视图:出版商的网站|谷歌学术搜索
- p . Forterre”病毒的起源和其可能的角色主要进化过渡,“病毒的研究,卷117,不。1,5-16,2006页。视图:出版商的网站|谷歌学术搜索
- 纳西尔,k . m . Kim和g . Caetano-Anolles”病毒进化:原始细胞起源和适应寄生后期,“移动遗传元素,卷2,不。5,247 - 252年,2012页。视图:谷歌学术搜索
- c . Brochier-Armanet p Forterre, s . Gribaldo“古生菌的系统学和进化:一百基因组后,“目前看来在微生物学,14卷,不。3、274 - 281年,2011页。视图:出版商的网站|谷歌学术搜索
- e·德斯蒙德·c·Brochier-Armanet、p Forterre和s . Gribaldo”最后的共同祖先和早期的真核生物的进化:线粒体核糖体重建的历史,”微生物学研究,卷162,不。1,53 - 70年,2011页。视图:出版商的网站|谷歌学术搜索
- o . Kandler”,细胞壁生物化学和物种三域分类生活的概念,“系统和应用微生物学,16卷,不。4、501 - 509年,1994页。视图:谷歌学术搜索
- c·r·伍斯”细胞的进化。”美国国家科学院院刊》上的美利坚合众国,卷99,不。13日,8742 - 8747年,2002页。视图:出版商的网站|谷歌学术搜索
版权
版权©2013 Arshan纳西尔,Gustavo Caetano-Anolles。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。