1。介绍
跟踪现存生物进化的一种普遍通用的基本生物细胞的祖先生活的重要性。现代生物可以分为三个主要的细胞超界、古生菌,细菌和真核生物(
1 ]。分子、生化和形态学证据支持这个三分的部门。虽然three-superkingdom系统是广泛接受,建立这三个哪一个是最古老的仍是有问题的。初始建设基于基因的共同进化的拔起的发展史联系在一起的一种古老的基因重复事件表明,每组paralogous基因、古细菌和真核生物的妹妹从去年archaeal-eukaryal共同祖先(组织和分化
2 ,
3 ]。这种“规范”生根的地方细菌底部的“生命之树”(ToL)仍被广泛接受,尽管许多其他paralogous基因夫妇产生了不和谐的拓扑,尽管已知技术构件与这些序列进化深的发展史
4 ,
5 ]。因此,重建一个真正的“通用”托尔把所有现有物种的进化关系仍然是进化生物学中最具争议的问题之一。这部分归功于可用系统角色和树优化方法的缺点,受到重要的技术和概念的局限性
6 ,
7 ),未能产生一个共识。进一步复杂化的事实之间交换遗传物质很容易物种,特别是无核细胞(即。古菌和细菌,缺乏核)通过水平基因转移(HGT) [
8 - - - - - -
10 ]。Nonvertical进化过程伴随着不确定性进化假设大大复杂化重建过去进化的问题。最近,工具的使用保守的蛋白质结构信息域(
11 ,
12 ),其注释功能(Kim et al .,重新提交女士),和普遍的RNA的家庭(
13 - - - - - -
18 提供新的方法来根的发展史。这些研究发现嗜热古细菌物种是最密切相关的原始细胞。发现不仅挑战细菌托尔的支持,但也强调采用可靠的系统方法和假设的重要性当重建深进化的历史
7 ]。
在这里,我们推进结构和功能的方法通过提供一个简单的解决方案系统发育重建的问题。我们认为基本的量化和比较基因组分析不调用系统发育重建足以解决三方分工细胞和素描的历史。我们比较的方法包括分析超界,和他们的有机成分,与全球分享彼此的基因特性。基因组特征我们选择整个体验的分子结构和功能(以下统称为特征)。他们定义两个特定基因组数据集。的
结构 数据集包含的发生和丰富1733倍总科(FSF)域981年完全测序蛋白质组。FSF域分隔使用蛋白质的结构分类(吟游诗人版本。1.75),这是一个手动策划的数据库结构和蛋白质的进化信息域(
19 ,
20. ]。FSF的吟游诗人层次包含域,已经背离了从一个共同祖先的进化(
21 ,
22 ]。相比之下,
函数 数据集描述了1924个基因的存在和丰富本体(去)条款
23 ,
24 在249年functionomes]。我们注意到全球的fsf描绘了整个结构的生物,去描绘她们真实的生理的曲目。两个物种多样化提供有用的信息。我们限制我们的分析只包括结构和功能比基因序列(他们更保守
25 - - - - - -
27 ),允许深进化的比较。相比之下,核苷酸序列是容易受到较高的突变率和不断重新安排在基因组产生小说域组合和分子功能(
6 ]。换句话说,FSF域结构或分子功能的丧失是更昂贵的细胞,因为它有时包含损失数以百计的基因进化积累了长期的时间。这是复合的,尤其是对于特征非常古老,因为他们有更多的时间用在基因组和增加他们的基因丰度
28 ,
29日 ]。因此分子仍然保存在细胞结构和功能相对较长时间,使可靠推断候选人深进化关系。
在这里,我们表明,超界之间的特征分布的分析,基因组之间的分布能超界,和丰富数量允许解剖历史(表意)模式使用的比较与历史无关的(图(制定法律的)方法
1 )。灵感来自比较分析RNA的家庭(
30. ),我们测量的力量进化超界之间的联系作为个体的共享模式的函数特征(图
1 )。我们注意我们的方法是充分信息可靠推断关于进化的不同情况,采用多元化的三个超界。这种方法再次被广泛接受的理论关于多元化生活的起源(
31日 ,
32 和伪造融合
33 )和氢假说(
34 真核的起源,多支持。这个练习然后提示验证的系统树重建,我们先前报道(见[
26 ,
28 ,
29日 ,
35 ])。根据这些考虑,比较运动提供了一个易于使用的和可靠的替代其他复杂的系统发生树重建方法。这些分析可能产生重要的洞察细胞的进化,如果仔细解释,提供强有力的论点赞成生根的托尔古生菌和嵌入式FSF的典型模式和创新。
图1
比较蛋白质组学和functionomics方法的概述。蛋白质组和functionomes扫描的发生和丰富fsf和术语(即。,特征)。这些信息在数据矩阵,分析了代表趋势特征共享和垂直和水平继承的痕迹。推断了关于超界多样化和被证实同此前发布的系统发育研究。
3所示。结果
3.1。确定垂直痕迹
维恩图演示FSF的进化分类和特征去七可能和互斥的维恩分类群,安倍(即。,present in all three superkingdoms), AB (present only in akaryotes), BE (present only in Bacteria and Eukarya), AE (present only in Archaea and Eukarya), and the three superkingdom-specific groups, A, B, and E (Figure
2 )。值得注意的是,大部分的特征(结构总量的45%和27%的功能),在所有三个超界,支持共同祖先(图的假说
2 )。自托尔的定义是一个嵌套的层次分类,我们建议提升共享特征的分类群指向一个古老的“垂直跟踪”的差异从一个共同祖先的说明。反过来,低数字分类组表明其他进化过程除了家族分裂,包括还原进化,HGT,趋同进化,微分损失,和二次进化的适应性。
在维恩分类群共享全球趋势的特征。(a)维恩图解显示981年1733 FSF域的分布完全测序从652个细菌蛋白质组采样,70古生菌和259真核生物。这构成了
结构 数据集。(b)维恩图解显示1924终端能级的分布率在249年独立生存的functionomes对应183个细菌,45古生菌,21真核生物。这构成了
函数 数据集。
(一)
(b)
two-superkingdom分类群的大多数信息尽可能每个体现一个垂直的痕迹和超界的起源进化的假说。在AB的数量特征,AE,因此分类群是指示性的力量进化无核细胞之间的联系,古细菌和真核生物和细菌和真核生物。值得注意的是,和直觉,AB和AE分类群的大小~ 9折小比的
结构 数据集(38和38与324)(图
2(一个) )。这一趋势也恢复了
函数 数据集,大大超过AB和AE(272年和100年和11)(图
2 (b) )。这些重要的偏见提出一个有趣的祖先进化的细菌和真核生物之间的联系,非常大量的安倍特征表明一个祖先的所有生物之间的联系。而同时收益特征的细菌和eukaryal蛋白质组可能,高分享是分类组织的结构和功能使其吝啬地可能点而不是进化的场景,在该场景中,这两个超界从共同祖先分化。尤其发现支持的趋同进化的结构是罕见的
40 ),似乎不太可能发生在如此高的水平。我们注意到细菌与真核生物相关生物更紧密,建立许多共同进化的细菌与真核宿主寄生、共生互动;这是形成鲜明对比与生物的相互作用涉及古生菌(
41 ]。这些相互作用可以促进蛋白质的交换和生物之间的功能体验。然而,
函数 数据只包括独立生存的GO-annotated生物HGT-acquired GOs的排斥,因此是免费的从自适应共生或寄生的生活方式的影响。数据还显示,高表示的是组相对于AB和AE组(图
2 (b) )。简而言之,非常大的大小差异比较的AB和AE组织是一个重要的进化结果,无法解释仅仅通过寄生、共生的过程。
最后,维恩图表明Eukarya-specific特征总是比Bacteria-specific Archaea-specific同行,这表明一个膨胀的进化增长模式在akaryotic真核体验或还原模式,或两者兼而有之(图
2 )。这是一个预期的结果作为一个高度多样化的真核生物编码和复杂的基因组和能够执行许多先进分子的活动,特别是与发展和免疫反应有关。基于我们最初的比较基因组锻炼,我们提出三个初步结论:(i)相关的所有现存细胞因共同的血统,(ii)细菌和真核生物从一个共同祖先分化,和(3)真核生物比无核细胞明显更复杂的多的独特的特征。
3.2。识别水平的痕迹
维恩图简单描述全球超界的共享模式,不能解剖的受欢迎程度在每个超界的生物特征。换句话说,超界中的一个特征的存在并不一定意味着它是垂直遗传;这种特征可能只存在于其成员。在这种情况下,收购的特征nonvertical(如HGT通量、趋同进化)或混淆(如微分损失,模仿HGT)进化过程变得更加可能。全面探讨这些真实或虚拟的“横向”痕迹导致生物体的蛋白质组的发展超界和进一步测试图的维恩图的初步结论
2 ,我们计算了FSF的流行和传播特征在超界的生物,我们的术语
f
价值。的
f
价值是生物的数量在维恩分类组窝藏特质除以总数量的生物分类群和超界。它给出一个相对规模从0(缺席)到1(无所不在)。使用这个简单的方法,我们首先确定17 fsf(表
1 )和26 GOs(表
2 ),是存在于所有蛋白质组和functionomes,分别。这群特征真正代表了“普遍”的核心特征是存在于生命的共同祖先,urancestor,强烈保留所有的后代。这些特征表现至关重要的代谢和信息角色和中央细胞ATP水解和离子结合等,占核糖体蛋白质的结构组成,并参与DNA复制和蛋白质转译过程(表
1 和
2 )。此外,共有245 fsf和95神仙了
f
>
0.90
暗示普遍存在并建议还原损失其余10%的蛋白质组和functionomes(数据没有显示)。这个全球分析基于蛋白质组的流行特征和functionomes表明urancestor尤为丰富(结构上和功能上)的代谢功能(
29日 ),说明了的力量
f
价值在解剖的痕迹垂直和水平的产业。因此,我们将分析扩展到的蛋白质组和functionomes前的七个分类群的成员。
表1
的通用fsf列表中所有的蛋白质组
结构 数据集。
不。
吟游诗人Id
FSF Id
FSF描述
1
52540年
c.37.1
P-loop包含三磷酸核苷水解酶
2
50249年
b.40.4
核酸结合蛋白
3
53067年
c.55.1
Actin-like atp酶域
4
51905年
c.3.1
时尚/ NAD (P)绑定域
5
53098年
c.55.3
核糖核酸酶H-like
6
54211年
d.14.1
核糖体蛋白S5域2
7
55681年
d.104.1
二类aar和生物素合成酶
8
50447年
b.43.3
翻译的蛋白质
9
54980年
d.58.11
EF-G c端域
10
50104年
b.34.5
翻译蛋白质SH3-like域
11
50465年
b.44.1
EF-Tu / eEF-1alpha eIF2-gamma c端域
12
55174年
d.66.1
Alpha-L rna结合主题
13
54768年
d.50.1
dsrna上域
14
55257年
d.74.3
RBP11-like RNA聚合酶的亚基
15
52080年
c.12.1
核糖体蛋白质L15p和L18e
16
54686年
d.41.4
核糖体蛋白L16p / L10e
17
54843年
d.55.1
核糖体蛋白戏
表2
在场的普遍率列表的所有functionomes
函数 数据集。
不。
去Id
去描述
1
去:0005524
ATP结合
2
去:0008270
锌离子结合
3
去:0000287
镁离子结合
4
去:0005525
三磷酸鸟苷结合
5
去:0004222
metalloendopeptidase活动
6
去:0010181
FMN绑定
7
去:0030145
锰离子结合
8
去:0003924
GTPase活性
9
去:0003887
DNA-directed DNA聚合酶的活动
10
去:0004252
serine-type肽链内切酶活性
11
去:0003746
翻译延长因子活动
12
去:0009982
假尿苷合酶活性
13
去:0004523
核糖核酸酶H活动
14
去:0004826
phenylalanine-tRNA连接酶的活动
15
去:0004821
histidine-tRNA连接酶的活动
16
去:0004820
glycine-tRNA连接酶的活动
17
去:0004824
lysine-tRNA连接酶的活动
18
去:0004831
tyrosine-tRNA连接酶的活动
19
去:0004618
磷酸甘油酸酯激酶活性
20.
去:0004634
phosphopyruvate水合酶活动
21
去:0004749
磷酸核糖diphosphokinase活动
22
去:0003952
NAD +合酶(glutamine-hydrolyzing)活动
23
去:0004815
aspartate-tRNA连接酶的活动
24
去:0004807
磷酸丙糖异构酶的活动
25
去:0004813
alanine-tRNA连接酶的活动
26
去:0003917
DNA拓扑异构酶I型活动
我们首先比较了fsf的传播
结构 数据集使用的箱线图表示
f
值分布(图
3(一个) )。我们的假设是显而易见的:高
f
值和平衡
f
垂直分布反映出痕迹,而低
f
价值观和偏见
f
分别分布回声水平(flux-loss)痕迹。786年安倍最高的结构分布
f
值和中位数增加的顺序,古生菌(中位数
f
=
0.6
)、(0.74),细菌和真核生物(0.90)(图
3(一个) ,安倍分类群)。大量的安倍结构在所有三个超界普遍加强了假设生命的共同祖先。相对较低的值
f
值在无核细胞(0.6 0.90 0.74古生菌和细菌和真核生物)可以用基因来解释已知发生还原事件与相对高频akaryotic微生物(
26 ,
42 ),也体现在superkingdom-specific特征(图的数量
2 )。38 AB结构很差但同样分布(中位数
f
值= 0.14)在古细菌和细菌蛋白质组,与古细菌结构表现出倾向于更加广泛的(长尾)(图
3(一个) AB)。此模式支持的存在水平跟踪无核细胞之间,弱的偏见在flux-loss超界(注意但是没有常见的异常值能被探测到的)。相比之下,38 AE结构高度(中位数表示
f
值> 0.94)在相应的超界的生物(图
3(一个) AE)。再次,古细菌结构显得更为广泛共享,但也显示较长的尾巴表明可能flux-loss集。乍一看,这种强大的垂直和谐AE集团的痕迹,可能是集团的竞争对手。然而,这可能并非如此。324年在细菌和平均结构差代表eukaryal蛋白质组(中位数
f
值< 0.15)(图
3(一个) )。整体相对统一的传播,与弱偏向高等真核生物中表示。然而,53和59结构被广泛的细菌和真核生物的蛋白质组(
f
>
0.8
),分别(阴影区域图
3(一个) )。这一部分是结构数值的两倍的总组高度代表AE结构。因此,越强的垂直跟踪结构继续支持一个姐妹群关系细菌和真核生物和古菌的早期多样化。我们注意到这个推断是由于我们有652个细菌和259 eukaryal蛋白质组相比,只有70古细菌蛋白质组。存在任何结构在这样大量的基因组意味着强大的选择压力和保护的特点。最后,分享superkingdom-specific结构在每个超界(中值低
f
值= 0.01 - -0.34),最小平均
f
值最大细菌和真核生物(图
3(一个) ,A, B, E)。值得注意的是,从164年Bacteria-specific结构,没有,但是,存在于> 50%的蛋白质组(图
3(一个) ,B)。没有一个预期的同质分布强烈表明,高度和其他均质化过程的作用可能非常有限在塑造细菌蛋白质组的进化。Eukaryal-specific结构分布具有较高
f
值(图
3(一个) E),相对较低的传播superkingdom-specific结构表明,这些结构是获得独立后,散度从每个超界最后的共同祖先。
FSF的传播域结构(a)和终端(b)在蛋白质组和functionomes七维恩超界的每个成员的分类群(安倍板,AB, AE, a, b和E)。阴影区域表明FSF或GOs在场> 80%的蛋白质组(
f
>
0.8
),它们的数量,
n
1
和
n
2
。数字在每个分布显示组中值的箱线图。用红色数字显示最强的垂直进化痕迹。
(一)
(b)
推论的箱线图
函数 数据集(图
3 (b) )支持来源于一般的结论
结构 数据集。安倍分布有高
f
值,与古生菌(中位数
f
=
0.24
)大大低于细菌(0.57)和真核生物(0.57)(图
3 (b) 安倍)。细菌和eukaryal分布是非常平衡的,提供额外的支持,他们最近的差异从一个共同祖先。中位数
f
古生菌的值最低,可以解释为高基因组减少事件(
26 ]或偏见的数量去古细菌基因组的注释。非政府组织更可靠和广泛策划对于细菌和真核生物,和这个因素可以减少古细菌基因组的全面检测。然而,比较的分布
函数 和
结构 数据显示,支持结果一致,表明这可能的缺点的影响有限。这里,安倍分布模式后观察fsf,因此被认为是可靠的。所有的AB、AE和被分类群显示平衡分布(图
3 (b) 、AB、AE)。100 AB分类组存在神仙(~三倍大于相应的结构),分布式声望较低(图
3 (b) AB)。一般来说,这些功能更丰富的细菌与古菌,因此建议一些分子活动横向从细菌转移到古生菌(确认)。AE分类组未能大力支持AE分布
结构 数据集。这个群体包括只有11 GOs eukaryal相对更丰富的蛋白质组(图
3 (b) AE)。最后,分类组织还支持患病率的增加在eukaryal功能基因组相比,细菌基因组(0.39与中值0.03),表明引入水平跟踪效果或偏见去注释方案(图
3 (b) )。然而,的特点是组的数量大大高于AB或AE组织和包括一个很大的功能数量相对广泛的(
f
>
0.8
)(图
3 (b) )。这是鲜明的对比与AB或AE分类群的模式。高度代表的子集功能因此最有可能的古代垂直签名的遗迹,结合细菌和真核生物在托尔姊妹集团。该跟踪非常符合的模式获得
结构 数据集(图
2(一个) 和
3(一个) )。
最后,再次superkingdom-specific功能分布较低
f
值。古生菌只有一个独特的去,出现在古细菌基因组的40%(图
3 (b) )。与此形成鲜明对比的是,852年有162个细菌和eukaryal-specific神仙。细菌功能再次显示的证据非常有限的传播在生物体(图
3 (b) 广泛的细菌高度的说法,B)挑战。反过来,eukaryal功能适度广泛(图
3 (b) E)。这些结果符合推论关于晚早些时候和独立收购superkingdom-specific特征。
3.3。水平通量的识别模式
箱线图分布关于超界的散度模式提供有益的线索。然而,他们不允许我们量化程度的横向和纵向继承。因此,我们计算的差别
f
所有特征值的AB、AE分类群。如果之间的区别
f
值> 0.6,特征在两种超界的存在被认为是可能的高度活动的结果。这个阈值是任意设置为只包括这些特征更为丰富的超界但几乎存在于另一个。例如,“t-snare蛋白质“总科(吟游诗人id: a.47.2],这是大量存在于酵母和哺乳动物细胞,形成桥梁调解细胞内贩卖(
43 ),有一个
f
价值0.996在真核生物暗示它是无处不在的。然而,它只是存在于一个652个细菌蛋白质组分析(
f
=
0.001
S1)(表,补充材料网上
http://dx.doi.org/10.1155/2013/648746 )。这最有可能是结构获得通过高度的一个例子发生在真核生物与细菌的方向。使用这一标准,只有一个结构(“tRNA-intron酶n端域”[d.75.1])收购水平在真核生物AE古生菌的分类组,而6从真核生物转移到古生菌(表S1)。同样的,只有一个FSF横向转移到细菌与古菌(“硫化叶菌的特性,6-bisphosphatase-like”[d.280.1]),而没有获得互惠。最后,细菌可能35结构转移到真核生物而获得52的回报(表S1)。其余237结构偏差不显著的传播在这些分类群和可能获得的垂直或在进化过程中获得了独立。
而言,
函数 ,没有一个特征很可能转移到细菌与古菌。然而,9 GOs候选人从细菌转移到古生菌(表S2)。也许最有趣的是在这些横向收购“青霉素结合分子活动”(去:0008658)是普遍存在于细菌也出现在古细菌蛋白质组的11%(表S2)。同样,从古生菌没有转移到真核生物分子的功能,只有一个(“dolichyl-diphosphooligosaccharide-protein glycotransferase活动”[去:0004579])了。最后,4分子功能很可能从细菌转移到真核生物和28获得回报(表S2)。总的来说,推断的影响水平转移过程似乎相当有限,没有严重失效的推论。此外,水平的贡献古生菌细菌或真核生物是最少的,这是符合上述最小共享特征(数字
2 和
3 )。相比之下,细菌和真核生物表现出更高水平的垂直和水平遗传特征和显示一个强大的进化协会,一个结论可能威胁的古代事件内共生。
3.4。确定使用丰富计数祖先的特征
特征的古代起源预计将出现在丰度比最近收购了。这是真的因为特征出现之前有更多的时间来积聚在基因组和增加他们的代表
6 ]。因此,高的特点在一个特定的维恩分类群是指示性的存在相对更古老的特征和一个古老的起源。因此,基因丰度可以作为一个代理来估计分类群的时代。我们计算了大量的特征出现在每一个蛋白质组和functionome和这些值在箱线图分布(图表示
4 )。安倍的平均丰度值最高的分类组
结构 (图
4(一) ),
函数 (图
4 (b) )的数据集,再支持这群保留大部分的urancestral特征有享受最大的时间繁殖并成为现代蛋白质组和functionomes丰富。是集团一直怀有特征相比,更丰富的AB和AE组(图
4 )。最后,Eukarya-specific特征明显丰富eukaryal蛋白质组和functionomes,检测到的基因丰度相比,更加丰富Archaea-specific或Bacteria-specific特征(图
4 )。这个结果证实了存在一个强大的垂直方向跟踪在现代细胞从安倍和e .真核生物很可能保留大部分的最古老特征逐渐消失在akaryal生物,从古生菌和细菌展现更晚。以前phylogenomic分析证实了强烈的还原akaryal蛋白质组的趋势(
26 ,
28 ,
35 ]。古生菌也与基因组的进化事件开始减少早期的外观是之前在进化和分类组(
28 ,
35 ]。然而,相对较晚损失特征的细菌是有趣的。几个已知种类的细菌寄生的生活方式适应后基因组(减少
44 ]。因此,细菌基因损失可能是一个持续的进化过程暗示对一个主要二级进化过渡。这也表现在非常贫穷的传播Bacteria-specific特征(图
3 )。
箱线图比较结构的对数转换丰度值(a)和功能(b)特征的蛋白质组和functionomes七维恩分类群。斜体字符识别异常值与最大和最小每一组丰富的特征:
,Takifugu摘要;b,萤石。 Hodgkinia cicadicola Dsem;
尿道支原体c, G37;d、玉米;e, marinum分枝杆菌;f, Guillardiaθ;g,智人;h, Rhodospirillum石;我,Desulfurococcus kamchatkensis;j, Ralstonia eutropha;k,非洲Thermosipho。
(一)
(b)
我们后期损失提供依据细菌仔细检查AE特征。大多数38 AE fsf和11个非政府组织在信息丰富的函数(例如,翻译起始,核糖体蛋白质、DNA结合蛋白质和蛋白质参与DNA复制;表S3和S4)。这个结果与现有的知识是一致的。事实上,古细菌和真核生物更相关的信息的过程,而细菌和真核生物彼此相似新陈代谢(
45 ]。因此,高人气的AE fsf可能是由于偏见归因于晚微分结构这些功能类别的损失。例如,11 AE GOs包括关键分子的功能,比如“DNA聚合酶持续合成因素活动(去:0030337)”和“tRNA-intron酶活动(去:0000213)。“前者是监管者的复制叉
46 ,
47 而后者是参与处理tRNA基因内区(
48 ]。这两种活动可以在细菌,与后期的损失,因为他们似乎集中重要的细胞功能。因此,虽然高度趋同进化和共同进化的特征似乎不太可能,我们不能排除广泛的基因组akaryal物种减少的可能性。
3.5。跟踪垂直跟踪
为了进一步剖析维恩分类群的进化,我们绘制了1924终端GOs 16个一级父走了。图
5 显示终端的分布率高,被分类,每个16父类别。这个练习证实推论来自早期的实验和突出的方向垂直的痕迹。值得注意的是,只有安,和E在一级分子功能丰富而大多数终端条件的可以被称为“催化活性(去:0003824)”或“绑定(去:0005488)”(图
5 )。这是一个有趣的结果。先前的分析金和Caetano-Anolles [
25 )证实,这两个分子活动最先出现在进化和共享的所有生物。相比,衍生分子活动首次出现在分类组(例如,“结构分子活动(去:0005198),”“核酸结合转录因子活性[去:0001071],”和“渠道监管活动[去:0016247]),“尽管最近创新独特的发生在真核生物(例如,“受体调节器活动(去:0030545),“翻译监管活动(去:0045182),”“metallochaperone活动(去:0016530),”“成形素活动(去:0016015)”和“蛋白质标记(去:0031386)”)。相比之下,没有AB, AE, A, B分类群的独特的存在(图1级分子功能
5 )。值得注意的是,很大一部分是终端的非政府组织是致力于最古老的催化和绑定活动(图S1)。相比之下,“运输活动[去:0005215]”被发现AB集团中来自AE数值时小得多(图S1)。这些发现证实一个垂直的存在跟踪从安倍最后E(也是支持的
结构 数据集)。Akaryal祖先可能分化后从该跟踪路径对真核生物基因组的减少而丰富的体验参与基因重复事件和探索小说域组合(
12 ,
49 ]。
图5
酒吧情节说明终端GOs的分解级别1的7个分类群的条件。共有1871 1924率高(97.24%)可以可靠地映射到他们的父母。一级GOs不能映射包括“D-alanyl航母活动(去:0036370),”“电子载体活动[去:0009055],”“化学引诱物活动(去:0042056),”“chemorepellent活动[去:0045499],”和“营养水库活动(去:0045735)。“注意,终端非政府组织可能有不止一个的父母。维恩图解表明,没有一个,B, AB和AE分类群的唯一代码对于任何一级术语。
3.6。验证推断进化时间表
验证与历史无关的比较方法,我们展开FSF的外观和性状进化时间(
nd ),而在每个超界策划基因丰度。FSF进化的历史分析(图
6 )和终端条件(数据未显示)一致,显示两个明确的模式:(1)基因组损失体现古代早期的模式的崛起是分类组(红圈),通常涉及与丰度特征的水平至少一个数量级高于其他分类群的水平(例如,AE和AB);和(2)一个规范化的模式superkingdom-specific外观特征揭示早期细菌的崛起才跟着联合外观独特的古细菌和真核生物。这一历史分析因此支持比较分析发现的古代垂直跟踪流从安集团是和E组。这三组分布以最大的丰度值在时间显示保留大量来自共同祖先的特征。这个垂直跟踪定义了一个古老的血统干细胞线负责初发放的热点血统和细菌新奇事物,和解规范化和古托尔的支持。然而无法预测规范化与历史无关的分析模式,从比较分析维恩分类群特征分布的超界,生物不能适应竞争假说的支持体现在进化过程中在不同的时间。块图
6 还显示显著增加丰富fsf eukaryal进化后期,这可以解释为显著发展的多区域蛋白结构及其相关函数(
12 ,
49 ]。域和功能的组合是可能的罪魁祸首时,我们观察到的两相的模式专注于真核生物。
图6
进化时间强调fsf的丰度超界分类群。进化的年龄(
nd )计算的种系发生树蛋白质域描述1733年的进化fsf(类群)981年生物(字符)(见[
26 ,
28 ,
35 技术细节)。吟游诗人字母数字标识符是用来识别最古老FSF在每个分类组。在多个FSF的年龄相同的情况下,只有FSF最大丰富标记。
c.37.1 国家结核控制规划水解酶FSF P-loop包含;
b.34.1 是转录阻遏物FSF的c端域;
a.267.1 V是拓扑异构酶催化域FSF;
a.253.1 是AF0941-like FSF;
d.2.1 是Lysozyme-like FSF;
a.47.5 是FlgN-like FSF;
b.6.2 主要表面抗原p30 SAG1。
4所示。讨论
我们的方法很简单(图
1 )。它不涉及计算的序列比对或使用复杂的数据矩阵的系统发育重建。相反,它关注的是人口普查的分子(结构和功能)特征在现代细胞的基因组。分析的基本原理是使用在维恩分类群特征分布来解释垂直进化的痕迹,使用
f
值解释水平的痕迹,和使用特征丰富代表年龄。的顺序组合这些方法剖析最有可能出现的情景超界的多样化,不调用系统发育的分析框架。
我们的运动比较基因组显示证据支持一个共同的祖先细胞,建立了托尔的深分支模式。细菌和真核生物的遗传复杂性暗示对一个强大的和古老的进化两个超界之间的联系。本协会的联系比其他超界。我们的研究结果也符合进化论的场景,在该场景中,古生菌成为第一个超界的生活从原始干细胞行不同的血统,起源于urancestor (
26 ,
28 ]。这条线可能遇到的极端温度,蛋白质组学发展的影响,阻碍收购新分子特征在这些环境中。在这种恶劣的环境,新兴古细菌细胞的持久性策略最有可能生存而非浓缩(
50 ]。这就解释了为什么我们观察到最低数量的特征在现存的热点。相反,细菌和真核生物共用一个旷日持久的共同进化的历史。他们的多样化发生后从urancestral行古生菌的原始分。细菌是朝着探索各种不同的栖息地,使高水平的基因发现。这就解释了大量独特的细菌特征在细菌物种之间的分配不平等。细菌种类也从事基因组还原过程和简化他们的特征表示。这可能发生分歧后从原始干细胞线。最后,真核生物进化而来的,(我)增加了大量的古代特征(通过基因的复制和域重组),发现小说特征,(2)或(3)。这些发现伪造一个进化场景中第一次出现的细菌细胞(
2 ,
3 ]或融合假说与真核生物的起源(例如,
33 ),没有一个似乎与我们的数据兼容。然而,我们并不认为病毒可能的角色扮演在细胞进化。已知病毒导致细胞的遗传多样性和被认为是非常古老的
35 ,
51 - - - - - -
53 ]。在不久的将来,我们将完成这项任务。
减少基因组是一个持续的进化过程,往往会引发的生活方式转变的细胞(例如,从独立生存的细胞内寄生虫
44 ])。我们建议简化基因组在无核细胞的进化中发挥了关键作用,尤其是古生菌。我们的数据表明,该分类组丰富的分子特征相比相对贫穷fsf和GOs AB和AE组(图
2 )。事实上,进化时间显示是集团很早就出现在进化和丰富与高水平的细菌和eukaryal fsf的蛋白质组(图
6 )。这些发现被视为早期发生的损失古生菌的特征的进化。虽然可以认为这样损失可能发生在古血统和多元化后细菌,我们比较和进化数据表明这可能不是很有可能。古代特征的损失在进化后期系统成本高昂,这意味着许多基因和蛋白质积累了进化过程中执行一个特定分子的任务。相比之下,古代特征在进化初期损失更简洁,符合时空连续性的原则。然而,另一种解释可能是高度的混杂效应的过程。然而,这是显示最近大量的核糖体蛋白质在热点分布不均(
54 ,
55 ]。因为核糖体蛋白质通常耐火HGT,片状和不均匀分布在古血统是更好的解释为微分损失更复杂的古细菌祖先。综上所述,这些研究结果有力地表明,原始还原进化过程定制古细菌进化。
当放置在进化的时间特征创新(图
6 ),维恩分类群的发现了一个惊人的模式,比较基因组方法无法切割。这种隐藏的模式体现了原始的崛起Bacteria-specific特征之后多并发Archaea-specific外观和Eukarya-specific创新。这个重要的继承支持“规范化”腐烂的托尔担当最基底的职务而古生菌和细菌真核生物成为派生姊妹集团(
2 ,
3 ]。从支序分类学的角度来看,特征独特超界autapomorphies,派生功能独特的终端组。这些autapomorphies不能用于在系统发育分析或解剖重建树的选择进化的场景比较基因组的方法。相比之下,fsf和GOs共享的任何两个超界反映共源性状(共享和派生功能),让历史(系统),并与历史无关的(比较)的推论。我们注意到特征独特的共享的任何两个超界可以出现在两个超界的增益特性或损失。丰度水平和
f
分布模式支持后者的情况,特别是如果损失是一个古老的特征。因此,早期的原始fsf和共源性状在古生菌嵌入后来autapomorphies早期获得的细菌。
隐藏的规范模式的图
6 已经报告了一个详尽的结构性phylogenomic探索域进化的褶皱和FSF各级结构抽象的
26 ),促使蛋白质进化的三个时代的定义和有机世界和原产地的假设。在第一个
“建筑多样化” 时代,新兴生物的社会积累了丰富的工具箱的蛋白质结构和功能。这个公共的世界就像古代的multiphenotypical precells Kandler提出(
56 ]启发伍斯的早期细胞进化的更高级的场景
57 ]。然而,在与简单的蜂窝系统寻求Kandler和伍斯precell分子构成,从phylogenomic分析推断出非常丰富的复杂的结构和功能(
29日 ]。今天的丰富性表达数量可观的结构和功能共享的所有超界,并揭示了我们比较探索。建筑多元化时代的末期,子组的域结构的普遍丧失urancestral precell人口导致原始古成绩,组织生物多样化的积极转变,首先统一了生理的复杂性urancestral社区但后来获得了所需的细胞凝聚力建立血统和真正的模式生物的多样化。虽然难以建立的时候这些“阈值”(美国标准
57 ])是由原始古细菌交叉的成绩,这些都是源于urancestral干细胞线,还原留下深刻的历史进化的早期过程签名组成的古生物体中嵌入域结构的时间(
26 ]。第二个
“超界规范” 时代带着第一批Bacteria-specific域结构和后来的并发外观Archaea-specific和Eukarya-specific结构。这superkingdom-specific外观结构的规范模式,展开在缺乏早期和主要还原的进化趋势,信号的时间新兴超界被创新塑造。在这个时代,成绩变成了演化支,precell“交换商店”战略逐渐取代了有机体的凝聚力。显著降低
f
值在此期间建议谱系分类更频繁地发生在越来越多的血统。最后,在
“生物的多样化” 时代,承诺策略和生活方式进一步增强超界之间的分歧并削弱了干细胞线的贡献的后裔。两股力量特别的意义起着至关重要的作用在这最后的时代,模块的组合使用域多畴的真核生物的蛋白质(
12 ,
49 )负责丰富水平高,图的两相的模式
6 和蛋白质的HGT-driven组合交换体验在血统的细菌
26 ),最大限度地减少特征分布在图
3 。
我们强调我们的比较基因组的推论已经被种系发生树重建批准之前(例如,
11 - - - - - -
13 ,
17 ,
22 ,
26 ,
28 ),从而建立了我们的方法的力量。然而,我们的分析依赖于结构和函数的精度和采样和数据的可靠性。的
函数 特别是数据集,是依赖于稳定的注释和偏向eukaryal生物更仔细注释。这个因素降到最低,我们取样183 45细菌和古细菌functionomes相比只有21真核生物。尽管大量的akaryal functionomes在我们的数据集,我们仍然能够突出eukaryal的令人难以置信的丰富体验。此外,推论来自
函数 在协议
结构 都应该被认为是可靠的。
而回溯进化历史从现在到第一个细胞是一个复杂的问题,推断物种多样化的模式通过比较使用和重用现存的分子特征的细胞必须被视为一个健壮的inferencial方法是免费的从许多外部假设和技术问题时面临重建系统发育树。唯一的缺点可能是解释之一,我们在这里展示的场景中我们已经讨论了起源。然而,我们试图限制语句场景是最符合给定的数据。60%的一个例子是使用一个阈值的差异特征检测的流行HGT-derived结构和功能。这一标准是任意确定最有可能只有HGT-transfers而可能导致故障检测的一些真正HGT-acquired特征,尤其是对那些intersuperkingdom和intrasuperkingdom迅速转移发生。虽然此类事件不太可能,但仍有可能发生。然而,检测这样的转移是一个困难的问题,不能可靠地确认没有实验证据。考虑到保护水平的结构和功能特征和可能的相对贫穷的曲目HGT-acquired特性S1和S2(表),我们安全地假设这个因素并不严重妥协我们的推论。最后,我们的方法是一个系统应用程序的形态分析,最初是用于高阶生物进行分类。未来的工作应该专注于先进的应用我们的方法达成共识关于细胞的进化。