文摘
本文处理的复杂的单位根表示archea DNA序列和对称性分析的小波系数序列数字化。结果表明,即使对极端微生物古生菌,核苷酸的分布必须满足一些(数学)约束的方式,小波系数对称分布,对核苷酸分布。
1。介绍
在最近的一些论文对称性的存在核苷酸分布研究了几个生物(1- - - - - -6),包括哺乳动物、真菌(1- - - - - -4),和病毒(5,6]。因此表明任何(调查)的DNA序列,当转换成数字序列,特征DNA散步,一个明显的分形形状random-like分布。然而,当短期小波变换的数字序列映射到小波系数的空间,这些系数是集群然后他们位于一些对称的形状。
本文的主要任务之一是显示尽管核苷酸的分布,在任何DNA序列,可以被认为是随机给的,当我们比较一个随机序列(和相应的随机游走)与DNA序列(走)可以看出,存在一些差别。所以核苷酸分布似乎与一个随机分布和一些约束。这些约束(规则)挑出后,通过显示隐藏的存在几何构成DNA序列的结构。
换句话说,核苷酸分布以及任何DNA序列显然随机但第二分析根据一些(统计)的数学约束不允许任意给定的核苷酸之后,其他剩余的核苷酸。
有趣的是注意到,即使是在原语生物几十亿年前被殖民地球在极端条件下的生活,他们的DNA来满足相同的约束更进化的DNA。
为了实现这一目标必须考虑一些基本步骤和讨论。(1)由于DNA是一个序列的符号,这些符号映射到数字必须被定义。在下面我们将考虑复杂的单位根地图,它的优点是统一的和分布式的单位圆。(2)指标矩阵定义的指标映射。这个矩阵是重要的为了画点图的DNA序列,从这个图我们可以看到,显然核苷酸似乎是随机分布的。然而,我们将介绍小波分析随机分布很相似,而他们不是。(3)乌兰螺旋适应DNA序列被定义为了挑出一些几何模式。(4)DNA随机漫步,或短DNA走,说明分形随机漫步的样子。(5)集群的分析小波系数表明,DNA必须满足一些几何约束。
在所有的DNA序列,分析了到目前为止,对于不同种类的生物,这几何对称(1- - - - - -6已经检测到。在接下来的这个分析是扩展古生菌,因为他们可能会被认为是在生命的早期阶段和他们相比更进化的微生物细菌DNA。
它将表明,尽管许多相似性的随机序列,只有小波分析可以挑出一些区别。特别是,所有的小波系数(分析)生物倾向于满足信号的能量最低原理。古生菌通常生活在极端环境中也履行相同的几何规则其他生物体。
DNA分析的小波(7- - - - - -9),如8- - - - - -12),有助于挑出的本地行为和奇异点7,13[]或表达的尺度不变性系数14]。也时间序列的多重分形性质15- - - - - -17通过小波分析)可以很容易地检测到。
一些先前的论文研究白血病春节等各种DNA序列变异,流感病毒(H1N1)变体、哺乳动物和真菌(见[1- - - - - -3,14])提供的国家生物技术信息中心(18- - - - - -21]。在所有这些论文不仅是观察到,DNA必须满足一些化学稳定状态的化学配体还有一些对称分布的核苷酸序列。换句话说,碱基对必须放置在一些职位。
根据以前的结果,它将表明,其他生物也这些基本生物DNA与分形形状和短程小波变换小波系数有界。换句话说,也厌氧生物应该被理解为最基本生活的第一步有相同的对称小波系数作为生物进化而来的,所以,生活必须满足一些约束的核苷酸分布以产生一些生物即使在最基本的一步。
特别是,在一节2,谈一下本分析数据。部分3处理一些基本的情节,可以很容易地想象核苷酸的分布。乌兰螺旋情节也首次提出并观察不同分布的弱/强氢键。部分4提供一些关于参数的复杂性的定义。我们会注意到这些参数产生相同的生物分类。部分4提出了一种复杂的DNA链和随机漫步的数值表示,而在最后一部分6简短的小波trasform为了挑出一些低阶的对称变换。
2。材料和方法
在下面我们将考虑一些基因组完整的DNA序列,关于以下古生菌:h1:Aeropyrum pernixK1,完整的基因组。DNA,圆形,1669696英国石油公司,18- - - - - -21),加入BA000002.3。血统:古生菌;Crenarchaeota;Thermoprotei;Desulfurococcales;Desulfurococcaceae;Aeropyrum;Aeropyrum pernix;Aeropyrum pernixK1。这种生物,这是第一个严格有氧hyperthermophilic archaeon测序,从硫气体隔离Kodakara-Jima岛,日本在1993年。h2:Acidianus hospitalisW1,完整的基因组。DNA,圆形,2137654英国石油公司,18- - - - - -21),加入CP002535。血统:古生菌;Crenarchaeota;Thermoprotei;Sulfolobales;Sulfolobaceae;Acidianus;Acidianus hospitalis;Acidianus hospitalisW1h3:Acidilobus saccharovorans345 - 15所示。完整的基因组。DNA,圆形,2137654英国石油公司,18- - - - - -21),加入CP001742.1。血统:古生菌;Crenarchaeota;Thermoprotei;Acidilobales;Acidilobaceae;Acidilobus;Acidilobus saccharovorans;Acidilobus saccharovorans345 - 15所示。厌氧细菌中发现的温泉。
相比之下,以下(好氧/厌氧)细菌/真菌:b1:支原体putrefaciensKS1染色体,完整的基因组。DNA,圆形,长度为832603个基点,18- - - - - -21),加入数控015946,。血统:细菌;Tenericutes;柔膜细菌;枝原体目;支原体科;支原体;支原体putrefaciens;支原体putrefaciensKS1。b2:Mortierella verticillata线粒体,完整的基因组。dsDNA、圆、长度58745个基点,18- - - - - -21006838年,加入数控。血统:真核生物;Opisthokonta;真菌;真菌incertae基准;基底真菌血统;Mucoromycotina;Mortierellales;Mortierellaceae;Mortierella;Mortierella verticillata。b3:Blattabacteriumsp。(Periplaneta美国)str。BPLAN,完整的基因组。DNA,圆形,长度636994元,18- - - - - -21013418年,加入数控。血统:细菌;拟杆菌门/ Chlorobi组;拟杆菌门;Flavobacteria;Flavobacteriales;Blattabacteriaceae;Blattabacterium;Blattabacterium sp。(Periplaneta美国);Blattabacteriumsp。(Periplaneta美国)str, BPLAN。
此外我们将比较与人造DNA序列的核苷酸序列随机(见部分4)。
2.1。古生菌
古生菌是一群小学的单细胞微生物,没有细胞核或任何其他膜结合细胞器内细胞。他们是与细菌相似,因为他们有相同的大小和形状(除了少数例外)和一般类似的细胞结构。然而,古生菌及其生物化学进化历史的显著差异对其他形式的生命。因此他们认为是系统的成员组不同于细菌和真核生物。
古生菌在他们的进化已经遍及地球在几乎所有的栖息地(22,23)中存在广泛的栖息地,的一个主要贡献(地球生物量)。古生菌的最奇特的特征是它们能生活在一些极端的环境条件(因此被认为是极端微生物(22,24])。事实上,一些古菌生存的高温,超过100°C,而其他人可以生活在很冷的栖息地或高盐水,酸性或碱性水。然而一些古生菌生活在温和的条件下。
它也已经认识到,古生菌可能是地球上最古老的生物,这古细菌,真核生物可能是生物从一个祖先分化早期殖民地。
在下面,我们将看到,古生菌DNA看起来非常接近随机序列,这样我们可以假定祖先的生物进化的随机排列从原始的核苷酸。的进化可以看作是倾向于稳定状态的随机性。因此,细菌的DNA(和其他真核生物的1- - - - - -6),作为一个进化的结果,显示了一些隐藏的稳定的存在。
3所示。相关情节
在本节中,我们将考虑一些基本的情节,可以想象自相关,核苷酸和测量一些基本参数的分布规律,利用频率计数。
让 是有限集(字母)核苷酸(核酸):腺嘌呤、胞嘧啶、鸟嘌呤,胸腺嘧啶,任何成员的字母表。核酸是进一步分组,根据他们的配位性能(一)嘌呤,嘧啶,(b)氨基、酮,(c)弱的氢键,强烈的氢键。
DNA序列是有限的符号序列 这 与 的核苷酸在这个职位。
一般来说我们可以定义一个长度字母如下:让长度的DNA被定义的组合的4核苷酸(1)。对于每一个固定长度有话说,然而并不是所有人可以考虑,从生物的角度来看,作为独立的实例(见,例如,表1),对于这个我们定义长度字母表的集合长度无关的词: 与集和的基数 例如与字母是,字母是由20种氨基酸 每个氨基酸被3-length代表词表1。
让是一个长度要求的核苷酸序列和所选的字母,单词是有限的符号序列的DNA序列 这 与 被这个词在这个职位。
3.1。指标矩阵
二维指标函数,基于一维定义中给出(25),是地图 这样 与 为短,我们已经假定 根据(12)的指标长度可以很容易地由序列二进制值的稀疏对称矩阵这结果指标矩阵(参见[3- - - - - -5]) ,明确
这个平方矩阵可以绘制二维的一个黑点和白色的点时(图1)从而导致二维点图,它的一个特例复发的阴谋(26]。
一个简单的概括这个矩阵可以被认为是字母,如下所示。通过选择3个字母,氨基酸的二维指标函数是地图 这样 与
根据(12)、指标、氨基酸的3-alphabet长度可以很容易地由序列二进制值的稀疏对称矩阵: ,明确 这个矩阵的图示我们也可以显示相关的氨基酸。
3.2。测试序列
在下面,以单一的生物序列的主要特点,我们将比较DNA序列和一些测试序列。(1)伪随机长度序列的核苷酸序列在哪里是字母表中随机选择一个标志吗比如,(): (2)伪周期的核苷酸序列是一个给定的直和长度的伪随机序列,这样和例如, 当我们有一个伪随机序列。
如果我们绘制指标矩阵的一些细菌和比较一个伪随机和周期序列,我们可以看到(图1)(1)主对角线是情节的对称轴;(2)有些图案是重复在不同尺度分形像;(3)周期性检测平行线主对角线(图1(a2));(4)空的空间比填满空间分布,在某种意义上,这个矩阵是一个稀疏矩阵(0比1的);(5)似乎有一些方的岛屿黑点更集中;这些岛屿的持久性核苷酸(数据1(a2),1(b1));(6)古生菌的点情节非常类似于一个随机序列的点阴谋(数字1(a1),1(h3))。
它可以注意到一个活的有机体的DNA序列(图相似1)随机序列,用一些比较短的距离里面造成的影响,建立在相同的字母。这是作为公理核苷酸分布,因此DNA序列通常看作马尔可夫链(27]。然而,也有一些在结合核苷酸潜规则,这些规则,在进化,稳定分布。事实上,越是原始序列,核苷酸是随机分布的。似乎进化的结果,核苷酸从无序聚合向一个更有组织的结构,日益增长的岛屿所示点阴谋。生物进化是自组织面临的挑战可能遵循随机排列的一种原始无序序列,以便组织,也就是说,复杂性,只是许多任意排列的随机性的结果。在挑战的复杂性,DNA序列成为“随机”和它失去了某种能量。
图示的细菌和氨基酸的指标矩阵我们可以看到更多的稀疏矩阵,但一些典型地块(图2)。
3.3。螺旋的阴谋
在本节中,我们考虑一个核苷酸的二维分布,分布的想法后由乌兰质数,沿着Ulam-like螺旋(28]。为了找到一些在他们的分布模式,核苷酸排列在矩形螺旋。这相当于将一维的整数序列映射到一个二维序列如下:
例如序列 沿着螺旋分布类似于图3。
为每个核苷酸我们可以画一个螺旋包含只有一个酸核的分布。每个有机体有四块,对应,分别。
让我们先注意一个随机序列(图4)四个分布是等价的。
通过比较的螺旋形细菌,随机和古生菌(数据4,5,6,7,8,9,10)我们可以看到,有一个不同的每个核苷酸的分布。然而越进化生物往往有更高比例的弱氢键(数字5,6和7),因此,我们可以假设如下。
猜想1。在进化,核苷酸的分布变化这样一个强氢键会变得弱。
应该注意到,这些螺旋,有一个一对一的映射之间的和螺旋的点(整数坐标) 这 这双射的地图也可以考虑和复杂的空间因此每个自然数对应于一个复数(整数系数)
由于这些螺旋似乎填写一个有限区域的平面我们可以评估每个典型的分形曲线的措施的复杂性。
4所示。参数的复杂性
在本节中,我们定义一些参数,基于频率分布,它可以测量的复杂性的DNA计算的复杂性表现在复平面(更详细的分析[29日)和引用)。
让是一个-length-ordered的核苷酸序列 的概率找到核苷酸在这个职位。根据(12我们定义 的核苷酸长度的,所以 相应的频率是 这
我们可以假设对于大型序列
4.1。随机性
因为一个随机序列核苷酸的频率一致, 我们可以定义如下:随机指数 与方差,这随机序列和对于一个非随机序列。在我们第一10000个核苷酸的随机值表2。
然而,如果我们随机指数计算频率的氨基酸字母然后我们可以观察到一个不同的分布值。在第一个30000核苷酸对应10000个氨基酸,表的随机值3。
这样我们可以评论,引起复杂的单词和字母显示了在每个字母不同的随机性。
4.2。复杂性
作为一个简单的措施的复杂性(30.- - - - - -32),一个长度序列,提出了以下(33]:
在表4第一个100的复杂性——计算长度的DNA序列。有趣的是注意到更多的相似之处的古菌Acidilobus比与伪周期伪随机序列。核苷酸分布在原始biosequences更可能比pseudodeterministic随机。此外,减少进化序列的复杂性。
4.3。分形维数
计算分形维数的点图,通过框计算算法(34,35),平均数量1的随机未成年人的指标矩阵或者同样的数量随机的黑点广场上点阴谋
显式计算使我们比较100 -长度分形维数在第一段的DNA链,与一个近似(见表5)。
如果我们比较细菌和伪随机的分形维度伪周期我们可以看到核苷酸分布的分形维数范围,所有变体,间隔。正如预期的那样,越“随机”序列分形维数更高。
4.4。熵
另一个基本参数,相关信息内容的序列异质性的指标数据,信息熵(或夏侬熵)[36- - - - - -42]。公理的基础上,更少的信息意味着更大的不确定性,反之亦然,更多的信息让我们更多的确定性模型,熵的概念最近提供一些有趣的解释关于DNA的不确定性。事实上,DNA和其他信号被视为一个符号序列携带chemical-functional信息。
规范化的香农熵(39,40,42定义),字母,因为 在哪里应该为大型计算序列。根据(32),(34),我们将近似其价值
然而,熵是一个参数的复杂性。事实上,它可以很容易地看到,(看到证据29日])熵和措施的复杂性一个因素而有所不同。有遵循熵不给任何新的信息与前面的参数进行比较。如预期的表熵分类细菌和古生菌以同样的方式(表6)。
5。复杂的根表示DNA
DNA序列的复杂(数字)表示词的词的符号序列映射到一组复数,它被定义为 这样,每它是。
复杂的根表示序列是一个序列复杂的数字定义为 与虚数单位。这是,独立的字母,它是 所有复杂的根源,单位,位于单位圆的复杂平面。
例如,与字母的基数和
类似地,它是和单位的20复根 因此明确 因此DNA序列是一个序列的复杂表示复数 与由(42)。
一个长度的伪随机(白噪声)复杂的序列属于单位圆可以定义直接通过使用一些随机指数 与在一组随机值。
5.1。随机漫步
在复杂的序列随机漫步被定义为该系列 累计金额 当与和我们将正确地调用这些DNA走走路。当是随机生成的,我们将称之为随机漫步。
通过记忆频率的定义,DNA走是复值信号与 的系数由(12)满足条件(31日)。
如果我们比较DNA走(图11)等原始古生菌h3非常类似于一个随机游走(图13)。特别是古菌似乎变得比其他细菌(b2除外)。
有趣的是还注意到,氨基酸(图上的随机漫步12)表明,更多的生物进化有“周期”的行为,而走的绝对值古生菌正快速增长。
(一)
(b)
(c)
(d)
6。小波分析
小波分析是一种强大的方法广泛应用于生物信号的分析12,43- - - - - -45)旨在选出最重要的参数时间序列的复杂性和异构性,特别是在DNA序列。该方法分析的基础上由小波变换得到小波系数。
我们将考虑在以下Haar小波基础(见,例如,3,4,29日)由扩展功能: 和Haar小波:
的离散Haar小波变换是矩阵映射的向量 的向量小波系数 :
矩阵可以很容易地计算一些递归产品(3,4,13,29日,46所以,在,我们有3,4,29日]
从(55),显式计算,我们有 和[1- - - - - -3,14]
因此第一个小波系数代表序列的平均值和其他系数有限的差异。小波系数的,也称为细节系数,严格与一阶离散时间序列的性质。
在下面我们将考虑短期小波变换由细分的DNA序列分成4-length段,将小波变换应用于每一段。因此,从长度复杂向量分为段,4-parameter短Haar小波变换给出了集群的点 在八维空间,也就是说,
该算法使我们能够构建集群的小波系数和研究之间的关系的真实和虚构的系数表示DNA和DNA走路。它已被观察到3,4,29日),一些对称的情节来自小波系数的DNA走。
6.1。聚类分析的小波系数表示复杂的DNA
让我们先计算集群随机序列的小波系数(48)。可以看到小波系数序列和系列范围在某些离散的值(参见图13)。
集群算法应用于复杂表示序列表明,小波系数的值属于某些离散的有限集(图14)。
(一)
(b)
(c)
(d)
应该注意到,这对细节系数对称再细分小波变换(数据丢失15,16和17)。
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
这是DNA序列必须被视为与短程依赖马尔可夫链;换句话说任何酸核酸连接链的相关性的基础上以前的酸核。换句话说,如果我们找一个依赖规则在DNA核苷酸这种依赖可能由一个函数作为总结
7所示。结论
摘要古菌dna已经被关注的主要参数研究的复杂性。它已经表明,或多或少的复杂性和异构性的主要指标,如熵、分形维数和复杂性不太多,当我们有不同分类序列的复杂性。然而,一些DNA序列看起来比其他人更接近随机序列,从而表明进化涉及到一个过程的复杂性减少:进化而来的序列越多,越远离随机分布。在任何情况下似乎是显然不可能区分随机序列和一个DNA链。通过使用短的小波变换相反,我们表明,在短程(4-nucleotides) DNA序列显示了一些对称慢慢消失通过增加分析段的长度。此外,生物进化有更多对称小波系数的分布。