文摘

蛋白质是生物化学实体组成的一个或多个块通常折叠在3 d模式。每个小块(多肽)是一个线性序列的生化特性的氨基酸结合在一起。蛋白质的氨基酸序列是由基因或几个基因的序列编码的dna的遗传密码。这个基因编码通常使用20个氨基酸,但在某些生物遗传密码还可以包括其他两个氨基酸。后连接的氨基酸在蛋白质合成过程中,每个氨基酸变成残留蛋白质,然后用化学方法修改,最终改变和定义蛋白质功能。在这项研究中,作者分析了氨基酸序列使用alignment-free方法,旨在识别结构模式集的蛋白质和蛋白质组,没有其他任何先前的假设。本文首先分析氨基酸序列数据的直方图使用固定长度氨基酸(元组)。创建初始相对频率直方图后,转换和处理以生成量化的结果信息提取和图形可视化。选择使用两个参考数据集样本,结果显示,该方法能够产生相关输出符合当前科学知识在蛋白质序列/蛋白质组分析等领域。

1。介绍

泰尔和曼1)确定未来的蛋白质组学的重要性(蛋白质组的研究)和需要履行必要的潜力。蛋白质组的概念已经被研究者研究像Nicodeme et al。2),一杯啤酒,高夫(3],Nabieva et al。4),只提到一些。现在大部分的蛋白质组研究使用校准方法和侧重于蛋白质序列的部分代码。

虽然染色体大小范围从成千上万的数千百万基本核苷酸,蛋白质的大小范围从半打到成千上万的氨基酸。另一个基因组和蛋白质组的区别编纂的字母使用:在基因组DNA核苷酸属于4个字母的象征 ;氨基酸序列的蛋白质组,字母表包含至少20符号(5]。在这项研究中采用以下设置21个氨基酸:丙氨酸:一种;半胱氨酸:C;天冬氨酸:D;谷氨酸:E;苯丙氨酸:F;甘氨酸G;组氨酸:H;异亮氨酸:我;赖氨酸:K; leucine: L; methionine: M; asparagine: N; proline: P; glutamine: Q; arginine: R; serine: S; threonine: T; selenocysteine: U; valine: V; tryptophan: W; and tyrosine: Y [6]。

灵感来自Vinga和阿尔梅达(7在alignment-free比较方法,在8]作者描述分析了核能和染色体基因组DNA序列的符号 核苷酸字母表以及信息处理方法应用于生成多种类型的数据可视化描述不同层次的组织结构。能够应对不同的DNA序列长度,作者采用了一种基于直方图的方法,将序列信息转化为元组,然后计算相对元组频率在整个序列。后输入序列生成直方图,直方图处理的数学工具和进一步的信息关于染色体,基因组和生物产生。

维斯et al。9指出,蛋白质序列可以被视为稍微编辑随机字符串。戴和王10]介绍了“蛋白质序列空间”概念探索相似的序列使用统计的措施。另一个氨基酸序列的方法是描述Hemmerich和金11)能够基于相关措施和蛋白质没有对齐信息进行分类。

本文提出了一种基于直方图的方法来处理和分析蛋白质的氨基酸序列。氨基酸的相对频率计数元组之前,必须定义所使用的元组的长度,以及过程中从一个tuple到下一个。因为采用氨基酸字母包含21个符号和氨基酸序列通常不要超过40000个符号,只有元组的长度 被认为是,知道不同的元组的总数吗 在一定n( 允许194481个不同的元组,远远大于40000)。因此,当使用 ,大多数的许多蛋白质的相对频率往往是零。为从一个 下一个元组,采用滑动窗口(即氨基酸之一。重叠的 氨基酸)。

相对频率直方图(HRF)包含符号序列的某些字母可能被视为一个消化或散列表示的序列。HRF大小的不依赖于序列长度,但只有在元组采用计数频率的相对大小,这有利于比较不同长度的序列,并且不需要对序列的内容之前的假设。

1显示了人类染色体的HRF 1 ([12],6-tuple垃圾箱),从左到右排序的相同频率降低模式。图2(4935个氨基酸,二元数组垃圾箱)对应于PCLO_HUMAN_Q9Y6V0-6蛋白质(Swiss-Prot: Q9Y6V0-6)。在这两种情况下HRFs仅仅揭示大型相对频率之间的变化,而排序的直方图相对频率(HSRF)显示一个模式类似于“帕累托原则,”通常与幂律(PL)关系有关13,14]。

3显示了使用不同值的影响n生成样本的几个HSRFs FINC_RAT_P04937-4蛋白质(Swiss-Prot: P04937-4)。1-tuple垃圾箱,PL关系不出现,但2元组是清晰可见。虽然PL模式仍然是明显的三元组,大部分的垃圾箱在HSRF零由于体积小(~ 2400个氨基酸的蛋白质序列 213)。

2。方法

2.1。数据集

本研究中使用的蛋白质序列下载在2012年1月的第一个星期从通用的蛋白质资源数据库(15),即档案“完成UniProtKB / Swiss-Prot数据集”(数据集1)和“附加UniProtKB / Swiss-Prot序列数据集表示注释的剪接变体”(数据集2),都使用FASTA格式。数据集1被选中,因为它包含一个非常大的样本的蛋白质(相关基因和生物)和数据集2,因为它主要含有大量蛋白质的亚型在数据集1。

2.2。实现

分析的数据1- - - - - -5我们决定采用统计方法来研究蛋白质序列信息和强调潜在的蛋白质序列之间的关系。因此,我们确定了直方图的相对频率(HRF)和排序相对频率的直方图(HSRF)为主要工具来使用。HRF和HSRF,每本与一个关联n元组的氨基酸,选择从一个字母表的21个不同的氨基酸。考虑到最长的蛋白质序列的大小小于40000,对于一个确定的n,不同的数量n元组是 ,选择适当的值 (更大的值 来自HRF和HSRF大多含有空箱子)。

排序技术采用变换HRF变成HSRF通常与统计分析相关现象表现为幂律(PL)的关系。事实上,有一个广泛的一类天然和人造现象的统计描述包括直方图和长尾可以近似表达式 (在哪里一个,b)参数相关分析的现象。

在这项研究中对蛋白质序列,没有意义先天的知识的类型生成的直方图。初始实验后与HRFs HSRFs许多蛋白质序列和PL模式的检测在那些HSRFs,我们相信,这种方法可能会导致一个自信的表征蛋白质,基因,生物。因此,通过使用UniProtKB / Swiss-Prot蛋白质数据集,许多HSRFs连同各自的PL回归计算使用“hrfplgydF4y2Ba”应用程序。因为蛋白质与基因有关,选择数据集包含许多同源蛋白质相同的基因,“hrfplg”是用来计算每个基因蛋白质的PL回归。

的过程中生成一个HSRF HRF是通过排序的n元组垃圾箱,让他们成为上市减少值的相对频率。在排序过程中,最初本序列,编号从1到 ,转化为一个独特的本序列,与本编号不同的从最初的一个(最后一本编号是最初的排列)。最初和最后本编号可能被视为“排名列表”和处理任何方法能够计算排名列表之间的“距离”,像另一个参数 相关的蛋白质序列分析。计算 参数从一组HRFs,以下方法实现:(我)PL回归+ Kendall-Tau距离”hrfplkt“(16];(2)PL回归+枪兵FR距离”hrfplsf“(17];(3)PL回归+堪培拉距离”hrfplcd“(18]。

后计算 参数的一组蛋白质序列,最终或生物相关的基因,结果可以通过2 d图形可视化涉及上述两个参数:一个b,一个c,等等。另一种可能性是一个三维可视化的三个参数通过3 d渲染图形使用阴影,反射和其他视觉工件或3 d视频。

观察2 d graphics-relating PL参数的一些规律 ,我们决定计算趋势参数 一组相关的蛋白质序列的使用以下回归: 这是旨在提高潜在的认知规律。

为了比较的结果描述的方法在本研究中提出的方法(8),我们的HRF-based方法包括一个简短的描述。计算几个HRFs之后,第一步是建立一个广场每个HRF所有其他相关的相关矩阵。通常之间的相关矩阵输入变化0(没有关系),1(100%相关)。计算距离HRFs之间,许多技术可以采用以下一个效应:Jensen-Shannon分歧”hrfcorrjsd“(19,20.]。多维标度技术(MDS, (21)可用于相关矩阵数据的可视化在2 d或3 d图形通过GGobi软件包(22]。

2.3。测试

尽管PL的研究涉及到蛋白质的应用首先描述Huynen和Nimwegen23),钱等。24],Karev et al。25),最近的可用性的新数据集相关的蛋白质序列基因和生物研究开辟了新的可能性。例如,数据集1包含131771属于21231个基因的蛋白质序列或6751生物如下(图4):(我)43基因,每一个有500或更多的蛋白质;(2)185个基因,每一个有100或更多的蛋白质;(3)1379个基因,各有10个或更多蛋白质,(我)19有机体,每个有500或更多的蛋白质;(2)256年生物,每个有100或更多的蛋白质;(3)1400年生物,各有10个或更多的蛋白质。

4显示了蛋白质的频率大小6000个氨基酸,与大多数的蛋白质(20 - 1500)区间内。在数据集2中,有30800个蛋白质/同种型序列,对应11960个基因(其中300有10个或更多的蛋白质/亚型)或614生物(31有10个或更多的蛋白质/亚型)。图5显示了蛋白质的频率大小6000个氨基酸,与大多数的蛋白质(30 - 3000)区间内。

3所示。结果与讨论

3.1。Regression-Based-Only方法

在图5的绝对频率30800蛋白质序列数据集2所示。图6显示了PL回归 所有这些蛋白质的序列。所有的空间分布 值明显表示的线性模式组织在对角线从左上角到右下角的图,有遍布这条线。

因为图6建议的可能性轨迹 HSRFs可能潜在的规律,在图7(一)我们的阴谋轨迹 27204蛋白质属于40个基因(每个基因都有至少500蛋白质从几个生物),在每个符号代表了一种从某个基因的蛋白质。清晰可见,几乎所有的蛋白质基因有一个线性分布沿日志(一个)与b左上的右下角对角线。图7 (b)详细介绍了PL回归轨迹 基因APT, ARGB AROA呈现在图7(一)。这三个基因含有1803个蛋白质序列。

638蛋白HSRF PL回归的恰当的基因(菱形符号)生成一个趋势线81.4% 拟合优度。的PL回归585蛋白质HSRFs ARGB基因(装有猛符号),态势至少有84.7% 拟合优度。最后,PL回归的580蛋白质HSRFs AROA基因(方形符号),由此产生的趋势线98.0% 拟合优度。在所有这些基因吻合度非常高,蛋白质HSRF PL回归非常一致的“线”。

在图7 (b)HSRF PL回归得到的每一个基因,但回归也可以推导出对于每一个有机体,是在图表示7 (c)。此图描绘了四个有机体(ARATH、人类、老鼠和TREPA),每个包括至少15蛋白质从数据集1,与32个基因(82%的基因生物体之间共享)。在图7 (c),没有检测到organism-protein规律(这证实了其他测试用例)。

8显示了轨迹 2463蛋白质/亚型属于100个基因(每个基因都有至少14蛋白质/几个生物)的亚型,与每个符号代表一种从某个基因的蛋白质。类似的“对齐”规律描述100年大部分的基因。当每个基因受到趋势回归,只有9的100个基因 拟合优度值低于80%,与27个基因 拟合优度值在99%以上。

在数据7(一),7 (b),8相同,它是观察到蛋白质的基因往往是直线对齐。这促使二级抽象的应用PL回归轨迹 为了方便新规律的看法: 趋势的回归轨迹 数据。图9(一个)显示了轨迹 趋势回归的40个基因和相关的蛋白质数据图7(一)。每个圆图9(一个)代表一个基因与面积成反比PL回归 拟合优度。的轨迹 非常接近线性拟合,得到其重要 拟合优度:99.0%。PL回归的差异 拟合优度值的40个基因数据7(一)9(一个)由不同的圆形区域和详细描述在图吗9 (b),它显示的分布 拟合优度值(16值在40至90%以下)。

10 ()显示了轨迹 趋势回归的1544个基因(至少5蛋白/基因亚型12412蛋白质序列数据集内2)和图10 (b)描述了相应的分布 拟合优度值(1544年434个值低于90%)。

3.2。回归和距离的方法

节中描述2,每当一个HRF排序通过减少相对频率和生成一个HSRF,箱子编号序列被修改。假设所有HRFs使用最初的本编号序列 ,每个HSRF将包含一个排列序列的初始。的特定排列取决于分类过程和HRF相对频率。排序过程普遍,一个HSRF本编号序列只取决于其HRF相关的内容。

任何本编号序列可以被认为是一个排名的整数范围 ,所以任何方法,计算排名列表之间的距离可以用于发现本编号序列之间的距离。这意味着一个HSRF可以用来提取三个参数如下:(我) pl回归的排序相对频率;(2) ——远程HRF和HSRF排名列表。

立即的含义 而不只是 是PL回归土地成为三维,使检测的新的和以前不规律的描述。

之前介绍了三种技术同时计算轨迹 从一组蛋白质HRFs: PL回归+ Kendall-Tau距离,PL回归+枪兵FR距离,距离和PL回归+堪培拉。恰当的使用1083蛋白质的基因,ARGB, AROA(见图7 (b)),三种方法进行了测试。发现最佳的视觉性能的方法是“PL回归+堪培拉距离”的结果呈现在图(11日)描绘了一个3 d渲染,阴影的轨迹 所有1083个蛋白基因(彩色)。在这个图的存在三个基因簇,清楚地分开是非常明显的。除了细长,每个集群也大多是平面。“影子在地板上”是图的一个近似7 (b)

的一个重要任务是识别蛋白质属于上述3 d集群。GGobi交互式软件包是一个多功能的工具分析和探索复杂的数据,用于创建图11 (b)。我们可以看到一个二维投影的三维簇和一些标记蛋白质。使用GGobi,我们验证,每个集群是由蛋白质并通过同样的基因(APT, ARGB或AROA)而不是生物类型(在数据也验证了7 (b)7 (c))。

数据12(一个)12 (b)显示生成的3 d基因聚类时“PL回归+堪培拉距离”方法应用于40个基因(27204元数组HRFs数据集1),之前在图表示7(一)。3 d基因簇的数据12(一个)12 (b)基本上表现出相同的模式之前描述的图(11日)。然而,一些新的规律现在可以查看集群在关闭时发现:点缀的集群,跨越集群和非平面的集群。

3.3。相关性和MDS方法

在[8)基于HRF的方法描述核/线粒体基因组数据的分析和可视化。这种方法不是基因组特定和可以应用于其他HRFs。

(13日)描绘了一个渲染蛋白/基因的3 d聚类结果应用Jensen-Shannon散度相关技术,其次是MDS GGobi方案的工具,1803年HRFs蛋白基因APT, ARGB, AROA。三个空间上分开的存在基因簇是清晰可见:所涉及的“球形”恰当的基因簇ARGB集群和周围更多的传播AROA集群。相比,图(11日),图(13日)关于三个基因显示不同的规律及其相关的蛋白质。

13 (b)显示一个渲染蛋白/基因的3 d集群应用Jensen-Shannon散度相关技术后,紧随其后的是MDS GGobi方案的工具,782年HRFs蛋白质来自36个基因(每个代表至少15蛋白质/亚型)。

在图的上方13 (b),许多基因簇是清晰可见,而中间的图集群更扩散和混合。也有“球状”和“线性”集群,以及地区不识别集群。

4所示。结论

根据Murray et al。26),在生物化学蛋白质的结构分为四个类别如下:(1)primary-the氨基酸序列;(2)当地secondary-regularly重复结构;(3)第三纪蛋白质的整体形状;(4)quaternary-a复杂由几个蛋白质。

在信息内容方面,运用基因或蛋白质的一组基因。单个基因,但即使是几个不同的蛋白质表征可以通过生成“可变剪接,”过程中,符号编纂氨基酸是蛋白质合成前操纵和改变。可变剪接是一种机制,增加基因组编码的蛋白质的生物多样性(27),但其影响仍不完全清楚。

Contrar DNA,蛋白质包含大量的字母符号(~ 21),虽然蛋白质序列长度相比是很小的染色体,可能蛋白质的数量几乎是无限的。真核生物DNA的主要序列Arneodo et al。28)表明,它包含一个多尺度信息编码和层次结构(从数万DNA bps数亿DNA bps)。

主要的蛋白质序列似乎也表现出这两个特点:多尺度编码和分层结构。图2显示了一个示例,蛋白质,2元组的降低频率兼容PL模式(这种模式也会发生三元组蛋白氨基酸序列比8 k)。PL分布已经成功地促成了建模的实际现象,我们的主要动机是PL-based方法应用于蛋白质序列的研究寻找线索对蛋白质的多尺度编码和分层结构。

使用两个数据集从通用的蛋白质资源知识库存储库,实验设计和执行,基于HRF和HSRF的概念。图6显示了一个结构化的 30800年的PL回归HSRF蛋白质序列数据集2。图7(一)展示了一个更加结构化的轨迹的PL 27204年回归属于40个基因,蛋白质的特写镜头在图中描述三个基因7 (b)指向一个明确gene-protein协会。相反,在图7 (c)没有organism-protein关系是明显的。另一个结构良好的 PL回归的100个基因(2463蛋白质/亚型数据集2)如图8

“面向行的”空间分布的相关基因PL回归图中描述7(一)(也存在于数据7 (b)8)在图被捕9(一个)通过趋势回归的 ( )。在图的40个基因(20204蛋白质序列)显然是line-aligned,其中大部分是非常高的拟合优度值(图9 (b))。尽管图9只是另一种方式呈现在图包含的信息吗7(一)的知觉,它促进基因和蛋白质之间的底层结构。同样的现象显示和验证数据10 ()10 (b)使用1544个基因(12412蛋白质/亚型)从数据集2。

数据(11日),11 (b),12(一个),12 (b)另一个观察的结果是:排序的过程一个HRF成HSRF变换相对频率箱子的编号序列。结束的过程中我们得到了两个“排名列表,一个用于HSRF HRF另一个,和一个可以计算它们之间的“距离测量”。图7 (b)在图有其三维版本(11日),它使用一个新的轨迹 , 前面提到的“距离测量”参数。在图的纵轴(11日)(标记为“ ”),清晰可见,基因/蛋白质有另一个构建模式,可以在图确认11 (b)。数据12(一个)12 (b)图的三维扩展版本吗7(一)和颜色之间的垂直轴分离基因也是明显的。

为了测试采用数据集与另一个方法,它是决定使用中所述的HRF-based方法(8]:HRF计算从蛋白质序列之间的相关性HRFs最后使用相关矩阵聚类。一个相当于图(11日)使用前文所述的correlation-clustering方法如图(13日),这三个基因的蛋白质被分组和基因本身是在空间上分开的(看看“阴影在地板上”)。图13 (b)是类似于图(13日)782,36个基因和蛋白质来自数据集2。至少有15个蛋白/每个基因亚型,图中可见许多基因具有明显的空间组织的集群。

使用直方图的主要好处之一 元组的相对频率(HRF)分析可变长度分类数据序列,它简化了这些序列比较的过程中,减少依赖于它们的长度。free-alignment方法是另一个重要的好处,因为它需要几乎没有先天的了解序列。

这是与染色体/线粒体序列(基因)和氨基酸序列(蛋白质组)。然而,氨基酸序列的变化序列的大小(显示在图45)可能在处理HRFs创造困难,尤其是在小于一百的符号序列。这种类型的序列,一个HRF可能包含大部分空垃圾箱,这可能影响到后续的数据处理。这就是为什么氨基酸小于100的象征是避免在我们的实验。开发的开放源代码工具免费提供下载。

4.1。开放问题和未来的工作

一个非常相关的开放问题是高质量的低可用性氨基酸在蛋白质序列库像UniProt29日或类似的。这个问题严重限制了实验涉及大量的蛋白质/每生物基因和蛋白质,这是必要的,当一个人试图探测和识别多尺度规律。

另一个具有挑战性的问题是HRF / HSRF描述方法的应用到其他蛋白质处理框架作为数据验证的预处理程序或作为结果验证,工具只是提到两个例子。这是一个有前途的问题未来的研究工作。

HRF概念并不局限于处理 元组“连续”符号,甚至只有一个HRF /序列的存在。可能是广义的概念,扩展和应用在小说方面,我们已经积极研究。

另一个有趣的开放问题是“物理”的存在解释HRF / HSRF-derived ( )或( )参数以及它们与可测量的量的问题域。一个好回答这个问题可能是改善和提高的关键HRF方法论问题在生物学中的应用和其他相关领域。

缩写

HRF: 直方图的相对频率
HSRF: 排好序的相对频率直方图
PL: 幂律。

确认

作者感谢以下组织访问输入数据:(1)基因组参考财团(人类基因组),http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/。(2)通用的蛋白质资源,http://www.uniprot.org/。这项工作是支持菲德尔基金通过“而危险Operacional Competitividade-COMPETE“程序和通过FCT国家基金”Fundacao对位Tecnologia Ciencia e“在项目fcomp - 01 - 0124 -菲德尔-害虫- oe /千禧年代/ UI0760/2011。