预测蛋白质结构类low-similarity序列是有用的对于理解折叠模式、监管、函数和蛋白质的相互作用。众所周知,特征提取是重要的预测蛋白质结构类和它主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。目前,预测仅仅基于PSSM发挥了关键作用在提高预测准确性。在本文中,我们提出一个新颖的方法称为CSP-SegPseP-SegACP融合共识序列(CS)、分段PsePSSM,分段自协方差变换基于PSSM (ACT)。三个广泛使用low-similarity数据集(25 pdb, 1189年和640年)采用。然后700 -维(700 d)特征向量构造和尺寸下降到224 d通过使用主成分分析(PCA)。来验证我们的方法的性能,严格的重叠交叉验证测试执行1189年25 pdb,和640年的数据集。比较我们的结果与现有PSSM-based方法表明,我们的方法达到良好的和竞争的性能。这将提供一个重要的补充其他PSSM-based方法预测蛋白质结构类low-similarity序列。gydF4y2Ba
蛋白质结构类科学发挥关键作用的蛋白质,因为蛋白质的生物功能本质上与它的三级结构,是由其氨基酸序列按照蛋白质折叠的过程(gydF4y2Ba
在过去的二十年里,大量的统计学习算法被开发来解决这个问题。蛋白质结构类预测是一个典型的模式识别问题,这主要表现在三个步骤。第一步是特征提取,不同长度序列转换成相等长度特征向量。的方法包括氨基酸组成(AAC) [gydF4y2Ba
目前,特征提取方法主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。Position-specific得分矩阵可以通过查询序列,可以对数据库搜索的蛋白质使用PSI-BLAST [gydF4y2Ba
在本文中,我们基于PSSM提取一个共识序列,从40全球特性计算。然后我们提出两种分段特征提取技术基于pseudo-position-specific得分矩阵的概念(PsePSSM)和自协方差变换(ACT),分别PSSM上定义的。PsePSSM最初提议避免完全丧失的序列号信息沈和周gydF4y2Ba
为了方便与之前的作品相比,三个受欢迎的基准数据集被用来评估我们的表现方法:gydF4y2Ba
本文采用三个数据集的成分。gydF4y2Ba
| 数据集gydF4y2Ba | 所有- - -gydF4y2Ba |
所有- - -gydF4y2Ba |
|
|
总gydF4y2Ba |
|---|---|---|---|---|---|
| 1189年gydF4y2Ba | 223年gydF4y2Ba | 294年gydF4y2Ba | 334年gydF4y2Ba | 241年gydF4y2Ba | 1092年gydF4y2Ba |
| 25个pdbgydF4y2Ba | 443年gydF4y2Ba | 443年gydF4y2Ba | 346年gydF4y2Ba | 441年gydF4y2Ba | 1673年gydF4y2Ba |
| 640年gydF4y2Ba | 138年gydF4y2Ba | 154年gydF4y2Ba | 177年gydF4y2Ba | 171年gydF4y2Ba | 640年gydF4y2Ba |
发展一个强大的预测蛋白质结构类基于position-specific得分矩阵(PSSM),关键是如何有效地定义制定有关统计样本特征向量。在这里,我们使用一个组合的共识序列,分段PsePSSM,分段自协方差变换。gydF4y2Ba
提取进化信息,我们使用每个蛋白质序列搜索(查询序列)作为种子和同质对齐序列从NCBI的NR数据库(gydF4y2Ba
提取全局特征,我们采用方法gydF4y2Ba
此外,我们建议20组成特性CS,已申请了预测蛋白质结构类主要基于氨基酸序列(gydF4y2Ba
总之,我们获得40全局特性结合20个氨基酸组成特点与20组成CS-PSSM的力矩特性。gydF4y2Ba
提取局部特征,我们把PSSM分成gydF4y2Ba
当gydF4y2Ba
当gydF4y2Ba
通过上述方式,共有380名当地使用分段PsePSSM特征提取。gydF4y2Ba
为了进一步获得地方特色,这里介绍了自协方差变换(ACT)的邻近效应的序列。与前一节中,我们将PSSM分成gydF4y2Ba
当gydF4y2Ba
当gydF4y2Ba
从PSSM提取更多的全球和本地信息,我们提出一个全面的方法称为CSP-SegPseP-SegACP通过40 CS-PSSM融合特性,380分段PsePSSM功能,280分段ACT-PSSM功能。最后,每个蛋白质序列的特征是一个700维的特征向量(700 d)。gydF4y2Ba
构造特征向量的维数是700,这是一个大的输入支持向量机。大尺寸将会导致两个问题:信息冗余或噪音和维度灾难。因此,特征选择在分类任务中发挥着关键作用。主成分分析(PCA) (gydF4y2Ba
支持向量机(SVM)是一种众所周知的基于统计学习理论的机器学习算法的二元分类问题,这被认为是最先进的分类技术和引入Vapnik 1995年(gydF4y2Ba
支持向量机的基本思想是找到基于支持向量理论的分离超平面分类错误降到最低。这个样本的输入数据变换到一个高维空间使用内核函数找到支持向量。一般来说,四个基本内核函数是由支持向量机使用,也就是说,线性函数,多项式函数,乙状结肠函数,径向基函数(RBF)。在这里,我们选择了RBF作为SVM的内核由于其优势解决非线性问题(gydF4y2Ba
独立数据集测试、二次抽样测试和重叠测试三种广泛使用的交叉验证方法在统计预测。在这三种方法中,重叠测试被认为是最严格和客观因其结果产生一个独特的能力对于一个给定的数据集(gydF4y2Ba
综合评估我们的方法的性能,我们报告的七个标准性能的措施,包括敏感性(Sens),特异性(规范),gydF4y2Ba
在这项研究中,获得一个700 d的特征向量,利用主成分分析法(PCA)减少到224 d以避免维度灾难。那么224特征输入支持向量机。RBF核函数,网格搜索方法,和1189年的十五倍的交叉验证数据集被用来找到最好的参数gydF4y2Ba
1189年我们的方法在预测精度,25个pdb和640数据集。gydF4y2Ba
| 数据集gydF4y2Ba | 结构类gydF4y2Ba | Sens (%)gydF4y2Ba | 规范(%)gydF4y2Ba |
|
世纪挑战集团gydF4y2Ba | AUCgydF4y2Ba |
|---|---|---|---|---|---|---|
| 1189年gydF4y2Ba | 所有- - -gydF4y2Ba |
84.8gydF4y2Ba | 95.6gydF4y2Ba | 0.84gydF4y2Ba | 0.80gydF4y2Ba | 0.90gydF4y2Ba |
| 所有- - -gydF4y2Ba |
85.4gydF4y2Ba | 94.1gydF4y2Ba | 0.85gydF4y2Ba | 0.79gydF4y2Ba | 0.90gydF4y2Ba | |
|
|
85.0gydF4y2Ba | 90.0gydF4y2Ba | 0.82gydF4y2Ba | 0.74gydF4y2Ba | 0.88gydF4y2Ba | |
|
|
55.2gydF4y2Ba | 91.3gydF4y2Ba | 0.59gydF4y2Ba | 0.49gydF4y2Ba | 0.73gydF4y2Ba | |
| 办公自动化gydF4y2Ba | 78.5gydF4y2Ba | |||||
| AAgydF4y2Ba | 77.6gydF4y2Ba | |||||
|
|
||||||
| 25个pdbgydF4y2Ba | 所有- - -gydF4y2Ba |
94.4gydF4y2Ba | 96.4gydF4y2Ba | 0.92gydF4y2Ba | 0.90gydF4y2Ba | 0.95gydF4y2Ba |
| 所有- - -gydF4y2Ba |
91.9gydF4y2Ba | 97.2gydF4y2Ba | 0.92gydF4y2Ba | 0.89gydF4y2Ba | 0.95gydF4y2Ba | |
|
|
71.1gydF4y2Ba | 95.7gydF4y2Ba | 0.76gydF4y2Ba | 0.70gydF4y2Ba | 0.83gydF4y2Ba | |
|
|
92.5gydF4y2Ba | 95.2gydF4y2Ba | 0.90gydF4y2Ba | 0.86gydF4y2Ba | 0.94gydF4y2Ba | |
| 办公自动化gydF4y2Ba | 88.4gydF4y2Ba | |||||
| AAgydF4y2Ba | 87.5gydF4y2Ba | |||||
|
|
||||||
| 640年gydF4y2Ba | 所有- - -gydF4y2Ba |
83.3gydF4y2Ba | 96.8gydF4y2Ba | 0.86gydF4y2Ba | 0.82gydF4y2Ba | 0.90gydF4y2Ba |
| 所有- - -gydF4y2Ba |
83.1gydF4y2Ba | 95.3gydF4y2Ba | 0.84gydF4y2Ba | 0.79gydF4y2Ba | 0.89gydF4y2Ba | |
|
|
83.0gydF4y2Ba | 89.4gydF4y2Ba | 0.79gydF4y2Ba | 0.70gydF4y2Ba | 0.86gydF4y2Ba | |
|
|
60.2gydF4y2Ba | 87.4gydF4y2Ba | 0.62gydF4y2Ba | 0.49gydF4y2Ba | 0.74gydF4y2Ba | |
| 办公自动化gydF4y2Ba | 77.0gydF4y2Ba | |||||
| AAgydF4y2Ba | 77.4gydF4y2Ba | |||||
我们建议的方法的流程图。gydF4y2Ba
整个蛋白质结构类预测精度(OA)以及预测精度对每个结构类通过使用三个序列的特征表示的组合模型,其中包括共识sequence-PSSM (CSP),分段PsePSSM,分段自协方差transformation-PSSM (ACP)。该预测方法与1189年(CSP-SegPseP-SegACP)检查,25 pdb,和640年的数据集通过重叠测试,我们报告Sens、规范,gydF4y2Ba
为了克服信息冗余和维度灾难的影响支持向量机,得到特征向量的维数降低使用主成分分析从700年到224年。在本节中,我们报告的精度方法使用所有700个特性三个数据集,和我们仍然优化支持向量机参数gydF4y2Ba
之间的精度比较我们的方法,其中包括224年的特性和方法,包括700个特性。gydF4y2Ba
调查功能组的贡献在蛋白质结构类预测的准确性,首先,我们计算每个功能组一个接一个的1189数据集;结果如表所示gydF4y2Ba
我们的六个功能组的性能比较1189数据集。gydF4y2Ba
| 数据集gydF4y2Ba | 特性gydF4y2Ba | 预测精度(%)gydF4y2Ba | ||||
|---|---|---|---|---|---|---|
| 所有- - -gydF4y2Ba |
所有- - -gydF4y2Ba |
|
|
OA (%)gydF4y2Ba | ||
| 1189年gydF4y2Ba | CSAAC-PSSM (20 d)gydF4y2Ba | 72.7gydF4y2Ba | 76.2gydF4y2Ba | 78.7gydF4y2Ba | 26.1gydF4y2Ba | 65.2gydF4y2Ba |
| CSCM-PSSM (20 d)gydF4y2Ba | 69.1gydF4y2Ba | 76.9gydF4y2Ba | 82.0gydF4y2Ba | 29.9gydF4y2Ba | 66.5gydF4y2Ba | |
| Seg2-PsePSSM (200 d)gydF4y2Ba | 80.7gydF4y2Ba | 82.7gydF4y2Ba | 80.8gydF4y2Ba | 51.0gydF4y2Ba | 74.7gydF4y2Ba | |
| Seg3-PsePSSM (180 d)gydF4y2Ba | 79.8gydF4y2Ba | 80.6gydF4y2Ba | 81.4gydF4y2Ba | 48.1gydF4y2Ba | 73.5gydF4y2Ba | |
| Seg2-ACPSSM (160 d)gydF4y2Ba | 76.7gydF4y2Ba | 82.3gydF4y2Ba | 76.0gydF4y2Ba | 44.4gydF4y2Ba | 70.9gydF4y2Ba | |
| Seg3-ACPSSM (120 d)gydF4y2Ba | 69.1gydF4y2Ba | 77.6gydF4y2Ba | 78.4gydF4y2Ba | 38.6gydF4y2Ba | 67.5gydF4y2Ba | |
每个功能组的贡献的总体精度(%)。gydF4y2Ba
| 功能组的组合gydF4y2Ba | 维gydF4y2Ba | 1189年gydF4y2Ba | 25个pdbgydF4y2Ba | 640年gydF4y2Ba |
|---|---|---|---|---|
| CSAACPgydF4y2Ba | 20.gydF4y2Ba | 65.2gydF4y2Ba | 62.0gydF4y2Ba | 66.0gydF4y2Ba |
| CSAACP +协会(CSP)gydF4y2Ba | 40gydF4y2Ba | 66.5gydF4y2Ba | 63.1gydF4y2Ba | 64.7gydF4y2Ba |
| CSP + Seg2-PsePgydF4y2Ba | 240年gydF4y2Ba | 75.2gydF4y2Ba | 74.4gydF4y2Ba | 75.8gydF4y2Ba |
| CSP + Seg2-PseP + Seg3-PsePgydF4y2Ba | 420年gydF4y2Ba | 76.2gydF4y2Ba | 87.7gydF4y2Ba | 74.5gydF4y2Ba |
| CSP + SegPseP + seg2-ACPgydF4y2Ba | 680年gydF4y2Ba | 76.1gydF4y2Ba | 87.9gydF4y2Ba | 75.0gydF4y2Ba |
| CSP + SegPseP + seg2-ACP + seg3-ACPgydF4y2Ba | 700年gydF4y2Ba | 77.1gydF4y2Ba | 88.6gydF4y2Ba | 75.5gydF4y2Ba |
| CSP + SegPseP + SegACP-PCAgydF4y2Ba | 224年gydF4y2Ba | 78.5gydF4y2Ba | 88.4gydF4y2Ba | 77.0gydF4y2Ba |
在本节中,为了证明我们的方法的优越性;CSP-SegPseP-SegACP进一步与其他最近报道预测方法在相同的数据集。我们选择每个类和整体精度的准确性作为评价指标,总结在表gydF4y2Ba
不同的方法在三个数据集的性能比较。gydF4y2Ba
| 数据集gydF4y2Ba | 方法gydF4y2Ba | 预测精度(%)gydF4y2Ba | ||||
|---|---|---|---|---|---|---|
| 所有- - -gydF4y2Ba |
所有- - -gydF4y2Ba |
|
|
OA (%)gydF4y2Ba | ||
| 1189年gydF4y2Ba | PSSM-S [gydF4y2Ba |
93.3gydF4y2Ba | 85.1gydF4y2Ba | 77.6gydF4y2Ba | 65.6gydF4y2Ba | 80.2gydF4y2Ba |
| LCC-PSSM [gydF4y2Ba |
89.2gydF4y2Ba | 88.8gydF4y2Ba | 85.6gydF4y2Ba | 58.5gydF4y2Ba | 81.2gydF4y2Ba | |
| MBMGAC-PSSM [gydF4y2Ba |
79.8gydF4y2Ba | 85.0gydF4y2Ba | 84.7gydF4y2Ba | 50.6gydF4y2Ba | 76.3gydF4y2Ba | |
| RPSSM [gydF4y2Ba |
67.7gydF4y2Ba | 75.2gydF4y2Ba | 74.6gydF4y2Ba | 17.4gydF4y2Ba | 60.2gydF4y2Ba | |
| AADP-PSSM [gydF4y2Ba |
69.1gydF4y2Ba | 83.7gydF4y2Ba | 85.6gydF4y2Ba | 35.7gydF4y2Ba | 70.7gydF4y2Ba | |
| AATP [gydF4y2Ba |
72.7gydF4y2Ba | 85.4gydF4y2Ba | 82.9gydF4y2Ba | 42.7gydF4y2Ba | 72.6gydF4y2Ba | |
| MEDP [gydF4y2Ba |
85.2gydF4y2Ba | 84.0gydF4y2Ba | 84.3gydF4y2Ba | 45.2gydF4y2Ba | 75.8gydF4y2Ba | |
| PsePSSM [gydF4y2Ba |
82.0gydF4y2Ba | 82.3gydF4y2Ba | 84.1gydF4y2Ba | 44.0gydF4y2Ba | 74.4gydF4y2Ba | |
| AAC-PSSM-AC [gydF4y2Ba |
80.7gydF4y2Ba | 86.4gydF4y2Ba | 81.4gydF4y2Ba | 45.2gydF4y2Ba | 74.6gydF4y2Ba | |
| 这篇论文gydF4y2Ba |
|
|
|
|
|
|
|
|
||||||
| 25个pdbgydF4y2Ba | PSSM-S [gydF4y2Ba |
93.8gydF4y2Ba | 92.8gydF4y2Ba | 92.6gydF4y2Ba | 81.7gydF4y2Ba | 90.1gydF4y2Ba |
| LCC-PSSM [gydF4y2Ba |
91.7gydF4y2Ba | 80.8gydF4y2Ba | 79.8gydF4y2Ba | 64.0gydF4y2Ba | 79.0gydF4y2Ba | |
| MBMGAC-PSSM [gydF4y2Ba |
86.7gydF4y2Ba | 81.5gydF4y2Ba | 79.5gydF4y2Ba | 61.7gydF4y2Ba | 77.2gydF4y2Ba | |
| RPSSM [gydF4y2Ba |
75.6gydF4y2Ba | 70.2gydF4y2Ba | 52.0gydF4y2Ba | 43.3gydF4y2Ba | 60.8gydF4y2Ba | |
| AADP-PSSM [gydF4y2Ba |
83.3gydF4y2Ba | 78.1gydF4y2Ba | 76.3gydF4y2Ba | 54.4gydF4y2Ba | 72.9gydF4y2Ba | |
| AATP [gydF4y2Ba |
81.9gydF4y2Ba | 74.7gydF4y2Ba | 75.1gydF4y2Ba | 55.8gydF4y2Ba | 71.7gydF4y2Ba | |
| MEDP [gydF4y2Ba |
87.8gydF4y2Ba | 78.3gydF4y2Ba | 76.0gydF4y2Ba | 57.4gydF4y2Ba | 74.8gydF4y2Ba | |
| AAC-PSSM-AC [gydF4y2Ba |
85.3gydF4y2Ba | 81.7gydF4y2Ba | 73.7gydF4y2Ba | 55.3gydF4y2Ba | 74.1gydF4y2Ba | |
| PsePSSM [gydF4y2Ba |
86.2gydF4y2Ba | 78.8gydF4y2Ba | 75.7gydF4y2Ba | 57.6gydF4y2Ba | 75.5gydF4y2Ba | |
| 夏et al。gydF4y2Ba |
92.6gydF4y2Ba | 72.5gydF4y2Ba | 71.7gydF4y2Ba | 71.0gydF4y2Ba | 77.2gydF4y2Ba | |
| 这篇论文gydF4y2Ba |
|
|
|
|
|
|
|
|
||||||
| 640年gydF4y2Ba | LCC-PSSM [gydF4y2Ba |
92.8gydF4y2Ba | 88.3gydF4y2Ba | 85.9gydF4y2Ba | 66.1gydF4y2Ba | 82.7gydF4y2Ba |
| MBMGAC-PSSM [gydF4y2Ba |
86.2gydF4y2Ba | 83.1gydF4y2Ba | 85.3gydF4y2Ba | 63.2gydF4y2Ba | 79.1gydF4y2Ba | |
| MEDP [gydF4y2Ba |
84.8gydF4y2Ba | 75.3gydF4y2Ba | 86.4gydF4y2Ba | 53.8gydF4y2Ba | 74.7gydF4y2Ba | |
| PsePSSM [gydF4y2Ba |
73.9gydF4y2Ba | 76.6gydF4y2Ba | 85.3gydF4y2Ba | 51.5gydF4y2Ba | 71.7gydF4y2Ba | |
| 这篇论文gydF4y2Ba |
|
|
|
|
|
|
列在表gydF4y2Ba
本文的主要贡献是建立一个700维的特征向量的三个描述符:共识序列——(CS) PSSM PsePSSM,基于分段PSSM自协方差变换(ACT)。而CS-PSSM反映了全球信息、分段PsePSSM和分段法代表当地的序列号信息。224通过使用PCA特征选择。SVM分类器和重叠测试是用来预测和评估方法三个基准数据集:1189年,25个pdb,和640年的数据集,使用序列相似度低于40%,25%,和25%,分别。实验表明,我们的方法可以作为一个可靠的工具和一个很好的替代方案的准确预测蛋白质结构类low-similarity数据集。我们应当努力未来任务提供一个公共可访问的web方法。代码是用MATLAB语言编写的,可以下载gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
作者要感谢匿名评论者对他们有用的评论我们的论文。这项工作得到了国家自然科学基金(61373174和61373174号),中央大学基础研究基金(没有。JB140703),陕西省自然科学基础研究计划(没有。2015 jq1010)。gydF4y2Ba