CMMMgydF4y2Ba 计算和数学方法在医学gydF4y2Ba 1748 - 6718gydF4y2Ba 1748 - 670 xgydF4y2Ba Hindawi出版公司gydF4y2Ba 10.1155 / 2015/370756gydF4y2Ba 370756年gydF4y2Ba 研究文章gydF4y2Ba 预测蛋白质结构类基于共识序列和分段PSSM Low-Similarity序列gydF4y2Ba 梁gydF4y2Ba YunyungydF4y2Ba 刘gydF4y2Ba 三阳gydF4y2Ba 张gydF4y2Ba 胜利gydF4y2Ba KloczkowskigydF4y2Ba AndrzejgydF4y2Ba 学校的数学和统计数据gydF4y2Ba 宁海西店大学gydF4y2Ba 西安710071年gydF4y2Ba 中国gydF4y2Ba xidian.edu.cngydF4y2Ba 2015年gydF4y2Ba 15gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba 2015年gydF4y2Ba 31日gydF4y2Ba 08年gydF4y2Ba 2015年gydF4y2Ba 19gydF4y2Ba 11gydF4y2Ba 2015年gydF4y2Ba 01gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba 15gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba 2015年gydF4y2Ba 版权©2015 Yunyun梁等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

预测蛋白质结构类low-similarity序列是有用的对于理解折叠模式、监管、函数和蛋白质的相互作用。众所周知,特征提取是重要的预测蛋白质结构类和它主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。目前,预测仅仅基于PSSM发挥了关键作用在提高预测准确性。在本文中,我们提出一个新颖的方法称为CSP-SegPseP-SegACP融合共识序列(CS)、分段PsePSSM,分段自协方差变换基于PSSM (ACT)。三个广泛使用low-similarity数据集(25 pdb, 1189年和640年)采用。然后700 -维(700 d)特征向量构造和尺寸下降到224 d通过使用主成分分析(PCA)。来验证我们的方法的性能,严格的重叠交叉验证测试执行1189年25 pdb,和640年的数据集。比较我们的结果与现有PSSM-based方法表明,我们的方法达到良好的和竞争的性能。这将提供一个重要的补充其他PSSM-based方法预测蛋白质结构类low-similarity序列。gydF4y2Ba

1。介绍gydF4y2Ba

蛋白质结构类科学发挥关键作用的蛋白质,因为蛋白质的生物功能本质上与它的三级结构,是由其氨基酸序列按照蛋白质折叠的过程(gydF4y2Ba 1gydF4y2Ba]。结构类的知识被应用来减少可能的搜索空间构象的三级结构gydF4y2Ba 2gydF4y2Ba,gydF4y2Ba 3gydF4y2Ba];因此预测蛋白质结构类成为计算生物学的热点和具有挑战性的任务。蛋白质结构类的概念,提出了由莱维特和Chothia [gydF4y2Ba 4gydF4y2Ba),和一个给定的蛋白质主要可以分为四个结构类的内容和空间安排蛋白质的二级结构元素领域;他们都是- - - - - -gydF4y2Ba αgydF4y2Ba ,所有gydF4y2Ba βgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 。所有-gydF4y2Ba αgydF4y2Ba 和所有- - -gydF4y2Ba βgydF4y2Ba 蛋白质主要由螺旋链,分别。的gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 蛋白质混合螺旋和主要是平行链,和gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 蛋白质混合螺旋和反平行的线。gydF4y2Ba

在过去的二十年里,大量的统计学习算法被开发来解决这个问题。蛋白质结构类预测是一个典型的模式识别问题,这主要表现在三个步骤。第一步是特征提取,不同长度序列转换成相等长度特征向量。的方法包括氨基酸组成(AAC) [gydF4y2Ba 5gydF4y2Ba- - - - - -gydF4y2Ba 8gydF4y2Ba),pseudoamino酸成分(PseAAC) [gydF4y2Ba 9gydF4y2Ba- - - - - -gydF4y2Ba 11gydF4y2Ba],多肽成分[gydF4y2Ba 12gydF4y2Ba,gydF4y2Ba 13gydF4y2Ba)、功能域组成(gydF4y2Ba 14gydF4y2Ba),position-specific iterated-basic局部比对搜索工具(PSI-BLAST)概要gydF4y2Ba 15gydF4y2Ba- - - - - -gydF4y2Ba 17gydF4y2Ba),pseudo-position-specific得分矩阵(PsePSSM) [gydF4y2Ba 18gydF4y2Ba,gydF4y2Ba 19gydF4y2Ba),并预测蛋白质二级结构(gydF4y2Ba 20.gydF4y2Ba- - - - - -gydF4y2Ba 22gydF4y2Ba]。第二步是特征选择,包括主成分分析(PCA) (gydF4y2Ba 23gydF4y2Ba),支持向量machine-recursive特性消除(SVM-RFE) [gydF4y2Ba 24gydF4y2Ba),和包装器和过滤器gydF4y2Ba 25gydF4y2Ba]。最后一步是选择良好的分类算法。目前,该算法包含神经网络(gydF4y2Ba 26gydF4y2Ba),支持向量机(SVM) [gydF4y2Ba 27gydF4y2Ba,gydF4y2Ba 28gydF4y2Ba),模糊聚类(gydF4y2Ba 29日gydF4y2Ba),贝叶斯分类(gydF4y2Ba 30.gydF4y2Ba),粗糙集(gydF4y2Ba 31日gydF4y2Ba),gydF4y2Ba kgydF4y2Ba 最近的邻居(gydF4y2Ba 11gydF4y2Ba),等等。在三个步骤中,特征提取是最关键的步骤,本研究成功的改进的预测蛋白质结构类。gydF4y2Ba

目前,特征提取方法主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。Position-specific得分矩阵可以通过查询序列,可以对数据库搜索的蛋白质使用PSI-BLAST [gydF4y2Ba 32gydF4y2Ba),代表着进化信息。最近,PSSM吸引了更多的关注和其预测精度日益提高。AADP-PSSM [gydF4y2Ba 15gydF4y2Ba扩展了传统的二肽成分PSSM)方法。AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba结合自协方差和PSSM提取进化信息。AATP模型(gydF4y2Ba 33gydF4y2Ba从PSSM保险丝AAC和转移概率组成。在PSSS-PSSM [gydF4y2Ba 34gydF4y2Ba),预测二级结构信息是用来执行预测进化信息。在MEDP [gydF4y2Ba 35gydF4y2Ba),基于PSSM进化提出了差分公式。LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]从PSSM提取远程和线性相关信息。PSSM-S [gydF4y2Ba 36gydF4y2Ba)提取特征依赖PSSM并提出有效特征提取技术,基于氨基酸的分布和自协方差的概念。特征提取方法依靠position-specific得分矩阵(PSSM)扮演了非常重要的角色来解决分类问题。尽管一些现有的方法展示了优秀的性能,嵌入的信息PSSM尚未充分探讨;还有进一步提高的空间。gydF4y2Ba

在本文中,我们基于PSSM提取一个共识序列,从40全球特性计算。然后我们提出两种分段特征提取技术基于pseudo-position-specific得分矩阵的概念(PsePSSM)和自协方差变换(ACT),分别PSSM上定义的。PsePSSM最初提议避免完全丧失的序列号信息沈和周gydF4y2Ba 18gydF4y2Ba]。换句话说,它反映了当地PSSM信息。自协方差变换作为分析的向量序列的统计工具开发的山地et al。gydF4y2Ba 37gydF4y2Ba]。法已经成功地用于模式识别蛋白(gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 38gydF4y2Ba,gydF4y2Ba 39gydF4y2Ba),特别是蛋白质的分类,这是一个相关因子两个残基之间相隔一定的距离以及蛋白质序列。因此,我们获得380分段PsePSSM当地特性和280分段ACT-PSSM特性。最后,这三个技术的帮助下,700 d特征向量构造。为了减少冗余的影响,我们使用了主成分分析(PCA)的特征选择。224年的主导功能是选择支持向量机分类器。评估我们的方法,重叠交叉验证测试采用三个广泛的基准数据集;实验结果表明,我们的方法是一种先进的分类和实现竞争性能相比其他PSSM-based low-similarity氨基酸序列的方法。gydF4y2Ba

2。材料和方法gydF4y2Ba 2.1。数据集gydF4y2Ba

为了方便与之前的作品相比,三个受欢迎的基准数据集被用来评估我们的表现方法:gydF4y2Ba 1189年gydF4y2Ba 数据集(gydF4y2Ba 30.gydF4y2Ba),gydF4y2Ba 25gydF4y2Ba PgydF4y2Ba DgydF4y2Ba BgydF4y2Ba 数据集(gydF4y2Ba 43gydF4y2Ba),gydF4y2Ba 640年gydF4y2Ba 数据集(gydF4y2Ba 44gydF4y2Ba),包括1092、1673、和640蛋白质域序列相似度低于40%,25%,和25%,分别。更详细的三个数据集表中列出gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

本文采用三个数据集的成分。gydF4y2Ba

数据集gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 所有- - -gydF4y2Ba βgydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 总gydF4y2Ba
1189年gydF4y2Ba 223年gydF4y2Ba 294年gydF4y2Ba 334年gydF4y2Ba 241年gydF4y2Ba 1092年gydF4y2Ba
25个pdbgydF4y2Ba 443年gydF4y2Ba 443年gydF4y2Ba 346年gydF4y2Ba 441年gydF4y2Ba 1673年gydF4y2Ba
640年gydF4y2Ba 138年gydF4y2Ba 154年gydF4y2Ba 177年gydF4y2Ba 171年gydF4y2Ba 640年gydF4y2Ba
2.2。特征提取gydF4y2Ba

发展一个强大的预测蛋白质结构类基于position-specific得分矩阵(PSSM),关键是如何有效地定义制定有关统计样本特征向量。在这里,我们使用一个组合的共识序列,分段PsePSSM,分段自协方差变换。gydF4y2Ba

2.2.1。Position-Specific得分矩阵gydF4y2Ba

提取进化信息,我们使用每个蛋白质序列搜索(查询序列)作为种子和同质对齐序列从NCBI的NR数据库(gydF4y2Ba ftp://ftp.ncbi.nih.gov/blast/dbgydF4y2Ba)使用PSI-BLAST程序gydF4y2Ba 32gydF4y2Ba与参数)gydF4y2Ba hgydF4y2Ba =gydF4y2Ba 0.001gydF4y2Ba 和gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 3gydF4y2Ba 。PSI-BLAST将返回一个矩阵;的gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba th得到矩阵的条目代表了分数的氨基酸残基gydF4y2Ba 我gydF4y2Ba th蛋白质序列的位置被突变氨基酸类型gydF4y2Ba jgydF4y2Ba 在进化过程中。矩阵称为position-specific得分矩阵(PSSM)表示gydF4y2Ba (1)gydF4y2Ba PSSMgydF4y2Ba =gydF4y2Ba PgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba PgydF4y2Ba jgydF4y2Ba =gydF4y2Ba (gydF4y2Ba PgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba (gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba )gydF4y2Ba 。PSSM log-odds矩阵的大小gydF4y2Ba lgydF4y2Ba ×gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 代表查询氨基酸序列的长度和20将20种氨基酸,和gydF4y2Ba TgydF4y2Ba 是转置运算符。在这部作品中,PSSM元素映射到的范围gydF4y2Ba (gydF4y2Ba 0 1gydF4y2Ba ]gydF4y2Ba 的帮助下一个标准的s形的功能:gydF4y2Ba (2)gydF4y2Ba fgydF4y2Ba xgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba xgydF4y2Ba 是原始PSSM价值。gydF4y2Ba

2.2.2。基于PSSM共识序列gydF4y2Ba

提取全局特征,我们采用方法gydF4y2Ba 45gydF4y2Ba,gydF4y2Ba 46gydF4y2Ba],它生成一个共识序列(CS)。它是由PSSM如下:gydF4y2Ba (3)gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 参数gydF4y2Ba ⁡gydF4y2Ba 马克斯gydF4y2Ba ⁡gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba :gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba “参数”代表最大的论点。的gydF4y2Ba 我gydF4y2Ba th的共识序列(CS)然后设置的gydF4y2Ba αgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba th氨基酸的氨基酸字母和共识序列构造。接下来,我们计算gydF4y2Ba (4)gydF4y2Ba CSAACgydF4y2Ba =gydF4y2Ba ngydF4y2Ba jgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba (gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 代表了氨基酸的数量gydF4y2Ba jgydF4y2Ba 发生在共识序列。gydF4y2Ba lgydF4y2Ba 代表CS的长度。显然,CSAAC代表20 CS的氨基酸组成特征。gydF4y2Ba

此外,我们建议20组成特性CS,已申请了预测蛋白质结构类主要基于氨基酸序列(gydF4y2Ba 47gydF4y2Ba和预测蛋白质二级结构序列gydF4y2Ba 34gydF4y2Ba,gydF4y2Ba 41gydF4y2Ba]。他们制定gydF4y2Ba (5)gydF4y2Ba CSCMgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba jgydF4y2Ba lgydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 的总数量吗gydF4y2Ba 我gydF4y2Ba th氨基酸的20种氨基酸序列(CS)和共识gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 代表了gydF4y2Ba jgydF4y2Ba 位置在CS(的长度gydF4y2Ba lgydF4y2Ba )的氨基酸gydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

总之,我们获得40全局特性结合20个氨基酸组成特点与20组成CS-PSSM的力矩特性。gydF4y2Ba

2.2.3。基于分段PSSM PsePSSMgydF4y2Ba

提取局部特征,我们把PSSM分成gydF4y2Ba ngydF4y2Ba 段的长度通过应用一个类似的过程(gydF4y2Ba 46gydF4y2Ba]。让gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba ngydF4y2Ba )gydF4y2Ba ;gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba 代表了平等除了最后一段氨基酸序列的长度;gydF4y2Ba 我gydF4y2Ba 代表了gydF4y2Ba 我gydF4y2Ba 段。然而,最后一段可能由于长还是短gydF4y2Ba lgydF4y2Ba 不是总是整除gydF4y2Ba ngydF4y2Ba 最后一段的长度gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba (gydF4y2Ba (gydF4y2Ba ngydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ∗gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 。然后,对于每个部分,我们采用pseudo-PSSM (PsePSSM),已成功地应用于预测蛋白质结构类(gydF4y2Ba 41gydF4y2Ba]。因为最短的长度序列的三个数据集是10(1189集),因此gydF4y2Ba ngydF4y2Ba 可以采取只有2、3、4和5。然而,如果gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 或5,gydF4y2Ba λgydF4y2Ba 只可以等于1;这使得对提取的特征没有意义。所以,gydF4y2Ba λgydF4y2Ba 是2和3。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ;在这里我们表示第一段序列的长度gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 第二段序列gydF4y2Ba lgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,分别。因此,我们得到分段PsePSSM特性根据以下方程:gydF4y2Ba (6)gydF4y2Ba αgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba βgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba αgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 和gydF4y2Ba βgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 氨基酸型的相关性因素吗gydF4y2Ba jgydF4y2Ba 分别是谁的相邻距离gydF4y2Ba λgydF4y2Ba 在每个分段的蛋白质序列。因为最短的长度序列的三个数据集是10,当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 参数的最大价值gydF4y2Ba λgydF4y2Ba 可以是4,所以呢gydF4y2Ba λgydF4y2Ba 可以为0,1,2,3,4;这里的200名当地特色。专门为gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba 代表的平均得分两个分割的氨基酸残基的蛋白质gydF4y2Ba PgydF4y2Ba 对氨基酸突变类型gydF4y2Ba jgydF4y2Ba 在进化过程中。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba ;在这里我们表示三段序列的长度gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 3gydF4y2Ba =gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 。因此,我们得到分段PsePSSM特性,可以定义为gydF4y2Ba (7)gydF4y2Ba θgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba μgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba νgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba θgydF4y2Ba jgydF4y2Ba λgydF4y2Ba ,gydF4y2Ba μgydF4y2Ba jgydF4y2Ba λgydF4y2Ba ,gydF4y2Ba νgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 表示相同的意思gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,分别。当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,最大gydF4y2Ba λgydF4y2Ba 可以等于2,在这里我们获得180个地方特性。gydF4y2Ba

通过上述方式,共有380名当地使用分段PsePSSM特征提取。gydF4y2Ba

2.2.4。基于分段PSSM自协方差转换gydF4y2Ba

为了进一步获得地方特色,这里介绍了自协方差变换(ACT)的邻近效应的序列。与前一节中,我们将PSSM分成gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 和gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba 段。因此,我们得到分段ACT-PSSM特性,可以由下面的计算。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba (8)gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba 。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba (9)gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 3gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba νgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba νgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba lgydF4y2Ba ggydF4y2Ba 是两个考虑氨基酸残基之间的距离。因此,总共280名当地使用分段ACT-PSSM特征提取。gydF4y2Ba

从PSSM提取更多的全球和本地信息,我们提出一个全面的方法称为CSP-SegPseP-SegACP通过40 CS-PSSM融合特性,380分段PsePSSM功能,280分段ACT-PSSM功能。最后,每个蛋白质序列的特征是一个700维的特征向量(700 d)。gydF4y2Ba

2.3。特征选择gydF4y2Ba

构造特征向量的维数是700,这是一个大的输入支持向量机。大尺寸将会导致两个问题:信息冗余或噪音和维度灾难。因此,特征选择在分类任务中发挥着关键作用。主成分分析(PCA) (gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba)是一种最经典的降维方法。主成分分析的目的是选择一些主要功能可以保留大部分的信息用一个正交变换;可以学到更多细节的PCA在文献[gydF4y2Ba 48gydF4y2Ba]。最后,224年选择功能是基于1189年数据集的正交空间执行预测蛋白质结构类。gydF4y2Ba

2.4。支持向量机gydF4y2Ba

支持向量机(SVM)是一种众所周知的基于统计学习理论的机器学习算法的二元分类问题,这被认为是最先进的分类技术和引入Vapnik 1995年(gydF4y2Ba 49gydF4y2Ba]。蛋白质结构类预测是一个四个问题,这可以通过使用一个转换成二进制分类问题对所有策略。gydF4y2Ba

支持向量机的基本思想是找到基于支持向量理论的分离超平面分类错误降到最低。这个样本的输入数据变换到一个高维空间使用内核函数找到支持向量。一般来说,四个基本内核函数是由支持向量机使用,也就是说,线性函数,多项式函数,乙状结肠函数,径向基函数(RBF)。在这里,我们选择了RBF作为SVM的内核由于其优势解决非线性问题(gydF4y2Ba 34gydF4y2Ba,gydF4y2Ba 46gydF4y2Ba,gydF4y2Ba 50gydF4y2Ba),它被定义为gydF4y2Ba KgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba - - - - - -gydF4y2Ba γgydF4y2Ba xgydF4y2Ba - - - - - -gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 。内核参数gydF4y2Ba γgydF4y2Ba 和成本参数gydF4y2Ba CgydF4y2Ba 优化是基于1189年的数据集的十五倍的交叉验证使用网格搜索策略在LIBSVM包(gydF4y2Ba 51gydF4y2Ba,gydF4y2Ba 52gydF4y2Ba),gydF4y2Ba CgydF4y2Ba 只允许带一个值之间gydF4y2Ba 2gydF4y2Ba - - - - - -gydF4y2Ba 5gydF4y2Ba 和gydF4y2Ba 2gydF4y2Ba 15gydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 只之间gydF4y2Ba 2gydF4y2Ba - - - - - -gydF4y2Ba 15gydF4y2Ba 和gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 。gydF4y2Ba

2.5。绩效评估gydF4y2Ba

独立数据集测试、二次抽样测试和重叠测试三种广泛使用的交叉验证方法在统计预测。在这三种方法中,重叠测试被认为是最严格和客观因其结果产生一个独特的能力对于一个给定的数据集(gydF4y2Ba 53gydF4y2Ba]。因此,在本研究中我们采用重叠测试。在重叠测试的过程中,一个蛋白质序列是指出从训练集和支持向量机分类模型的训练,剩余的蛋白质序列。然后,分类模型用于预测挑出序列。重复这个过程直到所有序列训练集的挑出一次。从这个意义上说,重叠测试也称为分析测试。gydF4y2Ba

综合评估我们的方法的性能,我们报告的七个标准性能的措施,包括敏感性(Sens),特异性(规范),gydF4y2Ba FgydF4y2Ba 测量,马修的相关系数(MCC), ROC曲线下面积(AUC),总体精度(OA)和平均精度(AA)。gydF4y2Ba FgydF4y2Ba 测量是一个更健壮的指标通过避免高估的性能指标,它是调和平均数的查全率和查准率。世纪挑战集团代表了观察和预测类之间的相关系数。它的值范围从+ 1(指示最佳预测模型)−1(表明糟糕的预测模型)。AUC是接受者操作特征(ROC)曲线下面积计算绘制FP率与TP率。其范围从0到1的价值。这些措施定义如下:gydF4y2Ba (10)gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba ogydF4y2Ba rgydF4y2Ba 年代gydF4y2Ba egydF4y2Ba ngydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba pgydF4y2Ba egydF4y2Ba cgydF4y2Ba =gydF4y2Ba TgydF4y2Ba NgydF4y2Ba FgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ,gydF4y2Ba FgydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba ×gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba +gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba CgydF4y2Ba CgydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba ×gydF4y2Ba TgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ×gydF4y2Ba FgydF4y2Ba NgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba UgydF4y2Ba CgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ,gydF4y2Ba OgydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 年代gydF4y2Ba egydF4y2Ba ngydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba TgydF4y2Ba PgydF4y2Ba 代表真正的阳性的数量,gydF4y2Ba FgydF4y2Ba PgydF4y2Ba 代表了假阳性的数量,gydF4y2Ba TgydF4y2Ba NgydF4y2Ba 代表真正的底片,gydF4y2Ba FgydF4y2Ba NgydF4y2Ba 代表数量的假阴性,gydF4y2Ba ngydF4y2Ba 分别代表类的数量。gydF4y2Ba

3所示。结果与讨论gydF4y2Ba

在这项研究中,获得一个700 d的特征向量,利用主成分分析法(PCA)减少到224 d以避免维度灾难。那么224特征输入支持向量机。RBF核函数,网格搜索方法,和1189年的十五倍的交叉验证数据集被用来找到最好的参数gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 支持向量机。最后,最优值gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 2和0.0019531计算,实验中使用的表吗gydF4y2Ba 2gydF4y2Ba为了避免过度拟合问题。来验证我们的方法的性能,严格的重叠交叉验证测试执行三low-similarity广泛使用的数据集。该方法的流程图描述了整个过程如图gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

1189年我们的方法在预测精度,25个pdb和640数据集。gydF4y2Ba

数据集gydF4y2Ba 结构类gydF4y2Ba Sens (%)gydF4y2Ba 规范(%)gydF4y2Ba FgydF4y2Ba 测量gydF4y2Ba 世纪挑战集团gydF4y2Ba AUCgydF4y2Ba
1189年gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 84.8gydF4y2Ba 95.6gydF4y2Ba 0.84gydF4y2Ba 0.80gydF4y2Ba 0.90gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 85.4gydF4y2Ba 94.1gydF4y2Ba 0.85gydF4y2Ba 0.79gydF4y2Ba 0.90gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 85.0gydF4y2Ba 90.0gydF4y2Ba 0.82gydF4y2Ba 0.74gydF4y2Ba 0.88gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 55.2gydF4y2Ba 91.3gydF4y2Ba 0.59gydF4y2Ba 0.49gydF4y2Ba 0.73gydF4y2Ba
办公自动化gydF4y2Ba 78.5gydF4y2Ba
AAgydF4y2Ba 77.6gydF4y2Ba

25个pdbgydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 94.4gydF4y2Ba 96.4gydF4y2Ba 0.92gydF4y2Ba 0.90gydF4y2Ba 0.95gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 91.9gydF4y2Ba 97.2gydF4y2Ba 0.92gydF4y2Ba 0.89gydF4y2Ba 0.95gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 71.1gydF4y2Ba 95.7gydF4y2Ba 0.76gydF4y2Ba 0.70gydF4y2Ba 0.83gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 92.5gydF4y2Ba 95.2gydF4y2Ba 0.90gydF4y2Ba 0.86gydF4y2Ba 0.94gydF4y2Ba
办公自动化gydF4y2Ba 88.4gydF4y2Ba
AAgydF4y2Ba 87.5gydF4y2Ba

640年gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 83.3gydF4y2Ba 96.8gydF4y2Ba 0.86gydF4y2Ba 0.82gydF4y2Ba 0.90gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 83.1gydF4y2Ba 95.3gydF4y2Ba 0.84gydF4y2Ba 0.79gydF4y2Ba 0.89gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 83.0gydF4y2Ba 89.4gydF4y2Ba 0.79gydF4y2Ba 0.70gydF4y2Ba 0.86gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 60.2gydF4y2Ba 87.4gydF4y2Ba 0.62gydF4y2Ba 0.49gydF4y2Ba 0.74gydF4y2Ba
办公自动化gydF4y2Ba 77.0gydF4y2Ba
AAgydF4y2Ba 77.4gydF4y2Ba

我们建议的方法的流程图。gydF4y2Ba

3.1。我们的方法的预测性能gydF4y2Ba

整个蛋白质结构类预测精度(OA)以及预测精度对每个结构类通过使用三个序列的特征表示的组合模型,其中包括共识sequence-PSSM (CSP),分段PsePSSM,分段自协方差transformation-PSSM (ACP)。该预测方法与1189年(CSP-SegPseP-SegACP)检查,25 pdb,和640年的数据集通过重叠测试,我们报告Sens、规范,gydF4y2Ba FgydF4y2Ba 测量、MCC和AUC为每个结构类,办公自动化,以及AA。列在表gydF4y2Ba 2gydF4y2Ba依靠PSSM特征提取,我们达到78.5%,88.4%,和1189年的总体精度为77.0%,25 pdb,和640年基准数据集,分别平均精度(AA)也在77.0%以上三个数据集。1189年和640年的数据,通过比较四个结构类,Sens的价值观,规范,gydF4y2Ba FgydF4y2Ba 测量、MCC和AUC,gydF4y2Ba αgydF4y2Ba 类,,gydF4y2Ba βgydF4y2Ba 类,gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类分别明显优于那些gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类。然而,指的是25 pdb数据集,gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类为每个绩效指标获得性能优良;预测精度达到92.5%。为gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类,预测精度相对较低比其他的类。事实表明,仍有许多困难要克服在未来研究中,提高预测精度gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类和gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类。gydF4y2Ba

3.2。性能比较224年至700年的特性和功能gydF4y2Ba

为了克服信息冗余和维度灾难的影响支持向量机,得到特征向量的维数降低使用主成分分析从700年到224年。在本节中,我们报告的精度方法使用所有700个特性三个数据集,和我们仍然优化支持向量机参数gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 在1189的数据集,计算4和0.70711,分别。结果如图所示gydF4y2Ba 2gydF4y2Ba。1189年和640年的总体精度数据集通过使用224特性都比那些获得通过使用700特性,虽然精度是0.2%低于700 d。事实也充分表明,确实存在冗余SVM和PCA能保留最主要的信息用一个正交变换,同时节省计算时间。gydF4y2Ba

之间的精度比较我们的方法,其中包括224年的特性和方法,包括700个特性。gydF4y2Ba

3.3。功能组的性能分析gydF4y2Ba

调查功能组的贡献在蛋白质结构类预测的准确性,首先,我们计算每个功能组一个接一个的1189数据集;结果如表所示gydF4y2Ba 3gydF4y2Ba。从表gydF4y2Ba 3gydF4y2Ba,我们可以很容易地发现集团SegPseP最好的功能,第二个是segACP,最后一个是CSP。此外,每个特性的组合,我们计算每个组合群特性的三个数据集。从表中我们可以看出gydF4y2Ba 4gydF4y2Ba,每个功能组最终预测精度作出了特殊的贡献。因此,我们可以总结功能组SegPseP最优和扮演主导的角色在提高蛋白质结构类预测精度,特别是25 pdb数据集。再次,它说明了特征选择在这个研究是必要的一步。gydF4y2Ba

我们的六个功能组的性能比较1189数据集。gydF4y2Ba

数据集gydF4y2Ba 特性gydF4y2Ba 预测精度(%)gydF4y2Ba
所有- - -gydF4y2Ba αgydF4y2Ba 所有- - -gydF4y2Ba βgydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba OA (%)gydF4y2Ba
1189年gydF4y2Ba CSAAC-PSSM (20 d)gydF4y2Ba 72.7gydF4y2Ba 76.2gydF4y2Ba 78.7gydF4y2Ba 26.1gydF4y2Ba 65.2gydF4y2Ba
CSCM-PSSM (20 d)gydF4y2Ba 69.1gydF4y2Ba 76.9gydF4y2Ba 82.0gydF4y2Ba 29.9gydF4y2Ba 66.5gydF4y2Ba
Seg2-PsePSSM (200 d)gydF4y2Ba 80.7gydF4y2Ba 82.7gydF4y2Ba 80.8gydF4y2Ba 51.0gydF4y2Ba 74.7gydF4y2Ba
Seg3-PsePSSM (180 d)gydF4y2Ba 79.8gydF4y2Ba 80.6gydF4y2Ba 81.4gydF4y2Ba 48.1gydF4y2Ba 73.5gydF4y2Ba
Seg2-ACPSSM (160 d)gydF4y2Ba 76.7gydF4y2Ba 82.3gydF4y2Ba 76.0gydF4y2Ba 44.4gydF4y2Ba 70.9gydF4y2Ba
Seg3-ACPSSM (120 d)gydF4y2Ba 69.1gydF4y2Ba 77.6gydF4y2Ba 78.4gydF4y2Ba 38.6gydF4y2Ba 67.5gydF4y2Ba

每个功能组的贡献的总体精度(%)。gydF4y2Ba

功能组的组合gydF4y2Ba 维gydF4y2Ba 1189年gydF4y2Ba 25个pdbgydF4y2Ba 640年gydF4y2Ba
CSAACPgydF4y2Ba 20.gydF4y2Ba 65.2gydF4y2Ba 62.0gydF4y2Ba 66.0gydF4y2Ba
CSAACP +协会(CSP)gydF4y2Ba 40gydF4y2Ba 66.5gydF4y2Ba 63.1gydF4y2Ba 64.7gydF4y2Ba
CSP + Seg2-PsePgydF4y2Ba 240年gydF4y2Ba 75.2gydF4y2Ba 74.4gydF4y2Ba 75.8gydF4y2Ba
CSP + Seg2-PseP + Seg3-PsePgydF4y2Ba 420年gydF4y2Ba 76.2gydF4y2Ba 87.7gydF4y2Ba 74.5gydF4y2Ba
CSP + SegPseP + seg2-ACPgydF4y2Ba 680年gydF4y2Ba 76.1gydF4y2Ba 87.9gydF4y2Ba 75.0gydF4y2Ba
CSP + SegPseP + seg2-ACP + seg3-ACPgydF4y2Ba 700年gydF4y2Ba 77.1gydF4y2Ba 88.6gydF4y2Ba 75.5gydF4y2Ba
CSP + SegPseP + SegACP-PCAgydF4y2Ba 224年gydF4y2Ba 78.5gydF4y2Ba 88.4gydF4y2Ba 77.0gydF4y2Ba

3.4。与其他方法的性能比较gydF4y2Ba

在本节中,为了证明我们的方法的优越性;CSP-SegPseP-SegACP进一步与其他最近报道预测方法在相同的数据集。我们选择每个类和整体精度的准确性作为评价指标,总结在表gydF4y2Ba 5gydF4y2Ba。等方法包括其他竞争PSSM-based方法相比PSSM-S [gydF4y2Ba 36gydF4y2Ba],LCC-PSSM [gydF4y2Ba 25gydF4y2Ba],MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba],RPSSM [gydF4y2Ba 34gydF4y2Ba],AADP-PSSM [gydF4y2Ba 15gydF4y2Ba],AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba],AATP [gydF4y2Ba 33gydF4y2Ba],PsePSSM [gydF4y2Ba 41gydF4y2Ba夏,et al。gydF4y2Ba 42gydF4y2Ba],MEDP [gydF4y2Ba 35gydF4y2Ba),这是最近报道蛋白质结构类预测方法基于进化信息PSSM的形式表示。MBMGAC-PSSM是我们的其他方法,融合三个自相关描述符和PSSM。从PSSS-PSSM RPSSM和PsePSSM的子gydF4y2Ba 34gydF4y2Ba]和PSSS-PsePSSM [gydF4y2Ba 41gydF4y2Ba),分别。gydF4y2Ba

不同的方法在三个数据集的性能比较。gydF4y2Ba

数据集gydF4y2Ba 方法gydF4y2Ba 预测精度(%)gydF4y2Ba
所有- - -gydF4y2Ba αgydF4y2Ba 所有- - -gydF4y2Ba βgydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba OA (%)gydF4y2Ba
1189年gydF4y2Ba PSSM-S [gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba 93.3gydF4y2Ba 85.1gydF4y2Ba 77.6gydF4y2Ba 65.6gydF4y2Ba 80.2gydF4y2Ba
LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba 89.2gydF4y2Ba 88.8gydF4y2Ba 85.6gydF4y2Ba 58.5gydF4y2Ba 81.2gydF4y2Ba
MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba 79.8gydF4y2Ba 85.0gydF4y2Ba 84.7gydF4y2Ba 50.6gydF4y2Ba 76.3gydF4y2Ba
RPSSM [gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba 67.7gydF4y2Ba 75.2gydF4y2Ba 74.6gydF4y2Ba 17.4gydF4y2Ba 60.2gydF4y2Ba
AADP-PSSM [gydF4y2Ba 15gydF4y2Ba]gydF4y2Ba 69.1gydF4y2Ba 83.7gydF4y2Ba 85.6gydF4y2Ba 35.7gydF4y2Ba 70.7gydF4y2Ba
AATP [gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba 72.7gydF4y2Ba 85.4gydF4y2Ba 82.9gydF4y2Ba 42.7gydF4y2Ba 72.6gydF4y2Ba
MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba 85.2gydF4y2Ba 84.0gydF4y2Ba 84.3gydF4y2Ba 45.2gydF4y2Ba 75.8gydF4y2Ba
PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba 82.0gydF4y2Ba 82.3gydF4y2Ba 84.1gydF4y2Ba 44.0gydF4y2Ba 74.4gydF4y2Ba
AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba]gydF4y2Ba 80.7gydF4y2Ba 86.4gydF4y2Ba 81.4gydF4y2Ba 45.2gydF4y2Ba 74.6gydF4y2Ba
这篇论文gydF4y2Ba 84.8gydF4y2Ba 85.4gydF4y2Ba 85.0gydF4y2Ba 55.2gydF4y2Ba 78.5gydF4y2Ba

25个pdbgydF4y2Ba PSSM-S [gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba 93.8gydF4y2Ba 92.8gydF4y2Ba 92.6gydF4y2Ba 81.7gydF4y2Ba 90.1gydF4y2Ba
LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba 91.7gydF4y2Ba 80.8gydF4y2Ba 79.8gydF4y2Ba 64.0gydF4y2Ba 79.0gydF4y2Ba
MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba 86.7gydF4y2Ba 81.5gydF4y2Ba 79.5gydF4y2Ba 61.7gydF4y2Ba 77.2gydF4y2Ba
RPSSM [gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba 75.6gydF4y2Ba 70.2gydF4y2Ba 52.0gydF4y2Ba 43.3gydF4y2Ba 60.8gydF4y2Ba
AADP-PSSM [gydF4y2Ba 15gydF4y2Ba]gydF4y2Ba 83.3gydF4y2Ba 78.1gydF4y2Ba 76.3gydF4y2Ba 54.4gydF4y2Ba 72.9gydF4y2Ba
AATP [gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba 81.9gydF4y2Ba 74.7gydF4y2Ba 75.1gydF4y2Ba 55.8gydF4y2Ba 71.7gydF4y2Ba
MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba 87.8gydF4y2Ba 78.3gydF4y2Ba 76.0gydF4y2Ba 57.4gydF4y2Ba 74.8gydF4y2Ba
AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba]gydF4y2Ba 85.3gydF4y2Ba 81.7gydF4y2Ba 73.7gydF4y2Ba 55.3gydF4y2Ba 74.1gydF4y2Ba
PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba 86.2gydF4y2Ba 78.8gydF4y2Ba 75.7gydF4y2Ba 57.6gydF4y2Ba 75.5gydF4y2Ba
夏et al。gydF4y2Ba 42gydF4y2Ba]gydF4y2Ba 92.6gydF4y2Ba 72.5gydF4y2Ba 71.7gydF4y2Ba 71.0gydF4y2Ba 77.2gydF4y2Ba
这篇论文gydF4y2Ba 94.4gydF4y2Ba 91.9gydF4y2Ba 71.1gydF4y2Ba 92.5gydF4y2Ba 88.4gydF4y2Ba

640年gydF4y2Ba LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba 92.8gydF4y2Ba 88.3gydF4y2Ba 85.9gydF4y2Ba 66.1gydF4y2Ba 82.7gydF4y2Ba
MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba 86.2gydF4y2Ba 83.1gydF4y2Ba 85.3gydF4y2Ba 63.2gydF4y2Ba 79.1gydF4y2Ba
MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba 84.8gydF4y2Ba 75.3gydF4y2Ba 86.4gydF4y2Ba 53.8gydF4y2Ba 74.7gydF4y2Ba
PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba 73.9gydF4y2Ba 76.6gydF4y2Ba 85.3gydF4y2Ba 51.5gydF4y2Ba 71.7gydF4y2Ba
这篇论文gydF4y2Ba 83.3gydF4y2Ba 83.1gydF4y2Ba 83.0gydF4y2Ba 60.2gydF4y2Ba 77.0gydF4y2Ba

列在表gydF4y2Ba 5gydF4y2Ba,在这些PSSM-based方法,我们的方法达到1189年竞争力的总体预测精度,25 pdb,和640年的数据集。1189数据集,总体精度分别为2.7%和1.7%低于前两个性能LCC-PSSM和PSSM-S方法获得的结果。然而,1189年的总体精度数据集的精度优于其他七PSSM-based方法。25 pdb数据集,OA只有1.7%低于先前的表现最好的结果由PSSM-S计算方法。其他九PSSM-based方法,我们的方法达到最高的总体预测精度提高9.4 - -27.6%。指的是gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类,我们的方法达到最高的结果和精度达到92.5%。640数据集,虽然OA低于LCC-PSSM MBMGAC-PSSM,我们的方法仍然获得满意的结果。事实充分表明,我们建议的方法成功提取隐藏在PSSM的信息。gydF4y2Ba

4所示。结论gydF4y2Ba

本文的主要贡献是建立一个700维的特征向量的三个描述符:共识序列——(CS) PSSM PsePSSM,基于分段PSSM自协方差变换(ACT)。而CS-PSSM反映了全球信息、分段PsePSSM和分段法代表当地的序列号信息。224通过使用PCA特征选择。SVM分类器和重叠测试是用来预测和评估方法三个基准数据集:1189年,25个pdb,和640年的数据集,使用序列相似度低于40%,25%,和25%,分别。实验表明,我们的方法可以作为一个可靠的工具和一个很好的替代方案的准确预测蛋白质结构类low-similarity数据集。我们应当努力未来任务提供一个公共可访问的web方法。代码是用MATLAB语言编写的,可以下载gydF4y2Ba http://web.xidian.edu.cn/slzhang/paper.htmlgydF4y2Ba。gydF4y2Ba

利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

作者要感谢匿名评论者对他们有用的评论我们的论文。这项工作得到了国家自然科学基金(61373174和61373174号),中央大学基础研究基金(没有。JB140703),陕西省自然科学基础研究计划(没有。2015 jq1010)。gydF4y2Ba

AnfinsengydF4y2Ba c . B。gydF4y2Ba 原则,控制蛋白质的折叠链gydF4y2Ba 科学gydF4y2Ba 1973年gydF4y2Ba 181年gydF4y2Ba 4096年gydF4y2Ba 223年gydF4y2Ba 230年gydF4y2Ba 10.1126 / science.181.4096.223gydF4y2Ba 2 - s2.0 - 0015859467gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 张gydF4y2Ba C.-T。gydF4y2Ba 预测蛋白质结构类gydF4y2Ba 生物化学和分子生物学的关键评论gydF4y2Ba 1995年gydF4y2Ba 30.gydF4y2Ba 4gydF4y2Ba 275年gydF4y2Ba 349年gydF4y2Ba 10.3109 / 10409239509083488gydF4y2Ba 2 - s2.0 - 0029157083gydF4y2Ba BahargydF4y2Ba 我。gydF4y2Ba AtilgangydF4y2Ba a。R。gydF4y2Ba JernigangydF4y2Ba r . L。gydF4y2Ba 厄尔曼gydF4y2Ba B。gydF4y2Ba 理解识别由氨基酸组成的蛋白质结构类gydF4y2Ba 蛋白质gydF4y2Ba 1997年gydF4y2Ba 29日gydF4y2Ba 2gydF4y2Ba 172年gydF4y2Ba 185年gydF4y2Ba 2 - s2.0 - 0030955263gydF4y2Ba 莱维特gydF4y2Ba M。gydF4y2Ba ChothiagydF4y2Ba C。gydF4y2Ba 在球状蛋白结构模式gydF4y2Ba 自然gydF4y2Ba 1976年gydF4y2Ba 261年gydF4y2Ba 5561年gydF4y2Ba 552年gydF4y2Ba 558年gydF4y2Ba 10.1038 / 261552 a0gydF4y2Ba 2 - s2.0 - 0017309766gydF4y2Ba 周gydF4y2Ba G.-P。gydF4y2Ba 一个有趣的争论预测蛋白质结构类gydF4y2Ba 蛋白质化学杂志gydF4y2Ba 1998年gydF4y2Ba 17gydF4y2Ba 8gydF4y2Ba 729年gydF4y2Ba 738年gydF4y2Ba 10.1023 /:1020713915365gydF4y2Ba 2 - s2.0 - 54749084166gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 测定蛋白质结构类的关键驱动力gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 1999年gydF4y2Ba 264年gydF4y2Ba 1gydF4y2Ba 216年gydF4y2Ba 224年gydF4y2Ba 10.1006 / bbrc.1999.1325gydF4y2Ba 2 - s2.0 - 0033554601gydF4y2Ba 蔡gydF4y2Ba Y.-D。gydF4y2Ba 周gydF4y2Ba G.-P。gydF4y2Ba 通过神经网络预测蛋白质结构类gydF4y2Ba BiochimiegydF4y2Ba 2000年gydF4y2Ba 82年gydF4y2Ba 8gydF4y2Ba 783年gydF4y2Ba 785年gydF4y2Ba 10.1016 / s0300 - 9084 (00) 01161 - 5gydF4y2Ba 2 - s2.0 - 0033809190gydF4y2Ba 蔡gydF4y2Ba Y.-D。gydF4y2Ba 刘gydF4y2Ba X.-J。gydF4y2Ba 徐gydF4y2Ba X.-B。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 预测蛋白质结构类的支持向量机gydF4y2Ba 电脑和化学gydF4y2Ba 2002年gydF4y2Ba 26gydF4y2Ba 3gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba 10.1016 / s0097 - 8485 (01) 00113 - 9gydF4y2Ba 2 - s2.0 - 0036007085gydF4y2Ba 张gydF4y2Ba T.-L。gydF4y2Ba 丁gydF4y2Ba Y.-S。gydF4y2Ba 使用伪氨基酸组成和二叉树支持向量机来预测蛋白质结构类gydF4y2Ba 氨基酸gydF4y2Ba 2007年gydF4y2Ba 33gydF4y2Ba 4gydF4y2Ba 623年gydF4y2Ba 629年gydF4y2Ba 10.1007 / s00726 - 007 - 0496 - 1gydF4y2Ba 2 - s2.0 - 36448935288gydF4y2Ba 肖gydF4y2Ba X。gydF4y2Ba 邵gydF4y2Ba 工程学系。gydF4y2Ba 黄gydF4y2Ba Z.-D。E。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 使用伪氨基酸组成来预测蛋白质结构类:接近与复杂性衡量因素gydF4y2Ba 计算化学杂志gydF4y2Ba 2006年gydF4y2Ba 27gydF4y2Ba 4gydF4y2Ba 478年gydF4y2Ba 482年gydF4y2Ba 10.1002 / jcc.20354gydF4y2Ba 2 - s2.0 - 33644889341gydF4y2Ba 张gydF4y2Ba T.-L。gydF4y2Ba 丁gydF4y2Ba Y.-S。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 预测蛋白质结构与pseudo-amino酸类成分:近似熵和疏水性的模式gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2008年gydF4y2Ba 250年gydF4y2Ba 1gydF4y2Ba 186年gydF4y2Ba 193年gydF4y2Ba 10.1016 / j.jtbi.2007.09.014gydF4y2Ba MR2930213gydF4y2Ba 2 - s2.0 - 36348994911gydF4y2Ba 罗gydF4y2Ba R.-Y。gydF4y2Ba 冯gydF4y2Ba Z.-P。gydF4y2Ba 刘gydF4y2Ba j。gydF4y2Ba 预测蛋白质结构类的氨基酸和多肽成分gydF4y2Ba 欧洲生物化学杂志gydF4y2Ba 2002年gydF4y2Ba 269年gydF4y2Ba 17gydF4y2Ba 4219年gydF4y2Ba 4225年gydF4y2Ba 10.1046 / j.1432-1033.2002.03115.xgydF4y2Ba 2 - s2.0 - 0036051172gydF4y2Ba 太阳gydF4y2Ba X.-D。gydF4y2Ba 黄gydF4y2Ba R.-B。gydF4y2Ba 使用支持向量机预测蛋白质结构类gydF4y2Ba 氨基酸gydF4y2Ba 2006年gydF4y2Ba 30.gydF4y2Ba 4gydF4y2Ba 469年gydF4y2Ba 475年gydF4y2Ba 10.1007 / s00726 - 005 - 0239 - 0gydF4y2Ba 2 - s2.0 - 33745093400gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 蔡gydF4y2Ba Y.-D。gydF4y2Ba 预测蛋白质结构类的功能域组成gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 2004年gydF4y2Ba 321年gydF4y2Ba 4gydF4y2Ba 1007年gydF4y2Ba 1009年gydF4y2Ba 10.1016 / j.bbrc.2004.07.059gydF4y2Ba 2 - s2.0 - 3843117638gydF4y2Ba 刘gydF4y2Ba t·G。gydF4y2Ba 郑gydF4y2Ba x Q。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 预测蛋白质结构类low-similarity序列使用支持向量机和PSI-BLAST概要文件gydF4y2Ba BiochimiegydF4y2Ba 2010年gydF4y2Ba 92年gydF4y2Ba 10gydF4y2Ba 1330年gydF4y2Ba 1334年gydF4y2Ba 10.1016 / j.biochi.2010.06.013gydF4y2Ba 2 - s2.0 - 77957124553gydF4y2Ba 姚gydF4y2Ba 中州。gydF4y2Ba 史gydF4y2Ba Z.-X。gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 细胞凋亡蛋白质亚细胞定位预测基于position-specific评分矩阵gydF4y2Ba 计算和理论纳米科学杂志》上gydF4y2Ba 2014年gydF4y2Ba 11gydF4y2Ba 10gydF4y2Ba 2073年gydF4y2Ba 2078年gydF4y2Ba 10.1166 / jctn.2014.3607gydF4y2Ba 2 - s2.0 - 84906751939gydF4y2Ba 刘gydF4y2Ba t·G。gydF4y2Ba 耿gydF4y2Ba x B。gydF4y2Ba 郑gydF4y2Ba x Q。gydF4y2Ba 李gydF4y2Ba r S。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 准确预测蛋白质结构类使用汽车协方差PSI-BLAST转换配置文件gydF4y2Ba 氨基酸gydF4y2Ba 2012年gydF4y2Ba 42gydF4y2Ba 6gydF4y2Ba 2243年gydF4y2Ba 2249年gydF4y2Ba 10.1007 / s00726 - 011 - 0964 - 5gydF4y2Ba 2 - s2.0 - 84862763274gydF4y2Ba 沈gydF4y2Ba H.-B。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba NUC-PLOC:一个新的web -预测蛋白质的亚核的融合PseAA成分和PsePSSM本地化gydF4y2Ba 蛋白质工程、设计和选择gydF4y2Ba 2007年gydF4y2Ba 20.gydF4y2Ba 11gydF4y2Ba 561年gydF4y2Ba 567年gydF4y2Ba 10.1093 /蛋白质/ gzm057gydF4y2Ba 2 - s2.0 - 36448952353gydF4y2Ba 风扇gydF4y2Ba G.-L。gydF4y2Ba 李gydF4y2Ba Q.-Z。gydF4y2Ba 预测蛋白质submitochondria位置周通过结合不同的描述符的一般形式的伪氨基酸组成gydF4y2Ba 氨基酸gydF4y2Ba 2012年gydF4y2Ba 43gydF4y2Ba 2gydF4y2Ba 545年gydF4y2Ba 555年gydF4y2Ba 10.1007 / s00726 - 011 - 1143 - 4gydF4y2Ba 刘gydF4y2Ba T。gydF4y2Ba 贾gydF4y2Ba C。gydF4y2Ba 一种高精度的蛋白质结构类使用预测二级结构信息预测算法gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2010年gydF4y2Ba 267年gydF4y2Ba 3gydF4y2Ba 272年gydF4y2Ba 275年gydF4y2Ba 10.1016 / j.jtbi.2010.09.007gydF4y2Ba 2 - s2.0 - 77956623830gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 丁gydF4y2Ba s Y。gydF4y2Ba 王gydF4y2Ba t M。gydF4y2Ba 高精度的预测蛋白质结构类low-similarity序列基于预测二级结构gydF4y2Ba BiochimiegydF4y2Ba 2011年gydF4y2Ba 93年gydF4y2Ba 4gydF4y2Ba 710年gydF4y2Ba 714年gydF4y2Ba 10.1016 / j.biochi.2011.01.001gydF4y2Ba 2 - s2.0 - 79952451732gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 刘gydF4y2Ba x Q。gydF4y2Ba 姚gydF4y2Ba y . H。gydF4y2Ba 曹gydF4y2Ba y G。gydF4y2Ba 他gydF4y2Ba p·G。gydF4y2Ba 比较研究的统计特性预测蛋白质结构类预测二级结构:从内容到位置gydF4y2Ba BMC生物信息学gydF4y2Ba 2013年gydF4y2Ba 14日,第152条gydF4y2Ba 10.1186 / 1471-2105-14-152gydF4y2Ba 2 - s2.0 - 84876972087gydF4y2Ba 李gydF4y2Ba Z.-C。gydF4y2Ba 周gydF4y2Ba X.-B。gydF4y2Ba 戴gydF4y2Ba Z。gydF4y2Ba 邹gydF4y2Ba X.-Y。gydF4y2Ba 预测蛋白质结构类周的伪氨基酸组成:接近使用连续小波变换和主成分分析gydF4y2Ba 氨基酸gydF4y2Ba 2009年gydF4y2Ba 37gydF4y2Ba 2gydF4y2Ba 415年gydF4y2Ba 425年gydF4y2Ba 10.1007 / s00726 - 008 - 0170 - 2gydF4y2Ba 2 - s2.0 - 67650739405gydF4y2Ba 李gydF4y2Ba lgydF4y2Ba 崔gydF4y2Ba X。gydF4y2Ba 余gydF4y2Ba 年代。gydF4y2Ba 张gydF4y2Ba Y。gydF4y2Ba 罗gydF4y2Ba Z。gydF4y2Ba 杨gydF4y2Ba H。gydF4y2Ba 周gydF4y2Ba Y。gydF4y2Ba 郑gydF4y2Ba X。gydF4y2Ba PSSP-RFE:准确预测蛋白质结构类由PSI-BLAST递归特征提取档案,理化性质和功能注释gydF4y2Ba 《公共科学图书馆•综合》gydF4y2Ba 2014年gydF4y2Ba 9gydF4y2Ba 3gydF4y2Ba e92863gydF4y2Ba 10.1371 / journal.pone.0092863gydF4y2Ba 2 - s2.0 - 84899820916gydF4y2Ba 丁gydF4y2Ba s Y。gydF4y2Ba 杨ydF4y2Ba 美国J。gydF4y2Ba 气gydF4y2Ba s . H。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 姚gydF4y2Ba y . H。gydF4y2Ba 蛋白质结构类预测方法基于PSI-BLAST概要文件gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 353年gydF4y2Ba 19gydF4y2Ba 23gydF4y2Ba 10.1016 / j.jtbi.2014.02.034gydF4y2Ba 2 - s2.0 - 84897858145gydF4y2Ba 蔡gydF4y2Ba Y.-D。gydF4y2Ba 周gydF4y2Ba G.-P。gydF4y2Ba 通过神经网络预测蛋白质结构类gydF4y2Ba BiochimiegydF4y2Ba 2000年gydF4y2Ba 82年gydF4y2Ba 8gydF4y2Ba 783年gydF4y2Ba 785年gydF4y2Ba 10.1016 / s0300 - 9084 (00) 01161 - 5gydF4y2Ba 2 - s2.0 - 0033809190gydF4y2Ba 陈gydF4y2Ba C。gydF4y2Ba 田gydF4y2Ba y。gydF4y2Ba 邹gydF4y2Ba X.-Y。gydF4y2Ba 蔡gydF4y2Ba P.-X。gydF4y2Ba 莫gydF4y2Ba J.-Y。gydF4y2Ba 使用pseudo-amino酸成分和支持向量机来预测蛋白质结构类gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2006年gydF4y2Ba 243年gydF4y2Ba 3gydF4y2Ba 444年gydF4y2Ba 448年gydF4y2Ba 10.1016 / j.jtbi.2006.06.025gydF4y2Ba MR2280047gydF4y2Ba 2 - s2.0 - 33750475941gydF4y2Ba 蔡gydF4y2Ba Y.-D。gydF4y2Ba 刘gydF4y2Ba X.-J。gydF4y2Ba 徐gydF4y2Ba X.-B。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 预测蛋白质结构类的支持向量机gydF4y2Ba 电脑和化学gydF4y2Ba 2002年gydF4y2Ba 26gydF4y2Ba 3gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba 10.1016 / s0097 - 8485 (01) 00113 - 9gydF4y2Ba 2 - s2.0 - 0036007085gydF4y2Ba 沈gydF4y2Ba H.-B。gydF4y2Ba 杨gydF4y2Ba J。gydF4y2Ba 刘gydF4y2Ba X.-J。gydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 使用监督模糊聚类预测蛋白质结构类gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 2005年gydF4y2Ba 334年gydF4y2Ba 2gydF4y2Ba 577年gydF4y2Ba 581年gydF4y2Ba 10.1016 / j.bbrc.2005.06.128gydF4y2Ba 2 - s2.0 - 22144498433gydF4y2Ba 王gydF4y2Ba Z.-X。gydF4y2Ba 元gydF4y2Ba Z。gydF4y2Ba 多好是由component-coupled预测蛋白质结构类的方法?gydF4y2Ba 蛋白质gydF4y2Ba 2000年gydF4y2Ba 38gydF4y2Ba 2gydF4y2Ba 165年gydF4y2Ba 175年gydF4y2Ba 10.1002 / (sici) 1097 - 0134 (20000201) 38:260; 165:: aid-prot562; 3.0.co; 2 vgydF4y2Ba 2 - s2.0 - 0034141493gydF4y2Ba 曹gydF4y2Ba y F。gydF4y2Ba 刘gydF4y2Ba 年代。gydF4y2Ba 张gydF4y2Ba l D。gydF4y2Ba 秦gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 唐gydF4y2Ba k . X。gydF4y2Ba 预测蛋白质结构类与粗糙集gydF4y2Ba BMC生物信息学gydF4y2Ba 2006年gydF4y2Ba 7日,第二十条gydF4y2Ba 10.1186 / 1471-2105-7-20gydF4y2Ba 2 - s2.0 - 32644441676gydF4y2Ba AltschulgydF4y2Ba 美国F。gydF4y2Ba 马登gydF4y2Ba t . L。gydF4y2Ba 谢弗gydF4y2Ba 答:一个。gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba 米勒gydF4y2Ba W。gydF4y2Ba LipmangydF4y2Ba d . J。gydF4y2Ba 有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序gydF4y2Ba 核酸的研究gydF4y2Ba 1997年gydF4y2Ba 25gydF4y2Ba 17gydF4y2Ba 3389年gydF4y2Ba 3402年gydF4y2Ba 10.1093 / nar / 25.17.3389gydF4y2Ba 2 - s2.0 - 0030801002gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 叶gydF4y2Ba F。gydF4y2Ba 元gydF4y2Ba x G。gydF4y2Ba 利用主成分分析和支持向量机来预测蛋白质结构类通过PSSM low-similarity序列gydF4y2Ba 生物分子结构和动力学杂志》上gydF4y2Ba 2012年gydF4y2Ba 29日gydF4y2Ba 6gydF4y2Ba 634年gydF4y2Ba 642年gydF4y2Ba 2 - s2.0 - 84865383117gydF4y2Ba 丁gydF4y2Ba s Y。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 史gydF4y2Ba z . X。gydF4y2Ba 杨ydF4y2Ba 美国J。gydF4y2Ba 基于蛋白质结构类预测方法预测二级结构和PSI-BLAST概要文件gydF4y2Ba BiochimiegydF4y2Ba 2014年gydF4y2Ba 97年gydF4y2Ba 1gydF4y2Ba 60gydF4y2Ba 65年gydF4y2Ba 10.1016 / j.biochi.2013.09.013gydF4y2Ba 2 - s2.0 - 84891890146gydF4y2Ba 张gydF4y2Ba l . C。gydF4y2Ba 赵gydF4y2Ba x Q。gydF4y2Ba 香港gydF4y2Ba lgydF4y2Ba 预测蛋白质结构类low-similarity序列的进化差异信息周的一般形式的伪氨基酸组成gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 355年gydF4y2Ba 105年gydF4y2Ba 110年gydF4y2Ba 10.1016 / j.jtbi.2014.04.008gydF4y2Ba 2 - s2.0 - 84899031689gydF4y2Ba DehzangigydF4y2Ba 一个。gydF4y2Ba PaliwalgydF4y2Ba K。gydF4y2Ba 里昂gydF4y2Ba J。gydF4y2Ba 沙玛gydF4y2Ba 一个。gydF4y2Ba SattargydF4y2Ba 一个。gydF4y2Ba 探索潜在的歧视信息嵌入在PSSM提高蛋白质结构类预测精度gydF4y2Ba 模式识别在生物信息学gydF4y2Ba 2013年gydF4y2Ba 7986年gydF4y2Ba 柏林,德国gydF4y2Ba 施普林格gydF4y2Ba 208年gydF4y2Ba 219年gydF4y2Ba 在计算机科学的课堂讲稿gydF4y2Ba 10.1007 / 978 - 3 - 642 - 39159 - 0 - _19gydF4y2Ba 荒原gydF4y2Ba 年代。gydF4y2Ba 琼森gydF4y2Ba J。gydF4y2Ba SjorstromgydF4y2Ba M。gydF4y2Ba 桑德伯格gydF4y2Ba M。gydF4y2Ba RannargydF4y2Ba 年代。gydF4y2Ba DNA和肽序列和化学过程多变量模型通过主成分分析和偏最小二乘预测潜在的结构gydF4y2Ba 分析Chimica学报gydF4y2Ba 1993年gydF4y2Ba 277年gydF4y2Ba 2gydF4y2Ba 239年gydF4y2Ba 253年gydF4y2Ba 10.1016 / 0003 - 2670 (93)80437 - pgydF4y2Ba 2 - s2.0 - 0027215340gydF4y2Ba 余gydF4y2Ba y Z。gydF4y2Ba 郭gydF4y2Ba y Z。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba 李gydF4y2Ba y Z。gydF4y2Ba 李gydF4y2Ba m . L。gydF4y2Ba 李gydF4y2Ba g . B。gydF4y2Ba 熊gydF4y2Ba w·J。gydF4y2Ba 秦gydF4y2Ba w . L。gydF4y2Ba SecretP:哺乳动物分泌的蛋白质预测的新方法gydF4y2Ba 肽gydF4y2Ba 2010年gydF4y2Ba 31日gydF4y2Ba 4gydF4y2Ba 574年gydF4y2Ba 578年gydF4y2Ba 10.1016 / j.peptides.2009.12.026gydF4y2Ba 越南盾gydF4y2Ba Q。gydF4y2Ba 周gydF4y2Ba 年代。gydF4y2Ba 关gydF4y2Ba J。gydF4y2Ba 一个新的taxonomy-based蛋白质折叠识别方法基于autocross-covariance转换gydF4y2Ba 生物信息学gydF4y2Ba 2009年gydF4y2Ba 25gydF4y2Ba 20.gydF4y2Ba 2655年gydF4y2Ba 2662年gydF4y2Ba 10.1093 /生物信息学/ btp500gydF4y2Ba 2 - s2.0 - 70349985248gydF4y2Ba 梁gydF4y2Ba Y Y。gydF4y2Ba 刘gydF4y2Ba s Y。gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 预测蛋白质结构类基于不同的自相关描述符position-specific评分矩阵gydF4y2Ba 匹配:通信在数学和计算机化学gydF4y2Ba 2015年gydF4y2Ba 73年gydF4y2Ba 3gydF4y2Ba 765年gydF4y2Ba 784年gydF4y2Ba MR3364714gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 准确预测蛋白质结构类,通过融合pss和PSSM到周的PseAAC将军gydF4y2Ba 化学计量学和智能实验室系统gydF4y2Ba 2015年gydF4y2Ba 142年gydF4y2Ba 28gydF4y2Ba 35gydF4y2Ba 10.1016 / j.chemolab.2015.01.004gydF4y2Ba 2 - s2.0 - 84922676172gydF4y2Ba 夏gydF4y2Ba X.-Y。gydF4y2Ba 通用电气gydF4y2Ba M。gydF4y2Ba 王gydF4y2Ba Z.-X。gydF4y2Ba 锅gydF4y2Ba X.-M。gydF4y2Ba 准确预测蛋白质结构类gydF4y2Ba 《公共科学图书馆•综合》gydF4y2Ba 2012年gydF4y2Ba 7gydF4y2Ba 6gydF4y2Ba e37653gydF4y2Ba 10.1371 / journal.pone.0037653gydF4y2Ba 2 - s2.0 - 84862521440gydF4y2Ba 坟头gydF4y2Ba l。gydF4y2Ba HomaeiangydF4y2Ba lgydF4y2Ba 预测蛋白质结构类序列和domains-Impact预测算法,序列表示和同源性,精度和测试程序gydF4y2Ba 模式识别gydF4y2Ba 2006年gydF4y2Ba 39gydF4y2Ba 12gydF4y2Ba 2323年gydF4y2Ba 2343年gydF4y2Ba 10.1016 / j.patcog.2006.02.014gydF4y2Ba ZBL1103.68767gydF4y2Ba 2 - s2.0 - 33748415440gydF4y2Ba 陈gydF4y2Ba k . E。gydF4y2Ba 坟头gydF4y2Ba l。gydF4y2Ba 阮gydF4y2Ba j·S。gydF4y2Ba 使用新颖的进化collocation-based序列预测蛋白质结构类表示gydF4y2Ba 计算化学杂志gydF4y2Ba 2008年gydF4y2Ba 29日gydF4y2Ba 10gydF4y2Ba 1596年gydF4y2Ba 1604年gydF4y2Ba 10.1002 / jcc.20918gydF4y2Ba 2 - s2.0 - 46449128812gydF4y2Ba PatthygydF4y2Ba lgydF4y2Ba 检测与共识序列远亲蛋白质的同源性gydF4y2Ba 分子生物学杂志gydF4y2Ba 1987年gydF4y2Ba 198年gydF4y2Ba 4gydF4y2Ba 567年gydF4y2Ba 577年gydF4y2Ba 10.1016 / 0022 - 2836 (87)90200 - 2gydF4y2Ba 2 - s2.0 - 0023576317gydF4y2Ba 杨gydF4y2Ba J.-Y。gydF4y2Ba 陈gydF4y2Ba X。gydF4y2Ba 改善taxonomy-based蛋白质折叠识别通过全球和地方特色gydF4y2Ba 蛋白质:结构、功能和生物信息学gydF4y2Ba 2011年gydF4y2Ba 79年gydF4y2Ba 7gydF4y2Ba 2053年gydF4y2Ba 2064年gydF4y2Ba 10.1002 / prot.23025gydF4y2Ba 2 - s2.0 - 79958772317gydF4y2Ba 坟头gydF4y2Ba lgydF4y2Ba 首席信息官gydF4y2Ba K。gydF4y2Ba 陈gydF4y2Ba K。gydF4y2Ba SCPRED:准确预测蛋白质结构类的模糊状态序列相似的预测序列gydF4y2Ba BMC生物信息学gydF4y2Ba 2008年gydF4y2Ba 9日,第226条gydF4y2Ba 10.1186 / 1471-2105-9-226gydF4y2Ba 2 - s2.0 - 44349134514gydF4y2Ba JollifegydF4y2Ba i T。gydF4y2Ba 主成分分析gydF4y2Ba 2002年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba VapnikgydF4y2Ba v . N。gydF4y2Ba 统计学习理论的本质gydF4y2Ba 1995年gydF4y2Ba 1日gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba 10.1007 / 978-1-4757-2440-0gydF4y2Ba MR1367965gydF4y2Ba 剑gydF4y2Ba g . Q。gydF4y2Ba 张gydF4y2Ba y S。gydF4y2Ba 钱gydF4y2Ba P P。gydF4y2Ba 细胞凋亡蛋白亚细胞定位预测:接近小说表示和支持向量机gydF4y2Ba 通信在数学和计算机化学相匹配gydF4y2Ba 2012年gydF4y2Ba 67年gydF4y2Ba 3gydF4y2Ba 867年gydF4y2Ba 878年gydF4y2Ba MR2964515gydF4y2Ba 常gydF4y2Ba c c。gydF4y2Ba 林gydF4y2Ba C.-J。gydF4y2Ba LIBSVM:支持向量机的库gydF4y2Ba ACM智能交易系统和技术gydF4y2Ba 2011年gydF4y2Ba 2gydF4y2Ba 3、第二十七条gydF4y2Ba 10.1145/1961189.1961199gydF4y2Ba http://www.csie.ntu.edu.tw/ ~ cjlin / libsvmgydF4y2Ba 周gydF4y2Ba K.-C。gydF4y2Ba 沈gydF4y2Ba H.-B。gydF4y2Ba 点评:最近进展蛋白质亚细胞定位预测gydF4y2Ba 分析生物化学gydF4y2Ba 2007年gydF4y2Ba 370年gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 16gydF4y2Ba 10.1016 / j.ab.2007.07.006gydF4y2Ba 2 - s2.0 - 34548606295gydF4y2Ba