raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

CMMMgydF4y2Ba

计算和数学方法在医学gydF4y2Ba

1748 - 6718gydF4y2Ba 1748 - 670 xgydF4y2Ba

Hindawi出版公司gydF4y2Ba

10.1155 / 2015/370756gydF4y2Ba

370756年gydF4y2Ba

研究文章gydF4y2Ba

预测蛋白质结构类基于共识序列和分段PSSM Low-Similarity序列gydF4y2Ba

梁gydF4y2Ba

YunyungydF4y2Ba

刘gydF4y2Ba

三阳gydF4y2Ba

张gydF4y2Ba

胜利gydF4y2Ba

KloczkowskigydF4y2Ba

AndrzejgydF4y2Ba

学校的数学和统计数据gydF4y2Ba

宁海西店大学gydF4y2Ba

西安710071年gydF4y2Ba

中国gydF4y2Ba

xidian.edu.cngydF4y2Ba

2015年gydF4y2Ba

15gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba

2015年gydF4y2Ba 31日gydF4y2Ba 08年gydF4y2Ba 2015年gydF4y2Ba 19gydF4y2Ba 11gydF4y2Ba 2015年gydF4y2Ba 01gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba 15gydF4y2Ba 12gydF4y2Ba 2015年gydF4y2Ba

2015年gydF4y2Ba

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

预测蛋白质结构类low-similarity序列是有用的对于理解折叠模式、监管、函数和蛋白质的相互作用。众所周知,特征提取是重要的预测蛋白质结构类和它主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。目前,预测仅仅基于PSSM发挥了关键作用在提高预测准确性。在本文中,我们提出一个新颖的方法称为CSP-SegPseP-SegACP融合共识序列(CS)、分段PsePSSM,分段自协方差变换基于PSSM (ACT)。三个广泛使用low-similarity数据集(25 pdb, 1189年和640年)采用。然后700 -维(700 d)特征向量构造和尺寸下降到224 d通过使用主成分分析(PCA)。来验证我们的方法的性能,严格的重叠交叉验证测试执行1189年25 pdb,和640年的数据集。比较我们的结果与现有PSSM-based方法表明,我们的方法达到良好的和竞争的性能。这将提供一个重要的补充其他PSSM-based方法预测蛋白质结构类low-similarity序列。gydF4y2Ba

1。介绍gydF4y2Ba

蛋白质结构类科学发挥关键作用的蛋白质,因为蛋白质的生物功能本质上与它的三级结构,是由其氨基酸序列按照蛋白质折叠的过程(gydF4y2Ba 1gydF4y2Ba]。结构类的知识被应用来减少可能的搜索空间构象的三级结构gydF4y2Ba 2gydF4y2Ba,gydF4y2Ba 3gydF4y2Ba];因此预测蛋白质结构类成为计算生物学的热点和具有挑战性的任务。蛋白质结构类的概念,提出了由莱维特和Chothia [gydF4y2Ba 4gydF4y2Ba),和一个给定的蛋白质主要可以分为四个结构类的内容和空间安排蛋白质的二级结构元素领域;他们都是- - - - - -gydF4y2Ba αgydF4y2Ba ,所有gydF4y2Ba βgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 。所有-gydF4y2Ba αgydF4y2Ba 和所有- - -gydF4y2Ba βgydF4y2Ba 蛋白质主要由螺旋链,分别。的gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 蛋白质混合螺旋和主要是平行链,和gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 蛋白质混合螺旋和反平行的线。gydF4y2Ba

在过去的二十年里,大量的统计学习算法被开发来解决这个问题。蛋白质结构类预测是一个典型的模式识别问题,这主要表现在三个步骤。第一步是特征提取,不同长度序列转换成相等长度特征向量。的方法包括氨基酸组成(AAC) [gydF4y2Ba 5gydF4y2Ba- - - - - -gydF4y2Ba 8gydF4y2Ba),pseudoamino酸成分(PseAAC) [gydF4y2Ba 9gydF4y2Ba- - - - - -gydF4y2Ba 11gydF4y2Ba],多肽成分[gydF4y2Ba 12gydF4y2Ba,gydF4y2Ba 13gydF4y2Ba)、功能域组成(gydF4y2Ba 14gydF4y2Ba),position-specific iterated-basic局部比对搜索工具(PSI-BLAST)概要gydF4y2Ba 15gydF4y2Ba- - - - - -gydF4y2Ba 17gydF4y2Ba),pseudo-position-specific得分矩阵(PsePSSM) [gydF4y2Ba 18gydF4y2Ba,gydF4y2Ba 19gydF4y2Ba),并预测蛋白质二级结构(gydF4y2Ba 20.gydF4y2Ba- - - - - -gydF4y2Ba 22gydF4y2Ba]。第二步是特征选择,包括主成分分析(PCA) (gydF4y2Ba 23gydF4y2Ba),支持向量machine-recursive特性消除(SVM-RFE) [gydF4y2Ba 24gydF4y2Ba),和包装器和过滤器gydF4y2Ba 25gydF4y2Ba]。最后一步是选择良好的分类算法。目前,该算法包含神经网络(gydF4y2Ba 26gydF4y2Ba),支持向量机(SVM) [gydF4y2Ba 27gydF4y2Ba,gydF4y2Ba 28gydF4y2Ba),模糊聚类(gydF4y2Ba 29日gydF4y2Ba),贝叶斯分类(gydF4y2Ba 30.gydF4y2Ba),粗糙集(gydF4y2Ba 31日gydF4y2Ba),gydF4y2Ba kgydF4y2Ba 最近的邻居(gydF4y2Ba 11gydF4y2Ba),等等。在三个步骤中,特征提取是最关键的步骤,本研究成功的改进的预测蛋白质结构类。gydF4y2Ba

目前,特征提取方法主要使用蛋白质一级序列,预测二级结构序列,和position-specific得分矩阵(PSSM)。Position-specific得分矩阵可以通过查询序列,可以对数据库搜索的蛋白质使用PSI-BLAST [gydF4y2Ba 32gydF4y2Ba),代表着进化信息。最近,PSSM吸引了更多的关注和其预测精度日益提高。AADP-PSSM [gydF4y2Ba 15gydF4y2Ba扩展了传统的二肽成分PSSM)方法。AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba结合自协方差和PSSM提取进化信息。AATP模型(gydF4y2Ba 33gydF4y2Ba从PSSM保险丝AAC和转移概率组成。在PSSS-PSSM [gydF4y2Ba 34gydF4y2Ba),预测二级结构信息是用来执行预测进化信息。在MEDP [gydF4y2Ba 35gydF4y2Ba),基于PSSM进化提出了差分公式。LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]从PSSM提取远程和线性相关信息。PSSM-S [gydF4y2Ba 36gydF4y2Ba)提取特征依赖PSSM并提出有效特征提取技术,基于氨基酸的分布和自协方差的概念。特征提取方法依靠position-specific得分矩阵(PSSM)扮演了非常重要的角色来解决分类问题。尽管一些现有的方法展示了优秀的性能,嵌入的信息PSSM尚未充分探讨;还有进一步提高的空间。gydF4y2Ba

在本文中,我们基于PSSM提取一个共识序列,从40全球特性计算。然后我们提出两种分段特征提取技术基于pseudo-position-specific得分矩阵的概念(PsePSSM)和自协方差变换(ACT),分别PSSM上定义的。PsePSSM最初提议避免完全丧失的序列号信息沈和周gydF4y2Ba 18gydF4y2Ba]。换句话说,它反映了当地PSSM信息。自协方差变换作为分析的向量序列的统计工具开发的山地et al。gydF4y2Ba 37gydF4y2Ba]。法已经成功地用于模式识别蛋白(gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 38gydF4y2Ba,gydF4y2Ba 39gydF4y2Ba),特别是蛋白质的分类,这是一个相关因子两个残基之间相隔一定的距离以及蛋白质序列。因此,我们获得380分段PsePSSM当地特性和280分段ACT-PSSM特性。最后,这三个技术的帮助下,700 d特征向量构造。为了减少冗余的影响,我们使用了主成分分析(PCA)的特征选择。224年的主导功能是选择支持向量机分类器。评估我们的方法,重叠交叉验证测试采用三个广泛的基准数据集;实验结果表明,我们的方法是一种先进的分类和实现竞争性能相比其他PSSM-based low-similarity氨基酸序列的方法。gydF4y2Ba

2。材料和方法gydF4y2Ba 2.1。数据集gydF4y2Ba

为了方便与之前的作品相比,三个受欢迎的基准数据集被用来评估我们的表现方法:gydF4y2Ba 1189年gydF4y2Ba 数据集(gydF4y2Ba 30.gydF4y2Ba),gydF4y2Ba 25gydF4y2Ba PgydF4y2Ba DgydF4y2Ba BgydF4y2Ba 数据集(gydF4y2Ba 43gydF4y2Ba),gydF4y2Ba 640年gydF4y2Ba 数据集(gydF4y2Ba 44gydF4y2Ba),包括1092、1673、和640蛋白质域序列相似度低于40%,25%,和25%,分别。更详细的三个数据集表中列出gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

表1gydF4y2Ba

本文采用三个数据集的成分。gydF4y2Ba

数据集gydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	所有- - -gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	总gydF4y2Ba
1189年gydF4y2Ba	223年gydF4y2Ba	294年gydF4y2Ba	334年gydF4y2Ba	241年gydF4y2Ba	1092年gydF4y2Ba
25个pdbgydF4y2Ba	443年gydF4y2Ba	443年gydF4y2Ba	346年gydF4y2Ba	441年gydF4y2Ba	1673年gydF4y2Ba
640年gydF4y2Ba	138年gydF4y2Ba	154年gydF4y2Ba	177年gydF4y2Ba	171年gydF4y2Ba	640年gydF4y2Ba

2.2。特征提取gydF4y2Ba

发展一个强大的预测蛋白质结构类基于position-specific得分矩阵(PSSM),关键是如何有效地定义制定有关统计样本特征向量。在这里,我们使用一个组合的共识序列,分段PsePSSM,分段自协方差变换。gydF4y2Ba

2.2.1。Position-Specific得分矩阵gydF4y2Ba

提取进化信息,我们使用每个蛋白质序列搜索(查询序列)作为种子和同质对齐序列从NCBI的NR数据库(gydF4y2Ba ftp://ftp.ncbi.nih.gov/blast/dbgydF4y2Ba)使用PSI-BLAST程序gydF4y2Ba 32gydF4y2Ba与参数)gydF4y2Ba hgydF4y2Ba =gydF4y2Ba 0.001gydF4y2Ba 和gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 3gydF4y2Ba 。PSI-BLAST将返回一个矩阵;的gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba th得到矩阵的条目代表了分数的氨基酸残基gydF4y2Ba 我gydF4y2Ba th蛋白质序列的位置被突变氨基酸类型gydF4y2Ba jgydF4y2Ba 在进化过程中。矩阵称为position-specific得分矩阵(PSSM)表示gydF4y2Ba (1)gydF4y2Ba PSSMgydF4y2Ba =gydF4y2Ba PgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba PgydF4y2Ba jgydF4y2Ba =gydF4y2Ba (gydF4y2Ba PgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba (gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba )gydF4y2Ba 。PSSM log-odds矩阵的大小gydF4y2Ba lgydF4y2Ba ×gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 代表查询氨基酸序列的长度和20将20种氨基酸,和gydF4y2Ba TgydF4y2Ba 是转置运算符。在这部作品中,PSSM元素映射到的范围gydF4y2Ba (gydF4y2Ba 0 1gydF4y2Ba ]gydF4y2Ba 的帮助下一个标准的s形的功能:gydF4y2Ba (2)gydF4y2Ba fgydF4y2Ba xgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba xgydF4y2Ba 是原始PSSM价值。gydF4y2Ba

2.2.2。基于PSSM共识序列gydF4y2Ba

提取全局特征,我们采用方法gydF4y2Ba 45gydF4y2Ba,gydF4y2Ba 46gydF4y2Ba],它生成一个共识序列(CS)。它是由PSSM如下:gydF4y2Ba (3)gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 参数gydF4y2Ba ⁡gydF4y2Ba 马克斯gydF4y2Ba ⁡gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba :gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba “参数”代表最大的论点。的gydF4y2Ba 我gydF4y2Ba th的共识序列(CS)然后设置的gydF4y2Ba αgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba th氨基酸的氨基酸字母和共识序列构造。接下来,我们计算gydF4y2Ba (4)gydF4y2Ba CSAACgydF4y2Ba =gydF4y2Ba ngydF4y2Ba jgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba (gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 代表了氨基酸的数量gydF4y2Ba jgydF4y2Ba 发生在共识序列。gydF4y2Ba lgydF4y2Ba 代表CS的长度。显然,CSAAC代表20 CS的氨基酸组成特征。gydF4y2Ba

此外,我们建议20组成特性CS,已申请了预测蛋白质结构类主要基于氨基酸序列(gydF4y2Ba 47gydF4y2Ba和预测蛋白质二级结构序列gydF4y2Ba 34gydF4y2Ba,gydF4y2Ba 41gydF4y2Ba]。他们制定gydF4y2Ba (5)gydF4y2Ba CSCMgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba jgydF4y2Ba lgydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba jgydF4y2Ba ≤gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 的总数量吗gydF4y2Ba 我gydF4y2Ba th氨基酸的20种氨基酸序列(CS)和共识gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 代表了gydF4y2Ba jgydF4y2Ba 位置在CS(的长度gydF4y2Ba lgydF4y2Ba )的氨基酸gydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

总之,我们获得40全局特性结合20个氨基酸组成特点与20组成CS-PSSM的力矩特性。gydF4y2Ba

2.2.3。基于分段PSSM PsePSSMgydF4y2Ba

提取局部特征,我们把PSSM分成gydF4y2Ba ngydF4y2Ba 段的长度通过应用一个类似的过程(gydF4y2Ba 46gydF4y2Ba]。让gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba ngydF4y2Ba )gydF4y2Ba ;gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba 代表了平等除了最后一段氨基酸序列的长度;gydF4y2Ba 我gydF4y2Ba 代表了gydF4y2Ba 我gydF4y2Ba 段。然而,最后一段可能由于长还是短gydF4y2Ba lgydF4y2Ba 不是总是整除gydF4y2Ba ngydF4y2Ba 最后一段的长度gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba (gydF4y2Ba (gydF4y2Ba ngydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ∗gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 。然后,对于每个部分,我们采用pseudo-PSSM (PsePSSM),已成功地应用于预测蛋白质结构类(gydF4y2Ba 41gydF4y2Ba]。因为最短的长度序列的三个数据集是10(1189集),因此gydF4y2Ba ngydF4y2Ba 可以采取只有2、3、4和5。然而,如果gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 或5,gydF4y2Ba λgydF4y2Ba 只可以等于1;这使得对提取的特征没有意义。所以,gydF4y2Ba λgydF4y2Ba 是2和3。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ;在这里我们表示第一段序列的长度gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 第二段序列gydF4y2Ba lgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,分别。因此,我们得到分段PsePSSM特性根据以下方程:gydF4y2Ba (6)gydF4y2Ba αgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba βgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba αgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 和gydF4y2Ba βgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 氨基酸型的相关性因素吗gydF4y2Ba jgydF4y2Ba 分别是谁的相邻距离gydF4y2Ba λgydF4y2Ba 在每个分段的蛋白质序列。因为最短的长度序列的三个数据集是10,当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 参数的最大价值gydF4y2Ba λgydF4y2Ba 可以是4,所以呢gydF4y2Ba λgydF4y2Ba 可以为0,1,2,3,4;这里的200名当地特色。专门为gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba 代表的平均得分两个分割的氨基酸残基的蛋白质gydF4y2Ba PgydF4y2Ba 对氨基酸突变类型gydF4y2Ba jgydF4y2Ba 在进化过程中。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba rgydF4y2Ba ogydF4y2Ba ugydF4y2Ba ngydF4y2Ba dgydF4y2Ba (gydF4y2Ba lgydF4y2Ba /gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba ;在这里我们表示三段序列的长度gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba 3gydF4y2Ba =gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 。因此,我们得到分段PsePSSM特性,可以定义为gydF4y2Ba (7)gydF4y2Ba θgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba μgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba νgydF4y2Ba jgydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba λgydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba θgydF4y2Ba jgydF4y2Ba λgydF4y2Ba ,gydF4y2Ba μgydF4y2Ba jgydF4y2Ba λgydF4y2Ba ,gydF4y2Ba νgydF4y2Ba jgydF4y2Ba λgydF4y2Ba 表示相同的意思gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,分别。当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,最大gydF4y2Ba λgydF4y2Ba 可以等于2,在这里我们获得180个地方特性。gydF4y2Ba

通过上述方式,共有380名当地使用分段PsePSSM特征提取。gydF4y2Ba

2.2.4。基于分段PSSM自协方差转换gydF4y2Ba

为了进一步获得地方特色,这里介绍了自协方差变换(ACT)的邻近效应的序列。与前一节中,我们将PSSM分成gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 和gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba 段。因此,我们得到分段ACT-PSSM特性,可以由下面的计算。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba (8)gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba αgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba βgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 3、4gydF4y2Ba 。gydF4y2Ba

当gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba (9)gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba μgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba CgydF4y2Ba 3gydF4y2Ba jgydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba - - - - - -gydF4y2Ba lgydF4y2Ba ggydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba νgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba νgydF4y2Ba jgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 20.gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba lgydF4y2Ba ggydF4y2Ba 是两个考虑氨基酸残基之间的距离。因此,总共280名当地使用分段ACT-PSSM特征提取。gydF4y2Ba

从PSSM提取更多的全球和本地信息,我们提出一个全面的方法称为CSP-SegPseP-SegACP通过40 CS-PSSM融合特性,380分段PsePSSM功能,280分段ACT-PSSM功能。最后,每个蛋白质序列的特征是一个700维的特征向量(700 d)。gydF4y2Ba

2.3。特征选择gydF4y2Ba

构造特征向量的维数是700,这是一个大的输入支持向量机。大尺寸将会导致两个问题:信息冗余或噪音和维度灾难。因此,特征选择在分类任务中发挥着关键作用。主成分分析(PCA) (gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba)是一种最经典的降维方法。主成分分析的目的是选择一些主要功能可以保留大部分的信息用一个正交变换;可以学到更多细节的PCA在文献[gydF4y2Ba 48gydF4y2Ba]。最后,224年选择功能是基于1189年数据集的正交空间执行预测蛋白质结构类。gydF4y2Ba

2.4。支持向量机gydF4y2Ba

支持向量机(SVM)是一种众所周知的基于统计学习理论的机器学习算法的二元分类问题,这被认为是最先进的分类技术和引入Vapnik 1995年(gydF4y2Ba 49gydF4y2Ba]。蛋白质结构类预测是一个四个问题,这可以通过使用一个转换成二进制分类问题对所有策略。gydF4y2Ba

支持向量机的基本思想是找到基于支持向量理论的分离超平面分类错误降到最低。这个样本的输入数据变换到一个高维空间使用内核函数找到支持向量。一般来说,四个基本内核函数是由支持向量机使用,也就是说,线性函数,多项式函数,乙状结肠函数,径向基函数(RBF)。在这里,我们选择了RBF作为SVM的内核由于其优势解决非线性问题(gydF4y2Ba 34gydF4y2Ba,gydF4y2Ba 46gydF4y2Ba,gydF4y2Ba 50gydF4y2Ba),它被定义为gydF4y2Ba KgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba - - - - - -gydF4y2Ba γgydF4y2Ba xgydF4y2Ba - - - - - -gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 。内核参数gydF4y2Ba γgydF4y2Ba 和成本参数gydF4y2Ba CgydF4y2Ba 优化是基于1189年的数据集的十五倍的交叉验证使用网格搜索策略在LIBSVM包(gydF4y2Ba 51gydF4y2Ba,gydF4y2Ba 52gydF4y2Ba),gydF4y2Ba CgydF4y2Ba 只允许带一个值之间gydF4y2Ba 2gydF4y2Ba - - - - - -gydF4y2Ba 5gydF4y2Ba 和gydF4y2Ba 2gydF4y2Ba 15gydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 只之间gydF4y2Ba 2gydF4y2Ba - - - - - -gydF4y2Ba 15gydF4y2Ba 和gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 。gydF4y2Ba

2.5。绩效评估gydF4y2Ba

独立数据集测试、二次抽样测试和重叠测试三种广泛使用的交叉验证方法在统计预测。在这三种方法中,重叠测试被认为是最严格和客观因其结果产生一个独特的能力对于一个给定的数据集(gydF4y2Ba 53gydF4y2Ba]。因此,在本研究中我们采用重叠测试。在重叠测试的过程中,一个蛋白质序列是指出从训练集和支持向量机分类模型的训练,剩余的蛋白质序列。然后,分类模型用于预测挑出序列。重复这个过程直到所有序列训练集的挑出一次。从这个意义上说,重叠测试也称为分析测试。gydF4y2Ba

综合评估我们的方法的性能,我们报告的七个标准性能的措施,包括敏感性(Sens),特异性(规范),gydF4y2Ba FgydF4y2Ba 测量,马修的相关系数(MCC), ROC曲线下面积(AUC),总体精度(OA)和平均精度(AA)。gydF4y2Ba FgydF4y2Ba 测量是一个更健壮的指标通过避免高估的性能指标,它是调和平均数的查全率和查准率。世纪挑战集团代表了观察和预测类之间的相关系数。它的值范围从+ 1(指示最佳预测模型)−1(表明糟糕的预测模型)。AUC是接受者操作特征(ROC)曲线下面积计算绘制FP率与TP率。其范围从0到1的价值。这些措施定义如下:gydF4y2Ba (10)gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba ogydF4y2Ba rgydF4y2Ba 年代gydF4y2Ba egydF4y2Ba ngydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba pgydF4y2Ba egydF4y2Ba cgydF4y2Ba =gydF4y2Ba TgydF4y2Ba NgydF4y2Ba FgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ,gydF4y2Ba FgydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba ×gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba PgydF4y2Ba rgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba +gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba CgydF4y2Ba CgydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba ×gydF4y2Ba TgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ×gydF4y2Ba FgydF4y2Ba NgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba UgydF4y2Ba CgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba ,gydF4y2Ba OgydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 年代gydF4y2Ba egydF4y2Ba ngydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba TgydF4y2Ba PgydF4y2Ba 代表真正的阳性的数量,gydF4y2Ba FgydF4y2Ba PgydF4y2Ba 代表了假阳性的数量,gydF4y2Ba TgydF4y2Ba NgydF4y2Ba 代表真正的底片,gydF4y2Ba FgydF4y2Ba NgydF4y2Ba 代表数量的假阴性,gydF4y2Ba ngydF4y2Ba 分别代表类的数量。gydF4y2Ba

3所示。结果与讨论gydF4y2Ba

在这项研究中,获得一个700 d的特征向量,利用主成分分析法(PCA)减少到224 d以避免维度灾难。那么224特征输入支持向量机。RBF核函数,网格搜索方法,和1189年的十五倍的交叉验证数据集被用来找到最好的参数gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 支持向量机。最后,最优值gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 2和0.0019531计算,实验中使用的表吗gydF4y2Ba 2gydF4y2Ba为了避免过度拟合问题。来验证我们的方法的性能,严格的重叠交叉验证测试执行三low-similarity广泛使用的数据集。该方法的流程图描述了整个过程如图gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

表2gydF4y2Ba

1189年我们的方法在预测精度,25个pdb和640数据集。gydF4y2Ba

数据集gydF4y2Ba	结构类gydF4y2Ba	Sens (%)gydF4y2Ba	规范(%)gydF4y2Ba	FgydF4y2Ba 测量gydF4y2Ba	世纪挑战集团gydF4y2Ba	AUCgydF4y2Ba
1189年gydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	84.8gydF4y2Ba	95.6gydF4y2Ba	0.84gydF4y2Ba	0.80gydF4y2Ba	0.90gydF4y2Ba
	所有- - -gydF4y2Ba βgydF4y2Ba	85.4gydF4y2Ba	94.1gydF4y2Ba	0.85gydF4y2Ba	0.79gydF4y2Ba	0.90gydF4y2Ba
	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	85.0gydF4y2Ba	90.0gydF4y2Ba	0.82gydF4y2Ba	0.74gydF4y2Ba	0.88gydF4y2Ba
	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	55.2gydF4y2Ba	91.3gydF4y2Ba	0.59gydF4y2Ba	0.49gydF4y2Ba	0.73gydF4y2Ba
	办公自动化gydF4y2Ba	78.5gydF4y2Ba
	AAgydF4y2Ba	77.6gydF4y2Ba

25个pdbgydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	94.4gydF4y2Ba	96.4gydF4y2Ba	0.92gydF4y2Ba	0.90gydF4y2Ba	0.95gydF4y2Ba
	所有- - -gydF4y2Ba βgydF4y2Ba	91.9gydF4y2Ba	97.2gydF4y2Ba	0.92gydF4y2Ba	0.89gydF4y2Ba	0.95gydF4y2Ba
	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	71.1gydF4y2Ba	95.7gydF4y2Ba	0.76gydF4y2Ba	0.70gydF4y2Ba	0.83gydF4y2Ba
	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	92.5gydF4y2Ba	95.2gydF4y2Ba	0.90gydF4y2Ba	0.86gydF4y2Ba	0.94gydF4y2Ba
	办公自动化gydF4y2Ba	88.4gydF4y2Ba
	AAgydF4y2Ba	87.5gydF4y2Ba

640年gydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	83.3gydF4y2Ba	96.8gydF4y2Ba	0.86gydF4y2Ba	0.82gydF4y2Ba	0.90gydF4y2Ba
	所有- - -gydF4y2Ba βgydF4y2Ba	83.1gydF4y2Ba	95.3gydF4y2Ba	0.84gydF4y2Ba	0.79gydF4y2Ba	0.89gydF4y2Ba
	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	83.0gydF4y2Ba	89.4gydF4y2Ba	0.79gydF4y2Ba	0.70gydF4y2Ba	0.86gydF4y2Ba
	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	60.2gydF4y2Ba	87.4gydF4y2Ba	0.62gydF4y2Ba	0.49gydF4y2Ba	0.74gydF4y2Ba
	办公自动化gydF4y2Ba	77.0gydF4y2Ba
	AAgydF4y2Ba	77.4gydF4y2Ba

图1gydF4y2Ba

我们建议的方法的流程图。gydF4y2Ba

3.1。我们的方法的预测性能gydF4y2Ba

整个蛋白质结构类预测精度(OA)以及预测精度对每个结构类通过使用三个序列的特征表示的组合模型,其中包括共识sequence-PSSM (CSP),分段PsePSSM,分段自协方差transformation-PSSM (ACP)。该预测方法与1189年(CSP-SegPseP-SegACP)检查,25 pdb,和640年的数据集通过重叠测试,我们报告Sens、规范,gydF4y2Ba FgydF4y2Ba 测量、MCC和AUC为每个结构类,办公自动化,以及AA。列在表gydF4y2Ba 2gydF4y2Ba依靠PSSM特征提取,我们达到78.5%,88.4%,和1189年的总体精度为77.0%,25 pdb,和640年基准数据集,分别平均精度(AA)也在77.0%以上三个数据集。1189年和640年的数据,通过比较四个结构类,Sens的价值观,规范,gydF4y2Ba FgydF4y2Ba 测量、MCC和AUC,gydF4y2Ba αgydF4y2Ba 类,,gydF4y2Ba βgydF4y2Ba 类,gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类分别明显优于那些gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类。然而,指的是25 pdb数据集,gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类为每个绩效指标获得性能优良;预测精度达到92.5%。为gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类,预测精度相对较低比其他的类。事实表明,仍有许多困难要克服在未来研究中,提高预测精度gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类和gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类。gydF4y2Ba

3.2。性能比较224年至700年的特性和功能gydF4y2Ba

为了克服信息冗余和维度灾难的影响支持向量机,得到特征向量的维数降低使用主成分分析从700年到224年。在本节中,我们报告的精度方法使用所有700个特性三个数据集,和我们仍然优化支持向量机参数gydF4y2Ba CgydF4y2Ba 和gydF4y2Ba γgydF4y2Ba 在1189的数据集,计算4和0.70711,分别。结果如图所示gydF4y2Ba 2gydF4y2Ba。1189年和640年的总体精度数据集通过使用224特性都比那些获得通过使用700特性,虽然精度是0.2%低于700 d。事实也充分表明,确实存在冗余SVM和PCA能保留最主要的信息用一个正交变换,同时节省计算时间。gydF4y2Ba

图2gydF4y2Ba

之间的精度比较我们的方法,其中包括224年的特性和方法,包括700个特性。gydF4y2Ba

3.3。功能组的性能分析gydF4y2Ba

调查功能组的贡献在蛋白质结构类预测的准确性,首先,我们计算每个功能组一个接一个的1189数据集;结果如表所示gydF4y2Ba 3gydF4y2Ba。从表gydF4y2Ba 3gydF4y2Ba,我们可以很容易地发现集团SegPseP最好的功能,第二个是segACP,最后一个是CSP。此外,每个特性的组合,我们计算每个组合群特性的三个数据集。从表中我们可以看出gydF4y2Ba 4gydF4y2Ba,每个功能组最终预测精度作出了特殊的贡献。因此,我们可以总结功能组SegPseP最优和扮演主导的角色在提高蛋白质结构类预测精度,特别是25 pdb数据集。再次,它说明了特征选择在这个研究是必要的一步。gydF4y2Ba

表3gydF4y2Ba

我们的六个功能组的性能比较1189数据集。gydF4y2Ba

数据集gydF4y2Ba	特性gydF4y2Ba	预测精度(%)gydF4y2Ba
数据集gydF4y2Ba	特性gydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	所有- - -gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	OA (%)gydF4y2Ba
1189年gydF4y2Ba	CSAAC-PSSM (20 d)gydF4y2Ba	72.7gydF4y2Ba	76.2gydF4y2Ba	78.7gydF4y2Ba	26.1gydF4y2Ba	65.2gydF4y2Ba
	CSCM-PSSM (20 d)gydF4y2Ba	69.1gydF4y2Ba	76.9gydF4y2Ba	82.0gydF4y2Ba	29.9gydF4y2Ba	66.5gydF4y2Ba
	Seg2-PsePSSM (200 d)gydF4y2Ba	80.7gydF4y2Ba	82.7gydF4y2Ba	80.8gydF4y2Ba	51.0gydF4y2Ba	74.7gydF4y2Ba
	Seg3-PsePSSM (180 d)gydF4y2Ba	79.8gydF4y2Ba	80.6gydF4y2Ba	81.4gydF4y2Ba	48.1gydF4y2Ba	73.5gydF4y2Ba
	Seg2-ACPSSM (160 d)gydF4y2Ba	76.7gydF4y2Ba	82.3gydF4y2Ba	76.0gydF4y2Ba	44.4gydF4y2Ba	70.9gydF4y2Ba
	Seg3-ACPSSM (120 d)gydF4y2Ba	69.1gydF4y2Ba	77.6gydF4y2Ba	78.4gydF4y2Ba	38.6gydF4y2Ba	67.5gydF4y2Ba

表4gydF4y2Ba

每个功能组的贡献的总体精度(%)。gydF4y2Ba

功能组的组合gydF4y2Ba	维gydF4y2Ba	1189年gydF4y2Ba	25个pdbgydF4y2Ba	640年gydF4y2Ba
CSAACPgydF4y2Ba	20.gydF4y2Ba	65.2gydF4y2Ba	62.0gydF4y2Ba	66.0gydF4y2Ba
CSAACP +协会(CSP)gydF4y2Ba	40gydF4y2Ba	66.5gydF4y2Ba	63.1gydF4y2Ba	64.7gydF4y2Ba
CSP + Seg2-PsePgydF4y2Ba	240年gydF4y2Ba	75.2gydF4y2Ba	74.4gydF4y2Ba	75.8gydF4y2Ba
CSP + Seg2-PseP + Seg3-PsePgydF4y2Ba	420年gydF4y2Ba	76.2gydF4y2Ba	87.7gydF4y2Ba	74.5gydF4y2Ba
CSP + SegPseP + seg2-ACPgydF4y2Ba	680年gydF4y2Ba	76.1gydF4y2Ba	87.9gydF4y2Ba	75.0gydF4y2Ba
CSP + SegPseP + seg2-ACP + seg3-ACPgydF4y2Ba	700年gydF4y2Ba	77.1gydF4y2Ba	88.6gydF4y2Ba	75.5gydF4y2Ba
CSP + SegPseP + SegACP-PCAgydF4y2Ba	224年gydF4y2Ba	78.5gydF4y2Ba	88.4gydF4y2Ba	77.0gydF4y2Ba

3.4。与其他方法的性能比较gydF4y2Ba

在本节中,为了证明我们的方法的优越性;CSP-SegPseP-SegACP进一步与其他最近报道预测方法在相同的数据集。我们选择每个类和整体精度的准确性作为评价指标,总结在表gydF4y2Ba 5gydF4y2Ba。等方法包括其他竞争PSSM-based方法相比PSSM-S [gydF4y2Ba 36gydF4y2Ba],LCC-PSSM [gydF4y2Ba 25gydF4y2Ba],MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba],RPSSM [gydF4y2Ba 34gydF4y2Ba],AADP-PSSM [gydF4y2Ba 15gydF4y2Ba],AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba],AATP [gydF4y2Ba 33gydF4y2Ba],PsePSSM [gydF4y2Ba 41gydF4y2Ba夏,et al。gydF4y2Ba 42gydF4y2Ba],MEDP [gydF4y2Ba 35gydF4y2Ba),这是最近报道蛋白质结构类预测方法基于进化信息PSSM的形式表示。MBMGAC-PSSM是我们的其他方法,融合三个自相关描述符和PSSM。从PSSS-PSSM RPSSM和PsePSSM的子gydF4y2Ba 34gydF4y2Ba]和PSSS-PsePSSM [gydF4y2Ba 41gydF4y2Ba),分别。gydF4y2Ba

表5gydF4y2Ba

不同的方法在三个数据集的性能比较。gydF4y2Ba

数据集gydF4y2Ba	方法gydF4y2Ba	预测精度(%)gydF4y2Ba
数据集gydF4y2Ba	方法gydF4y2Ba	所有- - -gydF4y2Ba αgydF4y2Ba	所有- - -gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba	αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba	OA (%)gydF4y2Ba
1189年gydF4y2Ba	PSSM-S [gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba	93.3gydF4y2Ba	85.1gydF4y2Ba	77.6gydF4y2Ba	65.6gydF4y2Ba	80.2gydF4y2Ba
	LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba	89.2gydF4y2Ba	88.8gydF4y2Ba	85.6gydF4y2Ba	58.5gydF4y2Ba	81.2gydF4y2Ba
	MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba	79.8gydF4y2Ba	85.0gydF4y2Ba	84.7gydF4y2Ba	50.6gydF4y2Ba	76.3gydF4y2Ba
	RPSSM [gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba	67.7gydF4y2Ba	75.2gydF4y2Ba	74.6gydF4y2Ba	17.4gydF4y2Ba	60.2gydF4y2Ba
	AADP-PSSM [gydF4y2Ba 15gydF4y2Ba]gydF4y2Ba	69.1gydF4y2Ba	83.7gydF4y2Ba	85.6gydF4y2Ba	35.7gydF4y2Ba	70.7gydF4y2Ba
	AATP [gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba	72.7gydF4y2Ba	85.4gydF4y2Ba	82.9gydF4y2Ba	42.7gydF4y2Ba	72.6gydF4y2Ba
	MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba	85.2gydF4y2Ba	84.0gydF4y2Ba	84.3gydF4y2Ba	45.2gydF4y2Ba	75.8gydF4y2Ba
	PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba	82.0gydF4y2Ba	82.3gydF4y2Ba	84.1gydF4y2Ba	44.0gydF4y2Ba	74.4gydF4y2Ba
	AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba]gydF4y2Ba	80.7gydF4y2Ba	86.4gydF4y2Ba	81.4gydF4y2Ba	45.2gydF4y2Ba	74.6gydF4y2Ba
	这篇论文gydF4y2Ba	84.8gydF4y2Ba	85.4gydF4y2Ba	85.0gydF4y2Ba	55.2gydF4y2Ba	78.5gydF4y2Ba

25个pdbgydF4y2Ba	PSSM-S [gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba	93.8gydF4y2Ba	92.8gydF4y2Ba	92.6gydF4y2Ba	81.7gydF4y2Ba	90.1gydF4y2Ba
	LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba	91.7gydF4y2Ba	80.8gydF4y2Ba	79.8gydF4y2Ba	64.0gydF4y2Ba	79.0gydF4y2Ba
	MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba	86.7gydF4y2Ba	81.5gydF4y2Ba	79.5gydF4y2Ba	61.7gydF4y2Ba	77.2gydF4y2Ba
	RPSSM [gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba	75.6gydF4y2Ba	70.2gydF4y2Ba	52.0gydF4y2Ba	43.3gydF4y2Ba	60.8gydF4y2Ba
	AADP-PSSM [gydF4y2Ba 15gydF4y2Ba]gydF4y2Ba	83.3gydF4y2Ba	78.1gydF4y2Ba	76.3gydF4y2Ba	54.4gydF4y2Ba	72.9gydF4y2Ba
	AATP [gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba	81.9gydF4y2Ba	74.7gydF4y2Ba	75.1gydF4y2Ba	55.8gydF4y2Ba	71.7gydF4y2Ba
	MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba	87.8gydF4y2Ba	78.3gydF4y2Ba	76.0gydF4y2Ba	57.4gydF4y2Ba	74.8gydF4y2Ba
	AAC-PSSM-AC [gydF4y2Ba 17gydF4y2Ba]gydF4y2Ba	85.3gydF4y2Ba	81.7gydF4y2Ba	73.7gydF4y2Ba	55.3gydF4y2Ba	74.1gydF4y2Ba
	PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba	86.2gydF4y2Ba	78.8gydF4y2Ba	75.7gydF4y2Ba	57.6gydF4y2Ba	75.5gydF4y2Ba
	夏et al。gydF4y2Ba 42gydF4y2Ba]gydF4y2Ba	92.6gydF4y2Ba	72.5gydF4y2Ba	71.7gydF4y2Ba	71.0gydF4y2Ba	77.2gydF4y2Ba
	这篇论文gydF4y2Ba	94.4gydF4y2Ba	91.9gydF4y2Ba	71.1gydF4y2Ba	92.5gydF4y2Ba	88.4gydF4y2Ba

640年gydF4y2Ba	LCC-PSSM [gydF4y2Ba 25gydF4y2Ba]gydF4y2Ba	92.8gydF4y2Ba	88.3gydF4y2Ba	85.9gydF4y2Ba	66.1gydF4y2Ba	82.7gydF4y2Ba
	MBMGAC-PSSM [gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba	86.2gydF4y2Ba	83.1gydF4y2Ba	85.3gydF4y2Ba	63.2gydF4y2Ba	79.1gydF4y2Ba
	MEDP [gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba	84.8gydF4y2Ba	75.3gydF4y2Ba	86.4gydF4y2Ba	53.8gydF4y2Ba	74.7gydF4y2Ba
	PsePSSM [gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba	73.9gydF4y2Ba	76.6gydF4y2Ba	85.3gydF4y2Ba	51.5gydF4y2Ba	71.7gydF4y2Ba
	这篇论文gydF4y2Ba	83.3gydF4y2Ba	83.1gydF4y2Ba	83.0gydF4y2Ba	60.2gydF4y2Ba	77.0gydF4y2Ba

列在表gydF4y2Ba 5gydF4y2Ba,在这些PSSM-based方法,我们的方法达到1189年竞争力的总体预测精度,25 pdb,和640年的数据集。1189数据集,总体精度分别为2.7%和1.7%低于前两个性能LCC-PSSM和PSSM-S方法获得的结果。然而,1189年的总体精度数据集的精度优于其他七PSSM-based方法。25 pdb数据集,OA只有1.7%低于先前的表现最好的结果由PSSM-S计算方法。其他九PSSM-based方法,我们的方法达到最高的总体预测精度提高9.4 - -27.6%。指的是gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类,我们的方法达到最高的结果和精度达到92.5%。640数据集,虽然OA低于LCC-PSSM MBMGAC-PSSM,我们的方法仍然获得满意的结果。事实充分表明,我们建议的方法成功提取隐藏在PSSM的信息。gydF4y2Ba

4所示。结论gydF4y2Ba

本文的主要贡献是建立一个700维的特征向量的三个描述符:共识序列——(CS) PSSM PsePSSM,基于分段PSSM自协方差变换(ACT)。而CS-PSSM反映了全球信息、分段PsePSSM和分段法代表当地的序列号信息。224通过使用PCA特征选择。SVM分类器和重叠测试是用来预测和评估方法三个基准数据集:1189年,25个pdb,和640年的数据集,使用序列相似度低于40%,25%,和25%,分别。实验表明,我们的方法可以作为一个可靠的工具和一个很好的替代方案的准确预测蛋白质结构类low-similarity数据集。我们应当努力未来任务提供一个公共可访问的web方法。代码是用MATLAB语言编写的,可以下载gydF4y2Ba http://web.xidian.edu.cn/slzhang/paper.htmlgydF4y2Ba。gydF4y2Ba

利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

作者要感谢匿名评论者对他们有用的评论我们的论文。这项工作得到了国家自然科学基金(61373174和61373174号),中央大学基础研究基金(没有。JB140703),陕西省自然科学基础研究计划(没有。2015 jq1010)。gydF4y2Ba

1gydF4y2Ba

AnfinsengydF4y2Ba

c . B。gydF4y2Ba

原则,控制蛋白质的折叠链gydF4y2Ba

科学gydF4y2Ba 1973年gydF4y2Ba 181年gydF4y2Ba 4096年gydF4y2Ba 223年gydF4y2Ba 230年gydF4y2Ba

10.1126 / science.181.4096.223gydF4y2Ba

2 - s2.0 - 0015859467gydF4y2Ba

2gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

张gydF4y2Ba

C.-T。gydF4y2Ba

预测蛋白质结构类gydF4y2Ba

生物化学和分子生物学的关键评论gydF4y2Ba 1995年gydF4y2Ba 30.gydF4y2Ba 4gydF4y2Ba 275年gydF4y2Ba 349年gydF4y2Ba

10.3109 / 10409239509083488gydF4y2Ba

2 - s2.0 - 0029157083gydF4y2Ba

3gydF4y2Ba

BahargydF4y2Ba

我。gydF4y2Ba

AtilgangydF4y2Ba

a。R。gydF4y2Ba

JernigangydF4y2Ba

r . L。gydF4y2Ba

厄尔曼gydF4y2Ba

B。gydF4y2Ba

理解识别由氨基酸组成的蛋白质结构类gydF4y2Ba

蛋白质gydF4y2Ba 1997年gydF4y2Ba 29日gydF4y2Ba 2gydF4y2Ba 172年gydF4y2Ba 185年gydF4y2Ba

2 - s2.0 - 0030955263gydF4y2Ba

4gydF4y2Ba

莱维特gydF4y2Ba

M。gydF4y2Ba

ChothiagydF4y2Ba

C。gydF4y2Ba

在球状蛋白结构模式gydF4y2Ba

自然gydF4y2Ba 1976年gydF4y2Ba 261年gydF4y2Ba 5561年gydF4y2Ba 552年gydF4y2Ba 558年gydF4y2Ba

10.1038 / 261552 a0gydF4y2Ba

2 - s2.0 - 0017309766gydF4y2Ba

5gydF4y2Ba

周gydF4y2Ba

G.-P。gydF4y2Ba

一个有趣的争论预测蛋白质结构类gydF4y2Ba

蛋白质化学杂志gydF4y2Ba 1998年gydF4y2Ba 17gydF4y2Ba 8gydF4y2Ba 729年gydF4y2Ba 738年gydF4y2Ba

10.1023 /:1020713915365gydF4y2Ba

2 - s2.0 - 54749084166gydF4y2Ba

6gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

测定蛋白质结构类的关键驱动力gydF4y2Ba

生物化学和生物物理研究通信gydF4y2Ba 1999年gydF4y2Ba 264年gydF4y2Ba 1gydF4y2Ba 216年gydF4y2Ba 224年gydF4y2Ba

10.1006 / bbrc.1999.1325gydF4y2Ba

2 - s2.0 - 0033554601gydF4y2Ba

7gydF4y2Ba

蔡gydF4y2Ba

Y.-D。gydF4y2Ba

周gydF4y2Ba

G.-P。gydF4y2Ba

通过神经网络预测蛋白质结构类gydF4y2Ba

BiochimiegydF4y2Ba 2000年gydF4y2Ba 82年gydF4y2Ba 8gydF4y2Ba 783年gydF4y2Ba 785年gydF4y2Ba

10.1016 / s0300 - 9084 (00) 01161 - 5gydF4y2Ba

2 - s2.0 - 0033809190gydF4y2Ba

8gydF4y2Ba

蔡gydF4y2Ba

Y.-D。gydF4y2Ba

刘gydF4y2Ba

X.-J。gydF4y2Ba

徐gydF4y2Ba

X.-B。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

预测蛋白质结构类的支持向量机gydF4y2Ba

电脑和化学gydF4y2Ba 2002年gydF4y2Ba 26gydF4y2Ba 3gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba

10.1016 / s0097 - 8485 (01) 00113 - 9gydF4y2Ba

2 - s2.0 - 0036007085gydF4y2Ba

9gydF4y2Ba

张gydF4y2Ba

T.-L。gydF4y2Ba

丁gydF4y2Ba

Y.-S。gydF4y2Ba

使用伪氨基酸组成和二叉树支持向量机来预测蛋白质结构类gydF4y2Ba

氨基酸gydF4y2Ba 2007年gydF4y2Ba 33gydF4y2Ba 4gydF4y2Ba 623年gydF4y2Ba 629年gydF4y2Ba

10.1007 / s00726 - 007 - 0496 - 1gydF4y2Ba

2 - s2.0 - 36448935288gydF4y2Ba

10gydF4y2Ba

肖gydF4y2Ba

X。gydF4y2Ba

邵gydF4y2Ba

工程学系。gydF4y2Ba

黄gydF4y2Ba

Z.-D。E。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

使用伪氨基酸组成来预测蛋白质结构类:接近与复杂性衡量因素gydF4y2Ba

计算化学杂志gydF4y2Ba 2006年gydF4y2Ba 27gydF4y2Ba 4gydF4y2Ba 478年gydF4y2Ba 482年gydF4y2Ba

10.1002 / jcc.20354gydF4y2Ba

2 - s2.0 - 33644889341gydF4y2Ba

11gydF4y2Ba

张gydF4y2Ba

T.-L。gydF4y2Ba

丁gydF4y2Ba

Y.-S。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

预测蛋白质结构与pseudo-amino酸类成分:近似熵和疏水性的模式gydF4y2Ba

理论生物学杂志》上gydF4y2Ba 2008年gydF4y2Ba 250年gydF4y2Ba 1gydF4y2Ba 186年gydF4y2Ba 193年gydF4y2Ba

10.1016 / j.jtbi.2007.09.014gydF4y2Ba

MR2930213gydF4y2Ba

2 - s2.0 - 36348994911gydF4y2Ba

12gydF4y2Ba

罗gydF4y2Ba

R.-Y。gydF4y2Ba

冯gydF4y2Ba

Z.-P。gydF4y2Ba

刘gydF4y2Ba

j。gydF4y2Ba

预测蛋白质结构类的氨基酸和多肽成分gydF4y2Ba

欧洲生物化学杂志gydF4y2Ba 2002年gydF4y2Ba 269年gydF4y2Ba 17gydF4y2Ba 4219年gydF4y2Ba 4225年gydF4y2Ba

10.1046 / j.1432-1033.2002.03115.xgydF4y2Ba

2 - s2.0 - 0036051172gydF4y2Ba

13gydF4y2Ba

太阳gydF4y2Ba

X.-D。gydF4y2Ba

黄gydF4y2Ba

R.-B。gydF4y2Ba

使用支持向量机预测蛋白质结构类gydF4y2Ba

氨基酸gydF4y2Ba 2006年gydF4y2Ba 30.gydF4y2Ba 4gydF4y2Ba 469年gydF4y2Ba 475年gydF4y2Ba

10.1007 / s00726 - 005 - 0239 - 0gydF4y2Ba

2 - s2.0 - 33745093400gydF4y2Ba

14gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

蔡gydF4y2Ba

Y.-D。gydF4y2Ba

预测蛋白质结构类的功能域组成gydF4y2Ba

生物化学和生物物理研究通信gydF4y2Ba 2004年gydF4y2Ba 321年gydF4y2Ba 4gydF4y2Ba 1007年gydF4y2Ba 1009年gydF4y2Ba

10.1016 / j.bbrc.2004.07.059gydF4y2Ba

2 - s2.0 - 3843117638gydF4y2Ba

15gydF4y2Ba

刘gydF4y2Ba

t·G。gydF4y2Ba

郑gydF4y2Ba

x Q。gydF4y2Ba

王gydF4y2Ba

J。gydF4y2Ba

预测蛋白质结构类low-similarity序列使用支持向量机和PSI-BLAST概要文件gydF4y2Ba

BiochimiegydF4y2Ba 2010年gydF4y2Ba 92年gydF4y2Ba 10gydF4y2Ba 1330年gydF4y2Ba 1334年gydF4y2Ba

10.1016 / j.biochi.2010.06.013gydF4y2Ba

2 - s2.0 - 77957124553gydF4y2Ba

16gydF4y2Ba

姚gydF4y2Ba

中州。gydF4y2Ba

史gydF4y2Ba

Z.-X。gydF4y2Ba

戴gydF4y2Ba

Q。gydF4y2Ba

细胞凋亡蛋白质亚细胞定位预测基于position-specific评分矩阵gydF4y2Ba

计算和理论纳米科学杂志》上gydF4y2Ba 2014年gydF4y2Ba 11gydF4y2Ba 10gydF4y2Ba 2073年gydF4y2Ba 2078年gydF4y2Ba

10.1166 / jctn.2014.3607gydF4y2Ba

2 - s2.0 - 84906751939gydF4y2Ba

17gydF4y2Ba

刘gydF4y2Ba

t·G。gydF4y2Ba

耿gydF4y2Ba

x B。gydF4y2Ba

郑gydF4y2Ba

x Q。gydF4y2Ba

李gydF4y2Ba

r S。gydF4y2Ba

王gydF4y2Ba

J。gydF4y2Ba

准确预测蛋白质结构类使用汽车协方差PSI-BLAST转换配置文件gydF4y2Ba

氨基酸gydF4y2Ba 2012年gydF4y2Ba 42gydF4y2Ba 6gydF4y2Ba 2243年gydF4y2Ba 2249年gydF4y2Ba

10.1007 / s00726 - 011 - 0964 - 5gydF4y2Ba

2 - s2.0 - 84862763274gydF4y2Ba

18gydF4y2Ba

沈gydF4y2Ba

H.-B。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

NUC-PLOC:一个新的web -预测蛋白质的亚核的融合PseAA成分和PsePSSM本地化gydF4y2Ba

蛋白质工程、设计和选择gydF4y2Ba 2007年gydF4y2Ba 20.gydF4y2Ba 11gydF4y2Ba 561年gydF4y2Ba 567年gydF4y2Ba

10.1093 /蛋白质/ gzm057gydF4y2Ba

2 - s2.0 - 36448952353gydF4y2Ba

19gydF4y2Ba

风扇gydF4y2Ba

G.-L。gydF4y2Ba

李gydF4y2Ba

Q.-Z。gydF4y2Ba

预测蛋白质submitochondria位置周通过结合不同的描述符的一般形式的伪氨基酸组成gydF4y2Ba

氨基酸gydF4y2Ba 2012年gydF4y2Ba 43gydF4y2Ba 2gydF4y2Ba 545年gydF4y2Ba 555年gydF4y2Ba

10.1007 / s00726 - 011 - 1143 - 4gydF4y2Ba

20.gydF4y2Ba

刘gydF4y2Ba

T。gydF4y2Ba

贾gydF4y2Ba

C。gydF4y2Ba

一种高精度的蛋白质结构类使用预测二级结构信息预测算法gydF4y2Ba

理论生物学杂志》上gydF4y2Ba 2010年gydF4y2Ba 267年gydF4y2Ba 3gydF4y2Ba 272年gydF4y2Ba 275年gydF4y2Ba

10.1016 / j.jtbi.2010.09.007gydF4y2Ba

2 - s2.0 - 77956623830gydF4y2Ba

21gydF4y2Ba

张gydF4y2Ba

s . L。gydF4y2Ba

丁gydF4y2Ba

s Y。gydF4y2Ba

王gydF4y2Ba

t M。gydF4y2Ba

高精度的预测蛋白质结构类low-similarity序列基于预测二级结构gydF4y2Ba

BiochimiegydF4y2Ba 2011年gydF4y2Ba 93年gydF4y2Ba 4gydF4y2Ba 710年gydF4y2Ba 714年gydF4y2Ba

10.1016 / j.biochi.2011.01.001gydF4y2Ba

2 - s2.0 - 79952451732gydF4y2Ba

22gydF4y2Ba

戴gydF4y2Ba

Q。gydF4y2Ba

李gydF4y2Ba

Y。gydF4y2Ba

刘gydF4y2Ba

x Q。gydF4y2Ba

姚gydF4y2Ba

y . H。gydF4y2Ba

曹gydF4y2Ba

y G。gydF4y2Ba

他gydF4y2Ba

p·G。gydF4y2Ba

比较研究的统计特性预测蛋白质结构类预测二级结构:从内容到位置gydF4y2Ba

BMC生物信息学gydF4y2Ba 2013年gydF4y2Ba 14日,第152条gydF4y2Ba

10.1186 / 1471-2105-14-152gydF4y2Ba

2 - s2.0 - 84876972087gydF4y2Ba

23gydF4y2Ba

李gydF4y2Ba

Z.-C。gydF4y2Ba

周gydF4y2Ba

X.-B。gydF4y2Ba

戴gydF4y2Ba

Z。gydF4y2Ba

邹gydF4y2Ba

X.-Y。gydF4y2Ba

预测蛋白质结构类周的伪氨基酸组成:接近使用连续小波变换和主成分分析gydF4y2Ba

氨基酸gydF4y2Ba 2009年gydF4y2Ba 37gydF4y2Ba 2gydF4y2Ba 415年gydF4y2Ba 425年gydF4y2Ba

10.1007 / s00726 - 008 - 0170 - 2gydF4y2Ba

2 - s2.0 - 67650739405gydF4y2Ba

24gydF4y2Ba

李gydF4y2Ba

lgydF4y2Ba

崔gydF4y2Ba

X。gydF4y2Ba

余gydF4y2Ba

年代。gydF4y2Ba

张gydF4y2Ba

Y。gydF4y2Ba

罗gydF4y2Ba

Z。gydF4y2Ba

杨gydF4y2Ba

H。gydF4y2Ba

周gydF4y2Ba

Y。gydF4y2Ba

郑gydF4y2Ba

X。gydF4y2Ba

PSSP-RFE:准确预测蛋白质结构类由PSI-BLAST递归特征提取档案,理化性质和功能注释gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2014年gydF4y2Ba 9gydF4y2Ba 3gydF4y2Ba

e92863gydF4y2Ba

10.1371 / journal.pone.0092863gydF4y2Ba

2 - s2.0 - 84899820916gydF4y2Ba

25gydF4y2Ba

丁gydF4y2Ba

s Y。gydF4y2Ba

杨ydF4y2Ba

美国J。gydF4y2Ba

气gydF4y2Ba

s . H。gydF4y2Ba

李gydF4y2Ba

Y。gydF4y2Ba

姚gydF4y2Ba

y . H。gydF4y2Ba

蛋白质结构类预测方法基于PSI-BLAST概要文件gydF4y2Ba

理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 353年gydF4y2Ba 19gydF4y2Ba 23gydF4y2Ba

10.1016 / j.jtbi.2014.02.034gydF4y2Ba

2 - s2.0 - 84897858145gydF4y2Ba

26gydF4y2Ba

蔡gydF4y2Ba

Y.-D。gydF4y2Ba

周gydF4y2Ba

G.-P。gydF4y2Ba

通过神经网络预测蛋白质结构类gydF4y2Ba

BiochimiegydF4y2Ba 2000年gydF4y2Ba 82年gydF4y2Ba 8gydF4y2Ba 783年gydF4y2Ba 785年gydF4y2Ba

10.1016 / s0300 - 9084 (00) 01161 - 5gydF4y2Ba

2 - s2.0 - 0033809190gydF4y2Ba

27gydF4y2Ba

陈gydF4y2Ba

C。gydF4y2Ba

田gydF4y2Ba

y。gydF4y2Ba

邹gydF4y2Ba

X.-Y。gydF4y2Ba

蔡gydF4y2Ba

P.-X。gydF4y2Ba

莫gydF4y2Ba

J.-Y。gydF4y2Ba

使用pseudo-amino酸成分和支持向量机来预测蛋白质结构类gydF4y2Ba

理论生物学杂志》上gydF4y2Ba 2006年gydF4y2Ba 243年gydF4y2Ba 3gydF4y2Ba 444年gydF4y2Ba 448年gydF4y2Ba

10.1016 / j.jtbi.2006.06.025gydF4y2Ba

MR2280047gydF4y2Ba

2 - s2.0 - 33750475941gydF4y2Ba

28gydF4y2Ba

蔡gydF4y2Ba

Y.-D。gydF4y2Ba

刘gydF4y2Ba

X.-J。gydF4y2Ba

徐gydF4y2Ba

X.-B。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

预测蛋白质结构类的支持向量机gydF4y2Ba

电脑和化学gydF4y2Ba 2002年gydF4y2Ba 26gydF4y2Ba 3gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba

10.1016 / s0097 - 8485 (01) 00113 - 9gydF4y2Ba

2 - s2.0 - 0036007085gydF4y2Ba

29日gydF4y2Ba

沈gydF4y2Ba

H.-B。gydF4y2Ba

杨gydF4y2Ba

J。gydF4y2Ba

刘gydF4y2Ba

X.-J。gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

使用监督模糊聚类预测蛋白质结构类gydF4y2Ba

生物化学和生物物理研究通信gydF4y2Ba 2005年gydF4y2Ba 334年gydF4y2Ba 2gydF4y2Ba 577年gydF4y2Ba 581年gydF4y2Ba

10.1016 / j.bbrc.2005.06.128gydF4y2Ba

2 - s2.0 - 22144498433gydF4y2Ba

30.gydF4y2Ba

王gydF4y2Ba

Z.-X。gydF4y2Ba

元gydF4y2Ba

Z。gydF4y2Ba

多好是由component-coupled预测蛋白质结构类的方法?gydF4y2Ba

蛋白质gydF4y2Ba 2000年gydF4y2Ba 38gydF4y2Ba 2gydF4y2Ba 165年gydF4y2Ba 175年gydF4y2Ba

10.1002 / (sici) 1097 - 0134 (20000201) 38:260; 165:: aid-prot562; 3.0.co; 2 vgydF4y2Ba

2 - s2.0 - 0034141493gydF4y2Ba

31日gydF4y2Ba

曹gydF4y2Ba

y F。gydF4y2Ba

刘gydF4y2Ba

年代。gydF4y2Ba

张gydF4y2Ba

l D。gydF4y2Ba

秦gydF4y2Ba

J。gydF4y2Ba

王gydF4y2Ba

J。gydF4y2Ba

唐gydF4y2Ba

k . X。gydF4y2Ba

预测蛋白质结构类与粗糙集gydF4y2Ba

BMC生物信息学gydF4y2Ba 2006年gydF4y2Ba 7日,第二十条gydF4y2Ba

10.1186 / 1471-2105-7-20gydF4y2Ba

2 - s2.0 - 32644441676gydF4y2Ba

32gydF4y2Ba

AltschulgydF4y2Ba

美国F。gydF4y2Ba

马登gydF4y2Ba

t . L。gydF4y2Ba

谢弗gydF4y2Ba

答:一个。gydF4y2Ba

张gydF4y2Ba

J。gydF4y2Ba

张gydF4y2Ba

Z。gydF4y2Ba

米勒gydF4y2Ba

W。gydF4y2Ba

LipmangydF4y2Ba

d . J。gydF4y2Ba

有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序gydF4y2Ba

核酸的研究gydF4y2Ba 1997年gydF4y2Ba 25gydF4y2Ba 17gydF4y2Ba 3389年gydF4y2Ba 3402年gydF4y2Ba

10.1093 / nar / 25.17.3389gydF4y2Ba

2 - s2.0 - 0030801002gydF4y2Ba

33gydF4y2Ba

张gydF4y2Ba

s . L。gydF4y2Ba

叶gydF4y2Ba

F。gydF4y2Ba

元gydF4y2Ba

x G。gydF4y2Ba

利用主成分分析和支持向量机来预测蛋白质结构类通过PSSM low-similarity序列gydF4y2Ba

生物分子结构和动力学杂志》上gydF4y2Ba 2012年gydF4y2Ba 29日gydF4y2Ba 6gydF4y2Ba 634年gydF4y2Ba 642年gydF4y2Ba

2 - s2.0 - 84865383117gydF4y2Ba

34gydF4y2Ba

丁gydF4y2Ba

s Y。gydF4y2Ba

李gydF4y2Ba

Y。gydF4y2Ba

史gydF4y2Ba

z . X。gydF4y2Ba

杨ydF4y2Ba

美国J。gydF4y2Ba

基于蛋白质结构类预测方法预测二级结构和PSI-BLAST概要文件gydF4y2Ba

BiochimiegydF4y2Ba 2014年gydF4y2Ba 97年gydF4y2Ba 1gydF4y2Ba 60gydF4y2Ba 65年gydF4y2Ba

10.1016 / j.biochi.2013.09.013gydF4y2Ba

2 - s2.0 - 84891890146gydF4y2Ba

35gydF4y2Ba

张gydF4y2Ba

l . C。gydF4y2Ba

赵gydF4y2Ba

x Q。gydF4y2Ba

香港gydF4y2Ba

lgydF4y2Ba

预测蛋白质结构类low-similarity序列的进化差异信息周的一般形式的伪氨基酸组成gydF4y2Ba

理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 355年gydF4y2Ba 105年gydF4y2Ba 110年gydF4y2Ba

10.1016 / j.jtbi.2014.04.008gydF4y2Ba

2 - s2.0 - 84899031689gydF4y2Ba

36gydF4y2Ba

DehzangigydF4y2Ba

一个。gydF4y2Ba

PaliwalgydF4y2Ba

K。gydF4y2Ba

里昂gydF4y2Ba

J。gydF4y2Ba

沙玛gydF4y2Ba

一个。gydF4y2Ba

SattargydF4y2Ba

一个。gydF4y2Ba

探索潜在的歧视信息嵌入在PSSM提高蛋白质结构类预测精度gydF4y2Ba

模式识别在生物信息学gydF4y2Ba 2013年gydF4y2Ba 7986年gydF4y2Ba

柏林,德国gydF4y2Ba

施普林格gydF4y2Ba

208年gydF4y2Ba 219年gydF4y2Ba 在计算机科学的课堂讲稿gydF4y2Ba

10.1007 / 978 - 3 - 642 - 39159 - 0 - _19gydF4y2Ba

37gydF4y2Ba

荒原gydF4y2Ba

年代。gydF4y2Ba

琼森gydF4y2Ba

J。gydF4y2Ba

SjorstromgydF4y2Ba

M。gydF4y2Ba

桑德伯格gydF4y2Ba

M。gydF4y2Ba

RannargydF4y2Ba

年代。gydF4y2Ba

DNA和肽序列和化学过程多变量模型通过主成分分析和偏最小二乘预测潜在的结构gydF4y2Ba

分析Chimica学报gydF4y2Ba 1993年gydF4y2Ba 277年gydF4y2Ba 2gydF4y2Ba 239年gydF4y2Ba 253年gydF4y2Ba

10.1016 / 0003 - 2670 (93)80437 - pgydF4y2Ba

2 - s2.0 - 0027215340gydF4y2Ba

38gydF4y2Ba

余gydF4y2Ba

y Z。gydF4y2Ba

郭gydF4y2Ba

y Z。gydF4y2Ba

张gydF4y2Ba

Z。gydF4y2Ba

李gydF4y2Ba

y Z。gydF4y2Ba

李gydF4y2Ba

m . L。gydF4y2Ba

李gydF4y2Ba

g . B。gydF4y2Ba

熊gydF4y2Ba

w·J。gydF4y2Ba

秦gydF4y2Ba

w . L。gydF4y2Ba

SecretP:哺乳动物分泌的蛋白质预测的新方法gydF4y2Ba

肽gydF4y2Ba 2010年gydF4y2Ba 31日gydF4y2Ba 4gydF4y2Ba 574年gydF4y2Ba 578年gydF4y2Ba

10.1016 / j.peptides.2009.12.026gydF4y2Ba

39gydF4y2Ba

越南盾gydF4y2Ba

Q。gydF4y2Ba

周gydF4y2Ba

年代。gydF4y2Ba

关gydF4y2Ba

J。gydF4y2Ba

一个新的taxonomy-based蛋白质折叠识别方法基于autocross-covariance转换gydF4y2Ba

生物信息学gydF4y2Ba 2009年gydF4y2Ba 25gydF4y2Ba 20.gydF4y2Ba 2655年gydF4y2Ba 2662年gydF4y2Ba

10.1093 /生物信息学/ btp500gydF4y2Ba

2 - s2.0 - 70349985248gydF4y2Ba

40gydF4y2Ba

梁gydF4y2Ba

Y Y。gydF4y2Ba

刘gydF4y2Ba

s Y。gydF4y2Ba

张gydF4y2Ba

s . L。gydF4y2Ba

预测蛋白质结构类基于不同的自相关描述符position-specific评分矩阵gydF4y2Ba

匹配:通信在数学和计算机化学gydF4y2Ba 2015年gydF4y2Ba 73年gydF4y2Ba 3gydF4y2Ba 765年gydF4y2Ba 784年gydF4y2Ba

MR3364714gydF4y2Ba

41gydF4y2Ba

张gydF4y2Ba

s . L。gydF4y2Ba

准确预测蛋白质结构类,通过融合pss和PSSM到周的PseAAC将军gydF4y2Ba

化学计量学和智能实验室系统gydF4y2Ba 2015年gydF4y2Ba 142年gydF4y2Ba 28gydF4y2Ba 35gydF4y2Ba

10.1016 / j.chemolab.2015.01.004gydF4y2Ba

2 - s2.0 - 84922676172gydF4y2Ba

42gydF4y2Ba

夏gydF4y2Ba

X.-Y。gydF4y2Ba

通用电气gydF4y2Ba

M。gydF4y2Ba

王gydF4y2Ba

Z.-X。gydF4y2Ba

锅gydF4y2Ba

X.-M。gydF4y2Ba

准确预测蛋白质结构类gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2012年gydF4y2Ba 7gydF4y2Ba 6gydF4y2Ba

e37653gydF4y2Ba

10.1371 / journal.pone.0037653gydF4y2Ba

2 - s2.0 - 84862521440gydF4y2Ba

43gydF4y2Ba

坟头gydF4y2Ba

l。gydF4y2Ba

HomaeiangydF4y2Ba

lgydF4y2Ba

预测蛋白质结构类序列和domains-Impact预测算法,序列表示和同源性,精度和测试程序gydF4y2Ba

模式识别gydF4y2Ba 2006年gydF4y2Ba 39gydF4y2Ba 12gydF4y2Ba 2323年gydF4y2Ba 2343年gydF4y2Ba

10.1016 / j.patcog.2006.02.014gydF4y2Ba

ZBL1103.68767gydF4y2Ba

2 - s2.0 - 33748415440gydF4y2Ba

44gydF4y2Ba

陈gydF4y2Ba

k . E。gydF4y2Ba

坟头gydF4y2Ba

l。gydF4y2Ba

阮gydF4y2Ba

j·S。gydF4y2Ba

使用新颖的进化collocation-based序列预测蛋白质结构类表示gydF4y2Ba

计算化学杂志gydF4y2Ba 2008年gydF4y2Ba 29日gydF4y2Ba 10gydF4y2Ba 1596年gydF4y2Ba 1604年gydF4y2Ba

10.1002 / jcc.20918gydF4y2Ba

2 - s2.0 - 46449128812gydF4y2Ba

45gydF4y2Ba

PatthygydF4y2Ba

lgydF4y2Ba

检测与共识序列远亲蛋白质的同源性gydF4y2Ba

分子生物学杂志gydF4y2Ba 1987年gydF4y2Ba 198年gydF4y2Ba 4gydF4y2Ba 567年gydF4y2Ba 577年gydF4y2Ba

10.1016 / 0022 - 2836 (87)90200 - 2gydF4y2Ba

2 - s2.0 - 0023576317gydF4y2Ba

46gydF4y2Ba

杨gydF4y2Ba

J.-Y。gydF4y2Ba

陈gydF4y2Ba

X。gydF4y2Ba

改善taxonomy-based蛋白质折叠识别通过全球和地方特色gydF4y2Ba

蛋白质:结构、功能和生物信息学gydF4y2Ba 2011年gydF4y2Ba 79年gydF4y2Ba 7gydF4y2Ba 2053年gydF4y2Ba 2064年gydF4y2Ba

10.1002 / prot.23025gydF4y2Ba

2 - s2.0 - 79958772317gydF4y2Ba

47gydF4y2Ba

坟头gydF4y2Ba

lgydF4y2Ba

首席信息官gydF4y2Ba

K。gydF4y2Ba

陈gydF4y2Ba

K。gydF4y2Ba

SCPRED:准确预测蛋白质结构类的模糊状态序列相似的预测序列gydF4y2Ba

BMC生物信息学gydF4y2Ba 2008年gydF4y2Ba 9日,第226条gydF4y2Ba

10.1186 / 1471-2105-9-226gydF4y2Ba

2 - s2.0 - 44349134514gydF4y2Ba

48gydF4y2Ba

JollifegydF4y2Ba

i T。gydF4y2Ba

主成分分析gydF4y2Ba 2002年gydF4y2Ba

纽约,纽约,美国gydF4y2Ba

施普林格gydF4y2Ba

49gydF4y2Ba

VapnikgydF4y2Ba

v . N。gydF4y2Ba

统计学习理论的本质gydF4y2Ba 1995年gydF4y2Ba 1日gydF4y2Ba

纽约,纽约,美国gydF4y2Ba

施普林格gydF4y2Ba

10.1007 / 978-1-4757-2440-0gydF4y2Ba

MR1367965gydF4y2Ba

50gydF4y2Ba

剑gydF4y2Ba

g . Q。gydF4y2Ba

张gydF4y2Ba

y S。gydF4y2Ba

钱gydF4y2Ba

P P。gydF4y2Ba

细胞凋亡蛋白亚细胞定位预测:接近小说表示和支持向量机gydF4y2Ba

通信在数学和计算机化学相匹配gydF4y2Ba 2012年gydF4y2Ba 67年gydF4y2Ba 3gydF4y2Ba 867年gydF4y2Ba 878年gydF4y2Ba

MR2964515gydF4y2Ba

51gydF4y2Ba

常gydF4y2Ba

c c。gydF4y2Ba

林gydF4y2Ba

C.-J。gydF4y2Ba

LIBSVM:支持向量机的库gydF4y2Ba

ACM智能交易系统和技术gydF4y2Ba 2011年gydF4y2Ba 2gydF4y2Ba 3、第二十七条gydF4y2Ba

10.1145/1961189.1961199gydF4y2Ba

52gydF4y2Ba

http://www.csie.ntu.edu.tw/ ~ cjlin / libsvmgydF4y2Ba

53gydF4y2Ba

周gydF4y2Ba

K.-C。gydF4y2Ba

沈gydF4y2Ba

H.-B。gydF4y2Ba

点评:最近进展蛋白质亚细胞定位预测gydF4y2Ba

分析生物化学gydF4y2Ba 2007年gydF4y2Ba 370年gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 16gydF4y2Ba

10.1016 / j.ab.2007.07.006gydF4y2Ba

2 - s2.0 - 34548606295gydF4y2Ba