CMMMgydF4y2Ba 计算和数学方法在医学gydF4y2Ba 1748 - 6718gydF4y2Ba 1748 - 670 xgydF4y2Ba HindawigydF4y2Ba 10.1155 / 2021/5529389gydF4y2Ba 5529389gydF4y2Ba 研究文章gydF4y2Ba 使用递归特征选择和随机森林,改善蛋白质结构类预测Low-Similarity序列gydF4y2Ba 王gydF4y2Ba YaoxingydF4y2Ba 1gydF4y2Ba 徐gydF4y2Ba 英杰gydF4y2Ba 2gydF4y2Ba 杨gydF4y2Ba 宇gydF4y2Ba 1gydF4y2Ba 刘gydF4y2Ba 小青gydF4y2Ba 3gydF4y2Ba https://orcid.org/0000 - 0003 - 2675 - 6511gydF4y2Ba 戴gydF4y2Ba 气gydF4y2Ba 1gydF4y2Ba 陆gydF4y2Ba 林gydF4y2Ba 1gydF4y2Ba 生命科学学院gydF4y2Ba 浙江科技大学gydF4y2Ba 杭州310018gydF4y2Ba 中国gydF4y2Ba zstu.edu.cngydF4y2Ba 2gydF4y2Ba 齐心学校gydF4y2Ba 浙江科技大学gydF4y2Ba 杭州310018gydF4y2Ba 中国gydF4y2Ba zstu.edu.cngydF4y2Ba 3gydF4y2Ba 科学学院gydF4y2Ba 杭州一袭大学gydF4y2Ba 杭州310018gydF4y2Ba 中国gydF4y2Ba hdu.edu.cngydF4y2Ba 2021年gydF4y2Ba 8gydF4y2Ba 5gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 7gydF4y2Ba 2gydF4y2Ba 2021年gydF4y2Ba 28gydF4y2Ba 4gydF4y2Ba 2021年gydF4y2Ba 8gydF4y2Ba 5gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 版权©2021王Yaoxin et al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

许多组合蛋白质的功能是用来改善蛋白质结构类预测,但冗余的信息往往被忽视。为了选择分类能力强的重要特征,我们提出了一种递归特征选择与改善蛋白质结构类预测随机森林。我们评估该方法有四个实验,并与现有的预测方法。结果表明,所提出的特征选择方法有效地提高了蛋白质结构类预测的效率。只有不到5%的特性,但预测精度提高了-13.3% - 4.6。我们进一步比较不同的蛋白质功能和发现预测二级结构特点实现最佳的性能。这种理解可以用来设计更强大的预测蛋白质结构类的方法。gydF4y2Ba

浙江省自然科学基金gydF4y2Ba LY20F020016gydF4y2Ba 中国国家自然科学基金gydF4y2Ba 61772028gydF4y2Ba
1。介绍gydF4y2Ba

蛋白质结构类是蛋白质研究的基础研究领域,使蛋白质功能研究的重大贡献,蛋白质折叠速率、DNA结合位点,和蛋白质折叠识别,以及减少构象的搜索空间和实现的预测三级结构(gydF4y2Ba 1gydF4y2Ba- - - - - -gydF4y2Ba 7gydF4y2Ba]。近年来,蛋白质序列和结构之间的差距变得越来越大随着测序技术的发展,它是相对缓慢的通过实验方法来识别三维结构。因此,有必要开发计算方法快速、准确测定蛋白质结构类。gydF4y2Ba

蛋白质结构是由他们的序列。因此,蛋白质结构类可以直接确定序列信息的基础上,可以进一步指导生物实验,降低实验成本。许多蛋白质结构类预测方法提出了自蛋白质结构类的概念提出了(gydF4y2Ba 3gydF4y2Ba- - - - - -gydF4y2Ba 5gydF4y2Ba,gydF4y2Ba 7gydF4y2Ba- - - - - -gydF4y2Ba 11gydF4y2Ba]。首先,蛋白质结构类预测的目的是基于蛋白质成分(gydF4y2Ba 1gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba,gydF4y2Ba 13gydF4y2Ba),如短肽成分(gydF4y2Ba 14gydF4y2Ba- - - - - -gydF4y2Ba 16gydF4y2Ba),伪氨基酸组成(gydF4y2Ba 17gydF4y2Ba- - - - - -gydF4y2Ba 20.gydF4y2Ba),和功能域组成搭配(gydF4y2Ba 21gydF4y2Ba]。氨基酸组成(AAC)的比例计算根据20个氨基酸残基序列和表示一个数值向量序列特征信息(gydF4y2Ba 14gydF4y2Ba- - - - - -gydF4y2Ba 16gydF4y2Ba]。然而,它并没有把交互和氨基酸的物理化学性质。伪氨基酸组成(PseACC)进一步提出了蛋白质的特征信息(gydF4y2Ba 17gydF4y2Ba- - - - - -gydF4y2Ba 22gydF4y2Ba],它不仅仅考虑氨基酸残基的组成也考虑的物理和化学性质,如疏水性氨基酸残基。此外,提取特征信息通过计算肽组件(gydF4y2Ba 23gydF4y2Ba),考虑氨基酸残基之间的序列的因素。gydF4y2Ba

基于序列特性的预测方法表现良好的高相似性的数据集,而他们的精度在low-similarity数据集只有50%。提出一些改进特征提取方法需要迫切。坟头等人介绍了SCPRED方法的帮助下预测二级结构(gydF4y2Ba 24gydF4y2Ba]。张等人计算一个TPM矩阵来表示预测二级结构特征(gydF4y2Ba 25gydF4y2Ba]。戴等人还提出了一种二级结构特征的统计特性对蛋白质结构类预测(gydF4y2Ba 26gydF4y2Ba]。丁等人构建一个多维向量表示为预测二级结构特征,以及一些方法,融合多个特性也设计(gydF4y2Ba 27gydF4y2Ba]。陈等人提出了一个multifeature融合方法,该方法结合了结构信息和物理化学(gydF4y2Ba 28gydF4y2Ba,gydF4y2Ba 29日gydF4y2Ba]。Nanni等人介绍了一个预测方法相结合的特点,一级序列和二级结构的特点gydF4y2Ba 30.gydF4y2Ba]。王等人结合改进简化了PSSM与蛋白质结构类预测二级结构特征(gydF4y2Ba 31日gydF4y2Ba]。gydF4y2Ba

帮助下上述特性,预测精度提高80%以上几个low-similarity基准数据集,但在他们的发展仍然存在一些问题。为了提高预测模型的效率,一些研究集成不同的蛋白质特性来建立预测模型。然而,值得注意的是,不同功能的简单组合并不一定提高预测的性能。如果组合是不合适的,它甚至可能相互抵消中包含的信息,这不仅会导致信息的冗余增加模型的复杂性和计算。gydF4y2Ba

考虑到上述问题,我们提出了一个计划来预测蛋白质结构类使用递归特征选择和随机森林。我们首先探讨蛋白质含量特性,蛋白质位置功能,减少功能相结合,并预测二级结构特点和讨论他们的贡献对蛋白质结构类的预测。然后,我们提出了一种递归特征选择方法从上面的特性集,选择重要的功能,每个特性的相对重要性指数是基于随机森林算法计算。最后,特征选择根据他们的相对重要性的价值。小说通过一个全面的比较和讨论,一些有价值的指南使用递归特征选择和蛋白质的功能。gydF4y2Ba

2。材料和方法gydF4y2Ba 2.1。数据集gydF4y2Ba

四个广泛使用low-similarity基准数据集选择与现有的方法比较(gydF4y2Ba 24gydF4y2Ba,gydF4y2Ba 25gydF4y2Ba,gydF4y2Ba 32gydF4y2Ba- - - - - -gydF4y2Ba 37gydF4y2Ba]。第一个数据集是25 pdb,序列同源性为25%,最初发表在gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]。它包含1673个蛋白质和域名,从PDB下载并与高分辨率扫描。第二个数据集是D640, 25%序列的身份。它由640个蛋白质,和吟游诗人的分类标签数据库(gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]。第三个数据集是FC699, 858序列有40%低身份。最后一个数据集,表示在1189年,有40%的序列的身份。它由1092蛋白质三维结构数据,从RCSB蛋白质数据库,下载和PDB ID列(gydF4y2Ba 38gydF4y2Ba]。表gydF4y2Ba 1gydF4y2Ba提供更详细的信息关于这些low-similarity基准数据集。gydF4y2Ba

蛋白质之间分布不同的结构性类四个数据集。gydF4y2Ba

数据集gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 所有- - -gydF4y2Ba βgydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 总gydF4y2Ba
25个pdbgydF4y2Ba 443年gydF4y2Ba 443年gydF4y2Ba 346年gydF4y2Ba 441年gydF4y2Ba 1673年gydF4y2Ba
D640gydF4y2Ba 138年gydF4y2Ba 154年gydF4y2Ba 177年gydF4y2Ba 171年gydF4y2Ba 640年gydF4y2Ba
FC699gydF4y2Ba 130年gydF4y2Ba 269年gydF4y2Ba 377年gydF4y2Ba 82年gydF4y2Ba 858年gydF4y2Ba
1189年gydF4y2Ba 223年gydF4y2Ba 294年gydF4y2Ba 334年gydF4y2Ba 241年gydF4y2Ba 1092年gydF4y2Ba
2.2。序列内容的功能gydF4y2Ba

有大量的统计文献,解释为一个序列的一系列符号。一个gydF4y2Ba kgydF4y2Ba 词是一个序列gydF4y2Ba kgydF4y2Ba 连续的字母序列。的序列gydF4y2Ba 年代gydF4y2Ba 长度为gydF4y2Ba 米gydF4y2Ba 的数gydF4y2Ba kgydF4y2Ba 词gydF4y2Ba wgydF4y2Ba ,由gydF4y2Ba cgydF4y2Ba wgydF4y2Ba 的次数gydF4y2Ba wgydF4y2Ba 出现在序列gydF4y2Ba 年代gydF4y2Ba 。在这里,gydF4y2Ba kgydF4y2Ba 词可以重叠的序列。序列的频率可以被描述的内容gydF4y2Ba kgydF4y2Ba 词,它可以表示为一个gydF4y2Ba ngydF4y2Ba 维向量gydF4y2Ba CgydF4y2Ba kgydF4y2Ba 年代gydF4y2Ba :gydF4y2Ba (1)gydF4y2Ba CgydF4y2Ba kgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba 所有可能的总数吗gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba单词。然后,序列特性可以计算的内容gydF4y2Ba (2)gydF4y2Ba 自洽场gydF4y2Ba kgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba −gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba 米gydF4y2Ba −gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba ngydF4y2Ba 米gydF4y2Ba −gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba

这项工作计算gydF4y2Ba 自洽场gydF4y2Ba 1gydF4y2Ba 年代gydF4y2Ba 和gydF4y2Ba 自洽场gydF4y2Ba 2gydF4y2Ba 年代gydF4y2Ba 构造序列内容的功能。gydF4y2Ba

2.3。序列位置功能gydF4y2Ba

除了序列内容的特性,我们也注意到这些位置分布gydF4y2Ba kgydF4y2Ba 文字元素。给定一个gydF4y2Ba kgydF4y2Ba 词,我们首先改变了蛋白质的结构序列分成几个位置信号序列。如果间隔距离gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 给定的gydF4y2Ba kgydF4y2Ba 词gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 等于1,连续吗gydF4y2Ba kgydF4y2Ba 词gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 将形成一个结构和主题域。否则,他们属于两个不同的领域。考虑到gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 和整数gydF4y2Ba tgydF4y2Ba ,我们计算的概率gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 需要的值gydF4y2Ba tgydF4y2Ba 和的概率分布gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 将获得的。semimean数值特征gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba EgydF4y2Ba kgydF4y2Ba wgydF4y2Ba 和半方差gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba DgydF4y2Ba kgydF4y2Ba wgydF4y2Ba 是由gydF4y2Ba (3)gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba EgydF4y2Ba kgydF4y2Ba wgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba tgydF4y2Ba DgydF4y2Ba 是gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ×gydF4y2Ba PgydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba DgydF4y2Ba kgydF4y2Ba wgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba tgydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba PgydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba tgydF4y2Ba DgydF4y2Ba 是gydF4y2Ba wgydF4y2Ba kgydF4y2Ba ×gydF4y2Ba PgydF4y2Ba 说gydF4y2Ba wgydF4y2Ba kgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

标准的序列位置特性gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba DgydF4y2Ba kgydF4y2Ba 来gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba EgydF4y2Ba kgydF4y2Ba 被定义为gydF4y2Ba (4)gydF4y2Ba 防晒系数gydF4y2Ba kgydF4y2Ba wgydF4y2Ba =gydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba EgydF4y2Ba kgydF4y2Ba wgydF4y2Ba 半gydF4y2Ba 量gydF4y2Ba DgydF4y2Ba kgydF4y2Ba wgydF4y2Ba 。gydF4y2Ba

防晒系数gydF4y2Ba kgydF4y2Ba wgydF4y2Ba 的变化gydF4y2Ba kgydF4y2Ba 词gydF4y2Ba wgydF4y2Ba 相对于其人口意味着gydF4y2Ba 26gydF4y2Ba),我们计算gydF4y2Ba 防晒系数gydF4y2Ba 1gydF4y2Ba wgydF4y2Ba 和gydF4y2Ba 防晒系数gydF4y2Ba 2gydF4y2Ba wgydF4y2Ba 构造序列位置特性。gydF4y2Ba

2.4。减少序列特征gydF4y2Ba

亲水性氨基酸是一个重要的物理和化学性质。的亲水性氨基酸,20种氨基酸可分为三类:内部集团外部集团和矛盾。减少蛋白质序列的定义是根据以下规则:gydF4y2Ba (5)gydF4y2Ba FgydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba FgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba VgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba 代表了gydF4y2Ba 我gydF4y2Ba th信的蛋白质序列gydF4y2Ba 年代gydF4y2Ba 和gydF4y2Ba FgydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba 代表的替换gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

的帮助下gydF4y2Ba FgydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba 可以转化为减少,蛋白质序列序列,它只包含三个字母I, E,和a .例如,给定一个蛋白质序列gydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba EgydF4y2Ba 年代gydF4y2Ba HgydF4y2Ba FgydF4y2Ba TgydF4y2Ba CgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba lgydF4y2Ba NgydF4y2Ba EgydF4y2Ba YgydF4y2Ba 一个gydF4y2Ba 米gydF4y2Ba 问gydF4y2Ba ,我们可以减少蛋白质序列gydF4y2Ba FgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba EgydF4y2Ba 一个gydF4y2Ba EgydF4y2Ba 我gydF4y2Ba 一个gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba EgydF4y2Ba EgydF4y2Ba 一个gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba EgydF4y2Ba 。在这里,我们计算的序列组成和位置特征减少序列结合减少序列特性。gydF4y2Ba

2.5。预测二级结构特点gydF4y2Ba

蛋白质序列特性在蛋白质结构类中实现了有前景的结果预测,但其精度是有限的。一些研究表明,二级结构元素的内容和空间的安排也很重要影响因素的复杂的功能或结构蛋白质。因此,提高预测精度的方法之一是增加二级结构特点的特性集(gydF4y2Ba 24gydF4y2Ba- - - - - -gydF4y2Ba 31日gydF4y2Ba]。在这个工作中,PSI-PRED是用来预测二级结构序列gydF4y2Ba 39gydF4y2Ba11],广泛使用的预测二级结构特征计算来提高蛋白质结构类预测(gydF4y2Ba 40gydF4y2Ba]。gydF4y2Ba

预测二级结构元素的内容(gydF4y2Ba 内容gydF4y2Ba SEgydF4y2Ba ):给定一个二级结构预测,其预测二级结构元素的内容gydF4y2Ba 内容gydF4y2Ba SEgydF4y2Ba 可以通过以下公式计算gydF4y2Ba

(6)gydF4y2Ba 内容gydF4y2Ba SEgydF4y2Ba =gydF4y2Ba 数gydF4y2Ba SEgydF4y2Ba ∑gydF4y2Ba xgydF4y2Ba ϵgydF4y2Ba CgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba 数gydF4y2Ba xgydF4y2Ba 。gydF4y2Ba

HgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba 表示gydF4y2Ba αgydF4y2Ba 螺旋,gydF4y2Ba βgydF4y2Ba 链,分别和线圈。gydF4y2Ba

一线和二阶组合时刻向量(CMV),另一个重要的结构功能,可以计算如下:gydF4y2Ba

(7)gydF4y2Ba 巨细胞病毒gydF4y2Ba SEgydF4y2Ba kgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 数gydF4y2Ba SEgydF4y2Ba 阿宝gydF4y2Ba SEgydF4y2Ba jgydF4y2Ba kgydF4y2Ba ∏gydF4y2Ba dgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba kgydF4y2Ba NgydF4y2Ba −gydF4y2Ba dgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 阿宝gydF4y2Ba SEgydF4y2Ba jgydF4y2Ba kgydF4y2Ba 表示的二级结构元素gydF4y2Ba jgydF4y2Ba th二级结构序列中的位置与长度gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba kgydF4y2Ba 是向量顺序。gydF4y2Ba

长度最长的段(gydF4y2Ba MaxSeggydF4y2Ba SEgydF4y2Ba ):gydF4y2Ba

(8)gydF4y2Ba MaxSeggydF4y2Ba SEgydF4y2Ba =gydF4y2Ba MaxLengydF4y2Ba 赛格gydF4y2Ba :gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba MaxLengydF4y2Ba 表示最大分段长度函数和gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba 段是由结构的元素gydF4y2Ba SEgydF4y2Ba 。gydF4y2Ba

规范化的长度最长的段(gydF4y2Ba NMaxSeggydF4y2Ba SEgydF4y2Ba ):gydF4y2Ba

(9)gydF4y2Ba NMaxSeggydF4y2Ba SEgydF4y2Ba =gydF4y2Ba MaxLengydF4y2Ba 赛格gydF4y2Ba :gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba NgydF4y2Ba 是序列长度。gydF4y2Ba

平均长度的段(gydF4y2Ba AvgSeggydF4y2Ba SEgydF4y2Ba ):gydF4y2Ba

(10)gydF4y2Ba AvgSeggydF4y2Ba SEgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba lgydF4y2Ba 在gydF4y2Ba 赛格gydF4y2Ba :gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba 内容gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba LengydF4y2Ba 区段长度函数吗gydF4y2Ba 内容gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba 表示的内容gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba 。gydF4y2Ba

归一化平均长度的段(gydF4y2Ba NAvgSeggydF4y2Ba SEgydF4y2Ba ):gydF4y2Ba

(11)gydF4y2Ba NAvgSeggydF4y2Ba SEgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba lgydF4y2Ba 在gydF4y2Ba 赛格gydF4y2Ba :gydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba NgydF4y2Ba ×gydF4y2Ba ContengydF4y2Ba tgydF4y2Ba 赛格gydF4y2Ba SEgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba NgydF4y2Ba 是序列长度。gydF4y2Ba

交流的频率gydF4y2Ba αgydF4y2Ba 螺旋和gydF4y2Ba βgydF4y2Ba 链和比例的平行gydF4y2Ba βgydF4y2Ba 床单和反平行的gydF4y2Ba βgydF4y2Ba 床单(光电)。gydF4y2Ba

刘和贾相比交替频率不同的结构元素和发现gydF4y2Ba αgydF4y2Ba 螺旋和gydF4y2Ba βgydF4y2Ba 链更频繁地交替gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 蛋白质比gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 蛋白质,因此介绍了交替的频率gydF4y2Ba αgydF4y2Ba 螺旋和gydF4y2Ba βgydF4y2Ba 链来预测蛋白质结构类(gydF4y2Ba 35gydF4y2Ba]。规范化交替频率定义如下:gydF4y2Ba (12)gydF4y2Ba NAltgydF4y2Ba SEgydF4y2Ba =gydF4y2Ba 内容gydF4y2Ba αgydF4y2Ba −gydF4y2Ba βgydF4y2Ba SeqLengydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 内容gydF4y2Ba αgydF4y2Ba −gydF4y2Ba βgydF4y2Ba 表示的总交替gydF4y2Ba αgydF4y2Ba 螺旋和gydF4y2Ba βgydF4y2Ba 链,gydF4y2Ba SeqLengydF4y2Ba 是序列长度。gydF4y2Ba

2.6。递归特征选择和随机森林gydF4y2Ba

随机森林的每个决策树从根节点分为训练集按照自上而下的原则。树的根节点分为左、右节点根据最大信息增益的原理,也就是说,该节点的训练数据分为两个子集。在相同的规则下,剩余节点继续分裂,直到分支停止规则是满意。其中,节点信息增益可以通过信息熵计算,信息增益率,基尼指数。在这项研究中,信息熵选择获得信息增益,定义如下:gydF4y2Ba (13)gydF4y2Ba 搞笑gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba 熵gydF4y2Ba 年代gydF4y2Ba −gydF4y2Ba 熵gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba (14)gydF4y2Ba 熵gydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba cgydF4y2Ba pgydF4y2Ba 我gydF4y2Ba 日志gydF4y2Ba 2gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 熵gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba vgydF4y2Ba ∈gydF4y2Ba 值gydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba 熵gydF4y2Ba 年代gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba 训练集的分类吗gydF4y2Ba cgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba 是特征属性,gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba 类的概率是gydF4y2Ba 我gydF4y2Ba 在gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba 。gydF4y2Ba 年代gydF4y2Ba vgydF4y2Ba 是gydF4y2Ba 年代gydF4y2Ba属性的子集gydF4y2Ba 一个gydF4y2Ba,gydF4y2Ba 年代gydF4y2Ba vgydF4y2Ba 统计样本的数量,gydF4y2Ba 年代gydF4y2Ba 训练集的样本的数量吗gydF4y2Ba 年代gydF4y2Ba 。在这项研究中,有四种类型的问题;因此,gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 。gydF4y2Ba

决策树分类器,分类率是一个重要的指标来衡量所构造的分类器,但特征信息的重要性在决策树节点的建设不容忽视。为了选择重要的功能强大的分类能力,这项工作介绍了随机森林的想法基于相对重要性的特征选择。gydF4y2Ba

在实验中,随机抽取一定数量的特性从候选特征构建大量的决策树,选择代表和有效的特征信息。首先,gydF4y2Ba dgydF4y2Ba 候选人特性获得随机分为不同的特征提取方法gydF4y2Ba 年代gydF4y2Ba 子集。在每个子集,50%的样品对应gydF4y2Ba 米gydF4y2Ba 功能是随机选择的训练样本子集,剩下的50%作为测试样本子集,,分别用于构造分类树和分类树的性能进行评估,gydF4y2Ba tgydF4y2Ba 次。上述两个步骤之后,总共gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba 决策树生成,gydF4y2Ba 年代gydF4y2Ba 和gydF4y2Ba tgydF4y2Ba 必须足够大,特别是吗gydF4y2Ba 年代gydF4y2Ba 。每个特性信息有机会出现在不同的子集,它也使所选特征信息更准确。gydF4y2Ba

为了测量提取的特征的相对重要性,加权分类率是用来评估的决策树的分类能力测试一个类集。gydF4y2Ba cgydF4y2Ba 分类问题,让gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 是类的数量gydF4y2Ba 我gydF4y2Ba 样品分为类gydF4y2Ba jgydF4y2Ba 样品,gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba 。这样,加权分类率介绍每个类样本集的大小,具体定义如下:gydF4y2Ba (15)gydF4y2Ba wgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba cgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba cgydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba +gydF4y2Ba ⋯gydF4y2Ba +gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba cgydF4y2Ba 。gydF4y2Ba

在决策树中,如果一个功能包含更多的信息,它将发挥更大的作用在决策树的分类速度和获得更多的信息。因此,相对重要性指数(RI)被定义为一个特征gydF4y2Ba (16)gydF4y2Ba 国际扶轮gydF4y2Ba ggydF4y2Ba kgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba τgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba wgydF4y2Ba ∑gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba 我gydF4y2Ba GgydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba τgydF4y2Ba 没有gydF4y2Ba 。gydF4y2Ba 在gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba τgydF4y2Ba 没有gydF4y2Ba 。gydF4y2Ba 在gydF4y2Ba τgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba wgydF4y2Ba 是加权分类决策树。在gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba 决策树的随机森林,gydF4y2Ba ggydF4y2Ba kgydF4y2Ba 是相对重要的功能生成的吗gydF4y2Ba τgydF4y2Ba 树。所有节点都表示gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba τgydF4y2Ba ,gydF4y2Ba 搞笑gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba τgydF4y2Ba 和gydF4y2Ba 没有gydF4y2Ba 。gydF4y2Ba 在gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba τgydF4y2Ba 标签的信息增益和样本数量的节点,然后呢gydF4y2Ba 没有gydF4y2Ba 。gydF4y2Ba 在gydF4y2Ba τgydF4y2Ba 根的数量吗gydF4y2Ba τgydF4y2Ba 树。每个特性的RI值计算使用上面的方法,然后,根据RI值排序的功能。最后,代表可以选择特征信息与巨大的贡献。gydF4y2Ba

2.7。分类算法gydF4y2Ba

支持向量机(SVM)是一种大型边缘分类器基于统计学习理论。它使用一个最优分离超平面分离两种类型的数据。二进制支持向量机的决策函数gydF4y2Ba (17)gydF4y2Ba fgydF4y2Ba xgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba αgydF4y2Ba 我gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba KgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba bgydF4y2Ba 是一个常数,gydF4y2Ba CgydF4y2Ba 是一个成本参数控制允许训练误差之间的权衡,并迫使刚性的利润率,gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba ϵgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 支持向量,gydF4y2Ba 0gydF4y2Ba ≤gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 是内核函数。本文使用Vapnik的支持向量机预测蛋白质结构类(gydF4y2Ba 41gydF4y2Ba]。由于蛋白质有超过两个结构类,我们选择多类支持向量机的“一对一”战略。鉴于未知蛋白质类的测试,我们计算结合的特性和选择有效的特征基于递归特征选择和随机森林。支持向量机将找到一个优化的线性分区来解决这个多类问题。gydF4y2Ba

这项工作选择高斯核函数的支持向量机由于其优越性在解决非线性问题gydF4y2Ba 42gydF4y2Ba,gydF4y2Ba 43gydF4y2Ba]。此外,一个简单的网格搜索策略是用于选择参数gydF4y2Ba CgydF4y2Ba 和伽马最高的整体预测。它的目的是基于10倍交叉验证的每个数据集,和的值gydF4y2Ba CgydF4y2Ba 和γ是来自gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba 10gydF4y2Ba 来gydF4y2Ba 2gydF4y2Ba 10gydF4y2Ba 。gydF4y2Ba

2.8。绩效评估gydF4y2Ba

有三种常用的交叉验证方法(二次抽样测试,独立数据集测试、重叠测试)来评估分类器的能力。重叠测试总是产生一个独特的结果,这有助于检查各种预测方法的质量。因此,我们选择了重叠测试来评估该方法并介绍了灵敏度(Sens),特异性(规范)和F1作为标准性能指标,以及每个类别的整体精度和准确性。这些标准性能指标定义如下:gydF4y2Ba (18)gydF4y2Ba 精度gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba TPgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba ,gydF4y2Ba 整体gydF4y2Ba 精度gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba TPgydF4y2Ba 我gydF4y2Ba ∑gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba ,gydF4y2Ba SensgydF4y2Ba =gydF4y2Ba TPgydF4y2Ba TPgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba ,gydF4y2Ba 规范gydF4y2Ba =gydF4y2Ba TNgydF4y2Ba 《外交政策》gydF4y2Ba +gydF4y2Ba TNgydF4y2Ba ,gydF4y2Ba FgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba TPgydF4y2Ba 2gydF4y2Ba TPgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba TPgydF4y2Ba 是真阳性的数量,gydF4y2Ba 《外交政策》gydF4y2Ba 是假阳性的数量,gydF4y2Ba TNgydF4y2Ba 是真正的底片,的数量gydF4y2Ba FNgydF4y2Ba 假阴性的数量,gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba 是蛋白质的数量在每个结构类gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba (所有-gydF4y2Ba αgydF4y2Ba ,所有gydF4y2Ba βgydF4y2Ba ,gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 和gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类)。gydF4y2Ba

3所示。结果与讨论gydF4y2Ba 3.1。提出了预测方法的性能gydF4y2Ba

序列同源性较低的25个pdb, D640 FC699,和1189年为25%,25%,40%,和40%,分别。采用一个简单的网格搜索策略gydF4y2Ba CgydF4y2Ba 和γ值10倍交叉验证的基础上每个数据集。敏感性(Sens),特异性(规范),和该方法的F1总结表gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

敏感性(Sens),特异性(规范)和该方法的F1四个数据集。gydF4y2Ba

数据集gydF4y2Ba 类gydF4y2Ba Sens (%)gydF4y2Ba 规范(%)gydF4y2Ba F1 (%)gydF4y2Ba
25个pdbgydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 94.81gydF4y2Ba 98.29gydF4y2Ba 95.02gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 95.26gydF4y2Ba 98.13gydF4y2Ba 95.05gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 89.88gydF4y2Ba 95.25gydF4y2Ba 86.39gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 85.71gydF4y2Ba 97.16gydF4y2Ba 88.52gydF4y2Ba
D640gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 97.10gydF4y2Ba 97.81gydF4y2Ba 94.70gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 92.86gydF4y2Ba 99.18gydF4y2Ba 95.02gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 97.18gydF4y2Ba 92.87gydF4y2Ba 90.05gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 80.70gydF4y2Ba 98.93gydF4y2Ba 87.90gydF4y2Ba
FC699gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 97.69gydF4y2Ba 99.45gydF4y2Ba 97.32gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 98.51gydF4y2Ba 99.49gydF4y2Ba 98.70gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 95.23gydF4y2Ba 99.38gydF4y2Ba 97.16gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 96.34gydF4y2Ba 97.68gydF4y2Ba 88.27gydF4y2Ba
1189年gydF4y2Ba 所有- - -gydF4y2Ba αgydF4y2Ba 94.62gydF4y2Ba 96.55gydF4y2Ba 90.95gydF4y2Ba
所有- - -gydF4y2Ba βgydF4y2Ba 89.80gydF4y2Ba 98.50gydF4y2Ba 92.63gydF4y2Ba
αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 82.04gydF4y2Ba 94.20gydF4y2Ba 84.05gydF4y2Ba
αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 81.74gydF4y2Ba 92.95gydF4y2Ba 79.12gydF4y2Ba

表gydF4y2Ba 2gydF4y2Ba显示所有的预测性能gydF4y2Ba αgydF4y2Ba 类是最好的在四个结构类,和它的敏感性,特异性,F1是高于90%。但较低的预测是相关的gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类。从表gydF4y2Ba 3gydF4y2Ba,我们发现超过86%的总体精度方法的四个数据集。——的整体精度gydF4y2Ba αgydF4y2Ba 类显著高于其他类别,和准确性超过94%,其次是所有类别和类别。不难发现,平均总精度gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类的四个数据集是86.1%,低于10%的所有类。这些结果表明,它更难以预测gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 不可忽视的重叠的类,因为这一类。gydF4y2Ba

预测精度(在括号中)差异四个数据集和方法的比较与其他报道的结果。gydF4y2Ba

数据集gydF4y2Ba 方法gydF4y2Ba 预测精度(%)gydF4y2Ba
所有- - -gydF4y2Ba αgydF4y2Ba 所有- - -gydF4y2Ba βgydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 整体gydF4y2Ba
25个pdbgydF4y2Ba AADP-PSSM [gydF4y2Ba 44gydF4y2Ba]gydF4y2Ba 69.1gydF4y2Ba 83.7gydF4y2Ba 85.6gydF4y2Ba 35.7gydF4y2Ba 70.7gydF4y2Ba
AAC-PSSM-AC [gydF4y2Ba 45gydF4y2Ba]gydF4y2Ba 85.3gydF4y2Ba 81.7gydF4y2Ba 73.7gydF4y2Ba 55.3gydF4y2Ba 74.1gydF4y2Ba
SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba 92.6gydF4y2Ba 80.1gydF4y2Ba 74.0gydF4y2Ba 71.0gydF4y2Ba 79.7gydF4y2Ba
这种款式(gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba 92.3gydF4y2Ba 83.7gydF4y2Ba 81.2gydF4y2Ba 68.3gydF4y2Ba 81.4gydF4y2Ba
RKS-PPSC [gydF4y2Ba 47gydF4y2Ba]gydF4y2Ba 92.8gydF4y2Ba 83.3gydF4y2Ba 85.8gydF4y2Ba 70.1gydF4y2Ba 82.9gydF4y2Ba
丁等。gydF4y2Ba 46gydF4y2Ba]gydF4y2Ba 95.0gydF4y2Ba 81.3gydF4y2Ba 83.2gydF4y2Ba 77.6gydF4y2Ba 84.3gydF4y2Ba
夏et al。gydF4y2Ba 49gydF4y2Ba]gydF4y2Ba 92.6gydF4y2Ba 72.5gydF4y2Ba 71.7gydF4y2Ba 71.0gydF4y2Ba 77.2gydF4y2Ba
Zhang et al。gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba 95.7gydF4y2Ba 80.8gydF4y2Ba 82.4gydF4y2Ba 75.5gydF4y2Ba 83.7gydF4y2Ba
丁等。gydF4y2Ba 48gydF4y2Ba]gydF4y2Ba 91.7gydF4y2Ba 80.8gydF4y2Ba 79.8gydF4y2Ba 64.0gydF4y2Ba 79.0gydF4y2Ba
Zhang et al。gydF4y2Ba 16gydF4y2Ba]gydF4y2Ba 94.4gydF4y2Ba 83.3gydF4y2Ba 83.5gydF4y2Ba 73.2gydF4y2Ba 83.6gydF4y2Ba
这篇论文gydF4y2Ba 94.8gydF4y2Ba 95.3gydF4y2Ba 89.9gydF4y2Ba 85.7gydF4y2Ba 91.5gydF4y2Ba
D640gydF4y2Ba SCEC [gydF4y2Ba 38gydF4y2Ba]gydF4y2Ba 73.9gydF4y2Ba 61.0gydF4y2Ba 81.9gydF4y2Ba 33.9gydF4y2Ba 62.3gydF4y2Ba
SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba 90.6gydF4y2Ba 81.8gydF4y2Ba 85.9gydF4y2Ba 66.7gydF4y2Ba 80.8gydF4y2Ba
RKS-PPSC [gydF4y2Ba 47gydF4y2Ba]gydF4y2Ba 89.1gydF4y2Ba 85.1gydF4y2Ba 88.1gydF4y2Ba 71.4gydF4y2Ba 83.1gydF4y2Ba
丁等。gydF4y2Ba 46gydF4y2Ba]gydF4y2Ba 92.8gydF4y2Ba 88.3gydF4y2Ba 85.9gydF4y2Ba 66.1gydF4y2Ba 82.7gydF4y2Ba
Zhang et al。gydF4y2Ba 16gydF4y2Ba]gydF4y2Ba 92.0gydF4y2Ba 81.8gydF4y2Ba 87.6gydF4y2Ba 74.3gydF4y2Ba 83.6gydF4y2Ba
香港et al。gydF4y2Ba 20.gydF4y2Ba]gydF4y2Ba 94.2gydF4y2Ba 80.5gydF4y2Ba 87.6gydF4y2Ba 77.2gydF4y2Ba 84.5gydF4y2Ba
这篇论文gydF4y2Ba 97.1gydF4y2Ba 92.8gydF4y2Ba 97.1gydF4y2Ba 80.7gydF4y2Ba 91.7gydF4y2Ba
FC699gydF4y2Ba SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba - - - - - -gydF4y2Ba 87.5gydF4y2Ba
11特性(gydF4y2Ba 35gydF4y2Ba]gydF4y2Ba 97.7gydF4y2Ba 88.0gydF4y2Ba 89.1gydF4y2Ba 84.2gydF4y2Ba 89.6gydF4y2Ba
香港et al。gydF4y2Ba 20.gydF4y2Ba]gydF4y2Ba 96.2gydF4y2Ba 90.7gydF4y2Ba 96.3gydF4y2Ba 69.5gydF4y2Ba 92.0gydF4y2Ba
这篇论文gydF4y2Ba 97.7gydF4y2Ba 98.5gydF4y2Ba 95.2gydF4y2Ba 96.3gydF4y2Ba 96.7gydF4y2Ba
1189年gydF4y2Ba AADP-PSSM [gydF4y2Ba 44gydF4y2Ba]gydF4y2Ba 69.1gydF4y2Ba 83.7gydF4y2Ba 85.6gydF4y2Ba 35.7gydF4y2Ba 70.7gydF4y2Ba
AAC-PSSM-AC [gydF4y2Ba 45gydF4y2Ba]gydF4y2Ba 80.7gydF4y2Ba 86.4gydF4y2Ba 81.4gydF4y2Ba 45.2gydF4y2Ba 74.6gydF4y2Ba
SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba]gydF4y2Ba 89.1gydF4y2Ba 86.7gydF4y2Ba 89.6gydF4y2Ba 53.8gydF4y2Ba 80.6gydF4y2Ba
这种款式(gydF4y2Ba 34gydF4y2Ba]gydF4y2Ba 92.3gydF4y2Ba 87.1gydF4y2Ba 87.9gydF4y2Ba 65.4gydF4y2Ba 83.5gydF4y2Ba
RKS-PPSC [gydF4y2Ba 47gydF4y2Ba]gydF4y2Ba 89.2gydF4y2Ba 86.7gydF4y2Ba 82.6gydF4y2Ba 65.6gydF4y2Ba 81.3gydF4y2Ba
Zhang et al。gydF4y2Ba 36gydF4y2Ba]gydF4y2Ba 92.4gydF4y2Ba 84.4gydF4y2Ba 84.4gydF4y2Ba 73.4gydF4y2Ba 83.6gydF4y2Ba
丁等。gydF4y2Ba 46gydF4y2Ba]gydF4y2Ba 89.2gydF4y2Ba 88.8gydF4y2Ba 85.6gydF4y2Ba 58.5gydF4y2Ba 81.2gydF4y2Ba
Zhang et al。gydF4y2Ba 16gydF4y2Ba]gydF4y2Ba 91.5gydF4y2Ba 86.7gydF4y2Ba 82.0gydF4y2Ba 66.4gydF4y2Ba 81.8gydF4y2Ba
香港et al。gydF4y2Ba 20.gydF4y2Ba]gydF4y2Ba 91.9gydF4y2Ba 84.4gydF4y2Ba 85.3gydF4y2Ba 72.2gydF4y2Ba 83.5gydF4y2Ba
这篇论文gydF4y2Ba 94.6gydF4y2Ba 89.7gydF4y2Ba 82.1gydF4y2Ba 81.7gydF4y2Ba 86.6gydF4y2Ba
3.2。性能比较与竞争的预测gydF4y2Ba

本文进一步将该方法与现有的竞争方法。这里,每个类和整体精度的准确性都选为评价指标来评估预测方法,并总结了他们的研究结果在表gydF4y2Ba 3gydF4y2Ba。该方法首先是与AADP-PSSM [gydF4y2Ba 44gydF4y2Ba],AAC-PSSM-AC [gydF4y2Ba 45gydF4y2Ba),和丁等人的方法gydF4y2Ba 46gydF4y2Ba基于position-specific得分矩阵)。在所有的实验中,该方法达到最佳性能,精度高于5.4 - -12.5%比下一个竞争丁等的方法(gydF4y2Ba 46gydF4y2Ba]。gydF4y2Ba

至于25 pdb数据集,我们进一步比较该方法与竞争方法:SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba],moda [gydF4y2Ba 34gydF4y2Ba),s . Zhang et al。gydF4y2Ba 25gydF4y2Ba],RKS-PPSC [gydF4y2Ba 47gydF4y2Ba),丁等。gydF4y2Ba 48gydF4y2Ba夏,et al。gydF4y2Ba 49gydF4y2Ba),开出Zhang et al。gydF4y2Ba 36gydF4y2Ba张,S.L. et al。gydF4y2Ba 16gydF4y2Ba]。很容易注意到该方法达到最佳性能,总体精度为91.5%,高于7.2丁等的方法(gydF4y2Ba 48gydF4y2Ba]。在D640数据集,我们比较该方法与SCEC [gydF4y2Ba 38gydF4y2Ba],SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba],RKS-PPSC [gydF4y2Ba 47gydF4y2Ba),Zhang et al。gydF4y2Ba 16gydF4y2Ba),香港等。gydF4y2Ba 20.gydF4y2Ba]。我们的方法的总体精度为91.7%,这是7 - 8.1%高于其他竞争方法(gydF4y2Ba 16gydF4y2Ba,gydF4y2Ba 20.gydF4y2Ba]。至于FC699,比较该方法与执行SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba),11个特征(gydF4y2Ba 35gydF4y2Ba),香港等。gydF4y2Ba 20.gydF4y2Ba]。我们发现这个方法的总体精度为96.7%,明显优于其他方法。在1189年的实验中,SCPRED [gydF4y2Ba 32gydF4y2Ba,gydF4y2Ba 33gydF4y2Ba],moda [gydF4y2Ba 34gydF4y2Ba],RKS-PPSC [gydF4y2Ba 47gydF4y2Ba),开出Zhang et al。gydF4y2Ba 36gydF4y2Ba),S.L. Zhang et al。gydF4y2Ba 16gydF4y2Ba),香港等。gydF4y2Ba 20.gydF4y2Ba)相比,该方法,我们发现该方法达到最佳的性能在所有竞争的方法。这是唯一的预测方法的整体精度超过86%,3.1%高于其他竞争的方法。gydF4y2Ba

从表可以看出gydF4y2Ba 3gydF4y2Ba预测的准确性gydF4y2Ba αgydF4y2Ba /gydF4y2Ba βgydF4y2Ba 类已得到改进。具体来说,的精度gydF4y2Ba αgydF4y2Ba +gydF4y2Ba βgydF4y2Ba 类25 pdb, 1189, 640,和FC699数据集是85.7%,80.7%,96.3%,和81.7%,分别是10.2%,3.5%,12.1%,和8.3%高于未来竞争力的方法,分别是(gydF4y2Ba 16gydF4y2Ba,gydF4y2Ba 20.gydF4y2Ba]。这些结果表明,该方法优于可用PSSM-based和PSSM-free预测方法,表明随机森林的递归特征选择可以选择的重要功能特性集和进步预测精度。这种理解可以用于开发更强大的蛋白质结构预测方法。gydF4y2Ba

3.3。递归特征选择的影响gydF4y2Ba

该方法的一个特性是随机森林的递归特征选择,计算每个特性的RI值和选择代表特性和巨大的贡献。为更好地理解递归特征选择,我们选择大小从10到857的特性集。所有实验执行每个选定的特性集使用重叠交叉验证测试,和整体精度选择代表这个预测的分数。图gydF4y2Ba 1gydF4y2Ba显示所有实验的总体精度与所选择的特性集四个数据集。gydF4y2Ba

所有实验的整体精度的比较与选择的特性集四个数据集。gydF4y2Ba

正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集的大小小于50岁,所有数据集都达到最好的预测。选定的特征数量的增加,总体精度会降低。选择功能的数量对应于最佳性能远低于原始特征的总数。因此,有大量的冗余信息在原来的组合特性集。随机森林的递归特征选择是用于选择和降低维度,四个数据集的分类率25 pdb, 1189年,640年,和FC699是91.5%,86.6%,91.7%,和96.7%,分别增加了4.6 - -13.3%。gydF4y2Ba

3.4。不同特性的影响gydF4y2Ba

提高预测蛋白质结构类,我们使用四种蛋白质功能:蛋白质序列的特性,蛋白质位置功能,减少功能相结合,并预测二级结构特征。为简便起见,让PSF, PPF, RCF,和PSSF表示这四种蛋白的特性,分别。通过实验,我们想解决哪些特性有助于预测更好。gydF4y2Ba

评估的贡献各种蛋白质的特性,我们提出的总体预测精度的比较四种蛋白质特性图gydF4y2Ba 2gydF4y2Ba。它表明每个特性使得预测自己的积极贡献。PSSF达到最佳性能的四种蛋白质的特性,这是8% ~ 31%高于其他三个特性。此外,PSSF选择有效的特征,这表明PSSF相对重要和预测的改进有很大的贡献。很容易注意PSSF是直接从二级结构预测序列中提取,包括的信息gydF4y2Ba αgydF4y2Ba 螺旋和gydF4y2Ba βgydF4y2Ba 倍交替频率和空间安排。与氨基酸的频率和位置相比,二级结构序列信息更密切相关的二级结构类型;这就是为什么它在蛋白质结构预测达到最佳性能。gydF4y2Ba

比较四种蛋白质的总体预测精度特性。gydF4y2Ba

4所示。结论gydF4y2Ba

蛋白质结构类提供一些有用的信息对于整个折叠的研究类型,特别是对于蛋白质序列相似性较低。各种类型的蛋白质特性改善蛋白质结构类预测相结合。然而,应该注意的是,该功能融合还将带来信息冗余和影响预测的效率和准确性。提出了一种特征选择方法对蛋白质结构类预测,计算每个特性的RI值的随机森林和选择代表特性基于每一个贡献。要做到这一点,我们首先提取蛋白质序列的特性和位置特征,减少功能相结合,预测二级结构特性,并使用递归特征选择和随机森林预测选择核心功能。实验结果表明,随机森林的递归特征选择有效地改善蛋白质结构类预测的效率。只有不到5%的特性,但预测精度提高了-13.3% - 4.6。为更好的理解不同的蛋白质的特性,我们比较每种蛋白质特性的贡献,发现预测二级结构特点实现最佳性能在四种蛋白质的特性,这是8% ~ 31%高于其他特性。这种理解可以用于开发更强大的方法来预测蛋白质结构类。gydF4y2Ba

数据可用性gydF4y2Ba

所有数据用于支持本研究的发现是可用的gydF4y2Ba https://github.com/qidaizstu/recursive-feature-selectiongydF4y2Ba。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项工作是由中国国家自然科学基金(61772028)和来自中国浙江省自然科学基金的研究经费(LY20F020016)。gydF4y2Ba

克莱因gydF4y2Ba P。gydF4y2Ba DelisigydF4y2Ba C。gydF4y2Ba 从氨基酸序列预测蛋白质结构类gydF4y2Ba 生物聚合物gydF4y2Ba 1986年gydF4y2Ba 25gydF4y2Ba 9gydF4y2Ba 1659年gydF4y2Ba 1672年gydF4y2Ba 10.1002 / bip.360250909gydF4y2Ba 2 - s2.0 - 0022777472gydF4y2Ba 3768479gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba 结构生物信息学和生物医学科学和药物发现的影响gydF4y2Ba 药物化学前沿gydF4y2Ba 2006年gydF4y2Ba 3gydF4y2Ba 455年gydF4y2Ba 502年gydF4y2Ba 莱维特gydF4y2Ba M。gydF4y2Ba ChothiagydF4y2Ba C。gydF4y2Ba 在球状蛋白结构模式gydF4y2Ba 自然gydF4y2Ba 1976年gydF4y2Ba 261年gydF4y2Ba 5561年gydF4y2Ba 552年gydF4y2Ba 558年gydF4y2Ba 10.1038 / 261552 a0gydF4y2Ba 2 - s2.0 - 0017309766gydF4y2Ba 934293年gydF4y2Ba AndreevagydF4y2Ba 一个。gydF4y2Ba 的豪gydF4y2Ba D。gydF4y2Ba 布伦纳gydF4y2Ba s E。gydF4y2Ba 哈伯德gydF4y2Ba t·J。gydF4y2Ba ChothiagydF4y2Ba C。gydF4y2Ba MurzingydF4y2Ba a·G。gydF4y2Ba 吟游诗人2004年数据库:细化家庭结构和序列数据集成gydF4y2Ba 核酸的研究gydF4y2Ba 2004年gydF4y2Ba 32gydF4y2Ba 90001年gydF4y2Ba 226 dgydF4y2Ba 2229年gydF4y2Ba 10.1093 / nar / gkh039gydF4y2Ba MurzingydF4y2Ba a·G。gydF4y2Ba 布伦纳gydF4y2Ba s E。gydF4y2Ba 哈伯德gydF4y2Ba T。gydF4y2Ba ChothiagydF4y2Ba C。gydF4y2Ba 吟游诗人:蛋白质结构分类数据库的序列和结构的调查gydF4y2Ba 分子生物学杂志gydF4y2Ba 1995年gydF4y2Ba 247年gydF4y2Ba 4gydF4y2Ba 536年gydF4y2Ba 540年gydF4y2Ba 10.1016 / s0022 - 2836 (05) 80134 - 2gydF4y2Ba 2 - s2.0 - 0028961335gydF4y2Ba 7723011gydF4y2Ba FerraginagydF4y2Ba P。gydF4y2Ba 吉安卡洛gydF4y2Ba R。gydF4y2Ba 希腊gydF4y2Ba V。gydF4y2Ba ManzinigydF4y2Ba G。gydF4y2Ba 卡洛斯gydF4y2Ba G。gydF4y2Ba Compression-based生物序列分类和结构通过普遍的相似性度量:实验评估gydF4y2Ba BMC生物信息学gydF4y2Ba 2007年gydF4y2Ba 8gydF4y2Ba 1gydF4y2Ba 252年gydF4y2Ba 10.1186 / 1471-2105-8-252gydF4y2Ba 2 - s2.0 - 34547753523gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 王gydF4y2Ba t M。gydF4y2Ba 比较研究gydF4y2Ba kgydF4y2Ba词统计措施对蛋白质:从序列的序列空间”gydF4y2Ba BMC生物信息学gydF4y2Ba 2008年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 10.1186 / 1471-2105-9-394gydF4y2Ba 2 - s2.0 - 54149091987gydF4y2Ba 陈gydF4y2Ba C。gydF4y2Ba 田gydF4y2Ba Y。gydF4y2Ba 邹gydF4y2Ba X。gydF4y2Ba 蔡gydF4y2Ba P。gydF4y2Ba 莫gydF4y2Ba J。gydF4y2Ba 使用pseudo-amino酸成分和支持向量机来预测蛋白质结构类gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2006年gydF4y2Ba 243年gydF4y2Ba 3gydF4y2Ba 444年gydF4y2Ba 448年gydF4y2Ba 10.1016 / j.jtbi.2006.06.025gydF4y2Ba 2 - s2.0 - 33750475941gydF4y2Ba 16908032gydF4y2Ba 周gydF4y2Ba K。gydF4y2Ba 预测蛋白质结构类和亚细胞位置gydF4y2Ba 当前蛋白质和肽科学gydF4y2Ba 2000年gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 171年gydF4y2Ba 208年gydF4y2Ba 10.2174 / 1389203003381379gydF4y2Ba 2 - s2.0 - 0034285487gydF4y2Ba 12369916gydF4y2Ba KedarisettigydF4y2Ba k·D。gydF4y2Ba 坟头gydF4y2Ba l。gydF4y2Ba 迪克gydF4y2Ba 年代。gydF4y2Ba 分类器集合体为蛋白质结构类预测不同的同源性gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 2006年gydF4y2Ba 348年gydF4y2Ba 3gydF4y2Ba 981年gydF4y2Ba 988年gydF4y2Ba 10.1016 / j.bbrc.2006.07.141gydF4y2Ba 2 - s2.0 - 33747182577gydF4y2Ba 16904630gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 吴gydF4y2Ba lgydF4y2Ba 李gydF4y2Ba l . H。gydF4y2Ba 提高蛋白质结构类使用新颖的组合序列预测信息和预测二级结构特点gydF4y2Ba 计算化学杂志gydF4y2Ba 2011年gydF4y2Ba 32gydF4y2Ba 16gydF4y2Ba 3393年gydF4y2Ba 3393年gydF4y2Ba 10.1002 / jcc.21918gydF4y2Ba 2 - s2.0 - 80054684286gydF4y2Ba 21935966gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba 测定蛋白质结构类的关键驱动力gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 1999年gydF4y2Ba 264年gydF4y2Ba 1gydF4y2Ba 216年gydF4y2Ba 224年gydF4y2Ba 10.1006 / bbrc.1999.1325gydF4y2Ba 2 - s2.0 - 0033554601gydF4y2Ba 10527868gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba 沈gydF4y2Ba h . B。gydF4y2Ba 蛋白质亚细胞定位预测的最新进展gydF4y2Ba 分析生物化学gydF4y2Ba 2007年gydF4y2Ba 370年gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 16gydF4y2Ba 10.1016 / j.ab.2007.07.006gydF4y2Ba 2 - s2.0 - 34548606295gydF4y2Ba 17698024gydF4y2Ba 罗gydF4y2Ba r . Y。gydF4y2Ba 冯gydF4y2Ba z . P。gydF4y2Ba 刘gydF4y2Ba j·K。gydF4y2Ba 预测蛋白质结构类的氨基酸和多肽成分gydF4y2Ba 欧洲生物化学杂志gydF4y2Ba 2002年gydF4y2Ba 269年gydF4y2Ba 17gydF4y2Ba 4219年gydF4y2Ba 4225年gydF4y2Ba 10.1046 / j.1432-1033.2002.03115.xgydF4y2Ba 2 - s2.0 - 0036051172gydF4y2Ba 12199700gydF4y2Ba 太阳gydF4y2Ba x D。gydF4y2Ba 黄gydF4y2Ba r B。gydF4y2Ba 使用支持向量机预测蛋白质结构类gydF4y2Ba 氨基酸gydF4y2Ba 2006年gydF4y2Ba 30.gydF4y2Ba 4gydF4y2Ba 469年gydF4y2Ba 475年gydF4y2Ba 10.1007 / s00726 - 005 - 0239 - 0gydF4y2Ba 2 - s2.0 - 33745093400gydF4y2Ba 16622605gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 梁gydF4y2Ba Y Y。gydF4y2Ba 元gydF4y2Ba x G。gydF4y2Ba 提高预测精度的蛋白质结构类:接近与交替的词频和规范化Lempel-Ziv复杂性gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 341年gydF4y2Ba 71年gydF4y2Ba 77年gydF4y2Ba 10.1016 / j.jtbi.2013.10.002gydF4y2Ba 2 - s2.0 - 84886302282gydF4y2Ba 24140787gydF4y2Ba 丁gydF4y2Ba y S。gydF4y2Ba 张gydF4y2Ba t . L。gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba 预测蛋白质结构类的伪氨基酸组成和模糊支持向量机网络gydF4y2Ba 蛋白质和多肽的信件gydF4y2Ba 2007年gydF4y2Ba 14gydF4y2Ba 8gydF4y2Ba 811年gydF4y2Ba 815年gydF4y2Ba 10.2174 / 092986607781483778gydF4y2Ba 2 - s2.0 - 34548697717gydF4y2Ba 吴gydF4y2Ba lgydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 汉gydF4y2Ba B。gydF4y2Ba 朱gydF4y2Ba lgydF4y2Ba 李gydF4y2Ba l . H。gydF4y2Ba 结合序列信息和预测二级结构特征来预测蛋白质结构类gydF4y2Ba 2011第五届国际会议上生物信息学和生物医学工程gydF4y2Ba 2011年gydF4y2Ba 1gydF4y2Ba 4gydF4y2Ba 廖gydF4y2Ba B。gydF4y2Ba 香gydF4y2Ba Q。gydF4y2Ba 李gydF4y2Ba D。gydF4y2Ba 将二次特征纳入周一般形式的PseAAC预测蛋白质结构类gydF4y2Ba 蛋白质和多肽的信件gydF4y2Ba 2012年gydF4y2Ba 19gydF4y2Ba 11gydF4y2Ba 1133年gydF4y2Ba 1138年gydF4y2Ba 10.2174 / 092986612803217051gydF4y2Ba 2 - s2.0 - 84868014079gydF4y2Ba 22185510gydF4y2Ba 香港gydF4y2Ba lgydF4y2Ba 张gydF4y2Ba l . C。gydF4y2Ba LvgydF4y2Ba j·F。gydF4y2Ba 准确预测蛋白质结构类,通过融合预测二级结构信息周的一般形式的伪氨基酸组成gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 344年gydF4y2Ba 12gydF4y2Ba 18gydF4y2Ba 10.1016 / j.jtbi.2013.11.021gydF4y2Ba 2 - s2.0 - 84890593591gydF4y2Ba 24316044gydF4y2Ba 拉赫曼gydF4y2Ba m . S。gydF4y2Ba ShatabdagydF4y2Ba 年代。gydF4y2Ba 萨哈gydF4y2Ba 年代。gydF4y2Ba KaykobadgydF4y2Ba M。gydF4y2Ba 拉赫曼gydF4y2Ba m . S。gydF4y2Ba DPP-PseAAC:使用周总PseAAC dna结合蛋白质预测模型gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2018年gydF4y2Ba 452年gydF4y2Ba 22gydF4y2Ba 34gydF4y2Ba 10.1016 / j.jtbi.2018.05.006gydF4y2Ba 2 - s2.0 - 85047199950gydF4y2Ba 29753757gydF4y2Ba 左gydF4y2Ba Y。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 陈gydF4y2Ba Y。gydF4y2Ba 李gydF4y2Ba G。gydF4y2Ba 杨ydF4y2Ba Z。gydF4y2Ba 杨gydF4y2Ba lgydF4y2Ba PseKRAAC:一个灵活的web服务器生成伪K-tuple氨基酸成分减少gydF4y2Ba 生物信息学gydF4y2Ba 2017年gydF4y2Ba 33gydF4y2Ba 1gydF4y2Ba 122年gydF4y2Ba 124年gydF4y2Ba 10.1093 /生物信息学/ btw564gydF4y2Ba 2 - s2.0 - 85014825165gydF4y2Ba 27565583gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba 蔡gydF4y2Ba y D。gydF4y2Ba 预测蛋白质结构类的功能域组成gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 2004年gydF4y2Ba 321年gydF4y2Ba 4gydF4y2Ba 1007年gydF4y2Ba 1009年gydF4y2Ba 10.1016 / j.bbrc.2004.07.059gydF4y2Ba 2 - s2.0 - 3843117638gydF4y2Ba 15358128gydF4y2Ba 坟头gydF4y2Ba lgydF4y2Ba 首席信息官gydF4y2Ba K。gydF4y2Ba 陈gydF4y2Ba K。gydF4y2Ba SCPRED:准确预测蛋白质结构类的模糊状态序列相似的预测序列gydF4y2Ba BMC生物信息学gydF4y2Ba 2008年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 15gydF4y2Ba 张gydF4y2Ba 年代。gydF4y2Ba 丁gydF4y2Ba 年代。gydF4y2Ba 王gydF4y2Ba T。gydF4y2Ba 高精度的预测蛋白质结构类low-similarity序列基于预测二级结构gydF4y2Ba BiochimiegydF4y2Ba 2011年gydF4y2Ba 93年gydF4y2Ba 4gydF4y2Ba 710年gydF4y2Ba 714年gydF4y2Ba 10.1016 / j.biochi.2011.01.001gydF4y2Ba 2 - s2.0 - 79952451732gydF4y2Ba 21237245gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 姚gydF4y2Ba Y。gydF4y2Ba 曹gydF4y2Ba Y。gydF4y2Ba 他gydF4y2Ba P。gydF4y2Ba 比较研究的统计特性预测蛋白质结构类预测二级结构:从内容到位置gydF4y2Ba BMC生物信息学gydF4y2Ba 2013年gydF4y2Ba 14gydF4y2Ba 1gydF4y2Ba 152年gydF4y2Ba 10.1186 / 1471-2105-14-152gydF4y2Ba 2 - s2.0 - 84876972087gydF4y2Ba 丁gydF4y2Ba H。gydF4y2Ba 林gydF4y2Ba H。gydF4y2Ba 陈gydF4y2Ba W。gydF4y2Ba 李gydF4y2Ba Z。gydF4y2Ba 郭gydF4y2Ba F。gydF4y2Ba 黄gydF4y2Ba J。gydF4y2Ba 饶gydF4y2Ba N。gydF4y2Ba 预测蛋白质结构类基于特征选择技术gydF4y2Ba 跨学科的科学gydF4y2Ba 2014年gydF4y2Ba 6gydF4y2Ba 235年gydF4y2Ba 240年gydF4y2Ba 陈gydF4y2Ba C。gydF4y2Ba 陈gydF4y2Ba l . X。gydF4y2Ba 邹gydF4y2Ba x Y。gydF4y2Ba 蔡gydF4y2Ba p . X。gydF4y2Ba 预测蛋白质结构类基于性质融合gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2008年gydF4y2Ba 253年gydF4y2Ba 2gydF4y2Ba 388年gydF4y2Ba 392年gydF4y2Ba 10.1016 / j.jtbi.2008.03.009gydF4y2Ba 2 - s2.0 - 45649085013gydF4y2Ba 库马尔gydF4y2Ba 答:V。gydF4y2Ba 阿里gydF4y2Ba r·f·M。gydF4y2Ba 余gydF4y2Ba C。gydF4y2Ba 克里希南gydF4y2Ba 诉V。gydF4y2Ba 应用数据挖掘工具基于分类从残留的蛋白质结构类平均核磁共振化学位移gydF4y2Ba Biochimica et Biophysica学报gydF4y2Ba 2015年gydF4y2Ba 1854年gydF4y2Ba 1545年gydF4y2Ba 1552年gydF4y2Ba NannigydF4y2Ba lgydF4y2Ba BrahnamgydF4y2Ba 年代。gydF4y2Ba LuminigydF4y2Ba 一个。gydF4y2Ba 预测蛋白质结构类,通过融合不同的描述符到周将军的伪氨基酸组成gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 360年gydF4y2Ba 109年gydF4y2Ba 116年gydF4y2Ba 10.1016 / j.jtbi.2014.07.003gydF4y2Ba 2 - s2.0 - 84904722553gydF4y2Ba 25026218gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba C。gydF4y2Ba 曹gydF4y2Ba J。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 姚gydF4y2Ba Y。gydF4y2Ba 戴gydF4y2Ba Q。gydF4y2Ba 预测蛋白质结构类low-similarity序列使用减少PSSM和定位二级结构特点gydF4y2Ba 基因gydF4y2Ba 2015年gydF4y2Ba 554年gydF4y2Ba 2gydF4y2Ba 241年gydF4y2Ba 248年gydF4y2Ba 10.1016 / j.gene.2014.10.037gydF4y2Ba 2 - s2.0 - 84910126293gydF4y2Ba 25445293gydF4y2Ba 坟头gydF4y2Ba l。gydF4y2Ba HomaeiangydF4y2Ba lgydF4y2Ba 预测蛋白质序列和域的结构性类——的影响预测算法,序列表示和同源性,精度和测试程序gydF4y2Ba 模式识别gydF4y2Ba 2006年gydF4y2Ba 39gydF4y2Ba 12gydF4y2Ba 2323年gydF4y2Ba 2343年gydF4y2Ba 10.1016 / j.patcog.2006.02.014gydF4y2Ba 2 - s2.0 - 33748415440gydF4y2Ba 郑gydF4y2Ba C。gydF4y2Ba 坟头gydF4y2Ba lgydF4y2Ba beta-turns预测准确率超过80%基于预测二级结构和多重比对的合奏gydF4y2Ba BMC生物信息学gydF4y2Ba 2008年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 430年gydF4y2Ba 430年gydF4y2Ba 10.1186 / 1471-2105-9-430gydF4y2Ba 2 - s2.0 - 58149284018gydF4y2Ba MiziantygydF4y2Ba m·J。gydF4y2Ba 坟头gydF4y2Ba lgydF4y2Ba 模块化的预测蛋白质结构类与预测序列的模糊状态序列的身份gydF4y2Ba BMC生物信息学gydF4y2Ba 2009年gydF4y2Ba 10gydF4y2Ba 1gydF4y2Ba 414年gydF4y2Ba 414年gydF4y2Ba 10.1186 / 1471-2105-10-414gydF4y2Ba 2 - s2.0 - 75149123557gydF4y2Ba 刘gydF4y2Ba T。gydF4y2Ba 贾gydF4y2Ba c . Z。gydF4y2Ba 一种高精度的蛋白质结构类使用预测二级结构信息预测算法gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2010年gydF4y2Ba 267年gydF4y2Ba 3gydF4y2Ba 272年gydF4y2Ba 275年gydF4y2Ba 10.1016 / j.jtbi.2010.09.007gydF4y2Ba 2 - s2.0 - 77956623830gydF4y2Ba 20831876gydF4y2Ba 张gydF4y2Ba l . C。gydF4y2Ba 赵gydF4y2Ba x Q。gydF4y2Ba 香港gydF4y2Ba lgydF4y2Ba 蛋白质结构类预测方法基于新颖的特性gydF4y2Ba BiochimiegydF4y2Ba 2013年gydF4y2Ba 95年gydF4y2Ba 9gydF4y2Ba 1741年gydF4y2Ba 1744年gydF4y2Ba 10.1016 / j.biochi.2013.05.017gydF4y2Ba 2 - s2.0 - 84881192628gydF4y2Ba 23770446gydF4y2Ba 坟头gydF4y2Ba lgydF4y2Ba 陈gydF4y2Ba K。gydF4y2Ba 《暮光之城》的预测蛋白质结构类区序列gydF4y2Ba 生物化学和生物物理研究通信gydF4y2Ba 2007年gydF4y2Ba 357年gydF4y2Ba 2gydF4y2Ba 453年gydF4y2Ba 460年gydF4y2Ba 10.1016 / j.bbrc.2007.03.164gydF4y2Ba 2 - s2.0 - 34247094836gydF4y2Ba 陈gydF4y2Ba K。gydF4y2Ba 坟头gydF4y2Ba l。gydF4y2Ba 阮gydF4y2Ba j·S。gydF4y2Ba 使用新颖的进化collocation-based序列预测蛋白质结构类表示gydF4y2Ba 计算化学杂志gydF4y2Ba 2008年gydF4y2Ba 29日gydF4y2Ba 10gydF4y2Ba 1596年gydF4y2Ba 1604年gydF4y2Ba 10.1002 / jcc.20918gydF4y2Ba 2 - s2.0 - 46449128812gydF4y2Ba 18293306gydF4y2Ba 琼斯gydF4y2Ba d . T。gydF4y2Ba 蛋白质二级结构预测基于position-specific评分矩阵gydF4y2Ba1gydF4y2Ba 分子生物学杂志gydF4y2Ba 1999年gydF4y2Ba 292年gydF4y2Ba 2gydF4y2Ba 195年gydF4y2Ba 202年gydF4y2Ba 10.1006 / jmbi.1999.3091gydF4y2Ba 2 - s2.0 - 0033578684gydF4y2Ba 10493868gydF4y2Ba 沈gydF4y2Ba H。gydF4y2Ba 周gydF4y2Ba k . C。gydF4y2Ba Nuc-PLoc:一个新的web -预测蛋白质的亚核的融合PseAA成分和PsePSSM本地化gydF4y2Ba 蛋白质工程的设计和选择gydF4y2Ba 2007年gydF4y2Ba 20.gydF4y2Ba 11gydF4y2Ba 561年gydF4y2Ba 567年gydF4y2Ba 10.1093 /蛋白质/ gzm057gydF4y2Ba 2 - s2.0 - 36448952353gydF4y2Ba VapnikgydF4y2Ba V。gydF4y2Ba 统计学习理论的本质gydF4y2Ba 2000年gydF4y2Ba 施普林格-gydF4y2Ba 10.1007 / 978-1-4757-3264-1gydF4y2Ba 李gydF4y2Ba T。gydF4y2Ba 风扇gydF4y2Ba K。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba W。gydF4y2Ba 减少残留的蛋白质序列复杂性分组gydF4y2Ba 蛋白质工程gydF4y2Ba 2003年gydF4y2Ba 1gydF4y2Ba 323年gydF4y2Ba 330年gydF4y2Ba 蔡gydF4y2Ba Y。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 徐gydF4y2Ba X。gydF4y2Ba 周gydF4y2Ba K。gydF4y2Ba 预测蛋白质结构类的支持向量机gydF4y2Ba 计算机与化学gydF4y2Ba 2002年gydF4y2Ba 26gydF4y2Ba 3gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba 10.1016 / s0097 - 8485 (01) 00113 - 9gydF4y2Ba 2 - s2.0 - 0036007085gydF4y2Ba 11868916gydF4y2Ba 刘gydF4y2Ba T。gydF4y2Ba 郑gydF4y2Ba X。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 预测蛋白质结构类low-similarity序列使用支持向量机和PSI-BLAST概要文件gydF4y2Ba BiochimiegydF4y2Ba 2010年gydF4y2Ba 92年gydF4y2Ba 10gydF4y2Ba 1330年gydF4y2Ba 1334年gydF4y2Ba 10.1016 / j.biochi.2010.06.013gydF4y2Ba 2 - s2.0 - 77957124553gydF4y2Ba 20600567gydF4y2Ba 刘gydF4y2Ba T。gydF4y2Ba 耿gydF4y2Ba X。gydF4y2Ba 郑gydF4y2Ba X。gydF4y2Ba 李gydF4y2Ba R。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 准确预测蛋白质结构类使用汽车协方差PSI-BLAST转换配置文件gydF4y2Ba 氨基酸gydF4y2Ba 2012年gydF4y2Ba 42gydF4y2Ba 6gydF4y2Ba 2243年gydF4y2Ba 2249年gydF4y2Ba 10.1007 / s00726 - 011 - 0964 - 5gydF4y2Ba 2 - s2.0 - 84862763274gydF4y2Ba 21698456gydF4y2Ba 丁gydF4y2Ba s Y。gydF4y2Ba 杨ydF4y2Ba 美国J。gydF4y2Ba 气gydF4y2Ba 年代。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 姚gydF4y2Ba y . H。gydF4y2Ba 蛋白质结构类预测方法基于PSI-BLAST概要文件gydF4y2Ba 理论生物学杂志》上gydF4y2Ba 2014年gydF4y2Ba 353年gydF4y2Ba 19gydF4y2Ba 23gydF4y2Ba 10.1016 / j.jtbi.2014.02.034gydF4y2Ba 2 - s2.0 - 84897858145gydF4y2Ba 24607742gydF4y2Ba 杨gydF4y2Ba j . Y。gydF4y2Ba 彭gydF4y2Ba z L。gydF4y2Ba 陈gydF4y2Ba X。gydF4y2Ba 预测蛋白质结构类low-homology序列基于预测二级结构gydF4y2Ba BMC生物信息学gydF4y2Ba 2010年gydF4y2Ba 11gydF4y2Ba S1gydF4y2Ba 10.1186 / 1471 - 2105 - 11 - s1 - s9gydF4y2Ba 2 - s2.0 - 76649141763gydF4y2Ba 丁gydF4y2Ba s Y。gydF4y2Ba 张gydF4y2Ba s . L。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba t M。gydF4y2Ba 一种新的蛋白质结构类基于预测二级结构预测方法gydF4y2Ba BiochimiegydF4y2Ba 2012年gydF4y2Ba 94年gydF4y2Ba 5gydF4y2Ba 1166年gydF4y2Ba 1171年gydF4y2Ba 10.1016 / j.biochi.2012.01.022gydF4y2Ba 2 - s2.0 - 84862812419gydF4y2Ba 22353242gydF4y2Ba 夏gydF4y2Ba x Y。gydF4y2Ba 通用电气gydF4y2Ba M。gydF4y2Ba 王gydF4y2Ba z . X。gydF4y2Ba 锅gydF4y2Ba x M。gydF4y2Ba 准确预测蛋白质结构类gydF4y2Ba 《公共科学图书馆•综合》gydF4y2Ba 2012年gydF4y2Ba 7gydF4y2Ba 6gydF4y2Ba e37653gydF4y2Ba 10.1371 / journal.pone.0037653gydF4y2Ba 2 - s2.0 - 84862521440gydF4y2Ba 22723837gydF4y2Ba