1。介绍gydF4y2Ba
蛋白质结构类是蛋白质研究的基础研究领域,使蛋白质功能研究的重大贡献,蛋白质折叠速率、DNA结合位点,和蛋白质折叠识别,以及减少构象的搜索空间和实现的预测三级结构(gydF4y2Ba
1gydF4y2Ba- - - - - -gydF4y2Ba
7gydF4y2Ba]。近年来,蛋白质序列和结构之间的差距变得越来越大随着测序技术的发展,它是相对缓慢的通过实验方法来识别三维结构。因此,有必要开发计算方法快速、准确测定蛋白质结构类。gydF4y2Ba
蛋白质结构是由他们的序列。因此,蛋白质结构类可以直接确定序列信息的基础上,可以进一步指导生物实验,降低实验成本。许多蛋白质结构类预测方法提出了自蛋白质结构类的概念提出了(gydF4y2Ba
3gydF4y2Ba- - - - - -gydF4y2Ba
5gydF4y2Ba,gydF4y2Ba
7gydF4y2Ba- - - - - -gydF4y2Ba
11gydF4y2Ba]。首先,蛋白质结构类预测的目的是基于蛋白质成分(gydF4y2Ba
1gydF4y2Ba,gydF4y2Ba
12gydF4y2Ba,gydF4y2Ba
13gydF4y2Ba),如短肽成分(gydF4y2Ba
14gydF4y2Ba- - - - - -gydF4y2Ba
16gydF4y2Ba),伪氨基酸组成(gydF4y2Ba
17gydF4y2Ba- - - - - -gydF4y2Ba
20.gydF4y2Ba),和功能域组成搭配(gydF4y2Ba
21gydF4y2Ba]。氨基酸组成(AAC)的比例计算根据20个氨基酸残基序列和表示一个数值向量序列特征信息(gydF4y2Ba
14gydF4y2Ba- - - - - -gydF4y2Ba
16gydF4y2Ba]。然而,它并没有把交互和氨基酸的物理化学性质。伪氨基酸组成(PseACC)进一步提出了蛋白质的特征信息(gydF4y2Ba
17gydF4y2Ba- - - - - -gydF4y2Ba
22gydF4y2Ba],它不仅仅考虑氨基酸残基的组成也考虑的物理和化学性质,如疏水性氨基酸残基。此外,提取特征信息通过计算肽组件(gydF4y2Ba
23gydF4y2Ba),考虑氨基酸残基之间的序列的因素。gydF4y2Ba
基于序列特性的预测方法表现良好的高相似性的数据集,而他们的精度在low-similarity数据集只有50%。提出一些改进特征提取方法需要迫切。坟头等人介绍了SCPRED方法的帮助下预测二级结构(gydF4y2Ba
24gydF4y2Ba]。张等人计算一个TPM矩阵来表示预测二级结构特征(gydF4y2Ba
25gydF4y2Ba]。戴等人还提出了一种二级结构特征的统计特性对蛋白质结构类预测(gydF4y2Ba
26gydF4y2Ba]。丁等人构建一个多维向量表示为预测二级结构特征,以及一些方法,融合多个特性也设计(gydF4y2Ba
27gydF4y2Ba]。陈等人提出了一个multifeature融合方法,该方法结合了结构信息和物理化学(gydF4y2Ba
28gydF4y2Ba,gydF4y2Ba
29日gydF4y2Ba]。Nanni等人介绍了一个预测方法相结合的特点,一级序列和二级结构的特点gydF4y2Ba
30.gydF4y2Ba]。王等人结合改进简化了PSSM与蛋白质结构类预测二级结构特征(gydF4y2Ba
31日gydF4y2Ba]。gydF4y2Ba
帮助下上述特性,预测精度提高80%以上几个low-similarity基准数据集,但在他们的发展仍然存在一些问题。为了提高预测模型的效率,一些研究集成不同的蛋白质特性来建立预测模型。然而,值得注意的是,不同功能的简单组合并不一定提高预测的性能。如果组合是不合适的,它甚至可能相互抵消中包含的信息,这不仅会导致信息的冗余增加模型的复杂性和计算。gydF4y2Ba
考虑到上述问题,我们提出了一个计划来预测蛋白质结构类使用递归特征选择和随机森林。我们首先探讨蛋白质含量特性,蛋白质位置功能,减少功能相结合,并预测二级结构特点和讨论他们的贡献对蛋白质结构类的预测。然后,我们提出了一种递归特征选择方法从上面的特性集,选择重要的功能,每个特性的相对重要性指数是基于随机森林算法计算。最后,特征选择根据他们的相对重要性的价值。小说通过一个全面的比较和讨论,一些有价值的指南使用递归特征选择和蛋白质的功能。gydF4y2Ba
2。材料和方法gydF4y2Ba
2.1。数据集gydF4y2Ba
四个广泛使用low-similarity基准数据集选择与现有的方法比较(gydF4y2Ba
24gydF4y2Ba,gydF4y2Ba
25gydF4y2Ba,gydF4y2Ba
32gydF4y2Ba- - - - - -gydF4y2Ba
37gydF4y2Ba]。第一个数据集是25 pdb,序列同源性为25%,最初发表在gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]。它包含1673个蛋白质和域名,从PDB下载并与高分辨率扫描。第二个数据集是D640, 25%序列的身份。它由640个蛋白质,和吟游诗人的分类标签数据库(gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]。第三个数据集是FC699, 858序列有40%低身份。最后一个数据集,表示在1189年,有40%的序列的身份。它由1092蛋白质三维结构数据,从RCSB蛋白质数据库,下载和PDB ID列(gydF4y2Ba
38gydF4y2Ba]。表gydF4y2Ba
1gydF4y2Ba提供更详细的信息关于这些low-similarity基准数据集。gydF4y2Ba
蛋白质之间分布不同的结构性类四个数据集。gydF4y2Ba
| 数据集gydF4y2Ba |
所有- - -gydF4y2Ba
αgydF4y2Ba |
所有- - -gydF4y2Ba
βgydF4y2Ba |
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
总gydF4y2Ba |
| 25个pdbgydF4y2Ba |
443年gydF4y2Ba |
443年gydF4y2Ba |
346年gydF4y2Ba |
441年gydF4y2Ba |
1673年gydF4y2Ba |
| D640gydF4y2Ba |
138年gydF4y2Ba |
154年gydF4y2Ba |
177年gydF4y2Ba |
171年gydF4y2Ba |
640年gydF4y2Ba |
| FC699gydF4y2Ba |
130年gydF4y2Ba |
269年gydF4y2Ba |
377年gydF4y2Ba |
82年gydF4y2Ba |
858年gydF4y2Ba |
| 1189年gydF4y2Ba |
223年gydF4y2Ba |
294年gydF4y2Ba |
334年gydF4y2Ba |
241年gydF4y2Ba |
1092年gydF4y2Ba |
2.2。序列内容的功能gydF4y2Ba
有大量的统计文献,解释为一个序列的一系列符号。一个gydF4y2Ba
kgydF4y2Ba
词是一个序列gydF4y2Ba
kgydF4y2Ba
连续的字母序列。的序列gydF4y2Ba
年代gydF4y2Ba
长度为gydF4y2Ba
米gydF4y2Ba
的数gydF4y2Ba
kgydF4y2Ba
词gydF4y2Ba
wgydF4y2Ba
,由gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
的次数gydF4y2Ba
wgydF4y2Ba
出现在序列gydF4y2Ba
年代gydF4y2Ba
。在这里,gydF4y2Ba
kgydF4y2Ba
词可以重叠的序列。序列的频率可以被描述的内容gydF4y2Ba
kgydF4y2Ba
词,它可以表示为一个gydF4y2Ba
ngydF4y2Ba
维向量gydF4y2Ba
CgydF4y2Ba
kgydF4y2Ba
年代gydF4y2Ba
:gydF4y2Ba
(1)gydF4y2Ba
CgydF4y2Ba
kgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
⋯gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
ngydF4y2Ba
所有可能的总数吗gydF4y2Ba
kgydF4y2Ba
- - - - - -gydF4y2Ba单词。然后,序列特性可以计算的内容gydF4y2Ba
(2)gydF4y2Ba
自洽场gydF4y2Ba
kgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
kgydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
kgydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
⋯gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
kgydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
这项工作计算gydF4y2Ba
自洽场gydF4y2Ba
1gydF4y2Ba
年代gydF4y2Ba
和gydF4y2Ba
自洽场gydF4y2Ba
2gydF4y2Ba
年代gydF4y2Ba
构造序列内容的功能。gydF4y2Ba
2.3。序列位置功能gydF4y2Ba
除了序列内容的特性,我们也注意到这些位置分布gydF4y2Ba
kgydF4y2Ba
文字元素。给定一个gydF4y2Ba
kgydF4y2Ba
词,我们首先改变了蛋白质的结构序列分成几个位置信号序列。如果间隔距离gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
给定的gydF4y2Ba
kgydF4y2Ba
词gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
等于1,连续吗gydF4y2Ba
kgydF4y2Ba
词gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
将形成一个结构和主题域。否则,他们属于两个不同的领域。考虑到gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
和整数gydF4y2Ba
tgydF4y2Ba
,我们计算的概率gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
需要的值gydF4y2Ba
tgydF4y2Ba
和的概率分布gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
将获得的。semimean数值特征gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
EgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
和半方差gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
DgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
是由gydF4y2Ba
(3)gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
EgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
tgydF4y2Ba
DgydF4y2Ba
是gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
×gydF4y2Ba
PgydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
DgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
tgydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
2gydF4y2Ba
×gydF4y2Ba
PgydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
−gydF4y2Ba
∑gydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
tgydF4y2Ba
DgydF4y2Ba
是gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
×gydF4y2Ba
PgydF4y2Ba
说gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
标准的序列位置特性gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
DgydF4y2Ba
kgydF4y2Ba
来gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
EgydF4y2Ba
kgydF4y2Ba
被定义为gydF4y2Ba
(4)gydF4y2Ba
防晒系数gydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
=gydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
EgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
半gydF4y2Ba
量gydF4y2Ba
DgydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
。gydF4y2Ba
防晒系数gydF4y2Ba
kgydF4y2Ba
wgydF4y2Ba
的变化gydF4y2Ba
kgydF4y2Ba
词gydF4y2Ba
wgydF4y2Ba
相对于其人口意味着gydF4y2Ba
26gydF4y2Ba),我们计算gydF4y2Ba
防晒系数gydF4y2Ba
1gydF4y2Ba
wgydF4y2Ba
和gydF4y2Ba
防晒系数gydF4y2Ba
2gydF4y2Ba
wgydF4y2Ba
构造序列位置特性。gydF4y2Ba
2.4。减少序列特征gydF4y2Ba
亲水性氨基酸是一个重要的物理和化学性质。的亲水性氨基酸,20种氨基酸可分为三类:内部集团外部集团和矛盾。减少蛋白质序列的定义是根据以下规则:gydF4y2Ba
(5)gydF4y2Ba
FgydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
如果gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
FgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
VgydF4y2Ba
,gydF4y2Ba
EgydF4y2Ba
,gydF4y2Ba
如果gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
DgydF4y2Ba
,gydF4y2Ba
EgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
,gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
RgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
,gydF4y2Ba
如果gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
DgydF4y2Ba
,gydF4y2Ba
EgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
,gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
RgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
代表了gydF4y2Ba
我gydF4y2Ba
th信的蛋白质序列gydF4y2Ba
年代gydF4y2Ba
和gydF4y2Ba
FgydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
代表的替换gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
。gydF4y2Ba
的帮助下gydF4y2Ba
FgydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
可以转化为减少,蛋白质序列序列,它只包含三个字母I, E,和a .例如,给定一个蛋白质序列gydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
EgydF4y2Ba
年代gydF4y2Ba
HgydF4y2Ba
FgydF4y2Ba
TgydF4y2Ba
CgydF4y2Ba
我gydF4y2Ba
年代gydF4y2Ba
lgydF4y2Ba
NgydF4y2Ba
EgydF4y2Ba
YgydF4y2Ba
一个gydF4y2Ba
米gydF4y2Ba
问gydF4y2Ba
,我们可以减少蛋白质序列gydF4y2Ba
FgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
EgydF4y2Ba
一个gydF4y2Ba
EgydF4y2Ba
我gydF4y2Ba
一个gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
EgydF4y2Ba
EgydF4y2Ba
一个gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
EgydF4y2Ba
。在这里,我们计算的序列组成和位置特征减少序列结合减少序列特性。gydF4y2Ba
2.5。预测二级结构特点gydF4y2Ba
蛋白质序列特性在蛋白质结构类中实现了有前景的结果预测,但其精度是有限的。一些研究表明,二级结构元素的内容和空间的安排也很重要影响因素的复杂的功能或结构蛋白质。因此,提高预测精度的方法之一是增加二级结构特点的特性集(gydF4y2Ba
24gydF4y2Ba- - - - - -gydF4y2Ba
31日gydF4y2Ba]。在这个工作中,PSI-PRED是用来预测二级结构序列gydF4y2Ba
39gydF4y2Ba11],广泛使用的预测二级结构特征计算来提高蛋白质结构类预测(gydF4y2Ba
40gydF4y2Ba]。gydF4y2Ba
预测二级结构元素的内容(gydF4y2Ba
内容gydF4y2Ba
SEgydF4y2Ba
):给定一个二级结构预测,其预测二级结构元素的内容gydF4y2Ba
内容gydF4y2Ba
SEgydF4y2Ba
可以通过以下公式计算gydF4y2Ba
(6)gydF4y2Ba
内容gydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
数gydF4y2Ba
SEgydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
ϵgydF4y2Ba
CgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
EgydF4y2Ba
数gydF4y2Ba
xgydF4y2Ba
。gydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
EgydF4y2Ba
,gydF4y2Ba
CgydF4y2Ba
表示gydF4y2Ba
αgydF4y2Ba
螺旋,gydF4y2Ba
βgydF4y2Ba
链,分别和线圈。gydF4y2Ba
一线和二阶组合时刻向量(CMV),另一个重要的结构功能,可以计算如下:gydF4y2Ba
(7)gydF4y2Ba
巨细胞病毒gydF4y2Ba
SEgydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
数gydF4y2Ba
SEgydF4y2Ba
阿宝gydF4y2Ba
SEgydF4y2Ba
jgydF4y2Ba
kgydF4y2Ba
∏gydF4y2Ba
dgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
kgydF4y2Ba
NgydF4y2Ba
−gydF4y2Ba
dgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
阿宝gydF4y2Ba
SEgydF4y2Ba
jgydF4y2Ba
kgydF4y2Ba
表示的二级结构元素gydF4y2Ba
jgydF4y2Ba
th二级结构序列中的位置与长度gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
是向量顺序。gydF4y2Ba
长度最长的段(gydF4y2Ba
MaxSeggydF4y2Ba
SEgydF4y2Ba
):gydF4y2Ba
(8)gydF4y2Ba
MaxSeggydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
MaxLengydF4y2Ba
赛格gydF4y2Ba
:gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
MaxLengydF4y2Ba
表示最大分段长度函数和gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
段是由结构的元素gydF4y2Ba
SEgydF4y2Ba
。gydF4y2Ba
规范化的长度最长的段(gydF4y2Ba
NMaxSeggydF4y2Ba
SEgydF4y2Ba
):gydF4y2Ba
(9)gydF4y2Ba
NMaxSeggydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
MaxLengydF4y2Ba
赛格gydF4y2Ba
:gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
NgydF4y2Ba
是序列长度。gydF4y2Ba
平均长度的段(gydF4y2Ba
AvgSeggydF4y2Ba
SEgydF4y2Ba
):gydF4y2Ba
(10)gydF4y2Ba
AvgSeggydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
lgydF4y2Ba
在gydF4y2Ba
赛格gydF4y2Ba
:gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
内容gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
LengydF4y2Ba
区段长度函数吗gydF4y2Ba
内容gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
表示的内容gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
。gydF4y2Ba
归一化平均长度的段(gydF4y2Ba
NAvgSeggydF4y2Ba
SEgydF4y2Ba
):gydF4y2Ba
(11)gydF4y2Ba
NAvgSeggydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
lgydF4y2Ba
在gydF4y2Ba
赛格gydF4y2Ba
:gydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
NgydF4y2Ba
×gydF4y2Ba
ContengydF4y2Ba
tgydF4y2Ba
赛格gydF4y2Ba
SEgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
NgydF4y2Ba
是序列长度。gydF4y2Ba
交流的频率gydF4y2Ba
αgydF4y2Ba
螺旋和gydF4y2Ba
βgydF4y2Ba
链和比例的平行gydF4y2Ba
βgydF4y2Ba
床单和反平行的gydF4y2Ba
βgydF4y2Ba
床单(光电)。gydF4y2Ba
刘和贾相比交替频率不同的结构元素和发现gydF4y2Ba
αgydF4y2Ba
螺旋和gydF4y2Ba
βgydF4y2Ba
链更频繁地交替gydF4y2Ba
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
蛋白质比gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
蛋白质,因此介绍了交替的频率gydF4y2Ba
αgydF4y2Ba
螺旋和gydF4y2Ba
βgydF4y2Ba
链来预测蛋白质结构类(gydF4y2Ba
35gydF4y2Ba]。规范化交替频率定义如下:gydF4y2Ba
(12)gydF4y2Ba
NAltgydF4y2Ba
SEgydF4y2Ba
=gydF4y2Ba
内容gydF4y2Ba
αgydF4y2Ba
−gydF4y2Ba
βgydF4y2Ba
SeqLengydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
内容gydF4y2Ba
αgydF4y2Ba
−gydF4y2Ba
βgydF4y2Ba
表示的总交替gydF4y2Ba
αgydF4y2Ba
螺旋和gydF4y2Ba
βgydF4y2Ba
链,gydF4y2Ba
SeqLengydF4y2Ba
是序列长度。gydF4y2Ba
2.6。递归特征选择和随机森林gydF4y2Ba
随机森林的每个决策树从根节点分为训练集按照自上而下的原则。树的根节点分为左、右节点根据最大信息增益的原理,也就是说,该节点的训练数据分为两个子集。在相同的规则下,剩余节点继续分裂,直到分支停止规则是满意。其中,节点信息增益可以通过信息熵计算,信息增益率,基尼指数。在这项研究中,信息熵选择获得信息增益,定义如下:gydF4y2Ba
(13)gydF4y2Ba
搞笑gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
=gydF4y2Ba
熵gydF4y2Ba
年代gydF4y2Ba
−gydF4y2Ba
熵gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
(14)gydF4y2Ba
熵gydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
−gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
cgydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
日志gydF4y2Ba
2gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
熵gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
vgydF4y2Ba
∈gydF4y2Ba
值gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba
vgydF4y2Ba
年代gydF4y2Ba
熵gydF4y2Ba
年代gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
年代gydF4y2Ba
训练集的分类吗gydF4y2Ba
cgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
是特征属性,gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
类的概率是gydF4y2Ba
我gydF4y2Ba
在gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
⋯gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
。gydF4y2Ba
年代gydF4y2Ba
vgydF4y2Ba
是gydF4y2Ba
年代gydF4y2Ba属性的子集gydF4y2Ba
一个gydF4y2Ba,gydF4y2Ba
年代gydF4y2Ba
vgydF4y2Ba
统计样本的数量,gydF4y2Ba
年代gydF4y2Ba
训练集的样本的数量吗gydF4y2Ba
年代gydF4y2Ba
。在这项研究中,有四种类型的问题;因此,gydF4y2Ba
cgydF4y2Ba
=gydF4y2Ba
4gydF4y2Ba
。gydF4y2Ba
决策树分类器,分类率是一个重要的指标来衡量所构造的分类器,但特征信息的重要性在决策树节点的建设不容忽视。为了选择重要的功能强大的分类能力,这项工作介绍了随机森林的想法基于相对重要性的特征选择。gydF4y2Ba
在实验中,随机抽取一定数量的特性从候选特征构建大量的决策树,选择代表和有效的特征信息。首先,gydF4y2Ba
dgydF4y2Ba
候选人特性获得随机分为不同的特征提取方法gydF4y2Ba
年代gydF4y2Ba
子集。在每个子集,50%的样品对应gydF4y2Ba
米gydF4y2Ba
功能是随机选择的训练样本子集,剩下的50%作为测试样本子集,,分别用于构造分类树和分类树的性能进行评估,gydF4y2Ba
tgydF4y2Ba
次。上述两个步骤之后,总共gydF4y2Ba
年代gydF4y2Ba
tgydF4y2Ba
决策树生成,gydF4y2Ba
年代gydF4y2Ba
和gydF4y2Ba
tgydF4y2Ba
必须足够大,特别是吗gydF4y2Ba
年代gydF4y2Ba
。每个特性信息有机会出现在不同的子集,它也使所选特征信息更准确。gydF4y2Ba
为了测量提取的特征的相对重要性,加权分类率是用来评估的决策树的分类能力测试一个类集。gydF4y2Ba
cgydF4y2Ba
分类问题,让gydF4y2Ba
ngydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
是类的数量gydF4y2Ba
我gydF4y2Ba
样品分为类gydF4y2Ba
jgydF4y2Ba
样品,gydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
⋯gydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
。这样,加权分类率介绍每个类样本集的大小,具体定义如下:gydF4y2Ba
(15)gydF4y2Ba
wgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
cgydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
cgydF4y2Ba
ngydF4y2Ba
我gydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
我gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
ngydF4y2Ba
我gydF4y2Ba
2gydF4y2Ba
+gydF4y2Ba
⋯gydF4y2Ba
+gydF4y2Ba
ngydF4y2Ba
我gydF4y2Ba
cgydF4y2Ba
。gydF4y2Ba
在决策树中,如果一个功能包含更多的信息,它将发挥更大的作用在决策树的分类速度和获得更多的信息。因此,相对重要性指数(RI)被定义为一个特征gydF4y2Ba
(16)gydF4y2Ba
国际扶轮gydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
τgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
年代gydF4y2Ba
tgydF4y2Ba
wgydF4y2Ba
∑gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
我gydF4y2Ba
GgydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
没有gydF4y2Ba
。gydF4y2Ba
在gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
没有gydF4y2Ba
。gydF4y2Ba
在gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
wgydF4y2Ba
是加权分类决策树。在gydF4y2Ba
年代gydF4y2Ba
tgydF4y2Ba
决策树的随机森林,gydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
是相对重要的功能生成的吗gydF4y2Ba
τgydF4y2Ba
树。所有节点都表示gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
搞笑gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
和gydF4y2Ba
没有gydF4y2Ba
。gydF4y2Ba
在gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
标签的信息增益和样本数量的节点,然后呢gydF4y2Ba
没有gydF4y2Ba
。gydF4y2Ba
在gydF4y2Ba
τgydF4y2Ba
根的数量吗gydF4y2Ba
τgydF4y2Ba
树。每个特性的RI值计算使用上面的方法,然后,根据RI值排序的功能。最后,代表可以选择特征信息与巨大的贡献。gydF4y2Ba
2.7。分类算法gydF4y2Ba
支持向量机(SVM)是一种大型边缘分类器基于统计学习理论。它使用一个最优分离超平面分离两种类型的数据。二进制支持向量机的决策函数gydF4y2Ba
(17)gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
NgydF4y2Ba
αgydF4y2Ba
我gydF4y2Ba
ygydF4y2Ba
我gydF4y2Ba
KgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
bgydF4y2Ba
是一个常数,gydF4y2Ba
CgydF4y2Ba
是一个成本参数控制允许训练误差之间的权衡,并迫使刚性的利润率,gydF4y2Ba
ygydF4y2Ba
我gydF4y2Ba
ϵgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
支持向量,gydF4y2Ba
0gydF4y2Ba
≤gydF4y2Ba
αgydF4y2Ba
我gydF4y2Ba
≤gydF4y2Ba
CgydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
是内核函数。本文使用Vapnik的支持向量机预测蛋白质结构类(gydF4y2Ba
41gydF4y2Ba]。由于蛋白质有超过两个结构类,我们选择多类支持向量机的“一对一”战略。鉴于未知蛋白质类的测试,我们计算结合的特性和选择有效的特征基于递归特征选择和随机森林。支持向量机将找到一个优化的线性分区来解决这个多类问题。gydF4y2Ba
这项工作选择高斯核函数的支持向量机由于其优越性在解决非线性问题gydF4y2Ba
42gydF4y2Ba,gydF4y2Ba
43gydF4y2Ba]。此外,一个简单的网格搜索策略是用于选择参数gydF4y2Ba
CgydF4y2Ba
和伽马最高的整体预测。它的目的是基于10倍交叉验证的每个数据集,和的值gydF4y2Ba
CgydF4y2Ba
和γ是来自gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
10gydF4y2Ba
来gydF4y2Ba
2gydF4y2Ba
10gydF4y2Ba
。gydF4y2Ba
2.8。绩效评估gydF4y2Ba
有三种常用的交叉验证方法(二次抽样测试,独立数据集测试、重叠测试)来评估分类器的能力。重叠测试总是产生一个独特的结果,这有助于检查各种预测方法的质量。因此,我们选择了重叠测试来评估该方法并介绍了灵敏度(Sens),特异性(规范)和F1作为标准性能指标,以及每个类别的整体精度和准确性。这些标准性能指标定义如下:gydF4y2Ba
(18)gydF4y2Ba
精度gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
TPgydF4y2Ba
我gydF4y2Ba
∣gydF4y2Ba
CgydF4y2Ba
我gydF4y2Ba
∣gydF4y2Ba
,gydF4y2Ba
整体gydF4y2Ba
精度gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
TPgydF4y2Ba
我gydF4y2Ba
∑gydF4y2Ba
∣gydF4y2Ba
CgydF4y2Ba
我gydF4y2Ba
∣gydF4y2Ba
,gydF4y2Ba
SensgydF4y2Ba
=gydF4y2Ba
TPgydF4y2Ba
TPgydF4y2Ba
+gydF4y2Ba
FNgydF4y2Ba
,gydF4y2Ba
规范gydF4y2Ba
=gydF4y2Ba
TNgydF4y2Ba
《外交政策》gydF4y2Ba
+gydF4y2Ba
TNgydF4y2Ba
,gydF4y2Ba
FgydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
TPgydF4y2Ba
2gydF4y2Ba
TPgydF4y2Ba
+gydF4y2Ba
FNgydF4y2Ba
+gydF4y2Ba
《外交政策》gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
TPgydF4y2Ba
是真阳性的数量,gydF4y2Ba
《外交政策》gydF4y2Ba
是假阳性的数量,gydF4y2Ba
TNgydF4y2Ba
是真正的底片,的数量gydF4y2Ba
FNgydF4y2Ba
假阴性的数量,gydF4y2Ba
∣gydF4y2Ba
CgydF4y2Ba
我gydF4y2Ba
∣gydF4y2Ba
是蛋白质的数量在每个结构类gydF4y2Ba
CgydF4y2Ba
我gydF4y2Ba
(所有-gydF4y2Ba
αgydF4y2Ba
,所有gydF4y2Ba
βgydF4y2Ba
,gydF4y2Ba
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
和gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
类)。gydF4y2Ba
3所示。结果与讨论gydF4y2Ba
3.1。提出了预测方法的性能gydF4y2Ba
序列同源性较低的25个pdb, D640 FC699,和1189年为25%,25%,40%,和40%,分别。采用一个简单的网格搜索策略gydF4y2Ba
CgydF4y2Ba
和γ值10倍交叉验证的基础上每个数据集。敏感性(Sens),特异性(规范),和该方法的F1总结表gydF4y2Ba
2gydF4y2Ba。gydF4y2Ba
敏感性(Sens),特异性(规范)和该方法的F1四个数据集。gydF4y2Ba
| 数据集gydF4y2Ba |
类gydF4y2Ba |
Sens (%)gydF4y2Ba |
规范(%)gydF4y2Ba |
F1 (%)gydF4y2Ba |
| 25个pdbgydF4y2Ba |
所有- - -gydF4y2Ba
αgydF4y2Ba |
94.81gydF4y2Ba |
98.29gydF4y2Ba |
95.02gydF4y2Ba |
| 所有- - -gydF4y2Ba
βgydF4y2Ba |
95.26gydF4y2Ba |
98.13gydF4y2Ba |
95.05gydF4y2Ba |
|
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
89.88gydF4y2Ba |
95.25gydF4y2Ba |
86.39gydF4y2Ba |
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
85.71gydF4y2Ba |
97.16gydF4y2Ba |
88.52gydF4y2Ba |
| D640gydF4y2Ba |
所有- - -gydF4y2Ba
αgydF4y2Ba |
97.10gydF4y2Ba |
97.81gydF4y2Ba |
94.70gydF4y2Ba |
| 所有- - -gydF4y2Ba
βgydF4y2Ba |
92.86gydF4y2Ba |
99.18gydF4y2Ba |
95.02gydF4y2Ba |
|
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
97.18gydF4y2Ba |
92.87gydF4y2Ba |
90.05gydF4y2Ba |
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
80.70gydF4y2Ba |
98.93gydF4y2Ba |
87.90gydF4y2Ba |
| FC699gydF4y2Ba |
所有- - -gydF4y2Ba
αgydF4y2Ba |
97.69gydF4y2Ba |
99.45gydF4y2Ba |
97.32gydF4y2Ba |
| 所有- - -gydF4y2Ba
βgydF4y2Ba |
98.51gydF4y2Ba |
99.49gydF4y2Ba |
98.70gydF4y2Ba |
|
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
95.23gydF4y2Ba |
99.38gydF4y2Ba |
97.16gydF4y2Ba |
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
96.34gydF4y2Ba |
97.68gydF4y2Ba |
88.27gydF4y2Ba |
| 1189年gydF4y2Ba |
所有- - -gydF4y2Ba
αgydF4y2Ba |
94.62gydF4y2Ba |
96.55gydF4y2Ba |
90.95gydF4y2Ba |
| 所有- - -gydF4y2Ba
βgydF4y2Ba |
89.80gydF4y2Ba |
98.50gydF4y2Ba |
92.63gydF4y2Ba |
|
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
82.04gydF4y2Ba |
94.20gydF4y2Ba |
84.05gydF4y2Ba |
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
81.74gydF4y2Ba |
92.95gydF4y2Ba |
79.12gydF4y2Ba |
表gydF4y2Ba
2gydF4y2Ba显示所有的预测性能gydF4y2Ba
αgydF4y2Ba
类是最好的在四个结构类,和它的敏感性,特异性,F1是高于90%。但较低的预测是相关的gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
类。从表gydF4y2Ba
3gydF4y2Ba,我们发现超过86%的总体精度方法的四个数据集。——的整体精度gydF4y2Ba
αgydF4y2Ba
类显著高于其他类别,和准确性超过94%,其次是所有类别和类别。不难发现,平均总精度gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
类的四个数据集是86.1%,低于10%的所有类。这些结果表明,它更难以预测gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
不可忽视的重叠的类,因为这一类。gydF4y2Ba
预测精度(在括号中)差异四个数据集和方法的比较与其他报道的结果。gydF4y2Ba
| 数据集gydF4y2Ba |
方法gydF4y2Ba |
预测精度(%)gydF4y2Ba |
| 所有- - -gydF4y2Ba
αgydF4y2Ba |
所有- - -gydF4y2Ba
βgydF4y2Ba |
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
|
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
|
整体gydF4y2Ba |
| 25个pdbgydF4y2Ba |
AADP-PSSM [gydF4y2Ba
44gydF4y2Ba]gydF4y2Ba |
69.1gydF4y2Ba |
83.7gydF4y2Ba |
85.6gydF4y2Ba |
35.7gydF4y2Ba |
70.7gydF4y2Ba |
| AAC-PSSM-AC [gydF4y2Ba
45gydF4y2Ba]gydF4y2Ba |
85.3gydF4y2Ba |
81.7gydF4y2Ba |
73.7gydF4y2Ba |
55.3gydF4y2Ba |
74.1gydF4y2Ba |
| SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]gydF4y2Ba |
92.6gydF4y2Ba |
80.1gydF4y2Ba |
74.0gydF4y2Ba |
71.0gydF4y2Ba |
79.7gydF4y2Ba |
| 这种款式(gydF4y2Ba
34gydF4y2Ba]gydF4y2Ba |
92.3gydF4y2Ba |
83.7gydF4y2Ba |
81.2gydF4y2Ba |
68.3gydF4y2Ba |
81.4gydF4y2Ba |
| RKS-PPSC [gydF4y2Ba
47gydF4y2Ba]gydF4y2Ba |
92.8gydF4y2Ba |
83.3gydF4y2Ba |
85.8gydF4y2Ba |
70.1gydF4y2Ba |
82.9gydF4y2Ba |
| 丁等。gydF4y2Ba
46gydF4y2Ba]gydF4y2Ba |
95.0gydF4y2Ba |
81.3gydF4y2Ba |
83.2gydF4y2Ba |
77.6gydF4y2Ba |
84.3gydF4y2Ba |
| 夏et al。gydF4y2Ba
49gydF4y2Ba]gydF4y2Ba |
92.6gydF4y2Ba |
72.5gydF4y2Ba |
71.7gydF4y2Ba |
71.0gydF4y2Ba |
77.2gydF4y2Ba |
| Zhang et al。gydF4y2Ba
36gydF4y2Ba]gydF4y2Ba |
95.7gydF4y2Ba |
80.8gydF4y2Ba |
82.4gydF4y2Ba |
75.5gydF4y2Ba |
83.7gydF4y2Ba |
| 丁等。gydF4y2Ba
48gydF4y2Ba]gydF4y2Ba |
91.7gydF4y2Ba |
80.8gydF4y2Ba |
79.8gydF4y2Ba |
64.0gydF4y2Ba |
79.0gydF4y2Ba |
| Zhang et al。gydF4y2Ba
16gydF4y2Ba]gydF4y2Ba |
94.4gydF4y2Ba |
83.3gydF4y2Ba |
83.5gydF4y2Ba |
73.2gydF4y2Ba |
83.6gydF4y2Ba |
| 这篇论文gydF4y2Ba |
94.8gydF4y2Ba |
95.3gydF4y2Ba |
89.9gydF4y2Ba |
85.7gydF4y2Ba |
91.5gydF4y2Ba |
| D640gydF4y2Ba |
SCEC [gydF4y2Ba
38gydF4y2Ba]gydF4y2Ba |
73.9gydF4y2Ba |
61.0gydF4y2Ba |
81.9gydF4y2Ba |
33.9gydF4y2Ba |
62.3gydF4y2Ba |
| SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]gydF4y2Ba |
90.6gydF4y2Ba |
81.8gydF4y2Ba |
85.9gydF4y2Ba |
66.7gydF4y2Ba |
80.8gydF4y2Ba |
| RKS-PPSC [gydF4y2Ba
47gydF4y2Ba]gydF4y2Ba |
89.1gydF4y2Ba |
85.1gydF4y2Ba |
88.1gydF4y2Ba |
71.4gydF4y2Ba |
83.1gydF4y2Ba |
| 丁等。gydF4y2Ba
46gydF4y2Ba]gydF4y2Ba |
92.8gydF4y2Ba |
88.3gydF4y2Ba |
85.9gydF4y2Ba |
66.1gydF4y2Ba |
82.7gydF4y2Ba |
| Zhang et al。gydF4y2Ba
16gydF4y2Ba]gydF4y2Ba |
92.0gydF4y2Ba |
81.8gydF4y2Ba |
87.6gydF4y2Ba |
74.3gydF4y2Ba |
83.6gydF4y2Ba |
| 香港et al。gydF4y2Ba
20.gydF4y2Ba]gydF4y2Ba |
94.2gydF4y2Ba |
80.5gydF4y2Ba |
87.6gydF4y2Ba |
77.2gydF4y2Ba |
84.5gydF4y2Ba |
| 这篇论文gydF4y2Ba |
97.1gydF4y2Ba |
92.8gydF4y2Ba |
97.1gydF4y2Ba |
80.7gydF4y2Ba |
91.7gydF4y2Ba |
| FC699gydF4y2Ba |
SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]gydF4y2Ba |
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
- - - - - -gydF4y2Ba |
87.5gydF4y2Ba |
| 11特性(gydF4y2Ba
35gydF4y2Ba]gydF4y2Ba |
97.7gydF4y2Ba |
88.0gydF4y2Ba |
89.1gydF4y2Ba |
84.2gydF4y2Ba |
89.6gydF4y2Ba |
| 香港et al。gydF4y2Ba
20.gydF4y2Ba]gydF4y2Ba |
96.2gydF4y2Ba |
90.7gydF4y2Ba |
96.3gydF4y2Ba |
69.5gydF4y2Ba |
92.0gydF4y2Ba |
| 这篇论文gydF4y2Ba |
97.7gydF4y2Ba |
98.5gydF4y2Ba |
95.2gydF4y2Ba |
96.3gydF4y2Ba |
96.7gydF4y2Ba |
| 1189年gydF4y2Ba |
AADP-PSSM [gydF4y2Ba
44gydF4y2Ba]gydF4y2Ba |
69.1gydF4y2Ba |
83.7gydF4y2Ba |
85.6gydF4y2Ba |
35.7gydF4y2Ba |
70.7gydF4y2Ba |
| AAC-PSSM-AC [gydF4y2Ba
45gydF4y2Ba]gydF4y2Ba |
80.7gydF4y2Ba |
86.4gydF4y2Ba |
81.4gydF4y2Ba |
45.2gydF4y2Ba |
74.6gydF4y2Ba |
| SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba]gydF4y2Ba |
89.1gydF4y2Ba |
86.7gydF4y2Ba |
89.6gydF4y2Ba |
53.8gydF4y2Ba |
80.6gydF4y2Ba |
| 这种款式(gydF4y2Ba
34gydF4y2Ba]gydF4y2Ba |
92.3gydF4y2Ba |
87.1gydF4y2Ba |
87.9gydF4y2Ba |
65.4gydF4y2Ba |
83.5gydF4y2Ba |
| RKS-PPSC [gydF4y2Ba
47gydF4y2Ba]gydF4y2Ba |
89.2gydF4y2Ba |
86.7gydF4y2Ba |
82.6gydF4y2Ba |
65.6gydF4y2Ba |
81.3gydF4y2Ba |
| Zhang et al。gydF4y2Ba
36gydF4y2Ba]gydF4y2Ba |
92.4gydF4y2Ba |
84.4gydF4y2Ba |
84.4gydF4y2Ba |
73.4gydF4y2Ba |
83.6gydF4y2Ba |
| 丁等。gydF4y2Ba
46gydF4y2Ba]gydF4y2Ba |
89.2gydF4y2Ba |
88.8gydF4y2Ba |
85.6gydF4y2Ba |
58.5gydF4y2Ba |
81.2gydF4y2Ba |
| Zhang et al。gydF4y2Ba
16gydF4y2Ba]gydF4y2Ba |
91.5gydF4y2Ba |
86.7gydF4y2Ba |
82.0gydF4y2Ba |
66.4gydF4y2Ba |
81.8gydF4y2Ba |
| 香港et al。gydF4y2Ba
20.gydF4y2Ba]gydF4y2Ba |
91.9gydF4y2Ba |
84.4gydF4y2Ba |
85.3gydF4y2Ba |
72.2gydF4y2Ba |
83.5gydF4y2Ba |
| 这篇论文gydF4y2Ba |
94.6gydF4y2Ba |
89.7gydF4y2Ba |
82.1gydF4y2Ba |
81.7gydF4y2Ba |
86.6gydF4y2Ba |
3.2。性能比较与竞争的预测gydF4y2Ba
本文进一步将该方法与现有的竞争方法。这里,每个类和整体精度的准确性都选为评价指标来评估预测方法,并总结了他们的研究结果在表gydF4y2Ba
3gydF4y2Ba。该方法首先是与AADP-PSSM [gydF4y2Ba
44gydF4y2Ba],AAC-PSSM-AC [gydF4y2Ba
45gydF4y2Ba),和丁等人的方法gydF4y2Ba
46gydF4y2Ba基于position-specific得分矩阵)。在所有的实验中,该方法达到最佳性能,精度高于5.4 - -12.5%比下一个竞争丁等的方法(gydF4y2Ba
46gydF4y2Ba]。gydF4y2Ba
至于25 pdb数据集,我们进一步比较该方法与竞争方法:SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba],moda [gydF4y2Ba
34gydF4y2Ba),s . Zhang et al。gydF4y2Ba
25gydF4y2Ba],RKS-PPSC [gydF4y2Ba
47gydF4y2Ba),丁等。gydF4y2Ba
48gydF4y2Ba夏,et al。gydF4y2Ba
49gydF4y2Ba),开出Zhang et al。gydF4y2Ba
36gydF4y2Ba张,S.L. et al。gydF4y2Ba
16gydF4y2Ba]。很容易注意到该方法达到最佳性能,总体精度为91.5%,高于7.2丁等的方法(gydF4y2Ba
48gydF4y2Ba]。在D640数据集,我们比较该方法与SCEC [gydF4y2Ba
38gydF4y2Ba],SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba],RKS-PPSC [gydF4y2Ba
47gydF4y2Ba),Zhang et al。gydF4y2Ba
16gydF4y2Ba),香港等。gydF4y2Ba
20.gydF4y2Ba]。我们的方法的总体精度为91.7%,这是7 - 8.1%高于其他竞争方法(gydF4y2Ba
16gydF4y2Ba,gydF4y2Ba
20.gydF4y2Ba]。至于FC699,比较该方法与执行SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba),11个特征(gydF4y2Ba
35gydF4y2Ba),香港等。gydF4y2Ba
20.gydF4y2Ba]。我们发现这个方法的总体精度为96.7%,明显优于其他方法。在1189年的实验中,SCPRED [gydF4y2Ba
32gydF4y2Ba,gydF4y2Ba
33gydF4y2Ba],moda [gydF4y2Ba
34gydF4y2Ba],RKS-PPSC [gydF4y2Ba
47gydF4y2Ba),开出Zhang et al。gydF4y2Ba
36gydF4y2Ba),S.L. Zhang et al。gydF4y2Ba
16gydF4y2Ba),香港等。gydF4y2Ba
20.gydF4y2Ba)相比,该方法,我们发现该方法达到最佳的性能在所有竞争的方法。这是唯一的预测方法的整体精度超过86%,3.1%高于其他竞争的方法。gydF4y2Ba
从表可以看出gydF4y2Ba
3gydF4y2Ba预测的准确性gydF4y2Ba
αgydF4y2Ba
/gydF4y2Ba
βgydF4y2Ba
类已得到改进。具体来说,的精度gydF4y2Ba
αgydF4y2Ba
+gydF4y2Ba
βgydF4y2Ba
类25 pdb, 1189, 640,和FC699数据集是85.7%,80.7%,96.3%,和81.7%,分别是10.2%,3.5%,12.1%,和8.3%高于未来竞争力的方法,分别是(gydF4y2Ba
16gydF4y2Ba,gydF4y2Ba
20.gydF4y2Ba]。这些结果表明,该方法优于可用PSSM-based和PSSM-free预测方法,表明随机森林的递归特征选择可以选择的重要功能特性集和进步预测精度。这种理解可以用于开发更强大的蛋白质结构预测方法。gydF4y2Ba
3.3。递归特征选择的影响gydF4y2Ba
该方法的一个特性是随机森林的递归特征选择,计算每个特性的RI值和选择代表特性和巨大的贡献。为更好地理解递归特征选择,我们选择大小从10到857的特性集。所有实验执行每个选定的特性集使用重叠交叉验证测试,和整体精度选择代表这个预测的分数。图gydF4y2Ba
1gydF4y2Ba显示所有实验的总体精度与所选择的特性集四个数据集。gydF4y2Ba
所有实验的整体精度的比较与选择的特性集四个数据集。gydF4y2Ba
正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集的大小小于50岁,所有数据集都达到最好的预测。选定的特征数量的增加,总体精度会降低。选择功能的数量对应于最佳性能远低于原始特征的总数。因此,有大量的冗余信息在原来的组合特性集。随机森林的递归特征选择是用于选择和降低维度,四个数据集的分类率25 pdb, 1189年,640年,和FC699是91.5%,86.6%,91.7%,和96.7%,分别增加了4.6 - -13.3%。gydF4y2Ba
3.4。不同特性的影响gydF4y2Ba
提高预测蛋白质结构类,我们使用四种蛋白质功能:蛋白质序列的特性,蛋白质位置功能,减少功能相结合,并预测二级结构特征。为简便起见,让PSF, PPF, RCF,和PSSF表示这四种蛋白的特性,分别。通过实验,我们想解决哪些特性有助于预测更好。gydF4y2Ba
评估的贡献各种蛋白质的特性,我们提出的总体预测精度的比较四种蛋白质特性图gydF4y2Ba
2gydF4y2Ba。它表明每个特性使得预测自己的积极贡献。PSSF达到最佳性能的四种蛋白质的特性,这是8% ~ 31%高于其他三个特性。此外,PSSF选择有效的特征,这表明PSSF相对重要和预测的改进有很大的贡献。很容易注意PSSF是直接从二级结构预测序列中提取,包括的信息gydF4y2Ba
αgydF4y2Ba
螺旋和gydF4y2Ba
βgydF4y2Ba
倍交替频率和空间安排。与氨基酸的频率和位置相比,二级结构序列信息更密切相关的二级结构类型;这就是为什么它在蛋白质结构预测达到最佳性能。gydF4y2Ba
比较四种蛋白质的总体预测精度特性。gydF4y2Ba