使用递归特征选择和随机森林,改善蛋白质结构类预测Low-Similarity序列

文摘

许多组合蛋白质的功能是用来改善蛋白质结构类预测,但冗余的信息往往被忽视。为了选择分类能力强的重要特征,我们提出了一种递归特征选择与改善蛋白质结构类预测随机森林。我们评估该方法有四个实验,并与现有的预测方法。结果表明,所提出的特征选择方法有效地提高了蛋白质结构类预测的效率。只有不到5%的特性,但预测精度提高了-13.3% - 4.6。我们进一步比较不同的蛋白质功能和发现预测二级结构特点实现最佳的性能。这种理解可以用来设计更强大的预测蛋白质结构类的方法。

1。介绍

蛋白质结构类是蛋白质研究的基础研究领域,使蛋白质功能研究的重大贡献,蛋白质折叠速率、DNA结合位点,和蛋白质折叠识别,以及减少构象的搜索空间和实现的预测三级结构(1- - - - - -7]。近年来,蛋白质序列和结构之间的差距变得越来越大随着测序技术的发展,它是相对缓慢的通过实验方法来识别三维结构。因此,有必要开发计算方法快速、准确测定蛋白质结构类。

蛋白质结构是由他们的序列。因此,蛋白质结构类可以直接确定序列信息的基础上,可以进一步指导生物实验,降低实验成本。许多蛋白质结构类预测方法提出了自蛋白质结构类的概念提出了(3- - - - - -5,7- - - - - -11]。首先,蛋白质结构类预测的目的是基于蛋白质成分(1,12,13),如短肽成分(14- - - - - -16),伪氨基酸组成(17- - - - - -20.),和功能域组成搭配(21]。氨基酸组成(AAC)的比例计算根据20个氨基酸残基序列和表示一个数值向量序列特征信息(14- - - - - -16]。然而,它并没有把交互和氨基酸的物理化学性质。伪氨基酸组成(PseACC)进一步提出了蛋白质的特征信息(17- - - - - -22],它不仅仅考虑氨基酸残基的组成也考虑的物理和化学性质,如疏水性氨基酸残基。此外,提取特征信息通过计算肽组件(23),考虑氨基酸残基之间的序列的因素。

基于序列特性的预测方法表现良好的高相似性的数据集,而他们的精度在low-similarity数据集只有50%。提出一些改进特征提取方法需要迫切。坟头等人介绍了SCPRED方法的帮助下预测二级结构(24]。张等人计算一个TPM矩阵来表示预测二级结构特征(25]。戴等人还提出了一种二级结构特征的统计特性对蛋白质结构类预测(26]。丁等人构建一个多维向量表示为预测二级结构特征,以及一些方法,融合多个特性也设计(27]。陈等人提出了一个multifeature融合方法,该方法结合了结构信息和物理化学(28,29日]。Nanni等人介绍了一个预测方法相结合的特点,一级序列和二级结构的特点30.]。王等人结合改进简化了PSSM与蛋白质结构类预测二级结构特征(31日]。

帮助下上述特性,预测精度提高80%以上几个low-similarity基准数据集,但在他们的发展仍然存在一些问题。为了提高预测模型的效率,一些研究集成不同的蛋白质特性来建立预测模型。然而,值得注意的是,不同功能的简单组合并不一定提高预测的性能。如果组合是不合适的,它甚至可能相互抵消中包含的信息,这不仅会导致信息的冗余增加模型的复杂性和计算。

考虑到上述问题,我们提出了一个计划来预测蛋白质结构类使用递归特征选择和随机森林。我们首先探讨蛋白质含量特性,蛋白质位置功能,减少功能相结合,并预测二级结构特点和讨论他们的贡献对蛋白质结构类的预测。然后,我们提出了一种递归特征选择方法从上面的特性集,选择重要的功能,每个特性的相对重要性指数是基于随机森林算法计算。最后,特征选择根据他们的相对重要性的价值。小说通过一个全面的比较和讨论,一些有价值的指南使用递归特征选择和蛋白质的功能。

2。材料和方法

2.1。数据集

四个广泛使用low-similarity基准数据集选择与现有的方法比较(24,25,32- - - - - -37]。第一个数据集是25 pdb,序列同源性为25%,最初发表在32,33]。它包含1673个蛋白质和域名,从PDB下载并与高分辨率扫描。第二个数据集是D640, 25%序列的身份。它由640个蛋白质,和吟游诗人的分类标签数据库(32,33]。第三个数据集是FC699, 858序列有40%低身份。最后一个数据集,表示在1189年,有40%的序列的身份。它由1092蛋白质三维结构数据,从RCSB蛋白质数据库,下载和PDB ID列(38]。表1提供更详细的信息关于这些low-similarity基准数据集。


数据集	所有- - -α	所有- - -β			总

25个pdb	443年	443年	346年	441年	1673年
D640	138年	154年	177年	171年	640年
FC699	130年	269年	377年	82年	858年
1189年	223年	294年	334年	241年	1092年

2.2。序列内容的功能

有大量的统计文献,解释为一个序列的一系列符号。一个 - - - - - -词是一个序列 - - - - - -连续的字母序列。的序列长度为 ,的数 - - - - - -词 ,由 ,的次数出现在序列。在这里, - - - - - -单词是允许在序列重叠。序列的频率可以被描述的内容 - - - - - -词,它可以表示为一个 - - - - - -维向量 : 在哪里所有可能的总数吗- - - - - -单词。然后,序列特性可以计算的内容

这项工作计算和构造序列内容的功能。

2.3。序列位置功能

除了序列内容的特性,我们也注意到这些位置分布 - - - - - -文字元素。给定一个 - - - - - -词,我们首先改变了蛋白质的结构序列分成几个位置信号序列。如果间隔距离给定的 - - - - - -词等于1,连续吗 - - - - - -词将形成一个结构和主题域。否则,他们属于两个不同的领域。考虑到和整数 ,我们计算的概率需要的值 ,的概率分布将获得的。semimean数值特征和半方差是由

标准的序列位置特性来被定义为

的变化 - - - - - -词相对于其人口意味着26),我们计算和构造序列位置特性。

2.4。减少序列特征

亲水性氨基酸是一个重要的物理和化学性质。的亲水性氨基酸,20种氨基酸可分为三类:内部集团外部集团和矛盾。减少蛋白质序列的定义是根据以下规则: 在哪里代表了 - - - - - -信的蛋白质序列和代表的替换。

的帮助下 ,蛋白质序列可以转化为减少序列,它只包含三个字母I, E,和a .例如,给定一个蛋白质序列 ,我们可以减少蛋白质序列。在这里,我们计算的序列组成和位置特征减少序列结合减少序列特性。

2.5。预测二级结构特点

蛋白质序列特性在蛋白质结构类中实现了有前景的结果预测,但其精度是有限的。一些研究表明,二级结构元素的内容和空间的安排也很重要影响因素的复杂的功能或结构蛋白质。因此,提高预测精度的方法之一是增加二级结构特点的特性集(24- - - - - -31日]。在这个工作中,PSI-PRED是用来预测二级结构序列3911],广泛使用的预测二级结构特征计算来提高蛋白质结构类预测(40]。(1)预测二级结构元素的内容( ):给定一个二级结构预测,其预测二级结构元素的内容可以通过以下公式计算

, ,和表示 - - - - - -螺旋, - - - - - -链,分别和线圈。(2)一线和二阶组合时刻向量(CMV),另一个重要的结构功能,可以计算如下: 在哪里表示的二级结构元素 - - - - - -在二级结构序列中的位置与长度 ,和是向量顺序。(3)长度最长的段( ): 在哪里表示最大分段长度函数和段是由结构的元素。(4)规范化的长度最长的段( ): 在哪里是序列长度。(5)平均长度的段( ):

在哪里区段长度函数吗表示的内容。(6)归一化平均长度的段( ): 在哪里是序列长度。(7)交流的频率 - - - - - -螺旋和 - - - - - -链和比例的平行 - - - - - -床单和反平行的 - - - - - -表(光电)。

刘和贾相比交替频率不同的结构元素和发现 - - - - - -螺旋和 - - - - - -链更频繁地交替蛋白质比蛋白质,因此介绍了交替的频率 - - - - - -螺旋和 - - - - - -链来预测蛋白质结构类(35]。规范化交替频率定义如下: 在哪里表示的总交替 - - - - - -螺旋和 - - - - - -链,是序列长度。

2.6。递归特征选择和随机森林

随机森林的每个决策树从根节点分为训练集按照自上而下的原则。树的根节点分为左、右节点根据最大信息增益的原理,也就是说,该节点的训练数据分为两个子集。在相同的规则下,剩余节点继续分裂,直到分支停止规则是满意。其中,节点信息增益可以通过信息熵计算,信息增益率,基尼指数。在这项研究中,信息熵选择获得信息增益,定义如下: 在哪里在哪里训练集的分类吗 , 是特征属性,类的概率是在 , 。是年代属性的子集一个,统计样本的数量,训练集的样本的数量吗。在这项研究中,有四种类型的问题;因此, 。

决策树分类器,分类率是一个重要的指标来衡量所构造的分类器,但特征信息的重要性在决策树节点的建设不容忽视。为了选择重要的功能强大的分类能力,这项工作介绍了随机森林的想法基于相对重要性的特征选择。

在实验中,随机抽取一定数量的特性从候选特征构建大量的决策树,选择代表和有效的特征信息。首先,候选人特性获得随机分为不同的特征提取方法子集。在每个子集,50%的样品对应功能是随机选择的训练样本子集,剩下的50%作为测试样本子集,,分别用于构造分类树和分类树的性能进行评估,次。上述两个步骤之后,总共决策树生成,和必须足够大,特别是吗。每个特性信息有机会出现在不同的子集,它也使所选特征信息更准确。

为了测量提取的特征的相对重要性,加权分类率是用来评估的决策树的分类能力测试一个类集。分类问题,让是类的数量样品分为类样品, 。这样,加权分类率介绍每个类样本集的大小,具体定义如下:

在决策树中,如果一个功能包含更多的信息,它将发挥更大的作用在决策树的分类速度和获得更多的信息。因此,相对重要性指数(RI)被定义为一个特征在哪里是加权分类决策树。在决策树的随机森林,是相对重要的功能生成的吗树。所有节点都表示 , 和标签的信息增益和样本数量的节点,然后呢根的数量吗树。每个特性的RI值计算使用上面的方法,然后,根据RI值排序的功能。最后,代表可以选择特征信息与巨大的贡献。

2.7。分类算法

支持向量机(SVM)是一种大型边缘分类器基于统计学习理论。它使用一个最优分离超平面分离两种类型的数据。二进制支持向量机的决策函数在哪里是一个常数,是一个成本参数控制允许训练误差之间的权衡,并迫使刚性的利润率, , 支持向量, ,和是内核函数。本文使用Vapnik的支持向量机预测蛋白质结构类(41]。由于蛋白质有超过两个结构类,我们选择多类支持向量机的“一对一”战略。鉴于未知蛋白质类的测试,我们计算结合的特性和选择有效的特征基于递归特征选择和随机森林。支持向量机将找到一个优化的线性分区来解决这个多类问题。

这项工作选择高斯核函数的支持向量机由于其优越性在解决非线性问题42,43]。此外,一个简单的网格搜索策略是用于选择参数和伽马最高的整体预测。它的目的是基于10倍交叉验证的每个数据集,和的值和γ是来自来。

2.8。绩效评估

有三种常用的交叉验证方法(二次抽样测试,独立数据集测试、重叠测试)来评估分类器的能力。重叠测试总是产生一个独特的结果,这有助于检查各种预测方法的质量。因此,我们选择了重叠测试来评估该方法并介绍了灵敏度(Sens),特异性(规范)和F1作为标准性能指标,以及每个类别的整体精度和准确性。这些标准性能指标定义如下: 在哪里是真阳性的数量,是假阳性的数量,是真正的底片,的数量假阴性的数量, 是蛋白质的数量在每个结构类(所有- ,所有- - - , 和类)。

3所示。结果与讨论

3.1。提出了预测方法的性能

序列同源性较低的25个pdb, D640 FC699,和1189年为25%,25%,40%,和40%,分别。采用一个简单的网格搜索策略和γ值10倍交叉验证的基础上每个数据集。敏感性(Sens),特异性(规范),和该方法的F1总结表2。


数据集	类	Sens (%)	规范(%)	F1 (%)

25个pdb	所有- - -α	94.81	98.29	95.02
	所有- - -β	95.26	98.13	95.05
		89.88	95.25	86.39
		85.71	97.16	88.52
D640	所有- - -α	97.10	97.81	94.70
	所有- - -β	92.86	99.18	95.02
		97.18	92.87	90.05
		80.70	98.93	87.90
FC699	所有- - -α	97.69	99.45	97.32
	所有- - -β	98.51	99.49	98.70
		95.23	99.38	97.16
		96.34	97.68	88.27
1189年	所有- - -α	94.62	96.55	90.95
	所有- - -β	89.80	98.50	92.63
		82.04	94.20	84.05
		81.74	92.95	79.12

表2显示所有的预测性能类是最好的在四个结构类,和它的敏感性,特异性,F1是高于90%。但较低的预测是相关的类。从表3,我们发现超过86%的总体精度方法的四个数据集。——的整体精度类显著高于其他类别,和准确性超过94%,其次是所有类别和类别。不难发现,平均总精度类的四个数据集是86.1%,低于10%的所有类。这些结果表明,它更难以预测不可忽视的重叠的类,因为这一类。


数据集	方法	预测精度(%)
数据集	方法	所有- - -α	所有- - -β			整体

25个pdb	AADP-PSSM [44]	69.1	83.7	85.6	35.7	70.7
	AAC-PSSM-AC [45]	85.3	81.7	73.7	55.3	74.1
	SCPRED [32,33]	92.6	80.1	74.0	71.0	79.7
	这种款式(34]	92.3	83.7	81.2	68.3	81.4
	RKS-PPSC [47]	92.8	83.3	85.8	70.1	82.9
	丁等。46]	95.0	81.3	83.2	77.6	84.3
	夏et al。49]	92.6	72.5	71.7	71.0	77.2
	Zhang et al。36]	95.7	80.8	82.4	75.5	83.7
	丁等。48]	91.7	80.8	79.8	64.0	79.0
	Zhang et al。16]	94.4	83.3	83.5	73.2	83.6
	这篇论文	94.8	95.3	89.9	85.7	91.5
D640	SCEC [38]	73.9	61.0	81.9	33.9	62.3
	SCPRED [32,33]	90.6	81.8	85.9	66.7	80.8
	RKS-PPSC [47]	89.1	85.1	88.1	71.4	83.1
	丁等。46]	92.8	88.3	85.9	66.1	82.7
	Zhang et al。16]	92.0	81.8	87.6	74.3	83.6
	香港et al。20.]	94.2	80.5	87.6	77.2	84.5
	这篇论文	97.1	92.8	97.1	80.7	91.7
FC699	SCPRED [32,33]	- - - - - -	- - - - - -	- - - - - -	- - - - - -	87.5
	11特性(35]	97.7	88.0	89.1	84.2	89.6
	香港et al。20.]	96.2	90.7	96.3	69.5	92.0
	这篇论文	97.7	98.5	95.2	96.3	96.7
1189年	AADP-PSSM [44]	69.1	83.7	85.6	35.7	70.7
	AAC-PSSM-AC [45]	80.7	86.4	81.4	45.2	74.6
	SCPRED [32,33]	89.1	86.7	89.6	53.8	80.6
	这种款式(34]	92.3	87.1	87.9	65.4	83.5
	RKS-PPSC [47]	89.2	86.7	82.6	65.6	81.3
	Zhang et al。36]	92.4	84.4	84.4	73.4	83.6
	丁等。46]	89.2	88.8	85.6	58.5	81.2
	Zhang et al。16]	91.5	86.7	82.0	66.4	81.8
	香港et al。20.]	91.9	84.4	85.3	72.2	83.5
	这篇论文	94.6	89.7	82.1	81.7	86.6

3.2。性能比较与竞争的预测

本文进一步将该方法与现有的竞争方法。这里,每个类和整体精度的准确性都选为评价指标来评估预测方法,并总结了他们的研究结果在表3。该方法首先是与AADP-PSSM [44],AAC-PSSM-AC [45),和丁等人的方法46基于position-specific得分矩阵)。在所有的实验中,该方法达到最佳性能,精度高于5.4 - -12.5%比下一个竞争丁等的方法(46]。

至于25 pdb数据集,我们进一步比较该方法与竞争方法:SCPRED [32,33],moda [34),s . Zhang et al。25],RKS-PPSC [47),丁等。48夏,et al。49),开出Zhang et al。36张,S.L. et al。16]。很容易注意到该方法达到最佳性能,总体精度为91.5%,高于7.2丁等的方法(48]。在D640数据集,我们比较该方法与SCEC [38],SCPRED [32,33],RKS-PPSC [47),Zhang et al。16),香港等。20.]。我们的方法的总体精度为91.7%,这是7 - 8.1%高于其他竞争方法(16,20.]。至于FC699,比较该方法与执行SCPRED [32,33),11个特征(35),香港等。20.]。我们发现这个方法的总体精度为96.7%,明显优于其他方法。在1189年的实验中,SCPRED [32,33],moda [34],RKS-PPSC [47),开出Zhang et al。36),S.L. Zhang et al。16),香港等。20.)相比,该方法,我们发现该方法达到最佳的性能在所有竞争的方法。这是唯一的预测方法的整体精度超过86%,3.1%高于其他竞争的方法。

从表可以看出3预测的准确性类已得到改进。具体来说,的精度类25 pdb, 1189, 640,和FC699数据集是85.7%,80.7%,96.3%,和81.7%,分别是10.2%,3.5%,12.1%,和8.3%高于未来竞争力的方法,分别是(16,20.]。这些结果表明,该方法优于可用PSSM-based和PSSM-free预测方法,表明随机森林的递归特征选择可以选择的重要功能特性集和进步预测精度。这种理解可以用于开发更强大的蛋白质结构预测方法。

3.3。递归特征选择的影响

该方法的一个特性是随机森林的递归特征选择,计算每个特性的RI值和选择代表特性和巨大的贡献。为更好地理解递归特征选择,我们选择大小从10到857的特性集。所有实验执行每个选定的特性集使用重叠交叉验证测试,和整体精度选择代表这个预测的分数。图1显示所有实验的总体精度与所选择的特性集四个数据集。

正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集的大小小于50岁,所有数据集都达到最好的预测。选定的特征数量的增加,总体精度会降低。选择功能的数量对应于最佳性能远低于原始特征的总数。因此,有大量的冗余信息在原来的组合特性集。随机森林的递归特征选择是用于选择和降低维度,四个数据集的分类率25 pdb, 1189年,640年,和FC699是91.5%,86.6%,91.7%,和96.7%,分别增加了4.6 - -13.3%。

3.4。不同特性的影响

提高预测蛋白质结构类,我们使用四种蛋白质功能:蛋白质序列的特性,蛋白质位置功能,减少功能相结合,并预测二级结构特征。为简便起见,让PSF, PPF, RCF,和PSSF表示这四种蛋白的特性,分别。通过实验,我们想解决哪些特性有助于预测更好。

评估的贡献各种蛋白质的特性,我们提出的总体预测精度的比较四种蛋白质特性图2。它表明每个特性使得预测自己的积极贡献。PSSF达到最佳性能的四种蛋白质的特性,这是8% ~ 31%高于其他三个特性。此外,PSSF选择有效的特征,这表明PSSF相对重要和预测的改进有很大的贡献。很容易注意PSSF是直接从二级结构预测序列中提取,包括的信息 - - - - - -螺旋和 - - - - - -褶皱交替频率和空间安排。与氨基酸的频率和位置相比,二级结构序列信息更密切相关的二级结构类型;这就是为什么它在蛋白质结构预测达到最佳性能。

4所示。结论

蛋白质结构类提供一些有用的信息对于整个折叠的研究类型,特别是对于蛋白质序列相似性较低。各种类型的蛋白质特性改善蛋白质结构类预测相结合。然而,应该注意的是,该功能融合还将带来信息冗余和影响预测的效率和准确性。提出了一种特征选择方法对蛋白质结构类预测,计算每个特性的RI值的随机森林和选择代表特性基于每一个贡献。要做到这一点,我们首先提取蛋白质序列的特性和位置特征,减少功能相结合,预测二级结构特性,并使用递归特征选择和随机森林预测选择核心功能。实验结果表明,随机森林的递归特征选择有效地改善蛋白质结构类预测的效率。只有不到5%的特性,但预测精度提高了-13.3% - 4.6。为更好的理解不同的蛋白质的特性,我们比较每种蛋白质特性的贡献,发现预测二级结构特点实现最佳性能在四种蛋白质的特性,这是8% ~ 31%高于其他特性。这种理解可以用于开发更强大的方法来预测蛋白质结构类。

数据可用性

所有数据用于支持本研究的发现是可用的https://github.com/qidaizstu/recursive-feature-selection。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(61772028)和来自中国浙江省自然科学基金的研究经费(LY20F020016)。

引用

p·克莱因和c . Delisi”从氨基酸序列预测蛋白质结构类的,”生物聚合物,25卷,不。9日,第1672 - 1659页,1986年。视图:出版商的网站|谷歌学术搜索
k . c .周”结构生物信息学和生物医学科学和药物发现的影响,“药物化学前沿,3卷,第502 - 455页,2006年。视图:谷歌学术搜索
m·莱维特和c . Chothia球状蛋白质结构模式”,自然,卷261,不。5561年,第558 - 552页,1976年。视图:出版商的网站|谷歌学术搜索
a . Andreeva d·豪·e·布伦纳,t·j·哈伯德c . Chothia和a·g·Murzin“吟游诗人2004年数据库:细化整合家庭结构和序列数据,”核酸的研究,32卷,不。90001年,226 d - 2229, 2004页。视图:出版商的网站|谷歌学术搜索
a·g·Murzin s e·布伦纳,t·哈伯德和c . Chothia“吟游诗人:蛋白质结构分类数据库序列和结构的调查,“分子生物学杂志,卷247,不。4、536 - 540年,1995页。视图:出版商的网站|谷歌学术搜索
p . Ferragina r·吉安卡洛诉希腊,g . Manzini和g·卡洛斯”Compression-based生物序列分类和结构通过普遍的相似性度量:实验评估,”BMC生物信息学,8卷,不。1,p。252年,2007。视图:出版商的网站|谷歌学术搜索
问:戴和t·m·王”比较研究k词统计措施对蛋白质:从序列的序列空间,”BMC生物信息学,9卷,不。1,2008。视图:出版商的网站|谷歌学术搜索
x y . c . Chen,邹,p . Cai和j·莫,“使用pseudo-amino酸成分和支持向量机来预测蛋白质结构类,“理论生物学杂志》上,卷243,不。3、444 - 448年,2006页。视图:出版商的网站|谷歌学术搜索
k .周”,预测蛋白质结构类和亚细胞位置,”当前蛋白质和肽科学,1卷,不。2、171 - 208年,2000页。视图:出版商的网站|谷歌学术搜索
k·d·Kedarisetti洛杉矶坟头,迪克,“分类器集合体为蛋白质结构类预测不同的同源性,”生物化学和生物物理研究通信,卷348,不。3、981 - 988年,2006页。视图:出版商的网站|谷歌学术搜索
问:戴,l . Wu, l·h·李”改善蛋白质结构类使用新颖的组合序列预测信息和预测二级结构特点,“计算化学杂志,32卷,不。16,3393 - 3393年,2011页。视图:出版商的网站|谷歌学术搜索
k . c .周”决心的关键驱动力的蛋白质结构类,“生物化学和生物物理研究通信,卷264,不。1,第224 - 216页,1999。视图:出版商的网站|谷歌学术搜索
k c .周和h沈,“最新进展在蛋白质亚细胞定位预测,”分析生物化学,卷370,不。1,硕士论文,2007页。视图:出版商的网站|谷歌学术搜索
罗r . y, z . p .冯,j·k·刘,“预测蛋白质结构类氨基酸和多肽成分,”欧洲生物化学杂志,卷269,不。17日,第4225 - 4219页,2002年。视图:出版商的网站|谷歌学术搜索
x d .太阳和r . b .黄”,使用支持向量机预测蛋白质结构类的,”氨基酸,30卷,不。4、469 - 475年,2006页。视图:出版商的网站|谷歌学术搜索
s . l . Zhang y y梁,x g .元,“提高预测精度的蛋白质结构类:接近与交替的词频和规范化Lempel-Ziv复杂性,”理论生物学杂志》上卷,341年,第77 - 71页,2014年。视图:出版商的网站|谷歌学术搜索
y s叮,t·l·张,k . c .周”预测蛋白质结构类的伪氨基酸组成和模糊支持向量机网络,”蛋白质和多肽的信件,14卷,不。8,811 - 815年,2007页。视图:出版商的网站|谷歌学术搜索
l .吴问:戴,汉族,l .朱和l·h·李”结合序列信息和预测二级结构特征来预测蛋白质结构类,”2011第五届国际会议上生物信息学和生物医学工程,2011年,页1 - 4。视图:谷歌学术搜索
廖,问:香和d·李,“将二次特征纳入周一般形式的PseAAC预测蛋白质结构类,“蛋白质和多肽的信件,19卷,不。11日,第1138 - 1133页,2012年。视图:出版商的网站|谷歌学术搜索
l, l·c·张,j . f . Lv”准确预测蛋白质结构类,通过融合预测二级结构信息周的一般形式的伪氨基酸组成,”理论生物学杂志》上卷。344年,12 - 18,2014页。视图:出版商的网站|谷歌学术搜索
m . s .拉赫曼s Shatabda萨哈,m . Kaykobad和m . s .拉赫曼,“DPP-PseAAC: dna结合蛋白质预测模型使用周PseAAC将军”理论生物学杂志》上卷。452年,22-34,2018页。视图:出版商的网站|谷歌学术搜索
李y, y左,y, z燕,g . Li和l .杨”PseKRAAC:一个灵活的web服务器生成伪K-tuple减少氨基酸成分,”生物信息学,33卷,不。1,第124 - 122页,2017。视图:出版商的网站|谷歌学术搜索
k·c·周和y . d .蔡”,预测蛋白质结构类的功能域组成,”生物化学和生物物理研究通信,卷321,不。4、1007 - 1009年,2004页。视图:出版商的网站|谷歌学术搜索
l .坟头k . cio和k·陈,“SCPRED:准确预测蛋白质结构类的模糊状态序列相似的预测序列,”BMC生物信息学9卷,页1 - 15,2008。视图:谷歌学术搜索
s, s .叮,t·王,“高精度预测蛋白质结构类low-similarity序列二级结构预测的基础上,“Biochimie,卷93,不。4、710 - 714年,2011页。视图:出版商的网站|谷歌学术搜索
问:戴,y, x刘et al .,”比较研究的统计特性预测蛋白质结构类预测二级结构:从内容到位置,”BMC生物信息学,14卷,不。1,p。152年,2013。视图:出版商的网站|谷歌学术搜索
h·丁·h·林,w . Chen等人“预测蛋白质结构类基于特征选择技术,”跨学科的科学》第六卷,第240 - 235页,2014年。视图:谷歌学术搜索
c·陈,陈l . x, x y邹,p . x Cai,“预测蛋白质结构类基于性质融合,”理论生物学杂志》上,卷253,不。2、388 - 392年,2008页。视图:出版商的网站|谷歌学术搜索
a . v . Kumar r·f·m·阿里·c . Yu,诉诉Krishnan”应用程序的数据挖掘工具基于分类从残留的蛋白质结构类平均NMR化学变化,“Biochimica et Biophysica学报卷,1854年,第1552 - 1545页,2015年。视图:谷歌学术搜索
l . Nanni s Brahnam, a . Lumini”预测蛋白质结构类,通过融合不同的描述符的周将军的伪氨基酸组成,”理论生物学杂志》上卷,360年,第116 - 109页,2014年。视图:出版商的网站|谷歌学术搜索
j . c . j . Wang Wang曹、刘x, y姚明,和戴问:“预测蛋白质结构类low-similarity序列使用减少PSSM和定位二级结构特点,“基因,卷554,不。2、241 - 248年,2015页。视图:出版商的网站|谷歌学术搜索
洛杉矶坟头,l . Homaeian预测蛋白质序列和域的结构性类——的影响预测算法,序列表示和同源性,精度和测试程序,”模式识别,39卷,不。12日,第2343 - 2323页,2006年。视图:出版商的网站|谷歌学术搜索
c .郑和l .坟头”beta-turns预测准确率超过80%基于预测二级结构和多重比对的合奏,”BMC生物信息学,9卷,不。1,第430 - 430页,2008。视图:出版商的网站|谷歌学术搜索
m . j . Mizianty和l .坟头”模块化预测蛋白质结构类与预测序列,序列的模糊状态的身份”BMC生物信息学,10卷,不。1,第414 - 414页,2009。视图:出版商的网站|谷歌学术搜索
t·刘,c . z贾庆林,“高精度蛋白质结构类使用预测二级结构信息预测算法,”理论生物学杂志》上,卷267,不。3、272 - 275年,2010页。视图:出版商的网站|谷歌学术搜索
l . c .张x问:赵,l .香港“蛋白质结构类预测方法基于新颖的特点,“Biochimie,卷95,不。9日,第1744 - 1741页,2013年。视图:出版商的网站|谷歌学术搜索
l .坟头k·陈,“《暮光之城》的预测蛋白质结构类区序列,”生物化学和生物物理研究通信,卷357,不。2、453 - 460年,2007页。视图:出版商的网站|谷歌学术搜索
k . Chen洛杉矶坟头,j . s .阮”预测蛋白质结构类小说使用进化collocation-based序列表示,“计算化学杂志卷,29号10日,1596 - 1604年,2008页。视图:出版商的网站|谷歌学术搜索
d·t·琼斯,“蛋白质二级结构预测基于position-specific评分矩阵¹”,分子生物学杂志,卷292,不。2、195 - 202年,1999页。视图:出版商的网站|谷歌学术搜索
h .沈和k·c·周”Nuc-PLoc:一个新的web -预测蛋白质融合PseAA成分和PsePSSM亚核的定位,“蛋白质工程的设计和选择,20卷,不。11日,第567 - 561页,2007年。视图:出版商的网站|谷歌学术搜索
诉Vapnik,统计学习理论的本质施普林格1 - 2000。视图:出版商的网站
k . t . Li粉丝,j . Wang和w·王,“减少残留的蛋白质序列复杂性分组。”蛋白质工程1卷,第330 - 323页,2003年。视图:谷歌学术搜索
x y Cai,刘、徐x和k .周”预测蛋白质结构类的支持向量机,”计算机与化学,26卷,不。3、293 - 296年,2002页。视图:出版商的网站|谷歌学术搜索
郑x t . Liu, j .王”low-similarity序列预测蛋白质结构类使用支持向量机和PSI-BLAST概要,”Biochimie,卷92,不。10日,1330 - 1334年,2010页。视图:出版商的网站|谷歌学术搜索
耿t·刘,x, x, r·李和j·王,“准确预测蛋白质结构类的使用汽车的协方差变换PSI-BLAST概要文件,”氨基酸,42卷,不。6,2243 - 2249年,2012页。视图:出版商的网站|谷歌学术搜索
郑胜耀叮,s . j .燕七,y, y . h .姚明,“基于PSI-BLAST蛋白质结构类预测方法简介,“理论生物学杂志》上卷。353年,19号,2014页。视图:出版商的网站|谷歌学术搜索
j . y, z l .彭,x,“预测蛋白质结构类low-homology序列二级结构预测的基础上,“BMC生物信息学,11卷,不。S1, 2010年。视图:出版商的网站|谷歌学术搜索
郑胜耀叮,s . l . Zhang y,和t . m . Wang”一种新的蛋白质结构类预测方法预测二级结构的基础上,“Biochimie,卷94,不。5,1166 - 1171年,2012页。视图:出版商的网站|谷歌学术搜索
夏x y、m . Ge z . x, x m .锅,“准确预测蛋白质结构类的,”《公共科学图书馆•综合》,7卷,不。6 p . e37653 2012。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

机器学习和网络生物学和医学的方法2021

文摘