基于一致序列和分段PSSM的低相似度序列蛋白质结构分类预测

摘要

预测低相似性序列的蛋白质结构类别有助于理解蛋白质的折叠模式、调控、功能和相互作用。众所周知，特征提取对预测蛋白质结构类别具有重要意义，主要使用蛋白质一级序列、预测二级结构序列和位置特异性评分矩阵(PSSM)。目前，单纯基于PSSM的预测在提高预测精度方面起着关键作用。本文提出了一种融合一致性序列(CS)、分段PsePSSM和基于PSSM的分段自协方差变换(ACT)的csp - segsep - segacp方法。本文采用三种常用的低相似度数据集(1189、25PDB和640)。然后构造700维(700D)特征向量，利用主成分分析(PCA)将其降维至224D。为了验证我们的方法的性能，我们在1189、25PDB和640数据集上进行了严格的折叠刀交叉验证测试。与已有的基于pssm的方法进行了比较，结果表明我们的方法具有较好的竞争力。这将为其他基于pssm的方法预测低相似度序列的蛋白质结构类别提供重要的补充。

1.介绍

蛋白质结构类在蛋白质科学中起着关键作用，这仅仅是因为蛋白质的生物学功能本质上与其三级结构相关，三级结构是由蛋白质折叠过程中氨基酸序列所决定的[1］.利用结构类的知识，减少三级结构可能构象的搜索空间[2，3.];因此，蛋白质结构类的预测成为计算生物学研究的热点和难点。蛋白质结构类的概念是由Levitt和Chothia提出的[4]，根据蛋白质结构域二级结构要素的内容和空间排列，将给定的蛋白质主要分为四类结构;他们都是- - - - - -,所有，,．全部-和所有- - -蛋白质主要分别由螺旋和链组成。的蛋白质混合了螺旋和大部分平行链，并且蛋白质混合了螺旋和大部分反平行链。

在过去的二十年中，已经发展了大量的统计学习算法来解决这一问题。蛋白质结构类预测是典型的模式识别问题，主要分为三个步骤进行。第一步是特征提取，将不同长度的序列转换为等长度的特征向量。方法包括氨基酸组成(AAC) [5- - - - - -8]、伪氨基酸组成(PseAAC) [9- - - - - -11，多肽组成[12，13，功能域组成[14，位置特定的迭代基本局部对齐搜索工具(PSI-BLAST)概要文件[15- - - - - -17，伪位置特定评分矩阵(PsePSSM) [18，19，以及预测的蛋白质二级结构[20.- - - - - -22］.第二步是特征选择，包括主成分分析(PCA) [23，支持向量机递归特征消除(SVM-RFE) [24，包装和过滤器[25］.最后一步是选择较好的分类算法。目前的算法包括神经网络[26]，支持向量机（SVM）[27，28，模糊聚类[29，贝叶斯分类[30.，粗糙集[31]，最近的邻居(11，等等。在这三个步骤中，特征提取是本研究中成功改进蛋白质结构类预测最关键的一步。

目前，特征提取方法主要使用蛋白质一级序列、预测二级结构序列和位置特异性评分矩阵(PSSM)。通过给出查询序列，可以得到特定位置的评分矩阵。查询序列可以使用PSI-BLAST查询蛋白质数据库[32，表示进化信息。近年来，PSSM越来越受到人们的关注，其预测精度也越来越高。AADP-PSSM [15]方法将传统的二肽组成扩展到PSSM。AAC-PSSM-AC [17]联合收割机自协方差和PSSM提取进化信息。AATP模型[33]从PSSM中融合AAC和转移概率组成。在PSSS-PSSM [34]时，利用预测的二级结构信息进行演化信息预测。在MEDP [35，提出了基于PSSM的进化差分公式。LCC-PSSM [25]从PSSM中提取长程线性相关信息。PSSM-S [36]，利用PSSM提取特征，并提出基于氨基酸分布和自协方差概念的基于分割的特征提取技术。基于位置特征评分矩阵(PSSM)的特征提取方法在解决这一分类问题中发挥了重要作用。虽然已有的一些方法表现出了良好的性能，但PSSM中嵌入的信息尚未得到充分的挖掘;还有进一步改进的空间。

本文基于PSSM算法提取了一个一致性序列，计算了40个全局特征。在此基础上，提出了基于伪位置特定评分矩阵(pseudo-position specific scoring matrix, PsePSSM)和自协方差变换(autocovariance transformation, ACT)概念的两种分段特征提取方法。PsePSSM最初由Shen和Chou提出，旨在避免序列顺序信息的完全丢失[18］.也就是说，它反映了PSSM的局部信息。Wold等人开发的自协方差变换作为分析矢量序列的统计工具[37］.ACT已成功用于蛋白质模式识别[17，38，39]，特别是在蛋白质分类中，蛋白质分类是沿着蛋白质序列有一定距离的两个残基之间的一个相关因素。由此得到380个分割的PsePSSM局部特征和280个分割的ACT-PSSM局部特征。最后，利用这三种方法构造出700D的特征向量。为了减少冗余的影响，我们使用主成分分析(PCA)进行特征选择。选择224个主要特征用于SVM分类器。为了评价我们的方法，在三个广泛的基准数据集上使用了折叠刀交叉验证检验;实验结果表明，该方法是一种先进的分类器，与其他基于pssm的方法相比，具有较好的分类性能。

2.材料和方法

２.１.数据集

为了便于与前面的工作进行比较，我们使用了三个流行的基准数据集来评价我们的方法:数据集(30.),数据集(43),数据集(44]，其中1092个、1673个和640个蛋白域序列相似性分别低于40%、25%和25%。关于这三个数据集的更多细节列于表中1．


数据集	所有- - -	所有- - -			全部的

1189	223	294	334	241	1092
25个pdb	443	443	346	441	1673.
640	138	154	177	171	640

2.2。特征提取

基于位置特异性评分矩阵(PSSM)的蛋白质结构类预测器的开发，关键在于如何有效定义特征向量来构建相关统计样本。在这里，我们使用了共识序列、分段PsePSSM和分段自协方差变换的组合。

2.2.1。Position-Specific得分矩阵

为了提取进化信息，我们将每个蛋白质序列(查询序列)作为种子，从NCBI的NR数据库(ftp://ftp.ncbi.nih.gov/blast/db)使用PSI-BLAST程序[32与参数)和．PSI-BLAST将返回一个矩阵;的所得到的矩阵的第Th项表示氨基酸残基的得分蛋白质序列位置突变为氨基酸型在进化过程中。该矩阵称为位置特定评分矩阵(PSSM)，记为在哪里,．PSSM是一个对数概率矩阵，表示查询的氨基酸序列的长度，20是由于20个氨基酸，并且是转置算子。在本工作中，PSSM元素被映射到在标准s形函数的帮助下: 在哪里为PSSM的原始值。

2.2.2。基于PSSM的一致性序列

为了提取全局特征，我们采用[45，46，生成一个共识序列(CS)。由PSSM构造如下: 其中“arg”表示maximum的参数。的将一致性序列(CS)的基设为并构建了氨基酸序列的一致序列。接下来,我们计算在哪里表示氨基酸的数量以一致的顺序出现的。表示CS的长度。很明显，CSAAC代表了CS的20个氨基酸组成特征。

此外，我们提出了20个CS组成矩特征，这些特征主要用于基于氨基酸序列的蛋白质结构类预测[47及预测的蛋白质二级结构序列[34，41］.它们被表述为在哪里总共是多少共20个氨基酸序列中的第1个氨基酸代表了在CS中的位置(长度)的氨基酸．

总之，我们通过组合20个氨基酸组合物与20组合物的时刻设有CS-PSSM的功能获得40个全局特征。

2.2.3。PsePSSM基于对分段PSSM

为了提取局部特征，我们将PSSM分为在[46］.让；表示除氨基酸序列的最后一段外的其他长度;代表了段。然而，最后一段可能会更长或更短，因为不能总被整除最后一段的长度可以是．然后，对于每个片段，我们采用伪pssm (PsePSSM)，该方法已成功应用于蛋白质结构类的预测[41］.由于这三个数据集的最短序列长度为10(对于1189个数据集)，因此只能取到2 3 4 5。然而,如果或5,只能等于1;这对提取的特征没有任何意义。所以,就是2和3。

当，；这里我们表示第一个片段序列的长度为第二段序列为,分别。因此，我们根据以下方程得到分割后的PsePSSM特征: 在哪里和相关因素是否为氨基酸类型，其相邻距离为沿着每一段蛋白质序列。由于三个数据集的最短序列长度为10，当，参数的最大值可以是4，那么可以取到0、1、2、3、4;这里获得了200个局部特征。专门为，和表示两段蛋白质中氨基酸残基的平均得分被突变为氨基酸类型在进化过程中。

当，；这里我们表示三个片段序列的长度为，，．由此，我们得到了分割后的PsePSSM特征，该特征可以定义为在哪里，，代表的含义相同,分别。当,最大可以等于2，这里我们得到180个局部特征。

通过上述方法，使用分割的PsePSSM共提取了380个局部特征。

2.2.4。基于分段PSSM的自协方差变换

为了进一步获得局部特征，本文引入自协方差变换(ACT)来获得序列的邻域效应。和上一节一样，我们将PSSM分为和段。因此，我们得到了分割后的ACT-PSSM特征，其计算方法如下:

当，

当，在哪里是两个氨基酸残基之间的距离。因此，使用分割的ACT-PSSM共提取了280个局部特征。

为了从PSSM中提取更多的全局和局部信息，我们提出了一种融合了40个CS-PSSM特征、380个分割后的PsePSSM特征和280个分割后的ACT-PSSM特征的csp - segacp方法。最后，每个蛋白质序列被一个700维(700D)特征向量描述。

2．3.特征选择

我们构造的特征向量的维数为700，这对于支持向量机来说是一个很大的输入。大维数会导致信息冗余或噪声和维数灾难两个问题。因此，特征选择在分类任务中起着关键作用。主成分分析(PCA) [23，33]是最经典的降维的方法之一。PCA的目标是选择一些主要特征，可以保留大部分的信息的正交变换的条件;PCA的更多细节可以在文献中了解到[48］.最后，基于1189数据集在正交空间中选取224个特征进行蛋白质结构分类预测。

２.４.支持向量机

支持向量机(Support vector machine, SVM)是针对二值分类问题的一种著名的基于统计学习理论的机器学习算法，被认为是目前最先进的分类技术，由Vapnik于1995年引入[49］.摘要蛋白质结构分类预测是一个四分类问题，本文采用一对一策略将蛋白质结构分类问题转化为二分类问题。

SVM的基本思想是找到基于支持向量理论分离超平面，以尽量减少分类错误。它样本的输入数据变换成使用内核函数来查找支持向量更高维空间。通常，四个基本的内核功能由SVM，即，线性函数，多项式函数，S形函数，和径向基函数（RBF）中使用。在这里，我们选择了RBF作为SVM的核心，由于其优越性非线性问题[34，46，50，定义为．内核参数代价参数通过使用LIBSVM包中的网格搜索策略进行15倍交叉验证，基于1189数据集进行优化[51，52),是否允许只取中间值和和只之间和．

2．5．绩效评估

独立数据集检验、子抽样检验和折刀检验是统计预测中常用的三种交叉验证方法。在这三种方法中，折刀测试被认为是最严格和最客观的，因为它能够对给定的数据集产生唯一的结果[53］.因此，本研究采用折刀试验。在折刀测试过程中，从训练集中提取出一个蛋白质序列，剩余的蛋白质序列对支持向量机分类模型进行训练。然后，利用分类模型对选出的序列进行预测。这个过程重复进行，直到训练集中的每个序列都被挑选出来一次。在这个意义上，折刀测试也被称为遗漏测试。

为了全面评估我们方法的性能，我们报告了七个标准性能指标，包括灵敏度(Sens)、特异性(Spec)、-measure, Matthew’s correlation coefficient (MCC)， Area Under ROC Curve (AUC)， overall accuracy (OA)， and average accuracy (AA)。-measure是一个更健壮的度量，它避免高估某些度量的性能，即召回率和精度的调和平均值。MCC表示观测类和预测类之间的相关系数。取值范围为+1(最佳预测模型)~−1(最差预测模型)。AUC是在受试者工作特性(ROC)曲线下由FP率与TP率绘制的面积。取值范围为0 ~ 1。这些措施的定义如下: 在哪里表示真阳性的数量，表示误报次数，代表真阴性的数量，表示假阴性数，并且分别表示类的数量。

3.结果与讨论

在本研究中，为了避免维数灾难，通过PCA得到700D的特征向量，并将其降为224D。然后将224个特征输入支持向量机。采用RBF核函数、网格搜索方法和对1189数据集进行15次交叉验证，得到了最优参数和支持向量机。最后，求出的最优值和为2和0.0019531，在Table2避免过拟合问题。为了验证我们的方法的性能，我们在三个广泛使用的低相似度数据集上进行了严格的折叠刀交叉验证测试。流程图描述了该方法的整个过程，如图所示1．


数据集	结构类	Sens (%)	规范(%)	测量	世纪挑战集团	AUC

1189	所有- - -	84.8	95.6	0．84	0．80	0．90
	所有- - -	85.4	94.1	0.85	0.79	0．90
		85.0	90.0	0．82	0.74	0.88
		55.2	91.3	０．５９	0.49	0．73
	办公自动化	78.5
	AA	77.6

25个pdb	所有- - -	94.4	96.4	0.92	0．90	0.95
	所有- - -	91.9	97.2	0.92	0.89	0.95
		71.1	95.7	0.76	0.70	0.83
		92.5	95.2	0．90	0.86	0.94
	办公自动化	88.4
	AA	87.5

640	所有- - -	83.3	96.8	0.86	0．82	0．90
	所有- - -	83.1	95.3	0．84	0.79	0.89
		83.0	89.4	0.79	0.70	0.86
		60.2	87.4	0.62	0.49	0.74
	办公自动化	77.0
	AA	77.4

３．１．我们方法的预测性能

结合一致性序列- pssm (CSP)、分段PsePSSM和分段自协方差变换- pssm (ACP)三种序列表示模型的特征，实现了总体蛋白质结构类的预测精度(OA)和各结构类的预测精度。本文提出的预测方法(csp - segsep - segacp)在1189、25PDB和640数据集上进行了折刀测试，并报告了Sens、Spec、-measure, MCC，和AUC为每个结构类，OA，以及AA。如表所示2对于1189、25PDB和640个基准数据集，我们的总体准确率分别达到78.5%、88.4%和77.0%，其中3个数据集的平均准确率(AA)也在77.0%以上。对于1189和640数据集，通过对四种结构类进行比较，得到了Sens、Spec、-measure, MCC，和AUC类,,类,阶级显然分别优于类。然而，参考25PDB数据集，班级取得优异成绩的每项绩效指标;预测精度可达92.5%。为类，预测精度相对低的与其它类进行比较。这一事实表明，目前仍有不少困难，今后的研究，以克服提高预测精度类和类。

３.２．224个功能和700个功能的性能比较

为克服信息冗余和维数灾难对支持向量机的影响，采用主成分分析将得到的特征向量维数从700降至224。在本节中，我们报告了使用三个数据集上所有700个特征的方法的准确性，并且我们仍然优化支持向量机参数和在1189数据集，其被计算为分别为4和0.70711。结果示于图2．使用224个特征得到的1189和640数据集的总体精度都优于使用700个特征得到的数据集，但精度比700D低0.2%。事实也充分表明，支持向量机和主成分分析确实存在冗余，它们通过正交变换可以保留最主要的信息，同时节省计算时间。

３．３．特性组性能分析

为了研究特征组对蛋白质结构类预测精度的贡献，我们首先在1189数据集上逐个计算每个特征组;结果如表所示3.．从表3.，我们可以很容易地发现，最好的特征组是SegPseP，其次是segACP，最后是CSP。并且，通过对每个特征的逐个组合，我们在三个数据集上计算每个特征组合组。从表中可以看出4，每个特征组对最终的预测精度都有特殊的贡献。因此，我们可以总结出特征组SegPseP是最优的，在提高蛋白质结构类预测精度方面发挥着主导作用，特别是对于25PDB数据集。再次说明了特征选择是本研究的必要步骤。


数据集	特性	预测精度(%)
数据集	特性	所有- - -	所有- - -			OA (%)

1189	CSAAC-PSSM (20 d)	72.7	76．2	78.7	26.1	65.2
	CSCM-PSSM (20 d)	69.1	76.9	82.0	29.9	66.5
	Seg2-PsePSSM (200 d)	80.7	82.7	80.8	51.0	74.7
	Seg3-PsePSSM (180 d)	79.8	80.6	81.4	48.1	73.5
	Seg2-ACPSSM (160 d)	76.7	82.3	76.0	44．4	70.9
	Seg3-ACPSSM (120 d)	69.1	77.6	78.4	38.6	67.5


特征组组合	维	1189	25个pdb	640

CSAACP	20.	65.2	62.0	66.0
Csaacp + CSCMP (csp)	40	66.5	63.1	64.7
CSP + Seg2-PseP	240	75.2	74.4	75.8
CSP + Seg2-PseP + Seg3-PseP	420	76．2	87.7	74.5
CSP + segsep + seg2-ACP	680	76．1	87.9	75．0
CSP + segsep + seg2-ACP + seg3-ACP	700	77.1	88.6	75.5
CSP + SegPseP + SegACP-PCA	224	78.5	88.4	77.0

3．4．与其他方法的性能比较

在本节中，展示了我们方法的优越性;并将CSP-SegPseP-SegACP与最近报道的其他预测方法在同一数据集上进行了比较。我们选取各类准确率和总体准确率作为评价指标，汇总于表中5．比较的方法包括其他竞争性的基于pssm的方法，如PSSM-S [36], LCC-PSSM [25], MBMGAC-PSSM [40], RPSSM [34], AADP-PSSM [15], AAC-PSSM-AC [17], AATP [33], PsePSSM [41， Xia等[42]和MEDP [35]，这是最近报道的基于PSSM形式表示的进化信息的蛋白质结构类预测方法。MBMGAC-PSSM是我们将三个自相关描述子与PSSM融合的另一种方法。RPSSM和PsePSSM是pss - pssm的子模型[34]及PSSS-PsePSSM [41),分别。


数据集	方法	预测精度(%)
数据集	方法	所有- - -	所有- - -			OA (%)

1189	PSSM-S [36］	93.3	85.1	77.6	65.6	80.2
	LCC-PSSM [25］	89.2	88.8	85.6	58.5	81.2
	MBMGAC-PSSM [40］	79.8	85.0	84.7	50.6	76.3
	RPSSM [34］	67.7	75.2	74．6	17.4	60.2
	AADP-PSSM [15］	69.1	83.7	85.6	35.7	70．7
	AATP [33］	72.7	85.4	82.9	42.7	72.6
	MEDP [35］	85.2	84.0	84.3	45.2	75.8
	PsePSSM [41］	82.0	82.3	84.1	44.0	74.4
	AAC-PSSM-AC [17］	80.7	86.4	81.4	45.2	74．6
	这篇论文	84.8	85.4	85.0	55.2	78.5

25个pdb	PSSM-S [36］	93.8	92.8	92.6	81.7	90.1
	LCC-PSSM [25］	91.7	80.8	79.8	64.0	79.0
	MBMGAC-PSSM [40］	86.7	81.5	79.5	61.7	77．2
	RPSSM [34］	75.6	70.2	52.0	43．3	60.8
	AADP-PSSM [15］	83.3	78.1	76.3	54.4	72.9
	AATP [33］	81.9	74.7	75.1	55.8	71.7
	MEDP [35］	87.8	78.3	76.0	57.4	74.8
	AAC-PSSM-AC [17］	85.3	81.7	73.7	55.3	74.1
	PsePSSM [41］	86.2	78.8	75.7	57.6	75.5
	夏等[42］	92.6	72.5	71.7	71.0	77．2
	这篇论文	94.4	91.9	71.1	92.5	88.4

640	LCC-PSSM [25］	92.8	88.3	85.9	66.1	82.7
	MBMGAC-PSSM [40］	86.2	83.1	85.3	63.2	79.1
	MEDP [35］	84.8	75.3	86.4	53.8	74.7
	PsePSSM [41］	73.9	76.6	85.3	51.5	71.7
	这篇论文	83.3	83.1	83.0	60.2	77.0

如表所示5在这些基于pssm的方法中，我们的方法在1189、25PDB和640个数据集上实现了具有竞争力的整体预测精度。在1189数据集上，LCC-PSSM和PSSM-S方法的总体精度分别比前两种较好的结果低2.7%和1.7%。然而，1189数据集的总体精度优于其他7种基于pssm的方法。25PDB数据集的OA仅比之前用PSSM-S方法计算的最佳结果低1.7%。对于其他9种基于pssm的方法，我们的方法总体预测精度最高，提高了9.4-27.6%。指的是类中，我们的方法取得了最高的结果，准确率达到92.5%。对于640数据集，虽然OA值低于LCC-PSSM和MBMGAC-PSSM，但我们的方法仍然获得了满意的结果。事实充分表明，该方法成功地提取了隐藏在PSSM中的信息。

4.结论

本文的主要贡献是利用共识序列- (CS-) PSSM、PsePSSM和基于分段PSSM的自协方差变换(ACT)三个描述子构建700D特征向量。CS-PSSM表示全局信息，分割后的PsePSSM和分割后的ACT表示局部序列顺序信息。然后利用主成分分析选择224个特征。采用支持向量机分类器和折刀检验对1189、25PDB和640三个基准数据集进行预测和评价，序列相似度分别小于40%、25%和25%。实验表明，该方法可以作为一种可靠的工具和一种很好的替代方法，用于准确预测低相似度数据集的蛋白质结构类别。在今后的工作中，我们将努力为本文提出的方法提供一个公共可访问的web服务器。代码采用MATLAB语言编写，可从MATLAB软件下载http://web.xidian.edu.cn/slzhang/paper.html．

利益冲突

作者声明本文的发表不存在利益冲突。

致谢

作者要感谢匿名审稿人对我们论文的有益评论。基金资助:国家自然科学基金项目(no. 61373174, no. 11326201);基金资助:国家自然科学基金资助项目(no. JB140703);2015 jq1010)。

参考

C. B. Anfinsen，“支配蛋白质链折叠的原理”，科学，第181卷，第2期。4096页，233 - 230页，1973。视图:出版商的网站|谷歌学术搜索
K.-C。周和C.-T。“蛋白质结构类的预测”，生物化学和分子生物学评论，第30卷，第2期4，第275-349页，1995。视图:出版商的网站|谷歌学术搜索
I. Bahar, A. R. Atilgan, R. L. Jernigan，和B. Erman，“通过氨基酸组成理解蛋白质结构类的识别”，蛋白质，第29卷，第2期2，第172-185页，1997。视图:谷歌学术搜索
M. Levitt和C. Chothia，《球状蛋白的结构模式》，自然，第261卷，第261号5561页，552-558,1976。视图:出版商的网站|谷歌学术搜索
G.-P。“关于蛋白质结构类预测的一场有趣的争论”，杂志蛋白质化学，第十七卷，第二期8、1998年。视图:出版商的网站|谷歌学术搜索
K.-C。周，“A键在确定蛋白质二级结构类型的驱动力，”生物化学与生物物理研究通讯，第264卷，no。1，页216-224,1999。视图:出版商的网站|谷歌学术搜索
Y.-D。Cai和G.-P。“基于神经网络的蛋白质结构类预测”，Biochimie，第82卷，第2期8，页783-785,2000。视图:出版商的网站|谷歌学术搜索
Y.-D。Cai, X.-J。刘,X.-B。徐,K.-C。“基于支持向量机的蛋白质结构类预测”，电脑和化学第26卷第2期3，页293-296,2002。视图:出版商的网站|谷歌学术搜索
T.-L。张和Y.-S.丁，“使用伪氨基酸组成和二叉树支持向量机来预测蛋白质二级结构类型，”氨基酸第33卷第3期4，页623-629,2007。视图:出版商的网站|谷歌学术搜索
肖x,工程学系。邵,Z.-D。E. Huang和k . c。Chou，“利用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子进行研究”，计算化学杂志，卷。27，不。4，第478-482，2006年。视图:出版商的网站|谷歌学术搜索
T.-L。张,Y.-S。丁,K.-C。“基于伪氨基酸组成的蛋白质结构类别预测:近似熵和疏水性模式”，理论生物学杂志号，第250卷。1，页186-193,2008。视图:出版商的网站|谷歌学术搜索|MathSciNet
R.-Y。罗,Z.-P。冯,j。Liu，“基于氨基酸和多肽组成的蛋白质结构类预测”，欧洲生物化学杂志，第269卷，第2期。17，页4219-4225,2002。视图:出版商的网站|谷歌学术搜索
X.-D。太阳和R.-B。黄，“基于支持向量机的蛋白质结构类预测”，氨基酸，第30卷，第2期4，第469-475页，2006。视图:出版商的网站|谷歌学术搜索
K.-C。周和Y.-D。Cai，“通过功能域组成预测蛋白质结构类别”，生物化学与生物物理研究通讯第321卷4, 2004。视图:出版商的网站|谷歌学术搜索
T. G.柳，X. Q.征，和J.王“用于使用支持向量机和PSI-BLAST轮廓低相似性的序列的蛋白质的结构类的预测，”Biochimie，第92卷，第2期10, pp. 1330-1334, 2010。视图:出版商的网站|谷歌学术搜索
中州。姚明,Z.-X。Shi, and Q. Dai，“基于位置特异性评分矩阵的凋亡蛋白亚细胞定位预测”计算与理论纳米科学杂志，第11卷，第5期。10, pp. 2073-2078, 2014。视图:出版商的网站|谷歌学术搜索
刘廷刚，耿学斌，郑晓青，李瑞生，王军，“利用PSI-BLAST谱的自协方差变换精确预测蛋白质结构类，”氨基酸，第42卷，第2期6, pp. 2243-2249, 2012。视图:出版商的网站|谷歌学术搜索
H.-B。沈和K.-C。Chou， " nucl - ploc:一种新的基于PsePSSM和PseAA组合的蛋白质亚核定位的网络服务器，"蛋白质工程，设计选型，卷。20，没有。11，第561-567，2007。视图:出版商的网站|谷歌学术搜索
G.-L。风扇和Q.-Z。Li，“通过将不同的描述符结合到Chou伪氨基酸组成的一般形式中来预测蛋白质亚线粒体的位置，”氨基酸号，第43卷。2, pp. 545-555, 2012。视图:出版商的网站|谷歌学术搜索
T. Liu和C.佳，“使用预测的二级结构信息的高精度的蛋白质结构分类预测算法，”理论生物学杂志号，第267卷。3，页272-275,2010。视图:出版商的网站|谷歌学术搜索
“基于预测二级结构的低相似度序列的蛋白质结构分类的高精度预测，”Biochimie第93卷第5期4, pp. 710-714, 2011。视图:出版商的网站|谷歌学术搜索
问：戴秉国，Y.李，十，问：刘，Y H.姚，Y. G.曹和P. G.他，“关于蛋白质的结构类预测预测的二级结构的统计特征的比较：从内容到位置”BMC生物信息学2013年第14卷第152条视图:出版商的网站|谷歌学术搜索
Z.-C。李,X.-B。周志伟，戴志伟，周志伟。邹涛，“基于周伪氨基酸组成的蛋白质结构类预测:基于连续小波变换和主成分分析的方法”，氨基酸，第37卷，第2期2, pp. 415-425, 2009。视图:出版商的网站|谷歌学术搜索
Li L.， Cui X.， Yu S. et al.，“psps - rfe:基于psps - blast结构、物理化学性质和功能注释的递归特征提取精确预测蛋白质结构类别”，《公共科学图书馆•综合》，第9卷，第5期。3、文章ID e92863, 2014。视图:出版商的网站|谷歌学术搜索
丁世勇，李勇，姚玉华，“基于PSI-BLAST谱的蛋白质结构类预测方法”，理论生物学杂志， vol. 353, pp. 19-23, 2014。视图:出版商的网站|谷歌学术搜索
Y.-D。Cai和G.-P。“基于神经网络的蛋白质结构类预测”，Biochimie，第82卷，第2期8，页783-785,2000。视图:出版商的网站|谷歌学术搜索
c·陈,y。田,X.-Y。邹,P.-X。Cai, J.-Y。莫，“利用伪氨基酸组成和支持向量机预测蛋白质结构类别”，理论生物学杂志第243卷第2期3，页444-448,2006。视图:出版商的网站|谷歌学术搜索|MathSciNet
Y.-D。Cai, X.-J。刘,X.-B。徐,K.-C。“基于支持向量机的蛋白质结构类预测”，电脑和化学第26卷第2期3，页293-296,2002。视图:出版商的网站|谷歌学术搜索
H.-B。沈建军，杨晓军。刘,K.-C。“基于监督模糊聚类的蛋白质结构分类预测方法”，生物化学与生物物理研究通讯，第334卷，第2期。2，页577-581,2005。视图:出版商的网站|谷歌学术搜索
Z.-X。Wang和Z. Yuan，“用组件耦合方法预测蛋白质结构类有多好?”蛋白质第38卷第2期2，页165 - 175,2000。视图:出版商的网站|谷歌学术搜索
曹云飞，刘士生，张立东，秦军，王军，唐克贤，“基于粗糙集的蛋白质结构类预测，”BMC生物信息学，卷。7，第20条，2006年。视图:出版商的网站|谷歌学术搜索
S. F. Altschul, T. L. Madden, a . a . Schäffer等，“gap BLAST和pci -BLAST:新一代蛋白质数据库搜索程序”，核酸的研究，第25卷，第2期17，第3389-3402页，1997。视图:出版商的网站|谷歌学术搜索
张少林，叶飞，袁兴国，“基于主成分分析和支持向量机的低相似度序列的蛋白质结构分类预测”，杂志生物分子结构与动力学，第29卷，第2期6, pp. 634-642, 2012。视图:谷歌学术搜索
“基于二级结构和PSI-BLAST谱的蛋白质结构分类预测方法”，《中国生物医学工程学报》，2018年第1期，第2期。Biochimie第97卷第1期1, pp. 60-65, 2014。视图:出版商的网站|谷歌学术搜索
L. C.张，X. Q.召，和L.孔，“预测为进化差分信息进周的伪氨基酸组合物的一般形式的低相似性的序列的蛋白质结构类别，”理论生物学杂志， vol. 355, pp. 105-110, 2014。视图:出版商的网站|谷歌学术搜索
A. Dehzangi, K. Paliwal, J. Lyons, A. Sharma, and A. Sattar，“探索PSSM中潜在的歧视信息，以提高蛋白质结构类预测的准确性”生物信息学中的模式识别年第7986卷计算机科学课堂讲稿， pp. 208-219，施普林格，柏林，德国，2013。视图:出版商的网站|谷歌学术搜索
S. Wold, J. Jonsson, M. Sjörström, M. Sandberg, and S. Rännar，“通过主成分分析和对潜在结构的偏最小二乘预测对DNA和肽序列和化学过程进行多变量建模，”分析Chimica学报第277期2，第239-253页，1993。视图:出版商的网站|谷歌学术搜索
余永忠，郭永忠，张志强等，“哺乳动物分泌蛋白预测的新方法”，肽第31卷第1期4，页574-578,2010。视图:出版商的网站|谷歌学术搜索
董琦，“基于自交叉协方差变换的蛋白质折叠识别新方法”，生物信息学，第25卷，第2期20, pp. 2655-2662, 2009。视图:出版商的网站|谷歌学术搜索
“基于位置特异性评分矩阵自相关描述子的蛋白质结构类预测，”数学和计算机化学通讯，第73卷，第2期3, pp. 765-784, 2015。视图:谷歌学术搜索|MathSciNet
S. L. Zhang，“通过将PSSS和PSSM整合到Chou的广义PseAAC中来准确预测蛋白质结构类，”化学计量学和智能实验室系统， vol. 142, pp. 28-35, 2015。视图:出版商的网站|谷歌学术搜索
X.-Y。夏敏，葛正祥。王,X.-M。Pan，“蛋白质结构类的精确预测”，《公共科学图书馆•综合》，第7卷，第5期6、Article ID e37653, 2012。视图:出版商的网站|谷歌学术搜索
L. A. Kurgan和L. Homaeian，“蛋白质序列和结构域的预测——预测算法、序列表示和同源性以及测试程序对准确性的影响”，模式识别第39卷第3期12，页2323 - 2343,2006。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
陈克恩，“基于进化搭配的序列表示的蛋白质结构类预测，”计算化学杂志，第29卷，第2期10, pp. 1596-1604, 2008。视图:出版商的网站|谷歌学术搜索
L. Patthy，“用一致序列检测远缘蛋白的同源性”，分子生物学杂志，卷。198，没有。4，第567-577，1987。视图:出版商的网站|谷歌学术搜索
J.-Y。Yang和X. Chen，“利用全局和局部特征改进基于分类的蛋白质折叠识别，”蛋白质结构，功能和生物信息学，第79卷，第5期。7, pp. 2053-2064, 2011。视图:出版商的网站|谷歌学术搜索
L. Kurgan, K. Cios，和K. Chen，“SCPRED:与预测序列模糊带相似性序列的蛋白质结构类的精确预测”，BMC生物信息学， 2008年第9卷第226条。视图:出版商的网站|谷歌学术搜索
i t . Jollife主成分分析，施普林格，纽约，纽约，美国，2002。
v . n . Vapnik统计学习理论的性质，施普林格，纽约，纽约，美国，第一版，1995。视图:出版商的网站|MathSciNet
钱培平，“细胞凋亡蛋白的亚细胞定位预测:一种新的表达和支持向量机方法，”数学和计算机化学的通讯，第67卷，第5期3, pp. 867-878, 2012。视图:谷歌学术搜索|MathSciNet
c c。Chang和C.-J。Lin， " LIBSVM:支持向量机的库，"美国计算机学会智能系统与技术汇刊，第2卷，第2期2011年第27条第3款。视图:出版商的网站|谷歌学术搜索
http://www.csie.ntu.edu.tw/~cjlin/libsvm．
K.-C。Chou和H.-B.沉从文“评论：在蛋白质亚细胞定位预测的最新进展，”分析生物化学，第370卷，第2期1，页1 - 16,2007。视图:出版商的网站|谷歌学术搜索

医学中的计算和数学方法

摘要