预测蛋白质交互网站基于朴素贝叶斯分类器

文摘

蛋白质功能通过与其他蛋白质和生物分子相互作用,这些相互作用发生在所谓的界面残留的蛋白质序列。识别界面残留使我们更好地理解蛋白质相互作用的生物学机制。同时,信息界面残留导致的理解代谢,信号转导网络和指示方向在药物设计。近年来,研究人员专注于开发新的计算方法预测蛋白质界面残留。这里我们创造性地使用一个181 -维蛋白质序列的特征向量作为输入到基于朴素贝叶斯分类器——(NBC)方法来预测蛋白质复合物相互作用的互动网站。互动网站的预测蛋白质相互作用被认为是一个氨基酸残基的二元分类问题通过应用NBC和蛋白质序列的特性。独立的测试结果表明,朴素贝叶斯Classifier-based方法与蛋白质序列特征作为输入向量表现良好。

1。介绍

蛋白质发挥其生物功能与其他《通过相互作用,这些相互作用发生在残留的蛋白质的氨基酸序列。所有潜在的交互网站,哪些蛋白质生化交互发生在蛋白质表面的三维构象和残留物称为接口。知道具体界面残留的蛋白质有助于更好地理解蛋白质相互作用机制。是重要的研究人员需要注意的界面残留蛋白质模拟工程的研究中,分子途径说明,药物设计等等(1- - - - - -3]。测定蛋白质交互网站在传统实验方法检测三维晶体结构,核磁共振和x射线,这是相当昂贵,消费时间。因此,迫切需要开发新的方便和精确的计算方法确定蛋白质界面残留(4]。新发现的方法是利用各种各样的蛋白质序列和氨基酸残基的特征信息来预测蛋白质界面残留采用统计分类方法。

蛋白质数据库(PDB) (5)是一个数据库包含生物分子物理和结构数据,提交的生物学家和生物化学家来自世界各地。最近在PDB蛋白质结构数据的增加使蛋白质交互网站预测可能的和可用的。几个最近的计算方法预测界面残渣已由已知蛋白质交互网站使用不同的特征提取。补丁分析(6]six-parameter函数使用化学和物理特征向量已知的补丁,如平面度和疏水性预测界面补丁。其他机器学习预测方法包括神经网络(ANN) [7- - - - - -9),支持向量机(SVM) [10,11),有条件随机域(CFR) [12),朴素贝叶斯分类器(NBC)和L1-Logistic回归分类器(13]。这些方法应用结构、序列和蛋白质序列的进化特征,如结构保护得分,氨基酸残基组成,可访问的表面积,残留的进化信息,和空间相邻的残留物,序列特征区分界面残留和noninterface残留的蛋白质序列。

在本文中,我们目前的应用朴素贝叶斯分类器(NBC)和使用特定的蛋白质序列特征区分界面残留蛋白质复合物。NBC是基于概率的机器学习算法,已经知道工作有效地对不同分类的任务。报道,到目前为止,全国广播公司已经成功地用来预测绑定残留与DNA / RNA (14),预测蛋白质相互作用的合作伙伴(15),和蛋白质相互作用的预测网站。尽管NBC已经存在的机器学习算法,不同的序列特性和输入向量形式产生好坏分类性能。方法在本文中使用的位置具体得分矩阵(PSSM)和相对溶剂可访问性(RSA)作为输入特征向量和训练了一组过滤蛋白质氨基酸残基与已知的互动网站。然后,离开一个交叉验证(LOOCV)是用来评估方法的性能。独立的测试表明,我们的分类器达到了灵敏度48.29%,精度为16.10%,特异性为62.11%,准确性为60.30%,MCC值为7.71%,和一个测量的24.15%。

2。方法

朴素贝叶斯分类器在训练集训练我们的方法来源于蛋白质序列功能;然后,我们使用LOOCV结果来评估模型的性能和选择最好的模型。NBC还测试了在独立测试集。图解过程概述我们的研究显示在图1数据集用于训练和测试的细节,残留的定义接口,朴素贝叶斯分类器算法和测量性能评估以下部分中提到。

2.1。训练数据集

获取训练数据两种不同的蛋白质复合物链用于开发一个朴素贝叶斯分类器,我们提取已知生物二聚的PDB蛋白质复合物。获得一个合适的nonredundant蛋白质序列从PDB数据集,我们应用过滤条件如下:(1)PDB的任何蛋白质x射线结晶学的决议> 3.0或蛋白质序列长度小于50被排除在外。(2)我们使用UniProt滤液保留蛋白质数据库中形成。蛋白质在PDB被分配UniProt到达;删除任何蛋白质由两条相同的UniProt登记入册。(3)缺失比例的蛋白质复合物被定义为失踪的残留物数量在蛋白质序列/序列的长度。消除任何蛋白复合物的缺失率≥30%。(4)跨膜蛋白PDBTM记录的删除。(5)PDBsum被用来保持蛋白质复合物之间的界面面积500²和2500年²。(6)一些剩余的二聚的蛋白质复合物,由以上过滤器,这可能是其他蛋白复合物的一部分也被消除。这些序列将有不同的交互网站在不同的复合物。(7)剩下的由BLASTClust序列进行双向聚类数据集。消除超过25%的序列与序列的身份从数据集。过滤后的所有可能的蛋白复合物在PDB,最后获得了186种不同的蛋白质序列由训练数据(Dset186)我们在本文中使用。

2.2。测试数据集

独立的测试集是至关重要的任何预测方法来确认我们的方法不仅可以应用于训练数据也可以被普遍应用。我们使用蛋白质对接获取独立的测试数据集。首先获得了一组蛋白复合物;然后BLASTClust用于删除任何序列与序列的身份Dset186序列的25%以上。蛋白质序列的其他配合物还没有废去。过滤后,我们获得了72种不同的蛋白质序列(Dtestset72)从36 heterodimeric蛋白复合物。

2.3。定义界面残留

定义表面和界面残留的细节如下。计算每个残留的蛋白质序列与一个相对溶剂可访问性(RSA)值;如果它的RSA是小于5%,我们将它定义为一个表面残留16]。此外,我们定义一个接口,如果一个表面在复杂地层失去了绝对的溶剂可及性(SA)超过1.0²相比,在单体的形成。一个氨基酸残基被分类接口类或noninterface。在本文中,我们使用web服务器InterProSurf可以在网站http://curie.utmb.edu/pdbcomplex.html确定界面残留的蛋白质复合物从PDB号码。Dset186由36219名残留其中4241(11.7%)被定义为界面残留和2371年(13.1%)的18140年Dtestset72残留物被称为界面残留。

2.4。朴素贝叶斯分类器

从蛋白质序列预测界面残留,我们训练有素的朴素贝叶斯分类器。NBC机器学习分类器是基于概率的假设功能是相互独立的。根据贝叶斯定理,给出的条件概率的残渣分为类可以计算为训练数据用于生成NBC的表达公式。序列特性用于描述一个残留物用和每个残留属于一个类,0代表一个noninterface残渣和1表示接口。与输入目标残留NBC进行二进制分类,计算后验概率的残渣分为根据一个给定的类比较两个屁股根据(3),并根据对数(4), 目标残留为代表分为接口类如果否则,被视为noninterface残渣和分为类0。在这篇文章中是由LOOCV最好的结果。

2.5。序列的特性

我们整合序列中提取特征位置具体得分矩阵(PSSM)和相对溶剂可访问性(RSA)一起作为输入向量NBC。(1)序列的特征PSSM计算使用PSI-BLAST [17];参数设置如下:比较数据库选择NCBI nonredundant蛋白质,值阈值0.001,和迭代时间3。PSSM代表进化保护信息的残留蛋白质链中特定的位置。界面残留比noninterface守恒的表面残留(7]。在本文中,我们使用随着分数的氨基酸残基的价值行PSSM。考虑到邻居残留物(部分讨论的效果3所示。1),我们使用一个窗口大小9(包含4额外的残留两侧)和输入向量被安排从n端边c端9日的子序列。(2)报道,界面残留溶剂易访问性价值总是高于noninterface表面的(9]。在蛋白质三维复杂地层noninterface残留没有分子间作用力;因此导致的减少溶剂可访问性。RSA的氨基酸残基是一个实数表示溶剂暴露表面积。貂给我们预测的实际价值的RSA残渣,范围从0到100。

一个窗口是蛋白质序列的子序列和一个中央氨基酸残基相同数量的残留物。窗口大小意味着残留物的数量的子序列。这里我们使用一个窗口大小9和提取181 d=特征向量,对于每个残留,接口或noninterface。我们也标记的训练数据中的每个向量1或0,代表实际上属于他们的接口或noninterface类。窗口大小是用于相邻效应的考虑,我们将在本文后面讨论。

2.6。评价措施

该方法评估根据预测性能的评价基于以下基本的统计结果:(我)TP意味着真正的阳性预测残留物的数量,在实际界面残留分为正确的接口类。(2)TN代表预测真正的底片残留物的数量,实际noninterface残留在哪里正确分为noninterface类。(3)FP意味着预测假阳性残留物的数量,在实际noninterface残留物被归类为界面残留不正确。(iv)FN代表预测假阴性残留物的数量,实际界面残留在哪里不正确归类为noninterface残留。分类器的性能测量使用留一交叉验证(LOOCV)。每一次不同的链Dset186被用作测试序列,其余作为训练数据,重复186次。然后我们使用下列措施来评估分类性能:(我)灵敏度,灵敏度接口剩余类,措施的比例预测实际界面残留和被确定为接口。(2)精密,措施的比例预测界面残留,被称为界面残留界面残留的实际数量,定义为。(3)特异性(SP)接口剩余类措施的比例正确预测实际界面残留所有实际界面残留;SP的定义是。(iv)分类器的精度(ACC)措施正确预测和被定义为的概率;由于大多数训练数据是noninterface类的一部分,同样的测试数据,noninterface残留更可能预测正确;灿烂的ACC价值高总是意味着noninterface类预测有利;因此ACC是不合适的关键测量模型的性能。(v)马修斯相关系数(MCC)是如何的测量接口剩余类的预测结果与实际界面剩余类和MCC的定义是世纪挑战帐户集团价值通常被认为是作为预测方法最合适的评价指标(18];MCC价值最高的1对应的最佳性能,该方法能够正确地分类所有残留的接口。(vi) 测量代表了调和平均数的精度和灵敏度和公式定义如下:。

3所示。结果

3.1。界面残留往往集中在蛋白质氨基酸序列

调查的分布已知界面残留的蛋白质序列训练和测试数据集,我们计算相邻接口残留物的数量为每个职位除了目标从n端接口的残留的c端一边,结果在图所示2和3。然后我们观察到接口中每个子序列的残留物的数量为3—11窗口大小的连贯与目标界面残渣残留在中央位置,结果如表所示1。


窗口大小	实际界面残留数子序列长度的比率(%)
窗口大小	1	2	3	4	5	6	7	8	9	10	11

3	33.07	46.84	20.07
5	18.08	32.14	27.04	16.52	6.19
7	10.09	19.64	27.13	21.08	13.40	6.64	1.96
9	6.57	11.93	20.89	21.72	17.68	11.93	6.07	2.46	0.66
11	5.33	10.00	16.88	18.89	17.50	13.80	8.65	5.12	2.23	1.01	0.21

相邻接口残留物的数量除了残渣中观察到的数据的接口2和3介绍了模式,这个数字减少与中央之间的距离界面残渣。在表1,约为67%,82%,90%,94%,和95%的界面残留有多个实际界面残渣为3—11窗口大小,分别。此外,约67.8%的实际界面残留有超过三个界面残留在窗口大小11(5残留两侧中央界面残渣)。这些结果清楚地表明,界面残留在蛋白质序列集群的一个趋势。我们可以从表中1个人界面残渣,几乎不存在,但是一个接口残留物往往额外接口附近的残留蛋白质序列。与此同时,一个实际的界面残留影响界面残留的可能性存在于附近的邻居。因此一个窗口或子序列,其中包含一个连续使用氨基酸残基在预测界面残渣。

3.2。模型选择

来确定哪个窗口大小和阈值是最合适和执行最好的,LOOCV用于评估模型的性能。我们价值的窗口尺寸3,5,7,9,11,13,比较没有窗口使用的情况,但只有一个残留物被视为输入功能;每个窗口大小的阈值范围从−1到1组,每组的最佳性能表所示2。与其他组相比,结果表明,NBC的窗口大小−0.88 9和阈值最高的MCC并执行最好的。


窗口大小	灵敏度(%)	精度(%)	特异性(%)	ACC (%)	MCC (%)	测量(%)	阈值

1	40.6	13.5	67.5	64.5	9.5	20.2
3	53.1	14.5	60.9	60.0	8.9	22.7
5	60.4	14.5	55.7	56.2	10.2	23.4
7	54.3	15.1	62.2	61.3	10.5	23.7
9	56.9	15.2	60.4	60.0	11.0	23.9
11	56.0	15.1	60.8	60.3	10.7	23.8
13	59.2	14.8	57.8	58.0	10.7	23.7

结果还表明,阈值特异性和敏感性之间的权衡。特异性的日益增加而敏感性降低。在某些情况下,预测模型具有高特异性是必需的,我们可以修改阈值的NBC的特异性或敏感性限制超过给定的阀。图4显示点的敏感性和特异性当NBC和窗口大小为1。

3.3。预测结果和比较

上面得到的最佳性能的NBC模型使用一个窗口−0.88 9和阈值的大小。我们训练有素的NBC上面的最佳性能的条件和独立Dtestset72测试的结果表明,该分类器达到了MCC的价值7.71%,测量为24.15%,敏感性为48.29%,精度为16.10%,特异性为62.11%,准确性为60.30%。与此同时,还有其他现有优秀的计算方法来预测界面残留,我们与这些报道我们的方法预测方法相比,包括伊希斯(19],SPPIDER [20.],PSIVER [21),测试相同的独立测试集Dtestset72;表3显示每个模型的最佳效果。然后,我们也将我们的模型与其他几个机器学习算法的方法,如支持向量机(SVM),随机森林(RF), L1-regularized回归(L1RG)。相同的训练数据集结构和输入向量,我们这些机器学习方法应用于测试独立Dtestset72;每个算法的最佳性能(MCC最高价值)见表4。


方法	灵敏度(%)	精度(%)	特异性(%)	ACC (%)	MCC (%)	测量(%)

美国全国广播公司	48.3	16.1	62.1	60.3	7.7	24.2
伊西斯	35.0	21.0	76.2	70.9	9.1	26.3
SPPIDER	45.4	20.4	64.7	61.7	8.1	24.6
PSIVER	46.5	25.0	69.3	66.1	13.5	27.8


方法	灵敏度(%)	精度(%)	特异性(%)	ACC (%)	MCC (%)	测量(%)

美国全国广播公司	48.3	16.1	62.1	60.3	7.7	24.2
支持向量机	0.61	44.4	99.8	86.9	4.0	11.9
射频	2.5	19.5	98.4	85.9	2.5	4.5
L1RG	6.1	26.6	97.5	85.5	7.0	9.9

MCC显示之间的相关系数预测残留和实际界面残留和接口测量列举了精度和灵敏度的调和平均数;评估我们的方法的整体性能。与其他报道的最佳性能测试方法Dtestset72, NBC的灵敏度值高于伊希斯,SPPIDER, PSIVER, MCC值稍低,测量是一样的。此外,我们的方法的一个明显优点就是我们有最高的灵敏度值,这意味着我们的方法是更敏感的界面残留和更有能力识别实际的界面残留。与其他机器学习算法进行比较,我们的方法显示灵敏度的出色表现,MCC,测量方面。

4所示。讨论

开发准确、有效的计算方法来解决网站识别问题导致蛋白质间交互作用机制的研究蛋白质功能和效益研究人员在药物设计。开发的方法来识别蛋白质界面残留的报告。在本文中,我们采用了朴素贝叶斯分类器预测残留的蛋白质复合物的接口。NBC的训练是通过LOOCV Dset186 Dset186也评估。LOOCV结果表明,最佳的性能达到了MCC的价值11.0%,23.9%的测量精度为60.0%,敏感性为56.9%,精度为15.2%,特异性为60.4%的窗口大小9和−0.88的阈值。考虑到界面残留往往集中在蛋白质序列和一个实际的界面残留影响界面的预测残留在其邻居,我们使用窗口大小输入蛋白质序列向量。

Dset186完全由36219氨基酸残基4241残留物被定义为接口;Dtestset72包含13213个残基2510残留物被定义为接口。显然,我们的训练数据和测试数据是高度不平衡数据集。不平衡数据集的多数类总是预测有利和高ACC值可以很容易获得。然而,ACC价值不高导致改善模型性能。因此,马修斯相关系数(MCC)成为最合适的评价指标预测的接口类。LOOCV结果表明我们的方法显示了非凡的高MCC值为0.11。

独立测试的重要性和必要性方法结果有说服力和模型独立的测试中表现良好。在比较与先前发表的方法中,我们使用相同的测试集Dtestset72伊希斯,SPPIDER, PSIVER比较客观。结果表明,全国广播公司比其他方法具有较高的灵敏度值,MCC值是一个垃圾低于别人,和其余的评价措施基本上是相同的。因为并不是所有的研究人员使用相同的数据集,并不是所有的方法都是公开的,和不同的接口残留在不同方法的定义,我们不能把我们的方法直接与其他报道的方法。此外,LOOCV结果表明我们的方法表现好于其他广泛的最佳LOOCV结果天真Bayes-based方法。然而,与伊西斯独立测试和比较,SPPIDER, PSIVER表明,方法是可行的在实践中与其他计算方法和更有能力识别实际的积极类残留的接口。然后,比较与其他机器学习算法显示在表4表明,我们的方法在敏感性异常表现的更好,MCC,衡量指标。

在序列特征选择中,我们使用两个序列的结合已成功先前预测的特性,即position-specific得分矩阵(PSSM)和相对溶剂可访问性(RSA)。PSSM被选为它代表序列保护信息,已广泛应用于蛋白质界面残留预测方法。RSA被选为据报道,更歧视在分类过程中当使用相对价值比实际的溶剂可及性。基于两种序列特性建立了训练数据用于构造NBC。

为进一步的应用我们NBC-based识别界面残留的蛋白质复合物的方法,我们可以用我们的方法在实际实验实践;该方法使得识别界面残留未知蛋白质的生物学家更方便、准确。与传统方法相比,识别未知蛋白质的交互界面残留变得更有效率和更便宜。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的研究中心的生物统计和计算中国药科大学药剂学和由国家自然科学基金委(赠款支持部分。11171065也没有。81130068)和基础研究基金为中央大学(没有。JKPZ2013015也没有。JKQZ2013026)。

引用

o . Lichtarge m·e·索,a .腓立比,“进化沿着G蛋白信号通路功能表面的痕迹,“方法酶学卷,344年,第556 - 536页,2002年。视图:谷歌学术搜索
H.-X。周,“改善人类遗传疾病的理解通过预测蛋白质结构和蛋白质交互网站,“当前药物化学,11卷,不。5,539 - 549年,2004页。视图:出版商的网站|谷歌学术搜索
m·e·索w .他k . c . Slep m·a·克尔彻o . Lichtarge和t . g . Wensel”网站的预测和确认的关键效应该领域的监管活动,“自然结构生物学,8卷,不。3、234 - 237年,2001页。视图:出版商的网站|谷歌学术搜索
美国摄影师,a . g . Murzin和c . Chothia”测定蛋白质功能、进化和交互由结构基因组学”当前结构生物学的观点,11卷,不。3、354 - 363年,2001页。视图:出版商的网站|谷歌学术搜索
h·m·伯曼j·韦斯特布鲁克,z冯et al .,“蛋白质数据银行”核酸的研究,28卷,不。1,第242 - 235页,2000。视图:出版商的网站|谷歌学术搜索
琼斯和j·m·桑顿,”预测网站使用补丁分析蛋白质间交互作用。”分子生物学杂志,卷272,不。1,第143 - 133页,1997。视图:出版商的网站|谷歌学术搜索
H.-X。周和y山”,从序列预测蛋白质相互作用的网站形象和残留的邻居列表,“蛋白质,44卷,不。3、336 - 343年,2001页。视图:出版商的网站|谷歌学术搜索
p . Fariselli f . Pazos、答:瓦伦西亚和r . Casadio”的蛋白质相互作用预测网站heterocomplexes与神经网络”欧洲生物化学杂志,卷269,不。5,1356 - 1361年,2002页。视图:出版商的网站|谷歌学术搜索
陈和H.-X。周”,预测界面残留的蛋白质复合物的共识神经网络方法:测试NMR数据,”蛋白质,卷61,不。1,21-35,2005页。视图:出版商的网站|谷歌学术搜索
小池百合子和t .高木涉“使用支持向量机预测蛋白质交互网站,“蛋白质工程、设计与选择,17卷,不。2、165 - 173年,2004页。视图:出版商的网站|谷歌学术搜索
j·r·布拉德福德和d·r·韦斯特黑德”,改善预测蛋白质结合位点使用支持向量机方法,”生物信息学,21卷,不。8,1487 - 1494年,2005页。视图:出版商的网站|谷歌学术搜索
M.-H。李,l .林X.-L。王,t·刘”网站预测基于蛋白质间交互作用条件随机域,“生物信息学,23卷,不。5,597 - 604年,2007页。视图:出版商的网站|谷歌学术搜索
被k, g·辛格,p . p . Pai和s . Mondal”序列预测蛋白质交互网站L1-logreg分类器,”理论生物学杂志》上卷。348年,47-54,2014页。视图:出版商的网站|谷歌学术搜索
m . Terribilini j·d·桑德黄永发。李et al .,“RNABindR:服务器进行分析和预测蛋白质,rna结合网站”核酸的研究,35卷,不。2,W578-W584, 2007页。视图:出版商的网站|谷歌学术搜索
H.-X。周秦,“Interaction-site预测蛋白复合物:一个关键的评估,“生物信息学,23卷,不。17日,第2209 - 2203页,2007年。视图:出版商的网站|谷歌学术搜索
琼斯和j·m·桑顿,”网站使用表面补丁蛋白质间交互作用的分析”,分子生物学杂志,卷272,不。1,第132 - 121页,1997。视图:出版商的网站|谷歌学术搜索
s . f . Altschul t·l·马登a·a·谢弗et al .,“豁裂的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索项目,“核酸的研究,25卷,不。17日,第3402 - 3389页,1997年。视图:出版商的网站|谷歌学术搜索
p . Baldi椰子饼,y Chauvin, c·a·f·安德森和h·尼尔森,”评估的准确性预测算法分类:概述,“生物信息学,16卷,不。5,412 - 424年,2000页。视图:出版商的网站|谷歌学术搜索
y的领导人和b .罗斯特,”伊西斯:交互网站确认从序列”,生物信息学,23卷,不。2,pp. e13-e16, 2007年。视图:出版商的网站|谷歌学术搜索
a . Porollo和j .情节剧电影”Prediction-based指纹蛋白质-蛋白质之间的关系。”蛋白质:结构、功能和生物信息学,卷66,不。3、630 - 645年,2007页。视图:出版商的网站|谷歌学术搜索
y村上和k Mizuguchi应用朴素贝叶斯分类器与核密度估计的预测蛋白质交互网站,“生物信息学,26卷,不。15日,第1848 - 1841页,2010年。视图:出版商的网站|谷歌学术搜索

生物化学研究国际

文摘