文摘
识别细菌III型分泌效应器(T3SEs)已成为生物信息学领域的一个热门研究课题由于其至关重要的作用在宿主-病原体相互作用的理解和对病原体发展更好的治疗靶点。然而,所有效应蛋白的识别利用传统的实验方法往往费时又费力。因此,发展的计算方法准确地预测假定的小说效应器在减少的数量是很重要的生物实验进行验证。在这项研究中,我们提出了一个方法,称为iT3SE-PX,识别T3SEs仅仅基于蛋白质序列。首先,三种特征提取的position-specific得分矩阵(PSSM)配置文件来帮助训练机器学习(ML)模型。然后,极端的梯度增加(XGBoost)算法进行排列这些特性基于他们的分类能力。最后,选择最优特征作为输入到支持向量机(SVM)分类器预测T3SEs。基于这两个基准数据集,我们进行了100次随机5倍交叉验证(CV)和一个独立的测试,分别。实验结果表明,该方法实现了性能优越的大多数现有的方法相比,可以作为一个有用的工具识别假定的T3SEs,给定的序列信息。
1。介绍
III型分泌系统(T3SSs)是复杂的蛋白质运输纳米广泛分布在不同的革兰氏阴性致病菌,包括严重的人类疾病的病原体,如瘟疫,伤寒,痢疾1]。使用T3SSs,各种毒性蛋白分泌和易位到宿主细胞,它们起到的作用,帮助病原体生存和逃避免疫反应。这些毒性的蛋白质被称为III型分泌效应器(T3SEs),这可能会导致一个序列宿主细胞的变化,包括宿主防御的颠覆和调制的信号转导途径2]。T3SEs不同数量、功能和序列在不同T3SSs或细菌物种,这使得很难T3SEs的识别。因此,综合预测新T3SEs致病革兰氏阴性细菌蛋白质组仍然是一个关键的一步理解宿主-病原体相互作用的分子机制和发展更好的治疗目标重要的病原体。传统上,效应物蛋白识别和特征是实验技术,如易位检测(3]。然而,传统的实验方法往往费时又费力,特别是当筛选细菌全基因组效应器。随着高通量测序技术的发展和迅速增加的蛋白质序列数据,有一个不断增长的需求,探索成本效益计算方法预测假定T3SEs仅仅基于他们的主要序列。
从机器学习(ML)的角度来看,T3SEs通常被描述为一个二进制的识别分类问题。给定一个蛋白质序列作为输入,ML-based方法自动预测查询蛋白质是否T3SE与否。近年来,许多监督学习算法在文献中提出了要解决这个问题,包括支持向量机(SVM) [4- - - - - -8),随机森林(RF) (9),朴素贝叶斯(NB) [3),人工神经网络(ANN) [10)、马尔可夫模型(11),潜在狄利克雷分配模式12),系综分类器(13- - - - - -16),和深度学习17- - - - - -19]。ML-based模型的性能主要取决于他们的力量特征编码方案。特征表示数值制定diverse-length蛋白质序列定长特征向量,可以分为两类:(1)n端序列模型和(2)全长序列模型。
之前的研究表明,前100个氨基酸的n端T3SEs可能包含重要信号,引导他们的特定的识别T3SSs [20.,21]。根据这一假说,各种计算方法应用于预测T3SEs ML-based提取n端序列特征作为输入的模型(22,23]。这些特性通常包括氨基酸组成(AAC) [22],k-spaced氨基酸对成分[5),某些理化性质(3),二级结构(4),溶剂可访问性(6],position-specific得分矩阵(PSSM)概要9]。例如,阿诺德et al。3]探索第一ML-based T3SEs预测模型,称为EffectiveT3,通过结合AAC和二级结构的n端序列。EffectiveT3预测显示,强大的分泌信号存在于T3SEs的n端,可以用来有效地识别T3SEs [3]。几乎同时,Samudrala et al。8)开发了一个筛检测方法基于sequence-derived T3SEs从基因组蛋白质序列信息和描述一个假定的氨基端常见大多数T3SEs分泌信号。他们还表明,筛可以识别已知的高特异性分泌效应物很好(SP)和敏感(SN)在训练一个物种和测试(8]。然后,提出了一个基于svm分类器,称为BPBAac,由王等人的预测T3SEs [22),提取氨基position-specific AAC功能通过使用Bi-profile贝叶斯模型。BPBAac分类器比其他当前实现5倍交叉验证(CV)和也健壮的测试在一个小型训练数据集(22]。马尔可夫模型,即T3_MM,随后被用来执行识别T3SEs通过比较总AAC条件概率不同n端序列T3SEs和non-T3SEs11]。T3_MM也达到了更加准确和可靠的预测性能与其他T3SE识别算法相比11]。东等人开发了一个线性支持向量机预测BEAN来识别T3SEs从病原体基因组提取k-spaced氨基酸对作文的n端序列基于隐马尔科夫模型的概要文件(23]。之后,东等人提出了豆2.0作为一个集成的web资源预测、分析和存储T3SEs,多个功能提供了分析工具帮助用户注释假定T3SEs方便(5]。
然而,最近的研究表明,一些特性准确效应预测包含完整的蛋白质序列层面上,而不是只驻留在氨基地区(7,15]。戈德堡等人构建pEffect作为计算工具来识别T3SEs结合序列相似性推理与基于svm预测(7]。pEffect模型不仅达到更高的性能比现有的工具,还首次提出的识别信号T3SEs分布在整个蛋白质序列,可以被使用本地序列比对(7]。最近,一个两层的整体预测Bastion3成立准确分类T3SEs和non-T3SEs从蛋白质序列数据15]。Bastion3表现一些先进的方法主要是由于光线梯度提升机(LightGBM)用于模型训练和各种特征提取三个主要的信息来源,即。,基于特性、理化性质和演化信息(15]。在这些特性中,PSSM概要文件已被证明比序列本身提供更为重要和歧视性的信息等各种蛋白质功能分类任务的dna结合蛋白质预测(24)、蛋白质结构类识别(25- - - - - -27),和蛋白质折叠识别(28,29日]。然而,编码的信息特征PSSM概要文件尚未充分探讨T3SEs识别的早期研究。
在这个工作中,我们提出了一种新颖的预测,叫做iT3SE-PX,进一步提取更丰富的功能仅仅T3SEs PSSM剖面改善预测的一个强大特性的帮助下选择技术。iT3SE-PX模型是基于以下四个主要步骤:(i)蛋白质的PSSM概要文件被转换为一个固定长度的特征向量融合三种特征提取方法包括减少PSSM (RPSSM),进化的不同变换(美国东部时间),和规范化Moreau-Broto汽车相关(NMBAC);(2)混合特性被缩放到0 - 1范围使用Min-Max正常化;(3)采用极端的梯度增加(XGBoost)算法作为特征选择技术根据重要性排列这些特性;及(iv)经典SVM学习者是用来执行的最终预测T3SEs基于选定的最佳特性。评价结果表明,iT3SE-PX表现要好于100 - 5倍时间的简历以及独立测试与现有的生物信息学工具检测T3SEs相比。
2。材料和方法
在本节中,我们报道的所有细节提出了模型的计算识别T3SEs仅基于蛋白质序列数据。iT3SE-PX的总体工作流程见图1。在设计过程中几个重要的中间步骤进行了详细的解释在以下部分。
2.1。数据集
模型的任务T3SE识别作为一个毫升问题,重要的第一步是建立一个全面、可靠和高质量的基准数据集由样本正面(T3SEs)和负面(non-T3SEs)类。在这项研究中,相同的数据集由王et al。15)采用该方法进行评估。他们第一次收集的训练数据集矿业目前已知T3SEs从文献和一些现有T3SE数据库5,30.,31日]。然后,他们手动删除错误的注释感受器和同源序列与序列相似度超过70%使用CD-HIT程序(32]。结果,最后基准数据集包含379 T3SEs和1112 non-T3SEs,申请模型的训练和测试使用时间100 - 5倍的简历。
此外,一个独立的测试数据集也是由王et al。15)是用于进一步严格检查我们的预测和比较它的健壮性与现有的先进的T3SE分类器。108年的独立数据集包括T3SEs和108 non-T3SEs,生成的使用类似的严格标准。他们首先从最近发表的文献和手动提取T3SEs non-T3SEs从各种细菌种类,然后移除这些蛋白质有40%或更高版本与任何蛋白质序列相似性的训练数据集。
2.2。特征提取
2.2.1。PSSM概要文件
小说T3SEs通常难以识别,因为他们非常多样化的AAC和二级结构元素。有限的预测精度得到从蛋白质序列预测这只开采特征序列。相比之下,进化特征提取PSSM概要文件可以提供更多的信息模式和被广泛应用于蛋白质属性和功能分类任务。
在这工作,PSSM首次通过运行PSI-BLAST程序生成概要文件(33针对UniRef50数据库)和三个迭代和指定的 - - - - - -得分值为0.001。用长度为一个查询蛋白质 其PSSM概要文件是一个 矩阵。( , )th条目产生的矩阵表示的概率得分氨基酸类型发生在查询序列的位置。显然,得分越高,越保守氨基酸在相应的位置。PSSM概要文件的每个元素是规范化的范围在0和1之间使用以下乙状结肠功能: 在哪里的初始值是PSSM概要文件。
接下来,我们提取的三种类型的进化特征,探索信息从PSSM概要文件在不同的方面,包括美国,NMBAC RPSSM。
2.2.2。RPSSM-Based特性
为了方便起见,我们表示查询的标准化PSSM序列如下: 或 在哪里 或 代表20列相对应的原始PSSM 20原生类型的氨基酸。
RPSSM是一个 矩阵通过合并一些列的原始PSSM概要文件(34),它可以表示为
在这里,
然后,RPSSM转化为一个十维的特征向量通过使用下列公式: 在哪里
我们都知道,序列号信息一样重要的AAC蛋白质序列。部分反映了当地序列号效果,缺口的pseudo-composition二肽介绍探索远程相关性两个残基被一个或多个职位,可以计算
在这里,位置的价值区间范围从1到10。因此,我们一共获得了1010的特性提取RPSSM相结合和 。
2.2.3。进化的不同变换(美国东部时间)
美国的信息是我能够noncooccurrence概率两个残留隔开一定的距离任意两列的PSSM概要文件(35]。一个 可能最后生成如下: 在哪里代表的价值th行和和规范化的th列PSSM概要文件的最大价值 。注意参数的值在随后的分析设置为10。
2.2.4。规范化Moreau-Broto汽车相关(NMBAC)
NMBAC是一种自相关描述符和被广泛用作功能蛋白质的预测编码技术属性和功能,包括膜蛋白类型(36),dna结合蛋白(37),和蛋白质亚核的本地化(38]。在这项工作中,我们采用NMBAC提取每列中的两个元素之间的相关特性PSSM概要文件使用以下功能:
在这里,表示两个元素之间的距离和范围从1到10。最后,200维向量得到每个蛋白质序列。
2.3。功能正常化
自原始特性的值的范围不同,功能扩展被认为是一个重要的一步预测模型的能力增加,特别是基于距离的分类器。在这项研究中,我们采用了Min-Max归一化法重新调节原始特性介于0和1之间。Min-Max算法映射一个原始值归一化值 ,使用以下线性变换:
在这里,和代表了最小和最大的变量值在训练样本。
2.4。模型建设
2.4.1。支持向量机(SVM)
支持向量机,由议会和Vapnik首次提出39),是一种使用最广泛的监督学习算法在计算生物学,特别适用于二进制分类任务(40]。给定一组标签训练的例子,一个支持向量机算法学习线性决策边界通过寻找最优超平面分配新一类或其他例子。此外,支持向量机可以有效地执行一个非线性分类使用内核的诀窍时,隐式地将输入映射到高维特征空间。在这项工作中,我们使用Scikit-learn Python库(41)构建基于svm T3SE预测基于蛋白质序列数据。选择径向基函数为核函数由于其优良的性能在前面的应用程序。我们进行了网格搜索方法,优化两个参数和在搜索空间 和 ,和其他参数设置的默认值。
2.4.2。特征选择
在ML,特征选择是选择最相关的一个子集的过程特征从原始特征用于模型建设。一般来说,特征选择技术可以避免维度的诅咒,缩短训练时间,提高泛化通过减少冗余的或无关的特性在不引起信息丢失。在这项工作中,一个XGBoost-based特征选择方法进行了在一个增量逐步贪婪的方法(42]。首先,我们应用XGBoost分类器来计算每个特征的重要性得分基于其参与关键决策,提高了决策树。接下来,所有的功能都根据其重要性分数排名。然后,我们生成的几个特征子集,包含不同的顶部排名的功能。最后,这些特征子集是按顺序输入毫升分类器选择最优的。我们所知,XGBoost-based特征选择技术还没有被用于T3SEs的识别。
2.5。绩效评估
严格和全面评价该模型的性能,五个广泛使用的标准度量报告基于CV测试以及独立的测试,包括敏感性(SN),特异性(SP)、准确性(ACC), - - - - - -价值,马修的相关系数(MCC) [43- - - - - -46]。这些指标定义如下: 在哪里 , , ,和表示的数量真阴性,假阴性,真阳性和假阳性。此外,接受者操作特征(ROC)曲线采用说明二元分类器的诊断能力,这是由策划真阳性率对假阳性(TPR)率(玻璃钢)在不同的阈值设置。注意,TPR也被称为锡、和玻璃钢可以计算为1毫升。曲线下的面积(AUC)也作为一个可靠的测量。AUC值越大,预测的性能越好。
3所示。结果与讨论
3.1。基于XGBoost特征选择的影响
在这项工作中,我们首先获得一个5210维的特征向量为每一个蛋白质序列通过执行三种特征提取方法(即。,美国东部时间RPSSM和NMBAC)。虽然从多个方面捕获更多的序列信息集成功能,原始特征空间可能包含一些冗余的或无关的特性,可能会导致模型过度拟合训练时间增加。因此,我们采取了XGBoost-based特征选择技术来找到最优特征子集和改善预测性能:(1)不容易过度拟合,(2)更快,(3)更高的整体精度。这些特性是排名根据他们的分类能力,和顶部特性检查的5倍CV测试, 。训练数据集的结果见图2。可以看到,精度达到一个最大值(96.7%)增加到80和110。这一发现表明,最歧视从原始特征空间特性可以提取一个子集形式,保留原始变量的语义,可以更好的模拟和解释ML算法。为了选择一个最优特征子集进行最后肽表示,我们构建的两个模型基于特征(80 d)和80强排名前110的特性(110 d)进行进一步的分析。
3.2。性能比较的模型训练使用不同的功能
进一步评估的有效性提出XGBoost-based特征选择策略,我们比较的性能模型训练使用不同的特征编码方法以及所选的80 d和110 d的特性。对于每个特性类型,我们训练了一个单独的基于支持向量机模型的最优调谐参数和验证其预测性能通过执行100次随机5倍CV测试。如表所示13个人特征模型表现良好的ACC约为95%,这表明,信息模式识别T3SEs可能被这些PSSM-based特征编码策略。尤其是,80 d - base模型显示优越的总体预测性能与三种个人特征模型,获得最高SN价值的92.3%。此外,模型训练使用110 d特性实现最佳的总体性能的四个指标:ACC 96.7%, SP的98.2%, - - - - - -价值的93.4%,MCC为0.912。这表明所选的80 d和110 d - base模型不仅减少了训练时间,计算复杂度也有合理的歧视性T3SEs的预测。
3.3。与常用的ML算法性能比较
在本节中,我们评价常用的表演毫升分类器训练使用选定的110 d的功能,包括支持向量机, - - - - - -最近的邻居(资讯),NB,“绿带运动”,射频,XGBoost。公平的性能比较,所有实验在相同的训练数据集使用时间100 - 5倍CV测试。预测结果如表所示2。
可以看到,SVM预测指标明显优于其他分类器的五个措施:SN, SP, - - - - - -价值,MCC, ACC。此外,XGBoost方法获得了第二好的预测性能除了SN价值只是略低于资讯和NB的分类器。相比之下,NB模型在这个任务表现最差。此外,算法的资讯、GNM和射频显示可接受的性能与ACC的价值大于0.94,MCC的值大于0.85, - - - - - -值大于0.85,比0.96的SP值大。确保不同的和高质量的目标人物,只有三个ROC曲线与SVM相关联,射频,NB模型绘制在图3,这说明与表一致的结论2。由于其准确的预测能力,采用支持向量机作为最终的识别预测T3SEs在这工作。
3.4。与现有方法的性能比较
在本节中,我们首先比较的性能提出iT3SE-PX模型与Bastion3预测(15)在同一训练数据集通过使用时间100 - 5倍CV测试。Bastion3探索各种特性等各种类型的序列特征,物理化学性质和演化信息(15]。在这些特性中,五个PSSM-based特征编码方法达到顶级性能(15]。做一个公平的比较,我们的方法的预测结果,只有五Bastion3 PSSM-based模型提供了表3。
从表3,我们发现该iT3SE-PX模型优于上市方法用于Bastion3 ACC (96.7%)、MCC(0.912),和SP (98.2%)。特别是与其他五个模型相比,改善ACC iT3SE-PX提供超过10%的价值。值得一提的是,PSSM-composition方法取得的非凡的SN价值93.0%,DP-PSSM取得最好的方法 - - - - - -值的94.5%。这意味着这些算法可以获得重要的识别信号从不同的观点和有相互补充的作用。此外,我们的方法给出了可接受的性能在SN(> 90%)和期限 - - - - - -只有110特性值(> 93%)。这确实重新观察PSSM-based特性编码方案可以提取更多的信息模式T3SE识别、和特征选择技术可以有效地提高T3SE预测的性能。
进一步评估该模型的性能和鲁棒性,我们进行了相同的独立测试Bastion3 [15),基准iT3SE-PX事先训练在训练数据集。表4报告iT3SE-PX五项绩效指标和其他七个最先进的方法独立的数据集,包括Bastion3 [15),豆2.0 [5],pEffect [7],EffectiveT3 [3],T3_MM [11],BPBAac [22),和筛8]。
如表所示4,iT3SE-PX获得优于其他模型的ACC (96.3%)、MCC(0.927),和 - - - - - -值(96.3%)。由此产生的SN(94.6%)和SP(98.1%)值排名最好的旁边。筛的SP值最高,但SN值低于20%,这表示倾向于产生更多的假阴性。此外,最近报道Bastion3模型获得类似的性能与我们的方法。我们注意到Bastion3应用一个两层的整体学习技术来建立一个强大的预测T3SEs的识别,利用三种不同类型的特性。然而,我们的方法也得到满意的预测结果,只有选择110 d特性被用来训练支持向量机模型。
总之,该方法取得了更好的预测性能使用功能与之前的研究相比相对较少。然而,我们应该指出,仍有进一步改进的空间探索多视图从蛋白质序列特征,物理化学性质和演化信息和发展强大的系综分类器。在未来,我们还将开发一个用户友好的和网上公开访问web服务器iT3SE-PX最大化用户方便。
4所示。结论
尽管数量显著增加可用的全基因组序列,准确的预测在生物信息学T3SEs仍然是一个具有挑战性的问题。在这项工作中,我们提出了一个iT3SE-PX模型来进一步提高预测的准确性T3SEs仅仅基于序列数据。首先,我们集成(即三个特征提取技术。,RPSSM, EDT, and NMBAC) to transform the PSSM profiles of query proteins into 5210-dimensional feature vectors. Then, the XGBoost algorithm was adopted to calculate an importance score for each feature, and all of the features were ranked according to these scores. Finally, the optimal 110 features were selected by using an incremental stepwise greedy method and input into the SVM classifier to perform the prediction of T3SEs. Validation results on two working datasets showed that our method performed better than most of the other existing predictors based on the 100-time 5-fold CV test as well as on the independent dataset test. These promising results also indicated that the proposed iT3SE-PX model could be used for effective prediction of T3SEs, given only the sequence information. For easy implementation, all the datasets and the source codes for this study are freely available to the academic community athttps://github.com/taigangliu/iT3SE-PX。
数据可用性
使用的数据来支持本研究的结果都是免费学术社区https://github.com/taigangliu/iT3SE-PX。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者要感谢晓光鲍博士对他的相关建议。这项工作是由中国国家自然科学基金(格兰特数字11601324,11601324)。