使用IFS-LightGBM Succinylation网站预测基于蛋白质序列(BO)模型

文摘

Succinylation是一个重要的蛋白质转译后的修改,它起着关键作用的蛋白质构象调控和细胞功能控制。许多研究表明succinylation改性蛋白质赖氨酸残基上与许多疾病的发生密切相关。深刻理解succinylation机制,有必要准确识别蛋白质中的succinylation网站。在这项研究中,我们发展一个新的模型,IFS-LightGBM (BO),它利用增量特征选择(IFS)方法,LightGBM特征选择方法,贝叶斯优化算法,和LightGBM分类器预测蛋白质succinylation网站。具体来说,伪氨基酸组成(PseAAC) position-specific得分矩阵(PSSM),疾病状态和成分 - - - - - -间隔的氨基酸对(CKSAAP)是首先用来提取特征信息。然后,利用LightGBM的组合特征选择方法和增量特征选择(IFS)方法选择最优特征子集LightGBM分类器。最后,为了提高预测精度,减少计算负荷,使用贝叶斯优化算法优化LightGBM分类器的参数。结果表明,IFS-LightGBM (BO)的预测模型进行更好的评估时一些常见的指标,如准确性、回忆,精度,马修斯相关系数(MCC) - - - - - -衡量。

1。介绍

转译后的修改(天车)是化学前体蛋白翻译后的修改,如添加小分子蛋白质或官能团的引入,以便不活跃的前体蛋白获得的生物功能。有许多形式的蛋白质转译后的修改,如泛素化,glutarylation, sumoylation,棕榈酰化,乙酰化和甲基化。Succinylation就是发生在赖氨酸天车。赖氨酸是一种α胺基酸由密码子编码AAA和亚美大陆煤层气有限公司,很容易修改1]。Succinylation是一个广泛的保守蛋白质转译后的修改,存在于原核和真核细胞,可以协调各种生物过程(2- - - - - -4]。相比之下,发生在赖氨酸的甲基化和乙酰化,succinylation将导致更多实质性的变化在赖氨酸的化学结构5]。和在不同的细胞功能,包括代谢和表观遗传调控,succinylated蛋白质。

一些研究表明,异常和变化的succinylation与许多疾病的发病机制有关,包括肿瘤(6- - - - - -10),心脏代谢疾病(11,12),肝脏代谢疾病(13),和神经系统疾病7,14,15]。因此,了解succinylation和识别succinylation的网站将帮助确定相关疾病的发病机理和开发靶向药物(16]。

如今,已研制出许多生物实验方法检测succinylated蛋白质或succinylation网站,如高效液相色谱法测定,分光光度检测,放射性化学标签(17,18]。然而,这是一个艰巨的工作检测蛋白质succinylation通过实验,这不可避免的浪费大量的时间和金钱。相比之下,机器学习的优势在短时间内进行大量的实验,并没有受到外部条件影响和限制,这是有用的在认识到succinylation网站。赵et al。19)建立了一个基于SVM预测称为SucPred使用位置氨基酸组成,重量范德华体积正常,体重依赖型剂量分组编码,和自相关函数。通过使用支持向量机,徐et al。20.]发达iSuc-PseAAC实现伪氨基酸组成(PseAAC)计划。然后,徐et al。21)开发另一个名为SuccFind预测,考虑几个氨基酸抗酸组合编码,包括氨基酸组成(AAC), - - - - - -间隔的氨基酸对(CKSAAP)和氨基酸指数(AAindex)。哈桑et al。1]提出的方法与射频SuccinSite预测分类器通过集成多个序列的特性。宁等。22)建立了一个基于SVM预测称为PSuccE使用氨基酸组成(AAC),二进制编码(是),物理化学性质(PCP),和灰色伪氨基酸组成(GPAAC)。

虽然许多方法预测succinylation网站提出了基于机器学习的,仍然有许多改进的空间基于机器学习。首先,蛋白质序列的特征信息没有明确阐明预测succinylation网站交互的影响。其次,multi-information融合产生高维特征向量,将冗余和噪声信息。迫切需要使用一个有效的特征选择方法来排名的重要性的特性和选择最佳特征子集。最后,实验技术的发展产生了大量的succinylation数据。如何充分利用实验数据设计有效的预测算法是非常必要的。

在这项研究中,我们提出一个IFS-LightGBM (BO)预测框架基于机器学习识别succinylation网站赖氨酸的蛋白质序列。四肽序列特性是首先用来表示:(1)伪氨基酸组成(PseAAC), (2) position-specific得分矩阵(PSSM),(3)障碍状态,和(4)组成 - - - - - -间隔的氨基酸对(CKSAAP)。其次,LightGBM方法用于优先2501 - d特征向量,获得从这四个序列的特性。第三,我们把增量特征选择(IFS)方法和机器学习方法进行有效的特性融合然后确定最优特征子集,可以消除噪音和冗余信息在原始特征向量。最后,贝叶斯优化(BO)算法用于优化LightGBM分类器的参数。这项工作不仅提供了更好的理解蛋白质的序列特征succinylation修改也是一个有效的算法在蛋白质直接预测succinylation网站。

2。材料和方法

2.1。数据集

在这部作品中,训练数据收集从dbPTM23,24)(http://dbptm.mbc.nctu.edu.tw/index.php),综合文献发表的公共资源,共有十一个生物数据库与铝有关。我们获得2599蛋白质序列中包括5049证实赖氨酸succinylation网站和5526 nonsuccinylation网站从dbPTM依然。中的数据集使用的窗口大小提取相应的肽片段与赖氨酸(K):“1”是一个赖氨酸(K)提取的中心站点的多肽片段;”“等于10,这意味着10 AA(氨基酸)残留物被选中的上游和下游赖氨酸;最后,多肽片段长度为21。其中,正样本succinylated残渣为中心的网站。

2.2。样本的描述和表示

编码每个多肽片段作为数值向量和输入特性到模型中。这是最关键的步骤,构建一个有效的预测模型。因此,有必要使用高质量的序列编码方法来生成特性,可以有效地预测succinylation网站。在这项研究中,我们使用四种类型的氨基酸特征编码方法包括CKSAAP、障碍、伪氨基酸组成,PSSM。

2.2.1。CKSAAP编码

CKSAAP是其中最经典的编码方法,已广泛应用在生物信息学任务的人1,25- - - - - -31日]。在这项研究中,我们使用多肽片段的长度21。以安盛为例,其空间数量= 1。的多肽片段主要由20基本氨基酸(即。,R D C…W, Y, V),当 ,我们需要提取的残留对AA,基于“增大化现实”技术,广告,…VV,即有总计氨基酸对。

下面的公式用于计算特征向量:

在哪里代表氨基酸对的数量的距离 , 的总数吗 - - - - - -间隔的残留物对片段。在这项研究中,最优是设置为4(即 ,1、2、3、4);然后,将20日19日18日17日和16日,计算得到的是哪一个。因此,多肽片段的长度21转换为2000维( )AA组成特征向量。

2.2.2。障碍

的一个重要指标来衡量蛋白质结构的程度是其固有的障碍。大量的研究结果表明,蛋白质固有的障碍中扮演着非常重要的作用在蛋白质结构和功能预测(32- - - - - -34]。为了描述该属性,我们使用VSL2B [35程序预测障碍评分值。通过运行工具,将获得两种类型的结果,即定性和定量。定量结果的价值区间[0,1]。人们普遍认为,0.5是区分有序和无序的边界值。如果得分结果超过0.5,它被认为是障碍,否则订单。的多肽片段的长度21日障碍特征与21-dimensional最终会获得的。

2.2.3。伪氨基酸组成(PseAAC)

为了避免序列号信息的完全丧失,PseAAC [36周提出的)。PseAAC是AAC格式的扩展形式,它可以识别凸隐藏信息(37- - - - - -39]。在这个工作中,1型PseAAC用作控制序列表示。让是一种多肽片段的长度 ,和是th残留的 :

1型PseAAC的函数 ,产生一个 - - - - - -维向量。1型PseAAC的数学公式第一个20特性,可以根据给定的多肽的组成部分,疏水性,侧链质量,和亲水性的原子吸收光谱法用于计算剩下的吗功能(38]。的的可以通过方程计算(4)和(5): 在哪里反映出发生频率标准的20个氨基酸,是th层序列相关因子,的重量平衡参数序列顺序效应,然后呢是延迟参数。和分别归一化值的亲水性和疏水性。的归一化值侧链的质量是。因此,当和 ,每一个多肽片断转换为40尺寸AA组成特征向量。

2.2.4。PSSM (Position-Specific得分矩阵)

使用PSI-BLAST [40)软件对SWISS-PROT搜索数据库获取蛋白质进化信息,当地爆炸蛋白质数据库是一个权威的数据库由日内瓦大学的建立和欧洲生物信息学研究所(EBI) [41]。通过运行PSI-BLAST工具,两个矩阵可以得到。第一个是position-specific得分矩阵(PSSM),这是用于表示谈话20标准分数AAs发生在特定的序列在进化过程中位置。第二个是position-specific频率矩阵(PSFM),其中包含的频率发生对于一个给定的氨基酸序列在特定的位置。PSSM,我们扩大到440维向量( )在以下方式。首先:

此外,特性可以从PSSM中提取: 在哪里每个多肽片段的长度, 是矩阵中的值。PSSM是通过集成的特点和。

我们结合四个特征获得总共2501 - d特征向量从每个多肽片段。2501的分布特性是列在表中1。然后,多种特征选择方法将用于排名2501 -维特性根据它们的重要性。


特性	功能描述	功能会变暗

CKSAAP	短序列的多肽片段的主题信息	2000年
障碍	蛋白质的内在障碍得分	21
PseAAC	氨基酸的理化特性的因素	40
PSSM	氨基酸残基的进化信息	440年
总	- - - - - -	2501年

2.3。特征选择方法

之前模型开发,因为数据集可能与目标无关的特性值或噪声干扰,有必要通过特征选择,选择最优特征子集,从而降低特征空间的维数,进一步减少过度拟合的风险。同时,模型的泛化性能和预测能力可以进一步改善时无关紧要的功能是删除之前的训练。在这篇文章中,LightGBM特征选择方法用于选择独立变量用于形成最优特征子集。

LightGBM是一种有效的GBDT实现算法,这是由微软亚洲研究院(42]。LightGBM算法,两种重要类型包含:一个是“分裂”,另一个是“增益。”“分裂”反映出的次数在模型中使用的特性。当建立了树木,更频繁地使用的重要特性,其余的都是用来改善残差。在这项研究中,类型是“增益的重要性。”不同于“分裂”、“获得”措施的实际减少节点杂质。gain-based特性排名的重要性后可以获得LightGBM配件(43]。

2.4。增量特征选择方法

IFS方法和特征选择方法的结合有助于选择最优特征子集。首先,特征选择方法用于构造特性列表。具体来说,不同的特征选择方法将首先生成所有功能的重要性得分的计算标准,然后安排功能根据重要性分数降序排列,并最终建立一个基于重要性分数对应的特性列表,在功能列表表示。接下来,增量特征选择(IFS) (44使一系列的特征子集。IFS过程建立越来越多的特征子集的逐渐增加功能。在这项研究中,IFS方法的增量步长设置为1,从而构建一个可以表示为一系列的特征子集 ,的特征子集构造使用功能在功能列表中排名第一,然后呢顶部1和2的特性,也就是说, 。然后,生成的特征子集依次输入到分类器,使用10倍交叉验证方法来评估。最后,当预测的适应度函数使用一个特定的特性子集达到最大值,其相应的特征子集是最好的特征子集。

2.5。LightGBM

LightGBM是一种算法已经成功地应用领域的分类、排名,和许多其他毫升任务(43,45- - - - - -48]。它是一个整体模型基于决策树算法。为了减少内存使用量,提高训练速度,LightGBM直方图算法,试图使离散每个特性(连续浮点特征值)数据集小箱子。之后,这些箱子是用来构造直方图与宽度。遍历所有的样品之后,渐变的直方图将积累必要的统计数据和样本的数量在每一个垃圾箱。积累这些统计数据后,可以找到最优分割点基于最大增益时提供垃圾箱分为两个部分。

除了直方图算法,基于LightGBM提出梯度单面抽样(高斯),独家功能岸堤(EFB),和leaf-wise增长方法进一步提高计算效率没有伤害的准确性。戈斯寻找最佳分割时,样品的梯度的绝对值是首先用来排序的数据实例。然后,保持较高的数据实例梯度,梯度较低的和随机样本实例。最后,戈斯计算方差的特征给最好的分裂节点。

在哪里是实例设置梯度和高是实例设置较低的梯度。每个样品的梯度,是大梯度数据的采样率,是小的梯度数据的采样率,是迭代的数量。

此外,EFB可以加快训练过程GBDT通过捆绑独家功能为一个“大”特性。与level-wise增长战略相比,leaf-wise增长战略将选择最大三角洲的叶损失增加,这可以减少更多的错误和获得更好的准确性在同样的分裂时期。

2.6。模型建设和绩效评估

为了方便起见,succinylation网站预测方法在这项研究中被称为IFS-LightGBM (BO)。使用流程图可以更直观地显示模型的内部机制建设。因此,我们画出图1显示的总体框架IFS-LightGBM (BO)。该框架使用PyCharm实现2020和Python 3.6。是在计算机上进行实验和2.30 GHz, 32.0 GB RAM和Windows操作系统。

的具体步骤IFS-LightGBM (BO) succinylation网站预测描述如下:(1)数据集。数据集是用来预测succinylation网站,分为两类:正样本包含succinylation网站和负样本没有succinylation网站;,这两个数字分别是5049和5526(2)特征提取和特征选择。在这项研究中,使用四种特征提取方法:PseAAC,障碍,PSSM, CKSAAP,蛋白质序列信号转换成数字信号。PSSM,两种编码方法,即平均增长了行和列。然后,这四个特征提取方法是融合预测succinylation网站。接下来,LightGBM方法用于优先考虑的特性和生成特性列表(3)IFS-LightGBM (BO)模型建设。IFS方法构建的一系列特征子集基于特性列表,然后生成的特征子集依次输入LightGBM分类器。使用10倍交叉验证评估分类器的预测能力。当分类器的性能达到最好的,相应的特征子集最优特征子集。选择的最佳特征子集作为模型的输入特性,然后,BO算法用于优化IFS-LightGBM hyperparameters (BO)。包括ACC和五个测量指标 - - - - - -测量是用来评估模型的性能

蛋白质天车网站预测本质上是一个二元分类问题,可以使用符号表测量2。


	真正的标签	真的不是一个

预测的标签	真阳性(TP)	假阳性(FP)
不是一个预测	假阴性(FN)	真阴性(TN)

TP和FP代表真阳性和假阳性的数量,和真阴性和假阴性的数量是由TN和FN,分别。评估方法的预测性能,五措施,包括准确性(ACC),记得,精度,马修斯相关系数(MCC) - - - - - -测量使用(49]。这些指标计算如下:

ACC描述正确预测样本的比例,和它的值范围从0到1,1表示最好的预测。回忆是能够识别阳性病例和精度表示的类协议数据标签的正面的标签分类器。世纪挑战集团是一个相关系数描述实际的分类和预测分类之间的关系。 - - - - - -查全率和查准率可以结合成一个单一的职业专用测量精度,这是选为关键测量在这个研究。

3所示。结果与讨论

3.1。综合最优的特征提取

CKSAAP特征多肽片段的短序列的主题信息,PSSM反映进化信息,障碍特征反映本地无序残留物被VSL2B [35],PseAAC反映了多肽的理化信息段。因此,它是可能的,这样的四种编码将描述的集成多肽片段的序列和结构特性更好。但与此同时,特征融合后的数据集可能与目标无关的特性值,所以LightGBM排名算法将用于熔融特性和生成一个功能列表,然后,将使用IFS方法选择最优特征子集。本节将使用10倍交叉验证对模型的性能进行评估。相应的结果如表所示3。“所有(IFS)”代表了融合的四个特征提取方法和降维通过假设和LightGBM特征选择方法。“所有”代表了融合的四个没有降维特征提取方法。


特性	维	ACC	回忆	世纪挑战集团	精度	- - - - - -测量

PseAAC	40	0.7061	0.6970	0.4113	0.6904	0.6937
障碍	21	0.5709	0.5906	0.1434	0.5469	0.5679
CKSAAP	2000年	0.6964	0.6849	0.3916	0.6810	0.6829
PSSM	440年	0.6985	0.6576	0.3950	0.6947	0.6756
所有	2501年	0.7253	0.7053	0.4492	0.7153	0.7103
所有(IFS)	2501年	0.7360	0.7223	0.4708	0.7240	0.7232

可以看出,当使用PseAAC时,障碍,CKSAAP, PSSM,和“所有”的特征提取方法 - - - - - -测量分数是69.37%,56.79%,68.29%,67.56%,和71.03%,分别。预测 - - - - - -衡量“所有(IFS)”是72.32%,高于1.29%的“所有”和15.53%高于障碍。我们可以清楚地看到,当融合四种特征提取方法,以及IFS LightGBM用于选择最优特征子集,预测 - - - - - -显著提高测量。此外,我们可以看到,“所有(IFS)”的预测精度为2.99%,16.51%,3.96%,3.75%,和1.07%高于PseAAC,障碍,CKSAAP, PSSM,“所有。“总之,融合四种特征提取方法和使用IFS LightGBM选择最优特征子集可以提高蛋白质的预测性能succinylation网站。因此,我们结合PseAAC的四种特征提取方法,障碍,CKSAAP, PSSM每个多肽片段的描述信息。

3.2。IFS的结果和特征选择方法

使用多个特征提取方法可以更好地描述多肽片段,但与此同时,它将增加功能冗余的风险。为了选择最优特性,结合IFS方法和不同的特征选择方法的介绍。与此同时,为了清楚地反映LightGBM特征选择方法的优越性,我们也使用ReliefF [50],LinearSVR [51],XGBoost [52),和方差分析53找到最优特征子集。

从表可以看出4数据集,不同的特征选择方法有一个很大的影响在succinylation网站预测的准确性。其中,LightGBM特征选择方法使分类器获得最佳的预测性能。当排名前351的特性选择特征子集,ACC,记得,精确,MCC, - - - - - -测量是73.60%,72.23%,72.40%,47.08%,和72.32%,分别。的 - - - - - -衡量LightGBM是0.51%,0.73%,0.04%,和0.56%高于ReliefF, LinearSVR, XGBoost,分别和方差分析。ACC是0.41%,0.56%,0.09%,和0.44%高于ReliefF, LinearSVR, XGBoost,分别和方差分析。LightGBM优化特性的数量是1963,1756,212,和852年不到ReliefF, LinearSVR, XGBoost,分别和方差分析。此外,我们还尝试的降维方法主成分分析(PCA) (54), - - - - - -分布式随机邻居嵌入(t-SNE) (55没有使用IFS方法)。从表中我们可以看出4,当PCA用于选择最佳特征子集, - - - - - -模型的测量值为0.6746,低于4.86%不到LinearSVR LightGBM和4.13%。与此同时,当 - - - - - -新力用于选择最佳特征子集 - - - - - -模型的测量值为0.5218,低于20.14%不到LinearSVR LightGBM和19.41%。实验结果表明,尽管它们消耗更少的时间,他们的预测性能比使用其他特征选择方法,结合IFS,当处理数据在这个研究。因此,我们选择的方式将IFS与不同的特征选择方法选择最优特征子集。


特征选择方法	最佳子集	ACC	回忆	世纪挑战集团	精度	- - - - - -测量

LightGBM	351年	0.7360	0.7223	0.4708	0.7240	0.7232
ReliefF	2314年	0.7319	0.7150	0.4626	0.7211	0.7181
LinearSVR	2107年	0.7304	0.7114	0.4594	0.7204	0.7159
XGBoost	563年	0.7351	0.7231	0.4692	0.7224	0.7228
方差分析	1203年	0.7316	0.7142	0.4620	0.7211	0.7176
- - - - - -新力	3	0.5526	0.5112	0.1019	0.5328	0.5218
主成分分析	1517年	0.6952	0.6617	0.3885	0.6880	0.6746

进一步分析,我们得出预测值的IFS曲线情节(即为每个特征选择方法。,ReliefF LightGBM LinearSVR XGBoost,方差分析),如图2。从图可以看出2 (b)LightGBM达到最优 - - - - - -测量结果与351年通过的一个子集的特性,虽然ReliefF, LinearSVR, XGBoost,方差分析达到最优 - - - - - -测量值在使用前2314名的子集时,2107年,563年和1203年自己的特性列表功能,分别。与此同时,LightGBM达到最优ACC的结果使用子集351强的特性,虽然ReliefF, LinearSVR, XGBoost,和方差分析达到最优ACC价值在使用前1465名的子集时,2130年,421年和1203年自己的特性列表功能,分别。在本节中,功能列表是不同的,因为这些功能列表构造通过不同的特征选择方法,但功能子集生成基于功能列表将相同的分类器的输入。特性用于最优特征子集的数量取决于LightGBM方法是最少的,而相应的ACC和 - - - - - -测量分数最高。相反,LinearSVR的最佳特征子集包含最多的特性,和它的预测准确性和 - - - - - -测量更小。鉴于上述,LightGBM特征选择方法的预测效果比ReliefF LinearSVR, XGBoost和方差分析。因此,我们使用LightGBM特征选择方法选择最佳特征子集。

(一)

(b)

图2

(一)描述了IFS曲线ACC的每个特征选择方法的价值,和(b)描述了IFS的曲线 - - - - - -测量每个特征选择方法的价值。根据构造数据集描述的材料和方法,IFS曲线显示的趋势(a) ACC价值和(b) - - - - - -衡量价值的五个特征选择方法为输入特征数量的增加。五个特征选择方法是LightGBM、ReliefF LinearSVR, XGBoost和方差分析。

3.3。分类算法的选择

分类器的选择起着至关重要的作用在构建一个有效的预测模型succinylation网站。根据讨论部分3.1,2501维特征向量将通过融合四种特征提取方法包括PseAAC、障碍,CKSAAP, PSSM。根据分析部分3.2,LightGBM将作为特征选择方法,结合IFS方法构造最优特征子集。为了反映LightGBM分类器的优越性在预测succinylation网站显然,随机森林(RF) (56),ExtraTree (ET) [57),梯度提高决策树(GBDT) [58), - - - - - -最近邻(资讯)59)、XGBoost和朴素贝叶斯(NB) [60)算法将进行了介绍和比较。邻居在资讯的数量是5,基本决策树的数量射频是100,LightBGM的迭代次数,XGBoost, GBDT是100。从表可以看出5当LightGBM分类器使用前351功能的一个子集LightGBM特性列表, - - - - - -测量值可以达到最佳的分类性能,这是高于ET GBDT高出0.7%和13.64%。与此同时,ACC LightGBM标识符的值是0.7360,1.78%,13.5%,0.93%,7.64%,0.89%,和4.82%高于射频,ET, GBDT,然而,XGBoost,分别和NB。


分类器	最佳子集	ACC	回忆	世纪挑战集团	精度	- - - - - -测量

LightGBM	351年	0.7360	0.7223	0.4708	0.7240	0.7232
射频	37	0.7182	0.6795	0.4345	0.7158	0.6972
等	33	0.6010	0.5934	0.2013	0.5804	0.5868
GBDT	94年	0.7267	0.7223	0.4528	0.7102	0.7162
然而,	32	0.6596	0.7209	0.3258	0.6242	0.6691
XGBoost	427年	0.7271	0.7114	0.4529	0.7154	0.7134
注	805年	0.6878	0.7724	0.3867	0.6444	0.7026

此外,图3描述了IFS ACC值和曲线 - - - - - -每个分类器的测量值。从图中曲线可以看到,当351强特性的一个子集LightGBM特性列表LightGBM使用分类器,两个 - - - - - -测量和ACC取得最优分类的性能。射频、ET GBDT,然而,XGBoost,和NB算法,最高 - - - - - -时获得的测量值是使用前37岁,33岁,94年,32岁,427年和805年LightGBM特性列表功能,分别。当单独使用顶部41岁,9日,131年,16岁,427年,44特性LightGBM特性列表中,他们可以获得最高的ACC。

(一)

(b)

证明LightGBM分类器比其他六个机器学习算法,我们进行10倍100倍交叉验证不同分类器通过设置不同的交叉验证方法,随机种子数的最佳子集由IFS充当小火车的训练不同的分类器。进一步测量七个机器学习方法的性能,我们计算的均值最大ACC (Max_ACC的意思),最大的意思 - - - - - -测量(Max_ - - - - - -测量的意思),最大ACC的标准差(Max_ACC std)和标准偏差的最大值 - - - - - -测量(Max_ - - - - - -每个分类器的测量标准)。结果在表中列出6和7,分别。如表所示6和7LightGBM分类器的预测性能优于其他六个因为其“Max_机器学习方法 - - - - - -测量的意思”和“Max_ACC意味着“GBDT高于RF等,然而,XGBoost,和NB算法。“Max_ - - - - - -NB的衡量标准”和“Max_ACC性病”比其他算法更小,这表明它有一个相对稳定的预测性能。从图可以看出4的结果 - - - - - -测量基本上符合正态分布,评价指标分布的连续性的射频,GBDT,然而,XGBoost, NB比LightGBM。和最大 - - - - - -测量的100次实验LightGBM方法集中在0.712和0.718之间。总之,LightGBM模型有更好的预测性能比其他六个模型。因此,我们使用LightGBM作为分类器。图4描述了100年实验的结果的柱状图。


分类器	Max_ACC意味着	Max_ACC性病	马克斯的Max_ACC

LightGBM	0.7290	0.0027	0.7360
射频	0.7148	0.0023	0.7203
等	0.5960	0.0049	0.6081
GBDT	0.7250	0.0021	0.7296
然而,	0.6614	0.0021	0.6661
XGBoost	0.7177	0.0032	0.7271
注	0.6923	0.0008	0.6944


分类器	Max_ - - - - - -测量的意思	Max_ - - - - - -衡量标准	马克斯的Max_ - - - - - -测量

LightGBM	0.7145	0.0029	0.7232
射频	0.6932	0.0027	0.6989
等	0.5718	0.0060	0.5868
GBDT	0.7128	0.0022	0.7194
然而,	0.6677	0.0020	0.6730
XGBoost	0.7034	0.0035	0.7134
注	0.7017	0.0009	0.7039

(一)

(b)

(c)

(d)

(e)

(f)

(g)

图4

的最大 - - - - - -测量值分布的不同分类器获得的100个随机测试。的 - - - - - -坐标表示的最大 - - - - - -测量值, - - - - - -坐标表示的数量相应的时间间隔。七个分类器(a) LightGBM, (b)随机森林,(c) ExtraTree, (d) GBDT, (e)资讯(f) XGBoost, (g) NB。

3.4。参数优化和性能分析

为了进一步提高LightGBM的性能模型,贝叶斯优化(BO)算法用于优化模型参数。贝叶斯优化是一个非常强大的方法,它使用一个代理函数来估计噪声,昂贵的黑盒功能。贝叶斯hyperparameter优化算法的核心思想是建立一个概率模型,定义了一个分布目标函数从输入空间到感兴趣的目标(61年]。博使用先验知识的方法相对便宜的后验分布,然后推断,探索未来最佳hyperparameter组合根据分布。在这项研究中,高斯过程(GP)方法被选中作为一个代理模型和预期的改善(EI)被选中作为一个采集功能。

hyperparameters为代理模型 ,让的观察input-target对, 预测方差函数,预测平均值 ,和定义

在哪里是最低的观测值,和分别是标准的累积和正常密度(62年]。

(BO)贝叶斯优化算法优化的一些关键hyperparameters LightGBM分类如表所示8。的 - - - - - -衡量培训值和预测值之间的10倍交叉验证的定义是LightGBM hyperparameter优化的适应度函数评价的分类器。为了区分LightGBM没有hyperparameter优化,优化的BO的分类器算法叫做IFS-LightGBM (BO)。


Hyperparameters	的含义	搜索范围	最优值

learning_rate	学习速率	(0.01,1.0)	0.0274
max_depth	树的最大深度	(50)	20.
max_bin	最大的箱子数量特征值将桶	(100)	10
reg_alpha	L1正规化	(1 - - - - - -9日,1.0)	0.9647
boosting_type	训练方法	gbdt;戈斯;射频;飞镖	戈斯
num_leaves	叶节点的数量	(50)	11
n_estimators	的迭代次数	(100,600)	600年

IFS-LightGBM (BO)模型,利用最优特征子集与351年特性,参数learning_rate,max_depth,max_bin,reg_alpha,boosting_type,num_leaves,n_estimators利用波算法需要优化。最高的IFS-LightGBM (BO)模型 - - - - - -测量时可以实现learning_rate是0.0274,max_depth是20,max_bin是10,reg_alpha是0.9647,boosting_type戈斯,num_leaves是11,n_estimators是600,这给吗 - - - - - -测量0.7255。为了反映波算法调优参数的优越性显而易见,我们也采用网格搜索(GS) LightGBM分类器的参数优化方法,优化过程的hyperparameters表所示9。表10列出的其他测量结果IFS-LightGBM (BO) LightGBM, IFS-LightGBM (GS)。在表中10和11”LightGBM (GS)”表示模型与GS方法;“LightGBM”表示没有hyperparameter优化模型。


Hyperparameters	的含义	搜索范围	最优值

learning_rate	学习速率	(0.01,1.0)	0.1
max_depth	树的最大深度	(50)	15
max_bin	最大的箱子数量特征值将桶	(100)	20.
reg_alpha	L1正规化	(1 - - - - - -9日,1.0)	1 - - - - - -5
boosting_type	训练方法	gbdt;戈斯;射频;飞镖	gbdt
num_leaves	叶节点的数量	(4、50)	36
n_estimators	的迭代次数	(100,600)	450年


分类器	最佳子集	ACC	回忆	世纪挑战集团	精度	- - - - - -测量

IFS-LightGBM (BO)	351年	0.7392	0.7219	0.4771	0.7291	0.7255
LightGBM	351年	0.7360	0.7223	0.4708	0.7240	0.7232
LightGBM (GS)	351年	0.7377	0.7190	0.4740	0.7282	0.7235


分类器	Max_ - - - - - -测量的意思	Max_ - - - - - -衡量标准	马克斯的Max_ - - - - - -测量

IFS-LightGBM (BO)	0.7229	0.0028	0.7292
LightGBM	0.7145	0.0029	0.7232
LightGBM (GS)	0.7194	0.0027	0.7259

确认LightGBM分类器的性能已经被波算法,进一步提高我们进行10倍100倍交叉验证IFS-LightGBM (BO)模型。与此同时,LightGBM分类器和LightGBM (GS)模型也评估了10倍交叉验证100倍。表11显示了最大的平均和标准偏差 - - - - - -测量100个随机测试的三种模式,是IFS-LightGBM (BO) LightGBM, LightGBM (GS)。从表可以看出11“Max_ - - - - - -测量的意思是“IFS-LightGBM (BO)模型是高于LightGBM (GS)模型和LightGBM分类器。与此同时,与网格搜索方法相比,贝叶斯优化算法搜索最优消费更少的时间LightGBM分类器的参数。因此,贝叶斯优化算法用于优化LightGBM构造最优模型的参数。

接下来,我们将进一步分析模型输出结果。的基础上的输出部分3.2,我们发现当我们使用351强特性的子集在LightGBM功能列表中,的值 - - - - - -测量和ACC达到最高点。从图可以看出5(一个),在排名前100的功能特性列表,PseAAC的数字,障碍,CKSAAP,和PSSM 38, 16日9,分别和37。(即进化信息。,PSSM)和the physicochemical information (i.e., PseAAC) account for 38% and 37% of the total. Among the top 101-200 features in the feature list, the numbers of PseAAC, disorder, CKSAAP, and PSSM are 2, 5, 29, and 64, respectively. At the same time, among the top 201-351 features in the feature list, the numbers of CKSAAP and PSSM are 46 and 105, respectively.

(一)

(b)

(c)

4所示。结论

succinylation及其网站的研究起着重要的作用在决定相关疾病的发病机理和靶向药物的发展。在这项研究中,我们提出一个模型IFS-LightGBM (BO)基于机器学习的预测succinylation网站。数据集,PseAAC,障碍,PSSM, CKSAAP四种特征提取方法用于提取多肽片段的序列信息和物理化学信息。同时,介绍了IFS方法和不同的特征选择方法,结合LightGBM分类器来消除冗余和噪声信息来确定最佳特征子集。通过比较,我们发现与ReliefF相比,LinearSVR, XGBoost,和方差分析方法,LightGBM特征选择方法可以搜索最优特征子集更快,及其相应的模型性能评估指标更好。最后,BO算法调整LightGBM分类器的参数建立的最佳模式。结果表明,IFS-LightGBM (BO)模型是一种非常有效的方法来预测succinylation网站因为由于ACC的0.7392,0.7219召回,MCC的0.4771,精度0.7291, - - - - - -测量0.7255。

数据可用性

使用的数据来支持本研究的发现来自先前报道的研究和公共数据库,已被引用。

的利益冲突

作者宣称没有利益冲突。

确认

本研究支持上海自然科学基金(17 zr1412500)和上海市科学技术委员会(STCSM) (18 dz2271000)。

引用

m·哈桑,杨,y周,n . h . Mollah”SuccinSite:计算工具的预测蛋白质succinylation网站利用氨基酸模式和属性,“分子生物系统》12卷,第795 - 786页,2016年。视图:出版商的网站|谷歌学术搜索
k·a·c·m . Tan Peng安德森et al .,“赖氨酸glutarylation是一种蛋白质转译后的修改由SIRT5,”细胞代谢,19卷,不。4、605 - 617年,2014页。视图:出版商的网站|谷歌学术搜索
b t。维内特,c·朔尔茨,s . a .瓦格纳et al。”赖氨酸succinylation是原核生物和真核生物的频繁发生修改和广泛与乙酰化作用,”细胞的报道,4卷,不。4、842 - 851年,2013页。视图:出版商的网站|谷歌学术搜索
z谢,j·戴,戴l . et al .,“succinylation赖氨酸,在组蛋白赖氨酸malonylation。”分子和细胞蛋白质组学,11卷,不。5,100 - 107年,2012页。视图:出版商的网站|谷歌学术搜索
x, x, y Wan et al .,“系统识别的赖氨酸succinylation原生动物寄生虫刚地弓形虫”,蛋白质组研究期刊》的研究,13卷,不。12日,第6095 - 6087页,2014年。视图:出版商的网站|谷歌学术搜索
a . Yokoyama s桂太郎,a . Sugawara“组蛋白succinylation生化分析,生物化学研究国际卷。2017年,7页,2017。视图:出版商的网站|谷歌学术搜索
g·e·吉布森h .徐h·l·陈w·陈,t·t·丹顿和美国,“Alpha-ketoglutarate脱氢酶complex-dependent succinylation神经元和神经细胞株蛋白质的“神经化学杂志,卷134,不。1,第96 - 86页,2015。视图:出版商的网站|谷歌学术搜索
j . Smestad l . erb y . Chen和l . j .马赫三世,“染色质succinylation与活跃的基因表达和摄动是有缺陷的柠檬酸循环代谢,”iScience,2卷,第75 - 63页,2018年。视图:出版商的网站|谷歌学术搜索
c . c . Wang,李x et al .,“CPT1A-mediated succinylation S100A10增加人类胃癌的入侵,”细胞和分子医学杂志》上,23卷,不。1,第305 - 293页,2019。视图:出版商的网站|谷歌学术搜索
x所致。m . f . Chen所致。x田,r .量。问:太阳et al .,”西尔特5酶抑制ACOX - 1,以防止氧化损伤和肝癌中表达下调,“EMBO报告,19卷,不。5,2018。视图:出版商的网站|谷歌学术搜索
d . s . Sadhukhan x Liu Ryu et al .,“Metabolomics-assisted蛋白质组学鉴定succinylation和SIRT5心脏功能的重要监管机构,”美国国家科学院院刊》上的美利坚合众国,卷113,不。16,4320 - 4325年,2016页。视图:出版商的网站|谷歌学术搜索
j·a·波依斯顿,j .太阳,y, m . Gucek m . n .袋和e·墨菲,”表征的心脏succinylome及其在缺血再灌注损伤作用,”分子和细胞心脏病学杂志》上卷,88年,第81 - 73页,2015年。视图:出版商的网站|谷歌学术搜索
t . y . Cheng侯,j . Ping g . Chen和j·陈,“定量succinylome分析在非酒精脂肪肝大鼠的肝脏模型,”蛋白质组学,14卷,不。1,2016。视图:出版商的网站|谷歌学术搜索
c . l . Liu Peritore, j·金斯堡,j . Shih s阿伦和g . Donmez”保护作用对电动机SIRT5赤字和多巴胺能变性MPTP-induced帕金森病小鼠模型,”大脑研究行为卷,281年,第221 - 215页,2015年。视图:出版商的网站|谷歌学术搜索
m . i Lutz Milenkovic, g . Regelsberger g·g·科瓦奇,“独特的sirtuin蛋白表达模式在阿尔茨海默病的进展,”NeuroMolecular医学,16卷,不。2、405 - 414年,2014页。视图:出版商的网站|谷歌学术搜索
d·朱l .侯b .胡锦涛et al。”蛋白质组之间的串扰,acetylome succinylome与二氯醋酸钠治疗结肠癌HCT116细胞,”科学报告》第六卷,没有。1,第37478条,2016。视图:出版商的网站|谷歌学术搜索
y町田,t .千叶,a Takayanagi et al .,“共同帕金和抗凋亡作用α-核蛋白在人类多巴胺能细胞。”生化和。生物物理。研究通讯,卷332,不。1,第240 - 233页,2005。视图:出版商的网站|谷歌学术搜索
c·林德r·格迪斯y Hamnell et al .,“识别S-glutathionylated细胞蛋白在氧化应激和本构代谢通过亲和纯化、蛋白质组学分析,“生物化学和生物物理学的档案,卷406,不。2、229 - 240年,2002页。视图:出版商的网站|谷歌学术搜索
x赵,问:宁、h·柴和z,“准确的计算机识别的蛋白质succinylation网站使用一个迭代semi-supervised学习技术,”理论生物学杂志》上卷。374年,60 - 65、2015页。视图:出版商的网站|谷歌学术搜索
徐y, y。叮,叮,中州。Lei, L.-Y。吴和他。邓,“iSuc-PseAAC:预测蛋白质的赖氨酸succinylation结合肽position-specific倾向,”科学报告,5卷,不。1,2015。视图:出版商的网站|谷歌学术搜索
》。徐,S.-P。施,p。温,j。秋,“SuccFind:小说succinylation网站在线预测工具通过增强特色战略,”生物信息学没有,卷。31日。23日,第3750 - 3748页,2015年。视图:出版商的网站|谷歌学术搜索
赵问:宁,x l .保z,妈,和赵x”检测succinylation网站使用整体支持向量机从蛋白质序列,”BMC生物信息学,19卷,不。1,p。237年,2018。视图:出版商的网站|谷歌学术搜索
K.-Y。黄,t . y . Lee h . j . Kao et al .,“2019年dbPTM:探索疾病协会和相声的转录后修饰,“核酸的研究卷,47号D1, D298-D308, 2019页。视图:出版商的网站|谷歌学术搜索
K.-Y。黄m·g·苏·h·j . Kao et al .,“dbPTM 2016: 10年周年翻译修饰的蛋白质资源,”核酸的研究,44卷,不。D1, D435-D446, 2016页。视图:出版商的网站|谷歌学术搜索
k . Chen洛杉矶坟头,j .阮”从蛋白质序列预测灵活/刚性区域使用k-spaced氨基酸对,”BMC结构生物学,7卷,不。1,p。25日,2007。视图:出版商的网站|谷歌学术搜索
x y z z . Chen Chen f . Wang c . Wang r . x, z和张“泛素化预测网站通过使用k-spaced氨基酸的组成对,”《公共科学图书馆•综合》》第六卷,没有。7篇文章e22930 2011。视图:出版商的网站|谷歌学术搜索
Y.-Z。陈,Y.-R。唐,Z.-Y。盛,z,“预测mucin-type O-glycosylation网站在哺乳动物蛋白质使用k-spaced氨基酸的组成对,”BMC生物信息学,9卷,不。1,p。101年,2008。视图:出版商的网站|谷歌学术搜索
张周z, y, z, j .歌曲,“对泛素化网站的更准确的预测:目前的综合评估方法,工具和特性,”简报的生物信息学,16卷,不。4、640 - 657年,2015页。视图:出版商的网站|谷歌学术搜索
k . Chen洛杉矶坟头,j .阮”预测蛋白质结构类小说使用进化collocation-based序列表示,“计算化学杂志卷,29号10日,1596 - 1604年,2008页。视图:出版商的网站|谷歌学术搜索
y z . Chen周、j .歌曲和z,“hCKSAAP_UbSite:提高预测人类泛素化的网站利用氨基酸模式和属性,“Biochimica et Biophysica学报(BBA)——蛋白质和蛋白质组学,卷1834,不。8,1461 - 1467年,2013页。视图:出版商的网站|谷歌学术搜索
j·m·哈桑,y, x Lu, j .歌曲>,“计算识别的蛋白质pupylation网站通过使用profile-based k-spaced氨基酸组成对,”《公共科学图书馆•综合》,10卷,不。6篇文章e0129635 2015。视图:出版商的网站|谷歌学术搜索
铁试剂,s . Longhi b .谣言,d .《“一个实际的概述蛋白质障碍的预测方法,”蛋白质,卷65,不。1、1 - 14,2006页。视图:出版商的网站|谷歌学术搜索
o . Noivirt-Brik j . Prilusky和j·l·苏斯曼”CASP8障碍的评估预测,”蛋白质,卷77,不。S9, 210 - 216年,2009页。视图:出版商的网站|谷歌学术搜索
g m·刘,刘,“预测citrullination网站的基础上和SNN mRMR方法,”组合化学和高通量筛选,22卷,不。10日,705 - 715年,2020页。视图:出版商的网站|谷歌学术搜索
k, p . Radivojac s Vucetic a . k . Dunker和z . Obradovic“Length-dependent预测蛋白质的内在障碍,”BMC生物信息学,7卷,不。1,p。208年,2006。视图:出版商的网站|谷歌学术搜索
X.-B。周,Z.-C c . Chen。李,X.-Y。邹,”使用周的两亲性pseudo-amino酸组成和酶的亚类的支持向量机预测,“理论生物学杂志》上,卷248,不。3、546 - 551年,2007页。视图:出版商的网站|谷歌学术搜索
w·赵g . p . Li j . Wang y . k .周y高,p . f . Du,“预测蛋白质sub-Golgi位置结合功能域浓缩与pseudo-amino酸成分得分,”理论生物学杂志》上卷。473年,中山,2019页。视图:出版商的网站|谷歌学术搜索
郑z z, j . Wang, x呗,“一种基于特征识别细胞因子组合的新方法和支持向量机分类器,”分子,23卷,不。8,2008年,页2018。视图:出版商的网站|谷歌学术搜索
m . Arif m是z 1月,“iMem-2LSAAC:两级膜蛋白及其类型歧视模型通过扩展的概念SAAC周的伪氨基酸组成,”理论生物学杂志》上卷。442年,乳,2018页。视图:出版商的网站|谷歌学术搜索
美国Altschul”,有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索项目,“核酸的研究,25卷,不。17日,第3402 - 3389页,1997年。视图:出版商的网站|谷歌学术搜索
UniProt财团”UniProt:通用蛋白质知识库”,核酸的研究卷,45 D158-D169, 2017页。视图:谷歌学术搜索
g .柯孟,t·芬利et al .,“LightGBM:一种高效梯度提高决策树,”先进的神经信息处理系统长滩,页3146 - 3154年,CA,美国,2017年。视图:谷歌学术搜索
周k . y . Hu h .锅et al .,“快速预测储层渗透率的基于嵌入式特征选择和LightGBM使用直接的日志数据,”测量科学与技术没有,卷。31日。4、第045101条,2020年。视图:出版商的网站|谷歌学术搜索
l . Chen x y, y . h .张黄t . m . Liu和y . d .蔡”的分类与递归神经网络广泛,很少表达基因,”计算和结构生物技术杂志,17卷,49-60,2019页。视图:出版商的网站|谷歌学术搜索
董h .高,z, j . et al .,“预测药物/磷脂lightGBM络合的方法,”化学物理快报第137354条,卷。747年,2020年。视图:出版商的网站|谷歌学术搜索
c .陈问:张先生,问:妈,和b . Yu”LightGBM-PPI:预测蛋白质相互作用通过与multi-information LightGBM融合,“化学计量学和智能实验室系统卷。191年,54 - 64年,2019页。视图:出版商的网站|谷歌学术搜索
郑k, l . Wang和Z.-H。你,”CGMDA:一个方法来预测和验证microRNA-disease协会利用混乱游戏和LightGBM表示,“IEEE访问7卷,第133323 - 133314页,2019年。视图:出版商的网站|谷歌学术搜索
w·梁,美国罗、g .赵和h . Wu”预测使用GBDT稳定,坚硬的岩石支柱XGBoost,和LightGBM算法,”数学,8卷,不。5,765年,页2020。视图:出版商的网站|谷歌学术搜索
m . Sokolova和g . Lapalme”绩效指标的系统分析分类任务,”信息处理与管理,45卷,不。4、427 - 437年,2009页。视图:出版商的网站|谷歌学术搜索
n . Spolaor e·a·Cherman m . c . Monard和h·d·李,“ReliefF多标记特征选择,”2013年巴西智能会议系统福塔雷萨,页6尺11寸,巴西,2013年。视图:出版商的网站|谷歌学术搜索
R.-E。风扇,K.-W。Chang C.-J。谢长廷,X.-R。王,C.-J。林,“LIBLINEAR:图书馆对于大型线性分类,“机器学习研究杂志》上4卷,第1874 - 1871页,2008年。视图:谷歌学术搜索
t·陈和c . Guestrin“XGBoost:一个可伸缩的树增加系统”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页785 - 794,美国加州旧金山,2016年。视图:出版商的网站|谷歌学术搜索
m·a . m . Balbed s . m . s . Ahmad和a . Shakil”ANOVA-based特性分析和选择HMM-based离线签名验证系统”2009年创新技术在智能系统和工业应用莫纳什大学,页66 - 69年,马来西亚,2009年。视图:出版商的网站|谷歌学术搜索
m . e . Timmerman“主成分分析”,美国统计协会杂志》上,卷98,不。464年,第1083 - 1082页,2003年。视图:出版商的网站|谷歌学术搜索
g l . van der Maaten和辛顿,“使用T-SNE可视化数据。”机器学习研究杂志》上9卷,第2605 - 2579页,2008年。视图:谷歌学术搜索
l . Breiman“随机森林”,机器学习卷,45 5-32,2001页。视图:谷歌学术搜索
p·吉尔茨、d·恩斯特和l . Wehenkel”非常随机树。”机器学习,卷63,不。1,3-42,2006页。视图:出版商的网站|谷歌学术搜索
j·h·弗里德曼,“贪婪的近似函数:一个梯度增加机器,”统计年报卷,29号5,1189 - 1536年,2001页。视图:出版商的网站|谷歌学术搜索
j·m·凯勒·m·r·格雷和j·A·吉文斯”模糊再算法”,IEEE系统,,,控制论,SMC-15卷,不。4、580 - 585年,1985页。视图:出版商的网站|谷歌学术搜索
n . Friedman, d .盖革,m . Goldszmidt“贝叶斯网络分类器,”机器学习卷,29号2/3,131 - 163年,1997页。视图:出版商的网站|谷歌学术搜索
j .杖鱼o . Rippel k Swersky et al .,“使用深层神经网络,可伸缩的贝叶斯优化”国际会议上机器学习里尔,页2171 - 2180年,法国,2015年。视图:谷歌学术搜索
r . Moriconi、k·s·s·库马尔和m . p . Deisenroth“高维贝叶斯优化使用分位数与预测高斯过程,”优化信,14卷,不。1,51 - 64,2020页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

开发和应用基于机器学习方法在特殊功能蛋白质的鉴定

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。样本的描述和表示

2.2.1。CKSAAP编码

2.2.2。障碍

2.2.3。伪氨基酸组成(PseAAC)

2.2.4。PSSM (Position-Specific得分矩阵)

2.3。特征选择方法

2.4。增量特征选择方法

2.5。LightGBM

2.6。模型建设和绩效评估

3所示。结果与讨论

3.1。综合最优的特征提取

3.2。IFS的结果和特征选择方法

3.3。分类算法的选择

3.4。参数优化和性能分析

4所示。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章