文摘gydF4y2Ba
生物荧光蛋白(BLPs)是一类蛋白质,广泛分布在许多生物体各种发光机制包括生物荧光和化学发光发光生物体。生物荧光中常用的各种细胞过程的分析研究方法,如基因表达分析,药物发现,细胞成像,和毒性的决心。然而,生物荧光蛋白的识别是具有挑战性的,因为他们可怜的序列相似。在本文中,我们简要地回顾了计算识别BLPs和随后的发展提出了一个新颖的预测框架识别BLPs基于极端梯度增强算法(XGBoost)和使用sequence-derived特性。训练模型,我们收集了BLP数据从细菌、真核生物和古菌。然后,获得更有效的预测模型,我们研究了不同特征提取方法及其组合的表演以及分类算法。最后,基于最优模型,一本小说名叫iBLP构造识别BLPs预测指标。的健壮性iBLP已经被实验证明了培训和独立的数据集。发表的比较与其他方法进一步证明了该方法是强大的,能提供良好的BLP识别的性能。BLP识别的网络服务器和软件是免费的gydF4y2Bahttp://lin-group.cn/server/iBLPgydF4y2Ba。gydF4y2Ba
1。介绍gydF4y2Ba
共同生产和发送可见灯在一些生物,例如,栉水母类、细菌、环节动物、真菌、鱼、昆虫、藻类、和古菌(gydF4y2Ba1gydF4y2Ba]。这些现象可以解释主要两种机制,生物荧光和化学发光,前者涉及一系列的化学反应,而后者与吸收的光从外部来源和排放后转换(gydF4y2Ba2gydF4y2Ba]。特别是生物荧光蛋白(BLPs)发挥重要作用在生物荧光可以化学反应释放的能量转化为内发光生物体(gydF4y2Ba3gydF4y2Ba]。此外,荧光素和荧光素酶两种化学物质在发光过程中至关重要。在氧气的存在,荧光素酶作为一种酶,可以催化底物荧光素的氧化速度产生光,形成不稳定的中间产品oxyfluorescein命名。有时荧光素和荧光素酶,以及辅助因子,如氧气,组合在一起,一个单元是一个稳定的蛋白质复合体,例子,可以发射光触发时由代数余子式如钙离子或ATP (gydF4y2Ba4gydF4y2Ba]。此外,发光的颜色可以由几个因素如发光生物体的主要环境或结构的荧光素和荧光素酶的氨基酸序列或辅助蛋白的存在如黄色荧光蛋白(YFPs)和绿色荧光蛋白(gfp) [gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba
生物发光是各种已知的功能,包括伪装,寻找食物,吸引猎物,吸引力的伴侣,生物荧光细菌之间的通信(群体感应),和防盗报警器gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba]。生物荧光蛋白作为高度敏感标签和被广泛用作无价的生化工具与应用程序在各种各样的领域包括基因表达分析,药物发现,蛋白质的研究动态和映射信号转导途径,生物荧光成像,毒性测定、DNA测序研究和评估金属离子,如钙(gydF4y2Ba3gydF4y2Ba,gydF4y2Ba8gydF4y2Ba]。因此,识别BLPs仍然可以帮助发现很多未知函数和承诺伟大的医学和商业进步的可能性。尽管BLPs可以通过wet-experimental调查方法,这些方法通常是劳动密集型和耗时。此外,对于大多数生物发光信号,他们太弱探测或敏感的微环境,像D-luciferin,呈现不同颜色的光线在不同pH条件下(gydF4y2Ba9gydF4y2Ba]。在以前的工作[声称gydF4y2Ba10gydF4y2Ba),识别BLPs PSI-BLAST等传统alignment-based方法是一个艰巨的任务由于序列相似性差。因此,有必要开发机器学习方法识别BLPs,这可能为候选人BLPs提供快速和自动注释。gydF4y2Ba
最近,一些计算方法已经提出了预测BLPs。第一个计算方法预测BLPs叫做BLProt由Kandaswamy et al。gydF4y2Ba10gydF4y2Ba]2011年,开发基于支持向量机(SVM)和544物理化学性质。不久之后,赵et al。gydF4y2Ba11gydF4y2Ba)开发的另一个计算方法,称为BLPre,通过整合position-specific得分矩阵(PSSM)和汽车协方差(AC)转换成特征向量,利用支持向量机分类器进行预测。2013年,风扇和李gydF4y2Ba12gydF4y2Ba)发表了一篇基于svm模型结合增量的多样性(ID)和四个代表性的特性,即二肽成分(DC),降低氨基酸字母表(RAAA),伪氨基酸组成PSSM (PsePSSM)和汽车的平均化学位移协方差(中航商用飞机有限公司),区分BLPs。之后的2014年,一个名叫SCMBLP的新方法提出了黄(gydF4y2Ba13gydF4y2Ba)估计400年的倾向分数二肽和20种氨基酸根据计分卡方法(SCM)。2015年,纳和印度(gydF4y2Ba14gydF4y2Ba)建立一个平衡的训练数据集,采用无监督k - means聚类算法和合成少数过采样技术(杀),然后应用提高了随机森林BLP预测。Zhang et al。gydF4y2Ba15gydF4y2Ba)提出了一个基于方法叫PredBLP,关注sequence-derived特性和采用Fisher-Markov选择器一起顺序逆向选择策略来选择最优特征子集。除了一个通用模型,他们设计了三个lineage-specific分类器,即细菌,真核生物和古菌。gydF4y2Ba
总之,上述这些方法取得好的结果,BLP识别提供了重要线索。然而,仍然有两个方面需要进一步调查。首先,他们提供的网路或脱机程序和凋敝。第二,大多数的研究只考虑BLPs将军虽然不同物种之间的差异BLPs尚未得到足够的重视。gydF4y2Ba
鉴于上述描述,在这项研究中,我们致力于开发一个工具来提高BLPs的预测能力。首先,高质量的训练和测试数据集。随后,四种特征编码策略被用来制定序列样本,包括自然向量(NV),组成/转换/分布(CTD) g-gap二肽成分(g-gap DC)和伪氨基酸组成(PseAAC)。最后,我们的预测是基于极端梯度增加(XGBoost)分类器是一个可伸缩和可辩解的机器学习系统树增加。然后,基于该模型,建立了一个名为iBLP的网络服务器和可用gydF4y2Bahttp://lin-group.cn/server/iBLPgydF4y2Ba,可以提供巨大的援助相关的研究。iBLP如图的流程图gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
2。材料和方法gydF4y2Ba
2.1。基准数据集gydF4y2Ba
一个可靠的数据gydF4y2Ba16gydF4y2Ba- - - - - -gydF4y2Ba18gydF4y2Ba为一个健壮的模型是必要的。基准数据集由Zhang et al。gydF4y2Ba15gydF4y2Ba)被用于我们的工作。它含有17403 BLPs由三个物种,即细菌,真核生物,收集和古生菌,从UniProt(2016年7月)。因此,四个基准数据集生成对应于一位将军和三种特异的数据集(细菌、真核生物和古菌)。为了避免同源偏差和从基准数据集,删除冗余序列BLASTClust [gydF4y2Ba19gydF4y2Ba)是利用集群这些蛋白质序列通过设置截止序列的身份为30%。然后,一种蛋白质被从每个集群随机选为代表。因此,863年取得了BLPs阳性样本。在这些BLPs, 748属于细菌,70属于真核生物,和45属于古生菌。此外,7093 nonredundant non-BLPs收集建设负样本,包括4919年,1426年和748年蛋白质的细菌,真核生物和古菌,分别。此外,构建平衡训练数据集,80%的正样本和相同数量的负样本随机挑出培训模型。其余的正负样本用于独立测试。结果,最后四个基准数据集构造和总结在表gydF4y2Ba1gydF4y2Ba。所有的数据是可用的gydF4y2Bahttp://lin-group.cn/server/iBLP/download.htmlgydF4y2Ba。gydF4y2Ba
2.2。特征编码方案gydF4y2Ba
2.2.1。自然向量法(NV)gydF4y2Ba
自然向量法(NV)是由邓et al。gydF4y2Ba20.gydF4y2Ba)执行生物序列的进化和系统发育分析组。基于自然向量方法,每个蛋白质序列可以映射到一个60-dimensional数值向量包含发生频率,平均位置,和中央的时刻。这20个氨基酸。这个方法是自由和不需要参数校准。因此,它已被证明是一个强大的工具为病毒分类、发展史、和蛋白质预测(gydF4y2Ba21gydF4y2Ba- - - - - -gydF4y2Ba23gydF4y2Ba]。它的细节将被描述如下。gydF4y2Ba
首先,假设每个BLP(或non-BLP)序列样本gydF4y2Ba长度为gydF4y2Ba可以制定gydF4y2Ba 也就是说,20种氨基酸的集合,gydF4y2Ba 并为每个20种氨基酸gydF4y2Ba ,gydF4y2Ba我们可以定义gydF4y2Ba 在哪里gydF4y2Ba ,gydF4y2Ba如果gydF4y2Ba 。gydF4y2Ba否则,gydF4y2Ba 。gydF4y2Ba
第二,氨基酸的数量gydF4y2Ba在蛋白质序列gydF4y2Ba ,gydF4y2Ba定义为gydF4y2Ba ,gydF4y2Ba可以计算如下:gydF4y2Ba
接下来,我们gydF4y2Ba是距离第一个氨基酸(视为起源)gydF4y2Ba - - - - - -gydF4y2Bath氨基酸gydF4y2Ba在蛋白质序列,gydF4y2Ba每组的总距离的20种氨基酸gydF4y2Ba氨基酸的平均位置gydF4y2Ba 。gydF4y2Ba因此,他们可以计算如下:gydF4y2Ba
让我们把氨基酸序列MCRAACGECFR为例。为氨基酸gydF4y2Ba ,gydF4y2Ba 的总距离gydF4y2Ba是gydF4y2Ba 由于距离第一个渣gydF4y2Ba年代分别是3和4。然后,gydF4y2Ba 。gydF4y2Ba同样的,gydF4y2Ba 与gydF4y2Ba 和gydF4y2Ba 。gydF4y2Ba总距离的算术平均值,其他种类的氨基酸可以以同样的方式获得的。gydF4y2Ba
蛋白质序列的不同分布每个氨基酸可能不同,即使他们有相同的氨基酸含量和距离测量。因此,信息分布也被包括在自然向量。然后,二阶归一化中心矩gydF4y2Ba可以定义如下:gydF4y2Ba
第二个归一化中心矩的距离分布的方差为每个氨基酸。gydF4y2Ba
充足的蛋白质序列的注释,三组参数,每一个氨基酸的数量,每个氨基酸的总距离的平均值,和距离分布的信息,连接获取最后的自然向量。因此,60-dimensional自然向量的蛋白质序列gydF4y2Ba获得和定义为gydF4y2Ba 的象征gydF4y2Ba是转置运算符。gydF4y2Ba
2.2.2。组成/转换/分布(CTD)gydF4y2Ba
组成、过渡和分布(CTD)方法首次提出了预测蛋白质折叠类Dubchak et al。gydF4y2Ba24gydF4y2Ba1995年)。这三种描述符组成(C)、过渡(T)和销售(D)可以计算根据以下两个假设:(i)的氨基酸序列可以被转换为一个序列的某些结构或残留的理化性质;(2)根据氨基酸的主要集群指数Tomii和Kanehisa [gydF4y2Ba25gydF4y2Ba),20个氨基酸被分成三个组根据13个不同的物理化学属性,包括疏水性、规范化范德华体积,极性,极化电荷,二级结构和溶剂可访问性。氨基酸是列在表的组织gydF4y2Ba2gydF4y2Ba,分组标准的细节中可以看到前面的研究(gydF4y2Ba26gydF4y2Ba]。因此,三个描述符用来描述每个小组的组成比例的肽序列可以产生三个特点:两个相邻的氨基酸之间的跃迁概率属于两个不同的团体,也包含3特性;属性的分布格局以及序列的位置(第一,25%,50%,75%,100%),其中5特性。最后,基于CTD方法(gydF4y2Ba27gydF4y2Ba),一个样本的蛋白质gydF4y2Ba可以制定gydF4y2Ba 维特征向量。gydF4y2Ba
2.2.3。g-gap二肽组分(g-gap直流)gydF4y2Ba
(AAC)和二肽氨基酸组成成分(DC)编码策略被广泛用于蛋白质预测(gydF4y2Ba28gydF4y2Ba- - - - - -gydF4y2Ba30.gydF4y2Ba]。然而,他们只能表达每个氨基酸类型的分数或相邻的序列号信息在一个蛋白质。事实上,间隔残留在初级序列可能在三级结构空间接近,特别是在一些常规的二级结构,如α螺旋和β折叠,这是两个nonadjoining残留物被氢键连接。换句话说,这意味着间隔残留比相邻的残留在生物更重要。因此,g-gap二肽组分(g-gap DC)特性提出了编码策略的频率来计算氨基酸对任何分离gydF4y2BaggydF4y2Ba残留。gydF4y2Ba
然后,一种蛋白质gydF4y2Ba可以制定gydF4y2Ba 在哪里gydF4y2Ba代表的频率gydF4y2Ba - - - - - -gydF4y2Bath (gydF4y2Ba )gydF4y2Bag-gap二肽,可以计算gydF4y2Ba 在哪里gydF4y2Ba表示发生的数量gydF4y2Ba - - - - - -gydF4y2Bath g-gap二肽和gydF4y2Ba的长度是蛋白质吗gydF4y2BaPgydF4y2Ba。特别是,当gydF4y2Ba ,gydF4y2Bag-gap直流方法等于相邻。gydF4y2Ba
2.2.4。伪氨基酸组成(PseAAC)gydF4y2Ba
伪氨基酸组成(PseAAC)提出的周(gydF4y2Ba31日gydF4y2Ba),是一种有效的和广泛使用的方法将蛋白质序列转换成一个特征向量基于机器学习算法的开发不同的预测(gydF4y2Ba32gydF4y2Ba- - - - - -gydF4y2Ba34gydF4y2Ba]。在这项工作中,我们采用了二型PseAAC代表蛋白质样品。该方法包含氨基酸二肽的组成以及相关两个残基之间的物理化学性质。因此,每个BLP(或non-BLP)示例可以表示为一个序列gydF4y2Ba 维向量是制定如下:gydF4y2Ba 在哪里gydF4y2Ba氨基酸理化性质的数量被认为是,包括疏水性、亲水性、质量,pK1, pK2,π,刚性,灵活性,和不可替代性,它被用于(gydF4y2Ba35gydF4y2Ba];因此,gydF4y2Ba 在这里。前六个属性以来广泛应用于蛋白质生物信息学,我们将简要讨论后者三个属性:刚性,灵活性,和不可替代性。氨基酸侧链的刚性和弹性指出了Gottfries et al。gydF4y2Ba36gydF4y2Ba),这是一个关键为当地形成多肽和蛋白质域相关联的属性变化。此外,序列的刚性和弹性性质被用来预测构象,蛋白质折叠的变化,验证了核磁共振测量(gydF4y2Ba37gydF4y2Ba]。此外,残留的难度替换不同的进化。因此,无法调换是应对突变恶化过程中生命的进化(gydF4y2Ba38gydF4y2Ba]。九可以访问物理化学性质的原始值gydF4y2Bahttp://lin-group.cn/server/iBLP/download.htmlgydF4y2Ba。gydF4y2Ba代表的秩相关性。gydF4y2Ba 为每个元素代表频率,可以计算如下:gydF4y2Ba 在哪里gydF4y2Ba表示频率的400二肽,gydF4y2Ba的重量系数序列顺序效应及其详细信息,然后呢gydF4y2Ba代表了gydF4y2Ba - - - - - -gydF4y2Ba层序列相关因子的残基之间的物理化学性质。鉴于该方法已经普遍使用,其多个参数能找到其他地方的详细定义gydF4y2Ba32gydF4y2Ba),我们不这里重述。gydF4y2Ba
2.3。极端的梯度增加(XGBoost)算法gydF4y2Ba
众所周知,极端的梯度增加(XGBoost) [gydF4y2Ba39gydF4y2Ba)是一个基于梯度学习算法提高,为许多生物信息学问题提供最先进的结果(gydF4y2Ba40gydF4y2Ba- - - - - -gydF4y2Ba42gydF4y2Ba]。XGBoost本质上是一种基于梯度的集成学习方法提高了树。预测的结果预测的分数的总和gydF4y2Ba树,如下公式所示:gydF4y2Ba 在哪里gydF4y2Ba是gydF4y2Ba - - - - - -gydF4y2Bath的训练样本,gydF4y2Ba的分数是gydF4y2Ba - - - - - -gydF4y2Bath树,gydF4y2Ba是包含所有功能的空间梯度增加了树木。优化目标函数可以由以下公式:gydF4y2Ba 在前gydF4y2Ba 代表一个可微的损失函数,模型预测的适应性措施gydF4y2Ba和训练数据集的样本gydF4y2Ba ,gydF4y2Ba而后者gydF4y2Ba代表了一个正则化项惩罚模型的复杂性,以避免过度拟合。更详细的公式中可以看到文献[gydF4y2Ba39gydF4y2Ba]。gydF4y2Ba
相比之下,一般的梯度增加和其他机器学习算法,XGBoost有一些独特的优势。首先,XGBoost执行目标函数的二阶泰勒展开,用二阶导数加速模型的收敛速度,同时培训。因此,其嵌入式并行处理允许更快的学习。特别是对大规模数据集,提高训练速度更有利。第二,正则化项添加到目标函数来控制树获得一个简单模型的复杂性,避免过度拟合。第三,XGBoost高灵活性和允许用户自定义优化目标和评估标准。同时,XGBoost分类器可以处理从失衡训练数据通过设置类重量和以AUC为评价标准。总之,XGBoost是一个高度灵活的和可扩展的树结构增强模型,它可以处理稀疏数据,大大提高算法速度和减少训练大规模数据的计算时间和内存。gydF4y2Ba
在这项研究中,预测模型的实现是一个python包称为XGBoost(1.1.1版),可以下载gydF4y2Bahttps://pypi.org/project/xgboost/gydF4y2Ba。XGBoost的参数,包括通用参数,辅助参数,参数和学习任务,可以通过网格优化搜索方法的交叉验证模型训练阶段。XGBoost选择的参数将详细讨论结果和讨论。gydF4y2Ba
2.4。绩效评价指标gydF4y2Ba
如何客观地评价预测质量是一个关键发展一个强大的BLP预测预测并评估其潜在的应用价值。因此,以下指标(gydF4y2Ba43gydF4y2Ba- - - - - -gydF4y2Ba46gydF4y2Ba),灵敏度(gydF4y2Ba ),gydF4y2Ba特异性(gydF4y2Ba ),gydF4y2Ba总体精度(gydF4y2Ba ),gydF4y2Ba和马修的相关系数(gydF4y2Ba ),gydF4y2Ba被用在我们的工作,可以分别计算如下:gydF4y2Ba TP、TN、FP和FN表明真正的阳性(即。,正确预测BLPs),真正的底片(即。,correctly predicted as non-BLPs), false positives (i.e., incorrectly predicted as BLPs), and false negatives (i.e., incorrectly predicted as non-BLPs), respectively. The higher the value of Acc, Sn, and Sp are, the more robust the predictor is. Moreover, a value of 表明最好的预测gydF4y2Ba 显示最糟糕的预测(或者anticorrelation)。gydF4y2Ba 将一个随机预测方案。gydF4y2Ba
此外,接受者操作特征(ROC)曲线(gydF4y2Ba47gydF4y2Ba- - - - - -gydF4y2Ba49gydF4y2Ba)可以将模型的行为真阳性率(gydF4y2Ba )gydF4y2Ba对假阳性率(gydF4y2Ba )gydF4y2Ba视觉的方式。ROC曲线下的面积(AUC)也作为绩效评价指标在这项研究中可定量和客观测量方法的性能。一个完美的预测被证明是有价值的gydF4y2Ba ,gydF4y2Ba和随机性能被证明是有价值的gydF4y2Ba 。gydF4y2Ba
3所示。结果与讨论gydF4y2Ba
3.1。现有计算方法确定BLPsgydF4y2Ba
近年来,开发了一些计算方法确定BLPs和总结(gydF4y2Ba8gydF4y2Ba]。表gydF4y2Ba3gydF4y2Ba和gydF4y2Ba4gydF4y2Ba提出了一个综合评估现有的数据集和计算工具BLP识别。表gydF4y2Ba3gydF4y2Ba显示第一个基准数据集D1 BLP预测建立了Kandaswamy et al。gydF4y2Ba10gydF4y2Ba和收集从数据库包含了gydF4y2Ba50gydF4y2Ba]。为了避免潜在的预测性能,高估CD-HIT程序(gydF4y2Ba51gydF4y2Ba)被用来去除冗余序列从正面和负面两种数据集通过设置截止值的40%。然后,赵et al。gydF4y2Ba11gydF4y2Ba)、风扇和李gydF4y2Ba12gydF4y2Ba)、黄(gydF4y2Ba13gydF4y2Ba),纳和印度(gydF4y2Ba14gydF4y2Ba]也建造他们的基准数据集基于第一基准数据集通过使用各种方式undersample Kandaswamy的数据集。此外,Zhang et al。gydF4y2Ba15gydF4y2Ba)建立了一个新的基准数据集称为D2基于UniProt数据库(gydF4y2Ba52gydF4y2Ba]因为细菌、真核生物和古菌的物种。他们用BLASTClust [gydF4y2Ba19gydF4y2Ba),以减少冗余序列通过设置序列同一性的截断值小于30%。gydF4y2Ba
基准数据集,使用有效的特性表征样本序列转换成数值向量是重要的发展中一个强大的计算方法预测BLPs。如表所示gydF4y2Ba4gydF4y2Ba,所有现有的sequence-derived特性计算方法包括物理化学性质(PCP),氨基酸组成(AAC)二肽成分(DC),进化信息,和序列图案。此外,排除冗余信息,提高预测模型的泛化能力,可以应用各种特征选择策略。两个Kandaswamy et al。gydF4y2Ba10gydF4y2Ba)和纳和印度gydF4y2Ba14gydF4y2Ba]使用ReliefF [gydF4y2Ba53gydF4y2Ba)选择有用的信息来构建他们的计算工具。增加多样性(ID)gydF4y2Ba54gydF4y2Ba)是用来衡量两个多样性的来源的相似性水平,降低特征向量的维数,提出了在风扇和李的工作gydF4y2Ba12gydF4y2Ba]。然后,Zhang et al。gydF4y2Ba15gydF4y2Ba)利用Fisher-Markov选择器(gydF4y2Ba55gydF4y2Ba)一起顺序逆向选择(SBS)策略,选择最优特征子集。gydF4y2Ba
此外,分类算法可以显著影响歧视能力的预测模型。它可以看到从表gydF4y2Ba4gydF4y2Ba采用支持向量机作为主要的分类算法由多个工具,包括BLPort [gydF4y2Ba10gydF4y2Ba],BLPre [gydF4y2Ba11gydF4y2Ba),风机的方法(gydF4y2Ba12gydF4y2Ba],PredBLP [gydF4y2Ba15gydF4y2Ba]。除了支持向量机,其他评分方法和机器学习算法也被采用。例如,计分卡方法(SCM)是应用于SCMBLP (gydF4y2Ba13gydF4y2Ba)进行分类是一个通用的方法通过计算倾向得分400二肽和20种氨基酸是蛋白质研究的功能;纳和印度gydF4y2Ba14gydF4y2Ba)使用了一种被称为真正的演算法随机森林整体学习法(RARF) [gydF4y2Ba56gydF4y2Ba]BLP分类和预测。gydF4y2Ba
因此,从表gydF4y2Ba3gydF4y2Ba和gydF4y2Ba4gydF4y2Ba,我们可以得出一些结论:大多数这些方法使用不同的方式undersample Kandaswamy的数据集gydF4y2Ba10gydF4y2Ba),而潜在的偏见可能会产生抽样的过程。(2)六BLP预测工具列在表中gydF4y2Ba4gydF4y2Ba,其中五个研究没有考虑物种特异性,而只有最后一个设计模型细菌,真核生物,古生菌的物种。(3)大多数工具建立了基于支持向量机分类算法除了SCMBLP [gydF4y2Ba13gydF4y2Ba和纳的方法gydF4y2Ba14gydF4y2Ba]。支持向量机更适合小样本数据集和低维度的特性集。一旦数据增加,支持向量机的计算时间和内存消耗。大型BLP可用性的数据集,很明显,我们需要采用高效并行处理算法来预测BLPs速度和提高能力。(iv)的大部分网路预测BLPs现在没有工作。在上述预测中,只有四个作品,即BLProt [gydF4y2Ba10gydF4y2Ba],BLPre [gydF4y2Ba11gydF4y2Ba],SCMBLP [gydF4y2Ba13gydF4y2Ba],PredBLP [gydF4y2Ba15gydF4y2Ba),能够提供在线服务。不幸的是,只有网络服务器PredBLP现在仍在工作。然而,网络服务器的PredBLP允许用户预测一次不超过5蛋白质序列,这是很不方便的学者和研究人员研究大规模BLP数据。gydF4y2Ba
值得注意的是上述作品在BLPs发现一些重要的特性。黄(gydF4y2Ba13gydF4y2Ba)指出,BLPs有四个特征基于一系列的20种氨基酸的物理化学性质的分析,如下:(1)高自由能的残留物从内部转移到蛋白质表面,(2)发生频率高残留在蛋白质的跨膜区域,(3)疏水性大的规模从本机蛋白质结构,和(4)高皮尔逊相关系数(gydF4y2Ba )gydF4y2BaBLPs氨基酸成分之间的膜蛋白和积分。另外,他们发现顶级二肽不倾向于集中在一个特定区域,这表明生物发光是一个全球性的BLP序列的性质,不是发生在特定的领域。此外,Zhang et al。gydF4y2Ba15gydF4y2Ba)建议BLPs富含带电残基,显示高偏好,R - P -, g相关二肽与non-BLPs相比。总之,这些发现对BLPs对我们的研究有重要指导。gydF4y2Ba
3.2。参数优化gydF4y2Ba
我们都知道,n次交叉验证是一种常见的统计分析方法在机器学习训练和测试hyperparameters特征提取方法和预测模型gydF4y2Ba57gydF4y2Ba- - - - - -gydF4y2Ba59gydF4y2Ba]。在我们的工作中,10倍交叉验证和网格搜索方法被用来确定最优特征子集以及XGBoost模型的最优参数基于四个基准数据集AUC值最高。我们使用AUC值作为标准的原因是,相比之下,敏感性,特异性,和总体精度,它可以提供一个更客观的评估,特别是在不平衡基准数据集(gydF4y2Ba60gydF4y2Ba]。gydF4y2Ba
根据特征向量的定义建设部分,BLP主要序列提取的信息集成NV,仪,g-gap特区和PseAAC方法。g-gap直流参数的选择gydF4y2Ba模型预测性能有很大的影响,代表任何氨基酸之间的相关性gydF4y2Ba残留的间隔。此外,对于PseAAC,gydF4y2Ba和gydF4y2Ba还获得一个最优分类模型中起着关键作用。gydF4y2Ba层之间的物理化学性质的相关性两个氨基酸,它描述了全球模式序列号效应(远程信息)沿着一条蛋白质序列;gydF4y2Ba是重量因素调整短程效应和远程效应之间的比率。的经验,gydF4y2Ba值g-gap直流方法中设置每个训练数据的范围从1到9的表演gydF4y2Ba 特征子集被输入进XGBoost模型和评估10倍交叉验证。最优gydF4y2Ba参数四个物种由最高的AUC值对训练数据集,如图gydF4y2Ba2gydF4y2Ba。它可以看到从图gydF4y2Ba2gydF4y2Ba的最高auc g-gap直流方法在一般情况下,细菌,真核生物,古生菌训练数据集是0.892 (gydF4y2Ba ),gydF4y2Ba0.909 (gydF4y2Ba ),gydF4y2Ba0.891 (gydF4y2Ba ),gydF4y2Ba和0.933 (gydF4y2Ba ),gydF4y2Ba分别。gydF4y2Ba
自的选择gydF4y2Ba不能超过最短的长度序列PseAAC训练数据集的方法gydF4y2Ba和gydF4y2Ba通过网格搜索方法,参数选择如下:gydF4y2Ba
同样,通过检查每个物种的所有特征子集的表演,我们获得的最优参数gydF4y2Ba和gydF4y2Ba在四个训练数据集。最优参数和特征空间的维度根据情商。gydF4y2Ba9gydF4y2Ba)如下所示:gydF4y2Ba
与此同时,预测模型训练和学习的系列XGBoost分类器的参数选择和组合。大量的先验知识可以利用来改善学习过程(gydF4y2Ba42gydF4y2Ba];因此,通常的参数调整来提高模型的性能,如n_estimators max_depth, learning_rate,首先考虑。结果,得到一组最佳参数网格搜索方法基于10倍交叉验证。因此,最终的调优XGBoost模型的结果gydF4y2Ba ,gydF4y2Ba ,gydF4y2Ba ,gydF4y2Ba和gydF4y2Ba 。gydF4y2Ba此外,采用了其他参数的默认值。gydF4y2Ba
3.3。绩效评估在不同的特性和组合gydF4y2Ba
通过优化参数,我们获得pretrained模型基于一个通用和三种特异的训练数据集。在本节中,我们将调查哪些特性可以产生最佳的性能在BLPs的识别。因此,我们研究了4种编码的预测性能特性,即NV,仪,g-gap特区和PseAAC,使用10倍交叉验证。此外,提取蛋白质序列的特征信息更全面,实现不同功能之间的互补信息,采用特征融合的方法。表gydF4y2Ba5gydF4y2Ba记录的细节的预测结果4种个人特性及其组合基于四个训练数据集通过计算10实验的平均值。发现有前途的预测结果得到了四种个人特性PseAAC编码特性给出了AUC值最高的0.900和0.925对通用和细菌物种,在真核生物和古菌的物种,g-gap直流方法产生最佳性能最高的AUC值为0.891和0.838,分别。一般来说,功能融合时可能会产生更好的预测性能与特征进行比较。正如所料,结合四种特性识别BLPs达到最佳性能gydF4y2Ba 一般模型。虽然与个人特性,结合四个特性的预测性能略微增加了其他三种专一性模型;他们没有达到最佳的预测性能。众所周知,噪音或冗余信息可以减少模型的性能、健壮、和效率。因此,关于预测性能降低的现象也许来自信息冗余。因此,有必要探索功能组合可以产生更好的预测结果。如表所示gydF4y2Ba5gydF4y2Ba的组合仪,g-gap直流和PseAAC编码特性可以产生最高的AUC值为0.936的细菌。真核生物,CTD和g-gap直流编码特性的组合实现最高的AUC值为0.924。最佳性能最高的AUC值0.969是NV的结合,得到了连续油管,g-gap直流古生菌。这些结果表明,四个编码特性,我们使用效果,并进一步,不同种类的特征的组合可以产生一个有希望的结果。gydF4y2Ba
3.4。跨物种的验证gydF4y2Ba
如上所述在以上部分,我们发现各种编码特性的组合将军和三种特异的训练数据集可以产生不同的预测结果。这可能暗示BLPs在不同的物种有不同的属性编码功能。这些内在属性可以用来进一步提高预测的性能通过考虑种特异的计划。更重要的是,它需要识别BLPs更多其他物种除了在这项研究中所提到的物种。然而,它可能很难在其他物种由于缺乏数据训练模型。因此,有必要证明模型训练数据从一个物种或者所有物种(细菌、真核生物和古菌在这项研究中)可以在其他物种识别BLPs。为了解决这个困惑,我们训练有素的一位将军和三种特异的模型使用四BLPs训练数据和验证这些模型独立的BLP数据的其他物种。跨物种的总体预测精度验证如图gydF4y2Ba3gydF4y2Ba。模型的列行中的其他数据集上进行了测试。如图gydF4y2Ba3gydF4y2Ba,很明显,最好的精度(100.0%)总是通过模型构建基于数据本身。它可以在图中找到gydF4y2Ba3gydF4y2Ba模型构造的一般数据集取得了良好的结果,但是模型基于三个特定的物种数据集没有产生预期的结果,获得Acc值的89.1%,66.3%,70.5%,细菌,真核生物,和古生菌的数据集。因此,可以得出结论,基于特有的数据集模型的泛化能力不强。此外,83.3%和70.8%的Acc值古生菌测试数据是可以接受的。但是,它不适合古生菌构建预测模型来预测细菌和真核生物数据,因为Acc值只有68.7%和58.9%,分别。这些实验结果表明,种特异的方案和我们建立的特有的模型是可靠的。gydF4y2Ba
3.5。与其他分类算法进行比较gydF4y2Ba
与最优特征组合四个数据集,我们想探究是否XGBoost分类器的性能优于其他基于树模型的分类算法。因此,我们关注三个基于树的算法,即。决策树,随机森林,和演算法。决策树(DT)是一种非参数监督机器学习方法是数据挖掘中常用的和分类gydF4y2Ba61年gydF4y2Ba,gydF4y2Ba62年gydF4y2Ba]。DT的目标是创建一个树模型,预测目标变量的值通过学习简单的决策规则推断从数据特性(gydF4y2Ba63年gydF4y2Ba]。随机森林(RF)是一个学习的大量的决策树方法基于装袋。每棵树的合奏训练在训练实例和特性的一个子集,随机选择从给定的训练集。因此,随机森林的想法是将多个弱分类器,然后,最后的决定是由多数投票(gydF4y2Ba64年gydF4y2Ba]。演算法是一个流行和强大的基于提高整体学习法。它决定了每个样本的重量根据每个样本的分类是否正确在每一个迭代过程和最后的迭代过程的整体精度。新的训练数据集与修改权值发送到迭代训练弱分类器。结果,最终决定演算法的分类器获得的弱分类器的加权平均每个迭代过程(gydF4y2Ba65年gydF4y2Ba]。gydF4y2Ba
上述三个分类算法实现通过使用Weka(3.8.3版),这是一个收集的数据挖掘任务的机器学习算法(gydF4y2Ba66年gydF4y2Ba]。默认参数值的三种分类算法被用于Weka。此外,XGBoost分类器的预测结果和上述决策树,随机森林,和学习演算法在我们四个训练数据集,10倍交叉验证被绘制在图gydF4y2Ba4gydF4y2Ba。如图gydF4y2Ba4gydF4y2Ba决策树分类算法对于预测BLPs表现最差,而XGBoost分类器可以产生最佳性能在四个数据集。可以得出结论,XGBoost分类器比其他三个分类更适用的算法来识别BLPs。因此,最后的四个数据集模型构建基于XGBoost算法。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
(c)gydF4y2Ba
(d)gydF4y2Ba
3.6。与发表的方法gydF4y2Ba
为了进一步证明我们的方法的健壮,有必要我们发表的方法与其他方法进行比较。在这里,PredBLP [gydF4y2Ba15gydF4y2Ba)被选中进行比较,相同的基准数据集。PredBLP结果的方法在相同的训练数据集通过使用5倍交叉验证和独立的测试数据集直接获得从他们的报告。表中列出的细节相比gydF4y2Ba6gydF4y2Ba。如表所示gydF4y2Ba6gydF4y2Ba,虽然我们的Acc值方法三种特异的5倍交叉验证数据集的略低于PredBLP的方法,我们与均值的预测取得了可喜的成果gydF4y2Ba 。gydF4y2Ba此外,在独立的测试中,从我们获得的AUC值方法显著提高了11.9%在四个测试数据集一般。值得注意的是我们的方法获得的AUC值都高于PredBLP的方法。因此,所有比较表明,我们提出了BLP识别方法是强大的和可靠的。gydF4y2Ba
3.7。比较确定的小说BLPs UniProt数据库中gydF4y2Ba
此外,计算工具应该被用来识别小说和未知的蛋白质,提供方便和准确的注释。检查了预测的可伸缩性和健壮性,我们使用另一个独立的测试数据,没有应用于上述分析。因此,我们采用了BLP数据,从2016年8月到2017年2月存入UniProt数据库。这些小说BLP收集的数据Zhang et al。gydF4y2Ba15gydF4y2Ba)来自细菌,真核生物和古菌。然后,基于相同的小说BLP数据,我们比较我们的方法iBLP、张等的预测PredBLP [gydF4y2Ba15gydF4y2Ba]。PredBLP被从他们的报告中获得的结果。列在表gydF4y2Ba7gydF4y2Ba,对于一般,细菌和古生菌,我们提出的方法实现Acc的值> 0.960,这是比PredBLP。尤其是对古生菌,我们的模型甚至可以正确地识别所有小说BLPs。然而,真核生物的结果是令人不满意的。种特异的模型的有限数量的真核BLPs培训可以占这个的原因。gydF4y2Ba
4所示。结论gydF4y2Ba
生物荧光蛋白(BLPs)通常存在在许多生物体,并确定BLPs有重大疾病诊断和生物医学工程的重要性。在这项研究中,我们提出了一个新的预测框架使用sequence-derived BLPs特性的识别。为BLPs改善预测性能,我们研究了几种性能的特性和分类算法。因此,基于最优特征子集和XGBoost算法,我们构建一个名为iBLP的在线预测。考虑到很少的网路BLP识别仍然是工作,我们的网络服务器将保持两年或更多。此外,生物荧光蛋白质识别一个软件包在批处理用户的本地计算机开发和可用gydF4y2Bahttp://lin-group.cn/server/iBLPgydF4y2Ba。gydF4y2Ba
基准数据集上实验证明我们的方法的鲁棒性和有效性。此外,对non-BLPs BLPs的内在属性在以往的研究中,分析了反映,有必要区分不同物种的BLPs。我们的实验也证明了BLP序列物种特异性,建议每个人都应该建立特有的预测。然而,基准数据集真核生物和古菌不是足够大,可能导致偏差的精度评估。在未来,更多的BLP数据的可访问性,我们将更新模型通过训练在大型数据集。此外,我们将充分考虑不同种特异的BLP数据选择的大部分信息特征,建立更强大的和可靠的模型。我们希望我们的工作能够提供便利的实验科学家快速而准确地获得所需的结果没有重复的数学细节。gydF4y2Ba
数据可用性gydF4y2Ba
使用的数据来支持本研究的发现来自先前报道的研究和公共数据库,已被引用。gydF4y2Ba
的利益冲突gydF4y2Ba
作者宣称没有利益冲突。gydF4y2Ba
确认gydF4y2Ba
这项工作一直支持中国的国家自然科学基金(81872957)。gydF4y2Ba