MultiP-Apo: Multilabel预测识别细胞凋亡蛋白的亚细胞位置

文摘

细胞凋亡蛋白发挥重要作用在程序性细胞死亡的机制。细胞凋亡蛋白的亚细胞定位预测是一个重要的步骤来了解他们的功能和识别药物目标。许多计算预测方法已经开发了凋亡蛋白质亚细胞定位。然而,这些现有的作品只关注一个位置的蛋白质;蛋白质与多个位置没有考虑或被认为不存在构造预测模型时,所以,他们不能完全预测的位置细胞凋亡蛋白与多个位置。为了解决这个问题,本文提出了一种新型multilabel预测MultiP-Apo命名,可以预测不仅与单一细胞凋亡蛋白亚细胞位置也有多个亚细胞位置。具体地说,给定一个查询蛋白质,GO-based特征提取方法提取的特征向量。随后,特征向量是由一个新的multilabel分类器分类的基础上,具体标签的功能。这是第一multilabel预测建立了识别多区域细胞凋亡蛋白的亚细胞位置。作为一个初步研究,MultiP-Apo达到整体精度58.49%重叠测试,这表明我们提出的预测可能会成为一个非常有用的高通量工具。

1。介绍

细胞凋亡或程序性细胞死亡是一个自主有序死亡过程在某些生理和病理条件下的生物。它维护正常组织内稳态之间保持一个平衡细胞增殖和死亡。当细胞凋亡的调控是无序的,疾病,如肿瘤、自身免疫性疾病、神经退行性疾病将会出现(1- - - - - -3]。细胞凋亡蛋白程序性细胞死亡的机制中扮演关键的角色。识别细胞凋亡蛋白的亚细胞位置可能帮助我们理解细胞凋亡机制4]。在过去的十年中,存在有许多优秀的基于机器学习的预测方法对细胞凋亡蛋白亚细胞定位。一般来说,这些作品有三个主要步骤:()构造或选择一个基准数据集训练和测试预测,()提取重要生物学特性中包含的蛋白质样品,()和引进或开发一种新的机器学习算法。

在第一步中,三个基准数据集,ZD98 [4],ZW225 [5],CL317 [6,7),是最广泛用于细胞凋亡蛋白质亚细胞定位预测。ZD98数据集有98细胞凋亡蛋白和四个亚细胞位置,由43个细胞质蛋白质,30等离子体膜结合蛋白,13个线粒体蛋白质,和其他12个蛋白质。ZW225数据集包含四个亚细胞位置和225细胞凋亡蛋白;他们是41核蛋白质,70细胞质蛋白质,25线粒体蛋白质,和89个膜蛋白。CL317数据集是最新和最大的现有数据集,其中包括112年细胞质蛋白质,55膜蛋白,34个线粒体蛋白质,17分泌蛋白质,52核蛋白质,和47内质网的蛋白质。在第二步中,许多方法已经被用来提取核心和细胞凋亡蛋白样品的基本特性,如氨基酸组成(8],pseudo-amino-acid成分[6,7,9- - - - - -12)、组体重编码(5),距离频率(13),自协方差变换基于position-specific得分矩阵(PSSM-AC) [14),和基因本体论(去)注释信息15]。在最后一步中,一些常见的机器学习算法,例如,支持向量机(SVM) [13,14,16),模糊再(FKNN) [9,10),和整体学习17,18),被用来进行预测。

然而,在提到的作品。有以下缺点()这些预测模型只适用于有一个的蛋白质亚细胞位置。细胞凋亡蛋白的多个位置,到目前为止没有模型可以完全和正确预测所有的亚细胞位置。()细胞凋亡蛋白的三个基准数据集只有一个亚细胞位置,但是,我们最好的知识,他们可能会标注为多个位置UniProtKB数据库;没有数据集包含细胞凋亡蛋白质亚细胞定位预测了多个位置。()与多个位置预测蛋白质的亚细胞位置细胞凋亡是一个multilabel学习问题;上面提到的机器学习分类器不能直接应用于处理multilabel问题。蛋白质与多个位置应该高度关注,因为它们可能有一些值得深入研究的非常特殊的生物功能。不幸的是,先前的研究在该领域是有限的预测蛋白质只有单一位置。他们通常构造预测模型基于假设多区域不存在的蛋白质。

为了解决这个问题,一个新的multilabel预测,名叫MultiP-Apo提议,可以预测不仅与单一细胞凋亡蛋白亚细胞位置也有多个亚细胞位置。MSapo518,首先,一个新的基准数据集,其中包含518细胞凋亡与一个或多个蛋白质亚细胞位置。预测范围扩大,新数据集的基础上增加了两个新的亚细胞位置亚细胞位置CL317中包含的数据集。其次,去注释信息的细胞凋亡蛋白的同源蛋白质用于表示蛋白质,和子空间是由选择一组相关的条款从去数据库中所有的条款以避免维度的诅咒。第三,一个新的multilabel算法预测引擎利用具体标签的功能。最后,MultiP-Apo开发一个在线的web服务器,自由访问http://biomed.zzuli.edu.cn/bioinfo/multip-apo/。

2。材料和方法

2.1。数据集

为了建立一个高质量的基准数据集,在当前的研究中使用的所有细胞凋亡蛋白序列从UniProtKB / Swiss-Prot数据库收集(发布于2016年7月04)按照下列步骤:(1)“凋亡”作为关键字来搜索Swiss-Prot数据库;只收集细胞凋亡蛋白序列。(2)那些蛋白质序列注释“片段”被排除在外,而少于50个氨基酸残基序列也被排除在外,因为它们可能属于碎片。(3)这些蛋白质的亚细胞位置被实验收集注释,注释的蛋白质的亚细胞位置和“相似性”被排除在外,因为这些从同源蛋白质的亚细胞位置。(4)蛋白质序列包括模糊或不确定的字母,就像“B”“X”或“Z”被排除在外。

上面的四个过程后,我们获得了基准数据集MSapo518包括518个不同的细胞凋亡蛋白覆盖在接下来的8个主要的亚细胞位置,细胞质、细胞膜,分泌,线粒体、核,核内体,内质网,高尔基体。虽然同源偏差的数据集可能会影响性能的预测,我们仍决定不进一步减少蛋白质的数量数据集由于手工实验细胞凋亡蛋白质注释的数量是很少的。细胞凋亡蛋白的数量属于每个表中给出了亚细胞位置1。在这些蛋白质,303蛋白质发生亚细胞位置,155年的两个地点,52在三个位置,6在四个地方,1在五个地方,1 6个位置,没有在7个以上的位置。细胞凋亡蛋白的数量位于不同数量的位置可以显示在图1。


订单	室	数量的蛋白质

1	细胞质	244年
2	膜	126年
3	分泌	36
4	线粒体	107年
5	核	207年
6	核内体	12
7	内质网	47
8	高尔基体	25

2.2。特征提取

为了开发一个machine-learning-based预测蛋白质亚细胞定位预测,其中一个关键步骤是如何制定生物序列离散模型或一个特征矢量,真正反映了蛋白质之间的内在关系及其亚细胞位置。然而,这不是一件容易的工作。氨基酸组成(AAC)是最简单的特征提取方法。每个蛋白质都表示为一个20 d特征向量,向量的元素在哪里发生频率的蛋白质的氨基酸。然而,AAC具有明显的缺点,只有包含序列的特性;因此,预测性能可能是相当有限的。为了克服这个问题,Pseudo-amino-acid成分(PseAAC)提出了基于氨基酸组成,它几乎渗透到所有蛋白质属性预测、蛋白质结构类预测(19,20.),超级二级结构预测(21),蛋白质亚细胞位置预测(22,23),蛋白质亚线粒体位置预测(24),等等。同时,PseAAC的概念也刺激了代pseudofolding拓扑指数和pseudofolding晶格网络(25,26]。灵感来自PseAAC,伪--tuple-reduced-amino-acids成分(PseKRAAC) [27),可以简化复杂蛋白质,减少过度拟合的机会,提高预测的性能。此外,position-specific得分矩阵(PSSM)是用来描述蛋白质序列的进化信息根据物种进化的理论。蛋白质与可以表示为一个序列的长度行,20-column矩阵。元素(我,j)PSSM代表分数的氨基酸th位置(我= 1,2,…l)更改为氨基酸序列类型j(j= 1,2,…,在进化过程中20)。PSSM可以通过搜索PSI-BLAST Swiss-Prot数据库。它也已广泛应用于蛋白质属性预测领域,包括预测蛋白质的亚细胞定位(28),预测protein-ATP绑定残留物(29日],和预测蛋白质相互作用[30.]。

基因本体论(去)数据库建立的联盟去提供一个统一的表示基因和他们的产品在所有的物种。去数据库中,GO术语是用来描述基因和基因产物的特点,它包含三种类型:蜂窝组件,分子功能和生物过程。基因本体论注释(果)数据库注释基因产品和提供参考和证据支持注释。数据库可以给一个大的和全面的蛋白质组学研究资源。在果阿的数据库,加入独特的数字(AC)的蛋白质在UniProtKB可能对应于不同数量的条件,可以是零,一个或多个条款,和一项可能与零,一个,或者不同的ACs。这表明ACs和GO术语之间的关系可能是多对多的。

近年来,一些GO-based预测表现出性能优良的蛋白质亚细胞定位,比如iLoc-Plant [31日],iLoc-Gpos [32],iLoc-Gneg [33],Virus-ECC-mPLoc [34]。此外,这些预测充分证明GO-based方法在基于优势的方法。然而,有一些争议或混乱GO-based蛋白质亚细胞定位预测的方法:如果一种蛋白质可以找到其细胞组件方面,它仍然需要预测其亚细胞位置吗?是解决预测问题通过创建一个查找表与蜂窝组件上的钥匙和细胞组件作为散列值?我们的以前的工作32和另一个研究35)已经说明的合法性GO-based蛋白质亚细胞定位预测。为了方便读者,我们给出一个简短的总结。去non-GO预测,基准数据集建立了基于Swiss-Prot数据库,蛋白质的亚细胞位置的数据集是由实验决定的。这些走近预测的输出是亚细胞位置(s)通过使用查询蛋白质的序列信息仅作为输入而无需任何信息。也就是说,之间没有差别的non-GO预测,预测输入的要求。此外,GO-based方法可以执行性能优良的原因是,去空间的特征向量更精确地反映蛋白质之间的关系和他们的亚细胞位置。获取查询的位置蛋白质通过创建一个查找表使用蜂窝组件去术语和蜂窝组件类别已被证明是不可取的,会导致非常糟糕的预测性能。总之,我们也应用GO-based方法在当前的纸,和细节如下。

给定一个查询蛋白质爆炸,进入搜索Swiss-Prot数据库(发布于2016年7月04)的同源蛋白质。收集这些同源蛋白质和把它们分成一组。设置有相似属性的蛋白质结构构象与生物功能等。选择加入数字(AC)同源蛋白质的键来检索相关的条款从果阿数据库。注意,如果同源蛋白质不能被发现或有任何条款,然后使用自己的交流。

使用(1),蛋白质被表示为在哪里是一个转置运算符;是所有的数量条款去数据库中去。然而,走的数量近年来迅速增加,去数据库(2016年7月23日公布)包括超过20000条款。如果我们用去数据库中所有的条款制定特征向量,这将导致灾难和time-costing高维问题。在当前的论文,建立了子空间去避免这些问题。所有细胞凋亡蛋白质的数据集,我们得到他们的同源蛋白质组和检索条件如上所述,把条款为一组。在这个过程中,所有去集上形成欧几里得空间维度,等于去设置条件的数量。子空间可以被视为所有条款在数据库的一个子集。对蛋白质,其特征向量表示为(1)通过映射条件到子空间,在那里在特征向量定义为在哪里出现的次数是th去,如果去的蛋白质撞到届任期。注意,对于每个蛋白质数据集,至少有一个交流方面,交流可能属于蛋白质本身或它的同源性;因此,零向量将不会出现在数据集。零向量预测是没有意义的。

2.3。预测算法

多区域细胞凋亡蛋白的亚细胞定位预测可以被视为一个multilabel分类问题,其中每个亚细胞位置表示为一个类标签。二进制相关性方法(BR)是一种常用的策略,将multilabel问题转化为若干单标牌分类问题。鉴于multilabel训练数据集,它包含蛋白质分为亚细胞位置。数据集可以进一步分成根据不同的位置:子集 ,在那里包含蛋白质属于的子集位置。为亚细胞定位,可以表示为训练集在哪里是积极的一组蛋白质样品属于这个位置和吗是负集,由剩余的蛋白质;和构造如下: 在哪里特征向量的蛋白质吗属于和特征向量的蛋白质吗不属于。BR方法培训独立的二元分类器的基础上。输入一个查询蛋白质,是预测输出维得分向量,在那里表明蛋白质属于标签或亚细胞位置和意味着它不属于亚细胞位置。

在这篇文章中,一个新的multilabel预测算法基于二进制相关性方法(BR)的策略。一般来说,该算法首先选择最歧视的特性亚细胞位置,其次分别构造分类模型通过使用通过上述步骤组具体标签的功能获得。具体来说,我们使用皮尔逊相关系数(PCC)的选择为每个亚细胞位置具体标签的功能。PCC是统计方法来衡量两个变量之间的线性相关,其值的范围是−1和+ 1之间。如果绝对值接近1,两个变量的线性相关性非常高;否则,该值接近于0;他们之间几乎没有线性相关性。PCC已广泛应用于生物数据分析(36]。让和表示特征向量空间和标签得分向量空间,分别可以表示为在哪里向量,由吗所有的蛋白质和th特性是标签的向量是由大量的蛋白质;他们被表示为: 在哪里是th的特点th蛋白质和标签的分数吗th蛋白质。之间的线性相关性特性和类标签检测到的在哪里和的平均值和,分别。对于每一个标签,其具体标签的特点构造如下:检测每个特性之间的线性依赖关系和当前标签,安排降序排列的原始特性根据线性依赖关系,然后选择第一个的价值特性具体标签的功能每个标签可能是不同的。图2显示原理的说明使用皮尔逊相关系数(PCC)的等级特征为每个不同的类标签。分类模型的过程中感应,BR策略用于诱导二元分类器为每个标签。这些二元分类器训练从生成的具体标签的功能比原来的其他特性。为一个查询蛋白质,同样,其具体标签的功能,而不是最初的功能是用于预测。摘要支持向量机(SVM)是用于培训所有的二元分类器。支持向量机是一种常见的二进制分类算法和提出一些特殊的优势领域的非线性、高维模式识别。

最后,整个预测建立了通过上述程序名为MultiP-Apo,在“MultiP”代表“多区域预测”和“7”代表“细胞凋亡蛋白。”提供一个直观的图片,图中给出了流程图3说明MultiP-Apo的预测过程。

2.4。性能的措施

多区域细胞凋亡蛋白的亚细胞定位预测属于multilabel分类的情况。众所周知,,multilabel分类系统和当前系统一样,性能指标不同于那些传统单标牌的分类系统,因为一个例子可以同时有一个或多个类标签。性能指标将multilabel分类系统更加复杂。为了更好地反映multilabel分类器的功能,这五个措施,,,,,用于这项工作,他们定义如下: 在哪里是真正的集合每个样本的标签,是预测的设置标签,测试样品的数量,是数一数的运算符的元素集。上述五措施,测量值越高,预测性能就越好。的调和平均数multilabel精度()和multilabel回忆()之间的权衡和考虑以反映直观的分类性能。是一个严格的措施,正确评估整体multilabel分类系统。如果真正的标签和预测标签的一个例子是完全相同的,的价值是1;否则,它是0。蛋白质样品,只有所有预测位置完全相同的它真正的位置,它被认为是正确的预测。例如,一种蛋白质包含三个亚细胞位置;如果预测结果包含超过或少于三个位置或结果的位置不属于三个特定蛋白质的真实位置,预测可以被认为是不正确的。读者可以参考的评论文章37]给出一个更详细的解释关于这些措施的意义。

在统计预测,三种常见的测试方法,独立数据集测试、倍交叉验证和重叠交叉验证,通常用于测试预测的泛化能力。其中,重叠交叉验证是最严格的和没有偏见的测试方法,阐明在全面审查(38]。在重叠测试,数据集包含蛋白质分为子集,每个子集被视为测试蛋白质;的其余部分蛋白质作为训练集,重复这个过程次,每次选择一个不同的蛋白质作为测试蛋白质。重叠测试已经越来越被研究者广泛采用检查各种预测方法的准确性(14- - - - - -17,21- - - - - -24]。因此,在当前,我们也使用重叠交叉验证检查预测性能。

3所示。结果与讨论

3.1。评估我们的基准数据集MSapo518预测模型

展示我们的效率提出了预测,表2比较我们提出的性能预测MultiP-Apo(使用具体标签的特性)与BrP-Apo(使用原始特性)基准数据集MSapo518重叠测试。具体来说,BrP-Apo BR策略用于训练预测模型,而我们提出的预测MultiP-Apo延长了BR策略利用具体标签的特性预测模型。对于一个公平的比较,我们使用相同的原始特性获得的部分2。2和相同的基分类器SVM MultiP-Apo和BrP-Apo。从表可以看出2,MultiP-Apo执行比BrP-Apo的令人印象深刻,,,,。尤其是,最客观和严格的标准,MultiP-Apo优于BrP-Apo 15%以上。这是可以理解的,因为在基本BR的策略,例如,BrP-Apo,同样的功能是用于火车每个二元分类器对于每个亚细胞位置,导致输出许多预测错误。这个问题是可以克服使用具体标签的功能,因为它为每个亚细胞位置构造最歧视的特性,导致一个重大进步。剩下的评估标准,MultiP-Apo也显著优于BrP-Apo,符合上述分析表明,考虑到具体标签的特性可以实现更高的预测性能。


测量	MultiP-Apo (%)	BrP-Apo (%)

	76.37	62.84
	84.12	71.10
	84.86	74.56
	81.87	69.61
	58.49	42.08

应该注意的是,计算和比较每个标签的准确性multilabel分类是没有意义的。因此,表3上市的整体精度(细胞凋亡的蛋白与不同数量的标签(亚细胞位置),相比较而言,年代BrP-Apo也表所示3。从表可以看出3明显,MultiP-Apo执行比BrP-Apo。特别是,对于两个亚细胞位置的蛋白质,BrP-Apo相比,MultiP-Apo接近20%的性能提升。我们已经注意到,更多的亚细胞位置的蛋白质,降低年代。因此,表3还可以显示使用具体标签的功能可以提高预测的性能。


许多地方	数量的蛋白质	总体精度()
许多地方	数量的蛋白质	MultiP-Apo (%)	BrP-Apo (%)

1	303年	68.65	50.83
2	155年	56.13	36.77
3	52	15.38	13.46
4	6	0	0
5	1	0	0
6	1	0	0

3.2。同源蛋白质的数量的影响

在一节中,我们评估的性能与不同数量的同源蛋白质MultiP-Apo基准数据集MSapo518重叠测试。不同的数量去术语可以被不同的不同数量的同源蛋白质。通常,不同的数量增加与同源蛋白质的数量。我们选择这里使用同源蛋白质的数量。图4表明同源蛋白质的数量会影响MultiP-Apo的性能。从图可以看出4同源蛋白质数量的增加,MultiP-Apo普遍下降的预测性能的所有性能指标。具体来说,绝对精度(),使用一个同族体的性能明显优于使用8(58.49%比52.7%)。这个观察表明,我们应该增加数量少的同源蛋白质,因为太多的同源蛋白质可能带来冗余和噪声信息。

(一)

(b)

(c)

(d)

(e)

3.3。与现有的细胞凋亡蛋白预测进行比较

所介绍,所有现有的预测只能用来识别一个查询蛋白质的亚细胞定位;没有人可以处理与多个亚细胞蛋白质的位置。然而,它仍然是有趣的,看看我们提出的预测可能比现有的预测基于独立测试使用一种新的细胞凋亡蛋白质数据集。新细胞凋亡蛋白数据集是由使用相同的标准中指定的数据集。此外,确保蛋白质在新的数据集是小说,这些蛋白的添加日期应该晚于培训蛋白质用于我们的提出的预测和其他现有的预测因子。因为细胞凋亡蛋白数据集用于培训MultiP-Apo和其他预测了2016年7月04,早些时候,我们选择的细胞凋亡蛋白添加到Swiss-Prot 04 2016年7月至2017年5月15日。之后,26凋亡蛋白分布在8个亚细胞位置选择,其中9蛋白质与亚细胞位置相关联,9与两个位置,6三个位置,1有四个位置,1有五个位置,没有一个有六个或更多的位置。换句话说,65%的细胞凋亡蛋白在新的数据集位于多个位置。新的数据集也可以从MultiP-Apo下载服务器。

我们比较我们与先进的预测提出了预测MultiP-Apo GO-DWKNN [15)在新数据集由独立测试。因为GO-DWKNN优于现有的其他预测,只有GO-DWKNN提供在线web服务器,我们认为比较就足够了。的预测结果表中给出的两个预测相比4。从表中可以看出,MultiP-Apo表现明显好于GO-DWKNN所有性能指标。在五个指标(8),是最严格、最严厉的;任何overprediction或underprediction将导致错误的结果。绝对精度()我们提出的预测MultiP-Apo超过26%(绝对)高于GO-DWKNN(46.15%和19.23%)。这个观察表明,因为MultiP-Apo特别设计用于处理细胞凋亡蛋白与多个亚细胞位置,MultiP-Apo表现明显好于GO-DWKNN预测细胞凋亡蛋白的亚细胞位置与一个或多个网站。


测量	MultiP-Apo (%)	GO-DWKNN (%)

	69.17	48.53
	90.38	88.46
	72.05	48.53
	77.07	59.87
	46.15	19.23

4所示。Web服务器

因为用户友好和自由访问web服务器代表未来方向发展实际上更有用的预测,上述预测方法的基础上,我们开发了一个在线的web服务器预测multilabel凋亡蛋白质亚细胞定位,称为MultiP-Apo,http://biomed.zzuli.edu.cn/bioinfo/multip-apo/。即使没有专业数学和计算机知识的生物学家,也可以轻松地获得预测结果查询蛋白质。

5。结论

细胞凋亡蛋白质亚细胞定位预测是一项具有挑战性的问题,和许多杰出的预测已经开发来解决这个问题。然而,有以下缺点所有现有的预测:(与多个位置)的蛋白质,他们不能完全预测他们所有的亚细胞位置;()到目前为止没有数据集包含多个位置的细胞凋亡蛋白;()这些预测中使用的机器学习算法不适合处理细胞凋亡蛋白与多个亚细胞位置。针对这个,multilabel预测,即MultiP-Apo,本文提出了第一个multilabel预测识别细胞凋亡蛋白的亚细胞位置单个和多个位置。

本文的主要贡献可以概括如下:()我们创造了新的基准数据集MSapo518包含518细胞凋亡与一个或多个蛋白质亚细胞位置和覆盖8亚细胞位置;()我们使用注释信息凋亡蛋白质同源蛋白质的形成特征向量,和子空间构造了去避免高维灾难通过选择一组相关的条款从所有的条款;(),我们提出了一个新颖的multilabel算法利用执行跨地点的具体标签的功能预测;()在线web服务器建立了MultiP-Apo自由访问http://biomed.zzuli.edu.cn/bioinfo/multip-apo/。

的利益冲突

所有作者声明,没有利益冲突。

确认

这部分工作是由中国国家自然科学基金(61402422和61402422),关键项目的科学技术研究河南省教育部(14 a520063)和博士郑州轻工业大学研究基金会(2013 bsjj082)。

引用

s·h·考夫曼和m . o . Hengartner程序性细胞死亡:活着,在新世纪,“细胞生物学的趋势,11卷,不。12日,第534 - 526页,2001年。视图:出版商的网站|谷歌学术搜索
m . d . Pulido和a·r·帕里什“Metal-induced细胞凋亡机制,”突变的研究,卷533,不。1 - 2、227 - 241年,2003页。视图:出版商的网站|谷歌学术搜索
r . Sgonc j·格鲁伯,“细胞凋亡检测:概述”,实验老年学,33卷,不。6,525 - 533年,1998页。视图:出版商的网站|谷歌学术搜索
G.-P。周和k .医生,“细胞凋亡蛋白的亚细胞定位预测,”蛋白质:结构、功能和遗传学,50卷,不。1,44-48,2003页。视图:出版商的网站|谷歌学术搜索
Z.-H。张,Z.-H。王,Z.-R。张,y。王”,一个新颖的方法,细胞凋亡蛋白质亚细胞定位预测编码基于分组体重和支持向量机相结合,“2月的信,卷580,不。26日,第6174 - 6169页,2006年。视图:出版商的网站|谷歌学术搜索
杨绍明。关铭陈和Q.-Z。李,“细胞凋亡蛋白的亚细胞定位预测,”理论生物学杂志》上,卷245,不。4、775 - 783年,2007页。视图:出版商的网站|谷歌学术搜索|MathSciNet
杨绍明。关铭陈和Q.-Z。李,“凋亡蛋白质亚细胞定位预测使用改进的混合方法和pseudo-amino酸成分,”理论生物学杂志》上,卷248,不。2、377 - 381年,2007页。视图:出版商的网站|谷歌学术搜索
X.-B。周,Z.-C c . Chen。李,X.-Y。邹”,提高细胞凋亡蛋白的亚细胞定位预测双层支持向量机,”氨基酸,35卷,不。2、383 - 388年,2008页。视图:出版商的网站|谷歌学术搜索
Y.-S。丁和T.-L。张,“周使用伪氨基酸组成来预测细胞凋亡蛋白的亚细胞定位:与免疫遗传算法集成分类器的方法,”模式识别的字母卷,29号13日,1887 - 1892年,2008页。视图:出版商的网站|谷歌学术搜索
江x r,魏,t·张,问:顾,“使用周的概念的伪氨基酸组成来预测细胞凋亡蛋白亚细胞位置:近似熵的方法,”蛋白质和多肽的信件,15卷,不。4、392 - 396年,2008页。视图:出版商的网站|谷歌学术搜索
廖,J.-B。江,Q.-G。曾和w·朱”预测细胞凋亡蛋白亚细胞位置与PseAAC通过加入三肽成分,”蛋白质和多肽的信件,18卷,不。11日,第1092 - 1086页,2011年。视图:出版商的网站|谷歌学术搜索
x, x, y斗,t . Liu和j·王,“细胞凋亡蛋白的亚细胞定位预测伪氨基酸组成:方法从氨基酸替换汽车协方差矩阵和变换,“氨基酸,42卷,不。5,1619 - 1625年,2012页。视图:出版商的网站|谷歌学术搜索
l .张廖b、d·李和w·朱”小说代表凋亡蛋白质亚细胞定位预测,使用支持向量机”理论生物学杂志》上,卷259,不。2、361 - 365年,2009页。视图:出版商的网站|谷歌学术搜索
x t . g . Liu郑,c . h . Wang和j·王,“细胞凋亡蛋白的亚细胞定位预测使用伪氨基酸组成:汽车协方差变换的方法,”蛋白质和多肽的信件,17卷,不。10日,1263 - 1269年,2010页。视图:出版商的网站|谷歌学术搜索
x Wang h·李,问:张先生,r . Wang“细胞凋亡蛋白的亚细胞定位预测结合功能的同源蛋白质和距离加权资讯分类器,”生物医学研究的国际卷,2016篇文章ID 1793272、8页,2016。视图:出版商的网站|谷歌学术搜索
j·黄和f·史”,支持向量机预测细胞凋亡蛋白类型”Acta Biotheoretica,53卷,不。1,39-47,2005页。视图:出版商的网站|谷歌学术搜索
问:顾,Y.-S。叮,X.-Y。江,T.-L。张,“预测蛋白质的亚细胞位置细胞凋亡与系综分类器和特征选择,”氨基酸,38卷,不。4、975 - 983年,2010页。视图:出版商的网站|谷歌学术搜索
诉萨拉瓦南和p . t . v . Lakshmi APSLAP:一种自适应预测细胞凋亡蛋白的亚细胞定位,提高技术”Acta Biotheoretica,卷61,不。4、481 - 497年,2013页。视图:出版商的网站|谷歌学术搜索
Z.-C。李,X.-B。周,z戴,X.-Y。邹,”周预测蛋白质结构类的伪氨基酸组成:接近使用连续小波变换和主成分分析,“氨基酸,37卷,不。2、415 - 425年,2009页。视图:出版商的网站|谷歌学术搜索
Sahu和g .熊猫”小说特征表示方法基于周伪氨基酸组成的蛋白质结构类预测,“计算生物学化学34卷,第327 - 320页,2010年。视图:出版商的网站|谷歌学术搜索
d .邹,z, j .他和y夏,“Supersecondary结构预测使用周的伪氨基酸组成,”计算化学杂志,32卷,不。2、271 - 278年,2011页。视图:出版商的网站|谷歌学术搜索
S.-W。张,杨绍明。关铭张,H.-F。杨,学术界。赵,问:潘,“使用周的概念的伪氨基酸组成来预测蛋白质的亚细胞定位:一种方法,通过融合进化信息和冯诺伊曼熵,”氨基酸,34卷,不。4、565 - 572年,2008页。视图:出版商的网站|谷歌学术搜索
j·林和y王”,使用一种新型学习演算法和周伪氨基酸组成的蛋白质亚细胞定位预测,“蛋白质和多肽的信件,18卷,不。12日,第1225 - 1219页,2011年。视图:出版商的网站|谷歌学术搜索
中州。曾,Y.-Z。郭,R.-Q。肖,l .杨L.-Z。Yu, >。李”,利用增广周的伪氨基酸组成预测蛋白质submitochondria位置基于汽车协方差方法,”理论生物学杂志》上,卷259,不。2、366 - 372年,2009页。视图:出版商的网站|谷歌学术搜索
g . Aguero-Chapin j . Varona-Santos g . a . De La Riva et al .,“Alignment-free预测的聚半乳糖醛酸酶pseudofolding拓扑指数:实验隔绝coffea阿拉比卡、一个新的序列预测”蛋白质组研究期刊》的研究,8卷,不。4、2122 - 2128年,2009页。视图:出版商的网站|谷歌学术搜索
a . Perez-Bello c . r . Munteanu f . m . Ubeira a . l . De Magalhaes e . Uriarte和h . Gonzalez-Diaz”Alignment-free分枝杆菌DNA启动子预测基于pseudo-folding晶格网络或星形图拓扑指数,”理论生物学杂志》上,卷256,不。3、458 - 466年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
李y, y左,y, z燕,g . Li和l .杨”PseKRAAC:一个灵活的web服务器生成伪K-tuple减少氨基酸成分,”生物信息学,33卷,不。1,第124 - 122页,2016。视图:出版商的网站|谷歌学术搜索
h . b .沈和k·c·周”,自顶向下的方法来提高人类蛋白质亚细胞定位预测的力量:Hum-mPLoc 2.0,“分析生物化学,卷394,不。2、269 - 274年,2009页。视图:出版商的网站|谷歌学术搜索
D.-J。Yu j . Hu Z.-M。唐,H.-B。沈,j·杨,J.-Y。杨”,改善protein-ATP绑定与随机under-sampling残留物通过提高svm预测,“Neurocomputing卷,104年,第190 - 180页,2013年。视图:出版商的网站|谷歌学术搜索
G.-H。刘,H.-B。沈,D.-J。Yu”预测蛋白质交互网站machine-learning-based数据清理和后过滤过程,”膜生物学》杂志上,卷249,不。1 - 2、141 - 153年,2016页。视图:出版商的网站|谷歌学术搜索
Z.-C。肖,x, K.-C。周,“ILoc-Plant:多标记分类器预测植物蛋白质的亚细胞定位单个和多个站点,“分子生物系统,7卷,不。12日,第3297 - 3287页,2011年。视图:出版商的网站|谷歌学术搜索
Z.-C。肖,x, K.-C。周,“ILoc-Gpos:多层分类器预测Singleplex和多路复用的革兰氏阳性细菌蛋白质的亚细胞定位,“蛋白质和多肽的信件,19卷,不。1,学报》第4 - 14页,2012。视图:出版商的网站|谷歌学术搜索
肖x, Z.-C。吴,K.-C。周”,多标记分类器对革兰氏阴性细菌蛋白质的亚细胞定位预测单个和多个站点,“《公共科学图书馆•综合》》第六卷,没有。6篇文章ID e20592 2011。视图:出版商的网站|谷歌学术搜索
x Wang G.-Z。李和观测。,“Virus-ECC-mPLoc:多标记为预测病毒蛋白质的亚细胞定位预测单个和多个站点基于周一般形式的伪氨基酸组成,”蛋白质和多肽的信件,20卷,不。3、309 - 317年,2013页。视图:谷歌学术搜索
s . b .广域网,硕士。麦,S.-Y。宫,“MGOASVM:多标记蛋白质亚细胞定位基因本体和支持向量机的基础上,“BMC生物信息学第290条,卷。13日,2012年。视图:出版商的网站|谷歌学术搜索
即Iguyon和a . Elisseeff”介绍变量和特征选择。”机器学习研究杂志》上,3卷,第1182 - 1157页,2003年。视图:谷歌学术搜索
K.-C。周”,一些评价预测多标记在分子生物系统属性,“分子生物系统,9卷,不。6,1092 - 1100年,2013页。视图:出版商的网站|谷歌学术搜索
k c .周和h沈,“最新进展在蛋白质亚细胞定位预测,”分析生物化学,卷370,不。1,硕士论文,2007页。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。特征提取

2.3。预测算法

2.4。性能的措施

3所示。结果与讨论

3.1。评估我们的基准数据集MSapo518预测模型

3.2。同源蛋白质的数量的影响

3.3。与现有的细胞凋亡蛋白预测进行比较

4所示。Web服务器

5。结论

的利益冲突

确认

引用

版权

相关文章

相关文章

计算智能和神经科学

MultiP-Apo: Multilabel预测识别细胞凋亡蛋白的亚细胞位置

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。特征提取

2.3。预测算法

2.4。性能的措施

3所示。结果与讨论

3.1。评估我们的基准数据集MSapo518预测模型

3.2。同源蛋白质的数量的影响

3.3。与现有的细胞凋亡蛋白预测进行比较

4所示。Web服务器

5。结论

的利益冲突

确认

引用

版权

相关文章

更多相关文章

更多相关文章

相关文章