文摘

知识的蛋白质成分噬菌体病毒粒子是一个关键的一步了解噬菌体病毒粒子的功能蛋白质。然而,识别病毒蛋白质的实验方法是费时和昂贵的。因此,它是非常可取的开发噬菌体病毒蛋白质鉴定的新计算方法。在这项研究中,提出了一种基于朴素贝叶斯的方法来预测使用噬菌体病毒蛋白质的氨基酸组成和二肽成分。为了消除冗余信息,一个新的特征选择技术是用来挑出优化的功能。在重叠测试,该方法实现了噬菌体病毒粒子和nonvirion蛋白质分类的精度为79.15%,优于其他先进的分类器。这些结果表明,该方法可以作为一个有效的和有前途的高通量方法噬菌体蛋白质组学研究。

1。介绍

噬菌体在细菌病毒感染和复制。噬菌体是由细菌广泛分布在地区密集的主机,如土壤或动物的肠子。完全感染噬菌体病毒粒子(即,噬菌体病毒粒子)包含一个核心的核酸使病毒传染性和蛋白外壳(称为衣壳)包围着核酸特异性,即确定哪些生物病毒可以感染。

噬菌体病毒的核酸RNA或DNA。蛋白的噬菌体病毒粒子包括结构蛋白和非结构蛋白。结构蛋白通常称为“噬菌体病毒蛋白质“感染性病毒颗粒的材料至关重要,包括外壳蛋白,膜蛋白和病毒粒子酶。非结构蛋白(即噬菌体nonvirion蛋白质)是指病毒基因组编码的,并在生物过程中扮演重要角色的病毒基因组复制和表达,但他们不绑定到噬菌体病毒粒子。由于噬菌体病毒粒子之间的不同的功能蛋白质和噬菌体nonvirion蛋白质,噬菌体病毒粒子的蛋白质组成知识是一个重要的步骤来进一步了解噬菌体病毒粒子的功能。

虽然使用质谱(MS)鉴定噬菌体的病毒蛋白已成为流行的(1),它没有跟上的爆炸性增长生成蛋白质序列在基因组时代。因此,它是高度期望的发展自动化的方法及时、可靠地分类噬菌体病毒粒子的蛋白质成分。

我们所知,没有计算系统的分类噬菌体病毒蛋白质。在当前的研究中,我们提出一种基于朴素贝叶斯的计算模型预测使用噬菌体病毒蛋白质的氨基酸组成和二肽的组成部分。correlation-based特征子集选择算法(2]介绍了找到最优的特性。通过使用优化的特性,该模型是在基准数据集在重叠测试评估。性能表明,这个模型可能是一个有用的工具注释的噬菌体的蛋白质。

根据最近的一些综合评审(3,4),证明了最近一系列出版物(5- - - - - -10),建立一个真正有用的统计预测,我们需要考虑以下程序:(i)构造或选择一个有效的基准数据集训练和测试的预测;(2)制定统计样本提供一个有效的数学表达式,可以真正反映其内在关联与目标预测;(3)引进或开发一个强大的算法(或引擎)经营预测;(iv)正确执行交叉验证测试,以客观地评价预期的预测的准确性;(v)建立一个用户友好的web服务器的预测对公众开放。在下面,我们描述如何处理这些步骤。

2。材料和方法

2.1。数据集

本研究中采用的原始数据集的提取UniProt [11]。为了获得一个可靠的基准数据集,以下步骤是考虑。首先,只有实验证实了噬菌体病毒和噬菌体nonvirion蛋白质序列被包括在内。其次,其他蛋白质的序列片段的脱落。第三,包含非标准字母序列,即“B”“X”或“Z”被排除在外,他们意思是模棱两可的。此前严格的筛选程序后,我们得到121噬菌体病毒蛋白质序列和231噬菌体nonvirion蛋白质序列。

准备一个高质量的数据集,CD-HIT程序(12)是用来删除数据。通过设置序列同一性的截止至40%,307年序列仍然在最后的基准数据集,其中包括99噬菌体病毒蛋白质序列和208噬菌体nonvirion蛋白质序列。

2.2。特征向量

识别最重要的一个部分蛋白质属性来生成一组适当的参数编码的蛋白质序列。为了避免完全失去了序列号信息,伪氨基酸组成(PseAAC)提出了13,14)来代替简单的氨基酸组成(AAC)代表样本的蛋白质。自2001年PseAAC提出的概念(13),它已被广泛用于研究蛋白质的各种属性,如识别细菌毒性蛋白(15),预测supersecondary结构(16),预测蛋白质的亚细胞位置(16- - - - - -19),预测膜蛋白类型(20.),歧视外膜蛋白(21),确定抗菌肽(22),识别过敏蛋白(23),预测金属蛋白酶家族(24),预测蛋白质结构类(25),确定GPCRs及其类型(26),确定蛋白质四级结构属性(27),预测蛋白质submitochondria位置(28),识别风险类型的人类乳头状瘤病毒(29日),确定细胞周期蛋白的蛋白质(30.),预测GABA (A)受体蛋白(31日分类,氨基酸(32),和其他很多(见一长串的论文中引用的参考资料部分3])。最近,PseAAC进一步扩展的概念来表示DNA和核苷酸的特征向量(7,9),以及其他生物样品(见,例如,33,34])。因为它已经被广泛的使用越来越多,最近两个强大的软件,叫“PseAAC-Builder”[35)和“藻”[36周),建立了用于生成各种特殊的pseudoamino酸成分。

氨基酸组成和二肽成分PseAAC的一般形式和最简单的参数,也被广泛应用于蛋白质的预测(37- - - - - -40]。因此,基准数据集的每一个蛋白质序列编码在一个离散向量 在哪里 是归一化发生频率的20种氨基酸 和400年的二肽 分别在蛋白质序列。 是更换运营商。

2.3。特征选择

包含在模型建立过程中冗余和噪声特性会导致糟糕的预测性能和增加计算。特征选择是一个过程,删除无关的特性,是非常有用的在降低数据的维数,提高预测精度。降低特征空间的维数,提高精度的噬菌体病毒粒子和nonvirion蛋白质分类、过滤方法Correlation-based特征选择(2]结合最佳优先搜索策略是使用过程中特征选择在当前工作。

过程始于一个空的特性和集生成所有可能的单一的功能扩展。最高的子集选择精度和扩大以同样的方式通过添加单一功能。如果精度不最大化的扩张的一个子集,搜索滴回到下一个最好的未展开的子集,从那里继续,直到所有功能被添加。精度最高的子集将被选为最终的优化特性集(41]。

2.4。朴素贝叶斯

朴素贝叶斯算法是一种有效的统计分类(42),已成功地应用在生物信息学领域(43- - - - - -46]。朴素贝叶斯的基本理论是类似于协方差行列式(CD) [47- - - - - -52]。但对朴素贝叶斯假设属性变量相互独立的结果。这种假设极大地简化了计算条件概率,也克服了发散问题当使用CD预测引擎来处理这些系统的组件组成特征向量归一化。

在朴素贝叶斯框架中,可以被看作是一个分类问题的问题发现结果与观察变量的最大概率给定一组。给定一个噬菌体病毒蛋白的例子,描述其特征向量 我们正在寻找一个类 最大化的可能性 。由于目前的工作是打算噬菌体病毒粒子和nonvirion蛋白质进行分类,二进制类 生成,1表示样本预测作为一个噬菌体病毒蛋白质和0表示噬菌体nonvirion蛋白质。二元分类,蛋白质样本的类可以通过比较两个屁股决定的

的对数(2),我们得到

因此,样品将预测1(噬菌体病毒蛋白质) 和0(噬菌体nonvirion蛋白质)。 是阈值确定敏感性和特异性之间的权衡,可以训练在训练数据集预测性能最大化。

2.5。绩效评估

提出了模型的性能评估使用灵敏度(Sn),特异性(Sp)和准确性(Acc),表示为 TP、TN、FP, FN代表的数量正确认识噬菌体病毒蛋白质,正确认识到噬菌体的数量nonvirion蛋白质,噬菌体的数量nonvirion公认噬菌体病毒蛋白质,蛋白质和噬菌体病毒蛋白质的数量被认为是噬菌体nonvirion蛋白质,分别。

当前分类器的性能取决于阈值 在(4),独立阈值参数,接受者操作特征曲线,采用。因此,可以客观地评价分类器的质量通过测量接受者操作特征曲线下的面积(auROC)。auROC分数范围从0到1的价值,以0.5的得分对应于一个随机猜测和得分1.0指示一个完美的分离。

3所示。结果与讨论

三种交叉验证方法,即二次抽样测试,独立数据集测试、和重叠测试,通常用来评估预测的预测能力。在三种方法中,重叠测试被认为是最客观、严谨,总是能产生独特的结果证明了在最近的一次深入分析全面审查(53),因此被广泛和日益被调查人员检查质量的各种因素(见,例如,(7,19,21,30.,54- - - - - -56])。因此,重叠测试用于检查性能模型的提出在当前的研究中。在重叠测试,每个序列的训练数据集是反过来指出作为一个独立的测试样品,和所有的规则参数计算不包括被确定。

3.1。预测噬菌体病毒蛋白质

我们训练有素的朴素贝叶斯分类器使用怀卡托知识环境分析(WEKA) [57在基准数据集。如表所示1,auROC得分0.758和75.57%的准确性与平均平均的敏感性53.54%,特异性83.17%的人获得了噬菌体病毒粒子的分类和nonvirion蛋白质通过使用420年的所有特性,也就是说,400二肽氨基酸组成和成分。

为了确定突出特性,可以区分噬菌体病毒粒子和nonvirion蛋白质,特征选择方法中引入部分2。3进行了消除冗余特征使用WEKA十倍交叉验证方法在基准数据集上。我们发现,该方法实现了最大精度为79.48%,auROC 0.86特性尺寸减少38(即。,V, T, A, H, K, E, R, S, LE, VT, VG, MK, TA, TS, AT, HI, KL, KI, KH, KN, KK, KD, KE, KW, KR, DK, EF, EL, EV, EK, EE, EW, CE, WK, RE, SG, GV, and GG). The jackknife test results of the Naïve Bayes classifier based on the 38 optimized features were listed in Table1。从表可以看出1,当前的方法产生一个最佳auROC得分是0.855,预测准确率为79.15%,平均平均灵敏度为75.76%,特异性为80.77%(表1)。预测精度和auROC都高于模型的基于420年的特性。

3.2。与其他方法相比

我们所知,不存在噬菌体病毒粒子和nonvirion蛋白质分类的理论方法。因此,我们不能提供发布的比较分析结果证实该模型提出这是优于其他方法。然而,拟议的朴素贝叶斯分类器与其他先进的分类器相比,也就是说,BayesNet, RBFnetwork,随机森林,J48,支持向量机(SVM)和LogitBoot。上的所有分类器比较基准数据集(即基于优化特性。,V, T, A, H, K, E, R, S, LE, VT, VG, MK, TA, TS, AT, HI, KL, KI, KH, KN, KK, KD, KE, KW, KR, DK, EF, EL, EV, EK, EE, EW, CE, WK, RE, SG, GV, and GG). Their best predictive results from jackknife test were shown in Table2

朴素贝叶斯的预测精度约为3%,4%,5%,和7%高于BayesNet,随机森林,LogitBoot,分别和J48分类器。虽然RBFnetwork和支持向量机的精度等于朴素贝叶斯、朴素贝叶斯的auROC分数低于。这些结果表明,拟议中的朴素贝叶斯模型可以有效地用于噬菌体病毒粒子和nonvirion蛋白质进行分类。

4所示。结论

在这项研究中,朴素贝叶斯分类器的特征选择方法,提出了基于主身份噬菌体病毒蛋白质序列信息。通过使用Correlation-based特征子集选择算法,降低特征维度,38个突出的特性,可以显著提高预测精度。然而,所选特征的详细分析需要提供更多的信息关于他们的角色在生物活性。噬菌体病毒粒子的分类精度和nonvirion蛋白质在重叠测试达到了79.15%,表明该方法是一种有效的工具,噬菌体病毒蛋白质鉴定。预计提交模型将为噬菌体蛋白质组学研究提供了新的见解。因为用户友好的和可以公开访问的web服务器代表未来方向发展实际上更有用的预测(58),我们将努力在我们未来的工作提供一个web服务器的方法。

确认

作者想表达自己的感激之情三个匿名评论者的建设性的评论非常有助于加强本文的演示。这项工作得到了国家自然科学基金(61100092号,61202256),中央大学的基础研究基金(ZYGX2012J113)。