基因组岛相关微生物适应和携带不同的基因组特征从主机。因此,人们提出了很多方法来检测基因组岛与其他评估其基因组的序列组成。许多序列特性提出了,但他们中的许多人还没有应用于基因组岛的识别。在本文中,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种序列的特性和选择与卡方检验的重要特征。所有选中的功能然后输入随机森林预测基因组岛。三个实验和比较表明,该方法达到最佳性能。这种理解可以是有用的设计更强大的基因组岛的预测方法。
水平基因转移(HGT)是影响细菌适应性的主要因素之一。黑客等人发现了一些病毒基因簇
比较基因组学在大规模的帮助下,研究人员发现,GIs具有不同的序列组成,直接在重复侧面,移动性和tRNA基因。反过来,探索和利用这些特性会导致更好的检测GIs (
除了比较基因组学、基于组件的GI检测方法也很敏感。考虑到GIs通常显示明显不同序列成分从主机,一个有效的检测算法能分辨出异常区域的基因组成分偏差。在实践中,基于组件的方法是可取的,因为他们可以迅速发现GIs的分析而不需要额外的基因组序列。CG内容和寡核苷酸序列长度2 - 9被广泛用于描述成分在胃肠道检测(
尽管上述算法的性能很好,仍存在一些问题:(1)比较基因组学在很大程度上依赖于使用的基因组比较,所以它可以使用注释过程中或者当密切相关的基因组是可用的。即使更多的基因组,研究人员需要花更多的时间在选择感兴趣的物种的基因组。(2)尽管这些方法基于嗯GI检测中表现出更好的性能,它们涉及相对更多的计算参数和大量的训练;所以,需要很长时间来检测GIs。(3)近年来,提出了不同的序列特征,但这些特征很少应用于基因组岛的预测。如何融合并选择一些有效的特性也是提高基因组岛检测的效率。
考虑到上述问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们首先提取7种广泛使用的序列特性和比较他们的性能在胃肠道检测。然后使用卡方检验选择的重要特性。最后,所有选中的功能是输入到随机森林检测基因组岛。小说通过一个全面的比较和讨论,一些有价值的使用指南序列的特性,得到了特征选择和预测方法。
四个标准数据集用于这项研究。第一个数据集,PICK108, 108年由完整的微生物基因组序列和注释。积极的和消极的GIs在这个数据集的数量是3868年和679年,分别(
7种广泛使用的序列特征提取的基因组岛检测。他们组成
反向恭维
CKSNAP特性代表核苷酸的组成对所分离的
在这项研究中,所有核苷酸配对
DNC表示连续的复合双核苷酸(
过渡委员会是指连续三核苷酸在生物序列的构成(
PseDNC将本地序列安排和全局序列信息转换成特征向量(
南京汽车评估每个的核酸序列的频率。所有的频率自然核酸(即4。“ACGT”)可以计算:
EIIPA、EIIPT EIIPG, EIIPC代表核苷酸的EIIP测量
各种序列特性将会融合在一起,以提高预测效率,但不同的冗余特征不容忽视。因此,参与预测基因组岛的主要任务之一是选择最好的特性从给定的数据集来实现最好的预测。本工作采用卡方检验选择基因组岛的最佳特性预测。
卡方检验的
随机森林(RF)是最好的分类算法之一,广泛应用于管理许多生物学问题。它的工作原理通过建立小组的弱分类器,最后结合起来,形成一个强分类器。这个配置学习方法可以构建模型,创建多个决策树在训练,将消除模态类的类预测的一个树。预测这是一个融合树,每棵树的价值取决于一个独立样本随机向量和相同的分布的树在森林里(
随机森林是树的集合预测
对于回归,随机森林预测集的加权平均
作为
右边的数量的预测或泛化误差是随机森林,表示
假设所有的树都是公正的,也就是说,
本工作介绍crossvalidation评估该方法和计算精度,记得,
构建预测模型,7种序列特征提取、熔融、过滤通过卡方检验,然后输入到随机决策树基因组岛的预测。准确性、F1、MCC、精密、召回和AUC基于crossvalidation 10倍计算,总结在图
比较的精度,精度,还记得,F1, AUC,和MCC PICK108, CF15, RGP104数据集。
图
我们进一步比较该方法与当前的方法。为方便比较,我们比较我们的结果与发表的结果与现有的方法。因此,不同的数据集选择不同的评价方法,总结在表
该方法的比较与其他报道结果PICK108数据集。
| 方法 | 精度 | 精度 | 回忆 |
|---|---|---|---|
| 重心 | 82.4 | 61.4 | 27.6 |
| INDeGenIUS | 82.4 | 67.9 | 19.9 |
| MTGIpick | 86.2 | 72.8 | 47.2 |
| SigHunt | 80.5 | 51.0 | 24.0 |
| Zisland探险家 | 83.8 | 75.9 | 25.5 |
| 这篇论文 | 94.6 | 95.1 | 85.7 |
该方法的比较与其他报道结果RGP104数据集。
| 方法 | 世纪挑战集团 | F1 | ACC | 精度 | 回忆 |
|---|---|---|---|---|---|
| PanRGP | 77.8 | 80.9 | 92.4 | 94.9 | 76.4 |
| IslandViewer | 76.2 | 82.0 | 91.1 | 90.8 | 78.8 |
| IslandPath | 52.3 | 57.0 | 78.1 | 89.1 | 47.7 |
| IslandCafe | 37.7 | 44.4 | 76.1 | 76.9 | 35.5 |
| SIGI-HMM | 33.8 | 45.5 | 75.6 | 65.5 | 37.6 |
| 这篇论文 | 88.8 | 94.4 | 95.6 | 94.8 | 94.0 |
该方法的比较与其他报道结果CF15数据集。
| 方法 | 回忆 | 精度 | F1 | 世纪挑战集团 |
|---|---|---|---|---|
| IslandCafe | 71.0 | 61.0 | 66.0 | 62.0 |
| IslandViewer | 72.0 | 59.0 | 65.0 | 59.0 |
| IslandPath-Dimob | 53.0 | 67.0 | 59.0 | 55.0 |
| Zisland探险家 | 45.0 | 56.0 | 50.0 | 46.0 |
| SIGI-HMM | 24.0 | 57.0 | 33.0 | 32.0 |
| 这篇论文 | 95.4 | 95.4 | 95.4 | 90.9 |
至于PICK108,该方法相对于质心(
RGP104数据集,PanRGP [
在CF15实验中,IslandCafe [
上述结果表明,该方法优于现有的基因组岛的预测方法,表明不同的组合特征,特征选择基于卡方检验,预测算法是非常有效的提高预测。这种理解可以用于开发更强大的基因组岛的预测方法。
预测基因组岛,我们使用7种蛋白质功能:反向恭维
的总体预测精度的比较7种序列的特性。
图
该方法的特点是特征选择基于卡方检验。为更好的理解特征选择,我们选择的特性集大小从5到120。所有实验执行每个选定的特性集使用10倍crossvalidation测试,和整体精度选择代表这个预测的分数。图
所有实验的整体精度的比较与选择的特性集三个数据集。
正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集大小小于30,所有数据集都达到最好的预测。作为选择特性的数量的增加,总体精度降低。卡方进一步与功能重要性(FI)、皮尔森相关(PC), ROC-AUC,互信息增益(MIG),线性判别分析(LDA),和主成分分析(PCA),很容易注意到,卡方检验达到最佳的性能在七个特征选择方法。
采用随机森林(RF)作为分类器在这工作。比较不同分类器的性能,支持向量机(SVM),
不同的预测算法的整体精度的比较与选择的特性集三个数据集。
从图
基因组岛与原核生物的快速适应,具有重要的医学、经济、和环境意义。一些方法通常评估所有功能,专注于某一地区的地方特色是否明显不同的主机。虽然这些方法取得了较好的实验结果,提出了各种特征提取方法,但他们很少用来预测基因的岛屿。考虑到这些问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种广泛使用的序列特征,并选择与卡方检验的重要特征。最后,所有选中的功能是输入到随机森林预测基因组岛。三个实验结果表明,该方法具有更好的性能比先前的方法。
第一个贡献可以从不同的特性的影响,我们发现PSeEIIP, RCKmer,过渡委员会更密切相关的基因组岛,实现最佳的性能在所有类型的序列特征。第二个贡献的影响可以表示不同的特征选择,和卡方检验达到最佳的性能在七个特征选择方法。最后的贡献可以从不同的预测算法的影响,我们注意到随机森林(RF)实现最佳的性能在十分类器;其准确性是下一个的高出3%。这种理解可以用于开发更强大的基因组岛的预测方法。
所有数据用于支持本研究的发现是可用的
作者宣称没有利益冲突。
这项工作是由中国国家自然科学基金(61772028)和来自中国浙江省自然科学基金的研究经费(LY20F020016)。