raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

CMMM

计算和数学方法在医学

1748 - 6718 1748 - 670 x

Hindawi

10.1155 / 2021/9969751

9969751

研究文章

通过卡方检验基因组岛的预测和随机森林算法

Onesime

Mbulayi

杨

宇

https://orcid.org/0000 - 0003 - 2675 - 6511

戴

气

黄

道

大学生命科学和医学

浙江科技大学

杭州310018

中国

zstu.edu.cn

2021年

25 5 2021年

2021年 29日 3 2021年 14 5 2021年 25 5 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

基因组岛相关微生物适应和携带不同的基因组特征从主机。因此,人们提出了很多方法来检测基因组岛与其他评估其基因组的序列组成。许多序列特性提出了,但他们中的许多人还没有应用于基因组岛的识别。在本文中,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种序列的特性和选择与卡方检验的重要特征。所有选中的功能然后输入随机森林预测基因组岛。三个实验和比较表明,该方法达到最佳性能。这种理解可以是有用的设计更强大的基因组岛的预测方法。

浙江省自然科学基金

LY20F020016

中国国家自然科学基金

61772028

1。介绍

水平基因转移(HGT)是影响细菌适应性的主要因素之一。黑客等人发现了一些病毒基因簇大肠杆菌基因组和不存在密切的物种,他们表示他们是致病性岛(PAIs) [ 1]。自那之后,至少十几个派斯被发现,如“分泌岛”“抗菌岛”和“代谢岛”( 2]。他们是第一个表示为基因组岛(GIs)并进一步编码基于相关函数的利基市场的复杂变化 3]。例如,GIs负责III型分泌系统,铁的吸收功能,毒素,和粘附分泌,提高生存能力的病原体在宿主的身体,导致疾病( 4, 5]。一些研究人员报道,可以由致病性选择性损失或恢复特定GIs ( 6, 7],PAI可以自发地从染色体检测速度,导致不同的致病性表型( 8, 9]。因此,检测不同的GIs已成为微生物进化和功能研究的重要内容。

比较基因组学在大规模的帮助下,研究人员发现,GIs具有不同的序列组成,直接在重复侧面,移动性和tRNA基因。反过来,探索和利用这些特性会导致更好的检测GIs ( 3, 10- - - - - - 12]。GIs是分散在近亲,携带一些物种的模式不同的主机。研究人员可以识别远亲通过比较16 s rRNA或其他同源序列的差异( 13]。一些alignment-based检测GIs开发方法,如基本局部比对方法( 14)和全基因组排列方法( 15]。这些工具依赖于观察,与守恒的地区相比,跨多个基因或基因组区域不一致只与一个基因组更可能是假想的GIs。对于一些复杂的情况下,几种方法的构造和应用多层或大规模基因组比较报告。例如,MobilomeFINDER首先发现共享tRNA基因在几个相关的基因组,然后使用淡紫色搜索GIs同源tRNA基因的上游和下游地区( 16]。由于这种方法的确定GIs相关tRNA中断,GIs没有tRNA基因插入站点就会被忽略掉。为了解决这个问题,马赛克已经开发了一种方法来确定毒株特异性区域不一定插入tRNA [ 17]。不幸的是,反演和易位经常被误认为是毒株特异性区域。IslandPick是使用最广泛的工具之一GI检测( 18]。给定一个基因组,IslandPick首先自动选择合适的比较基因组没有任何偏差,然后使用淡紫色来构造整个基因组对齐。为了避免重复,IslandPick使用爆炸作为二次过滤复核领域一致的淡紫色。IslandPick已经集成到islandviewer网站,预先计算的GIs的数据集可以下载( 19- - - - - - 21]。

除了比较基因组学、基于组件的GI检测方法也很敏感。考虑到GIs通常显示明显不同序列成分从主机,一个有效的检测算法能分辨出异常区域的基因组成分偏差。在实践中,基于组件的方法是可取的,因为他们可以迅速发现GIs的分析而不需要额外的基因组序列。CG内容和寡核苷酸序列长度2 - 9被广泛用于描述成分在胃肠道检测( 10, 22- - - - - - 25]。例如,PAI-Finder计算G + C含量异常和密码子使用偏差检测GIs和进一步评估候选人PAI只有当PAI-like地区部分或完全穿过GIs ( 26]。PAI仪已经集成到PAI数据库,综合信息的所有注释《并预测原核基因组中PAI可以下载( 27, 28]。HMM模型也被引入检测异常区域包含组件的偏差( 22, 29日- - - - - - 31日]。例如,SIGI-HMM构造一个HMM模型删除密码子使用偏置核糖体地区[ 29日, 30.],IslandPath-DIMoB [ 31日)使用HMM识别迁移基因通过搜索PFAM37迁移基因地图( 32)每一个预测基因( 11]。Alien_Hunter引入了评分系统基于 k 即和精制的边界预测GIs使用HMM模型( 22]。

尽管上述算法的性能很好,仍存在一些问题:(1)比较基因组学在很大程度上依赖于使用的基因组比较,所以它可以使用注释过程中或者当密切相关的基因组是可用的。即使更多的基因组,研究人员需要花更多的时间在选择感兴趣的物种的基因组。(2)尽管这些方法基于嗯GI检测中表现出更好的性能,它们涉及相对更多的计算参数和大量的训练;所以,需要很长时间来检测GIs。(3)近年来,提出了不同的序列特征,但这些特征很少应用于基因组岛的预测。如何融合并选择一些有效的特性也是提高基因组岛检测的效率。

考虑到上述问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们首先提取7种广泛使用的序列特性和比较他们的性能在胃肠道检测。然后使用卡方检验选择的重要特性。最后,所有选中的功能是输入到随机森林检测基因组岛。小说通过一个全面的比较和讨论,一些有价值的使用指南序列的特性,得到了特征选择和预测方法。

2。材料和方法 2.1。数据集

四个标准数据集用于这项研究。第一个数据集,PICK108, 108年由完整的微生物基因组序列和注释。积极的和消极的GIs在这个数据集的数量是3868年和679年,分别( 33]。第二组数据引用CF15由15个完整的微生物基因组序列和注释。积极的和消极的GIs的数量在这个数据集是6070年和5833年,分别为( 34]。第三个数据集,表示RGP104,由104年完整的细菌的基因组和它们的注释。积极的和消极的GIs的数量是1846年和3267年,分别在这个数据集 35]。

2.2。序列的特性

7种广泛使用的序列特征提取的基因组岛检测。他们组成 k 行距的核酸双(CKSNAP),二核苷酸组成(DNC)、核酸成分(NAC) pseudodinucleotide成分(PseDNC) electron-ion-interaction伪势的三核苷酸(PSEIIP),反向恭维 k - m (RCKmer)和三核苷酸成分(TNC)。iLearn获得的上述特性,是一个全面的面向工具包,集实体提取、计算、实体分析,预测变量(建设 36]。

2.2.1。反向恭维< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M4 " > < mml: mi > k < / mml: mi > < / mml:数学> < / inline-formula > - m (RCKmer)

反向恭维 k - m的一个变体 k - m,忽略相邻核苷酸序列的互补序列。例如,有16个类型的展览:“AA”,“CC”,“GG,”“TT,”“交流”,“CA”,“遗传算法”,“助教”,“AG)”“重心”,“GC,”“GT,”“,”“CT,”“TC,”和“TG。”。因为“TT”是相反的完成 k - m的“AA”,它可以被排除在外。因此,在此方法中,只有10种全身:“AA”,“CC”,“交流”,“,”“,”“AG)”“重心”,“,”和“GC,助教。“每一个的频率 k - m依次计算( 37]。

2.2.2。组成< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M9 " > < mml: mi > k < / mml: mi > < / mml:数学> < / inline-formula >行距的核酸双(CKSNAP)

CKSNAP特性代表核苷酸的组成对所分离的 k( k= 0、1、2、5)核苷酸,它反映了短程相互作用中的核酸序列( 38]。使用 k = 0 作为一个例子,16 0-spaced核苷酸对(即。,“AA,” “AC,” “AG,” “AT,” “CA,” “CC,” “CT,” “CG,” “GA,” “GC,” “GG,” “GT,” “TA,” “TC,” “TG,” and “TT”) are generated. Then, a feature vector is defined as (1) N AA N 总 , N 交流 N 完全的 l , N AG) N 总 , N 在 N 总 , ⋯ , N TT N 总 K = 0 。

在这项研究中,所有核苷酸配对 k (0,1,…,5)被认为是,和他们96 -维数字进行编码向量如下: (2) N AA N 总 , N 交流 N 总 , N AG) N 总 , ⋯ , N TT N 总 K = 0 , ⋯ , N AA N 总 , N 交流 N 总 , N AG) N 总 ,, ⋯ , N TT N 总 K = 5 。

2.2.3。二核苷酸组成(DNC)

DNC表示连续的复合双核苷酸( 36, 39]。民主党全国委员会的编码特点使用16描述符定义如下: (3) D 我 , j = N 我 j N − 1 , 我 , j ∈ 一个 , C , G , T , 在哪里 N 我 j 捐赠的数量二核苷酸由核苷酸类型我和 j 。

2.2.4。三核苷酸组成(TNC)

过渡委员会是指连续三核苷酸在生物序列的构成( 40]。过渡委员会64年的编码描述符描述如下:(“AAA”,“AAC,”“亚美大陆煤层气有限公司”,“AAT,”…,“双塔”),它可以被定义为 (4) D 我 , j , k = N 我 j k N − 2 , 我 , j , k ∈ 一个 , C , G , T , 在哪里 N 我 j k 捐赠的数量三核苷酸对由核苷酸类型我 , j , k 。

2.2.5。Pseudodinucleotide成分(PseDNC)

PseDNC将本地序列安排和全局序列信息转换成特征向量( 39]。PseDNC表示如下: (5) P = p 1 , p 2 , ⋯ , p 16 , p 16 + 1 , ⋯ , p 16 + λ T , p k = f k ∑ 我 = 1 16 f 我 + w ∑ j = 1 λ θ j , 1 ≤ k ≤ 16 w θ k − 16 ∑ 我 = 1 16 f 我 + w ∑ j = 1 λ θ j , 17 ≤ k ≤ 16 + λ , 在哪里 f k k = 1 , 2 ⋯ 16 反映了规范化的二核苷酸的出现频率, λ代表了最高等级的计算沿着生物序列相关性, w (0,1)加权因子,和 θ j j = 1 , 2 ⋯ λ 是 j 被定义为层相关因子 (6) θ 1 = 1 l − 2 ∑ 我 = 1 l − 2 Θ R 我 R 我 + 1 , R 我 + 1 R 我 + 2 , θ λ = 1 l − 1 − λ ∑ 我 = 1 l − 1 − λ Θ R 我 R 我 + 1 , R 我 + λ R 我 + λ + 1 , 相关函数被定义为在哪里 (7) Θ R 我 R 我 + 1 , R j R j + 1 = 1 u ∑ u = 1 u C u R 我 R 我 + 1 − C u R j R j + 1 2 , 在哪里 μ表示数量的理化指标, C u R 我 R 我 + 1 的数值是 u ^th二核苷酸的理化指标 R 我 R 我 + 1 , C u R j R j + 1 表示二核苷酸的对应值 R j R j + 1 在位置 j 。

2.2.6款。核酸成分(NAC)

南京汽车评估每个的核酸序列的频率。所有的频率自然核酸(即4。“ACGT”)可以计算: (8) f t = N t N t ∈ 一个 , C , G , T , 在哪里 N t 代表核酸类型的数量 t ,而 N 一个核苷酸序列的长度是 36]。

2.2.7。Electron-Ion-Interaction伪势的三核苷酸(PSeEIIP)

EIIPA、EIIPT EIIPG, EIIPC代表核苷酸的EIIP测量一个 , T , G , C ,分别。在每个样本的平均EIIP三核苷酸是建筑的特征向量,利用描述如下: (9) 问 = EIIP AAA × f AAA , EIIP AAc格式 × f AAc格式 , EIIP 亚美大陆煤层气有限公司 × f 亚美大陆煤层气有限公司 , EIIP AAT × f AAT , 在哪里 f x y z 代表的归一化频率我 ^th三核苷酸, EIIIP x y z = EIIP x + EIIP y + EIIP z 代表了EIIP三核苷酸和价值 x , y , z ∈ 一个 , C , G , T ( 36]。

2.3。卡方检验

各种序列特性将会融合在一起,以提高预测效率,但不同的冗余特征不容忽视。因此,参与预测基因组岛的主要任务之一是选择最好的特性从给定的数据集来实现最好的预测。本工作采用卡方检验选择基因组岛的最佳特性预测。

卡方检验的 X 2 测试测量偏离预期的分布( 40, 41]。据统计, X 2 测试两个变量的独立性,两个变量一个和 B 被定义为独立的如果 P 一个 B = P 一个 P B 或 P 一个 ∣ B = P 一个 ( P B ∣ 一个 = P B )。在特征选择,这两个变量是这个词发生和出现的类。条款与数量分类如下: (10) X 2 D , 我 , j = ∑ w 我 ∈ 0 , 1 ∑ w j ∈ 0 , 1 N w 我 w j − F w 我 w j 2 F w 我 w j , 在哪里 N 观察到的频率在吗 D 和 F 。 w 我和 w j 被定义为 (11) 我 U , C = ∑ w 我 ∈ 1。0 ∑ w j ∈ 1。0 P U = w 我 , C = w j 日志 2 P U = w 我 , C = w j P U = w 我 P C = w j , 在哪里 U是一个随机变量取值的吗 w 我 = 1 (功能的存在我 ), w 我 = 0 (没有的特性我 ), C 是一个随机变量取值的吗 e j = 1 在课堂上(的存在特性 j ), e j = 0 (在课堂上没有这个功能 j )。我们写 U 我和 U j 如果还不清楚从上下文特征我和类 j 我们是指,得到以下方程: (12) 我 U , C = F 11 F 日志 2 F F 11 F 1 F 1 + F 01 F 日志 2 F F 01 F 0 F 1 + F 10 F 日志 2 F F 10 F 1 F 0 + F 00 F 日志 2 F F 00 F 0 F 0 , 在哪里 N 是项特性的值吗 w 我和 w j 所表示的两个下标。例如, F 10 功能包含的数量吗我 ( w 我 = 1 ),不在 j w j = 0 。 F 1 = F 10 + F 11 功能包含的数量吗我 ( w 我 = 1 ),我们计数功能独立的类成员 w 我 ∈ 0 , 1 。 F = F 00 + F 01 + F 10 + F 11 是文档的总数 42]。

X 2 是一个衡量预期数量多少 E 和观察到的数量 N 相互偏离。高价值的 X 2 表明,独立的假设,这意味着预期和观察到的数量是相似的,是不正确的。一个算术上简单的计算方式 X 2 如下: (13) X 2 D , 我 , j = F 11 + F 10 + F 01 + F 00 ∗ F 11 + F 00 − F 10 F 01 2 F 11 + F 01 ∗ F 11 + N 10 ∗ F 10 + F 00 ∗ F 01 + F 00 。

2.4。预测算法

随机森林(RF)是最好的分类算法之一,广泛应用于管理许多生物学问题。它的工作原理通过建立小组的弱分类器,最后结合起来,形成一个强分类器。这个配置学习方法可以构建模型,创建多个决策树在训练,将消除模态类的类预测的一个树。预测这是一个融合树,每棵树的价值取决于一个独立样本随机向量和相同的分布的树在森林里( 43]。

随机森林是树的集合预测 h X ; ω 我 , 我 = 1 , ⋯ , 我 ,在那里 X 代表观察到的输入(协变量)向量的长度 p 与相关的随机向量 X 和 ω 我。他们是独立且同分布我我 d 随机向量。如前所述,我们关注的回归设置有一个数值结果 Y 接触,但我们做一些点的分类(分类结果)问题[ 44]。观察到的(培训)数据被认为是独立的联合分布 X , Y ,由 n p + 1 元组 X x 1 , y 1 , ⋯ , x n , y n 。

对于回归,随机森林预测集的加权平均 (14) h y = 1 k ∑ 我 = 1 我 h X ; ω 我。

作为我 → ∞ 大数定律确保 (15) E X , Y Y − h ¯ X 2 → E X , Y Y − E ω h ¯ X , ω 2 。

右边的数量的预测或泛化误差是随机森林,表示 P E f ∗ 。收敛性意味着随机森林不overfit。现在,定义一个单独的树的平均预测误差 h X , ω (16) P E t ∗ = E ω E X , Y Y − h X , ω 2 。

假设所有的树都是公正的,也就是说, E Y = E X h X , ω 。然后, (17) P E f ∗ ≤ μ ¯ P E t ∗ , 在哪里 μ ¯ 加权残差之间的相关性 Y − h X , ω 和 h X ; ω 独立 ω , ω k 。上面的不平等却需要准确的随机森林回归:低相关性不同树的残差的成员个人树木的森林和较低的预测误差( 44]。此外,随机森林将减少个人树错误( P E t ∗ )的因素 μ ¯ 。

2.5。绩效评估

本工作介绍crossvalidation评估该方法和计算精度,记得, F 测量、精密特异性、灵敏度和精度标准的性能指标。他们定义如下: (18) Acc = TP + TN TP + TN + 《外交政策》 + FN × One hundred. , 回忆 = TP TP + FN × One hundred. , 前的 = TP TP + 《外交政策》 , Sn = TP TP + FN , Sp = TN TN + 《外交政策》 , F 1 = 2 TP 2 TP + 《外交政策》 + FN , 世纪挑战集团 = TP × TN − 《外交政策》 × FN TP + 《外交政策》 TP + FN TN + 《外交政策》 TN + FN , 在哪里 TP 是真阳性的数量, 《外交政策》是假阳性的数量, TN 的数量是正确的底片, FN 是假阴性的数量。

3所示。结果与讨论 3.1。提出了预测方法的性能

构建预测模型,7种序列特征提取、熔融、过滤通过卡方检验,然后输入到随机决策树基因组岛的预测。准确性、F1、MCC、精密、召回和AUC基于crossvalidation 10倍计算,总结在图 1。

图1

比较的精度,精度,还记得,F1, AUC,和MCC PICK108, CF15, RGP104数据集。

图 1表明,该方法能达到良好的性能在四个数据集。至于PICK108,其准确性、精密,记得,F1, AUC,和MCC是94.6%,95.1%,85.7%,89.5%,96.8%,和80.3%,分别。对于数据集CF15,总体精度为94.9%,和精度,还记得,F1, AUC,和MCC是94.8%,94.0%,94.4%,95.6%,和88.8%,分别。至于RGP104,其准确性、精密,记得,F1, AUC,和MCC是95.4%,94.4%,95.2%,95.4%,94.5%,和90.9%,分别。

我们进一步比较该方法与当前的方法。为方便比较,我们比较我们的结果与发表的结果与现有的方法。因此,不同的数据集选择不同的评价方法,总结在表 1- - - - - - 3。

表1

该方法的比较与其他报道结果PICK108数据集。

方法	精度	精度	回忆
重心	82.4	61.4	27.6
INDeGenIUS	82.4	67.9	19.9
MTGIpick	86.2	72.8	47.2
SigHunt	80.5	51.0	24.0
Zisland探险家	83.8	75.9	25.5
这篇论文	94.6	95.1	85.7

表2

该方法的比较与其他报道结果RGP104数据集。

方法	世纪挑战集团	F1	ACC	精度	回忆
PanRGP	77.8	80.9	92.4	94.9	76.4
IslandViewer	76.2	82.0	91.1	90.8	78.8
IslandPath	52.3	57.0	78.1	89.1	47.7
IslandCafe	37.7	44.4	76.1	76.9	35.5
SIGI-HMM	33.8	45.5	75.6	65.5	37.6
这篇论文	88.8	94.4	95.6	94.8	94.0

表3

该方法的比较与其他报道结果CF15数据集。

方法	回忆	精度	F1	世纪挑战集团
IslandCafe	71.0	61.0	66.0	62.0
IslandViewer	72.0	59.0	65.0	59.0
IslandPath-Dimob	53.0	67.0	59.0	55.0
Zisland探险家	45.0	56.0	50.0	46.0
SIGI-HMM	24.0	57.0	33.0	32.0
这篇论文	95.4	95.4	95.4	90.9

至于PICK108,该方法相对于质心( 45],INDeGenIUS [ 46],MTGIpick [ 33],SigHunt [ 47),和Zisland探索 48]。表 1表明该方法达到最高的精度,精度和召回的值为94.6%,95.1%,和85.7%,分别。与第二个最好方法相比,精度,精度,和该方法的回忆是8.4%,22.3%,和38.5%高于MTGIpick分别。

RGP104数据集,PanRGP [ 35],IslandViewer [ 19, 20.],IslandPath-Dimob [ 31日],IslandCafe, SIGI-HMM [ 29日, 30.相比该方法)。表 2表明,该方法优于其他人的MCC, F1,精度和召回。具体来说,MCC, F1、ACC和召回该方法是11%,12.4%,3.2%,和15.2%,分别高于PanRGP模型( 35),但其精度是0.1%低于PanRGP模型。

在CF15实验中,IslandCafe [ 34],IslandViewer [ 19, 20.],IslandPath-Dimob [ 31日],Zisland Explorer [ 48]和SIGI-HMM [ 29日, 30.相比该方法)。表 3表明该方法达到了最高的回忆,精度,F1和MCC的值95.4%,95.4%,95.4%,和90.9%,分别是23.4%,28.4%,29.4%,和28.9%高于未来竞争力的方法( 34]。

上述结果表明,该方法优于现有的基因组岛的预测方法,表明不同的组合特征,特征选择基于卡方检验,预测算法是非常有效的提高预测。这种理解可以用于开发更强大的基因组岛的预测方法。

3.2。不同特性的影响

预测基因组岛,我们使用7种蛋白质功能:反向恭维 k - m (RCKmer)组成 k 行距的核酸双(CKSNAP),二核苷酸组成(DNC)、三核苷酸组成(TNC) pseudodinucleotide成分(PseDNC)、核酸组合(NAC)和electron-ion-interaction伪势的三核苷酸(PSeEIIP)。评估的贡献序列的各种特性,我们提出的精度的比较7种序列特性图 2。

图2

的总体预测精度的比较7种序列的特性。

图 2表明,预测每个特性使得自己的积极贡献;尽管如此,对不同的数据集不同的特性有一定的偏好。总的来说,PSeEIIP RCKmer,过渡委员会实现最佳的性能在所有类型的序列特征。很容易注意PSeEIIP和RCKmer不仅反映了组件的内容而且专注本地序列安排和全球序列信息和计算离域电子的能量在核苷酸电子离子相互作用。相比之下,非洲国民大会和DNC, PSeEIIP RCKmer更密切相关的基因组岛,这就是为什么他们在基因组岛实现更好的性能预测。

3.3。选择不同特性的影响

该方法的特点是特征选择基于卡方检验。为更好的理解特征选择,我们选择的特性集大小从5到120。所有实验执行每个选定的特性集使用10倍crossvalidation测试,和整体精度选择代表这个预测的分数。图 3是所有实验的总体精度与所选择的特性集三个数据集。

图3

所有实验的整体精度的比较与选择的特性集三个数据集。

正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集大小小于30,所有数据集都达到最好的预测。作为选择特性的数量的增加,总体精度降低。卡方进一步与功能重要性(FI)、皮尔森相关(PC), ROC-AUC,互信息增益(MIG),线性判别分析(LDA),和主成分分析(PCA),很容易注意到,卡方检验达到最佳的性能在七个特征选择方法。

3.4。影响不同的预测算法

采用随机森林(RF)作为分类器在这工作。比较不同分类器的性能,支持向量机(SVM), k 最近的邻居(资讯),梯度增加(GB)演算法(AB),决策树(DT),装袋,额外的树(ET),随机梯度下降法(SGD)和层感知器(MLP)也采用预测蛋白质结构类。所有实验执行每个选定的特性集使用10倍crossvalidation测试,和整体精度选择代表这个预测的分数。图 4总结了所有实验的总体精度不同的预测算法的三个数据集。

图4

不同的预测算法的整体精度的比较与选择的特性集三个数据集。

从图 4,很容易注意到随机森林(RF)达到十分类器之间的最佳性能。具体来说,平均PICK108总体预测精度为95%,RGP104, CF15数据集相比,91%的梯度增加(GB)和92%的装袋。这些结果表明,随机森林是基因组岛的更强大的分类器的预测。

4所示。结论

基因组岛与原核生物的快速适应,具有重要的医学、经济、和环境意义。一些方法通常评估所有功能,专注于某一地区的地方特色是否明显不同的主机。虽然这些方法取得了较好的实验结果,提出了各种特征提取方法,但他们很少用来预测基因的岛屿。考虑到这些问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种广泛使用的序列特征,并选择与卡方检验的重要特征。最后,所有选中的功能是输入到随机森林预测基因组岛。三个实验结果表明,该方法具有更好的性能比先前的方法。

第一个贡献可以从不同的特性的影响,我们发现PSeEIIP, RCKmer,过渡委员会更密切相关的基因组岛,实现最佳的性能在所有类型的序列特征。第二个贡献的影响可以表示不同的特征选择,和卡方检验达到最佳的性能在七个特征选择方法。最后的贡献可以从不同的预测算法的影响,我们注意到随机森林(RF)实现最佳的性能在十分类器;其准确性是下一个的高出3%。这种理解可以用于开发更强大的基因组岛的预测方法。

数据可用性

所有数据用于支持本研究的发现是可用的 https://github.com/Onesime243/Chi_square_Genomic_Islands_predicton_data-and-result.git。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(61772028)和来自中国浙江省自然科学基金的研究经费(LY20F020016)。

黑客

J。

本德

奥特

M。

Wingender

J。

隆德

B。

Marre

R。

Goebel

W。

删除的染色体区域编码菌毛和溶血素发生在体外和体内各种额外的肠道大肠杆菌分离株

微生物发病机理 1990年 8 3 213年 225年

10.1016 / 0882 - 4010 (90)90048 - u

2 - s2.0 - 0025005169

1974320

黑客

J。

燕麦饼干

j·B。

致病性岛屿和微生物的进化

年度审核在微生物学 2000年 54 1 641年 679年

10.1146 / annurev.micro.54.1.641

2 - s2.0 - 0033758756

中村

Y。

伊藤

T。

松田

H。

Gojobori

T。

有偏见的水平转移基因在原核基因组的生物功能

自然遗传学 2004年 36 7 760年 766年

10.1038 / ng1381

2 - s2.0 - 3042849253

15208628

Gal-Mor

O。

芬利

B . B。

致病性岛:细菌毒性的分子工具箱

细胞微生物学 2006年 8 11 1707年 1719年

10.1111 / j.1462-5822.2006.00794.x

2 - s2.0 - 33749565756

16939533

Dobrindt

U。

Hochhut

B。

Hentschel

U。

黑客

J。

基因组岛在致病性和环境微生物

自然评论微生物学 2004年 2 5 414年 424年

10.1038 / nrmicro884

2 - s2.0 - 2442449227

15100694

劳伦斯

j·G。

常见的病原体基因组中主题策略

当前在遗传学和发展意见 2005年 15 6 584年 588年

10.1016 / j.gde.2005.09.007

2 - s2.0 - 27444441247

16188434

曼森

j . M。

吉尔摩

m . S。

致病性岛整合酶相声:一个潜在的毒性调制的新工具

分子微生物学 2006年 61年 3 555年 559年

10.1111 / j.1365-2958.2006.05262.x

2 - s2.0 - 33748309128

16879637

米登

B。

Hochhut

B。

Leipold

K。

Dobrindt

U。

Blum-Oehler

G。

黑客

J。

不稳定的536年uropathogenic大肠杆菌致病性的岛屿

细菌学期刊 2004年 186年 10 3086年 3096年

10.1128 / jb.186.10.3086 - 3096.2004

2 - s2.0 - 2342554388

15126470

芬利

B . B。

Falkow

年代。

共同的主题在微生物致病性再现

微生物学和分子生物学的评论 1997年 61年 2 136年 169年

10.1128 / .61.2.136 - 169.1997

9184008

卡琳

年代。

检测异常基因集群和致病性岛在不同细菌基因组

微生物学的趋势 2001年 9 7 335年 343年

10.1016 / s0966 - 842 x (01) 02079 - 0

2 - s2.0 - 0035399931

11435108

萧

W·W。

)

K。

Aeschliman

D。

布莱恩

J。

芬利

B . B。

边缘主义者

f·S。

证据的小说基因库与原核基因的岛屿

公共科学图书馆遗传学 2005年 1 5、文章约

10.1371 / journal.pgen.0010062

16299586

Vernikos

g S。

Parkhill

J。

解决基因组岛的结构特点:机器学习方法

基因组研究 2008年 18 2 331年 342年

10.1101 / gr.7004508

2 - s2.0 - 39049169705

18071028

Ragan

m·A。

检测微生物基因组之间的横向基因转移

当前在遗传学和发展意见 2001年 11 6 620年 626年

10.1016 / s0959 - 437 x (00) 00244 - 6

2 - s2.0 - 0035546223

11682304

Altschul

美国F。

马登

t . L。

谢弗

答:一个。

张

J。

张

Z。

米勒

W。

Lipman

d . J。

有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序

核酸的研究 1997年 25 17 3389年 3402年

10.1093 / nar / 25.17.3389

2 - s2.0 - 0030801002

9254694

亲爱的

a . C。

茂

B。

布拉特纳

f·R。

进行

n . T。

淡紫色:多个对齐守恒的基因组序列的重组

基因组研究 2004年 14 7 1394年 1403年

10.1101 / gr.2289704

2 - s2.0 - 3543051830

15231754

欧

H.-Y。

陈

l l。

Lonnen

J。

乔杜里

R R。

阿勒萨尼

答:B。

史密斯

R。

加顿

n . J。

辛顿

J。

Pallen

M。

仅有的

m·R。

Rajakumar

K。

小说战略识别基因组岛的比较分析的内容和上下文的tRNA网站细菌密切相关

核酸的研究 2006年 34 1 e3 e3

10.1093 / nar / gnj005

2 - s2.0 - 31544472392

16414954

Chiapello

H。

Bourgait

我。

Sourivong

F。

Heuclin

G。

Gendrault-Jacquemard

一个。

小

M.-A。

El Karoui

M。

系统测定细菌基因组的镶嵌结构:物种骨干和毒株特异性循环

BMC生物信息学 2005年 6 1 171年

10.1186 / 1471-2105-6-171

2 - s2.0 - 25444520987

Langille

m·G。

萧

W·W。

边缘主义者

f·S。

基因组岛的评价预测使用比较基因组学的方法

BMC生物信息学 2008年 9 1 329年

10.1186 / 1471-2105-9-329

2 - s2.0 - 50149094265

Langille

m·G。

边缘主义者

f·S。

IslandViewer:一个集成的计算识别界面和可视化的基因组岛

生物信息学 2009年 25 5 664年 665年

10.1093 /生物信息学/ btp030

2 - s2.0 - 61449201423

19151094

20.

Dhillon

b K。

赵

t。

Laird

m·R。

Langille

m·G。

边缘主义者

f·S。

IslandViewer更新:改善基因组岛发现和可视化

核酸的研究 2013年 41 W1 W129 W132

10.1093 / nar / gkt394

2 - s2.0 - 84883569668

23677610

阿维

a·J。

自由

r·K。

艾丽萨

一个。

劳伦斯

j·G。

通过分节基因组异质性检测基因组岛

核酸的研究 2009年 37 16 5255年 5266年

10.1093 / nar / gkp576

2 - s2.0 - 70449715668

19589805

Vernikos

g S。

Parkhill

J。

插值变量顺序识别水平获得的DNA图案:回顾沙门氏菌致病性岛

生物信息学 2006年 22 18 2196年 2203年

10.1093 /生物信息学/ btl369

2 - s2.0 - 33748689309

16837528

卡琳

年代。

穆雷查克

J。

坎贝尔

a . M。

密码子用法在不同基因的大肠杆菌基因组类

分子微生物学 1998年 29日 6 1341年 1355年

10.1046 / j.1365-2958.1998.01008.x

2 - s2.0 - 0031720281

9781873

桑德伯格

R。

Winberg

G。

Branden

我。

卡斯

一个。

Ernberg

我。

水果贩

J。

捕捉全基因组短序列使用朴素贝叶斯分类器的特征

基因组研究 2001年 11 8 1404年 1409年

10.1101 / gr.186401

2 - s2.0 - 0034887748

11483581

Tsirigos

一个。

Rigoutsos

我。

一个新的计算方法的检测水平基因转移的事件

核酸的研究 2005年 33 3 922年 933年

10.1093 / nar / gki187

2 - s2.0 - 13944251386

15716310

尹

s . H。

户珥

C.-G。

康

H.-Y。

金

y . H。

哦

t·K。

金

j·F。

计算方法确定致病性岛原核基因组

BMC生物信息学 2005年 6 1 1 11

尹

s . H。

公园

Y.-K。

李

年代。

崔

D。

哦

t·K。

户珥

C.-G。

金

j·F。

对pathogenomics:致病性岛的网络资源

核酸的研究 2007年 35 数据库 suppl_1 D395 D400

10.1093 / nar / gkl790

2 - s2.0 - 33846087685

17090594

尹

s . H。

公园

Y.-K。

金

j·F。

PAIDB v2。0:勘探和分析致病性和耐药性的岛屿

核酸的研究 2015年 43 D1 D624 D630

10.1093 / nar / gku985

2 - s2.0 - 84946062994

25336619

29日

Merkl

R。

喜姬:参考基因组岛的识别

BMC生物信息学 2004年 5 1 1 14

30.

Waack

年代。

凯勒

O。

阿斯皮尔

R。

Brodag

T。

达姆

C。

Fricke

w·F。

Surovcik

K。

Meinicke

P。

Merkl

R。

参考预测基因组岛的原核基因组使用隐马尔科夫模型

BMC生物信息学 2006年 7 1 1 12

31日

萧

W。

王ydF4y2Ba

我。

琼斯

美国J。

边缘主义者

f·S。

IslandPath:协助检测原核生物的基因组岛

生物信息学 2003年 19 3 418年 420年

10.1093 /生物信息学/ btg004

2 - s2.0 - 0345237922

12584130

芬恩

r D。

泰特

J。

Mistry

J。

Coggill

p C。

Sammut

美国J。

霍

h·R。

铈

G。

Forslund

K。

艾迪

s R。

Sonnhammer

e . L。

贝特曼

一个。

蛋白质家庭包含了数据库

核酸的研究 2007年 36 suppl_1 D281 D288

戴

Q。

保

C。

海

Y。

马

年代。

周

T。

王

C。

王

Y。

霍

W。

刘

X。

姚

Y。

宣

Z。

陈

M。

张

m Q。

MTGIpick允许可靠的识别基因组岛从单个基因

简报的生物信息学 2016年 19 3 bbw118 bbw373

10.1093 /龙头/ bbw118

2 - s2.0 - 85041429580

28025178

贾尼

M。

自由

r·K。

IslandCafe:成分异常和浓缩特性评估基因组岛的描述

G3基因组遗传基因 2019年 9 10 3273年 3285年

10.1534 / g3.119.400562

2 - s2.0 - 85072994298

31387857

Bazin

一个。

芙琳

G。

Medigue

C。

Vallenet

D。

Calteau

一个。

panRGP: pangenome-based方法预测基因组岛和探索他们的多样性

生物信息学 2020年 36 Supplement_2 i651 i658

10.1093 /生物信息学/ btaa792

陈

Z。

赵

P。

李

F。

Marquez-Lago

T . T。

[Leier

一个。

重新投票

J。

朱

Y。

鲍威尔

d·R。

Akutsu

T。

韦伯

g . I。

周

k . C。

史密斯

答:我。

戴利

r . J。

李

J。

首歌

J。

iLearn:一个集成的平台和meta-learner特性工程、机器学习分析和建模的DNA, RNA和蛋白质序列数据

简报的生物信息学 2020年 21 3 1047年 1057年

10.1093 /龙头/ bbz041

31067315

李

Q。

徐

李

Q。

张

识别和分类的增强剂使用降维技术和递归神经网络

计算和数学方法在医学 2020年 2020年 9

10.1155 / 2020/8852258

33133227

周

Y。

曾

P。

李

中州。

张

Z。

崔

Q。

SRAMP:哺乳动物预测N6-methyladenosine (m6A)网站基于sequence-derived特性

核酸的研究 2016年 44 10 e91 e91

10.1093 / nar / gkw104

2 - s2.0 - 84973502242

26896799

切

D。

沙佛

T。

田

P。

濒危语言使用基于决策树的分类算法

2017年第13次国际会议上自然计算,模糊系统和知识发现(ICNC-FSKD)

2017年

桂林,中国

1814年 1821年

郑

Z。

吴

X。

斯里赫里

R。

特征选择的文本对不平衡数据分类

ACM Sigkdd探索通讯 2004年 6 1 80年 89年

10.1145/1007730.1007741

塞巴斯蒂亚尼

F。

机器学习在自动文本分类

ACM计算调查 2002年 34 1 1 47

10.1145/505282.505283

2 - s2.0 - 0002442796

Shinde

P P。

沙阿

年代。

对机器学习和深度学习应用

2018年第四计算通信控制和自动化国际会议上(ICCUBEA)

2018年

印度浦那

1 6

西格尔

m·R。

机器学习的基准和随机森林回归

加州大学旧金山分校:生物信息学和分子生物统计学中心 2004年

王

X.-B。

吴

L.-Y。

王

研究。

邓

纽约。

棕榈酰化预测网站使用k-spaced氨基酸的组成对

蛋白质工程、设计与选择 2009年 22 11 707年 712年

10.1093 /蛋白质/ gzp055

2 - s2.0 - 70350441865

拉詹

我。

Aravamuthan

年代。

曼丁哥人

美国年代。

识别基因组组分不同的地区使用重心法

生物信息学 2007年 23 20. 2672年 2677年

10.1093 /生物信息学/ btm405

2 - s2.0 - 35748931450

17724060

Shrivastava

年代。

湿婆Kumar Reddy

c V。

曼丁哥人

美国年代。

INDeGenIUS,一个新的方法,高通量鉴定专业功能岛屿完全测序的生物

生物科学杂志》 2010年 35 3 351年 364年

10.1007 / s12038 - 010 - 0040 - 4

2 - s2.0 - 78651278876

20826944

杰伦

k . S。

这次

j . C。

Martinkova

N。

SigHunt:横向基因转移仪针对真核基因组进行了优化

生物信息学 2014年 30. 8 1081年 1086年

10.1093 /生物信息学/ btt727

2 - s2.0 - 84898910228

24371153

魏

W。

高

F。

杜

安茂忠编。

华

H.-L。

王

J。

郭

F.-B。

Zisland Explorer:检测基因组岛通过同质性和异质性的属性

简报的生物信息学 2017年 18 3 357年 366年

10.1093 /龙头/ bbw019

2 - s2.0 - 85020186967

26992782