通过卡方检验基因组岛的预测和随机森林算法

文摘

基因组岛相关微生物适应和携带不同的基因组特征从主机。因此,人们提出了很多方法来检测基因组岛与其他评估其基因组的序列组成。许多序列特性提出了,但他们中的许多人还没有应用于基因组岛的识别。在本文中,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种序列的特性和选择与卡方检验的重要特征。所有选中的功能然后输入随机森林预测基因组岛。三个实验和比较表明,该方法达到最佳性能。这种理解可以是有用的设计更强大的基因组岛的预测方法。

1。介绍

水平基因转移(HGT)是影响细菌适应性的主要因素之一。黑客等人发现了一些病毒基因簇大肠杆菌基因组和不存在密切的物种,他们表示他们是致病性岛(PAIs) [1]。自那之后,至少十几个派斯被发现,如“分泌岛”“抗菌岛”和“代谢岛”(2]。他们是第一个表示为基因组岛(GIs)并进一步编码基于相关函数的利基市场的复杂变化3]。例如,GIs负责III型分泌系统,铁的吸收功能,毒素,和粘附分泌,提高生存能力的病原体在宿主的身体,导致疾病(4,5]。一些研究人员报道,可以由致病性选择性损失或恢复特定GIs (6,7],PAI可以自发地从染色体检测速度,导致不同的致病性表型(8,9]。因此,检测不同的GIs已成为微生物进化和功能研究的重要内容。

比较基因组学在大规模的帮助下,研究人员发现,GIs具有不同的序列组成,直接在重复侧面,移动性和tRNA基因。反过来,探索和利用这些特性会导致更好的检测GIs (3,10- - - - - -12]。GIs是分散在近亲,携带一些物种的模式不同的主机。研究人员可以识别远亲通过比较16 s rRNA或其他同源序列的差异(13]。一些alignment-based检测GIs开发方法,如基本局部比对方法(14)和全基因组排列方法(15]。这些工具依赖于观察,与守恒的地区相比,跨多个基因或基因组区域不一致只与一个基因组更可能是假想的GIs。对于一些复杂的情况下,几种方法的构造和应用多层或大规模基因组比较报告。例如,MobilomeFINDER首先发现共享tRNA基因在几个相关的基因组,然后使用淡紫色搜索GIs同源tRNA基因的上游和下游地区(16]。由于这种方法的确定GIs相关tRNA中断,GIs没有tRNA基因插入站点就会被忽略掉。为了解决这个问题,马赛克已经开发了一种方法来确定毒株特异性区域不一定插入tRNA [17]。不幸的是,反演和易位经常被误认为是毒株特异性区域。IslandPick是使用最广泛的工具之一GI检测(18]。给定一个基因组,IslandPick首先自动选择合适的比较基因组没有任何偏差,然后使用淡紫色来构造整个基因组对齐。为了避免重复,IslandPick使用爆炸作为二次过滤复核领域一致的淡紫色。IslandPick已经集成到islandviewer网站,预先计算的GIs的数据集可以下载(19- - - - - -21]。

除了比较基因组学、基于组件的GI检测方法也很敏感。考虑到GIs通常显示明显不同序列成分从主机,一个有效的检测算法能分辨出异常区域的基因组成分偏差。在实践中,基于组件的方法是可取的,因为他们可以迅速发现GIs的分析而不需要额外的基因组序列。CG内容和寡核苷酸序列长度2 - 9被广泛用于描述成分在胃肠道检测(10,22- - - - - -25]。例如,PAI-Finder计算G + C含量异常和密码子使用偏差检测GIs和进一步评估候选人PAI只有当PAI-like地区部分或完全穿过GIs (26]。PAI仪已经集成到PAI数据库,综合信息的所有注释《并预测原核基因组中PAI可以下载(27,28]。HMM模型也被引入检测异常区域包含组件的偏差(22,29日- - - - - -31日]。例如,SIGI-HMM构造一个HMM模型删除密码子使用偏置核糖体地区[29日,30.],IslandPath-DIMoB [31日)使用HMM识别迁移基因通过搜索PFAM37迁移基因地图(32)每一个预测基因(11]。Alien_Hunter引入了评分系统基于 - - - - - -即和精制的边界预测GIs使用HMM模型(22]。

尽管上述算法的性能很好,仍存在一些问题:(1)比较基因组学在很大程度上依赖于使用的基因组比较,所以它可以使用注释过程中或者当密切相关的基因组是可用的。即使更多的基因组,研究人员需要花更多的时间在选择感兴趣的物种的基因组。(2)尽管这些方法基于嗯GI检测中表现出更好的性能,它们涉及相对更多的计算参数和大量的训练;所以,需要很长时间来检测GIs。(3)近年来,提出了不同的序列特征,但这些特征很少应用于基因组岛的预测。如何融合并选择一些有效的特性也是提高基因组岛检测的效率。

考虑到上述问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们首先提取7种广泛使用的序列特性和比较他们的性能在胃肠道检测。然后使用卡方检验选择的重要特性。最后,所有选中的功能是输入到随机森林检测基因组岛。小说通过一个全面的比较和讨论,一些有价值的使用指南序列的特性,得到了特征选择和预测方法。

2。材料和方法

2.1。数据集

四个标准数据集用于这项研究。第一个数据集,PICK108, 108年由完整的微生物基因组序列和注释。积极的和消极的GIs在这个数据集的数量是3868年和679年,分别(33]。第二组数据引用CF15由15个完整的微生物基因组序列和注释。积极的和消极的GIs的数量在这个数据集是6070年和5833年,分别为(34]。第三个数据集,表示RGP104,由104年完整的细菌的基因组和它们的注释。积极的和消极的GIs的数量是1846年和3267年,分别在这个数据集35]。

2.2。序列的特性

7种广泛使用的序列特征提取的基因组岛检测。他们组成 - - - - - -间隔的核酸双(CKSNAP),二核苷酸组成(DNC)、核酸成分(NAC) pseudodinucleotide成分(PseDNC) electron-ion-interaction伪势的三核苷酸(PSEIIP),反向恭维 - - - - - -mer (RCKmer)和三核苷酸成分(TNC)。iLearn获得的上述特性,是一个全面的面向工具包,集实体提取、计算、实体分析,预测变量(建设36]。

2.2.1。反向恭维 - - - - - -Mer (RCKmer)

反向恭维 - - - - - -mer的变种 - - - - - -mer,忽略相邻核苷酸序列的互补序列。例如,有16个类型的展览:“AA”,“CC”,“GG,”“TT,”“交流”,“CA”,“遗传算法”,“助教”,“AG)”“重心”,“GC,”“GT,”“,”“CT,”“TC,”和“TG。”。因为“TT”是相反的完成 - - - - - -mer的“AA”,它可以被排除在外。因此,在此方法中,只有10种全身:“AA”,“CC”,“交流”,“,”“,”“AG)”“重心”,“,”和“GC,助教。“每一个的频率 - - - - - -mer依次计算(37]。

2.2.2。组成 - - - - - -间隔的核酸双(CKSNAP)

CKSNAP特性代表核苷酸的组成对所分离的k(k= 0、1、2、5)核苷酸,它反映了短程相互作用中的核酸序列(38]。使用作为一个例子,16 0-spaced核苷酸对(即。,“AA,” “AC,” “AG,” “AT,” “CA,” “CC,” “CT,” “CG,” “GA,” “GC,” “GG,” “GT,” “TA,” “TC,” “TG,” and “TT”) are generated. Then, a feature vector is defined as

在这项研究中,所有核苷酸配对(0,1,…,5)被认为是,和他们96 -维数字进行编码向量如下:

2.2.3。二核苷酸组成(DNC)

DNC表示连续的复合双核苷酸(36,39]。民主党全国委员会的编码特点使用16描述符定义如下: 在哪里捐赠的数量二核苷酸由核苷酸类型和。

2.2.4。三核苷酸组成(TNC)

过渡委员会是指连续三核苷酸在生物序列的构成(40]。过渡委员会64年的编码描述符描述如下:(“AAA”,“AAC,”“亚美大陆煤层气有限公司”,“AAT,”…,“双塔”),它可以被定义为在哪里捐赠的数量三核苷酸对由核苷酸类型 , ,和。

2.2.5。Pseudodinucleotide成分(PseDNC)

PseDNC将本地序列安排和全局序列信息转换成特征向量(39]。PseDNC表示如下: 在哪里反映了规范化的二核苷酸的出现频率,λ代表了最高等级的计算沿着生物序列相关性,(0,1)加权因子,和是 - - - - - -被定义为层相关因子相关函数被定义为在哪里在哪里μ表示数量的理化指标,的数值是^th二核苷酸的理化指标 ,和表示二核苷酸的对应值在位置。

2.2.6款。核酸成分(NAC)

南京汽车评估每个的核酸序列的频率。所有的频率自然核酸(即4。“ACGT”)可以计算: 在哪里代表核酸类型的数量 ,而一个核苷酸序列的长度是36]。

2.2.7。Electron-Ion-Interaction伪势的三核苷酸(PSeEIIP)

EIIPA、EIIPT EIIPG, EIIPC代表核苷酸的EIIP测量 , , ,和 ,分别。在每个样本的平均EIIP三核苷酸是建筑的特征向量,利用描述如下: 在哪里代表的归一化频率^th三核苷酸, 代表了EIIP三核苷酸和价值 (36]。

2.3。卡方检验

各种序列特性将会融合在一起,以提高预测效率,但不同的冗余特征不容忽视。因此,参与预测基因组岛的主要任务之一是选择最好的特性从给定的数据集来实现最好的预测。本工作采用卡方检验选择基因组岛的最佳特性预测。

卡方检验的测试测量偏离预期的分布(40,41]。据统计,测试两个变量的独立性,两个变量和被定义为独立的如果或 ( )。在特征选择,这两个变量是这个词发生和出现的类。条款与数量分类如下: 在哪里观察到的频率在吗和。和被定义为在哪里U是一个随机变量取值的吗 (功能的存在 )和 (没有的特性 ),和是一个随机变量取值的吗在课堂上(的存在特性 )和 (在课堂上没有这个功能 )。我们写和如果还不清楚从上下文特征和类我们是指,得到以下方程: 在哪里是项特性的值吗和所表示的两个下标。例如,功能包含的数量吗( )和不。功能包含的数量吗( ),和我们计数功能独立的类成员。是文档的总数42]。

是一个衡量预期数量多少和观察到的数量相互偏离。高价值的表明,独立的假设,这意味着预期和观察到的数量是相似的,是不正确的。一个算术上简单的计算方式如下:

2.4。预测算法

随机森林(RF)是最好的分类算法之一,广泛应用于管理许多生物学问题。它的工作原理通过建立小组的弱分类器,最后结合起来,形成一个强分类器。这个配置学习方法可以构建模型,创建多个决策树在训练,将消除模态类的类预测的一个树。预测这是一个融合树,每棵树的价值取决于一个独立样本随机向量和相同的分布的树在森林里(43]。

随机森林是树的集合预测 ,在哪里代表观察到的输入(协变量)向量的长度与相关的随机向量和。他们是独立且同分布随机向量。如前所述,我们关注的回归设置有一个数值结果 ,但是我们做一些接触点的分类(分类结果)问题[44]。观察到的(培训)数据被认为是独立的联合分布 ,由 - - - - - -元组。

对于回归,随机森林预测集的加权平均

作为 ,大数定律确保

右边的数量的预测或泛化误差是随机森林,表示。收敛性意味着随机森林不overfit。现在,定义一个单独的树的平均预测误差

假设所有的树都是公正的,也就是说, 。然后, 在哪里加权残差之间的相关性和独立。上面的不平等却需要准确的随机森林回归:低相关性不同树的残差的成员个人树木的森林和较低的预测误差(44]。此外,随机森林将减少个人树错误( ),的因素。

2.5。绩效评估

本工作介绍crossvalidation评估该方法和计算精度,记得, - - - - - -测量、精密特异性、灵敏度和精度标准的性能指标。他们定义如下: 在哪里是真阳性的数量,是假阳性的数量,的数量是正确的底片,是假阴性的数量。

3所示。结果与讨论

3.1。提出了预测方法的性能

构建预测模型,7种序列特征提取、熔融、过滤通过卡方检验,然后输入到随机决策树基因组岛的预测。准确性、F1、MCC、精密、召回和AUC基于crossvalidation 10倍计算,总结在图1。

图1表明,该方法能达到良好的性能在四个数据集。至于PICK108,其准确性、精密,记得,F1, AUC,和MCC是94.6%,95.1%,85.7%,89.5%,96.8%,和80.3%,分别。对于数据集CF15,总体精度为94.9%,和精度,还记得,F1, AUC,和MCC是94.8%,94.0%,94.4%,95.6%,和88.8%,分别。至于RGP104,其准确性、精密,记得,F1, AUC,和MCC是95.4%,94.4%,95.2%,95.4%,94.5%,和90.9%,分别。

我们进一步比较该方法与当前的方法。为方便比较,我们比较我们的结果与发表的结果与现有的方法。因此,不同的数据集选择不同的评价方法,总结在表1- - - - - -3。


方法	精度	精度	回忆

重心	82.4	61.4	27.6
INDeGenIUS	82.4	67.9	19.9
MTGIpick	86.2	72.8	47.2
SigHunt	80.5	51.0	24.0
Zisland探险家	83.8	75.9	25.5
这篇论文	94.6	95.1	85.7


方法	世纪挑战集团	F1	ACC	精度	回忆

PanRGP	77.8	80.9	92.4	94.9	76.4
IslandViewer	76.2	82.0	91.1	90.8	78.8
IslandPath	52.3	57.0	78.1	89.1	47.7
IslandCafe	37.7	44.4	76.1	76.9	35.5
SIGI-HMM	33.8	45.5	75.6	65.5	37.6
这篇论文	88.8	94.4	95.6	94.8	94.0


方法	回忆	精度	F1	世纪挑战集团

IslandCafe	71.0	61.0	66.0	62.0
IslandViewer	72.0	59.0	65.0	59.0
IslandPath-Dimob	53.0	67.0	59.0	55.0
Zisland探险家	45.0	56.0	50.0	46.0
SIGI-HMM	24.0	57.0	33.0	32.0
这篇论文	95.4	95.4	95.4	90.9

至于PICK108,该方法相对于质心(45],INDeGenIUS [46],MTGIpick [33],SigHunt [47),和Zisland探索48]。表1表明该方法达到最高的精度,精度和召回的值为94.6%,95.1%,和85.7%,分别。与第二个最好方法相比,精度,精度,和该方法的回忆是8.4%,22.3%,和38.5%高于MTGIpick分别。

RGP104数据集,PanRGP [35],IslandViewer [19,20.],IslandPath-Dimob [31日],IslandCafe, SIGI-HMM [29日,30.相比该方法)。表2表明,该方法优于其他人的MCC, F1,精度和召回。具体来说,MCC, F1、ACC和召回该方法是11%,12.4%,3.2%,和15.2%,分别高于PanRGP模型(35),但其精度是0.1%低于PanRGP模型。

在CF15实验中,IslandCafe [34],IslandViewer [19,20.],IslandPath-Dimob [31日],Zisland Explorer [48]和SIGI-HMM [29日,30.相比该方法)。表3表明该方法达到了最高的回忆,精度,F1和MCC的值95.4%,95.4%,95.4%,和90.9%,分别是23.4%,28.4%,29.4%,和28.9%高于未来竞争力的方法(34]。

上述结果表明,该方法优于现有的基因组岛的预测方法,表明不同的组合特征,特征选择基于卡方检验,预测算法是非常有效的提高预测。这种理解可以用于开发更强大的基因组岛的预测方法。

3.2。不同特性的影响

预测基因组岛,我们使用7种蛋白质功能:反向恭维 - - - - - -mer (RCKmer)组成 - - - - - -间隔的核酸双(CKSNAP),二核苷酸组成(DNC)、三核苷酸组成(TNC) pseudodinucleotide成分(PseDNC)核酸组合(NAC)和electron-ion-interaction伪势的三核苷酸(PSeEIIP)。评估的贡献序列的各种特性,我们提出的精度的比较7种序列特性图2。

图2表明,预测每个特性使得自己的积极贡献;尽管如此,对不同的数据集不同的特性有一定的偏好。总的来说,PSeEIIP RCKmer,过渡委员会实现最佳的性能在所有类型的序列特征。很容易注意PSeEIIP和RCKmer不仅反映了组件的内容而且专注本地序列安排和全球序列信息和计算离域电子的能量在核苷酸电子离子相互作用。相比之下,非洲国民大会和DNC, PSeEIIP RCKmer更密切相关的基因组岛,这就是为什么他们在基因组岛实现更好的性能预测。

3.3。选择不同特性的影响

该方法的特点是特征选择基于卡方检验。为更好的理解特征选择,我们选择的特性集大小从5到120。所有实验执行每个选定的特性集使用10倍crossvalidation测试,和整体精度选择代表这个预测的分数。图3是所有实验的总体精度与所选择的特性集三个数据集。

正如预期,整体精度先增加然后减少选择的特征尺寸继续增加。当选择的特性集大小小于30,所有数据集都达到最好的预测。作为选择特性的数量的增加,总体精度降低。卡方进一步与功能重要性(FI)、皮尔森相关(PC), ROC-AUC,互信息增益(MIG),线性判别分析(LDA),和主成分分析(PCA),很容易注意到,卡方检验达到最佳的性能在七个特征选择方法。

3.4。影响不同的预测算法

采用随机森林(RF)作为分类器在这工作。比较不同分类器的性能,支持向量机(SVM), - - - - - -最近邻(资讯),梯度增加(GB)演算法(AB),决策树(DT),装袋,额外的树(ET),随机梯度下降法(SGD)和层感知器(MLP)也采用预测蛋白质结构类。所有实验执行每个选定的特性集使用10倍crossvalidation测试,和整体精度选择代表这个预测的分数。图4总结了所有实验的总体精度不同的预测算法的三个数据集。

从图4,很容易注意到随机森林(RF)达到十分类器之间的最佳性能。具体来说,平均PICK108总体预测精度为95%,RGP104, CF15数据集相比,91%的梯度增加(GB)和92%的装袋。这些结果表明,随机森林是基因组岛的更强大的分类器的预测。

4所示。结论

基因组岛与原核生物的快速适应,具有重要的医学、经济、和环境意义。一些方法通常评估所有功能,专注于某一地区的地方特色是否明显不同的主机。虽然这些方法取得了较好的实验结果,提出了各种特征提取方法,但他们很少用来预测基因的岛屿。考虑到这些问题,我们提出一个方案来预测基因组岛使用卡方检验和随机森林算法。我们提取7种广泛使用的序列特征,并选择与卡方检验的重要特征。最后,所有选中的功能是输入到随机森林预测基因组岛。三个实验结果表明,该方法具有更好的性能比先前的方法。

第一个贡献可以从不同的特性的影响,我们发现PSeEIIP, RCKmer,过渡委员会更密切相关的基因组岛,实现最佳的性能在所有类型的序列特征。第二个贡献的影响可以表示不同的特征选择,和卡方检验达到最佳的性能在七个特征选择方法。最后的贡献可以从不同的预测算法的影响,我们注意到随机森林(RF)实现最佳的性能在十分类器;其准确性是下一个的高出3%。这种理解可以用于开发更强大的基因组岛的预测方法。

数据可用性

所有数据用于支持本研究的发现是可用的https://github.com/Onesime243/Chi_square_Genomic_Islands_predicton_data-and-result.git。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(61772028)和来自中国浙江省自然科学基金的研究经费(LY20F020016)。

引用

j .黑客,l·本德m .奥特et al .,“删除菌毛的染色体区域编码和溶血素发生在体外和体内各种额外的肠道大肠杆菌分离株,”微生物发病机理,8卷,不。3、213 - 225年,1990页。视图:出版商的网站|谷歌学术搜索
j .黑客和j·b·燕麦饼干,“致病性岛屿和微生物的进化,”年度审核在微生物学,54卷,不。1,第679 - 641页,2000。视图:出版商的网站|谷歌学术搜索
y中村,伊藤t、h .松田和t . Gojobori”偏见的水平转移基因在原核生物功能基因组,”自然遗传学,36卷,不。7,760 - 766年,2004页。视图:出版商的网站|谷歌学术搜索
o . Gal-Mor比比芬利,“致病性岛:细菌毒性的分子工具箱,”细胞微生物学,8卷,不。11日,第1719 - 1707页,2006年。视图:出版商的网站|谷歌学术搜索
美国Dobrindt, b . Hochhut Hentschel, j .黑客“病原和环境微生物基因组岛”,自然评论微生物学,卷2,不。5,414 - 424年,2004页。视图:出版商的网站|谷歌学术搜索
j·g·劳伦斯,病原体的基因组中常见的主题策略”,当前在遗传学和发展意见,15卷,不。6,584 - 588年,2005页。视图:出版商的网站|谷歌学术搜索
j·m·曼森和m . s . Gilmore致病性岛整合酶相声:毒性调制一个潜在的新工具,”分子微生物学,卷61,不。3、555 - 559年,2006页。视图:出版商的网站|谷歌学术搜索
米登,b . Hochhut k . Leipold Dobrindt, g . Blum-Oehler和j .黑客,“不稳定的536年uropathogenic大肠杆菌致病性的岛屿,”细菌学期刊,卷186,不。10日,3086 - 3096年,2004页。视图:出版商的网站|谷歌学术搜索
比比芬利和美国Falkow微生物致病性重温了共同的主题”,微生物学和分子生物学的评论,卷61,不。2、136 - 169年,1997页。视图:出版商的网站|谷歌学术搜索
美国《现代“检测异常基因集群和致病性岛在不同细菌的基因组,”微生物学的趋势,9卷,不。7,335 - 343年,2001页。视图:出版商的网站|谷歌学术搜索
w·w·萧,k), d . Aeschliman j·布莱恩,比比芬利,和f·s . Brinkman,“大量的证据小说基因库与原核基因相关岛屿,”公共科学图书馆遗传学,1卷,不。5篇文章约2005。视图:出版商的网站|谷歌学术搜索
g . s . Vernikos和j . Parkhill”解决基因组岛的结构特点:机器学习的方法,”基因组研究,18卷,不。2、331 - 342年,2008页。视图:出版商的网站|谷歌学术搜索
m·a . Ragan”检测微生物基因组之间的横向基因转移”,当前在遗传学和发展意见,11卷,不。6,620 - 626年,2001页。视图:出版商的网站|谷歌学术搜索
s . f . Altschul t·l·马登a·a·谢弗et al .,“豁裂的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索项目,“核酸的研究,25卷,不。17日,第3402 - 3389页,1997年。视图:出版商的网站|谷歌学术搜索
a . c .亲爱的,b .茂f·r·布拉特纳和n . t .佩纳“淡紫色:多个对齐守恒的基因组序列的重组,”基因组研究,14卷,不。7,1394 - 1403年,2004页。视图:出版商的网站|谷歌学术搜索
H.-Y。或者,l l。j . Lonnen et al .,“一种新型战略识别基因组岛的比较分析的内容和上下文的tRNA网站密切相关的细菌,”核酸的研究,34卷,不。1,pp. e3-e3, 2006年。视图:出版商的网站|谷歌学术搜索
h . Chiapello Bourgait, f . Sourivong et al .,“系统测定细菌基因组的镶嵌结构:物种骨干和毒株特异性循环,”BMC生物信息学》第六卷,没有。1,p。171年,2005。视图:出版商的网站|谷歌学术搜索
w·w·m·g·Langille萧,f·s .边缘主义者”基因组岛的评价预测使用比较基因组学方法,”BMC生物信息学,9卷,不。1,p。329年,2008。视图:出版商的网站|谷歌学术搜索
m·g . Langille和f·s . Brinkman IslandViewer:一个集成的计算识别和可视化界面的基因组岛”生物信息学,25卷,不。5,664 - 665年,2009页。视图:出版商的网站|谷歌学术搜索
b . k . Dhillon t·a·赵m . r . Laird m·g . Langille和f·s . Brinkman,“IslandViewer更新:改善基因组岛发现和可视化,”核酸的研究第41卷。。W1, W129-W132, 2013页。视图:出版商的网站|谷歌学术搜索
阿维a·j·r·k·Azad a艾,和j·g·劳伦斯,“通过分节基因组异质性检测基因组岛”,核酸的研究,37卷,不。16,5255 - 5266年,2009页。视图:出版商的网站|谷歌学术搜索
g . s . Vernikos和j . Parkhill插值变量顺序识别水平获得的DNA图案:回顾沙门氏菌致病性的岛屿,”生物信息学,22卷,不。18日,第2203 - 2196页,2006年。视图:出版商的网站|谷歌学术搜索
卡琳,j·穆雷查克,a . m .坎贝尔,“在不同的基因密码子用法类的大肠杆菌基因组,”分子微生物学卷,29号6,1341 - 1355年,1998页。视图:出版商的网站|谷歌学术搜索
r·桑德伯格g . Winberg我。Branden, a·卡斯i Ernberg, j . Coster”捕获全基因组特征在短序列使用朴素贝叶斯分类器,”基因组研究,11卷,不。8,1404 - 1409年,2001页。视图:出版商的网站|谷歌学术搜索
A Tsirigos i Rigoutsos,“一个新的计算方法检测水平基因转移的事件,“核酸的研究,33卷,不。3、922 - 933年,2005页。视图:出版商的网站|谷歌学术搜索
s . h . Yoon C.-G。户珥,H.-Y。Kang黄懿慧金,t . k .哦,和j·f·金”的计算方法确定致病性岛在原核生物的基因组中,“BMC生物信息学》第六卷,没有。1、1 - 11,2005页。视图:谷歌学术搜索
s . h . Yoon Y.-K。公园,美国李et al .,“致病性岛向pathogenomics:一个基于网络的资源,”核酸的研究,35卷,suppl_1,不。数据库,D395-D400, 2007页。视图:出版商的网站|谷歌学术搜索
s . h . Yoon Y.-K。公园,PAIDB v2和j·f·金。”0:勘探和分析致病性和耐药性的岛屿”,核酸的研究,43卷,不。D1, D624-D630, 2015页。视图:出版商的网站|谷歌学术搜索
r . Merkl“喜姬:参考基因组岛的识别”BMC生物信息学,5卷,不。1、1 - 14,2004页。视图:谷歌学术搜索
s . Waack o·凯勒,r·阿斯皮尔et al .,“参考预测原核基因组的基因岛使用隐马尔科夫模型,”BMC生物信息学,7卷,不。1、1 - 12,2006页。视图:谷歌学术搜索
w·萧Wan, s·j·琼斯,和f·s . Brinkman,“IslandPath:协助检测原核生物的基因组岛”生物信息学,19卷,不。3、418 - 420年,2003页。视图:出版商的网站|谷歌学术搜索
r·d·芬恩·j·泰特,j . Mistry et al .,“蛋白质家庭包含了数据库,”核酸的研究36卷,suppl_1 D281-D288, 2007页。视图:谷歌学术搜索
问:戴,c·鲍y海et al .,“MTGIpick允许可靠的识别基因组岛从单个基因,”简报的生物信息学,19卷,不。3,pp. bbw118-bbw373, 2016年。视图:出版商的网站|谷歌学术搜索
m·贾尼和r·k·Azad IslandCafe:成分异常和浓缩特性评估基因组岛的描述,“G3基因组遗传基因,9卷,不。10日,3273 - 3285年,2019页。视图:出版商的网站|谷歌学术搜索
a . Bazin g .琳c . Medigue d . Vallenet和a . Calteau”panRGP: pangenome-based方法预测基因组岛和探索他们的多样性,”生物信息学36卷,Supplement_2 pp. i651-i658, 2020。视图:出版商的网站|谷歌学术搜索
z . Chen p .赵f·李et al .,“iLearn:一个集成的平台和meta-learner特性工程、机器学习分析和建模的DNA, RNA和蛋白质序列数据,”简报的生物信息学,21卷,不。3、1047 - 1057年,2020页。视图:出版商的网站|谷歌学术搜索
问:李、徐l .问:李,l .张“识别和分类剂使用降维技术和递归神经网络,”计算和数学方法在医学卷。2020年,9页,2020。视图:出版商的网站|谷歌学术搜索
y周,曾庆红p,中州。李、z张,崔问:“SRAMP:哺乳动物预测N6-methyladenosine (m6A)网站基于sequence-derived特性,”核酸的研究,44卷,不。10、pp. e91-e91, 2016年。视图:出版商的网站|谷歌学术搜索
d·格瓦拉t·沙佛,p .田,“濒危语言使用基于决策树的分类算法,”2017年第13次国际会议上自然计算,模糊系统和知识发现(ICNC-FSKD)桂林,页1814 - 1821年,中国,2017。视图:谷歌学术搜索
郑z、x吴和r·斯里赫里”的文本分类特征选择不平衡数据,”ACM Sigkdd探索通讯》第六卷,没有。1,第89 - 80页,2004。视图:出版商的网站|谷歌学术搜索
f·塞巴斯蒂亚尼”,在自动文本分类、机器学习”ACM计算调查,34卷,不。1,1-47,2002页。视图:出版商的网站|谷歌学术搜索
p . p . Shinde和美国沙”,对机器学习和深度学习应用,”2018年第四计算通信控制和自动化国际会议上(ICCUBEA)印度浦那,页1 - 6,2018。视图:谷歌学术搜索
m·r·西格尔,“机器学习基准和随机森林回归,”加州大学旧金山分校:生物信息学和分子生物统计学中心,2004年。视图:谷歌学术搜索
X.-B。王,L.-Y。吴,研究。王,他。邓,“预测棕榈酰化网站使用k-spaced氨基酸的组成对,”蛋白质工程、设计与选择,22卷,不。11日,第712 - 707页,2009年。视图:出版商的网站|谷歌学术搜索
i . Rajan、美国Aravamuthan和s . s .曼丁哥语”的识别基因组组分不同的地区使用重心法,“生物信息学,23卷,不。20日,第2677 - 2672页,2007年。视图:出版商的网站|谷歌学术搜索
美国Shrivastava c . v .湿婆Kumar Reddy, s . s .曼丁哥语“INDeGenIUS,一种新的高通量方法识别专业功能岛屿完全测序的生物,”生物科学杂志》,35卷,不。3、351 - 364年,2010页。视图:出版商的网站|谷歌学术搜索
k . s .杰伦,j . c . Moravec和n . Martinkova”SigHunt:横向基因转移仪优化真核基因组,”生物信息学,30卷,不。8,1081 - 1086年,2014页。视图:出版商的网站|谷歌学术搜索
w·魏f·高,安茂忠编。杜,H.-L。华,j . Wang和F.-B。郭,“Zisland Explorer:检测基因组岛通过结合同质性和异质性属性,“简报的生物信息学,18卷,不。3、357 - 366年,2017页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

机器学习和网络生物学和医学的方法2021

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。序列的特性

2.2.1。反向恭维 - - - - - -Mer (RCKmer)

2.2.2。组成 - - - - - -间隔的核酸双(CKSNAP)

2.2.3。二核苷酸组成(DNC)

2.2.4。三核苷酸组成(TNC)

2.2.5。Pseudodinucleotide成分(PseDNC)

2.2.6款。核酸成分(NAC)

2.2.7。Electron-Ion-Interaction伪势的三核苷酸(PSeEIIP)

2.3。卡方检验

2.4。预测算法

2.5。绩效评估

3所示。结果与讨论

3.1。提出了预测方法的性能

3.2。不同特性的影响

3.3。选择不同特性的影响

3.4。影响不同的预测算法

4所示。结论

数据可用性

的利益冲突

确认

引用

版权

相关文章

计算和数学方法在医学

机器学习和网络生物学和医学的方法2021

通过卡方检验基因组岛的预测和随机森林算法

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。序列的特性

2.2.1。反向恭维 - - - - - -Mer (RCKmer)

2.2.2。组成 - - - - - -间隔的核酸双(CKSNAP)

2.2.3。二核苷酸组成(DNC)

2.2.4。三核苷酸组成(TNC)

2.2.5。Pseudodinucleotide成分(PseDNC)

2.2.6款。核酸成分(NAC)

2.2.7。Electron-Ion-Interaction伪势的三核苷酸(PSeEIIP)

2.3。卡方检验

2.4。预测算法

2.5。绩效评估

3所示。结果与讨论

3.1。提出了预测方法的性能

3.2。不同特性的影响

3.3。选择不同特性的影响

3.4。影响不同的预测算法

4所示。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章