文摘
短k-mer从DNA序列都是守恒的,分化在物种形成物种由于其功能意义,使其使用在许多物种分类算法。在目前的研究中,我们开发了一种方法来分析整个基因组的DNA k-mers, 5′UTR,基因内区和3′UTR区域从属于三属58种昆虫双翅目,包括按蚊,果蝇,舌蝇。我们开发了一种改进的算法来预测和分数k-mers基于方案规范化k-mer分数在不同的基因亚区。该算法利用了整个基因组的信息内容相对于其他算法或研究分析只有一小部分基因。算法使用k-mers长度7 - 9日英国石油公司对整个基因组5′和3′UTR区域以及intronic区域。分类关系基于全基因组k-mer签名显示三个属物种聚集在一起很明显。我们也改善了得分和过滤这些k-mers准确的物种鉴定。全基因组k-mer内容相关性算法表明,物种在一个属相互关联紧密相比其他属。两个的基因组伊蚊和一个库蚊物种也分析演示新测序物种可以使用的分类算法。此外,与几十个物种使我们分配一个全基因组k-mer签名每个58的双翅类昆虫物种通过所有成对的比较k-mer内容。这些签名是用来比较和物种之间的相似性来确定集群的物种显示类似的签名。
1。介绍
基因组DNA k-mers短重复元素的所有生物物种。这些元素都是守恒的,分化跨物种由于其功能意义,使这些k-mer签名适合物种鉴定。最近的一些研究描述了分布的显著k-mers基因组和几个监管条件(核心,近端、远端启动子和3′,5′utr)在少数植物物种以及现代和古老的人类1- - - - - -3]。k-mer是一种短长度的寡核苷酸k。K-mers可以属于转录因子结合位点或监管的核心部分元素,参与蛋白质绑定和基因组的基因调控在不同亚区。
当前版本的算法是一个alignment-free k-mer序列比较法。这些方法包括统计分析和比较两个物种的基因组之间的k-mers。统计措施应用这些方法各不相同,如词频的比较,合并的信息理论,通用序列地图,和测量的复杂性4]。的优势k-mer-based alignment-free方法在alignment-based演化算法,他们可以更快地处理数据和消除偏见引起的,可以使用先天的定义指南树当执行对齐,对齐评分参数和主观的选择,如缺口打开和扩展(5,6]。
相关的方法包括识别细菌宏基因组算法能够根据宏基因组序列数据分类群。这种方法关注分类单元识别而不是分类比较。PhyloPythia这样一个算法,它适用于多类支持向量机(SVM)使用相对短的寡核苷酸的频率配置文件分类基因组片段短1 Kbp之间分类排名属和特异性高的门7]。TACOA,另一种方法使用大量资料代表全基因组序列,并使用k-nearest-neighbor-classification-based方法(8]。正确分类碎片大于800 bp在39%和76%之间在属或超界级别,分别为(8]。这些方法在寡核苷酸长度执行很好低至4 bp。RAIphy另一个算法,计算了对数比值比预期与实际观测值之间发生的每个k-mer k-mer基于马尔可夫假设的概率(9]。该算法定义了基于比较基因组片段到一个特定的分类单元之间的两个(9]。这些宏基因组方法的缺点是他们可能只使用很短的片段比整个基因组,从而很可能扭曲他们的寡核苷酸频率配置文件。然而,整个基因组的分析提供一个特定的和完整的配置文件。
相比我们的以前的工作在这个领域1- - - - - -3),目前的改进算法的分数k-mer意义基于归一化的规模−1 + 1,这是用来计算k-mer签名不仅预测显著,生物相关k-mers,也让两个给定的物种的基因组比较基于k-mer签名。因此,本研究的目的是进一步发展k-mer预测方法,可以用来预测生物显著k-mers然后使用这些k-mers物种比较和聚类。
目前的方法是小说,它的措施的皮尔森相关系数值归一化k-mer相关性得分(而不只是k-mer的频率)之间的整个基因组的物种数量和分配他们的集群。虽然底层算法相似,某些变化进行区分统计上显著的——和弱势k-mers(见材料与方法)。此外,k-mer现在预测算法应用到更广泛的动物比植物物种的先前的研究。这是因为不同属的物种为cross-comparison提供足够的多样性,和这些物种的全基因组序列也可用。
在这项研究中,22岁的全基因组序列按蚊物种,30果蝇物种,和六个舌蝇物种从NCBI数据库下载(共58),进行了分析,并与对方。我们还包括全基因组序列的蜜蜂和秀丽隠briggsae作为离群值。除了前面提到的58种,整个基因组的两个伊蚊和一个库蚊物种也下载并与三个双翅类昆虫属。这些物种作为局外人物种为了衡量这种物种的基因组措施的物种在三个属的研究。与更多的物种,更一般的推论可以k-mer内容,以及推断两个属的系统发育方面的相互关系。这些分析成为可能,因为110年飞物种全基因组序列的可用,从而促进比较研究对于基因内容,遗传机制和基因组结构(10]。
按蚊是一个属的蚊子,属于家庭蚊科和亚目长角亚目。按蚊有485种,其中100可以传播疟疾通过属疟原虫,41 100种导致人类疟疾。14的22个按蚊在这项研究中是这些物种之一,导致疟疾(11]。他们在全球分布,主要是因为他们的流行病学研究的重要性,在2013年造成2亿多人死亡12]。亚科的分类Anophelinae是不稳定的。例如,一个所谓的妹妹属,Bironella,被不同的组内或外按蚊。形态特征和DNA序列数据解决之间的关系进行了研究按蚊,Bironella,Chagasia,但不能产生稳定的结果(13]。因此,基因组k-mer分析按蚊物种是一个及时的任务。
属果蝇(果渣、醋或酒苍蝇)14)包括各种多个亚类和演化支,广泛分布在北半球。根据思罗克莫顿(15),的动物区系的脱节果蝇物种之间的新旧世界发生在五个血统(Sophophoran, Scaptodrosophilan virilis-repleta, immigrans-tripunctata, Hirtodrosophilan) (16]。果蝇物种黑腹果蝇可能是世界上最知名和广泛研究昆虫,因为它容易培养,高繁殖率和生成时间,小体型。
在基因组水平上,按蚊和果蝇有几个显著的基因差异。一般来说,按蚊drosophilids相比有更大的基因内区损失。他们也有更多的基因,基因裂变和聚变事件的结果,影响平均10.1%的基因组中所有基因的10种最相邻基因组装配。此外,密码子使用比在drosophilids统一按基因组17]。
属的物种舌蝇(家庭舌蝇科亚目Brachycera)或采采蝇的特点是培养困难,长时间的一代,繁殖率低。这些飞行物种研究由于其寄生的医疗和经济重要性及其作为向量的锥虫(18]。属包括三个亚类,Austenina,Nemorhina,舌蝇,代表的物种,g . fusca,g . palpalis,g . morsitans。以前他们的22个物种分类在五种复合物(19]。采采蝇程度分布在撒哈拉以南的非洲地区以及沙特阿拉伯半岛(20.]。
手里拿着一个新颖的方法,本研究的目的是预测的重要生物k-mers长度7 - bp在物种鉴定统计检查所有可能按k-mers 58按蚊,果蝇,舌蝇物种。K-mers,长8 bp,对应的典型长度的DNA被转录因子。因此,这些k-mers是典型的核转录因子结合位点的长度(21,22]。我们还允许±1 bp摆动;这就是为什么我们选择7 - 9日英国石油公司。我们实现这个得分的k-mers 58物种motifome(定义为所有可能按k-mers给定长度的基因组)基于全基因组序列。此外,这样一个全基因组k-mer签名(WGKS)用于每个物种(即可用分数的k-mers给定物种的基因组),可以做一个all-versus-all比较研究物种。这种方式,我们可以指定物种到不同物种集群基于高相关性的WGKS在同一集群的成员。
2。材料和方法
2.1。序列数据
从NCBI上下载的全基因组序列的基因组数据库(https://www.ncbi.nlm.nih.gov/genome/)22按蚊物种,30果蝇物种,和六个舌蝇物种。这些物种的基因组总结包括全基因组序列的名称、染色体的数量/叠连群/支架存在于个人的基因组,其基因组的大小,以及A / C / G / T %的基因组是补充文件1。两个按蚊物种,答:farauti和冈比亚按蚊数据库中,有两个独立的基因组。的基因组被分解成大量的短片段。因此,基因组与较少重叠群被选中。基因组大小和ACGT %已经绘制的58种补充数据1和2,分别。
5′和3′UTR序列为7果蝇物种和12的内含子序列果蝇物种从果蝇库下载数据库(ftp://ftp.flybase.net/genomes/)。5′和3′UTR序列集冈比亚疟蚊也从UTR下载数据库(http://utrdb.ba.itb.cnr.it/home/download)[23作为对比的果蝇物种。摘要统计信息对这些物种5′和3′UTR区域以及内含子也可以看到在补充文件1。
28岁的线粒体基因组从NCBI数据库下载:https://www.ncbi.nlm.nih.gov/genome/browse # ! /细胞器。基因组是符合CLUSTALW2软件和修剪,使对齐不变量的目的。
2.2。K-mer评分算法
原k-mer评分算法中描述的研究·利希滕贝格et al。21)和Cserhati et al。1]。下面描述的算法简单;然而,更多细节得分的数学背景的重要性给定k-mer可以找到原始出版物。流程图显示算法的各个步骤输入和输出如图1。
适应算法分析中使用枚举算法,计算总出现的所有可能的k-mers给定的长度k英国石油公司。k-mer认为,例如,作为转录因子结合位点的核心部分(TFBS)绑定到不同的监管因素,但它也可能是一个k-mer与任何其他类型的功能相关性。k-mer序列对应于一个DNA表面能专门监管蛋白质凝固。K-mers长度7 - 9日英国石油公司进行分析的研究(七聚物、八和九聚物)。对于任何长度k,有4k是可能的k-mers,编造所谓motifome,在介绍中提到的。k-mer的时间越长,越具体序列和更明确的表面会有约束力。的观察到发生O k-mer计算为每个可能的k-mer。
对于每个基因组,背景碱基对分布也计算百分比(A / C / G / T %)。根据这些信息,任何给定的概率k-mer可以计算基于马尔可夫假设: 在哪里p我基地位置的比例发生吗我k-mer。这些概率相乘得到的预期概率k-mer。预期的发生E给定的k-mer等于基因组的长度乘以k-mer的概率:
在前面的工作中,评分算法被用来测量多少的实际发生O E k-mer偏离预期的发生: 在哪里年代k-mer计算分数和吗O和E是给定的观察和预期出现k-mer,分别。这个分数的目的是过滤无意义的k-mers可能只是偶然发生的。如果预期的和观察到的次数应该差不多,分数应该接近于0。然而,如果观察到发生k-mer远远大于预期的发生,然后比分接近1。如果预期的发生E远远大于O,那么分数趋于无穷。
在当前的研究中,方程(3)是区分过多和弱势k-mers修改。新的评分方程如下:
这个设置中,有三种可能的情况:
这种方式,所有可能k-mers 7 - 9日英国石油公司长期被打进22按蚊,所有30果蝇,所有六个舌蝇物种,以及两种异常值,蜜蜂和c . briggsae。
算法的输入在第一阶段是所有物种的全基因组序列的研究。全基因组序列被用来计算的预期,观察出现4kk-mers。输出是所有物种的WGKS,一个两列列表包括k-mers和他们的分数。
k-mers及其发生和评分值的列表中所有可用的在线补充材料。python脚本,执行分析是公开在github上https://github.com/csmatyi/motif_analysis感兴趣的用户。
2.3。基于K-mer计算任意两个物种之间的相关性分数和热图
这个阶段的算法的输入是WGKSs所有物种的研究从上一步。皮尔森相关系数的输出是一个对称矩阵(CC)对所有物种在展示他们如何WGKSs彼此关联。
任何两个物种之间的皮尔逊相关系数计算基于k-mer分数对于任何给定k-mer长度(这里是7 - bp)。对于任何两个物种正在考虑,所有可能的k-mers长度k被按字母排序一个k来Tk(k= 7 - 9)。如果缺少任何k-mer物种,省略了。基于分数的相关系数计算为每个k-mer出现在两个物种。这些相关系数值中描述的热图,每个k-mer长度从7日至9日英国石油公司。
我们有三个属(果蝇,按蚊,舌蝇在这项研究中。该组织被定义为所有物种在一个特定的属和nongroup被定义为所有剩余的物种。比较的统计学意义CC值之间的任何两个物种在一组与所有CC值之间的相关性中任何一个物种nongroup集团和任何一个物种,我们韦尔奇的执行t以及为每个比较(不平等的方差)。
2.4。创造的情节
在算法的最后一步,对称的CC矩阵转化为一个热图描述研究中所有物种之间的关系。Barplots、箱线图和热图生成使用barplot,箱线图,在R和热图功能,版本3.4.3。三个虫属的系统发育树中创建使用图书馆phangorn R, upgma使用命令。八聚物的CC值减去从1到得到距离值,然后用upgma命令。维恩图是用在线软件创建的http://bioinformatics.psb.ugent.be/webtools/Venn/。
2.5。系统发育树
昆虫系统发育树创建三个属使用phangorn库在r的距离度量是所有物种对1−CC。树创建利用UPGMA WPGMA, NJ方法,用UPGMA WPGMA,新泽西的命令。
2.6。分类比较
的分类果蝇物种是匹配数据(属或亚属/组/复杂)在TaxoDros数据库http://www.taxodros.uzh.ch。
2.7。收购串联重复序列
串联重复序列串联重复序列数据库的检索https://tandem.bu.edu/cgi-bin/trdb/trdb.exe(24]。重复的长度8 0不匹配选择d . mojavensis。
2.8。匹配相关生物基因组K-mers JASPAR数据库中的位置权重矩阵
位置权重矩阵(PWM) 140年的转录因子结合位点(TFBS)d .腹从JASPAR网站下载(25)http://jaspar.genereg.net。所有30果蝇物种,所有生物相关候选人八聚物k-mers匹配所有140的pwm "上面滑动的方式(因为不是所有八聚物只要这些pwm)。截止80%的序列相似性被用来调用匹配一个给定k-mer和JASPAR k-mer JASPAR(这是默认使用的数据库)。列出每个JASPAR数据库达到每个k-mer在旁边补充文件3。
公认的生物相关基因组k-mers测定对于一个给定的物种通过计算每个物种的平均评分和标准偏差和使用均值±2 sd值作为一个截止。所有k-mers得分值超过这个限制被预测为生物有关。这是因为在正态分布,5%的所有值高于1.96z分数的限制。这个截止还用于k-mer预测研究的现代和古老的人类3]。
3所示。结果与讨论
3.1。全基因组序列分析
每一个物种的全基因组motifome列举并得分k-mers长度7 - 9日英国石油公司。然后,全基因组k-mer内容相比在all-versus-all成对的方式,确定相关系数1953比较(包括同一物种之间的比较)。这些值可以在补充文件2k-mers长度7 - 9日英国石油公司。
CC值表示两个物种之间WGKSs是多么相似。相似的两个物种WGKSs反过来反映了类似的这两个物种之间的基因组。显然,一双更相似的物种将含有更多的类似k-mers分布在整个基因组,从而有更高的CC值。这是因为在宏观层面上,类似的物种的基因组还没有足够的时间来发散和积累太多的突变差异。相反,k-mers在不同物种的基因组的分布是不同的,因此,他们的WGKSs也不同。因此,它们也含有k-mers(例如,转录因子结合位点)与不同的功能。例如,在一项研究d .腹,d . simulans,d . erecta,d . yakuba,5%的功能性Zeste转录因子结合位点是获得和/或损失相比其他血统26]。
63个物种的CC矩阵的热图的图2基于八聚物。的热图,打火机,黄颜色代表一个CC值较高,接近于1,表示WGKS彼此相似的物种。黑,红颜色表示CC值接近于0,表示物种对WGKS无关。很清楚的是,这三个属按蚊,果蝇,舌蝇彼此明显分开很好而且还从两个离群值。
3.1.1。果蝇
在果蝇集群中,可以看到一个较小的子群包括八种:d . albomicans,d .美国,d . arizonae,d . grimshawi,d . mojavensis,d . nasuta,d . navajoa,d . virilis。这些物种代表一个单独的monophylogenetic组属内果蝇,对应于亚属果蝇。所有的其他物种属于亚属Sophophora。在Sophophora,可以看到四个物种本身形成一个小,紧凑的组:d·米兰达,d .针孔,d . persimilis,d . pseudoobscura。这四个物种属于暗盒内种群Sophophora。属的系统发育树果蝇可以看到图吗3(一个)。树木用UPGMA WPGMA, NJ方法在材料和方法部分描述。的果蝇和Sophophora独立从一个另一个。离群值的物种d . ananassae,busckii,willistoni从所有其他物种也不同。
(一)
(b)
(c)
该算法不仅用于测量物种相似性k-mer内容的相关性的基础上,也为预测生物相关的三个双翅类昆虫的基因组k-mers属,在材料和方法部分描述。所有公认的生物相关的八聚物的列表中提供补充文件3。总结这些预测k-mers表中可以看到1。
发现短k-mers更保守,因为很难保存更长时间的DNA。然而,k-mer越短,数量尽可能少的k-mers可以研究。缩短k-mers失去信息和精确因为长k-mers增加k-mer签名,使CC值更精确的计算。八聚物,CC的平均值是0.857 (std. dev。0.07)。一个不平等的方差为2.3×10的价值−247CC值计算吗果蝇和CC值之间果蝇和非果蝇物种。科恩的d值为3.18 (CI, 3.03 - -3.32, 95%置信水平)计算,这是非常高的。
3.1.2。果蝇高的物种在其基因组重复内容
另一种果蝇(d . busckii)是看似不合时宜的热图,之间按蚊和舌蝇,远离果蝇物种。这个物种平均最低CC值相比,所有其他果蝇物种(0.753,八聚物,补充文件2)。然而,当CC的价值d . busckii比较的6个属的成员吗舌蝇,平均CC值为0.699(看八聚物)。当比较CC值之间d . busckii和舌蝇与d . busckii和所有其他果蝇,值为0.006。当比较d . busckii只有八个这个小单元组内的成员果蝇可以计算,平均0.891毫升的,用一个值为4.7×10−9,当比较CC值之间d . busckii和舌蝇与d . busckii这八个果蝇物种。TaxoDros数据库分类d . busckii在它自己的独立的种群(busckii物种集团的一部分Dorsilopha亚属)。它不是完全确定为什么d . busckii集群的方式。周和Bachtrog [27)发现,60%的neo-Y-linked基因已经成为非功能d . busckii。因此,它是可能的,因此,监管他们的启动子区域的图案也经历了微分突变,从而改变这个物种的k-mer内容。
d . ananassae,属于一个物种果蝇亚属,显示低相似的成员Sophophora亚属。这可以看到在图2。d . ananassae是未来的物种平均CC值(最低0.800,八聚物,补充文件2)其他果蝇物种。这可能是由于这样的事实,它的基因组重复元素的百分比含量最高(24.93%),紧随其后d . willistoni平均最低(15.57%),还有第五drosophilids (CC值0.832,八聚物,补充文件2)。高重复的元素内容在一个物种的基因组意味着观察发生的许多k-mers将会增加,从而为特定k-mer扭曲分数。这反过来也会减少CC值给定的物种和其他物种之间不重复的元素含量很高。这两个物种也有最多的pseudotransfer (t) RNA基因(d . ananassae-165/472;d . willistoni-164/484)。事实上,81年的98反向k-mers补充d . ananassae最低得分为0.8分,最低的10000,只有6日至14日还发现在任何其他的果蝇物种,还最低得分为0.8分,最低的10000人。为d . willistoni44的顶部46等丰富的高分反向补充k-mer,只有8-22被发现也是高分的基因组果蝇物种的基因组除外d . mojavensis30这样的高分,丰富的反向互补k-mers(见补充文件4列表)。这表明这些丰富,高重复性k-mers可能扭曲CC值之间的原因d . ananassae和d . willistoni和所有其他物种。
d . mojavensis是另一个物种和其他物种从亚属集群的好吗果蝇,但仍有第三个CC值最低(0.823,八聚物,补充文件2)。592年八聚物k-mers这个物种从串联重复序列数据库选择没有任何不匹配(TRDB) [24]。这些k-mers过滤,如果他们有一个分数小于0.333。根据方程(4)在材料和方法部分,这与k-mer发生倍其预期发生的两倍,因此作为好截止CC值来衡量功能性生物相关性。245个592 k-mers WGKS的(41.4%)d . mojavensis得分高于或等于0.333。d . mojavensis有86个丰富,高分反向恭维k-mers(见过滤前款规定的标准)。其他五个果蝇至少有一半的物种特定k-mers(43),包括d . busckii,见过的最低的意思是CC值与所有其他果蝇物种(补充文件4)。d . mojavensis和d . busckiiCC值为0.88(八聚物水平),上面的均值和中位数在吗果蝇。这也表明,这个物种的高重复k-mer内容可能扭曲其CC值与其他果蝇物种。
3.1.3。舌蝇
的按蚊和舌蝇集群更加紧凑果蝇。所有六个之间的意思是CC舌蝇物种是0.978 std. dev. 0.02(看着八聚物,见下表2),而平均CC之间舌蝇和非舌蝇物种是0.761 std. dev. 0.143(表2)。的值是1.5×10−18比较中,舌蝇CC值与CC值之间舌蝇和非舌蝇物种。科恩的d值为8.48 (CI, 7.79 - -9.18, 95%置信水平)计算,这是非常高的。
补充数据1和2同时还表明,基因组大小(315 - 380年Mbp)和ACGT %也相对不变相比其他两个双翅类的家庭。这可能是由于相对较小的物种数量检查以及六个物种研究的密切关系。的热图,g . brevipalpis正确划分为自己的组,对应于亚属Austenina。g . morsitans morsitans和g . pallipides正确的热图聚集在一起,属于亚属舌蝇。g . fuscipes和g . palpalis gambiensis还聚集在一起的热图作为亚属的一部分Nemorhina。一个物种,g . austeni然而集群一起palpalis集团,而据NCBI分类法这属于亚属舌蝇。这些物种的关系也反映在系统发育树图3 (b)。所有三个系统算法产生相同的物种如前所述的关系。
3.1.4。按蚊
CC的平均值计算之间的八聚物按蚊物种是0.948 (std. dev。0.023)。一个CC值的计算值为0.0果蝇和CC值之间按蚊和非按蚊(这意味着物种值太低,neglog值不能显示)。科恩的d值为3.18 (CI, 5.03 - -5.47, 95%置信水平)计算,这是非常高的。
郝et al。2813)进行了系统发育分析基于守恒的线粒体蛋白编码基因来自50个蚊子。根据他们的系统发育树,的物种按蚊集群以及伊蚊和这种致倦c .集群同样在郝等的研究和目前的研究。例如,答:darlingi位于一个单独的郝的主要分支的研究,在目前的研究中,这个物种以及答:albimanus组合在一起的按蚊集群,在亚属内Nyssorhynchus(在属按蚊,亚Anophelinae)。这两个物种的CC值0.989(看着八聚物,看到补充文件2),而这两个物种之间的平均CC值和其余的按蚊集群是0.955(见补充文件2)。热图和图6的郝et al。28),答:arabiensis,冈比亚按蚊,melus,长节集群在一起,对应冈比亚按蚊亚属的物种复杂Cellia属的按蚊。的热图,答:farauti和koliensis聚集在一起,在种系发生树郝et al。集群年代研究,这两个物种也在相同的主要分支。此外,物种答:cracens和dirus聚集在一起紧密的热图和系统发育树。在豪等人的研究(28)和热图,物种答:中国和atroparvus也聚集在一起。这两个物种的成员按蚊亚属的属按蚊。
在另一项研究通过Freitas et al。29日),细胞色素氧化酶亚基I和II (COI和COII)以及5.8 S核糖体亚基进行了分析研究47之间的系统发育关系按蚊物种。在他们的研究,以及目前的一个,答:farauti,koliensis和punctulatus所有聚集在一起,它们的一部分按蚊punctulatus集团在西南太平洋主要疟疾病媒(30.]。答:arabiensis,冈比亚按蚊,melus,长节还在这两项研究集群紧密,就像在豪等人的研究(28]。然而,而在热图答:dirus和stephensi聚集在一起,他们位于单独的系统发育树的分支郝和Freitas研究。
这种差异可能是因为郝和Freitas只研究在分析线粒体基因组与全基因组的研究。然而,这三者之间的紧密的聚类研究中引人注目的非常相似的结果来自少数线粒体蛋白质分析以及从全球的整个基因组序列分析。的系统发育树按蚊可以看到图吗3 (c)。UPGMA和WPGMA树类似,而NJ树看起来有些不同。
3.1.5。物种的关系基于对齐的线粒体DNA
29种线粒体全基因组序列(19按蚊6果蝇,2伊蚊,1库蚊,1api)从NCBI数据库下载。这些序列是一致的,然后,每个可能的身份计算百分比成对物种。这些标识值图中描述4也可以在补充文件1。
图4描述了物种的属按蚊和果蝇分开成两个定义良好的团体。的值按蚊是6.2×10−81,而对于果蝇它是8.9×10−9。这两个伊蚊种群在一起,一起这种致倦库蚊。离群值的物种的蜜蜂、组远离所有的其他物种。
在属果蝇,只有d . albomicans属于亚属Sophophora,而其他五种属于亚属果蝇,支持以前的结果来自WGKS的分析。
在属按蚊,四个物种,答:arabiensis,冈比亚按蚊,米拉斯,长节根据他们的mtDNA非常相似,这强化了先前WGKS的分析结果。另一组集群紧密在一起的物种答:farauti,punctulatus,cracens,dirus。这四个物种也对数字集群紧密2。五其他物种,答:culicifacies,epiroticus,funestus,最小的东西,stephensi。这些物种没有图结合在一起2。这种差异也可能是由于这一事实k-mer概要的28种问题反映k-mer mtDNA分布,而不是整个基因组。
3.1.6。基于WGKS分类的新物种
因为许多昆虫的分类组织在变化,这是有趣的,看看几个种类不同属的分类根据这个算法。WGKS两伊蚊物种,埃及伊蚊和答:蚊的,这种致倦库蚊(所有三个被蚊子)种类的分析和比较按蚊,看看他们成立一个独立的团体,或如果他们可能形成一个单元组在一起按蚊。属物种的全基因组序列Bironella或Chagasia最近的两个属按蚊在亚Anophelinae在NCBI不可用。在图2,这三个物种属分开按蚊。这两个伊蚊物种平均CC 0.651按蚊,而他们之间有一个CC 0.847(当看着八聚物,看到补充文件2)。当比较CC值之间伊蚊和按蚊在属CC值按蚊本身(补充文件2),一个值为9.1×10−54可以计算。因此,可以得出结论伊蚊形成一个小组分开按蚊。当比较这种致倦c .来按蚊、CC的平均值是0.706。这是比意味着CC的明显不同按蚊物种之间(见表0.9482也看着八聚物)。的价值这两个组之间CC值是5.7×10−23。因此,可以推断,这种致倦c .也是属分开吗按蚊。
这表明目前的分类方法是有用的未知生物,只有全基因组序列。比较WGKS大于方法的效用只分析组的基因,它只占整个基因组序列的一小部分。发展史的基础上不同的基因往往彼此冲突(6]。
3.1.7。散度和相似性属
为了测量散度的两个属,箱线图比较创建CC值的范围内属按蚊,果蝇,舌蝇以及这三个属之间,以及之间c . briggsae分别和三虫属,也蜜蜂分别和三虫属。这样做是k-mers大小7 - 9日英国石油公司,以及箱线图可以看到在图5(八)和补充数据4(一)和4 (b)(七聚物和九聚物)。最低,中位数,平均和最大CC值为每个七比较及其标准偏差表中可以看到2。
意味着CC值在三个属远高于所有其他比较(例如,0.955内按蚊和0.869内果蝇七聚物,表2),在两者之间是否属按蚊和果蝇或之间的两种异常值,要么这两个属之一。对所有k-mer长度这一趋势是一致的。最低,意思是,中位数,和最大CC值减少与主题长度增加,但这是由于这样的事实:随着主题长度的增加,可能k-mers也会按比例增加的数量,因此,CC值也会减少。这些趋势说明清楚基因组所有内容属之间的差异果蝇,按蚊,舌蝇。
这也是有趣的看到nonrepetitive(即。,k-mers which do not consist of dimer or trimer repeats) genome k-mers were the most common between按蚊,果蝇,舌蝇k-mers长度7 - 9日英国石油公司。为此,所有k-mers至少0.5分(k-mers比预期更频繁地发生三次),发生在至少一半的物种在给定属选择(至少11按蚊物种和至少15果蝇物种,但至少5种舌蝇)。这些k-mers补充文件中列出5长度为7 - 9日英国石油公司。所有三个属之间的共同k-mers也补充文件中列出5并显示在图6(八)和补充数据5(一个)和5 (b)(七聚物和九聚物)。
3.2。分析5′和3′utr
除了整个基因组,k-mer分析做了5′和3′utr 7果蝇物种(D。ananassae,erecta,grimshawi,腹,mojavensis,pseudoobscura,simulans),也冈比亚疟蚊作为局外人物种相比,这些果蝇物种。除了WGKS来说,一个物种的5,3战,也IKS次方(5′' k-mer签名,3′k-mer签名,和基因内区k-mer签名)也可以被定义。序列数据为选定的果蝇物种和冈比亚按蚊在补充文件1。然而,由于5′和3′UTR序列没有对许多物种除了可用果蝇我们只能做一个受限制的分析,而不是分析物种的热图,图的关系2。
数据7(一)和7 (b)描绘的CC范围内属的箱线图果蝇和之间的冈比亚按蚊和属果蝇为k-mer长度7 - 9日英国石油公司5′和3′utr,分别。这两个数据显示,CC范围之间的比较冈比亚按蚊和果蝇远远低于在吗果蝇本身。这两个属之间的区别更加明显在3′utr相比5′utr。CC值出现在一个矩阵为5′和3′utr在补充文件6和7,分别。
(一)
(b)
摘要统计信息对CC值内果蝇和之间的冈比亚按蚊和果蝇表中可以看到吗3。的值5′和3′utr为k-mer长度7 - 9日英国石油公司都在5%的显著水平。这反映了同样的基因区别这两个属也出现在5′和3′UTR区域。图8显示的数量5′UTR nonrepetitive k-mers共有7个果蝇物种,104年、602年和2128年为主题长度7 - 9日英国石油公司。3′utr,有70,451和1396的图案长度7 - 9日英国石油公司。这是反射降低总体CC范围3′UTR k-mers比5′UTR k-mers见过(数据7(一)和7 (b))。常见的k-mers数量的增加大致比例的方式随着k-mer的长度增加,由于增加k-mer空间(例如,可能有更多比八聚物九聚物)。这些常见的k-mers补充文件中列出6和75′和3′utr。
3.3。内含子的分析
十二的内含子区域果蝇物种(ananassae,erecta,grimshawi,腹,mojavensis,persimilis,pseudoobscura,sechellia,simulans,virilis,willistoni,yakuba)分析了在某种程度上类似于整个基因组的5′和3′UTR区域。内含子序列只有果蝇;因此,我们无法执行任何物种属和对比按蚊或舌蝇。
图9描绘了一系列k-mer CC值长度7 - 9日英国石油公司对这些12个物种。摘要统计信息对所有k-mer长度可在表3。常见的k-mers所有12个物种的数量在图中进行了描述8(37岁,344年和1890年主题长度7 - bp)和补充文件中列出8,CC矩阵也可用于k-mer长度7 - 9日英国石油公司。
与5′和3′UTR区域,常见的数量也k-mers k-mer长度增加而增加,从7日至9日英国石油公司。常见的数量基因内区k-mers也低于常见的数量3′UTR k-mers,进而小于普通的数量5′UTR k-mers(七聚物和八聚物),而不是九聚物(见图8)。这表明,对于这两个k-mer长度,大小的序列区域减少,常见k-mers数量的增加。
4所示。结论
以前作品的主题预测算法已经完善,扩大,并应用于很多更大的物种的选择,允许更广泛的推论是由分析。此外,通过定义的WGKS未知物种,他们可以分为现有分类类别。这个算法是一个工具来描述和分类新物种,如的情况埃及伊蚊和蚊和这种致倦c .。WGKS,还从其他subgenomic地区主题签名,可用于分离成单个物种属大幅彼此分开。我们相信,这种算法不仅可以用来预测生物相关的全基因组和subgenomic图案,而且集群物种分类群的基于他们的异同点,主题签名。该算法只被用来分析昆虫,但也可以应用于从其他类群物种进行比较。
数据可用性
处理过的数据和结果的补充文件。原始基因组数据将根据要求提供。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
MC设计整个分析,执行所有的计算,创造了所有的数据,和写的手稿。CG和PX导致了这项工作的概念,基本的改进手稿。
确认
这项工作是发展基金支持的重心从内布拉斯加州大学医学中心。作者感谢生物信息学和系统生物学核心接收部分的支持国家卫生研究院的基金(P20GM103427、P30CA036727和3 p30mh062261)。作者要感谢弗兰克·舍温对他的专业知识对生态的差异果蝇物种和如何进行分类。
补充材料
补充图1:所有58研究物种基因组大小。每一个物种的基因组的大小在Mbp。按蚊物种的蓝色,果蝇物种红色,舌蝇物种在绿色。补充图2:所有58研究物种ACGT %的内容。ACGT % 58物种给出所有物种,加起来堆放barplot一分之一。补充图3(一个):热图描述物种63种之间的关系包含在分析基于全基因组k-mer签名七聚物。补充图3 (b):热图描述物种63种之间的关系包含在分析基于全基因组k-mer签名九聚物。补充图4 (a):物种之间的皮尔逊相关系数按蚊,果蝇,舌蝇以及两种控制,蜜蜂和c . briggsae七聚物。补充图4 (b):物种之间的皮尔逊相关系数按蚊,果蝇,舌蝇以及两种控制,蜜蜂和c . briggsae九聚物。补充图5(一个):常见nonrepetitive 11之间(nondimer和nontrimer)聚体内容按蚊,15果蝇,5舌蝇物种。每个包含七聚物有一个最低得分为0.5分。补充图5 (b):常见nonrepetitive (nondimer和nontrimer)九聚物11之间的内容按蚊,15果蝇和5舌蝇物种。每个包含九聚物有一个最低得分为0.5分。补充文件1:统计全基因组5′和3′UTR,研究物种和内含子序列。物种,文件名,叠连群,基因组/ subgenomic区域大小和ACGT %每个物种提供。成对序列标识所有物种对包括线粒体基因组的比较。补充文件2:皮尔森相关矩阵的全基因组k-mer签名。之间的皮尔逊相关矩阵对研究物种k-mers长度7号到9号的英国石油公司提供。相关补充文件3:预测生物全基因组k-mers(八)。生物相关的八聚物被k-mer预测算法预测22按蚊,30果蝇,六舌蝇物种。为果蝇物种,所有预测八聚物与140对比果蝇从JASPAR数据库pwm的截止0.8。补充文件4:高分三个重复的主题内容果蝇物种。高分和high-occurring八聚物回文k-mers列出果蝇ananassae,mojavensis,willistoni。这些k-mers k-mers从其他匹配果蝇物种进行比较。九聚物从d . mojavensis从TRDB也与主题。补充文件5:nonrepetitive频繁k-mers从三个属。Nonrepetitive (nondimer /三聚物重复)被发现在大多数物种的三个属k-mers长度7 - 9日英国石油公司。K-mers共有三个属也。补充文件6:皮尔森相关矩阵为5′UTR k-mer签名。涉及所有成对的物种之间的皮尔逊相关矩阵冈比亚按蚊和7果蝇物种提供k-mers长度7 - 9日英国石油公司的5′UTR区域。常见的七聚物,八、九聚物也提供。补充文件7:皮尔森相关矩阵为3′UTR k-mer签名。涉及所有成对的物种之间的皮尔逊相关矩阵冈比亚按蚊和7果蝇物种提供k-mers长度7 - 9日英国石油公司的3′UTR区域。常见的七聚物,八、九聚物也提供。补充文件8:皮尔森相关矩阵对基因内区k-mer签名。物种之间的皮尔逊相关矩阵对涉及12果蝇物种提供k-mers长度7 - 9日英国石油公司的内含子区域。常见的七聚物,八、九聚物也提供。(补充材料)