TnpPred: Web服务的鲁棒预测原核转座酶

文摘

转座酶(tnp)酶参与运动中的插入序列(ISs)和基因组之间。基因编码对照组中是最丰富的,在自然界中广泛分布的基因。然而,他们很难预测信息角度,考虑到增加原核基因组和基因组——现任发展快速、高质量的国际空间站的自动标注。这促使我们需要开发web服务,称为TnpPred Tnp发现。它提供了更好的敏感性和特异性Tnp的预测比目前给出的计划由ROC分析。为提高基因组注释TnpPred应该有用。TnpPred web服务是免费供非商业使用。

1。介绍

插入序列(ISs)很小,移动DNA元素通常包含一个基因编码一个转座酶催化国际空间站的运动从基因组的一部分到另一个。空间站中发现几乎所有原核生物(1,2每个基因组),有时以非常高的频率,是自然界中最丰富的基因之一3]。他们在横向基因转移中发挥重要作用,基因组组织和基因组进化(4]。许多国际空间站,短终端反向重复序列(IRs)和一些生成短直接重复序列(DRs)当他们整合到基因组。空间站分为19个家庭基于转座酶的氨基酸序列相似性,DNA序列相似性包括各自国税局和DRs,在某些情况下,支持的系统发育分析(5,6]。

考虑到增加原核基因组和基因组,现任发展快速,高质量的自动注释的空间站。不幸的是,目前许多国际空间站转座酶不正确标注为其他功能或被确定为“假设。“此外,注释是很多部分的存在加剧了ISs分散在大多数基因组,代表活跃的国际空间站的一次。

最近,web应用程序ISsaga被释放,提供高质量的国际空间站注释(7),基于信息从策划ISs家庭ISfinder数据库中5]。ISsaga管道的一个优点是,它结合了(DNA)和转座酶(蛋白质)的预测序列搜索完成,部分国际空间站。DNA和蛋白质序列搜索是基于一套爆炸项目(BLASTN BLASTX, BLASTP) (8,9]。IScan是爆炸的另一个应用程序,利用扫描整个基因组ISs,包括在其预测管道搜索转座酶和和直接反向重复10]。然而,人们普遍认为sequence-sequence比较由这爆炸套件等不如profile-sequence比较概要隐马尔可夫模型(摘要)当寻找远程同源性11]。认识到这一优势,摘要生成的转座酶属于19 23家庭ISs(包含了数据库的特征12)和ACLAME数据库(13])。一个额外的生物信息学资源预测总科数据库(14)基因组的结构和功能注释基于嗯资料来源于图书馆结构域在吟游诗人的数据库(15]。目前,主机总科6嗯概要文件从域属于两个原核的转座酶家族,μ噬菌体转座酶,IS200。第三个嗯在总科认识到真核爱马仕转座酶。

因为现有的生物信息学资源预测转座酶通过摘要仅限于只有不到60%的家庭,我们已经开发出一种web服务,称为TnpPred,提供嗯档案转座酶的剩下的~ 40%的家庭。此外,新可用的序列信息和人工管理让我们产生新的嗯~ 60%的概要文件是家庭的嗯概要文件已经存在,,除了两个情况下,敏感或在某些情况下比目前更敏感的包含了数据库。

2。材料和方法

转座酶序列从ISFinder获得网站(5]。序列然后手动策划使用Blastp对RefSeq数据库(16),和几个嗯概要文件是为每个家庭使用多个序列比对ClustalW[产生的17)和HMMer软件(182.3.2版本。TnpPred在HTML编程(19)和层叠样式表,CSS (20.),遵守World Wide Web Consortium, W3C (http://www.w3.org/),指导方针。遵循这些指导方针促进Mobilomics从任何浏览器的可访问性在任何可用的操作系统。评价HMM模型的敏感性和特异性是由ROC分析(21]。

3所示。结果与讨论

3.1。验证TnpPred嗯概要文件

为了评估的灵敏度和选择性TnpPred嗯资料预测转座酶,摘要受到ROC曲线分析(21]。这种分析的性能相比TnpPred摘要来源于与来自包含了我们的研究和评估的能力确定转座酶在数据库中已知的,策划转座酶(已知阳性数据库)和一个数据库的序列没有已知的转座酶(已知的底片数据库)。已知的阳性转座酶ISfinder数据库是由混合数据库(5从RefSeq)与转座酶。已知的底片转座酶从数据库Swiss-Prot数据库是由所有序列(22,23)消除所有条目标记为转座酶后,插入序列,游离酶,可和整合。中华民国曲线为19个家庭提供补充文件1,看到网上补充材料http://dx.doi.org/10.1155/2012/678761并可供下载http://www.mobilomics.cl/。

TnpPRED摘要有同等或更好的选择性,灵敏度和截止e值分数相比来自嗯概要文件包含预测的tnp属于ISs(表17的家庭1,一个asterick)。在剩下的两种情况下,即转座酶的狗是家庭IS256和转座酶7家庭Tn3嗯概要文件包含了优于TnpPRED摘要在至少一个性能指标。对于家庭IS256,包含了转座酶的傻瓜优于TnpPRED嗯概要的选择性和灵敏度。Tn3而言,包含的资料转座酶7优于TnpPRED选择性但不敏感(表1)。由于这些原因,包含了嗯概要预测IS256转座酶成员已纳入概要文件用于TnpPRED预测web服务,而包含了嗯概要文件和TnpPRED嗯概要文件是用来预测Tn3家庭成员(表1标有星号)。


	是家庭	包含了				TnpPred
	是家庭	嗯	选择性	灵敏度	截止¹	嗯	选择性	灵敏度	截止¹

		Transposase_27	96.4%	83.2%		结合*	100.0%	95.4%
1	IS1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	99.9%	100.0%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2 *	99.4%	100.0%

2	IS110	Transposase_9	95.3%	94.2%		ORF1 *	100.0%	100.0%
		Transposase_20	100.0%	99.1%		ORF1 *	100.0%	100.0%

3	IS1380	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%

4	IS200 / IS605	Transposase_17	100.0%	100.0%		ORF1 *	100.0%	100.0%

		- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	93.9%	96.0%
5	IS21	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	93.7%
		IstB_N	72.8%	79.3%		ORF2 *	100.0%	100.0%
		IstB	76.6%	79.5%		ORF2 *	100.0%	100.0%

6	IS256	Transposase_mut *	100.0%	100.0%		ORF1	99.4%	98.8%

		- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	99.5%	81.8%
	IS3_IS150	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	90.3%	69.7%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2	100.0%	100.0%
		Transposase_8	80.1%	78.8%		结合*	100.0%	100.0%
	IS3_IS2	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	90.0%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2 *	100.0%	100.0%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	98.6%	89.6%
7	IS3_IS3	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	93.6%	76.5%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2 *	100.0%	100.0%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	99.9%	100.0%
	IS3_IS407	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	99.7%	95.8%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2 *	100.0%	100.0%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	100.0%	91.4%
	IS3_IS51	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	87.4%	74.3%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2	100.0%	100.0%

8	IS30	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%

9	IS4	Transposase_11	99.0%	96.0%		ORF1 *	100.0%	96.1%
		Transposase_Tn5	51.8%	58.9%		ORF1 *	100.0%	96.1%

10	IS481	Mu-transpos_C	67.7%	54.0%		ORF1 *	99.9%	100.0%

	IS5_IS1031	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%
	IS5_IS427	- - - - - -	- - - - - -	- - - - - -	- - - - - -	结合*	99.7%	97.7%
11	IS5_IS5	Transposase_33	54.6%	60.4%		ORF1 *	100.0%	100.0%
	IS5_IS903	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%
	IS5_ISH1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%
	IS5_ISL2		- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%

12	六	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%

13	IS630	Transposase_14	52.8%	68.2%		ORF1 *	98.4%	97.7%

		Transposase_34	89.9%	73.1%		结合	85.6%	79.0%
14	IS66	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	97.8%	82.6%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF2 *	94.0%	88.4%
		- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF3 *	100.0%	88.8%

15	IS91	Transposase_32	100.0%	100.0%		ORF1 *	100.0%	100.0%

16	IS982	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	99.3%	99.2%

17	ISAs1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	ORF1 *	100.0%	100.0%

18	ISL3	Transposase_12	100.0%	99.0%		ORF1 *	100.0%	99.0%

19	Tn3	Transposase_7 *	100.0%	63.3%		ORF1 *	94.8%	68.3%

¹截止值来自中华民国图表为每个模型(1)补充文件;*表示被选中的嗯并入TnpPred web服务。

3.2。比较与ISsaga TnpPred

评估ISsaga的预测能力,它被用来预测的基因组的对照组Acaryochloris滨MBIC11017和Stenotrophomonas maltophiliaK279a [7]。我们也带注释的这两个基因组为了比较与ISsaga TnpPred tnp的预测和评估额外的类型是TnpPred提供的预测。基因组的Acaryochloris滨MBIC11017, ISsaga预测272 tnp 17科和亚科,而TnpPred嗯资料预测266 tnp为同一家庭(表172)。总结预测ISsaga和TnpPred给293独特的对照组。在的情况下美国maltophiliaK279a, ISsaga预计总共39 tnp 9是家庭,而TnpPred预计总共47 tnp家庭(表102)总结53独特的对照组。


生物	Acaryochloris滨 MBIC11017	Stenotrophomonas maltophilia K279a

王国	细菌	细菌
类	Acaryochloris	Gammaproteobacteria
日期	5月27日10	7月9日、10
加入数量	NC_009925	NC_010943
% G + C	47.3%	66.3%
长度(Mbp)	6.5	4.9
确认总	244年	46
类A *	214年	42
B类*	30.	4
类C *	22	1
没有发现TnpPred	27	6
是家庭TnpPred数量	17	10
总:没有找到+ TnpPred	293年	53
是家庭ISsaga数量	17	9
总TnpPred	266年	47
总ISsaga	272年	39

^*参见图1对类的定义。

检查tnp预测由ISsaga TnpPred但不显示三大类别的小说中预测图1。上课(a), TnpPred提供一个家庭之前预测基因注释只是作为“转座酶”;上课(b), TnpPred将信息添加到一个基因以前标注为“假设的”或“没有已知函数”和类(c), TnpPred预测Tnp的DNA序列,基因之前没有注释。

(一)

(b)

(c)

在答:滨MBIC11017,类的一个例子(a)注释改进是YP_001515477.1,注释在TnpPred ISsaga“转座酶”和“转座酶家族IS630”;改进是YP_001516695.1类(b)注释,注释作为ISsaga“假想蛋白”和“IS5 sub-family ISL2”TnpPred,和一个类(c)注释改进是一个序列不注释ISsaga(坐标5666475 . .5666933 +链)和“IS200 / IS605”TnpPred(补充文件2和4),类似的例子存在美国maltophiliaK279a(补充文件3和5)。

然而,TnpPred未能发现27 293预测对照组答:滨MBIC11017和6 tnp 53美国maltophiliaK279a。有几个可能的原因:(i)一些序列ISsaga低于接受e值截止TnpPred (ii)一些序列是错误的注释ISsaga因为它使用NCBI nr数据库通过爆炸预测对照组和有些tnp错误注释在NCBI,和(3)ISsaga预测tnp的四个新家庭5)没有TnpPred发达时可用。这些新家庭将被纳入未来TnpPred的更新。

3.3。额外的讨论

TnpPred能够检测片段或tnp如果相关序列的伪基因有一个价值低于接受安勤科技信用评分底线指定的嗯。通常很有用能够探测到这样的“分子化石”,因为他们可以帮助预测基因和基因的岛屿,包括致病性岛,可能是横向转移(24,25]。

4所示。结论

TnpPred是一个补充和扩展现有的web服务项目,并为预测19嗯概要文件原核转座酶的家庭。比较的ROC分析灵敏度和选择性的使用的摘要TnpPred与使用的摘要,包含了19科的TnpPred预测表现除了包含两种情况。TnpPred预测tnp的能力在整个基因组相比,当前可用ISsaga注释答:滨MBIC11017和美国maltophiliaK279a。TnpPred成功预测266年tnp 293答:滨和47个对照组53美国maltophilia。此外,TnPred tnp的额外位点在基因组预测并不认可ISsaga和改善预测的几个tnp的家族名称分配给对照组只有被ISsaga通用术语“对照组”。因此,建议TnPred可能是一个有用的援助预测微生物基因组的对照组。

5。网站和FTP

Tnp的TnpPred web服务是家庭嗯对胺基酸序列的预测和19 Tnp的嗯概要文件是家庭可以访问http://www.mobilomics.cl/。

承认

这项工作是由Fondecyt (1090451)。

补充材料

补充材料包括以下文件:Excel文件显示每个家庭嗯ROC曲线,灵敏度和选择性。Acaryochloris滨MBIC11017 uid58167 TnpPred基因库格式的注释(.gbk)。Stenotrophomonas maltophiliaK279a TnpPred基因库格式的注释(.gbk)。Acaryochloris滨MBIC11017 uid58167 TnpPred预测的完整报告。NC_009925。gbk染色体。Stenotrophomonas maltophiliaK279a TnpPred预测的完整报告。NC_010943。gbk染色体。

引用

m . Touchon和e·p·c·罗查”,导致原核基因组插入序列的丰富。”分子生物学与进化,24卷,不。4、969 - 981年,2007页。视图:出版商的网站|谷歌学术搜索
p . Siguier j . Filee m·钱德勒,“插入在原核生物的基因组序列,”目前看来在微生物学,9卷,不。5,526 - 531年,2006页。视图:出版商的网站|谷歌学术搜索
r·k·阿齐兹·m·布莱巴特,r·a·爱德华兹“转座酶是最丰富的,自然界中最常见的基因,”核酸的研究,38卷,不。13日文章ID gkq140, 4207 - 4217年,2010页。视图:出版商的网站|谷歌学术搜索
f . De la Cruz j·戴维斯,“水平基因转移和物种起源:细菌、教训”微生物学的趋势,8卷,不。3、128 - 133年,2000页。视图:出版商的网站|谷歌学术搜索
p . Siguier j . Perochon l·雷斯垂德j . Mahillon和m·钱德勒”ISfinder:参考细菌插入序列中心”核酸的研究卷,34 D32-D36, 2006页。视图:谷歌学术搜索
Mahillon和m .钱德勒,插入序列再现。在移动的DNA二世,ASM出版社,华盛顿,美国,2002年。
a . m . Varani p . Siguier e . Gourbeyre诉Charneau和m·钱德勒”ISsaga是一个基于web的高吞吐量的方法识别和半自动注释插入在原核生物的基因组序列,”基因组生物学,12卷,不。第三条R30, 2011年。视图:出版商的网站|谷歌学术搜索
s . f . Altschul t·l·马登a·a·谢弗et al .,“豁裂的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索项目,“核酸的研究,25卷,不。17日,第3402 - 3389页,1997年。视图:出版商的网站|谷歌学术搜索
s . f . Altschul j·c·伍·e·m·格茨et al .,“蛋白质数据库搜索使用构图调整替换矩阵,”2月期刊,卷272,不。20日,第5109 - 5101页,2005年。视图:出版商的网站|谷歌学术搜索
A .瓦格纳、c·刘易斯和m . Bichsel”使用IScan细菌插入序列的调查,“核酸的研究,35卷,不。16,5284 - 5293年,2007页。视图:出版商的网站|谷歌学术搜索
m .ㄧ和j·高夫比较隐马尔可夫模型简介程序远程同源性检测,“核酸的研究,30卷,不。19日,4321 - 4328年,2002页。视图:谷歌学术搜索
r·d·芬恩j . Mistry和j·泰特,“蛋白质家庭包含了数据库,”核酸的研究卷,38 D211-D222, 2010页。视图:谷歌学术搜索
r . Leplae、g . Lima-Mendez和a·杜桑”ACLAME:移动遗传元素的一个分类,更新2010年”核酸的研究,38卷,不。1篇文章ID gkp938 D57-D61, 2009页。视图:出版商的网站|谷歌学术搜索
d·威尔逊,m .ㄧc·沃格尔c . Chothia和j·高夫,“2007年总科数据库:家庭和功能,“核酸的研究,35卷,不。1,D308-D313, 2007页。视图:出版商的网站|谷歌学术搜索
a . Andreeva d·豪j . m . Chandonia et al .,“吟游诗人数据库数据增长及其影响:新发展,”核酸的研究,36卷,不。1,D419-D425, 2008页。视图:出版商的网站|谷歌学术搜索
k·d·普瑞特t . Tatusova w . Klimke和d·r·Maglott”NCBI的参考序列:现状、政策和新举措,“核酸的研究,37卷,不。1,D32-D36, 2009页。视图:出版商的网站|谷歌学术搜索
r . Chenna h . Sugawara t .小池百合子et al .,“多重序列比对的Clustal系列项目,“核酸的研究没有,卷。31日。13日,3497 - 3500年,2003页。视图:出版商的网站|谷歌学术搜索
r·杜宾s r·艾迪a·克罗和g . j . Mitchison生物序列分析:蛋白质和核酸的概率模型》,剑桥大学出版社,1998年。
升级到TLS在HTTP / 1.1,http://tools.ietf.org/html/rfc2817。
文本/ css媒体类型,http://tools.ietf.org/html/rfc2318。
t·福塞特,”介绍ROC分析。”模式识别的字母,27卷,不。8,861 - 874年,2006页。视图:出版商的网站|谷歌学术搜索
b·伯格曼解释a . Bairoch r . Apweiler et al .,“SWISS-PROT蛋白知识库及其补充TrEMBL 2003年,“核酸的研究没有,卷。31日。1,第370 - 365页,2003。视图:出版商的网站|谷歌学术搜索
r . Apweiler m·j·马丁c,马路et al .,“正在进行的和未来的发展在通用的蛋白质资源,”核酸的研究,39卷,补充1,D214-D219, 2011页。视图:出版商的网站|谷歌学术搜索
s . d . Hooper k Mavromatis, n . c . Kyrpides“微生物同居和横向基因转移:转座酶可以告诉我们什么,”基因组生物学,10卷,不。4篇文章R45 2009。视图:出版商的网站|谷歌学术搜索
s Schmitz-Esser t Penz, A·斯潘和m .角”的细菌基因组transition-an特殊浓缩的元素,但缺乏证据最近换位的共生有机体Amoebophilus asiaticus,”BMC进化生物学,11卷,不。1,第270条,2011。视图:出版商的网站|谷歌学术搜索

国际基因组学杂志

文摘