CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi出版公司 696190年 10.1155 / 2012/696190 696190年 研究文章 识别小说类型III效应器使用潜在狄利克雷分配 纯美少女 计算机科学与工程系 信息工程学院 上海海事大学 Haigang大街1550号 上海201306 中国 shmtu.edu.cn 2012年 11 9 2012年 2012年 14 05年 2012年 07年 08年 2012年 12 08年 2012年 2012年 版权©2012杨杨。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

6分泌系统识别的革兰氏阴性细菌,III型分泌系统(T3SS)在病原体的疾病发展中扮演重要角色。T3SS吸引了极大的研究兴趣。然而,分泌的机制尚未完全了解。尤其是效应器(分泌蛋白质)的识别是一个重要的和具有挑战性的任务。本文采用机器学习的方法来识别III型分泌效应器(T3SEs)。我们从氨基酸序列中提取特征和行为特征减少基于潜在语义信息通过使用潜在狄利克雷分配模型。的实验结果数据集演示新方法的良好性能。

1。介绍

细菌分泌是一个重要的机制适应和生存在他们的周围环境。分泌过程传输效应分子内部的细菌细胞外。到目前为止,研究人员发现六种分泌系统。III型分泌系统是最复杂的,这使得细菌提供跨真核细胞膜毒性效应器( 1]。

近年来,已取得显著进展对我们理解T3SS的结构组成,包括一个针状的组件和基地嵌入到内部和外部的细菌膜( 2]。然而,分泌机制,定义了信号的细节仍然未知。识别的效应器T3SS分泌的(称为III型分泌效应器,T3SEs) T3SS研究非常重要。他们被认为有一些独特的特性,可以被分泌系统和交付到宿主细胞。这些特征是提示发现T3SS机制和理解每个组件分泌过程中所扮演的角色。

T3SEs有很大的序列的氨基酸序列多样性通过快速进化,和许多T3SEs很少有同源蛋白质在公共数据库。因此,识别T3SEs是出了名的困难。植物病原体一直是一个研究模型类型III效应器。到目前为止,只有数百T3SEs几件物品已经被确认和证实的细菌物种,其中很大一部分来自 p .两菌株。这表明,绝大多数T3SEs仍然未知。

本研究旨在开发一个计算预测系统,它可以帮助生物学家获得效应候选人wet-bench实验确认。通常,计算工具预测T3SEs可分为两种类型:序列和领域知识。

序列的方法通常试图从氨基酸序列中提取判别子序列特性或核苷酸序列和执行基于这些特性的预测。从氨基酸序列提取的特征包括氨基酸组成, K - m频率( 3, 4),和position-specific特性( 5]。的核苷酸序列,基因编码T3SS装置和T3SEs通常有一个守恒监管主题推广者( 6]。另一个序列的方法,使用已知的同源性搜索效应器( 3),也经常使用,但它不能识别小说效应器。domain-knowledge-based方法包括识别基因附近伴侣蛋白同系物( 7),n端和nonoptimal密码子使用的预测不稳定 8),使用蛋白质二级结构和溶剂可达性信息 9]。领域知识没有可用的序列数据,通常通过计算方法,降低了预测精度。

本文采用机器学习的方法来预测III型分泌效应器(T3SEs)。从氨基酸序列中提取特征。研究人员发现在T3SEs氨基酸组成的偏见,尤其是在N-termini。例如,格特曼et al。 10报道称,前50的氨基酸 p .两效应器有高比例的爵士和低比例的Asp残留。应该注意的是,这些观察结果只显示一些统计偏差,而不是特定的信号/功能。此外,许多感受器不满足这些需求。在本文中,我们把蛋白质序列作为一种生物语言和 K 即词。这个词的频率组成特征向量。为了压缩特征空间,提高预测的准确性,我们提出两种功能降低的方法。他们利用潜在语义信息的潜在狄利克雷分配模式 11]。

我们已经研究了这两种方法的预测精度并与其他四个方法,包括频率二聚体,三聚体的频率,并使用频率以及特征选择 t f - - - - - - d f 价值。上的方法进行测试通过5倍交叉验证数据集。实验结果证明该方法的有效性。

2。方法

蛋白质序列连续的氨基酸残基,这可以被看作是文本字符串和一个字母 的大小 | | = 20. 。氨基酸组成和 K - m(子序列的长度 K )频率可以作为蛋白质序列的特征分类。氨基酸组成不考虑氨基酸的顺序 K 即保留一些订单信息序列,因此,后一种方法通常是采用。然而,的维度 K - m特征空间呈指数级增长 K 增加。基于完整的预测 K - m特征空间降维是难以计算的。事实上,很多 K 即预测无关。例如, K 即仅出现一次或几次。

在本文中,我们提出两种功能降低的方法基于潜在狄利克雷分配(LDA)模型( 11]。这两个方法以不同的方式利用潜在语义信息。一是将原来的 K - m空间主题空间,另一个是使用主题信息选择的信息 K 即为预测。这两个方法中引入部分 2.2 2.3,分别。

2.1。潜在狄利克雷分配

潜在狄利克雷分配(LDA),目前使用最普遍的话题模型,被广泛应用于自然语言处理、图像分类、社会网络分析,等等 12, 13]。在LDA模型中,每个文档可以被看作是一个混合的各种话题,每个词的创造是由文档的主题之一。

1显示了LDA的图形化模型表示。(这里我们考虑平滑LDA。)方形的框架表示复制。有 D 文档在语料库, NgydF4y2Ba 话, K 的话题。在这个LDA模型,以下步骤生成一个文档。

一个LDA模型。

θ 之前从狄利克雷: (1) θ ~ Dir ( α )

为每一个词 w n ,选择一个主题 z n 多项 ( θ ) ,然后选择 w n p ( w n z n , β ) ,这是一个多项式概率条件的话题 z n : (2) z n ~ ( θ ) w n ~ p ( w n z n , β )

生成一个语料库的可能性 定义在以下方程: (3) p ( α , η ) = k = 1 K p ( β k η ) d = 1 D p ( θ d α ) × ( n = 1 NgydF4y2Ba z n p ( z n θ ) p ( w n z n , β ) ) d θ d β

在这个模型中, w n 完全可观测的。推理的隐藏变量通常采用吉布斯抽样( 14[]或变分算法 15]。由于LDA生成模型,有限的区别的能力在分类任务中,我们只使用它用于创建功能。

2.2。预测的T3SEs主题空间

在LDA模型中,每个文档主题由后狄利克雷表示。这是一个用词频相比更低维表示。因此,在这种方法中,我们通过使用主题创建特征向量表示。

我们把蛋白质序列作为文本, K 即是单词。我们想用LDA模型捕捉潜在的主题信息。由于LDA模型不能直接使用蛋白质序列,我们首先需要将蛋白质序列转换为一种生物的语言,是他说的话 K 即。类似中国的句子,我们段氨基酸序列不重叠的 K 即单词之间没有空格。之后,LDA模型可以应用于序列。

所有的自然语言都有预定义的字典。然而,蛋白质序列都写在一个未知的语言对我们目前的状态,他的字不是划定。的任意组合字母任意长度可以是一个词。所以我们首先需要建立一个字典,这是市场细分的基础。因此,这种方法的整个过程包括三个步骤:(1)建立一个字典,也就是说,词集;(2)部分的蛋白质序列匹配的单词在字典里,也就是说, K 即;(3)运行LDA模型分段序列和创建特征向量。

我们已经尝试两个指标来确定单词在字典中包含。一个是词频,另一个是 t f - - - - - - d f 价值。他们在以下定义。

2.2.1。频率

自然语言中的词,通常是经常出现在文本字符的组合。根据这一观察,氨基酸与高频子字符串可以被视为的话,应该分割出来作为特征。的不寻常的字符串是noninformative分类和全球性能几乎没有影响。我们为每个记录出现时间 K - m的训练序列集和保存一个预定义的比例的最常见 K 即。

2.2.2。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M38 " > < mml: mi > t < / mml: mi > < mml: mi > f < / mml: mi > < mml:多行文字> - < / mml:多行文字> < mml: mi >我< / mml: mi > < mml: mi > d < / mml: mi > < mml: mi > f < / mml: mi > < / mml:数学> < / inline-formula >价值

考虑到频率测量是倾向于选择过多的单词在文本中,可能没有判别能力,我们也使用 t f - - - - - - d f 价值。根据其在文本分类的定义, t f - - - - - - d f 计算出一个术语在一个文档中。该值出现的次数比例文档中的术语,即 t f (频率);和文档的数量成反比的训练集的项至少出现一次,也就是说, d f (逆文档频率)的部分。

这里我们定义以下方程。让 w t , 年代 t f - - - - - - d f K - m t 按顺序 年代 , f t , 年代 的频率 K - m t 按顺序 年代 , NgydF4y2Ba 训练集的规模, n t 是数字的序列 t 出现: (4) w t , 年代 = f t , 年代 × 日志 NgydF4y2Ba n t 为了避免遇到生词,所有的20种氨基酸都包含在字典。

在第二步中,我们使用的分割方法 16]。这种分割方法有两个标准搜索分割的最佳方式。一个是段的数量是最小的。另一个是权重的乘积的单词分割是最大的。

如果频率测量中使用词典建设、词的重量 t 由频率定义如下: (5) w t = 年代 = 1 NgydF4y2Ba f t , 年代

否则,如果 t f - - - - - - d f 测量使用,词的重量被定义为最大的价值 w t , 年代 ,这是 t f - - - - - - d f K - m t 按顺序 年代 : (6) w t = 马克斯 年代 w t , 年代 , 在哪里 表示整个数据集。

分割后,我们运行LDA模型在序列。然后我们获得稀疏 D × T 矩阵 一个 ,在那里 D 序列和的数量吗 T 是主题的数量。 一个 ( d , j ) 在文档包含一个字令牌的次数 d 被分配到另一个话题吗 j 。行向量的特征向量用于分类。这里,我们分类主题空间,而不是词的蛋白质序列空间。因此特性集的维数可以大大减少由于主题的数量远低于的话。

2.3。预测的T3SEs减少空间

在这种方法中,特征表示是完全不同于第一种方法。我们仍在使用 K - m的频率特性。而不是使用所有的 K 即在字典里,我们根据主题选择信息的信息。

功能还原过程也由三个步骤组成。前两个步骤是一样的 2.2,而第三步需要一定的策略选择。

实际上,词典建设可以被视为初始筛选词选择的过程。词典中的词的出现时间可以记录和组合特性集。在实验中,我们检查了这两种预测精度的使用频率和特性集 t f - - - - - - d f 分别选词,发现频率比 t f - - - - - - d f 在这项研究中(见表所示的结果 2)。因此我们进行第三步基于词典由词频的标准。

这里我们使用主题信息执行进一步的选择。我们检查的次数的话被分配到主题和设置一个阈值 。如果一个词不是至少分配给任何话题 时候,这个词就会被丢弃。通过这种方式,我们可以删除的话,要么是不寻常的单词或不特定的任何话题。

2.4。复杂性分析

计算的时间主要花在序列分割和LDA模型。分割算法( 16)作为每个氨基酸。每一点,只保留最优分割的算法进行修剪,最少的部门到目前为止,和搜索词的匹配旁边的子序列点的单词在字典里。假设字典大小 年代 ,蛋白质序列的数量数据集 D ,平均序列长度 l ,文字的最大长度 匹配一个单词,要求字典的成本 O ( 日志 2 年代 ) 二分查找。因此,分割方法的计算复杂度 O ( D l 日志 2 年代 ) ( = 3 在实验中)。至于LDA模型,假设有 K 话题,复杂性 O ( D K l ) 吉布斯抽样方法,它通过对参数估计和推断。和第二特征选择方法,选择单词的复杂性 O ( K 年代 )

3所示。结果与讨论 3.1。数据集

已被用来作为生物模型研究T3SEs,最效应器,已确认。因此,我们收集的数据从这个物种。据我们所知,有一个283效应器,已确认,从 p .两pv。番茄菌株DC3000, p .两pv。两株B728a, p .两pv。phaseolicola菌株1448 a。然而,其中很大一部分是同源染色体,即序列相似度非常高。这是因为同源搜索发现小说效应器仍是主要手段。考虑到冗余的数据集将导致过高的分类器的准确性,我们消除了样品与序列相似度超过60%。通过删除冗余序列,我们得到一个积极的108个样本集。

的负面数据集提取的基因组 p .两pv。番茄菌株DC3000。我们排除了有关T3SS所有的蛋白质,以及假设的蛋白质。(注意,这仍可能包含一些未知的效应器。)然后我们选择随机从剩下的样本构成的负面,因为如果我们使用的所有数据集将太多的不平衡。表列出了数据集的数量 1

数据分布。

数据集 数量
积极组 108年
负集 760年

868年

结果比较。

方法 助教(%) 灵敏度(%) 特异性(%)
二聚体 400年 94.2 91.4 94.5
三聚物 8000年 90.4 100.0 90.2
频率 220年 95.3 92.4 95.6
tf-idf 220年 94.7 88.8 95.3
星期五 50 91.2 83.3 91.7
FRII 184年 95.0 94.5 95.1
3.2。实验设置和评估标准

分类器是使用最先进的监督学习机械、支持向量机,广泛用于生物信息学。我们的实现支持向量机采用LibSVM的2.8版( 17]。我们认为多项式、乙状结肠和RBF内核对RBF核函数的SVM和观察到的最好的分类精度。

我们用LDA模型在Matlab的话题建模工具箱1.4 [ 18]。在LDA,主题的数量对其性能有很大影响。搜索最优数量的主题是描述的部分 3.3。LDA模型中使用的其他参数设置如下: β = 0.01 , α = 50 / T ,在那里 T 是主题的数量,和迭代的数量是500。阈值 将40据统计的词出现。

多种措施被用来评估我们的方法的性能,包括敏感性,特异性,总精度( 助教 )。的敏感性和特异性可以定义真阳性的数量( TPs ),假阳性的数量( 帧/秒 ),假阴性的数量( fn )和真正的底片的数量( TNs )如下。我们定义 (7) 灵敏度 = TP TP + FN 特异性 = TN TN + 《外交政策》 这两个措施检查正确分类的能力积极的和消极的样本,分别。助教正确分类样本的比例相比的总大小的数据集,计算如下: (8) 助教 = TP + TN TP + 《外交政策》 + TN + FN

考虑到最大分泌或易位可能需要第一100个氨基酸( 19- - - - - - 21),在我们的实验中,前100个氨基酸。

3.3。许多话题

主题的数量在LDA模型是一个关键参数,因为它直接影响模型的性能。困惑是经常用来评估LDA模型的性能。这措施的性能模型,它被定义为( 11]: (9) 困惑 ( D 测试 ) = 经验值 { - - - - - - d = 1 日志 p ( w d ) d = 1 NgydF4y2Ba d }

这种方法在测试数据的可能性减少单调;从而降低值表明更好的建模性能。

我们计算了数据集的价值困惑。图 2显示了隐藏主题的数量的困惑,从5到100。它可以观察到,困惑随越来越多的话题。主题从5到40的话题,困惑迅速下降。当话题的数量大于40岁的困惑几乎是常数。在我们的实验中,我们组的主题是50。

困惑在不同数量的话题。

3.4。实验结果

我们已经进行了一系列的实验来检查这两个特性降低方法的性能和比较其他四个方法。表 2列表的数量维度,总精度(TA),这六个方法的敏感性和特异性。缩写的方法和相应的描述如下:

二聚体:使用所有的二聚体,没有功能降低;

三聚物:使用所有三没有功能降低;

频率:使用字典单词词频选择;

t f - - - - - - d f 选择:使用字典单词 t f - - - - - - d f 价值;

星期五:使用主题信息功能;

FRII:使用功能设置基于(3)但进一步凝聚主题信息。

从表 2,我们可以发现所有的六个方法获得总精度超过90%,这表明氨基酸模式是胜任不同的感受器和noneffectors。

在这项研究中,长 K 即没有分类的优势。二聚体方法具有更好的性能比像方法。尽管三聚物的方法获得的灵敏度为100%,其总比其他方法的准确性和特异性要低得多。这是因为其假阳性率很高。由于预测系统旨在提供一个可靠的预测效应候选人的结果,假阳性高速率是不允许的。

基本上,所有的新方法具有令人满意的性能。特征选择方法使用字典单词频率或选择 t f - - - - - - d f 整体价值实现最好的特异性和更好的性能比原来的二聚物和三聚物的方法。它表明,词典建设和细分的策略是成功的蛋白质序列的分类。维度的数量220年这两个方法,包括20种氨基酸,50 150二聚体,三聚。频率比的测量 t f - - - - - - d f 值,因为后者灵敏度较低。这可能因为 t f - - - - - - d f 值更喜欢选择一些不寻常的话说,这并不有利于分类。

显然,该功能还原法我(星期五)最小数量的维度,但其精度相对较低。FRII 184维度,包括20个氨基酸,137二聚体,三聚。比二聚体三被丢弃,因为三聚的频率要低得多,只有少数人可以通过词选择的标准部分 2.3。实际上,更多的三不能提高我们之前提到过的准确性。

FRII达到好的结果,甚至比使用所有字典词。FRII的敏感性是2%高于频率的方法,和总准确性和特异性也相当或优于其他方法。这些结果表明,尽管主题空间分类是不够的,潜在的主题信息是有效的选择功能。

4所示。结论

本文着重于功能降低的方法确定蛋白质分泌通过III型分泌系统使用机器学习的方法。我们的目标是要从n端氨基酸序列中提取特征并使用分类器来区分输入特征向量作为分泌或nonsecreted蛋白质。

我们有六个方法相比,包括 K - m方法没有功能降低和其他方法减少具有不同特性的方法。计算实验数据集上的交叉验证测试 p .两数据显示,我们的方法实现较高的精度。

我们观察到,而长 K - m特性判别效果器和noneffectors几乎没有贡献,减少导电特性可以提高预测精度。使用频率和方法 t f - - - - - - d f 值词选择实现更好的精度 K - m方法和进一步使用主题信息特征选择可以提高性能和压缩特征空间在同一时间。

到目前为止,大部分T3SEs革兰氏阴性细菌仍未知。的生物信息学工具是非常重要的。我们相信,新的计算方法将有助于识别小说III型分泌tts效应器,推进我们的理解。

对于未来的工作,潜在语义信息揭示了主题模型将进一步调查。LDA引入了一个潜在的层,代表主题/主题文件,或场景图像。蛋白质序列,潜层可能是次要的或空间结构,功能域,或其他生化性质。因为它不像图片那么容易跑后蛋白质序列形象化LDA,很难定义相对应的特定的潜在主题在蛋白质序列的概念。我们将继续探索生物学特性和主题之间的联系和整合其他可用信息来发现分泌系统的底层机制。

确认

这项工作得到了国家自然科学基金(批准号61003093)和上海海事大学的科技项目(批准号20110009)。

加兰 j·E。 Collmer 一个。 III型分泌机器:细菌蛋白质设备交付到宿主细胞 科学 1999年 284年 5418年 1322年 1328年 2 - s2.0 - 0033591446 10.1126 / science.284.5418.1322 s Y。 野村证券 K。 Whittam t·S。 类型III蛋白质分泌机制在哺乳动物和植物病原体 Biochimica et Biophysica学报 2004年 1694年 1 - 3 181年 206年 2 - s2.0 - 8844275498 10.1016 / j.bbamcr.2004.03.011 阿诺德 R。 Brandmaier 年代。 Kleine F。 P。 亨氏食品公司 E。 behren 年代。 Niinikoski 一个。 关进笼子 h·W。 M。 Rattei T。 序列预测III型分泌蛋白 PLoS病原体 2009年 5 4 e1000376 2 - s2.0 - 66349124179 10.1371 / journal.ppat.1000376 Y。 比较研究序列特征提取III型分泌效应预测 学报》第八届国际会议上模糊系统和知识发现(FSKD 11) 2011年7月 Y。 Q。 太阳 m·A。 D。 高精度的预测细菌III型分泌效应器基于position-specific氨基酸组成配置文件 生物信息学 2011年 27 6 777年 784年 2 - s2.0 - 79952594050 10.1093 /生物信息学/ btr021 费雷拉 a . O。 迈尔斯 c·R。 戈登 j·S。 马丁 g . B。 Vencato M。 Collmer 一个。 皮特医生 m D。 阿尔法诺 j . R。 Moreno-Hagelsieb G。 Lamboy w·F。 DeClerck G。 施耐德 d . J。 Cartinhour s W。 全基因组表达谱定义HrpL调节子pv。番茄DC3000,允许新创合cis克莱门特的重建,并识别小说coregulated基因 分子Plant-Microbe交互 2006年 19 11 1167年 1179年 2 - s2.0 - 33750204881 10.1094 / mpmi - 19 - 1167 Panina e . M。 Mattoo认为 年代。 格里菲思 N。 科扎克 n。 的趣事 m . H。 米勒 j·F。 全基因组屏幕识别 博代氏杆菌属III型分泌效应和候选人效应器在其他物种 分子微生物学 2005年 58 1 267年 279年 2 - s2.0 - 26244460966 10.1111 / j.1365-2958.2005.04823.x 佐藤 Y。 Takaya 一个。 山本 T。 整合方法准确预测分泌毒性效应器的革兰氏阴性细菌 BMC生物信息学 2011年 12 1,第442条 Y。 J。 摩根 r . L。 W。 T。 计算预测III型分泌蛋白质从革兰氏阴性细菌 BMC生物信息学 2010年 11 S47补充1篇文章 2 - s2.0 - 75149124497 10.1186 / 1471 - 2105 - 11 - s1 - s47 格特曼 d S。 Vinatzer b。 Sarkar 美国F。 Ranall m V。 凯特勒 G。 格林伯格 j . T。 功能屏幕的类型检查参与组成分泌腺III(合)植物病原体 科学 2002年 295年 5560年 1722年 1726年 2 - s2.0 - 0036500995 10.1126 / science.295.5560.1722 布莱 d . M。 Ng a . Y。 约旦 m . I。 潜在狄利克雷分配 机器学习研究杂志》上 2003年 3 4 - 5 993年 1022年 2 - s2.0 - 0141607824 C。 布莱 D。 菲菲 l 同时图像分类和标注 《IEEE计算机学会学报计算机视觉与模式识别会议研讨会(CVPR ' 09) 2009年6月 1903年 1910年 2 - s2.0 - 70450178502 10.1109 / CVPRW.2009.5206800 H。 B。 贾尔斯 C。 福利 H。 日元 J。 一个LDA-based社区结构发现大规模社会网络的方法 《IEEE情报与安全信息学(ISI ' 07) 2007年5月 200年 207年 尼尔 r·M。 马尔可夫链抽样dirichiet过程混合模型的方法 计算和图形统计杂志》上 2000年 9 2 249年 265年 2 - s2.0 - 77950032550 布莱 D。 约旦 M。 变分推理狄利克雷过程的混合物 贝叶斯分析 2006年 1 1 121年 144年 Y。 b . L。 从蛋白质序列中提取特征使用中国细分亚细胞定位的技术 《IEEE研讨会上计算智能在生物信息学和计算生物学(CIBCB 05) 2005年11月 288年 295年 2 - s2.0 - 33847242222 C . C。 c·J。 2001年,LIBSVM:支持向量机的库,软件, http://www.csie.ntu.edu.tw/ cjlin / libsvm / Steyvers M。 格里菲思 T。 2011年,Matlab主题建模工具箱1.4、软件 http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm Casper-Lindley C。 Dahlbeck D。 克拉克 e . T。 Staskawicz b . J。 直接生化证据类型III secretion-dependent AvrBs2效应蛋白在植物细胞的易位 美国国家科学院院刊》上的美利坚合众国 2002年 99年 12 8336年 8341年 2 - s2.0 - 0037062493 10.1073 / pnas.122220299 Petnicki-Ocwieja T。 施耐德 d . J。 Tam v . C。 Chancey s T。 l Jamir Y。 Schechter l . M。 琼斯 m D。 罗宾过活 C。 X。 Collmer 一个。 阿尔法诺 j . R。 全基因组鉴定蛋白质合III型分泌的蛋白质分泌系统pv。番茄DC3000 美国国家科学院院刊》上的美利坚合众国 2002年 99年 11 7652年 7657年 2 - s2.0 - 0037188539 10.1073 / pnas.112183899 Schechter l . M。 罗伯茨 k。 Jamir Y。 阿尔法诺 j . R。 Collmer 一个。 III型分泌系统目标信号和小说效应器研究自保”易位的记者 细菌学期刊 2004年 186年 2 543年 555年 2 - s2.0 - 0347915662 10.1128 / jb.186.2.543 - 555.2004