许多细菌物种功能作为共生体和病原体;我们使用这个双重性质开发高通量分子流行病学方法识别细菌毒力基因。我们应用B组的方法
B组
九个已知GBS荚膜血清型,血清型,III和V引起GBS的大多数疾病在美国(
完成和草案基因组序列的可用性的几个GBS菌株提供了一个机会来洞察GBS毒性的分子基础。这些基因组序列分析证实了高水平的GBS菌株之间遗传异质性,甚至同一血清型的(
基因组比较致病性和非病原的菌株在一个物种是一个强大的战略确定候选基因重要毒性(
致病和同桌的GBS分离不同集合的选择从以前的流行病学研究。集合包括隔离从妊娠健康男性和女大学生进入密歇根大学(
但是脉冲场凝胶电泳的出现了如前所述[
两个fine-tiling寡核苷酸微阵列设计使用发表第三血清型菌株的DNA序列(NEM 316年加入基因库。AL732656 V)和血清型菌株(2603 vr,加入基因库。AE009948)。NEM 316阵列由368576 32-mer探测器(184288对)瓷砖2.21 Mb基因组每12股的基地。360040年总共2603 vr阵列由32-mer探测器(180020对)瓷砖2.16 Mb基因组每12股的基地。数组通过定制全息阵列设计和建造服务从罗氏(美国威斯康星州麦迪逊)使用它的无掩模的阵列合成(MAS)技术。一系列密集的瓷砖用较短的寡核苷酸是通常用于罗氏两步比较基因组测序(CGS) (
比较基因组杂交和信号处理是由罗氏定制服务(美国威斯康星州麦迪逊罗氏系统公司)。短暂,GBS四个测试菌株和两个参考菌株的DNA被分解成单独的低分子量片段,池标签独立与青蓝荧光染料和每个杂化是一个NEM316 2603 vr全基因组花砖数组。类似于Affymetrix芯片,短期低聚糖GBS阵列是由在幻灯片的从头合成。像Affymetrix芯片杂交,幻灯片是用于杂交/标签样本。总共12微阵列杂交过程的进行。基因组杂交NEM316或2603 vr的数组作为参考信号与测试菌株杂交过程使用相同的数组。基因组杂交测序的基因组与其它测序基因组数组用于验证目的。DNA测试的信号强度比率每个引用DNA比较识别探针序列缺失或不同于基因组测试人员。比率是由规范生成的信号强度(设置值比为1,标准差0.45),参考除以测试人员对于每一个链,然后平均两股。信号的比例绘制基因组的位置的函数,使用从罗氏SignalMap软件可视化。 A custom algorithm was used to mark the potential variable probe sequence (absent or different in tester genome) based on comparison to a local threshold (a 1800 bp window). This analysis was also performed by NimbleGen (see Supplementary Material available at doi:10.1155/2007/14762 for the analytical algorithm).
公司的基因组序列对比NEM316和2603 vr使用GenomeComp[执行
我们最近开发了一种微阵列技术的新的应用程序,名为图书馆幻灯片(洛杉矶),细菌的比较基因组学研究[
比较致病性和非病原的菌株在一个物种可以提供关键的见解细菌的发病机理。然而,所有测序GBS菌株来自侵入性疾病。我们采用分子流行病学比较选择代表共餐的殖民GBS分离获得最高的比较基因组杂交可能识别潜在pathogenesis-related入侵基因组的基因测序(NEM316菌株和2603 vr)。我们的多样性特征882殖民隔离以人群为基础的纵向研究妊娠的健康男性和女大学生(
我们使用共享探针序列中的两个基因组数组的再现性的比较基因组杂交,杂交测序基因组与其它基因组测序的数组来评估的准确性评估序列变化的数组。
184288个探针对之间NEM316数组和180020调查对2603 vr数组,总共有16364相同的探针对比赛(32/32)被确定。这个探针杂交结果从两个数组子集为每个测试人员基因组被视为副本用于访问全息的再现性。为每个探针杂交分为相同或变量在试验机的基因组相比,参考基因组。试验机的一致性百分比基因组g293 - 061, H1-19, g617 - 061和g654 - 461分别为98.75%,99.50%,99.88%,和98.62%,分别。再现性是非常高的,即使原始信号率检查。重复的相关系数都大于90%。
评估的准确性数组在评估序列变异,我们比较的结果与实际的分类结果数组silicoanalysis杂交NEM316之间交换和2603 vr基因组。几乎所有的完美匹配被正确标识为相同的杂交探针序列。133520年只有4和5的133570探针序列被错误地认定为不同NEM316和2603 vr数组,分别。然而,28673年的50768(56%)和25435年的46450(55%)不匹配的探针序列是相同的错误,NEM316和2603 vr数组,分别。在调查层面,杂交特异性检测灵敏度高,但低守恒的探针序列。尽管如此,瓷砖数组的高密度性质仍然提供全面的信息在基因组序列变异和开放水平。我们直观地显示全息结果通过绘制杂交信号探测的比率在基因组的位置和比较他们的在网上比较NEM316和2603 vr。大多数的变量探测器(即。,probes with high reference versus tester signal ratios) are clustered primarily around strain-specific genetic islands identified by the in silico analysis. To convert probe-level variation to ORF sequence variation, we calculated the percentage of variable probes for each ORF (number of variable probes identified within an ORF divided by the total number of probes tiling the ORF). Using different percentage cutoff values in classifying variable ORFs (divergent or absent), the CGH-based data was compared with in silico analysis (Table
灵敏度(概率检测到开放阅读框,因为它是真正存在)和特异性评估(概率开放阅读框未被检测到,它不存在)分类变量不同的截止值的开放阅读框架使用fine-tiling基因组寡核苷酸阵列由B组的基因组序列
| 参考基因组 | 百分比分界点 | 灵敏度 | 特异性 |
|---|---|---|---|
| NEM316 | 20% | 0.98 | 0.91 |
| 15% | 0.97 | 0.94 | |
| 10% | 0.96 | 0.96 | |
|
|
|||
| 2603虚拟现实 | 20% | 0.97 | 0.91 |
| 15% | 0.95 | 0.92 | |
| 10% | 0.89 | 0.96 | |
比较基因组杂交与fine-tiling 32-mer寡核苷酸微阵列没有识别所有调查两个参考基因组序列变化但可靠地确定变量并使用结合的探针杂交结果在每个子。
CGH使用NEM316和2603 vr基因组数组显示3.4 -15.4%的探针序列缺席或发散的四个测试菌株(表
号(百分比)四个测试B组中变量探针序列
| 参考/测序的基因组入侵隔离 | H1-19 (Ia)(入侵) | g293 - 061 (II)(共生体) | g617 - 061 (III)(共生体) | g654 - 461 (V)(共生体) |
|---|---|---|---|---|
| 2603虚拟现实 | 327例(15.4%) | 320例(15.1%) | 72例(3.4%) | 278例(13.1%) |
| NEM316 | 277例(13.0%) | 305例(14.3%) | 305例(14.3%) | 271例(12.7%) |
变量的位置探测器在B组的基因组序列识别
从所有的探针杂交结果在每个开放框架被用来确定是否存在/散度测试仪使用标准建立了通过分析基因组控制实验(如上所述)。在2134 orf NEM316基因组内,484名(22.7%)认定为变量orf因为他们列为缺席/发散在至少一个测试人员基因组。269(56%)人缺席/四tester基因组不同,到96年,84年,和35分为缺席/发散在1、2和3基因组分别。2124子在2603 vr的基因组中,530(25%)被确定为变量羊痘疮。其中,81年、121年、162年和166年被列为缺席/发散在4、3、2和1 tester基因组分别。成对的基因组比对两个参考基因组毒株特异性识别区域的总长度288 kb和239 kb NEM316和2603 vr,分别。大于95%的orf驻留在这些毒株特异性区域被确定为变量并在我们的全息四个测试人员基因组,代表NEM316变量orf的64%(309/484)和52%(275/530)的2603 vr变量羊痘疮。大约80%的变量并确定由全息位于14假定的致病性岛之前确定NEM316 [
调查这些官能团变量orf属于,我们分类并成簇的直系同源基因(齿轮)
开放阅读框架在B组的变量
orf一直缺席/发散在共生体tester菌株相比,侵入性菌株可能毒性基因的候选人。六个orf缺席/发散在所有三个同桌的测试人员紧张,两个入侵和守恒的参考基因组和侵入性测试压力。我们确定了一个额外的29个orf参考基因组的缺席/发散至少三分之二的共生体(表压力
开放阅读框(ORF)出现在侵入性压力,但缺席至少三分之二的共生体tester B组
| 羊痘疮 | Probe-positive菌株(%) | 比率(95%置信区间) |
预测蛋白质 |
|---|---|---|---|
| sag0004 | 524例(55%) | 1.1 (0.96 - -1.22) | 假设蛋白质 |
| sag0005 | 706例(74%) | 1.0 (0.93 - -1.09) | 假设蛋白质 |
| sag0027 | 941例(99%) | 1.0 (0.98 - -1.00) | phosphoribosylaminoimidazole合成酶 |
| sag0175 | 692例(73%) | 1.0 (0.93 - -1.09) | 假设蛋白质 |
| sag0206 | 590例(62%) | 0.9 (0.82 - -1.01) | 脂蛋白,公认的 |
| sag0253 | (b) | (b) | 乙酰转移酶,蚊家庭 |
| sag0414 | 927例(98%) | 1.0 (0.97 - -1.01) | 磷酸化酶、Pnp / Udp家庭,假定的 |
| sag0426 | - - - - - - | - - - - - - | 因预测家族蛋白质 |
| sag0427 | 517例(54%) | 1.0 (0.93 - -1.17) | 转录监管机构,稳定的家庭 |
| sag0700 | 925例(97%) | 1.0 (0.97 - -1.02) | 2-dehydro-3-deoxyphosphogluconate醛缩酶/ 4-hydroxy-2-oxoglutarate醛缩酶 |
| sag0814 | 117例(12%) | 0.6 (0.39 - -0.83) | 假设蛋白质 |
| sag0815 | 364例(38%) | 0.9 (0.76 - -1.06) | 转录监管机构,Cro / CI论蛋白质 |
| sag0832 | 371例(39%) | 1.5 (1.29 - -1.77) | 纤维蛋白原结合蛋白 |
| sag1130 | 367例(39%) | 1.1 (0.90 - -1.25) | 假设蛋白质 |
| sag1140 | (b) | (b) | 假设蛋白质 |
| sag1207 | (b) | (b) | 假设蛋白质 |
| sag1781 | (b) | (b) | primase-related蛋白质 |
| sag1968 | 87例(9%) | 1.1 (0.71 - -1.61) | 假设蛋白质 |
| sag1969 | 907例(96%) | 1.0 (0.97 - -1.03) | 核糖体蛋白不断化解甲基转移酶 |
| sag1974 | (b) | (b) | 笨蛋/ nudix家族蛋白 |
| sag1975 | (b) | (b) | 假设蛋白质 |
| sag1976 | 290例(31%) | 0.9 (0.73 - -1.08) | 假设蛋白质 |
| sag1994 | 289例(30%) | 1.0 (0.82 - -1.22) | 假设蛋白质 |
| sag1999 | (b) | (b) | 假设蛋白质 |
| sag2021 | 395例(42%) | 1.2 (1.00 - -1.36) | 细胞壁表面锚家族蛋白 |
| sag2026 | 224例(24%) | 1.1 (0.88 - -1.40) | 膜蛋白,公认的 |
| sag2027 | (b) | (b) | ABC转运蛋白、磷酸腺苷蛋白 |
| sag2028 | (b) | (b) | 假设蛋白质 |
| sag2045 | 364例(38%) | 1.1 (0.90 - -1.25) | DNA拓扑调制蛋白质FlaR,假定的 |
| sag2057 | (b) | (b) | leucyl-tRNA合成酶 |
| sag2060 | 427例(45%) | 1.3 (1.13 - -1.50) | 糖基转移酶、家庭8 |
| sag2061 | 437例(46%) | 1.2 (1.07 - -1.41) | 糖基转移酶、家庭8 |
| sag2088 | (b) | (b) | 假设蛋白质 |
| sag2147 | 687例(72%) | 1.0 (0.9 - -1.06) | 脂蛋白,公认的 |
| gbs0474 |
270例(28%) | 1.5 (1.21 - -1.80) | 假设蛋白质 |
(一)患病率与置信区间不重叠1被认为是统计显著。
(b)使用洛主要是因为这些并不是筛选的小尺寸。
(c)的相应基因在爆炸应变2603 VR未找到搜索虽然在2603年被列为目前由全息虚拟现实。
当我们发现大量的变量羊痘疮,几人失踪在所有三个,甚至两个同桌的测试压力。因为涉及多个遗传因素在GBS毒性和多个发病途径涉及不同的毒力基因可能存在,我们可以预计不同的毒力基因被识别不同对入侵和殖民时隔离进行了比较。
所有变量并潜在的毒性基因的候选人。使用新颖的GBS洛微阵列平台大量GBS分离,这些变量的重要性,并可以有效地评估。我们现在初步评估23以上的35个orf确定使用GBS洛杉矶。我们不能合成好的探针和特定的信号很强在我们最初尝试其他12个变量orf由于其小尺寸或可怜的PCR扩增。因此,我们离开他们的初始洛筛查。GBS洛微阵列包含从949年GBS分离株基因组DNA打印一式两份。其中,386人被隔离,从患者侵袭性疾病,563人共餐的殖民隔离。此外,《数组包含DNA从各种控制压力。表
orf sag2060和sag2061是两个假定的糖基转移酶基因。糖基化在许多生物过程中扮演一个重要的角色在真核生物中,并且有越来越多的证据显示细菌的糖基化作用。许多表面细菌表达结构如有限合伙人,洛杉矶,胶囊,鞭毛,病原菌的菌毛糖化(
sag0832预测编码是一种纤维蛋白原结合蛋白。这个基因被认为是入侵的一个重要毒力基因GBS的疾病。在脓毒症的小鼠模型,野生型菌株比同基因的菌株毒力更强的基因灭活(
而五23变羊痘疮不同分布式入侵和共生体之间的隔离,这些羊痘疮的关联与入侵隔离既不排斥也不强。这样的结果并不意外的有几个原因。首先,我们预期某种程度的随机错误分类降低入侵菌株也可以观察到的关联,因为同桌的,和非侵入性压力可以成为机会致病菌。第二,类似于几个不同的致病型的存在在许多细菌病原体,可能有许多不同的致病型GBS之内。一个毒力基因可能与菌株在一个特定的GBS致病型密切相关,但协会不太明显时所有的入侵隔离都包括在分析中。第三,GBS发病机理是由不是一个而是很多毒性基因和任何一个基因可能只贡献。我们在筛选的过程中这些和更多的变量并在2000年一个额外的隔离是为了执行一个更明确的分析。此外,合并GBS的人口结构可能会加强我们的分析,帮助解释。
筛选23 orf 949隔离还揭示了GBS的引人注目的基因组内容多样性。我们分配每个隔离一个基因型的存在与否全部23对。共有503个基因型949隔离观察。使用这个分类,但是脉冲场凝胶电泳的出现相同的模式菌株有不同的基因组合。剖析GBS的有限数量的基因探针可能因此提供一个高度区别的输入方法。
随着越来越多的细菌基因组测序,后基因组研究将专注于识别virulence-related基因,这些基因的功能。我们使用三步分子流行病学方法使用两个新颖的微阵列平台,fine-tiling寡核苷酸微阵列,和图书馆在一个幻灯片识别细菌毒力基因可能导致GBS的疾病。在数百个变量并由全息标识,35缺席/发散的两三个同桌的测试压力,但出现在两个入侵参考基因组和测试人员侵入性压力。我们筛选了23这些羊痘疮949 GBS分离,和发现5个orf不同分布式入侵和共生体之间的隔离。我们表明,这种方法可以快速识别和评估细菌基因可能与致病性有关。
在我们的方法中,我们采用了芯片CGH代替传统基因组减法方法识别配对共生体和入侵GBS菌株之间的遗传差异。传统的基因组减法的方法只能样本毒株特异性基因的一小部分。高密度花砖寡核苷酸制成的全息允许我们识别DNA序列的完整数组的入侵而共生的GBS分离。密度和较短的寡核苷酸阵列设计了验证寡核苷酸阵列可用于识别甚至在基因组单核苷酸多态性(
一旦确认了一组候选基因的基因组比较,一个更关键的一步是评估这些基因在疾病发病机制的作用。这可以通过大规模的关联研究,生物信息学预测,或生物功能的分析。生物信息学预测需要数据库与固体生物分子结构和功能信息。功能的方法往往限于characterizable毒性的表型。比较基因频率在细菌分离收集来自不同来源,例如,致病和同桌的隔离,使用统计协会,可以提供洞察一个基因序列的相对重要性在发病机制和传播。隔离的数量和多样性的集合是重要的在确定观察的重要性,在确保有足够的电力来检测协会。大以人群为基础的样本需要减少虚假的身份联系经常出现小样本的比较。包括共生的隔离(即。,nondisease-causing strains) for study is an integral part of this approach to understand bacterial pathogenesis. The LOS microarray platform is a robust system, adaptable to a wide variety of bacterial pathogens, for detecting the presence or absence of a candidate gene in thousands of isolates efficiently, thus providing a truly high throughput system to evaluate genes in the postgenome era.
这项研究是由国家卫生研究院资助R01AI51675 (BF)。我们感谢卡罗尔·j·贝克贝勒医学院的博士和特伦斯·a·威斯康辛Kurzynski国家卫生实验室提供的一些GBS菌株用于这项研究。我们也想感谢Maneesh大卫和伊丽莎白·玛丽·莱文帮助洛杉矶筛选的。