研究文章|开放获取
韩静,邵永钊, "复杂疾病遗传定位的遗传不平衡/异质性检验",概率与统计杂志, 卷。2012, 文章的ID256574, 14 页, 2012. https://doi.org/10.1155/2012/256574
复杂疾病遗传定位的遗传不平衡/异质性检验
摘要
在定位遗传疾病的连锁分析中,传递/不平衡检验(transmission/disequilibrium test, TDT)利用某些标记与性状位点之间的连锁不平衡(linkage disequilibrium, LD)进行精确的遗传定位,同时避免了群体分层造成的混淆。由Spielman和Ewens提出的sibi - tdt (S-TDT)和combined-TDT (C-TDT)可以结合有和没有亲本标记基因型(PMGs)的家庭数据。对于一些缺失PMG的家庭,Knapp提出的重建联合TDT (RC-TDT)可以用来从后代的基因型中重建缺失的亲本基因型,以增加力量并纠正潜在的偏差。在本文中,我们提出了对RC-TDT的进一步扩展,称为重构组合传输不平衡/异质性(RC-TDH)测试,在LD信息之外,还考虑了同一下降(IBD)共享信息。它可以有效地利用缺失或不完整的亲本遗传标记信息的家庭。将该方法应用于遗传分析研讨会14 (GAW14)数据集和广泛的模拟研究表明,该方法可能进一步提高统计功率,这在LD未知和/或部分或所有pmg不可用时尤其有价值。
1.介绍
遗传连锁分析是定位和识别染色体基因的重要步骤,这些基因是许多人类疾病和其他感兴趣的特征的基础。简要概述了常用的连锁分析统计方法,包括最近开发的无模型和基于模型的定性和定量性状位点定位方法,可以在Shao [1].如需更广泛的链接分析讨论,请参考Ott [2].
绘制复杂疾病的基因图谱是当前的重要研究课题。连锁分析的本质是识别复杂遗传疾病表型的遗传与特定遗传材料(称为标记等位基因)的遗传之间的统计关联。包括癌症在内的许多复杂疾病都有可遗传的成分。对于与复杂疾病遗传相关的标记等位基因,由于位点异质性、病因异质性以及它们的许多其他复杂性和/或组合,一个感兴趣的标记等位基因在杂合子亲本之间的传递概率通常是不同的[3.,4].在这种传输异质性下,传输可能性通常具有多参数混合模型的形式[4,5].可以看出,这种混合似然的有效评分检验包括两个部分:一部分相关传播失衡反映在存在连锁不平衡(LD)和其他相关数据传输形式的异质性过度分散在共享遗传标记可能被后裔(IBD)推断从相同的模式(例如,allele-sharing模式中影响sib-pairs)。
由Spielman等开发的传输/不平衡测试(TDT) [6]利用一些标记与疾病位点之间的LD信息进行精确的基因定位,同时避免了群体分层造成的混淆。它已经向多个方向扩展,以满足绘制复杂性状的需要,例如[7,8].特别是在研究晚发性疾病时,缺失亲本遗传标记基因型的现象非常普遍。Spielman和Ewens提出的sibi - tdt (S-TDT)和combined-TDT (C-TDT) [9]可以处理没有亲代标记基因型(PMG)的家庭,并可以结合来自具有PMG的家庭的数据。对于一些缺失PMG的家庭,Knapp提出的重建合并TDT (RC-TDT) [10,11]可用于从其后代的基因型中重建缺失的PMG,以增加C-TDT的能力,并纠正使用重建PMG时的潜在偏差[12].
RC-TDT的一个吸引人的特点是,它利用了缺失的PMG,可以从儿童的基因型中唯一确定,并通过使用适当的零期望和方差纠正了使用重构PMG所产生的潜在偏差,如Knapp的表1和表2所示[10].与TDT和C-TDT类似,RC-TDT只有在LD较强时才具有强大的功能。LD通常是未知的,难以测量,因此通常需要将LD信息与基于IBD模式获得的等位基因共享信息相结合[5,13].
对于复杂遗传疾病的精细定位,Shao [4]推导了在各种传播不平衡和/或异质性下等位基因传播的一般混合似然,并进一步提出了a传输不平衡/异质性(TDH)检测有效地结合传递不平衡和异质性信息,最大限度地利用核心家庭的遗传数据检测连锁。TDH检验被证明是在Shao中推导的一般混合似然的有效分数检验[4它是两部分的总和,a传输/不平衡测试(TDT)部分利用LD信息和a传输异构性测试(THT)利用ibd共享信息的部分。要知道THT利用了ibd共享信息,需要指出的是,一般混合似然包含了Huang和Jiang所讨论的混合二项似然[13和Lo等人[5]经典的受影响同胞对均值检验(ASPs)的检验统计量是THT统计量的特例在邵4].受影响兄弟姐妹对的经典均值检验是最著名的基于IBD共享的连锁检验[14].THT适用于一般同胞关系,因此可被视为受影响同胞对经典均值检验的扩展。
在实践中,亲代标记基因型在许多遗传学研究中往往是不完整的,特别是对晚发性疾病。只使用具有完整的亲本基因型信息的家庭将会丢弃大部分有用的数据,也会导致偏见。因此,使TDH检验适用于亲本标记基因型信息缺失或不完整的家庭至关重要。本文利用LD信息和ibd共享信息,建立了一种基于亲本基因型重构的传播不均衡/异质性检验方法,该方法可以结合有或没有PMG信息的家庭。
下一节将介绍亲本基因型重建的传播不平衡/异质性检验(RC-TDH)。节3.,将RC-TDH测试应用于GAW14的数据集,并与RC-TDT测试结果进行比较。最后,使用普通遗传模型的模拟研究[5,15,以比较RC-TDT和RC-TDH测试的功率和真实尺寸。数值结果表明,当LD水平未知和/或PMG信息缺失时,如在研究一种发病年龄较晚的疾病时,RC-TDH检验可大大提高统计能力。
需要指出的是,本文主要比较的是RC-TDT和RC-TDH。我们不会将它们与基于ibd的经典连锁测试(如Genehunter和其他软件中实现的测试)进行正式比较。主要理由如下。我们主要感兴趣的是复杂疾病的遗传变异的精细定位,在这些复杂疾病中,经典连锁试验由于不能有效利用LD信息而无效。随着生物技术的快速发展,利用密集的遗传标记,如单核苷酸多态性(SNPs)进行全基因组连锁扫描已成为可行和经济的方法。由于有大量密集的遗传标记(如snp),一些标记可能会落入因果遗传变异的LD区;因此,对于许多标记,LD一般都存在一定程度。因此,TDT和TDH测试将比只有效利用IBD信息的经典连锁测试具有更大的优势。
2.方法
2.1.符号
我们假定有两个等位基因和在标记位点和等位基因是特别有趣的。让表示受影响儿童的人数,让表示未受影响儿童的数量,并让表示家族中兄弟姐妹的人数.在每个家庭中,所有的孩子都在标记位点进行了分型,但PMG可能可用,也可能不可用。让为随机变量,表示受基因型影响(或未受影响)儿童的数量家族. 小写字母(即。,和)用来表示的观测值和.此外,让和表示随机变量和观察到的基因型儿童数量家族,分别。表示受影响儿童的等位基因(即).这里介绍的符号与Knapp一致[10,11]和汉[16].
2.2.具有完整PMG的TDH试验
为了完整起见,我们首先考虑PMG与儿童标记基因型同时观察的情况。让是等位基因的数量由Th标记为受影响儿童的杂合亲本。当确切的数字的标记等位基因因此,不能确定是否会传染给受影响的儿童,因为在双亲为杂合子的家庭中可能会发生这种情况可以用来替换吗.使用在有模糊传输的家庭中,TDT统计量可表示为在哪里 传播异质性检验(THT)统计量记为在哪里 在那里下鉴于亲本标记基因型(PMGs),见表1.
|
||||||||||||||||||||||||||||
传输不平衡/异质性(TDH)测试基于以下测试统计[4]:
统计最优性方面,可以看出TDH检验是传递不均衡和异质性下混合似然函数的有效得分检验[4].理论上,有效的分数测试被认为是本地最强大的。
2.3.重构组合TDH (RC-TDH)测试
当父母中至少有一人PMG缺失时,Knapp [10]提出了一种重建组合TDT(RC-TDT),以从其后代的基因型重建PMG,并纠正使用重建PMG产生的偏差。为了提高连锁检测能力,我们提出了重建组合TDH测试(RC-TDH),使用以下测试统计量: 在哪里表示标记等位基因的数量在受影响的儿童中,表示适当的零期望值和方差,如Knapp的表1和表2所示[10].在RC-TDH统计中,第一项为Knapp的RC-TDT统计[10],第二项是有限制的RC-THT统计量。得到合适的零期望,我们需要推导的条件分布给定重构约束条件.
当一个亲本基因型缺失且可重构时,该基因型的条件概率列于附表2.请注意家族索引已在表中的公式中删除2。在第一列中,第一个亲本基因型被分型,第二个亲本基因型被重建。第二列为后代中观察到的标记基因型提供了一个必要和充分的条件,以允许亲本基因型的重建。衍生的详细信息见[16].
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
当两个亲本基因型都缺失时,重建条件和条件概率是否与缺失一个亲本基因型而已知亲本基因型相同.
当至少一个父母基因型缺失且无法重建,但S-TDT的条件满足时(即,该家族中至少有一名受影响儿童和至少一名未受影响儿童,并非所有儿童都具有相同的基因型),基因型的分布可通过超几何分布使用受影响和未受影响的儿童基因型计算。详情见附录部分。
与C-TDT和RC-TDT一样,不属于上述类别的族将被忽略。
3.遗传分析的应用Workshop 14数据
将提出的RC-TDH测试应用于遗传分析工作坊14 (GAW14)数据集,并与RC-TDT进行比较。GAW14模拟数据是由David Greenberg博士生成的。一种行为障碍已经在四个不同的群体/群体的多次重复中被模拟。在Aipotu、Karnagar和Danacaa的数据集上有100个家庭。每个数据集有100个副本。用RC-TDH和RC-TDT分析性状b病等位基因与标记B01T0561的连锁关系的功率比较结果见表3..该性状与不完全外显性.RC-TDH的应用如表所示3.50%和100%缺失亲代基因型。功率是基于0.05水平的I型误差。
|
|||||||||||||||||||||||||||||||||||||||
| 在100% PMG缺失的研究中,我们忽略了所有亲本标记基因型。在50% PMG缺失的研究中,我们使用了50%有亲代标记基因型的家庭和50%没有亲代标记基因型的家庭。 |
|||||||||||||||||||||||||||||||||||||||
4.模拟
4.1.仿真设置
进行了仿真研究,比较了提出的RC-TDH测试和RC-TDT测试的功率。为了得到正确的I型错误率,我们直接模拟了无连杆零假设下的临界值,其中(复合频率)= 0.5。在零分布模拟中,产生了100万个核族样本的重复,并得到了经验临界值。基于500个独立的重复和经验临界值,我们使用超过经验临界值的模拟测试统计数据的相对频率来估计测试的能力。
生成基于族的数据的步骤,如早期工作中所述[5],我们考虑两个双等位基因位点:一个疾病位点(带有疾病等位基因正常等位基因)和一个标记位点(具有等位基因和).疾病等位基因的频率是标记等位基因是.连杆不平衡是指连杆的频率偏差平衡值的单倍型(偶然期望)。定义参数, 在我们的模拟中,我们假设等位基因在吗与.因此,的范围参数是在,其中0表示连杆平衡。有三个外显率参数,,和,与三种可能的疾病基因型相对应。
模拟研究1密切遵循Boehnke和Langefeld使用的方法[15].每个模型对应一个疾病流行率5%是假设的。这种疾病的等位基因频率每个疾病模型的结果都可以通过.本模拟研究中使用的参数总结见表4.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
模拟研究2中使用的参数总结见表5.这里使用四种常用的疾病模型:显性()、添加剂(,乘法()和隐性()模型。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.2.仿真结果
表格6给出了在0.05、0.01和0.001显著水平下对RC-TDH的临界值的估计。表格7给出了真实I型错误率的估计值,标称显著性水平为.05、.01和.001。仿真结果支持用标准正态分布近似RC-TDT的零分布的有效性。
|
||||||||||||||||||||||||||||
| 注:确定的基础上占主导地位的模型(表中的场景44). |
||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 在此基础上确定了占主导地位的模型(表中的情景4)4). |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
模拟研究1的结果如表所示8.疾病模型表示为,” “”和“遗传模式(即显性、加性和隐性);的值为" 1 "和" 2 "(即1.0和0.5).给出的结果来自于每个家族中有4个同胞的模拟,其趋势与每个家族中有2个或6个同胞的趋势相同。在没有亲本基因型信息的情况下,应用RC-TDH而不是RC-TDT会导致一致的功率增益,尤其是当连锁不平衡他很虚弱。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
(占主导地位),(隐性),(添加剂);: 1 (1.0), 2 (0.5);基于150个核心家族的500个独立重复,i型错误率为0.05。是连杆不平衡的度量。当,不存在连锁不平衡。在本次模拟研究中,缺失了所有亲本标记基因型。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们进行了仿真研究2,基于Table,根据不同场景下的连锁不平衡情况,比较本文提出的RC-TDH测试与RC-TDT测试的功率5如紧密连锁与弱连锁、完全外显率与不完全外显率。每个模拟样本包含有相同数目的兄弟姐妹()在每个家庭),以是否有受影响的儿童为依据。每个样本共有600名儿童。200个家庭中有一半的家庭有完整的PGM,有一半的家庭没有PGM。为了评估测试的能力,将在不同的模拟场景下生成500个重复示例。对于每个重复样本,计算采用提出的RC-TDH和RC-TDT得到的统计量。
比较RC-TDH和RC-TDT在不同温度下的功率级别,我们设置了在0和1之间,重组分数为0.01,等位基因的频率在0.1,等位基因频率在0.5,外显率为基因型在完全外显率为1时,外显率为基因型0.01,然后是基因型外显率可以由继承的方式来决定。表中的结果9和图1表明功率随,并且提出的RC-TDH比RC-TDT更强大,尤其是当是弱的,如Table4.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 在这个模拟中,我们使用了50%有亲本标记基因型的家庭和50%没有亲本标记基因型的家庭。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
外显率是给定特定疾病基因型观察到表型的条件概率。在场景1中,我们设置(标记基因型为为1,这是理想主义的外显率。为了比较不同外显率下RC-TDH与竞争对手的功率,从完全外显率到不完全外显率0.5,这更现实。表中的结果9和图2结果表明,所提出的RC-TDH比RC-TDT更有优势,基因型的外显率为一半如表中情景5所示的个人5.
综上所述,我们的仿真结果表明,所提出的RC-TDH在广泛的范围内通常比RC-TDT更强大,联系的紧密程度,以及跨疾病模型。
5.讨论
对于复杂疾病的定位,由于位点的异质性、病因的异质性以及它们的许多其他复杂性和/或组合,一个感兴趣的标记等位基因在杂合子亲本之间的传递概率是不同的,这是常见的[3.,4].在这种传输异质性下,传输可能性通常具有多参数混合模型的形式,有效分数测试具有TDH测试形式的两部分[4].本文研究了一种允许包含重建亲本标记基因型数据的TDH检验,扩展了Knapp的RC-TDT [10,11].通过仿真研究和GAW14数据集验证了该方法的有效性,结果表明,该方法可以在更大范围内提高基于家族的连锁分析能力.此外,仿真研究还表明,无论潜在的遗传模型(如隐性、显性、可加性、倍增性)如何,RC-TDH测试相对于RC-TDT的系统功率优势都是成立的。
与RC-TDT类似,新方法可以利用缺失的亲本信息,这些信息可以从儿童基因型中重建,特别是包括一些具有基因型一致或表型一致同胞的家庭。此外,建议的测试是一种面向同胞关系的方法,不需要指定潜在的遗传模式el;它通过将同胞关系视为一个整体,自然地使用多个同胞。RC-TDH统计的第二部分,测试统计的THT部分,基于IBD的信息。这在受影响同胞对的情况下非常明显,其中THT基本上等同于所谓的均值测试[4,13].
许多其他连锁分析测试,如由Genehunter实施的测试,相对于TDT或TDH的功率相对较低是礼物。事实上,在某种程度上当我们沿着基因组使用密集遗传标记(如SNPs)时,通常会出现这种情况,因为它们的成本越来越低,而且这些密集标记已经非常便宜。有了大量密集遗传标记,一些标记可能会落入阻断了因果变异。当沿着基因组或候选基因区域使用这些负担得起的密集标记时,我们相信,与基于ibd的经典连锁方法相比,RC-TDH在检测基因组连锁信号方面有更好的成功机会。
随着研究人员越来越负担得起高密度SNP阵列,全基因组连锁研究变得越来越普遍。我们的TDH测试具有简单的封闭形式的测试统计数据,在计算上很容易,而且在广泛的范围内具有良好的总体能力.该方法可用于全基因组连锁分析。相比之下,混合似然的似然比检验一般是计算密集型的[5,17].许多现有的链接测试和算法,如Lo等人讨论的似然比测试[5]对于全基因组研究或当基因型标记的数量很大时,计算过于密集。
有可能进一步扩展该方法,使其适用于具有两个以上等位基因的标记,这对研究多基因座的单倍型非常有意义。然而,我们提出的测试已经适用于常用的双等位基因标记;例如,广泛使用的单核苷酸多态性(SNPs)是方便的双等位基因标记。
附录
RC-TDH测试的计算细节
当没有父母被类型化时,条件概率在Knapp的方程(A.6)中得到[10].当只有一个父节点被输入为,对于重构也适用同样的约束条件,因此Knapp [10同样适用。接下来,我们推导出当只有一个父类被类型化为时的条件概率.只有一个父类被键入为的情况明显是因为对称吗和.
. 1。一个亲代基因型已被分型为
请注意家族索引已经在下面的公式中被省略了。
只有一个亲本基因型被分型了,那就是,但缺失亲本的基因型可以重建为,如果至少有一个孩子有基因型至少有一个孩子有基因型.在这里,条件是和.来计算的条件分布,首先计算满足重构约束的概率,:
然后我们计算联合概率和:
计算有三种情况:案例1:,,案例2:,,案例3:,.
因此条件在是
由信用证。至少有一个亲本基因型缺失且无法重建,但满足S-TDT条件
在兄弟姐妹关系中受到影响,未受影响的同胞,同胞总数为.假设在这个同胞关系中,基因型的同胞数量是以及具有基因型的兄弟姐妹的数量是允许是…的数目兄弟姐妹,让是…的数目被归类为受影响的同胞。如斯皮尔曼和埃文斯所述[9,考虑到总数,,,和,数字,可以看作是两项中的一项列联表与边际总数,,,和.因此,分布可以由广义超几何分布得到[18,第47页)。更具体地说,我们有 在Han中可以找到更多的缺失基因型类型和约束下亲本标记基因型重构概率的公式,以及这些公式的详细推导[16].
致谢
该研究部分得到了Stony world - herbert基金会、MPD研究联盟项目基金(1P01 CA108671)、纽约大学癌症中心支持基金(2P30 CA16087)和纽约大学NIEHS中心基金(5P30 ES00260)的支持。JH的研究是作为她在纽约大学博士论文的一部分进行的。
工具书类
- 邵颖,《连锁分析》,载定量风险分析和评估百科全书, John Wiley & Sons,霍博肯,新泽西州,美国,2008。浏览:谷歌学术搜索
- j .奥特人类遗传连锁分析,约翰霍普金斯大学,第三版,1999年。
- E. S. Lander和N. J. Schork,《复杂性状的遗传解剖》,科学,第265卷,第5181号,第2037-20481994页。浏览:谷歌学术搜索
- Shao Y.,“利用混合模型和评分检验对复杂遗传疾病图谱中传播异质性的调整”,美国统计协会会议录,页383-393,2005。浏览:谷歌学术搜索
- “基于家庭的数据的边际似然模型,”人类遗传学年鉴,第67卷,第5期4,页357-366,2003。浏览:出版商的网站|谷歌学术搜索
- R. S. Spielman, R. E. McGinnis,和W. J. eens,“连锁不平衡的传播试验:胰岛素基因区和胰岛素依赖型糖尿病(IDDM)”,美国人类遗传学杂志号,第52卷。3,第506-516页,1993。浏览:谷歌学术搜索
- H. Zhao,“以家庭为基础的协会研究”,医学研究中的统计方法,第9卷,第5期。6,页563 - 587,2000。浏览:出版商的网站|谷歌学术搜索
- W. J. Ewens和R. S. Spielman,《传输/不平衡测试》,载统计遗传学手册毕晓普、D. J.鲍尔丁、C.坎宁斯主编。, John Wiley & Sons,第二版,2003。浏览:谷歌学术搜索
- R. S. Spielman和W. J. Ewens,“在关联存在时对连锁的兄弟姐妹关系测试:兄弟姐妹传播/不平衡测试”,美国人类遗传学杂志,第62卷,第2期,第450-4581998页。浏览:出版商的网站|谷歌学术搜索
- M. Knapp,“遗传/不平衡测试和亲本基因型重建:重建组合遗传/不平衡测试”,美国人类遗传学杂志号,第64卷。3,第861-870页,1999。浏览:出版商的网站|谷歌学术搜索
- M. Knapp,“使用精确的P值来比较重建-联合传输/不平衡测试和同胞传输/不平衡测试之间的功率”美国人类遗传学杂志,第65卷,第5期4,第1208-1210页,1999。浏览:出版商的网站|谷歌学术搜索
- D. Curtis,“在病例对照关联研究中使用兄弟姐妹作为对照”,人类遗传学年鉴第61卷第1期4,第319-333页,1997。浏览:出版商的网站|谷歌学术搜索
- 黄志强和蒋耀强,“适应连锁不平衡的连锁检测:受影响同胞数据的不平衡最大似然二项检验,”美国人类遗传学杂志,第65卷,第6期,第1741-1759页,1999年。浏览:出版商的网站|谷歌学术搜索
- W. C. Blackwelder和R. C. Elston,“对疾病易感性位点的兄弟姐妹连锁试验的比较”,遗传流行病学,第2卷,第2期1, 85-97页,1985。浏览:谷歌学术搜索
- M. Boehnke和C. D. Langefeld,《基于不一致兄弟姐妹对的基因关联图谱:不一致等位基因测试》,美国人类遗传学杂志第62期4、1998年。浏览:出版商的网站|谷歌学术搜索
- j .汉基于家庭的连锁分析,考虑缺失父母信息[博士论文],纽约大学,2005。
- Liu X.和Shao Y.,“可辨识性损失下似然比检验的渐近性”,统计年鉴第31卷第1期3,第807-832页,2003。浏览:出版商的网站|谷歌学术搜索|天顶卫星数学
- w .樵夫概率论及其应用概论,第1卷,约翰威利和儿子,纽约,纽约,美国,第三版,1968。浏览:天顶卫星数学
版权
版权所有©2012韩静,邵永照。这是一篇发布在知识共享署名许可协议,允许在任何媒介中不受限制地使用、分发和复制,前提是原作被正确引用。