池的设计和统计分析下一代测序罕见变异

文摘

下一代测序(上天)是一项革命性的技术,生物医学研究。总会在的一个高度的应用程序是基于混合DNA样本检测疾病相关。然而,一些关键问题需要解决汇集挥动。其中之一就是跨基因组测序错误率高,其高可变性位置和实验运行,,如果不考虑在实验设计和分析,可能导致夸大假阳性或损失统计力量。另一个重要的问题是如何测试协会一群罕见变异。为了解决第一个问题,我们提出了一种新的阻塞池设计的多个池DNA样本病例和控制是测序同样在门店功能单元。为了解决第二个问题,我们提出了一个测试程序,不需要个体的基因型,而是利用多个DNA池。通过仿真研究中,我们证明了我们的方法提供了一个良好的控制类型我错误率,和收益率满意的力量相比,基于个体的基因型。我们的结果也为设计一个高效的集中提供指导。

1。介绍

理解人类疾病的基因变异的作用提供了有价值的见解疾病的病因。下一代测序(门店),也称为大规模并行测序,是一项革命性的技术,生物医学研究(1]。大量的低成本的生产对于很多应用程序读取使门店有用。最重要的应用之一是识别DNA变异负责人类疾病(2]。然而,它仍然是非常昂贵和耗时的个人基因组测序所需的大量的个人实现合理的统计力量识别疾病变异的常见疾病3,4]。典型的单一经营的收益是非常高(例如,超过200亿个碱基可以获得常规illumina公司基因组分析仪(GA) II))。的吞吐量最小的功能单位,例如,一个“道”的定序器可以生成数据总计许多千重覆盖一个小的感兴趣的目标区域,这远远大于所需的基因是一个个体,个体基因型在一个特定的位置将准确预估约为15 - 30倍的报道。在这种情况下,它更高效的同时许多个人的序列多个目标区域。

最大化下一代音序器的力量,一种技术,允许多个DNA样本测序在一起是条形码。条形码结扎每个样本的DNA片段短,sample-specific DNA序列,然后这些DNA片段序列从多个学科中一个测序运行(5]。然而,测序模板制备的成本可能高条形码如果图书馆的建设和条形码必须在排序之前适用于每个人。另一种方法称为“DNA数独”旨在确定罕见变异分配每个多个DNA池,和解码的身份罕见变异根据某一池计划(6- - - - - -8]。因为池所需的数量“DNA数独”来推断的身份一种罕见的变异可能远小于对象的数量,成本降低测序和准备的模板。

筛查疾病相关的基因变异,另一种方法简单序列池DNA样本的病例和控制,分别。这种方法是基于比较的想法估计病例之间等位基因频率和控制实际上没有推断个体的基因型。DNA条形码相比或“数独”,池的方法是更多,那么成本和时间,因此适合于筛查疾病变异。节省成本和时间来自两个来源。首先,估算等位基因频率需要比这更深度覆盖每个调用所需的每个个体的基因型(7]。第二个是努力减少在图书馆准备大量的DNA样本。池的方法,提出了早期高吞吐量SNP数组(9- - - - - -11),但它并没有被广泛接受的SNP阵列技术不提供所需的精度估计的等位基因频率在样品池。门店技术,然而,已经表明,它可以提供一个准确的估计的等位基因频率,如图所示,最近的研究(12- - - - - -14]。合并排序的另一个优点是,它有可能检测罕见变异这可以解释“失踪”遗传,不被当前数组技术。

识别疾病协会汇集门店,必须解决几个关键问题的研究设计和分析方法。总会有较高水平的base-calling错误,非常特定于基因组位置以及实验运行(15]。尽管平均错误率可能不到1%与低质量的过滤基地后,测序错误的结果是在池测序仍然不容忽视,特别是因为测序错误和真正的变体的基地可能混淆彼此在一个大的DNA池。因此,简单地应用一些过滤器消除测序错误可能导致错误的删除基地的真正的变体。而不是试图消除测序错误,这个问题可以通过使用高效解决实验设计和适当的分析方法,以便locus-specific测序错误率可以准确地估计和检测疾病协会纳入统计模型。它显示了我们和其他疾病协会可以有效和高效地检查当测序误差参数可以正确地指定16,17]。然而,目前统计方法通常认为测序误差参数的统计模型是已知的(16]或可以估计通过使用一个内部控制,比如一段质粒DNA,池中(13,17]。因为变化高错误率在基因组的位置以及不同运行/车道挥动仪器,它不是足够使用的平均错误率调整偏差,可能导致膨胀的I型错误率或损失统计力量(16,17]。如何准确地估计位置,具体车道错误率依赖于有效的合并排序的设计。

测序技术的一个主要优势在苏格兰民族党数组,它可以确定小说罕见变异,不存在阵列板。然而,众所周知,单独测试协会的罕见变异的力量是非常有限的由于低发生罕见的等位基因。提高统计能力,提出了许多统计方法同时测试一组近年来罕见变异。其中,“崩溃”的方法定义了一个得分为每个单独的减重或加权和的罕见变异等位基因在目标地区多个职位。这种方法本质上增加了“等位基因频率”池多个变种,因此提高了权力,但这种方法的力量依赖于假设所有罕见的变异等位基因影响方向相同(18- - - - - -23]。为了避免这样的假设往往是不现实的,其他方法如基于基因组距离和检验统计量C- alpha测试提出了(24,25]。然而,这些方法都需要个体的基因型为会计连锁不平衡(LD)在多个变体。因为LD信息主要是迷失在汇集测序,如何测试疾病协会一群罕见变异仍然是一个悬而未决的问题。

在本文中,我们提出了封锁池设计结合条形码和池测序,以及一个新的多元测试程序,测试疾病协会的罕见变异。我们进行了模拟研究,研究新方法在不同情况下的性能。

2。方法

2.1。阻塞池设计

测序错误合并排序的主要问题,因为它有一个显著影响的有效性和效率测试疾病协会(17]。因为真正的变异等位基因测序错误和基地混淆彼此在一个DNA池,它往往是很难区分他们的测序获得一个准确的估计错误率和等位基因频率。然而,如果测序错误率跨多个池是一致的,可以获得更准确的估计通过结合多个DNA池的数据。了解测序错误率跨多个池,我们进行了一项研究,利用GA II系统汇集线粒体DNA序列(mtDNA)从20主题,其mtDNA已经测序之前使用桑格双脱氧法测序一个ABI3730XL [15]。汇集mtDNA样本被多路复用条形码在2池/巷和复制到另一个车道在不同流细胞。使用Sanger测序的结果作为参考,数据表明,locus-specific base-calling错误率非常一致的两个池之间多路复用一个车道,但在不同流动细胞不同两车道。此外,测序错误率在基因组的位置有一个显著的变化。虽然大多数的职位有一个错误率低于1%,它可以高达20%,这表明使用所有基因位置的平均错误率占测序错误没有足够的测试疾病相关,即使这样的出错率估计从片段的质粒DNA的内部控制13,16,17]。

基于数据汇集mtDNA测序研究,我们建议把池和条形码序列方法多个DNA池的病例和控制在一个车道与每个池索引。这个实验设计可以看作是屏蔽设计,这是提高统计有效性以及权力,尤其是当一个大的块之间的可变性(这里车道)存在26]。与多个池索引在一个车道,测序错误基本上是一致的跨多个索引池,而基地真实变异等位基因可能会有所不同,因为不同的等位基因的数量很可能在不同的采样池。阻塞池设计的想法是,每个池可以作为其他池的控制在同一块消除测序错误的影响,并最终提高有效性和效率的测试疾病协会。此外,一个不平衡池设计(不同大小的池)可以被认为是获得一个更精确的估计的测序错误率。例如,一个游泳池和一个人另一个池与大量的人可以多路复用在一个车道。在这个设计中,池和一个人作为控制准确估算测序错误率,而池与大量的个人提供了准确估算等位基因频率数据。池与少量的个人可以提供更准确的估计的测序错误率。由于有等位基因频率的差异(例如,0、0.5或1个人)和测序错误率。在理想的情况下,没有测序错误,平衡池设计提供了最有效的等位基因频率的估计,因为深度报道为每个单独的一致。然而,在测序错误的存在是必要的平衡估算等位基因频率,估算测序错误率,获取最佳关联的结果。阻止我们经验评估的重要性参数设计方面的偏差和标准误差(SE)估计的测序错误率和等位基因频率。

2.2。估计测序错误率和测试单一协会的变体

病例对照研究,让一个主题的表型是用分别为例或控制。我们感兴趣的问题是否变异等位基因与疾病相关联。让群体的等位基因频率。协会的统计假设测试可以通过检查如果情况下有不同的频率的变异等位基因控制,可以写成与。

让染色体的总数,让是变异的等位基因的数量在一个感兴趣的轨迹池的组。合并排序,是未知的,必须从测序读估计。我们假设情况下分配和控制和池,分别索引在一个测序的车道。测序后,测序基地轨迹的观察的基地报告的等位基因变体池。估计测序错误率()和等位基因频率(),我们考虑一个简单的EM算法,给出的(0)最初的和,(1)E步骤在哪里捐赠,(2)M步 (3)迭代更新和直到收敛。

用于测试疾病协会的一种罕见的变异,我们提出了一个简单的测试程序基于参数引导(PB),它被定义为以下步骤:(1)估计测序错误率和等位基因频率零假设下的DNA池上面的EM算法;(2)计算检验统计量;(3)抽样和计算检验统计量。首先,每个池的变异等位基因的数量从采样;然后从采样;最后计算是基于;(4)(3)多次复制和估算价值的比例。

2.3。测试协会多个罕见变异

因为统计力量来检测疾病协会的罕见变异个体往往是有限的,是很有用的,共同测试协会一群罕见变异,例如,在一个外显子或罕见变异基因。我们的测试数据是基于值的个体变异。让是值变异。定义的测试数据在哪里的元素是相应的上部隐蔽分数从价值,在这变量的权重吗。因为每个变体的功能信息通常是不可用的,一种合理的方法是给同等重量变异的变异,因为它不是偏见预计将更加相关的疾病。值得注意的是,这个测试数据是在精神接近许多测试统计数据基于个体的基因型,如拉斯维加斯统计(27),经验贝叶斯Goeman提出的分数统计(2006)(28),统计基于基因组的距离(29日),基于逻辑内核机器检验统计量(30.,31日),以及- alpha测试(24]。

当多个罕见变异在连杆平衡(没有关系),统计遵循一个标准的正态分布。问题是,当多个罕见变异在LD,价值不能得到基于标准的分布。置换过程随机洗牌疾病状态常被用来解释基因变异之间的相关性。然而,这样一个过程需要在汇集测序的个体的基因型。相反,我们可以采用蒙特卡罗方法通过模拟测试统计的个体变异在虚假设条件下多元正态分布来评估价值。在这种方法中,我们模拟多元正态分布向量均值为0,方差,矩阵的两两相关性。为此,我们使用柯列斯基分解:一个向量R的独立标准正态分布的随机变量是首先生成;然后乘以的柯列斯基分解矩阵。模拟计算检验统计量基于多元正态分布向量。大量的多元正态向量是模拟,和经验值是由模拟测试数据的比例超过了观察到的检验统计量。

统计面临的挑战是如何估计协方差矩阵没有个体的基因型。通过治疗单一池作为样本单位,我们估计协方差矩阵基于变异的等位基因池的数量,而非等位基因的个体的数量。一种选择是标准的无偏经验协方差矩阵与条目定义为 ,这估计变异等位基因的数量吗变体的池。然而,这无偏估计是低效的,特别是因为池的数量通常是相对较小的。因为罕见突变通常发生在不同区域内的目标进行单(32),因此他们的相关性往往很低。这让我们使用一个经验贝叶斯收缩估计的协方差,这可能提供更好的平衡效率和偏见33]。提出的收缩估计是以下形式: 在哪里是收缩的强度。这经验贝叶斯估计的想法是,当数据不提供相关的证据的变体,估计是缩小向一个单位矩阵,可能有效估计量独立性的假设下的变体。值得注意的是,这个估计是相当于提出的谢弗(34]。

2.4。模拟

我们进行了模拟研究,研究不同参数的影响池设计的评估排序误差率和等位基因频率以及疾病相关的测试的有效性和效率。对于每一个复制,每个池的池测序读模拟在以下两个步骤:生成的个体的基因型是第一次在哈迪温伯格平衡;每个池的测序读独立被生成。样本大小是500例病例和500例对照;人包括在不同数量的DNA池下平衡或不平衡设计。不平衡的设计,池包括单一科目的一半,剩下的人平均分配给另一半池。我们设置读取的数据是一致的交叉池。我错误率和权力的类型将被复制的比例有一个评估值小于0.05的显著水平。对于每一个模拟的情况,1000年的过程重复复制。

PB的性能测试是检查测试单一变量下的不同类型的设计不同的等位基因频率(1%和5%),测序错误率(0.5%和1%),深度报道/染色体(5、10和20×),和数量的池(2,10到40)。我错误率评估类型,我们模拟了测序读没有联系的零假设下,在这情况下例和控制有相同的等位基因频率。相比之下,我们也认为是一个天真的费舍尔(FN)的测试,是基于等位基因频率估计没有考虑到测序错误,确切概率法的基础上考虑到测序错误的估计等位基因频率(FE),并根据真实确切概率法个体的基因型(英尺)。FN的测试中,变异等位基因的数量直接读取的比例估计报告等位基因的变体。铁的测试中,变异等位基因的数量是基于等位基因频率估计的EM算法;和英国《金融时报》测试假定每个个体的基因型是已知的,因此变异等位基因的数量可以简单地计算。评估的权力,我们固定的等位基因频率控制,但允许等位基因频率在不同情况下,以产生不同的效应大小。

PB的性能测试是检查测试多个变体。不同数量的变异和不同的相关性。模拟相关变量,一组变量抽样从多元正态分布意味着0和协方差,等于两两相关性(或0.5)。二歧的正常生成的单体型是变量基于等位基因频率的情况下和控制。每个DNA池的基因型,从大量的随机抽样单体型和读取每个变体被独立采样。我们检查了多元测试基于三种不同的协方差矩阵估计无偏经验协方差的估计(E)、独立的矩阵(我)和收缩估计(年代)和比较他们与Bonferroni调整单独的变种测试(最低P)。

3所示。结果

3.1。估计测序错误率和等位基因频率

表1礼物结果估算测序错误率和等位基因频率的平衡和不平衡的混合序列的设计在不同的测序深度报道,池,等位基因频率,并测序错误。正如所料,不平衡池设计有小偏差估计的测序错误比平衡设计。例如,当等位基因频率和测序出错率都是1%,池的数量是10,不平衡设计的偏差< 0.0001,而平衡的偏差设计−0.0074。此外,SE序列错误率的不平衡设计相当的平衡设计。有趣的是,等位基因频率的偏差的不平衡设计也小于平衡设计和他们的SEs可比。令人惊讶的是,双方的偏见和SE序列错误率和等位基因频率没有显著提高了增加池的数量从2到40。正如所料,偏差和SE测序错误率和等位基因频率与越来越倾向于降低测序覆盖。


深度的报道	池数量	θ	e	不平衡的设计				平衡设计
深度的报道	池数量	θ	e		偏差(e)	SE (e)	偏差(θ)	SE (θ)	偏差(e)	SE (e)	偏差(θ)

5×		0.01	0.005	0.0000	0.0015	0.0002	0.0029	−0.0011	0.0007	0.0011	0.0019
	2		0.01	−0.0001	0.0020	0.0001	0.0034	−0.0063	0.0014	0.0062	0.0025
		0.05	0.005	−0.0002	0.0014	0.0002	0.0046	−0.0011	0.0056	0.0010	0.0062
			0.01	−0.0002	0.0019	0.0002	0.0051	−0.0066	0.0054	0.0061	0.0060
		0.01	0.005	−0.0001	0.0014	0.0003	0.0028	−0.0009	0.0024	0.0011	0.0029
	10		0.01	0.0000	0.0021	0.0003	0.0034	−0.0074	0.0027	0.0078	0.0033
		0.05	0.005	0.0002	0.0014	−0.0004	0.0047	0.0084	0.0116	−0.0076	0.0108
			0.01	0.0000	0.0020	−0.0001	0.0051	0.0031	0.0127	−0.0032	0.0119
		0.01	0.005	0.0002	0.0014	−0.0001	0.0027	0.0007	0.0017	−0.0003	0.0017
	40		0.01	0.0001	0.0020	0.0001	0.0034	−0.0005	0.0033	0.0010	0.0038
		0.05	0.005	0.0019	0.0015	−0.0018	0.0046	0.0098	0.0063	−0.0078	0.0058
			0.01	0.0009	0.0020	−0.0005	0.0048	0.0090	0.0079	−0.0073	0.0072

10×		0.01	0.005	−0.0001	0.0010	0.0002	0.0020	−0.0006	0.0002	0.0006	0.0012
	2		0.01	−0.0001	0.0014	0.0001	0.0025	−0.0056	0.0001	0.0055	0.0014
		0.05	0.005	−0.0001	0.0010	0.0000	0.0033	0.0002	0.0035	−0.0002	0.0038
			0.01	−0.0001	0.0014	0.0004	0.0035	−0.0049	0.0033	0.0045	0.0039
		0.01	0.005	0.0000	0.0010	0.0000	0.0020	−0.0003	0.0017	0.0004	0.0019
	10		0.01	0.0000	0.0014	0.0000	0.0024	−0.0074	0.0023	0.0076	0.0029
		0.05	0.005	0.0000	0.0010	0.0001	0.0032	0.0041	0.0093	−0.0037	0.0087
			0.01	−0.0001	0.0014	0.0001	0.0037	−0.0010	0.0101	0.0009	0.0093
		0.01	0.005	0.0000	0.0009	0.0001	0.0017	0.0006	0.0010	−0.0001	0.0008
	40		0.01	0.0000	0.0014	0.0002	0.0023	0.0002	0.0015	0.0001	0.0011
		0.05	0.005	0.0006	0.0011	−0.0004	0.0032	0.0035	0.0021	−0.0021	0.0024
			0.01	0.0003	0.0016	0.0000	0.0035	0.0025	0.0032	−0.0015	0.0032

20×		0.01	0.005	−0.0001	0.0006	0.0001	0.0014	−0.0003	0.0001	0.0003	0.0009
	2		0.01	−0.0001	0.0010	0.0001	0.0017	−0.0053	0.0000	0.0052	0.0010
		0.05	0.005	0.0000	0.0007	0.0001	0.0024	0.0000	0.0023	0.0000	0.0027
			0.01	−0.0001	0.0010	0.0001	0.0025	−0.0051	0.0014	0.0047	0.0021
		0.01	0.005	−0.0001	0.0007	0.0001	0.0014	−0.0002	0.0011	0.0003	0.0011
	10		0.01	0.0000	0.0010	0.0000	0.0017	−0.0074	0.0026	0.0076	0.0032
		0.05	0.005	0.0000	0.0007	0.0000	0.0023	0.0003	0.0034	−0.0002	0.0035
			0.01	0.0000	0.0010	0.0001	0.0026	−0.0047	0.0042	0.0043	0.0042
		0.01	0.005	0.0001	0.0006	0.0000	0.0010	0.0004	0.0007	0.0000	0.0004
	40		0.01	0.0000	0.0009	0.0001	0.0013	0.0002	0.0009	0.0000	0.0005
		0.05	0.005	0.0002	0.0008	−0.0002	0.0022	0.0019	0.0013	−0.0006	0.0014
			0.01	0.0002	0.0011	−0.0001	0.0024	0.0009	0.0019	−0.0003	0.0017

3.2。测试单个变体

3.2.1之上。I型错误率

经验类型我出错率在0.05的显著性水平如表所示2。一般来说,英国《金融时报》测试往往是overconservative等位基因频率很低。当的深度覆盖相对较低(5×),铁的测试通常有一个非常可怜的控制类型的我错误率不平衡和平衡设计,部分原因估计的方差变异的等位基因的数量不是微不足道的由于低的深度报道。FN测试overliberal或者overconservative因为它忽略了测序误差和变异等位基因的数量估计的变体。表2表明,PB的I型错误率测试一直接近0.05的名义水平不平衡的设计,虽然它可以是自由派或保守派平衡设计,这可能是因为平衡设计不能提供一个准确的估计测序错误率和等位基因频率在低的深度报道。增加深度测序(10×20×)报道,菲测试改进控制的I型错误率不平衡设计,虽然还是有点保守的平衡设计。FN测试往往是更为保守的平衡和不平衡的设计越来越深度的报道。PB测试一直保持着良好的控制错误的不平衡设计。


的深度报道	池数量	θ	e	不平衡的设计				平衡设计
的深度报道	池数量	θ	e		PB	英国《金融时报》	FN	菲	PB	英国《金融时报》	FN

5×		0.01	0.005	0.046	0.033	0.041	0.096	0.041	0.036	0.027	0.017
	2		0.01	0.044	0.041	0.024	0.16	0.013	0.028	0.008	0.004
		0.05	0.005	0.053	0.041	0.072	0.086	0.059	0.037	0.049	0.113
			0.01	0.047	0.044	0.062	0.091	0.059	0.042	0.052	0.092
		0.01	0.005	0.048	0.026	0.04	0.111	0.056	0.039	0.025	0.065
	10		0.01	0.057	0.039	0.028	0.152	0.02	0.026	0.012	0.033
		0.05	0.005	0.051	0.037	0.066	0.083	0.09	0.035	0.052	0.302
			0.01	0.046	0.033	0.06	0.093	0.076	0.05	0.048	0.317
		0.01	0.005	0.05	0.029	0.032	0.082	0.049	0.028	0.019	0.044
	40		0.01	0.049	0.03	0.02	0.122	0.072	0.05	0.017	0.133
		0.05	0.005	0.054	0.032	0.065	0.073	0.07	0.044	0.047	0.043
			0.01	0.055	0.032	0.065	0.098	0.083	0.033	0.05	0.088

10×		0.01	0.005	0.045	0.033	0.02	0.066	0.051	0.034	0.01	0.018
	2		0.01	0.04	0.037	0.012	0.107	0.032	0.037	0.011	0.013
		0.05	0.005	0.055	0.042	0.056	0.063	0.057	0.053	0.03	0.055
			0.01	0.039	0.042	0.034	0.056	0.04	0.045	0.033	0.051
		0.01	0.005	0.05	0.032	0.016	0.072	0.061	0.045	0.021	0.062
	10		0.01	0.045	0.037	0.016	0.098	0.012	0.031	0.006	0.032
		0.05	0.005	0.051	0.046	0.052	0.067	0.066	0.042	0.044	0.168
			0.01	0.048	0.039	0.04	0.071	0.059	0.042	0.03	0.181
		0.01	0.005	0.043	0.036	0.023	0.051	0.048	0.026	0.012	0.034
	40		0.01	0.05	0.032	0.01	0.079	0.053	0.026	0.003	0.035
		0.05	0.005	0.041	0.042	0.04	0.049	0.06	0.049	0.039	0.045
			0.01	0.051	0.047	0.041	0.065	0.053	0.033	0.031	0.046

20×		0.01	0.005	0.06	0.024	0.018	0.054	0.058	0.033	0.015	0.037
	2		0.01	0.036	0.034	0.008	0.049	0.014	0.031	0.003	0.006
		0.05	0.005	0.043	0.036	0.039	0.043	0.045	0.035	0.032	0.036
			0.01	0.054	0.039	0.043	0.054	0.037	0.04	0.026	0.035
		0.01	0.005	0.045	0.025	0.014	0.047	0.061	0.03	0.015	0.051
	10		0.01	0.05	0.04	0.004	0.058	0.011	0.026	0.004	0.034
		0.05	0.005	0.043	0.035	0.034	0.041	0.055	0.038	0.036	0.05
			0.01	0.06	0.041	0.036	0.064	0.048	0.038	0.029	0.051
		0.01	0.005	0.051	0.023	0.012	0.035	0.042	0.036	0.013	0.034
	40		0.01	0.054	0.033	0.002	0.052	0.039	0.022	0.002	0.023
		0.05	0.005	0.052	0.033	0.045	0.049	0.061	0.046	0.038	0.036
			0.01	0.052	0.04	0.034	0.056	0.052	0.048	0.039	0.043

3.2.2。权力

我们只计算不平衡的铅测试设计的力量,因为平衡的设计并没有提供一个良好的控制类型的错误率。作为参考,英国《金融时报》测试假定个体基因型是观察比较。

图1显示了测试的经验的铅测试协会单一的变异。因为混杂效应的测序错误估计的不确定性的变异等位基因的数量在一个池,PB测试通常不如英国《金融时报》强大的测试。然而,损失功率降低降低测序错误率或越来越测序深度的报道。PB测试没有明显不同的力量之间的各种数字的池,特别是池的数量是10到40。PB测试之间的差异权力和英国《金融时报》的测试似乎更明显更常见的变异,这可能是由于保守的英国《金融时报》测试的测试相对罕见变异。两个版本的确切概率法的结果基于变异的等位基因的数量估计没有这里介绍,因为他们通常有一个贫穷的I型错误率的控制权。然而,调整后的I型膨胀率往往不如拟议中的PB强大的测试,特别是罕见变异,因为保守倾向的确切概率法本身尤其是罕见变异(数据没有显示)。

图1

e 经验能力在5%的水平参数引导(PB)测试的函数之间等位基因频率的差异情况和控制在各种测序错误率,号码池,深度测序覆盖测试协会。样本大小是500例和500控制。于次要的等位基因频率的控制设定在0.01和0.5,测序错误率()被设置为0.005和0.01;和数量的池被设置为2,和40。线用不同的颜色显示的力量PB测试在不同深度的报道,这是相比的确切概率法(线)基于真正的个体基因型(英尺)。

3.3。测试多个变体

3.3.1。I型错误率

经验类型我出错率在0.05的显著水平测试多个协会的罕见变异如表所示3。多变量PB测试基于经验协方差的无偏估计最坏的表现,太自由当多个罕见变异在连杆平衡,虽然在LD overconservative当变异。这是更明显的测序时出错率高(1%)。正如所料,测试基于一个身份协方差矩阵有一个很好的控制我错误率当多个变量的类型是不相关的,但它往往是自由变体在有限的单独的变种测试基于Bonferroni调整是一贯保守的变体在LD或连杆平衡。与其他测试相比,多元铅测试基于收缩估计的最佳性能。结果类似于不同数量的池的不平衡设计。正如所料,提高了I型错误率测试基于实证估计的协方差与越来越多的池。PB测试基于收缩估计保持良好的控制类型的错误率。


数量的池	数量的变体	深度	θ	e	不相关的				相关(ρ= 0.5)
数量的池	数量的变体	深度	θ	e		E	我	年代	最小值	E	我	年代

10		5×	0.01	0.005	0.058	0.038	0.039	0.037	0.051	0.067	0.062	0.036
				0.01	0.051	0.045	0.045	0.034	0.046	0.05	0.046	0.035
			0.05	0.005	0.062	0.052	0.058	0.048	0.028	0.046	0.038	0.04
				0.01	0.072	0.042	0.044	0.042	0.062	0.034	0.07	0.056
		10×	0.01	0.005	0.065	0.053	0.056	0.035	0.033	0.038	0.035	0.038
	5			0.01	0.057	0.043	0.044	0.042	0.037	0.053	0.043	0.04
			0.05	0.005	0.066	0.048	0.048	0.046	0.03	0.06	0.04	0.046
				0.01	0.07	0.052	0.052	0.06	0.032	0.072	0.052	0.052
		20×	0.01	0.005	0.063	0.049	0.052	0.039	0.039	0.058	0.045	0.035
				0.01	0.069	0.049	0.049	0.036	0.032	0.045	0.042	0.041
			0.05	0.005	0.054	0.042	0.042	0.042	0.038	0.066	0.048	0.064
				0.01	0.076	0.06	0.06	0.042	0.018	0.05	0.03	0.032
		5×	0.01	0.005	0.071	0.05	0.049	0.03	0.027	0.049	0.045	0.036
				0.01	0.064	0.051	0.052	0.023	0.03	0.049	0.043	0.036
			0.05	0.005	0.066	0.048	0.048	0.066	0.008	0.046	0.028	0.058
				0.01	0.068	0.044	0.048	0.036	0.02	0.082	0.062	0.05
		10×	0.01	0.005	0.063	0.058	0.058	0.04	0.024	0.063	0.05	0.045
	10			0.01	0.062	0.05	0.049	0.036	0.02	0.049	0.039	0.043
			0.05	0.005	0.064	0.054	0.052	0.048	0.014	0.056	0.044	0.044
				0.01	0.082	0.068	0.066	0.05	0.016	0.056	0.032	0.04
		20×	0.01	0.005	0.067	0.048	0.049	0.041	0.021	0.06	0.041	0.049
				0.01	0.067	0.046	0.045	0.038	0.022	0.053	0.04	0.026
			0.05	0.005	0.066	0.044	0.046	0.046	0.008	0.06	0.04	0.05
				0.01	0.098	0.078	0.084	0.044	0.008	0.068	0.038	0.044

20.		5×	0.01	0.005	0.058	0.053	0.052	0.048	0.037	0.055	0.05	0.039
				0.01	0.052	0.048	0.05	0.049	0.028	0.044	0.037	0.041
			0.05	0.005	0.057	0.047	0.048	0.061	0.027	0.058	0.046	0.053
				0.01	0.058	0.051	0.047	0.044	0.026	0.055	0.044	0.047
		10×	0.01	0.005	0.052	0.043	0.045	0.031	0.039	0.06	0.052	0.058
	5			0.01	0.05	0.041	0.041	0.054	0.029	0.046	0.043	0.037
			0.05	0.005	0.048	0.038	0.04	0.044	0.025	0.055	0.045	0.054
				0.01	0.051	0.042	0.043	0.044	0.025	0.063	0.042	0.051
		20×	0.01	0.005	0.058	0.051	0.05	0.035	0.034	0.053	0.046	0.042
				0.01	0.051	0.04	0.038	0.035	0.026	0.043	0.041	0.041
			0.05	0.005	0.051	0.049	0.05	0.042	0.022	0.056	0.037	0.047
				0.01	0.054	0.045	0.041	0.042	0.02	0.055	0.034	0.044
		5×	0.01	0.005	0.068	0.06	0.058	0.024	0.03	0.058	0.046	0.03
				0.01	0.07	0.046	0.048	0.044	0.024	0.048	0.044	0.034
			0.05	0.005	0.08	0.06	0.65	0.052	0.012	0.062	0.04	0.038
				0.01	0.054	0.048	0.046	0.036	0.025	0.066	0.046	0.038
		10×	0.01	0.005	0.064	0.048	0.05	0.038	0.02	0.046	0.032	0.036
	10			0.01	0.076	0.05	0.054	0.048	0.02	0.068	0.054	0.034
			0.05	0.005	0.068	0.052	0.05	0.044	0.008	0.072	0.038	0.032
				0.01	0.08	0.048	0.052	0.05	0.01	0.07	0.038	0.05
		20×	0.01	0.005	0.056	0.054	0.052	0.042	0.022	0.04	0.034	0.036
				0.01	0.072	0.06	0.06	0.04	0.028	0.064	0.052	0.028
			0.05	0.005	0.074	0.054	0.06	0.038	0.026	0.09	0.054	0.038
				0.01	0.044	0.038	0.038	0.046	0.014	0.074	0.034	0.034

3.3.2。权力

图2显示了测试的经验的力量不同的测试多个变体在不同数量的池,协会的变体,测序错误率,深度测序的覆盖率,和相关结构。一般来说,单独的变种与Bonferroni调整测试方面的最差表现能力,这可能是由于两个原因:首先,它不使用所有变异的积累效应;第二,它有一个保守的I型错误率。在不同的多变量测试,测试基于协方差的无偏估计一直强大的比其他两个测试,即使它有一种自由我错误率变体在LD(数据没有显示)。测试基于收缩的力量估计和身份协方差矩阵相当当变异在连杆平衡(图2(一个)),但是身份比收缩估计协方差矩阵似乎更强大在特定的变体在LD,这可能是由于测试基于身份的协方差矩阵有一个自由的I型错误率在这种情况下(数据没有显示)。

(一)

(b)

图2

e r 我年代 E 年代经验能力在5%的水平的函数之间的等位基因频率的差异情况下和控制提出铅测试基于不同的协方差矩阵的估计测试多个罕见变异下不平衡设计。控制的等位基因频率是0.01;样本大小是500例病例和500例对照;错误率()被设置在0、0.005和0.01;报道的深度设置为10×20×和池的数量()被设置在5和10。图(一个)显示了PB的力量测试基于身份协方差矩阵()、PB测试基于收缩估计的协方差矩阵()和单独的变种测试Bonferroni调整变异独立的变异(最低的数量)。图(b)显示了PB的力量测试基于实证估计的协方差矩阵()、PB测试基于收缩估计的协方差矩阵()和单独的变种测试Bonferroni调整(最低)变异为独立变量的数量。

4所示。讨论

在本文中,我们解决两个重要问题的测试疾病协会汇集测序的罕见变异。关键问题之一是测序错误率很高,在基因组的位置有很大的可变性。忽略了position-specific测序错误可能导致等位基因频率偏差估计,并最终有偏见的协会可以保守或自由的结果,这是我们模拟所示。另一个重要的问题是,池过程引入了额外的方差估计的变异等位基因数池。忽略变异等位基因的数量的不确定性可能导致一个膨胀的类型我出错率,特别是在案件的测序深度覆盖率很低。仿真结果表明了这个问题的有限元直接测试是基于估计变异等位基因的数量。解决这两个问题,我们提出使用阻塞池设计有效地估计position-specific测序错误率和等位基因频率,连同一个参数引导测试过程考虑到额外的估计的方差变异的等位基因的数量在一个池中。

我们提出了封锁池设计来解决上述两个问题。虽然被设计在本文中讨论了基于车道的流动单元,类似的想法可能会延长细胞考虑流动变化的两大来源:变化之间的通道内流动池和flowcells之间变化。基于阻塞池设计,一个EM算法用于估计position-specific测序错误率利用来自多个池的数据。我们检查了偏差和标准误差估计的测序错误率不同的池设计通过模拟在不同的情况下。直觉,EM算法应该有一个更好的性能在池的数量大,个体在一个池的数量小,因为大池的最小等位基因频率差异和测序错误率。作为结果,我们发现的不平衡设计的一半池包括单一个体可以提供更准确的估计的测序错误率以及等位基因频率,而不牺牲太多的这些估计的方差。以前,我们发现misspecification测序错误更重要影响的统计能力比其他参数合并排序,例如,报道的深度和池的数量17]。因为不平衡设计可以提供更准确的估计错误率和等位基因频率,拟议中的铅测试基于不平衡设计不仅一直保持着良好的控制类型我错误率,但也提供了权力高于平衡设计在各种情况下,即使覆盖率很低的深度(5×)。平衡的设计,提出了PB测试往往是anticonservative低覆盖率数据。因此,我们建议不平衡的屏蔽设计,而不是更常用的平衡设计,应该在实践中使用。汇集测序研究之前,它可能是一个好的策略进行仿真研究来获得最优平衡设计基于测序区域的大小和深度报道。在我们的模拟情况下,给定数量的主题,深度覆盖和类型的设计、池的数量从10到40并未显著提高测序错误的估计速度和等位基因频率,因此这不是一个重要的参数的统计力量。这个结果可能是重要的,因为它表明,汇集测序可以非常划算,包括少量的大量与许多个人和小池与单一的个体在一个不平衡的设计,就是能获得足够的电力。

作为一个罕见的变异可能是对疾病风险较低的边际影响,尤其是遗传异质性的存在,它有利于共同测试一组罕见变异功能部件,如基因或途径。我们延长了PB方法多种罕见变异。与其他多元测试基于个体的基因型,多元铅测试是专为许多稀有变异的情况下出现在目标地区。因为我们的多元测试被定义为的总和分数从单一值,它不依赖于假设影响的方向。即使稀有等位基因的影响在一个方向上一致,比如增加风险,提出测试可以很容易地将这些信息通过使用片面的单身值来定义测试统计。它的另一个优势是,权力不是主要由更多的常见变异与不同的等位基因频率变异时出现在目标地区。因为个体的基因型并不是池中可用测序,排列测试不是一个选择准确的意义估计在LD的场景。我们提出了蒙特卡罗方法通过模拟零检验统计量的分布基于变量之间的协方差估计。这种方法的有效性和效率依赖于如何估计的协方差。因为池,限制数量的测试基于经验协方差无偏估计没有良好控制的类型我错误率,常常导致能量损失。然而,测试基于收缩估计可能会提供一个更令人满意的控制类型我错误率。然而,它保持类似的力量测试基于协方差未知如此。提议的方法的一个担忧是,仿真过程可能导致大规模sequencing-based研究大量计算时间。为了减少计算负担,更有效的方法也可以获得基于收缩估计的协方差矩阵35]。

测试程序依赖于几个假设的不同步骤的重新排序。第一步目标基因组重测序通常是下拉的地区和放大。我们假设对象的特定基因组区域池与同等概率独立放大。一个担忧是异质性的存在DNA量在一个池中。在这种情况下,个人不是均匀池中代表,因此等位基因的重采样方法的假设不同的主题是相同的概率是无效的。实际上,在DNA异质性的存在被发现膨胀量的方差检验统计量,因此导致的错误(数据未显示)。然而,如果多个独立的标记(≥30)测序,可以使用一个类似于基因组的方法控制调整膨胀的方差(36,37]。

总之,我们的研究结果表明,汇集下一代测序与不平衡了设计和适当的分析方法可能是一个有效和高效的工具,用于筛选罕见变异与疾病的关联。与个人测序相比,它是有益的减少成本和时间但不牺牲在统计效率。

承认

t .小王是部分支持CTSA目前格兰特UL1 RR025750和KL2 RR025749和TL1 RR025748从国家研究资源中心(NCRR)的一个组成部分,国家卫生研究院(NIH)和国家卫生研究院医学研究路线图,R21HG006150从国家人类基因组研究所(NHGRI)。提出的代码写在R PB测试可通过电子邮件王涛博士(tao.wang@einstein.yu.edu)。

引用

j . Shendure和h,“下一代DNA测序,”自然生物技术,26卷,不。10日,1135 - 1145年,2008页。视图:出版商的网站|谷歌学术搜索
m . l . Metzker“下一代测序技术,自然遗传学评论,11卷,不。1、脉络,2010页。视图:出版商的网站|谷歌学术搜索
w·波曼和c . Bonilla常见和罕见变异多因子的易感性常见疾病,”自然遗传学,40卷,不。6,695 - 701年,2008页。视图:出版商的网站|谷歌学术搜索
d·r·本特利“全基因组重排序”,当前在遗传学和发展意见》16卷,第552 - 545页,2006年。视图:出版商的网站|谷歌学术搜索
d·w·克雷格·j . v .皮尔森,美国Szelinger et al .,“识别基因变异使用条形码多路复用测序。”自然方法,5卷,不。10日,887 - 893年,2008页。视图:出版商的网站|谷歌学术搜索
k . y .埃利希,a·戈登et al。”DNA数独,利用高通量测序多路复用标本分析,“基因组研究,19卷,不。7,1243 - 1253年,2009页。视图:出版商的网站|谷歌学术搜索
a . Futschik和c . Schlotterer”下一代大规模并行测序的分子标记池DNA样本,”遗传学,卷186,不。1,第218 - 207页,2010。视图:出版商的网站|谷歌学术搜索
n . Shental答:阿米尔,o·祖克”标识的稀有等位基因和他们的运营商使用压缩se ns (,),“核酸的研究,38卷,不。19日,文章ID gkq675, p . e179 2010。视图:出版商的网站|谷歌学术搜索
t .伊藤,s . Chiku大肠井上et al .,“单体型频率估计,连锁不平衡的措施,结合单体型副本每个池的池DNA数据的使用,“美国人类遗传学杂志》上,卷72,不。2、384 - 398年,2003页。视图:出版商的网站|谷歌学术搜索
m . m . s . h . Shaw Carrasquillo, c . Kashuk e . g . Puffenberger和a . Chakravarti”等位基因频率分布在池DNA样本:应用程序映射复杂的疾病基因,”基因组研究,8卷,不。2、111 - 123年,1998页。视图:谷歌学术搜索
d .曾庆红和d . y .林”,估计Haplotype-disease协会联合基因型数据”,遗传流行病学,28卷,不。1,第82 - 70页,2005。视图:出版商的网站|谷歌学术搜索
s e·卡尔沃e·j·塔克a·g·康普顿et al .,“高通量,汇集测序识别突变NUBPL FOXRED1在人类复杂的不足,“自然遗传学,42卷,不。10日,851 - 858年,2010页。视图:出版商的网站|谷歌学术搜索
t . e . Druley f·l·m·Vallania d·j·韦格纳et al .,“量化混合基因组DNA的稀有等位基因变异,”自然方法》第六卷,没有。4、263 - 265年,2009页。视图:出版商的网站|谷歌学术搜索
美国Nejentsev:沃克,d .财富,m·埃霍尔姆和j·a·托德”IFIH1的罕见变异基因涉及抗病毒反应,预防1型糖尿病,”科学,卷324,不。5925年,第389 - 387页,2009年。视图:出版商的网站|谷歌学术搜索
k . t . Wang Pradhan, k, l . j . Wong和t . e .罗汉”估算等位基因频率的下一代测序汇集线粒体DNA样本,”遗传学前沿,卷2,第五十一条,2011年。视图:谷歌学术搜索
郑胜耀金姆,y, y郭et al .,”设计的关联研究池或un-pooled下一代测序数据,”遗传流行病学,34卷,不。5,479 - 491年,2010页。视图:出版商的网站|谷歌学术搜索
c . y . t . Wang Lin t·e·罗翰和k .你们,”排序的池DNA检测疾病协会罕见变异,”遗传流行病学,34卷,不。5,492 - 501年,2010页。视图:出版商的网站|谷歌学术搜索
j·c·科恩,r . s .吻,a . Pertsemlidis y l·马塞尔·r·麦克弗森和h·h·霍布斯“多个稀有等位基因导致低血浆高密度脂蛋白胆固醇的水平,”科学,卷305,不。5685年,第872 - 869页,2004年。视图:出版商的网站|谷歌学术搜索
morgenthal和w·g . Thilly”策略发现基因携带multi-allelic或mono-allelic常见疾病的风险:一群等位基因和测试(CAST),“突变的研究——根本和诱变的分子机制,卷615,不。1 - 2,28-56,2007页。视图:出版商的网站|谷歌学术搜索
b李和s . m . Leal,”检测方法对常见疾病的罕见变异:应用程序序列数据的分析,“美国人类遗传学杂志》上,卷83,不。3、311 - 321年,2008页。视图:出版商的网站|谷歌学术搜索
b·e·马德森和s r·布朗宁groupwise协会使用加权和统计测试罕见突变,”公共科学图书馆遗传学,5卷,不。2篇文章ID e1000384 2009。视图:出版商的网站|谷歌学术搜索
a·p·莫里斯和大肠Zeggini罕见变异分析的统计方法评价基因关联研究,“遗传流行病学,34卷,不。2、188 - 193年,2010页。视图:出版商的网站|谷歌学术搜索
a . l .价格,g . v . Kryukov p . i . w . de et al .,他“联合协会测试exon-resequencing罕见变异的研究,“美国人类遗传学杂志》上,卷86,不。6,832 - 838年,2010页。视图:出版商的网站|谷歌学术搜索
b·m·尼尔·m·a·里瓦斯b·f·沃伊特et al .,“测试一个不同寻常的罕见变异分布”,公共科学图书馆遗传学,7卷,不。第三条ID e1001322, 2011。视图:出版商的网站|谷歌学术搜索
w .锅和x沈,“自适应测试协会罕见变异的分析,“遗传流行病学,35卷,不。5,381 - 388年,2011页。视图:出版商的网站|谷歌学术搜索
b .猎人,Ed。统计实验威利,1987。
j . z, A·f·麦克雷d . r . Nyholt et al .,“通用的基于基因的检测全基因组关联研究”,美国人类遗传学杂志》上,卷87,不。1,第145 - 139页,2010。视图:出版商的网站|谷歌学术搜索
j . j . Goeman s . a . van de吉尔和h c . van Houwelingen“测试对高维的选择,”英国皇家统计学会杂志》上,卷68,不。3、477 - 493年,2006页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
“j·韦塞尔和n . j . Schork广义基因组茎协会基于距离的回归方法分析,“美国人类遗传学杂志》上,卷79,不。5,792 - 806年,2006页。视图:出版商的网站|谷歌学术搜索
林x l . c . Kwee d . Liu, d . Ghosh和m·p·爱普斯坦”一个强大且灵活的茎协会测试量化特征,“美国人类遗传学杂志》上,卷82,不。2、386 - 397年,2008页。视图:出版商的网站|谷歌学术搜索
p . m . c . Wu卡夫,m·p·爱泼斯坦et al .,“强大的SNP-set分析病例对照全基因组关联研究”,美国人类遗传学杂志》上,卷86,不。6,929 - 942年,2010页。视图:出版商的网站|谷歌学术搜索
j·k·普里查德,”负责对复杂疾病的易感性的罕见变异吗?”美国人类遗传学杂志》上,卷69,不。1,第137 - 124页,2001。视图:出版商的网站|谷歌学术搜索
格陵兰岛,“流行病学分析多重曝光的方法:最大似然的审查和比较研究,初步的测试,和Empirical-Bayes回归,”医学统计,12卷,不。8,717 - 736年,1993页。视图:出版商的网站|谷歌学术搜索
j·谢弗和k . Strimmer收缩方法大规模协方差矩阵的估计和对功能基因组学,”统计应用遗传学和分子生物学第三十二条,卷。4日,2005年。视图:出版商的网站|谷歌学术搜索
k . n . Conneely和m . Boehnke”,很多相关的测试,所以没有时间!多个相关测试,快速调整P值”美国人类遗传学杂志》上卷,81年,第1168 - 1158页,2007年。视图:出版商的网站|谷歌学术搜索
b . Devlin和k·罗德,“基因组协会研究控制”生物识别技术,55卷,不。4、997 - 1004年,1999页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
b·德夫林s . a . Bacanu和k·罗德,“基因组控制的极端,”自然遗传学,36卷,不。11日,第1131 - 1129页,2004年,作者回复31页。视图:出版商的网站|谷歌学术搜索

概率论与数理统计》杂志上

先进的设计和统计方法对复杂疾病的基因和基因组研究

文摘