统计方法基于贝叶斯型实证评分测试评定遗传协会多位基因型数据

抽象的

同时测试多种遗传变体的关联被广泛认为是单标测试的有价值的互补方法。因此，已发现主成分回归（PCR）具有竞争力。我们专注于探索所有SNP的未知遗传模式的强大考验，在人口中是一个未知的Hardy-Weinberg均衡（HWE），以及大量的SNP。首先，我们通过使用用于所有标记和PCR的Codominant代码来提出新的全球测试。新的全球测试建立在经验贝叶斯型分数统计上，用于测试每个单个标记的边际关联。通过强大地利用控制群体中的Hardy-Weinberg均衡，并有效地使用试验标记中的联动不平衡。当每个标记的基因型被编码为次要等位基因的数量时，新的全局测试减少到PCR。此连接介绍了相对于PCR的新全球测试的力量和其他一些流行的多星式测试方法。其次，我们提出了一种基于新的全局测试的稳健测试方法和基于预期评分统计学的普通PCR测试，用于测试每个标记的基因型作为每种标记的基因型作为次要等位基因的数量来测试与每个单一标记的边际关联。最低限度这两项测试的值。最后，通过广泛的模拟研究，胰腺癌和某些感兴趣的基因之间的关联分析，我们表明，建议稳健的测试方法有理想的功率，并且常常可以识别出可能被现有方法错过的关联信号。

1.介绍

关联分析，测试多个遗传标记作为集合而不是单独欣赏它们的潜在能力。这些统计方法在很大程度上落入三个课程：总结的课程从各单一标记的测试[值1- - - - - -5，比如霍特林(Hotelling)(标准卡方)统计量[6- - - - - -8]及负担测试[9，10]，以及基于（VC）的多个标志物的联合的关联，诸如方差组件测试的直接测试那些[11- - - - - -13]，序列核心关联测试（SKAT）[14- - - - - -18]和主成分回归（PCR）方法[19- - - - - -21］.这些方法的相对性能已在以前的工作中进行了全面比较[22］.当单核苷酸多态性（SNP）的数量小时，这些方法具有相似的功率;然而，当SNP的数量大时，SNP的效果不是恒定的，并且可以具有不同的方向，多个标记中的连锁不平衡（LD）有点强，并且SNP采用添加剂遗传码。已经发现三种方法，即VC，SKAT和PCR在这种情况下具有竞争力[22，23]. 主要原因是这三种方法都在一定程度上降低了试验的自由度[12］.在这项工作中，我们致力于探索一种对未知的感兴趣SNPs的遗传模式、群体中未知的Hardy-Weinberg平衡(HWE)和大量感兴趣SNPs的健壮性检验。

我们首先在案例控制研究设计下提出了一种新的多SNP测试，我们术语首先是主要的Chi平方测试。主要基于每个SNP的经验贝叶斯方法，主要基于自由度的分数统计数据，并基于每个SNP测试的渐近方差 - 协方差矩阵的特征值分解来衍生全球测试。全球测试通过强大地利用控制人口中的HWE并有效利用所有SNP中的LD来实现改善的力量。我们表示PCHIB的全局测试（参见方法）。除了竞争力之外，由于众所周知的特征值分解方法，PCHIB还可以方便地实施，并容易地通过非氏体群落易于理解。全局测试与标准PCR密切相关，因为当每个SNP编码为次要等位基因的数量时，它降低了PCR的得分试验。这一关系不仅为PCR提供了洞察力，还介绍了PCR的连接，也涉及PCR和基于方差组分的测试。我们表明，这些方法的两类是不相关的CHI平方随机变量的加权组合，每个类别是单个SNP测试的加权组合，其重量等于其关节渐近方差协方差 - 协方差矩阵的特征向量的负载。这一观察，同时支持有记录的结论，两种方法都没有比其他方式更强大22，从理论上揭示了snp之间的LD结构在这些方法的效力中起着关键作用。当真正的疾病致病SNP采用显性和隐性编码时，检测PChiB可以获得理想的效果。当真正的疾病致病SNP采用加性编码时，测试PChiB的效力可能会有所降低。因此，我们提出了一种取最小值的稳健检验方法新的全球检测PChiB的值和普通的PCR前瞻性评分检测，其中每个SNP编码为小等位基因的数量，而不管每个SNP的实际遗传密码。我们用Min2表示稳健性检验。

假设在一个感兴趣的基因组区域的双等位snp是基因分型的例样本和对照样品。让表示二进制病例对照状态( ：案件; ：控制)为样本（ )，哪里，第一个样本为案例，其余为案例样品的控制。表示即SNP小等位基因的数量从样本为，和．设计了一种新的全局检验方法来检验原假设单核苷酸多态性与感兴趣的表型状态不相关，而一个或多个单核苷酸多态性（可能有基因分型，也可能没有基因分型）与感兴趣的表型状态相关。我们为二元病例对照状态和所有SNP拟合了一个普通的逻辑回归模型。

基于检测双等位基因标记的回顾性可能性，将HWE限制纳入对照人群，与标准前瞻性可能性测试相比，显性和隐性遗传模型下的能力可能会增加[24］.为了解决从HWE的偏差可能导致这项测试中膨胀的I型错误率的问题，是一个经验贝叶斯评分测试，它是在HWE约束下的预期似然评分测试和回顾性似然评分测试的数据自适应线性组合，提出[25］.该测试可以在偏离真实环境中观察到的HWE的情况下保持名义I型错误率，并在很大程度上保持隐性遗传模型下的功率增益。在这里，我们新的全局统计数据使用这个测试原则作为构建块。我们期望我们的方法在聚合每个SNP的小功率增益时获得相当大的功率提高。

本文的其余部分安排如下。在结果中，我们证明，通过仿真研究和胰腺癌的数据分析[26，27]，与一些流行的测试相比，所提议的健壮测试通常具有理想的能力。在讨论中，我们进一步讨论了我们提出的测试方法的优点和缺点，并指出了一些未来的研究方向。在方法上，我们详细介绍了新的全局检测方法，并讨论了它与PCR和其他现有方法的联系。并简要介绍了取最小值的鲁棒性检验方法新的全球测试的值和PCR，其中每一单个SNP被编码为次要等位基因的数目的得分测试，而不管每个SNP的实际遗传密码的。

2.结果

2.1. 基于两类主卡方检验的稳健统计方法

对于真实的基因型数据，我们可以先计算前瞻性评分检验，表示为，其中所有SNP都应该采用加法编码。我们表示一致估计的协方差为计算普通主成分回归(PCR)得分统计量，表示为基于所估计的协方差（选择顶部的PC解释的遗传变异性的85％），如Gauderman等人[19]. 第二，我们可以获得PChiP的值，表示为因为PChiP在零假设下渐进地遵循卡方分布。第三，计算以表示的经验贝叶斯得分其始终如一的协方差，其表示为，基于共主导码(见方法)。同样，我们根据估计的协方差计算新的前面提到的主卡方统计量PChiB ．需要注意的尺寸是，我们可以估计PChiB的值，由，因为PChiB也遵循卡方在零假设下渐进分布。最后，我们把最小的两个将PChiP和PChiB的值作为稳健性测试，如下:

我们估计的通过统计排列确定Min2的值。我们进行了广泛的模拟来研究Min2的功率性能。

为了全面查看Min2的性能，我们可以将其与其他4个测试进行比较，即PChiB、PChiP、SSUP(见Methods)和GOLD，其中GOLD的构造如下。假设第一个SNP是满足逻辑回归模型的真实因果SNP ，哪里和表示日志比值比。其它的SNP与基因型第一SNP相关．Gold方法(记为Gold)是基于上述真实统计模型的普通分数测试。显然，在真实的数据分析场景中，我们不知道SNP的原因。GOLD仅在模拟研究中有价值，在实际数据分析中不实用。我们考虑了3种分析基因型数据的方案。首先，我们使用PChiB、Min2、PChiP、SSUP和GOLD分析基因型数据，包括所有SNPs。其次，我们使用PChiB、Min2、PChiP、SSUP和GOLD分析基因型数据，不包括第一个SNP，这是一个致病SNP。第三，我们使用PChiB, Min2, PChiP, SSUP和GOLD分析基因型数据，包括仅标记的SNPs。为了综合评估这5种方法的性能，我们指定了所有SNPSNPs在模拟过程中作为因果SNP。

２.２.仿真过程

我们进行了广泛的仿真研究，通过将Min2的性能与其他4个测试统计量(即PChiB、PChiP、SSUP和GOLD)的性能进行比较，来评估Min2的相对功率。我们考虑的是由国际Hapmap项目CEU样本中所推断的单倍型定义的真实LD结构。我们设置了Kwee等人研究的NAT2基因的单倍型信息[28作为我们模拟的基础。为了生成基于真实单倍型的多位点基因型数据，我们通过HaploView软件估计单倍型及其在基因组区域中的频率[29］.根据完整的NAT2基因snp序列绘制的LD结构图见补充图1(见补充文件)。对于基因NAT2，我们选择SNPs 和共18个snp。表中提供了基于完整单核苷酸多态性及其频率的单倍型1．rs13277605、rs1799930、rs1208、rs1961456和rs2410556是标记snp。


单倍型	频率

443423442114244211	0.279
214242244112422433	0.246
413443444332224231	0.211
214242224112422433	0.092
214243444332222431	0.042
413243444112422233	0.025
413443444332244231	0.018
443423444332224231	0.017
214242244112224233	0.017
413423442134244211	0.011
244242244112422433	0.008
413243224112422433	0.008
413443442332422433	0.008
214242224132422433	0.008
413423422134244211	0.006
214242244132422433	0.002

获得对照样本，我们生成多位点基因型数据如下。让表示估计的单倍型频率集．然后，在HWE下生成每个对照样本的一对单倍型，其中单倍型对的频率采取表格作为和作为．然后删除单倍型相信息，只保留位点特异的基因型数据。生成每个病例样本(总数)的多位点基因型数据 )，我们生成了一对单倍型使用以下概率: 哪里和对于基因型“AA”和“AA”的比值比，“A”是用于所述疾病的因果SNP主要等位基因，“a”是所述疾病的因果SNP的次要等位基因，和指示灯的功能和参考是否单倍型对在致病SNP上分别有(A, A)和(A, A)等位基因组合。

为了评估偏离HWE对PChiB功率的影响，我们额外生成了基于NAT2基因的真实单倍型的多位点基因型数据，如上所述，但带有单倍型对的频率等于在这里是一个指标功能，有如果和如果，和如在真实基因关联分析研究中所观察到的那样，该固定参数表示与HWE的温和偏差。

我们设置和并考虑两种方案与HWE指标和，如Luo等人[25]. 此外，我们将每个SNP依次指定为因果SNP。当因果SNP采用加性编码时，我们基于logistic模型获得基因型和病例对照状态，因果SNP比值比1用于估计经验I型错误率，因果SNP比值比1.2用于估计经验功效。当因果标记采用显性编码时，我们基于因果SNP比值比为1.3的logistic模型获得基因型和病例对照状态，以估计经验功效。当因果标记采用隐性编码时，我们基于因果SNP比值比为1.5的logistic模型获得基因型和病例对照状态，以估计经验功效。根据基因型和病例对照状态信息，我们计算MIN2通过200个排列的价值。通过500重复，在0.05的显着性水平下考虑了实证I型错误率和4个测试的功率，如kWee等人。[28]检验了半参数和单标签SNP方法的I型误差和功率，假设名义显著性水平为0.05。

２.３.数值结果

为了全面评估MIN2的性能，我们在3场景下构建测试统计信息，即使用所有SNP，除了因果SNP之外的所有SNP，以及仅使用标记SNP。

由于当真实因果SNP采用加性编码、显性编码和隐性编码时，经验型I型错误率几乎相同，因此我们只给出真实因果SNP采用加性编码时的经验型I型错误率。结果基于18个单核苷酸多态性显示在图1，结果基于所有18个SNPs与显示在图2．基于所有17个SNPs(不包括因果SNP)和5个tag SNPs的其他结果显示在补充图中2,图2 b,图3A和图3B.(见补充文件)。从数字1和2中，我们可以看到，敏2可以控制I型误差率以及当HWE指示器系数等于0或0.5log（2.0），但当= 0。我们进一步研究了这一现象:当实际遗传模型采用加性编码时，PChiB采用与等于0，因此每两个SNP之间的相关性降低，测试PChiB可能吸收大量自由度。例如，根据模拟数据，当考虑所有18个SNP的场景并将第一个SNP指定为因果SNP时，PChiP吸收2个自由度，PChiB吸收5个自由度。当实际的遗传模型采用隐性和显性编码时，无论是否存在，所有5个测试都能很好地控制I型错误率为0或0.5log(2.0)。

为了进行实证力量比较，当真正的因果SNP采用隐性编码时，我们将基于所有18个SNP的结果显示在表中2和3.为和．基于17个SNP的其他结果（不包括因果SNP）和5个标签SNPS都显示在补充图中4A，4A,图5A和图5B.(见补充文件)。从表格2，补充数字4A及补充数字4B.为，我们可以看到，GOLD测试的性能总是最好的，因为它是一个oracle测试，而Min2在所有3个场景中的性能几乎与PChiB一样好。此外，无论18个SNP中哪一个是致病SNP, Min2的表现总是优于PChiP和SSUP。例如，Table2，PChiP，SSUP，GOLD，敏2，和PChiB的经验功率分别为0.364，0.352，0.826，0.504，和0.492，当第二SNP是因果SNP。从表格3.，补充数字5A、补充图5B.为，我们可以看到，Min2在使用所有18个SNPs时，使用除原因SNP外的所有18个SNPs，并且只使用标签SNPs，总是比PChiP和SSUP表现得更好，无论18个SNPs中哪一个是原因SNP。例如，Table3.，当第1个SNP为因果SNP时，PChiP、SSUP、GOLD和Min2的实证幂分别为0.755、0.795、0.970、0.840和0.875。


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.672	0.738	0.948	0.764	0.764
2	0.364	0.352	0.826	0.504	0.492
3.	0.678	0.768	0.954	0.784	0.796
4	0.748	0.826	0.972	0.846	0.842
5	0.428	0.394	0.816.	0.546	0.534
6	0.642	0.704	0.926	0.726	0.732
7	0.588	0.638	0.932	0.736	0.73
8	0.048	0.042	0.186	0.054	0.024
9	0.42	0.366	0.81	0.506	0.524
10	0.348	0.168	0.778	0.372	0.286
11	0.398	0.186	0.844	0.378	0.2
12	0.434	0.4	0.812	0.554	0.542
13	0.586	0.642	0.938	0.684	0.708
14	0.428	0.426	0.836	0.54	0.522
15	0.73	0.818	0.978	0.822	0.826
16	0.678	0.746	0.972	0.78	0.808
17	0.34	0.328	0.778	0.51	0.518
18	0.71	0.768	0.954	0.802	0.794


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.755	0.795	0.97	0.84	0.875
2	0.45	0.46	0.865	0.51	0.605
3.	0.765	0.835	0.965	0.855	0.885
4	0.835	0.925	0.99	0.84	0.88
5	0.555	0.58	0.85	0.605	0.67
6	0．69	0.77	0.935	0.785	0.765
7	0.65	0.715	0.965	0.74	0.79
8	0．06	0.085	0.37	0.07	0.1
9	0.515	0.48	0.905	0.65	0.755
10	0.535	0.28	0.825.	0.6	０．５９
11	0.58	０．３３	0.88	0.625	0.665
12	0.48	0.475	0.83	0.62	0.665
13	0.695	0.765	0.94	0.735	0.79
14	0.58	0.595	0.895	0.655	0.7
15	0.79	0.875	0.98	0.84	0.88
16	0.725	0.805	0.97	0.805	0.865
17	0.52	0.495	0.83	0.61	0.65
18	0.785	0.825.	0.955	0.86	0.875

当真正的因果SNP采用显性编码时，我们将基于所有18个SNP的所有结果显示在表格中4和5为和．基于17个SNP的其他结果（不包括因果SNP）和5个标签SNPS都显示在补充图中6A,图6B.,图7A和图7B.(见补充文件)。从这些数字来看，我们可以看到Min2在所有3个方案的所有5个场景中都有强大地执行日志(2)和0.5。例如，Table4实证的PChiP SSUP,黄金,Min2,和PChiB是0.598,0.588,0.846,0.636,和0.556,分别在9日SNP因果SNP, PChiP实证权力,SSUP,黄金,Min2,和PChiB是0.638,0.382,0.826,0.628,和0.496,分别,当第十SNP是因果SNP。在表5为，当第11个SNP为因果SNP时，PChiP、SSUP、GOLD、Min2和PChiB的经验幂分别为0.585、0.310、0.786、0.545和0.455。


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.51	0.56	0.76	0.532	0.456
2	0．57	0.552	0.822	0.564	0.49
3.	0.486	0.576	0.79	0.532	0.438
4	0.448	0.532	0.74	0.476	0.416
5	0.644	0.626	0.824	0.628	0.518
6	0.556	0.61	0.808	0.576	0.516
7	0.568	0.63	0.79	0.596	0.504
8	０．１３	0.152	0.712	0.128	0.078
9	0.598	0.588	0.846	0.636	0.556
10	0.638	0.382	0.826	0.628	0.496
11	0.574	0.338	0.818	0.586	0.51
12	0.614	0.614	0.836	0.622	0.56
13	0.506	0.58	0.79	0.548	0.502
14	0.584	0.578	0.836	0.576	0.51
15	0.458	0.518	0.756	0.482	0.388
16	0.462	0.538	0.808	0.478	0.418
17	0.694	0.662	0.822	0.676	0.598
18	0.492	0.55	0.76	0.51	0.448


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.56	0.645	0.774	0.47	0.45
2	0.55	0.505	0.816.	0.475	0.455
3.	0.5	0.55	0.778	0.44	0.445
4	0.455	0.5	０．７５	0.4	0.43
5	0.615	0.645	0.834	0.54	0.51
6	0.62	0.68	0.816.	0.565	0.61
7	0.56	0.61	0.812	0.46	0.515
8	0．15	0.19	0.712	0．12	0.145
9	0.58	0.56	0.834	0.53	0.515
10	0.67	0.435	0.822	0.6	0.56
11	0.585	0．31	0.786	0.545	0.455
12	0.61	0.6	0.852	0．57	0.555
13	0.485	0.575	0.812	0.445	0.455
14	0.68	0.645	0.804	0.56	0.53
15	0.505	0.545	0.776	0.415	0.43
16	0.455	0.55	0.79	0.43	0.44
17	0.66	0.64	0.826	0.61	0.6
18	0.51	0.55	0.76	0.475	0.46

当实际因果SNP采用添加剂代码时，我们基于表中的所有18个SNPS显示所有结果6和7为和．基于17个SNP的其他结果（不包括因果SNP）和5个标签SNPS都显示在补充图中8A,图8B.,图9A和图9B.(见补充文件)。从这些数字中，我们可以看到Min2在所有5个方案中的所有5个测试中都能稳健地执行日志(2)和0.5。在这3种情况下，真实的遗传密码是可加的，所以无论18个SNP中哪一个是致病SNP, PChiP的表现总是比Min2好一点，这并不意外。虽然SSUP有时比PChiP和Min2的功率稍好，但有时它的功率非常低。例如，Table6，当第11个SNP为因果SNP时，PChiP、SSUP、GOLD、Min2和PChiB的经验功率分别为0.626、0.402、0.770、0.616和0.400。在表7,因为，当第9个SNP为因果SNP时，PChiP、SSUP、GOLD、Min2和PChiB的经验幂分别为0.660、0.670、0.800、0.645和0.570。


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.694	0.748	0.798	0.644	0.466
2	0.614	0.584	0.784	0.594	0.404
3.	0.654	0.728	0.818	0.614	0.424
4	0.706	0.78	0.8	0.678	0.482
5	0.666	0.656	0.798	0.626	0.428
6	0.654	0.736	0.796	0.618	0.462
7	0.724	0.77	0.814.	0.702	0.484
8	0.102	0.114	0.504	0.09	0.052
9	0.632	0.63	0.76	0.594	0.408
10	0.644	0.36	0.77	0.614	0.352
11	0.626	0.402	0.77	0.616	0.4
12	0.674	0.652	0.774	0.606	0.432
13	0.708	0.768	0.802	0.682	0.468
14	0.644	0.618	0.804	0.604	0.422
15	0.678	0.782	0.816.	0.656	0.484
16	0.632	0.71	0.794	0.612	0.428
17	0.696	0.662	0.754	0.652	0.444
18	0.688	0.756	0.798	0.652	0.454


因果单核苷酸多态性。	PChiP	SSUP	黄金	Min2	PChiB

1	0.76	0.805	0.855	0.705	0.625
2	0.66	0.6	0.795	0.585	0.55
3.	0.745	0.78	0.825.	0.725	0.655
4	0.765	0.84	0.86	0.735	0.695
5	0.755	0.72	0.825.	0．69	0．57
6	0.77	0.795	0.825.	0.685	0.61
7	0.725	0.765	0.84	0.665	0.625
8	0.155	0.19	0.585	0.145	0．14
9	0.66	0.67	0.8	0.645	0．57
10	0.725	0.53	0．82	0．69	0.565
11	0.665	0.435	0.835	0.63	0.51
12	0.73	0.695	0．82	0.62	０．５９
13	0.695	0.74	0.85	0.675	0.6
14	0.7	0.67	0.81	0.655	0.55
15	0.66	0.725	0．82	0.635	0.545
16	0.635	0.725	0．82	0.58	0.535
17	0.72	0.705	0.81	0.705	0．57
18	0.72	0.76	0.845	0.695	0.62

２.４.GWAS胰腺癌数据中高密度脂蛋白胆固醇(HDL-C)数据分析

本文中，我们对GWAS胰腺癌数据中的HDL-C数据进行了分析[26，27来说明我们的方法。众所周知，高密度脂蛋白胆固醇的血浆水平是可遗传的，但只有一小部分的遗传性得到了解释。基于高密度脂蛋白代谢生物学、小鼠遗传学研究、人类遗传关联研究和可用的GWAS数据，我们开发了高密度基因分型阵列，并选择了高密度脂蛋白c候选位点。SNP选择基于标签SNP，但也包括低频非同义SNP。我们对大多数报道的GWAS位点(包括ABCA1、CETP、GALNT2、LCAT、LIPG、LIPC和LPL)进行关联分析。

数据集包括1231个样本(病例625个，对照606个)，其中64个SNPs来自上述13个基因。13个基因的基本信息见补充表1（补充文件2）。我们计算分析数据集时，4种测试方法的值，即PChiP、SSUP、Min2和PChiB。数值结果显示在表中8．从表格8，可以看出Min2的数值结果与其他试验的结果是一致的。例如，在研究HDL-C与GALNT2基因(包括2个SNPs)之间的关系时PChiP、SSUP、Min2、PChiB值分别为0.1065、0.1065、0.0370、0.0272。例如，在研究HDL-C与LPL基因(包括15个SNPs)之间的关系时PChiP、SSUP、Min2、PChiB的值分别为0.002、0.00016、0.002、0.0044。第三个例子，在研究HDL-C与基因LIPG(包括2个SNPs)之间的关系时PChiP，SSUP，敏2，和PChiB的值是0.0012，0.0012，0.0001，和0.0002。


基因	SNP。	PChiP	SSUP	Min2	PChiB

GALNT2	2	0.1065	0.1065	0.0370	0.0272
LPL.	15	0.0020	0.00016	0.0020	0.0044
ABCA1	3.	0.0311	0.0121	0.040	0.0782
LIPC	9	0.0069	0.0019	0.0050.	0.0669
CETP	25	6.051E-13.	3.278 e-13	7.615e-14	1.114 e-16
LCAT	2	0.9981	0.9999	0.9700	0.9297
LIPG	2	0.0012	0.0012	0.0001	0.0002

因为在实际数据中每个基因的SNPs数量不是很大，所以实际数据并不能提供一个很好的例子来说明我们的测试的优点。然而，这个限制并不影响我们推导健壮测试的目的。我们的方法主要关注以下3种情况下的稳健性:所有SNPs的遗传密码未知，原始种群的HWE是否满足未知，以及存在大量SNPs。

3.讨论

改进基于内核机的测试能力的一个关键因素[17而PCR则是降低了自由度。基于核机的测试充分利用了分数统计数据之间可能的相关性，众所周知，这对高维数据是有利的[30.]并且对不同SNP的关联方向具有鲁棒。主成分分析是降低大量变量的维度的标准方法。尽管这种看似明显的论据，但PCR和基于内核的测试的相对优点仍然被解读。我们提供了基于内核 - 机器的测试与PCR方法之间的理论连接的见解。我们发现，当每对SNP的LD范围有点强时，主成分分析方法可能具有比基于内核机的测试更高的功率。PCR通常具有比基于核对机器的测试相似或更高的功率，其中LD图案是电力的重要参数。我们将进一步探讨在未来的工作中选择PC的数量的原则。

在这项工作中，我们考虑基于主成分分析(PCA)的人类复杂疾病和遗传snp之间的关联检验，因为主成分分析在最近的文献中被广泛使用。PCA解释了snp之间的线性组合。如果存在这种线性，主成分分析是最优的。然而，当多个基因SNPs如何影响疾病风险未知时，一种替代策略是使用单倍型分析，因为单倍型可以捕获标记之间的LD信息[31- - - - - -37］.

我们提出了一种新的基于经验贝叶斯评分检验的全局检验(PChiB)，它是在控制人群HWE约束下的前瞻性似然评分和回顾性似然评分的数据自适应线性组合。在HWE约束下，当真正的致病SNP采用显性和隐性编码时，PChiB能保持理想的功率。PChiB的一个小缺点是，当真正有因果关系的SNP的遗传密码是可加性的时候，PChiB由于很大程度的自由度而没有理想的力量。因此，我们提出了一种稳健性检验(Min2)，无论真正的原因SNP采用哪种遗传密码，它都能在偏离真实环境中观察到的HWE的情况下保持功率增益。Min2通过在所有场景中有效地使用LD来获得功率。由于PChiP基于所有SNPs都采用加性编码的假设，而PChiB和Min2基于所有SNPs都采用共显性编码的假设，PChiP的自由度较低，当因果SNP采用加性编码时表现最好。在这种情况下，PChiB和Min2的功耗可能小于PchiP。当致病SNP采用显性或隐性编码时，无论对照群体的HWE是否令人满意，Min2都具有可取的效力。我们建议使用我们的新检测Min2进行多位点基因型与复杂疾病的关联分析。

我们提出了鲁棒性检验Min2，其中将其与PChiB(基于所有SNPs采用共显性编码的经验评分)、PChiP(基于所有SNPs采用加性编码的前瞻性评分)和SSUP(基于前瞻性评分和所有SNPs采用加性编码的VC方法)进行比较。本文的主要目的是介绍拟议的测试Min2，而不是将其与GWAS的其他现有测试进行比较。

值得注意的是，将拟议的测试扩展到包括逻辑模型中的协变量调整将是一个好主意。推导过程将非常复杂，需要额外的研究。我们将在今后的工作中考虑这个问题。在模拟中，我们需要设置一个大的样本量由于MAF的数量较低，所以我们没有考虑罕见变异。在以后的工作中，我们还可以研究当MAF数目较低时PChiB的稳健性。

4.方法

4.1. 一种新的主卡方检验

假设有例样本和控制样本及指示．为th ( ）样品和th ( ）SNP，表示为加性编码，即取值为0、1和2的小等位基因的数目。为th ( ）样品和th ( ）SNP，表示作为共显性代码，即，，哪里是一个指示灯函数。很明显, ，，和．

为，表示为估计的次要等位基因频率(MAF)在合并病例-对照样本和标记中为基因型中次要等位基因的数量SNP在一个值为0,1和2的群体中。为，表示为估计的基因型频率SNP。我们就可以得到，，，和．为，表示一个二维的行向量，哪里的期望值是HWE下, 是汇集的样本意思，即，．为，表示作为合并样本方差，也就是方差和表示作为合并样本方差，也就是方差．为，分别表示对角矩阵元素等于和．很明显,是由Luo等人提出的权重扩展而来的[25]和Chatterjee等人。[38当采用加性(显性或隐性)编码时。权重矩阵是数据自适应。当采用Codominant编码时，通过，我们提出了经验贝叶斯得分TH. SNP采用以下形式：哪里是一个2维的单位矩阵。

让表示所有经验贝叶斯分数的向量单核苷酸多态性，即，，也就是长度．表示估计的渐近协方差矩阵(见补充文件)经验贝叶斯得分向量．是否常见测试标志可以联合建造，类似于霍特林统计, ，在哪里的”指示向量或矩阵的转置。我们提出的新的全球统计数字是根据协方差矩阵的特征值分解，如下。为，表示和(一个列向量)为协方差矩阵的特征值和对应的特征向量．让和表示协方差矩阵的特征值和相应的特征向量．然后,我们有，和可以写成．由于特征向量的范数是统一的可以写成，测试数据可以写成

注意是每个SNP分数的线性组合吗与为我们建议利用第一个（）加式的检验原假设，并表示结果的检验统计量如下:

由于正交的，是独立的。因为在零假设下，所有的基因组区域都是均值为0，方差为1的渐近正态分布吗snp与表型状态无关，PChiB作为卡方变量渐近分布零假设下的自由度。

剩下的一个问题是如何选择总和的数量．请注意，Pchib基于特征值分解，类似于标准PCR。许多选择标准已在文献中介绍[39］.已经证明使用顶级主成分可以解释8090%的遗传变异是足够的[19，20.，23］.我们选择根据同样的原理，也就是上主成分可以解释的遗传变异的约85％。这种策略是通过（见下一小节）PChiB和PCR之间的连接支持。事实上，主成分的数量会影响主成分测试的功率[40］.当每对SNPs的LD程度非常强时，单靠最上面的一个主成分就有理想的力量。当每对SNPs的LD程度有些强时，使用顶级主成分来解释8090％以上的遗传变异性是一种稳健的方法。

4．2．通过PCR的阐述了解PChiB

我们基于加性编码下的标准预期可能性评分再次访问PChiBth ( ）并建立它对PCR的等价性[19，20.］.由于PCR已被确立为一种很有前景的多snp关联分析方法，这种等效性表明PChiB的能力有望得到提高。在PCR中，表型变量仅对少数顶级主成分(PCs)进行回归，这些主成分总结了大约80-90%的遗传变异。pc代表了数据中大多数可变性发生的方向，正如中心原始基因型分数的方差-协方差矩阵的特征值分解所识别的那样。每个主成分是所有SNPs基因型得分的线性组合，各主成分之间不相关。

这里，我们提出下加性遗传编码的标准准可能性分数。所有的集合前瞻评分函数，表示为，是渐近分布的多元正态与均值和variance-covariance矩阵在零假设下。让，．为，让和．为，让．表示作为基因型矩阵行和第列元素为，和．让与所有元素的列向量和长度．矩阵形式, ，和它的协方差矩阵．现在,让是一个矩阵的第Th列是矩阵的特征向量，,让是它的特征值。表示正交变换．基于逻辑回归的可能性分数在是．的协方差矩阵是带有元素的对角矩阵吗

假设我们考虑第一个（）个人电脑如下。让是一个包含第一个特征向量, ．标准的PCA检验基于分数统计来检验两者之间的关联和从logistic回归模型来看，完全等于，用什么表示，当采用的遗传码为加性码时，与我们提出的方法相同。表示，采用加性编码时，采用霍特林标准统计等于，和PChiP统计减少到．

所提出的统计量（在这种情况下，等同于PCR）可以被示出为根据预期可能性是密切相关的被叫方得分测试的总和统计量[12]，用SSUP表示。SSUP被获取为SSUP ，它可以表示为SSUP ．所以，对于pc的贡献，SUP和PChiB使用不同的权重:SSUP用特征值对所有pc进行加权，PChiB为排名前几的pc分配相同的权重。SSUP允许具有小特征值的pc对测试做出额外的贡献，而PChiB则丢弃具有小特征值的pc以降低自由度。这种差异对它们的相对能力有影响，而相对能力严重依赖于方差-协方差矩阵的结构，因此，也依赖于被评估基因组区域的LD结构。

数据可用性

可根据要求提供数据。

的利益冲突

两位作者宣称没有相互竞争的利益。

作者的贡献

朱家燕和田怡设计了这些方法，撰写了主要的手稿文本，并进行了一些模拟。马莉和蔡晓红进行了一些模拟。朱家燕对所有结果的解释做出了贡献。所有作者都审阅了手稿。

致谢

感谢陈国国陈国·陈国教授从宾夕法尼亚大学和吨位Nansel和kaija Nansel和Kai Yu教授的凯宇教授提供了遗传数据，以证明这些方法和提供一些有意义的评论，以提高一些有意义的评论稿件。我们感谢Qizhai Li教授从中国科学学院讨论稿件。易田的研究部分得到了中国师范大学（CCNU）的自我确定研究资金，从高校MOE（No.CCNU19TD009）和国家自然科学基金的基础研究（No.61877023）。嘉年华朱义项目资助部分支持（2010九号2019ZH_026），人才招聘科研项目资助，并启动湖北中医大学科学研究的资金。

补充材料

EB分数检验UB的渐近方差估计的推导。2.结果的补充表格和数字。（补充材料）

参考文献

陈伟，陈学军，“一种适用于不同遗传模型的快速关联检验方法，”人类遗传，第75卷，第5期1，第23-33页，2013。视图:出版商的网站|谷歌学术
杨青，朱军，李志明，“多扰害参数的最优效率稳健检验及其统计特性，”Acta Mathematica Scientia.，第37卷，第2期1, pp. 223-234, 2017。视图:出版商的网站|谷歌学术
K于，Q。李，A。WBergen et al.，“通过自适应组合P- 值，“遗传流行病学第33卷第3期8，页700-709,2009。视图:出版商的网站|谷歌学术
H.张，J. Shi，F. Liang，W. Wheeler，R. Stolzenberg-Solomon和K. Yu，具有适应性SNP选择的快速多点测试，对大规模的遗传关联研究，“欧洲人类遗传学杂志第22卷第2期5, pp. 696-702, 2014。视图:出版商的网站|谷歌学术
S.章，J.诸和Z.李的“Adaptive基的组合的P值测试用于与应用到微阵列数据两样本位置的问题，”科学报告，卷。8，不。1，第8117-8119，2018。视图:出版商的网站|谷歌学术
J. M. Chapman，J。D. Cooper，J.A.Todd和D.G.G.Clayton，“使用单倍型标签的联动不平衡导致的疾病关联检测：一类测试和统计权的决定因素”人类遗传第56期1-3，第18-31页，2003。视图:出版商的网站|谷歌学术
R. Fan和M. Knapp，“通过病例对照设计对复杂疾病的基因组关联研究”，美国人遗传学杂志第72卷第2期4，页850-868,2003。视图:出版商的网站|谷歌学术
熊明华，“基因组关联研究的广义T2检验，”美国人类遗传学杂志，第70卷，第2期5，第1257-1268，2002年。视图:出版商的网站|谷歌学术
B. Li和S. M. Leal，“检测常见疾病罕见变异相关性的方法:应用于序列数据分析”，美国人遗传学杂志，第83卷，第83期3，第311-321页，2008。视图:出版商的网站|谷歌学术
ZZ唐和D。Y林，“MASS：排序研究得分统计的荟萃分析，”生物信息学，第29卷，第2期14，第1803-1805页，2013。视图:出版商的网站|谷歌学术
J. J. Goeman, S. a . van de Geer，和H. C. van Houwelingen，《针对高维选择的测试》，皇家统计学会：B系列（统计方法），卷。68，没有。3，PP。477-493，2006。视图:出版商的网站|谷歌学术
W. Pan，“连锁不平衡中多单核苷酸多态性关联的渐近检验”，遗传流行病学第33卷第3期6，pp。497-507，2009。视图:出版商的网站|谷歌学术
曾俊英，“基于单倍型的关联分析的方差成分得分检验”，美国人遗传学杂志第81卷第1期5，页927-938,2007。视图:出版商的网站|谷歌学术
我爱奥尼塔拉萨，S。李，V。马卡洛夫，J。D布克斯鲍姆和X。Lin，“罕见和常见变异组合效应的序列核关联测试，”美国人遗传学杂志，第92卷，第6期，第841-853页，2013年。视图:出版商的网站|谷歌学术
S. Lee, M. J. Emond, M. J. Bamshad等，“罕见变异关联检测与应用于小样本病例对照全外显子组测序研究的最佳统一方法，”美国人遗传学杂志第91卷第1期2, pp. 224-237, 2012。视图:出版商的网站|谷歌学术
S. Lee, M. C. Wu, and X. Lin，“测序关联研究中罕见变异效应的最佳测试”，生物统计学，卷。13，不。4，pp。762-775,2012。视图:出版商的网站|谷歌学术
M. C. Wu, P. Kraft, M. P. Epstein等人，“病例对照全基因组关联研究的强大snp集分析，”美国人遗传学杂志，第86卷，第86期6，页929-942,2010。视图:出版商的网站|谷歌学术
M. C.吴，李S.，T.蔡，Y.李，M. Boehnke，和X林，“与序列内核协会测试测序数据罕见变异协会测试，”美国人遗传学杂志，卷。89，没有。1，pp。82-93，2011。视图:出版商的网站|谷歌学术
W.J.Gauderman，C. Murcray，F.Gilliland和D.V.CTI，“候选基因中的疾病与多个SNP之间的测试关联”，“遗传流行病学，第31卷，第5期，第383-395页，2007年。视图:出版商的网站|谷歌学术
K.王D.雅培，“主成分回归的方法来多位遗传关联研究”遗传流行病学，第32卷，第2期2，第108-118页，2008。视图:出版商的网站|谷歌学术
张飞，郭旭东，吴淑珍，“基于主成分分析的多相关数量表型全基因组通路关联研究”，《中国生物医学工程学报》，2014年第4期。《公共科学图书馆•综合》，第7卷，第12号，第e53320条，2012年。视图:出版商的网站|谷歌学术
S. Basu和W. Pan，“疾病与罕见变异相关性的统计检验比较”，遗传流行病学，第35卷，第7期，第606-6192011页。视图:出版商的网站|谷歌学术
D. H. Ballard, J. Cho，和H. Zhao，“多标记关联方法检测候选区域和疾病之间的关联的比较”，自然遗传学第34卷第3期3，页201-212,2010。视图:出版商的网站|谷歌学术
J陈和N。Chatterjee，“利用Hardy-Weinberg均衡有效筛选病例对照研究中的单个SNP关联，”人类遗传，第63卷，第2期3-4，页196 - 204,2007。视图:出版商的网站|谷歌学术
S. Luo, B. Mukherjee, J. Chen, N. Chatterjee，“病例对照全基因组关联研究中单snp关联稳健有效筛选的收缩估计”遗传流行病学第33卷第3期8, pp. 740 - 750,2009。视图:出版商的网站|谷歌学术
L阿蒙达多蒂尔，P。卡夫，R。ZStolzenberg-Solomon等人，“全基因组关联研究确定了土著居民的与胰腺癌易感相关的基因座，“自然遗传学号，第41卷。9, pp. 986-990, 2009。视图:出版商的网站|谷歌学术
G. M. Petersen, L. Amundadottir, C. S. Fuchs等人，“一项全基因组关联研究确定了13q22.1, 1q32.1和5p15.33染色体上的胰腺癌易感性位点，”自然遗传学，第42卷，第3期，第224-228页，2010年。视图:出版商的网站|谷歌学术
LCKwee，D。刘，X。林博士。戈什和M。PEpstein，“一种功能强大且灵活的数量性状多位点关联测试，”美国人遗传学杂志，第82卷，第2期2, pp. 386-397, 2008。视图:出版商的网站|谷歌学术
J. C. Barrett, B. Fry, J. Maller, M. J. Daly，“单ploview: LD和单体型图的分析和可视化”，生物信息学第21卷第2期2，页263-265,2005。视图:出版商的网站|谷歌学术
陈世贤，“高维数据的双样本检测及其在基因集检测中的应用”，统计年鉴，卷。38，不。2，第808-835，2010。视图:出版商的网站|谷歌学术
D.的Fallin，A.科恩，L. Essioux等人，“使用估计的单倍型频率的病例/对照数据的遗传分析：应用到APOE轨迹变化和阿尔茨海默氏病，”基因组研究，卷。11，不。1，pp.143-151,2001。视图:出版商的网站|谷歌学术
J. C. Long, R. C. Williams, M. Urbanek，“多位点单倍型的E-M算法和测试策略”，美国人遗传学杂志第56期3，pp。799-810，1995。视图:谷歌学术
D. J. Schaid, C. M. Rowland, D. E. Tines, R. M. Jacobson, and G. A. Poland，《连锁阶段模糊时性状和单倍型之间关联的分数测试》，美国人遗传学杂志，第70卷，第2期2，页425-434,2002。视图:出版商的网站|谷歌学术
Q. Sha，J. Dong，R. Jiang和S. Zhang，“定量性状与单倍型之间的关联测试在减少空间中，”人类遗传学年鉴，第69卷，第2期6，PP。715-732,2005。视图:出版商的网站|谷歌学术
J. Y. zeng, B. Devlin, L. Wasserman，和K. Roeder，“通过分析单倍型相似性和拟合优度来识别疾病突变”，美国人遗传学杂志第72卷第2期4，第891-902页，2003。视图:出版商的网站|谷歌学术
D. V. Zaykin，P. H.荒野，S. S.杨，M.A. Karnoub，M. J.瓦格纳，和M. G.埃姆“与在不相关个体的样品离散和连续性状统计学推断单倍型的测试协会，”人类遗传，第53卷，第53期2，第79-91页，2002。视图:出版商的网站|谷歌学术
Zhang S.， A. J. Pakstis, K. K. Kidd, and H. Zhao，“基于ppopulation数据的单倍型重建和单倍型频率估计方法的比较”，美国人遗传学杂志，第69卷，第2期4，页906-912,2001。视图:出版商的网站|谷歌学术
N查特吉，Y。H陈S。罗和J。Carroll，“利用主成分分析进行多个相关定量表型的全基因组通路关联研究，”欧洲人类遗传学杂志，卷。24，第489-502，2009。视图:谷歌学术
S.山谷，W. Li和S. J.秦，“主成分的数目的选择：用与其它方法相比重构误差准则的方差，”工业与工程化学研究，第38卷，第11期，第4389-44011999页。视图:出版商的网站|谷歌学术
李志伟，“多步组合主成分的功率计算及其在遗传关联研究中的应用”，科学报告，卷。6，不。1，第1-10页，2016。视图:出版商的网站|谷歌学术

国际基因组学杂志

抽象的