将多元性状与遗传变异使用崩溃和内核方法与血统——或者以人群为基础的研究

文摘

在遗传关联分析,一些相关的表型或多元特征与不同类型的组件通常收集研究复杂或多因子的疾病。在过去的几年中,共同测试多元特质和多个基因变异之间的联系已经成为更受欢迎,因为它可以提高统计能力识别因果基因谱系——或者以人群为基础的研究。然而,大多数现有的方法主要集中在测试与多个连续的表型相关的基因变异。在这个调查中,我们开发一个框架,用于识别多效性的遗传变异对多元特征的影响通过使用和内核崩溃与血统——或者population-structured数据方法。拟议的框架适用于测试的负担,内核测试和综合测试对常染色体和X染色体。提出的多元特征关联方法可以适应连续表型或二进制表型为协变量,进一步可以调整。仿真研究表明,我们的方法是令人满意的性能对实证I型错误率和电力价格相比,现有的方法。

1。介绍

全基因组关联研究(GWAS)打算发现基因变异,如单核苷酸多态性(snp)与常见的特征或与复杂疾病(1,2]。关联研究,基因变异和特征之间的相关关系进行评估,有助于映射基因影响复杂疾病(3]。在复杂疾病的研究中,数据在几个相关的表型或多元表型与几个组件通常收集更好的理解疾病(1,3,4]。多元相关性状同时通过多个变异的影响。因此,通过合适的联合或多变量分析框架的多元特征,我们不仅可以获得更多的统计能力识别多效性的遗传变异对多元特征的影响(3,5- - - - - -12),但也可以进一步了解疾病的遗传结构感兴趣的(5,13]。因此,最近,联合分析多元特征已经成为受欢迎的,因为它可以增加统计权力分析一次只有一个特征(1,4]。

一些统计方法确定多变量之间的关系特征和基因变异(1,5]。目前的多元方法可以分为三组(1,2,5]:回归方法(14- - - - - -16[],减少变量方法11,13,17,18),并结合分析(9,19- - - - - -23]。然而,许多现有的多元关联分析方法不能直接扩展到罕见的变异分析,由于其大量造成多重比较的问题或多个测试和低小的等位基因频率(2,5,24]。此外,稀疏的数据可能会导致问题回归参数估计和拟合回归模型2]。因此,有必要提出统计方法确定多变量之间的关系特征和多个基因变异(公共和/或罕见变异)5]。近年来,为此提出了各种统计技术在GWAS [8,17,25- - - - - -27]。此外,几种方法已经长期发展调查与多元相关的罕见变异特征(2,28- - - - - -38]。

尽管这些新发展保持很多好处,现有方法有一些潜在的局限性39]。最新的方法是构造在一些特定的假设条件下关于多元特征的遗传变异的影响(39]。这些电流方法遭受严重的损失的权力一旦模型假设违反(26,39]。

在这个调查中,我们开发的统计方法确定多效性的遗传变异对多元特征的影响与血统使用崩溃和内核的方法——或population-structured数据。提出的多元特征关联方法能够处理二进制表型或连续表型为协变量,进一步可以调整。此外,提出了多元特征关联方法不仅可以利用对表型的依赖还能占样本亲缘pedigree-based或以人群为基础的结构化数据。

本文的其余部分组织如下。在材料和方法部分,我们构建多元效应模型使用联合哎呀模型公式(JGEE) [40]。我们应用JGEE血统——或者population-structured数据和引入一个回顾性分析多元特征的遗传关联研究的框架。拟议的框架适用于测试的负担,内核测试和综合测试对常染色体和X染色体。在仿真研究中,我们审查的有限样本容量性能提出了多变量关联方法和评价结果与现有的方法比较,Multi-SKAT [39]。结论和未来的可能性在结论部分给出了连续性和限制部分。

2。材料和方法

2.1。符号

描述提出的多元特征关联方法基于血统——或者以人群为基础的结构化数据,我们假设存在独立的谱系和每个血统科目。我们假设受试者在基因测序的(例如,一个基因),其中包含变体。让是表现型向量为^th表型的^th的血统。让是响应向量我们感兴趣的表型。让是向量的^th协变量的^th的血统。让是协变量的矩阵我们想调整nongenetic协变量。让是向量的回归系数协变量nongenetic元素受到的影响^th协变量的^th特征。让是基因矩阵基因变异在目标地区的利益是基因变异的向量( ,1,或2 0、1或2小等位基因的副本,分别)。让是向量的回归系数遗传变异与元素受到的影响^th基因变异的^th特征。

2.2。多项品质谱系数据回归测试

我们让是协变量矩阵和是的基因型矩阵^th血统,是一个单位矩阵的维度和克罗内克积代表。根据广义线性模型(41),我们假设的边际密度是有两个时刻, 和 ,在哪里是一个尺度参数。让是向量的分量和是向量的分量为^th特征的^th的血统。

基于联合哎呀模型公式(40),我们构造多元线性模型来描述之间的关联关系相关性状的遗传变异,给出如下: 在哪里的逆函数和是一个response-specific链接函数40), 是向量的预期意味着多元特征 , 是向量的回归系数 nongenetic协变量的特征相关, 是向量的回归系数基因变异的相关的特征。

让和是在集群相关矩阵和 multivariate-response集群相关矩阵,这取决于一个向量的参数和 ,分别。的工作(或近似)的协方差矩阵是由(40]。在哪里是一个块对角矩阵的组件是对角矩阵。根据方程(1零假设下的),没有基因型和表型之间的联系,提出多元协会方法包括齐次内核统计(HoK),异构内核统计(HeK)和测试(BT)负担。此外,我们提出了均匀混合测试(HoO)和异构综合测试(HeO)结合HoK BT和结合HeK BT,分别。

2.2.1。内核数据

我们让是一个相关矩阵元素的基因型的分数为标记和。让表示次要的等位基因频率(加)^th标记。让是的标准残差向量组件在哪里逆矩阵的吗。在这里,和的估计是和。从今以后,所有的估计计算基于零假设的遗传效应等于零。所有的未知参数和工作在和multivariate-response集群相关矩阵估计的R包JGEE [42]。

(1)均匀内核数据。我们假设是一个marker-specific的重量吗^th变体和假设基因的影响不同表型均匀(例如, 。基于JGEE模型与基因型随机变量考虑,我们建议齐次二次(内核)协会统计(HoK)如下: 在哪里 , , _, 是估计的 ,和是估计的这是一个对角矩阵的^th表型的^th的血统。的零分布渐近跟踪卡方分布混合物 ,在哪里年代后独立随机变量卡方分布和一个自由度非零特征值的零协变量矩阵吗在哪里和是一个矩阵的遗传相关性个人的^th血统,相同的定义由Schaid et al。43),可以计算的R包kinship2 [44]。当遗传学科之间的关系和在^th血统是未知的,元素的遗传相关性可以通过基因数据估计(43,45),它的估计是由(43]

(2)异构内核数据。我们假设基因的影响不同表型异构(例如, 。异构的二次(内核)协会统计(HeK)被定义为在哪里和是一个marker-specific的重量吗^th变体的^th特征。的零分布渐近跟踪卡方分布混合物 ,在哪里s是独立随机变量与一个自由度,卡方分布后非零特征值的零协变量矩阵吗 ,在哪里。

理论的值和大约计算了Kuonen saddlepoint方法(46pchisqsum]和获得的R包。一个理论的推导HoK测试和HeK测试附件所示S1。

2.2.2。压力测试

我们让是一个基因型分数的加权平均^th的血统。HoK测试的基础上和HeK测试在方程(3)和(5marker-specific相同的)的重量^th为每个特征变异(例如, ),我们建议负担测试(BT)如下: 的零协方差矩阵在哪里是由

然后,

的零分布渐近跟踪卡方分布的一个自由度。

2.2.3。综合测试

让 , ,和表示值获得由HoK HeK, BT的统计数据。基于的想法值组合方法通过柯西分布(47- - - - - -49),我们提出了均匀混合测试(HoO)和异构综合测试(HeO)。

(1)均匀混合测试。结合与 ,我们构造均匀混合测试(HoO)如下: 在哪里代表逆标准柯西分布的累积分布函数。

(2)异构混合测试。结合与 ,我们构建异构综合测试(HeO)如下:

零的分布测试和测试渐近遵循一个标准柯西分布(47- - - - - -49]。的的值测试和测试计算了R包RNOmni [50]。

内核数据,压力测试和综合测试也适用于X染色体。额外的技术信息扩展X染色体附录所示S2。

3所示。模拟研究

我们进行数值模拟研究,以评估的有限样本性能提出了方法和评估两种方法的比较结果,最小值纸牌游戏统计值(mPK),最小值统计值负担(产)39]。现存的两种方法是由R包实现Multi-SKAT [39]。基于相似模拟设置从现有遗传协会测试(那些通常被认为是39,43,51),我们调查的影响提出方法,HoK, HeK, BT,吼,和HeO识别与多个性状相关的基因变异。我们同时产生10000象(欧元)和10000混在非洲American-like (AA)单使用校准长度为200 kb的人类人口模型通过COSI软件(51,52]。3 kb地区是随机选择的数值模拟。我们一共生成一个10000数据库为每个模拟场景在我们的研究。

3.1。I型错误率和电力模拟

在异构与核心家庭人口数据,连续和二进制表型特征对个人在^th家庭产生的多元线性模型在方程(1), 和。更准确地说,连续和二进制表型是由以下线性和logit模型,分别为: 在哪里 , , , , ,和。在这里,元素的协方差矩阵是一个向量的。的元素的与平等独立生成概率是0或1。的元素的生成的多元正态分布的均值0.5和协方差矩阵的对角元素1和0.1的所有非对角的条目。协变量的回归系数矩阵为^th给出相关的特征和 ,分别对连续特征和二进制特征。

连续特征,错误条件在方程(11)遵循多元正态分布的均值为零,在集群相关矩阵(即, )对角条目1和0.2和subject-across-response关联矩阵的所有非对角的条目(例如, )对角元素为0.3和0.1的所有非对角的条目。同样,二进制特征在方程(12)生成相同的在集群相关矩阵(即, )和相同的subject-across-response相关矩阵(即 )随着连续的特征在方程(11)。这些相关的表型是由R包BinNor [53]。

对于第一类误差仿真,回归系数的遗传变异, ,在方程(11)和(12零假设下)等于零。对权力的模拟,在备择假设下,我们模拟低变异的35% 都是因果。对于每一个设置,要么所有因果snp有积极的效果,或80%的因果snp是积极的,20%的因果snp是负的。基因变异的回归系数, ,是设定的或对应风险或保护变体 (51]。假设两个不同的表型的遗传效应是异构(例如, ,遗传影响第一特征设置如上所述,而基因的影响第二特征设定的零。另一方面,假设两个不同的表型的遗传效应是同质的(例如, ,遗传影响和第一和第二特征有相同的设置如上所述。

我们模拟1400核心家庭与800年核心家庭从欧洲样品和600核心家庭的非裔美国人的样本。marker-specific重量的变体被认为是β密度函数形状参数和 (51]。研究marker-specific重量的影响的变体表型,我们考虑未加权的marker-specific重量和加权marker-specific重量 (51]。经验类型我错误率基于五万复制和实证利率根据二千年复制所有仿真结果的报告。“交换”和“结构化”结构被认为是工作within-cluster multivariate-response关联矩阵,提出的方法,HoK, HeK,分别和BT。

4所示。结果

4.1。经验主义的错误

表1报告的仿真结果比较实证I型错误率当表型被认为是连续的。表1HoO,显示了该方法,HoK HeK HeO, BT,控制经验I型错误率不管marker-specific体重的重量。同样,现有方法,mPK和产甲烷性能良好控制经验类型我错误率。我们的竞争方法,仿真结果表明,七个HoK,吼,HeK, HeO, BT, mPK和产甲烷,合理控制经验类型我错误率为常染色体分析连续的特征。七个竞争方法显示类似的性能方面的经验类型我错误率与连续特征(附录X染色体分析S3:表S1)。


Marker-specific重量	名义上的	工作相关	方法
Marker-specific重量	名义上的	工作相关	HoK³	呼!	HeK	HeO	英国电信	mPK⁴	产甲烷

未加权的marker-specific重量¹	0.05	U /²	0.04876	0.04960	0.05036	0.05228	0.04914	0.04352	0.04692
		E / E	0.04866	0.04994	0.05016	0.05216	0.04914	0.04352	0.04692
	0.01	U /	0.00918	0.01012	0.01016	0.01030	0.01034	0.00854	0.01036
		E / E	0.00924	0.00994	0.01008	0.01022	0.01028	0.00854	0.01036
	0.001	U /	0.00078	0.00082	0.00086	0.00070	0.00084	0.00084	0.00088
		E / E	0.00080	0.00078	0.00084	0.00070	0.00082	0.00084	0.00088
	0.0001	U /	0.00008	0.00002	0.00006	0.00008	0.00008	0.00006	0.00014
		E / E	0.00006	0.00002	0.00006	0.00008	0.00008	0.00006	0.00014
加权marker-specific重量	0.05	U /	0.05030	0.04998	0.05158	0.05134	0.04696	0.04604	0.04536
		E / E	0.05054	0.05010	0.05176	0.05122	0.04714	0.04604	0.04536
	0.01	U /	0.00992	0.00942	0.01080	0.00972	0.00888	0.00978	0.01008
		E / E	0.00992	0.00944	0.01088	0.00978	0.00886	0.00978	0.01008
	0.001	U /	0.00078	0.00086	0.00126	0.00098	0.00082	0.00124	0.00134
		E / E	0.00076	0.00088	0.00122	0.00102	0.00080	0.00124	0.00134
	0.0001	U /	0.00006	0.00008	0.00006	0.00006	0.00010	0.00002	0.00010
		E / E	0.00006	0.00008	0.00008	0.00006	0.00010	0.00002	0.00010

¹未加权的marker-specific体重是由 ;给出了加权marker-specific重量。 ²U / U代表工作within-cluster和multivariate-response相关矩阵的结构由非结构化结构;E / E代表工作within-cluster和multivariate-response相关矩阵的结构被交换结构。³HoK, HoO HeK HeO,英国电信是我们提出的方法。⁴mPK和产甲烷是由R包执行Multi-SKAT [39]。

表2报告经验类型我错误率基于该方法,HoK, HeK, BT,吼,和HeO二进制数据。现存的两种方法,mPK和产甲烷,不包括进行比较。这个原因是,实现两个现有的方法,通过R包Multi-SKAT mPK和产甲烷,(39),MPMM(多个表型混合模型)R的函数包凤凰(54- - - - - -56]是一种必要的工具,这一过程。然而,MPMM函数适合连续表型(56]或适用于二进制表型的条件情况下是足够大的数量39]。换句话说,在某种意义上,现存的两种方法,mPK和产甲烷,仅限于连续表型(39]。


Marker-specific重量	名义上的	工作相关	方法
Marker-specific重量	名义上的	工作相关	HoK³	呼!	HeK	HeO	英国电信

未加权的marker-specific重量¹	0.05	U /²	0.04944	0.05154	0.05086	0.05280	0.04952
		E / E	0.04930	0.05144	0.05068	0.05318	0.04946
	0.01	U /	0.00974	0.00994	0.00982	0.01026	0.01000
		E / E	0.00974	0.00998	0.00984	0.01028	0.00998
	0.001	U /	0.00068	0.00084	0.00100	0.00098	0.00106
		E / E	0.00066	0.00084	0.00102	0.00094	0.00104
	0.0001	U /	0.00008	0.00002	0.00012	0.00010	0.00000
		E / E	0.00008	0.00002	0.00012	0.00010	0.00002
加权marker-specific重量	0.05	U /	0.05170	0.04900	0.05256	0.04922	0.04576
		E / E	0.05168	0.04920	0.05232	0.04930	0.04556
	0.01	U /	0.01028	0.00976	0.00996	0.00972	0.00886
		E / E	0.01024	0.00982	0.00986	0.00976	0.00884
	0.001	U /	0.00110	0.00080	0.00096	0.00090	0.00088
		E / E	0.00112	0.00076	0.00096	0.00088	0.00090
	0.0001	U /	0.00004	0.00008	0.00010	0.00012	0.00006
		E / E	0.00006	0.00008	0.00010	0.00012	0.00008

表2表明该方法适当控制类型我错误率marker-specific重量时考虑或的变体对于二进制特征。另一方面,经验的错误率提出了X染色体分析方法与二进制特征描述在表S2在附录S3。这些经验类型我错误率显示类似的结果,对于常染色体分析。

总之,我们的仿真结果表明,提出的多元特征关联方法,HoK,吼,HeK HeO, BT,合理控制的I型错误率连续特征或二进制特征标记是否X染色体和常染色体。另一方面,现有的方法,mPK和产甲烷产量控制I型错误率为常染色体分析或X染色体分析连续特征(表1或表S1),不管marker-specific体重的重量。

4.2。经验能力

图1展览经验能力的比较结果率为常染色体分析连续特征,当工作within-cluster和multivariate-response相关矩阵的方法,HoK, HeK, BT,被认为是可交换的。正如预期的那样,经验能力的七个竞争与加权marker-specific重量的方法与一个高于未加权的marker-specific的重量吗。异构内核数据(HeK)经验力量率略大于其他方法,当不同表型的遗传效应异构(例如, ),和因果snp对表型积极影响或消极影响。另一方面,现有的方法,产甲烷,有更大的经验力量率,当不同表型的遗传效应异构(例如, ),和所有因果snp在表型有积极的协会。此外,实证的力量率均匀混合测试(HoO)比其他六个竞争方法,当不同表型的遗传效应均匀(例如, )。显然,七个方法有各自的优势在竞争识别遗传效应之间的关系和多个连续特征常染色体分析。

图1

竞争力量对比的七个方法连续特征为每个场景的名义水平0.001。(一)未加权的marker-specific重量: 。(b)加权marker-specific重量: 。

从工作获得类似经验力量利率within-cluster multivariate-response相关矩阵的方法,HoK, HeK, BT,视为非结构化。因此,这些经验电费不是为了节省空间。另一方面,七个竞争方法显示一个类似的性能测试与连续特征(附录X染色体分析S3:图S1)。

图2展览经验能力的比较结果率为常染色体分析二进制特征时工作within-cluster和multivariate-response相关矩阵的方法,HoK, HeK, BT,被认为是可交换的。类似原因调查实证I型错误率与二进制特征,现存的两种方法,mPK和产甲烷,不包括对权力的比较。

图2

五项竞争力量对比的方法与二进制特征为每个场景的名义水平0.001。(一)未加权的marker-specific重量: 。(b)加权marker-specific重量: 。

图2表明异构内核数据(HeK)和异构综合测试(HeO)比其他方法的经验能力率,当不同表型的遗传效应异构(例如, )。另一方面,经验的力量率均匀混合测试(HoO)比其他的竞争方法,当不同表型的遗传效应均匀(例如, )。正如所料,在一般情况下,异构内核统计(HeK)比同类更强大的内核数据(HoK),当不同表型的遗传效应异构(例如, )。另一方面,齐次内核数据(HoK)比异构更强大的内核统计(HeK),当不同表型的遗传效应均匀(例如, )。一句话,拟议的方法、HoK吼,HeK, HeO BT,各自的优点,研究遗传效应之间的关系和多个二进制特征常染色体分析。

同样的,当工作within-cluster和multivariate-response相关矩阵的方法,HoK, HeK, BT,利率被认为是结构化的,经验也有类似的结果,因此省略了。另一方面,经验的力量率提出了X染色体分析方法与二进制特征呈现在图S2在附录S3。这些经验电力价格显示类似的结果,讨论了在图2。

总之,七个竞争方法、HoK吼,HeK, HeO, BT, mPK,各自优点和产甲烷,在诊断与多个相关基因的影响是否连续特征常染色体分析或X染色体分析。同样,拟议的方法、HoK HoO, HeK, HeO,和BT,各自优势在检查是否有遗传效应之间的联系和多个二进制特征常染色体分析和X染色体分析。

此外检查该方法的性能,额外的模拟研究连续特征和二进制特征提出了在附录S4和附录S5表型的相关性较高的表型和更高的维度,分别。一般来说,这些竞争方法基于更高的表型相关性或更高维度的表型可以提供一个更大的实证分析的功率比连续特征或二进制特征。然而,我们注意到这些竞争方法基于更高的表型相关性或更高维度的表型更容易有经验类型在一个较小的名义我错误率通货膨胀水平,尤其是对二进制数据分析(附录S5:表S5-S6和附录S6:表S7),与这些方法相比,基于表型的相关性降低或低维度的表型。的详细讨论这些额外的附录中给出了仿真结果S4和S5。

然而,我们注意到,提出的方法具有较高的计算成本,尤其是对二进制数据。在我们的仿真设置和框架,我们进行一个模拟数据集通过使用计算机基于一个2.1 GHz CPU核心。同类和异类的平均计算时间与加权marker-specific重量测试在备择假设下连续数据是0.83和0.91分钟,分别,而二进制数据是4.77和4.80分钟,分别。因此,在当前版本中,这种框架算法实现是不令人满意的分析在实践中大规模高维数据集。

5。结论

在这个调查中,我们开发一个回顾框架确定多元特征的遗传变异的多效性的影响通过使用和内核崩溃与血统——或者population-structured数据方法。拟议的框架,测试的负担,内核测试和综合测试,提供了一个良好的基础为常染色体遗传关联分析和X染色体。提出的多元特征关联方法基于JGEE模型可以灵活地适应连续表型或二进制表型为协变量,进一步可以调整。

提出的设计方法的一个关键优势是齐次内核统计(HoK),异构内核数据(HeK),和负担测试(BT)保留所有提出的回顾性测试的好处Schaid et al。43)治疗基因型数据为随机变量通过调节表型为常数。另一方面,齐次综合测试(HoO)和异构内核统计(HeO)保持的优点柯西刘提出的组合测试,谢48)表明,柯西misspecification组合测试是健壮的模型,并有效地保护我错误率(类型49]。

该方法的另一个重要的好处是,HoK测试,HeK测试,BT测试请JGEE模型的优点,有效地解释复杂的集群中的对象之间的相关性(within-cluster相关性)和不同表现型相同的科目(multivariate-response相关性)。此外,该测试统计,HoK, HeK, BT,基于JGEE模型可以有效地协变量调整占表型是否连续或二进制。

我们的仿真研究表明,一个无关紧要的marker-specific重量和一个可交换的结构工作within-cluster和multivariate-response相关性建议对实际数据分析的数据不能充分提供有效信息估计的结构工作within-cluster和multivariate-response相关性开始之前的数据分析。此外,齐次内核数据(HoK)比异构数据更健壮(HeK)在控制经验类型我错误,因为零HeK统计量的渐近分布遵循混合卡方分布有较大的自由度,相比,零HoK的分布统计。然而,HeK统计比HoK更强大的统计时,遗传对异构的不同表型的影响。

另一方面,我们的仿真结果表明,对常染色体分析或连续特征的X染色体分析,七个竞争方法,HoK,吼,HeK, HeO, BT, mPK,产甲烷,显示良好的性能与控制第一类错误,虽然竞争的7个方法都有各自的优点,对于识别遗传效应和多个连续特征之间的联系。此外,我们常染色体分析的仿真结果表明,与二进制特征或X染色体分析,提出方法,HoK,吼,HeK, HeO, BT,可以控制实证I型错误表型的相关性较低或较低维度的表型(表2和表S2),而这些提出了识别方法有各自的优势与多个二进制特征相关的基因变异。然而,我们观察到提议的方法,HoK,吼,HeK, HeO, BT,相关性较高的表型或更高维度的表型,更容易感染的经验类型我错误在一个较小的名义水平(附录S5:表S5-S6和附录S6:表S7),尽管这些方法在这种情况下有更高的经验能力。

6。限制

提出的多元特征关联方法有其局限性。首先,这些提议的方法不可能同时包含连续特征和二进制特征分析。因此,未来的研究需要扩展的概念提出了多元特征关联方法同时考虑连续特征和二进制特征分析。第二,多元特征关联方法,基于更高的表型相关性或更高维度的表型,容易遭受膨胀的I型错误的问题,特别是当二进制特征被认为是(附录S5:表S5-S6和附录S6:表S7)。尽管JGEE模型提供一个有效的算法来估计结构的工作within-cluster multivariate-response相关性,大规模的谱系研究总是面临更复杂的高维结构within-cluster和血统数据库中multivariate-response相关性分析。因此,在未来,一个更有效的算法来估算复杂高维(或更高的相关性)结构的工作within-cluster和multivariate-response提出相关性是必要的,尤其是当分析关注的是二进制特征。第三,相比,均匀内核的零分布统计,内核的零分布异构数据遵循一个更大的自由度测试,这很容易导致这样的异构测试受到错误的通货膨胀的问题。因此,克服错误的通货膨胀的问题从异构的测试是一个重要的未来的工作的一部分。第四,该方法具有较高的计算成本特别是二进制数据,在实践中是不适合大规模高维数据分析。因此,一个更有效的算法减少计算成本是需要提出了进一步的研究。此外,该方法的软件是计算不方便,特别是在实践中对GWAS质量数据不足。因此,该方法的软件,使用方便,是一个在未来进一步的工作。第五,我们当前工作的重点是对低收入和同频率变体。 Extension of the proposed methods to the rare variants deserves further works.

数据可用性

数据支持本研究的发现中可用的文章及其辅助材料。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢编辑和裁判的建设性的评论,大大提高本文的演示。这项工作是由格兰特最108 - 2118 m - 037 - 001 - my2科技部,台湾,中华民国

补充材料

附录S1:内核的零分布统计。附录S2:扩展X染色体。附录S3:仿真结果基于X染色体。附录S4:额外的模拟研究连续特征。附录S5:额外的模拟研究二进制特征。附录S6:限制(补充材料)

引用

h·朱、张s和沙,”一个新颖的方法来测试之间的关联的加权组合表型和基因变异,”《公共科学图书馆•综合》,13卷,不。1,文章e0190788, 2018。视图:出版商的网站|谷歌学术搜索
李,美国赢了,y . j . Kim et al .,“罕见的变异与多个表型联想测验,”遗传流行病学第41卷。。3、198 - 209年,2017页。视图:出版商的网站|谷歌学术搜索
问:杨和王y”方法分析多元表型遗传关联研究,“概率论与数理统计》杂志上文章ID 652569卷,2012年,13页,2012。视图:出版商的网站|谷歌学术搜索
张x梁、问:沙和美国,“联合分析多个表型关联研究使用allele-based聚类方法为非正态分布,“《人类遗传学,卷82,不。6,389 - 395年,2018页。视图:出版商的网站|谷歌学术搜索
问:沙,z . Wang方,k,和美国,“测试常见的最优加权组合和/或有多个特征的罕见变异,”《公共科学图书馆•综合》,13卷,不。7篇文章e0201186 2018。视图:出版商的网站|谷歌学术搜索
n . Solovieff c . Cotsapas p h·李,s·m·珀塞尔和j·w·Smoller表示,“在复杂的基因多效性特征:挑战和策略,”自然遗传学评论,14卷,不。7,483 - 495年,2013页。视图:出版商的网站|谷歌学术搜索
m·斯蒂芬斯,”一个统一的框架,协会与多个相关的表型分析,“《公共科学图书馆•综合》,8卷,不。7篇文章e65245 2013。视图:出版商的网站|谷歌学术搜索
x周和m . Stephens“高效多元线性混合模型算法全基因组关联研究”自然方法,11卷,不。4、407 - 409年,2014页。视图:出版商的网站|谷歌学术搜索
梁x, z王、问:沙和美国,“自适应费舍尔的组合多个表型协会联合分析方法研究,“科学报告》第六卷,没有。1,第34323条,2016。视图:出版商的网站|谷歌学术搜索
问:沙x z . Wang Wang,张,“多个特征的罕见变异协会联合分析研究中,“《人类遗传学,卷80,不。3、162 - 171年,2016页。视图:出版商的网站|谷歌学术搜索
问:沙z . Wang, z,“联合分析多个特征使用“最优”最大的遗传测试”,《公共科学图书馆•综合》,11卷,不。第三条e0150975, 2016年。视图:出版商的网站|谷歌学术搜索
h·朱、张s和沙,“力量对比的方法进行联合协会多个表型的分析,“人类遗传,卷80,不。3、144 - 152年,2015页。视图:谷歌学术搜索
h . Aschard b . Vilhjalmsson n . Greliche已有p、d . Tregouet和p .卡夫“最大化的力量相关表型的主成分分析在全基因组关联研究,“美国人类遗传学杂志》上,卷94,不。5,662 - 676年,2014页。视图:出版商的网站|谷歌学术搜索
A·科特b . j . Vilhjalmsson诉Segura A·普拉特问:长,和m . Nordborg "混合模型方法相关性状的全基因组关联研究结构化种群,”自然遗传学,44卷,不。9日,第1071 - 1066页,2012年。视图:出版商的网站|谷歌学术搜索
p . f . O ' reilly c . j .间断y Pomyen et al .,“MultiPhen:联合模型的多个表型可以增加在GWAS发现,“《公共科学图书馆•综合》,7卷,不。5篇文章e34861 2012。视图:出版商的网站|谷歌学术搜索
沈x, y, z徐w·潘,和阿尔茨海默病的神经影像学,“测试协会与多个性状的广义估计方程,神经影像数据与应用程序,”科学杂志卷,96年,第325 - 309页,2014年。视图:出版商的网站|谷歌学术搜索
m·A·r·费雷拉和s·m·珀塞尔”多元测试协会”,生物信息学,25卷,不。1,第133 - 132页,2009。视图:出版商的网站|谷歌学术搜索
l . Klei d·卢卡·b·德夫林,k .罗德”多向性遗传力和主成分相结合,增加电力协会分析,“遗传流行病学,32卷,不。1,9-19,2008页。视图:出版商的网站|谷歌学术搜索
p c . O ' brien“程序比较样品与多个端点,”生物识别技术,40卷,不。4、1079 - 1087年,1984页。视图:出版商的网站|谷歌学术搜索
问:杨、吴h .彭译葶。郭,c·s·福克斯”分析多元表型遗传关联研究通过结合单变量关联的测试中,“遗传流行病学,34卷,不。5,444 - 454年,2010页。视图:出版商的网站|谷歌学术搜索
美国范德Sluis、d . Posthuma和c . v .多兰,”塔特:高效多元genotype-phenotype分析全基因组关联研究”公共科学图书馆麝猫,9卷,不。1,文章e1003235, 2013。视图:出版商的网站|谷歌学术搜索
j . Kim y呗,w·潘,”一个自适应关联测试多个表型GWAS汇总统计,“遗传流行病学,39卷,不。8,651 - 663年,2015页。视图:出版商的网站|谷歌学术搜索
朱x, t·冯b . o . Tayo et al .,“荟萃分析的相关特征通过总结统计与应用程序从gwas高血压,”美国人类遗传学杂志》上,卷96,不。1,21-36,2015页。视图:出版商的网站|谷歌学术搜索
b李和s . m . Leal,”检测方法对常见疾病的罕见变异:应用程序序列数据的分析,“美国人类遗传学杂志》上,卷83,不。3、311 - 321年,2008页。视图:出版商的网站|谷歌学术搜索
j .黄a·约翰逊和c O ' donnell”':多向性的区域特征和评价方法从多个全基因组关联研究,“生物信息学,27卷,不。9日,第1206 - 1201页,2011年。视图:出版商的网站|谷歌学术搜索
d .射线、j . Pankow和巴苏,“USAT:一个统一的参考协会测试多个phenotype-genotype分析,“遗传流行病学,40卷,不。1、20 - 34,2016页。视图:出版商的网站|谷歌学术搜索
j·里德,a·多尔k Oexle et al .,“PSEA:表型组富集分析多个表型分析的新方法,”遗传流行病学,36卷,不。3、244 - 252年,2012页。视图:出版商的网站|谷歌学术搜索
问:燕,d .周,j .青瓷et al .,“将多变量量化表型与基因变异与小说的内核机器回归家庭样本方法,”遗传学,卷201,不。4、1329 - 1339年,2015页。视图:出版商的网站|谷歌学术搜索
x詹:赵,a Plantinga et al .,“强大的基因关联分析常见或罕见变异与高维结构特征,“遗传学,卷206,不。4、1779 - 1790年,2017页。视图:出版商的网站|谷歌学术搜索
a . Maity p·沙利文,j . Tzeng“多元表型关联分析marker-set内核机器回归,”遗传流行病学,36卷,不。7,686 - 695年,2012页。视图:出版商的网站|谷歌学术搜索
UK10K财团,j .太阳,k . Oualkacha et al .,“多个连续的表型分析的一种方法,在罕见的变异协会在变异的影响,允许灵活的相关性研究”欧洲人类遗传学杂志》上,24卷,不。9日,第1351 - 1344页,2016年。视图:出版商的网站|谷歌学术搜索
a . y . Wang, j·l·米尔斯et al .,“基因多效性分析定量特征在基因水平的多元功能的线性模型,”遗传流行病学,39卷,不。4、259 - 275年,2015页。视图:出版商的网站|谷歌学术搜索
f·p·萨莱,b . Rakitsch Lippert, o . Stegle,“有效制定相关性状的遗传分析,测试”自然方法,12卷,不。8,755 - 758年,2015页。视图:出版商的网站|谷歌学术搜索
k . A . Broadaway d·j·卡特勒·r·邓肯et al .,“统计方法测试cross-phenotype罕见变异的影响,“美国人类遗传学杂志》上,卷98,不。3、525 - 540年,2016页。视图:出版商的网站|谷歌学术搜索
a . Cichonska j . Rousu p Marttinen et al .,“metaCCA:汇总统计数据多元分析的全基因组关联研究利用典型相关分析,“生物信息学,32卷,不。13日,1981 - 1989年,2016页。视图:出版商的网站|谷歌学术搜索
r . j .林Tabassum、美国Ripatti和m . Pirinen”MetaPhat:检测和分解多元协会从单变量全基因组协会统计,“遗传学前沿2020年,卷。11日。视图:出版商的网站|谷歌学术搜索
美国保护好,p .拉k·b·雅各布斯et al .,“subset-based方法提高功率和解释分析异构特征的遗传关联研究相结合,“美国人类遗传学杂志》上,卷90,不。5,821 - 835年,2012页。视图:出版商的网站|谷歌学术搜索
23 andme研究团队、社会科学基因协会联盟,p .特里et al .,“多性状的全基因组关联分析使用MTAG汇总统计,“自然遗传学,50卷,不。2、229 - 237年,2018页。视图:出版商的网站|谷歌学术搜索
d·杜塔·斯科特,m . Boehnke,李,“Multi-SKAT:一般框架测试内颈协会与多个表型,”遗传流行病学,43卷,不。1,4-23,2019页。视图:出版商的网站|谷歌学术搜索
g·阿齐兹·伊南和r . Yucel联合鹅多元相关数据和不完整的二进制结果,“应用统计学杂志》,44卷,不。11日,第1937 - 1920页,2017年。视图:出版商的网站|谷歌学术搜索
刘贤梁和s . l . Zeger纵向数据分析利用广义线性模型,”生物统计学,卷73,不。1,13-22,1986页。视图:出版商的网站|谷歌学术搜索
g·阿齐兹·伊南,“JGEE:关节广义估计方程解算器,”2015年,R包版本1.1。视图:谷歌学术搜索
d . j . Schaid k·麦克唐纳,j . p . Sinnwell和s . n .锡伯杜”多个基因变异协会测试崩溃和内核方法与血统或人口的结构化数据,”遗传流行病学,37卷,不。5,409 - 418年,2013页。视图:出版商的网站|谷歌学术搜索
j . Sinnwell t . Therneau d . Schaid e·阿特金森和c .老爷”kinship2”, 2020年,于R包版本1.8.5。视图:谷歌学术搜索
t·桑顿和m . s . McPeek ROADTRIPS:病例对照关联测试部分或完全未知的人口和谱系结构,”美国人类遗传学杂志》上,卷86,不。2、172 - 184年,2010页。视图:出版商的网站|谷歌学术搜索
j·b·h . Chen将军,j . Dupuis”序列内核协会测试家庭样本的定量特征,“遗传流行病学,37卷,不。2、196 - 204年,2013页。视图:出版商的网站|谷歌学术搜索
s . y . Liu, z, a·c·莫里森e . Boerwinkle x林,“ACAT:快速和强大的p值组合方法测序内颈分析研究”美国人类遗传学杂志》上,卷104,不。3、410 - 421年,2019页。视图:出版商的网站|谷歌学术搜索
刘y和j .谢”柯西组合测试:一个强大的测试与分析假定值计算任意依赖结构下,“美国统计协会杂志》上,卷115,不。529年,第402 - 393页,2020年。视图:出版商的网站|谷歌学术搜索
z . r . McCaw j·m·莱恩r . Saxena歧视,和林x”rank-based逆正常转换的操作特征定量特征分析在全基因组关联研究,“生物识别技术,卷76,不。4、1262 - 1272年,2020页。视图:出版商的网站|谷歌学术搜索
z . r . McCaw“等级转换综合测试正常,”2019年,R包版本是0.7.1。视图:谷歌学术搜索
t . s . Lee m . Teslovich m . Boehnke x林,“罕见变异的一般分析框架在测序协会的研究中,“美国人类遗传学杂志》上,卷93,不。1,42-53,2013页。视图:出版商的网站|谷歌学术搜索
s . f . Schaffner c . Foo,加布里埃尔,d .帝国m·j·戴利和d . Altshuler”校准联合模拟人类基因组序列的变异,”基因组研究,15卷,不。11日,第1583 - 1576页,2005年。视图:出版商的网站|谷歌学术搜索
a . Amatya h . Demirtas, r .高,“代多元二进制和普通变量的同时,“2020年,2.3.2 R包版本。视图:谷歌学术搜索
r .环面的和a·j·Munoz-Pajares”表型集成指数”,2017年,1.3.1 R包版本。视图:谷歌学术搜索
R .环面的和a . j . Munoz-Pajares,“凤凰:R包估计size-controlled表型集成指数”应用在植物科学,3卷,不。5,1400104条,2015年。视图:出版商的网站|谷歌学术搜索
马大刀,诉诉Iotchkova, j .出面“网络推理matrix-variate高斯模型与诱致性噪音,”2013年,https://arxiv.org/abs/1312.1622。视图:谷歌学术搜索

计算和数学方法在医学