文摘

分析的全基因组关联研究(GWAS)受益于生物的调查有意义的基因集,如基因交互作用网络(途径)。我们提出一个扩展成功基于路径分析方法,将内核函数集成到一个强大的算法框架变量选择,同时使调查多个通路。我们采用基因相似性内核从逻辑内核机器测试(LKMT) base-learners增强算法。创建一个模型来解释病例对照状态迭代通过选择途径,提高其预测能力。我们评估我们的方法在模拟研究采用50通路对不同样本大小和遗传效应优势。此外,我们包括内核的一个典型应用提高数据集类风湿性关节炎和肺癌。模拟表明,内核增加优于LKMT在某些基因的场景。应用GWAS风湿性关节炎和肺癌导致数据稀疏的模型是基于通路可判断的临床意义。内核增加高度灵活的被认为是变量和克服了多个测试的问题。此外,它使临床结果的预测。 Thus, kernel boosting constitutes a new, powerful tool in the analysis of GWAS data and towards the understanding of biological processes involved in disease susceptibility.

1。介绍

在自然界中许多人类疾病是复杂的。他们通常是由几个相互作用,引起温和的遗传效应和环境因素(即。、人口统计学、临床和其他nongenetic数据(1])。他们的基因结构往往是分析了全基因组关联研究(GWAS)。,基因型的遗传信息是由众多的单核苷酸多态性(SNPs)坐落在整个基因组。众多单核苷酸多态性与多种疾病相关已经发现在GWAS分析;但是他们不能占相应的完整的遗传疾病(2]。不同的方法来处理这个问题丢失的遗传已经提出,包括联合分析的几个snp代表一个特定的基因信息的一部分,如基因或基因集。

基因簇分析方法促进协会的检测个体的遗传信息和表型之间的利益,例如,疾病状态。多个基因的共同分析往往会导致增加力量,因为它减少了总数的检测进行了测试,并协助温和协会(3]。此外,通常是更有意义的结果,因为它们都是基于功能单元而不是单一的snp。基因片段的分析的一种形式的调查途径,如网络互动的基因负责一个特定的细胞功能或监管4]。中的蛋白质编码的基因途径可以提高或降低其他基因的表达,我们参考激活或抑制。因此,基因交互直接以及间接通路内的一系列相互关联的步骤。不同类型的生物通路存在,例如,参与代谢或信号转导。故障等功能可能发生故障的生物通路可能导致疾病发生和发展。

需要大样本大小来检测弱影响疾病风险基因的影响。由于技术进步和数据共享联盟的形成,特别是大GWAS数据集已经成为近年来。然而,基因分型和参与者招募仍然成本和工作强度。特别是在罕见疾病,作为一个例子的分析组织学亚型的疾病,这是非常具有挑战性的实现样本大小,导致足够的权力分析(5]。我们面临的另一个挑战是了解生物检测的意义关联。通常很难解释GWAS分析的结果说明的精确影响疾病易感性生物学过程和相应的功能单元。单通路分析方法往往是成功地识别影响疾病易感性的遗传效应。然而,他们通常不能区分因果生物过程从孤立的影响包括在通路由于基因重叠(6,7]。许多通路分析方法的另一个限制是缺乏能力来预测疾病状态,或其他感兴趣的结果,基于所确定的遗传效应。

内核方法在数据已经被证明是好处理时所面临的挑战分析GWAS数据(8,9]。他们能够处理高维数据,而不需要任何直接的规范功能基因的影响之间的关系。此外,内核方法计算效率和协变量允许简单的环境(9- - - - - -11]。内核是用来计算一个量化值从基因型数据,这可能被视为反映每一对个体之间的遗传相似性。提出了不同内核的分析路径(9,12,13]。虽然一些内核只评估基因SNP加入,其他人也可以调整不同的基因数量和大小,甚至包括基因交互结构或其他信息(请参考材料和方法,13概述])。我们集中在基于网络的内核,因为它允许我们包括交互结构,已经证明是性能优越的相互关联的影响(13]。

我们扩展基于GWAS数据的分析将基于网络的内核函数集成到一个提高框架,以识别调制疾病易感性的遗传变异。提高了机器学习领域的,后来转移到统计建模。它实现了一个许多薄弱的学习者(所谓base-learners,略有改进的简单模型在随机猜测)优化模型的预测精度(14]。因为它能够把权力从几个预测与弱信号为一个强有力的预测组(15,16),它可能被证明是一个强大的工具在GWAS的分析。特定组件的推动执行变量选择和正则化包括额外的影响,这使得它特别适合高维数据(17]。基于模型的增强可以被视为经典的扩展增强方法(见,例如,18,19])。多样化base-learners代表特殊效果类型,可以选择和任意组合20.]。因此,提高允许同时包含遗传信息和人口或其他环境数据。多个变量的联合调查允许考虑之间的相关性不同的途径和可能会促进歧视因果生物过程的影响包括在通路只由于基因重叠。直接派生模型可以评估和解释。我们内核增加的方法克服了多个测试的问题由于其固有的属性(变量选择21]。从而整体增益在GWAS的分析支持小样本和moderate-to-weak遗传效应的分析。值得注意的是,增加的主要焦点(以及其他的机器学习方法)不是假设检验,而是一个多变量预测模型的发展。

我们我们的方法应用于两个GWAS数据集,一个在肺癌和一个在类风湿性关节炎。肺癌是最常见的癌症之一,尤其是在工业化国家。它负责全球因癌症而死亡的比例最高(22]。虽然接触烟草的主要风险因素是肺癌易感性,许多基因影响许多研究已经揭示了(23]。已知的实际数量遗传的影响,除了一些特定的肺癌症状,仍然是有限的,每一只占一个小疾病风险增加。类风湿性关节炎是最常出现关节炎性疾病,主要影响手和脚。它是残疾的主要原因之一,强烈受遗传因素的影响在人类白细胞抗原(HLA)地区位于6号染色体上24,25]。调查这两种疾病具有不同遗传体系结构提供了理想的平台来评估我们的新方法的性能。

2,我们介绍了模型结构利用和描述的建设基于网络的内核函数。我们提供一个简短的介绍提高和推导出小说提高算法与基于base-learners。部分3由模拟研究的描述用来评估方法的性能和应用程序类风湿性关节炎的概述和肺癌GWAS数据集。仿真研究的结果和GWAS分析部分进行了总结4。最后,我们结束论文的讨论和展望。

1.1。软件

我们使用统计软件环境R(26除非另有规定)执行所有分析。实施方法论的发展Rkangar00(27),mboost(28]。内核的一个典型应用促进方法补充材料2中给出了一个模拟数据集,可在网上https://doi.org/10.1155/2017/6742763

2。材料和方法

我们的目标是个体的疾病状态模型,基于环境和遗传信息从GWAS反是。遗传信息的基因型不同的单核苷酸多态性是通过基因映射路径。对于每一个途径,我们计算一个内核矩阵将每两个个体的基因型向量转换为一个数字值,这可能被视为两个个体的遗传相似性。基于这些矩阵,我们适合基于提高模式识别相关的通路和疾病状态预测模型。在下面的文章中,我们定义这个方法所有相关的部分。

2.1。模型定义和符号

我们假设一个添加剂条件概率逻辑回归模型的个体 : 与添加剂预测 在哪里 病例对照指标( 控制; 情况下), 维环境协变量向量, 表示的基因型向量 的单核苷酸多态性 个人。注意,非或semiparametrically模仿遗传效应 通常只取决于一个通路snp的特定子集, 。然而,为了方便符号我们路径指数下降

向量 代表了回归系数(包括一个拦截 协变量)与环境有关。他们通常包括信息在年龄、性别、或其他特征与疾病相关的研究。基因型变量 编码为许多小的等位基因,导致 对于任何SNP 和个人 。非参数函数 描述如何受到影响疾病的风险取决于观察到的基因型。在这里,我们总根据SNP基因型信息加入 不同的基因交互途径。

2.2。基于网络的内核

刘等人。10]介绍了内核机器框架领域的路径分析。因为基因通路包括复杂的交互,非参数方法是可取的。逻辑内核机器测试(LKMT)可以在二进制模式的影响途径结果nonparametrically,同时包含协变量参数化建模。在生成的逻辑回归模型中,遗传因素的影响由函数合并所产生的再生核希尔伯特空间正定核函数

在基因的应用程序中,这个内核函数计算每两个个体的基因型 ,即内核矩阵元素 是获得。这个值可以被理解为两个个体之间的遗传相似性。把这个定义嵌入的数学定义良好的框架再生核希尔伯特空间,内核矩阵必须满足一些要求:它必须是二次,对称半正定。各种各样的内核函数可用。GWAS pathway-based分析的数据,可以使用一个基于网络的内核,就是能把路径拓扑结构(13]。

假设 表示 通路基因的特定基因型组成的矩阵向量 ,它只包括snp通路有关 ,尽管 个人。然后,内核被定义为基于网络 在哪里 是一个 矩阵映射所有单核苷酸多态性 研究基因(包括调整占不同大小的基因) 代表(修改) 矩阵基因交互作用的网络邻接矩阵。确保积极semidefiniteness内核、网络邻接矩阵处理的准备步骤:如果一个基因并不代表任何snp在GWAS研究数据集,它不能被视为在分析。防止损失的信息交互网络,基因以前一直通过省略基因连接将直接相关。新链接的重量是乘法的方式决定的,基于两个省略了链接的权重。图示见图1。由此产生的沿对角线矩阵进一步反映了获得积极semidefiniteness。应用的转换是由 在哪里 表示单位矩阵 基于最小的特征值是一个体重 。更多细节,请参阅[13]。

2.3。基于模型的增加

模型拟合一般旨在减少有关的损失时观察到的反应 估计模型的特点是添加剂预测 中定义的(2)。因此,提高最小化经验风险 在哪里 代表一个合适的损失函数。在这里,我们使用负二项对数似作为损失函数,从而导致添加剂LKMT logistic回归模型类比。一般来说,损失函数特征的模型,可以定义一个合适的负对数似或其他适当的损失函数,例如,二次错误损失高斯回归或分位数回归的绝对误差损失。损失函数概述看到Hofner et al。20.]。促进解决这个优化问题通过移动功能梯度下降的损失函数的最速下降方向沿着添加剂的影响预测(2)。这中可以看到以下(简化)算法:(1)初始化添加剂预测 ,所有函数估计 。请注意, 包括所有 内核和可能的其他协变量影响环境。(2) 执行以下操作:(一)计算损失函数的负梯度计算在上一次迭代的估计: (b)估计负梯度向量 分别对于每个效果的添加剂预测(2)base-learners , 通过拟合简单通过(惩罚)最小二乘回归模型。因此,每个base-learner负梯度向量倒退 上分别预测。(c)选择最佳拟合base-learner 残差平方和最小。(d)计算加法的更新通过添加最佳拟合预测base-learner步长因子 : 相应的更新函数的估计 是由 对所有 注意,每个base-learner 通常只取决于一个环境协变量或一个通路基因型的基于一个合适的子集 。然而,其他的依赖也是可能的。在算法的详细信息,请参见[20.]。图形显示的内核的主要特性提高算法在图2

2.4。模型优化

主要功能的调优参数梯度下降法提高算法的迭代次数 。我们通常选择 通过交叉验证方法(如引导, 倍交叉验证,或二次抽样)为了避免过度拟合:一个符合模型选择的子集的数据和选择 这样它最小化经验风险的数据没有用来估计模型。二次抽样建议避免过于复杂的模型(29日]。的步长 是另一个调优参数。一般来说是次要的,只要是相对较小。它决定了收敛速度与变量之间的权衡选择能力,通常是将 (30.]。

目前的估计 添加剂的预测 通常依赖于只有一个子集的可能的预测因素:当我们选择最佳拟合base-learner在每个步骤和选择 ,使其最大化(即预测精度。,usually relatively small so that not all base-learners are selected), boosting selects base-learners and thus variables. In our approach, we exploit this behaviour to identify genetic associations. Note that a base-learner can be selected multiple times. Hence, its function estimate 权重的加权和 个人估计所有迭代的base-learner被选中(见(8))。

2.5。增加与Base-Learner网络内核

将基因型数据,聚合来代表一个特定的路径,我们利用基于base-learners。使用一个内核函数 的定义,我们将所有对个体的基因型的信息 如前所述,并收集他们在内核中矩阵 。通过这个矩阵,我们可以估计 这个函数 用于地图的影响临床结果(见SNP概要文件(2))。正如我们期望患者类似的SNP概要文件也有类似的结果,我们的目标是阻止大的差异 基因相似的人。根据标准的处罚方法在提高上下文,因此我们引入一个额外的平滑约束系数向量 基于内核的距离:

因此,我们定义了一个单独的内核base-learner中每一个途径提高框架。使用负梯度向量 th提高迭代,我们可以估计的系数向量 每个base-learner(参见步骤算法的2 b)通过惩罚最小二乘 我们把函数索引 为了方便符号。请注意,内核矩阵 扮演的角色设计矩阵以及罚款与惩罚参数矩阵的作用 支配的平滑估计。通常,惩罚参数 选择,这样所有base-learners自由度允许一个平等公正的选择。常见的选择是四自由度如果只使用平滑效果或者一个自由度线性效应包括;看到Hofner et al。21详情)。

在一些罕见的情况下,导出内核矩阵 数字不是半正定(即。,minimal deviations might occur), even though this should theoretically always be the case. To ensure a numerically positive semidefinite matrix 我们应用变换(4不仅) 但也导致内核矩阵 。提出的方法是非常快和结果在较小的绝对差异矩阵元素比替代品如海厄姆(建议的过程31日(结果未显示)。

数值的原因,用的估计问题(12)乘以设计矩阵的平方根的倒数点球矩阵(32]。因此,我们获得的设计矩阵 虽然点球矩阵简化单位矩阵 。现在,我们可以写成

基于径向基函数,类似的方法,例如,使用相关函数测量距离,引入框架增加Hofner [33]。

2.6。模型预测使用内核

增加专门的目标是优化预测精度。在所有的回归模型,我们可以使用估计系数来预测新观测的结果。然而,一些额外的工作需要设置内核,即设计矩阵,新的基因型数据 。在这种情况下,内核可以理解计算相似性的个体基因型信息预测和适合使用的观测模型,训练数据 本身。因此, 由此产生的内核 有尺寸 , 新和 以前的观测。请注意,内核矩阵 不再是满秩的,也必须半正定。使用 ,我们可以预测途径对结果的影响 在哪里 得到的加权和重量吗 在估计(14所有迭代的) th base-learner被选中(见(8))。

2.7。协变量的环境

将环境变量纳入促进模型,我们可以选择不同的base-learners适合不同类型的效果。线性效应base-learners适合连续协变量 如病人年龄,而分类效果base-learners促进分类的公司环境变量,如性别。包容的环境变量的详细信息,请参考[20.]。

base-learners包容的环境变量,这些也受到固有的选择过程增加和竞争pathway-based遗传效应。然而,通常希望只考虑增加的遗传通路的影响。确定的模型修正环境变量,它们可能包括一个强制性的影响。这可以通过拟合标准的逻辑回归模型对环境变量的影响的临床疗效和使用估计作为开始模型(抵消)提高算法(见[34,35])。这种方法非常类似于LKMT程序,哪些测试如果逻辑回归模型可以通过添加非参数改善效果将一个特定的路径。

3所示。仿真和应用程序

3.1。模拟研究

评估内核的性能提高,我们进行了一次模拟研究基于模拟SNP数据结合基因网络从现有的生物通路。路径信息从京都百科全书中提取的基因和基因组(KEGG) [36]。为了模拟,我们考虑的一个示例 总网络,随机选择的 2015年1月可用路径。请参考图3对于这些途径和引用表的列表1网络拓扑特征。本研究的主要目的是确定内核增加是否可以检测相关的通路和能够区分noninfluential通路。因此,我们调查方法的性能数据(null)包括没有遗传影响 个人和6个影响场景,不同的优势(相对风险 每个等位基因)和样本大小( 1:1的比例控制)。100年对所有场景模拟数据集复制。注意,这些场景通常可用的样本尺寸相比非常小了。原因可以在方法的计算需求的洞察力的复制。因此,相对强劲的影响被选出的标记匹配我们的模拟中使用的样本大小。

对于每一个模拟的数据集,我们安装一个提高模型与通路内核。为了优化模型,得出最优的数量增加的步骤 为每个模型中,我们使用20倍二次抽样的每个数据集200次迭代的最大数量。在这两种方法使用基于网络的内核函数,我们从内核增强方法相比,结果在多个通路从单一途径获得这些LKMT [9- - - - - -11]。附加与旨在模拟模型和最大数量高达1000次迭代进行深入理解算法,并给出了在补充材料1中,部分。

所有基因型的帮助下模拟国际人类基因组单体型图财团(一个参考的数据集37]。欧洲血统的参考数据包括1184人(CEU)和1440616个snp,其中116565是位于染色体。对于每一个基因中至少一个的 选择的路径,我们定义了一个假基因代表基因在我们的模拟。这样一个假基因是一个随机选择的DNA片段染色体上的一个参考数据包括五个不同的单核苷酸多态性。之间两个采样区域,我们确保至少100公斤碱基对的距离,以防止扭曲LD他们(之间的相关性38]。的位置假基因是对所有模拟不变,导致所有模拟场景的现实的相关结构。100年的模拟运行时,新的基因型数据的 单核苷酸多态性在 假基因使用HAPGEN2模拟软件。这个软件生成新单体型数据结合给定的参考单之前模拟数据。(描述的详细过程39]。

在零的情况下,noninformative基因数据模拟了1000个人。在每一个复制,没有协会信号生成新的基因型 单核苷酸多态性。疾病状态是随机分配的 二项概率的情况下,基因型信息的完全独立。在每个场景的六个影响,基因型数据之前选择相同数量的情况下和控制模拟,这样两条途径影响疾病状态。协会每因果通路信号包含在三个基因。在每个产生的6个基因,被选出的两个随机选择的snp在二进制临床结果有影响。在一个模拟的场景中,所有相关的单核苷酸多态性有同样的力量和效果对于每个SNP等位基因是有影响力的。所有被模拟为添加剂的影响。为了简化评估,我们决定不包括在这些设置环境变量。

我们选择两种典型途径(KEGG idhsa04020hsa04022),包括因果基因。按照调查结果在13),影响基因在两个因果通路在相应的路径选择是相互联系的。在这里,我们另外一个效应基因在每个采样通道,被选中的概率将其介数中心。中间性中心措施之间的最短连接每个网络中的两个基因通过基因。不同的研究表明,基因在拓扑相关职位的途径更有可能参与疾病协会(40]。两个邻近基因的基因被随机选择采样完成连接场景。基因GNA11 hsa04020, TACR1, BDKRB2模拟包括单核苷酸多态性影响疾病的易感性。hsa04022,基因影响是放在基因PRKG2 ATP2B2, KCNU1。这些基因,两个snp模拟作为有影响力的疾病状态。请注意,现有的生物学途径可以有共同的基因。因此,除了我们两个途径选择包括有影响力的效果,六个额外的路径包含协会信号。参考表2为有影响力的基因包含在模拟通路的概述。

应用范围:GWAS风湿性关节炎和肺癌。我们认为德国肺癌研究(相关)488例和478控制,基于参与者的数据来自以下三个个人研究:肺癌的年轻(露西),以人群为基础的亥姆霍兹慕尼黑中心的运行的多中心研究的大学医学中心在哥廷根大学。这项研究包括数据51岁以下的肺癌患者和家庭成员招募在德国医院(41,42]。海德堡肺癌病例对照研究中,由德国癌症研究中心(DKFZ)和海德堡Thoraxklinik德国,招募情况和控制在医院的一项研究[43]。合作医疗提供的额外控制研究在奥格斯堡地区(饰)以人群为基础的亥姆霍兹慕尼黑中心的全基因组研究的(44]。这三个研究的研究参与者的一个子集被选为德国肺癌GWAS形式。这些人在HumanHap 550 k SNP基因分型芯片。

第二个GWAS是类风湿性关节炎的研究北美类风湿关节炎财团(NARAC)。它包括868例从纽约医院,被诊断为类风湿关节炎的基于标准的美国风湿病学院。此外,1194年收集自我报告的种族背景控制匹配。个人都是基因分型与HumanHap500v1 array [45,46]。

类风湿性关节炎的研究中,我们利用性别环境协变量。在肺癌的研究中,年龄和吸烟暴露,以包年,也被认为是。确定包一年,一个繁殖的每天吸烟包数年来一个人吸烟的数量。

GWAS数据都进行严格的质量控制。只有个体基因型电话至少95%被认为是。snp与未成年人10%以上缺失值或等位基因频率(加)低于0.1%被排除在进一步分析。剩余的标记中的遗漏值估算了贝格尔号(47]。没有估算snp超出原来的芯片。所有snp的碱基对的位置被更新NCBI使用运用数据库构建38 (48),这是使用访问RbiomaRt(49,50]。基因的开始和结束位置从相同的数据库中提取,也使用NCBI构建38。单核苷酸多态性,没有独特的地位被排除在外。参考表3概述研究的特点。注意,在分析,只有snp映射在途径被认为是基因。单核苷酸多态性基因的分配是基于他们的碱基对基因位置和界限。单核苷酸多态性密切彼此往往设在连锁不平衡(LD)。基因SNP注释,我们指定区域包括LD-blocks扩展超越基因边界,推荐在51]。

KEGG数据库组通路不相交的子集根据他们的生物功能。在类风湿性关节炎和肺癌的分析数据,我们使用一个群73通道连接到人类疾病(见表4)。这组信息途径下载2016年4月。一个偏移量模型只包含环境不适合每一个研究作为开始为内核增加模型的途径。

对于每个通路分析,基于网络的核函数有4自由度担任base-learner。最佳的迭代次数 通过20倍推导二次抽样的默认步长 是使用。每个通路为目的的比较,认为在GWAS数据分析也是单独的测试使用LKMT相应的数据。相同的环境变量,用于抵消模型推动LKMT也被认为是。预测精度测量的误分类率和ROC曲线下的面积(AUC)这两个数据集。值得注意的是,应用影响模型的预测精度也通过手头的数据集,也就是说,信息中包含的数据的数量。此外,我们提供了交叉验证的结果,也就是说,(平均)负二项可能性并不是用于模型拟合的数据(见补充材料 ,部分 这些结果)。

4所示。结果

4.1。仿真结果

我们比较每种方法途径的数量确定为与疾病风险和考虑各自的重叠的结果。50 noninformative基因数据仿真由基因型数据通路和1000个人。图3显示运行的百分比的路径选择。我们可以观察到内核的应用提高这些数据不会导致高频率选择途径。选择途径似乎是随机分布到所有网络,不是说任何显而易见的协会与疾病状态。注意,在内核中增加,我们不进行测试,以评估通路的影响,但选择路径根据他们的预测性能。因此,我们不能计算第一类误差评价方法的性能。不过,我们可以量化实证错误。在 模拟运行在 通路的总数 发生错误的选择。因此,一个途径是错误的选择 %的所有可能的情况。在 出了 模拟运行时,没有单一的路径选择算法。因此,我们得出这样的结论:内核增加可以信任可靠的避免假阳性选择noninformative数据。

数据45比较的结果影响模拟1.5等位基因的相对风险通报了1000起病例和1000例对照通报了250起病例和250例对照。(一)每个图包含barplots指示选择频率 通路在所有模拟运行时应用内核增加相应的模拟场景。(b)比较这些结果与使用LKMT选择频率。在这里,这两个结果的百分比 下面的值 (浅灰色酒吧)和那些 值低于Bonferroni-corrected显著性水平 (暗灰色酒吧)表示。路径包含有影响力的基因是另外用斜体字突出显示的技术需求。

内核的结果增加2000人的样本(图4(一))显示三个途径明确认定为有影响力的临床结果,作为他们选择频率接近 %。这些都是最初选择的途径包括基因的影响,hsa04020hsa04022和途径hsa04610。似乎后者途径能够描述的一些信息影响力的基因更有效地比因果途径它最初的模拟。这可以解释,因为hsa04610传递性(最高 ),也被称为全球聚类系数,模拟通路和基因包含一个效果。随着网络内核设计工作特别是在相互关联的遗传效应的检测,确定因果基因通路当使用这个base-learner很好。注意,相同的路径没有noninformative仿真场景中脱颖而出。因此,我们得出结论,高转移性促进因果效应的检测在使用基于网络的内核,但并不导致假阳性(即。,在这里,路径不包含任何影响基因)。其他几个途径也被选中,但只有很低的频率。在相同的模拟场景中,LKMT有着非常高功率检测两条途径模拟影响疾病风险,然而,也检测到的其他途径包括任何因果基因在Bonferroni-adjusted显著性水平(图4 (b))。三个其他六个effect-containing通路在几乎被选中 %的复制和两个剩下的多 %和另一个路径含有基因几乎没有选择产生影响。

总的来说,这表明内核增加可以识别最有解释力的途径对疾病状态和不太可能比LKMT选择途径由于重叠效应基因(见[6讨论])。原因可以发现在内核的多元性质增强方法中,未测试的途径分别为他们的影响力,但多元模型安装将多个有影响力的同时预测。

5(一个)显示相关通路的选择频率下降明显,当样本容量减少。在更大的样本一样的三个途径达到选择频率最高的但这里只有在20%和60%之间。同时,选择在非伴生途径相比略有增加更大的样本。这表明样本容量的减少会导致不太清楚识别的主要内核增加影响力的途径。在图5 (b),我们注意到一个类似的行为LKMT选择频率的分析。在这里,能力识别途径,以前在大样本中发现,下降明显与较小的数据集。关于检测通路的百分比Bonferroni-corrected显著性水平,下降更加明显在LKMT比内核增加。这表明内核增加强烈受到样本量较少,可能会有更大的潜在因果效应的识别在较小的数据集的LKMT是动力不足。

数据67比较结果的内核增加和不同尺度效应的LKMT同样大小的样本 个人。图形和数据结构45,内核增加选择频率绘制(a)和(b) LKMT选择频率。图6包含一个模拟场景的相对风险 每一个因果等位基因和图7结果的相对风险 每个等位基因。另外,路径包含有影响力的基因是突出显示。

在内核中增加情节图6(一),这三个途径站在图4再次达到非常高的频率选择。所有三个酒吧大小场景相比,略有下降 个人,但仍然说明选择多 %的模拟运行。选择频率的其他效应途径相比增加场景图4。然而,当选择在noninfluential途径更频繁地发生在这里,他们显然不能确认为有影响力的基础上选择频率。LKMT分析的样本,发现因果效应相比明显下降 个人的示例见图4 (b)。比较数据67,我们可以看到选择频率的下降以及功率检测相关的通路。在图6,这两个通路被发现在几乎选择效果 %和周围 %这两种方法的模拟运行。在图7,我们观察到内核增加达到选择频率 %, %,而LKMT Bonferroni调整只有达到选择频率略大于 %, 分别为%。以类似的方式在数据场景相比的结果45,这两种方法有更高功率检测关联更强的影响;然而权力的下降为内核增加不明显。我们得出这样的结论:内核增加首先没有性能低劣的权力LKMT相比。它甚至可能证明更容易识别影响力通路基因的影响较小,因为它克服了多个测试问题。其次,我们推断,单通路测试方法相比,内核中增加有能力区分重要的生物过程与疾病相关的风险影响包含在路径仅由于重叠的基因。

4.2。GWAS分析结果

内核在人类疾病增加导致肺癌数据集选择的途径只有朊病毒疾病通路(KEGG id hsa05020)。没有其他的途径选择。的误分类误差调整提高肺癌模型(评估最优削减点定义的最小Youden指数) AUC是 。中华民国曲线和交叉验证结果的补充材料 ,部分 。LKMT与基于网络的内核并没有发现任何相关的通路Bonferroni-corrected显著性水平。朊病毒疾病通路出现排名20 73通道,当根据提升Bonferroni-corrected分类途径 值。朊病毒是错误折叠蛋白能够改变其他的结构,正确折叠的蛋白质在自己的不正确的朊病毒结构。他们大多被报道与神经退行性疾病(52]。然而,与不同形式的癌症也被怀疑[53,54]。全表分析肺癌的结果数据集可以在补充材料 ,部分

正如所料,风湿性关节炎数据集的分析发现各种途径(比较结果(13])。内核增加构造一个解释性模型基于疾病状态 选择路径(见通路用斜体字写在表4)。众所周知,基因属于人类白细胞抗原(HLA)复杂的高度与类风湿性关节炎(55]。HLA家族位于6号染色体的短臂,是一个高度多态基因系统主要负责调节免疫系统(56]。在人类疾病类中, HLA基因的途径包含至少一个。这些途径都标有星号在表4。之间的 包含HLA基因和通路 路径选择内核增加,有一个重叠的 通路。这可能是解释方法的多元性质,只有代表一个特定的路径最明显的遗传效应将被选中,有条件地在之前选择的影响。测试人类疾病途径的影响疾病状态与LKMT导致大量46通路显著相关 通路Bonferroni调整后(见通路 值在表4)。这些包括几乎所有的HLA通路( )。有影响力的途径的具体识别内核增加提供了一个更完整的基础至关重要的生物过程的理解参与疾病的易感性。的误分类误差调整提高风湿性关节炎模型(评估最优削减点定义的最小Youden指数) AUC是 。中华民国曲线和交叉验证结果提出了补充材料 ,部分

5。讨论

我们成功的为单通路测试方法扩展到多变量选择方法同步分析的几个途径。结果内核增加方法受益于基于分析的优点,同时克服了一些固有的局限性测试程序。

此外,我们多变量方法GWAS不提供数据分析 值,这只提供有限的遗传效应的相关性信息。一个更有意义的调查的结果将是影响测量特征或更好的预测结果。内核增加促进预测,基于所选择的影响变量,阐明在应用程序的总体预测精度的模型被报道。因此,也可以解释一个特定的基因改变的影响,通过比较预测结果的变化。高度的模型预测精度是保证通过方便评价其性能的次级样本调查数据集。这个过程通常会导致良好的预测精度和稀疏的模型。

由于内置的收缩,我们的提升方法能够处理相关的影响。因此,相关的通路,其中部分包括相同的基因,可以在这个框架内处理。多亏了多变量的性质的方法,只有最佳途径,评估预测精度,将选择进入模式。因此,只代表一个特定的遗传效应的途径最明显的选择,取决于这些路径选择。我们的观察支持声明de Leeuw et al。57]竞争基因片段的分析方法(多元方法,通路竞争),与独立的方法(单变量方法,一次一个通路),可以区分广泛遗传因果生物过程的多色的结果。这个属性可以是非常有用的识别和理解特定的生物功能参与疾病的易感性。

我们考虑通路作为分析单位;然而存在各种其他选项。单个SNP在转录或untranscribed地区,和SNP集聚合代表一个特定基因组区域,环境变量,或其他的变量,可以被调查甚至任意组合在一个模型。例如,我们的方法的应用的基因组成的途径可能有助于识别网络中的关键影响力的基因(基因提高,看到马的工作等。58];好的概述生物信息学的特征选择方法和机器学习工具是指(59,60])。已知的影响因素可能是嵌入在一个初始模型选择过程调整前环境或遗传效应。此外,考虑影响可以被纳入模型通过base-learners多种可能。

base-learner可以影响效应的选择的选择。我们观察到这种行为模拟中,高度的连接通路只包含一个影响基因被确定由于网络内核的高功率相互关联的影响。因此,选择周全base-learners利用建议。我们占的高复杂性可能的基因相互作用通路通过使用一个内核函数,占添加剂和交互影响。这样一个核函数可能会导致更高程度的预测精度比一个简单的线性内核。GWAS数据集的应用程序的方法返回类风湿性关节炎和肺癌生物学上看似合理的结果。特别是在风湿性关节炎数据集,确定通路相比可以减少相当数量的单一途径测试。而LKMT导致 通路显著相关,内核增加缩小了选择范围 通路。已知基因HLA区域内对类风湿性关节炎有强烈的影响。其影响可以达到跨通道,这样LKMT检测许多途径包括HLA基因显著相关。增加似乎有助于确定信号即使在那些通路,降低识别路径的数量到一个更合理的水平。

我们的研究结果表明,内核增加优于单一内核机器测试,正如LKMT所证明的那样,在某些基因的场景。它可能有助于区分因果生物过程从孤立的影响包括在通路由于基因重叠和便于发现弱信号,特别是在有限大小的研究。这是特别感兴趣的调查罕见疾病和疾病的亚型,建立的方法往往不能找到任何显著相关通路由于缺乏力量。

可以分析数据集的大小进行内核增加相当有效地对当前高性能集群计算(HPCC)系统。然而,这样的分析非常大的数据集的地方,而高需求即使在最强大的HPCC系统日期。通常,我们的内核base-learners是基于成对相似性的观察。这将导致 相似矩阵作为设计矩阵,因此参数向量 的大小 。而不是使用所有成对相似性,可以计算出相似之处只有一个代表性的子集的观察,或所谓的结。这些结可以选为观察涵盖完整的观测空间的子集(空间算法;参见[33,61年,62年])。因此,我们获得reduced-rank设计矩阵的维度 ,在那里 结的数量,一个参数向量的大小 。这减少了计算负担的建设内核base-learners和效果评估,使基于方法甚至是可行的在许多情况下观察。观测的具体数量,可以处理取决于,在考虑数量的个体,单核苷酸多态性,base-learners选择和可用的硬件。

内核增加构成新的和潜在的强大的工具在GWAS的分析数据。它提供了一个高度灵活的和可扩展的框架,适用于广泛的应用场景。我们占的高复杂性可能的基因相互作用通过核函数的使用,同时减少由此产生的模型的复杂性与内置的收缩的增强方法。由此产生的模型使我们能够预测特征并返回测试过程更有意义的结果。我们得出这样的结论:内核增加是一个合适的方法除了GWAS的分析,支持遗传风险因子的检测和解释影响疾病的易感性。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是在德国研究基金会的支持下,研究培训集团1644年统计数据“扩展问题。“风湿性关节炎的数据被认为是在这篇文章中提供的美国国立卫生研究院(格兰特AR44422)。分析了肺癌的研究是通过TRICL格兰特没有可用的。U19CA148127。作者要感谢安德鲁Entwistle手稿的关键评论。

补充材料

补充1(补充文本,PDF):补充文本提供进一步的细节进行了分析。它包含额外的信息在模拟研究包括解释的最大迭代数的选择,深入分析相关的选择途径,详细的计算需求,细节影响途径用于仿真研究。补充还包含进一步的数据分析结果肺癌和风湿性关节炎。

补充2(代码和数据,zip归档):补充代码和数据文件提供一个示范应用内核增加方法模拟数据集。代码中的readme文件和评论强调所有重要方面和解释的分析步骤是必需的。

  1. 补充材料
  2. 补充材料