文摘

主要目标之一的全基因组关联研究(GWAS)是为一个二进制的临床开发预测模型结果使用单核苷酸多态性(snp),可用于诊断和预后的目的,更好的理解疾病和单核苷酸多态性之间的关系。惩罚支持向量机(SVM)方法已经为此而广泛使用。然而,因为调查人员往往忽略单核苷酸多态性的遗传模型,最终导致效率的损失预测模型的临床结果。为了克服这个问题,我们提出一个两阶段方法,这样每个SNP的遗传模型识别使用MAX测试,然后使用惩罚支持向量机的预测模型是安装方法。我们将该方法应用于各种处罚svm和比较svm使用各种惩罚函数的性能。模拟的结果和实际GWAS数据分析表明,该方法执行比预测方法忽略了遗传模型的预测能力和选择性。

1。介绍

我们考虑一个全基因组关联研究(GWAS)在一种复杂的疾病。的一个流行的研究目标的研究是预测一个二进制的临床结果,如良性与恶性和响应与无响应对一个具体的方案,基于单核苷酸多态性(SNPs)数据。合身的预测模型将被用来预测未来患者的诊断或预后结果。最近,处罚方法将逻辑模型或支持向量机与二进制积极提出适合预测模型结果。这些是众所周知的同时达到两个预测准确性和变量选择。

通过引入收缩先知先觉的正常exponential-gamma(底片)分布的家庭,间断et al。1提出一个随机搜索方法与单核苷酸多态性惩罚逻辑回归模型。艾尔斯和柯2]表明,负的先验有更好的性能比其他竞争惩罚使用模拟方法,虽然它很计算密集型的生产结果。吴et al。3)认为lasso-penalized逻辑回归(4]大量snp和提出了循环坐标下降算法(5)来实现计算。Kooperberg et al。6删除SNPs,哈迪温伯格 值小于 拉索和应用逻辑回归模型和弹性网(7]惩罚使用一组单核苷酸多态性预选的交叉验证过程。另一方面,魏et al。8)提出用EigenStrat算法选择单核苷酸多态性(9),应用支持向量机和逻辑回归预测模型。亚伯拉罕et al。10表明两种处罚的方法, 和Elastic-net SVM健壮,以防/控制基于模拟预测性能研究和实际数据分析。这些同步分析方法忽略了单核苷酸多态性的遗传模型(6]或假定所有的添加剂模型单核苷酸多态性(6,8,10]。

等统计检验皮尔逊卡方测试或Cochran-Armitage趋势测试(土)经常被用来测试如果一个SNP与二进制结果通过假设一个特定的遗传模型。通常,然而,真正的遗传模型是未知的。我们可以提高测试能力如果我们知道真正的遗传模型的SNP (11]。为此,测试基于最大的三个土统计(MAX测试)已经被几位作者提出12,13]。金等。14)最近提出了一个预测方法比较特征使用单核苷酸多态性,表明预测模型基于最好的配件单核苷酸多态性的遗传模型可以提高预测效率。我们延长他们的二进制结果使用支持向量机的预测方法。

在本文中,我们提出一个预测方法结合马克斯测试和处罚SVM预测二进制结果使用单核苷酸多态性。该方法过程包括两个阶段:(i)选择候选人预后snp并确定其遗传模型使用MAX测试,和(2),以适应使用惩罚支持向量机的预测模型和适当的分数根据选定的snp基因类型。我们比较了该方法的性能使用不同的处罚SVM方法通过模拟和一个真正的GWAS数据分析。每个支持向量机方法结合最大测试或惯例忽视单核苷酸多态性的基因类型。

促进并使马克斯测试,我们提供R包SNPselecthttp://datamining.dongguk.ac.kr/Rlib/SNPselect它使用惩罚SVM R包(15)来实现SVM与竹荚鱼 ,弹性净处罚。

2。方法

2.1。惩罚支持向量机

假设有 科目。为主题 ( ),我们有一个输入向量 和一个类标签 。支持向量机(16,17)找到最优超平面将最大的利润数据点分为两类。

·et al。18)和Hastie et al。19)发现,支持向量机的优化问题可以表示为惩罚优化问题: 在哪里 被称为铰链损失和 是一个penality函数和正则化参数吗 。支持向量机的使用 规范, 作为罚函数称为标准SVM或 支持向量机。

支持向量机已经成功地应用于分类与基因微阵列和单核苷酸多态性等高维数据,但它不选择变量影响响应类标签。特征选择的 支持向量机,盖恩等。20.)提出了SVM-REF过程相结合的递归特性消除(RFE) 支持向量机。这个过程由一个两步过程使用一个外部基因选择方法。

同时为了实现分类精度和特征选择,变异提出的支持向量机已更换的罚函数(1)与其他类型的惩罚函数,例如,SVM与1-norm [21,22),自适应套索(23),或顺利剪和绝对偏差(竹荚鱼)24,25)处罚。SVM与1-norm(或 适应套索(或svm) )点球, 最初提出的Tibshirani [4作为一个实际的选择 点球。由于 点球, 支持向量机自动选择变量缩减小系数超平面的零。

的主要缺点之一 点球是它往往只选择一个变量,当有许多相关输入变量数据。克服这种限制的套索,邹和Hastie [7)提出了弹性结合净损失 处罚: 由于弹性净损失提供了变量选择 点球,而发现高度相关的变量,称为分组的效果。王等人。26)应用SVM分类问题的弹性净损失。

风扇和李24)提出了顺利剪绝对偏差(许多)处罚给出 在哪里 在这里, (> 2) (> 0)调优参数。风扇和李24]表明,竹荚鱼点球的预测是不敏感的调优参数 ,推荐使用

竹荚鱼产量相同的行为 对于小系数 , 惩罚系数大,但分配一个常数。这个属性可以减少估计偏差。风扇和李24展示更可取的理论相比,竹荚鱼点球的属性 点球。后来,Zhang et al。25)提出了支持向量机对特征选择竹荚鱼惩罚。

2.2。单核苷酸多态性基因模型

让AA、AB和BB是三种可能的基因型B是一个给定的风险等位基因SNP。我们表示B等位基因的数量在一个基因型 ;也就是说, 或2如果AA基因型AB,或BB,分别。对于一个给定的SNP的数据 病人总结在表1

表示响应概率基因型 。如果B等位基因的响应,响应概率随B等位基因的SNP数量的增加;也就是说, 。在本文中,我们将考虑三种流行的遗传模型满足这个假设:(我)隐性模型: ;(2)占主导地位的模型: ;(3)添加剂模型:

2.3。测试和MAX测试的趋势

测试一个SNP和临床结果之间的联系在病例对照研究中,统计测试如皮尔逊卡方测试或土时经常使用真正的遗传模型。在这种情况下,凯特是通常更强大的比皮尔逊卡方测试 (12]。一个SNP,借贷的符号表1可以写成,土生的统计 (在哪里 , , )是一组分数分配给基因型( , , )对一个特定的基因型。测试是一个线性变换下不变的趋势 ,所以这些分数的典型的选择 ,但 可以根据特定的遗传模型不同的值。从Sasieni的结果27和郑et al。12,28),最优的选择 隐性的添加剂,分别和主要模型。让 为基因型组表示响应概率 。没有联系的零假设下, , 大约是 对于大型

当真正的遗传模型是未知的,测试基于多个土不同的遗传模型会导致大量减少统计力量(11或膨胀的类型我错误率。为了解决这个问题,测试基于最大的三个土统计(MAX测试)已经被几位作者提出12,13]。让 , , 表示土使用隐性的分数统计,添加剂,分别和主要模型。基于三个土统计,马克斯检验统计量的定义是 马克斯测试有健壮的属性(29日),是更强大的比皮尔逊卡方测试(12当潜在的遗传模型是未知的。

即使一个可以很容易地计算出最大检验统计量(5)和(6),它不是简单的计算 价值。获得的一个方法 值是基于蒙特卡罗模拟。下 郑et al。12)表明, 与协方差是渐近正态的 在哪里 表示基因型的相对频率 。因此我们可以近似 马克思的价值测试基于蒙特卡罗多元正态分布的样本估计variance-covariance矩阵 这是获得代替吗 在上面的协方差

有一些研究变异的最大考验二进制临床结果。郑et al。12)开发一个健壮的排名方法,称为最高等级测试。Conneely et al。30.)提出了一个高效 值计算方法更精确显示比使用排列通过调整相关的测试数据。李等人。31日提出了P-rank测试近似 值最大测试有或没有协变量调整。李等人。32)相比的性能最高等级和P-rank测试。更详细的讨论在马克斯测试,看到11]或[32]。

2.4。通过支持向量机分类与马克斯测试

对病人 ,让 表示二进制临床结果1如果回应或 如果没有回应, 编码数据 单核苷酸多态性, ,风险等位基因的SNP ( )。与这个数据集构建一个分类模型,我们提出一个方法将处罚SVM和马克斯测试。我们的方法包括两阶段过程:(i)试销单核苷酸多态性和确定选定的单核苷酸多态性的遗传模型使用MAX测试和应用惩罚(ii)支持向量机分类模型。我们的方法可以概括如下。(1)读临床结果 和SNP数据 (2)为国民党 ( ),(一)使用原始数据,计算测试数据 和他们的两面 和MAX检验统计量 (b)计算的近似 马克思的价值通过蒙特卡罗模拟测试:(我)估计variance-covarince矩阵 ;(2)生成 (= 100000);(3)近似的 值最大测试通过 在哪里 (3)SNP检测:选择 ( )单核苷酸多态性 对于一个指定 值,如 (4)为国民党 ,确定最小遗传模型 价值在 , , (5)协变量分配值 使用相对应的分数确定遗传模型。(6)协变量标准化;也就是说, 在哪里 (7)将惩罚支持向量机应用于响应数据 和标准化的协变量

3所示。结果

3.1。模拟研究

首先,我们生成IID 随机变量 和, ,设置 请注意, 有一个AR(1)和自相关系数相关性结构吗 在[14]。SNP生成的数据相关 在哪里 表示 标准正态分布的分位数。二进制病人的临床结果 使用响应概率生成吗 协变量是相关的吗

考虑不相关的情况下或适度相关snp在我们的实验中,我们设置 。我们生成 编码的单核苷酸多态性与 。snp 1和2有隐性模式;snp 3和4有显性模型,单核苷酸多态性5和6添加剂模型,这六个预后snp的回归系数设置 。根据上面的数据生成计划中,我们有200年生成的模拟数据集的大小,和每个数据集划分为训练集和测试集1/3 2/3。分类模型拟合,三个惩罚函数的支持向量机与一个,竹荚鱼(SCAD-SVM), ( 支持向量机)和弹性网(Enet-SVM),应用于单核苷酸多态性选择使用 。选择最后一个分类模型,我们使用5倍交叉验证选择调优参数。的标准做法之一使用SNP的分类模型拟合数据将假设一个平等所有SNP基因模型。为了评估性能模型的拟合方法结合最大测试,我们也有安装一个分类模型,假设所有snp基因模型。

对于每个模型拟合方法,我们计算三个性能等措施选择的snp的数量,数量选择预后snp的处罚方法,和错误分类错误。选择这里,选中的snp的处罚SVM在snp试销后一步,和选择的预后snp是预后的包含在选定的snp。误分类错误估计使用测试数据集;也就是说, 在哪里 是一个指标函数, 表示测试集预测反应评分预测,和 协变量s是标准化的测试集使用手段和标准错误从训练集计算。为了评估实验的可变性,我们复制整个过程的100倍。表2总结了三个平均绩效指标从我们的模拟。

当比较选定的单核苷酸多态性在表的数量2,我们观察到Enet-SVM倾向于选择更多的snp但SCAD-SVM选择较低的单核苷酸多态性的情况除外 和占主导地位的模型。针对不同的遗传模型,该方法应用时选择更多的snp 支持向量机或Enet-SVM。然而,该方法的组合和SCAD-SVM比其他组合选择更少的snp。比较多的预后snp, Enet-SVM或 svm执行比SCAD-SVM和假设提出的方法或相加模型具有良好的选择性真正的预后snp。结果与相关的单核苷酸多态性( ),Enet-SVM和 支持向量机的方法导致更好的选择性比与添加剂模型真正的预后snp。然而,该方法可以最糟糕的时候SCAD-SVM用于不相关的SNP数据。我们也比较误分类错误。即使有一点Enet-SVM和之间的区别 支持向量机,Enet-SVM执行比其他处罚的方法。所有病例SCAD-SVM产生最严重的误分类错误。我们还发现,该方法最低误分类错误不管处罚SVM方法除了SCAD-SVM申请的情况 。基于仿真结果讨论到目前为止,该方法结合Enet-SVM或 支持向量机可以改善预后SNPs和选择性的能力比其他方法使用前缀precdiction遗传模型。

3.2。实际数据分析的例子

金等。33)执行使用Affymetic GWAS人类全基因组SNP数组6.0(美国圣地亚哥,CA) 190例慢性粒细胞白血病(CML)。扣除后的单核苷酸多态性与一个缺失的情况下,相同的基因型190例,我们使用330353常染色体snp进一步数据分析。临床终点的成就是主要的分子反应诱导化疗的18个月。BCR / ABL转录水平测量来确定分子像之前描述的那样对伊马替尼治疗的金et al。34),提出了使用国际规模。主要的分子响应(MMR)被定义为< 0.1%的BCR / ABL融合基因转录水平在国际规模的定量PCR。190名患者中,115年回应道。

我们随机CML数据分割成126个训练样本和64个测试样本,然后计算方法的预测性能措施超过100个随机分区。表3总结选择SNPs和平均误分类错误的数量和他们的标准在括号错误100随机分区。与仿真结果相似, 支持向量机和Enet-SVM使用MAX测试稍微增加选择的数量,但产生更低的误分类errorr。三种处罚方法,Enet-SVM选择最多的snp,但最低误分类错误无论使用MAX测试。然而,SCAD-SVM选择最低的单核苷酸多态性,它有任何假设的预测表现不佳的遗传模型,也就是观察仿真结果。

4显示了51个snp的列表选择通常由三种处罚方法从126年训练样本的100个随机分区。TGFBR1基因(rs420549位于3′UTR区域)在51个snp,转化生长因子β1受体,与转化生长因子β1 (35,36)和转化生长因子β受体2 (37,38),位于9的时候。转化生长因子β发挥着重要作用维持造血细胞的生长和分化平衡(39,40),是已知的双向性质肿瘤抑制和促进功能(41]。TGF - foxo信号通路参与维护leukemia-initiating CML细胞,导致内在抗CML lsc酪氨酸激酶抑制剂(42,43]。因此,内在特质TGF -受体的亲和力 TGF -可能导致不同的敏感性 ;因此,它可能是可辩解的,伊马替尼治疗的反应是依赖于TGFBR1基因型。

4所示。结论

虽然处罚方法被视为成功的预测,他们仍然受到高误分类错误,忽视预后单核苷酸多态性的遗传模型。在本文中,我们提出了一个两阶段的过程:(i)进行的最大试验筛选出非实际候选人snp并确定所选单核苷酸多态性的遗传模型在第一阶段(2)惩罚支持向量机应用于选定的snp配件分类模型在第二阶段。我们比较了该方法与传统的表现方法忽略预后单核苷酸多态性的遗传类型通过模拟和实际数据的例子。在模拟中,我们观察到Enet-SVM和 SVM为真正的选择更多的snp,但更高的选择性预后SNPs和较低的误分类错误三种处罚SVM方法之一。结合该方法选择候选snp和估计他们的基因模型,我们发现惩罚svm除了SCAD-SVM可以改善方面的表现真正的预后SNPs和错误分类的选择错误。此外,三种方法之间的差异的误分类错误的方法变得更小。因此,任何一个惩罚我们使用SVM模型拟合,结合它与马克斯测试来确定候选预后单核苷酸多态性的遗传模型可以帮助改善其性能。我们做过类似的观察从一个真实的数据的例子。即便如此,候选snp的选择可以根据指定的选择不同 ;因此,马克斯的预先筛分试验不可能选择一个真正的预后snp的一部分。在未来的工作中我们将考虑这一点。

作者的贡献

Jinseog金正日和孙Insuk同样这项工作。

确认

这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由教育部、科学和技术(没有。2010 - 0023302)。