文摘
作为现代生物技术的发展,它变得越来越频繁,不同形式的高维分子数据(本文称为“组学”数据),如基因表达,甲基化,和拷贝数,收集来自同一病人群体预测临床结果。虽然预测基于组学数据已被广泛研究在过去的15年里,小已经完成统计文献的集成多个组学方法为预测变量的选择一个子集,在个性化医疗是一项至关重要的任务。在本文中,我们提出一个简单处罚回归方法来解决这个问题,分配不同的惩罚因素为特征选择和预测不同的数据模式。惩罚因素完全数据驱动的方式可以选择交叉验证或考虑实际问题。在仿真研究中,我们比较我们的方法的预测性能,称为IPF-LASSO(综合套索与惩罚因素)和R包中实现ipflasso,标准套索和稀疏集团套索。使用IPF-LASSO还通过应用程序来说明两个真实的癌症数据集。同伴的网站上的所有数据和代码可用来确保再现性。
1。介绍
大多数药物不能治疗所有患者特定疾病。因此识别关键生物标志物(遗传、基因组,蛋白质组,或任何可测量的生物实体)可以预测病人对一个给定的反应治疗。最终,生物标志物是内置的同伴诊断包。理想情况下,生物标记的数量应该减少劳动力和成本小。
高通量的分子数据,称为“组学数据”在这篇文章中,用于开发预测模型已经超过15年了。作为一个著名的例子,基因表达数据经常被发现是有用的预测治疗的癌症患者生存反应;绝大的热情在最初几年一直同时受到更多的关键研究[1]。在过去的几年中,生物测定技术改进和降低成本收集几种类型的高维数据在同一研究可行的。
例如,甲基化数据,拷贝数数据,和mRNA表达可以为同一病人队列。其他数据类型包括微rna表达,蛋白质组学数据,代谢组学数据和单核苷酸多态性(snp)。在本文中,我们表示每一组相同类型的变量作为“形态”和“multi-omics”数据集整个数据集。例如,在本文中,我们考虑为说明乳腺癌临床形态和基因表达数据集与形态(2)和白血病数据集从癌症基因组图谱3与临床形态),基因表达模式和拷贝数变异形态。
作为生物标志物的多个模式测量可用相同的患者,研究兴趣开始关注数据的集成模式识别生物标志物和构建预测模型具有良好的精度4,5]。尽管使用标记使预测一直是研究的主题,目前尚不清楚应该如何处理不同的模式。最简单幼稚的方法是合并所有数据集和忽视的来源变量。相比之下,其他作者建议每个形态的分析,然后合并结果(6),合并可以执行在不同阶段的分析7]。然而,文学往往是含糊不清的何时使用不同的策略。
变量的情况下从一个低维形态(通常情况下,一些临床变量相关结果预测)和一个高维模式(例如,一个微阵列基因表达数据集)已经被德本广泛调查et al。8),评估“残余”两步方法和“支持”的方法(见部分2.2更多的细节)。
已经有大量的文献统计和生物信息学的集成多个组学数据集调查相关结构(9]。然而,这些作品的焦点不是预测。我们的动机是基于一个well-investigated框架,提出一个简单的方法,考虑了数据模式,同时将它们集成到一个稀疏的预测模型。我们的方法是基于处罚回归(套索)[10),考虑了数据结构通过分配不同的处罚形式因素。惩罚的因素是由交叉验证或由用户指定。我们命名这个方法IPF-LASSO(综合套索与惩罚因素)。
在仿真研究中,我们表明,IPF-LASSO执行比标准的套索当相关变量的比例是不同的在不同的形式和生成吝啬的预测规则与稀疏集团套索。R包称为ipflasso实施这一方法是在R /凹口网站上公开。直接基于套索,我们的方法有两个主要优点:其概念简单的框架内和可移植性(11)(例如,在二进制的结果的情况下,用户只需要知道安装回归系数应用预测规则)。
本文的结构如下。简短的介绍之后处罚回归,新提出的方法详细描述部分2。模拟研究结果,给出了两个实际的应用程序部分3和4,分别。所有可用数据和代码http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/ipflasso/确保再现性。
2。方法
2.1。IPF-LASSO
2.1.1。原则
我们表示标准化的预测变量从主题作为和集中(连续)响应值,在那里和。拉索的标准方法(10)解决了通过发现惩罚回归问题最大限度地减少,在那里表示规范。的点球收缩的一些系数为0,从而导致一个内在变量选择。发展的历史概述套索的回归和一些变化,读者可以参考Tibshirani [12]。
这个框架可以广义逻辑回归(在一个二进制的结果)和Cox比例风险回归(审查时间的事件)。这个词取而代之的是(代表对数似函数和拦截)的物流套索,取而代之(代表的部分对数似)考克斯套索。我们的新方法是修改套索致力于多个数据模式的情况(数据类型)使用相同的主题。让我们从形式表示的变量(),和他们的价值观为主题(),,在那里从形态是变量的数量吗。同样的,表示变量的系数。
我们建议使用的加权和准则的系数向量的每一个形态()作为惩罚项,旨在解释他们发表的不同。在我们的方法中,估计系数是那些最小化 在哪里从形态是刑罚适用于变量。我们调用这个方法“IPF-LASSO站综合套索与惩罚因素。“惩罚因素”这一术语指的是乘法因子应用于惩罚项。没有限制的普遍性,我们认为第一个形态是参考modality-with点球第1和惩罚因子定义惩罚因子的方法作为。
类似于标准的套索,我们建议的框架可以应用到惩罚与线性回归、二元或比较的结果。惩罚项中给出的理由(1),在现实中相关变量的比例通常是高度不同的从一个模式到另一个;因此,惩罚是有意义的方式不同。
套索的贝叶斯解释是有用的概述不同的惩罚参数的动机。公园和卡塞拉(13)表明,套索线性回归参数的估计可以解释为一个贝叶斯后验模式当回归参数估计拉普拉斯(即独立。双指数)先知先觉。在这个角度看,使用不同的处罚不同形式为拉普拉斯先验设定不同的参数。它可以被视为一种使用前可用的信息来提高系数的估计,最终,预测精度。
请注意,我们的方法也可以被视为与自适应套索(14),在这个意义上,变量的系数确定为信息的惩罚不如noninformative变量的系数。然而,与自适应套索(14),这一修改的惩罚强度不会发生通过单独为每个变量套索的第一步,但整个形态的水平。
2.1.2。估计
从计算的观点来看,IPF-LASSO定额罚款因素并不比相应的复杂形式的套索(线性、逻辑或Cox)相同的惩罚所有的变量,在估计可以简单地获得与任何标准套索算法通过初步扩展变量使用各自的点球。更准确地说,标准的估计算法是相同的惩罚参数运行所有变量的转换数据估计是获得和新吗获取IPF-LASSO估计。
2.2。之间的连接IPF-LASSO拉索和其他组学数据的变化
有套索变化对单个和多个数据几组提出的模式。在本节中,我们讨论IPF-LASSO这些的连接方法。在该方案中调查德本et al。8),我们有两个模式()。第一形态包括只有少数临床变量,这样一个经典的回归方法可以应用到这个形态(经验法则,变量的数量乘以5或10的数量不应超过观测通常是满意)。第二种形态是高维。在这种情况下,它是明智的惩罚第二形态,即考虑惩罚项。在术语的德本et al。8),以上是表示“支持”的方法,因为较小的临床模式不是处罚;换句话说,这是“青睐。”另一种方法,即“剩余”的方法,提出了德本et al。8拟合的数据),有两个步骤。首先一个经典(线性、逻辑或Cox)回归估计适合第一形态;由此产生的线性预测被认为是一个偏移量的估计通过套索回归。然而,这两种方法不能应用,当有多个高维模式,因为它不可行的估计系数。此外,他们可能会导致减少精度如果青睐模式在现实中不是最相关的预测。
另一个两步的方法提出的预测是赵et al。6]:他们首先应用套索回归multi-omics数据选择少量在他们的应用程序(10)从每个形态的变量,然后使用所选变量中处罚Cox回归模型。这种方法不考虑变量不同模式之间的相关性。
集团套索(15,16和稀疏集团套索17]代表另一个类别的套索与一组扩展数据结构。在多个模式的案例中,术语“集团”本质上是“形态。“集团套索的原则是,从同一组变量应该是所有选定或丢弃。它是有意义的,例如,当每组由虚变量编码multicategorical变量相同。集团套索的处罚考虑方法的形式与多个大型组学模式被认为是在我们的论文中,最有可能,最多几个变量从每个形态是真正相关的预测;因此,这种“none-versus-all”在这种情况下的假设是不合理的。
稀疏集团套索(17]放松“none-versus-all”假设通过引入一些组内稀疏。这是通过结合集团套索的点球处罚,惩罚项,在那里是一个所谓的“混合参数”由在0和1之间。稀疏的组的情况下可以使用套索IPF-LASSO旨在解决模式被视为一组。然而,这两种方法本质上是不同的。在稀疏集团套索,一个混合参数平衡的影响群体结构和整体稀疏;因此,一个模型,强烈反映了群体结构获得的价格降低稀疏;此外,的程度收缩是相同的所有组(形式)所控制,这常常并不能反映现实。IPF-LASSO,另一方面,更灵活地改变收缩参数不同的价格模式主任更多调优参数(每个通道)的情况下超过两个模式。节3,我们将比较IPF-LASSO的表演和稀疏集团套索。
另一个最近提议的方法处理两个框架的形式处罚回归是协作的回归18]。我们的想法是使用一个点球不仅基于——或者准则的系数也惩罚了线性预测之间的区别造成的两种形式。这两个模式“合作”,他们被迫收益率预测类似的贡献。在数学术语和适应我们的符号,惩罚项考虑和Tibshirani总值18)是,在那里是一个点球的通用符号术语,例如,基于——或者规范和表示数据矩阵形式(与这里)。注意,毛重和Tibshirani [18)状态,这种方法不是适合预测而是发现共同模式由两个模式迫使每个形态的拟合线性预测是相似的。
为了穷尽性,让我们也提到一个应用在植物育种(19)使用不同的想法应用惩罚变量从两种不同的模式(遗传标记和代谢组学特征的情况下),但是,在岭回归的不同的上下文(例如,处罚而不是套索)连续的结果。在他们的研究中,在遗传学期刊上出版,关注农业应用,这种方法适用于数据集和不从方法论的角度进行调查。基于类似的方法惩罚逻辑回归(20.正式和扩展了这个概念的目的更好地整合外部数据,如注释或外部值。
总之,这里的IPF-LASSO提出旨在使用多个高维数据模式以一种灵活的方式通过考虑不同特征选择和预测模型,这是一个重要然而在生物医学研究中尚未解决的问题。
2.3。交叉验证选择的惩罚参数
在本节中,我们讨论的选择参数。类似于标准的套索,惩罚因子的值可以由交叉验证(CV)基于预测的性能。在我们的研究中,我们使用5倍和10个重复简历良好的性能和计算时间之间的妥协21]。常见的指标量化预测性能包括连续结果的均方误差,误分类率(或),ROC曲线下的面积(AUC)二进制结果,或部分可能比较结果。在实践中,我们实现过程如下。我们考虑不同候选人的惩罚因子向量形式,;为每个候选向量惩罚因子,我们申请的简历选择性能指标选择最优;向量惩罚因子的最优收益率根据性能指标选择最适合的最终选择。
2.4。软件实现
IPF-LASSO是我们新的R包中实现ipflasso从凹口,这是公开的。它是基于R包glmnet包括以下功能和改进。
重新调节过程。重新调节过程中所描述的部分2.1。2实现在R包glmnet(22通过论证)penalty.factor。这个论点的形式penalty.factor = c(代表(p1)…,代表(烤瓷,pM))在IPF-LASSOp1,…,点的大小吗模式和烤瓷代表(注意,结果是不变量对向量的乘法点球由标量)因素。从我们的包的功能ipflasso自动生成的参数penalty.factor当给定变量的指数从每个形态和价值观()。
交叉验证的选择 。一组固定的惩罚因子,可以选择使用函数cv.glmnet从包glmnet(22]。然而,cv.glmnet不能执行重复简历的当前版本。一个扩展的版本cv.glmnet允许重复简历实现的函数cvr.glmnet从我们的包ipflasso。重复简历应用结合惩罚因子变量从不同形式实现的函数cvr.ipflasso。
交叉验证为惩罚因子的选择。最后,R包ipflasso还包括一个函数,cvr2.ipflasso,执行简历在网格的两个维度:选择固定惩罚因子和惩罚因子的选择()。惩罚因子的候选集作为参数。这个函数cvr2.ipflasso允许设置一个最大数量的变量包含在最终的模型。的CV-based选择参数然后执行只有在值产生模型的大小或稀疏的。
作为一个例子,下面简单的代码执行5倍交叉验证重复10次选择最好的惩罚因素,,,,,200年的预测变量来自两个模式(一个由50个姓变量组成的150,另一变量)。
> X <矩阵(rnorm (50200),50200)
> Y < -rbinom (50 1 0.5)
> cvr2.ipflasso (X = X, Y = Y,
家庭= "二",type.measure =“类”,
标准化= TRUE,块=列表(block1 = 1: 50, block2 = 51: 200),
pflist =列表(c (1, 1), c (1、2), c (2, 1), c (1、4), c (4,1)), nfolds = 5, ncv = 10)
目前用于交叉验证的标准实现ipflasso是连续的均方误差结果,误分类率或曲线下的面积(AUC)二进制的结果,和部分可能比较结果。
3所示。模拟
3.1。仿真设计
模拟研究的目的是调查IPF-LASSO的性能并与其他方法进行比较。我们考虑一个二元因变量和两个高维数据模式。变量变化的两种形式(i)变量的总数和,(2)他们的数量的真正相关的变量和,(iii)的影响和相关的变量。在所有的设置,数据集的大小先后随机生成如下。二进制类是来自伯努利分布与成功的概率。然后从多元正态分布的变量: 在哪里协方差矩阵设置为单位矩阵主要设计和均值向量给药
在主要的设计中,我们考虑设置(即。的组合,,,,,,)显示在表1。设定一个反映了两种形式的不切实际的情况完全相同的大小(),数量/比例的相关变量(),和效果()。在制定B,真正的相关变量的比例都是一样的在这两个模式(),其影响也平等,但形态1要小得多(比方法2 ())。在制定C, B模式是在设定的大小和影响也是平等的,但真正的相关变量的数量()是这样比例真正的相关变量是不同的两个模式(与)。这种差异更明显在设定D:通道1和0的比例是0.20通道2,一个非常常见的情况在实践中(“无用的组学数据”)。设置E也反映出一个共同的情况:小通道1 ()包含强预测因子(例如,),这是通常情况下的临床变量或一个小的假说驱动的生物标志物面板。相比之下,大形态2 ()包含弱的预测变量()。F,最后,在设置模式是相同的大小设定E但有更多的真正形态1中相关变量()和更少的形态2 (),其影响是相等的()。这种情况下,D和E之间的中间设置,在实践中也很常见。
对所有数据集在每个六设置(f),我们使用四种不同的方法推导出预测模型。
IPF。我们与候选人IPF-LASSO应用方法,惩罚因素为。注意,当,也就是说,当,该方法相当于标准的套索。与10个重复使用5倍的简历。简历中使用的标准选择是误分类率。处罚的所有其他参数回归算法将包的默认值glmnet。
标准。标准的套索,形态结构,将被忽略。这相当于IPF-LASSO与惩罚因素作为唯一的候选人。IPF的参数是一样的。
西格里碳素集团。稀疏集团套索(17]在R包中实现西格里碳素集团(23]。5倍的简历没有重复的重复选项不可用西格里碳素集团。所有参数设置默认值的方案西格里碳素集团除了用力推设置为而不是保持与其他方法计算的时间可比(我们的测试表明,由此产生的精确度损失最小)。
年代。单独的模型拟合先后使用标准的套索。5倍的简历与10个重复用于确定参数。这两个产生的线性预测然后通过逻辑回归预测模型相结合。
在每个仿真环境中,所有拟合模型的预测性能评估通过一个独立的测试数据集的大小。误分类率和曲线下面积(AUC)计算与测试集的比较方法。此外,我们还选择惩罚因子的描述(i) IPF-LASSO交叉验证过程,(2)所选变量的数量为所有方法:IPF-LASSO,标准的套索,稀疏集团套索和S。
注意,仿真结果是强烈依赖于参数和其他参数设置是可以想象的。获得更好地了解我们的方法的行为,我们另外考虑共有33其他模拟场景,结果它在更紧凑的形式。这些额外的参数设置显示在补充表1(在网上补充材料https://doi.org/10.1155/2017/7691937)。
在现实生活中,变量可能相关的内部和跨模式由于生物的关系。调查相关结构是否会影响方法的行为,我们另外考虑设置,表示作为F′′,基于设置一个F nondiagonal协方差矩阵而不是使用。
更具体地说,我们假设每个形态包含一组相互关联的变量,对应于一块对角协方差矩阵在每个方法。此外,我们假设的变量之间的相关性th集团模式1的变量组在模式2。在我们的研究中,我们考虑相关性的并使用协方差矩阵作为 所有空项为零,(与或)是矩阵的对角线上外的对角线(与和反之亦然)等于矩阵的所有条目。生成这个多元正态分布的数据后,我们随机排列的列(例如,the ordering of the variables), so that the informative variables (corresponding to the first—nonzero—entries of the vector)是随机分布的块。
3.2。仿真结果
3.2.1之上。主要模拟结果
图1设置一个f .数字的显示结果1(一)和1(b)显示错误分类率和AUC (设在)为不同的方法(设在);图1(c)显示所选变量的数量和图1(d)将显示所选通过交叉验证IPF-LASSO惩罚因素。
稀疏集团套索(单独的)执行的误分类率和AUC比IPF-LASSO在设置两个形式是相同的,在制定B真正相关变量的比例是相同的,并设置C真正相关变量的数量是相同的。这个观察表明,当两个模式非常相似,西格里碳素集团往往会产生模型具有更高的预测性能。
重要的是,我们注意到改善预测性能的西格里碳素集团IPF-LASSO在这种情况下是要付出代价的选择更多的变量到最终的模型,如图1(c)。例如,在设置,IPF-LASSO选择24个变量(平均超过100模拟运行时)而西格里碳素集团选择了150多个变量;在设置B和C,西格里碳素集团所选变量的数量是100以上。这可能是一个主要的不便在现实中当两个模型大小和预测性能相关。例如,当开发一个同伴诊断工具包使用生物标记物预测患者对治疗的反应,有一个小的大约10标记比超过100,从成本的角度来看,劳动效率。因此,尽管IPF-LASSO的准确性较低在某些情况下,它可能仍然是比单独的考虑整体实用性更有用。调优参数西格里碳素集团可以调整改变稀疏;然而,调整这个参数需要一个层交叉验证(和大量增加计算时间),超出了本文范围。注意,这种交叉验证是没有实现的方案西格里碳素集团,这表明它不是特别推荐的作者。
在设置A、B和C,标准的性能略优于IPF-LASSO套索。是有意义的,当两个数据模式也同样丰富,给他们同样的处罚将产生更好的结果比处罚他们不同。然而,由于交叉验证的可变性IPF-LASSO并不总是意识到最好的惩罚因素,导致一个稍差的预测性能。
设置D, E, F两种形式很不同比例的相关变量,IPF-LASSO收益率比标准的套索和西格里碳素集团更好的性能。当有一个信念,一个形态是比另一个更相关的结果,IPF-LASSO可能因此被视为建立预测模型。这是一个常见的场景在临床生物标志物的发展:例如,我们可能会有一个小面板的蛋白质标记识别基于强大的全基因组生物学知识和分析小组之前mRNA的表达。图1(d)设置d, E, F显示,在IPF-LASSO,交叉验证能够识别哪些形态应该处罚。
3.2.2。总结所有的仿真结果
进一步理解该方法性能的两个模式模拟,我们使用进一步执行大量的模拟参数设置,总结图2(见补充相应的参数设置如表1)。我们编译所有的6个主要的结果模拟和33个额外的设置,与一个点的面板(a), (b)和(c)的人物2代表一个模拟设置。面板(一个)显示了AUC超过中值的差异模拟运行IPF-LASSO和标准之间的套索(红点),或西格里碳素集团(黑点)。面板(b)显示的差异值AUC占实际模型大小(真实数量的预测)。面板(c)包含值的差异AUC的测量模式的相对大小:/。面板(d)显示的数量分布的变量选择的三种方法。
(一)
(b)
(c)
(d)
面板(a)在图2表明更大比例的差异之间的真正相关的预测两个模式(相比),IPF-LASSO执行标准的套索和西格里碳素集团。仿真结果在33附加的设置加强主要仿真的结论。面板(b)表明,单独的作品比IPF-LASSO当有大量的真实变量,可能是因为它往往会选择更多的变量平均所示面板(d)。更准确地说,西格里碳素集团选择100多变量的大部分时间,而IPF-LASSO选择平均只有30个变量。当真正的模型尺寸很小,IPF-LASSO略好。这一比率/之间的较小的形态大小,较大的形态大小显示在面板(c)似乎影响IPF-LASSO的相对性能和标准套索:比率越小,越IPF-LASSO相比,标准的套索。然而,我们注意到,这个明显的协会可能会困惑的比例相关变量中描述面板(a)。
设置一个F′′的结果(相关)非常类似于设置的结果,我们可以看到从图3。相关性在最相关的形式考虑似乎确实没有显著影响我们的结论与不相关的数据。
4所示。真实数据的例子
4.1。TCGA数据
以下4.4.1。数据
我们使用公开数据在急性髓系白血病(AML)从癌症基因组图谱3]。那些收集在这项研究中,我们考虑三种形式,一个低维(临床数据)和两个高维,即微阵列基因表达和体细胞拷贝数变化。结果是总体生存时间(月)的病人,可能审查比较反应。从癌症基因组图谱库的数据是可用的,参照LAML名称。
年龄、临床变量的百分比爆炸在骨髓细胞,白细胞计数每毫米3(连续变量)和性。初步分析(图中未显示)表明,这些变量的比例风险的假设是可以接受的。的两个分子形式由19798微阵列基因表达数据Affymetrix-U133 + 2。TCGA的存储库,它们可以在不同的处理阶段。这里我们使用预处理数据(3级)。作为第二形态,我们考虑使用获得的拷贝数改变Affymetrix SNP数组6.0。我们从存储库下载数据过程后赵et al。6]。我们获得21952特性值。每个变量编码为两个虚拟变量,一个消极的改变(值2和−−1)和一个积极的改变(值1和2)。没有改变(0)值作为参考水平。这种形态包括43904个变量。
临床、基因表达和拷贝数形式有200,173,和191位患者,分别导致共163名被试的数据对所有三种形式。因为在原始研究数据分为训练集和验证集,随机产生分歧。更准确地说,我们使用大约2/3的观察(109)培训我们的模型(训练集),其余(64)来计算他们的预测能力(验证集)。在我们的分析,我们认为100这样的随机分裂和现在的平均结果。
4.1.2。结果
我们比较Cox比例风险模型的预测能力得到四种不同的方法(IPF、标准、西格里碳素集团和S)对AML的数据。我们还包括非参数的结果kaplan meier方法(零模型)。图4显示了基于时间的预测误差曲线荆棘分数(24)获得的模型。荆棘得分越低,表明财富更好的预测。更准确地说,预测曲线在图4报告为每个时间点的均值100欧石南分数计算当时的培训/验证集将被认为是在我们的分析。
在这个例子中,我们注意到IPF-LASSO(紫色线)执行比标准的套索和西格里碳素集团(红色和蓝色线,职责)。有趣的是,如果我们套索分别适用于不同的模式(绿线),结果是IPF-LASSO可比。比较而言,预测能力也可以进行数值通过评估集成的荆棘分数(IBS),总结了上述曲线为一个索引。在这个例子中,标准的套索的最差表现(平均IBS = 0.211),没什么比这更好的零模型(平均IBS = 0.217)。西格里碳素集团执行好一点(平均IBS = 0.203),但比IPF-LASSO和S,这都平均IBS等于0.196。稀疏,尽管IPF-LASSO和年代相似的性能而言,荆棘得分,IPF-LASSO产生稀疏的模型比美国平均的数量IPF-LASSO模型和S模型中的变量是7.3和13.7,分别用这两个值之间的标准套索(10.2)。不足为奇的是,西格里碳素集团(使用默认值为优化参数,)会产生一个相对较大的模型,平均53.64变量。
4.2。乳腺癌数据
4.2.1。准备数据
Hatzis et al。2]研究性能的基因签名响应和生存taxane-anthracycline化疗后患者ERBB2-negative乳腺癌。兴趣(审查)遥远的结果无复发生存时间,也就是说,之间的时间间隔初始诊断活检和远处转移的诊断或死亡。基因表达的数据公开GSE25066综合库参考号码。这个数据集包含两个方法,一个低维(临床数据)和一个高维(微阵列基因表达数据)形态。
中可用的临床变量,我们选择年龄(连续),节点状态(4类),肿瘤大小(4类),年级(3类)、雌激素受体(二进制)和孕激素受体(二进制)中描述的德本et al。8]。22283年第二(高维)形态由微阵列基因表达数据测量与Affymetrix-U133A GeneChip。我们使用的数据预处理和标准化的原始论文(2),但没有应用预选的第一步;也就是说,我们考虑所有可用的调查的信息集。
数据集由一个训练集用于培训310名患者的基因签名和验证集有198患者。其中包括66 45患者死亡(事件),分别。删除主题后缺失的数据,有283(58事件)和182例(41事件)的培训和验证数据集,分别。
4.2.2。主要结果
类似于前面的真实数据集的分析,在这里我们比较荆棘Cox比例风险模型产生的分数获得四种方法,即IPF-LASSO,西格里碳素集团,年代,和标准的套索,一起从非参数kaplan meier零模型方法。图5报告上的荆棘得分计算验证使用模型训练集训练集,如图5,西格里碳素集团IPF-LASSO和S执行总体上非常相似。他们是几乎相同的预测事件发生在不到3年。他们比标准的套索与kaplan meier和零模型。事件3至4年,IPF-LASSO和S似乎略优于单一的;事件超出4年,特别是在4.5年,西格里碳素集团似乎更好。然而,这些差异很小。IPF-LASSO荆棘分数的方法,年代,西格里碳素集团,标准的套索和零模型,,,,,分别。稀疏,我们注意到IPF-LASSO产生稀疏模型与10个变量,其次是标准的套索与27日20变量和变量。西格里碳素集团产生一个巨大的模型包含1084个变量。
4.2.3。灵活选择惩罚因子
IPF-LASSO的一个优点是灵活地选择不同的权重的可能性为不同的形式。在这个例子中,我们观察到,交叉验证过程选择惩罚因子,这惩罚的分子形态比的临床方法。这并不意外,因为数篇论文显示缺乏大型添加微阵列基因表达数据的预测价值的乳腺癌[8]。
最好的模型从IPF-LASSO(惩罚因子)只选择临床变量:年龄、雌激素受体,肿瘤大小、数目的节点,收益率和肿瘤年级,总共7系数(因为节点的数目是由3系数)。如果我们减少惩罚因子的分子数据,一些基因表达变量纳入模型。例如,当减少惩罚因子的分子形态从32到16(即。,the molecular modality is penalized 16 times more than the clinical modality), the gene expression probe sets 203153_at, 203860_at, 217769_s_at, and 219097_x_at enter the model and the clinical variable tumor grade is excluded. At this time, we obtain a small improvement in the prediction ability of the model on validation data (see Figure6(一))。减少惩罚因子的分子形态到8导致更多的基因表达变量进入模型,而验证数据的预测能力是类似与惩罚因子16。进一步减少到4的结果排除一个临床变量(淋巴结的数目)和包含更多的分子变量。然而,模型的预测能力下降,支持临床变量的强相关性的概念。注意模型的大小增加临床变量从7只(最好的模型与惩罚因子的32临床形态)和惩罚因子4 21。如果我们进一步降低分子形态的相关处罚,IPF-LASSO不选择任何临床变量。如果没有足够的支持,临床变量“迷失”的分子由于截然不同大小的两个模式。因此,模型的预测能力恶化。例如,使用惩罚因素,集成荆棘分数增加一个值接近,获得标准的套索。
(一)
(b)
图6 (b)显示了旨在负部分可能对参数(基于训练数据)惩罚的因素,,,,。注意,曲线的颜色的颜色对应点在左面板的情节。这些曲线确认,根据交叉验证,获得最好的模型(曲线更为极端的惩罚因子,我们省略了可见性的目的,提高最低比显示在图6 (b))。曲线还允许可视化二维优化过程由交叉验证:IPF-LASSO选择惩罚因子和的值优化准则,即最小的点价值在所有曲线。
4.2.4。结果与二进制的结果
除了造型遥远的无复发生存时间,本研究的第二个目的是区分患者病理完全缓解(RCB-I)有显著的残余疾病(RCB-II / RCB-III)。在这里,病理反应是一个二进制的结果。我们现在用这四种方法考虑先前与逻辑回归和使用ROC曲线下的面积(AUC)作为性能指标的方法。荆棘分数相比,更大的AUC值对应于更好的预测性能。为IPF-LASSO AUC值,年代,西格里碳素集团,和拉索的标准是0.663,0.712,0.722,和0.653,分别。关于模型的稀疏,IPF-LASSO和S选择同等数量的变量(50和46,职责。),而标准套索导致稀疏模型(38个变量)。西格里碳素集团提供了一个更大的模型,1128年再次变量。请注意,这个不利的结果的方法与仿真结果本身并不矛盾,因为有真实的数据集在所有可能的数据集的空间,和方法的性能是非常变量数据集(25]。在本文中,我们选择诚实这不利的结果,不是报告的结果使我们的方法更好看,以下规则4(“数据集不鱼”)的良好实践推荐Boulesteix [26]。
5。讨论
在本文中,我们解决生物医学研究的一个重要问题,即如何将多个(可能是相关的)数据集成模式有不同的大小和不同的发表的结果,目的是生成一个稀疏的预测模型。我们提出一个IPF-LASSO处罚回归方法,惩罚的数据形式不同。IPF-LASSO灵活决定惩罚因素完全数据驱动的方式可以选择交叉验证或由用户指定。IPF-LASSO与连续、二进制或生存因变量;和预测变量可以是连续的,分类,两者的混合物。IPF-LASSO R包中实现ipflasso但原则上可以集成在任何包实现处罚回归,等glmnet。最重要的是,被直接基于套索,我们的方法有两个主要优点:其概念简单的框架内及其计算可移植性允许容易被其他研究人员预测结果应用规则。
仿真研究表明IPF-LASSO具有更好的预测性能比竞争对手(标准套索,单独的套索模型和稀疏集团套索),当两个数据的相关性不同模式预测,并执行稍差,如果模式是相似的。更重要的是,在这两个模拟和真实的案例研究,IPF-LASSO显示生成比稀疏集团套索更简洁的模型,这是一个从实用角度所需的属性。
原则上,IPF-LASSO是专为任意数量的形式。每个通道分配一个惩罚因子,其值控制多少时处罚形式拟合模型。然而在实践中,惩罚因子的选择是一个计算瓶颈,因为完整的交叉验证所需的计算时间呈指数级增长。与今天的计算能力,完整的交叉验证管理只对,说,形式。相比之下,稀疏集团套索有一个独特的参数形式;因此,它不能区分不同的模式。这使得它更灵活更适合处理大量的模式。注意,稀疏集团套索观察的良好的性能模拟是要付出代价的产生较大的模型,在实际的应用程序可能不实用。此外,有不同的处罚因素IPF-LASSO允许合并前的生物知识或实际问题。地址计算成本引起的惩罚因子的选择替代我们的网格搜索交叉验证方法可能被认为是在未来,例如,基于经验贝叶斯过程(20.),模型选择标准,如Akaike信息准则(AIC)或贝叶斯信息准则(BIC),或使用自适应的方法启发套索(14)采用燕鸥et al。27treatment-biomarker交互的具体案例。
所有变化的一个常见问题的套索,包括IPF-LASSO,是不稳定的。小的变化的数据集可能导致所选模型的重大变革。稳定性可以通过重采样调查方法,建议选择“稳定”名义28]。这样的方法,越来越多地引起了人们的注意(29日),可以直接应用于IPF-LASSO。超出了这个工作的范围,进一步改善IPF-LASSO可能被考虑。例如,可以考虑引入额外的惩罚项(s),产生“弹性网——“像方法30.]。
的利益冲突
作者声明没有利益冲突有关的出版。
确认
作者感谢莎拉Tegenfeldt她有用的评论。马赛厄斯福克斯从诺华生物标志物的拨款资助下到Anne-Laure Boulesteix。里卡多。德本和Anne-Laure Boulesteix是由德国研究基金会(DFG),批准号。BO3139/4-1 BO3139/4-2。
补充材料
表中显示额外的模拟的参数设置。3.2.2节中看到结果。