文摘

提出了一种新的基于模型的变量选择方法梯度增加和随机排列变量。基于模型的增加是一个工具来适应一个统计模型在进行变量选择在同一时间。拟合的缺点在于需要多个模型适合稍微改变数据(例如,交叉验证或引导)迭代寻找最优数量的增加,防止过度拟合。在我们建议的方法中,我们增加的数据集随机排列版本的真实变量,所谓的影子变量,和尽快停止逐步拟合变量将被添加到模型中。这允许变量选择在一个合适的模型,而无需进一步的调优参数。我们表明,探测方法可以与最先进的选择方法稳定在高维分类基准选择和应用在三个基因表达数据集。

1。介绍

在最新的基因组和蛋白质组数据的出现以来,可用变量的数量 可能是远高于样本大小 在生物医学研究、高维数据分析变得越来越重要(1- - - - - -4]。自常见的统计回归方法与普通最小二乘无法估计模型系数这些设置由于协方差矩阵的奇异性,提出了不同的策略来选择真正有影响力的,也就是说,信息量大,变量和丢弃那些没有对结果的影响。

真正执行稀疏的系数向量,正规化的回归方法等套索(5),至少角回归(6),弹性网(7),而梯度增加算法(8,9)执行变量选择直接在模型拟合过程。这个选择是由调优hyperparameters定义处罚的程度。虽然这些hyperparameters通常决定使用交叉验证等重采样策略,引导,和类似的方法,专注于减少预测误差往往导致许多noninformative变量的选择(10,11]。

解决这个问题的一种方法稳定的选择(12,13),这种方法结合了变量选择和重复二次抽样的数据来评估选择频率的变量。而稳定的选择可以大大提高几个变量选择方法包括正规化的性能在高维回归模型设置(12,14),其应用取决于额外hyperparameters。尽管建议合理的值存在12,14),正确规范这些参数不是简单的在实践中最优配置需要先验知识信息变量的数量。另一个潜在的缺点是稳定性选择计算的需求增加,这可能会产生问题,在高维设置如果使用选择技术尺度于超线性的计算复杂度与预测变量的数量。

在本文中,我们提出一种新的方法来确定最优迭代次数为变量选择受到基于模型的增加探索,常用的方法在机器学习研究的相关领域15- - - - - -17)和微阵列分析(18]。调查涉及到人工通货膨胀的一般概念与随机噪声的数据变量,所谓探针影子变量。虽然这种方法原则上适用于套索或至少角回归,这是特别有吸引力的使用更多的计算量提高算法,不需要重新采样。使用一个影子的首选变量作为停止准则,应用该算法只有一次,而不需要任何优化hyperparameters为了从数据中提取一组信息变量,从而使其在实践中应用非常快速和简单。此外,仿真研究表明,由此产生的模型实际上往往更严格正规化而造成的交叉验证,包含更少的不提供信息的变量。

2,我们提供的详细描述以及基于模型的梯度增强算法稳定性选择和新的探索方法。仿真研究的结果比较性能的探索和交叉验证和稳定性选择不同的配置一个二进制分类设置部分中给出3在讨论这些方法的应用三个数据集测量基因表达水平的部分4。部分5总结我们的研究结果,提出了一个扩展算法的前景。

2。方法

2.1。梯度增加

给定一个数据集的学习问题 关节空间采样i.i.d.从一个分布 , 维输入空间 和一个输出空间 (例如, 回归和 对于二进制分类),目的是估计一个函数, 映射元素的输入空间到输出空间尽可能好。依赖的角度促进作为函数空间的梯度下降法,梯度增强算法最小化给定的损失函数, 措施,预测结果值之间的差异 而真正的 。减少这种差异是通过反复拟合弱预测函数,调用基础的学习者之前的错误,为了把它们强大的合奏(19]。虽然早期的上下文中实现机器学习特别关注使用回归树,这个概念已经成功地扩展以适应各种统计建模问题的框架8,20.]。在这种基于模型的方法,基础的学习者 通常定义为半参数回归函数 建立一个加法模型。一个常见的简化是假设每个基本学习者 是定义在组件只有一个 输入空间的 概述基于模型拟合过程的促进看到算法1

算法1(基于模型的梯度增加)。 以一个恒定损失最小的初始值 ,算法迭代更新的一小部分的预测与最适合学习者基于损失函数的负梯度:(1)设置迭代计数器 (2) ,计算损失函数的负梯度向量: (3)适合每一个基础的学习者 单独的负梯度向量 (4)找到 ,即基础学习者最适合: (5)用一小部分更新预测 这个组件:

由此产生的模型可以解释为一个广义相加模型与部分添加剂中包含每个协变量的预测效果。尽管该算法依赖于两个hyperparameters ,Buhlmann Hothorn [9)声称,学习速率 是次要的,只要它是“足够小,” 在实践中常用的。

停止准则, ,确定正则化的程度,从而严重影响了模型质量的过度拟合和变量选择21]。然而,正如已经概述了在引入、优化 使用交叉验证等常用方法导致许多不提供信息的变量的选择。尽管仍然专注于减少预测误差,使用25倍引导而不是常用的10倍交叉验证往往返回稀疏的模型预测不牺牲性能(22]。

2.2。稳定的选择

交叉验证的疲弱表现关于部分变量选择的结果,它追求的目标减少预测误差,而不是只选择的变量。是一个可能的解决方案稳定的选择框架(12,13),一个非常通用的算法,可以结合各种变量选择方法像梯度推进,逐步选择套索或前进。它产生稀疏的解决方案通过控制错误发现的数量。稳定选择定义了一个上界的住房错误率(pf),例如,不提供信息的变量的期望值 包括在最终的模型。

因此,使用基于模型的增加意味着稳定选择算法1在独立运行 随机样本的数据,直到一个预定义的迭代次数 达到或 不同的变量已经被选中了。随后,所有变量排序的选择频率 集。信息变量的数量是由一个用户定义的阈值 已经超过了。一个是给出了算法的详细描述这些步骤2

算法2(稳定选择基于模型的增加(14])。(1) ,(一)画的一个子集的大小 从数据;(b)适合提高模型的子集,直到选定变量的数量等于 或达到指定数量的迭代次数( )。(2)计算每个变量选择频率 : 在哪里 表示选择的变量的集合的迭代 (3)至少选择变量的选择频率 协变量,收益率一组稳定的:

这种方法后,pf的上限可以推导出如下(12]: 额外的假设可交换性和形状分布的限制同时选择,甚至可以派生(更严格的界限13]。该方法成功地应用在许多不同的应用程序(23- - - - - -26),几个缺点阻碍在实践中使用。首先,三个额外的hyperparameters 、pf和 介绍了。虽然只有两人必须由用户指定(第三个可以计算假设平等(7)),它不是凭直觉清楚应该排除哪些参数,以及如何指定剩下的两个。尽管建议合理的选择阈值的设置12)或pf (14)提出,这些设置的有效性很难评估在实际设置。第二个障碍的使用稳定性计算所需的选择是相当大的计算能力。整体 提高模型([13)建议 )必须安装和合理的 也被发现,这将最有可能需要交叉验证。尽管这个过程可以很容易地并行化,复杂的模型类和高阶效应可以很平滑变得极其昂贵的适应。

2.3。探索

添加的方法探针影子变量例如,人工不提供信息的变量的数据,不是全新的,已经在一些地区调查的机器学习。尽管他们分享受益于变量的存在潜在的理念是独立于已知的结果,实际实现概念的不同(见第二和Elisseeff (2003) (15概述])。然而,一个特别有用的方法是生成这些额外变量随机打乱版本的所有观察到的变量。这些交换变量将被调用影子变量在本文的其余部分,并表示 。添加随机变量相比,影子变量的边际分布的优势 是保存在 。这种方法是紧密相连的置换理论测试(27),同样用于所有相关的变量选择与随机森林28]。

实现探索概念基于模型的梯度增加的顺序结构相当简单。自增强算法贪婪的方式进行,只有更新的影响产量最大的损失减少每次迭代,选择一个影子变量本质上意味着现阶段最好的改善依赖于已知信息与结果无关。因此,在后面的迭代中变量选择最有可能相关 只有机会。因此,所有变量之前添加了第一个影子变量假定有一个真正的对目标变量的影响,应该考虑的。完整的描述过程提出了算法3

算法3(探索基于模型的变量选择的增加)。(1)扩大数据集 通过建立随机打乱图片 为每个 变量 这样 在哪里 表示包含所有的对称群 可能的排列 (2)初始化提高模型的数据集 和开始迭代 (3)如果停止第一个 被选中;看算法1步骤( )。(4)返回只有变量选择从原始数据集

这种方法的主要优势相比,变量选择通过交叉验证或稳定选择一个模型适合足以发现信息变量和不需要昂贵的模型的改装。此外,不需要任何prespecification像搜索空间( 交叉验证或额外的hyperparameters) ( , 、pf)稳定的选择。然而,值得注意的是,与经典的交叉验证,探索旨在优化变量的选择,而不是预测算法的性能。因为这通常涉及停止更早,效果估计与选择的变量是最有可能的强烈正规化和可能不是最优预测。

3所示。模拟研究

为了评估我们建议的变量选择方法的性能,我们进行基准仿真研究比较的非零系数由影子变量作为停止准则的使用交叉验证和不同配置稳定的选择。我们模拟 数据点 从多元正态分布的变量 托普利兹相关结构 对所有 。响应变量 然后由抽样生成伯努利实验的概率 的线性预测 th观察 和所有的非零元素 从采样 。自非零系数的总量决定的数量信息变量的设置,它是表示

总的来说,我们认为12种不同的模拟场景定义的所有可能的组合 , , 。具体地说,这将导致2低维设置的评价 4设置 和6高维设置 。每个配置运行 次了。随着新实现的 ,我们也画非零系数的新值 和样品的位置向量在每个运行,允许不同的变量之间的关联模式。变量选择和交叉验证, 倍引导(默认mboost)是用来确定最终的迭代次数。不同的配置稳定的选择进行测试调查,是否如果是这样,这些设置在多大程度上影响的选择。为了明确使用稳定上错误的选择,我们决定来指定 与组合 和计算 从(7)。除了学习速率 设置为 所有方法,没有进一步参数必须指定的调查计划。两个性能的措施被认为是评价方法对变量的选择:第一,真阳性率(TPR)的分数(正确地)选择从所有真实信息变量和变量,第二,错误发现率(罗斯福)的分数不提供信息的变量选择的变量的集合。确保再现性R包batchtools(29日)是用于所有模拟。

模拟的结果为所有设置见图1。TPR和罗斯福 设在和 分别设在解决方案显示在左上角的情节因此成功分离 信息变量的没有真正对响应的影响。虽然已经使用一个稀疏的交叉验证方法,变量选择的罗斯福通过交叉验证仍相对较高,有超过50%的假阳性选择集在大多数的模拟场景。而这似乎是主要的不利情况 ,这一趋势更加贪婪的解决方案会导致一个相当高的机会识别更多的真正的变量 或非常高的 然而,价格还在捡很多噪声变量。池所有配置考虑稳定选择的结果,结果覆盖大面积的性能空间图1,从而可能表明高灵敏度决定三个调优参数。

检查结果分别如图2,困境尤为明显 。尽管能够控制预期的上界假阳性选择,只有少数真正的选择影响pf设置过于保守。此外,高方差的罗斯福观察某种程度上抵消这些配置一些设置目标,以取得更多的确定性选择的变量可能有人会追求通过设置pf非常低。探测的性能,另一方面,揭示了一个更稳定的模式和稳定性优于选择的困难 设置。事实上,TPR更高或类似于所有配置用于稳定选择,但表现出较高罗斯福特别是设置 。有趣的是,调查似乎提供结果类似于稳定的选择与pf = 8,提高问题如果使用影子变量允许声明关于预期的假阳性的数量在选定的变量集。

然而,考虑到运行时,我们可以看到,调查订单大小的速度平均运行时间不到一秒而交叉验证,几乎一分钟12秒稳定的选择。

4所示。对基因表达数据的应用程序

在本节中,我们利用探测的使用作为一个工具变量选择在三个基因表达数据集。更具体地说,这包括结肠癌数据利用寡核苷酸阵列检测(30.)与 肿瘤和 正常结肠组织样本 测量基因表达水平。此外,我们从研究旨在分析数据预测乳腺癌的转移31日),患者贴上好或差( 、职责)取决于他们是否依然风平浪静后五年内诊断。数据集包含对数转换表达的水平 基因。最后一个例子探讨核黄素生产枯草芽孢杆菌(32)与 观测的对数转换核黄素生产速度和表达水平 基因。所有数据是公开的通过Rdatamicroarray人类发展指数。我们建议的调查方法是实现的叉子mboost(33)软件的特定组件的梯度增加。它可以很容易地通过设置使用探针= TRUEglmboost ()调用。

为了评估结果提供的新方法,我们使用交叉验证,分析了数据稳定选择(34),和套索(35)进行比较。表1显示变量的总数由每个方法和集合之间的交集的大小。开始可能令人惊讶的结果,提高与交叉验证导致最大的一组选定的变量在所有例子中,而使用探测作为停止准则相反明显降低这些集合。因为这两种方法都是基于相同的正规化概要文件直到第一个影子变量进入模型,越正规化交叉验证的解决方案总是包含所有变量选择与探索。稳定的选择,我们使用了保守的方法 所显示Buhlmann et al。(2014)32]。因此,变量的集合被认为是信息进一步收缩在所有三个场景。显然,这些结果反映了部分仿真研究的结果3之间的探测方法,将稳定选择可能过于保守错误绑定和贪婪的选择和交叉验证。

由于到目前为止所有的方法依赖于提高算法,我们另外考虑变量选择套索。我们使用的默认设置glmnet包R计算套索正规化道路并确定最终的模型通过10倍交叉验证(35]。虽然套索已经倾向于导致稀疏的模型相比,在这些条件下基于模型的增加(22),glmnet另外使用“one-standard-error规则”来进一步规范解决方案。事实上,这导致一组相同的基因的选择作为探测乳腺癌的例子,但是最终的模型估计的其他例子仍然包含更多的变量。尤其的核黄素生产数据,套索的解决方案是进一步不仅仅旨在促进方法的一个子集,只有23日同意相互选择的变量。有趣的是,即使提出的5个变量的一个稳定选择也不见了。的R代码用于此分析可以发现在网上这个手稿的补充材料https://doi.org/10.1155/2017/1421409

5。结论

我们提出了一种新的方法来确定最优稀疏和快速的迭代次数与基于模型的变量选择提高通过添加探测器或影子变量(探索)。我们能够通过仿真证明研究和分析基因表达数据,我们的方法是可行的和方便的策略对高维变量选择设置。与常见的基于模型的优化程序提高,依赖于重采样或交叉验证过程优化预测精度(21),我们探索的方法直接地址变量选择属性的算法。因此,它大大减少了大量的假发现起来与标准程序14]虽然只需要一个模型适合获得参数的设置。

除了很短的运行时,调查的另一个吸引人的特点是,没有额外的调优参数必须指定运行算法。虽然这大大增加其易用性,,当然,权衡对灵活性、调优参数的缺乏意味着没有办法引导结果或多或少的保守的解决方案。然而,相应的调优方法的探索可以允许一定数量的模型中选择调查再决定停止算法(cf Elisseeff盖恩和,200315])。尽管变量选择的第一次调查后可以贴上标签信息那么令人信服,这类似于指定更高的不确定性误差值稳定的选择。

我们的方法的一个潜在缺点是,由于排列的特性转化,没有确定的解决方案和所选的组运行算法后可能会略有不同。以稳定的结果,调查也可以结合重采样来确定最优停止迭代算法通过运行程序的几个先引导样品。当然,这需要多个模型的计算,因此会增加整个选拔程序的运行时。

另一个前景看好的扩展可能是一个结合稳定的选择。每个模型在第一个影子变量,只有选择阈值 必须被指定。然而,由于这意味着根本性变化的原始程序,关于这个主题的进一步研究是必要的,以更好地评估如何影响产生的误差界。

在这个工作我们专注于二进制和连续数据的梯度增加,没有理由我们的结果也不应该携带到其他回归设置或相关统计增强算法是基于可能性增强[36]。基于可能性提高遵循相同的想法,但使用不同的更新原则,与高斯梯度增加的响应(37]。进一步的研究也保证我们的方法扩展到多维促进算法(25,38),变量必须同时为各种型号选择。

此外,调查作为一个优化方案可以通常也结合类似的正规化回归方法如套索(5,22]。我们的建议的基于模型的提高因此可以是起点调优算法模型对高维数据的新方式,而不是专注于预测精度,但解决直接所需的变量选择属性。

的利益冲突

作者宣称没有利益冲突。

确认

作者Tobias Hepp和安德烈亚斯·迈尔的工作得到了跨学科的临床研究中心(IZKF) Friedrich-Alexander-University埃(项目J49)。作者另外承认支持德意志Forschungsgemeinschaft和Friedrich-Alexander-Universitat埃(能力)在开放获取出版资助项目。

补充材料

补充材料包含代码用于运行实验以及结果数据用于创建数据和表。

  1. 补充材料