文摘
统计提高算法引发了大量的研究在过去的十年。他们把一个强大的机器学习方法与经典统计模型,提供各种实用的优势比如自动化变量选择和隐式正则化效应的估计。他们是非常灵活的,作为底层base-learners(回归函数定义为解释变量的类型影响)可以结合任何损失函数(目标函数优化,定义的回归类型设置)。综述的文章中,我们强调最近的方法论发展统计增加关于变量选择、功能回归,和先进的造型比较。另外,我们提供一个简短的概述有关统计增加在生物医学中的应用。
1。介绍
统计增加算法的一个先进的现代统计工具箱中的方法或数据科学家(1]。同时还产生经典统计模型与著名的可解释性,他们提供多种优势的高维数据适用于 情况与多个解释变量观测(2,3]。关键特性在此上下文中自动变量选择和模型的选择(4,5]。
研究领域的统计和计算机科学,拥抱世界之间的鸿沟方面两个截然不同的观点关于如何从数据中提取信息(6:一方面,有经典统计模型社区关注模型描述和解释找到一个近似结果潜在的随机数据生成过程。另一方面,有机器学习社区主要集中在算法模型预测结果在治疗底层过程未知的本质。统计提高机器学习算法的根(7),但后来被适应估计经典统计模型(8,9]。这些算法的一个关键方面是他们将数据驱动变量选择和收缩的影响类似于古典处罚回归估计(10]。
在回顾一些年前1),我们强调这种进化的推动机器学习和统计建模。此外,我们强调两种增强方法的相似性,梯度增加(2和基于可能性增加3),引入统计增加作为这些算法的通用术语。
一篇文章(11)强调了多个扩展的基本算法对(i)增强变量选择属性,新类型的预测效应(2),(3)新回归设置。大量统计方法论的进展促进算法在过去的几年里(例如,稳定选择(12])和日益增长的社区已经打开门和框架新模型类(例如,联合模型(13和功能数据14]),要求一个最新的回顾可用的扩展。
本文结构如下:在部分2我们强调不久两种基本结构和属性的统计增强算法和点连接古典处罚方法如套索。节3我们关注关于变量选择的新发展(包括模范基因表达数据的分析),也可以结合了功能回归模型提出了部分4。部分5专注于先进的生存模式如联合建模;节6我们简要总结其他相关统计促进发展和应用程序的框架。
2。统计增加
2.1。机器学习和统计模型
最初的概念增加Schapire [15和弗洛伊德7)出现在监督学习的领域,通常是一个函数是基于数据与已知的训练结果类或标签正确分类的新观察。促进概念的目的提高(即。,to improve) the accuracy of weak classifiers (i.e., classifiers with poor correct classification rates) by iteratively applying them to reweighted data. Even if these so calledbase-learners分别仅略比随机猜测,整体解决方案通常可以提高一个完美的分类(16]。
演算法的介绍17)是推动监督机器学习领域的突破,据称导致狮子座Breiman称赞它的性能:提高是世界上最好的现成的分类器(18]。
经典的机器学习方法的主要目标是预测观测结果给定一个或多个输入变量 。估计的预测规则(也称为泛化功能)是根据观察到的一个样本 。然而,重点不是量化或描述底层数据生成过程,但在预测新观察尽可能的准确。因此,许多机器学习方法(也包括最初的演算法与树木或树桩base-learners)可以被视为黑盒预测方案。尽管通常产生准确的预测(19),他们不提供洞察的结构解释变量之间的关系和结果。
统计回归模型另一方面尤其是旨在描述和解释潜在的关系在一个结构化的方法。单一的解释变量的影响不仅可以量化的变量重要性的措施(20.,21),而且这些变量的实际效果是可翻译的。弗里德曼等人的作品。8,9)理解的概念奠定了基础提高从统计的角度和适应大意为了估计统计模型。
2.2。一般的模型结构
的目的统计增加算法来估计和选择结构化添加剂回归模型的影响。最重要的模型类是广义可加模型(GAM”[22]),响应的条件分布变量都要遵循一个指数族分布。预期的响应模拟观测值一个或多个解释变量用一个链接功能作为 典型的多个解释变量,函数通常被称为添加剂预测,由单一添加剂影响的预测: 在哪里代表了一种常见的拦截和功能, 个人的影响变量。通用的符号可能由不同类型的预测效果,如古典线性效应,通过回归样条函数构造,光滑的非线性影响,空间效果,或者随机解释变量的影响,等等,不一而足。
在统计增强算法,如在以下部分中描述的两种方法,不同的效果估计base-learners分开 (离散增加(2])。这些base-learners通常对应的简单回归预测功能;线性效应,相应的base-learner将是一个简单的线性模型: 。
2.3。统计增强的通用结构
为一个通用的概述统计增加算法的结构,看到盒子1。应用base-learners一个接一个,在每次迭代中执行base-learner只有最好的选择更新。最后加性模型是因此base-learner选择适合的总和。
主要的调优参数,增加的数量进行迭代。为了避免过度拟合,确保变量选择、算法通常是融合前停止(早期停止)。的选择通过交叉验证是基于预测的性能评估或重采样23]。早期停止导致一个隐式的惩罚(24),类似于套索(见部分2。6)。
2.4。梯度增加
在梯度增加2,8符合base-learners],迭代过程 一个接一个的负梯度的损失函数 在前面的迭代评估: 损失函数描述观察到的结果之间的差异和添加剂预测并应最小化目标函数得到一个最佳的健康。在gam的情况下,损失函数通常对应的负对数似指数的家庭。为高斯分布的结果,这可以减少损失 梯度向量只不过是残差向量 从迭代 和提高因此对应于改装的剩余工资。
在每个提高迭代,只有最佳拟合base-learner选择基于残差平方和base-learner合适吗 只有这个base-learner添加到当前添加剂预测。为了确保小更新,只有一小部分的base-learner(通常步长 (2])实际上是补充道。注意,base-learner可以选择和更新不同时期;局部变量的效果是相应的总和base-learners已选择: 这个离散过程的拟合base-learners一个接一个的电流梯度函数可以被描述为损失在函数空间梯度下降法(25),由base-learners函数张成的空间。该算法有效地优化了损失函数一步一步,最终收敛到最小值。
梯度增加附加包中实现mboost(26)的开源编程环境R(27),提供大量preimplemented损失函数为各种回归设置,以及不同base-learners代表各种类型的影响(见[28]概述;最近更新了附件)。
2.5。基于可能性增加
基于可能性增加(3,29日是其他一般方法统计增加算法的框架;它得到太多的关注尤其是高维生物医学数据的上下文(参见[11),在其中的引用)。尽管它遵循一个非常相似的结构梯度增强(见框1),这两种方法只在特殊情况如经典高斯回归一致通过损失(1,30.]。与梯度增加,base-learners直接估计通过优化整体的可能性,从先前的迭代中使用添加剂预测补偿。的情况下损失,这也有类似的结果,因为改装的剩余工资。
在每个步骤中,因此优化回归模型算法base-learners最大化一个接一个的可能性(使用一步费舍尔得分),选择只有base-learner导致最大的可能性增加。为了获得小增加步骤,二次惩罚项是附属于这个可能性。也有类似的效果,安装base-learner乘以一小步长度系数如梯度增加。
基于可能性提高广义线性和添加剂回归模型提供的R附加组件包GAMBoost(31日,推动改编版本Cox回归提供CoxBoost(32]。比较的两个统计提高方法,即基于可能性和梯度提高Cox比例风险模型,我们指的是(33]。
2.6。连接正则化
统计增加导致正规化算法模型与收缩效应估计,虽然他们只应用隐式惩罚(24之前停止算法收敛。通过执行正则化不使用显式的惩罚项,提高算法明显不同于其他直接正则化技术等套索(34]。然而,这两种方法有时导致非常相似的模型后,被调到一个类似的正规化程度(10]。
之间的这种紧密联系首先指出套索提出在舞台上回归的,它可以被视为特例梯度增强算法(盒子1),领导的发展至少角回归(拉)的配方积极的锥条件(PCC) [35]。
如果这个条件成立,佬司、套索和阶梯的回归一致。打个比方来说,新闻申诉委员会要求所有系数估计单调增加或减少放松的正规化程度和适用,例如,与正交低维的情况下设置。应该注意的是,新闻申诉委员会是连接到对角优势条件的协方差矩阵,它允许一个更加方便的方式来研究这些方法的等价性在实践中(36,37]。
鉴于套索的解决方案是最优的规范的系数向量,这些发现导致增加的一些“类的概念-简约“正则化技术(38),但它仍不清楚最优约束可能适用于向前阶梯的回归是否违反了新闻申诉委员会。
通过扩展消极的版本的每个变量和执行只有积极更新在每个迭代中,Hastie et al。39)表明,提出阶梯的回归总是接近类似的解决路径的修改版本套索。从这个角度看,他们表明,阶梯的回归最小化损失函数的弧长:这意味着旅行路径系数的处罚(允许尽可能少的总体系数的变化,不管他们的方向),而规范只考虑当前的绝对和估计。
在同一篇文章中,Hastie et al。39]进一步表明,这些属性保持一般凸损失函数,因此不仅适用于阶梯的回归,同时也为更一般的梯度提升方法(在逻辑回归模型以及许多其他广义线性回归设置)。
这些不同的优化约束的结果可以观察到在强大的存在共线性,套索的估计往往是非常不稳定的关于不同程度的正规化,提高方法避免太多的变化系数,考虑整个旅行路径(10]。
不过必须承认,直接正则化方法应用套索往往在实践中(38]。统计增加,另一方面,更灵活的由于其模块化特性允许将任何base-learner与任何类型的损失函数(10,38]。
3所示。增强的变量选择
早期停止统计提高算法通过交叉验证方法起着至关重要的作用在确保稀疏模型最优预测性能的新数据。重新取样,随机抽样的数据不重复,往往导致稀疏的模型相对于其他抽样方案(23),包括流行的引导(40]。通过使用base-learners相当的复杂性(自由度)的选择性偏差可以强烈减少(4]。由此产生的模型最优预测精度的测试数据。然而,尽管正规化最终的模型往往是相对富裕的(23]。
3.1。稳定的选择
Meinshausen和Buhlmann41)提出了一个通用的方法称为稳定选择进一步完善模型,提高稀疏。这个方法然后转移到提高(12]。
一般来说,稳定选择可以结合任何变量选择方法,尤其适用于高维数据与许多潜在的预测因子。评估稳定变量的选择是,随机子集组成数据的一半。在每一个子集,安装到预定义的模型base-learners选择。通常情况下, 子集是充分的。计算的相对频率随机样本的具体base-learners选择了稳定的概念选择是对数据的扰动。Base-learners被认为是重要的,如果选择频率超过预定的阈值水平 。
Meinshausen和Buhlmann41)表明,这一方法控制住房错误率(pf);也就是说,它提供了一个上界为假阳性的预期数量的选择(): 在哪里是base-learners的数量。这个上限是相当保守的,因此是由沙和Samworth进一步细化42)为特定假设的分布选择频率。稳定选择所有可用的误差范围是各种建模技术的实现R包刺穿了(43]。
一个重要的问题是稳定的hyperparameters选择的选择。选择一个固定的值应该这样选择所有假设是足够大的影响力的变量(12,44]。一个合理的值通常应该小于或等于base-learners的数量与交叉验证选择通过早期停止。
一般来说,的大小是次要的,如果是在一个合理的范围内。与固定,要么阈值可以选择,或者可以从(6)使用平等、pf的上限可以指定,可以导出相应的阈值。后者将重大的首选如果错误控制和前如果错误控制只是考虑副产品(见,例如,44])。pf的释法,特别是关于标准错误率如per-comparison错误率或familywise错误率,我们参考Hofner et al。12]。注意,固定,在计算上是容易改变的其他两个参数(的上限或可以重用(pf)作为重采样结果12]。
稳定选择的结果并不是一个新预测模型,但一组稳定的base-learners:实际上他们可能不反映任何模型可以推导出与特定的惩罚参数使用原来的造型方法。这意味着,推动,没有值可能存在导致模型与所选base-learners稳定。提供的稳定base-learners集是一个全新的解决方案,不一定有较高的预测精度44]。
3.2。扩展和应用,提高与稳定的选择
变量的选择尤为重要,在高维基因表达数据和其他大型生物医学数据来源。最近,稳定选择提高成功应用于选择少量的生物标记物对乳腺癌患者的生存44]。模型推导基于小说提高的方法,优化了一致性指数(45,46]。因此,由此产生的预测规则是最优的能力区分长和短的患者生存,也就是说,它的权力。
托马斯et al。47]导出修改算法提高了广义可加模型的位置、规模、和形状(GAMLSS [48)允许的结合这与稳定的选择非常灵活的模型类。GAMLSS是模型中所有参数的基本思想自己的添加剂条件分布的预测和相关链接功能。大量的仿真研究表明,该新算法拟合会导致类似的模型与前面的算法(49,50),但优越的计算速度,特别是在结合交叉验证方法。此外,仿真表明,该算法可以成功地结合稳定选择选择稀疏的模型识别真正的一个小子集信息从高维数据变量。该算法的实现R附加组件包gamboostLSS(51]。
3.3。稳定的基因表达数据的选择
在下面,我们将演示应用程序稳定的选择基于梯度增加三个高维数据集组成的基因表达水平。这包括结肠癌的寡核苷酸阵列检测( 观察和 基因表达水平)(52),预测乳腺癌的转移( , )[53),和核黄素生产由枯草芽孢杆菌( , )[54]。这三个数据集是公开的通过R包datamicroarray(55),人类发展指数(56]。
关于稳定性的参数需要指定选择,我们研究两种不同的错误率 和一个常数 。为了比较,我们另外25倍引导申请变量选择、交叉验证的默认设置mboost。
表1显示了每个方法选择变量的总数。可以看出,稳定选择大大减少变量的设置与25倍相比引导。此外,放松的错误必然导致更大的数据集除了乳房癌,只有1 base-learner进入稳定集。
3.4。进一步为稀疏模型方法
为了构建风险预测分子数据签名,如DNA甲基化,Sariyar et al。57)提出了一种自适应算法基于可能性增加。作者包括一个步长修正因素代表一个额外的调优参数,自适应控制更新的大小。在稀疏的情况下设置,方法减少收缩效应估计(通过使用一个较大的步长)导致更小的偏差。与大量的信息变量,设置方法允许拟合模型的稀疏程度较低的必要时由较小的更新。修改的因素必须选择在一起通过交叉验证或在一个二维网格重采样。
Zhang et al。58]认为变量排名实际上比变量选择更有利,因为排名允许轻松地应用阈值规则为了识别信息变量的子集。作者实现了一个pseudo-boosting方法在技术上是基于统计增加但不适应等级并选择变量的统计模型。注意稳定选择也可以被视为一个变量等级方案根据他们选择频率,作为其选择特性只能通过实现阈值触发。
最近的另一个建议是将投影变量(探测)交换变异的原始预测候选模型(59]。统计提高算法停止,当第一个shadow-variable被选中。这种方式调优过程的重点是有效地从预测精度对选择的准确性,这可能是一个快速和有前途的过程以确保稀疏的模型。
基于梯度的方法后,黄等。60适应稀疏方法增加Buhlmann和Yu (61年)为了促进相似模型的稀疏结构的综合分析多个数据集,这是一个重要的主题关于大数据的趋势。
4所示。功能回归
由于技术的发展,越来越多的数据测量不断随着时间的推移。在过去的几年,很多方法论的研究集中在这种类型的功能数据回归方法。一项开创性的工作在这个新的和不断发展的统计数据是由拉姆齐和西尔弗曼62年]。
功能性回归模型可以包含功能性反应(定义在连续域),功能,或两者兼而有之。这让基本上三个不同类型的函数回归模型,也就是说,function-on-scalar(响应功能),scalar-on-function(功能解释变量)和function-on-function回归。最近的评论功能回归,看到Greven Scheipl [63年和莫里斯64年]。
4.1。增加功能数据
第一个统计增加功能回归的算法,允许数据驱动变量选择,提出了Brockhaus et al。65年]。作者的方法集中在线性数组模型(66年)提供一个统一的框架,上面列出所有三个设置。自梯度增强算法的一般结构类似于一个盒子1,得到的模型仍有相同的形式(2),只响应协变量和函数。底层功能部分的影响可以使用张量积的基础上 在哪里是向量的系数,和基函数,克罗内克积表示。
这个函数数组模型是有限的在两个方面:(i)的功能反应需要测量在一个常见的网格和协变量(ii)需要恒定的领域的反应。尤其第二个假设通常不可能实现在实践中,Brockhaus et al。14)不久之后提出了一个通用框架,提高功能性回归模型避免这种假设和线性阵列结构。
这个新框架(14)也包括上面列出所有三个模型类,尤其是关注历史影响,协变量功能反应和功能在哪里观察同一时间间隔。协变量影响的潜在假设是,观察响应,相应的时间点 在哪里代表观察协变量的时间点。换句话说,只有部分的协变量函数躺在过去(不是未来)会影响目前的反应。然而,这是一个明智的限制在大多数实际应用。
这两种方法促进功能回归的实现R附加组件包FDboost(67年],它依赖于拟合方法和基础设施mboost。
4.2。增加功能回归的延伸
增强功能可以结合数据稳定的选择(见部分3所示。1)提高算法的变量选择属性(14,65年]。
功能数据已经扩展的提高方法对广义可加模型的模型类位置、规模、和形状(GAMLSS) scalar-on-function设置由Brockhaus et al。68年]。功能的方法被命名为信号回归模型的位置,规模和形状(68年]。通过梯度估计提高基于相应的推动GAMLSS gamboostLSS算法(49,50]。
在一个方法来分析生物电子信号之间的函数关系就像脑电图(EEG)和面部肌电图(EMG)、Rugamer et al。69年]关注扩展框架将factor-specific促进功能回归的历史影响,类似于(8)。
虽然功能数据分析方法论的研究引发了很多,最近的一项系统回顾Ullah和雀70年]显示实际的生物医学应用程序的数量的功能一般数据分析和功能回归特别是相当小。作者认为,这些弹性模型的潜在好处(如富裕的解释和更灵活的结构)还不得而知,从业者和需要进一步努力,推动这些小说技巧的实际使用。
5。增加先进的生存模式
Cox回归仍是占主导地位的提高比较数据模型类;参见[33)比较两种不同的增强算法和(71年)不同的一般方法来估计Cox模型的高维数据的存在。然而,过去几年,一些替代品出现(45,46,72年]。在本节中,我们将特别关注提高联合模型的比较结果和纵向标记也简要参考近期其他扩展。
5.1。促进联合模型
纵向联合的概念模型和比较数据73年)发现在统计文献在过去的几年里,因为它彻底解决问题连续数据随着时间和事件记录时间与此相关的连续数据。造型这两个独立过程导致misspecified模型容易产生偏见。有各种各样的联合建模方法,因此也不同模型方程基于不同,分布,和协方差结构。我们将参考类型综述如下: 在哪里是th的观察th个人与 和 和 个人的风险函数吗在时间点。这两种结果,纵向测量和时间,记录和审查指标模型是基于两个subpredictors:是应该影响只有一个(纵向subpredictor和生存subpredictor ),另一个是共享的两个部分模型(共享subpredictor )。所有这些subpredictors是不同的函数,可能时间变量。本文介绍的模型的类型不包括固定协变量随时间变化的生存模型的一部分;请注意,这些模型确实存在但尚未在提升框架中实现。它不过包括时间本身,就像大多数联合模型,随机效应。这个函数基线风险。大多数方法联合模型是基于可能性或贝叶斯推理使用联合的可能性相应可能的结果作为一个产品上面的流程(74年,75年]。然而,这些方法都无法进行变量选择和无法处理高维数据。
Waldmann et al。13)提出了一个提高算法解决这些挑战。论文中使用的模型是一个简化版本的(9),没有生存subpredictor被认为是和一个固定的基线风险使用。算法是一种经典的增强算法作为代表在盒子里1,这是适应的特殊情况估计一组不同subpredictors(类似于GAMLSS框架(49])。因此算法由三个步骤组成的循环执行。在第一步中定期更新纵向subpredictor提高一步和共享的参数执行subpredictor被视为固定。在第二步中,纵向subpredictor的参数是固定的和一个共享subpredictor提高一步进行。第三步是一个简单的优化步骤:基于当前的参数值在subpredictors可能对进行了优化,,(cf。76年])。现在取决于两个停止迭代的迭代次数,通过交叉验证在一个二维网格优化。
Waldmann et al。13]表明,提高算法的好处(自动变量的选择和处理 情况下)可以被转移到联合建模,从而奠定了基础,进一步扩展联合建模方法。
5.2。促进联合模型的一个例子
在以下的例子是类似于模拟研究[13]。由模拟数据 个人和最多 每个个体的观察。一些观察然而截断由于生存引发的风险函数模型的一部分。观测的实际数量因此。纵向subpredictor包含两个信息变量和拦截( )以及noninformative变量。共享subpredictor有两个固定的时间不变的变量( ),时间的影响( ),随机截距和斜率,也noninformative变量。总共有因此共为观察,普通的联合建模方法的情况显然不可行。
我们跑了上述算法模拟的例子。通过十倍交叉验证,我们发现最优停止迭代 和 。算法能够检测到的变量和由此产生的系数接近于原始值 , 。纵向subpredictor此外选择三个共享subpredictor两个noninformative变量;因此只有noninformative变量的选择,所有这些都有下面的绝对值。这些结果是典型的模拟结果完成了方案基于本文提出的方法的代码。它是可用的R附加组件包JMboost(77年),目前在GitHub上。
5.3。其他新方法在提高生存数据
Reulen和Kneib78年]扩展统计提高对多态模型的框架下对病人暴露于竞争风险(如不良事件、复苏、死亡或复发)。该方法的实现gamboostMSM包(79年),依赖的基础设施mboost。大多数和Hothorn80年)关注促进特定的幸存者函数基于条件转换模型(81年)将逆审查概率权重(82年]。
当统计增强算法用于估计生存模型,动机通常是高维数据的存在。德本et al。83年]研究了几种方法(包括梯度增强和基于可能性增强)结合临床和高维组学数据预测模型。
郭et al。84年)提出了一种新的自适应基于可能性提高算法适合Cox模型,将直接lasso-type惩罚在拟合过程中为了避免变量的包容与小的效果。一般的动机是类似于步长修正因素提出Sariyar et al。57]。另一种方法,Sariyar et al。85年结合一个基于可能性提高Cox模型与随机森林方法为了屏幕交互作用在高维数据。Hieke et al。86年)结合基于可能性增加和重采样来确定预后snp可能小临床军团。
6。新领域和应用程序
其他新主题也被纳入统计增加的框架,但不是所有的人都可以在这里详细介绍。然而,我们想给一个简短的概述最相关的发展,其中许多是出于生物医学应用。
Weinhold et al。87年]提出分析DNA甲基化数据(信号强度和),通过“相关γ比率”模型。基于二元伽马分布和的密度值,作者推导出比例通过梯度增强和优化它。
提高算法的微分项功能在拉希模型是由Schauberger和Tutz88年)心理测验学的更广泛的区域,而Casalicchio等人专注于提高科目Bradley-Terry-Luce模型(89年]。
纳波利塔诺et al。90年)开发了一种采样提高算法的分析脑灌注图像:梯度提高进行多次在不同的训练集。base-learner指体元,之后每一采样迭代固定比例的选择压是随机的左手从下面的促进健康,迫使该算法选择新的像素点。最后一个模型是计算为全球所有解决方案。Feilke et al。91年)提出了一个voxelwise提高对比度增强磁共振成像数据的分析方法(DCE-MRI),由一个空间另外增强惩罚占的区域结构体素。
Pybus et al。92年)提出了一种分层提高分类算法的方法检测基因组区域(cf中积极的选择。93年])。Truntzer et al。94年)相比,梯度的分类性能提高与其他方法结合临床变量和变量高维质谱分析数据并得出结论,选择属性的增加也导致了一个非常好的性能预测精度。
关于提高位置和比例模型(造型期望值和方差的精神GAMLSS [48]),Messner et al。95年)提出了一种提高预测算法选择合奏后处理更好的校准合奏天气预报。乐团的想法是占模型预测错误和量化预测的不确定性。娃等。96年)使用了位置和比例模型同时结合排列测试来评估系统性偏差和随机测量误差的医疗设备。使用置换测试解决剩余的问题之一统计促进生物医学研究方法在实际:缺乏标准错误的估计效果使我们有必要将重采样过程构造置信区间或评估影响的重要性。
方法论的发展(96年)是出于生物医学数据的分析。统计增强算法,然而,已经应用在过去的几年里在不同的生物医学应用程序不需要方法论的扩展。大多数应用程序集中在预测模型或变量的选择。
给一个想法的各种各样的话题,我们简要提到的最近的最后两年。这些应用程序包括出生体重预测公式的发展尤其是小婴儿(97年戒烟),预测及其复发感染艾滋病毒的患者(98年),大肠杆菌馈料式发酵模型(99年),预测心血管死亡的老年患者在急诊科One hundred.),和识别影响治疗决策的因素对类风湿性关节炎(101年]。
7所示。讨论
在本文中,我们强调了一些新的研究领域统计领域的促进传统GAM模型方法。一个特别活跃的研究领域在过去的几年里地址增加算法的开发新的模型类扩展GAM框架。这些包括等,同时造型的位置,规模和形状参数GAMLSS框架内(49)的造型功能数据(65年),最近,纵向联合模型和生存数据的类(13]。不用说,这些进展将提高算法用于实际使用更复杂的临床和流行病学的应用程序。
另一条线的研究旨在探索统计增加之间的连接方法和机器学习技术,最初是独立开发的促进。一个重要的例子是稳定的选择,一个通用的方法,在当时的发展,主要集中在处罚回归模型如套索。直到最近稳定选择被改编成为一个工具变量选择在提升框架(例如,(47])。其他工作在这种情况下是增加之间的连接和处罚回归的分析(10)和Sariyar et al。(85年]探索提高和随机森林方法的结合。
最后,正如已经指出Hothorn [24),增加可能被认为不仅是一个正规化的框架模型拟合也作为一个通用的优化工具本身。特别是,增加了一个健壮的算法的优化目标函数,由于它们的结构或复杂性,可能带来问题Newson-Raphson-type和相关方法。这让文章的使用提高了Hothorn et al。81年)和Weinhold et al。87年]。
对于未来的研究,一个巨大的挑战使用提高算法在生物医学的应用程序来自大数据时代。与其他机器学习方法如随机森林,提高方法的顺序自然阻碍算法并行化技术的使用,可能会导致问题与复杂模型的拟合和优化多维预测和/或复杂的base-learners样条函数或higher-sized树。克服这些问题分类和单变量回归,陈和Guestrin [102年发展非常快速和复杂的xgboost环境。
本文讨论最近的扩展,然而,大数据统计提高尚未开发的解决方案。
附录
发展关于mboost包
本附录描述重要的变化在过去的多年中实现的R包mboost本教程后纸(28)在其发表使用。
从mboost 2.2自由度,默认是改变;他们现在定义为 与平滑矩阵 。分析表明,这将导致减少选择性偏差;参见[4]。使用早期版本的跟踪平滑矩阵自由度;也就是说, 。一个可以改变旧的定义通过设置选项(mboost_dftraceS = TRUE)。旨在阻止并行计算的值,mboost现在使用的包平行,这是包含在标准R安装。的行为波尔斯(x,拦截= FALSE)改变时x是一个因素:拦截只是从设计矩阵的编码可以像往常一样指定因素。此外,一个新的对比介绍了:“contr.dummy”(参见手册赤身裸体详情)。最后,b样条的基础上计算的边界被改变,等距边界结默认使用。
与mboost 2.3,约束效应(103年,104年)安装默认使用二次规划方法(选项type = " quad.prog ")大幅提高计算的速度。除了单调、凸、凹效应,介绍了适应新的约束“积极的”或“负面”影响或与边界约束(见效果bmono详情)。此外,一个新的函数分配值增加了模型对象(mstop (mod) <——我)以及两个新分配的家庭障碍(105年),多项(76年]。最后,实现一个新选项允许停止在拟合(通过基于out-of-bag数据stopintern = TRUE boost_control (…))。
与mboost 2.4,引导置信区间是小说中实现confint函数(104年]。稳定的选拔程序被转移到一个专用的包刺穿了(43),在一个特定的函数梯度增加包中实现mboost。
从mboost 2.5起,交叉验证不停止在单一错误折叠了,加快了设置mc.preschedule = FALSE如果并行计算通过mclapply使用。一个文档的功能plot.mboost了,它允许可视化模型的结果。值在边界结现在禁止在拟合,而线性外推法用于预测。
与mboost 2.6大量的bug修复和小的改进。最值得注意的是,包的发展现在完全托管在github的合作项目维护者改变boost-R / mboost和包。
的mboost 2.7版本提供了一个新的家庭Cindex(45),变量重要性的措施(varimp),和策划改善设施。
当前的凹口版本mboost 2.8包括主要的变化二项家庭目前另外提供了一种替代方法实现二项回归模型的经典全球语言监测机构实现,它可以通过使用二项(类型=“漠视”)。这个家庭也适用于一个两列矩阵包含许多成功和失败的数量。此外,模型(即零步骤。,models containing only the offset) are supported and cross-validation can now select models without base-learners. Finally, a new base-learnerbkernelpathway-based内核增加的全基因组关联研究(GWAS)添加106年]。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者感谢科琳娜Buchstaller帮助文献检索。第一个和最后一个本文作者的工作是支持的德意志Forschungsgemeinschaft (DFG) (http://www.dfg.de),批准号SCHM 2966/1-2。支持跨学科中心的临床研究(IZKF) Friedrich-Alexander-Universitat埃通过项目J49安德烈亚斯·迈尔(批准)和J61 (Elisabeth Waldmann grant)也感激地承认。