计算和数学方法在医学

在这一页上

文摘介绍方法结论的利益冲突确认补充材料引用版权相关文章

研究文章应改正的错误

一个应改正的错误这篇文章已经发表。查看这篇文章的细节,请点击“应改正的错误”选项卡。

特殊的问题

预测模型基于统计学习生物医学

把这个特殊的问题

研究文章|开放获取

体积2017年| 文章的ID1421409| https://doi.org/10.1155/2017/1421409

探索稀疏和快速变量选择与基于模型的提振

Janek托马斯 ,¹ 托拜厄斯Hepp ,² 安德烈亚斯·迈尔 ,^2、3 和Bernd Bischl¹

学术编辑器: 宵夜赵

收到了 09年2月2017年

接受 2017年4月13日

发表 2017年7月31日

文摘

提出了一种新的基于模型的变量选择方法梯度增加和随机排列变量。基于模型的增加是一个工具来适应一个统计模型在进行变量选择在同一时间。拟合的缺点在于需要多个模型适合稍微改变数据(例如,交叉验证或引导)迭代寻找最优数量的增加,防止过度拟合。在我们建议的方法中,我们增加的数据集随机排列版本的真实变量,所谓的影子变量,和尽快停止逐步拟合变量将被添加到模型中。这允许变量选择在一个合适的模型,而无需进一步的调优参数。我们表明,探测方法可以与最先进的选择方法稳定在高维分类基准选择和应用在三个基因表达数据集。

1。介绍

在最新的基因组和蛋白质组数据的出现以来,可用变量的数量可能是远高于样本大小在生物医学研究、高维数据分析变得越来越重要(1- - - - - -4]。自常见的统计回归方法与普通最小二乘无法估计模型系数这些设置由于协方差矩阵的奇异性,提出了不同的策略来选择真正有影响力的,也就是说,信息量大,变量和丢弃那些没有对结果的影响。

真正执行稀疏的系数向量,正规化的回归方法等套索(5),至少角回归(6),弹性网(7),而梯度增加算法(8,9)执行变量选择直接在模型拟合过程。这个选择是由调优hyperparameters定义处罚的程度。虽然这些hyperparameters通常决定使用交叉验证等重采样策略,引导,和类似的方法,专注于减少预测误差往往导致许多noninformative变量的选择(10,11]。

解决这个问题的一种方法稳定的选择(12,13),这种方法结合了变量选择和重复二次抽样的数据来评估选择频率的变量。而稳定的选择可以大大提高几个变量选择方法包括正规化的性能在高维回归模型设置(12,14),其应用取决于额外hyperparameters。尽管建议合理的值存在12,14),正确规范这些参数不是简单的在实践中最优配置需要先验知识信息变量的数量。另一个潜在的缺点是稳定性选择计算的需求增加,这可能会产生问题,在高维设置如果使用选择技术尺度于超线性的计算复杂度与预测变量的数量。

在本文中,我们提出一种新的方法来确定最优迭代次数为变量选择受到基于模型的增加探索,常用的方法在机器学习研究的相关领域15- - - - - -17)和微阵列分析(18]。调查涉及到人工通货膨胀的一般概念与随机噪声的数据变量,所谓探针或影子变量。虽然这种方法原则上适用于套索或至少角回归,这是特别有吸引力的使用更多的计算量提高算法,不需要重新采样。使用一个影子的首选变量作为停止准则,应用该算法只有一次,而不需要任何优化hyperparameters为了从数据中提取一组信息变量,从而使其在实践中应用非常快速和简单。此外,仿真研究表明,由此产生的模型实际上往往更严格正规化而造成的交叉验证,包含更少的不提供信息的变量。

节2,我们提供的详细描述以及基于模型的梯度增强算法稳定性选择和新的探索方法。仿真研究的结果比较性能的探索和交叉验证和稳定性选择不同的配置一个二进制分类设置部分中给出3在讨论这些方法的应用三个数据集测量基因表达水平的部分4。部分5总结我们的研究结果,提出了一个扩展算法的前景。

2。方法

2.1。梯度增加

给定一个数据集的学习问题关节空间采样i.i.d.从一个分布 ,维输入空间和一个输出空间(例如, 回归和对于二进制分类),目的是估计一个函数, 映射元素的输入空间到输出空间尽可能好。依赖的角度促进作为函数空间的梯度下降法,梯度增强算法最小化给定的损失函数, 措施,预测结果值之间的差异而真正的。减少这种差异是通过反复拟合弱预测函数,调用基础的学习者之前的错误,为了把它们强大的合奏(19]。虽然早期的上下文中实现机器学习特别关注使用回归树,这个概念已经成功地扩展以适应各种统计建模问题的框架8,20.]。在这种基于模型的方法,基础的学习者 通常定义为半参数回归函数建立一个加法模型。一个常见的简化是假设每个基本学习者是定义在组件只有一个输入空间的概述基于模型拟合过程的促进看到算法1。

算法1(基于模型的梯度增加)。从以一个恒定损失最小的初始值 ,算法迭代更新的一小部分的预测与最适合学习者基于损失函数的负梯度:(1)设置迭代计数器。(2)而 ,计算损失函数的负梯度向量: (3)适合每一个基础的学习者单独的负梯度向量。(4)找到,即基础学习者最适合: (5)用一小部分更新预测这个组件:

由此产生的模型可以解释为一个广义相加模型与部分添加剂中包含每个协变量的预测效果。尽管该算法依赖于两个hyperparameters和,Buhlmann Hothorn [9)声称,学习速率 是次要的,只要它是“足够小,” 在实践中常用的。

停止准则,,确定正则化的程度,从而严重影响了模型质量的过度拟合和变量选择21]。然而,正如已经概述了在引入、优化使用交叉验证等常用方法导致许多不提供信息的变量的选择。尽管仍然专注于减少预测误差,使用25倍引导而不是常用的10倍交叉验证往往返回稀疏的模型预测不牺牲性能(22]。

2.2。稳定的选择

交叉验证的疲弱表现关于部分变量选择的结果,它追求的目标减少预测误差,而不是只选择的变量。是一个可能的解决方案稳定的选择框架(12,13),一个非常通用的算法,可以结合各种变量选择方法像梯度推进,逐步选择套索或前进。它产生稀疏的解决方案通过控制错误发现的数量。稳定选择定义了一个上界的住房错误率(pf),例如,不提供信息的变量的期望值包括在最终的模型。

因此,使用基于模型的增加意味着稳定选择算法1在独立运行随机样本的数据,直到一个预定义的迭代次数达到或不同的变量已经被选中了。随后,所有变量排序的选择频率集。信息变量的数量是由一个用户定义的阈值已经超过了。一个是给出了算法的详细描述这些步骤2。

算法2(稳定选择基于模型的增加(14])。(1)为 ,(一)画的一个子集的大小从数据;(b)适合提高模型的子集,直到选定变量的数量等于或达到指定数量的迭代次数()。(2)计算每个变量选择频率: 在哪里表示选择的变量的集合的迭代。(3)至少选择变量的选择频率协变量,收益率一组稳定的:

这种方法后,pf的上限可以推导出如下(12]: 额外的假设可交换性和形状分布的限制同时选择,甚至可以派生(更严格的界限13]。该方法成功地应用在许多不同的应用程序(23- - - - - -26),几个缺点阻碍在实践中使用。首先,三个额外的hyperparameters、pf和介绍了。虽然只有两人必须由用户指定(第三个可以计算假设平等(7)),它不是凭直觉清楚应该排除哪些参数,以及如何指定剩下的两个。尽管建议合理的选择阈值的设置12)或pf (14)提出,这些设置的有效性很难评估在实际设置。第二个障碍的使用稳定性计算所需的选择是相当大的计算能力。整体提高模型([13)建议 )必须安装和合理的也被发现,这将最有可能需要交叉验证。尽管这个过程可以很容易地并行化,复杂的模型类和高阶效应可以很平滑变得极其昂贵的适应。

2.3。探索

添加的方法探针或影子变量例如,人工不提供信息的变量的数据,不是全新的,已经在一些地区调查的机器学习。尽管他们分享受益于变量的存在潜在的理念是独立于已知的结果,实际实现概念的不同(见第二和Elisseeff (2003) (15概述])。然而,一个特别有用的方法是生成这些额外变量随机打乱版本的所有观察到的变量。这些交换变量将被调用影子变量在本文的其余部分,并表示。添加随机变量相比,影子变量的边际分布的优势是保存在。这种方法是紧密相连的置换理论测试(27),同样用于所有相关的变量选择与随机森林28]。

实现探索概念基于模型的梯度增加的顺序结构相当简单。自增强算法贪婪的方式进行,只有更新的影响产量最大的损失减少每次迭代,选择一个影子变量本质上意味着现阶段最好的改善依赖于已知信息与结果无关。因此,在后面的迭代中变量选择最有可能相关只有机会。因此,所有变量之前添加了第一个影子变量假定有一个真正的对目标变量的影响,应该考虑的。完整的描述过程提出了算法3。

算法3(探索基于模型的变量选择的增加)。(1)扩大数据集通过建立随机打乱图片为每个变量这样在哪里表示包含所有的对称群可能的排列。(2)初始化提高模型的数据集和开始迭代。(3)如果停止第一个被选中;看算法1步骤()。(4)返回只有变量选择从原始数据集。

这种方法的主要优势相比,变量选择通过交叉验证或稳定选择一个模型适合足以发现信息变量和不需要昂贵的模型的改装。此外,不需要任何prespecification像搜索空间(交叉验证或额外的hyperparameters) (,、pf)稳定的选择。然而,值得注意的是,与经典的交叉验证,探索旨在优化变量的选择,而不是预测算法的性能。因为这通常涉及停止更早,效果估计与选择的变量是最有可能的强烈正规化和可能不是最优预测。

3所示。模拟研究

为了评估我们建议的变量选择方法的性能,我们进行基准仿真研究比较的非零系数由影子变量作为停止准则的使用交叉验证和不同配置稳定的选择。我们模拟数据点从多元正态分布的变量托普利兹相关结构对所有和。响应变量然后由抽样生成伯努利实验的概率与的线性预测th观察和所有的非零元素从采样。自非零系数的总量决定的数量信息变量的设置,它是表示。

总的来说,我们认为12种不同的模拟场景定义的所有可能的组合 , , 。具体地说,这将导致2低维设置的评价 4设置和6高维设置。每个配置运行次了。随着新实现的和,我们也画非零系数的新值和样品的位置向量在每个运行,允许不同的变量之间的关联模式。变量选择和交叉验证,倍引导(默认mboost)是用来确定最终的迭代次数。不同的配置稳定的选择进行测试调查,是否如果是这样,这些设置在多大程度上影响的选择。为了明确使用稳定上错误的选择,我们决定来指定与组合和和计算从(7)。除了学习速率设置为所有方法,没有进一步参数必须指定的调查计划。两个性能的措施被认为是评价方法对变量的选择:第一,真阳性率(TPR)的分数(正确地)选择从所有真实信息变量和变量,第二,错误发现率(罗斯福)的分数不提供信息的变量选择的变量的集合。确保再现性R包batchtools(29日)是用于所有模拟。

模拟的结果为所有设置见图1。TPR和罗斯福设在和分别设在解决方案显示在左上角的情节因此成功分离信息变量的没有真正对响应的影响。虽然已经使用一个稀疏的交叉验证方法,变量选择的罗斯福通过交叉验证仍相对较高,有超过50%的假阳性选择集在大多数的模拟场景。而这似乎是主要的不利情况 ,这一趋势更加贪婪的解决方案会导致一个相当高的机会识别更多的真正的变量或非常高的然而,价格还在捡很多噪声变量。池所有配置考虑稳定选择的结果,结果覆盖大面积的性能空间图1,从而可能表明高灵敏度决定三个调优参数。

检查结果分别如图2,困境尤为明显和。尽管能够控制预期的上界假阳性选择,只有少数真正的选择影响pf设置过于保守。此外,高方差的罗斯福观察某种程度上抵消这些配置一些设置目标,以取得更多的确定性选择的变量可能有人会追求通过设置pf非常低。探测的性能,另一方面,揭示了一个更稳定的模式和稳定性优于选择的困难和设置。事实上,TPR更高或类似于所有配置用于稳定选择,但表现出较高罗斯福特别是设置。有趣的是,调查似乎提供结果类似于稳定的选择与pf = 8,提高问题如果使用影子变量允许声明关于预期的假阳性的数量在选定的变量集。

然而,考虑到运行时,我们可以看到,调查订单大小的速度平均运行时间不到一秒而交叉验证,几乎一分钟12秒稳定的选择。

4所示。对基因表达数据的应用程序

在本节中,我们利用探测的使用作为一个工具变量选择在三个基因表达数据集。更具体地说,这包括结肠癌数据利用寡核苷酸阵列检测(30.)与肿瘤和正常结肠组织样本测量基因表达水平。此外,我们从研究旨在分析数据预测乳腺癌的转移31日),患者贴上好或差( 和、职责)取决于他们是否依然风平浪静后五年内诊断。数据集包含对数转换表达的水平基因。最后一个例子探讨核黄素生产枯草芽孢杆菌(32)与观测的对数转换核黄素生产速度和表达水平基因。所有数据是公开的通过R包datamicroarray和人类发展指数。我们建议的调查方法是实现的叉子mboost(33)软件的特定组件的梯度增加。它可以很容易地通过设置使用探针= TRUE在glmboost ()调用。

为了评估结果提供的新方法,我们使用交叉验证,分析了数据稳定选择(34),和套索(35)进行比较。表1显示变量的总数由每个方法和集合之间的交集的大小。开始可能令人惊讶的结果,提高与交叉验证导致最大的一组选定的变量在所有例子中,而使用探测作为停止准则相反明显降低这些集合。因为这两种方法都是基于相同的正规化概要文件直到第一个影子变量进入模型,越正规化交叉验证的解决方案总是包含所有变量选择与探索。稳定的选择,我们使用了保守的方法和所显示Buhlmann et al。(2014)32]。因此,变量的集合被认为是信息进一步收缩在所有三个场景。显然,这些结果反映了部分仿真研究的结果3之间的探测方法,将稳定选择可能过于保守错误绑定和贪婪的选择和交叉验证。

由于到目前为止所有的方法依赖于提高算法,我们另外考虑变量选择套索。我们使用的默认设置glmnet包R计算套索正规化道路并确定最终的模型通过10倍交叉验证(35]。虽然套索已经倾向于导致稀疏的模型相比,在这些条件下基于模型的增加(22),glmnet另外使用“one-standard-error规则”来进一步规范解决方案。事实上,这导致一组相同的基因的选择作为探测乳腺癌的例子,但是最终的模型估计的其他例子仍然包含更多的变量。尤其的核黄素生产数据,套索的解决方案是进一步不仅仅旨在促进方法的一个子集,只有23日同意相互选择的变量。有趣的是,即使提出的5个变量的一个稳定选择也不见了。的R代码用于此分析可以发现在网上这个手稿的补充材料https://doi.org/10.1155/2017/1421409。

5。结论

我们提出了一种新的方法来确定最优稀疏和快速的迭代次数与基于模型的变量选择提高通过添加探测器或影子变量(探索)。我们能够通过仿真证明研究和分析基因表达数据,我们的方法是可行的和方便的策略对高维变量选择设置。与常见的基于模型的优化程序提高,依赖于重采样或交叉验证过程优化预测精度(21),我们探索的方法直接地址变量选择属性的算法。因此,它大大减少了大量的假发现起来与标准程序14]虽然只需要一个模型适合获得参数的设置。

除了很短的运行时,调查的另一个吸引人的特点是,没有额外的调优参数必须指定运行算法。虽然这大大增加其易用性,,当然,权衡对灵活性、调优参数的缺乏意味着没有办法引导结果或多或少的保守的解决方案。然而,相应的调优方法的探索可以允许一定数量的模型中选择调查再决定停止算法(cf Elisseeff盖恩和,200315])。尽管变量选择的第一次调查后可以贴上标签信息那么令人信服,这类似于指定更高的不确定性误差值稳定的选择。

我们的方法的一个潜在缺点是,由于排列的特性转化,没有确定的解决方案和所选的组运行算法后可能会略有不同。以稳定的结果,调查也可以结合重采样来确定最优停止迭代算法通过运行程序的几个先引导样品。当然,这需要多个模型的计算,因此会增加整个选拔程序的运行时。

另一个前景看好的扩展可能是一个结合稳定的选择。每个模型在第一个影子变量,只有选择阈值必须被指定。然而,由于这意味着根本性变化的原始程序,关于这个主题的进一步研究是必要的,以更好地评估如何影响产生的误差界。

在这个工作我们专注于二进制和连续数据的梯度增加,没有理由我们的结果也不应该携带到其他回归设置或相关统计增强算法是基于可能性增强[36]。基于可能性提高遵循相同的想法,但使用不同的更新原则,与高斯梯度增加的响应(37]。进一步的研究也保证我们的方法扩展到多维促进算法(25,38),变量必须同时为各种型号选择。

此外,调查作为一个优化方案可以通常也结合类似的正规化回归方法如套索(5,22]。我们的建议的基于模型的提高因此可以是起点调优算法模型对高维数据的新方式,而不是专注于预测精度,但解决直接所需的变量选择属性。

的利益冲突

作者宣称没有利益冲突。

确认

作者Tobias Hepp和安德烈亚斯·迈尔的工作得到了跨学科的临床研究中心(IZKF) Friedrich-Alexander-University埃(项目J49)。作者另外承认支持德意志Forschungsgemeinschaft和Friedrich-Alexander-Universitat埃(能力)在开放获取出版资助项目。

补充材料

补充材料包含代码用于运行实验以及结果数据用于创建数据和表。

补充材料

引用

r·罗梅罗j·埃斯皮诺萨,f . Gotsch et al .,“使用高维生物学(基因组学、转录组、蛋白质组学和代谢组学)了解早产分娩综合症,”问卷:一个国际妇产科杂志》上,卷113,不。s3, 118 - 135年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
r·克拉克·h·w·Ressom王a . et al .,“高维数据空间的属性:探索基因和蛋白质表达的影响数据,”自然评论癌症,8卷,不。1,37-49,2008页。
视图: 出版商的网站 | 谷歌学术搜索
p . Mallick b .工业,“蛋白质组学:务实的角度来看,“自然生物技术,28卷,不。7,695 - 709年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
m . l . Bermingham r . Pong-Wong a Spiliopoulou et al .,“高维特征选择的应用程序:评估基因预测的人,”科学报告卷,5篇文章ID 10312, 2015。
视图: 出版商的网站 | 谷歌学术搜索
r . Tibshirani“回归通过套索收缩和选择,”英国皇家统计学会杂志》上,卷。58岁的没有。1,第288 - 267页,1996。
视图: 谷歌学术搜索 | MathSciNet
b·埃夫隆、t . Hastie。约翰斯通,r . Tibshirani“最小角回归,”统计年报,32卷,不。2、407 - 499年,2004页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
h .邹和t . Hastie正规化和变量选择通过弹性网”英国皇家统计学会杂志》上。系列b .统计方法,卷67,不。2、301 - 320年,2005页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
j·弗里德曼,t . Hastie和r . Tibshirani”添加剂逻辑回归:增加的统计视图,“统计年报,28卷,不。2、337 - 407年,2000页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
p . Buhlmann和t . Hothorn增强算法:正规化,预测和模型拟合,“统计科学,22卷,不。4、477 - 505年,2007页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
n Meinshausen和p . Buhlmann高维图表和变量选择套索,”统计年报,34卷,不。3、1436 - 1462年,2006页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
林c愣,y, g·”报告在模型选择套索和相关程序,”Statistica中央研究院,16卷,不。4、1273 - 1284年,2006页。
视图: 谷歌学术搜索 | MathSciNet
n Meinshausen和p . Buhlmann稳定选择,”英国皇家统计学会杂志》上。系列b .统计方法,卷72,不。4、417 - 473年,2010页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
r·d·沙阿和r . j . Samworth”和错误控制变量的选择:另一个看稳定的选择,“英国皇家统计学会杂志》上。系列b .统计方法,卷75,不。1,55 - 80、2013页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
b . Hofner l . Boccuto和m .完全懂得,“在高维情况下控制错误的发现:提高与稳定的选择,“BMC生物信息学,16卷,不。1,第144条,2015。
视图: 出版商的网站 | 谷歌学术搜索
即盖恩和a . Elisseeff”介绍变量和特征选择。”机器学习研究杂志》上,3卷,第1182 - 1157页,2003年。
视图: 谷歌学术搜索
j . Bi k·p·班尼特,m . Embrechts c . m . Breneman和m .歌曲,“通过稀疏支持向量机降维,”机器学习研究杂志》上,3卷,第1243 - 1229页,2003年。
视图: 谷歌学术搜索
d . d . y . Wu嘘声,洛杉矶Stefanski,“准变星,控制变量的选择”美国统计协会杂志》上,卷102,不。477年,第243 - 235页,2007年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
v . g .獠牙,r . Tibshirani g .楚”意义的分析微阵列应用于电离辐射反应,”美国国家科学院院刊》上的美利坚合众国,卷98,不。9日,第5121 - 5116页,2001年。
视图: 出版商的网站 | 谷歌学术搜索
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素,施普林格系列统计,激飞纽约公司,纽约,纽约,美国,2001年。
视图: 出版商的网站 | MathSciNet
g .山脊路”提升的状态,“计算机科学和统计31卷,第181 - 172页,1999年。
视图: 谷歌学术搜索
娃,b . Hofner m·施密德,“知道什么时候停止的重要性:一个顺序停止规则特定组件的梯度增加,”医学信息的方法,51卷,不。2、178 - 186年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
t . Hepp m·施密德o . Gefeller用蒙太奇,e . Waldmann和a .娃”方法正规化regression-a比较梯度增加和套索,”医学信息的方法,55卷,不。5,422 - 430年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
A.-C。f . Mordelet Haury, p . Vera-Licona, j。绿色,“母老虎:深信不疑的推断基因调控使用稳定的选择,“BMC系统生物学》第六卷,第145条,2012年。
视图: 出版商的网站 | 谷歌学术搜索
k . s Ryali t . Chen Supekar,诉Menon”估计使用稳定功能连通性的功能磁共振成像数据选取与弹性网稀疏的偏相关处罚,”科学杂志卷,59号4、3852 - 3861年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
j . Thomas a .娃b . Bischl m·施密德a . Smith和b . Hofner稳定在多个维度选择特定组件的梯度增加,2016年。
娃,b . Hofner, m·施密德”提高稀疏的歧视性的力量生存模型通过优化选择的一致性指数稳定,”BMC生物信息学,17卷,不。1,第288条,2016。
视图: 出版商的网站 | 谷歌学术搜索
h·摩根和c·韦伯的渐近理论排列统计,“数学统计的方法,8卷,不。2、220 - 250年,1999页。
视图: 谷歌学术搜索 | MathSciNet
m . b . Kursa a养家糊口,w。Rudnicki”Boruta————系统特征选择,”Fundamenta Informaticae,卷101,不。4、271 - 285年,2010页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m·朗b Bischl, d . Surmann”batchtools: R工具工作在批处理系统中,“开源软件的杂志,卷2,不。10日,2017年。
视图: 出版商的网站 | 谷歌学术搜索
阿龙,n . Barka d . a . Notterman et al .,“广泛的基因表达模式聚类分析显示的肿瘤和正常结肠组织由寡核苷酸阵列探测,”美国国家科学院院刊》上的美利坚合众国,卷96,不。12日,第6750 - 6745页,1999年。
视图: 出版商的网站 | 谷歌学术搜索
e .肉汁g .皮龙A Vincent-Salomon et al .,“T1T2淋巴结阴性乳腺癌患者的预后DNA签名,“基因染色体和癌症卷,49号12日,第1134 - 1125页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
p . Buhlmann m·卡利什和l·迈耶“高维数据与视图向应用程序在生物学上,”年度回顾的统计及其应用,1卷,不。1,第278 - 255页,2014。
视图: 谷歌学术搜索
t . Hothorn p . Buehlmann t . Kneib m·施密德和b . Hofner mboost:基于模型的提振。包版本R包版本2.7 0,2016。
b . Hofner和t . Hothorn刺穿:稳定选择误差控制。包版本R包0.5版本1,2015。
j·弗里德曼,t . Hastie和r . Tibshirani“正则化路径对广义线性模型通过坐标后裔,”杂志的统计软件,33卷,不。1、22页,2010页。
视图: 谷歌学术搜索
g . Tutz和h .粘结剂”,与隐式广义可加模型变量选择通过基于可能性提高,”生物识别技术,卷62,不。4、961 - 971年,2006页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
答:娃,h .粘结剂、o . Gefeller用蒙太奇和m·施密德”提高算法的进化:从机器学习统计造型,“医学信息的方法,53卷,不。6,419 - 427年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
娃,n . Fenske b . Hofner t . Kneib和m·施密德“广义可加模型的位置,规模和形状对高维数据———基于提高灵活的方法,”英国皇家统计学会杂志》上。c系列应用统计学,卷61,不。3、403 - 427年,2012页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2076年

下载

1237年

引用