应用随机森林生存模型提高决策树的泛化性:以急性心肌梗死为例

摘要

背景．树模型提供了易于解释的预测工具，但结果不稳定。两种提高结果泛化性的方法是剪枝和随机生存森林(RSF)。本研究的目的是评估饱和树(ST)、修剪树(PT)和RSF的泛化性。方法．607例患者的数据随机分为训练集和测试集，采用10倍交叉验证。使用训练集，所有三个模型都被应用。采用Log-Rank检验，通过搜索最优截止点构造ST。选择PT绘图错误率与终端节点的最小样本量。在构建RSF时，从训练集中抽取1000个bootstrap样本。C-指数和综合Brier得分(IBS)统计量用于比较模型。结果．ST提供了最过度优化的统计信息。意思是区别C训练集和测试集的-index为0.237。PT、RSF对应值分别为0.054、0.007。在IBS方面，ST的差异为0.136,PT的差异为0.021,RSF的差异为0.0003。结论．对测试集进行树的修剪及其性能评估，可部分提高决策树的泛化能力。RSF提供了高度概括的结果。

1.介绍

生存率的预测是生存分析的主要目的。对于时间到事件的数据，Log-Rank检验和Cox回归模型是最常用的方法。Cox模型可用于识别显著影响利益结果的变量，并以风险比(HR)表示结果[1］．然而，该模型并没有提供一个易于解释的决策规则用于临床实践。此外，对存在高阶相互作用的探索需要在模型中加入相互作用项，这使得对结果的解释更加困难[2］．

一种可以轻松处理这两个问题的替代策略是决策树分析[3.］．树由根节点、内部节点或子节点和终端节点组成。在第一步中，所有的主题都放在根节点中。受试者应被分为两个子节点，子节点之间的差异最大。这将通过在所有自变量中广泛搜索来找到变量(和截止值)，使差异最大化[4］．所有独立变量的所有可能的临界值都被尝试去探索哪一个会导致最高的Log-Rank统计量(对应于最低的)值)。一旦创建了第一个分割，将对每个内部节点应用类似的方法。这就形成了一个树状结构，将主题划分为最终的终端节点[5- - - - - -8］．这些模型提供了形象化的决策规则，便于在医疗决策中使用。

一旦创建了模型，就需要对模型性能进行一些度量。例如，在logistic回归的情况下，应报告敏感性和特异性，或ROC曲线下面积。这些统计数据显示了该模型区分病例和对照组的能力。

在生存分析中，C-index和Brier统计数据通常被报告。C-index是对ROC曲线下面积的概化，用于比较经历该事件者与未经历该事件者的生存率[9］．Brier评分(BS)比较了患者的预期生存率和实际情况[10］．高C-index和低BS表明模型与数据的适当拟合。

在模型构建过程中，研究人员通常使用给定的数据集拟合模型，然后使用相同的数据集评估模型的性能。不管建立模型的方法是什么，风险预测模型的一个重要目的是建立能够准确预测未来患者风险的模型。有人认为，使用训练集来构建模型和评估其性能会导致统计数据过度优化，泛化性较低[11］．在决策树模型的情况下，由于在每个节点上进行广泛的搜索，过度优化的程度更高[12］．

解决统计数据过度优化问题的最简单方法之一是将数据随机划分为训练集和测试集。在这种情况下，可以在训练集上构建模型。然后，将导出的模型应用于测试集，以计算性能统计数据[11］．然而，这种方法导致样本量和能力的降低。

另一种方法建议对结果进行自举聚合[13，14］．这意味着在大量随机派生的bootstrap样本(假设1000)上构建模型，并使用相同的样本对它们进行测试，并报告感兴趣的统计量的均值和标准偏差。

其中提出的一种聚集方法是随机生存森林模型。该方法通过两个机制控制过优化[15］．首先，从初始数据中提取多个引导样本。除此之外，为了构建每棵树，将会选择和使用一个独立变量的随机样本。有人认为，在种植树木时使用两种形式的随机化和它们的组合可以减少单棵树的不稳定性。本研究的目的是比较生存树和随机生存森林在预测急性心肌梗死患者生存概率方面的表现。

2.材料和方法

我们使用了607例急性心肌梗死(AMI)患者的信息，年龄>25岁，2007年在伊朗马什哈德伊玛目礼萨医院CCU住院。根据国际疾病分类(ICD-10)对患者进行识别，编码为12.0 ~ 12.9。在目前的研究中，主要结果是AMI导致的死亡。以入院至出院或死亡时间为随访时间。11个预测变量的信息如下:年龄(年),性别、高血压病(没有是的)(患者收缩压≥140 mmg或舒张压≥90 mmg被视为“是的”),高脂血症(没有是的),历史的缺血性心脏病入院(没有是的),糖尿病(没有是的),吸烟状态(没有是的),AMI疾病的家族史,Q波状态(ECG中有或没有病理Q波)，链激酶治疗(无或有)，干预(血管成形术，起搏器手术，搭桥手术和药物治疗)。

我们比较了以下四种方法:饱和生存树、修剪生存树和随机森林生存(RFS)(详见下文)。采用10倍交叉验证将数据集随机分为训练集和测试集两部分;然后利用训练集构建模型。在饱和和修剪的生存树中，在训练集和测试集上评估性能。在随机生存森林中，性能评估在包外和测试集(稍后解释)。

２.１.饱和生存树

在构建生存树时，使用训练集，Log-Rank统计量作为分裂准则。在终端节点至少有一次死亡的约束下构造饱和树。最终树的性能(根据IBS和C-index)对训练样本和测试样本进行了测试。

２.２.修剪树的生存

其次，对训练样本构建的树进行修剪。树的大小与测试集的误差(索引)来选择最优树。如上所述，对抽样变异进行了处理。

2．3.随机森林生存

RSF是一种集成方法，在树生长过程中引入了两种形式的随机化:从数据中bootstrap抽样和选择有限数量的自变量来构建树[16］．

利用训练集，应用RSF程序。然后使用OOB训练和测试集评估其性能。这个过程已经重复了1000次，如下所述。

首先，使用一个独立的引导示例来生长树。其次，为了将树的每个节点分割为2个子节点，选择有限数量的协变量。已经表明，每个样本将在大约63%的样本中被选择。未被选择的样品被称为外袋(OOB)样品。这意味着，在1000个引导样本中，每个受试者都是OOB的一部分370次。我们遵循以下程序:（1）抽取了1000个bootstrap样本。（2）在每个样本中，构建了一棵生存树。在树的每个节点上，选择候选变量。使用候选变量来分割节点，使子节点之间的生存差异最大化。（3）根据树的规则，绘制OOB患者的生存曲线。（4）对于每个受试者，平均生存曲线被计算作为受试者的最终结果．在所有三种方法中，采用了10倍交叉验证。为了捕获额外的变化，交叉验证过程重复了20次，因此每种方法创建了200个训练和200个测试数据集。

２.４.性能统计数据

2.4.1。C指数

让是生存时间和审查状态终端节点中的对象．同时,让是在终端节点中不同的事件时间．定义和即死亡人数和处于危险中的受试者．终端节点的累积危险函数(CHF)估计是尼尔森-艾伦估计量吗为主题与一个维协变量在RSF程序中，估计受试者的CHF,定义如果OOB是什么情况th引导样品;否则,．让表示主题的CHF在一棵树上生长引导程序示例。CHF为是的C-index的计算步骤如下:（1）形成所有可能的成对主题。（2）考虑允许对，通过消除那些生存时间较短的被审查的对，并通过消除对如果都是死亡（3）对于每一对允许的，如果较短的生存时间具有高风险预测，计数1;如果预测的风险是相同的，计算0.5。对于每个允许的对，其中两者都是死亡，如果预测的风险相同，数1;否则,数0.5。对于每一对允许的，但至少1例不属于死亡，如果死亡有高危预测，数1;否则,数0.5。让一致性表示所有允许对的和。（4）C指数=一致性/容许。在生存树中，我们说有比预测高的风险吗如果在哪里是数据集中唯一的事件时间。在RSF集合中CHF ()用来代替［16］．

值为0．5C-index并不比随机猜测好，取值为1表示完全区分能力。百分位数2.5和97.5被认为是最终统计的CI下限和上限。

2.4.2。肠易激综合症的统计数据

荆棘鸟在时间上得分是由在哪里表示截尾生存函数的Kaplan-Meier估计[17，18］．

通过计算各时段的Brier评分得到预测误差曲线。此外，综合Brier评分(IBS)是随着时间的累积预测误差曲线肠易激综合征值越低，预测效果越好。百分位数2.5和97.5被认为是最终统计的CI下限和上限。

2．5．树的构造方法和数据集对性能统计的影响

如上所述，我们采用了三种方法来构建树(ST、PT和RSF)。此外，使用两个数据集(训练和测试)来评估性能。这两个因素一起创建了6个场景，每个场景有200个重复。在1200个样本中，IBS和C索引记录。采用两种方法的方差分析来评估树的构建方法和用于验证的数据对性能统计的影响。

2.6。软件

我们使用randomForestSRC和pec R-package进行本研究的分析。

3.结果

我们的数据集包括607例患者，平均年龄61.34岁(SD = 13.46)。总共有204名患者经历了感兴趣的结果(因AIM死亡)。表格1提供收集的其他10个独立变量的信息。


预测变量	水平	数百分比(%)

性	男性/女性	423 (69.7) / 184 (30.3)
高血压疾病	是/否	245 (40.4) / 362 (59.6)
高脂血症	是/否	135 (22.2) / 472 (77.8)
有缺血性心脏病病史	是/否	184 (30.3) / 423 (69.7)
糖尿病	是/否	150 (24.7) / 457 (75.3)
吸烟情况	是/否	216 (35.6) / 391 (64.4)
AMI家族史	是/否	63 (10.4) / 544 (89.6)
Q波状态	是/否	159 (26.2) / 448 (73.8)
链激酶治疗	是/否	278 (45.8) / 329 (54.2)
干预	血管成形术	32 (5.3)
	起搏器手术	36 (5.9)
	心脏搭桥手术	45 (7.4)
	药物治疗	494 (81.4)

如表所述2，饱和树在训练集中提供了最优的统计量。而C-index在饱和树中的值为0.872，对应的RSF值为0.710。此外，差异C饱和树训练集和测试集的-指数远高于其他方法(饱和树0.24，修剪树0.05,RSF 0.006)。


	指数			肠易激综合症
	训练集	测试集	变化百分比	训练集	测试集	变化百分比

饱和的树	0.872 (0.863, 0.882)	0.634 (0.528, 0.743)	27%	0.088 (0.082, 0.094)	0.224 (0.157, 0.298)	150％
修剪树	0.753 (0.740, 0.768)	0.699 (0.570, 0.824)	7％	0.145 (0.138, 0.151)	0.166 (0.113, 0.221)	14％
RSF	0.710 (0.693, 0.729)	0.716 (0.609, 0.857)	0.08%	0.163 (0.156, 0.169)	0.163 (0.114, 0.210)	0．1%

同样，在饱和树中，使用训练集对IBS的估计提供了没有在测试集中复制的结果(0.088 vs 0.224)。修剪树木可以部分解决这个问题。RSF提供了最具可比性的结果。

３．１．饱和的树

一旦将饱和树应用到训练集，IBS为0.088，表明预测误差非常低(表1)2）．然而，当该模型应用于测试集时，IBS增加了约1.5倍，达到0.224。此外，大约减少了27%C指数是观察。的C训练集和测试集的-index分别为0.872和0.634。CIs表明这些统计数据在训练集和测试集之间存在显著差异。数字1(一)显示BS值随时间的培训和测试集。训练集的BS值始终高于测试集的相应值。

(一)

(b)

(c)

３.２．修剪树

修剪树后，训练集和测试集的性能仍然存在差异。然而，与饱和树相比，差异的幅度很大。评估修剪后的树在训练集上的性能，IBS为0.1452）．试验集对应数字为0.166，对应增长17%。C训练集和测试集的-index值分别为0.753和0.699。这表明只有7%的降幅。从性能统计数据来看，训练集和测试集之间没有显著差异。然而，对应于测试集的统计数据要宽得多。数字1 (b)表示两行(对应于训练集和测试集)之间的差值远低于饱和树(图)1(一)）．

３．３．RSF

在RSF中，训练集和测试集的性能大致相同(表2）．IBS值分别为0.163和0.163。C-指数分别为0.710和0.716。基于图1 (c)，两条线不能区分。这表明了RSF结果的高泛化性。与PT相似，训练集和测试集的性能统计数据没有显著差异。

3．4．树构造方法和验证集对性能统计的影响

这两个因素都对统计数据有显著影响。此外，它们之间有显著的交互作用(所有值< 0.001):

4.讨论

使用经验数据集，我们的结果表明，使用训练集评估决策树的性能会导致巨大的过度优化统计。特别是，当饱和树被构建时C训练集和测试集的-指数均高达0.24。修剪树在一定程度上解决了过度优化问题，其中差异达到0.05。我们应该强调0.05的差异C-index被认为是巨大的，因为这个统计值在0.50和1之间变化。另一方面，无论使用哪种数据集，RSF是唯一提供可比结果的方法。方法在肠易激综合征方面的表现也得出了同样的结论。同样，RSF和饱和树提供了最准确和最过度优化的统计数据。

我们还没有进行广泛的模拟研究。然而，类似的手稿也表明RSF比其他算法更有效。Austin等人使用AMI患者的数据来比较PT和RF的表现。主要结果是患者是否在入院后30天内死亡。自变量数为33。C训练集和测试集的-index分别为0.768和0.767。应用RF，对应的数字分别为0.823、0.843。我们猜测训练集和测试集中PT结果的接近性是由于训练集的样本量非常大(9298)[19］．

Opitz和Maclin使用了来自威斯康星大学机器学习知识库(UCI数据)的23个数据集来比较自举聚合树和修剪树。模型的性能通过10倍交叉验证进行检验。在所有数据集中，套袋树对应的错误率低于修剪树[20.］．

Walschaerts等人使用144例乳腺癌患者的数据来比较PT和RSF。数据随机分为训练集和测试集30次。在训练的基础上建立模型，并在测试集上检验其性能。独立变量为75个:5个临床危险因素和70个基因表达测量值。平均错误率(1−C-index)的PT和RSF分别为0.389和0.279 [21］．

bouo - hamad等人使用了312名原发性胆汁性肝硬化患者的资料。自变量数为12。他们比较了Cox回归、PT、套袋树和RSF对肠易激综合征的影响。应用10倍交叉验证来评估模型的性能。结果以图形的形式显示，RSF效果最好，其次是套袋。PT提供了最差的结果。Cox回归模型的表现介于[22］．

正如预期的那样，文献和我们的结果表明，像RSF这样的集成方法具有较高的泛化性。我们研究的优势之一是，我们在训练集和测试集上比较了3种不同的方法。我们也计算C-index和IBS统计数据来比较不同方法的性能。大多数文章只使用测试集比较修剪过的树和RSF。

我们的研究的局限性之一是我们不能绘制预测误差曲线抽样的均值。我们只是从随机生成的样本中选择一个来监测BS随时间的变化趋势。然而，我们报告的平均值考虑到抽样变化。此外，在我们的经验数据集中，事件每变量(EPV)约为20。我们预计，在低epv下，饱和树和修剪树的性能较差。EPV对替代方法性能的影响仍有待解决。

5.结论

我们推荐使用训练集来评估包括决策树在内的统计模型的性能。树的修剪部分解决了过度优化的程度。然而，训练集和测试集之间的差异仍然是预期的。另一方面，RSF提供了可以推广到独立样本的统计量。

利益冲突

没有利益冲突。

承认

这项工作是Iman Yosefian的硕士论文的一部分，已经被Kerman医学科学大学授予。

参考文献

D. G. Kleinbaum和M. Klein，生存分析，施普林格，纽约，纽约，美国，2012。视图:出版商的网站|MathSciNet
M. Radespiel-Tröger, T. Rabenstein, H. T. Schneider，和B. Lausen，“基于树的生存数据预后分层方法的比较，”医学中的人工智能第28卷第2期3，页323 - 341,2003。视图:出版商的网站|谷歌学者
M. Banerjee, J. George, E. Y. Song, A. Roy，和W. Hryniuk，“基于树的乳腺癌预测模型”，临床肿瘤学杂志第22卷第2期13，第2567-2575页，2004。视图:出版商的网站|谷歌学者
L. Breiman, J. H. Friedman, C. J. Stone, R. A. Olshen，分类与回归树， Wadsworth，纽约，纽约，美国，1984。视图:MathSciNet
L. Gordon和R. A. Olshen，“树结构生存分析”，癌症治疗的报道，第69卷，第2期10，第1065-1068页，1985。视图:谷歌学者
M. LeBlanc和J. Crowley，《被审查的生存数据的相对风险树》，生物识别技术，第48卷，第48期2，页411-425,1992。视图:出版商的网站|谷歌学者
M. LeBlanc和J. Crowley，《依靠分裂的美德生存的树》美国统计协会杂志第88期422，第457-467页，1993。视图:出版商的网站|谷歌学者|MathSciNet
mr . R. Segal，“审查数据的回归树”，生物识别技术，第44卷，第5期。1，第35-47页，1988。视图:出版商的网站|谷歌学者
P. J. Heagerty, T. Lumley，和M. S. Pepe，“截尾生存数据和诊断标记的时间依赖性ROC曲线，”生物识别技术第56期2，页337-344,2000。视图:出版商的网站|谷歌学者|Zentralblatt数学
U. B. Mogensen, H. Ishwaran，和T. A. Gerds，“使用预测误差曲线评估随机森林的生存分析，”统计软件杂志，第50卷，第5期。11日,2012年。视图:出版商的网站|谷歌学者
Z.-H。周,集成方法:基础和算法， Chapman & Hall/CRC, Boca Raton，佛罗里达州，美国，2012。视图:MathSciNet
L. Breiman，“模型选择中不稳定和稳定的启发”，统计年鉴，第24卷，第2期6，第2350-2383页，1996年。视图:出版商的网站|谷歌学者|MathSciNet
L. Breiman，“套袋预测者”，机器学习，第24卷，第2期2，页123-140,1996。视图:谷歌学者|Zentralblatt数学
T. Hothorn, B. Lausen, A. Benner，和M. Radespiel-Tröger，《套袋生存树》医学统计，第23卷，第2期。1，页77-91,2004。视图:出版商的网站|谷歌学者
H. Ishwaran, U. B. Kogalur, E.。布莱克斯通和M. S.劳尔的《随机生存森林》应用统计学年鉴，第2卷，第2期3，页841-860,2008。视图:出版商的网站|谷歌学者|Zentralblatt数学|MathSciNet
H. Ishwaran, E. H. Blackstone, C. apman - hansen, and T. W. Rice，“癌症分期的新方法:食管癌的应用”，生物统计学，第10卷，第5期。4, pp. 603 - 620,2009。视图:出版商的网站|谷歌学者
T. A. Gerds和M. Schumacher，“具有右截事件时间的一般生存模型中预期Brier分数的一致估计”，生物统计学杂志》，第48卷，第48期6、2006年。视图:出版商的网站|谷歌学者|MathSciNet
E. Graf, C. Schmoor, W. Sauerbrei, M. Schumacher，“预后分类方案对生存数据的评估和比较”，医学统计第18卷第2期17-18页，第2529-2545页，1999。视图:谷歌学者
P. C. Austin, D. S. Lee, E. W. Steyerberg，和J. V. Tu，“预测心血管疾病患者死亡率的回归树:使用基于集成的方法取得了什么改善?”生物统计学杂志》第54卷第5期5, pp. 657-673, 2012。视图:出版商的网站|谷歌学者|MathSciNet
D. Opitz和R. Maclin，《流行合奏方法:实证研究》，人工智能研究杂志， 1999年第11卷，169-198页。视图:谷歌学者
M. Walschaerts, E. Leconte，和P. Besse，“右截尾数数据的稳定变量选择:方法的比较”，http://arxiv.org/abs/1203.4928．视图:谷歌学者
I. boua - hamad, D. Larocque和H. Ben-Ameur，《生存树综述》，统计调查， vol. 5, pp. 44 - 71,2011。视图:出版商的网站|谷歌学者|Zentralblatt数学|MathSciNet

医学中的计算和数学方法

摘要