CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi出版公司 10.1155 / 2015/576413 576413年 研究文章 应用随机森林生存模型提高决策树的普遍性:一个案例研究在急性心肌梗塞 Yosefian 伊曼 1 Mosa Farkhani 2 Baneshi Mohammad Reza 3 El Naqa 阿萨姆 1 区域知识中心和世卫组织合作中心的艾滋病监测 期货研究所的健康 科曼地毯大学医学科学 科曼地毯7616911317 伊朗 kmu.ac.ir 2 部门的流行病学 德黑兰大学 德黑兰 伊朗 ut.ac.ir 3 对建模的健康研究中心 期货研究所的健康 科曼地毯大学医学科学 科曼地毯7616911317 伊朗 kmu.ac.ir 2015年 21 12 2015年 2015年 12 09年 2015年 23 11 2015年 24 11 2015年 2015年 版权©2015伊玛尼Yosefian et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

背景。树模型提供更容易解释的预后的工具,但不稳定的结果。两种方法来提高结果的普遍性修剪和随机森林生存(RSF)。本研究的目的是评估饱和树(ST)的普遍性,修剪树(PT)和无国界记者。<我talic> 方法。数据,607名患者被随机分为训练集和测试集应用10倍交叉验证。使用训练集,所有三个模型应用。使用生存率较,圣是由寻找最佳达标。PT选择绘图错误率与终端节点的最小样本量。1000年RSF建设,引导样本来自训练集。<我talic> C指数和综合荆棘得分(IBS)统计模型进行比较。<我talic> 结果。圣最过度优化提供了数据。意思是区别<我talic> C0.237指数在训练集和测试集。相应的图在PT和RSF 0.054和0.007。肠易激综合症,区别是0.136在圣,在RSF PT的0.021和0.0003。<我talic> 结论。修剪的树和评估性能的测试集部分提高决策树的普遍性。RSF提供高度可归纳的结果。

1。介绍

生存率的预测是一个生存分析的主要目的。的比较数据,生存率较和Cox回归模型是最常用的方法。Cox模型可以用来识别感兴趣的变量显著影响结果并给出结果的风险比(人力资源) 1]。然而,这个模型并不提供一个更容易解释的决策规则用于临床实践。此外,探索存在高阶相互作用模型中需要包含交互方面使解释结果更加困难( 2]。

另一种策略,容易处理这两个问题是决策树分析( 3]。树由根、内部或女儿节点和终端节点。在第一步,所有科目都放在根节点。主题应该分为两个子节点与它们之间最大的区别。这将实现通过广泛的搜索在所有的独立变量找到变量(截止),最大化的区别( 4]。所有可能切断所有的独立变量是试图探索哪一个导致最高Log-Rank统计(对应于最低<我nl我ne-formula> P 值)。创建第一个分裂之后,类似的方法应用于每个内部节点。这导致一个树结构,将研究对象划分为最终的终端节点( 5- - - - - - 8]。这些模型提供图形决策规则,因此可以很容易地用于医疗决策。

一旦创建了一个模型模型性能的一些措施是必需的。例如,在逻辑回归的情况下,敏感性和特异性,或ROC曲线下的面积,应报告。这些统计数据显示模型之间的歧视案件,如何控制。

在生存分析的情况下,<我talic> C指数和荆棘统计数据通常报道。<我talic> C指数是一个泛化的ROC曲线下的面积比较那些经历了事件的存活率与那些没有( 9]。荆棘评分(BS)比较预测与实际状态的病人存活率( 10]。高<我talic> C指数和低b显示足够的适合模型的数据。

在模型建立的过程中,研究人员使用一个给定的数据集通常适合模型,然后使用相同的数据集评估其性能。无论模型建立的方法,在风险预测模型的一个重要目的是构造模型准确地预测未来的风险的病人。它一直认为,使用训练集构造模型和评估其性能导致过度优化统计普遍性较低( 11]。的过量优化决策树模型更高的情况下,由于广泛的搜索在每个节点 12]。

最简单的方法来解决过度优化的问题统计数据是随机的数据划分为训练集和测试集。在这种情况下,该模型可以构造训练集。该模型推导出将被应用于测试集来计算性能统计数据( 11]。然而,这种方法会导致减少样本量和权力。

替代方法建议引导聚合的结果 13, 14]。这意味着构建数量模型的随机派生引导样本(1000)和测试它们使用相同的样品和报告数据的平均值和标准偏差。

聚合的方法,提出了生存是随机森林模型。该方法控制过量优化的两种机制( 15]。首先,它吸引了多个引导初始样本数据。除此之外,建设每棵树,随机样本独立变量的选择和使用。它一直认为,使用两种形式的随机化种植树木和组合它们,因为合理的减少不稳定的一个树。本研究的目的是比较生存树的性能和随机森林预测生存生存概率与急性心肌梗塞的病人。

2。材料和方法

我们使用607名急性心肌梗死(AMI)患者信息> 25岁,承认伊玛目Reza医院马什哈德的情事属实者,伊朗,2007年。患者识别根据国际疾病分类(icd - 10)与12.0 - 12.9码。在当前的研究中,主要结果是由于AMI死亡。从入院到出院或死亡被认为是随访时间。11个预测变量的信息如下:年龄(年),性别、高血压病(没有是的)(患者收缩压≥140 mmg或舒张压≥90 mmg被视为“是的”),高脂血症(没有是的),缺血性心脏病的历史在入学(没有是的),糖尿病(没有是的),吸烟状态(没有是的),AMI疾病的家族史,Q波状态(是否存在病理性Q波的心电图(ECG),链激酶治疗(没有是的),和干预(血管成形术,起搏器手术、心脏搭桥手术和药物治疗)。

我们比较四种方法如下解释:饱和生存树,修剪生存树,和随机森林生存(RFS)(请参见下面的细节)。我们随机将我们的数据集分成两个部分,训练集和测试集,用10倍交叉验证;然后用训练集构造的模型。在饱和和修剪树木生存,表现评估训练集和测试集。在随机森林生存,表现评估out-of-bag集和测试集(稍后解释)。

2.1。饱和生存树

在生存树的结构,使用训练集,Log-Rank统计作为划分标准。饱和树构造的限制下,终端节点至少有1例死亡。最终的性能(IBS和树<我talic> C指数)测试训练和测试样本。

2.2。修剪树的生存

其次,使用训练样本构造的树被修剪。树的大小是策划反对错误在测试集(<我nl我ne-formula> 1 - - - - - - C 指数)来选择最优的树。抽样变异是解决如上所述。

2.3。随机森林生存

无国界记者是一个整体的方法,介绍了2形式的随机树的成长过程:引导采样数据和选择的有限数量的独立变量来构造树( 16]。

使用训练集,RSF过程应用。它的表现被评估使用OOB训练和测试集。这个过程被重复1000次,如下解释。

首先,一个独立的引导样本用于越来越多的树。第二,树的每个节点分割成2女儿节点,选择协变量的数量有限。它已经表明,每个样本将在大约63%的选择样本。样品没有被选择被称为out-of-bag (OOB)样本。这意味着,1000年引导样品,每个主题的一部分OOB 370倍。我们跟着下面的步骤:

1000年引导样本。

在每个示例中,生存树构建。在树的每个节点,<我nl我ne-formula> p 变量选择候选人。节点使用候选人分裂变量最大化生存女儿节点之间的区别。

基于规则来源于树,OOB患者绘制生存曲线。

对于每一个主题,平均生存曲线计算被认为是最后的主题<我nl我ne-formula> 年代 ^ t

在所有三种方法,10倍交叉验证应用。获取额外的变化,交叉验证的过程是重复20倍,因此创建200年培训和200年测试数据集在每个方法。

2.4。性能统计数据 2.4.1。<斜体> C < /斜体>指数

让<我nl我ne-formula> T 1 , h , σ 1 , h , T 2 , h , σ 2 , h , , T n , h , σ n , h 的生存时间和审查的状态<我nl我ne-formula> n 受试者在一个终端节点<我nl我ne-formula> h 。同时,让<我nl我ne-formula> t 1 , h < t 2 , h < < t , h 是<我nl我ne-formula> 不同的事件在终端节点<我nl我ne-formula> h 。定义<我nl我ne-formula> d l , h 和<我nl我ne-formula> Y l , h 是在风险时的死亡人数和主题<我nl我ne-formula> t l , h 。累积风险函数(瑞士法郎)终端节点的估计<我nl我ne-formula> h 是Nelson-Aalen估计量 (1) H ^ h t = t l , h t d l , h Y l , h 为主题<我nl我ne-formula> 与一个<我nl我ne-formula> d 维协变量<我nl我ne-formula> x (2) H t x = H ^ h t , 如果 x h RSF过程,估计瑞士法郎的主题<我nl我ne-formula> ,定义<我nl我ne-formula> , b = 1 如果<我nl我ne-formula> 是一个OOB理由吗<我nl我ne-formula> b th引导样品;否则,<我nl我ne-formula> , b = 0 。让<我nl我ne-formula> H b t x 表示主题的瑞士法郎<我nl我ne-formula> 在树上的增长<我nl我ne-formula> b 引导程序示例。的合奏瑞士法郎<我nl我ne-formula> (3) H t x = b = 1 B , b H b t x b = 1 B , b 的<我talic> C指数计算使用以下步骤:

所有可能的形式对主题。

考虑允许对,通过消除那些对生存时间短的审查,并通过消除对<我nl我ne-formula> ( , j ) 如果<我nl我ne-formula> T = T j 和都是死亡。

为每个允许的地方<我nl我ne-formula> T = T j ,数1如果较短的生存时间有很高的风险预测;0.5如果风险预测。每一对容许,<我nl我ne-formula> T = T j 都是死亡,数1如果风险预测;否则,数0.5。为每个允许的地方<我nl我ne-formula> T = T j ,但至少有一个不是死亡,数1如果死亡高危预测;否则,数0.5。让和谐表示对所有容许对求和。

C指数=一致性/容许。

在生存树中,我们说<我nl我ne-formula> 预测风险比高吗<我nl我ne-formula> j 如果 (4) l = 1 H t l x > l = 1 H t l x j , 在哪里<我nl我ne-formula> t 1 < t 2 < < t 独特的事件倍在RSF合奏瑞士法郎(数据集。<我nl我ne-formula> H t x )是用来代替<我nl我ne-formula> H t x ( 16]。

的值为0<我talic> 。5<我talic> C指数并不比随机猜测和值1表示full-discriminative能力。百分位数2.5和97.5被认为是低和CI最后统计的上界。

2.4.2。肠易激综合症的统计数据

野蔷薇的分数<我nl我ne-formula> t 是由 (5) 废话 t = 1 N = 1 N 0 - - - - - - 年代 ^ t x 2 G ^ t T t , σ = 1 + 1 - - - - - - 年代 ^ t x 2 G ^ t T > t , 在哪里<我nl我ne-formula> G ^ t = P ( C > t ) 表示kaplan meier审查生存函数的估计( 17, 18]。

预测误差曲线计算得到的荆棘次得分。此外,集成的荆棘得分(IBS)累积预测误差曲线是由 (6) 肠易激综合症 = 1 马克斯 t 0 马克斯 t 废话 t d t 低的IBS值显示更好的预测性能。百分位数2.5和97.5被认为是低和CI最后统计的上界。

2.5。树结构和数据集的方法对性能统计数据

正如上面介绍的那样,三种方法应用于构建树(ST、PT和RSF)。此外,两个数据集(培训和测试)被用来评估性能。这两个因素共同创建六个场景与200年复制。1200年每个样本,肠易激综合症和价值观<我talic> C索引记录。双向方差分析应用于评估方法的影响的树结构和数据用于验证性能统计数据。

2.6。软件

我们使用randomForestSRC和派克R-package分析本研究。

3所示。结果

我们的数据集,包括607名患者平均年龄为61.34岁(SD = 13.46)。总共有204患者利益的结果(死亡由于目标)。表 1提供信息收集的其他10个独立变量。

人口特征的病人。

预测变量 水平 数百分比(%)
男性/女性 423 (69.7)/ 184 (30.3)
高血压疾病 是/否 245 (40.4)/ 362 (59.6)
高脂血症 是/否 135 (22.2)/ 472 (77.8)
缺血性心脏病的历史 是/否 184 (30.3)/ 423 (69.7)
糖尿病 是/否 150 (24.7)/ 457 (75.3)
吸烟情况 是/否 216 (35.6)/ 391 (64.4)
AMI疾病的家族史 是/否 63 (10.4)/ 544 (89.6)
Q波状态 是/否 159 (26.2)/ 448 (73.8)
链激酶治疗 是/否 278 (45.8)/ 329 (54.2)
干预 血管成形术 32 (5.3)
起搏器手术 36 (5.9)
心脏搭桥手术 45 (7.4)
药物治疗 494 (81.4)

总结如表 2、饱和树提供了训练集最过度优化统计。<我talic> C在树饱和指数为0.872,相应的图RSF是0.710。此外,不同的<我talic> C指数在训练集和测试集的饱和树远高于其他方法(0.24饱和树,修剪树的0.05,和0.006 RSF)。

业绩评估不同的树施工方法使用培训或测试集。

C 指数 肠易激综合症
训练集 测试集 变化百分比 训练集 测试集 变化百分比
饱和的树 0.872 (0.863,0.882) 0.634 (0.528,0.743) 27% 0.088 (0.082,0.094) 0.224 (0.157,0.298) 150%
修剪树 0.753 (0.740,0.768) 0.699 (0.570,0.824) 7% 0.145 (0.138,0.151) 0.166 (0.113,0.221) 14%
RSF 0.710 (0.693,0.729) 0.716 (0.609,0.857) 0.08% 0.163 (0.156,0.169) 0.163 (0.114,0.210) 0.1%

同样,在饱和树,IBS使用训练集提供了估计结果没有复制测试集(0.088和0.224)。修剪树部分解决这个问题。RSF提供最可比的结果。

3.1。饱和的树

一旦饱和树应用于训练集,IBS是0.088,显示非常低的预测误差(表 2)。然而,当该模型应用于测试集,肠易激综合症增加了约1.5倍,达到0.224。此外,减少约27%<我talic> C指数是观察。的<我talic> C指数在训练集和测试集是0.872和0.634,分别。独联体建议这些统计数据之间的显著差异训练集和测试集。图 1(一)显示b值随着时间的推移,在训练集和测试集。b在训练集始终高于相应的图在测试设置。

荆棘得分的比较(BS),随着时间的推移,在训练集和测试集:(a)饱和树,修剪树(b)和(c)随机森林生存。

3.2。修剪树

修剪树,还区别表现在训练集和测试集。然而,差异的大小与饱和树相比。修剪树的性能评估的训练集收益率IBS 0.145(表 2)。相应的图在测试设置为0.166,相应增加17%。<我talic> C在训练集和测试集索引值分别为0.753和0.699,分别。这表明只有7%的减少。训练集和测试集之间没有显著差异的性能统计数据。然而,统计相应的测试集广泛得多。图 1 (b)表明,两条线之间的区别(相应的训练集和测试集)远低于饱和的树(图 1(一))。

3.3。RSF

RSF的性能对训练集和测试集大约是相同的(表 2)。IBS值分别为0.163和0.163,分别。<我talic> C索引值分别为0.710和0.716。基于图 1 (c),两条线不能区分。这表明高RSF结果的普遍性。类似于PT,性能统计数据在训练集和测试集没有显著不同。

3.4。树的方法建设的影响和验证性能统计数据

这两个因素明显影响统计数据。此外,重要的(所有的都能看到它们之间的交互<我nl我ne-formula> P 值< 0.001): (7) C 指数 = 0.716 - - - - - - 0.082 模型=圣 - - - - - - 0.017 = PT模型 - - - - - - 0.006 示例=火车 + 0.244 =圣和样本=火车模型 + 0.060 = PT和样本=测试模型 , 肠易激综合症 = 0.162 + 0.062 模型=圣 + 0.004 = PT模型 + 0.0003 示例=火车 - - - - - - 0.137 =圣和样本=火车模型 - - - - - - 0.021 = PT和样本=测试模型

4所示。讨论

使用实证的数据集,我们的结果表明,使用训练集的决策树的性能评估导致了巨大的过度优化的统计数据。特别是,当一个饱和树构造的区别<我talic> C指数在训练和测试集高达0.24。修剪树部分解决的过量优化差异达到0.05。我们应该强调,0.05的差异<我talic> C指数被认为是巨大的,因为这统计0.50和1之间变化。另一方面,无国界记者是唯一的方法,提供了类似的结果,无论哪一个数据集使用。性能的方法而言,肠易激综合症导致了同样的结论。再次RSF和饱和树木提供最准确、最过度优化的统计数据。

我们还没有实现广泛的模拟研究。然而,类似的手稿也建议RSF比其他算法更有效。奥斯丁等人使用AMI患者的数据比较PT和RF的性能。主要结果是:住院的病人在30天内死亡。独立变量的数量是33。<我talic> C指数在训练集和测试集是0.768和0.767,分别。应用射频,相应的数据分别为0.823和0.843。我们猜,结果PT的亲密,在训练集和测试集,由于训练集的样本容量非常大(9298)( 19]。

Opitz Maclin使用23个数据集从威斯康辛大学机器学习库(UCI数据)比较引导聚合和修剪树木。使用10倍交叉验证检查的性能模型。在所有的数据集,错误率低于相应的袋装树木修剪树( 20.]。

Walschaerts等人使用的数据144乳腺癌患者比较PT和无国界记者。数据被随机分为训练集和测试集的30倍。模型建在培训和检查它的性能在测试集。独立变量的数量是75:5 70年临床危险因素和基因表达测量。平均错误率(1−<我talic> C指数)在PT和无国界记者是0.389和0.279,分别为( 21]。

Bou-Hamad等人使用信息的312名患者患有原发性胆汁性肝硬化的肝脏。独立变量的数量是12。他们比较Cox回归,PT、装袋树和RSF肠易激综合症。10倍交叉验证应用评估模型的性能。结果以图形方式和建议无国界记者提供了最好的结果,其次是装袋。PT提供最贫穷的结果。Cox回归模型的性能是在( 22]。

正如预期的那样,结果表明文学和我们更高的整体概括性RSF等方法。我们研究的优势之一是我们比较三种不同的方法对训练集和测试集。我们也计算<我talic> C指数和IBS统计数据来比较不同方法的性能。大多数的文章只有修剪树相比RSF使用测试集。

我们的研究的局限性之一就是我们不能阴谋oversamples预测误差的均值曲线。我们只是选择一个随机生成的样本监控BS的趋势。然而,我们报道了意味着考虑采样值的变化。此外,在我们的经验数据设置事件/变量(EPV) 20。我们期望性能降低饱和和修剪树木EPVs较低。替代方法的EPV对性能的影响仍有待解决。

5。结论

我们建议使用一个训练集来评估统计模型包括决策树的性能。修剪树木部分解决过量优化的程度。然而,仍然很高预计训练集和测试集的区别。另一方面,无国界记者提供的统计数据,可以推广到独立样本。

利益冲突

没有利益冲突。

承认

这项工作是一个硕士论文的一部分伊玛尼Yosefian已颁发科曼地毯大学医学科学。

Kleinbaum d·G。 克莱因 M。 生存分析 2012年 纽约,纽约,美国 施普林格 10.1007 / 978-1-4419-6646-9 MR2882858 Radespiel-Troger M。 Rabenstein T。 施耐德 h·T。 Lausen B。 比较基于树的生存预后分层数据的方法 人工智能在医学上 2003年 28 3 323年 341年 10.1016 / s0933 - 3657 (03) 00060 - 5 2 - s2.0 - 0042069898 巴纳吉 M。 乔治 J。 首歌 e . Y。 罗伊 一个。 Hryniuk W。 为乳腺癌预测基于树模型 临床肿瘤学杂志 2004年 22 13 2567年 2575年 10.1200 / JCO.2004.11.141 2 - s2.0 - 4344683673 Breiman l 弗里德曼 j . H。 石头 c·J。 Olshen r。 分类和回归树 1984年 纽约,纽约,美国 沃兹沃思 MR726392 戈登 l Olshen r。 树形结构生存分析 癌症治疗的报道 1985年 69年 10 1065年 1068年 2 - s2.0 - 0021875130 勒布朗 M。 克罗利 J。 相对风险审查生存数据的树 生物识别技术 1992年 48 2 411年 425年 10.2307 / 2532300 2 - s2.0 - 0026770594 勒布朗 M。 克罗利 J。 生存的树木善良的分裂 美国统计协会杂志》上 1993年 88年 422年 457年 467年 10.1080 / 01621459.1993.10476296 MR1224370 西格尔 m·R。 审查数据的回归树 生物识别技术 1988年 44 1 35 47 10.2307 / 2531894 2 - s2.0 - 0023942063 Heagerty p . J。 广告 T。 佩佩 m . S。 对审查的生存时间ROC曲线数据和诊断标记 生物识别技术 2000年 56 2 337年 344年 10.1111 / j.0006 - 341 x.2000.00337.x ZBL1060.62622 2 - s2.0 - 0033936550 Mogensen 美国B。 Ishwaran H。 盖尔特 t。 评估生存分析使用的随机森林预测误差曲线 杂志的统计软件 2012年 50 11 10.18637 / jss.v050.i11 Z.-H。 整体方法:基础和算法 2012年 美国佛罗里达州波卡拉顿 查普曼&大厅/ CRC MR3184068 Breiman l 启发式模型选择的不稳定和稳定 统计年报 1996年 24 6 2350年 2383年 10.1214 /市场/ 1032181158 MR1425957 Breiman l 装袋预测 机器学习 1996年 24 2 123年 140年 ZBL0858.68080 2 - s2.0 - 0030211964 Hothorn T。 Lausen B。 Benner 一个。 Radespiel-Troger M。 装袋生存的树木 医学统计 2004年 23 1 77年 91年 10.1002 / sim.1593 2 - s2.0 - 0346656880 Ishwaran H。 Kogalur 美国B。 百仕通 大肠。 劳尔 m . S。 随机生存的森林 应用统计学的史册 2008年 2 3 841年 860年 10.1214 / 08-aoas169 MR2516796 ZBL1149.62331 2 - s2.0 - 57449111248 Ishwaran H。 百仕通 e . H。 Apperson-Hansen C。 大米 t·W。 癌症的分期的新方法:应用程序食道癌 生物统计学 2009年 10 4 603年 620年 10.1093 /生物统计学/ kxp016 2 - s2.0 - 74349113853 盖尔特 t。 舒马赫 M。 一致的估计预期的荆棘分数一般生存模型与right-censored事件时间 生物统计学杂志》 2006年 48 6 1029年 1040年 10.1002 / bimj.200610301 MR2312613 2 - s2.0 - 33846223169 伯爵 E。 Schmoor C。 Sauerbrei W。 舒马赫 M。 评估和比较的预后生存数据的分类方案 医学统计 1999年 18 17 - 18 2529年 2545年 2 - s2.0 - 0033619170 奥斯丁 p C。 d S。 Steyerberg e·W。 j . V。 回归树预测心血管疾病患者死亡率:通过使用ensemble-based方法改进是什么? 生物统计学杂志》 2012年 54 5 657年 673年 10.1002 / bimj.201100251 MR2967766 2 - s2.0 - 84865535937 Opitz D。 Maclin R。 流行乐团方法:一个实证研究 人工智能研究杂志》上 1999年 11 169年 198年 2 - s2.0 - 0000551189 Walschaerts M。 惊艳 E。 贝斯 P。 稳定的变量选择正确审查数据:比较的方法 http://arxiv.org/abs/1203.4928 Bou-Hamad 我。 Larocque D。 Ben-Ameur H。 回顾生存的树木 统计调查 2011年 5 44 71年 10.1214 / 09-ss047 MR3018509 ZBL1274.62648 2 - s2.0 - 84857308440