使用广义可加模型分析心脏移植的生存数据

文摘

斯坦福心脏移植数据收集模式生存的病人使用惩罚的反是平滑样条函数值变化的研究。本研究的基本思想是使用逻辑回归模型和广义加性模型样条函数来估计生存函数。我们模型的生存时间的函数患者和移植反是地位和比较结果使用平滑样条,部分物流,Cox比例风险,分段指数模型。

1。介绍

Cox比例风险模型提出了基于生存和病人之间的关系特征观察到当病人进入研究[1]。当协变量的值改变的研究,然而,许多理论问题对基线生存函数和基线累积风险函数需要解决(2]。几种预测模型(3- - - - - -6)成为一样广泛应用Cox比例风险模型分析协变量的生存数据有时间。本研究探讨了非线性协变量的演化的影响随着时间的推移使用惩罚平滑样条函数。

Cox比例风险模型假设的风险是两个组件的产品: 在哪里是一个向量的系数。比例风险假设是基线风险是一个函数的但不涉及协变量的值。几个心脏移植存活预后模型已经开发使用Cox回归分析的数据,和协变量的值是决定患者进入研究时(7- - - - - -9]。然而,情况可能存在的协变量的值改变的研究。时间依赖模型使用后续数据来估计协变量的演化的影响。相对风险然后取决于时间,因此比例风险假设不再满意(6,10]。

协变量的时间为病人提供了没有。,在那里的中点是吗时间间隔。考虑到连续幸存者时间,分段模型来自于时间轴的分区为杂乱的间隔。Biganzoli et al。11,12]表明,治疗的时间间隔作为前馈神经网络的输入变量,可以估计平滑离散危害的条件概率失败。应用广义相加模型(GAM),离散化的一个月或一周的时间间隔必须申请连续幸存者和协变量进行量化。但是我们不能确定离散化,一个月或一周,应该应用;即离散化最初并不是独一无二的。协变量的时间,最初确定的中点吗患者没有时间间隔。。这是相当简单的扩展模型幸存者协变量随时间变化的数据。此外,关于GAM作为扩展的部分物流模型(PLM),可以估计未知参数局部最大化对数似[13,14]。

我们使用斯坦福心脏移植数据收集模型生存的病人。尽管Cox比例风险模型并不适用于时间的情况下,幸存者函数可以被估计在(1)分段指数风险。克罗利和胡7),Aitkin et al。8),和无法无天的9]利用分段指数模型,绘制生存函数。Lagakos [15协变量)还研究了图形技术评估Cox比例风险模型的基于置换的观察统计排名。大多数以前的研究比较了风险函数来评估的影响在生存通过合适的移植前和移植的数据分别具有重要的意义。

困难在于没有轻松使用的移植和nontransplanted组之间的差别。推理必须基于估计函数的比较。作为Aitkin et al。8)指出的那样,总有危险在推断治疗没有足够的控制组织的影响。我们提供一个分析,包括移植前和数据同时作为协变量时间具有重要的意义。应该强调,并不构成移植对照组的患者相对于病人在接受心脏移植的协变量相同。

我们使用1977版本的数据,在克罗利和胡7),103名患者。作为移植病人的四个不完整的数据不匹配分数,我们的分析是基于99名患者评估这些协变量的值,如果有的话,移植可能会延长生存。超过30%的病例是审查。在这些数据中,生存时间的天数,直到心脏移植后死亡,如Lagakos [15]。独特的特点,目前的问题是,一些则反是时间(也可能是随机的)。例如,表1显示了移植状态(即协变量的值。,waiting time), age at transplant (in years), mismatch score (as time-dependent covariates), and previous open-heart surgery for patient no. 18. The previous surgery status does not change with time. In order to extend this setting, the covariate for transplant status is taken as an indicator (coded as 0 before the point of transplant and 1 after transplant). All the other time-dependent covariates are treated as being zero before transplant but changing from zero to the actual value of the particular covariate at the time of transplant. Patient no. 18 generated six observations. The proposed methods allow for simultaneous investigation of several covariates and provide estimates of the survival function as well as the significance.


时间间隔	中点(天)	移植状态	年龄移植(年)	不匹配分数	以前的手术

1	3.5	0	0	0	0
2	10.5	0	0	0	0
3	17.5	1	56	2.05	0
4	24.5	1	56	2.05	0
5	31.5	1	56	2.05	0
6	38.5	1	56	2.05	0

2。广义可加模型

通过扩展的PLM分组数据基于部分可能是由考克斯(16)和埃夫隆(17),可以提出了PLM未归类数据(13,14协变量)在时间离散的故障率病人没有。在时间间隔: 近年来,各种强大的技术已经发展为探索影响的函数形式。提出的,GAM平滑样条函数Hastie et al。18,19)将使用扩展广义线性模型(GLM) McCullagh和Nelder [20.),线性预测(2)被指定为一个光滑函数的和两次连续可微的函数的协变量的部分或全部:

光滑函数(3)可以表示为在哪里结的数量,

时间间隔病人没有。,我们有以下定义: 在哪里是违约的历史审查第一吗没有时间间隔的耐心。和是相同的历史扩展到包括什么。利用上述模型和符号,Tsujitani和Sakon [13派生的所有病人的完整对数似与部分对数似虽然不是一个对数似在通常意义上,它具有相当广泛的条件下通常的渐近性质,证明在Andelsen和吉尔21]。为了避免过度拟合,这样的模型被处罚最大似然估计在哪里平滑参数,控制之间的权衡和平滑度。的函数在(9)所代表的样条基函数;有关详细信息,请参阅,Tsujitani et al。14]。

两个model-fitting问题依然存在。第一个担忧平滑参数的选择在(9)。最优平滑参数的选择是超出了简单的识别协变量的函数形式的适用性以及推理方法建立短期生存的预测。为了选择平滑参数,算法开发的木材(22- - - - - -24)可以通过最小化应用广义交叉验证(GCV)作为一个近似分析的简历(23]。应该指出的是,leaving-one-out简历是允许只有一个观察的删除。另一方面,顺序倍的简历数据随机分为组,这样他们的大小尽可能几乎相等。这种分区应避免可能的偏差,如张(25]。在许多问题,顺序倍的简历,因此,不满意的为协变量时间在几个方面。应用这种简历数据结构的算法,我们获得的见解应该如何进行数据的分区。的自然延伸倍的简历算法通过设置是允许删除几个患者的观察;有关详细信息,请参阅,Tsujitani et al。14]。

第二个问题是模型的拟合优度检验。通过变异后选择最优平滑参数倍的简历算法,异常允许我们测试拟合优度: 在哪里表示最大化当前部分对数似在某些GAM和对数似最大(全部)模型是零。异常(10),然而,即使是大约一个分布的情况下未分组的二进制响应可用;见,例如,Collett [26),后备军人et al。27],和Tsujitani Sakon [13]。自由度的数量所需的测试使用假设的意义分布的异常是一个有争议的问题。没有足够的分布理论存在异常。这样做的原因是有些技术;详情,参见3.8节Collett [2]。因此,拟合模型的异常二进制响应数据不能作为衡量模型的拟合优度的摘要。因此,引导应用于异常(10)为了获得拟合优度;详情,·埃夫隆和Tibshirani28)和Tsujitani et al。14]。

3所示。例子

作为斯坦福大学心脏移植数据的初始模型,我们使用 GCV leaving-one-out简历的只是一个近似值。另外,变体倍的简历是基于每个leaving-one-out简历患者允许删除病人的一些观察。通过使用变体倍的简历和GCV的初始模型,最优平滑参数GAM确定如表所示2。通过使用反向淘汰过程,我们获得似然比(LR)统计基于异常可以计算测试的意义(即样条的影响。、非线性)。例如,“中点的样条的效果“也可以测试通过通过比较与,减少异常的价值1.85。这是重要的在10%的水平。花键效应”的时代”并不重要。我们因此获得最终的最佳GAM 与变体654.754倍的分数。


协变量	变体倍的简历	GCV

中点()
年龄()
不匹配分数()

图1显示了一个引导的直方图为最优模型。引导95百分位数的估计是。比较(10)表明,模型与数据的吻合程度。

图2显示了估计的贡献“中点”2,加上±标准差(SD)最后最优模型四、样条曲线的影响显示在图2。图2很好地表明,样条函数死亡的减少作为最初的中点增加。随后,然而,后保持稳定中点。为了比较,图3显示了估计的贡献GCV。从图3,很明显,估计的是平的,直到1500年,然后因为太小平滑参数(即翻滚。过度拟合),如表所示2。所以变体倍的简历优于GCV。这个例子的分析利用图书馆进行在R。

我们的生存函数离散情况平均存活时间间隔的概率对病人没有。在集团可以被估计为在哪里在时间间隔是病人的总数吗在集团和是生存函数病人没有。在时间间隔在集团;例如,看到Thomsen et al。29日]。

分析了数据发现的协变量的值可能会受益。我们使用的比较结果平滑样条,部分物流,Cox比例风险,分段指数模型(7,8]。拟合的结果总结了各种型号表3。很明显从表3那(我)所有反是强烈显著平滑样条模型(特别是,克罗利和胡7)提出了一个二次)和年龄的影响(2)几乎没有区别Cox比例风险模型和分段指数模型。应该注意的是,模型中的二元共保持线性。


协变量	GAM	部分物流	成比例的风险	分段指数

移植状态()	0.0107	0.0001	0.0076	0.0081
年龄()	0.011	0.0135	0.0190	0.0199
以前的手术()	0.0575	0.0672	0.0830	0.0867

所示Aitkin et al。8,图2),比较是更合适的生存函数如果危害并不成比例。感兴趣的一点是比较移植和nontransplanted病人的生存经验。我们的建议比较生存函数是使用估计生存函数只有41心脏移植患者死亡评估移植的疗效和协变量的影响,通过建模的变化在移植使用风险(15)和(16)。我们特别感兴趣的是等待时间的影响在生存根据几个模型具有重要的意义。在图4,使用两个时间段(组1:20天;组2:超过20天)。图4估计生存函数的显示了一个比较。估计生存函数基于平滑样条建议患者等待时间短的脸更早期的风险比那些较长的等待时间。不过估计生存函数基于分段指数模型不能揭示短期和长等待时间之间的差异。我们的方法提供了一个替代Arjas (10)建议比较独立的累积风险的估计基于等待时间的水平。尽管Arjas [10)不包括等待时间作为协变量Cox比例风险模型由于非线性的问题,我们使用移植状态(即。,等待时间),这是强烈显著平滑样条模型结果显示表所示3。

从根本上不同类型的分析是由克罗利和胡7]调查移植不匹配分数较低的影响。他们指出,移植可能是有益的对年轻病人只有基于回归系数对Cox比例风险模型,但是我们的结论可以通过图形分析以及协变量的检测意义。定义一个低不匹配分数小于或等于一个用于所有29个心脏移植患者(7),图5显示图形的比较两组的生存函数的估计,即年轻的病人(接受不到50岁)和老年患者在接受(大于或等于50)。从图5,很明显,老年患者早期面临更大的风险比年轻患者;详情,克罗利和胡7,第五章)对割点低不匹配分数小于或等于1和年轻的病人不到50岁。Kalbfleish和普伦蒂斯30.4.6.3节]估计年龄的割点,基于65移植病人,为46.2。图6显示一个图形的比较两组的生存函数的估计,即年轻的病人(小于或等于46岁接受)和老年患者在接受(大于46)。Kalbfleish和普伦蒂斯指出,移植有利于年轻病人。

4所示。结论

我们在关注协变量时间。协变量允许不同持续时间的研究不仅使我们能够研究时变风险因素,但也提供了一个灵活的方式建模审查使用惩罚生存数据平滑样条函数。我们说明了程序使用数据斯坦福心脏移植的数据。

最大似然原理引入到联欢,(我)我们可以想象的花键影响中点的时间间隔;(2)平滑参数可以选择使用变体倍的简历;(3)GAM的拟合优度检验基于引导;(iv)估计平均的生存概率使我们调查的影响移植对两组不匹配得分较低,即年轻的和年长的病人。

引用

j·p·克莱因和m . l . Moeschberger生存分析施普林格,纽约,纽约,美国,第二版,2003年版。
d . Collett在医学研究造型的生存数据查普曼和大厅,伦敦,英国,1994年。
p·a·莫塔夫·e·r·迪克森通用货车大坝et al .,“原发性胆汁性肝硬化:短期生存的预测基于病人重复访问,”肝脏病学,20卷,不。1我126 - 134年,1994页。视图:出版商的网站|谷歌学术搜索
e·克里斯滕森p是p . k .安徒生et al .,“更新与考克斯在肝硬化预后和疗效评价的多元回归模型对时间变量,“斯堪的纳维亚胃肠病学杂志》上21卷,第174 - 163页,1986年。视图:谷歌学术搜索
e·克里斯坦森·d·g·奥特曼,j . Neuberger et al .,“更新预测原发性胆汁性肝硬化使用时间Cox回归模型,”胃肠病学,卷105,不。6,1865 - 1876年,1993页。视图:谷歌学术搜索
d·g·奥尔特曼和b . l . de Stavola“实际问题的比例风险模型与协变量的更新测量数据,”医学统计,13卷,不。4、301 - 341年,1994页。视图:谷歌学术搜索
克劳利和m .胡“心脏移植生存数据的协方差分析,美国统计协会杂志》上卷。72年,27-36,1977页。视图:谷歌学术搜索
m . Aitkin: Laird,弗朗西斯,”斯坦福大学心脏移植数据的再分析,”美国统计协会杂志》上卷,78年,第292 - 264页,1983年。视图:谷歌学术搜索
j . f .无法无天寿命数据的统计模型和方法约翰·威利,纽约,纽约,美国,第二版,2003年版。
e . Arjas“图解法来评估在Cox比例风险模型的拟合优度,”美国统计协会杂志》上卷,83年,第212 - 204页,1988年。视图:谷歌学术搜索
e . Biganzoli p . Boracchi l·马里安尼,e . Marubini“前馈神经网络审查的生存数据分析:部分物流方法,”医学统计,17卷,第1186 - 1169页,1998年。视图:谷歌学术搜索
e . Biganzoli p Boracchi,大肠Marubini”一般的神经网络模型框架审查生存数据,”神经网络,15卷,不。2、209 - 218年,2002页。视图:出版商的网站|谷歌学术搜索
m . Tsujitani和m . Sakon协变量的生存数据分析有时间。”IEEE神经网络,20卷,不。3、389 - 394年,2009页。视图:出版商的网站|谷歌学术搜索
田中m . Tsujitani y、m . Sakon”生存数据分析使用广义可加模型协变量随时间变化,“计算和数学方法在医学ID 986176条,卷。2012年,9页,2012。视图:出版商的网站|谷歌学术搜索
s . w . Lagakos”图形评估比例风险回归模型的解释变量”生物统计学,卷68,不。1,第98 - 93页,1981。视图:出版商的网站|谷歌学术搜索
d·r·考克斯”部分的可能性,“生物统计学,卷62,不。2、269 - 276年,1975页。视图:谷歌学术搜索
b·埃夫隆”,逻辑回归,生存分析,kaplan meier曲线,“美国统计协会杂志》上卷,83年,第425 - 414页,1988年。视图:谷歌学术搜索
t . j . Hastie和r . j . Tibshirani广义可加模型查普曼和大厅,伦敦,英国,1990年。
t . j . Hastie r . j . Tibshirani和j·弗里德曼,统计学习的元素:数据挖掘、推理和预测施普林格,纽约,纽约,美国,2001年。
p . McCullagh和j·a . Nelder广义线性模型查普曼和大厅,伦敦,英国,第二版,1989年版。
p . k . Andelsen和r·d·吉尔,”Cox回归模型的计算过程:大样本研究中,“统计年鉴,10卷,第1120 - 1100页,1982年。视图:谷歌学术搜索
木材、稳定和高效的多个平滑广义可加模型的参数估计,“美国统计协会杂志》上,卷99,不。467年,第686 - 673页,2004年。视图:出版商的网站|谷歌学术搜索
木材、广义可加模型:介绍R查普曼和大厅,伦敦,英国,2006年。
木材、“快速稳定直接拟合广义可加模型和平滑度的选择,”英国皇家统计学会杂志》上,卷70,不。3、495 - 518年,2008页。视图:出版商的网站|谷歌学术搜索
张平,“通过多种的交叉验证,模型选择”统计年鉴21卷,第313 - 299页,1993年。视图:谷歌学术搜索
d . Collett造型二进制数据查普曼和大厅,伦敦,英国,第二版,2003年版。
j . m .后备军人,d . Pregibon和a·c·鞋匠,“图形方法评估逻辑回归模型,”美国统计协会杂志》上卷,79年,第71 - 61页,1984年。视图:谷歌学术搜索
b·埃夫隆和r . j . Tibshirani介绍了引导查普曼和大厅,纽约,纽约,美国,1993年。
b·l·汤姆森,n . Keiding和d·g·奥特曼”注意计算的预期生存,说明了肝脏移植患者的生存,”医学统计,10卷,不。5,733 - 738年,1991页。视图:谷歌学术搜索
j·d·Kalbfleisch和r·l·普伦蒂斯失效时间数据的统计分析约翰·威利,纽约,纽约,美国,第二版,2002年版。

计算和数学方法在医学

文摘

1。介绍

2。广义可加模型

3所示。例子

4所示。结论

引用

版权

更多相关文章

相关文章