分类和回归树聚合数据建模:一个应用程序在急性心肌梗塞

文摘

心脏病学家感兴趣决定医院通路的类型病人的生存预测紧随其后。这项研究的目的是确定是否占医院通路的选择一年期的生存预后因素后急性心肌梗塞(AMI)提供了更丰富的分析比通过使用一个标准的回归树分析(CART方法)。AMI的信息收集1095年住院患者在18个月期间。建设途径之后,病人产生symbolic-valued观测需要符号回归树分析。分析与标准车使用患者作为统计分析单位所描述的标准数据选择TIMI分数作为主要的预测变量。1011(84年,职责。)低(高)患者TIMI得分,路径变量才出现作为诊断变量第三(第二个)阶段的树结构。对于生态分析,再次TIMI分数是第一个预测变量。然而,在一个象征性的回归树分析使用医院通路作为统计单位,路径跟踪是关键预测变量的类型,特别是显示途径涉及早期心脏病单位录取了为期一年的存活率高。

1。介绍

住院死亡率的预测变量后急性心肌梗死(AMI)研究了多年,包括年龄(1在入学),疾病的严重程度(2),早期历史的AMI,冠状动脉疾病的家族史(3),和并发症,如超重(4,5)、糖尿病(6- - - - - -8],系统性高血压[9),和血脂异常10]。作为这些临床变量的一部分,之间的时间发生的第一症状和进入重症监护病房(ICU)或成心脏病单位代表另一个非常知名的行列式住院死亡率心肌梗塞(MI)后,由于这是一个测量速度的治疗和护理(11]。众所周知,AMI的严重性在招生管理保健的过程尤其是决定(s)将病人一个重症监护病房或心脏病。早期的研究如(12- - - - - -14)由心脏病专家建议患者最好比被noncardiologists存活率。在[15),而不是治疗心脏病,关注进入一个心脏病单位。

因此,自然的心脏病学家和其他临床研究人员越来越感兴趣的角色和影响途径,后跟一个病人与生存相关的潜在因素,考虑其他预后因素的影响。医院通路在此过程定义为颞后覆盖所有住院在同一个医院和跨多个医疗机构。一个简单的途径就是一个病人承认,例如,心脏病学单元然后出院或更复杂的途径是当病人入院后一个重症监护病房(ICU)后来搬到一个心脏病单元在同一或另一个医院。有许多可能的途径包括心脏病患者进出和noncardiology单位不一定在同一机构。

结果,其目的是不仅要考虑病人的入院的影响直接进入一个心脏病单元相比,进入一个非专门化的医院单位那样(15),但也考虑到病人的治疗途径的复杂性的AMI跨多个医院和多个单位。我们有两个问题:如何复杂的途径被认为是在分析,和这些途径对预后的影响是什么?

不幸的是,标准分析通路类型是协变量在模型中是有问题的,因为路径本身可能不仅影响结果还取决于患者的某些特征与生存相关。因此,通路类型是部分中介变量对其他预后因素。如果是这样,那么调整这些途径的其他因素,反之亦然,是有问题的,可能偏见的结果。

为了避免这些问题,另一种方法是将“个人”数据分析的生态比较组的患者,患者遵循同样的路径形成一组。事实上,这种方法考虑数据的层次结构(例如,病人在同一医院住院并遵循同样的路径可能共享相同的社会人口特征如居住地和临床特点,如疾病的严重程度)。因此,而不是试图估计这些其他因素调整的途径的影响,患者的生态分析将调查特点遵循同样的路径与更好的存活率。

这带来了两个问题。首先,它往往是很难分析大量的形式尤其是多层次分析。第二,这些通路的分析需要聚合的患者遵循给定的路径。标准的生态分析这些聚合数据取代单个数据值组级别聚合值,通常连续变量的平均值或二进制变量的值成比例。这些值反映集中趋势,忽略变化在那些由集团或途径。然而,忽视这种变化在个人预测的值在同一组诱导系统性偏差;见,例如,(16- - - - - -19]。

所谓符号分析方法提供了一种替代方法来分析分组数据。与标准生态分析,象征性的分析不仅考虑集中趋势也分组内的个体的内部变化数据。这是通过保留所有的聚合信息,例如,列表、间隔或histogram-valued数据,而不是取代个人价值观的一个集中趋势值;参见2.3象征性的描述数据。可以显示的总变异(说)区间值数据等于总和之间的间隔变化和内间隔变化(20.]。因此,生态分析使用集中趋势在观察变化,所以忽略了基础观测之间的结果(即。,只组)的变化。这显然信息丢失对分析结果的影响。已经有人尝试去克服这个代替观察到区间值的端点值;获得的结果不满意,往往反映在使用集中趋势值。在这两种情况下,内部的变化数据没有观察到,也用于生态或标准分析。

本研究的目的是为了说明潜在的新见解,可以通过一个象征性分析医院的作用通路的生存患者急性心肌梗塞后一年。为此,我们传统的古典车的比较结果(分类和回归树,21)分析个别病人和生态途径集中趋势值,和象征价值的途径使用象征性的版本的经典车方法。这种象征性的车方法的一个特征是,当观测是古典价值观,古典车结果出来的一个特例象征性的车。节简要描述的方法3结果的部分4。

2。数据

2.1。病人

研究人口由1095例心肌梗塞(AMI)住院医疗机构:6点第戎的教学医院,一家私人医院位于郊区的第戎(方丹家)和4个公共当地医院(博纳,Chatillon, Montbard和Semur)在18个月(从2001年6月,12月,2002)在法国的行政区域Cote d’or。一个医院的心脏病学有三个不同的单位,而其他人则有一个这样的单位,患者可能会承认。这些患者被确定通过法国注册Cote d’or AMI的所有AMI病例住院在公共或私人医院在这方面记录。

病人特点来自这个法国注册表也包含对病人治疗和结果信息。这些临床数据与卫生行政数据库在每个医院为了收集信息住院使用法国诊断相关组(drg)信息系统22]。这个系统描述了医院活动记录为每个病人保持放电抽象。

2.2。变量的描述

从218年测量记录每个病人,11个变量对目前的研究被选为重要。这些都是性别(性别:女,男);病人有经验的急性心肌梗塞或心绞痛(心绞痛:是的,没有);他/她有吸烟史(吸烟者:是的,没有);有冠状动脉疾病的家族史,心肌梗死和心绞痛(遗传:是的,没有);在之前的心肌梗死患者经历了(之前AMI:是的,没有);是病人糖尿病(糖尿病:是的,没有);病人被治疗系统性动脉高血压(动脉高血压:是的,没有);病人有血脂异常和治疗hypercholesterol(胆固醇治疗:是的,没有);病人体会到急性心肌梗死有或没有ST段偏移(ST段:是的,没有); severity of disease at admission, that is, thrombolysis in myocardial infarction (TIMI) score (TIMI: 0,14)。TIMI危险评分加权整数的分数是基于8临床风险指标,可以很容易地确定在[表示(参见表123])。对于每一个病人,计算分数的算术总和为每个风险点特性。注意,肥胖本身并不是视为一个单独的变量作为体重超标的措施纳入TIMI得分同样的年龄。

第十一个变量,称为“专家类”(专家:1、8)在入学有关医疗保健的类型;参见2.3。这个概念是本研究的重点。也选为解释变量的回归树分析是否在入院病人存活至少一年。总结在表提供了这些变量1(一)。


(一)变量			(b)的途径
	描述	类别	观察

	性别
	心绞痛
	吸烟者
	遗传
	AMI前
	糖尿病
	动脉高血压
	胆固醇
	圣偏差
	TIMI得分
	专家类

	一年幸存下来

答:解释变量。

2.3。医院的途径

病人医院通路被定义为时间过程涵盖所有住院在同一个医院和跨多个医疗机构使用出院小结;也就是说,它是病人遵循的顺序。例如,病人可以直接住院8的重症监护病房(ICU)的心脏病Cote d’or。然而,一些患者可能在另一个住院医疗单位,如老年或神经被照顾在心脏病学单元之前,只要AMI诊断没有系统地评估病人的入院。此外,医院之间的转移可能需要为了执行血管再生等补充调查。

两种可能的途径是描绘在图的例子1。患者1被直接进入第戎教学医院的心脏病重症监护室在发布之前(回家)。病人2被老年单元Semur医院和搬到Semur重症监护室;这个病人被转移到第戎教学医院首次心脏病的心脏病重症监护室,后来单位和随后被释放,送回家。

识别不同类型的途径,我们开始订购第一医院单位根据其招生发生的频率。然后,每个单位的医院,我们添加了第二个医院单位病人被转移,和我们下令所有生成的路径的频率等等(三元组,成倍增加,等等),只要“元组”频率仍高于给定阈值。出现的路径被称为“强模式”途径。这些都是描述在表2。还显示病人的数量每种类型的途径,以及许多不同的路径匹配该模式描述。医院通路是基于三种类型的信息:医疗机构的类型,类型的医院单位,进入单位的顺序。


模式	专家	描述	通路		病人

	类		#	%	#	%

1	1	单一单元:UF1 *:心脏病	8	3.9	403年	36.8
2	2	单一单元:UF1:没有心脏病	2	1.0	2	0.2
3	3	传输:单一医院,公寓楼UF1:心脏病,UF2 * *:没有心脏病	10	4所示。9	14	1.3
4	3	传输:单一医院,公寓楼UF1:心脏病,UF2:心脏病	48	23.5	427年	39.0
5	4	传输:单一医院,公寓楼UF1:没有心脏病,UF2:没有心脏病	5	2.5	5	0.4
6	5	传输:单一医院,公寓楼UF1:没有心脏病,UF2:心脏病	32	15.7	43	3.9
7	6	传输:多医院,公寓楼UF1:心脏病,UF2:没有心脏病	2	1.0	3	0.3
8	7	传输:多医院,公寓楼UF1:心脏病,UF2:心脏病	78年	38.2	177年	16.2
9	8	传输:多医院,公寓楼UF1:没有心脏病,UF2:没有心脏病	1	0.5	1	0.1
10	8	传输:多医院,公寓楼UF1:没有心脏病,UF2:心脏病	18	8.8	20.	1.8

* UF1:第一医院单位* * UF2:第二医院单位。

每个病人的途径。有研究中的1095名患者不同的通路。这些通路掉进十通路模式之一;见表2。因此,模式1标识204的路径是这样一个病人被心脏病单元在一个出院了,回家;例如,第戎医院心脏病患者(如1图1)。这种模式占403的病人。另一方面,如果一个病人花时间在一个以上的机构,考入noncardiology最终进入心脏病之前单位(例如,病人2的图1),然后10模式有关。个别病人的聚合值通过途径必然地产生符号数据。

因为这个路径变量只考虑医院单位的类型和病人的转移的时间顺序,介绍了医疗机构在招生的类型作为另一个协变量(称为专家类)的分析。

2.4。符号数据

符号数据方法扩展了标准经典分类或数值变量的情况下,变量的值可能会间隔,直方图,分类值的列表,等等。这些类型的变量值出现时我们总观察测量病人在同一个通路之间的临床信息。为了说明这一点,考虑的观察表3为每个病人,第一医院单位确定他们承认,假设年记录的年龄和吸烟史记录的不,光,烟瘾大的人。当利益的重点是承认医院而不是个别病人本身,统计单位现在医院。因此,当我们聚集在那些医院的病人承认,我们获得(经典的数据表3),符号表的数据4。因此,变量年龄已观察到的区间值为医院1和为医院2。传统价值观是特殊情况;例如,对于医院3、年龄区间。吸烟史的变量实现医院1,上面写着是光和75%是重度吸烟者25%。这个变量是modal-valued分类变量。直言象征性的实现是可能的(离散)值列表。当没有附加重量,它假定上市结果是等可能的。区间值实现假定采取特定的值是均匀地分布在各个区间。


病人	医院	年龄	吸烟者

Patient1	医院1	74年	重
受事2	医院1	78年	光
Patient3	医院2	69年	没有
Patient4	医院2	73年	重
Patient5	医院2	80年	光
Patient6	医院1	70年	重
Patient7	医院1	82年	重
Patient8	医院3	76年	没有


医院	年龄	吸烟者

医院1
医院2
医院3

有时,因为潜在的条件,它似乎可以是矩形的观察更准确地超立方体。例如,假设两个随机变量和值的间隔和,分别。然后,观测值是矩形。然而,假设(如,例如,当收缩压大于舒张压)。在这种情况下,值在三角形的顶点和是不可能的。因此,有效的观测空间超立方体的顶点,。

一般来说,数据集变得symbolic-valued聚合后更大的数据集古典或符号价值的观察。多种形式的聚合可以申请任何一个数据集,实际的聚合(s)采用受背后的科学问题研究本身。例如,保险公司(其数据库跑到数以百万计的个人记录)不太感兴趣的一个特定的人的两院版本使用比感兴趣的模式四十年前的女性(说)或六十岁心脏受害者,等等。

使用标准方法产生的符号数据将是不够的。例如,假设一个人的体重W区间波动在英镑和另一个人的体重范围。当我们把古典的中点(或者更普遍的是,一个集中趋势测量),这里163的和,我们将获得相同的结果。然而,这些观察不同的价值和任何分析应该反映这些差异。因此,分析第一区间的中点忽略了信息第二是内部变量小于(与内部的变化3和12,职责)。符号分析技术考虑这些内部的变化。

在一个不同的方向,象征性的数据可以用来维护数据机密性。例如,而不是,可以记录的值(与),例如,。在当前应用程序中,我们替换的描述每个病人描述的途径;因此,难以识别病人在一个给定的路径。

一些测量本质上是不精确或模糊。而不是试图采取一个措施,如均值作为代理的测量,实际值的范围在一个特定的时间段可以保留作为一个区间值数据(或者histogram-valued,或其他合适的symbolic-valued变量)。例如,[24)(连同其他几个研究人员等(25])讨论如何收缩压水平及其在中风和随时间变化的一个重要方面是多么困难获得一个精确的单一测量由于其高度可变尤其是本质。研究[24)继续描述研究者可以误导如果左心室肥大是收缩压作为标记。例如,相反,如果所有收缩测量时间聚合,然后象征性价值观察。在某些情况下(例如,吸烟水平,其他社会和教育措施;见,例如,(26]),周围的残余混杂问题(但不一定混杂本身)是极其(见,例如,27])。

在当前的研究的背景下,科学问题围绕着路径(或模式)遇到心脏病患者,而不是任何一个病人本身。某些途径或多或少可能预测生存;某些预测变量更能反映特定的路径跟踪,等等?表的例子3和4代表的途径,但一步,承认医院。在实际的研究中,路径是前面所述的那些;见表2。观察到的实现结果和预测变量是有关个体病人的观测值时,共同构成通路,是谁聚合。这些结果的观察一定象征性价值被列出,区间值,和/或modal-valued合适。表1(b)给出了结果这样一个途径。符号数据的更广泛的审查,请参阅[28- - - - - -30.]。

3所示。方法

为了选择与一年期生存相关的潜在协变量,我们使用购物车方法(21]。这种非参数方法很有趣当协变量的类型或性质的候选人是非常重要的。如何适用于标准的经典设定当单位是个体病人描述的部分3.1。单位是通路时,有两种方法。首先,生态路径值可以作为部分中描述3.2。经典车的适应方法途径的符号数据部分中讨论3.3。

3.1。回归树分析(古典车方法)的病人

探讨AMI后为期一年的死亡率的潜在决定因素,我们首先使用通常的分类和回归树(CART)方法(21]在1095个人病人自己(以比较这些结果与对应的结果基于路径)。手推车使用回归分析技术,以找到一个最佳的分类解释给定分类变量之间的关系。预测/回归变量(如体重、TIMI分数,和抽烟,等等)是用来通知分析师应该如何构造分类树。这现在是一个成熟的技术,已经广泛应用于各种各样的统计设置。最近使用购物车心脏病患者在医院环境中可以找到,例如,(21,22,31日),和癌症32]。

3.2。回归树分析(生态车方法)通路

然而,重点是通路为统计单位。注意,任何特定的通道有一个或多个个体患者遵循相同的途径。对于生态分析,集中趋势值的值在每个通路作为每个变量的“观察”。然后,标准的古典车方法如上所述运行使用这些“观察”的价值观。在我们的研究中,平均值计算,因此,购物车方法应用于204年的途径。

3.3。回归树分析(象征性的购物车方法)通路

而不是以一个集中趋势值为生态分析,路径的值被保留为符号列表或间隔等观测;参见2.3。因为一个“观察”的途径一般是超立方体维空间,而不是点维空间的标准/经典数据关联到一个病人,一个所谓的象征性的购物车的分析是必需的。这是通过结合符号回归分析的概念(见,例如,33- - - - - -35购物车])的基本思想方法(21)如下。

古典车方法和符号回归树分析是基于一个分裂的自上而下的分类树方法,限制递归二分分区,到一个合适的停车规则防止进一步分裂。二进制变量引起的分区是这意味着最好的二元分裂变量对于一个给定的标准。购物车使用的标准方法是一种歧视的标准衡量一个节点的杂质关于之前的分区()。像经典车,歧视则用于象征性的购物车基尼措施。基尼衡量节点的杂质为测量值为零,当只有一个类是出席一个节点。从班级规模与先验估计,计算基尼系数衡量的和产品的所有成对的类类出席了节点的比例;它达到最大值时,班级规模在节点是相等的。因此,以下Breiman et al。21), 与= ,=卡(),卡(N)的经典案例。在象征性的情况下,=数量的个体属于验证当前的描述同时属于和属于个人的总数。规范化,我们乘在哪里是之前的数量;然后它位于区间。

构建树,我们分区节点为两个节点。这个想法是为了发现节点和分区,最大化的减少总变异。也就是说,我们想最大化如果变量是成套的分区变量变量,那么减少一点,说。模态多值数据(在我们的数据集),我们发现这个如下。假设一组可能的定值是,。然后,一个特定的观察需要的值为,在那里观察节点的数量吗和的概率是(或相对频率)kth类别发生的jth变量的uth观察,。(当一个特定的类别不发生,其概率为零。)为每一个反过来,从最小到最大是有序的。然后,减少点,的类别的概率是在哪里不同值的数量吗。同样,对类别和有概率命令从最小到最大,然后对类别之间的潜在的减少点的意思是这些概率对。同样,在套三,四,等等,类别并下令。然后基于这些考虑所有可能的分区方法可能减少点发现分区最大化(3.2)。

执行的方法是STREE(符号回归树)算法。算法包括增加、装袋和交叉验证组件。给出了一个简单的例子说明这种方法在36]。在[36),比较经典的购物车和STREE学习和测试数据集(在各种场景中)表明,STREE误分类率远远低于车。注意,当所有的输入变量有古典点值(例如,经典等于符号),购物车STREE方法是一样的方法。

在这里,我们回归树方法适用于整个人口在两个方面(视为一个类)。首先我们指的是古典回归树的情况下,单位是患者所描述的(经典)数值或分类临床变量(如由CART算法)。在第二种情况下,我们运用符号回归树方法在单位是symbolic-valued变量描述的途径。

4所示。结果

4.1。描述的途径

管理数据库的挖掘频繁序列模式识别204种不同医院通路其次是1095例。然而,14通路是紧随其后的是73%以上的患者。大多数的相同事件的AMI患者住院至少两个不同的单位(646名患者。研究人口的59%)。患者在医院,三个或三个以上单位实际上从当地医院转移到三级医院水平如第戎的教学医院或私人医院医疗机构倩碧铺满。一步变量代表了病人的入院的时间顺序定义的对:医院单位×医疗机构在给定的时间。这些途径确认表十模式之一2。

有八个专家类被心脏病专家,以及他们如何匹配模式如表所示2。在经典的分析中,这些模式/类被认为作为协变量的形式,专家类。在具有象征意义的分析,这些模式为每个8专家类symbolic-valued实现。

4.2。回归树分析1095例

经典的回归树分析1095例产生的分层树如图2。最重要的因素是TIMI分数截断值为7.5。关于患者TIMI≥7.5,专家类是下一个重要的因素,而对于其他人,第二减少由TIMI再次得分,但一个阈值为3.5。510年3.5≤患者TIMI≤7.5,进一步的重要变量,分别是否这些患者治疗高胆固醇,和有一个世袭的组件。专家类是第三个重要因素对患者TIMI < 3.5。大多数患者TIMI≥7.5 (N2)最糟糕的存活率()。尽管TIMI主要的重要的因素,途径,然而,扮演一个角色:在第二个削减为少数人(84)的病人来说,TIMI≥7.5和在第三个将分离出25个病人去noncardiology单位录取。

4.3。204年生态分析途径

车分析204年“的意思是”值的途径,也就是所谓的生态分析,生成树如图3。至于分析个别病人,TIMI分数是最重要的预测变量的生存:TIMI分数更高(N1)对应于最贫穷的存活率()而TIMI最低(N7)与一个完美的生存()。然而,专家类这一次中间第二个预测变量路径TIMI。关于这些途径,最大的存活率(在陶瓷和N3)专家类达到7,也就是说,病人都承认在心脏病学和转移到心脏。

病人在专家类8(通路患者第一次去noncardiology单元)的存活率为79.4%(终端节点N2)。进一步削减然后发生专家类7,与遗传有关,存活率较低()在高概率的遗传(N3)而不是低遗传途径(陶瓷,)。降低专家类路径,下一个变量是性别,男性比例更高的(它们)拥有一个低存活率为56.7%,而女性(N6)有一个更好的,但仍相对贫穷的存活率为67.1%。

4.4。符号分析204通路

204通路上的符号分析所描述的符号值,产生了图中所示的分类树4。途径是最重要的预后因子,变量专家类(等于7)成为第一个差别因素。专家类7与通路的第一和第二单位是心脏病单位虽然它在多个医院。77通道都来自专家类7 (N1 N7)有一个为期一年的存活率高91.9%,而127年的途径只包含心脏病的概率小于0.69单位整体存活率为76.7%。因此,在一开始,通路/类范畴不仅是重要的,这一分析识别的重要性当经历心脏病发作心脏病单位录取。

关于通路与专家类7,而整体存活率是91.9%,我们观察到节点N2和N3)有很高的存活率为95.4%和100%,分别。除了占主导地位的途径进入心脏病单位,这些也有低的概率心脏病家族史(第二切)。相反,它们生存在节点仅为38.9%;然而,这个数字很小(只有9通路和16个病人)。

虽然路径概率较低的“专家类7”有一个整体存活率为76.7%和终端节点的存活率在29.2%到85.1%之间。这里最好的率85.1%发生在节点N13,大多数通路始于心脏病单位但人数相对较少。

注意在古典分析个别病人形成强烈的反差,TIMI分数作为一个识别变量没有出现,直到第四砍树建设阶段。此外,节点N6由高概率的确定TIMI分数低,存活率最低的这一部分树;然而,非常小的数字。实际上,在一起四个TIMI节点(N6、N7 N11和N12)仅占68名(6.2%)患者。

进一步分支(没有显示在图4)提供有益的结果。在这种情况下,识别变量要么是TIMI得分,或高血压,hypercholesterol水平,圣海拔和糖尿病,介于TIMI得分。数字还低,加剧尝试分析和解释在这个级别。

表5提供了详细的分解途径的数量在每个专家类的每个终端节点获得的象征性分析这204通路。也给出了相应数量的病人。因此,我们看到的,例如,在22节点N2, 28通路包括47的54个病人第一次去一个心脏病单元(专家类:1、3、6)和5 6例(专家类5)组成的途径后被转移到一个心脏病单位首先进入一个noncardiology单位。只有一个途径的一个病人去noncardiology单元(专家类2)在出院之前。这个节点的存活率是95.4%。


	数量的途径									的患者数量

	专家类									专家类
节点	1	2	3	4	5	6	7	8	总	1	2	3	4	5	6	7	8	总

N1	·	·	1	·	·	2	·	·	3	·	·	1	·	·	2	·	·	3
N2	2	1	2	。	5	18	·	·	28	3	1	2	·	6	42	·	·	54
N3	1	2	1	·	·	14	·	·	18	9	8	20.	·	·	38	·	·	75年
陶瓷	·	·	·	·	·	2	·	·	2	·	·	·	·	·	3	·	·	3
它们被	·	·	1	·	·	6	·	2	9	·	·	1	·	·	13	·	2	16
N6	·	·	·	·	·	2	·	·	2	·	·	·	·	·	2	·	·	2
N7	2	1	4	·	1	7	·	·	15	2	1	4	·	1	12	·	·	20.

N8	·	·	·	·	3	2	·	·	5	·	·	·	·	1	2	·	·	5
N9	·	4	4	6	3	18	·	3	38	·	19	5	15	6	149年	·	3	197年
N10	·	·	2	1	2	21	1	2	29日	·	·	2	1	2	508年	109年	2	624年
N11	·	1	·	·	2	3	·	·	6	·	1	·	·	6	3	·	·	10
N12	·	·	1	·	·	12	·	1	14	·	·	1	·	·	32	·	3	36
N13	·	1	2	·	·	12	·	·	15	·	1	2	·	·	26	·	·	29日
N14	·	3	4	1	3	9	·	·	20.	·	4	4	1	3	9	·	·	21

	5	13	22	8	19	128年	1	8	204年	14	35	42	17	27	841年	109年	10	1095年

当应用相同的方法对这些204通道,但取代TIMI得分变量按年龄,第一个识别变量是年龄(65岁高龄的阈值)。对于老年患者,专家类(= 7)是第二个最重要的预测变量,其次是遗传和糖尿病、高血压和ST段的影响。对于年轻患者,性别是下一个主要的预测变量。当TIMI和年龄都包括在内,几乎相同的树结构。

5。讨论

比较不同分析的结果,我们看到立即的象征性分析确实识别路径作为一个重要的因素。在这种情况下,心脏病学路径的组件(例如,心脏病学专家类= 7只包含单位)是第一个也是最重要的歧视预后变量。这个功能没有出现在层次树进行古典分析时以病人为统计单元(见部分4所示。2),直到第三次削减对大多数(1011)的病人,并在第二个削减为84名患者TIMI > 7.5。这些结果表明,经典的分析确定了TIMI分数作为生存的最重要的因素,而新方法基于通路单位确定通路通过专家类变量的主要预测生存率以及其他相关的如吸烟,反是遗传,糖尿病,高血压,之前有梗塞或心绞痛,st段偏移。

进一步分析象征性的后续节点的树还确定了更高的存活率在节点主要心脏病单位在第一或第二步骤沿着路径。因此,我们的分析已扩展了先前的结论(12- - - - - -14),看着只有承认医生(心脏病)或(15]这是路径设置的第一步,结论显示途径完成一系列步骤的生存是一个重要的预测指标。

生态分析,如具有象征意义的分析,还考虑了路径但没有使用路径中包含的所有信息。生态分析只用集中趋势值中获得的所有个人包含在各自的途径,而符号分析使用的所有信息。因此,象征性的分析能够识别途径作为第一个预测生存的东西错过了在生态研究中所示的生态和符号之间的比较分析目前心脏病学研究。生态分析不确定通路作为最重要的(在某种意义上,这不是第一个切割变量树结构中所选的),但在第二个分支树的确定这个变量;参见4所示。3。古典和生态分析始于TIMI分数作为第一解释变量。从这个意义上说,生态分析可以被视为提供了一个更丰富的分析比古典,但仍不如是象征性的分析。因此,符号分析的所有优势生态分析但没有生态分析的缺点。

从临床的观点来看,选择不同的结果的因素提供的住院一年更高的死亡率有关质疑三个分类树。古典回归树与病人统计单位以及生态树基于通路为统计单位的集中趋势值表明,TIMI分数是主要判别变量。这个结果是预期的严重程度评分是一个公认的AMI后预后因子(37]。令人惊讶的是,虽然差异出现在死亡的风险将在入学时患者的疾病严重程度途径被认为是为统计单位,医疗机构的类型和路径的“减少”医院(表示通过“专家”类变量)在标准判别变量回归树;参见图2。然而,众所周知,AMI的严重程度在入学管理保健的过程,特别是转移到重症监护室的指示或心脏病学系教学医院(12,15]。生态分析了改进的路径变量的选择在第二个砍树的。的临时性质的生态结果是一个自然结果的事实这些值的集中趋势值的符号值但忽略内部变化信息符号的分析中使用的数据。

可以提供几种解释解释古典和符号之间的这种差异数据回归树。主要的解释可能是以下。变量“医院通路”几乎可以被看作是一个中间变量在AMI AMI严重性和死亡之间的关系。事实上,病人特征如年龄、AMI病人的严重程度或距离官邸从专业护理中心管理医院通路的迹象。然而,医院通路的类型也决定了护理的模式以及治疗干预措施的速度,因此,急性心肌梗塞的结果。在这种情况下,很难考虑的变量“医院通路”作为一个潜在的解释变量同级AMI死亡的其他病人的死亡率的决定因素,如年龄、病史的冠状动脉事件,或并发症。引入“医院通路”作为“古典”独立变量和其他独立变量在一个回归模型暴露的风险模型的调整。这使它更有趣的使用符号数据分析,因为它允许考虑医院通路的类型为统计单位,而不是作为一个解释变量AMI的死亡。然而,使用类型的医院通路统计单位意味着独立变量符号数据分析解释死亡在医院AMI途径而不是病人死亡本身。

结果,这些差异然后有点预期自三个回归树的解释是不同的。与古典或生态回归树,我们确定哪些变量可以歧视患者根据他们的生活状态AMI后无论他们的途径。在象征性的方法中,我们感兴趣的是确定的变量可以解释患者的死亡是同一家医院心肌梗塞(AMI)的途径。我们的符号分析表明,路径本身成为一个重要的,确实最重要的附加实体但协变量的解释对死亡概率的影响不是简单的统计单元时病人的途径,而不是病人。我们不是用来解释这些结果,作为古典分析不允许的途径而不是病人统计单位。朝着这一方向迈出的第一步是多层回归分析提出的允许我们考虑通路。然而,象征性的分析使我们能够走得更远。当然,流行病学家可能会很警惕,这种新方法的分析和解释数据。

从方法论的角度来看,一个优势的象征性的方法模式可以创建更高级别的统计单位所描述的符号数据,因此,使科学家能够解决和解决新的问题。在这里,新统计单位途径。另一个问题可能是“生物逻辑组合,人口或临床变量歧视通路或subpathways(象征性的描述数据)nonsurviving病人对生活途径病人”。

一般利用符号的方法是减少数量的单位。这种优势尤为重要,对于非常大的数据库,在理论上,没有问题,但在实践中常用的经典分析可以成为有疑问的,因为它的大小。此外,由于这些聚合是缺失值的问题大大减少。同样,有一个保密问题的改善。

6。结论

在这项工作中,我们提出了一种新的方法的数据分析数据挖掘的框架:符号数据分析应用于医疗数据。符号数据分析发现潜在变量之间的关联的优势利用的自然层次结构数据。它是通过新的统计单位对应的定义聚合水平高于病人。它允许统计信息的提取等复杂数据的完整历史医院通路的AMI患者住院,让流行病学家发现新的不出现在的关系,也不能被识别,一个标准的统计分析。

引用

k .诺曼·威尔金森院长,d . Fluck k . Ranjadayalan后答:蒂米斯,“年龄应该如何影响管理急性心肌梗塞?前瞻性队列研究”,《柳叶刀》,卷353,不。9157年,第959 - 955页,1999年。视图:出版商的网站|谷歌学术搜索
p . De Araujo Goncalves j·费雷拉,c .•阿吉亚尔和r . Seabra-Gomes”TIMI、追求和恩典风险评分:与nste - acs血管再生,持续的预后价值和互动”欧洲心脏杂志》上,26卷,不。9日,第872 - 865页,2005年。视图:出版商的网站|谷歌学术搜索
a . Menotti和m . Lanti冠心病危险因素预测早期和晚期冠心病死亡,”心,卷89,不。1,19到24,2003页。视图:谷歌学术搜索
尼噶的,r·s·莱特·t·g·埃里森et al .,“体重超标时的心肌梗死死亡率较低的初始相关风险,但更高的长期风险包括复发性re-infarction和心脏死亡,”国际心脏病学杂志,卷110,不。2、153 - 159年,2006页。视图:出版商的网站|谷歌学术搜索
g . d . Thakker n . g . Frangogiannis m . Bujak et al .,“食源性肥胖对炎症和重塑的影响心肌梗死后,“美国生理学杂志》上,卷291,不。5,H2504-H2514, 2006页。视图:出版商的网站|谷歌学术搜索
g·卡塞拉,s . Savonitto f . Chiarella et al .,“临床特点和糖尿病患者急性心肌梗死患者的结果。BLITZ-1研究的数据,”意大利心脏杂志》》第六卷,没有。5,374 - 383年,2005页。视图:谷歌学术搜索
m . Kamalesh萨勃拉曼尼亚,a .阿泽田师傅,和w·蒂尔尼,“类似post-myocardial梗死的死亡率下降科目没有糖尿病,”美国医学科学杂志》上,卷329,不。5,228 - 233年,2005页。视图:出版商的网站|谷歌学术搜索
g . Hu p . Jousilahti问:乔,s . Katoh和j . Tuomilehto“心血管和总死亡率的性别差异在糖尿病和非糖尿病患者或无心肌梗死史,“Diabetologia,48卷,不。5,856 - 861年,2005页。视图:出版商的网站|谷歌学术搜索
m·g . Abrignani l . j . Dominguez g . Biondo et al .,“住院急性心肌梗塞的并发症高血压,”美国高血压杂志》上,18卷,不。2,第1部分,165 - 170年,2005页。视图:出版商的网站|谷歌学术搜索
o·h·k·A·鹰m . j . Lim Dabbous et al .,“所有形式的验证预测模型的急性冠脉综合征估计6个月出院后死亡的风险在国际注册中心,“美国医学协会杂志》上,卷291,不。22日,第2733 - 2727页,2004年。视图:出版商的网站|谷歌学术搜索
j . c .啤酒,g . Dentan l . Janin-Magnificat et al .,“直接打电话给紧急医疗服务的有利影响时间延迟和急性心肌梗死患者的管理。RICO (des Infarctus观察站科多尔)数据,”编年史de Cardiologie et d 'Angeiologie,51卷,不。1,8 - 14,2002页。视图:出版商的网站|谷歌学术搜索
p . n .萨j·l·琼斯,f·e·沃尔夫y裴,和l . m . Eby”患者的心脏病学家对急性心肌梗死患者住院死亡率更低,”美国心脏病学会杂志》上,32卷,不。4、885 - 889年,1998页。视图:出版商的网站|谷歌学术搜索
j·g . Jollis e . r . Delong e·d·彼得森et al .,“急性心肌梗塞的结果根据承认的专业医生,”新英格兰医学杂志》上,卷335,不。25日,第1887 - 1880页,1996年。视图:出版商的网站|谷歌学术搜索
m . f . Dorsch r . a . Lawrance r . j . Sapsford et al .,”之间关系的一个评估心脏病学专家培训和实施循证护理的患者急性心肌梗塞后,“国际心脏病学杂志,卷96,不。3、335 - 340年,2004页。视图:出版商的网站|谷歌学术搜索
m . Gottwik r .锥盘r . Schiele et al .,“不同的急性心肌梗死患者的治疗和结果承认医院心脏病相比,没有部门。结果汇集数据最大个体治疗的急性心肌梗死(MITRA1 + 2)注册中心和MyocardialInfarction注册米尔,“欧洲心脏杂志》上22卷,第1801 - 1794页,2001年。视图:谷歌学术搜索
m·h·盖尔,s . Wieand和s . Piantadosi”偏见的估计治疗效果与非线性回归和协变量遗漏随机实验,”生物统计学,卷71,不。3、431 - 444年,1984页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
n . Keiding·k·安德森和j·p·克莱恩,“脆弱的角色模型和加速失效时间模型在描述异质性由于省略了,”医学统计,16卷,不。1 - 3、215 - 224年,1997页。视图:谷歌学术搜索
c . Schmoor和m·舒马赫”效应的协变量遗漏和分类分析与Cox模型的随机试验,”医学统计,16卷,不。1 - 3、225 - 237年,1997页。视图:谷歌学术搜索
r . a . Betensky d·n·路易和j·g . Cairncross”识别分子异质性对随机临床试验的影响,“临床肿瘤学杂志,20卷,不。10日,2495 - 2499年,2002页。视图:出版商的网站|谷歌学术搜索
l .台球“复杂的定量数据,样本协方差函数”国际协会的统计计算程序世界大会,2008年。视图:谷歌学术搜索
l . Breiman j·h·弗里德曼,r . a . Olshen和c . j .石头,论述和回归树,1984年Wadsorth。
o . Montagne: c . Chaix a . Castaigne a哈弗和Durand-Zaleski,“急性心肌梗塞的成本在全国高等护理中心和在法国,“药物经济学,17卷,不。6,603 - 609年,2000页。视图:谷歌学术搜索
d . a .明日e . m . Antman a Charlesworth et al .,“TIMI危险评分st段抬高心肌梗死:方便,床边,临床风险评估的分数表示:静脉nPA治疗梗塞心肌早期substudy II审判,”循环,卷102,不。17日,第2037 - 2031页,2000年。视图:谷歌学术搜索
g·戴维史密斯和a . n .菲利普斯“混杂在流行病学研究:为什么“独立”的影响可能不是他们,”英国医学杂志,卷305,不。6856年,第759 - 757页,1992年。视图:谷歌学术搜索
m . Egger m·施耐德·g·d·史密斯,”荟萃分析的精度?荟萃分析的观察性研究”,英国医学杂志,卷316,不。7125年,第144 - 140页,1998年。视图:谷歌学术搜索
j·m·奥克斯”(mis)估计的邻里效应:可行的社会流行病学的因果推论,“社会科学与医学,卷。58岁的没有。10日,1929 - 1952年,2004页。视图:出版商的网站|谷歌学术搜索
j·s·考夫曼,r·s·库珀和d·l·麦基,“社会经济地位在黑人和白人和健康:残余混杂的问题和种族的弹性,“流行病学,8卷,不。6,621 - 628年,1997页。视图:出版商的网站|谷歌学术搜索
h。一杯啤酒和大肠Diday Eds,符号数据分析:探索性的方法从复杂的数据中提取统计信息分类研究,数据分析,和知识组织,施普林格,柏林,德国,2000年。
l .台球和e . Diday”统计的数据统计的知识:符号数据分析,“美国统计协会杂志》上,卷98,不。462年,第487 - 470页,2003年。视图:出版商的网站|谷歌学术搜索|MathSciNet
l .台球和大肠Diday符号数据分析:概念统计和数据挖掘,威利系列计算统计,约翰威利& Sons,奇切斯特,英国,2006年。视图:出版商的网站
g . c . Fonarow k·f·亚当斯,w·t·亚伯拉罕,c . w .杨斯·w . j . Boscardin,“危险分层严重失代偿性心力衰竭的住院死亡率:分类和回归树分析,“美国医学协会杂志》上,卷293,不。5,572 - 580年,2005页。视图:出版商的网站|谷歌学术搜索
k·r·赫斯m . c . Abbruzzese r·兰兹m . n . Raber和j·l·Abbruzzese”分类和回归树分析连续1000年未知的主癌患者,”临床癌症研究,5卷,不。11日,第3410 - 3403页,1999年。视图:谷歌学术搜索
l .台球和大肠Diday区间值数据的回归分析,”数据分析、分类和相关方法、h·a·l·科尔的j。Rasson P.J. f . Groenen, m . Schader Eds。,Studies in Classification, Data Analysis, and Knowledge Organization, pp. 369–374, Springer, Berlin, Germany, 2000.视图:谷歌学术搜索
l .台球和大肠Diday“象征性的回归分析,”分类、聚类和数据分析a、k . Jajuga Sokolowski, h。一杯啤酒,Eds。,pp. 281–288, Springer, Berlin, Germany, 2002.视图:谷歌学术搜索|Zentralblatt数学
f·阿方索·l·桌球、大肠Diday和m .河口“象征性的线性回归方法”符号数据分析软件和苏打水、大肠Diday和m . Noirhomme-Fraiture Eds。,pp. 359–372, John Wiley & Sons, Chichester, UK, 2008.视图:谷歌学术搜索
d .无结果的l .台球、大肠Diday和f·阿方索,“决策树与模态因变量为区间值数据,”COMPSTAT,19卷,第1628 - 1621页,2010年。视图:谷歌学术搜索
m·辛格·g·s·里德,s·j·雅各布森,韦斯顿,j·基利安,和v . l .罗杰,“分数post-myocardial梗塞风险分层在社区里,”循环,卷106,不。18日,第2314 - 2309页,2002年。视图:出版商的网站|谷歌学术搜索

概率论与数理统计》杂志上

文摘