文摘
背景。治疗慢性炎症性肠病(IBD)是昂贵的,和有限的资源要求的治疗干预措施的成本效益分析。本研究评估了相等的简式6 d (SF-6D)和欧元生命质量(EQ-5D),两个个性化HRQoL仪器广泛应用于成本效益分析,在一个没有IBD患者人群。方法。IBD患者来自7个欧洲国家被邀请去复诊十年后他们最初的诊断。临床和人口数据进行了评估,并简式36 (SF-36)工作。效用计算获得的分数SF-6D SF-36数据的索引值与EQ-5D问卷获得的分数。结果。SF-6D和EQ-5D提供了良好的敏感性检测疾病活动依赖性效用差异。然而,单一指标组内相关系数为0.58,和Bland-Altman图表示的值超出了协议的限制。结论。有可怜的协议的措施从EQ-5D检索和SF-6D实用工具。虽然工具可以提供良好的敏感性疾病的检测活动依赖性效用差异,仪器不能互换使用。成本效用分析执行只有一个实用工具进行解释时必须特别谨慎。
1。介绍
克罗恩病(CD)和溃疡性结肠炎(UC)非传染性的慢性炎症性肠病(ibd)。加州大学影响大肠,而CD会影响胃肠道的所有部分。炎症性肠病的典型症状是腹泻、血便,腹痛、紧迫性,发烧,和减肥1]。Extraintestinal表现是可能的,通常影响关节,皮肤、眼睛、肝脏、胆管(2]。复杂的CD的特点是管状器官,脓肿,狭窄,3 - 17%的UC患者(3)和30 - 50%的CD患者接受手术在确诊后的头十年(4]。尽管最近的研究表明,UC患者结直肠癌(CRC)的风险减少,整个年度CRC风险仍然范围在0.16%和0.06之间,1.05到2.75的相对风险比一般人群(5]。
因为炎症性肠病是一种终身疾病,今天的治疗的目的不仅是改善症状有更好的健康相关的生活质量(HRQoL)粘膜愈合和减少手术的必要性和风险CRC (6]。住院和手术造成了相当一部分IBD治疗的直接成本(7),和昂贵的成本效益长期医疗记录不良(8]。
有限的资源作为参数用于强制实施成本效益分析(cea)优先考虑不同的健康项目9]。个性化的健康,或多属性效用措施(mau)多维分类系统的自我报告的一般健康和预定义的权重或效用的偏好。地磁广泛用来评估治疗干预对健康的影响通过计算质量调整生命年(QALY)收益10,11]。几毛工具存在,但他们表现出相当大的尺寸的变化(11- - - - - -13),导致争议的工具可能更适合评估工具(9,10]。简式6 d (SF-6D),这是来自短形式健康调查的36 (SF-36),和欧元生命质量(EQ-5D)是常用的实用工具(14]。评估指出灵敏度差变化的效用低范围的值使用SF-6D(“地板效应”)14- - - - - -16]。同样,EQ-5D形式低敏感性检测范围上的变化值(“天花板效应”)14- - - - - -16]。效用评估与EQ-5D提供更高的分数值比SF-6D在一些研究[17,18在别人(),但较低的值14,19- - - - - -21]。此外,干预后发生变化,评估与EQ-5D可能比那些评估SF-6D [16,19- - - - - -21]。一个可能的结果观察可能是成本效用分析的结果取决于选择的实用工具(19,21]。然而,SF-6D可能更敏感的检测小工具改变EQ-5D相比,特别是在条件相对较好的HRQoL [17,22]。HRQoL报道与IBD军团,而在以人群为基础的研究(23- - - - - -25]。因此,乐器有很好的敏感性的变化上的HRQoL评分范围似乎在以人群为基础的IBD的群组研究中进行重要的评估工具。
本研究的目的是横向比较评估的差异SF-6D和EQ-5D实用措施没有IBD患者队列描述系统和得分分布。此外,我们想要探索EQ-5D之间的差异和SF-6D捕获HRQoL评分变化的能力取决于临床活动的措施。假设是SF-6D更敏感比EQ-5D HRQoL根据临床因素的差异。
2。患者和方法
2.1。病人
本研究的一部分欧洲合作学习小组在炎症性肠病(EC-IBD) [26]。从1991年10月到1993年9月,2201名新诊断的IBD患者从20定义良好的地区12个欧洲国家和以色列都包含在以人群为基础的未来,统一诊断初始群体。IBD决心使用Lennard-Jones[的诊断标准1]。
10年随访的数据收集从2002年8月到2004年1月。从原来的20个中心,只有13从9个国家造成数据中心从1580年IBD患者。减少选择性偏差的可能性,至少60%的反应率被定义为每个中心;这个阈值也遭到了来自7个国家的9个中心(挪威奥斯陆;丹麦哥本哈根;马斯特里赫特,荷兰;西班牙维哥;克雷莫纳Reggio Emilia,意大利;希腊约阿尼纳和伊拉克里翁;别是巴,以色列)。
2.2。方法
所有患者纳入研究被邀请到一个标准化的10年随访2002年8月至2004年1月在各自的医院。在访问中,获得临床和人口统计数据。额外的调查,如结肠镜检查,必要时进行。所有患者完成一份调查问卷,其中包括SF-36和EQ-5D形式。基于SF-36 SF-6D分数计算分数(27]。病人数据记录患者通过一个基于网络的形式,先前提出和解释他们在诊所28]。疾病活动注册当前症状的存在与否和耀斑前一年的数量,然后二分耀斑或没有耀斑前一年。此外,主观地认为一般健康水平是来自问题SF-36之一:“总的来说,你认为你的健康:好,很好,很好,公平,穷?”
2.3。仪器
EQ-5D包含五个域(流动性,自我保健,平时活动,疼痛/不适,以及焦虑/抑郁),在每个域三个层面描述没有问题,一些问题,或严重的问题。因此,243年可以描述不同健康状态。估值与time-trade-off执行(参加)方法与英国关税。效用与MVH-A1分数计算算法(29日),和可能的分数范围从0.59−1。11项SF-36版本的一个被用来推导出SF-6D成绩在六维空间(物理功能、角色限制、社会功能、疼痛,心理健康,和活力)。每个维度包含4到6个水平描述不同程度的功能受损。因此,18000种不同的健康状态可以被描述。标准的赌博(SG)方法使用SF-6D估值过程中。效用计算分数使用英国关税火盆和同事提供的30.),与可能的得分从0.29到1。这两个工具的效用指数定义为完整的健康状况,而零等于死亡。EQ-5D允许分数小于零,表明健康状态比死亡的存在。
2.4。统计分析
因为偏态分布的分数值(特别是EQ-5D),我们测试了SF-6D之间的相关性和EQ-5D及其域使用非参数枪兵的ρ测试。我们检查了整个样本的健康状态的分布使用这两种工具在所有维度。此外,患者分为“完全健康”仪器,获得的健康状态的分布与其他评估工具。个性化每个仪表索引值的均值和中值范围。协议SF-6D EQ-5D分数是评估与单一指标组内相关系数(ICC,双向随机效应模型,绝对协议)和Bland-Altman情节31日,32]。两两比较的得分值取决于疾病活动进行测试、方差分析或Mann-Whitney-Wilcoxon测试,是适当的。两种乐器的能力来检测进行了研究与临床相关的效用差异诺曼的标准的临床相关性,需要区别两个是超过一半的标准偏差(33),和接受者操作特征(ROC)曲线34]。ROC曲线下的面积(auc)的区别的属性描述工具。理想的区别的能力达到面积1.0,虽然面积< 0.5表明没有区别的乐器除了随机的机会的能力。所需的样本量检测效用指数得分之间的一个统计上的显著差异,当比较两个主观感知健康状态水平的0.90和0.05的显著性水平在每组估计达到85。修正执行多个测试使用费舍尔最显著差异(LSD)方法。值< 0.05被认为是具有统计学意义。统计测试都是双面的。使用SPSS统计分析进行版本19(美国IBM SPSS统计,芝加哥,IL)的窗口。
这项研究的资金来源没有影响的概念或实现研究。
3所示。结果
在10年的随访,来自7个国家的9个中心贡献了1199名患者的数据。其中,115例(9.6%)患者死亡,8例患者和他们的炎症性肠病诊断撤回或不确定的诊断,为包括1076名符合条件的患者。然而,307名病人没有完成问卷调查,因为他们不愿意参加或难以发现的。因此,769 IBD患者(71.5%),其中约三分之二加州大学()和CD(三分之一),完成了调查问卷和资格进行分析。没有性别的差异、诊断、年龄、胃肠道疾病分布,或疾病并发症(fistulising或狭窄CD)之间的反应和nonresponders观察(数据未显示)。效用与实用工具都显著降低分数来衡量女性比男性和乳糜泻患者比UC患者(数据未显示)。
3.1。Dimension-to-Dimension比较
EQ-5D和SF-6D维度评分之间的相关性变化从0.10到0.66(表1,)。角色限制/常规活动和疼痛疼痛和不适表现出相关性最高,而心理健康/自我护理和活力/开始表现出最低的。
维度得分的分布这两个实用工具,尤其是EQ-5D,倾向于更高的分数,显示一个相对好的HRQoL(表2)。大多数维健康状态EQ-5D注册一级和少数州注册两个和三个水平。SF-6D维分数分布在三到四个健康状态的水平。使用EQ-5D, 321名患者在最好的条件(EQ-5D指数1.0),而只有30完整的健康根据SF-6D展出。SF-6D, 24%到80.4%的患者最好的EQ-5D分数估计不完美的健康根据维的物理功能,痛苦,心理健康,和活力(表3)。29 30的患者最好的SF-6D得分也最高的EQ-5D得分。
3.2。个性化指数比较
所有患者平均EQ-5D指数得分为0.81与1.59 (0.59−1)。EQ-5D得分中值为0.85。所有患者平均SF-6D指数得分为0.77与0.62 (0.38 - 1)。SF-6D指数得分中值为0.79。斯皮尔曼的ρEQ-5D和SF-6D指数得分之间的相关系数为0.68 ()。Bland-Altman图(图1)显示一个非随机SF-6D和EQ-5D分数之间的平均差−0.035,相当数量的值超出了协议的限制(平均±2 sd =−)。增加与减少意味着分数的区别,表明减少HRQoL。单一指标ICC是0.58,这表明42%总变异的结果代表受试的变化,也就是说,两种不同的实用工具之间的差异(31日]。
3.3。疾病活动
自述IBD患者症状或耀斑前一年有统计上显著降低平均和平均SF-6D和EQ-5D指数得分比那些没有(表4)。然而,这些组中位数和均值差异计算从EQ-5D分数高于SF-6D分数计算。平均EQ-5D分数和SF-6D症状分层的国家生活质量得分显著高于没有(表5)。在大多数国家的耀斑前一年并没有导致显著降低EQ-5D或SF-6D分数(表5)。之间没有区别观察猫的auc计算工具,表明无论是优越检测效用差异取决于当前的症状或耀斑。然而,相当大的中位数和均值之间的差异观察EQ-5D得分值,特别是在目前没有症状的患者(平均1.0;意思是0.88;表4)。
SF-6D和EQ-5D都能够检测显著效用差异取决于主观感知健康源自一个SF-36(表的问题6)。SF-6D然而,相比之下,EQ-5D无法探测的一个统计上的显著差异指数得分之间的“优秀”的患者健康和病人健康状况“非常好”,用相同的平均评分值和平均评分值的0.96和0.93,分别。此外,在同一病人组的AUC SF-6D使用“非常健康”作为分界点是大于EQ-5D(0.71, 95%可信区间0.63到0.79和0.57,95%可信区间0.49到0.65;图2)。这个结果表明SF-6D的能力区分“优秀”和“很好”IBD患者的健康状况比EQ-5D。然而,由于一个置信区间的重叠,这些结果的临床意义尚不确定。
4所示。讨论
在这个欧洲人群为基础的IBD队列,EQ-5D和SF-6D实用工具都能够发现效用差异取决于疾病活动自评和self-estimated一般健康。然而,结果显示两种乐器之间的一致性程度低。
火盆等人提出了一个潜在的高相关性SF-6D和EQ-5D维度具有类似内容,如物理功能和移动性或疼痛和疼痛/不适(表1,相关系数以粗体显示)14]。然而,他们的研究在七军团与不同的疾病和van Stel研究冠心病组只能注册可怜的温和的相关系数(14,15),这与本研究的结果是一致的。两个潜在原因令人失望的可怜的相关性,甚至维度之间类似的内容,可能是不同的评估过程(标准赌博与time-trade-off)和不同数量的健康状态,与一个更大的描述性系统SF-6D EQ-5D相比。
EQ-5D只提供了三个层次的每一项,给243个可能的健康状态,而每项有四到六级SF-6D和18000种可能的健康状态。因此,水平1和2的区别EQ-5D相对大于SF-6D水平1和2之间的区别。较小的区别SF-6D健康水平的主要原因是广泛分布的分数维与EQ-5D相比,在目前的研究和火盆的军团10,14]。这种效应可能不那么重要使用新的EQ-5D的5级版本。此外,SF-6D HRQoL的仪器包括一个广泛的评估占社会功能维度,这并不代表EQ-5D。EQ-5D天花板效应,这在以前的研究中已经证明(14,15,17,18),也是目前的研究中观察到。共有321名患者的最佳效用分数EQ-5D SF-6D得分较低。因此,SF-6D展品的较大的描述性系统检测的灵敏度高于EQ-5D效用相对较好的HRQoL患者的差异。此外,天花板上的影响与新的5级版本EQ-5D可能会降低。
我们不能检测的均值和中位数指数得分差异EQ-5D和SF-6D整个队列。斯皮尔曼相关系数ρ表示适度指数之间的相关性分数的两种乐器。然而,Bland-Altman情节,许多值超出了协议的限制,国际刑事法庭表示可怜的两种乐器之间的协议。此外,情节暗示的天花板效应EQ-5D SF-6D和地板效应,证实了先前的研究结果不同的疾病组(14,15,18]。描述系统的差异,健康状态,或两者的结合已经提到原因为穷人仪器之间的协议(17]。更大的描述性系统健康状态的SF-6D允许更精确的描述比可能与EQ-5D及其天花板效应。然而,可能的得分相对较高的下限SF-6D导致地板效应,降低其能力之间的歧视严重的健康状态。此外,相比之下SF-6D, EQ-5D提供所谓的“N3”项,占最低的健康状态在任何尺寸,从而进一步降低了EQ-5D索引值(10]。此外,不同的估值方法,标准的赌博(SF-6D)与time-trade-off (EQ-5D),可能影响仪器之间的协议。估值方法都是个性化,提供一个选择两个不同的结果。只有标准的赌博,然而,提供了一个死亡的不确定性与风险维度的一个可能的结果。虽然标准的赌博技术一般评估健康状态高于time-trade-off方法(17],几项研究类似于本研究获得更高的分数与EQ-5D SF-6D比,尤其是患有轻微的疾病(35]。除了明显的地板和天花板效应,人们的风险态度可能也导致观察到的差异。在一般情况下,人们厌恶风险大收益和风险小收益,这意味着患者在健康状态可能获得较低的分数标准的赌博方法相比time-trade-off方法为病人健康状况不佳状态,反之亦然(9]。
仪器检测的能力差异,公用事业,依靠自我报告的疾病活动(当前症状)是相当不错的统计学意义根据诺曼的标准和临床相关性的临床意义(33]。这一发现证实了以前的研究结果(14,15,18]。然而,由于321年的数据倾斜患者一个EQ-5D得分为1.0分,这反映了天花板效应,中位数EQ-5D指数目前IBD的患者,症状明显高于平均值。不同于SF-6D, EQ-5D无法检测工具不同的患者。此外,在我们的研究中,EQ-5D及其上限效应显示能力低于SF-6D检测显著效用差异patient-reported一般健康情况下,病人的健康定义为优秀或良好。Lillegraven等人进行的一项研究未能发现这种现象在类风湿关节炎患者18]。虽然截止的AUC之间良好的健康和很好的健康比EQ-5D使用SF-6D时更大,一个实用的临床相关性差异自我感觉良好的健康和很好的健康尚不清楚,由于重叠的置信区间。这个重叠可能是因为身体健康在我们的病人的样本大小群体太小了(根据样本容量的估计)。中华民国的敏感性分析显示没有区别这两个仪器来检测工具健康状态的差异。
茂仪器检测的能力效用的差异依赖于症状的存在与否还好当病人组被国家分层。然而,检测工具的能力差异的存在与否依赖于耀斑前一年很穷,当数据被国家分层,这一事实可能是由于2型错误。
以前的结果在目前的研究和其他基于IBD军团(23,36已经观察到IBD患者,平均来说,一个好的HRQoL。EQ-5D天花板效应及其贫穷歧视性的能力对病人健康状况良好时可能会支持使用SF-6D探索没有IBD患者团体的效用。相比之下,由于EQ-5D SF-6D的地板效应,可能更适合群患者选择严重的炎症性肠病。
在目前的研究中,效用指标得分均值差异,没有疾病患者活动都在使用EQ-5D大大高于SF-6D仪器。假设这些差异也可能发生在一群IBD患者干预前后,这一发现可能影响成本效益分析的实用工具的选择。约翰森等人表明,干预后,该指数的得分EQ-5D和SF-6D仪器增加慢性下腰痛患者和退行性椎间盘疾病16]。EQ-5D指数得分增加两倍SF-6D分数。有关这些影响成本,计算使用EQ-5D执行将导致更低的成本比SF-6D每QALY。因此,成本效用的估计不同的干预措施在疾病情况下可能产生不同的结果取决于所使用的实用工具,见塞奇等人的研究。19]。因此,成本效益分析的结果在一定程度上取决于所使用的实用工具,必须小心解释。因此,由他人推荐(13),我们认为效用分析应该至少有两种不同的实用工具进行IBD患者。
我们所知,目前的研究是第一个比较实用措施两个广泛使用的实用工具在一个没有IBD患者群体。标准化定义IBD和复发和标准化的症状评分表示这项研究的主要优势。研究设计,涉及到病人的独立的包含在每一个中心,意味着病人的排斥反应率较低的中心没有偏见的中心,被视为代表的地区。响应率从剩下的中心在其他类似发病率研究[24,25]。公用事业的一个重要限制是注册只执行一次,使它无法评估的可靠性和响应在IBD患者的方法。此外,病人的样本容量与自我报告健康太小集团,提供一个可靠的就可能的患者之间的差异显著性水平,有很好的健康。最后,对于特定疾病HRQoL研究没有提供数据,这将是有价值的比较实用工具。
5。结论
总之,本研究的结果表明贫穷EQ-5D之间的协议和SF-6D IBD患者。本研究证实了其他病人群体的结果公布。两种仪器检测工具提供良好的敏感性差异取决于疾病活动的差异,但仪器不能互换使用。此外,SF-6D可能更敏感的检测小效用差异组IBD患者低疾病活动。效用分析,都应包含不止一个实用工具,和只有一个实用程序中执行的成本效用分析仪器进行解释时必须特别谨慎。
相互竞争的利益
作者声明他们没有利益冲突。
作者的贡献
Ebbe Langholz, Bjørn Moum,塞尔温诗赋,Reinhold Stockbrugger,汤米·Bernklev导致以人群为基础的欧洲IBD的概念研究和数据采集。所有作者的贡献数据的分析和解释,并起草和修订。
确认
欧洲合作学习小组在炎症性肠病(EC-IBD)项目收到了来自欧盟委员会资助(qlg4 - ct - 2000 - 01414)。通讯作者的博士学位项目收到的资助区域卫生信托(Helse Sør-Øst)、挪威(2012113)。