二进制变量的时间序列的分段线性回归建模医疗保健

文摘

介绍。在医疗、变化通常是被统计技术比较干预前后的结果。研究人员所面临的一个常见问题是区分由于长期趋势改变由于干预。中断时间序列分析已被证明是有效的在描述趋势回顾时间序列和探测变化,但方法往往偏向于点的干预。二进制的结果通常是由逻辑回归模型的log-odds二进制事件表示为协变量的函数,如时间,使模型参数难以解释。本研究的目的是提供一个技术直接二进制事件的概率模型来描述使用线性部分更改模式。方法。我们描述一个造型方法,适合越来越复杂的线性部分二进制变量的时间序列。模型拟合使用最大似然优化和模型拟合优度使用Akaike的信息比较标准。最好的模型描述最可能的变化情况。我们这种建模技术应用于评估髋部骨折病人死亡率共有2777名患者在六年期间,之前和之后的一个专用的髋部骨折单元(HFU) 1级,主要的创伤中心。结果。拟议的造型技术显示时间趋势解释的实现HFU如何影响患者的死亡率持续近端股骨脆弱性骨折。整个时间序列的技术允许造型没有偏见的干预。直接建模感兴趣的二进制变量,而不是改变变量,提高结果的可解释性。结论。提出了分段线性回归建模技术有效利用最大似然估计可以用来检测二进制变量的时间序列在回顾性研究的趋势。

1。介绍

当随机对照试验不可行,研究人员通常采用观察性研究设计来评估干预的影响。变化通常是调查使用统计分析比较preintervention postintervention数据。通常,统计方法的范围从简单的组比较,忽略时间趋势更复杂的中断时间序列(其)分析1,2]。

组比较通常被认为是不可靠的,因为它可以影响长期趋势通常太微妙的检测单靠数据检查(3]。适应的时间趋势,使得更可靠的结论,但可能会遭遇偏见,因为它的应用程序集中在指定的时间点(通常的干预)。因此,改变与干预可以错误地认为干预。虽然统计差异,旨在纠正这些缺点确实存在,他们往往是过于复杂或数学任意可靠和服从医疗人员(4]。

考虑的结果是一个二进制的事件时,模型的时间序列通常涉及物流(概率)的对数回归,以确保合理的数学模型的参数。线性回归的一个二进制变量可能会导致预测概率大于1或小于0。逻辑回归避免了这个通过二进制事件的概率的对数(分对数)。尽管是数学上的声音,任何分对数的变化代表了一种变化日志赔率而不是概率二进制的事件,使得检测到的变化难以解释。

本研究的目的是试图纠正这些问题,提出一种新颖的造型和model-fitting方法描述时间序列的变化模式随机二进制事件没有偏见的干预。该方法使用分段线性部分和发现这些部分的最佳组合使用一个系统的过程,解决三个重要的常用的变化检测技术的局限性:(1)执行一个特定的模型以适应数据:一个理想的建模技术必须允许多个模型进行测试,以确定哪些是最好的时间序列的描述。(2)造型的对数的几率一个二进制变量:直接造型二进制变量而不是概率的对数允许将任何时间变化/变化表示为随机事件的概率。(3)偏见的干预研究:理想的建模技术将允许两个或两个以上的时间片段之间的一个转折点跨度为单独的干预。这是一个经典的重要限制其技术(5]。

该建模方法应用于一个回顾性研究调查脆弱股骨颈骨折后病人死亡率趋势在一段时间内的主要一级创伤中心的六年。

2。方法

2.1。分段线性回归模型时间序列

我们以前发表了造型技术采用分段最小二乘线性回归,以适应越来越复杂的模型的一组时间序列的结果测量在一个大的回顾性研究[5]。模型是一个简单的高原或一个直线或两者结合使用的部分。

毗邻的线性段模型变量的时间依赖性称为“曲线”,在科学文献[已收到相当大的关注6- - - - - -11]。可以创建几个模型,每个模型与更多的样条函数或更大的自由度,创建一组嵌套模型增加复杂性。

在这项研究中,我们利用同一套越来越复杂的分段线性回归模型采用最大似然回归而是比最小二乘回归和模拟二进制变量时讨论其优势。

2.2。模型

我们在二元因变量模型y(把值0或1)作为一个独立变量的分段线性函数t。提出了以下四个模型以适应时间序列(t_我,y_我二进制数据),我= 1,n。表示的模型值的二进制事件的概率。(我)“高原”:一个简单的平均值这个简单的模型假设的概率事件在整个研究期间保持不变,并使用事件的时间序列的平均值来表示它的概率。(2)“线”:一个直线的非零梯度该模型确定两个参数(y设在拦截c和梯度米)符合一条直线的数据来描述时间概率的影响。约束必须放置确保值预测的时间范围内的模型被认为是在0和1之间。(3)“Line-plateau / plateau-line”:一条直线与高原或高原与一条直线。Line-plateau: 在哪里。Plateau-line: 这个模型中加入一个线性部分高原在结模型概率的时空变化。高原可以先于或遵循的线性部分。模型是由三个参数描述,两直线的参数(y设在拦截c和斜率米),第三是瞬间的时间t_j相对应的结。约束必须放置,以确保模型的收益率值在0和1之间在整个时间间隔。(iv)“行了行了”:一条直线与另一条直线在哪里。

这个模型适合两个直线段连接在一个结模型概率。这两部分都可以零的斜坡上,加入即时t_j,因此需要总共四个参数来描述它。同样,约束必须保证值总是在0和1之间。

2.3。Model-Fitting

参数(拦截、斜坡和高原)提出的模型派生集实验数据的可能性最大化,因此,它们的值是最大似然估计(标定)12]。高原模型派生的平均值y也是一个企业的价值k方程(1)。我们使用其它模型约束优化算法来确定模型参数的标定值(13]。等算法通常可用的函数或过程在最新的编程和统计软件包。

更具体地说,我们寻求的参数值米和c对模型(ii -“行”),或参数米,c和j对模型(3 -“Line-Plateau / Plateau-Line”),或参数米₁,米₂,c,j为模型(iv -“行”),最大化似然函数: 或者,同样,最大化(自然)的对数似然函数: 在哪里的价值吗我^th二进制事件和概率模型预测的时间吗t_我。

实际上,我们减少的对数可能性(方程(7)作为数据集的可能性变得难以控制地小,功能多少量的值。

我们使用了fmincon函数在MATLAB®, Mathworks,实现约束优化找到这些值的参数的线性部分收益率ln的最低l(对应于最大的lnl在方程(7)为每个模型(2),(3),(4)(14]。约束优化的必要性是必要的,以避免产生负的y或值y超过1在任何时候在时间序列。

发现的ml参数模型(3)和(4)包括选择结对应于最大的ml的参数之一我= 1,n。这意味着把数据分成两组,评估所有可能的值的ml的分割点j最后选择j收益率之间的上确界的一毫升。

约束优化过程的详细描述,我们使用,或其背景,超出了这个范围的工作,因为这些是有据可查的,出现在大多数公共领域的编程语言(15]。

2.4。选择最佳拟合模型

一旦所有四个模型拟合,必须选择最好的模型来表示最好的描述时间序列的变化周期进行了研究。

更复杂的模型(那些参数和/或多段)如符合数据比用更少的参数,产生更大的可能性值(16]。然而,我们应用零假设的造型方法,大多数州,除非一个更复杂的模型与数据的吻合程度显著更好的,一个简单的模型应该是首选。比较模型,我们选用Akaike信息准则(AIC)作为衡量每个模型的拟合优度17]: 在哪里问模型描述符问=(我),(2),(3),或(iv),r_问所使用的参数的数量吗问^th模型,对数的可能性吗问^th模型。它很容易推断r_(我)= 1(高原),r₍₂₎= 2(一行),r₍₃₎= 3 (line-plateau或plateau-line)r_(iv)= 4(两行)。AIC的拟合优度和简单之间的妥协,是一种被广泛接受的工具在模型选择17,18]。模型与最小的AIC选为是最好的模型来描述时间改变二进制随机事件的概率。

虽然模型与最小的AIC盛行,其它模型不需要丢弃。他们比较最佳拟合模型,并指出它们的相对可能性RL_(问)这是获得按照基斯和艾莉森(18]:

的相对可能性可以用来确定最佳模型明显比另一个模型(问)使用典型的假设检验标准与特定水平的意义。例如,如果所说的相对可能性RL_(问)所有替代模型(< 0.05问),那么这将是足够的拒绝所有其他模型的最佳拟合的5%的水平。推论统计,这意味着错误地拒绝其他模型的概率小于5%。

最后,最好的模型是用来描述时间序列,可以检测到变化和长期趋势。

2.5。建模技术的应用髋部骨折病人的结果

这种建模技术应用于时间序列的数据从一个在英国主要一级创伤中心。作为一个回顾性研究的一部分,患者生存数据收集从2011年4月到2016年9月对病人维持骨折近端股骨的脆弱性。2015年7月,1551年^圣天(2179^th骨折)的研究中,一个专门的髋部骨折单元(HFU)中引入了信任。从本研究的结果,包括评估的有效性的引入HFU采用分段最小二乘线性回归(不适应二进制变量),之前发表(5]。描述使用建模技术在当前的研究中,我们重新回顾数据集。

我们三个时间序列建模技术应用于:30天,120天,365天的病人死亡率。具体来说,我们的数据包括两套2851二进制值30天2494和120天的死亡率和一组二进制值365天的死亡率在1995天(365天的死亡率监测12^th2016年1月从而减少postintervention数据点)。

之前我们使用基本统计测试来比较病人死亡率的干预(pre-HFU)干预后(post-HFU)。自从pre-HFU post-HFU死亡率数据未配对和分类,为此我们使用费舍尔的确切的测试。随后,我们比较了这些基本的统计检验得出的结论得出使用我们提出的建模技术,来评估这项技术的潜在好处。

3所示。结果

散点图的二进制事件系列相比更少的信息连续变量的散点图在调查时间的趋势。后面,数据值分组y= 1,y= 0,病人死亡的散点图不提供任何可识别的信息。图1为30天死亡率是一个散点图。

通过拟合的四个分段线性模型每一个时间序列,可以辨别趋势。这些数字所示2- - - - - -4为30天,120天,365天的死亡率分别。因为它们没有显示数据值点y= 0或1。最好的为每个时间序列模型,指定使用AIC,坚实的红线所示,其他三个模型(黑色实线)上叠加图进行比较。一个垂直虚线描绘的干预(HFU)的介绍。

图2

时间序列的建模30天死亡率。坚实的红线是最好的模型。坚实的黑色线条是其他模型。垂直虚线HFU爆发。因为它们没有显示数据值点y= 0或1。(我)高原模型= 0.0505。(2)线模型=−0.000020t+ 0.0711。(3)Plateau-line模型= 0.0706t= 0到25.1天=−0.000020 (t−25.1)+ 0.0706t= 25.1到1995天。模型(iv)行了行了=−0.000016t+ 0.0683t= 0到1880.4天=−0.000328 (t−1880.4)+ 0.0375t= 1880.4到1995天。

图3

时间序列的建模120天的死亡率。坚实的红线是最好的模型。坚实的黑色线条是其他模型。垂直虚线HFU爆发。因为它们没有显示数据值点y= 0或1。(我)高原模型= 0.1221。(2)线模型=−0.000030t+ 0.1531。(3)Plateau-line模型= 0.1291t= 0到1358.1天=−0.000341t+ 0.1291t= 1358.1到1995天。模型(iv)行了行了=−0.000015t+ 0.1423t= 0到1731.2天=−0.000328 (t−1731.2)+ 0.1172t= 1731.2到1995天。

图4

时间序列的建模365天的死亡率。坚实的红线是最好的模型。坚实的黑色线条是其他模型。垂直虚线HFU爆发。因为它们没有显示数据值点y= 0或1。(我)高原模型= 0.2144。(2)线模型=−0.000037t+ 0.2481。(3)Line-plateau模型=−0.000047t+ 0.2549t= 0到1711天= 0.1912t= 1711 - 1747.4天(iv)行了行了模型=−0.000054t+ 0.2580t= 0到1583.3天= 0.000460 (t−1583.3)+ 0.1834t= 1583.3至1747.4天。

3.1。30天死亡率

使用费舍尔的确切的测试,我们发现显著减少平均30天死亡率从5.47% pre-HFU post-HFU 3.13% ( )。

最好的模型来描述时间序列是行了行(iv)模型(图1)。高原是0.043的可能性,线是0.793可能,plateau-line 0.293是可能的。plateau-line模型的线模型的图作为高原部分只占一个非常简短的初始阶段。

3.2。120天的死亡率

使用费舍尔的确切的测试中,我们发现了一个与120天的死亡率从12.68%下降pre-HFU post-HFU 10.13% ( )。

最好的模型来描述时间序列是plateau-line (iii)模型。高原0.013,0.2144线是可能,行了行了0.7011的可能性。

3.3。365天的死亡率

使用费舍尔的确切的测试中,我们发现了一个小和减少与365天的死亡率从21.46% pre-HFU post-HFU 20.57% ( )。

最好的模型来描述时间序列是线(2)模型。高原是0.185的可能性,line-plateau 0.6269可能,行了行了0.7098的可能性。

4所示。讨论

在回顾使用新技术来模拟二进制变量时间序列,研究了利用分段线性部分传递有意义的信息。我们采用了技术模型改变髋部骨折病人的结果来评估引入专用HFU的有效性。

4.1。HFU研究模型应用程序

预处理和后干预组比较,我们推断,显著减少平均30天死亡率从5.47% pre-HFU post-HFU 3.13% ( )。然而,应用我们的造型技术和发现,行了行了是最好的模型表明,每月30天死亡率下降0.06%的速度从6.8%开始的研究,然后加速率每月在1730年下降1%^th天达到接近零值在研究结束的时期。模型有助于解释的差异发现通过统计测试组比较没有立即的结果HFU但逐渐下降的结果,还是加速HFU后大约一年。记住模型并不必然排斥,单线模型是接近第二好的模型。因此可以得出结论:30天死亡率没有保持不变( )但在整个研究期间下降。它的减少似乎加速(但这并不达到意义)后HFU爆发后大约一年。

预处理和推断postintervention组比较,有一个无意义的120天的死亡率从12.68%下降pre-HFU post-HFU 10.13% ( )。plateau-line是最好的模型,这支持的有效性HFU减少120天死亡率尤其是结(加入点)是HFU爆发后不久。尽管组比较发现了一个不重要的变化,120天的死亡率的可能性只有高原很小( )。因此可以得出结论,HFU造成很大但逐步减少死亡率开始出现约120天HFU爆发后六个月。

预处理和推断postintervention组比较,有一个小而无意义的降低平均365天的死亡率从21.46% pre-HFU post-HFU 20.57% ( )。在四个模型,被认为是最好的模型。相对可能相当大,这明显不指定任何其他模型的最差。因此不可能排除这种可能性,365天的死亡率保持不变。记住许多病人维持近端股骨脆弱性骨折已经虚弱的受伤前死亡率升高,它可能不是令人惊讶的,365天的死亡率更少受到改善髋部骨折管理相比,短期生存。

4.2。评价的建模技术

当前的研究展示了时序分析使用提出的建模方法可以阐明集团比较已知的结果是不可靠的特别是当数据跨越很长一段时间。重要的是,通过模拟整个时间序列没有偏见的干预,提出的建模方法提供了一个公正的措施和结果的演化提供了一个有价值的工具的回顾性评估干预措施。它允许推迟或预期效果可能连接到干预显示没有额外的计算(8]。直接建模感兴趣的二进制变量,而不是造型转换变量逻辑回归,提高结果的可解释性。

我们以前发表的使用分段线性回归,并演示了应用髋部骨折病人的结果(5]。尽管它是被认为是黄金标准评价干预措施的有效性在回顾时间序列,与我们的技术不同,它不允许多个线性段来描述时间序列和偏置检测变化的干预(5]。

在这项研究中,我们开发了分段建模技术进一步定制到二进制变量使用的程序。本展品以下优点:(1)使用线性回归,有可能的最佳线路将预测不切实际的值大于1或者小于0。通过使用标定,我们避免这种可能性。(2)当使用野生是必要的,以确保正常的残差,尽管研究二进制变量时这是不可能的。通过使用AIC代替野生,我们克服这个障碍。(3)以前,我们使用野生确定最佳模型明显优于其他模型。然而,务实的做法是,得出多个时间序列的模型可能是一个好的描述符。本文中提供的技术可以让我们排除不可能的模型( )最好的模型相比,但是没有立即拒绝其他模型。必然地,我们可以推断出一个相对可能性为每一个可接受的( )模型相比,最好的模型。这为研究人员提供了更多的信息,反映了一个模型的可能性不一定是唯一可行的时间序列的描述。

4.3。限制

组提出模型仅限于两个毗邻的线性段,因此可能无法跟踪更复杂的长周期变化。为了解决这个问题,该方法可以进行扩展,以包括更多的线性段,但这需要进行谨慎防止过于简单而有意义的造型方法的趋势。

其次,该方法并不总是产生某些“是/否”答案确定干预的有效性;不止一个模型可以被视为“可接受”( )相比最好的模型。然而,由于过多的可能性干预前后的变化和趋势,我们的方法并不打算总是产生一个明确的答案和实用,研究人员调查回顾时间序列的信息工具。

最后,应用方法需要一些专门的编程大多数统计软件包不允许用户以适应多个线性部分。

4.4。未来的工作

提出了序列的模型范围从一个高原到更复杂的形式,包括一个双行,可以跟踪更复杂的时态变化。该方法可以扩展到包括高阶模型三的片段,以适应更多的复杂的变化。此外,支离破碎的片段可以被允许模型突然改变(4,18]。适应包括自回归条件等占周期性也可以实现模型表现出季节性变化的事件。在这种情况下,变化的周期分量应该减去从模型中,以允许其他(长期)的检测变化可以归因于一个干预(19]。

5。结论

提出的分段线性回归建模技术可用于检测二进制变量的时间序列在回顾性研究的趋势。这可以用于评估医疗干预措施的有效性和强调长期趋势。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

我们感激地承认SPRINT慈善机构提供资金的支持文章的出版费用。

引用

j . m . Hilbe”数据分析使用回归和多级/分层模型,”杂志的统计软件,30卷,不。3,2009。视图:出版商的网站|谷歌学术搜索
b . Kedem和k . Fokianos回归模型进行时间序列分析美国新泽西州霍博肯市威利,2002年。
e . m . Valsamis t . Chouari c . O 'Dowd-Booth b·罗杰斯和d·特,“手术的学习曲线:变量、分析和应用,“研究生医学杂志,卷94,不。1115年,第530 - 525页,2018年。视图:出版商的网站|谷歌学术搜索
s Aminikhanghahi和d·j·库克的调查时间序列变化点检测方法,”知识和信息系统,51卷,不。2、339 - 367年,2017页。视图:出版商的网站|谷歌学术搜索
e . m . Valsamis d·特,h .丈夫,和b·a·罗杰斯“分段线性回归模型来评估变化在医疗、回顾性研究”计算和数学方法在医学卷,2019篇文章ID 9810675、9页,2019。视图:出版商的网站|谷歌学术搜索
诉t .粪便和t . Tjahjowidodo b样条曲线的直接方法来解决最优节:申请非均匀b样条曲线拟合,“《公共科学图书馆•综合》,12卷,不。第三条ID e0173857, 2017。视图:出版商的网站|谷歌学术搜索
迪马特奥,c . r .热那亚,r·e·卡斯“贝叶斯与free-knot样条函数曲线拟合,生物统计学,卷88,不。4、1055 - 1071年,2001页。视图:出版商的网站|谷歌学术搜索
m·克鲁兹d l . Gilen m·本德和h . Ombao”评估卫生保健干预措施通过中断时间序列模型:研究力量和设计考虑,”医学统计,38卷,不。10日,1734 - 1752年,2019页。视图:出版商的网站|谷歌学术搜索
j·朱、h·c·黄和j .吴”时空建模使用马尔可夫随机二进制数据字段,“《农业、生物和环境统计数据,10卷,不。2、212 - 225年,2005页。视图:出版商的网站|谷歌学术搜索
m . Taljaard j·e·麦肯齐·c·r·拉姆齐和j·m·格”的分段回归分析中断时间序列研究:在院前急救护理一个例子,“实现科学,9卷,不。1,2014。视图:出版商的网站|谷歌学术搜索
j·洛佩兹伯纳尔、美国康明斯和a . Gasparrini”打断了时间序列回归公共卫生干预措施的评价:一个教程中,“国际流行病学杂志,46卷,不。1,1 - 8,2016页。视图:出版商的网站|谷歌学术搜索
s . r . Eliason”,最大似然估计:逻辑与实践”,美国统计协会杂志》上,卷89,不。427,1150年,页1994。视图:出版商的网站|谷歌学术搜索
杨黄x, j .太阳,x, x,“前言”,优化方法和软件,25卷,不。5,2010。视图:出版商的网站|谷歌学术搜索
MATLAB-mathworks Mathworks公司”,“2016年,http://www.mathworks.com/products/matlab。视图:谷歌学术搜索
r·h·伯德·m·e·Hribar, j . Nocedal”大规模非线性规划的内点算法,”暹罗杂志上优化,9卷,不。4、877 - 900年,1999页。视图:出版商的网站|谷歌学术搜索
r·g·洛马克斯和d . l . Hahs-Vaughn统计概念:第二个课程劳特利奇,阿宾顿、英国、第四版,2013年版。视图:出版商的网站
s . i Vrieze”模式选择和心理理论:讨论之间的差异Akaike信息标准(AIC)和贝叶斯信息准则(BIC)”心理的方法,17卷,不。2、228 - 243年,2012页。视图:出版商的网站|谷歌学术搜索
s·w·基斯和d·b·埃里森“free-knot样条分段线性建模框架逻辑回归与身体质量指数和死亡率在复杂样品为例,“前沿的营养,1卷,不。16日,2014年。视图:出版商的网站|谷歌学术搜索
f ., a·k·瓦格纳s . b . Soumerai和d . Ross-Degnan”方法估计置信区间在卫生干预打断了时间序列分析,“临床流行病学杂志,卷62,不。2、143 - 148年,2009页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

文摘