文摘

因子的发现公共卫生监测数据是一个至关重要的问题,从科学的观点来看极具挑战性与巨大的应用研究。在这项研究中,主要的焦点是引入改进的生存存在多重共线性回归技术,因此,提出了偏最小二乘样条建模方法。该方法与基准相比偏最小二乘Cox回归模型的准确性基于Akaike信息标准。此外,最优模型练习在一组实际数据的婴儿死亡率从巴基斯坦人口和健康调查中获得。这个模型实现评估婴儿死亡率的重要危险因素。推荐的功能包含关于婴儿生存和关键信息在公共卫生surveillance-related研究可能是有用的。

1。介绍

生存方式是一种常见的用于预后回归建模方法分析研究了协变量之间的关系,反应,直到一个事件的发生时间。生存分析的框架是基于Cox比例风险模型(PH)由于其易于计算的风险比(人力资源),而不需要估计基线风险函数。最大化的考克斯PH值模型局部似然函数估计的回归参数而不是基线风险函数。因此,生存概率和风险率只能在事件的时间估计,而不是长期评估(1]。

指定参数生存模型的概率分布估计的绝对测量效果,事件响应。一个共同的规范是这些模型的威布尔分布来估计基线风险 尺度参数(参数生存模型 ),一个形状参数( ),和时间( )被定义为 绝对测量的效果,威布尔分布通常可以方便准确的预测为一个常数,单调递减或单调递增的危险。然而,对于更复杂的风险函数,参数生存模型指定威布尔函数会导致不准确的预测(2]。

罗伊斯顿和改模型是一种先进的灵活的参数生存模型以危害限制三次样条模型更复杂的形状和估计一个连续函数3]。该模型考虑了基线累积风险函数登录日志的时间尺度。威布尔分布,这个函数 在哪里 代表基线风险对日志和时间 表示向量的预测。这个函数可以通用 在哪里 描述了一个通用基线记录累积风险函数。罗伊斯顿和Parmar用限制三次样条模型的基线风险函数对数时间表。限制或自然三次样条曲线有一个额外的限制,第一个和最后一个子功能超出了边界结线性立方。限制三次样条可以在数学上表示为[15] ,在哪里 表示数量的节, 代表派生变量, 描述这些变量的系数。这花键有能力以适应复杂形状的基线记录累积风险函数改进的稳定函数(4]。

多元回归模型假定生存没有协变量之间的多重共线性。大部分的生存方法不合适模型与协变量相关的大量数据。偏最小二乘(PLS)回归被认为是一个好的替代传统的回归方法在存在多重共线性5,6]。

因此,偏最小squares-Cox (PLS-Cox)回归模型是分析开发的生存系统存在的多重共线性7]。由于PLS-Cox回归模型的一些局限性,请灵活的参数(PLS-FP)生存回归模型来估计提出了光滑的风险率的预测和相应的累积风险函数和推断生存模型(2]。然而,PLS-FP模型的主要限制是它并不适合所有风险函数的复杂形状。本研究的动机是开发一个生存模型,有能力模型复杂形状存在多重共线性。该方法开发的集成部分最小二乘与罗伊斯顿改限制三次样条模型,因此命名为偏最小二乘样条(PLS-spline)模型。这个模型有能力以适应更复杂的形状的基线记录累积风险的功能。偏最小二乘回归的效率花键(PLS-spline)模型是测试使用模拟数据通过检查它的性能在不同的尺度与各种花键节。该模型应用于一个真实的数据集的婴儿死亡率估计风险函数和回归系数。基于不同尺度的分析使用模拟和实际数据集揭示这些模型的效率估计基线记录累积风险函数的存在多重共线性。

2。材料和方法

2.1。Cox比例风险模型

对一个事件的发生时间 ,Cox模型假定风险函数的审查

在哪里 是基线风险函数, 是向量的系数,然后呢 是一个 协变量的矩阵。在这个模型中,基线风险函数是未指定的。

2.2。偏最小Squares-Cox (PLS-Cox)回归模型

偏最小squares-Cox (PLS-Cox)回归模型作为基准模型。让 代表着时间和生存 偏最小二乘模型计算 潜在的组件 协变量相关;然后,考克斯模型假定基线风险函数

在哪里 是未指定的基线风险函数, 是向量的系数,然后呢 是一个 矩阵的组件。hyperparameters被发现的最大似然估计方法。

2.3。Royston-Parmar样条模型

在PH值的上下文模型,Royston-Parmar (RP)模型可以表示为 在哪里 描述了一个限制三次样条函数的变量 和结的数量 一般来说,三个不同的尺度,危险,困难,或正常,用于模型RP样条模型。当没有指定节,威布尔分布的限制三次样条减少规模是否危险。概率和正常的尺度,没有结给log-logistic和对数正态模型,分别。

2.4。偏最小二乘样条(PLS-Spline)生存回归算法

的矩阵表示 协变量相关 样本的大小 算法执行基于FP模型 组件(如 )PLSR计算的时间 作为一个变量和响应 作为协变量的矩阵 提出的伪代码PLS-spline模型表示如下。

1:函数请模型 在哪里 协变量矩阵, 是时间, 是事件, 是组件的数量。
2: 装载重量
3: 规范化的装载重量
4: 得分向量
5: X载荷
6: 载荷⊳重复上述步骤,直到
7:
8: ⊳罗伊斯顿和改(RP)限制三次样条模型PLSR组件。
2.5。数据模拟

模拟数据生成使用simsurv R-package评估现有和拟议的生存模型的效率。模拟数据集生成的尺度参数的威布尔分布( )和形状参数( )超过5年的审查。协变量之间的相关结构200范围从0到0.9 100多个样本。

2.6。真实数据集

本研究使用公开可用的辅助数据,从人口和健康调查(DHS), 2012 - 13年期间收集的来自巴基斯坦的支持下,美国国际开发署和ICF国际。因此,不存在伦理问题参与这项工作,和不需要伦理审查在这项研究中8]。二级数据的婴儿从出生到12个月岁出生在巴基斯坦是15 - 49岁已婚妇女用于这项研究。兴趣是婴儿生存的结果在12个月后出生的第一个月。样本包括80名婴儿属于巴基斯坦,和86不包括在内。

3所示。结果

3.1。基于仿真的结果

用威布尔分布,高维度模拟数据集生成多重共线性。构造数据然后分成测试和训练集70:30训练和评估指标,并提出了方法的性能。危害、可能性或正常尺度建模每个零和一个结。

PLS-spline模型与不同节测量在不同的尺度是安装在模拟数据集生成的威布尔分布来访问的性能模型基于Akaike信息标准(AIC)和贝叶斯信息准则(BIC)。图1显示之间的比较标准,六PLS-spline PLS-Cox回归模型,模型与基于不同尺度不同的结。拟议中的PLS-spline模型基于风险规模与被象征为零结一结 ,分别。同样的, 代表相应的几率和正常的尺度。图1表明PLS-spline模型基于这三个尺度与一个结性能比最高PLS-Cox PLS-spline模型和零结。但也清晰的从图1PLS-spline模型在零结显示比基准PLS-Cox更高效率的方法。图2显示了效率比较的基础上,基于AIC BIC保护性能。

3.2。应用程序
3.2.1之上。婴儿存活时间数据集

一个集群热图呈现在图3用于显示协变量之间相关性的大小。负相关性蓝色所示,正相关性提出了红色。高强度的颜色显示相应的变量之间的相关性更高。只有36则反是选定为comprehendible可视化研究多重共线性。图3清楚地描绘了协变量之间的相关性显示强烈的颜色。

多重共线性的热图是显而易见的。因此,协变量之间存在多重共线性在高维生存数据检测视力。

高维婴儿生存数据集有多重共线性是用于比较的模型和婴儿死亡率的风险因素的识别。样本数据分为测试和训练集70:30评估请生存方法的效率。

PLS-spline模型与0和1结安装在真实数据集访问的性能模型基于不同尺度运用AIC和BIC。图4展示了更高效率的比较展示所有提出的方法相比,基于AIC PLS-Cox。另外,最高的性能 观察图4相比于其他 方法。这一结果表明,提出的基于概率PLS-spline模型规模有一个结是观测数据的优化模型。

5基于BIC显示模型的比较。视觉表征表明,基于概率PLS-spline模型规模与0和1结几乎相同的效率。两个模型评估准则的基础上,我们可以得出这样的结论:基于概率PLS-spline模型规模是最好的观测数据的拟合模型。重大风险因素的识别,PLS-spline模型基于风险规模与执行一个结是最好的拟合。

1介绍了选择有影响力的婴儿死亡率的危险因素 为最优模型。27影响因素分析后,发现在巴基斯坦与婴儿死亡率显著相关。积极母亲协会”时代,类型的地区,实际居住地,母亲家庭的头,关系类型的烹饪燃料,出生人口的数量在过去的五年里,距离,运输和伴随卫生设施,母亲的职业,通常决定被申请人的卫生保健的人,人通常决定访问家人或亲戚,人通常决定如何处理钱的丈夫挣,成功生育间隔,和血液与丈夫发现婴儿死亡率。此外,负协会的地区,选择家庭暴力,家庭有摩托车/摩托车,阅读报纸或杂志,看电视,财富指数,对结核病和肝炎,击败合理认为如果妻子忽略了孩子或与丈夫或者妻子燃烧食物,和前出生间隔。

6显示基线的估计累积危害从PLS-spline模型衡量风险,正常,尺度概率为0和1结婴儿生存的数据集。所有六个PLS-spline模型产生平滑估计基线累积危害外推到12个月的时间显示一致的估计。基于概率PLS-spline模型规模有一个结是由红线图6显示最低的累积风险第一出生后4个月,第五个月温和增加,最大的第六个月。

4所示。讨论

与统计技术的进步,一些修改建议为生存模型的分析来提高效率。杨et al。9]介绍DeepCoxPH,估计策略基于深度学习和考克斯模型,提出了提高整体生存分析的危险分层。埃达et al。10)使用离散时间马尔可夫链理论和Cox回归预测生存函数。作者还采用参数分析比较和变量选择。另一项研究开发了一个算法的共轭参数模型和偏最小二乘的极端观察增强模型性能(2]。PLS-spline模型在这项研究中,提出了对待生存反应共线的预测使用样条策略基于不同尺度和不同节关于更好的模型性能和优越的解释的潜力。检查风险函数具有高精度、PLS-spline模型提出的积分请和罗伊斯顿及parm样条模型存在多重共线性。该模型比较与PLS-Cox模型使用模拟和实际数据集进行效率比较。PLS-spline模型与一个结就危险,困难,和正常的尺度是最好的模型来估计累积危害基于AIC和BIC从威布尔分布生成的模拟数据。更重要的是,对于已知的模拟数据,PLS-spline模型表现出更好的性能比PLS-Cox模型。婴儿死亡率的真实数据集,PLS-spline模型与一个结的规模是观察到的优化模型。最后选择的模型是用来识别婴儿死亡率在巴基斯坦的影响力的风险因素。母亲的年龄、职业和居住地发现婴儿死亡率在当下研究的重要预测因子。先前的研究发现,年轻的和年长的产妇年龄与婴儿死亡率显著相关(11]。另一项研究报告称,母亲的地区居住和工作状态显著危险因素发展迟缓,体重不足,浪费了孩子(12]。与文献一致,发现家庭暴力与婴儿死亡率显著相关(13]。目前的研究发现,增加媒体意识(看电视和阅读报纸)和财富水平可以降低婴儿死亡率的比例。文学描述媒体曝光和收入水平与母亲有关的结果(14,12]。可用性和利用卫生设施确定婴儿死亡率的一个重要危险因素。前几项研究证实卫生支出可能降低孕产妇和婴儿死亡率不同国家(15,16]。密切类似于以前的文学,生育间隔和血缘婚姻表现出显著的协会与婴儿死亡率(17,18]。整个算法提高了模型的精度性能更高程度上考虑协变量共线。效率表明生存函数,风险函数,累积风险函数和参数与未知的生存时间分布的数据分布可以更有效地估计的光滑的线条。PLS-spline模型被视为一个有用的补充工具箱的生存时间响应的估计和预测广泛使用PLS-Cox模型在生存环境。

5。结论

提出的基于不同尺度PLS-spline模型显示了各种结是一个更好的选择对模型性能和优越的解释的潜力。使用基于概率PLS-spline模型规模有一个结,影响因素确定为婴儿死亡率的重要预测因子是在协议与其他研究。所以,PLS-spline模型有可能作为一个多元生存技术在科学研究更有效地将高维相关生存时间数据。

数据可用性

数据都是免费的http://www.dhs.org

的利益冲突

作者宣称没有利益冲突。