计算智能和神经科学

在这一页上

文摘介绍文献综述材料和方法结果讨论和结论数据可用性的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2021年| 文章的ID6522633| https://doi.org/10.1155/2021/6522633

脓毒症的早期预测基于机器学习的算法

赵新 ,¹ Wenqian沈,¹ 和Guanjun王¹

学术编辑器: Friedhelm Schwenker

收到了 2021年6月23日

修改后的 2021年9月16日

接受 2021年9月27日

发表 2021年10月12日

文摘

脓毒症是一种器官衰竭疾病引起的感染导致死亡率极高。机器学习算法应用XGBoost和LightGBM构造两种处理方法:意味着处理方法和特性生成方法,旨在预测脓毒症早期提前6小时。构造特征生成方法通过结合不同的特性,包括强度统计特性、窗口功能,和医疗功能。Miceforest多种插值方法应用于解决大型缺失数据问题。结果表明,该特性生成方法优于平均处理方法。XGBoost和LightGBM算法都是优秀的在预测性能(AUC: 0.910∼0.979),其中LightGBM拥有更快的运行速度和更强的泛化能力特别是在多维数据,AUC达到0.979特性生成方法。PTT、白细胞和血小板是关键风险因素预测早期败血症。

1。介绍

根据sepsis-3标准,脓毒症是指一个失控的身体反应引起的感染,导致危及生命的器官衰竭。患有败血症面临一个非常高的死亡风险。一项调查(1]表明,全世界死于脓毒症的人数高于预期。在贫困地区,绝大多数死者是儿童。2017年,全球有4890万例败血症病例,其中1100万人死于感染,死亡率高达20%。目前,遗憾的是很少有杀菌治疗方案临床证明是有效的。

在重症监护室,脓毒症的早期识别风险控制这种病是至关重要的,因为治疗脓毒症对时间非常敏感。根据国际医学指南,建议开始早期液体复苏前3小时内稳定组织灌注不足引起的败血症,并建议尽早开始抗菌药物静脉,尤其是后1小时内脓毒症。实际上,每小时的延迟治疗会增加死亡率约为4 - 8%。为了掌握控制疾病进展的“黄金时期”,基于规则的脓毒症评分系统通常用于临床的设置,包括全身炎症反应综合征(SIRS)标准,连续的器官衰竭评估(SOFA)分数,和改良早期预警评分(MEWS),警告可能发生败血症。通过提供及时的干预,这些早期预警评分有助于早期预警项目或特定患者的院前治疗高灵敏度。然而,这些标准在特异性差。例如,生理指标的病毒性感冒会导致假警报。

人工智能技术成为一种有效的方法在医疗援助包括脓毒症早期诊断。通过集成的电子病历、医学影像、病理生理学、和其他数据,这些方法已经发展来分析和预测人体的健康和获得准确的处方信息,帮助临床医生做出快速而有效的判断。

2。文献综述

基于人工智能(AI)的诊断系统在许多医学领域是证明是有效的。领域的诊断、预后和治疗败血症,使用机器学习算法包括监督学习和强化学习(2- - - - - -5]。例如,贝克et al。6)开发c径(计算病理学家)系统自动诊断和预测乳腺癌患者是否会生存不通过检查乳房组织成像。

当前研究的主要两个挑战包括使用不同生理指标和建模有效的机器学习算法的诊断、预后和治疗脓毒症。同样,为了提前预测脓毒症,也是至关重要的,选择合适的变量和设计有价值的算法在临床设置。

模型的输入变量是生理指标和输出变量是几小时后病人是否患有败血症。具体来说,输入变量一般生命体征包括心率、血氧饱和度、体温;生物标志物如原降钙素和白细胞介素- 6;实验室碳酸氢盐和肌酐值;和人口变量如性别和年龄。在大多数情况下,缺失值的变量包括很多,比如,在模仿三世(重症监护医学信息市场数据库),已在很多研究中使用。在大多数研究中,有很多缺失值的变量被排除在预测,所以有价值的信息可能会丢失。几项研究使用归责和平均填充缺失值填充方法,但这也可能导致选择性偏差或混合的混杂因素。数据预处理方法需要考虑根据不同数据集的特点。

常用方法来处理缺失值missForest [7],KNNimpute [8,9),等等。其他方面也提出了。例如,Desautels et al。10]提出了见解算法通过使用更容易监视病人的生命体征数据和一个集成的树增加算法训练模型,以简化输入变量尽可能多的类型。最后简化输入变量包括生命体征(收缩压、脉压、心率、呼吸率、温度、和周围毛细血管血氧饱和度(热点₂))、病人的年龄和格拉斯哥昏迷评分(GCS)。其AUC表明感染和未感染患者之间区别的权力达到0.880。希夫et al。11)做一个详细的比较输入变量,如生命体征和生物标志物和预测脓毒症风险提前4个小时。生命体征和生物标记分别作为输入变量来训练模型得到AUC的分数,然后,他们都是作为输入变量来训练该模型比较效果。重要性的最终功能是为了列为重要的生物标志物和生命体征。

通常包括支持向量机的机器学习算法,梯度增加树,随机森林,套索回归和神经网络。其中,支持向量机和梯度增加树木表现出良好的性能。模型有更好的预测能力将进一步测试和改进临床服务,这样医生可以在脓毒症早期诊断做出更好的决策。希夫et al。11]5机器学习模型的预测能力相比,包括逻辑回归、支持向量机,随机森林,演算法和朴素贝叶斯。其中,支持向量机算法和学习演算法AUC最高分数。使用的其他模型还包括深度学习方法和生物方法。例如,Scherpf et al。12)用递归神经网络(RNN)败血症提供的数据集进行实验模拟第三平台。Nemati et al。13)使用比例风险模型来预测脓毒症提前几个小时。林等。14)使用卷积LSTM模型,随机森林模型选择的夯击et al。15基于流程的RNN高斯模型,利用Hariharan [16]。

上述研究表明,良好的性能在脓毒症领域的预测。然而,这些研究中使用的数据量减少,因为大多数直接删除或处理缺失值的填充,模型的解释能力也是有限的。这些方法转移到临床实践是具有挑战性的下面的详细原因。(1)缺乏统一的数据集。研究人员使用的数据从不同的患者群体,例如,模拟公共数据库或其他数据源独立医院。他们选择的临床变量生成模型不同,数据的规模不同。(2)预测的前提和指标设置不同,如败血症的临床标准,观察窗口,和评价指标。

最重要的是,它仍然是不可能做对脓毒症的全面验证预测在不同组与当前机器学习方法和评估他们的普遍性。此外,许多机器学习模型是复杂的,很难解释。临床医生缺乏工具来解释这个“黑箱”模型在临床实践中。本研究致力于从大规模数据挖掘最有效的信息。可解释性的能力,一个度量称为世鹏科技电子价值模型用于这个研究可以帮助打破“黑匣子”壁垒,有良好的可解释性。

具体来说,本研究开发机器学习模型具有良好的泛化能力和临床可解释性通过生成两个数据预处理方法基于XGBoost和LightGBM算法,可以用来预测脓毒症早期提前6小时,协助临床医生早期诊断、干预和治疗。(1)处理方法,它是探索模型预测能力是否会提高提取的意思是向量。后将预警期划分为2小时或3小时窗口,它是讨论类别不平衡的程度之间的关系和模型的预测能力。(2)特征生成模型,训练原始变量在不同模型的预测性能比较与那些额外的不同类型的新生成的特征之间的关系模型的性能和模型的复杂性。

研究的其余部分安排如下。节3、材料和方法。介绍了用于预测的数据,其次是两种数据处理方法和预测的过程。部分4预测的结果报告,分析和探讨了数据预处理的复杂性,以及新功能生成的数量和类型影响了模型的预测能力。部分5给出了结论和未来的工作。

3所示。材料和方法

原始数据从三个独立的医院从生理ICU数据库系统(17,18),共有22336名患者(1714脓毒症患者)。数据显示的频率是一个小时,总共有790125的观察。数据集有40个指标,包括8生命体征,26日实验室值,和6人口指标如表所示1。而不是一个小时,大部分的实验室测量值每12小时或天,导致约90%缺失值由于数据采集频率的差异。此外,本文收集的数据是基于3.0的最新定义脓毒症的诊断。

从表可以看出1人口指标的基本信息是相当完整,最经常测量生命体征指标,缺失值的比例相对较低。相反,实验变量,涉及生物标志物、长期收集间隔时间的差距,大部分的值是失踪。如果缺失值直接删除,大量的信息将丢失。无助的在脓毒症的预测,本研究使用归责方法来填补缺失的数据,而不是直接删除变量。

还有一个组不平衡问题。22336个病人中,只有1714名患者患有败血症,在790215年的观测原始数据,只有17135年的观察与脓毒症标签1,其余为0。0 - 1的比例类别是45:1如表所示2。响应变量具有明显的0 - 1分布失衡,加剧预测建模的难度。如果是强行建模,算法将返回一个学习者总是预测新样本类别0。本研究将预处理原始数据处理数据不平衡的问题和缺失值,运用均值处理方法和特性生成方法。

3.1。意思是处理方法

观察病人的标签包括没有疾病的状态,6小时前疾病,疾病的状态,,分别称为安全期,早期预警期,病期。这三个州的值设置为0,1,1,分别。脓毒症的原因预警时期标签标记为1的是这项研究的目标是预测发病提前6个小时,所以警告期也是标记为1。由于大型缺失值的问题,数据传输的病人患有脓毒症分为三个观测标以0,1,1。每个相应的输入变量也是平均分成三个观察根据标签值的范围。这样的处理方法还可以帮助解决这个问题:缺乏特殊的生物标志物由于太长时间间隔。同时,因为病人不患有败血症,相信他们的生物指标的值基本上是在安全范围内,因此属于安全期。因此,每个变量的数据平均到一个观察的病人不患败血症。

数据处理后,23711年的生理数据终于形成。0 - 1观察脓毒症的标签数量是20133:3578,比率约为5.6:1。类别不平衡已显著提高。

3.1.1。特征选择

在平均处理方法,25个变量确定参与培训模式,包括(a)生命体征指标(人力资源,O₂坐,临时,SBP地图,菲律宾,职责),(b) (HCO实验室变量₃pH值,帕科₂,AST,包子,AlkalinePhos,氯,肌酐,乳酸,镁,钾,Bilirubin_total, PTT、白细胞,纤维蛋白原、血小板)和(c)人口指标(年龄、性别)。

98%以上的变量缺失的比例被移除。HospAdmTime(住院和ICU之间的时间)和ICULOS (ICU住院时间)人口统计指标中删除。HospAdmTime呈现不同的数值水平根据不同病人的情况和可能与脓毒症的更长的潜伏期。本研究更感兴趣的是找到规则来预测脓毒症早期从特定的生理数据的变化,并避免干扰消除。脓毒症患者在进入数据面临高死亡率。他们经常需要长期治疗的重症监护病房,ICULOS值通常是太高了。相反,没有脓毒症的患者通常在ICU治疗时间非常短,然后转移出后加护病房条件改善,因此ICULOS价值较低。ICULOS值的差异是由于疾病的自然条件的差异,这是相反的因果序列脓毒症早期预测从生理数据,所以变量ICULOS删除。

3.1.2。归责的缺失的数据

缺失的数据对数据分析有更大的影响,这主要表现在两个方面:数据统计的弱化和偏见的估计。金和咖喱19)发现,当2%的数据丢失,删除缺失值将带来一个18.3%缺乏信息。Quinten [20.]表明,10%∼35%的缺失数据会带来大约35%∼98%缺乏信息。因此,缺失值的直接删除只适用于数据集缺失值的比例很低,一般不优先考虑。

归责方法分为单一的归责方法和多个归责方法。单一的归责是最简单的方法,用一个值代替缺失值,没有任何估计不确定性的污名。更准确的使用一个单一的归责方法来填补一个数据集时丢失的数据的比例很低。多个归责是考虑的不确定性通过运行一个单一的归责归责多次,所以它可以提供更准确的估计缺失的数据。这些方法估计多次不完整的数据集,通过使用标准分析方法来分析估计的数据集。分析的结果是最后结果聚合为偏差较小。多个归责方法更适合与高百分比的缺失数据的数据集。

因此,本文将使用多个归责方法Miceforest [21]归咎于缺失的数据。它是基于多个链方程的随机森林的污名,使用预测的过程意味着匹配选择值估计。归责方法速度快,内存利用率高,可以输出诊断地图和填写缺失的数据精度高。使用Python语言作为工具和Miceforest为基础,多种估算内核函数用于执行多个归责根据缺失的各种指标的比例。

在图1,估算的意思是折线图绘制是否意味着已经收敛。这表明大多数的23个变量往往收敛后的意思是一些迭代。这也证实了患者生理数据的缺乏数据集不是完全随机的,而是基于常规的存在缺乏时间间隔。

处理后,原始数据的分布和归责如图后的数据集2。其中,红色线是原始数据,黑线是每个数据集的估算(估计)值。从图可以看出,23个变量归责的分布数据与原始数据类似,并直观地显示拟合效果很好。

3.1.3。机器学习的方法来预测早期败血症

两个集成树算法被认为是,XGBoost LightGBM。关于这些方法的详细信息可以被称为(22- - - - - -27]。精度指标、召回、F1-score, Kappa系数,马修的系数是用来评估预测算法的性能。功能重要性评分和世鹏科技电子价值选择模型来解释。

功能的重要性得分,XGBoost和LightGBM算法都可以输出特性的重要性,可以直观地反映数据集内的每个特性的重要性通过分数。功能重要性的计算公式如下所示,和功能的重要性在整个模型

其中,米树木的数量模型,T_米代表了米^th树。

功能特性的重要性在一个树

其中,l - 1是nonleaf树的节点的数量,代表了特征选择的内部节点t是分裂,广场的减少损失(MSE)分裂后的内部节点t。因此,更大的 ,大这个节点的能力来减少损失和拟合能力越强。

上述特性重要性分数可以发现哪些特性产生更大的影响最终的模型,但它是不可能发现之间的关系特性和最终的预测结果。但世鹏科技电子值可以探索的关系(28]。世鹏科技电子是一个附加的解释模型受夏普利值。为每个测试样本,该模型产生一个预测价值,世鹏科技电子价值是分配给每个特性的样本。它的计算方法是类似于线性模型的求和方法。通过假设模型基准分数(即目标变量的样本的平均值) ,的我^th样品 ,的j^th的特征我^th样品 ,世鹏科技电子这个功能的价值 ,和预测价值

当 ,这个功能有积极影响的预测目标价值,反之亦然。因此,世鹏科技电子价值不仅能反映总体特征的影响,还在每个样本特征的影响。

3.1.4。改进的意思处理警告

在上面的处理方法,为每个病人直接警告期长达6获得单一观测相结合,但模型的预测性能可能不是令人满意的。是进一步探讨当分割的时间窗口是否细密度可以带来更好的性能。因此,警告期分为长达2小时或3小时时间窗计算均值向量,和安全期的平均处理方法和疾病期间保持不变。细节如图3。新的训练数据集模型生成的以相同的方式,与原模型相比,改进的泛化能力基于ROC曲线和P-R曲线。

3.2。功能生成方法

与平均处理方法相比,功能生成方法保留了原始的数据和有价值的特征提取的基础上尽可能多的原始特性。

3.2.1之上。归责的缺失的数据

原始数据集有790000多观察,与正常样本(病人没有败血症)占97.8%,和败血症样本仅占2.2%。很多不同,欠采样方法处理原始数据集。这个方法是可行的,通过保留数据和标签1和undersamples适当的标签为0的数据量来平衡类别比率。

当一个人住进加护病房,标签可能保持0后的早期阶段和转移到第一阶段很长一段时间。因此,即使对于脓毒症患者,观察标签1的比例平均不超过20%。在这种情况下,只有脓毒症患者的数据。选择所有1790脓毒症患者的生理数据从22336例进行分析。标签类别的百分比如表所示3。

功能生成方法,提出演绎法用于原始数据,这意味着最新的一个特定的变量的值是用来估计缺失值。如果仍有缺失值,Miceforest归责方法用于填写其余的缺失值。

3.2.2。功能一代

为了探索更多的信息从原始数据特征生成方法,本研究认为从原始数据生成新特性除以时间窗口提取统计特征(29日]。医疗诊断休克指数和氧合指数等指标也添加功能训练模型。

生命体征指标数据通常测量更频繁和更低的百分比失踪;然而,实验室测试值的总体测量频率非常低。为了获取生理数据的细节,本研究构建两个特性:总测量项生命体征和实验室所有值到当前时刻,和相应的检验频率。具体计算方法如表所示4。

根据不同频率的生理数据,构造时间窗口,每个窗口提取和统计特性。时间窗不同的变量如表所示5。

功能生成过程后,变量包括在测量强度特性,窗口功能,和医疗指数特性如表所示6。

最后三个功能如下所示。休克指数表示为脉搏、收缩压(毫米汞柱),即人力资源/ SBP。该指数可以帮助衡量的存在和严重性冲击正常价值为0.5。休克指数= 1时,表示轻微的冲击;当休克指数高于1.5,它表明严重的冲击。常见的症状之一,脓毒症休克的发生,也就是说,组织灌注不足和持续低血压。因此,监测冲击指数在预测脓毒症的风险。

氧合指数表示为动脉氧分压的百分比/氧浓度的启发,即PaO₂/ FiO₂。的正常价值指数是400 - 500毫米汞柱。如果PaO₂显著下降,增加吸入氧浓度的气体不会有助于进一步提高PaO₂。如果氧化指数小于300毫米汞柱,这表明肺呼吸功能障碍发生。脓毒症的诊断标准包括不明原因的低氧血症和氧合指数是一个重要的指标来监测患者的心肺功能。不幸的是,动脉氧分压PaO₂不是收集测量数据,但有血氧饱和度圣₂更换。

它可以看到从氧解离曲线在图4血氧饱和度水平主要取决于水平的氧气分压。s形曲线,和巴西的变化₂值通常是与PaO的变化呈正相关₂价值。因此,圣₂/ FiO₂是用来测量病人的肺呼吸功能。

qSOFA分数主要为脓毒症筛查开发在资源有限的环境,因为它不需要密切监测。顺序器官衰竭评分,措施是否呼吸速率,收缩压、意识状态是正常的。如果呼吸频率≥22次/分钟,收缩压≤100毫米汞柱,与意识的变化发生在qSOFA得分表,将被添加到一个点的累积分数。qSOFA得分大于2时,脓毒症的风险变得更高。

上面的许多新特性变量生成和原始变量总共是149。训练这些变量的模型之前,一些变量消除。其中,整个EtCO柱₂是空的,所以删除。ICULOS变量和计数变量将被删除,因为这项研究没有考虑的时间长度之间的关系在ICU病人是否患有败血症。最后,变量进入模型训练的数量是146。相同功能生成方法,算法XGBoost和LightGBM也应用功能重要性评分和世鹏科技电子价值。

4所示。结果

平均处理方法和特性生成方法,选择75%的数据进行训练,剩下的25%被用于测试集的验证和评价。结果如表所示7。

4.1。模型的性能

在平均处理方法(method1), XGBoost和LightGBM算法性能不同。XGBoost算法召回率为0.55,0 - 1之间有更好的区分性能类别。从Kappa系数和马修斯系数之间的比较结果,可以看出XGBoost产生的混淆矩阵算法对测试结果更平衡。

功能生成方法(method2), XGBoost和LightGBM算法执行比平均处理方法。LightGBM模型的预测结果,在精度更好,回忆,和其他人更好的性能在0 - 1分类的区别。从Kappa系数和马修斯系数的结果,可以看出LightGBM算法预测的混淆矩阵测试集上更加平衡,表明LightGBM是更优秀的,如图5。总的来说,功能生成方法与LightBGM最佳性能。

4.2。改进的平均处理方法的结果

将时间窗口划分为不同大小后,AUC值模型的训练数据生成的最小2 h时间窗显著提高至0.974。它还具有最好的性能P-R曲线,这大约是4%高于原始模型的准确性。数据6和7显示更详细的窗口时间序列数据的特征提取,分类变量的更平衡的0 - 1分布,模型的预测性能。

4.3。对模型性能的影响特点

添加后的特性生成方法,测量强度特性,窗口功能,和医疗指标特性,模型的预测性能进一步改善直接与原始数据相比,模型训练。为了探索新功能的影响在模型预测,LightGBM算法探索为例。分别通过删除功能生成方法的特性和比较模型的预测效果包含不同功能测试集,AUROC,精度和性能指标精度和召回等如表所示8。

从表8,它可以发现模型训练和原始变量加上测量强度特性或窗口特性或医学索引功能都有助于提高各级原始模型的性能。具体来说,窗口功能执行比测量强度特性和医疗指标特性。

4.4。功能的重要性

功能的重要性得分,我们把XGBoost算法在平均处理方法为例;十大功能重要性分数临时变量,O2Sat,职责,人力资源、年龄、SBP地图,PTT帕科₂和钾,如图8。这意味着,这些变量在预测脓毒症的风险起到了重要的作用。

上述特性重要性分数可以显示哪些特性产生更大的影响最终的模型,但它是不可能去探索之间的关系特性和最终的预测结果。世鹏科技电子值可以探索它。

如图9,图中的每一行代表一个功能,横坐标是世鹏科技电子价值,一个点代表一个样本。红颜色,世鹏科技电子特性的价值就越高;更蓝的颜色,低价值的特性。更广泛的区域显示大量的特性,在样本收集。特性的排名是按照降序排列根据世鹏科技电子的平均绝对值。直观地看到临时(温度)是最重要的特性预测早期败血症。值越高,脓毒症的风险就越高。临时是紧随其后的是O₂坐(氧饱和度),职责(呼吸速率),面包(血尿素氮),等等。世鹏科技电子价值的特性排名略有不同功能特性排名的重要性由于计算方法的不同。

为了理解相应的单一功能的价值之间的关系和世鹏科技电子价值,散点图描述提出的对应关系。横坐标是特征值,纵坐标是世鹏科技电子值对应于所有样本的特征值。如图10以温度为例,当温度低于36度或高于37.8度,世鹏科技电子值会显著增加,早期败血症的风险大大增加。

这种交互作用是进一步探讨通过添加一个依赖项,例如,呼吸速率,如图11。其中,在图的上半部分,红点在所有点的比例较高。这表明Resp(呼吸率)较高的情况下,温度对脓毒症早期预测有更大的影响力。

世鹏科技电子的优点是,它可以显示在每一个具体的实例和反映了影响预测结果的重要特征。这些功能的重要性,世鹏科技电子提供的价值,可以显示栏的长度。长杆形状意味着世鹏科技电子价值更高和更重要的变量。其中,功能,将预测更高的(风险因素)所示红色,和预测功能,推动降低(保护因素)所示蓝色。

例如,图12(一个)显示了一个病人保持有高温(> 38.5摄氏度),血栓形成质时间长(PTT > 21),和低氧饱和度。模型估计,脓毒症病人的风险高于平均水平。在图12 (b),病人预计低脓毒症的风险。尽管这个病人有两个风险因素:血小板低血小板计数(< 100)和高总胆红素(Bilirubin_total > 1),血氧饱和度、温度、呼吸速率,和白细胞计数均在正常范围内,使预测的风险,这种情况下低于平均水平。

(一)

(b)

5。讨论和结论

本研究提出了两种数据处理方法和发现的性能特性生成与LightGBM算法是最好的训练方法,这可以有效地解释每个病人的预测结果通过世鹏科技电子价值。意思是处理方法和特性生成方法,性能突出包括以下。(1)平均处理方法简化了复杂的数据,并避免将大量缺失的数据,但成本是,只有意味着信息从数据中提取在不同的国家,和其他有价值的信息丢失,这限制了模型的预测能力。改进意味着处理方法生成一个新的数据集通过计算分裂“警告”期间的平均向量数据每2小时,3小时,和模型的AUC跃升至0.97。(2)功能生成方法,通过采样得到的数据量包含大约100000个观测。填写后通过Miceforest缺失值,达到0.971的AUC的原始模型。其次是产生新的特性,改进模型的AUC达到0.979和回忆最明显的改善从0.6到0.64。

XGBoost时具有更强的泛化能力和数量特征的数据量相对较小。然而,当和的数量特征的数据量急剧增加,大规模,LightGBM不仅在训练迭代速度快,但也比XGBoost更好的预测能力。这是因为它占用低内存,采用leaf-wise增长战略。可以看出,当有很多类型的数据特性和数据的规模很大,LightGBM算法在运营效率和记忆有明显的优势。

PTT、白细胞和血小板是重要的变量排名前十名的意思是处理方法和特性生成方法。这三个实验室值可能有助于改善脓毒症早期预测的准确性。其中,白细胞是一个重要的指标来确定炎症感染发生。增加白血球计数是最具体的变化在急性细菌感染。PTT和血小板凝血指标来评估器官功能。在脓毒症患者凝血异常是普遍的,这可能会导致多器官功能障碍。这将为临床诊断研究提供一些证据和线索。

Miceforest算法做了极好地填补缺失值。它可以预测合理的值填充基于原始数据的分布。增加积极的比例数据样本是一个关键的改进模型的性能,进一步修正数据不平衡的问题,同时增加功能维度挖掘出更多的功能是有限的帮助来提高模型的性能。

未来的工作包括,进一步验证需要前瞻性的研究,考虑到未知模型的普遍性和稳定性。更多的功能可以挖掘一些变量来进一步探讨变量的信息更好的预测性能。对于不平衡数据,研究更有效的方法可以提高模型的泛化。

数据可用性

在这项研究中使用的数据集是公开的,在文章中提到的细节。在这项研究中使用的数据集可以在网站上找到https://archive.physionet.org/users/shared/challenge-2019/。

的利益冲突

作者宣称没有利益冲突。

确认

鑫赵感谢基础研究的财政支持资金中央大学(2242020 r40073 MCCSE2021B02, 2242020 r10053),江苏省自然科学基金(BK20200347和BK20210218),南京科技创新基金会选定归侨学者(1107010306和1107010306),江苏创新和创业基金会医生(1108000245),广东基础研究和应用基础研究基金会(2020 a1515110129)和中国国家自然科学基金(62103105和62103105)在这个研究。

引用

k·e·拉德s c·约翰逊,k . m . Agesa et al .,“全球、区域和国家败血症发病率和死亡率,1990 - 2017:分析全球疾病负担研究中,“《柳叶刀》,卷395,不。10219年,第211 - 200页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
l . Su z, f . Chang et al .,“早期预测死亡率,严重程度和长度在重症监护室的脓毒症患者基于败血症3.0机器学习模型,”医学前沿,8卷,883页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
k . c .元,l·w·蔡k·h·李et al .,“发展早期脓毒症诊断的人工智能算法在重症监护室,”国际医学信息学杂志》上文章ID 104176卷,141年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . e . Garcia-Gallo n . j . Fonseca-Ruiz l·A·切利和j . f . Duitama-Munoz“基于机器学习的1年死亡率预测模型的重症监护室的病人诊断为败血症,”药物Intensiva,44卷,不。3、160 - 170年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
h . j . Kim Chang d·金·d·h·张成泽,公园,和k金,“机器学习的预测脓毒性休克在急诊室的初始分类,“《急救护理,55卷,第170 - 163页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
a·h·贝克a . r . Sangoi s梁et al .,“系统分析乳腺癌的形态学发现基质特性与生存相关,”科学转化医学,3卷,不。108年、108年ra113页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
d . j . Stekhoven和p . Buhlmann MissForest-non-parametric缺失值归咎为混合型数据,”生物信息学,28卷,不。1,第118 - 112页,2012。
视图: 出版商的网站 | 谷歌学术搜索
R核心团队,接待员:统计计算的语言和环境。维也纳:R统计计算的基础,R核心团队,维也纳,奥地利,2014年。
j·c·高尔半岛”,一般的相似系数和它的一些属性,“生物识别技术,27卷,不。4、857 - 871年,1971页。
视图: 出版商的网站 | 谷歌学术搜索
t . Desautels j·卡尔弗特,j·霍夫曼et al .,”预测的脓毒症重症监护室以最小的电子健康记录数据:机器学习的方法,”JMIR医学信息,4卷,不。第三条ID e5909, 2016。
视图: 出版商的网站 | 谷歌学术搜索
即希夫•b . Reddy, g . Damhorst和s . d .赵”生物标志物结合EMR数据识别败血症的病人在不同的阶段,”科学报告,7卷,不。1、1 - 12,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m . Scherpf f . Graßer h . Malberg, s . Zaunseder”使用模拟递归神经网络预测脓毒症与III数据库,”计算机在生物学和医学文章ID 103395卷,113年,2019年。
视图: 出版商的网站 | 谷歌学术搜索
s . Nemati a .持有人f . Razmi m·d·斯坦利·g·d·克利福德和t·g·布赫曼,“一个可翻译的机器学习模型准确预测脓毒症在加护病房,“危重病医学,46卷,不。4、547 - 553年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
林,y, j .常春藤et al .,“脓毒症休克的早期诊断和预测结合使用convolutional-LSTM静态和动态信息,”学报2018年IEEE国际会议上医疗信息学(阿)IEEE,页219 - 228年,纽约,纽约,美国,2018年6月。
视图: 谷歌学术搜索
f .夯击,t·杰克:Rubsamen et al .,“开发和验证一个诊断模型对脓毒症的早期分化和非传染性先生们在生命垂危的孩子-数据驱动方法中使用机器学习算法,”BMC儿科,18卷,不。1、1 - 11,2018页。
视图: 出版商的网站 | 谷歌学术搜索
s . Hariharan实时败血症预测使用的端到端多任务RNN高斯过程分类器美国杜克大学,杜伦大学,数控,2017。
m·a·雷纳c·约瑟夫·r·队长et al .,“早期预测脓毒症的临床数据:生理网/计算2019年心脏病的挑战,”危重病医学,48卷,不。2、210 - 217年,2019页。
视图: 谷歌学术搜索
m·雷纳c·约瑟夫·r·队长et al .,“早期预测脓毒症的临床生理网数据,计算2019年心脏病的挑战(版本1.0.0),“生理网,2019年。
视图: 出版商的网站 | 谷歌学术搜索
j . o . Kim和j .咖喱”的待遇缺失数据在多变量分析中,“社会学方法与研究》第六卷,没有。2、215 - 240年,1977页。
视图: 出版商的网站 | 谷歌学术搜索
问:a . w . Raaijmakers”治疗不同的缺失数据的有效性与likert-type调查数据:引入相对均值替换方法,”教育和心理测量卷,59号5,725 - 748年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
d . j . Stekhoven和p . Buhlmann MissForest-non-parametric缺失值归咎为混合型数据,”生物信息学,28卷,不。1,第118 - 112页,2012。
视图: 出版商的网站 | 谷歌学术搜索
p . Buhlmann和t . Hothorn增强算法:正规化,预测和模型拟合,“统计科学,22卷,不。4、477 - 505年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
焦y的歌,x, s .杨et al。”组合多个因素LightGBM和XGBoost算法预测double-high疾病的发病率,”国际会议的程序开创性的计算机科学家,工程师和教育家施普林格,页635 - 644年,新加坡,2019年9月。
视图: 出版商的网站 | 谷歌学术搜索
w . y . Liang j . Wu王et al .,“产品营销预测基于XGboost和LightGBM算法,”第二届国际会议在人工智能和模式识别,第153 - 150页,北京,中国,2019年8月。
视图: 谷歌学术搜索
t . t . Chen, m . Benesty诉Khotilovich y . Tang和h .赵“Xgboost:极端的梯度增加,”0.4 - 2 R包版本,1卷,不。4、1 - 4,2015页。
视图: 谷歌学术搜索
t·陈和c . Guestrin”Xgboost开发者。XGBoost文档(EB / OL],”2020年,https://xgboost.readthedocs.io/en/latest/。
视图: 谷歌学术搜索
g .柯孟,t·芬利et al .,“Lightgbm:一种高效梯度提高决策树,”先进的神经信息处理系统,30卷,不。2017年,第3154 - 3146页,2017年。
视图: 谷歌学术搜索
s . l .后于m . Faltys m .溶血性尿毒综合征et al .,“早期预测循环衰竭的重症监护病房使用机器学习,”自然医学,26卷,不。3、364 - 373年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
x, x, f·谢et al .,“分时段机器学习模型的实时预测脓毒症在急救护理,“危重病医学,48卷,不。10、pp. e884-e888, 2020年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2611年

下载

1207年

引用