文摘

最近的急剧扩张COVID-19爆发将人类社会作为一个整体承受巨大的压力。众多生物标志物正在接受调查,为了追踪病人的状况。这可能会干扰其他疾病的迹象,让专家来诊断或更难预测事故的严重程度。结果,本研究的重点是一个多级预测系统的开发能够处理三个严重病例(严重、中度和轻度)。CRP的淋巴细胞比率(c反应蛋白血液测试)和热点2(血氧饱和度)指标排名和用作预测系统属性。创建一个基于支持向量机的机器学习模型。78 COVID-19 Azizia初级卫生保健部门的患者/瓦西特省卫生部门/卫生部COVID-19临床数据集的不同组合形式。结果表明,该方法的平均精度82%。建立了预测系统允许早期识别三个严重的情况下,这可以减少死亡。

1。介绍

持续COVID-19大流行,造成SARS-CoV-2病毒,带来前所未有的公共卫生危机,整个世界。到目前为止,1.05亿年的总病例中,有228万人被感染,死亡。目前感染的患者中,98%为轻度和中度病例,2%是严重的病例。医疗服务遭受过度拥挤的严重情况下,导致重症监护资源的能力(1]。当前的一些研究集中在严重情况下,具有高死亡率比其他情况下(2];他们还集中在重症监护管理的任务(3,特殊群体4],并存病(5]。

医学,生物标志物的行为与c反应蛋白(CRP)水平可用于肺炎的早期诊断,并与重症肺炎患者CRP水平很高(6]。此外,出现气短,因为缺氧,这意味着热点2< 90%,但随着COVID-19,热点的正常水平2下降,甚至降至70%,60%或50%,虽然病人呼吸困难的感觉。热点;2是一个主要元素的理解和管理病人的护理。当前边界措施多少血红蛋白氧与血红蛋白保持多少的。监测血氧饱和度、无创医疗设备称为脉氧仪放置在一个人的手指。经常用于重症监护室(ICU),操作剧院,术后在医院病房。调查除了rt - pcr检测结果如正常或低的白细胞总数、中性粒细胞、淋巴细胞减少,高c反应蛋白(CRP)、淋巴细胞比例,低原降钙素、肺动脉栓塞的重要高度,两国在CXR肺炎,血清铁蛋白水平,毛玻璃样阴影(GGO),和疯狂铺平出现在胸部CT扫描显示COVID-19的存在在这个流行情况(7]。所有这些生物标记是重要的与COVID-19监视病人的情况,但大量的这些生物标记让医生和紧急系统决定或预测病人的严重程度。

目前,许多医院和医学研究中心取代了传统的数据分析方法和计算机辅助系统,完全依赖人工智能(AI)。这来自人工智能能够产生快速解决方案和诊断COVID-19准确和可靠。选择一个适当的人工智能方法,创造了一个高效、快速、无差错的解决方案是一个关键的任务,尽管存在大量的自动化人工智能方法(8]。

最近的研究表明,人工智能模型,如机器学习和深度学习方法具有较高的预测能力和诊断COVID-19准确和可靠9,10]。尽管纯医学角度研究,在预测研究中,毫升和DL支持COVID-19通过医学图像诊断检查。这些研究利用x射线胸透(CXR)早期诊断的图像严重病例使用毫升和DL工具,研究人员主要集中在实现高分数使用任何预测和分类的特性和一个合适的算法来完成,因此在技术上提供一个健壮的系统不管这些特性的真实有效性COVID-19诊断从医学的角度来看(11- - - - - -15]。在参考文献[11,12,14),作者提出了一个自动深度学习模型的检测和分类COVID-19情况下基于病人的x射线图像。同样,文献[15)提出了patch-based DL模型但最终分类结果是通过多数投票从推理结果在多个补丁的位置。在胸部x光片数据集(13),作者提出了一个深转移学习模型基于生成对抗网络(甘斯)克服过度拟合问题,从数据集生成更多的图片。另一方面,一些研究人员集中在检测血液样本被感染的病人试图找出最好的生物标志物提供无损检测解决方案,防止医务人员感染感染,为进一步治疗提供病人的严重程度评分(16- - - - - -18]。在文献[16),作者发现只有三个生物标志物(LDH、c反应蛋白和淋巴细胞)COVID-19预测通过开发一个ML-based模型,可以预测病人的死亡率。同样,在文献[17COVID-19严重性),一个定制的机器学习模型预测建立了11个临床生物标志物。在文献[18),预测COVID-19与深度学习模型进行了基于18个实验室发现,分析了6个不同的深度学习模型。然而,大多数这些研究讨论了分别从技术概念或医学。没有以前的工作试图构建一个健壮的系统结合技术和医学愿景,以协助医生终于有一个明确的决定如何严重的病人的情况。此外,温和的和温和的情况下被认为是大多数情况下,然而,他们大多是被忽视在先前的研究尝试;因此,研究也应该关注耐受药物的发展可能影响症状和疾病的轻度和中度患者避免长期肺损伤(19]。此外,使用的数据来自医学实验室和病人的生命机能的方式可能给技术精度高,但它可能会干扰正常的流感或流感造成的其他病毒(20.,21]。

这项工作的主要贡献可以归纳为以下几点:(我)提供一个数据集称为伊拉克/ WA_COVID_19。这个数据集构建基于不同的临床特征,如病人的病史,血尿素测试,和病人的重要功能。(2)基于特征的特征选择方法在检测重要性COVID-19病毒从医学和技术感知。(3)提出一种多级情况严重程度的预测系统COVID-19病人在感染的早期阶段。(iv)最后,除了严重的情况下,这项工作指导注意轻度和中度情况下,因为他们认为大多数移动患者传播病毒的风险很高。

2。数据收集和资源

2020年8月4日之间,12月3日,2020年,被用于模型的发展。COVID-19病毒感染的人的总数是78年,他被诊断出专门的医生的监督下,分布在个省。78名患者,失去了味觉和嗅觉是最常见症状(分别为92.3%和91.02),其次是发热(67.95%)、广义的弱点(66.67%)、咳嗽(58.97%)、喉咙痛(57.69%)、打喷嚏(56.41%)、肋膜炎的胸部疼痛(53.84%)、腹泻(52.56%)、鼻塞和鼻液溢(42.30%),表中列出1。患者的平均年龄为52.83±35.39岁,58.97%为男性。实验室结果列在表1提出了以下数据:- c反应蛋白(CRP)积极超过12毫克/ L,白细胞(WBC) 44 109 / L (NV 4 - 8 13.3 109 / L),淋巴细胞 109 / l (NV) = 0.2 - 4 1087年109 / L),血小板计数 109 / L (nv100 - 300),血清肌酐21.9 mg / dL (NV 0.6 - -1.2),血清尿素299 mg / dL (NV 15-45)。大多数时候,病人使用nonrebreather面具除了在进食和睡眠时间。78年COVID病人包括在这次调查,67被恢复,从医院出院,其余11人死亡。病人的严重程度进行评估和分类为严重,温和,温和的医生根据伊拉克医院的标准入学。

3所示。自动多级严重性预测系统的开发

该模型实施在以下阶段:

3.1。数据预处理

在典型的检测系统中,实现一个预处理步骤是至关重要的,它准备下一步的数据正常。在这个阶段,我们归一化每个特性的数据在使用训练集和测试集min-max公式:

共有78名患者已经包含在最终从Al-Aziziyah瓦西特省的医院收集的数据集,我们51样本训练和27个样本用于测试集。

3.2。功能重要性:医疗和技术角度

许多模型被用来预测进展风险严重程度或死亡患者COVID-19病人。的重要预后因素经常被认为是包括并存病、年龄、性别、淋巴细胞计数,和c反应蛋白(CRP)等(22]。另一方面,新的研究显示增加CRP水平和减少热点2。淋巴细胞计数可以作为潜在的严重COVID-19指标,独立并存病的高龄,和性23),这就是我们想要证明在这个工作技术作为医学上。

从技术上讲,使用功能的重要性评估使用相同的标识符用于训练和测试集的分类系统。模型的性能显示没有添加时增加更多的功能。这是澄清在图1,淋巴细胞、CRP和热点2生物标志物是利用和测试他们使用时显示的分类精度。考虑到潜在的预测因子之间的关系,医学上已经证明,三个生物标记测试,以验证他们的歧视的准确性。这将技术批准这些生物标记物的强度预测。使用训练集的数据,首次检测淋巴细胞和高斯SVM给68%的准确性。然后,c反应蛋白添加到前一步获得72%的准确性。最后,热点;2是附加到导致最后的训练精度88%的机器学习模型。

3.3。训练模型开发

在这项工作中,case-severity检测系统提出了作为techno-medical援助体系来帮助医生做出决定关于病人的情况。一个活动图如图所提出的工作2。提出系统意味着三个基本重要的特性,比如淋巴细胞,c反应蛋白和热点2用来区分严重、中度和轻度的病例。模型输出对应于病人的严重程度。通过将数据从三个不同的测试(血液、尿液和至关重要的功能)和测试它们在系统中的重要性已经证明医学文献。这些特性(即。,b我omarkers) were utilized to train the classifier to separate the classes.

严重情况下患者分配给类1、中度到二班,和温和的类标签3。模型性能评估通过计算准确性,一半总错误率(ht),假阳性率(玻璃钢),和假阴性率(FNR)。接受者操作特征(ROC)也用于查看系统的准确性的图形表示:

的情况下使用这两种支持向量机(SVM)进行分类和决策树(基于基尼指数)。一般来说,任何样本中提取的特征传递给分类器来计算样本的得分。根据分类器的决策阈值,如果样本的得分高于阈值,然后样本被接受;否则,样品就会被丢弃。某一个分类器的选择可以影响整个系统的性能。许多内核函数可用于支持向量机,如高斯径向基函数(RBF)和多项式,可以利用来解决非线性问题。在这部作品中,应用高斯SVM的严重性检测模型。首先,分类器的训练集训练使用数据库(瓦西特省)的城市。高斯内核用于获取匹配分数。高斯核的SVM分类器公式表示如下: 在哪里N代表训练数据的大小,α代表了重量,X代表支持向量,b代表了偏见,和高斯内核公式表示如下: 在这里,σ是一个免费的参数表示内核的宽度和大于0。高斯SVM提供模型预测速度快和高灵活性的多个分类。它也证明了自己的支持率在其他实验工作期间SVM内核实现最好的精度比别人。训练模型的参数见表2

另一方面,采用决策树算法提出的进一步验证系统,80%的数据被用于预测模型的训练使用基尼指数如下方程所示(24杂质,基尼指数指定数据。它是计算每个数据集的特征:

在上面的公式中,k代表类的数量目标特性,π代表的概率类。

4所示。多级评价预测系统

评估提出工作收集数据库的性能,计算准确性,ht,真阳性率(TPR),假阴性率(FNR)和AUC是列在表中3。测试系统的性能也描绘了中华民国图在图3,曲线下的面积(AUC)表明良好的分类性能。

拟议的工作显示低错误率约(18%),知道测试数据集包括27个病人的样本,9为每个类样本,严重,温和,和温和的类,分别。输出显示在严重的情况下完全成功的预测和温和的类,而只有4 9成功预测的温和类样本。这表明很高精度的近82%,其中22个27个样本准确地检测到,如图4。这个批准我们的基本假设中病例不注意在之前的文献,尽管他们的重要性和他们开发一个严重的情况下,如果不妥善处理。大多数研究人员只专注于检测严重和长程的病例。决策树也很好使用20%的数据集的测试准确性的目的。获得75%的准确性。这有助于进一步验证该方法和收集的数据扩展到不同类型的分类器。比较我们的结果和艺术的国家,一个重要的结果显示,表中列出4。表说明了更好的预测精度比以前的工作使用相同的分类算法在不同数据和不同类型和数量的特性。

5。讨论

我们工作的意义在于两条路径;一个相关的事实导致系统相结合,不同于以前的工作,医疗和技术角度处理COVID-19大流行。相关工作集中在医学的观点对待病毒,这可能会导致缺乏统计信息或可怜的诊断过程。另一方面,一些研究人员专注于利用病人的数据来构建健壮的机器学习或深度学习系统,并提供尽可能高精度忽视这一事实可能没有一个真正使用的特性影响病毒从医学的角度来看。列在表4,以前的工作利用10的特性,而我们只提出3具体的特性,成功地提供更高的精度。

为了解决这个问题,某些患者的有效性测试COVID-19和它们之间的关系是确定病理工作。这是转换技术证明了使用机器学习模型。第二个相当大的影响力在于病毒分类为三个主要类别,如严重,温和,温和,第二两类被大多数研究者忽视。以前的工作集中在严重发现死亡病例,而温和的情况下,例如需要考虑这样一个事实:他们可能恶化严重如果治疗不当。此外,这种分类将有助于降低所需的人类努力和医疗资源处理这个大流行。温和的情况下可以给医疗程序,送回家,远程监控,而不需要呆在医院。这将使患者更严重的条件进一步的医疗护理。

一些医学研究试图证明lymphocyte-CRP (LCR)的关系。观察到高CRP水平和淋巴细胞水平低以及热点2减少可能与COVID-19严重性(23,26]。这是技术上证明测试使用机器学习模型的预测精度在使用这些生物标志物作为模型的特性。相当准确性增量是注意到在使用这三个指标在一起,而不是只使用一个或两个。这是之前解释的部分功能的重要性。

发达的机器学习预测系统取得了相当高的单和整体系统预测的准确率。还显示好灵活性测试额外的数据或被训练在未来更多的数据。这将有可能直接服务病人的流动COVID-19病人护理和适当的参考资料。

6。研究的局限性

限制的工作基本上是缺乏相关数据。然而,训练集和测试集的数据收集从两个不同的医院在两个不同的城市,它提供了足够的指示系统的可扩展性来处理各种数据。此外,温和的情况下表现出更少的预测精度比其他两个case类,但他们也最后强调了被认为是在进一步的研究尝试。

7所示。使用该数据集的好处

测试COVID-19通常是通过使用rt - pcr技术,这并不总是非常准确。正如我们前面所提到的,不同类型的数据像血液和尿液测试,症状如发烧、咳嗽、和身体虚弱,生命体征如血液中氧的饱和可以指示性的疾病。因此,在这里,我们想提出可能的场景,可以实现通过其他研究人员使用相同的数据用于这项研究。我们预期的好处所收集的数据集;可以应用到这两个主要的和有用的场景数据:预测和诊断情况。在每个场景中,有几个subscenarios。在这里,我们将提到一些。

7.1。预测场景

预测的主要功能是预测死亡率,严重程度,或复苏。因此,建议可能如下:(我)确定健康风险和COVID-19预测患者的死亡率。这可以帮助医院、临床设施,照顾者在决定谁需要比其他病人先感兴趣之前,分流患者。同时,系统通过过度拥挤和另外碎推迟拖延提供重要的护理。(2)比较不同的机器学习算法(例如,合奏方法)来预测病人的恢复。这提供了预测的优点放电时间机会支持基于许多计算智能方法的临床信息,可以实现的。(3)从我们的观察数据,COVID-19病人也可以另外显示严重的症状和体征,患者和一些严重的情况下可能死亡或遭受最重要的器官衰竭。因此,它是非常重要的预测症状的严重程度。(iv)一些轻度和中度条件可能会发展成严重的条件;因此,应考虑预测的感染概率。

7.2。诊断情况

有效地诊断医学的COVID-19患者获得最有效的结果是很重要的。目前,严重和长程病人通过一些医疗功能分化,现在不再全面描述复杂的生理和免疫反应的疾病。因此,人工智能方法可用于病人诊断使用收集到的数据集。我们建议,利用之间的关系症状或病人的病史(如慢性疾病)和他/她的性别。此外,血液或尿液测试之间的关系,所有这些的影响病人的病情的诊断可以调查。

8。结论

COVID-19预测系统是目前最新潮的系统之一的大流行。在这项工作中,我们发现三个重要指标(淋巴细胞、CRP和热点2),已被证明病态和技术。以前的医学发现通过卫生保健部门人员用来构建一个辅助技术系统严重程度的预测目的。一个镇定的数据集78感染者。病人的严重程度进行评估和分类为严重,温和,温和的专业医生根据伊拉克医院在入学标准。组合的这些医疗和技术努力和资源,生命的健康风险和损失减少。COVID-19预测,我们开发了两个基于机器学习的模型能够预测多级情况严重程度(严重、中度和轻度)有超过81%的准确率(使用SVM),使早期干预,检测和可能对COVID-19-affected病人死亡率降低。本研究打开了一扇大门为新的研究方向,可能使用不同的机器学习模型并利用数据库对COVID-19探索其他指标的影响。

数据可用性

在生成的数据集和/或分析在当前研究可从相应的作者在合理的请求。

伦理批准

本研究中使用的所有数据授权Azizia初级卫生保健部门/瓦西特省卫生部门/卫生部,在这方面还有一封信。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢所有参与本研究的患者,以及所有的医生、护士和管理人员的Al-Aziziyah瓦西特省的医院。这项研究没有得到外部融资。