文摘
个人存在的糖尿病患者似乎容易COVID-19由于血糖水平的变化和糖尿病并发症。作为观察到在全球范围内,大约20 - 50%的个人影响冠状病毒有糖尿病。然而,最近没有发现,糖尿病患者比非糖尿病患者更容易合同COVID-19病人。然而,一些最近的研究指出,这可能是至少两倍死于糖尿病并发症。考虑到多种的死亡率COVID-19在糖尿病患者中,本研究提出了一种COVID-19糖尿病患者的风险预测模型使用一个模糊推理系统和机器学习方法。本研究旨在评估COVID-19的风险水平在糖尿病患者没有得到医生的建议及时的行动和克服COVID-19在糖尿病患者的多种的死亡率。该模型需要八输入参数,发现在糖尿病患者最具影响力的症状。借助各种先进的机器学习技术,15模型建立规则库。CatBoost分类器给最好的精度,还记得,精度,F1的分数,kappa评分。hyper-parameter优化后,CatBoost分类器显示76%的准确率和召回的改善,精度,F1分数,和kappa评分,紧随其后的是逻辑回归和XGBoost 75.1%和74.7%的准确率。 Stratified k-fold cross-validation is used for validation purposes.
1。介绍
他开发一种新的冠状病毒,严重急性呼吸道syndrome-coronavirus 2 (SARS-CoV-2),提供了前所未有的挑战医疗社区在世界各地。更高的传染性和毒性相对较低造成冠状病毒的快速传播疾病19 (COVID-19)世界各地。2019年以来最早的实例在12月8日,在中国湖北省,COVID-19蔓延到全球许多国家一起21294845累积病例和7日,全球61779人死亡报告(1]。COVID-19通常发生在感染后2到14天,症状包括发烧(98.6%)、咳嗽(59.4%),和喉咙痛(5%)。许多先进的技术被认为是对抗COVID-19和减少人工交互(2- - - - - -5]。此外,它也在最新的调查中发现,年龄,性别,和最近的旅游历史,连同现有的医疗条件,对于COVID-19也起到了至关重要的作用。它可能会导致严重的问题6),如肺炎或死亡。病人有糖尿病风险升高等严重并发症的成人呼吸窘迫(7- - - - - -9]。尽管没有最近发现,糖尿病患者更有可能比没有糖尿病患者COVID-19合同,一些近期研究发现可能是至少两倍死于糖尿病并发症。糖尿病被证实是一个疾病在22%的32 nonsurvivors 52创伤患者的研究(10),16.2%来自173年研究急性疾病,患者和12%从140年住院病人的研究11,12]。双重的增益在重症监护患者的患病率发现糖尿病患者与非糖尿病患者相比COVID-19。死亡似乎是关于糖尿病患者的三倍大1,10- - - - - -13]。糖尿病患者观察COVID-19的风险更大。一些最近的研究表明,COVID-19致命的结果的概率是50%的糖尿病患者(14]。
机器学习(ML)采取的方法是(15等),和一群分类算法支持向量机(SVM),决策树(DT),再采用COVID-19数据(资讯)。一种自适应神经模糊推理系统(简称ANFIS)是用于创建数据集疾病风险的水平。在这些数据,支持向量机提供了100%的准确率,但当测试对测试数据导致了80%的风险预测。同样,一群病人数据获取以及它们的治疗方法作为分类值随着病人的地理起源和生存数(16]。随机森林方法,进一步推升了该算法学习演算法,导致一个令人印象深刻的0.86 F1得分。也给了存活率的概率基于旅游历史,国籍,性别和年龄的群体。Kerk et al。17)建立了参数条件Takagi-Sugeno-Kang模糊推理系统模型操作作为一个n - ary聚合函数通过模糊隶属度函数和模糊规则规范。
鉴于COVID-19的多种的死亡率在糖尿病患者中,这项工作提出了一个COVID-19糖尿病患者的风险预测模型使用一个模糊推理系统和机器学习方法。该模型需要八输入参数,发现作为最具影响力的糖尿病病人症状COVID-19收缩,即发热、咳嗽、喉咙痛、心血管疾病、高血压、年龄、性别、历史和旅游有关过去的三个星期。咳嗽的可能的五个层次,即胸口咳嗽、干痒咳嗽、支气管炎、post-viral咳嗽,百日咳,被认为是。同样的,发烧是所有可能的阶段。COVID-19性也是另一个关键因素。平均61.8%的病例记录的所有重大的痛苦状态造成男性,38.2%是女性。的病死率COVID-19证明是随着年龄的增长近1.4%的涨幅。
计算智能技术(18- - - - - -22)如模糊逻辑应用于许多应用程序(23- - - - - -25]。模糊逻辑控制器操纵语言和不精确的数据,而不是模型的过程。在我们的例子中,专家知识获得的一些医疗从业者的经验治疗COVID-19等各种疾病。它可以模拟人类智能和现实世界的规则允许应用程序如人类如何思考。Iwendi et al。16)使用一种自适应神经模糊推理系统(简称ANFIS)模型和控制不明确和不确定系统预测COVID-19的危险因素。COVID-19分类数据集使用支持向量机已经完成,这给所有分类器中100%的准确率。因此,得到了80%的风险预测COVID-19病人。此外,作者的16)使用COVID-19病人相关的各种信息,如旅游、健康、和年龄,预测COVID-19的严重程度。随机森林模型被用于预测,得益于学习演算法。因此,94%的准确性的F1得分0.86已经实现。此外,作者的17)建立了参数条件Takagi-Sugeno-Kang模糊推理系统模型操作作为一个n - ary聚合函数通过模糊隶属度函数和模糊规则的规范。
模糊控制器可用于年级某领域知识的不确定性和不精确。特定领域的知识和经验治疗各种疾病如COVID-19至关重要交通设计模糊控制器在制定语言协议生成控制输入控制系统。3888(3 3 3 3 3 4 2 2)规则形成基于8个输入参数和一个输出,使COVID-19的风险水平,糖尿病患者人数五,。风险级别1是最低的风险,而风险5级是最高风险。各种先进的机器学习技术的帮助下,15模型被建立,即逻辑回归、演算法,CatBoost,梯度增加,随机森林,极端的梯度增加,额外的树木,光梯度提升机、决策树、线性判别分析,K-neighbors, SVM-linear内核,脊,朴素贝叶斯和二次判别分析。这些十五的性能模型的准确性,记得,精密,F1的分数,kappa评分计算。hyper-parameter方法进一步优化表现最好的模型。拟议中的推理管道的框图如图1。
工作的主要贡献如下:(我)COVID-19对糖尿病患者的影响是确定使用模糊推理系统(FIS)和机器学习(ML)技术。(2)各种机器学习模型使用各种毫升技术训练,并通过分层K-fold交叉验证的性能进行了验证。偏差和方差问题中和的机会。(3)输出毫升模型可直接用于验证实际的数据和一个学习度量当前模型精确。
其余的部分进行了如下研究。模糊模型提出eight-input模糊交通控制器,模糊集隶属函数的输入和输出变量,提出工作的规则库都是部分中描述2。模拟给出的细节部分3。部分4介绍了机器学习模型,以及各种机器学习模型的结果。最后,部分5总结了使用一个简短的讨论。
2。模糊推理系统
模糊控制器基于逻辑提出了估算风险水平的COVID-19糖尿病患者8个输入参数,即发热、咳嗽、喉咙痛、心血管疾病、高血压、年龄、性别、和旅游历史过去三周和一个输出,使COVID-19的风险水平,五在数量上,糖尿病患者。风险级别1是最低的风险,而风险5级是最高风险。模糊集的不同等级的咳嗽一直作为低,中等和高。咳嗽从无人轻度指低水平,从轻度到中度的媒介,中度到重度高。咳嗽的所有五个层次,即胸口咳嗽、干痒咳嗽、支气管炎、post-viral咳嗽,百日咳,被认为是(26]。
模糊集的不同等级的发烧已经采取了低、中、高。发烧级别从98.0°F到99°F指低,从98.0°F到101°F为介质,和100.0°F和上面一样高。它涵盖所有阶段的热如没有发烧的迹象,前驱期,第二阶段或寒冷,第三个阶段,或者冲洗或退热27]。模糊集的不同层次的喉咙痛已经作为低,中等和高。没有咳嗽的迹象咳嗽的第一阶段是指低,第一阶段第二阶段作为媒介,第二阶段,第三阶段为高。喉咙痛的所有三个阶段被考虑。患者可能会感到筋疲力尽,疲惫,有流鼻涕或鼻子拥挤在阶段1中。病人可能会出现流鼻涕、轻微的痛,打喷嚏、困倦、疲劳或咳嗽在这个阶段在第二阶段的冷。第三阶段是最严重的阶段,感冒期间,病人可能经历拥堵,喉咙痛,其他症状(28]。
模糊集的不同程度的心血管疾病已低,中,高。没有心血管疾病的迹象阶段B的心血管疾病是指低,阶段阶段C作为媒介,阶段B阶段E那么高。阶段被认为是一个pre-heart崩溃。阶段B也可以被视为pre-heart故障诊断为收缩期左心室功能障碍,但没有心力衰竭的迹象。超声心动图(回声)显示,40%或更少的射血分数(EF)和减少EF (HFrEF)由于特殊原因被认为是在b阶段被认为与心脏病和病人(现在)或有(以前)症状和指标的条件被认为在c阶段阶段DE患者没有得到更好治疗被认为是(29日]。
模糊集各种高血压水平很低,中,高。高血压是指从110年到120年低,115年至135年作为一个媒介,和130 - 140 +高(30.]。的病死率COVID-19发现是随着年龄的增长近1.4%。冠状病毒死亡的63%,在印度曾被观察到在60 +年龄段按卫生部的印度政府,这是符合国际COVID-19死亡率的数据。考虑这一点,模糊集的年龄被认为是低、中、高,非常高。从0到20岁是指低,15到35年作为一个媒介,作为高35 - 55,45以上的高。
性在COVID-19也扮演了一个至关重要的角色。数据表明,男性有更高的机会比女性急性症状和死亡。全球卫生累积的数据(50/5031日被认为是。在意大利,死亡病例的观察到71%的男性和29%的女性,尽管西班牙已经观察到65%归功于男性,构成女性为35%。
意味着所有重要国家已经采取了61.8%的情况下死亡造成男性有38.2%是女性。考虑这些因素,已经采取了模糊集性低和高。性别女是指低,性别男是指高。模糊集的旅行历史在过去3周已低和高。在过去的3周,没有旅游历史指低,而如果是这样,那么高(表1)。
该版本有三个子流程。,fuzzification, fuzzy inference, and defuzzification. Throughout fuzzification, sharp values are converted into fuzzy sets supporting membership purposes. Afterwards, these fuzzy sets are passed into the rule base, i.e., if-then statements. Finally, fuzzy sets of the input and output factors are displayed in Table2。
这种范式去模糊化的最后阶段,其中包括利用模糊规则的基础上创建的输出信号的值。它的逆模糊化过程。Mamdani设计了一个推理基于重心去模糊化的方法,用来把模糊位置变成脆值。隶属函数如图2。
规则库的模糊集如表所示3。3888 (33333422)规则形成基于8个输入参数和一个输出,使COVID-19的风险水平,数量5个,糖尿病患者。因此,风险级别1是最低的风险,而风险5级是最高风险。
3所示。模拟
仿真的帮助下进行了MATLAB 8.1和模糊逻辑工具箱。有两个原因,模糊逻辑工具箱。首先,这个工具箱可以用来快速、轻松地创建一个规则基础上,并根据需要更新可以。第二,它降低了时间构建规则库。表3展示了规则库对各种输入变量和结果。表4显示了一个示例8输出。
4所示。机器学习模型
这是归类为基于多类分类问题8个输入和一个输出参数,即。,目标变量。在数据预处理阶段,输入和输出参数的脆值转换成数字值。一旦准备好了数据集,它是用来训练和测试使用各种机器学习模型。15机器学习模型是用于此目的,即逻辑回归、演算法,CatBoost,梯度增加,随机森林,极端的梯度增加,额外的树木,光梯度提升机、决策树、线性判别分析,K-neighbors, SVM-linear内核,脊,朴素贝叶斯和二次判别分析。此外,一些参数选择计算这些十五的性能模型:准确性、AUC,记得,精度,F1, kappa评分。根据这些参数的值,最好的模型在这些15模型被选中。最后,hyper-parameter优化基于数据集和执行各种模式更好的性能。
技术性能特征的毫升COVID-19症状如表所示1。五个使用性能特点:精度、回忆,精度,F1的分数,kappa评分。除了F1得分,所有参数都是独立派生,而F1分数是派生的查全率和查准率。除了AUC得分,所有参数遵循相同的趋势。可以看出逻辑回归模型提供了最佳性能,其次是演算法和CatBoost分类器。这些特征可以进一步提高使用hyper-parameter优化过程。
被用于这项工作的性能指标的准确性,记得,精度,F1得分,卡帕,混淆矩阵,中华民国,AUC曲线。此外,学习速率图也画在训练实例的数量。精度完全定义的机会识别正确的类与其他类。精确的比例是正确的分类,积极从所有积极的分类分类。高精密意味着更少的机会将一个类划分为特定类。同时,召回或敏感性有助于识别和重新正确分类的观察从所有可能的真正的观察实验。F1分数的加权平均精度和召回,可以帮助识别类分布不均匀。在这种情况下,类是均匀分布的。因此,它并不优于准确性。因此,只有准确性分数被广泛讨论。 Similarly, kappa values describe the distribution of the class variable and data collection. Since the current dataset is created from a fuzzy rule base, this metric does not add any value over accuracy. Table1代表每个机器学习模型及其各自的准确性等性能参数,还记得,精度,F1的分数,kappa评分。基于这些分数,选择适当的模型,最好是测试和预测进一步用例。然而,由于这些模型并不完美,他们可以进一步利用优化算法的hyper-parameters在训练模型。在这个过程之后,酒吧图表绘制每个模型和他们的性能指标(数据3- - - - - -7)。观察这些发现,CatBoost、逻辑回归和XGBoost改善他们的表现。从这些算法创建的每一个模型都有了明显的改善,其次是hyper-parameter优化。CatBoost显示几乎3%提高其准确性。逻辑回归和XGBoost提高了1.1%和3%,分别。每个模型是现在执行的各种性能属性精度,还记得,精度,F1的分数,kappa评分。Hyper-parameter进一步优化是用于提高性能。准确性、召回、精密,F1的分数,kappa评分后hyper-parameter优化数据所示3- - - - - -7分别。
CatBoost分类器赋予最高的精度,还记得,精度,F1的分数,kappa评分。
CatBoost分类器模型选择混淆矩阵进行测试。数据8- - - - - -9显示CatBoost分类器之前和之后的混淆矩阵hyper-parameter调优。绘制ROC曲线对假阳性率和准确积极率预测的分数CatBoost hyper-parameter优化后模型,它告诉模型是否错了。所有五类的输出参数,AUC分数大大好,接近1。图10显示了CatBoost ROC曲线分类器与AUC的分数。hyper-parameter优化后,这个CatBoost分类器模型训练和测试了大约2500个实例。再次,分层k-fold使用交叉验证,达到约74%的准确率。线周围的阴影面积精度的方差。图11显示了培训和交叉验证的验证分数。从当前的模型是一个多项决策问题,一组这些分类,决策和整体算法用于图8。具体的性能参数是用于验证模型,如AUC和混淆矩阵。曲线下的面积(AUC)通常被用来验证模型的性能。AUC是决定使用等措施真阳性率(TPR)和假阳性率(玻璃钢)。混淆矩阵是一个很好的措施来识别真正的阳性,真正的底片,假阳性和假阴性用TPR和玻璃钢计算。如果玻璃钢更高,图像通常会低于该地区的操作(这是一个对角线从原点),使该模型无法使用。作为一个经验法则,AUC分数一般应超过0.5,高于对角线。另一方面,TPR会更高,如果找到最适合的模型。在这种情况下,CatBoost观察到有更好的TPR,因为大部分的数据分类。
表5显示了三大表现最佳模型在精度优化hyper-parameter之后,记得,精度,F1的分数,kappa评分。
虽然造型机器学习模型,可以遇到hyper-parameters这个词。Hyper-parameters不更新虽然训练模型,而模型训练算法和基于它的准确性进行验证。因此,这些hyper-parameters欢迎新的可能性改进现有的机器学习模型。虽然许多其他参数可以解释模型性能如准确性,还记得,精度,F1得分,kappa评分,AUC,造型精度是只考虑。因此,hyper-parameters有助于提高性能。Hyper-parameter优化维护现有的准确性和提高其他参数,提高机器学习模型的整体性能。这可以通过使用一个优化问题的现有模式,寻找最好的hyper-parameter。随机网格搜索选择探索合适的参数来改善AUC和准确性分数为当前场景。CatBoost分类器是当前最先进的表演者使用梯度提高决策算法。它是一个整体技术等额外的树木,演算法,和XGBoost分类器,但它有更好的参数识别方法,因为它要求的任何分类特性。 The entire dataset combines categorical values, both input and output in the current work. Therefore, the problem is fitted to the exact use case for CatBoost after grid searching the major hyper-parameters such as learning rate (0。05)和深度(6)。其他hyper-parameters系统或数据特有的,因此,他们设置为缺省值。实现与更新的hyper-parameters算法后,模型的性能是最好的其他算法。一般来说,二元分类的逻辑回归算法者优先。逻辑回归分类器,hyper-parameters解算器,点球,C,马克斯迭代。这些参数在模型的性能起到至关重要的作用。对于这个工作,Sklearn提供了五个选项为解算器和传奇与L1 regularisation(随机平均梯度下降)。C是惩罚的强度,确定是7.0028。由于数据并不大,最大迭代次数设置为默认。XGBoost是一种梯度增强技术在决策过程中,也有几个hyper-parameters,网格搜索之后,以下发现:最小的孩子体重= 7,最大深度= 6,学习速率= 0.1,γ= 0.4,= 0.5和样本树。在XGBoost还有其他参数,但这些参数影响AUC和准确性。
5。结论
虽然COVID-19患者糖尿病与糟糕的结果,没有临床报告表明易感性有关COVID-19在糖尿病患者更大。在一些最近的调查结果,发现人类是两倍死于糖尿病并发症。的总体死亡率COVID-19从1月到2020年4月在中国几乎是三次更高的糖尿病患者。鉴于COVID-19的多种的死亡率在糖尿病患者中,这项工作提出了COVID-19糖尿病患者的风险预测模型使用一个模糊推理系统和机器学习方法来估计COVID-19的风险水平在糖尿病患者中,使及时行动。该模型也有助于减少医生的建议估算的风险水平COVID-19对于糖尿病患者来说,这是主要从事治疗COVID-19患者。该模型以8个输入参数被发现为最具影响力的糖尿病病人症状COVID-19收缩,即发热、咳嗽、喉咙痛、心血管疾病、高血压、年龄、性别、和旅游历史过去三个星期。3888 (33333422)规则形成基于8个输入参数和一个输出,使COVID-19风险水平的糖尿病患者,5的数量,糖尿病患者。1级风险是最低的,而5级是最高的。各种先进的机器学习技术的帮助下,15模型被建立,即逻辑回归、演算法,CatBoost,梯度增加,随机森林,极端的梯度增加,额外的树木,光梯度提升机、决策树、线性判别分析,K-neighbors, SVM-linear内核,脊,朴素贝叶斯和二次判别分析。CatBoost分类器给最好的精度,还记得,精度,F1的分数,kappa评分。hyper-parameter优化后,CatBoost分类器显示76%的准确率和召回的改善,精度,F1分数,和kappa评分,紧随其后的是逻辑回归和XGBoost 75.1%和74.7%的准确率。分层k-fold交叉验证用于验证的目的。尽管模糊推理系统的知识库提供了相当好的见解,可以提高准确度和精密度与实际的医疗记录。一个更好的合成数据生成技术可以消除完全天真的轻微的偏差和方差波动,避免hyper-parameter优化。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。