文摘

慢性肾脏疾病(CKD)是一个重大的负担医疗体系由于其日益流行,发展为终末期肾病的风险高,发病率和死亡率的预后不佳。它正迅速成为全球健康危机。不健康的饮食习惯和足够的用水量是该病重要贡献者。没有肾脏,一个人只能活平均为18天,要求透析和肾移植。有可靠的技术是至关重要的在预测CKD处于早期阶段。机器学习(ML)技术是优秀的在预测慢性肾病。目前的研究提供了一种方法预测CKD状态使用临床数据,包括数据预处理、技术管理缺失值,数据聚合和特征提取。许多生理变量,以及毫升逻辑回归等技术(LR),决策树(DT)分类、和 - - - - - -最近邻(资讯),被用于这项工作训练三个不同的模型可靠的预测。LR分类方法被发现在这个角色最准确,在这项研究中约97%的准确性。中使用的数据集的创建技术是CKD的数据集,这是提供给公众。与先前的研究相比,本研究模型的准确率受雇于相当大,这意味着他们更值得信赖的比先前的研究中使用的模型。大量的模型比较表明他们的韧性,和该计划可能推断出研究结果。

1。介绍

慢性肾脏疾病(CKD)是全世界一个主要公共卫生问题,与肾功能衰竭等负面影响,心血管疾病和过早死亡(1]。2010年的一项研究显示全球疾病负担研究(GBDS),慢性肾脏疾病(CKD)列为18全球死亡率的主要原因,从1990年的27日(2]。慢性肾脏疾病影响全世界超过5亿人(3,4),不成比例的高负担在发展中国家,特别是南亚和撒哈拉以南非洲(5]。根据2015年的一项研究中,有1.1亿人与CKD在高收入国家(男性4830万人,女性6170万人),但3.875亿年在低收入和中等收入国家6]。

孟加拉国是一个人口密集的发展中国家在东南亚,慢性肾脏疾病每年都在上升。CKD的总体人口估计为14%,全球六个地区的研究,包括孟加拉国(7]。另一项研究发现26%的慢性肾病患病率城市达卡30岁以上居民(8),而另一个研究发现13%的慢性肾病患病率城市达卡15岁以上居民(9]。孟加拉国的患病率在2013年,一个以社区为基础的研究显示,三分之一的农村居民患慢性肾病的风险,而当时通常误诊(10]。孟加拉组之间观察到的CKD患病率的变化,另一方面,许多因素可以解释,包括横断面研究设计与小样本大小,研究期间,城市和农村地区的地理分布。根据一项研究中,慢性肾病的患病率不同年龄组、性别、社会经济地位和地理区域7]。慢性肾脏疾病(CKD)患者更容易发展终末期肾病(ESRD),要求昂贵的透析和肾移植等治疗方法(11),这金融负荷会导致长期的医疗和心理的困难12,13]。此外,在全球范围内,CKD是由非托管引起糖尿病和高血压,慢性肾病的患病率是现在这两个风险因素的影响。从公共健康的角度来看,它是至关重要的能够估计CKD发生趋势,以便决策者(部门、保险公司、医院管理员等等)可以采取积极措施,避免病人数量的增长。人口增长筛查CKD-related风险和意识程序是这样缓解策略的例子,因为它已经证明,生活方式的变化(减肥,改善饮食,增加体力活动,减少饮酒,避免吸烟,尽早安排肾脏科医师、适当的药物的使用,以及其他治疗方案来管理风险因素)是最有用的。额外的缓解策略包括建立适当的血液透析设备和培训工人。

肾损伤早期诊断可以帮助在整改,这并不总是可能的。为了避免严重的破坏,我们需要更好地理解的几个指标由肾脏疾病引起的。本研究的主要动机是通过分析数据来预测肾脏疾病的指标和应用三种机器学习分类方法来预测疾病,然后选择准确率最高的方法。三个分类技术是使用: - - - - - -最近的邻居分类器、决策树分类器(DT)和逻辑回归。机器学习分类器是用来预测一个数据点的类,目标,标签和类别。分类是一种监督学习中,输入数据的目标。医疗诊断、垃圾邮件识别和有针对性的营销只是几个应用程序。他们完成通过使用映射函数( )将离散的输入变量( )成离散输出变量( )。

的作者(14)在改善慢性脑违规疾病的预测算法,使用的数据来自慢性疾病脑违规。他们发现,当数据丢失,一个模型的准确性下降。医院使用结构化和非结构化数据,他们开发了一个基于(CNN)的多通道疾病风险预测算法。此外,他们利用一个潜在的组件模型重建丢失的数据。同时,作者的15)用ID3决策树,构造基于信息增益和增益比,进化算法,是基于健身比例和等级选择方法。他们的研究结果表明,ID3算法优于进化方法。另一方面,作者的16)发现,当 - - - - - -最近的邻居(资讯)使用分类器,CPU的计算负载多项式增长随着数据集的大小。他们证明了使用NVIDIA CUDA API加速资讯的搜索了120倍。的作者(17研究和评估各种机器学习模型,包括SVM(支持向量机)、资讯( - - - - - -最近邻),DT(决策树)。在[18),作者支持向量机相比,射频,榆树在一个受保护的网络入侵检测算法。他们的研究结果表明,榆树比所有其他方法评估。侯赛因和他的同伴们实现高精度预测慢性肾病的早期阶段通过结合多层感知神经网络预处理填写缺失的信息。过程包括删除离群值,使用统计分析选择最优七属性,并消除特征与更大的相互关系决定了主成分分析(PCA) (19]。缺失值填充技术有相当大影响训练模型的准确性在上述研究。缺失值的准确性预测略有减少,因为神经网络是用来预测缺失值20特性,和260年完全完成数据实例(19]。丢弃特征缺失值20%以上的显著改善代替缺失值的准确性。功能分类的来源,如血液测试或尿液测试,有助于训练模型的选择每个类的属性。CKD的五个阶段,一个方法是预测0.967阶段的整体精度,消除表皮生长因子受体缺失值和估算利用额外的性别和种族特色之前的数据集(20.]。由于模型的精度稍低外,常量用于替代缺失的数据。然而,我们的研究表明,缺失的数据点的随机化是理想当使用小的MCAR方法(21)(见方法部分)。此外,当考虑到特征(22),血清肌酐是倾斜的重要性。然而,在慢性肾病的早期阶段,血清肌酐阅读看起来正常,和所有其他功能的整体意义可能不超过血清肌酐(23),为疾病预测提供血清肌酐无用的。缺乏专业领域提出了担忧训练模型的预测能力之外的新事件数据集。2017年,一组学者预测准确CKD使用14个变量和多级决策森林(24]。他们排除案件和不完整的数据建立了一个神经网络和LR模型,这两个有一个总体精度0.975和0.960,分别。之间的corelationships选择在0.2和0.8之间变化特征。从医学的角度来看,高血压可以创建CKD或导致CKD,比重0.73连接与类。消除这种特征可能导致精度降低。Lambodar和Narendra在2015年做了一个实验利用WEKA数据挖掘工具来评估八机器学习模型(25]。

摘要本研究的目的是进行比较分析的预测肾脏疾病使用智能毫升方法。大多数调查准确率约为90%,这被认为是优秀的。本文的创新是我们使用各种类型的算法,取得了97%的精度,这是高于先前的论文。

然而,为了到达我们的结论,本文的主要贡献是,我们利用一些著名的机器学习技术。最有效的算法是决策树和逻辑回归,与F1-scores分别为96.25%和97%。这些模型的精度百分比高于准确性利用百分比在先前的研究中,这表明他们比以前更值得信赖。很多模型比较表明他们的弹性,该计划可能来自研究结果的研究。

下面是本文的其余部分的结构的崩溃。部分2描述了该系统,部分3提供结果和分析。节中描述的结论4

2。提出了系统

这部分描述了数据集,包含块图,流程图,评价矩阵,研究的过程和方法。

1描绘了拟议的系统框图。框架利用CKD的预测数据集。预处理和特征选择后,DT,然而,使用逻辑回归算法。这图的所有组件在接下来的小章节讨论。

2.1。数据集

使用CKD的研究数据集(26]。有400行,14列在这个数据集。输出“类”列的值为“1”或“0。“值“0”表明,病人不是CKD患者,而值“1”显示病人慢性肾病患者。前预处理,图2CKD的总数和non-CKD条目显示在输出列。CKD数据的总数是250,而non-CKD数据的总数是150。

2.2。数据预处理

数据预处理模型建立之前,需要删除不需要的噪声和离群值的数据集可能导致偏离正确的训练集模型。这个阶段解决任何阻碍模型的效率。在收集必要的数据,它必须清洁和准备模型建设。数据集是未来寻找null值。然而,这个数据集不包含null值。图3显示在这个数据集没有缺失的数据可用。

在这里,输出值“错误”和“0”表示没有null值。完成数据准备和处理不平衡数据集之后,下一步是建立模型。增加这个任务的准确性和效率,将数据分为训练和测试部分,80/20比例的训练测试。模型的分割后,训练使用分类技术。本研究中使用的分类方法包括决策树分类方法, - - - - - -最近邻,LR。

2.3。特征选择

热图,绝对值的特性和类标签之间的相关性表明,血压、白蛋白、糖、血尿素、血清肌酐、钾、白细胞计数,和高血压都有积极的联系。数据45相关值和热图显示特性,分别。

所有呈正相关功能被认为是为进一步预测。每个白蛋白分子有五组不同的值。白蛋白的量是评估使用尿蛋白检查。尿液中蛋白质含量高意味着过滤设备在肾脏受损的疾病,发烧,或激烈的活动。许多测试应该执行在许多周建立诊断。术语血清肌酐和血肌酐和肌酸酐交替使用。肌酐是肌肉分解的副产品的肌酸的化学成分。肾脏消除肌酐从身体。这个测试是为了发现血肌酐是多少。肌酸是一种元素的代谢循环,产生肌肉收缩所需的能量。 The body produces both creatine and creatinine at the same rate. Creatinine levels in the blood can rise due to a high-protein diet, congestive heart failure, diabetic issues, and dehydration, among other factors. Creatinine levels in women should be between 0.6 and 1.1 mg/dL, while those in males should be between 0.7 and 1.3 mg/dL. Additionally, hypertension, or high blood pressure, develops whenever blood pressure against the walls of blood vessels rises. Hypertension can lead to heart attacks, strokes, and chronic kidney disease if it is not treated or managed properly. Nonetheless, CKD may result in hypertension.

2.4。算法

下面的机器学习算法被用来预测慢性肾脏疾病。(我)决策树分类器(2) - - - - - -最近的邻居(3)逻辑回归

2.4.1。决策树

DT方法分类和回归技术,既可以用来预测离散和连续的特点。基于输入列之间的联系在一个数据集,该算法预测离散特征。它预测的一个列,你确定可以预测使用这些列的值,称为状态。方法具体发现与预测相关的输入列列。DT分类器的框图如图6

决策树很容易理解,因为它复制阶段,一个人经历的现实生活中的决定。它可能是非常有用的在处理决策问题。这是一个好主意考虑所有可能的解决方案的问题。清理数据没有与其他方法一样重要。

2.4.2。 - - - - - -最近的邻居

7描述了整个资讯模型的流程图。然而,最简单的ML算法之一,它使用监督学习方法。分配给一个新的案件类别根据密切之前它就像类别。这就是所谓的资讯技术。与资讯的方法,你可以存储所有的数据,然后进行分类新数据基于类似的是旧的。这表明,资讯技术可以快速分类新数据为定义的类别。尽管它经常被用于分类问题,资讯的方法可以用于回归。没有数据的假设由资讯技术,非参数,也称为“懒惰的学习算法,因为它并没有立即学习训练集,而是保持和分类后的数据。如果接收到新的数据,然而,将它分为一个类别,是相当接近的新数据存储在训练。

分类,其中最常用的ML的方法 - - - - - -最近邻分类器。非参数缓慢的学习方法, - - - - - -最近的邻居,可能是用于分类数据。这个分类器分类对象根据他们彼此,距离有多远。它重视上述项目的直接环境,基本信息的传播。

2.4.3。逻辑回归

二进制结果建模使用逻辑回归的统计方法,这是众所周知的。不同的学习方法是用于执行逻辑回归的统计研究。神经网络方法的一个变体是用于创建LR算法。这种方法类似于神经网络在许多方面,但简单的设置和使用。图8显示了LR的框图。

利用逻辑回归,直言因变量预测的输出。所以,必须离散或分类的输出。它可能是或否,0或1,或真或假,等等,但概率值在0和1之间。使用逻辑回归和线性回归方法非常相似。分类问题与逻辑回归处理,使用线性回归和回归问题得到解决。而不是回归,我们使用一个“S”形的逻辑函数,预测两个最大值(0或1),逻辑函数的曲线表示任何的可能性,比如是否细胞恶性或如果动物脂肪或不是。因为它可以分类新数据使用离散和连续的数据集,逻辑回归是一种常见的ML技术。

2.5。混淆矩阵

9显示了混合矩阵。机器学习分类混淆矩阵利率模型的性能。所有使用混淆矩阵模型进行评估。经常混淆矩阵说明我们的模型猜测正确和错误。不收到假阳性和阴性预测值,而适当的预测值收到真正的阳性和阴性。模型的准确性,precision-recall权衡,AUC分组中的所有预测值后评估矩阵。

3所示。结果与数据分析

3.1。决策树分类器

10显示了DT分类器的精度。在这种情况下,精度为96.25%。这个精度微调后没有改善。

11描绘了DT分类器的分类报告。

在这里,整个F1-score是96%。个人F1-scores是CKD non-CKD为95%和97%。同时,精度和召回已经显示在上面的图。

12描述了DT AUC曲线。它表明,DT曲线下的分类器的精度96%。

13描述了决策树分类器的预测。预测的结果,以及模型的计算性能,混淆矩阵所示。有77个准确的猜测和3错误的预测。

3.2。 - - - - - -最近的邻居

14显示了 - - - - - -神经网络分类器的分类精度。在这里,与其他算法精度低于。即使微调后,这个精度没有进一步改善。

15显示了资讯的分类报告算法。

资讯的总体性能是不令人满意。整个F1-score这里获得是71%。个人F1-scores non-CKD是CKD的69%和73%。图16描述了资讯分类器的AUC曲线。曲线下的资讯分类器有73%的准确率。

在调整之前, - - - - - -最近邻模型预测,见图17。以及模型的计算性能,混淆矩阵显示预测的结果。有57个准确的预测,但也有23个错误的预测。

3.3。逻辑回归

的报告LR模型如图18。这个模型有最好的对象分类的准确性。

在这种情况下,总F1-score获得97%。个人没有CKD F1-score 96%,而CKD患者有98%的分数。逻辑回归的AUC曲线分类器如图19。曲线下的精度是100%。

20.显示了最终的逻辑回归模型的预测。以及模型的计算性能,混淆矩阵显示预测的结果。有97个正确的预测和三个不正确的预测,精度为100%。

3.4。模型比较

1对比新模型与在先前的研究中发现的。图表清楚地表明,逻辑回归是最好的在许多模型框架。

本文使用LR,已经达到了97%的准确率。DT分类器也取得了良好的精度,96.25%。通过使用相同的模型,但是裁判。27)取得了可怜的准确性。

4所示。结论

根据研究的结果,决策树方法和逻辑回归可以更准确地预测慢性肾脏疾病。根据这项研究,他们的精度是96.25%,准确性为97%。与先前的研究相比,本调查中使用模型的精度比例相当高,这表明本研究中使用的模型更可靠的比先前的研究。当crossvalidation测量用于慢性肾脏疾病的预测、LR方法优于其他进程。未来的研究可能完成这项通过开发一个web应用程序,它包含了这些算法和使用更大的数据集比在这项研究中使用。这将帮助改善结果的成就以及卫生保健从业者能够预测的准确性和效率肾脏问题。这将增强框架的可靠性以及框架的介绍。希望这将鼓励人们寻求早期治疗慢性肾脏疾病和改善了他们的生活。

数据可用性

数据用来支持这些研究成果可以在网上https://www.kaggle.com/abhia1999/chronic-kidney-disease

的利益冲突

作者宣称他们没有利益冲突的报告对于本研究。

确认

作者感谢塔伊夫大学的研究人员的支持支持项目(TURSP-2020/26),塔伊夫大学,塔伊夫,沙特阿拉伯。