文摘

慢性肾脏疾病(CKD)已成为一个普遍的疾病。它与各种严重的风险,比如心血管疾病,提高风险,和终末期肾病,可以轻松的早期发现和治疗可避免的人这种疾病的危险。机器学习算法是一个重要的援助来源医学科学家准确诊断疾病的开始阶段。最近,大数据平台与机器学习算法集成在一起,增加医疗保健价值。因此,本文提出了混合动力机器学习技术,包括特征选择方法和机器学习分类算法基于大数据平台(Apache火花),用于检测慢性肾脏疾病(CKD)。特征选择技术,即Relief-F和卡方特征选择方法,选择重要的功能。六个机器学习分类算法被用于这项研究:决策树(DT),逻辑回归(LR),朴素贝叶斯(NB),随机森林(RF)、支持向量机(SVM)和Gradient-Boosted树(GBT分类器)作为集成学习算法。四种方法的评价,即准确性、精密,回忆,和F1-measure应用来验证结果。对于每一个算法,交叉验证的结果和测试结果计算基于完整的特性,Relief-F选择的特性,特性由卡方选择特征选择方法。结果表明,支持向量机,DT, GBT与所选特征分类器实现最佳的性能在100%的准确率。 Overall, Relief-F’s selected features are better than full features and the features selected by chi-square.

1。介绍

当下时代,特别是近二十年来,可以叫大数据的时代,数字数据将是非常重要的各领域越来越多的诸如科学、医疗、技术,和社会。巨大的数据量已经生产和来自多个传感器网络和移动应用程序在几乎所有领域,包括在特定医疗保健,这大量的数据量是我们所说的大数据1]。各种数据源,如流机、高端输出工具,可视化和知识提取这些大量的数据和不同类型构成重大挑战当足够的尖端技术和工具不使用。最著名的技术面临的挑战之一大数据分析的探索了足够的为不同的用户获取有用的和相关的信息类别以一种有效的方式。

如今,不同形式和类型的数据源在医疗被聚集在临床前和临床环境,其中最重要的医疗数据分析是数字拷贝的病人的病史。帐户上,设计和制作了一个分布式数据系统来处理大数据挑战三个主要问题。第一个挑战是,很难从分布式位置收集数据由于不同和大数据量。第二个挑战是,对异构存储的主要问题和巨大的数据集大数据系统需要存储,同时允许性能保证。第三个挑战是连接到大数据分析,特别巨大的实时挖掘数据集,其中包括可视化、预测和优化(2]。

考虑由这些挑战困难,他们需要提供最新的和先进的加工模式,目前的数据管理系统没有提供足够的效率在处理数据或实时的异构性质方面。传统的数据库管理系统不能支持巨大的数据量不断增加。解决这些问题相关的巨大的和异构数据存储,研究社区提出了大量的研究工作,例如Apache火花,Apache Hadoop (3],Apache卡夫卡[4),和Apache风暴(5],解决医疗问题[6- - - - - -8]。

慢性肾脏疾病(CKD)已经收到了很多感兴趣的由于其高死亡率。慢性病已经成为新兴国家的一个主要风险,根据世界卫生组织(世卫组织)(9]。CKD是肾脏疾病,它可以治疗处于初期阶段,但它最终如果治疗不及时导致肾功能衰竭。2016年,慢性肾脏疾病全球夺去了7.53亿人的生命,占3.36亿男性和4.17亿女性10]。可以阻止慢性肾脏疾病发展到肾衰竭如果早期诊断和治疗。诊断慢性肾脏疾病早期治疗是最好的方法,而拖延治疗,直到太迟了可能导致肾功能衰竭,需要透析或肾移植正常生活。因此,全球战略CKD患者的早期发现和治疗是必需的。我从数据中隐藏的模式有效决策和帮助医生做出更准确的诊断,基于人工智能的计算机辅助诊断系统的策略需要临床信息。人工智能技术(机器学习和深度学习)已经使用在健康领域,即在疾病预测和诊断。

慢性肾脏疾病(CKD)是一种条件,影响肾脏功能的能力。在一般情况下,慢性肾病分为阶段,与肾失败发生时,肾脏不再能够完成他们的角色的血液净化和矿物质在体内的平衡11]。根据目前的估计,CKD在65岁以上的成年人更常见(38%)比在45 - 64岁人群(12%)和年龄在18至44岁(6%)。女人有一个相当高的慢性肾病(14%)比男性(12]。

机器学习是一个令人兴奋的领域,专注于研究海量数据与多个变量。机器学习已基本由研究模式识别的理论和计算学习人工智能;它是以计算方法、算法和分析技术。从医学的角度来看,机器学习进行援助健康专家和医生开展闪烁和完美的诊断,为病人选择最佳药物,确定高危患者,而且,最重要的是,用最小的成本改善患者的身体状况。

机器学习(ML)展示了卓越的性能在一系列应用,如语音识别(13,计算机视觉14),医学诊断(15),工程(16]。

毫升过程的组成,特征选择(FS)是一种重要的预处理步骤,确定最相关的属性数据集内。删除不重要的和不必要的属性会导致更复杂和更精确的模型。本文基于Apache引发两种特征选择方法,即Relief-F [17和卡方18特征选择方法。使用的一些研究工作毫升技术预测慢性肾病。例如,Charleonnan [19)等人使用4 ML算法,再邻居(资讯),支持向量机(SVM),逻辑回归(LR),和决策树(DT),预测慢性肾病。其他研究工作使用混合ML算法之间的集成特征选择方法和ML预测慢性肾病。特征选择方法被用来减少的特性和选择最优的特征子集的数据集。例如(20.),作者使用卡方,correlation-based特征选择(CFS)和套索特征选择从数据库中选择基本特征。应用人工神经网络(ANN), C5.0, LR,支持向量机,资讯,和射频特性和所选功能。

最近,研究人员一直在使用Apache火花等大数据平台(21)这是一个大规模的数据处理引擎与一个统一的分析引擎。引发100倍比Hadoop在大规模集群运行的工作负载。它包括Java, Scala中,Python,R高级api,以及高效的引擎,支持广泛的执行图。它还包括一些更高级的工具,如火花SQL SQL和结构化数据处理,MLlib GraphX和结构化流。

火花的机器学习(ML) [21]图书馆叫做MLlib。它的目的是使可伸缩的和简单的机器学习成为现实。在高级别上,它提供了工具,如分类、回归、聚类和协同过滤机器学习算法的例子。它还提供了特征提取、转换、降维,选择featurization的例子。

CKD的先前的研究预测没有使用大数据平台来解决这个问题。这项工作的目标是预测CKD使用混合毫升技术基于Apache火花预测慢性肾病。我们的贡献可以概括如下:开发混合毫升技术基于Apache火花预测慢性肾病应用特征选择算法选择数据集的重要特征应用优化技术,包括网格搜索和交叉验证优化ML算法来提高性能不同的ML分类算法应用到完整的特性和选择功能整体学习应用如Gradient-Boosted树基于Apache火花预测慢性肾病。

本文的其余部分的结构如下:部分2介绍了先前的研究预测慢性肾病。部分3介绍了开发系统的主要阶段预测CKD基于Apache火花。部分4给出了实验结果。最后,结论提出了部分5

许多作家不同的ML技术用于慢性肾脏疾病的诊断和预测如表所示1

例如,在[27),作者提出了一个混合模型,结合LR和射频预测慢性肾病疾病。他们相比与6 ML算法模型,LR,射频,支持向量机,然而,朴素贝叶斯(NB)和前馈神经网络(FNN)。他们提出的模型已经注册的最高精度为99.83%。在[29日),NB, K-Star、支持向量机和J48分类器被用来预测慢性肾病。性能比较使用WEKA软件。J48算法有更好的性能比其他算法准确率达到了99%。

一些作者ML算法特征选择方法用于预测慢性肾病。在[22),递归特性消除(RFE)特征选择方法已被用于选择基本特征的慢性肾病(CKD)数据集。应用了四种分类算法(SVM,然而,DT, RF)完整的特性和选择功能。结果表明,射频优于其他算法。在[20.),作者使用卡方,CFS和套索特征选择从数据库中选择基本特征。他们应用安,C5.0 LR、LSVM资讯,和射频特性和所选择的特性。结果表明,LSVM完整功能注册最高精度为98.86%。在[23),五个特征选择方法,随机森林特征选择(RF-FS),提出选择(FS),提出详尽的选择(菲斯),逆向选择(BS),和向后详尽(是),被用来从数据库中选择最重要的特征。4 ML算法、射频、支持向量机、NB和LR,被用来预测慢性肾病。结果表明,用随机森林特征选择射频取得最佳性能预测的准确率为98.8%。在[26),遗传搜索算法已被用于从CKD数据集选择最重要的特性。决策表,J48,多层感知器(MLP)和NB两者都采用全特性和所选择的特性。使用遗传搜索算法提高了性能。向MLP分类器取得了最好的性能和表现优于其他分类器。在[30.),一些重要的特性已经被选择使用correlation-based特征选择(CFS)。演算法,然而,NB,支持向量机被用来检测慢性肾病。拟议的CFS演算法实现最佳性能在98.1%的准确率。在[25),作者用两个乐团技术装袋和随机子空间方法和三个base-learners,然而,NB, DT,预测慢性肾病。随机子空间取得最佳的性能比装袋资讯分类器。

先前的研究只应用毫升对CKD技术来研究和分析数据;他们不使用大数据平台。因此,这促使我们使用大数据平台(火花)研究和分析数据对CKD包括混合方法(特征选择方法与ML分类算法和特征选择方法与整体算法)。

3所示。方法

该系统预测慢性肾脏疾病包括两个主要方法,如图1。第一种方法使用特征选择方法选择慢性肾脏疾病的基本特征的数据集。第二种方法适用于毫升技术:DT, LR,射频,支持向量机,NB、整体学习选择功能和全功能预测慢性肾病。该系统由6步骤:在第一步(数据收集),CKD UCI机器学习数据集的存储库将被使用。在第二步中(数据预处理步骤),处理null值。在第三步中,将使用特性的方法选择的基本特性。在第四步中,网格搜索和分层交叉验证用于毫升和集成学习技术的优化参数。每个步骤是详细描述以下部分。

3.1。数据收集

慢性肾脏疾病(CKD)本研究中使用的数据集是来自UCI机器学习库(31日]。CKD数据集包括400个样本,24个特点,1类标签。数据集包含400个样本。类标签有两个值:慢性肾病(ckd)举例和notckd(样本没有ckd)。每个特性描述在表的细节2

3.2。数据预处理

数据集包含异常值和噪声。因此,它需要清理和无暇疵的预处理阶段。预处理阶段将估计缺失值和噪声消除,像离群值,归一化,和不平衡数据检查,因为某些措施可能会丢失当病人正在测试,导致缺失值。有158病例数据集完成,其余事件有缺失值。忽略了记录是最简单的方法处理缺失值,尽管这策略是无效的在小数据集。而不是删除记录,我们可以应用算法来估计丢失的数据作为替代方法。失踪的名义值功能已经由模式。数值特征的缺失值填充了的意思。

3.3。特征选择方法

使用特征选择算法的主要好处是确定数据集的重要特征。特征选择的分类器方法会产生更好的结果,减少了模型的执行时间。Relief-F和卡方特征选择方法被用来从数据库中选择重要特性的子集。本研究应用两种特征选择策略基于Apache火花。救济(32)是一种常用的特征加权技术,为每个特性在数据集分配权重确定的质量特性(33]使用卡方检验统计假设检验,得到每个特性(军衔18]

3.4。把数据集

CKD数据集分为训练集80%和20%测试集。我们用分层交叉验证来训练和优化模型使用训练集和交叉验证的结果是注册。我们评估模型使用测试集,测试的结果设置注册。

3.5。模型的优化和训练
3.5.1。优化方法

网格搜索和分层K-Fold交叉验证用于优化模型和优化hyperparameters。最常见的hyperparameter优化网格搜索方法。对于每个hyperparameter,用户必须首先定义一组值。每个hyperparameter模型然后评估所有可能的值并选择提供了最好的性能。

K-Fold交叉验证:数据集分为k折叠的大小。培训在k - 1组,剩下的时间被用来测试分类器。重复这个过程,直到每个十折叠提供了一个测试集。分类器的性能也是衡量k。最后,根据平均表现,评估分类器创建。

3.5.2。机器学习模型

分类研究中使用的模型如下:决策树(DT):它可能是一个监督学习规则的分类问题,其中包含一个预定义的目标变量通常使用。决策树是每个特定的和连续的输入和输出变量。在这个方法中,决策树将被应用到每个分类和回归问题,将人口或样本划分为两个或更多相同的集合称为分组人口支持最必要的分配器在输入变量(34]。随机森林(RF):它是一种监督毫升技术。基本上,它积累大量的树木和整合他们更准确的预测23]。逻辑回归(LR):它解决二元分类问题。物流或乙状结肠函数中使用LR预测的概率不同的标签标记观察(35]。支持向量机(SVM):它是一种监督毫升技术。它将数据集类使用超平面(22]。朴素贝叶斯(NB):贝叶斯定理是用来训练分类器中殿的贝叶斯算法。换句话说,这是一个概率分类器的训练使用车轮的贝叶斯算法。计算概率分布在给定观察一组类(29日]。Gradient-Boosted树(GBTs):还可以训练一个使用Gradient-Boosted树(GBTs)的决策树算法。然而,每一个决策树训练的顺序。这使得使用以前训练树的信息来优化每个新树。结果,该模型提高了与每一个新树。自从GBT火车一个树,它可以使用GBT需要一定的时间来训练模型。此外,如果许多树被用于一个合奏,它是容易过度拟合。GBT合奏,每棵树,然而,是浅,使其更容易训练。迭代梯度推动技术培训的一系列决策树。在每次迭代中,每个训练样本的方法预测标签使用当前的合奏,然后比较了预测真正的标签(36]。

3.6。评估模型

如方程所示1- - - - - -4使用四个标准指标,模型评估:准确性、精密,记得,F1-score, TP代表真阳性,TN代表真阴性,FP代表假阳性、假阴性FN代表。

4所示。实验和结果

本节讨论的结果应用卡方和Relief-F数据集选择最重要的特性。也讨论了交叉验证的性能和应用测试结果的ML算法、支持向量机、LR、NB,射频,DT, GBT分级机,完整的特性和所选功能。此外,它演示了参数的最佳值为每个ML算法优化的网格搜索。使用了两种特征选择方法;CKD数据集分为训练集80%和20%测试集。训练集的交叉验证结果,和测试结果的测试集。ML算法和特征选择方法使用PySpark实现。

4.1。卡方检验结果和ML算法特征选择方法

在本节中,基本特征是由卡方的ML算法通过模型预测慢性肾病。分数最高的12种最重要的特征,因此被用来预测CKD卡方wc, bgr, bu, sc, pcv,艾尔,血红素,年龄、苏、htn, dm,和英国石油(bp),如图2。它可以发现wc最高得分为12733.72,而英国石油公司的最低得分为80.02。第二个最高分是注册bgr为2428.327。Sc和pcv有相同的分数为354.410和324.706,分别。此外,htn和dm有大约相同的分数为86.29和80.44,分别。表3显示所有的分数卡方已选择的功能。得分最高的是注册了wc为12733.72,而最低的是注册了sg为0.0050。

交叉验证的性能和ML应用到所选的测试结果表中描述的特征通过卡方检验4。交叉验证结果,射频注册最高性能(AC = 100%,公关= 100% = 100%,FS = 100%),尽管NB注册最低性能(AC = 81%,公关= 85% = 82%,FS = 82%)。LR和SVM有相同的性能(AC = 97%,公关= 97%,RE = 97%, FS = 97%)。测试结果,支持向量机注册最高性能(AC = 100%,公关= 100% = 100%,FS = 100%),而NB注册的最低性能(AC = 82%,公关= 88% = 82%,FS = 82%)。第二个最高的性能是注册了LR (AC = 97%,公关= 98%,RE = 97%, FS = 97%)。

为优化毫升模型,参数调整的一些价值观和ML的最佳设置的参数如表所示5

4.2。结果Relief-F和ML算法特征选择方法

在本节中,基本特征是由Relief-F Ml算法通过模型预测慢性肾病。最高的12种最重要的特征权重选择Relief-F和被用来预测CKD如图3。它可以注意到红细胞体重最高为0.4551,而appe最低重量为0.062875。第二高的重量由血红素0.365745注册。艾尔和dm有大约相同的重量在0.257775和0.24085,分别。

6显示的重量Relief-F选中的所有功能。最高的体重是由加拿大皇家银行注册为0.4551,而最低的重量是由英国石油公司注册为-0.01584。交叉验证的性能和应用的测试结果毫升的特性选择Relief-F描述表7。交叉验证结果,DT,射频,GBT分类器注册的最高性能(AC = 100%,公关= 100%,RE = 100%, FS = 100%),而NB注册的最低性能(AC = 88%,公关= 89% = 89%,FS = 89%)。LR和SVM有相同的性能(AC = 99%,公关= 99%,RE = 99%, FS = 99%)。

测试结果,DT和GBT分类器注册的最高性能(AC = 100%,公关= 100%,RE = 100%, FS = 100%),而NB注册的最低性能(AC = 95%,公关= 95% = 95%,FS = 95%)。LR和SVM有相同的性能(AC = 98%,公关= 99%,RE = 99%, FS = 99%)。

为优化毫升模型,参数调整的一些价值观和ML的最佳设置的参数如表所示8

4.3。毫升与完整功能的性能

9介绍了应用的交叉验证和测试的结果毫升全特性。总的来说,射频取得最好的交叉验证和性能测试结果。交叉验证结果,射频注册最高性能(AC = 100%,公关= 100% = 100%,FS = 100%),同时NB最低性能(AC = 84%,公关= 88% = 84%,FS = 84%)。LR、支持向量机和GBT分类器有相同的性能(AC = 99%,公关= 99% = 99%,FS = 99%)。测试结果,射频和SVM注册最高性能(AC = 100%,公关= 100%,RE = 100%, FS = 100%),同时NB最低性能(AC = 87%,公关= 91%,RE = 88%, FS = 88%)。为优化毫升模型,参数调整的一些价值观和ML的最佳设置的参数如表所示10

4.4。讨论

11提出了模型取得了最高的交叉验证的结果。交叉验证的性能应用毫升的特性选择Relief-F取得最好的价值由三个模型:DT,射频,GBT分类器。交叉验证性能的比较,运用毫升全功能和特性选择卡方取得了最好的价值1模型:射频。

12礼物最好的模型测试结果。的性能测试应用毫升Relief-F取得最好的选择的特性值由两个模型:DT和GBT分类器。应用毫升全特性的测试性能取得了最好的价值由两个模型:射频和SVM分类器。然而,测试性能应用毫升的特性选择卡方取得了最好的价值1模型:SVM分类器。

结果表明,支持向量机,DT, GBT分类器的选择特性取得了最好的性能。总的来说,性能与Relief-F特征选择比卡方特征选择和完整的功能。

13介绍了先前的研究之间的性能比较,我们的工作在相同的数据集。在我们的工作中,Relief-F特征选择方法取得了最好的性能测试结果和交叉验证结果使用DT和GBT分类器比其他现有的作品(23,24,26,27,30.]。此外,我们的工作不同于其他现有的作品(22,25因为注册结果为训练集和测试集,它取得了最佳的性能。

5。结论

摘要混合毫升技术集成特征选择方法和分类ML算法基于大数据平台(Apache火花)被用来预测慢性肾病。Relief-F和卡方特征选择技术被用来选择数据集的重要特征。ML算法,DT, LR, NB,射频,支持向量机,和GBT分类器集成学习算法,应用于慢性肾病基准数据集。同时,他们应用的完整特性和选择功能。网格搜索和交叉验证被用来优化参数毫升。此外。评价的四个方法,精度,精度,回忆,和F1-measure应用验证结果和交叉验证的结果和测试数据登记。结果表明,支持向量机,DT, GBT分类器的选择特性取得了最好的性能。总的来说,Relief-F特征选择的性能优于通过卡方特征选择和完整的功能。

数据可用性

慢性肾脏疾病数据下载https://archive.ics.uci.edu/ml/datasets/chronic_kidney_disease

的利益冲突

所有作者宣称他们没有利益冲突。

确认

作者想表达他们的感谢UCI机器学习库提供CKD的数据集。