文摘
残疾和过早死亡的主要原因之一,在世界上是糖尿病疾病,可导致不同类型的损伤器官如肾脏、眼睛,心脏动脉。每年死亡的糖尿病越来越多,所以需要开发一个系统,可以有效地诊断糖尿病患者变得不可避免。在这项工作中,一个有效的医疗决策系统为糖尿病的预测基于深层神经网络(款)。这样的算法是最先进的计算机视觉、语言处理、图像分析,预测和诊断,当应用于医疗目的,这些算法可以产生高度精确的结果。此外,他们可以结合医学知识,提高决策效率,适应能力和透明度。款之间的性能比较算法和一些著名的机器学习技术以及先进的方法。结果表明,我们建议的方法基于技术为有前途的表现提供了一个款99.75%和99.66%的F1-score的准确性。这个改进可以减少时间、努力和劳动在医疗服务以及提高最终的决策正确性。
1。介绍
糖尿病是一种非传染性慢性疾病,扰乱了人体的自然血糖浓度管理障碍的碳水化合物,脂肪和蛋白质的新陈代谢由于胰岛素分泌缺陷,胰岛素的行动,或他们两人1- - - - - -5]。糖尿病的慢性高血糖与长期损害有关,障碍,和失败的不同器官,尤其是眼睛,肾脏、神经、心脏和血管1,6,7]。据世界卫生组织统计,全世界大约有4.22亿人患有糖尿病的估计,这个数字预计将增长6.93亿到2045年,每年直接归因于糖尿病和160万例死亡(8]。另一方面,糖尿病的全球经济支出估计为大约7600亿美元,而且预计将达到2040年的8020亿美元(9]。日复一日,病例数和糖尿病的患病率一直稳步增长在过去的几十年里,特别是在第二和第三世界国家2]。
糖尿病医疗诊断是医学最具挑战性和重要的任务之一(1]。疾病的预测,几个参数必须收集如血浆葡萄糖浓度、舒张压、三头肌皮褶厚度厚度、血清胰岛素,体重和年龄2,4),这可能需要很长时间来分析和做出最后的决定1]。因此,先进的计算机和信息技术,如使用机器学习算法比传统方法(6]。后者可以帮助医生在短时间内做出重要的医疗决策与小努力和点钱更准确的决策(1]。
实际上,机器学习技术已经广泛应用于医疗系统决策基于临床资料(6,10- - - - - -19]。在这种背景下,许多研究人员已经使用他们的诊断糖尿病。Yuvraj和他的同事们(20.)提出了一个实现机器学习算法的随机森林(RF),决策树(DT)和基于朴素贝叶斯(NB) Hadoop集群环境糖尿病的预测。RF算法产生最高的精度比其他算法。在[21使用DT],作者开发了一种预测模型方法来确定2型糖尿病发病率低风险的个人德黑兰脂质和葡萄糖研究(tlg)数据库。此外,不同的分类算法,如支持向量机(SVM),多层感知器(MLP)、逻辑回归(LR),射频,和DT,一直比较22]。K-fold交叉验证技术已经被用于准确分类糖尿病。向MLP分类器实现最高精度。根据Jakka和瓦库拉(23),糖尿病的性能预测评估使用再等几种分类算法(资讯),DT, NB,支持向量机,LR和射频。最好的精度达到了LR算法相对于其他算法。同样,作者在24)已经使用很多机器学习分类技术如DT,支持向量机,NB,射频,资讯,和LR预测疾病,LR和SVM算法适用于糖尿病的预测比其他技术。在[25),作者提出了一个比较研究在疾病诊断用Levenberg-Marquardt中长期规划(LM)和概率技术,第一个给分类精度最高的地方。在[26),t . Roopesh等人已经使用一个系统来评估糖尿病的性能预测使用不同的机器学习算法的分类、回归、聚类。支持向量机和线性回归获得最高的精度与其他技术相比。此外,邹et al。27)之间的比较研究三个分类器(神经网络、射频和DT),后者是更好的。在[28),一个全面的比较研究是应用于各种支持向量机等机器学习算法,然而,DT, NB,疾病分类和LR, LR给最准确的结果。同样,Mujumdar和Vaidehi29日)实现了许多机器学习算法等糖尿病预测SVM,射频,DT,额外的树分类器,学习演算法,感知器,线性判别分析(LDA)、LR、资讯、高斯NB,装袋,梯度推进。LR给最高的准确性为96%。最后,作者在30.)等机器学习算法支持向量机使用,然而,LR, DT,射频,NB预测糖尿病疾病。SVM和资讯算法提供了最高准确率相比其他算法。
然而,机器学习技术存在一些局限性的精度和特征选择(1]。这个缺点已经解除的深度学习(DL)算法,广泛应用于多种形式的医学领域(31日- - - - - -37]。众多研究表明,DL技术给更好的结果通过减少错误率,提高精度,和更好的抗噪音,而其他技术(1,3]。DL技术可以完美地处理大量的数据和处理复杂问题的能力,缓解(1),这使得它们非常适合我们的糖尿病疾病预测系统(6]。
在本文中,我们提出一个更好的诊断糖尿病的预测系统。我们的工作主要关注以下几点:(1)糖尿病的预测建立了一个系统架构基于款算法为了使糖尿病诊断的一个有效的决策;•评估四个不同款架构得到最好的模型。(2)比较的最佳模型的结果与这些款LR等许多知名毫升分类器,支持向量机,XGBoost, DT,射频。(3)此外,我们比较我们与最先进的方法,该方法使用相同的数据集,相同的实验协议,同样的性能度量。
剩下的纸计划如下:第二部分概述了拟议的系统。接下来的小节介绍和分析结果。然后,我们显示的比较先进的技术。最后,部分5总结了纸。
2。提出了系统
提出了糖尿病疾病预测系统包含许多步骤完全与对方来获得期望的结果。第一步由使用数据集分割为两个子集、训练和测试数据。然后,我们应用两种不同的类别(ML和DL方法)来进行训练阶段利用训练样本的最佳参数。最终,训练模型能够预测测试样品。提出了系统的总体流程图如图1。
2.1。数据集描述
评估这项工作的性能,我们使用著名的糖尿病医院数据集来自法兰克福,德国(38]。后者包含2000条记录9为每一个属性。简要概述中可以找到的属性表1,9人被认为是目标显示缺乏或疾病的存在(价值分别为0或1)。在这个数据集,32.4%的记录值为1,其余的值为0(67.6%),考虑到这一事实的所有患者是女性,她们的年龄在21日和81年之间。怀孕第一个属性“怀孕”显示了频率和描述从0到17。葡萄糖属性是葡萄糖耐量试验的结果,检查身体如何移动糖从血液进入肌肉和脂肪等组织;它值从0到199不等。动脉血压的压力之间的心脏停止跳动;它记录了从0到122的值的范围。胰岛素是一种激素,艾滋病运动的葡萄糖(血糖)从血液进入细胞,和它的值从0到864。SkinThickness属性提供了关于身体的脂肪储备信息,值从0到99。BMI属性提供了一个快速而准确的方法来确定病人是否超重或体重过轻。 It has been recorded with a range of values from 0 to 67.1. Finally, DiabetesPedigreeFunction provides a synthesis of the diabetes mellitus history in relatives and the genetic relationship of those relatives to the subject, which can take float values from 0.078 to 2.42.
2.2。数据集预处理
数据预处理是一个关键阶段,将数据转换成有用的和有效的格式,以便它可以作为输入到机器学习算法。在我们的系统中,只有一个技术已被用于数据预处理、数据归一化。后者通常被认为是作为数据结构的过程。它也被称为StandardScaler正常化,所有属性的值在[−1,1]。在方程(StandardScaler公式如下所示1),X代表数据集的输入列变换X_STS代表转换的(39]。
2.3。预测方法
在本节中,我们简要描述不同的机器学习方法以及深层神经网络,用于评估拟议的系统。
2.3.1。逻辑回归
逻辑回归(LR)是广义线性模型的一个子集处理二进制数据的分析,寻求出最佳拟合模型来描述依赖和独立的预测因子之间的联系(40,41]。当谈到预测疾病或健康状况,LR模型是最常用的42,43]。基于风险因素,LR模型可以计算个体获取糖尿病疾病的可能性(43]。
如果一个人患有糖尿病疾病的价值目标是1;否则,目标是0。我们决定个体患糖尿病疾病的概率P(X)。LR模型的公式定义如下:
取幂双方后,我们获得
一个人患糖尿病的概率疾病可以写成 在哪里 代表和危险因素 回归系数。
2.3.2。支持向量机
支持向量机是一种非概率分类器分离超平面作为其正式定义。最大的技术创造了一个理想的超平面距离基于可用的训练数据的支持向量(监督学习)。这超平面是一条直线,在二维空间平面分为两类。εε、正规化和内核参数的支持向量机分类器的调优参数6,44]。支持向量机的原理如图所示2。
2.3.3。极端的梯度增加(XGBoost)
极端的梯度提升是一个监督算法提高了陈和Guestrin [45)基于梯度提高决策树算法(46]。XGBoost可以用来解决问题的回归和分类,选择要使用的数据科学家因其执行速度高、精度高,它供应(47]。XGBoost目标函数包括其损失函数和正则化项,它可以帮助防止过度拟合平滑最终学会了权重获得一个最优解48]。的损失函数 预测控制的能力,决定了预测标签之间的偏差和实际的标签 。正则化项控制模型的复杂性,它也可以处理过度拟合问题48,49]。XGBoost还可以优化使用一阶和二阶梯度统计损失函数。XGBoost的目标函数定义如下(49]:
预测的标签树的增加模型可以表示为所有树木的总额预测分数 ,在哪里指的是如何在XGBoost模型和许多树是指对于一个给定的样本数据集实例。最后的空间分类和回归树(也称为车)(46- - - - - -48]:
的正则化项惩罚每棵树的复杂性所示方程(7),T表示数量的叶子在树上,是一个正规化的L2-norm hyperparameter控制叶片的重量吗 ,和是简单的正则化hyperparameter成本通过引入额外的叶根据每个数据集(49,50]。
增加背后的主要概念是创建一个更精确的模型通过结合大量的简单树精度较低,这将创建一个新的树为每个迭代。有许多不同的方法来创建一个新的树(50]。常见的一个叫梯度树增加树的一个改良版本增加的培训使用梯度下降法生成树模型基于以前所有的新树树。因此,可以表示为 ,和目标函数的步骤t 如下(48]:
损失函数的一阶和二阶梯度统计后如下所示的两个方程,分别为:
值得注意的是,和可以帮助找到最优权重呢 。因此,目标函数是(47,49]
2.3.4。决策树
DT是一种非参数回归和分类任务的监督学习算法。DT(图3)可以被视为一个建筑模型,包括根节点,部门,叶子节点。每个内部节点表示在一个属性上测试,每个部门代表测试的结果,每个叶节点类标签。开幕式树中的节点是根节点。首先,选择一个属性,在根节点选址。然后,为每个可能值是由一个部门。这将数据集分为子组,一个用于每一个值的属性。树过程是递归地对每个部门重复使用只有那些达到分支的情况下。在所有情况下一个节点有相同的分类,这棵树可以停止进步。通常,或分类误差熵是用来定义最好的树部门(51,52]。
2.3.5。随机森林
射频是一种最常见的分类器集成使用。如图4射频是由无数独立决策树分类器投票测试样本根据一组标准(53,54]。的步骤如下:(我)提取一些样本训练集训练子集用引导的方法,这是一个自助抽样方法。(2)的一些特性是随机挑选的特性集训练子集作为分割的基础决策树的每个节点。(3)重复步骤(1)-(2)来生成大量的训练子集和决策树,然后组合在一起,形成一个随机森林。(iv)测试集的样本被送入随机森林,每一个决策树使得基于数据的一个选择。收到结果后,结果是通过投票表决技术来确定样本的分类结果。(v)重复步骤(iv),直到所有的测试集分类(55]。
2.3.6。深层神经网络
深层神经网络(款)的一个架构的深度学习56]。款人工神经系统有相同的基本架构,除了这款可能有几个隐藏层;这就是为什么我们使用术语“深。“深层神经网络可以容纳近150隐藏层(1),每一层可以有几个神经元如图5,每一层的神经元的输入层依赖于前一层的输出等等,直到我们得到的预测模型在输出层(57]。
最终的输出值的第一个神经元隐层(1) ,这是产品的各种重量之和与输入偏差见方程(12)。的价值可以是任何数量从-∞,+∞所以神经元不能决定是否要火。激活功能负责决定是否神经元发生火灾或不会计算这将是下一层的输入等等(57]。该模型中使用的两个激活函数的ReLU隐藏层和输出层的乙状结肠(二进制分类)。
3所示。实验结果
在本节中,我们评估算法用款的性能测试数据来评估系统的有效性基于几个评价指标。此外,对比我们的模型和节(2.3)中描述的机器学习算法进行了以证明我们的模型的优越性。使用数据集被分为两个子集,第一个培训包含80%的整个数据(547糖尿病患者/ 1053刻意),另一个用于测试包含20%的整个数据(137糖尿病患者/ 263刻意)。
3.1。评价指标
混淆矩阵(图6)被认为是一个伟大的工具来显示模型的结果总结与分类问题(1,56]。分类,预测可以四种特殊情况如下。
如果目标的实际价值的数据集是真的和分类器预测,预测是真阳性(TP)。相反,如果分类器预测是错误的,那么预测是一个假阴性(FN)。同样,如果目标的实际价值的数据集是假和分类器预测,预测是真阴性(TN)。相反,如果分类器预测是正确的,那么预测是假阳性(FP) [58]。
找出如何开发预测模型执行的帮助下变得容易混淆矩阵,这显然是上面图中所示6。以下指标用来评估该模型(49,56- - - - - -59]。
准确性(Acc)的比例是正确的预测分类器使得与实际值相比,在测试阶段的目标。
灵敏度(Sens)提供信息的真阳性的百分比在测试期间被正确分类。
特异性(规范)给信息真正的底片,在测试期间被正确分类。
精度(前)实例的比例是一个标识符贴上积极对总预测阳性(精确的分类器)。
F1-score显示了调和平均数的精度和召回。
3.2。预测与ML方法
所有传统的机器学习算法的比较分析已经完成在本节中糖尿病的预测。已经做了比较和分析精度的传统算法。
3.2.1之上。Hyperparameter优化
(即Hyperparameter优化。,tuning) is important because it directly controls the behavior of the training process of the algorithm and has a significant impact on the performance of the model. There are four common methods of hyperparameter optimization: Manual search, Random search, Bayesian optimization, and Grid search [56,58]。在这项工作中,我们应用每个算法的网格搜索方法系统地构建和评估模型为每个参数的组合在一个特定的网格。
我们实现了五个机器学习分类器的二进制分类确定病人是否有糖尿病,其中每个分类器有许多不同hyperparameters没有必要改变,但他们的主要需要改变好的模型。因此,为了达到更好的效果,这些参数及其每个算法的默认值如表所示2。
现在为了显示hyperparameters优化对整个系统的影响结果,我们比较选定的ML算法的性能并没有使用这个过程。表3介绍了使用五个指标从每个分类器获得的平均分数。我们清楚地看到,所有的预测方法给出更好的结果比没有优化,而射频给其他人之间的最高性能。
3.3。款的评价方法
款有不同类型的层。在这项工作,三种类型的层实现:致密层,它由一个矩阵的权重和偏差;辍学层,可防止过度拟合问题辍学一定分数层的输入单位在每一阶段的培训1,60];和一批标准化层执行同步尺度改变层的输入。我们使用了早期停止技术,控制模型的改进61年]。我们取得了许多实验通过改变层的数量,每一层神经元的数目,不同类型的层,如表所示4。
如表所示5,4款型号是最好的使用以下参数:时代= 500,Batch_size = 200, Random_state = 0。因此,这个模型被认为是本研究的余生。款的混淆矩阵预测结果如图7。模型的性能可以很容易地使用这种混淆矩阵,确定了指标总结表5。
精度的行为图所示8,蓝线代表了训练阶段,和橙色的代表了测试阶段导致的最佳值的准确性,分别为99.0%和99.75%。
3.4。性能比较
给一个想法的提出性能优越,款我们比较它与其他预测方法评估x。在下面,我们将讨论使用箱线图图获得的每一个分类器的性能。
3.4.1。精度
的精度性能提出了款相比,5毫升方法如图9。显然,实现最高的ACC款99.75%,所有毫升方法实现也表现出色。只LR执行相对差的ACC不到80%。
3.4.2。特异性
图10显示的特异性表现提出款与其他毫升方法相比,表现优异,超过96%,除了LR显示最低的特异性。最高价值的特异性为99.60%,这是款方法实现。
3.4.3。灵敏度
的灵敏度性能提出了款和ML方法如图11。拟议中的款取得了最高的敏感性为100.0%。另一毫升95%以上的方法表现优异,除了LR的方法,提出了一个非常糟糕的性能。
3.4.4。精度
的精度性能提出了款和ML方法呈现在图12。精度达到最高(99.32%),同款的方法。此外,毫升的方法取得了良好的精度超过93%,除了LR方法,给了最糟糕的精度。
3.4.5。F1-Score
的F1-score性能提出了和其他款毫升方法如图13。除了LR技术,所有使用方法表现优异F1-score大于94%。的最高价值F1-score(99.66%)是通过用款。
基于这些数据,发现该是更好的预测模型在另一款毫升方法实现。
4所示。与最先进的方法
目前糖尿病的预测系统如何执行,我们与其他工作相比,使用相同的数据集和相同的性能的措施。值得注意的是,这种比较是只基于精度指标,因为其他评价指标并不可用。观察从表6该预测优于款报告文学作品。
5。结论
在这项研究中,我们提出一个有效的糖尿病预测系统基于深层神经网络(款)算法来识别一个人是否有糖尿病。我们提出了深层神经网络之间的比较研究(款)和几个机器学习技术。这些模型的性能评价,研究和评估等各种性能指标的准确性、特异性、灵敏度、精度、F1-score证明提出款方法的优越性。此外,我们进行了比较系统和最先进的方法。这种比较显示,糖尿病基于款算法可以显著预测系统提供承诺,更好的表现相比,最先进的技术。应用这种方法可以有直接影响和经济节省糖尿病疾病预测系统的设计和开发医疗保健。
数据可用性
使用的数据来支持本研究的发现是免费的。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究的作者想表达自己的感激之情的小姑娘实验室(M 'sila大学阿尔及利亚)他们在出版工作的支持和帮助。这篇文章的出版由卡塔尔国家图书馆。作者要感谢卡塔尔国家图书馆(QNL)支持本文的出版费用。