文摘

妊娠期糖尿病是一种怀孕期间引起的高血糖。它可以发生在任何阶段的妊娠和导致问题的母亲和婴儿,出生期间和之后。可以减少风险如果他们早期的检测和管理,特别是在地区只有定期测试的孕妇是可用的。智能系统设计的机器学习算法改造我们生活的各个领域,包括医疗保健系统。本研究提出了一种组合预测模型诊断妊娠期糖尿病。获得的数据集是库尔德斯坦地区的实验室,这从非糖尿病孕妇和收集信息。建议减少模型使用集群KMeans技术数据和弯头的方法找到最优k价值和Mahalanobis距离方法找到更多有关集群新样品,如决策树分类方法,随机森林,支持向量机,然而,逻辑回归,朴素贝叶斯用于预测。结果表明,使用混合KMeans集群、肘法,Mahalanobis距离,和整体技术极大地提高了预测精度。

1。介绍

根据世界卫生组织(世卫组织),每年超过150万人死于糖尿病。妊娠期糖尿病是一种最常见的妊娠并发症,影响全世界约六分之一的婴儿(1]。根据国际糖尿病联合会,妊娠期糖尿病(GDM)是一种严重且underrecognized威胁母亲和婴儿的健康。许多妇女妊娠期糖尿病患者怀孕期间会经历并发症,包括高血压和出生体重。分娩之后在五到十年内,约有50%的女性历史的GDM患2型糖尿病。(2]。GDM是一种普遍的代谢疾病,通常是一个暂时的怀孕障碍。妇女妊娠期糖尿病的风险增加不良妊娠结局,妥协一个正常的出生(3]。所有的国际医疗组织敦促女性应该为高血糖风险评估最初的产前检查,这允许早期检测的条件。患有糖尿病的妇女在怀孕或GDM必须精心维护和监控他们的血糖水平与医疗保健专业人士的援助,以避免不良妊娠结局的风险。不幸的是,只有定期测试用于在伊拉克库尔德斯坦地区的孕妇,和必要的没有注意这个问题。许多先前的论文研究数据来自其他地区。这鼓励我们这个地区收集数据,和我们能够获得从1012名孕妇糖尿病测试。其中,217测试患有GDM,这不是一个好的结果。收集到的数据的特征,包括年龄,体重,身高,怀孕,遗传,和糖尿病测试,揭示何时、在何种条件下孕妇更容易患妊娠糖尿病。

本研究将尝试创建一个模型,采用机器学习的技术检查新老糖尿病病例和诊断新问题。病人和医院管理都将从中受益。该模型采用集群KMeans技术数据减少,肘部的方法确定最优k价值,Mahalanobis距离方法识别集群最密切相关的新样品,和决策树的分类方法,随机森林,支持向量机,然而,逻辑回归,朴素贝叶斯预测。分类算法使用了合奏马克斯投票方法得到最优结果。在这个策略,预测是为每个数据点使用分类模型,创建和合奏方法使最终决定基于所有提到的分类方法。每个数据测试经过整体操作。使用KMeans集群、弯头技术,Mahalanobis距离,和整体技术大大提高预测精度,在结果中。本研究的结构如下。部分2解释了一些研究的相关工作。部分3描述了该模型的方法和一些讨论的结果。最后,部分4表达了结论和未来我们要做的工作。

2。文献综述

本节简要介绍一些适用于智能系统和机器学习方法进行建模和预测不同类型的糖尿病诊断。表1说明了相关工作的总结和差异。

糖尿病的预测,Al-Zebari和Sengur4)分析和比较不同的机器学习策略的结果。在这项研究中,是利用MATLAB分类学习工具,和几个机器学习技术,如决策树、支持向量机,再和逻辑回归利用。性能度量时,结果是判断他们有多么准确分类。

血浆血糖水平上升导致糖尿病。根据(5),各种智能系统使用分类器预测糖尿病使用机器学习方法如决策树、支持向量机、朴素贝叶斯和安。这项研究表明决定援助系统,包含演算法和树桩的决定。演算法使用SVM, NB, DT基分类器来评估的正确性。演算法更精确的比支持向量,决定树桩为基本分类器。本研究提出了一种糖尿病的预测系统,该系统利用一个树桩在演算法决定。研究使用了一个768 -实例,9-attribute全球训练数据集来自UCI机器学习库。他们利用喀拉拉邦的数据进行验证。演算法决定树桩(DS)分类器可以预测糖尿病的准确性达80.729%和19.27%的错误率。决策支持系统的准确性可能增强通过添加其他强大的分类器,如人工神经网络、再或者通过结合几个分类器使用本地数据集来自不同的国家。

在另一种方式6),不同的机器学习方法预测妊娠期糖尿病孕妇使用皮马印第安人显示数据集。使它更准确,作者首先清理数据。所有方法的精度比较使用接受者操作特性(ROC)和曲线下面积(AUC)分数。混淆矩阵的算法的结果说明来确定模型的有效性和错误。这项研究表明,机器学习算法的准确性可能提高了调整参数。在这项研究中,研究者使用合奏的方法,该方法结合了机器学习方法。如结果所示,整体学习技术的准确性使用XGBoost有最好的准确性和77.5%的结果。

Alehegn et al。7]分析了768个样本的数据(PIDD)皮马印第安人糖尿病数据集通过使用预测算法,如再朴素贝叶斯、随机森林,J48整体学习创建一个通过合并在一个特定的机器学习技术来提高系统的准确性提出的性能。研究人员使用不同的数据挖掘方法和机器学习算法来检查不同的医疗数据集。这表明,机器学习方法以不同的方式处理不同的数据和讨论如何单一算法不如合奏算法准确。作者讨论了,在大多数研究中,决策树的准确性高。在他们的研究中,他们使用工具来预测糖尿病数据集和一个混合动力系统由Weka和Java。

从另一个角度8),该研究旨在评估患者的糖尿病风险更精确。模型结构采用决策树分类技术等,安,朴素贝叶斯和支持向量机。朴素贝叶斯决策树,安和SVM模型都有74%的准确性。结果显示程序的准确性。接收输入数据集后,作者的建议模型会使用ML算法和预测数据估计最大的准确性提供了一个比较治疗糖尿病。支持向量机是伟大的,当他们不知道数据。支持向量机不知道数据时做得很好。支持向量机有效地作用于半结构化和非结构化数据,包括文本、图片、和树木。一些参数必须设置为得到最好的使用SVM分类结果。该算法需要这个。 The decision tree is easy to understand and implement. Instability in the decision tree may be discovered by making minor changes to the optimal decision trees data structure. They are often somewhat off. Naive Bayes skips probability estimate calculation for missing values. It is suitable for huge datasets. Expanding training datasets increases bias. An ANN is accurate and easy to use. Processing detailed data is difficult and time-consuming.

在另一种方式9],Mahalanobis距离度量是受雇于作者限制距离的比值作为优化问题的目标函数。为了克服这一问题,提出一种优化技术。下限和上限,包括最优,直接计算,然后利用提供迭代的开始值。实验表明,他们的解决方案是一种性能优良的距离度量与数量有限的成对约束。在这项研究中,基于Mahalanobis技术距离和它的影响在不同的化学计量学领域,如多元校正、模式识别、过程控制,是解释和讨论。他们讨论了距离不同于欧氏距离。

Zhang et al。2)测量偏差的风险机器学习模型的新预测模型偏差的风险评估工具。异质性的荟萃分析和发现元盘软件的帮助下完成的。他们还做了敏感性分析、多元回归和子群分析减少异质性的影响。25研究超过18岁没有严重疾病史的妇女看。汇集接受者操作特征曲线下面积的机器学习模型预测妊娠糖尿病是84%,召回是69%,精度为75%。逻辑回归,最常用的ML方法之一,有一个整体的比例81%。相比之下,nonlogistic回归模型做的更好,全面汇集的88%。另外,孕妇的年龄,糖尿病史的家庭被称为遗传,身体质量指数(BMI),空腹血糖是四个最常见的特征用于构建模型使用不同的特征选择方法。

我们比较资讯、遗传算法、支持向量机、DT和LSTM算法与最近的应用程序(10]。这些机器学习方法有几种用途。本研究探讨了小说使用它们创建的应用程序。深入算法和相关主题的概述,从他们的起源的使用。这项研究解释了何时以及如何利用实时预测算法和其他应用程序。本研究探讨如何应用这些算法及其在新和小说研究的结果和性能。他们的研究结果被描述使用定量和定性标准。经过调查研究,他们对LSTM网络达成了一些重要的结论。SVM算法提供了一个最令人满意的预测分析结果实时应用,如医疗、银行诈骗,面部识别,学生成绩预测,能源消费预测。深度学习与反馈是一个伟大的LSTM算法。 It remembers key information, allowing for accurate predictions. The study's results illustrate how heavily machine learning and AI will be employed in the future. Machine learning and AI are projected to help people accomplish their jobs or replace them, unleashing a wave of automation.

他们已经创建了一个糖尿病使用决策树分类预测模型。数据包括糖尿病和非糖尿病女性(11]。二十岁以上,怀孕,血糖测试速度,胰岛素测试中,BMI,糖尿病和糖尿病家族史是用来预测在这个研究。这项研究强调了上述特点和排除他人。这种复杂的数据挖掘。它简化了在不牺牲精度和复杂模型分析。作者选择了723条记录的预测模型。他们使用Min-Max方法规范化数据。快速矿工工具被用来构建决策树模型。快速挖掘软件发现高血糖患者更有可能获取糖尿病。二百四十八糖尿病患者和475名nonpatients进行调查。 It projected 231 diabetics and 499 non-diabetics. Two hundred thirty-one patients were wrongly predicted. The confusion matrix has 88.50% accuracy, 79.83% sensitivity, and 93.15% specificity.

3所示。方法和模型

该模型使用数据挖掘和机器学习算法的结合。如流程图,如图所示1,该模型包括特征提取后的第一步数据收集和探索。在第二阶段,数据预处理试图标准化数据的z分数的方法。在第三阶段,KMeans集群技术试图集群的数据集到一个最优簇数的帮助下弯头的方法。弯头的方法显示了发现膝盖最好的数字集群价值。下一步是Mahalanobis距离,分配一个新的样本或病人更相关的集群。医学博士是用来找到最好的或最近的欧几里得距离的集群实例,这是默认KMeans算法技术。比欧几里德Mahalanobis更有效,因为它也计算数据的方差,而不仅仅是数据中心的距离。相关或选择集群复制到一个新的数据帧和分类算法。最后阶段分类技术,如决策树,随机森林,支持向量机,然而,逻辑回归,朴素贝叶斯预测合奏的投票方法。

3.1。数据收集

卫生保健系统和实验室全球产生大量数据,和先进的应用程序依赖于数据更好的结果(12]。模型的训练数据收集从公共和私人实验室在伊拉克库尔德斯坦地区。数据集包括1012实例和七个属性。

3.2。特征提取

特征提取是有用的,当你需要减少的数量特性所需的处理不丢失重要的或相关的信息。特征提取也可以减少重复数据的数据集(8]。体重和身高数据集表示,让身体质量指数(BMI)在我们的数据集。有一个体重指数之间的相关性和体重和体重指数和高度之间的负相关。

3.3。数据预处理

数据处理技术之一是数据归一化13),用于将难以理解的数据转换为可理解的数据收集。规范化数据缩放或映射技术将正常数据转换为标准的数据(14- - - - - -16]。我们在模型及其应用z分数技术规范化值的数据集,这是一个数值数据类型。z分数归一化的公式

3.4。聚类算法

聚类是一种机器学习方法,将一组或集合的数据点分成很多组。数据点在同一组更相似的比其他组的数据点。我们把它用另一种方式。这个想法是为了分类组与成集群(类似的功能17]。在数据科学、集群是一种有用的技术。方法检测集群结构在一个数据集的基础上,最值得注意的是,之间的重要不同集群,每个集群中最高的相似度。(18]。我们的研究KMeans技术用于数据简化,最知名和常用的聚类算法。在文献中已经提出各种KMeans扩展。初始化总是影响KMeans方法及其与所需数量的扩张集群先验。然而,聚类是无监督学习在模式识别和机器学习19]。集群的理想数量的数据可能被分组在一个无监督的技术是至关重要的。定义最优kKMeans集群,我们采用弯头的方法,其中最突出的这个理想值的确定方法k。在弯头的方法中,我们计算集群为代表的数量(K)和计算wcs (within-cluster平方之和)为每个值K点,如图2

3.5。Mahalanobis距离

Mahalanobis距离是一个受欢迎的化学计量学、多元统计、测量。本工作使用这个特性来确定样品是否一个异类,一个过程是否得到控制,或者如果一个样本属于一组(3]。公式如公式(2)所示。我们使用了Mahalanobis距离识别新样本或病人更相关的集群由KMeans分类算法:

3.6。整体学习分类算法()

聚类的结果阶段,数据减少和分组到一个特定的群体,作为分类器的输入技术,如图3,前一个阶段的数据的样本分配给一个类似新输入数据的集群。提出的模型使用的最大投票技术整体决策的方法。每个方法的结果比较和分析,称为硬投票。包括决策树分类算法,随机森林,支持向量机,然而,逻辑回归和朴素贝叶斯。

3.6.1。决策树

决策树是一个分区数据的算法策略在特定参数,监督学习的算法之一。目的是开发一个决策树学习基本指令概念,预测目标变量的值。它是理想的连续的学习。决策树通常遵循规则的形式(if - then - else表达式8]。使用决策树分类执行,不需要大量的计算。连续数据可能处理使用决策树(20.]。

操作。随机森林

随机森林是一种降维技术,它使用很多决策树来创建一个分类。它的一个例子是一个整体的技术分类和其他任务。(21]。它可用于等级变量的意义(22]。

3.6.3。SVM(支持向量机)

支持向量机的作用是要找到一个超平面线之间的正面和负面的样品最重要的保证金(23]。支持向量机的目标是找到一个超平面分类数据的多维特性。一个支持向量机模型的实例表示为点空间映射,这样的例子不同类别由尽可能多的空间可行。新实例然后映射到相同的空间和给定类别根据其位置的差距。一些方法做,使用模糊聚类方法(15,24,25]。

3.6.4。然而,(再邻居)

本地资讯只是模拟,并计算推迟到分类完成。然而,算法是一种最基本的机器学习算法(可用26]。

3.6.5。逻辑回归

逻辑回归是广义线性模型的另一个名字。非线性函数分为线性组件和链接功能。线性组件分类模型的输出是通过链接功能。一个逻辑函数用于处理逻辑回归的线性输出。物流功能只返回值在0和1之间(4]。

3.6.6。朴素贝叶斯

朴素贝叶斯方法是一种分类技术可以在分类管理缺失值。监督学习方法用于分类。朴素贝叶斯的基本想法是,它是基于条件概率。失败,连接质量,有条件的独立和朴素贝叶斯的性能受到了影响5]。朴素贝叶斯是健壮的条件概率时对噪声点。

3.7。预测系统

该模型编写的代码Python,混淆矩阵被用来说明测量结果分类方法和集成技术。一些在我们的研究中使用的比较标准是精度,精度和召回百分比。正确识别预测的数量取决于准确性。所示的公式方程(3)。精确的比例是正确认识真正的阳性总阳性样本。阳性样品的总数等于正确和不正确分类样本的总和,如方程所示(4)。召回积极正确分类样本的比例,总阳性样品,和总假阴性样本所示方程(5):

3.8。结果分析

本研究提出了一种精确的模型预测方法检测妊娠糖尿病使用一些技术数据挖掘和机器学习算法。我们尝试使用一个混合的聚类和分类算法(合奏方法)。的输入变量或属性中使用的模型来自伊拉克库尔德斯坦地区的实验室。数据集包括1012实例和属性。表2说明了属性描述。

说明并讨论该模型的力量,我们首先采用只收集到的数据分类方法。结果见表3。然而,这不是一个令人愉快的准确性,我们试图找到一个更好的结合聚类和分类的方法。KMeans集群用于数据简化和清洁。当一个集群被预测为更多相关集群的新样本,减少和清洗,这是安装在分类算法作为一种新的数据帧。结果和结果见表3。如您所见,大多数算法没有产生更好的准确性或结果。

该模型使用一个分区数据不丢失任何聚类方法。KMeans方法代替其他的集群技术,因为DBSCAN算法可以识别样本噪音和丢弃这些对象,而KMeans一般集群的所有对象。值得一提的是,数字数据集阻止我们使用K-modes集群。改善KMeans聚类算法,该模型使用肘部技术来找到最优k集群的数据,提出了表3。作为说明,每个算法都有一个不同的不同数量的准确性k。弯头的方法提出了将数据作为分类的3号到3集群。用另一种方式,它使用Mahalanobis技术找到最好的或多个集群相关的新样品。的默认方法KMeans算法欧几里得距离找到新样本的距离一个集群和预测。然而,由于集群之间的相似性和差异的数据,该模型试图使用Mahalanobis距离,更好的性能比欧氏距离,呈现在图4。MD计算距离的数据方差的影响。不过,欧氏距离计算中心的集群和不关心数据方差。不过,Mahalanobis以不同的方式工作和计算数据方差在每个集群的影响。表4说明了每个距离的结果方法的性能。医学调查结果更少和更精确的比。

最后,在使用中提到的技术集群模型的一部分,找到最好的和更多相关集群Mahalanobis,我们比较分类算法和使用合奏马克斯投票技术得到最好的结果。大多数时候,最大的投票方法用于分类问题进行排序分组的事情。在这个技术,预测是为每个数据点通过使用多个模型。图5是一个流程图说明如何作出决定的整体方法。每个测试数据经过整体操作如图5,一个混淆矩阵是由获得的结果。得到最终结果混淆矩阵和计算精度,精度,召回,f1的分数。

每个模型的预测被当作一个“投票。“最后的预测是基于大多数模型将做什么,和大多数的结果将决定。(27]。表5表明,提出的模型比方法更准确的在这个研究讨论。

从模型获得的结果与人工神经网络模型相比,采用相同的数据。因为我们的应用程序是一个二进制分类,我们将只有两个输出类(1和0)与乙状结肠,只采用一个神经元激活函数,和最佳的时期(神经网络将被训练多少次28)被分配到100年。在每个时代,减少损失,提高准确性。在第一个时期,精度为0.5791,在过去的时代,它是0.8674,这是相当显著的神经网络。和的另一个重要hyperparameter安是隐藏层的数量。分配隐藏我们的模型是2层的数量。数据67说明的效果(时代和层)hyperparameters神经网络误差和精度。

我们可能比较建议的模式和我们的研究从先前的智能模型,得到精度是由现有的研究。表6表明,在大多数情况下,该模型比以前的工作更准确。

在结果分析的最后一部分,我们想讨论的重要性hyperparameters来提高性能的机器学习方法和继续提高整体的结果。的更好的性能KMeans有助于选择最佳的集群。如表所示3,K是数量的一个重要hyperparameters KMeans以及它如何影响模型的准确性。我们为每个的数量模型的准确性k。的影响相反,hyperparameters装机是ANN模型中讨论关于隐藏层的数量和时代的发展。改善的结果分类模型用于这个研究,我们展示了一些hyperparameters表7

4所示。结论

该模型的数据收集从实验室在伊拉克库尔德斯坦地区。数据集包括1012个实例和7属性:年龄、怀孕数量,体重、身高、BMI,遗传,和血糖测试。混合预测模型在该模型已经发展到确定妊娠期糖尿病。弯管技术的帮助下,KMeans算法用于集群数据到一个集群的最佳数量。Mahalanobis距离方法用于选择最相关的集群是最密切相关的新样品。在预测部分,分类技术,如DT,射频,NB,然而92%的准确率和SVM LR准确率达到了90%被用于合奏技术。合奏max投票方法获得的精度是92%。最后,研究结果显示,使用混合KMeans集群、肘法,整体学习Mahalanobis距离,极大地提高了预测精度。在未来的工作中,我们将尝试开发提出了一种自适应模型预测糖尿病的医疗保健应用程序实例,特别是在提到的地理区域的必要没有注意这个问题。应用程序将得到一个新的样本,并将它添加到数据集。 This method updates the database daily, so each time the model is trained, it will have more data to work with.

数据可用性

所有使用的代码和数据都可以获得相应的作者。

的利益冲突

作者宣称没有利益冲突。