文摘
糖尿病(DM)疾病被认为是一个持久的疾病所引发的过度血液中的血糖水平的一个人。时产生严重的并发症不及时治疗,也可以引起相关疾病,如心脏攻击,神经损伤,脚问题,肝脏和肾脏损害,和眼睛的问题。这些问题是由一系列因素彼此相互关联的,比如年龄、性别、家族史、体重指数和血糖。使用各种机器学习(ML)算法来预测和检测健康的疾病,以避免进一步的并发症。糖尿病的预测过程可以进一步简易通过识别一个人受到影响类型和相关疾病的发生的概率。为了执行任务,提到使用两种类型的数据集在这项研究中,即比马和临床调查数据集。等各种ML算法随机森林,光梯度提升机、梯度增加机器,支持向量机,决策树,XGBoost正在使用。使用的性能指标是精度,精度,还记得,特异性和灵敏度。使用技术,如数据增加和采样。与以前的研究相比,本文侧重于即兴创作的精度与使用LGBM分类器95.20的比例,和糖尿病也分为前驱糖尿病或糖尿病使用很多分类机制。
1。介绍
DM是最常见的疾病之一,在今天的世界。的人受到疾病的影响不同年龄段从新生的老人。在参考国际糖尿病联合会,全世界大约有4.51亿人在2017年受到糖尿病(1]。然而,人们会被预测增加,可能会影响到2045年按数量翻一番研究。为了避免和克服问题,糖尿病的预测是至关重要的(2]。通过预测糖尿病早期,受影响的人数可以减少,也及时的药物治疗将早于预期消灭这种疾病(3]。
糖尿病是一种疾病引起的糖在体内超过正常水平。如果不及时治疗,就严重从而导致终身胰岛素对身体的支持。该病进一步引导病人到其他并发症相关的心脏疾病,肝脏疾病、肾功能衰竭、眼睛疾病,等等。糖尿病分为不同类型是基于一定的约束。前驱糖尿病,主要类型是GDM T1DM和2型糖尿病。这些类别可以进一步subcategorized拉达,MODY、新生儿糖尿病、3型脊髓灰质炎病毒引起糖尿病、双重糖尿病,Wolfram综合症,Alstrom综合症(4]。
前驱糖尿病也称为葡萄糖宽容。这是一个条件,血糖水平高,但是不是高达2型糖尿病。如果不是照顾或治疗在早期阶段,它将进一步导致2型糖尿病糖尿病在未来。它也能导致一个条件称为代谢综合征,下面是三个或三个以上的组合:低水平的高密度脂蛋白,BP高、高甘油三酯,大腰围和很高的血糖水平。前驱糖尿病测试包括糖化血红蛋白测试、台塑测试和OGTT试验(5]。
1型糖尿病(T1DM)也被称为青少年糖尿病(JDDM)。这是一个依赖胰岛素,胰岛素释放细胞受损的免疫系统;清除体内胰岛素的生产。它通常发生在青春期的年龄和其并发症包括皮肤问题,心血管疾病,血流不畅,牙龈疾病,神经损伤,怀孕问题,视网膜病变,肾损伤6]。1型的测试血液测试(汽车抗体)和尿液测试(酮)。主要的风险因素是年龄低于20年,糖尿病在家庭的历史。
2型糖尿病(T2DM)病人体内发生在老年人和比T1DM温和。它发生在身体不能产生足够的胰岛素或胰岛素抵抗生产由胰腺(7]。它也被称为成人型糖尿病。常见的原因是肥胖,不活跃的生活方式,神经和免疫系统减弱,等其他并发症是:眼睛、神经、肾脏、心脏疾病和中风。诊断可以做基于糖化血红蛋白测试,台塑测试(快速血浆葡萄糖)和RPG测试(随机血糖)。其他测试包括口服葡萄糖耐量试验(OGTT)和葡萄糖挑战试验8]。
妊娠期糖尿病(GDM)是一种发生在怀孕期间,通常发生在下半年怀孕。当身体不能产生足够的胰岛素或停止使用胰岛素、血糖水平会上升,进一步导致妊娠怀孕(9]。超重的一些并发症,身体不活动,家族史、多囊卵巢综合征等。测试包括葡萄糖挑战试验和葡萄糖耐量试验。一些风险因素是剖腹产出生,低血糖,产后子痫前期和2型糖尿病。个人通常消失postdelivery但风险发展2型糖尿病存在如果不照顾10]。
机器学习是人工智能的一个子类。它旨在创建计算机系统,用于发现数据中的模式训练对新数据进行分类和预测。机器学习是用来结合工具统计,数据挖掘,为模型生成和优化。它专注于找到一个精确的表示知识的自动提取数据(11]。有很多机器学习算法,可用于预测。其中一些包括支持向量机(SVM),随机森林(RF), XGBoost (XGB),光梯度提升机(LGBM),决策树(DT),梯度提升机(GBM),朴素贝叶斯(NB),逻辑回归(卤),线性回归(LiR) [12]。
纸被组织在以下方式:部分2解释了相关工作,使用ML算法确定糖尿病(DM)疾病。部分3特征的概述几个ML算法可用于拟议的架构。部分4提供了一个讨论的架构,使用的数据集,功能,预处理等部分5实现和部分6表示该研究结论。
2。相关的工作
对糖尿病相关的ML算法有效预测中常用的医疗行业。毫升技术已经被许多研究人员预测使用DM为了获得最好的和最准确的结果。
邹et al。13),使用了ML算法和预测糖尿病疾病的技术。使用的分类器是DT,射频和神经网络。使用的数据集包括皮马人从泸州和医院体检数据,中国。皮马人数据集包含9属性而考试数据集包含14属性。该工具使用WEKA。给使用的分类器报告的准确性最高精度80.8%,医院的数据为77%,皮马人数据集通过使用随机森林分类器。然而,与其他分类器获得的准确性可以进一步改善和技术。
Zarkogianni et al。14),使用混合小波神经网络的概念(HWNNs)和自组织映射(索姆)构成。数据收集从560年影响患者心血管疾病(CVD)和糖尿病(DM)是选择。最高的AUC曲线为71.48%。该方法优于双线性回归(BLR)通过应用技术来产生可靠的心血管疾病的危险分数。560例,41名患者DM也非致命的心血管疾病。41岁的4经历过中风和其他有经验的冠心病。本文涉及到的缺点需要改进精度百分比,也可以集中在一个特定的数据集混合模型。
Alićet al。15),糖尿病和心血管疾病(CVD)分类使用人工神经网络(ANN)和贝叶斯网络(BN)。使用的安是一个与Levenberg-Marquardt多层神经网络学习算法。BN是朴素贝叶斯提供糖尿病和心血管疾病的最高精度为99.51%和97.92%。使用安糖尿病疾病的精度是72.7%和99%,心血管疾病是80%和95.91%。使用BN糖尿病疾病的精度是71%和99.51%,心血管疾病是78%和97.92%。安使用乙状结肠传递函数和BN使用概率论。
Sneha和Gangil16),关注糖尿病的检测在早期使用最优特征选择。使用的算法是DT和RF的特异性为98.20%和98%。朴素贝叶斯州82.30%的准确性。这项研究由作者还概括了功能提高分类的准确性。总共5算法相比:支持向量机,射频,NB, DT,资讯。它使用一个rapid-miner数据挖掘工具。分析数据集的特性。最高的精度是由DecisionTree和RandomForest如上所述。支持向量机的准确性为77.73%,现有方法的73.48%和77%,支持向量机为82.30%,该方法NB。未来研究的范围是提高度量值。
大发et al。17使用支持向量机的算法和朴素贝叶斯和糖尿病的预测提出了一个集成模型。三个不同的数据集使用的模型。从科索沃已经收集的数据。数据集由八个属性。402名患者的数据,80名2型糖尿病患者的影响。一些属性,如饮食和身体活动没有在其他研究中经常使用的独特性。训练和测试的数据平均分割。该模型提供了一个97.6%使用组合算法的准确性。然而,支持向量机提供了95.52%的准确性和朴素贝叶斯时提供94.52%的准确性分别实现。未来的范围可以涉及运行模型矩阵与其他ML算法进行分析和测试。
Mercaldo et al。18)已经使用6毫升分类器,包括多层感知器,J48, JRip,霍夫丁树,RandomForest, BayesNet。是比马使用的数据集。使用的主要算法BestFirst GreedyStepwise。他们是用来表示为了提高性能分类的属性。四个属性即糖尿病血统函数,体重指数、年龄、血糖浓度。10 fold-cross验证用于数据集。获得的结果精度值0.757,回忆值0.762,F测量值0.759使用霍夫丁树算法。该算法用于模型参数可以不同,也可以修改为未来工作和准确性即兴创作。
Kandhasamy和Balamurali19使用多个分类器J48,支持向量机,射频,再邻居(资讯)。数据集来自UCI库。相比,矩阵是特异性、敏感性和准确性。数据集上的分类进行预处理和未经预处理使用5倍交叉验证。结果表明,决策树J48分类器精度最高的73.82%没有预处理和分类器资讯(k= 1)和随机森林产生的最高准确率100%,预处理过程。
Annamalai和Nedunchelian20.),OWDANN算法用于糖尿病的预测。该系统包括2阶段,疾病预测和严重性评估水平。皮马人数据集进行预处理。特征提取预处理数据集和分类是使用OWDANN完成的。事故的严重程度评估阶段使用使用GDHC糖尿病积极数据集预处理和预测。获得的准确性为98.97%,敏感性为94.98%,特异性为95.62%。
Davitt et al。21),用代谢紊乱表现为血糖浓度升高:胰岛素抵抗,胰岛素分泌减少,或两者兼而有之。T1DM etilogic糖尿病分类,2型糖尿病和GDM。糖尿病分类包括胰腺β-细胞功能基因的影响,遗传缺陷在胰岛素作用,药物或化学诱导、外分泌胰腺疾病,内分泌病,移植后,遗传综合征。
艾哈迈德和Arya22),使用RR-interval-signals称为心率可行性(HRV)信号可用于无创性糖尿病检测。解释方法论的糖尿病患者和正常的HRV信号的分类如何使用深度学习架构解释道。LSTM的就业,CNN,及其组合提取复杂输入HRV的时间动态特性数据。传递到支持向量机的各种特性。0.03%和0.06%的性能的改善在CNN和CNN-LSTM架构实现。
3所示。数据集
在本节中,数据集的描述。的数据集是皮马印第安UCI数据集,形式存储库和调查数据集收集和策划。详细的数据集。
3.1。皮马人数据集
在与糖尿病相关的研究工作,皮马人数据集已经被许多研究者常用的和研究。在UCI数据集是可用的库[]。9属性的数据集包括:怀孕、葡萄糖、血压、胰岛素,皮肤厚度、BMI,糖尿病血统功能、年龄、和结果。实例的总数是768卡路里。
下面给出一个示例的数据集在图1。
3.2。调查
第二个数据集使用的是临床诊断中心的调查收集的数据集,斯利那加。它由734个实例与属性:年龄、禁食、post_pran,腰围、体重指数、收缩压、舒张压、糖化血红蛋白、性别、历史和阶级。
下面给出一个示例的数据集在图2。
两个数据集使用的目标是识别和利用更主要的因素在一个人的疾病的发生。皮马人数据集所需的属性包括糖尿病和临床调查的预测数据集,识别和分类糖尿病前驱糖尿病或糖尿病。
4所示。理论概念和算法
使用的机器学习分类器的理论概念解释如下。
4.1。机器学习算法
以下4.4.1。梯度增加
梯度提高分类器结合了许多学习者(弱)形成预测模型通常是决策树。树的数量是根据所使用的数据集的值的数量。时主要使用的偏移误差模型中需要减少。选择一个gradient-descent-technique获取值的系数23]。
为了获得的价值系数,需要使用的损失函数计算。计算使用 ,在哪里实际计算值和吗的最终价值的预测模型。所以被替换为代表目标价值(24]。它是数学上给出如下:
4.1.2。Light_Gradient_Boosting_Machine (LGBM)
LGBM性能的评估是高性能和被认为是“梯度增加框架”基于Decision_Tree算法。这是一个高级版本的梯度提升框架。它主要用于排名和分类。它把树leafwise最佳值。它可以使用许多改进技术计算数据,可以由方差评价后潜水的值(25]。它可以由以下方程:
价值决定的方式DT算法可以用于将数据和实现价值。方程代表树的数量,可以使用在模型中根据所使用的计算实例的数据集。相比,GB, LGBM相对速度和所使用的参数是不同的,可以进一步增加或减少效率(26]。
4.1.3。XGBoost (XGB)
一个名叫XGBoost监督回归模型用于确定目标函数的有效性和基础的学习者。整体学习的概念结合独立弱学习模型用于预测。XGBoost是集成学习方法之一。它给出如下: 在哪里表示的预测价值jth树(27]。均方误差(MSE)给出如下:
4.1.4。决策树(DT)
DT熵产生如下:一个节点被和类标签识别。的价值j范围从1到 。它给出数学上如下:
LGBM可用于2方法,即GBDT (GradientBoostingDecisionTree)和戈斯(Gradientbasedone-sidedsampling)。Treewise方法用于提供最好的健康,和其他提高算法使用切除方法划分。它提供了更好的结果相比,与其他现有的增强算法(28]。
4.1.5。Random_Forest (RF)
RF巩固的人生或结果的Decision_Tree一起为了获得一个结果。DT被认为是作为一个base_row抽样技术和列抽样技术。基础提高学习者的数量取决于输入和方差降低增加的准确性(29日]。是考虑作为一个重要的包装方法。
4.1.6。Naive_Bayes (NB)
NB的分类方法,使用条件概率值划分的数据使用的算法。它还可以用于检测各种病人的行为。它主要用于实现大数据集。它是一个协作分类模型涉及逻辑回归对病人数据分类到不同的组。它有利于预测涉及实时、多级,推荐系统,基于文本的分类,和情绪分析30.]。
贝叶斯公式计算朴素贝叶斯算法如下: 公关(一个|B)= Posterior_Probability公关(B|一个)= Likelihood_Probability公关(一个)= Class_Prior_Probability公关(B)= Predictor_Prior_Probability [31日]。
许多MachineLearning方法和技术可以进行测试和使用分类器预测糖尿病疾病。然而,使用的数据集,最适合分类器被认为是梯度提高分类器(GBM、LGBM XGB)从表…。并根据仿真决策树机制之前使用。然而,其他分类器等随机森林,朴素贝叶斯和支持向量机也被认为是最终精度比例分析(32]。
4.2。相关矩阵
在机器学习相关矩阵用于summerize使用数据集的属性和识别的属性重要性atmost识别和考虑在预测分析。用于模式识别用于决策的过程。矩阵表示为细胞,每个细胞是用来计算两个属性之间的关系和相关性。皮马人的结果数据集的可视化图给出3。
4.3。数据预处理
在这项研究中,完成数据预处理技术用于机器学习,用于组织和干净的数据进行进一步的处理和分析。进行数据的转换和编码过程包括:数据集成、数据转换、数据还原和数据清洗。数据预处理的重要性的准确性和精度的数据更容易解释的数据特性值的算法。
功能的重要性是由特征提取和特征选择。选择所需的功能过程数据集从所有可用的特性。这是在图4。
数据处理可以减少重复的值和异常值的数据不一致的数据点。数据质量是保证数据分析的步骤后,数据清洗和数据监测。本文包括数据预处理步骤如图5和6。
数据预处理后,介绍了一套新的属性类值包含以前的属性。完整的数据集above-given过程后出现如下图7。
数据集,如图7由绝对价值和为了执行操作使用列值分类,一个炎热的编码的概念。
4.3.1。在一个炎热的编码
一个炎热的编码技术用于纸张分类值转换成数字数据。分类变量存在于编码的数据集最初视为顺序,其次是将整数值表示为二进制值为0或1。二进制变量也称为“虚变量”机器学习(33]。
在一个炎热的编码后的数据集,如图8。
在一个炎热的编码过程是紧随其后的是数据实现使用MachineLearning分类器预测模型的建立。数据集的预测模型包括合适的根据所使用的算法和参数。每个机器学习算法在由一些特定的参数所必需的有效利用率。调整使用的参数值,产生基于特定模型精度最高的比例(34]。
一些常用的参数learning_rate max_depth, n_estimators, min_samples_split, min_samples_leaf, max_features,子样品,random_state等等。
4.3.2。数据增加
数据增强技术,用于增加的数据量不均匀或减少数据来去除多余的数量。的数据量可以通过添加重复的值增加。这种技术叫做Over-Sampling。数据的数量可以减少,这种技术称为采样下来。
摘要Over-Sampling的概念被用来增加类的平衡值。之前和之后的值采样数据所示9和10。
5。体系结构
架构如图11,包括工作流程的过程。最初,可用的数据选择从各种数据库,选择最合适的数据集。皮马人数据集从UCI库被研究。数据集由768条目和9属性。选择的数据预处理,其次是进行特征选择和提取的过程。数据使用EDA进一步预处理,直到所有的缺陷都是纠正。然后清洗和设置数据集训练和测试程序。数据集分为training_data (TrData)和testing_data (TeData)。
各种机器学习分类器进行比较,选择最适合分类器的数据集。预测模型的参数调优开发和性能矩阵计算。预测过程进行后,另一个数据集是预测糖尿病的类型分类。分类的数据集的类型糖尿病前驱糖尿病和正常取自在实验室进行了一项调查。最后,算法选择生产精度最高的百分比。
6。结果与讨论
糖尿病的预测是通过使用该模型使用的数据集构建皮马人最初的数据集,然后最高accuracy-producing算法选择和进一步整合类型分类。
给出了各种分类器的精度获得表1。分类器的缩写LR、XGB GB, DT, ET,射频,LGBM。
图12百分比表示的条形图精度在使用分类器获得DT, LR,射频,XGB,“绿带运动”,等,LGBM。
表1表示,LGBM和射频产生最高的精度。XGB也生产精度高。因此另一个分类器预测机制射频,LGBM,“绿带运动”进行数据集皮马人。
皮马印第安人的算法产生的最高精度数据集是随机森林,光梯度提升机,梯度增加机器。增加数据的技术实现在3算法提到和准确性。
GBM的数据扩充和抽样结果,射频,LGBM给出下面的数字13- - - - - -15。
的准确性和其他性能矩阵是累计在桌子下面2,数据16- - - - - -18。
糖尿病疾病的类型分类进一步分类使用另一个从调查收集的数据集,如图19。
输出获得类型分类图20.。
标签列在上面的表表示,如果值是前驱糖尿病人,糖尿病,或正常。值0表示正常,1表示前驱糖尿病和2表示糖尿病。
当获得预期的产出和预测输出值是相同的,那么从above-given获得精度计算表明100%的准确率使用模型构建和训练类型分类程序。
这项研究旨在改善糖尿病人群中疾病的预测。糖尿病的分类是必要的估计的严重程度和水平考虑预防措施在未来的健康意识在今天的医疗行业。
7所示。结论和未来的范围
从above-given研究中,可以得出结论,LGBM算法提供更高的精度最高,而射频和GB分类器。因此,LGBM算法适合皮马人数据集用于这项研究。
LGBM算法不同射频和GB用下列方法:参数用于LGBM比GB和射频是不同的。参数调优随每个算法和模型构建基于所使用的分类器。因此本文预测模型是建立使用LGBM算法和准确性得到如表所示1使用的数据集。除了预测过程的类型分类类型的糖尿病也预测和计算。
糖尿病疾病预测可以进一步被加强临时数据集使用基于变压器等先进方法的学习。属性也可以用于不同的组合用于识别。可以调整使用的分类器预测精度较高的疾病和疾病的发生概率计算。这将进一步提高精度的百分比和交付更深刻的模型来预测糖尿病疾病影响的人之一。
数据可用性
使用的数据集是来自UCI库和链接如下:(i)https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database。(2)调查数据。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
所有作者同样为研究做出了贡献。