文摘
心脏病是最致命的疾病和死亡的主要原因之一。机器学习在医学方面发挥着至关重要的作用。本文集成学习方法用于提高性能的预测心脏病。两个特征的提取方法:线性判别分析(LDA)和主成分分析(PCA),用于从数据集选择基本特征。机器学习算法的比较和集成学习方法应用于选定的特征。不同的方法被用来评估模型:准确性,记得,精度,F-measure,中华民国。结果显示,装袋合奏与决策树学习方法取得了最佳的性能。
1。介绍
如今,心脏疾病是人类安全最关键的问题之一。治疗心脏问题最近在一项研究中表示,在全球医疗系统已经收到了巨大的关注。心脏疾病是全球最主要的死因之一。中位数,1770万人死亡结果从心脏病占了全世界约31%在2016年,据世界卫生组织(世卫组织)(1]。心脏病例数,作为本研究的重点,表明82%的病例来自低收入和中等国家,1700万年70岁以下和倾向于非传染性的疾病,670万人受中风,740万人患心脏病(世卫组织,2016年)2]。在美国和其他发达国家,大约一半的死亡是由心脏病引起的;同时,全世界三分之一的人的死亡是与心脏病有关。心脏疾病不仅影响人们的健康,但经济和国家的成本。最常见的心脏疾病是微血管的起源,主要是心脏疾病和中风。经过几年的接触不健康的生活方式,心血管疾病在临床上出现在生命的早期阶段,以及在一个古老的时代。主要心脏疾病包括肥胖、糖尿病家族史、吸烟、高胆固醇(3]。
检查心脏疾病灾难,特别需要讨论的问题是有关的行为。此外,病人会进行广泛的检查,如血压、血糖、生命体征、胸痛、心电图,最大心率,以及高浓度的糖,但光明的一面可能是成功的治疗是可行的,如果疾病很容易早期发现和预期,但所有这些治疗心脏病患者根据临床研究,病人的历史,和病人的反应问题4]。所有这些技术(历史分析、物理考试研究和医学专业评估)通常导致不准确的诊断和机械故障除了延迟诊断测试。此外,它也更昂贵的和计算密集型的,它需要大量的时间进行评估(5]。
确定的概率人工心脏疾病是很难依靠风险因素。解决困难的问题,最近一系列的数据挖掘技术和机器学习技术是建立(6,7]。不过,更先进的机器学习将帮助我们识别模式和他们的有用的知识。虽然有几个用于医学领域,机器学习主要用来预测心脏病。为了诊断疾病,很多研究人员利用机器学习很感兴趣,因为它有助于减少诊断时间和显示的准确性和有效性。使用机器学习技术,事实上,一些疾病可以被识别,但心脏诊断是本文的主要目标现在因为心脏疾病死亡的主要原因是由于成功的心脏病诊断非常有帮助在拯救生命8]。
机器学习(ML)在疾病预测中起着重要作用9]。它预测患者是否有一个特定的疾病类型或不是基于一个有效的学习技术7- - - - - -10]。在本文中,我们利用监督学习技术预测心脏病的早期阶段。整体算法和几种算法如再(资讯),支持向量机(SVM),决策树(DT),朴素贝叶斯(NB)和随机森林(RF)用于分类测试的人是否属于类心脏疾病或健康的人。此外,两个特征提取技术,线性判别分析(LDA)和主成分分析(PCA),用于从数据集选择基本特征。
本文的其余部分的结构如下:部分2描述了当前的文献综述提出了这个领域的研究。部分3描述了建议的体系结构和方法。节4之间的比较,实验结果和分类技术。最后,部分5描述了论文的结论。
2。文献综述
有许多文学贡献心脏病诊断使用数据挖掘和机器学习技术(11]。Reddyet艾尔。12]使用射频,支持向量机,NB、神经网络和资讯等多种特征选择的相关矩阵,递归特性消除(RFE),和学习矢量量化(LVQ)模型对心脏病为正常或异常进行分类。结果表明,射频完成最优性能。Atallah和Al-Mousa13)利用随机梯度下降法(SGD),然而,射频,逻辑回归(LR),整体学习和投票预测心脏疾病。投票合奏学习模型取得了最好的准确性为90%。Pillaiet艾尔。14)用递归神经网络(RNN),遗传算法,K-mean预测心脏病。RNN取得了最高的精度,K-mean取得最低的准确性。和Vasanthi Kannan15使用四个机器学习算法:LR,射频,支持向量机,随机梯度提高(SGB)预测心脏病。该模型预测表明,LR最佳精度86.5%。Raza [16应用一个学习模型,多层感知器,LR, NB对心脏病进行分类。结果表明,整体学习改善了心脏疾病的预测性能比其他算法。Oo,赢得17)使用特征子集选择(CFS)序列最小优化(SMO)预测心脏病。结果表明,CFS-SMO算法取得了最好的精度86.96%。Nalluri et al。18)使用两种技术(XGBoost和LR)改善心脏病预测。结果表明,LR的精度比XGBoost 85.68%,达到84.46%的精度。Bhatet艾尔。19)提出了一个模型,该模型结合了多层感知器(MLP)和反向传播算法网络诊断心脏疾病。结果表明,该模型降低了错误和一种改进的准确性为80.99%。Abushariah等人利用(20.安和自适应神经模糊推理系统(简称ANFIS)预测心脏疾病。安有一个获得最佳的准确性为87.04%,但简称ANFIS取得了75.93%的最低精度。Hasanet艾尔。21)与反向传播延时,利用支持向量机对心脏病进行分类。结果表明,中长期规划取得了98%的最高精度。陈等人。22]安使用多个特性来诊断心脏疾病。结果表明,ANN取得最好的准确性为80%。Sonawane和帕蒂尔(23)使用矢量量化算法神经网络预测心脏病。Sapra以及et al。24)利用两个数据集(Z-Alizadesh萨尼和克利夫兰心脏病数据集),由六个机器学习算法训练(LR,深度学习(DL), DT,射频,支持向量机,和整体学习(梯度增加树))对心脏疾病进行分类。结果表明,梯度增加树实现最好的84%相比其他算法的准确性。哈克et al。25使用七个机器学习算法:LR,安,然而,NB,支持向量机,DT,和三个功能选择:射频minimal-redundancy-maximal-relevance (mRMR),救援,收缩和选择算子(套索)预测心脏病。LR救济实现最高精度的89%相比其他技术。
3所示。提出系统预测心脏病
该系统技术的目标是使用集成技术来提高性能的预测心脏病。图1描述了系统的体系结构。它结构分为六个阶段,包括数据收集、数据预处理、特征选择、数据分割、训练模型和评价模型。
该方法的步骤是详细解释如下。
3.1。数据收集
心脏病数据集(26)是用于培训和评估模型。它包含1025条记录,13个功能,一个目标列。目标列包括两类:1表明心脏病,降低非心脏疾病。0表示表1描述的细节特征。
3.2。数据预处理
扩展的特性在区间[0,1]。值得注意的是,失踪的值从数据集中删除。
3.3。特征提取(铁)
最好的特征的提取是一个至关重要的阶段,因为无关紧要的功能往往影响机器学习分类器的分类效率。在此阶段,线性判别分析(LDA) (27)和主成分分析(PCA) (28,29日)用于选择数据集的基本特征。
3.4。数据分割
在这一步中,心脏病数据集分为训练集75%和25%作为测试集,训练集是用于训练模型和测试集是用来评估模型。另外,九倍交叉验证利用训练集。
3.5。训练模型
不同类型的机器学习算法:然而,DT,射频,NB应用对心脏病进行分类。同时,两种类型的整体技术:提高和装袋应用于心脏疾病分类:(1)懒惰学习的资讯是一种非参数技术使预测新样本的分类。它是利用几组。它可以利用回归和分类的预测问题。然而,它通常是用于分类时它也适用于工业问题博览会在所有标准检查在评估技术的功能,但它是利用主要是因为它的易于理解和较低的计算时间8- - - - - -25,27- - - - - -30.]。(2)DT是一个树结构,功能条件的原则。它是准确的,强大的算法用于预测建模。特别是,它有分配内部节点,树枝,终端节点包含它们。每个内部节点带有“测试”特性,和分支携带测试结论,和类标签为每个叶节点。它是利用分类和回归(31日]。(3)射频称随机森林决定执行一个毫升的作用,可以用于分类和回归问题。他们通过构造一个函数不同数量的DT分类器或解释变量,和输出是通过加强所有DT的输出来解决一个结果(32]。(4)NB的家庭基本概率分类器集中在应用明确的假设的贝叶斯定理(天真)之间的独立属性。是极其可伸缩,需要几个线性参数对各种参数(功能/预测)学习问题(33]。(5)整体技术方法,可以利用来提高分类器的性能。它是一种有效的分类方法,结合弱分类器与一个强分类器提高弱学习者的效率34]。整体技术用于拟议的技术来提高心脏病诊断的各种算法的准确性。相比个体分类,结合多个算法的目的是获得更好的性能。图2解释了合奏的方法是利用提高心脏病的诊断。
有两种类型的整体技术:提高和装袋。(一)提高意味着生产序列模型,旨在纠正出现的错误的模型。详细数据集被分成不同的子集(35]。然后训练样本的分类算法来创建一系列的平均效率模型,提高算法的伪代码所示,在B的数量和基本假设e实验1 /e= 0.368。因此,基于前面的模型元素不是正确分类,新样品生产。弱模型相结合,整体的方法提高其效率。提供了提高算法的伪代码1。(b)装袋:它是指采取更换与多个子集训练集和训练一个模型为每个子集(35]。的平均预期值的子一起是如上所述的最终性能预测。投票过程为每个分类模型然后进行装袋算法的伪代码所示。因此,分类的结果是基于平均值的多数决定。提供了装袋算法的伪代码2。
|
|
||||||||||||||||||
3.6。评估模型
评价该模型专注于某些标准执行,即准确性,记得,精度、f值,中华民国,AUC。
准确性是最重要的性能指标之一的分类。它被定义为正确分类之间的比例和总样本,见以下方程:
回忆是足够的实例的一部分在适用的情况下的总体数量已恢复。召回方程如下所示:
精度确定如下:
F-measure通常称为F1-score如下,它测量精度和召回的平均值:
接受者操作特性曲线(ROC)是一个图形说明效率的分类算法分类阈值。两个参数曲线所示:真阳性和假阳性。曲线下的面积(AUC)的指标分类器类间区分的能力和利用ROC曲线描述。AUC是越大越大,模型的效率是区分正面和负面组。
4所示。实验结果
本节包括分类算法的实验结果的讨论。
4.1。实验装置
实验结果已经使用Python实现的。他们也被执行使用英特尔酷睿i7处理器(R)和8 GB的内存。
4.2。应用特征选择方法的结果
4.2.1。准备利用主成分分析法(PCA)选择功能
表2显示所有功能的分数利用主成分分析法(PCA)提取基于投影特征的方差来确定最重要的特性。如图3,利用主成分分析法(PCA)提取重要特征的数量等于6n= 6)特性。CP特性最好的得分,这是最重要的特性预测心脏疾病。
4.2.2。选择功能的发展
表3显示所有特性提取LDA的排名基于特征之间的距离来确定最重要的特性。如图4,重要特征提取了LDA的数量等于6n= 6)特性。CP和CA功能得分最高,他们最重要的特性的预测心脏疾病。
4.3。应用机器学习的结果(ML)算法来选择功能
4.3.1。利用主成分分析法(PCA)选择功能
表4表明DT是最好的性能预测的准确率为98.3%,98.7%的召回,AUC 98%,和98%的精度,而最糟糕的性能是通过注:83.7%的准确性,召回的88%,81.9%的精度,85%的F-measure, AUC的92%。用各种资讯,我们应用实验k= 1、2、3、5、9。最优值k= 1,达到最高的性能,精度为0.98%,97%的召回,AUC精度99%,和98%。回忆NB分类精度83.7%,88%,和81.9%的精度。支持向量机记录的准确性84.7%、88%召回,AUC精度83%,和91%。射频准确率是97.9%,98%的召回,98% AUC, 97.5%的精度。PCA的DT性能有限元算法优于其他五个分类算法,和资讯是第二重要的分类算法。
4.3.2。选择功能的发展
根据表5很明显,DT,然而,和射频性能的准确性最高,记得,精度,和F-measure 98.4%, 98.5%, 98%,和98%,分别。然而,我们不同K= 1、3、7、9和13所示。再一次,最优值k= 1,已经达到了98.4%的准确率。支持向量机报告87%的准确率,93%的回忆,和84%的精度。NB报道86.9%的准确率,93%的回忆,和83%的精度。记得射频分类精度达到了98.4%,98%,和98%的精度。最糟糕的性能精度是通过NB和支持向量机,分别有86.9%和87%。
4.4。装袋技术应用到选定的结果特性
4.1.1。利用主成分分析法(PCA)选择功能
在这项实验中,PCA特征提取的铁技术检查在装袋合奏学习算法与五个机器学习算法与9倍交叉验证方法。六个重要特性是利用。6日的分类性能很好重要的特性。
在表6DT实现最佳性能的准确性达98.6%,99%召回,AUC 99.6%, 97.8%的精度。资讯是第二个重要分类算法具有97.9%的准确率。NB最差表现精度,获得83.7%。支持向量机已经达到了85%的准确率,88.7%的召回,AUC精度83.5%,和92%。NB分类精度83.7%,88%的回忆,和82%的精度。
10/24/11。选择功能的发展
在实验中,装袋合奏与五个机器学习算法学习算法应用于选定的LDA特性所使用。
表7表明,DT和资讯取得了最高的性能和准确性,还记得,AUC,精密,98.1%,98.5%,98.6%,和98%,分别。最糟糕的表现是通过NB。射频达到93.8%的准确率,94%召回,AUC 98.4%, 94%的精度。射频是第三重要的分类算法,有93.8%的准确率。
4.5。提高技术应用到选定的功能的结果
4.5.1。利用主成分分析法(PCA)选择功能
在实验中,提高整体学习算法有5个机器学习算法应用于选定由PCA特征。
表8显示射频取得了最高的准确性为98.3%,而支持向量机取得第二高的准确性为98%。最糟糕的准确性已经由支持向量机在83%。AUC召回DT获得98.8%,98%,和97.6%的精度。AUC射频召回获得98.7%,99.8%,98%的精度。然而,当最优结果k= 1 = 97.8%的准确率。
4.5.2。选择功能的发展
在这项实验中,提取的特征通过LDA铁技术检查提高集成学习算法有5个机器学习算法。
在表9射频报道,最佳的性能以及其他算法的准确性达98.2%,98.5%召回,AUC 98.2%, 98%的精度。相比之下,支持向量机已经注册的最低性能预测的准确率为85%,94.9%的召回,AUC精度79.9%,和89.2%。
最优结果的资讯k= 1 = 98.1%的准确率。NB的分类精度为86.7%,90%的回忆,和85%的精度。DT准确率达到98.1%,召回98.5%,98.1% AUC, 98%的精度。DT和资讯是第二重要的分类算法,有98.1%的准确率。
表10显示了该模型的结果的比较(装袋合奏与决策树学习方法)与其他各种最先进的算法。很明显从表10最先进的算法的优化性能实现了89.5%的准确性36]。另一方面,该模型性能取得了98.6%的准确率。所以很明显,该模型优于其他竞争对手(18,20.,24,36,37显著)。
5。结论
在本文中,我们开发了该系统预测心脏病。整体方法(增加和装袋)特征提取算法(PCA和LDA)是用于提高预测心脏病的性能。特征提取算法用于提取基本特征从克利夫兰心脏病数据集。对比整体方法(增加和装袋)和五个分类器(资讯,支持向量机,NB、DT和RF)应用于选定的特征。实验结果表明,装袋合奏学习算法与DT和PCA特征提取方法所取得的最佳性能。
数据可用性
心脏病数据集用于支持本研究的发现是可用的https://www.kaggle.com/johnsmith88/heart-disease-dataset。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的,玉林产学合作项目(2019-75-3)