文摘

心脏病是世界上最重要的人类疾病和影响人类生活的非常糟糕。心脏病,心脏无法推动所需数量的血液到身体的其他部位。准确、及时的诊断心脏病心脏衰竭的预防和治疗是很重要的。通过传统医学诊断心脏病的历史已经在许多方面被认为是不可靠的。分类和健康的人患有心脏病,noninvasive-based等机器学习方法是可靠和有效的。在拟议的研究中,我们开发了一个machine-learning-based心脏疾病预测诊断系统通过使用心脏病数据集。我们使用七个流行的机器学习算法,三个特征选择算法,交叉验证的方法,和7个分类器性能评价指标,如分类准确性,特异性,敏感性,马修斯的相关系数和执行时间。该系统可以很容易地识别和分类从健康的人患有心脏病。此外,接收机乐观曲线和曲线下的面积为每个分类器计算。我们已经讨论了所有的分类,特征选择算法,预处理方法、验证方法和分类器性能评价指标用于本文。 The performance of the proposed system has been validated on full features and on a reduced set of features. The features reduction has an impact on classifiers performance in terms of accuracy and execution time of classifiers. The proposed machine-learning-based decision support system will assist the doctors to diagnosis heart patients efficiently.

1。介绍

心脏病(HD)已被视为一个复杂的世界和人类生活最致命的疾病。通常在这种疾病,心脏无法推动所需数量的血液到身体的其他部位来满足身体的正常功能,因此,最终发生心脏衰竭(1]。心脏病的速度在美国是非常高的2]。心脏病的症状包括呼吸短促,身体虚弱,肿胀的脚,与疲劳相关的迹象,例如,颈静脉压力升高和外围水肿引起的心脏或非心血管功能异常(3]。在早期阶段调查技术用于识别心脏病是复杂的,以及由此导致的复杂性的主要原因之一,影响生活的标准(4]。心脏病诊断和治疗是非常复杂的,特别是在发展中国家,由于罕见的诊断设备的可用性和资源短缺影响医生和其他适当的预测和治疗心脏病患者(5]。的准确和恰当的诊断心脏疾病风险的病人是必要的减少相关风险严重的心脏问题和改善安全的心6]。欧洲心脏病学会(ESC)报道,2600万年全世界成年人被诊断出患有心脏病和每年有360万确诊。大约有50%的心脏病患者高清在最初的1 - 2年,死亡和心脏病有关成本管理是大约3%的医疗保健财务预算(7]。

invasive-based技术心脏病的诊断是基于分析病人的病史,体检报告,由医学专家和分析有关症状。所有这些技术大多导致诊断结果不精确的诊断和经常延迟由于人为错误。此外,它是更加昂贵和计算复杂和需要时间评估(8]。

为了解决这些复杂invasive-based诊断心脏病的,非侵入性医疗决策支持系统基于机器学习的预测模型,如支持向量机(SVM),再(事例),人工神经网络(ANN),决策树(DT),逻辑回归(LR)演算法(AB),朴素贝叶斯(NB),模糊逻辑(FL)和粗糙集9,10)开发了各种研究和广泛用于心脏疾病诊断,由于这些machine-learning-based专家医疗决策系统、心脏疾病死亡的比率下降(11]。心脏病诊断通过machine-learning-based系统各研究报道。不同的机器学习算法的分类性能在克利夫兰心脏病数据集已经报道的文献综述。克利夫兰心脏病数据集在线上可用的加州大学欧文(UCI)数据挖掘库使用的各种研究人员(12,13]。这个数据集已经被各种不同的分类问题研究人员调查相关的心脏疾病通过不同的机器学习分类算法。

Detrano et al。13)提出了一个逻辑回归classifier-based心脏病分类和决策支持系统获得77%的分类精度。克利夫兰的数据集(14]随着全球进化方法,实现了预测性能精度高。该研究使用特征选择方法选择的特性。因此,分类方法的性能取决于选择的功能。Gudadhe et al。15)使用多层感知器(MLP)和支持向量机算法对心脏疾病分类。他们提出了分类系统,并获得80.41%的准确性。Kahramanli和Allahverdi16心脏病)设计了一个分类系统使用混合技术的神经网络集成了一个模糊神经网络和人工神经网络。和该分类系统分类精度为87.4%。印度和Awang17]设计心脏病医疗诊断专家系统,应用机器学习技术,如朴素贝叶斯决策树,安系统中。朴素贝叶斯预测模型获得性能精度86.12%。第二个最好的预测模型是安取得了88.12%的准确性,和决策树分类器实现了80.4%的正确预测。

Olaniyi和Oyedotun18安]提出一种基于三相模型诊断心脏病心绞痛,取得了88.89%的分类精度。此外,该系统可以很容易地部署在医疗信息系统。Das et al。19)提出了一个安ensemble-based诊断心脏疾病的预测模型,并使用统计分析系统企业矿工5.2分类系统,取得了89.01%的准确率,敏感性80.09%,特异性95.91%。-贾巴尔et al。20.)设计了一个心脏病的诊断系统和机器学习分类器使用多层感知器ANN-driven反向传播学习算法和特征选择算法。提出系统提供性能优良的准确性。为了诊断心脏疾病,一个集成的基于安和模糊AHP决策支持的医疗系统是由作者在[设计12),利用机器学习算法,人工神经网络,模糊分析分层处理。他们提出的分类系统实现了分类精度为91.10%。

提出研究的贡献是设计一个machine-learning-based医疗智能决策支持系统的诊断心脏疾病。在目前的研究中,各种机器学习逻辑回归等预测模型,再,安,支持向量机,决策树、朴素贝叶斯和随机森林分类有心脏病患者和健康人。三个特征选择算法,缓解minimal-redundancy-maximal-relevance (mRMR),收缩和选择算子(套索),也用于选择最重要和高度相关特性,很大的影响目标预测值。像k-fold也使用交叉验证方法。为了评估分类器的性能,各种性能评价指标分类精度等分类错误,特异性,敏感性,马修斯的相关系数(MCC),和接收器乐观曲线(ROC)。此外,执行时间也被计算模型。此外,数据预处理技术应用于心脏疾病的数据集。该系统已经在克利夫兰心脏病训练和测试数据集,2016年。UCI数据集的数据挖掘库克利夫兰心脏病是网上。所有的计算都是在Python在英特尔(R)核心™i5 - 2400 cpu @3.10 GHz电脑。 The major contributions of the proposed research work are as follows:(一)所有分类器的表现一直在检查完整特性的分类准确性和执行时间。(b)分类器的性能一直在检查所选特征所选择的特征选择算法(FS)救灾、mRMR,和套索k-fold交叉验证。(c)特性的研究表明算法是可行的和分类器设计高级心脏病的智能系统,准确分类心脏病和健康的人。

剩下的部分论文的结构如下:在部分2关于心脏病,背景信息数据集简要回顾的理论和数学背景特征选择和分类的机器学习算法。另外讨论了交叉验证方法和性能评价指标。节3,详细讨论了实验结果。最后一节4关心的是这篇论文的结论。

2。材料和方法

下面的内容将简要讨论论文的研究材料和方法。

2.1。数据集

“克利夫兰2016年心脏病数据集”是所使用的各种研究[13),可以从网络数据挖掘库的访问加州大学欧文。本研究中使用这个数据集设计machine-learning-based系统对心脏疾病的诊断。克利夫兰心脏病数据集样本容量为303病人,76的特性,和一些缺失值。在分析6样本删除由于缺失的功能列中的值和剩余的样本大小是297年13个更合适的独立输入特性,提取和目标输出标签,用于诊断心脏疾病。目标输出标签有两个类来表示一个心脏病人或正常的话题。因此,提取的数据集是297 13个特征矩阵。13 297实例的完整信息和描述数据集的特点给出了表1

2.2。提出系统的方法

该系统已经开发,目的是对心脏病患者和健康人进行分类。不同机器学习的性能预测模型对心脏疾病的诊断和选择特性进行了测试。特征选择算法,如救济、mRMR和套索被用来选择重要的特性,以及这些选择功能,分类器的性能进行了测试。克利夫兰心脏病数据集已经在几项研究中实现(13),在我们的研究中使用。流行的机器学习分类器逻辑回归、事例、安,支持向量机,DT, NB系统中使用。模型的验证和性能评估指标计算。提出的方法系统结构分为五个阶段,包括(1)预处理的数据集,(2)特征选择,(3)交叉验证方法,机器学习分类器(4),(5)分类器的性能评价方法。图1显示了系统的框架。

2.2.1。数据预处理

数据的预处理是有效地表示所必需的数据和机器学习分类器应该被训练和测试的一种有效的方式。预处理技术,如删除缺失值,标准的标量,极大极小标量已经应用于数据集分类器的有效使用。标准的标量确保每个功能都有1 0均值和方差,将所有功能相同的系数。同样,在极大极小等标量数据变化,所有的功能都是在0和1之间。缺失值功能行就是从数据中删除。所有这些数据预处理技术被用于这项研究。

2.2.2。特征选择算法

特征选择是机器学习过程所必需的,因为有时无关的特性影响机器学习分类器的分类性能。特征选择提高了分类精度,减少了执行时间模型。特征选择在我们的系统,我们使用了三个著名的FS算法,这些算法选择重要的功能。

(1)救济特征选择算法。救济是一种特征选择算法(21),分配权重数据集的所有特性,可以将这些权重更新的时间。目标的重要特性有很大的权重值,和其余的功能小重量。救援使用相同的技术作为事例,确定权重的特性(见算法1)[22]。

救援算法
要求:每个训练实例集年代,一个向量的特征值和类值
n⟵训练实例的数量
一个⟵数量的功能
参数:⟵随机训练实例的数量n用于更新W
初始化所有特征权重W(一个:= 0.0
k:= 1
随机选择一个“目标”实例
找一个最近的打击”H“小姐,最近(实例)
一个:= 1一个
W(一个:=W(一个]−diff (一个, ,H)/+ diff (一个, ,)/
结束了
结束了
返回权向量W特性的质量分数计算功能

救援算法的伪代码,救援算法遍历随机训练实例( ),选择不重复,在哪里是参数。为每一个k, 是“目标”实例和功能评分向量W更新(23]。

(2)Minimal-Redundancy-Maximal-Relevance特征选择算法。mRMR选择这些功能目标相关的标签。这些选择的特性可能是冗余的变量必须处理。启发式搜索方法用于mRMR并选择最佳最大相关性和最小冗余的功能。它检查一个特征周期和计算两两冗余。mRMR不照顾联合协会的功能(24]。(描述的mRMR算法伪代码25]。在该算法中,主要计算互信息计算(MI)之间的两个特性。这个函数是计算每一对之间的特性,而不是许多成对的特性;被无关紧要的最后结果,mRMR不适合大域(参见算法特征选择问题2)。

mRMR算法
输入:最初的功能,减少功能
最初的功能是原始特征的数量特征集;减少功能所需数量的特性
输出:选择功能;/ /数量的选择功能
功能 在最初的功能
相关性=相互信息( ,类);
冗余= 0;
功能 在最初的功能
冗余±相互信息( , );
结束了
mrmrValue [ )=−相关性冗余;
结束了
选择功能排序(mrmrValues) =(减少功能);

(3)至少绝对收缩和选择算子。至少绝对收缩和选择算子选择功能是基于更新特性系数的绝对值。一些系数值的特性成为零,这些零系数特性特征子集淘汰。无与伦比的套索执行较低的系数特征值。系数的特性有比较高的值将被包括在选择特征子集。在套索,一些无关紧要的功能可能被选择,包括选择特性的一个子集(26]。

2.2.3。机器学习分类器

为了分类心脏病人和健康人,使用机器学习的分类算法。一些流行的分类算法及其理论背景简要讨论。

(1)逻辑回归。逻辑回归是一种分类算法(27- - - - - -29日]。对于二元分类问题,为了预测预测变量的值yy∈[0,1],0是负类,1是积极类。它还使用multiclassification预测的价值yy∈(0,1,2,3]。

为了把0和1两个类,一个假设 将设计和阈值分类器的输出是什么 为0.5。如果假设的价值 ,它将预测y= 1,表明这个人有心脏病和价值 ,然后预测y= 0,这表明这个人是健康的。

因此,逻辑回归条件下的预测 就完成了。逻辑回归乙状结肠函数可以写成: 在哪里

同样,逻辑回归成本函数可以写成:

(2)支持向量机。支持向量机是一种机器学习的分类算法主要用于分类问题(30.- - - - - -32]。SVM使用最大优势策略转化为解决一个复杂的二次规划问题。由于高性能SVM的分类,各种应用程序广泛应用(4,33]。

在一个二元分类问题,实例分离超平面 ,在哪里 d维系数向量,这是正常的超平面的表面,b从原点偏移值,x数据集值。支持向量机得到的结果 b 可以解决在线性情况下通过引入拉格朗日因子。边界上的数据点被称为支持向量。的解决方案 可以写成 ,在哪里n支持向量的个数和吗y是目标标签x。的价值 b计算,线性判别函数可以写成:

的非线性情况下,内核技巧和决策函数,可以编写如下:

半正定函数服从Mercer的条件作为内核函数32]。

(3)朴素贝叶斯。NB是监督学习分类算法。它是基于条件概率定理确定一个新功能的类向量。NB使用训练数据集的条件概率向量的值对于一个给定的类。每个向量的计算条件概率值后,新的向量类是基于其计算条件概率。NB用于text-concerned问题分类(34]。

(4)人工神经网络。人工神经网络是一种监督机器学习算法(35),是一种数学模型,集成了神经元传递信息。安有三个组件包括输入、输出和传输功能。输入单位采取特别的值和权重,在训练过程中被修改的网络。人工神经网络的输出计算已知的类;重量重新计算使用的输出之间的误差预测和实际的类。安是由神经元的集成设计。这不同的神经元组合来自不同的结构就像多层感知(36]。

(5)决策树分类器。决策树是一个监督机器学习算法(35,37]。一个决策树的形状是一个树,每个节点都是一个叶节点或决策节点。决策树的方法是简单和容易理解的如何决定。决策树节点包含内部和外部的相互联系。内部节点的决策部分作出决定和子节点访问下一个节点。另一方面,叶子节点没有子节点,与一个标签相关联。

(6)再。事例是一个监督学习分类算法。基于事例的算法(35]预测类标签的输入;事例利用相似的新输入的输入样本训练集。如果新输入相同的训练集的样本。事例的分类性能不是很好。让(x,y训练观察和学习功能h:XY,以便观察x,h(x)可以确定y价值。

2.2.4。验证方法的分类器

我们使用k-fold交叉验证(CV)方法和四个绩效评价指标的研究论文。给出了细节在下面:

(1)K-Fold交叉验证。在k-fold交叉验证,数据集分为k相同尺寸的零件,k−1组是用来训练分类器和剩余部分用于检查表现在每一个步骤。重复验证的过程k次了。基于计算的分类器性能k结果。简历,不同的值k被选中。在我们的实验中,我们使用k= 10,因为它的性能好。在10倍的简历的过程中,90%的数据被用于培训和10%的数据用于测试目的。每个折叠的过程重复10次的过程,和所有实例的训练和测试组被随机划分在整个数据集选择前培训和测试新的集新周期。最后,在过程结束的10倍,平均性能指标计算。

2.2.5。绩效评价指标

为了检查分类器的性能,各种性能评价指标被用于这项研究。我们使用混淆矩阵,每一个观测在测试集预测在一个盒子里。2×2的矩阵,因为有两个静止类。此外,它给了两种类型的正确分类器和两种分类器的预测错误的预测。表2显示了混合矩阵。

从混淆矩阵,我们计算如下:TP:预测输出为真阳性(TP),我们得出的结论是,高清的主题是正确分类和主题有心脏病。TN:预测输出为真阴性(TN),我们得出的结论是,一个健康的主题是正确分类和主题是健康的。《外交政策》:预测输出为假阳性(FP),我们得出的结论是,一个健康的主题是错误地分类,他们有心脏病(1型错误)。FN:预测输出为假阴性(FN),我们得出的结论是,一个心脏病是错误地分类,主题没有心脏病的主题是健康的(2型错误)。

1显示了积极的情况意味着病变,0显示消极的情况下意味着健康。

分类精度:准确显示分类系统的总体性能如下:

分类错误:它的整体是不正确的分类分类模型的计算如下:

灵敏度:这是最近的比例分类心脏病患者心脏病人的总数。分类器检测的敏感性积极实例被称为“真阳性率。“换句话说,我们可以说敏感性(真阳性分数)证实,如果一个诊断测试是积极的和主题有疾病。它可以编写如下:

特异性:一个诊断测试是负的,这个人是健康是数学写如下:

精度:给出精确的方程如下:

世纪挑战集团:它代表了分类器的预测能力与价值观之间(−1,+ 1)。

如果MCC分类器的值是+ 1,这意味着是理想的分类器的预测。−1表明,分类器产生完全错误的预测。MCC值接近0意味着分类器生成随机预测。MCC的数学方程如下:

(1)中华民国和AUC。接收者乐观曲线分析预测使用的机器学习分类器的分类能力。ROC分析是一个基于图形表示比较“真阳性率”和“假阳性”的机器学习算法的分类结果。分类器的AUC是中华民国。AUC值越大,分类器的性能将会更加有效。

3所示。实验结果和讨论

本节的讨论涉及分类模型从不同的角度和结果。首先,我们检查不同的机器学习算法的性能如逻辑回归,再,人工神经网络,支持向量机,朴素贝叶斯和决策树在克利夫兰心脏病数据集全功能。第二,我们使用特征选择算法,mRMR,套索重要特征选择。在第三个分类器,表演在选定的功能检查。此外,k-fold交叉验证方法。为了检查分类器性能评价指标应用的性能。所有功能是规范化和标准化的应用分类器之前。所有的计算都是在英特尔(R)的核心表现在Python™i5 -2400 @3.10 GHz cpu电脑。

3.1。结果选择特性的特征选择算法

救济(38),FS算法,选择重要的功能特性的基础上的重量。最重要的6个特征被救援给出表选择3。的秩选择功能的功能如图2。结果显示,最重要的特性对于心脏疾病的诊断和环境影响评价。我们进行实验选择不同数量的特性但分类器的性能特性很好,6日6日我们只报告了分类器的性能特点在我们的仿真结果。此外,只有六个重要特征信息和描述列表。表3展示了所选择的重要特性。

2显示了排名救援的重要特征。

3.2。结果mRMR选择特性的特征选择算法

选择的重要6特性mRMR FS基于互信息在表表示4。另外,图3显示了重要的功能。在得分图,胸痛是心脏病的一个重要特性预测。我们进行实验选择不同数量的特性但6日分类器特征的表现很好。因此,我们只有6日报道了分类器的性能特点在我们的仿真结果。表4显示了重要的选择特性mRMR FS算法。

3由mRMR展示了所选择的重要特征。

3.3。结果套索选择特性的特征选择算法

套索选择高度相关功能目标为真,其余为假。套索排名的重要特性。在表5列出了六个重要的特性,因为这些特性分类器的表现都很出色。表5展示了所选择的重要特性。

4显示了重要的特性选择套索FS算法。

重要功能评分呈现在图4分数与特性。这三个表显示的诊断心脏病的重要特征。此外,的边后卫在重要功能评分低分这意味着的边后卫特性没有影响心脏病的预测,此外,三个特征选择算法并没有选择心脏病诊断如图2- - - - - -4,分别。

3.4。K-Fold交叉验证的结果对分类器性能完整的功能( )

在这个实验中,数据集的全功能检查在七机器学习分类器10倍交叉验证方法。在10倍的简历,90%被用于训练分类器,只有10%进行了测试。最后,10倍的平均指标计算方法。此外,不同的参数值是通过分类器。表6描述了10倍交叉验证结果七个分类器的全部功能。

在表6逻辑回归,显示出良好的性能,分类精度84%,特异性为85%,敏感性83%,AUC MCC, 89%和84%。逻辑回归的特征值的概率是85%显示一个诊断测试是负的,和没有心脏病的人。此外,灵敏度83%显示了概率诊断测试积极和MCC为89%。

事例的分类器,我们进行实验的不同的值k= 1、3、5、9和13所示。然而,在k= 9,事例的表现是出色的,如图5。人工神经网络训练在不同数量的输入和隐藏的神经元,然后产生输出。之后,有13输入,16隐藏神经元单位,最后一层2单位,它使输出。安分类器精度达到了73%,特异性74%,73%的敏感性。支持向量机内核RBFC= 100, = 0.0001有88%的特异性,敏感性78%,86%的准确率。同样,使用线性支持向量机内核有最好的特异性为78%,敏感性75%,准确性为75%。NB是第二个最好的分类器,特异性为87%,敏感性78%,准确性为84%。决策树的特异性为76%,敏感性68%,准确性为74%。决策树有74%的准确率,灵敏度特异性76%,和68%。随机森林分类器分类精度为83%,特异性为70%,敏感性94%。图5显示了分类的性能与不同价值观的事例k

6显示了分类器的性能与10倍的简历完整功能。

如图6,SVM的性能优于其他五分类的准确性、敏感性和特异性。支持向量机的预测精度(RBF)是86%,敏感性78%,特异性88%。第二个重要分类器NB的特异性为87%,敏感性78%,分类精度83%。最糟糕的表现观察安的五分类的准确性、敏感性,特异性为73%,73%,和74%,分别。图7显示了分类器处理时间在秒和10倍的简历。

在图7每个分类器的处理时间,支持向量机处理时间是15.234秒计算和显示与其他分类器相比,非常快。图8显示的AUC值不同的分类器k倍的履历。

SVM的训练和测试的AUC为86%和85%,分别,这表明,SVM覆盖86%和85%区域与其他分类器相比,是更大的。较大的AUC值显示了更有效的分类器的性能。分类器的AUC是图所示8

3.5。结果K-Fold交叉验证( )分类器性能选择功能( )救援FS算法

在这个实验中,选择救援FS算法特性的检查在七个机器学习分类器10倍交叉验证方法。在10倍的简历,90%被用于训练分类器,只有10%进行了测试。最后,10倍的平均指标计算方法。此外,不同的参数值是通过分类器。起初,我们训练和测试最重要的3个特征的分类器;第二次,我们喂4特性,然后6个重要特性,同样美联储8 10重要特性;最后,我们使用了12个重要特性。分类器的性能是很好的6日重要特性。因此7表10倍交叉验证形成但是我们只描述了分类器的性能在表6重要特性7。和更好的演示效果,创建了一些图表的分类准确性,特异性,敏感性,MCC、加工时间。这些性能指标自动计算。

根据表7在hyperparameters,逻辑回归C= 100表现出很好的性能,精度89%,特异性98%,89%和77%灵敏度获得MCC。逻辑回归的AUC值是88%,处理时间是16.111秒。的性能C= 0.001逻辑回归得到的精度74%,特异性98%,47%的敏感性以及72%的MCC。此外,逻辑回归的AUC值为73%,处理时间为16.233秒。

美联储的事例,我们不同的价值观K= 1、3、7、9和13但k= 1事例显示良好的性能与88%的准确率计算时间24.400秒。然而,在k= 13,事例的表现并不好。人工神经网络是由多层感知器(MLP),在中长期规划,不同数量的隐藏的神经元。16岁隐藏的神经元,延时给好的结果。安在16岁获得了77%的准确率隐藏的神经元,在20隐藏的神经元,观察的表现。

支持向量机的性能(RBF)C= 100, = 0.0001是好的比其他值C 如表所示7。SVM(内核= RBF)获得精度87%,特异性为95%,敏感性78%,MCC 86%, AUC 87%。计算时间是14.134秒。支持向量机(内核=线性)C= 100, = 0.0001获得精度80%,特异性为98%,敏感性60%计算时间18.222秒。获得的NB分类精度为85%,特异性87%,敏感性78%,处理时间34.101秒。我们应用100年和500年的树系综分类器。合奏,100年有74%的准确性,特异性为85%,敏感性66%,75% MCC。计算时间是20.911秒。乐团在500年是可怜的性能,取得了73%的准确率,特异性为84%,敏感性65%,处理时间为20.889秒。随机森林,100年,50岁和25迭代有应用。100岁的准确性为83%,特异性为93%,敏感性70%,MCC得到82%。AUC值在100年是83%。处理时间为15.121秒。 The random forest at 50 has very pretty good performance and obtained classification accuracy of 85%, specificity of 94%, sensitivity of 74%, and MCC of 82%, and AUC was 84%. Table710倍的简历分类器性能的节目选择特性的救援FS算法。

96日显示了分类器的性能重要的选择特性通过救援FS 10倍的履历。

如图9逻辑回归的分类精度C= 100 6 89%重要特性在10倍交叉验证对其他分类器。支持向量机(内核= RBFC= 100, = 0.0001)是第二个最好的分类器,获得了87%的准确率,SVM(内核=线性c= 100, = 0.0001)获得了80%的准确率。基于事例的准确性k= 1为80%。获得的ANN分类精度77%的16岁的隐藏的神经元。NB精度非常好,85%。DT精度在100年是74%。随机森林的准确性为85%。所以从图9,物流回归6重要特性给出更好的结果比其他分类器。逻辑回归的特异性为98%,高以及其他分类器;支持向量机(RBF)特异性为95%;和支持向量机的线性特征值是97%。此外,安的最低特异性为2%。基于事例的k= 1特异性为73%。DT和随机森林有特异性85%和94%,分别。安的敏感性是100%;逻辑回归77%,事例的敏感性为78%。穷人SVM(线性)的敏感性为55%。图10显示6个重要特性的ACU值分类器选择简历通过救援FS 10倍。

中华民国的AUC值分类器在6重要特性也如图10。的AUC值逻辑回归和支持向量机(RBF)分别为88%和87%,分别是大比其他分类器。DT和事例有可怜的AUC值76%和69%,分别。图11显示了分类器的处理时间六点重要特性选择简历通过救援10倍。

分类器的处理时间在六个重要的救济功能的合适的分类器参数如图11。逻辑回归处理时间为16.111秒。支持向量机(RBF)处理时间14.134秒,和随机森林的处理时间是14.333秒。这三种分类器的处理时间是低和事例,DT,和NB处理时间是24.400秒,20.911秒和34.101秒。图12显示了MCC六个重要特征的分类器选择简历通过救援10倍。

不同分类器的MCC在六个重要特性是优秀的,如图12。根据图12、逻辑回归和支持向量机(RBF)高MCC值而安和DT最低MCC值六个重要特性通过救援10倍交叉验证。表7显示了10倍的简历分类器选择特性的解脱。

3.6。结果与K-Fold交叉验证分类器性能的选择特性( )mRMR FS算法

在这个实验中,所选特征通过mRMR FS算法检查七机器学习分类器10倍交叉验证方法。在10倍的简历,90%被用于训练分类器,只有10%进行了测试。最后,十倍的平均指标计算。此外,不同的参数值是通过分类器。首先,我们训练的分类器和测试重要3特性;第二次,我们喂4特性,然后6个重要特性,同样美联储8 10重要特性;最后,使用12个重要特性。分类器的性能是6日足够重要的特性。因此,8表10倍交叉验证形成,但是在本文中,我们只介绍分类器的性能在表6重要特性8因为分类器的整体性能6重要特性是好的比性能实验3、4、8、10和12个重要特性。为更好的演示效果,创建了一些图表的分类准确性,特异性,敏感性,MCC,处理时间,中华民国AUC。所有这些性能指标自动计算。表8显示了10倍的简历分类选择不同的分类器的性能特点的mRMR FS算法。

从表8在hyperparameters,逻辑回归C= 100是一个非常好的性能,精度78%,特异性88%,78%和67%灵敏度获得MCC。逻辑回归的AUC值为79%,处理时间为2.159秒,而其他的C值性能不好。美联储的事例,我们不同的价值观K= 1、3和7但在k= 7,事例显示了良好的性能有62%的准确度和计算时间是10.144秒。然而,在k= 3,事例的性能不是很好。形成的人工神经网络延时,延时,不同数量的隐藏的神经元。16岁隐藏的神经元,延时给好的结果。安在16岁获得了63%的准确率隐藏的神经元,在20隐藏的神经元,观察表现不佳,47%的准确率。

支持向量机的性能(RBF)C= 100, = 0.0001是好的比其他值C 如表所示8。SVM(内核= RBF)获得精度77%,特异性为88%,敏感性65%,MCC 76%, AUC 77%。计算时间是60.589秒。支持向量机(内核=线性)C= 100, = 0.0001获得精度70%,特异性为100%,敏感性35%,MCC 71%计算时间10.179秒。获得的NB分类精度为84%,特异性为90%,敏感性77%,MCC 83%处理时间1.596秒。我们应用100和50树系综分类器。合奏,100年有57%的准确性,特异性为55%,敏感性60%,58% MCC。计算时间是1.902秒。整体的性能在50岁很好,获得了60%的准确率,特异性为54%,敏感性67%,处理时间为1.831秒。随机森林,100和50个迭代。100岁的准确性为66%,特异性为69%,敏感性62%,MCC得到66%。AUC值在100年是65%。处理时间为1.100秒。 The random forest at 50 shows pretty good performance and classification accuracy 67%, specificity 70%, sensitivity 62%, and MCC 66% were obtained, and AUC was 68%. The computational time was 2.220 seconds. Figure13显示了分类器的性能在六个重要特性选择mRMR FS算法和10倍的简历。

如图13逻辑回归的分类精度C= 100 6 78% 10倍交叉验证的特性。支持向量机(内核= RBFC= 100, = 0.0001)获得了77%的准确率;支持向量机(内核=线性C= 100, = 0.0001)获得了70%的准确率。基于事例的准确性k= 7是62%。获得的安在16岁隐藏神经元分类精度63%。NB的准确性为84%,与其他分类器相比。DT准确性50在100年是57%,而这个数据是60%。随机森林的准确性为67%。图13表明,NB 6点分类精度特性给出更好的结果比其他分类器。逻辑回归的特异性和灵敏度是88%和66%C分别为= 100。支持向量机(RBF)C= 100, = 0.0001的特异性和敏感性分别为88%和65%,分别。支持向量机线性特异性为100%,敏感性为35%。此外,安的特异性为67%,敏感性为58%在16岁隐藏神经元。基于事例的k= 7特异性为73%,敏感性为61%。DT在50特异性和灵敏度为54%和67%,分别。随机森林的50迭代特异性和敏感性,70%和62%。最后,最好的分类器的精度是NB,准确率84%,特异性而言,线性支持向量机C= 100, = 0.0001很好,获得的100%和敏感性安在6 98%,与其他分类器相比,重要的功能选择mRMR FS。图14显示了AUC六个重要特征的分类器选择mRMR FS算法和10倍的简历。

中华民国的AUC值分类器如图6点特性14。逻辑回归的AUC值,SVM (RBF)和NB分别为79%,77%,和84%,分别与其他分类器相比,大。DT、事例和安可怜的AUC值的61%,65%,和66%,分别。朴素贝叶斯的ROC AUC是84%选择特性k折交叉验证与其他分类器相比。图15显示选定特征分类器的处理时间年代简历通过mRMR 10倍。

分类器的计算时间在六个重要特性mRMR FS算法使用合适的分类器参数如图15。逻辑回归处理时间为2.159秒。SVM (RBF)处理60.589秒,随机森林的处理时间是2.222秒。DT处理时间是1.831秒,NB时间是1.596秒。SVM (RBF)的处理时间是大比其他分类器。NB的最低处理时间是1.596秒,比其他分类器。图16显示了MCC的分类器选择简历mRMR FS算法特性的10倍。

不同分类器的MCC在6功能非常好,如图16。根据图,逻辑回归MCC值是78%。事例的MCC在k= 7是62 aANN相同。支持向量机(RBF) MCC为76%,和支持向量机(线性)MCC为68%。NB, DT,和随机森林MCC分别为83%,60%,和66%,分别。MCC的高价值显示更好的分类器的性能。因此,NB的性能很好,MCC被mRMR 83%选择功能特征选择算法。逻辑回归和支持向量机(RBF)表演也减少特性好。

3.7。结果K-Fold交叉验证(k= 10)分类器性能选择功能(n= 6)套索FS算法

在这一节中,选择特性的套索特征选择算法在七机器学习分类器检查10倍交叉验证方法。在10倍的简历,90%是用于训练分类器,10%是用于测试。最后,10倍的平均指标计算方法。此外,不同的参数值是通过分类器。首先,我们使用3特性;第二次,我们喂4特性,然后6特性,同样8、10重要特性;最后,我们使用了12个重要特性。6日分类器的性能是良好的特性。因此,8表10倍交叉验证形成但是我们只描述了分类器的性能在表6重要特性96点,因为分类器的整体性能重要特性与3的性能很好,4、8、10和12个重要特性。为了更好的演示效果,创建了一些图表。此外,绩效评估指标是自动计算的。表9显示了10倍的简历分类选择不同的分类器的性能特点的套索FS算法。

根据表9在hyperparameters逻辑回归C= 10获得87%的准确性,特异性96%,76%的敏感性以及87%的MCC。逻辑回归的AUC是88%,处理时间为0.008秒,而其他的C值性能不如相比C= 10。我们使用不同的值k= 1、3、5、7的事例,但k= 1,事例显示了良好的性能预测的准确率为85%,特异性为94%,敏感性74%,和84%的MCC,和计算时间是0.0002秒。然而,在k= 7,事例的表现不如相比k= 1。形成的人工神经网络延时,延时,不同数量的隐藏的神经元。16岁隐藏的神经元,延时给好的结果和安获得86%的准确率,特异性为94%,敏感性77%,和85% MCC,处理时间是7.650秒。表演在20和40隐藏神经元较低,相比之下,16所隐藏的神经元。

支持向量机的性能(RBF)C= 100, = 0.0001是好的比其他值C 如表所示7。SVM(内核= RBF)获得精度88%,特异性为96%,敏感性75%,MCC 85%, AUC 84%。计算时间是0.002秒。支持向量机(内核=线性)C= 10, = 0.0001获得精度84%,特异性为96%,敏感性74%,MCC 85%计算时间0.003秒。获得的NB分类精度为83%,特异性为88%,敏感性77%,MCC 82%处理时间6.591秒。我们应用100和50树系综分类器。合奏,100年有84%的准确性,特异性为92%,敏感性73%,84% MCC。计算时间是2.606秒。整体的性能在50岁也不错,获得了83%的准确率,特异性为90%,敏感性70%,83% MCC,处理时间为12.774秒。随机森林,100和50个迭代。100岁的准确性为66%,特异性为69%,敏感性62%,MCC得到66%。AUC值在100年是65%。处理时间为1.100秒。 The random forest at 50 has pretty good performance and obtained classification accuracy 83%, specificity 92%, sensitivity 72%, and MCC 82% and AUC was 83%. The computational time was 0.017 seconds. Figure17显示了分类器的性能用套索FS算法选取六个功能10倍的简历。

分类器的性能图所示17。根据图17在分类方面,SVM (RBF)的准确性C= 100, = 0.0001 88%选择功能,这是相对于其他分类器。逻辑回归精度为87%,和安的正确率是86%。这三种分类器由套索选中功能良好的性能。此外,特异性而言,逻辑回归获得97%,支持向量机(RBF)C= 100, = 0.0001很好,获得96%和安的敏感性为77%,朴素贝叶斯78%相比其他分类器在6重要特性选择套索FS算法。图18显示AUC六重要特性选择套索FS算法和10倍的简历。

中华民国AUC图分类器的6个重要特性如图18。的AUC值逻辑回归和支持向量机(RBF)分别为88%和89%,分别是大比其他分类器。AUC值事例,安,DT, NB是85%,85年84%,和82%,分别。图19显示了分类器的处理时间在六个重要特性选择套索FS算法和10倍的简历。

分类器的计算时间6日重要的选择特性套索FS算法使用合适的分类器参数如图19。逻辑回归处理时间为0.008秒。支持向量机(RBF)的处理时间为0.009秒,和随机森林的处理时间是0.017秒。DT处理时间是2.606秒,NB时间是6.591秒。安时间的处理时间是7.650秒大比其他分类器。基于事例的最低处理时间k= 1是0.002秒,比其他分类器。图20.显示了MCC六个重要特征的分类器选择套索FS算法和10倍的简历。

不同分类器的MCC在六个重要的功能是足够好,如图20.。根据图,逻辑回归MCC值是87%。事例的MCC在k= 1为85% A-NN一样。支持向量机(RBF) MCC为88%,和支持向量机(线性)MCC为85%。NB, DT,和随机森林MCC分别为82%,83%,和82%,分别。MCC的高价值显示更好的分类器的性能。因此,SVM (RBF) MCC为88%,心脏病,这是一个很好的预测模型预测。根据三个特征选择算法的结果,最好的分类器的性能评估指标见表10使用10倍交叉验证。

10显示逻辑回归精度是最好的(89%)选择功能救援FS算法相比mRMR与10倍交叉验证和套索特征选择算法。因此,在准确性方面,救援FS算法是最好的选择和逻辑回归的重要特性是心脏病的适合分类的分类器和健康的话题。特异性的分类如表所示10表明特异性的支持向量机是最好的mRMR FS算法相比救济和套索的特异性特征选择算法。mRMR FS算法选择导入功能正确分类的健康人。此外,AUC值的SVM (RBF)套索FS给最好的结果对其他分类器和特征选择算法。

分类器安的敏感性(MLP) 16隐藏神经元是最好的(100%)选择功能的救援FS算法和正确分类心脏病患者和正常人。朴素贝叶斯分类器的灵敏度选择特性的套索FS算法最坏的结果。在MCC的情况下,救援选择最合适的特征和分类器逻辑回归,取得最好的MCC的MCC值相比mRMR和套索FS算法。分类器的AUC SVM (RBF)C= 100, 选择6日= 0.001特性选择套索FS算法给出了最好的结果。其他特征选择算法(救济和mRMR)以防AUC是最糟糕的FS算法。不同分类器的计算时间有六个选择功能,缓解,mRMR和套索FS算法给出了表10。套索特性的计算时间选择是低比救济和mRMR FS算法。mRMR特性的算法,朴素贝叶斯的分类精度为84%,SVM套索FS算法精度88%。表11显示性能的最佳分类器之前和之后的功能选择。

11显示逻辑回归的分类精度从84%上升到89%,减少功能。同样,SVM (RBF)精度从86%上升到88%,减少功能。因此,特征选择算法选择重要的功能,这增加了分类器的性能,减少了执行时间。心脏疾病预测诊断系统的设计使用FS和分类器将有效地提高性能。

4所示。结论

在本研究的研究中,提出了一种混合智能machine-learning-based预测系统对心脏疾病的诊断。系统测试在克利夫兰心脏病数据集。七等知名分类器逻辑回归,事例,安,支持向量机,NB, DT,和随机森林是使用三个特征选择算法,mRMR,套索用于选择的重要特性。系统中的K-fold交叉验证方法进行验证。为了检查分类器的性能,也采用了不同的评价指标。特征选择算法选择重要特性,提高分类器的性能分类的准确性、特异性、敏感性、MCC减少了算法的计算时间。分类器逻辑回归的10倍交叉验证显示当选择最佳精度89% FS算法。由于逻辑回归的良好的性能,这是一个更好的预测系统的准确性。

特异性,SVM(线性)特征选择,算法mRMR性能是最好的比逻辑回归的特异性FS算法救济和套索如表所示10。SVM(线性)与mRMR-based系统将正确健康的人进行分类。最好的敏感性是100%的分类器安(MLP) 16隐藏神经元选择救济功能。朴素贝叶斯分类器的套索FS算法最坏的敏感性。安与救援正确分类心脏病的人。更优雅的逻辑回归MCC被救援FS算法89%选择特性如表所示10。用套索FS SVM算法的执行时间是最好的比其他功能算法和分类器。应该使用特征选择算法在分类之前提高分类器的分类精度如表所示11。因此,通过FS算法,我们可以减少计算时间和提高分类器的分类精度。

FS算法选择相关的重要功能从健康的人歧视高清。根据FS算法,最重要的和适合的功能是铊扫描,胸痛、类型和运动诱发心绞痛;所有三个FS算法的结果表明,空腹血糖的功能是不适合分类的心脏病和健康的人。分类器的性能与救援FS算法重要特征选择是优秀的比mRMR和套索。

新奇的研究工作发展高清的诊断系统。系统使用三个FS算法,7个分类器,一个交叉验证方法,诊断HD的性能评价指标。系统测试在克利夫兰心脏病数据集分类HD和健康的话题。设计一个决策支持系统通过machine-learning-based方法将更适合心脏病的诊断。此外,一些无关紧要的功能减少了诊断系统的性能,增加了计算时间。所以本研究的另一个创新的维度是特征选择算法来选择最佳的使用功能,提高分类精度以及减少诊断系统的执行时间。在未来,我们将执行更多的实验来增加这些预测心脏病诊断分类器的性能通过使用其他的特征选择算法和优化技术。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了国家自然科学基金(批准号61370073),中国国家高技术研究发展计划(批准号2007 aa01z423),和项目四川省科学技术厅。