文摘
心脏病是全世界范围内导致死亡的首要原因,并引发了很多科学界的兴趣。因为大量的冲动与之相关的死亡,早期发现是至关重要的。本研究提出了一种提高支持向量机(SVM)技术为骨干的计算机辅助诊断工具更准确地预测心脏病风险的水平。的数据集包含13个属性,如性别、年龄、血压、从克利夫兰诊所和胸痛。总共有303条记录6元组有缺失值。清理数据,我们通过listwise删除6丢失记录技术。数据的大小,事实上,这是一个纯粹的随机子集,使得这种方法对实验没有显著的影响,因为没有偏见。特征选择使用促进技术加速和提高精度。使用火车/测试分割方法,然后划分为训练和测试数据。然后使用SVM训练和测试数据。 The C parameter is set at 0.05 and the linear kernel function is used. Logistic regression, Nave Bayes, decision trees, Multilayer Perceptron, and random forest were used to compare the results. The proposed boosting SVM performed exceptionally well, making it a better tool than the existing techniques.
1。介绍
心脏病是指各种各样的条件,影响心脏从污染到遗传缺陷和血管疾病。这些缺陷是所有种族的全球最高的死亡原因。2016年,在美国约有2820万成年人被诊断出患有这种情况(1和2015年近634000人死亡2)使其死亡的最重要原因。根据美国心脏协会,是一个非盈利性组织,基金心血管医学研究,一个美国心脏病每40秒就有一个(3]。每个数据,有720000新发病例335000年心脏病和慢性袭击每年在美国。心的形式或心血管疾病(CVD)相关的发病率和死亡率已相当迷人的非洲撒哈拉沙漠以南地区,这个区域被认为是世界上最年轻的人口。撒哈拉沙漠以南的非洲地区仍是只有地区在全球心脏疾病死亡人数增加了1990年和2013年之间(4]。世界卫生组织(世卫组织),例如,心脏病已经上市的前两名死因在加纳,后腹泻感染(5]。2008年,心脏病死亡的主要原因在加纳在所有非传染性疾病(NCDs)和机构死亡的主要原因,占所有死亡的14.5%报告(6]。
传统上,病人的需要知道他的心脏状况的状态是根据医生的观点。做任何测试前,医生可能会进行一些身体检查和询问病人检查他的病史,不管心脏问题的严重性。除了血液测试和胸部x射线,任何心脏病诊断可能包括心电图(ECG)的参与,记录电信号,帮助发现的异常心脏节律和结构。霍尔特监测超声心动图、压力测试、心脏完善心脏电脑断层摄影术(CT)扫描,和心脏磁共振成像(MRI)是一些其他的疗法。霍尔特监视器是一个小的,可穿戴设备捕获一个心电图在24 - 72小时内。霍尔特监测检测心律异常不明显标准心电图。超声心动图由超声波图像的胸部和心脏结构和功能的详细图像。压力测试,通常称为跑步机测试或一个练习测试,被医生了解患者的心脏能承受工作负载。患者会参与一些体育活动或服用药物来提高他们的心率测试。之后,心脏的实际考试和各种照片来分析潜在的现实。 In case you ask your doctor if you have heart disease, the standard procedure is for him to assess the likelihood based on risk factors. Age, diabetes, smoking, high blood pressure, being male, and cholesterol are all significant risk factors. According to previous studies, nearly half of those who had coronary attacks had two risk factors: being male and being over 60[7]。结果,这是令人难以置信的技术使得早期诊断和风险评估之前简单的人发展疾病。
由于心脏病的风险增加,目前的研究预测计算机辅助治疗,本研究旨在提出两个问题的新方法。开始,我们提供一个更好的算法,增强了诊断,然后我们解释该方法无疑是比早些时候提出技术通过展示这项技术的真正实现。表1,2,3,4和图1明确证明,提出的方法优于早些时候提出的方法。研究的其余部分的结构如下:以前的相关研究及其在部分提出了挑战2。拟议的技术以及数据预处理以及以前的算法用来解决这个问题讨论了部分3。这项研究的结果是部分中讨论4。最终得出的结论5。
2。相关的研究
几种方法被用来预测患心脏病的风险。例如,遗传算法已被用于各种各样的应用程序。根据(8),neurofuzzy系统结合了neuroadaptive能力和模糊逻辑推理的能力的预测心脏病风险水平。优化算法通常用于重量训练模型时,但是有一个严重的缺点。遗传算法并不能保证最优的解决方案;因此,重量优化可能不完全准确。支持向量机相比,朴素贝叶斯决策树,随机森林和遗传算法实现更复杂,需要大量的参数被设置以达到接近最优的结果。因此,对于小数据集像克利夫兰在这调查,利用遗传算法是不适当的。
迭代二分3 (ID3)算法,一种决策树构建算法(9),是一个相对简单的算法,已经被证明是有效的在其他领域,但只处理分类数据的缺点,所以它不能使用在克利夫兰,这是饱受缺失值。如果样品测试数据很小,这种方法容易过度拟合。因此,它不能用于这项研究。
深层神经网络(10),表现出更强的性能预测,也被排除在这项研究中,因为与深层神经网络学习是很难理解。此外,由于学习是进步的,深的神经网络需要大量的数据来训练学习算法(11]。相比,随机森林、逻辑回归、中殿,贝叶斯神经网络、决策树,提出了提高SVM算法利用在这项研究中表现良好。在小数据集,这些解决方案的方法是表现最佳的算法之一,并且他们也更容易掌握。
米兰达et al。12)使用了朴素贝叶斯算法预测这个健康问题和研究相关的风险水平的成年人在他们的研究。在这项研究中,血液和尿液测试结果从临床实验室作为训练数据集。这项研究的困难在于作者未能探讨心电图和超声心动图分析,这两个在检测心血管疾病是至关重要的,并获得80%的准确性相对贫穷。再次,因为所有属性在朴素贝叶斯预计将相互独立,使用这个预测预测心脏病是具有挑战性的,因为发现预测因素的集合,是完全相互独立的在现实生活中是极其困难的。
此外,神经网络广泛采用(13,16]。预测心血管心脏病,Nandy et al。14采用swarm-artificial神经网络。这项研究的目的是提高精度。虽然研究的结果是有前途的,95.78%的准确性需要改进,尤其是相比,我们建议的研究。Sayad和Halkarnikar17)提出了一个数据挖掘和人工神经网络检测心脏疾病的方法。多层感知器神经网络(MLPNN)和反向传播算法被用于这个调查。剩余数据集预处理后分为两个部分。反向传播方法的MLPNN有92%的准确率,低于平均水平。金和康18)发明了一种神经网络技术预测心脏病的风险使用韩国全国健康和营养调查(KNHANES-VI)数据集19]。这个方法包括两个步骤。功能sensitivity-based特征选择是第一阶段,紧随其后的是一个神经网络预测模型。3031人被认为是低风险的4146年,而1115人发现高危。Dutta et al。20.)提出了卷积神经网络预测心脏病的临床分类数据高度class-imbalanced。这项研究的结果,另一方面,并不令人鼓舞。
而神经网络越来越流行,似乎现实,他们遭受过度拟合的数据和时间复杂性。当维数较低,神经网络也无法收敛。
出于同样的原因,随机森林一直被应用在各种调查(21]。jave et al。22)克利夫兰数据集用来构造一个随机搜索算法(RSA)特征选择和随机森林模型心脏衰竭的预测。改善建议诊断系统,网格搜索方法应用。进行了两种类型的测试,以确定该方法的准确性。第一次审判只建立一个随机森林模型,而第二次审判建立指定的RSA-based随机森林模型。该方法的分类精度为93.33%,这并不是真的让人印象深刻。-贾巴尔et al。23)提出一个随机与森林有关的分类和特征选择通过卡方和遗传算法来预测心脏病的风险在克利夫兰的数据集。拟议的技术优于其他方法,如朴素贝叶斯决策树和神经网络。然而,这项研究的精度仅为84%,这使得实际部署的一文不值。决策树预测心脏病也被提出(24,25]。决策树,另一方面,不工作与缺失的属性在克利夫兰数据如果不受到相当大的关注,使结果不准确。使用逻辑回归技术在心脏疾病的预测是很常见的。例如,Soleimani和Neshati26]利用三个逻辑回归模型有28个特性来预测心脏病风险因素,如患者使用711的数据严重胸痛、背痛、冷寒战、气短、恶心和呕吐。然而,研究94.9%的准确性并不特别引人注目。
支持向量机(SVM)也变得非常流行。序列最小优化策略的支持向量机在2015年调查,预测精度从82%到90%,这是没有前途的。然而,新研究支持向量机算法产生更好的结果。Harimoorthy和Thangavelu27),例如,最近使用R工作室的SVM-radial偏见内核方法预测心脏病准确率达到了98.7%。
有利的结果与支持向量机的基础上,我们被鼓励做进一步检查改善提出的技术研究。
3所示。材料和方法
3.1。数据集描述
克利夫兰的数据集是用于这项研究。这是克利夫兰诊所的基础数据集包含14个变量相关病人的生命体征与心脏疾病。剩余的财产作为目标或投影类,和十三14品质作为预测变量。性别、年龄、类型的胸痛、血清胆固醇、静息血压、空腹血糖、休息最大心率、心电图和ST段抬高研究的13个预测变量。预期的特征包括运动诱发心绞痛、抑郁、斜率,铊测试结果,船只被透视,诊断。总共有303个数据集,用6缺失值。删除303条记录被减少到297年的6元组通过listwise丢失的记录方法。看着大尺寸的数据,它是一个纯粹的随机子集,该方法没有显著影响其余的数据用于实验,因为没有偏见。表5包含的数据集描述。
3.2。拟议的框架
提出的研究框架如图2。
框架展示了整个方法的技术。解释如下。
3.3。功能重要性评价
功能重要性分数分配一个数值数据功能;分数越高,更重要的特性输出变量。我们提取特征的数据集使用额外的树分类器。每个属性分割点的金额提高了性能测量,加权观测节点的数量负责,用于评估一个决策树的相关性。纯度(基尼系数)被用来选择分离点。每个属性的相关性然后总结所有的决策树模型。基尼系数的算法1提出了如下:
|
整个方法开发的目标最大化每个分离纯度。纯度是定义在(1)作为均匀程度分组: 在哪里的概率是一个对象被划分到一个特定的类标签吗j的次数。图3显示了每个特性的重要性程度。
3.4。功能相关矩阵
相关性是一个术语,描述如何彼此相关的特性。热图使它简单的看到哪些特性最与目标变量密切相关。使用seaborn库,我们创建了一个热图的连接特性。皮尔森相关系数是用于这项研究。这种相关性评估如何积极联系紧密的两个数值序列。我们策划皮尔森的热图的相关的独立变量。通过使用演算法作为特征选择算法,仅选择特性的相关性高于0.5,考虑到绝对的值,选择。Seaborn函数自动执行统计估计必须完成操作。“深蓝”在图的因素4显示最高的相关性,也就是说,马克斯。心率和年龄和圣抑郁和马克斯。心率,表明这两个“时代”和“马克斯。心率”将发挥重要作用在预测心脏病。
3.5。提高SVM的分类
提升是一个合奏meta-algorithm,本质上,删除数据集偏见对机器学习算法和升级弱学习者强的学习者。促进战略的目标是提高预测精度。下面是一个使用自适应增强算法的描述:
让p用积极和负样本,让每个样本 在哪里 代表了相应的类标签。特征选择算法制定如下:步骤1:初始化权重每个训练样本的样本分布同样的初始权重 和 为y= 1,分别。的迭代 ,在哪里T是最后一次迭代开发,执行以下。步骤2:正常 ,在哪里是一个概率分布N是总数的特性。步骤3:训练弱分类器ht为特征j,它使用一个特性。训练误差估计对吗如上所述在以下方程: 第四步:选择假说最歧视的信息,也就是说,假设最少的分类错误 ,在加权样本。第五步:计算重量这个重量由其分类性能如以下方程: 第六步:然后更新重量分布和归一化方程如下: 第七步:最后一个特征选择的假设H(年代)这是一个函数的选择特点是用以下方程:
克利夫兰输入训练数据集,为代表 。 在哪里一个数据集有 和b数据集有 。的b数据集表示0数据集的属性。规模参数x和y是选择的特征向量学习演算法。最大边缘分离超平面成为一个优化问题中显示以下方程:
受约束方程如下:
自 和 定义相同的平面, ,c是正则化参数。 和 ,在哪里和各自的积极的和消极的支持向量。然后用保证金以下方程:
解决了最优平面凸二次规划问题在以下方程: 为 。分类器的决策边界的求和支持向量表示为如下方程: 在哪里是矢量数据的支持,是拉格朗日乘子,会员类的标签吗 与 。该产品 代表一个线性核函数,由以下方程:
线性核函数 将原始数据转换成一个新的空间,更高的维度;这包括与内积变换函数, 。原因是使转换数据容易分离。
3.6。模型评价指标
这项研究的一个重要组成部分是评估该方法的性能。这是通过比较提出技术的性能,使用一些可接受的标准的一些技术措施。混淆矩阵,分类报告,接受者操作特征(ROC)曲线,曲线下面积(AUC)数据被用来评估模型的性能。模型的测试和训练精度还必须评估。
3.6.1。接受者操作特性曲线
接受者操作特征曲线是一个图,描绘了一个分类模型的性能在所有分类的水平。真阳性的曲线代表一个比较率(TPR)和假阳性率(玻璃钢)以下方程: TP, FP、FN和TN代表真正的阳性,假阳性、假阴性,分别和真正的底片。
操作。曲线下的面积
曲线下的面积(AUC)是最著名的数量指标来描述精度。
AUC计算如下:
一般来说,面积1意味着一个完美的测试和面积0.5代表了毫无价值的测试。一般可接受的解释AUC值显示在表中6。
3.7。比较算法
3.7.1。比较和提高支持向量机SVM
进行了初步的实验使用支持向量机(SVM)和提高支持向量机相同的线性核函数确定提出了支持向量机的传统支持向量机相比有明显优势。结果表明,支持向量机的精度,提高支持向量机的训练和测试精度是99.92%和99.75%,86.83%和83.41%。这个结果是显著的 。因此,我们跟进比较该方法与逻辑回归的结果,朴素贝叶斯、决策树、多层感知器,和随机森林是广泛应用于这一领域。
3.7.2章。逻辑回归
逻辑回归是最好的回归分析时使用二元因变量或响应变量(28]。它通过结合输入变量(X)线性形式和使用系数来预测一个输出变量(Y)这是一个二进制值0或1。逻辑回归的技术模型的结果的可能性基于个人特征或输入变量(X)。它是数学表示如下: 在哪里表示一个事件的概率,代表估计参数值或与变量相关联的回归系数,通过最大似然估计x显示的参数变量。
3.7.3。朴素贝叶斯
朴素贝叶斯分类器是一个简单的概率分类器模仿的应用贝叶斯定理,拥有强大(天真)独立的假设29日]。朴素贝叶斯分类器可以非常有效地训练在监督学习的环境。贝叶斯规则以下方程:
从上面,是一个条件概率,即事件的可能性H鉴于发生X是真的。P(X),P(H)是观察的概率X和H彼此独立的。
3.7.4。决策树
基尼指数,杂质(信息增益)的方法,评估的程度或给定变量的几率被错误分类随机选择,利用比较的方法。“信息增益”一词是指确定哪些特性或属性的过程提供了大部分信息类。基尼杂质通过加总计算概率 ,一个类的标签我,乘以概率一个错误的分类项。计算给出了以下方程: 在哪里的概率是一个对象被划分到一个特定的类。
3.7.5。多层感知器
多层感知器(MLP)网络训练使用反向传播(30.),它使用数据来调整网络的权值和阈值,以减少错误的训练集上的预测。首先,它计算的总加权输入 ,使用以下方程: 在哪里的活动水平j在前面的层和th单元之间的联系的重量吗我th和jth单位。接下来,单位计算活动使用c形的函数。
第3.7.6。随机森林
训练算法是装袋或引导聚合树。这将创建一个树的多个训练集生成替代,这意味着数据实例可以被重复。该算法表示如下。
给定一个训练集 与响应, ,装袋反复(B)选择一个随机样本的训练集和适合树这些样本:
为 (我)样本,与更换,n训练的例子X,Y;调用Xb,Yb。(2)训练一个分类树fb在Xb,Yb。
当训练,预测看不见的样本是由确定的平均预测的所有单独的回归树吗如上所述在以下方程:
上面的过程描绘了原来的树装袋算法。随机森林,另一方面,不同的只有一条路:算法选择一个随机特性的子集在学习过程中的每个候选人分裂(集成学习方法,试图减少之间的相关性估计在一个合奏训练他们随机样本的特性,而不是整个特性集),也称为特性装袋。基尼杂质受雇为准绳,因为随机森林是基于决策树和基于分类的研究。
4所示。结果与讨论
这项研究的结果提出了如下:表1显示了不同模型的训练和测试精度及其处理时间当4 cpu上运行),∼2.2 GHz处理器,8192 MB的RAM。表2显示了混淆矩阵和表3显示了分类报告。
对于每个方法,在左上角的值是真阳性和一个在右上角是假阳性。右下角是真正的和负面的左下角是假阴性。
精度是指判断的准确性。上面的行值代表心脏疾病的可能性,而较低的行值指示决定的可能性。调和平均数的精度和召回是由F1得分。这是一个基于业绩的统计测量。的能力来确定检测呈阳性的样本数量为一个特定的属性称为回忆。图1比较了所有解决方案的模型和表的性能4显示了不同的表现方法在克利夫兰的数据集。我们进行了单向方差分析结果发现如果有显著统计学差异的结果提出技术和其他人的结果提高SVM和随机森林,提高支持向量机与多层感知器,提高支持向量机与决策树,提高支持向量机与朴素贝叶斯,最后提高SVM和逻辑回归。方差分析,其次是图基同时情节在95%置信区间,显示相应的手段是明显不同的 这表明,提高支持向量机是最好的。同时,培训测试进行了速度和结果再次表明,群体之间有统计上的显著差异 。进一步图基事后分析表明,提高支持向量机的处理时间明显小于其他技术配对后提高SVM和随机森林 ,提高支持向量机和多层感知器 ,提高支持向量机,决策树 ,提高支持向量机和朴素贝叶斯 ,提高支持向量机和逻辑回归 。所有的比较表明,提高支持向量机方法非常有前途。
数据5和6演示测试应用程序作为一个概念证明使用提高支持向量机算法。
5。结论
该研究强调心脏疾病的严重性和检测早期征兆的需要。许多机器学习算法基于随机森林,逻辑回归,多层感知器,朴素贝叶斯和决策树正在接受调查,根据最近的研究,呼吁危险的自动检测。本研究提出了一个提高SVM技术进一步研究如何提高预测精度。克利夫兰技术是基于数据集,利用成功和广泛的研究。减少误分类,我们通过规范化预处理数据,删除冗余的。功能的重要性也计算,分配一个分数中的每个特性数据;分数越大,越相关特性的输出变量。也产生一个热图链接的功能。热图表明,最重要的因素在预测心脏病是年龄和最大心率。最后,使用提出的提高支持向量机进行分类。 For the analysis, confusion matrices, classification reports, ROC, and AUC are all used, and the findings reveal that the provided methodologies performed the best. The proposed method has a recognition accuracy of 99.75%, which is much higher than previous studies. The algorithm has now been enacted and has shown to be pretty useful. In the future, we plan to develop a new ensemble model that combines SVM and AdaBoost to improve accuracy and speed, as well as releasing the app on both Android and iOS.
数据可用性
本研究的数据是公开的https://archive.ics.uci.edu/ml/datasets/heart +疾病。
的利益冲突
作者宣称没有利益冲突有关的出版。