文摘

心脏疾病是一种严重的疾病,造成不利的所有社会的负担,导致长时间的痛苦和残疾。我们开发了一个基于可见低成本的风险评价模型的重要的属性使用hyperparameter优化机器学习技术。选择多个组风险属性和排名的递归特性消除技术。地位和价值分配给每个属性进行验证和批准的医疗领域专家的选择。使用特定的优化技巧的改进决策树,再,随机森林,支持向量机风险属性测试。实验结果表明,优化的随机森林模型优于其他模型风险最高的敏感性,特异性,精度、准确性、AUROC分数,和最小的误分类率。我们模拟结果与主流的研究;他们表明,它可以做得更好比现有的风险评估模型与异常预测精度。该模型适用于农村地区,人们缺乏基本医疗服务供给不充分,遇到障碍从初始预测综合基本医疗的进步中获益。尽管本研究开发一种低成本的风险评价模型,还需要更多的研究来了解新发现的发现疾病。

1。介绍

心脏病是一个日益严重的社会和公共卫生问题有显著的死亡率数据和障碍(1]。英国心脏基金会(BHF银行)和澳大利亚统计局(ABS)报道,心脏病的所有死亡中26%的英国和澳大利亚总死亡人数的33.7% (2- - - - - -6]。亚洲及太平洋经济社会委员会(亚太经社会2010)报道,1/5th亚洲国家都患有非传染性疾病,如癌症、心脏疾病和慢性呼吸道疾病(7]。

成本和死亡率心脏病变成全球流行病。例如,英国的医疗报告,美国和中国表明,心脏病在英国每年90亿英镑,3126亿美元在美国,在中国400亿美元。这些报告显示,心脏病的流行在世界上有相当大的影响,是占主导地位的健康和发展的挑战在他们诱导的人类痛苦和失去他们对国家的社会经济基础8- - - - - -10]。图1显示图形演示心脏病的死亡率在所有国家通过世界地图表示。

不同的风险预测工具被广泛用于预测心脏病临床使用属性从多方面获得考试在医学实验室但是需要之前的血液样本调查。此外,没有明显的已知性能精度,从而降低他们的可用性在其他医疗设置。考虑到现有的风险工具的局限性和社会、经济、和公共健康的影响心脏病,我们开发了一个心脏疾病风险评估模型,预测风险比例异常预测精度在早期阶段12,13]。

2。文献综述

最近,研究人员作出了有影响力的贡献心脏病预测使用各种机器学习技术。

Polat和枪提出了一个新颖的心脏疾病的早期预测系统使用人工免疫识别系统(播出)与模糊分类器资源分配机制(14]。他们K-NN-based加权过程应用于心脏病数据集和权重比例在0和1的范围,然后fuzzy-AIRS算法应用于数据集加权心脏病。研究人员获得心脏病数据集(包含13 270属性和实例)从UCI机器学习数据库。他们实现了分类精度最高的价值k达到15个。提出系统的分类精度得到结果是87%,和很有前途的其他分类应用程序。结果强烈建议K-NN-weighted预处理和模糊播出资源分配机制可以帮助在心律失常的预测。

印度和Awang使用决策树建立了一个风险评价模型,神经网络和朴素贝叶斯的数据挖掘技术15]。开发模型提取有趣的隐藏模式与心脏疾病有关,可以回答详细的问题,现有的风险评估工具失败。他们开发了一种风险评价模型在。net平台上从克利夫兰心脏病数据库,包含909个实例和15医疗风险的特性。研究人员使用扩展(测距装置)数据挖掘查询语言和函数与模型和通信通过lift-chart检查其性能和分类矩阵。实验结果表明,朴素贝叶斯风险评价模型优于神经网络和决策树模型。

你等人建立了一个预测心脏疾病风险模型使用朴素贝叶斯的装袋,C4.5和装袋C4.5分类器现场收集的数据集的心脏病患者。装袋算法通过模拟过程中和学习技术的不稳定使用给定的训练集(16]。而不是每次采样一个新的训练数据集,最初的训练数据被删除某些情况下修改和复制他人。研究人员用WEKA进行三种不同的实验工具。实验1使用决策树算法,实验2使用装袋与减少错误决策树修剪选项,和实验3使用朴素贝叶斯算法的装袋。10倍交叉验证最小化偏差产生的随机抽样的每个实验的训练和测试数据样本。实验结果表明精度、召回和F-measure装袋与朴素贝叶斯最优性能的测试方法。

埃德里和Neshat发达一个心脏病的风险模型,运用模糊专家系统(17]。所有11的输入变量的隶属函数和1个输出变量利用推理机制。研究人员使用Mamdani模糊性和重心法去模糊化的过程。该系统生成的44规则和其他规则的结果相比是最好的基地。此外,他们开发了一个有效性程度(k聚合的)对于每个规则,规则,计算最大的有效性程度K= max (k1,K2…k44)。最后,模糊专家诊断系统显示系统相对比非专家。

Shouman等人开发了一个分类模型对早期预测心脏病患者使用决策树技术。多个分类器投票技术结合不同范围离散化方法(相同频率、chi-merge等于宽度,和熵)使用不同的决策树变异(基尼系数、增益比率和信息增益)(18]。心脏病有效决策规则选择使用减少错误修剪技术。该模型达到了最高的79.1%以同样的宽度精度离散化没有投票。应用投票技术后,等于频率离散化得到比率达到84.1%的最高精度。

Shouman等人开发了一个再使用克利夫兰心脏病风险评价模型的数据集来检测心脏疾病患者提前最佳精度(19]。他们获得的准确性和特异性97.4%和99%时的价值k= 1和7,分别。然而,在这项工作中,研究人员发现,应用投票技术在精密即使没有进展评估不同的参数值k

Alizadehsani等人应用C4.5分类和装袋分类器研究实验室和心电图数据确定各动脉的狭窄,左前降枝(小伙子),左旋(LCX)和右冠状动脉(RCA),分别20.]。收集303年的随机数据集实例,该特征选择方法预测童子狭窄的准确性。基尼指数和信息增益选择基本特征。此外,使用基于信息增益的特征选择增强的小伙子狭窄诊断的准确性为79.54%。结果表明,EF(射血分数),年龄,淋巴,HTN在十最有价值的特性在狭窄的动脉。

斯等人提出了一种新的分类器结合粗糙集理论与模糊集对心脏疾病诊断(21]。研究人员使用粗糙集理论生成模糊基本规则,和模糊分类器进行预测。该系统采用MATLAB 7.11,心脏病的存在是由输入数据的模糊系统。分类器实验克利夫兰、匈牙利、瑞士数据集,结果表明,粗糙模糊分类器比前面的方法实现80%的准确性在瑞士的匈牙利心脏病数据集和42%心脏病数据集。

使用best-first-search Sumana和桑提出了一个混合风险模型级联的方式和特征选择技术(22]。最初,他们集群数据集使用k - means算法,和正确的集群与12个不同的分类器训练样本开发使用分层10倍交叉验证最终的模型。接下来,评估模型的性能使用WEKA工具五个二进制类医疗数据集收集来自UCI机器学习库测试分类器的精度和时间复杂度。实验结果表明,该套模型提高了分类精度与12个分类器五个不同的医疗数据集。

见面有心脏病等人选择了重要属性结合计算机化的特征选择方法和医疗功能增加心脏疾病诊断的预测精度和决策(23]。克利夫兰心脏病的默认的多级分类模式数据集转换为二进制分类形式,和序列最小优化算法应用于使用MATLAB工具开发的风险模型。实验结果表明,特征选择方法的准确性增加控制离散特性,但模型时间复杂度也在不断增加。

Arabasadi等人提出了一个混合模型基于临床数据不需要侵入性诊断方法。研究者使用特征选择技术,如基尼指数,由支持向量机重量,信息增益,主成分分析(PCA)培训网络和修改重量达到最小误差(24]。他们用误差反向传播算法的人工神经网络延时结构和乙状结肠指数函数构建心脏病模型。该风险模型提高了神经网络的性能通过增加使用遗传算法初始重量。模型达到最佳的准确性、敏感性和特异性的Z-Alizadeh萨尼数据集,高于现有的系统。

讨厌等人进行了一个全面的调查最新的物联网组件、应用程序和医疗市场趋势(25]。他们评估云计算的影响,环境辅助生活,大数据,这套决定他们如何帮助可持续发展的物联网和云计算在医疗保健行业。此外,深入对物联网隐私和安全的问题,包括潜在威胁、攻击类型,和安全设置从医疗的角度,。最后,分析以前著名的安全模型处理安全风险并提供趋势,强调机会,为未来IoT-based医疗发展和挑战。此外,他们在云计算做一个全面的调查,特别是雾计算,包括标准的架构和现有研究雾计算在医疗应用程序。

汗和Algarni提出了一个物联网的医疗(IoMT)框架使用修改樽海鞘群优化(MSSO)和自适应神经模糊推理系统(简称ANFIS)早期心脏病预测(26]。提出MSSO-ANFIS技术给值精度高,记得,F1-score,准确性和最低的分类误差值与现有metaheuristic和混合智能系统的方法。拟议中的MSSO-ANFIS预测模型获得的精度99.45精度为96.54,高于其他方法。然而,需要使用不同的特征选择和优化技术,提高模型预测的有效性。

汗提出了一个可穿戴IoT-enabled框架来评估心脏病使用修改后的深卷积神经网络(MDCNN) [27]。附加的心脏监测设备检查血压和心电图(ECG)的病人。MDCNN可以将接收到的传感器数据分为正常和异常。该方法表明,最大数量的记录,MDCNN达到精度可达到98.2,比现有的分类器。此外,该模型显示了更好的性能结果比现有的深度学习神经网络和逻辑回归。

汗等人提出了一个安全框架,使用可穿戴传感器设备,监测血压,体温,血清胆固醇,血糖水平等。28]。病人身份验证和传感器值传输到云服务器通过合成- 512使用substitution-Caeaser密码算法和改进的椭圆曲线密码学(IECC)加密,以确保完整性。在改善ECC密钥生成,增强系统的安全性。通过这种方式,两个阶段的复杂是增强。提出的方案框架的计算成本小于现有的方案。平均相关系数值约为0.045,接近于零,显示了算法的优势。中间加密和解密时间是1.032和1.004,分别低于ECC和RSA。

Morales-Sandoval等人提出了一个三层的安全模型(WBAN)系统的无线人体局域网适合e-health应用程序提供安全服务在整个数据周期29日]。实验评价确定最合适的密码组合,以确保在实际WBAN部署特定的安全服务。他们观察到crypto-algorithms成本的计算资源是可以接受的。具体来说,在性能的计算处理加密层可以容忍最终用户的同时,仍满足预期的感知数据的数据速率。同时,提出安全WBAN部署设计提供了一些自由度提供了不同的安全级别(128、192和256位)。然而,与其他方法相比较是困难的因为异构现有方法的实现提供安全服务,设备类型和安全水平。在任何情况下,提出的安全解决方案具有竞争力的性能方面的执行时间,内存和能源消耗。

Ansarullah等人开发了一个有效的、低成本和可靠的使用重要的无创性心脏疾病模型风险属性(30.]。特征选择技术(额外的树分类器,梯度提高分类器,随机森林,消除递归特性,和XG提高分类器)和随机森林,朴素贝叶斯、决策树、支持向量机,再应用于重大风险属性。实验结果表明,随机森林风险评价模型优于其他现有的风险模型预测的准确率为85%。

研究活动和进步持续增强医疗。表1突出贡献、未来的工作和以往研究的局限性和发现可能的潜力在心脏疾病风险评估使用机器学习技术。

3所示。方法

建立一个智能和可靠的早期心脏病hyperparameter优化模型评估使用必要的风险特性,我们使用SEMMA方法,组成的五个阶段(示例中,探索、修改模型,评估)在图如下所示2。我们收集的主要心脏病来自异构数据源的数据组成的5776份病历查谟和克什米尔14属性。样本数据集分为训练阶段,验证和测试数据集。数据集预处理,然后分为70%和30%为训练和测试的目的。数据部分后,可视化数据探索阶段,然后修改阶段是用来处理缺失数据。一旦数据从缺失的值和异常值,得到完整的建模阶段实现了数据挖掘和机器学习技术。最后,通过SEMMA的评估阶段,测试数据集用于验证导出模型。我们使用的测试数据集只有一次,以避免模型过度拟合的问题。此外,我们采用了交叉验证技术在模型创建和改进措施评估的分类性能。

我们应用递归特性消除,消除每循环最重要的属性和删除属性之间的依赖关系和共线性(14]。最关键的风险属性标记为真,排名1,如below-given表所示2。我们使用多重共线性和方差膨胀因子(VIF)识别相关和独立的风险属性之间的相关性的强度(32,33]。

4所示。优化风险评价模型的发展

我们使用贝叶斯优化和单一交叉验证技术开发风险评价模型34,35]。单一交叉验证技术(图3)将数据集划分为k-stratified集。决策树、支持向量机和再分类器(不含随机森林算法)学习训练数据集的每一个技术的解决方案。一个数据集验证模型的一部分,另外一半测试模型。通过模型验证和测试性能测量诱导和训练数据集的值hyperparameters发现的优化技术。这个过程重申k组合在一交叉验证。然后平均验证准确性作为健身价值,指导搜索过程。最后,返回个人最大验证准确率(hyperparameter价值),和技术性能被认为是个体的平均测试精度。

5。结果与讨论的风险模型进行了优化

5.1。决策树优化模型

最重要的决策树模型的hyperparameters调谐精度的优化。

我们验证的测试数据和仔细评估,以避免过度拟合(36- - - - - -41]。调整后的hyperparameters决策树模型,我们得到结果表3。排列和组合显示不同的结果;然而,我们只记录的组合提供了最高的精度。

优化决策树模型真正的积极率达到83.3%,这意味着模型可以认识到积极的心脏病病例83.3%的效率。同样,该模型实现了真阴性率为80%,这意味着模型可以识别nondiseased实例以80%的效率。结果,模型精度达到81.85%,代表总体预测精度不健康和健康的心脏病病例81.85%。同样的,精度是82.94%这意味着模型假阳性率低。模型的误分类率是18%,AUROC得分是82%。

5.2。再优化模型

基于事例的主要hyperparameters模型(邻居的的数量k和距离度量相似度函数或)调整得到最优的结果(30.,38,39]。

4描述了基于事例模型的实验结果。我们使用不同的排列和组合的事例模型达到最大精度。例如,当一个度量属性是闵可夫斯基重量属性是一致的,模型的性能就会降低67%。“最好的分数”功能检查模型的准确性,因为“最佳得分”输出的平均分数通过交叉验证的准确性。当hyperparameter事例的组合模型是叶大小= 30,度量=城市街区,和重量= 13,达到最优结果。

5.3。支持向量机优化模型

SVM的hyperparameters(内核、正规化和γ)进行了优化,我们分析,开发了支持向量机的风险评估模型的行为是极其敏感的伽马hyperparameter [26- - - - - -28]。

下面的表5显示了不同精度调优后的各种hyperparameters SVM模型。hyperparameters(内核和正规化)调整排列和组合,以实现最佳的准确性。

我们观察到,当内核hyperparameter值线性或乙状结肠√,风险模型的时间复杂度增加,当内核= rbf参数值,γ= 0.1,正规化= 1.0,我们实现最高精度81%。此外,我们获得真正的积极率达到80%,真阴性率为82%,准确性为81%,精度为86%,18%的错误,AUROC曲线值的81%。我们没有使用SVM模型的实际实现,因为其时间复杂度高,导致过度拟合的问题,它会导致疾病的误诊。

5.4。随机森林的优化模型

我们探索和配置最具影响力hyperparameters像N估计,最大深度,最小样本分割,最小样本叶和最大特征的随机森林模型25,29日,35]。

的排列和组合优化的随机森林模型显示不同的结果记录在表6。实验结果表明,当hyperparameter组合标准=基尼,最大深度= 50,max =汽车特性,和N估计= 100,87%的最高精度。性能结果的真实积极的率是87%,真阴性率为84%,准确性为86%,精度为86%,误分类率是13%,和AUROC分数是86%。

6。优化风险模型的性能比较

本节描述hyperparameter优化模型的评估和比较。这些模型是证实通过不同模型的性能措施真阳性,真阴性率、精度,精度、错误率和AUROC(下面描述表7)。结果表明,优化的随机森林模型胜于其他开发了风险模型对这些模型性能的措施。例如,随机森林模型真正积极率达到87%,一个真正的负面率达到84%,87%的精度,精度为86%,87%,AUROC和误分类率13%。

4显示了不同的结合AUROC曲线优化风险评价模型。例如,心脏病随机森林模型AUROC得分最高为87%,这意味着之间的最好模型可以区分病变和nondiseased心脏的受害者。

此外,我们验证的性能开发模型与流行的设计,显示:(我)现有模型只使用医疗领域的性能措施和不考虑模型性能措施计算复杂性、可扩展性、健壮性和可理解性。然而,这种风险评价模型探讨了医学和模型性能的措施。因此,性能结果表明,该模型具有较高的预测能力,减少计算复杂度。(2)大多数心脏病模型使用入侵风险属性;然而,我们开发一种无创性心脏疾病风险预测模型的特性。(3)大多数现有的模型使用小二次数据集进行训练,测试和验证的目的,导致模型过度拟合;然而,我们使用大量的主心脏病克服偏见的诊断研究数据集。(iv)大多数现有的模型泛化能力缺乏,但是我们开发了一个优化模型,该模型适应适当的新的和以前看不见的数据。(v)现有的风险模型诊断心脏病在复杂和主要派生规则,使系统缓慢,导致错误的决策;然而,这种风险模型很简单,没有复杂的设计。简单的规则提取的用于创建图表作为社区筛查支持医疗保健专家在诊断心脏疾病患者。(vi)开发风险评价模型是创新,因为它确定心脏病的风险基于无损数据特性,从而支持其应用程序作为一个公共筛选试验。

7所示。结论

现有的工具预测心脏病风险使用临床属性从多方面获得考试在医学实验室。本研究开发了一个基于可见低成本、优化风险评价模型的风险属性。递归特性消除hyperparameter优化方法和随机森林一样,再,支持向量机,决策树算法应用于发现一个人的心脏病具有特定风险度属性。我们调查的影响,不同组合的特性,如年龄,性别,收缩压,舒张压,BMI和遗传来创建一个通用水平筛选试验来评估心脏疾病的风险。我们使用样本外测试计算模型性能的措施。实验结果表明,随机森林模型优于其他模型最高的敏感性,特异性,精度、准确性、AUROC分数,和最小的误分类率。我们模拟结果与主流的研究完成;获得的结果更优秀的出版文学中的值最好的感觉。该模型将支持医疗从业者,为受害者提供消息的可能存在的风险甚至在他们访问诊所或过高的健康检查。此外,该模型适用于人们缺乏综合初级医疗保健技术的设施不合时宜的预测和治疗。

8。未来的工作

(我)我们会加强研究工作通过添加其他的属性(社会经济水平、抑郁水平,种族),不同的数据挖掘方法的性能。(2)我们将确定的意义控制的属性,如体重和吸烟在不同的年龄和性别组心脏病风险评估。(3)我们会提高使用异构的真实数据集的不同属性的研究,不同的人群,和许多记录。(iv)我们将开发一个放之四海而皆准的心脏病风险模型使用数据挖掘技术成功开出疾病的治疗计划。

数据可用性

心脏病的风险数据用于支持本研究的结果中包括补充信息文件。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢KWINTECH-R实验室的支持。

补充材料

心脏病的风险数据用于支持本研究的结果中包括补充信息文件。数据的心脏病风险的补充部分。(补充材料)