文摘

背景。使用的机器学习技术在预测冠心病(CHD),神经网络(NN)是广泛用于提高性能的准确性。客观的。尽管NN-based系统提供有意义的结果根据临床实验中,医学专家不满意他们的预测性能,因为神经网络训练是一个“黑箱”的风格。方法。我们试图设计一个NN-based预测冠心病风险的使用特性相关性分析(NN-FCA)使用两个阶段。首先,特征选择阶段,这使得特性加入预测冠心病风险的重要性,排名,第二,该特性相关性分析阶段,在了解哪一个特性之间存在的相关性关系,每个神经网络预测的数据输出,确定。结果。朝鲜4146人的数据集评估,3031年低冠心病风险和1115年冠心病高风险。的接受者操作特征(ROC)曲线下的面积(0.749±0.010)拟议的模型比弗雷明汉风险评分(FRS) (0.393±0.010)。结论。拟议的NN-FCA利用特性相关性分析,发现比FRS的冠心病风险预测。此外,该模型导致了一个更大的ROC曲线和更准确的预测冠心病的风险比FRS朝鲜人口。

1。介绍

据世界卫生组织(世卫组织)、冠心病(CHD)是世界上最危险的疾病之一。根据世界卫生组织,2015年大约1770万人死于冠心病(1]。冠心病包括高脂血症、心肌梗死和心绞痛(2- - - - - -4]。一般来说,医学专家到达诊断基于心电描记法,超声造影,血液测试结果。冠心病是不容易诊断在疾病早期阶段(5- - - - - -8),但对于有效治疗,其早期诊断是重要的(9]。然而,诊断是基于医学专家的个人经历和对疾病的理解,增加错误的风险,适当延迟治疗,增加治疗时间,并大幅增加成本。为了解决这些问题,许多研究已进行临床决策支持系统10)使用各种技术,如数据挖掘和机器学习11- - - - - -15]。的机器学习技术被用来预测冠心病,神经网络(NN)是广泛用于提高性能的准确性(9,16- - - - - -20.]。NN善于概括数据之前没有冠心病领域知识培训。此外,通过分析复杂数据,神经网络可以发现新的与冠心病相关的模式和信息(21- - - - - -23]。

尽管上述NN-based系统提供了有意义的结果根据临床实验中,医学专家仍然不满意NN,因为它的“黑盒”特征(24- - - - - -26),也就是说,预测训练没有知识的输入特性和神经网络输出之间的关系。许多CHD-related特性用于冠心病的预测因子。不必要的或者不重要的特性预测冠心病可以包含在预测培训。在本例中,输入新数据时,它不正确预测。

在本文中,我们提出一个NN-based冠心病风险预测方法基于特征相关分析(NN-FCA),包括两个过程,即特征选择和特征相关性分析。(我)首先,在特征选择阶段,我们排名特性对其预测冠心病风险的重要性。主要依据功能敏感性训练神经网络。基于这些排名,神经网络后重新训练逐步的方式消除排名最低的特性。这个过程一直持续到神经网络的性能退化与前一个阶段。一旦必要特性得到使用这个过程,我们分析神经网络的特性之间的关系在生成神经网络输出的神经网络预测模型可以避免黑箱式培训。(2)第二,在功能相关分析阶段,我们分析了特征识别功能关系,确定他们是否与神经网络预测输出。如果功能受到影响的贡献预测输出通过改变其中任何一个,功能被认为是相关的。NN-based冠心病的预测使用特性相关性分析是训练的方式,连接相关特性耦合和不相关的特征是解耦的。

为了证明我们方法的预测精度,我们使用了6日韩国国家健康和营养调查(KNHANES-VI)数据集27)和弗雷明汉风险之间的性能评估分数(frs) [28,29日),其他的机器学习技术,并提出NN-FCA。

本文的其余部分由以下组成:第二章描述了该方法;第三章拦住了结果;第四章提供了一个讨论;最后,我们的结论是在第5章。

2。方法

研究设计如图1。在步骤1,KNHANES-VI数据集被检查和数据被选中。在步骤2中,统计分析相关的冠心病风险进行识别特性。在步骤3中,预测冠心病风险的使用特性来选择sensitivity-based特征选择。在步骤4,NN-based冠心病风险预测被训练使用特性相关性分析的功能。在步骤5中,性能度量是验证NN-based冠心病风险预测使用特性相关性分析。

2.1。数据集

韩国KNHANES-VI由疾病控制和预防中心。KNHANES识别人口的健康和营养状况,提供所需的统计评估卫生政策是否被有效地交付。它还提供统计数据对吸烟、饮酒、体力活动、肥胖和疾病,要求世界卫生组织(世卫组织)和经济合作与发展组织(OECD) (27]。

我们使用KNHANES-VI数据集执行冠心病风险预测。输入变量进行训练是年龄、性别、身体质量指数(BMI)、总胆固醇(To_chole)、高密度脂蛋白胆固醇、收缩压(SBP)、舒张压(菲律宾),甘油三酸酯,血红蛋白、甲状腺疾病(TD)、慢性肾功能衰竭(CRF)、肝炎B型(H_B), C型肝炎(H_C),肝硬化,吸烟,和糖尿病。使用的输出变量是冠心病风险相关变量,也就是说,高血压,血脂异常,中风,心肌梗死和心绞痛。当这五种疾病不存在和不存在,冠心病是低风险的,但如果其中一个五,冠心病是高风险的。8108年纪录的KNHANES-VI用于实验。我们排除了3324不确定(nonrespondent,“零”价值)受访者和638人在30岁以下的记录。最后CHD-related数据集包含4146条记录。

2.2。统计分析

的非参数Mann-WhitneyU测试(连续特性)和卡方(分类功能)被用来比较年龄、性别、体重指数、To_chole,高密度脂蛋白,SBP菲律宾,甘油三酸酯,血红蛋白,TD, CRF, H_B, H_C,肝硬化,吸烟,和糖尿病高危人群。执行的统计分析是使用IBM SPSS 22.0版本。(30.]。几个术前特性进行比较,以确定最有效的冠心病风险预测方法。

混淆矩阵和接受者操作特征(ROC)曲线(31日被用于性能比较。混淆矩阵提供了一种方法评估分类器的性能如表所示1(32),阳性预测值(PPV),阴性预测值(NPV)和准确性(1)。PPV和NPV是积极和消极结果的比例与真阳性或真正的负面结果,分别。PPV和NPV描述诊断测试的性能或其他统计措施(33]。测量系统的准确性是亲密的程度量的测量量的真正价值34]。是构建输出变量(冠心病低风险、冠心病高危)验证数据集的分析。对所有测试的极限意义

2.3。特征选择

n特征提取分类低和高的风险,我们选择特性良好的分类基于重要性的贡献。每个特性的重要性是衡量功能敏感度训练神经网络预测器。的th特性灵敏度,森(表示为X,x),平均计算神经网络输出变化生成原始数据集和嘈杂的数据集之间通过添加一个很小的噪音(表示δ)x。的th特征灵敏度 在NNoutputk(X)和NNoutputk(X(xi +δ))的输出输入,k原始输入数据集,X与噪声的输入,输出(X(xi +δ))通过添加少量的噪声δ分别th特性。计算所有特征敏感性分别与一个特征的敏感度。的δ范围内的值是随机生成(a1, 0.0010)。图2提出了一个原理图的方法使用神经网络灵敏度计算功能。所有功能敏感性在降序排序,和最低的特性灵敏度特性集的消除。神经网络被重新训练使用剩余的特性,然后验证,以确定性能不退化相比原来的神经网络训练使用所有功能。如果性能不退化,然后重复上述过程,直到确定必要的特性。

2.4。特征关联分析

克服神经网络的性能限制由于黑箱培训的特点24- - - - - -26),之前的信息特性之间的相关关系是获得使用功能产生NNoutputs敏感性的变化。相关功能连接到隐层的耦合连接。另一方面,不相关的功能连接在非耦合连接。在训练一个特性的敏感性神经网络生成NNoutput意味着相对重要性指数。这包含了目的,如果一个功能的大小增加,功能增加,训练神经网络的重要性。此外,如果增加的幅度特性显著影响其他功能,相应的功能可以被认为是彼此相关的。确定相关或不相关的特性,本研究调查了灵敏度的变化特性,如算法的伪代码中所示1。图3给出一个示例训练的神经网络预测模型基于特征关系,如相关和不相关的。

伪代码特性的相关性分析。
特性:
学习神经网络与X。
计算功能的敏感使用方程(2)所有功能。
= 1,n
{
%放大功能x
学习神经网络与
计算功能的敏感使用方程(2)所有功能。
}
分析是否有保存功能敏感性特征与大敏感性变化由于放大功能。

3所示。结果

3.1。特征

2列出了术前的分布参数之间的低风险和高的人冠心病的风险。

4146名受试者的平均年龄52岁(范围:30 - 92;意思是:52.501)。年龄中位数低风险和高风险的年龄是47岁(范围:30 - 87;意思是:48.60)和64年(范围:30 - 92;分别是:63.11)。平均身体质量指数为23.68(范围:15.302 - -41.304;意思是:23.969)。体重指数BMI值低风险和高风险是23(范围:15 - 40;意思是:23.594)和25(范围:16-41;分别是:25.004)。 The median To_chole level was 189 mg (range: 79–525; mean: 190.974). The median low-risk To_chole level and high-risk To_chole level were 190 mg (range: 89–384; mean: 191.738) and 185 mg (range: 79–525; mean: 188.898), respectively. The median HDL was 50 mg (range: 22–118; mean: 51.843). The median low-risk HDL and high-risk HDL were 51 mg (range: 22–111; mean: 52.642) and 48 mg (range: 23–118; mean: 49.671), respectively. The median SBP level was 117 mmHg (range: 75–219; mean: 118.979). The median low-risk SBP level and high-risk SBP level were 113 mmHg (range: 75–209; mean: 155.583) and 127 mmHg (range: 88–219; mean: 128.209), respectively. The median DBP was 75 mmHg (range: 10–137; mean: 75.822). The median low-risk DBP level and high-risk DBP level were 75 mmHg (range: 44–137; mean: 75.61) and 76 mmHg (range: 10–118; mean: 76.397), respectively. The median triglyceride level was 112.5 mmol/L (range: 20–1868; mean: 139.236). The median low-risk triglyceride level and high-risk triglyceride level were 106 mmol/L (range: 20–1868; mean: 131.570) and 129 mmol/L (range: 28–1397; mean: 160.0744), respectively. The median hemoglobin level was 13.9 mg/dl (range: 6.7–19.1; mean: 13.981). The median low-risk hemoglobin level and high-risk hemoglobin level were 14 mg/dl (range: 7–19; mean: 14.057) and 14 mg/dl (range: 7–18; mean: 13.989), respectively. The difference between the 2 groups (low risk and high risk) in age, BMI, To_chole, HDL, SBP, DBP, and triglyceride was significant (independentt以及): (年龄), (BMI), (To_chole), (HDL), (SBP), (菲律宾) (甘油三酯)和 (血红蛋白)。4146对象被划分根据性别女(1777)和男(2369)。TD是归类为不(4073)和是的(73)。CRF是归类为不(4134)和(12)。H_B被归类为不(4117)和是的(29)。H_C列为不(4143),是的(3)。肝硬化被归类为不(4136)和(10)。吸烟列为不(3322)和是的(824)。糖尿病分为没有(2625)。空腹血糖受损是归类为不(994)和是的(527)。两组之间的差异(低风险和高风险)在性别、TD, CRF, H_B, H_C,肝硬化,吸烟,和糖尿病的甘油三酸酯是重要的(卡方检验): (性), (TD), (CRF), (H_B), (H_C), (肝硬化), (吸烟) (糖尿病)。

3.2。功能Sensitivity-Based特征选择的结果

神经网络k(X)由16个输入节点,4隐藏节点,和一个输出节点。嘈杂的数据(x)应用于训练神经网络k(X)来计算每个特性的敏感性。图4概述了功能灵敏度的计算过程。

3介绍了灵敏度特性的结果。从表中,To_chole(0.100)、年龄(0.081),SBP(0.073),和菲律宾(0.049)被认为是冠心病风险预测的重要特征。神经网络是重新训练通过删除排名最低的特性一次直到神经网络的性能会降低,如表所示4。获得最佳性能时只有7个特性(性别、血红蛋白、TD, CRF、H_B H_C,和肝硬化)被移除,81.163%预测冠心病的准确性。

3.3。使用功能相关分析NN-Based冠心病风险预测

从结果中部分3.2九个特征(年龄、BMI、To_chole,高密度脂蛋白,SBP菲律宾,甘油三酸酯,吸烟,和糖尿病)被选中,用于功能相关分析,如图5。每个特性的相关特性测定根据相互影响敏感性的变化。换句话说,相关特性影响其灵敏度变化在一个单一的另一个由于放大功能。例如,功能的变化的敏感性SBP是0.017放大时,即表示X(SBP),如表中列出5。SBP的放大被认为是影响灵敏度的变化三个特性,如体重指数(0.025),To_chole(0.042),(0.017)类似,因为他们表现出比平均水平或更高灵敏度变化敏感性变化(0.017)的所有功能。核实相关的相互关系,SBP的敏感性变化分析了根据BMI的放大,To_chole,和菲律宾。放大的BMI (X(SBP)),SBP的敏感性变化是0.007,远低于平均灵敏度变化(0.012)的特性。因此,BMI并不被认为是与SBP。放大的To_chole (X(To_chole))、SBP并不相关,类似于BMI。另一方面,菲律宾的放大(X(菲律宾)),SBP的敏感性变化为0.035,大于平均灵敏度变化(0.022)的特性。总的来说,分析表明,SBP和菲律宾是彼此相关的。剩余的相关功能特性以同样的方式进行。基于特征的相关性,NN-based冠心病风险预测、相关特性的耦合连接到隐层,是模仿,见图6。例如,BMI和菲律宾都耦合到隐层的连接,因为两者都是彼此相关的。

3.4。性能测量

的性能提出NN-based冠心病风险预测使用功能相关分析,检查和获得的结果与功能相关分析(NN_FCA)和逻辑回归(LR),神经网络(NN)和弗雷明汉风险评分(FRS) [28),使用性能指标,如混淆矩阵(阳性预测值(PPV),阴性预测值(NPV),和准确性)和ROC曲线。实验数据集分为训练集(70%)和验证组(30%)。表6性能测量的结果列表。

从表5FRS显示,低性能的准确性达28.87%。LR和NN高性能(80.32%和81.09%,分别地。),但性能低于NN_FCA。NN_FCA显示最佳的性能比其他模型训练集和验证集(87.63%和82.51%)。PPV和NPV还显示NN_FCA最高(71.29%和85.70%,分别地)比其他模型。NN_FCA最高的准确性为82.51%,因为相关关系的功能训练,而训练NN_FCA。

ROC曲线的结果如表所示7和图7。如图所示图的左边,FRS非常低的ROC面积0.393±0.010。因为FRS统计方法适用于一个特定的人口和环境,它似乎不适合朝鲜人口。LR和神经网络分别为0.713±0.010,0.735±0.010,分别。在这里,神经网络被发现有效的预测冠心病的风险,在此前的一项研究中报道(17,35]。另一方面,作为显示在右边的图,NN_FCA为0.749±0.010,比现有的神经网络,因为它消除了不必要的功能,当训练预测模型。换句话说,sensitivity-based特征选择可以有效地检测特性预测冠心病的风险。

因此,错误率可以减少使用NN_FCA,因为它消除了不必要的神经网络的节点之间的连接。因此,NN_FCA是优秀的性能精度。提出NN_FCA有效预测冠心病的风险。

4所示。讨论

神经网络是一种模仿人类大脑训练方法和预测是一个非常成功的技术输入值和目标值之间的关系。此外,这是一个预测模型支持反向传播方法和一种功能强大的技术,可以帮助确定支持参与的问题分类、推理、预测,和顺序推理(36,37]。大量研究试图预测冠心病的风险;LR在机器学习和神经网络通常使用。预测性能降低,因为不必要的特性被认为是在训练LR和神经网络9,16- - - - - -20.]。该方法解决了这个问题通过删除不必要的功能使用sensitivity-based功能选择。

最受欢迎的冠心病的风险决策支持是弗雷明汉风险评分(FRS) [28),为冠心病的风险指数提供了一个使用病人的人口统计方法和各种医学检查信息。目前,FRS的准确性为28.87%,作为评估使用KNHANES-VI数据集[27]。删除FRS不易反映出环境,也随时间变化,是有限的病人在一个特定的地区,因为它使用美国病人从1960年到1970年收集的数据(29日]。

许多研究已经进行了使用机器学习来预测冠心病的风险。Arabasadi et al。35)提出了一个混合神经网络遗传2017年冠心病风险预测。在这部作品中,利用遗传算法所选择的输入特征和冠心病预测然后用神经网络建模。Narain et al。9)开发了一种冠心病风险预测系统在2016年与量子神经网络模型。这项工作增加了量子间隔根据输出层的误差值在训练和乙状结肠权重提供功能。时et al。16)提出了一种新颖的混合法,特征选择,粒子群优化和k - means在2016年用于冠心病的预测。他们最终采用监督学习,如神经网络、LR、模糊无序归纳法以及C4.5决策树分类。赵和马17)提出了一个智能的无创性诊断系统基于经验模式decomposition-Teager能量算子的瞬时频率估计舒张期杂音和反向传播神经网络分类2008年的杂音。他们工作在正常组和冠心病组分类根据心电图(ECG)信号为舒张期杂音。Akay [18冠心病)提出了一个在1992年使用神经网络预测模型。他们提出了一个临床示范100名患者的数据。Kukar et al。19冠心病)提出了一个预测系统使用心电图数据和用贝叶斯神经网络建模。Detrano et al。20.)开发了一个冠心病预测系统建模数据的425名患者使用LR技术。正如上面提到的,使用NNs正在进行冠心病的预测研究。

这项研究是预测冠心病的风险进行的韩国人。一般来说,心脏病是受到年龄、性别、体重指数、总胆固醇、高密度脂蛋白,收缩压,舒张压,吸烟和糖尿病38- - - - - -46]。在韩国,冠心病是没有找到与性有关,血红蛋白、甲状腺疾病、H_B H_C,或肝硬化疾病( 值< 0.05)。另一方面,甘油三酸酯和CRF与冠心病有关( 值= 0.035)。甘油三酸酯是一种重要的因素在预测冠心病的风险。本研究证实,甘油三酯冠心病在韩国是一个非常重要的因素。此外,结果NN-based冠心病风险预测使用特性相关性分析表明,SBP和菲律宾是相关的。这是合理的,因为都有类似的特征。此外,BMI和菲律宾是密切相关的,也就是说,肥胖的人有高血压一般(47]。此外,菲律宾和总胆固醇影响冠心病之间的关系48]。拟议中的NN-based冠心病风险预测使用特性相关性分析显示精度高(82.51%),冠心病的预测比其他模型和被证明是比过去FRS应用更有用。

5。结论

本文提出了一个NN-based冠心病风险预测使用特性相关性分析(NN-FCA)和试验了KNHANES-VI数据集。该模型将改善冠心病的风险和决策支持适当的治疗。性别、血红蛋白、甲状腺疾病、H_B H_C和肝硬化不相关,而甘油三酯和CRF与冠心病密切相关。此外,甘油三酸酯是一个非常重要的因素在韩国人冠心病的风险。此外,BMI相关特性和菲律宾,菲律宾和总胆固醇,SBP和菲律宾。该模型是一样好FRS的冠心病风险预测。相比韩国人口的FRS的验证,该模型导致了一个更大的ROC曲线和更准确的冠心病风险预测。

该模型承认这样的特点是,这可能有助于预防心脏病的这些人。这可能带来好处的人在预测方面,超越了一个简单的冠心病风险预测和定量的存活时间。此外,自我诊断算法或类似的临床决策支持系统可以开发和应用有意义如果NN-FCA可以应用到冠心病以外的疾病。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由韩国仁荷大学研究基金会资助。