文摘

心脏病是世界上最常见的一种疾病。本研究的目的是使用混合援助心脏病的诊断分类系统基于ReliefF和粗糙集(RFRS)方法。该系统包含两个子系统:RFRS特征选择系统和一个分类器的分类系统。第一个系统包括三个阶段:(i)数据离散化,(2)使用ReliefF特征提取算法,和(3)功能减少使用我们开发的启发式减少粗糙集算法。在第二个系统中,一个分类器,提出了基于C4.5分类器。Statlog(心)的数据集,从UCI数据库,获得用于实验。最大分类精度为92.59%,实现了根据重叠交叉验证方案。结果表明,所提出的系统的性能优于表演之前报道的分类技术。

1。介绍

心血管疾病(CVD)是一个主要的死亡原因。2012年估计有1750万人死于心血管疾病,占全球死亡的31% (http://www.who.int/mediacentre/factsheets/fs317/en/)。在美国,心脏病每34秒杀了一个人(1]。

许多因素参与心脏疾病的诊断,这使医生的任务。帮助医生做出快速决策,减少错误诊断、分类系统使医生能够迅速检查医疗数据的更详细的信息(2]。这些系统通过开发一个实现模型,可以使用示例数据分类现有记录。各种分类算法开发并作为分类器帮助医生在诊断心脏疾病患者。

表演获得使用Statlog(心)数据集3从UCI机器学习数据库)进行比较。李(4)提出了一个新颖的基于有界和监督特征选择方法的加权模糊隶属度函数(BSWFM)和欧氏距离和获得87.4%的准确性。可以喝,阿加瓦尔5)使用F评分特征选择方法和最小二乘法双子支持向量机(LSTSVM)诊断心脏疾病,获得平均分类精度为85.59%。Buscema et al。6)与输入选择和培训使用测试(扭)算法分类模式,获得84.14%的准确性。极端学习机(ELM)也被用作一个分类器,获得报告的分类精度为87.5% (7]。朴素贝叶斯分类器的遗传算法已被证明的分类精度85.87%8]。斯等人。9)获得使用朴素贝叶斯分类精度为83.70%。Polat和Guneş10使用RBF内核F分特征选择方法来检测心脏疾病。二分类器,获得83.70%的分类精度。在[11),GA-AWAIS方法被用于心脏疾病检测、分类精度为87.43%。代数乙状结肠方法也提出了分类心脏病、报道的准确性85.24% (12]。王等人。13)使用线性内核支持向量机分类器对心脏疾病的检测和获得83.37%的准确性。在[14),三个距离标准应用于简单的AIS,和准确性得到Statlog(心)数据集是83.95%。在[15),提出了一种混合神经网络方法和报告的准确性为86.8%。燕et al。16实现了83.75%使用ICA和SVM分类器分类精度。Şahan et al。17)提出了一种新的人工免疫系统命名属性加权获得的人工免疫系统(AWAIS)和使用精度82.59%k倍交叉验证方法。在[18),k神经网络,k神经网络与曼哈顿,特征空间映射(FSM),和可分性分裂值(科学)算法被用于心脏疾病检测、和分类精度最高(85.6%)获得的k神经网络。

从这些作品,可以观察到的特征选择方法可以有效地提高单个分类器算法的性能在诊断心脏疾病(19]。噪声特性和依赖关系的数据集可以影响心脏病诊断过程。一般来说,有许多记录原始数据集的伴随症状,以及大量的冗余的症状。因此,有必要减少原始的尺寸特性集的特征选择方法,可以删除不相关和冗余功能。

ReliefF是最受欢迎和成功的特性估计算法。它可以准确地估计的质量特性,并有很强的依赖关系,不受他们的影响关系20.]。使用ReliefF算法有两个优势:(i)此前过滤的方法,不使用领域特定知识设置功能权重(21,22),(2)它是一个功能权重(FW)工程技术。ReliefF分配一个权重每个特性表示的有效性,识别模式类的特征。首先,权向量可以用来提高懒惰的算法的性能(21]。此外,还可以使用权向量作为排名的方法特征来指导搜索的最佳子集特性(22- - - - - -26]。ReliefF算法证明了它的实用性在FS (20.,23),功能排名(27,构建基于树模型(22),与一个关联规则的分类器(28),在提高遗传算法的效率(29日)和懒惰的分类器(21]。

ReliefF监督和非监督学习都具有良好的性能。然而,它并不帮助识别冗余特征30.- - - - - -32]。ReliefF算法估计每个特性的质量根据其重量。当大多数给定特性的相关概念,这个算法会选择大多数人尽管只有一部分是必要的概念描述(32]。此外,ReliefF算法并不试图确定这些弱相关特性的有用的子集(33]。

不必要的冗余特征维数增加(34),影响学习性能当面对缺乏数据。经验也表明,去除冗余特征会导致显著的性能改进(35]。粗糙集(RS)理论是一种新的数学数据分析和数据挖掘方法,已经成功应用于许多现实问题在医学、药理学、工程、银行、金融和市场分析,和其他人36]。减少RS算法可以减少数据集的所有冗余特性,寻求特性来达到一个令人满意的最小子集分类(37]。

有三个优势结合ReliefF和RS (RFRS)方法作为心脏病诊断的综合特征选择系统。

(我)RFRS方法能更有效地去除多余的和冗余的功能。ReliefF算法可以选择相关疾病诊断功能;然而,冗余特性可能仍然存在于选定的相关特性。在这种情况下,减少RS算法可以去除剩余的冗余特性,以抵消这种限制的ReliefF算法。

(2)RFRS方法有助于加快RS还原过程和指导搜索的权值。找到一个给定信息系统的最小约简是一个np难问题,是在(38]。计算权值的所有信息系统的复杂性是很高39]。一方面,作为数据预处理工具,显示的特性由ReliefF方法可以加快操作过程作为RS减少算法的输入。另一方面,权重向量得到ReliefF算法可以作为启发式指导搜索权值(25,26),从而帮助提高性能的启发式算法21]。

(3)RFRS方法可以减少权值的数量,提高质量。通常,不止一个原因存在于数据集;和大量的特性导致大量的权值(40]。权值的数量将减少,如果使用ReliefF算法删除多余的特性。当删除不必要的特性,更重要的是可以提取特征,这也将提高质量的权值。

很明显,一个有效的特征选择方法的选择和一个优秀的分类器是非常重要的对心脏疾病诊断的问题(41]。最常见的机器学习分类器的社区已被用于心脏疾病的诊断。现在认识到,不存在单一的模型,优越的模式识别问题,并没有单一的技术适用于所有问题(42]。一个解决方案来克服单个分类器的局限性是使用一个模型。一个模型是一个multiclassifier组合模型,结果在更精确的决策,因为同样的问题由几个不同的解决训练分类器,这样可以减少误差估计的方差(43]。近年来,整体学习被用来提高分类精度超出水平,可以通过单个分类器(44,45]。在本文中,我们使用一个分类器来评估特征选择模型。

提高效率和有效性的分类性能对心脏疾病的诊断,我们提出一种混合分类系统基于ReliefF和RS (RFRS)方法在处理相关和冗余功能。系统包含两个子系统:RFRS特征选择子系统和一个分类子系统。在RFRS特征选择子系统中,我们使用一个两阶段混合建模过程通过整合ReliefF RS (RFRS)方法。首先,该方法采用ReliefF算法获得特征权重,选择更相关和重要的功能从心脏病的数据集。然后,估计从第一阶段获得的特性是用来减少RS算法的输入和指导遗传算法初始化必要的参数。我们使用一个基于遗传搜索引擎找到满意的权值。在分类子系统,由此产生的权值作为选择分类器的输入。最后,可以获得最优约简和性能。

评估该混合方法的性能,一个混淆矩阵,敏感性、特异性、准确性,和中华民国。实验结果表明,该方法使用杰克刀测试达到很不错的效果。

总结了本文的主要贡献如下。

(我)我们提出一个特征选择系统集成与RS方法ReliefF方法(RFRS)检测心脏疾病在一个高效和有效的方法。这个想法是使用特性估计ReliefF阶段作为输入和启发式的RS还原阶段。

(2)在分类系统中,我们提出一个分类器使用C4.5作为基分类器。整体学习可以实现更好的性能比单一分类器的成本计算。实验结果表明,本文系综分类器优于三种常见的分类器。

(3)与三个分类器和以前的研究相比,该诊断系统取得了良好的分类结果。Statlog(心)数据集从UCI机器学习数据库(3),得到的分类精度为92.59%,这比通过其他研究。

剩下的纸是组织如下。部分2提供简短的背景信息关于ReliefF算法和RS理论。提出了诊断系统实现的细节部分3。部分4描述了实验结果,并讨论了该方法。最后,结论和建议对未来的工作进行了总结5

2。理论背景

2.1。粗糙集理论的基本概念

粗糙集(RS)理论,提出了通过pswlak,在1980年代初,是一种新的数学方法解决模糊性和不确定性46]。RS理论已经应用在许多领域,包括分类系统分析、模式重组,和数据挖掘47]。RS-based分类算法是基于等价关系和作为分类器在医疗诊断(37,46]。在本文中,我们主要关注减少RS算法,可以减少数据集的所有冗余特性,寻求最小子集的特性必须达到一个令人满意的分类(37]。RS理论的几个基本概念(定义46,47)如下。

定义1。U某一集被称为宇宙;R一个等价关系在吗U。这一对 被称为一个近似空间。

定义2。 , (十字路口的等价关系P)是一种等价关系,称为R不可分辨关系,它是由

定义3。X是一个特定的子集U。最小的组成R包含X被称为最好的上近似XR和代表 ;最伟大的创作R包含在X被称为最好的下近似XR,它代表了

定义4。一个信息系统来标示 在哪里U宇宙是由一个有限集的n对象, ,在这C是一组属性和条件D是一组决策属性,V域属性的集合,F每个函数的信息吗 , ,

定义5。在一个信息系统,CD组属性吗 / , 被称为积极的地区,被定义为

定义6。P组属性吗U, ,依赖 被定义为 卡(X)表示的基数X

定义7。P组属性吗U, ,的意义 被定义为

2.2。ReliefF算法

许多特征选择算法开发;ReliefF是一种使用最广泛和有效的算法(48]。ReliefF是一种简单而有效的评估过程的质量特性与功能之间的依赖性问题[20.]。ReliefF算法中列出算法的伪代码1

ReliefF算法
输入:一个决策表
输出:向量 估计的质量特性
( )设置所有重量 ;
( ) 做开始
( )随机选择样本 ;
( )找到 最近的热门 ;
( )为每一个类
( )类 找到 最近的失误 ;
( ) 一个做
( )
( )结束;

3所示。提出了系统

3.1。概述

提出的混合分类系统包含两个主要组件:(i)特征选择使用RFRS子系统和(2)使用分类系统数据分类。提出了系统的流程图如图1。我们描述下面的预处理和分类系统。

3.2。RFRS特征选择子系统

我们提出一个两阶段基于ReliefF算法的特征选择方法和RS (RFRS)算法。这个想法是使用特性估计ReliefF阶段作为输入和启发式的随后的RS还原阶段。在第一阶段,我们采用ReliefF算法获得特征权重,选择重要的特性;在第二个阶段,估计从第一阶段获得的特性是用于指导所需的初始化参数的遗传算法。我们使用一个基于遗传搜索引擎找到满意的权值。

RFRS特征选择子系统包括三个主要模块:(i)数据离散化,(2)使用ReliefF特征提取算法,和(3)功能减少我们建议减少使用启发式RS算法。

3.2.1之上。数据离散化

RS减少需要分类数据。因此,数据离散化是第一步。我们使用了一个近似相等的间隔面元法本数据变量为少数类别。

3.2.2。ReliefF特征提取的算法

模块2 ReliefF用于特征提取的算法。处理不完整数据,我们改变diff函数。缺失的特征值处理概率(20.]。我们计算的概率两个给定的实例有不同的值对于一个给定的特征在类值条件(20.]。当一个实例有一个未知值,然后 当两个实例有未知值

条件概率是由训练集的相对频率近似。如下所示的特征提取过程。

使用ReliefF特征提取算法的过程

输入。一个决策表 , , ( , )。

输出。所选特征子集

步骤1。使用ReliefF获得每个特性的权重矩阵算法

步骤2。设定一个阈值,

步骤3。如果 ,然后特性 被选中。

3.2.3。减少功能降低的启发式RS算法

获得的评价结果排名ReliefF算法的特性。级别越高意味着特性具有较强的区分品质和更高的重量30.]。因此,导出搜索的过程中,在前列的特性应该被选中的概率更高。

我们提出RS减少使用特性估计作为启发式算法和基于遗传搜索引擎寻找满意的权值。算法的伪代码中提供了算法2。该算法在MATLAB R2014a实施。

减少启发式RS算法
输入:一个决策表 , ,
输出:红色
步骤1。回归核心
( )核心
( )
( )选择 ;
( )计算 , ;
( )计算 , ;
( )计算 , ;
( )如果
( ) ;
( )如果
( )结束
步骤2。返回红
( 红色=核心
( )
( ),而团体(红、 )
计算每个特性的重量 使用ReliefF算法;
选择一个功能 根据它的重量,让 ;
初始化所有必要的参数根据遗传搜索引擎
结果最后一步和寻找满意的权值;
结束时
3.3。分类子系统

分类子系统,相对应的数据集分为训练集和测试集。决策树是一种非参数学习算法,不需要寻找最优参数在训练阶段,因此作为对集成学习薄弱的学习者(49]。本文系综分类器使用C4.5决策树作为基分类器。我们使用促进技术构造系综分类器。重叠交叉验证用于提高测试结果的数据量。最优约简是原因,获得最佳的分类精度。

4所示。实验结果

4.1。数据集

Statlog(心)数据集用于我们的工作获得了来自UCI机器学习数据库(3]。这个数据集包含270观察和2类:心脏病的存在和缺乏。样品包括13条件特征,提出了表1。我们表示13特征C1C13

4.2。性能评价方法
4.2.1。准备混淆矩阵,敏感性、特异性和准确性

混淆矩阵(50包含实际信息和预测分类由一个分类系统。这种系统的性能通常是评估使用矩阵中的数据。表2显示了两舱的混淆矩阵分类器。

混淆矩阵,TP是真阳性的数量,代表正确的例心脏病分为心脏病类。FN的假阴性,表示例心脏病分为健康类的。TN的数量是正确的底片,代表健康的情况下,正确划分为健康类。最后,FP是假阳性的数量,代表健康的情况下,错误分为心脏病类(50]。

提出系统的性能评估是基于敏感性,特异性,和准确性测试,使用真正的积极(TP),真阴性(TN),假阴性(FN),和假阳性(FP)条款33]。这些标准计算如下(41]:

4.2.2。交叉验证

三种交叉验证方法,即二次抽样测试,独立数据集测试,和重叠测试,通常用来评估预测的预测能力(51]。在三种方法中,重叠测试被认为是最武断和最客观的和严格的52,53),因为它总是产生一个独特的结果,证明了在最近的一次深入分析全面审查(54,55]。因此,重叠测试被广泛和越来越多地采用在许多领域(56,57]。

因此,重叠测试来检查模型提出的性能。重叠交叉验证,每个序列的训练数据集,反过来,挑出作为一个独立的测试样品和所有参数规则计算基于剩余的样品,不包括被当作测试样本。

4.2.3。接受者操作特征(中华民国)

接受者操作特征曲线(ROC)用于分析的预测性能预测(58]。通常绘制使用真阳性率与假阳性率,歧视阈值的分类算法是不同的。ROC曲线下的面积(AUC)是广泛使用的和相对公认的分类研究,因为它提供了一个很好的总结分类器的性能59]。

4.3。结果与讨论
4.3.1。结果和分析Statlog(心)的数据集

首先,我们使用了等距面元方法离散化原始数据。在特征提取模块的数量k最近的邻居ReliefF算法设置为10,和阈值, 设置为0.02。表3总结了ReliefF算法的结果。基于这些结果,C5C6被移除。在模块3中,我们获得了15中的RS减少使用启发式算法在MATLAB中实现2014 a。

试验采用70% - -30%是训练测试分区,使用所有功能集。重叠交叉验证数据集上执行。所需的基分类器的数目k设置为50、100和150。计算运行10倍,最高分类性能提供了每个训练测试分区表4

在表4, 获得最好的测试集分类精度(92.59%)使用时系综分类器 。培训过程如图2。训练和测试ROC曲线如图3

4.3.2。比较与其他分类器

在本节中,我们系综分类方法相比,个人C4.5决策树和朴素贝叶斯和贝叶斯神经网络(BNN)方法。C4.5决策树和朴素贝叶斯分类器是常见的。贝叶斯神经网络(BNN)是一个分类器,使用贝叶斯正规化训练前馈神经网络(60),比单纯的神经网络具有更好的性能。四个分类器的分类精度结果列在表中5。系综分类方法具有更好的性能比其他个体C4.5分类器和两个分类器。

4.3.3。比较的结果与其他研究

我们将我们的结果与其他研究的结果。表6我们的研究显示了分类精度和之前的方法。

结果表明,我们建议的方法获得优越的和有前景的结果分类心脏病患者。我们相信该RFRS-based分类系统可以是非常有益的帮助医生做出准确的决策。

5。结论和未来的工作

摘要小说ReliefF和基于粗糙集——(RFRS)分类系统提出了心脏疾病的诊断。本文的主要新颖性在于该方法:ReliefF和RS方法的组合分类心脏病问题以高效和快速的方式。RFRS分类系统包括两个子系统:RFRS特征选择子系统和分类子系统。Statlog(心)数据集从UCI机器学习数据库(3)被选中来测试系统。实验结果表明,该半群 ( , , , , , , )达到最高的分类精度(92.59%)使用一个合奏与C4.5决策树分类器作为弱的学习者。结果还表明,RFRS方法性能优越与ACC方面的三种常见的分类器相比,灵敏度和特异性。此外,所提出的系统的性能优于现有文献中的方法。基于实证分析,结果表明,该分类系统可以作为一个有前途的替代工具在医疗决策对心脏疾病的诊断。

然而,该方法也有一些缺点。最近的邻居的数量( )和重量阈值( 在ReliefF算法()不稳定20.]。对于这个问题,一个解决方案是为所有可能的数字和计算估计的最高估计每个特性作为最终结果(20.]。我们需要进行更多的实验为ReliefF算法找到最优参数值。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了国家自然科学基金(批准号71432007)。