计算和数学方法在医学

PDF
计算和数学方法在医学/2014年/文章

研究文章|开放获取

体积 2014年 |文章的ID 985789年 | https://doi.org/10.1155/2014/985789

曹国伟马、Jihong欧阳Hui-Ling Chen Xue-Hua赵, 帕金森病的有效诊断系统使用基于减法聚类的特征加权方法极端的学习机器”,计算和数学方法在医学, 卷。2014年, 文章的ID985789年, 14 页面, 2014年 https://doi.org/10.1155/2014/985789

帕金森病的有效诊断系统使用基于减法聚类的特征加权方法极端的学习机器

学术编辑器:东歌
收到了 2014年6月21日
接受 2014年10月26日
发表 2014年11月18日

文摘

一种新的混合方法命名SCFW-KELM于一体的有效减法聚类特征加权和快速分类器基于极限学习机(凯尔姆经常),介绍了为PD的诊断。在该方法中,SCFW作为数据预处理工具,旨在减少方差在PD数据集的特点,为了进一步提高诊断的准确性凯尔姆经常分类器。内核函数的类型影响的性能凯尔姆经常被详细调查。该方法的效率和有效性已经严格评估对PD数据集的分类准确性,敏感性,特异性,接受者操作特征(ROC)曲线下面积(AUC),f测量,kappa统计值。实验结果表明,该SCFW-KELM明显优于基于svm, KNN-based, ELM-based方法和其他方法在文献中,取得最高的分类结果报告到目前为止通过10倍交叉验证方案,分类准确率为99.49%,敏感性为100%,特异性99.39%,AUC为99.69%,f测量值为0.9964,kappa值为0.9867。幸运的是,该方法可能成为一个新的候选人的PD的诊断方法具有优良的性能。

1。介绍

帕金森病(PD)是一种神经系统退行性疾病,它的特征是一大群被称为运动系统疾病的神经疾病的损失中产生多巴胺的脑细胞。帕金森病的主要症状有如下: 地震或颤抖的手、胳膊、腿,下巴,或头, 刚性或僵硬的四肢和躯干, 动作迟缓或缓慢运动, 姿势不稳定或受损的平衡(http://www.ninds.nih.gov/research/parkinsonsweb/index.htm去年访问:2012年4月)。目前,PD影响全球约1%的人口年龄在50岁以上的;然而,这一比例在增加人们活得更久1]。直到现在,PD没有医疗和一些奉献只是用于缓解疾病的症状(2]。如此重要,我们获得更多的洞察问题,改善我们的方法来处理PD。这里我们重点研究基于发声困难,这被称为一组声音障碍症状;据报道是一个最重要的PD症状(3]。研究表明,大约90%的人与PD有这样直言不讳的证据。PD使演讲的dysphonic指标测量作为诊断的一个重要组成部分4]。Dysphonic措施已经被提议作为一个可靠的工具来检测和监控PD (5,6]。

先前的研究在PD问题基于机器学习方法进行了不同的研究人员。小et al。6]使用支持向量机(SVM)分类器与激进高斯核函数基础预测PD,通过特征选择方法以减少特征空间,和最好的准确率为91.4%,通过该模型获得。Shahbaba和尼尔7)提出了一个基于狄利克雷混合物为PD的非线性模型分类,与多项logit模型相比,决策树、支持向量机;分类精度为87.7%,通过该模型来实现。Das (8)使用神经网络(NN)的比较研究,DMneural,回归为PD的诊断和决策树;实验结果表明,神经网络方法实现了92.9%的总体分类性能。人形和Kursun9]互信息措施结合支持向量机用于PD的诊断,取得了92.75%的分类结果。Psorakis et al。10]介绍了样本选择策略和模型改进多级multikernel关联向量机,取得了PD的89.47%数据集的分类精度。郭et al。11)结合遗传编程和期望最大化(EM)诊断PD的普通特性数据,取得了93.1%的分类精度。Luukka [12)提出了一种新的方法模糊熵措施结合使用相似性分类器预测PD,和85.03%的平均分类。李等人。13]介绍了fuzzy-based非线性变换方法与支持向量机在PD数据集;最好的分类精度为93.47%。Ozcift和Gulten14)结合相关基础与旋转森林系综分类器的特征选择方法30机器学习算法来区分PD;该模型得到了最好的分类精度为87.13%。Astrom和角15)取得了分类精度最高的91.2%为PD的诊断使用并行神经网络模型。Spadoto et al。16)采用基于进化方法与优化路径森林(OPF)为PD的诊断分类器,和最好的分类精度为84.01%。Polat [17)应用模糊 ——(FCM)聚类特征加权(FCMFW)一起 最近的邻居为PD检测分类器;97.93%的分类精度。陈等人。18)提出了一个模型,使用基于主成分分析的特征提取和模糊 最近邻居法预测PD,取得最好的96.07%,该模型的分类精度。Daliri [19)提出了一种基于卡方距离SVM与PD区分受试者使用步态信号,从健康对照组和91.2%的分类结果。左et al。20.)使用了一种新的基于粒子群优化(PSO)的诊断模型加强模糊 最近的邻居为PD的诊断分类器,和平均分类精度达到97.47%。

从这些作品,可以看出,最常见的机器学习分类器从社区已被用于PD的诊断。对于非线性分类问题,数据预处理方法等功能权重,正常化和功能转换可能会增加单分类器算法的性能。所以很明显,一个高效的特性预处理方法的选择和一个优秀的分类器PD的诊断问题具有十分重要的意义。针对提高分类的效率和有效性为PD的诊断性能,在本文中,一个有效的特征加权法叫做减法聚类特征加权(SCFW)和一个叫基于极限学习机的快速分类算法(凯尔姆经常)检查。SCFW方法用于映射特性根据数据集的数据分布和变换线性不可分的数据集的线性可分的数据集。这样,类似的数据在每个功能容易聚在一起这类之间的区别是增加对PD正确数据集进行分类。据报道,SCFW方法可以帮助提高分类器的歧视能力在许多应用程序中,如交通事故分析(21)和医疗数据集转换(22]。凯尔姆经常榆树算法的改进版本基于核函数(23]。凯尔姆经常的优点是,只有两个参数(惩罚参数 和内核参数 )需要调整,不像榆树需要指定重量和偏见的合适的值提高泛化性能(24]。此外,凯尔姆经常不仅榆树的火车一样快,但也可以实现良好的泛化性能。该方法的目的是探讨PD的诊断性能的使用一个两阶段混合建模过程通过整合SCFW凯尔姆经常。首先该方法采用SCFW通过加权特征构造判别特征空间,然后实现加权特征作为凯尔姆经常训练分类器的输入。评估的性能提出了混合方法,分类精度(ACC),敏感性,特异性,AUC, 测量,kappa统计值已经被使用。实验结果表明,该方法实现了基于合适的核函数非常有前途的结果由10倍交叉验证(简历)。

总结了本文的主要贡献如下。(1)这是我们第一次提出了SCFW方法与凯尔姆经常集成分类器来检测PD在一个高效和有效的方法。(2)在拟议的系统中,SCFW方法作为数据预处理工具加强类之间的歧视为进一步改善凯尔姆经常分类器的识别性能。(3)与现有方法相比在先前的研究中,提出了诊断系统取得了很好的分类结果。

剩下的纸是组织如下。部分2提供简短的背景知识SCFW和凯尔姆经常。并给出了详细的诊断系统的实现部分3。在下一节中,描述详细的实验设计,部分5给出了该方法的实验结果和讨论。最后,结论和建议对未来的工作进行了总结6

2.1。减法聚类特征权重(SCFW)

减法聚类是山聚类算法的改进版本。山聚类的问题,其计算随尺寸的增加呈指数增长的问题。减法聚类已经解决了这个问题使用数据点作为候选簇中心,在山地集群而不是网格点,所以计算成本问题大小成正比而不是问题的维数(25]。减法聚类算法可以简单概括如下:

步骤1。考虑的集合 数据点 维空间。由于每个数据点是一个候选簇中心,数据点的密度测量 被定义为 在哪里 是一个积极的常数定义邻域半径;它是用来确定集群中心的数量。数据点会有一个高的密度值,如果有很多相邻数据点。数据点邻域半径外的贡献略密度测量。在这里, 设置为0.5。

步骤2。每个数据点的密度测量后计算,最高的数据点密度测量被选中作为第一个集群中心。让 点选择 密度测量。接下来,每个数据点的密度测量 修改如下: 在哪里 是一个积极的常数和 , 是一个常数大于1,以避免集群中心太近。在这篇文章中, 设置为0.8。

步骤3。每个数据点的密度计算修正后,下一个集群中心 选中所有数据点的密度计算修订一次。这个过程会一直重复,直到一个足够数量的集群中心生成。
对于SCFW方法,首先每个特性的集群中心利用减法聚类计算。经过计算中心的特性,意味着功能集群中心的比率计算这些比率乘以每个特性的数据(21]。SCFW方法给出算法的伪代码1和加权过程的流程图如图1

开始
负载PD数据集、数据表示为一个矩阵 样品和 功能;
初始化相应的值;
使用减法聚类方法计算集群中心;
计算每个特性的平均值 ;
为每个数据
每个特性在数据集
比率( )=的意思是( )/cluster_ ;
结束了
weighted_特性( )= *比率( );
结束了
结束

2.2。基于极限学习机(凯尔姆经常)

榆树是一种算法最初开发培训单隐层前馈神经网络(SLFNs) [26]。榆树的本质是隐藏的神经元在神经网络的参数是随机产生的,而不是调,然后没有固定网络的非线性迭代。图2显示了榆树的结构。

对于给定 样品 隐藏的神经元激活函数 榆树的输出函数定义如下: 在哪里 是输出体重隐藏节点连接到输出节点。 ( )是神经网络的隐层输出矩阵。 地图的数据 维输入空间的 维特征空间隐藏层 ,因此, 的确是一个功能映射。

输出权重的确定是由最小二乘法计算的: 在哪里 是Moore-Penrose广义逆(26的隐层输出矩阵

提高泛化能力的榆树与最小二乘法为基础的解决方案相比榆树,黄等。23提出了基于内核的榆树的设计方法。他们建议添加一个积极的价值 ( 是一个用户定义的参数)计算输出权重,这样吗

因此,输出函数表示如下:

当隐藏的功能映射函数 是未知的,内核使用矩阵榆树根据以下方程: 在哪里 是一个内核函数。许多内核函数,如线性、多项式、径向基函数,可用于基于榆树。现在凯尔姆经常分类器的输出函数可以表示为

3所示。拟议中的SCFW-KELM诊断系统

这项工作提出了一种新的混合方法对PD的诊断。该模型由两个阶段组成,如图3。在第一阶段,SCFW算法首先应用PD预处理数据的数据集。这种方法的目的是将数据集根据其分布特性和从线性不可分的空间转换到线性可分的。通过这种方法,类似的数据聚集在同一个功能,这将大大有助于提高分类器的歧视能力。在下一阶段,凯尔姆经常评估加权特征空间的不同类型的激活函数来进行分类。最后,最好的参数和合适的激活函数得到基于性能分析。详细的混合方法算法的伪代码2

开始
重量特性使用减法聚类算法;
:k/*性能评估使用 倍的简历, /
训练集=k1子集;
测试集=剩余子集;
凯尔姆经常训练分类器的加权训练数据特征空间,存储的最佳参数组合;
测试训练凯尔姆经常模型在测试集上使用取得了最佳参数组合;
结束了
返回的平均分类结果凯尔姆经常过去 th测试集;
结束

4所示。实验设计

4.1。数据描述

在本节中,我们已经完成了PD的实验数据集来自加州大学欧文分校(UCI)机器学习库(http://archive.ics.uci.edu/ml/datasets/Parkinson去年访问:2013年1月)。它是由马克斯•小牛津大学的合作与国家中心的声音和讲话中,科罗拉多州丹佛市录制的语音信号。PD数据集的目的是区分健康的人从那些PD,鉴于各种医疗测试的结果进行一个病人。PD数据集包含的声音从31人测量23被诊断为帕金森病。有195个实例包含48个健康和147例PD的数据集。自诊断的时间范围从0到28年,和研究对象的年龄范围从46到85岁(平均65.8)。平均每个主题提供了六个元音的发音(总共产生195个样本),每36秒的长度(6]。请注意没有遗漏值的数据集和整个功能是真正的价值。整个22功能描述表中列出1


标签 功能 描述

F1 MDVP:佛(赫兹) 平均的基频
F2 MDVP: Fhi (Hz) 最大声音的基频
F3 MDVP:弗洛(Hz) 最低的声音基本频率
F4 MDVP:抖动(%) 基频的变化的几个措施
F5 MDVP:抖动(Abs)
F6 MDVP:说唱
F7 MDVP: PPQ
F8 抖动:PPQ
F9 MDVP:闪烁 振幅的变化的若干措施
F10 MDVP:闪烁(dB)
闪光:APQ3
F12 闪光:APQ5
F13 MDVP: APQ
F14 闪光:《
F15 NHR 两项措施噪音比色调组件的声音
F16 曼公司
F17 RPDE 两个非线性动力学复杂性的措施
F18 D2
F19 DFA 信号分形标度指数
F20 Spread1 三个非线性基本频率变化的措施
F21 Spread2
——F22 个人防护用品

4.2。实验装置

拟议中的SCFW-KELM分类模型进行了MATLAB 7.0的平台。从头SCFW算法实现。对于凯尔姆经常和榆树,从可用的实现http://www3.ntu.edu.sg/home/egbhuang/是使用。

支持向量机,采用LIBSVM的实现,它最初是由Chang和林27]。进行实证实验是英特尔双核TM (2.0 GHz CPU)和2 GB的RAM。

为了保证有效的结果, 倍的简历是用来评估分类的结果(28]。每一次,九个十个子集被放在一起形成一个训练集,另一部分作为测试集,然后在所有10个试验计算的平均结果。由于这种方法,所有的测试集是独立的,可以改善结果的可靠性。因为任意性的分区数据集,在每个迭代模型的预测结果不一定相同。准确评估PD数据集的性能,实验重复10次,然后结果是平均的。

4.3。测量的性能评价

为了评估SCFW-KELM模型的预测性能,我们使用了六个性能指标,ACC,敏感性,特异性,AUC, 测量,kappa统计值,测试该模型的性能。关于提到的绩效评估根据混淆矩阵公式定义如下表所示2:


预测PD患者 预测健康的人

实际的PD患者 真阳性(TP) 假阴性(FN)
真正健康的人 假阳性(FP) 真阴性(TN)

混淆矩阵,TP是真阳性的数量代表与PD类,某些情况下正确归类为PD。FN的假阴性,与PD阶级代表,某些情况下被归类为健康。TN的数量是正确的底片,代表与健康类,某些情况下正确归类为健康和FP是假阳性的数量,代表,某些情况下被归类为PD的健康类。ACC是一种广泛使用的度量来确定阶级歧视的分类能力。接受者操作特征(ROC)曲线通常是使用真正的阳性率和误报率,绘制的歧视阈值分类算法多种多样。ROC曲线下的面积(AUC)是广泛应用于分类研究与相关验收和这是一个很好的总结的分类器的性能29日]。也 测量是测量一个测试的精度,通常用作绩效评估指标来评估二元分类器的性能,基于谐波均值分类器的精度和召回。Kappa错误(KE)或科恩Kappa统计数据(KS)是用来比较不同分类器的性能。KS检验分类是一个很好的措施,可能是由于机会。作为分类器接近1 k值计算,分类器的性能被认为是更现实的而不是偶然。因此,KS值是一个推荐指标考虑评价分类器的性能分析与计算30.] 在哪里 意味着概率和总协议 由于机会意味着协议概率。

5。实验结果和讨论

实验1 (PD分类数据集)。在这个实验中,我们首先评估凯尔姆经常没有SCFW原始特征空间中。众所周知,不同类型的内核激活函数凯尔姆经常的性能有很大的影响。因此,我们提出了从我们的调查结果的影响,不同类型的核函数和分配初始值。我们试图执行四种核函数,包括径向基函数(RBF_kernel),小波核函数(Wav_kernel),线性核函数(Lin_kernel)和多项式核函数(Poly_kernel)。表3总结了PD的详细分类性能的结果数据集ACC,敏感性,特异性,AUC, 测量,KS价值,这些结果通过10倍的简历来实现方案和代表的平均精度(平均),标准偏差(SD),最大精度(Max)和最小精度(Min)。从这个表中,可以看出凯尔姆经常各种核函数的分类性能显然差。凯尔姆经常的最佳核函数分类器识别PD数据集RBF核函数。我们可以看到,凯尔姆经常与RBF内核优于其他三个内核函数平均准确率为95.89%,96.35%,95.72%,和96.04%的ACC,敏感性,特异性,AUC和也有 0.9724和0.8925 k值的测量值。凯尔姆经常与小波内核的平均结果取得了94.36%,91.24%,95.25%,和93.19%的ACC,敏感性,特异性,AUC和 测量值0.9622和k值为0.8425,低于凯尔姆经常与RBF内核。更糟的结果分类性能得到凯尔姆经常与线性多项式内核和凯尔姆经常先后给出了内核。注意训练凯尔姆经常用核函数代替乙状结肠添加剂榆树的函数,隐藏的神经元的数目对凯尔姆经常模型的性能没有影响,所以它不需要考虑。
调查是否SCFW方法可以提高凯尔姆经常的性能,我们进一步进行PD模型的数据集在SCFW加权特征空间。该系统由两个阶段组成。首先,SCFW方法用于体重PD数据集的特点。通过使用SCFW方法,加权特征空间构造。表4列出集群中心功能的PD数据集使用SCFW方法。图4描述的图框表示原始数据集和加权PD与整个22特性。图5显示两个类的原始的分布和加权获得的195个样本由最好的三个原则组件与主成分分析(PCA)算法(31日]。从数据45,可以看出区别的能力的原始PD数据集已经被SCFW大幅改善的方法。在数据预处理阶段,分类算法已经使用和歧视加权PD数据集。


内核类型 性能指标 的意思是 SD 马克斯 最小值

RBF_kernel ACC (%) 95.89 4.66 One hundred. 89.74
灵敏度(%) 96.35 5.19 One hundred. 88.89
特异性(%) 95.72 5.93 One hundred. 88.00
AUC (%) 96.04 4.06 One hundred. 90.43
测量 0.9724
卡巴 0.8925

Wav_kernel ACC (%) 94.36 4.59 One hundred. 87.18
灵敏度(%) 91.24 6.02 One hundred. 83.33
特异性(%) 95.15 5.23 One hundred. 86.21
AUC (%) 93.19 4.56 One hundred. 88.10
f测量 0.9622
卡巴 0.8425

Lin_kernel ACC (%) 89.23 7.99 97.44 79.49
灵敏度(%) 66.07 22.33 90.91 41.67
特异性(%) 97.32 2.80 One hundred. 93.33
AUC (%) 81.70 12.22 95.45 68.89
测量 0.9316
卡巴 0.6333

Poly_kernel ACC (%) 90.77 4.29 97.44 87.18
灵敏度(%) 87.73 11.54 One hundred. 75.00
特异性(%) 91.83 5.73 96.77 82.76
AUC (%) 89.78 5.78 98.39 82.66
测量 0.9375
卡巴 0.7547


数量的功能 中心的功能使用SCFW(正常情况下) 中心的功能使用SCFW (PD)

F1 154.229 181.938
F2 197.105 223.637
F3 116.325 145.207
F4 0.006 0.006
F5 0 0
F6 0.003 0.003
F7 0.003 0.003
F8 0.01 0.01
F9 0.03 0.03
F10 0.282 0.276
0.016 0.015
F12 0.018 0.018
F13 0.024 0.013
F14 0.047 0.045
F15 0.025 0.028
F16 21.886 24.678
F17 0.499 0.443
F18 0.718 0.696
F19 −5.684 −6.759
F20 0.227 0.161
F21 2.382 2.155
——F22 0.207 0.123

详细的结果通过SCFW-KELM提出了四种不同的内核函数表5。从表5,所有这些最好的结果远高于那些没有SCFW得到原始特征空间中。PD的分类性能数据集使用SCFW方法大大提高了。而凯尔姆经常与RBF核函数在原始特征空间中,凯尔姆经常基于SCFW RBF核函数方法的性能提高了3.6%,3.65%,3.67%,和3.65%的ACC,敏感性,特异性,AUC和取得最高 测量0.9966和0.9863 k值最高的价值。凯尔姆经常模型与其他三个内核函数也有巨大的改进的六个性能指标。


内核类型 性能指标 的意思是 SD 马克斯 最小值

RBF_kernel ACC (%) 99.49 1.15 One hundred. 97.44
灵敏度(%) One hundred. 0 One hundred. One hundred.
特异性(%) 99.39 1.36 One hundred. 96.97
AUC (%) 99.69 0.68 One hundred. 98.48
测量 0.9966
卡巴 0.9863

Wav_kernel ACC (%) 96.92 2.15 One hundred. 94.87
灵敏度(%) 98.46 3.44 One hundred. 92.31
特异性(%) 96.54 2.39 One hundred. 93.33
AUC (%) 97.50 2.18 One hundred. 94.23
测量 0.9793
卡巴 0.9194

Lin_kernel ACC (%) 96.92 2.15 One hundred. 94.87
灵敏度(%) 90.43 8.85 One hundred. 81.82
特异性(%) 99.29 1.60 One hundred. 96.43
AUC (%) 94.86 3.99 One hundred. 90.91
测量 0.9798
卡巴 0.9147

Poly_kernel ACC (%) 97.43 2.56 One hundred. 94.87
灵敏度(%) 96.67 7.45 One hundred. 83.33
特异性(%) 97.37 3.61 One hundred. 93.10
AUC (%) 97.02 3.42 One hundred. 91.67
测量 0.9828
卡巴 0.9323

6给出了比较结果混淆矩阵得到SCFW-KELM凯尔姆经常。从表6,SFCW-KELM正确分类194正常情况下的195是不是正常的情况下,只有一个PD患者作为一个健康的人,虽然没有SCFW凯尔姆经常方法只有正确分类的187例正常情况下的195是不是正常的情况下,总6 PD患者健康者和2健康PD患者。


方法 预期的输出 预测输出

凯尔姆经常 PD患者 141年 6
健康的人 2 46

SCFW-KELM PD患者 146年 1
健康的人 0 48

支持向量机分类器,我们表现与RBF核函数支持向量机分类器。众所周知,SVM的性能敏感的惩罚参数的组合 和内核参数 。因此,最佳的组合 需要选择的分类任务。而不是手动设置参数 网格搜索支持向量机的技术(32)采用使用10倍的简历找到最好的参数值。相关参数的范围 之间是不同的 。的组合 试着和一个最好的分类精度被选为内核训练RBF模型的参数值。

为原始的榆树,我们知道,榆树和乙状结肠添加剂的分类性能函数是敏感隐藏神经元的数量 的,所以价值 需要由用户指定。图6提出了榆树的详细结果原始数据集和加权PD与不同的隐藏神经元从1到50。具体来说,10分的平均结果指定的10倍的简历对于每一个神经元都被记录下来。如图6榆树的分类率提高了隐藏神经元先增加,然后逐渐波动。在原始数据集,实现与40个隐藏神经元平均分类精度最高,而在加权数据集与SCFW方法,平均分类精度最高上涨只有26隐藏神经元。

资讯分类器,邻域大小的影响 资讯分类器的分类性能的PD数据集已被调查。在这项研究中,价值 从1增加到10。资讯分类器的结果有不同的值 在PD数据集在图所示7。从图中,我们可以看到最好的结果已经通过1-NN分类器,和性能降低的价值 增加,而获得了更好的结果加权PD数据集与2-NN SCFW方法。

凯尔姆经常分级机,有两个参数,惩罚参数 和内核参数 ,需要指定。在这项研究中,我们进行了实验凯尔姆经常取决于的最佳组合 通过网格搜索策略。的参数 都是不同的吗 与步长为1。图8显示分类精度表面在一个运行10倍的简历的过程中, 设在和 设在被 ,分别。中的每个网格节点 飞机的分类精度和代表一个参数组合 设在表示了测试精度值和每个参数组合。

7总结了综合成果从四个分类器和基于SCFW方法ACC,敏感性,特异性,AUC, 测量,KS CV值超过10分的10倍。此外,计算时间的总和的训练和测试在几秒钟内被记录。在这个表中,我们可以看到,借助SCFW方法,所有这些最好的结果远高于原始特征空间中获得的。SCFW-KELM模型取得了最高的结果为99.49%,100%,99.39%,和99.69%的ACC,敏感性,特异性,AUC和最高 0.9966和0.9863 k值的测量,优于其他三种算法。与凯尔姆经常没有SCFW相比,SCFW-KELM性能平均提高了3.6%,3.65%,3.67%,和3.65%的ACC,敏感性,特异性,AUC。注意,SCFW-KELM的运行时间非常短,售价只有0.0126秒。


方法 性能指标 没有SCFW原始特征空间的方法 与SCFW加权特征空间的方法

KELM-RBF ACC (%) 95.89±4.66 99.49±1.15
灵敏度(%) 96.35±5.19 100±0
特异性(%) 95.72±5.93 99.39±1.36
AUC (%) 96.04±4.06 99.69±0.68
测量 0.9724 0.9966
卡巴 0.8925 0.9863
时间(年代) 0.00435 0.0126

支持向量机 ACC (%) 95.38±1.15 97.95±2.15
灵敏度(%) 85.09±10.45 96.67±7.45
特异性(%) 98.67±2.98 98.71±1.77
AUC (%) 91.88±4.14 97.69±3.46
测量 0.9699 0.9863
卡巴 0.8711 0.9447
时间(年代) 1.24486 1.29817

然而, ACC (%) 95.38±5.25 97.43±3.14
灵敏度(%) 92.73±11.85 97.78±4.97
特异性(%) 96.50±4.38 97.38±4.10
AUC (%) 94.61±6.95 97.58±2.60
测量 0.9692 0.9828
卡巴 0.8765 0.9431
时间(年代) 1.2847 1.3226

榆树 ACC (%) 89.23±6.88 96.92±4.21
灵敏度(%) 73.94±13.18 95.78±5.79
特异性(%) 93.35±6.27 97.19±4.51
AUC (%) 83.64±9.06 96.48±4.36
测量 83.64±9.06 0.9863
卡巴 0.7078 0.9447
时间(年代) 1.1437 1.2207

与支持向量机相比,SCFW-SVM取得结果的97.95%,96.67%,98.71%,和97.6%的ACC,敏感性,特异性,AUC,性能提高了2.57%,11.58%,0.04%,和5.72%,分别。然而,由SCFW方法也有显著提高。榆树分类器,它取得了最好的结果通过榆树36隐藏神经元在原始特征空间,而最好的性能是通过SCFW-ELM小隐藏神经元(只有26)。这意味着SCFW和榆树不仅极大地提高了性能,还压实榆树的网络结构。此外,SVM和榆树的敏感结果显著提高11.58%和21.84%,分别。无论在原始或加权特征空间,凯尔姆经常与RBF内核远远优于其他三种模式大部分ACC,敏感性,特异性,AUC, 测量和k值。尽管支持向量机实现了98.67%的特异性,敏感性,AUC, 测量,KS价值低于凯尔姆经常与RBF内核。我们还可以看到,与RBF凯尔姆经常内核的性能远远高于榆树的乙状结肠函数。原因可能在于这样一个事实:PD的类标签之间的关系和特征数据集是线性不可分的;基于战略更有效转化,这种情况下的线性不可分的线性可分的数据集。然而,表现了SCFW-SVM方法是SCFW-KNN的接近。这意味着,数据预处理后,支持向量机可以实现相同的能力区分PD数据集的资讯。

此外,有趣的是发现的标准差SCFW-KELM低于凯尔姆经常得多,它在所有的最小的SD模型,这意味着通过SCFW SCFW-KELM变得更加健壮和可靠的方法。此外,为什么SCFW方法优于FCM是SCFW可能更适合非线性可分的数据集。它认为密度测量的数据点以减少异常值的影响;然而,FCM倾向于选择离群值作为初始中心。

比较的目的、分类精度通过以前的方法,研究了PD的诊断问题提出了在表8。如表所示,我们的开发方法可以获得更好的分类结果比之前的研究提出了所有可用的方法。


研究 方法 精度(%)

小et al。6] 预选滤波器+穷举搜索+ SVM 91.40(引导50复制)
Shahbaba和尼尔7] 狄利克雷过程混合物 87.70(5倍的简历)
Das (8] 92.90(坚持)
人形和Kursun9] 互信息+支持向量机 92.75(引导50复制)
Psorakis et al。10] 改善mRVMs 89.47(10倍的简历)
郭et al。11] GP-EM 93.10(10倍的简历)
Luukka [12] 模糊熵措施+相似 85.03(坚持)
Ozcift和Gulten14] CFS-RF 87.10(10倍的简历)
李等人。13] Fuzzy-based + SVM非线性变换 93.47(坚持)
Astrom和角15] 并行神经网络 91.20(坚持)
Spadoto et al。16] 算法+消息
和谐搜索+消息
引力搜索+消息
73.53(坚持)
84.01(坚持)
84.01(坚持)
Daliri [19] 支持向量机与卡方距离内核 91.20 training-testing (50 - 50%)
Polat [17] FCMFW +资讯 97.93 training-testing (50 - 50%)
陈等人。18] PCA-FKNN 96.07(平均10倍的简历)
左et al。20.] PSO-FKNN 97.47(10倍的简历)
本研究 SCFW-KELM 99.49(10倍的简历)

实验2(两个基准数据集分类)。除了PD数据集,两个基准数据集,也就是说,克利夫兰心和威斯康辛州诊断乳腺癌(WDBC)数据集,从UCI机器学习库,用于进一步评估该方法的效率和有效性。我们使用相同的流PD数据集的两个数据集的实验。数据集的加权特征空间构造使用SCFW然后加权特征与提到的四种算法进行了评估。它只会给四个算法的分类结果为了方便。表9显示,分类结果的原始数据集和加权克利夫兰心SCFW-KELM模型。表10提出了实现结果的分类原始使用SCFW-KELM模型和加权WDBC数据集。从这些结果,该方法也取得了优秀的成果。这表明了该方法的通用性。


内核类型 性能指标 的意思是 SD 马克斯 最小值

RBF_kernel ACC (%) 99.34 0.91 One hundred. 98.33
灵敏度(%) One hundred. 0 One hundred. One hundred.
特异性(%) 98.75 1.72 One hundred. 96.67
AUC (%) 99.37 0.86 One hundred. 98.33
测量 0.9964
卡巴 0.9867

Wav_kernel ACC (%) 99.01 0.90 One hundred. 98.36
灵敏度(%) One hundred. 0 One hundred. One hundred.
特异性(%) 97.84 2.02 One hundred. 95.83
AUC (%) 98.92 1.01 One hundred. 97.92
测量 0.9891
卡巴 0.98

Lin_kernel ACC (%) 93.07 93.07 93.07 93.07
灵敏度(%) 98.77 98.77 98.77 98.77
特异性(%) 87.05 87.05 87.05 87.05
AUC (%) 92.91 92.91 92.91 92.91
测量 0.9195
卡巴 0.8591

Poly_kernel ACC (%) 98.35 2.33 One hundred. 95.08
灵敏度(%) One hundred. 0 One hundred. One hundred.
特异性(%) 96.60 5.01 One hundred. 88.89
AUC (%) 98.30 2.50 One hundred. 94.44
测量 0.9817
卡巴 0.9667


内核类型 性能指标 的意思是 SD 马克斯 最小值

RBF_kernel ACC (%) 99.65 0.79 One hundred. 98.23
灵敏度(%) 99.05 2.13 One hundred. 95.24
特异性(%) One hundred. 0 One hundred. One hundred.
AUC (%) 99.52 1.06 One hundred. 97.62
测量 0.9972
卡巴 0.9925

Wav_kernel ACC (%) 99.65 0.48 One hundred. 99.12
灵敏度(%) 99.10 1.24 One hundred. 97.62
特异性(%) One hundred. 0 One hundred. One hundred.
AUC (%) 99.54 0.66 One hundred. 98.65
测量 0.9958
卡巴 0.9925

Lin_kernel ACC (%) 98.07 1.69 One hundred. 95.61
灵敏度(%) 94.70 5.27 One hundred. 86.11
特异性(%) One hundred. 0 One hundred. One hundred.
AUC (%) 97.35 2.63 One hundred. 93.06
测量 0.9848
卡巴 0.9582

Poly_kernel ACC (%) 99.40 0.88 99.12 97.37
灵敏度(%) 95.33 2.07 97.73 93.48
特异性(%) One hundred. 0 One hundred. One hundred.
AUC (%) 97.67 1.04 98.86 96.74
测量 0.9944
卡巴 0.962

6。结论和未来的工作

在这项工作中,我们已经开发出一种新的混合诊断方法解决PD的问题。本文的主要新颖性在于该方法;SCFW的组合方法和凯尔姆经常与不同类型的核函数允许PD检测的一种有效的和快速的方式。实验结果表明,该系统明显表现在歧视PD患者和健康的。同时,比较结果进行凯尔姆经常中,支持向量机,然而,榆树。实验结果表明,SCFW-KELM方法执行有利地在ACC的其他三种方法,敏感性,特异性,AUC, 测量,kappa统计值。此外,该系统优于现有方法在文献中提出。基于实证分析,表明该方法可以作为一种很有前途的替代工具在医疗决策PD的诊断。未来研究将关注评估该方法在其他医疗诊断问题。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究支持由中国自然科学基金会(国家自然科学基金委)批准号。61170092,61133011,61272208,61103091,61202308,61303113。这项研究还支持重点实验室开放项目程序的符号计算与知识工程教育部,吉林大学,在批准号93 k172013k01。

引用

  1. g . f . Wooten l . j . Currie v . e . Bovbjerg j·k·李,和j .法”是男性比女性更易患帕金森病?”《神经学、神经外科、精神病学,卷75,不。4、637 - 639年,2004页。视图:出版商的网站|谷歌学术搜索
  2. k·r·乔杜里·d·g·希利,a . h . v . Schapira“非帕金森病的症状:诊断和管理”《柳叶刀神经病学,5卷,不。3、235 - 245年,2006页。视图:出版商的网站|谷歌学术搜索
  3. a . k . Ho r . Iansek c . Marigliani j·l·布拉德肖和美国盖茨,“言语障碍的帕金森症患者的大样本,”行为神经学,11卷,不。3、131 - 137年,1998页。视图:谷歌学术搜索
  4. k·m·罗森r·d·肯特a·l·德莱尼和j·r·达菲“对话由扬声器的参数定量声学分析构音障碍和健康的人,”日报的言论、语言和听力的研究卷,49号2、395 - 411年,2006页。视图:出版商的网站|谷歌学术搜索
  5. d . a . Rahn三世,m .周j . j .江和y张”发音障碍的帕金森病:证据从非线性动态分析和摄动分析,“杂志上的声音,21卷,不。1,第71 - 64页,2007。视图:出版商的网站|谷歌学术搜索
  6. m . a, p . e .创造e·j·亨特,j . Spielman和l . o . Ramig”的适用性发声困难测量远程控制帕金森病,”IEEE生物医学工程卷,56号4、1015 - 1022年,2009页。视图:出版商的网站|谷歌学术搜索
  7. b . Shahbaba r·尼尔,“非线性模型使用狄利克雷过程混合物,”机器学习研究杂志》上,10卷,第1850 - 1829页,2009年。视图:谷歌学术搜索|MathSciNet
  8. r·达斯”比较多个分类诊断帕金森病的方法,”专家系统与应用程序,37卷,不。2、1568 - 1572年,2010页。视图:出版商的网站|谷歌学术搜索
  9. c . o .人形和o . Kursun Telediagnosis使用测量言语障碍的帕金森病,”医疗系统杂志,34卷,不。4、591 - 599年,2010页。视图:出版商的网站|谷歌学术搜索
  10. 即Psorakis、t . Damoulas和m . a . Girolami“多级关联向量机:稀疏和准确性”IEEE神经网络,21卷,不。10日,1588 - 1598年,2010页。视图:出版商的网站|谷歌学术搜索
  11. P.-F。郭、p·巴塔查里亚和n . Kharma“帕金森病检测的进步,”医学生物识别技术卷,6165在计算机科学的课堂讲稿施普林格,页306 - 314年,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
  12. p . Luukka”特征选择与相似性分类器,利用模糊熵措施”专家系统与应用程序,38卷,不。4、4600 - 4607年,2011页。视图:出版商的网站|谷歌学术搜索
  13. 华盛顿特区。李,C.-W。刘,s . c .胡“fuzzy-based数据转换为特征提取与小型医疗数据集,提高分类性能”人工智能在医学上,52卷,不。1,45-52,2011页。视图:出版商的网站|谷歌学术搜索
  14. a . Ozcift和a . Gulten”与旋转森林分类器整体建设,提高医疗诊断机器学习算法的性能,”计算机在生物医学方法和项目,卷104,不。3、443 - 451年,2011页。视图:出版商的网站|谷歌学术搜索
  15. f . Astrom r角,“并行神经网络方法预测帕金森病,”专家系统与应用程序,38卷,不。10日,12470 - 12474年,2011页。视图:出版商的网站|谷歌学术搜索
  16. 答:a . Spadoto r·c·圭多·l·Carnevali a . f . Pagnin a . x法尔考和j.p.爸爸,“改善帕金森病鉴定通过基于进化论的特征选择,”学报IEEE的年度国际会议在医学和生物工程协会(EMBC 11),页7857 - 7860,波士顿,质量,美国,2011年8月。视图:出版商的网站|谷歌学术搜索
  17. k . Polat“帕金森病的分类使用特征加权方法模糊c均值聚类的基础上,“国际系统科学杂志》上,43卷,不。4、597 - 609年,2012页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  18. H.-L。陈,c c。黄,X.-G。Yu et al .,“一个有效的检测诊断系统使用模糊的帕金森病k最近的邻居的方法。”专家系统与应用程序,40卷,不。1,第271 - 263页,2013。视图:出版商的网站|谷歌学术搜索
  19. m·r·Daliri“卡方距离步态的内核的诊断帕金森病,”生物医学信号处理和控制,8卷,不。1,第70 - 66页,2013。视图:出版商的网站|谷歌学术搜索
  20. w l。左,Z.-Y。王,t·刘,H.-L。陈,“帕金森病的有效检测使用一个自适应模糊 k 最近的邻居的方法。”生物医学信号处理和控制,8卷,不。4、364 - 373年,2013页。视图:出版商的网站|谷歌学术搜索
  21. k Polat和s . s . Durduran”减法聚类属性权重(海角)歧视Konya-Afyonkarahisar高速公路上的交通事故在土耳其的帮助下地理信息系统:一个案例研究中,“工程软件的进步,42卷,不。7,491 - 500年,2011页。视图:出版商的网站|谷歌学术搜索
  22. k . Polat”应用程序的属性权重方法基于聚类中心歧视线性不可分的医学数据集,“医疗系统杂志,36卷,不。4、2657 - 2673年,2012页。视图:出版商的网站|谷歌学术搜索
  23. G.-B。黄、周h . x叮,r·张“回归和多级分类,极端的学习机器”IEEE系统,人,和控制论B部分:控制论,42卷,不。2、513 - 529年,2012页。视图:出版商的网站|谷歌学术搜索
  24. 问:朱y, a . k .秦,p . n . Suganthan g . b .黄,“进化极端的学习机器,”模式识别,38卷,不。10日,1759 - 1763年,2005页。视图:出版商的网站|谷歌学术搜索
  25. s . l .赵“模糊模型识别基于集群的估计,”智能和模糊系统杂志》上,卷2,不。3、267 - 278年,1994页。视图:谷歌学术搜索
  26. G.-B。黄徐瑞秋朱,C.-K。萧”,极端的学习机器:理论和应用程序”,Neurocomputing,卷70,不。1 - 3、489 - 501年,2006页。视图:出版商的网站|谷歌学术搜索
  27. c c。Chang和C.-J。林,“LIBSVM:支持向量机的库,”ACM智能交易系统和技术,卷2,不。3、第二十七条,2011年。视图:出版商的网站|谷歌学术搜索
  28. r . Kohavi”,交叉验证的研究和引导精度估计和模型选择”学报14人工智能国际联合大会(95年IJCAI”展出)加拿大蒙特利尔,页1137 - 1143,,1995年8月。视图:谷歌学术搜索
  29. j·黄和c x凌,“使用AUC和准确性评估学习算法,”IEEE工程知识和数据,17卷,不。3、299 - 310年,2005页。视图:出版商的网站|谷歌学术搜索
  30. a . Ben-David”使用科恩的加权Kappa分类精度的比较,“专家系统与应用程序,34卷,不。2、825 - 832年,2008页。视图:出版商的网站|谷歌学术搜索
  31. l·史密斯。主成分分析教程,卷。51岁的伊萨卡康奈尔大学,纽约,美国,2002年。
  32. C.-W。许,c c。常,C.-J。林,支持向量分类的实用指南,2003年。

版权©2014马曹国伟等。这是一个开放访问分布在条知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点2322年
下载1162年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读