混合方法来预测术后肺癌的生存使用改进的击杀和自适应支持向量机

文摘

预测肺癌患者术后生存(lcp)是医疗决策的一个重要问题。然而,病人生存的不平衡分布的数据集增加了预测的难度。尽管合成少数过采样技术(杀)可以用来处理不平衡数据,它无法识别数据噪音。另一方面,许多研究使用支持向量机(SVM)相结合处理不平衡数据重采样技术。然而,大多数研究需要手动设置的支持向量机参数,这使得它很难获得最佳性能。本文提出了一种混合提高击打和自适应支持向量机方法对不平衡数据来预测术后连结控制协定的生存。该方法分为两个阶段:在第一阶段,旨在委员会过滤器(CVCF)是用于去除噪声样本来提高击打的性能。在第二阶段,我们提出一种自适应支持向量机,利用模糊自调整粒子群优化(单点)来优化支持向量机的参数。与其他先进算法相比,我们的方法获得最佳性能预测的准确率为95.11%,95.10% - - - - - -意思是,95.02% F1, 95.10%曲线下的面积(AUC)预测术后连结控制协定的生存。

1。介绍

肺癌(LC)是世界上最致命的癌症。超过85%的病人被诊断为非小细胞肺癌LC (1]。手术切除是信用证的标准和最有效的治疗阶段,第二阶段,nonsmall细胞III期(1]。临床决定LC操作的一个主要问题是选择手术候选人基于病人的短期和长期的风险和利益,生存时间是最重要的措施之一。准确预测手术后病人的生存可以帮助医生更好的治疗决策。与此同时,它可以帮助患者更好地理解他们的条件,有良好的心理预期和金融准备。

近年来,越来越多的数据驱动的方法已经被用来预测术后连结控制协定的生存。统计方法而言,kaplan meier曲线、多变量逻辑回归和Cox回归三个最广泛使用的统计方法来预测生存或并发症连结控制协定(2]。然而,考虑到传统统计方法的缺点和不完备的医疗数据,数据挖掘和机器学习技术近年来介绍了。Mangat和中收取3)提出了一个基于动态关联规则算法粒子群优化器,和分类精度为82.18%。军刀Iraji [4)相比,自适应模糊神经网络的准确性,极端的学习机器,和神经网络预测1年期术后连结控制协定的生存。结果表明,敏感性(90.05%)和特异性(81.57%)的一个极端学习机是最高,分别。Tomczak et al。5使用提高了支持向量机(SVM)算法来预测连结控制协定的术后生存。该算法结合了厂商整体学习和支持向量机的优点,和 - - - - - -意思是可以达到65.73%。从之前的研究可以看出,大多数人忽略数据分布不平衡的影响,这可能会降低分类器的性能。

类不平衡的现象是指一个类中数据的一个数据集比其他人要大得多(6]。标准平衡数据的机器学习分类器是有效的,但它们对不平衡数据。具体来说,随着医疗技术的进步,手术后长期幸存者为连结控制协定的数量远远大于短期的死亡。这将导致更高的预测精度为幸存者(多数类)和贫困识别死亡(少数类)。因此,有必要提出一个方法,该方法具有良好的分类性能对幸存者和死者的预测术后连结控制协定的生存。

在过去的几十年,不平衡数据分类问题已普遍成为一种关注和深入研究。现有的论文不平衡数据处理方法有两个主要研究方向:数据级和算法级(7]。数据级处理方法创建一个平衡类分布的重采样输入数据。Algorithm-level处理方法主要涉及两个方面:整体学习和降低成本的学习方案。在这些不平衡数据处理方法,合成少数过采样技术(杀)是使用最广泛的方法之一,因为它相对简单和有效8]。然而,它可能是不满意的,甚至适得其反如果击杀是单独使用,这是因为其盲目的过采样忽略了样本的分布,如噪声的存在(9,10]。为了解决这个问题,提出了很多方法来提高击打。Ramentol et al。11)结合粗糙集理论和击杀并提出了SMOTE-RSB算法。SMOTE-RSB首先使用杀进行过采样,然后去除噪声和离群值基于粗糙集理论的数据集。SSMNFOS [12)是一种基于随机混合方法灵敏度测量(SSM)噪音过滤和过采样,可以改善过采样方法对噪声的鲁棒性样品。CURE-SMOTE [13)使用治疗(集群使用代表)集群少数样本用于去除噪声和离群值,然后使用杀之间插入人工合成样品代表性样品和中央平衡数据集的样本。然而,大多数这些方法通过参数之前,需要设置噪声阈值会增加错误识别的风险的噪音。此外,一些研究人员认为整体过滤方法,已被证明是通常比单一更高效过滤器(14]。在本文中,我们建议使用旨在委员会过滤器(CVCF)之前检测和去除噪声应用CVCF-SMOTE击打和记录这个方法。CVCF ensemble-based过滤器,可以减少错误的风险阈值之前设置的参数(15]。

此外,支持向量机作为一种最先进的分类还没有被很好地用来预测LC术后生存。在前面的研究中,支持向量机已广泛应用于统计分类和回归分析由于其优良的性能(16]。考虑到支持向量机在不平衡数据的局限性,一些研究结合重采样技术和支持向量机处理不平衡数据。D 'Addabbo和Maglietta [17)提出了一个方法结合并行选择性抽样和SVM (PSS-SVM)处理大数据不平衡。实验结果表明,PSS-SVM的性能优于SVM和RUSBoost分类器。黄等。18)设计了基于集群的欠采样技术,结合优化支持向量机处理不平衡数据。支持向量机的分类性能改进的基于混合核支持向量机的线性组合。风扇等。19)提出了一种混合动力技术结合主成分分析(PCA),击杀,支持向量机诊断机组故障。实验结果证明该混合动力技术可以提高冷水机组故障诊断的整体性能。

然而,这些研究通常需要手动设置的支持向量机参数,这可能会导致无法获得最好的实验结果。标准支持向量机有一个限制,其性能取决于初始参数的选择。一些研究优化支持向量机的参数通过进化计算取得了良好的效果。在这些优化算法,粒子群优化(PSO)优化支持向量机已广泛应用与有前景的结果由于其简单和快速收敛20.]。随着算法技术的发展,一些改进的PSO算法用于优化支持向量机。魏et al。21)提出了一种二进制PSO-optimized支持向量机的特征选择的方法,克服过早收敛的问题,获得高质量的特性。切换延迟粒子群优化(SDPSO)提出了优化的支持向量机诊断阿尔茨海默病(22]。实验结果表明,该方法优于其他几个变种的SVM和取得良好的分类精度。然而,这些方法往往需要参数设置算法或改进算法,如颗粒大小和惯性的重量。一般来说,获得最好的设置是复杂和耗时。如果算法参数设置不当,它甚至会降低支持向量机的性能。

近年来,许多新的metaheuristics技术被提出,如帝王蝶优化(MBO) [23],黏菌算法[24),蛾搜索(女士)(25搜索(硫化汞)[],饥饿游戏26],哈里斯鹰优化器(HHO) [27]。然而,大多数这些方法要求用户调优参数达到令人满意的性能。模糊自调整算法(单点)是一种建立自由的自适应算法近年来提出的(28]。单点的优势是每个粒子在优化过程中自适应地调整没有任何PSO专业知识和参数设置。此外,实验结果表明,单点比之前几个竞争对手在收敛速度和找到最优解。基于上述考虑,利用生产储油轮算法优化支持向量机的参数,导致小说FPSO-SVM分类算法。

基于改进的击杀和FPSO-SVM,我们提出一个两阶段混合方法来提高术后生存的性能预测的连结控制协定。在第一阶段,CVCF用于去除噪声样本来提高击打的性能。然后,击杀了处理不平衡数据集的性质。在第二阶段中,我们应用FPSO-SVM预测术后连结控制协定的生存。实验结果表明,该混合方法优于其他比较先进的算法。这种混合方法可以有效地提高LC手术后生存预测的准确性,为医生和患者提供可靠的医疗决策支持。我们的贡献总结如下:(我)小说相结合的混合法提出了改进打自适应支持向量机预测术后连结控制协定的生存(2)我们应用CVCF清理数据噪声来提高击打的性能(3)单是用来优化支持向量机的参数,实现自适应支持向量机(iv)提出的混合法相比不仅执行更高的预测精度比其他算法预测术后连结控制协定还有更好的生存 - - - - - -意思是,F1和曲线下面积(AUC)

本文的其余部分如下:部分2显示了材料和方法。实验设计、性能指标和实验结果部分中描述3。简要总结了部分4。

2。材料和方法

2.1。数据描述

摘要胸外科数据集在Zięba et al。5),选择预测术后连结控制协定的生存。数据收集从弗罗茨瓦夫胸外科中心。这些患者接受肺切除术为初级LC从2007年到2011年。它包含470个样本不平衡率为5.71。有400患者存活一年以上和70患者存活不到一年在这个数据集。表1显示了数据集的特点。这些特性选择从36术前预测信息增益方法和被用来预测术后生存寿命。我们的任务是预测是否手术后患者的生存时间大于一年。


特性ID	描述	类型的属性

1	原发肿瘤的大小,从OC11(最小的)OC14(最大)	名义上的
2	诊断(具体结合icd - 10编码主要和次要的多个肿瘤如果有的话)	名义上的
3	用力肺活量	数字
4	疼痛(presurgery)	二进制
5	年龄手术	数字
6	性能状态	名义上的
7	缺点(presurgery)	二进制
8	呼吸困难(presurgery)	二进制
9	咳嗽(presurgery)	二进制
10	咯血(presurgery)	二进制
11	外周动脉疾病	二进制
12	MI多达6个月	二进制
13	哮喘	二进制
14	体积,呼出的第一第二年底过期	数字
15	吸烟	二进制
16	2型糖尿病	二进制
17	1年生存期(如果去世的真正价值)	二进制

2.2。数据预处理

2.2.1。CVCF噪音清洗

虽然打是一种最广泛使用的不平衡数据处理方法,它也有一些缺点在处理噪声数据。主要问题是打可能加剧数据中噪声的存在,如图1。鉴于CVCF的良好的性能,我们考虑使用它来改善击杀。

CVCF算法是一个著名的代表一个ensemble-based噪声滤波器(29日]。它引发多个单一分类器通过交叉验证。之后,样品贴错了标签,由所有分类器(或大部分分类器)将标记为噪声和从数据集中删除。选择一个合适的基分类器是一个关键的操作,确保CVCF的优良性能。在本文中,我们选择CVCF的C4.5算法作为基分类器,因为它具有更好的鲁棒性噪声数据和整体学习是否适合30.,31日]。

C4.5是ID3算法的一个改进版本32]。它可以提高ID3,将数值属性和缺失值和通过引入修剪。此外,本质上不同于ID3信息增益率在C4.5是用来选择分裂属性,可以用在哪里代表属性的信息增益率在数据集。是数据集的信息增益分裂后通过属性并且可以用在哪里是数据集的熵。是条件熵属性呢。表示的分割信息属性和表达在哪里代表数据集的样本的数量。表明样本子集的个数原始数据集分为后根据属性值的子集。

2.2.2。击杀来平衡数据

击杀的核心思想是将人工样品相似的值插入到少数类,从而提高类的不均衡分布。更具体地说,抽样比例设置第一,然后,最近的邻居每个少数民族的样本被发现。最后,根据方程(4),其中一个邻居是随机选择生成合成样品放回抽样数量数据集,直到到达率。合成新的样本计算如下: 在哪里代表了一种新的合成样品,是每个少数类样本的特征向量,然后呢是 - - - - - -最近邻样本。是一个0到1之间的随机数。

2.3。拟议中的FPSO-Optimized SVM (FPSO-SVM)

2.3.1。支持向量机

支持向量机是一种监督学习分类器基于统计理论和结构风险优化(33]。支持向量机不容易过度拟合,可以处理高维数据。支持向量机的原理是将原始数据映射到高维空间中发现一个超平面,最大化利润率由支持向量。假设有一个数据集。数据集的最优超平面可以表示为在哪里权向量和吗代表了偏见。

对于非线性问题,可以转化为上述最优超平面在哪里是惩罚因子和松弛变量。上述约束目标函数可以满足马条件通过引入拉格朗日公式。原目标函数转化为在哪里是拉格朗日乘数。根据前面的实验的经验,一个更大的价值意味着更大的分离间隔和泛化的风险更大。相反,当的价值太小了,很容易有一个underfitting问题。

最后,决定函数所示在哪里和最佳的拉格朗日乘数和最优值的吗 ,分别为,代表一个符号函数。是一个内核函数。通常,径向基函数(RBF)选择核函数支持向量机,它可以表示为在哪里是内核参数。支持向量机的分类性能在很大程度上依赖于惩罚因子的设置和内核参数。因此,应用支持向量机的参数设置是一个关键的一步。

2.3.2。FPSO-SVM模型

为了使支持向量机有更好的分类性能,我们使用单点优化惩罚因子和内核参数支持向量机的,叫做FPSO-SVM。分类精度作为生产储油轮的适应度函数,定义为 TP、TN、FP和FN代表四个不同的分类结果见表2。


	实际积极	实际负

积极的预测	TP	《外交政策》
预测负	FN	TN

单是一个完全自适应版本的算法,计算惯性权重,独立学习因素和速度为每个粒子基于模糊逻辑。单点的突出优点是,它不需要任何先验知识对算法及其优化性能和收敛速度比算法。

在单点,首先,粒子群设置的数量基于启发式(34,35]。在这里,优化问题的维数。摘要,因为有两个需要优化支持向量机参数, 和 (四舍五入)。初始化粒子后,我们需要更新他们根据粒子的位置和速度。让和的速度和位置 - - - - - -th粒子在 - - - - - -分别th迭代。在 - - - - - -th迭代速度和位置的 - - - - - -粒子可以被定义为在哪里惯性权重的粒子吗在 - - - - - -th迭代和和社会和认知因素的粒子吗在 - - - - - -分别th迭代。在单点,与传统PSO的值 , ,和不是固定的而是分别计算不同粒子在每个迭代。和分别是两个随机向量。和的位置吗 - - - - - -th粒子和最好的全球地位的群 - - - - - -迭代。

最大速度( )和最小速度( )中的所有粒子 - - - - - -被定义为th维度在哪里和代表的上下界 - - - - - -分别th尺寸的优化问题。和( )两个系数取决于语言变量,为了夹吗和每个粒子。

为了得到 , , , ,和每个粒子的值在每个迭代中,引入两个概念:每个粒子之间的距离和全局最优粒子和健身每个粒子相对于上一次迭代的增量。

任何两个粒子之间的距离 - - - - - -迭代是表示为

这个函数代表粒子的规范化健康增量上一次迭代的计算在哪里是形成的矩形的对角线长度的搜索空间。是最差的健身价值。

语言变量的函数被定义为 , ,和 ,用来测量一个粒子的距离全球最好的粒子。梯形隶属函数被定义为

三角形的隶属函数被定义为

梯形隶属函数被定义为在哪里 , ,和。

语言变量的函数被定义为 , ,和 ,用于测量一个粒子的改进为前一个迭代的健身价值。梯形隶属函数可以获得的

三角形的隶属函数表示如下:

三角形的隶属函数如下:

根据预先设定的模糊规则, , , , ,和有三个层次包括 , ,和(28]。表3显示的去模糊化值 , , , ,和 ,计算的Sugeno推理方法(36]。这是定义如下: 在哪里代表的数量的规则。和的隶属度的输入变量和输出值吗 - - - - - -分别th规则。


输出	水平
输出	低	媒介	高

	0.3	0.5	1。0
	1。0	2。0	3.0
	0.1	1。5	3.0
	0.0	0.001	0.01
	0.1	0.15	0.2

然后,更新每个粒子的位置的基础上获得的值 , , , ,和。最后,重新计算每个粒子的适应度,也就是说,对应于每个粒子的SVM的准确性。重复上述过程,直到达到最大迭代数和输出支持向量机的最优参数。

的时间复杂度FPOS-SVM由两部分组成:生产储油轮和支持向量机。在单点,计算每个粒子的速度和位置在每个迭代中。因此,单点的计算复杂度是由迭代的数量决定的,粒子群的大小,每个粒子的维数。因此,单点要求时间复杂度,是单点的迭代次数,是单点的粒子群大小,优化问题的维数。支持向量机的最优超平面计算得到的支持向量之间的距离和边界的决定。然后,支持向量机所需的时间复杂度 ,在哪里是输入向量维度和支持向量的个数。在FPSO-SVM,支持向量机计算的数量取决于粒子群的规模和生产储油轮的迭代次数。因此,FPSO-SVM的时间复杂度。

2.4。提出了混合法的具体步骤预测术后连结控制协定的生存

基于改进的击杀和FPSO-SVM,我们提出一个两阶段混合方法来提高术后生存的性能预测的连结控制协定。在第一阶段,CVCF用于去除噪声样本来提高击打的性能。然后,将适用于平衡数据。在第二阶段,采用FPSO-SVM预测术后连结控制协定的生存。图2显示了该混合方法的流程图。提出了混合法的具体步骤如下:(1)CVCF设置为 - - - - - -折交叉验证。然后,分为原始数据集子集(2)不同的子集每个子集作为测试集,其余的时间子集作为训练集。因此,总共不同的C4.5分类器训练。然后,所有的训练C4.5分类器将投票给每个样本数据集。通过这种方式,每个样本都有标签和一个真正的类标签被C4.5(3)对于每一个样本,确定所有(或大多数)标签标注C4.5不同于真正的一个。如果所有(或大部分)是不同于真正的类标签,样品将被视为噪音和从数据集中删除。相反,保留样品。最后,所有的保留样品清洗数据集(4)Oversample从清理数据集打到数据集的类分布平衡(5)与CVCF-SMOTE数据预处理后,新的数据集分为训练集和测试集(6)为惩罚因子设置搜索范围和内核参数。初始化粒子群(7)计算每个粒子的适应度根据方程(10)。计算的语言学价值 , , , ,和根据方程(13)- (22)(8)转换的语言价值 , , , ,和基于方程的数值(23)和表3。更新每个粒子的速度和位置基于方程(11)和(12)(9)确定迭代的最大数量。如果是,优化支持向量机的输出。否则,返回步骤(7)和(8)(10)应用优化支持向量机的测试集

3所示。实验和结果

3.1。实验设计

评估我们的提出的混合法,比较它与一些先进的算法包括PSO-optimized SVM (PSO-SVM),支持向量机, - - - - - -最近邻(资讯)37),随机森林(RF) (38),梯度提高决策树(GBDT) [39),和演算法40]。此外,我们考虑六个预处理方法,包括CVCF-SMOTE Borderline-SMOTE (B-SMOTE) [41),Safe-Level-SMOTE (SL-SMOTE) [42],SMOTE-TL [43),击杀,没有预处理(标记为没有),探索我们的提议CVCF-SMOTE方法的性能。B-SMOTE、SL-SMOTE SMOTE-TL三个代表杀扩展,它可以处理不平衡数据和噪音。此外,为了更好地评估提出了混合方法的有效性,我们在另外两个不平衡数据测试了其性能。惩罚因子的值范围和内核参数被设置为 ,和最大迭代次数设置为30。这些算法都是在Python编程语言编程,除了CVCF-SMOTE龙骨运行的软件(44]。为了消除随机性,实验重复10次,平均性能是本研究中所示。

3.2。性能指标

在本节中,我们介绍了选择广泛使用的不平衡数据分类性能指标,包括精度(定义为方程(10)), - - - - - -意思是,F1, AUC。他们可以根据混淆矩阵计算表2。在哪里和。精度可以被视为一个测量的精确分类器,虽然回忆可以被视为衡量分类器的完整性。

AUC的定义是ROC曲线下的面积和坐标轴。AUC是非常适合的评价不平衡数据分类器,因为它是不敏感的不平衡分布和错误分类成本,它可以实现真阳性和假阳性之间的平衡45]。

3.3。结果和讨论

表4- - - - - -7证明的准确性, - - - - - -F1, AUC值不同算法在不同预处理方法预测术后生存的连结控制协定,分别。最好的实验结果不同的预处理方法被标记为粗体。从表中我们可以看到4- - - - - -7拟议中的CVCF-SMOTE + FPSO-SVM模型获得最佳的性能在所有方法准确率达到了95.11%,95.10% - - - - - -意思是,AUC F1, 95.02%和95.10%。这表明我们提出的混合方法可以平衡少数类的分类精度和多数类同时确保整体精度。即提出CVCF-SMOTE + FPSO-SVM方法识别率更高LC手术后患者存活超过1年和小于1年。


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.8440	0.7149	0.6385	0.7378	0.8679	0.9511
PSO-SVM	0.8440	0.6570	0.6217	0.6776	0.7267	0.8643
支持向量机	0.8440	0.5294	0.5561	0.4781	0.5493	0.5204
射频	0.8369	0.7149	0.6023	0.7388	0.8430	0.8869
GBDT	0.8156	0.7059	0.5864	0.7025	0.8213	0.9276
然而,	0.8227	0.6561	0.5833	0.6910	0.7905	0.9005
演算法	0.7943	0.6652	0.5615	0.6458	0.7674	0.9095


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0	0.6942	0.6148	0.7203	0.8625	0.9510
PSO-SVM	0	0.5832	0.5628	0.6150	0.6567	0.8501
支持向量机	0	0	0	0.1537	0.1015	0.1659
射频	0	0.7092	0.6017	0.7385	0.8404	0.8868
GBDT	0.2938	0.6901	0.5835	0.7024	0.8154	0.9274
然而,	0	0.6572	0.5819	0.6874	0.7919	0.9000
演算法	0.2059	0.6550	0.5552	0.6464	0.7597	0.9096


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0	0.6612	0.5549	0.7059	0.8482	0.9502
PSO-SVM	0	0.5089	0.4995	0.5600	0.6022	0.8336
支持向量机	0	0	0	0.2823	0.0605	0.0536
射频	0	0.6834	0.5713	0.7458	0.8241	0.8889
GBDT	0.1333	0.6524	0.5470	0.7025	0.7950	0.9292
然而,	0	0.6545	0.5473	0.7094	0.7760	0.9035
演算法	0.0645	0.6186	0.5101	0.6425	0.7323	0.9099


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.5000	0.7265	0.6268	0.7400	0.8639	0.9510
PSO-SVM	0.5000	0.6426	0.6069	0.6754	0.7094	0.8631
支持向量机	0.5000	0.5000	0.5000	0.4993	0.5059	0.5138
射频	0.4958	0.7115	0.6038	0.7397	0.8411	0.8873
GBDT	0.5202	0.6993	0.5857	0.7052	0.8171	0.9281
然而,	0.4874	0.6581	0.5842	0.6919	0.7927	0.9010
演算法	0.4891	0.6603	0.5582	0.6483	0.7621	0.9097

此外,从表很容易理解5- - - - - -7这一 - - - - - -F1, AUC表演不同的分类器为原始数据集没有预处理非常贫穷。然而,它可以从表中找到4所有的分类器的分类精度为原始数据集比击杀预处理后的精度高。这表明对不平衡数据;虽然多数类的分类器有良好的表现,在少数类执行很不佳。也就是说,这些分类器无法平衡连结控制协定的分类精度的术后生存时间长于1年,小于1年。

的性能与杀预处理后,我们发现 - - - - - -的意思是,F1和AUC值大多数分类器(支持向量机除外)都高于原始数据集的。然而,我们可以看到从表4所有分类器的精度,击杀低于原始数据集。这表明尽管杀可以平衡精度和召回,它会导致精度下降。三击杀扩展SL-SMOTE、SMOTE-TL B-SMOTE,我们发现B-SMOTE最具竞争力的性能。B-SMOTE + FPSO-SVM获得实验结果仅次于CVCF-SMOTE + FPSO-SVM。

图3显示了堆积柱状图的准确性, - - - - - -意思是,F1, AUC不同算法在不同预处理方法。从图可以看出3我们提出CVCF-SMOTE + FPSO-SVM具有最好的性能预测术后连结控制协定的生存。实验结果背后的主要原因如下:首先,CVCF识别和消除噪声,提高数据质量,这样可以减少盲目的过采样时击杀。第二,FPSO-SVM可以搜索支持向量机的最优参数自适应,提高了支持向量机的分类精度。

为了进一步测试的区别CVCF-SMOTE + FPSO-SVM和其他组合方法,一个配对 - - - - - -测试对象包括CVCF-SMOTE + FPSO-SVM和最好的结果在不同的预处理方法。一个值小于0.05被认为是具有统计学意义的实验。从表8可以看出,CVCF-SMOTE + FPSO-SVM达到更好的结果比最好的结果在不同预处理方法的准确性,F1, - - - - - -的意思是,和AUC规定的统计显著性水平为5%。


方法	精度	F1	- - - - - -的意思是	AUC

没有一个	11.034 (0.000)	25.502 (0.000)	21.102 (0.000)	27.01 (0.000)
击杀	14.348 (0.000)	16.01 (0.000)	10.261 (0.000)	12.469 (0.000)
SL-SMOTE	29.947 (0.000)	25.764 (0.000)	30.349 (0.000)	31.255 (0.000)
SMOTE-TL	29.815 (0.000)	30.281 (0.000)	22.248 (0.000)	26.895 (0.000)
B-SMOTE	6.541 (0.000)	5.176 (0.001)	5.297 (0.000)	5.997 (0.000)
CVCF-SMOTE	5.237 (0.001)	4.994 (0.001)	4.67 (0.001)	4.719 (0.001)

我们也比较我们模型的准确性和先前的研究如表所示9。我们可以看到从表9CVCF-SMOTE + FPSO-SVM模型的精度高于其他方法之前的文学作品。最后,我们比较不同算法的ROC曲线下不同的预处理方法,如图4。AUC值越大,分类器的性能就越好。可以看出,我们提出的AUC CVCF-SMOTE + FPSO-SVM是最大的,这意味着我们建议的模型优于其他比较方法预测术后连结控制协定的生存。


作者	方法	精度

Mangat和中收取3]	DA-AC	82.18%
Elyan和Gaber46]	RFGA	84.67%
李等人。47]	STDPNF	85.32%
Muthukumar和克里希南48]	仿射	88%
军刀Iraji [4]	榆树(波内核)	88.79%
我们的工作	CVCF-SMOTE + FPSO-SVM	95.11%

为了进一步证明我们的性能提出FPSO-SVM优于PSO-SVM,我们画这两个算法的适应度曲线。数据5(一个)和5 (b)显示FPSO-SVM健身曲线和PSO-SVM CVCF-SMOTE预处理。我们可以看到从(数据5(一个)和5 (b)),我们可以清楚地看到,与PSO-SVM相比,FPSO-SVM不仅具有更高的拟合程度,也更快的收敛速度。这表明我们提出FPSO-SVM算法可以确定最优解的搜索空间比PSO-SVM更快和更准确。

(一)

(b)

3.4。适用于其他数据集

给我们建议的方法的泛化能力,我们应用CVCF-SMOTE + FPSO-SVM另外两个不平衡数据集收集从龙骨(https://sci2s.ugr.es/keel/)[44]。表10显示选择的两个数据集的详细信息。


数据集	箱号	属性数	类分布

哈伯曼	306年	3	225/81
阑尾炎	106年	7	85/21

表11和12显示不同的算法的准确性和AUC在哈伯曼数据集不同的预处理方法。从表可以看出11和12,根据不同的预处理方法,准确性和AUC CVCF-SMOTE + FPSO-SVM高于那些比较分类器。如表所示13配对的结果 - - - - - -试验还表明,CVCF-SMOTE + FPSO-SVM明显比最好的实验结果在不同预处理方法数据集问题。为阑尾炎数据集,它可以从表14和15CVCF-SMOTE + FPSO-SVM也获得最高的准确性和AUC值比其他预处理方法和分类器的组合。从表可以看出16阑尾炎的数据集,CVCF-SMOTE + FPSO-SVM达到更好的结果比最佳的性能没有下,击杀,SL-SMOTE, B-SMOTE。然而,它不是一个显著差异SMOTE-TL下的最佳性能。


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.7402	0.6890	0.6386	0.7396	0.7795	0.8205
PSO-SVM	0.7098	0.6435	0.6504	0.6538	0.6831	0.7205
支持向量机	0.7196	0.6291	0.6409	0.6423	0.6772	0.7165
射频	0.6989	0.6795	0.6142	0.7315	0.7559	0.7772
GBDT	0.6837	0.6606	0.6299	0.7252	0.7465	0.7764
然而,	0.7174	0.6630	0.6417	0.7000	0.7449	0.7992
演算法	0.7163	0.6402	0.6331	0.6117	0.6819	0.7559


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.5274	0.6813	0.6288	0.7310	0.7748	0.8206
PSO-SVM	0.5012	0.6131	0.6325	0.6669	0.6518	0.7121
支持向量机	0.5077	0.6096	0.6246	0.6598	0.6566	0.7035
射频	0.5731	0.6815	0.6132	0.7283	0.7588	0.7784
GBDT	0.5492	0.6607	0.6274	0.7226	0.7475	0.7765
然而,	0.5737	0.6649	0.6418	0.6997	0.7433	0.8009
演算法	0.5809	0.6359	0.6293	0.6118	0.6779	0.7549


方法	精度	AUC

没有一个	6.603 (0.000)	18.744 (0.000)
击杀	6.555 (0.000)	10.315 (0.000)
SL-SMOTE	15.959 (0.000)	15.806 (0.000)
SMOTE-TL	4.506 (0.001)	3.539 (0.006)
B-SMOTE	2.601 (0.029)	2.83 (0.02)
CVCF-SMOTE	4.669 (0.001)	4.392 (0.002)


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.8688	0.8792	0.8208	0.9381	0.9167	0.9511
PSO-SVM	0.8625	0.8713	0.7620	0.8104	0.8714	0.9277
支持向量机	0.8469	0.7979	0.7854	0.8310	0.8813	0.9021
射频	0.8438	0.8438	0.7271	0.8714	0.9083	0.9106
GBDT	0.8188	0.8479	0.7146	0.8690	0.8917	0.9085
然而,	0.8500	0.7708	0.7354	0.8476	0.8708	0.8957
演算法	0.8031	0.8396	0.7458	0.8690	0.8896	0.9106


算法	没有一个	击杀	SL-SMOTE	SMOTE-TL	B-SMOTE	CVCF-SMOTE

FPSO-SVM	0.6878	0.8807	0.8167	0.9411	0.9135	0.9512
PSO-SVM	0.5893	0.7602	0.7708	0.9311	0.8917	0.9239
支持向量机	0.6674	0.7966	0.7832	0.8423	0.8788	0.8982
射频	0.6930	0.8475	0.7324	0.8755	0.9064	0.9070
GBDT	0.6460	0.8539	0.7207	0.8713	0.8909	0.9092
然而,	0.6885	0.7736	0.7374	0.8499	0.8676	0.8954
演算法	0.6352	0.8461	0.7492	0.8685	0.8888	0.9102


方法	精度	AUC

没有一个	6.591 (0.000)	15.628 (0.000)
击杀	4.562 (0.001)	5.176 (0.001)
B-SMOTE	3.024 (0.014)	3.373 (0.008)
SL-SMOTE	6.227 (0.000)	7.009 (0.000)
SMOTE-TL	1.089 (0.304)	0.785 (0.453)
CVCF-SMOTE	2.764 (0.022)	2.787 (0.21)

从实验结果,我们发现CVCF-SMOTE + FPSO-SVM优于对比算法对胸外科数据集和其他两个不平衡数据集。一方面,这是因为CVCF-improved杀是适应不同的数据集。另一方面,FPSO-SVM自动调整最佳的参数根据不同的数据集,从而提高支持向量机的泛化能力。

3.5。运行时间分析

我们比较的运行时间CVCF-SMOTE + FPSO-SVM准确率最高的算法相比在所有的方法。三个数据集的胸外科、哈伯曼和阑尾炎,相比,算法中精度最高的方法是CVCF-SMOTE + GBDT CVCF-SMOTE +资讯,分别和SMOTE-TL + FPSO-SVM。另外,为了比较的运行时间与PSO-SVM FPSO-SVM, CVCF-SMOTE + PSO-SVM也参与比较的。比较结果如表所示17。从表可以看出17的运行时间CVCF-SMOTE + FPSO-SVM小于CVCF-SMOTE + PSO-SVM的三个数据集。然而,CVCF-SMOTE + FPSO-SVM是慢的运行时间比CVCF-SMOTE + GBDT CVCF-SMOTE +资讯,和SMOTE-TL + FPSO-SVM胸外科,哈伯曼,和阑尾炎的数据集。考虑到更高的分类性能的方法,它仍然可以被认为是优于其他算法。


数据集	算法

胸外科	CVCF-SMOTE + GBDT	CVCF-SMOTE + PSO-SVM	CVCF-SMOTE + FPSO-SVM
	31.2	53.6	43.5

哈伯曼	CVCF-SMOTE +资讯	CVCF-SMOTE + PSO-SVM	CVCF-SMOTE + FPSO-SVM
	18.8	27.5	24.5

阑尾炎	SMOTE-TL + FPSO-SVM	CVCF-SMOTE + PSO-SVM	CVCF-SMOTE + FPSO-SVM
	13.8	22.2	17.3

4所示。结论

在这项工作中,我们提出了一个混合提高击打和自适应支持向量机方法来预测术后连结控制协定的生存。在我们提出的混合模型,采用CVCF清除数据噪声来提高性能的击杀。然后,我们使用FPSO-optimized SVM估计连结控制协定的术后生存是否大于一年。实验结果表明,我们建议的CVCF-SMOTE + FPSO-SVM杂交法获得最好的精度, - - - - - -F1, AUC相比其他算法相比术后生存预测连结控制协定。

我们提出了混合法可以提供宝贵的医疗决策支持连结控制协定和医生。考虑到其他两个不平衡数据集良好的分类性能,在未来,我们将努力将该方法应用于其他问题基于不平衡数据,如疾病诊断和金融欺诈检测。有两个限制需要指出:一个是我们只考虑肺癌手术后1年存活率。在未来的研究中,我们将试图预测生存在其他时间点,比如肺癌手术后存活3或5年。另一个是支持向量机的参数值范围的FPSO-SVM需要手动设置,这可能需要一些经验或实验尝试。设计一个建立自由的支持向量机是我们的未来的研究方向。

数据可用性

本研究的数据集可以获得来自UCI机器学习数据库(http://archive.ics.uci.edu/ml/datasets/Thoracic +手术+数据)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究支持由中国国家自然科学基金(71971123)。

引用

j·a·罗特曼a . j . Plodkowski s a海耶斯et al .,“肺癌术后并发症在胸外科。”临床成像,39卷,不。5,735 - 749年,2015页。视图:出版商的网站|谷歌学术搜索
c . a . Osuoha k·e·卡拉汉c·p·庞塞和p s ibsen Pinheiro”差距在外科治疗肺癌生存和收据,“肺癌卷。122年,54-59,2018页。视图:出版商的网站|谷歌学术搜索
诉Mangat r中收取,“小说关联分类器基于动态自适应算法:应用程序来确定候选胸外科,”专家系统与应用程序第41卷。。18日,第8244 - 8234页,2014年。视图:出版商的网站|谷歌学术搜索
m . s . Iraji”,预测术后生存寿命与软计算、胸肺癌手术”应用生物医学杂志,15卷,不。2、151 - 159年,2017页。视图:出版商的网站|谷歌学术搜索
m . Zięba j . m . Tomczak m . Lubicz和j .Świątek”提高了支持向量机中提取规则的不平衡数据在应用程序的预测肺癌患者术后的平均寿命,”应用软计算,14卷,第108 - 99页,2014年。视图:出版商的网站|谷歌学术搜索
g .香l .遗精,j .商g . Mingyun h .模块和必应,“学习class-imbalanced数据:复习的方法和应用,“专家系统与应用程序卷,73年,第239 - 220页,2017年。视图:出版商的网站|谷歌学术搜索
张炳扬。蔡,观测。林,中州。胡,G.-T。么,”Under-sampling类不平衡数据集通过结合聚类分析和实例的选择,”信息科学卷。477年,47-54,2019页。视图:出版商的网站|谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。视图:出版商的网站|谷歌学术搜索
j·a·塞斯,j . Luengo j . Stefanowski和f . Herrera”SMOTE-IPF:解决噪声和边缘的例子不平衡分类问题通过与过滤重采样方法,”信息科学卷,291年,第203 - 184页,2015年。视图:出版商的网站|谷歌学术搜索
g . Douzas f . Bacao f .去年,“改善不平衡通过启发式学习过采样方法基于k - means和击杀,”信息科学卷,465年,页1 - 2018。视图:出版商的网站|谷歌学术搜索
e . Ramentol y绅士、r·贝洛和f . Herrera”SMOTE-RSB:混合预处理方法基于过采样和采样高不平衡数据集使用击打和粗糙集理论,“知识和信息系统,33卷,不。2、245 - 265年,2011页。视图:出版商的网站|谷歌学术搜索
j . Zhang和w·w·Ng”随机敏感性的控制噪声过滤和过采样方法不平衡分类问题,”2018年IEEE国际会议系统,人,控制论(SMC)IEEE,页403 - 408年,2018年。视图:谷歌学术搜索
l·马和美国球迷,”CURE-SMOTE算法和混合算法对特征选择和参数优化基于随机森林,”BMC生物信息学,18卷,不。1,第169 - 169页,2017。视图:出版商的网站|谷歌学术搜索
j . Luengo S.-O。垫片,s . Alshomrani a Altalhi, f . Herrera”CNC-NOS:类噪声清洁的整体噪音过滤和得分,”以知识为基础的系统卷。140年,27-49,2018页。视图:出版商的网站|谷歌学术搜索
d . o . gleb stolyarov和e·a·Fedorova异常值的影响过滤电价预测的准确性,”应用能源卷,236年,第210 - 196页,2019年。视图:出版商的网站|谷歌学术搜索
z道,l . Huiling w .了雯雯,y夏,“GA-SVM基于特征选择和参数优化在住院费用建模中,“应用软计算卷,75年,第332 - 323页,2018年。视图:出版商的网站|谷歌学术搜索
a D 'Addabbo和r . Maglietta“平行选择性抽样的不平衡和大型数据分类的方法,”模式识别的字母卷,62年,第67 - 61页,2015年。视图:出版商的网站|谷歌学术搜索
黄b . et al .,“基于聚类的不平衡数据分类算法和支持向量机,“技术代表、《电路,系统和电脑,2020。视图:谷歌学术搜索
x y粉丝,崔、h·汉和h . Lu”冷水机组故障诊断领域传感器使用不平衡的技术数据,”应用热工程,卷159,不。10,113933年,页2019。视图:出版商的网站|谷歌学术搜索
p . Moradi和m . Gholampour”混合粒子群优化特征子集选择通过集成一个新的本地搜索策略,”应用软计算,43卷,第130 - 117页,2016年。视图:出版商的网站|谷歌学术搜索
j .魏r·张z Yu et al .,“BPSO-SVM算法基于内存更新和增强突变特征选择的机制,”应用软计算58卷,第192 - 176页,2017年。视图:出版商的网站|谷歌学术搜索
曾n h .秋w·刘,h·张,z . Wang和y,“一个新的switching-delayed-PSO-based优化支持向量机算法的诊断阿尔茨海默氏症,”Neurocomputing卷,320年,第202 - 195页,2018年。视图:出版商的网站|谷歌学术搜索
崔g·g·王,s . Deb, z,“帝王蝶优化”神经计算和应用2015年,卷。31日。视图:出版商的网站|谷歌学术搜索
a . m . s . Li h . Chen Wang a Heidari对伊朗伊斯兰共和国通讯社表示,和s . Mirjalili“黏菌算法:一种随机优化的新方法,”未来一代计算机系统卷,111年,第323 - 300页,2020年。视图:出版商的网站|谷歌学术搜索
G.-G。王,”莫丝搜索算法:仿生metaheuristic算法全局优化问题,“迷因计算,10卷,不。2、151 - 164年,2018页。视图:出版商的网站|谷歌学术搜索
a . a . y, h . Chen Heidari对伊朗伊斯兰共和国通讯社表示,和a . h . Gandomi“饥饿游戏搜索:愿景、理念、实现,深入分析,观点,和对性能变化,“专家系统与应用程序,第177卷,第114864页,2021年。视图:出版商的网站|谷歌学术搜索
答:a . Heidari对伊朗伊斯兰共和国通讯社表示,s . Mirjalili h·法里斯Aljarah, m . Mafarja h·陈,”哈里斯鹰优化:算法和应用程序,未来一代计算机系统卷,97年,第872 - 849页,2019年。视图:出版商的网站|谷歌学术搜索
m . s .高贵的p . Cazzaniga d . Besozzi r·科伦坡g .毛里和g·帕斯,“模糊自调整算法:settings-free全局优化的算法,”群与进化计算39卷,第85 - 70页,2018年。视图:出版商的网站|谷歌学术搜索
Verbaeten和a . Van典藏”乐团的噪声消除方法分类问题在国际研讨会上多个分类器系统施普林格,页317 - 325年,柏林,海德堡,2003年。视图:谷歌学术搜索
S.-J。李,z, t·李,y,“基于包装器的小说装袋C4.5算法特征选择支持明智的临床决策,”生物医学信息学杂志卷,78年,第155 - 144页,2017年。视图:出版商的网站|谷歌学术搜索
l·p·f·加西亚·j·莱曼,卡瓦略·a·c·p·l·f·a·c·罗瑞拉,“新标签注入方法评价噪声过滤器,”基于知识的系统卷,163年,第704 - 693页,2019年。视图:出版商的网站|谷歌学术搜索
j·r·昆兰”,改善使用C4.5的连续属性”人工智能研究杂志》上,4卷,不。1,第90 - 77页,1996。视图:出版商的网站|谷歌学术搜索
c·科尔特斯和v . n . Vapnik“支持向量网络”机器学习,20卷,不。3、273 - 297年,1995页。视图:出版商的网站|谷歌学术搜索
n .汉森r . Ros n . Mauny m . Schoenauer a钻,“不变性的影响在搜索:当CMA-ES和PSO的脸坏心肠的和不可分离的问题,“应用软计算,11卷,不。8,5755 - 5769年,2011页。视图:出版商的网站|谷歌学术搜索
m . s .高贵的g·帕斯,p . Cazzaniga d . Besozzi r·科伦坡和g .毛里,“积极的粒子群优化:一个基于模糊逻辑的自调整算法,”2015年IEEE国际会议在模糊系统(FUZZ-IEEE),页1 - 8,IEEE 2015。视图:谷歌学术搜索
m . Sugeno模糊控制的工业应用爱思唯尔科学公司,1985。
n s奥特曼”,介绍内核和近邻非参数回归,”美国统计学家,46卷,不。3、175 - 185年,1992页。视图:出版商的网站|谷歌学术搜索
t . k . Ho“随机决策森林”第三届国际研讨会论文集文档分析和识别,1卷,第282 - 278页,IEEE。视图:谷歌学术搜索
j·h·弗里德曼,“贪婪的近似函数:一个梯度增加机器,”统计年鉴卷,29号5,2001。视图:出版商的网站|谷歌学术搜索
y Freund,“提高弱学习算法多数,”信息和计算,卷121,不。2、256 - 285年,1995页。视图:出版商的网站|谷歌学术搜索
h·汉w . y . Wang和b·h·毛”Borderline-SMOTE:一种新的over-sampling方法在不平衡数据集学习,”在智能计算国际会议施普林格,页878 - 887年,柏林,海德堡,2005年。视图:谷歌学术搜索
c . Bunkhumpornpat k Sinapiromsaran, c . Lursinsap”Safe-level-SMOTE: safe-level-synthetic少数over-sampling技术处理类不平衡问题,”在亚太会议知识发现和数据挖掘施普林格,页475 - 482年,柏林,海德堡,2009年。视图:谷歌学术搜索
g·e·巴蒂斯塔,r . c . Prati和m . c . Monard”研究平衡机的几种方法的行为学习训练数据,”ACM SIGKDD探索通讯》第六卷,没有。1页,2004页。视图:出版商的网站|谷歌学术搜索
j . Alcala-fdez“龙骨数据挖掘软件工具:数据集存储库,算法和实验分析框架的整合,“多值逻辑与软计算的杂志,17卷,不。2 - 3、255 - 287年,2011页。视图:谷歌学术搜索
d . Veganzones和e·塞维林”破产预测在不平衡数据集的调查,“决策支持系统卷,112年,第124 - 111页,2018年。视图:出版商的网站|谷歌学术搜索
大肠Elyan和m . m . Gaber“遗传算法优化随机森林方法应用于类工程数据,”信息科学卷,384年,第234 - 220页,2017年。视图:出版商的网站|谷歌学术搜索
j .李问:朱,吴问:“自我训练方法基于密度高峰和延长parameter-free本地噪声过滤k最近的邻居。”以知识为基础的系统,第184卷,第104895页,2019年。视图:出版商的网站|谷歌学术搜索
p . Muthukumar g·s·s . Krishnan,“直觉模糊软集的相似度度量及其应用在医学诊断中,“应用软计算41卷,第156 - 148页,2016年。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

机器学习和计算模型对临床决策

文摘