文摘
布谷鸟搜索算法的优化精度低,一种新的搜索算法,精英混合二进制布谷鸟搜索(EHBCS)算法,改进了特征加权和精英策略。EHBCS算法设计了一系列的二元分类数据集特征选择,包括低维和高维样本的支持向量机分类器。实验结果表明,EHBCS算法达到更好的分类性能与二进制遗传算法和二进制粒子群优化算法。此外,我们解释其优越性的标准差,敏感性,特异性,精密, - - - - - -衡量。
1。介绍
特征选择试图找到最歧视的子集的特征识别率将合理分类器。给定一个问题特性,我们可能的解决方案,使一个详尽的搜索行不通的高维特征空间。此外,高维数据也包含大量的无关紧要和noise-polluted特性,和之间往往存在信息冗余功能。这些因素会影响学习效果的学习算法,大大增加了算法的计算复杂度。因此,特征选择已经成为一个研究热点。
模式识别和机器学习的关键技术,特征选择是一种有效的方法来处理高维数据。特征选择模型可以分为三个类别(1]:过滤器(2],嵌入[3),和包装4]。筛选方法定义的相关特性事先分类的数据。嵌入方法是指将特征选择算法嵌入的过程分类算法进行特征选择和培训在同一时间。包装方法另一方面结合分类算法来搜索并选择相关特性。包装器方法通常比过滤方法的分类精度(5]。最近的研究表明,特征选择可以更好地解决许多实际问题,包括分类和医疗问题(6- - - - - -9]。
特征选择过程的另一个重要部分是搜索策略:选择符合最优特征子集评价标准,这通常是一个组合优化问题。近年来,metaheuristic算法基于生物行为和物理系统本质上提出了解决优化问题(10]。Metaheuristic优化算法,也称为自然启发式算法,研究物种的进化行为,模拟计算机科学的算法,包括遗传算法(11),粒子群优化算法(12],蝙蝠算法[13,14[],布谷鸟算法15]。metaheuristic优化算法在特征选择方面取得了良好的效果。例如,刘等人。16结合遗传算法和模拟退火算法来选择特征子集。实验结果表示混合算法具有高可靠性和强大的融合。相反,Siedlecki属斯科兰吉斯和(17)结合遗传算法和特征选择,以达到一定的效果,但它暴露出遗传算法的过早收敛的问题。进行肯尼迪和埃伯哈特(18)提出了二进制粒子群优化算法的全局搜索,修改了传统粒子群优化算法和解决了二进制优化问题。此外,Firpi和古德曼(19应用全局搜索特征选择问题。
metaheuristic方法的成功在于搜索策略的效率和找到解决组合优化问题的能力。Metaheuristics把搜索指导搜索过程中收集的信息,因此,他们被认为是独立的问题。布谷鸟搜索算法是一种新型的启发式优化方法引入的杨和黛比2009年(15]。算法模拟了杜鹃鸟的寄生繁殖习性和一个随机算法全局搜索能力强。布谷鸟搜索算法已被有效地应用在许多领域,如智能优化和计算。布谷鸟搜索优于其他算法在连续优化问题包括弹簧设计和焊接梁在工程设计中应用程序(20.]。该算法特别适用于大规模问题[21]。Valian等人已经应用在训练神经网络(22)和峰值神经模型(23]。实验证明,CS比其他算法有更好的搜索功能就像粒子群优化算法,遗传算法,人工蜂群算法(21,24,25]。因此,CS metaheuristic算法用于组合优化问题来获得更高的性能。
CS只能解决在连续优化问题解空间。解决组合优化问题的离散解空间,Gherboudj et al。26)提出了一种二进制版本的布谷鸟搜索算法,即bc算法。佩雷拉和罗德里格斯27bc算法应用于特征选择。保护和Sarmah28]改善BCS利用平衡结合当地的随机漫步和全球勘探随机游走,BCS算法能更好的平衡位置和全球性。Sudha和Selvarajan29日)提出了一个基于一个增强的布谷鸟算法的特征选择方法,并将结果应用到乳房x光图像。它可以为clinicopathologists提供有价值的信息。阿齐兹和Hassanien30.)提出了一种新的改进的杜鹃算法结合粗糙集的理论知识,最后应用特征选择。
布谷鸟搜索算法使用随机随机漫步在迭代搜索空间。布谷鸟搜索不能有效搜索在《飞越疯人院》由于征收与锋利的90度旋转。因此,患有低精度优化(31日]。为了提高布谷鸟搜索算法,本文提出了一个精英混合二进制布谷鸟搜索算法,和论文的新颖性是双重的:(1)EHBCS采用特征加权和精英策略二进制布谷鸟搜索算法。特征权重基于救援算法估计特征显示重量和其重要性的能力每个特性来区分不同的类实例。精英策略和遗传算法的选择和交叉算子嵌入到布谷鸟算法,以便做好巢可以遗传给下一代(2)EHBCS应用于一组二进制标签数据集,包括低维和高维样本等,只有最好的保留特性子集。实验结果表明EHBCS达到一个更好的分类性能,减少选择的数量特征,同时最大限度地提高SVM的分类精度与二进制遗传算法和二进制粒子群优化
总结了本文的主要贡献如下:(1)这是第一次把特征加权和精英策略与bc算法。(2)它具体改善bc算法的优化精度低。(3)可以提供一个有用的启示研究高维数据如文本处理、医学研究和基因分析。
本文的结构如下:第二部分提供了详细的经典版本的布谷鸟搜索和二进制布谷鸟搜索算法;第三节介绍了精英混合二进制布谷鸟搜索算法(EHBCS);第四部分论述了实验方法和特定的数据集和评估措施;数值实验也进行了评估我们的方法的预测性能在第五节。结果表明,该方法是有效的高维数据集;最后,我们工作的结论在第6节给出。
2。布谷鸟搜索算法
2.1。布谷鸟搜索算法(CS)
杜鹃的寄生行为是非常有趣的。这些鸟可以放下鸡蛋放在主机巢和模仿外部主机鸡蛋的特征如颜色和斑点。如果这个策略是失败的,主机可以扔掉布谷鸟的鸡蛋或简单地放弃其巢,使一个新的在另一个地方。基于这种背景下,杨和Deb [15)已经开发出一种新颖的进化优化算法叫布谷鸟搜索(CS),并且总结了CS使用三个规则,如下:(1)每个杜鹃随机选择筑巢下蛋(2)可用主机巢穴的数量是固定的,与高质量的蛋巢会通过第二代(3)如果一个主机鸟发现了杜鹃鸡蛋,它可以把鸡蛋扔了或放弃鸟巢,构建一个全新的巢
对于优化问题,每个巢代表一个可能的解决方案的问题,和一个巢可以包含一个或多个鸡蛋的大小取决于问题。首先,算法随机初始化每一个巢,然后,该算法进行迭代过程。在每个迭代中,每个巢更新通过与随机游走利维飞行,和公式方程所示(1)和(2):
每个维度的更新公式表示为
在哪里表示th巢,代表了在巢th鸡蛋为的一代。步长,产品意味着entrywise乘法。在大多数情况下,我们可以使用 。航班征收税( )使用一个随机步长和征税()是它的组件。
在1930年代,列维提出利维的分布,认为利维的连续跳路径之间的关系的航班和时间遵循利维的分布。之后,许多学者研究了利维的分布和用它来解释随机现象在自然界中,如布朗运动和随机游走。杨(15)研究和获得权力形式的税收分布的概率密度函数通过简化和傅里叶变换:
在哪里是功率系数。方程(2)是一个概率分布与沉重的尾巴。虽然基本上能描述的随机游走过程杜鹃鸟,它没有进一步描述更简洁大方数学语言实现CS算法的程序。所以杨采用了兰方算法来模拟征收跳路径:
在哪里利维飞行征税吗(),参数的关系在方程(2)是 和内容0 2。参数是 ,和和随机数和满足方程(5)和(6):
让 然后一步是路径,杜鹃鸟经历每一次在解空间随机搜索的新窝的位置从旧巢的位置根据方程(2)。在每次迭代的最后一步,质量是最差的鸟巢代替概率p [0,1]。算法1显示了CS的经典版本的伪代码。
|
||||||||||||||||||||||||||
2.2。二进制布谷鸟搜索(BCS)算法
在传统的CS,解决方案是在连续更新的位置搜索空间。与上面的CS,特征选择的BCS搜索空间建模为一个二进制 - - - - - -位串,的数量特征。BCS代表每个巢作为二进制向量,其中每个1对应于一个选定的功能和0。这意味着每个巢代表一个可能的解决方案,每个巢代表一个功能。
原来杜鹃算法介绍了杜鹃映射函数扩展算法离散二进制区域如下(25]: 在这 和表示新蛋的值迭代 。
3所示。精英混合二进制布谷鸟搜索(EHBCS)算法
3.1。特征加权算法基于救援
特征加权的核心理念基于救援是估计特征重量和其重要性根据每个特性来区分不同的类实例的能力(32]。有两种数据集 , 包含情况下是一个类标签集, 就是一个很好的例子 ,和是一个实值向量维度 。救援执行以下迭代学习:随机选择一个案例 ,然后找到最近的情况同一个类的和最近的情况不同的类,然后更新重量使用以下规则: 在哪里代表的重量th特性和代表的最大迭代数。 是用来计算的区别th维特征值的两个实例,绝对值矢量特性的差异。
考虑一个变体邻居从最近邻解脱了,他的体重值更新公式 在哪里 是一组最近的邻居的在欧氏距离。过程算法所示2。
|
||||||||||||||||||||||||
3.2。选择和交叉算子
选择算子是承受高的个人健身在当前人口下一代根据选择概率。一般来说,高的个人健身将有更多的机会向下一代继承。本文采用轮盘赌模型选择个人。计算公式如下:
在哪里是选择概率,累积概率,是个体适应度函数值,是该组织的数量。选择算子算法过程3。
交叉是交叉选择一双个人根据概率,如单点交叉和多点交叉。在本文中,采用单点交叉,也就是说,范围内的随机数生成的个体编码比特交叉点,然后,两具尸体的编码交换从这个角度来进行,这样交叉过程可以完成。
3.3。体重依赖型剂量精英混合二进制布谷鸟搜索(EHBCS)算法
CS算法,利维飞行是用来探索使用直接搜索空间飞行路径突然90度,和图1模拟利维的飞行路径。此外,CS算法是高度依赖于随机漫步搜索,可以很容易地从一个区域转移到另一个没有仔细研究每一个巢。因此,CS算法局部搜索能力较差和优化精度低31日]。为了弥补提到CS的弱点,精英策略和遗传算法运营商嵌入到布谷鸟算法,如选择和交叉算子,定位准确的巢可以遗传给下一代。所谓的精英策略是保护鸟巢在一个好的位置,以免错过最佳的巢在算法迭代通过征收飞行。根据一定的规则,选择算子是继承高的个人健身在当前人口给下一代。一般来说,高的个人健身将有更多的机会向下一代继承。交叉算子通常输入两个个体作为候选解决方案有一定概率并生成社区解决方案通过交换两个个体的染色体的一部分。
CS算法适合连续域问题,特征选择是一个二进制离散问题。本文提出了一个精英混合二进制布谷鸟搜索(EHBCS)算法考虑这些事实。EHBCS算法权重的功能首先根据救援算法III-A部分中所提到的,所以重量较大的特征有更大的机会被选中。EHBCS每个迭代的算法,最优巢不进行征收飞行或交叉以避免损坏最优巢的位置。利维飞行所产生的巢是由选择和交叉操作符。
由于现有的bc算法不考虑带来的影响函数的系数函数摘要改为特性重量这样特性显著特性重量有更大的机会被选择和改进算法可以完成迭代过程更快。BCS映射函数修改如下:
当
当
的功能并不代表的概率变化,它代表了某种变化的概率是1。让 。相应的函数图如图2。从图可以看出,参数相同的横坐标越大,相应的价值就越大。特性重量越大,被选中的概率越大。
应该强调,救援算法计算出的权重可能有负权值,和消极的重量表明相似的邻居样本的距离大于nonsimilar邻居的样本。因此,认为这个特性是不利于分类,并选择此功能在相应的概率特征选择较低。
因为窝发现和交叉操作的目的是使人口不同,本文采用交叉操作,而不是发现操作。迭代算法的后期,精英策略提出了保证收敛。精英选择和交叉算子以及本文提出的算法的伪代码如下:算法3和算法4。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。实验方法
4.1。数据集
八个数据集提取从UCI机器学习库(33- - - - - -35]。为了更全面的比较该算法和其他算法,四个低维特征数据集和四个高维特性选择数据集。每个数据集有两个类和表1提供了数据集的名称、功能的总数、总数量的情况下,特征选择之前和分类的准确性。
4.2。绩效评估措施
泛化能力的能力模型准确地预测新数据训练后的训练数据集。交叉验证方法来评估模型泛化能力,广泛应用于数据挖掘和机器学习(36]。在交叉验证,数据集通常分为两个部分:训练集,用于建立一个预测模型,另一个是测试集,用于测试模型的泛化能力。进行交叉验证,的价值被设置为 数据集的情况下低于100, 数据集的情况下超过100。使用的评价指标包括精度、灵敏度、精度、F-measure [37]。
在哪里阳性病例的总数和正确确定为积极的,的总数负例和正确确定为负,的总数负例和错误发现阳性病例,然后呢阳性病例的总数和错误识别负面的案例。
对于每个算法的整体分类性能,我们计算所有测试的平均值如下: 在哪里是折叠总数。
4.3。评估分类性能
采用支持向量机(SVM)分类器评价特征子集分类的准确性。支持向量机是一种监督机器学习算法引入的波沙et al。38),数据映射的点 - - - - - -维特征空间( )。最终的输出的支持向量机的最优超平面分类新病例。
SVM高度依赖内核函数,所以不同的内核函数的实验基础。相似核函数是一个函数,它决定了任何两个输入之间的相似性计算它们之间的距离。不难确定核函数。任何函数满足Mercer定理可以用作内核函数。有各种类型的内核函数如线性核函数,多项式核函数,径向基核函数,乙状结肠内核函数,复合核函数。选择合适的核函数数据和相关的问题。因此,它往往是选定的实验。基于实验,选择合适的核函数来评估数据集。选择的内核函数表2。
4.4。适应度函数
特征选择任务的主要目的是找到特征的数据集的一个子集,以便学习算法可以选择使用这些功能来实现尽可能高的精度。
在分类问题,两个特征子集不同数量可能有相同的相同的数据集的分类精度。因此,在相同的分类精度的情况下,如果metaheuristic算法发现更多特性的子集,子集用更少的功能将被忽略。在本文中,提出了一种新的评价方法作为适应度函数来克服这一限制,认为分类精度和减少需要的速度特性作为调整项。
让功能包含在数据集的总数,被metaheuristic特性的数量选择优化算法,率特性的重量减少,1 -的体重平均精度。适应适应度函数的值可以计算出所示(28)。我们设置= 0.2。
4.5。参数设置
比较的性能提出EHBCS和二进制遗传算法(BGA)和二进制粒子群优化算法(全局搜索)。表3列出了每个算法的参数值。人口规模的优化算法设置为30,而且每个执行特征选择算法运行5次任务。所有执行2017年Matlab运行,运行在Windows 10操作系统与英特尔(R)华为MagicBook核心(TM) i5 - 8250 u 1.6 ghz的8 gb RAM。
4.6。分析计算复杂度
EHBCS算法使用征收的救济算法和二进制转换航班以及选择和转换的过程。救援的算法,假设运行的数量 ,迭代的数量 ,病例的数量 ,和个人维度 ;算法的复杂性 。利维飞行和二进制转换,假设个体的数量 ,个体维度是 ,和迭代的数量 ;计算的复杂性 。选择和交叉,假设个体的数量 ,计算的复杂性 。因此,计算复杂度 EHBCS算法。
5。实验结果
数据3和4提供所有的性能优化算法特征选择使用4.1节中描述的医学数据集。它们包含以下信息:
(一)
(b)
(一)
(b)
精度:为每个数据集的分类精度
所有为每个数据集:分类精度特征选择
老:减少大小比例是用来评估删除功能的比例相比,所有可用的特性
表4和5提供所有的性能优化使用二进制标签数据集的特征选择算法在4.1节描述。每个表列包含以下信息:
健身:精度为4.2节中定义的函数(23),是该函数(284.4节中定义)
算法:它提供了算法的缩写,精英混合二进制布谷鸟搜索(EHBCS),二进制遗传算法(BGA)和二进制粒子群优化(全局搜索)
Avgacc,最大值、最小值:平均精度,最大精度,最小5运行算法的准确性
性病:分类精度的标准偏差
AvgN:返回的功能算法的平均数量在5分
SE, SP、前F1:平均灵敏度、特异性、精度 - - - - - -衡量一个算法在5分
数据集:数据集用于实验如表所示1
Avg:平均获得的相应数据的三个算法
实验结果表明,平均特征子集对所有数据集更小,平均分类精度是不同程度的改善。与原始数据相比,平均的数量特征子集优化算法特征选择后的-89.667%,降低了约18.395%,平均分类精度提高了3.3% - -34.6%。乳腺癌的威斯康辛州(诊断)的数据集,最大平均改善分类精度达到34.6%。所有这些意味着基于metaheuristic优化算法的特征选择方法可以有效地消除冗余特性和显著提高分类精度特别是一些数据集。
低维数据集,如宫颈癌行为风险,乳腺癌的威斯康辛州(诊断),乳腺癌的威斯康辛州(预测)和声纳,EHBCS算法可以有效地减少目标特性的特性来获得一个更小的子集。它可以得到最小标准差在三个算法,显示了EHBCS算法是最稳定的三人。但它是第二的三个优化算法的分类精度,SE, SP, Pre, F1。与相对应的数据Avg相比,EHBCS算法具有最小标准差,更高的分类精度,SE, SP, Pre, F1。与原始数据集分类相比,特征子集的数量特征选择后EHBCS算法减少了58.182% - -80%,而且分类精度提高了5% - -33.9%。结果表明,EHBCS算法可以有效地降低特征的数量,确保准确性,但它并没有在低维数据集执行好。
对于高维数据集,例如结肠肿瘤,成神经管细胞瘤,中枢神经系统白血病的关系,平均分类精度,标准差,SE, SP, Pre, F1 EHBCS算法优于BGA和获得的全局搜索。与相对应的数据Avg相比,EHBCS算法的平均分类精度提高了1% - -10.6%,和EHBCS得到更低的标准偏差。但它需要解释说,EHBCS算法的标准偏差大于Avg采用健身时对应的数据(函数(23成神经管细胞瘤及中枢神经系统)的数据集。除了这些,SE、SP、前,F1是整体最优。与原始数据集分类相比,特征子集的数量特征选择后EHBCS算法减少了43.772% - -53.498%,而且分类精度提高了4.5% - -22.8%。结果表明,基于EHBCS特征选择方法具有更高的分类精度,SE, SP, Pre, F1,标准偏差小。EHBCS算法更适合于高维数据集的特征选择。
应该强调,特征选择的目的是减少不相关或弱相关的功能尽可能在保证分类精度的前提下。然而,特征子集的数量不能减少下去。太少的特性可能导致损失的重要的特征子集,从而影响了数据集的分类精度。因此,它是必要的平衡之间的关系分类精度和特征子集的个数。在实际应用程序中,应该设置科学、合理的评价函数模型确保特征子集的分类性能。
6。结论
本文提出一个精英混合二进制布谷鸟搜索算法,采用特征加权和精英策略。提出EHBCS算法旨在优化二进制标签数据集特征选择任务。实验结果表明,EHBCS达到一个更好的分类性能。此外,所有统计指标(标准偏差(Std),灵敏度(SE)、特异性(SP),精密(前),和 - - - - - -测量(1)揭示了EHBCS明显优于BGA和全局搜索。然而,该算法仍有不足之处,比如增加了计算复杂度。
未来的工作需要进一步修改算法,使其适用于多类数据集的特征选择和使用不同的数据集和分类模型来评估结果。
数据可用性
数据集的数据网站:http://archive.ics.uci.edu/mlhttp://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgihttp://csse.szu.edu.cn/staff/zhuzx/Datasets.html。
的利益冲突
作者宣称没有利益冲突。