文摘
最优特征子集的选择是一个重要和艰巨的任务模式分类、数据挖掘和机器智能应用程序。特征子集选择的目标是消除无关和嘈杂的特性来选择最优特征子集,增加准确性。特性在一个数据集的大量增加了计算复杂度从而导致性能下降。在本文中,为了克服这个问题,角度调制技术是用来减少特征子集选择问题四维连续优化问题而不是提出问题作为一个高维向量。提出问题的有效性表示角度调制和确定该方法的效率,6变种的人工蜂群(ABC)对特征选择算法采用角调制。六高维数据集的实验结果表明,相对于传统方法,角度调制ABC算法改善了分类精度用更少的特征子集。
1。介绍
许多数据挖掘和机器学习应用程序遭受诅咒的维度的数据集通常涉及到大量的特性,通常还包括相关和不相关的功能(1]。当特征的数量很大,收购的成本数据将会增加,分类器的性能可能会降低,泛化的数据将更加困难2]。为了应对这个问题,特征选择是消除冗余的方法之一,可借鉴性和嘈杂的特性,同时保留特征子集的准确性。
过滤方法和包装方法两个主要的策略是在特征选择1]。在过滤方法中,一种算法根据数据特征子集选择相关的特性。然而,包装方法包括一个分类器来评估候选特征集。虽然包装器方法包括评估候选特征子集的计算开销,他们比过滤方法的分类精度(3]。
当使用包装器方法时,最优特征子集选择问题可以看作是np困难,因为许多可能的功能子集搜索空间是2在哪里的数量特征。进化计算技术是众所周知的工具来解决这类问题(2]。这些技术之一是人工蜂群(ABC)算法,模拟真正的蜂群的觅食行为。近年来,有一些研究提出基于ABC的特征选择算法。Palanisamy和Kanmani4美国广播公司(ABC)用于特征选择。然而,本文只使用原始ABC和不给任何代位向量的信息用于特征选择。另一个二进制ABC算法特征选择提出了(5),但搜索二进制ABC算法方程是基于修改候选解决方案不与其他交互的解决方案。因此,算法将一个随机算法随机生成解决方案没有交互的人口。此外,在这些方法中,候选解决方案提供一位向量的大小。因此,对于大规模的实例,这可能会导致更多的时间和降低分类精度。除此之外,也有一些应用程序使用ABC在特征选择步骤。Syarifahadilah et al。6生物标志物识别]提出的特征选择方法。是乌斯等。7]发达ABC-based特征选择算法,以诊断肝脏疾病和糖尿病。Akila et al。8)确定用户分析的基础上人类输入节奏通过ABC-based特征选择方法。
在这项研究中,美国广播公司(ABC)算法采用基于角调制位向量代首次对特征选择。ABC算法在基于角调制的方法,称为角调制人工蜂群(AMABC)算法,选择候选特征集与位向量得到字符串生成器采用三角函数。这种方法的主要优势是,AMABC算法试图优化三角函数,只有四个参数在连续域。因此,高维二进制搜索空间只能提出的四维连续搜索空间数据集。因此,任何ABC算法变异用于连续优化问题在文献中可以用于特征选择问题。为此,我们采用了角度调制到六ABC变异显示其显著影响寻找相关特征子集选择数据集实例有许多功能。比较表明,ABC与角调制特征选择算法显著提高分类精度使用更少的特征。
本文组织如下。部分2简要回顾了原始ABC算法和六个变体。部分3阐述了应用基于角调制ABC算法特征选择。实验结果发表在部分4。最后,部分5总结了纸。
2。人工蜂群算法
2.1。原来的人工蜂群算法
人工蜂群(ABC)算法,觅食行为的启发真正的蜂群,提出了解决优化问题。首先介绍了Karaboga [9),bound-constraint连续优化问题。在ABC算法中,每个候选解决方案假设作为食物来源位于采用搜索空间。食物来源的花蜜量被称为一个候选人的健身价值的解决方案。
殖民地生活是由分工。它包含三种类型的蜜蜂,蜜蜂,蜜蜂旁观者,和侦察蜂,它们是专门用于不同的任务。外采用蜜蜂觅食蜜蜂蜂巢和与观众交流时通过一系列的舞蹈回到蜂巢与新闻发现的食物来源。旁观者蜜蜂获得非凡的准确信息的位置和质量发现食物来源。舞蹈的魅力,这是作为食物来源的选择概率,新兵旁观者蜜蜂帮助找到新的好的食物来源在附近发现了一个。食物来源是废弃的因为它的低质量。然后,一个雇佣蜂转向侦察蜂飞来飞去在理想的地方寻找食物。基于这一现象,ABC算法是由四个主要步骤:初始化步骤中,采用蜜蜂一步,旁观者蜜蜂一步,侦察蜂的一步。除了初始化步骤,算法重复另一个步骤,直到停止准则是满意。这些步骤的详细描述如下。
(一)初始化。一些最初的解决方案被发现或简单地创建搜索空间的范围内使用以下公式(9]: 在哪里下界和吗每个决策变量的上限吗一个解决方案,。是一个均匀分布的随机数生成在0和1之间。此外,其他控制参数,如限制代表访问的最大数量为每个解决方案,在这一步初始化。
蜜蜂(b)使用步骤。在这一步中,每个采用蜜蜂访问的解决方案,,发现一个更好的候选解决方案,与公式(9] 在哪里的位置参考解决方案,是一个随机选择的解决方案,是一个随机选择的维度,一个随机数均匀分布在吗。如果候选人的解决方案,,比,它取代并成为了新的解决方案。否则,一个计数器持有试验的总数是增加了。
(c)旁观者蜜蜂的一步。周围的旁观者蜜蜂还试图发现新的解决方案使用的访问解决方案如蜜蜂。然而,在这一步中,信息共享的质量解决方案采用蜜蜂发现了旁观者的蜜蜂。因此,每个解决方案没有平等资格访问,但选择的概率是定义如下9]: 在哪里是解决方案的价值这是定义为 在哪里客观价值的解决方案吗。如果一个解决方案有一个更高的质量,然后访问解决方案由一个旁观者蜜蜂的比例就更高。
(d)侦察蜂的一步。一个解决方案可以被访问多次通过雇佣和旁观者蜜蜂找到新的解决方案。成功试验的数量等于极限值后,解决方案是标记为被遗弃了。然后,采用蜜蜂,负责废弃的解决方案,变成一个侦察蜂。一个新的解决方案是探索随机的侦察蜂(1初始化步骤)。
2.2。认为人工蜜蜂殖民地变体
在本节中,我们简要描述五ABC算法,我们考虑在不同的数据集的特征选择方法。
修改提出的ABC (MABC) Akay和Karaboga10]。MABC算法建议修改(2)如下: 在哪里修改比例,比例因子。而控制的比例尺寸更改的数量,调整摄动范围。
gb引导ABC (GABC) [11,12)使用信息到目前为止发现的最佳解决方案()提高强化行为在搜索方程采用蜜蜂和旁观者蜜蜂的步骤。修改搜索方程如下: 在哪里是th尺寸和是一个随机数。是调整控制参数摄动(11,12]。它被设置为一个积极的恒定值,通常设置为1 (11]。
GbestDist引导ABC (GDABC) [11GABC]是一种改进的变体。修改搜索GABC方程选择最好的邻居解决方案,根据概率选择规则,定义为 在哪里的概率是邻居吗选择,是一个解决方案的位置,两个解决方案之间的欧几里得距离的位置,和(11]。
混乱的ABC(课程)13)算法有三个变种。第一的变体课程规范均匀随机数发生器被替换为一个混沌随机发生器使用七种不同的混沌映射的初始化步骤。课程的第二个变量提出了混沌搜索旁观者蜜蜂后一步的数量达到试验的一个解决方案。混沌搜索可以找到的细节(13]。第三个版本,我们认为在这项研究中,是课程的前两个变体的组合算法。
增强ABC (EABC) [14)算法提出了两个独立的方程寻找工作和旁观者蜜蜂蜜蜂一步一步提高收敛性能差。雇佣蜂的搜索方程步骤是定义如下: 在哪里和随机数在吗和分别在哪里是一个非负常数和是一个标准偏差所产生的随机数和正态分布的意思。旁观者蜜蜂的步骤中,为了提高剥削,用于搜索的第三个任期方程代替如下:
3所示。角度调制人工蜂群算法
角度调制人工蜂群(AMABC)算法用于寻找一个二进制优化问题的最优解问题减少到四维连续优化问题。该算法生成的长字符串,利用三角函数来自角调制(15)技术用于通信系统。三角函数是由正弦和余弦函数如下: 在哪里。有四个系数(,,,)控制的频率正弦和余弦函数或垂直转移函数。系数值对于一个给定的函数生成不同的信号范围。因此,可以从生成的比特数的结果元素(值)获得均匀间隔分开。图1显示比特串一代使用三角函数,,,。射程和一个区间的字符串可以通过采样生成的结果如下:每一点 当我们使用角调制生成字符串,可以表现为一个二进制问题找到最优系数值的任务。因此,最佳二元向量解决原来的问题可以采样合成函数的均匀间隔的时间间隔。这种方法的优点对ABC算法如下:(我)ABC算法最初提出了bound-constraint持续优化。他们表现良好,连续优化问题与当代竞争算法。然而,ABC算法的二进制变异的优越性在文献中尚未被证实。使用这种方法,ABC算法试图找到适当的值的系数在连续空间而不是进化的长字符串以二进制空间。(2)这种方法降低了问题的维度。例如,一个大型二进制问题实例可以表示为一个四维的问题实例在连续空间。(3)几个ABC变异提出了连续优化可以很容易应用于二进制优化问题没有修改原始的实现算法。
3.1。与AMABC特征选择算法
角度调制ABC算法包装解决特征选择方法。与AMABC特征选择算法的基本过程是呈现在图2。AMABC算法使用一个归纳算法本身作为评价函数的一部分,它寻找一个良好的特征子集。我们使用支持向量机(SVM) [16),最近的邻国((NN)作为感应算法17在WEKA[],它实现18]。这些感应算法用于产生最终的分类模型。
在AMABC算法中,每个解决方案包含four-tuple值(,,,)(10)。对于每一个解决方案,、输出给定的函数(,,,)值采样生成候选字符串,在那里的数量特征。合成一些字符串是由1和0组成的,其中1表示选择特性和0一个忽略的功能,例如,图的位串1。除了第二个和第五个功能,其他功能都没有。然后,遇到的特征子集用这种方式传递给归纳估计算法和分类精度分配的目标函数的值选择特征子集。算法试图生成新的候选特征子集,每一步发现新的解决方案。满足终止条件时,特征子集选择拥有迄今最佳分类精度问题的解决方案。然后,所选择的特性集测试在测试实例通过使用感应算法获得最终结果。
4所示。实验结果
在本节中,我们分析了特征选择角度调制ABC算法的性能。六ABC算法性能比较,选择即原始ABC (OABC),修改ABC (MABC),增强ABC (EABC) gb引导ABC (GABC),混乱的ABC(课程),和GbestDist引导ABC (GDABC)。6真实世界数据集从加州大学19)用于实验。这些数据集已经被各种机器学习的研究中,使用包含几个数量的特性和不同的班级规模,并总结在表1。
在实验中,函数的数量评估将对所有算法。我们使用默认参数值在ABC算法。他们有在桌子上2。所有实验进行电脑与英特尔酷睿i7 2620 2.40 GHz CPU和8 GB的RAM。实验进行时,邻居的数量神经网络是选为1,10倍交叉验证(CV)应用于获得可靠准确的结果。
所有算法运行20次,计算平均值特征选择的准确性。实验中,我们进行了非参数测试,魏克森讯号等级测试检测性能精度之间的显著差异和特征选择。显著性水平的执行统计分析拒绝零假设,即算法之间不存在显著差异。
表3和4显示每个算法的分类精度的平均值与标准差和平均为每个数据集对支持向量机和选定的特征尺寸神经网络的感应算法,分别。结果准确性最高价值的其他表中以粗体显示。
当表3检查,一般AMABC算法与支持向量机的准确性并不明显优于没有特征选择的分类结果。然而,AMABC算法选择与一些功能来获得类似的平均精度结果相比没有特征选择的结果。SE,另一方面,在和直流数据集,AMABC算法显著提高分类精度的结果根据成对Wilcoxon测试一些功能。MABC算法也给予更好的结果比其他认为ABC变体。
根据表4为大豆和皮肤病学数据集,MABC再次显示了更好的精度性能。原来的ABC得到一流的声纳数据集。电离层,GDABC算法比其它算法得到更高的精度。马绞痛,课程、GABC GDABC, MABC获得最大的准确率。最后,课程和EABC达到平均分类精度最高。当表4分析,发现获得更高的精度和更少的特点通过特征选择。当所有的算法相比,似乎没有一个算法主要对分类精度。然而,进行Wilcoxon测试显示分类精度的一个重要改进特征选择时采用AMABC算法为每个数据集(对所有病例)值低于0.05。
当结果比较表3和4,很清楚地看到NN应选用感应AMABC算法虽然SVM算法的选择更少的特性来获得合理的结果。
5。结论
在本文中,我们介绍了角调制技术特征子集的选择。角度调制技术的主要优势为高维特征子集选择问题可以由低维连续优化问题和任何工作在连续空间优化技术可以应用于解决最优特征子集选择付出更少的努力。
作为一个案例研究中,六个变种的ABC算法采用角调制特征选择。在实验研究中,特征选择的原始校正算法和另外五个变异对六个UCI数据集比较算法。结果表明,特征选择与AMABC算法显著提高分类精度和更少的特征子集。
进一步的研究将以提高性能进行准确运用角度调制其他进化计算方法如粒子群优化和微分进化。
利益冲突
作者宣称没有利益冲突有关的出版。