使用多目标最优支持向量机的特征选择算法

文摘

支持向量机分类器,基于结构风险最小化原则。支持向量机的性能取决于不同的参数,如惩罚因子,内核的因素,。选择合适的核函数也可以提高识别评分,降低计算量。此外,一些特性中选择有用的特性数据集不仅增加了支持向量机的性能,而且还减少了计算时间和复杂性。这是一个可以解决优化问题的启发式算法。在某些情况下,除了识别评分,分类器的输出的可靠性是非常重要的。所以在这种情况下需要一个多目标优化算法。在本文中,我们有MOPSO算法来优化支持向量机的参数,选择合适的核函数,并选择最佳特征子集同时为了优化识别评分和并发支持向量机的可靠性。九个不同的数据集,从UCI机器学习库,用于评估权力和该方法的有效性(MOPSO-SVM)。该方法的结果是通过单一的支持向量机相比,RBF和MLP神经网络。

1。介绍

模式识别系统由不同的部分组成。这样一个系统的最重要的一个部分是分类的,这是由不同分类器的过程。显然,有一个强大的分类器精度高是至关重要的在模式识别系统中,由于系统的输出精度高的影响分类器的精度。所以一个准确的模式识别系统,可用于不同的应用程序强烈需要一个高性能的分类器。一个强大的支持向量机分类技术,简称SVM (1]。支持向量机是一种监督学习方法,构造一个分类模型使用训练数据。支持向量机泛化误差最小化和最大化两个类之间的几何边缘。这个分类器使用核函数将输入数据映射到高维特征空间,以找到一个最优分离超平面的两级数据。支持向量机的性能取决于内核参数的数量,惩罚因子的数量,。同时选择合适的核函数是非常重要的。此外,一些特性中选择有用的特性训练数据集训练支持向量机起着重要的作用在提高支持向量机的性能。前训练支持向量机,用户应该选择合适的核函数和最优内核参数和惩罚因子。除此之外,如前所述,特征选择是非常重要的,为提高性能和降低复杂性。为了解决这个问题提出了不同的方法基于启发式算法。例如,黄和王用遗传算法来优化支持向量机的参数并进行特征选择同时为了提高分类精度(2]。他们使用RBF核函数在所有实验。Samanta等人提出了一个GA-SVM轴承故障检测方法在旋转的机器3]。遗传算法,优化支持向量机的参数,并进行特征选择,提高支持向量机在振动信号识别能力。吴等人提出了一个方法,基于遗传算法和支持向量机预测破产(4]。他们只使用GA优化分类器的参数没有特征选择。如遗传算法、算法等优化算法和SA被用来促进SVM的性能在不同的实用领域的生物医学(5- - - - - -7和人脸识别8]。提到的另一个重要的点,不被认为是研究分类器的可靠性,这意味着验证分类器的输出。这是一个临界点,应该考虑在选择分类器对不同的应用,如军事和医学。在所有提到的研究中,研究者使用只有一个适应度函数来评估他们的方法。但是,除了识别评分,计算分类器的输出的可靠性是一个很好的方法来评估分类器的性能。可靠性意味着验证分类器的输出,对一个未知样本。在一些问题,尽管类的识别评分高,相应的类可能的可靠性低,反之亦然。图1显示了这个概念。根据图1空心圆的识别评分是100%,但相应的可靠性是83% (5/6)。黑眼圈这些数字是80%和100%,分别。

在这项研究中多目标的算法被用来为两个目标函数:找到最优超平面识别评分和可靠性。本文的其余部分组织如下。节2介绍了支持向量机。节3,PSO和MOPSO算法进行了综述。节4两种形式,综述了人工神经网络强大的方法分类。节5该方法引入了。部分6显示实验结果和最后一部分是结论。

2。支持向量机

支持向量机是一种两级分类器描述如下(9]。让,表示一组数据包含训练样本。每个样本都必须符合标准。证明了一类相应的样品,。所以和表示输入数据的维数。分离超平面可以派生的如果存在这样的一个超平面,那么线性分离。最近的样品的分离超平面称为支持向量。在边界(支持向量),(1)改革根据(2为每个样本)(3)是正确的: 问题是发现和。有许多超平面可分离两种数据但SVM产生如图所示的最优超平面2。这个超平面的最大距离支持向量。分离超平面的边缘。如果我们想要找到最优超平面,我们应该最小化。为简单起见可以代替的与。所以我们正在处理一个优化问题。这意味着我们必须最小化接受(3)。

在图2线性可分的样本,但在大多数情况下他们是不可分割的表示在图一样简单2。对于非线性问题积极的松弛变量介绍了。问题变成了在(4)叫做惩罚因子。介绍了控制利润最大化之间的权衡和错误最小化。这个问题可以通过拉格朗日乘数法来解决。因此,分类决策函数在哪里是拉格朗日乘子。是通过一些另一个核函数映射函数,。QP解算器是用来发现。在那之后和可以通过在(7)支持向量的个数和吗是输入未知样本。

一些常见的内核函数线性:,多项式:,RBF:,二次:,在所有这些功能应该经过调优的。

3所示。粒子群优化方法

3.1。简略算法

粒子群优化算法进行首先提出了肯尼迪和埃伯哈特在1995年(10]。这种算法是由灵感的鸟类聚集和鱼类分组。事实上他们鸟类聚集机制用于解决优化问题。这意味着一群粒子在解空间搜索最好的解决方案。每个粒子都有一个位置、速度和内存保存其最佳位置从一开始的过程。在每个迭代中粒子的位置被认为是最好的领袖和其他粒子倾向于达到的位置。所以他们的运动是受两个因素影响:他们最好的位置从第一个迭代到当前迭代和领导者的地位。方程(8)和(9通过迭代)描述粒子运动: 在上面的方程中,是维的速度th粒子,表示粒子的位置,是迭代的数量,和正在学习因素,兰德是一个积极的随机数在0和1之间根据正态分布,是惯性权重系数,是最好的粒子的位置从一开始到当前迭代,然后呢在每个迭代中显示了领袖的位置。

3.2。多目标算法

在一个多目标优化问题很明显,有多个目标函数,进行优化,所以一个多目标优化问题可以定义如下11]: 在哪里是一个解决方案,,目标函数,,是问题的约束。简略的情况相反,我们无法找到一个单一的解决方案是最好的目标函数。相反,我们正在寻找一套解决方案。实际上有一个权衡不同的目标函数。所以在这种情况下最优的定义是不同的。我们称之为如果另一个解决方案,喜欢一个最佳的解决方案,无法找到更好的健身目标函数。这样一个解决方案是帕累托最优(前面的一员12]。我们说是由,如果比在所有目标函数。但是,如果只是在一个目标函数比吗,它是nondominated。所以在多目标形式我们有一组解决方案包含nondominated粒子。这意味着这组的成员不能支配对方。图3展示了以供应点函数前面帕累托最优的问题。根据这幅图帕累托面前主导其他解决方案的解决方案但不能支配对方。在MOPSO每个粒子都有一组的领导人,并选择其中一个通过一个机制。通常这组被称为外部存档(13,14]。外部存档包含nondominated粒子从第一次迭代。

实际上外部存档保存输出的算法。介绍了到目前为止的不同版本MOPSO。在这项研究中我们使用了一个介绍(15)由于其速度和快速收敛性。这种形式来选择一个领导者对于每个粒子,解决方案空间分为许多超立方体和从外部档案存在不同的解决方案在这些超立方体。

他们被放置在超立方体协调由目标函数计算。每个超立方体评估通过将其解决方案的数量划分为一个常数。后评估每个超立方体,轮盘赌机制将选择其中一个超立方体。最后一个解决方案,选择放置在选定的超立方体,随机粒子的领袖。MOPSO过程描述如下:(1)初始化每个粒子的位置和速度。(2)评估粒子。(3)储蓄nondominated粒子在一个存储库中。(4)生产超立方体覆盖解空间。(5)每个粒子的初始化的内存 (6)主循环(一)计算每个粒子的速度(8)(但这种形式应该被。(b)更新粒子的位置(9)。(c)评估粒子。(d)更新存储库。(e)更新为每个粒子。(7)主循环的结束。

4所示。人工神经网络

介绍了人工神经网络在1974年(16]。这个网络的目的是提取逻辑结果收到信息通过模拟大脑的活动使用类似的结构。事实上,人工神经网络是有组织的方式输入和输出之间的关系(可以复杂或非线性)保存在一个网络结构,因此能够分配相关的每个输入输出。在确定这些网络的结构组成,这种结构的组件修改基于大量对比网络输出和期望输出,所以这两个值之间的差别趋于0连续对比。在这个意义上,神经网络可以被认为是一个盲目的模型,能够执行映射(不一定是线性)从输入(向量)空间到输出(向量)空间。在本文中,我们使用了两个最广泛使用的人工神经网络,神经网络多层感知器(MLP)和径向基函数神经网络(RBF)相比,完全用最优支持向量机的能力。

4.1。多层感知器神经网络(MLP)

最简单的感知器神经网络包括三个(输入、隐藏和输出)层,如图4。在每一层的神经元数量是决定使用试验和错误的方法。这种神经网络的初始权重是随机决定的。误差反向传播算法用于训练神经网络的权值网络监督的方式改变基于神经网络输出和期望输出值之间的差异,因此,对于每一个输入,输出可以由神经网络生成。输入和输出模式是首先用一种规格化因素将规范化为了平衡训练过程改变的影响权重的网络培训过程。为输入模式,所有神经元的平方误差计算使用以下方程: 在哪里和分别是,期望输出值和计算输出的值吗th神经元的模式。总平方误差对所有模式也可以使用以下公式计算: 在下列方程代表了当前的体重,代表之前的体重,代表学习系数,代表的系数:

在这种方法中权重更新反复学习模式。培训过程停止当所有模式的总误差值达到一个值低于确定的临界点时,或者当整个学习周期到达最终点。值得注意的是这里提到的训练方法的误差反向传播方法的术语,降低协调的可能性在局部最小值相比,误差反向传播方法。

4.2。径向基函数(RBF)神经网络

RBF神经网络是一个流行的监督学习算法。它是一种特定的MLP网络(17]。RBF网络仅由以下三个层次,如图5:输入层。广播输入而不失真。RBF层。包含RBF隐层。输出层。简单的层包含一个线性函数。

基函数通常采取的形式。功能取决于之间的距离(通常是被欧氏)的输入向量和一个向量。最常见的基函数是高斯函数使用在哪里确定基函数的中心,是一个宽度参数,控制曲线是如何传播的。一般来说,这些中心选择使用一些模糊或nonfuzzy聚类算法。在这项工作中,我们使用了则算法在第一阶段选择初始聚类中心,然后这些中心是进一步调整通过使用点对称距离测量。在输出层神经元的个数等于分类问题的类的数量。每个输出层神经元计算的线性加权和隐藏层神经元的输出如下: 权重向量是通过最小化均方确定分类器输出的区别: 和目标值如下: 的参数是由(更多解释,见17]) 或因此计算后,我们获得

5。该方法

在本文中,我们使用MOPSO优化惩罚因子,选择适当的核函数,优化选择内核的参数,和两个目标函数,特征选择识别评分和可靠性,其性能与RBF和MLP神经网络相比。粒子的结构显示在图6。

第一个变量,用于调优惩罚因子。是选择核函数。这个变量的数量可以是1、2、3或4选择四个内核中引入内核之一部分2。选择所选内核的参数(线性除外)。其余的粒子特征选择。的数据集的特性,是在0和1之间。如果他们是小于或等于0.5,不是选择相应的功能。相反如果大于0.5,选择相应的功能。

如果我们认为这两个类是“积极”和“消极”,然后预测测试样品可分为四组:(1)样本是“积极的”,正确预测“正面”(TP)。(2)样品是“积极的”但是归类为“负面”(FN)。(3)样品是“消极”并正确地归类为“负面”(TN)。(4)样品的“负面”,但预测为“正面”(FP)。

根据这一分类,识别评分计算为每个类=和可靠性迭代的终止标准数量达到200。计算适应度函数,对于每个粒子,应该训练支持向量机的参数决定的,核函数,然后选择特性和识别评分和可靠性为每个类可以通过(23)(24)。我们使用one-versus-all多级分类方法。在这种方法中每个类的数据我们发现最优超平面,这区别于其他相应的类。因此输入样本标签是根据的意见获得超平面样本。图7显示了该方法在三级数据集。

6。实验结果

提出的方法应用于九个不同数据集从UCI机器学习库(18]。在表1这些数据集的特点。表2显示这些数据集上的实验结果,表3包含不同的方法的学习时间,表4显示了该方法的结果和不使用特征选择不同的数据集进行分类。


数据集	类的数量	数量的样品	数的功能

玻璃	6	214年	9
虹膜	3	150年	4
酒	3	175年	13
德国	2	1000年	20.
电离层	2	351年	33
声纳	2	208年	60
肝炎	2	80年	19
保柏	2	345年	6
元音	11	990年	13
心	2	270年	13


	玻璃	虹膜	酒	德国	电离层	声纳	肝炎	保柏	元音	心

MOPSO-SVM
识别评分	81.31	94.67	97.75	84.20	92.31	90.87	96.25	82.32	97.78	87.41
可靠性	92.94	97.93	One hundred.	89.89	93.99	90.85	92.095	82.06	99.89	87.3
支持向量机
识别评分	61.21	82.33	90.45	78.35	92.59	83.41	92.5	73.04	97.17	83.88
可靠性	94.64	98.45	99.65	79.57	92.98	87年	89.87	72.77	99.89	85.49
中长期规划
识别评分	82.78	98.54	98.42	89.86	96.44	93.76	92.76	87.94	77.6	92.8
可靠性	73.088	98.68	98.438	88.35	96.35	93.97	86.51	87.59	78.30	92.82
RBF
识别评分	81.76	96.92	81.58	91.5	90.02	94.72	94.78	88.12	99.12	83.7
可靠性	75.822	96.96	88.87	94.94	93.11	94.86	97.07	91.49	99.3	86.59


	玻璃	虹膜	酒	德国	电离层	声纳	肝炎	保柏	元音	心

MOPSO-SVM	0.64	0.204	0.224	0.635	0.184	0.084	0.0436	0.191	11.85	0.118
支持向量机	2.74	1.138	1.12	0.663	0.179	0.116	0.0423	0.148	8.60	0.135
中长期规划	22.17	2.14	2.06	37.84	2.24	3.43	2.12	4.93	38.13	2.33
RBF	5.27	3.55	4.08	21.17	11.28	5.98	3.005	3.78	18.9	6.21


	玻璃	虹膜	酒	德国	电离层	声纳	肝炎	保柏	元音	心

与特征选择
识别评分	81.31	94.67	97.75	84.20	92.31	90.87	96.25	82.32	97.78	87.41
可靠性	92.94	97.93	One hundred.	89.89	93.99	90.85	92.095	82.06	99.89	87.3
没有特征选择
识别评分	71.50	95.33	97.19	84.30	92.02	87.98	95年	81.16	96.06	84.07
可靠性	84.5	96.68	98.41	90.84	94.12	88.81	90.815	80.64	99.68	83.89

根据表2可以看出MOPSO-SVM给可比,也更好的结果比延时和RBF神经网络对玻璃、蝴蝶花、酒、电离层、肝炎、和元音的数据集。重点展示在表2为不同的数据集是可靠性给定的利率。显示在表2,该方法给出了高可靠性的数据集,这意味着提升分类器的输出强劲可靠。

事实上自从MOPSO获得的超平面有一个数量的测试样本的分类错误(未知样本),一些样品存在多个超平面将它们分配给相应的类。也可能会有一些样品,没有一个超平面将它们分配给相应的类。等样品被认为是错误的样品,不能区分他们的类。图8说明了这个概念。另一个点,显然从表2是MOPSO-SVM优于原来的SVM在大多数的实验。这意味着该方法自动发现的专家分类器最优支持向量机参数和最佳特征子集分类不同的数据集。应该注意的是,在所有的实验中不同核函数选择单一的支持向量机和大量的单一的支持向量机的识别评分和可靠性报告写在桌子上2的平均结果不同与不同的核函数支持向量机。

分析了数字表2,我们可以得出这样的结论:MOPSO-SVM是一个强大的和有效的分类器,由于可靠性和识别评分通过该方法对不同的数据集。这些数字表明,MOPSO-SVM是一个可靠的分类器,这意味着这提升分类器可以完全在特殊的应用,如军事和医学强烈需要一个高可靠分类器。表3包含不同的算法的学习时间。比较单一的支持向量机,MOPSO-SVM需要较少的时间在大多数实验中学习。这是特征选择的结果。事实上消除冗余特征的数据集的结果减少学习时间。该方法也不如MLP和RBF神经网络的学习时间。在表4的结果和不使用特征选择方法。根据这个表,特征选择过程提高了识别评分和可靠性的数据集。这意味着特征选择的过程是一种有效的预处理技术,不仅能够减少分类器的学习时间,还可以改善其性能。这是一个重要的问题尤其是在分类或聚类高维数据。从报道的结果,很明显,使用启发式算法来提高性能的两个目标函数的支持向量机是一个成功的主意,因为寻找最优参数的支持向量机对不同数据集也减少数据集的维数是一个艰巨的任务。例如声纳样本,60特性,存在2⁶⁰特征子集,所以很难找到最佳特征子集。此外找到最优的参数以提高SVM的性能是一个艰巨的任务。其实找到一个最优支持向量机最优特征子集是一个np难问题,用启发式算法可以解决。根据报告结果,MOPSO搜索解空间非常有效。

7所示。结论

在这项研究中多目标算法被用来优化支持向量机的参数,也为两个目标函数进行特征选择和该方法的性能(MOPSO-SVM)与单一的支持向量机相比,RBF和MLP神经网络。根据报告结果,可以看出,该方法给出了可靠性和识别评分,可比RBF和MLP神经网络,在重叠的数据集分类显示它们的有效性,甚至在某些情况下提供更好的可靠性和/或识别评分比RBF和中长期规划,例如,玻璃,虹膜,葡萄酒,电离层,肝炎,元音的数据集。该方法也就是减少学习时间在大多数的实验。此外根据表3和4特征选择是一个重要的预处理方法有积极影响学习时间和分类的准确性。

其实前一节所示的结果表明,使用启发式算法支持向量机从一个正常的分类器转换成一个专家一个是成功的。此外优化SVM为了增加其可靠性除了精度通过使用多目标启发式算法根据获得的结果是一个成功的想法。报告结果也显示的能力和有效性MOPSO搜索解空间。换句话说,MOPSO是一个强大的算法可以非常有效地解决多目标优化问题。

相互竞争的利益

作者宣称没有利益冲突。

引用

v . n . Vapnik统计学习理论的本质施普林格,纽约,纽约,美国,1995年。视图:出版商的网站|MathSciNet
C.-L。黄和C.-J。王”,一个遗传特征选择和参数优化的支持向量机,”专家系统与应用程序没有,卷。31日。2、231 - 240年,2006页。视图:出版商的网站|谷歌学术搜索
b . Samanta k . r . Al-Balushi, s . a . Al-Araimi“人工神经网络与遗传算法和支持向量机轴承故障检测,”人工智能技术的工程应用,16卷,不。7 - 8,657 - 665年,2003页。视图:出版商的网站|谷歌学术搜索
学术界。吴,G.-H。Tzeng Y.-J。咕,观测。方”,实值遗传算法优化参数的支持向量机预测破产,”专家系统与应用程序,32卷,不。2、397 - 408年,2007页。视图:出版商的网站|谷歌学术搜索
f . Melgani y坝子,“心电图信号分类支持向量机和粒子群优化,“IEEE在生物医学信息技术,12卷,不。5,667 - 677年,2008页。视图:出版商的网站|谷歌学术搜索
j . s . Sartakhti m . h . Zangooei, k . Mozafari“肝炎疾病诊断使用一种新颖的基于支持向量机的混合方法和模拟退火(SVM-SA)”计算机在生物医学方法和项目,卷108,不。2、570 - 579年,2012页。视图:出版商的网站|谷歌学术搜索
问:沈,W.-M。施,w .香港,B.-X。你们,”相结合的改进粒子群优化算法和支持向量机用于基因选择和肿瘤分类、”Talanta,卷71,不。4、1679 - 1683年,2007页。视图:出版商的网站|谷歌学术搜索
j·魏、z . Jian-Qi和z,“基于支持向量机的人脸识别方法和粒子群优化,“专家系统与应用程序,38卷,不。4、4390 - 4393年,2011页。视图:出版商的网站|谷歌学术搜索
c . j . c . Burges”教程对支持向量机模式识别,”数据挖掘和知识发现,卷2,不。2、121 - 167年,1998页。视图:出版商的网站|谷歌学术搜索
j·肯尼迪进行r·c·埃伯哈特,“粒子群优化”《IEEE国际会议上神经网络4卷,第1948 - 1942页,IEEE服务中心、珀斯,澳大利亚,1995年。视图:谷歌学术搜索
答:亚伯拉罕和l . Jain“进化多目标优化”进化多目标优化:理论的进步和应用答:亚伯拉罕和r·戈德堡,Eds。,Advanced Information and Knowledge Processing, pp. 1–6, Springer, London, UK, 2005.视图:出版商的网站|谷歌学术搜索
诉帕累托,课程d 'Economie政治,卷I和II1896年瑞士洛桑,胭脂,。
m . Reyes-Sierra和c·a·c·Coello”,多目标粒子群优化器:最新的一项调查,“计算智能研究的国际期刊,卷2,不。3、287 - 308年,2006页。视图:谷歌学术搜索|MathSciNet
m . Bhuvaneswari应用在集成电路和嵌入式系统的多目标优化进化算法施普林格,柏林,德国,2015年。
c·a·c·Coello和m . s . Lechuga MOPSO:多目标粒子群优化的建议,”美国国会对进化计算(CEC 02),页1051 - 1056,檀香山,夏威夷,美国,2002年5月。视图:出版商的网站|谷歌学术搜索
微积分,神经网络:一个全面的基础,麦克米伦大学,纽约,纽约,美国,1996年。
c . m .主教神经网络模式识别,牛津大学出版社,1995年。视图:MathSciNet
美国Hettich、c·布莱克和c·梅尔兹”UCI库的机器信息和计算机科学,”1988年,http://www.ics.uci.edu/ ~ mlearn / MLRepository.htm。视图:谷歌学术搜索

杂志上的优化

文摘