级联支持向量机与降维

文摘

介绍了级联支持向量机作为经典的扩展支持向量机,允许快速训练在大型数据集。在这项工作中,我们结合支持向量机与基于降维预处理。级联原则允许快速学习基于训练集的子集的划分和级联的结合学习结果基于支持向量在每个串级水平。结合与降维预处理导致显著加速,通常没有分类器精度损失,而考虑到低维的高维吊坠支持向量在每个新的级联的水平。我们分析和比较各种实例化的降维预处理和级联支持向量机与主成分分析,局部线性嵌入和等距映射。实验分析各种人工和实际的基准问题包括各种级联具体参数如中级训练集大小和维度。

1。介绍

大型数据集需要机器学习的发展方法能够有效地计算监督学习解决方案。最先进的方法分类的支持向量机(svm) [1]。但由于支持向量的立方运行时和二次空间学习模式的数量,他们的适用性受到限制。级联机器机器学习方法,将训练集划分为子集,以降低计算复杂度和使用的原则,将一个大问题分成更小的子问题,可以更有效地解决。支持向量机(的级联原则是非常成功的2),因为他们的学习结果(支持向量)等级可以用作以下培训模式串级水平。本文的目的是进一步显示,可以实现加速通过降维(博士)空间到太空与作为预处理步骤没有重大损失的准确性。在每一个级联的新型级联变体,我们将称之为极端级联机器(ecm),原来的模式(与原始模式维数)工作。上的支持向量的学习过程模式降低维数结果选择一组类似的支持向量像原来SVM学习过程与维度模式。提出结合级联的优点学习和降维过程,最后SVM也是训练模式的一个子集原始维数。因此,一个独立的测试集不需要映射到低维空间,才能ECM分类过程。

在这项工作中,我们提出的方法将训练集划分为子集,降低维数,采用级联的原则。结果取决于各种参数的方法,进行了实验分析。级联的杂交方法与博士方法属于成功的研究在监督学习DR-based预处理。同时,瀑布与整体方法有相似之处,结合多个学习者的学习结果和已被证明是强大的手段加强计算智能方法。例如,你们et al。3]介绍了基于最近邻居装袋算法与修剪合奏SVM分类。乐团也证明在其他应用程序像高维数据可视化与神经网络4]。

本文的结构如下。节2,新ECM的方法。这是实验分析部分3对训练集大小,参数的选择和各种博士的就业减少的方法。结论部分4。

2。极端的级联机器

在本节中,我们介绍了ecm的概念。它们是基于经典的级联svm的组合预处理博士。

2.1。支持向量机

svm分类超平面的数据空间分离模式不同的类。给定一组的观察到的模式与和相应的标签信息与在监督分类,任务是训练模型的预测未知模式的标签。支持向量机是成功模型等监督学习任务。它们基于利润最大化的一个超平面,区分不同类型的模式。双重支持向量机优化问题是最大化关于受约束和。一旦优化问题解决在许多场景的大多数模式与消失只有很少有。模式,,被称为支持向量。的分离超平面与这些支持向量定义: 支持向量满足,而躺在角落的保证金。与任何支持向量,我们可以计算以及由此产生的判别,这被称为支持向量机。一个SVM训练支持向量计算相同的判别函数SVM训练原始训练集,一个用于级联支持向量机的原理。提出了扩展的支持向量机,使学习与核向量机等大型数据集(5]。

2.2。级联支持向量机

典型的级联SVM (C-SVM) [2采用水平级联;也就是说,它将训练集划分为较小的子集,可以更有效地计算。把问题分成更小的子问题的想法来自,例如,通过雅各布斯et al。6]。最近,谢长廷et al。7)提出了一个分治法解算器表明支持向量确定的子问题的解决方案很可能支持向量整个内核的支持向量机问题,基于自适应聚类方法。

在C-SVM学习的第一步,一个中级训练集的大小和目标训练集的大小(对应于支持向量的最终数字)必须被定义。我们使用下面的级联变体;参见图1。训练集的模式与相应的标签分为子集的大小;也就是说, 与和。在第一次训练集SVM参数(内核类型、带宽参数,和正则化参数)与网格搜索和选择交叉验证,完整的支持向量机参数设置。这个最优参数设置用于支持向量机。

每个支持向量机返回支持向量作为学习的结果。在每个迭代中,训练集相应的支持向量集。这个过程停止,当最后的支持向量数量较小的或等于。结果支持向量集是最后一个支持向量机的基础,可以作为最终的估计量。

C-SVMs,减少运行时的第一级。类似的论点适用于所有后续的水平。加速可以增加了在多核机器上并行训练过程。然而,小瀑布训练集大小导致更大的支持向量集的每一层,因此更级联的水平。

图2说明了学习结果的C-SVM径向基函数(RBF)内核,将训练集的模式从XOR问题分为两部分。图2(一个)显示了RBF核函数的支持向量机的学习结果。图2 (b)显示了学习结果的支持向量机训练支持向量计算的支持向量机训练的上半年XOR数据集。相应的支持向量机训练与下半年的支持向量数据集如图2 (c)。图2 (d)显示的决策边界C-SVM训练与工会的支持向量集。数据显示,原始的SVM和C-SVM学习相同的决策边界。

(一)支持向量机训练模式

(b) SVM训练支持向量1的一半

(c) SVM训练支持向量的下半年

(d) C-SVM训练支持向量的两种支持向量机

2.3。极端的级联

通常,并不是所有的功能都是重要的有效解决分类问题;一些可能不相关的标签或冗余。减少的数量特性相关的子集在监督学习是一种常见的方法在机器学习(8,9]。Plastria et al。10)表明,适当的选择方法和数量的维度可以产生显著提高分类器的性能。

极端的级联模型,我们在这项工作中提出结合了级联与降维。算法1显示了ECM的伪代码的方法。每个博士的训练子集预处理导致减少维子集与。减少了训练集每个受支持向量机训练。支持向量机训练后维空间的模式相应的支持向量中间的支持向量机,收集到支持向量集。作为支持向量机训练时间取决于模式维数,减少值通常在计算时间加速。ECM是降维过程的假设认为大多数的高维数据空间和属性支持向量的集合的低维空间类似于支持向量集的高维数据。这个假设将在实验分析部分。

要求:训练集,,
()简历/网格搜索
()重复
()为来做
()选择训练集
()降低维数
()获得支持向量
()训练支持向量机
()(吊坠)
()结束了
()
()直到
()训练支持向量机在
()返回 ,支持向量机

最后一个最后训练集训练吗组成的模式对应于最后一个级联的支持向量水平。ECM雇佣了许多参数可以定义完整的ECM模型,从博士选择和目标维度博士方法参数和SVM参数比如内核类型,带宽参数,和正则化参数。的一些参数分析了以下实验的一部分工作。

3所示。实验分析

在下面,我们分析ECM变异实验集中于主成分分析(PCA) (11(ISOMAP)[],等距映射12,局部线性嵌入(米歇尔)[13对预处理)。

3.1。支持向量分析

我们开始实验部分的分析假设的支持向量学习支持向量机在低维空间是相同的作为SVM学习支持向量在高维空间中。图3显示的比例共同支持向量的支持向量机和支持向量的个数SVM在高维空间维数不断增加的低维空间。一个曲线显示了平均、最大、最小比例20分的新实例MakeClass数据集(cf,附件为详细描述)增加。蓝色曲线结果少结构化MakeClass的实例,而红色曲线采用更丰富的功能。正如预期的那样,我们可以观察到的比例共同支持向量的维数增加到一个低维空间是达到的比例仍然是吗。达到这个状态之后,随着越来越多的支持向量是必要的数据集,采用更丰富的功能和更少的冗余。

3.2。参数分析

ECM的方法取决于参数的正确选择。我们分析PCA-ECM图参数设置4(一)在MakeClass [14]数据集,,。支持向量机参数和RBF内核,我们采用5倍交叉验证下面的实验。情节显示精度和训练时间与不同的设置,,。我们可以观察到所有ECM变体隔的准确性和。取得了最高的精度与设置最快,而精度高的运行实现了设置,,。这个级联的选择是比较敏感的。类似的比较如图4 (b),LLE-ECM ISOMAP-ECM变异与各种设置MakeClass数据集进行比较。结果表明,ISOMAP更快的预处理方法,常常达到很高的精度,但在同一时间不如米歇尔,健壮的参数一样糟糕的选择可能导致相对较低的分类精度。

(一)PCA-ECMs,

(b)米歇尔ISOMAP-ECMs,

仔细看看米歇尔和ISOMAP变体,表1显示运行时和均方误差(MSE) MakeClass数据集的结果,,和ECM设置和。各种设置社区大小米歇尔和ISOMAP目标维度在韦茅斯的总部工作。结果表明,该方法是更小更快产生影响,更重要的是比米歇尔ISOMAP。令人惊讶的是,我们可以观察到的趋势更好的精度,如果更小的值在韦茅斯的总部工作。这可能是由于这样的事实,多方面的学习过程是被迫把精力集中在最重要的特征的数据集,在更高的维度引入噪声的分类问题。最好的结果(最高精度最佳运行时)通过ISOMAP了设置和。


博士	ISOMAP						米歇尔
	10		20.		30.		10		20.		30.


10	0.03	46.88	0。02	67.17	0.03	138.60	0.03	156.78	0.02	171.14	0.03	171.80
20.	0.03	48.01	0。02	66.41	0。02	96.00	0.03	170.64	0.03	184.79	0.03	186.10
30.	0.04	94.43	0.03	65.01	0.03	91.91	0.04	177.35	0.03	184.00	0.03	183.21

典型的开发支持向量的数量在一个典型的运行如图5(一个)。支持向量的个数减少大约线性连续的级联过程中水平。图5 (b)显示了一个运行时比较SVM和ECM MakeClass训练集规模的增加,和ECM设置与和。支持向量机的训练时间是指数级增加,而ECM训练时间增长适度。例如,ECM年代和支持向量机利用训练集的大小。

(一)PCA-ECMs,

(b)支持向量机在训练集规模的不断扩大和ECM培训时间

3.3。基准数据集

随着PCA-ECM最快的ECM变体与强大的精度,我们专注于比较PCA-ECM, C-SVM,和标准的支持向量机在更大的基准数据集;见附件,在下面。基准数据集包含的四个分类问题MakeClass, Hastie,脸,和斑点。弗里德曼的问题1,弗里德曼3,风是回归问题。表2显示了测试误差(归一化均方误差)在训练集训练后实现了一个独立的测试设置和运行时(runtime取决于机器(2.7 GHz Intel Core i5)、操作系统(苹果OS X)和(Python编程语言和包SCIKIT-LEARN))三种分类器的训练和测试阶段。级联分类器PCA-ECM和C-SVM使用的设置和;PCA-ECM使用指定的潜在空间维度。这些参数被发现在手动和自动调优过程(与网格搜索),但我们试图利用类似的设置parameter-independent得出结论。


问题	参数			PCA-ECM		C-SVM		支持向量机
问题

MakeClass	5	1000年	5000年	0.041	12.930	0.037	25.960	0.022	72.048
黑斯蒂	2	500年	1000年	0.025	18.095	0.036	8.154	0.002	46.762
脸	5	200年	600年	0.145	2.151	0.165	3.899	0.140	3.930
斑点	5	1000年	5000年	0.194	8.287	0.468	16.575	0.190	50.469

弗里德曼1	5	1000年	5000年	0.077	45.570	0.078	40.057	0.051	357.690
弗里德曼3	3	1000年	5000年	5.134	32.940	5.110	58.915	3.403	910.852
风	2	500年	1000年	9.533	29.118	9.599	37.035	8.787	87.607

MakeClass基准的问题是一个人工数据集与设置信息之间的平衡和冗余特性和训练集的大小与。PCA-ECM是最快的变体,而经典的支持向量机是最慢但达到最低的错误。PCA-ECM达到一个更大的错误。的准确性辍学PCA-ECM可能是可以接受的(的准确性,来),当考虑到PCA只需要支持向量机的运行时。Hastie数据集是一个人工数据集从Hastie et al。8),与和,这不是高维,但大。在这里,支持向量机仍然是最快的分类器,但当我们比较PCA-ECM和C-SVM情况变化。现在,PCA-ECM更快,但C-SVM达到降低试验误差。

脸,PCA-ECM达到精度高于C-SVM但略比经典的支持向量机。虽然支持向量机已经快,PCA-ECM稍快。blob数据集,DR-based预处理似乎重要C-SVM完全失败,虽然PCA-ECM达到很好的结果,几乎一样好经典的支持向量机。后者是比PCA-ECM慢约6倍。回归的数据集,可以得出类似的情况。PCA-ECM达到误差低于C-SVM弗里德曼1。虽然SVM更好,它需要近6分钟计算的解决方案。弗里德曼3,情况是相似的。支持向量机实现最低的误差比级联变体,但是需要更多的时间只在精度稍差。风数据集,一个类似的观察可以这样弗里德曼1,Hastie,脸,和斑点。 The DR process introduces an advantage in accuracy and also in runtime. Taking into account all seven benchmark data sets, we can observe that the SVM always achieves lowest test error but requires the longest training and test time. The cascade variants are always faster than the classic SVM with the expected tradeoff concerning the accuracy.

4所示。结论

ecm允许应用程序支持向量机的大型数据集通过级联的训练集,同时减少模式的维度。我们实验分析快速变异,是基于预处理博士和C-SVMs,特别是PCA-based ecm集中参数中间和最终的级联训练集的大小。这两个参数有显著影响最终的分类结果。进一步比较博士的方法预处理表明ISOMAP优于米歇尔的运行时。大多数级联变异导致快速训练过程,同时保持相同的分类器精度或只有略微减少支付的准确性。中间的计算可以并行svm在每个层面上,分布到多个核允许进一步显著加速。这将是未来的调查。进一步说,一个广泛的核心支持向量机相比,达到加速基于近似使用最小包围球(5),将允许一个严格的比较大型数据集的支持向量机。

附录

基准问题

在以下,采用基准数据集不久被描述。我们使用一个数据集的大小最后采用测试集的模式。(我)MakeClass分类数据集(,,)生成的SCIKIT-LEARN(14)方法make_classification与尺寸和两个中心。结构决定了比信息功能;剩下的是多余的。(2)数据集Hastie (,,)生成二进制的数据分类和受雇于Hastie et al。8]。它可以生成SCIKIT-LEARN(14]方法make_hastie_10_2。(3)面临的数据集在野外标记的脸(15)(,,),介绍了为研究人脸识别问题。数据集源http://vis-www.cs.umass.edu/lfw/。它包含了JPEG图像从互联网上收集的名人。的脸贴上图片中人物的名字。(iv)高斯blob数据集(,,)生成SCIKIT-LEARN(14)方法make_blobs和下面的设置。两个中心,即两个类,生成,每一个标准差和变量。(v)弗里德曼1 (,,)是一个回归的数据集的生成SCIKIT-LEARN(14)方法make_friedman1。回归问题引入了(16弗里德曼),引入了多元自适应回归样条函数。(vi)弗里德曼3 (,,)也是一个回归的数据集SCIKIT-LEARN(14),可以生成make_friedman3。(七)风数据集(,,)是基于时空的时间序列数据的国家可再生能源实验室(NREL)西方风整个数据集包括时间序列数据集。32043年的风力涡轮机,每十个MW发电机在三年的时间间隔分钟的决议。维数是。

利益冲突

作者宣称没有利益冲突有关的出版。

承认

作者感谢NREL风力数据集的出版他的实验比较。

引用

v . n . Vapnik统计学习理论的本质施普林格,纽约,纽约,美国,1995年。视图:出版商的网站|MathSciNet
惠普伯爵,e . Cosatto l . Bottou Dourdanovic,诉Vapnik,“并行支持向量机:级联的支持向量机”先进的神经信息处理系统l . k .扫罗、y维斯和l . Bottou Eds。,卷。17,pp. 521–528, MIT Press, Cambridge, Mass, USA, 2005.视图:谷歌学术搜索
r .你们,z, p . n . Suganthan“再装袋SVM修剪,”《IEEE整体学习关于计算机智能的研讨会(天蓝色的13)2013年4月,页25 - 30、新加坡。视图:出版商的网站|谷歌学术搜索
n Gianniotis和c . Riggelsen高维数据的可视化,使用神经网络的一个整体,”《IEEE整体学习关于计算机智能的研讨会(天蓝色的13)2013年4月,页17-24、新加坡、。视图:出版商的网站|谷歌学术搜索
i . w . Tsang j·t·郭,下午。张,“核心向量机:快速SVM训练非常大的数据集,”机器学习研究杂志》上》第六卷,第392 - 363页,2005年。视图:谷歌学术搜索|MathSciNet
r·a·雅各布斯约旦,s . j·诺兰和g·e·辛顿,“自适应当地专家的混合物,神经计算,3卷,不。1,第87 - 79页,1991。视图:出版商的网站|谷歌学术搜索
C.-J。谢长廷、s . Si和i . s . Dhillon”内核支持向量机,分治法解算器”机器学习的国际会议(ICML 14),第574 - 566页,2014年。视图:谷歌学术搜索
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素,施普林格系列统计,施普林格,纽约,纽约,美国,第二版,2009年版。视图:出版商的网站|MathSciNet
刘张j .严b: et al .,“有效和高效的大规模和流媒体数据的降维预处理,”IEEE工程知识和数据,18卷,不。3、320 - 332年,2006页。视图:出版商的网站|谷歌学术搜索
f . Plastria, s·d·Bruyne和e . Carrizosa“降维分类,”先进的数据挖掘和应用程序卷,5139在计算机科学的课堂讲稿施普林格,页411 - 418年,柏林,德国,2008年。视图:出版商的网站|谷歌学术搜索
Jolliffe,主成分分析,施普林格系列统计,施普林格,纽约,纽约,美国,1986年。
j·b·特南鲍姆诉de Silva, j·c·朗格弗德”全球几何非线性降维,框架”科学,卷290,不。5500年,第2323 - 2319页,2000年。视图:出版商的网站|谷歌学术搜索
s . t . Roweis l . k .扫罗,“通过局部线性嵌入非线性降维,”科学,卷290,不。5500年,第2326 - 2323页,2000年。视图:出版商的网站|谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在Python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。视图:谷歌学术搜索|MathSciNet
黄g·b·m·拉梅什t·伯格和e . Learned-Miller”标签面临在野外:数据库为研究人脸识别在不受约束的环境中,“技术。众议员07-49马萨诸塞大学阿默斯特,质量,美国,2007年。视图:谷歌学术搜索
j·h·弗里德曼,“多元自适应回归样条函数”,统计年报,19卷,不。1、1 - 141、1991页。视图:出版商的网站|谷歌学术搜索|MathSciNet

应用计算智能和软计算

文摘