文摘
灵感来自于群体决策过程中,乐团或组合分类器被发现有利的各种各样的应用程序域。一些研究人员提出使用两种不同类型的分类的混合算法来创建一个混合的合奏。为什么这样一个整体的工作吗?这个问题仍然存在。在多样性的概念,这是成功的基本要素之一的乐团,我们为什么混合乐团工作的进行理论分析,使用不同的算法精度获得连接。我们也对分类性能进行实验的混合决策树分类器由总体和朴素贝叶斯分类算法,每一种都是一个高级数据挖掘算法通常用于创建不同类型的集合体。因此,在这篇文章中,我们提供了一个补充的理论基础创建和使用混合集合体。
1。介绍
整体学习的灵感来源于人类的群体决策过程,得到了太多的关注1- - - - - -7]。它是创建一个整体,这是一群分类,结合分类整体由这些分类器进行分类。集合体的优势不在于最好的组合分类器优于最好的分类器,但分类器的组合是不太可能比单个分类器分类看不见的数据样本。乐团已经显示出令人满意的分类性能在一个大规模的比较研究[8]。
整体学习已经应用于各种应用领域,如图像分类(9- - - - - -14[],指纹分类15,天气预报16),文本分类(17,图像分割18,视觉跟踪19),蛋白质折叠模式识别(20.)、癌症分类(21)、行人识别(22)或检测(23),预测的软件质量24,25],人脸识别[26)、电子邮件过滤(27),预测学生的表现(28),医学图像分析(29日- - - - - -32)、客户流失预测(33,情绪分析34- - - - - -37隐写式密码解密),(38],空气质量预测[39),和入侵检测40]。
从一个角度看,整体学习变得流行,因为每个分类算法都有自己的局限性。从另一个角度来看,如果每个分类器在一个专业的分类数据样本属于给定数据集的一部分,整体分类中所有(或一些)分类器相结合的整体可能更可靠。
分类器相比,独立工作,分类器一起工作将有一个更好的潜力得到更好的精度41]。不同分类器一起工作将有一个更好的潜力得到更好的精度比non-diverse分类器一起工作,建议在[42]。在创建一个集合,每一个分类器,将整体的一部分将充分准确,而分类之间的关系由两个分类器,将整体预计将小的一部分。
一些研究人员使用的混合不同类型的分类算法来创建混合集合体。例如,关于决策树组成的集合体和人工神经网络,兰登等人使用这样一个乐团在药物发现43];陆等人讨论抽样方法以及这些乐团为主动学习44];在[45),分析了混合集合体为二进制分类从偏见方差分解的角度提出在46]。此外,萨尔加多等人使用集合体的人工神经网络和支持向量机(47,48)预测每日电力负荷(49]。分钟,曹利用朴素贝叶斯分类器和支持向量机活动识别(50]。Verikas等人提供调查的混合集合体为破产预测(51]。此外,胆量和哈桑使用聚类和分类算法的集成创建混合集合体(52]。
大多数研究人员简单地使用混合乐团没有进一步调查。因此,我们计划有一个更好的理解混合集合体。我们的目标是不仅表明混合集合体的分类性能可以媲美甚至优于标价乐团,但也提供一个解释为什么混合乐团工作从多元化的角度来看。分类器之间的差异在一个合奏的成功起着至关重要的作用。一种类型的集成学习算法使用取样方法来生成不同的数据集用于训练不同的分类器,如装袋(引导聚合)53),而另一个类型相当特别,使用不同的分类算法训练不同的分类器,将被用于创建一个合奏。
我们创建混合乐团通过使用一个集成的两种类型的集成学习算法。分类算法,我们使用它来创建混合集合体C4.5 [48,54决策树和朴素贝叶斯(48]。我们提供实证比较这些混合的集合体和其他由使用装袋。本文特别重要,因为不少论文实证评估混合乐团,同时从理论上分析它们。
本文的其余部分的结构如下:我们提供背景信息和现在分析部分2。接下来,我们报告并讨论实验结果3。最后,我们给的结论部分4。
2。材料和方法
使用多个分类器在一个整体的目标是为了实现更好的分类性能结合从这些分类器分类,每个专家作为最优模型或数据集的一部分。这些分类器将不相关的和彼此独立的行为;或者,至少,他们需要显示不同模式的错误。
分类器之间的差异在一个整体与整体的成功,因为它可以弥补错误分别由这些分类器(55]。在本节中,我们分析的多样性和分类性能,例如,准确性,集合(即由使用一个算法。标价集合体)和混合乐团由使用两种不同的算法。多样性和准确性之间的关系“简单”(56]。一方面,结合分类的分类器低多样性不会提高整体精度,因为这些分类器的行为同样的部分数据集;另一方面,使用高度多样化的分类器来创建一个不能保证绝对精度高。许和斯利瓦斯塔瓦表明,使用不同的分类算法在一个整体可能会增加多样性和减少分类器之间的相关性在合奏57],他们构建多样性之间的联系和相关性,可以间接连接精度(58]。指的是使用的分析技术(59),我们建立一个更直接的多样性和准确性之间的联系,并进一步分析使用不同的算法来创建一个整体的影响精度;分析本文有别于之前的论文。
接下来,是一个维向量来代表一个数据样本,是二进制类标签或。是一个分类器,,在那里是一个分类的分类器。是一个分类算法。是一组数据样本。意味着是训练有素的运用在并用于分类,它返回一个二进制类标签。
描述的是什么(1)是一种通用的一个分类的分类器组合通过多数投票,使整体的分类。它可以被修改,它使用加权多数投票。在(1),是一个整体的分类器,整体是一个分类器,是一个数据样本,需要分类,然后呢是整体的分类。对于那些集成学习算法只使用不同的数据集训练不同的分类器,和对所有,在那里,包装就是一个例子。对于那些使用不同的分类算法和不同的数据集训练不同的分类器,对于一些(或者,在一些情况下,全部)和对所有,在那里,这是我们的兴趣
给定一个数据集和一组分类算法,我们创建一个混合的合奏训练的分类器,每个应用的算法中选择一种交流方式在一组数据样本来自引导抽样。这个过程算法所示1。而不是选择算法交替的方式,我们可以简单地随机选择,这样可以训练分类器在混合搭配使用的算法之一以相等的概率。从这,我们可以结合先验知识和分配不平等的概率不同的算法。
|
||||||||||||||||||
引导抽样方法的输入数据集,输出是一组数据样本的替代,。我们使用引导抽样时我们需要不同的数据集训练不同的分类器在创建了一个整体。分类器之间的多样性在这样一个完全来自不同数据集用于训练分类器,因此引导抽样单一发电机等多样性的一个整体。我们训练不同的分类器通过使用不同的分类算法,此外,这样我们有一个额外的发电机的多样性。
之后,我们现在为什么混合乐团工作分析的基础上,分析技术用于(59]。我们从下面的定义开始,和是一个测试数据样本的分类给出了一个分类器训练有素的运用在。
定义1。 是一个给定的数据集和是一组数据集生成与引导抽样。的th元素同样大小的吗;也就是说,。和作为训练数据集,在哪里。关于作为测试数据集,和,一个分类算法的多样性被定义为一个期望的分类器训练通过应用之间的分歧在和,鉴于 定义1描述了不稳定的一个分类算法对给定的数据集可能。定义2描述的程度不稳定(或不稳定)的分类算法。
定义2。基于定义1,一个分类算法是不稳定的对多样性,如果以下持有:
分类器之间的分歧是使用不同的训练数据集,这是一个类型的多样性。在(3),β是概率的下界,至少我们可以观察到不同意见吗α;越大α,更大的多样性。当α被视为一个常数,一个更大的价值β意味着一个更不稳定的分类算法。
我们使用过程下面估计算法的不稳定在一个数据集。这个想法是使用两个采样数据集训练两个分类器,然后测量分类的差异由两个分类器在另一个采样数据集。因为这些从相同的给定数据集,数据集分类上的差异主要来自于算法用于训练分类器。如果算法更加稳定和敏感的变化数据集用于训练,训练分类器将使更多不同的分类数据集,已被这两个分类器的一部分。过程返回的值越大,越不稳定的算法。
定义3。 是一个给定的数据集和是一组数据集生成与引导抽样。的th元素同样大小的吗;也就是说,。作为训练数据集,对吗作为测试数据集,,多样性两个分类算法和被定义为一个期望的分类器训练通过应用之间的分歧和在,鉴于 定义3描述了不同的两种分类算法可能在给定的数据集。定义4描述了不同的程度(或可微性)两种分类算法。
定义4。基于定义3,两种分类算法和是可微的对多样性,如果以下持有:
这里,从使用不同的分类算法分类器之间的分歧,这是一个类型的多样性。在(5),γ是概率的下界,至少我们可以观察到不同意见吗δ;越大δ,更大的多样性。同样的,当δ被视为一个常数,一个更大的价值γ意味着两种分类算法更不同。
我们使用过程下面估计算法的可微性的一对数据集。这个想法是使用两个算法和采样数据集训练两个分类器,然后测量分类的差异由两个分类器在另一个采样数据集。如果两个算法更可微的,他们会赚更多的不同分类的分类器训练数据集,已被这两个分类器的一部分。过程返回的值越大,越可微的两个算法。
我们表现出多样性和准确性之间的联系获得使用混合合奏下面的命题。
命题1。如果两个分类算法和是可微的,是不稳定,那么(6),之间的区别是混合的预期精度合奏和和预期的准确性与只标价合奏,分类器训练使用的准确性吗
关于(6),分类算法用于训练分类器在两个乐团,大部分和是用于训练分类器的分类算法在混合。当和被视为常数,我们可以观察到的概率的下界精度增益取决于不稳定以及如何不同和是这样的。如果更大,这意味着是更不稳定,更大,这意味着和更不同,下界的概率比较大;如果是小,这意味着是更稳定的,是小,这意味着和更相似,那么概率的下界是较小的,虽然这并不意味着观测精度增益的概率更小。结果,如果最算法用于训练分类器的混合系综是不稳定的,它不同于其他算法,那么更可能准确获得被观察到。此外,下界的准确性取决于不稳定是,不同的和,以及如何准确分类器训练和是这样的。如果分类器训练更准确,更大的下界精度获得更大。因此,它有利于取代一个标识符(或分类)在不同类型系综分类器(或分类)有不同的训练,然而准确分类算法。然而,它可能不是有利于替换所有,因为这样做会降低分类器之间的差异。
证明。
,,三个数据集生成与引导抽样从给定数据集。分类器,,训练运用分类算法在,,,分别。也就是说,,,。乐团由,,是一个标价合奏,因为它只有一个分类算法。分类器训练运用另一种分类算法在。也就是说,。乐团由,,混合搭配,因为这是两个不同的分类算法。
最初,我们代表的预期精度标价合奏(7),这是基于多数表决。接下来,是一个数据样本的类标签
同样,我们代表的预期精度混合合奏
之间的区别的预期精度混合合奏和不同类型的合奏或之间的区别(8)和(7)是用。它是在
接下来,(9)是重写为(10)通过重新安排其组件
等于,进一步组件=。此外,等于和的关系意味着。等于和的关系意味着,太。接下来,(11)得到:
在(11),第一个组件有关多样性和第二个组件与准确性。两个组件是独立的,(11)是写成
接下来,通过引用定义4第二部分(12)与,等于
因为和是可微的,(14)大于或等于与至少一个概率。相结合,被不稳定(14)得到:
最后,(15)是通过(14)和证明完成:
我们对待和常数,如所示的流程算法2和3。给出一个整体的分类器训练使用。我们替换一些分类器训练使用,通常提供了一个更高的准确性(Acc的价值2大于Acc1),下界的准确性获得将是积极的,这意味着我们可能会获得一个混合,可以实现更好的分类性能。如果是更加不稳定,将会更大。如果更重要的是不同的,将会更大。更大的和更大的,我们将观察到的概率的下界更好的精度。
3所示。结果与讨论
3.1。数据集
在实验中,我们使用20个数据集从UCI机器学习库(60),由学校的信息和计算机科学,加州大学欧文分校和部门统计,卡内基梅隆大学。使用公共数据集是允许的繁殖实验。
实验中使用的数据集从不同的应用程序域。他们的特点是总结表1,第一列是编号,第二列是一个数据集的名称,第三列是数据样本的数量,第四列是属于少数类的数据样本,第五列是名义上的属性的数量,第六列数值属性的数量,和括号里的数字属性与缺失值的数量。少数样本的比例会影响分类器的分类性能或者一个乐团,也缺少属性值的比例。的数据集通常用于回归分析,我们运用离散化目标属性和连续正确的属性值划分为两个间隔对应于一个类标签;这样一个数据集的后缀“二进制”。
3.2。设置
我们认为C4.5决策树和朴素贝叶斯分类算法。前者是用DT,后者用NB。我们考虑单分类器训练通过DT或NB,标价乐团训练DT和NB,和混合乐团训练DT和NB。
我们在算法实现的过程1通过使用WEKA [61年),我们比较了分类性能由乐团由它由装袋。乐团由使用装袋DT和NB标价乐团只有DT或NB。我们设置分类器的数量在一个合奏10套学习算法。我们用20×10倍交叉验证分类性能评价。也就是说,每一个学习算法和一个数据集,我们运行10倍交叉验证随机、独立的20倍。此外,我们研究不稳定和可微性。
3.3。不稳定
我们使用前面描述的过程估计算法的不稳定在一个数据集。我们集α0.05(通过统计公约)和试验的数量到100年。我们报告的结果表2。的内容在一个单元中显示的值的概率或分歧率大于或等于或0.05。分歧是由两个分类器训练通过应用该算法对应的列在两个数据集采样数据集对应于行。概率计算,参照100年试验。更大的价值越不稳定的数据集的算法。DT比NB 13日不稳定的20个数据集。这是符合一般认为决策树算法不稳定(或这是一个分类算法高方差),因此适合被用于创建集合体。不稳定的差值大于或等于0.5 4数据集:heart-c-binary,heart-h-binary,hprice-binary,声纳。结果清楚地表明,不稳定的结果不仅一个数据集的性质,而且分类算法的本质。
3.4。可微性
我们使用前面描述的过程来估计两种算法在数据集的可微性。我们集0.05(通过统计公约)和试验的数量到100年。我们报告的结果表3。的内容在一个单元中显示的值的概率或分歧率大于或等于或0.05。分歧是由两个分类器训练数据集上分别通过应用DT和NB的采样数据集对应于行。概率计算,参照100年试验。更大的价值,不同的数据集上的两个算法。根据表3,DT和NB不同或不同的19日20数据集;他们不是足够不同的数据集breast-w。决策树和朴素贝叶斯算法完全不同:例如,前者没有假设数据集,而后者假设属性之间统计独立;前者可获得数值属性,而后者可以应用密度估计数值属性;前者使用特殊治疗缺失值,而后者自然处理缺失值。
3.5。性能
我们报告的值在表精度4。结果表明支持这个想法,我们可能会获得更好的分类性能通过使用不同的分类算法来训练分类器的合奏。在表中,他是混合合奏,单元格的内容显示的平均值和标准偏差计算超过20分10倍交叉验证应用该算法对应的列与行相对应的数据集。一般来说,单个分类器相比,一个将显示稳定的分类性能,尤其是当底层分类算法是一个不稳定的车臣。我们可以看到这个事实的标准差都低于由单一分类器在大多数情况下。例如,在第一个数据集,生物医学DT的标准偏差为0.014,由装袋DT是0.009,这由混合合奏DT + NB是0.007。
在某些情况下,比如那些数据分布偏斜,准确性不是一个好措施分类绩效评价,虽然F1-measure是一个更全面的衡量。在表5我们报告F1-measure的值,精度和召回的调和平均数,属于少数类样本数据。更高的价值F1-measure意味着更好的分类性能。F1-measure少数是用来评估如何分类算法执行属于少数类样本数据,通常在大多数实际机器学习应用程序的目标。分类器或者一个可以实现低误码率仅仅通过分类所有样本多数类或简单地忽略少数样本上高度不平衡数据集。在表中,同样的,他是混合合奏,单元格的内容表示平均值和标准偏差。
评估的意义分类性能的差异通过两个算法,我们执行Wilcoxon测试,使用的非参数测试,推荐Demšar [62年]。我们报告的测试结果的准确性和F1-measure表6和7,分别。表中,B-DT意味着装袋DT, B-NB意味着装袋NB,同样他的混合搭配。表的内容在一个单元中显示的数据集,该算法对应的行明显赢(优于)和输(表现)算法在相应的列。例如,在表中6,第一个单元格显示决策树算法赢得10日在朴素贝叶斯算法准确性的数据集和数据集,9日它就失去了准确性的差异并不是重要的数据集1日;在表7,第一个单元格显示决策树算法赢得F1-measure朴素贝叶斯算法在18个数据集,它没有失去的数据集,而差异F1-measure数据集2日并不重要。
我们可以看到从表6的准确性,数据集的数量他DT + NB优于B-DT比他略小的DT B-DT + NB的表现;数据集的数量他DT + NB优于B-NB远远大于他DT + NB由B-NB表现。我们可以看到从表7F1-measure而言,结果是相似的,但他DT + NB优于更少。结果似乎反对创建和使用混合集合体。相反,结果表明,混合乐团超越单一分类器不确定性但概率问题,也是我们的分析所示。此外,在这篇文章中,我们打算解释为什么当混合乐团比标价集合体。
我们建议使用不同的分类算法训练更多不同的分类器,以创造更好的集合体。的基本思想是使用一个组合分类器自然减少方差和使用更强的算法来显式地提高分类性能。合奏创造的过程,我们建议是有区别的,因为它使用完全不同的分类算法来创建一个混合的合奏。例如,它使用DT,这通常是高方差(与高不稳定),和NB,这通常是较低的方差(低不稳定或高稳定性相关)。使用这种有悖于公认的组合分类算法,应该只使用高方差分类算法在一个像装袋。我们评估该过程通过使用不同的公共数据集和两个指标的集合。实验结果表明,该过程可以实现更好的性能相比,装袋。
3.6。讨论
有8个数据集的混合合奏DT + NB优于装袋DT和装袋注:生物医学,breast-w,credit-g,糖尿病,heart-c-binary,heart-statlog,肝炎,精神分裂症患者。根据表4朴素贝叶斯算法执行的准确性比决策树算法在这些数据集。因此,我们认为DT和NB,新引入的合奏和用作另一个发电机的多样性。这些数据集,我们总结下界精度增益和获得收益的概率表8。在表中,第二列(Acc1(Acc)和第三列2)从第二列和第三列在表4分别;第四列是第二列在表2;第五列是第二列的表3;第六个和第七列是下界的精度增益和的概率增益,分别计算了(6),或(15),因为是0.05,是0.05;第八和第九列第四和第六列在表4分别;第十列是他DT + NB和B-DT精度区别。根据表8在所有这些数据集,准确性差,或实际获得的混合合奏DT + NB装袋NB,大于下界;所有的概率很高,除了3号的一个数据集,breast-w,这意味着混合合奏DT + NB高度可能超越装袋DT(确实如此)。然而,下界太松(但它仍然是唯一一个到目前为止),和找到一个更严格的约束将未来的工作的一部分。
4所示。结论
整体学习训练分类器,然后将他们分类做一个整体的分类。许多研究人员使用的各个分类器由使用单一分类算法在各种应用程序。这些都是标价乐团,和为什么他们的工作变得更加清晰。一些研究者提出使用两种不同类型的分类算法的混合的混合。在本文中,我们调查为什么混合乐团工作,有点不清楚。我们提出我们的理论分析从多元化的角度来看,整体学习中起着重要作用,是成功的基本要素的集合体。这是最有特色的。我们也报告并讨论实验结果从总体效果混合分类器由决策树和朴素贝叶斯分类算法,每一个都是一个顶级的数据挖掘算法,通常用于创建不同类型的集合体。这是两个完全不同的分类算法,因此混合乐团创建有趣的是和他们在一起可以实现类似或更好的分类性能比标价乐团与他们单独创建。简而言之,我们有助于补充创建和使用混合集合体的理论基础。 The hybrid ensemble performs better not in a deterministic but a probabilistic manner. In a hybrid ensemble where two classification algorithms are used, if two are different and one is unstable while the other is more accurate, then there is a higher probability that we can have a higher value of accuracy gain; the gain is measured against an ensemble where only one of the two classification algorithms is used.
相互竞争的利益
作者宣称没有利益冲突有关的出版。