文摘

系综分类器提高分类精度,通过融合决策的组件分类器。基本上,创建一个分类器有两个步骤:一是生成基分类器,另一个是使基分类器来实现最大的整体精度。创建系综分类器的一个主要问题是组件分类器的分类精度和多样性。在本文中,我们提出一个分类器生成算法来提高一个分类的准确性和最大化其组件分类器的多样性。在该算法中,引入信息熵测量组件分类器的多样性,和循环迭代优化选择策略应用于从基分类器选择组件分类器,组件分类器的数量是动态调整系统成本降到最低。这是证明我们的方法具有明显的降低内存成本较高的分类精度与现有分类器的方法。

1。介绍

汉森和班子提出的整体方法首先优化神经网络(1]。众所周知,一个学习模式通常比一个更准确的学习模式(2- - - - - -8]。根据辛格的作品,分类器组合是现在广泛应用于机器学习和模式识别领域,例如文本分类、语音识别、地震波分析、通信网络和在线事务日志分析(9]。整体学习而不是构建一个整体系统,用于构造的学习者和他们在一个聪明的方式合并成一个整体系统。在动态数据流分类的研究领域,集成学习已经成为热点[10]。

最近,许多研究提出各种分类器特别是在数据流挖掘的领域(11,12]。应对概念漂移,一些发表论文关注动态权重机制。王之前,厂商和在线Pineau提出提高算法在线合奏算法,可以实现类似传统的提高与简单的基础模型的准确性(13]。坦南特等人提出了一个实时数据流分类器解决重叠的大数据分析的速度和体积方面,这是自适应概念漂移(14]。

这些系综分类方法具有良好的稳定性和能克服数据流分类的一般概念漂移的现象。然而,没有证据表明一个分类器系统有更多的单基本分类器比系综分类器系统用更少的基分类器。有时,分类器融合方法创建大规模的分类器,需要大量的内存和计算资源,导致效率低下。周为了解决这个问题,提供了有价值的景观多样性指标,可以利用学习者的选择一个子集构成最终的合奏(15]。这是证明系综分类器以更大的多样性有更强的泛化能力。然而,Bi表明分类的准确性不是强烈与多样性;在某些情况下,这种关系是消极的16]。罗提出self-adapted分类器集成方法与粒子分类信息,考虑两个系综分类器的准确性和多样性(17]。在这个模型中,粒子分类信息被用来标志着学习效果,和加权准确性和多样性的产品是基于分类器的选择标准过滤器C-Lib命名。因此,是否多样性与整体性能仍不清楚。

在本文中,我们提出一个方法生成系综分类器通过测量基分类器之间的差异,提出增量分类算法组件分类器的多样性以及最大化最小化一个分类器的系统成本。我们验证与其他传统方法在数据流挖掘算法,表明该模型是有效的和有前途的。

2。材料和方法

2.1。系综分类器的多样性

一个分类器的多样性的差异基本分类器,并与高多样性意味着complementariness一个分类器。根据以前的工作,由一个分类器分类错误数据可以由其他人可能正确分类,导致更高的整体性能和更好的稳定性的一个分类器和几个不同的基分类器比单个分类器(18,19]。

1(一)提出了两个线性分类器之间的多样性与不同的数据分布在一个分类器。假设数据集,数据集B是数据集从两个不同的类,和数据分布是用两个异常曲线。线性分类器p和线性分类器两种选择的基分类器的一个分类器,训练的测试数据集。正确分类数据的线性分类器p用区域标记双杠:S1和S2的地区。正确分类数据的线性分类器用区域标记垂直酒吧:H1。很明显,仍有许多空白区域没有校正和两个线性分类器之间的多样性不高,导致无效的系综分类器。

假设我们选择另一个两个基分类器,线性分类器和线性分类器j结合在一起,这是一个分类器相同的数据分布在图1(一)。图1 (b)显示一个更好的分类结果。更多的数据被正确分类如图所示区域的S1′, S2′, H1′, H2”。与这两个系综分类器相比,它是指出,整体线性分类器与基分类器集(,j)明显优于整体线性分类器的基分类器集(p,),这可能属性基分类器的选择和优化(20.,21]。

在数据流挖掘,数据集的分布随时间迅速变化。在图1 (c)变更数据集,数据集数据集M和N两个典型的数据流数据集,和合奏的基分类器分类器是相同的。建议的比例空白区域图1 (b)增加和系综分类器的准确性(,j)数据集(A, B)小于数据集(M, N)。这种分类性能远动力流数据挖掘的要求。因此,相同的系综分类器的多样性可以不同的数据集时改变。多样性测度方法尤为重要,在分类器组合优化更好的选择决策支持,以及计算资源消耗低,特别是在数据流分类器。

进一步,假设另一个基地线性分类器E添加到系综分类器在图1 (b)。如果所有的数据在数据集,数据集B可以正确分类的新乐团分类器与E没有空白区域,这样的系综分类器被认为是最好的系综分类器和总体分类精度的多样性呈正相关。相反,如果大于空白区域,如图1 (b),新系综分类器的性能与另一个基分类器F是低和基分类器之间的多样性与系综分类准确性负相关。

2.2。系综分类器的多样性测度方法

多样性的团队成员分类器被认为是一个关键问题的分类器整体的问题。不幸的是,多样性度量并不是简单的因为没有公认的定义14,22- - - - - -24]。根据茹科夫et al。11),系综分类器的多样性测度方法可分为两类:成对测量和nonpairwise措施。成对多样性措施强调局部最优计算平均(dis)所有可能对个体分类器之间的相似性度量合奏,如Q-statistic和相关系数。Nonpairwise测量强调全球最佳,它通常计算统计使用熵的概念或使用(dis)之间的相似性度量单个分类器和平均分类器(25- - - - - -27]。两种方法准确性和多样性相结合在一起。

相关概念定义来描述这两种类型的多样性措施如下:让 是一个训练数据集与M标签不同的类, 来自于分类问题。让 是一组基分类器, 一个n维二进制向量,向量C= {1,2,…,M}类标签集。假设 是一个从数据集训练数据样本吗Z, ={A1, A2,…,,Cj},望见年代特性值和一个类标签值Cj属于C。分类器的输出基地 来标示 ,如果D分类 类正确,0;否则, 由一个N维二进制向量 因此,输出矩阵 ,包括所有训练数据集的分类结果Z和基分类器组D。让DDk是一对基分类器D;它们之间的关系可以被描述为表1

Nab意味着大量的训练数据可以正确分类的基分类器D,Dk与否。例如,N10代表了大量的训练数据样本正确分类的基分类器D,这是不正确的分类Dk。表的概念混淆矩阵。训练数据集的大小ZN很明显,N=N11+N10+N01+N00,两个常用的多样性的措施将得到如下。

根据圣诞的Q -统计,两个基分类器之间的差异DDk可以通过方程计算: 在哪里Nab元素的数量吗 Z (见表1)。 −1和1之间的范围;分类器,分类更常见的对象正确积极的价值。在合同中,那些更多的对象进行分类到不同的类会导致负的价值。如果两个基分类器是统计独立的,的期望 是0 (6,28]。

两个基分类器之间的相关系数可以计算如下: 范围为 ,他们有相同的变化趋势。它可以证明 (10]。这种比较,多样性的措施统计比这更准确和敏感的相关系数。

除了这两个成对的多样性,还有许多其他方法。分歧测量和双发失误是两种受欢迎的措施。处理数据流的系综分类器、成对多样性测量是一种有效的方式逐步调整基分类器的数目。然而,本文nonpairwise多样性措施适用于处理数据流分类器集合,因为nonpairwise措施可以保证全局最优学习系综分类器在分类器。在这篇文章中,信息熵是纳入多样性的措施。熵的定义是衡量信息理论的不确定性;熵值越大,信息不确定度越小,反之亦然。信息熵可以用于nonpairwise分类器的多样性措施通过熵的变换。

对于一个数据样本 , ,基分类器的输出的训练数据 如果 成功地分类,D, ,否则为0, 如果输出 l基分类器 是相同的(0或1),左边的输出 l基本分类器替代值,最高分类器之间的差异 如果所有的 的值l基分类器是相同的,0或1,没有基分类器之间的分歧,出现的最低分类器之间的差异 N训练数据,基于信息熵的多样性的测量以下方程:

在方程(3), 表示数量的分类器D相同的输出值yij熵,E在0和1之间变化,其中0表示没有区别,1表示最高的基分类器之间的差异在d .数据流挖掘的上下文中,E = 0意味着最低的基分类器之间的差异,和系综分类器中基分类器的数量可以减少由于合理的分类器效果。相比之下,E值接近1意味着分类器的多样性高;几个新基地的系综分类器分类可以添加到更好的分类效果。基于上面的概念,我们设计一个基于信息熵的增量分类算法多样性措施优化系综分类器数据流处理的有效性。

2.3。基于信息熵的增量分类算法多样性的措施

一个典型的数据流处理流程图如图2。中输入一个数据流增量集成分类器不断按时间顺序。数据流根据时间和处理时间粒度,是基于不同的需求。例如,博客数据流频繁变化所以罚款时间粒度是必需的。然而,信用评级数据流,大颗粒可以被接受。

的时间(tf][t),系综分类器ltf处理数据在到达f倍周期,而当时(t),该模型将逐步更新新的系综分类器lt在处理数据(t][t+f]。为了让一个模型,以防止概念漂移在处理数据流时,增量过程是必要的,这可以通过在每次迭代更新的过程模型。

花时间(t例如,训练数据集lt主要由带安全标签的数据时,它已经被系综分类器分类ltf在[tf][t]。首先,基分类器是通过选择标签的训练数据集生成的分类算法。第二,选择一定数量的基分类器结合增量集成分类器lt在时间的t]。基分类器在新的系综分类器选择从整体新学习分类器和旧的分类器。选择是基于两个标准,测量的准确性和多样性,改变了信息熵。一方面,我们使用精度作为标准删除基分类器分类性能差。另一方面,多样性则是用来调整基分类器的数目达到全局优化增量系综分类器(29日- - - - - -31日]。

2.4。Incremental_SEM算法

最重要的过程生成增量集成分类器是选择最合适的分类器的精度和一个合适的分类器的数量。本文基分类器的基本策略选择是整合信息熵度量的循环迭代选择算法中,随着精度性能数据。基分类器选择算法的伪代码提出的增量分类模型的算法1Incremental_SEM。

输入:
通过系综分类器训练数据集和标签lt−f;
区间阈值分类多样性:(一个,b];
迭代次数(每个迭代创建一个新的基分类器:k)
系综分类器在一段(tf t]:lt−f;
输出:增量系综分类器lt在时间t
(1) 开始
(2) 循环
(3) 计算多样性的价值λ0系综分类器lt−f;
(4) 如果
(5) = 1,k
(6) 抽样从标签数据集训练数据段(t−f,t),lt−f;
(7) 分类器生成一个新的基地l;
(8) 添加llt−f;
(9) 计算出多样性的价值λ1;
(10) 如果
(11) lt=lt−f;
(12) 返回lt
(13) 结束了
(14) 其他的如果
(15) 计算每个基分类器的精度lt−f;
(16) 基分类器在降低精确度baselist;
(17) 删除一些成员基分类器精度最低的lt−f;
(18) 更新lt−f;
(19) lt=lt−f;
(20) 返回lt;
(21) 其他的
(22) lt=lt−f;
(23) 返回lt
(24) 如果
(25) 打破;
(26) 结束循环

Incremental_SEM使用循环迭代优化选择方法来最大化信息熵差和动态调整系综分类器的数量。算法的关键部分在于间隔的设置阈值分类多样性,应根据不同的应用程序。自初始化和预处理部分是一样的传统方法处理数据流,它是跳过。从计算机系综分类器的多样性lt−f,我们比较其值区间阈值根据比较和采取不同的行动(第3行)。如果该值高于区间的上限阈值,产生一个新的基地分类器并将其添加到系综分类器。再计算一个新的系综分类器的多样性,直到多样性位于区间阈值(42行)。如果该值低于下限的区间阈值,计算每个基分类器的精度和踢出最低的基分类器精度(14 - 19行)。否则,如果该值位于区间阈值,它不需要更新的系综分类器下次阶段(研讨会行)。

3所示。结果

本节列出了实验来评估算法的性能数据流分类。基于跟踪的仿真方法被用来评估和比较算法的性能与其他基线算法。

3.1。实验数据

该算法在蒸汽由大规模在线生成的数据评估分析(农业部)系统。恐鸟是一种软件环境实现算法和运行实验从演化数据流在线学习。我们选择以下流生成器来生成数据。(我)超平面发生器产生一个预测一个旋转的超平面的类的问题。HP1和HP2超平面生成器生成的数据流噪声实验中的数据为5%。(2)随机树生成器生成一个随机的径向基函数流。它构造决策树,通过选择属性随机分割和分配一个随机类标签每片叶子。RT1也和RT2随机树生成器生成的数据流数量与标签属性和属性。(3)海生成器生成海概念功能。这个数据集包含突然概念漂移。SEA1海生成器生成的数据流与5%噪声数据和概念漂移。(iv)错开发生器产生交错由Schlimmer介绍了函数的概念。干系人是由交错的发电机。

详细描述实验数据流算法所示1。由于无限数据流的性质在实际环境中,它是不容易做的模拟实验。大量的数据被用来模拟无限数据流,每个数据集的实验数据大小表的第2栏所示2

3显示每个数据集,帮助理解数据的散点图更直观。因为每个数据集的体积很大,部分数据被选中图中所示。通常,一个降维预处理数据集所需的操作。如图3,它可以发现每个属性是非线性的相对论。

3.2。实验设置

开源矿业软件WEKA,被用来实现系综分类器算法。基线算法在Weka朴素贝叶斯、序列最小优化(SMO) J48是构建决策树C4.5的实现,IBk的实现KKstar最近邻居算法(资讯),是一个基于实例的分类器,NNge,部分,构建一个“部分”C4.5决策树在每个迭代中,使“最好”的叶子变成规则和大气气溶胶(32,33]。的算法如表所示3

计算机与1.73 GHz杯和2 G内存用作实验计算机,安装操作系统Windows XP。为了研究该方法的有效性,实验设置比较Incremental_SEM装袋和演算法在不同的数据集。在所有搭配方法,决策树作为基分类器。3.6基于WEKA, WEKA的决策树构造方法J48库,选择生成基分类器的默认参数设置(10]。每个系综分类器的性能评估使用分层10倍交叉验证过程中,原始的数据集的大小是随机分割成了相等10次级样本和每个折叠包含类标签的比例大致相同。实验设置如下:装袋和演算法的参数保持在Weka的默认值。整体大小可以被视为hyperparameter合奏的方法。它可以通过交叉验证调整或使用一个独立的验证集。它也可以被认为是一个指标的操作的复杂性。Incremental_SEM,不同的信息熵的间隔设置六个生成的数据集,HP1区间[0.21,0.43],HP2 SEA1,干系人[0.63,0.85],[0.46,0.69]RT1也和RT2。

3.3。结果和分析

如图2,f设置的时间间隔的增量式模型处理数据流分类器是每个时期的调整。对于每一个算法,目前的系综分类器的精度计算在每一个时期。我们从两个方面:验证算法分类精度和系统内存成本。假设在时间t,系综分类器基分类器;每个基分类器分类精度 在总体分类精度:= (一个1 +一个2 + +)/ m。系综分类结果数据集的算法1如图4

在图4(一),很明显,Incremental_SEM算法的准确性略高于装袋算法和他们两人明显高于单一算法相比Incremental_SEM算法的实验结果与数据集装袋和单分类器HP1 RT1也在10秒的时间间隔值。然而,Incremental_SEM算法的执行时间和装袋长于单一分类器,主要是因为多样性在Incremental_SEM计算耗时。此外,为了测试内存成本而增加熵系综分类器的多样性,Incremental_SEM与传统的增量算法,装袋,没有多样性测量研究。实验结果如表所示4平均分类精度(ACA)和平均系统内存成本(ASM)。

在图4 (b),指出Incremental_SEM分类精度学习演算法几乎是一样的,他们都是高于单个分类器在比较Incremental_SEM HP2演算法分类算法在数据集和RT2在20秒的时间间隔值。由于高维度的两个数据集,该算法执行时间长于平均图4(一)说明,学习一门新基分类器是耗时。研究结果支持这样的结论,增加多样性可以提高分类的时间没有改善整个有效性通过比较Incremental_SEM用一个算法。

在图4 (c),显然注意到锋利的准确性下降(如在30倍,55岁,60岁,75)从概念漂移现象存在的两个数据集比较Incremental_SEM和学习演算法时的时间间隔5秒的价值。与单一算法相比,Incremental_SEM和演算法更稳定,这表明系综分类器有一个优势当存在概念漂移的数据集。它可以得出结论,在合奏中添加多样性分类器可以改善算法的性能,由南一致视图和周34- - - - - -37]。

从表4- - - - - -6,它可以发现Incremental_SEM分类的准确性并不明显高于演算法和装袋算法和他们所有的人都几乎相同的在我们的实验中。然而,平均系统内存Incremental_SEM成本远低于演算法和装袋。它可以证明,系统内存成本,Incremental_SEM分类比传统的系综分类算法。

为了证明采用熵作为多样性措施的优点在处理数据流时,一个实验的数据集表3与相关系数进行比较Q-statistic多样性的措施。表7表明Incremental_SEM平均精度更高统计与相关系数比ρ

4所示。结论

系综分类器作为一种常见的算法处理数据流,闻名高分类精度和稳定性。我们提出了一个算法结合熵作为多样性措施。证明我们Incremental_SEM算法分类准确率高于单个分类器和系统内存成本低于装袋和学习演算法。也建议Q-statistic多样性测量优于相关系数的多样性。未来的研究将集中在如何验证准确性和多样性理论之间的亲戚关系。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者要求,实验数据的大小太大上传提交通过这个接口。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

J.Z. J.C.概念研究;X.F.负责方法;J.Z.,l。G., and J.C. validated the study; X.F. contributed to formal analysis; L.G. investigated the study; X.F. provided resources; J.Z. was responsible for data curation; J.Z. prepared the original draft; J.C. reviewed and edited the manuscript; C.J. was responsible for project administration. All the authors have read and agreed to the published version of the manuscript.

确认

这项研究是由浙江Gongshang大学青年计划项目(批准号3090年jyn9920001g - 332)。资助者没有作用的设计研究;收集、分析、解释数据;写的手稿,或决定公布结果。