复发性自适应分类器集合来处理循环概念漂移

文摘

对于大多数实际的数据流,可能获得的数据的概念转变,这种现象称为概念漂移。对于大多数实际应用,如非平稳的时间序列数据,概念漂移通常发生在循环的方式,和以前见过的概念将再现,这支持了一种独特的概念漂移称为循环概念。一个周期性漂移概念展览倾向于回到之前访问过的国家。现有的机器学习算法处理循环概念通过培训学习模型如果发现概念,导致损失的信息如果概念学习的学习模式,和概念将在下一个学习阶段再次复发。常见的治疗大多数机器学习算法是保留和重用以前学模型,但过程很耗时间和计算禁止在不稳定环境中适当选择任何最优系综分类器能够准确地适应循环概念。学习流数据、快速和准确的时间需要机器学习算法的应用程序。大多数现有的算法来处理设计概念漂移不考虑循环的存在概念漂移。准确高效地处理循环的概念与最低的计算开销,我们提出一个新的和不断发展的整体方法称为复发性自适应分类器集合(种族)。以前学习模型的算法保存存档,多样,总是火车两个新的和现有的分类器。实证实验在合成和真实的数据流基准显示种族明显适应循环概念更准确地比一些先进的系综分类器基于分类器重用。

1。介绍

先进的技术在近年来的应用程序数量急剧上升,产生大量的数据流以前所未有的数量和速度。这样的实际应用的例子包括网络入侵检测(1),传感器网络、垃圾邮件过滤系统(2),和信用卡欺诈检测(3]。

所面临的最大挑战之一在数据流学习是机器学习任务概念漂移(4),数据生成机制也在不断地演变和目标的统计特性随时间变化的概念。变化发生在底层数据的分布导致学习模型的预测性能大幅下降。王等el。(3)描述术语概念机器学习作为学习的数量模型试图预测。概念漂移经常发生在真实的应用程序中,例如,在天气预报预测模型可能会改变由于季节的变化和消费者的偏好可能随时间变化由于季节,时尚,和经济。变化发生在底层数据的分布常常导致分类学习模型的性能的大幅下降。

一个有效的和有效的在线学习模型必须能够识别和应对这些变化,准确。在流数据,可以确定不同类型的概念漂移。概念漂移可以根据他们的速度分类成突然和渐进的飘4]。概念漂移的特点是底层类分布之间的剧烈变化和传入的实例在一个相对短的时间。渐进的概念漂移显著变化需要一个相对大量的时间显示在旧实例和基础类的分布差异的实例。不管漂移目前发生的类型,一个在线学习模型必须能够跟踪漂移,识别其类型和相应的适应变化。在许多实际应用中,通常随着时间的推移,复发模式或概念。上下文是一种常见的复发情况有关概念漂移。与上下文相关域递归学习包括天气预报模型根据季节变化。其他领域包括财务预测和动态控制。反复出现的上下文可能发生由于循环现象,比如今年季节或可能与不规则现象,比如通货膨胀率或市场条件。这一现象反复出现的概念是一个关键的挑战,在线学习算法(5需要处理。如果概念漂移复发,以前学到的模型可能适用于处理循环的概念。现有算法考虑循环概念的新概念,从而增加计算开销越来越多分类模型生成。如果复发模式或概念,以前学到的应该重新应用分类模型;因此,可以优化学习模型的预测性能。以前学习模型的应用程序可能会影响消极和积极学习当前的概念。保存所有以前学会了分类模型诱发开销存储和计算,例如,当反复评估之前学会了分类模型的性能新的训练数据。出于这个原因,保存的数量模型应该受到一些限制,而不是增加下去。选择方案需要决定哪些以前学会了分类模型应该被保留下来。作为学习算法在处理不同种类的漂移,他们倾向于更好的代表过去观测到的概念和丢弃之前学的概念。 Two research questions need to be answered when designing an ensemble classifier to handle recurring concepts; that is, which previously learned classification models should be preserved for future use? And how to exploit the preserved classification models to facilitate adaptation to recurring concepts?

解决上述研究问题,本文首先回顾了最新进展机器学习算法来处理循环的概念,然后提出了周期性的自适应分类器集合(种族),专门设计用于处理动态环境中反复出现的概念漂移。种族雇佣J48决策树,多层感知器(mlp)和支持向量机(svm)作为基础学习者为了最大化多样性和创建动态决策边界分离训练实例,基于变化检测算法和多样性策略保留之前学的模型处理的概念。当一个新的数据块到达时,分类模型的高多样性适应新的训练数据。

本文的其余部分组织如下。部分2提供了一个审查的相关工作。部分3介绍了复发性自适应分类器集合(种族)。部分4介绍了种族之间的比较的实证分析和其他先进的算法用于处理循环概念使用选定的数据集考虑到精度实现和算法如何处理重复出现的概念。

场景与复发相关概念并不少见,和许多当代的方法提出了解决反复出现的概念与最低开销。出现了许多机器学习技术在文献中作为候选解决方案,和系综分类器已经证明它有能力在不稳定环境中处理不同类型的概念漂移。哈桑(6)提出了一个适应概念漂移技术在分布式环境中实际的数据流。该算法使用漂移检测方法;如果检测到概念漂移,它通过模型,和以前学到的知识概念。这种方法并不会自动确定漂移的类型。Sarnovsky [7]提出了异构适应性整体数据流分类模型,利用动态类的加权方案和一种机制来维护乐团成员的多样性。隐式算法处理的概念和分类器较低的权重被丢弃,很难处理的概念。刘(8)提出了一个基于实例的集成学习算法称为不同的实例加权合奏(DiwE)。算法权重分类器根据他们的表现,和业绩不佳的分类丢弃。Heusinger [9)提出了一个健壮的修改版本的组合软学习矢量量化(RSLVQ)和广义学习矢量量化(GLVQ)学习流数据和适应所有类型的概念漂移。集成Adadelta和Adamax RSLVQ和GLVQ优化预测性能香草版本。合并后的算法不检测飘,不显式地处理概念漂移。郑(10)提出了一个semisupervised分类算法在数据流上反复出现的概念漂移和概念演化数据流部分带安全标签的数据。框架使用Jensen-Shannon散度变化检测技术基于分类器信心得分,而不是分类错误率来检测循环概念漂移。该算法使用太多的参数难以调整。Namitha [11)提出了一个新颖的数据流聚类算法来识别重复出现的概念。如果概念漂移检测,算法从存储库中检索最匹配的模型。该算法没有战略,防止存储库或增加无限增长。翼(12)提出了一个装袋,适应概念漂移厂商利用动态加权方案组件分类器根据其分类性能和随机敏感性。丢弃算法分类器的重量低于预定义的阈值,使其无法适应循环概念。藏(13]提出了基于漂移检测的增量合奏(死),结合概念漂移检测和组件的操作更新机制来应对不同类型的概念漂移。死分配权重分类器和丢弃分类器的重量低于预定义的阈值,使得它难以应对的概念。Baidari [14)提出了精度加权多样性基础在线增加(AWDOB)基于基于适应多样性的在线增加(ADOB)。AWDOB使用精度加权方案,利用当前专家的准确性和正确的数量分类和错误分类实例的所有专家将当前专家权重分配给当前实例的数据流。从整体专家权重较低的被丢弃。计算和分配权重的过程需要时间,减缓学习过程。顾(15]介绍了一种新颖的自组织模糊推理整体框架(SOFEnsemble),能够自主学习,处理流数据块的块的基础上,不断自更新决策边界通过识别更具代表性样本。SOFEnsemble具有很高的计算效率,并使用模糊推理减缓学习过程。曾(16]提出了一种基于块的增量合奏算法称为动态更新合奏(DUC)不平衡学习与概念漂移的数据流。由于定期更新之前的组件的整体反应不同的概念漂移,和测试的最终决定事件是基于一定数量的加权投票价值表现最佳的分类器。由于丢弃分类器的重量低于预定义阈值使其无法准确反应的概念。刘等人。17)提出了一个全面的在线主动学习框架(CALMID),包括一个分类器,一个漂移探测器,滑动窗口的标签,样品滑动窗口,和一个初始化训练样本序列学习概念漂移。该算法有一个分类器的样本重量公式分配权重。CALMID被发现是有效的和高效的相比其他先进的算法。

多数提议的整体方法在文献中处理重复出现的概念,重新学习他们如果概念是新的,而不是重复。现有的系综分类器循环概念共享一个共同的弱点;一个新的数据块到达时,所有乐团利用以前学到的概念没有适应他们新的训练数据。无论是提议的方法探讨了开发高度多样化的模式之前学会了处理重复出现的概念,首先他们适应新的训练数据。因此,在本文中,小说和整体学习进化的方法称为复发性自适应分类器集合(种族)。种族商店高度多样化的模型和不直接组合模型的预测输出。相反,每个不同的模型在档案首先是适应新的训练数据,和模型进而增加整体的多样性从归档文件中移除。

在下一节中,我们提出我们的建议的方法,自适应分类器集成(种族)复发,显式地利用多样性处理循环的概念。

3所示。复发性自适应分类器集合(比赛)

复发性自适应分类器集合(种族)采用支持向量机(svm)作为基础的学习者。该算法首先构建一个支持向量,表示 ,与第一流数据块,第一个支持向量存储在一个档案。当一个新的数据块到达时,漂移检测算法检查相同的数据块分布从第一个创建的支持向量。如果数据块从一个不同的潜在分布、保存支持向量是适应新的数据块和一个新的支持向量是从零开始建新的数据块。调整支持向量和新的支持向量相结合构成一个整体进行分类t。比赛并不直接结合的预测输出存储模型在图书馆。每个保存之前学习模型是先适应适应当前数据,然后适应模型和新建模型从最近期的数据块相结合。以前学模型保留根据基于多样性的标准而不是基于精度标准,作为基分类器必须执行多样化的系综分类器来改善其预测性能。比赛使用圣诞的Q统计量(18)作为多样性措施整体误差降到最低。多样性的措施建议,因为它很简单和易于解释19]。比赛之前存储高度多样化的学习模型。以前学到的不同模型然后适应当前通过知识转移的概念。多样性多样性措施是用来测量模型只保留以前学到的不同模型(20.]。转移学习是合适的,因为它优化学习过程的准确性和学习效率。学习新概念,以前学到的不同模型作为初始合奏的候选人学习新概念。比赛之前适应每个学习的模型在新的训练数据的归档。适应模型和模型从新的训练数据来预测的实例。新建模型存储在档案如果不是满的。删除的模型会导致剩余模型之间的最大多样性从归档文件中删除。算法1提供了一个整体的描述框架。

	输入:( )大块的流数据
	米以前学到的:一组不同的模型
	输出: :在时间步的广义整体模型t
(1)	为每个数据块做
(2)	学习新的基本模型与
(3)	选择传输模型通过传输高度多样化的存储模型米
(4)	构建广义合奏使用传输模型和新学习模式
(5)	更新米与最大化多样性
(6)	Endfor

算法2提供了一个描述比赛的算法。复发性自适应分类器集合的详细步骤(种族)算法给出的算法2假设数据按顺序到达。

	输入:( )流数据块
	归档时间步的整体模型t
	多样性的措施:Q统计量
	漂移检测方法检测漂移
	输出: :在每一个时间步的广义整体模型t
(1)	为每个传入的数据块做
(2)	培训新模式与数据块
(3)	测试与
(4)	漂移检测漂移()
(5)	如果漂移= = true
(6)	模型适应当前数据
(7)	其他的
(8)	更新与最大化多样性
(9)	如果
(10)	如果\|−1 \|t然后
(11)	{}
(12)
(13)
(14)	Endif
(15)	计算模型的多样性
(16)	输出
(17)	Endif

复发性自适应分类器集合(种族)使用早期漂移检测方法21)检测漂移。如果检测到概念漂移,适应适应当前数据保存模型。EDDM是一个在线学习系统因为它并不存储后的训练实例使用。复发性自适应分类器集合的详细步骤(种族)算法给出的算法2假设t数据块按顺序到达。

3.1。模型保存

保留以前学模型诱发开销方面的存储和计算。例如,迭代评估之前学习模型的预测性能的新数据计算的。防止合奏无限增长,整体的大小是动态的。以前学习模型是保存在一个归档文件的大小n。当一个数据块到达一步t在归档,保存模型适应适应当前数据。漂移检测有助于检测如果新的数据块是来自一个不同的数据分布。从当前数据块,新生成的模型 ,将直接储存在档案如果档案的大小小于n。优化多样性,删除的模型会增加多样性其余模型中归档的档案会被丢弃。比赛结合了以前学到的不同模型的预测输出代表当前的概念与构建新模型的预测输出第一个数据块,形成最终决定测试当前的训练实例的概念。

3.2。档案大小和转移操作

目标是减少计算开销通过创建一个动态池大小之前学习的模型的整体学习循环概念和突然的和渐进的概念生成。比赛执行转移之前的每一个学习的模型与新的流数据块。提高时间效率的种族,我们实现并行处理的方式转移操作。通过并行传输操作,优化加速比和运行时的非平稳环境水平令人满意。符合转移操作的知识是档案的大小是动态的,以满足其他不同类型的概念。并行的转移操作是最好的优化与合理的动态档案大小不会无限增长,由于模型之间导致多样性模型减少从归档文件中删除。的实现循环概念漂移检测机制促进检测。为了减少开支,一个动态池大小的模型作为一个更好的起点。目标是利用精度作为整体大小波动。验证竞选算法的行为,我们进行了两个实验。 The first experiment evaluates the validity of RACE using knowledge transfer. In the second experiment, the behavior of RACE is evaluated using Hidden Markov Models (HMM).

4所示。实验配置

实证实验来评估性能的比赛进行了大规模的在线分析(农业部)框架,实现机器学习算法的软件环境和运行实验为在线学习。恐鸟是一个开源框架,数据流挖掘的发展环境。比赛的泛化性能相对于其他先进的算法用于处理循环的概念,如综合在线主动学习框架(CALMID) [17),动态更新合奏(由于)[16),自组织模糊集合推理系统(SOFEnsemble) [15],精度加权多样性基础在线增加(AWDOB) [14]。

4.1。实验中使用的数据集

我们评估算法的性能与数据由五个合成数据集发电机。所有数据流发电机在农业部是可用的。合成数据集包含三种类型的概念漂移,即渐进,突然,反复出现的概念漂移。

超平面数据集(22)是由点的集合x满足 ,在哪里是我th的坐标x。两个类是杰出的在以下方式:实例的是积极的,和实例是负的。通过改变每个重量属性模拟 ,⍺哪里的概率变化的方向逆转,吗d是改变应用于每一个实例。这个发电机采用创建一个数据集,其中包含1000000个实例。

导致数据集(23是用来预测七段LED显示屏上显示的数字。的特定配置发电机用于实验产生24二进制属性,17日是无关紧要的。概念漂移是模拟通过交换相关的属性。1000000流生成实例。

随机树的数据集(24)是由随机树生成器生成。数据集包含1000000实例和属性。均匀分布的数据集有四个循环概念的实例。

海洋数据集(25)包含三个属性,只有两个是公认的相关属性。所有三个属性值在0和10之间。数据集的点分为四块不同的概念。每一块的分类使用 ,在哪里和前两个属性和代表θ是一个阈值。数据集包含1000000个实例。

最后一个人造数据集采用这项研究是交错布尔的概念。数据集提供了足够的各种飘来执行原则的研究。它允许一个适当的分析考虑几种类型的漂移与不同数量的严重程度和速度。交错布尔概念数据集生成数据和分类功能使用一套规则来确定类标签。数据集包含三个名义上的属性,即大小={小号,中号,大号},形状和颜色={红、绿}={循环,非圆形}。概念漂移是模拟通过改变项目的规则。之前第一漂,实例标记阳性如果(颜色=红)和(大小=小)。之前发生的第二个漂移,实例被归类为积极如果(颜色=绿色)和(=圆形状),和第二次漂移后,实例被归类为积极的只有(大小=介质)和(大小=大)。

表1提供了一个描述中使用的真实数据集的实验。数据集包括航空公司(26],KDD99杯[27],Covertype [28],扑克手[29日),和传感器数据30.]。


数据集	类	属性	属性类型	实例

航空公司	2	7	数字	539383年
KDD99杯	23	42	数字	494021年
Covertype	10	54	二进制	581012年
扑克手	10	10	数字	629012年
传感器数据集	54	5	数字	2219803年

4.2。评估的种族

本节研究该算法并比较其预测精度和漂移处理能力与现有的基于整体的方法:CALMID,由于,SOFEnsemble, AWDOB。我们也调查在第二个实验中隐马尔可夫模型的预测性能的影响及其周期性漂移处理能力。

周期性漂移的预测性能和处理能力的种族在人工和实际数据集上测试过,和相应的排名算法确定的,更高的平均代表低等级。意义测试和事后比较排名确定重要性水平和执行关键的差异。预测精度和平均的种族,CALMID,由于,SOFEnsemble, AWDOB如表所示2。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

超平面	81.67 (1)	69.85 (3)	60.74 (4)	76.61 (2)	61.42 (5)
错开	79.34 (1)	74.39 (2)	64.62 (4)	73.56 (3)	63.52 (5)
领导	83.46 (1)	70.35 (3)	69.39 (4)	79.62 (2)	66.47 (5)
海	76.34 (2)	73.49 (3)	64.43 (5)	80.28 (1)	66.78 (4)
随机树	84.4 (1)	68.76 (5)	71.53 (3)	81.62 (2)	71.38 (4)
航空公司	78.59 (2)	71.46 (3)	61.34 (5)	86.73 (1)	63.32 (4)
KDD99	69.28 (3)	67.54 (4)	81.36 (2)	63.48 (5)	83.12 (1)
Covertype	81.56 (1)	73.37 (3)	66.87 (4)	81.36 (2)	64.39 (5)
扑克手	84.31 (1)	70.48 (3)	69.38 (4)	66.49 (5)	82.34 (2)
传感器数据	80.34 (1)	72.57 (3)	70.43 (4)	79.67 (2)	69.36 (5)
平均排名	1。4	3所示。2	3所示。9	2.5	4所示。0

很明显从表中显示精度的措施比赛表现明显优于CALMID,由于,SOFEnsemble, AWDOB。Nemenyi测试(31日)申请成对比较。关键的区别是1.432。从图提供的平均排名算法相比,很明显,比赛表现明显比其他四个算法。图1显示了事后的关键区别情节Nemenyi测试实验的平均排名在所有的数据集。

进一步评估漂移的处理能力与其他四个代表赛跑和当前算法用于处理概念漂移,我们介绍两个Kappa评价措施,时间和Kappa米,在所有五个算法用于处理循环的概念。Kappa评价测量广泛应用于数据流学习,可以处理多类和类不平衡问题。Kappa值越大,越广义分类器,和一个负Kappa值的预测精度较低。Kappa时间值如表所示3。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

超平面	76.43 (1)	63.84 (3)	66.44 (2)	62.61 (4)	60.48 (5)
错开	76.34 (1)	71.42 (3)	64.62 (4)	74.56 (2)	62.58 (5)
领导	76.49 (2)	71.45 (3)	68.38 (4)	82.67 (1)	65.67 (5)
海	72.24 (3)	76.42 (1)	64.43 (5)	74.27 (2)	69.48 (4)
随机树	81.42 (1)	66.36 (5)	73.24 (2)	68.32 (4)	72.43 (3)
航空公司	86.72 (1)	71.46 (3)	67.45 (4)	76.43 (2)	64.39 (5)
KDD99	78.48 (2)	69.34 (4)	86.16 (1)	64.58 (5)	70.32 (3)
Covertype	83.36 (1)	71.47 (3)	68.27 (5)	78.46 (2)	68.45 (4)
扑克手	82.37 (1)	76.47 (2)	71.58 (4)	64.49 (5)	74.36 (3)
传感器数据	76.54 (2)	67.57 (5)	70.43 (3)	79.32 (1)	69.45 (4)
平均排名	1。5	3所示。2	3所示。4	2.8	4所示。1

表4显示了卡巴米值的数据集使用。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

超平面	78.37 (1)	69.54 (2)	62.56 (4)	66.48 (3)	61.42 (5)
错开	76.48 (3)	74.39 (2)	67.42 (4)	79.56 (1)	65.42 (5)
领导	81.36 (1)	69.35 (4)	72.49 (3)	80.48 (2)	67.43 (5)
海	75.34 (3)	77.49 (2)	66.43 (5)	83.28 (1)	69.78 (4)
随机树	82.37 (1)	74.36 (3)	67.58 (5)	69.42 (4)	78.48 (2)
航空公司	80.59 (2)	72.46 (3)	62.34 (5)	83.73 (1)	64.32 (4)
KDD99	66.28 (4)	64.54 (3)	79.36 (2)	62.48 (5)	84.42 (1)
Covertype	77.36 (1)	73.37 (3)	67.37 (4)	74.46 (2)	65.29 (5)
扑克手	82.34 (1)	75.38 (3)	67.38 (4)	64.43 (5)	78.44 (2)
传感器数据	78.64 (2)	68.54 (5)	73.48 (3)	80.47 (1)	71.46 (4)
平均排名	1。9	3所示。0	3所示。9	2.5	3所示。7

时间和Kappa值米积极的属性数据集的一般均衡。

应用于Kappa统计测试时间人工和实际数据流显示意义差异在任何指定水平的意义。为Kappa统计测试米人工和实际数据集还显示在指定的意义差异水平的意义,对于这个实验,我们选择0.05。Nemenyi测试(31日)申请时间和Kappa米两两比较。关键的区别(CD)是1.421。种族表现明显优于CALMID、由于SOFEnsemble, AWDOB。

4.3。资源比较

分析资源使用的好处而言,我们比较CPU时间和内存消耗种族、CALMID,由于,SOFEnsemble, AWDOB使用真实的数据流,因为他们有大量的属性。整体大小的算法是动态的;也就是说,它们大小不同手头的任务。较低的值在两个场景中生成每个算法被认为是最好的。确定相应的排名,这样代表低等级更高的平均水平。

表5显示了内存消耗(MB)的算法在每个数据集。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

航空公司	36.25 (1)	42.39 (2)	44.29 (3)	57.31 (4)	61.23 (5)
Covertype	43.17 (2)	28.34 (1)	63.46 (5)	59.63 (4)	51.42 (3)
扑克手	66.37 (1)	71.26 (3)	69.47 (2)	79.45 (5)	77.36 (4)
KDD99	83.43 (4)	76.39 (2)	78.36 (3)	73.43 (1)	88.34 (5)
传感器数据	59.34 (1)	87.63 (5)	67.34 (3)	79.23 (4)	62.41 (2)
平均排名	1。8	2.6	3所示。2	3所示。6	3所示。8

根据表5,在大多数情况下,种族实现最小的内存消耗而AWDOB最内存消耗。插入和删除模型使内存使用量低种族相比其他算法。

表6显示了CPU处理时间为每个算法(s)在每个真实的数据集。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

航空公司	13.49 (1)	15.43 (2)	29.43 (3)	54.03 (5)	35.38 (4)
Covertype	17.36 (2)	36.48 (3)	33.42 (2)	53.48 (4)	65.43 (5)
扑克手	43.56 (1)	78.45 (4)	83.37 (5)	73.28 (3)	56.32 (2)
KDD99	81.43 (3)	78.32 (2)	76.43 (1)	88.46 (5)	83.52 (4)
传感器数据	85.46 (2)	81.34 (1)	91.23 (3)	99.38 (5)	97.41 (4)
平均排名	1。8	2.4	2.8	4所示。4	3所示。8

如表所示4通过比较分析,我们发现比赛消耗最少的处理时间,其次是CALMID, SOFEnsemble最长的CPU处理时间。

4.4。随着时间的推移,准确性

为每个数据集来描述图形块生成的性能曲线测试算法在每个时间步。的x设在代表处理观测的数量,平均精度提出了y设在。所有的图形块允许适应能力比较算法在不同流动条件下进行分析。所示的准确性随着时间的情节,比赛取得了超平面上的预测精度最高81.67%,错开79.34%,Covertype 81.56%,传感器数据的80.34%。总的来说,这场比赛平均排名在人工和实际的数据流为1.4,CALMID是3.2,由于是3.9,SOFEnsemble是2.5,AWDOB是4.0。

图2显示了五个算法的准确性随着时间的推移,情节的超平面数据集展览渐进的概念漂移。所有算法的精度显示了相同的趋势。比赛表现最好的,其次是由于,CALMID表现最糟糕的。比赛是为了适应所有类型的概念漂移。

图3演示了五个算法的精度随着时间的推移,情节的交错数据集展览概念漂移。可以观察到,比赛表现最好的,其次是由于,和CALMID是第三,SOFEnsemble和AWDOB是最糟糕的。

图4显示了五个算法的准确性随着时间的阴谋导致数据集上设计了评估处理概念漂移的能力。比赛表现最好的,其次是AWDOB然后CALMID。SOFEnsemble和由于表现不佳。

图5显示了五个算法的预测精度在海上数据集是设计评价的能力处理突发和渐进的漂移。所有五个算法的趋势基本上是相同的。其中,比赛表现最好的,其次是由于AWDOB, SOFEnsemble表现最糟糕的。

图6显示的准确性随着时间的推移图5算法设计的随机树数据集评估处理循环概念的能力。在首次发现实例AWDOB表现良好,但随着观测实例的数量增加,种族优于所有的四个算法。

人工数据流通常用于控制环境。处理实际分类问题时,几个挑战出现。主要的问题是识别和定位的概念漂移。因此,种族是评估在现实世界的数据流,即航空公司、森林Covertype KDD99世界杯,扑克手,传感器数据。五个真实数据集和五个观察,意义进行了测试,结果显示改进。数据7- - - - - -11显示的准确性随着时间的推移图5五真实数据集的算法。

比赛取得了最高的预测精度:Covertype 81.56%;扑克手,84.31%;传感器数据,80.34%。种族的整体平均排名是1.4,CALMID 3.2, SOFEnsemble 3.9, 2.5,和4.0 AWDOB。

图7显示了五个算法的准确性随着时间的情节在航空公司的数据集。在首次发现实例由于表现良好,但随着越来越多的实例被观察到,比赛表现最好的。SOFEnsemble表现最糟糕的。

图8显示了随着时间的准确度的五对KDD99数据集算法。比赛表现最好,其次是由于。SOFEnsemble表现最差,CALMID和AWDOB趋势是相同的。

图9演示了五个算法的精度随着时间的推移,情节Covertype数据集。比赛表现最好,其次是由于。AWDOB表现最糟糕的。

图10演示了五算法的准确性扑克手数据集。所有算法的预测性能随时间波动。随着越来越多的实例被观察到,比赛表现最好的,其次是AWDOB。由于和SOFEnsemble执行最坏的打算。

图11显示了五个算法的准确性随着时间的情节在传感器数据来评估渐进的概念漂移。比赛表现最好,其次是由于。SOFEnsemble是第三,AWDOB CALMID表现最糟糕的。竞赛管理周期性变化检测机制通过重用以前学的概念和概括在不同情况下特别是在不同概念漂移的环境。然而,其他现有的整体方法不存储以前学到的知识和缺乏检测机制,因此,他们不适应不同类型的漂移。

所有五个真实数据集、种族主题所有分类器的多样性和准确性评估在每一次迭代。如果他们不能代表当前的概念,他们被丢弃,和分类器代表当前的概念和那些保留大量的多样性,它允许适当处理的概念。扑克手(84.31%)和(81.36)由于KDD99数据集能够适当地处理概念漂移,这只能归咎于新基地的周期包含学习者,而CALMID和SOFEnsemble不维护动态池由于静态合奏的大小。

5。隐马尔科夫模型比赛

在我们的下一个实验中,我们调查种族的行为取代隐马尔可夫模型的知识转移过程,metalearner。隐马尔可夫模型(HMM)非常好工作在实践中被称为预测,识别,识别系统中一个非常有效的方式。连续隐马尔可夫模型是基于假设观测是独立的,因此一个观测序列的概率可以表示为概率的个人观察。

隐马尔科夫模型是一个metalearner能够预测何时会发生反复出现的概念。我们也可以预测复发的雪堆选择最合适的模型输入数据块。比赛使用隐马尔科夫模型的实现允许更好的处理复发情况分类问题的算法在动态环境中,从而使进化基础学习者及时适应的概念。这是通过预测会发生漂移时,从训练的例子在给定的时间和得到一个模糊相似度函数概念之间的相似程度。

5.1。算法的描述

多层感知器(mlp)、J48决策树、支持向量机为基础的学习者使用,处理时间序列数据的训练实例的增量学习算法来生成一个分类器从数据块代表底层概念。创建一个池存储所有概念表示。漂移检测机制(DDM)不断监督学习算法生成的错误率;生成一个警告的DDM如果错误率超过一个预定义的阈值,和一个新的分类器是后天习得的。元模型训练从提供的信息漂移检测机制和元模型的发展为检测到新概念。模糊概念相似性方法确定是否复发底层概念,和之前学的应用模型。

在这种情况下,先前学到的高度多样化的模式不再是训练有素的,因为他们是稳定的模型,充分代表了特定的概念。

5.2。实验分析

比较种族的性能,使用知识转移和比赛使用隐马尔科夫模型,我们使用相同的合成数据集和真实数据集用于比较种族与最近的预测性能最先进的算法用于处理动态环境中反复出现的概念。

使用农业部框架,分析算法的性能评估对准确性、时间效率,内存使用合成数据集和真实数据集。表7显示了种族使用马尔可夫模型的预测精度。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

超平面	76.47 (2)	72.53 (3)	63.24 (5)	79.63 (1)	66.38 (4)
错开	72.32 (1)	66.58 (4)	70.33 (2)	68.28 (3)	62.48 (5)
领导	69.56 (3)	72.37 (2)	66.49 (4)	62.37 (5)	73.54 (1)
海	73.48 (1)	64.47 (5)	72.43 (3)	70.27 (2)	66.45 (4)
随机树	69.49 (1)	64.38 (3)	63.29 (4)	67.53 (2)	60.36 (5)
航空公司	79.43 (2)	73.29 (4)	76.35 (3)	81.25 (1)	70.32 (5)
KDD99	72.49 (3)	76.38 (1)	74.19 (2)	69.57 (5)	70.26 (4)
Covertype	81.24 (1)	75.24 (3)	72.49 (4)	78.34 (2)	69.57 (5)
扑克手	68.38 (2)	62.54 (5)	71.37 (1)	66.43 (3)	64.56 (4)
传感器数据	73.48 (1)	69.42 (3)	66.38 (4)	70.43 (2)	63.27 (5)
平均排名	1。7	3所示。3	3所示。2	2.6	4所示。2

比赛的表现也评估对CPU处理时间以秒为单位。表8显示了CPU处理时间以秒为单位。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

超平面	16.47 (1)	23.45 (2)	57.23 (5)	29.31 (3)	35.46 (4)
错开	17.38 (2)	33.45 (5)	22.26 (4)	20.13 (3)	9.16 (1)
领导	22.98 (5)	15.68 (3)	13.68 (2)	12.52 (1)	17.98 (4)
海	13.87 (1)	24.05 (3)	20.03 (2)	26.43 (4)	38.45 (5)
随机树	30.26 (1)	38.18 (4)	37.42 (3)	31.43 (2)	47.53 (5)
航空公司	63.24 (2)	60.48 (1)	82.47 (4)	80.25 (3)	84.26 (5)
KDD99	16.68 (1)	28.14 (4)	30.53 (5)	20.23 (2)	26.68 (3)
Covertype	14.64 (3)	13.48 (2)	26.48 (4)	10.41 (1)	36.17 (5)
扑克手	20.25 (2)	28.35 (4)	16.67 (1)	26.69 (3)	30.23 (5)
传感器数据	72.36 (1)	96.45 (5)	90.12 (4)	80.12 (2)	86.57 (3)
平均排名	1。9	3所示。3	3所示。4	2.3	4所示。0

关于运行时,在线乐团最喜欢AWDOB需要时间分类,其次是ARF和DP。比赛是最耗时的。这部分是因为结合隐马尔可夫模型的漂移检测机制提供更快的反应突然和反复出现的概念漂移比其他方法。出于这个原因,种族是更好地更有效地捕捉与隐马尔科夫模型变化和适应不同类型的准确、及时。

内存消耗的真实数据集上有许多属性如表所示9。


数据集	比赛	CALMID	由于	SOFEnsemble	AWDOB

航空公司	36.25 (1)	44.29 (3)	42.39 (2)	61.23 (4)	57.31 (5)
Covertype	43.17 (2)	28.34 (1)	51.42 (3)	63.48 (5)	59.63 (4)
扑克手	66.37 (1)	69.47 (2)	79.45 (5)	77.36 (4)	71.26 (3)
KDD99	78.36 (3)	76.39 (2)	73.43 (1)	83.43 (4)	88.34 (5)
传感器数据	59.34 (1)	67.34 (3)	62.41 (2)	87.63 (5)	79.23 (4)
平均排名	1。6	2.2	2.6	4所示。4	4所示。2

SOFEnsemble的内存消耗,CALMID AWDOB不仅仅是种族和由于。三个算法维持一个庞大的历史概念,检查以便重用。种族和由于需要最少的内存存储由于他们修剪策略。

5.3。精度性能的比较

比较五种算法的准确性在多个数据集,我们遵循Demsar提出的方法(32]。我们首先使用非参数弗里德曼测试来确定是否有统计上的显著差异之间的排名算法进行比较。然后,我们执行Nemenyi事后测试平均等级图。轴上的排名中,最好的排名算法是在右边的图的一部分。没有显著差异的算法与一条直线。(CD)的关键区别是显示在图。

可以观察到,从关键的区别(CD)的情节,比赛大部分时间优于其他算法。

图12显示了事后的关键区别情节测试实验的排名所使用的数据集。

弗里德曼非参数测试进行了扩展的分析比较多个分类器在多个数据集。零假设的测试是没有区别的所有测试算法的性能。如果拒绝零假设,Nemenyi测试可以用来验证算法的性能,是否种族,统计不同于其他算法用于比较。关键的区别(CD)的平均等级图表明,我们的算法明显优于四最近代表算法对非平稳的时间序列数据。

6。结论

本文提出了一种新颖的进化算法称为复发性自适应分类器集合(种族)处理的概念。种族商店以前学到的高度多样化的模型,适应使用新的数据块。我们进行了两次实证实验评估的有效性竞赛流环境与循环的概念。在第一个实验中,我们创建了一个以前学到的不同分类器和高知识转移的概念用于选择不同的分类器,代表当前最新数据块的概念。漂移探测器中使用的算法来确定是否发生漂移。结果表明,结合知识转移和漂移检测改进算法的预测精度为非平稳的时间序列数据。

在第二个实验中,我们研究了算法,对知识转移的行为被隐藏的马尔可夫模型来预测即将到来的漂移与之前训练分类器用来测试相似的过去概念到现在的概念。结果表明,使用隐马尔科夫模型预测漂移并不能使该算法高效运行足够用于非平稳的时间序列数据流。

本文为研究打开了新的途径或方向,及时反复出现的概念是学会了在非平稳的时间序列数据最少的计算开销。很明显从文献综述这一领域并没有被充分研究。即使比赛算法散发出新奇的事物,它都有自己的弱点。竞选算法可以计算昂贵,因为它需要大内存来存储所有的高度多样化的类和存储在概念转变。此外,整体大小的增长,减缓了收敛的概念,这个概念转移过程将需要更多的时间,从而影响其可用性在一个分类的非平稳序列数据延迟可以证明昂贵。然而,无论缺陷识别,本文独特的开了在这一领域研究的新途径。预计更多的方法来处理循环概念的非平稳时间序列数据可以探索和发展,这样的预测性能比较独特新颖的种族算法提出了研究论文。

数据可用性

研究使用了五个人工数据集,即(1)随机树生成器,(2)发电机,(3)发电机,(4)交错,(5)超平面。现实世界的数据集使用(1)Covertype数据集,(2)传感器数据,(3)杯子KDD99数据集,数据集(4)扑克手,(5)航空公司的数据集。人工和实际数据用于支持这项研究的结果已经存入以下存储库和来源:(1)随机树生成器:坎宁安P。诺兰N。,Delany S. J., and Haahr M., 2003, “A Case-Based Approach to Spam Filtering that Can Track Concept Drift”, in the proceedings of ICCBR-2003 Workshop on Long-Lived CBR Systems. (2) SEA generator: Wang H., Fan W., Yu P.S., and Han J., 2003, “Mining Concept-Drifting Data Streams Using Ensemble Classifiers,” in the Proceedings of 9th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining KDD-2003, ACM Press, pp. 226–235. (3) LED generator: Cunningham P., Nowlan N., Delany S.J., and Haahr M., 2003, “A Case-Based Approach to Spam Filtering that Can Track Concept Drift,” in the Proceedings of ICCBR-2003 Workshop on Long-Lived CBR Systems. (4) Hyperplane: A. Bifet and R. Kirkby, Tutorial 1. Introduction to MOA Massive Online Analysis (Accessed 10.04.17). (5) Stagger dataset: J.C. Schlimmer and R.H. Granger Jr., “Incremental Learning from Noisy Data,” Vol. 1, 1986, pp. 317–354. Real-world datasets used are (1) Covertype dataset, (2) Airlines dataset, (3) KDD99 dataset, (4) Poker Hand dataset, and (5) Sensor Data-Intel Lab Data.

的利益冲突

作者宣称没有利益冲突。

引用

t·莱恩和c . Brodley”在线学习方法和概念漂移的用户标识计算机安全,”学报》第四国际会议上知识发现和数据挖掘,页259 - 263,门洛帕克,加利福尼亚州,美国,1998年9月。视图:谷歌学术搜索
s .简Delany p·坎宁安,A . Tsymbal和l . Coyle”案例技术跟踪概念漂移在垃圾邮件过滤,“以知识为基础的系统,18卷,不。4 - 5,187 - 195年,2005页。视图:出版商的网站|谷歌学术搜索
w·h . Wang粉丝,p . s . Yu和j·汉、“矿业concept-drifting数据流使用系综分类器”第九届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 03)华盛顿特区,页226 - 235,美国,2003年8月。视图:谷歌学术搜索
a . Tsymbal”概念漂移的问题:定义和相关工作,“技术。代表,计算机科学系,三一学院、都柏林,爱尔兰,2004年,技术报告。视图:谷歌学术搜索
即Zliobaite、m . Pechenizkiy和j .伽马“概念漂移的应用,概述”大数据分析:新社会的新算法施普林格国际出版,柏林,德国,2016年。视图:谷歌学术搜索
m·哈桑·Kostakos m·科尔特斯t . Anagnostopoulos说道,s . Pirttikangas和e·吉尔曼”概念漂移适应真实世界的数据流技术在分布式环境中,“智能城市4卷,第371 - 349页,2021年。视图:谷歌学术搜索
m . Sarnovsky和m . Kolarik漂移数据流分类使用异构多元化的动态class-weighted乐团,“PeersJ计算机科学,7卷,不。2、2021。视图:出版商的网站|谷歌学术搜索
陆j . a . Liu, g .张“多样化instances-weighting合奏基于地区适应概念漂移,漂移分歧”IEEE神经网络和学习系统,22卷,不。1,第307 - 293页,2021。视图:出版商的网站|谷歌学术搜索
m . Heusinger c .拉布,f . m . Schleif“被动学习矢量量化的概念漂移处理通过变化,“神经计算和应用,2020年。视图:谷歌学术搜索
x x郑,p . Li胡,k . Yu”Semi-supervised分类在数据流上反复出现的概念漂移和概念进化,”基于知识的系统,215卷,2021年。视图:出版商的网站|谷歌学术搜索
k·Namitha和g . Santhosh Kumar“学习的递归数据流聚类的概念,“《大数据,7卷,不。1,p。75年,2020。视图:出版商的网站|谷歌学术搜索
j·w·w·y Ng, c . s .赖w . Pedrycz l . l .赖和x王,“成本敏感加权和imbalance-reversed装袋流不平衡和概念漂移的电力价格分类,“IEEE工业信息过渡语,15卷,不。3、1585 - 1597年,2019页。视图:出版商的网站|谷歌学术搜索
l .藏、y向和w·黄”Drift-detection增量合奏为基础对不同种类的概念漂移,”学报2019年第五届国际会议上大数据计算和通信(BIGCOM),页107 - 114,青岛,中国,2019。视图:谷歌学术搜索
即Baidari和n . Honnikoll精度加权diversity-based在线增加,”专家系统与应用程序,160卷,2020年。视图:谷歌学术搜索
赵顾x、p·安格诺夫和z,“自组织模糊推理合奏大流数据分类,系统”基于知识的系统,218卷,2021年。视图:谷歌学术搜索
l .曾w·黄,y,任,t·朱,“增量学习和概念漂移的数据流不平衡:整体算法的动态更新,“以知识为基础的系统文章ID 105694卷,195年,2020年。视图:出版商的网站|谷歌学术搜索
h·w . Liu, z叮,问:刘,和c·朱,“一个全面的主动学习方法,多类不平衡与概念漂移的数据流,”基于知识的系统,215卷,2021年。视图:谷歌学术搜索
g .圣诞”属性协会统计:随着社会插图材料的童年,“伦敦皇家学会哲学学报系列,卷194,不。252 - 261,257 - 319年,1900页。视图:出版商的网站|谷歌学术搜索
l . l . Minku a . p .白、x姚明,“多样性的影响在网络集成学习的存在概念漂移,”IEEE工程知识和数据,22卷,不。5,730 - 742年,2010页。视图:出版商的网站|谷歌学术搜索
p . n . e . k . Tang Suganthan, x姚明,“多样性的分析措施,”机器学习,卷65,不。1,第271 - 247页,2006。视图:出版商的网站|谷歌学术搜索
m . Baena-Garcia j . Del Campo-Avila r . Fidalgo和a . Bifet“早期漂移检测方法”学报第四ECML PKDD国际研讨会知识发现的数据流(IWKDDS 06年),页77 - 86,纽约,纽约,美国,2006年。视图:谷歌学术搜索
r·艾和r . Polikar增量学习的概念漂移在不稳定的环境中,“IEEE神经网络,22卷,不。10日,1517 - 1531年,2011页。视图:出版商的网站|谷歌学术搜索
亚松森和d·纽曼,UCI机器学习库,2007,https://www.ics.uci.edu/mlearn/MLRepository.html。
p·多明戈和g . Hulten“矿业高速数据流”学报第六届ACM SIGKDD ACM国际会议上的知识发现和数据挖掘圣地亚哥,页71 - 80,美国,2000年8月。视图:谷歌学术搜索
w . n .金街和y“流整体算法(海)大规模分类,”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 01),页317 - 354年,旧金山,美国,2001年8月。视图:谷歌学术搜索
2010年大规模在线分析(农业部)的数据集,https://moa.cms.waikato.ac.nz/datasets。
UCI知识发现(KDD)存档,信息和计算机科学加州大学欧文分校、钙、美国,2009年,https://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html。
2010年大规模在线分析(农业部)的数据集,https://moa.cms.waikato.ac.nz/datsets/Covertype。
a . Bifet g .福尔摩斯b . Pfahringer r·科克和r . Gavalada”新乐团演化数据流的方法,”学报十五ACM SIGKDD ACM国际会议上的知识发现和数据挖掘,页139 - 148年,巴黎,法国,2009年6月。视图:谷歌学术搜索
英特尔实验室的数据,2004年,https://db.csail.mit.edu/labdata//labdata.html。
n . Settouti m·e·a·Bechar和m . a . Chikh”前十的统计比较算法在数据挖掘抚慰阳离子的任务,”国际期刊的交互式多媒体和人工智能,4卷,不。1,46-51,2016页。视图:出版商的网站|谷歌学术搜索
j . Demsar“统计分类器在多个数据集的比较,机器学习研究杂志》上7卷,外墙面,2006页。视图:谷歌学术搜索