文摘

数据流分类变成了一个有前途的预测与相关合作,许多实际的环境。然而,概念漂移和噪声的环境下,数据流分类的研究面临很多挑战。因此,提出了一种新的增量合奏模式与噪声的非平稳数据流分类。我们的方法集成了三种策略:增量学习监控和适应概念漂移;整体学习来提高模型的稳定性;和微簇过程区分从噪声和漂移预测的实例的标签通过多数票。实验和两个合成数据集用来测试逐渐和突然的漂移表明,我们的方法在非平稳的数据流提供了更准确的分类比两种流行的基线噪音。

1。介绍

我们现在生产的速度和贪婪使流媒体数据无处不在在实际应用1]。例如,入侵检测(2)、信用欺诈检测(3),网络流量管理(4),和推荐系统5所有依赖于数据流。然而,数据流有一些独特的特点,使其更难以控制。首先,数据可以以非常快的速度和大量生成。第二,存在概念漂移的数据流,和现有的模型不再像以前那样有效地工作。最后,物理约束意味着只能使用一定量的知识或从数据流中提取在任何时候,一旦运行,它可以是非常困难的去获取更多的知识。因此,数据流挖掘面临许多挑战。

揭示隐藏在数据流的知识广泛被称为数据流挖掘,包括数据流分类、聚类和其他数据分析任务(6]。可以说,数据流分类是最常见的分析任务在许多实际应用。由于时序特征,相关的研究数据的蒸汽分类面对很多困难。例如,跟踪与概念漂移,模型不仅需要经常重新训练,而且其处理和内存开销必须保持低处理数据的速度和体积。在传统的数据挖掘的情况下,该模型只需要从一个静态数据集提取知识的联合分布函数不会改变。然而,我们的模型数据流分类需要从实例中提取知识随着时间的推移而产生的联合分布函数是变量,即。,存在概念漂移(7,8]。根据许多研究,概念漂移数据流分类的主要障碍。

到目前为止,解决分类的非平稳数据流环境中都是基于在线或整体学习,和这些方法提高分类的性能。关于概念漂移不平衡流数据设置,一个学习模式提出了重采样技术(7]。结合在线合奏法同时考虑概念漂移和高维问题[9]。此外,根据各种分类的场景,许多监督学习方法最近被广泛探讨(10- - - - - -17),和一些已经应用于数据流分类,如支持向量机(SVM)和贝叶斯方法。

在非平稳的流数据环境中,这些调查解决的一些问题,包括概念漂移、维度的诅咒,和不平衡的学习。然而,仍然有一些开放的问题需要解决。例如,很少有研究考虑如何有效地同时应付两个概念漂移和噪声的非平稳数据流。为了处理这些问题,我们设计一种新的分类方法,构造微簇作为基分类器。最终预测的实例的类标签是由一个微簇的多数票。同时,增量学习策略结合整体学习和平滑算子的工作模型适应概念漂移,区分噪声,并保持稳定。

总之,在我们的论文存在的三个主要贡献:(1)技术构造一组微簇作为基分类器通过重新定义之前使用集群功能的概念层次聚类分析。好的分类结果可以实现非平稳的数据流结合众多微簇。此外,微簇结合增量学习吸收新知识,是一个非常方便的方式跟踪概念漂移。(2)平滑策略旨在改变微簇的质心和控制之间的平衡的历史和新实例。这种方法使历史知识的充分利用,也可以克服漂移数据的短缺问题。(3)多数投票策略和增量学习提高模型的稳定性和适应性与噪声的非平稳数据流。因此,该模型利用两者优点的合奏和增量学习保持高精度预测类标签。

本文组织如下。后台工作中讨论部分2,然后部分3概述了基本概念。部分4描述了该模型并提供了算法的复杂性分析。节5、实验模式和结果。部分6描述了结论和未来的计划。

一个优秀的数据流分类方法有能力逐步学习和适应概念漂移(18]。一般来说,两种重要的增量学习方法而言:instance-incremental学习(19,20.),这一次学习实例,和batch-incremental学习(21],它可以从实例设置一次。instance-incremental学习小组,谎言et al。19)开发了一个在线被动攻击的算法(PA)框架基于SVM部队分类超平面将满足最低损失约束分类器分类实例。这个框架被广泛探讨对于许多实际的设置(22,23]。在工作24),它提出了instance-incremental方法与加权看到下面成了SVM能够解决逐渐漂移的非平稳数据流。Instance-incremental学习也是基于极限学习机来提高分类速度(25]。数据流是稳定的,当输入实例是用于更新分类器;然而,当发生概念漂移,表现弱分类器被删除。这是一个非常灵活的实时数据流分类方法。陆batch-incremental学习领域,et al。26)提供了一种新颖的动态加权多数方法处理不平衡问题和概念漂移。该方法使用动态加权集成学习保持稳定的分类模型和batch-incremental学习跟踪概念漂移。

在两种模式之间,基于实例的增量学习更灵活和可扩展的实时数据流分类。这也是一个更合适的方法环境中很难提前标签实例和理解概念(20.]。因此,我们将注意力转向instance-incremental学习在本文的其余部分,使用简单的词增量学习,以后。

整体学习的动力研究与数据流分类来自渴望提高分类模型的稳定(27- - - - - -31日]。这些模型包括基分类器组和合并方法相结合的基本分类器的输出到最终输出。海算法(29日)是一个早期的整体方法。当大海合奏模型不完整,每个新到达的数据块是用来建立一个新的基分类器。如果已经达到的极限,新的分类器还为每个新到达的数据构造块,但是它替代最差的分类器的性能。根据多数投票策略,整体方法,大海,输出最终的预测。另一个类似的工作是基于精度加权集成方法(30.),重要的是将重量分配给每个基分类器估计的准确性对最新的数据块。这种观点表明,最新的数据块可以代表目标有高概率的概念,所以精度较高的分类器应该得到更多的重要性。同时,整体规模已经达到最大时,基分类器性能最差的删除和新基分类器连接到整体模型中。另一个迭代开发的集成学习方法,基于提高和batch-incremental学习(31日]。这种方法添加一个合适的基分类器分类模型与每个新到达的数据块,而不是添加一个。实验结果表明,迭代提高整体分类方法是一种很有前途的方法在非平稳的数据流环境中执行分类任务。除了概念漂移,类分布不平衡的另一个挑战与数据流分类,可以解决整体学习。Zhang et al。(27)的方法是一种双管齐下的方法处理这个问题。第一个方法是把大多数分成 子集的大小大致相同的少数,然后构造 新的平衡训练子集从少数民族和划分子集。接下来,创建整体模型使用与反向传播神经网络作为基础学习算法。基分类器的多样性是学习系统的重要因素之一。因此,Jackowski [32]引入了两个测量误差趋势的多样性的概念:对错误和池错误,发现并跟踪与概念漂移流数据设置。这个模型实验表明,多样性的测量不仅可以用来提高整体模型的性能,还持有有效的整体模型的规模。基于上述分析,我们认为整体学习是目前最有前途的研究方向为数据流分类。

从这篇评论,我们提取几个观察:增量学习可以动态地揭示数据流的新知识。整体学习可以提高非平稳的数据流分类模型的稳定性。合适的算法可以提高分类模型的灵活性。这三个观测的基础三个集成策略在我们的方法同时解决概念漂移和噪声。

3所示。基本概念和问题定义

本节首先开始描述的在这篇文章中使用的基本概念,然后详细分析探讨研究的问题。

3.1。数据流

根据相关研究,在这篇文章中,我们认为数据流由一系列的标记的情况下,即 ,在哪里 ,在这 代表一个特征向量代表一个实例对象的特性和特征 的类标签。当 , 代表积极的实例。相反, 是负的实例。

根据上述定义,我们探索一个映射函数 精度高,代表分类模型,该模型可以输出传入的实例 的类标签。只有监督学习被认为是。因此,分类模型 是由一个标签数据集,一旦建成,它可以输出类标签吗 的实例。此外,对于本文的目的,真正的标签是收购后的映射函数 输出预测的实例。

3.2。概念漂移

根据工作(33),当一个联合概率分布 数据变化的发展随着时间的推移,存在概念漂移。换句话说, ,其中下标 代表时间戳, 表明向量代表特征属性的值 是一个类标签。根据变化的概念,逐渐漂移和突然的漂移34)进行了讨论。一般来说,逐渐漂移是一个变化的速度较慢,从一个到另一个概念,如图1(一)。当分布 突然differentfrom分布吗 ,我们说突然发生漂移,如图1 (b)。在图1,之间的差别逐渐漂移和突然的漂移明显发现,和这两种漂移。

3.3。问题定义

嘈杂的实例和概念漂移出现类似的分布的非平稳数据流。因此,区分噪声和漂移概念的关键,本文的动机来构建一个分类模型,可以发现和跟踪概念漂移和噪声的非平稳流数据。与此同时,为了抓住概念漂移,增量学习的分类模型应该被更新。研究问题是显示在图2

从图2显然,我们理解本文的问题定义和识别的实例在非平稳的流数据。虚线圆圈代表一个微簇,点缀直线表明,分布在图实例2。当前的情况如图2(a)。当时间的推移,实例和微簇更新时间戳 可以看到从图2(b),它代表了增量学习的情况。在时间戳 ,在图2(c),传入的实例与积极的类标签位于老微簇一个不同的类标签。在这种情况下,新实例被认为是一个嘈杂的实例会被丢弃;这就是为什么这个例子中不再存在于时间戳 在图2(d),输入实例形式概念漂移,导致一个新的微簇结构。

基于上述分析,我们的解决方案包括三种策略来解决研究问题如图2:增量学习跟踪概念漂移;整体学习来提高模型的稳定性;和微簇方法区分漂移和噪声,使最终的标签预测。在下一节中,我们详细列出这些策略并讨论这三个场景如图2

4所示。自适应增量集成数据流分类方法

本节描述微簇和数据流分类模型,其次是相应的算法。

4.1。微簇的定义

微簇作为分类器在我们的模型是由集群功能,这是一个技术,最初是作为开发层次聚类分析(35]。被定义为集群的结构特性 基于集群功能,我们给这篇论文使用的微簇的定义。

定义1。微簇 被表示为 ,在哪里 用于计算的边界 表示平方求和的实例的属性 在方程计算(1), 是一个向量可以节省每个属性的总和在方程(2), 建议实例的数量, 礼物 的重心变化随着时间的推移,如方程所示(3), 的类标签, 统计的数量 正确分类的实例α开始是0。 在哪里 实例的维度。 在哪里 的重心在前一个时间戳 代表平滑参数。
的大小 是由集群的半径 这是计算如下: 在哪里 表示向量的长度。

4.2。基于微簇的数据流分类模型

分类模型包括三个阶段:分类、增量学习和更新。一个框架的模型图3。流程和计算这一部分中详细介绍和总结成相应的算法作为算法1

输入:实例 ,
池的最大限度 ,
平滑参数
输出:微簇的池
(1) 池的初始微簇 这是由 - - - - - -意味着
(2) 每个实例
阶段1:分类
(3) 之间的距离
(4) 选择k最近的微簇对实例进行分类
(5) 预测类标签的实例 得到多数票在方程(5)
(6) 更新的参数k最近的微簇
阶段2:增量学习
(7) 如果场景1然后
(8) 更新最近的微簇的结构方程(1)- (3)和微簇的实例数量将增加1
(9) 其他的如果场景2然后
(10) 考虑到实例作为噪声点和忽视它
(11) 其他的如果场景3然后
(12) 建立一个新的微簇实例
阶段3:更新池
(13) 如果 然后
(14)
(15)
(16) 其他的
(17) 最糟糕的微簇
(18) 取代
(19) 如果
(20) 如果
(21) 结束了
(22) 返回 微簇池所需的时间戳
4.2.1。准备第一阶段(分类): - - - - - -最近的微簇分类的实例

当传入实例到达时,欧氏距离计算的实例和每个微簇之间在池中。基于欧氏距离 - - - - - -选择最近的微簇,然后每个微簇将传入的实例分配自己的标签。根据方程(5),最后一个标签的实例是通过合并方法。 在哪里 代表参与分类和微簇的数量 表示类的数量。

一旦传入的实例分类,微簇立即更新。如果最终的预测是正确的,即,如果all the microclusters who voted have the same class label as the final prediction, the value of 增加1;否则,它减少1。

4.2.2。第二阶段(增量学习):最近的微簇根据传入的实例将被更新

first-test-and-then-train原则后,最近的微簇立即更新,确保模型快速适应新概念或新构造微簇在这个阶段,这是描绘在图4场景1:当传入的实例的标签是一样的最近的微簇的标签,传入的实例是用于培训这个微簇。条款 , , 最近的重新计算了微簇方程(1)- (3)。在这个微簇实例的数量增加1。由方程(微簇的半径也更新4)。这个场景图所示4(一)。事实上,当传入的实例下降到最近的微簇,我们执行同样的操作,也就是说,传入的实例是合并到最近的微簇。场景2:传入的实例的距离最近的微簇的标签和标签不同的实例是最近的微簇的边界内,从图4 (b)。本文存在的基本假设两个相邻实例极有可能表示相同的概念,即。,它们共享相同的类标签的概率是非常高的。根据基本假设,传入的实例将被视为噪音和删除。场景3:相比场景2,传入的实例的标签不同于最近的微簇的标签和输入实例没有下降到最近的微簇,如图4 (c)。这种情况表明,传入的实例来源于不同的联合概率分布。在这种情况下,我们认为新概念,并将由传入微簇实例部分中描述的方法4.1。因为只有一个实例在这个新的微簇构造,其标签 将与传入的实例及其重心将传入的实例本身。条款 新微簇的计算方程(1)和(2),的价值 是0。

4.2.3。第三阶段(更新):微簇的更新

随着时间的流逝,新的微簇不断被创造出来,最终,游泳池将达到极限。一旦完整,表现最差的微簇将被替换为新的微簇。这个周期性更新分类模型可以有效地捕捉概念改变,它会导致提高分类精度。一般来说,值越小 ,更糟糕的是微簇的性能。因此,用最小的微簇 是替代选择。

4.3。算法复杂性分析

总之上述阶段和场景在数据流分类模型中,microcluster-based增量算法的系综分类命名为MCBIE表达的算法1

MCBIE包括三个阶段的算法实现三个功能,即分类、增量学习和更新池。1号线是培养微簇的初始微簇和建立一个池。行3到6实现传入实例的分类 和更新微簇的性能。根据三种不同的场景中,第二阶段的功能是完成在7 - 12行。最后,基分类器达到上限的大小 ,最糟糕的微簇将被删除,新的微簇被添加到微簇池。相反,新的微簇是直接投入微簇池。见行13日至19日。

算法的复杂性,通过分析,我们知道算法的核心操作包括MCBIE是在分类阶段计算距离。这里的复杂度主要取决于两个方面:实例的维度 和微簇作为基分类器的数目 在整体模型中。因此,提出了算法的时间复杂度是约 提出的算法,前面的实例并不随着时间的推移,保留和微簇记录的统计信息,如 , , ,这种方式可以节省存储记忆。

5。实验

5.1。数据集

评估MCBIE,我们用两个合成数据集进行仿真实验。这两个数据集选择大海是超平面数据流和数据流从大规模在线分析(农业部)36]。超平面数据流的目的是测试逐渐漂移,而海突然漂移数据流设计试验。这些都是最流行的数据集的数据流分类领域。进一步的细节如下。超平面数据流(37): - - - - - -维空间,一个超平面包括点集 满足 ,在哪里 代表了 - - - - - -th尺寸 实例的 代表积极类,实例的 代表负类。一个超平面 - - - - - -维空间可能慢慢旋转通过改变参数模拟的概念图示。本文的价值 是10,有6属性概念漂移,它产生20000实例。三种不同噪声比例(分别为20%,25%,和30%)注入数据流。海洋数据流(29日]:这个数据流生成的实例从三个属性连续值 当它满足 ,实例是正类;否则,实例的标签是负的。模拟概念漂移,阈值 会随着时间改变。它与每一个阈值,产生5000实例,整个海洋数据流包括20000个实例。海与两个不同的数据流噪声比率(20%和30%)是应用在这个实验中测试突然漂移。

5.2。基线

PA算法框架(19)和霍夫丁树(38)选为基线与MCBIE提出方法,比较这两种方法经常被选为基准在许多研究[20.,22,23,38]。此外,正如著名的经典算法,霍夫丁树算法集成到农业部平台(36]。因此,我们在我们的报纸也纷纷效仿。PA算法框架(19)是一个在线增量学习二元框架基于SVM的分类。给定实例 ,分类模型输出预测如下: 在哪里 表示一个向量的权重 预测的实例吗

输出,获得地面真理类标签 和计算损失价值造成以下方程:

权重的向量 然后更新使用 在哪里 是拉格朗日乘数的值是计算方程(9)在三个不同的方法,即PA、PA-I, PA-II。 在哪里 是一个积极的参数,称为攻击性参数的算法。详细的推导过程的轮廓可以找到在19]。霍夫丁树(38)是一个决策树对在线学习的大容量数据流,它是建立在常数时间每个实例。根据霍夫丁绑定,我们可以估计实例的数量需要构建树节点。霍夫丁绑定无关的分布函数生成实例。此外,霍夫丁约束是用来构造霍夫丁树近似产生的一批学习。根据其增量霍夫丁树的性质,它被广泛应用于数据流分类。

5.3。实验设置

后first-test-and-then-train原则(39),每个传入实例测试,然后重新训练模型的增量范式下的实例。评估分类模型的性能,分类精度计算过程中每一百个实例数据流分类。

MCBIE和基线前100个实例初始化,和由此导致的模型初始化用于预测下列实例数据流。在MCBIE,我们使用这些100实例训练6初始微簇基分类器使用 - - - - - -意味着算法。在每一个时间戳,每个传入的三个最近的微簇实例选择维护标签信息。微簇的最大尺度池是30,一旦完整,一种新的微簇的表现最差的微簇连接池中。我们使用Weka包来实现MCBIE算法。霍夫丁树算法(命名为HT)是在农业部运行平台的参数设置为默认值。PA, PA-I, PA-II高斯内核执行在MATLAB和常数 = 1。

5.4。实验结果和分析

仿真实验旨在评估MCBIE双方。首先,我们希望评估平滑参数的敏感性 ;第二,我们要证明MCBIE的可行性和有效性。

5.4.1之前。实验1:平滑参数的敏感性分析

以下部分的实验装置5.3,我们验证平滑参数的函数 MCBIE从0.1到1。当平滑参数 要么是太大或太小,MCBIE的平均精度没有达到期望的结果和相应的标准差超平面数据流和数据流。通过观察和分析,我们发现平滑参数 可以调节之间的平衡的历史和新实例用来计算微簇的质心。当 ,微簇的质心将不动,只有它的半径变化。相反,当 达到最大值时,微簇的质心的实例是一个意思。它表明所有实例重心有相同的重要性。然而,由于概念漂移将发生在非平稳的数据流环境下,实例在不同的时间戳微簇的质心应该有不同的贡献。实验结果证明了这种观点。根据实验结果的分析,得出结论是,最好的价值 位于一个区间 ;因此,我们选择 为后续实验。

5.4.2。实验2:MCBIE的可行性和有效性

所有的实验结果与超平面和海洋数据流表所示1。与此同时,每一列的最大值是标记为粗体。

从表1,我们看到MCBIE的平均精度达到最高价值的69.6%,64.8%,和61.8%的超平面数据流噪声比率为20%,25%,和30%,分别。相应的标准方差的三个平均精度为0.051,0.046,和0.047,标准方差精度与基线相比相对较低。平均MCBIE提供了最准确的分类最少的标准方差在所有超平面的基线数据流。在海上数据流,MCBIE 70.8%至20%的平均分类精度噪音和63.2%至30%的噪声,分别。再一次,标准方差最小的所有基线相比,证明MCBIE的稳定与噪声的非平稳数据流。基于以上实验结果,我们可以得出一个结论,MCBIE是一种有效和良好的分类方法。

通过实验结果的进一步分析表1,一些有趣的现象存在。随着信噪比的增长,MCBIE的性能比其他方法得到了一定程度的改进。例如,噪声比20%的海洋数据流,MCBIE仅排名第二PA-I背后的铅。然而,在30%的噪音,MCBIE变得最准确的模型。给出相同的噪声比,实验结果表明,该分类模型对海洋数据流上执行比超平面数据流。这表明它是比较困难的分类模型学习知识从逐渐漂移比突然的漂移。所有的基线,PA-I提供了最佳的性能,这意味着选择一个适当的学习比 增量学习是很重要的。霍夫丁树基线标准方差最大,这表明霍夫丁树也不稳定。

最后但并非最不重要,我们想展示MCBIE适应概念漂移;数据56说明精度曲线MCBIE方法与超平面和数据流。图5表明MCBIE可以及时解决概念漂移的超平面数据流不同噪音比率。当发生概念漂移时,曲线绘制在图5大幅下降,表明模型的概念包括不符合当前的概念。MCBIE概念变化时的准确性降低。然而,MCBIE的性能提高后立即重新训练模型和更新通过增量与传入的实例学习。的强度上升和下降在图5反映了分类模型,有能力抓住概念漂移。在图6我们很容易理解,类似的现象提出了海洋数据流。

演示MCBIE的优势,基于上述分析,我们选择这两个最好的方法MCBIE和PA-I说明执行预测任务的能力与噪音和概念漂移流数据设置。数据的准确性曲线绘制78。从图7,精度曲线表明,这两种方法有能力跟踪概念漂移和清楚地表明,我们的方法在准确性方面优于PA-I超平面与三个不同的数据流噪声比率。此外,在三种情况下,最大和最小MCBIE精度高于PA-I。通过分析准确性的曲线在海洋数据流,关心适应概念漂移的能力,这两个方法似乎有相同的函数来处理非平稳的数据流分类,显示在图8。此外,随着噪声比的增长,比PA-I MCBIE有更好的性能,如稳定。

从这些分析中,我们得出这样的结论:MCBIE方法能够进行非平稳的数据流分类精度高的特点是概念漂移和噪声环境。

6。结论

在非平稳的数据流分类任务面临着两个主要问题:概念漂移和噪声要求分类模型不仅应对概念漂移还区分噪声和概念漂移。为了解决这些问题,提出了一个叫MCBIE的新方法,可以实现与噪声的非平稳数据流分类任务。旨在提高MCBIE的表现,三种策略用于缓解概念漂移和噪声的影响。摘要增量学习可以帮助微簇作为分类器概念变化快和整体策略缓解噪声和漂移概念之间的干扰。平滑参数的功能是吸收有用的信息从历史知识。与基线方法相比,实验结果证明我们的方法,MCBIE,有能力执行分类在非平稳的流数据设置。然而,值得进一步关注的三个问题:(1)如何改进我们的方法在突然的噪声识别能力漂移环境需要进一步加强;(2)除了准确性、稳定性的模型需要改进;(3)概念重新出现时,重要的是要为更换微簇设计更合适的策略。

数据可用性

使用的数据来支持本研究的发现已经存入GitHub库(https://github.com/FanzhenLiu/ComplexityJournal)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了安徽省自然科学基金(1608085 mf147和1608085 mf183号)的人文社会科学基础教育部(没有。18 yja630114),自然科学研究的一个主要项目的学院和大学安徽省(没有。KJ2019ZD15), MQNS(没有。9201701203),MQEPS(没有。96804590),MQRSG(没有。95109718),调查分析澳大利亚麦考瑞大学与Data61 CSIRO的合作研究项目。