复杂性

在这一页上

文摘介绍相关工作结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

协作的大数据管理和分析复杂系统的优势

把这个特殊的问题

研究文章|开放获取

体积2020年| 文章的ID6147378| https://doi.org/10.1155/2020/6147378

Microcluster-Based增量合奏学习吵,非平稳的数据流

刘三民,^1、2 山雪 ,² Fanzhen刘,² 劼人程 ,³ Xiulai李,^3、4 曹国伟香港,¹ 和吴贾 ²

客座编辑: Xuyun张

收到了 2019年10月23日

修改后的 2019年12月26日

接受 2020年2月01

发表 2020年5月05

文摘

数据流分类变成了一个有前途的预测与相关合作,许多实际的环境。然而,概念漂移和噪声的环境下,数据流分类的研究面临很多挑战。因此,提出了一种新的增量合奏模式与噪声的非平稳数据流分类。我们的方法集成了三种策略:增量学习监控和适应概念漂移;整体学习来提高模型的稳定性;和微簇过程区分从噪声和漂移预测的实例的标签通过多数票。实验和两个合成数据集用来测试逐渐和突然的漂移表明,我们的方法在非平稳的数据流提供了更准确的分类比两种流行的基线噪音。

1。介绍

我们现在生产的速度和贪婪使流媒体数据无处不在在实际应用1]。例如,入侵检测(2)、信用欺诈检测(3),网络流量管理(4),和推荐系统5所有依赖于数据流。然而,数据流有一些独特的特点,使其更难以控制。首先,数据可以以非常快的速度和大量生成。第二,存在概念漂移的数据流,和现有的模型不再像以前那样有效地工作。最后,物理约束意味着只能使用一定量的知识或从数据流中提取在任何时候,一旦运行,它可以是非常困难的去获取更多的知识。因此,数据流挖掘面临许多挑战。

揭示隐藏在数据流的知识广泛被称为数据流挖掘,包括数据流分类、聚类和其他数据分析任务(6]。可以说,数据流分类是最常见的分析任务在许多实际应用。由于时序特征,相关的研究数据的蒸汽分类面对很多困难。例如,跟踪与概念漂移,模型不仅需要经常重新训练,而且其处理和内存开销必须保持低处理数据的速度和体积。在传统的数据挖掘的情况下,该模型只需要从一个静态数据集提取知识的联合分布函数不会改变。然而,我们的模型数据流分类需要从实例中提取知识随着时间的推移而产生的联合分布函数是变量,即。,存在概念漂移(7,8]。根据许多研究,概念漂移数据流分类的主要障碍。

到目前为止,解决分类的非平稳数据流环境中都是基于在线或整体学习,和这些方法提高分类的性能。关于概念漂移不平衡流数据设置,一个学习模式提出了重采样技术(7]。结合在线合奏法同时考虑概念漂移和高维问题[9]。此外,根据各种分类的场景,许多监督学习方法最近被广泛探讨(10- - - - - -17),和一些已经应用于数据流分类,如支持向量机(SVM)和贝叶斯方法。

在非平稳的流数据环境中,这些调查解决的一些问题,包括概念漂移、维度的诅咒,和不平衡的学习。然而,仍然有一些开放的问题需要解决。例如,很少有研究考虑如何有效地同时应付两个概念漂移和噪声的非平稳数据流。为了处理这些问题,我们设计一种新的分类方法,构造微簇作为基分类器。最终预测的实例的类标签是由一个微簇的多数票。同时,增量学习策略结合整体学习和平滑算子的工作模型适应概念漂移,区分噪声,并保持稳定。

总之,在我们的论文存在的三个主要贡献:(1)技术构造一组微簇作为基分类器通过重新定义之前使用集群功能的概念层次聚类分析。好的分类结果可以实现非平稳的数据流结合众多微簇。此外,微簇结合增量学习吸收新知识,是一个非常方便的方式跟踪概念漂移。(2)平滑策略旨在改变微簇的质心和控制之间的平衡的历史和新实例。这种方法使历史知识的充分利用,也可以克服漂移数据的短缺问题。(3)多数投票策略和增量学习提高模型的稳定性和适应性与噪声的非平稳数据流。因此,该模型利用两者优点的合奏和增量学习保持高精度预测类标签。

本文组织如下。后台工作中讨论部分2,然后部分3概述了基本概念。部分4描述了该模型并提供了算法的复杂性分析。节5、实验模式和结果。部分6描述了结论和未来的计划。

一个优秀的数据流分类方法有能力逐步学习和适应概念漂移(18]。一般来说,两种重要的增量学习方法而言:instance-incremental学习(19,20.),这一次学习实例,和batch-incremental学习(21],它可以从实例设置一次。instance-incremental学习小组,谎言et al。19)开发了一个在线被动攻击的算法(PA)框架基于SVM部队分类超平面将满足最低损失约束分类器分类实例。这个框架被广泛探讨对于许多实际的设置(22,23]。在工作24),它提出了instance-incremental方法与加权看到下面成了SVM能够解决逐渐漂移的非平稳数据流。Instance-incremental学习也是基于极限学习机来提高分类速度(25]。数据流是稳定的,当输入实例是用于更新分类器;然而,当发生概念漂移,表现弱分类器被删除。这是一个非常灵活的实时数据流分类方法。陆batch-incremental学习领域,et al。26)提供了一种新颖的动态加权多数方法处理不平衡问题和概念漂移。该方法使用动态加权集成学习保持稳定的分类模型和batch-incremental学习跟踪概念漂移。

在两种模式之间,基于实例的增量学习更灵活和可扩展的实时数据流分类。这也是一个更合适的方法环境中很难提前标签实例和理解概念(20.]。因此,我们将注意力转向instance-incremental学习在本文的其余部分,使用简单的词增量学习,以后。

整体学习的动力研究与数据流分类来自渴望提高分类模型的稳定(27- - - - - -31日]。这些模型包括基分类器组和合并方法相结合的基本分类器的输出到最终输出。海算法(29日)是一个早期的整体方法。当大海合奏模型不完整,每个新到达的数据块是用来建立一个新的基分类器。如果已经达到的极限,新的分类器还为每个新到达的数据构造块,但是它替代最差的分类器的性能。根据多数投票策略,整体方法,大海,输出最终的预测。另一个类似的工作是基于精度加权集成方法(30.),重要的是将重量分配给每个基分类器估计的准确性对最新的数据块。这种观点表明,最新的数据块可以代表目标有高概率的概念,所以精度较高的分类器应该得到更多的重要性。同时,整体规模已经达到最大时,基分类器性能最差的删除和新基分类器连接到整体模型中。另一个迭代开发的集成学习方法,基于提高和batch-incremental学习(31日]。这种方法添加一个合适的基分类器分类模型与每个新到达的数据块,而不是添加一个。实验结果表明,迭代提高整体分类方法是一种很有前途的方法在非平稳的数据流环境中执行分类任务。除了概念漂移,类分布不平衡的另一个挑战与数据流分类,可以解决整体学习。Zhang et al。(27)的方法是一种双管齐下的方法处理这个问题。第一个方法是把大多数分成子集的大小大致相同的少数,然后构造新的平衡训练子集从少数民族和划分子集。接下来,创建整体模型使用与反向传播神经网络作为基础学习算法。基分类器的多样性是学习系统的重要因素之一。因此,Jackowski [32]引入了两个测量误差趋势的多样性的概念:对错误和池错误,发现并跟踪与概念漂移流数据设置。这个模型实验表明,多样性的测量不仅可以用来提高整体模型的性能,还持有有效的整体模型的规模。基于上述分析,我们认为整体学习是目前最有前途的研究方向为数据流分类。

从这篇评论,我们提取几个观察:增量学习可以动态地揭示数据流的新知识。整体学习可以提高非平稳的数据流分类模型的稳定性。合适的算法可以提高分类模型的灵活性。这三个观测的基础三个集成策略在我们的方法同时解决概念漂移和噪声。

3所示。基本概念和问题定义

本节首先开始描述的在这篇文章中使用的基本概念,然后详细分析探讨研究的问题。

3.1。数据流

根据相关研究,在这篇文章中,我们认为数据流由一系列的标记的情况下,即 ,在哪里 ,在这代表一个特征向量代表一个实例对象的特性和特征是的类标签。当是 , 代表积极的实例。相反,是负的实例。

根据上述定义,我们探索一个映射函数精度高,代表分类模型,该模型可以输出传入的实例的类标签。只有监督学习被认为是。因此,分类模型是由一个标签数据集,一旦建成,它可以输出类标签吗或的实例。此外,对于本文的目的,真正的标签是收购后的映射函数输出预测的实例。

3.2。概念漂移

根据工作(33),当一个联合概率分布数据变化的发展随着时间的推移,存在概念漂移。换句话说, ,其中下标代表时间戳,表明向量代表特征属性的值是一个类标签。根据变化的概念,逐渐漂移和突然的漂移34)进行了讨论。一般来说,逐渐漂移是一个变化的速度较慢,从一个到另一个概念,如图1(一)。当分布突然differentfrom分布吗在 ,我们说突然发生漂移,如图1 (b)。在图1,之间的差别逐渐漂移和突然的漂移明显发现,和这两种漂移。

(一)

(b)

3.3。问题定义

嘈杂的实例和概念漂移出现类似的分布的非平稳数据流。因此,区分噪声和漂移概念的关键,本文的动机来构建一个分类模型,可以发现和跟踪概念漂移和噪声的非平稳流数据。与此同时,为了抓住概念漂移,增量学习的分类模型应该被更新。研究问题是显示在图2。

图2

问题定义的一个示范。在数据流中,(a)微簇(形状:虚线圈)是由历史实例(颜色:绿色)与积极类(形状:圆)和消极类(形状:三角形);(b)当新实例(颜色:红色,形状:圆)来了,微簇更新(颜色:红色,形状:虚线圆圈),和(c)旧微簇包含噪声实例(颜色:红色,形状:圆),和(d)概念漂移(颜色:红色,形状:圆)检测和一个新的微簇(颜色:红色,形状:虚线圆圈)。

从图2显然,我们理解本文的问题定义和识别的实例在非平稳的流数据。虚线圆圈代表一个微簇,点缀直线表明,分布在图实例2。当前的情况如图2(a)。当时间的推移,实例和微簇更新时间戳可以看到从图2(b),它代表了增量学习的情况。在时间戳 ,在图2(c),传入的实例与积极的类标签位于老微簇一个不同的类标签。在这种情况下,新实例被认为是一个嘈杂的实例会被丢弃;这就是为什么这个例子中不再存在于时间戳。在图2(d),输入实例形式概念漂移,导致一个新的微簇结构。

基于上述分析,我们的解决方案包括三种策略来解决研究问题如图2:增量学习跟踪概念漂移;整体学习来提高模型的稳定性;和微簇方法区分漂移和噪声,使最终的标签预测。在下一节中,我们详细列出这些策略并讨论这三个场景如图2。

4所示。自适应增量集成数据流分类方法

本节描述微簇和数据流分类模型,其次是相应的算法。

4.1。微簇的定义

微簇作为分类器在我们的模型是由集群功能,这是一个技术,最初是作为开发层次聚类分析(35]。被定义为集群的结构特性。基于集群功能,我们给这篇论文使用的微簇的定义。

定义1。微簇被表示为 ,在哪里和用于计算的边界那表示平方求和的实例的属性在方程计算(1),是一个向量可以节省每个属性的总和在方程(2),建议实例的数量,礼物的重心变化随着时间的推移,如方程所示(3),是的类标签,统计的数量正确分类的实例α开始是0。在哪里实例的维度。在哪里是的重心在前一个时间戳和代表平滑参数。
的大小是由集群的半径这是计算如下: 在哪里表示向量的长度。

4.2。基于微簇的数据流分类模型

分类模型包括三个阶段:分类、增量学习和更新。一个框架的模型图3。流程和计算这一部分中详细介绍和总结成相应的算法作为算法1。

	输入:实例 ,
	池的最大限度 ,和
	平滑参数。
	输出:微簇的池
(1)	池的初始微簇这是由 - - - - - -意味着
(2)	为每个实例做
	阶段1:分类
(3)	之间的距离和
(4)	选择k最近的微簇对实例进行分类
(5)	预测类标签的实例得到多数票在方程(5)
(6)	更新的参数k最近的微簇
	阶段2:增量学习
(7)	如果场景1然后
(8)	更新最近的微簇的结构方程(1)- (3)和微簇的实例数量将增加1
(9)	其他的如果场景2然后
(10)	考虑到实例作为噪声点和忽视它
(11)	其他的如果场景3然后
(12)	建立一个新的微簇实例
	阶段3:更新池
(13)	如果然后
(14)
(15)
(16)	其他的
(17)	最糟糕的微簇
(18)	取代
(19)	如果
(20)	如果
(21)	结束了
(22)	返回微簇池所需的时间戳

4.2.1。准备第一阶段(分类): - - - - - -最近的微簇分类的实例

当传入实例到达时,欧氏距离计算的实例和每个微簇之间在池中。基于欧氏距离 - - - - - -选择最近的微簇,然后每个微簇将传入的实例分配自己的标签。根据方程(5),最后一个标签的实例是通过合并方法。在哪里代表参与分类和微簇的数量表示类的数量。

一旦传入的实例分类,微簇立即更新。如果最终的预测是正确的,即,如果all the microclusters who voted have the same class label as the final prediction, the value of增加1;否则,它减少1。

4.2.2。第二阶段(增量学习):最近的微簇根据传入的实例将被更新

first-test-and-then-train原则后,最近的微簇立即更新,确保模型快速适应新概念或新构造微簇在这个阶段,这是描绘在图4。场景1:当传入的实例的标签是一样的最近的微簇的标签,传入的实例是用于培训这个微簇。条款 , ,和最近的重新计算了微簇方程(1)- (3)。在这个微簇实例的数量增加1。由方程(微簇的半径也更新4)。这个场景图所示4(一)。事实上,当传入的实例下降到最近的微簇,我们执行同样的操作,也就是说,传入的实例是合并到最近的微簇。场景2:传入的实例的距离最近的微簇的标签和标签不同的实例是最近的微簇的边界内,从图4 (b)。本文存在的基本假设两个相邻实例极有可能表示相同的概念,即。,它们共享相同的类标签的概率是非常高的。根据基本假设,传入的实例将被视为噪音和删除。场景3:相比场景2,传入的实例的标签不同于最近的微簇的标签和输入实例没有下降到最近的微簇,如图4 (c)。这种情况表明,传入的实例来源于不同的联合概率分布。在这种情况下,我们认为新概念,并将由传入微簇实例部分中描述的方法4.1。因为只有一个实例在这个新的微簇构造,其标签将与传入的实例及其重心将传入的实例本身。条款和新微簇的计算方程(1)和(2),的价值是0。

(一)

(b)

(c)

4.2.3。第三阶段(更新):微簇的更新

随着时间的流逝,新的微簇不断被创造出来,最终,游泳池将达到极限。一旦完整,表现最差的微簇将被替换为新的微簇。这个周期性更新分类模型可以有效地捕捉概念改变,它会导致提高分类精度。一般来说,值越小 ,更糟糕的是微簇的性能。因此,用最小的微簇是替代选择。

4.3。算法复杂性分析

总之上述阶段和场景在数据流分类模型中,microcluster-based增量算法的系综分类命名为MCBIE表达的算法1。

MCBIE包括三个阶段的算法实现三个功能,即分类、增量学习和更新池。1号线是培养微簇的初始微簇和建立一个池。行3到6实现传入实例的分类和更新微簇的性能。根据三种不同的场景中,第二阶段的功能是完成在7 - 12行。最后,基分类器达到上限的大小 ,最糟糕的微簇将被删除,新的微簇被添加到微簇池。相反,新的微簇是直接投入微簇池。见行13日至19日。

算法的复杂性,通过分析,我们知道算法的核心操作包括MCBIE是在分类阶段计算距离。这里的复杂度主要取决于两个方面:实例的维度和微簇作为基分类器的数目在整体模型中。因此,提出了算法的时间复杂度是约。提出的算法,前面的实例并不随着时间的推移,保留和微簇记录的统计信息,如 , ,和 ,这种方式可以节省存储记忆。

5。实验

5.1。数据集

评估MCBIE,我们用两个合成数据集进行仿真实验。这两个数据集选择大海是超平面数据流和数据流从大规模在线分析(农业部)36]。超平面数据流的目的是测试逐渐漂移,而海突然漂移数据流设计试验。这些都是最流行的数据集的数据流分类领域。进一步的细节如下。超平面数据流(37): - - - - - -维空间,一个超平面包括点集满足 ,在哪里代表了 - - - - - -th尺寸。实例的代表积极类,实例的代表负类。一个超平面 - - - - - -维空间可能慢慢旋转通过改变参数模拟的概念图示。本文的价值是10,有6属性概念漂移,它产生20000实例。三种不同噪声比例(分别为20%,25%,和30%)注入数据流。海洋数据流(29日]:这个数据流生成的实例从三个属性连续值。当它满足 ,实例是正类;否则,实例的标签是负的。模拟概念漂移,阈值会随着时间改变。它与每一个阈值,产生5000实例,整个海洋数据流包括20000个实例。海与两个不同的数据流噪声比率(20%和30%)是应用在这个实验中测试突然漂移。

5.2。基线

PA算法框架(19)和霍夫丁树(38)选为基线与MCBIE提出方法,比较这两种方法经常被选为基准在许多研究[20.,22,23,38]。此外,正如著名的经典算法,霍夫丁树算法集成到农业部平台(36]。因此,我们在我们的报纸也纷纷效仿。PA算法框架(19)是一个在线增量学习二元框架基于SVM的分类。给定实例 ,分类模型输出预测如下: 在哪里表示一个向量的权重预测的实例吗。

后输出,获得地面真理类标签和计算损失价值造成以下方程:

权重的向量然后更新使用在哪里是拉格朗日乘数的值是计算方程(9)在三个不同的方法,即PA、PA-I, PA-II。在哪里是一个积极的参数,称为攻击性参数的算法。详细的推导过程的轮廓可以找到在19]。霍夫丁树(38)是一个决策树对在线学习的大容量数据流,它是建立在常数时间每个实例。根据霍夫丁绑定,我们可以估计实例的数量需要构建树节点。霍夫丁绑定无关的分布函数生成实例。此外,霍夫丁约束是用来构造霍夫丁树近似产生的一批学习。根据其增量霍夫丁树的性质,它被广泛应用于数据流分类。

5.3。实验设置

后first-test-and-then-train原则(39),每个传入实例测试,然后重新训练模型的增量范式下的实例。评估分类模型的性能,分类精度计算过程中每一百个实例数据流分类。

MCBIE和基线前100个实例初始化,和由此导致的模型初始化用于预测下列实例数据流。在MCBIE,我们使用这些100实例训练6初始微簇基分类器使用 - - - - - -意味着算法。在每一个时间戳,每个传入的三个最近的微簇实例选择维护标签信息。微簇的最大尺度池是30,一旦完整,一种新的微簇的表现最差的微簇连接池中。我们使用Weka包来实现MCBIE算法。霍夫丁树算法(命名为HT)是在农业部运行平台的参数设置为默认值。PA, PA-I, PA-II高斯内核执行在MATLAB和常数= 1。

5.4。实验结果和分析

仿真实验旨在评估MCBIE双方。首先,我们希望评估平滑参数的敏感性 ;第二,我们要证明MCBIE的可行性和有效性。

5.4.1之前。实验1:平滑参数的敏感性分析

以下部分的实验装置5.3,我们验证平滑参数的函数MCBIE从0.1到1。当平滑参数要么是太大或太小,MCBIE的平均精度没有达到期望的结果和相应的标准差超平面数据流和数据流。通过观察和分析,我们发现平滑参数可以调节之间的平衡的历史和新实例用来计算微簇的质心。当 ,微簇的质心将不动,只有它的半径变化。相反,当达到最大值时,微簇的质心的实例是一个意思。它表明所有实例重心有相同的重要性。然而,由于概念漂移将发生在非平稳的数据流环境下,实例在不同的时间戳微簇的质心应该有不同的贡献。实验结果证明了这种观点。根据实验结果的分析,得出结论是,最好的价值位于一个区间 ;因此,我们选择为后续实验。

5.4.2。实验2:MCBIE的可行性和有效性

所有的实验结果与超平面和海洋数据流表所示1。与此同时,每一列的最大值是标记为粗体。

从表1,我们看到MCBIE的平均精度达到最高价值的69.6%,64.8%,和61.8%的超平面数据流噪声比率为20%,25%,和30%,分别。相应的标准方差的三个平均精度为0.051,0.046,和0.047,标准方差精度与基线相比相对较低。平均MCBIE提供了最准确的分类最少的标准方差在所有超平面的基线数据流。在海上数据流,MCBIE 70.8%至20%的平均分类精度噪音和63.2%至30%的噪声,分别。再一次,标准方差最小的所有基线相比,证明MCBIE的稳定与噪声的非平稳数据流。基于以上实验结果,我们可以得出一个结论,MCBIE是一种有效和良好的分类方法。

通过实验结果的进一步分析表1,一些有趣的现象存在。随着信噪比的增长,MCBIE的性能比其他方法得到了一定程度的改进。例如,噪声比20%的海洋数据流,MCBIE仅排名第二PA-I背后的铅。然而,在30%的噪音,MCBIE变得最准确的模型。给出相同的噪声比,实验结果表明,该分类模型对海洋数据流上执行比超平面数据流。这表明它是比较困难的分类模型学习知识从逐渐漂移比突然的漂移。所有的基线,PA-I提供了最佳的性能,这意味着选择一个适当的学习比增量学习是很重要的。霍夫丁树基线标准方差最大,这表明霍夫丁树也不稳定。

最后但并非最不重要,我们想展示MCBIE适应概念漂移;数据5和6说明精度曲线MCBIE方法与超平面和数据流。图5表明MCBIE可以及时解决概念漂移的超平面数据流不同噪音比率。当发生概念漂移时,曲线绘制在图5大幅下降,表明模型的概念包括不符合当前的概念。MCBIE概念变化时的准确性降低。然而,MCBIE的性能提高后立即重新训练模型和更新通过增量与传入的实例学习。的强度上升和下降在图5反映了分类模型,有能力抓住概念漂移。在图6我们很容易理解,类似的现象提出了海洋数据流。

演示MCBIE的优势,基于上述分析,我们选择这两个最好的方法MCBIE和PA-I说明执行预测任务的能力与噪音和概念漂移流数据设置。数据的准确性曲线绘制7和8。从图7,精度曲线表明,这两种方法有能力跟踪概念漂移和清楚地表明,我们的方法在准确性方面优于PA-I超平面与三个不同的数据流噪声比率。此外,在三种情况下,最大和最小MCBIE精度高于PA-I。通过分析准确性的曲线在海洋数据流,关心适应概念漂移的能力,这两个方法似乎有相同的函数来处理非平稳的数据流分类,显示在图8。此外,随着噪声比的增长,比PA-I MCBIE有更好的性能,如稳定。

(一)

(b)

(c)

(一)

(b)

从这些分析中,我们得出这样的结论:MCBIE方法能够进行非平稳的数据流分类精度高的特点是概念漂移和噪声环境。

6。结论

在非平稳的数据流分类任务面临着两个主要问题:概念漂移和噪声要求分类模型不仅应对概念漂移还区分噪声和概念漂移。为了解决这些问题,提出了一个叫MCBIE的新方法,可以实现与噪声的非平稳数据流分类任务。旨在提高MCBIE的表现,三种策略用于缓解概念漂移和噪声的影响。摘要增量学习可以帮助微簇作为分类器概念变化快和整体策略缓解噪声和漂移概念之间的干扰。平滑参数的功能是吸收有用的信息从历史知识。与基线方法相比,实验结果证明我们的方法,MCBIE,有能力执行分类在非平稳的流数据设置。然而,值得进一步关注的三个问题:(1)如何改进我们的方法在突然的噪声识别能力漂移环境需要进一步加强;(2)除了准确性、稳定性的模型需要改进;(3)概念重新出现时,重要的是要为更换微簇设计更合适的策略。

数据可用性

使用的数据来支持本研究的发现已经存入GitHub库(https://github.com/FanzhenLiu/ComplexityJournal)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了安徽省自然科学基金(1608085 mf147和1608085 mf183号)的人文社会科学基础教育部(没有。18 yja630114),自然科学研究的一个主要项目的学院和大学安徽省(没有。KJ2019ZD15), MQNS(没有。9201701203),MQEPS(没有。96804590),MQRSG(没有。95109718),调查分析澳大利亚麦考瑞大学与Data61 CSIRO的合作研究项目。

引用

g . Ditzler m . Roveri c Alippi, r . Polikar”学习在不稳定环境中:一项调查,”IEEE计算机情报杂志,10卷,不。4、目前消费量,2015页。
视图: 出版商的网站 | 谷歌学术搜索
A . Jadhav A . Jadhav p Jadhav, p . Kulkarni”的新方法设计的网络入侵检测系统(NIDS)”学报2013年国际会议上传感器网络安全技术和隐私通讯系统IEEE,页27负,纽约,纽约,美国,2013年12月。
视图: 谷歌学术搜索
萨拉查,g . Safont a索里亚诺,l .范盖拉”自动基于非线性信号处理信用卡欺诈检测,”学报2012年IEEE国际卡纳汉安全技术会议IEEE,页207 - 212年,牛顿,妈,美国,2012年10月。
视图: 谷歌学术搜索
t . Bujlow t . Riaz和j·m·皮德森“基于c5的网络流量分类方法。0机器学习算法”《2012年国际会议上计算、网络和通信IEEE,页237 - 241年,毛伊岛,美国,2012年2月,你好。
视图: 谷歌学术搜索
c·l·高,j . Wu周,y,“协同动态稀疏的主题和用户概要进化回归项建议,”美国31日AAAI会议上人工智能美国,纽约,纽约,2017年2月。
视图: 谷歌学术搜索
美国雪、j . Lu和g .张“跨域网络表示,”模式识别卷,94年,第148 - 135页,2019年。
视图: 谷歌学术搜索
任,w•朱b廖et al .,“选取重采样合奏算法不稳定不平衡流数据学习,”以知识为基础的系统卷,163年,第722 - 705页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
h . j . Sun Fujita、陈平和h·李”具有概念漂移的动态财务困境预测基于时间权重结合演算法支持向量机合奏,”以知识为基础的系统学报》第4 - 14卷,120,页2017。
视图: 出版商的网站 | 谷歌学术搜索
t .翟y高,h . Wang和l .曹“高维进化数据流分类通过资源在线合奏,”数据挖掘和知识发现没有,卷。31日。5,1242 - 1265年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
W.-X。陆、c .周和j .吴”大社交网络的影响力最大化通过递归估计影响的蔓延,“以知识为基础的系统卷,113年,第154 - 143页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
c . y, j . Wu周,z Cai,“克隆实例极端的学习机器,”模式识别卷。68年,52 - 65年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
z . j . Wu Cai,美国曾和x朱,“属性加权朴素贝叶斯分类、人工免疫系统”《2013年国际神经网络(IJCNN)联合会议,页1 - 8,IEEE、达拉斯、TX,美国,2013年8月。
视图: 谷歌学术搜索
锅,j . Wu x朱、张,吴x,“多实例学习与歧视包映射,”IEEE工程知识和数据,30卷,不。6,1065 - 1080年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
p . ZareMoodi s . k . Siahroudi, h . Beigy”为基础的支持向量分类方法在学习标签空间数据流,”31届ACM学报》研讨会上应用计算ACM,页910 - 915年,比萨,意大利,2016年4月。
视图: 谷歌学术搜索
s . s . Ramirez-Gallego b。杰哈卡胡奇加西亚,m·沃兹尼亚克j·m·贝尼特斯和f . Herrera”最近邻分类为高速大数据流使用火花,“IEEE系统,人,和控制论:系统卷,47号10日,2727 - 2739年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
j .伽马r·费尔南德斯,r .罗查,“决策树挖掘数据流,”智能数据分析,10卷,不。1,23-45,2006页。
视图: 谷歌学术搜索
h·l .锤、a . Yazidi和b·j·欧门“动态数据流的分类使用小说《Anti-Bayesian”技术,模式识别卷,76年,第124 - 108页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
m·a·马卢夫,r . s . Michalski与部分实例内存,增量学习”人工智能,卷154,不。1 - 2、95 - 126年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
k .谎言o . Dekel j . Keshet s Shalev-Shwartz和y歌手,“在线被动攻击的算法,机器学习研究杂志》上7卷,第585 - 551页,2006年。
视图: 谷歌学术搜索
m·坦南特f·斯塔尔,o . Rana和j·b·戈梅斯”可伸缩的实时分类和概念漂移的数据流,”未来一代计算机系统卷,75年,第199 - 187页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
j .阅读,a . Bifet b Pfahringer, g .福尔摩斯“Batch-incremental与instance-incremental学习动态和不断变化的数据,”智能数据分析国际研讨会学报》上施普林格,页313 - 323年,2012年10月芬兰赫尔辛基。
视图: 谷歌学术搜索
d . j . Lu Sahoo、p .赵和s . c .荔枝”稀疏被动攻击的学习内核方法,网上有界”ACM智能交易系统和技术,9卷,不。4,p。2018。
视图: 出版商的网站 | 谷歌学术搜索
大m ., a高桥、t·安和t .菅沼,“面向用户视频流服务基于被动积极学习,”软件科学和计算智能的国际期刊,9卷,不。1,35至54岁,要高许多2017页。
视图: 出版商的网站 | 谷歌学术搜索
b、m . Woźniak杰哈卡胡奇”看到下面成了一个分类器与增量学习和忘记对于概念漂移的数据流,”软计算,19卷,不。12日,第3400 - 3387页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
徐和j·王”,一个快速增量的极限学习机算法为数据流分类,“专家系统与应用程序卷,65年,第344 - 332页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
y, Y.-M。张,y y唐“动态加权多数增量学习概念漂移的数据流不平衡”《2017年国际联合会议上人工智能澳大利亚墨尔本,页2393 - 2399,,2017年8月。
视图: 谷歌学术搜索
y, j . Yu w·刘,k . Ota”整体倾斜的基于神经网络的数据流分类,“国际期刊的不确定性、模糊性和以知识为基础的系统p。08年,卷。26日,2018年。
视图: 出版商的网站 | 谷歌学术搜索
l . l . Minku b。杰哈卡胡奇j .伽马和m . Woźniak j . Stefanowski“整体学习数据流分析:一项调查,“信息融合37卷,第156 - 132页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
w . n .金街和y“流整体算法(海)大规模分类,”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM,页377 - 382年,旧金山,美国,2001年8月。
视图: 谷歌学术搜索
w·h . Wang粉丝,p . s . Yu和j·汉、“矿业concept-drifting数据流使用系综分类器”第九届ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM,页226 - 235年,华盛顿特区,2003年12月。
视图: 谷歌学术搜索
j . r . b .初中和m•Nicoletti,“流数据分类迭代增强型合奏的,”信息融合,45卷,第78 - 66页,2019年。
视图: 谷歌学术搜索
k . Jackowski“新的数据流分类多样性度量乐团,“人工智能技术的工程应用卷。74年,23-34,2018页。
视图: 出版商的网站 | 谷歌学术搜索
g·韦伯,r·海德h .曹h·l·阮和f·佩提特金,“漂移”描述概念,数据挖掘和知识发现,30卷,不。4、964 - 994年,2016页。
视图: 谷歌学术搜索
a . Tsymbal”概念漂移的问题:定义和相关工作,”计算机科学系,卷106,不。2、2004。
视图: 谷歌学术搜索
t·张,r . Ramakrishnan, m . Livny“桦木、”ACM SIGMOD记录,25卷,不。2、103 - 114年,1996页。
视图: 出版商的网站 | 谷歌学术搜索
a . Bifet g·霍姆斯,r·科克和b . Pfahringer“恐鸟:大规模在线分析,”机器学习研究杂志》上11卷,第1604 - 1601页,2010年。
视图: 谷歌学术搜索
g . Hulten l·斯宾塞,p·多明戈,“挖掘数据流,图示”第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM,页97 - 106年,旧金山,美国,2001年12月。
视图: 谷歌学术搜索
p·多明戈和g . Hulten“矿业高速数据流”第五届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,卷2,p。4,波士顿,MA,美国,2000年4月。
视图: 谷歌学术搜索
a . Bifet g·霍姆斯,b . Pfahringer和r . Gavalda”改善自适应装袋演化数据流的方法,”机器学习学报2009年亚洲会议页23-37 Springer,柏林,德国,2009年11月。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

574年

下载

949年

引用

复杂性

协作的大数据管理和分析复杂系统的优势

Microcluster-Based增量合奏学习吵,非平稳的数据流

文摘

1。介绍

2。相关工作

3所示。基本概念和问题定义

3.1。数据流

3.2。概念漂移

3.3。问题定义

4所示。自适应增量集成数据流分类方法

4.1。微簇的定义

4.2。基于微簇的数据流分类模型

4.2.1。准备第一阶段(分类): - - - - - -最近的微簇分类的实例

4.2.2。第二阶段(增量学习):最近的微簇根据传入的实例将被更新

4.2.3。第三阶段(更新):微簇的更新

4.3。算法复杂性分析

5。实验

5.1。数据集

5.2。基线

5.3。实验设置

5.4。实验结果和分析

5.4.1之前。实验1:平滑参数的敏感性分析

5.4.2。实验2:MCBIE的可行性和有效性

6。结论

数据可用性

的利益冲突

确认

引用

版权