raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

复杂性

1099 - 0526 1076 - 2787

Hindawi

10.1155 / 2021/9178461

9178461

研究文章

EMM-CLODS:一个有效的微簇和最小修剪CLustering-Based在数据流异常值检测方法

https://orcid.org/0000 - 0002 - 7335 - 602 x

呸

穆罕默德Jaward

https://orcid.org/0000 - 0002 - 7521 - 2871

王

9月

https://orcid.org/0000 - 0003 - 3861 - 1352

赵

李辉

https://orcid.org/0000 - 0001 - 7167 - 6970

张

霁

⁴ 肖

杰

⁵ 熊

范

浙江实验室

杭州

中国

zhejianglab.com

哈尔滨工业大学

哈尔滨

中国

hit.edu.cn

中国北方大学

太原

中国

nuc.edu.cn

⁴

南昆士兰大学

图文巴

澳大利亚

usq.edu.au

⁵

杭州玉古科技有限公司有限公司

杭州

中国

2021年

13 9 2021年

2021年 7 7 2021年 10 8 2021年 23 8 2021年 13 9 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

检测异常值在数据流是一个具有挑战性的问题,因为在数据流的情况下,多次扫描数据是不可行的,传入的流数据继续进化。多年来,异常值检测的一种常见方法是使用clustering-based方法,但这些方法固有的挑战和缺陷。这些包括有效集群稀疏数据点与聚类方法的质量,处理连续fast-incoming数据流,高内存和时间消耗,和缺乏异常值检测精度高。本文旨在提出一种有效clustering-based方法来检测异常值变化的数据流。我们提出一个新的方法称为有效微簇和最小修剪CLustering-based在数据流异常检测方法(EMM-CLODS)。clustering-based孤立点检测的方法,检测异常值的演化数据流首先应用微簇集群技术密集的数据点和有效地处理对象在一个滑动窗口根据相关性的地位各自的邻居或位置。分析从我们在合成和真实数据集的实验研究表明,该技术以最小的内存和时间表现良好消费相比其他基线算法,使之成为一个非常有前途的技术在处理数据流异常检测问题。

杭州城市的博士后基金

119001 - ub2101sj

π浙江实验室的研究项目

111007 - pi2001

中国国家自然科学基金

62172372

U1866602

浙江省自然科学基金

LZ21F030001

1。介绍

在当前的时代,需要检测异常行为揭示突出的事实,观测,实现准确的预测数据是极其重要的。检测异常值就是这样一个重要的数据挖掘任务,旨在检测对象偏离预期的正常数据的模式。检测异常值的过程是挑战由于数字时代的进步。例如,革命的数据从传统的批量数据,我们见证了大量数据的出现不断以高速度和动态生成的。这些数据被称为数据流,是由许多应用程序生成的 1- - - - - - 3]。与传统的数据集,因为数据的性质,这不是可行的整个数据流保存在内存中或运行数据通过多个扫描。这是因为数据是巨大和无限,有不同的速度,继续发展。

提出了大量的方法来检测异常值在数据流 8- - - - - - 11]。不同类别的提议中异常值检测方法,clustering-based方法在静态数据显示是受欢迎但是最具挑战性的一个采用在数据流异常检测任务。尽管他们已经证明是有效的对一些异常值检测任务,它们会导致低计算成本和高可伸缩性在高维数据 5, 12]。然而,大多数主流的数据流聚类方法受到不同的缺点。他们可以提高当我们考虑频谱有效性和效率,例如,处理连续fast-incoming数据流,计算需求上升的内存和时间,集群质量和异常值检测率。聚类和异常值检测数据流的过程是复杂的自聚类技术往往都涉及到几个参数和操作在低收入和高维空间,限制过度基于距离计算对象的邻居,噪音,等等。出于这个原因,clustering-based方法有不同的性能不同的应用领域和数据类型。因此,必须设计一个有效的方法将整体解决问题和生产性能稳定的检测离群值。

尽管集群偶尔挑战和警告,它仍然是另一个不错的选择,并承诺解决方案检测离群值。聚类的优点是,它允许使用数量有限的时间和内存,这是必要的,在处理数据流。这是因为聚类分组元素的行为使用集提供的能力分组相似的项目,限制冗余处理和计算的需要。聚类方法提供在线和离线过程的支持,通常用于数据流应用程序也是灵活适应不断变化的数据的性质。

在本文中,我们提出一种新的微簇和最小修剪clustering-based无监督异常值检测方案来检测异常值在数据流同时解决提到的挑战。该方法涉及到不同阶段适应数据分布的动态变化,旨在消除先前提出方法的局限性。新提出的方法有效的微簇和最小修剪CLustering-based在数据流异常检测方法(EMM-CLODS),这是一个CLustering-based孤立点检测的方法。我们称之为简称泥块和使用这个缩写代替EMM-CLODS整个论文。从演化数据流检测异常值,首先应用微簇集群技术密集的数据点。然后它有效地处理对象在一个滑动窗口根据他们的地位各自邻居的相关性或位置通过最小的修剪技术。

在我们的数据流场景中,数据集的大小可能是无限的,我们处理数据在一个固定期间减少异常值检测任务的复杂性。新传入的数据点到达时,应用微簇技术,识别对象,更类似于对方,满足聚类方法的基本前提。扫描数据的方法,适应变化的时间流数据演变。它不断地输入数据并定期更新,并得到了结果。最后,从这些结果,土块报告关键的见解,确定他们是否异常值或窗。该技术的优点是,它可以有效地节省时间和内存,由于微簇技术和最小的修剪。它消除了需要计算每个数据点的集群并存储在内存中每一个数据点。总之,这项工作的主要贡献如下: (我)

我们建议,土块,基于微簇的新技术和最小修剪集群之外的数据点,解决问题检测异常值连续变化的数据流。

(2)

我们建议优先处理的对象的概念在集群最小化内存和时间消耗在更新阶段根据相关性的地位各自的邻居或位置。

(3)

我们提出的方法可以有效地优化和解决时间和内存约束的问题和挑战,同时保持其准确性检测异常值的数据流。

(iv)

我们通过广泛的实验演示一些基准数据集我们的方法与其他方法的有效性的数据流异常检测过程。

剩下的纸是组织如下:在部分 2和 3,我们提出相关的工作和问题公式化,分别。节 4我们建议的方法,我们在细节。节 5我们目前的实验研究,包括结果和讨论。最后,在节 6,我们提出本文的结论。

图1

流媒体数据。

2。相关工作

检测异常值是一个著名的域数据挖掘社区,它被应用在广泛的应用领域 13, 14)和其他领域,如社区检测( 15, 16]。它已经被广泛的研究 17- - - - - - 19]。在最近的一项调查 11],我们离群值检测方法分为不同的类别,这些类别中提出有效的方法来检测异常值在数据流 8, 11]。在本系列研究进展,clustering-based类别开放研究差距和挑战。提出解决方案和改进这些方法将大大有助于身体的异常检测方法。

数据挖掘的聚类方法是一种无监督的方法,组织类似的密集的数据点。几种方法使用集群技术和它的变体方法已经提出了孤立点检测的任务。然而,一些遭受早些时候提出的聚类方法的缺点如缓冲内存中的所有数据点为未来处理,或者在某些情况下,不考虑数据点,常常会导致集群。有大量的这些方法都集中在静态数据和流媒体数据类型( 20., 21]。这些方法大多采用两阶段方案:在线和离线阶段。大多数的早些时候提出的流数据聚类方法处理静态集群在一个连续的形式。这种方法的一个缺点是,最近的和过时的数据都以同样的方式来处理。几个滑动窗口模型提出了解决这一问题。演化数据流,Toshniwal Yokita et al。 20.使用简单的)提出了一个框架 k则和属性权重来检测异常值,而曹et al。 22)提出了一个技术相关density-based演化数据流的聚类。在他们的方法中,输入数据选择根据他们的中心之间的距离离群值或潜在核心微簇。在这种情况下,随着越来越多的异常值,聚类准确性成为一个问题。因此,刘等人。 23提出了一种新的技术来解决这一缺点。尽管他们试图解决这个问题,它是在一个较高的计算成本。打捞计算成本,提高聚类和孤立点检测的准确性,Kumar和夏尔马( 24)应用技术,提取重叠微簇的边界点。许多其他集群技术提出了孤立点检测的流程,如density-based微簇( 22, 25),基于网格的聚类( 6, 26分区算法,数据流( 12, 21]。然而,由于这是一个简短的纸,桌子 1简要介绍一些这些技术相比,我们的方法的总结技术,发展数据模型和孤立点检测方法。

表1

一些关键的聚类算法。

方法	摘要技术	不断变化的数据模型	异常值检测
CluStream [ 4]	微簇	Tilted-time窗口	- - - - - -
D-Stream [ 5]	网格	褪色的窗口	零星的网格
DenStream [ 6]	微簇	褪色的窗口	离群值微簇
DENGRIS-Stream [ 7]	网格	滑动窗口	稀疏的网格
Ours-CLODS	微簇	滑动窗口	离群值微簇

值得注意的是,从表 1,没有两个方法共享相同的方法。我们的工作是首先使用滑动窗口模型中的微簇使用例外微簇来处理不断发展对象变化特性。对于一个更全面的相关工作为孤立点检测的集群技术,我们建议王et al。 11)调查报告。

3所示。预赛和配方问题 3.1。符号和定义

本文中使用的关键符号包括但不限于如下表 2。

表2

符号列表和他们的解释。

符号	解释
d 我	我th数据点, 我 = 1 , … , n
R	距离阈值
K	数量的邻居
W	窗口大小
年代	滑动窗口大小
∞	数据流
t 我	的具体时间
d c 我	数据点在当前窗口
d e 我	过期的数据点
O d	检测到异常值/秒

3.2。关键术语的定义 3.2.1之上。离群值

对于一个数据集 D 的 n 点, D = d 1 , d 2 , … , d n 。每当数据点 d 我或者整个的一组数据点 d 1 , d 2 , … , d n 大大偏离了这些其他集,这些点被认为是离群值。

3.2.2。邻居

的两个数据点 d 我和 d n 一个数据点 d 我被认为是邻居的 d n 如果两个之间的距离不超过阈值的距离 R > 0 。换句话说,如果 d 我不超过 R 从 d n ,那么它就是一个邻居的 d n 。一个数据点 d 不能一个邻居的本身。

3.2.3。滑动窗口

基于滑动窗口的基于时间的窗口和点窗口两种类型的窗口模型通常用于数据流。前者考虑了数据点的时间间隔内两个确定数据点,例如,在点 x 和 y , t x 和 t y 。后者因此认为计数数据点在指定窗口的大小。

3.2.4。微簇

微簇时形成一个数据点的半径 R / 2 从中心和微簇,两个数据点之间的距离,让我们假设 d 1 和 d 2 ,不应超过 R 。

微簇的功能在我们的技术如下:我们应用微簇最小化范围查询和最小化基于距离的计算。微簇消除过度范围查询的需要通过存储你的邻居在微簇的数据点。因此,提高底层评价指标:内存和时间消耗。提出的方法中采用的微簇给不再需要的优势范围查询和控制计算的距离。除了在内存中只存储重要的窗,微簇也提高内存约束,因为单个微簇有能力获得每个对象的社区信息在同一集群。

在图 1,我们可以看到这一点 W 1 = t 1 − t 14 和 W 2 = t 10 − t 21 ,在那里 W 2 是当前窗口 W 1 是过期的窗口。fast-incoming数据点 dp 从1到23日的数据流。根据定义,数据流是一个无限数量的数据点在一个特定的时间戳或无界序列。也就是说,数据流我 = 年代 t | 0 ≤ t , t=时间和 dp , 年代我 = 1、2 , n = 年代 1 , 年代 2 , 年代 3 , … , 年代 n 。每一个 dp 在其窗口有一个邻居,但不能一个邻居。你的邻居的任何特定的数据点年代我不得超过所需的距离阈值 R ,从对方。例如,在图 1, dp 1、2、4、5 是3的邻居,而 17日,18日,20日,21日是19岁的邻居。邻居们发挥着至关重要的作用在整个异常值检测过程;因此,我们特别注意他们。

图2

泥块的框架

在 W 2 幻灯片,或者当窗口,确定数据点是局外人或窗可以创建额外的约束数据点由于进化的本质。一些邻居会到期,如 dp 8、9 在 8 − 12 ,成为过时当窗口幻灯片。在不同窗口中阶段,如何执行聚类的问题,如何使用最少的修剪最重要的数据点,如何处理传入和过期了 dp ,和什么样的集群技术应用,同时,要求该集群技术满足确保(1)集群捕捉更多 dp 和(2)内围层或正确检测到异常值,计算最低的成本计算成为可能。

3.3。问题公式化

问题陈述:本文的主要目标是提供一种改进的解决方案来解决这个问题的有效聚类和异常值检测飞速发展数据流。

新的数据流持续到达, 年代 = 年代 t t = 1、2 , … , 与维数 d 在时间 t 和演变特性变化随着数据速率的增加,我们需要设计一个健壮的方法,将处理数据流的聚类的发展有效地传入的数据流,同时检测异常值在最短的可能时间,较低的内存使用量,同时保持高检测精度。同时,我们处理集群之外的数据点在处理旧集群的衰落,新的和过期的数据点,检测离群值。关键的挑战在于积极发展数据点位置不断改变由于窗口幻灯片或到来和过期的数据点。这最终使得它在解决整个问题复杂化。这将是一个具有挑战性的任务处理和删除数据点一次,因为他们到达的流。它会占用很多时间。

此外,管理内存空间带来另一个挑战,因为它是不可能预测有多少数据到达和先验到期。变得富有挑战性的集群基本数据点和动态分配空间越来越多的未知的数据点,到达和到期。

这就引出了我们解决基本问题的陈述和问题在这篇文章中,我们如何捕获的数据点偏离其他流数据的发展随着时间的推移,这些额外的约束: (我)

数据点的特性可能会随着时间而改变。

(2)

以前看不见的数据点特征可能随着时间到达。

4所示。提出的方法 4.1。该方法的基本原理

数据来源于他们的源代码的形式快速持续发展的数据流,他们成为具有挑战性的集群数据点和有效地检测异常值,解释的问题陈述。需要特别注意的聚类方法和处理内围层和异常值在这个场景中。为此,我们提出一个新的框架,其中包括不同阶段为了有效地检测异常值,同时保持高精度。新提出的方法称为有效微簇和最小修剪CLustering-based在数据流异常检测方法(EMM-CLODS)是一种CLustering-based在演化数据流异常检测方法,检测异常值使用微簇和最小的修剪。这是通过首先应用微簇集群技术密集的数据点和有效地处理数据点根据相关性的地位各自的邻居或在窗口中的位置。我们采用滑动窗口模型,在这个模型中,微簇技术有助于集群密度数据点快速消除需要一个范围查询搜索。集群外的数据点的近似探测由包括一组实现的内围层意义的计算很简单,以减少计算的需求。

的泥块利用集群和近似探索采用滑动窗口内的数据点模型和最小的修剪集群之外的数据点。它同时发现集群外的异常值并处理潜在的离群值,即使他们不断演变随着数据点的变化状态。与其他传统clustering-based方法相比,它不限制本身检测异常值在静态数据( 2, 11, 27,对于那些支持数据流,聚类过程是不同的 12, 20., 28, 29日),或者他们不是clustering-based方法( 4, 8, 30.]。那些有类似与我们的集群技术使用不同的方案来处理窗口内的数据点或采用不同的窗模型( 12, 27, 29日]。此外,处理过程的数据点在微簇是不同的。与这些方法( 12, 20., 27, 28)处理每个数据点在微簇同样,我们特别关注数据点的相关性对邻国和位置来确定其整体作用孤立点检测的过程。这是确保我们识别潜在的离群值而不是数据点可能错误地标记为离群值。这因此节省时间和内存约束没有性能下降。

4.2。拟议的框架

图 2拟议的框架显示了一个说明性的表示。发病时,对象以数据流的形式不断到达,以前所未有的方式。我们第一次过滤数据通过数据处理来确定它的特征。然后,我们处理预处理数据的滑动窗口模型。在滑动窗口中指定的期间,我们应用探索和聚类过程一起修剪外的数据点集群和检测离群值。在此阶段,附加的处理,如处理至关重要的内围层和潜在的离群值,和处理活动和过期的数据点的窗口幻灯片。在最后阶段,发现离群值然后报道。

图3

不同阶段的滑动窗口处理离群值。

算法 1给出了总体框架的泥块,行3 - 5描述的过程。在算法 2- - - - - - 4,给出算法流程的细节了解整个黑土块算法。在算法 5,我们扩展算法的不同步骤的细节 1。在第一部分,我们执行预处理。然后计算预处理数据流的下一个阶段。在处理窗口内的数据点,在4号线我们确定他们属于一个集群。如果不是在一个集群中,他们的地位的相关性对其他成员在第9行检查。集群外的数据点和不相关的各自的成员可以被应用到函数的最后阶段和报告可以看到作为一个局外人在第11行。

在算法 2处理新数据点在新的滑动窗口显示。我们第一次发现集群,如果有一个数据点 d p 在集群中,我们添加新的数据点,否则因此发起一个新的集群(2 - 6行),而在算法 3,它显示了处理过期的数据。同样,3,我们第一次发现集群和集群中如果找到数据点,我们确保我们检查 d p ′ 年代关联状态到另一个数据点之前将它添加到集群(4 - 5行)。如果没有,我们试图删除它(第7行)。

最后在算法 4我们流程和报告检测离群值。我们第一次初始化数(1号线),如果 d p 不是在任何集群和少数量的邻居形成集群,它返回一个异类。如果它已经过期,然后从数据点在微簇。

<大胆>算法1:< /大胆>黑土块算法。

输入:预处理数据流 ∞ ,数据点 d p 参数:{distance-threshold R 、近邻数 K ,滑动的大小年代 ,窗口大小 W 。}

输出:离群值在滑动窗口

(1)

过程:

(2)

而窗口滑动或 W c ⊳之间的时期 W 开始来 W 结束当年代到达

(3)

在处理数据 W c

(4)

处理新 d p , 年代和 W

(5)

处理过期的 d e 我 , 年代和 W 。

(6)

报告异常值, O d

(7)

结束

<大胆>算法2:< /大胆> < inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M75 " > < mml: msup > < mml: mrow / > < mml: mrow > < mml: mi >∗< / mml: mi > < / mml: mrow > < / mml: msup > < / mml:数学> < / inline-formula >新的滑动窗口处理新数据。 (1)

为 d p 在新幻灯片, 年代做

(2)

c= discoverCluster

(3)

如果 d p 在 C然后

(4)

c。add ( d p )

(5)

其他的

(6)

InitiateNewCluster ( d p )

(7)

其他的如果

(8)

结束了

<大胆>算法3:< /大胆> < inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M80 " > < mml: msup > < mml: mrow / > < mml: mrow > < mml: mi >∗< / mml: mi > < / mml: mrow > < / mml: msup > < / mml:数学> < / inline-formula >幻灯片到期时处理过期的数据点。 (1)

为 d p 在过期的幻灯片, 年代做

(2)

c= discoverCluster

(3)

如果 d p 在 C然后

(4)

CheckRelevance ( d p )

(5)

c。add ( d p )

(6)

其他的

(7)

remove ( d p )

(8)

如果

(9)

结束了

<大胆>算法4:< /大胆> < inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M86 " > < mml: msup > < mml: mrow / > < mml: mrow > < mml: mi >∗< / mml: mi > < / mml: mrow > < / mml: msup > < / mml:数学> < / inline-formula >过程异常值< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M87 " > < mml: mi > W < / mml: mi > < / mml:数学> < / inline-formula >。 (1)

启动异常值= []

(2)

执行所有功能

(3)

为 d p 在 W , 年代做

(4)

如果 d p 不能形成一个新的集群

(5)

add.Outlier ( d p )

(6)

其他的

(7)

Processfunctions

(8)

如果

(9)

结束了

(10)

返回异常值

<大胆>算法5:< /大胆>,土块的整体过程。

输入:数据流 ∞ ,数据点 d p 参数:{distance-threshold R 、近邻数 K ,滑动的大小年代 ,窗口大小 W 。}

输出:离群值

(1)

过程:⊳预处理

(2)

进行预处理⊳ 过程DataIn W c

(3)

为为每一个 d p 中数据的预处理 W 做

(4)

DiscoverInClusters

(5)

如果 d p ≥ k + 1 邻居然后

(6)

InCluster

(7)

elseif

(8)

NotIncluster

(9)

CheckRelevance来 d 我

(10)

其他的

(11)

ProcessNewData在年代

(12)

如果

(13)

结束了

4.3。数据流阶段

在数据流模型中,输入数据不是通过随机磁盘或内存,如在静态数据的情况下或批处理数据在标准数据库,而是到一个或多个连续的数据流的形式。数据流是一个无限数量的序列数据点 ∞ 我 = 年代 t | 0 ≤ t ,在一个特定的时间戳或无界序列与数据点, 年代我 = 年代 1 , 年代 2 , 年代 3 , … , 年代 n 。他们是无穷级数的数据点, 年代 t − 2 , 年代 t − 1 , 年代 t ,观察到在一个特定的时间 t 。流数据有以下特点: (我)

实时流数据到数据点的增量。流数据是活跃的,因为所有入站/物品触发动作对象的数据而不是被邀请参加。

(2)

系统无法控制订单或序列在流数据到达的物品。

(3)

流数据有无限数量的数据点的可能性。

检测的问题或采矿异常值等数据与上述特征带来的重大影响。首先,以确保结果是不断更新,有必要分析传入的数据在最短的时间和最少的内存使用。在图的框架 3观察到的数据点,连续无穷级数在特定时间 t 1 到下一个阶段。

4.4。数据预处理阶段

传入的无界序列数据到达时,存储整个数据流是不可能的。此外,应用聚类技术没有注意数据的特点,使得整个过程更加乏味。因此,我们开始做了一些预处理基于数据的性质,以避免假设有清洁和结构良好的数据和裁缝提出的数据模型。例如,真实的数据集是很容易被丢失和不一致的数据。这样的数据集可能导致数据质量问题,进而影响到整体的结果。在数据预处理和角力阶段,我们处理缺失数据和不一致数据。虽然离群值有时会影响数据的质量,在这个工作我们完全避免处理离群值因为我们的主要目标是检测离群值。缺失的数据,我们确保我们忽略,手工填写,并计算值。对于不一致的数据,我们正常必要的数据集。

4.5。滑动窗口异常值检测阶段

在此阶段,我们管理演化数据流;我们实现的泥块和检测数据点偏离预期的正常行为当窗口幻灯片,到期时,当数据点将到期。我们注意到,这不是可行的对数据流进行聚类在所有可能的时间。我们处理数据点在不同时间窗口。探索发展的过程数据流在不同的时间窗口为用户提供了额外的洞察发展集群的性质和性能。处理演化数据流而言,不同的算法采用了不同的窗口模式。一些现有的窗口模型包括阻尼窗口模型也称为衰落窗口模型,具有里程碑意义的窗口模式,tilted-time窗口模型,和滑动窗口模型。在本文中,我们使用滑动窗口模型,在数据处理流数据窗口的结束。这是具有里程碑意义的窗口而不是模型,是采用的情况下我们想我整个数据流的历史。适用于静态数据设置。 In the sliding window, the streaming data are considered from the current time to a certain range in its history. The key idea in the sliding window is to do exhaustive analysis of the most up-to-date data items and summarized the outdated items.

我们可以看到在图 3在第二阶段,我们应用数据流滑动窗口模型的聚类,数据点到期幻灯片的窗口。此外,随着越来越多的时间 t = t + + ,每个数据点的体重下降到达截止点。在设置窗口大小的分布动态波动,我们增加,设置窗口大小足以造成的影响最小化数据的动态变化。因此,这将导致增加的时间使用,这削弱了实时计算的性能。最终,它会创建一个挑战之间找到一个平衡这两个潜在的问题。

在图 3,随着时间的增加 t = t 1 , t 2 , t 3 , … , t n 在时间框架内,一些数据点淡出和一些数据点改变状态取决于窗口滑动。一些进化数据点到期,一些集群溶解,创建新的,一些数据点可能会被错误地作为一个局外人。因此,在设计的泥块,我们考虑以下先决条件: (我)

首先,我们考虑数据点的状态,即,whether they are in a cluster or not and whether data points outside the cluster can be viewed as an inlier or outlier.

(2)

其次,我们考虑集群和数据点之间的距离在集群之外,是否远或接近集群,以及他们是否可以被视为局外人或窗。

(3)

第三,我们认为数据点是否有着与其他一些数据点之间的关系,形成一个集群,同时,如何处理两个数据点的集群内准确检测异常值。

(iv)

最后,我们考虑摘要信息的特点,并在实例中我们应该商店或丢弃的摘要信息,以及如何处理过期的数据点。

4.6。黑土块聚类阶段

数据流与一组连续多维数据点年代 1 , 年代 n ,到达不同的时期 t 1 , … , t n ,我们考虑一组活动期间的数据点 t 1 , … , t n ,这是最近的 n数据点在滑动窗口。在活动期间,我们采用微簇的概念,这是一个滑动窗口内fast-efficient对象的聚类方法。我们应用三角不等式在度量空间的概念 30., 31日),保证数据点微簇的相互之间的距离小于阈值的距离 R 。因此,确认每个数据点都贴上微簇内的一个窗。在标记内围层中,我们只在内存中存储关键内围层以避免内存拥堵,和存储每个对象在内存中是不可能的。我们每个新来的对象存储在一个固定大小的缓冲区。如果缓冲区已满,我们认为每个数据点在它作为窗或离群值,取决于物体的重量相对于其与其他对象之间的距离。标记为删除离群值的对象在内存中,而所有新传入的标签内围层保持在更新列表。不同的行动取决于数据点的状态在不同的阶段。

图 3橱窗里展示了不同阶段模型,它分为三个分区 x设在显示数据的到达时间点,而纵坐标描述数据点的数量和半径 R 。在第一个分区,在当前窗口模型空间( W 开始来 W 结束 ),我们有一组的数据流年代 1 , 年代 3 与固定半径 R ,一个邻居数阈值 k 从时间间隔 t 1 , … , t n 。在这个分区 k = 2 微簇技术应用于集群 K + 1 数据窗口中的对象。这些微簇内数据点的半径 R / 2 从中心和不大于距离 R 两个数据点之间。窗口包含四个微簇, c 1 来 c 4 半径为 R / 2 。微簇内的数据点不可能离群值取决于他们的状态与其他相邻数据点。确定可能的数据点会被贴上一个异类,我们认为其随后的和邻居和之前,此外,其邻国的相对强度。同时,考虑哪些对象存储在内存中,我们使用了一个类似的概念在以前的工作 8)通过将数据点在微簇存储在临时记忆而应用最小的修剪,以减少计算成本和需求。从图 3红色标记的数据点显示,异常值,而其他数据点, k ≥ 2 标记为绿色。

在下一阶段,一些数据点改变状态的滑动窗口,出现新的数据点,过期的数据点。这些新变化创造新的挑战为顺利检测异常值比前一阶段。在这种情况下,我们有三个滑动窗口。在第一个窗口中,我们有一个微簇,离群值,和一个完整的集群,有一些数据点,期间他们的地位将可能受到影响的下一张幻灯片。在下一个窗口中,在发病,尽管两个对象已经过期,它不溶解以来微簇 k + 1 点。然而,在最后一个窗口,提示剩余的数据点的微簇溶解成为局外人。新数据到达时,他们可能被添加到邻近的微簇,只要不大于阈值的距离 R 。否则,它被添加到邻近的离群值集群和更多的空间。如果没有条件存在,那么一个新的标记异常集群初始化。在最后阶段,图生动地显示不同的数据点的状态。绿色的数据点显示窗,黄色过期数据点,橙色点是那些倾向变化状态,和红色的是检测离群值。

在内存使用方面,由于快速响应和有限的内存需求在这些类型的环境中,它不是实际存储的大多数数据,它是不可能将所有数据存储在内存中。因此,努力挽救局势,我们减少内存消耗和存储相关数据点援助整体聚类和孤立点检测的过程。此外,我们最小的数量重新安排微簇的更新在内存中完成。随着连续输入数据到达,我们首先确定它是否在内存中。如果不是这样,它被添加到临时的内存,然后一个初始化的过程就完成了。内围层的关键是暂时存储在内存中,随着数据的发展由于改变窗口的幻灯片,用新数据更新完成取代旧的。我们计算的数量内围层,删除过期数据从内存释放内存空间。最后,总结统计信息,和离群值然后报道。

4.7。异常值检测阶段

孤立点检测的过程涉及到不同阶段。在开始,我们通过集群观察潜在的离群值。根据定义,局外人的演化数据流是一个数据点计算所得来的时间框架内集群和之外的距离阈值 R只有不到 k邻居的数据集。在每一个窗口,数据点不符合偏差和阈值标准标记为异常值,而其他人则贴上内围层。所有潜在的离群值初始化并存储在临时记忆。随着新的潜在的离群值积累,长期的生动异常值存储在离群值列表中删除后从内存释放空间处理。报告检测到异常值和异常值更新列表。

5。实验和结果

在本节中,我们描述了包括数据集实验设置,参数设置、评价指标和基准方法和讨论的性能我迦勒相对于其他模型。

5.1。实验装置 5.1.1。环境

我们做了我们的实验设计使用Java源代码,跑在Eclipse Java EE IDE 10 PC上运行Windows操作系统3.20 GHz CPU X4, 8 GB内存,230 GB的磁盘空间。基线算法之一就是从以前的工作 8),另一个是由Tran et al。 32]。一些基本方法的源代码和所有相关数据集可以在网上找到库( 32]。

5.1.2中。数据集

我们使用类似的基准数据集,采用一些先前的研究 8, 32]。如表所示 3中,我们使用三个真实的数据集和一个公开访问的合成数据集。第一个数据集是森林Covertype (FC) ( 7, 32)公开可用的,可以找到来自UCI机器学习库和581012条记录了高维1-55范围属性。数据集包含树的观察从四个区域的罗斯福在科罗拉多州国家森林。它没有遥感,在整个观察地图变量从30 m×30 m的森林。FC数据集包含的信息影子覆盖树类型,距离附近的地标,土壤类型和当地的地形。原始形式的数据(而不是扩展),包含二进制(0或1)列数据的定性的独立变量(荒野地区和土壤类型)。

表3

数据集的默认值。

数据集	尺寸(米)	昏暗的	W	年代	R	K	离群值率(%)
足球俱乐部	0.6	55	10000年	500年	525年	50	1
道	0.6	3	10000年	500年	1.90	50	0.98
股票	1。1	1	100000年	5000年	0.45	50	1
高斯	1。0	1	100000年	5000年	0.028	50	0.96

第二个数据集采用我们的实验是热带大气海洋项目(道)数据集 32, 33),这是一个低维数据集和三个属性和575,648条记录。数据集是实时数据提取从国家海洋和大气管理局的网站 33]。道成立得到有用的见解和预测气候变化与厄尔尼诺南方涛动(ENSO)。ENSO现象,意味着地球上最强的同比气候不稳定。其事件无疑打断正常的天气模式的可变性,从而令人不安的农业、交通、太平洋海洋生态系统,能源生产,数以百万计的世界各地的人们的生活。

股票数据集只有一个属性,它可以从宾夕法尼亚大学沃顿商学院的研究数据服务( 34包含1048575条记录。数据集显示股票交易的痕迹每天大约100万个事务在整个交易时间。自从沃顿研究数据服务不方便,可用的数据可以在网上找到库( 32)一起在这个实验中使用的其他数据集。

为合成数据集,我们使用高斯数据集( 32]。生成数据集产生与测量数据流分布类型和数量的异常值。它是由混合三个高斯分布和随机噪声分布,并与单个属性包含100万条记录。在每一段的流,高斯分布的点和噪声是随机分布的。

5.1.3。默认参数设置

在进行实验之前,我们考虑到幻灯片的大小年代 ,窗口大小 W ,距离阈值 R 和邻近的计数阈值 K 。窗口大小 W 是关键参数决定了数据流的体积和数量满足集群,而滑动年代影响速度和其余的参数有助于确定进化数据点内围层或异常值或他们是否属于一个集群。的默认值 W , 年代 , R , K 表所示 3为不同的数据集。

5.1.4。评价方法

我们评估我们的方法使用三个评价指标:运行时间、内存使用情况,和聚类质量。运行时间是时间完成检测的异常值为每个窗口滑动。内存使用的纪录峰值内存使用量在孤立点检测的过程中,为每个窗口包括存储数据。最后,聚类质量定义了如何准确地集群数据集的方法。

是5.1.5。基线算法

我们选择三个最先进的算法,MCOD [ 4, 35] 打 _ 飞跃用泥块,MCMP比较。MCOD和打 _ 飞跃是现有方法中表现最好的 36]直到混合方法称为MCMP [ 8)提出了使用这两种技术来提高性能的力量解决孤立点检测的问题。MCMP,关键的区别相比其他基线方法在处理当前窗口内的数据点。MCMP实现使用强大的概念和琐碎的内围层微簇以外的处理对象。打 _ 飞跃在大多数情况下不如MCOD和MCMP因为他们缺乏节约内存微簇。它使用一个索引每张幻灯片的邻居搜索。其最小探测原理减轻了昂贵的范围查询和重视的发现最小数量的数据点根据他们的到达时间。它必须不断重新评估和管理数据在更新列表中,因此提高其计算需求,而MCOD李子和最大限度地减少离群值的候选人。它使用一个称为微簇的索引结构,帮助修剪出不合格的候选人异常机智地。然而,在MCOD,缺乏明确的区分点在微簇限制了其潜在的执行得更好。因此,MCMP改善这个缺点,使用的力量打 _ 飞跃节省内存最小探测和微簇的概念,介绍了简单和强大的内围层。这因此提高了整体性能的减少时间和内存消耗。然而,改进的性能是有代价的,我们注意到,没有广泛的基于距离的计算数据点在微簇因此会降低时间和内存使用情况当我们主要关注集群和处理这些点根据各自邻居的相关性。深入了解基线的方法,我们要求我们的读者阅读个人参考。

5.2。结果与讨论 5.2.1。CPU时间

为了观察CPU时间的使用,我们考虑以下:我们改变窗口大小W,距离阈值 R 和最近邻数 K 。

图 4显示了窗口大小不同的结果 W ,从10 k-20年 kFC和道,然后10 k-200年 k对股票和高斯。结果显示固定 K = 50 整个数据集和一个近似的异常率为1%。在图 4数据集,在大多数情况下,随着W的增加意味着更多的数据点和计算集群,CPU时间也增加(数据 4(一)和 4 (c))除了打 _ 飞跃在数据 4 (b)和 4 (c),MCOD图 4 (d)。泥块,类似于MCMP MCOD FC和道,显示了一个稳步上升的数据集。然而,在高斯 W 高于50 K,我们观察的飙升打 _ 飞跃因为更少的捕获数据点,因为它没有微簇。泥块和MCMP显示以来的最低CPU时间使用时比别人更不在使用索引结构。,土块确保重要的内围层存储在微簇,这减少了计算需求的执行范围查询每一个数据点。一般情况下,我们观察到,当 W 足够大,有一个微小的影响流数据的分布动态变化。然而,如果 W 变得太大,那么它将影响响应时间,和时间将大大增加,这将反过来,下调其性能。

图4

CPU时变 W 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

图 5说明邻居数阈值变化的结果 k在所有的数据集,从1到100。结果显示窗口大小, W= 10 KFC和道 W= 100 K剩下的两个数据集与其他默认参数维护。在图 5,所有的方法显示一些变化在不同的数据集,因为他们依赖于邻居数阈值 k,从而影响异常率。从这些数据中,除了打 _ 飞跃道和股票(数字 5 (b)和 5 (c)),这就意味着需要更多探索 k其他方法显示很好的时间消耗的泥块显示数据集的大部分性能优越。这是因为,在前三个数据集,数据点并不多,属于集群,将需要额外的计算。对数字 5(一个)和 5 (d),增加 k显示时间的增加因为需要做更多的调查。在图 5 (d),我们看到MCMP略优于泥块因为几个集群需求额外计算。总的来说,我们的方法表现良好的数据集点的邻居相互接近,这使得它容易聚集,因此很容易区分生动或假异常值和至关重要的或无关紧要的窗。因此,它显示了更好的性能比其他的因为它可以做最少的计算可能在集群。足够的邻居的可能性,以确保快速聚类过程相对较低和稀疏数据集数据点。因此,在合成数据集有更少的集群,这也导致增加处理时间相比,现实世界的数据集。

图5

CPU时变 k 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

图 6显示结果和性能不同的幻灯片的大小,从W的1%到100%的W .幻灯片的大小描述了数据流的速度的变化。在所有的数据集的价值 k和 R维护表吗 3。在图 6,我们可以看到,在整个数据集,土块显示最低的CPU时间使用, 打 _ 飞跃发生在大多数的情况下,CPU使用率高于MCOD和MCMP最高。在道和股票数据集,我们省略的趋势打 _ 飞跃由于CPU时间带来比其他人更大的,和其他两种情况下,它显示了一个异常趋势相比其他人。泥块和其他算法显示出随着增加而增加年代 / W 。它证实了增加年代结果到来和过期的更多的数据点,从而消耗更多的时间。然而,土块显示改进的性能比MCMP因为它使用更少的时间比MCMP和MCOD尝试更新检测后的邻国强大而琐碎的内围层和识别异常值。此外,我们可以观察到,新到达的数据点的处理在泥块尺度的过期数据点,当窗口大小增加。MCOD,例如,时间过程超过一半的数据点在丢弃过期数据保存的时间点。总体而言,CPU时间最慢增长显示了整个数据集。

图6

CPU时变年代。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

图 7显示不同的距离阈值的影响 R在所有的数据集,从0 - 1000。结果为幻灯片所示尺寸, 年代前两个数据集和= 500 年代= 5 K对股票和高斯。维护其他参数如表所示 3。在每个数据集的价值 R是不同的,它的影响异常率。对数字 7 (c)和 7 (d), 打 _ 飞跃带来更多的时间由于其触发列表,这使得它很难找到邻居。总的来说,土块比其他人表现出更好的性能,特别是对MCMP MCMP相比,因为它有更少的距离计算处理强大而琐碎的窗。,土块考虑的相关性 K相互的影响而不是集中在r表 4,我们注意到离群值的速度 R当默认值增加 R ≤ 10 % 。

图7

CPU时变 R 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

表4

离群值的rate-varying R

R / default_R (%)	FC (%)	道(%)	股票(%)	高斯(%)
1	100.0	99.3	44.97	98.9
10	99.8	49.5	6.03	32.3
50	9.90	3.10	2.10	3.00
70年	7.80	1.10	2.01	1.60
200年	0.93	0.72	0.97	0.85
500年	0.00	0.01	0.15	0.20
700年	0.00	0.10	0.11	0.20
1000年	0.00	0.10	0.07	0.20

5.2.2。内存使用情况

在图 8随着窗口大小的增加,这表明需要处理更多的数据点,导致内存使用量的增加的大部分数据集。更多的内围层将微簇,内围层将存储在临时记忆来说至关重要,而且也将存储的对象的邻居信息。从这个数据,利用微簇的方法表现出更好的性能在整个数据集打 _ 飞跃 ,没有节约内存微簇。在所有的数据集,它会消耗更多的内存自触发列表每次幻灯片到期,必须重做。在图 8 (d),高斯数据集有几个邻居,它显示了各种方法增加内存使用其他数据集相比,自发现邻居们临时占用内存。我们的方法显示了几乎相同的性能MCOD因为没有计算在MCMP微簇这样的外,这会产生更多的内存。泥块,至少在大多数情况下,由于释放空间删除内存消耗在内存中只检测到异常值和排队在临时记忆显著微簇外窗。

图8

Memory-varying W 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

当我们改变你的邻居数阈值增加的价值 k如图 9,我们期待更多的内存使用 k影响邻居的存储。几个场景中,这几乎是稳定的,显示一个小差异。例如,在图 9 (b), 打 _ 飞跃差不超过1 mb 50 dp ≤ K ≤ 20. dp 其他数据集,同样在同一个图。,土块中显示性能优越的算法在大多数情况下,由于它并不完全取决于 K,对于MCOD MCMP。作为 K增加,更多的数据点微簇,从而占据了临时的内存。MCMP,区分的过程内围层利用一些内存,而泥块只有暂时保持在内存中一个重要窗。一个明显的区别是在数字 9(一个)和 9 (d)为打 _ 飞跃 ,它显示了更高的内存使用量比别人因为你的邻居数列表需要处理。

图9

Memory-varying K 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

在图 10当我们距离阈值不同 R,没有持续的整个数据集的可观察到的趋势。总的来说,土块连同其他算法不使用范围查询;因此,增加 R没有结果按比例增加内存的使用。最初,更多的内存用于MCOD和MCMP以来没有在微簇可以找到许多数据点,和额外的计算发现邻居占用的内存。,土块显示,在大多数情况下,更好的性能在某种程度上,因为它并不区分每一个异常值或窗MCMP的情况,所以它使用更少的内存。在大多数情况下,内存使用量下降是因为增加的价值 R转化为更多的邻居,这导致更多微簇内的对象和更少的数据点在微簇。这从而限制内存利用率。

图10

Memory-varying R 。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

图 11显示内存使用时的结果年代增加。整个数据集,泥块显示峰值内存使用量下降年代增加,同样其他算法。的打 _ 飞跃情况显示了独特的性能,因为它不同于其他过程的数据点。打 _ 飞跃在发病具有较高的峰值内存消耗和继续进一步减少。其他节约内存微簇算法包括土块显示更少的内存消耗,因为它不使用触发器的列表打 _ 飞跃。由于微簇,泥块略优于MCMP数据 11 (c)和 11 (d),因为存储数据点占据了大部分的总内存。没有额外的计算和内存中的队列小窗给了它一个优势。

图11

Memory-varying 年代。(一)足球俱乐部。(b)道。(c)的股票。(d)高斯。

(一) (b) (c) (d)

5.2.3。时间和空间复杂度

算法的复杂性定义了运行时间和存储空间算法的输入所需的大小。空间复杂性意味着所需的内存空间被泥块在它的生命周期。计算最坏的空间要求的土块,我们考虑存储数据所需的空间和独立变量的大小问题。在表中 5和 6,我们显示的算法的时间和空间复杂性。

表5

时间复杂度的分析结果。

算法	时间复杂度
打 _ 飞跃	O W 2 日志年代 / 年代
MCOD	O 1 − c W 日志 1 − c W + k W 日志 K
MCMP	O W 日志 C w + 日志 k
泥块	O W / 年代 1 − c + 日志 k

表6

空间复杂度分析结果。

算法	空间复杂度
打 _ 飞跃	O W 2 / 年代
MCOD	O c W + 1 − c k W
MCMP	O k C w + W / 年代
泥块	O k W + W / 年代

时间复杂度在处理当前窗口内的数据点在最坏的情况是函数的时间成本来发现数据点是否在集群或不是,这是 O 1 − c W 和检查的相关性 d p 滑动窗口中对他们的邻居。因为我们正在考虑最坏的情况,我们考虑的成本计算,这会产生更高的成本比新数据点的处理在下滑。总成本是成本数据点的窗口滑动窗口的大小,这是 O 1 − c W ∗ 1 / 年代。当数据点到期时,在最坏的,删除过期的数据点在幻灯片的过程不一样,当我们需要检查成本这些对象的相关性和添加数据点如果在集群。在这种情况下,总体成本 O W / 年代日志 k 。因此,整体的时间复杂度 O 1 − c W + 1 − c W / 年代 + W / 年代日志 k 可以近似 O W / 年代 1 − c + 日志 k 。泥块的时间复杂度优于MCMP因为在土块的成本检查各自邻居的邻居的相关性小于MCMP成本,这会产生额外的成本由于强烈的区分成本和琐碎的窗。我们可以看到,整个时间的复杂性 MCMP 是 O W + W 日志 k + 日志 C w + W 日志 C w 这是大约 O W 日志 C w + 日志 k 。这个比其他两个算法的时间复杂度几乎是一样的 MCOD 但优于打 _ 飞跃。降低时间复杂度的MCMP证实微簇使用最小的概念探索差异化强和琐碎的内围层减少了所需的额外时间计算数据点外的集群将重新计算的时间复杂度最小化和评估所有的窗,如的情况 MCOD 。由于区分内围层也导致一些数量的成本,然而,这相比成本更少。

空间的复杂性,一个简单的答案连续发展的异常值的检测窗口模型中的流数据将包括存储每个数据对象在当前窗口的邻居。显然这样的计算最坏会导致二次空间需求 O n 2 ;因此,对于更大的窗口大小 w ,这将是几乎不可能实现的。为每个数据点 d 我 ,而不是将所有前面的 d p 和成功的邻居 d 年代我们存储的数量 d 年代邻居和最多 k数据点就足够了检测特定的异常值 R 和 K 。空间复杂度来管理当前窗口内的数据点 O k W 。我们首先计算前邻居的大小 d p 对应的数据点。当规模小于 k − d 年代 ,然后 d 我贴上一个异类。当窗口幻灯片和过期时,所需的空间保持MCMP的邻居数相似,也就是说, O W / 年代因为窗口中的每个数据点不是存储在每个 W / 年代幻灯片。然而,在土块与深入分析,我们可以说它会轻微表现MCMP因为所需的空间复杂度 PD 存储额外的微不足道的内围层小于储蓄相关窗的队列的内存。整体糟糕的空间的复杂性的泥块 O k W + W / 年代这几乎是一样吗 MCMP 除了 C w 在 MCMP 意味着在过期窗口幻灯片,琐碎的内围层存储在 C , 0 ≤ c ≤ 1 。然后,窗口内的数据点的数量 1 − c ∗ 窗口 , W 。也就是说,数据点的列表 PD 将 1 − c ∗ W = C w 。从表 6,我们可以看到这一点 MCMP 空间复杂度也比这更好打 _ 飞跃和 MCOD 与 O W 2 / 年代和 O c W + 1 c k W ,分别。很明显,需要差异化的空间内围层相比可以忽略不计,更好所需的空间数据点外微簇节省额外的小窗。

5.2.4。集群的数据点的质量

clustering-based方法,需要考虑的一个重要指标是聚类质量,影响数据流的异常检出率。图 12显示的有效性和聚类质量泥块对以前还采用微簇的方法技术。FC数据集在图 12(一个)集群的比例相对较低,因为每个对象之间的距离是稀疏的。在另一起案件中,高斯数据集的比例几乎是零,很少或根本没有参与微簇的数据点。这是因为,在这个窗口中,数据集没有邻居。 MCMP 显示集群相比,质量低劣 MCOD 和泥块,因为额外的基于距离的计算,包括计算和存储强劲的和琐碎的窗。在某些情况下,它会影响你的邻居数阈值 k点在微簇的关系。泥块整体显示更好的聚类质量在几乎所有情况下由于缺乏参与的额外计算 MCMP ,它确保集群一般相关性的基础上形成各自邻居的位置。这个结果在某些情况下,大部分的数据点发现的集群,可以看到在图 12整个数据集。

图12

比较微簇的数据点的平均百分比 MCOD , MCMP , 泥块当我们有所不同 W 。(一)足球俱乐部。(b)道。(c)的股票。(d)足球俱乐部。

(一) (b) (c) (d)

5.2.5。泥块的优点

泥块通过实验显示优于现有方法在大多数情况下,成功地控制了成本计算的时间和内存使用。它是一个通用的解决方案作为clustering-based集群演化数据流异常检测方法基于微簇和处理的对象在一个滑动窗口根据相关性的地位各自邻居或位置,不包括延长额外的基于距离的计算。,土块动态集群数据流和提供支持以满足灵活的挖掘需求。此外,它表明鲁棒性在不同的性能参数的变化及其聚类质量对集群的数据点的数量。最后,它已经证明是一种有效的方法来检测离群值。

6。结论

检测异常值,挖掘异常事件数据的过程,是一个重要的和具有挑战性的任务。在本文中,我们提出了一个clustering-based称为EMM-CLODS来解决这一问题的方法检测异常值连续变化的数据流。该方法采用微簇技术组类似的数据点距离的流数据。它最小化计算需求和显示计算速度的增加而仍保持其有效性检测异常值通过计算最小滑动窗口的数据点在微簇。它的内存使用量,而不是微簇之外的所有对象都存储在内存中,同样的,过期的离群值的数据点被从内存中删除,以减少内存的使用。从实验真实和合成数据集上执行,我们的方法显示效果检测异常值连续变化的数据流。在大多数情况下,它显示了性能优越的CPU和内存使用率相比其他基线算法。它已经证明是一个很好的技术检测异常值在数据流是健壮的各种参数的变化( W , R , K )。

数据可用性

数据和源代码用于支持本研究的发现尚未提供。然而,除了所有的数据集使用的源代码已经清楚地解释了在实验部分的链接直接访问这些数据。之前报道(FC、道、股票和高斯)数据被用来支持这项研究和可用 http://infolab.usc.edu/Luan/Outlier/。这些先前的研究(和数据)是引用文本中相关的地方。

信息披露

穆罕默德Jaward呸,弘治Wang李辉赵,霁张co-first作者。

的利益冲突

作者声明,关于这项工作他们没有利益冲突。

确认

作者要感谢杭州城市的博士后基金的支持(没有。119001 - ub2101sj),π浙江实验室的研究项目(没有。111007 - pi2001),中国自然科学基金会(没有。62172372也没有。U1866602)和浙江省自然科学基金(没有。LZ21F030001)。

Chandola

V。

巴纳吉

一个。

库马尔

V。

异常检测:一项调查

ACM计算调查(CSUR) 2009年 41 1 58

10.1145/1541880.1541882

2 - s2.0 - 68049121093

苏

X。

蔡

c . L。

异常值检测

线数据挖掘和知识发现 2011年 1 3 261年 268年

10.1002 / widm.19

2 - s2.0 - 84866447964

张

霁

进步的异常值检测:一项调查

ICST交易可扩展的信息系统 2013年 13 1 26

10.4108 / trans.sis.2013.01 - 03. - e2

曹

杨

迪

王

Q。

余

Y。

王

J。

Rundensteiner

大肠。

可扩展的基于距离的孤立点检测在大容量数据流

学报2014年IEEE 30日数据工程国际会议

2014年4月

美国芝加哥

IEEE

76年 87年

10.1109 / icde.2014.6816641

2 - s2.0 - 84901793839

古哈

年代。

亚当

M。

Mishra

N。

Motwani

R。

奥卡拉汉

聚类数据流:理论与实践

IEEE工程知识和数据 2003年 15 515年 528年

10.1109 / tkde.2003.1198387

2 - s2.0 - 0038633423

陈

Y。

你

李

Density-based集群实时流数据

13 ACM SIGKDD学报》国际会议上知识发现和数据挖掘

2007年8月

美国加利福尼亚州圣何塞

133年 142年

10.1145/1281192.1281210

2 - s2.0 - 36849092449

Hettich

年代。

湾

s D。

UCI知识发现(KDD)归档 1999年

欧文、钙、美国

部门的信息和计算机科学,加州大学

http://kdd.ics.uci.edu

呸

m·J。

王

H。

默罕默德

H。

Zeshan

F。

Aljuaid

H。

一个有效的最小探测方法与静电的基于距离的孤立点检测的数据流

IEEE访问 2019年 7 154922年 154934年

曹

王

J。

Rundensteiner

大肠。

在大容量数据流Sharing-aware异常分析

《2016国际会议管理的数据

2016年7月

旧金山,加州,美国

527年 540年

10.1145/2882903.2882920

2 - s2.0 - 84979695896

Tamboli

J。

舒克拉

M。

一项调查的数据流异常检测算法

学报2016年3日计算为全球可持续发展国际会议(INDIACom)

2016年3月

新德里,印度

IEEE

3535年 3540年

王

H。

呸

m·J。

Hammad

M。

异常检测技术的进展:一项调查

Ieee访问 2019年 7 107964年 108000年

10.1109 / access.2019.2932769

2 - s2.0 - 85071134904

Aggarwal

C . C。

余

p S。

汉

J。

王

J。

一个集群演化数据流的框架

学报2003年VLDB会议

2003年9月

柏林,德国

81年 92年

10.1016 / b978 - 012722442 - 8/50016 - 1

卡洛琳辛西娅

P。

托马斯·乔治。

年代。

迪彼得

J。

费尔南德斯

s . L。

Alavi

a . H。

一种异常检测方法在信用卡欺诈检测使用机器学习:监督和非监督学习的比较分析

在大数据的科技情报炒作 2021年

新加坡

施普林格新加坡

125年 135年

10.1007 / 978 - 981 - 15 - 5285 - 4 - _12

Villa-Perez

m E。

Alvarez-Carmona

m·A。

Loyola-Gonzalez

O。

Medina-Perez

m·A。

Velazco-Rossell

j . C。

Choo

K.-K。R。

Semi-supervised异常检测算法:一个比较的总结和未来的研究方向

以知识为基础的系统 2021年 218年

106878年

10.1016 / j.knosys.2021.106878

刘

F。

雪

年代。

吴

J。

周

C。

胡

W。

巴黎

C。

尼泊尔

年代。

杨

J。

菲利普

s Y。

社区检测方法:深度学习进步,挑战和机遇

美国29日国际人工智能联合会议

2020年7月

日本横滨

10.24963 / ijcai.2020/693

苏

X。

雪

年代。

刘

F。

吴

J。

杨

J。

周

C。

胡

W。

巴黎

C。

尼泊尔

年代。

金

迪

盛

问:Z。

余

p S。

全面调查与深度学习社区检测

2021年

Boukerche

一个。

郑

奥马尔

一个。

异常值检测方法:方法、模型和分类

ACM计算调查 2020年 53 3

10.1145 / 3381028

马

X。

吴

J。

雪

年代。

杨

J。

全

z S。

熊

H。

全面调查与深度学习图像异常检测

2021年

http://arxiv.org/abs/2106.07178

庞

G。

盛ydF4y2Ba

C。

曹

Van Den Hengel

一个。

深度学习的异常检测方法:回顾

ACM计算调查(CSUR) 2021年 54 1 38

10.1145 / 3439950

20.

Toshniwal

D。

Yokita

在进化的数据流异常检测的框架加权聚类的属性

Procedia技术 2012年 6 2012年 214年 222年

周

一个。

曹

F。

钱

W。

金

C。

跟踪集群演化数据流滑动窗口

知识和信息系统 2008年 15 2 181年 214年

10.1007 / s10115 - 007 - 0070 - x

2 - s2.0 - 43249088014

曹

F。

Estert

M。

钱

W。

周

一个。

Density-based集群在一个不断发展的数据流噪声

学报2006年暹罗国际会议数据挖掘

2006年4月

美国马里兰州贝塞斯达

暹罗

328年 339年

10.1137 / 1.9781611972764.29

刘

L.-x。

郭

Y.-f。

康

J。

黄

H。

一个三步演化数据流聚类算法

《2009年IEEE国际智能计算和智能会议系统

2009年11月

中国上海

IEEE

160年 164年

10.1109 / icicisys.2009.5357749

2 - s2.0 - 77949601031

库马尔

M。

沙玛

一个。

开采使用“DDenStream”的数据流聚类算法

学报2013年蕴藏IEEE国际会议,教育创新和技术(螨)

2013年12月

印度斋浦尔

IEEE

315年 320年

Amini

一个。

哇

t Y。

density-based的比较研究在数据流聚类算法:静电的方法

智能控制和创新的计算 2012年

柏林,德国

施普林格

275年 287年

10.1007 / 978 - 1 - 4614 - 1695 - 1 - _21

2 - s2.0 - 84855684066

Amini

一个。

哇

t Y。

格兰

y W。

DENGRIS-Stream: density-grid聚类算法为基础演化数据流滑动窗口

《数据挖掘和计算机工程国际会议

2012年1月

维萨卡帕特南、印度

206年 210年

段

徐

刘

Y。

李

J。

基于集群的异常值检测

《运筹学 2009年 168年 151年 168年

10.1007 / s10479 - 008 - 0371 - 9

2 - s2.0 - 62949154974

同时

M。

李

K。

这个

W。

X。

王

H。

高效clustering-based动态数据流的异常检测算法

学报2008年第五次国际会议上模糊系统和知识发现

济南,中国

2008年10月

IEEE

298年 304年

10.1109 / fskd.2008.374

2 - s2.0 - 58149109880

29日

Forestiero

一个。

Pizzuti

C。

Spezzano

G。

一个通过聚类算法发展的基于群体智能的数据流

数据挖掘和知识发现 2013年 26 1 1 26

10.1007 / s10618 - 011 - 0242 - x

2 - s2.0 - 84872422874

30.

沙迪克

m . S。

Gruenwald

DBOD-DS:基于距离的孤立点检测的数据流

国际会议数据库和专家系统的应用程序 2010年

柏林,德国

施普林格

122年 136年

10.1007 / 978 - 3 - 642 - 15364 - 8 - _9

2 - s2.0 - 78049392603

31日

Al-Zoubi

m B。

一个有效的clustering-based孤立点检测的方法

欧洲科学研究杂志》上 2009年 28 2 310年 316年

Tran

风扇

Shahabi

C。

基于距离的孤立点检测在数据流存储库中

洛杉矶,洛杉矶,美国

南加州大学信息实验室

太平洋海洋环境实验室。2019。宾夕法尼亚大学沃顿商学院。 https://infolab.usc.edu/Luan/Outlier/Datasets/tao.txt

沃顿商学院的研究数据服务

基于距离的孤立点检测在数据流存储库中 2020年

美国费城,宾夕法尼亚州

沃顿商学院的研究数据服务

https://wrds-web.wharton.upenn.edu/wrds/

Kontaki

M。

Gounaris

一个。

帕帕多普洛斯

a . N。

Tsichlas

K。

马诺洛波洛斯

Y。

持续的监控基于距离的离群值的数据流

学报2011年IEEE 27日数据工程国际会议

2011年4月

德国汉诺威

IEEE

135年 146年

10.1109 / icde.2011.5767923

2 - s2.0 - 79957822668

舒克拉

M。

Kosta

y . P。

Chauhan

P。

孤立点检测算法的分析和评价,在数据流

学报2015年国际会议上计算机、通信和控制(IC4)

2015年9月

印多尔,印度

IEEE

1 8