一种改进Semisupervised异常值检测算法基于自适应加权聚类特性

文摘

已经存在异常值检测的各种方法,其中semisupervised方法实现鼓励优势由于引入先验知识。在这篇文章中,一个自适应特征加权clustering-based semisupervised异常检测策略。这种方法的隶属度最大化标签正常所属对象的集群和最小化的隶属度标注例外所有集群。考虑到不同的意义或组件在一个数据集的特性确定一个对象作为一个窗或离群值,每个特性自适应地分配不同的权重根据这个特性之间的偏差度的所有对象和特定集群原型。一系列的实验在合成数据集和真实数据集的几个实现来验证方案的有效性和效率。

1。介绍

异常检测是数据挖掘中一个重要的主题社区,旨在发现模式发生很少与其他数据挖掘技术1]。局外人是明显偏离了一个观察,或与主体不一致的数据集,好像是由一个不同的机制(2]。异常值检测的重要性的观点是,离群值可以提供原始数据集模式和有价值的知识。当前应用程序异常值检测包括犯罪检测领域,信用卡欺诈检测、网络入侵检测、医疗诊断、故障检测的关键安全系统,或检测异常区域在图像处理3- - - - - -9]。

最近在孤立点检测的研究非常活跃,提出了很多方法。一般来说,现有的孤立点检测的工作大致可分为三种模式取决于标签信息是可用的或可用于构建异常检测模型:不受监督,监督和semisupervised方法。

监督孤立点检测问题的情况之前的训练数据集包含的信息类的每个实例正常或不正常。看到下面成了一个支持向量机(OCSVM) [10支持向量数据描述(SVDD)[]或11,12)认为,训练数据都是正常的情况下,进行超球面的正常数据和利用所构造的超球面检测未知样本作为内围层或离群值。监督异常值检测在许多实际应用问题是一个困难的情况下,自收购整个训练数据集的标签信息通常是昂贵的,耗时的,主观的。

的无监督异常检测,未经信息类分布,通常分为发布出去是依靠[3],基于距离[13,14],density-based [15,16],clustering-based [17- - - - - -20.)方法。发布出去是依靠方法假设所有数据点是由一定的统计模型,而模型异常值不遵守。然而,一个潜在的假设分布的数据点在许多实际的应用程序并不总是可用的。基于距离的方法是首先调查诺克斯和Ng (14]。一个对象在一个数据集如果至少是个例外的对象比的距离进一步吗从。全局参数和不合适的本地信息数据集千差万别。这种方法包括代表最近的邻居(神经网络算法(13)和它的变体(21,22]。Density-based方法最初提出的Breunig et al。15]。局部离群值因子(LOF)被分配给每个数据点密度根据当地社区。然后确定数据点高LOF值作为一个局外人。然而,这种方法非常敏感,小区参数的选择。

Clustering-based方法(17- - - - - -20.]数据集分割成几个集群根据相似的对象和检测异常值通过检查对象和集群之间的关系。一般来说,集群包含大大减少数据点比其他集群或从其他远程集群被认为是离群值。集群的数据结构可以方便的任务异常值检测和少量的相关文献提出了。一个经典聚类方法用于查找异常入侵检测领域(18]。在的工作19、集群技术在子空间迭代检测异常值进行多维数据分析。赵et al。20.]提出一种自适应模糊c均值(AFCM)算法通过引入样本权重系数为目标函数,应用到异常数据检测钢铁行业的能源系统。因为clustering-based方法不受监督,而无需任何标记的训练数据,他们在孤立点检测的性能是有限的。另外,大多数现有的clustering-based方法只涉及最优聚类,但不包含最优异常值检测聚类过程。

在许多实际的应用程序中,一个可能遇到的情况下,一个小的对象标记为异常值或者属于某个类,但大多数没有标记的数据。研究表明,少量的先验知识的引入可以显著提高异常检测的有效性(23- - - - - -25]。因此,semisupervised开发了孤立点检测的方法来解决这样的场景,想到一个最近流行的孤立点检测的方向。为了利用目标数据集的标签信息,基于semisupervised entropy-based孤立点检测的学习提出了一些积极的例子(EODSP) (23]。该方法提取可靠正常实例标记对象和作为他们标记正常样本。Entropy-based孤立点检测方法用于检测离群值。然而,当最初的数据集提供标签的正常和异常样本,该算法在23)不能充分利用给定的标签信息。文献[24]发展semisupervised孤立点检测方法的基础上,评估偏离已知的标记对象通过惩罚贫穷的聚类结果和限制异常值的数量。雪et al。25]目前semisupervised孤立点检测的建议基于模糊c均值聚类,它检测到异常值通过最小化误差的平方和的聚类结果和偏离已知标记示例以及异常值的数量。不幸的是,一些标签正常对象最终被误认为异常值由于参数选择不当24,25]。

大多数以前的研究同样对待不同特性的对象在异常值检测过程中,不符合数据的内在特征。事实上,它是更合理的在每个集群不同的特性有不同的重要性,尤其是对高维稀疏数据集,每个集群的结构通常是有限的功能的一个子集,而不是整个特性集。特征加权聚类研究方面的一些工作。黄等。26)提出一个W-c-means类型聚类算法,可以自动计算功能权重。W-c-means添加一个新进入的基本c均值算法更新变量权重基于当前分区的数据。文献[27歧视]发展同时聚类的方法和属性(许多)。竹荚鱼学习每个集群的功能相关性表示独立以一种无监督的方式。周et al。28)发布maximum-entropy-regularized加权模糊c均值聚类算法(EWFCM)“nonspherical”形状的数据。EWFCM算法开发的新的目标函数达到最优聚类结果通过最小化分散在集群和同时最大化熵属性权重。这些现有的方法特征加权聚类鼓励学者研究基于特征加权聚类的异常检测。

充分利用先验知识来促进clustering-based异常值检测,我们开发一个semisupervised异常检测算法基于自适应特征加权聚类(SSOD-AFW)本文特征权值的迭代。该算法强调不同功能的多样性在每个集群和分配较低的权重对离群值无关的特性减少负面影响的决定。此外,根据惯例,离群值通常有较低的每个集群成员,我们放松约束的模糊c均值(FCM)聚类样本的隶属度所有集群必须总结,提出一种自适应特征加权semisupervised可能性clustering-based孤立点检测算法。最优聚类和异常检测之间的交互问题解决方法。标签信息引入到可能性聚类方法按照下列原则:(1)最大化的隶属度标记集群它属于正常的对象;(2)减少标签正常对象的隶属度的集群不属于;和(3)尽量减少标记异常值的隶属度所有集群。除了上述原则,我们同时最小化分散在集群内的新目标函数聚类实现一个合适的集群结构。最后取得了最优隶属度是用来表示中的每个样本数据集的偏远程度。该算法发现承诺改善的性能异常检测相比,典型的异常检测方法在准确性、运行时间以及其他评价指标。

本文的其余部分组织如下。部分2给一个简短的回顾可能性聚类算法。部分3介绍了特征的详细描述加权semisupervised clustering-based孤立点检测算法。节4,该方法的实验结果与典型的孤立点检测算法讨论了合成和真实的数据集。最后,部分5遵循我们的结论。

2。可能性聚类算法

让是一个给定的数据集对象,是th对象的特征特性。假设数据集分为集群和表示集群原型。

FCM是一个著名的聚类算法(29日),其目标函数在哪里的隶属度th对象的th集群。代表了规范的矢量和是模糊化系数。注意,约束条件(2)表明,每个对象的成员和所有集群= 1。因此,FCM是敏感异常值由于异常值的直觉或噪音一般定位远离所有集群原型。出于这个原因,Krishnapuram和凯勒30.)提出了一个可能性c均值聚类算法(PCM),放松限制会员的总和和最小化目标函数如下: 在哪里是一个合适的正数。在PCM,约束(4)允许局外人持有较低的所有集群成员,那么局外人对目标函数的影响(低3)。每个样本的成员信息可以用来解释自然边远样本的特征。对于一个特定的示例,如果它有一个低所有集群成员,它可能是一个局外人。

之后,另一个无人监督的可能性聚类算法(PCA)提出了杨、吴(31日)和主成分分析的目标函数是描述为的参数可以计算样本协方差:

3所示。基于特征加权聚类Semisupervised异常值检测框架

3.1。模型公式

在本节中,我们引入先验知识可能性c均值聚类方法来提高异常检测的性能。首先,一个小样品在给定数据集的子集标记为正常或异常值对象。每个标签正常对象所属类的标签。semisupervised指标矩阵构造描述semisupervised信息及其条目定义为以下:(我)如果一个对象贴上一个正常点和它属于th集群,然后,所有,我们让。(2)如果贴上一个异类,那么所有,我们设置。(3)如果无标号,然后呢,它有。

通常数据通常包含大量的冗余特征。集群结构在给定的数据集通常局限于功能的一个子集,而不是整个特性集。无关紧要的功能只能模糊的发现集群结构的聚类算法。一种内在的例外是容易被忽视的模糊性集群结构。图1提出了一个三维的数据集的一个例子。数据集有两个集群(和),特性(,,)。在特征空间,,发现,两个集群(见图1(一))。在子空间,、集群可以找到,但是不能(见图1 (b))。然而,只有集群可以清楚地显示在吗,(见图1 (c))。因此,如果我们分配权重0.47,0.45,和0.08特性,,集群,分别聚类算法将恢复。如果重量的特性,,被分配为0.13、0.46和0.41,分别集群将恢复。在这种考虑,每个集群不同子集的相关特性,和相同的功能可能有不同的重要性在不同的集群。

(一)空间的情节(,,)

(b)的子空间(,)

(c)的子空间(,)

在我们的研究中,让的重量th关于维特性th集群,满足;特征加权距离之间的th对象和集群原型被定义为的参数体重指数是特性。

集群内的点通常表现强烈相关,而离群值之间的弱相关显示。也就是说,正常点属于其中的一个集群和异常值不属于任何集群。因此,应该有一个正常点加入到集群它属于高,和一个离群值很低,所有集群成员。基于这个想法,我们定义一个新的目标函数最小化,如下: 在哪里,,对象的数量,特性,分别和集群。,的隶属度对象属于集群。,表示特性的重量维特性的集群。,表示空间的功能价值集群原型。表示对象之间的特征加权距离和集群原型。semisupervised指标矩阵元素。模糊化系数和参数吗根据(可以固定样本协方差6)。积极的系数调整的标签信息的重要性对象的th集群目标函数(8)。更大的是,更大的标签知识的影响。

第一项(8)相当于FCM目标函数需要从集群原型对象的距离要尽可能小。第二项是构造力尽可能大。第三项关注降低标签离群值的隶属度的所有集群和最大化标签正常对象的隶属度属于集群。用一个合适的选择,我们可以平衡每一个物体的重量标签信息,实现最优模糊分区。

的美德semisupervised指标矩阵在目标函数(8)可以阐述如下。回忆semisupervised建设指标矩阵和目标函数(8),请注意,如果我们知道属于th集群,然后和所有的其他条目行= 1。因此,减少在(8)意味着最大化的会员到集群,同时最小化的会员到另一个集群。如果贴上一个例外,即所有的元素在哪里th排= 1,然后最小化在(8)意味着最小化的会员所有集群,局外人不属于任何集群。如果是标记,即在哪里对所有,那么这个词没有对目标函数的影响(8)。

3.2。目标函数的解决方案

在本节中,一个迭代的最小化算法关于,,推导出类似于古典FCM。

首先,为了最小化关于,和是固定的参数(;)是常数。构造拉格朗日函数如下: 在哪里(拉格朗日乘数法)。

的梯度关于将它设置为零,我们获得

然后

用(12)(9),我们有

由此可见,

功能的更新标准体重(,)得到:

的更新方式意味着更大的所有样本的偏差度集群原型有关th特性,小的重量特性。也就是说,如果所有数据的分布是紧凑的集群的原型特征空间,特性在制定中起着重要作用集群。同时,无关的特性因此被分配一个较小的重量减少的负面影响在聚类的过程。

找到最优聚类原型,我们假设和是固定的参数(;)也是常数。我们采取的梯度关于并将其设置为零:

集群原型的更新公式得到如下:

解决最优模糊划分矩阵,我们假设和是固定的参数(;)也是常数。我们设置的梯度关于为零:

的更新公式推导如下:

公式(19)表明,一个较大的值的加权距离导致一个更小的值,尽管,。应该注意,隶属度也依赖于系数。的选择SSOD-AFW算法的性能是十分重要的,因为它在区分第三项的重要性在目标函数相对于其他条款(8)。如果太小了,第三项将被忽视和对象的标签将不会工作,促进集群结构。如果太大,其他条款将被忽视,可能贴错标签的对象的负面影响将会扩大。的价值应该选择,使其具有相同的数量级与第一项(8)。确定的参数以自适应的方式,在所有实验中所描述的,我们选择成正比如下: 在哪里是一个常数。自加权距离是动态更新的,参数的值在每个迭代自适应更新。

3.3。离群值识别标准

基于上述分析,异常值应持有所有集群成员度低。因此,会员的和一个对象的所有集群可以用来评估其偏远程度。对于一个特定的对象,其偏远程度定义为

因此,一个小的价值表明高边远对象的可能性。的偏远程度计算每个样本数据集,分别递增排序。可疑异常值可以发现仅仅通过提取偏远程度排序序列中的对象,是给定数量的异常值中包含异常值的数据集或给定一个需求。

总之,SSOD-AFW算法显示了算法的描述1。

算法1 (semisupervised孤立点检测的基于自适应特征加权聚类(SSOD-AFW))。
输入。数据集一些对象的标签信息,集群的数量、参数,,,,异常值的数量。
输出。可疑的离群值。(1)计算参数根据(6),随机初始化矩阵,初始化所有的元素作为。设置迭代计数器。(2)计算集群的矩阵模型根据(17)。(3)更新功能权重矩阵由(15)。(4)更新特征加权距离由(7)。(5)更新参数由(20.)。(6)更新隶属度矩阵根据(19)。(7)如果请转到步骤;别的,,重复步骤步。(8)计算每个对象的偏远程度,OD值以一个提升的方式排序。最后输出最高离群值最小的边远度。

计算复杂度分析:步骤(2)的需求(美国有线电视新闻网)操作来计算集群原型。计算权重的计算复杂度特性是(美国有线电视新闻网)在步骤(3),(4)步需要(美国有线电视新闻网)计算的加权距离对象集群原型。步骤(5)的需求(cn)计算参数的对象对集群原型。此外,步骤(6)的需求(cn)操作计算的会员对象集群。因此,整个计算复杂度(美国有线电视新闻网),一样经典的FCM算法。

3.4。收敛性的证明

在本节中,我们讨论了SSOD-AFW算法的收敛性。为了证明目标函数的收敛性在(8通过迭代,,与公式(15),(17)和(19),它只需要证明后是单调递减和有界有限数量的迭代。下一个前题2,3,4验证的单调递减性质关于,,,分别。引理5礼物的有界性。

引理2。目标函数在(8)是nonincreasing通过更新与公式(19)。

证明。由于这一事实和是固定的时候更新由(19),这里的目标函数可以被视为一个函数只与,表示。根据拉格朗日乘数法,通过计算(19)是一个驻点。另一方面,如果海赛矩阵证明是正定在哪里,它可以证明达到当地最低。海赛矩阵表示为是一个对角矩阵,其对角元素是什么自,海赛矩阵是正定的。有证明是一个驻点的(),是正定的,我们得出这样的结论的局部最小值()。然后我们有,在那里是会员矩阵后th迭代(19),一个接一个的吗迭代。因此,目标函数在(8)是nonincreasing通过更新使用公式(19)。

引理3。目标函数在(8)是nonincreasing通过更新使用(15)。

证明。类似于引理2,当和是固定的,我们只需要证明拉格朗日的海赛矩阵吗在是正定的,在哪里计算(15)。海赛矩阵表示为的元素表达如下: 自和对角矩阵的对角元素,显然是积极的。因此,海赛矩阵是正定的。达到当地最低计算(15)。这就完成了证明。

引理4。目标函数在(8)是nonincreasing当更新使用(17)。

引理的证明4类似于引理2。

引理5。目标函数在(8)是有界的,存在一个常数,它满足。

证明。 和,我们有。因此,是单调递减的对吗因此。显然,第一项和第二项的目标函数也有界。因此,目标函数在(8)是有界的。

定理6。目标函数收敛到局部最小值的更新,,使用公式(15),(17)和(19),该学科的约束(9)。

证明。前题2,3,4确认目标函数(8根据(下)是nonincreasing迭代15),(17)和(19)。引理5显示,有一个有限的约束。虽然参数需要更新在迭代过程中,它是一个常数使用拉格朗日乘数法解决问题。所以不影响SSOD-AFW算法的收敛性。结合以上结论,肯定是通过迭代收敛到局部最小值的,,由(15),(17)和(19)。

4所示。实验和分析

综合实验和分析合成数据集和一些真实数据集上进行了展示SSOD-AFW提议的有效性和优越性。我们将该算法与两个催化转化无监督异常值算法,LOF (15),神经网络(13),一个监督方法SVDD [32),和一个semisupervised方法EODSP23]。

4.1。评价指标

孤立点检测算法,数值绩效评估三个指标,即精度(7],AUC [33],rank-power [16),用于本文。

让真正的离群值的数量数据集包含,表示真正的离群值的数量检测的算法。在实验中,前最可疑的实例被检测到。然后的精度

接受者操作特征(ROC)曲线代表之间的权衡关系检测率和误警率。一般来说,ROC曲线下的面积(AUC)是用来测量异常值检测方法的性能,和理想的AUC值检测性能接近。

对于一个给定的孤立点检测算法,真正的离群值占据高位的nonoutliers可疑的实例;然后rank-power (RP)算法的高。如果是真正的离群值的数量中找到实例和表示的等级真正的离群值,然后度量rank-power (RP)是由

当所有RP达到最大值1真正的离群值在顶部的位置。大的值的RP意味着更好的性能的一种算法。

4.2。实验合成数据集

一个二维合成数据集和两个集群模式是产生高斯分布的异常值检测结果直观地比较该方法与上面提到的其他四个算法。均值向量的两个集群和分别,和它们的协方差矩阵和。如图2(一个)显示,共199个样本中包含合成数据集,其中有183个正常样本(在两个集群)和16个离群值(两个集群之间混乱)。13个正常对象标记和标记为符号”“异常值和5标签和标记符号””,而其余的样品没有标记标注“。”2 (b)- - - - - -2 (f)分别说明了孤立点检测的结果合成数据集通过LOF,NN, SVDD EODSP SSOD-AFW,红色的符号””表示检测到可疑的离群值。在这里,参数的值在LOF(附近的大小)和神经网络是分配给3。高斯核函数选择SVDD我们设置带宽和权衡系数。此外,欧几里得距离阈值在EODSP设置为0.1和负集设置为的百分比。该算法的参数设置,,。除了SVDD,边远分数最高的前16个对象视为其他四个算法中的结果。

(一)原始合成数据集

(b) LOF

(c)神经网络

(d) SVDD

(e) EODSP

(f) SSOD-AFW

在图2值得注意的是,LOF和无监督方法神经网络以及监督SVDD不能完全检测所有的5个标记为异常值。然而,一些正常点的集群是很错误的是离群值。相比之下,semisupervised EODSP算法和提出的SSOD-AFW算法成功地检测所有的5个标记为异常值。然而,EODSP并不完全检测所有的无标号真正的离群值,和一些真正的正常样本不确定为离群值。结论从图2该算法找到所有真正的离群值的合成数据集和不包括正常样本,而其他方法不。

图3数值给出了孤立点检测使用LOF,绩效评估神经网络、SVDD EODSP, SSOD-AFW合成数据集。从图3我们看到的值准确性、AUC的RP算法都达到1,优于其他方法。

(一)准确性

(b) AUC

(c) RP

此外,在实验过程中,如图3合成数据集的特征权重学习由公式(15在我们的方法),,,。加强在提出SSOD-AFW特征权重算法的有效性,比较分析的加权和nonweighted版本实现合成数据集,分别。该算法考虑到nonweighted场景,孤立点检测的结果在合成数据集呈现在图4。可以看到从图4,nonweighted SSOD-AFW最终标签15真正边远正常样本作为离群值,与一个无标号真正的离群值错过。

4.3。真实数据集的实验

4.3.1。引入数据集

为进一步验证该算法的有效性,五个真实数据集从UCI机器学习库(34(即。,虹膜,鲍鱼,酒,Ecoli,和Breast Cancer Wisconsin (WDBC)) are employed to test the performance of the proposed algorithm against LOF,神经网络、SVDD EODSP。Aggarwal和Yu(所35),一种异常检测算法的性能测试是运行在数据集和计算的比例分属于罕见的类。所以少量的样本相同的类随机选择偏远的对象或目标对象,五个数据集。例如,原始的虹膜数据集包含150个对象与50对象的三个类。我们随机选择26对象类“Iris-virginica”目标异常值和其他两个类中的所有对象都视为正常对象。其他四个数据集也同样预处理和更详细的描述表中给出了5个真实数据集1。


数据集	实例	特性	外围类	离群值(百分比)	集群	之前的信息

虹膜	126年	4	“Virginica”	26 (20.63%)	2	10个标签正常样本,4标记为异常值
鲍鱼	4177年	8	“1”——“4”,“16”——“27日”“29”	335例(8.02%)	11	11标签正常样本,18标记为异常值
酒	130年	13	“3”	11 (8.46%)	2	9标签正常样本,4标记为离群值
Ecoli	336年	9	“omL”、“安恩科技”、“imS”	9 (2.68%)	5	11标签正常样本,3标记为异常值
WDBC	387年	30.	“恶性”	30 (7.75%)	1	10个标签正常样本,8标记为异常值

4.3.2。实验结果分析

我们比较了与LOF孤立点检测算法的性能,NN, SVDD EODSP在现实世界的数据集。每种方法都有它自己的参数,每个算法的详细参数设置如下。该算法的参数,,所有的五个数据集。的参数选择策略SSOD-AFW稍后将讨论的分段参数分析。对于其他算法,这些参数设置正是他们所引用。众所周知,LOF和神经网络有很高的依赖性在小区参数。在本文中,我们设置对于数据集虹膜和WDBC,对于数据集鲍鱼,数据集葡萄酒数据集Ecoli。对于SVDD方法,采用高斯核函数带宽和在所有的五个真实的数据集。在EODSP,欧几里得距离阈值设置为0.1和负集的比例是设置为虹膜和鲍鱼的数据集,,数据集Ecoli,酒,WDBC。因为我们从目标类随机选择离群值为每个数据集,每个实验重复相同数量的不同异常值的10倍。的平均精度,AUC, RP计算标准的各种检测方法的性能。

图5说明了对LOF SSOD-AFW算法的异常检测结果,NN, SVDD EODSP分别在五个真实数据集。从图可以看出5,该算法可以准确地识别异常值根据数据集的集群结构,为指导标签的知识。它显示了独特的优越性在其他非监督(LOF,神经网络),semisupervised (EODSP)和监督(SVDD)方法。特别是,SSOD-AFW图的孤立点检测的准确性5(一个)明显高于其他人,尤其是对数据集虹膜和葡萄酒。我们可以知道从图5 (b)AUC值的方法总是高于其他所有数据集WDBC除外。RP, SSOD-AFW虹膜数据集上执行比其他四个算法和葡萄酒,而略比SVDD鲍鱼,穷Ecoli比LOF穷,穷NN WDBC,视为在图5 (c)。

(一)准确性

(b) AUC

(c) RP

值得一提的是,该算法的实验WDBC涉及看到下面成了一个聚类问题。虽然看到下面成了一个集群任务通常是无意义的,看到下面成了clustering-based异常值检测是特别有意义的和可行的建议,因为我们的方法不需要会员度必须总结为1。这是一个强大的和重要的特征算法。

4.3.3。标签的比例的影响数据异常值检测

在本节中,我们将调查的标记样本比例的影响精度的方法。两种典型情况下被认为是和测试。第一个是标记为异常值的比例增加时,标签的数量正常对象是固定在某一常数。另一个是,标记为正常样本的百分比变化而标记为异常值的数量是固定的。所以两组实验的目的是比较对EODSP算法的精度,在标记为异常值和正常的情况下不同比例的样本,分别对数据集的虹膜,鲍鱼,葡萄酒,Ecoli, WDBC。在两个实验中,标记为异常值的百分比或标记为正常样本范围从0%到40%,分别,当另一种标记对象的数量是固定的。我们随机选择一定数量的标签异常或正常样本数据集,每个实验重复10次,平均精度SSOD-AFW和EODSP计算。

图6显示第一组实验的结果标记为异常值的百分比从0%到40%不等。可以看到从图6这两种semisupervised算法的精度大致增加标记为异常值的比例越来越大。这有力地支持semisupervised孤立点检测算法可以提高异常检测利用先验信息的准确性。此外,SSOD-AFW达到精度比EODSP算法同样比例的五个数据集上标记为异常值。特别是酒,SSOD-AFW的准确性是EODSP的高出40%。EODSP地址的问题,只有少数标记为异常值检测异常值作为训练数据。标记为正常实例提取根据最大熵原理,熵的计算只使用每个测试样本之间的距离和异常值的标签。这使得EODSP不灵活,我们的方法由于信息不足。

(一)虹膜

(b)鲍鱼

(c)酒

(d) Ecoli

(e) WDBC

图7说明了该算法的准确性比较EODSP,当标签正常样本的比例从0%增加到40%,标记为异常值的百分比是固定的。请注意,我们的方法获得一个更好的准确性比EODSP所有的五个真实数据集。该算法的准确性变大当标签正常样本的百分比增加。如前所述,EODSP强调semisupervised孤立点检测的只有一些标记为异常值初始数据集,但没有考虑任何标记为正常的对象。因此,EODSP算法的准确性使哈珀与不同比例的标签正常对象和总是等于的精度值标记为正常样本。

(一)虹膜

(b)鲍鱼

(c)酒

(d) Ecoli

(e) WDBC

4.3.4。参数分析

的参数,,是重要的在我们的算法中,影响SSOD-AFW的性能。在本节中,每个参数对异常值检测精度的影响进行了研究。

的参数是模糊化系数。图8(一个)分析异常值检测精度之间的关系我们的算法和参数,从1.5到5.0不等。结果暗示当达到最高的精度要求范围在。所以它是合理的在图所示的实验价值5已经设置为2.1。的参数控制标签的重要性信息异常值检测的结果。孤立点检测的精度是由不同作证从0.1到0.9,如图所示8 (b)。总体精度成为大趋势增加。该算法的最好的结果发生,保持稳定的时候。最后,从图8 (c)体重指数,我们得出这样的特性小影响SSOD-AFW的准确性的情况下,其他参数保持相同的设置。因此该算法不是敏感参数。一般来说,参数建议选择一个常数。

(一)参数

(b)参数

(c)参数

4.3.5。执行时间分析

图9分析了该算法的平均运行时间在其他算法的五个真实数据集。实验环境是Windows XP系统,MATLAB 7.1平台,3 GHz CPU、2 GB RAM。因为数据集鲍鱼的体积远远大于其他四个数据集,各种数据集的运行时间是明显不同的。为了方便显示在图9水平坐标轴转换向下一段短距离的路。结果表明,该算法比其他四个典型更省时的孤立点检测算法,除了神经网络在数据集葡萄酒。在整个的执行时间SSOD-AFW是可比的NN和小于其他算法在大多数的数据集。

5。结论

为了检测异常值更准确地说,一个semisupervised异常检测算法基于自适应特征加权聚类,叫做SSOD-AFW,本文提出了。不同的权重每个特性对不同集群被认为是通过自适应迭代,这样无关紧要的负面影响对孤立点检测的功能削弱。此外,该方法充分利用先验知识中所包含的数据集和检测异常值的集群结构。它是由一系列的实验验证,提出了SSOD-AFW算法优于其他典型的无监督,semisupervised和监督算法在孤立点检测的精度和运行速度。

在本文中,我们提出一个新的semisupervised孤立点检测方法,利用少量的对象的标签。然而,我们的方法假定是可靠的,不考虑对象的标签贴错标签惩罚在新的目标函数。因此,一个健壮的版本的方法处理噪声或不完美的标签的对象值得进一步研究。此外,由于只有一个典型的不同测量名叫欧氏距离我们的方法,讨论了SSOD-AFW算法局限于孤立点检测的数值数据。未来研究旨在扩展我们的方法混合属性数据在现实生活中的应用,如工业过程故障诊断或网络异常检测。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了国家自然科学基金(批准号11471001)。

引用

j·汉、m . Kamber和j .贝聿铭数据挖掘:概念和技术,爱思唯尔,2011年。
d·m·霍金斯识别异常值查普曼&大厅,伦敦,英国,1980年。视图:MathSciNet
诉Bamnett t·刘易斯,离群值的统计数据约翰•威利& Sons奇切斯特,英国,1994年。
诉j·霍奇和j·奥斯汀“孤立点检测方法、调查”人工智能审查,22卷,不。2、85 - 126年,2004页。视图:出版商的网站|谷歌学术搜索
盛,问:李、w .毛和w·金,“孤立点检测的传感器网络,”学报》第八届ACM国际研讨会在移动Ad Hoc网络和计算(MobiHoc ' 07)加拿大蒙特利尔,页219 - 228,,2007年9月。视图:谷歌学术搜索
a·p·詹姆斯和s . Dimitrijev”Inter-image异常值及其应用于图像分类,“模式识别,43卷,不。12日,第4112 - 4101页,2010年。视图:出版商的网站|谷歌学术搜索
杨l . j .黄问:朱,j .冯”non-parameter异常值检测算法基于自然的邻居,”以知识为基础的系统卷,92年,第77 - 71页,2016年。视图:出版商的网站|谷歌学术搜索
j·m·谢泼德和s . j . Burian”检测urban-induced降水异常的主要沿海城市,“地球的相互作用,7卷,不。4 - 17,2003页。视图:出版商的网站|谷歌学术搜索
o·艾伦和c . Catal“阈值基于孤立点检测的方法对矿业类异常值:一个实证案例研究软件测量的数据集,”专家系统与应用程序,38卷,不。4、3440 - 3445年,2011页。视图:出版商的网站|谷歌学术搜索
b . Scholkopf j·c·普拉特j . Shawe-Taylor a . j . Smola r·c·威廉姆森,“估计一个高维分布的支持,”神经计算,13卷,不。7,1443 - 1471年,2001页。视图:出版商的网站|谷歌学术搜索
d .税,a .雅普玛所著,r . Duin”支持向量数据描述应用于机器振动分析,”程序先进学校第五届年会的计算和成像Heijen,页398 - 405年,荷兰,1999年6月。视图:谷歌学术搜索
d . m . j .税收和r·p·w·Duin“支持向量数据描述,”机器学习,54卷,不。1,45 - 66年,2004页。视图:出版商的网站|谷歌学术搜索
s . Ramaswamy r . Rastogi k .垫片,“有效的算法从大型数据集挖掘异常值,“SIGMOD记录(ACM特殊利益集团管理的数据)卷,29号2、427 - 438年,2000页。视图:谷歌学术搜索
e·m·诺克斯和r·t·Ng”算法挖掘大数据集,基于距离的离群值”《国际会议上非常大的数据基础Citeseer,页392 - 403年,纽约,纽约,美国,1998年。视图:谷歌学术搜索
m . m . Breunig H.-P。Kriegel、r·t·Ng和j .桑德LOF:识别density-based局部离群值,“ACM SIGMOD记录卷,29号2、93 - 104年,2000页。视图:出版商的网站|谷歌学术搜索
j·哈,美国Seok, js。李,“异常值检测、精确的排名方法”信息科学卷,324年,第107 - 88页,2015年。视图:出版商的网站|谷歌学术搜索|MathSciNet
r . n . Dave”噪声的表征和检测聚类”,模式识别的字母,12卷,不。11日,第664 - 657页,1991年。视图:出版商的网站|谷歌学术搜索
r .史密斯,a . 4 m . Embrechts c . Palagiri b .西曼斯基,“基于异常的入侵检测聚类方法,”通过人工神经网络智能工程系统学报》上,第584 - 579页,2002年。视图:谷歌学术搜索
y史和l .张“呆呆:cluster-outlier迭代检测方法多维数据分析,“知识和信息系统,28卷,不。3、709 - 733年,2011页。视图:出版商的网站|谷歌学术搜索
王w . j .赵k . Liu, y,“基于自适应模糊聚类的异常数据检测在钢铁行业能源系统,”信息科学卷,259年,第345 - 335页,2014年。视图:出版商的网站|谷歌学术搜索
f . Angiulli和c . Pizzuti”快速孤立点检测在高维空间中,”学报第六届欧洲会议原则的数据挖掘和知识发现(PKDD ' 02),卷2,页15-26,2002年8月。视图:谷歌学术搜索
m . Radovanovića Nanopoulos, m . Ivanović“反向最近的邻居在无人监督的基于距离的孤立点检测的,”IEEE工程知识和数据,27卷,不。5,1369 - 1382年,2015页。视图:出版商的网站|谷歌学术搜索
a . Daneshpazhouh和a·萨米Entropy-based异常值检测使用semi-supervised方法很少有积极的例子,”模式识别的字母49卷,第84 - 77页,2014年。视图:出版商的网站|谷歌学术搜索
j .高h . Cheng和P.-N。棕褐色,“Semi-supervised异常值检测”ACM研讨会上应用计算的程序ACM,页635 - 636年,第戎,法国,2006年4月。视图:谷歌学术搜索
z雪、y .商和a .冯”Semi-supervised孤立点检测的基于模糊c均值聚类,“数学和计算机模拟,卷80,不。9日,第1921 - 1911页,2010年。视图:出版商的网站|谷歌学术搜索|MathSciNet
j . z黄m·k·Ng h .荣和z,“自动变量权重在k - means聚类类型,”IEEE模式分析与机器智能,27卷,不。5,657 - 668年,2005页。视图:出版商的网站|谷歌学术搜索
h . Friguiand和o . Nasraou原型和属性权重的无监督学习,”模式识别,37卷,不。3、567 - 581年,2004页。视图:出版商的网站|谷歌学术搜索
c . p . j .周l . Chen, y,李和h”与属性的熵权重模糊聚类”,Neurocomputing卷,198年,第134 - 125页,2016年。视图:出版商的网站|谷歌学术搜索
m·哈桑·a·乔杜里,汗,和m·a·伊夫蒂哈尔”强大的基于信息增益的模糊c均值聚类和分类的颈动脉超声图像,”计算机在生物医学方法和项目,卷113,不。2、593 - 609年,2014页。视图:出版商的网站|谷歌学术搜索
r . Krishnapuram和j·m·凯勒”可能性聚类方法,”IEEE模糊系统,1卷,不。2、98 - 110年,1993页。视图:出版商的网站|谷歌学术搜索
M.-S。杨和K.-L。吴,“无人监督的可能性聚类”,模式识别,39卷,不。1,5 - 21日,2006页。视图:出版商的网站|谷歌学术搜索
s . m .郭l·c·陈,j·s·h·蔡”为孤立点检测的边界方法基于支持向量域描述,“模式识别,42卷,不。1,第83 - 77页,2009。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
t·福塞特,“Roc曲线图:笔记和研究的实际问题,“机器学习没有,卷。31日。1,1-38,2004页。视图:谷歌学术搜索
c·布莱克和c·j·梅尔兹UCI机器学习数据库的存储库”,1998。视图:谷歌学术搜索
c . c . Aggarwal p s . Yu,“高维度数据异常值检测,”ACM SIGMOD管理国际会议的程序数据(SIGMOD ' 01)美国加州圣芭芭拉,2001年5月。视图:出版商的网站|谷歌学术搜索

数学问题在工程

文摘