文摘

基于高维的无监督异常检测任务或多维数据占据很重要的位置在机器学习领域和工业应用;特别是在网络安全方面,网络数据的异常检测是特别重要的。异常检测的关键是密度估计。尽管降维的方法和密度估计近年来取得了很大的进步,大多数降维方法很难保留原始数据的关键信息或多维数据。最近的研究表明,深autoencoder (DAE)可以解决这个问题。为了提高性能的无监督异常检测,我们提出一种异常检测方案基于深autoencoder (DAE)和聚类方法。深autoencoder训练学习的压缩表示输入数据,然后喂给聚类的方法。这个方案的优点充分利用深autoencoder (DAE)产生低维表示和重建错误输入高维或多维数据,并使用它们来重建输入样本。该方案可以消除数据中包含的冗余信息,提高性能的聚类方法在识别异常样本,并减少计算量。来验证该方案的有效性,大量的实验进行比较与传统降维算法和聚类方法。 The results of experiments demonstrate that, in most cases, the proposed scheme outperforms the traditional dimension reduction algorithms with different clustering methods.

1。介绍

异常检测是机器学习的一个非常重要的分支,具有广泛的实际应用,它的目的是检测数据中的特殊点。适用于故障诊断(1,2),系统健康监控(3)、网络安全检测(4)、入侵和欺诈检测5- - - - - -7),测量等领域。正常情况下的异常被称为异常,异常也被称为异常,异常值,小礼品,噪音,和偏差8]。所谓的异常检测是找到对象不同于大多数对象。这三个对象啊1阿,2阿,3在图1不同于大多数对象在N1和N2类。偏差是不同的不同的应用程序。不同的应用场景有不同定义的异常。

为了找到异常值在给定输入样例中,密度估计是关键的一步。尽管取得了丰硕成果数据的无监督异常检测方法近年来,总有限制高维数据和多维数据。一些传统的降维方法,比如线性判别分析(LDA),至少绝对收缩和选择算子(套索),局部线性嵌入(米歇尔),主成分分析(PCA),独立主成分分析(ICA)和多维尺度变换(MDS),是用来处理数据,但是,在降维过程中,一些关键信息的原始数据将丢失,从而降低正常样本和正常样本之间的差异。此外,还有一些其他的方法,例如,在高维数据子空间聚类(9),以进一步提高异常检测的结果。然而,以上方法可以达到预期的效果。当深层神经网络在其他领域取得了良好的效果,在异常检测数据的维度灾难似乎到了一个转折点。许多研究在这一领域一直积极探索。例如,深autoencoding高斯混合模型(10在公共数据集已经显示出良好的性能,为高维数据异常检测提供一个新的方向。

根据上述分析,我们提出一个基于深autoencoder异常检测方案。以下贡献了高维数据的无监督异常检测:(我)基于深autoencoder降维方法,提出了重建的输入样本。深autoencoder用来降低数据的维数,降维结果的组合和重建误差形成一个低维输入样本重建。数据的关键信息是保存完好的在低维重建输入样本,这使得它更容易识别异常样本。(2)异常检测方案提出了基于深autoencoder和聚类方法。这个计划的优点充分利用深autoencoder (DAE)生成高维的低维表示和重建错误或多维输入数据。(3)进行了大量的对比实验,和实验结果证明该方案在三个公共数据集的autoencoder-based和聚类方法具有更好的性能,识别异常点数据。

异常的概率很小,复杂,因此很难识别所有异常。尽管许多异常检测方法的出现,数据集上的误警率(11)仍然是非常高的。在高维数据的异常检测,异常在高维空间中隐藏,但他们显然是暴露在低维空间。由于在现实世界中生成的数据非常复杂,高维数据的异常检测是一项艰巨的任务(12]。由于大型和复杂的数据在现实世界中,也很难标签数据。一般来说,无监督方法(13用于异常检测。通常,在异常检测的训练和测试之前,有必要减少高维数据的维度。传统的降维方法包括线性判别分析(LDA),至少绝对收缩和选择算子(套索),局部线性嵌入(米歇尔),主成分分析(PCA),线性主成分分析(14),和非线性主成分分析(15,16]。LDA也叫Fisher线性判别(盛名),因为它是罗纳德·费舍尔在1936年发明的。该方法的基本思想是高维空间的项目样品送入太空的最佳判别向量实现提取关键信息的目的和压缩Eigenvector-Space的维度。投影后,确保原样品组内的最大距离和最小的组内距离新的子空间;换句话说,在原样品是最好的可分性。套索,这是一个压缩估计方法(17),获得一个更精致的模型通过构造罚函数,达到降维的目的通过压缩系数。降低维数时,米歇尔(18)关注维护当地的样本的线性特征。因为米歇尔保持地方特色的样本在降维过程中,广泛应用于图像识别,高维数据的可视化等领域。主成分分析的主要思想是n维数据投射到k维数据压缩和降噪数据。主要特征的高维空间数据投影到低维空间方向的重建误差最小,最变量尽可能多的保留,这样的关键信息,区分正常样本和异常样本的原始数据存储在低维空间。ICA分离独立信号从混合观测信号或使用独立信号来表示尽可能多的其他信号。ICA的想法被Heranlt Jutten并在1986年首次提出,它是近年来的一个强大的数据分析方法。这是一个方法用于查找隐藏组件从高维数据和被认为是主成分分析的扩展。MDS的主要思想是将坐标点在高维空间映射到低维空间,保持数据间的相似性尽可能多。它解决的主要问题是给之间的相似性对象并确定的低维表示对象,以便它可以匹配最初的相似性最大。在高维空间中,一个点表示一个对象,所以对象之间的相似点之间的距离有关。两个点之间的距离越近,相似度越高。除了降维方法,基于子空间的方法(9,19也是一个可选择的解决方案。此外,最近的降维与重建错误基于深autoencoding [10,20.取得了新的进展。然而,这个过程需要联合训练的数据降维,重建误差密度估计,更加复杂,需要耗费大量的时间和计算资源。

聚类方法是一个重要的类型的异常检测方法和密度估计,包括k - means,均值漂移,DBSCAN,高斯混合模型和多元混合模型(12,21- - - - - -26]。由于高维数据的局限性27),上述方法不能直接应用到高维数据的异常检测。对于这个问题,传统的降维方法通常用于预处理数据。然而,样本数据的关键信息将丢失在降维,将导致后续困难识别异常的过程。最近的研究表明,深autoencoder方法(10]介绍了重建误差能够很好地解决这个问题,因为深autoencoder可以消除不相关特征降维过程中,保留了原始数据的关键信息。根据上面的分析,在这篇文章中,我们提出一种异常检测方案基于深autoencoder和聚类方法。深autoencoder可以获得低维数据和重建误差,和他们进一步重组生成输入样本,这给深autoencoder的优势充分发挥。

2.1。基于深Autoencoding降维方法

在现实世界中生成的数据的属性并不单一,和数据的多个属性形成一个高维数据集。因为高维数据不仅占据了一个巨大的存储容量,也消耗计算资源,必须降低高维数据的维数。深autoencoder可以通过高阶功能重建输入达到降维的目的。它是由两个对称的神经网络,这是编码器和译码器。

2.2。深Autoencoder

深autoencoder由两个对称,前馈多层神经网络,即编码器和译码器,如图2。这里,输入数据被用来喂养编码器进行编码。在这个过程中,压缩特征向量,由译码器接收解码输出数据类似于原始的空间。此外,圆形符号代表了维度的数据图2。的数据输入维度autoencoder等于输出维度。的帮助下稀疏编码、少量的高阶功能重组重构的输入而不是复制像素。它通常是用来学习或编码表示的一组输入数据,其实质是消除冗余信息,这样的特性的数据尽可能保留。

一个autoencoder再现了输入信号的神经网络。为了重现输入数据,autoencoder必须捕捉最重要的特性,可以代表输入数据。当中间隐层节点的数量小于输入节点的数量,只有数据中最重要的特性是可以习得的。它可以恢复和删除冗余信息。类似于主成分分析,寻找能代表原始数据的主要组件。此外,正规化可以中间隐层中引入惩罚隐层节点的稀疏。

深的期望输出值autoencoder本身是输入(21]。让X输入数据样本;编码器将地图输入数据样本X所谓潜在表示 根据方程(1)。 美联储到译码器,它将被映射到输出向量 相应的表达吗X,它通常是不可能完全重建X。因此,它们之间存在误差。

的表达 如下:

在这里,Z是潜在的表示, 表示激活功能。W表示重量,b是偏见。的表达 如下:

2.3。重建输入样本

重新输入样本的来源组成如下:(1)深autoencoder减少输入样本的维数X;在这个过程中,潜在的表示 获得,见方程(1)。(2)计算输入样本之间的误差X和输出向量 ,而产生 在这个过程中,见以下方程: 重组 形成一个低维输入Z如下: 在哪里f(·)重建误差计算的功能。的维数 取决于误差得到几个距离度量,包括绝对的欧几里得距离、相对欧几里得距离,和余弦相似度(10]。

2.4。无监督异常检测方案

本文提出的无监督异常检测方案,如图所示3输入网络,使用重构得到压缩信息,这是美联储聚类方法来识别异常。

输入网络的主要成分是一种深autoencoder。它的目的是产生一个低维表示的高维数据,避免数据维度的局限性异常检测算法。如图4重新输入网络工作如下:(1)使用深autoencoder编码和解码数据样本。(2)它重建低维输入样本的结果和错误后减少维度数据。

在图4,X是输入高维数据,Z1是指由深autoencoder低维数据压缩。X′通过深autoencoder解码Z1;和x′类似于XZ2获得的重建误差来自哪里xX′。Z的结合Z1Z2并最终降维结果。此外,圆形符号代表了维度的数据图4

在该方案,可能是传统的聚类方法聚类算法,如k - means, DBSCAN,均值漂移。

3所示。实验

在本节中,以验证该方案的有效性,大量的实验进行比较与传统降维算法和聚类方法。的无监督异常检测方法验证包括DAE + k - means, DAE + DBSCAN, DAE +均值漂移。深autoencoder训练学习的压缩表示输入数据,然后喂给聚类的方法,包括k - means, DBSCAN,均值漂移。同时,我们使用传统的降维方法和深度autoencoder-based降维方法进行对比实验。这些方法包括主成分分析(PCA)、独立主成分分析(ICA)和多维标度转换(MDS)。

实验使用下列硬件配置:MacBook Pro 2020年,英特尔酷睿i5处理器,16 GB 2133 MHz LPDDR3记忆。

3.1。数据集

我们使用几个公共数据集进行实验,以进一步观察的影响基于autoencoder的无监督异常检测算法和传统的无监督异常检测算法在不同的数据集。

下面将简要介绍几个实验中使用的公共数据集:(我)甲状腺:甲状腺数据来源于甲状腺Garavan研究所的研究情况下,可以获得在UCI机器学习仓库。数据集包含15类别和6真正的属性。数据分为三类:正常(非甲状腺功能减退),机能亢进,低于正常的功能根据病人甲状腺功能减退。在原始数据,机能亢进(机能亢进)占样本总数的一小部分,被认为是异常(10]。另两类,占总样本的比例被视为正常的类别。(2)心律失常:心律失常数据集来自h .阿尔泰Guvenir博士,可以获得在UCI机器学习仓库。数据集是一个多级分类数据集维数为279。五个类别属性被丢弃在这个实验中,所以总属性是274。最小的样本分类数据集(10],即3、4、5、7,8,9,14日和15日合并为离群值的类别,休息是合并成正常的范畴。(3)Pen_global: Pen_global数据集是由马库斯·戈尔茨坦Dataverse项目10月6日,2015年,可用于无人监督的任务。该项目致力于帮助研究人员访问和使用数据。Pen_global数据集共有17个属性。

每个数据集的细节如表所示1

3.2。聚类方法

我们使用传统的聚类算法对重建输入样本进行异常检测,包括k - means, DBSCAN,均值漂移。

3.2.1之上。k - means

k - means的主要思想如下:首先,初始化k每个集群的点为中心,将数据点接近集群中心划分为一个集群。数据分为第一次获得k集群。重新计算每个数据点的欧氏距离向集群中心,并采取平均更新每个集群的中心点。再划分数据点,以便他们最接近集群中心。直到集群中心不会改变,迭代停止。

k - means是一个基于距离的聚类算法,旨在集群类似样品到一个类别,以便不同类别的样本尽可能远(28),因此可以分离不同类别的样本。当只有两种类型的样本,一个叫正常,另一个是不正常的。有两种情况,可以认为是异常。一个案例是,样本非常接近中心的异常类相对于正常的中心类;另一个例子是如果一个样本之间的距离和正常的中心类大于预定阈值(21]。采样点P1和P2在图5分别对应于上述两种情况。

3.2.2。DBSCAN

鉴于数据,如果 附近的至少包含一个对象对象,该对象被称为核心对象。给定一组对象D,如果p是在 附近的是一个核心对象,那么对象p是直接从对象density-reachable,如图6。如果有一个对象链p1p2pn,p1=,pn=p,因为p属于D,p+ 1直接可以从p ,然后pdensity-reachable从

DBSCAN是随机选择的主要思想的核心对象没有像种子一样一个类别和使用的所有density-reachable样本集作为集群的核心对象。然后选择另一个核心对象没有类别找到一组样本的密度可以获得另一个集群。运行的迭代,直到所有核心对象类别。

DBSCAN是density-based聚类方法(29日),旨在发现任意形状数据的类别。在这个算法中,类别可以被视为样本密度面积除以样本数据空间(低密度区域22]。因此,它可用于检测异常样本数据。

3.2.3。均值漂移

均值漂移的主要思想是计算平均值向量之间的距离的某点P及其周边半径R和计算的方向重点将在下一步漂移(移动)。当点不再变化时,它形成一个集群与周围的点,计算集群和历史集群之间的距离;如果它满足小于阈值的条件D,它可以被合并到同一个集群;否则,它本身形成一个集群,直到完成所有数据点的选择。

均值漂移也是density-based聚类算法(30.,31日]。算法更新指定区域的质心的平均价值通过迭代实现聚类的目的23,24]。由于样本之间的距离和偏置点的不同,相应的贡献抵消均值偏移向量也是不同的。因此,为了解决这个问题,它需要找到密度函数通过引入核函数。

4所示。结果

在这一部分中,我们使用精度和F1分数评价异常检测算法的性能。表2显示了精度,F1分数,和时间甲状腺数据集上的实验结果。表3显示了精度,F1分数,和时间数据集实验结果的心律失常。表4显示了精度,F1分数,和时间Pen_global数据集的实验结果。每个算法的最佳结果以粗体显示。

2时间和显示精度,F1得分,甲状腺数据集上的每个算法的索引值。它可以发现DAE + k - means, DAE + DBSCAN, DAE +均值漂移实现最好的结果在精度和F1评分指标。表3时间和显示精度,F1得分,心律失常的数据集上的每个算法的索引值。它可以发现DAE + k - means, DAE + DBSCAN, DAE +均值漂移实现最好的结果在精度和F1评分指标。表4显示了精度和F1的分数和时间Pen_global数据集上的每个算法的索引值。DAE + k - means, DAE + DBSCAN, DAE +均值漂移实现最好的结果在精度和F1评分指标。

根据实验结果,有显著改善的性能通过使用DAE识别异常。尽管DAE + k - means, DAE + DBSCAN, DAE +均值漂移不达到最好的效果在时间的指数,使最好的结果精度和F1指数得分。例如,在时间的指数,ICA +均值漂移的值是0.9795,而DAE +均值漂移的值是1.5510。两者的区别是只有0.5715。因此,它值得花一些时间来获取更好的算法性能。总的来说,与其他降维方法相比,包括主成分分析(PCA)、独立主成分分析(ICA)和多维标度(MDS),聚类算法与DAE在异常检测具有最好的性能。与PCA、ICA和MDS,降维的差异基于DAE的复合压缩信息。前者是消除数据中的冗余信息,在原始数据可能会失去重要的信息,而后者是添加基于前者的重建误差。压缩DAE获得的信息保存在原始数据的关键信息,这对于识别异常是至关重要的。

5。结论

由于复杂的现实场景,生成的数据大容量和高维度的特点。可以看出,并不是所有的数据可以直接使用,和异常检测往往受限于数据的维数。解决这个问题的最好方法是降低数据的维数前检测数据异常。在这个手稿,我们现有的降维技术的局限性进行分析,提出解决方案来解决这些问题。我们提出了一个基于DAE的无监督异常检测方案和聚类算法可以有效地模型数据。k - means聚类算法用于实验,DBSCAN,均值漂移。实验结果表明,我们提出的方案有效地检测异常在公共数据集。在未来的工作中,我们计划提出的无监督异常检测应用于网络安全数据。因为可能会有多个异常网络安全数据,我们计划扩展二进制多类分类问题的分类问题。它可以识别不同类型的异常,提高网络的安全性能。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关这项研究的出版物。

确认

这项研究受到了天津市科学技术部门在批准号18 jczdjc32100。作者Chuanlei收到这张格兰特和赞助商的网站的URLhttp://kxjs.tj.gov.cn/。本研究也由中国国家自然科学基金资助下不。51874300也没有。U1510115。作者陈魏收到这些赠款和赞助商的网站的URLhttp://www.nsfc.gov.cn/。这项研究也由上海微系统与信息技术研究所,中国科学院,在批准号20190902。作者陈魏收到格兰特和赞助商的网站的URLhttp://www.sim.ac.cn/