文摘

目前,多元时间序列异常检测在许多领域已经取得了很大的进步和占据一个重要位置。常见的许多相关研究的局限性在于,只有时间模式没有捕获变量之间的关系和信息的损失会导致错误的警告。我们的文章提出了一种无监督多元时间序列异常检测。在预测部分,多尺度卷积和图关注网络主要用于捕捉信息在时间模式和功能模式。阈值选择部分使用之间的均方根误差预测值和实际值进行极值分析获得的阈值。最后,本文中的模型优于其他最新模型在实际数据集。

1。介绍

时间序列数据的异常检测一直是一个热点问题在学术界和产业界。异常点检测和异常区域的位置可以在关键时刻提供重要的信息,这样人们可以在有针对性的干预和异常事件的方法来防止或消除异常事件。异常检测的时间序列数据已经吸引了人们的注意力在工业、金融、军事、医疗、保险、机器人、可替换主体,网络安全,物联网,复杂的生物系统,等等。1,2]。

时间序列的异常检测是检测与异常值点,振荡或其他异常情况。一般来说,在整个时间序列异常的比例非常低,所以人们希望通过学习成功捕获异常值原始数据或其他特征的分布算法。单变量时间序列进行异常检测只有一个功能。由于只有一个维度的数据,可以使用许多传统的滤波算法,即谱残差算法(3]。多元时间序列异常检测是指时间序列数据的异常检测与多个序列。这类问题扩展基于单变量时间序列异常检测。多元时间序列数据异常的发生往往是由多个特性决定的,和个人的每个特性分析不能准确定位异常。复杂的生物系统一般具有这一特点。例如,从流行病模型时间序列数据可能包括病人的数量,健康的人的数量,感染率和免疫等。流行的严重程度无法判断的部分特征。因此,一个更合理的方法是全面分析多个变量来识别异常。

目前,已取得显著进展的研究MTAD(多元时间序列异常检测)深入学习。例如,Malhotra et al。4提出了一个基于LSTM encoder-decoder网络,模拟重建“正常”的时间序列的概率和重建使用错误在多个传感器来检测异常。Hundman et al。5)使用的长期和短期记忆网络(LSTM)探测飞船多元时间序列基于预测损失。丁等。6)提出RADM实时异常检测算法基于分层时间内存(HTM)和贝叶斯网络(BN),提高实时异常检测的性能。然而,大多数的方法往往依赖于RNN()递归神经网络学习特性和分布在时间模式;序列之间的关系仍然是闲散。因此,我们相信新的潜在的依赖关系可以利用从功能模式,更有利于异常检测。我们提出一个方法的结合时间模式和功能模式。

我们的主要贡献如下:(1)我们所知,这是第一个研究多元时间序列异常检测通常与图从图论的角度关注网络预测(2)我们提出一个新的模型,该模型结合了时间和功能模式,获取更多的潜在变量之间的关系(3)实验结果表明,我们的方法优于3日基准的最先进的方法

本文的安排如下。我们给相关工作在时间序列异常检测部分2。节3手枪的必备知识和格勒乌模型介绍。节4,详细介绍了该方法。第五部分进行实验和分析。最后,我们总结全文。

异常检测也被称为新奇检测、异常检测、或事件检测(在其他相关领域7]。时间序列异常检测是最关注的问题之一。semisupervised,它可以分为监督和无监督异常检测根据标签是否在训练使用。监督学习方法(8)需要培训和标签数据只能识别已知的异常类型(9),所以它的应用范围是有限的。Semisupervised方法相结合的一种学习方法监督学习和无监督学习。Semisupervised方法使用大量的未标记数据以及标记数据,很少研究领域的TSAD(时间序列异常检测)。因此,研究TSAD侧重于无监督的问题。

根据数据序列的数量,这个问题可以分为单变量和多变量时间序列异常检测。单变量时间序列异常检测(3,10,11只考虑的变量是否符合长期模式;当数据值有很大区别,总体布局,它被认为是一个异类。单变量时间序列异常检测的传统方法主要是使用手工特性模型的正常和异常事件模式(12]。例如,有圣言(13),小波分析(9),ARIMA (14),等等。此外,Netflix发布文档基于鲁棒主成分分析(15),收到了良好的反应。Twitter还发表了一个方法使用季节性混合研究极端偏差测试(S-H-ESD) [16]。此外,使用神经网络对检测也取得了很大的进步17]。多变量问题有多个变量在每个时间戳(18]。现有的多变量时间序列异常检测方法可分为两类:(1)基于单变量的异常检测(15),每个序列是由单变量单独监控算法和结果总结给终审判决,和(2)直接异常检测(19),多个特性被认为是在同一时间算法分析。让我们专注于第二种类型的方法。宗庆后et al。20.)提出了一个模型,该模型使用深autoencoder生成低维数据,代表每个输入数据点的重建误差,并输入到一个高斯混合模型(GMM)多变量异常检测。LSTM-VAE算法(7)是一种基于encoder-decoder LSTM网络重构的误差时间序列重构误差和使用检测传感器的异常情况。LSTM-NDT [5)是一种无监督算法没有参数阈值的选择。本文的目标是建立一个异常检测系统监控的航天器发回的数据,相关领域的专家。

图神经网络是近年来非常流行的享有很大的进步在处理空间网络中实体之间的依赖关系。Gugulothu et al。21)结合nontime模式减少技术和定期自动编码器通过端到端学习时间序列建模的框架。OmniAnomaly [22)递归神经网络提出了一种随机捕获多个变量的正常模式通过造型数据分布的随机变量。

3所示。预赛

3.1。问题陈述

在分析现实世界的数据集,一个常见需求是找出那些可以被视为离群值的实例,这明显不同于大多数其他点。异常检测的目标任务是数据驱动找到异常的样本。在我们的工作中,我们关心的是多变量数据 ;在时间价值 ,= 1,2,…n意味着有变量和n是数据的长度。我们的目标是确定 是异常点。这是一个时间序列的问题;我们有大量的数据;历史数据有助于理解当前的时刻 有效使用和学习的信息X,滑动窗口 : 用来预测 这将被认为是正常的。预测之间的区别 与地面真理将投入阈值选择模块;差异越大,的可能性就越大 不正常的;我们将这种差异超过阈值时,我们认为它是一个异常。

3.2。手枪和格勒乌的基本知识
3.2.1之上。手枪(图关注网络)

我们知道很多数据在欧几里得空间。欧几里得空间中的数据最重要的特征是,它有一个固定的空间结构。例如,图片是一个常规的方格网,声音是一维序列数据,等等。这些数据可以表示为一个一维或二维矩阵。然而,在现实生活中许多数据没有常规的空间结构,也就是说,在非欧几里得的空间数据,如电子交易的抽象图形,推荐系统、社交网络等等;图中的每个节点与其他节点。连接是不固定的。因此,人们用图神经网络模型数据的非欧几里得的空间。近年来,由于图结构的表现力强,图表分析和机器学习方法的研究受到越来越多的关注。神经网络图(GNN)是一种基于深度学习处理图形模式信息的方法。 Due to its better performance and interpretability, GNN has become a widely used graph analysis method. Commonly used graph neural networks include Graph convolution networks, graph attention networks, and graph autoencoder. Among them, GAT [23)提出利用邻近的注意机制添加加权特征节点。邻近的节点特征的重量完全取决于节点,图的独立结构。在我们的模型中,找到潜在变量之间的关系,我们用手枪来计算节点之间的相关性。具体细节部分中解释4.3

3.2.2。格勒乌(封闭的复发性单元)

递归神经网络(RNN)是一种神经网络捕捉动态信息的序列化数据通过周期性的隐层节点的连接。它不同于前馈神经网络;RNN可以节省一个上下文的状态,甚至商店,学习和表达相关信息在任何上下文窗口。不再限于传统神经网络的空间边界,它在时间序列可以扩展。直观地说,有一个隐层的节点之间的边,下一刻的隐层。但RNN最显著的缺点是它不能学会保护和利用旧的信息,即梯度和梯度爆炸消失。然而Hochreiter和提出了长期和短期的Jurgen。施密德胡贝尔表示内存(LSTM)在1997年[24]。LSTM是一种周期性的神经网络,这在一定程度上减轻了RNN的问题。实践表明,这种方法非常适合处理时间序列数据。事实上,LSTM算法发展近年来许多变体。Rafal Jozefowicz谷歌等人进行了一个全面的体系结构搜索评估超过10000种不同的RNN / LSTM架构(25),因此我们无法找到一个架构与更好的性能比格勒乌,除了语言模型,在其他应用程序场景中格勒乌比LSTM更有效。格勒乌(封闭的复发性单元)的变体LSTM,更少的参数和比LSTM更有效率。因此,我们的模型选择而不是LSTM格勒乌结构。

曹et al。26)提出了一个封闭的复发性单元(格勒乌)让每个递归单元自适应捕获不同时间尺度的依赖性。递归神经网络,喜欢古典格勒乌也在一连串的神经单元。它的结构是用数学表达如下: 代表输入当前时间和输出 在下次。在哪里 盖茨是一组重置,它是用来控制多少信息之前的状态是被遗忘的。较小的值重置门,过去的信息就会被丢弃。 盖茨是更新。更新门用于控制程度较前一刻多少信息带入当前状态。值越大,从当前需要保持更多的信息和更少的信息可以保留以前的神经元。(,)代表两个向量连接以聪明元素的乘法。

是常用的乙状结肠函数控制数字0和1之间。我们习惯于使用双曲正切函数(双曲正切函数)作为隐藏更新激活函数:

4所示。提出的模型

4.1。模型架构

作为显示在图1,我们的框架包括三个核心组件:颞卷积模型,图的注意模型和阈值选择模型。在前两个模型获得的结果是我们MTAD-TF的预测。均方根误差(RMSE)预测结果和实际值之间的误差阈值选择模型的输入。如果误差超过我们设置的阈值通过锅,认为异常发生。

预测模型的解释如下:(我)时间卷积组件:我们建议一个时间卷积模型来捕获时间由多尺度一维分布模式,可以发现颞模式与多个时期(2)图注意组件:图关注网络用于特征维度;变量之间的相互关系,有利于预测时间序列

4.2。数据预处理

多变量时间序列,不同变量的尺寸有很大的不同。我们不能让这些差异影响后续预测和阈值的选择。因此,我们进行预处理的数据与训练子集的最大最小归一化法测试子集:

4.3。预测模型

该模型的概述图所示2。首先,为了减轻可能的原始数据的噪声影响X,1 d卷积操作进行平滑的数据:

卷积的结果 然后输入三个绿色框所示相同的块。每一块有时间卷积组件串联图关注网络。

4.3.1。时间卷积组件

颞卷积模块捕获序列模式的时间序列数据在时间维度通过一维卷积过滤器来想出一个时间卷积模块,能够发现颞模式与不同的范围和处理长序列,也就是说,使用多尺度卷积过滤器(27]。然而,如何选择正确的过滤器的大小是一个具有挑战性的问题。理解卷积在通信理论和图像处理方面,卷积核的大小通常设置为奇数(28]。原因如下:与偶数相比,奇数有一个中心点和更敏感的边缘和线条,可以更有效地提取边缘信息,避免偏差的位置信息。此外,奇数可以确保双方的相互对称的填充,使输出图像的大小是一样的大小的输入。因此,如图3我们选择的过滤器尺寸1×3,1×5、1×7和1×9包括颞初始层。这些过滤器的大小不同的组合可以包含一些周期性的时间信号,如数据周期为12。模型可以开始输入层从第一个时间卷积通过1×5层,然后从第二时间卷积通过1×7层。小卷积核的选择不仅减少了参数,还可以添加更多的非线性映射来提高鲁棒性。最后,我们补丁卷积的结果不同,分别恢复以前的数据大小。时间卷积组件的输入块2得到的输出和的平均值 TC组件块3块的平均值(包括2的输入 )和2块的输出。

4.3.2。图关注网络组件

多元时间序列异常检测是一个挑战由于变量和数据量的增加。然而,更多的变量也意味着更多的信息了。它实际上是非常异常检测的关键。先前的模型没有注意功能模式,但只关注时间模式。因此,我们结合时序模型中的模式和功能模式。特别,每个块都有一个时间卷积组件,连接到一个手枪。在手枪,图中的每个节点可以被分配不同的权重基于邻居节点的特点。它不需要昂贵的矩阵运算或依靠一个先入为主的图结构。

图注意的输入层节点的是一组向量: ,在哪里 有相同的尺寸吗 每个节点的输出计算得到层显示如下: 在哪里 节点的输出吗 用相同的维度。 之间的相关程度是 像(8)计算: 是连接两个节点的结果, 是通过学习获得的参数。漏水的RELU是一个非线性激活函数所示(7)。l表示相邻的点的数量

每一个都和的结果 (一维卷积后的原始输入X)是相同的数据维度,它是三维张量,每个维度是批量大小,窗口大小,分别和变量的数量。的输出都在三个街区X连接的三维张量,变稠,有利于数据的时间信息预测格勒乌。最后,预测了一部分的结果进行三个完整的连接层。

4.4。阈值选择模型

的损失函数预测模型选择均方根误差(RMSE)如下: 在哪里 的预测价值吗我- - - - - -th特性时t 同时是真正的价值。它们之间的RMSE表示损失时间t

测试集的输入预测模型的训练,和RMS损失之间的预测价值和每个观测点的真正价值在测试记录设置为 和利用锅(峰值超过阈值)模型EVT(极值理论)来选择阈值的子序列。

极值理论是统计理论找到极值法的一个序列。人们普遍认为,极端值被发现的异常值异常检测的问题,他们位于尾部分布在大多数情况下。极值理论的优点是,它不需要假定数据分布和阈值可以通过参数设置自动选择。第二个定理锅表明样品大于阈值服从广义帕累托分布(加仑日)。因此,选择阈值通过锅th: 哪里是初始阈值。 表示在加仑日和形状参数 任何价值尺度参数吗 = L -代表了阈值以上的部分。是通过经验获得的分位数。与文献[10),我们利用最大似然估计(企业)的参数估计 阈值 根据以下公式计算: 的比例是l>th和是观测值的数量。 表示数量的l>th。阈值的选择,参数调整的过程是必要的。

5。实验和分析

5.1。标准和评价指标

关于数据集,我们使用三个真实数据集验证MTAD-TF的有效性,也就是说,火星科学实验室(火星科学实验室)探测器,SMAP(土壤水分主动被动)卫星,和SMD。

韩剧和SMAP是美国宇航局的航天飞机的两个公共数据集29日]。

SMD (22)是五个星期服务器数据的大型互联网公司,GitHub上发布。SMD分为两个部分,相同的数据的大小。第一部分是训练集和第二部分是测试集。测试集上的异常数据,相关领域的专家。其中,训练集和测试集包含28组,分别需要训练和测试。,第一组的模型训练数据训练集是由同一组测试组进行测试。最后的得分是28组的平均值。

三个数据集给出了表的详细信息1,包括变量的数量,训练集和测试集的大小,比例异常样品的测试集,和局部变量名。

关于指标,我们遵循典型的评价指标与其他异常检测模型:精度、回忆,F1的分数。他们定义如下:

其中,TP阳性(正确检测到异常),《外交政策》代表了假阳性(错误检测到异常),和FN指假阴性(通常错误检测到)。上述三个指标的值越高,模型的鲁棒性越强。

5.2。基线进行比较

本节将显示比较结果与其他4基线3日基准。相比模型包括LSTM-NDT [5],LSTM-VAE [7],DAGMM [20.],OmniAnomaly [22]:(我)LSTM-NDT: LSTM用于异常检测的多维时间序列是一个动态的和无监督的方法确定阈值。此外,降低假阳性率和识别假阳性数据,提出了一种“修剪策略”。(2)LSTM-VAE: VAE的前馈网络使用LSTM替代但不考虑随机变量之间的依赖。(3)DAGMM:结合神经网络估计网络,高斯混合模型有机的无监督异常检测。(iv)OmniAnomaly:本文的核心思想是学习潜表示捕获的正常模式多元时间序列而考虑时间依赖性和随机。

2总结了评价结果的所有基线,显示良好的泛化能力和实现最好的F1分数4数据集。

LSTM-NDT对SMAP高分,但它表现在韩剧和SMD,反映不同的场景模型非常敏感。我们的模型是稳定的和具有良好的性能在不同的基准。

多变量时间序列的短期信息也是非常重要的。DAGMM性能不理想的原因是短期信息不考虑。我们利用多尺度卷积,从而更好地适应与不同时期的数据。本文还进行了额外的烧蚀实验(见部分5.3)来比较不同的组件在我们的模型的有效性。

OmniAnomaly应用随机模型,将变量视为随机变量,然后学习它的分布,高绩效的三个数据集。这个模型的局限性,它不考虑变量之间的关系。

5.3。烧蚀研究

说明核心组件在预测的必要性和有效性,我们进行消融研究四个数据集验证多尺度卷积,手枪,格勒乌有助于改进的结果我们提出的模型。首先,我们的名字MTAD-TF没有不同的组件如下:(我)w / o时间:删除多尺度卷积处理的时间模式,只剩下都是在每一个街区(2)w / o手枪:删除功能模式中得到处理,只剩下时间模式是在每一个街区(3)w / o格勒乌:删除格勒乌的意思 和输出三个街区的直接摄取FC层

从表3对不同的标准,不同的部件有不同的影响。火星科学实验室和SMD,删除都使F1得分下降最多,而SMAP最受时间卷积组件。EEG-EYE的得分并没有减少多少,但它有不同程度的降低。

5.4。案例研究

我们将进行案例分析的噪声实验EEG-EYE状态数据,都在这部分。

EEG(脑电图)来自UCI眼睛状态,一个连续脑电图测量情感脑电图上神经头盔,寻找13脑电图之间的关系在不同位置的人类大脑与人眼的开启和关闭。因此,EEG-EYE状态是一个数据集,可以分为两类。我们认为欧喷爱标签是要寻找的异常,然后进行异常检测。

5.4.1之前。噪声试验

要理解模型的抗噪能力,我们进行了案例分析,噪声增加实验。五种高斯白噪声的均值为0,方差{0.1,0.2,0.3,0.4,0.5}被添加到训练集,分别。然后改变测试集的训练模型进行了测试,获得了与F1值如蓝色折线图所示4。随着高斯噪声的方差的增加,数据显示一个下降的趋势,这符合我们的常识。然而,它也表明,模型仍不够强劲,添加噪声数据增强不发挥作用。方差的影响方差0.02比0.01。与方差0.01相比,噪声方差0.02网络训练的难度增加,防止过度拟合,提高泛化能力,可以被视为数据增强的效果。

根据文献[验证10),它可以知道一维卷积平滑的效果数据。从另一个角度来看,我们说明了函数的一维卷积与实验成绩,我们添加一个对比实验,以上纯噪声实验:噪声方差不同添加到模型和一维卷积移除。橙色的折线,如图所示4,得分相比纯噪声,卷积的得分没有显著下降,表明卷积的存在在数据预处理可以降低噪声的影响。

5.4.2。手枪

我们之前拿出异常和正常之间的关系得到的异常,分别画heat map图5。图的右侧5显示之间的关系特性1和2,3,4,5,6,16日,17日,18日,19日,20日,21日在正常时间,而左边的相关性是不正常的时候。较暗的颜色块,特征之间的相关性越高,反之亦然。在同一水平线,左右之间的色差大意味着,当异常发生时,特性之间的关系,已经有了很大的改变,可以用作局部异常位置的依据。由于缺少数据集的异常位置的信息,不能进行进一步的实验验证。然而,它可以假定,当异常发生时,某些特性之间的关系明显不同于正常情况下。

6。结论

在本文中,一种新的多变量时间序列异常检测框架提出了MTAD-TF。通过使用时间模式和功能模式的多个时间序列模型共同预测,潜在的信息可以获得比单一模式模型。该方法优于其他四个基线三种常见的数据集。此外,该模型具有良好的抗噪声能力和手枪也许可以帮助异常位置。未来的工作可能来自两个方面。首先,试图结合预测模型与重建模型可能会进一步提高模型的准确性。其次,有异常位置的信息太少,希望进一步异常位置实验可以进行改善MTAD-TF的鲁棒性。

附录

. 1。符号X

一批是多元时间序列的输入。x的一个实例X米多的变量(特征)在每一个实例。 的长度是X在滑动窗口。 是一个实例数据预处理后的输出。 是一个手枪层输入节点表示。 是一个手枪层输入节点表示。 输出节点表示一个手枪层。 是节点关注分数j到节点在得到层。 在一维卷积过滤器的大小。 隐藏维度预测格勒乌层的组件。 是隐藏的维度3完全连接层预测组件。

由信用证。实验设置

我们使用相同的滑动窗口 = 100 SMAP和SMD。 是韩剧和EEG-EYE状态设置为120和50,分别。过滤器的大小在一维卷积我们使用在所有的数据集 = 7。 = = 150在所有的数据集除了EEG-EYE状态就是100。我们使用100年亚当优化器来训练我们的模型与初始学习速率0.001时代。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究得到了国家自然科学基金(62072024和62072024号),项目北京未来城市设计先进的创新中心,北京大学的土木工程和建筑(UDC2019033324号和UDC2017033322),北京大学的科学研究基础的土木工程和建筑(没有。KYJJ2017017)、广东省自然科学基金(没有。2018 a0303130026),河北省自然科学基金(没有。F2018201096)。