健壮和自适应在线时间序列预测与短期记忆

文摘

在线时间序列预测是主流方法在广泛的领域,从语音分析和噪声取消股票市场分析。然而,数据常常包含许多异常值与真实世界的时间序列长度的增加。这些异常值可以误导如果视为正常点的学习模型预测的过程。为了解决这个问题,在本文中,我们提出一个健壮的和自适应在线梯度学习方法,RoAdam(健壮的亚当),长期短期记忆(LSTM)来预测时间序列异常值。这种方法曲调随机梯度算法的学习速率自适应预测的过程中,减少离群值的不利影响。它追踪的相对预测误差损失函数通过修改与加权平均亚当,一个受欢迎的随机梯度法算法训练神经网络。在我们的算法中,较大的值的相对预测误差对应于一个小的学习速率,反之亦然。实验合成数据和实际时间序列表明,我们的方法达到更好的性能比现有的方法基于LSTM。

1。介绍

时间序列是一个序列的实值信号连续测量时间间隔‎(1,2]。时间序列数据自然发生在许多应用领域如经济学、金融、环境、医学和经常到达流的形式在许多实际系统。时间序列预测已成功地应用于广泛的领域包括演讲分析‎(3),噪声取消‎(4),和股票市场分析‎(5,6]。传统的时间序列预测方法通常使用一个潜在的模型,例如,自回归移动平均(ARMA)‎7),自回归综合移动平均(ARIMA)‎1],向量自回归移动平均(VARMA)‎8),模拟数据。然而,这些方法都需要处理整个数据集来确定模型的参数,当面对新的未来数据,这是不适合大型数据集和在线时间序列预测。为了解决这个问题,在线学习方法探索从时间序列数据中提取潜在的模式表示顺序。与传统的批量学习方法相比,在线学习方法避免昂贵的培训成本当处理新的数据。由于效率和可伸缩性,在线学习方法包括基于线性模型‎(9整体学习)‎(10),和内核‎11)已成功地应用于时间序列预测。

长时间的短期记忆(LSTM)‎12),一类递归神经网络(RNNs)‎13),尤其为顺序数据而设计的。LSTM展示了有前景的结果进行时间序列预测。其单位包括三个盖茨:输入门,忘记门,门输出。它受欢迎是由于学习的能力隐藏长期的连续依赖性,这实际上有助于学习时间序列的基本表征。然而,现实世界中的时间序列数据常常包含一些异常值或多或少尤其是网络攻击,这通常显示为异常在时间序列数据监控网络流量的测量。那些局外人误导学习方法在提取时间序列的真实表现,降低预测的性能。

在本文中,我们提出一个有效的在线梯度学习方法,我们称之为RoAdam(健壮的亚当)LSTM预测时间序列中异常值的存在。方法修改亚当(自适应时刻估计)‎14),一个流行的神经网络训练算法,通过跟踪的相对预测误差与加权平均损失函数。亚当是基于标准随机梯度下降法(SGD)方法没有考虑异常值的不利影响。RoAdam的学习速率自适应调整根据损失的相对预测误差函数。大的相对预测误差导致较小的有效的学习速率。同样的,一个小错误会导致一个更大的有效的学习速率。实验表明,我们的算法达到的最先进的性能预测。

本文的其余部分组织如下。部分2评审相关工作。节3,我们介绍一些开场白。部分4介绍我们的详细算法。节5,我们评估的性能算法合成数据和真实的时间序列。最后,部分6总结我们的工作,讨论了未来的工作。

在时间序列中,数据点被确定为局外人如果是显著不同的行为的主要点。孤立点检测的时间序列数据研究了几十年。主要工作集中在建模时间序列异常值的存在。在统计数据,提出了几个参数模型时间序列预测。,偏离预测值的总结参数模型包括ARMA‎(15,ARIMA‎16,17],VARMA‎(18)被认为是一个异类。谷地et al。‎19)开发一种新型的统计技术使用健壮的统计指标包括中值、平均绝对偏差,分段近似潜在的长期趋势准确地检测异常值。还存在许多机器学习模型时间序列预测与离群值。摘要‎(20.)提出了一个通用的、可伸缩的框架自动时间序列异常检测包括两种方法:插件法和decomposition-based法。插件方法适用范围广泛的时间序列的建模和预测模型,模型时间序列的正常行为。decomposition-based方法首先一个时间序列分解为三部分:趋势,季节性和噪音,然后抓住了离群值通过监测噪声分量。摘要‎(21]给出了孤立点检测的详细调查。

LSTM展示了有前景的结果进行时间序列预测。立顿等人使用LSTM模型不同序列长度和获取长期依赖。多元时间序列模型能有效地识别模式的临床测量‎22]。Malhotra等人使用堆叠LSTM网络时间序列的异常值检测。预测模型用于正常的行为和结果的预测错误被建模为一个多元高斯分布,用于识别异常行为‎(23]。Chauhan中收取也利用概率分布的预测错误LSTM模型表明在心电图的异常和正常的行为时间序列‎(24]。这些方法不适合在线时间序列预测,因为他们都需要训练没有异常值时间序列模型的正常行为。在本文中,我们的在线学习方法对时间序列预测是健壮的异常值通过自适应调整学习速率随机梯度方法的训练LSTM。

3所示。预赛和模型

在本节中,我们制定我们的问题需要解决和介绍一些知识关于亚当,一个受欢迎的LSTM算法训练。

3.1。与LSTM在线时间序列预测

在线时间序列预测的过程中,理想模型学习有用的信息给一个预测然后比较与更新本身,在那里是一个时间序列,时间序列数据预测在时间点吗 ,和是真正的价值。LSTM适合发现时间序列数据之间的依赖关系通过使用专门的闸门和记忆机制。

我们给LSTM层的神经元的正式定义如下。的jth LSTM层的神经元t,由输入门 ,忘记门 ,和输出门并通过忘记了更新部分现有的内存和添加一个新的内存内容。的表达式 , , ,和所示如下:

请注意, , , , , ,和的参数吗th LSTM层的神经元t。是一个物流乙状结肠函数。 , ,和是对角矩阵。和向量化的和。输出这些神经元在时间表示为

在我们的在线时间序列预测模型中,我们设置一个致密层输出映射到目标预测,是制定在哪里是致密层的激活函数,是权重,是偏见,向量化的。我们的模型在时间的异议是更新的参数。标准的流程在哪里学习速率和吗损失函数。

3.2。亚当

亚当是一个有效的随机优化方法,通常用来训练LSTM。计算各个参数估计的自适应学习速率梯度的第一时刻,第二,只要求一阶梯度。亚当一直呈指数衰减平均梯度和的平方梯度: 在哪里和初始化为零的估计是第一次和第二次和时刻和暂时是指数衰减率的估计。我们可以发现,和偏向为零,什么时候和接近1。所以亚当抵消这些偏见通过偏差纠正和 : 更新参数的规则在哪里 , , , 默认情况下。

4所示。方法

在本节中,我们介绍我们的在线梯度学习方法,叫做RoAdam(健壮的亚当)训练短期记忆(LSTM)长时间序列预测异常值的存在。我们的方法不直接检测异常值和学习速率自适应音乐当面对可疑的离群值。

在算法1,我们提供的细节RoAdam算法。我们的算法之间的主要区别和亚当 ,损失函数的相对预测误差项。的相对预测误差项指示是否是个例外。更大的价值意味着当前点更可疑的是局外人。它计算 ,在那里和。和的绝对预测错误吗和。在实践中,使用一个阈值方案,以确保稳定的相对预测误差项。和表示的上下阈值。我们让 (1),如果和 (2)否则,捕捉相对预测误差的增加和减少。我们设置时考虑不同情况下前面的点和当前点处于不同的地位。表中列出的细节1。



	离群值	正常的

离群值	(1)	(2)
正常的	(2)	(1)

RoAdam。参数进行从亚当有相同的默认值: ,
, , 。参数特定于我们的方法,我们建议
默认值 , , 。
需要: :学习速率
需要: :指数衰减率估计在亚当
需要: :指数衰减率计算相对预测误差
需要: , :上下阈值相对预测误差
需要: :模糊的因素
需要: :损失函数
需要: :参数的初始值



t =0
而停止条件没有达到做





如果然后

其他的

如果



结束时
返回

得到一个平滑估计,计算加权平均相对预测误差。最终结果是。这里的影响是一样的和在亚当。一般来说,RoAdam修改在亚当的基础上通过增加分母与。大的价值对应于一个小的学习速率,反之亦然。

5。实验

在本节中,我们说明我们的算法的性能RoAdam RLSTM相比,SR-LSTM, RN-LSTM合成数据和真实的时间序列。

5.1。实验设置

RLSTM意味着实时LSTM,使用新到来的数据更新模型没有考虑异常值的影响。SR-LSTM代表LSTM与可疑的点删除。SR-LSTM和RN-LSTM之间的区别在于,一旦发现可疑的点作为一个局外人,SR-LSTM不更新在这一点上和RN-LSTM更新使用最近的正常点。他们都使用方法在‎25检测离群值。此外,所有的算法除了优化器使用相同的LSTM模型。RLSTM、SR-LSTM RN-LSTM采用最初的亚当优化器。LSTM模型有三层,每一层的神经元数量是400。选择均方误差作为损失函数和L2正规化0.0001使用惩罚。RoAdam由亚当的参数具有相同的默认值: , , , 。对于参数特定于我们的方法,我们尝试不同的价值观和推荐的默认值 , , 。

5.2。数据集

检查预测性能,我们评估以前的算法在合成数据和实际时间序列。

5.2.1。合成数据

合成数据采样的高斯分布与相应的意思和方差加上这一趋势分量。长度是2500。离群值是基于伯努利分布被注入和是预期的异常值的数量。离群值的值也从高斯分布抽样的意思和方差。的表达是

5.2.2。真正的时间序列

第一个时间序列数据是心电图数据包括70系列1000心电图测量‎26]。我们选择100心电图数据集样本。第二个是HandOutlines,从常用的加州大学(方http://www.cs.ucr.edu/ / time_series_data /)。最后一个时间序列数据是每天的道琼斯工业平均指数)指数在1885 - 1962年。我们随机选择每一个真正的时间序列异常值的1%,其值是2或3倍的真实的人。图1介绍了合成数据和实时系列的真正价值。的设在是(样品)的数量和时间设在真实价值。

(一)合成数据

(b)心电图

(c) HandOutlines

道琼斯工业平均指数(d)

5.3。实验结果

在本节中,我们上面提到的测试算法的RMSE检查的有效性和效率。

RMSE允许我们比较错误和样本的数量增加。此外,我们平均结果超过100运行稳定。

表2显示了不同的算法的RMSE合成数据和实际时间序列。我们可以发现RoAdam RMSE优于其他算法。数据2- - - - - -5想象所有的预测价值算法在合成数据和实际时间序列。的设在是(样品)的数量和时间设在预测价值。我们可以观察到RLSTM振荡在异常值产生的预测价值。它表明RLSTM的确是受异常值影响的预测性能。尽管RN-LSTM SR-LSTM和RoAdam几乎相同形状的预测价值,RoAdam RMSE最少。原因可能是SR-LSTM和RN-LSTM可能会失去一些信息是错误的异常值时的正常点。


算法	数据
算法	合成	心电图	HandOutlines	态

RLSTM	0.7606	0.8505	0.9756	1.8454
SR-LSTM	0.7329	0.8323	0.9411	1.7574
RN-LSTM	0.7218	0.8217	0.9376	1.6218
RoAdam	0.4946	0.5626	0.7633	1.3875

(一)RLSTM

(b) SR-LSTM

(c) RN-LSTM

(d) RoAdam

(一)RLSTM

(b) SR-LSTM

(c) RN-LSTM

(d) RoAdam

(一)RLSTM

(b) SR-LSTM

(c) RN-LSTM

(d) RoAdam

(一)RLSTM

(b) SR-LSTM

(c) RN-LSTM

(d) RoAdam

6。结论

在本文中,我们提出一个有效的在线梯度学习方法,RoAdam LSTM,预测时间序列,健壮的异常值。亚当RoAdam被修改的基础上,一个流行的随机梯度算法训练神经网络。通过跟踪的相对预测误差与加权平均损失函数,该方法自适应音乐的学习速率随机梯度法在异常值的存在。在预测的过程中,大值的相对预测误差对应于一个小的学习速率,反之亦然。实验合成数据和实际时间序列表明,我们的方法达到减少预测误差比现有方法基于LSTM。

仍然是未来工作的研究我们的方法是否可以延长与缺失的数据时间序列预测。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

杨Haimin参与草案写作和实验。Zhisong锅、清道参与的设计算法和评论的手稿。

确认

我们的工作是由中国国家自然科学基金(61473149和61473149号)。

引用

j·d·汉密尔顿时间序列分析,普林斯顿大学出版社,新泽西,新泽西,美国,1994年。视图:MathSciNet
p . j . Brockwell r·a·戴维斯,时间序列:理论和方法施普林格,纽约,纽约,美国,第二版,2006年版。视图:出版商的网站|MathSciNet
l·r·拉宾和r·w·谢弗数字语音信号的处理恩格尔伍德悬崖,新泽西州,Prentice-Hall, New Jersey, NJ, USA, 1978.
j .高h .苏丹,j·胡,裴伟伟。东,“非线性时间序列自适应滤波和小波阈值收缩去噪:比较,”IEEE信号处理信件,17卷,不。3、237 - 240年,2010页。视图:出版商的网站|谷歌学术搜索
c·w·j·格兰杰和p·纽伯尔德经济时间序列预测、学术出版社,纽约,纽约,美国,1986年。
m . Nerlove d . m . Grether和j·l·卡瓦略经济时间序列的分析:合成、学术出版社,纽约,纽约,美国,1979年。视图:MathSciNet
j·l·Rojo-Alvarez m . Martınez-Ramon m . de Prado-Cumplido et al .,“支持向量的健壮的ARMA系统识别的方法,”IEEE信号处理,52卷,不。1,第164 - 155页,2004。视图:出版商的网站|谷歌学术搜索|MathSciNet
r s -蔡多元时间序列分析:与R和金融应用程序约翰•威利父子,新泽西,新泽西,美国,2014年。
o . Anava大肠领唱者,s Mannor et al .,“在线学习时间序列预测,”机器学习研究杂志》上,30卷,第184 - 172页,2013年。视图:谷歌学术搜索
l . l . Minku和x姚明,“DDD:一个新的整体处理概念漂移的方法,”IEEE工程知识和数据,24卷,不。4、619 - 633年,2012页。视图:出版商的网站|谷歌学术搜索
c . Richard j . c .贝穆德斯,p . Honeine”与内核时间本数据的在线预测,”IEEE信号处理卷,57号3、1058 - 1067年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
d . p . Kingma和j·l .英航“亚当:随机优化方法,”在诉讼的程序学习国际会议上表示(ICLR 15),2015年。视图:谷歌学术搜索
诉巴内特和t·刘易斯,离群值的统计数据约翰•威利& Sons新泽西,新泽西,美国,1978年。
d·m·霍金斯识别异常值查普曼和大厅,伦敦,英国,1980年。视图:MathSciNet
p . j . Rousseeuw和a . m .勒罗伊,健壮的回归和异常值检测约翰•威利& Sons新泽西,新泽西,美国,1987年。视图:MathSciNet
r s -蔡”,时间序列模型规范在异常值的存在,”美国统计协会杂志》上,卷81,不。393年,第141 - 132页,1986年。视图:出版商的网站|谷歌学术搜索
欧斯谷地,j . Hochenbaum和A . Kejariwal”小说长期异常检测技术在云中,”学报2014年6 thusenix车间在云计算的热点话题,2014年。视图:谷歌学术搜索
n·拉普帖夫海、美国Amizadeh和燧石,“自动化时间序列异常检测、通用、可扩展的框架”21 ACM的诉讼SIGKDD知识发现与数据挖掘(KDD '会议15)澳大利亚,页1939 - 1947年,2015年8月。视图:出版商的网站|谷歌学术搜索
m·古普塔j .高c . c . Aggarwal和j .汉”时态数据异常值检测:一项调查,”IEEE工程知识和数据,26卷,不。9日,第2267 - 2250页,2014年。视图:出版商的网站|谷歌学术搜索
z . c .立顿特区甘蓝、c·埃尔坎et al .,学习与lstm复发性神经网络诊断,https://arxiv.org/pdf/1511.03677.pdf。
l . p . Malhotra中收取,g .鉴定和p•阿加瓦尔”长期短期记忆网络异常检测的时间序列,”学报》第23届欧洲研讨会上人工神经网络、计算智能和机器学习(ESANN 15)2015年4月,页89 - 94。视图:谷歌学术搜索
Chauhan和l .中收取“异常检测心电图时间信号通过深度长期短期记忆网络”《IEEE国际会议数据科学和先进的分析方法(DSAA 15),2015年10月。视图:谷歌学术搜索
j·t·康纳·r·d·马丁和l·e·阿特拉斯”复发性神经网络和强大的时间序列预测,“IEEE神经网络和学习系统,5卷,不。2、240 - 254年,1994页。视图:出版商的网站|谷歌学术搜索
a和g·j·j·Bagnall杨纳杰克,”聚类时间序列的ARMA模型与剪数据”《2004年ACM SIGKDD国际会议2004年8月,p . 49岁。视图:出版商的网站|谷歌学术搜索