计算智能和神经科学

PDF
计算智能和神经科学/2017年/文章

研究文章|开放获取

体积 2017年 |文章的ID 9478952 | https://doi.org/10.1155/2017/9478952

Haimin杨Zhisong锅,清道, 健壮和自适应在线时间序列预测与短期记忆”,计算智能和神经科学, 卷。2017年, 文章的ID9478952, 9 页面, 2017年 https://doi.org/10.1155/2017/9478952

健壮和自适应在线时间序列预测与短期记忆

学术编辑器:佩德罗·安东尼奥·古铁雷斯
收到了 2017年8月27日
修改后的 2017年11月23日
接受 2017年12月03
发表 2017年12月17日

文摘

在线时间序列预测是主流方法在广泛的领域,从语音分析和噪声取消股票市场分析。然而,数据常常包含许多异常值与真实世界的时间序列长度的增加。这些异常值可以误导如果视为正常点的学习模型预测的过程。为了解决这个问题,在本文中,我们提出一个健壮的和自适应在线梯度学习方法,RoAdam(健壮的亚当),长期短期记忆(LSTM)来预测时间序列异常值。这种方法曲调随机梯度算法的学习速率自适应预测的过程中,减少离群值的不利影响。它追踪的相对预测误差损失函数通过修改与加权平均亚当,一个受欢迎的随机梯度法算法训练神经网络。在我们的算法中,较大的值的相对预测误差对应于一个小的学习速率,反之亦然。实验合成数据和实际时间序列表明,我们的方法达到更好的性能比现有的方法基于LSTM。

1。介绍

时间序列是一个序列的实值信号连续测量时间间隔‎(1,2]。时间序列数据自然发生在许多应用领域如经济学、金融、环境、医学和经常到达流的形式在许多实际系统。时间序列预测已成功地应用于广泛的领域包括演讲分析‎(3),噪声取消‎(4),和股票市场分析‎(5,6]。传统的时间序列预测方法通常使用一个潜在的模型,例如,自回归移动平均(ARMA)‎7),自回归综合移动平均(ARIMA)‎1],向量自回归移动平均(VARMA)‎8),模拟数据。然而,这些方法都需要处理整个数据集来确定模型的参数,当面对新的未来数据,这是不适合大型数据集和在线时间序列预测。为了解决这个问题,在线学习方法探索从时间序列数据中提取潜在的模式表示顺序。与传统的批量学习方法相比,在线学习方法避免昂贵的培训成本当处理新的数据。由于效率和可伸缩性,在线学习方法包括基于线性模型‎(9整体学习)‎(10),和内核‎11)已成功地应用于时间序列预测。

长时间的短期记忆(LSTM)‎12),一类递归神经网络(RNNs)‎13),尤其为顺序数据而设计的。LSTM展示了有前景的结果进行时间序列预测。其单位包括三个盖茨:输入门,忘记门,门输出。它受欢迎是由于学习的能力隐藏长期的连续依赖性,这实际上有助于学习时间序列的基本表征。然而,现实世界中的时间序列数据常常包含一些异常值或多或少尤其是网络攻击,这通常显示为异常在时间序列数据监控网络流量的测量。那些局外人误导学习方法在提取时间序列的真实表现,降低预测的性能。

在本文中,我们提出一个有效的在线梯度学习方法,我们称之为RoAdam(健壮的亚当)LSTM预测时间序列中异常值的存在。方法修改亚当(自适应时刻估计)‎14),一个流行的神经网络训练算法,通过跟踪的相对预测误差与加权平均损失函数。亚当是基于标准随机梯度下降法(SGD)方法没有考虑异常值的不利影响。RoAdam的学习速率自适应调整根据损失的相对预测误差函数。大的相对预测误差导致较小的有效的学习速率。同样的,一个小错误会导致一个更大的有效的学习速率。实验表明,我们的算法达到的最先进的性能预测。

本文的其余部分组织如下。部分2评审相关工作。节3,我们介绍一些开场白。部分4介绍我们的详细算法。节5,我们评估的性能算法合成数据和真实的时间序列。最后,部分6总结我们的工作,讨论了未来的工作。

在时间序列中,数据点被确定为局外人如果是显著不同的行为的主要点。孤立点检测的时间序列数据研究了几十年。主要工作集中在建模时间序列异常值的存在。在统计数据,提出了几个参数模型时间序列预测。,偏离预测值的总结参数模型包括ARMA‎(15,ARIMA‎16,17],VARMA‎(18)被认为是一个异类。谷地et al。‎19)开发一种新型的统计技术使用健壮的统计指标包括中值、平均绝对偏差,分段近似潜在的长期趋势准确地检测异常值。还存在许多机器学习模型时间序列预测与离群值。摘要‎(20.)提出了一个通用的、可伸缩的框架自动时间序列异常检测包括两种方法:插件法和decomposition-based法。插件方法适用范围广泛的时间序列的建模和预测模型,模型时间序列的正常行为。decomposition-based方法首先一个时间序列分解为三部分:趋势,季节性和噪音,然后抓住了离群值通过监测噪声分量。摘要‎(21]给出了孤立点检测的详细调查。

LSTM展示了有前景的结果进行时间序列预测。立顿等人使用LSTM模型不同序列长度和获取长期依赖。多元时间序列模型能有效地识别模式的临床测量‎22]。Malhotra等人使用堆叠LSTM网络时间序列的异常值检测。预测模型用于正常的行为和结果的预测错误被建模为一个多元高斯分布,用于识别异常行为‎(23]。Chauhan中收取也利用概率分布的预测错误LSTM模型表明在心电图的异常和正常的行为时间序列‎(24]。这些方法不适合在线时间序列预测,因为他们都需要训练没有异常值时间序列模型的正常行为。在本文中,我们的在线学习方法对时间序列预测是健壮的异常值通过自适应调整学习速率随机梯度方法的训练LSTM。

3所示。预赛和模型

在本节中,我们制定我们的问题需要解决和介绍一些知识关于亚当,一个受欢迎的LSTM算法训练。

3.1。与LSTM在线时间序列预测

在线时间序列预测的过程中,理想模型学习有用的信息 给一个预测 然后比较 更新本身,在那里 是一个时间序列, 时间序列数据预测在时间点吗 , 是真正的价值。LSTM适合发现时间序列数据之间的依赖关系通过使用专门的闸门和记忆机制。

我们给LSTM层的神经元的正式定义如下。的jth LSTM层的神经元t, 由输入门 ,忘记门 ,和输出门 并通过忘记了更新部分现有的内存和添加一个新的内存内容 的表达式 , , , 所示如下:

请注意, , , , , , 的参数吗 th LSTM层的神经元t 是一个物流乙状结肠函数。 , , 是对角矩阵。 向量化的 输出 这些神经元在时间 表示为

在我们的在线时间序列预测模型中,我们设置一个致密层输出映射到目标预测,是制定 在哪里 是致密层的激活函数, 是权重, 是偏见, 向量化的 我们的模型在时间的异议 是更新的参数 。标准的流程 在哪里 学习速率和吗 损失函数。

3.2。亚当

亚当是一个有效的随机优化方法,通常用来训练LSTM。计算各个参数估计的自适应学习速率梯度的第一时刻,第二,只要求一阶梯度。亚当一直呈指数衰减平均梯度和的平方梯度: 在哪里 初始化为零的估计是第一次和第二次和时刻 暂时是指数衰减率的估计。我们可以发现, 偏向为零,什么时候 接近1。所以亚当抵消这些偏见通过偏差纠正 : 更新参数的规则 在哪里 , , , 默认情况下。

4所示。方法

在本节中,我们介绍我们的在线梯度学习方法,叫做RoAdam(健壮的亚当)训练短期记忆(LSTM)长时间序列预测异常值的存在。我们的方法不直接检测异常值和学习速率自适应音乐当面对可疑的离群值。

在算法1,我们提供的细节RoAdam算法。我们的算法之间的主要区别和亚当 ,损失函数的相对预测误差项。的相对预测误差项指示是否是个例外。更大的价值 意味着当前点更可疑的是局外人。它计算 ,在那里 的绝对预测错误吗 在实践中,使用一个阈值方案,以确保稳定的相对预测误差项。 表示的上下阈值 我们让 (1),如果 (2)否则,捕捉相对预测误差的增加和减少。我们设置时考虑不同情况下前面的点 和当前点 处于不同的地位。表中列出的细节1


离群值 正常的

离群值 (1) (2)
正常的 (2) (1)

RoAdam。参数进行从亚当有相同的默认值: ,
, , 参数特定于我们的方法,我们建议
默认值 , ,
需要: :学习速率
需要: :指数衰减率估计在亚当
需要: :指数衰减率计算相对预测误差
需要: , :上下阈值相对预测误差
需要: :模糊的因素
需要: :损失函数
需要: :参数的初始值
t =0
停止条件没有达到
如果 然后
其他的
如果
结束时
返回

得到一个平滑估计,计算加权平均相对预测误差。最终结果 。这里的影响 是一样的 在亚当。一般来说,RoAdam修改在亚当的基础上通过增加分母 大的价值 对应于一个小的学习速率,反之亦然。

5。实验

在本节中,我们说明我们的算法的性能RoAdam RLSTM相比,SR-LSTM, RN-LSTM合成数据和真实的时间序列。

5.1。实验设置

RLSTM意味着实时LSTM,使用新到来的数据更新模型没有考虑异常值的影响。SR-LSTM代表LSTM与可疑的点删除。SR-LSTM和RN-LSTM之间的区别在于,一旦发现可疑的点作为一个局外人,SR-LSTM不更新在这一点上和RN-LSTM更新使用最近的正常点。他们都使用方法在‎25检测离群值。此外,所有的算法除了优化器使用相同的LSTM模型。RLSTM、SR-LSTM RN-LSTM采用最初的亚当优化器。LSTM模型有三层,每一层的神经元数量是400。选择均方误差作为损失函数和L2正规化0.0001使用惩罚。RoAdam由亚当的参数具有相同的默认值: , , , 。对于参数特定于我们的方法,我们尝试不同的价值观和推荐的默认值 , ,

5.2。数据集

检查预测性能,我们评估以前的算法在合成数据和实际时间序列。

5.2.1。合成数据

合成数据采样的高斯分布与相应的意思 和方差 加上这一趋势分量 。长度 是2500。离群值是基于伯努利分布被注入 是预期的异常值的数量。离群值的值也从高斯分布抽样的意思 和方差 。的表达

5.2.2。真正的时间序列

第一个时间序列数据是心电图数据包括70系列1000心电图测量‎26]。我们选择100心电图数据集样本。第二个是HandOutlines,从常用的加州大学(方http://www.cs.ucr.edu/ / time_series_data /)。最后一个时间序列数据是每天的道琼斯工业平均指数)指数在1885 - 1962年。我们随机选择每一个真正的时间序列异常值的1%,其值是2或3倍的真实的人。图1介绍了合成数据和实时系列的真正价值。的 设在是(样品)的数量和时间 设在真实价值。

5.3。实验结果

在本节中,我们上面提到的测试算法的RMSE检查的有效性和效率。

RMSE允许我们比较错误和样本的数量增加。此外,我们平均结果超过100运行稳定。

2显示了不同的算法的RMSE合成数据和实际时间序列。我们可以发现RoAdam RMSE优于其他算法。数据2- - - - - -5想象所有的预测价值算法在合成数据和实际时间序列。的 设在是(样品)的数量和时间 设在预测价值。我们可以观察到RLSTM振荡在异常值产生的预测价值。它表明RLSTM的确是受异常值影响的预测性能。尽管RN-LSTM SR-LSTM和RoAdam几乎相同形状的预测价值,RoAdam RMSE最少。原因可能是SR-LSTM和RN-LSTM可能会失去一些信息是错误的异常值时的正常点。


算法 数据
合成 心电图 HandOutlines

RLSTM 0.7606 0.8505 0.9756 1.8454
SR-LSTM 0.7329 0.8323 0.9411 1.7574
RN-LSTM 0.7218 0.8217 0.9376 1.6218
RoAdam 0.4946 0.5626 0.7633 1.3875

6。结论

在本文中,我们提出一个有效的在线梯度学习方法,RoAdam LSTM,预测时间序列,健壮的异常值。亚当RoAdam被修改的基础上,一个流行的随机梯度算法训练神经网络。通过跟踪的相对预测误差与加权平均损失函数,该方法自适应音乐的学习速率随机梯度法在异常值的存在。在预测的过程中,大值的相对预测误差对应于一个小的学习速率,反之亦然。实验合成数据和实际时间序列表明,我们的方法达到减少预测误差比现有方法基于LSTM。

仍然是未来工作的研究我们的方法是否可以延长与缺失的数据时间序列预测。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

杨Haimin参与草案写作和实验。Zhisong锅、清道参与的设计算法和评论的手稿。

确认

我们的工作是由中国国家自然科学基金(61473149和61473149号)。

引用

  1. j·d·汉密尔顿时间序列分析,普林斯顿大学出版社,新泽西,新泽西,美国,1994年。视图:MathSciNet
  2. p . j . Brockwell r·a·戴维斯,时间序列:理论和方法施普林格,纽约,纽约,美国,第二版,2006年版。视图:出版商的网站|MathSciNet
  3. l·r·拉宾和r·w·谢弗数字语音信号的处理恩格尔伍德悬崖,新泽西州,Prentice-Hall, New Jersey, NJ, USA, 1978.
  4. j .高h .苏丹,j·胡,裴伟伟。东,“非线性时间序列自适应滤波和小波阈值收缩去噪:比较,”IEEE信号处理信件,17卷,不。3、237 - 240年,2010页。视图:出版商的网站|谷歌学术搜索
  5. c·w·j·格兰杰和p·纽伯尔德经济时间序列预测、学术出版社,纽约,纽约,美国,1986年。
  6. m . Nerlove d . m . Grether和j·l·卡瓦略经济时间序列的分析:合成、学术出版社,纽约,纽约,美国,1979年。视图:MathSciNet
  7. j·l·Rojo-Alvarez m . Martınez-Ramon m . de Prado-Cumplido et al .,“支持向量的健壮的ARMA系统识别的方法,”IEEE信号处理,52卷,不。1,第164 - 155页,2004。视图:出版商的网站|谷歌学术搜索|MathSciNet
  8. r s -蔡多元时间序列分析:与R和金融应用程序约翰•威利父子,新泽西,新泽西,美国,2014年。
  9. o . Anava大肠领唱者,s Mannor et al .,“在线学习时间序列预测,”机器学习研究杂志》上,30卷,第184 - 172页,2013年。视图:谷歌学术搜索
  10. l . l . Minku和x姚明,“DDD:一个新的整体处理概念漂移的方法,”IEEE工程知识和数据,24卷,不。4、619 - 633年,2012页。视图:出版商的网站|谷歌学术搜索
  11. c . Richard j . c .贝穆德斯,p . Honeine”与内核时间本数据的在线预测,”IEEE信号处理卷,57号3、1058 - 1067年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  12. ,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
  13. y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
  14. d . p . Kingma和j·l .英航“亚当:随机优化方法,”在诉讼的程序学习国际会议上表示(ICLR 15),2015年。视图:谷歌学术搜索
  15. 诉巴内特和t·刘易斯,离群值的统计数据约翰•威利& Sons新泽西,新泽西,美国,1978年。
  16. d·m·霍金斯识别异常值查普曼和大厅,伦敦,英国,1980年。视图:MathSciNet
  17. p . j . Rousseeuw和a . m .勒罗伊,健壮的回归和异常值检测约翰•威利& Sons新泽西,新泽西,美国,1987年。视图:MathSciNet
  18. r s -蔡”,时间序列模型规范在异常值的存在,”美国统计协会杂志》上,卷81,不。393年,第141 - 132页,1986年。视图:出版商的网站|谷歌学术搜索
  19. 欧斯谷地,j . Hochenbaum和A . Kejariwal”小说长期异常检测技术在云中,”学报2014年6 thusenix车间在云计算的热点话题,2014年。视图:谷歌学术搜索
  20. n·拉普帖夫海、美国Amizadeh和燧石,“自动化时间序列异常检测、通用、可扩展的框架”21 ACM的诉讼SIGKDD知识发现与数据挖掘(KDD '会议15)澳大利亚,页1939 - 1947年,2015年8月。视图:出版商的网站|谷歌学术搜索
  21. m·古普塔j .高c . c . Aggarwal和j .汉”时态数据异常值检测:一项调查,”IEEE工程知识和数据,26卷,不。9日,第2267 - 2250页,2014年。视图:出版商的网站|谷歌学术搜索
  22. z . c .立顿特区甘蓝、c·埃尔坎et al .,学习与lstm复发性神经网络诊断,https://arxiv.org/pdf/1511.03677.pdf
  23. l . p . Malhotra中收取,g .鉴定和p•阿加瓦尔”长期短期记忆网络异常检测的时间序列,”学报》第23届欧洲研讨会上人工神经网络、计算智能和机器学习(ESANN 15)2015年4月,页89 - 94。视图:谷歌学术搜索
  24. Chauhan和l .中收取“异常检测心电图时间信号通过深度长期短期记忆网络”《IEEE国际会议数据科学和先进的分析方法(DSAA 15),2015年10月。视图:谷歌学术搜索
  25. j·t·康纳·r·d·马丁和l·e·阿特拉斯”复发性神经网络和强大的时间序列预测,“IEEE神经网络和学习系统,5卷,不。2、240 - 254年,1994页。视图:出版商的网站|谷歌学术搜索
  26. a和g·j·j·Bagnall杨纳杰克,”聚类时间序列的ARMA模型与剪数据”《2004年ACM SIGKDD国际会议2004年8月,p . 49岁。视图:出版商的网站|谷歌学术搜索

版权©2017杨Haimin et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点5341年
下载1889年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读