文摘

多变量时间序列预测是一个非常重要的任务,发挥了巨大的作用,在气候、经济和其他领域。我们通常用一种引起Encoder-Decoder网络来处理多变量时间序列预测,因为注意力机制使模型更容易专注于真正重要的属性。然而,Encoder-Decoder网络问题,序列的长度越长,越预测精度,这意味着Encoder-Decoder网络无法处理系列,因此无法获得详细的历史信息。在本文中,我们提出一种双窗口深层神经网络(DWNet)预测时间序列。双窗口机制允许模型我multigranularity依赖关系的时间序列,如当地的信息从一个短序列和全球信息从长序列。我们的模型优于九基线方法在四个不同的数据集。

1。介绍

在大数据时代,序列数据在生活中无处不在1,2]。时间序列预测算法变得越来越重要的在许多领域,如金融市场预测(3),客运需求预测(4),和心脏信号预测(5]。在大多数情况下,多元时间序列数据。多元时间序列预测的关键是获取空间和时间之间的关系在不同的时间不同的属性(6]。作为一种广泛使用的传统的时间序列预测算法,ARIMA (7在许多领域]表明其有效性。然而,ARIMA模型不能非线性关系和只能用于平稳时间序列(8- - - - - -10]。递归神经网络(RNN) [11)在序列建模取得了极大的成功。但RNN梯度消失的问题,很难捕捉的长期依赖时间序列(12]。长期短期记忆(LSTM) [13)和封闭的复发性单元(格勒乌)(14,15RNN)缓解这个问题的梯度和消失已经开发出许多时间序列预测模型,如Encoder-Decoder网络(15,16]。Encoder-Decoder网络的时间序列预测的任务,尤其是引起Encoder-Decoder网络(17]。引起Encoder-Decoder网络不仅可以找到不同系列之间的时空相关性也找到重要的信息在原始数据和增加其重量17]。其中,双阶段引起递归神经网络(DARNN)是一种先进的方法,创造性地使用一个两阶段的注意机制[18]。

尽管DARNN可以同时捕捉不同属性之间的空间相关性和时间相关性不同时间相同的属性,当序列的长度太长,预测效果会更糟(18]。这问题是常见的所有Encoder-Decoder网络。很长序列意味着更多的历史信息,所以应该获得更好的结果。然而,由于Encoder-Decoders的局限性,长序列的信息不是有效的利用,甚至干扰预测的结果。这是因为LSTM并不能解决问题的梯度消失,当时间序列的长度太长,前面的信息将由后者。因此,Encoder-Decoders通常使用一个小窗口大小,以确保预测的准确性。双阶段的两阶段引起递归神经网络(DSTP) [19)由DARNN和优化改进这个问题的长时间序列的预测效果。然而,DSTP仍然没有有效利用时间序列。

窗口大小的时候很小,这个系列非常接近预测点。这些数据与预测点最接近的关系。例如,如果之前的值预测点逐渐增加,然后在预测点的值也可能增加。当时间窗口大小很大,系列包含更多的时间步骤。最近其他模型很难提取信息,如趋势,在这样一个长系列,所以它不能得到好的预测结果。然而,更多信息带来的更多的时间步骤时间序列预测是非常重要的。关键是如何充分利用短序列和长序列的不同特点。

为了解决这个问题,我们提出一种双窗口深层神经网络(DWNet)。DWNet由两部分组成。第一部分从短序列捕捉时空相关性和负责提供最近的细节,基于Encoder-Decoder [15]。第二部分获得长期依赖关系,如周期性和季节性的长序列,基于TCN。时间卷积网络(TCN) (20.)是一个新兴CNN-based模型。卷积操作的并行性和大的接受域,它赢得了每个人的期望方面的序列建模。短期时间序列通常只包含一个或两个时期。然而,长期的时间序列是相反的,包括足够的时间步骤。两个不同的时间窗口大小的设置长序列和短序列可以我multigranularity依赖性。

我们工作的主要贡献如下:(我)我们提出一种双窗口机制,可以从不同长度序列提取multigranularity信息。(2)我们建议DWNet方法,其中包括Encoder-Decoder网络和TCN的优势在同一时间。Encoder-Decoder网络有很强的能力我依赖的短序列。同时,TCN的接受域和训练速度快更适合长序列。(3)DWNet可以应用于时间序列预测任务在许多领域,并且没有要求输入数据。来证明DWNet的有效性,我们比较它与九基线方法使用人类的运动数据集,SML 2010数据集电器能源数据集,数据集和脑电图。实验表明DWNet的有效性和鲁棒性。

时间序列预测的任务,有各种方法从传统方法深度学习的方法。作为最著名的传统方法,ARIMA可以有效地获得目标的长期依赖系列(7]。然而,ARIMA外生系列(不考虑空间相关性18),只能用于处理固定系列(7),而不能非线性关系模型(8]。华宇电脑不适合日益复杂的时间序列数据分析。作为深层神经网络用于机器学习和数据挖掘应用程序(21- - - - - -23),RNN非线性关系模型(24在时间序列预测),取得了巨大的成功。然而,RNN的梯度消失很难获得时间序列的长期依赖。LSTM [13和格勒乌15基于RNN)添加一个闸门机制和过程时间信息的添加和删除通过闸门机制,缓解RNN的梯度消失。基于LSTM格勒乌,他们提出了许多有影响力的深层神经网络,比如Encoder-Decoder网络,在自然语言处理领域备受关注(17]。Encoder-Decoder网络输入系列转化为上下文向量通过编码器,然后上下文向量转换成输出解码器。Encoder-Decoder网络有问题。当序列的长度增加时,Encoder-Decoder将首先成为更好的性能,然后更糟的是(17]。引起Encoder-Decoder网络可以自动选择重要信息,从而有效地减轻性能下降的缺点当序列的长度增加。

许多引起模型不断出现。和DARNN18],GeoMAN [25],DSTP [19)模型改进的基础上,以Encoder-Decoder并用于时间序列预测。受人类关注一些理论(26),DARNN使用双阶段的注意机制。第一阶段使用空间的注意机制来分配不同的权重外生系列编码器的隐藏状态在前一个时间步。第二阶段使用时间注意力机制选择最相关的译码器在所有时间步隐状态。提出了DARNN之后,它一直是一个最先进的方法在时间序列预测。多级关注网络(GeoMAN)是专门用来预测geo-sensor时间序列数据。许多时间序列数据收集的传感器分布在很多地方。这些数据被称为geo-sensor时间序列数据。如果每个系列geo-sensor时间序列仅仅是作为一个正常的属性,它将失去不同位置之间的关系。GeoMAN添加本地空间注意和全球注意力机制编码器和译码器添加外部因素信息来解决这个问题。DSTP添加一个新的空间注意机制编码器获取空间目标序列之间的相关性和外生系列这样DSTP在长时间序列预测取得更好的结果。

而引起Encoder-Decoder网络吸引了大量关注,TCN还显示序列建模能力强(20.]。TCN基于CNN和包括因果卷积,卷积扩张(27,28),剩余块(29日]。适用于序列数据,TCN系列是专门为不同数据格式的调整和图像。TCN RNNs所不能提供的优势。(1)TCN可以并行处理系列,不需要像RNN或LSTM顺序处理。这意味着没有可能性,前面的时间步的信息将被覆盖,这也意味着有一个更快的训练速度。(2)TCN的接受域随层数,内核大小和膨胀率,可以根据不同的情况灵活地改变。(3)与LSTM相比,TCN很少有梯度的问题消失。由于灵活的接受域参数比LSTM少,和并行处理,TCN不仅可以减少培训时间长序列,而且确保之前的时间步的信息不会被覆盖。因此,TCN有很强的能力获得信息从长序列和适用于序列建模。

长期和短期时间序列网络(LSTNet) (30.)是基于CNN和RNN和意识到时间序列有两种不同的依赖关系,短期和长期的。因此,LSTNet使用recurrent-skip机制来获取短期依赖,然后使用RNN获得长期依赖从先前的结果。但它没有考虑到接近预测点,更重要的信息。因此,LSTNet将失去一些最近的时间序列预测的信息。

3所示。双窗口深层神经网络

3.1。符号和问题陈述

在我们的工作中,有两个不同的窗口大小, 鉴于 外生系列, ,我们分段短系列 我们使用 来表示th长外生系列,使用 来表示th短外生系列,和使用 来表示一个向量的 外生系列在时间 我们使用 代表目标系列,漫长的窗口大小

鉴于目标系列和外生系列以前的值,也就是说, ,我们的目标是预测下一个时间步的价值目标 : 在哪里 是一个非线性映射函数我们的目的是学习。

3.2。模型

1介绍了我们的方法的框架。的输入DWNet分为两个部分,长系列与窗口大小 与窗口大小和短系列 短系列是一个系列的一部分,位于长系列的结束(图1显示了两个系列)之间的关系。处理一系列TCN (20.),用于获得更详细的历史信息比短系列。简短的系列是由Encoder-Decoder处理捕捉本地信息。最后,两个部分的输出相结合得到的预测价值目标在时间系列

3.2.1之上。捕捉短期依赖

首先,我们介绍了短系列处理模块。这部分是基于Encoder-Decoder和使用空间的关注和时间的注意机制18强调在短系列关键信息。基于LSTM编码器,编码器的输入数据是短系列 鉴于我- - - - - -th短外生系列 ,我们使用空间关注模块之间的空间相关性自适应获得外源性系列: 在哪里 , 参数学习。在这里, 是隐藏的编码器和大小 的隐藏状态和细胞状态LSTM编码器的时间单位 注意体重测量的重要性吗th外生系列 之后我们得到关注体重,我们可以自适应地提取外生系列

因此,隐藏的状态 可以更新为 在哪里 是一个编码器LSTM单位。空间注意模块的重量计算每个外生系列通过方程(2)和(3)时间 并使用 调整隐藏状态

译码器的输入是先前的目标系列和编码器的输出,这是编码器的隐藏状态。译码器的目标是预测 准确的预测结果,我们需要捕捉每个系列之间的时间相关。所以,我们添加一个时间关注解码器模块。一样的编码器,编码器的注意重量隐藏状态 计算基于前面的解码器隐藏状态和细胞状态LSTM单位 在哪里 , 参数学习。 是隐藏的译码器的大小, 是隐藏的状态和细胞状态LSTM单元在解码器的时间吗 注意重量是可以显示的重要性th解码器隐藏状态 我们可以得到上下文向量

上下文向量 加权编码器隐状态的总和在时间吗 然后,我们结合上下文向量 和目标系列更新解码器隐藏状态 : 在哪里 在译码器是一个LSTM单位。

3.2.2。捕捉长期依赖

我们获得长期依赖通过TCN (20.),因为TCN可以并行处理时间序列数据和参数比LSTM少得多。因此,TCN可以快速处理长时间系列和提高效率。和TCN没有前面的信息覆盖的问题。当窗口尺寸太大,可以保证信息的完整性。在我们的模型中,输入TCN的是一系列的时间1 在时间序列分析中,我们不能允许泄漏从未来回到过去。高层元素 是通过卷积的元素从时间吗 早些时候,在前面的层。为了避免信息泄漏,TCN使用随意的卷积。扩大接受域,TCN使用扩张卷积(27,28]。长外生系列 和过滤 ,元素时 在哪里 是扩张的因素, 过滤器的大小, 是扩张卷积操作。 将与层数呈指数增长,扩大接受域。深神经网络很容易有梯度和梯度爆炸消失的问题,所以TCN使用剩余块(29日]。剩余连接使网络跨层传输信息,提高特征提取的效率。

3.2.3。培训

1表明,预测值是由两个部分。我们结合译码器的输出 和TCN 预测 : 在哪里 , 参数学习。在这里, 每层是隐藏的数量单位, 我们使用反向传播算法训练DWNet。我们用亚当优化器(31日最小化均方误差(MSE)之间的预测价值 和地面真理 : 在哪里 在DWNet所有参数学习。

4所示。实验

我们的模型和实现所有基线方法PyTorch框架(32]。在本节中,我们首先介绍四个不同的实验中使用的数据集。然后,我们介绍九个基准方法。接下来,我们介绍了模型评价方法和参数。最后,实验结果表明DWNet的有效性。

4.1。数据集

我们使用四个数据集来验证我们的模型的影响。他们在体育领域、能源、气候、和药品。我们将数据集分为训练集和测试集的比例根据4:1。

以下4.4.1。人类的运动(33]

人类体育10名志愿者收集的数据是不同的性别,高度,和权重进行体育包括蹲,膝盖走路,跳爆竹和高。四个戴在胳膊和大腿的传感器记录数据每50毫秒,包括加速度和角加速度的x设在,y设在,z设在。在我们的实验中,我们以合成加速度为目标系列和其他外生系列。我们只使用一个志愿者的蹲数据和使用前8796数据点作为训练集,其余2197数据点作为测试集。

4.1.2。SML 201034]

SML 2010是一个公共数据集室内温度的预测。SML 2010包含近40天的数据,收集的监控系统。每分钟数据采样,计算和上传它平滑和15分钟的意思。在我们的实验中,我们以天气温度为目标系列,选择15个外生系列。我们使用第一个1971数据点作为训练集,其余493数据点作为测试集。

4.1.3。家用电器能源(35]

电器能源是一个公共数据集用于家用电器能耗预测。这个数据集是在10分钟约4.5个月。房间温度和湿度条件监测无线传感器网络。能源数据记录与m-bus米每10分钟。距离最近的机场气象台天气数据下载。在我们的实验中,我们以能耗为目标系列和其他外生系列。我们使用第一个15548数据点作为训练集,其余3887测试集。

4.1.4。脑电图(36]

脑电图是一个公共数据集的分类和回归。这个数据库包含30个科目执行稳态视觉诱发电位的脑机接口。在我们的实验中,我们只使用的数据从一个主题。我们把电极O1属性作为目标系列和其他外生系列。我们使用第一个7542数据点作为训练集,其余1886测试集。

4.2。基线
4.2.1。准备华宇电脑(8]

这是一个著名的统计时间序列预测算法。

4.2.2。LSTM [13]

LSTM改善RNN的情况下,通过控制机制来控制信息的添加和删除,减轻梯度消失。

4.2.3。Encoder-Decoder [16]

它广泛应用于机器翻译。然而,Encoder-Decoder丢失信息的缺点。

4.2.4。Input-Attn-RNN [18]

它增加了一个空间注意模块的基础上Encoder-Decoder编码器获得原始数据的空间相关性。

4.2.5。Temp-Attn-RNN [19]

它增加了一个时间关注模块的基础上Encoder-Decoder编码器译码器获取时间相关的隐藏状态。

4.2.6。TCN (20.]

它是一个新兴的序列建模模式,吸引了大量关注,包括休闲卷积,卷积扩张,残块。

4.2.7。LSTNet [30.]

它结合了CNN和RNN依次获得短期和长期依赖性。

4.2.8。DARNN [18]

作为最先进的方法之一,受到人类关注系统的启发,DARNN使用两种空间的关注和时间注意提取时空相关性。

4.2.9。DSTP-RNN [19]

它提高了编码器DARNN并添加一个关注模块。在编码器,可以获得更多的固定权重。DSTP-RNN擅长长时间序列的预测。

4.3。评价指标

我们雇佣根均方误差(RMSE),平均绝对误差(MAE)、平均绝对百分误差(日军)和对称平均绝对百分误差(SMAPE)来评估我们的模型和基本方法。这四个评价指标与比例无关,广泛应用于时间序列预测。RMSE有很强的反馈能力预测结果偏离太多从地面真理。美对所有结果一视同仁。日军能够比较预测精度在不同的时间序列数据扩展,因为相对误差不取决于因变量的规模。然而,当真理的价值 小,不同的 将有一个巨大的差异在日军的价值。和SMAPE可以解决这个问题。假设 预计值的时间吗 是地面真理,RMSE定义如下:

美被定义如下:

日军被定义如下:

SMAPE定义如下:

4.4。参数设置

大多数时间序列预测模型选择一个小窗口大小在他们的实验中。例如,DARNN设置窗口大小为10 (18),GeoMAN设置窗口大小为6 (25]。在预测显示窗口大小的影响,我们选择窗口大小 对于DWNet,我们集 对于基线的方法,我们进行了实验 ,分别。在培训中,我们将批量大小设置为128,学习速率为0.001。在我们的模型中,也有编码器的隐藏的大小等参数 ,隐藏的译码器的大小 ,内核大小和TCN的水平。为简单起见,我们使用相同的隐藏的大小在编码器和译码器,也就是说, ,并进行了网格搜索结束 TCN水平和内核大小,我们也进行了网格搜索。的设置 优于其他测试集。我们都固定这些参数实验。

5。结果与讨论

在本节中,我们首先比较我们的模型和基本方法的四个数据集。然后,我们进行网格搜索显示我们的模型的性能在不同的长时间步骤和措施组合。接下来,我们研究烧蚀实验和研究的时间效率模型。

5.1。模型比较

显示DWNet的有效性,我们比较DWNet和9个不同的方法,包括最先进的方法和新兴方法。为了公平,我们使用两个不同的窗口尺寸为基准的方法,这样我们可以比较的基线的结果与DWNet长窗口大小和短窗口大小。DWNet和基线方法的预测结果如表所示12

1表明DWNet达到最好的RMSE和梅四个数据集。表2表明DWNet也达到最好的日军和SMAPE四个数据集。这不仅是因为DWNet获得短期依赖短序列也长期依赖在长序列。ARIMA执行比其他模型ARIMA不能捕获之间的线性关系,不考虑空间相关性外生系列(7]。Encoder-Decoder网络执行比正常LSTM四个数据集,这意味着Encoder-Decoder更容易获得依赖从原始数据16]。引起Encoder-Decoder网络,Input-Attn-RNN Temp-Attn-RNN,比正常Encoder-Decoder网络四个数据集,因为注意力机制更关注更重要的功能在原始数据。DARNN DSTP结合空间的关注和时间关注机制四个数据集和具有良好的性能。TCN的性能很不稳定,其性能在人类体育比DSTP更好,但它远比DARNN DSTP其他数据集,尤其是脑电图。LSTNet的性能也不稳定。在人类体育表现很好,但在其他三个数据集执行不佳。与此同时,我们也可以发现LSTM-based网络执行比长序列的短序列。

5.2。时间步的研究

在本节中,我们研究长窗口大小的影响 和短窗口大小 在预测。当我们有所不同 ,我们保持其他参数固定。我们绘制不同RMSE与长窗口大小( )和短窗口大小( )在图2

它很容易观察到的性能DWNet同时受到两个参数的影响 是固定的,DWNet的性能将更糟的是什么时候 太大或太小,反之亦然。我们注意到DWNet达到最好的性能

5.3。烧蚀实验

进一步调查每个模型组件的有效性,我们比较DWNet Input-Attn-RNN, Temp-Attn-RNN DARNN,其他变异在人类体育和脑电图数据集。在这个实验中,我们设置窗口大小 Input-Attn-RNN、Temp-Attn-RNN和DARNN 16集 的变异DWNet如下:(我)DWNet-ni:没有空间关注模块编码器部分。(2)DWNet-nt:没有时间关注模块译码器部分。

实验结果如图所示3。Input-Attn-RNN执行比Temp-Attn-RNN在脑电图数据集执行比Temp-Attn-RNN在人类体育数据集。然而,比Input-Attn-RNN DARNN达到更好的RMSE和梅和Temp-Attn-RNN两个数据集。显然,模型基于两阶段注意机制模型比单一的关注。这就是为什么DWNet优于DWNet-ni DWNet-nt。它很容易观察到,DWNet达到最好的RMSE人类体育和脑电图,表明长序列中的信息是宝贵的时间预测的任务。没有长序列处理模块,是不可能超越时间序列预测的最先进的方法。

5.4。时间复杂度

深层神经网络的时间效率也是一个需要考虑的评价指标。在本节中,我们比较DWNet和基线方法的时间效率。在这个实验中,我们设置 16, 到128年, 16,固定其他参数。我们尝试在人类体育和脑电图数据和记录的时间(以秒为单位)在10世纪。结果如图所示4。我们可以观察到,更多的关注模块、模型的时间逐渐增加。Input-Attn-RNN和Temp-Attn-RNN只有一个关注模块:一是空间注意,另一个是时间的关注,但计算量基本上是相同的。比Input-Attn-RNN Temp-Attn-RNN的训练时间稍长一些,但这是远远低于DARNN,关注模块。DSTP有两个注意模块的编码器和解码器一个关注模块部分,所以培训时间比DARNN长。TCN优于更少的参数和并行处理的特点和在时间有一个非常大的优势。需要最少的时间在两个数据集。在DWNet,有两个注意模块和长序列处理模块(TCN)实现。因此,DWNet不如DARNN在时间效率和比TCN更糟糕。然而,DWNet具有较强的时间序列预测能力比DARNN TCN和更适合的情况下,要求精度高,而不是低的时间消耗。

6。结论

在本文中,我们提出一种双窗口深层神经网络(DWNet)充分利用长序列进行时间序列预测。双窗口机制分裂的序列作为短序列和对待这个序列长序列。长序列处理模块在DWNet可以从长时间序列,提取历史信息和短序列从短时间序列处理模块获得最近的信息。这些允许模型这两个序列的长期依赖和短期学习。我们的模型优于四个数据集的最先进的方法。在未来,我们将执行模型压缩,降低了模型的运行时间。此外,完善长序列处理模块,提高其稳定性,从而提高DWNet的性能。

数据可用性

人体运动数据集可以从杭州独立大学的健身俱乐部。由于个人隐私,数据不能公开。剩下的数据集分析在当前研究来源于以下公共领域资源:https://archive.ics.uci.edu/ml/datasets/SML2010https://archive.ics.uci.edu/ml/datasets/Appliances +能源+预测https://archive.ics.uci.edu/ml/datasets/EEG +稳态+视觉+ +诱发电位信号

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金的资助中国没有。U1609211)和国家重点研发项目(2019 yfb1705102)。