文摘

预测信息影响紧急预防各种复杂和先进的控制系统。有明显的非线性、非平稳的和复杂的时间序列的特征。此外,多个变量的时间序列对彼此的影响,使预测更加困难。然后,解决多变量时间序列预测是探索。首先,复合神经网络框架设计的主要和辅助网络。该框架试图提取时间序列的变化特性以及多个相关变量的互动关系。其次,主要和辅助网络的结构,研究了基于非线性自回归模型。介绍的学习方法也获得可用的模型。第三,时间序列的预测算法得出的结论与多个变量。最后,实验环境监测数据进行验证的方法。 The results prove that the proposed method can obtain the accurate prediction value in the short term.

1。介绍

在信息时代,数据扮演了一个重要的角色在各种人为和自然系统。数据提供了依据机器控制,工业体系运行,经济市场,环境管理,等。上面的复杂系统中,准确的实时数据为控制和操作至关重要。此外,未来的信息也是非常重要的,与历史数据和预测可以预先指导操作系统的调整,环境适应,避免事故。因此,可靠的数据在时域预测复杂系统成为一个紧迫的问题。复杂的组成和内部机制、时间序列数据的系统通常不稳定,非线性和噪声。复杂的特性使预测困难。此外,时间序列中的变量相互影响困扰的非线性关系。然后,前面的预测问题成为挑战复杂的时序特征和多元相关性。

在预测问题,进行各种探索挖掘时间序列数据中的潜在规则和特性。实践应用程序在某些领域,提出了基于机理模型的预测方法。的方法,系统的内在机制研究,系统组件之间的关系是建立在物理学的方法,化学,生物学,比如水环境模型(WASP (1]和EFDC [2])和大气扩散模型(高斯粉扑和羽流模型(3])。系统变化可以预测基于机理模型的视图模型模拟。然而,模型难以构建的复杂和未知的内部结构。此外,所需的专业和跨学科知识也是机制分析。

的数据驱动的解决方案是一个有效的补充机制的方法。不同机制的方法,数据驱动的方法集中在外部数据特征而不是内部结构的关系。发展从统计方法到机器学习方法可以从大规模数据挖掘更多的功能。机器学习解决主要的问题设置和适应的参数模型等统计方法自回归(AR)、滑动平均(MA),自回归移动平均(ARMA)和自回归综合移动平均(ARIMA)模型(4]。机器学习包括传统的神经网络和深度学习在时间序列分析中也面临一些问题。首先,多个变量通常需要考虑目标预测变量。在多变量分析中,传统的网络主要模型的多变量映射关系,而忽略了产生连续的特性。和深度学习方法是单变量的专业序列特征提取。其次,应考虑计算效率预测模型,特别是对不能提供高配置的终端应用程序。第三,训练方法在很大程度上影响网络性能。一个合适的和可扩展的学习框架应该是神经网络的设计。基于现有的分析研究,我们探讨一个访问的时间序列预测,在视图的多变量模型的性能,计算效率和训练方法。

本文的其余部分组织如下:部分2介绍了相关预测方法,包括统计模型和机器学习的方法。节3,主要提出了预测模型和复合自回归网络提出了预测算法。实验进行的部分4测试网络。方法和结果讨论了部分5。最后,本文的结论部分5

的直接解决方案预测是系统的变化规律,它的基本思想是系统预测方法。显然,很难构建完整的机理模型来描述系统的组成及变化规律。然后,数据驱动的方法成为一个可行的解决方案和系统的外特性无论内部建设和关系。数据驱动的方法可分为两大类:统计模型和机器学习模型。

2.1。基于统计预测模型

统计模型是基于数据的数学描述和计算。经典的统计模型是建立在时间序列的自相关函数和指数衰减。典型的模型包括AR、马和混合模型。AR模型描述的回归量变量的变化过程本身。模型,随机变量在下次的步骤与变量的线性组合表示在之前的时刻。MA模型使用滑动窗口提取时间序列特性视图的相邻数据段。因为滑动窗口的长度主要影响特征提取能力,提出了一些指数平滑方法优化MA模型、三次指数平滑法的方法被广泛应用。基于AR和MA模型,混合模型提出了准确的造型,包括ARMA和ARIMA。的ARIMA一直是典型的混合模型的非平稳回归问题。这是应用于环境监测的预测问题5),金融经济(6,7,食品安全8),交通系统(9)等。

统计模型可以表示如下。 时间序列的价值在哪里 , 是自回归的数量方面, 是移动平均线的数量方面, 微分的顺序, 白噪声在吗 , 是滞后算子, 是权重。然后,基于“增大化现实”技术的模型可以表示为

MA模型

ARMA模型

ARIMA模型

统计模型依赖于时间序列平稳性的假设。虽然模型改进和发展,他们仍然受限于固定的转换和处理数据。此外,这是一个问题如何选择一个合适的模型和估计模型参数。实践表明,模型表现良好的线性短期预测。预测精度下降明显复杂和长期的时间序列。它变成了一个需求寻求新的解决的非平稳时间序列的预测。

2.2。基于机器学习的预测模型

机器学习分类和回归研究发展迅速。黑箱的机器学习似乎复杂的建模问题提供了广泛的可能性。反向传播神经网络(BP)、径向基函数神经网络(RBF),非线性自回归神经网络(NAR)、支持向量机(SVM)和贝叶斯网络研究和应用于预测问题[10]。

一些研究已经进行改善网络和预测性能。Pradeepkumar [11)提出了一个新颖的粒子群优化算法训练分位数回归神经网络,这是应用于财务数据预测。戴利(12)设计的结构NAR预测以太无源光网络的视频流量。王(13)提出了一个基于网络变产量预测的自适应方法在工业控制的参数。刘(14)研究了一种改进的灰度神经网络预测交通停止测试。一些组合不同的方法也是机器学习研究的热点。位选手(15]预测风速与小波分析和神经网络。王(16)改进的BP自适应差分进化算法。

上面的机器学习方法主要是肤浅的网络。他们适合多元建模,因为多个输入节点的网络结构。数据在不同的时间循环步骤独立导入到网络,它强调非线性映射关系,而不是在时域序列连接。一般来说,他们是有限的造型在大规模数据处理和复杂的时序关系。特别是对于预测问题,应该提取序列特性是很难实现在传统的完全连接网络。递归神经网络(RNN) (17)序列特性吸引了太多的关注。RNN,隐藏层之间的节点连接,隐层的输入不仅包括输入层的输出也是以前隐藏层的输出。RNN发展到多维递归神经网络(MDRNN) [18递归神经网络)和双向(BiRNN) [19更高的性能)。长期短期记忆网络(LSTM) (20.)提出了传统RNN的长期依赖性问题。LSTM出现的一些变异的改进和重新设计结构或门LSTM,包括双向LSTM网络(BiLSTM) [21)和封闭的复发性单元(格勒乌)(22]。虽然深层网络通常比传统的网络表现得更好,他们进行了研究和应用更多的单变量的多元。此外,他们的结构更为复杂,他们需要更多的训练时间和计算资源。

在时间序列的预测问题,一方面,我们应该考虑时间序列的序列特征以及相互作用相关的变量。另一方面,我们应该平衡网络预测精度和计算速度和资源占用。考虑上述相关工作,应该使用不同的网络的优势,包括简单肤浅的网络结构和多变量分析能力,以及序列特征提取在复发性网络。然后,浅NAR(递归神经网络23)选为基本的网络,可以提取非线性时间序列和序列特征。和复合网络结构和算法设计分析多个变量。小说复合网络的框架可以应用于复杂系统的预测问题,提供一个可选择的解决方案来分析变化数据驱动的数据视图。

3所示。复合自回归预测网络

时间序列的系统,主要功能是这一趋势的变化过程,以及不同变量之间的关联关系。趋势意味着潜在的规则改变的数据,可以是线性的,定期或随机。关联关系意味着对多个变量的影响。例如,温度波动值的变化规律,并影响其他气象变量如降水和湿度。基于时间序列的两个重要因素,一个复合神经网络建立预测对象变量。首先介绍了整体网络结构。然后,组件和训练方法进行了分析。提出了多变量时间序列的预测算法。

3.1。复合自回归网络

在传统的神经网络中,NAR可以实现时间序列本身的回归分析。网络被应用于实践,在短期内表现良好的预测。除此之外,在网络训练所需的数据显然是等不到的深度网络LSTM和格勒乌。然后,NAR可以单变量预测的有效工具。此外,非线性自回归网络与外部输入基于NAR (NARX)的发展,针对多个变量的关联关系。NAR的优点和NARX多元预测的复合网络设计问题,如图1。复合自回归网络提出了缩写为肉欲。

肉由两部分组成,即主网络和辅助网络。变量在预测问题,主要目标是预测,和一些变量选择的相关变量根据其相关性度。复合网络中的组件对应于不同类型的变量。主要的网络是建立基于NARX预测对象的结构变量。基于NAR和辅助网络构建提供参考的相关变量。

主网络的输入变量(包括对象 在图1)和相关变量( 在图1)。变量的非线性和复杂的关系通常是很难分析和建模机制。但网络黑箱映射关系挖掘中表现良好。然后,两种类型的输入的设计可以在多个变量挖掘的关联关系。除了这两种类型的输入,网络的其他特征对象的反馈变量的输出与输入。对象变量的变化趋势本身通常是比多变量关系更重要。self-trend是构建基于时间维度的反馈。

辅助网络,主要输入变量与对象相关变量。网络主要设置时间序列趋势与反馈的结构。在反馈中,数据变化梯度也设置为输入,以补偿预测。NAR-based辅助网络实现了单变量的回归。此外,不仅是一个影响变量对象的变量。因此,在实践中有一些辅助网络,辅助网络的数量等于变量数量。

3.2。离散网络的设计和训练

框架的复合网络,主要和辅助网络建立预测变量。有两个问题需要解决,包括具体的网络结构和网络训练方法。网络的结构如图所示2

主要有三层网络,即输入,隐藏层和输出层。输入包括从辅助网络的影响变量和对象变量。在时间维度的观点中,数据对象的变量在过去被用来预测下次步骤中的数据。目前提供的数据辅助网络。网络的非线性回归函数可以表示为 在哪里 是输出的预测, 是影响变量输入, 意味着时间步, 是输入延迟,然后呢 是输出延迟。

输入层和隐层之间的关系 在哪里 , 是历史的数量输入数据, - - - - - -th输入, 是历史输出数据的数量, - - - - - -th输出, 隐层神经元的数量, 隐层的激活函数, 之间的连接权重 - - - - - -th输入和 - - - - - -在隐藏层神经元, 之间的连接权重 - - - - - -重量和线性关系 - - - - - -th在隐藏层神经元 的阈值 - - - - - -隐藏的神经元。

网络的输出 可以获得与隐层输出吗 : 在哪里 是输出神经元之间的连接权重和 - - - - - -隐层神经元和 输出神经元的阈值。

类似于主网络,也有输入,隐藏层和输出层的辅助网络。但隐藏层扩展到两层。输入包括变量本身和数据变化梯度的影响,可以参考,促进预测精度。网络可以表示为 在哪里 变量的输入和影响如何 的数据变化梯度 在哪里 输入延迟和吗 时间步长间隔。

辅助网络的具体模型 在哪里 , 是历史的数量输入数据, 之间的线性关系的重量吗 , 隐层神经元的数量, 是输入延迟, 是隐藏层的激活函数, - - - - - -th输入号码, 输入层和隐神经元之间的连接权重,然后呢 是隐藏的神经元的阈值。输出来源于隐藏层: 在哪里 第二个隐藏层的阈值和吗 输出层的门槛。

基于网络的设计上面,应该学习训练方法。反向传播算法的基本学习方法是经过漫长的时间,从反馈的变量可以被视为一个新的变量。

主要和辅助网络的错误预测输出和输出而设计的 在哪里 是错误, 预测输出, 设计输出。

连接权值 调整错误,直到全球错误或训练迭代达到预设值。基于反向传播算法,得到权重 在哪里 是学习速率和 两个网络的全局误差。

3.3。对多变量时间序列预测算法

基于上面提出的肉欲,实践中的数据可以用来训练和获取网络可以预测对象变量的影响变量。多元时间序列的预测算法是基于网络模型而设计的。在该算法中,数据处理和计算过程是确定获得最终的预测结果。算法流程如图3

预测算法的输入包括对象变量和结果变量的历史数据和数据变化梯度。输出对象的系列变量在下次的步骤。算法的步骤如下:(1)影响变量选择与对象之间的关联程度和影响变量。对象变量的历史数据和选择的影响变量与归一化预处理方法。预处理,数据变化梯度的影响变量应该为辅助计算网络。(2)已处理历史数据被导入到辅助网络。网络训练方法的部分3.2(3)辅助网络的输出与对象变量的历史数据导入到主网络获取主要的预测模型。(4)时间步长设置,更新的数据在下一个时间步可以通过重复上面的步骤。

复合网络和多变量时间序列的预测算法提出了到目前为止。在实践中,预测长度应设置和变量应该选择合理的影响。然后,设计对象变量的预测结果与历史数据可以获得。

4所示。实验和结果

4.1。实验数据和设置

在实验中,我们关注的是数据在复杂环境系统预测问题。选择环境的两组数据进行测试。一个是大气质量数据监测系统的一个工业园区。另一个是气象预报数据。

大气质量数据3240组数据截断的监控系统在河北的一个工业园区,中国。不同时期的数据是可以代表不同的趋势。时间包括在2016年6月到8月(设置),2016年9月至11月(B组),并于2017年12月到2016年2月(C组)。监视的变量2,没有2阿,,3、VOC、湿度、温度、风速、大气压力等。和他们记录每小时的监测系统。所以2大气环境管理的主要因素是工业园区。然后,所以2设置对象变量预测,和其他变量之间的相关程度2计算,如图4。然后,主要影响变量包括没有被选中2阿,,3、湿度和风速。

气象预报数据,一天有24组数据。和每组是气象因素,包括温度、湿度、风速、降水、大气压力。类似于大气质量数据,选择最相关的变量的对象变量温度。变量是影响湿度、风速、降水。

在预测模型的设置,数据预处理首先与最大和最小的方法。预测网络的输出应该规范化。数据被分成训练、验证和测试集。他们的比例是70%,15%和15%。不同的数量集表中列出1

在实验中,网络结构和训练得到的参数和表中列出2。然后,网络训练运行剖面的预测算法3.3。节中给出的预测结果4.2

一些典型的预测方法是设置为对比方法,包括ARIMA模型、BP、RNN, LSTM。对比方法涵盖了主要类型的经典统计模型和机器学习方法。在具体实验中,ARIMA和RNN用来预测对象变量。英国石油公司和多个输入LSTM设计包括对象变量和结果变量。

4.2。大气质量数据的结果

在实验中,162套的大气质量数据预测性能进行测试。预测结果如图5。根据实验设置,输入延迟意味着使用的历史数据,并输出延迟意味着预测步骤。大气质量数据,历史数据的最新6小时用于输出预测,并预测结果2集中在接下来的6小时。使用的数据是圆。在图5,参考真实的价值,提出了各种方法的预测结果用不同的颜色,和一些地区扩大明显的比较。

预测结果图5,所有方法可以跟踪的一般趋势2浓度数据。结果ARIMA和RNN波动比其他人更强烈。肉欲的结果更接近真实值,黑线似乎隐藏在图。

明显的不同的方法比较,计算错误,如图6。平均绝对误差(MAE)和均方根误差(RMSE)选为评价指标。表中列出的指标3

绝对错误的类似的趋势预测结果图5。在一般看来,肉欲的表现比其他方法更稳定,错误的ARIMA和RNN变化更尖锐。可以客观地评估与预测性能指标表3。美是所有错误的绝对值的平均值。指示器美,肉欲和LSTM执行比其他人更好。ARIMA结果是最大的美,而RNN和BP显示类似的美。RMSE反映了整体亲密结果的平均值。它可以显示的稳定性预测方法。RMSE在不同的排序方法类似于梅的趋势,和肉比其他更稳定的预测。

4.3。气象预报数据的结果

气象预报预测的数据,1224组数据用于训练和验证网络。然后,216组数据集作为测试数据。216套的预测结果如图7包括参考真实价值和不同方法的结果。不同于大气质量的实验数据,输入和输出延迟是设置为12。最新的12组数据用于预测在接下来的12个小时的温度。

图中所示的数据7目前一个明显的周期性规律。事实上,216年的数据是9天的气象数据。温度循环变化的一天。然后,数据变化规律是不同的。肉欲的预测结果更接近真实值,ARIMA和RNN的波动,因为他们预计只有对象变量和其他方法使用对象变量与变量的影响。

图中给出的计算错误8和表4。图8显示了不同的预测结果的错误。表4梅和RMSE列出了误差评价指标。

从预测结果图7和错误在图8可以看到,所有方法可以跟踪数据变化规律密切因为周期性的气象数据。错误主要发生在波动。最大美达到4.43°C的ARIMA接近20%的原始测量。RNN ARIMA的错误,和英国石油公司超过通常的期望,而错误的肉欲和LSTM(低于2°C)是可以接受的。

5。讨论

多元时间序列的预测问题,介绍了一个复合网络框架结构的非线性自回归网络和预测算法的设计。实验中进行了环境数据,包括大气质量数据和气象预报数据。预测方法和结果将在这一节中讨论。

首先,该方法显示了良好的短期跟踪性能数据变化规律。一般来说,预测方法无法避免长期分离。似乎在我们的预测结果没有分歧。这并不是说我们的方法是完美的,而良好的回归结果来源于预测时间的设置。实验的预测时间步骤6 - 12,属于短期预测。循环实际真值导入到模型输出数据。因此,预测结果显示良好的递减效应。结果表明,该方法能满足短期预测的需要。

其次,该方法着重于多个变量的预测问题。准确的预测,相关变量应该考虑基于目标变量来预测。在实验中,2和温度设置为对象变量和相关变量选为变量的影响。比较方法,ARIMA和RNN只使用对象变量来预测数据本身。BP、LSTM和肉欲使用多个变量来获得更准确的结果。起诉,变量有助于改善预测性能的影响。在拟议的方法,辅助网络的设计满足多变量分析的需要。

第三,该方法寻求平衡的精度性能和计算资源占用。在介绍中提到的相关工作,深度学习在预测显示了优良的性能。它可以被证明是在实验的结果LSTM类似于肉欲的。然而,深的结构网络是更复杂的比网络NAR,这可能会导致计算的大型消费资源。在拟议的方法中,基于NAR结合网络获得预期的预测精度。与此同时,NAR的简单结构可以减少计算资源需求。的平衡精度和计算资源在我们的方法有利于在实践中应用。

拟议的肉欲达到期待的效果在时间序列预测。保证效果的复合结构主要和辅助网络模型的多变量关系。与此同时,肉欲的训练方法与实验结果还测试了基于网络的调整参数。

为客观评价,提出了网络的性能和应用在未来可以扩展。网络性能,训练方法来源于通过时间反向传播的框架,这是一个有效和简单的解决方案在网络学习。相关工作在反向传播学习方法非常丰富。改进方法可以模仿基于复合网络结构。为应用程序,该网络可以解决直接预测问题,如预测的天气,环境,经济市场,和健康管理。它也可以解决数据在其他复杂系统间接预测。例如,网络可以帮助预测控制参数的非线性时滞系统(24]。的预测结果将是重要的信息控制和管理问题。

6。结论

智能,促进管理在信息时代,本文研究了数据驱动的预测方法。考虑的特点在非线性时间序列的非平稳和多元效应,复合预测框架是基于自回归神经网络设计的。对环境的实验数据进行了验证该方法的性能。适当方法显示了良好的精度和计算规模。提出网络实现多变量的预测。此外,它需要考虑到计算效率以及预测性能。此外,本文中的网络训练的原则是实用。它提供了一个可行的解决方案与浅神经网络非线性多变量时间序列。在未来的工作中,基于先进的训练方法可以提高研究和长期预测性能应该推广。此外,复合自回归网络可以应用在其他领域,包括直接预测的时间序列和间接预测复杂系统的参数和组件。

数据可用性

CSV数据用于支持本研究的发现正在禁运,而研究成果商业化。请求数据,6个月后发表的这篇文章中,将会被相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由中国国家重点研究和发展项目2017号yfc1600605之下,中国国家自然科学基金在61673002和61903009号,北京市教育委员会KM201910011010号和KM201810011005之下。