文摘
短期交通流预测是智能交通系统(ITS)的有效手段来缓解交通堵塞。然而,交通流数据与时间特性和周期性特征易受气候变化的影响,使得短期交通流预测一个具有挑战性的问题。然而,现有的模型没有考虑气候变化对交通流的影响,导致在一些极端条件下的表现。的丰富功能的交通数据和容易受到外部气候条件的特点,基于交通数据的预测模型有一定的局限性,因此有必要进行研究交通流预测由交通数据和气象数据驱动的。框架提出了一种结合堆叠autoencoder (SAE)和径向基函数(RBF)神经网络预测交通流量,可以有效地捕获时间相关和周期性的交通流数据和气象因素的干扰。首先,SAE是用来处理交通流数据在多个时间片获得一个初步的预测。然后,RBF用于捕获天气扰动和周期性的交通流之间的关系,以获得另一个预测。最后,另一个RBF用于融合上述两个预测决策水平,获得重建较高的预测精度。验证该模型的有效性和鲁棒性的实验。
1。介绍
近年来,随着车辆的不断增加,道路资源和旅游需求之间的冲突越来越严重,导致日益严重的交通拥堵,甚至阻碍社会经济的发展。它是一种有效的手段缓解交通堵塞,和短期交通流预测是开启宝库的钥匙。准确和及时的预测交通流的交通控制提供了可靠依据州长和同时为旅行者提供了适当的旅行建议,以优化道路网络,减少交通堵塞。然而,交通预测是一个复杂和非线性的问题。交通流在现实中有明显的时间相关和周期性,但它可能发展以一种不规则的方式干扰下的天气变化,使这个问题更有挑战性。
现有的短期交通流预测模型主要可以分为3类:统计模型,传统的机器学习模型,深度学习模型。
统计模型包括历史平均水平(HA)和自回归移动平均(ARIMA)集成。前者需要统计平均值在一定时间滑过去的预测价值,而后者建立了基于时间序列的数学模型。这种方法已广泛应用了很长一段时间,因为它可以揭示交通流数据的周期性变化。在1970年代,艾哈迈德et al。1)首先应用ARIMA短期交通流预测问题。在那之后,ARIMA模型作了一些改进。Voort et al。2)结合Kohonen地图和ARIMA和提出了卡莉玛法预测交通流量。威廉姆斯et al。3)提出了对高速公路交通流预测季节性ARIMA。分钟et al。4]提出GSTARIMA短期交通流预测在城市网络。为进一步提取时空相关性,段等。5)提出了一个扩展的时空ARIMA短期交通流量估计。然而,统计模型使用经验数据进行参数计算基于先验知识,不适合揭示交通流的非线性和不确定性。
与统计方法相比,传统的机器学习方法与支持向量机(SVM)和支持向量回归机(SVR)在复杂和非线性函数拟合能力更强的交通流预测问题。这种方法的基本思想是将低维线性不可分的交通数据转换为高维通过核函数和线性可分的表达。香港et al。6)提出了SVR交通流预测模型采用混合遗传算法来确定合适的参数组合。卢et al。7]介绍了最小二乘法SVR对短期交通流预测算法。胡锦涛et al。(8]使用粒子群优化(PSO)来确定最优参数SVR更高精度的短期交通流预测问题。凌et al。9]提出multikernel SVM和使用自适应粒子群优化(阿普索犬)来改善它。冯et al。10)提出了一个新颖的SVM与自适应multikernel (AMSVM)。虽然有很多关于这种方法的优化研究,局限在回归问题和缺乏知识的能力挖掘大规模交通数据仍然限制的预测性能。
随着交通大数据的出现(11),短期流量预测变得更具挑战性和复杂,这对数据建模提出了更高的要求。深度学习模型,高维空间建模的有效性和提取特征参数的能力通过分层表示,已成为交通流预测的主流技术。人工神经网络(ANN)[深处12网络(DBN)[],很深的信仰13,14基于限制玻耳兹曼机,长期短期记忆(LSTM)网络(15)时间序列问题在某种程度上被研究和应用。此外,肖et al。16)提出了一个短期的多步高速公路交通流预测模型和RBF中心位置的确定隐层的模糊c均值聚类算法。Lv et al。17)首先使用堆叠autoencoder学习预测交通流特性的表征。Abdi et al。18)提出了一个新颖的时间差异反向传播训练RBF (TDBP)方法,提高了短期交通流预测的准确性。戴et al。19)结合时空分析和格勒乌短期交通流预测。
然而,单一模型仍有限制的过程中复杂的数据。为了整合的优势单一实现更准确的交通流预测模型,各种组合模型已经出现。香港et al。20.)提出了ARIMA-ANN组合模型,利用ARIMA处理历史数据的线性部分和非线性部分的安。李等人。21)结合与RBF模型ARIMA模型来捕获底层的交通流模式的不同方面。杜et al。22)提出了一个混合深度学习框架基于RNN和CNN,可以获取交通流的时空相关性。
现有的短期交通流预测方法主要针对交通流数据建模,和还没有做过任何研究天气等外部条件对交通流的影响。大厅等。23]讨论了不利天气影响交通流量。霍尔顿et al。24)考虑天气状况对农村公路流的影响。剑et al。25)调查了微观交通流参数多雨的环境下。这些研究并揭示交通流之间的相关性和天气条件的一部分,但这个结论并没有应用于预测问题。Koesdwiady et al。26)合并DBNs更准确的预测基于流数据和交通数据,和决策级数据融合的交通和天气数据流被意识到。郑et al。27)提出了一种嵌入式组件的体系结构相结合,LSTM CNN,获取交通流和天气之间的关系。然而,Koesdwiady et al。26)没有进一步考虑天气决定(交通预测基于天气数据),因此很难在决策级数据融合实现高绩效。文献[27)使用嵌入组件提取天气干扰但缺乏气象参数的分析和处理。
基于现有方法的缺陷,研究在交通流预测交通数据和气象数据的挖掘数据的特征是非常重要的交通流量,提高预测的准确性。本文提出了一种新颖的组合框架SAE和RBF基于交通流和天气数据。主要贡献如下:(1)相应的数据处理根据数据的特点:非数值天气类型参数而言,我们首先使用一个炎热的编码原表达式。嵌入的组件,可以解释的表达式是习得的。处理大量的气象参数,计算皮尔逊相关系数(PCC)找出从流量参数和主成分分析(PCA),所选参数处理新的参数相关性较高。此外,整合时间周期性预测,公顷用于构造时间表达式基于历史交通流数据。(2)将SAE和RBF获取交通流的特性和天气条件:考虑组合建模基于深度学习的有效性,我们使用SAE学习交通流的时间相关,RBF学习天气扰动下的周期性演化,和另一个RBF实现前的决策级数据融合模型。这个组合框架能有效学习的周期和时间相关交通流和天气条件的干扰,提高预测模型的精度和鲁棒性。
2。问题描述
交通预测我们的研究是基于前连续12 5分钟间隔的参数预测任何后续时间片的输出流。输出目标预测模型可以由以下公式表示:
考虑到交通流的演化不仅受到自身的规律也被外部天气条件下,模型的输入参数需要包括外部除了天气因素。代表时间切片上的数据集 ,包括流 ,时间的表达 ,嵌入的向量表示 ,和气象参数 ; 可以表示为 在哪里代表了基于交通流预测和序列代表了流预测根据天气和时间周期。从决策级数据融合的角度,最后流预测价值融合两项决定的价值,所以输出的组合模型也可以表示如下:
在多步预测,是由 ,和步长。如图1(一)sequence-to-sequence框架,前者也下一个单元的输入,输出,通过这种方式,预测结果可以扩展到任何一个时间片。在一开始,这个框架提出了机器翻译(28]。如图1 (b),本文提出的模型称为sequence-to-sequence多步预测模型。考虑到预测模型的输入参数包括不同类型(天气和交通流),一些模块的调整以满足多元数据的建模需求。
(一)
(b)
3所示。数据处理
数据从1月12日,2018年6月11日,2018年,作为训练集,选择和数据从6月17日,2018年1月12日,2019年,被选为测试集。我们的研究数据挖掘的主要目的是研究数据规则从6点到晚上九点,这是高峰期。
3.1。交通数据
地铁交通数据集高速公路在双城地区的交通管理中心(https://www.d.umn.edu/tdrl/traffic/)。原始数据收集在一个30秒的间隔从4500多回路探测器。从1月12日644号探测器数据,2018年1月12日,2019年,选择用更少的错误和遗漏。在数据预处理阶段,用5分钟的时间间隔数据加工成一个表。与此同时,遗漏和错误纠正使用时间的原理相似。处理的一部分流量数据如表所示1。
揭示天气下交通数据的周期性干扰,我们构建HA时流程相关表达式的方法。训练集分为工作日非工作,和平均流在每一个特定的时间片数,作为时间片的表示。时流程相关表情时间片可以表示如下: 在哪里代表时间片的流动天 。
3.2。天气数据
天气数据集来自美国国家海洋和大气管理局(https://gis.ncdc.noaa.gov/maps/ncei/lcd)。在地图上,我们选择的网站最近的位置检测器644和最后的选择是否定的。72658414927。气象数据的收集时间对应于交通数据。数据预处理后,天气数据表所示的一部分2。
天气是一个非数值型参数,所以我们用一个炎热的编码的初步治疗。然而,一个炎热的稀疏表示编码不能反映天气类型之间的相关性,从而导致模型不能有效提取其丰富的功能在训练。为了解决这个问题,一个嵌入组件已经被应用于提取更高维度的天气类型的表达式。天气类型的嵌入向量可以由以下公式表示: 在哪里是训练有素的嵌入向量的天气类型,而是一个炎热的表达式;它们之间的关系如图2。
除了天气类型,还有7天气类型的参数。选择参数相关的交通流量,皮尔森相关系数如公式(6计算)。和代表两个目标变量参与操作。交通流的PCC和气象参数如表所示3,相应的热点图如图3。
从表3,每小时每小时的露点温度和降水皮尔逊相关系数最小,所以只保留了其他五个参数。为进一步提取气象参数、数学PCA方法用于部件级数据融合。通过线性变换,原始组变量与某些相关改革成一组新的独立变量来替换原来的。通过这种方式,可以保留原始信息和类似的信息可以被删除。公式(7)是原始矩阵气象参数: 在哪里,,, ,和所选择的参数。
利用主成分分析法(PCA)处理后,新的矩阵生成如下: 在哪里融合的价值选择天气参数由PCA处理。
4所示。提出的方法
获取交通流的特征和天气条件下,我们提出一个综合框架的SAE和RBF,如图4。合并后的框架可以分为三个模块:流预测模块(FPM),天气和周期性模块(WPM)和决策级数据融合模块(DDFM)。
4.1。FPM使用SAE
FPM使用SAE提取交通流的时间相关,如图5。多个隐藏层的叠加可以提高拟合函数的神经网络对复杂问题的能力。前三个隐藏层的权重由三种不同的训练autoencoders (AEs)使用反向传播算法(BP算法)。这些autoencoders输入是复制和SAE学习多个表达式的原始数据层的层。SAE的输入是一个序列的连续流数据段,这是表示
忽视模型的计算过程和关注的输入和输出,输出的目标模型可以表示为
火车SAE,首先,autoencoder编码输入一个稀疏表示如以下公式所示: 在哪里是原始输入数据的稀疏表示和中学到了什么之间的权重矩阵输入层和第一个隐藏层。
然后,输入与其他两个autoencoders再次重建,见公式(12)和(13)。 在哪里 , ,和转移到SAE为前三层的权重。SAE的最后一层的权重分别训练重量转移后与BP算法。通过这种方式,在培训之后,SAE可以捕捉交通流的时间相关数据根据前交通流接近时间的预测价值。
4.2。一般使用RBF
如图6,RBF是一个三层神经网络,由一个输入层、隐层和输出层。不同于一般的安,RBF的变换从输入空间到隐层空间非线性,同时,从隐层到输出层空间是线性的。训练的RBF与两个阶段可以概括:(a)确定的隐层基函数的中心无监督学习聚类算法和(b)火车隐藏层和输出层之间的权值与监督学习。
WPM的目的是生成三个加工参数包括流量预测 , ,和 ,所以RBF的函数可以描述如下:
在(a)部分中,k - means聚类算法应用于发现集群中心的输入数据的高斯径向基核函数。这个过程总结了算法1。
|
从算法选择的一组集群中心1也被称为组径向基,它可以被定义为 ,在哪里代表了选择集群中心。定义 作为输入序列,高斯核函数也被认为是网络的激活函数,定义是 在哪里代表了hyperparameters。
与公式(15),在低维空间线性不可分割变得线性可分的高维度,这是内核函数的核心理念。因此,非线性映射从输入层到隐层完成。然后,用公式(16),确定RBF的输出目标。 在哪里代表可训练的重量从隐层到输出层。
在(b)部分,以确定的价值 ,可以尝试不同的方法参数的更新,包括BP算法和伪逆矩阵法(PIM)。PIM BP网络训练算法相似,但PIM的计算更为简单。因为网络是线性的输出可调参数,直接使用PIM解决线性方程组的权重比使用BP算法更高效、准确。
伪逆矩阵是一种广义逆矩阵,针对奇异矩阵或nonsquare矩阵没有相应的逆矩阵。使用来表示的 , 代表网络的输出代表输出矩阵的隐层由高斯核激活函数进行处理。在训练阶段,我们假设RBF的输入和输出满足以下公式: 在哪里可以计算为 在哪里是向量点乘和伪逆矩阵的吗 。算法2显示的计算过程 。
|
4.3。使用RBF DDFM
如图7,DDFM意识到相同的配置的另一个RBF的WPM和不同于其输入维度。不同于前者的RBF用于数据融合在功能层面上,DDFM是专为输出前的决策级数据融合模块。RBF神经网络是一种结构简单,所以不需要考虑层次结构建模时,它可以同时满足在特征级数据融合的要求和决策水平。DDFM也是最后的输出预测的组合模型,定义
5。实验结果
5.1。评价指标
测试该模型的性能,使用多种评价指标在实验阶段,包括平均绝对百分误差(日军),对称平均绝对百分误差(SMAPE),平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。这些指标主要反映实际值和预测值之间的差距。这些指标的具体公式如下:
5.2。配置和基线
提出模型和基准模型由Python-Keras实现,数据由MinMaxScaler规范化,迭代时间是600年,批量大小是256,函数优化器选择RMSprop, MSE和损失函数。根据每个模型的实际性能基于上述标准,相关的参数调优。使用基线包括以下:(1)HA:使用历史平均的预测价值。(2)LSTM:长时间序列短期记忆网络问题。(3)格勒乌:LSTM简单结构的变体。(4)StackedLSTM: LSTM层的叠加。(5)StackedGRU:格勒乌层的叠加。(6)SAE:堆放autoencoders,描述部分4。(7)融合和安(F-ANN):安决策级数据融合的每分钟输出FPM,个字。(8)与RBF融合功能和决策水平(F-RBF-FDL): RBF的特点和决策级数据融合FPM输出和处理数据 , ,和 。
5.3。在WPM性能比较
WPM的目的是捕获周期性演化和天气扰动。在数据预处理阶段,努力来满足气象数据的特征提取的要求,包括特征选择和PCA PCC特性数据融合天气选择参数。此外,WPM的计划是选择从众多的实验方案。一些对照试验与不同的计划已经完成。比较如表所示4。每一个方案的具体内容如下:(一)RBF + PIM:使用RBF没有任何过程天气参数。使用PIM来训练网络。(b)RBF + PCC + PIM:在方案一的基础上,用PCC减少气象参数。使用PIM来训练网络。(c)RBF + PCA + PIM:在方案一的基础上,利用PCA融合天气参数。使用PIM来训练网络。(d)RBF + PCC + PCA + PIM:融合方案一和方案b。使用PIM来训练网络。(e)RBF + PCC + PCA + BP:计划d类似,但使用BP PIM的培训。
从表4,我们选择方案(RBF + PCC + PCA + PIM)在所有指标达到最佳性能。对照组模拟证实了该模型与特征选择通过PCC和特性利用主成分分析法(PCA)数据融合能得到更准确的预测价值。,我们提出了数据处理方法(PCC + PCA)气象参数的准确提取精确的预测具有重要意义的周期性和天气扰动。比较实验d与实验e,我们可以得出结论,使用伪逆矩阵线性方程的解决方案(或重量)RBF在一种更简单的方法可以达到更高的精度和BP算法可能不适合训练RBF。
5.4。拟议中的单步模型和基线之间的性能比较
我们建议的模型和基线之间的性能比较图所示8和表5。该模型具有最佳的性能在所有选择的错误指标,与日军的10.378414%,10.059485%的SMAPE, 9.494741的美,RMSE MSE的151.153208和12.294438。在表5、模型g h,我获得更好的性能预测都考虑周期性和天气干扰建模。实验小组h和我确认决策级数据融合的有效性。即结合建模的想法和选择的数据融合方案,该模型可以有效地学习交通流的时间相关,历史数据的时间周期,和天气条件的干扰,提高准确性和鲁棒性。在图8,我们把这些方法分为两类:预测与交通数据只有(f)和预测多元数据(胃肠道)。考虑天气条件的组胃肠道显示精度高而不组a - f。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
5.5。拟议中的多个步骤模型和基线之间的性能比较
在图9增加时间步长,上升趋势的预测误差发生在所有模型积累误差的最后一步,但该模型仍优于大多数指标基线。与单步实验相比,该模型显示了预测精度的更明显的优势在多个步骤。随着预测时间跨度的增加,精度模型之间的差距将会进一步扩大,使模型的优势更明显。从表6,我们可以看到模型的指标在不同的步骤。f和g模型实现更精确的预报值与其它模型相比,因为他们把时间周期性与天气干扰建模。比较f和g, g是略优于f在大多数指标和步骤大小。在步骤5和步骤6日f显示比g稍微更好的性能在MSE和RMSE因为时间上的周期性建模是更重要的长期预测的预测精度。也就是说,该模型更稳定和精确无论在单步或多个步骤。
(一)
(b)
(c)
(d)
6。结论
结合框架提出了SAE和RBF对短期交通流预测基于交通数据和天气数据。交通预测建模之前,涉及到大量的数据处理工作在我们的实验。精确的数值表示时间周期性,哈是用于创建时间表达式基于历史流。天气数据而言,一个炎热的编码和嵌入组件用于数值表达式的天气类型而PCC和PCA应用于气象参数的特性数据融合。数据处理后,我们将SAE和RBF获取交通流的特征和天气条件。最后预测考虑了时间相关,时间周期,和天气扰动,拥有更高的精度和鲁棒性。大量的实验来测试该模型从不同方面的性能,确认我们短期交通流预测模型的研究由交通数据和气象数据是有价值的。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有冲突的经济利益或个人关系可能出现影响工作报告。
确认
这项研究得到了国家自然科学基金2020年的中国:河谷城市的交通拥堵预测研究由多模式数据(项目没有。62063014)。