研究文章|开放获取
刘冯阳光、苏Wenheng Weixuan,回族曹朱郭董,你们, ”分析公共汽车旅行的特点和需求预测基于NARX神经网络模型”,电气和计算机工程杂志》上, 卷。2018年, 文章的ID2975615, 13 页面, 2018年。 https://doi.org/10.1155/2018/2975615
分析公共汽车旅行的特点和需求预测基于NARX神经网络模型
文摘
近年来,已经有兴趣增加使用IC卡数据分析总线公交时间特征,预测是不再局限于轨道交通客流预测和传统交通流预测。研究客流预测公交IC卡已逐年增加。基于青岛城市的公交IC卡数据,本文首先分析单日客流的特点和客流在亚纪和老年人的特点进行单独的研究。结果表明,老年人的旅游也受到工作日和周末的影响。然后,基于ARIMA模型和NARX神经网络模型中,客流预测(10分钟间隔)是使用1号公交IC卡数据的5个工作日。NARX神经网络模型的预测结果表明在短期内是有效的公交客流预测,特别是,它在高峰期和大规模数据更准确的预测。
1。介绍
自动售检票(AFC)系统,也被称为交通智能卡(SC)系统,获得了越来越多的受欢迎程度在全球交通部门。与传统的手动售检票系统相比,AFC系统有其固有的优势在低劳动力成本和高票价收集效率和事务数据档案。虽然可以从交通SC事务收集有价值的数据,需要大量的努力和方法提取这些数据因为大多数亚足联系统不是最初设计用于数据收集(1]。人们也越来越关注如何使用这些数据的特点深入挖掘公交乘客和为城市公共交通管理和规划提供支持。目前,研究公交IC卡数据可以大致分为三个类别:(1)分析公交客流的特点,(2)公交运营效率评价,(3)巴士旅游需求的预测。
的公交客流特征的分析,莫伦西等人使用智能卡数据从渥太华,加拿大,来研究不同的卡片类型的旅游特征在时间和空间2]。部门等人结合亚足联数据与个人乘客信息和使用聚类分析获得乘客的空间旅行的特点(3]。Briand等人用高斯混合生成模型集群旅客的旅行时间特征,揭示了不同群体的旅游模式4]。李和邓采用基于出行链的方法获得乘客的下车点和分类公交乘客的旅行根据旅客的旅行时间和空间特征(5]。他等人广州居民为研究对象,提出了一个基于模式的循环分析方法划分(6]。
马在公交运营效率的评价,开发了一个数据驱动的在线交通性能监控平台通过使用智能卡和GPS数据监控运输服务质量(7]。
在公交客流预测方面,杨等人从IC卡数据库提取数据的大连公共交通,使用费舍尔聚类算法分类公车峰值间隔建立回归方程预测客流在不同峰值条件,并意识到总客流的预测在不同峰值间隔,但是预测期较长(8]。刘等人使用的乘客下车,在哈尔滨市公交8号提出预测模型对进出车站的人数基于改进的BP神经网络,但是预测时间间隔时间(9]。蔡等人使用多个时序单元神经网络并行合奏(MTUNN)和神经网络(潘)来预测短期内地铁客流根据销售数据从高雄到台北的一个特定的训练(1008号列车)四年,曾预测精度高于传统的多层感知器模型(MLP) [10]。魏和陈使用混合EMD-BPN预测方法结合经验模态分解(EMD)和反向传播神经网络(症)的短期客流预测地铁系统。预测结果表明,该方法表现良好和稳定在预测短期地铁客流11]。江等人使用动态回归神经网络(Elman)和BP神经网络方法预测合肥城市的公交客流。实验表明,动态回归神经网络(Elman)方法有较高的预测精度12]。杨等人利用时间序列模型和模糊神经网络模型来预测短期公交客流。由于非平稳的公交客流,未能达到良好的预测结果(13]。张等人提出了卡尔曼滤波作为一种公共交通站短期客流预测模型,提出了模型的解决方案过程(14]。
总之,当前的公共汽车旅行特征分析主要是基于长期预测的单日客流和一周的客流。然而,很少有研究在亚纪的客流短期预测,此外,缺乏探索老年人旅游的特点导致了忽视这个重要组织客流预测。的客流预测方法,神经网络的逐渐成熟和其他深度学习预测技术,它已成为目前最主流的交通预测方法。
因此,在本文中,公交IC卡数据的预处理和聚类分析被用来探索公共汽车旅行客流的特点在亚纪,和老年人的巴士旅游特点主要是分析。然后,NARX神经网络模型用于预测公交客流在亚纪,开展提供基本的数据总线的实时调度和管理操作。
本文的其余部分组织如下。部分2介绍了公交IC卡的数据结构在青岛和原始数据进行预处理。节3,分析客流的特点在亚纪在一天和客流,主要分析了老年人的公共汽车旅行的特点。部分4介绍了建设公共汽车交通预测模型,ARIMA模型,NARX神经网络模型,分析和评估的公交IC卡数据的例子在青岛城市5个工作日。节5,我们总结本文的研究成果,期待未来的研究。
2。公交IC卡数据预处理
2.1。数据结构
本文的研究是基于青岛公交IC卡数据。乘客坐上校车时刷卡IC卡在中国大部分城市。它在青岛也是如此。IC卡数据记录行名称、行号,POS号、卡号、卡类型号、卡类型名称、交易日期、交易时间、交易金额、和其他信息。青岛公交IC卡系统的数据结构如表所示1。
|
||||||||||||||||||||||||||||||||
2.2。数据预处理
为了保证数据分析的质量,有必要对公交IC卡数据进行预处理,提取字段,数据分析,产生重大影响和过滤无效的数据,这将影响数据分析的结果。本文将清理和过滤青岛公交IC卡数据基于Microsoft SQL Server 2017,处理错误的数据,原始数据中的冗余数据和其他问题,提高数据挖掘的效率和质量。结合本文的研究内容和青岛公交IC卡的原始数据,这些数据预处理主要分为数据清洗、数据转换和数据减少。
2.2.1。数据清理
删除重复的数据和错误数据记录中存在的公交IC卡数据。相同的卡号的公交IC卡数据,当交易日期,交易时间是相同的,这些数据是重复的数据,在这些数据上执行删除操作;当有卡号null值,交易时间,交易日期,等等,这些数据缺失的数据需要被删除;通过检查我们发现存在一些错误在公交IC卡数据,如“20000”;磁卡时间是凌晨2点,这显然是不切实际的。需要删除处理这些错误数据。
2.2.2。数据转换
为了满足我们的数据分析需求,我们需要改变原始数据。具体地说,它分为两个部分:客流的特点和公交客流的预测。特性分析客流的一部分,我们将清洗后的数据分组到小时间隔,同时提取老年人公交IC卡数据和组成小时的间隔的数据部分3。对于公交客流预测,我们将从5组数据在工作日到23点10分钟的间隔作为数据需求预测研究的基础。
2.2.3。数据简化
从青岛的IC卡获得的原始数据总线包括表中所示的字段1。的一些字段是无用的客流特征和客流的分析预测,如单元号,单位名称和posttransaction卡余额。这些数据占用的存储空间,减少数据过滤的速度。由于这个原因,我们删除这些字段。
3所示。公交客流特征分析
本节将分析公交IC卡数据从9月4日到9月10日,2017(周一至周日),其中主要分析了旅行时间特征和不同类型的公交IC卡的旅游特色。
3.1。旅行时间分布特征
3.1.1。单日客流
公交IC卡的总数在一天之内从9月4日到9月10日如表所示2。
|
||||||||||||||||||||||||||||||||||||||||
图1显示,乘客的数量存在显著差异在周末和工作日,周末和公交IC卡的数量显著低于在工作日。从周一到周四,公交IC卡的数量仍然稳定在154万次。周五的客流增加160万倍在过去四天。乘客流在周六和周日不断下降。有两个原因:(1)大部分的乘客都是学生和通勤乘客的工作。这两个群体的旅游具有明显的周期性,周末的影响。(2)在星期六和星期天,旅客会选择出去娱乐和购物活动。然而,由于学生人数的减少和通勤乘客的数量,刷这张卡的总体次数呈下降趋势。因此,获得的结果通过大量数据的统计分析与实际结果一致。
3.1.2。时间间隔客流
公交客流有很明显的时变特征。有明显的早晚高峰。某些小城市也会下午高峰。通过对公交IC卡数据的分析,我们可以掌握公交客流的时间分布特征,频率的变化做出合理的安排,提高整个公交系统的运营效率。本节将进行统计分析的数据从凌晨到23:00每隔一小时,基于公交IC卡数据从9月4日到9月10日。
数据2和3时变图客流和客流的箱线图青岛公交IC卡一小时间隔。以下的结论可以通过比较获得时间和日常客流:(1)青岛公交IC卡的客流有明显的峰值在早上和晚上。晚上峰的强度弱于早晨的高峰,但持续时间较长。(2)周末早晨开始的山峰被推迟,,晚上高峰持续时间缩短。的乘客总数在周末比平时显著降低。(3)图3直观地显示有明显差异的旅游特征工作日和周末。卡刷的数量在9月9日和9月10日不太波动,和数量的峰值卡刷是一个工作日相比明显下降。
上述结论是符合实际的旅行情况。周末旅行相对分散,在工作日,相对集中。周末早上高峰期晚了,早和晚高峰结束。
3.2。分析老年人的旅游特色
与人口老龄化越来越突出,老年人的旅游问题受到广泛的关注。公共汽车旅行而言,城市青岛开始实施免费旅游政策在2014年65岁以上的人。在这种背景下,老年人的巴士旅游需求显著增加,巴士旅游已逐渐成为老年人的主要选择去旅行。本节将研究老年人的旅游模式,基于公交IC卡的数据在青岛,目的是避免不准确的缺点和不完整的数据,传统的调查和统计方法,为城市公共交通规划提供决策支持,提高老年人的旅游质量。
本节将研究老年人的旅游模式从公交IC卡的数量和时间分布特征。
图4表明,老年人的旅游具有以下特点:(1)周末旅行的数量小于工作日。据统计毕业生的卡片在一周内,它可以发现周五刷公交IC卡的数量是最大的,其次是周三,周日和最少。传统的经验是,老年人的旅游影响小的工作日和周末。然而,实际的统计数据显示,老年人的公共汽车旅行的数量也是影响工作日和周末,是显而易见的。(2)旅行时间集中在早上比其他类型的旅行者。因为老年人有更多的自由时间,大多数老年人使用他们早上锻炼和外出的时间。(3)老年人旅游后在晚间早些时候早上高峰期和旅游高峰。前面的分析发现,早晨高峰和晚高峰的其他乘客除了毕业生7点至8点,17点至18:00,分别。通过分析老年人的信用卡数据,发现早晨峰晚上8点和9点之间,峰是17点16:00时。这表明,老年人会避开早晚高峰出行时间的选择。这段时间有利于老年人旅游,避免拥挤的工作时间,上下班。(4)老年人的旅行的变化趋势体积相对平坦,高峰期和非高峰期旅游卷之间的差距很小,和客流的斜率变化晚上高峰后的数字2和4表明,老年人的数量减少速度比其他类型的乘客在晚上高峰。
4所示。公交客流预测方法
4.1。ARIMA模型
ARIMA(自回归综合移动平均)模型是一种时间序列模型用于短期预测。一般来说,ARIMA模型在以下方程: 在哪里是固定的自回归系数多项式可逆的ARMA (p,问)模型,是固定的移动平滑系数多项式可逆的ARMA (p,问)模型,是时间序列数据,l向后移位操作符,d差分秩序,et是白噪声序列。
ARIMA模型的本质是微分操作和ARMA模型的结合,与短期预测精度高。
以下4.4.1。平稳性检验
工作日的客流趋势图所示5。可以看出,客流数据不稳定。
图6是一个原始数据的自相关图,从中可以看出,数据有一个典型的非平稳序列的特点,由微分平滑方法进一步预测。
4.1.2。微分处理
数据7- - - - - -9表明该序列有一个稳定的趋势。我们可以看到从自相关图和偏自相关图,时间序列提出了一种落后于形势。执行ADF单位根检验时间序列,和值为0.0069,小于0.05显著水平值,所以一阶差分后的序列是平稳时间序列。
4.1.3。模型建立
根据AIC准则,ARIMA模型是固定的,和AIC值计算。当AIC值达到最小,ARIMA (p d q)模型有一个4,一个的价值问5的价值。已经进行一阶差分序列。因此操作使用ARIMA(4, 5)模型。
4.1.4。模型预测
在模型建立之后,我们用它来预测客流的工作日,并预测结果如图10。可以看出,有一个大的波动在某些时间段,与实际值与预报值有很大的误差,因此,ARIMA模型对非线性数据的预测效果需要改善。
4.2。NARX神经网络模型
NARX神经网络非线性自回归与外部(外生)输入)是一种动态神经网络。其输出值可以通过反馈再次输入到模型作为输入值,以便提高模型对历史数据的敏感性,可以更好地反映客流的动态特性,提高神经网络的预测精度。NARX神经网络结构如图11。
NARX神经网络模型的表达 在哪里代表了神经网络的输入,表示神经网络的输出,代表非线性模糊度函数,代表的反馈延迟。
4.2.1。准备测定NARX神经网络参数
(1)确定输入层节点的数目:当使用神经网络预测模型的研究中,我们首先需要确定输入层节点的数目。一般来说,在输入层节点的数目是由输入的动态系统方程。如果不清楚动力系统方程,一步一步测试可以用来确定网络输入层节点的数目。我们选择刷信用卡的时候作为输入值,然后调整一个接一个的数量来确定输入层节点4。(2)确定隐层神经元的数量和隐藏层:隐层神经元的数目对网络的性能是非常重要的。当隐层神经元的数目很小,数据无法模拟的特点。太多的神经元网络的训练时间将会增加,和过度训练会发生。隐层的功能就是从输入数据中提取特征。适当数量的隐藏层可使神经网络具有更好的数据处理能力。过度隐藏层的数量将增加训练误差和延长网络训练时间。我们收集了公交IC卡的数据5工作日,数了数倍的刷信用卡每隔10分钟。根据本研究的数据大小,我们确定一个隐层的网络是用于培训。
最终网络结构是输入层节点的数目是4,隐层神经元的数量是22日,隐藏层的数量是1,延误数量是2。网络结构如图12。
4.2.2。培训方法的选择
研究样本的数量,隐藏层的数量,和隐层节点的数量都扮演着重要的角色在训练算法的收敛性。基于本研究的数据大小,我们比较两种不同的训练算法的影响,并确定LM (Levenberg-Marquardt)训练算法作为最终结果。
(1)SCG按比例缩小的共轭梯度算法。SCG算法是一种改进的共轭梯度算法。它不需要计算海赛矩阵和变化的线性搜索模式共轭梯度算法在计算搜索步长。它不需要线性搜索,以确定最佳的搜索路径,和它的收敛速度更快。共轭梯度法改进了传统的梯度下降法,可以改善网络振荡,提高网络的收敛速度。基于数据从这项研究中,我们使用了SCG算法来训练网络。培训效果如图13。
如图13错误的训练、验证和测试45代后趋于稳定,这反映了网络的收敛速度快,而网络性能很好。
(2)LM (Levenberg-Marquardt)算法。LM算法不需要计算期间海赛矩阵修正率。当误差性能函数的形式的平方误差的总和,海赛矩阵可以近似为 在哪里是包含一阶导数的雅可比矩阵网络误差函数的权值和阈值。
LM训练算法修改如下: 在哪里调整系数和吗e是误差向量。当接近或等于0,LM算法是牛顿法。当系数的值很大,LM算法成为了梯度下降法与较小的步骤。自从雅可比矩阵更容易比海赛矩阵计算,LM算法的训练速度非常快。LM算法训练效果如图14。
LM算法验证和测试的错误往往是稳定的第四代后,和训练速度与SCG相比大大提高了算法。为了更合理地判断训练算法的性能,我们比较了两种算法的均方误差(MSE)。
均方误差的大小反映了离散分布的错误。均方误差很大时,表明高色散误差分布的预测效果差。计算均方误差的公式如下: 在哪里代表时间间隔的数量,代表实际值,代表了预测值。
相比之下,我们发现LM算法的均方误差为564.32,和SCG算法的均方误差是788.66。因此,LM算法最终用于训练神经网络,预测与实际的数据。
4.2.3。网络结构设计和模型训练
本节使用公交IC卡数据于9月4日至9月8日的1路公共汽车在青岛的数据库NARX神经网络的预测。从五点我们选择数据和将数据划分为23点10分钟的间隔。
NARX神经网络的输入层节点设置为4,因为我们使用的是9月4日至9月7日公交IC卡数据作为输入数据,这是一个矩阵有4列,和隐藏层的数量是1。神经网络训练过程中,训练效果是通过观察判断误差自相关函数以及输入输出相关函数R值每次训练后,网络的隐层神经元的数量调整,和隐层神经元的数量确定22和延迟数是2利用LM (Levenberg-Marquardt)算法训练网络。选择70%的样本数据作为训练数据,验证数据15%,最后15%,测试数据,直到网络训练是有效的。
每次培训后,我们需要判断训练效果基于误差自相关函数和输入输出相关函数。误差自相关函数反映了每个数据之间的相关性。在理想状态下,该模型为零延迟只有当它在零状态;也就是说,它是完全无关的。一般来说,误差自相关函数落在置信区间内,表明该网络训练效果好,可以预测。输入-输出相关函数图15自相关函数图和错误16显示错误的置信区间内(在红线范围内),表明训练结果较好,可以预测。
4.2.4。预测过程和精度评价
NARX神经网络模型训练后,客流在一个工作日(10分钟间隔)预测。我们使用Matlab输出预测误差(图的影响17(图)和拟合效果18)和生成的图表比较实际值和预测值和实际值之间的相对误差和预测价值计算。
通过误差线的分布(固体黄线)在图17,我们可以看到,有一个大的错误只有几个时间段,表明该模型对客流预测有很好的效果。图18显示有一个训练数据R有一个值为0.99803,验证数据R有一个值为0.91471时,测试数据R值为0.90578,整体有一个数据R值为0.9691。这也表明,NARX神经网络具有良好的时分公交客流的预测。图19更直观地显示在公交客流预测模型的性能符合预测的要求。
4.2.5。误差分析
预测过程结束后,相对误差Er预测值与实际值之间的用于评估预测的效果。其表达式如下: 在哪里代表实际的价值代表了预测值。
误差分布曲线如图20.。我们可以看到错误在高峰时间低于0.2,和有一个大的错误在非高峰时段。最大相对误差达到0.35。分析的原因是由于大而集中客流高峰时段,在非高峰时段客流较少,且相对分散客流,NARX神经网络模型表现良好在高峰时段的数据提取特征,实现高精度。由于穷人在非高峰时段客流规律,预测模型中提取数据特征的能力低于在高峰时段,非高峰时间和预测精度还有待提高。
4.2.6。非参数测试
我们使用Wilcoxon符号秩检验测试实际值和预测之间的区别。表3表明之间没有显著差异的实际价值和预测价值。概率是0.941(表)的意义价值。0.034与0.05的显著性水平相比,足以成为一个高概率事件;的概率,之间没有显著差异的真正价值和预测价值为0.941,保持零假设。没有实际值和预测值之间的显著差异,具有统计学意义。
|
||||||||||||||||||||||||||||
图21显示更详细的统计结果分析,结论是不变的。
5。结论
青岛公交IC卡数据的基础上,本文首先研究公交客流的分布特点和规律,分析从一天客流和亚纪客流,并比较不同的工作日和周末的特性。此外,老年人进行了单独分析和特征巴士旅行。公交客流预测方面,ARIMA模型和NARX神经网络预测模型根据IC卡数据的特点和预测需求。预测结果与实际值相比,发现NARX神经网络预测模型具有良好的预测精度,取得了预期的结果。在未来的研究中,我们也应该学习时分旅行为多个组的特点。同时,我们注意到青岛来实现对不同年龄的老年人不同的票价政策。影响老年人的特点的旅行也是一个研究方向。在公交客流预测方面,短期内的客流预测公交IC卡在多个行和多个领域在未来是一个关注的焦点。
数据可用性
公交IC卡数据用于支持本研究的发现没有提供,因为这些数据涉及到个人隐私。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究支持部分由中国国家自然科学基金(批准号61573009和61573009)和山东省的科技计划项目(批准号2016 ggb01539)。
引用
- X.-L。妈,中州。王,f·陈,肯尼迪。刘:“交通智能卡数据挖掘旅客起源信息提取,”前沿的信息技术和电子工程,13卷,不。10日,750 - 760年,2012页。视图:出版商的网站|谷歌学术搜索
- 莫伦斯c、m . Trepanier和b . Agard“测量交通使用智能卡数据变化,”交通政策,14卷,不。3、193 - 203年,2007页。视图:出版商的网站|谷歌学术搜索
- a··派斯·m·Trepanier和c·莫伦西”Geodemographic分析和识别交通智能卡,所带来的潜在的商业伙伴关系”交通研究部分政策和实践,45卷,不。7,640 - 652年,2011页。视图:出版商的网站|谷歌学术搜索
- a . s . Briand大肠,m . Trepanier和l . Oukhellou“同比变化分析公共交通乘客行为使用智能卡数据,”交通研究部分C新兴技术卷,79年,第289 - 274页,2017年。视图:出版商的网站|谷歌学术搜索
- j·李和H.-P。邓,”分类乘客的旅游行为基于IC卡数据,”重庆交通大学学报(自然科学),35卷,不。6,109 - 114年,2016页。视图:出版商的网站|谷歌学术搜索
- Z.-C。他,c . Yu, M.-X。徐,”分析方法,居民的旅游特点考虑旅游模式和周期性,”交通运输系统工程与信息技术》杂志上,16卷,不。6,135 - 141年,2016页。视图:谷歌学术搜索
- 马x”,开发数据驱动平台的运输性能措施使用智能卡数据和GPS数据,”交通运输工程学报,卷140,不。12日,2014年。视图:出版商的网站|谷歌学术搜索
- z。杨问:赵,研究所。赵、l·金和y毛”,基于公共交通客流量预测方法的智能卡(IC)调查数据,”运输研究,没有。9日,第119 - 115页,2009年。视图:谷歌学术搜索
- c . Liu Y.-Q。张,H.-R。陈,“中转站的时间开/关流基于BP神经网络的预测模型,”运输研究,没有。5,186 - 189年,2008页。视图:谷歌学术搜索
- t·h·蔡、c·k·李和c·h·魏“基于神经网络的时间特性为短期铁路客运需求预测模型,”专家系统与应用程序,36卷,不。2、3728 - 3736年,2009页。视图:出版商的网站|谷歌学术搜索
- y魏和m . c .陈”预测短期地铁客流经验模态分解和神经网络,”交通研究部分C新兴技术,21卷,不。1,第162 - 148页,2012。视图:出版商的网站|谷歌学术搜索
- p .江史,裴伟伟。陈,W.-H。张“客流量的预测基于Elman递归神经网络类型,“合肥工业大学学报(自然科学)没有,卷。31日。3、340 - 342年,2008页。视图:谷歌学术搜索
- X.-M。杨,w . Wang W.-P。顾,M.-B。周”,将模糊神经网络应用于预测公交线路客流,”高速公路和交通研究期刊》的研究和发展,17卷,不。4,38-40,2000页。视图:谷歌学术搜索
- 学术界。张,r的歌,和y太阳,”卡尔曼基于过滤器短期客流预测在汽车站,”交通运输系统工程与信息技术》杂志上,11卷,不。4、154 - 159年,2011页。视图:谷歌学术搜索
版权
版权©2018冯太阳等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。