文摘

近年来,随着城市公共交通的持续改进能力,市民的出行越来越方便,但是仍有一些潜在的问题,如早晚高峰拥堵,供给和需求之间的不平衡车辆和客流,紧急情况下,当地客流激增和社会由于活动和恶劣天气等特殊情况。如果你想正确指导当地的客流,使合理的部署操作巴士,有必要掌握公共交通短期客流的变化规律。本文构建了一个短期客流预测模型为城市公共交通基于集成学习的想法。目标是使用集成模型准确地预测短期内城市公共交通的客流,利用多变量线性回归(高),再(资讯),极端梯度增加(XGBoost)和封闭的复发性单元(格勒乌)四个种子模型,然后使用回归算法集成模型和预测客流,车站寄宿和着陆,和横断面客流数据的典型代表“Huitian区”的第428行北京从1月1日,2020年,2020年5月31日。最后,预测结果子的比较与综合模型来验证集成模型的优越性。本文的研究成果可以丰富城市公共交通的短期客流预测系统,并提供有效的数据支持和科学依据客流、车辆管理和调度的城市公共交通。

1。介绍

根据北京交通发展年度报告,2020年到2019年底,北京公交集团28271公交车和1620航线操作。一年一度的电动公交车客流量达到35.64亿,973.77万年平均每日客流量,为北京居民出行提供极大的便利,它是北京的地面公共交通的主要承担者。

近年来,公共交通网络操作的特点越来越明显;此外,一些潜在的问题逐渐浮出水面,如高峰时期交通拥堵、交通供给和需求不匹配,大量乘客上下班安全隐患在客流聚集在一个特定的空间里,和一些大型活动,恶劣天气、特殊作业环境下和总线故障迫切需要快速疏散等。与此同时,随着城市公共交通信息化的发展,先进的公共交通系统(摘要)已经成为不可或缺的一部分“智能城市”的建设由于巨大的公交IC卡数据的积累资产。目前,中国政府已建立了一个公共汽车GPS数据采集系统、线网络管理系统,和其他基本数据,如公交IC卡、公交GPS,和公交网络。由于计算机技术的迅速发展,机器学习的方法和深度学习的优势,如高计算效率和强大的数据处理能力。基于大数据的应用程序预测技术、全面和准确预测短巴士交通,促进有效摆渡车和其他公共交通模式;提高公共交通工具的利用率,优化车辆调度,和水平的重要措施,加强公共交通系统的管理和操作;,也是实现智能交通系统的核心。

目前,公共交通企业在实际操作的过程中,车辆运行调度方案制定在很大程度上取决于历史经验。短期的预测能力每个车站的公交客流,线,时间是不够的。它将不可避免地导致公共交通工具无法得到合理的安排,影响乘客,对公共交通系统的有效运行的影响。因此,重视使用大数据情况分析技术来准确预测短期公交客流基于交通IC卡数据和外部天气数据来分析和掌握交通需求和公共交通的客流规律。交通需求预测是交通系统组织的核心问题,和提供的未来需求预测算法意味着合理的供应可以提前计划。公交客流相关指标反映了旅客旅游需求和规律性;可以为运营商,根据当前系统资源,及时调整行动计划如临时或减少额外的火车和其他运输紧急情况下结合有效的处理;并提供一个科学依据的范围缩小这一事件的影响。因此,有必要对公共交通研究短期客流预测,构建模型的预测精度较高,并获得更可靠的短期客流分布,从而有效地解决上述问题。

摘要集成学习方法引入短期公交客流预测的模型,大大提高了公交客流预测的准确性和定量研究提供了一种新的建模方法的公共交通,具有双重意义的理论指导和方法创新。

2。文献综述

短期客流预测是智能交通系统的重要组成部分,可用于协助旅游行为的调整,减少客流拥堵,提高运输系统的服务质量。客流预测方法的发展是一个不断发展和扩张的过程,从最初的线性估计模型与当前机器学习模型和深度学习,逐渐走向成熟。一般来说,短期客流预测方法可分为两大类:参数方法和非参数方法。这两种方法之间的主要区别在于假定自变量和因变量之间的函数依赖(1]。

在传统的参数化方法,主要有自回归(AR)模型,指数平滑法(ES) [2),自回归综合移动平均(ARIMA)模型(3),等等。ARIMA模型是一个时滞变量的线性组合和错误条件。自1970年代以来,ARIMA模型已经成为常用的参数预测方法,已被广泛应用于预测短期交通流量等数据,旅行时间和速度。基于历史客流数据收集的城市轨道交通自动售票系统,Cai et al。4)利用ARIMA模型预测广州地铁的客流。此外,由于客流时间序列的季节性和趋势特征数据,一些研究人员应用季节性自回归综合移动平均(SARIMA)模型预测客流。为了应对强劲的季节性时间序列的自相关塞尔维亚铁路的客流,Milenkovićet al。5]SARIMA模型用来预测塞尔维亚铁路的客流,显示良好的预测性能。王等人。6]分析了客流的规则在北京地铁站随着时间的变化,和SARIMA模型用于建模。结果表明,预测结果能准确反映客流的时间变化规律在北京地铁站。因为这些参数的模型假设与时间延迟变量之间的线性关系,很难捕捉变量之间的非线性关系,所以传统的参数化方法的使用是有限的7,8]。

为了更好地应对客流数据的非线性特点,介绍了非参数法。不同的参数方法,非参数方法是建立输入变量和输出变量之间的非线性关系没有先验知识。因此,更加灵活和广泛应用于客流预测。郭et al。9]用15分钟的时间间隔的总结实际交通流数据比较,实验表明,自适应卡尔曼滤波方法可以得到一个可行的预测精度,特别是交通条件下的高波动性,显示了如何提高该方法的适应性,最后,提出建议来提高短期交通流预测的性能。根据公交客流的特点和法律的改变随着时间的推移,邓et al。10)提出了一种多核最小二乘支持向量机的预测模型。该模型充分考虑了历史数据对公交客流的影响。赵等人研究了客流分布在每个时期的公共汽车线路通过使用小波分析和神经网络相结合的方法,预测短期公共汽车线路的客流,从而实现总线的动态控制和合理的调度。张、杨(11)结合的主要客流影响因素神经网络自学习方法,建立了地铁客流预测模型基于样条权函数神经网络。王等人。12)使用相关分析方法来分析行人流量及其影响因素之间的关系,提取的11个重要的影响因素,建立了预测模型的行人流量使用模块化神经网络。在这些非参数方法,神经网络被广泛使用,因为他们的适应性好,非线性和能力映射任意函数(13,14]。

在大数据时代,数据处理能力和模型的预测精度有较高的要求。研究人员努力提高网络密度和辛顿et al。15)在2006年首次提出深度学习的概念。相比与传统的神经网络和其他浅学习模型,深入学习相当于一个更深的神经网络;有更多的隐藏层,这使它能够表达更抽象和更高级别的非线性特性和更准确地捕捉短期客流的“深度”的特性。白等。16),针对公交客流的短期预测,使用深层信念网络(DBN)建立预测模型。与经典的参数方法和非参数方法相比,该模型显示了良好的预测的优势。李Bangpeng分别使用卷积神经网络和时间长短深度学习的神经网络预测模型预测未来室内空间和时间根据实际客流分布时空客流数据和模型的比较。

目前,集成学习是一种广泛使用的方法在机器学习中,不同学习者集于一体,以提高预测的准确性(17]。为了便于收藏,当前的研究是设计的主流算法,促进强者弱学习者学习者和集成多个学习者所产生的相同的算法。弗洛伊德和Schapire18)提出了自适应增强(演)算法,它使用序列采样和具有较高的运行效率和实际应用价值。装袋算法提出的Breiman [19),它使用self-sampling结合基础的学习者,随后被改进成随机森林(RF) 2001年(20.),成为了最经典的算法在装袋集成。1992年,沃伯特(21]提出了堆叠泛化(堆叠泛化)模型,但叠加算法只提供集成的理念,对其选择的学习有一定的主观性,然后选择一些学者研究某些研究,如是因为Ledezma et al。22和徐会理,使用元模型的遗传算法和基本模型的选择进行了优化。叠加算法难以获得正确的基础学习者组装。综合学习,由于多个学习者的结合,极大地提高了预测精度,通常执行比每个组件模型,这得益于多样性之间的模型,可以减少使用孤立的风险模型,弥补了每个模型的缺点23,24]。此外,它的模型可以解决许多单个模型不能解决的问题。城市公共交通的客流是动态的和随机的,所以很难单个模型以适应其趋势,和综合学习可以更好的弥补这一缺陷。

总之,由于公交客流的复杂性和随机性,以及更高的要求大数据的数据处理能力和预测模型的预测精度,使用传统的参数方法和浅神经网络方法是有限的。深度学习的应用,集成学习,和其他方法提供了一个新的机会,准确地捕捉STW客流的非线性特征和处理大量的源数据。

3所示。材料和方法

3.1。数据选择和处理

本文选择card-swiping客流量、车站寄宿和着陆体积,典型代表和部分客流量数据总线428年从1月1日“Huitian区”,2020年5月31日,2020年,指数预测的关键。数据源是北京公共交通集团的IC卡数据,总额约107000块的数据。card-swiping数据的基本分析的基础上,就可以知道,大部分的总线操作时间从凌晨到放送,和card-swiping乘以15分钟内的数量在这个时间段统计;也就是说,每一个指标应该得到76年的数据粒度的基础上每天15分钟。时间序列数据的处理首先需要被转换成一个监督序列根据设定时间步长;对于某些数据,认为之前的时间步的数据栏取得这些数据(时间步时间步骤的数目)。在这个过程中,日常监督序列长度是原始时间序列长度减去时间步。

3.2。分析城市公交网络监控的关键指标“Huitian区”

这部分相关的三个关键指标监控和分析428号公路的客流量,即card-swiping客流量,车站寄宿和着陆体积,部分客流量。时间是从2020年1月1日,2020年5月31日。

428号公路是地铁Longze Station-Tiantong北苑站,包括32个站。线的运营里程13.9公里,平均单程运行时间为47.73分钟,平均运行速度为17.74公里/小时。有20辆汽车。每天有100列车和19日在高峰时间。平均每日客运吞吐量是3474。

3.2.1之上。Card-Swiping客流量

如图1,由于流行的影响,春节期间卡刷的客流量和节日后的防疫和控制周期明显低于正常情况在节日之前,虽然卡刷的客流量防疫和控制期间在节日一般低,慢慢地捡起,每周增加。

3.2.2。寄宿和着陆体积

登机和降落的巴士428号图所示2地铁Longze站的方向,Tiantong北苑站,日均交易量最大的车站是1036(麻辣烫村北车站),和最小的日均成交量站是14(区1的北门,和谐的花园)。的方向Tiantong北苑站地铁Longze站,日均交易量最大的车站(Longjinyuan区域4),最低33 (Longxiyuan 3理查德·道金斯区十字路口西)。

3.2.3。截面客流量

平均每日客流量节巴士428号图所示3。车站客流量最大的Longze站的方向和Tiantong北苑站是麻辣烫北站和麻辣烫村村子东车站。Tiantong北苑Station-Metro Longze站方向部分客流量最大的车站Xiaoxinzhuang东车站。

3.3。模型选择

公交客运量的影响更多的外部环境,和单个模型很难了解其复杂的规则。时间序列的短期预测本质上是一个问题,这个问题的预测通常不是一个模型,该模型可以应用于所有场景,和综合思维是通过几个单一模型的组合来减少错误的风险模型,通过发挥信息的每个子模型的预测结果来弥补单一模型预测误差的缺点是由于随机因素的影响大,因此改善预测性能。本文构造四个种子模型的多变量线性回归(高),再(资讯),极端的梯度增加(XGBoost),封闭的单元(格勒乌)和复发也构造回归集成模型。

3.3.1。高钙

在本文中,我们研究中许多因素的影响,所以选择最常用的多元线性回归,简单的模型原理如图4

3.3.2。然而,

然而,是一个基于距离模型。图5显示了分类模型的算法原理,根据K值选择附近的元素,该元素附近最多的类别。

3.3.3。XGBoost

XGBoost提高树模型是基于整体学习提高,基于回归树。一旦提出,该方法已广泛应用于许多研究和许多企业由于其效率高、准确性。一些研究表明,该方法的预测精度可与神经网络和深度学习在处理时间序列问题。

3.3.4。格勒乌

格勒乌结合忘记门和输入门到一个和混合细胞状态C和隐藏状态。最终的模型比标准LSTM简单,如图6

3.4。构建回归集成模型

集成学习是一个想法,而不是一个特定的机器学习算法。该方法的核心是把多个模型称为弱学习者为更精确的模型。集成模型使用不同的抽样数据来训练这些学习者持续疲软,调整弱学习者通过错误,有效地结合了弱者的预测结果学习者在某种程度上。

3.4.1。集成学习的优点

如果决策者的个人模型相比,集成学习方法相当于多个决策者共同努力做出决定。整体学习的优点如下:(1)总的来说,整体学习有很高的准确率;(2)引入随机性overfit使它不容易,具有良好的抗噪声能力,不是敏感异常值的异常点,并能够处理高维数据特征选择;(3)它可以处理离散数据和连续数据。此外,数据集不需要标准化,所以整体训练速度是相当大的。

3.4.2。基于GBDT回归集成模型

在这一部分中,我们把第四种子模型的预测结果与回归模型。本文选择了回归模型梯度提高决策树(GBDT);该算法是基于集成学习的。客流预测结果的每个子模型输入到GBDT模型作为一个独立变量和客流的真正价值作为因变量新一轮的学习。一些非线性关系子的预测结果和实际值可以通过回归模型学习,和不同的子可以发挥的优势来弥补不同模型的缺点。模型如图7

3.5。设置评价指标

为了更全面地比较不同预测结果造成不同参数的选择在同一模型中,本文选择均方根误差(RMSE)作为目标函数的优化模型并选择平均绝对误差(MAE)的指数评价模型。它的定义如下: 代表了实际价值, 代表的预测价值, 代表了预测样本数量。两个指标反映大小的预测值和实际值之间的误差,但前者更能放大这个错误,而后者反映了真正的错误。RMSE值和梅越小,越接近实际值的预报值和模型的预测精度越高。

4所示。结果

刷信用卡的客流和登机和降落量反映了客流的某一行或某一站,以及部分反映了客流的客流之间的两个相邻站在直线上。三个索引对应的基本基本数据优化航线网络的设计和部署在公共交通系统中,车辆以及重要依据规划公交调度频率和考虑是否设置区际公共汽车。因此,本文选择三个基本指标的乘客流部分客流,card-swiping客流,和登机和着陆体积进行短期预测,提供合理规划公交网络的基础,公交车站设施配置和准备的操作计划。

4.1。部分客流量的预测

这部分选择的客流量数据段15分钟粒度的从1月1日2020年5月31日,2020年,在上行方向Xiaoxinzhuang东428号巴士站的“Huitian区”。排除数据总线操作时间,总共有76块一天的数据,共11552条数据。的时间步被选为比较15分钟,30分钟,1小时,2小时,3小时,6小时。换句话说,时间步长值是1、2、4、8、12、24。此外,训练集的数据率,验证集和测试集是7:1:2,与8086年、1156年和2310年的数据,分别。

它可以看到从美和RMSE精度的比较表12回归集成预测效果是最好的在所有不同的时间步骤。不同的时间步的预测效果如图8- - - - - -13

4.2。Card-Swiping客流量的预测

这部分选择card-swiping客流量数据粒度的15分钟从1月1日,2020年5月31日,2020年,428号巴士的上行方向在“Huitian区域。“时间步也是选择比较15分钟,30分钟,1小时,2小时,3小时,6小时。的数据比训练集、验证集和测试集6:2:2,8812,2938,和2938年的数据,分别。

它可以看到从美和RMSE精度的比较表34回归集成预测效果是最好的在所有不同的时间步骤。不同的时间步的预测效果如图14- - - - - -19

4.3。寄宿和着陆体积的预测

寄宿和降落的体积,81400块的数据已经收集了来自北方的麻辣烫村站15分钟的上行方向的巴士428号从1月1日,2020年,2020年5月31日。同样,数据转换成一个监督序列根据设定时间步长;时间步长是15分钟,30分钟,1小时,2小时,3小时,6小时,分别和训练集的数据率,验证集和测试集是6:2:2,48840,16280,和16280年的数据,分别。

它可以看到从美和RMSE精度的比较表56回归集成预测效果是最好的在所有不同的时间步骤。不同的时间步的预测效果如图20.- - - - - -25

5。讨论

根据“没有免费的午餐定理在机器学习理论中,没有算法,可以完美地解决所有问题。许多因素,如数据集的规模和结构将会影响最终结果。对于特定的数据集和实际需要,我们应该考虑如何选择一个合适的算法。本文提出一种方法,选择最优的回归预测模型。该方法的重点不是最终的具体模式,但最优模型的选择过程。因此,它并不局限于使用在给定的数据集,这正是本文的创新。集成模型选择部分是本文的重点。实现回归预测寄宿和着陆体积,横截面客流,card-swiping客流。相同的回归集成算法可以用于预测所有的美和RMSE。子还可以分为几类,并可以选择不同的算法对不同类型的指标数据集。 If different indicators are classified and predicted, there are problems of how to classify and which algorithm to choose. The method proposed in this paper is to use multiple algorithms to predict each index separately, select the optimal integrated model, and propose a comparative model to verify whether the selected optimal integrated model performs best. In the empirical study, four machine learning algorithms of KNN, LR, XGBoost, and GRU were used to predict boarding and landing volume, cross section passenger flow, and card-swiping passenger flow, respectively, finally comparing the prediction results of linear regression integration algorithms.

相比之下,在截面客流预测,预测结果LR和格勒乌中的每个步骤四的子美和RMSE值较低;预测结果更加准确;每个子模型,当步长8 - 12美和RMSE值相对较低;,结果更准确。与回归的预测结果相比集成模型,集成模型具有最低的美和RMSE值每一步,表明使用回归集成模型的结果来预测最准确。当回归整体模型的步长是12,美值4.57和均方根误差为6.50,每一步都是最低的值大小,表明回归整体模型具有良好的预测精度,当步长是12。

客流预测的用卡,LR的预测结果的四子每一步的美和RMSE值更低,和预测的结果更准确。当步骤4,每个子模型都有相对较低的美和RMSE值更准确。与回归的预测结果相比整体模型,整体模型最低美和RMSE值每一步,表明回归整体模型的预测结果是最准确的。当回归整体模型的步长是8,美值是16.09,和RMSE是16.09,两者都是在每个步长值最低。这表明回归整体模型具有良好的预测精度,当步长8。

在着陆体积的预测,预测结果中的每个步长下的格勒乌四子美和RMSE值较低,和预测的结果更准确。当步长是12,每个子模型都有美和RMSE相对较低。结果更加准确。与回归的预测结果相比集成模型,集成模型具有最低的美和RMSE值每一步,表明预测结果使用回归集成模型是最准确的。当回归整体模型的步长是8,美值4.68和均方根误差为7.70,这是在每个步长值最低。这表明回归整体模型具有良好的预测精度,当步长8。

6。结论

城市公交网络运营管理的核心是有效地分配和使用系统资源根据总线网络客流的变化,及时调整经营策略,确保总线网络安全完成运输服务的任务。短期客流预测和分析运营管理的基础。它可以提供应急管理和响应的基础,也是公共交通服务水平的一个重要决策指数和系统运行状态的评估。短期客流预测是一个重要的决策数据为城市公共交通运营和管理,及其预测精度将直接影响城市公共交通决策、调整操作计划的科学性和准确性。

分析428年的运行监测数据,一个典型的线Huitian地区,从城市公共交通网络的角度在Huitian地区,包括交通容量,以及登机和着陆体积和横断面每个车站的客流。同时,基于目标总线操作数据、lr、资讯、Xgboost和格勒乌第四种子模型和回归集成模型基于第四种子模型被用来预测三种不同客流指标。从预测结果,可以看出,回归集成是相比于其他四个的子模型有更高程度的健康。客流预测的结果集成模型具有高度的信誉。

预测结果的可靠性反映预测方法和模型的可用性和有效性在一定程度上也保证了最终的短期客流预测结果的可用性。根据可靠的预测结果,一旦客流预测价值大于预定阈值,决策者可以激活应急管理计划。其次,业务规划可以动态地调整基于客流波动。管理者可以有效地控制短期客流变化,及时调整网络操作策略,合理的使用公共交通资源,并降低运营成本。同时,短期客流预测的结果是作为一个积极的反馈的网络监控,它可以协助经理获取更有效的信息从日常总线网络监控,以提高总线网络的控制和管理。

自本文研究重点建设和验证的基本模型,仍存在一定的缺陷和局限性。根据这些缺点和局限性,下面的前景和建议可以提供未来相关工作:(1)交通政策对个人旅游特征的影响是一个长期的影响。同时,流量数据可以准确地记录每个人的长期旅游活动;因此,城市交通卡等大数据的数据非常适合分析城市交通政策变化的影响,个人旅游特征的影响。在后期,我们可以使用的数据在很长一段时间来分析城市交通政策变化的影响对个人旅游特征从纵向的角度来看。(2)增加更多的数据和丰富的个人属性的改进信息来源:手机的数据和其他数据包括完整的旅游链数据可以显著提高乘客的身份活动地点。这将提高分析轨道交通客流的产生机制,充实个人属性信息更准确。此外,包括完整的旅游链的数据也非常有助于研究个别乘客的路线选择的轨道交通网络。(3)重复性数据的联合分析来提高模型的普遍性和鲁棒性,本文以北京为例,检查和验证每个模型的参数。从结果可以看出,该模型框架有理想的预测精度。然而,其他城市和模型的适用性参数模型的鲁棒性的预测准确性无法估计到其他城市。因此,为了提高模型的普遍性和鲁棒性,使其更适用于工程实践,后来的研究可以使用来自多个城市的数据进行空间和水平联合分析和验证模型参数。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作在一定程度上支持China-Young科学家的国家自然科学基金资助(批准号71103014),北京市哲学办公室(批准号14 jgc095),北京交通委员会科技项目(批准号B17M00080),北京交通行业的科技项目(批准号201905 - zhjc2)。