文摘

直接客流量模型可以预测警所一级的城市轨道交通客流量。先前的研究表明,城市轨道交通客流量的直接建模使用不同的覆盖重叠区域的处理方法(如天真的方法或Thiessen多边形),区域分析单位(如人口普查块组和普查区),以及各种回归模型(如线性回归和负二项回归)。然而,这些方法和模型的选择似乎是任意的。本研究的目的是提出警所一级的城市轨道交通客流量的方法模型选择和评估这个选择对客流量的影响模型结果和预测精度。2010年城市轨道交通客流量数据收集从五个城市:纽约、旧金山、芝加哥、费城和波士顿。使用建筑环境特征作为独立变量和因变量警所一级的客流量,进行检查分析客流量预测模型性能的差异。我们的结果显示一个大的圆形重叠覆盖区域将大大影响模型的准确性。平均分配的方法显著提高模型精度。大多数模型表明,广义可加模型有较低的平均绝对百分比误差(日军)和更高的调整 值。相比之下,Akaike信息准则(AIC)值较低的负二项模型。不同的影响基本空间分析单元对模型结果是边际。因此,基本面积单位的选择可以使用现有数据。在模型选择方面,先进的模型比线性回归模型似乎表现得更好。

1。介绍

城市轨道交通是一种受欢迎的城市公共交通因其大容量、环境友好,速度快。城市轨道交通的出现缓解了交通拥堵的问题,由私人汽车排气污染。强有力的证据表明,城市轨道交通车站附近减少私人汽车拥有量的家庭(1]。越来越多的大城市已经采取各种措施来发展轨道交通系统。在首尔和上海等城市,政府提倡使用城市轨道运输通过transit-oriented发展(TOD) [2,3]。警所一级的客流量是决定操作的主要因素和规划的城市轨道交通系统。由于这个原因,在车站客流量建模水平一直是一个主题感兴趣的学者和实践者。可靠的客流量模型可以反映底层因素影响警所一级的客流量和便于操作和管理,制定措施,促进城市轨道交通客流量。一个精确的客流量模型可以帮助运营商在决定服务频率和最佳实践操作。

在客流量建模中,需要考虑的一个重要因素是土地利用方面在车站服务覆盖区域。选择一个合适的车站服务覆盖区域的第一步是建立一个有效客流量模型。重复计算重叠区域是一个公认的问题造成的客流量建模(4,5]。解决潜在的问题和重复计算数据,使用Thiessen多边形是通常提出的措施(6- - - - - -9]。总之,Thiessen多边形分配的最近点站,站来解决这个问题。然而,问题可能仍然使用Thiessen多边形时发生。例如,在车站布局比较紧凑的地方,车站服务覆盖区域由Thiessen多边形变成比例较小,这可能低估了建立环境变量对客流量的影响模型。

确定车站的服务覆盖区域后,下一步是提取建立环境变量(如人口密度和就业密度)服务覆盖区域内,这是空间分析的基本单位。因为车站服务覆盖范围通常不完全匹配的基本空间分析单元,通常假定人口和就业数据是均匀分布的基本空间分析单元。重量确定的数据覆盖面积比总面积在分析单位。例如,数据重量是1当分析单位是完全由车站服务覆盖区域。在现有文献中,两个基本空间分析单元:经常使用人口普查块组和普查大片(6,10- - - - - -12]。人口普查块组(cbre)和人口普查大片(CTs)是地理单位所使用的美国人口普查局。CT是一个更大的地理单元,多个cbre单元组成。

选择合适的回归模型是揭示以下一步警所一级的客流量之间的关系及其影响因素。线性回归是最常用的方法在文献[2,3,7,13]。因为站的位置的差异,客流量可以站有很大不同,导致可能的分散分布的警所一级的客流量。为了应对这种可能性,负二项回归模型提出在文学和被采纳14,15]。此外,提出了广义加法回归模型在解决可能的非线性因变量与自变量之间的关系在交通领域(16,17]。

本研究选择五个城市案例研究:在美国纽约、费城、波士顿、芝加哥和旧金山。这些城市的城市轨道交通系统是美国最大的之一。这五个城市的包容是产生更多的可概括的结论,作为他们在许多方面不同18]。本研究旨在确定哪些回归方法在处理站是最可靠的覆盖范围重叠问题,探索之间是否存在显著差异的建模cbre与CTs作为空间分析单元,并提供洞察这模型执行最佳建模时直接在车站客流量的水平。

本文的其余部分的结构如下。下一节回顾了现有文献在公共交通客流量的因素,采取措施解决重叠的问题站覆盖范围,和应用各种空间分析单元和模型。第三部分描述了数据的研究和提出的三个方法来克服站覆盖范围的重叠问题。还探讨了不同的普通最小二乘回归,负二项回归和广义可加模型用两个空间分析单元(cbre和CT)和不同的电台报道治疗方法。第四部分评估模型的准确性和可靠性,提出了模型的改进方向。最后,我们研究的结论,提出了优点和局限性。

2。文献综述

大量的研究城市铁路客流量是基于站的水平。重要的是要研究建筑环境的影响在警所一级的客流量。许多研究发现,较高的人口密度和就业密度增加的客流量3,19- - - - - -21]。车站周围的建筑环境因素如密度、多样性、和设计有重大影响城市轨道的客流量14,22- - - - - -24]。车站的属性本身也产生重大影响客流量,传输和终端站与高客流量(25- - - - - -27]。

确定车站,周围的建筑环境属性缓冲区通常是画在电台代表站的覆盖区域。一般来说,一个循环缓冲区的半径800米是常用的服务覆盖区域站(25,28,29日]。然而,这种幼稚的方法往往忽略缓冲区重叠的问题,特别是当电台相互接近。一些学者提出了解决这样的问题。Thiessen多边形方法是应用最广泛的方法(6,7,9]。然而,在靠近车站的地方,使用Thiessen多边形可以站的覆盖范围很小,估计时,引入了错误的值建立环境变量。因此,上述两种方法似乎地址重叠问题的缓冲区。因此,本文提出了一种新的方法来处理这个问题:计算变量的值,如人口、就业、重叠区域和公交车站数量的缓冲区,这些变量的值除以重叠缓冲区的数量,并将结果分配给每一个重叠的缓冲区。

不同的空间分析单元使用不同的研究。这些单位通常包括cbre和CT。站的覆盖范围不完全匹配的空间分析单元,当估计站周围建筑环境变量的值,常见的做法是将这些变量作为均匀分布在空间分析单元和计算覆盖范围内的变量的值。因此,空间分析单元的选择影响的结果直接客流量模型。研究使用CT作为空间分析单元包括(6,10,研究使用cbre作为空间分析单元包括(11,12]。

不同的研究也使用不同的回归模型构建独立变量之间的关系和警所一级的客流量。线性回归模型是最常见的方法(24,26,27]。另一个广泛使用的模型是负二项回归14,15]。最近,非线性模型被广泛使用。非线性模型包括机器学习模型和多项式的统计模型。机器学习和统计模型相比,模型没有意义推理为自变量,容易过度拟合30.,31日]。社交是一种先进的统计模型,抓住了独立和相关的变量之间的非线性关系通过一个平滑函数16,17,31日,32]。丁等。16]发现几乎所有的建筑环境之间的非线性关联变量和电动自行车所有权。胡锦涛et al。(17)使用广义加法混合效应模型(GAMM)调查决定因素之间的非线性关系,汽车共享的吸引力。由于空间自相关总是观察到在处理空间数据,空间计量经济模型通常用于处理这个问题(15,33,34]。氮化镓et al。33应用空间误差模型和发现显著影响警所一级的客流量的因素虽然控制了空间自相关。

总之,先前的研究使用不同的空间分析单元,重叠的缓冲区域的治疗,回归模型估计时,警所一级的城市轨道交通系统的客流量。然而,这些方法和模型尚未相比。到目前为止,没有指导的空间分析单元,治疗重叠的缓冲区域,应该使用回归模型。结果,本研究将分析不同的空间分析单元的影响,治疗重叠的缓冲区域,回归模型结果提供指导方针应该使用哪个方法或模型。

3所示。研究设计

3.1。研究区域

我们收集了2010人口变量从最新的智能位置数据库(SLD)和城市轨道交通数据的2010五个选定的美国城市:纽约、旧金山、芝加哥、费城和波士顿。选择五个城市,因为他们向公众提供客流量数据可用。此外,城市轨道交通车站的数量在这五个城市相对多样化。纽约拥有最大的城市轨道交通系统中五个引用,与421个车站蔓延曼哈顿,布鲁克林、皇后区和布朗克斯。旧金山有最少的电台,44站连接城市在海湾地区。站的数量在芝加哥、费城和波士顿是136年,156年和153年,分别。

3.2。变量和数据来源

我们可靠的变量是城市轨道交通2010年警所一级的客流量,在形式的平均工作日车站客流量。数据源和信息(表所示1)。

我们的独立变量是来自智能位置数据库(SLD) 2010和开放数据在5个城市。可以通过美国环境保护署奉养。我们从SLD与cbre获得人口数据空间分析的基本单位和集群通过大地水准面成CTs。大地水准面是数字编码唯一地标识地理单元。shapefile的道路、公交车站、公交线路,城市轨道交通车站从公开数据中检索。利用ArcGIS空间分析工具,用于建模的变量数据分为三类:人口、土地使用、和车站的特点。表中描述的变量信息2

3.3。站覆盖区域的重叠问题

本研究应用三种不同的方法来处理车站服务覆盖区域的重叠问题:天真的方法(即。,没有治疗),平均分配方法,Thiessen多边形的方法。循环缓冲区是一个圆形区域站为中心,半径800米,如图1。然而,当车站位于人口,大量的重叠可以用这种方法出现。因此,这可能严重影响模型精度。出于这个原因,另外两个方法使用。天真的方法。类似的方法。但重叠人口、就业和公共汽车站将同样在空间单元划分。然而,应该指出的是,其他变量(表1该方法)不涉及平等分裂。强调了在红场,如图1两个循环缓冲区域重叠时,重叠部分的数据将被均匀地分配到的服务覆盖区域两个附近的车站。另一个可能的方法是使用Thiessen多边形,多边形内任何数据点分配给最亲密的站测量距离,如图2

3.4。的建模方法

除了多元线性回归,负二项回归,和空间模型,常见的文献,本研究还增加了一个广义加性模型。当构建一个直接为城市轨道交通客流量模型,线性回归模型是最常用的学者。然而,线性回归的一个假设是,因变量和自变量之间的关系(s)只能是线性的,很少是这样一些类型的数据。我们因此引入广义相加模型进行非线性拟合来捕获的可能性,任何可能的非线性因变量与自变量之间的相关性(s)通过平滑函数。警所一级的客流量的电台之间的差异可以很大。通过计算,发现变异系数从1.49平均0.83(芝加哥)到3.07(费城)overdispersion的象征。因此,负二项回归和用来克服这种overdispersion模式提出了因变量的研究(18]。空间变异性警所一级的客流量,空间误差模型应用于地址空间自相关。所有的建模和分析与执行R软件(版本3.6。1),广义相加模型通过“mgcv”包激活(35),负二项回归是“质量”提供的包36),和空间误差模型是由“spatialreg”包(37]。

负二项、广义加性和空间误差模型用于这个研究可以表示如下。

3.4.1。负二项回归

在哪里 代表了警所一级的客流量 是拦截。 代表独立变量,人口、就业、上下文和其他变量, 每个独立变量的系数, 残余项。

3.4.2。广义添加剂回归

广义相加模型使用样条函数来捕获了独立和相关的变量之间的非线性关系,用以下公式: 在哪里 代表了警所一级的客流量 是拦截。 独立变量用于线性拟合, 独立变量的系数, 代表独立变量的非线性拟合, 残余项。

3.4.3。空间误差模型

空间误差模型假定只有效应误差项的空间自相关过程的元素被下面的公式: 在哪里 是权重矩阵, 是随机误差项的系数向量, 是空间误差系数, 是随机误差。

3.5。模型性能指标

评估模型的准确性,本研究使用调整 ,日军,另类投资会议。其中,调整 用于指示模型的拟合优度(38]。日军是用来评估模型的准确性39]。另类投资会议是用来比较不同模型的质量40]。这三个指标可以用数学表达 在哪里 残差平方和和吗 的自由度是吗 是总平方和,其自由度是什么 代表了真实模型中的因变量的值, 因变量的预测价值。 表示函数和可能性 表示参数的数量。

4所示。结果

4.1。模型输出和评估

在本节中,我们将讨论不同的使用各种空间分析单元,处理方法的重叠部分车站覆盖地区,和结果的三种类型的模型。共有90个模型建立在这项研究。对于模型的评估,我们首先使用方差膨胀因子(VIF)值检查潜在变量之间的共线性和过滤VIF的变量值超过10 [41]。变量“住房单位”和“家庭”删除。广义可加模型,我们利用AIC确定的价值k。纽约的模型结果基于cbre的空间分析单元和重叠的缓冲区的天真的处理方法给出了表3

然后我们获得调整和总结 ,日军和AIC值的所有最终的拟合模型,如表所示4- - - - - -7。此外,我们计算重叠区域的大小和重叠率在5个城市使用循环缓冲区(表中8)。这种计算方法、纽约和波士顿有重叠率相对较高,接近一半的面积大小,这反映了车站布局简洁。

4.2。其他方法解决重叠的问题

在站布局紧凑的城市,如纽约和波士顿,覆盖重叠率接近一半。相同的模型参数和分析单位,处理重叠区域的方法似乎是最有效的方法总体平均调整 日军= 112.078 = 0.6,AIC = 8020.195,这是比天真的方法(0.454,164.758,和8094.405)和Thiessen多边形法(0.560、126.657和8046.428),分别。该方法使用Thiessen多边形执行比天真的方法。这可能是因为城市电台密集分布时,用天真的方法重新计算大量的数据,而另两个方法可以更好的稀释情况和反映它在车站更密切。在稀疏的城市位于车站,如旧金山、费城、和芝加哥,重叠率0.034,0.08,和0.254,分别。天真的方法,方法,Thiessen多边形方法似乎并没有表现出显著差异。

4.3。模型比较

模型的拟合优度可以评估使用AIC值。控制同一处理的重叠部分车站服务覆盖区域,空间分析单元相同,同一个城市,我们的结果表明,大多数负二项回归模型的AIC值低于线性回归和广义可加模型,表明模型的更好的选择。此外,广义可加模型产量最高的准确率。通常情况下,几乎所有的广义可加模型有一个较小的日军在我们的结果,比线性回归和负二项回归模型。负二项回归模型也在日军表现略优于线性回归模型。关于广义可加模型、调整 值的模型是高于其他模型。然而,小AIC值与负二项回归模型观察,表明整体更好地适应这样的数据与模型。较小的日军与广义可加模型观测值,表明这些模型具有更高的预测精度。空间误差模型也会产生更好的结果比基于调整的多元线性回归模型

4.4。空间分析单元的比较

的结果,在控制了其他因素,cbre和CT方法产生不同的性能在不同的城市,并没有明确的共识执行哪一个更好。一个可能的解释是,获得的数据来自cbre推断从调查抽样偏差。因此,当cbre数据聚合到CTs,这些偏见可能洗掉对方。因此,数据的准确性在CT层面可能并不一定比在cbre级别。另一方面,由于城市轨道交通警所一级的客流量的未被注意的异质性,房间可以边际改善cbre水平分析,尽管拥有更高的精度。这两种方法精度有着密切的表现。因此,对于未来警所一级的客流量建模工作,空间分析单元的选择可能不会举行至关重要的变化由于单元选择较小的整体结果。此外,我们的研究结果表明,对于同一城市,模型性能指标AIC和调整 携带相同的功能。较大的调整 ,AIC越小。大多数日军和调整 值也相同的功能。最后,我们发现,警所一级的准确性直接客流量模型在不同城市的不同变化很大(从0.4到0.9的调整 值)。

5。讨论

本研究探讨了影响治疗的服务覆盖重叠区域,空间分析单元,和不同的模型选择直接客流量城市轨道交通系统的建模结果。

首先,我们调查的治疗重叠的缓冲区。一些先前的研究使用Thiessen多边形的方法处理重叠缓冲区(6- - - - - -9]。然而,他们没有比较Thiessen多边形方法与天真的方法。虽然平均分配的方法更繁琐的使用,它可以产生更好的结果在处理缓冲区重叠的问题。

关于这个问题的不同的空间分析单元(cbre或CT),我们的研究结果表明,没有证据,哪一个更好。之前的研究使用不同的空间分析单元(6,10- - - - - -12),和未来的学者仍然可以使用最现成的空间分析单元。

对于不同的回归模型,考虑到overdispersion客流量,独立和依赖的变量之间的非线性关系,和空间误差模型能产生更好的结果比多元线性回归的基础上调整 特别是非线性模型,GAM,日军价值低和较高的调整 ,与现有研究的结果是一致的(17,23,42]。

6。结论

本研究的主要贡献是我们探索的影响重叠的缓冲区的不同的治疗方法,空间分析单元,并对警所一级的需求回归模型建模结果。这种治疗方法探索答案的问题的重叠的缓冲区,空间分析单元,应该使用回归模型在警所一级的城市轨道交通的需求建模。获得更有说服力和普遍的结论,城市轨道交通的客流量数据从五个主要城市在美国用于执行这项研究。我们发现非线性模型比线性模型在大多数情况下。方法通常表现优于其他两种方法。关于空间分析单元,cbre的选择或CT不影响模型的结果。因此,研究人员可以使用它们来执行警所一级的需求建模研究。

数据可用性

在这项研究中使用的数据是由两个部分组成。客流量数据被运输机构的五个城市:纽约(43),费城(44),芝加哥(45),波士顿46),和旧金山(47]。建筑环境数据被从数据库智能位置(48]。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

李c, h·杨,和李x的构思和设计研究。c·李和李x进行数据收集。x h, c . Li Li j .霍y,公园,和y刘的结果进行分析和解释。h·杨,c·李,李x, y,公园,和y刘写的手稿。所有作者回顾了结果和批准的最终版本的手稿。

确认

这项研究是由中国国家自然科学基金(授予号。71704145,71704145,71831006),人类和中国教育部社会科学基金(批准号18 yjczh138)、中国博士后科学基金会,和四川青年科技创新研究团队项目(拨款2019 jdtd0002和2020号jdtd0027)。