文摘

最早期的研究路径选择行为分析依赖偏好调查收集的数据或通过小规模实验。这手稿集中在理解乘客的路径选择行为的基础上,大量的从被占领的出租车轨迹数据。基本的假设是旅游占据了出租车司机的行为可以被认为是没有不同的位乘客。为此,DBSCAN算法和Akaike信息准则(AIC)首次用于旅行到不同的类别进行分类根据行程长度。接下来,总共9解释性变量被定义来描述路径选择行为,和和路径大小(PS) logit模型建造,避免无效假设的独立无关的替代品(花絮)常见多项logit MNL模型。出租车从超过11000西安出租车轨迹数据,4000万年中国轨迹记录每天被用于案例研究。结果证实,乘客的路径选择行为是异构的旅行距离和不同建模过程中,考虑这样的异质性将更好地解释乘客路径选择行为,相比与传统MNL模型。

1。介绍

路由选择行为的分析提供了理论支持和交通路线指导任务。最早期的研究路线选择行为是基于收集的数据从偏好(SP)调查或通过小规模实验,通常是有限的数据大小或数量的参与者。在建模过程中,常用尤其是logit模型离散选择模型。这些模型之间的差异主要反映在不同的数据集,解释变量,或模型结构。例如,麦克费登和里德logit模型应用于旅游行为分析(1]。之后,基于假设路径效用函数的随机项遵循耿贝尔分布,刻度盘构造一个离散的多项logit MNL模型用于多模选择(2,3]。为了解决独立无关的替代品(花絮)MNL模型的问题,提出了各种改进模型,如C-logit模型和PS-logit模型(4,5),由增加一个修改项效用函数来描述不同的路线之间的交互。此外,根据广义极值(GEV)麦克费登提出的定理,一些研究者提出了补偿中子测井和PCL模型(6,7),以避免花絮MNL模型的假设。一般来说,这些早期的研究路径选择行为缺乏真实数据和被限制的算法复杂度,并使用解释性变量的数量通常是有限的。

快速发展的信息和通信技术(ICT), GPS技术方面取得了显著进展,和GPS设备采集的数据被广泛应用于各种交通研究,如在旅行时间估计8- - - - - -10),驾驶风险分析(11,12],起飞时间建模[13,14),和许多其他人15- - - - - -17]。这些数据也被用来直接支持路径选择行为分析,以及数据驱动的路径选择模型定性改善方面的有效性和准确性。例如,路径选择行为和网络信息在芝加哥进行了研究使用收集的数据使用便携式GPS设备,大小和路径(PS) logit模型对不同的旅游目的提出了不同时期(18]。基于相同的方法,Schussler苏黎世地区和Axhausen旅行收集数据和校准C-logit模型和PS-logit模型(19]。金正日Mahmassani提出了轨迹聚类算法分析时空旅行模式在网络20.),聚类和分类的框架建立了车辆轨迹数据。此外,一些大中城市在荷兰被选为研究对象和一个MNL模型提出了基于GPS数据分析路径选择行为(21]。李等人收集的私人汽车在丰田市的GPS数据,探讨了旅游者的影响的异质性在路径选择,得出的结论是,路径选择行为是影响旅游者的年龄、性别、车辆位移和O-D的特点22]。然而,分析重点是旅行者的异质性,而不是路线上的差异特征。Bierlaire Frejinger使用GPS数据在瑞士学习行为特征的长途旅行路线选择,给PS-logit模型和子网模型的估计结果(23]。Miwa等人使用名古屋城市的出租车旅行数据分析动态路径选择行为的特点,一个MNL模型,并得出结论,有不同的路线选择行为在不同O-D距离(24]。山本等人行人从名古屋GPS数据来构建一个使用嵌套logit模型(25,胡锦涛等人利用GPS数据分析路径选择行为变化下预先计划的道路关闭(26]。

这手稿关注普通交通路线选择行为的分析,基于大量的从被占领的出租车轨迹数据。出租车,特别是那些与e-hailing平台超级和Lyft等,另一方面,主要是安装GPS设备的调度和安全的目的。然而,大多数现有的研究基于出租车GPS轨迹数据集中的路由行为空出租车司机,最小化的目标搜索时间为下一个客户(27,28)或最大化利润(29日- - - - - -31日),这明显不同于普通的司机。我们的基本假设是,当一辆出租车被客户、占领出租车司机将寻求在最短的时间内到达目的地或距离预期或要求的客户,类似于通勤的目标在他/她自己的车。另外,出租车司机通常有很好的知识的道路网络和交通状况,因此他们的旅游行为可以被视为非常相似,并没有不同,位乘客。

此外,这个手稿进行假设与不同长度旅行可能会表现出不同的特征在驾驶员的路径选择行为。而不是惯例的发展和校准一个统一的模型来描述所有旅行的路线选择行为,Akaike信息准则(AIC)首次使用基于行程长度行程划分为不同的类别。接下来,总共9解释性变量被定义来描述路径选择行为,然后PS-logit模型修建,这避免了常见的无效假设花絮多项logit模型(24]。出租车从超过11000西安出租车轨迹数据,4000万年中国轨迹记录每天被用于案例研究。结果证实了假设乘客路径选择行为是异构的旅行不同距离和建模过程中,考虑这样的异质性将更好地解释乘客路径选择行为。

本文的其余部分组织如下:部分2提出了本研究中使用的数据,包括GPS轨迹数据和交通网络。部分3探讨了深度分析方法和部分4介绍了数值分析结果。部分5本研究总结道。

2。数据准备

2.1。GPS数据集

本研究中使用的GPS轨迹数据来自西安出租车调度系统的历史数据库,中国。录音时间从0:00至24:00,记录间隔30年代,每条记录包含车牌号码,时间戳、经度、纬度、速度、行驶方向、加载状态。所包含的数据集的数据超过11000与4000万年出租车轨迹记录每一天。如此巨大的数据量可以满足本研究的需要。以下数据清洗和预处理进行:(1)把有缺陷的数据缺失值。(2)只保留了数据装载状态是“5(旅客)。”(3)删除了数据与行驶方向超出0°-360°。(4)删除数据和关键属性是“0”(无效)。

2.2。交通网络

西安OpenStreetMap (OSM)网络下载,用于这项研究。后处理的努力,包括消除重复或冗余的道路和添加道路段的长度和节点信息。此外,公路段分为七类,包括高速公路、国道、高速公路,城市高速公路、主干道、二级公路和街道。研究区域如图1

2.3。热点OD出行提取

占领旅行之间频繁的术语叫做(OD)对从数据库提取的目标数据进行分析。我们首次发现上车和下车热点,然后提取这些热点之间频繁的OD。

2.3.1。下降的识别热点

这个步骤的目的是确定下降事件的密度高的地区,与热点OD匹配的目标提供依据,并确保有足够数量的商用旅行同样的OD对间(从上车到下车)。

根据加载状态的变化之间的两个相邻GPS数据记录,上车和下车点可以被识别。的士的GPS数据2017年4月19日在西安为例,从4000万年的11281辆出租车轨迹生成的数据,研究地区的近59.4万人下降点。DBSCAN空间聚类算法(32)是用来识别下降的热点。该算法包含两个参数:集群邻域半径(Eps)和最小密度阈值(MinPts)。摘要K——远程方法用于确定合理的每股收益。该方法包含三个步骤:步骤1:假设下降点数据集 包含n点,我们选择一个下降点 和之间的欧氏距离计算 ,分别。然后,他们被欧几里得距离在升序排序 在这 表示,K——远程下降点 步骤2:我们计算了K——远程数据集是基于每个下降点的第一步。步骤3:我们进行排序K下降点的距离升序排列,商议的K——远程数字。在图中,K——远程拐点定义为Eps的数据集。

周三下降点数据集,4月19日,2017年,作为一个例子,我们分析了数据在不同长度的时间。我们发现,当时间的长度超过8分钟,的变化K——远程图往往是稳定的,和拐点的特征更明显,如图2。最后,考虑到计算机性能的限制,我们将下降点数据集(5000 - 5400分)的10:00-10:周三上午10点,4月19日,2017年,作为一个例子,其K——远程图如图2 (d),这显示K约0.00211——远程发生重大的改变。因此,本文选取0.00211每股收益。这个值将用于一天下降点的聚类识别热点ODs数据集。

MinPts表示在每个集群的密度下降点。本文用给定的Eps和假设MinPts,下车点可以获得的聚类结果。根据聚类结果在不同MinPts、合理MinPts可以确定。在不同MinPts,下降点的聚类结果如表所示1

获得尽可能多的集群并确保每个集群都有足够数量的上车或下车点,MinPts是将800年的价值。59.4万年下降分被聚集到11集群(表1)。当MinPts的价值将是800,下降集群的空间分布和旅行的每个集群的数量得到如图3

2.3.2。识别热点OD

为了确保选定的OD对间的旅行是足够的数量和有效性、热点OD识别方法提出了这一步。它包括以下两个步骤:(1)对于每一个下车点在下降集群,如图3(总共14283分),搜索相应的提货点和轨迹数据之间;(2)重新集群提货点。重聚簇的DBSCAN算法用于提货点。生成的提货点11下车集群,如图3re-clustered。十八岁对热点ODs(表获得2)。结果表明,使用上述方法只需要处理一天的数据,以确保商用ODs之间航线的数量就足够了。

在表2,CCluster意味着re-clustered拾音器热点。“集群1-CCluster: 245”意味着有245个商用之间旅行Cluster1和下降点CCluster提货点。

3所示。分析方法

3.1。行程长度分类

测试异构路径选择行为的假设对于不同长度的旅行,Akaike信息准则(AIC)首次使用分类旅行到不同类别根据其长度。

一些研究在旅行的旅行距离的分类可以在文献中找到。在调查城市居民的旅行,旅行的距离是主观地分成几段距离,比如0∼3公里,3∼6公里,6∼9公里,9∼12公里,和超过12公里33,34]。模式分离目的,只有定性分类的旅行距离(短距离和长距离)进行(35,36]。在路径选择模型中,大多数研究仅使用一个模型来描述所有的路径选择行为(8,21,37]。为不同类型的商用路线,游客的行为是不同的。因此,目前theoretical-sound方法分类的旅游路线是失踪。

基于商用的OD-Euclidean距离分布的路线,我们寻求旅游容量的特征值变化明显。这些特征值作为初步分类的基础。OD-Euclidean距离分布的14283次11下降集群中提到的部分2。3如图4。在本节中,我们使用这部分数据进行研究。

4显示在3、7和10公里,三个高峰值的旅游卷可以观察到。相信这三个山峰符合西安的城市结构:(1)3公里半径:1 - 3公里以内的中央商务区(CBD),有许多服务设施。这些设施可以很好地为居民服务和本区域的居民可以满足他们的日常需求,如工作,教育,和购物。(2)7公里半径:作为一个城市有几千年的历史,西安的CBD吸引了大量的旅行。西安的CBD是位于城市的几何中心,CBD-centered 6 - 7公里覆盖主要城市地区。(3)10公里半径:有很多客运站,机场,和在城市旅游区,这些重要的利益也吸引了很多的旅行。这种现象解释了发生的第三高峰。

根据上述分析,单一的商用出租车路线可分为四类:0 - 3公里,3 - 7、7 - 10公里,和超过10公里。应该注意的是,这些都是OD-Euclidean距离,代表上车和下车点之间的直线距离。很难反映实际长度或旅行的路线。为了反映出租车的实际长度商用路线,迂回被选为另一条路线分类索引。我们筛选了14283次的数据,包括每个OD的欧几里得距离和迂回,如图5。OD-Euclidean距离之间的关系,不同类型的商用的平均迂回路线安装如下。这是一个典型的回归曲线拟合使用Microsoft Excel和结果显示R平方值为0.9416,这表明满意的结果: 在哪里 从提货点是商用的迂回路线吗r下降点年代并计算了OD-Euclidean距离实际的旅行距离的比值。 是商用的OD-Euclidean距离从提货点吗r下降点年代(单位:公里)。

0 - 3公里的平均值,3 - 7公里,和7 - 10 1.5公里,5公里和8.5公里,分别。考虑到只有13.17%的OD-Euclidean超过10公里的距离,和80%的人分布在10 - 15公里,12.5公里,被选为代表值。通过引入1.5公里,5公里,8.5公里和12.5公里到方程(1),可以计算初始聚类中心的五个方案(1.9905,1.7247,1.5471和1.4324)。此外,已有研究将旅客的旅行距离分为3类以上(35,36]。因此,我们决定簇的数量设置为3或4。如果集群的数量是3,根据集群中心,有4个可选的集群方案;如果集群的数量是4,有1可选的聚类方案。五个聚类方案如表所示3

为了比较五个聚类方案的影响,AIC准则,提出了h . Akaike信息理论,介绍了确定最佳方案。 在哪里 模型的最大似然估计,提高集群之间的差异,价值变得更大。 在模型中参数的数量,分类模型包括越多,价值就越大。AIC取决于的价值 越小 是,模型变得越简洁,越大吗 是,更精确的模型。AIC因此认为复杂性和精度确定最佳方案。

迂回的数据集 ,含有K电路商用的路线。集群的数量N,最后每个集群的集群中心 ,每个集群的样本大小 ,和内部每个集群的偏差 在哪里 之间的欧几里得距离吗 , 集群是一个商用的迂回路线吗, 是集群的中心

在每个集群的密度分布偏差方程所示(4)。 在哪里

根据对数最大似然估计原理,对数最大似然估计函数的每个集群的内部偏差( )可以得到如下:

把方程(5)方程(2),工商局,商用路线分类的基础上,可以计算如下:

最小的聚类方案AIC被选为最优方案。五K集群方案则是由SPSS实现,这是一个统计分析软件包由IBM开发的AIC值5个方案,如表所示3,2.885,2.6137,2.8041,3.5233,和3.0231,分别。方案2的AIC值是最小的,这意味着这个方案在复杂性和精度最好的平衡。因此,方案2被认为是最优方案。

在集群方案2中,集群的边界1是1和1.489,这与商用路线OD-Euclidean距离超过10公里。集群的边界2分别为1.489和1.826,这与商用路线OD-Euclidean距离3公里和10公里。集群的边界3分别为1.826和2.544,这与商用路线与OD-Euclidean 0公里,距离3公里。因此,出租车商用路线的分类结果≤0公里D≤3公里(短距离)≤3公里D距离≤10公里(中)和10公里D(长途),DOD-Euclidean距离表示。

这样的行程长度澄清的阈值,18对热点ODs的欧几里得距离分布如图6

的热点OD Xiaozhai (Cluster18,拾音器集群)陕西省人民医院和西安医学院(Cluster11下降集群)被选为研究对象的短途出租车商用路线。的热点OD Lagerstroemia花园,四季花园(Cluster16,拾音器集群)Xiaozhai (Cluster10下降集群)被选为研究对象的中等距离的出租车,商用的路线。热点OD从西安火车站贝(Cluster2,拾音器集群)西安火车站(Cluster2下降集群)被选为研究对象的长途出租车商用路线。这三个OD对图中所示7

3.2。路径选择概率分布分析

8说明了实际的路径选择概率分布对不同商用路线类别如图7。公式计算的波动值路径选择概率是: 在哪里 代表司机的概率选择路线k出租车从r年代

它可以观察到,路径选择概率的波动可以概括为:0.2010(短距离)< 0.239(长途)< 0.305(中等距离)。以下可以找到:(1)短途商用路线最小的波动。最可能的解释是,由于有限的规模网络短途热点OD对间,司机没有足够的选择迂回路线相似和效用值的差异。(2)中等距离的商用路线有最高的波动。网络的规模中等距离的热点OD对间温和,当司机有更多的选项来迂回在可接受的旅行时间。(3)的波动长途商用路线高于短途航线,但低于中等距离的路线。这可能是因为长途热点OD对间网络的规模大,司机有足够的选择迂回。然而,司机的可接受的间接性或延迟小长途商用路线。

3.3。解释变量

在这项研究中,路径选择行为模型解释变量选择从三个方面:路径因素、道路因素,和PS修正项。我们定义对应于模型中的解释变量的系数如表所示4在下面。

在表4,旅游时间(TT)等于出发地和目的地之间的差异GPS时间戳一个商用的旅行,K表示路径的长度,D代表了OD-Euclidean距离,Np十字路口的数量,K代表主要道路的长度,K年代代表中等的长度,Kb代表分支道路的长度,和K有限公司拥挤的道路的长度,根据路段的平均旅行速度从GPS数据。

3.4。路径大小Logit模型

传统的多项logit模型是一个离散选择模型基于随机效用理论,可以用来描述个人的选择行为。该模型简单,容易理解。然而,IID效用假设随机项导致的结果有花絮”特征的模型。两条路径的概率选择只是有关它们的效用,而不是其他路线。然而,根据图6,我们知道有许多常见的道路段在不同的出租车商用路线。

路径大小logit模型反映了这个问题通过引入修正项进入效用函数。因此,采用PS-logit模型分析出租车商用路径选择行为。PS-logit方程所示的效用函数(8)。 :旅行者的效用选择路线k从提货点r下降点年代 :固定效用的旅行者选择路线k从提货点r下降点年代 :参数校准。 :path-size路线的价值k从提货点r下降点年代 :道路的路线k :之间的路由设置r(上升点)年代(下车点)。拉尔夫-舒马赫:OD集。 :路的长度一个 :路线的长度k :如果路一个属于路线j, 等于1,否则 等于0。

PSL模型研究构造如下: :出租车商用路线r年代,司机的概率选择路线k :解释变量系数 :出租车商用路线r年代,当司机选择路线k解释变量的值:解释变量的数量。

4所示。结果与讨论

4.1。模型校准结果

的帮助下Biogeme软件包,MNL模型和PS-Logit模型的参数与不同类型的商用路线被校准,分别。此外,我们总一起路线作为对照组。结果如表所示5

根据表5为不同的路线类型,说明参数的t统计量的两个模型在统计学上有效。PS修正项的系数是积极的,这是符合PS-logit模型的基本原理。此外,调整似然比PS-Logit模型优于MNL模型,这意味着PS-Logit描述司机的商用路径选择行为模型比传统的MNL模型更准确。最后,调整的可能性对照组明显低于其他三组,这表明,商用路线除以距离可以优化模型。根据表5可以得出以下结论:(1)包括系数与积极的价值观 , , 系数的负值 , , , , , , 这表明当司机选择路线,他们倾向于选择道路与高比例的主要道路,降低迂曲,缩短旅行时间,和更少的交通堵塞,无论旅行距离的长度。(2)随着旅行距离的增加,的绝对值 , , , , , 明显增加。这表明,随着旅行距离增加,间接性的影响,道路结构和交通拥堵的比例的选择司机也将增加。

4.2。路径选择的偏好分析

消费者满意度的水平不变,边际替代率(夫人)指的是场景,当消费者增加一个单位的一个产品,需要放弃特定数量的另一种产品。许多现有的研究使用夫人选择模型的校准结果的分析(38,39]。本文的效用商用路线保持不变,夫人被定义为基本变量,当其他解释变量的变化增加了一个单位。它可以计算如下:

在这项研究中,PS-Logit模型有更好的调整似然比被选为分析对象。旅行时间被选为基本变量,夫人之间的旅行时间和其他解释变量如表所示6

根据表6可以得出以下结论:(1)夫人之间的关系的解释变量被发现 > > > > > > > > > 如果目标是减少旅行时间,首先,也是最重要的因素被认为是应该比例的岔路,path-size价值,迂曲,拥堵的比例。次要因素被认为是应该左转,右转,每分钟的节点数量,主要道路和二级公路的比例。(2)随着商用路线的距离增加,间接性和比例的夫人分支道路和交通拥堵也增加。相反,十字路口的夫人的频率降低了。当商用路线的距离很长,司机通常避免迂回和比例高的路线拥堵和优先选择的路线与高比例的高速公路或高速公路段。(3)保持效用的商用路线不变,如果左转的数量增加了,对于短途,中等,和长途商用路线,所需要的旅行时间减少1.02,0.98,和1.05分钟。如果右转的数量增加了,对于短途,中等,和长途商用路线,所需要的旅行时间减少0.41,0.37,和0.38分钟。时间成本的左转约2.6倍,右转。

4.3。路径选择模型的验证

路径选择模型的验证主要是通过比较试验路径选择模型的计算结果与实际路径选择的结果,并最终模型的命中率来评估模型的有效性。命中率的计算步骤如下:步骤1:假设样本的总数N,选择的总数,有K模型的参数在最后的标定结果,参数校准值 和相应的参数值 带进校准模型获取选择概率呢 相应的程序。步骤2:假设旅行者n最大的概率选择路线,然后 ,否则 步骤3:当实际选择的结果 旅行者的校正模型的预测结果是一致的,集 ,否则 然后,命中率可以计算如下:

在这篇文章中,三种不同类型的OD,如表所示2,被选来验证模型:热点OD从通化人站(CCluster3,拾音器集群)西安火车站(Cluster2下降集群)被选为验证对象的短途出租车商用路线;从汉成热点OD路站(CCluster,拾音器集群)Zhangbabei站(Cluster1下降集群)被选为中等距离的出租车商用路线的验证对象;从西安火车站和热点OD (Cluster2拾音器集群)去西安火车站贝(CCluster2下降集群)被选为验证对象的长途出租车商用路线。删除异常数据后,这三个ODs有445,189年和289年有效的旅行和7,4和10个有效的路线,分别。这三个ODs之间的路线在图所示9

根据构建的路径选择模型部分4.1每个热点OD路径选择结果的计算并与实际的选择情况。结果如表所示7- - - - - -9

的表7- - - - - -9表明,短途的命中率,中等,和长途商用路径选择模型是0.81421,0.76720,和0.87889,分别说明这三种类型的路径选择模型构造方法是很有效的,可以合理地解释商用路径选择的行为。额外的OD对的分析需要大量的手工工作。

5。结论和未来的工作

这个手稿,第一次集中在路径选择行为的分析的基础上,大量的实际占领出租车GPS轨迹数据收集。我们的分析的基础上,从西安轨迹数据,中国,发现对于不同长度的旅行,路线选择行为的特点可能是非常不同的。因此,根据欧氏距离的分布和体积,五分类方案路线出租车商用路线提出了基于迂回K——聚类方法。Akaike信息准则(AIC)原则采用识别分类方案的最佳途径。之后,出租车商用路线被分成三类:短距离,中等距离,和长途。MNL模型的基础上,提出了三种PS-Logit模型分析路径选择行为。数值分析验证了我们的假设和异构透露活动模式和影响因素与不同长度旅行。

根据这项研究,可以得出以下结论:(1)出租车商用路线可以基于欧氏距离的分布和分类K——集群的间接性;(2)对于不同的出租车商用路线,路径选择概率的波动可以概括如下:短距离<长途<中等距离;(3)对不同的出租车商用路线,首先也是最重要的因素被认为是歧路的比例,path-size价值,迂曲,拥堵的比例。次要因素被认为是左转,右转,每分钟的节点数量,和主要道路的比例和二级公路;(4)随着旅行距离的增加,司机通常避免路线迂回和交叉口密度高但宁愿选择高比例的高速公路或高速公路的路线;(5)间接性的影响,频率的十字路口,道路结构和交通拥堵程度上显著效用函数是不同的在不同的出租车商用路线类别。

最后,我们选择了另一个OD对每个类别进行验证的目的,并分析显示一致的结论。未来的研究可以集中在使用从其他城市来验证模型的数据集。作品需要改进如下:一方面,本文模型中的变量视为是容易被定义,虽然一些其他因素很难被定义或计算没有考虑如旅行目的,偏好,网络熟悉,天气和环境的影响。另一方面,在这个手稿,只有欧氏距离、旅游容量,和迂回被认为是在出租车上商用路线分类。如果有更多的数据类型,可能会考虑更多因素如热点OD之间的网络结构。如何识别并选择足够的因素来提高分类结果可能需要进一步讨论的路线。

数据可用性

GPS轨迹数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是国家重点支持的研究和发展计划(批准号2018 yfb1600900),陕西省科技项目(批准号2020 jm - 244),和陕西省交通运输部门的科技项目(批准号19-24X)。