机器学习数量管理方法Dockless长期可持续发展的公共自行车:在中国的深圳

文摘

由于自行车的数量对dockless PBS的可持续发展至关重要,本研究进行数量管理引入机器学习方法在深圳使用OFO自行车操作数据。首先,两种聚类算法被用来识别自行车聚集区域,和可用的自行车数量和可用的自行车数变异系数分析了每个自行车聚集区域的类型。第二,五分类算法的精度进行比较区分类型的自行车聚集地区使用25个影响因子。最后,应用程序获得的知识从现有dockless自行车运行数据来指导公共自行车的数量规划和管理探索。我们发现以下。(1)有492 OFO自行车聚集区域,可以分为四种类型:效率高,正常的低效率,高效,和正常有效。效率高和正常低效地区聚集约110000辆自行车使用率较低。(2)更多类型的自行车聚集区域将影响分类算法的准确性。随机森林分类的最佳性能确定自行车聚集区域类型五分类算法的精度超过75%。(3)25特征有明显差异的影响因素在四种类型的自行车聚集地区。 It is feasible to use these factors to predict area type to optimize the number of available bicycles, reduce operating costs, and improve utilization efficiency. This work helps operators and government understand the characteristics of dockless PBS and contributes to promoting long-term sustainable development of the system through a machine learning approach.

1。介绍

公共自行车系统(PBS)也被称为一个自行车共享系统(BSS),于1965年出生在欧洲,已经发展了三代(1]。PBS是经济、环保、健康、更加公平,生产超低碳排放,并迅速出现在世界各地的许多城市2]。PBS的自2016年以来,一个相对较新的模型,称为自由流通股自行车共享系统,日益得到了它的受欢迎程度。鲜果串基于的移动应用和GPS消除了车站和码头(也称为dockless自行车)。旅客可以轻松取放自行车的地方使用手机。这个系统相当如今传遍企业OFO和Mobike自2016年初以来在中国。Dockless PBS带来了新的体验和便利以及一些问题,和一个重要的问题是考虑可用自行车的数量。它有两个方面:(1)假设周围的道路适合骑自行车当大量dockless自行车都集中在一个区域,使用成本低,我们可以认为这是提供“足够的”自行车供应,这可以帮助我们充分了解自行车的需求在这一领域;(2)事实上,如果可用自行车的数量太大,会引起一系列的浪费。许多问题都与共享自行车的数量尤其是dockless PBS是需要考虑的一个重要问题。但在现有的研究很少涉及。 The number of available bicycles is the core indicator. Excessive bicycles can affect the cost and efficiency of operation, which is not conducive to the long-term sustainability of the system. The government and scholars have paid more and more attention to the question of how to rationally develop dockless PBS in the city.

计算智能,如人工神经网络、模糊系统、进化计算,取得了显著的成果在建模、学习、搜索和优化问题为智能城市应用程序(3,4]。机器学习的特点使其吸引力分析智能城市数据和复杂的性质(5),如模式(流、时间序列、图像、视频和文本),大量(由数以百万计的传感装置连续数据生成),时空依赖,等等。智能城市的研究人员应用机器学习在许多领域,如城市人类活动(6),公共空间利用率(7,公共汽车充电站位置(8]。由于自行车的数量对dockless PBS的可持续发展至关重要,本研究实践引入机器学习质量管理方法。讨论了四个问题从现有自行车共享操作数据。(1)如何确定的收集区域dockless共享自行车?(2)如何测量数量的自行车和自行车聚集地区的活动特点?(3)分类算法在预测之间的区别是什么类型的自行车聚集区域吗?(4)如何使用活动模式来指导dockless PBS合理开发的城市吗?在这项研究中,首先,两种聚类算法被用来识别自行车聚集区域,和可用的自行车数量和可用的自行车数变异系数分析了每个自行车聚集区域的类型。第二,五分类算法的精度进行比较区分类型的自行车聚集地区使用的影响因素。最后,应用程序获得的知识从现有dockless自行车运行数据来指导公共自行车的数量规划和管理探索。

本文的其余部分组织如下。部分2提供了一个公共自行车系统的角度研究文献综述。第三节介绍了所使用的指标和方法。第四节简要介绍自行车操作数据和影响变量。在第五节,我们将讨论自行车聚集区域类型的识别、预测和应用程序。最后,第六节总结了这项研究的结果,并提供了在未来的研究方向。

2。以前的工作

PBS涉及许多领域的研究,它是广泛的基于两个方面:用户角度和系统的角度(9]。在这项研究中,我们只关注系统的角度根据目标。

2.1。自行车共享平衡

PBS,缺乏资源的主要问题:用户可以到达车站没有自行车可用或想返回她的自行车是在一个车站没有空位置。根据实际使用情况,几项研究集中处理公共自行车使用智能算法平衡问题。弗里克和恐吓10)提出了一种随机模型的均匀pbs的影响研究用户的随机选择的数量有问题。他们还计算速度的自行车由卡车必须重新分配,以确保一个给定的服务质量。你等。11]提供了一个集成模型解决问题的舰队规模,empty-resource重新定位,车辆路径的自行车在多个车站换车系统。O’mahony和Shmoys [12在高峰时间)解决的问题再平衡PBS。卡车路线优化问题的目标是计划在夜班PBS尽可能平衡进行了研究,开发和创新方法优化调整资源。陈等人。13)公共自行车系统布局规划的一个地铁站的吸引范围之内。位置不同的PBS服务站和最优路线选择的实现再分配策略被认为是。Lozano et al。14)提出了一个可替换主体模型,提供了可视化和PBS的预测工具。

2.2。自行车的需求评估

这些研究的影响研究PBS基础设施、交通网络基础设施、土地利用和城市形式,PBS使用气象数据和时间特征。Faghih-Imani et al。15]警所一级的入住率收集数据,然后转换站入住率快照数据到警所一级客户的到来和离开。他们开发了一种混合线性模型估计的影响自行车基础设施、社会人口特征和土地利用特征对客户的到来和离开。工作的Krykewycz et al。16),不同的人口、土地利用、基础设施因素理解有利于自行车分享使用定义主要市场区域进行了空间分析。El-Assi et al。17]研究天气的影响,社会经济和人口因素,土地使用和建筑环境在自行车分享客流量。在三个不同的层面上进行回归分析。汉普郡和马拉18]采用面板回归模型来解释影响因素的自行车共享访问生成和吸引力的未被注意的空间和时间变量。使用的数据包括PBS的使用数据在巴萨和塞维利亚,九普查人口数据,的兴趣点的位置(POIs)。Zhang et al。19]采用多元线性回归模型对建筑环境的影响变量对旅行需求以及需求比供应自行车站在中国。Faghih-Imani et al。15]调查影响因素自行车分享使用实时的客流量数据需求在车站的水平。结果表明,车站靠近主要道路较低之旅活动相比,电台,坐落在小道路和自行车专用道。大量的土地使用和建筑环境变量,时间特征和气象变量如温度。毛雷尔[20.)使用成对适用性分析理解变量的影响,如工作密度、家庭收入、和替代公共自行车通勤者分享客流量提出自行车的位置站在萨克拉门托,加利福尼亚州。Gebhart和诺兰德(21)实时的客流量数据用于例如在首都华盛顿特区研究天气的影响变量和邻近的自行车分享站地铁站客流量的水平。巴克和比勒22)调查的影响自行车基础设施、人口密度、土地使用混合站左右,和家庭的数量没有汽车使用自行车分享系统使用从资本例如客流量数据。王等人。23评估社会人口的影响,土地使用、建筑环境、交通基础设施的变量在自行车分享客流量。Rixey [24]探索社会人口特征的影响,如教育、收入、就业和人口密度按月客流量数据来自美国的三个州。

2.3。自行车的使用空间和时间模式

这些研究探索自行车使用的空间和时间模式在一天中不同的时间,使用数据挖掘和可视化技术。集群通常用于识别移动模式在BSS使用分区车站到不同的集群有一个类似的用法。黄和程25]提出的见解通过分析公共自行车不平衡分布的时空活动模式的自行车。聚类算法被用来分析站活动模式在地理上分布的根据他们的使用模式。他们还了解这些活动模式与潜在的文化和中国台北的城市空间特征。时间和时空模式在自行车站巴塞罗那的自行车共享系统被Froehlich探讨et al。26]。众多研究也使用层次聚类方法来生成集群和地理分布调查使用模式在城市理解城市的不均匀性的影响在站的长期活动27- - - - - -29日]。Brien et al。30.)提出了一个自行车股票分类基于地理足迹和周日,一周中的第几天,入住率和空间变化。艾蒂安和Latifa31日)提出了一个自动算法基于一种新的统计模型自动集群PBS电视台根据他们使用概要文件。周(32在芝加哥)调查了时空的自行车模式通过分析大规模BSS来自2013年和2014年7月至12月的数据。自行车流相似图是由一个快速贪婪算法来检测空间社区自行车流动。

学者已经取得了丰富的成果在自行车系统的测量指标和影响因素骑车。研究主要包括回归模型的方法。获得的知识大部分来自于码头PBS除了一些研究[33- - - - - -35]。

3所示。方法

3.1。Dockless PBS的指标

有许多指标来衡量PBS,包括自行车使用的数量,到达率和离职率。这项研究集中在可用自行车的数量及其变化,所以两个指标。

3.1.1。平均可用自行车数量

与码头PBS、最大可用自行车数量是固定的,由码头的站的数量。dockless PBS的最大可用自行车停车不受限制。它与最初的自行车数量部署的系统的状态和变化的自行车流动。我们提出了平均可用自行车探索dockless PBS。它代表了自行车在自行车服务区域的数量。这个指标是用来衡量自行车资源。每小时可用自行车的数量( )可以通过方程计算(1)。在哪里我代表了我个小时在一天;d代表了d一个星期的th工作日;可用的自行车数量吗我个小时的d15天;小时可用自行车的平均数量我在工作一天;和在方程(2)是自行车的平均可用车辆服务区域。

3.1.2。可用自行车数变异系数

变异系数是用来比较的分散度两组数据,可以消除测量尺度和尺寸的影响。在这项研究中,变异系数是用来比较的变化可用自行车在一天24小时的自行车服务领域。计算公式如下方程: 在哪里可用自行车数量的标准偏差在24小时服务区域。很明显,简历影响的两个数据可用自行车数量的平均值和标准偏差。这个指标是用来衡量变化自行车使用平均可用自行车数量。

3.2。聚类和分类的机器学习方法

3.2.1之上。聚类算法

聚类是一种无监督学习算法的分类和组织成员的数据集是相似的(36]。

(1)k - means聚类算法。给定一组数据,将数据划分为k - means算法k集群不断地根据一个距离函数。该算法作用于一组维的向量, ,在哪里表示数据点。该算法通过选择初始化点作为初始集群代表或“重心。“选择这些初始种子的技术包括从数据集随机抽样,设置他们的解决方案集群数据的一个子集,或扰乱全球平均的数据次了。然后,该算法迭代之间的两个步骤,直到收敛。的价值 ,我们可以选择合理的猜测或预定义的数字,但它是更好的知道集群是更好还是更坏或集群。的方法与他的广场(WSS)常被用来获得合理价值。WSS之间距离的平方的总和所有点及其最近的质心点。计算公式(4)所示。代表点 ,和表示最近的重心指向 ;如果所有的数据点相对接近各自的中心,然后WSS相对较小。如果集群不显著降低WSS的价值集群,那么分类是没有意义的。

(2)意味着改变聚类算法。意味着转移集群是一个通用的非参数聚类发现过程引入的巨大和Hostetler37),它不依赖于任何明确的假设点分布的形状,集群的数量,或任何形式的随机初始化。意味着转变将聚类问题,假设所有点代表一些潜在的概率密度函数,样本与样本密度高的区域对应的局部极大值分布。找到这些局部极大值,算法通过允许点互相吸引,通过可能被视为一个短程的“引力”的力量。允许分喜欢的领域更高的密度,可以表明他们最终将合并的一系列点,接近的局部极大值分布。这些数据点收敛于相同的局部极大值被认为是同一集群的成员。数学细节,看到Comaniciu和米尔(38]。在接下来的部分中,我们说明了应用程序的几个问题的算法使用python包SkLearn包含意味着转变的实现。

3.2.2。分类算法

分类是一种监督学习算法训练分类器的一组样本已经知道的类标签,以便它可以一个未知样本进行分类。在机器学习领域,有成百上千的分类器来解决现实世界的分类问题(39],在这个研究中,五个常用的分类算法选择:随机森林分类器,再分类器、逻辑回归、支持向量机、人工神经网络。在这项研究中使用的五种算法是基于Python平台Scikit-learn包免费https://scikit-learn.org。每个算法的参数调整来保证算法的最优性能。在分析共享的自行车,这五种分类算法的准确性和鲁棒性进行比较。

(1)随机森林分类器。随机森林分类器(RFC)是应用最广泛的监督机器学习算法。它是非常强大的,通常给好的结果而不需要反复调整参数。随机森林是决策树的基本单位。随机森林是一个包含多个决策树分类器,其输出的类别是由个人的类别树的模式输出(40]。对于一个输入示例,N树木将会N分类结果。随机森林整合了所有分类投票结果和指定类别的票数最高的作为输出。它有几个优点:它可以处理成千上万的输入变量没有变量删除并给出估计的变量是重要的分类。

(2)再分类器。再(资讯)是一种测量方法不同分类的特征值之间的距离。给定一个训练集D和测试对象z,测试对象是向量组成的属性值和未知类别标签。该算法需要计算之间的距离(或相似)z和每个培训对象。通过这种方式,可以确定最近的邻居列表。然后,分配的类别主要的实例数量在最近邻z。很容易理解的优点是,可以获得良好的性能,没有过度调整。缺点是预测的速度较慢,并且许多特色数据集不能被处理。它很容易受到数据不平衡。和输出的解释能力不强。

(3)逻辑回归。逻辑回归(LR)本质上是一种线性分类器,指建立在分类边界行回归公式基于现有的数据进行分类。这种方法的计算成本不高,而且很容易理解和实现。拟合参数上可以清楚地看到每个特性的影响结果。和大部分时间用于培训,培训完成后和分类速度快,但很容易underfit和分类精度不高。主要原因是LR是线性拟合,但在现实中,很多事情不满足线性。

(4)支持向量机。支持向量机(SVM)将数据映射到多维空间的点,从而将非线性可分问题转换为原始样本空间到特征空间的线性可分问题,这样可以找到的最优超平面分类。然后,根据超平面分类设置。支持向量机可以很好地预测数据在训练集和泛化误差率低,低的计算开销,和容易理解的结果,但它太敏感参数和核函数参数调整。

(5)人工神经网络。人工神经网络(ANN)是一个信息处理系统基于模仿大脑的结构和功能的神经网络。ANN算法是一组连续的输入/输出单元,其中每个连接与体重有关。在学习阶段,通过调整神经网络的权值,可以学到正确的类标签的样本可以预测。ANN算法分类精度高的优势和强大的分布式并行处理能力。人工神经网络具有很强的鲁棒性和容错数据集包含大量噪声数据,但无法观察到的学习过程,并输出结果很难解释,这将影响结果的可靠性和可接受性。它也需要大量的参数,如网络拓扑结构、权重的初始值和阈值。

4所示。研究区域

4.1。在深圳OFO Dockless PBS

本文关注中国城市化最快的城市深圳,为实证分析奠定基础的使用强度OFO dockless自行车分享系统。它提供了一个独特的案例研究,因为它是最大的自行车分享项目位于大都市。OFO自行车共享系统于2016年12月在深圳有超过2200 00自行车。我们扫描这些自行车每15分钟的工作状态在2017年9月的一个星期。大约有5760万自行车一天状态记录。自行车ID,我们首先判断是否使用自行车比较位置是否有变化。如果改变了,我们保存的时间和位置的自行车。然后,根据平均旅行速度和行进距离的自行车,自行车使用异常记录将被拒绝。图1演示了在深圳自行车服务区。

图2显示了行程的总结分享自行车在工作日的24小时。有两种截然不同的山峰在共享自行车在工作中使用。早晨高峰08:00-09:00之间,晚上高峰18:00-21:00之间。它是合理的假设自行车用于上下班。在早上高峰,这次旅行的自行车数量超过50000。晚上的旅行高峰略低于早高峰,但仍超过40000人。01:00-06:00期间,自行车使用稳定,最低约为每小时5000次。中午12点至下午自行车使用大约是20000每小时。自行车使用的数量从40000下降到10000每小时在晚上期间从22:00放送。

4.2。自行车使用的影响因素

在先前的研究,公共自行车的使用影响因素分为四类:交通、土地利用/构建环境,人口,气象数据。天气变量没有被认为是在我们的研究中。总共25因素选择包括6类变量:人口、兴趣点(POI)、道路网、公共交通、距离,和建筑功能。表中列出的具体因素1。


因素类型	因素	单位	计算

人口	人口	数量	计算居民在服务区域的数量

芋泥	餐厅	数量	计算POIs的数量相应类别的服务区域
	公司	数量
	小商店	数量
	停车场	数量

道路网	主要道路的长度	米	计算相应的道路总长度的水平在服务区域
	二级公路的长度	米
	支线长度	米

公共交通	公共汽车站	数量	计算公共汽车站在服务区域的数量
公共交通	距离地铁	米	计算服务区域的中心距离最近的地铁站

距离	距离大学	米	计算服务区域的中心距离最近的相应位置
	距离政府	米
	距离超市	米
	距离中心	米
	距离的平方	米
	距离公园	米
	距离去学校	米
	距离医院	米

建筑功能	办公大楼	米²	计算相应的建筑的总楼面面积在服务区域
	工业建筑	米²
	公共建筑	米²
	商业建筑	米²
	居住建筑	米²
	都市村庄建筑	米²
	仓库	米²
	建筑数量	数量
	覆盖比率	%	所有建筑物的投影面积之比服务区域的面积

5。结果与讨论

5.1。自行车聚集区域的识别

我们使用均值漂移聚类方法确定的聚类区域自行车自行车在上午9点的位置。在带宽的选择中,我们考虑了两种带宽:300米和500米,因为该地区被这两个带宽约等于500的网格面积大小500米和1000米1000米。每个类别中包含的最小数量的自行车被设置为100。带宽是300米,总共有492自行车聚集区域。492年自行车收集区域包含共有140000辆自行车,自行车占63.6%。当带宽是500米,共有270收集区域,包括140000辆自行车。考虑到自行车中包含492集群更紧凑,我们最后选择492集群作为分析对象。

图3显示了OFO自行车聚集区域被意味着集群的转变。在图3,每个集群有一个中心点和缓冲区分析提出了获得自行车聚集区域的范围。缓冲区是一种影响范围或服务范围的地理空间目标,指一定宽度的多边形自动建立的点,线,面实体。300米的缓冲区建立了基于ArcGIS所有集群中心的点,从而计算dockless PBS的指标和影响因素的自行车聚集区域。

5.2。五分类算法的性能

后计算可用的自行车数量和可用的自行车数变异系数的自行车集群区域,k - means算法执行对这些地区进行分组。图4显示了WSS曲线,和我们做了WSS值从2集群到19。当k从2增加到8,WSS显著减少。当k> 8,WSS的改进是非常线性集群中心也有类似的特点。越大k意味着更多的自行车集群区域的分类可能会对分类算法的准确性的影响。有必要找到一个最优的k价值平衡集群之间的精确和准确的分类预测。本研究采用一个实验性的策略选择k从3到8,然后使用五分类算法预测精度进行比较。自行车聚集在同一集群区域使用k - means聚类具有相同标签的标志。五分类算法的精度进行比较区分类型的自行车聚集地区使用25个影响因子。实验过程分为两个阶段,包括培训和应用程序。在训练阶段,492年收集区域随机分为两个部分。第一部分包含75%的领域是用于训练数据,和第二部分测试数据用于验证的准确性。图5显示五分类算法的准确性在训练集和测试集k需要不同的值。

在训练集,五个算法的性能差异是显而易见的。对于不同的K值,RFC总是保持准确率最高,高于90%。安也有很高的准确率。3 - 4 K时,准确率在90%以上,当k值是5 - 8,准确率下降80%以上。然而,算法性能的五个算法。当K值为3 - 4,准确率在70%以上,当K值为5 - 8,准确率下降60%以上。随着k价值增加,支持向量机的精度从63%下降到48%。表现最差的算法LR算法。随着k价值增加时,准确率从58%下降到37%。此外,在趋势准确率改变的价值k算法的准确率RFC波动小,和其他算法准确率最高的价值K很小。的价值k增加,准确率下降,当k与安= 8,准确率也增加了。在测试设置中,五个算法的准确性低于训练集,最准确的性能仍然是RFC算法。当k= 4,RFC准确率最高的76.97%,这是唯一的情况下的测试集正确率超过75%。当k= 3,其准确率是73%。安,最高准确率是71%k= 4。训练集的资讯的准确性优于SVM和LR,但其性能在测试集是SVM和LR没多大区别。这三种算法的准确性较低。此外,RFC,安,和LR时精度最高k= 4。

综合比较五个算法的性能在训练集和测试集显示RFC和安有更好的性能预测的自行车集群的类型。安的准确性、支持向量机和LR的训练集是完全不同的,但在测试集的区别并不明显。基本上,当k值是大于4,K价值增加,五分类模型的准确性有下降的趋势。当K= 4,RFC和安有最高的测试精度。我们选择k= 4,这意味着自行车聚合分为4个类型进行进一步分析。

5.3。自行车聚集区域的分析

5.3.1。自行车聚集区域的集群

表2显示集群中心的描述k= 4。表主要列出了四个指标,Abn_DAY的标准和原始值和标准和原始值的变异系数(在k集群,则是使用标准的值)。四个集群中心有明显特点。我们首先把四个集群分成低效和高效组织的价值简历。一个高简历表明可用自行车聚集地区的数量是更合适的,和区域自行车的使用效率。较低的简历表明可用自行车的数量收集面积大,活动自行车的数量不匹配,以及自行车的使用效率低下。我们称之为z_集群简历低于0是一种效率低下与z_集团和集群简历大于0作为一种有效的群体。然后,每组分为两个亚型根据和简历。


集群	一个	B	C	D

描述	高的效率	正常的效率低下	高效	正常有效
z_	1.03	−0.73	−0.52	−0.55
z_	−0.39	−0.59	2.35	0.75
Abn_DAY	416年	185年	213年	209年
简历	0.12	0.09	0.55	0.30
Abn_DAY 简历	51	17	117年	63年
总可用自行车数量	78588年	31574年	9986年	17705年
集群数量	189年	171年	47	85年

(我)集群:z_荷兰_DAY > 1,z_简历< 0:这个集群可以被称为高效模式。荷兰_DAY这组达到416,但车辆的平均每日变化很少,平均只有51。有过多的自行车部署或留在该地区,超过300辆自行车的活动并不是很高。(2)集群B:z_< 0,z_简历< 0:我们称之为正常的低效率模式。它的z_简历< 0集群一样,但是z_荷兰_DAY < 0而表明自行车在集群区域的数量在这一组小于A约有185辆自行车与自行车的平均市盈率为17日常使用,和150多名不是很活跃。(3)集群C:z_< 0,z_简历> 2:这个集群有最高的简历价值在四个集群,表明可用自行车的数量在这一组匹配对自行车的需求,和没有太多的闲置的自行车。自行车在这组的平均数量是213,和日平均变化是117。超过一半的自行车,所以它被称为高效模式。(iv)集群D:z_< 0,z_简历> 0:这个集群类似于C,除了z_简历值低于C类但超过平均水平。在这个群,可用自行车的平均数量几乎是类似于C,但是大约一半的C,其平均简历是A和B组的2 - 3倍自行车的使用效率高于A和B,但低于C,所以它被称为正常有效的模式。

一般来说,高低效模式集群可用自行车的最大平均数量和效率高的集群模式C平均变异系数最大。A和B的区别是可用的平均数量的自行车,和之间的区别B, C, D变异系数。数量的集群,集群和集群B一起约占73%,主要方式是低效的模式。这两个团体聚集共有110000辆自行车,使用效率低。有效模式面积约占27%的所有地区,其中高效模式面积占10%,10000辆自行车,和正常的有效模式占17%,共计17705辆自行车。共有27000辆自行车都聚集在这两个组,在这些领域和自行车使用效率更高。

5.3.2。自行车聚集区域的集群的影响

图6显示四个集群的空间分布。高低效模式是主要分布在深圳的中心区域(福田和罗湖)和宝安和显示空间聚类的特征。正常效率低下的区域分布在城市建筑的外围区域,区域分散和有效模式之间正常的低效率和低效率高的地区。值得注意的是,在福田和罗湖地区地铁网络密度高,主要分布模式效率低下。为了更好地理解影响因素影响类型的自行车服务集群,我们分析的重要性因素确定类型的自行车服务集群基于RFC模型精度最高。

表明重要性RFC模型中的变量是多么重要。所有变量的重要性的总和是1。图7显示25个因素的重要性在RFC模型在升序排序K= 4,平均为0.04(1/25)重要性。人口和建筑物的重要性数量明显高于其他因素是关键因素。最重要的因素是分支道路的长度,公交车站的数量,和公共建筑的面积。这三个变量的重要性不超过0.02低于平均水平。的重要性主要道路长度和餐厅数量排名第三和第四,表明他们是重要的参考变量确定自行车聚集区域类型。居民的重要性,建筑面积,建筑覆盖率,距离大学和小商店比平均水平。距离地铁站仅排名第九的重要性,商业建筑面积大概是一样的和公司的号码。十大变量的重要性的总和占54%。现有研究表明,地铁站周围地区是自行车活动最活跃的地区,但我们的研究发现,从地铁站的距离不是最重要的因素在判断自行车聚集地区的活动类型。人口,建筑,主要道路的长度,和餐厅的四个重要变量来判断活动类型的自行车集群。 In addition, among the 25 influencing factors in Figure7,除了变量具有较高和较低的重要性,大多数的中间变量的重要性更均匀地分布,表明活动类型的自行车集群有更多和更复杂的影响因素。

图8显示了一个比较标准的值的平均值的25个因素。热图的颜色清楚地表明,在25个变量的值有明显的差异之间的四组。我们发现极端值的变量一般出现在组A和c组明显高于其他七个变量的三组人群,建筑,主要道路的长度,数量的餐馆,建筑覆盖率、停车场和公共汽车站。人口数量的建筑和二级公路的长度在C组明显低于其他三组,和学校的距离,工业建筑面积,办公区域,距离公园明显高于其他三个小组。尽管变量组B和D很少有最大或最小值,变量的特点,他们之间有很大的不同。数量和可用的分类是基于平均变异系数,但25个变量的类之间有明显的差异,表明自行车的活动类型与这些因素有关。这些变量的值可以用来判断活动类型的自行车。

5.3.3。指导公共自行车的规划和管理

让我们假设一个场景:提供dockless公共自行车服务在深圳新领域。考虑到影响变量是容易获得的,我们应用RFC预测活动模式的新服务的区域。深圳的建造面积不提供OFO服务分为1459个网格,计算和影响因素。图9显示了活动的RFC模型的预测结果的模式。注意,预测假设现有的自行车OFO保持不变的操作和部署策略。黄色网格集群属于B最多约1025。有146个蓝色网格集群d .剩下的面积是162红色网格和126年绿色网格。大多数预计是正常的低效的类型。表2和服务区域类型可以提供公共自行车质量管理信息。我们可以得到理论上的最小数量的自行车需要根据电网的集群和自行车的总数。可以优化可用自行车的数量根据网格的自行车活动,减少运营成本,提高利用效率。

6。结论

本研究进行数量管理引入机器学习方法在深圳使用OFO自行车操作数据。贡献主要体现在以下三个方面。首先,我们提出一个方法来识别集群区域dockless自行车共享,可以准确地计算出自行车共享系统的影响因子。第二,从先前的研究角度不同,本研究探讨了自行车共享系统的性能和优化的可能性从可用自行车的数量聚集地区及其变化。最后,这项研究显示了机器学习方法的适用性和可操作性解决城市规划和管理的问题,这是鼓舞人心的人利用计算智能城市管理背景。

自行车聚集区域类型的识别、预测和应用程序在这个研究有意义的可持续发展自行车共享。(1)有492 OFO包含超过140000辆自行车自行车聚集地区,占63.6%的自行车在深圳。(2)更多类型的自行车数量收集区域将影响分类算法的准确性。随机森林分类的最佳性能确定自行车聚集区域的准确性超过75%。(3)深圳OFO dockless公共自行车聚集区域可分为四种类型:效率高,正常的低效率,高效,和正常有效。主要区域类型是高效率低下和正常低效使用较低的聚集约110000辆自行车。(4)有明显差异的特点影响因子在四种类型的自行车聚集地区。它是可行的利用这些因素来预测区域类型优化可用自行车的数量,减少运营成本,提高利用效率。所以,从现有的知识dockless自行车操作数据可以用于指导公共自行车计划和管理。潜在的活动模式和最小数量的自行车可以提前获得新的服务领域。操作公司可以根据这些信息做出优化策略。

我们的研究也有一些局限性。首先,由于数据采集的局限性,使用的工作日运营数据只包含一个星期,所以分析的结果可能会有偏见。我们分析的数据不包括非工作的数据。周末公共自行车使用模式可能不同于工作日。其次,模式分析了研究严重依赖操作数据,可能并不适用于其它领域。当自行车操作的策略发生变化或自行车的数量再优化,活动模式将受到影响。经过一段时间的操作,根据本研究的指标和模型,将成立一个新模式的活动。最后,本文着重于可用自行车的数量,和dockless PBS的活动指标需要进一步探索。

数据可用性

自行车数据、人口分布数据和POI数据包括土地使用和建筑环境由本文的作者。他们是免费的。请求访问这些数据应该庆丰周,zhouqingfeng@hit.edu.cn。

的利益冲突

作者宣称没有利益冲突。

确认

财政支持中国国家自然科学基金(批准号41771169)承认。

引用

p . Demaio“自行车:历史、影响提供的模型,和未来,“《公共交通,12卷,不。4,41-56,2009页。视图:出版商的网站|谷歌学术搜索
中国科学院信息和通信技术,中国自行车行业发展报告共享信息和通信技术,中国科学院,北京,中国,2018。
y, b . p . l .刘z Koh, c .袁和b·k·k·Ng”理解人群行为在社会事件通过无源无线传感和数据挖掘,”IEEE物联网,7卷,不。5,4442 - 4454年,2020页。视图:出版商的网站|谷歌学术搜索
c . k . Li袁,s s Kanhere et al .,“跟踪在智能城市人群的实验研究,“IEEE系统杂志,13卷,不。3、2966 - 2977年,2019页。视图:出版商的网站|谷歌学术搜索
问:陈,w . Wang f·吴et al .,”一个调查:一个新兴领域深度学习的智能城市数据,”IEEE新兴主题计算智能,3卷,不。5,392 - 410年,2019页。视图:出版商的网站|谷歌学术搜索
y, b . p . l .刘袁,b . Tuncer e .威廉,“理解人类通过crowdsensed数据流动,城市”IEEE通讯杂志卷,56号11日,52-59,2018页。视图:出版商的网站|谷歌学术搜索
l·p·l·比利,n . Wijerathne b . k . k . Ng et al .,“公共空间利用率监测传感器融合在智能城市”IEEE物联网,5卷,不。2、473 - 481年,2017页。视图:出版商的网站|谷歌学术搜索
c x Wang袁:美国哈桑et al .,“电动汽车充电站布局城市公共巴士系统”IEEE智能交通系统,18卷,不。1,第139 - 128页,2017。视图:谷歌学术搜索
a . Faghih-Imani和n . Eluru”分析bicycle-sharing系统用户目的地选择偏好:芝加哥的分配系统,”交通地理杂志,44卷,53 - 64年,2015页。视图:出版商的网站|谷歌学术搜索
c·弗里克和n .恐吓”激励和再分配的均匀自行车分享系统车站的有限能力,”欧元在运输和物流》杂志上,5卷,不。3、261 - 291年,2016页。视图:出版商的网站|谷歌学术搜索
psi。你,P.-J。李,和研究。谢长廷,“自行车重新定位问题的一种人工智能方法,”工程计算,34卷,不。1,第163 - 145页,2017。视图:出版商的网站|谷歌学术搜索
和e . O’mahony d . b . Shmoys”数据分析和优化(花旗银行)自行车共享”美国29日AAAI会议上人工智能美国奥斯汀,AAAI出版社,TX, 2015年1月。视图:谷歌学术搜索
y y . Chen Li h . Hu j . Zhang d·顾和p .徐”计算智能方法机器人、自动化和控制、”数学问题在工程卷。2015年,ID 620275条,1页,2015。视图:出版商的网站|谷歌学术搜索
Ao Lozano, j·德·巴斯,g . Villarrubia冈萨雷斯,d . Iglesia和j .浅滩”多代理系统需求预测和旅行自行车分享系统的可视化,”应用科学,8卷,不。1,p。67年,2018。视图:出版商的网站|谷歌学术搜索
a . Faghih-Imani n . Eluru a . m . El-Geneidy m . Rabbat和哈克,“土地使用和城市形态如何影响自行车流:证据从bicycle-sharing系统(BIXI)在蒙特利尔,”交通地理杂志41卷,第314 - 306页,2014年。视图:出版商的网站|谷歌学术搜索
g . r . Krykewycz c . m . Puchalsky j .岩石,b . Bonnette和f . Jaskiewicz”定义一个一级市场和需求估计主要bicycle-sharing程序在费城,宾夕法尼亚州,”交通研究记录:《交通研究委员会,卷2143,不。1,p。117年,2010。视图:出版商的网站|谷歌学术搜索
萨拉马哈茂德·w·El-Assi m . k . Nurul Habib,“建筑环境和天气对自行车共享需求的影响:一个车站多伦多商业自行车共享的分析水平,”运输,44卷,不。3、589 - 613年,2017页。视图:出版商的网站|谷歌学术搜索
r·c·汉普郡和l .马拉分析自行车共享用法:解释之旅从观察到的需求生成和吸引力交通研究委员会,华盛顿,美国,2012年。
y, t·托马斯·m·布鲁塞尔和m . van Maarseveen”探索建筑环境的影响因素对公共自行车的使用自行车站:案例研究在中山,中国,“交通地理杂志卷,58 59 - 70年,2017页。视图:出版商的网站|谷歌学术搜索
l·k·毛雷尔可行性研究自行车共享计划在萨克拉门托,加利福尼亚州交通研究委员会,华盛顿,美国,2011年。
k Gebhart r·b·诺兰,“天气条件的影响,例如旅行在华盛顿特区”运输第41卷。。6,1205 - 1225年,2014页。视图:出版商的网站|谷歌学术搜索
d·巴克和r·比勒自行车道和资本的其他因素例如旅行交通研究委员会,华盛顿,美国,2012年。
x l·g·s·王,“自行车出租站活动建模:影响附近的企业和工作行程和从站,“城市规划与发展》杂志上,卷142,不。1,2012。视图:出版商的网站|谷歌学术搜索
r . a . Rixey“警所一级的例如客流量的预测,”交通研究记录:《交通研究委员会,卷2387,不。1,46-55,2013页。视图:出版商的网站|谷歌学术搜索
j·t·黄和c . y .程”,探索台北公共自行车分享系统的活动模式,”交通研究东亚社会杂志》上11卷,第1028 - 1012页,2015年。视图:谷歌学术搜索
j . Froehlich j·诺伊曼和n·奥利弗,”测量的脉冲通过自行车共享项目,”学报》国际研讨会城市、社区和社会网络化传感Systems-UrbanSense 08年的应用2008年11月美国罗利,数控。视图:谷歌学术搜索
p·沃格尔,t .售后,d . c . Mattfeld”了解自行车分享系统使用数据挖掘:探索活动模式,”Procedia——社会和行为科学,20卷,第523 - 514页,2011年。视图:出版商的网站|谷歌学术搜索
n . Lathia s·艾哈迈德,l·卡普拉”测量的影响开放伦敦自行车共享计划,普通用户,”交通研究部分C:新兴技术,22卷,不。5,88 - 102年,2012页。视图:出版商的网站|谷歌学术搜索
p . Borgnat p . Abry p . Flandrin c . Robardet J.-B。Rouquier, e .百合花纹的“共享自行车在城市:信号处理和数据分析的角度来看,“复杂系统的进展,14卷,不。3、415 - 438年,2011页。视图:出版商的网站|谷歌学术搜索
O . O Brien, j .柴郡和m .古怪的“矿业自行车共享数据生成见解可持续交通系统”交通地理杂志34卷,第273 - 262页,2014年。视图:谷歌学术搜索
c .艾蒂安和o . Latifa”系列基于模型的计算集群为自行车分享系统使用矿业:一个案例研究与velib系统巴黎。”ACM智能交易系统和技术,5卷,不。3,2014。视图:出版商的网站|谷歌学术搜索
x l .周“理解时空数据通过分析大量自行车骑自行车的行为模式在芝加哥,”《公共科学图书馆•综合》,10卷,不。10日,2015年。视图:出版商的网站|谷歌学术搜索
l . Caggiani r . Camporeale m . Ottomanelli, w . y . Szeto”动态管理的建模框架的神采自行车分享系统,”交通研究部分C:新兴技术卷,87年,第182 - 159页,2018年。视图:出版商的网站|谷歌学术搜索
赖斯和k . Bogenberger“gps数据分析慕尼黑的自由浮动的自行车共享系统和应用的运营商转移战略,”学报2015年IEEE 18智能交通系统——国际会议(2015年ITSC)2015年9月,IEEE,拉斯帕尔马斯,西班牙,。视图:出版商的网站|谷歌学术搜索
答:朋友、豫章和c . Kwon分析移动模式和自由浮动的自行车分享系统的不平衡交通研究委员会,华盛顿,美国,2017年。视图:出版商的网站
P.-N。施泰因巴赫,m .,诉Kumar,数据挖掘导论美国,皮尔森addison - wesley,波士顿,MA, 2006。
k的巨大和l . Hostetler”的梯度密度函数的估计,在模式识别中的应用,”IEEE信息理论,21卷,不。1,32-40,1975页。视图:出版商的网站|谷歌学术搜索
d . Comaniciu p·米尔,“意味着转变:一个健壮的方法对特征空间分析,“IEEE模式分析与机器智能,24卷,不。5,2002。视图:出版商的网站|谷歌学术搜索
m . Fernandez-Delgado d·阿莫林,“我们需要数以百计的分类器来解决现实世界的分类问题,“机器学习研究杂志》上15卷,第3181 - 3133页,2014年。视图:谷歌学术搜索
l . Breiman l . Breiman, r·a·卡特勒“随机森林机器学习,”临床微生物学杂志,2卷,第228 - 199页,2001年。视图:谷歌学术搜索

《先进的交通工具

机器学习在交通工程中的应用