一个目的地预测网络基于时空数据的自行车

文摘

自行车是一种新的低碳和环保的公共交通模式基于“分享经济”。自2017年以来,中国主要城市的自行车市场蓬勃发展。自行车配备GPS发射器停靠在人行道上,通过智能手机应用程序可以很容易地访问。然而,这种新形式的运输也导致问题,如非法停车、破坏,盗窃,每一种都提供了一个巨大的管理挑战。进一步失衡,用户需求和自行车可用性需要被克服,以确保一个方便、灵活的为客户服务。因此,预测一个骑自行车的目的地可能重视shared-bike运营商。在本文中,我们提出一个创新的深度学习模型来预测最可能的目的地为每个用户。模型,称为目标预测网络基于时空数据(DPNst),由三个步骤组成。首先,数据预处理和一个可能的候选人的目的地是池生成的基于频繁项挖掘。这个候选人设置用于构建DPNst模型:长期短期记忆网络学习用户的行为; a convolutional neural network learns the spatial relationships between the origin and the candidate destinations; and a fully connected neural network learns the external features. In the final step, DPNst dynamically aggregates the output of the three neural networks based on the given data and generates the predictions. In a series of experiments on real-world stationless bike-sharing data, DPNst returned an F1 score of 42.71% and demonstrated better performance overall than the compared baselines.

1。介绍

自行车是一种低碳、环保的运输方法,和自行车是最新的迭代这个流行的和健康的旅游方式。自行车是基于共享经济,这意味着社区租金或股票获得商品或服务通过在线交易。广泛流行的自行车可以归因于几个关键优点:(1)出租和返回一个自行车在路边方便和负担得起的;(2)它可以解决最后一公里问题最常见公交系统;(3)它有助于缓解交通拥堵。事实上,中国的自行车热潮带来了超过200万的新自行车的城市街道1]。事实上,Mobike,世界上最大的自行车运营商,最近上海是世界上最大的自行车城市(2]。

与大多数其他自行车出租计划在世界各地,中国的自行车共享可以拿起或下降;即。,the systems are stationless. Each bike contains a GPS/3G module and an intelligent lock. Bicycles are locked by the rider after use and unlocked by the next rider by scanning a QR code on the frame using a mobile app. The app also records the user’s riding history along with other data (see Figure1)。

(一)一群stationless自行车共享

(b)与应用解锁一辆自行车

(c)路线的历史

自行车是中国发明的,尽管它可能是方便用户,它可以为城市当局感到沮丧。的一个主要担忧是堆积成山的自行车在城市街道的两边。例如,上海领先世界450000年自行车共享,几乎都出现在过去的6个月(1]。除了交通和行人自行车过多会导致交通拥堵问题,他们还症状供过于求的自行车在一个位置,这通常意味着缺乏自行车在另一个。这个问题的主要原因是流动性,即。,单向自行车使用。乘客从一个地方租一辆自行车,骑着它到另一个地方,但很少还在那里开始。运营商可以不一定分配股票及时满足需求,导致整个系统失衡。此外,自行车是相当普遍的损伤,这些自行车需要更换,以满足功能需求。图2说明了其中的一些问题。

(一)多余的自行车

(b)无序的自行车

(c)自行车伤害

针对上述问题,一些学者已经研究了交通流的某些方面和需求预测在自行车分享系统。例如,包等。2)交通轨迹用于解决自行车道规划问题。然而,到目前为止,还没有研究已经检查后端与实时自行车相关管理问题的行为。为了解决这个挑战,本文提出一种神经网络预测骑自行车的目的地。能够预测可能的目的地在公共自行车网络将不仅帮助公司调度和重新分配,也可以引导自行车公园自行车在适当的位置。此外,这样一个系统可以帮助政府监督交通,缓解道路拥堵,和更好地规划城市建设项目。

总结了本文的主要贡献如下:(我)方法生成可能目的地stationless自行车分享系统。是由一组候选人目的地与FP-Growth算法挖掘频繁项。历史用户数据分析来确定最可能的目的地为每一个骑自行车的人叫做项集的基础上,和这些集合是用来训练三个目的地预测网络。这种技术极大地简化了模型的计算复杂度。(2)一个创新的深度学习模型来预测自行车的目的地。模型,称为DPNst,包括三个步骤:(1)数据预处理和候选人的一代;(2)模型建设;(3)预测。构建模型、用户行为源自长期短期记忆(LSTM)网络(3),出发地和目的地之间的空间关系地图学习通过卷积神经网络(CNN) (4),和外部特性从一个完全连接的神经网络(FCNN) [5]。最后的预测是基于动态聚合的这三种神经网络的输出。(3)一系列的实验验证DPNst的表现现实世界的数据从Mobike stationless自行车分享系统。结果显示更好的性能。

本文的其余部分组织如下。部分2建立问题模型的定义和概述。介绍了预处理方法部分3。部分4描述的方法生成基于频繁项集挖掘候选人的目的地。DPNst节中给出5,紧随其后的是实验评价部分6。相关工作总结了部分7,部分8总结了纸。

2。概述

本节首先定义预测目的地公共自行车系统的问题,紧随其后的是模型的框架的概述。符号表中定义1。


符号	描述

	候选人发电设备
	最低FP-Growth算法的支持
	用户行为序列的输入组件由LSTMs训练
	位置地图的输入序列组件由cnn训练
	外部特征序列的输入组件由FCs训练
	用户行为序列的输出组件由LSTMs训练
	位置地图的输出组件由cnn训练
	外部特性的输出组件由FCs训练
	整个网络的输出

2.1。问题定义

给定一个特定的用户 ,时间 ,起源 ,气象信息 ,和其他外部信息 ,一辆自行车的概率将结束其旅程的目的地可以如下。

给定一组的目的地 ,自行车是目的地的预测目标的最大概率在以下设置。

然而,如果包含在所有可能的目的地 ,计算复杂度可能极高,但确保集包含一个适当的选择潜在的目的地是重视这个问题。这个过程叫做候选人的一代。给定一个特定的用户 ,时间 ,起源 ,和一个完整的职位包括起源和目的地,我们需要生成一组可控的候选人可能的目的地如下。

因此,此目的地预测问题已经转化成一个推荐的问题,并找到一个解决方案是一个二元分类问题。如果用户有可能骑到目的地,位置标有1和0。如果用户从未去过一个地方,目的地预测模型是指其他附近的地方。因此,产生的候选人可以被视为一个频繁项挖掘问题的目标识别为一个给定的用户最可能的术语叫做项集。

2.2。模型框架

提出了图模型的框架3。它包括三个主要组件:预处理,候选人一代,和目标预测。

预处理。该组件是设计来处理输入信息,其中包括自行车记录,地图信息、气象信息。该组件有几个功能:(1)解析自行车记录数据和删除任何异常值;(2)匹配的地图位置,识别地图上的起源和目的地,并提取空间信息;和(3)序列化用户的行为,将用户的骑历史转换成一个串行格式。

候选人的一代。这个组件标识的最可能的目的地候选人使用频繁模式挖掘方法部分中概述3。

目的地的预测。这个组件的空间信息,用户行为的系列,和外部特性是用来预测用户的目标候选人的设置,提供了更多的细节部分3。

3所示。预处理

构建模型之前,需要对数据进行预处理,去除尽可能多的错误,异常、冗余数据尽可能使其更容易构建一个健壮的预测模型。然而,这个过程必须保持数据的可靠性和质量而不改变数据分布。因此,这个过程涉及到三个任务准备的数据进一步处理。

自行车记录数据解析。这一步过滤噪声数据的数据集。消除了冗余的记录。例如,如果一个用户有多个记录覆盖相同的一段时间,最可能的路线是保留和其他人被丢弃。不完整的记录被删除,比如那些丢失的用户ID,时间、来源、目的地,等等。记录和出发地和目的地之间的短距离但长期被视为无效,也会被删除。此外,我们还发现一些记录与纬度和经度范围之外的北京,删除,以及一些其他的异常数据发现使用的检测方法6]。

一旦数据清理,数据集从原来的字段格式转换为所需的输入格式培训模型。对于候选生成模型,我们简单地提取订单ID,用户ID、来源和目的地信息。然后,我们可以从这些数据集得到频繁项。然而,目的地预测模型需要特性,比如用户行为序列和位置地图,要求更复杂的提取工艺。这是部分中描述5。

位置的映射。在这一步中,每个位置的纬度和经度绘制到一个相应的地图。在Mobike数据集,每个位置是geohash;因此散列的位置需要解码成纬度和经度。一旦我们完成位置映射到一个矩阵和地图,为这些职位可以提取相关特征,如类型的位置或当地的天气状况。这些特性是重要的构造空间和外部特征向量在接下来的模型。

用户行为序列化。在这个步骤中,用户行为分为一系列根据时间。特定用户在特定时间和特定的起源从二数据转换为相应的行为序列向量作为一个方便的输入为后续的预测模型。这个过程是应用于每个用户和记录。提供了更多的细节部分5。1。

4所示。候选人的一代

下一步是生成一个候选人的目的地。正如前面提到的,我们已经把这目的地预测问题,建议作为二元分类问题,问题和解决方案,积极的样本训练集的地面真理的目的地。然而,一个适当的平衡正负样本是至关重要的。太多的负样本会导致大规模的计算开销。和太多的阳性样本的不平衡会导致积极的和消极的样本和预测可能导致失败。例如,考虑一个城市10000个可能的位置只有一个可能的目的地为特定用户在特定的时间给他们的起点。这将导致1:10,000比率正到负样本。乘以一千订单和样品的数量变成100010000 = 10000000。因此,每一个额外的订单会增加的数据量成倍增长。然而,如果只有一千订单最有可能的目的地包括候选人池中,输入数据集的数量仅为100010 = 10000,大大降低了计算复杂度。

因此,生成一个可管理的候选人池可以被看作是一个频繁项集挖掘的问题,目标是识别最常见的术语叫做项集从用户的历史数据。这是在下一节中详细讨论。

4.1。FP-Growth

识别用户最可能的目的地,我们使用一种方法基于frequent-pattern-trees (FP-trees),即,FP-Growth算法(7]。FP-trees扩展前缀树结构来存储重要信息频繁模式以紧凑的方式,和FP-Growth是一种有效的基于FP-tree矿业成套的频繁模式挖掘算法根据模式片段的增长。

FP-Growth第一压缩输入数据集,创建一个FP-tree实例代表频繁项。然后,压缩数据集分为条件数据集的子集,每一个与一个独特的频繁模式。然后每个条件数据集分别开采。使用此策略,FP-Growth不仅降低了搜索成本,通过递归地寻找短模式和连接成不再频繁模式一旦发现,但也提供了良好的选择性。在这个问题上,挖掘频繁项目从用户历史数据与传统的统计方法,如先验的算法,将计算密集型和,可能不准确。FP-Growth算法,但是,可以用更少的开销,提取频繁项迅速成为一个合适的选择确定最可能的用户目的地候选集。下一节解释了候选人详细生成模型。

4.2。候选人生成模型

作为算法1所示,四个不同的项集开采从用户的历史数据构建的候选人的目的地。每个如下解释。

输入:训练集
输出:候选集
1:初始化时间范围在训练集
2:选择训练集的数据项在时间
3:得到根据用户、起源与台塑至少和目的地
支持
4:得到根据用户和起源与台塑至少支持
5:得到根据用户与台塑至少和目标位置
支持
6:得到根据来源和目的地与台塑至少职位
支持
7:得到最终的候选人
8:返回候选集

User-Origin-Destination,表示 ,反映出用户最常去的目的地考虑原点。

User-Origin,表示 ,代表所有用户最频繁的地点开始他们的旅程不考虑他们的目的地。这个项目集包括因为骑自行车有时旅行路线反过来和原点成为目的地。

User-Destination,表示 ,反映了所有用户的地点通常返回的一辆自行车,即。,过去的目的地,因为用户经常回到相同的目的地。

术语叫做,表示 ,认为所有用户,而不只是一个特定的用户,并反映最常见的目的地对于一个给定的起点。

这四个频繁项集提取,构造如下的候选人目的地。

图4提供了一个概述图的过程,算法的算法1。

5。目的地的预测

设置了候选目标,下一个目标是分类的可能性用户打算前往每个位置。鉴于这是一个二元分类问题,候选人的目的地是标记为1,如果目的地是可能的,否则和0。

5.1。影响因素

首先,我们需要分析的因素影响用户的自行车和起源的模式和目的地。

用户的行为分析。我们使用用户id 2730为例,分析用户的行为目标的影响。如表所示2和3从数据可以看到,它在5月14日,两次出现“wx4gn0q”和“wx4gn2”于5月11日至13日。所以,高频位置历史数据可能的目的地之一。


用户ID	时间	起源	目的地

3093685	2017-05-14 15:23:01	wx4gn29	wx4gn0k
2178747	2017-05-14 15:37:23	wx4gn0m	wx4gn0h
3409017	2017-05-14 17:08:20	wx4gn2h	wx4gn0r
3192545	2017-05-14 10:29:06	wx4gn21	wx4gn22
366384年	2017-05-14 10:35:58	wx4gn21	wx4gn0e
164139年	2017-05-14 14:40:00	wx4gn29	wx4gn2h
1682231	2017-05-14 17:40:01	wx4gn0q	wx4gn2h
3076183	2017-05-14 16:00:50	wx4gn0q	wx4gn0j
1682232	2017-05-14 21:26:15	wx4gn2h	wx4fypy
3850094	2017-05-14 16:26:45	wx4gn0q	wx4gn2h
3900595	2017-05-14 17:19:20	wx4gn0r	wx4gn0y
3093686	2017-05-14 22:00:48	wx4gn25	wx4gn29


用户ID	时间	起源	目的地

3218948	2017-05-12 21:48:31	wx4gn2m	wx4fyrf
1161301	2017-05-12 22:32:51	wx4gn2g	wx4gn2h
3530242	2017-05-12 15:18:11	wx4dzyz	wx4dzzj
2075155	2017-05-12 15:26:31	wx4dzzm	wx4epb8
94241年	2017-05-11 18:57:00	wx4gn0q	wx4gn2h
759273年	2017-05-12 18:18:42	wx4gn0m	wx4fyru
685779年	2017-05-12 21:01:32	wx4gn0q	wx4gn2h
3622192	2017-05-13 19:54:23	wx4gn25	wx4gn0q
1229376	2017-05-13 20:16:54	wx4gn0r	wx4gn0w

空间关系。如表所示4术语叫做,我们计算了高频十大点。它可以发现,这些点之间有很强的相关性和用户经常周期。因此,有必要学习这些规则从一个模型。


起源	目的地	数

wx4f9ky	wx4f9mk	681年
wx4f9mk	wx4f9ky	497年
wx4f9kn	wx4f9mk	437年
wx4f9kn	wx4f9ms	372年
wx4fg87	wx4ferq	356年
wx4f9ky	wx4f9ms	356年
wx4f9wb	wx4f9mu	355年
wx4f9ms	wx4f9kn	345年
wx4eq0c	wx4eq23	323年
wx4f9mk	wx4f9kn	319年

外部因素。有许多外部因素影响交通流量,比如天气,温度,和用户的功能。这些因素被描述在8]。在这里,我们使用结论构建模型直接学习这些特性。

5.2。目的地预测网络

最重要的是,目的地都是起源,影响用户的历史行为,和外部特性。受这些因素,该模型提供了一个详细描述的分类任务和不同的因素被认为是由三个独立的神经网络。

DPNst包括三个主要组件,如图5:用户行为序列模型,一个位置地图,和外部特性。外部特性包括气象信息、骑马时间和地理特征。

用户的历史行为首先分为一系列根据时间,然后输入一个LSTM网络学习时间规则的来源和目的地。接下来,起源和目的地之间的空间关系是提取并放置在一个位置的地图。这张地图转换为2声道类似影像矩阵训练CNN和学习空间关系。最后,输入到FCNN外部特性。这三个组件的输出相结合来产生最终结果。

我们采用parametric-matrix-based融合方法在ST-ResNet [8]。DPNst是保险丝的输出中的每个组件的神经网络参数矩阵,如下所示: 在哪里阿达玛产品(即。,element-wise multiplication) and , ,和可学的参数调整的程度影响的每一个神经网络,LSTM, CNN, FCNN,分别。

softmax交叉组合函数生成的分类预测的概率值。叉的损失函数如下。

显示了DPNst算法的学习过程2。我们首先构建数据集的训练实例。然后,DPNst通过反向传播训练(9)和亚当(10]。

输入:构造 , ,
从候选集
输出:学习目标预测模型
1:初始参数在网络
2:重复
3:输入LSTM和得到的
4:输入CNN和得到
5:输入FCNN和得到的
6:找到最好的损失函数和一个叉
7:直到得到最好的

5.3。用户行为序列的结构组件

鉴于自行车用户反复租自行车在一段时间内,他们的历史数据可以制定作为一个时间序列,即一个行为序列,时间属性。通常,时间序列数据训练与递归神经网络(RNN) [11]。然而,近年来,LSTMs [3)已经成功地用于列车复杂时间序列数据在各种应用程序中,如公路交通预测(12),交通速度预测(13)、旅游预测(14]。RNN与简单的神经元,神经元LSTM包含一个输入,一个输出,一个细胞,一个忘记门决定如何神经元的流入和流出的信息。此外,由于LSTMs特别发达的克服与培训相关的爆炸和梯度消失问题传统RNNs在某些场景中,LSTMs分类,特别适合于处理,用时间序列数据和预测任务包含重要事件之间的时间间隔的一个未知的规模和持续时间。因此,用户行为序列组件DPNst是基于一个LSTM网络。

首先,数据转换成一个用户行为根据时间序列,和user-destination项集的数量计算来生成一个根据时间序列的行为。假设当前时刻t和时间窗口的数量是n,这些序列构造 ,代表骑自行车旅行的总数从原点到目标在每一个时间窗口。如果没有记录旅行在一个窗口中,该值为0。

识别和提取这些模式从历史行为,与许多LSTM层和隐藏的单位是必要的,如图6。的序列输入到第一层LSTM和输出通过一系列隐藏单位下一层。最终的输出是输出的最后隐藏单位过去LSTM层。输出然后送入softmax激活函数来生成最终的预测结果。

隐藏的单位在时间 ,的输出提出了为在哪里表示权重矩阵,表示偏差向量,代表输入门,代表忘记门口,表示输出门;是一个s形的函数。

最终的预测结果在哪里是最后一个隐藏的单位。

5.4。的结构位置映射组件

预测用户行为的最大区别在自行车的情况下和传统时间序列问题,自行车共享数据时空的品质。因此,捕捉空间位置之间的关系是非常重要的。空间位置之间的关系可以被映射为一个二维矩阵,它可以被视为一个图表。因此,一个点和另一个之间的关系可以被看作是不同的地理位置之间的关系。

美国有线电视新闻网(4,15)适合处理图像信息,可以灵活地获取当地关系内部和之间的图像。进一步,cnn一个被证明有效的能力层级结构捕获结构空间信息提取关键特性,可以汇集和卷积操作降低复杂性。因此,cnn构成高度适当的方法提取信息地图上的空间位置之间的关系。

这个组件的第一步是准确地把所有候选人目的地地图上的位置,因此,CNN可以提取每个位置之间的关系。然而,考虑到附近的一个卷积层可以只考虑空间依赖性,有限的内核的大小(8),CNN在DPNst需要包含几个卷积和汇聚层,如图7。

原点和候选人目的地是解析2声道映射。每个职位都标示在2 d图像;原点是标记为1;目的地是标记为0。我们处理所有的数据集到地图和将其转换为一个张量在哪里的数字地图,地图的高度,地图的宽度。一个卷积层,表示为在哪里表示CNN的第一层,是一个激活函数,例如,ReLU,然后呢 , 在第一层可学的参数。然后,输入到池功能如下。

在我们的DPNst,堆栈卷积层和汇聚层。通过多层卷积,网络能找到相应的不同用户的来源和目的地之间的关系。最后,我们添加双层FCNN得到最终结果。

5.5。外部组件的结构

除了固有的历史用户行为和位置的关系,其他因素,如天气和一天中不同的时间,也很重要。即使用户的个人信息可能会影响他们的旅行方式和目的地。因此,DPNst包含一个FCNN解析这些外部特征。认为遵循的特性。

用户功能。每个用户都有一个独特的身份数据集,可作为区分的基础特定的性格特征体现在用户的历史。因此,在一个炎热的编码,表示用户ID和维度代表用户的数量。

时间特性。时间起着直接作用在一个来源和目的地之间的关系,因为自然,用户经常前往同一目的地在一个特定时间的一天或一周。因此,当前时间作为一个特性。我们定义的月,一天,小时,分钟,是工作日,在周末或公共假日(如果今天不是工作日,该值为1,其他0)。

气象特征。天气会影响很多事情,包括流量(16),用户的首选交通工具,他们可能会骑多远。表示温度在白天晚上(°C),表示蒲福风力等级。这些特性都是连续值。表示天气状况。这些值是离散变量,如阳光和雨。这些分类变量使用一个炎热的编码和编码到一个数值向量分配给一个绝对长度向量,所示(11)。这种方法可以提高模型的训练性能。代表了空气质量指数(AQI)。

位置特性。这些特性表示的地理特征位置。代表原点之间的距离和候选目标的半正矢方程,所示(12)。位置的类别,如办公室、学校、住宅和社区服务。这些特性是通过一个炎热的编码定义: 在哪里和是弧度的纬度和经度的两个位置。度被乘以转换成弧度像往常一样。 , ,和是地球的半径,这是约6371公里。

外部构造特征,然后归一化,输入一个多层FCNN学习规律。最终的输出来标示。

6。实验

6.1。数据集

评估DPNst的性能,我们进行了一系列的实验使用数据集从Mobike stationless自行车出租计划在北京Biendata结合气象数据平台(17]。Mobike数据集2017年5月10 - 24的一段时间,包含300万个历史记录的约349000用户和485000辆自行车。信息包括订单ID、用户ID、自行车ID、自行车类型、启动时间、和geohash起源和目的地。气象信息跨越了同一时期,来自中国气象局网站(18]。它包括天气、气温、风的方向,蒲福风力尺度,和其他信息。每个数据集提供了表的统计信息5。


数据集	Mobike北京

时间	2017年5月10日到2017年5月24日
用户数量	349693年
自行车的数量	485465年
数量的记录	3214096年
准备地图大小	(1452,1716)
范围的纬度	40.66 (20.01 n, n)
经度范围	122.13 (102.65 e, e)

数据集	气象学

天气状况	6类型(如阳光、雨)
温度/ (°C)
蒲福风力等级
空气质量指数(AQI)

6.2。预处理

后的数据预处理过程中概述部分3。然后,我们采样的数据,在不同的利率为每个三个神经网络,降低计算复杂度,确保一个适当的平衡是保持积极的和消极的记录。min-max归一化法是用于规模数据正确的范围(1,1)。

6.3。基线

6.3.1。基线的候选人一代

评估候选人代方法的各个方面,我们构造四个基线如下。

User-Destination计数(UD)。我们确定了最高的user-destination项集是候选人的目的地。

User-Origin计数(UO)。我们扫描特定用户和目的地确定最高计数作为候选人目的地和增加UD的物品。

术语叫做计数(OD)。我们使用统计方法来扫描的起源和目的地的所有用户找出最高计数物品作为候选人,并添加UD和UO。

候选人生成模型(CGM)。最频繁项集user-origin-destination测定FP-Growth算法,使用不同的最低参数为每个项目集的支持。我们将四组最小支持来验证模型的影响。

再。基线目标预测

同样,评估目标预测模型的各个方面,我们构造四个进一步基线如下。

历史统计(HC)。训练集包括目的地的一个特定的用户去次数最多的;测试集包括最新的数据。

朴素贝叶斯(NB)。我们使用一个简单朴素贝叶斯模型来预测目标的条件概率,利用最新的数据训练集。

评估每个DPNst的三个组件,我们进一步构建三个基准如下:

DPNst1:瑞银(UBS)。只有LSTM被用来训练用户行为序列。

DPNst2:瑞银(UBS) +点。LSTM用于列车用户行为序列和CNN被用来训练位置地图。

DPNst3-5:瑞银(UBS) +点+ EF。LSTM是用来训练用户行为序列,CNN被用来训练位置地图,和一个多层FCNN用于列车外部特性。

6.4。Hyperparameters

所有使用Python库构建的模型,包括Numpy,大熊猫,scikit-learn, Tensorflow [191.2.1)](GPU版本。的描述hyperparameters CGM和DPNst模型跟随。

Hyperparameters CGM。FP-Growth算法在CGM hyperparameters定义包括三个。最小支持度指标之间的相关性用户频繁,起源,和目标项目。最小支持度仪表的信心在频繁的用户和起源项之间的关系。最小支持度仪表频繁的用户和目标项之间的相关性。和最小支持指标之间的相关性出发地和目的地频繁项。适当的水平的最低支持通过实验调整。支持越小,越回忆越高意味着数量的候选人。所以,我们需要找到的值可以保持平衡。

Hyperparameters DPNst。LSTM包含10个隐藏的单位,具有数量可变的层。在CNN, Conv1包含两个55过滤器,Conv2包含四个1010个过滤器,每个批处理大小为1000。退出率是0.8。随后的全套训练模型训练数据固定数量的时代。然而,值得注意的是,硬件配置明显影响最优参数设置。因此,这些参数需要调整以适应特定平台配置。LSTM层数的增加可以学习更多的用户行为数据和增加FCNN层也可以了解更多的外部特性。但是CNN可能不需要的层次高于3;这将是更多的计算成本。

6.5。评价指标

6.5.1。基线的候选人一代

我们用回忆来评估候选人的一代和目的地的性能预测模型,和候选人的目的地来评估候选生成模型。每个指标的公式: 在哪里是真正的阳性样本,假阴性样本,是候选人的目的地的数量吗样本。

6.5.2。基线目标预测

此外,我们使用F1-scores和准确性对目的地预测模型的性能进行评估。公式: 在哪里是假阳性样本。

6.6。结果

6.6.1。结果,候选人一代

实验结果提供了表6和图8,每个不同的基线所产生的结果是显而易见的。基线完全依赖频繁user-destination itemset最低最低召回平均值为7.76 60.89%。意思是虽小,盖率很低。然而,包括users-origin频繁项集之后,回忆起增加到84.51%的平均值为63.38。此外,包括术语叫做频繁项集之后,回忆进一步上升到86.13%,大幅增加意味着,至68.31。


方法	回忆	的意思是

User-Destination计数(UD)	60.89%	7.76
User-Origin计数(UO)	84.51%	63.38
术语叫做计数(OD)	86.13%	68.31

我们的方法
候选人代Model1 (CGM1)
	91.02%	58.29
候选人代Model2 (CGM2)
	92.81%	97.57
候选人代Model3 (CGM3)
	93.34	66.70
候选人代Model4 (CGM4)
	96.57%	91.58

完整的候选人的结果生成模型表现出更显著的改善。回忆起增加到91.02%,平均下降到58.29,最低的支持 , , , 。最低支持减少,召回和意味着增加。这是因为减少支持放松限制频繁项集和更多的项集可用来满足条件。这个结果也表明选择合适的参数的重要性来平衡计算复杂度的要求和期望的预测模型的准确性。不幸的是,没有标准的选择和需要调整的参数为每个特定的硬件配置。在本文中,我们选择 , , ,和最好的解决方案,因为这些设置了很高的回忆与一个可接受的意思。

6.6.2。目标预测的结果

目的地的预测评估的结果展示在表7和图9再次,清楚地显示每个基线的效果。基线仅依赖的位置数至少导致精度最高,其次为朴素贝叶斯模型。DPNst是最准确的,展示未来最好的方法增加了15.9%的F1。DPNst是最准确的,回忆的35.27%,54.12%的精度,和F1得分42.71%,代表一个F1的增长了15.9%。这些结果提供支持DPNst作为一个表现良好的模型在自行车分享系统。


方法	回忆	精度	F1

历史计数(HC)	28.96%	24.95%	26.81%
朴素贝叶斯(NB)	32.14%	27.69%	29.75%

我们的方法(l表示层)
DPNst1:瑞银(UBS)
(2 l LSTM)	33.12%	27.58%	30.10%
DPNst2:瑞银(UBS) +点
(2 l LSTM + 2 l CNN)	35.46%	30.55%	32.82%
DPNst3:瑞银(UBS) +点+ EF
(2 l LSTM + 2 l CNN + 2 l FCNN)	37.54%	32.34%	34.75%
DPNst4:瑞银(UBS) +点+ EF
(2 l LSTM + 2 l CNN + 5 l FCNN)	31.98%	59.56%	41.62%
DPNst5:瑞银(UBS) +点+ EF
(5 l LSTM + 2 l CNN + 5 l FCNN)	35.27	54.12	42.71

进一步评估模型中,我们分析了其性能在组件和层的水平。每个远离网络是补充说,召回,精密,F1分数增加。然而,五FCNN,回忆起下降到31.98%,但精度提高到59.56%,F1得分增加到41.62%。最佳的性能造成添加五LSTM回忆增加到35.27%,精度下降到54.12%,F1得分增加到42.71%。这证实了每个组件的DPNst有助于提高模型的性能。

近年来,自行车已经收到了越来越多的关注,由于它的重要性作为一个环保的旅游形式,它能够克服“最后一英里”问题与其他形式的公共交通。研究公共自行车跨站和stationless系统,与许多关注公共计划。DeMaio [20.]提供了一个介绍bicycle-sharing系统,包括他们的历史,影响,模型,研究在这一领域可能的未来。艾蒂安et al。21]研究了统计模型的公共自行车旅行基于公共自行车系统在巴黎,法国。米底哥列(22]分析了最先进的和用户的体验与欧洲几站公共自行车系统。这些早期的研究奠定了基本概念和公共自行车分享系统的工作机制。

随着时间的推移,学者们开始研究的一些问题与自行车共享计划。鉴于人的自行车使用往往是相当扭曲和失衡,Pavone et al。23)开发方法最大化吞吐量的按你的要求城市交通系统,引入了一个再平衡政策来减少汽车的数量需要调整旅行。这个进步为解决和负载平衡问题提供了重要的灵感在公共自行车分享系统。

研究用户行为模式在自行车分享系统帮助我们了解在公共自行车交通流和移动模式。例如,Jon Froehlich et al。24]介绍了13周的时空分析自行车站使用在巴塞罗那的自行车分享系统。卡尔滕布伦纳et al。25)提供了一个人类迁移数据的分析在城市地区基于C可用自行车Bicing站的数量,一个社区在巴塞罗那自行车项目。沃格尔et al。26]采用聚类分析和验证自行车在维也纳的使用模式。除了见解流动性和公共自行车流,这些研究也造成利用站集群的概念,基于地理位置和过渡模式,来重新分配自行车来补偿不平衡使用。

Contardo et al。27)和Benchimol et al。28)每个提出数学公式来改变车辆和自行车转移。这些公式考虑外部特性,比如车辆容量和失衡的程度。然而,简单地监控当前在每个车站数量的自行车和自行车重新分配后出现失衡构成治疗这个问题,不是治愈。因此,一套新的研究探索的方式来预测潜在的失衡提前出现。

Borgnat et al。29日结合模型和Velov的数据集来预测交通在整个公共自行车系统在每个小时的一天。沃格尔et al。26,30.)使用时间序列分析预测自行车需求在维也纳,而尹et al。31日)使用一种修改ARIMA模型预测可用的自行车和在每个车站码头通过考虑时间和空间因素。这些研究提供了洞察传统市场的影响影响自行车分享系统。郑et al。32]预测交通流量在纽约和华盛顿的签入和签出地区的公共自行车系统从宏观的角度来看,提供一种基于k - means聚类算法和转移矩阵。相反,Zhang et al。33)采用微观的角度来看,使用GBRT和套索回归来预测用户行为和旅行时间在芝加哥的公共bicycle-sharing系统。这些研究关注预测:自行车和码头,乘客数量和流量在签到和付款处,等等。学业是最密切相关的目的地预测问题的探索。

因为stationless自行车是一个相对较新的商业模式,那么在这一领域的研究。杰(2)提出了一种数据驱动的方法来开发自行车道建设计划在上海基于Mobike stationless轨迹数据。这项研究调查了Mobike移动数据的数据,应用数据挖掘技术提供的灵感来源。

此外,现有的一些研究已经进行目标预测。纳塔莉亚和克里斯(34和帕特森et al。35)都使用贝叶斯方法预测目的地为特定个体基于历史模式的交通工具。Tiesyte和詹森36)提出了一种加权轨迹方法使用距离措施来识别的历史轨迹最接近当前部分轨迹。陈等人。37)使用一个树结构来表示的历史运动模式,可以匹配当前部分轨迹下台的树。Zhang et al。38)采用贝叶斯框架模型的分布用户根据他们的旅行目的地的历史使用迪迪出租车数据集。而这些研究集中在传统的方法,如贝叶斯框架或近邻方法,我们的工作包含深度学习为目标构建更智能模型预测。唐et al。39称为PARecommender)提出了一个系统,预测交通状况并提供路线推荐基于生成的交通模式。

深度学习是一个新兴的,但是已经被广泛研究,领域。cnn已经成功地应用于很多不同类型的问题,特别是在计算机视觉领域(15]。此外,作为cnn quasi-substitute,介绍了胶囊网络Sabour et al。40),这是一群神经元活动表示实例化参数向量的一个特定类型的实体,例如一个对象或一个对象的部分。RNNs发现成功测序学习任务(11),而其他类型的新网络出现处理时空数据。通过扩展一个完全连接LSTM (FC-LSTM)将卷积结构input-to-state和国与国之间转换,史等。41)提出了卷积LSTM (ConvLSTM)和用它来建立一个端到端可训练的降水短时预测模型问题。这些网络和体系结构导致了我们的许多思想构建一个目的地预测网络。

最后,从用户大量的流动数据的可用性,汽车和公共交通系统引发了许多城市计算技术解决任务基于现实旅游需求(42]。例如,郑[43出租车轨迹)开采模式推荐新道路建设和公共交通基础设施项目。元等。44)使用交通模式和POI分布推断出一个城市的不同的功能区域。这些研究建立了新的研究方法来处理交通数据和问题。

8。结论

在本文中,我们提出了一个创新的深度学习预测网络基于时空数据模型称为目的地或DPNst短。DPNst预测最可能的目的地的一个骑自行车的自行车分享系统。第一步是预处理的数据并确定最可能的候选人目的地使用频繁项挖掘模式。然后构建DPNst模型是通过一系列的三个神经网络使用这个候选集。LSTM网络(3学习用户行为。美国有线电视新闻网(4,15)学习起源和候选人之间的空间关系的目的地,和一个FCNN [5)学习的外部特性。我们所知,这是第一次主动的方法解决管理问题与自行车分享系统通过预测用户最可能的目的地。做了一系列的实验,对现实世界的数据从Mobike表明DPNst达到令人满意的预测结果,F1得分42.71%,整体比基线方法更好的性能。在未来的研究中,我们希望改善DPNst的性能和模型扩展到目的地预测出租车、私家车等交通目的地预测相关的问题。

数据可用性

Mobike数据用于支持这项研究的结果已经存入Biendata竞争平台(https://biendata.com/competition/mobike/data/)。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持由中国国家自然科学基金(61602141)和浙江省科技项目(2018号c04001)。

引用

https://www.ft.com/content/5efe95f6 - 0 - aeb - 11 - e7 - 97 - d1 - 5 - e720a26771b。
j .保他t, s .阮,y, y郑,“基于sharing-bikes规划自行车道的轨迹”第23届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,知识发现(KDD) 2017加拿大,页1377 - 1386年,2017年8月。视图:谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
y LeCun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2323 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
r . j . Gibbens f·p·凯利,“在完全连接网络动态路由IMA的数学控制和信息》杂志上,7卷,不。1,第111 - 77页,1990。视图:出版商的网站|谷歌学术搜索|MathSciNet
y郑”轨迹数据挖掘:概述”,ACM智能交易系统和技术》第六卷,没有。3、第二十九条,2015年。视图:出版商的网站|谷歌学术搜索
j .汉j .贝聿铭y阴,r·毛”挖掘频繁模式没有候选人一代:频繁模式树的方法,”数据挖掘和知识发现,8卷,不。1,53 - 87年,2004页。视图:出版商的网站|谷歌学术搜索|MathSciNet
j . Zhang y郑,d .气,“时空深处残留网络全市人群流动预测,”学报》31日AAAI会议上人工智能,AAAI 2017,页1655 - 1661,美国2017年2月。视图:谷歌学术搜索
y . a . LeCun (l . Bottou g·b·奥尔,K.-R。穆勒:“高效backprop。”在计算机科学的课堂讲稿卷。1524年,9-50,1998页。视图:出版商的网站|谷歌学术搜索
d . p . Kingma和j .英航“亚当:随机优化方法,”计算机科学,2014年。视图:谷歌学术搜索
m·舒斯特尔和k . k . Paliwal”双向复发性神经网络”,IEEE信号处理,45卷,不。11日,第2681 - 2673页,1997年。视图:出版商的网站|谷歌学术搜索
f . Altche和a . de La Fortelle LSTM公路轨迹预测,网络”学报2017年IEEE 20国际会议上智能交通系统(ITSC)横滨,页353 - 359年,2017年10月。视图:出版商的网站|谷歌学术搜索
z崔,r·柯和y . Wang”双向和单向LSTM全网流量速度递归神经网络预测,”2018年。视图:谷歌学术搜索
李y和h .曹”,旅游流基于LSTM神经网络预测,“Procedia计算机科学卷,129年,第283 - 277页,2018年。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”ACM的通信,60卷,不。6,84 - 90年,2017页。视图:出版商的网站|谷歌学术搜索
f·林、江j . j .风扇,s .王”变化的叠加模型预测的公共自行车交通流,”智能数据分析,22卷,不。4、911 - 933年,2018页。视图:出版商的网站|谷歌学术搜索
https://biendata.com/competition/mobike/data/。
http://www.cma.gov.cn/2011qxfw/2011qsjgx/。
https://www.tensorflow.org/。
p . Demaio“自行车:历史、影响提供的模型,和未来,“《公共交通,12卷,不。4,41-56,2009页。视图:出版商的网站|谷歌学术搜索
e . o . Latifa,“基于模型计算系列自行车分享系统使用挖掘集群:一个案例研究与Velib系统巴黎。”Acm智能交易系统和技术,5卷,不。3、21、2014页。视图:谷歌学术搜索
p .麦”智能自行车分享系统城市流动的作用,“旅行,卷2,不。2、2009。视图:谷歌学术搜索
s l·史密斯,m . Pavone m . Schwager e . Frazzoli d·罗斯,“再平衡rebalancers:最优路由按你的要求系统的车辆和司机,”学报第一美国控制会议,ACC 2013IEEE,页2362 - 2367年,华盛顿特区,2013年6月。视图:谷歌学术搜索
j . Froehlich j·诺伊曼和n·奥利弗,”传感和预测城市的脉冲通过共享骑自行车,”21国际诉讼的接合会议上人工智能出版社,页1420 - 1426年,摩根Kaufmann Inc ., 2009年美国加州帕萨迪纳市(保加利亚)。视图:谷歌学术搜索
卡尔滕布伦纳,r .面向社会,j . Grivolla j . Codina和r . Banchs”城市周期和移动模式:探索和预测趋势在bicycle-based公共交通系统中,“普及和移动计算》第六卷,没有。4、455 - 466年,2010页。视图:出版商的网站|谷歌学术搜索
p·沃格尔,t .售后,d . c . Mattfeld”了解自行车分享系统使用数据挖掘:探索活动模式,”Procedia-Social和行为科学,20卷,不。6,514 - 523年,2011页。视图:谷歌学术搜索
c . Contardo c·莫伦西,l .卢梭公共自行车系统动态平衡CIRRELT卷。4日,蒙特利尔,加拿大,2012。
m . Benchimol”平衡自我服务的站点的自行车租赁系统,”RAIRO-Operations研究,45卷,不。1,37 - 61年,2011页。视图:出版商的网站|谷歌学术搜索|MathSciNet
p . Borgnat p . Abry p . Flandrin c . Robardet J.-B。Rouquier, e .百合花纹的“共享自行车在城市:信号处理和数据分析的角度来看,“复杂系统(ACS)的进步,14卷,不。3、415 - 438年,2011页。视图:出版商的网站|谷歌学术搜索
p·沃格尔和d . c . Mattfeld”战略和业务规划自行车分享系统的数据挖掘,一个案例研究”程序计算物流国际会议卷,6971年,页127 - 141,海德堡激飞柏林,德国汉堡。视图:出版商的网站|谷歌学术搜索
j·w·尹、f . Pinelli和花茎甘蓝,“Cityride:预测自行车分享旅行顾问”学报》第13次国际会议上移动数据管理、MDM 2012IEEE,页306 - 311年,卡纳塔克邦,印度,2012年7月。视图:出版商的网站|谷歌学术搜索
郑y, y, h·张,l .陈“交通预测自行车分享系统,”第23届SIGSPATIAL学报》国际会议上先进的地理信息系统美国,ACM,西雅图,佤邦,2015年。视图:出版商的网站|谷歌学术搜索
j .张x锅、m·李和p . s . Yu“Bicycle-Sharing系统分析和预测,”学报2016年17 IEEE国际会议在移动数据管理(MDM)IEEE,页174 - 179年,波尔图,葡萄牙,2016年6月。视图:出版商的网站|谷歌学术搜索
n Marmasse和c . Schmandt”以用户为中心的选址模型”,个人和无处不在的计算》第六卷,没有。5 - 6,318 - 321年,2002页。视图:出版商的网站|谷歌学术搜索
d·j·帕特森l .廖d·福克斯和h . Kautz“推断高级行为从低级传感器”第五届国际会议上无处不在的计算的程序施普林格,页73 - 89年,西雅图,佤邦,美国,2003。视图:出版商的网站|谷歌学术搜索
d Tiesyte和c . s .詹森”,相似性预测车辆旅行时间旅行的路线,”第16届ACM SIGSPATIAL学报》国际会议上地理信息系统的发展,ACM GIS 2008ACM,页105 - 114年,欧文,CA,美国,2008年11月。视图:谷歌学术搜索
l, m . Lv, g·陈,“系统目标和未来的路线预测基于轨迹挖掘,”普及和移动计算》第六卷,没有。6,657 - 676年,2010页。视图:出版商的网站|谷歌学术搜索
l . Zhang t . Hu y . Min et al .,“出租车秩序基于组合优化调度模型,”第23届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,知识发现(KDD) 2017加拿大,页2151 - 2159年,2017年8月。视图:谷歌学术搜索
f . Tang j .朱曹y . et al .,“PARecommender:基于模式的路线推荐系统”学报》25日国际联合会议上人工智能,IJCAI 2016年展出,页4272 - 4273,美国,2016年7月。视图:谷歌学术搜索
美国Sabour: Frosst, g·e·辛顿“动态路由帽-倡导者说,”少量的程序,2017年。视图:谷歌学术搜索
x史,卷积LSTM网络:机器学习Appro——ach降水短时预测卷积LSTM网络,机器学习Appro——ach降水重点学科,2015年。
y郑,城市计算:概念、方法和应用——阳离子,Acm交易:1-55 5.3智能系统技术交易,Acm 5.3智能系统技术,1-55,2014年。
郑y, y, j .元,x谢,“城市出租车,计算”《第13次国际会议上无处不在的计算(主要的11)ACM,页89 - 98年,2011年9月。视图:出版商的网站|谷歌学术搜索
郑j .元,y、x谢”发现的区域不同的功能在一个城市使用人类的机动性和POIs”18 ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 12)2012年8月,页186 - 194。视图:出版商的网站|谷歌学术搜索

复杂性