一个实时出租车推荐系统使用大的轨迹数据

文摘

拼车正在成为一个越来越重要的交通选择,因为它可以提供额外的服务选项,缓解交通拥堵,减少车辆废气排放总量。尽管一些推荐系统提出了出租车拼车服务最近,他们不能充分利用和理解已知信息和拼车的本质。本研究提出了一种新颖的推荐算法,它提供了空或者一个被占领的出租车在回答乘客的要求,称为嗓音起始时间。电话投票推荐最近的空出租车乘客。否则,嗓音起始时间推断目的地占领了出租车的相似性比较和聚类算法,然后建议被占领的出租车前往目的地的乘客。使用一个高效的大数据处理框架,火花,我们大大提高大数据处理的效率。本研究评估嗓音起始时间与一个真实的数据集,其中包含14747出租车GPS数据。结果表明,范围的比率(预测与实际目的地之间)少于900米可以达到90.29%。提供所有乘客的总里程是显著降低(平均47.84%)。具体来说,总里程nonrush小时优于其他系统减少了35%。 VOT and others have similar performances in actual detour ratio, even better in rush hours.

1。介绍

城市空气和土壤质量对城市居民的健康至关重要。良好的城市空气和土壤质量可以大大改善神经系统的功能,提高工作的效率,保证城市居民的健康状况(1]。然而,出租车废气排放对城市土壤有非常负面的影响(2和空气质量3]。在北京,出租车可以运行一年几十万公里(4,5]。在正常情况下,废气排放从出租车的5倍多从私家车排放。

出租车拼车服务可以有效降低过度排放减少交付所有乘客的总里程。但与普通出租车服务,任意指定一个空出租车新客运(6,7],出租车拼车服务需要抓住一个特定的出租车,指一辆出租车与现有的乘客前往一个方向相似的新乘客。然而,被占领的出租车不能发现基于现有解决方案的乘客找到一个空的出租车。

拼车服务,主要有两大类:静态和动态拼车。在静态拼车的研究中,大多数研究集中在如何使用类似的目的地乘客被分配到一辆车(8- - - - - -10)和如何提高实时性能的拼车服务的及时性(11- - - - - -13]。,静态拼车的问题在某种意义上可以被看作是一个特殊的成员的一般类Dial-a-Ride问题(DARP) [14]。

虽然静态拼车研究拼车服务的性能有了很大的提高,上述研究都是建立在这样一个前提:所有乘客的信息是已知的。但现有出租车的乘客的旅行路线和时间是无法访问的基础上为我们现有的基础设施,除非我们花了巨大的财富建立一个新的全面的出租车系统。此外,越来越多的车辆数据的大小远远超出DARP的范围。自[一般DARP赋权15),只有小数据集可以处理最优(16,17]。然而,big-data-processing技术的进一步发展和出租设备的升级(GPS (18)和米),形成一个巨大的GPS记录数据库,具有丰富的语义信息,为预测提供一个机会现有乘客的信息,即动态拼车的核心。

本文属于动态拼车的研究。在动态拼车,我们没有任何信息关于旅游路线和旅游时间提前的乘客。更重要的是,合理的请求匹配需要及时、有效地完成实时生成连续查询请求。因此,动态拼车实时的特点,快速反应,合理匹配,等等。这些特征无疑是非常适合大规模出租车的场景,更符合大众的需求。因此,本文侧重于实时动态的基于出租车拼车的GPS记录。

基于big-data-processing技术和历史出租车GPS数据,一些研究(19,20.)提供一个动态实时拼车服务。但是,现有的动态拼车研究有四个缺陷方面:(I)信息挖掘不足,(II)忽略了有价值的情况下,(3)忽视目的地分布特征,以及(IV)一边倒的筛选标准。节2这些缺陷方面,我们将详细说明并提出我们的动机。

在这项研究中,我们建议嗓音起始时间,一个出租车的推荐系统基于极大出租车GPS数据。通过使用一个统一的标准来区分出租车表演,嗓音起始时间提供了拼车和传统的出租车服务,可有效减少出租车的过度排放。本研究的主要贡献如下:(我)我们所知,我们首先提出了拼车服务,可以显著降低总里程将所有乘客的前提下充分确保乘客的利益。此外,对于原始GPS数据集和非结构化格式,火花是应用于提高大数据处理的效率。(2)为了实现我们的目标,我们设计一种新颖的方法来预测被占领的出租车的目的地相似性比较和聚类算法。它可以获得更准确的预测目标,充分挖掘GPS数据集和消除干扰从一文不值的目的地。(3)更全面评价出租车拼车的性能,我们进一步提出一种新颖的指标称为距离色散,这被定义为一个特定的乘客的目的地之间的平均距离被占领的出租车和可能的目的地。(iv)我们评估嗓音起始时间一个真实的数据集,包含14747出租车GPS数据。结果表明的比率范围(预测与实际目的地)不到900米可以达到90.29%嗓音起始时间可以减少53%的总里程将所有乘客,特别是表现优于其他系统近35%在0:00 7点。

剩下的纸是组织如下。部分2介绍了我们的动力。部分3提出了出租车网络研究。部分4提出我们的系统概述。部分5描述了系统的实现。部分6验证我们的设计与数据集。几个实际问题进行了讨论7,紧随其后的是结论部分8。

2。动机

在本节中,我们提出我们的动机提高四遗留缺陷出租车拼车服务基于实证数据从一个真实的网络14747年深圳出租车(出租车21]。

首先,我们理论上证明四个现有的动态拼车系统缺陷,然后通过数据和实验进一步清楚地解释这些缺陷。最后,我们讨论了我们采用的方法来弥补这些缺点。

2.1。不充分的信息挖掘

在动态拼车服务,我们需要预测的潜在目的地这些实时占领出租车拼车检测这个最好的性能。然而,我们认为,尽管潜在的目的地会最终获得,信息很少(只有占领了出租车的起源和实时乘客)是用来预测目的地在现有动态拼车的研究。换句话说,潜在的目的地是推断,发现类似的轨迹,从相同的起源(实时占领出租车),通过相同的位置(起点的乘客在其他的研究)。

如图1(一),乘客发送一个拼车请求到服务器。在这一点上,实时占领了出租车(现有的乘客,经过在L9未知目的地)可以作为一个潜在的乘客拼车选项,所以我们需要推断的目的地(或现有的客运)量化其合伙使用汽车的性能。

(一)

(b)

如图1 (b)动态拼车,现有研究仅使用C1(最近的路口的起源)和C4(最近的十字路口的起源)作为匹配条件。这种方法忽略了有价值的信息和。我们所知,我们提供更详细的匹配数据,我们匹配结果将更加准确。因此,应用过去的载人轨道的方法(之间和)匹配数据嗓音起始时间是一个必要的补充更高的预测精度。

2.2。忽略了有价值的情况下

只有两个起源的应用(实时占领了出租车和乘客)不仅导致不完整的矿业的GPS数据集,但也忽视了大量的有价值的历史轨迹信息(高相似)。

与最后的载人轨道实时出租车相比,历史上的载人轨道,尤其是在更高程度的相似性,有更高的可能性拥有相同的目标,因为这些实时的出租车。因为两双相同的纬度和经度值几乎不存在,我们引入区域划分。然后,分为许多显著区域的地图(二维值,)。

我们从实验中提取一个案例应用真正的GPS记录和绘制在图2。如图2,当一个乘客要求拼车请求(63.15)地区,有一个实时的出租车这可以被视为一个潜在的拼车选项。然后,嗓音起始时间把最后的载人轨道数据匹配数据,比较它与历史载人轨迹数据集。相比之下,“历史2”,“历史1”的目的地更相似接近的目的地。这证实了我们之前的结论。

2.3。忽略目的地分布特征

在获得最初的潜在目的地集合,现有动态拼车计划同样对待所有目的地,出现在这个集合,作为潜在的频率目的地概率。然而,有两个缺点,如果我们遵循现有的方法:(一)现有研究忽视这一事实的历史轨迹生成初步收集潜在的目的地有不同的相似性。换句话说,每个可能的目的地对应于不同的可能性(通过量化历史轨迹的相似性)。与现有的研究相比,本文旨在检测这些目的地与高相似度和高频率,而不是只关注频率。(B)在现有的动态拼车,一大部分是分配给大量可能的目的地的频率很低。它几乎没有机会真正的目的地地区几个频率。此外,现有研究忽视目的地分布与区域分布的特点(22- - - - - -24]。换句话说,绝大多数分布在几个热点目的地。

考虑到上述的局限性,我们集中我们的努力寻找最可能的地区和尽力消除松散和极低频率的干扰目的地。因此,嗓音起始时间利用聚类算法来划分潜在目的地和集群中心适用于在同一集群代表所有可能的目的地。通过这种方式,它强调了这些地区高频率和高相似性最大。更重要的是,即使真正的目的地实时占领出租车不是预测集群中心,这些真正的目的地和集群中心之间的距离非常小。来验证我们的设计,我们提出一个新的参数部分6距离,称为真正的预言(RPD),进行测试嗓音起始时间对整个GPS数据集。

2.4。筛选标准的片面性;

在这项工作中,我们认为,尽管选择拼车会获得最终的终极选择拼车不应获得的参数,只能在一边满足合伙用车的需求服务。出租车GPS记录已经被几个使用系统提供动态拼车服务。但是现有的研究,主要关注绕行距离,不能表现良好在乘客的利益和气体排放的缓解。

众所周知,如果乘客拼车有相同的目的地为现有的乘客,他们会在同一时间和地点下车。在这种情况下,拼车服务达到最好的效用,拼车的乘客没有绕行距离。与此同时,它减少了拼车的整个旅行乘客的里程数。换句话说,更大程度的亲密关系之间的拼车乘客的目的地和占领了出租车的目的地表明额外的消费和更好的拼车性能降低。

因此,我们进行我们的第一个工作提供拼车服务,应用一种新颖的参数称为距离色散量化特殊乘客的目的地之间的亲密关系并占领出租车。最终的拼车的策略本文是选择一个被占领的出租车与最小距离色散为“能拼车”出租车。为了证明距离色散的优越性,我们评估的性能嗓音起始时间通过实际绕道比率(%)和减少总里程(%)6。

3所示。出租车网络基础设施

在本节中,我们目前的出租车网络基础设施和隐含的语义信息推断出从原始大GPS数据集。

3.1。基础设施

潜在的出租车在大城市基础设施目前配备GPS,通讯设备,和调度中心。基于出租车设备的升级,出租车网络大致可以分为两个部分,即,()大量的出租车,在前端,提供服务和承担的角色同时传感终端,和()调度中心与云服务器端,接收和存储感应记录的出租车服务25,26]。

建立大型出租车GPS数据集是系统实现的基础。基于出租车的流行的底层基础设施,这些位置和状态定期上传到调度中心,形成一个大型出租车GPS数据集。这个数据集的形成步骤提出了如下:(1)装满一个无线传输模块,出租车会周期性发送它的状态到最近的发射塔。(2)状态数据将被转发到云服务器的发射塔。(3)实时GPS数据都存储在云服务器建立了分析按照固定格式。

每个大的GPS记录GPS数据集包含所有属性类别的出租车的实时信息。一个GPS记录主要包括以下参数:车牌,这是出租车的唯一标识;日期和时间,这证明这个记录的时间生成的GPS设备;GPS坐标,出租车监控全球地位;状态,这表明如果一些乘客存在此记录时上传。

实时GPS记录成千上万的出租车会不间断地传送到云服务器,形成大量的GPS轨迹信息。这么大原始GPS数据集有一个非常高的分辨率,可用于定位一个特定的出租车在细粒度相关的时间和空间。尽管如此,这种细粒度大的GPS数据集有很多错误和丢失记录。与此同时,这一无法获得第一手原始GPS数据集,因为它是没有准备好分析的格式(27]。在下一小节,我们提取有用的隐式语义信息从原始的大型数据集的出租车服务。

3.2。在底层基础设施隐含的信息

基于历史和实时GPS记录,我们观察四个状态与乘客需求通过持续地跟踪GPS记录相同的出租车。(1)假货的地位。同样的出租车,如果其状态值从“0”到“1”在两个连续的记录,那么这个出租车只是捡起一名乘客。假货的位置状态被认为是一个旅行的起源或诈骗的位置。(2)下降的状态。如果状态值从“1”到“0”在两个连续的记录,那么这个出租车只是下降了一个乘客。下降的位置状态被认为是一个旅行的目的地。(3)占据的地位。不断观察相同的出租车,如果状态值继续“1”,然后出租车前往目的地的乘客。我们相信占据的位置状态的中间部分是一个轨迹。(4)漫游状态。当我们持续观察的士的GPS记录,出租车处于徘徊状态,如果状态值是“0”。

基于隐式语义信息实时GPS数据集开采,正规出租车推荐系统可以有效地定位和实时推荐空出租车特定的乘客。一些现有的推荐系统甚至可以提供一个当没有附近的空出租车拼车选项是可用的。但是他们不能保证结果的准确性,因为大型数据集的低利用率和众多推理从一文不值的目的地与低频率、低相似性。更重要的是,现有的动态拼车研究忽略目的地分布与区域分布的特点,不能表现良好的缓解乘客的利益和天然气废气排放和交通拥堵。

我们广泛的了解大型GPS数据集和拼车服务提供了一个机会来获得更高的推理精度。基于上面的分析和讨论,我们推荐系统定位,建议最好的出租车拼车的性能和常规服务实时的乘客,这是在下一小节中介绍。

4所示。系统概述

我推荐系统设计GPS记录深度提高推荐质量。考虑到常规服务通常理解,我们提供了一个场景,在该场景中,拼车服务应用,然后我们目前推荐系统的主要思想。

4.1。场景演示

图3提出了一个场景,在该场景中,乘客要求出租车起源()前往目的地()。建立在底层出租车的隐式语义信息基础设施和特定的乘客信息,没有发现游离状态的出租车的乘客。但是,基于实时GPS的观测记录,推荐系统可以找到附近的出租车作为一个潜在的“能拼车”出租车(前往一个未知的目的地),将通过的起源很快。由于知识有限的现有出租车上的乘客的目的地,拼车服务无法联系到旅客的要求。

通过反向跟踪实时GPS记录时间的基础上,嗓音起始时间获得最后一个载人轨道(之间和)。与最后一个载人轨道相比,历史上的旅行,尤其是在更高程度的相似性,有更高的可能性在现有乘客的目的地。因此,嗓音起始时间完全矿山历史和实时GPS记录和问候的目的地高度相似的历史轨迹作为潜在的目的地。

嗓音起始时间进一步优化潜在目标集的聚类算法捕捉中心区域,这可以有效地总结目的地分布的特点,彻底减少无用的干扰频率和相似性较低的目的地。在这项研究中,我们抓住这些中心区域采用不同的聚类算法(——(28,29日],density-based空间聚类的应用程序与噪声(DBSCAN) [30.,31日),和平衡迭代降低和集群使用层次结构(桦木)[32,33])。

当附近的占领出租车拼车服务来提供特定的乘客,真正的旅行产生额外的消费相比,传统的出租车服务。因此,最优拼车策略是指“能拼车”出租车消费最低的。更大程度的目的地之间的亲密拼车乘客和出租车占领显示低消费和更好的拼车的性能。

因此,一种新的色散参数称为距离是用来量化亲密的程度嗓音起始时间。色散可以获得的平均距离曼哈顿和之间的欧几里得距离实时乘客的目的地和预测潜在的目的地。不同的被占领的出租车有不同的目的地,从而分散在不同的距离拼车。最优拼车的策略最少的是选择一个被占领的出租车距离色散“能拼车”出租车。

4.2。主要过程

的主要过程嗓音起始时间呈现在图4。

4.2.1。准备载人轨道分布

出租车载人轨道分布、拼车服务的基础,起着至关重要的作用在我们的推荐系统。

我们单独的个人旅行从整个历史GPS数据集通过持续跟踪和观察状态的变化在GPS记录相同的出租车。分布,产生的大量GPS数据集,包含所有出租车GPS的历史记录。与特定的乘客的上下文中,这种分布可以生成的潜在目的地轨迹与高度的相似性而另一个特定的轨迹。

4.2.2。距离色散的计算

根据载人轨道分布,当接收到一个请求从乘客,我们的推荐系统应用相似性比较和聚类算法来计算预期的距离色散为与一个特定的“拼车”附近的出租车根据六种不同的计算模型。所有计算模型分为以下四个步骤:(1)所有系统首先找到附近的出租车原点附近,出租车,基于出租车的痕迹在某一天的数据集。(2)根据载人轨道分布和乘客信息,我们可以计算出一个初步的潜在目标对出租车。(3)基于上下文信息,我们的系统优化通过删除无用的目的地来实现一个紧凑的尺寸基本和先进的模型。然后我们计算包含所有潜在的目的地的代表聚类算法的进一步优化。(4)的基础上推荐系统分配概率,计算这个特定的距离色散占领了出租车。

基本的k - means(1)当我们收到一个请求,这个方案可以计算附近,出租车都是请求来源基于实时GPS记录。(2)通过计算相似性的历史轨迹和最后的载人轨道,我们的系统获得,每一个潜在的目标有两个属性(频率和平均相似)。(3)在基本设计,如果目的地是截然相反的乘客的目的地,然后我们的推荐系统将消除这个目的地,由于大型消费相比传统的出租车服务。如图5,当可能的目的地的在B,是一个目的地吗,减少消费,而与之相比在一个。 ——用于深度优化,高度概括出租车目的地分布的特点。(4)在基本设计,指定目的地的概率相等,嗓音起始时间计算加权平均他们的位置。

先进的k - means。先进的k - means类似于基本的k - means除了两个差异。

在(),先进的设计是建立在基本的设计。然而,在先进的设计,基于丰富的潜在信息,我们的系统进一步减少的大小两个步骤的深度优化。

步骤1。我们首先普查一组,称为最近发生的目的地(杆),其中包含目的地及其频率发生在最近几天根据历史载人轨迹。还有一些潜在的目的地,不要出现在杆或只有少量的频率(少于三次)。因此,由于这些目的地有一个小的概率被真正的目的地,嗓音起始时间先进的模型中删除这些目的地,很少发生在最近几天来提高预测精度。

步骤2。如果一个区域出现多次在很短的时间内,这表明有一个伟大的服务需求这一地区在过去的几个小时。换句话说,这个地区有很大的可能性是真正的目的地。因此,嗓音起始时间首先这些地区人口普查,这是最终的目的地载人轨迹发生在最近几小时。然后,嗓音起始时间先进的模型检测和标志着地区的高频率。的聚类算法,我们可以得到显著区域和集群中心的中部地区,这标志着地区所在地。最后,中间区域替换为代表的原始集群中心。这些措施在步骤2中不仅有效解决短期的问题拼车请求激增造成的意想不到的突发事件,也弥补漏报实时突发事件在步骤1中。

在(),在获得的聚类结果则,建议方案分配概率根据各自不同的代表频率,导致一个准确计算弥散的距离。换句话说,这些代表的访问作为分配概率的基础。例如,如果10次从存在于分布,四人作为他们的目的地,而其他人;我们的系统分配和计算加权平均。

基本和先进的k - means优化由则算法,一个典型的基于距离的聚类算法。——使用距离作为相似性的评价指标;因此,两个物体间距离越近,越相似。找到极值的函数法是用于调整迭代操作规则(28,29日]。整个过程计算在哪里初始聚类中心的数量和吗是剩余的数量的目的地。代表频率,表示平均相似性。

两个地区之间的闵可夫斯基距离公式和集群中心坐标如下所示:

当闵可夫斯基距离曼哈顿距离;当闵可夫斯基距离是欧几里得距离。

基本和先进的DBSCAN类似于基本和先进的k - means,但他们使用DSBSCAN来优化。DBSCAN是基于密度的空间聚类算法,对距离不敏感。该算法将足够密度的地区划分为集群和发现任意形状的簇在吵闹的空间数据库(30.,31日]。基于上述原因,先进的DBSCAN最佳的性能在距离色散和减少了平均总里程,除非密度是不均匀的,集群之间的距离是非常不同的在一段时间,这也可以证明在部分6。

基本和先进的桦树也类似于基本和先进的k - means,但他们使用桦木来优化。桦木是基于层次的聚类算法32]。该算法使用两个概念,即聚类特性和聚类特征树,推广集群描述(33]。

4.2.3。网上的推荐

建议的算法实时出租车的最低预期距离色散为特定的乘客通过分析距离色散每附近的出租车是否漫步或在被占领的状态。

5。系统实现

5.1。计算框架

尽管大量的原始GPS数据集通常是与高分辨率和互联多维记录,原始数据集的大部分我们的设计不感兴趣。我们需要这个原始物理GPS数据集映射到一个过滤和压缩的逻辑数据集进行分析。此外,我们应该处理这些原始物理GPS数据集由一个聪明的方法来满足高时效性和低延迟的要求。在这方面,一个大型的数据处理框架是一个很好的解决原始和大规模数据处理的问题。

火花(34)是最新一代的软件框架,分布式处理大规模数据,效率高的优点,高容错、低成本(35]。内存分配数据集在火花进入操作,提高了迭代计算的性能在内存中缓存数据(36]。因此,火花满足实时的要求出租车推荐系统对高时效性和低延迟37]。总之,我们的推荐系统使用火花处理原始GPS数据集。

作为一个新兴的big-data-processing模型,火花提供了基本的抽象,是一种弹性分布式数据集(抽样(38])。抽样代表不可变,分区的元素集合可以并行操作。数据操作在火花程序可分为三个步骤:创建抽样,转换现有的抽样,抽样的操作返回计算结果。在提交前的细节,星火计划,引发运行程序的主要功能,并构建一个火花上下文。然后,火花程序数据通过抽象数据加载到一个抽样。最后,基于用户定义的逻辑,数据处理和转换的基础上实现用户定义函数和运算符(地图、过滤、groupByKey sortByKey,等等)提供的火花。

然而,尽管运营商所提供的类型丰富,仍有一些复杂和独特的操作逻辑,需要结合实现的用户定义函数和运营商提供的火花。

5.2。历史载人轨道分布

每个GPS记录有一双经度和纬度,但如果GPS纬度和经度点被认为是一个匹配的轨迹的标志,我们不能地图的特定轨迹因为两双相同的纬度和经度值几乎不存在。因此,我们引入了区域划分嗓音起始时间。地图分为许多显著的地区。显著区域应该包含几种GPS记录相同的出租车通过持续地跟踪GPS记录。出租车轨迹可以由一系列的显著区域。通过这种方式,轨迹匹配成为可能通过搜索相同的地区尤其如此。

基于原始大GPS数据集和区域划分,嗓音起始时间可以获得载人轨道分布,每一个载人轨道由一系列显著的地区,而不是一个接一个GPS纬度和经度点来描述整个taxi-manned轨迹。如表所示1薮猫原始GPS记录作为例子来证明上面的转换。


数量	时间	经度	纬度	区域	状态

23953年	19:32:45点	114.0993	22.5451	Jd43Wd7	0
23953年	19:32:49点	114.0989	22.5518	Jd43Wd7	1
23953年	19:33:08点	114.0990	22.5401	Jd43Wd6	1
23953年	19:33:26点	114.0988	22.5391	Jd43Wd6	1

23953年	19:47:55点	114.0489	22.5321	Jd35Wd5	1
23953年	19:48:01点	114.0479	22.5316	Jd35Wd5	1
23953年	19:48:10点	114.0429	22.5312	Jd34Wd5	1
23953年	19:51:20点	114.0409	22.5298	Jd34Wd5	0

原始GPS记录转化为几个显著的地区(如Jd43Wd6)在区域分工表1。一系列的原始GPS记录描述的细节上面的整个轨迹,可以映射在一个给定的地区地图,对应于一个独特的拼车图。因此,载人轨道从原料中提取GPS记录,由一系列的显著区域。

5.3。函数实现

引发数据处理的过程是一系列的抽样转换和操作。因此,一系列重要抽样转换和操作的关键细节来解释机制和算法在本节中。在下面,重要抽样转换和操作。

5.3.1。获得实时的出租车信息

当接收到一个请求从乘客在,我们首先需要寻找出租车乘客通过实时GPS记录。在程序1,实时出租车在漫游状态或占领的状态是通过测试的时间和状态的GPS记录。

(清洁后)输入出租车GPS数据
()使用转换、原始出租车GPS记录的格式
转化为(车牌,(日期和时间;显著的地区;状态位))
()使用groupByKey转换,所有的出租车GPS数据相同
板聚集。
()如果(使用如果有变换,我们检查和检测
实时漫游状态的出租车)

()使用变换,我们计算之间的距离
这些实时出租车和。然后,(相应的距离,
塔板数)出口。
()可以通过相应的距离升序排列
(真正的)转换。
()使用(1)操作,我们获得和推荐最近的
出租车乘客在漫游状态。

()其他的

()使用如果有变换,我们检查和检测
在被占领的状态实时出租车。
()使用转换,每个出租车GPS数据
倒序排列。然后,我们输出板
去年载人数量和相应的轨迹,即
几个连续GPS记录的状态是1。

如果周围有几个实时出租车在漫游状态之间的距离而这些出租车被认为是一个属性的空出租车的性能。然后,我们选择最近的空出租车。如果没有实时空出租车但只有少数实时出租车在被占领的状态,我们进一步计算最后的载人轨道实时出租车在被占领的状态(见程序1)。

5.3.2。占领了出租车的潜在目的地

在程序2,以获取实时的潜在目的地出租车在被占领的状态,我们的算法大致分为两个步骤。

步骤1。获得最初的目标集
()输入历史出租车载人轨道数据。然后,这些轨迹数据的存储水平投入
StorageLevel.MEMORY_ONLY通过方法由于需要反复比较。
输入的最后载人轨道实时出租车在被占领的状态。方法用于加载HDFS文件
在火花作为初始抽样。
()使用之间的相似变换,我们可以获得最后的载人轨道这些出租车
载人轨迹和历史数据。
上述操作后,新的抽样(相似性,目的地)的格式转换。
()使用sortByKey(假)转换,降序排列的相似性潜在的目的地。
()使用把(n)操作,我们可以获得n出租车历史载人轨迹具有更高的相似性,
目的地的载人轨道被视为初步设置。
()来处理这些数据更加方便和迅速,我们改变的形式(目的地,相似)
通过转换。之后,新的是出口到HDFS促进过滤操作之后。

步骤2。预测最终目的地
()加载方法和抽象为抽样,然后收集相似相同的潜在目的地
通过转换。
()使用多个运营商提供的火花和用户自定义函数,规模和优化在获得
基本的和先进的模型。
()使用访问操作,我们计算频率和平均相似性潜在的目的地
和导出的数据格式(潜在的目的地,(频率、平均相似性))HDFS。
()新在HDFS是抽样的抽象方法。然后,通过一系列的转换和
操作包括用户定义的函数,我们实现和完成三种不同类型的集群
算法和输出的代表的。
原始的格式((目的地和这些属性在集群),(在集群B目的地和这些属性))
(基于转换和初始、集群中心和总访问集群计算的频率
用户定义的函数。
输出文件的格式是((集群中心和总访问频率集群),…)。
(我们遍历每个元素的抽样操作数的总访问频率。然后,最终的
的格式是出口到HDFS。

步骤1(获得最初的目的地)。通过最后的载人轨道之间的比较这些实时占领出租车载人轨迹和历史数据,嗓音起始时间计算和获得的目的地轨迹具有更高的相似性,即。

步骤2(预测最终的目的地)。频率和平均相似性的基础上每一个潜在的目标,不同的聚类算法(则,density-based空间聚类的应用程序与噪声(DBSCAN)和平衡迭代降低和集群使用层次结构(桦木))完成聚类操作。然后,我们计算和把集群中心代表潜在的目的地相同的集群。

5.3.3。距离分散计算和优化建议

为了筛选出最好的实时占领出租车拼车性能、过程3分为两个步骤。

(1)输入和抽象的聚类结果新的抽样。
(2)使用变换,一个潜在的拼车性能实时出租车的目的地
状态是由用户定义的函数量化(距离色散)。
(3)使用变换,一个实时的拼车性能占据了出租车
通过收集所有距离分散潜在的目的地。
(4)的转换,拼车的降序排列的性能(距离升序排列
处理色散)。
(5)使用(1)操作,我们获得和推荐最好的实时出租车在被占领的状态
乘客拼车性能。

步骤1。我们的算法计算出每一个实时的距离色散出租车在被占领的状态。

步骤2。实时在被占领的状态最好的出租车拼车性能选择嗓音起始时间和推荐特定的乘客。

所示的过程3,我们的建议策略指定一个地图变换将代表和的请求(出发地和目的地)作为输入文件来计算距离色散的实时占领了出租车。通用计算公式如下: 在哪里的代表和是一个代表潜在的目的地。乘客之间的欧几里得距离吗的目的地和实时出租车的目的地。是曼哈顿距离这些目的地。每个目的地都有不同的概率根据它出现的频率。 ,在那里的总频率吗和是所有目的地的总频率。如果是一个空的出租车,那么操作返回0距离色散,鉴于空出租车不存在距离。

6。评价

样本数据集,其中包含450万14747出租车GPS原始记录,用于测试我们的推荐系统。由于数据集的大小,我们找到一个主要的错误记录。存在两个主要错误:(i)异常错误(例如,虽然状态值为1,这意味着出租车是移动,连续GPS记录显示经度和纬度的维护,这是不合逻辑的)和(2)匹配错误(与电子地图匹配后,GPS坐标显示,出租车的路)(39]。

这些错误可能会由于不同的原因,比如GPS设备故障,软件问题和人为因素。数据处理之前,我们干净的原始数据使用简单的预处理操作删除异常和无效的GPS记录。

6.1。评价设置

在这项研究中,嗓音起始时间比较三种聚类算法(则,DBSCAN和桦树)基本和先进的模型。taxi-manned轨迹分布,显示真正的乘客请求,可以获得基于历史的GPS数据集。真正的请求,发生在一天的数据集,被视为未来请求来测试我们的推荐系统。基于一个特定的载人轨道,例如,诈骗,起源区域,下降时间,和目的地区域taxi-manned轨迹分布,乘客请求(请求时间、起源,目的地可以生成)。

所有推荐算法匹配这个实际请求附近的出租车GPS实时记录的集合基于出租车轨迹的某一天的数据集。如果空出租车存在所有的推荐算法表明,最近的空出租车乘客。否则,基本——计算色散每占领了出租车的距离基于基本模型和则算法部分4.2然后建议被占领的出租车最低属性值。其他算法函数类似,除了这些算法计算距离色散基于不同的聚类算法(DBSCAN和桦树)和不同的模型(先进的模型)。

距离色散被视为关键指标显示出租车服务的效率,获得的;该指标用于评估乘客和出租车目的地之间的亲密关系。为空的出租车,弥散的距离为0;占领了出租车,我们比较和推荐被占领的出租车与乘客的最小距离色散。因此,距离色散可以提供一个建议拼车和传统出租车乘客的利益最大化服务。

更重要的是,我们证明拼车服务,减少总里程(%)。与距离分散集中于单个乘客的利益,减少总里程是用来计算多少可以减少总里程(导致减少气体排放和交通拥堵)通过一个高效的系统推荐更合适的出租车为乘客在被占领的状态。假设米是单独提供所有乘客的总里程和米是提供所有乘客的总里程与传统出租车或拼车服务,然后减少里程的比例=。

为了证明距离色散的优越性,我们使用实际绕道比例来评估嗓音起始时间,这被认为是一个关键指标显示其他推荐系统的效率。相比传统的出租车服务,拼车服务绕道距离( )。因此,实际绕道比率可以获得的。

然后,我们提出一种新的参数,称为真正的预言距离(RPD),演示正确预测目的地的比率,这是通过量化这距离真正的目的地和预测集群中心。

我们评估嗓音起始时间在不同的集群数量和不同区域大小,根据上述指标。这种评价会导致不同的服务效果相同的算法。默认设置的集群数量是5,默认设置的区域长度是600米。对整个数据集,我们使用真正的请求从一天的数据集和测试算法的轨迹出租车在其他天。平均结果报告。

6.2。距离色散

在本节中,我们调查的平均距离色散性能。

图6显示了平均距离分散在不同的1 h时段的一天。高峰时期,如8上午十时和下午18:00到20:00,所有版本的平均距离色散低于在nonrush时间,如上午7点一点。这个结果是由于旅客高峰时期有更多固定目的地和历史的GPS数据可用于预测。因此,我们推荐系统能更准确地预测了出租车的目的地上下文信息和载人轨道分布。

(一)基本和先进的则

基本和先进的DBSCAN (b)

(c)基本和先进的桦树

三个聚类算法的比较表明,DBSCAN的最佳性能,最小距离色散,并执行在两个基本(2.560公里)和先进的(1.671公里)的场景,这有效地保证了乘客的利益。这是因为DBSCAN可以发现任意形状的簇,它提供了最高的预测精度。则有拼车质量的先进模式,但性能很差在基本模型中,有一个很大的差异在1.524公里。这是因为许多异常和毫无价值的数据严重干扰——在基本模型。

6.3。减少总里程

在本节中,我们评估的性能嗓音起始时间通过减少总里程的比例(%)。

图7显示减少总里程的比例在不同的1 h时段。高峰时期,如8上午十时和下午18:00到20:00,减少总里程的比例高于所有六个方案nonrush小时,尤其是一点到早上7点。这个结果是由于增加的拼车服务需求高峰时期相比nonrush小时。同时,更准确的乘客拼车的建议,推荐系统也会导致一个更大的减少总里程将相同数量的乘客比减少总里程nonrush小时。

(一)基本和先进的则

基本和先进的DBSCAN (b)

(c)基本和先进的桦树

在这两个则和桦树算法,先进的模型优于基本的一个平均15.06%和10.05%,分别说明先进模型的优越性。拼车高质量,DBSCAN是不敏感的基本和先进的场景,这证实了我们以前的观测。从整体来看,DBSCAN是最好的选择,因为它的稳定和高拼车质量与总里程平均减少47.84%的先进模式。尽管如此,则优于DBSCAN在几个小时在先进的模型中,如9:00-10:00和21:00。

6.4。实际绕道比率

图8显示了实际平均性能绕道比率在不同的1 h时段的一天。在繁忙的上下班时间,如8上午十时和下午18:00到20:00,这三种算法的平均实际绕道比率在先进的模型是高于nonbusy小时,一点等7点。的变化趋势嗓音起始时间几乎是一样的,类似的研究。

中表现最好的三个算法,实际的DBSCAN绕道比率(%)在任何1 h时段一天不超过10%,明显优于其他研究在繁忙的上下班时间。然后,尽管则和桦树没有良好的性能,最糟糕的情况下仍不超过15%,分别是14.04%和12.84%。更重要的是,只有3.48%的差异之间的平均先进DBSCAN最好的性能和先进的——最糟糕的表现。换句话说,所有版本的嗓音起始时间在先进的模型可以充分保证和控制实际的绕道比率。

基于上述补充实验的结果,我们证明嗓音起始时间可以执行在乘客的利益(实际绕道比率(%))和气体排放的缓解(减少总里程(%))。因此,距离色散被视为关键指标显示常规和拼车服务的效率嗓音起始时间,而不是实际绕道比率(%)。

6.5。真正的预言距离分布

图9显示真实的预言距离的百分比分布下默认区域长度(600米)。

(一)基本和先进的则

基本和先进的DBSCAN (b)

(c)基本和先进的桦树

RPD的分布(< 900)六个版本(除了基本都超过85%则,83.26%),尤其是先进的DBSCAN是90.29%。值得注意的是,因为默认区域长度设置为600,RPD分布最糟糕的状况(< 900)只有不到两地区之间真正的目的地和预测集群中心。更重要的是,分布(< 500)RPD六个版本几乎都超过25%,其中先进的DBSCAN与30.90%的最佳性能。值得注意的是,RPD,小于500米,意味着只有一个情况:预测集群中心在同一地区真正的目的地(或相邻区域长度是400米)。换句话说,预测结果都必须完全正确,如果RPD小于500米。

为则,DBSCAN和桦木、先进的模型优于5.22%的基本模型,2.97%,和3.29%的平均,显然表明先进模型的优越性。这些表明,DBSCAN聚类算法的比较具有最好的性能。和DBSCAN作品在三种不同RPD分布(< 500(30.90%)、< 700(72.14%)、和< 900(90.29%)),它清楚地表明,预测的准确性嗓音起始时间。这些结果证实,嗓音起始时间实际上是能够保证预测精度高。

6.6。集群数量的影响

在本节中,我们学会推荐半径的影响嗓音起始时间一天上午9点的性能。

6.6.1。距离色散与不同的集群数据

图10显示的效果不同集群数字6的性能方案的距离色散。我们改变集群数量从3到8,进而改变目的地的数量被用来总结占领了出租车的分布特征。

六的景象嗓音起始时间先进的模型下,距离色散总是比基本模型。这是因为更好的建议提供给乘客目的地前通过消除无用的候选人。最小距离色散时实现集群数量是5,和增加6的版本嗓音起始时间慢下来当集群数量接近8。相比,数字3和8不能准确概括目的地分布的特点,数字5是符合绝大多数出租车的目的地分布。

6.6.2。减少总里程(%)与不同的集群数据

图11显示的效果不同集群数字的百分比减少总里程的一天上午9点。

最大的减少总里程发生在集群的数量是5。当集群数量接近8,减少6的版本嗓音起始时间减慢。换句话说,最大最小距离色散和减少总里程,这表明最好的拼车质量,同时发生在5。因此,我们建议集群的数量被设置为5增强拼车质量。先进的模型,方面则优于DBSCAN减少9点总里程的一天,这证实了我们以前的观测。

6.7。区域长度的影响

在本节中,我们研究推荐的影响半径嗓音起始时间性能在一天24小时的先进模式。由于巨大的相似趋势的三个算法,我们只是现在的性能则算法。

6.7.1。距离色散与不同地区的长度

图12显示不同的长度在发达地区的影响——在距离色散。我们改变该地区的长度从400米到800米,从而增加潜在的出租车,可以推荐的大小和数量相似的载人轨道,可以分析。

为则,半径的增加从400米到800米,的性能嗓音起始时间减少。尽管如此,降低减缓区域长度接近800,这是由于半径足够大,也足够数量的类似taxicab-manned轨迹和出租车进行分析和推理,和一个更大的半径不会帮助。DBSCAN和桦树也有相同的趋势。但仍有不同的趋势则,DBSCAN和桦树在400米和800米之间,也就是说,850.0760米,491.1766米,671.8267米,分别。

类似的趋势时保持半径从400增加到800,比如更好的性能从18:00到20:00和糟糕的性能从一点到早上7点,在前面几节验证前面的推断。

6.7.2。与不同地区的总里程长度减少

图13显示了不同的区域长度的影响在减少总里程的比例在一天24小时。

与半径的增加从400米到800米,总里程——先进的模型中增加考虑到增加了拼车服务需求和可用的更准确的推断。然而,这一增长减缓区域长度时则接近800。因此,默认区域长度设置为600,因为半径足以提供准确的推理和计算,600米和800米之间(只有2.76%),和一个更大的半径不是不必要的。DBSCAN和桦树也有相同的趋势。

区域长度的增加从400米到800米最大的差异导致的性能在400米和800米之间,则是12.53%。相比之下,DBSCAN性能的差异是微不足道的(即。5.80%),因为——(基于距离)敏感区域长度的变化,而DBSCAN(基于密度)对这种变化。相比之下,K则,桦树的性能时只有9.17%增加该地区的长度从400米到800米不等。

6.7.3。真正的预言距离分布与不同地区的长度

在本节中,我们评估区域长度的影响在真实的预言距离分布在先进的模式。

表2,3,4显示不同的区域长度的影响在三个不同的RPD分布(< 500,< 700,< 900)先进的模型。


< 500	400年	500年	600年	Max。区别

则	24.0256	24.6381	25.0975	1.0719
DBSCAN	30.6759	30.7728	30.8996	0.2237
桦木	26.2619	26.8249	27.2711	1.0092


< 700	400年	500年	600年	Max。区别

则	61.4596	64.0293	66.4653	5.0057
DBSCAN	71.0951	71.5964	72.1402	1.0451
桦木	64.3057	66.4358	68.2569	3.9512


< 900	400年	500年	600年	Max。区别

则	80.0751	83.6194	87.1817	7.1066
DBSCAN	89.1928	89.7317	90.2919	1.0991
桦木	82.7529	85.5416	88.7672	6.0143

三种不同的聚类算法,在该地区的长度从400增加到600,RPD显示越来越倾向的比率。这是因为一个更大的区域长度增大单个网格的范围,这就增加了可能性,推断出集群中心包含GPS记录真实的目的地。但对于三种不同RPD分布(< 500,< 700,< 900),下的性能优于600,在400年仅为0.768%,3.334%,和4.740%。具体来说,RPD分布的最小变化趋势(< 500)是1.07%,0.22%和1.01%——、DBSCAN和桦树。换句话说,即使该区域长度设置为400,所有版本的嗓音起始时间在先进的模型还可以保证良好的三种RPD分布的预测精度。

此外,与我们之前的比较实验从400到800年最初的手稿,我们不进行实验区域长度700米和800米。这是因为该地区如果长度太长,情况满足RPD分布趋于均匀。例如,当该地区的长度设置为800,分布(< 500和RPD < 700)是相当一致的。这导致一个名不见经传的RPD分布的趋势。因此,这些不确定的实验并不在这一节中执行。

7所示。讨论

虽然嗓音起始时间提供了拼车性能好,有进一步改进的空间。下面是系统可行性或讨论的可能性,需要进一步调查。

7.1。现有的出租车系统的变化

虽然没有需要构建一个全新的出租车网络,进一步优化和提升是必要的对现有出租车系统更好的服务。举个例子,一个方便的双向沟通需要部署在出租车和后端服务器之间,而不是通过GPS单向通信。与第四代移动通信技术的发展和普及,移动设备的便利性和实用性提供一个实现双向沟通的机会。因此,我们将进一步研究这方面的工作。

7.2。接受分享出租车的乘客

在嗓音起始时间,我们只能实现出租车是否通过GPS记录的状态位乘客。但如果出租车和后端服务器之间的双向通信成功实现,现有的实时出租车乘客的数量可以通过上传乘客的信息。

然后,嗓音起始时间可以提供个性化的拼车选项根据乘客的偏好。例如,的士共享乘客的可以接受的数量是两只和女性;两只和男性;两个,也没有要求男性或女性的偏好;三只和女性;三、男性;三,没有要求男性或女性偏好;没有要求。我们相信各种拼车偏好选项可以为乘客提供更舒适的拼车服务。

7.3。相关法律的支持

通过仔细的和广泛的调查,目前在中国,自愿拼车是合法的契约关系,属于协议当事人的自治。司机有义务确保乘客安全。如果人为的事故或无法预料的事件发生,事故处理应根据“民法通则”(40],“侵权责任法”[41,“道路交通安全法”42]。

目前没有具体的法律和法规来限制出租车拼车服务。随着汽车共享的概念的普及,政府和大量的研究人员正在积极推动相关法律的引入。

7.4。车队经理的额外好处

因为减少了总里程(%)可以达到47.84%,交付所有乘客的成本可以大大降低。也就是说,出租车可以完成交付任务相同的燃料成本。这可能会增加公司的收入和司机。还有一些研究[43- - - - - -46对乘客的利益。进一步的工作,车队经理的好处和乘客将在先进的增加作为一个重要的因素嗓音起始时间。

8。结论

在这项工作中,我们分析、设计和评价推荐系统对拼车和常规GPS的基于大规模出租车服务的历史记录。我们的推荐系统矿山taxi-manned轨迹分布从历史的GPS数据集。真正的请求从taxi-manned轨迹分布中提取,一辆出租车在漫游状态没有距离色散和一个被占领的出租车以最小距离色散建议特定的乘客。我们使用一个通用big-data-processing模型,火花,有效处理原始GPS数据集。使用真实的数据集包含14747出租车GPS记录来评估系统的比率范围的预测与实际目的地之间少于900米可以达到90.29%,有效地保证了乘客的利益。我们的推荐系统可以显著降低总里程(平均47.84%)。将近一半的出租车的总里程减少,从而有效地减少空气和土壤的污染。与此同时,平均总里程0:00减少到7点增加到45.03%,优于其他系统的35%。实际绕道比率,嗓音起始时间和其他人有类似的表演,在高峰更好。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的基础研究基金批准号下的中央大学2017 qna20。

引用

s . Burgaz g . Cakmak Demircigil, b . Karahalil和a . e . Karakaya”在外周血淋巴细胞染色体损伤的交通警察和出租车司机暴露于城市空气污染,”光化层卷,47号1,57 - 64,2002页。视图:出版商的网站|谷歌学术搜索
c . m . Lytle b·n·史密斯和c z麦金农,“锰累积在犹他州的道路:一个可能的机动车排气污染的迹象,”科学的环境,卷162,不。2 - 3、105 - 109年,1995页。视图:出版商的网站|谷歌学术搜索
g . a . Rhys-Tyler w . Legassick, m·c·贝尔”汽车排放标准的意义从轻型汽车排气污染水平在市区,“大气环境,45卷,不。19日,3286 - 3293年,2011页。视图:出版商的网站|谷歌学术搜索
J.-C。翁,Y.-Q。翟,X.-J。赵,j .荣”基于浮动车数据的出租车在北京运行特点分析,”WRI世界大会的程序计算机科学和信息工程(CSIE ' 09)2009年4月,页508 - 512。视图:出版商的网站|谷歌学术搜索
j ., j·胡,l .傅”控制车辆排放在北京在过去的十年中,“交通研究部分:政策和实践,40卷,不。8,639 - 651年,2006页。视图:出版商的网站|谷歌学术搜索
g . m .瞿h·朱j . Liu Liu和h,“出租车司机的成本效益的推荐系统,”20 ACM SIGKDD国际会议的程序知识发现和数据挖掘(KDD ' 14)2014年8月,45 - 54页。。视图:出版商的网站|谷歌学术搜索
l . Tang x,和李问:“知识建模和基于出租车路线规划经验,”Geodaetica et Cartographica学报,39卷,不。4、404 - 409年,2010页。视图:谷歌学术搜索
r . Wolfler卡尔沃f·德·路易吉,p . Haastrup诉Maniezzo,”一个分布式地理信息系统的日常汽车共乘问题,“电脑和运筹学没有,卷。31日。13日,2263 - 2278年,2004页。视图:出版商的网站|谷歌学术搜索
c c。道,“动态的士共享服务使用智能交通系统技术”《无线通信国际会议上,网络和移动计算(WiCOM ' 07)2007年9月,页3204 - 3207。视图:出版商的网站|谷歌学术搜索
r . Baldacci诉Maniezzo, a . Mingozzi”汽车共乘一个精确的方法基于Lagrangean列生成的问题,“运筹学,52卷,不。3、422 - 439年,2004页。视图:出版商的网站|谷歌学术搜索
黄y . f . Bastani r·金和x s . Wang”大规模实时乘车共享与服务保证道路网络,”学报》第32届国际会议上非常大的数据基地(VLDB 06年)2006年9月,页2017 - 2028。视图:谷歌学术搜索
马,y郑,o·沃尔夫森”T-share:大规模动态出租车乘车共享服务”第29届IEEE国际会议数据工程学报》(ICDE 13)IEEE,页410 - 421年,2013年4月澳大利亚,布里斯班。视图:出版商的网站|谷歌学术搜索
傅y, y方、c .江和j . Cheng”动态骑在交通信息网格共享社区服务,”《智能计算技术与自动化国际会议上(ICICTA ' 08)2008年10月,页348 - 352。视图:出版商的网站|谷歌学术搜索
a . Attanasio肯尼迪。g . Ghiani Cordeau, g . Laporte”并行禁忌搜索的启发式动态多车dial-a-ride问题,“并行计算,30卷,不。3、377 - 387年,2004页。视图:出版商的网站|谷歌学术搜索
p·希利和r·摩尔,”一个新的本地搜索扩展应用到Dial-A-Ride问题,“欧洲运筹学杂志》上,卷83,不。1,第104 - 83页,1995。视图:出版商的网站|谷歌学术搜索
肯尼迪。Cordeau”dial-a-ride branch-and-cut算法的问题,”运筹学,54卷,不。3、573 - 586年,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
l . m . Hvattum A Løkketangen, g . Laporte”branch-and-regret启发式随机和动态车辆路径问题,“网络卷,49号4、330 - 340年,2007页。视图:出版商的网站|谷歌学术搜索|MathSciNet
r·巴贾杰s Ranaweera, d . Agrawal“GPS:定位跟踪技术,”电脑,35卷,不。3、92 - 94页。视图:出版商的网站|谷歌学术搜索
d, t .他,刘y和j . A .斯坦科维奇”CallCab:统一为拼车和普通出租车服务推荐系统,”《IEEE国际会议上大数据(大数据”13)2013年10月,页439 - 447。视图:出版商的网站|谷歌学术搜索
d, t, s .林y . Liu和j·A .斯坦科维奇“出租车服务的一个拼车的推荐系统,”IEEE新兴主题计算,卷2,不。3、254 - 266年,2014页。视图:出版商的网站|谷歌学术搜索
h .田”数据描述UrbanCPS (EB / OL)”http://www-users.cs.umn.edu/天河/ BIGDATA /。视图:谷歌学术搜索
李和y, z Gui, y香,“平行城市热点的发现基于出租车轨迹”华中陈可冀大学学报(Ziran《禁止)/华中科技大学学报(自然科学版),40卷,不。1,第190 - 187页,2012。视图:谷歌学术搜索
吴x, g .锅z et al .,“预测城市人类流动使用大规模出租车痕迹和它的应用程序,“中国计算机科学的前沿》第六卷,没有。1,第121 - 111页,2012。视图:出版商的网站|谷歌学术搜索|MathSciNet
l . m . s . Liu y Liu倪,j .风扇和m . Li“mobility-based集群,”第16届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 10)2010年7月,页919 - 927。视图:出版商的网站|谷歌学术搜索
问:妞妞,t .欢,陈平,“NMCT:一种新颖的基于蒙特卡罗技术跟踪算法利用潜在的距离信息,“国际期刊的分布式传感器网络卷,2016篇文章ID 7061486, 10页,2016。视图:出版商的网站|谷歌学术搜索
林d, t, s, s .姆尼尔和j·a .斯坦科维奇”在线巡航里程减少大规模出租车网络”,IEEE并行和分布式系统,26卷,不。11日,第3135 - 3122页,2015年。视图:出版商的网站|谷歌学术搜索
d . Agrawal p·伯恩斯坦,大肠Bertino et al .,“与大数据挑战和机遇,”2012年,http://www.cra.org/ccc/files/docs/init/bigdatawhitepaper.pdf。视图:出版商的网站|谷歌学术搜索
w·赵h·马,问:他“平行基于mapreduce的k - means聚类,”云计算卷,5931在计算机科学的课堂讲稿海德堡,页674 - 679,激飞柏林,柏林,海德堡,2009年。视图:出版商的网站|谷歌学术搜索
美国Gopalani r . Arora,“比较Apache火花和地图减少使用k - means与性能分析,“国际期刊的计算机应用程序,卷113,不。1,8 - 11,2015页。视图:出版商的网站|谷歌学术搜索
d·汉a . Agrawal W.-K。廖,A超“小说与火花,可伸缩的DBSCAN算法”《IEEE 30日国际并行和分布式处理研讨会研讨会(IPDPSW 16)2016年5月,页1393 - 1402。视图:出版商的网站|谷歌学术搜索
B.-R。戴秉国和I.-C。林,”高效的地图/ reduce-based DBSCAN算法与优化的数据分区,”《IEEE五云计算国际会议(云”12)2012年6月,页59 - 66。视图:出版商的网站|谷歌学术搜索
h . t .太阳,c .关闭,f . Li, l . Ma和y方,“一个有效的分级聚类方法为大型数据集使用映射-规约模式,”学报》国际会议并行和分布式计算,应用程序和技术(PDCAT ' 09)2009年12月,页494 - 499。视图:出版商的网站|谷歌学术搜索
t·张,r . Ramakrishnan, m . Livny“白桦:一个有效的数据聚类方法,非常大的数据库,”诉讼的ACM SIGMOD国际会议管理的数据,25卷,不。2、103 - 114年,1996页。视图:出版商的网站|谷歌学术搜索
m . Zaharia m . Chowdhury和j·m·富兰克林“集群计算工作集,”HotCloud,10卷,10页,2010。视图:谷歌学术搜索
m . Zaharia Chowdhury m . t . Das,“快速、交互分析在Hadoop数据与火花,“USENIX登录,37卷,不。4,45-51,2012页。视图:谷歌学术搜索
r . s .鑫j·e·冈萨雷斯·m·j·富兰克林和斯托伊卡,“GraphX:火花弹性分布式图形系统,”学报第一国际研讨会图数据管理经验和系统(成绩13),2013年6月。视图:出版商的网站|谷歌学术搜索
顾和李h . .“内存或时间:绩效评估为迭代操作在hadoop和火花,”性能计算和通信学报》2013年IEEE国际会议上嵌入和无处不在的计算,第727 - 721页,2013年。视图:谷歌学术搜索
m . Zaharia Chowdhury m . t . Das,“弹性分布式数据集:内存中的集群计算的容错抽象,”学报》第九届USENIX大会网络系统设计和实现。USENIX协会,p . 2012。视图:谷歌学术搜索
j . s . Greenfeld”匹配的GPS观测地点在数字地图上,“交通研究委员会第81届会议,2002年。视图:谷歌学术搜索
“民法通则,EB / OL],”http://www.law-lib.com/law/law_view.asp?id=221001。视图:谷歌学术搜索
“侵权责任法,(EB / OL],”http://www.npc.gov.cn/huiyi/cwh/1112/2009-12/26/content_1533221.htm。视图:谷歌学术搜索
“道路交通安全法律,(EB / OL)”http://www.npc.gov.cn/npc/xinwen/2011-04/23/content_1653570.htm。视图:出版商的网站|谷歌学术搜索
j . Hirten和美国Beroldo随意组合项目成本小,做了很多,“运输的季度,51卷,不。2、参与,1997页。视图:谷歌学术搜索
m . Naor“拼车的公平问题,”杂志的算法。认知、信息学和逻辑,55卷,不。1,第98 - 93页,2005。视图:出版商的网站|谷歌学术搜索|MathSciNet
r·b·诺兰w·a·科沃特和l·m·富尔顿”旅游需求政策对节约石油供应应急期间,“能源政策,34卷,不。17日,第3005 - 2994页,2006年。视图:出版商的网站|谷歌学术搜索
m . Ajtai j . Aspnes m . Naor y Rabani, l·j·舒尔曼和o .大师,“公平调度。”杂志的算法。认知、信息学和逻辑卷,29号2、306 - 357年,1998页。视图:出版商的网站|谷歌学术搜索|MathSciNet

无线通信和移动计算

智能城市:最近的趋势、方法和应用

文摘

1。介绍

2。动机

2.1。不充分的信息挖掘

2.2。忽略了有价值的情况下

2.3。忽略目的地分布特征

2.4。筛选标准的片面性;

3所示。出租车网络基础设施

3.1。基础设施

3.2。在底层基础设施隐含的信息

4所示。系统概述

4.1。场景演示

4.2。主要过程

4.2.1。准备载人轨道分布

4.2.2。距离色散的计算

4.2.3。网上的推荐

5。系统实现

5.1。计算框架

5.2。历史载人轨道分布

5.3。函数实现

5.3.1。获得实时的出租车信息

5.3.2。占领了出租车的潜在目的地

5.3.3。距离分散计算和优化建议

6。评价

6.1。评价设置

6.2。距离色散

6.3。减少总里程

6.4。实际绕道比率

6.5。真正的预言距离分布

6.6。集群数量的影响

6.6.1。距离色散与不同的集群数据

6.6.2。减少总里程(%)与不同的集群数据

6.7。区域长度的影响

6.7.1。距离色散与不同地区的长度

6.7.2。与不同地区的总里程长度减少

6.7.3。真正的预言距离分布与不同地区的长度

7所示。讨论

7.1。现有的出租车系统的变化

7.2。接受分享出租车的乘客

7.3。相关法律的支持

7.4。车队经理的额外好处

8。结论

的利益冲突

确认

引用

版权

更多相关文章

相关文章