文摘

旅游模式和旅游需求是一个重要的数据输入今天的交通模型用于交通规划。传统上,旅游需求建模使用人口普查数据,调查旅行,和交通计数。出现问题的事实的样本大小是相当有限的,昂贵的收集和更新数据。蜂窝网络数据是一种很有前途的大规模数据来源获得更好的理解人类的机动性。推断出旅游需求,我们提出一个方法,该方法首先从移动网络数据提取旅行。找出哪些类型的旅行可以提取,我们使用一个小规模的蜂窝网络数据集收集来自20个手机和GPS跟踪收集在相同的设备。使用手机网络的大规模数据集的数据从一个瑞典运营商北雪平市,我们比较旅游需求从蜂窝网络数据推断直辖市的现有城市旅游需求模型以及公共交通托进篮筐。小规模数据集的结果表明,提出的旅行提取方法,召回(旅行检出率)约50%在1 - 2公里的短途旅行,而旅行是75 - 80%的超过5公里。同样,召回也不同交通方式有超过80%为公共交通,汽车为74%,但只有53%的自行车和步行。将旅行合并为一个叫做矩阵后,相关性较弱( )使用原来的分区用于旅游需求模型189区,虽然它是重要的 当聚合到24区。我们发现这次旅行提取方法的选择是至关重要的旅游需求的评估,我们发现系统的差异导致旅游需求矩阵使用两种不同的方法。

1。介绍

为了满足旅游需求不断增加和减少环境影响,今天的交通系统需要变得更有效率。消息灵通的决策改善交通系统,详细了解人类活动是必要的。这要求全面的旅游信息模式和实际的旅游需求,而今天是很难获得1,2]。

蜂窝网络数据被视为一个有前途的数据源可以用来增加交通管理(3和交通规划4,5]。作为一个大规模的数据来源,它可以给新见解与所有旅游流动模式。它也比旅行更容易保持最新的调查。几项研究已经调查的可能性从蜂窝网络数据推断出旅游需求。从手机网络数据估计旅游需求涉及到一系列处理步骤。很少有研究使用真实世界的蜂窝网络数据和比较所有这些处理步骤的输出生成的其他现有的数据。因此,没有全面了解质量和潜在问题可能出现在数据处理步骤。

本文旨在分析旅游需求的潜力和局限从大规模的蜂窝网络数据推理。我们提出一个过程从蜂窝网络数据,获得旅游模式组成的两种算法提取旅行和一个方法来推断分成一些时间段,旅游需求。为了评估旅行萃取性能在查全率和查准率方面,我们比较旅行从细胞中提取网络数据获得的旅行从GPS跟踪收集相同的移动设备上。使用这种方法,我们可以分析哪些类型的旅行可以从细胞检测到网络数据通过应用两次提取方法。我们推断出瑞典的旅游需求分成一些时间段,直辖市使用大规模移动网络数据集和调查提取方法用于旅行的影响产生的旅游需求。在估计的比较分析旅游需求和市政当局现有的城市旅游需求模型和其他数据源,我们评估旅游需求使用蜂窝网络数据推断。

本文的其余部分由先前的研究在该领域的概述部分2,紧随其后的是一个描述的方法用于旅行提取以及旅游需求推理部分34。提出的方法已被应用于数据集5。分析的结果提出了部分6和讨论的部分7

2。先前的研究

常见的方法在交通规划模型的交通系统遵循结构的“四段式”模式6]。四个步骤是基于人口普查数据建模,调查,和校准交通计数。旅游需求在这些模型使用引力模型建模7]。缺点来自底层的行为假设,这是一个对现实的简化。一个主要问题是,这些交通模型的质量和细节的水平取决于输入数据的收集是昂贵的。

研究调查的潜在使用蜂窝网络数据流量分析作为一种新的数据源已经进行了至少十年。卡塞雷斯et al。8)已经在早期研究显示潜在的旅游需求的评估。几个metastudies列表的个案研究中得到大量关注旅游行为(5),具体方法如机器学习(9,手机网络数据上下文的其他新的数据源,如全球定位系统(GPS)追踪和智能卡数据从公共交通系统(4]。总结的潜在和障碍使用蜂窝网络数据流量分析给出了冯的早晨(10]。

蜂窝网络数据收集也当用户不是旅行。然而,在流量分析上下文,感兴趣的体育运动。天线可以造成实际的改变,体育运动还发生其他原因。因此,该地区的大多数研究涉及一些旅行检测步骤旨在区分移动时间(trips)和静止期(停止)。一个常见的方法是使用亚历山大et al。11),花茎甘蓝等。12],Graells-Garrido et al。13)等,是检测停止通过扫描一个用户的数据,发现时间满足特定标准表明用户没有移动一段时间。一些研究利用的事实,人们经常去同样的地方几次(1)通过识别重要的地方(11),特别是家庭和工作(14]。最近,更高级的旅行提取方法利用聚类和其他方法通常被称为机器学习已经使用(15]。布雷耶et al。14]提出一次提取方法,而使用不同的指标确定运动。旅行的选择提取方法的影响当推断旅游需求讨论Gundlegard et al。16]。

旅行从细胞中提取网络数据可以作为一个独立的旅游需求来源的数据8]或来增强现有的旅游需求模型与额外的输入数据(17]。与今天的无处不在的移动设备,移动网络数据是理解自然来源大规模的旅游模式。它是具有挑战性的,相反,使用手机网络数据获取关于旅行的附加元数据模式除了他们作为流动在时间和空间的描述。亚历山大et al。11)和Widhalm et al。15)取得了一些试图访问目的和活动进行分类,和Bachir et al。18)和Graells-Garrido et al。13)旅游需求调查来推断可能性为每个旅游模式。社会经济数据没有提供个人手机网络数据隐私的原因。因此,旅游模式与社会经济属性是具有挑战性的,需要做一个聚合的水平,为提出的花茎甘蓝et al。19]。

旅游需求的质量判断推理从蜂窝网络数据,在文献中使用不同的方法和指标来验证和比较结果到其他数据源。验证提取,trip-by-trip比较像GPS跟踪另一个数据源提供最详细的了解行程检测质量。只有少数研究Fillekes [20.和布雷耶等。14)做到这一点,作为第二个数据源的采集需要额外行动由用户,因此只能在小范围内完成。为大规模数据集验证提取的旅行,一些研究,而看聚合统计(21]。例如,这样的数据可能是旅行的长度分布或旅行的数量和用户每天可以调查。

验证的旅游需求是困难的,因为地面真理是未知的,不能完全观察到。几项研究比较计算旅游需求对现有交通模型已使用其他数据源构建和描述相关使用 值或均方根误差(RMSE) [22,23]。困难在于,叫做流(OD流)的相关性取决于大小的设置和出发地/目的地区域使用,作为了Batran et al。22]。OD流的相关性也忽视了他们的空间结构:例如,如果流分配给一个邻近的目标区域,它将具有相同的影响相关措施好像流分配给一个不同的目的地区域非常遥远。波拉德et al。24)讨论新的相似性措施来克服这个问题。另一种方法是使用交通模型来估计链接流从推断旅游需求由伊克巴尔et al。25),它允许对实际流量计算进行验证。

3所示。次提取

蜂窝网络数据指的是事件触发的移动运营商的网络。为了利用蜂窝网络数据分析旅游模式,第一步是区分运动(trips)和静止期。对于一个给定的用户,原始数据由一系列事件 ,在哪里 是事件的时间吗 天线是事件发生的地方。表1给进一步的符号用于本章,表2提出了本文使用的参数设置,也进一步解释部分3.5

提出了两种方法来提取旅行在这一节中。在运行这些算法之前,原始事件预处理,如部分所述3.1。该算法停止然后检测旅行,首先识别静止的时期,虽然算法运动直接使用运动指标检测运动。旅行提取的输出是一个旅行对于一个给定的用户列表。每个旅程都有一个开始时间和结束时间以及开始天线和天线。

3.1。预处理

我们提出的预处理事件估计最可能的用户为每个时刻的位置。这是简化提取工艺,得到一个更准确的提取旅行时间估计。事件引起的周期性更新,例如,发生在恒定的时间间隔独立于用户的运动。因此,它是合理的假设用户移动中间两个事件。预处理完成如下:(1)从午夜到第一个事件,假定用户在第一个事件的天线。(2)估计用户位置使用所有成对的连续事件(见下文)。如果有多个事件在一分钟,只保留最常出现的天线。(3)从最后一个事件到一天结束的时候,假设用户是在最后一个事件的天线。

给定两个连续的事件 ,在哪里 是时间和 是事件发生的天线,我们定义用户的位置 在哪里 是一个参数限制在多少时间最多可以移动天线之间的切换。

3.2。Stop-Based旅行提取

一种简单的方法来提取旅行是通过检测用户的停止。这种方法已经被使用,例如,通过花茎甘蓝等。12]。使用预处理用户位置、用户的停止检测。最后,提取用户的旅行:旅行开始停止结束后下一站开始时和结束。

在停止检测算法1),停止继续只要下一个位置被认为是接近前面的包含在停止位置。距离阈值 作为最大的位置之间的距离正在停止。一旦以外的用户移动当前的位置停止,停止保存已经结束,如果它满足最小停留时间 如果停止短,忽视和被认为是正在进行的旅行的一部分。在这篇文章中,阈值的距离 和的最小停留时间 已经被使用。

数据:用户位置 为每分钟
结果:停止列表年代
; ; / 初始化与停止 /
为每一个
如果 然后/ 在距离? /
; ;/ 停止继续 /
其他的
如果 然后/ 停止足够长的时间? /
;/ 保存有效的阻止 /
结束
; ; ;/ 启动新停止 /
结束
结束
3.3。迁移型旅行提取

形成鲜明对比停止算法在前一节中描述运动算法提取旅行通过检测运动而不是检测先停止。更详细的描述也被布雷耶et al。14]。使用描述的用户位置产生的预处理部分3.1,运动指标 计算出每一分钟t 计算的加权平均速度计 效率指标 αβ权重:

速度指标 被定义为

在这里 速度估计使用吗 ,天线位置之间的距离 ( 窗口大小的参数)。阻止一个非常高的速度获得太多的影响,速度指示器是有限的 参数。

效率指标 被定义为 在哪里

这个指标作为一个过滤器对邻居之间切换天线通常是由其他原因引起的物理运动手机(网络平衡和信号强度的变化)。它比较了直线距离在一个时间窗口定义的参数 (包括所有的旅行距离天线一起使用)。请注意, 不超过1 在任何时候。

考虑到 已经计算了每一个吗t,使用一个低和高阈值定义 任何时间间隔 为满足以下所有条件生成一个旅行:(我) 完成一些t在这次旅行(2) 完成所有t在这次旅行(3)旅行的距离(包括通过天线)超过

最小距离要求额外的测量对短天线之间的啤酒花被视为旅行。的开始和结束时间旅行是第一个和最后一个的时候,分别改变天线发生在这个时间间隔根据估计用户位置(见部分3.1)。

3.4。旅行提取的例子

旅行提取使用两种算法用一个例子说明了清晨的通勤旅行对于一个给定的用户(见图1)。图2显示,停止运动发现之旅的开始同时但不同检测结束时间的旅行。当检测到旅行停止结束前,检测到旅行运动还包括一个两个天线之间来回切换的目的地,这最有可能是不相关的物理运动。底层指标中使用运动算法对相同的早晨底部时间表在图所示2。实际的旅行结束后,有一个小高峰的指标,这是一个情况最小距离阈值不满足,因此,不提取的旅行停止以及运动

3.5。参数设置

本文中使用的所有参数值的提取算法展示在表上方2。这些值被设置为适合本文中使用的数据特征的数据集(见部分5)。我们已经测试了不同的值对于大多数参数使用小型GPS验证数据集(见部分5.1)和手动检查结果。系统校准尚未完成,给定数据集的nonrepresentativeness和高风险的过度拟合给定数据集的规模小。

本文使用的数据集包含定期更新每30分钟。只要定期更新是可用的,它是合理的假设之间的运动发生在中间定期更新,这是通过设置启用 在预处理= 15分钟。

停止算法的权衡 检测旅行甚至短活动之间(低吗 )和检测交通旅行一次(高转移 )。 允许检测之间的旅行活动少于一个小时,但仍保持大多数交通旅行一次我们假设传输的数据集通常不到40分钟。

的参数 停止 运动,分别是检测之间的一种折衷甚至短途旅行(低价值)和包括噪音数据,也就是说,旅行从开关天线之间没有任何物理运动引起的。合适的参数设置为1公里的城市场景一个密集的网络天线。

4所示。旅游需求推理

下一步是聚合旅行从细胞中提取网络数据来推断旅游需求(见图3)。第一步的过程,远程访问服务器设置,所述德Montjoye et al。26),用于确保隐私。后聚合和扩展(见部分4所示。1),检查匿名,由此产生的OD矩阵转换(见部分4所示。2)和进一步聚合(见部分4所示。3)使它可用流量分析上下文。

4.1。聚合的旅行和可伸缩性

描述旅游需求,以前旅行聚合成一个OD矩阵中提取切片工作日和小时。这个最初的起源和目的地OD矩阵的开始和结束天线是旅行。这个矩阵计算的旅游需求的旅行每一对天线在某一小时。确保生成的OD矩阵不透露任何信息在个人旅行者,OD对的旅游需求只是救了如果有旅行由多个用户在给定的工作日和小时。

OD矩阵计算加法的旅行中发现蜂窝网络数据集描述客户所使用的手机的移动模式的运营商。然而,对于交通规划的目的,整个人口的移动模式感兴趣的。这建立需要一些方法缩放整个人口的旅游需求。即使在假设数据集是代表整个人口,这不是微不足道的。

本文重点是结构的OD矩阵,五花肉旅游需求是如何分布在不同的地区和旅游需求随着时间的变化,而不是估计的总需求。我们离开的伸缩性问题未来的研究。然而,能够比较从蜂窝网络数据推断旅游需求与现有旅游需求模型,我们把需求从蜂窝网络数据推断出在每个OD对比例因子。规模因素是全球性的;每一小时,一天,OD对比例相同的因素。比例因子设置这样的总旅游需求平均工作日周一至周四多为()等于总需求在现有旅游需求模型用于比较。

4.2。转换为流量分析区

能够使用OD矩阵生成的蜂窝网络数据流量分析的背景下,天线水平上的OD矩阵需要转换成一个使用流量分析区域OD矩阵(小胡子)。转换到一个小胡子水平OD矩阵允许也比较OD矩阵转换现有的模拟OD矩阵也可用于流量分析区域(小胡子)。

我们实现了一个转换过程,首先定义估计覆盖范围的来源和目的地天线假定一个用户可能已经开始/结束了旅行在给定的OD对。如果可用,一个多边形描述可以使用天线的覆盖范围。没有详细描述天线的覆盖,然而,在这篇文章中,我们使用天线的泰森多边形法细胞加上一个额外的缓冲估计1公里的覆盖范围。对于一个给定的天线的覆盖范围 ,权重分配给每一个小胡子Z:

之外的每一个小胡子的面积效应将分配重量为零的定义。使用人口(数量根据人口普查,生活在这一地区的人)在权重分配旅游需求是密集的地区,而不是没有任何建筑物。在图4,例如,没有包括人口数据,阴影的最高重量泰森多边形法细胞将会分配给小胡子10是一个公园和墓地,而居住区3和4会得到一个较低的体重。包括人口统计,大多数重量将居民区,这似乎更为现实。

对于一对TAZ-OD ,流(旅游需求)计算的总和流分配的OD对所有antenna-OD对 :

注意,转换后的小胡子,总流量保持:

问题发生在边境附近地区的面积调查数据是可用的。使用相同的转换过程如上这些领域将分配所有外部旅游需求(调查的游客离开或进入该地区)区域交通分析(小胡子)边境附近。将外部的旅游需求,标记为外部天线边境附近。大量的流量分析区域(小胡子)定义,对应于不同的外部周边地区的面积调查。流和从外部天线然后映射到最接近外部小胡子。

4.3。聚合在时间和空间

分成一些时间段,OD矩阵工作日和小时,转换为小胡子,是最详细分析我们发现有用的旅游模式。我们使用进一步聚合在时间和空间。聚合时间是指合并一定时间跨度的OD矩阵分成一些时间段,工作日和小时。本文中使用一个典型的聚合的聚合典型工作日24小时流动。在这里,在计算每一对OD流的平均天从星期一到星期四。这种聚合允许比较从蜂窝网络数据推断旅游需求对现有模型,不是分成一些时间段。能够理解旅游需求更空间聚合层面,我们定义一个新的聚合分区分组比较的几个流量分析区域(小胡子)。然后新的空间聚合矩阵包含流之和为每个组的流量分析区(小胡子)。

5。数据集

蜂窝网络数据的两个单独的数据集被用来评估方法的不同方面。第一个数据集,描述的部分5.1,用于小型验证提取算法。第二个数据集,描述的部分5.2,是用来推断旅游需求在城市层面。以下的分类不同类型的手机网络数据Gundlegard [27),这两个数据集包含计费数据和位置更新从核心网络中提取。计费数据包括数据记录电话,短信,和数据服务请求,有时统称为x-detail记录(xDR)数据(26]。包括周期性位置更新、位置区(LA)、路由面积(RA),跟踪区域(TA)和细胞更新。没有事件相关的交接或测量报告是包含在数据集。

5.1。手机网络和GPS数据集验证

手机网络信号数据的第一个数据集已经被操作员从网络中提取20专用SIM卡(数据不包括任何其他用户的数据除了研究的参与者,具有明确的考虑到他们同意他们的位置更新)的集合。这个小的数据集是不能代表整个人口。从细胞中提取的信号数据网络在这个数据集包括位置区更新,定期更新,以及呼叫详细记录(CDRs)生成的电话和短信。定期更新执行每30分钟当连接到一个4 g网络(LTE)。事件数据集之间的平均时间大约是25分钟。

在测试期间,相同的设备也被收集位置数据使用谷歌位置历史服务。谷歌位置历史数据收集在本地设备上的基于全球定位系统(GPS)的组合,支持WiFi,和细胞定位本地传感器加速度计和陀螺仪检测流动。自从谷歌位置历史使用本地传感器定位和运动检测、时空精度较高相比手机网络信号数据。谷歌位置历史还将旅游模式(“活动”)和分裂旅行当旅游模式的变化。旅行从细胞中提取的比较网络,谷歌旅行不到30分钟之间已经合并成一个旅行。

几个问题已确定的原始数据。我们使用的过滤器清洁这些问题,消除一整天的数据受影响的用户(dataday)如果一个过滤器已经发现一个问题。蜂窝网络数据,天有31分钟以上没有一个事件(“缺失的数据”)和天连续两个事件之间有超过50公里(“大跳”)被移除。天也被当一个问题历史数据从谷歌位置检测。这包括活动分为“移动”谷歌位置历史。通过人工检查,我们发现,大多数的这些活动没有连接到任何实际旅行,因此不应该包括在比较。天也被当与一个不切实际的速度旅行活动记录。对于驾驶活动,例如,旅行低于5公里/小时或超过130 km / h被认为是不切实际的。最后,天有超过1公里之间最后的结束,开始下一个谷歌位置历史之旅或超过24小时没有旅行(删除“缺失的数据”)。超过一半的谷歌旅行和细胞事件已被移除的过程(见表3)。过滤器用于谷歌的位置历史数据的很大一部分,这表明有频繁的问题使用谷歌位置历史数据收集与使用设备。注意,总可以小于单个过滤器的总和,是同一天可能被多个标记为虚假的过滤器。

5.2。市级蜂窝网络数据集

市级蜂窝网络数据集是基于3700万年手机网络事件(计费数据和位置更新)从三个星期在2017/2018。被挑选的几周不包括主要的节日。数据集的用户id已经每天重复。平均每天约有47000用户数据集。事件之间的平均时间为移动设备数据约为14分钟。然而,情况有很大差异,例如,使用手机网络,如果设备移动等,这样interevent时间秒到数小时之间的不同。图中描述3,第一步已经控制的移动网络运营商使用我们提供的算法来提取旅行。

代表天线覆盖地区,泰森多边形法使用镶嵌(28]。通过蜂窝网络的性质,一个基站通常主机三天线与天线在同一位置每个覆盖不同的角度。Bachir et al。18)提出了一个方法来改善泰森多边形法镶嵌在每个基站有三个部门。对于这个数据集,我们使用一个简单的方法来改善行业的代表。而不是运用泰森多边形法镶嵌最初的天线位置,我们将每个天线使用其方位几米到报道的方向。的结果是一个更好的表示不同行业产生的泰森多边形法细胞。

5.3。重力模型

我们比较从手机数据推断旅游需求的旅游需求模型所使用的北雪平市。模型是一个经典的四步模型组成的旅行,旅行分布、模式选择和路径选择的步骤(6]。

市的交通模型是基于人口普查数据从2014年随着昼夜人口(工作场所)。为这次旅行一代也有两种旅游调查(一个调查从2010年开始,一个从2014年)作为输入。总的来说,4880年旅行已经使用的调查报告。行程分布是模仿/活动使用引力模型(7]。活动类型建模工作,学校,孩子上学,购物,空闲时间活动,等等。目的地的吸引力是模仿使用设施与活动相关的数量(例如,工作场所的数量)。重力模型的成本,每一对的距离使用区域。每个活动生成一个从家里到活动和一个对称的回程。对于模式的选择步骤,logit模型(29日)是用于旅行时间和距离为每个模式作为输入。旅游模式建模是公共交通,汽车,重型车辆(HGV),自行车和步行。最后,在路径选择步骤,一个网络重复加载,直到用户达到平衡状态。链接流模型计算的使用计数为每个旅游交通模式进行验证。

与OD矩阵的蜂窝网络数据,我们使用所有这些模式所产生的旅游需求总量为每个OD对除了步行。模型不是周一至周四多为分成一些时间段和模型的平均流量。然而,工作一直由Lindstrom,佩尔森(30.)事后分配汽车交通OD矩阵使用交通计数。

模型使用一个分区有189流量分析区域(小胡子)被称为小胡子- 189。其中,167区直辖市内(见图5),其余22个区域代表外部交通邻近的城市。允许更聚合层面比较,我们定义一个额外的选择分区(TAZ-24)原区域分为只有24区(19内部和外部区域5日)由不同的颜色在图表示5

6。结果

验证访问提取方法中描述的部分3,我们使用描述的数据集5.1和比较个人去旅行被谷歌位置历史上同样的设备。验证的结果包括一个分析的局限性提出了旅行从蜂窝网络数据提取的部分6.1。结果部分6.2基于部分中描述的大规模数据集5.2关注旅游需求的推断,这是比直辖市的经典旅游需求模型。

6.1。次验证

运行旅行提取算法停止运动(见部分3)清洗验证数据集(见部分5.1)分别得到393年和450年的旅行。相比之下,548次(见表4)已经被谷歌位置历史。当只包括旅行一定公里的最小长度比较,回忆也在不断增加。

6展示了旅行如何分配一天的小时中根据他们的开始时间。原始事件的时间分布表明,稍微事件时生成运动;基于这种方法,数据收集。总的来说,这次旅行的区别边缘提取算法在时间分布。然而,值得注意的是,早晨高峰之前根据移动网络数据相比,谷歌位置历史。一个原因可能是用户位置估计的方式用于两种算法的预处理(见部分3.1)。似乎谷歌位置历史有时也需要一段时间,由运动引起的,从而忽略了实际开始时间旅行的设备我们已经使用。经常发生这种情况时,手机没有活跃的一夜。另一个明显的区别是小峰在午餐时间在谷歌位置历史,这不是被旅行从蜂窝网络数据提取。大多数这些旅行很短步行去附近的一个午餐的餐厅工作,这些短途旅行是特别困难的从手机网络数据检测。

进一步判断旅行从蜂窝网络数据提取的性能相比,基于全球定位系统(GPS)的谷歌位置历史,我们使用两个值:(我)回忆:谷歌的份额历史位置存在一个匹配的旅行旅行从蜂窝网络中提取数据(2)精度:分享的旅行从细胞中提取网络数据存在一个匹配的谷歌位置历史之旅

召回措施如何成功的算法reidentifying谷歌位置已经确定历史的旅行,而精密确保这是不检测的费用很多假阳性。两个值,一个更高的价值更好。当没有其他规定,一次检测到从移动网络数据和访问历史被认为是谷歌位置匹配如果所有的实现如下:(1)有最多45分钟开始时间之间的旅行。也是最后次。(2)开始旅行的位置之间的距离最多2公里。这个方法同样适用于最终的位置。

整个召回达到0.69停止0.53,运动(见表4)。然而,这些价值观很大程度上取决于组成的验证数据集,这并不代表整个人口。召回是只有旅行时显著增加一定的最小长度进行了比较。较短的旅行,尤其是短于2公里,尤其难以从蜂窝网络数据检测。旅行比1公里短不能检测到使用的最小距离阈值停止运动算法。甚至根本无法达到最优算法召回或精度1从手机网络收集的数据从谷歌位置以及历史并不完美(见章节7.17.4)。

因为我们的目标是使用旅行从细胞中提取网络数据来推断旅游需求,重要的是要理解的局限性可能导致某些类型的旅行被高估或弱势。是一个重要方面来检测旅行不同的模式。表5表明召回主要不同为不同的模式:步行旅行,停止检测只有大约一半的旅行和运动更少,只有大约四分之一的谷歌位置历史之旅。相比之下,对于大多数公共交通模式,召回非常高,但需要说明的是,只有数量有限的数据集的旅行。

除了旅游模式,了解相关旅行可以捕获不同的长度。图7显示了回忆,和图8显示的精度取决于旅行的距离。而回忆起第一次增加和旅行约8公里达到高峰,有轻微下降后的回忆。这可以解释这一事实成为旅行的时间越长,越高他们已经分手的概率不同于蜂窝网络数据和谷歌位置历史上(例如,当传输了)。运动执行明显比停止特别是对于很短的旅行。

理解空间旅行从蜂窝网络中提取数据的准确性,我们定义的空间误差蜂窝网络访问的开始或结束位置的距离开始或结束位置,分别谷歌位置历史之旅的最佳匹配。对于这两个停止运动,我们观察到一半的开始/结束的位置提取的旅行是在500米的同行根据谷歌位置历史(见图9)。90%以上的位置都是在2公里的各自的谷歌位置的历史地位。

6.2。市级旅游需求

本节就着重那些坏家伙了聚合旅游需求从大规模的蜂窝网络数据推断北雪平市的。这里讨论的矩阵是基于部分中描述的数据集5.2和一直在使用旅行提取方法计算部分3和推理过程中所描述的需求部分4。我们分析OD矩阵的结构通过比较直辖市的旅游需求模型和矩阵的时间配置文件。

6.2.1。OD矩阵的结构

分析OD矩阵的结构从蜂窝网络数据推断,缩放后的旅游需求匹配的总流相比,直辖市的引力模型。这使得理解如果有旅游需求的结构差异分配不同OD对间的矩阵从蜂窝网络数据和重力模型推断。图10给出了一个并排的概述旅游需求在最密集的区域计算使用蜂窝网络数据和城市旅游需求模型。虽然有一些差异,旅游需求估计从蜂窝网络数据类似于重力模型很好。

基于使用的建筑和阈值停止算法,它检测到更多的短途旅行运动算法。这是在图可见7在旅行比几公里短表现出相当高的记得使用吗停止算法的验证数据集。这也解释了较高的召回旅游模式常用于较短的旅行,比如步行和骑自行车(见下表5)。这是可见的OD矩阵的结果,相对较高的流动被分配到OD对短距离(见图11)。运动相比之下,产生距离分布是非常符合重力模型。分析zoneflow显示了OD矩阵结构影响旅行的不同提取方法。zoneflow这里指总OD流的开始和结束在一个区域。可以观察到显著差异在人口稠密的地区运动产生zoneflow远低于停止。农村地区的直辖市,可以观察到相反的。一个解释可以短途旅行可能是更常见的在中部城市和旅行,这些都是更好的被停止算法。

系统地比较OD矩阵的结构和现有的重力模型,我们研究OD-matrices(参见图之间的相关性12)。之间的巨大差异是发现两个级别的聚合(见表6)。而原始的小胡子的相关性- 189分区是弱,运动- - - - - -停止基于矩阵达成 值分别为0.82和0.81,为更多的聚合TAZ-24分区。这表明我们没有能力,使用的方法和数据,推断出详细的旅游需求小胡子- 189分区(区域通常只包含几个住房块),而旅游需求推理适用于TAZ-24分区。发现了类似的结果,Batran et al。22]。虽然这两种方法显示类似的相关模型,但这并不意味着没有区别这两个手机网络基于数据矩阵的 0.84之间的价值运动- - - - - -停止的OD矩阵所示。

zoneflow的相关性(见图13)表明相似的区域之间的旅游活动分布;因此,如果使用手机网络数据,同一区域被认为是欧元区产生最旅行,不考虑这区域之间旅行。的 值的0.85和0.90运动停止(TAZ-24)表明,使用手机网络数据,欧元区活动相关的重力模型(见表6)。

6.2.2。旅游需求的时间剖面

使用分成一些时间段OD-matrix从手机网络的数据,我们可以获得时间配置文件具体流量分析区域(小胡子)或OD对。图14显示了一个示例的市中心北雪平获得使用运动算法。我们发现一个典型的通勤模式在工作日到达峰值大约早上8点和下午出发在16:00-17:00达到顶峰。考虑到样本大小,它通常是不可能得到类似的时间配置文件具体流量分析区域(小胡子)或OD对从旅游调查。传感器提供交通计数资料可以提供时间确定交通方式只有测量总交通交通网络中的一个链接,这是很难分解为OD对的。

15显示配置文件的时间总需求由两个推断运动停止。时间配置文件从移动网络数据显示一个清爽的早晨/下午高峰模式在周末工作日和一个不同的模式。市的旅游需求模型是一个典型的工作日的静态模型。因此,该模型不包含任何时间剖面比较。然而,Lindstrom和佩尔森(30.]试图创建一个分成一些时间段,版本的原始模型包含一个典型的工作日时间剖面(贴上“模型(车,24)”的人物15)。这个时间剖面被估计使用的数据流量传感器。

我们发现时间剖面从蜂窝网络数据推断出类似于基于传感器数据分成一些时间段,需求模型(见图15)。总流的模型是较低的,因为它只是基于汽车旅游需求,而总手机网络的OD矩阵的总总结汽车,公共交通,重型车辆(HGV),和骑自行车。补充分成一些时间段,汽车矩阵,我们还添加托进篮筐的数量在直辖市的公共交通系统平均周一至周四多为()。结合分成一些时间段,汽车矩阵和托进篮筐的数量(”模式(车,24)+托进篮筐”)非常适合于时间剖面仅从蜂窝网络数据推断。

7所示。讨论

上面的结果显示潜在的以及一些问题当从蜂窝网络数据推断旅游需求。个人旅行的比较和聚合OD流允许我们讨论潜在的挑战与提取旅行和旅游需求推理。通过比较两次提取方法,我们可以更好地理解旅行提取方法对结果的影响旅游需求。挑战识别与数据收集,用于旅行的方法提取、以及旅游需求推理方法进行了比较。

7.1。数据收集

调查记录事件在蜂窝网络数据集描述的部分5.1,我们发现原始数据包含错误的情况。这包括,例如,大跳的从一个事件到另一个50多公里,那里通常连接到其他天线应该是介于两者之间。在极少数情况下,似乎有交错定期更新一些用户和天。这意味着在天线不仅定期更新用户每30分钟也定期更新天线B每30分钟之间。因为这可以持续几个小时,它可能导致旅行持续无限,而这种情况持续。我们认为,这可能与不同的移动网络类型(全球移动通信系统(GSM)、通用移动通信系统(UMTS)和长期演进(LTE)),同时创建数据。

大部分的旅行没有检测到移动网络数据可以解释为在空间有限的决议是由天线的密度决定的。行程太短触发开关的天线不能检测到从移动网络数据只包括计费数据或位置更新。然而,每个天线的实际覆盖范围的信息可以取代静态访问的最小距离阈值提取算法,使检测更短的旅行天线密度允许,可以用来改善的空间精度的开始和结束旅行。开始和结束时间的准确性可以改善通过使用数据interevent较低时间。数据生成对个人用户将允许更长时间的利用循环模式。

7.2。次提取

我们选择两次提取算法,不同的工作,而为了了解多少影响算法的选择。我们看到不同的查全率和查准率之间的推理算法和相信,特别是具体的开始和结束时间和位置的旅行运动算法可以改善。灵敏度分析的参数值应改善详细了解他们对结果的影响。彻底校准参数的算法,为本文尚未完成,可能导致召回和精度有所改善。召回100%不实现任何算法,然而鉴于一些旅行太短天线的触发开关。然而,我们看到潜在的使用数据估计天线保险而不是一个静态的距离阈值能够发现更多的短途旅行的天线密度允许精度以及改善地区很少有天线和大型覆盖区域。利用重复出现的模式,比如定期造访的地方,可能会进一步提高检测到旅行的质量,但需要用于数据为同一用户超过一天。

的结果运动停止算法表明,添加更多的复杂性旅行提取方法不一定提高旅行提取。在我们的示例中,相对简单停止比更复杂的算法通常能提供更好的结果运动算法。然而,我们相信,改善提取算法可以旅行,例如,在估计的具体开始和结束时间旅行。

7.3。旅游需求推理

推断旅游需求通过聚合提取的旅行携带旅行偏见的风险。短OD对的旅游需求,例如,低估了如果检测到太少的短途旅行。从图11,我们可以得出结论,这似乎并非如此在比较现有的旅游需求模型。相反,停止高估了短距离的流动。但众所周知,旅游调查,较短的旅行也常常被低估(31日]。因此,一个好的匹配模型并不一定需要积极。考虑到整体相关性模型是非常相似的两种方法,这是一个有趣的结果,不同的旅行提取方法造成重大的结构性差异产生的OD矩阵。这可以看到的,例如,在差异zoneflow如图16

我们能够繁殖旅游模式聚合TAZ-24分区,而不是详细的小胡子- 189分区(见部分6.2)。使用的方法和蜂窝网络数据,空间分辨率有限的天线密度。然而,它甚至可能详尽的重力模型不能精确模型流动小胡子- 189分区。限制使用的旅游需求计算的需求比例常数因子匹配模型的需求。估计总旅游需求独立于现有的旅游需求模型中,一个更高级的扩展方法是必要的,这可能是基于人口普查数据,运营商的市场份额,和交通计数。小胡子OD矩阵的转换,我们使用人口统计分发的需求在区域靠近天线泰森多边形法细胞。这就解释了为什么区8中的旅游需求(居民区)似乎高估了,虽然邻近区域的需求5(由行业和工作场所)低估了(见图16)。替代使用土地利用数据或在工作场所的数量包括数据转换成流量分析区域(小胡子)。

7.4。比较的方法

比较trip-by-trip谷歌位置历史让我们更详细的方式来验证旅行比大多数其他研究。然而,我们发现,谷歌位置历史并不是一个完美的地面实况。绝大部分的数据显示问题,需要从比较(见部分删除5.1)。解决谷歌位置历史并不总是像人们预计的那样好从全球定位系统(GPS)的踪迹。可能的原因是battery-saving技术或使用特定设备的问题。它还需要考虑数据集收集使用20个电话并不代表整个人口。此外,匹配定义计数作为一个错误如果旅行在一个数据集分成了两次,但另一连接访问。

虽然城市旅游需求模型用于比较的OD矩阵推算蜂窝网络数据是最好的可用的描述实际的旅游需求,它不是地面真理。有许多模型中假设不持有在现实中。重力模型,例如,基于流量分析区(小胡子)之间的距离。模型也对称的所有活动生成旅行开始在家里活动和旅行回家,而现实中可能有活动链。外部旅行从/到市外以及重型车辆(HGV)交通已从瑞典的国家需求模型,直辖市内没有提供细节。

8。结论

我们已经提出了一个过程从蜂窝网络数据推断出旅游模式首先提取旅行然后聚合和转换成一个OD矩阵。比较trip-by-trip以及其他可用数据聚合的旅游需求,我们可以理解方法的性能和识别潜在的问题。

次萃取,简单停止算法在某些方面比执行更复杂运动算法的验证数据集从谷歌位置历史。可以观察到对于短途旅行最大的区别( ),而变小了,小的差异进行长途旅行。召回了超过80% (停止)旅行用公共交通工具,而它是可怜的只有25% -50%,步行或骑自行车旅行。

我们找到一个合理的推断旅游需求之间的相关性蜂窝网络数据和现有的旅游需求模型,北雪平市分区聚合后24区。旅游需求之间的差异使用两次提取方法推断是边际时相关模型 的值为0.82运动0.81,停止。这可以但是不是隐藏的事实推断OD矩阵表现出显著的结构差异。的 值为0.84两个蜂窝网络之间的基于数据的矩阵之间的相关性并不明显高于蜂窝网络基于数据矩阵和模型。旅行提取方法的选择是至关重要的考虑到系统的差异,或代表名额不足的短途旅行,在推断旅游需求产生重大影响。

未来的研究需要对旅游需求的旅游的分离模式。的方法也需要完成一个适当的缩放方法允许在总需求来获取新的信息。与现有的旅游需求模型存在的事实模型不是一个地面实况。大规模数据的主要潜在蜂窝网络数据在于相比更大的数据量,例如,旅游调查允许缩放到特定的OD对包括每小时时间配置文件甚至可以实时获得。

首字母缩略词

CDR: 呼叫详细记录
全球定位系统(GPS): 全球定位系统
GSM: 全球移动通信系统
HGV: 重型车辆
LTE技术: 长期演进
RMSE: 均方根误差
小胡子: 流量分析区域
UMTS: 通用移动电信系统
xDR: x-detail记录。

数据可用性

蜂窝网络数据用于支持本研究的发现没有可用来保护隐私。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了瑞典机构创新体系(Vinnova)(批准号2013 - 03077)。