文摘
物联网的出现将彻底改变共享移动通过启用高乘客和运输工具之间的连接。这产生巨大数量的数据可以显示有价值的知识和帮助理解复杂的旅游行为。同时,它挑战分析平台从数据的运动(即发现知识。,the analytics occur in real time as the event happens), extract travel habits, and provide reliable and faster sharing mobility services in dynamic contexts. In this paper, a scalable method for dynamic profiling is introduced, which allows the extraction of users’ travel behaviour and valuable knowledge about visited locations, using only geolocation data collected from mobile devices. The methodology makes use of a compact representation of time-evolving graphs that can be used to analyse complex data in motion. In particular, we demonstrate that using a combination of state-of-the-art technologies from data science domain coupled with methodologies from the transportation domain, it is possible to implement, with the minimum of resources, the next generation of autonomous sharing mobility services (i.e., long-term and on-demand parking sharing and combinations of car sharing and ride sharing) and extract from raw data, without any user input and in near real time, valuable knowledge (i.e., location labelling and activity classification).
1。介绍
交通行业的边缘上前所未有的改变。一项调查显示,81%的受访者认为物联网(物联网)将彻底改变交通部门(1)和交通行业支出预计将超过2022年1万亿美元大关(2]。物联网的出现在过去的十年中使人们的连通性,货物的交通工具,整个交通基础设施。结果是一个无与伦比的的数据量,在革命的速度和在不断扩大3]。同时,交通行业仍是增长最快的行业担忧的排放和共享移动服务提供的一个解决方案是(4]。
物联网的大规模应用引起类似的问题在不同的行业和领域,如电子智能电网领域(5,6),目的是分析cyber-physical系统中实时收集的数据和最终支持决策过程结果的基础上分析(7]。同样,其驱动的实现数据实时分析科学技术在交通运输领域的数据。这意味着,新方法不仅必须能够处理数据静止(即应用程序。,data that have been collected and are then analysed after the event occurs) but also data in motion (i.e., the analytics occur in real time as the event happens). Data in motion gathered from advanced sensing (such as built-in sensors from mobile devices) and other types of traffic information (such as traffic metering) can be combined to better analyse in near real time users’ travel behaviour and derive their mobility needs.
文献显示转移的必要性从古典智能社会流动服务(ssm) [8),包括一个集成和合作方式感知用户的个人需求和交互,提供以用户为核心的移动服务。后的推荐(4),额外的研究必须完成它必须准备分析数据在实时运动,学习用户的行为和在大型数据集执行快速搜索,反而会导致更综合、快速、灵活的方法实现协同移动服务在不同层次和不同的需求。
在这项研究中,我们提出一个方法的动态和实时分析旅游行为在时间和空间中,使用数据。在我们的案例中,分析方法提取的用户习惯为访问一个特定的位置。实时共享协作系统方面是一个强制性的要求(例如,汽车共享和停车共享),大量的人员和货物正在以很高的速度和解决方案以一种有效的方式组合它们必须提供实时的(例如,对等骑共享)。在这个意义上,该方法利用多维分析技术中描述第三节尽快自动构建配置文件数据变得可用,提出高效的技术将结果存储在一个时间索引用于快速访问。
本文的其余部分组织如下。首先,第二节提出了本研究的背景使链接与先前的工作和提出的方法第三节。该方法的评价提出了第四节以及实际用法示例第五节和未来的工作第六节。我们得出结论本文讨论未来的发展方向第七节。
2。文学和背景
旅游行为是一个跨学科的问题,相结合具体方法分析和旅游行为分析和用户的习惯数据科学高效的计算方法。在下面几节中,我们提出的一般背景和文学从每个域,与以前的工作。这将有助于定义基本术语、概念和科学背景需要了解本研究的贡献。
2.1。旅游行为分析
一般来说,数据驱动的旅游行为分析是指构建的过程和应用各种学习技术,使用流动由用户生成的数据和其他实体(例如,传感器从不同的交通工具和交通柜台)。在交通运输领域,分析方法与不同的目标。司机的行为已经从汽车异形使用先进的运动传感器和智能手机检测驾驶事件和对司机在特定类别进行分类。分析方法用于车队管理,保险政策,油耗优化或气体减排(9- - - - - -12),以及在多通道网络路径选择为了考虑个人喜好路线推荐系统(13和在Internet-oriented用户为中心的智能交通系统14]。
最近,注意力一直集中在理解人类流动使用的用户分析[15]。由静态生成的数据在不同的交通系统和智能手机和移动传感器实现允许理解模式和公民习惯在大规模16]。这是用于语义信息提取用户的移动性也时空变异研究旅游法规通过交通数据(17]。移动用户配置文件可以提供有价值的信息对于理解分解和聚合时空活动模式(18),但该方法是静态的,不考虑数据在运动和大型数据集的性能没有测试。
几个挑战已确定为了有效地配置用户行为的智能移动系统,包括缺失值的学习问题,数据清理,降维,稀疏学习,学习和异构19]。大量的原始数据收集的游牧设备(如智能手机)必须清洁,聚合,然后加工使用最先进的方法和算法。这是共享移动服务的情况。以前的研究集中在调查骑分享的机会。Bicocchi和Mamei20.)通过移动数据分析表明,有效的解决方案从流动痕迹提取合适的信息可用于确定分享的机会。文献表明,需要优化这些系统,需要解决不同问题所需的特性和特点,例如,动态特性,自动匹配,和成本分摊21]。一个建议的解决方案来自于很好地理解用户的行为和偏好,这是一个重要的功能在设计动态共享移动系统。
为了利用收集的数据的大规模流动共享服务,必须提取用户的旅游行为和偏好。这个过程的第一步是提取活动的持续时间和位置的原始数据。一个详细的审查和比较文学的方法提出了(22]。然而,所有提到的方法受到限制,当应用于动态和实时分析大型数据集。在实践中,推荐系统需要在一个环境概要文件用户连续数据生成的动态运动的用户和运输工具。他们需要提取知识,有助于移动服务了解人类旅游行为和自动推荐适合每个个体的共享服务。此外,分析必须完成在不同级别的聚合和决议,与动态精度和扩展,例如,分享需要更高的精度比二次活动的分类(比如,购物,健身,或餐馆)。
下一步,使用前一步的检测位置,必须实现的方法来学习用户移动模式和执行原始数据的知识发现。从文献知识发现的一个例子是此行的目的从GPS追踪识别23]。他们发现了两个主要的旅行目的归罪文学中的例程:基于规则的系统基于活动的位置,时间和地理信息系统(GIS)数据和机器学习方法,多活动,少关注的位置。蒙提et al。23)使用随机森林(24),机器学习算法已经成功地应用于不同的运输相关分类问题。数据从GPS和加速计传感器作为输入,和受访者被要求正确使用自动生成的旅行日记,提取特定特性的语义解释说数据。
类似的应用程序中使用当前的研究是每个活动的识别/分类/访问位置(例如,家庭和工作)。该分析方法只使用GPS数据,具体的数据索引、科学技术集群、和查询,并作为训练数据,一组已知位置访问模式为每个位置的类型。新奇的方法的关键是,我们的方法能够捕获详细和复杂的用户的访问模式和位置通过分析层,可用于多种应用程序。有些用法示例解释和评估在剩下的纸(如停车共享,共享,类型,位置和活动分类)。
2.2。数据科学高效的计算方法
最复杂的业务之一,大数据系统是一组实体之间的关系的研究在给定的空间相互作用。这也是智能移动系统的情况下(例如,骑共享),大量的实体由人,汽车,和地点相互作用。问题变得更加困难当这些实体在多维空间交互,由上述实体运动的属性(例如,天,小时,地理位置,等等)。在物理学中,这类问题被定义为n体问题(25),这是最具挑战性的课题之一,高性能科学计算,解决Barnes-Hut仿真(26]。
为了减少代价高昂计算时间复杂度计算每个实体之间的距离,选择优化开发在树的算法。二叉搜索树是用来有效地搜索和排序,通过遍历树从根到叶意味着每个比较允许操作跳过大约一半的树。这导致的复杂性 。在一个四叉树(27),每个内部节点正好有四个孩子,最常用的二维空间分区通过递归细分为四个象限或区域。同样,八叉树(28是四叉树的三维模拟。为空间表示,每个节点将八叉树空间中它代表成八八分仪。
为了更多的维度,树必须使用无限数量的空间。K维树(K- - - - - -d(树)29日)的一个特例二进制空间分区树组织点k维空间。即使k- - - - - -d树是解决以上三个维度,这是不适合有效的在高维空间寻找最近的解决方案(如果维度 ,数据点的数量 )。使用k- - - - - -d树与高维数据,效率并不比一个详尽的搜索(30.]。
最近的研究表明,ND-tree [31日]在高维空间数据结构是有效的。搜索的问题,例如,在最近的邻居ND-tree算法有效改善查询性能在均匀和非均匀数据集(32)也在研究在多维nonordered离散数据相似性搜索空间(31日),在这项研究中使用的一个特性。
3所示。方法
3.1。多维分析在以前的工作
多维、动态性能分析需要技术允许快速处理,索引和查询的大数据集。在本节的其余部分,我们目前的数据建模框架,它包含图和时间序列在多维数据模型,以及重大技术实现的挑战。
GreyCat [33)框架,原名KMF [34),提出了在前一个工作35),是一种解决大规模复杂数据分析在运动与时间图(5]。有许多必需的特性(例如,造型与图表,时间方面,和假设分析探索不同的选择)在(35]。
大数据系统中重要的另一个特点是延迟加载节点的能力,意义加载到主内存只有必要的数据需要处理,而不是每次装载和查询整个数据集。自然,许多分析任务只处理部分数据集。这也是本文的案例研究。因此,我们建议将数据加载,即。,the nodes of our data graph only on-demand, while the graph is traversed. As an example, even if high accuracy datasets are available at an order of a few meters, if the application needs to profile to a maximum of, e.g., one kilometer accuracy, there is no need to load and process the data at a higher resolution. This will save both resources and time.
如果在前面的工作提出的框架是用于第一次在交通领域找到可能的用户组,可以使用一个共享系统使用数据静止,当前工作提出了一个更加以用户为中心的方法,可以处理大规模数据的运动用于多个应用程序(例如,停车共享、位置分类,和旅行不再发生的分析)。
3.2。数据驱动的可伸缩的方法的概述
在本文中,我们提出一个新方法分析多维时态数据,专门设计用于处理大量数据输入生活和不同的物理约束,如有限的内存或处理能力(游牧一样设备如智能手机)。
我们的方法是通用的,它可以使用任何特定的分析算法,其使用一个树状结构来父空间划分为两个或两个以上的孩子子空间。例如:二叉树,四叉树、八叉树、和K- - - - - -d树木都很容易实现,可以集成在我们的方法。
该体系结构如图1有三个独立的层。基础层是代表最低水平原始数据层,处理数据管理(例如,收集和存储数据)。的处理层处理数据处理生产结构和fast-to-query时空配置文件。在不同的处理任务,分析我们在这项工作的重点,这是通过其他不同的任务(例如,减少,地图,和适用于时空数据树)。最后,最高的层应用程序层在任何特定的运输问题可以在高级翻译资料的查询。该建议的体系结构的主要优势是,剖面层建立一次然后几个交通应用程序之间共享,因此减少所需的基础设施和资源。
3.3。术语
从当前的工作包括从不同的领域,有必要将使用定义的术语,在整个工作。(我)树:一个有向无环图从根节点开始。(2)空间覆盖率:N维min-max向量定义的边界空间覆盖的子树。(3)根节点是树中的节点。它涵盖了最广泛的N维空间树的。(iv)子节点:一个节点直接连接到另一个节点时远离根节点。子节点总是一个较小的空间覆盖比他们的父节点。(v)父:一个孩子的相反的概念。(vi)叶子节点:一个节点没有孩子。(七)兄弟姐妹:一群具有相同父节点。(八)学位:一个节点的孩子的数量。(第九)路径:一系列的节点连接节点的后代。(x)水平:根和节点之间的连接数量。根节点级别0。(十一)大小树的数据索引树的总数。(十二)高度:一个棵树的高度是最高水平的节点。(十三)决议:最小的空间覆盖允许叶节点。这是一个 - - - - - -维向量表示允许的最小差异之间的最小和最大的维度。(十四)数量的维度代表了许多不同的功能我们要配置文件(例如,星期,时间,和地理位置)。默认情况下,该建议的体系结构支持直到32尺寸很容易扩展到64人。(十五)最大缓冲区大小:数据存储在一个节点的最大大小之前创建一个分段的子节点。(十六)时间轴:一个命令序列时间点。(十七)时间分辨率代表每个分析树的最大限额在时间之前创建另一个树。
3.4。现场分析、索引和预处理
在本节中,我们描述具体的预处理步骤,运动中的数据的索引就收到特定的传感系统(例如移动设备)或数据库。
下面的示例处理地理空间位置数据为代表点,在图表示2。我们将描述如何创建每棵树结构的基础上,每个象限的空间分区和索引,从根(0级)叶水平(在我们的例子中水平3)。重要的是要强调,索引和分析方法是完全独立的最终将访问和使用数据的应用程序在应用程序层。
分析方法可以总结为以下顺序命令步骤,就不断进行新的数据是可用的:(1)从一个空的时间表。(2)创建第一个分析树一旦加载数据从一个数据集或接收通过传感系统,可以看到在图2,在0级。(3)一旦缓冲区满的根0级(达到了最大缓冲限制数据存储在节点级别的,在设计时定义),创建子节点1级并将数据分配到相应的子空间。任何新的数据0级将自动转发吗1级子空间。在这一步中,节点0级从一个节点存储数据吗路由器节点定义为一个节点没有数据,但作为一个路径连接节点及其后代子空间。(4)每个子空间都有自己的缓冲区,把父维边界由两个或两个以上的每个维度。在地理定位数据的情况下,图3展示空间是如何划分象限。在1级有四子空间:(1)一个(2)形成的象限B,C,D两个空,(3)形成的象限E,F,G一个空,(4)H。(5)重复步骤3到5递归直到满足下列条件之一:(一)当前的分析树的时间分辨率已经过期。作为一个例子,如果我们将最大时间分辨率设置为一个小时,即使还没有达到最大缓冲区大小,将创建一个新的树。(b)这棵树达到允许的最大尺寸。这是一个需要保持的过程尽可能快,因为使用太大的树木使搜索计算困难和更费时。(c)我们可以观察到在图2节点(2)和(3)创建在步骤41级再次分割成四个孩子,从节点与数据在路由器节点。同样的过程也仍在继续3级直到满足上述条件之一。(6)一旦完成树,它存储和过程继续创建一个新的树。可以观察到在图4,新树将有一个新的计算和整个过程将重复3到6。
3.5。查询和后处理
的多维和时间特性提出概要文件提供了几种方法来查询它为了允许范围广泛的应用程序。可以指定一个时间范围查询,具体日子和时间,和一个多维空间的精度水平,可以问所有的结果在一个特定范围或顶部结果从一个特定的复杂查询。整个流程中描述的查询过程图4并将剩余的部分中描述。
为了演示流程流,我们目前的智能移动共享系统(例如,汽车共享,拼车,停车共享)提供的地理位置数据的用户数量通过使用集成传感系统的智能手机应用程序。这种系统可以执行特定的复杂查询,必须在一个毫秒返回一个结果。
例如,一程共享系统可以执行一个查询来获得所有用户访问的位置在过去的两年里在一个特定的地理区域,在每周的特定日子,白天和特定的时间间隔,与特定的地理决议。这可以有助于找到可能的匹配与其他用户也有类似的资料。查询的结果可以存储保存用户配置文件为未来快速访问,以避免重复查询或可以被丢弃,根据应用程序的目标。另一个例子可能是一个位置提取的用户访问模式分类应用程序的访问地点至少访问在一个特定的时期和特定的地理区域。这可以立即有用的过滤器不代表一个特定的位置和轨迹点分类过滤位置基于特定地点时间和时间的一天。
此外,查询可以变得更加复杂,可以用来表示位置,在一个特定的星期和区间。这个查询可用于检测最访问的地点和快速检测,例如,家庭和工作地点,为了提出一个个性化行程结束,例如,在用户的主或兼容匹配用户用于停车共享。
重要的是上面提到的所有独立于任何其他应用程序的例子,同样的流程。这是下面描述:(1)数据管理和时间分辨率。数据捕获和处理的时间分辨率,在特定的时间间隔 。这个时间分辨率必须设置在最开始和代表的最小时间间隔两个特定树索引。例如,如果从应用程序域是提前知道,没有应用程序,使用分析数据将需要更高的时间分辨率比一分钟或地理分辨率高于4米,没有必要设置这个限制低。时间间隔低于最低要求也将需要更多的资源和时间来处理整个流程,提供冗余数据。没有上限只是给出了一个索引方法(如地理空间,一个象限,无论维度的测量单位)。这种动态是重要的提拼车等在某些应用程序可以执行与不同的参数和不同的查询,增加/减少决议决定,例如,用户使用特定的路线。这些信息可能是有用的计算匹配不同的概要文件的兼容性。(2)有效的存储。有一些重要方面提及关于数据管理和时间分辨率。首先,如果一个用户正在改变两个连续之间的位置 , 数据点,地理位置存储在一个节点。第二,如果用户在同一位置连续超过两个时间间隔,相同的信息不是复制通过连续时间点但被丢弃,在图表示4,原始数据层 。因此,对于访问的位置,只存储的到达和离开的时间戳,这有助于清理重复的值的数据集,减少所需的存储资源。第三,如果在任何时候执行一个查询,没有点是发现 ,的数据这一过程将返回,开始后退,直到找到一个储存点。(3)分析阶段。树木为每个时间间隔创建,以下的方法3.4节。(4)映射阶段。当执行查询时,查询分为几个子查询触摸树木和几个子空间(例如,返回顶部从一个特定的时间间隔,特定的星期和小时,从一个特定的地球空间,与特定的准确性)。搜索阶段可以分布在任意数量的计算单位根据需要和线程,根据每个应用程序和特定领域的需求。(5)结果。结果被收集,然后减少阶段同步,等待所有正在运行的线程完成,消除了重复,排序结果,并最终预滤器。
上下文中的另一个重要功能是能够与多个应用程序概要文件共享有一个高水平的并行性。这个特性带来重要的优势:(1)所有查询可以并行运行:这是一个重要的要求,当多个应用程序共享相同的分析层,可以执行多个查询,与此同时,在相同的树索引。(2)每个查询可以被映射到一个或多个配置文件树根据目标的时间范围查询。目标内的搜索树可以做以及并行。(3)从查询中可以包含几个子空间树,这些子空间中的搜索可以并行执行。
3.6。位置访问模式提取
除了过滤近乎实时的基于时空复杂的查询访问的位置,整个工艺流程的最终结果(即。,starting from indexing and preprocessing, live profiling, querying, and postprocessing) is used also to extract the weekly activity pattern visit for each location visited. This is done by clustering all the visit records from the time range specified in the query parameters in a matrix with dimensions of 24 hours and the seven days of the week. Each matrix element represents the number of times a person visited a specific location, normalised by 1000, as can be seen, e.g., in Figure5。
3.7。位置分析和活动分类
较早的探索性研究从先前的工作36]介绍了扩展方法背后的分类方法。总结,分类和标签的位置是通过计算欧氏距离(在0和1之间)生成的培训矩阵代表一种已知的位置(例如,家庭和工作)和每个位置的矩阵获得的访问模式。欧几里得距离越小,越高的概率的一个特定的位置可以贴上一种特定的位置。图6显示了一个示例培训矩阵的一个家的位置。
相似矩阵可以为其他类型的生成位置和活动(如工作,餐厅,购物,和运动)。图5显示了一个示例的分类结果94.15%置信水平的位置,是一个家的位置。
4所示。评价
4.1。数据集描述
在这项研究中,使用了两种类型的数据集来执行不同的分析结果的评价。每个数据集都有不同的目的和要求,如下。
首先,我们的数据集使用地面实况为了评估分类和标签的位置精度根据配置文件中提取每个用户访问的位置。为这种类型的评估,必须准确的用更少的GPS数据集错误和受访者必须验证的结果。验证是在个人层面上完成的,我们没有使用一个巨大的数据集验证。使用的数据集是基于谷歌地图的17个用户收集的数据来自卢森堡大学的;它是基于个人的,每个被调查者能够轻松在线测试和验证结果(37]。此外,数据已经error-filtered作为数据收集使用不仅来自智能手机的GPS传感器,也融合的数据从本地Android传感器像蓝牙,无线网络,和运动传感器,用于验证位置即使GPS信号很差,例如,建筑物内。
第二,使用更大的数据集,以评估了算法的计算速度,性能扩展时,和准确性。对于这种类型的评估,最重要的方面是数据集的大小,即。,时间覆盖和用户的数量。这个数据集必须足够大;更具体地说,它应包括一段相对较长的时间,包含大量用户为了满足计算需求在扩展阶段。使用的数据集是Geolife数据集(38]。这个公开的数据集包含大约2400万个GPS点来自中国,收集Geolife项目(39]从182用户提供智能手机和GPS伐木工在一段时间的五年。
4.2。位置分类精度
位置的评估分类精度是由一群17受访者从谷歌地图上传他们的GPS数据导出到公开在线版本的工具开发的研究现状(37]。受访者被问及家庭和工作地点都准确地检测到。结果表明,100%的受访者表示,家庭和工作地点被正确分类和标记置信度最高的。当然可以认为,家庭和工作地点是微不足道的作为分类的一个例子,但我们的评估范围只是证明拟议的框架和方法能够自动分类位置和活动近乎实时的进行,没有任何用户输入,只有基于GPS数据。在另一个工作(40),我们延长了评估和方法也为其他类型的位置和活动(如餐馆、购物、和体育活动)这是超出了本文的范围。
4.3。计算速度
首先,为了测试提出的分析方法的计算速度扩展时,多个测试执行与不同数量的数据。图7显示了结果在处理12个不同数量的数据,从100万年到2400万年有效点。此外,我们可以看到在图7扩展时,趋势线接近对数,证实了复杂性减少解释的东西第二节。
第二,速度之间的对比已经完成经典线性计算与multitree分析方法相比,呈现在图8。在这个实验中,9执行速度测试,数据来自不同的用户数量,从20到180人。结果显示在对数尺度轴。实验清楚地表明,使用multitree架构的速度快而经典的线性结构。
在实际实现快速处理的另一个重要方面是所需的资源数量。大多数时候,更大的数据集的大小,需要更多的处理资源,以最高速度。数据库研究界识别图形处理单元(gpu)作为最有效的协同处理器并行数据处理(41主要是因为数据集是由成百上千个小CPU处理节点。
我们所知,最快的一个大规模的并行架构MapD [42]。最近的实验表明,与数十亿地理定位路线可以处理大规模数据集和形象化,以毫秒为单位43]。但一切都是有代价的。表1显示了一个比较过程Geolife数据集所需的速度和资源使用与一个线性MapD硬件扩展方法和非常强大的但昂贵的硬件,而multitree分析由用户电脑中对数时间或硬件方法。
4.4。精度
由于分析为不同的子空间大小(分辨率),精度有较高的相关决议(分辨率越小,精度越好)和水平需要查询的数量达到从根到叶水平(水平意味着更高的细节,但长时间搜索)。
在我们的特定情况下,精度取决于每个分辨率的大小(宽度和高度)。使用Geolife数据集,精度测试被执行,这项研究的结果发表在表2从最低的4.77×4.77米到最多5000×5000公里。
实验证实,数据集平均误差非常接近的数学预测错误。提供的结果可以用来指导选择最小分辨率为每个交通应用程序,基于每个决议的平均和最大误差。因此,对于任何类型的应用程序,它必须评估如果平均和最大错误是可以接受和容忍的域。不同的交通应用程序需要不同的精度和最大错误。表3礼物的一个例子比较精密的不同的应用程序和所需的数据量。
骑等一些应用程序共享,精度是非常重要的,例如,会议的不同的用户可以共享相同的车不能有大的错误。一项研究[44)表明,平均只有60%的乘客将接受为运输到另一个汽车站步行150米,90%的乘客将接受走50米。相同的严格要求也分类的位置(例如,家庭、工作、商店和餐馆)或活动分类(例如,运动和购物)系统。为了保持高质量的服务和更高的用户留存率,最大误差必须低于可接受的距离,乘客必须走,如果如建议的位置/会议点不是在指定的位置,例如,一个推荐系统/旅行计划。
共享停车等交通问题,错误可以更高,因为它并不罕见公园汽车和步行一个像样的距离,直到目的地,但同样的限制下的最大用户容忍错误(45]。也有其他应用程序的错误可以更大;不需要非常详细的概要文件和错误可以更高,几十公里的订单。是这种情况不再发生的旅行的分析,例如,假期或商务旅行还是集群和可视化比上面的例子。
能力是多才多艺的为了处理各种应用需求在同一系统代表了一个需求在一个共享架构。在下一节中,实际使用的所有应用程序的例子,而在表3将呈现。
5。用法示例
协同移动服务(如骑共享)表示一个最好的案例研究中提出的方法第三节。不同类型的数据收集来自用户的智能手机代表了一个新的维度,增加了复杂性寻找有效的解决方案,结合用户和交通资源协作系统。每个维度是由这些实体的属性,结合执行的类型的查询,例如,天,小时,地点、年龄、性别,等等。他们中的一些人个子维度,例如,个子维度的位置用户执行的活动可以有一个活动的开始和结束时间,位置的地理坐标,地理空间的半径,它代表了一个位置。在这项研究中,多维分析是指分析所有这些维度的概念,每个实体都有特定属性。
5.1。停车共享
一组两个或两个以上的用户可以共享相同的停车场,如果他们在一天的不同时间使用它。换句话说,不同的用户的概要文件为同一位置,兼容性越高停车共享。的动态特性提出了分析方法,可以评估停车共享的长期停车共享和计划短期或临时停车共享。
为了演示一个灵活的有用性,动态的,和快速的分析框架,提出下面的案例研究。
图9显示的形象用户1谁在附近工作的家用户2。
用户2是一个点对点(P2P)的一部分停车共享应用程序。我们可以观察到的用户1,最高概率的停车位置9点来7点,从周一来星期五。同样,图10显示的形象用户2,最低的概率是在相同的位置用户1在相同的位置。
根据这些信息,系统可以匹配兼容性索引(即最高的两个配置文件。,the highest Euclidean distance between profiles) to share the same parking location as they do not overlap. Moreover, this is done without asking the users any prior information but profiling their behaviour, extracting their pattern to visit the location, classifying the location, and matching profiles that are synchronised for specific sharing services.
结果表示的一个很好的例子介绍如何分析方法可以用来评估兼容性长期停车共享两个或两个以上的用户使用,例如,特定个体间协作流动性的指标(22]。更准确地说,可以使用分析搜索一个特定的地区和用户概要文件相匹配的其他用户对特定应用程序/共享服务。然而,也有一些必须达到的条件有一个准确的长期分析。
首先,应该有足够的时间为了有一个准确的分析数据。这将确保位置概要文件都有一个特定模式随着时间的推移,不仅仅是一个随机访问的位置。家和工作位置是典型例子的位置随着时间的推移,有一个特定的模式。
第二,它不需要非常精确的定位精度,在长时间的停车时间的情况下,人们可能会愿意走一个像样的位置从停车场到目的地(45]。
同样,可以使用P2P停车共享服务也特别的或即时停车共享,提出了下面的例子。特别是,如果用户是P2P停车共享应用程序的一部分,在一次他通知应用程序必须停止为一个特定的时间在一个特定的地方,应用程序可以立即搜索其他用户在系统中有免费停车槽在那个特定的时间间隔。为了测试这个案例研究中,使用描述的Geolife数据集第四节,我们随机用户和一个随机访问位置和执行搜索兼容的用户来模拟比赛的临时P2P停车共享请求。表4呈现不同的搜索的结果,在不同的决议。
可以观察到,在非常小的分辨率(即, 和 ),不兼容的用户已经找到,搜索太详细。提高分辨率的时候出现 ,三个兼容的用户和最大误差可以被发现这是可以接受的。如果我们增加分辨率,更适合用户发现,而且最大可能误差增加,在某种程度上,结果不相关,步行距离也会那么长,最有可能的不可接受的用户走。在这种情况下,我们可以认为,最好的决议将在这种情况下 ,这可以给最好的结果无论最大可能的错误。
这个具体的例子演示了提出的分析方法提供的功能:快速处理大量的数据,在近乎实时的需求和,加上提取用户的见解的能力,行为,和旅游模式以最小的计算、存储资源,用户输入。这是重视下一代的智能自主旅游规划者和共享服务,在大多数的情况下,数据收集和处理通过乘客的移动设备。在几秒钟内,系统必须处理多年的地理位置数据,提取的见解,用户习惯和偏好,并提供可靠的服务。事实上,现在可以使用在线工具(37)在任何浏览器不安装任何软件的情况下,所有的计算都是在设备上完成符合要求的自主权和计算资源有限的移动设备。与此同时,它也适合移动应用的用户首选项,因为不断要求用户输入信息不再是适用的和可持续的在我们的天。
5.2。程共享
分析用户的移动性的日子和时间一周是一个重要的信息,可以用于一个推荐系统来分析,用户可以骑的对手分享/拼车。有一些条件,应满足为了组织骑两个或更多的用户之间共享,如出发和到达的位置适合所有的参与者和同步的出发和到达时间匹配最好的安排。后者条件可以通过分析评估的概率是在一个特定的位置,通过一周的日子和时间,可用于协同移动系统(22]。
为了体现这个案例研究中,我们在小数据库中搜索了第四节在兼容的受访者,能够满足一个拼车服务。图11介绍了提取每周热图居留的时间来两个邻国(用户1和用户2),工作也在同一地区,可以看到在图12。这是一个典型的情况下用户可以参与一个长期骑共享,作为他们的时间表是固定在大多数情况下。
(一)
(b)
可以观察到的热图,它们通常在家里以外的工作时间。此外,他们都离开家一周9点他们返回家里7点,导致一个好的同步。图13表明,工作地点的安排,他们已经使它适合长期拼车可以共享相同的车上班。
(一)
(b)
与此同时,我们也注意到,用户3作品接近用户1和用户2。此外,用户3可以加入骑共享时可用。分析图12,我们可以观察到,为了用户3,这次旅行必须重新路由。如果前两个用户考虑旅行时间很重要,这可以成为一个不便,因为旅行将四分钟的时间。然而,如果用户是灵活的时机和接受这个交易,另外一名乘客将在相同的车,将会有一辆车在路上和一个可用的停车位的目的地。这种方法将最大化的目标汽车共享和停车共享,通过减少流量,分别对停车位的需求。当然,用户应该评估不同,接受或拒绝不同的选项。为了简化这一过程中,每个用户都可以陈述偏好,限制,和灵活性在一个应用程序接口,以便搜索算法为每个用户只提供合适的结果。然而,如果这一原则应用于大城市的水平,这将导致更少的汽车和更多的人减少了交通堵塞。
这个具体的例子显示了如何使用配置为长期拼车和短期骑共享服务相结合。重要的是观察,使用提出的分析方法,所有必要的步骤(即匹配的人们和分享服务。,location visit pattern extraction, search of compatible users, and trip planner) can be done automatically and dynamically, without any user input but only the access of history GPS data, which in our days can be easily obtained via mobile devices.
5.3。位置和活动类型分类
分析模式访问特定位置给也有可能自动定位到一个特定的类别进行分类。我们可以观察到数据9- - - - - -11,位置可以明确确定为获得访问模式家和工作位置和动态显示在图14。
同样可以用任何类型的位置定义的模式可以被识别和分类可以自动完成。在一个扩展的探索性研究36),我们表明,使用提出的组合分析方法结合观察用户习惯从调查和提取活动矩阵,可以自动分类类型的活动在一个特定的位置。
此外,随着分析可以考虑大的时期,现在可以检测用户更改旅行习惯通过检测定期访问特定位置的变化。在图14,我们可以看到,对于同一用户,检测到两个家庭和工作场所,作为分析检测递归相似的模式在不同的时间段。这意味着该分析方法不仅可以检测复发性习惯二次活动也改变的习惯,是不容易检测和静态方法。基于这些变化获得的见解可以用来适应和个性化的运输服务与乘客的习惯,这将导致一个更好的服务质量。
6。未来的工作
未来的工作包括寻求共同跨多个请求并执行子查询一次,可以减少操作和任务执行。同时,缓存技术可用于未来暂时最要求的查询结果存储在最近的树。另一个优化是实现订阅系统执行自动实时更新最新查询和树木。
提出用法示例表明,只有使用地理定位数据,它已经可以支持一些共享服务(例如,停车共享和汽车分享那么仅供这些服务存在/没有用户需要在时间和空间/资源),发现旅游习惯,和标签/分类位置和活动。在将来,一个实现可以提供可能的路线规划有一个完整的共享服务可以匹配人员和车辆。另一方面,语义的使用外部数据访问的位置(例如,从现有的地图类型的设施)可以更好地推断出二次活动类型,减少识别和分类错误。
7所示。结论
本文的贡献是双重的:一方面,我们提出一个新颖的方法,提供了一个动态分析用户的移动性和地点访问模式。该分析方法可用于许多应用程序,甚至以同步的方式。使用的例子在当前纸(即解释和评价。,parking sharing, ride sharing, location type, and activity classification) provide the first directions on how the profiling can be used for a dynamic analysis of sharing mobility users and solutions.
另一方面,使用先进的技术从数据科学和计算机科学,我们提供一个完整的实施提出的方法,可以通过在线演示原型测试。演示应用程序演示了如何可以加载数据和从地理位置数据(即提取复杂的配置文件。,location data from Google Maps), with different accuracy levels and spatiotemporal scales, in an order of magnitude of milliseconds. Moreover, for any visited location, a classification is dynamically performed, which demonstrates that different actions and computations can be performed in motion, at scale and in near real time. Different evaluations were performed in order to assess the speed, scalability, and to evaluate the required resources for implementation, which demonstrates that the proposed profiling can be implemented in a distributed way at the smallest hardware level (e.g., microcomputers or mobile devices).
数据可用性
本研究采用谷歌API访问的地方对于小数据集实例,而过去微软GeoLife数据集(https://www.microsoft.com/en-us/download/details.aspx?id=52367大规模的例子)。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究由Luxemburgish FNR(国家科学基础)通过一个误判率PLAYMOBeL项目资助项目(9220491)和欧盟Marie-Curie-funded InCoMMune (618234)。