用户位置上下文的语义标签基于手机的使用功能

文摘

在手机中,感知用户的上下文允许服务更好地适应用户的需求。我们提出一个基于机器学习方法的语义标记,利用电话使用特性来检测用户的主,工作,和其他访问的地方。位置检测,我们比较七种不同的分类方法。我们组织电话基于时间的不间断的使用数据,用户一直在某个地方。我们考虑三种方法表示这个数据:访问,的地方,累积的样本。我们的主要贡献是语义标签使用少量的保护隐私特性和新颖的数据表示适用于资源受限的移动设备。小说的贡献包括:(1)引入数据表示包括积累和平均使用,(2)分析数据积累的影响时间的准确性地点分类,(3)信心分类结果的分析,和(4)识别最相关的特征通过特征选择方法。小的保护隐私功能和数据表示,我们检测到用户的家庭和工作或更好的概率为90%,并在三级问题总体分类精度为89%或更好。

1。介绍

智能手机的使用在过去的十年里发生了翻天覆地的变化。而在全球范围内只有1%的人口拥有智能手机20061),现在已经达到24%2]。移动电话已经成为大多数个人计算设备。用户携带他们持续一整天,希望他们提供有意义的服务。为了提供更多的个人和相关的用户体验,移动服务可以从用户的上下文知识中获益。上下文感知可以提供新的方式在人们如何与移动设备通过设备交互似乎更加人性化和个人。智能设备可以识别用户,适应用户和用户的上下文,和学习是主动的。

最知名的上下文感知应用程序是基于位置的服务(3]。通常是由一组坐标位置定义一个点或区域在地球上。这表示没有提供直接的意义和相关信息给用户。尽管在一些地方也可能使用反向地理编码来推断的类型的地方,很难推断出含义为每个用户的同一个地方可以对不同的人有不同的意义。例如,加油站可能意味着一个频繁访问的地方,一个工作的地方,或者是附近的一个地方在日常通勤。利用今天的传感功能的移动电话,它是可行的建立模型,提供了上下文相关的用户位置信息。

这项工作的目的是提供一个可靠的方法来推断的意思手机用户的访问的地方。我们提出一个基于机器学习方法的语义标记,利用电话使用特性来检测用户的主,工作,和其他访问的地方。我们的建议提供了更好的理解用户的位置上下文,允许手机用户提供更多个性化和智能服务和应用程序。例如,意识到用户的语义位置的应用程序可能会允许用户设置提醒电话离开家时触发,到达工作,或者去一个经常去的地方,或设置自动功能基于当前的地方,例如,改变配置文件或沉默的手机。

在这个工作我们开发一个系统学习和标签基于手机用户的地方使用和分析数据表示的不同的选择的影响。我们的目标是一个自动检测方法的地方用户通过应用分类模型从其他用户的数据。这是类似于一个用例,早期的应用程序的用户造成了模型提供数据,后来,使用模型,应用程序标签数据的新用户。我们的贡献包括:(1)引入新的数据表示包括使用数据的积累和平均和性能结果基于该数据表示,(2)分析数据积累的影响时间的准确性地点分类,(3)信心分类结果的分析,和(4)识别最相关的特征通过特征选择方法。

培训和模型评估我们使用两个数据集。其中一个是移动数据的挑战(MDC)数据库(4,5),约有200用户使用诺基亚N95设备通常3至18个月的时间跨度。数据包括日志的电话和短信,日历条目,多媒体展示,GPS信息可用时,网络信息和系统信息(如电池状态,设备不活跃的时间)。另一个数据集是小:它涵盖了较短的时间跨度(1 - 3个月),包括16个用户的标签数据。这些数据包括信息类似电话的使用和活动模式争取民主变革运动数据,但有差异的测量和观察如何处理在存储之前,这也使得可用的特性不同。利用上述数据,我们使用监督学习方法来创建一个位置检测算法估计当前的语义标签的地方根据手机的当前使用的特性。

本文的其余部分组织如下。节2我们的工作大纲的背景,强调当前需要检测的地方。节3我们现在使用的数据和功能的工作。部分4描述中使用的方法分析和比较在这工作:数据预处理和数据表示,不同的分类方法,交叉验证方法用于比较,特征选择方法,最后评估的方法对分类结果的信心。部分5礼物的结果分析和比较。节6,我们将讨论这项工作的结果和总结其异同的相关工作。最后,在节7我们结束这篇文章。

对上下文感知系统的研究始于1990年代初(10]。上下文可以指任何信息,可以用来描述一个实体的情况下,在一个实体可以是一个人,地方,或物理或计算对象(11]。推断出用户的上下文中,我们使用传感器信息。巴尔道夫后et al。11),传感器是广义的概念,以包含任何数据源。我们区分三种类型的传感器。

物理传感器设备检测和应对来自物理环境和捕获物理数据的输入。

虚拟传感器从应用程序和服务获取上下文信息。他们可以基于本地服务(如日历)或外部服务(如天气预报)。

逻辑传感器提供上下文信息从物理和虚拟传感器相结合的信息。

大多数现有的上下文感知系统考虑物理传感器(12),包括传感器相关用户的位置,如GPS、加速度计、陀螺仪(允许,例如,活动识别)13,14),或传感器,测量用户的环境的属性,如磁场、光、各种无线电信号(或属性15,16]。关于虚拟传感器,其中一个最常用的传感器是用户的语言。例如,谷歌为开发者提供了用户的语言通过函数getDisplayLanguage在Android开发者API (17]。其他上下文相关的信息可以提供给移动应用程序类似的方式。

研究人员指出,除了传感器,使用手机可以提供有意义的信息用户的上下文(6- - - - - -8,18]。做和Gatica-Perez18)断言,可以推断基于用户的上下文的使用应用程序(如电话、电子邮件和web浏览器)。Rahmati等人使用智能手机的上下文信息包括时间、天,从加速计运动信息,细胞ID位置和GPS定位一起使用上下文(之前访问网站,电话,和应用程序)来预测未来使用的电话19]。

在这个工作我们继续的研究通过研究之间的关系的使用手机和用户的上下文。更具体地说,我们调查的主要挑战和可能的解决方案的地方检测,一个特定的语义标签。位置检测提供了重要的信息来改善环境敏感应用程序。

旨在改善当前位置标记技术,我们应用不同的监督学习方法在手机使用日志数据寻找模型,基于手机的使用模式,允许将语义标签分配给用户访问的地方。我们工作的初步结果已经在(20.]。摘要提高的贡献20.在以下几方面:(1)我们在这里介绍第三数据表示和累积样本;(2)在分析中,我们使用两个数据集,而不是只有一个;(3)我们提供结果的积累时间累积效应的样本对分类器模型的准确性,我们使用提供标签的地方;(4)我们使用连续的特征选择减少计算负荷和提高精度的预测阶段时,分类器模型被用来预测标签的地方;(5)我们学习的信心分类结果的评估;(6)我们增强组分类方法用于分析还包括支持向量机和逻辑回归。

其他作品进行了与我们的目标相似(6- - - - - -9,21),即语义位置预测,并使用数据来源于相同的数据库作为数据集# 1在我们的工作。他们不同于我们的工作在以下方面:功能的数量我们用于分类方法是最多只有14个,而其他作品使用更多的功能;我们使用不同的分类器;而另一文件分类中所有可用10标签数据集# 1,我们优先考虑识别家和工作因此结合所有少标签标签其他;我们现在比较三种不同的数据表示计划:访问,地方,累积样本。我们还表明,精度可以提高通过选择最相关的特性的一个子集用于分类模型,我们研究拒绝分类结果的好处,获得较低的排名从分类器的信心。争取民主变革运动数据集出版以来,已广泛应用于研究。除了语义位置预测,它已被使用,例如,在研究手机用户移动模式的22- - - - - -24)和在人类流动预测(预测下一个位置)25,26]。

本文中给出的研究进行相关工作的一部分创建的监控API的流光SensorCore SDK (27]。SDK是一组api来提供有意义的活动和位置传感器收集的数据在后台运行不断地在一个低功率模式。

3所示。描述数据集

我们两个不同的数据集用于学习和预测语义标签的地方。在本节中,我们描述了数据和识别最相关的特征的检测。

3.1。数据集# 1

争取民主变革运动从数据库获得数据集# 1可用Idiap研究所,瑞士,和诺基亚旗下4,5]。数据集包含诺基亚N95智能手机使用数据,收集了近200个用户随着时间的时期,对于许多用户超过一年(5]。关于使用手机的信息自动收集和匿名。数据收集后,聚类算法被用来确定为每个用户最相关的地方,也就是说,用户经常访问的地方,花了很多时间。这些地方的用户手动标记(9]。作为我们的主要目的是检测家和工作人们通常呆在更长时期,我们提取测试期间收集的数据访问,用户在同一个地方呆至少20分钟。这些访问定义的时间间隔在一个数据库表中visits_20min.csvMDC的数据库中,它定义了开始和结束时间,超过55000用户ID,并将ID访问(参见图1)。地方的地方标签id定义在一个单独的MDC数据库表places.csv。在数据库中定义的地方,它对应于一个圆半径100米(5]。

基于这些数据,我们从数据库中查询以下为每个访问手机使用数据,也就是说,对于一个给定的用户,所有数据条目之间访问的开始和结束时间:

(我)系统数据,包括电池和充电状态和计数器不活跃的时间

(2)调用日志,包括每个电话的时间

(3)基于加速度数据的活动,包括基于加速度计估计用户的运动模式:空闲/不过,行走,汽车/汽车/摩托车/地铁/火车有轨电车,跑步,自行车,或滑板。由于大面积覆盖的一个地方,有可能是数据从一个地方也包含大量的流动性,比如,散步,甚至在一个移动的车辆。

从这些数据条目,我们为每个访问计算中使用的特性分类的任务。我们决定只使用传感器数据,也可以认为是可用的实时应用程序在手机上没有侵犯了用户的隐私。我们的功能列表包括以下:

(我)时间:访问持续时间以秒为单位

(2)startHour:访问时间的一天开始了

(3)endHour:访问结束后的那一天

(四)nightStay:比例的访问时间是在下午6点和6点之间

(v) batteryAvg:电池的平均水平

(六)chargingTimeRatio:比例的访问时间在充电

(七)sysActiveRatio:比例的访问时间当系统一直活跃

(八)sysActStartsPerHour:系统活动的状态更改系统活跃除以参观时间的持续时间。

相关功能调用,传入和传出的通话都是考虑:

(我)callsTimeRatio:的比率积累期间调用的持续时间

(2)callsPerHour:电话数量除以参观时间的持续时间。

基于加速度计的运动模式相关的特性检测计算使用报告的运动模式。然而,正如报告一次实例可能包括几种不同的模式,也包括他们的概率,我们使用了概率的倍体重运动模式:

(我)idleStillRatio:比例的访问状态时持续时间仍然闲置/

(2)walkRatio:比例的访问状态时持续时间走

(3)vehicleRatio:比例的访问状态时持续时间汽车/汽车/摩托车或火车/地铁/有轨电车

(四)sportRatio:比例的访问状态时持续时间跑,自行车,或滑板。

除了这些14计算特性,我们还保存的地方标签和用户ID用于模型的训练和测试:

(我)placeLabel:三种可能的标签:家,工作,或其他(最后一个包括所有通常不那么频繁的地方,比如朋友的家中,运输,和餐厅)

(2)用户标识:每个数据样本包含一个唯一的用户标识符。

争取民主变革运动数据包括标签所提供的用户(9]。首先,数据收集及相关为每个用户聚集的地方。在后面的阶段,用户在地图上显示的所有地方,这些地方被要求标签。我们只考虑的地方贴上确定性和排除这些地方,用户是不确定或没有标签。

总的来说,55932年访问数据包括114标记访问不同的用户。从28921实例访问,回家(所有访问量的52%),21697个实例工作(38%),和5314年实例到其他地方(10%)。

3.2。数据集# 2

数据集# 2是由微软提供和收集的16个用户在ICT领域工作。参与者收集数据的平均时间是26天,最长时间是64天。这个数据集的描述和结果尚未公布。

在这个数据集,数据是联系在一起的地方。发现的地方是它的物理位置,获得,例如,从GNSS接收机或基于蜂窝网络的定位。用户第一次访问一个地方,那个地方是创建一个新的数据条目。每次用户访问一个一旦创建的地方,电话累积时间计数器几个状态变量。的呆的时间是累积时间地点和电话被观察到的晚上住是累积时间6点之间的电话在那里。和6点。

积累的时期也包括《纽约时报》的运动状态闲置、固定、移动、散步、和车辆,都是由手机的传感器。第三组的记录包括电话使用数据:时间显示在和充电次,时间调用和时间耳机上。

除了这些,总时间自成立以来,数据录入的地方被记录。用户提供的语义标签的数据,如家或工作也是相关的。的物理位置并不包含在数据的地方。一天两次,当一个数据连接是可能的,手机应用程序发送的记录时间等值服务器。因此,数据库包括等值的历史大约每12小时取样一次。这个数据集数据集# 1有很大区别,个人访问一个地方不能被发现或计算和个人电话或活动也不能开始。从这些数据,我们计算特征用于分类时间除以总时间的等值。同样,与数据集# 1,我们集中所有其他用户提供标签,除了家和工作第三个标签其他。

总的来说,数据集# 5605标签样本包括由16个不同的用户。从这些样本,1747例(31%的访问)标记家,1482年工作(26%),2376年其他(42%)。每个样本包含11特性相关的,活动,和电话的使用和额外的信息,如用户id,标签,和总时间记录的位置。

数据集# 1和# 2,对基于加速度计的运动状态或活动的认可,我们依靠的输出运动或活动识别功能手机应用程序和数据集的提供者。的可靠性统计功能对我们是不知道。对我们的分类功能,这些功能是噪音的可能的错误数据。

4所示。方法

我们考虑三个备选方案的数据表示:访问数据表示、数据表示的地方,和累积样本;这些术语解释部分4所示。1。一旦数据从数据库中提取的表示模式,我们应用七个著名的分类方法。我们的目标是确定哪些分类方法和数据表示的语义标注方法是最好的地方。我们还描述了交叉验证方法用来评估的性能分类、连续的特征选择方法用于提高准确性和评估个体特性的意义,和用于评估的方法对分类结果的信心。

4.1。数据表示

在本文中,我们考虑三种不同的方法来表示数据。每个访问的访问方法使用计算的特性,这样一个用户访问的数据包括几个样品到每个用户的地方。这意味着有一个为每个location-user-event元组。因此,用户访问主三次将三元组添加到学习数据。从数据集# 1,我们提取55932标记访问114个用户。

的地方的方法结合了一个用户的所有访问一个地方到一个总结样本。这意味着有一个为每个location-user元组,这是计算结合所有相关访问元组。这个想法是假设不同的用户倾向于使用手机以相似的方式在语义相似的地方,例如,在家里。从数据集# 1,我们提取295标记的地方114用户。例如,如果一个用户访问家里十倍一个星期,访问数据表示创建十个不同的数据实例,而数据表示的地方结合十访问数据实例在一个地方数据实例。的访问和地方表示只提供数据集# 1。

第三个数据表示包括累积样本的特性。这表示本机表示数据集# 2;,它包括积累的时期保持和电话的使用由一个用户在一个地方。获得相似的样本数据集# 1,我们计算的累计时间,活动,和电话为每个user-place组合使用。积累时代的我们带样品每隔12 h和他们除以总时间以来的第一个示例user-place组合。9特性转换为累积的数据集1号样品如下:留下来,nightStay充电,sysActive,称,idleStill,行走、车辆,体育运动。

图2和算法1说明不同的数据表示特性的计算与电话和晚上留下来。功能nightStay选择作为一个例子,因为它是计算不同于所有其他的特性,因此需要单独描述。相比之下,功能调用类似于所有其他特性,其计算的描述也可以应用到这些。图2说明了符号的标记和持续时间。访问的开始时间和持续时间是和,分别。除了这些时间属性标签连接来访问数据。同样的,和代表一个电话的开始时间和持续时间,和和夜晚的开始和持续时间。在我们的实现中,是恒定的12 h。我们也简化关于打电话,跨度在访问,这样整个调用相关的访问开始。

假设开始时间和持续时间
(我)访问:和
(2)电话:和
(3)晚上:和
访问 (计算为所有)
(我)找到最小的指数这样
(2)找到最大的索引这样

,
在乘法与转换时间单位小时
的地方:家
(我)找到所有访问的指数这样


累积的样本 :家(计算为所有)
计算在家打电话:
(我)找到所有访问的指数这样
和

计算晚上呆在家里:

为所有
如果存在这样

其他的如果存在这样

结束了

算法1介绍了方程的计算特性不同的数据表示。作为例子相结合的数据从几个去的地方和累积数据表示样品,我们使用家为例的用户的地方。电话的功能数量不包括在累积样品和,因此,它不包括在算法1。另一方面,nightStay只包括累积特性集的样本。尽管一个电话可以发生在夜间,在数据表示nightStay和调用不是直接连接。然而,对于学习的分类器模型是可能的连接同时出现两个计数器增加(调用,nightStay)同时进行。

4.2。分类方法

在这个工作我们应用以下分类方法在统计数据和使用它们的实现Matlab的神经网络工具箱。

朴素贝叶斯(NB)(28- - - - - -31日]是一种统计的方法有一个明确的潜在概率模型,它提供了一个在每个类的概率而不是简单的一个分类。朴素贝叶斯假设功能是有条件的独立;这降低了计算成本和经常工作得很好,即使独立的假设不成立。这种方法没有调优参数。

决策树(DT)(28- - - - - -31日]是一种机器学习方法,可能给被人类最容易理解的结果,谁能确定最相关的特征。我们使用属性选择基尼的多样性指数。树的顶部的特点选择最相关的特征分类。有两个选项,以避免过度拟合,prepruning, postpruning。我们选择postpruning因为prepruning需要决定何时停止生长树构建它时,这不是一项容易的任务。当树构建我们postprune树使用误差估计。直观地,该方法通过树的节点比较原来的树和树修剪的节点。树树如果修剪修剪,节点提高(或等于)的分类精度。

袋装树(BT)(29日- - - - - -32)结合不同的决策树(与上面的相同的参数作为决策树),每一个都被训练使用不同部分的数据。使用一个投票系统,每棵树给出更多的重量在该地区的空间,其分类率是更好。该方法被证明比单一的决策树。我们用十决策树,一个典型的价值。

神经网络(NN)(28- - - - - -31日,33)是一种大脑的生理激发了分类器。它由层相互连接的节点组成,每个节点产生一个非线性函数的输入。一个节点可能来自其他节点的输入或直接从输入数据。一些节点与网络的输出。特别是,我们使用多层感知器与一个隐藏层包含十个隐藏的神经元。这些设置的决定是基于有限数量的样品和作者的经验。训练我们使用的网络Levenberg-Marquardt优化更新重量和偏差值。神经网络分类假设类标签表示为二进制向量。因此,在训练类标签编码向量: , , 。神经网络预测也向量。然而,他们的元素值不是0和1。预测的类是通过寻找该指数最大的输出向量的元素和转换这些回类标签。

再邻国(资讯)(28- - - - - -32]是一种统计方法,分类根据距离传入实例最近的训练集点。我们用欧氏距离来选择最近的邻居。我们的价值观决定的用于分类使用leave-one-user-out验证和分类精度作为优化准则(见部分4所示。4)。我们发现最好的价值取决于数据集和数据表示:数据集# 1最好的3值是27日,57,地方,分别和累积的样本。与数据集# 2最好的准确性了。对于大的训练数据集,所需的存储模型大,以及CPU时间找到最近的邻居变大。这可能是禁止在资源受限的移动设备上运行的应用程序。

支持向量机(SVM)(30.,31日,33)是一种二元分类器;也就是说,它可以适用于两类分类问题。SVM寻找一个超平面,最好分开的特点一个类从另一个类的功能。它的目标是找到一个最大化的超平面区域两边的超平面的区域不包括样本特征向量。特征向量最近发现超平面称为支持向量。在许多问题的分离的类不能使用一个简单的超平面。因此,该方法包括一个可能使用线性或非线性核函数产生一个执行分离超曲面。我们使用高斯径向基函数(RBF)作为核函数。与我们的数据,我们得到类似的准确性与RBF和线性核函数但RBF需要较少的支持向量。我们使用Matlab的fitcsvm功能训练SVM分类器。我们使用RBF西格玛参数KernelScale = 1我们发现最有效的数据与其他相比KernelScale值。我们的三级问题的解决方案是通过使用3二元分类器提供one-versus-all其他分类:家与不在家的时候,工作与没有工作,其他与没有其他的。二元分类器,多级标签之前转换训练如下:(1) ,,或 ;(2) ,,或 ;(3) ,,或。在预测阶段,二元分类器被用来获得其积极类的后验概率。最大后验概率的二元分类器是用于确定多级输出。

逻辑回归(LR)(28,31日)的概率模型存在的类作为物流功能的线性回归表达式特性(特征的线性组合和一个常数)。LR也是一个二进制分类方法。因此,我们做了一个多级转换标签数二进制类是在支持向量机训练三个LR模型。在预测阶段的三个分类器被用来获取类的概率,概率最大的类被选为多级输出。然而,有时线性回归问题是坏脾气的和正则化是必要的为了获得的参数估计。我们使用套索正规化的广义线性模型回归和建造了一个正规化的二项式回归模型和正则化参数的4种不同的值和2倍交叉验证。与这些值的时间消耗在参数估计仍然温和,得到模型参数提供了良好的预测精度。

4.3。缺失的数据

争取民主变革运动数据,我们遇到了一个问题和缺失的数据。的数据包括访问系统数据部分(即。、特点batteryAvg、chargingTimeRatio sysActiveRatio,和sysActStartsPerHour),基于加速度的活动数据,或者这些数据都是缺失的。地方和累积计算样本表示的访问数据,这些表示继承的问题。实例的数量在每个数据缺失的数据表示如表所示1。


数据表示	部分系统数据	基于加速度计的数据	这两个

访问	192年	36543年	25
的地方	21	6	0
累积的样品	3903年	41299年	1513年

缺失的数据导致问题的实例的训练LR模型和降低其他分类器的性能,特别是NB, NN和资讯。为了减轻缺失数据的影响,我们为每个分类器训练四个变量:第一个使用的所有功能;第二个使用所有其他功能除了有时丢失的系统特性;第三个使用所有其他功能除了基于加速度的,最后一个使用有时丢失的系统特性和基于加速度的特性。分类器变异都只使用样本来训练分类器所使用的所有功能都是可用的。评估的分类器,分类器的决策变量用于分类分别为每个测试数据样本,我们选择了分类器不同,不需要样品的特性,失踪,但使用尽可能多的可用的功能。

4.4。绩效评估的分类器

一旦我们建立了分类器在训练数据的基础上,我们用的测试数据来评估分类器。在机器学习中,通常选择一定比例,例如,三分之一,测试集的数据,将只用于评估分类器,没有构建分类器模型29日,31日]。测试集也贴上。因此,我们有真正的标签信息的用户提供的值)(样本。在分类器的评估中,每个测试数据样本是美联储的分类器,分类器的输出,就是预测的标签,而真正的标签。精度53%意味着53%的预测值的价值等于真正的价值;我们使用分类率精度的同义词。

我们的目标是将一个用户的数据通过使用一个模型基于其他用户的数据;我们想学习模式是常见的所有用户。因此,将训练集和测试集的数据是基于用户id。因此,用户的数据不是分类与知识的用户的数据。使用未来的知识数据的用户是不现实的,并利用过去的知识数据的用户是一个不同的问题,不解决。

一个选择是随机选择一定比例的用户测试数据。然而,有大样本的数量的变化由不同的用户和访问的数量由用户每一个标记的地方也不同。因此,整体的精度评估分类器根据不同用户上,在测试集。我们解决这个问题通过使用leave-one-user-out验证。为用户培训和测试是重复的次每次以一个用户的数据为测试集和其他用户的数据作为训练集,总体精度通过结合所有的测试的结果作为评价标准。这种交叉验证的方法确定,使得结果更容易理解当比较几种不同的设置,例如,在特征选择。在这些比较中,我们想在分类器设计的变化,例如,功能组合,性能差异的主要来源,而不是测试集的随机选择。合并后的结果包括测试结果使用与所有不同的训练集分类器训练。它包括一个分类的结果对于每一个标记的每个用户的数据样本。注意,我们不控制训练方法的随机初始化,这也使得一些贡献所观察到的差异。然而,使用leave-one-user-out验证和结合的结果测试也减轻随机初始化造成的偏差。

4.5。特征选择

通过选择只有一个子集的可用的功能,输入的数量可以减少分类器。这好处分类任务在几个方面:更少的特性导致更少的模型参数,提高模型的泛化能力和降低模型复杂度和算法的运行时间。它还提供了洞察问题的区分更重要的特性更重要的(32]。决策树等的一些学习方法,袋装的树木,正规化的逻辑回归包括特征选择作为学习过程的一个组成部分(31日]。然而,其他人没有。因此,我们寻找改进的特征子集选择候选子集和评估他们的预测准确性使用leave-one-user-out验证部分中描述4所示。4。

一个选项用于选择子集将是一个详尽的评估所有可能的子集。然而,对于11特征子集的数量是2047和14特性计算应该是16383。这些需要太长时间,计算时间尤其是慢的方法,如支持向量机,申请测试时leave-one-user-out验证。因此,需要搜索策略选择的候选子集的评价。为此我们应用顺序选择算法。

在连续的特征选择(SFS)特性添加或删除一次(32]。SFS的特征选择问题提供了一个理想的解决方案,因为它很容易成为被困一个局部最小值。为了缓解这个问题,我们实现了该算法在向前和向后的方向。SFS前进方向是一个贪婪的搜索算法。它增加了特征对模型一个接一个,直到添加更多的功能并不能提高预测精度。向后方向,启动过程的模型,包括所有可用的特性,然后功能是删除一次,直到删除功能并不能提高性能。在作出决定之前添加或删除功能,每个可用的候选人的影响为添加或删除功能测试。候选功能,产生最大的改进预测精度相比,所选择的特性集添加或删除以前试验周期,根据搜索的方向。过程结束时没有一个候选人在整个试验周期能够提高性能获得了在前面的试验周期。如果预测准确性是一样的在前面的试验周期,用更少的特性选择候选集。

4.6。信心的分类

在许多实际分类问题,将是有用的,除了提供分类的结果,分类器也能够提供信息的质量分类(34]。特别是,我们关注的信心分类,评估分类器本身的可靠性如何考虑自己的决定。高信心意味着分类器分类是“确定”对其输出而信心不足意味着它是“不确定。”的理念在信心评估是使用信息分类器的执行在一个特定的输入样本来推断信心,分类结果生成的样品是正确的(35]。

NB和LR分类器的决定是基于概率模型的类,和他们的输出类的后验概率特征值。这些概率可以被视为信心措施分类器的输出。支持向量机产生的分数作为类措施和Matlab提供了可能性fitPosterior这些后验概率函数变换。基于神经网络的分类器的预测输出二进制向量的长度 ,可能的类的数量。理想情况下,元素的值对应于预测类而其他人则无足轻重。在实践中,由于不完美的训练例子,噪音,和其他mismodeled效果,预测元素很少1和0。因此,分类的结果决定使用最近的元素;也就是说, 在哪里。现在的距离作为一项指标对当前适合类神经网络模型的特征向量。让这个值相同规模的概率输出NB, LR,支持向量机,我们把距离信心的措施。然而,它可能发生,在某些情况下,当输入样本对模型的适合非常贫穷,即使是最短的距离可能会比一个大。因此,自信是获得使用的距离。

使用两个数据集,我们的信心如何很好地测量研究可以预测误分类率,也就是说,分类器的评估自己的表现。我们设定一个阈值的信心,下面我们说上面的信心很低,它很高。有四种可能的组合的测量(信心评估分类器)和分类成功:(1)高信心分类,分类信心较低(2),(3)高的分类错误的信心,和(4)较低的分类错误的信心。分类器产生预测的标签和信心评估基于输入功能但不知道正确的标签。因此,它是可能的分类器有很高的信心,但当其预测与正确的标签相比,它的输入是被误诊。我们认为正确决策1和4,因为在这些情况下的信心分类器预测分类器的成功,而在例2和3的决定是错误的的信心分类器提供了成功的错误预测。假设的成本不成功的情况下,2和3是相等的,以及成功案例1和4的回报是相等的,我们寻找信心阈值之间的比例,这样的数量情况下1和4例2和3是最大化。我们使用阈值获得拒绝样本有信心低于阈值并记录多少分类器的总体精度提高使用阈值和多大比例的样本将被拒绝。

5。结果

在本节中,我们描述我们的结果的比较数据演示使用部分中描述的方法和分类方法4。在所有的测试中基于数据集# 1,丢失的特性值在输入样本被视为描述的部分4所示。3。

5.1。分类

结果比较的数据表示和不同的分类方法是显示在图3评价标准的总体预测精度在leave-one-user-out验证部分中描述4所示。4。结果总结在表2。


	数据表示
	一个	b	c	d

最小值	61.4	81.0	82.3	75.0
马克斯	76.9	89.2	90.1	86.3
的意思是	73.3	85.3	87.0	82.1
性病	5.7	2.8	2.7	4所示。2
不等式性质	15.5	8.2	7.8	11.3

(一)

(b)

(c)

(d)

图3(一个)显示了每个方法的分类使用访问表示。所有方法但是朴素贝叶斯显示一定的偏见。他们实现精度高的地方家和工作和低精度的地方其他人。直观的原因是访问家或工作更频繁的访问的地方贴上吗其他人。因此,算法牺牲准确性其他人达到更高的精度家或工作。

图3 (b)显示相应的结果使用的地方表示。访问表示相比,分类精度较高。同时,分类器的精度之间的差异小于访问方法。获得的改进相结合的所有访问一个地方可能是因为一般平均减少离群值的影响。如下的缺点的地方表示。首先,它是更多的计算生产成本,因为需要把所有个人访问的地方。第二个缺点是所谓的冷启动问题:分类算法才会准确分类的地方一定数量的访问已经收集了。

分类结果与累积的样本数据集# 1和# 2的数据所示3 (c)和3 (d)。累计样本与数据集# 1提高精度和降低分类器之间的差异甚至比方法的地方。累积平均样本包括同样的地方表示和累积样品减少可变性的一代样品如果手机使用和访问模式保持定期的地方。然而,累积样本的计算也产生一些变化,因为它生产样品即使新访问不了的地方。在这种情况下,特征值变化的总时间用于扩展依然种植虽然保持和活动的累计时间保持不变。更大数量的样本的平均在一起提供了一个合理的解释来改善。累积的样本数据集# 2,精度较低和精度分类器之间的差异更大。这可能是由于规模较小,数据的时间跨度。

当比较不同分类器的结果与所有的数据表示,支持向量机和LR总是提供最好的的三个算法分类精度而DT是最差的三个分类器精度。英国电信和神经网络也表现得很好;他们从不组中最严重的三个。一般NB不提供良好的精度,除了地方表示它是第二个精度。从分类器研究了支持向量机是目前为止最慢的分类器训练。训练支持向量机的分类速度快;然而,它的内存需求在分类阶段成为高如果支持向量的个数。问题是强调在多类分类支持向量分别为每个类需要存储。因此,尽管其准确性,SVM主要是作为一个参考,我们不认为它是适合实际应用的类型和数量的数据在资源受限的移动设备。预测的计算成本也很高,然而,它必须存储所有训练样本和比较它们与新的输入。 Therefore, its practical applications are restricted to cases where extreme simplicity of the algorithm is required but high computational costs can be accepted. Based on these comparisons, LR, NN, and BT seem to be the most promising methods for practical applications.

我们的测试结果表明,数据表示包括平均,也就是说,地方和累积样本,给分类精度高于访问数据表示。平均分类精度与访问、地点和累积获得的样本数据集# 1的0.72,0.85,0.81和0.87,分别与累积的样本数据集# 2。

5.2。积累时间和累积效应样本

累积的样品,样品本身发展作为新数据的累积时间计数器的功能。研究积累的影响分类精度,我们分组样本的基础上积累时间。第一组包括的样品一天,在第二组样品 2天等等,直到7天。这七个组包括第一周样本用户开始访问的地方。到第八组我们包括所有的样本,使数据所示相同的分类精度3 (c)和3 (d)。

在分类器的训练我们使用所有其他用户的所有累积的样本,样本的基于时间的选择不影响训练阶段。累积的结果数据集的样本表示# 1和# 2图所示4和5,分别。的数据,除了总体分类精度,还具体标签的分类精度(家,工作,其他)所示。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

累积的总体分类精度比较样品图4(一)和访问表示在图3(一个),它可以观察到,经过6天的积累时间,精度与累积样品等于或优于准确性与访问所有分类器除了NN和资讯。与访问这两个精度分别为76.7%和76.3%,累计样本和6天的积累时间精度只有约72%。在图4,相对应的曲线整体精度和分类的准确性家和其他为所有的分类都是单调上升后2天;即精度提高随着特征样本的积累时间增加。也有明显改善从7天到最大积累时间。分类的准确性工作表现不同:所有分类器除了NB的崛起准确性非常慢,也不单调上升。

基于这些结果,工作收集更多的信息通过整合长时间的值并不能提高其准确性与发生家和其他。# 1的数据集的区别在于精度有明显的提高,当积累时间从7天增加,而与# 2没有明显改善;与家甚至可以观测精度的降低。这可能是由于小样本总数和短数据收集在数据集# 2。积累时间的直方图的样品在这两个数据集在图所示6。数据集2号,大约一半的样本有积累的时间少于7天。较长的积累时期,只有很少的用户数据是有偏见的,降低了结果的可靠性更长的积累时间。

在图5(一个)总体精度方法最终的精度已经4 - 5天后积累:只有NB显著提高;之后,英国电信、资讯和LR改善仅略,和DT和神经网络的精度降低。比较不同的数据集,累计样品图5(一个)和数据集的访问表示在图# 13(一个)2天后,可以看出已经积累的数据精度与累积超过样品访问的精度。在图5,只有分类的准确性其他是单调上升的所有分类器。在的准确性家有明显的下降从7天到最大积累时间与所有分类器除了BT, DT, NN, LR减少开始更早之前积累的时间7天。的分类工作精度的行为不同于其他类:与所有其他分类器除了SVM和LR,精度首先随时间积累,然后开始增加。DT,最后精度比开始更糟。然而,准确性非常缓慢的增加,除了NB。尽管这些影响在单个类的分类精度,在第一个7天的总体精度图所示5(一个)随着积累时间的增加而增加。然而,精度与最大积累时间DT和NN小于7天的积累。

一般来说,长时间的数据积累,更准确地说数据样本分类。平均精度获得使用数据集的访问表示由累积超过# 1 # 1的样本数据集与数据集经过6天的积累而发生的# 2已经经过2天的积累。

5.3。特征选择

顺序特征选择(SFS)前后两个方向的所有部分中描述的分类器4所示。2应用于数据集# 2。结果如图所示7,显示了分类器的整体精度的函数特征的数量。曲线与实线显示SFS前进方向的结果。对于每一个分类器,线从左一个特性和将继续,直到添加新特性并不能提高精度。结果SFS向后方向与dash-dot行所示。这些曲线从右开始与所有11特性包括,继续向左减少功能,直到删除功能的数量并不能提高的结果。的精度只有一个最优选择特性在0.69和0.79之间,而与所有功能精度在0.74和0.86之间。使用最佳特征子集的精度发现向前和向后算法在0.82和0.87之间。这样的选择特性降低了精度分类器之间的差异。

向前与神经网络、BT和资讯,选择产量准确性优于逆向选择和选择特性的数量也小。NB, DT, LR,向后方向的精度获得更好。LR,向后方向的选择特性的数量也比前进的方向,而NB和DT获得更好的准确性是使用更多的功能比选择SFS向前发展。使用支持向量机,最好的精度在两个方向上是差不多的。然而,前进的方向只有7个功能需要而向后方向10功能需要相同的精度。三个最好的精度得到使用LR 4特性,神经网络与3的特性,和SVM 7功能。有趣的是,使用神经网络的精度只有大约是一样的一个最佳选择特性与神经网络所有11特性包括在内。

特征子集构成的演变在向前和向后SFS图所示8。特征选择在向前选择如图8(一个):重量和方块的大小越大,越早被选中相应的特性。的功能没有得到选择的不都是标有广场。图8 (b)显示了删除功能表现在逆向选择。大暗方块显示特性,在选择过程中还没有废去。更小、更轻的广场,早该特性就被撤掉了;如果尺寸和重量减少,功能不包括在最终的子集。注意,在图8的大小和重量尺度广场是可比的,只在分类器相同的最终数量的特性。没有功能包含在最后的子集,涵盖所有分类器和SFS的两个方向。前进方向,闲置是第一个功能选择到模型分类器,然后呢nightStay第二特征选择与所有其他分类器除了NB。落后的方向,保持,nightStay,耳机都包含在最后的子集闲置包含在最终的所有分类器除了LR的子集。

(一)

(b)

根据这些测试,我们看到,即使在相同的训练集和测试集,特性的相关性取决于分类器。然而,功能保持,nightStay,耳机,闲置似乎相关的分类器。所选择的特性集提供了改进的整体精度在0.02 - -0.07范围,导致精度在0.82 - -0.88范围。它可以指出,还分类器模型,本质上执行的准确性特征选择或提取的训练阶段,也就是说,DT, BT, LR在我们的测试中,可以使用外部特征选择算法改进。然而,结果在特征重要性被认为只是初步的,体积小的数据集# 2减少这些结果的可靠性。

NB, DT,支持向量机,子集选择前进方向包括逆向选择的最后获得的子集。BT和神经网络,最后选择前进方向的功能首先删除与LR向后方向和前进方向的功能,首先是选择第四个功能删除向后方向。这表明,利用这些数据,结合前后选择SFS算法可以提高精度时所选特征子集作为选择标准。

5.4。信心的分类

评估的准确性和信心的措施之间的关系中定义的部分4所示。6我们收集所有的分类结果和他们的信心值,获得使用测试数据和NB,神经网络,支持向量机,LR分类器。我们订购结果基于测量和信心将他们分成20个相等大小的组。为每个组的信心,我们计算的总体分类精度。这些团体如图的精度9数据集和所有的数据表示。

(一)

(b)

(c)

(d)

所有的数据表示,很明显,精度大大降低组较低价值的信心。然而,即使这些组织还包括well-classified样本。结果在图9 (b),获得数据集# 1和地方的方法,曲线包括许多尖刺。这是一个量子化效应由于小样本总数。一般图的曲线9(一个)比数据平滑9 (b)- - - - - -9 (d)。曲线在图9(一个)展示一个更稳步上升相比,在数据曲线9 (b)- - - - - -9 (d)这礼物saturation-like行为。差别的一个可能的原因是过滤已经应用于样品图9 (b)通过平均访问数据和数据9 (c)和9 (d)通过将原始数据。

在图10之间的比率的正确和错误的决策分类器阈值显示为一个函数的信心。阈值被用来拒绝低于阈值的分类结果与信心。正确的决定包括样本正确分类的情况下与信心等于或高于阈值或者是分类错误的信心低于阈值。错误的决定是不是包括较低的情况下well-classified信心或高的信心。曲线在图10 ()凹和光滑,也包括部分曲线的上升,使它容易找到最大值在中间部分的曲线。在数据10 (b)和10 (d)没有明显上升部分的曲线,如图10 (b)曲线再次皱同样如图9 (b)。LR的曲线数据10 (c)和10 (d)和支持向量机在图10 (c)单调递减;也就是说,他们有他们的最大值最小的阈值的信心。

(一)

(b)

(c)

(d)

图11说明信心阈值的影响,最大化数量的正确和错误的决定之间的比例阈值时拒绝使用较低的分类结果的信心。中显示数据的值信心阈值,样品的比例否决了基于阈值的所有样本,绝对改善使用阈值,得到的预测精度和样本的分类精度不拒绝。在图(11日)呈现的结果数据集# 1和访问数据表示,拒绝结果信心产生较低精度的改进变化在0.05和0.14之间。数据集# 1和数据表示的地方,如图11 (b)改进很明显小,0.01和0.03之间的不同。与累积数据样本集的门槛LR拒绝很少样品和准确性不改善,可以看到数据11 (c)和11 (d)。这些数据表示的改进其他分类器也不显著;在图注11 (d)增加约0.03;在其他情况下,它是0.01或更少。总结,访问,获得的改进阈值比用信心与其他数据表示。然而,即使应用阈值,精度不高的地方(比较数据的一个酒吧(11日)和11 (b)),但不同之处在于从数据大大减少3(一个)和3 (b)。

(一)

(b)

(c)

(d)

比较数据9和11我们看到,组织图9信心和较低的精度较低,低于0.5,有可能被拒绝的结果的准确度提高信心不足,和改进图可见11。然而,根据这些测试,数据表示包括平均,改善不显著。

结果如图9- - - - - -11也的阈值的确定是基于测试数据。因此,阈值的影响不是评估使用独立的数据,尽管温和改善,这些结果可能仍过于乐观。

5.5。类的数量的影响

在之前的测试中我们结合少标签的地方,比如朋友的家中,运输,和餐厅为一个类,其他。在本节中,我们比较这些三级结果到十级分类结果,我们得到我们的分类和特性。我们使用相同的MDC数据中定义部分3.1但是现在保持最初的10类。我们的地方和累积计算样品表征从十级数据。

总结了比较结果表3。我们可以注意到更小的病例数在三级问题和减少来自类以外的病例数下降家或工作。我们选择BT分类器为十级问题似乎比我们其他分类器类的数量更大,把它比作LR的三级问题LR表现良好的地方和累积样品(图3)。十级的地方表示,我们计算两种解决方案,一个使用的所有14特性,另一个在我们使用向前SFS选择最重要的特性。


类的数量	10			3

数据表示	的地方	的地方	那么一点点。	的地方	那么一点点。
			样品		样品
病例数	369年	369年	128137年	295年	108531年
:号码(百分比)	106 (28.7)	106 (28.7)	39250 (30.6)	106 (35.9)	39250 (36.2)
工作:号码(百分比)	98 (26.6)	98 (26.6)	37602 (29.4)	98 (33.2)	37602 (34.6)
其他:号码(百分比)	165 (44.7)	165 (44.7)	51285 (40.0)	91 (30.9)	31679 (29.2)

特性	所有14	3:	所有9	所有14	所有9
分类器	英国电信	英国电信	英国电信	LR	LR
总体精度(%)	62.3	68.5	68.4	89.2	89.5

类精度(%)
1(回家)	92.4	92.4	94.6	93.0	92.0
2	61.5	57.6	54.1
3(工作)	90.8	89.7	91.7	92.0	88.0
4	25.0	62.5	45.4
5	0.0	23.0	0.0
6	0.0	22.7	5.0
7	11.1	16.6	27.4
8	0.0	20.0	13.0
9	15.7	31.5	21.6
10	0.0	42.8	23.2
(其他)	(26.0)	(40.0)	(31.2)	81.0	89.0

从分类结果可以看出,添加更多的类并不显著影响的准确性家和工作的精度家在这两种情况下92%或略好,精度的工作是88%左右。然而,十级分类器不分类的其他地方。包括所有功能,总体精度是62.3%,有4类从来没有正确分类。通过减少的数量特征与SFS或使用累积样本,分类的能力也越频繁的地方增加最后一行所示,在其他类分类平均利率计算。由于这种改善,总体精度增加逾6%,至68.5%和68.4%。然而,这些都是远远低于三级的总体精度问题。

在此基础上比较,很明显,这种类型的用户数据,它有利于把少类为了更好的分类更频繁和重要的地方。虽然分类率家和工作都在同一水平三级和十级问题,降低总体精度与十级表明有更多的错误检测的家和工作。

6。讨论

论文(6- - - - - -8)也针对语义位置预测和使用数据来源于相同的数据库作为数据集# 1在我们的工作。然而,他们的工作和我们的之间有显著差异。论文(6- - - - - -8)都是参与者的专用轨道移动数据的语义位置预测(MDC)的挑战诺基亚、中描述(5)和详细和争取民主变革运动的结果36]。中描述的数据和基于它的结果是(9),也描述了语义位置预测的一个解决方案。基本信息数据、方法和结果的6- - - - - -9和我们的工作总结在表4。


解决方案	用户	比例的情况下			标签	特性	最好的分类器	精度(%)
解决方案	用户	家	工作	其他	标签	特性	最好的分类器	整体	家	工作

(6]	80年	25	30.	45	10	2769200年	GBT	75.1	N /一个	N /一个
(7]	80年	25	30.	45	10	54	()	65.8	87年	85年
(8]	80年	25	30.	45	10	1177年	()	73.3	One hundred.	One hundred.
(9]	114年	25	29日	46	10	500年	()	75.5	92年	90年

# 1的地方	114年	29日	26	45	10	3 (SFS)	英国电信	68.5	92年	90年
# 1和。年代。	114年	31日	29日	40	10	9	英国电信	68.4	94年	92年

# 1访问	114年	52	38	10	3	14	神经网络	76.7	83年	86年
# 1的地方	114年	36	33	31日	3	14	LR	89.2	93年	92年
# 1和。年代。	114年	36	35	29日	3	9	LR	89.5	92年	88年
# 2那么一点点。年代。	16	31日	26	42	3	11	LR	85.9	81年	83年

多级2-method (SMO和简单的逻辑),融合与决策树。的二进制使用1神经网络和支持向量机分类器。结合多级随机森林和one-versus-all二进制随机森林分类器。

参与者使用的跟踪完整的争取民主变革运动数据的一个子集,包括80年的数据用户提供最高质量的位置跟踪,而我们使用的所有114个用户的数据标记访问数据,没有知识的质量数据。中使用的数据(6- - - - - -9从访问),持续了至少10分钟,而我们从访问数据,持续了至少20分钟。因此,他们的数据包括从类以外的更多病例家或工作相比我们的数据表示基于MDC的数据(数据集# 1)。的区别是重要的访问表示但数据变化的积累这些比率。在数据集# 2,数据采集实施不同,标签的百分比其他的比例高于其他标签。

提取特征的数字也在桌子上4。我们只用9-14特性相关的时间和电话的使用而不是环境而使用的其他作品也环境等相关功能的蓝牙或无线局域网设备听到的电话。我们测试了在数据集特征选择# 2在向前和向后的方向但是结果表是使用所有获得11所示的特性。作者在7,9)使用特征选择方法类似于正向我们的序列特征选择在(6)他们使用两种方法,Weka的救济和L1-regularized逻辑回归的任务。

主要的焦点在6)是在生成大量的条件特点,然后选择最佳的特性。分类结果使用逻辑回归支持向量机与不同的内核,梯度增加树木(GBT)和随机森林报道。的作者(6)发表了一个扩展文献[21]。

给出最终结果,7,8)都使用多个分类器或分类方法的融合。文献[7)使用多级分类模型,标签被分组在一个序列的分类任务较低数量的标签算法选择标签组以分层的方式,最后在选择两个标签之间的最低水平。,有几种方法可用于不同类型的分类器训练模型的多级分类。然后收集这些模型用于分类数据,及其分类结果作为新的特征向量,用于最终的分类器训练。

结合智能二元分类器是用于(8),多类分类问题分为一组双阶级分类问题类型one-versus-one标签或one-versus-two标签。合奏的二元分类器每个分类器使用特性的最佳组合为当前任务和从1神经网络(即更好的方法。,然而, )和支持向量机与RBF内核。三种不同的方法结合二元分类器的分类输出评估。

在[9)三种分类方法:(a)多级随机森林,(b) one-versus-all随机森林为每个标签在这个系统中,胜出者类决定结合one-versus-all选票,和(c)的组合。方法的准确性是评价使用leave-one-user-out交叉验证同样在我们的比较。

在工作中我们解决了三级问题标签家,工作,和其他而不是十级的问题(6- - - - - -9]。我们也使用更少的特性和简单的分类器模型;这是,同样如6我们没有使用分类器集合除了BT(10棵树)和支持向量机(3二元分类器)。简单的模型通常是首选在资源受限的移动设备。我们还研究了平均的影响特性,通过测试不同的数据表示,包括不同级别的平均:在访问表示每个访问都是单独分类,在累积样本,特征随着时间演变随着越来越多的数据可用时,最后的地方表示所有收集的数据从一个用户在一个地方是平均的。相比之下,我们也应用十级问题的特性和分类器。

当我们考虑到支持向量机的内存消耗在分类阶段也要求为资源受限的移动设备,我们不公布其结果表4即使它显示最好的结果与一些数据表示。在这些情况下,第二个最佳分类器显示的结果。

由于问题简化从十级三级的问题在我们的方法和数据使用稍微不同的标准,从争取民主变革运动检索数据库的性能数据表4不能直接比较。然而,由于简单的任务,尽管简单分类器模型,访问表示和神经网络,我们获得了整体精度76.7%,也就是在同一水平总体精度报告的其他作品。与数据表示包括平均和更好的精度提高到85.9%。的分类精度家和工作地方和累积的样本数据集# 1中相同的层次上,(7,9]。表示与地方数据实例描述只有很短的时间,这些精度较低,因为他们也与数据集# 2。在后一种情况下,实例的数量与标签其他高于数字与其它标签,而且,由于这个原因,这个标签吗其他也分类精度(91%)比其他两个标签。

三级之间的比较和十级的问题与我们的分类和特性表明,我们的模型可以检测家和工作可靠地在这两个问题。这样一个事实,在我们的模型推理是基于访问至少20分钟的时间也可能导致这个问题,较短的访问可能电话使用特征接近边界的决定。然而,在十级问题的减少分类率少的地方减少整体的精度。提高分类精度的其他地方十级问题需要使用特性直接关系到环境中,使用手机使用更少的保护隐私的数据,并使用更复杂的分类器。

它也可以辩称,MDC数据有点老了。争取民主变革运动数据集从第一个智能手机的时候,它不描述所有的现代方法使用智能手机。通过新技术的发展,智能手机的使用有了很大的变化(37]。如今,由于互联网连接手机,短信的使用减少了和消息传递通常是通过WhatsApp等其他应用程序执行。社会媒体和消息传递应用程序减少了需要语音通话和语音通话还可以在基于互联网的连接。在智能手机观看视频和电视已经成为常见的使用社交媒体和社交游戏。与智能手机,照片和视频记录,都是在社会媒体共享。也之间的联系和电话使用通过WiFi网络的可用性变化:无线通信网络的运营商已经开始带着廉价的数据计划无限移动数据提供给消费者,也允许他们使用用应用程序在移动(38]。

7所示。结论

我们已经开发出一种推理系统分配语义标签基于手机的使用用户的行踪。语义的地方我们考虑在这个工作是家庭,工作,和其他地方。我们的测试结果表明,数据表示,包括平均,也就是说,地方和累积样品表征,使分类精度高于访问表示。使用访问表示获得的平均精度由累积超过样品表示经过2 - 6天的积累数据。根据我们的初步测试数据集# 2的相关性似乎依赖于分类器的特性。然而,功能保持,nightStay,耳机,闲置似乎相关的分类器。我们的测试也表明,分类精度可以提高利用阈值基于分类的信心。改善更大,如果不包括平均数据表示。

7.1。未来的工作

未来发展的用户位置上下文的语义标签可能包括验证的模型使用一个更大的数据集:更多的用户,不同的生活方式和日常模式,不同的工作岗位,和数据的时间更长。更大的数据集可以用来学习当前的子类。组中其他子类,如商店、餐厅、电影院、健身房、户外运动、住宿、休闲、外出办事,可以发现。工作可能包括不同种类的工作活动,如轮班工作,推动工作,其他工作旅行,参加学校或大学,和远程在家工作。也使用家对不同的人是不同的;例如,老年人主要呆在家里。

在这项研究中,我们使用袋装树作为决策树的改进版本。装袋提高分类器的平均方差/多数选择结果从多个成年树训练集的变体。随机森林是一个有趣的替代未来工作。它构建一个集合decorrelated树的随机化的功能集合平均的在树上(见,例如,(31日])。

信息披露

这项工作是一个扩展我们的论文(20.在2014年UPINLBS]。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作被微软公司和财务支持欧盟FP7居里夫人之下初始培训网络MULTI-POS(批准号下的多元技术定位专业人士)31652年。研究本文使用MDC数据库可用Idiap研究所,瑞士,和诺基亚旗下。

引用

b . Heggestuen“Smarthphone和平板电脑普及率”,商业内幕,2013,http://www.businessinsider.com/smartphone -和-平板电脑普及率- 2013 - 10。视图:谷歌学术搜索
即Lunden”, 2020年6.1 b全球智能手机用户,超越基本的固定电话用户,”TechCrunch,2015,https://techcrunch.com/2015/06/02/6 - 1 b -智能手机用户——全球- 2020 -取代-基础-固定电话subscriptions/ # .t50cru: JF5k。视图:谷歌学术搜索
b . Rao和l . Minakakis“进化的移动定位服务,”ACM的通信,46卷,不。12日,第65 - 61页,2003年。视图:出版商的网站|谷歌学术搜索
n . Kiukkonen,布罗姆j . o . Dousse d . Gatica-Perez和j . Laurila“洛桑向富手机数据集:数据收集活动,”Proc。ACM Int。Conf.普及服务(icp),柏林,德国,2010年。视图:谷歌学术搜索
j . k . Laurila d . Gatica-Perez i Aad et al .,“移动数据的挑战:移动计算研究大数据”Proc。移动数据挑战诺基亚车间,结合普适计算国际会议2012年6月,英国纽卡斯尔。视图:谷歌学术搜索
朱y,大肠中,z . Lu,问:杨”特性工程类别分类,,”诉讼的Proc。移动数据挑战诺基亚车间、纽卡斯尔、英国纽卡斯尔,英国,2012年6月。视图:谷歌学术搜索
C.-M。黄,J.-C。应,v . s .曾“语义位置预测,挖掘用户行为和环境”诉讼的Proc。移动数据挑战诺基亚车间2012年6月,英国纽卡斯尔。视图:谷歌学术搜索
r . Montoli a . m ., j . m . Sotoca r . Montoliu Uso和a . m .,“语义位置预测结合智能二进制分类器”诉讼的Proc。移动数据挑战诺基亚车间2012年6月,英国纽卡斯尔。视图:谷歌学术搜索
t m t和d Gatica-Perez”,我们生活的地方:从纵向的智能手机的数据访问模式和自动贴标,“IEEE移动计算,13卷,不。3、638 - 648年,2014页。视图:出版商的网站|谷歌学术搜索
gdp Abowd, a·k·戴伊,p . j .布朗,n .戴维斯·m·史密斯和p . Steggles”更好地理解上下文和环境敏感,”手持和无处不在的计算:首先是国际研讨会,HUC”99年卡尔斯鲁厄,德国,1999年9月27 - 29,诉讼卷,1707在计算机科学的课堂讲稿施普林格,页304 - 307年,柏林,德国,1999年。视图:出版商的网站|谷歌学术搜索
m·巴尔s Dustdar f·罗森博格,在上下文感知系统中,一项调查”国际期刊的特别和无处不在的计算,卷2,不。4、263 - 277年,2007页。视图:出版商的网站|谷歌学术搜索
o . a . Nykanen和a . Rivero Rodriguez”上下文感知语义计算中存在的问题,国际期刊的交互式移动技术,8卷,不。3,32-39,2014页。视图:出版商的网站|谷歌学术搜索
j . Kantola m . Perttunen t . Leppanen j .科林和j . Riekki“上下文意识带有gps功能的手机,”研究所的程序导航——国际技术会议(ITM 10),第294 - 287页,2010年。视图:谷歌学术搜索
j·l .贝聿铭r . Chen刘et al .,“运动识别辅助室内无线导航手机,”学报》第23届国际技术会议的卫星导航研究所(离子GNSS的分工10),第3375 - 3366页,2010年。视图:谷歌学术搜索
周p y, z, m·李和g .沈,“IODetector:为室内室外检测,一个通用的服务”学报第十届ACM会议嵌入式网络化传感器系统(SenSys 12),第126 - 113页,2012年。视图:出版商的网站|谷歌学术搜索
a . Eronen j . Leppanen j·科林,j . Parviainen和j . Bojja方法和装置,用于确定环境上下文使用功能通过多个无线电接收器,专利申请US0053069,2013,http://www.google.com/patents/US20130053069。
Android开发者,“场所对象”,http://developer.android.com/reference/java/util/Locale.html。视图:谷歌学术搜索
t和d Gatica-Perez”,通过他们的应用程序你应该理解他们,”《第九届国际会议利马索尔,页1 - 10,塞浦路斯,2010年12月。视图:出版商的网站|谷歌学术搜索
a . Rahmati c·谢泼德c . Tossell l .钟和p . Kortum”实际环境意识:测量和利用移动使用的上下文依赖,”IEEE移动计算,14卷,不。9日,第1946 - 1932页,2015年。视图:出版商的网站|谷歌学术搜索
a . Rivero-Rodriguez h . Leppakoski, r . Piche”语义标签的地方使用监督学习基于手机的使用特性,”程序无处不在的室内定位导航和基于位置的服务(UPINLBS 14),第102 - 97页,2014年。视图:出版商的网站|谷歌学术搜索
朱y,大肠中,z . Lu,问:杨“特性工程语义位置预测,”普及和移动计算,9卷,不。6,772 - 783年,2013页。视图:出版商的网站|谷歌学术搜索
k . Farrahi和d . Gatica-Perez概率的方法来挖掘手机数据序列,”个人和无处不在的计算,18卷,不。1,第238 - 223页,2014。视图:出版商的网站|谷歌学术搜索
T.-B。阮,t·阮w·罗,美国曾和d . Phung”无人监督的推理重要的位置从无线数据对于理解人类动力学”学报》第13次国际会议上移动和无处不在的多媒体(妈妈的14)2014年11月,页232 - 235。视图:出版商的网站|谷歌学术搜索
e·s·罗翰和p . Figueiredo e Silva,“用户基于众包的痕迹分析数据,”13学报》国际无线通信和移动计算会议(IWCMC)瓦伦西亚,页1303 - 1308年,西班牙,2017年6月。视图:出版商的网站|谷歌学术搜索
e . Malmi t m t, d . Gatica-Perez”从foursquare我广场:学习签到行为来自多个来源,”《ICWSM美国,波士顿,MA, 2013。视图:谷歌学术搜索
o . Dousse, t·m·t·m .当天艳阳高照,d . Gatica-Perez”概率内核方法人类流动预测智能手机,“普及和移动计算,20卷,13-28,2015页。视图:出版商的网站|谷歌学术搜索
微软,“流光sensorcore sdk 1.1预览版”,https://msdn.microsoft.com/en-us/library/dn924551.aspx。视图:谷歌学术搜索
“机器学习、神经和统计分类,d .米奇·d·j·斯皮格尔霍尔特,c·c·泰勒和j·坎贝尔,Eds。艾利斯霍尔伍德中校,上台北,美国,1994年。视图:谷歌学术搜索
汉和m . Kamber,“数据挖掘:概念和技术,”摩根Kaufmann出版商公司,旧金山,CA,美国,2000年。视图:谷歌学术搜索
罗素和p . Norvig人工智能、现代的方法培生教育公司,2003年版。
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素施普林格,纽约,纽约,美国,2008年。视图:MathSciNet
k . j . cio、w . Pedrycz和r·w·Swiniarski数据挖掘知识发现的方法美国,激飞美国,波士顿,MA, 1998。视图:出版商的网站
微积分,神经网络和学习机器,中国生产力中心公司,2008年版。
s . j . Delany·坎宁安d·多伊尔和a . Zamolotskikh”产生的估计分类案例垃圾邮件过滤器的信心,”案例推理的研究和发展卷,3620在计算机科学的课堂讲稿海德堡,页177 - 190,激飞柏林,柏林,海德堡,2005年。视图:出版商的网站|谷歌学术搜索
w·Cheetham“案例推理与信心,”案例推理技术的进步卷,1898在计算机科学的课堂讲稿海德堡,页15 - 25,激飞柏林,柏林,海德堡,2000年。视图:出版商的网站|谷歌学术搜索
j . k . Laurila d . Gatica-Perez i Aad et al .,“从大的智能手机数据来研究:全球移动数据的挑战”普及和移动计算,9卷,不。6,752 - 771年,2013页。视图:出版商的网站|谷歌学术搜索
德勤没有什么地方像手机德勤全球移动消费者调查,2016年,http://www.deloitte.co.uk/mobileuk/assets/pdf/deloitte -移动消费者- 2016——是——没有地方-像phone.pdf。
Tefficient”,无限的数据使用推到新的高度,”行业分析,2016,http://tefficient.com/unlimited-pushes-data-usage-to-new-heights/。视图:谷歌学术搜索

移动信息系统