通过判断轨迹的逻辑起点和终点是否符合用户的行为习惯,攻击者拥有的背景知识可以违反匿名的轨迹。传统轨迹隐私保护方案常常产生一个匿名的轨迹不考虑轨迹开始,终端的安全。为了解决这个问题,本文提出一种基于生成安全保护隐私轨迹出版方法开始和端点。首先,生成候选集包含一个安全的出发点和终点根据用户的习惯。第二,<我talic> k我talic>−1匿名轨迹生成一个安全的候选集。最后,可访问性修正为每一个匿名的轨迹。该方法集成特性,比如当地的地理可达性和轨迹相似性产生一组匿名的轨迹。这为用户提供了隐私保护<我talic> k我talic>匿名,不依赖可信第三方和较低的算法复杂度。与现有的方法相比,如轨迹旋转和单向一代,理论分析和实验结果的数据集上真正的轨迹表明,匿名的轨迹生成的方法可以确保轨迹隐私安全的同时保持较高的轨迹相似。
随着无线通信的发展和定位技术,用户可以发表他们的轨迹获得方便的兴趣点信息(
在享受便利提供的轨迹释放,用户也面临着隐私泄漏的危险
学术界提出了相当数量的轨迹隐私保护的方法,包括基于地理位置的查询方法,包含一个安全的和受信任的第三方
本文的主要贡献如下:
生成一个安全算法开始,端点候选集。根据用户的习惯和轨迹开始,终端的特点,选择一个安全的候选点集,和一开始,选择虚拟轨迹的端点。
提出的方法拟合轨迹,适合两个历史轨迹不同的方向成一个虚拟的轨迹。假轨迹拟合得到的与原来的轨迹可以维护一个有效的区别。
评估算法的不同程度之间的轨迹,轨迹数据可用性和轨道泄漏概率。理论分析和实验表明,该方法保证了轨迹数据的高可用性的前提下有效地保护用户的隐私。
论文的内容安排如下:部分
目前,基于轨迹释放的隐私保护方法通常分为三类:抑制方法,归纳方法,虚拟数据的方法。其中,推广方法<我talic>
k我talic>匿名的核心是使用最广泛的。的<我talic>
k我talic>匿名技术首次提出的《理发师陶德》等。
代以来<我talic>
k我talic>匿名技术源于关系数据库的隐私保护问题,数据库中的quasi-identifiers和敏感属性很容易定义。但是,当<我talic>
k我talic>匿名性是应用于高维数据字段的轨迹,这些属性成为很难定义
泛化方法不太有效提供合适的保护用户隐私的单一轨迹数据和敏感属性。隋et al。
常见的个性化轨迹隐私常常合并方法<我talic>
k我talic>匿名技术与多种方法建立模型,以满足用户的特定需求。例如,通过执行真正的轨迹的几何旋转和翻译来获得一个新的虚拟轨迹和一组<我talic>
k我talic>匿名(
微分隐私是一种新的保护隐私技术基于数据失真,保护敏感数据,使数据通过添加随机噪声的统计特性(
总之,取得了一些研究成果的使用个性化隐私保护,但大多数方法忽略隐私泄露的风险,攻击者根据轨迹数据。如图
轨迹被攻击者的逻辑起点。
解决这个问题,我们首先生成一组候选人的安全启动,终端根据用户习惯和提出一个假轨迹生成方法适合这些安全的轨迹点,基于背景知识的有效防御攻击。
原始轨迹:指一个路径,用户通过在特定的时间。具体地说,原来的轨迹是一组有序的位置:
假轨迹:指通过伪装的道路使用一个匿名用户的原始轨迹算法。假轨迹时用下列公式表示路径生成匿名根据原来的轨迹:
安全启动和端点。一组候选人包含安全开始,生成终端根据用户的习惯:
轨迹不同学位:定义为生成的虚拟轨迹之间的差异程度和计算出的原始轨迹和一定程度的功能。程度的差异是一个重要的标准判断假轨迹生成算法的优缺点。假设<我nl在e-formula>
轨迹角计算。
轨迹泄漏概率:指虚拟轨迹被攻击者的百分比。
图
单元网格,以确定位置是否安全的基于位置查询概率。
效用损失:它是由两个方面:(1)位置点的损失或冗余由于轨道拼接。这是计算的
泛化造成的信息损失。它通常是衡量的标准计算方法提出
因为攻击者可能认识到开始-和端点的轨迹,找到原来的轨迹,我们提出一个虚拟轨迹生成方法,该方法包括以下步骤:(1)生成安全开始,根据用户终端的数据集;(2)生成虚拟轨迹根据设置在前一步开发;(3)执行一个可达性校正生成虚拟轨迹。三个步骤,分别由随后的实现算法
把用户活动区域<我nl在e-formula>
把所有分<我talic> U我talic>划分成不同的块;
ts<我nl在e-formula>
时间戳在ts分割成不同时期的TPS和获得一组<我nl在e-formula>
排序<我nl在e-formula>
马克<我nl在e-formula>
继续;
得到<我nl在e-formula>
删除<我nl在e-formula>
处理<我nl在e-formula>
随机选择<我nl在e-formula>
马克=<我talic> 我我talic>;
如果
记录效用损失和回1号线
数+ +;
数+ +;
删除<我nl在e-formula>
该方法的原理图。
本节提出了一种算法用于生成安全的开始和端点。首先,我们把一天的时间分成10分钟周期的时间间隔<我nl在e-formula>
基于算法
本节提出了一种双向假轨迹生成算法,提取历史轨迹数据集和过滤器通过安全开始,这些终端根据总体方向的轨迹。如图
双向轨迹生成。
在<我nl在e-formula>
轨迹可达性的判断。
如果用户的轨迹数据集的概率<我talic>
U我talic>通过这两点<我talic>
一个我talic>和<我talic>
B我talic>转移概率阈值大于位置<我talic>
V我talic>,它表示<我nl在e-formula>
轨迹可访问性修正。
算法
算法
算法
总之,整个算法的时间复杂度<我talic>
O我talic>(<我nl在e-formula>
在这篇文章中,一个虚拟的轨迹生成算法基于安全开始,终端设计生成<我talic> k我talic>−1假轨迹为每个真正的轨迹在原始数据集。它具有以下特点,实现轨迹数据发布的隐私保护。
首先,语义轨迹包含了大量的敏感位置,考虑到攻击者的收购的语义位置信息通过背景知识地图。当攻击者分析历史数据,违反可以讨论的三个过程:
关系推理攻击:攻击者可以获得关键领域之间的跃迁概率通过观察用户的转移轨迹和结合背景知识,如历史轨迹数据。由于假轨迹是由历史轨迹之间的拼接,它符合用户的习惯,可以抵御语义范围攻击。
相似的攻击:攻击者可以根据语义和目标轨迹设置地理相似。由于虚拟轨迹是由历史轨迹拟合,满足语义相似度的要求。假轨迹生成时,历史轨迹段指的方向和形状的选择真正的轨迹,所以拼接轨迹满足地理相似的要求。
留着点儿攻击:一开始,端点的轨迹等关键信息可以反映用户的旅游目的地和非常容易受到攻击。自年初以来,终端的虚拟轨迹选择从用户的历史轨迹,可以抵抗攻击者的攻击留着点儿。
其次,生成的虚拟轨迹是指一段真正的轨迹,和相似的轨迹生成方向和形状拟合前的筛选。因此,假轨迹有更高程度的相似的轨迹。攻击者无法识别真正的轨迹从轨迹发表的一组用户之间的相似度。总之,任何真正的轨迹识别的概率是<我talic> k我talic>匿名的隐私需求。
这个评估的实验环境是AMD Ryzen7 1700 x 8核Processor@ 3.4 GHz, 32 GB内存,算法由MATLAB实现2016 b,程序运行在Windows 10。
我们使用微软亚洲研究院的Geolife GPS轨迹数据集
参数参与以下实验包括以下:(1)轨迹差异程度,这是一个重要指标评价的利弊产生假轨迹;(2)匿名的水平<我talic> k我talic>的数量,即虚拟轨迹生成一次;(3)轨道泄漏概率,地址真实轨迹的概率被攻击者。
方案相比,本文包括以下几点:(1)有效轨迹隐私保护方案(旋转)
为了提高研究的可靠性,以下从1000年重复实验结果是平均的。
拼接的轨迹可以导致损失或冗余的位置点,产生数据丢失,数据丢失阈值可以保证轨迹数据的可用性。当数据集提供了足够的位置点,它将产生一个高的轨迹数据丢失。这部分验证之间的关系数据质量生成的虚拟轨迹和用户的数据集的大小。当虚拟生成轨迹,轨迹数据集满足阈值的数据损失<我talic>
π我talic>,认为数据集可以生成一个虚拟轨迹与下面的数据丢失<我talic>
π我talic>。Geolife数据集,10000,100000,200000,400000,800000,和100万个位置点被选作实验,和<我talic>
k我talic>价值30计算最低阈值数据丢失,每个数据集都可以提供。图
损失率。(一)数据损失率。(b)效用损失率。
如图
我们从Geolife选择100万个位置点数据集实验和对比算法<我talic>
k我talic>cs和(<我talic>
k我talic>,<我talic>
δ我talic>)匿名。泛化造成的效用损失计算方程(
这部分验证匿名的影响水平<我talic> k我talic>在算法的执行时间和随机选择一组轨迹从用户轨迹。
实验结果呈现在图
轨迹的数量的影响<我talic> k我talic>运行时间。
在这个方案中,一代的假轨迹只是进行简单的几何变化和搜索替换,和不需要高维操作,因此该算法具有较高的执行效率。从图可以看出
当一个传统几何方法生成一个轨迹,它通常只生成一个虚拟的轨迹。由传统的单向生成算法生成的轨迹有很好的相似性,但往往无法抗拒语义攻击并不能保证为用户隐私保护。双向匹配算法结合了两种单向轨迹获得一个全新的轨迹。由于第二代,被攻击者的概率降低,同时保证轨迹的程度不同。为了证明双向假轨迹生成算法的优点,轨迹是随机选择的用户轨迹设置的重复实验。在这一节中,本文提出的方法是与圆的轨迹生成算法相比
1代算法相比,本文的算法。
从图可以看出
轨迹泄漏概率反映了用户的轨迹的程度的保护隐私。泄漏概率越低,较高的用户的隐私保护。为了评估的影响轨迹隐私保护相关的方法开始和端点安全,本节比较了该算法与旋转(
轨迹泄漏概率的比较。(一)无论开始和终端的安全。(b)考虑开始和终端的安全。
如图
解决轨迹数据发布的隐私保护问题,提出了一种新的、有效的基于安全保护方法开始和端点。该方法不依赖于一个受信任的第三方开始推广和终端基于用户的背景信息。我们建议而不是双向的假轨迹生成算法生成<我talic> k我talic>−1路径很难发现被攻击者的背景知识。实验表明,我们的方法可以减少数据丢失,同时保护用户隐私。假轨迹生成方法实现了轨迹<我talic> k我talic>匿名性和满足用户隐私保护的需要。
安全的开始和终点的生成候选集取决于大量的属于用户的个人数据。当足够的数据不可用,往往很难达到预期的效果。尽管有许多轨迹生成算法(
所需的原始/处理数据复制这些发现也不能在这个时候作为数据共享一个正在进行的研究的一部分。使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
这项工作得到了国家自然科学基金(61972439,61972439,61702010)。