文摘
在物联网(物联网)、聚合和发布的实时数据通常可以用于挖掘更多有用的信息,使人类的生活更加方便和有效。然而,隐私信息披露是最关注的问题之一,因为敏感信息通常伴随着用户聚合数据。因此,出现了各种数据加密技术实现隐私保护。这些技术不仅可以介绍复杂计算和通信开销高但也不保护没完没了的数据流的工作。考虑到这些挑战,我们提出一个自适应实时流数据聚合框架事件微分隐私(Re-ADP)。基于自适应事件微分隐私,该框架可以保护任何动态通过传感器收集的数据时间戳先后在无限流。它是专为雾计算体系结构,极大地扩展了云计算网络的边缘。在我们的框架,提出雾服务器只会聚合安全数据发送到云服务器,可以减轻云服务器的计算开销,提高沟通效率,并保护数据隐私。最后,实验结果表明,我们的框架优于现有方法和提高数据可用性和强大的隐私保护。
1。介绍
由cyberphysical网络的发展,云计算、移动互联网、智能手机环境敏感,和相应的数据爆炸性增长经验1]。云计算提供了一个良好的解决方案来处理数据的爆炸性增长,实现资源共享(2]。然而,云计算服务可能面临许多挑战,如高延迟和开销在云服务器,由于集中的结构和网络带宽的限制。一些研究提出一个分布式服务计算模式,称为雾网络(3- - - - - -5]。分配功能的数据采集、数据处理、计算和应用设备位于网络的边缘,为附近的用户提供智能服务。
虽然雾计算提供了极大的好处,敏感和私人信息挖掘从原始数据(例如,社会关系和金融交易)也暴露的风险披露。更多,由于雾节点的复杂性和多样性,在雾网络中用户隐私很容易被披露。例如,超过在北京电子眼睛可能会导致隐私泄露(例如,车辆位置信息)数据共享在车载ad hoc网络(VANETs) [6- - - - - -8]。同样,我们也可以获得非法存取个人健康数据集收集来自各种传感器的体征身体传感器网络(BSNs)和发布这些私有数据未经许可(9- - - - - -11]。因此,如何保护用户隐私是雾计算的重要研究问题之一。
目前,聚合数据隐私保护主要分为两种类型。第一个是设计基于各种加密技术,如同态加密(6,8- - - - - -10]。在这种类型中,加密技术可能会导致巨大的计算开销,以及大量的计算资源的云服务12]。此外,加密算法方案可以降低通信系统的效率,特别是当系统包含许多传感器报告频率高。原因是大量的通信资源可能会浪费在加密信息的传播和相应的钥匙。因此,这是不适合传感器网络能源有限公司。
另一种类型的聚合数据隐私保护是探索利用微分隐私13]。与传统加密算法方案相比,微分隐私可以保护个人隐私,同时尽可能提高数据的准确性。例如,作者的14与微分隐私保护隐私的聚合数据通过使用机器学习。尽管存在许多研究基于微分隐私,不能解决一些挑战。这些研究没有考虑时间序列的高度相关,以免产生与高精度实时聚合数据。然而,一个实用的框架应该能够满足批量查询在连续时间只有一次通过交换信息。
为应对这些挑战,我们提出一种基于自适应实时保护隐私流数据聚合框架微分隐私事件下雾的计算架构。在雾中计算、数据存储、处理和应用都集中在设备在网络的边缘,而不是所有的云。这种类型的架构降低了传输到云的数据量,提高效率,并显著降低开销在服务器本身。此外,雾中心被认为是一个数据聚合器在我们的框架。它只报道聚合到云服务器安全的结果。通过这种方式,可以极大地提高了沟通的效率。此外,传感器只报告原始数据而非加密的数据,因为我们的框架不利用复杂的加密技术。最后,利用许多技术处理时间序列数据在我们的框架,提高聚合数据的准确性,如自适应采样、时间序列预测和筛选。
简而言之,总结了论文的主要贡献如下。(我)我们提出一种基于自适应实时保护隐私流数据聚合框架微分隐私事件下雾的计算架构。框架发布云服务器的开销与微分隐私保护和生成聚合数据。(2)为了促进事件微分隐私,我们先锋小说度量,即。、质量的隐私(回城)。回城的设计考虑了窗口大小和错误的发布统计数据。使用度规,我们调整窗口的大小自适应凭借QoP-based适应性的设计事件机制。(3)我们利用短期记忆(LSTM)预测时间序列数据和设计自适应抽样方案改善聚合数据的准确性。(iv)我们理论上分析提出Re-ADP框架的隐私和演示聚合数据的高精度数值模拟结果。
剩下的纸是组织如下。节2,我们引入了微分隐私和预赛事件的隐私。然后,我们提供了系统模型中,对手模型,整个Re-ADP框架来说明我们的问题。节3,我们提出一个QoP-based适应性事件隐私保护算法,包括动态调整窗口大小的方法 。部分4提出了一种智能grouping-based摄动算法,可以显著降低噪声添加到数据。节5我们分析Re-ADP框架是否满足微分隐私和提供了一系列仿真结果,讨论在我们每个机制框架的性能。然后我们回顾以前作品相关的聚合数据的隐私保护和微分隐私部分6。最后,部分7总结我们的论文并解释为未来的工作很有前途的研究方向。
2。问题陈述和预赛
2.1。系统模型
如图所示的系统模型1的事情,是由四层:层,雾层,核心层和云层。每一层的功能描述如下。(我)事情层组成的各种智能设备,如传感器、手机、致动器、生成报告原始数据雾层。(2)雾层物联网设备之间,通常位于和核心网络,是由大量的雾设备。雾设备可以被认为是传统的网络设备,如路由器、交换机、网关,或本地服务器专门部署。摘要设备主要由本地服务器和负责(i)收集和存储数据层报告的事情,(2)计算和聚合数据满足微分隐私,和(3)从云层回应查询请求。(3)芯层负责传递和雾层和云之间交换数据通过网络协议,如IP和MPLS层。(iv)云层云服务器部署很多分析大量的聚合数据。使用分析结果,云服务可以提供范围广泛的服务。
2.2。对手模型
在本文中,我们假设云层和核心层是靠不住的。他们将试图获取收集数据或恶意篡改数据的实际值。和雾层被认为是可信的,这意味着它可以获得原始数据但不向第三方披露数据。
2.3。微分隐私的基本知识
微分隐私是最受欢迎之一的隐私观念在当前研究领域的隐私保护。记录的基本理念是,一个人,不管他是在数据集,对最终的输出几乎没有影响,从而保护个人的隐私。
定义1。(微分隐私(13):一个随机算法在数据集可以提供微分隐私保证,如果有任何相邻的数据集和最多一个记录是不同的,任何输出 满足 在哪里表示随机算法的范围 。
请注意, ,称为隐私预算,是一个重要的参数微分隐私。它代表的隐私级别随机算法 。更具体地说,隐私的程度成反比 。然后,最常用的方法微分隐私是拉普拉斯算子的机制如下所示。
定理2(拉普拉斯算子的机制(15])。让表示一组数据集。考虑到一个函数 、拉普拉斯算子的机制对于任何数据集 是 平均值为零的噪音是拉普拉斯算子的分布和规模 。在这里,表示的敏感性 ,定义为最大的是哪一个规范对任何相邻的数据集和 。
定理3(顺序组成(16])。让提供微分隐私。的序列提供()微分隐私。
很明显,定理3显示几个差动保护隐私的保密级别的组合算法是所有预算的总和。
2.4。事件的隐私
事件隐私的缩写事件微分隐私,是一个新的隐私模型提出的Kellaris et al。17]。它可以保护隐私的任何事件序列发生在任何窗口时间戳。
我们定义两个相邻的数据集th时间戳,和无穷级数的和流前缀 在th时间戳, 。
定义4 (邻近的(17])。两个流前缀 , 是邻近如果下列两个条件之一:(我)为每一个 , 这样 和 ,(2)为每一个 , , ,和与 , 和 ,它认为, ,在哪里 ,一个正整数,表示一个序列的长度,可以同时保护。
定义5 (事件的隐私(17)))。一种机制满足事件微分隐私,如果 ,所有 , 在所有 ,它认为, 在哪里的所有可能的输出 。一种机制满足事件隐私保护敏感信息可能会披露的序列长度 。
根据上述定义,我们指的是(17)结论定理6。这个定理可以事件私人计划视图总的可用隐私预算在任何滑动窗口的大小并适当地分配一部分时间戳。
定理6。假设是一种机制以输入流前缀 和输出 。假设可以分解为 ,每个生成独立的随机性和实现微分隐私。然后,满足事件隐私如果
基于这一基本定理,我们将探讨一种新颖的自适应在我们的工作事件微分隐私机制。建议的机制是专为实时保护隐私流数据聚合在雾计算架构。
2.5。动机和系统框架
我们的动机是设计一个实时流数据聚合框架,可以在任何保护用户隐私时间戳,允许批量查询,获得高精度的结果。为了实现的动力,我们将我们的工作分为两个主要的任务。(我)在任何窗口的保护隐私 时间戳。服务器可能查询内的聚合数据时间只有一个一轮沟通。因此,拟议的框架必须保护隐私数据中生成时间戳。除了窗口的大小应根据数据变化的状态自适应地调整。(2)提高聚合数据的准确性。由于拉普拉斯算子的微分隐私,拟议的框架需要添加随机噪声数据保证隐私保护。因此,框架必须尽可能地减少额外的聚合数据错误隐私保护的前提。
在这篇文章中,我们打算设计一个自适应基于事件的差动保护隐私策略。这种策略在图2由自适应隐私事件分析、智能grouping-based扰动和过滤机制。在这里,我们大纲提出Re-ADP策略的完整过程,所示算法1。第一个组件,说明部分3,实现基于自适应采样和测量回城。第二个是在部分4设计基于k - means智能分组和相应的扰动机制。我们利用类似的过滤机制(18),以减少错误的聚合数据,以提高数据的可用性。
|
||||||||||||||||||
3所示。QoP-Based适应性事件隐私设计
隐私保护的无限流数据聚合,事件隐私是一个令人信服的模型。目标是效用和隐私保护之间做出权衡所有数据序列发生在所有的窗户时间戳。然而,它并不适用于许多现实场景由于固定大小的滑动窗口。不切实际的假设的关键问题是,大多数实时聚合数据流从传感器收集各时间段明显不同。例如,在连续时间戳,可以看出交通数据急剧变化在白天晚上但相对稳定。因此,我们引入一个新的QoP-based适应性事件隐私机制在这一节中动态调整窗口大小在不同的时间戳。以下三个部分描述实现这一机制的关键部分,包括回城的定义,自适应抽样设计和自适应事件隐私设计。
3.1。质量的隐私
考虑到窗口大小和错误的聚合数据,提出了回城来衡量质量相应的隐私。假设 和 代表原始时间序列在一个窗口和消毒时间序列,分别。然后,我们利用平均绝对误差(MAE)测量这两个时间序列之间的差异。
接下来,我们使用一个提议Re-ADP采样机制。可能扰乱统计在指定时间戳和摄动近似nonsampled统计抽样统计。因此,(5)可以改写如下:
因此,回城被定义为在一个窗口 在哪里是一种窗口大小和之间的重量是和 。在这里,在我们的实验设置为0.002。此外,是一个物流乙状结肠函数等于 我们采用规范化的物流乙状结肠函数是,我们不需要知道数据的一般特征。直觉上,传感器数据生成连续的时间戳并不是独立的,这些数据在数据之间存在着密切的相关性变化缓慢。与此同时,与敏感信息可能会披露的可能性,窗口的大小应该增加当数据变化缓慢。
3.2。自适应抽样设计
一般来说,一份报告的数据表示固定的支出预算 。当保护所有时间戳,预算分配给每个时间戳将小窗口大小很大。在这个案例中,该报告将显示巨大的错误。这个问题可以通过使用一个采样机制加以解决(这个机制可以扰乱采样统计而跳过nonsampled统计)。在这种情况下,我们可以使用跳过一些数据点保存预算未来的扰动以及提高沟通效率。没有利用模型控制器,我们的机制与proportional-integral-derivative (PID)控制器具有强鲁棒性和低复杂性。因此,我们利用PID控制器来改变采样率基于动态历史数据。首先,我们定义传感器的反馈错误 。 在哪里和显示当前采样数据点和最后一个采样数据点,分别。这表明当错误数据变化迅速增加。然后,完整的PID错误传感器的定义如下: 在哪里 , ,和表示比例增益、积分增益和微分增益。
凭直觉,采样间隔需要与快速数据变化小。因此,一个新的采样间隔T通过下列方法计算。
在(11),和表示当前采样间隔和前面的传感器之一 。 是用来调节采样间隔,是用来控制PID误差的敏感性。
3.3。自适应事件隐私保护算法
以上两部分的基础上,自适应事件隐私保护算法算法2。请注意,从线的伪代码行实验是离线训练集。
|
||||||||||||||||||||||||||
我们假设窗口的开始和结束点都有采样点采样点在当前窗口。因此,窗口大小 。根据(6)和(7),回城的窗口可以计算如下:
在获得在训练测试,自适应从线描述事件隐私机制行 。特别是,我们可以调整新窗口的大小通过移动窗口的起始点向前或向后时间戳。
4所示。智能Grouping-Based扰动
天真的方法实现微分隐私是注入拉普拉斯算子的噪声数据。尽管如此,它可能会引入更多的微扰错误,尤其是在统计数据用小值。因此,我们提出一个智能grouping-based扰动聚合传感器与小统计在一个动态的方式的变化数据。
智能分组算法算法3。它主要分为三个步骤。首先,它屏幕的传感器需要分组,根据预测的统计数据(用)利用LSTM模型。然后,它组织传感器需要分组使用k - means算法。最后,基于分组聚合数据将摄动的结果。我们将详细说明每一步的细节下面。
|
||||||||||||||||||||||||||||
4.1。统计预测与LSTM
保护隐私的原始数据,我们使用预测数据,而不是实际价值的智能grouping-based摄动算法。正如上面提到的,一个传感器是否需要分组取决于传感器的预测数据。此外,哪一组分配给每个传感器还依赖于预测价值。这意味着预测值的准确性是至关重要的最后一个聚合数据的准确性。因此,必须制定一个好的模型,可以很好地描述数据变化的特点和预测数据准确。
为了实现准确的预测,我们介绍LSTM模型。一般来说,LSTM网络(19)已逐渐应用于时间序列分析(20.- - - - - -22得益于一些优势)。特别是,它是一种特殊类型的递归神经网络(RNN),巧妙地解决了这个问题的梯度RNN的消失。共同LSTM单元由一个存储单元,一个undate大门,一个输出门,门和忘记。存储单元存储一个值(或状态)或长或短。它有能力删除或增加信息通过精心设计的细胞状态三个门可以传输信息。因此,我们采用LSTM网络制定我们的模型描述数据在我们的算法的非线性特征。
考虑我们的智能分组算法的有效性,我们LSTM网络仅由三层(如图3),即。,the input layer, the hidden layer, and the output layer. The input layer has神经元的价值在哪里是由以前的数量聚合数据用于预测。输出是一个神经元,因为我们只需要预测下一个时间戳的值。隐藏层由几种LSTM单位。是一个权重矩阵输入层和隐层之间,在吗是,在输出层和隐层之间。此外,每个上下文单元对应一个隐层神经元,这是用来记录隐藏层的输出在一个递归。
如图3,历史的聚合数据作为训练数据输入到LSTM模型以预测每个传感器的值在当前时间。例如,假设我们需要从传感器生成的预测价值在时间(例如,)。以前聚合数据用于预测 。我们首先计算隐层单元的输出(即,)。图4显示了LSTM单元的详细结构,计算如下。
首先,LSTM单位决定哪些信息应该忘记从细胞状态使用 在哪里是物流乙状结肠函数,是权重矩阵的忘记门,是忘记的偏差向量层门。隐层的输出在时间吗 ,而隐层的是输入当前时间,计算如下。
接下来,LSTM采用以下方程决定什么新的信息需要存储在细胞状态通过更新层门。 在哪里表示的值将被更新代表新的候选值的向量。和权重矩阵的输入层门。和定义如下: 然后,细胞状态基于更新(18在当前时间 。 这里,隐藏层的输出在当前时间由更新控制门和忘记门 。
最后,根据最新的细胞状态 ,隐层的输出在当前时间, ,可以计算如下: 在哪里是输出门决定哪一部分应该输出。
根据(13),(15)和(19),我们可以知道LSTM单位已经决定哪些信息是被遗忘的能力,更新和输出智能。这种能力使我们能够更准确地预测的时间序列网络。
最后预测数据的传感器在时间 ,例如, ,计算如下: 在哪里是输出层的激活函数。
LSTM网络的训练:为了实现实时预测,我们应该提前训练网络相关参数离线。此外,我们必须使用的真实统计数据训练集为了训练模型的准确性。因此,对于传感器在时间 ,输入是 和预期的输出才是真正的统计 。基于预测数据 ,我们网络的损失函数定义如下。
使用反向传播算法(23),训练误差传播到LSTM神经元网络。然后,我们进一步计算训练误差引起的每个神经元和调整相应的权重,减少错误。培训过程的细节可以成立于23]。最后,鉴于历史聚合数据,训练LSTM模型可以预测传感器实时数据。
4.2。基于k - means智能分组算法
在本节中,我们提出一个基于k - means方法智能分组算法。算法可以潇洒地噪声总小统计数据从传感器获得的场景。首先,我们的预算分配给每个采样点然后生成一个抗噪音的阈值动态。显然,我们可以利用一个比例来描述之间的关系和相应的预算分配。然后,我们可以获得每个传感器的预测数据对于每一个时间通过使用训练LSTM模型。根据上面的处理,我们可以利用k - means算法(24)来实现传感器数据聚合的前提小于抗噪音的阈值 。
与其他算法相比,k - means算法是快速和高效,适用于大型数据场景。因此,它符合我们的数据的大小和实时要求的算法。接下来,我们将介绍k - means算法在我们的场景中是如何工作的。注意,输入的预测数据传感器在每个时间戳 ,需要分组 。特别是,我们首先随机初始化聚类中心,然后把它分成集群,每个集群正在接近其最近的聚类中心为每个传感器 。在这里,我们打算采用欧氏距离来计算从当前点到中心点的距离。接下来,我们更新聚类中心根据新的集群从上一步获得的。更新聚类中心的方法是计算集群中的所有点的意思。和收敛的条件是,每一个点到中心的最小平方误差小于一个阈值或预设的最大迭代数。最后,算法重复上述两个步骤,直到收敛。
图5是一个例子来解释整个过程的智能分组算法。假设有四个传感器,需要采样时间戳 ,我们定义的预测数据 , , ,和 ,分别。抗噪音的阈值是 。为 , 是一个独立的群体因为 添加到(当前时间戳)的集团战略。为 , ,和 ,我们输入他们的k - means算法。请注意,和聚集成一组成为一个团队。因此,最后一组策略 。
4.3。智能Grouping-Based扰动
实现附加噪声加载,我们打算利用拉普拉斯算子的机制来直接注入噪声聚合统计(15基于自适应采样的结果)。汇总统计数据不包括nonsampled统计可以近似的最后的汇总统计。在本文中,我们提出一个方案,智能grouping-based扰动。这个计划是由一个微扰组件和一个配置组件。考虑到利用分组算法,我们每组应用拉普拉斯算子的机制,而不是在每个传感器在我们的方案设计。
我们假设一组有传感器和代表一个功能聚合数据贡献者的数量 。凭直觉,因为所有贡献者只能出现在传感器的集合范围在一个时间戳,函数的灵敏度等于 ;也就是说, 。然后,组织可以使用拉普拉斯算子的机制如下: 在哪里是传感器组的和表示拉普拉斯算子的声音注入的规模 。为了避免超过预算总额,我们计划考虑传感器的最小的预算在一组作为整个集团的预算。在这种情况下,提出RescueDP策略并不占总预算的充分利用。此外,我们还解决采样点在我们的计划和分配每个采样点均匀的总预算。因此, ,从而导致占总预算的充分利用以及确保不超过预算。
接下来,考虑到预测统计在每个传感器,我们分配了摄动的统计。分配方法可以避免错误造成的平均操作RescueDP策略。我们的分配方法如下所示: 一个传感器的重量, ,可以计算出传感器的预测数据;也就是说,
根据智能grouping-based扰动方案,传感器的摄动统计数据更准确。
5。性能的讨论
在本节中,我们首先分析提出了Re-ADP框架理论的隐私,然后提供一些数值模拟来研究我们的框架的性能而言,美和回城。
5.1。隐私分析
定理7。提出满足Re-ADP框架微分隐私。
证明。在Re-ADP框架中,扰动是唯一可能的机制披露私人信息,因为它是唯一一个获得原始数据。因此,如果扰动机制可以满足微分隐私,Re-ADP框架能满足的要求微分隐私随后。
基于智能分组策略在时间戳
,每组包括几个传感器。我们假设与传感器是一个任意群
。根据(12),拉普拉斯算子的机制如下:
在哪里是th的传感器和
。
基于定义1,满足微分隐私。根据公理2.1.1 (25),后处理净化数据不会透露隐私,只要直接敏感信息是不可用的后处理算法。作为一个结果,
,
,也满足微分隐私。假设和代表了消费和预算分配给一个传感器在时间戳
,分别。如果所有分配预算采用摄动算法,
成立。
基于定理6传感器的扰动机制满足微分隐私对每个和
,如果它认为
上面的公式总是适用于任何滑动窗口时间戳的原因
在我们的预算分配算法。因此,每组扰动机制可以满足微分隐私。换句话说,Re-ADP算法也满足微分隐私。这就完成了证明定理7。
5.2。数值模拟
我们比较的性能提出MLDP Re-ADP战略管理(14)和RescueDP策略(26)在两个真实的数据集。MLDP是保护隐私数据聚合方案下计算基于机器学习的雾,而RescueDP是提供最新的策略事件实时聚合数据发布的隐私。在仿真中,我们采用美和回城指标来研究这三个方案的性能。这些指标的具体表达式是由(6)和(12)。我们的实验是在Python环境中进行窗口操作系统。每个实验运行时间和分结果的平均值每个实验的时期。
实际的测试数据集,讨论性能在我们的实验中是自行车的数据(27)和站日期(28]。自行车提供了准确的数据的数据集包含自行车分享旅行在华盛顿一年1月 , ,至12月 , 。它总共包含了自行车分享轨迹。他们每个人的自行车数量,端站和时间,开始站和时间。我们把它变成一个数据集,由传感器来计算自行车的数量在每个自行车停车位。第一个四分之三的数据划分为训练集和第四季度的数据的数据集作为测试集。站由乘客的数量站在1月 , ,和12月 , 。它包含记录,每个记录报告一个车站的乘客的数量。因为许多电视台很少吞吐量,我们选择传感器与更多的吞吐量报告。和测试集和训练集的划分数据集是一样的自行车。
在我们的实验中,PID控制的参数设置如下: , , , , , 自适应采样的机制。在算法2,将 。此外,我们获得 自行车数据集和 为站数据集通过不断迭代训练集。在基于k - means智能分组算法,我们集 自行车数据集和 站的数据集,结果也是训练集上的最佳性能。LSTM网络的参数设置如下:前面 历史数据用于LSTM网络的输入。输入层的神经元的数量 ,和是隐藏层的神经元数。此外,我们通过迭代训练次了。请注意,培训过程耗时大约要花两分钟时间。然而,我们只进行这一过程离线,这并不影响算法的实时特性。
5.2.1。效用和隐私
图6提供了工具和隐私之间的权衡分析。很明显,当增加,美三个方案逐渐减少。原因是更大的代表了较小的噪声,需要注射。此外,两个真实的测试数据集,Re-ADP方案大大优于其他两个方案,特别是在一个小隐私的预算。的回城Re-ADP明显优于其他两个方案预算足够的隐私。
(一)美(自行车数据集)
数据集(b)回城(自行车)
数据集(c)回城(站)
数据集(d)回城(站)
Re-ADP性能优越的方案从以下三个方面的结果。首先,由于设计的最优数量的采样点和相应的隐私预算分配机制,隐私预算完全用于私人扰动。第二,自适应事件隐私机制Re-ADP方案满足隐私窗口自适应,这提高了该方案的可行性。最后,LSTM-based预测可以为智能分组机制提供高精度的预测结果。
5.2.2。自适应的影响事件隐私机制
为了突出适应性的优势事件隐私机制,我们比较Re-ADP变体版本计划,Re-ADP (f),只有适应固定的事件隐私机制。图7展示了比较结果的美和回城。它可以清楚地看到,自适应机制可以增加回城而大幅减少美这两个真实的数据集。因此,我们可以得出结论,自适应事件隐私机制大大进步报告数据的质量。
(一)美比较
(b)回城的比较
5.2.3。智能分组的影响机制
在本部分中,我们调查的性能智能分组机制。如图8美和回城的智能分组机制超过Re-ADP没有智能分组。性能优良的智能分组主要得益于K-means-based分组算法和深度学习算法的应用。
(一)美比较
(b)回城的比较
6。相关工作
提出了很多方法来确保聚合数据的隐私产生物联网设备(29日- - - - - -33]。吴et al。34)提出了一个动态信任关系意识到数据隐私保护(DTRPP)机制为移动人群传感(MCS),而评估的信任值公钥巧妙。Zhang et al。35)设计了一种基于优先级的健康数据聚合方案(PHDA) cloud-assisted无线区域网络。在方案中,可以选择一个可信的中继节点根据节点之间的社会关系来帮助聚合数据,然后将数据转发给云服务器。PHAD还提供了一个轻量级的保护隐私聚合方案,不仅可以抵抗伪造攻击,但减少通信开销。李等人。36)提出了一个privacy-aware移动传感、数据聚合协议可聚合时间序列数据,以防止不可靠的聚合器泄露隐私。使用一个小说加法同态加密和密钥管理方案,聚合器只能获得所有用户数据的总和。不过,两种方案都无法应对复杂的攻击,也可以从原始的和我的一些隐私数据。
此外,所有现有的方法实现隐私保护是基于加密技术。通常这些复杂的加密技术引入高计算开销,这可能不是适合能源贫瘠的传感器网络。一些研究者建议利用微分隐私,一个令人信服的模型提供隐私保护物联网设备产生的聚合数据。汉等人在37)提出了一个计划为健康提供隐私保护数据聚合。它雇佣了一个微分隐私模型抵抗差分攻击,大多数现有的数据聚合方案遭遇。杨等人在14)也提出了一个基于机器学习算法的微分隐私模型。模型可以减少通信开销以及保护敏感数据的隐私严格雾计算架构。还在雾中计算、王等。38)提出与微分隐私保护隐私基于内容的发布-订阅计划发布-订阅系统,可以抵抗共谋攻击。
虽然这些作品应用微分隐私保护隐私的聚合数据,在真实情景中是一个严重的缺陷。他们可能会大大降低聚合数据流的可用性。因此,一些研究致力于解决这一挑战。曹等人在39]研究了敏感流保护方法在一个窗口,而不是整个无限流。考虑基于窗口的应用程序,他们探索了基于流的管理系统同时应付许多聚合查询。在[18)、风扇和熊为了隐藏所有事件的用户和用户级的隐私策略设计有限流。对于接收到的干扰数据,他们采用卡尔曼滤波器(40)在他们的私人数据不同版本的策略来提高精确度。考虑多个事件发生在连续时间片段,Kellaris等人提出了一个事件微分隐私模型(17]。这个模型结合的优势文件熟练隐私模型和用户级隐私模型。在模型中,他们采用滑动窗口捕获范围广泛的事件隐私和设计方案分发和吸收隐私预算假设统计不显著改变。进一步在此基础上,王、张总无限流的监控方案设计了一个在线(26]。他们的方案综合自适应抽样,预算机制,动态分组和扰动提供隐私保护的统计数据。
尽管正在进行微分隐私流数据聚合的研究起到了至关重要的作用,还存在需要解决的挑战。我们指出,固定滑动窗口用于大多数现有的框架可能不实用。此外,现有的指标只适用于静态数据而不是流媒体。出于这些挑战,本文提出了一种基于自适应实时保护隐私流数据聚合框架事件微分隐私雾计算架构。
7所示。结论
考虑隐私披露雾聚合数据的计算,提出了一种自适应实时流数据聚合框架事件微分隐私(Re-ADP)。对于我们系统的四层模型,这个框架由三部分组成,即。、自适应隐私事件分析、智能grouping-based扰动和过滤机制。特别是,我们可以使用第一个组件在任何连续的无限流的保护隐私时间戳。第二个组件是实现基于k - means智能分组和聚合数据注入额外的噪音,我们利用现有的滤波器来提高数据可用性在第三组件。最后,我们提供了一个理论证明该Re-ADP框架满足微分隐私理论上。大量真实数据集的实验表明,Re-ADP方案优于现有方法的效用,提高实时数据发布与强大的隐私保护。
数据可用性
本研究的数据集用于支持这些发现已经公开访问。自行车数据集可以找到https://www.capitalbikeshare.com/system-data。数据集可以在访问和火车站https://www.kaggle.com/saulfuh/bart-ridership/data。同时,作者引用这些数据集的引用。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(批准号61471028和61471028)和中央大学的基础研究基金(批准号2017 jbm004和2016 jbz003)。