文摘
随着体积的web服务在云环境中,基于协同过滤(CF)——的服务推荐已经成为最有效的技术来减轻沉重的负担在服务目标用户的选择决策。然而,服务推荐基地,服务使用历史数据,往往分布在不同的云平台。两个挑战出现在这样一个跨云服务推荐场景。首先,云平台往往不愿意共享其数据到其他云平台由于隐私的担忧,进而减少严重跨云服务的可行性建议。第二,服务使用历史数据记录在每个云平台可能更新随着时间的推移,这大大降低了推荐的可伸缩性。针对这两个挑战,一种新型保护隐私和可伸缩的服务推荐方法基于SimHash,命名 ,本文提出了。最后,通过一组实验数据集部署在一个真正的分布式服务质量WS-DREAM,我们验证的可行性建议推荐的准确性和效率,同时保证隐私保护。
1。介绍
与不断增加的数量和各种各样的web服务在不同的网络社区,它变成了一个具有挑战性的任务找到目标用户的web服务是真正感兴趣的1- - - - - -3]。在这种情况下,各种服务推荐技术介绍了减轻沉重的负担目标用户的服务选择的决定,例如,well-adopted基于用户的协同过滤(即。佛罗里达大学)。根据传统UCF,目标用户的类似的朋友往往是用来提出建议的目标用户(4]。因此,类似的朋友发现是关键步骤的后续服务的建议。
一般来说,依据相似的朋友发现,即服务使用历史数据(例如,服务质量观察到用户)集中;在这种情况下,很容易确定目标用户的相似的朋友。然而,在物联网时代(物联网),各种服务的质量数据通常是由地理上分布的传感器和监控和收集存储在不同的云平台5]。在这种情况下,服务使用历史数据不集中,但分布。这种分布式服务推荐场景要求不同的云平台之间的数据共享和协作。然而,随着工作(6)表示,这种跨平台数据共享可能带来额外的隐私泄露风险,进而减少严重跨云服务的可行性建议。此外,涉及到多个云平台,他们的服务质量数据量可能随着时间的推移变得越来越巨大的更新,导致频繁的重新计算用户相似性,因此显著降低了推荐的可伸缩性。
针对这两个挑战,一种新型保护隐私和可伸缩的服务推荐方法基于SimHash,命名 ,本文提出了。我们的可以实现良好的推荐性能的准确性、效率和隐私保护。
一般来说,本文的贡献有三点:(1)我们所知,现有研究很少考虑服务推荐在分布式云环境,以及由此产生的隐私保护问题。在本文中,我们研究这个保护隐私服务推荐问题,阐明其研究意义。(2)我们提出一种新颖的服务推荐方法基于离线SimHash技术(7),名叫 ,为了保护大多数用户的私人信息在不同的云平台,同时提高服务推荐效率和可伸缩性。(3)我们进行一系列的实验基于一个真实的数据集分布式服务质量WS-DREAM来验证我们提出的可行性的方法。实验结果表明,达到良好的性能在推荐准确性和可伸缩性,同时保证隐私保护。
剩下的纸是组织如下。相关工作提出了部分2。研究动机是展示部分3。节4,我们介绍了我们提出的细节服务推荐的方法 。节5一组实验的基础上进行WS-DREAM数据集,来验证我们的建议的可行性和优势。最后,在部分6,我们总结论文,指出未来研究方向。
2。相关工作
协同过滤(即。,CF) has become one of the most effective techniques in various recommender systems. User-based CF and item-based CF are brought forth for high-quality service recommendation in [4]和[8),分别。为了把他们的优势,一个混合CF推荐方法介绍了(9]。实验结果表明,该混合方法提高了推荐性能。作为一个web服务的质量往往取决于服务执行上下文(例如,时间、地点)、time-aware CF和位置感知CF提出了10]和[11),分别提高推荐结果的准确性。然而,上述方法不能处理的推荐问题服务使用历史数据非常稀疏。针对这个缺点,信念propagation-based方法提出了(12),找到目标用户的潜在的朋友。
然而,上述方法都假定服务推荐基地,即服务使用历史数据,是集中的,而不考虑分布式服务建议方案,以及由此产生的隐私泄漏的风险。针对这个缺点,作者在13)建议用户应该释放只有一小部分的他/她观察到的服务质量数据对公众,这样剩下的大多数用户服务质量数据是安全的。然而,释放很小一部分的数据仍然可以揭示用户的私人信息的一部分。为了保护用户隐私,数据采用模糊技术在14隐藏真实的服务质量数据通过添加一个混淆数据项。然而,随着服务质量数据用于制造服务的建议已经被混淆,建议相应的精度降低;除此之外,额外的时间成本带来的数据采用模糊操作。同样,一个基于航段数据隐藏方法介绍了(15),每一个用户服务质量的数据划分为若干个数据段,然后是数据段是用来计算用户相似性大约和进一步的服务建议。然而,仍然存在两个缺点在这种方法。首先,数据分割过程通常需要多少时间,推荐效率严重降低。第二,它未能适当地保护一些重要的隐私信息,例如,信息服务的十字路口通常由两个用户调用。Locality-sensitive散列技术是招募(16)保护和实现隐私保护的目的;然而,只有部分私人信息的用户可以被保护得很好。
针对现有方法的缺陷,一种新颖的基于SimHash保护隐私和可伸缩的服务推荐方法,也就是说, ,本文提出了应对分布式云环境的服务推荐问题。接下来,节中给出了一个例子3为了进一步证明我们的论文的研究动机。
3所示。研究动机
一个直观的例子是呈现在图1激励我们的论文。在这里,表示一个目标用户亚马逊平台打算推荐服务;和两个用户的观察到的服务质量数据记录在吗微软和IBM平台,分别; 是推荐的候选服务。具体来说,如果一个用户从未调用一个服务,相应的服务质量数据为空。
接下来,根据传统UCF,第一步是计算用户相似性 和 以确定相似的朋友 。然而,上面的用户相似度计算过程包括跨平台合作,因此面临着以下两个挑战:(1)一般来说,微软和IBM不愿意分享他们的服务质量数据记录亚马逊由于隐私问题,减少跨云用户相似性计算和后续服务的可行性建议。(2)在亚马逊,微软,IBM服务质量的体积数据,可能随着时间的推移变得越来越巨大的更新;在这种情况下,协作效率和可伸缩性往往显著降低,因此不能满足快速从目标用户推荐需求。
针对这两个挑战,保护隐私和可扩展的服务推荐的方法,也就是说, ,本文提出了将在下一节中详细介绍。
4所示。SimHash-Based服务推荐的方法
在本节中,保护隐私和可伸缩的方法,也就是说, ,提出了处理分布式服务推荐的问题。背后的主要思想最常见的是:用户调用服务可以被视为“可能类似的“朋友17];因此,我们首先利用SimHash寻找少数“可能类似的“目标用户的朋友,保护隐私和可伸缩的方式;之后,我们确定目标用户的“真的类似”从“可能相似”的朋友;最后,我们对目标用户进行推荐服务偏好的基础上他/她“真的相似”的朋友。
具体地说,包括盒子的四个步骤1。在这里,代表一个目标用户,是用户在多个云平台, 候选服务集,表示用户的散列值基于SimHash。
步骤1(基于SimHash离线构建用户索引)。为每个用户
根据他/她的服务调用历史记录,我们可以建立他/她离线指数,用
,基于SimHash技术(见图2)。在这里,和表示用户的数量和服务的数量,分别。接下来,我们介绍如何获得
。
首先,为每个服务
,我们可以生成一个随机的维0 - 1的向量在哪里
(在这里,意味着上的整数
;例如,= 4)。考虑到在图示例2,
和0 - 1的向量对应服务
,也就是说,
成立。然后根据服务调用历史记录,可以用吗维向量
在(1)。
接下来,在向量
,我们降维空值和替换值“0”值“−1”之后,一个新的向量实现(参见图吗2
)。然后在派生(最多)矩阵对应的向量
,我们计算每一列的总和。后来,我们获得一个新的向量(见图2
),积极的和消极的值取代了“1”和“0”,分别之后维0 - 1的向量(见图2
)。然后根据SimHash理论(6),可以被视为用户的索引吗
。通过这种方式,我们可以在设置为所有用户建立索引
。
对于一个用户,他/她的服务调用历史数据记录的某些云平台(例如,亚马逊或微软或IBM在图1);因此,用户预先索引可以离线构建的云计算平台,以降低时间成本。此外,通过SimHash,每个用户被封装成一个不敏感用户索引
,没有显示他/她的敏感信息(例如,他/她是否调用一个服务,服务的运行质量观察到他/她其他平台。因此,保护用户隐私。
步骤2(发现“可能类似的“目标用户的朋友)。根据相同的哈希函数采用了在步骤1中,我们计算指数为目标用户,也就是说, 。接下来,我们计算之间的汉明距离和( ),用 。具体地说,假设和是用维向量( )和( ),分别。然后 可以计算(2),是一个布尔值计算(3)。在这里,象征“⊕”表示异或操作。 根据SimHash [6),如果 < 3,那么我们可以得出结论,调用的服务和大约是相同的。换句话说,可能可以被视为一个“类似”的朋友吗然后放入集 。此外,的大小 ,也就是说, ,通常是小(≪吗)由于SimHash的本质。
步骤3(发现“真的类似”目标用户的朋友)。用户设置(步骤2)中获得的只是“可能类似的“目标用户的朋友,不一定是“真的相似”的朋友。考虑到这一点,在这个步骤中,我们进一步确定“真正类似的“朋友目标用户的集合
。具体地说,对于任何
,我们计算他/她的相似性
,也就是说,
根据皮尔逊相关系数(PCC) [18)(4)(通常是小的,只有一小部分用户参与用户相似性计算过程(4);因此,我们可以保护私人服务质量数据观察到剩下的大多数用户)。
在(4),象征表示服务交叉调用和
;
web服务是一种高质量的维度,例如,响应时间;和代表服务的质量价值观维度观察到和
,分别;和表示的年代,在维度的平均质量值所有的服务调用和
,分别。具体来说,如果服务的十字路口
成立。此外,如果条件(5),可以被视为一个“相似”的朋友吗和投入
。在这里,象征是一个预定义的相似性阈值(
)。
步骤4(服务推荐)。对所有用户在集合(在步骤3中获得),我们的排名 (见(4)在降序排列,并返回顶部3(最多)类似的朋友(用集)的目标用户。后来,为每个服务从未调用的目标用户,用 ,我们预测它的质量维度观察到 ,也就是说, ,由(6), 和代表服务的质量价值维度观察到 。最后,我们选择服务质量最优预测并把它推荐给目标用户,从而完成整个服务推荐流程。
5。实验
5.1。实验配置
在本节中,一组实验是部署在WS-DREAM数据集(19)来验证我们提出的建议的方法的可行性 。WS-DREAM是一个真实的服务质量(例如,吞吐量)获得339用户5825来自不同国家的web服务。模拟推荐场景中,我们关注本文(即。,recommendation in a distributed cloud environment), each country is regarded as a cloud platform.
我们把我们的方法与基准的方法UPCC(20.),另一个两种推荐最新的保护隐私的方法,也就是说,P-UIPCC(14),PPICF(15]。很多工作,例如,(21- - - - - -23),考虑到时间成本和美评估标准;同样,我们也采用本文(在我们这两个标准方法中,大多数用户的隐私信息,例如,是否用户调用服务和服务质量由用户,可以保护SimHash的本质;因此,我们将不评估我们的隐私保护能力的建议。(1)时间成本:推荐一个web服务的使用时间到目标用户,可以用来测量推荐效率和可伸缩性。(2)美:预测质量之间的差异和实际的推荐服务质量(越小越好),可以用来衡量推荐精度。
用户服务质量的密度矩阵是设定在3%,实验是进行联想笔记本电脑2.40 GHz处理器和12.0 GB RAM。笔记本电脑在运行Windows 10和JAVA 8。每个实验重复10次,平均实验结果报道。
5.2。实验结果和分析
具体地说,以下四个配置文件分别测试和比较。在这里,和表示数量的用户和web服务的数量,分别;用户相似度阈值 成立。
资料1:推荐效率比较。在这个配置文件中,我们测试我们的建议对的时间成本和和剩下的三种方法进行比较。实验参数设置如下:从50到300多种多样;n从1000年到5000年是不同的。具体的实验结果如图3( 在图3(一个)和= 300图3 (b))。
(一)
(b)
从图可以看出3(一个)的时间成本UPCC,P-UIPCC,PPICF方法所有的增加近似线性增长的 ;这是因为需要更多的时间来计算用户相似性的用户数量,也就是说, ,变大,而我们的提议方法优于这三个的时间成本,因为大多数的工作(例如,用户索引构建)可以离线完成服务推荐请求之前到来。此外,散列过程后,只有少数“可能类似的“目标用户的朋友了;因此,采取一些时间找到目标用户的“相似”朋友的少数“可能相似”的朋友。由于以上两个原因,我们提出的推荐效率和可伸缩性方法显著改善。从图可以观察到类似的比较结果3 (b)的原因是相同的,这些图3(一个),不会反复讨论。
配置2:推荐精度比较。精度是一个关键的标准来评价推荐系统的质量。因此,在这个概要文件,我们测试美(越小越好),我们的建议和剩下的三种方法进行比较。实验参数设置如下:从50到300多种多样;从1000年到5000年是不同的。实验结果呈现在图4( 在图4(一)和= 150图4 (b))。
(一)
(b)
如图4所示,推荐精度值P-UIPCC和PPICF方法通常是低(例如,美值很高),因为许多近似操作招募了在这两种方法来保护用户隐私,例如,数据采用模糊技术P-UIPCC方法和数据segmentation-merging技术招募了PPICF的方法。这些技术一方面可以有效地保护用户的隐私信息,另一方面减少推荐结果的准确性,而我们的提议方法达到近似服务推荐准确性作为基准的方法UPCC,如SimHash技术采用能保证找到目标用户的“相似”朋友有高概率,从而可以实现推荐精度高。
概要文件3:一些“可能类似的“朋友的目标用户 关于 和 。在我们的方法,少数“可能类似的“朋友(数量的目标用户。在这个配置文件中,我们测试之间的关系和和 。实验参数设置如下:从50到300多种多样;从1000年到5000年是不同的。并给出了具体的实验结果图5。
(一)
(b)
如图5(一个)显示的值增加大约线性的增长 ;这是因为它更有可能找到一个“可能的朋友”的目标用户当候选用户空间变得更大。如图5 (b)显示的值增加相对缓慢时上升的原因是双重的。首先,推荐更有价值信息服务的数量时,也就是说, ,增加;因此,更多的“可能类似的“朋友我们可以找到目标用户的建议的方法。其次,由于SimHash技术采用我们的内在本质方法,服务的数量, ,不影响的发现过程”可能类似“朋友直接在我们的建议,因此,参数的影响强调不是那么明显,这图5(一个)。
概要文件4:推荐的失败率 关于 和 。SimHash技术本文采用概率本质上是一种类似邻居发现方法(24]。因此,我们提出了方法可能无法返回任何推荐的结果在某些情况下,发生故障。考虑到这一点,在这个概要文件,我们测试推荐的失败率关于和 。具体地说,可以测量失败率由方程(7),和代表了许多成功的服务建议和失败的数量服务建议,分别。具体实验参数设置如下:从50到300多种多样;从1000年到5000年是不同的。实验结果如图所示6。
(一)
(b)
如图6(一)所示,失败率方法随的增长而减小米;这是因为它更可能找到目标用户的“可能类似“朋友当用户的候选人空间变得更大。此外,失败率接近0时是足够大的,例如,当= 200、250或300。图6 (b)显示了故障率之间的关系和服务的数量, 。显示在图6 (b),失败率约下降的增长 ;这是因为当服务数量的增加,概率两个用户调用相应的公共服务的增长,因此更可能找到“可能类似的“目标用户的朋友。此外,从图可以看出6 (b)的失败率方法趋于0时是足够大的,例如,当 。
5.3。缺点分析
根据实验结果,我们可以得出这样的结论:方法之间达到一个平衡点推荐精度,效率和故障率,同时保证隐私保护。然而,其他评价标准不深入讨论,如著名的一致性标准(例如,推断出朋友之间的一致性的)建议在工作25]。此外,(26]表明,体重中扮演一个重要的角色在最后评价结果;然而,我们不考虑本文发现朋友的体重为简单起见。
6。结论和未来的工作
在分布式的云环境中,云平台往往不愿意分享其记录用户服务调用数据与其他云平台由于隐私问题,这降低了云间协作服务的可行性建议。此外,用户服务调用每个云平台可能更新记录的数据随着时间的推移,这大大降低了推荐的可伸缩性。针对这两个挑战,一种新型保护隐私和可伸缩基于SimHash服务推荐方法,也就是说, ,本文提出了。来验证我们的建议的可行性,我们进行一系列的实验基于一个真实的数据集分布式服务质量WS-DREAM。实验结果表明,优于其他最新方法的推荐精度和效率,同时保证隐私保护。
工作(27)表明,SimHash本质上是一个概率搜索技术,因此,失败是不可避免的在某些情况下。考虑到这一点,在未来,我们将继续改进我们的建议,以进一步降低推荐错误率,提高推荐的鲁棒性。此外,由于各种基于散列的隐私保护技术固有的缺点提出(28),很难评估我们的隐私保护性能的建议。在未来,我们希望找到well-adopted技术标准来评估我们的建议在隐私保护方面的有效性。此外,工作(29日)提出了利用语义信息来提高检索性能;同样的,我们希望能改进我们的工作在未来通过添加更多的语义信息。
的利益冲突
作者宣称没有利益冲突。
确认
本文部分由中国自然科学基金会(没有。61402258,没有。61672276,没有。61373027,没有。61672321),江苏省重点研发项目(没有。BE2015154,不。BE2016120),计算机软件新技术国家重点实验室开放项目(没有。KFKT2016B22)。