PIR QuPiD攻击:基于机器学习隐私量化机制协议中与健康有关的网络搜索

文摘

随着信息通信技术的进步,网络搜索引擎已经成为首选源找到在互联网上发表的与健康有关的信息。谷歌仅接收超过十亿健康每天查询。然而,为了向用户提供最相关的结果,ws维护用户的配置文件。这些配置文件可能包含私有和敏感的信息,如用户的健康状况、疾病状态,和其他人。与健康有关的查询包含隐私信息可能侵犯用户的隐私,用户的身份暴露,可能被滥用的WSE和第三方。这引发了严重关切的问题从一个用户的身份暴露,可能被第三方滥用。一个知名的解决方案来保护隐私涉及发行通过点对点私人信息的查询检索协议,如无用的用户配置文件(北爱尔兰统一党,从而隐藏WSE的用户的身份。探讨统一党所提供的保护水平。为此,我们提出QuPiD(查询档案距离)攻击:基于机器学习攻击评估统一党在隐私保护的有效性。QuPiD攻击之间的距离决定了用户的概要文件(web搜索历史)和即将到来的查询使用我们提出新颖的特征向量。 The experiments were conducted using ten classification algorithms belonging to the tree-based, rule-based, lazy learner, metaheuristic, and Bayesian families for the sake of comparison. Furthermore, two subsets of an America Online dataset (noisy and clean datasets) were used for experimentation. The results show that the proposed QuPiD attack associates more than 70% queries to the correct user with a precision of over 72% for the clean dataset, while for the noisy dataset, the proposed QuPiD attack associates more than 40% queries to the correct user with 70% precision.

1。介绍

目前,网络搜索引擎(ws)已成为首选方法找到医疗卫生相关的内容在万维网上。最近的一项调查报告称,超过80%的患者使用WSE寻求健康信息之前咨询医生(1),根据皮尤研究中心发布的报告,35%的美国成年人咨询WSE诊断医疗条件(2]。然而,尽管使用网络搜索的服务,用户通常发布他们的身体状况和健康信息查询(3]。网络搜索引擎声称他们收集和维护用户查询结果等各种活动的用户配置文件(排名4),市场调研3),个性化5[],有针对性的广告6),和其他人。从好的方面来说,维护用户概要文件可以提高结果的质量和用户体验,而在黑暗方面,这个不加选择地收集用户的查询可能会导致关键隐私侵犯用户的查询可能包含敏感和个人信息(7]。这个问题的用户隐私违反引起相当大的关注是在2005年,当时美国司法部迫使谷歌提交记录用户的查询(8]。后来,美国在线(AOL) (pseudonymized) 2000万年发布超过650000用户提交的查询三个月的时间9),一些用户的身份已经推断出通过个人信息包含在他们的查询10]。

病人的健康信息自古以来被认为是一个敏感的问题,也反映在希波克拉底誓言(11分泌),医生会让病人的信息(12]。然而,在网络和公共卫生设施服务,用户隐私就成为行为跟踪(12]。考虑这样一个场景,当一个用户发布的一系列私人查询与他/她的健康状况有关,如“艾滋病”或“糖尿病。“华沙证交所可能出售这些信息广告机构或其他公司的商业目的,最终侵犯用户的隐私(3]。这样的隐私披露发生在2006年,《纽约时报》成功地演绎和推断个人信息从搜索历史pseudonymized日志发表的美国在线(AOL)。其中之一是一个62岁的寡妇了数以百计的搜索有关她的健康状况,如“手颤抖,口干,”和“尼古丁对身体的影响“链接回到她的13]。

侵犯隐私的解决这一问题,提出了几种方法。这些方法包括用户配置文件混淆14),查询匆忙(15),匿名的网络(16),和私人信息检索(PIR)协议17- - - - - -20.]。在用户配置文件混淆,用户配置文件含有虚假误导WSE查询。查询中扰码技术,用户查询被一组模糊和良性的同义词和后发布到华沙证交所。基于匿名的网络技术提出了用户查询通过一系列的路由器让WSE很难跟踪查询的起源。这些方法隐藏IP地址,而用户通过cookie和设备仍可追踪的指纹(21]。在PIR协议,一组用户提交查询代表彼此隐藏自己的身份。

尽管上述方法改善用户隐私,然而,一些以往的研究(22- - - - - -25使用机器学习算法和用户配置文件(即。,user history or logged user queries) show that an adversary is able to break profile obfuscation and anonymizing network methods. However, it is not clear if an adversary is able to break PIR protocols using machine learning techniques. Therefore, in this research, we propose a machine learning-based attack in order to evaluate the effectiveness of popular PIR protocol, i.e., useless user profile (UUP) [17,18]。

这项工作的一个更高层次的目标是分析PIR协议在保护用户隐私的有效性对不利WSE(从这里开始,我们将调用PIR协议或者表现为简单起见不失一般性)。在或者一组用户相互交流他们的查询方式,查询发起者的身份节点仍然隐藏在另一组的伴侣。在下一步中,所有小组成员向华沙证交所提交收到查询和结果中播放。WSE方面,收到用户的查询在纯文本,但用不同的身份,因此WSE不能确定查询的发起者。我们着手调查是否有可能(和在多大程度上)的不良WSE-equipped与用户的网络搜索概要文件(历史)——将查询出来的统一党退出用户链接到原始的用户,从而破坏统一党所提供的隐私。

为了更好地理解的局限性统一党在用户的隐私,我们提出本文的研究或者关注活跃用户。本研究对QuPiD攻击,基于机器学习攻击决定之间的距离和查询用户的概要文件。我们进行了实验与随机选择的100活跃用户公开的美国在线(AOL)的数据集,把他们当统一党的用户。美国在线数据集是由超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。前两个月的数据作为训练数据,上月数据作为测试数据。我们测量的效率攻击使用机器学习一些已知矩阵:精度,还记得,F-measure,真阳性率。结果表明,我们建议的QuPiD攻击将超过70%的查询到正确的用户与超过72%的精度。根据结果,我们可以得出结论,大多数用户很容易受到隐私侵权使用统一党尽管。这项工作的贡献如下:(1)提出QuPiD攻击:一个基于机器学习为隐私评估PIR协议攻击(2)提出新的查询向量分类(3)推荐合适的机器学习算法的查询分类

本文的其余部分组织如下:在部分2,我们将描述该QuPiD攻击。实验设置,数据的预处理,特征向量构造和分类算法进行了部分3。部分4给出了实验结果。部分5给出了结论,并概述了未来工作的方向。

2。不良模型和QuPiD攻击

用户更关心的隐私风险查询ws。在这项工作中,我们研究了受欢迎的PIR协议的健壮性,也就是。,统一党。如前所述,WSE接收用户的查询使用不同的身份由于洗牌的过程。因此,查询的条目不会出现真正的发起者weblog。然而,这个协议的弱点是由所有小组成员查询提交的时间。查询洗牌后一步,每一个小组成员将收到查询提交给WSE几乎在同一时间。由于他们的weblog条目出现互相接近。图1说明了博客查询条目的一个例子。在图1之前,表现出1显示了用户的查询洗牌过程,并同时展示2显示了洗牌后的查询过程。洗牌后,查询提交给WSE(图1,表3)。

在拟议的不良模型中,WSE被认为是一个实体,其目标是对保护隐私的解决方案并确定感兴趣的用户(UoI)查询分析的目的。假设WSE配备了用户的搜索历史记录(即。用户配置文件)聚氨酯。用户配置文件包含用户提交的查询过去不使用任何统一党协议方程所示(1)(P_问我显示查询的UoI概要文件)。

用户配置文件使用聚氨酯作为构建分类模型的训练数据。用于实验的数据集是分布在三个月的时间,第一个两个月的数据作为训练集,而北爱尔兰统一党协议与第三个月模拟数据来创建一个匿名日志(如图1,表3)。匿名日志作为测试集,测试所有会话窗口的UoI从查询日志。会话窗口是一块记录(日志查询条目)在一个匿名的UoI日志包含条目,但与另一个用户(26,27]。换句话说,会话窗口由所选号码查询的条目WSE查询日志,前后出现的UoI的查询。如图1(表4),我们的UoI是“用户3”和会话窗口大小是15记录(记录之前的UoI和7之后的UoI 7日)。对于这个研究,我们使用251条记录的窗口大小。每个会话窗口(年代_赢得)是由125查询出现之前和125查询查询后出现的UoI(根据的建议27])。一个通用的会话窗口年代_赢得方程所示(2)(问_我代表一个查询在会话窗口中)。所有会话窗口GS的集合_赢得方程所示(3)。

所示的查询日志,目标用户使用任何PIR协议仍将隐藏由于他/她查询的查询交换另一个用户。因此,一个会话窗口是用来减少测试数据。聚氨酯(训练集)和g_赢得(测试集)作为输入使用不良的算法模型。不良的工作模式提出了算法1和图中所示2。算法的工作如下:

	输入:用户配置文件(PU);所有会话窗口属于用户( )。
	输出:预期的用户标签(陆)
(1)	过程查询协会(PU、 )
(2)	为做
(3)
(4)
(5)	为做
(6)	为做
(7)
(8)
(9)	返回
(1)	首先,用户配置文件(PU)特征向量是获得用于训练目的。特征向量的用户配置文件( )方程所示(4)。从uClassify(获得的特征向量是http://www.uclassify.com)服务,机器学习的web服务,它提供了很多不同的用于文本分类的分类器。我们选择了“主题”分类器,每个短语或查询的分数在10个主要课程包括体育,社会,科学,娱乐,家庭,健康,游戏,电脑,商业,和艺术。
(2)	在第二步中,分类模型P_模型是使用和监督的机器学习算法。测试数据的响应不同的分类技术,10从树分类算法选择,基于规则的,懒惰的学习者,metaheuristic,贝叶斯的家庭。
(3)	在分类模型(P_模型),第三步是获得特征向量所示的方程(5)的查询会话窗口年代_赢得从uClassify测试数据。
(4)	在最后一步中,每个查询的提供预期的标签的分类模型。陆的标签显示是否属于UoI传入的查询。

实验目的,两个子集AOL的100用户创建数据集组成一个三个月的网络在线用户的查询日志。每个子集被分为两个部分,即。、训练和测试数据。训练数据是由前两个月的日志,而测试数据由上个月的日志。用户选择标准的细节和数据集的形成进行了部分4。

3所示。方法

3.1。美国在线数据集

我们使用了真实的网页搜索查询日志发布的美国在线(AOL)在2006年提出了不良的评价模型。美国在线数据集包括超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。美国在线数据集虽然老了,有很多不足与当前形势下,我们被迫使用这个数据集由于缺乏基准数据集的可用性。的属性查询日志的用户ID,查询,查询的日期和时间,内容的排名点击,点击URL。试验的目的,前两个月的数据被用作用户概要(PU)或训练数据在三个月的数据的新查询分类(即。、测试数据)。每个用户的查询数量的分布在选定数据集如图3。试验中,我们选择100用户查询频率高,而不是专注于所有用户。用户选择标准中讨论部分3.3,总结在表提供的数据集1。


总查询	36389567年
总用户	657426年
独特的查询	10154742年
属性	5 (AnonID、查询、查询时间,物品等级,点击网址)
时间	2006年3月01 - 5月31日,2006年

3.2。特征向量提取

数据集是由五个属性:用户ID、查询,查询的日期和时间,内容的排名点击,点击URL。因为我们的不良模式与用户ID,提交查询,在十大主题和查询成绩,我们忽略了剩余的特性。获取查询分数十大课程,我们使用uClassify服务为主题提供了分类器,年龄、性别、情绪、语言检测,和许多其他人。本文的主题分类器是使用,它提供了对每个查询10个类别的数字值。主题分类器使用一个子集的话题开的目录工程(ODP)目录主题放置在一个层次结构。类艺术、商业、电脑、游戏、健康、家庭、娱乐、科学、社会、和运动。分类器提供了每个查询的比例在每个类别。例如,对于查询“橄榄油”,分数为每个主题表所示2。


查询	艺术	业务	电脑	游戏	健康	家	娱乐	科学	社会	体育

橄榄油	0.0386	0.0974	0.0280	0.0396	0.0569	0.4659	0.0652	0.1028	0.0874	0.0182
Glenliviet 18	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1	0.1

在某些情况下,uClassify无法找到得分的主要主题提交查询。例如,uClassify无法找到查询的统治阶级“glenliviet 18。“因此,在这种情况下,uClassify划分一个相等的分数在每个类,即。为每个类,10%。我们称这类查询的查询“困惑”(见表2)。选择数据集的100用户,uClassify标志着28%的查询为查询的混淆。因此,我们进行了实验使用两个数据集。困惑和unconfused组成的一个数据集是查询,而另一个数据集是由只有unconfused查询找到混淆的影响查询的结果分类器。从这一点开始,困惑的数据集查询将被称为嘈杂的数据集,数据集只有unconfused查询将被称为清洁数据集。这两个数据集的详细信息表3。


属性	嘈杂的数据集	干净的数据集

训练实例	116101年	71817年
测试实例	59809年	36998年
总实例	175911年	108815年
最大单用户查询	2975年	1788年
最小的单用户查询	567年	365年
不同的查询	69164年	49662年

3.3。用户选择和建设子集

而不是使用所有用户进行实验,我们专注于几个用户被认为是活跃。活跃用户是那些用户提交了300多件查询整个期间至少61天。从数据集的分析,我们发现只有21407人(3.29%)用户活跃用户。从那些活跃用户,我们随机选择的UoI 100用户。查询的累积分布在嘈杂的和干净的数据集如图4。看到训练数据的大小的影响,我们把噪声和干净的数据集分成五组基于查询的平均频率。选中的100用户数据集分成5组。总额的平均数、培训和测试实例表中给出了数据集的所有组4。


数据集	集团	全部的数据	训练数据	测试数据

嘈杂的	组1	777.55	513.183	264.37
	组2	1215.15	801.99	413.15
	组3	1752.45	1156.62	595.833
	组4	2332.1	1539.18	792.91
	组5	2718.3	1794.08	924.22

清洁	组1	509.55	336.30	173.25
	组2	820.95	541.83	279.12
	组3	1132年	747.12	384.88
	组4	1367年	902.22	464.78
	组5	1611.25	1063.43	547.83

3.4。匿名登录创建

正如前面提到的,美国在线的数据跨越三个月。为实验目的,我们已经考虑了前两个月的数据,可用干净的UoI历史搜索引擎和上个月的数据作为新的查询分类。选中的PIR协议,即。,(UUP) is simulated with the third month’s query log to create the anonymized log of UoI. The parameters considered for simulations are group size and the number of queries submitted by the respective users. According to the literature, UUP is tested with a group size of 3, 4, 5, and 10 users [17,18]。另一项研究表明,一个更大的团体大小提供了更多的隐私(27]。因此,我们认为一组20个用户的大小。目标用户提交的查询的数量取决于实际的查询频率所选用户的第三个月查询日志。

3.5。分类算法

在一些先前的研究,Peddinti et al。23,24和小21]使用随机森林,广告树,0 R,回归和支持向量机算法对数据的分类查询。在这两个研究,biclass分类模型,即。机或用户生成,查询。此外,模型建立了基于两个属性查询和分配标签。然而,在我们的工作,多类分类模型,即,我n the testing data, the model will decide which query belongs to which user and the model is based on twelve attributes (discussed in Section3.2)。我们选择十个现成的(默认设置)不同家庭的分类算法。我们选择J48 [28)和物流模式树(牵头)29日从基于树的家庭,决策表(30.],JRip [31日),和猛烈的一击32从基于规则的家庭,IBK [33]和KStar [34从懒惰的学生家庭,装袋(35]和LogitBoost [36从metaheuristic家庭,和贝叶斯网37从贝叶斯的家庭。代表树(38)和回归用作装袋和LogitBoost基分类器算法。

3.6。绩效评价指标

三个指标、精度、召回和F-measure,通常用来评估分类器的性能。精度是多少确定样品是正确的和回忆描述有多少总样本的正确识别。精度和回忆都是数学中表示以下方程: 其中真阳性表示实际积极正确地确定情况下的分类器和假阳性是所有底片的比例仍然会产生积极的测试结果,而假阴性代表的比例正收益率负面测试结果与测试。之间的权衡精度和召回是由一个统一的度量称为F-measure。F-measure的值的范围从0到1,0表示没有样本正确分类,而1展示了完美的分类。数学上,F-measure表示为

4所示。结果与讨论

本研究的主要目的是提出和评估一个隐私量化模型PIR协议。实验用两个数据集执行:噪声和清洁(部分3.3),每组由100用户变量查询频率分布在五组。对于每个UoI,我们测量精度,还记得,从一个匿名和真阳性比例的正确分类查询日志。

表5和6说明了真阳性百分比的查询UoI在这两个数据集。根据表5,所有算法正确识别89%以上查询2的用户除了专家和LogitBoost嘈杂的数据集。专家正确识别80%到90% 4用户的查询。总的来说,IBK正确识别50%以上查询的36个用户随后装袋和KStar 30和28个用户,分别在嘈杂的数据集。同样,在干净的数据集,以前和韩国中小企业银行能够正确识别14 89%以上查询用户J48和装袋与12个用户。总的来说,IBK正确识别50%以上查询所有100个用户的KStar和装袋与96年和92年用户在干净的数据集。所有算法的详细性能(真阳性的比率)的干净数据集表给出6。在这两个数据集,懒惰的学习者家庭算法的性能(即。IBK KStar)相比其他选择算法要好。


真阳性百分比乐队	基于树的		基于规则的			懒惰的学生		Metaheuristic		贝叶斯
真阳性百分比乐队	J48	航空航天	DT	JRip	猛烈的一击	韩国中小企业银行	KStar	装袋	LogitBoost	贝叶斯网

100% - -90%	2	2	2	2	0	2	2	2	0	2
90% - -80%	2	2	2	2	4	2	0	2	2	2
80% - -70%	4	2	4	2	0	4	4	4	2	4
70% - -60%	4	8	4	2	6	4	6	4	0	2
60% - -50%	14	2	4	6	0	24	16	18	2	14
50% - -40%	26	28	24	4	10	18	22	20.	6	20.
低于40%	48	56	60	82年	80年	46	50	50	88年	56


真阳性百分比乐队	基于树的		基于规则的			懒惰的学生		Metaheuristic		贝叶斯
真阳性百分比乐队	J48	航空航天	DT	JRip	猛烈的一击	韩国中小企业银行	KStar	装袋	LogitBoost	贝叶斯网

100% - -90%	12	14	10	10	4	14	8	12	0	4
90% - -80%	18	12	14	8	4	32	26	24	4	12
80% - -70%	26	22	22	6	8	24	26	22	2	18
70% - -60%	20.	26	16	8	6	22	20.	18	0	18
60% - -50%	12	16	10	10	18	8	16	16	6	14
50% - -40%	12	10	20.	16	18	0	4	8	10	18
低于40%	0	0	8	42	42	0	0	0	78年	16

正如前面提到的,这两个数据集进一步分为5组20个用户(表4),以便观察的影响大小的培训结果的准确性。表7显示所有算法的性能的比较与训练数据集大小的变化在嘈杂的数据集。每个算法的性能测量精度和召回。IBK和KStar相关查询到正确的用户提供40%以上的精度高于60%在所有情况下,虽然装袋,J48、决策表,和贝叶斯网络相关查询到正确的用户提供25%以上的精度在60%以上。从训练数据集的大小的角度来看,它是有点难以得出结论关于它对精度的影响。几乎每一个算法显示不规则行为变化的训练数据集的大小。第一三组IBK的性能,J48, KStar,以前观察到的更准确。然而,出乎意料的,召回率下降在过去的两组。结果的精度和召回嘈杂的数据绘制在图5。


集团			组1	组2	组3	组4	组5

基于树的	J48	精度	0.68	0.71	0.75	0.72	0.72
	J48	回忆	0.37	0.40	0.44	0.36	0.43
	航空航天	精度	0.69	0.70	0.70	0.75	0.72
	航空航天	回忆	0.36	0.38	0.43	0.33	0.42

基于规则的	决策表	精度	0.86	0.89	0.90	0.79	0.79
	决策表	回忆	0.33	0.32	0.41	0.34	0.41
	JRip	精度	0.85	0.80	0.85	0.77	0.78
	JRip	回忆	0.25	0.23	0.32	0.23	0.34
	猛烈的一击	精度	0.46	0.39	0.48	0.46	0.51
	猛烈的一击	回忆	0.21	0.17	0.27	0.25	0.35

懒惰的学生	韩国中小企业银行	精度	0.74	0.78	0.83	0.78	0.77
	韩国中小企业银行	回忆	0.42	0.44	0.48	0.38	0.45
	KStar	精度	0.75	0.78	0.77	0.76	0.72
	KStar	回忆	0.36	0.40	0.44	0.35	0.72

Metaheuristic	装袋	精度	0.77	0.74	0.78	0.79	0.73
	装袋	回忆	0.37	0.41	0.45	0.36	0.44
	LogitBoost	精度	0.50	0.29	0.28	0.37	0.36
	LogitBoost	回忆	0.12	0.10	0.17	0.12	0.30

贝叶斯	贝叶斯网	精度	0.77	0.71	0.77	0.78	0.69
贝叶斯	贝叶斯网	回忆	0.32	0.36	0.42	0.33	0.44

(一)

(b)

然而,在干净的数据集,一个清晰的模式改进的回忆是可见的。根据表8,所有算法的性能改善作为训练数据集的大小增加。IBK和KStar相关查询到正确的用户提供62%以上的精度高于70%在所有情况下,虽然装袋,J48、决策表,和以前相关超过51.68%到82.84%的查询到正确的用户在所有情况下的精度高于60%。其他算法、贝叶斯网络能把70%以上的查询在某些情况下。虽然召回的增加与训练数据的增加并不是线性的,一种改进模式清晰可见的干净的数据集。结果的精度和召回干净数据绘制在图6。


集团			组1	组2	组3	组4	组5

基于树的	J48	精度	0.66	0.62	0.73	0.80	0.76
	J48	回忆	0.62	0.60	0.71	0.81	0.78
	航空航天	精度	0.62	0.66	0.73	0.75	0.75
	航空航天	回忆	0.66	0.61	0.65	0.79	0.75

基于规则的	决策表	精度	0.84	0.81	0.79	0.92	0.81
	决策表	回忆	0.58	0.51	0.63	0.79	0.74
	JRip	精度	0.73	0.82	0.83	0.88	0.75
	JRip	回忆	0.40	0.35	0.42	0.63	0.59
	猛烈的一击	精度	0.41	0.37	0.43	0.55	0.48
	猛烈的一击	回忆	0.38	0.28	0.41	0.60	0.55

懒惰的学生	韩国中小企业银行	精度	0.72	0.70	0.80	0.85	0.80
	韩国中小企业银行	回忆	0.71	0.69	0.76	0.85	0.83
	KStar	精度	0.74	0.75	0.73	0.77	0.77
	KStar	回忆	0.69	0.62	0.71	0.80	0.78

Metaheuristic	装袋	精度	0.75	0.71	0.75	0.81	0.75
	装袋	回忆	0.65	0.61	0.71	0.82	0.81
	LogitBoost	精度	0.42	0.17	0.29	0.39	0.20
	LogitBoost	回忆	0.19	0.14	0.23	0.34	0.38

贝叶斯	贝叶斯网	精度	0.79	0.74	0.71	0.77	0.57
贝叶斯	贝叶斯网	回忆	0.45	0.45	0.59	0.74	0.73

(一)

(b)

总的来说,银行和装袋相关查询到正确的用户提供45.1%和43%精度高于70%的嘈杂的数据集,而J48 KStar,和以前相关的42.2%,41.7%,和40.6%的查询到正确的用户提供精度为70.9%,73.5%,70.2%。同样,在干净的数据集,查询相关IBK和装袋79.5%和75.7%与79.6%和75.9%正确的用户精度,而J48 KStar,和以前相关的73.9%,74.4%,和72%的查询到正确的用户提供精度为73.9%,76.1%,72.6%。排名前三的算法而言,F-measure(之间的权衡精度和召回)IBK嘈杂的数据集,装袋,J48得分为0.514,0.487,和0.477,分别为干净的数据集时,排名前三的算法是IBK,装袋,和KStar得分是0.793,0.753,和0.745,分别。因此,IBK决心成为一个更合适的算法对特征向量”类别。“结果的平均F-measure吵闹的和干净的数据集是绘制在图7。

5。结论

健康信息自古以来被认为是敏感的私人信息。然而,WSE收集这些信息销售和有针对性的广告,这可能侵犯用户的隐私。介绍QuPiD攻击:一个基于机器学习提供的保护水平的量化攻击流行统一党PIR协议。QuPiD攻击使用分类算法和用户分类的历史传入的查询。我们使用两个子集(噪声和干净的数据集)的真实网络数据来测试该模型。我们表明,我们建议的攻击成功的正确关联的查询他们的真正发起者在一个较高的比例。选拔最优秀的分类算法,我们进行了实验与十个来自不同家庭的分类算法。J48和以前的基于树的家庭,决策表,JRip,和专家从基于规则的家庭、银行和KStar从懒惰的学生家庭,装袋和LogitBoost metaheuristic家庭,从贝叶斯的家庭选择和贝叶斯网络。结果表明,IBK是最合适的算法,如果使用“种类”的特征向量。

在嘈杂的数据集的分析,几乎每一个算法显示不规则行为变化的训练数据集的大小。然而,干净的数据分析,我们发现,当增加训练数据的大小而构建分类模型,测试数据的回忆正在改善。因此,我们得出这样的结论:噪音是不稳定行为的因素之一。我们的分析表明,PIR协议机器学习很容易受到攻击,即使一级分类标签的查询。为目前PIR协议这种情况令人担忧。任何web搜索引擎甚至web服务配备一个概要文件用户可以公开的目标用户。在未来,我们有兴趣评估拟议的攻击从不同的角度,如集团的影响大小,查询的数量在一个会话,用户配置文件大小,等等。此外,我们兴奋地探索的不稳定行为分类算法。

数据可用性

使用的数据来支持这个研究的发现是可用的http://www.radiounderground.net/aol-data/。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由科研院长以来,阿卜杜拉国王大学(考),吉达,沙特阿拉伯。

引用

m·w·Ng r .史密斯,n . Wickramesinghe p . j .聪明,和n . Lawrentschuk”网上健康:做网站搜索返回可靠的健康信息对痔疮及其治疗?”国际外科手术,卷102,不。5 - 6,216 - 221年,2017页。视图:出版商的网站|谷歌学术搜索
美国福克斯和m .达根“健康在线2013,”健康美国皮尤研究中心,华盛顿特区,2013年。视图:谷歌学术搜索
r·汗·m·a·伊斯兰教,m . Ullah m·阿·m·a·伊克巴尔,“隐私暴露测量:保护隐私技术与健康有关的网络搜索,“医学成像和卫生信息学杂志》上,9卷,不。6,1196 - 1204年,2019页。视图:出版商的网站|谷歌学术搜索
p . Thomas b . Billerbeck n . Craswell和r·w·白”调查搜索者的心理模型通知搜索解释,“ACM交易信息系统(钢铁洪流),38卷,不。1、1 - 25,2020页。视图:出版商的网站|谷歌学术搜索
h . Yoganarasimhan“搜索个性化使用机器学习,”管理科学,卷66,不。3、1045 - 1070年,2020页。视图:出版商的网站|谷歌学术搜索
f .长,k . Jerath m·萨瓦里,“利用信息从赞助广告在网上零售市场,”该研究所的私营企业的研究论文,没有。2019年20高03https://ssrn.com/abstract=3516104。视图:出版商的网站|谷歌学术搜索
s . b . Mokhtar a . Boutet p . Felber m . Pasin r·皮雷和诉Schiavoni”X-search:回顾私人网络搜索使用英特尔新交所”学报18 ACM /联合会/ USENIX中间件会议拉斯维加斯,页198 - 208年,NV,美国,2017年12月。视图:谷歌学术搜索
k·Hafner和m . Richtel谷歌拒绝我们传票的搜索数据,纽约时报,纽约,纽约,美国,2006年。
Chowdhury g, A, c。道基森曾收到任务,“搜索的照片。Infoscale 06、香港”学报第一国际会议上可扩展的信息系统ACM,纽约,纽约,美国,2006年。视图:谷歌学术搜索
Lundberg, a . Narayanan k . Levy, m . j . Salganik“隐私,伦理,和数据访问:一个案例研究脆弱的家庭的挑战,”2018年,https://arxiv.org/abs/1809.00103。视图:谷歌学术搜索
l·埃德尔斯坦,”希波克拉底誓言:文本、翻译和解释”Edelstein古代医学:选择论文的路德维希,页3 - 63,约翰·霍普金斯大学出版社,巴尔的摩,医学博士,美国,1943年。视图:谷歌学术搜索
t . Libert”,在网上健康信息寻求隐私的影响,“ACM的通信,卷。58岁的没有。3、68 - 77年,2015页。视图:出版商的网站|谷歌学术搜索
m·巴巴罗·t·西,s . Hansell脸是AOL搜索者没有暴露。4417749,纽约时报,纽约,纽约,美国,2006年。
诉Toubiana、l .萨勃拉曼尼亚和h·尼森鲍姆”Trackmenot:提高网络搜索的隐私,”2011年,https://arxiv.org/abs/1109.4677。视图:谷歌学术搜索
a . Arampatzis g . Drosatos, p . s . Efraimidis“通用查询争夺私人网络搜索,”信息检索期刊,18卷,不。4、331 - 358年,2015页。视图:出版商的网站|谷歌学术搜索
r . Dingledine:马修森,p . SyversonTor:第二代洋葱路由器海军研究实验室,华盛顿,美国,2004年。
c . Romero-Tris j . Castella-Roca, a .桥“分布式系统为私人网络搜索与不受信任的合作伙伴,”计算机网络卷。67年,26-42,2014页。视图:出版商的网站|谷歌学术搜索
c . Romero-Tris a桥,j . Castella-Roca“多方保护隐私的网络搜索的方法:调查和贡献,”高级研究在数据隐私施普林格,页367 - 387年,柏林,德国,2015年。视图:谷歌学术搜索
k·斯托克斯和m . Bras-Amoros“最佳配置点对点用户私有信息检索,”计算机和数学与应用程序卷,59号4、1568 - 1577年,2010页。视图:出版商的网站|谷歌学术搜索
m . Ullah m·a·伊斯兰教,r·汗·m·阿·m·a·伊克巴尔,“ObSecure日志(奥斯陆):一个框架来保护和评估网络搜索隐私在卫生保健领域,“医学成像和卫生信息学杂志》上,9卷,不。6,1181 - 1190年,2019页。视图:出版商的网站|谷歌学术搜索
答:小,在当前网络搜索引擎引入隐私法国里昂大学,里昂,2017。
a·维斯r . Shokri a . Singla s Capkun诉银行,“量化网络搜索隐私,”学报2014 ACM SIGSAC计算机和通信安全会议斯科茨代尔,页966 - 977年,阿兹,美国,2014年11月。视图:谷歌学术搜索
t . Peddinti和n . Saxena”网络搜索基于查询的隐私困惑:一个案例研究TrackMeNot,”《隐私国际研讨会加强技术研讨会页19-37,柏林,德国,2010年7月。视图:谷歌学术搜索
s . t . Peddinti和n . Saxena”web搜索隐私匿名化网络的有效性,”学报第六届ACM研讨会信息,计算机和通信安全,页483 - 489,香港,中国,2011年3月。视图:谷歌学术搜索
答:小,t . Cerqueus a Boutet et al .,“SimAttack:私人网络搜索下火,”《互联网服务和应用程序,7卷,不。2、2016。视图:出版商的网站|谷歌学术搜索
r·汗和m·a·伊斯兰教“量化的PIR协议隐私,”学报2017年国际会议上沟通,计算和数字系统(c代码),页90 - 95,伊斯兰堡,巴基斯坦,2017年3月。视图:谷歌学术搜索
r·汗·m·Ullah, m·a·伊斯兰教,“揭示pir协议保护用户,”学报2016年第六次国际会议上创新计算技术INTECH(的哲理),页535 - 541,都柏林,爱尔兰,2016年8月。视图:谷歌学术搜索
j·r·昆兰C4。5:机器学习项目爱思唯尔,荷兰阿姆斯特丹,2014年。
n .后备军人,m .大厅和e·弗兰克”物流模式树,”机器学习卷,59号1 - 2、161 - 205年,2005页。视图:出版商的网站|谷歌学术搜索
r . Kohavi“决策表的力量”《欧洲机器学习会议Heraclion,页174 - 189年,希腊,1995年4月。视图:谷歌学术搜索
w·w·科恩,“快速有效的规则归纳”1995年机器学习程序爱思唯尔,页115 - 123年,阿姆斯特丹,荷兰,1995年。视图:谷歌学术搜索
r . c . Holte”非常简单的分类规则最常用的数据集上执行好,”机器学习,11卷,不。1,第90 - 63页,1993。视图:出版商的网站|谷歌学术搜索
d . w .啊哈,d . Kibler, m·k·艾伯特,“基于实例的学习算法,”机器学习》第六卷,没有。1,37 - 66年,1991页。视图:出版商的网站|谷歌学术搜索
j·g·克利里和l . e .区格”K∗:一个基于实例的学习者使用的距离测量,”1995年机器学习程序爱思唯尔,页108 - 114年,阿姆斯特丹,荷兰,1995年。视图:谷歌学术搜索
l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:出版商的网站|谷歌学术搜索
e·弗兰克·m·霍尔,g .福尔摩斯et al .,“Weka-a为数据挖掘、机器学习工作台”数据挖掘和知识发现手册施普林格,页1269 - 1277年,柏林,德国,2009年。视图:谷歌学术搜索
n . Friedman, d .盖革,m . Goldszmidt“贝叶斯网络分类器,”机器学习卷,29号2/3,131 - 163年,1997页。视图:出版商的网站|谷歌学术搜索
n .内陆和辛格诉”,电子商务产品的分类使用RepTree和k - means混合方法,”大数据分析施普林格,页265 - 273年,柏林,德国,2018年。视图:谷歌学术搜索

科学的规划

医疗科学大数据管理和分析编程

文摘