SPgydF4y2Ba
科学的规划gydF4y2Ba
1875 - 919 xgydF4y2Ba
1058 - 9244gydF4y2Ba
HindawigydF4y2Ba
10.1155 / 2020/8868686gydF4y2Ba
8868686gydF4y2Ba
研究文章gydF4y2Ba
PIR QuPiD攻击:基于机器学习隐私量化机制协议中与健康有关的网络搜索gydF4y2Ba
汗gydF4y2Ba
RafiullahgydF4y2Ba
1gydF4y2Ba
2gydF4y2Ba
https://orcid.org/0000 - 0002 - 3576 - 8365gydF4y2Ba
艾哈迈德gydF4y2Ba
艾尔沙德gydF4y2Ba
3gydF4y2Ba
AlsayedgydF4y2Ba
Alhuseen奥马尔gydF4y2Ba
4gydF4y2Ba
BinsawadgydF4y2Ba
默罕默德gydF4y2Ba
5gydF4y2Ba
伊斯兰教gydF4y2Ba
默罕默德艾尔沙德gydF4y2Ba
6gydF4y2Ba
UllahgydF4y2Ba
MohibgydF4y2Ba
1gydF4y2Ba
2gydF4y2Ba
:gydF4y2Ba
Rodziah宾蒂gydF4y2Ba
1gydF4y2Ba
计算机科学与信息技术学院gydF4y2Ba
农业大学的gydF4y2Ba
白沙瓦gydF4y2Ba
巴基斯坦gydF4y2Ba
aup.edu.pkgydF4y2Ba
2gydF4y2Ba
首都科技大学gydF4y2Ba
伊斯兰堡gydF4y2Ba
巴基斯坦gydF4y2Ba
cust.edu.pkgydF4y2Ba
3gydF4y2Ba
计算机科学部门gydF4y2Ba
大学15gydF4y2Ba
安巴尔省gydF4y2Ba
巴基斯坦gydF4y2Ba
uoswabi.edu.pkgydF4y2Ba
4gydF4y2Ba
科研院长职gydF4y2Ba
阿卜杜勒阿齐兹国王大学吉达gydF4y2Ba
吉达gydF4y2Ba
沙特阿拉伯gydF4y2Ba
kau.edu.sagydF4y2Ba
5gydF4y2Ba
教师的计算机信息系统gydF4y2Ba
阿卜杜勒阿齐兹国王大学吉达gydF4y2Ba
吉达gydF4y2Ba
沙特阿拉伯gydF4y2Ba
kau.edu.sagydF4y2Ba
6gydF4y2Ba
国立大学计算机和新兴的科学gydF4y2Ba
伊斯兰堡gydF4y2Ba
巴基斯坦gydF4y2Ba
nu.edu.pkgydF4y2Ba
2020年gydF4y2Ba
14gydF4y2Ba
7gydF4y2Ba
2020年gydF4y2Ba
2020年gydF4y2Ba
16gydF4y2Ba
03gydF4y2Ba
2020年gydF4y2Ba
22gydF4y2Ba
04gydF4y2Ba
2020年gydF4y2Ba
14gydF4y2Ba
7gydF4y2Ba
2020年gydF4y2Ba
2020年gydF4y2Ba
版权©2020 Rafiullah汗等。gydF4y2Ba
这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba
随着信息通信技术的进步,网络搜索引擎已经成为首选源找到在互联网上发表的与健康有关的信息。谷歌仅接收超过十亿健康每天查询。然而,为了向用户提供最相关的结果,ws维护用户的配置文件。这些配置文件可能包含私有和敏感的信息,如用户的健康状况、疾病状态,和其他人。与健康有关的查询包含隐私信息可能侵犯用户的隐私,用户的身份暴露,可能被滥用的WSE和第三方。这引发了严重关切的问题从一个用户的身份暴露,可能被第三方滥用。一个知名的解决方案来保护隐私涉及发行通过点对点私人信息的查询检索协议,如无用的用户配置文件(北爱尔兰统一党,从而隐藏WSE的用户的身份。探讨统一党所提供的保护水平。为此,我们提出QuPiD(查询档案距离)攻击:基于机器学习攻击评估统一党在隐私保护的有效性。QuPiD攻击之间的距离决定了用户的概要文件(web搜索历史)和即将到来的查询使用我们提出新颖的特征向量。 The experiments were conducted using ten classification algorithms belonging to the tree-based, rule-based, lazy learner, metaheuristic, and Bayesian families for the sake of comparison. Furthermore, two subsets of an America Online dataset (noisy and clean datasets) were used for experimentation. The results show that the proposed QuPiD attack associates more than 70% queries to the correct user with a precision of over 72% for the clean dataset, while for the noisy dataset, the proposed QuPiD attack associates more than 40% queries to the correct user with 70% precision.
阿卜杜勒阿齐兹国王大学gydF4y2Ba
1。介绍gydF4y2Ba
目前,网络搜索引擎(ws)已成为首选方法找到医疗卫生相关的内容在万维网上。最近的一项调查报告称,超过80%的患者使用WSE寻求健康信息之前咨询医生(gydF4y2Ba
1gydF4y2Ba ),根据皮尤研究中心发布的报告,35%的美国成年人咨询WSE诊断医疗条件(gydF4y2Ba
2gydF4y2Ba ]。然而,尽管使用网络搜索的服务,用户通常发布他们的身体状况和健康信息查询(gydF4y2Ba
3gydF4y2Ba ]。网络搜索引擎声称他们收集和维护用户查询结果等各种活动的用户配置文件(排名gydF4y2Ba
4gydF4y2Ba ),市场调研gydF4y2Ba
3gydF4y2Ba ),个性化gydF4y2Ba
5gydF4y2Ba [],有针对性的广告gydF4y2Ba
6gydF4y2Ba ),和其他人。从好的方面来说,维护用户概要文件可以提高结果的质量和用户体验,而在黑暗方面,这个不加选择地收集用户的查询可能会导致关键隐私侵犯用户的查询可能包含敏感和个人信息(gydF4y2Ba
7gydF4y2Ba ]。这个问题的用户隐私违反引起相当大的关注是在2005年,当时美国司法部迫使谷歌提交记录用户的查询(gydF4y2Ba
8gydF4y2Ba ]。后来,美国在线(AOL) (pseudonymized) 2000万年发布超过650000用户提交的查询三个月的时间gydF4y2Ba
9gydF4y2Ba ),一些用户的身份已经推断出通过个人信息包含在他们的查询gydF4y2Ba
10gydF4y2Ba ]。gydF4y2Ba
病人的健康信息自古以来被认为是一个敏感的问题,也反映在希波克拉底誓言(gydF4y2Ba
11gydF4y2Ba 分泌),医生会让病人的信息(gydF4y2Ba
12gydF4y2Ba ]。然而,在网络和公共卫生设施服务,用户隐私就成为行为跟踪(gydF4y2Ba
12gydF4y2Ba ]。考虑这样一个场景,当一个用户发布的一系列私人查询与他/她的健康状况有关,如“艾滋病”或“糖尿病。“华沙证交所可能出售这些信息广告机构或其他公司的商业目的,最终侵犯用户的隐私(gydF4y2Ba
3gydF4y2Ba ]。这样的隐私披露发生在2006年,《纽约时报》成功地演绎和推断个人信息从搜索历史pseudonymized日志发表的美国在线(AOL)。其中之一是一个62岁的寡妇了数以百计的搜索有关她的健康状况,如“手颤抖,口干,”和“尼古丁对身体的影响“链接回到她的gydF4y2Ba
13gydF4y2Ba ]。gydF4y2Ba
侵犯隐私的解决这一问题,提出了几种方法。这些方法包括用户配置文件混淆gydF4y2Ba
14gydF4y2Ba ),查询匆忙(gydF4y2Ba
15gydF4y2Ba ),匿名的网络(gydF4y2Ba
16gydF4y2Ba ),和私人信息检索(PIR)协议gydF4y2Ba
17gydF4y2Ba - - - - - -gydF4y2Ba
20.gydF4y2Ba ]。在用户配置文件混淆,用户配置文件含有虚假误导WSE查询。查询中扰码技术,用户查询被一组模糊和良性的同义词和后发布到华沙证交所。基于匿名的网络技术提出了用户查询通过一系列的路由器让WSE很难跟踪查询的起源。这些方法隐藏IP地址,而用户通过cookie和设备仍可追踪的指纹(gydF4y2Ba
21gydF4y2Ba ]。在PIR协议,一组用户提交查询代表彼此隐藏自己的身份。gydF4y2Ba
尽管上述方法改善用户隐私,然而,一些以往的研究(gydF4y2Ba
22gydF4y2Ba - - - - - -gydF4y2Ba
25gydF4y2Ba 使用机器学习算法和用户配置文件(即。,u年代erh我年代tory or logged user queries) show that an adversary is able to break profile obfuscation and anonymizing network methods. However, it is not clear if an adversary is able to break PIR protocols using machine learning techniques. Therefore, in this research, we propose a machine learning-based attack in order to evaluate the effectiveness of popular PIR protocol, i.e., useless user profile (UUP) [
17gydF4y2Ba ,gydF4y2Ba
18gydF4y2Ba ]。gydF4y2Ba
这项工作的一个更高层次的目标是分析PIR协议在保护用户隐私的有效性对不利WSE(从这里开始,我们将调用PIR协议或者表现为简单起见不失一般性)。在或者一组用户相互交流他们的查询方式,查询发起者的身份节点仍然隐藏在另一组的伴侣。在下一步中,所有小组成员向华沙证交所提交收到查询和结果中播放。WSE方面,收到用户的查询在纯文本,但用不同的身份,因此WSE不能确定查询的发起者。我们着手调查是否有可能(和在多大程度上)的不良WSE-equipped与用户的网络搜索概要文件(历史)——将查询出来的统一党退出用户链接到原始的用户,从而破坏统一党所提供的隐私。gydF4y2Ba
为了更好地理解的局限性统一党在用户的隐私,我们提出本文的研究或者关注活跃用户。本研究对QuPiD攻击,基于机器学习攻击决定之间的距离和查询用户的概要文件。我们进行了实验与随机选择的100活跃用户公开的美国在线(AOL)的数据集,把他们当统一党的用户。美国在线数据集是由超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。前两个月的数据作为训练数据,上月数据作为测试数据。我们测量的效率攻击使用机器学习一些已知矩阵:精度,还记得,F-measure,真阳性率。结果表明,我们建议的QuPiD攻击将超过70%的查询到正确的用户与超过72%的精度。根据结果,我们可以得出结论,大多数用户很容易受到隐私侵权使用统一党尽管。这项工作的贡献如下:gydF4y2Ba
(1)gydF4y2Ba
提出QuPiD攻击:一个基于机器学习为隐私评估PIR协议攻击gydF4y2Ba
(2)gydF4y2Ba
提出新的查询向量分类gydF4y2Ba
(3)gydF4y2Ba
推荐合适的机器学习算法的查询分类gydF4y2Ba
本文的其余部分组织如下:在部分gydF4y2Ba
2gydF4y2Ba ,我们将描述该QuPiD攻击。实验设置,数据的预处理,特征向量构造和分类算法进行了部分gydF4y2Ba
3gydF4y2Ba 。部分gydF4y2Ba
4gydF4y2Ba 给出了实验结果。部分gydF4y2Ba
5gydF4y2Ba 给出了结论,并概述了未来工作的方向。gydF4y2Ba
2。不良模型和QuPiD攻击gydF4y2Ba
用户更关心的隐私风险查询ws。在这项工作中,我们研究了受欢迎的PIR协议的健壮性,也就是。,统一党。如前所述,WSE接收用户的查询使用不同的身份由于洗牌的过程。因此,查询的条目不会出现真正的发起者weblog。然而,这个协议的弱点是由所有小组成员查询提交的时间。查询洗牌后一步,每一个小组成员将收到查询提交给WSE几乎在同一时间。由于他们的weblog条目出现互相接近。图gydF4y2Ba
1gydF4y2Ba 说明了博客查询条目的一个例子。在图gydF4y2Ba
1gydF4y2Ba 之前,表现出1显示了用户的查询洗牌过程,并同时展示2显示了洗牌后的查询过程。洗牌后,查询提交给WSE(图gydF4y2Ba
1gydF4y2Ba ,表3)。gydF4y2Ba
图1gydF4y2Ba
在博客和会话窗口查询条目。gydF4y2Ba
在拟议的不良模型中,WSE被认为是一个实体,其目标是对保护隐私的解决方案并确定感兴趣的用户(UoI)查询分析的目的。假设WSE配备了用户的搜索历史记录(即。用户配置文件)聚氨酯。用户配置文件包含用户提交的查询过去不使用任何统一党协议方程所示(gydF4y2Ba
1gydF4y2Ba )(gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba 显示查询的UoI概要文件)。gydF4y2Ba
(1)gydF4y2Ba
聚氨酯gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
3gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
用户配置文件使用聚氨酯作为构建分类模型的训练数据。用于实验的数据集是分布在三个月的时间,第一个两个月的数据作为训练集,而北爱尔兰统一党协议与第三个月模拟数据来创建一个匿名日志(如图gydF4y2Ba
1gydF4y2Ba ,表3)。匿名日志作为测试集,测试所有会话窗口的UoI从查询日志。会话窗口是一块记录(日志查询条目)在一个匿名的UoI日志包含条目,但与另一个用户(gydF4y2Ba
26gydF4y2Ba ,gydF4y2Ba
27gydF4y2Ba ]。换句话说,会话窗口由所选号码查询的条目WSE查询日志,前后出现的UoI的查询。如图gydF4y2Ba
1gydF4y2Ba (表4),我们的UoI是“用户3”和会话窗口大小是15记录(记录之前的UoI和7之后的UoI 7日)。对于这个研究,我们使用251条记录的窗口大小。每个会话窗口(gydF4y2Ba
年代gydF4y2Ba 赢得gydF4y2Ba )是由125查询出现之前和125查询查询后出现的UoI(根据的建议gydF4y2Ba
27gydF4y2Ba ])。一个通用的会话窗口gydF4y2Ba
年代gydF4y2Ba 赢得gydF4y2Ba 方程所示(gydF4y2Ba
2gydF4y2Ba )(gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba 代表一个查询在会话窗口中)。所有会话窗口GS的集合gydF4y2Ba赢得gydF4y2Ba 方程所示(gydF4y2Ba
3gydF4y2Ba )。gydF4y2Ba
(2)gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
=gydF4y2Ba
问gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
3gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
125年gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
UoIgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
126年gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
251年gydF4y2Ba
,gydF4y2Ba
(3)gydF4y2Ba
GSgydF4y2Ba
赢得gydF4y2Ba
=gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
3gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
所示的查询日志,目标用户使用任何PIR协议仍将隐藏由于他/她查询的查询交换另一个用户。因此,一个会话窗口是用来减少测试数据。聚氨酯(训练集)和ggydF4y2Ba赢得gydF4y2Ba (测试集)作为输入使用不良的算法模型。不良的工作模式提出了算法gydF4y2Ba
1gydF4y2Ba 和图中所示gydF4y2Ba
2gydF4y2Ba 。算法的工作如下:gydF4y2Ba
<大胆>算法1:< /大胆>将传入的查询用户使用之前的概要文件。gydF4y2Ba
输入:gydF4y2Ba 用户配置文件(PU);所有会话窗口属于用户(gydF4y2Ba
GSgydF4y2Ba
赢得gydF4y2Ba
)。gydF4y2Ba
输出:gydF4y2Ba 预期的用户标签(陆)gydF4y2Ba
(1)gydF4y2Ba
过程gydF4y2Ba 查询协会(PU、gydF4y2Ba
GSgydF4y2Ba
赢得gydF4y2Ba
)gydF4y2Ba
(2)gydF4y2Ba
为gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
∈gydF4y2Ba
聚氨酯gydF4y2Ba
做gydF4y2Ba
(3)gydF4y2Ba
聚氨酯gydF4y2Ba
vgydF4y2Ba
⟵gydF4y2Ba
ggydF4y2Ba
egydF4y2Ba
tgydF4y2Ba
fgydF4y2Ba
egydF4y2Ba
一个gydF4y2Ba
tgydF4y2Ba
ugydF4y2Ba
rgydF4y2Ba
egydF4y2Ba
vgydF4y2Ba
egydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
ogydF4y2Ba
rgydF4y2Ba
fgydF4y2Ba
ogydF4y2Ba
rgydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
(4)gydF4y2Ba
PgydF4y2Ba
模型gydF4y2Ba
⟵gydF4y2Ba
CgydF4y2Ba
lgydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
fgydF4y2Ba
我gydF4y2Ba
cgydF4y2Ba
一个gydF4y2Ba
tgydF4y2Ba
我gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba
ggydF4y2Ba
ogydF4y2Ba
rgydF4y2Ba
我gydF4y2Ba
tgydF4y2Ba
hgydF4y2Ba
米gydF4y2Ba
聚氨酯gydF4y2Ba
vgydF4y2Ba
(5)gydF4y2Ba
为gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
我gydF4y2Ba
∈gydF4y2Ba
GSgydF4y2Ba
赢得gydF4y2Ba
做gydF4y2Ba
(6)gydF4y2Ba
为gydF4y2Ba
问gydF4y2Ba
kgydF4y2Ba
∈gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
jgydF4y2Ba
做gydF4y2Ba
(7)gydF4y2Ba
问gydF4y2Ba
kgydF4y2Ba
vgydF4y2Ba
⟵gydF4y2Ba
ggydF4y2Ba
egydF4y2Ba
tgydF4y2Ba
fgydF4y2Ba
egydF4y2Ba
一个gydF4y2Ba
tgydF4y2Ba
ugydF4y2Ba
rgydF4y2Ba
egydF4y2Ba
VgydF4y2Ba
egydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
ogydF4y2Ba
rgydF4y2Ba
fgydF4y2Ba
ogydF4y2Ba
rgydF4y2Ba
问gydF4y2Ba
kgydF4y2Ba
(8)gydF4y2Ba
陆gydF4y2Ba
⟵gydF4y2Ba
PgydF4y2Ba
模型gydF4y2Ba
问gydF4y2Ba
kgydF4y2Ba
vgydF4y2Ba
(9)gydF4y2Ba
返回gydF4y2Ba
陆gydF4y2Ba
(1)gydF4y2Ba
首先,用户配置文件(PU)特征向量是获得用于训练目的。特征向量的用户配置文件(gydF4y2Ba
聚氨酯gydF4y2Ba
vgydF4y2Ba
)所示方程(gydF4y2Ba
4gydF4y2Ba )。从uClassify(获得的特征向量是gydF4y2Ba
http://www.uclassify.comgydF4y2Ba )服务,机器学习的web服务,它提供了很多不同的用于文本分类的分类器。我们选择了“主题”分类器,每个短语或查询的分数在10个主要课程包括体育,社会,科学,娱乐,家庭,健康,游戏,电脑,商业,和艺术。gydF4y2Ba
(2)gydF4y2Ba
在第二步中,分类模型gydF4y2Ba
PgydF4y2Ba 模型gydF4y2Ba 是使用gydF4y2Ba
聚氨酯gydF4y2Ba
vgydF4y2Ba
和监督的机器学习算法。测试数据的响应不同的分类技术,10从树分类算法选择,基于规则的,懒惰的学习者,metaheuristic,贝叶斯的家庭。gydF4y2Ba
(3)gydF4y2Ba
在分类模型(gydF4y2Ba
PgydF4y2Ba 模型gydF4y2Ba ),第三步是获得特征向量gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
vgydF4y2Ba
所示的方程(gydF4y2Ba
5gydF4y2Ba )的查询会话窗口gydF4y2Ba
年代gydF4y2Ba 赢得gydF4y2Ba 从uClassify测试数据。gydF4y2Ba
(4)gydF4y2Ba
在最后一步中,每个查询的gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
vgydF4y2Ba
提供预期的标签的分类模型。陆的标签显示是否属于UoI传入的查询。gydF4y2Ba
(4)gydF4y2Ba
聚氨酯gydF4y2Ba
vgydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
1gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
2gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
3gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
问gydF4y2Ba
ngydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
(5)gydF4y2Ba
年代gydF4y2Ba
赢得gydF4y2Ba
vgydF4y2Ba
=gydF4y2Ba
问gydF4y2Ba
1gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
2gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
3gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
125年gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
UoIgydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
126年gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
问gydF4y2Ba
251年gydF4y2Ba
vgydF4y2Ba
。gydF4y2Ba
图2gydF4y2Ba
操作的逆模型。gydF4y2Ba
实验目的,两个子集AOL的100用户创建数据集组成一个三个月的网络在线用户的查询日志。每个子集被分为两个部分,即。、训练和测试数据。训练数据是由前两个月的日志,而测试数据由上个月的日志。用户选择标准的细节和数据集的形成进行了部分gydF4y2Ba
4gydF4y2Ba 。gydF4y2Ba
3所示。方法gydF4y2Ba
3.1。美国在线数据集gydF4y2Ba
我们使用了真实的网页搜索查询日志发布的美国在线(AOL)在2006年提出了不良的评价模型。美国在线数据集包括超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。美国在线数据集虽然老了,有很多不足与当前形势下,我们被迫使用这个数据集由于缺乏基准数据集的可用性。的属性查询日志的用户ID,查询,查询的日期和时间,内容的排名点击,点击URL。试验的目的,前两个月的数据被用作用户概要(PU)或训练数据在三个月的数据的新查询分类(即。、测试数据)。每个用户的查询数量的分布在选定数据集如图gydF4y2Ba
3gydF4y2Ba 。试验中,我们选择100用户查询频率高,而不是专注于所有用户。用户选择标准中讨论部分gydF4y2Ba
3.3gydF4y2Ba ,总结在表提供的数据集gydF4y2Ba
1gydF4y2Ba 。gydF4y2Ba
图3gydF4y2Ba
分布的数量每用户查询所选择的数据集。gydF4y2Ba
表1gydF4y2Ba
美国在线数据集属性。gydF4y2Ba
总查询gydF4y2Ba
36389567年gydF4y2Ba
总用户gydF4y2Ba
657426年gydF4y2Ba
独特的查询gydF4y2Ba
10154742年gydF4y2Ba
属性gydF4y2Ba
5 (AnonID、查询、查询时间,物品等级,点击网址)gydF4y2Ba
时间gydF4y2Ba
2006年3月01 - 5月31日,2006年gydF4y2Ba
3.2。特征向量提取gydF4y2Ba
数据集是由五个属性:用户ID、查询,查询的日期和时间,内容的排名点击,点击URL。因为我们的不良模式与用户ID,提交查询,在十大主题和查询成绩,我们忽略了剩余的特性。获取查询分数十大课程,我们使用uClassify服务为主题提供了分类器,年龄、性别、情绪、语言检测,和许多其他人。本文的主题分类器是使用,它提供了对每个查询10个类别的数字值。主题分类器使用一个子集的话题开的目录工程(ODP)目录主题放置在一个层次结构。类艺术、商业、电脑、游戏、健康、家庭、娱乐、科学、社会、和运动。分类器提供了每个查询的比例在每个类别。例如,对于查询“橄榄油”,分数为每个主题表所示gydF4y2Ba
2gydF4y2Ba 。gydF4y2Ba
表2gydF4y2Ba
从uClassify查询的分数。gydF4y2Ba
查询gydF4y2Ba
艺术gydF4y2Ba
业务gydF4y2Ba
电脑gydF4y2Ba
游戏gydF4y2Ba
健康gydF4y2Ba
家gydF4y2Ba
娱乐gydF4y2Ba
科学gydF4y2Ba
社会gydF4y2Ba
体育gydF4y2Ba
橄榄油gydF4y2Ba
0.0386gydF4y2Ba
0.0974gydF4y2Ba
0.0280gydF4y2Ba
0.0396gydF4y2Ba
0.0569gydF4y2Ba
0.4659gydF4y2Ba
0.0652gydF4y2Ba
0.1028gydF4y2Ba
0.0874gydF4y2Ba
0.0182gydF4y2Ba
Glenliviet 18gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
0.1gydF4y2Ba
在某些情况下,uClassify无法找到得分的主要主题提交查询。例如,uClassify无法找到查询的统治阶级“glenliviet 18。“因此,在这种情况下,uClassify划分一个相等的分数在每个类,即。为每个类,10%。我们称这类查询的查询“困惑”(见表gydF4y2Ba
2gydF4y2Ba )。选择数据集的100用户,uClassify标志着28%的查询为查询的混淆。因此,我们进行了实验使用两个数据集。困惑和unconfused组成的一个数据集是查询,而另一个数据集是由只有unconfused查询找到混淆的影响查询的结果分类器。从这一点开始,困惑的数据集查询将被称为嘈杂的数据集,数据集只有unconfused查询将被称为清洁数据集。这两个数据集的详细信息表gydF4y2Ba
3gydF4y2Ba 。gydF4y2Ba
表3gydF4y2Ba
嘈杂的和干净的数据集的属性。gydF4y2Ba
属性gydF4y2Ba
嘈杂的数据集gydF4y2Ba
干净的数据集gydF4y2Ba
训练实例gydF4y2Ba
116101年gydF4y2Ba
71817年gydF4y2Ba
测试实例gydF4y2Ba
59809年gydF4y2Ba
36998年gydF4y2Ba
总实例gydF4y2Ba
175911年gydF4y2Ba
108815年gydF4y2Ba
最大单用户查询gydF4y2Ba
2975年gydF4y2Ba
1788年gydF4y2Ba
最小的单用户查询gydF4y2Ba
567年gydF4y2Ba
365年gydF4y2Ba
不同的查询gydF4y2Ba
69164年gydF4y2Ba
49662年gydF4y2Ba
3.3。用户选择和建设子集gydF4y2Ba
而不是使用所有用户进行实验,我们专注于几个用户被认为是活跃。活跃用户是那些用户提交了300多件查询整个期间至少61天。从数据集的分析,我们发现只有21407人(3.29%)用户活跃用户。从那些活跃用户,我们随机选择的UoI 100用户。查询的累积分布在嘈杂的和干净的数据集如图gydF4y2Ba
4gydF4y2Ba 。看到训练数据的大小的影响,我们把噪声和干净的数据集分成五组基于查询的平均频率。选中的100用户数据集分成5组。总额的平均数、培训和测试实例表中给出了数据集的所有组gydF4y2Ba
4gydF4y2Ba 。gydF4y2Ba
图4gydF4y2Ba
用户提交的查询的数量分布在清洁和嘈杂的数据集。gydF4y2Ba
表4gydF4y2Ba
平均数据集实例(查询)。gydF4y2Ba
数据集gydF4y2Ba
集团gydF4y2Ba
全部的数据gydF4y2Ba
训练数据gydF4y2Ba
测试数据gydF4y2Ba
嘈杂的gydF4y2Ba
组1gydF4y2Ba
777.55gydF4y2Ba
513.183gydF4y2Ba
264.37gydF4y2Ba
组2gydF4y2Ba
1215.15gydF4y2Ba
801.99gydF4y2Ba
413.15gydF4y2Ba
组3gydF4y2Ba
1752.45gydF4y2Ba
1156.62gydF4y2Ba
595.833gydF4y2Ba
组4gydF4y2Ba
2332.1gydF4y2Ba
1539.18gydF4y2Ba
792.91gydF4y2Ba
组5gydF4y2Ba
2718.3gydF4y2Ba
1794.08gydF4y2Ba
924.22gydF4y2Ba
清洁gydF4y2Ba
组1gydF4y2Ba
509.55gydF4y2Ba
336.30gydF4y2Ba
173.25gydF4y2Ba
组2gydF4y2Ba
820.95gydF4y2Ba
541.83gydF4y2Ba
279.12gydF4y2Ba
组3gydF4y2Ba
1132年gydF4y2Ba
747.12gydF4y2Ba
384.88gydF4y2Ba
组4gydF4y2Ba
1367年gydF4y2Ba
902.22gydF4y2Ba
464.78gydF4y2Ba
组5gydF4y2Ba
1611.25gydF4y2Ba
1063.43gydF4y2Ba
547.83gydF4y2Ba
3.4。匿名登录创建gydF4y2Ba
正如前面提到的,美国在线的数据跨越三个月。为实验目的,我们已经考虑了前两个月的数据,可用干净的UoI历史搜索引擎和上个月的数据作为新的查询分类。选中的PIR协议,即。,(UUP) is simulated with the third month’s query log to create the anonymized log of UoI. The parameters considered for simulations are group size and the number of queries submitted by the respective users. According to the literature, UUP is tested with a group size of 3, 4, 5, and 10 users [
17gydF4y2Ba ,gydF4y2Ba
18gydF4y2Ba ]。另一项研究表明,一个更大的团体大小提供了更多的隐私(gydF4y2Ba
27gydF4y2Ba ]。因此,我们认为一组20个用户的大小。目标用户提交的查询的数量取决于实际的查询频率所选用户的第三个月查询日志。gydF4y2Ba
3.5。分类算法gydF4y2Ba
在一些先前的研究,Peddinti et al。gydF4y2Ba
23gydF4y2Ba ,gydF4y2Ba
24gydF4y2Ba 和小gydF4y2Ba
21gydF4y2Ba ]使用随机森林,广告树,0 R,回归和支持向量机算法对数据的分类查询。在这两个研究,biclass分类模型,即。机或用户生成,查询。此外,模型建立了基于两个属性查询和分配标签。然而,在我们的工作,多类分类模型,即,我nthete年代ting data, the model will decide which query belongs to which user and the model is based on twelve attributes (discussed in Section
3.2gydF4y2Ba )。我们选择十个现成的(默认设置)不同家庭的分类算法。我们选择J48 [gydF4y2Ba
28gydF4y2Ba )和物流模式树(牵头)gydF4y2Ba
29日gydF4y2Ba 从基于树的家庭,决策表(gydF4y2Ba
30.gydF4y2Ba ],JRip [gydF4y2Ba
31日gydF4y2Ba ),和猛烈的一击gydF4y2Ba
32gydF4y2Ba 从基于规则的家庭,IBK [gydF4y2Ba
33gydF4y2Ba ]和KStar [gydF4y2Ba
34gydF4y2Ba 从懒惰的学生家庭,装袋(gydF4y2Ba
35gydF4y2Ba ]和LogitBoost [gydF4y2Ba
36gydF4y2Ba 从metaheuristic家庭,和贝叶斯网gydF4y2Ba
37gydF4y2Ba 从贝叶斯的家庭。代表树(gydF4y2Ba
38gydF4y2Ba )和回归用作装袋和LogitBoost基分类器算法。gydF4y2Ba
3.6。绩效评价指标gydF4y2Ba
三个指标、精度、召回和F-measure,通常用来评估分类器的性能。精度是多少确定样品是正确的和回忆描述有多少总样本的正确识别。精度和回忆都是数学中表示以下方程:gydF4y2Ba
(6)gydF4y2Ba
精度gydF4y2Ba
=gydF4y2Ba
真阳性gydF4y2Ba
真阳性gydF4y2Ba
+gydF4y2Ba
假阳性gydF4y2Ba
,gydF4y2Ba
(7)gydF4y2Ba
回忆gydF4y2Ba
=gydF4y2Ba
真阳性gydF4y2Ba
真阳性gydF4y2Ba
+gydF4y2Ba
假阴性gydF4y2Ba
,gydF4y2Ba
其中真阳性表示实际积极正确地确定情况下的分类器和假阳性是所有底片的比例仍然会产生积极的测试结果,而假阴性代表的比例正收益率负面测试结果与测试。之间的权衡精度和召回是由一个统一的度量称为F-measure。F-measure的值的范围从0到1,0表示没有样本正确分类,而1展示了完美的分类。数学上,F-measure表示为gydF4y2Ba
(8)gydF4y2Ba
FgydF4y2Ba
−gydF4y2Ba
测量gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
×gydF4y2Ba
精度gydF4y2Ba
×gydF4y2Ba
回忆gydF4y2Ba
精度gydF4y2Ba
+gydF4y2Ba
回忆gydF4y2Ba
。gydF4y2Ba
4所示。结果与讨论gydF4y2Ba
本研究的主要目的是提出和评估一个隐私量化模型PIR协议。实验用两个数据集执行:噪声和清洁(部分gydF4y2Ba
3.3gydF4y2Ba ),每组由100用户变量查询频率分布在五组。对于每个UoI,我们测量精度,还记得,从一个匿名和真阳性比例的正确分类查询日志。gydF4y2Ba
表gydF4y2Ba
5gydF4y2Ba 和gydF4y2Ba
6gydF4y2Ba 说明了真阳性百分比的查询gydF4y2Ba
UoIgydF4y2Ba 在这两个数据集。根据表gydF4y2Ba
5gydF4y2Ba ,所有算法正确识别89%以上查询2的用户除了专家和LogitBoost嘈杂的数据集。专家正确识别80%到90% 4用户的查询。总的来说,IBK正确识别50%以上查询的36个用户随后装袋和KStar 30和28个用户,分别在嘈杂的数据集。同样,在干净的数据集,以前和韩国中小企业银行能够正确识别14 89%以上查询用户J48和装袋与12个用户。总的来说,IBK正确识别50%以上查询所有100个用户的KStar和装袋与96年和92年用户在干净的数据集。所有算法的详细性能(真阳性的比率)的干净数据集表给出gydF4y2Ba
6gydF4y2Ba 。在这两个数据集,懒惰的学习者家庭算法的性能(即。IBK KStar)相比其他选择算法要好。gydF4y2Ba
表5gydF4y2Ba
用户的比例在一组基于真阳性值的嘈杂的数据集。gydF4y2Ba
真阳性百分比乐队gydF4y2Ba
基于树的gydF4y2Ba
基于规则的gydF4y2Ba
懒惰的学生gydF4y2Ba
MetaheuristicgydF4y2Ba
贝叶斯gydF4y2Ba
J48gydF4y2Ba
航空航天gydF4y2Ba
DTgydF4y2Ba
JRipgydF4y2Ba
猛烈的一击gydF4y2Ba
韩国中小企业银行gydF4y2Ba
KStargydF4y2Ba
装袋gydF4y2Ba
LogitBoostgydF4y2Ba
贝叶斯网gydF4y2Ba
100% - -90%gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
2gydF4y2Ba
90% - -80%gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
4gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
80% - -70%gydF4y2Ba
4gydF4y2Ba
2gydF4y2Ba
4gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
4gydF4y2Ba
4gydF4y2Ba
4gydF4y2Ba
2gydF4y2Ba
4gydF4y2Ba
70% - -60%gydF4y2Ba
4gydF4y2Ba
8gydF4y2Ba
4gydF4y2Ba
2gydF4y2Ba
6gydF4y2Ba
4gydF4y2Ba
6gydF4y2Ba
4gydF4y2Ba
0gydF4y2Ba
2gydF4y2Ba
60% - -50%gydF4y2Ba
14gydF4y2Ba
2gydF4y2Ba
4gydF4y2Ba
6gydF4y2Ba
0gydF4y2Ba
24gydF4y2Ba
16gydF4y2Ba
18gydF4y2Ba
2gydF4y2Ba
14gydF4y2Ba
50% - -40%gydF4y2Ba
26gydF4y2Ba
28gydF4y2Ba
24gydF4y2Ba
4gydF4y2Ba
10gydF4y2Ba
18gydF4y2Ba
22gydF4y2Ba
20.gydF4y2Ba
6gydF4y2Ba
20.gydF4y2Ba
低于40%gydF4y2Ba
48gydF4y2Ba
56gydF4y2Ba
60gydF4y2Ba
82年gydF4y2Ba
80年gydF4y2Ba
46gydF4y2Ba
50gydF4y2Ba
50gydF4y2Ba
88年gydF4y2Ba
56gydF4y2Ba
表6gydF4y2Ba
用户的比例在一组基于清洁的真阳性值数据集。gydF4y2Ba
真阳性百分比乐队gydF4y2Ba
基于树的gydF4y2Ba
基于规则的gydF4y2Ba
懒惰的学生gydF4y2Ba
MetaheuristicgydF4y2Ba
贝叶斯gydF4y2Ba
J48gydF4y2Ba
航空航天gydF4y2Ba
DTgydF4y2Ba
JRipgydF4y2Ba
猛烈的一击gydF4y2Ba
韩国中小企业银行gydF4y2Ba
KStargydF4y2Ba
装袋gydF4y2Ba
LogitBoostgydF4y2Ba
贝叶斯网gydF4y2Ba
100% - -90%gydF4y2Ba
12gydF4y2Ba
14gydF4y2Ba
10gydF4y2Ba
10gydF4y2Ba
4gydF4y2Ba
14gydF4y2Ba
8gydF4y2Ba
12gydF4y2Ba
0gydF4y2Ba
4gydF4y2Ba
90% - -80%gydF4y2Ba
18gydF4y2Ba
12gydF4y2Ba
14gydF4y2Ba
8gydF4y2Ba
4gydF4y2Ba
32gydF4y2Ba
26gydF4y2Ba
24gydF4y2Ba
4gydF4y2Ba
12gydF4y2Ba
80% - -70%gydF4y2Ba
26gydF4y2Ba
22gydF4y2Ba
22gydF4y2Ba
6gydF4y2Ba
8gydF4y2Ba
24gydF4y2Ba
26gydF4y2Ba
22gydF4y2Ba
2gydF4y2Ba
18gydF4y2Ba
70% - -60%gydF4y2Ba
20.gydF4y2Ba
26gydF4y2Ba
16gydF4y2Ba
8gydF4y2Ba
6gydF4y2Ba
22gydF4y2Ba
20.gydF4y2Ba
18gydF4y2Ba
0gydF4y2Ba
18gydF4y2Ba
60% - -50%gydF4y2Ba
12gydF4y2Ba
16gydF4y2Ba
10gydF4y2Ba
10gydF4y2Ba
18gydF4y2Ba
8gydF4y2Ba
16gydF4y2Ba
16gydF4y2Ba
6gydF4y2Ba
14gydF4y2Ba
50% - -40%gydF4y2Ba
12gydF4y2Ba
10gydF4y2Ba
20.gydF4y2Ba
16gydF4y2Ba
18gydF4y2Ba
0gydF4y2Ba
4gydF4y2Ba
8gydF4y2Ba
10gydF4y2Ba
18gydF4y2Ba
低于40%gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
8gydF4y2Ba
42gydF4y2Ba
42gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
78年gydF4y2Ba
16gydF4y2Ba
正如前面提到的,这两个数据集进一步分为5组20个用户(表gydF4y2Ba
4gydF4y2Ba ),以便观察的影响大小的培训结果的准确性。表gydF4y2Ba
7gydF4y2Ba 显示所有算法的性能的比较与训练数据集大小的变化在嘈杂的数据集。每个算法的性能测量精度和召回。IBK和KStar相关查询到正确的用户提供40%以上的精度高于60%在所有情况下,虽然装袋,J48、决策表,和贝叶斯网络相关查询到正确的用户提供25%以上的精度在60%以上。从训练数据集的大小的角度来看,它是有点难以得出结论关于它对精度的影响。几乎每一个算法显示不规则行为变化的训练数据集的大小。第一三组IBK的性能,J48, KStar,以前观察到的更准确。然而,出乎意料的,召回率下降在过去的两组。结果的精度和召回嘈杂的数据绘制在图gydF4y2Ba
5gydF4y2Ba 。gydF4y2Ba
表7gydF4y2Ba
嘈杂的数据集在不同组织的精度和召回。gydF4y2Ba
集团gydF4y2Ba
组1gydF4y2Ba
组2gydF4y2Ba
组3gydF4y2Ba
组4gydF4y2Ba
组5gydF4y2Ba
基于树的gydF4y2Ba
J48gydF4y2Ba
精度gydF4y2Ba
0.68gydF4y2Ba
0.71gydF4y2Ba
0.75gydF4y2Ba
0.72gydF4y2Ba
0.72gydF4y2Ba
回忆gydF4y2Ba
0.37gydF4y2Ba
0.40gydF4y2Ba
0.44gydF4y2Ba
0.36gydF4y2Ba
0.43gydF4y2Ba
航空航天gydF4y2Ba
精度gydF4y2Ba
0.69gydF4y2Ba
0.70gydF4y2Ba
0.70gydF4y2Ba
0.75gydF4y2Ba
0.72gydF4y2Ba
回忆gydF4y2Ba
0.36gydF4y2Ba
0.38gydF4y2Ba
0.43gydF4y2Ba
0.33gydF4y2Ba
0.42gydF4y2Ba
基于规则的gydF4y2Ba
决策表gydF4y2Ba
精度gydF4y2Ba
0.86gydF4y2Ba
0.89gydF4y2Ba
0.90gydF4y2Ba
0.79gydF4y2Ba
0.79gydF4y2Ba
回忆gydF4y2Ba
0.33gydF4y2Ba
0.32gydF4y2Ba
0.41gydF4y2Ba
0.34gydF4y2Ba
0.41gydF4y2Ba
JRipgydF4y2Ba
精度gydF4y2Ba
0.85gydF4y2Ba
0.80gydF4y2Ba
0.85gydF4y2Ba
0.77gydF4y2Ba
0.78gydF4y2Ba
回忆gydF4y2Ba
0.25gydF4y2Ba
0.23gydF4y2Ba
0.32gydF4y2Ba
0.23gydF4y2Ba
0.34gydF4y2Ba
猛烈的一击gydF4y2Ba
精度gydF4y2Ba
0.46gydF4y2Ba
0.39gydF4y2Ba
0.48gydF4y2Ba
0.46gydF4y2Ba
0.51gydF4y2Ba
回忆gydF4y2Ba
0.21gydF4y2Ba
0.17gydF4y2Ba
0.27gydF4y2Ba
0.25gydF4y2Ba
0.35gydF4y2Ba
懒惰的学生gydF4y2Ba
韩国中小企业银行gydF4y2Ba
精度gydF4y2Ba
0.74gydF4y2Ba
0.78gydF4y2Ba
0.83gydF4y2Ba
0.78gydF4y2Ba
0.77gydF4y2Ba
回忆gydF4y2Ba
0.42gydF4y2Ba
0.44gydF4y2Ba
0.48gydF4y2Ba
0.38gydF4y2Ba
0.45gydF4y2Ba
KStargydF4y2Ba
精度gydF4y2Ba
0.75gydF4y2Ba
0.78gydF4y2Ba
0.77gydF4y2Ba
0.76gydF4y2Ba
0.72gydF4y2Ba
回忆gydF4y2Ba
0.36gydF4y2Ba
0.40gydF4y2Ba
0.44gydF4y2Ba
0.35gydF4y2Ba
0.72gydF4y2Ba
MetaheuristicgydF4y2Ba
装袋gydF4y2Ba
精度gydF4y2Ba
0.77gydF4y2Ba
0.74gydF4y2Ba
0.78gydF4y2Ba
0.79gydF4y2Ba
0.73gydF4y2Ba
回忆gydF4y2Ba
0.37gydF4y2Ba
0.41gydF4y2Ba
0.45gydF4y2Ba
0.36gydF4y2Ba
0.44gydF4y2Ba
LogitBoostgydF4y2Ba
精度gydF4y2Ba
0.50gydF4y2Ba
0.29gydF4y2Ba
0.28gydF4y2Ba
0.37gydF4y2Ba
0.36gydF4y2Ba
回忆gydF4y2Ba
0.12gydF4y2Ba
0.10gydF4y2Ba
0.17gydF4y2Ba
0.12gydF4y2Ba
0.30gydF4y2Ba
贝叶斯gydF4y2Ba
贝叶斯网gydF4y2Ba
精度gydF4y2Ba
0.77gydF4y2Ba
0.71gydF4y2Ba
0.77gydF4y2Ba
0.78gydF4y2Ba
0.69gydF4y2Ba
回忆gydF4y2Ba
0.32gydF4y2Ba
0.36gydF4y2Ba
0.42gydF4y2Ba
0.33gydF4y2Ba
0.44gydF4y2Ba
图5gydF4y2Ba
嘈杂的数据集在不同群体的groupwise精度和召回。(一)嘈杂的数据精度。(b)召回嘈杂的数据集。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
然而,在干净的数据集,一个清晰的模式改进的回忆是可见的。根据表gydF4y2Ba
8gydF4y2Ba ,所有算法的性能改善作为训练数据集的大小增加。IBK和KStar相关查询到正确的用户提供62%以上的精度高于70%在所有情况下,虽然装袋,J48、决策表,和以前相关超过51.68%到82.84%的查询到正确的用户在所有情况下的精度高于60%。其他算法、贝叶斯网络能把70%以上的查询在某些情况下。虽然召回的增加与训练数据的增加并不是线性的,一种改进模式清晰可见的干净的数据集。结果的精度和召回干净数据绘制在图gydF4y2Ba
6gydF4y2Ba 。gydF4y2Ba
表8gydF4y2Ba
干净的数据集在不同组织的精度和召回。gydF4y2Ba
集团gydF4y2Ba
组1gydF4y2Ba
组2gydF4y2Ba
组3gydF4y2Ba
组4gydF4y2Ba
组5gydF4y2Ba
基于树的gydF4y2Ba
J48gydF4y2Ba
精度gydF4y2Ba
0.66gydF4y2Ba
0.62gydF4y2Ba
0.73gydF4y2Ba
0.80gydF4y2Ba
0.76gydF4y2Ba
回忆gydF4y2Ba
0.62gydF4y2Ba
0.60gydF4y2Ba
0.71gydF4y2Ba
0.81gydF4y2Ba
0.78gydF4y2Ba
航空航天gydF4y2Ba
精度gydF4y2Ba
0.62gydF4y2Ba
0.66gydF4y2Ba
0.73gydF4y2Ba
0.75gydF4y2Ba
0.75gydF4y2Ba
回忆gydF4y2Ba
0.66gydF4y2Ba
0.61gydF4y2Ba
0.65gydF4y2Ba
0.79gydF4y2Ba
0.75gydF4y2Ba
基于规则的gydF4y2Ba
决策表gydF4y2Ba
精度gydF4y2Ba
0.84gydF4y2Ba
0.81gydF4y2Ba
0.79gydF4y2Ba
0.92gydF4y2Ba
0.81gydF4y2Ba
回忆gydF4y2Ba
0.58gydF4y2Ba
0.51gydF4y2Ba
0.63gydF4y2Ba
0.79gydF4y2Ba
0.74gydF4y2Ba
JRipgydF4y2Ba
精度gydF4y2Ba
0.73gydF4y2Ba
0.82gydF4y2Ba
0.83gydF4y2Ba
0.88gydF4y2Ba
0.75gydF4y2Ba
回忆gydF4y2Ba
0.40gydF4y2Ba
0.35gydF4y2Ba
0.42gydF4y2Ba
0.63gydF4y2Ba
0.59gydF4y2Ba
猛烈的一击gydF4y2Ba
精度gydF4y2Ba
0.41gydF4y2Ba
0.37gydF4y2Ba
0.43gydF4y2Ba
0.55gydF4y2Ba
0.48gydF4y2Ba
回忆gydF4y2Ba
0.38gydF4y2Ba
0.28gydF4y2Ba
0.41gydF4y2Ba
0.60gydF4y2Ba
0.55gydF4y2Ba
懒惰的学生gydF4y2Ba
韩国中小企业银行gydF4y2Ba
精度gydF4y2Ba
0.72gydF4y2Ba
0.70gydF4y2Ba
0.80gydF4y2Ba
0.85gydF4y2Ba
0.80gydF4y2Ba
回忆gydF4y2Ba
0.71gydF4y2Ba
0.69gydF4y2Ba
0.76gydF4y2Ba
0.85gydF4y2Ba
0.83gydF4y2Ba
KStargydF4y2Ba
精度gydF4y2Ba
0.74gydF4y2Ba
0.75gydF4y2Ba
0.73gydF4y2Ba
0.77gydF4y2Ba
0.77gydF4y2Ba
回忆gydF4y2Ba
0.69gydF4y2Ba
0.62gydF4y2Ba
0.71gydF4y2Ba
0.80gydF4y2Ba
0.78gydF4y2Ba
MetaheuristicgydF4y2Ba
装袋gydF4y2Ba
精度gydF4y2Ba
0.75gydF4y2Ba
0.71gydF4y2Ba
0.75gydF4y2Ba
0.81gydF4y2Ba
0.75gydF4y2Ba
回忆gydF4y2Ba
0.65gydF4y2Ba
0.61gydF4y2Ba
0.71gydF4y2Ba
0.82gydF4y2Ba
0.81gydF4y2Ba
LogitBoostgydF4y2Ba
精度gydF4y2Ba
0.42gydF4y2Ba
0.17gydF4y2Ba
0.29gydF4y2Ba
0.39gydF4y2Ba
0.20gydF4y2Ba
回忆gydF4y2Ba
0.19gydF4y2Ba
0.14gydF4y2Ba
0.23gydF4y2Ba
0.34gydF4y2Ba
0.38gydF4y2Ba
贝叶斯gydF4y2Ba
贝叶斯网gydF4y2Ba
精度gydF4y2Ba
0.79gydF4y2Ba
0.74gydF4y2Ba
0.71gydF4y2Ba
0.77gydF4y2Ba
0.57gydF4y2Ba
回忆gydF4y2Ba
0.45gydF4y2Ba
0.45gydF4y2Ba
0.59gydF4y2Ba
0.74gydF4y2Ba
0.73gydF4y2Ba
图6gydF4y2Ba
干净的数据集在不同群体的groupwise精度和召回。(一)清洁数据精度。数据集(b)清洁召回。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
总的来说,银行和装袋相关查询到正确的用户提供45.1%和43%精度高于70%的嘈杂的数据集,而J48 KStar,和以前相关的42.2%,41.7%,和40.6%的查询到正确的用户提供精度为70.9%,73.5%,70.2%。同样,在干净的数据集,查询相关IBK和装袋79.5%和75.7%与79.6%和75.9%正确的用户精度,而J48 KStar,和以前相关的73.9%,74.4%,和72%的查询到正确的用户提供精度为73.9%,76.1%,72.6%。排名前三的算法而言,F-measure(之间的权衡精度和召回)IBK嘈杂的数据集,装袋,J48得分为0.514,0.487,和0.477,分别为干净的数据集时,排名前三的算法是IBK,装袋,和KStar得分是0.793,0.753,和0.745,分别。因此,IBK决心成为一个更合适的算法对特征向量”类别。“结果的平均F-measure吵闹的和干净的数据集是绘制在图gydF4y2Ba
7gydF4y2Ba 。gydF4y2Ba
图7gydF4y2Ba
所有选定的平均F-measure分类算法对噪声和干净的数据集。gydF4y2Ba
5。结论gydF4y2Ba
健康信息自古以来被认为是敏感的私人信息。然而,WSE收集这些信息销售和有针对性的广告,这可能侵犯用户的隐私。介绍QuPiD攻击:一个基于机器学习提供的保护水平的量化攻击流行统一党PIR协议。QuPiD攻击使用分类算法和用户分类的历史传入的查询。我们使用两个子集(噪声和干净的数据集)的真实网络数据来测试该模型。我们表明,我们建议的攻击成功的正确关联的查询他们的真正发起者在一个较高的比例。选拔最优秀的分类算法,我们进行了实验与十个来自不同家庭的分类算法。J48和以前的基于树的家庭,决策表,JRip,和专家从基于规则的家庭、银行和KStar从懒惰的学生家庭,装袋和LogitBoost metaheuristic家庭,从贝叶斯的家庭选择和贝叶斯网络。结果表明,IBK是最合适的算法,如果使用“种类”的特征向量。gydF4y2Ba
在嘈杂的数据集的分析,几乎每一个算法显示不规则行为变化的训练数据集的大小。然而,干净的数据分析,我们发现,当增加训练数据的大小而构建分类模型,测试数据的回忆正在改善。因此,我们得出这样的结论:噪音是不稳定行为的因素之一。我们的分析表明,PIR协议机器学习很容易受到攻击,即使一级分类标签的查询。为目前PIR协议这种情况令人担忧。任何web搜索引擎甚至web服务配备一个概要文件用户可以公开的目标用户。在未来,我们有兴趣评估拟议的攻击从不同的角度,如集团的影响大小,查询的数量在一个会话,用户配置文件大小,等等。此外,我们兴奋地探索的不稳定行为分类算法。gydF4y2Ba
数据可用性gydF4y2Ba
使用的数据来支持这个研究的发现是可用的gydF4y2Ba
http://www.radiounderground.net/aol-data/gydF4y2Ba 。gydF4y2Ba
的利益冲突gydF4y2Ba
作者宣称没有利益冲突。gydF4y2Ba
确认gydF4y2Ba
这项研究是由科研院长以来,阿卜杜拉国王大学(考),吉达,沙特阿拉伯。gydF4y2Ba
[
]1gydF4y2Ba
NggydF4y2Ba
m·W。gydF4y2Ba
史密斯gydF4y2Ba
R。gydF4y2Ba
WickramesinghegydF4y2Ba
N。gydF4y2Ba
聪明的gydF4y2Ba
p . J。gydF4y2Ba
LawrentschukgydF4y2Ba
N。gydF4y2Ba
网上健康:做网站搜索返回可靠的健康信息对痔疮及其治疗?gydF4y2Ba
国际外科手术gydF4y2Ba
2017年gydF4y2Ba
102年gydF4y2Ba
5 - 6gydF4y2Ba
216年gydF4y2Ba
221年gydF4y2Ba
10.9738 / intsurg - d - 17 - 00099.1gydF4y2Ba
[
]2gydF4y2Ba
福克斯gydF4y2Ba
年代。gydF4y2Ba
达根gydF4y2Ba
M。gydF4y2Ba
2013年健康在线gydF4y2Ba
健康gydF4y2Ba
2013年gydF4y2Ba
美国华盛顿特区gydF4y2Ba
皮尤研究中心gydF4y2Ba
1gydF4y2Ba
55gydF4y2Ba
[
]3gydF4y2Ba
汗gydF4y2Ba
R。gydF4y2Ba
伊斯兰教gydF4y2Ba
m·A。gydF4y2Ba
UllahgydF4y2Ba
M。gydF4y2Ba
阿利gydF4y2Ba
M。gydF4y2Ba
伊克巴尔gydF4y2Ba
m·A。gydF4y2Ba
隐私暴露测量:保护隐私与健康有关的网络搜索技术gydF4y2Ba
医学成像和卫生信息学杂志》上gydF4y2Ba
2019年gydF4y2Ba
9gydF4y2Ba
6gydF4y2Ba
1196年gydF4y2Ba
1204年gydF4y2Ba
10.1166 / jmihi.2019.2709gydF4y2Ba
[
]4gydF4y2Ba
托马斯。gydF4y2Ba
P。gydF4y2Ba
BillerbeckgydF4y2Ba
B。gydF4y2Ba
CraswellgydF4y2Ba
N。gydF4y2Ba
白色的gydF4y2Ba
r·W。gydF4y2Ba
调查搜索用户的心理模型通知搜索解释gydF4y2Ba
ACM交易信息系统(钢铁洪流)gydF4y2Ba
2020年gydF4y2Ba
38gydF4y2Ba
1gydF4y2Ba
1gydF4y2Ba
25gydF4y2Ba
10.1145 / 3371390gydF4y2Ba
[
]5gydF4y2Ba
YoganarasimhangydF4y2Ba
H。gydF4y2Ba
使用机器学习的个性化搜索的功能gydF4y2Ba
管理科学gydF4y2Ba
2020年gydF4y2Ba
66年gydF4y2Ba
3gydF4y2Ba
1045年gydF4y2Ba
1070年gydF4y2Ba
10.1287 / mnsc.2018.3255gydF4y2Ba
[
]6gydF4y2Ba
长gydF4y2Ba
F。gydF4y2Ba
JerathgydF4y2Ba
K。gydF4y2Ba
萨瓦里gydF4y2Ba
M。gydF4y2Ba
利用信息从赞助广告在网上零售市场gydF4y2Ba
该研究所的私营企业的研究论文gydF4y2Ba
2019年gydF4y2Ba
20公/ 03gydF4y2Ba
https://ssrn.com/abstract=3516104gydF4y2Ba
10.2139 / ssrn.3516104gydF4y2Ba
[
]7gydF4y2Ba
身兼gydF4y2Ba
美国B。gydF4y2Ba
BoutetgydF4y2Ba
一个。gydF4y2Ba
FelbergydF4y2Ba
P。gydF4y2Ba
PasingydF4y2Ba
M。gydF4y2Ba
皮雷gydF4y2Ba
R。gydF4y2Ba
SchiavonigydF4y2Ba
V。gydF4y2Ba
使用英特尔新交所X-search:回顾私人网络搜索gydF4y2Ba
学报18 ACM /联合会/ USENIX中间件会议gydF4y2Ba
2017年12月gydF4y2Ba
美国内华达州拉斯维加斯gydF4y2Ba
198年gydF4y2Ba
208年gydF4y2Ba
[
]8gydF4y2Ba
HafnergydF4y2Ba
K。gydF4y2Ba
RichtelgydF4y2Ba
M。gydF4y2Ba
谷歌拒绝我们传票的搜索数据gydF4y2Ba
2006年gydF4y2Ba
纽约,纽约,美国gydF4y2Ba
纽约时报gydF4y2Ba
[
]9gydF4y2Ba
通过gydF4y2Ba
G。gydF4y2Ba
ChowdhurygydF4y2Ba
一个。gydF4y2Ba
道基森曾收到任务gydF4y2Ba
C。gydF4y2Ba
的图片搜索。Infoscale 06年,香港gydF4y2Ba
学报第一国际会议上可扩展的信息系统gydF4y2Ba
2006年gydF4y2Ba
纽约,纽约,美国gydF4y2Ba
ACMgydF4y2Ba
[
]10gydF4y2Ba
LundberggydF4y2Ba
我。gydF4y2Ba
NarayanangydF4y2Ba
一个。gydF4y2Ba
莱维gydF4y2Ba
K。gydF4y2Ba
SalganikgydF4y2Ba
m·J。gydF4y2Ba
隐私,伦理,和数据访问:一个案例研究脆弱的家庭的挑战gydF4y2Ba
2018年gydF4y2Ba
https://arxiv.org/abs/1809.00103gydF4y2Ba
[
]11gydF4y2Ba
埃德尔斯坦gydF4y2Ba
lgydF4y2Ba
希波克拉底誓言:文本、翻译和解释gydF4y2Ba
Edelstein古代医学:选择论文的路德维希gydF4y2Ba
1943年gydF4y2Ba
美国马里兰州巴尔的摩gydF4y2Ba
约翰·霍普金斯大学出版社gydF4y2Ba
3gydF4y2Ba
63年gydF4y2Ba
[
]12gydF4y2Ba
LibertgydF4y2Ba
T。gydF4y2Ba
在网上健康信息寻求隐私的影响gydF4y2Ba
ACM的通信gydF4y2Ba
2015年gydF4y2Ba
58gydF4y2Ba
3gydF4y2Ba
68年gydF4y2Ba
77年gydF4y2Ba
10.1145 / 2658983gydF4y2Ba
2 - s2.0 - 84923585065gydF4y2Ba
[
]13gydF4y2Ba
巴巴罗gydF4y2Ba
M。gydF4y2Ba
西gydF4y2Ba
T。gydF4y2Ba
HansellgydF4y2Ba
年代。gydF4y2Ba
脸是AOL搜索者没有暴露。4417749gydF4y2Ba
2006年gydF4y2Ba
纽约,纽约,美国gydF4y2Ba
纽约时报gydF4y2Ba
[
]14gydF4y2Ba
ToubianagydF4y2Ba
V。gydF4y2Ba
萨勃拉曼尼亚gydF4y2Ba
lgydF4y2Ba
尼森鲍姆gydF4y2Ba
H。gydF4y2Ba
Trackmenot:提高网络搜索的隐私gydF4y2Ba
2011年gydF4y2Ba
https://arxiv.org/abs/1109.4677gydF4y2Ba
[
]15gydF4y2Ba
ArampatzisgydF4y2Ba
一个。gydF4y2Ba
DrosatosgydF4y2Ba
G。gydF4y2Ba
EfraimidisgydF4y2Ba
p S。gydF4y2Ba
通用查询争夺私人网络搜索gydF4y2Ba
信息检索期刊gydF4y2Ba
2015年gydF4y2Ba
18gydF4y2Ba
4gydF4y2Ba
331年gydF4y2Ba
358年gydF4y2Ba
10.1007 / s10791 - 015 - 9256 - 0gydF4y2Ba
2 - s2.0 - 84933180960gydF4y2Ba
[
]16gydF4y2Ba
DingledinegydF4y2Ba
R。gydF4y2Ba
马修森gydF4y2Ba
N。gydF4y2Ba
SyversongydF4y2Ba
P。gydF4y2Ba
Tor:第二代洋葱路由器gydF4y2Ba
2004年gydF4y2Ba
美国华盛顿特区gydF4y2Ba
海军研究实验室gydF4y2Ba
[
]17gydF4y2Ba
Romero-TrisgydF4y2Ba
C。gydF4y2Ba
Castella-RocagydF4y2Ba
J。gydF4y2Ba
桥gydF4y2Ba
一个。gydF4y2Ba
分布式系统的私人网络搜索与不受信任的合作伙伴gydF4y2Ba
计算机网络gydF4y2Ba
2014年gydF4y2Ba
67年gydF4y2Ba
26gydF4y2Ba
42gydF4y2Ba
10.1016 / j.comnet.2014.03.022gydF4y2Ba
2 - s2.0 - 84899012117gydF4y2Ba
[
]18gydF4y2Ba
Romero-TrisgydF4y2Ba
C。gydF4y2Ba
桥gydF4y2Ba
一个。gydF4y2Ba
Castella-RocagydF4y2Ba
J。gydF4y2Ba
多方保护隐私的网络搜索的方法:调查和贡献gydF4y2Ba
高级研究在数据隐私gydF4y2Ba
2015年gydF4y2Ba
柏林,德国gydF4y2Ba
施普林格gydF4y2Ba
367年gydF4y2Ba
387年gydF4y2Ba
[
]19gydF4y2Ba
斯托克斯gydF4y2Ba
K。gydF4y2Ba
Bras-AmorosgydF4y2Ba
M。gydF4y2Ba
最优配置对等用户私有信息检索gydF4y2Ba
计算机和数学与应用程序gydF4y2Ba
2010年gydF4y2Ba
59gydF4y2Ba
4gydF4y2Ba
1568年gydF4y2Ba
1577年gydF4y2Ba
10.1016 / j.camwa.2010.01.003gydF4y2Ba
2 - s2.0 - 75349093213gydF4y2Ba
[
]20.gydF4y2Ba
UllahgydF4y2Ba
M。gydF4y2Ba
伊斯兰教gydF4y2Ba
m·A。gydF4y2Ba
汗gydF4y2Ba
R。gydF4y2Ba
阿利gydF4y2Ba
M。gydF4y2Ba
伊克巴尔gydF4y2Ba
m·A。gydF4y2Ba
ObSecure日志(奥斯陆):一个框架来保护和评估网络搜索隐私在卫生保健领域gydF4y2Ba
医学成像和卫生信息学杂志》上gydF4y2Ba
2019年gydF4y2Ba
9gydF4y2Ba
6gydF4y2Ba
1181年gydF4y2Ba
1190年gydF4y2Ba
10.1166 / jmihi.2019.2708gydF4y2Ba
[
]21gydF4y2Ba
小gydF4y2Ba
一个。gydF4y2Ba
在当前网络搜索引擎引入隐私gydF4y2Ba
2017年gydF4y2Ba
法国里昂gydF4y2Ba
里昂大学gydF4y2Ba
[
]22gydF4y2Ba
维斯gydF4y2Ba
一个。gydF4y2Ba
负责人gydF4y2Ba
R。gydF4y2Ba
SinglagydF4y2Ba
一个。gydF4y2Ba
CapkungydF4y2Ba
年代。gydF4y2Ba
银行gydF4y2Ba
V。gydF4y2Ba
量化网络搜索隐私gydF4y2Ba
学报2014 ACM SIGSAC计算机和通信安全会议gydF4y2Ba
2014年11月gydF4y2Ba
美国亚利桑那州斯科茨代尔gydF4y2Ba
966年gydF4y2Ba
977年gydF4y2Ba
[
]23gydF4y2Ba
PeddintigydF4y2Ba
s T。gydF4y2Ba
SaxenagydF4y2Ba
N。gydF4y2Ba
隐私的网络搜索基于模糊查询:TrackMeNot的案例研究gydF4y2Ba
《隐私国际研讨会加强技术研讨会gydF4y2Ba
2010年7月gydF4y2Ba
柏林,德国gydF4y2Ba
19gydF4y2Ba
37gydF4y2Ba
[
]24gydF4y2Ba
PeddintigydF4y2Ba
s T。gydF4y2Ba
SaxenagydF4y2Ba
N。gydF4y2Ba
在web搜索隐私匿名化网络的有效性gydF4y2Ba
学报第六届ACM研讨会信息,计算机和通信安全gydF4y2Ba
2011年3月gydF4y2Ba
中国香港gydF4y2Ba
483年gydF4y2Ba
489年gydF4y2Ba
[
]25gydF4y2Ba
小gydF4y2Ba
一个。gydF4y2Ba
CerqueusgydF4y2Ba
T。gydF4y2Ba
BoutetgydF4y2Ba
一个。gydF4y2Ba
SimAttack:私人网络搜索下火gydF4y2Ba
《互联网服务和应用程序gydF4y2Ba
2016年gydF4y2Ba
7gydF4y2Ba
2gydF4y2Ba
10.1186 / s13174 - 016 - 0044 - xgydF4y2Ba
2 - s2.0 - 84964253412gydF4y2Ba
[
]26gydF4y2Ba
汗gydF4y2Ba
R。gydF4y2Ba
伊斯兰教gydF4y2Ba
m·A。gydF4y2Ba
量化的PIR协议隐私gydF4y2Ba
学报2017年国际会议上沟通,计算和数字系统(c代码)gydF4y2Ba
2017年3月gydF4y2Ba
巴基斯坦,伊斯兰堡gydF4y2Ba
90年gydF4y2Ba
95年gydF4y2Ba
[
]27gydF4y2Ba
汗gydF4y2Ba
R。gydF4y2Ba
UllahgydF4y2Ba
M。gydF4y2Ba
伊斯兰教gydF4y2Ba
m·A。gydF4y2Ba
揭示pir协议保护用户gydF4y2Ba
学报2016年第六次国际会议上创新计算技术INTECH(的哲理)gydF4y2Ba
2016年8月gydF4y2Ba
爱尔兰都柏林gydF4y2Ba
535年gydF4y2Ba
541年gydF4y2Ba
[
]28gydF4y2Ba
昆兰gydF4y2Ba
j . R。gydF4y2Ba
C4。5:机器学习项目gydF4y2Ba
2014年gydF4y2Ba
荷兰阿姆斯特丹gydF4y2Ba
爱思唯尔gydF4y2Ba
[
]29日gydF4y2Ba
后备军人gydF4y2Ba
N。gydF4y2Ba
大厅gydF4y2Ba
M。gydF4y2Ba
弗兰克gydF4y2Ba
E。gydF4y2Ba
物流模型树gydF4y2Ba
机器学习gydF4y2Ba
2005年gydF4y2Ba
59gydF4y2Ba
1 - 2gydF4y2Ba
161年gydF4y2Ba
205年gydF4y2Ba
10.1007 / s10994 - 005 - 0466 - 3gydF4y2Ba
2 - s2.0 - 21244500957gydF4y2Ba
[
]30.gydF4y2Ba
KohavigydF4y2Ba
R。gydF4y2Ba
决策表的力量gydF4y2Ba
《欧洲机器学习会议gydF4y2Ba
1995年4月gydF4y2Ba
Heraclion,希腊gydF4y2Ba
174年gydF4y2Ba
189年gydF4y2Ba
[
]31日gydF4y2Ba
科恩gydF4y2Ba
W·W。gydF4y2Ba
快速有效的规则归纳gydF4y2Ba
1995年机器学习程序gydF4y2Ba
1995年gydF4y2Ba
荷兰阿姆斯特丹gydF4y2Ba
爱思唯尔gydF4y2Ba
115年gydF4y2Ba
123年gydF4y2Ba
[
]32gydF4y2Ba
HoltegydF4y2Ba
r . C。gydF4y2Ba
很简单的分类规则执行最常用的数据集gydF4y2Ba
机器学习gydF4y2Ba
1993年gydF4y2Ba
11gydF4y2Ba
1gydF4y2Ba
63年gydF4y2Ba
90年gydF4y2Ba
10.1023 /:1022631118932gydF4y2Ba
2 - s2.0 - 0027580356gydF4y2Ba
[
]33gydF4y2Ba
啊哈gydF4y2Ba
d . W。gydF4y2Ba
KiblergydF4y2Ba
D。gydF4y2Ba
艾伯特gydF4y2Ba
m·K。gydF4y2Ba
基于实例的学习算法gydF4y2Ba
机器学习gydF4y2Ba
1991年gydF4y2Ba
6gydF4y2Ba
1gydF4y2Ba
37gydF4y2Ba
66年gydF4y2Ba
10.1023 /:1022689900470gydF4y2Ba
2 - s2.0 - 0025725905gydF4y2Ba
[
]34gydF4y2Ba
佳利律师事务所gydF4y2Ba
j·G。gydF4y2Ba
组织gydF4y2Ba
l E。gydF4y2Ba
K∗:一个基于实例的学习者使用的距离测量gydF4y2Ba
1995年机器学习程序gydF4y2Ba
1995年gydF4y2Ba
荷兰阿姆斯特丹gydF4y2Ba
爱思唯尔gydF4y2Ba
108年gydF4y2Ba
114年gydF4y2Ba
[
]35gydF4y2Ba
BreimangydF4y2Ba
lgydF4y2Ba
装袋预测gydF4y2Ba
机器学习gydF4y2Ba
1996年gydF4y2Ba
24gydF4y2Ba
2gydF4y2Ba
123年gydF4y2Ba
140年gydF4y2Ba
10.1023 /:1018054314350gydF4y2Ba
[
]36gydF4y2Ba
弗兰克gydF4y2Ba
E。gydF4y2Ba
大厅gydF4y2Ba
M。gydF4y2Ba
福尔摩斯gydF4y2Ba
G。gydF4y2Ba
Weka-a机器学习数据挖掘的工作台gydF4y2Ba
数据挖掘和知识发现手册gydF4y2Ba
2009年gydF4y2Ba
柏林,德国gydF4y2Ba
施普林格gydF4y2Ba
1269年gydF4y2Ba
1277年gydF4y2Ba
[
]37gydF4y2Ba
弗里德曼gydF4y2Ba
N。gydF4y2Ba
盖革gydF4y2Ba
D。gydF4y2Ba
GoldszmidtgydF4y2Ba
M。gydF4y2Ba
贝叶斯网络分类器gydF4y2Ba
机器学习gydF4y2Ba
1997年gydF4y2Ba
29日gydF4y2Ba
2/3gydF4y2Ba
131年gydF4y2Ba
163年gydF4y2Ba
10.1023 /:1007465528199gydF4y2Ba
[
]38gydF4y2Ba
闵毅达gydF4y2Ba
N。gydF4y2Ba
辛格gydF4y2Ba
V。gydF4y2Ba
电子商务产品的分类使用RepTree和k - means混合方法gydF4y2Ba
大数据分析gydF4y2Ba
2018年gydF4y2Ba
柏林,德国gydF4y2Ba
施普林格gydF4y2Ba
265年gydF4y2Ba
273年gydF4y2Ba