raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

SPgydF4y2Ba

科学的规划gydF4y2Ba

1875 - 919 xgydF4y2Ba 1058 - 9244gydF4y2Ba

HindawigydF4y2Ba

10.1155 / 2020/8868686gydF4y2Ba

8868686gydF4y2Ba

研究文章gydF4y2Ba

PIR QuPiD攻击:基于机器学习隐私量化机制协议中与健康有关的网络搜索gydF4y2Ba

汗gydF4y2Ba

RafiullahgydF4y2Ba

^1gydF4y2Ba ^2gydF4y2Ba

https://orcid.org/0000 - 0002 - 3576 - 8365gydF4y2Ba

艾哈迈德gydF4y2Ba

艾尔沙德gydF4y2Ba

^3gydF4y2Ba AlsayedgydF4y2Ba

Alhuseen奥马尔gydF4y2Ba

^4gydF4y2Ba BinsawadgydF4y2Ba

默罕默德gydF4y2Ba

^5gydF4y2Ba 伊斯兰教gydF4y2Ba

默罕默德艾尔沙德gydF4y2Ba

^6gydF4y2Ba UllahgydF4y2Ba

MohibgydF4y2Ba

^1gydF4y2Ba ^2gydF4y2Ba :gydF4y2Ba

Rodziah宾蒂gydF4y2Ba

^1gydF4y2Ba

计算机科学与信息技术学院gydF4y2Ba

农业大学的gydF4y2Ba

白沙瓦gydF4y2Ba

巴基斯坦gydF4y2Ba

aup.edu.pkgydF4y2Ba

^2gydF4y2Ba

首都科技大学gydF4y2Ba

伊斯兰堡gydF4y2Ba

巴基斯坦gydF4y2Ba

cust.edu.pkgydF4y2Ba

^3gydF4y2Ba

计算机科学部门gydF4y2Ba

大学15gydF4y2Ba

安巴尔省gydF4y2Ba

巴基斯坦gydF4y2Ba

uoswabi.edu.pkgydF4y2Ba

^4gydF4y2Ba

科研院长职gydF4y2Ba

阿卜杜勒阿齐兹国王大学吉达gydF4y2Ba

吉达gydF4y2Ba

沙特阿拉伯gydF4y2Ba

kau.edu.sagydF4y2Ba

^5gydF4y2Ba

教师的计算机信息系统gydF4y2Ba

阿卜杜勒阿齐兹国王大学吉达gydF4y2Ba

吉达gydF4y2Ba

沙特阿拉伯gydF4y2Ba

kau.edu.sagydF4y2Ba

^6gydF4y2Ba

国立大学计算机和新兴的科学gydF4y2Ba

伊斯兰堡gydF4y2Ba

巴基斯坦gydF4y2Ba

nu.edu.pkgydF4y2Ba

2020年gydF4y2Ba

14gydF4y2Ba 7gydF4y2Ba 2020年gydF4y2Ba

2020年gydF4y2Ba 16gydF4y2Ba 03gydF4y2Ba 2020年gydF4y2Ba 22gydF4y2Ba 04gydF4y2Ba 2020年gydF4y2Ba 14gydF4y2Ba 7gydF4y2Ba 2020年gydF4y2Ba

2020年gydF4y2Ba

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

随着信息通信技术的进步,网络搜索引擎已经成为首选源找到在互联网上发表的与健康有关的信息。谷歌仅接收超过十亿健康每天查询。然而,为了向用户提供最相关的结果,ws维护用户的配置文件。这些配置文件可能包含私有和敏感的信息,如用户的健康状况、疾病状态,和其他人。与健康有关的查询包含隐私信息可能侵犯用户的隐私,用户的身份暴露,可能被滥用的WSE和第三方。这引发了严重关切的问题从一个用户的身份暴露,可能被第三方滥用。一个知名的解决方案来保护隐私涉及发行通过点对点私人信息的查询检索协议,如无用的用户配置文件(北爱尔兰统一党,从而隐藏WSE的用户的身份。探讨统一党所提供的保护水平。为此,我们提出QuPiD(查询档案距离)攻击:基于机器学习攻击评估统一党在隐私保护的有效性。QuPiD攻击之间的距离决定了用户的概要文件(web搜索历史)和即将到来的查询使用我们提出新颖的特征向量。 The experiments were conducted using ten classification algorithms belonging to the tree-based, rule-based, lazy learner, metaheuristic, and Bayesian families for the sake of comparison. Furthermore, two subsets of an America Online dataset (noisy and clean datasets) were used for experimentation. The results show that the proposed QuPiD attack associates more than 70% queries to the correct user with a precision of over 72% for the clean dataset, while for the noisy dataset, the proposed QuPiD attack associates more than 40% queries to the correct user with 70% precision.

阿卜杜勒阿齐兹国王大学gydF4y2Ba

1。介绍gydF4y2Ba

目前,网络搜索引擎(ws)已成为首选方法找到医疗卫生相关的内容在万维网上。最近的一项调查报告称,超过80%的患者使用WSE寻求健康信息之前咨询医生(gydF4y2Ba 1gydF4y2Ba),根据皮尤研究中心发布的报告,35%的美国成年人咨询WSE诊断医疗条件(gydF4y2Ba 2gydF4y2Ba]。然而,尽管使用网络搜索的服务,用户通常发布他们的身体状况和健康信息查询(gydF4y2Ba 3gydF4y2Ba]。网络搜索引擎声称他们收集和维护用户查询结果等各种活动的用户配置文件(排名gydF4y2Ba 4gydF4y2Ba),市场调研gydF4y2Ba 3gydF4y2Ba),个性化gydF4y2Ba 5gydF4y2Ba[],有针对性的广告gydF4y2Ba 6gydF4y2Ba),和其他人。从好的方面来说,维护用户概要文件可以提高结果的质量和用户体验,而在黑暗方面,这个不加选择地收集用户的查询可能会导致关键隐私侵犯用户的查询可能包含敏感和个人信息(gydF4y2Ba 7gydF4y2Ba]。这个问题的用户隐私违反引起相当大的关注是在2005年,当时美国司法部迫使谷歌提交记录用户的查询(gydF4y2Ba 8gydF4y2Ba]。后来,美国在线(AOL) (pseudonymized) 2000万年发布超过650000用户提交的查询三个月的时间gydF4y2Ba 9gydF4y2Ba),一些用户的身份已经推断出通过个人信息包含在他们的查询gydF4y2Ba 10gydF4y2Ba]。gydF4y2Ba

病人的健康信息自古以来被认为是一个敏感的问题,也反映在希波克拉底誓言(gydF4y2Ba 11gydF4y2Ba分泌),医生会让病人的信息(gydF4y2Ba 12gydF4y2Ba]。然而,在网络和公共卫生设施服务,用户隐私就成为行为跟踪(gydF4y2Ba 12gydF4y2Ba]。考虑这样一个场景,当一个用户发布的一系列私人查询与他/她的健康状况有关,如“艾滋病”或“糖尿病。“华沙证交所可能出售这些信息广告机构或其他公司的商业目的,最终侵犯用户的隐私(gydF4y2Ba 3gydF4y2Ba]。这样的隐私披露发生在2006年,《纽约时报》成功地演绎和推断个人信息从搜索历史pseudonymized日志发表的美国在线(AOL)。其中之一是一个62岁的寡妇了数以百计的搜索有关她的健康状况,如“手颤抖,口干,”和“尼古丁对身体的影响“链接回到她的gydF4y2Ba 13gydF4y2Ba]。gydF4y2Ba

侵犯隐私的解决这一问题,提出了几种方法。这些方法包括用户配置文件混淆gydF4y2Ba 14gydF4y2Ba),查询匆忙(gydF4y2Ba 15gydF4y2Ba),匿名的网络(gydF4y2Ba 16gydF4y2Ba),和私人信息检索(PIR)协议gydF4y2Ba 17gydF4y2Ba- - - - - -gydF4y2Ba 20.gydF4y2Ba]。在用户配置文件混淆,用户配置文件含有虚假误导WSE查询。查询中扰码技术,用户查询被一组模糊和良性的同义词和后发布到华沙证交所。基于匿名的网络技术提出了用户查询通过一系列的路由器让WSE很难跟踪查询的起源。这些方法隐藏IP地址,而用户通过cookie和设备仍可追踪的指纹(gydF4y2Ba 21gydF4y2Ba]。在PIR协议,一组用户提交查询代表彼此隐藏自己的身份。gydF4y2Ba

尽管上述方法改善用户隐私,然而,一些以往的研究(gydF4y2Ba 22gydF4y2Ba- - - - - -gydF4y2Ba 25gydF4y2Ba使用机器学习算法和用户配置文件(即。,u年代erh我年代tory or logged user queries) show that an adversary is able to break profile obfuscation and anonymizing network methods. However, it is not clear if an adversary is able to break PIR protocols using machine learning techniques. Therefore, in this research, we propose a machine learning-based attack in order to evaluate the effectiveness of popular PIR protocol, i.e., useless user profile (UUP) [ 17gydF4y2Ba,gydF4y2Ba 18gydF4y2Ba]。gydF4y2Ba

这项工作的一个更高层次的目标是分析PIR协议在保护用户隐私的有效性对不利WSE(从这里开始,我们将调用PIR协议或者表现为简单起见不失一般性)。在或者一组用户相互交流他们的查询方式,查询发起者的身份节点仍然隐藏在另一组的伴侣。在下一步中,所有小组成员向华沙证交所提交收到查询和结果中播放。WSE方面,收到用户的查询在纯文本,但用不同的身份,因此WSE不能确定查询的发起者。我们着手调查是否有可能(和在多大程度上)的不良WSE-equipped与用户的网络搜索概要文件(历史)——将查询出来的统一党退出用户链接到原始的用户,从而破坏统一党所提供的隐私。gydF4y2Ba

为了更好地理解的局限性统一党在用户的隐私,我们提出本文的研究或者关注活跃用户。本研究对QuPiD攻击,基于机器学习攻击决定之间的距离和查询用户的概要文件。我们进行了实验与随机选择的100活跃用户公开的美国在线(AOL)的数据集,把他们当统一党的用户。美国在线数据集是由超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。前两个月的数据作为训练数据,上月数据作为测试数据。我们测量的效率攻击使用机器学习一些已知矩阵:精度,还记得,F-measure,真阳性率。结果表明,我们建议的QuPiD攻击将超过70%的查询到正确的用户与超过72%的精度。根据结果,我们可以得出结论,大多数用户很容易受到隐私侵权使用统一党尽管。这项工作的贡献如下:gydF4y2Ba (1)gydF4y2Ba

提出QuPiD攻击:一个基于机器学习为隐私评估PIR协议攻击gydF4y2Ba

(2)gydF4y2Ba

提出新的查询向量分类gydF4y2Ba

(3)gydF4y2Ba

推荐合适的机器学习算法的查询分类gydF4y2Ba

本文的其余部分组织如下:在部分gydF4y2Ba 2gydF4y2Ba,我们将描述该QuPiD攻击。实验设置,数据的预处理,特征向量构造和分类算法进行了部分gydF4y2Ba 3gydF4y2Ba。部分gydF4y2Ba 4gydF4y2Ba给出了实验结果。部分gydF4y2Ba 5gydF4y2Ba给出了结论,并概述了未来工作的方向。gydF4y2Ba

2。不良模型和QuPiD攻击gydF4y2Ba

用户更关心的隐私风险查询ws。在这项工作中,我们研究了受欢迎的PIR协议的健壮性,也就是。,统一党。如前所述,WSE接收用户的查询使用不同的身份由于洗牌的过程。因此,查询的条目不会出现真正的发起者weblog。然而,这个协议的弱点是由所有小组成员查询提交的时间。查询洗牌后一步,每一个小组成员将收到查询提交给WSE几乎在同一时间。由于他们的weblog条目出现互相接近。图gydF4y2Ba 1gydF4y2Ba说明了博客查询条目的一个例子。在图gydF4y2Ba 1gydF4y2Ba之前,表现出1显示了用户的查询洗牌过程,并同时展示2显示了洗牌后的查询过程。洗牌后,查询提交给WSE(图gydF4y2Ba 1gydF4y2Ba,表3)。gydF4y2Ba

图1gydF4y2Ba

在博客和会话窗口查询条目。gydF4y2Ba

在拟议的不良模型中,WSE被认为是一个实体,其目标是对保护隐私的解决方案并确定感兴趣的用户(UoI)查询分析的目的。假设WSE配备了用户的搜索历史记录(即。用户配置文件)聚氨酯。用户配置文件包含用户提交的查询过去不使用任何统一党协议方程所示(gydF4y2Ba 1gydF4y2Ba)(gydF4y2Ba PgydF4y2Ba_问gydF4y2Ba 我gydF4y2Ba显示查询的UoI概要文件)。gydF4y2Ba (1)gydF4y2Ba 聚氨酯gydF4y2Ba =gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba ngydF4y2Ba 。gydF4y2Ba

用户配置文件使用聚氨酯作为构建分类模型的训练数据。用于实验的数据集是分布在三个月的时间,第一个两个月的数据作为训练集,而北爱尔兰统一党协议与第三个月模拟数据来创建一个匿名日志(如图gydF4y2Ba 1gydF4y2Ba,表3)。匿名日志作为测试集,测试所有会话窗口的UoI从查询日志。会话窗口是一块记录(日志查询条目)在一个匿名的UoI日志包含条目,但与另一个用户(gydF4y2Ba 26gydF4y2Ba,gydF4y2Ba 27gydF4y2Ba]。换句话说,会话窗口由所选号码查询的条目WSE查询日志,前后出现的UoI的查询。如图gydF4y2Ba 1gydF4y2Ba(表4),我们的UoI是“用户3”和会话窗口大小是15记录(记录之前的UoI和7之后的UoI 7日)。对于这个研究,我们使用251条记录的窗口大小。每个会话窗口(gydF4y2Ba 年代gydF4y2Ba_{赢得gydF4y2Ba})是由125查询出现之前和125查询查询后出现的UoI(根据的建议gydF4y2Ba 27gydF4y2Ba])。一个通用的会话窗口gydF4y2Ba 年代gydF4y2Ba_{赢得gydF4y2Ba}方程所示(gydF4y2Ba 2gydF4y2Ba)(gydF4y2Ba 问gydF4y2Ba_我gydF4y2Ba代表一个查询在会话窗口中)。所有会话窗口GS的集合gydF4y2Ba_{赢得gydF4y2Ba}方程所示(gydF4y2Ba 3gydF4y2Ba)。gydF4y2Ba (2)gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba =gydF4y2Ba 问gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 125年gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba UoIgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 126年gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 251年gydF4y2Ba ,gydF4y2Ba (3)gydF4y2Ba GSgydF4y2Ba 赢得gydF4y2Ba =gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba ngydF4y2Ba 。gydF4y2Ba

所示的查询日志,目标用户使用任何PIR协议仍将隐藏由于他/她查询的查询交换另一个用户。因此,一个会话窗口是用来减少测试数据。聚氨酯(训练集)和ggydF4y2Ba_{赢得gydF4y2Ba}(测试集)作为输入使用不良的算法模型。不良的工作模式提出了算法gydF4y2Ba 1gydF4y2Ba和图中所示gydF4y2Ba 2gydF4y2Ba。算法的工作如下:gydF4y2Ba

<大胆>算法1:< /大胆>将传入的查询用户使用之前的概要文件。gydF4y2Ba

输入:gydF4y2Ba用户配置文件(PU);所有会话窗口属于用户(gydF4y2Ba GSgydF4y2Ba 赢得gydF4y2Ba )。gydF4y2Ba

输出:gydF4y2Ba预期的用户标签(陆)gydF4y2Ba

(1)gydF4y2Ba

过程gydF4y2Ba查询协会(PU、gydF4y2Ba GSgydF4y2Ba 赢得gydF4y2Ba )gydF4y2Ba

(2)gydF4y2Ba

为gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba 聚氨酯gydF4y2Ba 做gydF4y2Ba

(3)gydF4y2Ba

聚氨酯gydF4y2Ba vgydF4y2Ba ⟵gydF4y2Ba ggydF4y2Ba egydF4y2Ba tgydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba vgydF4y2Ba egydF4y2Ba cgydF4y2Ba tgydF4y2Ba ogydF4y2Ba rgydF4y2Ba fgydF4y2Ba ogydF4y2Ba rgydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba

(4)gydF4y2Ba

PgydF4y2Ba 模型gydF4y2Ba ⟵gydF4y2Ba CgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba ggydF4y2Ba ogydF4y2Ba rgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba hgydF4y2Ba 米gydF4y2Ba 聚氨酯gydF4y2Ba vgydF4y2Ba

(5)gydF4y2Ba

为gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba GSgydF4y2Ba 赢得gydF4y2Ba 做gydF4y2Ba

(6)gydF4y2Ba

为gydF4y2Ba 问gydF4y2Ba kgydF4y2Ba ∈gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba jgydF4y2Ba 做gydF4y2Ba

(7)gydF4y2Ba

问gydF4y2Ba kgydF4y2Ba vgydF4y2Ba ⟵gydF4y2Ba ggydF4y2Ba egydF4y2Ba tgydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba VgydF4y2Ba egydF4y2Ba cgydF4y2Ba tgydF4y2Ba ogydF4y2Ba rgydF4y2Ba fgydF4y2Ba ogydF4y2Ba rgydF4y2Ba 问gydF4y2Ba kgydF4y2Ba

(8)gydF4y2Ba

陆gydF4y2Ba ⟵gydF4y2Ba PgydF4y2Ba 模型gydF4y2Ba 问gydF4y2Ba kgydF4y2Ba vgydF4y2Ba

(9)gydF4y2Ba

返回gydF4y2Ba 陆gydF4y2Ba

(1)gydF4y2Ba

首先,用户配置文件(PU)特征向量是获得用于训练目的。特征向量的用户配置文件(gydF4y2Ba 聚氨酯gydF4y2Ba vgydF4y2Ba )所示方程(gydF4y2Ba 4gydF4y2Ba)。从uClassify(获得的特征向量是gydF4y2Ba http://www.uclassify.comgydF4y2Ba)服务,机器学习的web服务,它提供了很多不同的用于文本分类的分类器。我们选择了“主题”分类器,每个短语或查询的分数在10个主要课程包括体育,社会,科学,娱乐,家庭,健康,游戏,电脑,商业,和艺术。gydF4y2Ba

(2)gydF4y2Ba

在第二步中,分类模型gydF4y2Ba PgydF4y2Ba_{模型gydF4y2Ba}是使用gydF4y2Ba 聚氨酯gydF4y2Ba vgydF4y2Ba 和监督的机器学习算法。测试数据的响应不同的分类技术,10从树分类算法选择,基于规则的,懒惰的学习者,metaheuristic,贝叶斯的家庭。gydF4y2Ba

(3)gydF4y2Ba

在分类模型(gydF4y2Ba PgydF4y2Ba_{模型gydF4y2Ba}),第三步是获得特征向量gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba vgydF4y2Ba 所示的方程(gydF4y2Ba 5gydF4y2Ba)的查询会话窗口gydF4y2Ba 年代gydF4y2Ba_{赢得gydF4y2Ba}从uClassify测试数据。gydF4y2Ba

(4)gydF4y2Ba

在最后一步中,每个查询的gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba vgydF4y2Ba 提供预期的标签的分类模型。陆的标签显示是否属于UoI传入的查询。gydF4y2Ba

(4)gydF4y2Ba 聚氨酯gydF4y2Ba vgydF4y2Ba =gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 1gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 2gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba 3gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba PgydF4y2Ba 问gydF4y2Ba ngydF4y2Ba vgydF4y2Ba ,gydF4y2Ba (5)gydF4y2Ba 年代gydF4y2Ba 赢得gydF4y2Ba vgydF4y2Ba =gydF4y2Ba 问gydF4y2Ba 1gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 2gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 3gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 125年gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba UoIgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 126年gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 251年gydF4y2Ba vgydF4y2Ba 。gydF4y2Ba

图2gydF4y2Ba

操作的逆模型。gydF4y2Ba

实验目的,两个子集AOL的100用户创建数据集组成一个三个月的网络在线用户的查询日志。每个子集被分为两个部分,即。、训练和测试数据。训练数据是由前两个月的日志,而测试数据由上个月的日志。用户选择标准的细节和数据集的形成进行了部分gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

3所示。方法gydF4y2Ba 3.1。美国在线数据集gydF4y2Ba

我们使用了真实的网页搜索查询日志发布的美国在线(AOL)在2006年提出了不良的评价模型。美国在线数据集包括超过2000万个查询提交3月1日期间2006年5月31日,2006年,650万个用户。美国在线数据集虽然老了,有很多不足与当前形势下,我们被迫使用这个数据集由于缺乏基准数据集的可用性。的属性查询日志的用户ID,查询,查询的日期和时间,内容的排名点击,点击URL。试验的目的,前两个月的数据被用作用户概要(PU)或训练数据在三个月的数据的新查询分类(即。、测试数据)。每个用户的查询数量的分布在选定数据集如图gydF4y2Ba 3gydF4y2Ba。试验中,我们选择100用户查询频率高,而不是专注于所有用户。用户选择标准中讨论部分gydF4y2Ba 3.3gydF4y2Ba,总结在表提供的数据集gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

图3gydF4y2Ba

分布的数量每用户查询所选择的数据集。gydF4y2Ba

表1gydF4y2Ba

美国在线数据集属性。gydF4y2Ba

总查询gydF4y2Ba	36389567年gydF4y2Ba
总用户gydF4y2Ba	657426年gydF4y2Ba
独特的查询gydF4y2Ba	10154742年gydF4y2Ba
属性gydF4y2Ba	5 (AnonID、查询、查询时间,物品等级,点击网址)gydF4y2Ba
时间gydF4y2Ba	2006年3月01 - 5月31日,2006年gydF4y2Ba

3.2。特征向量提取gydF4y2Ba

数据集是由五个属性:用户ID、查询,查询的日期和时间,内容的排名点击,点击URL。因为我们的不良模式与用户ID,提交查询,在十大主题和查询成绩,我们忽略了剩余的特性。获取查询分数十大课程,我们使用uClassify服务为主题提供了分类器,年龄、性别、情绪、语言检测,和许多其他人。本文的主题分类器是使用,它提供了对每个查询10个类别的数字值。主题分类器使用一个子集的话题开的目录工程(ODP)目录主题放置在一个层次结构。类艺术、商业、电脑、游戏、健康、家庭、娱乐、科学、社会、和运动。分类器提供了每个查询的比例在每个类别。例如,对于查询“橄榄油”,分数为每个主题表所示gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

表2gydF4y2Ba

从uClassify查询的分数。gydF4y2Ba

查询gydF4y2Ba	艺术gydF4y2Ba	业务gydF4y2Ba	电脑gydF4y2Ba	游戏gydF4y2Ba	健康gydF4y2Ba	家gydF4y2Ba	娱乐gydF4y2Ba	科学gydF4y2Ba	社会gydF4y2Ba	体育gydF4y2Ba
橄榄油gydF4y2Ba	0.0386gydF4y2Ba	0.0974gydF4y2Ba	0.0280gydF4y2Ba	0.0396gydF4y2Ba	0.0569gydF4y2Ba	0.4659gydF4y2Ba	0.0652gydF4y2Ba	0.1028gydF4y2Ba	0.0874gydF4y2Ba	0.0182gydF4y2Ba
Glenliviet 18gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba	0.1gydF4y2Ba

在某些情况下,uClassify无法找到得分的主要主题提交查询。例如,uClassify无法找到查询的统治阶级“glenliviet 18。“因此,在这种情况下,uClassify划分一个相等的分数在每个类,即。为每个类,10%。我们称这类查询的查询“困惑”(见表gydF4y2Ba 2gydF4y2Ba)。选择数据集的100用户,uClassify标志着28%的查询为查询的混淆。因此,我们进行了实验使用两个数据集。困惑和unconfused组成的一个数据集是查询,而另一个数据集是由只有unconfused查询找到混淆的影响查询的结果分类器。从这一点开始,困惑的数据集查询将被称为嘈杂的数据集,数据集只有unconfused查询将被称为清洁数据集。这两个数据集的详细信息表gydF4y2Ba 3gydF4y2Ba。gydF4y2Ba

表3gydF4y2Ba

嘈杂的和干净的数据集的属性。gydF4y2Ba

属性gydF4y2Ba	嘈杂的数据集gydF4y2Ba	干净的数据集gydF4y2Ba
训练实例gydF4y2Ba	116101年gydF4y2Ba	71817年gydF4y2Ba
测试实例gydF4y2Ba	59809年gydF4y2Ba	36998年gydF4y2Ba
总实例gydF4y2Ba	175911年gydF4y2Ba	108815年gydF4y2Ba
最大单用户查询gydF4y2Ba	2975年gydF4y2Ba	1788年gydF4y2Ba
最小的单用户查询gydF4y2Ba	567年gydF4y2Ba	365年gydF4y2Ba
不同的查询gydF4y2Ba	69164年gydF4y2Ba	49662年gydF4y2Ba

3.3。用户选择和建设子集gydF4y2Ba

而不是使用所有用户进行实验,我们专注于几个用户被认为是活跃。活跃用户是那些用户提交了300多件查询整个期间至少61天。从数据集的分析,我们发现只有21407人(3.29%)用户活跃用户。从那些活跃用户,我们随机选择的UoI 100用户。查询的累积分布在嘈杂的和干净的数据集如图gydF4y2Ba 4gydF4y2Ba。看到训练数据的大小的影响,我们把噪声和干净的数据集分成五组基于查询的平均频率。选中的100用户数据集分成5组。总额的平均数、培训和测试实例表中给出了数据集的所有组gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

图4gydF4y2Ba

用户提交的查询的数量分布在清洁和嘈杂的数据集。gydF4y2Ba

表4gydF4y2Ba

平均数据集实例(查询)。gydF4y2Ba

数据集gydF4y2Ba	集团gydF4y2Ba	全部的数据gydF4y2Ba	训练数据gydF4y2Ba	测试数据gydF4y2Ba
嘈杂的gydF4y2Ba	组1gydF4y2Ba	777.55gydF4y2Ba	513.183gydF4y2Ba	264.37gydF4y2Ba
	组2gydF4y2Ba	1215.15gydF4y2Ba	801.99gydF4y2Ba	413.15gydF4y2Ba
	组3gydF4y2Ba	1752.45gydF4y2Ba	1156.62gydF4y2Ba	595.833gydF4y2Ba
	组4gydF4y2Ba	2332.1gydF4y2Ba	1539.18gydF4y2Ba	792.91gydF4y2Ba
	组5gydF4y2Ba	2718.3gydF4y2Ba	1794.08gydF4y2Ba	924.22gydF4y2Ba

清洁gydF4y2Ba	组1gydF4y2Ba	509.55gydF4y2Ba	336.30gydF4y2Ba	173.25gydF4y2Ba
	组2gydF4y2Ba	820.95gydF4y2Ba	541.83gydF4y2Ba	279.12gydF4y2Ba
	组3gydF4y2Ba	1132年gydF4y2Ba	747.12gydF4y2Ba	384.88gydF4y2Ba
	组4gydF4y2Ba	1367年gydF4y2Ba	902.22gydF4y2Ba	464.78gydF4y2Ba
	组5gydF4y2Ba	1611.25gydF4y2Ba	1063.43gydF4y2Ba	547.83gydF4y2Ba

3.4。匿名登录创建gydF4y2Ba

正如前面提到的,美国在线的数据跨越三个月。为实验目的,我们已经考虑了前两个月的数据,可用干净的UoI历史搜索引擎和上个月的数据作为新的查询分类。选中的PIR协议,即。,(UUP) is simulated with the third month’s query log to create the anonymized log of UoI. The parameters considered for simulations are group size and the number of queries submitted by the respective users. According to the literature, UUP is tested with a group size of 3, 4, 5, and 10 users [ 17gydF4y2Ba,gydF4y2Ba 18gydF4y2Ba]。另一项研究表明,一个更大的团体大小提供了更多的隐私(gydF4y2Ba 27gydF4y2Ba]。因此,我们认为一组20个用户的大小。目标用户提交的查询的数量取决于实际的查询频率所选用户的第三个月查询日志。gydF4y2Ba

3.5。分类算法gydF4y2Ba

在一些先前的研究,Peddinti et al。gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 24gydF4y2Ba和小gydF4y2Ba 21gydF4y2Ba]使用随机森林,广告树,0 R,回归和支持向量机算法对数据的分类查询。在这两个研究,biclass分类模型,即。机或用户生成,查询。此外,模型建立了基于两个属性查询和分配标签。然而,在我们的工作,多类分类模型,即,我nthete年代ting data, the model will decide which query belongs to which user and the model is based on twelve attributes (discussed in Section 3.2gydF4y2Ba)。我们选择十个现成的(默认设置)不同家庭的分类算法。我们选择J48 [gydF4y2Ba 28gydF4y2Ba)和物流模式树(牵头)gydF4y2Ba 29日gydF4y2Ba从基于树的家庭,决策表(gydF4y2Ba 30.gydF4y2Ba],JRip [gydF4y2Ba 31日gydF4y2Ba),和猛烈的一击gydF4y2Ba 32gydF4y2Ba从基于规则的家庭,IBK [gydF4y2Ba 33gydF4y2Ba]和KStar [gydF4y2Ba 34gydF4y2Ba从懒惰的学生家庭,装袋(gydF4y2Ba 35gydF4y2Ba]和LogitBoost [gydF4y2Ba 36gydF4y2Ba从metaheuristic家庭,和贝叶斯网gydF4y2Ba 37gydF4y2Ba从贝叶斯的家庭。代表树(gydF4y2Ba 38gydF4y2Ba)和回归用作装袋和LogitBoost基分类器算法。gydF4y2Ba

3.6。绩效评价指标gydF4y2Ba

三个指标、精度、召回和F-measure,通常用来评估分类器的性能。精度是多少确定样品是正确的和回忆描述有多少总样本的正确识别。精度和回忆都是数学中表示以下方程:gydF4y2Ba (6)gydF4y2Ba 精度gydF4y2Ba =gydF4y2Ba 真阳性gydF4y2Ba 真阳性gydF4y2Ba +gydF4y2Ba 假阳性gydF4y2Ba ,gydF4y2Ba (7)gydF4y2Ba 回忆gydF4y2Ba =gydF4y2Ba 真阳性gydF4y2Ba 真阳性gydF4y2Ba +gydF4y2Ba 假阴性gydF4y2Ba ,gydF4y2Ba 其中真阳性表示实际积极正确地确定情况下的分类器和假阳性是所有底片的比例仍然会产生积极的测试结果,而假阴性代表的比例正收益率负面测试结果与测试。之间的权衡精度和召回是由一个统一的度量称为F-measure。F-measure的值的范围从0到1,0表示没有样本正确分类,而1展示了完美的分类。数学上,F-measure表示为gydF4y2Ba (8)gydF4y2Ba FgydF4y2Ba −gydF4y2Ba 测量gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba 精度gydF4y2Ba ×gydF4y2Ba 回忆gydF4y2Ba 精度gydF4y2Ba +gydF4y2Ba 回忆gydF4y2Ba 。gydF4y2Ba

4所示。结果与讨论gydF4y2Ba

本研究的主要目的是提出和评估一个隐私量化模型PIR协议。实验用两个数据集执行:噪声和清洁(部分gydF4y2Ba 3.3gydF4y2Ba),每组由100用户变量查询频率分布在五组。对于每个UoI,我们测量精度,还记得,从一个匿名和真阳性比例的正确分类查询日志。gydF4y2Ba

表gydF4y2Ba 5gydF4y2Ba和gydF4y2Ba 6gydF4y2Ba说明了真阳性百分比的查询gydF4y2Ba UoIgydF4y2Ba在这两个数据集。根据表gydF4y2Ba 5gydF4y2Ba,所有算法正确识别89%以上查询2的用户除了专家和LogitBoost嘈杂的数据集。专家正确识别80%到90% 4用户的查询。总的来说,IBK正确识别50%以上查询的36个用户随后装袋和KStar 30和28个用户,分别在嘈杂的数据集。同样,在干净的数据集,以前和韩国中小企业银行能够正确识别14 89%以上查询用户J48和装袋与12个用户。总的来说,IBK正确识别50%以上查询所有100个用户的KStar和装袋与96年和92年用户在干净的数据集。所有算法的详细性能(真阳性的比率)的干净数据集表给出gydF4y2Ba 6gydF4y2Ba。在这两个数据集,懒惰的学习者家庭算法的性能(即。IBK KStar)相比其他选择算法要好。gydF4y2Ba

表5gydF4y2Ba

用户的比例在一组基于真阳性值的嘈杂的数据集。gydF4y2Ba

真阳性百分比乐队gydF4y2Ba	基于树的gydF4y2Ba		基于规则的gydF4y2Ba			懒惰的学生gydF4y2Ba		MetaheuristicgydF4y2Ba		贝叶斯gydF4y2Ba
真阳性百分比乐队gydF4y2Ba	J48gydF4y2Ba	航空航天gydF4y2Ba	DTgydF4y2Ba	JRipgydF4y2Ba	猛烈的一击gydF4y2Ba	韩国中小企业银行gydF4y2Ba	KStargydF4y2Ba	装袋gydF4y2Ba	LogitBoostgydF4y2Ba	贝叶斯网gydF4y2Ba
100% - -90%gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba	2gydF4y2Ba
90% - -80%gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba	2gydF4y2Ba
80% - -70%gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba	4gydF4y2Ba	4gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	4gydF4y2Ba
70% - -60%gydF4y2Ba	4gydF4y2Ba	8gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	6gydF4y2Ba	4gydF4y2Ba	6gydF4y2Ba	4gydF4y2Ba	0gydF4y2Ba	2gydF4y2Ba
60% - -50%gydF4y2Ba	14gydF4y2Ba	2gydF4y2Ba	4gydF4y2Ba	6gydF4y2Ba	0gydF4y2Ba	24gydF4y2Ba	16gydF4y2Ba	18gydF4y2Ba	2gydF4y2Ba	14gydF4y2Ba
50% - -40%gydF4y2Ba	26gydF4y2Ba	28gydF4y2Ba	24gydF4y2Ba	4gydF4y2Ba	10gydF4y2Ba	18gydF4y2Ba	22gydF4y2Ba	20.gydF4y2Ba	6gydF4y2Ba	20.gydF4y2Ba
低于40%gydF4y2Ba	48gydF4y2Ba	56gydF4y2Ba	60gydF4y2Ba	82年gydF4y2Ba	80年gydF4y2Ba	46gydF4y2Ba	50gydF4y2Ba	50gydF4y2Ba	88年gydF4y2Ba	56gydF4y2Ba

表6gydF4y2Ba

用户的比例在一组基于清洁的真阳性值数据集。gydF4y2Ba

真阳性百分比乐队gydF4y2Ba	基于树的gydF4y2Ba		基于规则的gydF4y2Ba			懒惰的学生gydF4y2Ba		MetaheuristicgydF4y2Ba		贝叶斯gydF4y2Ba
真阳性百分比乐队gydF4y2Ba	J48gydF4y2Ba	航空航天gydF4y2Ba	DTgydF4y2Ba	JRipgydF4y2Ba	猛烈的一击gydF4y2Ba	韩国中小企业银行gydF4y2Ba	KStargydF4y2Ba	装袋gydF4y2Ba	LogitBoostgydF4y2Ba	贝叶斯网gydF4y2Ba
100% - -90%gydF4y2Ba	12gydF4y2Ba	14gydF4y2Ba	10gydF4y2Ba	10gydF4y2Ba	4gydF4y2Ba	14gydF4y2Ba	8gydF4y2Ba	12gydF4y2Ba	0gydF4y2Ba	4gydF4y2Ba
90% - -80%gydF4y2Ba	18gydF4y2Ba	12gydF4y2Ba	14gydF4y2Ba	8gydF4y2Ba	4gydF4y2Ba	32gydF4y2Ba	26gydF4y2Ba	24gydF4y2Ba	4gydF4y2Ba	12gydF4y2Ba
80% - -70%gydF4y2Ba	26gydF4y2Ba	22gydF4y2Ba	22gydF4y2Ba	6gydF4y2Ba	8gydF4y2Ba	24gydF4y2Ba	26gydF4y2Ba	22gydF4y2Ba	2gydF4y2Ba	18gydF4y2Ba
70% - -60%gydF4y2Ba	20.gydF4y2Ba	26gydF4y2Ba	16gydF4y2Ba	8gydF4y2Ba	6gydF4y2Ba	22gydF4y2Ba	20.gydF4y2Ba	18gydF4y2Ba	0gydF4y2Ba	18gydF4y2Ba
60% - -50%gydF4y2Ba	12gydF4y2Ba	16gydF4y2Ba	10gydF4y2Ba	10gydF4y2Ba	18gydF4y2Ba	8gydF4y2Ba	16gydF4y2Ba	16gydF4y2Ba	6gydF4y2Ba	14gydF4y2Ba
50% - -40%gydF4y2Ba	12gydF4y2Ba	10gydF4y2Ba	20.gydF4y2Ba	16gydF4y2Ba	18gydF4y2Ba	0gydF4y2Ba	4gydF4y2Ba	8gydF4y2Ba	10gydF4y2Ba	18gydF4y2Ba
低于40%gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	8gydF4y2Ba	42gydF4y2Ba	42gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	78年gydF4y2Ba	16gydF4y2Ba

正如前面提到的,这两个数据集进一步分为5组20个用户(表gydF4y2Ba 4gydF4y2Ba),以便观察的影响大小的培训结果的准确性。表gydF4y2Ba 7gydF4y2Ba显示所有算法的性能的比较与训练数据集大小的变化在嘈杂的数据集。每个算法的性能测量精度和召回。IBK和KStar相关查询到正确的用户提供40%以上的精度高于60%在所有情况下,虽然装袋,J48、决策表,和贝叶斯网络相关查询到正确的用户提供25%以上的精度在60%以上。从训练数据集的大小的角度来看,它是有点难以得出结论关于它对精度的影响。几乎每一个算法显示不规则行为变化的训练数据集的大小。第一三组IBK的性能,J48, KStar,以前观察到的更准确。然而,出乎意料的,召回率下降在过去的两组。结果的精度和召回嘈杂的数据绘制在图gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

表7gydF4y2Ba

嘈杂的数据集在不同组织的精度和召回。gydF4y2Ba

集团gydF4y2Ba			组1gydF4y2Ba	组2gydF4y2Ba	组3gydF4y2Ba	组4gydF4y2Ba	组5gydF4y2Ba
基于树的gydF4y2Ba	J48gydF4y2Ba	精度gydF4y2Ba	0.68gydF4y2Ba	0.71gydF4y2Ba	0.75gydF4y2Ba	0.72gydF4y2Ba	0.72gydF4y2Ba
	J48gydF4y2Ba	回忆gydF4y2Ba	0.37gydF4y2Ba	0.40gydF4y2Ba	0.44gydF4y2Ba	0.36gydF4y2Ba	0.43gydF4y2Ba
	航空航天gydF4y2Ba	精度gydF4y2Ba	0.69gydF4y2Ba	0.70gydF4y2Ba	0.70gydF4y2Ba	0.75gydF4y2Ba	0.72gydF4y2Ba
	航空航天gydF4y2Ba	回忆gydF4y2Ba	0.36gydF4y2Ba	0.38gydF4y2Ba	0.43gydF4y2Ba	0.33gydF4y2Ba	0.42gydF4y2Ba

基于规则的gydF4y2Ba	决策表gydF4y2Ba	精度gydF4y2Ba	0.86gydF4y2Ba	0.89gydF4y2Ba	0.90gydF4y2Ba	0.79gydF4y2Ba	0.79gydF4y2Ba
	决策表gydF4y2Ba	回忆gydF4y2Ba	0.33gydF4y2Ba	0.32gydF4y2Ba	0.41gydF4y2Ba	0.34gydF4y2Ba	0.41gydF4y2Ba
	JRipgydF4y2Ba	精度gydF4y2Ba	0.85gydF4y2Ba	0.80gydF4y2Ba	0.85gydF4y2Ba	0.77gydF4y2Ba	0.78gydF4y2Ba
	JRipgydF4y2Ba	回忆gydF4y2Ba	0.25gydF4y2Ba	0.23gydF4y2Ba	0.32gydF4y2Ba	0.23gydF4y2Ba	0.34gydF4y2Ba
	猛烈的一击gydF4y2Ba	精度gydF4y2Ba	0.46gydF4y2Ba	0.39gydF4y2Ba	0.48gydF4y2Ba	0.46gydF4y2Ba	0.51gydF4y2Ba
	猛烈的一击gydF4y2Ba	回忆gydF4y2Ba	0.21gydF4y2Ba	0.17gydF4y2Ba	0.27gydF4y2Ba	0.25gydF4y2Ba	0.35gydF4y2Ba

懒惰的学生gydF4y2Ba	韩国中小企业银行gydF4y2Ba	精度gydF4y2Ba	0.74gydF4y2Ba	0.78gydF4y2Ba	0.83gydF4y2Ba	0.78gydF4y2Ba	0.77gydF4y2Ba
	韩国中小企业银行gydF4y2Ba	回忆gydF4y2Ba	0.42gydF4y2Ba	0.44gydF4y2Ba	0.48gydF4y2Ba	0.38gydF4y2Ba	0.45gydF4y2Ba
	KStargydF4y2Ba	精度gydF4y2Ba	0.75gydF4y2Ba	0.78gydF4y2Ba	0.77gydF4y2Ba	0.76gydF4y2Ba	0.72gydF4y2Ba
	KStargydF4y2Ba	回忆gydF4y2Ba	0.36gydF4y2Ba	0.40gydF4y2Ba	0.44gydF4y2Ba	0.35gydF4y2Ba	0.72gydF4y2Ba

MetaheuristicgydF4y2Ba	装袋gydF4y2Ba	精度gydF4y2Ba	0.77gydF4y2Ba	0.74gydF4y2Ba	0.78gydF4y2Ba	0.79gydF4y2Ba	0.73gydF4y2Ba
	装袋gydF4y2Ba	回忆gydF4y2Ba	0.37gydF4y2Ba	0.41gydF4y2Ba	0.45gydF4y2Ba	0.36gydF4y2Ba	0.44gydF4y2Ba
	LogitBoostgydF4y2Ba	精度gydF4y2Ba	0.50gydF4y2Ba	0.29gydF4y2Ba	0.28gydF4y2Ba	0.37gydF4y2Ba	0.36gydF4y2Ba
	LogitBoostgydF4y2Ba	回忆gydF4y2Ba	0.12gydF4y2Ba	0.10gydF4y2Ba	0.17gydF4y2Ba	0.12gydF4y2Ba	0.30gydF4y2Ba

贝叶斯gydF4y2Ba	贝叶斯网gydF4y2Ba	精度gydF4y2Ba	0.77gydF4y2Ba	0.71gydF4y2Ba	0.77gydF4y2Ba	0.78gydF4y2Ba	0.69gydF4y2Ba
贝叶斯gydF4y2Ba	贝叶斯网gydF4y2Ba	回忆gydF4y2Ba	0.32gydF4y2Ba	0.36gydF4y2Ba	0.42gydF4y2Ba	0.33gydF4y2Ba	0.44gydF4y2Ba

图5gydF4y2Ba

嘈杂的数据集在不同群体的groupwise精度和召回。(一)嘈杂的数据精度。(b)召回嘈杂的数据集。gydF4y2Ba

(一)gydF4y2Ba (b)gydF4y2Ba

然而,在干净的数据集,一个清晰的模式改进的回忆是可见的。根据表gydF4y2Ba 8gydF4y2Ba,所有算法的性能改善作为训练数据集的大小增加。IBK和KStar相关查询到正确的用户提供62%以上的精度高于70%在所有情况下,虽然装袋,J48、决策表,和以前相关超过51.68%到82.84%的查询到正确的用户在所有情况下的精度高于60%。其他算法、贝叶斯网络能把70%以上的查询在某些情况下。虽然召回的增加与训练数据的增加并不是线性的,一种改进模式清晰可见的干净的数据集。结果的精度和召回干净数据绘制在图gydF4y2Ba 6gydF4y2Ba。gydF4y2Ba

表8gydF4y2Ba

干净的数据集在不同组织的精度和召回。gydF4y2Ba

集团gydF4y2Ba			组1gydF4y2Ba	组2gydF4y2Ba	组3gydF4y2Ba	组4gydF4y2Ba	组5gydF4y2Ba
基于树的gydF4y2Ba	J48gydF4y2Ba	精度gydF4y2Ba	0.66gydF4y2Ba	0.62gydF4y2Ba	0.73gydF4y2Ba	0.80gydF4y2Ba	0.76gydF4y2Ba
	J48gydF4y2Ba	回忆gydF4y2Ba	0.62gydF4y2Ba	0.60gydF4y2Ba	0.71gydF4y2Ba	0.81gydF4y2Ba	0.78gydF4y2Ba
	航空航天gydF4y2Ba	精度gydF4y2Ba	0.62gydF4y2Ba	0.66gydF4y2Ba	0.73gydF4y2Ba	0.75gydF4y2Ba	0.75gydF4y2Ba
	航空航天gydF4y2Ba	回忆gydF4y2Ba	0.66gydF4y2Ba	0.61gydF4y2Ba	0.65gydF4y2Ba	0.79gydF4y2Ba	0.75gydF4y2Ba

基于规则的gydF4y2Ba	决策表gydF4y2Ba	精度gydF4y2Ba	0.84gydF4y2Ba	0.81gydF4y2Ba	0.79gydF4y2Ba	0.92gydF4y2Ba	0.81gydF4y2Ba
	决策表gydF4y2Ba	回忆gydF4y2Ba	0.58gydF4y2Ba	0.51gydF4y2Ba	0.63gydF4y2Ba	0.79gydF4y2Ba	0.74gydF4y2Ba
	JRipgydF4y2Ba	精度gydF4y2Ba	0.73gydF4y2Ba	0.82gydF4y2Ba	0.83gydF4y2Ba	0.88gydF4y2Ba	0.75gydF4y2Ba
	JRipgydF4y2Ba	回忆gydF4y2Ba	0.40gydF4y2Ba	0.35gydF4y2Ba	0.42gydF4y2Ba	0.63gydF4y2Ba	0.59gydF4y2Ba
	猛烈的一击gydF4y2Ba	精度gydF4y2Ba	0.41gydF4y2Ba	0.37gydF4y2Ba	0.43gydF4y2Ba	0.55gydF4y2Ba	0.48gydF4y2Ba
	猛烈的一击gydF4y2Ba	回忆gydF4y2Ba	0.38gydF4y2Ba	0.28gydF4y2Ba	0.41gydF4y2Ba	0.60gydF4y2Ba	0.55gydF4y2Ba

懒惰的学生gydF4y2Ba	韩国中小企业银行gydF4y2Ba	精度gydF4y2Ba	0.72gydF4y2Ba	0.70gydF4y2Ba	0.80gydF4y2Ba	0.85gydF4y2Ba	0.80gydF4y2Ba
	韩国中小企业银行gydF4y2Ba	回忆gydF4y2Ba	0.71gydF4y2Ba	0.69gydF4y2Ba	0.76gydF4y2Ba	0.85gydF4y2Ba	0.83gydF4y2Ba
	KStargydF4y2Ba	精度gydF4y2Ba	0.74gydF4y2Ba	0.75gydF4y2Ba	0.73gydF4y2Ba	0.77gydF4y2Ba	0.77gydF4y2Ba
	KStargydF4y2Ba	回忆gydF4y2Ba	0.69gydF4y2Ba	0.62gydF4y2Ba	0.71gydF4y2Ba	0.80gydF4y2Ba	0.78gydF4y2Ba

MetaheuristicgydF4y2Ba	装袋gydF4y2Ba	精度gydF4y2Ba	0.75gydF4y2Ba	0.71gydF4y2Ba	0.75gydF4y2Ba	0.81gydF4y2Ba	0.75gydF4y2Ba
	装袋gydF4y2Ba	回忆gydF4y2Ba	0.65gydF4y2Ba	0.61gydF4y2Ba	0.71gydF4y2Ba	0.82gydF4y2Ba	0.81gydF4y2Ba
	LogitBoostgydF4y2Ba	精度gydF4y2Ba	0.42gydF4y2Ba	0.17gydF4y2Ba	0.29gydF4y2Ba	0.39gydF4y2Ba	0.20gydF4y2Ba
	LogitBoostgydF4y2Ba	回忆gydF4y2Ba	0.19gydF4y2Ba	0.14gydF4y2Ba	0.23gydF4y2Ba	0.34gydF4y2Ba	0.38gydF4y2Ba

贝叶斯gydF4y2Ba	贝叶斯网gydF4y2Ba	精度gydF4y2Ba	0.79gydF4y2Ba	0.74gydF4y2Ba	0.71gydF4y2Ba	0.77gydF4y2Ba	0.57gydF4y2Ba
贝叶斯gydF4y2Ba	贝叶斯网gydF4y2Ba	回忆gydF4y2Ba	0.45gydF4y2Ba	0.45gydF4y2Ba	0.59gydF4y2Ba	0.74gydF4y2Ba	0.73gydF4y2Ba

图6gydF4y2Ba

干净的数据集在不同群体的groupwise精度和召回。(一)清洁数据精度。数据集(b)清洁召回。gydF4y2Ba

(一)gydF4y2Ba (b)gydF4y2Ba

总的来说,银行和装袋相关查询到正确的用户提供45.1%和43%精度高于70%的嘈杂的数据集,而J48 KStar,和以前相关的42.2%,41.7%,和40.6%的查询到正确的用户提供精度为70.9%,73.5%,70.2%。同样,在干净的数据集,查询相关IBK和装袋79.5%和75.7%与79.6%和75.9%正确的用户精度,而J48 KStar,和以前相关的73.9%,74.4%,和72%的查询到正确的用户提供精度为73.9%,76.1%,72.6%。排名前三的算法而言,F-measure(之间的权衡精度和召回)IBK嘈杂的数据集,装袋,J48得分为0.514,0.487,和0.477,分别为干净的数据集时,排名前三的算法是IBK,装袋,和KStar得分是0.793,0.753,和0.745,分别。因此,IBK决心成为一个更合适的算法对特征向量”类别。“结果的平均F-measure吵闹的和干净的数据集是绘制在图gydF4y2Ba 7gydF4y2Ba。gydF4y2Ba

图7gydF4y2Ba

所有选定的平均F-measure分类算法对噪声和干净的数据集。gydF4y2Ba

5。结论gydF4y2Ba

健康信息自古以来被认为是敏感的私人信息。然而,WSE收集这些信息销售和有针对性的广告,这可能侵犯用户的隐私。介绍QuPiD攻击:一个基于机器学习提供的保护水平的量化攻击流行统一党PIR协议。QuPiD攻击使用分类算法和用户分类的历史传入的查询。我们使用两个子集(噪声和干净的数据集)的真实网络数据来测试该模型。我们表明,我们建议的攻击成功的正确关联的查询他们的真正发起者在一个较高的比例。选拔最优秀的分类算法,我们进行了实验与十个来自不同家庭的分类算法。J48和以前的基于树的家庭,决策表,JRip,和专家从基于规则的家庭、银行和KStar从懒惰的学生家庭,装袋和LogitBoost metaheuristic家庭,从贝叶斯的家庭选择和贝叶斯网络。结果表明,IBK是最合适的算法,如果使用“种类”的特征向量。gydF4y2Ba

在嘈杂的数据集的分析,几乎每一个算法显示不规则行为变化的训练数据集的大小。然而,干净的数据分析,我们发现,当增加训练数据的大小而构建分类模型,测试数据的回忆正在改善。因此,我们得出这样的结论:噪音是不稳定行为的因素之一。我们的分析表明,PIR协议机器学习很容易受到攻击,即使一级分类标签的查询。为目前PIR协议这种情况令人担忧。任何web搜索引擎甚至web服务配备一个概要文件用户可以公开的目标用户。在未来,我们有兴趣评估拟议的攻击从不同的角度,如集团的影响大小,查询的数量在一个会话,用户配置文件大小,等等。此外,我们兴奋地探索的不稳定行为分类算法。gydF4y2Ba

数据可用性gydF4y2Ba

使用的数据来支持这个研究的发现是可用的gydF4y2Ba http://www.radiounderground.net/aol-data/gydF4y2Ba。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项研究是由科研院长以来,阿卜杜拉国王大学(考),吉达,沙特阿拉伯。gydF4y2Ba

1gydF4y2Ba

NggydF4y2Ba

m·W。gydF4y2Ba

史密斯gydF4y2Ba

R。gydF4y2Ba

WickramesinghegydF4y2Ba

N。gydF4y2Ba

聪明的gydF4y2Ba

p . J。gydF4y2Ba

LawrentschukgydF4y2Ba

N。gydF4y2Ba

网上健康:做网站搜索返回可靠的健康信息对痔疮及其治疗?gydF4y2Ba

国际外科手术gydF4y2Ba 2017年gydF4y2Ba 102年gydF4y2Ba 5 - 6gydF4y2Ba 216年gydF4y2Ba 221年gydF4y2Ba

10.9738 / intsurg - d - 17 - 00099.1gydF4y2Ba

2gydF4y2Ba

福克斯gydF4y2Ba

年代。gydF4y2Ba

达根gydF4y2Ba

M。gydF4y2Ba

2013年健康在线gydF4y2Ba

健康gydF4y2Ba 2013年gydF4y2Ba

美国华盛顿特区gydF4y2Ba

皮尤研究中心gydF4y2Ba

1gydF4y2Ba 55gydF4y2Ba

3gydF4y2Ba

汗gydF4y2Ba

R。gydF4y2Ba

伊斯兰教gydF4y2Ba

m·A。gydF4y2Ba

UllahgydF4y2Ba

M。gydF4y2Ba

阿利gydF4y2Ba

M。gydF4y2Ba

伊克巴尔gydF4y2Ba

m·A。gydF4y2Ba

隐私暴露测量:保护隐私与健康有关的网络搜索技术gydF4y2Ba

医学成像和卫生信息学杂志》上gydF4y2Ba 2019年gydF4y2Ba 9gydF4y2Ba 6gydF4y2Ba 1196年gydF4y2Ba 1204年gydF4y2Ba

10.1166 / jmihi.2019.2709gydF4y2Ba

4gydF4y2Ba

托马斯。gydF4y2Ba

P。gydF4y2Ba

BillerbeckgydF4y2Ba

B。gydF4y2Ba

CraswellgydF4y2Ba

N。gydF4y2Ba

白色的gydF4y2Ba

r·W。gydF4y2Ba

调查搜索用户的心理模型通知搜索解释gydF4y2Ba

ACM交易信息系统(钢铁洪流)gydF4y2Ba 2020年gydF4y2Ba 38gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 25gydF4y2Ba

10.1145 / 3371390gydF4y2Ba

5gydF4y2Ba

YoganarasimhangydF4y2Ba

H。gydF4y2Ba

使用机器学习的个性化搜索的功能gydF4y2Ba

管理科学gydF4y2Ba 2020年gydF4y2Ba 66年gydF4y2Ba 3gydF4y2Ba 1045年gydF4y2Ba 1070年gydF4y2Ba

10.1287 / mnsc.2018.3255gydF4y2Ba

6gydF4y2Ba

长gydF4y2Ba

F。gydF4y2Ba

JerathgydF4y2Ba

K。gydF4y2Ba

萨瓦里gydF4y2Ba

M。gydF4y2Ba

利用信息从赞助广告在网上零售市场gydF4y2Ba

该研究所的私营企业的研究论文gydF4y2Ba 2019年gydF4y2Ba 20公/ 03gydF4y2Ba

https://ssrn.com/abstract=3516104gydF4y2Ba

10.2139 / ssrn.3516104gydF4y2Ba

7gydF4y2Ba

身兼gydF4y2Ba

美国B。gydF4y2Ba

BoutetgydF4y2Ba

一个。gydF4y2Ba

FelbergydF4y2Ba

P。gydF4y2Ba

PasingydF4y2Ba

M。gydF4y2Ba

皮雷gydF4y2Ba

R。gydF4y2Ba

SchiavonigydF4y2Ba

V。gydF4y2Ba

使用英特尔新交所X-search:回顾私人网络搜索gydF4y2Ba

学报18 ACM /联合会/ USENIX中间件会议gydF4y2Ba

2017年12月gydF4y2Ba

美国内华达州拉斯维加斯gydF4y2Ba

198年gydF4y2Ba 208年gydF4y2Ba

8gydF4y2Ba

HafnergydF4y2Ba

K。gydF4y2Ba

RichtelgydF4y2Ba

M。gydF4y2Ba

谷歌拒绝我们传票的搜索数据gydF4y2Ba 2006年gydF4y2Ba

纽约,纽约,美国gydF4y2Ba

纽约时报gydF4y2Ba

9gydF4y2Ba

通过gydF4y2Ba

G。gydF4y2Ba

ChowdhurygydF4y2Ba

一个。gydF4y2Ba

道基森曾收到任务gydF4y2Ba

C。gydF4y2Ba

的图片搜索。Infoscale 06年,香港gydF4y2Ba

学报第一国际会议上可扩展的信息系统gydF4y2Ba 2006年gydF4y2Ba

纽约,纽约,美国gydF4y2Ba

ACMgydF4y2Ba

10gydF4y2Ba

LundberggydF4y2Ba

我。gydF4y2Ba

NarayanangydF4y2Ba

一个。gydF4y2Ba

莱维gydF4y2Ba

K。gydF4y2Ba

SalganikgydF4y2Ba

m·J。gydF4y2Ba

隐私,伦理,和数据访问:一个案例研究脆弱的家庭的挑战gydF4y2Ba

2018年gydF4y2Ba

https://arxiv.org/abs/1809.00103gydF4y2Ba

11gydF4y2Ba

埃德尔斯坦gydF4y2Ba

lgydF4y2Ba

希波克拉底誓言:文本、翻译和解释gydF4y2Ba

Edelstein古代医学:选择论文的路德维希gydF4y2Ba 1943年gydF4y2Ba

美国马里兰州巴尔的摩gydF4y2Ba

约翰·霍普金斯大学出版社gydF4y2Ba

3gydF4y2Ba 63年gydF4y2Ba

12gydF4y2Ba

LibertgydF4y2Ba

T。gydF4y2Ba

在网上健康信息寻求隐私的影响gydF4y2Ba

ACM的通信gydF4y2Ba 2015年gydF4y2Ba 58gydF4y2Ba 3gydF4y2Ba 68年gydF4y2Ba 77年gydF4y2Ba

10.1145 / 2658983gydF4y2Ba

2 - s2.0 - 84923585065gydF4y2Ba

13gydF4y2Ba

巴巴罗gydF4y2Ba

M。gydF4y2Ba

西gydF4y2Ba

T。gydF4y2Ba

HansellgydF4y2Ba

年代。gydF4y2Ba

脸是AOL搜索者没有暴露。4417749gydF4y2Ba 2006年gydF4y2Ba

纽约,纽约,美国gydF4y2Ba

纽约时报gydF4y2Ba

14gydF4y2Ba

ToubianagydF4y2Ba

V。gydF4y2Ba

萨勃拉曼尼亚gydF4y2Ba

lgydF4y2Ba

尼森鲍姆gydF4y2Ba

H。gydF4y2Ba

Trackmenot:提高网络搜索的隐私gydF4y2Ba

2011年gydF4y2Ba

https://arxiv.org/abs/1109.4677gydF4y2Ba

15gydF4y2Ba

ArampatzisgydF4y2Ba

一个。gydF4y2Ba

DrosatosgydF4y2Ba

G。gydF4y2Ba

EfraimidisgydF4y2Ba

p S。gydF4y2Ba

通用查询争夺私人网络搜索gydF4y2Ba

信息检索期刊gydF4y2Ba 2015年gydF4y2Ba 18gydF4y2Ba 4gydF4y2Ba 331年gydF4y2Ba 358年gydF4y2Ba

10.1007 / s10791 - 015 - 9256 - 0gydF4y2Ba

2 - s2.0 - 84933180960gydF4y2Ba

16gydF4y2Ba

DingledinegydF4y2Ba

R。gydF4y2Ba

马修森gydF4y2Ba

N。gydF4y2Ba

SyversongydF4y2Ba

P。gydF4y2Ba

Tor:第二代洋葱路由器gydF4y2Ba 2004年gydF4y2Ba

美国华盛顿特区gydF4y2Ba

海军研究实验室gydF4y2Ba

17gydF4y2Ba

Romero-TrisgydF4y2Ba

C。gydF4y2Ba

Castella-RocagydF4y2Ba

J。gydF4y2Ba

桥gydF4y2Ba

一个。gydF4y2Ba

分布式系统的私人网络搜索与不受信任的合作伙伴gydF4y2Ba

计算机网络gydF4y2Ba 2014年gydF4y2Ba 67年gydF4y2Ba 26gydF4y2Ba 42gydF4y2Ba

10.1016 / j.comnet.2014.03.022gydF4y2Ba

2 - s2.0 - 84899012117gydF4y2Ba

18gydF4y2Ba

Romero-TrisgydF4y2Ba

C。gydF4y2Ba

桥gydF4y2Ba

一个。gydF4y2Ba

Castella-RocagydF4y2Ba

J。gydF4y2Ba

多方保护隐私的网络搜索的方法:调查和贡献gydF4y2Ba

高级研究在数据隐私gydF4y2Ba 2015年gydF4y2Ba

柏林,德国gydF4y2Ba

施普林格gydF4y2Ba

367年gydF4y2Ba 387年gydF4y2Ba

19gydF4y2Ba

斯托克斯gydF4y2Ba

K。gydF4y2Ba

Bras-AmorosgydF4y2Ba

M。gydF4y2Ba

最优配置对等用户私有信息检索gydF4y2Ba

计算机和数学与应用程序gydF4y2Ba 2010年gydF4y2Ba 59gydF4y2Ba 4gydF4y2Ba 1568年gydF4y2Ba 1577年gydF4y2Ba

10.1016 / j.camwa.2010.01.003gydF4y2Ba

2 - s2.0 - 75349093213gydF4y2Ba

20.gydF4y2Ba

UllahgydF4y2Ba

M。gydF4y2Ba

伊斯兰教gydF4y2Ba

m·A。gydF4y2Ba

汗gydF4y2Ba

R。gydF4y2Ba

阿利gydF4y2Ba

M。gydF4y2Ba

伊克巴尔gydF4y2Ba

m·A。gydF4y2Ba

ObSecure日志(奥斯陆):一个框架来保护和评估网络搜索隐私在卫生保健领域gydF4y2Ba

医学成像和卫生信息学杂志》上gydF4y2Ba 2019年gydF4y2Ba 9gydF4y2Ba 6gydF4y2Ba 1181年gydF4y2Ba 1190年gydF4y2Ba

10.1166 / jmihi.2019.2708gydF4y2Ba

21gydF4y2Ba

小gydF4y2Ba

一个。gydF4y2Ba

在当前网络搜索引擎引入隐私gydF4y2Ba 2017年gydF4y2Ba

法国里昂gydF4y2Ba

里昂大学gydF4y2Ba

22gydF4y2Ba

维斯gydF4y2Ba

一个。gydF4y2Ba

负责人gydF4y2Ba

R。gydF4y2Ba

SinglagydF4y2Ba

一个。gydF4y2Ba

CapkungydF4y2Ba

年代。gydF4y2Ba

银行gydF4y2Ba

V。gydF4y2Ba

量化网络搜索隐私gydF4y2Ba

学报2014 ACM SIGSAC计算机和通信安全会议gydF4y2Ba

2014年11月gydF4y2Ba

美国亚利桑那州斯科茨代尔gydF4y2Ba

966年gydF4y2Ba 977年gydF4y2Ba

23gydF4y2Ba

PeddintigydF4y2Ba

s T。gydF4y2Ba

SaxenagydF4y2Ba

N。gydF4y2Ba

隐私的网络搜索基于模糊查询:TrackMeNot的案例研究gydF4y2Ba

《隐私国际研讨会加强技术研讨会gydF4y2Ba

2010年7月gydF4y2Ba

柏林,德国gydF4y2Ba

19gydF4y2Ba 37gydF4y2Ba

24gydF4y2Ba

PeddintigydF4y2Ba

s T。gydF4y2Ba

SaxenagydF4y2Ba

N。gydF4y2Ba

在web搜索隐私匿名化网络的有效性gydF4y2Ba

学报第六届ACM研讨会信息,计算机和通信安全gydF4y2Ba

2011年3月gydF4y2Ba

中国香港gydF4y2Ba

483年gydF4y2Ba 489年gydF4y2Ba

25gydF4y2Ba

小gydF4y2Ba

一个。gydF4y2Ba

CerqueusgydF4y2Ba

T。gydF4y2Ba

BoutetgydF4y2Ba

一个。gydF4y2Ba

SimAttack:私人网络搜索下火gydF4y2Ba

《互联网服务和应用程序gydF4y2Ba 2016年gydF4y2Ba 7gydF4y2Ba 2gydF4y2Ba

10.1186 / s13174 - 016 - 0044 - xgydF4y2Ba

2 - s2.0 - 84964253412gydF4y2Ba

26gydF4y2Ba

汗gydF4y2Ba

R。gydF4y2Ba

伊斯兰教gydF4y2Ba

m·A。gydF4y2Ba

量化的PIR协议隐私gydF4y2Ba

学报2017年国际会议上沟通,计算和数字系统(c代码)gydF4y2Ba

2017年3月gydF4y2Ba

巴基斯坦,伊斯兰堡gydF4y2Ba

90年gydF4y2Ba 95年gydF4y2Ba

27gydF4y2Ba

汗gydF4y2Ba

R。gydF4y2Ba

UllahgydF4y2Ba

M。gydF4y2Ba

伊斯兰教gydF4y2Ba

m·A。gydF4y2Ba

揭示pir协议保护用户gydF4y2Ba

学报2016年第六次国际会议上创新计算技术INTECH(的哲理)gydF4y2Ba

2016年8月gydF4y2Ba

爱尔兰都柏林gydF4y2Ba

535年gydF4y2Ba 541年gydF4y2Ba

28gydF4y2Ba

昆兰gydF4y2Ba

j . R。gydF4y2Ba

C4。5:机器学习项目gydF4y2Ba 2014年gydF4y2Ba

荷兰阿姆斯特丹gydF4y2Ba

爱思唯尔gydF4y2Ba

29日gydF4y2Ba

后备军人gydF4y2Ba

N。gydF4y2Ba

大厅gydF4y2Ba

M。gydF4y2Ba

弗兰克gydF4y2Ba

E。gydF4y2Ba

物流模型树gydF4y2Ba

机器学习gydF4y2Ba 2005年gydF4y2Ba 59gydF4y2Ba 1 - 2gydF4y2Ba 161年gydF4y2Ba 205年gydF4y2Ba

10.1007 / s10994 - 005 - 0466 - 3gydF4y2Ba

2 - s2.0 - 21244500957gydF4y2Ba

30.gydF4y2Ba

KohavigydF4y2Ba

R。gydF4y2Ba

决策表的力量gydF4y2Ba

《欧洲机器学习会议gydF4y2Ba

1995年4月gydF4y2Ba

Heraclion,希腊gydF4y2Ba

174年gydF4y2Ba 189年gydF4y2Ba

31日gydF4y2Ba

科恩gydF4y2Ba

W·W。gydF4y2Ba

快速有效的规则归纳gydF4y2Ba

1995年机器学习程序gydF4y2Ba 1995年gydF4y2Ba

荷兰阿姆斯特丹gydF4y2Ba

爱思唯尔gydF4y2Ba

115年gydF4y2Ba 123年gydF4y2Ba

32gydF4y2Ba

HoltegydF4y2Ba

r . C。gydF4y2Ba

很简单的分类规则执行最常用的数据集gydF4y2Ba

机器学习gydF4y2Ba 1993年gydF4y2Ba 11gydF4y2Ba 1gydF4y2Ba 63年gydF4y2Ba 90年gydF4y2Ba

10.1023 /:1022631118932gydF4y2Ba

2 - s2.0 - 0027580356gydF4y2Ba

33gydF4y2Ba

啊哈gydF4y2Ba

d . W。gydF4y2Ba

KiblergydF4y2Ba

D。gydF4y2Ba

艾伯特gydF4y2Ba

m·K。gydF4y2Ba

基于实例的学习算法gydF4y2Ba

机器学习gydF4y2Ba 1991年gydF4y2Ba 6gydF4y2Ba 1gydF4y2Ba 37gydF4y2Ba 66年gydF4y2Ba

10.1023 /:1022689900470gydF4y2Ba

2 - s2.0 - 0025725905gydF4y2Ba

34gydF4y2Ba

佳利律师事务所gydF4y2Ba

j·G。gydF4y2Ba

组织gydF4y2Ba

l E。gydF4y2Ba

K∗:一个基于实例的学习者使用的距离测量gydF4y2Ba

1995年机器学习程序gydF4y2Ba 1995年gydF4y2Ba

荷兰阿姆斯特丹gydF4y2Ba

爱思唯尔gydF4y2Ba

108年gydF4y2Ba 114年gydF4y2Ba

35gydF4y2Ba

BreimangydF4y2Ba

lgydF4y2Ba

装袋预测gydF4y2Ba

机器学习gydF4y2Ba 1996年gydF4y2Ba 24gydF4y2Ba 2gydF4y2Ba 123年gydF4y2Ba 140年gydF4y2Ba

10.1023 /:1018054314350gydF4y2Ba

36gydF4y2Ba

弗兰克gydF4y2Ba

E。gydF4y2Ba

大厅gydF4y2Ba

M。gydF4y2Ba

福尔摩斯gydF4y2Ba

G。gydF4y2Ba

Weka-a机器学习数据挖掘的工作台gydF4y2Ba

数据挖掘和知识发现手册gydF4y2Ba 2009年gydF4y2Ba

柏林,德国gydF4y2Ba

施普林格gydF4y2Ba

1269年gydF4y2Ba 1277年gydF4y2Ba

37gydF4y2Ba

弗里德曼gydF4y2Ba

N。gydF4y2Ba

盖革gydF4y2Ba

D。gydF4y2Ba

GoldszmidtgydF4y2Ba

M。gydF4y2Ba

贝叶斯网络分类器gydF4y2Ba

机器学习gydF4y2Ba 1997年gydF4y2Ba 29日gydF4y2Ba 2/3gydF4y2Ba 131年gydF4y2Ba 163年gydF4y2Ba

10.1023 /:1007465528199gydF4y2Ba

38gydF4y2Ba

闵毅达gydF4y2Ba

N。gydF4y2Ba

辛格gydF4y2Ba

V。gydF4y2Ba

电子商务产品的分类使用RepTree和k - means混合方法gydF4y2Ba

大数据分析gydF4y2Ba 2018年gydF4y2Ba

柏林,德国gydF4y2Ba

施普林格gydF4y2Ba

265年gydF4y2Ba 273年gydF4y2Ba