合作框架,隐私保护模糊Co-Clustering垂直分布同现矩阵

文摘

在许多真实世界的数据分析任务,预计我们可以得到更多的有用的知识,利用多个数据库存储在不同的组织,如合作组织、国家机关、和盟军国家。然而,在许多这样的组织中,他们经常犹豫地发布数据库的隐私和安全问题,尽管他们认为协作的优势分析。提出了一种新颖的合作框架,利用垂直分区模糊co-cluster结构同现矩阵估计,在共存的信息对象和项目分别存储在几个网站。为了利用这种分布式的数据集,而不用担心信息泄露,隐私保护程序引入模糊聚类分类多元数据(FCCM)。拒绝同现矩阵的每个元素,只有对象由多个网站和会员共享它们(隐性)联合co-cluster结构揭示了通过迭代聚类过程。几个实验结果表明协作分析有助于揭示全球内在co-cluster分离矩阵结构而不是单个site-wise分析。这部小说框架使许多私人和公共组织共享公共数据结构知识而不用担心信息泄漏。

1。介绍

数据挖掘是一个功能强大的工具,许多私人和公共组织在支持高效的决策,并且他们已经利用各种数据库,独立和安全地存储在每个组织。然而,它往往是相当昂贵或不可能储存足够的数据由每个人自己,许多分析人士认为,我们可以得到更多的有用的知识,利用多个数据库存储在不同的组织中。在这些合作的数据分析中,一个重要的问题是隐私问题。例如,在许多公司,客户细分聚类是一种基本的方法在可能的营销必须安全地保护客户隐私和每个数据记录如购买历史和个人资料不能发布到其他公司或组织。类似情况被发现在许多其他组织如医院和临床记录和政府与军事智能。

隐私保护数据挖掘(PPDM) [1)是利用多个数据库的基本方法包括个人或敏感信息而不用担心信息泄露。一个可能的方法是先天的匿名化的数据库安全出版物(2,3),但这样的匿名化可以使信息损失。利用所有分布式信息的另一个方法是分析信息不暴露的每个元素。在集群,则提出了几个安全流程评估集群中心(4,5),平均向量的每个集群计算加密操作。

摘要小说协作框架,利用垂直分区模糊co-cluster结构同现矩阵估计,提出了对象和项目之间的共存信息分别存储在几个网站。在垂直分布式数据库,它假定所有站点共享一个通用的对象,但它们具有不同的独立项目在每个站点。目的是揭示整个全球co-cluster结构多种多样不同的数据库没有发布独立的数据库其他网站的每个元素。

本文的其余部分组织如下:部分2简要回顾相关工作和部分3显示他们的问题和可能的解决方案。部分4提供了传统模糊co-clustering模型和部分的解释5提出了一种新颖的合作框架,应用模糊co-clustering考虑隐私问题。节6,一些实验结果表明协作分析有助于揭示全球内在co-cluster分离矩阵结构而不是单个site-wise分析。最后,总结结论部分给出7。

2。背景

Co-clustering是一项基本技术,总结对象和项目之间的相互共存的信息。例如,在文档聚类,相互共存的信息和关键词文档用于揭示内在文档关键字总结集群。购买历史上分析、客户之间的相互连接和有前途的产品调查正在考虑购买偏好。Co-clustering提供两两之间的集群结构对象和项目和被广泛调查在两个概率(6)和启发式上下文(7]。本文重点是模糊聚类方法。

模糊聚类已经被证明有很多优势等观点对硬的噪音和初始化敏感。模糊变异co-clustering也被证明是有用的在文档分析等应用程序(8和协同过滤9,10]。模糊co-clustering同时估计会员的目标对象和项目从一个同现矩阵的信息。例如,在文档分析,每个文档(对象)的特点是几个关键词(项目)出现的频率(程度的共存),和我们的目标是提取document-keyword集群与模糊会员分析其内容。

模糊聚类分类多元数据(FCCM) [11)是一种模糊————(FCM)类型12]co-clustering模型,co-cluster聚合的标准是最大化支持entropy-based会员模糊性(13,14在FCM-like迭代优化算法。几个模糊co-clustering FCCM模型提出了基于相似的概念,在其他模糊化机制采用(8,15- - - - - -18]。

为了分析分布式数据库-means-type聚类,提出了几个安全流程评估集群中心(4,5),平均向量的每个集群计算加密操作。然而,在模糊co-clustering,集群聚合度的聚类标准没有定义集群中心和不能采用传统的安全框架。然后,一种新颖的安全机制是必要的,要解决的主要问题仍是在下一节总结。

3所示。问题和解决方案

在-means-type安全垂直分布式数据聚类模型4,5),多个站点共享一个通用的对象,如客户和患者,而拥有自己的矢量观测,如客户自己的概要文件存储在自己的医院和临床记录。为了揭示内在每个观察对象集群没有出版,每个集群中心的坐标分别计算每个站点和派生的坐标是由所有站点共享。

另一方面,模糊co-clustering不使用集群中心集群原型和利用两种类型的模糊会员。然后,传统的安全框架-means-type集群不能采用,和一个安全的过程计算模糊会员必须开发。

在下面,在本文中,小说的框架计算模糊会员在模糊co-clustering垂直分布同现矩阵提出了简要回顾后在传统模糊co-clustering模型。为了计算对象会员,产品的总和项成员和同现需要观察,反之亦然。在提出安全的过程中,和计算是安全地通过加密操作,和可以被隐藏每个值计算。

小说的框架是构建在FCCM上下文,这是模糊co-clustering的基本模型。但是,它很容易预期类似的扩展是直接适用于其他FCCM变异没有讨论,因为所有FCCM变体是基于FCCM更新过程。

4所示。方法的模糊Co-Clustering

假设我们有一个同现矩阵在对象和项目,在这代表共存的学位项目与对象。co-clustering同时分区的目标对象和项目co-clusters估计两种类型的模糊会员。分区是由对象成员,这是会员的对象集群和被迫与FCM独家以同样的方式等。另一方面,为了避免琐碎的解决方案,项目分区由项目成员,主要负责代表共同在每个集群的典型性。

哦,et al。11)提出了FCM-type co-clustering模型,它被称为FCCM,通过修改FCM算法处理共存的信息,在每个集群的集群聚合程度最大化: 第一项是最大化的措施聚合程度的对象和项目集群等它变大时相互熟悉的对象和大项目同时,大型集群中的成员。这聚合程度只是用于硬分区,因为这个词是一个线性函数对这两个和,我们一直和。然后,为了获得模糊会员和必须nonlinearized,聚合测量。

在FCCM entropy-based模糊化方法(13,14)采用FCM的标准方法而不是因为体重指数在FCM只能工作在积极目标函数的最小化框架。和会员的优化程度的模糊性,更大将模糊分区而变小带来清爽的分区。

聚类算法是一种迭代更新的过程和使用以下规则:

这个FCCM过程也与其它模糊化机制重建。例如,模糊CoDoK [8)利用二次基于词汇的正规化(19为避免计算溢出。本田et al。15)采用K-L信息化正规化(20.)处理不平衡集群大小。作为讨论的部分3,这些扩展模型通常遵循原FCCM过程和有相似的特征。因此,本文描述的小说协作框架FCCM上下文。

5。模糊Co-Clustering隐私的考虑

5.1。隐私的考虑聚类则

当每个对象的特点是维观测,由迭代算法则试图最小化within-cluster错误群集中心更新和最近的原型任务。让是集群的中心。在分布式数据库的情况下,我们必须关心的隐私问题在两个阶段采用加密等技术操作(5]。

垂直分布式数据库的元素分别存储在几个地点,对象之间的距离和集群计算中心的协作下所有网站。在这里,聚类准则的平方误差的总和并且应该隐藏每个值的计算从其他网站。一旦我们找到最近的原型分配的对象,我们可以独立计算新在每个站点通过共享对象成员信息。

尽管上述安全框架在许多其他也很有用-means-type如FCM聚类算法,它不能直接采用co-clustering因为co-clustering不使用集群原型但考虑两种类型的会员。

本文采用类似的想法模糊co-clustering任务。

5.2。模糊Co-Clustering隐私的考虑

假设网站()共同对象(),在不同的项目有不同的同现信息,总结成矩阵,在那里网站项目的数量和。图1显示一个垂直分布同现矩阵的视觉形象。例如,我们有一群公司(或医院、国家等)和他们每个人都有其独立的客户购买历史(或病人的记录,军事情报,等等)。

如果我们不关心隐私问题,应该聚集成一个完整的分布式矩阵矩阵分析了单个流程没有信息损失。考虑到隐私保护,然而,每个矩阵应该在每个站点没有广播的个人信息处理虽然每个co-cluster结构的可靠性可能还不够满意,因为信息的损失。然后,协同模糊co-clustering分析的目的是评估对象和项目成员尽可能类似于完整的数据情况下通过共享对象没有广播分区信息共存的信息。

对象成员网站是常见的和共享的定义与传统FCCM以同样的方式。另一方面,项目成员有所不同,因为它们遵循within-cluster和约束。在本文中,假定项目成员都是独立估计在每个站点site-wise约束,在那里项目成员在项目吗在网站。注意,项目成员不应该打开其他网站的隐私的考虑。

在应用FCCM集群分布同现矩阵,(2)意味着每个对象成员函数依赖,这是site-wise独立信息的总和。为了分享对象分区考虑个人隐私,我们必须计算没有广播每个site-wise信息。一个有前途的方法计算的安全是基于一个加密操作。

假设我们至少有三个网站,也就是说,,两个网站和选为代表的网站。图2总结了安全计算的过程如下。(1)网站生成长度随机向量,,这样。(2)网站发送加密密钥向量每一个其他网站。(3)网站发送加密信息网站。(4)他们的总金额计算估计在网站。然后,网站广播所有网站。

意味着总量相当于虽然每个网站的个人价值是隐藏的。在这个方案中,没有网站能揭示的实际价值在其他网站。

一旦对象成员播放所有网站,每个项目成员吗计算(3在每个站点只使用大量信息),site-wise项目成员遵循site-wise规范化约束。

应该注意的是,在该算法中,项目成员都是独立估计在每个站点的假设每个站点没有任何物品的信息,其他网站处理,如物品的数量和项目成员的程度的模糊性。此外,该算法不能完全重建相当于co-clustering结果对整个数据情况下,所有共存共享信息不关心隐私问题,即使我们在所有网站使用相同的参数设置。那是因为的分段约束是被迫独立项在每个站点会员,而我们只是考虑吗在整个数据的情况。

6。数值实验

在本节中,三个实验结果显示演示算法的特点。部分6.1演示了拟议的框架的基本特征与一个简单的数据集和部分6.2讨论了适用于更现实的情况下一个数据集有不平衡的集群结构。然后,一个应用层面的实验部分所示6.3,一个虚拟联盟的军事部分模拟使用真实世界的基准数据集。

6.1。数据集1:齐次集群分区

人为产生的同现矩阵被用在这个实验中,100个对象和90件大约4 co-clusters形式。图3(一个)显示了整个原始数据矩阵,黑色和白色细胞描绘和,分别。

(一)原始数据矩阵

(b)四个分布同现矩阵

垂直分布同现子矩阵被安排的生成噪声矩阵分为四个网站。图3 (b)显示了安排同现矩阵,项目被分为。然后,四个co-cluster结构非常弱隐含在每个站点和全球co-cluster结构只是预计将显示所有网站合作。这是一个虚拟的一群四公司,在那里他们分享100客户但有独立的购买历史数据在自己的产品。这里,协作的目标模糊co-clustering揭示内在四个客户集群与他们熟悉的产品,它可以在整个数据捕获策略没有隐私考虑但无法找到site-wise独立分析。

co-clustering分布矩阵的结果是整个数据的情况下,价格相比,传统的FCCM算法应用于原始同现矩阵没有隐私的考虑。图4显示了项目成员给定向量在整个数据的情况下,在每一行描述90 -维项目成员向量的集群,。每个灰度细胞描绘了模糊成员,黑色和白色和,分别。我们的目标是估计site-wise项会员,这是类似于原始越好。然后,在这个实验中,原始之间的相似性和site-wise相关系数来衡量。

表1之间的相关系数比较site-wise或拟议的项目成员和原始结果,最好的和的平均值50试验用不同的初始化描述。在site-wise FCCM,传统FCCM应用到每个子矩阵(每个小块)在每个站点。模糊化权重设置为和,分别。表表明,拟议的框架是用于估算可靠的项目成员的合作下所有网站而派生项目成员向量并不一定等同于整个数据的情况下,因为site-wise独立约束。


	网站1	网站2	网站3	网站4

提出的模型
最好(Max)。	0.998	0.998	0.997	0.999
的意思是	0.945	0.949	0.943	0.947
Site-wise FCCM
最好(Max)。	0.913	0.889	0.935	0.946
的意思是	0.718	0.677	0.851	0.903

6.2。数据集2:异构集群分区

接下来,该框架的适用性研究在异构集群分区的情况。第二个人工同现矩阵是垂直分布如图4网站5(一个),在那里。与前面的实验,每个网站都有不同数量的虚拟co-clusters这样。这种情况类似于情况四公司集团有不同的产品特征和不能有真正的客户没有他们的协作特性。

(一)四个分布式同现矩阵

(b)安排整个数据矩阵

协作co-cluster分析的目的是揭示内在全球co-cluster结构,可以发现只有全球整体数据。集群应用该安全框架与各种数字,FCCM算法可以得到最多co-clusters;也就是说,当4日或之后集群包括一些噪声对象。

为了直观地验证提出框架co-clusters派生的,图5 (b)提供整个安排数据矩阵,所有90项目第一次采用了降序排列项模糊会员的第一集群为了提取项目集群,然后,其余项目第二次使用第二个集群的降序排列。指出,在真实的应用程序中,我们不能等构造整个数据总结,因为隐私问题,但实际上是构造仅对于这个实验验证的目的。这个数字明显支持co-clusters虽然只能在协作分析显示在多个网站。

图6比较项目推出的会员提出的安全框架。虽然网站1和3有不同数量的co-clusters从全球co-cluster结构,也就是说,,他们也被总结成co-cluster结构。在站点1中,第一个2 co-clusters合并成一个独奏co-cluster。另一方面,在网站3中,第二个co-cluster是共享的两个co-clusters因为他们不能区分在全球整个co-cluster结构。

最后,导出项会员与整个数据的情况下,我们不关心隐私问题。表2之间的相关系数比较site-wise或拟议的项目成员和整个数据结果。以类似的方式与之前的实验中,表也支持该方法的高性能协作模糊co-cluster分析。


	网站1	网站2	网站3	网站4

提出的模型
最好(Max)。	0.998	0.998	0.997	0.998
的意思是	0.810	0.825	0.978	0.796
Site-wise FCCM
最好(Max)。	0.970	0.950	0.972	0.877
的意思是	0.768	0.947	0.972	0.640

6.3。数据集3:恐怖袭击

第三,提出安全框架应用于社交网络数据集。恐怖袭击的数据集,可以从linq网页的统计关系学习小组@ UMD格式(http://linqs.cs.umd.edu/projects//index.shtml),包括1293恐怖袭击每个分配到一个6标签指示的类型攻击。每个攻击有106种不同的特点与0/1-valued向量的属性条目表明缺乏/的特性。这个实验的目的是提取结构知识的恐怖袭击同现矩阵。

在这个实验中,四个盟军国家被认为是一个虚拟的情况,分别观察了106种不同特性的四个州,他们想要一个协作知识恐怖袭击没有发布他们观察到的特性,比如军事智能。106年的特点是分布等四个州;也就是说,每个国家只有一个整体的一部分特性(矩阵),但美国希望得到一个知识,提供从整个数据的情况。因为三个六标记类较少数量的对象(攻击),主要的三个类的特点(爆炸、绑架和武器袭击)主要讨论。

首先,项目成员来自分布式矩阵对整个数据结果进行比较。整个数据给出的结果是应用传统FCCM算法。目标是估计类似模糊会员从分布式矩阵整个案件的结果。拟议的框架和site-wise FCCM应用和,分别。

表3之间的相关系数比较site-wise或拟议的项目成员和整个数据结果。以类似的方式与之前的实验中,协作知识比site-wise更有效。这个结果意味着战略协作的适用性提出了框架的盟军。


	网站1	网站2	网站3	网站4

提出的模型
最好(Max)。	0.983	0.817	0.996	0.988
的意思是	0.636	0.788	0.863	0.826
Site-wise FCCM
最好(Max)。	0.969	0.644	0.805	0.544
的意思是	0.617	0.601	0.644	0.477

接下来,标签类的交叉表格和集群比较实用程序的验证对象的分区。在表4,三个主要类相比,最大的集群成员赋值。尽管site-wise模型推导出完全降解对象分区,提出的协作模型重建几乎等价的结果对整个数据情况。

(一)


	集群	整个数据FCCM			提出的模型
	集群

类	轰炸	274年	40	248年	278年	32	252年
	绑架	51	2	126年	51	2	126年
	武器袭击	407年	14	77年	400年	13	85年

(b)

集群

Site-wise 1

Site-wise 2

Site-wise 3

Site-wise 4

轰炸

149年

370年

30.

488年

103年

250年

209年

179年

259年

124年

绑架

127年

107年

98年

73年

69年

武器袭击

127年

358年

243年

71年

184年

327年

82年

89年

238年

103年

157年

这些结果显示该模型能有效地达到安全co-clustering对象和项目分区视图点和适用于co-clustering任务。

7所示。结论

摘要小说协同模糊co-cluster分析框架,提出了垂直分布同现矩阵的联合分析与个人隐私保护。在联合计算对象模糊会员,一个安全的加密操作采用计算cluster-wise典型性没有广播个人同现矩阵的每个元素。然后,项目模糊会员安全估计在每个站点。几个实验结果表明协作分析有助于揭示全球内在co-cluster分离矩阵结构而不是单个site-wise分析。

拟议的框架有望提高协作利用许多分布式数据库,如公司的战略营销组织,合作医疗在医院发展,战略联盟国家的军事行动,因为他们有可能分享常识隐瞒他们的独立的敏感信息。

一个可能的未来的工作是评估责任(效用)程度的每个站点。在当前模型中,每个站点同样负责集群估计虽然有些网站可能只有不可靠的独立信息。因为site-wise sum-to-one条件项会员能带来一个不受欢迎的影响低别人的网站,每个网站的责任应该评估他们的信心,应该考虑相当反映在计算对象成员。噪音抑制机制(21,22)将在消除承诺不可靠的网站。

利益冲突

作者宣称没有利益冲突有关的出版。

承认

这项工作是支持部分由教育部,文化、体育、科技、日本,在科研补助金(26330281)。

引用

c . c . Aggarwal和p . s .,保护隐私的数据挖掘:模型和算法施普林格,纽约,纽约,美国,2008年。
p . Samarati“保护受访者的身份在微数据版本中,“IEEE工程知识和数据,13卷,不。6,1010 - 1027年,2001页。视图:出版商的网站|谷歌学术搜索
l·斯威尼。”k匿名:保护隐私的典范”,国际期刊的不确定性、模糊性和Knowlege-Based系统,10卷,不。5,557 - 570年,2002页。视图:出版商的网站|谷歌学术搜索
Vaidya和c·克利夫顿”,保护隐私K在集群则在垂直分区数据。第九届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 03)华盛顿特区,页206 - 215,美国,2003年8月。视图:出版商的网站|谷歌学术搜索
T.-K。Yu S.-M d·t·李。多党Chang和j·詹。k——集群与隐私考虑,”国际研讨会上并行计算和分布式处理程序与应用程序,第207 - 200页,2010年。视图:谷歌学术搜索
r·a·麦卡利斯特和r . a . Angryk“抽象在文本分类、降维”国际期刊的智能系统,28卷,不。2、115 - 138年,2013页。视图:出版商的网站|谷歌学术搜索
t . c .天堂和j . c . Bezdek”,新配方coVAT视觉评估算法的聚类趋势矩形数据,”国际期刊的智能系统,27卷,不。6,590 - 612年,2012页。视图:出版商的网站|谷歌学术搜索
k . Kummamuru a Dhawale, r . Krishnapuram“模糊co-clustering文件和关键字,”《IEEE国际会议上模糊系统,卷2,2003年5月,页772 - 777。视图:谷歌学术搜索
k .本田、a . Notsu和h . Ichihashi”协同过滤的顺序user-item co-cluster提取矩形关系数据,”国际期刊的知识工程和软数据模式,卷2,不。4、312 - 327年,2010页。视图:出版商的网站|谷歌学术搜索
k .本田,m . Muranishi a Notsu, h . Ichihashi”FCM-type集群验证模糊co-clustering和协同过滤的适用性,”国际计算机科学杂志和网络安全,13卷,不。1,24-29,2013页。视图:谷歌学术搜索
学术界。哦,k .本田和h . Ichihashi直言多元数据的模糊聚类”联合学报》9日IFSA世界大会和20 NAFIPS国际会议2001年7月,页2154 - 2159。视图:谷歌学术搜索
j . c . Bezdek模式识别与模糊目标函数算法,充气出版社,1981年。
宫本茂和m . Mukaidono”模糊c——作为一个正规化和最大熵方法,”第七届国际模糊系统协会学报》世界大会,2卷,第92 - 86页,1997年。视图:谷歌学术搜索
宫本茂和k . Umayahara“在困难和模糊聚类方法,”软计算和以人为中心的机器,Z.-Q。刘和宫本茂,Eds。,Computer Science Workbench, pp. 85–129, Springer, Tokyo, Japan, 2000.视图:出版商的网站|谷歌学术搜索
k .本田美国押尾桑,a . Notsu“FCM-type模糊co-clustering K-L信息正规化,”《IEEE国际会议上模糊系统,第2510 - 2505页,2014年。视图:谷歌学术搜索
y Kanzawa和y Endo FNM-based和RFCM-based模糊co-clustering算法”《IEEE国际会议对模糊系统(FUZZ-IEEE 12)布里斯班,澳大利亚,页1 - 8,2012年6月。视图:出版商的网站|谷歌学术搜索
y Kanzawa”模糊co-clustering算法基于模糊关系聚类和三碘苯甲酸归责,“先进的计算智能和智能信息》杂志上,18卷,不。2、182 - 189年,2014页。视图:谷歌学术搜索
y Kanzawa”Bezdek-type直言多元数据的模糊聚类,”联合学报》第七届国际会议上软计算和智能系统(者)和15日先进智能系统(ISIS)国际研讨会Kita-Kyushu,页694 - 699年,日本,2014年12月。视图:出版商的网站|谷歌学术搜索
宫本茂和k . Umayahara“由二次正则化模糊聚类”《IEEE国际会议上模糊计算智能系统和IEEE世界大会,卷2,1998年5月,页1394 - 1399。视图:谷歌学术搜索
k本田和h Ichihashi”,正规化的线性模糊聚类和混合概率主成分分析模型,”IEEE模糊系统,13卷,不。4、508 - 516年,2005页。视图:出版商的网站|谷歌学术搜索
r . n . Dave”噪声的表征和检测聚类”,模式识别的字母,12卷,不。11日,第664 - 657页,1991年。视图:出版商的网站|谷歌学术搜索
r·n·戴夫和r . Krishnapuram“健壮的聚类方法:统一的视图,IEEE模糊系统,5卷,不。2、270 - 293年,1997页。视图:出版商的网站|谷歌学术搜索