比较研究三碘苯甲酸归责方法FCMdd-Based线性聚类与关系数据

文摘

关系模糊聚类中提取内在的发展集群的结构关系数据,并扩展到基于模糊线性模糊聚类模型-Medoids (FCMdd)概念,模糊————(FCM)像迭代算法是由定义线性聚类原型使用每一行的两个代表medoids原型。摘要FCMdd-type线性聚类模型进一步修改,以处理不完整的数据,包括缺失值,并比较几种归责方法的适用性。在几个数值试验,证明了一些pre-imputation策略有助于正确选择代表medoids每个集群。

1。介绍

关系模糊聚类的模糊聚类关系扩展揭示集群结构埋在关系数据。关系模糊——(RFCM) [1)扩展的模糊——(FCM) [2)聚类准则相互不同的措施,而不是在FCM type观察。尽管FCM和其他的变种——(3)使用数据点之间的距离的聚类准则和集群原型,RFCM只定义了聚类准则通过相互相异。当对象之间的异同以平方欧氏距离来衡量,RFCM标准相当于centroid-less FCM标准的制定。使用其他不同措施;然而,RFCM标准没有明确的连接与数据点之间的距离和原型。在-Medoids [4),从数据点选择集群原型,相互不同的聚类准则恰逢一个对象之间的程度。所以,-Medoids可以直接扩展到关系数据分析即使采取平均不可能在非欧几里得的空间完成。模糊-Medoids (FCMdd) [5)是一种模糊的延伸-Medoids并能处理各种不同的措施。

线性模糊聚类模型(6,7)提取线性子结构通过修改原型的FCM成线,飞机,和线性品种。因为每个集群的子空间学习模型可以用模糊识别主成分分析(PCA)模糊8),他们往往被视为一种当地的主成分分析(本地PCA) (9]。本文研究了FCMdd-based线性聚类模型(10),它可以揭示当地线性子结构埋在关系数据。在[10),混合等人定义每个典型的行通过使用两个代表medoids和证明了集群模式可以应用于欧几里得关系数据。FCMdd-type线性聚类模型进一步修改处理非欧几里得的关系数据(11,12),数据转换,称为传播转换,应用聚类算法在执行类似的方式Non-Euclidean-type关系模糊(削弱)——(13]。

本文比较研究的适用性传播执行转换FCMdd-based线性聚类的不完整的关系数据。海瑟薇和Bezdek [14)提出了几种方法的改动(预测和替换)缺失的元素不完全关系数据和显示污名可以修改错误传播转型削弱则。本文表明FCMdd-type线性模糊聚类的性能为不完全关系数据也可以提高传播转换通过几个比较实验包括文档聚类的一个例子。

本文的其余部分组织如下。节2概述了线性聚类和关系聚类。部分3介绍FCMdd-type线性聚类模型和适用于几种归责方法称为三碘苯甲酸。比较结果部分所示4在部分,并给出结论5。

2。线性聚类和关系聚类

2.1。FCM-Type线性聚类

假设我们有维的观察模式,。分区的目标模式进集群,FCM-type聚类的目标函数定义为模糊隶属度的模式吗集群,是模糊性参数。越大、模糊成员赋值。是衡量集群标准之间的偏差模式吗集群的原型。在最初的FCM聚类(2),集群原型的质心向量,是平方欧氏距离如下: FCM模型简化为硬(nonfuzzy)——模型(3)当中,集群成员由最近的原理样机。

除了逐步原型在FCM,模糊行(FCL) [6)中提取线性集群使用线性的原型定义为在哪里是主要的子空间的基向量,是线性的重心,通过原型。计算聚类准则更新规则成为会员和集群中心是派生基向量是广义模糊散射矩阵的主特征向量:

这个线性聚类模型与当地PCA(有着密切的关系9]。事实上,当我们只考虑单个集群(),FCL集群模型相当于传统的PCA和基向量减少到主成分向量。从这个意义上讲,整柜是一种当地的PCA,同时执行会员估计(本地模糊组提取)和模糊PCA (8在每个局部模糊组考虑模糊隶属度。典型的行可以确定主要由模糊主成分向量张成的子空间吗当地主成分分析的观点。

当,FCL模型也减少了硬(nonfuzzy)当地PCA模型(15,16),集群成员由最近的原理样机。

2.2。FCM-Type关系聚类

RFCM [1是关系FCM的延伸。当我们有关系数据模式之间的相互关系组成,FCM-type重新定义为目标函数可以是任何类型的模式之间的不同和但被认为是Euclidean-like RFCM。的确,这相当于FCM只有当模型是平方欧氏距离,和聚类模型得出只有可怜的结果如果是高度非欧几里得的关系信息。

为了修改RFCM处理非欧几里得的距离度量,海瑟薇和Bezdek [13)被认为是削弱,其中包括以下传播转换: 在哪里添加到非对角元素的非欧几里得的关系数据吗。是一个单位矩阵,是一个适当的选择标量。是一个矩阵的元素都是1。海瑟薇和Bezdek讨论是欧几里得如果与是半负定;也就是说,大于或等于最大的特征值。顺便说一下,基本RFCM迭代时可以继续聚类标准都是负的。在削弱,正逐渐从0增加到一定值通过考虑负元素的聚类标准。

3所示。FCMdd-Type线性聚类和三碘苯甲酸非难

3.1。FCMdd-Type线性聚类

假设相互欧几里得距离,这样吗 FCMdd [5)是一种模糊的延伸-medoids [4],它执行一个FCM-like集群通过选择从模式,。代表对象被称为“medoids”,给出了通过求解组合优化问题。哈加et al。10应用线性模糊聚类,在每一个线性原型是由两个代表medoids张成和作为对象之间的平方欧氏距离和典型的行给药

与固定模糊会员,导出了最优medoids以下组合优化问题: 最优medoid组通过列举所有成对的对象搜索。为了降低计算成本,简化medoid搜索过程也提出,在medoids选择从一个子集的对象: 在哪里。

这种线性模糊聚类模型也扩展到跨越2 d的2 d模型情况下典型的飞机使用三个medoids [10]。

尽管非欧几里得的关系数据可能会带来负的聚类标准(12),从实际的角度,我们没有麻烦操作常规FCMdd-type线性聚类算法如果所有聚类标准不是负面的。

山本等。(11提出了一个程序传播转换,避免负面准则值FCMdd-type线性聚类。因为消极的标准价值意味着非欧几里得的情况下,关系数据应该修订的标准总是非负价值。在先前的研究12),结果表明:聚类标准总是非负如果三角不等式()是满意的。然后,传播转型应该执行,这样下面的三角不等式满意为所有对象: 一个合理的值在一个迭代步骤中获得在这里,时积极一些是负面的,而是零当所有是负的。然后,是单调递增的。

一个示例程序,包括自动化传播转换可以概括如下:

步骤1。集。随机初始化原型medoids(两个代表对象)的每个集群。

步骤2。计算聚类标准由(12)。

步骤3。如果至少有一个对象、更新由(16)。

步骤4。更新模糊的会员(5)。

第5步。搜索medoids每个集群。

步骤6。重复步骤2- - - - - -5直到某个停止准则是满意。

在步骤6,这样的停止准则在哪里使用是一个小的积极价值。

虽然该模型在模糊聚类类别,很容易看出一个硬(non-fuzzy)版本时可以覆盖中,集群成员由最近的原理样机。

3.2。缺失值由三碘苯甲酸非难

海瑟薇和Bezdek [14]证明了传播转换也很有用在关系数据矩阵处理缺失的元素。论断虽然preimputation缺失的元素可能会导致错误和把非法的影响在聚类过程中,传播转换可以减少非法的效果。

本文认为几种归责技术的适用性FCMdd-type线性聚类。

海瑟薇和Bezdek [14)使用三个归责技术基于三角形inequality-based近似(三碘苯甲酸)。欧几里得的三角不等式关系数据总是满足,表示如下: 假设关系矩阵的一个元素失踪,是之前preimputed应用聚类算法。让被设置为相应的索引为每一个三角不等式(17)的上限。缺失的元素的最小上界所取代: 被称为极小极大三碘苯甲酸。顺便说一下,通过零值,估算如果是空的。

三角不等式也代表如下: 并将下列不等式: 的下界给药缺失的元素的最大下界所取代: 叫做极大极小三碘苯甲酸。

还可以结合前两个归责值预测合理估计缺失值。平均的极大极小值三碘苯甲酸和极大极小三碘苯甲酸用于将缺失的元素。这个三碘苯甲酸称为平均三碘苯甲酸。

这些污名技术基于三角形不等式可以很容易地应用到关系聚类问题。在下一节中,这三种归责方法比较FCMdd-type结合线性聚类任务传播转变。

4所示。数值实验

两个实验结果显示为了考虑三个三碘苯甲酸的适用性归罪在FCMdd-type线性聚类技术传播转变。

在以前的研究,它已被证明比“硬”“软”聚类模型的本地PCA任务(15- - - - - -17],“模糊”比概率模型可以更有用的(9]。因此,在本文中,模糊版的特点。

4.1。人工数据集

人为关系数据集由60从2 d模式生成数据集如图1中,形成两个线形集群模式。很明显,当地的线性结构不能由传统的提取point-prototype FCM-like模型和FCMdd等模型。我们做了两个关系数据矩阵。第一个关系数据矩阵是由欧几里得范数,第二个是生成的标准,非欧几里得的措施。执行迭代算法,直到medoids成为不变,和模型参数被设置为。为了证明算法的特点,最初的会员有监督的方式;也就是说,第一视觉集群和第二个。

在先前的研究12),证明了两个线性子结构可以成功地揭示了FCMdd-based线性聚类算法传播转换欧几里得关系数据,而这是可以做到的只有传播转换规范。

首先,欧几里得不完全关系数据矩阵生成通过删除非对角元素的一部分不是空的。为了保护三对角关系数据,设置为缺失的元素的最大数量。

相比之下,那些没有聚类结果传播转换图2。对象被划分为两个集群的圆圈和时间,和更小的时间意味着共享同样的两个集群模式。Medoids和典型的线用黑色的圆圈表示和线条,分别。

(一)极小极大三碘苯甲酸(没有。失踪:500)

(b)极大极小三碘苯甲酸(没有。失踪:400)

(c)平均三碘苯甲酸(没有。失踪:500)

每个近似法传播转换可以估计集群medoids捕捉两个视觉线性原型之前缺失的元素的数量小于约30%虽然含糊不清的会员模式增加超过完整的关系数据。传播执行转换近似,极大极小三碘苯甲酸:,极大极小三碘苯甲酸:,平均三碘苯甲酸:。这里,PDP的最大特征值归责后,极大极小三碘苯甲酸:0.053808,极大极小三碘苯甲酸:0.1711612,平均三碘苯甲酸:0.083694。所以,三碘苯甲酸归罪给稍微非欧几里得的情况,和传播转型成功修改了数据集。

另一方面,没有传播转型,只有平均三碘苯甲酸能提取线性子结构虽然极小极大三碘苯甲酸和极大极小三碘苯甲酸带来不适当的结果,一些黑钻石图模式2聚类准则值是负数。

这些结果暗示FCMdd-type线性聚类可以成功地提取不完整的线性子结构欧几里得关系数据使用传播转换尽管三个归责技术导致非欧几里得的关系矩阵。

第二,FCMdd-type线性模糊聚类应用于非欧几里得的关系数据。

不完整的关系数据矩阵生成的以同样的方式与欧几里得的情况。聚类结果是描绘在图3。

(一)极小极大三碘苯甲酸(没有。失踪:1000)

(b)极大极小三碘苯甲酸(没有。失踪:700)

(c)平均三碘苯甲酸(没有。失踪:1100)

与传播转换、极大极小三碘苯甲酸和平均三碘苯甲酸可以提取线性原型之前缺失的元素的数量小于约60%,和极大极小三碘苯甲酸也可能直到约40%。的参数在传播转换是极小极大三碘苯甲酸:,极大极小三碘苯甲酸:,平均三碘苯甲酸:。派生的值仍小于PDP的最大特征值,极大极小三碘苯甲酸:,极大极小三碘苯甲酸:,平均三碘苯甲酸:0.619776。

没有传播转换;不过,所有这三个三碘苯甲酸带来不适当的分区,因为许多模式聚类准则值是负数。

通过这种方式,传播转换还在不完整的情况下运转良好。

4.2。文档聚类

在第二个实验中,三碘苯甲酸归责方法相比在文档分类的任务。关系数据集生成使用日本著名小说夏目漱石“Kokoro”。小说由三章(老师和我,我和我的父母,老师和他的证明),包括36章,18岁,56个部分,分别。文本数据(日语)可以从青空银行诈骗的下载(http://www.aozora.gr.jp/)。的部分被用作单个文本文档(),这应该是分区没有章的信息。文本文档的预处理使用“Chasen”形态分析系统软件(http://chasen.naist.jp/hiki/ChaSen/),这段日本文本字符串到语素。和田等。(18)执行PCA-based结构分析与83年最常用substantives和动词tf-idf重量和透露,章结构可以强调通过使用10有意义的关键字,显示在图4,这是2 d biplots主要组件。章节2和3在10维数据空间,形成两个线性集群和第1章存在于他们的十字路口。在这个实验中,参数设置为,的目的,揭示了两个线性子结构。

两个关系数据矩阵生成考虑同现的10个关键字的信息。Jaccard系数和骰子系数的相似性度量信息不对称二进制变量(19]。假设共存的信息关键字在两个文本文档归纳在一个2×2列联表如表所示1其中“1”表示出现的关键字。


	关键字B

关键字一	1	0	总
1	一个	b	a + b
0	c	d	c + d

总	a + c	b + d

Jaccard的相似性系数表示为

骰子的相似性系数也表示为

因为线性聚类模型使用距离(dis-similarity)措施,相似的措施被转换成不同的吗。

应用FCMdd-based线性模糊聚类之前,随机选择从关系矩阵元素保留11772个元素,由三个三碘苯甲酸的方法估算。然后,Jaccard集群分区的索引是派生的,如图5。两个集群由圆圈和时间描述,和小*说模棱两可的任务。文件被正确地划分为两个集群考虑线性子结构。

(一)极小极大三碘苯甲酸(没有。失踪:6200)

(b)极大极小三碘苯甲酸(没有。失踪:8000)

(c)平均三碘苯甲酸(没有。失踪:7200)

极大极小三碘苯甲酸允许缺失值为50%或更少。缺失值平均三碘苯甲酸容忍60%或更少。极大极小三碘苯甲酸导致一个好的分区缺失值为68%或更少。的参数在极大极小三碘苯甲酸扩散变换得到:,极大极小三碘苯甲酸:,平均三碘苯甲酸:。派生的值仍小于PDP的最大特征值没有缺失的元素,极大极小三碘苯甲酸:5.662,极大极小三碘苯甲酸:4.548,平均三碘苯甲酸:2.427。

聚类结果骰子系数描述在图6。我们的方法也从关系数据不完整提取线性子结构的骰子系数。极大极小三碘苯甲酸允许缺失值为48%或更少。缺失值平均三碘苯甲酸容忍55%或更少。极大极小三碘苯甲酸导致一个好的分区缺失值为63%或更少。的参数在传播转换得到,极大极小三碘苯甲酸:,极大极小三碘苯甲酸:,平均三碘苯甲酸:。派生的值仍小于PDP的最大特征值,极大极小三碘苯甲酸:,极大极小三碘苯甲酸:,平均三碘苯甲酸:。

(一)极小极大三碘苯甲酸(没有。失踪:5600)

(b)极大极小三碘苯甲酸(没有。失踪:7400)

(c)平均三碘苯甲酸(没有。失踪:6600)

在实验中,证明了三碘苯甲酸归责方法适合不完整的非欧几里得的关系数据结合传播转变。

最后,与其他方法进行了探讨。尽管我们已经许多聚类算法,其中一些被用于文档聚类任务(20.),其中大部分是设计寻找类似的模式组成的团体的观点“原型”或“分层聚合”。例如,模糊-Medoids (FCMdd) [5),这是一个代表point-prototype模型的方法,可以应用于本节的关系数据集。图7显示的聚类结果发现三章结构的圈子,次,三角形。小时代意味着模棱两可的作业。传统聚类方法是有用的寻找这样的文档组织考虑相互之间的相似文档(或某个关键字组)。

(一)Jaccard(没有。失踪:8000)

(b)骰子(没有。失踪:7400)

另一方面,该方法适用于不同的目的找到“局部线性结构”从当地主成分分析的角度,对cluster-wise有用信息汇总等当地特色地图建设。在这个意义上,该方法有不同的未来应用领域从传统的聚类工具。

5。结论

本文比较了三碘苯甲酸归责方法和适用性传播转变为处理不完整的在FCMdd-type线性关系数据聚类。在数值实验中,三种归责技术极大极小三碘苯甲酸,极大极小三碘苯甲酸,并使用两个数据集比较平均三碘苯甲酸。实验结果表明传播转型仍然适用于不完整的数据结合传播转变。将不完整的所有三个三碘苯甲酸是有用的非欧几里得的关系数据。

从当地PCA概念的观点,该方法可用于本地信息汇总或本地特性映射构造数据结构在低维空间中视觉上总结了结合数据聚类。应用程序仍然在未来的工作。另一个潜在的未来的工作是一个扩展到多维原型模型的情况下,这是有用的地图构建二维特性。

承认

这项工作是支持部分由教育部,文化、体育、科技、日本,在科研补助金(23500283)。

引用

r·j·海瑟薇j·w·达文波特和j . c . Bezdek”关系的双刀c——聚类算法”,模式识别,22卷,不。2、205 - 212年,1989页。视图:谷歌学术搜索
j . c . Bezdek模式识别与模糊目标函数算法,充气出版社,1981年。
j·b·MacQueen“一些分类方法和多变量分析观察,”第五伯克利分校学报》研讨会上数理统计和概率,页281 - 297年,加州大学出版社,1967年伯克利,加州,美国。视图:谷歌学术搜索
l·考夫曼和p . j . Rousseeuw发现组织数据:介绍了聚类分析,1990年Wiley-Interscience。
r . Krishnapuram a . Joshi o . Nasraoui, l .咦,“低模糊关系挖掘网络聚类算法,”IEEE模糊系统,9卷,不。4、595 - 607年,2001页。视图:出版商的网站|谷歌学术搜索
j . c . Bezdek c . Coray r·甘德森和j·华生,”集群子结构1的检测和表征。线性结构模糊c行”,暹罗在应用数学》杂志上,40卷,不。2、339 - 357年,1981页。视图:谷歌学术搜索
j . c . Bezdek c . Coray r·甘德森和j·华生,”集群子结构2的检测和表征。模糊c-varieties及其凸组合。”暹罗在应用数学》杂志上,40卷,不。2、358 - 372年,1981页。视图:谷歌学术搜索
y Yabuuchi和j . Watada”模糊主成分分析及其应用”,生物医学模糊和人文科学,3卷,第92 - 83页,1997年。视图:谷歌学术搜索
k本田和h Ichihashi”,正规化的线性模糊聚类和混合概率主成分分析模型,”IEEE模糊系统,13卷,不。4、508 - 516年,2005页。视图:出版商的网站|谷歌学术搜索
本田混合n, k、a . Notsu和h . Ichihashi“本地扩展模糊子空间学习c-medoids集群”,国际期刊的知识工程和软数据模式,卷2,不。2、169 - 181年,2010页。视图:谷歌学术搜索
t .山本,k .本田、a . Notsu和h . Ichihashi”基于FCMdd线性非欧几里得的关系数据聚类模型,”第五届国际会议上软计算的程序和智能系统,页243 - 247,2010,11日国际研讨会上先进的智能系统。视图:谷歌学术搜索
t .山本,k .本田、a . Notsu和h . Ichihashi”FCMdd-based线性聚类关系数据的非欧几里得的延伸,“先进的计算智能和智能信息》杂志上。在出版社。视图:谷歌学术搜索
r·j·海瑟薇和j . c . Bezdek”削弱c则:非欧几里得的关系模糊聚类”,模式识别,27卷,不。3、429 - 437年,1994页。视图:出版商的网站|谷歌学术搜索
r·j·海瑟薇和j . c . Bezdek”,使用非欧几里得的关系模糊聚类关系数据不完整c则算法”,模式识别的字母,23卷,不。1 - 3、151 - 160年,1994页。视图:出版商的网站|谷歌学术搜索
n Kambhatla和t·k·利恩”,由当地主成分降维分析,“神经计算,9卷,不。7,1493 - 1516年,1997页。视图:谷歌学术搜索
g·e·辛顿·达扬和m . Revow“手写数字建模图像的集合管”,IEEE神经网络,8卷,不。1,第74 - 65页,1997。视图:谷歌学术搜索
小费和c . m .主教“概率主成分分析的混合物,神经计算,11卷,不。2、443 - 482年,1999页。视图:谷歌学术搜索
h .和田k .本田、a . Notsu和h . Ichihashi”文档地图建设和关键词选择基于当地的PCA,”诉讼的第四届国际会议上软计算和智能系统,页682 - 685、2008、9日国际研讨会上先进的智能系统。视图:谷歌学术搜索
m·r·Anderberg聚类分析应用程序、学术出版社,1973年。
A . Hotho A Nurnberger进行,g . Paaß文本挖掘的简短的调查,“计算语言学和语言技术》杂志上,20卷,19 - 62、2005页。视图:谷歌学术搜索

模糊系统的进步

模糊函数、关系和模糊变换:理论方面和应用模糊系统

文摘