研究文章|gydF4y2Ba开放获取gydF4y2Ba
Huu协福阮gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba集群使用社区检测技术分类数据gydF4y2Ba”,gydF4y2Ba计算智能和神经科学gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2017年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba8986360gydF4y2Ba,gydF4y2Ba 11gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2017年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2017/8986360gydF4y2Ba
集群使用社区检测技术分类数据gydF4y2Ba
文摘gydF4y2Ba
的出现gydF4y2Ba模式算法,聚类分类数据的工具箱一个有效的工具,尺度线性数据项的数量。然而,随机初始化集群中心gydF4y2Ba模式很难达到良好的聚类不必诉诸许多试验。最近提议的方法更好的初始化是决定性的,大大降低集群成本。不同的初始化方法不同的启发式选择初始中心的设置。在本文中,我们解决聚类问题分类数据从社区的角度检测。而不是初始化gydF4y2Ba模式和运行多个迭代,我们计划,CD-Clustering,构建一个无关紧要的图和检测高内聚组节点使用一个快速社区探测技术。——顶部gydF4y2Ba发现社区规模将定义gydF4y2Ba模式。评价十实际分类数据表明,我们的方法优于现有的初始化方法gydF4y2Ba模式的准确度、精度和召回在大多数情况下。gydF4y2Ba
1。介绍gydF4y2Ba
聚类任务是一种无监督学习,旨在发现底层结构在无标号数据。对象划分为若干个同质组或集群,这样的星团内物品有很高的相似性,但在其他集群非常不同的对象。很多聚类方法已经提出和发展了几十年(最近的一项调查,看到gydF4y2Ba1gydF4y2Ba])。gydF4y2Ba分层gydF4y2Ba集群和gydF4y2BapartitionalgydF4y2Ba聚类是聚类算法的两种主要类型。而分层聚类产生的层次结构分区(即。,一个dendrogram) over the dataset by applying agglomerative or divisive strategies, partitional clustering usually assumes a fixed number of clusters and tries to maximize the homogeneity within the clusters.
对于数值型数据,gydF4y2Ba则gydF4y2Ba算法是一个著名的和广泛使用的方法在实践中由于其简单性和效率。gydF4y2Ba——发现一组gydF4y2Ba集群中心的数据集,这样距离平方的总和的每一点最近的聚类中心最小化。劳埃德算法(gydF4y2Ba2gydF4y2Ba)开始gydF4y2Ba随机任意的中心,通常选择统一的数据点。然后分配给每个点最近的中心,每个中心是重新计算的质心点分配给它。重复这两个步骤,直到过程稳定。删除的numeric-only限制gydF4y2Ba则算法,黄(gydF4y2Ba3gydF4y2Ba)开发gydF4y2Ba模式算法,扩展了gydF4y2Ba则算法通过使用(1)一个简单的匹配不同测量分类属性(2)模式代替对集群和(3)意味着frequency-related策略更新模式集群成本降到最低。显示了算法与线性时间复杂度达到收敛对数据项的数量。gydF4y2Ba
然而,gydF4y2Ba模式算法也是非常敏感的初始聚类中心的选择,一个不当的选择可能导致非常不受欢迎的集群结构。同样的现象发生gydF4y2Ba则导致更好的播种等解决方案gydF4y2Bak - means + +gydF4y2Ba(gydF4y2Ba4gydF4y2Ba)及其衍生物gydF4y2Ba则gydF4y2Ba(gydF4y2Ba5gydF4y2Ba),gydF4y2Ba- - - - - -gydF4y2Ba(gydF4y2Ba6gydF4y2Ba]。更好的初始化聚类中心gydF4y2Ba模式,许多方法已经开发(gydF4y2Ba7gydF4y2Ba- - - - - -gydF4y2Ba10gydF4y2Ba]。的公共点gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba10gydF4y2Ba)是使用每个数据点的密度与顺序确定的距离gydF4y2Ba初始聚类中心。汗,艾哈迈德(gydF4y2Ba9gydF4y2Ba]提出了使用多个集群数据的基于属性值在不同的属性。gydF4y2Ba
在本文中,我们开发一种新的聚类方法基于社区的分类数据检测技术(gydF4y2Ba11gydF4y2Ba]。考虑到每个数据点作为一个节点,我们构建一个简单的图gydF4y2Ba如果任何两个节点的边连接它们之间的汉明距离小于一个阈值。估计阈值是通过数据点的数量gydF4y2Ba ,gydF4y2Ba集群的数量gydF4y2Ba ,gydF4y2Ba和成对汉明距离分布。考虑到图gydF4y2Ba ,gydF4y2Ba我们运行鲁汶算法(gydF4y2Ba12gydF4y2Ba)检测不重叠的凝聚力的社区内gydF4y2Ba 。gydF4y2Ba——顶部gydF4y2Ba社区的大小将被保留为核心的集群,每个代表的一个模式。剩下的数据点(如果有的话)被分配到最近的模式。请注意,我们的算法并不是一个初始化技术(gydF4y2Ba3gydF4y2Ba,gydF4y2Ba7gydF4y2Ba- - - - - -gydF4y2Ba10gydF4y2Ba因为它产生直接的集群。gydF4y2Ba
之前工作相比,我们的方案突出了以下特点:gydF4y2Ba(我)gydF4y2Ba我们提出一种新的聚类方法CD-Clustering呼吁使用社区检测技术分类数据。我们计划使用一个简单的启发式阈值来确定距离图施工。也是确定的,而不是传统gydF4y2Ba用随机初始化模式集群中心。gydF4y2Ba(2)gydF4y2Ba我们评估我们的计划在十实际分类数据集和比较它和随机初始化和另外两个初始化方法。结果表明,我们的技术精度方面优于竞争对手的情况。gydF4y2Ba
本文的其余部分组织如下。部分gydF4y2Ba2gydF4y2Ba简要回顾相关工作gydF4y2Ba模式聚类和社区检测。部分gydF4y2Ba3gydF4y2Ba本文讨论几个关键概念用于通过一些说明性的例子。节gydF4y2Ba4gydF4y2Ba,我们描述一个简单的距离阈值估计和我们的主要算法。评价和比较部分所示gydF4y2Ba5gydF4y2Ba。最后,部分gydF4y2Ba6gydF4y2Ba总结了论文与未来的工作指针。gydF4y2Ba
2。相关工作gydF4y2Ba
2.1。gydF4y2Ba模式和初始化技术gydF4y2Ba
就像在gydF4y2Ba则,已广泛应用于随机初始化方法gydF4y2Ba模式聚类的简单性。然而,随机方法并不能保证一个独特的聚类结果,可能发生和非常贫穷的聚类结果。与低失真,获得理想的聚类结果gydF4y2Ba模式算法必须执行许多次。gydF4y2Ba
在[gydF4y2Ba3gydF4y2Ba黄),提出了两个简单的初始化方法gydF4y2Ba模式,第一种方法选择第一个gydF4y2Ba对象的数据集作为初始聚类中心,第二种方法分配同样的最常见的类别gydF4y2Ba初始聚类中心。然而,第一个方法只有在第一个工作gydF4y2Ba对象来自gydF4y2Ba不相交的集群,而第二种方法缺乏一个统一的标准选择初始集群。gydF4y2Ba
吴et al。gydF4y2Ba10gydF4y2Ba提出了一种基于密度的初始化方法gydF4y2Ba模式。曹et al。gydF4y2Ba8gydF4y2Ba)提出了一个方法来选择初始聚类中心之间的距离通过考虑对象和每个对象的密度。白等。gydF4y2Ba7gydF4y2Ba)提出了一个初始化方法,类似于(gydF4y2Ba8gydF4y2Ba),但尽量避免选择集群作为第一个聚类中心之间的边界对象。然而,评估结果(gydF4y2Ba7gydF4y2Ba有一些问题:几个数据集,计算精度,精度和召回值不正确报道汗和艾哈迈德gydF4y2Ba9gydF4y2Ba]。在[gydF4y2Ba9gydF4y2Ba),汗和Ahmad给出一个初始化算法gydF4y2Ba通过执行多个集群模式的数据基于属性值出现在不同的属性。gydF4y2Ba
长期的启发式聚类初始化上面所讨论的,有很多想法的不同分数提高标准gydF4y2Ba模式算法(gydF4y2Ba13gydF4y2Ba- - - - - -gydF4y2Ba16gydF4y2Ba]。Ng et al。gydF4y2Ba15gydF4y2Ba]给出了严格的证明对象集群成员赋值方法和模式更新公式在不同测量提出了(gydF4y2Ba14gydF4y2Ba事实上最小化目标函数。曹et al。gydF4y2Ba13gydF4y2Ba)提出了一种新的不同措施的考虑属性值的分布在整个宇宙。在[gydF4y2Ba16gydF4y2Ba),周等人进一步通过定义了全球合作关系不同(研磨)措施。gydF4y2Ba
2.2。社区检测图gydF4y2Ba
有一个巨大的文学社区检测图。在最近的一次全面调查,我们指的是(gydF4y2Ba11gydF4y2Ba]。在本节中,我们讨论几类技术。gydF4y2Ba
纽曼和Girvan [gydF4y2Ba17gydF4y2Ba)提出gydF4y2Ba模块化gydF4y2Ba作为一个网络聚类的质量。它是基于随机图的想法是不会有一个模块化结构,揭示出可能存在的集群是比较边缘的子图的实际密度,密度会在图的子图,如果节点连接随机(零模型)。gydF4y2Ba
提出了许多优化模块化的方法在过去的十年,如凝结的贪婪(gydF4y2Ba18gydF4y2Ba),模拟退火(gydF4y2Ba19gydF4y2Ba),光谱优化(gydF4y2Ba20.gydF4y2Ba),鲁汶方法(gydF4y2Ba12gydF4y2Ba),仅举几例。其他方法包括随机漫步gydF4y2Ba21gydF4y2Ba],统计力学[gydF4y2Ba22gydF4y2Ba),标签传播(gydF4y2Ba23gydF4y2Ba],InfoMap [gydF4y2Ba24gydF4y2Ba]。最近的多层次的方法,也称为gydF4y2Ba鲁汶方法gydF4y2Ba,他们批判et al。gydF4y2Ba12gydF4y2Ba)是最佳性能方案之一。天平很好与数亿节点/边图。gydF4y2Ba
3所示。预赛gydF4y2Ba
在本节中,我们审查的几个关键概念gydF4y2Ba模式算法和社区检测技术。我们还讨论如何解决分类数据的聚类问题从社区的角度检测。gydF4y2Ba
符号总结了本文中使用的符号。gydF4y2Ba
3.1。聚类分类数据gydF4y2Ba
让gydF4y2Ba 分类数据集gydF4y2Ba数据点gydF4y2Ba 。gydF4y2Ba每个数据点gydF4y2Ba有gydF4y2Ba分类属性的设置gydF4y2Ba 。换句话说,数据集gydF4y2Ba可以表示为一个表gydF4y2Ba行和gydF4y2Ba列中gydF4y2Ba 表示gydF4y2Ba数据点的属性gydF4y2Ba 。gydF4y2Ba
的gydF4y2Ba模式聚类算法(gydF4y2Ba3gydF4y2Ba的延伸gydF4y2Ba则算法聚类分类数据通过使用一个简单的不同措施。它还采用frequency-related策略更新模式聚类的聚类成本降到最低。最简单的匹配不同测量两个数据点之间gydF4y2Ba和gydF4y2Ba被定义为汉明距离:gydF4y2Ba 在哪里gydF4y2Ba表示gydF4y2Bath的属性gydF4y2Ba和gydF4y2Ba 如果gydF4y2Ba 或gydF4y2Ba 否则。显然,任何两个数据点之间的汉明距离在于集gydF4y2Ba 。gydF4y2Ba
给定一组数据点gydF4y2Ba ,一个gydF4y2Ba模式gydF4y2Ba的gydF4y2Ba是一个对象gydF4y2Ba 在哪里gydF4y2Ba 最小化的总和gydF4y2Ba 。gydF4y2Ba换句话说,gydF4y2Ba 最常见的值在吗gydF4y2Ba关于gydF4y2Bath属性(gydF4y2Ba3gydF4y2Ba]。请注意,gydF4y2Ba不一定是一个对象的gydF4y2Ba 。gydF4y2Ba当模式并不是一个对象的一个集合,它可以被假定为一个虚拟的对象。gydF4y2Ba
最初的gydF4y2Ba模式算法(gydF4y2Ba3gydF4y2Ba]试图最小化代价函数如下:gydF4y2Ba 在哪里gydF4y2Ba 和gydF4y2Ba 。的gydF4y2Ba模式算法(gydF4y2Ba3gydF4y2Ba运行以下步骤:gydF4y2Ba(1)gydF4y2Ba选择gydF4y2Ba初始模式,每个集群。gydF4y2Ba(2)gydF4y2Ba分配对象的集群模式是最近的。更新后的集群模式每个分配使用最常见的属性值。gydF4y2Ba(3)gydF4y2Ba所有对象被分配给集群后,重新测试对象的不同对当前模式。如果找到一个对象,其最近的模式属于另一个集群而不是当前,重新分配对象,集群,集群的更新模式。gydF4y2Ba(4)gydF4y2Ba重复(3),直到一个完整的循环测试后没有对象改变了集群的整个数据集。gydF4y2Ba
3.2。社区检测通过模块化优化gydF4y2Ba
给出一个简单的图gydF4y2Ba与gydF4y2Ba不相交的社区,模块化gydF4y2Ba被定义为gydF4y2Ba 在哪里gydF4y2Ba是集群的数量,gydF4y2Ba是边加入节点的总数在社区gydF4y2Ba ,gydF4y2Ba和gydF4y2Ba是节点的度的总和gydF4y2Ba 。gydF4y2Ba模块化是一个标量值的范围gydF4y2Ba用更大的值意味着更好的聚类。gydF4y2Ba
例1。gydF4y2Ba使用图gydF4y2Ba1gydF4y2Ba,我们说明了如何计算图的模块化gydF4y2Ba对集群gydF4y2Ba
。gydF4y2Ba图有六个节点和七个边(gydF4y2Ba
)。在图gydF4y2Ba1(一)gydF4y2Ba聚类是gydF4y2Ba
,所以gydF4y2Ba
(两个集群)。第一集群gydF4y2Ba
。对于第二个集群,gydF4y2Ba
。因此,公式(gydF4y2Ba3gydF4y2Ba),模块化gydF4y2Ba
。gydF4y2Ba
同样,为聚类图gydF4y2Ba1 (b)gydF4y2Ba
,模块化gydF4y2Ba
。显然,模块化的gydF4y2Ba是高于gydF4y2Ba
。gydF4y2Ba这一事实也证实了通过观察两种类型的集群中gydF4y2Ba分区节点分成更多的同质组。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
自2008年推出以来,gydF4y2Ba鲁汶方法gydF4y2Ba(gydF4y2Ba12gydF4y2Ba)成为最常被引用的方法社区检测任务。它优化了模块化自底向上折叠过程。算法分为传递,每个重复迭代由两个阶段组成。最初,每个节点分配给一个不同的社区。因此,将尽可能多的社区有节点在第一阶段。然后,为每个节点gydF4y2Ba ,gydF4y2Ba模块化的方法考虑了增益如果我们移动gydF4y2Ba从社区的社区的邻居gydF4y2Ba(一个gydF4y2Ba局部变化gydF4y2Ba)。的节点gydF4y2Ba然后放置在这获得最大的社区和积极的(如果有的话);否则它呆在原来的社区。这个过程是顺序反复申请所有节点可以实现,直到没有进一步改善和第一遍就完成了。gydF4y2Ba
例2。gydF4y2Ba我们将演示鲁汶方法图gydF4y2Ba2gydF4y2Ba图13节点和20的边缘。如果每个节点形成自己的独立社区,模块化gydF4y2Ba将gydF4y2Ba 。gydF4y2Ba在鲁汶第一遍的方法中,每个节点移动到最好的社区选择从邻国的社区。我们得到的分区gydF4y2Ba 0.46375与模块化。首先通过构建一个加权图的第二阶段对应分区通过聚合社区。第二步重复折叠的过程在这个加权图达到最后的分区gydF4y2Ba 0.47与模块化。gydF4y2Ba
这个贪婪的[所凝结的方法有几个优点gydF4y2Ba12gydF4y2Ba]。首先,其步骤是直观且容易实现,结果是无人监管。第二,该算法非常快,也就是说,大型模块化的网络上的计算机模拟表明,其复杂性是线性的典型和稀疏数据。这是由于这一事实可能的模块化易于计算和社区的数量大幅减少几过后,大部分运行时间集中在第一个迭代。第三,多层次的方法生成一个社区的层次结构允许多分辨率分析,即用户可以放大图观察其结构与所需的分辨率。gydF4y2Ba
注意,在鲁汶方法,节点的移动获得更好的模块化仅限于邻居(连接)的社区。因此,发现社区属于一个且只有一个连接组件。换句话说,一个社区从未跨越不同的连接组件图。gydF4y2Ba
4所示。算法gydF4y2Ba
4.1。汉明距离阈值的估计gydF4y2Ba
构建图gydF4y2Ba的数据集gydF4y2Ba ,gydF4y2Ba我们需要估计的距离阈值gydF4y2Ba所以,任何两个数据点gydF4y2Ba和gydF4y2Ba如果汉明距离连接gydF4y2Ba 。就像前面提到的gydF4y2Ba3所示。1gydF4y2Ba,汉明距离gydF4y2Ba 位于集gydF4y2Ba 。gydF4y2Ba在一个极端gydF4y2Ba ,图gydF4y2Ba有至少边缘之间存在重复的数据点。在另一个极端gydF4y2Ba ,我们得到一个完整的图形gydF4y2Ba :gydF4y2Ba任意两个节点相连。显然,一些值的距离阈值gydF4y2Ba将会使gydF4y2Ba看起来更gydF4y2Ba模块化gydF4y2Ba比其他的;即,它的节点集中在社区,因此更容易探测。gydF4y2Ba
在本文中,我们提出一个简单的启发式评估gydF4y2Ba基于数据点之间的汉明距离的分布gydF4y2Ba考虑到数量的集群gydF4y2Ba 。gydF4y2Ba与gydF4y2Ba数据点,gydF4y2Ba两两距离。平凡地假设gydF4y2Ba集群的大小,每个集群gydF4y2Ba 分和星团内的距离在每个集群的数量gydF4y2Ba 。gydF4y2Ba总的来说,有gydF4y2Ba 星团内的距离。在实践中gydF4y2Ba ,因此星团内距离的比值超过两两距离的数量gydF4y2Ba
换句话说,鉴于成对的累积分布函数(CDF)的距离,我们可以估计gydF4y2Ba在点,gydF4y2Ba 和gydF4y2Ba 。图gydF4y2Ba3gydF4y2Ba说明了这个想法的十个数据集用于我们的实验。gydF4y2Ba
(一)大豆()gydF4y2Ba
(b)蘑菇()gydF4y2Ba
(c)动物园()gydF4y2Ba
(d)肺癌()gydF4y2Ba
(e)乳腺癌()gydF4y2Ba
(f)皮肤病()gydF4y2Ba
(g)投票()gydF4y2Ba
(h)托儿所()gydF4y2Ba
(我)国际象棋()gydF4y2Ba
(j)心()gydF4y2Ba
我们也观察到gydF4y2Ba预期gydF4y2Ba之间的汉明距离两个随机数据点大属性值时认为是均匀分布的。具体地说,考虑到设置的属性gydF4y2Ba ,预期之间的汉明距离两个随机的数据点gydF4y2Ba和gydF4y2Ba是gydF4y2Ba 在哪里gydF4y2Ba 的基数是吗gydF4y2Bath nonsingleton属性。更大的gydF4y2Ba ,gydF4y2Ba更大的预期的汉明距离。gydF4y2Ba
4.2。聚类算法gydF4y2Ba
现在,我们描述我们的社区检测聚类方案(名为CD-Clustering)算法中概述gydF4y2Ba1gydF4y2Ba。该计划包括两个阶段。在第一阶段,我们计算所有成对的CDF实验组的汉明距离和距离分布((1)-(2)行)。然后,我们估计的距离阈值gydF4y2Ba使用一个简单的假设gydF4y2Ba4.1gydF4y2Ba((4)-(6)行)。在第二阶段,我们构建图表gydF4y2Ba每个节点代表一个数据点。两个节点相连的边如果他们的汉明距离不大于gydF4y2Ba((8)-(11)行)。(12),我们运行鲁汶方法(gydF4y2Ba12gydF4y2Ba)gydF4y2Ba检测高内聚组的节点。——顶部gydF4y2Ba 发现社区的大小将被保留((13)行)。然后,我们确定模式gydF4y2Ba在每个社区的数据点gydF4y2Ba((14)(15)行)。剩下的数据点(即。,数据点that do not belong to any of the top-社区)分配给最近的模式((16)-(17)行)。正如我们稍后显示部分gydF4y2Ba5gydF4y2Ba,除了数据集gydF4y2Ba蘑菇gydF4y2Ba,剩余的数据点的数量非常小。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||
CD-Clustering的复杂性是由所有成对的汉明距离的计算和卢万法。所有成对的汉明距离计算gydF4y2Ba 。gydF4y2Ba鲁汶方法在线性的时间经营经验边的数量(gydF4y2Ba12gydF4y2Ba]。再次,使用简单的假设gydF4y2Ba集群的规模,星团内的距离是近似的数量gydF4y2Ba 。gydF4y2Ba所以边的数量gydF4y2Ba也gydF4y2Ba ,gydF4y2Ba使得鲁汶方法的运行时gydF4y2Ba 。总的来说,CD-Clustering的复杂性gydF4y2Ba 。二次的复杂性是我们CD-Clustering方案的主要缺点,限制了其应用的数据集50000数据点或更少。一个类似的可伸缩性限制出现在[gydF4y2Ba25gydF4y2Ba]的作者需要一个相似矩阵的大小gydF4y2Ba 。gydF4y2Ba汉明距离分布的近似考虑是可能的,例如,从任何点的距离gydF4y2Ba来gydF4y2Ba(而不是所有gydF4y2Ba 其他点。这个近似方案的复杂性将减少gydF4y2Ba 。gydF4y2Ba我们离开这个想法对未来工作。表gydF4y2Ba1gydF4y2Ba比较我们CD-Clustering计划的时间复杂度与两种初始化方法(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba]。gydF4y2Ba
|
||||||||||||||
5。评价gydF4y2Ba
在本节中,我们评估该方案的性能。部分中描述的现实世界的数据集和评价指标gydF4y2Ba5。1gydF4y2Ba和gydF4y2Ba5。2gydF4y2Ba。我们展示了我们的方法的性能gydF4y2Ba5。3gydF4y2Ba。聚类算法在c++中实现,运行在桌面PCgydF4y2Ba英特尔gydF4y2Ba®酷睿i7 - 6700 @ 3.4 Ghz, 16 GB的内存。为了再现性,我们提供源代码的数据(gydF4y2Bahttps://gitlab.com/hiepnh.duytan/Research/tree/master/k-modes-communitygydF4y2Ba)。gydF4y2Ba
5.1。数据集gydF4y2Ba
我们挑选十纯粹从UCI机器学习库分类数据集(gydF4y2Ba26gydF4y2Ba)每个数据集有一个简短的描述如下。中使用的数据集[相比gydF4y2Ba9gydF4y2Ba),我们添加三个新数据集:幼儿园,下国际象棋,和心脏。注意,我们考虑属性值缺失”吗?“作为一个新属性值。gydF4y2Ba
大豆小。gydF4y2Ba这个数据集包含47例大豆病每35多值分类变量的特征。这些病例是来自四个种群,每个其中之一代表以下大豆疾病之一:D1-Diaporthe茎溃疡病,D2-Charcoat腐烂,D3-Rhizoctonia根腐病,和D4-Phytophthorat腐烂。我们只保留21 nonsingleton属性。gydF4y2Ba
蘑菇数据。gydF4y2Ba蘑菇数据集由8124名通过22个类别属性描述的数据对象分布在2类。两个类是可食用(4208对象)和有毒(3916对象)。11个缺失值的属性。gydF4y2Ba
动物园的数据。gydF4y2Ba它有101 16描述属性和实例分成7类。第一个属性为每个实例包含一个独特的动物名称,因为它是noninformative删除。所有其他特征属性是布尔除了人物属性对应的腿在于集gydF4y2Ba 。gydF4y2Ba
肺癌的数据。gydF4y2Ba这个数据集包含32个实例描述了56中缺失值分布在3类属性5岁至39岁。gydF4y2Ba
乳腺癌数据。gydF4y2Ba这与9属性数据有699个实例。每个数据对象标记为良性(458或65.5%)或恶性(241或34.5%)。有9个实例属性包含缺失属性值6和9。gydF4y2Ba
皮肤病学数据。gydF4y2Ba这个数据集包含六个类型的皮肤病366例使用34个临床评价属性,33人分类和数值。分类属性值表示度而言,是否存在功能,并包含最大或相对的中间值。在我们的实验中,离散化数值属性(代表病人的年龄)为10个类别。gydF4y2Ba
国会投票数据。gydF4y2Ba这个数据集包括美国众议院议员的选票在16个关键选票。每个的选票可以是的,不,还是一个未知的性格。数据有2类与267年民主党和168年共和党实例。gydF4y2Ba
托儿所。gydF4y2Ba这个数据集来自层次决策模型最初为幼儿园等级应用程序开发。它包含12960个实例8输入属性分布在5类。gydF4y2Ba
国际象棋。gydF4y2Ba这个数据集包含3196个实例,每一个都是国际象棋残局board-description 36特性。每个游戏标签是一个两类:“赢”和“nowin。”gydF4y2Ba
心脏病。gydF4y2Ba这个数据集是克利夫兰心脏病303例患者的数据库。类代表存在心脏病的病人从0到4。有13个属性用于实验。我们把5数值属性(1日,4日,5日、8日和10日)使用的间隔10直言的,20岁,60岁,30岁,分别和0.7。12日和13日属性包含缺失属性值。gydF4y2Ba
表gydF4y2Ba2gydF4y2Ba列出所选数据集的特征。列avg.intra.dist avg.inter.dist显示平均为每个数据集的星团内和intercluster距离,分别。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
R列显示值的汉明距离阈值估计CDF(见图gydF4y2Ba3gydF4y2Ba)。交流是我们CD-Clustering的准确性。我们强调的精度值大于0.8。列m, # comp,最高gydF4y2Ba显示的边缘gydF4y2Ba ,gydF4y2Ba连接组件的数量gydF4y2Ba ,gydF4y2Ba和数据点的总数gydF4y2Ba分别集群。除了蘑菇和象棋数据集,-gydF4y2Ba集群被CD-Clustering包括所有或几乎所有的数据点。这个结果验证的简单估计的有效性gydF4y2Ba和卢万法。最后,CD-Clustering的列运行时显示了运行时在毫秒几乎是线性的gydF4y2Ba 。gydF4y2Ba
5.2。评价指标gydF4y2Ba
评价聚类算法的性能,我们使用相同的指标如gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba15gydF4y2Ba]。如果数据集包含gydF4y2Ba类对于一个给定的聚类,让gydF4y2Ba表示数据对象的数量正确分配给类gydF4y2Ba ,gydF4y2Ba让gydF4y2Ba表示错误的数据对象分配到这个班gydF4y2Ba ,gydF4y2Ba,让gydF4y2Ba表示错误的数据对象类的拒绝gydF4y2Ba 。gydF4y2Ba精度、召回和准确性被定义为gydF4y2Ba
我们将演示如何找到最好的混淆矩阵和计算精度,还记得,在下面的例子和精度指标。gydF4y2Ba
例3。gydF4y2Ba假设的数据集gydF4y2Ba
对象集中在gydF4y2Ba
集群与真实和预测集群标签如表gydF4y2Ba3gydF4y2Ba。gydF4y2Ba
找到最好的混淆矩阵gydF4y2Ba
,gydF4y2Ba我们评估gydF4y2Ba从预测标签集的映射gydF4y2Ba真实的gydF4y2Ba
。gydF4y2Ba例如,映射gydF4y2Ba给我们的混淆矩阵表gydF4y2Ba4gydF4y2Ba。例如,每个单元格中的值gydF4y2Ba
对的数量gydF4y2Ba
出现在表gydF4y2Ba3gydF4y2Ba。请注意,每一列的总和等于相应的集群对象的数量。精确的值、召回和准确性gydF4y2Ba
在这种情况下是最好的映射gydF4y2Ba与gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||
5.3。聚类结果gydF4y2Ba
相比较而言,我们选择的算法曹et al。gydF4y2Ba8gydF4y2Ba和汗和艾哈迈德gydF4y2Ba9gydF4y2Ba)以及随机的gydF4y2Ba模式(gydF4y2Ba3gydF4y2Ba]。我们重新运行Java实现中提供gydF4y2Ba9gydF4y2Ba为每个数据集),得到一个混淆矩阵。然后我们找到最好的评价指标使用蛮力技术的例子gydF4y2Ba3gydF4y2Ba。令人惊讶的是,报告的指标7数据集(gydF4y2Ba9gydF4y2Ba是不太好。他们只适合投票的情况下为大豆和差值数据和得到更好的价值在其他五个数据集。曹的算法,我们的c++实现提供了四分之三的匹配结果数据集测试(gydF4y2Ba8gydF4y2Ba),即大豆、蘑菇和乳腺癌。最糟糕的数据指标出现在动物园。然而,我们的研究结果同意曹的Python实现的算法(gydF4y2Ba27gydF4y2Ba]。随机的结果gydF4y2Ba10000分/数据集的模式也或多或少的不同(gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba]。gydF4y2Ba
十分类数据集的聚类结果中总结表gydF4y2Ba5gydF4y2Ba- - - - - -gydF4y2Ba14gydF4y2Ba。的精度,精度和召回,我们的方案取得了以下结果:gydF4y2Ba(我)gydF4y2Ba准确性:我们的方案优于或等于其他方法在7例,特别是大肺癌,乳腺癌,皮肤病,托儿所的数据集。gydF4y2Ba(2)gydF4y2Ba精度:我们的方案优于或等于其他方法在7例。gydF4y2Ba(3)gydF4y2Ba记得:我们的方案优于或等于其他方法在7例。gydF4y2Ba
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||
| (一)gydF4y2Ba混淆矩阵gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba性能比较gydF4y2Ba | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了更好地理解CD-Clustering的性能,我们重新审视表gydF4y2Ba2gydF4y2Ba。精度指标之间有很强的相关性gydF4y2Ba和之间的差距gydF4y2Ba ,gydF4y2Baavg.intra.dist avg.inter.dist。如果真实平均星团内和intercluster距离远gydF4y2Ba前距离接近,我们可以得到精度高(大于0.8)。这是大豆的情况下,动物园,乳腺癌,皮肤病,投票。最低的两个数据集的最小精度托儿所和心脏有真实的星团内和intercluster距离之间的差距。剩下的三个数据集有中等精度虽然小距离的差距。十个数据集,我们CD-Clustering执行最差,也就是说,只有相当或比随机的gydF4y2Ba模式,在蘑菇和象棋。这反映在最高的比例gydF4y2Ba来gydF4y2Ba :gydF4y2Ba5366/8124(蘑菇)和2389/3196(象棋)。同时,gydF4y2Ba在这两个数据集等于2。这些事实表明,当gydF4y2Ba和内部/ intercluster距离差距都很小,CD-Clustering必须艰难——顶部gydF4y2Ba社区。gydF4y2Ba
6。结论gydF4y2Ba
而不是使用gydF4y2Ba模式与启发式算法初始化方法,本文提出一个新颖的聚类方案CD-Clustering分类数据。通过应用鲁汶的方法,一种广泛使用的社区检测技术,CD-Clustering可以揭示高度同质组分类数据点只使用的距离信息。CD-Clustering构建简单的图通过限制所有成对的汉明距离阈值gydF4y2Ba据估计仅仅使用集群的数量和分布的距离。评估对二gydF4y2Ba模式初始化技术证实CD-Clustering的有效性。在未来的工作中,我们计划减少的复杂性CD-Clustering更好的可伸缩性。gydF4y2Ba
符号gydF4y2Ba
| :gydF4y2Ba | 数据集和gydF4y2Ba数据点gydF4y2Ba |
| :gydF4y2Ba | 组gydF4y2Ba分类属性gydF4y2Ba |
| :gydF4y2Ba | 模式的gydF4y2Ba |
| :gydF4y2Ba | 数量的集群gydF4y2Ba |
| :gydF4y2Ba | 汉明距离gydF4y2Ba和gydF4y2Ba |
| :gydF4y2Ba | 汉明距离阈值gydF4y2Ba |
| :gydF4y2Ba | 简单的图gydF4y2Ba与参数gydF4y2Ba 。gydF4y2Ba |
的利益冲突gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
引用gydF4y2Ba
- a . k . Jain数据聚类:50年超越了k - means, "gydF4y2Ba模式识别的字母gydF4y2Ba没有,卷。31日。8,651 - 666年,2010页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- s . p .劳埃德“最小二乘在PCM量子化,”gydF4y2Ba电气和电子工程师学会交易信息理论gydF4y2Ba,28卷,不。2、129 - 137年,1982页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
- z黄”,扩展k - means聚类算法的大型数据集分类值,“gydF4y2Ba数据挖掘和知识发现gydF4y2Ba,卷2,不。3、283 - 304年,1998页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d·亚瑟和s . Vassilvitskii“k - means + +:小心播种的优势,”gydF4y2Ba学报ACM-SIAM研讨会上离散算法gydF4y2Ba,第1035 - 1027页,2007年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
- b . Bahmani b·莫斯利a . Vattani r·库马尔和s Vassilvitskii”可伸缩gydF4y2BaκgydF4y2Ba——+ +”gydF4y2Ba美国养老gydF4y2Ba,5卷,不。7,622 - 633页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- o . Bachem m . Lucic s . h . Hassani和a·克劳斯“近似k - means + +次线性时间,”gydF4y2Ba学报30 AAAI会议上人工智能,AAAI 2016gydF4y2Ba,页1459 - 1467,美国2016年2月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- l .呗,j .梁、c .党和f .曹”聚类分类数据的聚类中心的初始化方法,”gydF4y2Ba专家系统与应用程序gydF4y2Ba,39卷,不。9日,第8029 - 8022页,2012年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- f·曹、j .梁和l .呗,”一个新的分类数据聚类初始化方法,”gydF4y2Ba专家系统与应用程序gydF4y2Ba,36卷,不。7,10223 - 10228年,2009页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 汗和a·艾哈迈德”集群K-modes聚类中心初始化算法”,gydF4y2Ba专家系统与应用程序gydF4y2Ba,40卷,不。18日,第7456 - 7444页,2013年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 吴,问:江,j . z黄”新的分类数据的聚类初始化方法,”gydF4y2Ba《亚太会议知识发现和数据挖掘gydF4y2Ba施普林格,页972 - 980年,2007年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 走,“社区检测图”,gydF4y2Ba物理的报告gydF4y2Ba,卷486,不。3 - 5,75 - 174年,2010页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 诉他们,j . Guillaume r . Lambiotte和e . Lefebvre“快速展开的大型网络社区,”gydF4y2Ba杂志的统计力学:理论和实验gydF4y2Ba,卷2008,不。10篇文章ID P10008 2008。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 李曹,j .梁d, l·巴姨,和c .党”的不同措施gydF4y2BakgydF4y2Ba模式聚类算法,”gydF4y2Ba以知识为基础的系统gydF4y2Ba,26卷,不。9日,第127 - 120页,2012年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- z s邓,他和许x,“改善K-Modes算法考虑属性值的频率模式,”gydF4y2Ba计算情报和安全gydF4y2Ba卷,3801gydF4y2Ba在计算机科学的课堂讲稿gydF4y2Ba海德堡,页157 - 162,激飞柏林,柏林,海德堡,2005年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j·m·j·m·k·Ng Li z黄,他和z,“在不同措施的影响gydF4y2BakgydF4y2Ba模式聚类算法,”gydF4y2BaIEEE模式分析与机器智能gydF4y2Ba卷,29号3、503 - 507年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- h .周张y, y,“全球合作关系不同的测量”,gydF4y2Ba计算智能和神经科学gydF4y2Ba卷,2017年,页1 - 7,2017。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·e·j·纽曼和m . Girvan“发现和评估网络社区结构,”gydF4y2Ba物理评论E:统计、非线性和软物质物理学gydF4y2Ba,卷69,不。2篇文章ID 026113 1 - 26113、2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a . Clauset m·e·j·纽曼和c·摩尔,“发现社区结构在非常大的网络,”gydF4y2Ba物理评论E:统计、非线性和软物质物理学gydF4y2Ba,卷70,不。6、文章ID 066111, 2004。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a . Medus g . Acuna, c . o .背”通过全局优化检测网络的社区结构,”gydF4y2Ba自然史答:统计力学及其应用gydF4y2Ba,卷358,不。2 - 4、593 - 604年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·e·j·纽曼,“发现社区结构在网络中使用的特征向量矩阵,”gydF4y2Ba物理评论E:统计、非线性和软物质物理学gydF4y2Ba,卷74,不。第三条ID 036104, 2006。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- p .脑桥和m .今年”计算使用随机漫步在大型网络社区,”gydF4y2Ba课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言gydF4y2Ba卷,3733年,第293 - 284页,2005年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j . Reichardt和美国Bornholdt社区检测的统计力学。”gydF4y2Ba物理评论E:统计、非线性和软物质物理学gydF4y2Ba,卷74,不。1,文章ID 016110, 2006。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 联合国Raghavan、r·艾伯特和s .库马拉”附近的线性时间算法检测大规模网络中的社区结构,”gydF4y2Ba物理评论E:统计、非线性和软物质物理学gydF4y2Ba,卷76,不。第三条ID 036106, 2007。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Rosvall和c t . Bergstrom“随机漫步的地图揭示复杂网络社区结构,”gydF4y2Ba美国国家科学与美利坚合众国gydF4y2Ba,卷105,不。4、1118 - 1123年,2008页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- b·j·弗雷和d . Dueck集群数据点之间通过传递消息。”gydF4y2Ba美国科学促进协会:科学gydF4y2Ba,卷315,不。5814年,第976 - 972页,2007年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
- c·l·布莱克和c·j·梅尔兹gydF4y2BaUci机器学习数据库的存储库gydF4y2Ba,55卷,加州大学。部门的信息和计算机科学,加州欧文,美国,1998年。gydF4y2Ba
- Python k-modes和k-prototypes聚类算法的实现,为集群分类数据,gydF4y2Bahttps://github.com/nicodv/kmodesgydF4y2Ba。gydF4y2Ba
版权gydF4y2Ba
版权©2017 Huu协福阮。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba