决策支持的评估基于指标的聚类算法

文摘

在许多学科,算法处理大规模数据的评价是一个具有挑战性的研究问题。然而,不同的算法可以产生不同的甚至相互冲突的评价性能,,这种现象还没有完全调查。本文旨在提出一个解决方案的动力方案的评价聚类算法协调不同甚至相互矛盾的评价性能。本研究的目的是提出和开发一个模型,称为决策年代upport评价聚类算法(DMSECA),评价聚类算法通过合并专家智慧,以协调差异评价性能信息融合在一个复杂的决策过程。拟议的模型测试和实验研究验证了使用六聚类算法,九个外部措施,20日和四个指标方法UCI数据集,包括313年共有18310个实例和属性。该模型可以生成算法的优先级列表产生最优的等级方案,从而满足所有参与者的决策偏好。结果显示我们的开发模式是一种有效的工具来选择最合适的聚类算法对给定的数据集。此外,我们提出的模型能够协调不同甚至相互矛盾的评价性能达成集团协议在一个复杂的决策环境。

1。介绍

聚类广泛应用于大数据分析的初期阶段将大数据集分解成更小的部分,所以数据可以很容易理解和掌握与连续分析操作(1- - - - - -3]。大量数据的处理依赖于合适的聚类算法的选择,和聚类算法的评价的问题仍然是一个活跃和重要的问题在许多学科,如模糊集、基因组学、数据挖掘、计算机科学、机器学习、商业智能和财务分析(1,4- - - - - -6]。计算机科学家、经济学家、政治学家,生物信息学专家、社会学家、和许多其他团体通常讨论的潜在成本和效益分析这些数据支持决策(7]。然而,决策过程非常复杂,因为多个利益相关者利益冲突和复杂的系统(8- - - - - -10]。

聚类算法,无监督模式学习算法没有先验信息,原始数据空间分割成更小的部分高组间和不同社会团体内部的相似之处。聚类可以用来处理各种类型的大规模数据发现未知的相关性,隐藏的模式和其他潜在的有用的信息。然而,Naldi et al。11]指出不同的聚类算法有时会产生不同的数据分区。在某些情况下,不同的算法产生不同甚至相互矛盾的结果。因此,聚类算法的评价仍然是一个重要的任务,一个具有挑战性的问题。

先后提出了若干措施有效性评估聚类算法,如Xie-Beni (XB)指数12),I-index (13),CS指数(14,15),邓恩的索引(16,17),Davies-Bouldin (DB)指数(18,19]。这些有效措施通常分为三类外部,相对的,和内部措施(20.- - - - - -22]。外部措施比较聚类算法产生的分区与给定数据分区(20.,22]。相同的聚类算法产生的相对措施比较分区与相差的数据子集或不同参数(22]。内部措施取决于计算的财产产生的集群(22]。Brrn et al。20.)表示,相对的,内部措施失败在预测和定位错误产生的聚类算法,和外部措施评估聚类结果更有效地执行。因此,在我们的实证研究中,我们将选择外部措施评估和衡量聚类算法的性能。

没有免费的午餐定理(NFL)说,不存在单一的模型或算法可以获得最佳性能对于一个给定的域问题[23- - - - - -25]。它表明,聚类算法的评价是非常复杂和具有挑战性的。此外,不同的聚类算法可能产生不同的或相互矛盾的分区。本文的动机了聚类算法的评价专注于调和不同甚至相互矛盾的评价性能。除此之外,这些差异或冲突的和解是一个重要的问题,尚未全面调查。此外,聚类算法的评价通常涉及多个标准建模为一个指标的问题。因此,指标的基础上,本文提出了一个模型,称为决策年代upport评价聚类算法(DMSECA),评估和衡量聚类算法的性能,进一步协调分歧甚至冲突中评价聚类算法的性能在一个复杂的决策过程。

该模型由三个步骤组成。首先,我们六个最有影响力的聚类算法应用于任务建模UCI数据集20日共有18310 313实例和属性。其次,基于九外部措施,我们采用四个常用指标排名方法的性能在20 UCI数据集的聚类算法。第三,基于八千零二十年的规则,我们提出一个决策支持模型生成算法优先级的列表以确定最佳聚类算法在20个UCI数据集的二次挖掘和知识发现。每个指标方法是随机分配到五个UCI数据集。

本文的贡献三个方面:首先,提出DMSECA模型可以确定最好的聚类算法对给定的数据集生成算法的优先级列表中一个复杂的决策过程。其次,该模型可以使这些差异甚至冲突来实现协议的聚类算法评估。第三,基于八千零二十年的规则,专家智慧合并提出决策支持模型进行辅助知识发现信息融合在一个复杂的决策环境。

本文的其余部分组织如下。部分2评审的相关工作。部分3描述了一些预赛,如聚类算法、指标的方法,和外部的措施。部分4提出我们的模型通过合并专家智慧调和分歧之间的聚类算法。部分5介绍了数据集,提供了实验设计,显示了实证结果,并讨论了这项工作的重要性。部分6本文总结了。

聚类分析的目的是将元素分类的基础上他们的相似性26]。近年来,人们提出了许多聚类算法(26- - - - - -29日]。密度峰值集群已经发表的罗德里格斯和Laio科学(26]。低的客观性和准确性,因为人为的因素,提出集群密度片段没有山峰基于密度聚类(峰值30.]。江et al。28)开发管理总局与另一种决定图基于万有引力理论算法和附近的距离来确定质心和异常准确。为了克服最初的DPC的缺陷检测异常和中心节点,江et al。29日)提出了一种改进的识别方法的光环节点密度聚类算法峰值(光环DPC) [29日]。拟议的光环DPC处理不同密度可以提高能力,不规则的形状,集群的数量,局外人,中心节点检测(29日]。

集群整体已变得越来越受欢迎近年来通过合并多个基本聚类方法可能更好、更健壮的人。Alizadeh et al。31日提出了一种新颖的文中针对)方法结合集群的集合体。帕文和Minaei-Bidgoli32)提出了一种加权局部自适应聚类(WLAC)算法基于LAC算法。考虑到一些功能比其他人有更多的信息在一个数据集,帕文和Minaei-Bidgoli27)提出了一种模糊加权局部自适应聚类(FWLAC)算法,能够处理不平衡集群。Abbasi et al。33)提出了一个标准来评估集群和分区之间的关系称为归一化互信息编辑,ENMI标准。Mojarad et al。34)提出了集群整体方法,名叫RCEIFBC,新的聚合函数,考虑了两个相似标准:(a)其中一个是cluster-cluster相似性和(b)另一个是object-cluster相似。Mojarad et al。35提出一个聚合器,或一个共识函数,称为基于抽样的健壮的集群整体集群和集群(RCESCC)算法为了得到更好的聚类结果。Rashidi et al。36)提出了一种新的聚类集合方法使用加权策略执行一致聚类利用集群概念的不确定性。Bagherinia et al。37)提出了一种新的模糊聚类集合框架基于一种新的模糊多样性测度和模糊质量措施找到最好的基地集群性能。在集群合奏,多个集群输出可以组合在一起以产生更好的结果的一致性、鲁棒性和性能基本个体聚类方法。

聚类算法的评价是一个活跃的问题在机器学习、数据挖掘、人工智能、数据库和模式识别(11]。在一个典型的集群的情况下,必须解决三个基本问题:(i)确定一个有效的聚类算法适用于一个给定的数据集;(2)确定有多少集群的数据;和(3)评估聚类38]。本文主要讨论第一个问题。

提出了若干措施有效性评价聚类算法。Yeung et al。39)指出,品质因数(FOM)是用于微阵列数据,和不同的生物组织代表集群。Halkidi et al。40兰德统计来衡量)提出的比例对向量。罗斯et al。41)提出了一个稳定的测量来评估分区有效性和选择集群的数量。周et al。14]介绍了CS集群相对测量评估具有不同大小和密度的集群。Žalik [42)提出了一个公司cluster-validity测量基于密实度和重叠估计分区的质量的措施。周et al。43)提出了面积测量评估初始集群数量基于集群区域的信息。万尼和Riyaz44)提出了一种新的小说密实度测量使用罚函数来描述一个集群的典型行为。Azhagiri和拉杰什45)提出了一个新颖的方法来衡量集群的质量和能找到入侵使用入侵发掘和重踏着走概率算法。

有效措施通常分为内部的类型,相对的,和外部措施(20.,21,24,25,46]。内部措施是基于集群计算产生的属性,和这些措施不包括额外的信息数据20.,25,47]。相对的措施是基于分区的比较产生的相同与不同的数据子集或聚类算法不同参数,和他们不要求额外的信息20.,25,39]。外部措施比较聚类算法产生的分区与给定数据分区(20.,25,48]。这些对应于一种误差的测量,所以他们可以提供改进的相关真实的错误(20.]。燃烧的结果等。20.)表明,外部比内部措施评价聚类结果更准确或相对的措施。因此,选择外部措施评估聚类算法的性能。

此外,聚类算法的评价涉及多个标准。因此,它可以通过指标解决方法。这不同于以前的方法。例如,Dudoit和Fridlyand49)提出了一个prediction-based重采样方法来评估集群的数量,和糖和詹姆斯50)选择information-theoretical集群的数量的方法。彭et al。51)开发了一个MCDM-based方法选择集群的数量。彭et al。52]还开发了一个框架来选择合适的聚类算法,进一步选择集群的数量。迈耶和奥尔泰亚努(53]表示聚类多准则决策领域的援助(MCDA)了一些适应性的方法从数据分析,然而其中大部分原产于该字段使用概念,概念的相似性和距离等措施。此外,Chen等人。54]指出了聚类问题是一个著名的MCDA问题,和现有版本的k - means聚类算法只用于数据分区分成几个集群没有优先级的关系;因此,陈等人。54)提出了一个完整的有序聚类算法称为命令k - means聚类算法,认为任何两种选择之间的偏好程度。Mahdiraji et al。55)提出了营销策略评估clustering-MCDM基于大数据分析的方法。本文以一个新的视角提出了DMSECA模型基于指标的方法,结合专家的智慧通过使用八千零二十规则来选择最好的聚类算法给定的数据集在一个复杂的决策过程。此外,我们提出DMSECA模型能够协调不同甚至相互矛盾的评价性能达到一组协议信息融合在一个复杂的决策环境。

八千零二十年提出的规则是帕累托(56),研究不同国家的财富分配。八千零二十规则是基于这样的观察:在大多数国家,大约80%的财富是由大约20%的人,被称为“可预测的失衡”的帕累托(57]。八千零二十年的规则已经扩展到许多领域,如社会学和质量控制58]。在这部作品中,八千零二十年规则是用来关注排名的最重要的职位分析与观察的数量可预测的不平衡。真理往往是在少数人手中:大约20%的人的观点代表了更满意的排名所有参与者的意见。

决策过程是极其复杂的,因为多利益相关者的利益冲突和错综复杂的系统(8- - - - - -10]。本文提出DMSECA模型,基于指标方法和八千零二十年的规则,提出了一种新的视角通过合并专家智慧来评估最合适的给定数据集的聚类算法,该模型可以调和个体差异或冲突来实现集团协议在聚类算法评估在一个复杂的决策环境。

3所示。预赛

该部分提出了一些小学和预备知识。首先介绍了几种评估方法的部分3所示。1经典指标方法,然后,介绍了部分3所示。2;最后,介绍了聚类算法的性能的措施3所示。3。

3.1。聚类算法

集群是一个流行的无监督学习技术。它的目标是将大数据集分解成更小的部分,这样对象在同一集群低不同,而类似的对象在不同的集群低(21]。聚类算法、基于相似性标准,可以组织模式,组织类似的模式集(54,59,60]。聚类算法被广泛应用于许多研究领域,如基因组学、图像分割、文档检索、社会学、生物信息学、心理学、商业智能和财务分析(61年- - - - - -64年]。

聚类算法通常被称为四类的划分方法,分层方法、density-based方法和基于模型的方法(65年]。提出了几个经典的聚类算法和报告,如k - means算法(66年),k-medoid算法(67年),期望最大化(EM) [68年),和频繁的基于模式聚类(65年]。摘要六个最有影响力的聚类算法选择的实证研究。这些是公里算法、EM算法、过滤聚类(FC), farthest-first (FF)算法,make-density-based集群(MD),和分层聚类(HC)。这些聚类算法可以实现通过WEKA [69年]。

公里算法、分区方法的输入参数k一组和分区n对象进k集群,这样产生的星团内相似度很高,和intercluster相似性较低。和集群相似度的平均值可以测量的对象在一个集群中,这可以看作是重心或集群的重心65年]。

EM算法,算法被认为是一个扩展的公里,是一个迭代的方法来找到最大似然或最大后验估计的参数统计模型,在该模型依赖于未被注意的潜在变量(70年]。公里算法将每个对象赋给一个集群。

EM算法,每个对象都被分配到每个集群根据体重代表其会员的概率。换句话说,集群之间没有严格的界限。因此,新方法可以计算基于加权措施(68年]。

FC应用于这项工作可以实现通过WEKA [69年]。像集群,滤波器的结构是完全基于训练数据,和测试实例将解决过滤不改变其结构。

FF算法是一种快速、贪婪和简单的近似算法k中心问题[67年),k点是第一个选为集群中心,第二个中心是贪婪地选为最远的从第一个点。每个剩余的中心是由贪婪地选择从选择的集合中心距离最远的,和其余的点添加到集群,其中心是最接近66年,71年]。

MD算法是一个density-based方法。总的想法是继续给集群增长只要密度(对象的数量或数据点)附近超过某个阈值。为每个数据点,在一个给定的集群,附近的一个给定的半径必须包含一个最小数量的点(65年]。HC算法是聚类分析的方法,旨在构建一个层次结构的集群,它可以创建一个给定数据集的层次分解(66年,72年]。

3.2。指标的方法

指标的方法,这是在1970年代开发的,是一套完整的决策分析技术已经进化操作的一个重要研究领域研究[73年,74年]。国际社会指标定义指标的研究方法和过程涉及多个相互冲突的标准,它可以被正式纳入管理规划过程(73年]。在一个指标的问题,评估标准被认为是独立的(75年,76年]。指标方法旨在帮助决策者(DMs)来确定一个最优的解决方案从多个备选方案的综合客观测量和价值判断77年,78年]。在本节中,四个典型指标方法:加权和方法(WSM),灰色关联分析(GRA),指标值,PROMETHEE法二世介绍如下。

3.2.1之上。WSM

WSM [79年)是一个著名的指标评估方法有限选择的有限的决策标准,当所有的数据都用相同的单位表示(80年,81年]。benefit-to-cost-ratio和benefit-minus-cost方法(82年)可以应用于涉及利益和成本标准的问题。本文首先被转化为标准成本效益标准。除此之外,还有nominal-the-better (NB),价值更接近客观价值时,这个nominal-the-better (NB)更好。

WSM的计算步骤如下。首先,假设n标准,包括福利标准和成本标准,米替代方案。标准首先被转化为效益标准成本在接下来的标准化过程。(1)larger-the-better(磅):一个更大更好的客观价值,也就是说,利益标准,而且它可以标准化 (2)smaller-the-better(某人):较小的客观价值更好,即标准成本,而且可以标准化 (3)nominal-the-better (NB):接近客观价值更好,它可以标准化

最后,总收益的替代方案可以作为计算

更大的WSM值表明更好的选择。

3.2.2。绿草

草地是一个基本指标定量研究和定性分析的方法系统分析(83年]。基于灰色空间,地址不准确和不完整的信息84年]。草地上已被广泛应用于建模、预测、系统分析、数据处理、决策(83年,85年- - - - - -88年]。原则是分析之间的相似关系参考系列和替代系列(89年]。详细步骤如下。

假设初始矩阵 : (1)规范初始矩阵: (2)生成的参考序列 : 在哪里是最大的和标准化的价值jth因素。(3)计算的差异之间的参考系列和替代系列: (4)计算灰色系数 : 在哪里是一个杰出的系数。的价值一般设置为0.5提供良好的稳定性。(5)计算灰色关联度的价值 : (6)最后,规范灰色关联度的价值 :

3.2.3。指标值

由黄和尹90年),指标值的经典指标等级选择在多准则的方法。选择的原则是选择最短的距离应该积极的理想的解决方案(π)和最远的距离负理想溶液(NIS) (91年]。TOPSIS可以找到最好的选择通过最小化距离π和最大化NIS的距离92年]。选择可以由它们的相对排名接近理想的解决方案。计算步骤如下(93年]:(1)决策矩阵一个标准化: (2)计算加权标准化决策矩阵: 在哪里是标准重量, 。(3)π和NIS计算: (4)每个选择的距离从π和NIS决心: (5)获得相对接近理想的解决方案: 当更接近于1,另一种是接近理想的解决方案。(6)偏好顺序排名。

相对较大的亲密表示更好的选择。

3.2.4。PROMETHEE法二世

第二PROMETHEE法,提出了预测在1982年,使用成对比较和“值级别高于关系”来选择最好的选择(94年]。PROMETHEE法II可以支持DMs达成协议可行备选方案在多个标准从不同的角度(95年,96年]。PROMETHEE法二世的方法,积极的级别高于流动显示,备选方案比所有的替代品,而消极的级别高于流动显示,备选方案是由古巴所有备选方案(51,97年]。基于积极的级别高于流动和消极的级别高于流动,最后可以选择替代和由中银的净现金流98年]。的步骤如下:(1)标准化决策矩阵 : (2)定义聚合偏好指数。让和在哪里一个是一个有限集的选择呢 ,k是标准的数量,这样吗 , 标准的重量吗j, 。代表着一个是首选b在所有标准, 代表着b是首选一个对所有标准。和选择的偏好函数吗一个和b。(3)计算和每一对的替代品。一般来说,有六个类型的偏好函数。DMs必须选择一种类型的偏好函数和相应的参数值为每个标准(51,98年]。(4)确定积极的产业为流和消极的级别高于流。积极的产业是由流动和消极的级别高于流是由 (5)计算净级别高于流动: (6)确定排名根据净级别高于流动。

更大的是更合适的选择。

3.3。性能的措施

燃烧等。20.)提出,外部比内部评估聚类结果更有效措施和相关措施。因此,在这项研究中,九个集群外部措施选择进行评估。这些都是熵,纯洁,microaverage精密(MAP),兰德指数(RI),调整兰德指数(ARI), F-measure (FM) Fowlkes-Mallows指数(FMI), Jaccard系数(JC)和墨金指标(MM)。其中,熵和纯度作为外部措施广泛应用领域的数据挖掘和机器学习99年,One hundred.]。九个外部措施由计算机生成的英特尔酷睿i5 - 3210 m CPU @ 2.50 GHz 8 g内存。在引入外部措施之前,列联表。

3.3.1。的列联表

给定一个数据集D与n对象,假设我们有一个分区一些聚类方法,和 ,为。根据预先指定的类标签,我们可以创建另一个分区 ,在哪里和 ,为。让在集群表示对象的数量标签的类。然后,两个分区之间的数据信息可以显示在列联表的形式,如表所示1(65年]。


		分区C
		C₁	C₂	…	C_k

分区P	P₁	n₁₁	n₁₂	…	n_1k	N₁
	P₂	n₂₁	n₂₂	…	n_2k	N₂
	P_k	n_k1	n_k2	…	n_乐	n_k
		N₁	n_。2	…	n_k	n

以下段落定义外部措施。熵和纯洁的措施被广泛应用领域的数据挖掘和机器学习99年,One hundred.]。

(1)熵。熵的度量,它起源于信息检索社区,可以测量一个概率分布的方差。如果所有集群包含的对象只有一个类标签,熵为零,当集群中的对象的类标签更为多样,熵增加(101年]。熵的测量计算

低熵值通常表示更有效的聚类。

(2)纯度。的纯度密切关注代表类(类与大多数对象在每个集群)(102年]。纯度相似熵。这是计算的

更高的纯度值通常代表更有效的聚类。

(3)F-Measure。F-measure (FM)调和平均数的精度和召回。它通常被认为是聚类精度103年]。调频是启发的信息检索度量的计算如下:

更高价值的FM通常显示更准确的聚类。

(4)Microaverage精度。地图通常应用于社区的信息检索(104年]。它可以获得的聚类结果分配给集群中的所有数据对象最主要的类标签然后评估以下数量为每个类(60]:(1) :分配给类对象的数量正确。(2) :分配给类对象的数量不正确。地图测量计算如下: 更高的值表示地图更准确的聚类。

(5)墨金指标。墨金的衡量指标(MM)假设null值相同的集群和一个积极的价值,否则。它对应于二进制向量表示之间的汉明距离每个分区(105年]。毫米的测量计算

低价值的MM意味着更准确的聚类。

此外,给定一个数据集,假设一个分区C是一个数据集的聚类结构,P是由一些聚类分区方法。我们指的是一对点的数据集如下:(我)SS:如果两个点属于同一集群的集群结构C同一组的分区P(2)SD:如果分属于同一簇C不同组的P(3)DS:如果分属于不同的簇C和同一组P(iv)弟弟:如果分属于不同的簇C不同组的P

假设一个,b,c,d学生的数量,SD, DS,和弟弟对,分别和 ,对的最大数量的数据集。以下指标,用以衡量之间的相似程度,C和P可以定义。

(6)兰德指数。国际扶轮是一个衡量两个集群的数据统计和数据之间的相似度的聚类(106年]。国际扶轮计算如下:

的RI值越大表明一个更准确的聚类的结果。

(7)Jaccard系数。JC,也称为Jaccard相似系数(最初命名为“德communaute系数”保罗Jaccard),是一种统计应用于比较样本集的相似性和多样性(107年]。JC计算如下:

更高价值的JC表明集群的一个更准确的结果。

(8)Fowlkes和锦葵索引。Fowlkes和锦葵指数(FMI)提出了Fowlkes和锦葵108年国际扶轮)作为替代。的FMI计算如下:

更高价值的FMI显示更准确的聚类。

(9)调整兰德指数。调整兰特指数(ARI)是国际扶轮的corrected-for-chance版本的措施(106年]。它从−1比1和表达之间的一致性程度两个分为两部分109年]。阿里的值接近1,表明两者之间几乎完美的和谐而分为两部分,而一个值附近−1表示完全不整合[110年]。阿里的测量计算

阿里的值越大表明更准确的聚类。

3.4。指数权重

在这部作品中,指标权重的四个指标可以通过层次分析法计算方法。层次分析法(AHP)中,提出Saaty [111年),是一种广泛使用的工具建模非结构化问题,综合主观和客观信息在许多学科,如政治、经济学、生物学、社会学、管理科学和生命科学(112年- - - - - -114年]。它可以引起相应的优先级向量根据此时比较值(115年]从数十名专家获得一个适当的规模(116年]。层次分析法有一些问题,例如,优先级向量由特征值方法可以违反秩序的一个条件保存科斯塔和Vansnick提出的(117年]。然而,AHP仍然是一个经典的和重要的方法,特别是在研究和管理科学领域的操作(118年]。层次分析法有以下步骤:(1)建立一个层次结构:一个复杂的问题可以建立在这样一个结构,包括目标水平,标准水平,替代水平(119年,120年]。(2)确定成对比较矩阵:一旦层次结构,优先级过程开始确定的标准的相对重要性(权重指数)在每个级别(119年,121年,122年]。两两比较值从1 - 9范围内数十名专家获得(116年]。(3)计算出指标权重指数权重:通常是由特征向量计算方法(120年]Saaty提出[111年]。(4)测试的一致性:0.1的值通常被认为是可接受的一致性比率的上限(CR)。如果CR超过这个值,过程必须重复提高一致性(119年,121年]。

4所示。该模型

聚类结果可以根据不同评价方法。排名可以处理冲突,即使丰富的数据,和一个大的知识之间的差距可以存在评价结果(123年)由于预期、经验和专业知识的个人参与者。决策过程是极其复杂的。这使得很难作出准确的和有效的决策124年]。就像前面提到的1,提出DMSECA模型由三个步骤组成。他们是如下。

第一步通常涉及建模通过聚类算法,使用一个或多个程序可以完成所选类别的层次,density-based,分区和基于模型的方法65年]。在本节中,我们应用六个最有影响力的聚类算法,包括新兴市场在内的FF算法,FC, HC,医学博士,公里,任务建模通过使用WEKA 3.7 20 UCI数据集,包括313年共有18310个实例和属性。属于每一个聚类算法的聚类算法前面提到的四个类别。因此,所有类别表示。

在第二步中,四种常用的指标方法(TOPSIS WSM,草,PROMETHEE法(二)应用于等级聚类算法的性能超过20 UCI数据集根据九个外部措施作为输入,计算的第一步。这些方法非常适合于给定的数据集。不合适的方法并没有选择。例如,我们没有选择VIKOR因为它的分母为给定的数据集将是零。该指数权重由层次分析法是基于特征值的方法。三个专家领域的指标选择和咨询DMs推导出两两比较值的专家完成。我们随机分配每个指标五个UCI数据集的方法。我们运用多个指标的方法来分析和评价聚类算法的性能,这是至关重要的。

最后,在第三步中,我们提出一个决策支持模型来调和个体差异甚至冲突评价聚类算法的性能在20个UCI数据集。该模型可以生成算法的优先级列表,选择最合适的聚类算法用于二次挖掘和知识发现。详细步骤的决策支持模型,基于80 - 20规则,描述如下。

步骤1。马克两套方案在一个较低的位置和上层的位置,分别。
众所周知,八千零二十年的规则报告,百分之八十的结果源于百分之二十的活动在大多数情况下(58]。规则可以归功于Vilfredo Pareto [56),他指出,百分之八十的财富通常是由百分之二十的人在大多数国家(57]。言下之意是,最好是在顶部的20%比80%的底部。所以,八千零二十年的规则,介绍了部分5,可以应用于重点分析最重要的排名的位置与观测的数量可预测的不平衡。八千零二十年规则表明,有百分之二十的人,是谁创造了百分之八十的结果,高杠杆。在本研究中,基于专家智慧源自百分之二十的人,选择的集合分为两类,在顶部的1/5的替代品被标记在上层位置,代表更满意的排名从所有个人参与者的意见参与评估过程的算法。底部的1/5是在较低的位置,代表更多的不满足排名所有个人参与者的意见。元素标记在上层位置计算如下: 在哪里n替代品的数量。例如,如果n= 7,然后。因此,第二个位置分类排名,第一和第二位置是那些选择在上层位置,被认为是最合适的集体组织思想和令人满意的选择。
同样,在较低的位置计算元素标记在哪里n替代品的数量。例如,如果n= 7,然后。因此,排名第六的位置分类,第六个和第七个职位较低的位置被认为是统称为最糟糕和最不满足的选择。

步骤2。年级组选择的上下位置,分别。
得分是分配给每个组的位置选择在较低的位置和上层位置,分别。
分数较低的位置可以被分配一个值计算的第一个位置,2到第二的位置, ,和x最后的位置。最后,每个替代的分数较低的职位是总额,明显d。
同样,比分上的位置可以被分配一个值计算的最后位置,2到倒数第二的位置, ,和x第一个位置。最后,每个替代的得分上总计,明显b。

步骤3。生成的优先选择。
的优先选择 ,代表最满意的排名从所有个人参与者的意见,可以确定吗更高的价值在哪里意味着一个更高的优先级。

5。实验设计和结果

我们现在一个实验在20个UCI数据集。这是为了验证我们提出DMSECA绩效评估模型的聚类算法为了调和个体差异甚至冲突评估基于指标的聚类算法的性能在一个复杂的决策环境。实验数据集,实验设计,实验结果如下。

5.1。数据集

共有20个数据集应用聚类算法的性能评估实验。他们来自UCI库(http://archive.ics.uci.edu/ml/)[125年]。这20个数据集,包括数据集的结构和特征特性、属性特征、数量的情况下,属性、数量和面积,包括肝脏疾病数据集(http://archive.ics.uci.edu/ml/datasets/Liver +障碍),葡萄酒数据集(http://archive.ics.uci.edu/ml/datasets/Wine),助教评估数据集(http://archive.ics.uci.edu/ml/datasets/Teaching +助理+评估),批发客户数据集(http://archive.ics.uci.edu/ml/datasets/Wholesale +客户)、哈伯曼的生存数据集(http://archive.ics.uci.edu/ml/datasets/Haberman%27s +生存),资产规模数据集(http://archive.ics.uci.edu/ml/datasets/Balance +规模),避孕方法选择数据集(http://archive.ics.uci.edu/ml/datasets/Contraceptive +方法+选择),页面块分类数据集(http://archive.ics.uci.edu/ml/datasets/Page +块+分类),乳房组织数据集(http://archive.ics.uci.edu/ml/datasets/Breast +组织)、输血数据集(http://archive.ics.uci.edu/ml/datasets/Blood +输血+服务+中心)和酵母数据集(http://archive.ics.uci.edu/ml/datasets/Yeast)。表2总结这些数据集的数据信息。这些数据集总结18310实例和313年从各种各样的学科属性,如生命科学、商业、物理科学、社会科学和计算机科学/工程。数据集有各种各样的数据结构。他们的大小范围从100年到4601年,属性的数量从3岁到60岁,从2到10类的数量。


数据集	没有	区域	的实例数量	数量的属性	类的数量

肝脏疾病	1	生命科学	345年	7	2
动物园	2	生命科学	101年	17	2
皮马印第安人糖尿病	3	生命科学	768年	8	2
批发客户	4	业务	440年	8	2
哈伯曼的生存	5	生命科学	306年	3	2
酒	6	物理科学	178年	13	3
资产规模	7	社会科学	625年	4	3
乳腺组织	8	生命科学	106年	10	6
Ecoli	9	生命科学	336年	8	8
生育能力	10	生命科学	One hundred.	10	2
电离层	11	物理科学	351年	34	2
虹膜	12	生命科学	150年	4	3
教学助理评价	13	其他	151年	5	3
输血	14	业务	748年	5	2
Spambase	15	计算机科学/工程	4601年	57	2
页面块分类	16	计算机科学/工程	5473年	10	5
声纳	17	物理科学	208年	60	2
避孕方法的选择	18	生命科学	1473年	9	3
皮肤病学	19	生命科学	366年	33	6
酵母数据	20.	生命科学	1484年	8	10
总			18310年	313年	70年

5.2。实验设计

在本节中,详细描述的实验设计来检查我们的提议DMSECA模型的可行性和有效性。DMSECA模型可以通过应用四个指标验证方法介绍3.2节估计20的聚类算法的性能选择公共UCI机器学习数据集。每个指标方法是随机分配到五个UCI数据集。实验设计可以实现如下:输入:20 UCI数据集。输出:排名评估性能的聚类算法来生成一个算法的优先级列表,以选择最佳的聚类算法和调和个人他们评估双方之间的分歧。步骤1:准备目标数据集:数据预处理删除原始数据集的类标签。步骤2:获得集群解决方案:获得集群解决方案的六个经典聚类算法中引入部分3所示。1通过WEKA基于目标数据集。步骤3:计算每个数据集的值九外部措施。第四步:获取外部措施的权重。摘要外部措施通过层次分析法得到的权重基于特征值的方法,由三个得分邀请和咨询专家。第五步:使用WSM指标值,PROMETHEE法二世和草来生成排名评价聚类算法的性能。每个指标方法是随机分配到五个UCI数据集。这四个指标的方法是使用MATLAB 7.0实现的,使用外部措施作为输入。第六步:达成共识。共识不同甚至相互矛盾的个人排名评价聚类算法的性能可以通过使用提出决策支持模型在第三个步骤中,合并专家的智慧。第七步:生成算法优先级的列表。列表可以调和个人之间的分歧评价聚类算法的性能。第八步:结束。

5.3。实验结果

本节给出了所得结果通过测试该DMSECA模型20 UCI数据集包括313年共有18310个实例和属性调和这些个体差异或冲突中评价聚类算法的性能。六个聚类算法,九外部措施,和四个指标被应用来说明和解释我们的模型的方法。实验结果如下。

第一,的值九外部措施的20个数据集可以使用选定的六聚类算法。实现的过程是根据步骤1 - 3节5。2。为了便于理解,我们已经选择了电离层数据集作为一个例子来解释计算过程。九个外部措施的初始值,提供了表3是标准化的,方程(1)- (3)将标准成本效益标准。提出了标准化的数据表4。我们强调每个外部测量黑体的最优结果。很明显,任何聚类算法获得最优结果的所有外部措施。这支持了NFL定理。


	纯度	在	F-m	兰德	阿里	Jaccard	调频	地图	米

新兴市场	0.9003	0.0331	0.1109	0.5897	0.0001	0.5689	0.7411	0.9003	0.4839
FF	0.6638	0.0506	0.3859	0.8091	0.0011	0.7705	0.8747	0.6638	0.3089
足球俱乐部	0.9117	0.0296	0.0999	0.5954	0.0001	0.5774	0.7484	0.9117	0.4818
HC	0.6439	0.0356	0.4020	0.8177	0.0012	0.7785	0.8819	0.6439	0.2982
医学博士	0.8746	0.0408	0.1339	0.5783	0.0001	0.5502	0.7250	0.8746	0.4877
公里	0.9117	0.0299	0.0994	0.5983	0.0001	0.5791	0.7502	0.9117	0.4807


	纯度	在	F-m	兰德	阿里	Jaccard	调频	地图	米

新兴市场	0.1748	0.1670	0.1579	0.1589	0.1666	0.1596	0.1619	0.1748	0.1608
FF	0.1514	0.1655	0.1833	0.1816	0.1667	0.1803	0.1757	0.1514	0.1778
足球俱乐部	0.1761	0.1672	0.1570	0.1595	0.1666	0.1604	0.1627	0.1761	0.1610
HC	0.1495	0.1668	0.1850	0.1825	0.1667	0.1812	0.1765	0.1495	0.1788
医学博士	0.1721	0.1663	0.1598	0.1578	0.1666	0.1578	0.1604	0.1721	0.1605
公里	0.1761	0.1672	0.1570	0.1597	0.1666	0.1606	0.1628	0.1761	0.1611

第二,排名20个数据集上的聚类算法计算SWM,指标值,草地,和二PROMETHEE法提出了表5- - - - - -8,分别。这四个指标的方法是使用MATLAB实现7.0使用外部措施,如纯度、En,调频,兰德基于表作为输入3和4。每组五个UCI数据集可以处理的四个指标方法,随机分配。每个专家的衡量权重应用于WSM,指标值,草地,PROMETHEE法二世通过层次分析法是基于特征值的方法。最后的指数权重的三个专家可以通过聚合的加权算术平均数,一直是一种广泛使用的聚合算法的决策问题。最后的指数权重的九外部措施,给出的顺序表4和5,0.1893,0.1820,0.0449,0.0930,0.0483,0.1264,0.1234,0.1159,和0.0769,分别。


	动物园		资产规模		教学助理评价		Spambase		酵母数据
	价值	排名	价值	排名	价值	排名	价值	排名	价值	排名

新兴市场	0.1677	2	0.1701	1	0.1547	6	0.1650	6	0.1719	2
FF	0.1653	5	0.1651	3	0.1684	4	0.1652	4	0.1790	1
足球俱乐部	0.1677	2	0.1648	5	0.1727	1	0.1695	1	0.1644	5
HC	0.1638	6	0.1701	1	0.1595	5	0.1652	4	0.1560	3
医学博士	0.1676	4	0.1650	4	0.1721	3	0.1656	3	0.1645	4
公里	0.1679	1	0.1648	5	0.1727	1	0.1695	1	0.1643	6


	皮马印第安人糖尿病		批发客户		酒		Ecoli		电离层
	价值	排名	价值	排名	价值	排名	价值	排名	价值	排名

新兴市场	0.0866	6	0.1792	4	0.1859	5	0.1991	2	0.1797	3
FF	0.1102	5	0.1019	6	0.0661	6	0.3061	1	0.1427	5
足球俱乐部	0.2019	1	0.2053	1	0.1870	1	0.1315	5	0.1858	2
HC	0.2019	1	0.1028	5	0.1870	1	0.0962	6	0.1406	6
医学博士	0.1974	4	0.2055	1	0.1870	1	0.1335	4	0.1646	4
公里	0.2019	1	0.2053	1	0.1870	1	0.1336	3	0.1865	1


	乳腺组织		生育能力		虹膜		避孕方法的选择		皮肤病学
	价值	排名	价值	排名	价值	排名	价值	排名	价值	排名

新兴市场	0.1672	4	0.1379	4	0.1325	6	0.1850	3	0.1771	3
FF	0.1378	6	0.2142	2	0.1712	2	0.1366	5	0.1643	5
足球俱乐部	0.1804	3	0.1362	6	0.1712	2	0.1857	1	0.1811	1
HC	0.1499	5	0.2321	1	0.1825	1	0.1229	6	0.1214	6
医学博士	0.1819	2	0.1416	3	0.1712	2	0.1842	4	0.1750	4
公里	0.1828	1	0.1379	4	0.1712	2	0.1857	1	0.1811	1


	肝脏疾病		哈伯曼的生存		输血服务中心		页面块分类		声纳
	价值	排名	价值	排名	价值	排名	价值	排名	价值	排名

新兴市场	0.1654	5	0.1133	6	0.1088	6	0.1252	6	0.1644	3
FF	0.1688	1	0.1766	4	0.1815	4	0.1867	5	0.1618	4
足球俱乐部	0.1667	3	0.1780	1	0.1906	1	0.1413	3	0.1609	5
HC	0.1645	6	0.1780	1	0.1906	1	0.2371	1	0.1749	2
医学博士	0.1679	2	0.1762	5	0.1380	5	0.1685	2	0.1770	1
公里	0.1667	3	0.1780	1	0.1906	1	0.1413	3	0.1609	5

表中的结果5- - - - - -8不使我们能够识别和确定的规律评价聚类算法的性能。结果表明,各种指标方法产生冲突的排名。这些观察结果的基础上,提出了二次挖掘和知识发现调和这些分歧。

最后,基于八千零二十年的规则的决策支持模型二次挖掘和知识发现应用于调和个人分歧。这个模型包括三个步骤如下。

在步骤1马克两套方案在一个较低的位置和上层的位置,分别。根据方程。(31日)和(32),在上层位置,我们知道n= 6,然后。因此,第二个位置分类排名,第一和第二位置是那些选择上的位置。同样,在较低的位置,我们有。因此,排名第五的位置分类,第五和第六的位置是那些选择在较低的位置。的两套方案可以显著位置和上位置较低,黑体在表中给出9基于表5- - - - - -8。


排名	数据集
排名	动物园	资产规模	教学助理评价	Spambase	酵母数据	皮马印第安人糖尿病	批发客户

1	公里	新兴市场	足球俱乐部	足球俱乐部	FF	公里	足球俱乐部
2	足球俱乐部	HC	公里	公里	新兴市场	足球俱乐部	公里
3	新兴市场	FF	医学博士	医学博士	HC	HC	医学博士
4	医学博士	医学博士	FF	FF	医学博士	医学博士	新兴市场
5	FF	足球俱乐部	HC	HC	足球俱乐部	FF	HC
6	HC	公里	新兴市场	新兴市场	公里	新兴市场	FF

排名	数据集
排名	酒	Ecoli	电离层	乳腺组织	生育能力	虹膜	避孕方法的选择

1	足球俱乐部	FF	公里	公里	HC	HC	公里
2	公里	新兴市场	足球俱乐部	医学博士	FF	公里	足球俱乐部
3	医学博士	公里	新兴市场	足球俱乐部	医学博士	足球俱乐部	新兴市场
4	HC	医学博士	医学博士	新兴市场	公里	FF	医学博士
5	新兴市场	足球俱乐部	FF	HC	新兴市场	医学博士	FF
6	FF	HC	HC	FF	足球俱乐部	新兴市场	HC

排名	数据集
排名	皮肤病学	肝脏疾病	哈伯曼的生存	输血服务	页面块分类	声纳

1	足球俱乐部	FF	公里	公里	HC	医学博士
2	公里	医学博士	足球俱乐部	足球俱乐部	医学博士	HC
3	新兴市场	足球俱乐部	HC	HC	公里	新兴市场
4	医学博士	公里	FF	FF	足球俱乐部	FF
5	FF	新兴市场	医学博士	医学博士	FF	足球俱乐部
6	HC	HC	新兴市场	新兴市场	新兴市场	公里

在步骤2年级组选择的上下位置,分别根据步骤2在第四节。的选择上的位置可以达到。同样,许多替代品在较低的位置可以达到。然后,这项研究的结果发表在表1020个UCI数据集。


位置	1日	2^nd	b_我	5^th	6日	d_我	f_我	排名
分数	2	1	b_我	1	2	d_我	f_我	排名

新兴市场	1	2	4	3	7	17	−13	6
FF	3	1	7	6	3	12	−5	4
足球俱乐部	5	6	16	4	1	6	10	2
HC	3	2	8	4	6	16	−8	5
医学博士	1	3	5	3	0	3	2	3
公里	7	6	20.	0	3	6	14	1

在步骤3,计算每个备选方案的优先级由方程(33),计算结果被发表在表10。

5.4。讨论和分析

表中的结果5- - - - - -8表明不同的指标方法产生不同的甚至相互冲突的个人排名。因此,DMs很难确定最好的聚类算法给定的数据集。表10报告一个算法的优先级列表。聚类算法的排名6、4、2、5、3、1、符合EM, FF, FC、HC,医学博士和公里。因此,最好的给定数据集的聚类算法是公里算法。此外,我们进行统计分析的排名获得20个UCI数据集比较产生的结果我们建议的模型。分析结果被发表在表11。


排名
算法	1	2	3	4	5	6

新兴市场	1	3	4	3	2	7
FF	3	2	1	5	6	3
足球俱乐部	9	3	3	0	4	1
HC	8	1	1	1	3	6
医学博士	3	4	3	8	2	0
公里	12	1	3	1	2	1

在表11,每个职位的数量可以确定排名根据表5- - - - - -8。例如,排名1的位置,聚类算法的数字是1,3,9日8日3和12,分别和集群的排名算法是6日4/5,2,3,4/5,和相应1 EM, FF, FC, HC,医学博士和公里。然而,排名较低的职位将被忽略。在决策时,应考虑大局的决策过程的影响程度最大。在这项工作中,我们建立两套备选方案的上下位置。之后的排名较低的位置,充分考虑集群的排名算法是6,4、2、5、3、1。这些结果基本上都是相同的,这表明我们提出的模型是可行的和有效的。

因此,本文从实证的角度来看,我们提出的模型的有效性检查和验证使用六聚类算法,九个外部措施,20日和四个指标方法UCI数据集,包括313年共有18310个实例和属性。此外,我们建议的模型合并使用八千零二十规则专家智慧,报告说,百分之八十的结果来自百分之二十的活动58),表明百分之二十的人创造了百分之八十的结果是高杠杆。因此,基于专家智慧源自百分之二十的人,选择的集合分为两类,其中的1/5的替代品被标记在上层位置,和底部的1/5是在较低的位置。实证结果也验证我们提出的模型并确认其减少和协调能力个体差异中聚类算法的性能通过使用一系列算法在复杂的决策环境的首要任务。

6。结论

数据聚类通常是广泛应用于大数据分析的初期阶段。聚类分析可以用来研究各种类型的大规模数据集发现未知的相关性,隐藏的模式和其他潜在的有用的信息。然而,Naldi et al。11)指出,不同的聚类算法可能产生不同的数据分区。此外,NFL定理指出,不存在单一的算法或模型,可以实现最佳的性能对于一个给定的域问题[23- - - - - -25]。因此,主要问题是如何选择最好的聚类算法对给定的数据集。

决策过程是极其复杂的,因为多利益相关者的利益冲突和错综复杂的系统(8- - - - - -10]。本文提出DMSECA模型来估计聚类算法的性能在选择最满意的聚类算法根据所有个人参与者的决策偏好在一个复杂的决策过程。该模型设计了调和个人分歧评价聚类算法的性能。DMSECA模型的研究表明,基于八千零二十年的规则,可以生成一个列表的排名算法优先级和最优方案,是最令人满意的决策偏好所有个体参与者参与一个复杂的决策问题。实验研究涉及使用20 UCI数据集,包括313年共有18310个实例和属性,6个聚类算法,九个外部措施,和四个指标的方法来测试和检查我们的模型。

该模型的可行性和有效性进行了说明和验证的执行统计分析排名共有20 UCI数据集,以便比较所产生的结果与我们提出的模型。结果基本上是一样的聚类算法的排名由我们提出DMSECA模型。实证结果表明,我们建议的模型不能只识别最好的聚类算法对给定的数据集,也可以调和个体差异甚至冲突来实现集团协议在评价聚类算法的性能在一个复杂的决策环境。最后,提出了一种决策支持模型通过合并专家智慧二级知识发现,基于80 - 20规则,为了分析关注排名的最重要位置与观测的数量可预测的不平衡。

在未来的工作中,决策支持系统包括数据空间,空间的方法,模型空间,和知识空间将进一步发展,它可以处理更多的方法/模型/算法,如一般集群、子空间聚类理论,模糊聚类,和密度峰集群,以形成一个强大的和有效的算法选择和评估框架,提高应用程序的通用性。

数据可用性

使用的数据来支持本研究的结果都包含在这篇文章中,共20集来自UCI库(http://archive.ics.uci.edu/ml/)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分由基金支持欠发达地区的国家自然科学基金(# 71761014),中国的国家重点项目,国家自然科学基金(# 71532007 # 71532007,# 91546201),国家自然科学基金委的一般程序(# 71471149),中国国家社会科学基金重大项目(# 15 zdb153),和中国博士后科学基金会项目(# 2016 m592683)。

引用

z徐,j·陈,j .吴“直觉模糊集的聚类算法,信息科学,卷178,不。19日,3775 - 3790年,2008页。视图:出版商的网站|谷歌学术搜索
w .挂、k . s . Choi和s .王同步集群基于辏力优化和大规模数据集的扩展爱思唯尔科学出版商帐面价值荷兰,阿姆斯特丹,2017年。
m . Abavisani诉m·帕特尔,“综合稀疏低秩子空间聚类,“信息融合39卷,第177 - 168页,2018年。视图:出版商的网站|谷歌学术搜索
徐张x和z,”犹豫模糊会凝聚的层次聚类算法,”国际系统科学杂志》上,46卷,不。3、562 - 576年,2015页。视图:出版商的网站|谷歌学术搜索
y, z太阳,k .贾莫尔斯信号的自动解码方法基于聚类算法施普林格国际出版,柏林,德国,2017年。
c, l, l .风扇,“优化和改善基于高效的增量内核模糊聚类的数据挖掘算法对于大数据,”集群计算,22卷,不。S2, 3001 - 3010年,2018页。视图:出版商的网站|谷歌学术搜索
杨x、z徐和h .辽”的犹豫乘法集相关系数及其应用在决策和聚类分析,“应用软计算卷,61年,第946 - 935页,2017年。视图:出版商的网站|谷歌学术搜索
j . c . Ascough II, h·r·迈尔j . k . Ravalico和m . w . Strudley”未来的研究挑战的环境和生态的不确定性决策,”生态模型,卷219,不。3 - 4、383 - 399年,2008页。视图:出版商的网站|谷歌学术搜索
徐z和n .赵”,对直觉模糊决策信息融合:概述,“信息融合卷28日,10-23,2016页。视图:出版商的网站|谷歌学术搜索
徐z h·王,“虚拟语言的语法和语义方面在决策信息融合”信息融合卷,34 43-48,2017页。视图:出版商的网站|谷歌学术搜索
m . c . Naldi a·c·p·l·f·卡瓦略和r . j . g . b . Campello”集群整体选择基于相对有效性指数”数据挖掘和知识发现,27卷,不。2、259 - 289年,2013页。视图:出版商的网站|谷歌学术搜索
x l·谢·g·贝尼省,“模糊聚类有效性措施。”IEEE模式分析与机器智能,13卷,不。8,841 - 847年,1991页。视图:出版商的网站|谷歌学术搜索
Maulik和s . Bandyopadhyay”一些聚类算法的性能评估和有效性指标,”IEEE模式分析与机器智能,24卷,不。12日,第1654 - 1650页,2002年。视图:出版商的网站|谷歌学术搜索
c·h·周、m . c . Su和e·赖”一个新的集群有效性测量和图像压缩中的应用,”模式分析与应用7卷,第220 - 205页,2004年。视图:出版商的网站|谷歌学术搜索
Sriparna和m .放进”使用的对称性和稳定性数据聚类”,进化的情报,3卷,不。3 - 4、103 - 122年,2010页。视图:出版商的网站|谷歌学术搜索
j·c·邓恩,“模糊ISODATA过程及其使用的相对检测集群紧凑布置得井然有序,“《控制论,3卷,不。3,32-57,1973页。视图:出版商的网站|谷歌学术搜索
s . Mahallati j . c . Bezdek d·库马尔·m·r·瑞尔和t . a . Valiante”解释集群结构波形数据与视觉评估和邓恩的指数”计算智能前沿施普林格,可汗,瑞士,2017。视图:出版商的网站|谷歌学术搜索
d·l·戴维斯和d . w . Bouldin集群分离的人制定出的措施”,IEEE模式分析与机器智能,PAMI-1卷,不。2、224 - 227年,1979页。视图:出版商的网站|谷歌学术搜索
诉Bolandi、a . Kadkhodaie和r . Farzi”分析有机丰富的烃源岩测井数据利用支持向量机和ANN分类器:一个案例研究从Kazhdumi形成,波斯湾盆地,海外伊朗,”石油科学与工程》杂志上卷,151年,第234 - 224页,2017年。视图:出版商的网站|谷歌学术搜索
m·布朗c .硅镁层j .华et al .,“基于模型的聚类评价验证措施,”模式识别,40卷,不。3、807 - 824年,2007页。视图:出版商的网站|谷歌学术搜索
a . k . Jain m . n . Murty p•j•弗林,“数据聚类,ACM计算调查(CSUR)没有,卷。31日。3、264 - 323年,1999页。视图:出版商的网站|谷歌学术搜索
y阿卜杜拉希•b . Coetzee, l . van den Berg”之间的关系结果的内部和外部匹配负载确定方法在男性,单打羽毛球运动员,”肌力与体能训练研究》杂志上,33卷,不。4、1111 - 1118年,2019页。视图:出版商的网站|谷歌学术搜索
d·h·沃伯特和w·g·麦克里迪”,为优化,没有免费的午餐定理”IEEE进化计算,1卷,不。1,第82 - 67页,1997。视图:出版商的网站|谷歌学术搜索
g .口和w·吴”分类算法选择的层次分析模型在信用风险分析中,“数学问题在工程,卷2014,不。1,文章ID 297563, 2014。视图:出版商的网站|谷歌学术搜索
d·g·吉兰和A·r·埃斯皮诺萨,”一个荟萃分析在真实数据集的分类模型的性能:一个探索性的观点,“应用人工智能没有,卷。31日。9 - 10,715 - 732年,2018页。视图:出版商的网站|谷歌学术搜索
a·罗德里格斯和a . Laio”集群的快速搜索和发现密度峰值,”科学,卷344,不。6191年,第1496 - 1492页,2014年。视图:出版商的网站|谷歌学术搜索
h·帕文,b . Minaei-Bidgoli集群整体框架基于模糊加权选择集群在一个局部自适应聚类算法,”模式分析与应用,18卷,不。1,第112 - 87页,2015。视图:出版商的网站|谷歌学术搜索
陈j .江d, y, m . Parmar和k·李,“管理总局:gravitation-based密度山峰聚类算法,自然史答:统计力学及其应用卷,502年,第355 - 345页,2018年。视图:出版商的网站|谷歌学术搜索
x j .江w·周l . Wang Tao,和k·李,“HaloDPC:一种改进识别方法在光环节点密度聚类算法峰值,”模式识别与人工智能》国际期刊上,33卷,不。8,2019。视图:出版商的网站|谷歌学术搜索
x道,研究和改进密度聚类算法和应用的地震峰值分类长春:吉林财经大学(D),长春,中国,2017年,在中国。
h . Alizadeh b Minaei-Bidgoli, h·帕文”优化模糊聚类集合在字符串表示,“模式识别与人工智能》国际期刊上,27卷,不。2、2013。视图:出版商的网站|谷歌学术搜索
h·帕文,b . Minaei-Bidgoli集群整体框架基于精英选择加权集群,”先进的数据分析和分类,7卷,不。2、181 - 208年,2013页。视图:出版商的网站|谷歌学术搜索
S.-o。Abbasi, s . Nejatian h·帕文诉Rezaie,他和k . Bagherifard“集群整体选择考虑质量和多样性,”人工智能审查,52卷,不。2、1311 - 1340年,2019页。视图:出版商的网站|谷歌学术搜索
m . Mojarad h·帕文、美国Nejatian诉Rezaie,他“共识函数基于集群基地集群的集群和迭代融合,“国际期刊的不确定性、模糊性和以知识为基础的系统,27卷,不。1,第120 - 97页,2019。视图:出版商的网站|谷歌学术搜索
m . Mojarad s Nejatian h·帕文,m . Mohammadpoor”模糊聚类集成基于集群基地集群的集群和迭代融合,“应用智能卷,49号7,2567 - 2581年,2019页。视图:出版商的网站|谷歌学术搜索
f . Rashidi s Nejatian h·帕文,诉Rezaie,他“基于多样性的集群权重在集群整体:一个信息理论方法,”人工智能审查,52卷,不。2、1341 - 1368年,2019页。视图:出版商的网站|谷歌学术搜索
a . Bagherinia b . Minaei-Bidgoli m . Hossinzadeh, h·帕文”精英模糊聚类集成基于聚类多样性和质量措施,”应用智能卷,49号5,1724 - 1747年,2019页。视图:出版商的网站|谷歌学术搜索
萨哈和s . Bandyopadhyay“一些基于连通性的集群效度指数,”应用软计算,12卷,不。5,1555 - 1565年,2012页。视图:出版商的网站|谷歌学术搜索
刘贤美杨、d . r . Haynor和w·l·Ruzzo“验证基因表达数据的聚类,生物信息学,17卷,不。4、309 - 318年,2001页。视图:出版商的网站|谷歌学术搜索
m . Halkidi y Batistakis, m . Vazirgiannis”聚类验证技术。”智能信息系统杂志》上,17卷,不。2 - 3、107 - 145年,2001页。视图:出版商的网站|谷歌学术搜索
诉罗斯·m·布劳恩,t·兰格和j . m . BuhmannStability-Based模型顺序选择在基因表达数据聚类与应用程序施普林格,柏林,德国,2002年。
k·r·Žalik”集群有效性指数估计模糊集群不同的大小和密度,”模式识别,43卷,不。10日,3374 - 3390年,2010页。视图:出版商的网站|谷歌学术搜索
c·h·周x y赵,惠普Tai,“消失点检测基于模糊聚类算法和新的聚类有效性措施,”应用科学与工程》杂志上,18卷,不。2、105 - 116年,2015页。视图:谷歌学术搜索
m·A·万尼,r . Riyaz。”一个新的集群有效性指数使用基于最大传播集群的密实度测量,”国际智能计算和控制论》杂志上,9卷,不。2、179 - 204年,2016页。视图:出版商的网站|谷歌学术搜索
m . Azhagiri和A·拉杰什”,一个新颖的方法来衡量质量的集群和发现入侵使用入侵发掘和概率算法重踏着走,”国际信息技术杂志》上,10卷,不。3、329 - 337年,2018页。视图:出版商的网站|谷歌学术搜索
f . Azuaje”集群框架,用于基因表达数据有效性”,生物信息学,18卷,不。2、319 - 320年,2002页。视图:出版商的网站|谷歌学术搜索
r·o·杜达·e·哈特和d . g .鹳,模式分类威利,纽约,纽约,美国,2002年。
e·r·多尔蒂j .巴雷拉m .布朗et al .,“推理与应用程序集群基因表达微阵列,”计算生物学杂志》上,9卷,不。1,第126 - 105页,2002。视图:出版商的网站|谷歌学术搜索
Dudoit和j . Fridlyand“prediction-based重采样方法估算集群的数量在一个数据集,“基因组生物学卷,3篇文章ID research0036.1, 2002。视图:出版商的网站|谷歌学术搜索
James c . a .糖和通用汽车,“发现集群在一个数据集的数量,美国统计协会杂志》上,卷98,不。463年,第763 - 750页,2003年。视图:出版商的网站|谷歌学术搜索
y, y, g .口,和y .史,“一个多准则决策方法评估集群的数量在一个数据集,“《公共科学图书馆•综合》,7卷,不。7篇文章ID e41713 2012。视图:出版商的网站|谷歌学术搜索
彭y, y, g .寇,j . Li和y .史,“集群多准则决策方法验证,”国际会议在计算科学学报》上奥马哈,页1283 - 1291年,东北,美国,2012年。视图:谷歌学术搜索
p·迈耶和A.-L。奥尔泰亚努”、形式化和解决聚类问题MCDA,”欧洲运筹学杂志》上,卷227,不。3、494 - 502年,2013页。视图:出版商的网站|谷歌学术搜索
z l . Chen, h·王,刘,“有序基于k - means聚类算法和PROMETHEE法方法,”国际期刊的机器学习和控制论,9卷,不。6,917 - 926年,2018页。视图:出版商的网站|谷歌学术搜索
h·a·Mahdiraji大肠Kazimieras Zavadskas, a . Kazeminia和a . Abbasi Kamardi,”营销策略评估基于大数据分析:CLUSTERING-MCDM方法,”经济Research-Ekonomska Istraživanja,32卷,不。1,第2898 - 2882页,2019。视图:出版商的网站|谷歌学术搜索
诉帕累托,课程d 'Economie政治dro,瑞士日内瓦,1896年。
b·弗朗茨帕累托约翰·威利& Sons,纽约,纽约,美国,1936年。
r . Cirillo”Vilfredo Pareto真的“先驱”的法西斯主义?”《美国经济学和社会学,42卷,不。2、235 - 246年,2006页。视图:出版商的网站|谷歌学术搜索
许r和d . WunschII”调查的聚类算法IEEE神经网络,16卷,不。3、645 - 678年,2005页。视图:出版商的网站|谷歌学术搜索
h . j . j . Wu Chen Xiong, m .谢“k - means聚类的外部验证措施:数据分布的角度来看,“专家系统与应用程序,36卷,不。3、6050 - 6061年,2009页。视图:出版商的网站|谷歌学术搜索
z z . Wang徐、刘,和j .唐”网直觉模糊环境下的聚类分析方法,”应用软计算,11卷,不。8,5558 - 5564年,2011页。视图:出版商的网站|谷歌学术搜索
美国民兵”,小说和快速MIMO模糊推理系统基于类模糊聚类算法的可解释性和复杂性分析,“专家系统与应用程序卷,84年,第322 - 301页,2017年。视图:出版商的网站|谷歌学术搜索
问:李,m . Guindani b . j .帝国h·d·Bondell和m . Vannucci“贝叶斯混合模型的聚类和选择特性发生利率意味着约束下,“统计分析和数据挖掘:ASA数据科学杂志,10卷,不。6,393 - 409年,2017页。视图:出版商的网站|谷歌学术搜索
a . k .保罗和p . c .诱饵,“新自动模糊关系聚类算法使用多目标NSGA-II,”信息科学卷,448 - 449,112 - 133年,2018页。视图:出版商的网站|谷歌学术搜索
汉和m . Kamber,数据挖掘:概念和技术旧金山,摩根考夫曼、钙、美国,第二版,2006年版。
i . h .威滕·e·弗兰克,数据挖掘:实用机器学习工具和技术摩根考夫曼,第二版,2005年版。
d . s . Hochbaum和d . b . Shmoys thek-center最好的启发式的问题。”运筹学的数学,10卷,不。2、180 - 184年,1985页。视图:出版商的网站|谷歌学术搜索
法耶兹和t·克里希南EM算法和扩展美国新泽西州霍博肯市Wiley-Interscience,第二版,2008年版。
m·霍尔·e·弗兰克,g .福尔摩斯b . Pfahringer p . Reutemann和i . h .威滕“WEKA数据挖掘软件,”ACM SIGKDD探索通讯,11卷,不。1,10 - 18,2009页。视图:出版商的网站|谷歌学术搜索
a . p .法官:m . Laird, d·b·鲁宾,“通过theEMAlgorithm最大似然的不完整的数据,”皇家统计学会杂志》:系列B(方法论),39卷,不。1、22页,1977页。视图:出版商的网站|谷歌学术搜索
s·m·库马尔,”一个最远的第一个聚类算法,优化”学报2013年Nirma大学工程国际会议,页1 - 5,艾哈迈达巴德,印度,2013年11月。视图:出版商的网站|谷歌学术搜索
达斯古普塔和p . m .长”,层次聚类的性能担保。”计算机与系统科学杂志》上,卷70,不。4、351 - 363年,2005页。视图:出版商的网站|谷歌学术搜索
彭y, y史,”社论:多标准决策和操作研究,“《运筹学,卷197,不。1、1 - 4,2012页。视图:出版商的网站|谷歌学术搜索
哈姆丹和a . Cheaitou”与绿色供应商选择和订单分配标准:一个指标和多目标优化方法,”电脑与行动研究卷,81年,第304 - 282页,2017年。视图:出版商的网站|谷歌学术搜索
j·l·杨h . n .赵G.-H。Tzeng, r·h·叶“供应商选择的模糊指标综合技术与独立和相互依存的关系,“信息科学,卷178,不。21日,第4183 - 4166页,2008年。视图:出版商的网站|谷歌学术搜索
b . Wang和y史,“纠错方法分类利用多重准则和多种约束线性规划水平,”国际期刊的计算机、通信和控制,7卷,不。5,976 - 989年,2012页。视图:出版商的网站|谷歌学术搜索
施j .他y, y, g .黄”域驱动的分类基于多个标准和多约束水平编程智能信用得分,”IEEE工程知识和数据,22卷,不。6,826 - 838年,2010页。视图:出版商的网站|谷歌学术搜索
y y Shi, l .张天,李x智能知识:除了数据挖掘研究施普林格,柏林,德国,2015年。
l .枝”最优和non-scalar-valued性能标准”,IEEE自动控制,8卷,不。1,59-60,1963页。视图:出版商的网站|谷歌学术搜索
p c .问添加剂和不完整的产品集实用程序:应用程序优先级和作业美国运筹学学会(ORSA),巴尔的摩,马里兰州,美国,1967。
e . Triantaphyllou多标准决策:比较研究Kluwer学术出版商,多德雷赫特,荷兰,2010年。
大肠Triantaphyllou k·贝格,“聚集效益和成本标准的影响在四MCDA方法,”IEEE工程管理,52卷,不。2、213 - 226年,2005页。视图:出版商的网站|谷歌学术搜索
j .邓“灰色系统的控制问题,”系统和控制信1卷,第294 - 288页,1982年。视图:谷歌学术搜索
j .邓灰色系统的书温莎:科技信息服务、奥尔巴尼,纽约,美国,1988年。
g . w . Wu口,和y .彭”集团决策使用改进的多准则决策方法对于信用风险分析,“Filomat,30卷,不。15日,第4150 - 4135页,2016年。视图:出版商的网站|谷歌学术搜索
•吴(george w . bush)和y .彭”,灰色关联分析的扩展促进集团溢油应急管理共识,”《运筹学,卷238,不。1 - 2、615 - 635年,2016页。视图:出版商的网站|谷歌学术搜索
d .梁、a . Kobina和w,“灰色关联分析方法,基于几何概率语言多准则群决策bonferroni说,“国际期刊的模糊系统,20卷,不。7,2234 - 2244年,2017页。视图:出版商的网站|谷歌学术搜索
e .出席和c·博兹”,比较宏观经济表现的地中海联盟国家利用灰色关联分析和多维定标,”欧洲科学杂志13卷,第299 - 285页,2017年。视图:谷歌学术搜索
j·邓”,灰色理论系统概论”,《华尔街日报》的灰色系统,1卷,不。1 - 24,1989页。视图:谷歌学术搜索
c·l·黄和k .尹多属性决策斯普林格出版社,柏林,德国,1981年。
g . r . Jahanshahloo p.h. Lotfi和m . Izadikhah”扩展决策问题的模糊TOPSIS的数据,”应用数学和计算,卷181,不。2、1544 - 1551年,2006页。视图:出版商的网站|谷歌学术搜索
s . j .陈和c·l·黄模糊多属性决策:方法和应用斯普林格出版社,柏林,德国,1992年。
美国Opricovic G.-H。Tzeng,“妥协方案指标方法:比较分析VIKOR和指标值,”欧洲运筹学杂志》上,卷156,不。2、445 - 455年,2004页。视图:出版商的网站|谷歌学术搜索
j.p.麸和b . Mareschal“PROMETHEE法方法”多标准决策分析:先进的调查摩梭,j . Figueira诉,b·罗伊。,pp. 163–195, Springer, New York, NY, USA, 2005.视图:谷歌学术搜索
c .何曼思和j·埃里克森,”多准则决策分析:概述和对环境决策、”环境资源的经济进步7卷,第228 - 213页,2007年。视图:出版商的网站|谷歌学术搜索
d . m . Kilgour h .旷,k . w . HipelGrey-based PROMETHEE法二世与应用评价源水的保护策略,信息科学,2014。
j.p.麸和b . Mareschal如何决定PROMETHEE法”,1994年,http://www.visualdecision.com/Pdf/How%20to%20use%20promethee.pdf。视图:谷歌学术搜索
j.p.麸和p . Vincke认为,“排名组织方法,注意到一个偏好”管理科学没有,卷。31日。6,647 - 656年,1985页。视图:出版商的网站|谷歌学术搜索
施泰因巴赫m, g . Karypis,诉Kumar“比较文档聚类技术,”第六届ACM SIGKDD学报》国际会议上知识发现和数据挖掘美国,波士顿,MA, 2000年8月。视图:谷歌学术搜索
y赵、g . Karypis和法耶兹,“分层聚类算法对于文档的数据集,”数据挖掘和知识发现,10卷,不。2、141 - 168年,2005页。视图:出版商的网站|谷歌学术搜索
e·瑞Abundez, a·阿里斯门迪,e . m .一个“集群内部和外部验证索引”国际计算机和通讯》杂志上,5卷,不。1,27-34,2011页。视图:谷歌学术搜索
y赵和g . Karypis实证和理论的比较选择的文档聚类准则函数,“机器学习,55卷,不。3、311 - 331年,2004页。视图:出版商的网站|谷歌学术搜索
r . Baeza-Yates和b . Ribeiro-Neto现代信息检索美国,addison - wesley,波士顿,MA, 1999。
n .姆:弗里德曼,n . Tishby“无人监督的文档分类使用顺序信息最大化,”学报》第25届国际市立图书馆会议信息retrieval-SIGIR 02年的研究和开发2002年8月,坦佩雷,芬兰,。视图:出版商的网站|谷歌学术搜索
墨金,数学分类和聚类,Kluwer学术出版社,多德雷赫特,荷兰,1996年。
w·m·兰德”聚类方法的评价的客观标准”,美国统计协会杂志》上,卷66,不。336年,第850 - 846页,1971年。视图:出版商的网站|谷歌学术搜索
s . Jaccard“新式生物surla分布花香,”公报de la法国vaudoise des科学,44卷,第270 - 223页,1908年。视图:谷歌学术搜索
e . b . Fowlkes和c l .锦葵”两个层次聚类方法比较,美国统计协会杂志》上,卷78,不。383年,第569 - 553页,1983年。视图:出版商的网站|谷歌学术搜索
l·休伯特和p . Arabie比较分区”,杂志的分类,卷2,不。1,第218 - 193页,1985。视图:出版商的网站|谷歌学术搜索
d . Badescu中行,a . Banire Diallo诉Makarenkov,“检测与疾病相关基因区域使用变异函数和调整兰德指数”BMC生物信息学,12卷,不。S-9, 1 - 10, 2011页。视图:出版商的网站|谷歌学术搜索
t . l . Saaty层次分析法美国麦格劳-希尔,纽约,纽约,1980年。
彭g . w . Wu口,y, d . Ergu”改进ahp-group决策投资策略选择,”技术和经济发展的经济,18卷,不。2、299 - 316年,2012页。视图:出版商的网站|谷歌学术搜索
s Tyagi s Agrawal、杨k和h,”一个扩展的模糊层次分析法的方法来排名的影响socialization-externalization-combination-internalization模式发展阶段,“应用软计算52卷,第518 - 505页,2017年。视图:出版商的网站|谷歌学术搜索
高桥,“层次分析法应用于二元和三元比较,”日本的运筹学学会杂志》上,33卷,不。3、199 - 206年,2017页。视图:出版商的网站|谷歌学术搜索
c。Yu”GP-AHP求解群决策模糊AHP方法的问题,“电脑与行动研究卷,29号14日,第2001 - 1969页,2002年。视图:出版商的网站|谷歌学术搜索
m·卡马尔和a . h . Al-Subhi AHP在项目管理中的应用”,国际项目管理杂志》上,19卷,不。1,19-27,2001页。视图:出版商的网站|谷歌学术搜索
c·A·巴纳e科斯塔和j . c . Vansnick”的一个重要分析特征值方法在层次分析法得到优先考虑,”欧洲运筹学杂志》上,卷187,不。3、1422 - 1428年,2008页。视图:出版商的网站|谷歌学术搜索
t . Ertay d阮,Tuzkaya,“集成数据包络分析和层次分析制造系统设备布局设计的,”信息科学,卷176,不。3、237 - 262年,2006页。视图:出版商的网站|谷歌学术搜索
s•m . Dağdeviren, n . Kılınc”武器选择使用AHP和TOPSIS方法在模糊环境下,“专家系统与应用程序,36卷,不。4、8143 - 8151年,2009页。视图:出版商的网站|谷歌学术搜索
m·p·阿米里“项目选择工作人员开发利用AHP和模糊TOPSIS方法,”专家系统与应用程序,37卷,不。9日,第6224 - 6218页,2010年。视图:出版商的网站|谷歌学术搜索
x, s .郭,郭j . x黄”e-alliance B2C电子商务网站排名基于AHP和模糊指标值,”专家系统与应用程序,38卷,不。4、3550 - 3557年,2011页。视图:出版商的网站|谷歌学术搜索
w·g·寇,y Peng g . Wang,和y .史,“整体的软件缺陷预测:一个基于评价方法,”国际信息技术与决策》杂志上,10卷,不。1,第206 - 187页,2011。视图:出版商的网站|谷歌学术搜索
p·多明戈,“向knowledge-rich数据挖掘,”数据挖掘和知识发现,15卷,不。1,第21至28,2007页。视图:出版商的网站|谷歌学术搜索
g .口和w·吴”,紧急医疗服务的多标准决策分析评估,”《运筹学,卷223,不。1,第254 - 239页,2014。视图:出版商的网站|谷歌学术搜索
答:弗兰克和a .亚松森UCI机器学习库,加州大学,学校的信息和计算机科学,欧文,CA,美国,2010年,http://archive.ics.uci.edu/ml。

复杂性

文摘

1。介绍

3所示。预赛

3.1。聚类算法

3.2。指标的方法

3.2.1之上。WSM

3.2.2。绿草

3.2.3。指标值

3.2.4。PROMETHEE法二世

3.3。性能的措施

3.3.1。的列联表

3.4。指数权重

4所示。该模型

5。实验设计和结果

5.1。数据集

5.2。实验设计

5.3。实验结果

5.4。讨论和分析

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

复杂性

决策支持的评估基于指标的聚类算法

文摘

1。介绍

2。相关工作

3所示。预赛

3.1。聚类算法

3.2。指标的方法

3.2.1之上。WSM

3.2.2。绿草

3.2.3。指标值

3.2.4。PROMETHEE法二世

3.3。性能的措施

3.3.1。的列联表

3.4。指数权重

4所示。该模型

5。实验设计和结果

5.1。数据集

5.2。实验设计

5.3。实验结果

5.4。讨论和分析

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章