文摘

对集群的问题质量的评价信息客户服务管理、集群算法新的高斯内核FCM(模糊c)提出了基于FCM的想法。首先,本文定义了两个数据点之间的欧几里德距离公式,使它们集群自适应分类方法和基于距离最近的邻居在删除相关数据。第二,FCM算法的缺陷进行了分析,解决算法设计的双重目标的基础上获得整个类之间的短距离和长距离之间不同的类。最后,给出了一个例子来说明结果与现有FCM算法。

1。介绍

聚类是一种无监督学习方法,不依赖于预先定义的类和训练数据集类标签。聚类对象分为类或集群特征相似性的基础上测量。因此,相同的集群共享高相似性在同一个集群,但很大程度上不同于彼此之间不同的集群。传统的聚类方法主要是基于分区,层次结构,网格密度和模型。数据挖掘在集群迅速发展需要更高的要求,基于样本的聚类算法归因,预处理,相似度测量、分配和调度、更新策略和测量(1,2)先进,应用于数据挖掘(3,4]。考虑到会员之间的模糊性采样点和聚类中心,目标基于函数的模糊c均值(FCM)算法在理论和实践仍然盛行。

FCM算法的核心是设计和确定聚类中心。量化的设计主要由集群中心,定位,策划一个相应的目标函数。集群中心量化手动在大多数情况下,或他们的最优数量确定在给定的范围内使用信息熵和其他方法。例如,段和王5)表明,聚类中心收购与北黄海模糊数的多属性信息。提出了一种新的聚类算法,Neiμ,(6)基于数据集转换成数据点的属性空间构建一个有向图再的邻居。该算法有助于提高数据的聚类与大密度波动和任意分布,但并不是所有的数据点再邻居。雪和沙7)启动一个基于坐标密度方法使用灰色预测模型的聚类算法确定初始聚类中心。

一个聚类中心应该决定修改在一个动态的过程。现有的测定方法主要包括K——聚类算法、分区和density-based聚类算法,聚类算法基于本地数据点的密度,和KZZ算法。对于这些,K——算法与给定初始中心,而分区,density-based聚类算法用于确定初始聚类中心的采样点密度函数使用极大极小距离意味着或最大距离产品的方法。小张和小王8指出最近的数据点是将促进其他聚类中心的位置同时解决高约束添加到目标函数。赵斯蒂芬(9)定义的措施为每个数据点确定初始聚类中心。奥古斯汀•et al。10)研究了一组遗传算法,旨在提高集团集群的性能通过编码和定义健身功能。在[semisupervised聚类算法被提出11)通过内核FCM聚类算法聚类错误包含标记和未标记数据来设计目标函数。因为FCM未能处理噪音,一个高效的kernel-induced FCM提出了基于高斯函数(12改善目标函数。

以下情况下的一些现有FCM的研究。钱和姚13)集中在高灵敏度引入的初始中心点和三个增量模糊聚类算法对大规模稀疏的高维数据集。妞妞,她(14)提出了一种基于集群的快速并行聚类算法的初始化。通过生成一个层次k - means聚类树的数量自动选择集群,胡(15获得更好的聚类结果。摘要针对传统FCM算法时间复杂度高,一个单程的贝叶斯主张大规模数据的模糊聚类算法(16),提高其在时间复杂度和收敛性能。周et al。17]介绍了多维数据的邻域信息来提高聚类算法,提高了鲁棒性的异常值和噪声点。陈和刘18)设计最小连通支配集的聚类算法来弥补这个缺陷,常见的算法容易陷入局部最小值点。谢et al。19)结合GWO算法与最大熵原理在多维大数据环境。段和王5)集群的多个对象的属性描述为多边形模糊数,并相应地设计了聚类算法。通过推进一种自适应算法的熵权特性FCM的重量,黄等。20.)关注功能的影响体重在一个聚类算法。的偏好向量的聚类作为一个社区相似度,徐和风扇21),旨在构建一个启发式聚类算法对于多属性复杂的大群集群和决定。

这些文件关注FCM algorithm-associated问题,但很少有成就了大数据场景。针对大型数据点集群和小样本点之间的差异集群、大数据的采样点简化本文使FCM更适用于大数据场景。接下来,FCM算法设计了两类间距离长、短句距离考虑,传统的FCM算法没有做到的。因此,这项研究提供了理论和实践指导数据聚类在一个大数据环境。

2。高斯内核FCM聚类算法

自服务资源通常以多种方式分配,有一个有限的资源在一个通道之间的互反关系分配和那些在另一个的资源数量、群体一致性是够不着不同的资源消费者更喜欢不同的渠道,导致变化的评价数据。如果价格机制未能优化服务资源分配,应考虑消费者的需求,追求社会效益达到更高效率的资源配置。消费者主要功能异质性、利益冲突和差异评价形式,这需要分解的客户群体将大规模消费群体划分为几个小的集群,从而简化资源协调。

假设消费者表示为主题服务的资源 ,个人消费者 ,渠道(数据维度)的数量 ,评估数据 , 加入样品吗 在课堂上 ,用模糊矩阵 只要有 类和 代表集群中心。其目标函数可以表示为高斯内核FCM聚类算法(8]: 在哪里 , 是一个高斯函数的特性常数, 是一个模糊指数用于控制模糊程度的分类。指数越高,模糊程度越高。 给定数据的方差。因此,

如果 ,然后迭代停止,有最佳的分类。传统的FCM算法和高斯内核FCM聚类算法关注句距离而不是类间距离。以结果为导向的,两个值应该被认为是为了获得更好的聚类。由于大量的消费者服务资源分配,直接计算会员将导致高计算复杂度和收敛速度慢等问题的最优解,从而导致集群效率的下降。因此,预处理的数据点之前应该进行聚类以减少数据点的数量需要集群,提高聚类算法的可伸缩性。

3所示。消费者的评价信息的预处理

可以被认为是一个约束数据。部署欧几里德距离公式计算其距离:

提前为 (包括 可以降低值更准确的分类)。(我)如果 ,那么认为 非常近,可以放在一个类(2)如果 ,它被认为是 远不 ,托架在一起几乎是不可能的(3)数据点之间 不能有效地识别

快速删除数据,数据点之间的距离的特点和集群的可能性应该考虑不同的数据点,调查预处理过程。删除应该通过以下步骤完成:(我)步骤1:将数据点 最小的距离 以满足 ,并结合 然后, , (2)第二步:取平均值 通过 作为一种新的数据点,并确定数据点 在集合 不到是谁的平均值 然后, (3)步骤3:把 作为一种新的数据点的值 重复步骤2,直到没有新的数据点可以发现,和形成新的集 (iv)第四步:重复步骤1到3组 形成集 ,包括 ,最后一个数据点的平均值 分别作为新的数据点。(v)第五步:让数据点 基于图论是图中的节点,和连接线的节点的距离。如果距离大于 ,然后连接行被删除,从而形成一个连接网络图。假设点 , 做一个圆圈 是最远的 ,它可以被认为是有一个形成一个集群的概率更高 , ,所以连接行可以删除。在这里,图 没有周期是连接网络图。(vi)步骤6:在图 多元化的节点,节点按相邻的点的数量。每个节点都有一个多元化nondominated节点集群。(七)第七步:因为集群长度不同,很难产生有效的集群设置集群平均值作为它的两侧。删除会导致集群中的每个数据点的距离基本相等的中心集群。因此,可以采用点估计其期望值。考虑到集群 邻居,其样本方差 , 自适应再算法用于搜索最近的数据点或一组给定的数据点距离和合并成集群组件集群融合。因此, 满足公式将包括在集群中 ;否则,数据点被删除 如果包含在多个类,数据将进入集群作为一个优先的选择,最近的簇中心,所以集群中所有数据点的平均值 是数据点 (八)第八步:数据缩减规模使用上面提到的方法,并通过设置集群的针对性 是加强。原始数据集 成为集

4所示。聚类算法的消费者评价

集群和初始聚类中心的数量必须首先确定集群的FCM聚类算法。前者可以通过手动确定或定义一个区间范围和最佳集群优先号码。从消费者的角度来看集群,集群的数量是评价渠道,表示为 ,由于集群更好的协调需要的消费者更喜欢不同的服务渠道。

初始聚类中心将与最优的目标函数值变化的模糊分类。然而,很难满足需求类之间的区别。总的来说,学者们罚函数添加到现有模型的目标函数(1)最大化类间距离或相似的模型 然而,遇到以下问题:(我)内部类的距离是一个函数的每个数据点之间的距离和集群中心和成员的力量,而类间距离的平均值距离聚类中心之间的区别。两个价值相差很大,因此无法比较。合并到一个目标函数(最小值)可能无法适应最大化类间距离和减少迭代的内部类的距离,但可能专注于前者。(2)迭代终止发生的基础上理解目标函数的区别是在特定的范围内,与最优聚类中心和隶属函数可以被获得。作为一个可能的非凸函数与局部最优解,迭代的目标函数结束时不得解决,导致一个较小的值,可能会有小的差别在两次迭代的目标函数值和在两个大的值。该算法无法证明其收敛性。

保持简短句距离和类间距离,两个索引分区和设置一个更合适的迭代终止条件应基于上述考虑是必要的。然后,优化集群中心的确定可以继续。的步骤如下:(我)步骤1:作为聚类结果对初始聚类中心的选择敏感,聚类中心之间的距离应尽可能地增加。数据集的主要点最多的邻居 作为第一个聚类中心,主要的数据点最远的点作为第二个,最大的产品的数据点距离两个集群中心作为第三,等等,直到 初始聚类中心解决。(2)步骤2:计算 ,分别由方程(2)和(3)。 可以,或者一个样本方差估计: (3)步骤3:设置阈值 内部类的距离和 类间的距离。方差 是用来描述类间差异,在哪里 (iv)步骤4:如果 ,然后迭代终止, 是最合适的隶属函数和聚类中心,分别。(v)第五步(样本分类):工作距离 数据点之间 每个集群中心,分类的最小值。

5。仿真研究

考虑到大量的消费者和服务资源目标可能通过五个渠道分配,进行随机抽样调查100名消费者寻求他们的服务评价每个通道的数据。消费群体是集群追求一个更有效的资源配置。

通过给定的步骤,集群每个数据点的可能性(消费者)是基于评估的数据预处理。两个各自的评价数据点之间的距离计算公式(4), :(我)接近彼此最初是集群的数据中的步骤1到4部分3获取设置 ( )组成的 , 被视为新的数据和每个数据 作为独立的数据。因此,初始评价组简化为一组 72数据点。(2)步骤5的数据集 对连通图处理吗 没有圈(见图1)由元素形成的 ,在孤立点和点不是主要的连通图没有画。(3)过程每个节点图 数据集采用步骤6和7的结论 (包括41个数据点)的基础上,一种自适应加权分类规则。 代表一个或多个数据点 ,谁的部分关系见表1(iv)因为评价数据涉及5频道,找到5初始聚类中心的第一步第四节: , , , , (v)鉴于 ,计算 与步骤2 - 4。假设 迭代停止,提供 , , ,所以集群中心在其最佳状态后14迭代: , , , , (vi)执行步骤5分类样本,采购的聚类结果集 (七)预备 基于表2和相应的设置之间的关系 并设置 在表1。这是原始评价数据的聚类结果,如表所示3

的距离 (表达的 )在33个迭代表所示4根据(9]。

的变化 如图2

2说明的价值 增加,减少,然后增加单调收敛,是免费的。聚类中心时迭代今年可能不是最优的 ,和一个更合适的中心满足条件后可能会出现 迭代与较小的值

在这篇文章中,迭代停止时 ,的附加条件 确保一个适当的距离不同的类,使它更容易获得适当的值

6。结论

复杂巨大的群体聚类的基础服务资源的有效分配和组织协调;然而,传统的FCM和其改进版本不能处理大量数据点集中。在这种情况下,删除的数据点进行了研究在当前的论文通过使用图论聚类算法,自适应聚类算法和高斯核聚类算法。与此同时,提出了一种新的高斯算法存在句的距离和类间距离,其中目标函数失败。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。