文摘
多尺度带来极大的好处,人们从不同的角度观察对象或问题。多尺度各学科集群已被广泛研究。然而,大多数的研究仅为数值数据集,这是一个缺乏标称数据集的聚类研究,尤其是数据nonindependent和恒等分布(Non-IID)。针对目前的研究现状,提出了一种基于Non-IID名义数据多尺度聚类框架。首先,benchmark-scale数据集集群基于耦合度量相似性度量。其次,提出将聚类结果从基准规模目标规模,这两个算法命名为升级基于单链和降尺度兰索斯内核的基础上,分别。最后,实验使用五个公共数据集和一个真实的数据集执行中国的河北省。结果表明,该方法不仅可以为我们提供有竞争力的性能也降低计算成本。
1。介绍
聚类是一种重要的数据挖掘和机器学习技术,旨在组织类似的对象到相同的集群和单独的不同对象到不同的集群(1]。它是如此突出,最近吸引了来自不同领域的重要的研究者和实践者的关注科学与工程(2]。成千上万的论文已发表(3- - - - - -6]。然而,这些调查只集中在集群在一个单一的视角。
规模可以相当于以下概念:通用概念,抽象级别,或视角的观察;同样的问题或系统可以在不同尺度感知基于特定需求(2]。叫做多尺度现象,被广泛应用于学术领域,如地球科学(3,4)和数学(5]。基于分布的集群scapularis仙女在不同空间尺度上的莱姆病发生在魁北克南部地区,加拿大,文献[6)帮助人们理解风险的变化,并采取相应的措施。在[7),平均链接层次聚类算法通过区域化算法识别的非平稳均匀降雨量地区降水时间序列基于多尺度自升式取样。作者在8)提出了一种多尺度高斯kernel-induced模糊c均值算法部分病变并确定病灶的边缘。
从目前的研究情况,多尺度各学科集群已被广泛研究。然而,从分析数据的属性类型,大多数的研究仅仅是数值数据,定量分析和预测的数据,但很少有定性分析名义数据集。大部分的数据集使用字符来表示属性值和没有数字的属性。即使它们所代表的数字(整数),他们应该符号,不能定量分析。研究名义数据集,不仅需要获得复杂的数据特征但也该方法需要一些灵活性。
本文的主要贡献如下:(1)多尺度聚类方法Non-IID名义数据提出了通过引入无监督耦合度量相似性;(2)结合scale-transformation理论和凝聚层次聚类的概念,一个规模计算方法提出了基于单个链将聚类结果从基准规模目标规模;和(3)scale-transformation理论结合兰索斯插值思想和基于分裂层次聚类思想,提出了基于兰索斯的降尺度算法进行多尺度Non-IDD名义数据集的聚类。
本文的其余部分组织如下。部分2讨论了相关工作。一些定义节简要回顾了3。多尺度聚类的框架设计4。部分5细节的比较实验。结论和未来的研究方向给出了部分6。
2。相关工作
集群已经吸引了越来越多的注意力从研究者和可以应用于许多领域,如时间序列分析(9,10),脑机接口(11- - - - - -15),癫痫(16,17),和睡眠分期(18,19]。集群通常要求“类”的数量提前设置,然后将数据集分为“类”根据特定的分区算法。分配一个数据集划分方法k集群,每个集群必须包含至少一个元素。在1967年提出的k - means算法MacQueen是最经典的代表分区的方法(20.),这是一个最有名的和最简单的聚类算法(21]。弗雷和Dueck在2007年提出了“亲和传播(美联社)”算法(22]。不同于以前的聚类算法,该算法不需要事先确定聚类中心,但使用一个n阶方阵存储数据并执行迭代聚类之间的关系在这个方阵,效果明显。2013年,【等人提出了一个贪婪的基于聚类算法k成员和它应用于协同过滤任务(23]。2015年,阿加瓦尔等人提出了改进的k - means算法k - means + +,尽可能地分散在质心的选择,和聚类效果显著提高24]。谱聚类(25源于图论。数据被视为图中顶点和数据被视为边缘之间的关系图。图分为几个子图“图切割”技术,和子图对应于集群的集群。这些算法的共同特点是,他们只能处理数值数据。标定数据的聚类问题,黄的灵感来自于k - means算法并提出了k-modes算法(26在1998年首次)。该算法采用一种新的方式来测量对象相似性将数据对象划分。2018年,阮等人改进了k-modes算法(27)和使用的隐私保护机制来解决这个问题,透明的数据输入。
2014年,Saffarzadeh等人分析视网膜图像的多尺度线性算法用于确定眼睛病变发生(28]。2015年,林等人应用多尺度谱聚类算法在地球科学领域提高地震预测的可靠性(29日]。2016年,Parisot等人多光谱聚类应用于医学领域提高效率和精度的磁共振成像(30.]。2018年,Ripoche等人研究了莱姆病在三个不同的空间尺度上的分布在魁北克南部,加拿大,和蛹的密度在不同林地和在不同的情节和部分相同的林地,在理解和提供指导预防莱姆病(6]。Vu等人开发了一个新的多线程工具,fMLC,解决聚类问题的大规模的DNA序列(31日]。星形的多级聚类星系分离于2016年设计,包括三个阶段:粗化聚类,代表数据聚类和合并32]。2019年,Zunic等人提出了一种多级聚类算法用在内部银行支付系统在波斯尼亚和黑塞哥维那银行和解释参数如何影响结果和算法的执行时间33]。这些算法的目标是一个特定的应用程序和解决相应的问题。在的前提下取得了小规模数据集的聚类结果,Chen等人。34)提出了一个方法叫SUCC解决大规模数据的聚类。我们将提出一种多尺度Non-IID名义数据聚类方法。
在集群中,我们需要评估不同对象之间通过距离测量(35]。闵可夫斯基距离是最常用的测量数值数据。最受欢迎的距离测量是欧几里得距离,另一个著名的措施是曼哈顿距离,他们都是闵可夫斯基距离的特殊情况。两个二进制属性之间的不同是计算一个不同矩阵从给定的二进制数据。上述测量方法主要为数值数据,并进行量化处理和分析。不过,也有非数值的属性值的数据,也称为标称数据。目前,很少有研究名义数据的定性分析,尤其是Non-IID数据。几个度量相似性(CMS) (36)有利于Non-IID名义数据的测量距离。
3所示。预赛
为了便于讨论在本文的其余部分,在本节简要回顾了CMS。CMS措施两个对象的相似度通过捕获对象的内部和inter-attribute耦合关系,前者描述的耦合和频率分布的相似性的价值属性,后者聚集属性之间的依赖关系的不同属性值的关系,考虑到十字路口,条件属性值同现概率的不同特点36]。
定义1。(intra-attribute相似)。两个物体之间的intra-attribute相似一个和B在属性j是年代Ia(一个j,Bj),定义如下: 在哪里 , ,一个j代表对象的价值一个在属性j,Bj代表对象的价值B在属性j,表示是一组对象的属性的值一个j,|•|代表一组的数量。
定义2。(inter-attribute相似)。两个值之间的inter-attribute相似属性一个j和Bj在属性j与其他属性年代即(一个j,Bj),定义如下: 在哪里d代表数据集的属性,每个属性的重量吗k到属性j, 代表了inter-attribute属性相似的候选人k和定义如下: 在哪里 ,在哪里的属性值的集合吗k对所有对象和包含属性值的属性k既存在和一个j和Bj,是第i个元素的 。
定义3。(耦合度量相似)。耦合度量两个对象之间的相似性(CMS)一个和B是
和定义如下:
在哪里代表的重量耦合度量属性的属性值相似j和
定义如下:
在哪里α是inter-attribute相似性的加权调和平均数和intra-attribute相似。不同的α反映了不同比例的intra-attribute相似性和inter-attribute相似性形成整体对象相似性。
在本文中,我们使用CMS测量两个对象的相似。
4所示。提出了框架
本文提出的多尺度聚类框架如图1。而不是直接聚类在所有规模的数据集,这种方法首先选择最佳规模数据集命名benchmark-scale数据集,然后调用benchmark-scale数据集上的经典挖掘算法的聚类结果,最后决定把聚类结果向上或向下按基准目标规模和规模之间的关系。从这个框架,可以看出多尺度聚类的核心是benchmark-scale数据集集群和集群的推升,压低benchmark-scale数据集的结果。我们设计三个算法实现框架。
首先,根据概率密度离散化方法(37],表征的性质规模分为多尺度概率密度。其次,确定最优规模根据每个规模的信息熵的衰减38benchmark-scale数据集上的聚类,利用光谱方法。算法的细节1如下。我们计算每一对之间的距离在benchmark-scale样本数据集通过使用CMS和构造相似度矩阵, 。(第5行)。拉普拉斯算子矩阵计算5 - 10。价值和向量计算在第11行,N提前是集群的数量和设置。集群的核心和标签拼接形成Rcenter(14行)。
|
||||||||||||||||||||||||||||||||||||
集群benchmark-scale数据集完成后,集群中心的大型数据集可以推导出集群benchmark-scale数据集的中心。本文受凝聚层次聚类的概念,一个升级算法提出了基于CMS (UACMS)(2 - 4行)。其基本思想如下:每个集群中心基准规模作为一个集群,CMS是距离测量,两个最近的簇合并成一个,直到达到终止条件(5 - 9行)。具体算法流程2。
|
||||||||||||||||||||||||
降尺度算法基于兰索斯(DSAL)获得小规模数据集的聚类中心的集群中心benchmark-scale数据集,和对面的过程正是UACMS算法3。也就是说,其原理是采用自上而下的思维。首先,所有benchmark-scale集群中心被认为是一个集群,和兰索斯内核函数是用来计算每个集群生成新的集群中心的重量(1号线),然后获得更多、更小的集群根据它们之间的耦合相似,直到满足终止条件(2 - 5行)。
5。业绩评估
在本节中,我们把我们的方法与经典方法:k-modes和谱聚类是基于5措施(CMS,嗯39),油田,Eskin [406日)数据集。聚类评价指标包括归一化互信息(敝中断)41),f值(42),属于外部指数和均方误差(MSE) [43,44),这属于内部指标,本节将使用这三个指标来评估算法的准确性,同时也展示了运行时该算法的优势。
5.1。数据和实验设置
为了验证框架和算法的有效性和可行性,Kaggle和公众UCI数据集(动物园,Soybeanlarge,皮肤病,BreastCancer,《泰坦尼克号》)和实际数据集(简称renkou)是用于实验验证,如表所示1。为了便于描述,数据集Soybeanlarge、皮肤病和BreastCancer由溶胶,火线,BrC,分别在这一节中。Python和执行我们的程序实现了在计算机上与国际米兰(R) (TM)核心i7 - 3770基于3.4 GHz CPU、8 GB内存,操作系统windows 10×64家庭。
5.2。升级
本文算法的敝中断值UACMS和六个比较算法在每个数据集在图所示2。从图可以看出,敝中断的价值基本上是最小的在每个数据集,和敝中断算法UACMS是最高的价值,除了BrC和《泰坦尼克号》。主要原因是元素属性的两个数据集之间的关系是复杂的。不容易反映这种复杂关系通过调整参数,限制的重量关系intra-attributes inter-attributes对象的关系,这也是一个挑战面对算法。当然,UACMS Der表现良好,renkou和其他数据集。一般来说,UACMS的敝中断值算法与其他算法相比,平均增加了13%。
为了便于比较,七种不同算法的均方误差值的数据集Brc减少到40%的原始值,如图3。从图可以看出,在这一节中提出的算法有一个占主导地位的MSE价值四个数据集。总的来说,与其他算法相比,算法的均方误差值提出了平均减少了0.83,这显示了UACMS的一定优势。值得注意的是,图3显示的均方误差值的方法在索尔和renkou数据集很小,和MSE 6的数据集的平均值是仅次于UACMS。自从MSE值反映了集群中的对象的紧张,产生的集群的方法相对比较紧。
图4显示的f值值UACMS和六个比较算法。尽管在数据集BrC CMS f分数最高,Eskin f分数最高的数据集,和UACMS最佳性能在其他四个数据集和f值最高的意思是所有的数据集,这是所有比较算法的均值高出13%。相反,k-modes所有数据集上表现不佳。这解释了原因k-modes依赖的随机初始化中心和缺乏考虑的对象属性之间的相互关系。
表2显示了该算法的运行时UACMS和6 6日数据集比较算法。该算法UACMS所有数据集上具有显著的优势,和平均运行时间是提高了11.32分钟。其他六个算法需要更多运行时随着数据集的数量的增加,但运行时算法UACMS基本上不受影响的数据集;这是因为UACMS不处理原始数据,但是benchmark-scale数据集的聚类中心和benchmark-scale数据集的集群中心的大小远小于原始数据集。CMS措施对象之间的相似性,它需要考虑内部相似的对象属性和对象属性之间的相似性,这就需要一个相对大量的计算,因此该算法需要更多的时间,如表所示2。其他五个比较算法是成熟的和高效的,尤其是k-modes,运行时间较短,但他们有一个共同的特点:随着数据量的增加,相应的执行时间将会增加。特别是,CMS和Eskin方法在实验中来自文学和不优化,运行效率很低。
总之,本节通过实验,验证该算法(UACMS)是优于其他六个算法聚类结果指标(敝中断、MSE和f值)在大多数数据集。此外,UACMS是运行时的最大优势UACMS明显短于比较的算法,和它不会改变增加了数据量。这是因为UACMS处理benchmark-scale数据集上的知识,而不是原始数据。因此,UACMS是可用的和有效的。
5.3。缩小规模
图5显示的敝中断值DSAL和6 6日数据集比较算法。除了数据集BrC, DSAL敝中断值最高的五个数据集,和DSAL敝中断的平均值在所有的数据集是高出19%,六个比较算法。相比之下,k-modes算法在实验中表现不佳,因为一方面,这种方法是建立在假设的属性对象是独立的,而在实验数据集的属性对象的依赖;另一方面,k-modes算法随机选择集群中心执行期间,导致聚类结果的随机性。随着DSAL算法考虑不同属性之间的交互,聚类结果有明显的优势。
为了便于比较,六种不同算法的均方误差值在数据集Brc减少到40%的原始值,和最后的均方误差值的算法如图6。从图可以看出6算法的均方误差值DSAL BrC稍有不如意的两个数据集和《泰坦尼克号》,除了renkou主导者三个数据集。然而,这两个算法的均方误差值HM和renkou略低的数据集。越来越少的原因可能是不同的属性值在一个属性,从而影响相关算法的性能。总的来说,MSE DSAL的价值小于3的6数据集比较算法,平均减少约0.03。这表明集群形成的密实度DSAL算法有一个轻微的优势其他比较算法。
DSAL和比较算法的f值值在图所示7。从图可以看出7DSAL f分数最高的值在所有其他的五个数据集除了BrC,特别是在数据集renkou,这个算法的f值值约为46%高于其他方法。的平均算法的f值是最小的。表现不佳的原因DSAL算法的数据集BrC可能是数据对象的属性之间的关系是复杂的,和设计功能不能完全反映的关系。然而,总体DSAL的f值比较算法提高了约16%。f值考虑精度和召回率。f值越大,聚类效果越好。因此,该算法在真实数据集renkou有着显著优势。
DSAL和6比较算法的运行时如表所示3。显然,CMS算法有最长的运行时数据集和需要进一步优化。DSAL算法是基于CMS,但运行时比其他六个短比较算法,和运行时基本上是一个数量级短。这主要是因为DSAL与集群中心benchmark-scale数据集的数量,没有数量的原始数据。因此,它的运行时间是受到小型数据集的聚类结果的影响,而其他六个算法直接处理原始数据预处理后(),和他们的自然运行时间增加逐渐增加数据量。数据集《泰坦尼克号》,比k-modes DSAL算法具有更明显的优势,只用0.27秒少,因为它需要更多的时间来解决集群中心使用内核函数的重量兰索斯在这个数据。特别是,CMS和Eskin方法在实验中来自文献没有任何优化,所以运行时间相对较长。由于运行时间是影响计算机硬件配置和代码优化水平,此外,比较实验的运行时间计算在特定环境下,仅供参考。
这部分验证该算法(DSAL)外部指标的明显优势(敝中断和f值)对大多数数据集的聚类结果。与其他算法相比,DSAL的内部评价指标MSE稍有优势。此外,DSAL的最大优势是它的运行时明显短于其他算法,和它不会改变增加了数据量。这是因为DSAL处理benchmark-scale数据集上的知识,而不是原始数据。因此,DSAL是可用的和有效的。
6。结论
本文基于耦合的多尺度聚类算法度量相似性,提出了多尺度数据挖掘进行了多尺度名义与非独立数据集和相同的分布,和尺度转换方法提出了基于benchmark-scale聚类结果:规模估算方法基于单链UACMS和规模估算方法基于兰索斯内核。实验结果表明,提出的框架是有效的和有效的数据集的属性是明显的多尺度特性。
在未来的工作中,我们主要关注两个方面:(1)我们将多尺度理论应用于频繁项目集采矿和(2)我们的研究是值得关注的实际应用,我们将考虑将多尺度聚类应用于碰撞检测和规则检测基于以前的研究。
数据可用性
在这项研究中给出的数据的结果包括在手稿中。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是国家社会科学基金支持的部分中国18号zda200和13 &zd091,河北省重点研发项目中国20370301 d,河北师范大学和关键技术开发项目。L2020K01。