k - means聚类算法及其仿真基于分布式计算平台 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

文摘

目前,数据的爆炸性增长和大规模存储状态带来了许多问题,如计算复杂度和计算能力不足聚类研究。分布式计算平台通过动态负载平衡配置大量的虚拟计算资源,有效地突破瓶颈的时间和能源消耗,在大规模的数据挖掘和体现了其独特的优势。本文研究了平行k——广泛。本文首先初始化随机抽样和第二对之间的距离计算过程提供独立并行数据对象进行聚类分析。MapReduce的并行处理后,我们使用许多节点来计算距离,加快了算法的效率。最后,数据对象的聚类并行。结果表明,我们的方法可以有效地提供服务和稳定,具有良好的收敛性。

1。介绍

数据消费和服务已成为当今信息时代的主流1]。由于大量的数据和迭代计算操作的复杂性,传统的计算模型已经成为更难对付成倍增加的数据量。因此,聚类算法对分布式集群平台已成为迫切需要解决的问题(2,3]。

然而,数据分析和知识发现面临更大的挑战。数据挖掘通常使用算法来找到深层含义隐藏在显式特性从大量的数据4]。大多数现有的大数据平台是建立基于分布式计算和分布式存储组件。大数据平台的计算资源用于支持大数据分析;最常见的做法是并行化算法(5,6]。可以看出,在大数据环境中,分布式并行计算框架可以优化相关的数据挖掘算法,并行处理他们在分布式计算环境中,为大数据分析和知识发现提供更多的时间分析服务扩大的范围和及时性大数据的应用程序。

无论是传统的数据挖掘和数据分析在大数据环境中,集群、自动分类的基本过程未知数据,可以用于数据预处理阶段以及数据挖掘处理。然而,在大数据环境中,聚类分析面临着许多挑战。有些挑战固有的聚类算法,而另一些则造成的复杂的数据环境。这些挑战带来了新的困难,聚类分析在大数据环境中,处理多种数据类型,包括能力ultra-high-dimensional数据,和不平衡数据;迭代聚类算法的执行效率;该算法可扩展能力和集群效应评价模型;和许多其他问题。的k——(7)可以处理的聚类问题。

总之,在大数据环境中,数据特征如沉重、稀疏、高维度。此外,大数据处理平台基于分布式系统提供了丰富的计算和存储资源的处理大量信息。如何有效地利用计算能力的分布式并行计算框架来有效改善传统的数据挖掘算法的挖掘效果和提供更及时的数据分析服务在复杂的大数据环境中已经成为一个迫切需要解决的问题。本文在对许多问题的看法k则,加上MapReduce,优化的策略k则进行了研究。如何有效地将传统的数据挖掘算法应用到数据分析大数据环境中具有普遍的参考意义。我们的方法是三个方向改进。我们详细展示这部分3。结果证明我们的方法可以提供精确的匹配速度和实时性能。

近年来随着互联网的发展,人们可以获得的信息也成倍增加。如何从海量信息中获取知识是一个当前的研究侧重于计算机信息理论。集群作为数据挖掘的一个重要分支,近年来逐渐引起了广泛的关注。与其他数据挖掘方法相比,聚类的优点是不需要先验知识,可以获得知识和基于数据的自然分布(8]。聚类算法分为基于分区的类型、密度、分层、电网和模型。

聚类分析可以将数据集划分为若干集群(9]。的k——适用于数据集与大量数据和高功能维度,和对数据的依赖很低。因此,k——已经成为一种广泛使用的聚类方法(10]。然而,K传统的k,则需要提前确定初始化时只取决于开发人员的经验,这样的主观性会影响聚类的效率和结果的可信度(11]。随机选择初始聚类中心的不稳定会导致聚类结果(12,13]。

近年来,基于大数据平台,已经有大量的研究工作来实现传统数据挖掘算法在分布式平台和并行优化算法根据实际需求。因此,在选择初始中心的问题,Kumar et al。14执行一个k分析则在Hadoop庞大图书流通数据平台。从一开始的k则,初始质心选择提高和MapReduce是用来完成并行设计k——聚类图书流通数据。耿和张15)提供了一种数据挖掘方法来解决洪水的博客的信息。Hadoop的算法实现平台,用于分析大型博客信息,验证了从有效性等三个方面,加速和优化。徐和马16)设计并行贝叶斯和树冠算法基于Hadoop平台并进行了比较分析分类和聚类算法的效率和可伸缩性。为了解决不确定性和应急中心的选择K价值更好,杨et al。17]density-based方法。它能有效地消除孤立点和并行化。在回应的问题太多的迭代k聚类算法则Gopalani et al。18)的基础上,k——太多的迭代算法的特点和过低的执行效率提出了一个基于火花的分布式计算框架和应用的并行算法k——文本聚类。然后,根据抽样,k复杂的操作要求,则需要迭代解决。Yu et al。19)应用MPI并行计算框架小波聚类算法并提出了MPI-wave集群算法。崔et al。20.提出了一种并行遗传k——提高整体运作效率。

然而,k则随机选择初始中心将导致局部最优。值不稳定,迭代和耗时。为了克服上述问题,司令官和安萨里21使用MapReduce计算框架结合K选择排序算法对并行采样提高抽样效率,采用了一种纸浆包预处理策略获得初始中心点来获取更高的准确率。赵et al。22)设计的map和reduce函数实现的并行化k则算法。夏et al。23)提出k——局部最优。算法使用之间的交集subclusters构造不同的聚类结果的加权连通图subclusters然后合并subclusters通过他们的连接。该算法提高了聚类的准确性和效率在一定程度上,但由于该算法没有足够把握的集群元素、聚类精度仍然需要改进。金等。24)提出了一个k——初始聚类中心选择算法基于最优分区。该算法首先将样本数据,然后确定初始聚类中心根据样本分布的特点。该算法提高了聚类的准确性和效率,但对于ultra-high-dimensional样本空间,算法递归的数量将会增加,使计算太复杂,降低效率。

总之,k——取得了结果如何选择初始中心K价值和减少迭代的数量(25- - - - - -30.]。然而,由于初始中心的盲目性K价值选择,集群数量需要提前确定,还有局部优化等问题。因此,现有工作的基础上,我们进行了研究更有效和准确k则将稀疏,纬度高。

3所示。方法

3.1。分布式计算平台

地图的减少是一个并行编程模型。地图减少程序通常用于并行处理大量的数据。设计理念是将分而治之的问题,通常的处理洪水数据源,到在同一时间处理多个小数据源(31日- - - - - -33]。最后,总结了每个并行化过程的中间结果获得最终结果。这是一个分布式计算模型的核心,也是简单易用的分布式编程模型。因此,本文选择mapreduce的分布式计算平台(图1)。

有四个实体在整个模型的顶部,和客户端主要负责提交工作MapReduce框架。JobTracker单独负责调度的操作工作。TaskTracker负责运行输入切片数据和执行特定的任务。分布式文件系统(HDFS)提供了实际的存储服务,用于与所有节点共享操作所需的资源。

3.1.1。传统的k则算法

作为一个典型的算法计算集群,k则是相对有效的(34- - - - - -36]。因此,大规模用于理论研究和实际生产都具有高地位和影响力;我们的方法遵循的方法和李(李37]。

为了便于描述,介绍了一种象征。符号代表K集群中心。符号代表K不同的类。之间的距离数据如下:

中心点可以定义使用以下方程:

在哪里n_j指同一个类的数量。

收敛标志可以使用以下公式计算

k——(38,39)是一个迭代的解决方案。我们设置集群值K。则不断更新聚类中心。然而,仍然有许多问题与过程:(1)由于初始值和异常值的影响,结果每次都不稳定(2)容易收敛于局部最优解(3)集群的数量需要预设(4)聚类中心U不一定属于数据集(5)k则很容易受噪声影响由于L2距离函数的使用

为了解决这些问题,我们得到了改善k则。

3.1.2。并行随机抽样

传统的k则为集群使用的所有数据。这个过程需要很长时间。因此,我们首先进行预处理数据来源减少算法中使用的数据操作,从而减少算法的时间消耗。

目前,有两种类型的随机抽样方法。一个是遍历抽样,另一种是字节抵消抽样。遍历是初始数据的特点仍然是选择在抽样过程中没有任何操作,这是耗时的,特别是如果数据集很大。它是一个随机样本,但手术仍然是巨大的。因此,该方法不能用于本文中的数据。尽管字节偏移可以处理大量的数据,该算法并不高效。

为了获得更高的效率,我们提出一种并行随机抽样方法的基础上,上面的方法。因为该方法操作并行单元,它是更有效和更少的耗时。抽样程序如下:(1)首先,对所有数据赋值。与此同时,在关键字的格式进行统一处理。(2)上面的数据从最大的到最小的。(3)选择最小的数据排序后作为集群初始化类的中心点。计算公式如下:

3.1.3。距离的并行化

传统的k——实现聚类的目的进行循环计算所有数据。然而,这个过程需要大量的时间。因此,并行这是一个很好的方法。并行的方式是做的是利用独立的数据从一个到另一个地方。

map函数在MapReduce用于地图数据。首先,数据的独立性是用于将数据映射到不同的减速器单元形式的关键字。然后,并行集群计算在这些不同的单位进行。

通过这种方式,可以有效地利用数据之间的独立性。同时,集群的效率可以使用复合的同时加速处理。

3.1.4。并行聚类的数据对象

一般来说,数据可以被映射到减速机各自的类映射器集群的过程根据距离的长度。为了自适应获得相应的减速机的每个类集群,我们设置并行性的价值k。减速机的初始中心点的值的方法是计算使用随机抽样和欧氏距离的平方和。排序,选择最小值作为下一轮的中心点,等等。改进的并行结构如图2。

首先,每个集群都有自己的减速器。因此,我们需要执行所有数据并行策略。然后,我们把所有选择的数据处理和集群设置类的专注点。然后,欧几里得距离很多数据和当前的焦点点的意思。最后,选择平方和的最小值点作为新中心的点。

我们采用MapReduce的特点优化最小欧氏距离的计算。因为比较函数和比较函数可以计算的关键钥匙之间的价值进行分类处理。这种机制不仅简化了算法所面临的问题,还促进了分布式集群的计算能力和加速的执行效率选择最小欧氏距离和(图3)。结合上述特点,k——使用元素数量作为价值实现欧几里得距离排序的功能。我们的方法的结构如图4。我们的方法的复杂性O(n)。

4所示。结果与讨论

4.1。实验数据

模仿真实的环境中,总共6个人电脑使用。

硬件配置:AMD Athlon (TM) X4 3.10 GHz CPU、4 GB内存和500 GB的磁盘空间。

软件环境:Linux操作系统是CentOS, JAVA,动物园管理员,Hadoop,数据库也使用。

测试性能,使用一个数据集,和修改后的数据集分成5组。每组有50个样品,有4个属性。这个实验生成的共5部分。随机数据集的细节中可以看到表1。


数据集	大小(MB)	项目	维	集群中心分

数据集1	0.32	9600年	4	5
数据集2	112年	9600000年	4	5
数据集3	401年	28800000年	4	5
数据集4	1421年	67100000年	4	5
数据集5	3267年	173560000年	4	5

以下4.4.1。收敛性能

验证了我们的方法的有效性通过比较传统之间的融合k——方法和该方法。我们使用相同的数据集在单机实验环境和计算的迭代次数,当达到收敛状态。两种方法被用于一台计算机环境。与此同时,数据集1作为原始数据集。结果如图5。我们的方法实现在一台计算机环境中更少的迭代。进一步解释说,为什么我们方法收敛快,比传统的预处理可以专注点k则。

4.1.2。正确速度比较

验证原始的准确性k——、密度k则,MPI-wave,我们的方法,我们设计以下实验。四种方法的效果如图6和7。

精度和召回高于比较数据的规模继续扩大在不同的数据集。原始的k则容易产生局部最优的结果,所以其准确性明显低于其他比较算法。的k则算法选择最大距离的两个点作为初始点选择的两个第一次。初始点的选择太固定,这不是最好的聚类中心,容易导致不准确的聚类结果。与MPI-wave集群算法相比,今年有100到150的数据集,整个算法精度下降的趋势。原因是k算法具有算法缺陷,则有一个局部最优。随着数据量的不断增加,集群效应将会改善,当地最优状况将得到改善。这是因为我们的方法有效地减少了随机选择的初始中心点通过消除干扰数据。因此,可以提高聚类的准确性。

4.1.3。运营效率比较

为了验证MapReduce分布式集群的优势在火花在迭代计算中,这个实验是MapReduce和火花集群上执行。原始k——和我们的方法是在同一台机器上配置环境。的运行时间的两个相同数量的计算节点进行比较来反映各自的经营业绩。

在图8,在原始k和我们的方法,则引发的运行时间是略高于MapReduce。然而,随着数据量的增加,从150年开始的数据,相同数量的数据的运行时间短的MapReduce平台比火花的平台。此外,随着数据处理的规模增加,MapReduce处理效率高于火花和更明显的上升趋势。这是因为火花时必须重新审视HDFS它读取一组数据到本地内存中对象在每次迭代的计算过程。减少基于内存映射的计算,大大减少了时间开销的数据I / O在迭代计算。因此,在MapReduce平台环境下,运行时间与火花平台相比显著降低。

4.1.4。集群环境加速验证

我们的算法使用平行结构。我们使用验证实时性能的加速比。通过测试的加速算法,验证算法的实时性能。其计算公式如下: 在哪里是一个单位的运行时间,在许多单位运行时间。加速度的值比越大,越大效率可以有效地改善分布式集群环境。加速实验数据如图9。

加速度率可以增加很多数据。这种情况表明,我们的方法可以提高准确性。与此同时,它可以用在大数据集。

5。结论

随机选择的专注点k则会导致局部优化和不稳定的迭代的聚类结果。为了克服这些问题,本文提出一种k——与改进。首先,初始化随机抽样。第二,许多数据并行计算的距离。最后,数据集中和并行。结果表明,我们的方法具有较高的聚类精度。

尽管我们的方法可以处理大规模数据,它仍在处理高维数据集的问题。因此,我们的下一个研究计划是进一步改善我们的算法,这样就可以适应高维数据集。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

w·易和j .燕”,能源消耗和排放的影响从共享在中国移动:国家一级年度数据分析,“应用能源文章ID 115549卷,277年,2020年。视图:出版商的网站|谷歌学术搜索
s . g .安东,a . e . Afloarei Nucu”,金融发展可再生能源消费的影响。面板数据的方法,”可再生能源卷,147年,第338 - 330页,2020年。视图:出版商的网站|谷歌学术搜索
p .贝聿铭z霍、o·s·马丁内斯和r·g·克雷斯波”最小的绿色数据中心能耗和工作负载管理在智能城市平台上,“可持续性,12卷,不。8,3140年,页2020。视图:出版商的网站|谷歌学术搜索
t . Enokido和m . Takizawa”服务器的功耗模型来执行数据访问应用程序进程在虚拟机环境中,先进的信息网络和应用程序”《国际会议上先进的信息网络和应用程序施普林格,页184 - 192年,多伦多,加拿大,2020年5月。视图:出版商的网站|谷歌学术搜索
问:周、郭s和h . Lu,”猎鹰:解决掉队通过多个并行,在非均质参数服务器”IEEE计算机,卷70,不。1,第155 - 139页,2020。视图:谷歌学术搜索
k·g·米勒,r·p·李,a Tableman et al .,“动态负载平衡和增强的共享内存并行particle-in-cell代码,”计算机物理通信文章ID 107633卷,259年,2021年。视图:出版商的网站|谷歌学术搜索
k . p . Sinaga M.-S。杨”,无监督K——聚类算法”,IEEE访问,8卷,第80727 - 80716页,2020年。视图:出版商的网站|谷歌学术搜索
a . k . Sangaiah a . e . Fakhry和m·阿卜杜拉·巴塞”阿拉伯语使用改进的聚类算法的文本聚类和降维,”集群计算,22卷,不。2,页1 - 15,2019。视图:出版商的网站|谷歌学术搜索
s . SoukainaMjahed k . Bouzaachane Taher阿扎尔,s . El Hadaj和s . Raghay”杂交的模糊和硬semi-supervised狮子与蚂蚁聚类算法调整优化器应用于希格斯玻色子搜索,“计算机模拟在工程和科学,卷125,不。2、459 - 494年,2020页。视图:出版商的网站|谷歌学术搜索
j·j·杰伊·j·Eblen, y,“系统比较公司的聚类算法,Bmc生物信息学,13卷,不。10、1 - 12,2012页。视图:出版商的网站|谷歌学术搜索
m . s .杨和k . p . Sinaga”feature-reduction视点k——聚类算法”,IEEE访问,9卷,p。2019。视图:谷歌学术搜索
j .宋、李x和y . Liu”一个优化k则算法选择初始聚类中心,“国际期刊的安全性及其应用,9卷,不。10日,177 - 186年,2015页。视图:出版商的网站|谷歌学术搜索
h·b·周和j·t·高”,一种改进的初始聚类中心的选择方法K则算法”,先进材料的研究卷,1022年,第340 - 337页,2014年。视图:出版商的网站|谷歌学术搜索
a·库马尔·m·Kiran s穆克吉和g·r·普拉卡什”MapReduce程序并行模型的验证和确认KHadoop集群算法则。”国际期刊的计算机应用程序,卷72,不。8日,48-55,2013页。视图:出版商的网站|谷歌学术搜索
耿y, l .张。”K——聚类算法对大规模web基于Hadoop,中国商品信息”程序的分布式计算与应用程序的业务工程国际研讨会&科学IEEE,广西,中国,2016年11月。视图:谷歌学术搜索
徐j . b .马,“网络舆论的研究基于朴素贝叶斯算法的分类方法在Hadoop环境中,“应用力学和材料卷,519 - 520年58 - 61、2014页。视图:出版商的网站|谷歌学术搜索
l·杨,w .江和h .霁”自动使用级联FCN DenseCRF和脑部肿瘤分割K则”,学报2019年IEEE /中投国际会议通信在中国(ICCC)IEEE,长春,中国,2019年8月。视图:谷歌学术搜索
s . Gopalani r . Arora, s . Gopalani”比较Apache火花和MapReduce和性能分析K——,”国际期刊的计算机应用程序,卷113,不。1,8 - 11,2015页。视图:出版商的网站|谷歌学术搜索
张昱,美国,x,“较基尔霍夫叠前时间偏移基于MPI + CUDA并行计算,”地球物理勘探石油,52卷,不。1、60 - 64、2013页。视图:谷歌学术搜索
p .朱崔x, x, k . Li和c .霁”优化大数据K——集群使用MapReduce。”《华尔街日报》的超级计算,卷70,不。3、1249 - 1259年,2014页。视图:出版商的网站|谷歌学术搜索
t·h·Sardar z安萨里,“使用MapReduce的分布式文档聚类的分析K则算法”,杂志的机构工程师(印度)系列B,卷101,不。2、1 - 10,2020页。视图:出版商的网站|谷歌学术搜索
m .赵j·刘,z,“一个可伸缩的子图指出正规化与长期高效的基于内容的图像检索相关性反馈增强,”以知识为基础的系统,卷212,不。1,文章ID 106505, 2020。视图:谷歌学术搜索
c .夏j .华和w·通”分布K聚类则保证当地微分隐私,”电脑与安全,卷90,101699.1 - -101699.11,2020页。视图:出版商的网站|谷歌学术搜索
t·k·金,j .的歌,和c . s .啊,”光读waveguide-integrated电致变色的人工光子神经系统突触装置,”ACS应用电子材料,卷2,不。7,2057 - 2063年,2020页。视图:谷歌学术搜索
答:a . Aldino d . Darwis和a . t . Prastowo”的实现K聚类算法则玉米种植区域可行性在南楠榜摄政,”物理学杂志》:会议系列,卷1751,不。1,眼压出版,2021。视图:出版商的网站|谷歌学术搜索
j . Rejito a . Atthariq和a . s .阿卜杜拉,“应用文本挖掘Tokopedia采用k - means算法聚类微博,“物理学杂志》:会议系列,卷1722,不。1,眼压出版,2021。视图:出版商的网站|谷歌学术搜索
c . Li f . Kulwa j . Zhang h .徐和赵x, z . Li“微生物图像分析的聚类方法,”先进的智能系统和计算,这边是,2021页。视图:出版商的网站|谷歌学术搜索
陈x和y,美元“Hanson-Wright不平等与应用希尔伯特空间K美元则为非欧几里得的数据聚类”,伯努利,27卷,不。1,第614 - 586页,2021。视图:出版商的网站|谷歌学术搜索
m . b . Gesicho m . c, a .巴比克,“评估性能的卫生保健设施会议在肯尼亚HIV-indicator报告要求:一个应用程序K——聚类算法”,BMC医学信息学和决策,21卷,不。1队,2021页。视图:出版商的网站|谷歌学术搜索
m . Ghadiri,年仅美国Samadi, s . Vempala“社会公平k——集群”学报2021年ACM会议上公平、问责和透明度448年,页438 - 2021年3月,加拿大,多伦多。视图:谷歌学术搜索
w . Bo, z . b .方,l . x, z . f . Cheng和z . x华,“恶意网址检测一种新型优化算法的基础上,“IEICE交易信息和系统E104卷。D,没有。4、513 - 516年,2021页。视图:出版商的网站|谷歌学术搜索
f . w . Wang, h·聂et al .,“基于动态表示车辆轨迹聚类学习网络的车辆,“IEEE智能交通系统,22卷,不。6,3567 - 3576年,2021页。视图:出版商的网站|谷歌学术搜索
k . Sim j·杨,w . Lu和x高,“盲目的立体图像质量评估者基于双目语义和质量频道,“IEEE多媒体,p . 2021。视图:出版商的网站|谷歌学术搜索
杨,j . Wang x郝et al .,“BiCoSS:向大规模的大脑认知multigranular神经形态架构,”IEEE神经网络和学习系统卷,2021篇文章ID 3045492, 15页,2021年。视图:出版商的网站|谷歌学术搜索
w·魏问:Ke, j·诺瓦克,m . Korytkowski r·谢勒和m . Woźniak“准确、快捷的URL钓鱼检测器:卷积神经网络的方法,”计算机网络文章ID 107275卷,178年,2020年。视图:出版商的网站|谷歌学术搜索
气,y郑、陈x和w·魏、“蚂蚁可以把奶酪:安全,私人rfid芯片的第三方配送,”IEEE可靠和安全的计算,p . 2020。视图:出版商的网站|谷歌学术搜索
一种改进的x和李·d·李。K——基于云计算的并行算法”,通信在计算机和信息科学卷,901年,第402 - 394页,2018年。视图:出版商的网站|谷歌学术搜索
美国Yadav, r·莫汉和p . k . Yadav,”使用模糊系统成本最优任务分配模型C——集群技术在分布式系统中,“Ingenierie des系统d信息,25卷,不。1,59 - 68年,2020页。视图:出版商的网站|谷歌学术搜索
A Flores-Quiroz和k . Strunz分布式计算框架的多阶段随机规划可再生能源与储能系统灵活性选项,“应用能源,卷291,不。1,文章ID 116736, 2021。视图:出版商的网站|谷歌学术搜索

复杂性

复杂性问题由先进的计算机仿真技术在智能城市2021人