科学的规划

在这一页上

文摘介绍相关工作分析结论数据可用性的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2022年| 文章的ID8046620| https://doi.org/10.1155/2022/8046620

密度峰集群基于功能降低和Quasi-Monte卡洛

Zhihui胡,¹ Xiaoran魏,² 小徐汉,³ 光口 ,¹ 晧瑜张,¹ Xueyi刘,⁴ 和Yefei呗²

学术编辑器: Jiangbo钱

收到了 2021年7月19日

修改后的 2021年11月03

接受 2021年12月07

发表 2022年1月06

文摘

密度山峰聚类(DPC)是一个著名的density-based聚类算法,可以处理nonspherical集群。然而,DPC的高计算复杂度和空间复杂度计算当地的密度和距离 ,这使得它只适合小规模数据集。此外,对于集群高维数据,DPC的性能还需要改进。高维数据不仅使数据分布更为复杂,也导致更多的计算开销。为了解决上述问题,我们提出一种改进的密度山峰聚类算法,减少和数据采样策略相结合的特性。具体来说,高维数据的特征自动提取的主成分分析(PCA), auto-encoder (AE)和t-distributed随机邻居嵌入(t-SNE)。接下来,为了减少计算开销,我们提出一种新颖的数据采样方法的低维特征数据。首先,在低维特征空间数据分布估计的Quasi-Monte low-discrepancy特色卡洛(QMC)序列。然后,代表QMC点选择根据他们的细胞密度。接下来,选择QMC点是用来计算和而不是原始数据点。一般来说,所选QMC点的数量远小于初始数据集。最后,一个两级分类策略提出了基于QMC点聚类结果对原始数据集进行分类。与目前的工作相比,我们的算法可以减少计算复杂度来 ,在哪里表示选择QMC分和的数量是原始数据集的大小,通常。实验结果表明,该算法可以有效地减少计算开销,提高模型的性能。

1。介绍

随着大数据的时代,数据挖掘的重要性越来越突出(1]。作为一种无监督学习方法,聚类广泛应用于许多不同的领域包括图像处理、医学、考古学。有很多经典的聚类算法,如k - means (2],DBSCAN [3据美联社(),4]。根据不同的标准,聚类算法分为不同的类别。一般来说,聚类算法分为而基于分区的方法,不能方法,density-based方法和基于网格的方法。

近年来,一种新的密度山峰聚类(DPC)算法提出了(5]。这是一个典型的density-based聚类算法的优点。一个优势是,DPC依赖于决策图选择聚类中心。具体来说,DPC吸引了数据集的决策图通过定义局部密度和距离。然后,DPC决定了集群中心基于决策图。获得集群中心有两个特点:(1)本地集群中心的密度大,其附近的密度不大于本身。(2)集群中心和其他数据点之间的距离与更高的密度相对较大。因此,集群中心与当地密度高和高数据点距离,称为密度峰值。另一个优势是,DPC不仅可以处理任意形状的簇,也不需要事先确定类别的数量。

尽管DPC取得了良好的性能在很多情况下,它仍然有一些缺陷。首先,DPC需要计算每个数据点的局部密度和距离,这使得计算复杂度。DPC的昂贵的计算开销限制了应用在大规模数据集。为了解决这个问题,研究[6)提出了一个分布式密度山峰聚类算法(EDDPC)。EDDPC聚合大规模数据集到MapReduce和集成本地结果近似的最终结果。然而,EDDPC分布式算法和不适合单CPU的场景。这项研究在7提出了density-based和基于网格的聚类算法(DGB)。计算所有数据之间的距离,而不是只有一个小数量的网格点计算。然而,DGB只是适合处理高维数据集。一般来说,在高维空间数据分布可能更复杂,含有更多的噪音。虽然[8,9]提出了过滤噪音,额外操作增加计算开销。

为了解决上述问题,一种改进的密度峰值减少聚类算法结合功能和数据采样策略提出了。首先,原始数据特征空间被压缩,减少一些经典特性的方法。然后,低维特征数据采样的super-uniformly Quasi-Monte卡洛序列,和选择的高密度Quasi-Monte卡洛点是用来替换原来的数据点进行聚类。最后,我们执行一个两阶段策略来确定原始数据的类别。该方法具有以下优点:(1)该算法降低了计算复杂度来 ,在哪里和代表的数量选择QMC分和原始数据集的大小,分别。一般来说,有 (2)通过减少特性,该算法减少了噪声形成原始数据和降低高维特征空间的复杂性(3)大量实验证明我们的算法的有效性方面的计算开销和模型性能

2.1。功能降低

功能减少表示高维特征空间的数据映射到低维空间。高维数据的特征提取的线性或非线性变换。因此,有效的低维特征获得的原始数据集可以减少各种特性的方法。一个理想的低维特征应该尽可能保留分类信息和过滤噪音。

一般来说,减少功能可以分为线性和非线性特性还原方法。主成分分析(PCA)是一个经典的线性特性还原法(10]。PCA变换的一组变量可以通过正交变换与线性不相关的变量。Auto-encoder (AE)和t-distributed随机邻居嵌入(t-SNE)是减少非线性特性的方法。AE可以视为self-supervised方式由编码器和译码器(11]。输入数据将被映射到隐层编码器,而译码器转换回输入隐藏层特性。它的目标是把一些高阶的特征重建本身。t-SNE是一个机器学习的方法建立随机邻居嵌入(SNE)功能降低(12]。t-SNE高维数据映射到两个或多个维度和缓解交通拥堵问题的过程中功能降低。所有上述方法已经应用在许多领域13- - - - - -15]。

2.2。密度山峰聚类

密度山峰聚类(DPC)提出了5),它能有效地处理任意形状数据集不指定集群数量提前。集群中心选择DPC有两个特点:(1)本地集群中心的密度应该比其邻国的局部密度;(2)数据点密度较低的地方应远离其他数据点密度高的地方。来描述这些特征,DPC定义了每个数据点的两个概念 :当地的密度和最小距离。当地的密度是制定在哪里代表之间的距离和。是拦截,这是唯一的DPC人为定义的参数。在提供的代码5),是制定在哪里距离矩阵的大小,定义了任何数据点对之间的距离。当数据集很小,高斯核函数是用来计算。是制定

此外,是制定

DPC将基于决策图和。然后,DPC选择数据点的和随着集群中心和分配剩余的数据点到最近的类。DPC是一种简单有效的算法,和一系列的工作进行了16- - - - - -22]。然而,DPC需要巨大的计算开销。DPC的计算复杂度 ,这使得它不适合大规模数据集。为了解决这个问题,一个可行的策略是样本数据集(23]。我们的工作是基于抽样策略来减少计算开销。

2.3。Quasi-Monte卡洛

统计试验法,蒙特卡洛法已广泛应用于机器学习。Quasi-Monte卡洛方法与蒙特卡罗方法类似,但也有理论之间的差异。Quasi-Monte卡洛方法的优越性是生成确定性super-uniformly分布序列(称为数学low-discrepancy序列),而不是生成的伪随机序列蒙特卡罗方法。Quasi-Monte卡洛方法已广泛应用于机器学习领域的(24,25]。具体地说,该研究在24)利用Quasi-Monte卡洛方法减少计算开销,发生在神经网络的参数优化过程。这项研究在25)生成Quasi-Monte卡洛序列执行功能映射和获得煤特性。相似,我们生成Quasi-Monte卡洛序列进行数据采样。接下来,我们简要描述Quasi-Monte卡洛序列。

Quasi-Monte卡洛随机序列是一个确定性super-uniformly分布与低偏差序列。财产,任何长时间子序列在特征空间中均匀分布。最近,使用最广泛的Quasi-Monte卡洛随机序列序列(主要包括哈尔顿26),福尔序列(27],Niederreiter 序列(28]。在我们的工作中,哈尔顿选择序列执行抽样策略。

哈尔顿序列是一个标准的low-discrepancy序列,用于生成super-uniformly分布的随机数。与蒙特卡罗方法产生的伪随机数,它是数学证明哈尔顿序列的波动性小。具体来说,哈尔顿的近似误差序列是由不同的程度的序列。的近似误差是制定以下方程: 在哪里误差项,的Hardy-Krause变异函数 ,和的偏差。

因为订单是 ,的近似误差顺序Quasi-Monte卡洛方法。同样,伪随机序列的顺序错误。与上述错误订单相比,Quasi-Monte卡洛方法的错误订单小于蒙特卡罗方法。注意,上面的讨论只给近似误差的上限。事实上,哈尔顿序列的收敛速度要快得多的速度获得的上限。一般来说,Quasi-Monte卡洛方法大大加快收敛与蒙特卡罗方法相比,和生成的随机数字Quasi-Monte卡洛方法更均匀。

蒙特卡罗方法生成伪随机数,Quasi-Monte卡洛方法生成拟随机数字。图1显示了比较拟随机数字和一个二维平面上的伪随机数。如图1,一些地方不均匀分布伪随机数。然而,哈尔顿序列高度均匀分布在整个空间。凭直觉,Quasi-Monte卡洛方法可能更加全面,而蒙特卡罗方法有更多的空白区域。因此,本文采用荷序列样本的原始数据,进一步提出了一种新的密度山峰聚类算法。

(一)

(b)

3所示。算法的描述

在本节中,一本小说提高密度山峰聚类算法基于Quasi-Monte卡洛方法(QMC-DPC)提出了提高DPC的性能。具体来说,该方法包含两个组件:减少功能模块和数据采集模块。

3.1。减少功能模块

在这个模块中,我们旨在减少的特征维度的数据集。原始数据集将转化为通过各种功能还原方法, 。我们的目标是尽可能多地保留原始信息同时降低数据的维数。

在实践中,我们利用线性和非线性特性还原方法,包括主成分分析、AE和t-SNE分别。首先,我们执行的零均值归一化。为 ,我们计算均值和标准偏差。因此,我们可以获得规范化数据。然后,PCA, AE, t-SNE上实现规范化的数据集。主成分分析,我们选择主成分的数量小于原始维度的数据集(二维数据集除外)。我们保持原来的尺寸的二维数据集。AE,我们设置了AE与三层,其中包括一个编码器,译码器,和一个隐藏层。编码器和解码器相当于的维度和隐层单元的数量相当于。的输入数据 ,我们选择隐层的特性。t-SNE,数据点之间的相似性是衡量概率代替欧氏距离。具体来说,数据点的相似性在原始特征空间是由高斯联合概率计算的,而重尾分布学生t分布用于低维测量相似。然后,我们减少KL分歧得到减少功能。图2显示了获得二维主成分分析的特征,AE, t-SNE波形和陆地卫星。波形的原始尺寸和陆地卫星是20多。从图2可以看出,从高维数据的低维特征映射。节4,我们将讨论如何选择特性减少实验分析方法。

(一)

(b)

3.2。数据采集模块

虽然我们压缩的特征维度的数据集通过功能模块,减少计算复杂度的DPC仍然是。在这个模块中,我们旨在减少DPC的时间开销。因此,一种改进的密度山峰聚类算法基于super-uniformly Quasi-Monte卡洛(QMC-DPC)提出了序列。总之,我们利用super-uniformly Quasi-Monte卡洛序列样本的低维特征空间数据集。然后,代表Quasi-Monte卡点是用来计算和而不是原始数据。一般来说,选择Quasi-Monte卡洛点的数量远小于原始数据集的大小。QMC-DPC的详细描述在下面给出。

具体地说,我们首先定义两个基本概念如下:(1)循环数据单元 :的圆Quasi-Monte卡点为中心和半径(2)单元密度 :循环数据单元中包含的数据点的数量

假设获得的低维特征数据集的特性减少模块。我们随机生成在特征空间Quasi-Monte卡点。Quasi-Monte卡洛点为中心,相应的确定下合适(当是小,参数实验后)。然后,根据是否包含数据点,圆形的数据单位是分为两类:非空的单元组和空单元组,一个非空的单元集和空单元组。接下来,自空单元设置表明它不包含任何数据,空单元组和相应Quasi-Monte卡点消除。效果如图3。

(一)

(b)

如图3,剩下的非空的Quasi-Monte卡点采样点分布,而删除空Quasi-Monte卡点的采样点。因此,原始数据集的分布可以通过非空的采样Quasi-Monte卡点。此外,当地的原始数据集的密度可以估计的单位密度。因此,合理利用非空的Quasi-Monte卡点来计算局部密度和最小距离而不是原始数据点。接下来,所有的非空的Quasi-Monte卡点(假设的数量非空的Quasi-Monte卡点 ,一般来说 ),非空的的距离Quasi-Monte卡点对计算得到的距离矩阵 : 在哪里是一个对称矩阵的对角元素为零。所有元素的升序排列在吗。当太小了, 可能是零这表明拦截的功能就被消除了。因此,我们把零元素并采取第剩下的距离元素的。然后,我们使用方程(3)和(4)来计算和每个非空的Quasi-Monte卡点和画出决策图。图4显示了决定QMC-DPC和DPC波形图。

(一)

(b)

(c)

(d)

如图4,密度峰值得到QMC-DPC更容易区分比DPC,尤其是在低维功能生成的AE和t-SNE。与此同时,数据点的数量QMC-DPC小于DPC的决策图。特别是,QMC-DPC (PCA), QMC-DPC (AE)和QMC-DPC (t-SNE),分别计算2742年,2499年和2989年的数据点在决策图,而DPC计算5000数据点在决策图。上述讨论进一步证明了Quasi-Monte卡洛抽样方法的有效性。具体地说,它可以概括为以下三个方面:(1)结合超级Quasi-Monte卡洛序列的一致性,采样的数据更全面,以减少偏见。这个结论是所描述的人物1。(2)的数量选择非空的Quasi-Monte卡点很小,大大减少了时间和空间的开销。这一结论在图描述3。(3)基于和 ,数据点位于密集的地区很难区分,因为他们的和是相似的。相反,Quasi-Monte卡洛分样本局部密度,和之间的区别选择非空的Quasi-Monte卡点放大。最后,根据最近距离原则,我们提出一个两阶段分类策略:(我)密度峰值被选中的类中心,剩下的非空的Quasi-Monte卡点分配给最近的密度峰值。第一步得到的聚类结果所有非空的Quasi-Monte卡点。(2)的数据点被分配到最近的非空的Quasi-Monte卡点。特征映射是独一无二的,分类的结果相当于的分类结果。第二步得到最终的聚类结果的数据点。

经过上述讨论,QMC-DPC中描述的算法1整个过程如图5。

输入:
数据集:
输出:
聚类结果
步骤:
(1)	执行功能降低获得低维特征数据 ;
(2)	生成Quasi-Monte卡点和确定循环数据单元在 ;
(3)	计算每个循环的密度数据单元并生成和 ;
(4)	计算矩阵基于和删除零元素。剩下的元素排序,确定拦截 ;
(5)	计算和对于每个非空的Quasi-Monte卡点由方程(3)和(4);
(6)	画出图决定选择集群中心和确定的数量 ;
(7)	根据最近的距离的原则,分配剩余的非空的Quasi-Monte卡点;
(8)	将数据点分配给最近的类非空的Quasi-Monte卡点;
(9)	返回聚类结果。

3.3。算法复杂性分析

DPC的关键是把基于决策图和。我们的工作保留选择集群中心的想法,但QMC-DPC只计算和为非空的Quasi-Monte卡点筛选后,使得计算复杂度远低于DPC。

的数据集 ,DPC的空间的复杂性存储矩阵的距离。的空间复杂性QMC-DPC主要包括:需要生成Quasi-Monte卡点,需要保留非空的Quasi-Monte卡点,需要存储的距离矩阵的非空的Quasi-Monte卡点对。因此,QMC-DPC空间的复杂性。当n大,有吗一般来说。然而,当相对较小,空间的复杂性QMC-DPC变大,由于生成Quasi-Monte卡点。

在计算和 ,DPC需要计算距离矩阵的时间复杂度。在选择集群中心,分类数据点的时间复杂度。因此,DPC算法的时间复杂度。QMC-DPC主要包括的时间复杂度计算单元的密度Quasi-Monte卡点,需要计算吗和的非空的Quasi-Monte卡点,和需要分类的非空的Quasi-Monte卡洛分吗当分类数据点。因此,QMC-DPC算法的时间复杂度。一般来说,总有和 ,制作的时间复杂度QMC-DPC不到DPC的。然而,当的时间成本相对较小,QMC-DPC DPC的比。在实验中,我们将进一步证明,即使减少模块的特性,该算法仍然有时间优势。

4所示。实验和分析

4.1。实验装置

验证QMC-DPC的性能,该方法与相关的聚类算法相比,包括DPC-KNN-PCA [17],SNN-DPC [18],DLORE-DP [16],DPC [5据美联社(),4],DBSCAN [3],和k - means [2]。最近邻SNN-DPC数设置为4。低密度的比例分DLORE-DP设置为0.2。DBSCAN的参数设置为3,是空的。k - means提前需要指定类的数量。在本节中采用的数据集包括两大类:标记数据集和标记数据集。这些数据集的详细信息列在表中1。在标签数据集,数据集都是UCI数据集。在未标记的数据集,火焰、聚合和S2是合成数据集。知识发现(KDD)是一种生物数据集,用于验证我们的算法在大规模的优越性和高维特征数据集。

采用四个评估标准来评估模型的性能标签数据集,我。e、准确性(Acc)和F-measure (F),归一化互信息(敝中断),并调整兰德指数(ARI)。描述这些评估标准如下:假设是数据集。和分别代表真正的标签和标签预测。Acc表示为在哪里是一个置换映射函数,利用匈牙利算法匹配预测标签与真正的标签。

F-measure是调和平均数的精度和回忆。之间的比率是正确的积极成果的数量和分类器返回的所有积极的结果。之间的比率是正确的积极成果的数量和所有数据的数量应该被确认为阳性。是所有数据的数量的设置应该被归类为正数。是集所有积极结果的数量确定的分类器。 , ,和F-measure是由以下方程: 在哪里是一个非负实数,设置为1。为除以每个真正的标签,最近的一个被选中的值:

然后,我们使用的加权平均得到最终的值:

归一化互信息(敝中断)措施的信息预测的标签分享与地面真理。敝中断被定义为以下方程: 在哪里聚类结果和地面之间的互信息是真理。和表示的熵聚类结果和地面真理,分别。

调整兰特指数(ARI)是兰德的扩展指数(RI)。阿里被定义为以下方程: 在哪里 , 表示数据对同一个类中在同一个班 , 表示数据对在不同的类在不同的类。表示数据对在不同的类在同一个班。表示数据对同一个类中在不同的类。阿里的价值范围内(1,- 1)。这些评价标准的上限是1。较大的这些标准,更好的聚类结果。

的功能模块,减少预先设置一些参数。t-SNE,学习速率是500,困惑的数量是30,和时代的数量是800。AE,学习速率为0.01,优化器是亚当,和时代的数量是300。

4.2。在标签的数据集实验结果

在本节中,9个UCI数据集表1用于验证QMC-DPC的性能。所有数据归一化到[0,1]。为了避免极端情况下,每个算法运行10倍和记录的平均结果。的价值评估标准如表所示2最好的值以粗体突出显示。QMC-DPC记录在表的相关参数3。

如表所示2,我们的算法优于其他算法。Acc表明正确的预测样本的数量比总样本的数量。Acc, QMC-DPC达到最高的性能在所有数据集除了波形和陆地卫星。特别是,QMC-DPC 33.6%和34.3%高于DPC动物园和皮马人,分别。F-measure指示标签和预测之间的匹配程度的标签数据集,即加权调和平均数的精度和召回。F-measure而言,QMC-DPC达到最高性能近一半的数据集。敝中断之间的相似性量化预测标签和真正的标签,衡量算法的鲁棒性。敝中断,QMC-DPC达到最高的性能在所有的数据集除了陆地卫星,皮马人,动物园。特别是QMC-DPC是21.4%高于DPC波形。阿里是用来测量这两个数据分布的程度的巧合。阿里,QMC-DPC达到最高的性能在所有除了乳腺癌和陆地卫星数据集。 The ARI value of QMC-DPC is 73.2% higher than DPC on Zoo. In addition, the evaluation criterion values of QMC-DPC (PCA), QMC-DPC (AE), and QMC-DPC (t-SNE) are similar, and the model performance is better than that of DPC on the whole. The above results indicate that the combination of the feature reduction module and the feature sampling module can improve the model performance.

4.3。无标号数据集的实验结果

因为没有真正的标签标记的数据集,评价标准Acc, F-measure,敝中断,阿里不能应用于无标号数据集。比较无标号数据集上的性能,评估标准轮廓系数(SC)和Calinski-Harabasz (CH)定义。SC,我们首先计算每个数据点的轮廓系数 : 在哪里平均数据点之间的不同和其他数据点在同一个班,的最小值是平均数据点之间的不同和其他类别。接下来,我们获得数据集基于轮廓系数 : 在哪里是所有数据点的数量。SC的价值范围内(−1,1)。SC值越大,更好的聚类结果。

CH定义如下: 在哪里 , 在课堂上是数据点的数量吗 , 在课堂上数据点的平均值吗 ,和是所有数据点的平均值。 , 是集群数据。CH值越大,更好的聚类结果。

在这一节中,选择三个合成数据集和知识发现(KDD)来验证QMC-DPC的性能。火焰、聚合和S2是经典的合成数据集。知识发现(KDD)与高维大规模数据集的特性。表4显示了所有算法的SC和CH无标号数据集。最好的值以粗体突出显示。QMC-DPC记录在表的相关参数3。

如表所示4,我们建议的方法获得最好的聚类结果总的来说,尤其是QMC-DPC (AE)。“——”表4表明该算法无法执行,因为它超过了虚拟内存。SC, QMC-DPC (t-SNE)高于DPC火焰。,DPC获得相同的结果作为我们提出方法聚合和S2。DPC-KNN-PCA也得到相同的结果作为我们提出方法S2。一般来说,QMC-DPC (AE)和QMC-DPC (t-SNE)实现更好的性能比QMC-DPC (PCA)除了知识发现(KDD)。t-SNE方法的限制,QMC-DPC (t-SNE)不履行集群知识发现(KDD)。节4.6,我们将作进一步的综合分析。此外,我们在合成数据集分类结果可视化。图6显示了分类结果聚合ans S2。

4.4。运行时间的实验结果

在本节中,我们进一步验证我们提出的方法可以有效地减少计算开销。我们选择数据集有超过2000数据点并记录运行时间在表5。

如表所示5与DPC相比,SNN-DPC,美联社QMC-DPC达到最佳性能的运行时间。QMC-DPC至少是34.47%,61.80%,25.59%,和50.85%低于DPC段,波形,陆地卫星,分别和s2。一般来说,数据量越大,节省的时间越多。知识发现(KDD), QMC-DPC (PCA)和QMC-DPC (AE)获得结果,而QMC-DPC (t-SNE)将超过内存。这是t-SNE有限的方法。此外,DPC, SNN-DPC,美联社还超过内存。这进一步证实了我们方法的有效性。如何选择QMC-DPC (PCA), QMC-DPC (AE)和QMC-DPC (t-SNE)节将讨论4.6。此外,它的运行时间可以看出QMC-DPC (PCA)和QMC-DPC (AE)关系密切。然而,QMC-DPC的计算开销(t-SNE)高于QMC-DPC (PCA)和QMC-DPC (AE)。原因是t-SNE需要巨大的计算开销,同时auto-encoder只有浅结构和不包含大量的训练参数。此外,我们比较我们的方法的时间复杂度与基线的方法。结果记录在表6。在这一部分中,我们设置数据点的数量 ,集群的数量分类 ,邻居的数量 ,迭代的数量 ,和选择Quasi-Monte卡洛点的数量。尽管QMC-DPC的时间复杂度是广场,远小于在实践中。因此,QMC-DPC将显著降低的时间开销,结论也可以证明表5。

4.5。灵敏度分析的实验结果

在本节中,我们从多个方面进行参数敏感性分析,如功能维度如何影响模型的性能和运行时间。具体地说,我们首先计算Acc, F,敝中断,阿里在UCI数据集的特征尺寸范围内(16,24]。最后的结果记录在表7- - - - - -10,分别。

从表7来10可以看出,模型的性能将与维度的增加略有减少。这是限制造成的信息丢失抽样策略随着维度的增加。随着尺寸的增加,数据分布将变得更加复杂。为了解决这个问题,有两种方法来降低采样造成的信息损失:(1)增加Quasi-Monte卡点和(2)适当增加半径的循环数据单元。如果我们采用第一种方法,QMC-DPC时间复杂度的生成和存储Quasi-Monte卡点 ,这就增加了时间和空间的开销我Quasi-Monte卡洛点数量的增加。如果采用第二种方法,半径的选择是非常重要的。当太大,包含整个数据集,QMC-DPC不执行取样操作。因为这篇文章的主要目的是减少DPC的时间开销,我们优先考虑第二种方法。

此外,我们进一步研究特征维度对模型性能的影响和运行时间维度的特性是延伸到(2,9]。在本部分中,选择知识发现(KDD)和结果如图所示7。如图7QMC-DPC (AE)和QMC-DPC (PCA)实现高性能的SC。相反,QMC-DPC (AE)和QMC-DPC (PCA)差值的CH当特征尺寸7。然而,CH增加了大量的价值特征尺寸是9。原因是,当我们产生更多Quasi-Monte卡点执行抽样策略,相应的运行时间也增加在很大程度上。相关的参数对知识发现(KDD)记录在表11。

(一)

(b)

(c)

4.6。算法总结

基于上述实验中,我们有一个全面的讨论QMC-DPC。具体来说,如表所示2和4,它可以发现QMC-DPC达到最佳性能。在UCI数据集,QMC-DPC (PCA), QMC-DPC (AE)和QMC-DPC (t-SNE)获得的最高价值8日7和9倍。未标记的数据集,QMC-DPC (PCA), QMC-DPC (AE)和QMC-DPC (t-SNE)获得最高的值为0,6和3次,分别。显然,QMC-DPC结合非线性特性方法达到更好的性能,减少。在运行时间方面,很明显,我们的方法具有优越的性能。尤其是在处理大型数据集,比如知识发现(KDD), QMC-DPC达到良好的性能,而大多数其他基线由于内存不足无法执行。这进一步验证了我们的方法的有效性。从部分4.5,我们可以发现特征维度影响模型的性能和各种评价标准的影响不同。一般来说,该模型性能随着特征维数的增加会减小。这是由于取样造成的信息丢失。节4.5,我们提出两种方法来解决这个问题,包括产生更多Quasi-Monte卡点和增加半径。这两种方法的目的是扩大采样区域。对于我们的方法,我们运行时间之间做出权衡和模型性能,产生更少的Quasi-Monte卡洛少点和集迭代t-SNE和AE。上面的操作将减少运行时间,同时减少模型的性能。特别是,我们还增加了半径减少信息损失。

QMC-DPC我们总结以下意见:(我)一般来说,我们选择QMC-DPC还原方法结合非线性特性,如QMC-DPC (AE)和QMC-DPC (t-SNE)。在处理大型数据集时,我们喜欢QMC-DPC (AE)。(2)为了减少信息损失,我们优先考虑扩大半径。其次,我们考虑添加Quasi-Monte卡点。

此外,还有勘探方向为我们的算法在未来,总结如下:(我)如何选择功能维度是一个启发式的工作。在未来的工作中,我们希望建立一个多层auto-encoder和构建基于隐层的损失函数特性。我们的目标是设计神经网络自动编码器作为一种多任务。(2)我们希望提出一个更全面的采样方法来减少损失的信息。我们可以采取抽样样本点本身为中心,然后过滤掉的数据样本稀疏区。最后,我们需要有一个战略分类的异常值。(3)我们希望提出一个更全面的采样方法来减少损失的信息。我们可以采取抽样样本点本身为中心,然后过滤掉的数据样本稀疏区。最后,我们需要有一个战略分类的异常值。

5。结论

在本文中,一个新的密度高的山峰聚类算法提出了计算效率。原始特征空间被压缩减少由不同特性的方法。我们样品减少特征空间基于super-uniformly分布式Quasi-Monte卡洛方法生成的序列。我们的工作可以有效地克服DPC的高计算开销,同时提高模型的性能。从理论上讲,可以减少时间复杂度来 ,在哪里。实验结果表明,QMC-DPC改善模型性能的DPC而大大减少了时间开销的增加数据集的大小。

数据可用性

使用的数据来支持本研究的发现是由https://archive.ics.uci.edu/ml/index.php。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国国家自然科学基金委重大研究项目(91948303)。

引用

m·古普塔和p·钱德拉”,全面调查数据挖掘”,国际信息技术杂志》上》12卷,第1257 - 1243页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . Macqueen“一些分类方法和多变量分析观察,”《第五伯克利研讨会上数理统计和概率,页281 - 297年,加州伯克利分校,1967年1月。
视图: 谷歌学术搜索
m .酯H.-P。徐Kriegel, j·桑德,x,”density-based算法发现在大型空间数据库集群的噪音,“知识发现(KDD)卷,96年,第231 - 226页,1996年。
视图: 谷歌学术搜索
b·j·弗雷和d . Dueck集群数据点之间通过传递消息。”科学(纽约,纽约),卷315,不。5814年,第976 - 972页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
a·罗德里格斯和a . Laio”集群的快速搜索和发现密度峰值,”科学,卷344,不。6191年,第1496 - 1492页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
张锣和y“EDDPC:一个有效的分布密度山峰聚类算法,”计算机研究与发展》杂志上,53卷,不。6,1400 - 1409年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
吴老板和b . m . Wilamowski”,一个快速的基于密度和网格聚类方法对数据具有任意形状和噪音,”IEEE工业信息,13卷,不。4、1620 - 1628年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
j .江孟x, y . Chen l . Wang和k·李,“小说密度山峰聚类算法基于k最近的邻居改善作业流程,“自然史答:统计力学及其应用卷,523年,第713 - 702页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
j·谢·h·高,w•谢x Liu p·w·格兰特和格兰特,“健壮的集群通过检测密度高峰和基于模糊加权分配点再邻居,”信息科学卷。354年,19-40,2016页。
视图: 出版商的网站 | 谷歌学术搜索
m . Jafarzadegan f . Safi-Esfahani z Beheshti说,“使用PCA方法结合层次聚类的方法,”专家系统与应用程序卷,137年,页1 - 10,2019。
视图: 出版商的网站 | 谷歌学术搜索
e . g .辛顿和r . r . Salakhutdinov”,与神经网络,降低数据的维数”科学,卷313,不。5786年,第507 - 504页,2006年。
视图: 出版商的网站 | 谷歌学术搜索
g l . Van der Maaten和辛顿,“使用T-SNE可视化数据。”机器学习研究杂志》上,9卷,不。11日,2008年。
视图: 谷歌学术搜索
j . k . Chow z苏,j .吴p s . Tan毛x, y . h·王,“异常检测与卷积autoencoder混凝土结构上的缺陷,“先进的工程信息45卷ID 101105条,2020年。
视图: 出版商的网站 | 谷歌学术搜索
b .三聚氰胺树脂Devassy和美国乔治,”维数降低及使用t-SNE墨水高光谱数据的可视化,”法医科学国际文章ID 110194卷,311年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . Warmenhoven n . Bargary d Liebl et al .,“主成分分析的波形和功能PCA:生物力学的底漆,”生物力学杂志文章ID 110106卷,116年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
s . d . Cheng张,j .黄”密集的地方cores-based密度山峰聚类算法的成员,“以知识为基础的系统文章ID 105454卷,193年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
m·杜s叮,h·贾”研究密度山峰聚类再邻居和主成分分析的基础上,“以知识为基础的系统卷,99年,第145 - 135页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
王h . r . Liu, x,“Shared-nearest-neighbor-based集群的快速搜索和发现密度峰值,”信息科学卷,450年,第226 - 200页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
m . Parmar迪王似地。褐色,c .苗族,j .江和y周,“小说密度聚类算法基于峰值平方剩余误差,”学报2017年国际会议上安全、模式分析、控制论(SPAC),页43-48,深圳,中国,2017年12月。
视图: 出版商的网站 | 谷歌学术搜索
x m . Parmar d . Wang Zhang et al .,“REDPC:残余偏差密度聚类算法峰值,”Neurocomputing卷,348年,第96 - 82页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
m·d·Parmar w·庞d·郝et al .,“FREDPC:一个可行的残余偏差密度聚类算法峰值与片段合并策略,”IEEE访问7卷,第89804 - 89789页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
m . w . l . Wang, h . Wang Parmar, x汉,“小说密度峰集群基于再晕节点分配方法理论,“IEEE访问ID 174380条,卷。7日,2019年。
视图: 出版商的网站 | 谷歌学术搜索
库马尔,m . Mohri, a . Talwalkar“Nystrom方法,抽样方法”机器学习研究杂志》上,13卷,不。1,第1006 - 981页,2012。
视图: 谷歌学术搜索
迪克和m . Feischl”quasi-Monte卡数据压缩机器学习的算法,”杂志上的复杂性,卷67,不。2021年,文章ID 101587, 2021。
视图: 出版商的网站 | 谷歌学术搜索
郭w·张,y, j .周h .江和r·王”小说的内核集群quasi-Monte卡洛地图随机特性,”学报2020年第七届国际会议信息,控制论和计算社会系统(可以),页854 - 857,广州,中国,2020年11月。
视图: 出版商的网站 | 谷歌学术搜索
j·h·哈尔顿,“某些拟随机序列的效率计算多维积分点的”Numerische Mathematik,卷2,不。1,第90 - 84页,1960。
视图: 出版商的网站 | 谷歌学术搜索
h·福尔“偏差套件associees联合国systeme de记数(en维s)”Acta速算比赛第41卷。。4、337 - 351年,1982页。
视图: 出版商的网站 | 谷歌学术搜索
h . Niederreiter“点集和序列差异小,”Monatshefte毛皮Mathematik,卷104,不。4、273 - 337年,1987页。
视图: 出版商的网站 | 谷歌学术搜索
l .傅和大肠的医生”,火焰,一种新颖的模糊聚类方法,DNA微阵列数据的分析,“BMC生物信息学,8卷,不。1,p。2007。
视图: 出版商的网站 | 谷歌学术搜索
k·贝奇和m . LichmanUCI机器学习库卷28日,信息与计算机科学学院,加州大学欧文分校,美国,2013年,http://archive.ics.uci.edu/ml。
a . Gionis h . Mannila, p . Tsaparas“集群聚合”ACM交易数据的知识发现,1卷,不。1、p。4、2007。
视图: 出版商的网站 | 谷歌学术搜索
p·弗兰提和o . Virmajoki迭代收缩方法聚类问题,”模式识别,39卷,不。5,761 - 775年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
y y, s·陈,通用电气,“有效的聚类大型数据集分布密度的峰值在MapReduce,”IEEE工程知识和数据,28卷,不。12日,第3230 - 3218页,2016年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

373年

下载

376年

引用

科学的规划

密度峰集群基于功能降低和Quasi-Monte卡洛

文摘

1。介绍

2。相关工作

2.1。功能降低

2.2。密度山峰聚类

2.3。Quasi-Monte卡洛

3所示。算法的描述

3.1。减少功能模块

3.2。数据采集模块

3.3。算法复杂性分析

4所示。实验和分析

4.1。实验装置

4.2。在标签的数据集实验结果

4.3。无标号数据集的实验结果

4.4。运行时间的实验结果

4.5。灵敏度分析的实验结果

4.6。算法总结

5。结论

数据可用性

的利益冲突

确认

引用

版权