一种新的聚类算法及其在评价地下水质量应用

摘要

聚类分析（Cluster analysis）是将一个数据集分成若干组，将相似的元素分配给同一个组，将不同的元素分配给不同的组，在各个领域得到了广泛的研究和应用。聚类的两大挑战是确定合适的聚类数目和生成任意形状的聚类。提出了一种新的epsilon半径邻域概念，它在簇形成过程中起着至关重要的作用，从而自动确定簇的数目和形状。在“epsilon半径邻域”的基础上，提出了一种新的聚类算法，该算法将epsilon半径值与当前分区中每个簇的特征相适应。近年来，聚类分析在环境监测中得到了广泛的应用。然而，现有的研究只是简单地应用了传统的聚类技术，这两个具有挑战性的任务还没有得到解决。因此，本文将提出的聚类算法应用于越南巴黎武陶省富美镇的地下水水质评价。在基准数据集上的实验结果证明了该算法的有效性。对于地下水水质，新算法产生了四个具有不同特征的聚类。通过应用，我们发现新算法可以为地下水管理提供有价值的参考信息。

1.简介

聚类分析是通过将数据划分为不同的组来发现数据集的底层结构，以便将相似的元素分配给相同的组，而将不同的元素分配给不同的组[1-五]。近年来，随着大数据的发展，聚类分析在物理学、生物学、经济学、工程学、社会学、数据挖掘等各个领域得到了广泛的研究和应用。(6]。为了解决聚类问题，有几种方法已经在文献，其中包括提出：非层次聚类（ķ-手段，ķ-表示++等[7，8和其他方差)，层次聚类[9]中，概率函数聚类[1]，或模糊聚类[10]。在上述的方法，ķ-means聚类是最熟知的，并且在各种领域中广泛应用。但是，那ķ-means算法及其扩展通常需要集群中的用户定义的数字，是在实践中往往是未知的。（I）另外，在ķ-means算法构造球形簇，不适合任意形状的簇。(二)以上两个问题是目前聚类的主要缺点，给解决这一问题带来了很多困难和挑战[6]。

对于（i），为了确定合适的聚类数，最常用的方法是每次运行不同聚类数的聚类算法几次，并根据一些内部有效性度量，如S-指数、F-指数、Dunn指数和Xie Beni指数对其进行评估[11-14]。这种方法可以调查簇的合适数目，但它重复聚类过程多次找到的簇的数目最好，由此增加的所需时间和空间的量，根据[6]。此外，上述评价指标是基于距离的措施;因此，它们只能评估球形簇的性质，并且不能用于任意形簇。在[15]， Mavridis等人提出了算法PFClust(无参数聚类)。术语“无参数”意味着算法可以自动确定集群的数量，而不需要任何用户定义的参数。为此，PFClust对多次随机采样的许多子数据集执行聚合算法。给定一个内部有效性测度和一组与集群数量相对应的阈值，然后根据给定内部测度的分布选择适合所有可能的聚类结果的阈值。与其他传统聚类算法相比，PFClust的性能稍好一些;然而，它重复了多次对给定阈值的内部度量进行抽样和评估的过程。因此，与其他聚类方法相比，PFClust更耗时、更昂贵。参考文献(16-18]将元启发式优化方法与聚类方法相结合，找到最优分割。这些研究使用上述内部有效性度量作为目标函数，需要优化以找到最佳的聚类解。众所周知，元启发式优化方法，如遗传算法，会导致极大的计算代价，从而降低算法的效率。此外，尽管自动输出集群数量和分区，元启发式优化方法需要一些自己的用户定义参数，这些参数对最优解有影响。因此，避免了指定集群数量的挑战，ķ导致指定其他许多参数的挑战。在[19]，自动聚类算法使用的力，可以控制的对象的运动的功能进行。距离越远，两个物体之间的作用力较弱。在结束时，每个对象收敛到群集的中心它属于。由于力的计算还需要表示的用户定义的参数和值也有集群的数量，试图克服的问题影响[16-18]这个算法是不是太显著。

就(ii)而言，DBSCAN [20]是一种基于密度的算法，是构建任意形状簇的最著名的方法。该算法利用了两个连通函数，分别称为密度可达函数和密度连通函数，每个数据实例都被指定为一个核心点或一个边界点。算法的作用是扩展核心点，形成围绕自身的集群。DBSCAN的一个缺点是，当存在不同密度的簇时，只捕获特定种类的噪声点[21]。此外，仔细翻关于簇的最小尺寸和半径需要两个用户自定义的参数。其他的方法，如内核ķ-means [22]和光谱聚类[23]可以构造任意形簇;这些方法中，然而，也需要簇的预定义数目。

因为上述的缺点，一个新的聚类方法的调查，其可以自动地确定的簇的簇形状的数量和是必要的。本文提出了一种基于一个所谓的新定义一个新的聚类方法“ -半径邻居”给定点。 -半径邻居起到任意形状的集群构建了关键作用。当任何新 -半径邻居没有找到，则算法停止处理当前簇，从而自动确定的簇的数目。此外，半径能够适应特定的簇密度，这是本文方法与DBSCAN相比的一个优点。

地下水水质取决于多种因素，如气候、含水层特征、pH值、碱度、地质环境氧化还原电位、初始来源、人类活动污染和生物过程。传统的地下水水质评价方法通常是将传感器采集的代表水质的参数与允许的标准进行比较。聚类有助于解释复杂的数据矩阵，分析水质特征的相似性，并将其分组，从而显示其一般特征以及影响水质的原因。因此，聚类分析在环境监测中得到了广泛的应用。一些研究，例如[24-28]，以便将水质量分类中的整个区域，并设计以最佳的方式将来空间采样策略，这可以减少取样站和相关成本的数量已应用聚类。然而，上述的研究简单地应用常规的聚类方法，例如用沃德距离分级聚类，并ķ-means集群。这些方法，在一般情况下，遇到的缺点，如前面提到的部分。因此，在本文中，提出的聚类算法在评估富美镇，巴地头顿省，越南地下水质应用。此应用程序预计将产生更可靠和更有价值的信息，从而使管理员可以监视地下水的行为。

本文的其余部分安排如下。剖面图2礼物研究区域，数据收集，以及所提出的方法。结果和讨论在章节介绍3其中第3.1是否针对不同的数据集和章节验证了所提出的算法3.2在评估中富美镇，巴地头顿省，越南地下水质的应用。最后，第4是结论。

2。材料和方法

2.1。建议聚类方法

让，是一组ñ点，作为一个给定的点，并且是任意正整数。一套被称为 -半径邻域如果哪里是之间的欧几里德距离和。

明显， -半径邻域位于半径的超球周围。其结果是，簇可以通过搜索在数据集并添加关于半径的超球的任何新对象被扩展围绕当前对象。这个过程仍取决于价值。此参数发挥作用是一样的参数在著名的DBSCAN算法。该参数的选择对聚类结果的影响。的固定值具有低泛化能力，因为不同的数据集，并在数据集中密度不同的簇可能需要的不同值。一个自然的策略是简单地适应使用当前的群密度。为了呈现起见，当前集群中的一组成对距离被称为集“历史的延伸。”基于所设置的“历史延伸”当前簇中（样品），我们可以在整个群集（群体）的“扩展”的最大估计。在这种情况下，两个基本原则如下：（1）我们知道，如果数据是均值的正态分布和标准偏差，然后将数据值的95％属于区间如果上述两个参数是未知的，数据是足够大的，我们可以从样本数据估计它们。例如，平均值和样品的调整的标准偏差可以被选择作为替代品和，分别。因此，为了估计所述簇（群体）的延伸的最大值，我们可以使用下面的公式：哪里和是的电流 - 处理集群（样品）中的“历史速度”的平均值和调整标准偏差。显然，关于延伸关于真实簇（群体）的97.5％必须小于该扩展由式估计（2），因此，这个公式可以用来逼近真实的簇（群体）的延伸的最大值。（2）让ñ是当前处理集群中的样本大小或对象数，以及和是样品的平均值和调整标准偏差，分别。假设的值ñ足够大或者d与均值的正态分布以及变化。因此，与0.05的水平显著，平均的d属于区间其结果是，平均延伸的最大可直接使用下面的公式估算：

然后置信区间的最大值被用作群集的延伸的代表。

它可以从公式可以观察到（2）和（3），在早期处理阶段中，当样本的尺寸过小，标准偏差和所述自适应延伸必须大。因此，我们能够避免不合理在早期处理阶段延长在当前样本不是人口的良好表现。同时，在后面的阶段中，电流处理群集或样品量中的对象的数量是足够大的用于维持延伸的稳定自适应的。

根据公式(2）和（3），我们提出了所谓的自适应聚类半径用于自动地确定的簇和簇形状的数目的新聚类方法。让，是一个原始数据集ñ对象。新的聚类算法表现为以下伪代码，并在图1。

初始化，，和，哪里和是当前处理群集之前和更新后分别获得。

步骤1。获取使用下面的公式集群的前三个对象：这话题更新在公式中(4），（五），以及（6)，函数的参数“arg”是必须提供的值，以获得函数的结果;因此是一个点在X使得它与其他点间的距离的总和为最小。换一种说法，是当前数据集的质心。同样的,是最近的点和是最近的点当排除。公式(7)来克服初始化错误的问题。例如,如果和是两个最近的邻居，但相应的距离是在当前的数据集的点之间比平均成对距离的大，则将被认为是一个单一的簇和电流延伸处理将被停止。
在上述公式中，d是任何两个之间的欧几里德距离d维点。在下面的一些说明，对于可视化的缘故，X将被选择作为2维点（X₁和X₂），这样我们就可以得出数据的散点图。事实上，X₁和X₂不仅可以是坐标但也可以是其它信息，例如身高，体重，钙²⁺，镁²⁺和Na⁺。此外，X可以是d-一般来说，是维向量。当然，我们可以计算两者之间的欧几里德距离d维点X和ÿ使用下面的公式：此外，由于在不同尺度测量的变量不相等计算距离时贡献，数据被归一化为[0,1]区间使用下面的公式：哪里是变量的值Ĵ（）在点一世（ ), 是可变的归一化值Ĵ在点一世和和变量的最小值和最大值是多少Ĵ，分别。

第2步。为每一个，计算自适应 -半径和相应的 -半径邻居使用定义1和任一式（2)或公式(3）;更新和通过下面的公式：在这一步中，公式(2）和（3）被利用来计算自适应 -半径和相应的 -半径邻居。需要注意的是，上述两个公式，现在只是一些选项，需要进行测试。在数值结果，应用两者后，最好的选择将在应用程序中选择。

第3步。如果，然后和。重复步骤2和步骤3直到，然后停止当前处理群集。

第四步。重复上述直到所有对象都分配给他们的集群三个步骤。
该算法的主要思想是，从数点初始化成使用公式（4），（五），以及（6)服从(7），群集可自动扩展基于式（2)或者(3）。当群集不延长更多，直到所有的数据点都分配到一个特定集群上述过程将重复对数据的其余部分。使用公式（2)或者(3), -半径邻域算法能够适应不同的簇密度，因此，在簇密度平衡和不平衡的情况下，该算法可以确定簇的个数并找到任意形状的簇。与传统方法相比，这是所提出算法的一个优点，例如ķ-手段，ķ-medoids和DBSCAN。

2.2。研究区域和数据使用

上述聚类方法将应用于越南巴黎武陶省富美镇地下水水质评价。研究区域和使用的数据描述如下。

2.2.1。研究范围

Phu My town的自然面积为33825公顷，人口为137334人。东面与巴利亚瓮头省洲都区毗邻。西面与胡志明市灿吉区和巴黎市瓮头市接壤。它的南面与Ba Ria市，Ba Ria- vung Tau省接壤，北面是Long Thanh区，Dong Nai省。Phu My town位于越南南部三角洲气候区，属热带气候，主要受东北和西南季风影响。一年有两个不同的季节，旱季和雨季。第一次为12月至4月，年平均气温为26.3摄氏度，第二次为5月至11月，年平均降雨量为1356.5毫米。

Phu My town是越南Ba Ria-Vung Tau省最集中的工业区，也是最发达的地区之一。为了服务于经济发展，这个地区对水的需求量很大，但是来自河流和湖泊的地表水却不能满足需求。根据巴里昂头省自然资源环境厅2012年调查数据，该镇地下水开采量已达18608430 m³/年(主要由富美轩水厂及东田水厂提供)据报道，地下水开采主要集中在更新世含水层，该含水层由铜池组、杜仲组和川邦组的粗粒土组成，主要矿物有:萤石、磷灰石、长石、石膏、电气石、蒙脱石、钛铁矿等杂质。

2.2.2。数据使用

该数据集已经由自然资源和环境部巴地头顿省的规定。在中，上更新统地下水样品（QP_2-3）含水层和上更新统（QP₃）含水层，其由11个变量的，已经从17口监测井收集。17口监控井的位置被显示在图2和详细的数据集在表1。


身份证件	娜⁺	ķ⁺	钙²⁺	镁²⁺		人³⁺		氯^-

NB3A	4.19	1.47	17.03	0.61	0.00	0.00	54.92分	8.15	2.40	1.20条	0.00
NB3B	6.56	3.85	2.00	0.49	0.00	0.00	6.10	17.73	2.40	0.64	0.00
QT5B	6.57	4.07	17.03	0.61	0.00	0.08	54.92分	10.64	9.61	1.49	0.00
QT7B	192.73	9.00	22.04	19.46	2.31	8.51	0.00	375.77	81.65	1.15条	0.00
NB2C	8.29	2.90	35.07	1.82	0.00	0.00	103.73	17.73	7.20	11.24	0.00
NB1B	4.14	2.32	1.60	0.24	0.00	0.00	12.20条	7.80	2.40	0.41	0.00
VT4B	277.65分	17.60分	26.05	31.62	2.24	1.67	0.00	514.03	115.27	1.44条	0.00
VT6	33.79	7.25	10.02	0.61	0.00	0.00	24.41	49.63	19.21条	2.88	7.77
NB4	11.00	1.44条	21.04	0.61	0.24	0.00	67.12	14.18	9.61	0.91	0.01
QT5A	10.43	1.22条	1.40分	0.36	0.00	0.00	6.10	16.66	2.40	7.91	0.00
QT7A	644.44条	57.90	100.20	118.56	36.10	0.00	494.26	946.52	528.33	6.23	7.28
NB1A	5.00	5.38	2.00	0.49	0.00	0.00	18.31	8.86	2.40	0.59	0.00
NB2A	3.86	3.61	11.02	0.97	3.72	0.00	48.82	7.09	3.84	0.85	0.32
VT4A	82.73	5.76	54.11	21.89	3.65	0.00	85.43	223.34	31.22	0.81	0.00
QT11	4.89	1.65	1.00	0.24	0.00	0.00	12.20条	7.80	0.96	1.32条	0.00
VT2B	6.88	1.94	9.02	0.61	0.11	0.00	24.41	12.41	2.40	15.14条	0.01
VT2A	4.33	2.14	5.61	1.09分	0.04	0.00	18.31	8.15	3.36	11.34	0.01

在本研究中，变量在计算距离时的贡献是相同的，即本方法考虑了各化学参数的同等重要性。当某些化学参数比其他参数更重要时，可以用加权欧几里得距离代替标准欧几里得距离。此外，请注意，在这个应用程序中，井的位置不被视为一个变量，也就是说，井将只根据其化学参数分组。因此，该算法不会过于关注位置，而是更多地关注化学性质。当然，如果同一区域的井具有相同的化学性质，它们将被分配到相同的簇。因此，我们有按位置排序的井。相比之下，通过聚类结果，我们仍然可以识别出相同区域但化学性质不同的井，或者在不同区域但化学性质相似的井。在这种情况下，也将提供相应的解释。

3.结果与讨论

3.1。数值例

在本节中，将使用一个简单的数据集来详细说明所提出的算法。数据集由表中列出的20个双变量点组成2;归一化的数据点显示在图3。


数据	X₁	X₂	数据	X₁	X₂

1	42	72	11	41	58
2	44	71	12	41.5条	59
3	46	73	13	42.5	59
4	47	72	14	43	60
五	49	71	15	45	61
6	51	71	16	45.5	61
7	52	70	17	47	61
8	54	69	18	48	61
9	55	68	19	49	61
10	57	67	20	50	60

使用公式（4），（五），以及（6)，我们找到了三个初始点v₁，v₂,v₃第一簇，其通过红色图表示的4。从图中可以看出4这三个点之间的距离在所有点之间的距离比较非常小;因此，条件（7）满足，我们可以用这三点来扩展集群。

现在，我们使用处理集群中的点来构建集群本身。例如，在图中五从绿色的角度出发，v₂，用公式(3)，我们计算自适应半径，并确定三个新的 -邻居的基础上，形成的圆。在此之后，处理集群将通过将这些三个新点被延长，并且点v₂将不再被用于群集延伸在接下来的步骤。处理集群中使用的另一点，例如，在图绿色点6我们还计算了自适应半径，并确定新的 -邻居的基础上，形成的圆。

重复上述过程，直到处理集群无法进行更多的扩展，即处理集群中的所有点都已被用于扩展流程，无法找到与它们链接的新点，如图所示7。

数字7完全决定所述第一集群;我们可以重复上述过程为数据集的剩余部分，将获得终极分区，如图8。

3.2。在基准数据集实验

部分3.1一步步骤中示出的算法。在本节中，以测试该算法的分割性能，并与其他方法进行了比较，并提出的算法在具有不同特性的不同的数据集来实现。

测试的数据集可以从下载（https://cs.joensuu.fi/sipu/datasets/数据集/),其中包括（一世）螺旋：与螺旋形的簇的数据集（ⅱ）聚合:具有不同集群形状的数据集（ⅲ）化合物：用不同的簇形状和密度的化合物的数据集(iv)高斯：一个数据集[模拟6]具有三个高斯簇

测试的算法包括（一世）ARC1：所提出的方法与自适应半径根据式定义（3）。（ⅱ）ARC2：所提出的方法与自适应半径根据式定义（4）。（ⅲ）ķ-平均数，DBSCAN：两种流行的聚类算法。这个ķ-means需要初始簇数，结果为球形簇，而DBSCAN是一种基于密度的聚类算法，适用于任意形状的簇。(iv)SU：自动聚类算法最近提出的[19]用于确定集群的数量，自动。

在本文中，调整后的兰德指数，ARI [29，三十]，被用来评估的五个比较方法的性能。ARI是外部措施，可以使由一个聚类算法产生的分区之间的比较（P）和实际分区（Q)，这里贴着“事实真相”的标签。特别是,考虑到P和Q，ARI的配方被定义为如下：哪里一个同一簇中元素对的个数P和Q，b同一簇中元素对的个数P的，但在不同集群中Q，C是在不同的集群中的对元件的数目P，但在同一个集群中Q,d是在两个不同的簇对元件的数目P和Q。越接近ARI是1，更好的聚类结果（它可以从公式可以看出（12),当P和Q都一样，b = C = 0和ARI = 1).

表格3直观地展示了五种测试算法在四个使用的数据集上的聚类结果。


	螺旋	聚合	复合	高斯

ARC1
ARC2
ķ-手段
SU
DBSCAN


	螺旋	聚合	复合	高斯

ARC1	1.0000	0.8089	0.9438	1.0000
ARC2	0.9253	0.8035	0.9438	0.7034
ķ-手段	0.0924	0.5906	0.5890	0.6968
SU	0.0000	0.5638	0.7257	1.0000
DBSCAN	1.0000	0.7338	0.7568	1.0000

评论：（一世）对于非球形群集，DBSCAN的性能比SU和更好ķ-means算法。这一结果是合理的，因为DBSCAN可以很容易地组数据点到任意形状的聚类的基础上，密度和连接，而不是它们之间的距离。ARC2算法，一般情况下是非常有效的ARI的条款和优于DBSCAN两三个数据集。同时，ARC1达到最大的ARI值，这表明在聚类准确性方面的最佳性能。（ⅱ）对于球形或高斯分布的聚类，大多数方法都具有良好的性能，其中ARC1、SU和DBSCAN是比较合适的方法。的ķ-means算法也提供了最好的结果，ķ= 3;然而,当ķ是随机变化的，不满足ķ = 3，this method shows poor performance. Tables3和4还显示，ARC2执行好过ķ-手段;然而，这还不够好为高斯集群。（ⅲ）综上所述，可以说ARC1是一种有效的算法。具体地说，ARC1可以自动确定集群的数量，并且对于任何给定的数据集，它具有非常大的ARI值或非常好的集群结果。

3.3。在水环境质量评价中的应用

在本节中，我们集群由自然资源和环境部巴地头顿省的地下水提供质量参数的样本。所使用的研究区域和数据已在部分被提出2。聚类结果如图所示9结果表明，17监测井分为4组基于水的质量特性：（一世）第1组：NB3A，QT5B，NB4（ⅱ）第2组：NB3B，NB1B，NB1A，QT11（ⅲ）第3组：QT7B，NB2C，VT4B，VT6，QT5A，NB2A，VT4A，VT2B，VT2A(iv)第4组：QT7A

图中显示了集群之间一些参数的比较10。我们有以下看法：（一世）簇4仅由1井，QT7A，具有非常高的参数值。这一结果表明，相对于其余组群中的这口井的水的质量实在是太差了。另外，从表中可以看出1图10（甲）该QT7A有更多的盐离子（镁²⁺，娜⁺，千⁺，加利福尼亚州²⁺，，，氯^-，，和亚硝酸盐）相比，剩余的集群。根据越南的地下水水质国家技术法规，在允许的标准氯^-一世s 250 mg/l and for一世s 400 mg/l. Therefore, the Cl^-和QT7A的值分别超过允许标准3.78倍和1.3倍。这表明，QT7A可以通过海水入侵进行overaffected因为这口井位于盐边界附近。此外，它可以在图中看到的9这两口井QT7A和QT7B位于同一区域，但它们属于不同的簇。其实，他们都是被污染的水井，但他们有不同的深度，代表不同的含水层。其结果是，表现出QT7A污染比QT7B的更高的水平。（ⅱ）从图中可以看出，剩下的三个星团9和图10（b）该集群1包括三个孔的，具有高HCO₃^-值。据我们所知，这两个井，NB3A和QT5B，位于靠近我的轩B1工业区，井NB4靠近托克·恩垃圾填埋场。其结果是，那些井可以由上述工业区和填埋场的废物排出处理被污染。（ⅲ）第2组由四个井相对出色的画质。在该集群中，大部分参数值比其他簇的下限和安全的范围内。由此可以得出结论，第2组的孔不受农业活动以及盐水入侵。(iv)簇3由8个孔用Mg的较高值²⁺，娜⁺，千⁺，加利福尼亚州²⁺，中心线^-,相比，这些群集1和群集2。特别，氯的^-值超过在2/8孔允许标准。这表明了许多在群集3个孔，它们位于在海岸附近以及盐度界限，能够被受盐度侵入。另外，如图图10（b），在Cluster 3中，的平均值比第1组和2群这表明农业活动正在各地担任大贡献者这个集群的地下水质监测区域的地方更高。特别是，还有NB2C，VT2B和VT2A位于产业种植面积近。同时，井VT6，其位于所述水产养殖区域附近，可能受到严重影响通过从残余饵料有机物;因此，值达到更高7.77倍大于允许的标准。

（一个）

（b）中

4.结论

基于半径邻域的定义，本文提出了一种新的聚类算法，该算法可以自动确定聚类的数量，并可以找到具有不同大小、形状和密度的聚类。半径或扩展适应于电流处理簇，具有良好的泛化能力。该算法在基准数据集上进行了测试，并应用于越南Ba Ria-Vung Tau省Phu My镇的地下水水质评估。在许多数据集的实验中，ARC1算法在调整Rand指数方面表现出比其他测试算法更好的性能。在非球形集群的情况下，ARC2算法的性能优于传统的聚类算法，但在球形集群的情况下性能较差。对于越南Ba Ria-Vung Tau省Phu My镇的地下水水质评估，提出的算法表明，有四个水质集群代表不同的水源贡献。

数据可用性

用来支持这项研究的结果的数据是可用的，请相应的作者。

利益冲突

作者声明他们没有利益冲突。

致谢

这项研究是由越南国家大学胡志明市（VNU-HCM）格兰特在任何资助。C2018-24-01。

工具书类

T.武文和T.范 - 嘉，“集群概率分布”杂志应用统计卷。37，没有。11，页。1891年至1910年，2010。查看在：出版商网站|谷歌学术
T. VoVan和T. NguyenTrang，“概率密度函数群集的相似系数”，统计 - 理论与方法通信，第47卷，no。8、1792-1811页，2018。查看在：出版商网站|谷歌学术
A. K.耆那，M. N.穆尔蒂和P. J.弗林，“数据聚类：评论，”ACM计算调查（CSUR），第31卷，第3期，第264-323页，1999年。查看在：出版商网站|谷歌学术
A、 K.Jain，“数据聚类：50年后”ķ-意思是模式识别快报卷。31，没有。8，第651-666，2010。查看在：出版商网站|谷歌学术
Z.解，R.董，Z. Deng等人，“A概率方法来潜聚类分析，”在人工智能第二十三次国际联合会议论文集（IJCAI），中国北京，2013年8月。查看在：谷歌学术
T. VoVan和T. Nguyen Trang，“离散元素的相似聚类系数”，尚琪亚乙，第80卷，第1期，第19-36页，2018年。查看在：出版商网站|谷歌学术
J.麦奎，“分类和多元的观察分析一些方法，”在第五伯克利学术研讨会数理统计与概率论文集，第281-297，奥克兰，CA，USA，1967年6月。查看在：谷歌学术
D.亚瑟和S. Vassilvitskii“ķ-means++：小心播种的优点第十八届ACM-SIAM离散算法研讨会论文集，第1027-1035页，工业与应用数学学会，新奥尔良，洛杉矶，美国，2007年1月。查看在：谷歌学术
G. Karypis，E.-H.EUI-宏汉和V库马尔，“变色龙：使用动态模型的层次聚类”电脑卷。32，没有。8，第68-75，1999。查看在：出版商网站|谷歌学术
J. C. Bezdek，R.埃利希和W.全“FCM：模糊C-means聚类算法，”电脑与地质卷。10，没有。2-3，第191-203，1984。查看在：出版商网站|谷歌学术
J. C.唐恩，“良好分离簇和最优模糊分区，”杂志控制论卷。4，没有。1，第95-104，1974。查看在：出版商网站|谷歌学术
X. L.谢和G.贝尼，“有效性措施的模糊聚类”IEEE模式分析和机器智能汇刊卷。13，没有。8，第841-847，1991。查看在：出版商网站|谷歌学术
J. C. Bezdek和N. R.好朋友，“与广义唐恩的指数集群验证，”在1995年第二新西兰国际双流会议的人工神经网络和专家系统程序，第190-193，达尼丁，新西兰，1995年11月。查看在：谷歌学术
R.的Babuska，模糊建模控制，施普林格科学与商业媒体，柏林，德国，2012年。
L. Mavridis，N.纳特，和J. B.米切尔，“PFClust：一种新颖的参数自由聚类算法，”BMC生物信息学卷。14，没有。1，P。213，2013。查看在：出版商网站|谷歌学术
五十、 E.Agustı，S.Salcedo Sanz，S.Jiménez Fernández，L.Carro Calvo，J.Del Ser和J.A.Portilla Figueras，“一种新的聚类问题分组遗传算法”与应用专家系统卷。39，没有。10，第9695-9703，2012。查看在：出版商网站|谷歌学术
S.达斯，A.亚伯拉罕，A.科纳雷“自动使用改进的微分进化算法聚类，”IEEE系统，人，与控制-A部分：系统和人类卷。38，没有。1，第218-237，2008。查看在：出版商网站|谷歌学术
T. VO-范，T.阮的Thoi，T. VO-维战，V.浩胡和T.阮庄，“修饰为概率密度函数基于遗传算法的聚类，”杂志统计计算与仿真卷。87，没有。10，第1964至1979年，2017年。查看在：出版商网站|谷歌学术
W.-L.洪和J.-H.杨，“模糊数据的自动聚类算法，”杂志应用统计卷。42，没有。7，第一五○三年至1518年，2015年。查看在：出版商网站|谷歌学术
M、 Ester，H.-P.Kriegel，J.Sander等人，“一种基于密度的算法，用于发现带有噪声的大型空间数据库中的簇，”KDD卷。96，没有。34，第226-231，1996。查看在：谷歌学术
C.多宾斯和R. Rawassizadeh“建立物理活动识别移动和智能手表加速度计数据的聚类，”情报卷。5，没有。2，P。29，2018。查看在：出版商网站|谷歌学术
G. F. Tzortzis和A. C.里卡士，“全球核ķ-means算法特征空间聚类”神经网络上的IEEE事务卷。20，没有。7，第1181至1194年，2009年。查看在：出版商网站|谷歌学术
I，S Dhillon，Y.关，和B. Kulis，“内核ķ-means：谱聚类和标准化切割，”在2004年ACM SIGKDD国际会议知识发现和数据挖掘，KDD'04诉讼，第551-556，ACM，纽约，NY，USA，2004年8月。查看在：出版商网站|谷歌学术
M. O. Mavukkandy，S. Karmakar和P. S.哈库马尔，“评估和水质监测网络的合理化：多元统计方法来Kabbini河（印度），”环境科学与污染研究卷。21，没有。17，第10045-10066，2014。查看在：出版商网站|谷歌学术
《马来西亚一个热带小岛地下水化学影响因素的评估》，国际环境研究与公共健康期刊卷。10，没有。5，第1861至1881年，2013。查看在：出版商网站|谷歌学术
S.什雷斯塔和F风间，“地表水环境质量评价使用多元统计技术：富士流域，日本为例，”环境模拟与软件卷。22，没有。4，第464-475，2007。查看在：出版商网站|谷歌学术
M. Varol和B. S R，“地表水和上部底格里斯河，土耳其的沉积物养分和重金属污染的评价，”系列卷。92，第1-10页，2012。查看在：出版商网站|谷歌学术
Q.杨，张J.，Y.王，Y.方和J.马丁，“在沿海含水层浅层地下水水质因素确定水化学数据的多元统计分析，”波兰杂志环境研究卷。24，2015年。查看在：出版商网站|谷歌学术
W. M.兰德，“为聚类方法评价的客观标准，”杂志美国统计协会，第66卷，第336号，第846-8501971页。查看在：出版商网站|谷歌学术
L.休伯特和P. Arabie，“比较分区”杂志分类卷。2，没有。1，第193-218，1985。查看在：出版商网站|谷歌学术

科学规划

科学规划工具水资源管理

摘要