模糊聚类方法的比较及其应用地球物理数据

文摘

模糊聚类算法存在一个数据集时非常有用的再分组分有模糊边界和重叠的集群。传统方法都进行了广泛的研究,并用于实际数据,但需要用户有一些结果先验知识来确定有多少集群寻找。此外,迭代算法选择最优数量的集群基于性能的措施之一。在这项研究中,作者比较三种算法的性能(模糊c、Gustafson-Kessel和迭代版本的Gustafson-Kessel)当集群传统数据集以及现实世界的地球物理数据,收集从一个考古遗址在怀俄明州。感兴趣的领域中被确定使用清爽的截断值以及模糊切,以确定哪些提供更好的消除噪音和无关的点。结果表明,削减方法消除噪声比脆截止值,迭代版本的模糊聚类算法能够选择一个最佳的subclusters内点集(在传统和现实世界的数据),从而正确指示专家感兴趣的区域进行进一步的分析

1。介绍

考古学家使用各种技术的地球物理调查了半个世纪多的开创性工作完成在欧洲,特别是在罗马网站在英格兰(见[1,2)对这项工作)。今天的地球物理调查广泛用于欧洲考古学,是北美流行3]。当前工作Goetz网站怀俄明州西北部(图1)利用磁力梯度仪调查为了探测地下特性或过去人类活动的领域。如图所示的梯度仪测量工具2操作指导磁场到基质(土壤)和阅读磁场的强度是返回的矩阵。一个考古的特性可能是仪器检测到的如果它有对比矩阵中驻留。这些特性包括壁炉,房子坑,存储,和其他ground-disturbing活动留下的地区的居民。

理想的设置将一个矩阵有很少或没有磁性签名(制服),和考古特征有一个重要的磁性签名。这将创建高对比矩阵,特征和允许高可见性的特性,允许一个感兴趣的领域出现在数据分析。然而,很少会出现这种情况,这是地球物理研究人员识别和解决的挑战来自噪声的特性或感兴趣的领域出现在矩阵。噪音也由外国材料(植物、岩石、拒绝等)在扫描区域或不规则的地形扫描区域(图3)。正是因为这些原因,当前工作的人员使用模糊聚类技术来收集到的重力梯度仪数据。

通过分区数据点的集合成更小的子组,一个是执行聚类技术。硬聚类是当每个数据点是唯一地分配给一个且只有一个集群,而模糊聚类分配一个会员价值在每个可能的集群和分配每个点的指向集群”会员最高。“模糊聚类可以被认为是一个前兆硬聚类,因为最后的结果常常是分区数据点集的控制或分类的目的。硬聚类的问题是,它假定组织之间的界限定义良好的,虽然这不是很多的情况,事实上,自然系统。

模糊聚类是基于模糊集的概念,提出了1965年德(4),它使用模拟传统集合理论结合和比较分在不同的组集之间的界限的不精确。这种固有的不精确使得模糊聚类等新兴领域的理想地球物理数据的聚类和分类,其中感兴趣的位置和周围的材料之间的界限是不精确的。

两个传统的模糊聚类方法是所谓的模糊c均值(FCM)和Gustafson-Kessel (G-K)算法。FCM最初提出的邓恩(7和被Bezdek进一步细化8),而G-K Gustafson和·凯塞尔于1978年被开发9]。这两种方法的共同之处在于:他们用距离测量计算集群分区和指定分簇;然而,尽管FCM使用norm-inducing单位矩阵计算距离,G-K使用一个集群在距离计算协方差矩阵,使它的子类FCM (5]。

第三个聚类方法,类似于迦特和Geva[工作6基于G-K],但不承担任何先验知识的数量或自然subclusters在场,这并不总是可用在分析实际数据。而不是猜测的数字集群,集群的用户定义一个最大数量(从2)和迭代算法的进展,并输出集群的集群中心和分区矩阵与最佳性能基于多种验证方法之一(更多在下一节中讨论)。

这个调查的目的是比较这三个相似,但独特的聚类算法,首先在标准数据集,然后在探测考古地球物理数据的特性。具体来说,标准的数据集是著名的虹膜数据最初收集的安德森在1935年(10)和费舍尔发表的第二年(11]。使用这个数据集作为比较的基准。

有两个原因分析。首先,由于自定义编码标准和迭代G-K算法在MATLAB编写或修改(MathWorks公司纳蒂克,MA)在这项研究中,需要测量的有效性(MATLAB函数fcm被用作基线所以验证代码被认为是不必要的),和虹膜数据被用作“调试、验证和基准测试工具。验证的第二个原因是,在1999年Bezdek发表了一份信件表明有多个截然不同版本的虹膜数据作为数据集在各种报道(12]。在这项研究中,最初的虹膜数据(11)独立转录从原来的工作很仔细,检查错误的个人,以确保正确的数据,事实上,被使用。这是旨在提供一个统一的三种聚类方法的比较。

本文的其余部分组织如下。部分2将介绍三种不同的聚类算法和实验装置,同时验证使用虹膜数据提出了部分3。部分4显示的结果将聚类算法应用于真实世界的地球物理数据,以确定考古”的存在和位置异常。”部分5将提供一个总结和语句的结论以及突出本研究未来的发展方向。

2。聚类方法

三种算法在以下部分遵循类似的结构:()选择初始聚类中心,()计算所有点和所有集群中心之间的距离,()更新分区矩阵直到终止阈值。躺在路上的差异算法执行步骤()和(),他们每个人都得到自己的长处。下面将讨论这些差异。FCM和G-K都进行了广泛的研究文献中,所以只有简要回顾下面是这两个方法。

2.1。模糊c均值

在图所示的FCM算法4改编自(5]。该算法的目的是为了满足(1)。集群中心(原型)计算在每一个迭代点的均值在每个子集,和初始分区矩阵,U初,是随机分配的算法。该算法重复直到分区矩阵之间的区别和(th和圣迭代resp)小于ε。加权指数,,增加函数的模糊性,导致较低的特征向量会员,,贡献少的整体权重分区(13];通常是设定等于2,在本研究中。如果下面的错误从来没有达到(在这项研究中,最大迭代次数设置为100,第二个终止准则

2.2。Gustafson-Kessel算法

当比较的数据4和5,分别代表FCM和Gustafson-Kessel算法(5),应立即通知很多相似之处。的参数,, ,两种算法之间的都是一样的。的主要区别是点之间的距离的计算数据集和集群中心。而在FCM的距离测量使用norm-inducing(身份)矩阵,G-K使用参数协方差矩阵的基础上每个集群,允许的距离标准适应的形状subclusters最适合的数据(5]。根据(9),这个词(相当于从图5)是对称的正定,使算法适应条件特征尺寸比例不同;因此该算法可以适应每个子集的形状的变化。

2.3。迭代Gustafson-Kessel

无监督的模糊Partition-Optimal数量的类(UFP-ONC)算法由迦特和Geva [6)是为了进一步优化G-K集群(以及扩展FCM)。G-K和FCM,必须了解一些固有的分歧数据以提供算法subclusters出现在数据的数量。增加传统的聚类算法,迦特,和Geva添加一个迭代循环的算法,而不是一个固定数量的subclusters,使用集群的最大数量和性能措施之一来确定最优数量的subclusters内的数据。

算法(图6)有许多相似之处FCM和G-K:重心()计算集群内的均值点,点被分配到一个集群使用一个分区矩阵,、终止决定使用一个标准,,距离测量是采用利用协方差的集群成员。而不是传统的欧式距离度量,迦特,和Geva使用所谓的“指数”距离测量,,这是为了适应hyperellipsoidal集群密度与变量。然而,而不是自动细分数据subclusters UFP-ONC起价集群(可以忽略,因为它代表一个子集组成的整个宇宙的话语)和用户定义的最大收益,。终止算法对于一个给定的最大数量的集群时最大的区别和小于ε或达到最大迭代次数。

虽然指数距离测量绝对是值得进一步研究和可以提供更好的分离nonspherical,变密度异常集群出现在地球物理数据,这里使用的算法是不赞成G-K算法迭代版本的标准。第一个原因是,尽管其可能的好处,使用指数距离测量将推出另一个层面的复杂性和当前的研究可能的误差源(因为比较分析三种方法的更有意义如果使用类似的距离测量)。其次,UFP-ONC算法的功能非常类似于G-K(见图5和6),所以很少的额外信息将获得通过使用指数距离测量。最后,由于分区和协方差矩阵自然由G-K可以用来计算中使用的各种性能措施(6)几乎没有理由不简单地添加一个G-K迭代一步。在这项研究中,和迭代和G-K noniterative版本。

在每个迭代中,计算三种不同性能的措施之一;最好的模糊划分矩阵是一个优化函数所示(2)- (4)。所有三个措施考虑子集超体积,其中两个适应点密度(6]。方程(2)是“模糊超体积,”(3)是“平均密度分区”,(4)是“分区密度,”协方差矩阵。最优容量最大值最小值,而密度措施措施。迦特和Geva表明FHV标准表现出一个清晰的大多数情况下,他们研究了最小;然而,随着集群开始越来越多的重叠或集群开始的密实度不同,密度标准将提供一个更好的测量性能。这样的结果预计在分析费雪的虹膜数据

2.4。实验装置

除了设置三个算法和不同的算法本身,正如上面所讨论的,有几个不同的整个研究的其他参数。第一个参数是隔离的兴趣点的方法从背景和噪声(诱导违规行为的土壤、地形和植被影响;参见图3在扫描。从一个原位扫描、地球物理磁强计数据范围从约180 - 2000元,感兴趣的特性介于下降和元,一些可变性范围的有趣的特性。由于这个变化,模糊隔离方法被用来确定哪些数据点的利息和比较脆截止和nT。成员函数用作截止如图7。0.98(类似于一个会员的价值——或者切(14)被用来识别异常点。

使用的参数gbellmfMATLAB函数包括数据集和一个向量的隶属函数描述的位置和大小。使用描述性的参数是(]。各种组合都试图找到最优的组合。这些变化是详细的在附录中。

第二个参数是改变被认为是集群的最大数量。而G-K和FCM每次使用完整的用户数量的集群表示,迭代G-K算法可以使用任意数量的集群,从2,尽可能最好的分区。每个磁强计数据文件处理三个集群和最多10个集群,因为这些值用于虹膜在以下部分验证。G-K和FCM相比结果迭代G-K结果是否特定集群总是表示,不管有多少subclusters礼物。

四个数据文件从地球物理学研究获得Goetz怀俄明州西北部网站使用磁通门FM / 36磁力梯度仪,一个标准的地质扫描工具(图2)。扫描的数据10 ()- - - - - -10 (c)是2020米网格A、B和C显示在图1而扫描图表示10 (d)从2020米网格D, E, f .在每个站点,读数是每隔0.125米的横向间隔0.25米。存储容量后的磁通门FM / 36了,数据下载到笔记本电脑和转换为以逗号分隔文件使用Geoplot 3.00软件(Geoscan研究,布拉德福德,西约克郡,英国)。这些原始数据文件然后输入包含上述算法的MATLAB程序。

3所示。费雪的虹膜数据

1999年,Bezdek等人发表了一篇通讯称为“会真正的Iris数据请站起来吗?“(12]。这信件指出一系列小错误报道安德森于1935年收集的数据的值(10)并于1936年首次报道了费舍尔(11]。这些数据已经被广泛使用在整个文学提供一个基线聚类算法,但如果错误是出现在数据,结果可能不会像他们本来的。为了验证当前在社区工作,试图消除混乱的数据集是“真实的”,直接从费雪的虹膜数据复制原作然后Bezdek报道相比,数字和手工。许多独立的验证后,发现结果一致,所以有高概率,费舍尔在1936年最初报道的数据被用在这里。这里的数据报告如表1,为了完整性和信息披露。


虹膜Sestosa				虹膜杂色的				虹膜Virginica
花萼	花萼	花瓣	花瓣	花萼	花萼	花瓣	花瓣	花萼	花萼	花瓣	花瓣
分割	宽度	长度	宽度	分割	宽度	长度	宽度	分割	宽度	长度	宽度

5.1	3.5	1.4	0.2	7.0	3.2	4.7	1.4	6.3	3.3	6.0	2.5
4.9	3.0	1.4	0.2	6.4	3.2	4.5	1.5	5.8	2.7	5.1	1.9
4.7	3.2	1.3	0.2	6.9	3.1	4.9	1.5	7.1	3.0	5.9	2.1
4.6	3.1	1.5	0.2	5.5	2.3	4.0	1.3	6.3	2.9	5.6	1.8
5.0	3.6	1.4	0.2	6.5	2.8	4.6	1.5	6.5	3.0	5.8	2.2
5.4	3.9	1.7	0.4	5.7	2.8	4.5	1.3	7.6	3.0	6.6	2.1
4.6	3.4	1.4	0.3	6.3	3.3	4.7	1.6	4.9	2.5	4.5	1.7
5.0	3.4	1.5	0.2	4.9	2.4	3.3	1.0	7.3	2.9	6.3	1.8
4.4	2.9	1.4	0.2	6.6	2.9	4.6	1.3	6.7	2.5	5.8	1.8
4.9	3.1	1.5	0.1	5.2	2.7	3.9	1.4	7.2	3.6	6.1	2.5
5.4	3.7	1.5	0.2	5.0	2.0	3.5	1.0	6.5	3.2	5.1	2.0
4.8	3.4	1.6	0.2	5.9	3.0	4.2	1.5	6.4	2.7	5.3	1.9
4.8	3.0	1.4	0.1	6.0	2.2	4.0	1.0	6.8	3.0	5.5	2.1
4.3	3.0	1.1	0.1	6.1	2.9	4.7	1.4	5.7	2.5	5.0	2.0
5.8	4.0	1.2	0.2	5.6	2.9	3.6	1.3	5.8	2.8	5.1	2.4
5.7	4.4	1.5	0.4	6.7	3.1	4.4	1.4	6.4	3.2	5.3	2.3
5.4	3.9	1.3	0.4	5.6	3.0	4.5	1.5	6.5	3.0	5.5	1.8
5.1	3.5	1.4	0.3	5.8	2.7	4.1	1.0	7.7	3.8	6.7	2.2
5.7	3.8	1.7	0.3	6.2	2.2	4.5	1.5	7.7	2.6	6.9	2.3
5.1	3.8	1.5	0.3	5.6	2.5	3.9	1.1	6.0	2.2	5.0	1.5
5.4	3.4	1.7	0.2	5.9	3.2	4.8	1.8	6.9	3.2	5.7	2.3
5.1	3.7	1.5	0.4	6.1	2.8	4.0	1.3	5.6	2.8	4.9	2.0
4.6	3.6	1.0	0.2	6.3	2.5	4.9	1.5	7.7	2.8	6.7	2.0
5.1	3.3	1.7	0.5	6.1	2.8	4.7	1.2	6.3	2.7	4.9	1.8
4.8	3.4	1.9	0.2	6.4	2.9	4.3	1.3	6.7	3.3	5.7	2.1
5.0	3.0	1.6	0.2	6.6	3.0	4.4	1.4	7.2	3.2	6.0	1.8
5.0	3.4	1.6	0.4	6.8	2.8	4.8	1.4	6.2	2.8	4.8	1.8
5.2	3.5	1.5	0.2	6.7	3.0	5.0	1.7	6.1	3.0	4.9	1.8
5.2	3.4	1.4	0.2	6.0	2.9	4.5	1.5	6.4	2.8	5.6	2.1
4.7	3.2	1.6	0.2	5.7	2.6	3.5	1.0	7.2	3.0	5.8	1.6
4.8	3.1	1.6	0.2	5.5	2.4	3.8	1.1	7.4	2.8	6.1	1.9
5.4	3.4	1.5	0.4	5.5	2.4	3.7	1.0	7.9	3.8	6.4	2.0
5.2	4.1	1.5	0.1	5.8	2.7	3.9	1.2	6.4	2.8	5.6	2.2
5.5	4.2	1.4	0.2	6.0	2.7	5.1	1.6	6.3	2.8	5.1	1.5
4.9	3.1	1.5	0.2	5.4	3.0	4.5	1.5	6.1	2.6	5.6	1.4
5.0	3.2	1.2	0.2	6.0	3.4	4.5	1.6	7.7	3.0	6.1	2.3
5.5	3.5	1.3	0.2	6.7	3.1	4.7	1.5	6.3	3.4	5.6	2.4
4.9	3.6	1.4	0.1	6.3	2.3	4.4	1.3	6.4	3.1	5.5	1.8
4.4	3.0	1.3	0.2	5.6	3.0	4.1	1.3	6.0	3.0	4.8	1.8
5.1	3.4	1.5	0.2	5.5	2.5	4.0	1.3	6.9	3.1	5.4	2.1
5.0	3.5	1.3	0.3	5.5	2.6	4.4	1.2	6.7	3.1	5.6	2.4
4.5	2.3	1.3	0.3	6.1	3.0	4.6	1.4	6.9	3.1	5.1	2.3
4.4	3.2	1.3	0.2	5.8	2.6	4.0	1.2	5.8	2.7	5.1	1.9
5.0	3.5	1.6	0.6	5.0	2.3	3.3	1.0	6.8	3.2	5.9	2.3
5.1	3.8	1.9	0.4	5.6	2.7	4.2	1.3	6.7	3.3	5.7	2.5
4.8	3.0	1.4	0.3	5.7	3.0	4.2	1.2	6.7	3.0	5.2	2.3
5.1	3.8	1.6	0.2	5.7	2.9	4.2	1.3	6.3	2.5	5.0	1.9
4.6	3.2	1.4	0.2	6.2	2.9	4.3	1.3	6.5	3.0	5.2	2.0
5.3	3.7	1.5	0.2	5.1	2.5	3.0	1.1	6.2	3.4	5.4	2.3
5.0	3.3	1.4	0.2	5.7	2.8	4.1	1.3	5.9	3.0	5.1	1.8

与数据精度问题解决,验证算法的下一个任务。MATLAB函数,fcm作为基准,其他两种算法。因为之前信息已知的数据集,假设有三个集群G-K和FCM,因为每个使用固定数量的集群。Maxima 3和10 subclusters假定的迭代G-K算法的聚类精度和有效性测试性能的措施。结果如表所示2。获得一个想法的大小错误预期:Bezdek报道,无监督算法,这是,一个可以预期在10到15虹膜的集群作业中的错误数据15),作为目前比较的基础。可以看出,唯一例外的迭代算法G-K FHV性能测量和最大的10 subclusters,所有的算法发现分区组点最优,Bezdek错误报道的范围内。


算法	FCM (3 clust。)	clust G-K (3)。	Iter。G-K,德通社()	Iter。G-K PD ()	Iter。G-K FHV ()	Iter。G-K,德通社()	Iter。G-K PD ()	Iter。G-K FHV ()*

集群	3	3	3	3	3	3	3	9
错误	16	14	14	14	14	14	14	24

但从表一个案例2(迭代G-K FHV),算法发现所有三个集群在几乎相同的位置(见表3和4),这类似于报告的结果(11]。一个区别,每个人都应该注意当考虑表的最后一列2是FHV性能测量导致9 subclusters当集群的最大数量设置为10。总结这一措施的性能对提高最大数量的集群被认为是显示在表中4。九个集群中心获得使用迭代G-K FHV,如表所示5。


算法		FCM (3 clust。)				clust G-K (3)。

中心	1	5.004	3.4141	1.4828	0.25354	5.0147	3.4383	1.4663	0.24451
	2	5.8888	2.761	4.3637	1.3972	6.1385	2.8024	4.534	1.4108
	3	6.7748	3.0523	5.6466	2.0535	6.3928	2.9764	5.2897	2.0084

算法		Iter。G-K,德通社()				Iter。G-K PD ()				Iter。G-K FHV ()

中心	1	5.0147	3.4383	1.4663	0.24451	5.0147	3.4383	1.4663	0.24451	5.0147	3.4383	1.4663	0.24451
	2	6.1385	2.8024	4.534	1.4108	6.1385	2.8024	4.534	1.4108	6.1385	2.8024	4.534	1.4108
	3	6.3928	2.9764	5.2897	2.0084	6.3928	2.9764	5.2897	2.0084	6.3928	2.9764	5.2897	2.0084

算法		Iter。G-K,德通社()				Iter。G-K PD ()				Iter。G-K FHV ()*

中心	1	5.0147	3.4383	1.4663	0.24451	5.0147	3.4383	1.4663	0.24451	5.0247	3.3975	1.5854	0.32499
	2	6.1385	2.8024	4.534	1.4108	6.1385	2.8024	4.534	1.4108	5.7601	2.6904	4.2685	1.2956
	3	6.3928	2.9764	5.2897	2.0084	6.3928	2.9764	5.2897	2.0084	6.5041	2.9663	5.1772	1.8804


马克斯	3	4	5	6	7	8	9	10
实际	3	3	3	3	7	8	9	9


6.2262	2.9524	5.399	2.087
6.5788	2.9829	4.5774	1.4299
5.1406	3.3637	1.8641	0.53001
4.8242	3.3835	1.4217	0.24568
7.0132	2.9938	5.7007	2.0942
5.9606	2.8838	4.5994	1.3934
6.2008	2.9365	5.0255	1.9051
5.1093	3.4454	1.4704	0.19927
5.5596	2.497	3.9375	1.1978

注意到有一个模式来合成集群中心表所示5,这就引发了一个问题,“如果结果reclustered会发生什么?“记住这一点,从表9个集群中心5运行通过相同的聚类算法(Iter生产它们。G-K FHV,)生产合成集群中心的最后四列表所示3(没有办法比较结果9 subclusters与3 subclusters)获得正确的值。虽然这些reclustered结果不会执行以及其他算法在表表示2,结果是改善了因为有三个subclusters表中所示类似的中心3。这些结果,以及穷人FHV整体性能的措施,是完全预测的迦特和Geva [6)为重叠集群在前一节中讨论。鉴于这些结果和其他结果的相似性在文献中报道,作者认为,算法执行令人满意和准备用于集群真实数据。

4所示。聚类地球物理数据

数据聚集在怀俄明州西北部Goetz网站聚集在2002年和2003年夏季的实地使用磁通门FM / 36磁力梯度仪。数据的图形表示如图8以及一个专家的意见关于区域代表感兴趣的领域,模糊系统应该识别。黑色区域的数字代表未测量的领域或领域的异物(nonartifact金属)的扫描仪。

(一)

(b)

(c)

(d)

图8

(a)图形表示的数据聚集在Goetz网格D, E, f (b)专家意见对考古感兴趣的特性中包含磁强计的数据部分(a)。(c)图形表示的数据聚集在Goetz,网格c (D)专家意见对考古感兴趣的特性中包含磁强计的数据部分(c),红色,蓝色,和绿色像素代表的金属物体在扫描字段;红色线条和圆圈区域表示感兴趣的特性。

4.1。模糊与清晰截止

当各种聚类算法应用于实际的地球物理数据,有一个广泛的不同的结果。第一个区别与截止方法:模糊或清晰。图9显示了处理数据的结果文件使用的截止值来,图10显示的结果与模糊处理数据文件截止使用隶属函数如图7在。表6定量显示集群的数量在每个不同的参数。虽然表中的数据6显示小模糊和脆截止值的区别,主要的不同是在截止后剩余的数据点的数量(见表7)。


算法最大。集群	FCM 3	FCM 10	G-K 3	G-K 10	Iter。G-K,德通社3	Iter。G-K,德通社10	Iter。G-K PD 3	Iter。G-K, PD 10	Iter。G-K FHV 3	Iter。G-K FHV 10

模糊	3,3,3,3	10、10、10、10	3,3,3,3	10、10、10、10	2、2、3、3	2、2、8、3	2、2、3、3	2、2、8、3	3、2、2、3	3、8、10、10
脆	3,3,3,3	10、10、10、10	3,3,3,3	10、10、10、10	2、2、3、3	2、2、9、3	2、2、3、3	2、2、9、3	2、2、2、3	2、9、10、10


数据集	一个	B	C	D

模糊()	971年	1535年	157年	442年
模糊()	971年	1535年	157年	442年
脆	1593年	2712年	342年	820年

因素	1.64	1.77	2.18	1.86

(一)

(b)

(c)

(d)

图9

1 数据集产生的脆截止值(]。次要情节(一)——(d)代表不同的数据文件从不同区域内的调查网站(见图);(一)代表地区,(b)代表区域b, c (c)代表地区,和(d)代表区域d, E, F(旋转逆时针方向)。红色像素代表金属物体和绿色像素代表可能感兴趣的领域。

(一)

(b)

(c)

(d)

尽管它可能进一步调整的截止值,进一步限制“噪音”的数量分的数据集,数据表7说明增加α降低不显著改善添加到生成的数据集。此外,作者觉得模糊隶属度函数来处理非线性固有的能力,使其成为理想的选择这种类型的调查。考古专家推荐的截止值”“),应立即表示“模糊逻辑”熟悉的技术。也,因为数据被收集在一个嘈杂的环境中,操作员错误是不可避免的,总是会有异常值的可能性,模糊成员截止方法是理想的。此外,该系统的未来版本可能包含更多的模糊隶属度函数,进一步消除异常值。例如,一个模糊推理系统可以建立适应的位置可能的异常在感兴趣的领域内,在本质上“preclustering”基于磁强计的数据点阅读和位置(类似于一个加权算法)。尝试这种脆截止值的修改将会更加复杂和困难为小说的情况下调整。这将是在部分进一步讨论5。

最后,而不必单独调整脆截止的上下界估计范围,用户可以调整减少值,它非常适用于GUI滑块或其他UI对象可用在大多数编程语言,包括MATLAB。滑块将允许用户在一个直观的手段调整搜索条件”,“实现最好的结果。总的来说,作者认为,对于这样的一个系统,模糊截止值是最好的选择。

4.2。最大的集群

如表所示6FCM和G-K尽可能使用集群的最大数量,按照算法。自迭代G-K算法是专门优化集群的数量,这应该不足为奇,合成集群的数量是不同的在三种不同性能的措施和最大数量的集群。定量,这个结果如表所示6,但结果是定性不同,。由于空间的限制,并不是所有的情节可以显示在这里,但图11显示了极端,好的和坏的。总的来说,结果分为以下几类:

(一)

(b)

(c)

(d)

(e)

图11

代表各种聚类算法的运行结果:(a)可怜的结果:地区“D”迭代G-K,平均密度分区性能测量,最大的集群3;(b)好的结果:地区“D”迭代G-K,模糊超体积性能测量,最大的集群10;(c)可怜的结果:地区“c”迭代G-K,模糊超体积性能测量,最大的集群3;(d)好的结果:地区“C”G-K,马克斯集群= 10;(e)可怜的结果:地区”,“FCM,马克斯集群= 10。

(一)

(b)

(c)

图12

代表不同隶属函数值的结果:(a),,。这些值是在这项研究中使用,因为它们提供了一个良好的平衡消除异常值和高集群的密实度;(b),,。没有使用这些值,因为低,noncompact集群(降低个体,,或值给类似的结果);(c),,。没有使用这些值,因为太多的点(提高个体,,或值给类似的结果)。

(我)圆形或接近的“云”点,(2)感兴趣的领域的一些subclustering。

理想情况下,分属于一个定义良好的感兴趣的领域分为二类,而随机的点云“被迫”子集将落入我类。

大多数的传统G-K和FCM结果落入类我,因为他们被迫考虑subclusters可用(参见图的最大数量11 (e))。然而,一些数据集与图11 (b)低,表现出一个清晰的线性特性如图8(一个)和8 (b)。不幸的是,其他两个线性特性和圆特性在这个数据集不显示为明显。这最有可能是由于磁强计的读数之间的密切相似周围的土壤和特性。比较数据时可以看到相似的结果11 (d),8 (c),8 (d)。可以看到开始的线性特性从顶部中心左下角和右上角的圆形特征的网格。

4.3。模糊聚类和初始化

除了算法用于集群数据的类型,有参数,可以修改影响分析的输出:模糊性指数和集群的初始化中心。参数““(有时””)控制结果的模糊性可以使用集群和集群数据集与重叠点集(6),在大多数情况下,设置为2.0。使用实验数据集作为审判,模糊性指数被改变为每个不同的聚类算法,从1.0到5.0不等。数据集的测试,有结果输出的差异非常小。表8显示了输出的细微差异在各种值””的FCM算法。另一个算法表现出相似的模式;因此,它被认为,对于这些数据,模糊性参数没有产生重大影响,所以在其默认值,使用2.0。


fcm ()	fcm ()	fcm ()	fcm ()	fcm ()

12.38,71.54	12.90,72.60	13.06,72.60	13.14,72.34	12.42,71.02
21.74,45.68	35.64,53.60	35.52,54.31	35.35,54.89	34.76,55.05
20.13,57.09	20.32,57.80	19.75,57.93	19.48,57.87	19.15,57.39
35.09,53.18	21.09,45.78	21.02,45.74	20.98,45.77	20.93,46.03
11.56,52.02	12.27,53.24	13.18,52.85	13.73,52.60	15.27,53.38

其他参数,可以对结果有影响集群的初始条件是每个集群中心;然而,在这项研究中,每一个算法的初始分区矩阵随机启动,消除这作为一个可能的因素。

4.4。专家意见

当专家咨询结果这些非最优聚类结果所示,总体感觉是积极的。尽管缺乏任何明确subclusters(数字10 ()和10 (b)),软件被认为是提供结果,没有比传统的地球物理项目。从传统程序的输出显示了每个数据点的灰度,添加颜色产生的情节可以帮助研究者更好地了解感兴趣的区域可能在范围之内的。当没有利益存在的特点,如数字10 ()和10 (b),程序显示缺乏特性非常明确的方式;当功能存在如图11,聚类算法已被证明能够清楚地识别感兴趣的区域(数据11 (b)和11 (d))。算法的主要问题,有了这个设置,没有办法提取的所有特性没有高估点数据集的数量;然而,这个问题将在未来解决的软件版本。

5。结论和未来的工作

虽然这些算法可以应用在许多不同的情况下,本研究中使用的软件是专门为这个应用程序,所以才会在其他情况下有限的效用。与任何科学的努力一样,有许多不同的方法,可以用来隔离在这个研究的数据。作者选择了算法由于其良好的记录和广泛接受;不过,还有别的选择,可以考虑。例如,通过朋友et al。16和杨、吴17)扩大传统模糊c均值算法通过添加不同的聚类方法,隶属度函数和聚类有效性指标。这些算法的复杂性妨碍它们包含在当前的工作,但为了扩大这个项目其他的效用问题类型,其包含在未来的版本中可能会被批准。

最初,它是发现,这里给出的聚类方法适用于数据集与重叠subclusters,即费雪的虹膜数据。当运行noniterative测量像FCM或G-K subclusters正确的数量,结果表明,集群的方法传统意义上被认为是适当的中心和分区。这是验证使用的原始数据从费雪的工作。

其次,它发现一个迭代算法的结果与越来越多的subclusters同意[中给出的结果6];即随着集群重叠的增加,模糊超体积测量往往提供理想的结果相比,要么density-based性能的措施。这是显示在表2。由于这一事实,结果如图11 (b)应采取一些预订,因为他们可能会反映出一些表现不佳;然而,兴趣在地球物理数据的特点往往是分离和不展览重叠出现在虹膜数据,所以模糊超体积测量的表现不佳可能没有那么大的一个因素。这个问题确实需要进一步研究纳入单独的软件包之前。

总的来说,结果表明,模糊聚类技术适用于地球物理数据收集使用技术,如磁力测定,地下特征识别的目的。这里给出的算法只代表一小部分可用的类型的集群,并都有改进的余地。同时,结果表明,模糊隶属度函数适用于这个领域自模糊会员截止方法提供更少的离群点和更少的整体比脆点截止方法类似的值的范围。最后,一个版本的“争议”虹膜数据提出了一直独立消息来源的证实,以消除混乱这个数据集的不同版本之间的文学和统一基准测量比较三种算法进行了讨论。

之前还有许多工作要做,有一个独立的软件可以完全分类的特征对磁力仪扫描的兴趣。然而,作者认为,当前系统的承诺。这种感觉的主要原因是结果如图11 (b)。最低的线性特性是确定没有很多额外的异常值。第一个主要的垮台,可以明显看到,过多的噪声和离群点的图。可以解决这个问题的两种不同的方式:调整阈值的隶属函数值,或创建额外的隶属度函数由一个模糊推理系统(FIS)识别哪些点是感兴趣的,哪些是噪声不仅基于磁强计读数,还在接近其他点。这个FIS作为先发制人的集群或最近邻居算法。这将有助于消除异常值,可能减少计算时间,并增加不同集群之间的分离,导致一种改进的结果。

第二个主要的缺点是截然相反的。即感兴趣的特性也有磁强计读数类似于周围的矩阵读数。这导致其他有趣的点不确定,都是这样的例子打火机点的垂直条纹图8 (c)和8 (d)。确切的原因并不是光部分的专家,但很明显引起的线性特性的软件。相信这个问题的一个原因是,在这种情况下使用的算法是无监督。添加一些类型的误差反向传播或运行平均磁强计读数可能进一步改善结果。使用平均磁强计阅读可以帮助系统自动识别真正的感兴趣的特性是什么,什么不是通过选择点的磁强计值超出扫描的均值的标准差。这将有利于新型土壤类型或以前没有扫描区域,因为截止值有点主观。它还可能帮助消除这一问题讨论了有关扫描不可预见的变化特征。

通常发现,由于地球物理数据的本质(圆和线性特性混合在一起),模糊c Gustafson-Kessel是可取的,因为它被设计为处理两个子集的类型。同时,使用迭代方法是可取的,因为大多数非专家将很难决定哪些是,哪些不是自己感兴趣的,但将使用软件来确定什么是值得进一步研究;已经说过,这也是明智的高估集群的最大数量可能为了避免错过感兴趣的特性由于算法的本质。最后,因为在地球物理领域的数据常常分离,使用模糊超体积性能措施不会导致重大问题,因为它将在数据集重叠subclusters、虹膜等数据。集群的最大数量高的迭代算法,使用模糊超体积性能测量似乎提供优质的整体检测功能,为地球物理数据的类型进行了分析。

附录

的隶属函数是基于柯西分布的扩展函数(见(. 1))。各种组合的gbellmf隶属函数参数进行最优性能测试。本研究使用的参数(]。其他组合都试过但被忽视,因为他们左点考虑太多或太少(见图12)

确认

该项目资金是由内布拉斯加州烟草和解提供生物医学研究发展基金。美国鱼类和野生动物服务,地球观察研究所,国家公园管理局为考古资料的收集提供了资金。作者要感谢Dipika辛格为她帮忙组装各种为本文算法脚本和评论者的洞察力的评论。

引用

m·j·艾特肯物理和考古学、跨学科、纽约,纽约,美国,1961年。
a·j·克拉克,看到下面的土壤:考古勘探方法,t . Batsford,伦敦,英国,1996年。
k·l·凯瓦米“地球物理调查为景观考古学”,美国的古代,卷68,不。3、435 - 457年,2003页。视图:谷歌学术搜索
洛杉矶德,“模糊集”,信息和控制,8卷,不。3、338 - 353年,1965页。视图:谷歌学术搜索
r . Babuska模糊建模的控制,Norwell Kluwer学术出版商质量,美国,1998年。
即迦特和a . b . Geva“无人监督的最优模糊聚类,IEEE模式分析与机器智能,11卷,不。7,773 - 780年,1989页。视图:出版商的网站|谷歌学术搜索
j·c·邓恩,“模糊ISODATA过程及其使用的相对检测集群紧凑布置得井然有序,“《控制论,3卷,不。3,32-57,1973页。视图:谷歌学术搜索
j . c . Bezdek模式识别与模糊目标函数算法,Norwell Kluwer学术出版商质量,美国,1981年。
d . e . Gustafson和w·c·凯塞尔,“模糊聚类与模糊协方差矩阵,”《IEEE会议决定和控制中心的78),页761 - 766,圣地亚哥,加利福尼亚州,美国,1979年。视图:谷歌学术搜索
e·安德森,“加斯珀的虹膜半岛”《美国社会虹膜卷,59个2 - 5,1935页。视图:谷歌学术搜索
r·a·费雪”,使用多个测量数据的分类问题,”优生学的年报7卷,第188 - 179页,1936年。视图:谷歌学术搜索
j . c . Bezdek j·m·凯勒r . Krishnapuram l . i Kuncheva n . r .朋友,“真正的虹膜数据能站起来吗?”IEEE模糊系统,7卷,不。3、368 - 369年,1999页。视图:出版商的网站|谷歌学术搜索
d . b . t . w . Cheng Goldgof, l . o .大厅,“快速模糊聚类,模糊集和系统,卷93,不。1,49-56,1998页。视图:谷歌学术搜索
t·j·罗斯,模糊逻辑与工程应用新泽西州霍博肯市约翰·威利& Sons,美国,2004年。
j . c . Bezdek e·c·k·曹,n . r .朋友“模糊Kohonen集群网络”《IEEE国际会议上模糊系统,第1043 - 1035页,1992年。视图:谷歌学术搜索
n . r .朋友k .朋友j·m·凯勒和j·c . Bezdek”可能主义的模糊c均值聚类算法”,IEEE模糊系统,13卷,不。4、517 - 530年,2005页。视图:出版商的网站|谷歌学术搜索
M.-S。杨和K.-L。吴,“无人监督的可能性聚类”,模式识别,39卷,不。1,5 - 21日,2006页。视图:出版商的网站|谷歌学术搜索

应用计算智能和软计算

文摘

1。介绍

2。聚类方法

2.1。模糊c均值

2.2。Gustafson-Kessel算法

2.3。迭代Gustafson-Kessel

2.4。实验装置

3所示。费雪的虹膜数据

4所示。聚类地球物理数据

4.1。模糊与清晰截止

4.2。最大的集群

4.3。模糊聚类和初始化

4.4。专家意见

5。结论和未来的工作

附录

确认

引用

版权

更多相关文章

相关文章