文摘
聚类算法是一种重要的机器学习领域的研究主题。Neutrosophic集群是模糊聚类的泛化和已被应用于许多领域。本文提出了一种新的neutrosophic聚类算法和正则化的帮助。首先,正则化项引入FC-PFS算法生成稀疏,这可以降低算法的复杂性在大型数据集。其次,我们提出一个方法来简化确定正则化参数的过程。最后,实验表明,该算法的聚类结果人工数据集和真实数据集大多比其他聚类算法。我们的聚类算法在大多数情况下是有效的。
1。介绍
随着信息技术的不断发展,互联网上的数据维度呈指数增加。例如,维度的各种文档、多媒体和基因表达数据可以达到数十万。面对这些数据,学者们提出了许多数据处理方法(1- - - - - -3]。
1965年,Zedah [4)提出模糊集的概念。模糊理论应用在许多领域,如多属性决策(5- - - - - -7),图像处理8),而聚类分析(9]。特别是,模糊聚类在过去的几十年里取得了相当大的进展。基于模糊集,FCM (10)算法。聚类结果的质量是好的,但仍存在一些问题的不确定性问题。因此,近年来,学者们致力于提出各种方法来改善模糊c则算法的各个方面。黄(11)等人结合了二型模糊集与FCM聚类算法(T2-FCM)和对不确定性影响最终的类c分类。琳达(12]等人改进了一般二型模糊集的模糊c均值算法(GT2-FCM)通过表面α表示定理,介绍了歧义在语言方面,和语言的不确定性转变成不确定的模糊的位置提取的集群。该算法(12适用当有噪声样本或训练样本不足。T2-FCM和GT2-FCM算法改进的模糊c均值算法的不确定性。
1986年,Atanassov [13提出了直觉模糊集的概念,解决了传统模糊集的一些缺点,并处理不确定信息的能力更强。Chaira [14]等人直觉模糊熵引入传统的模糊c均值算法和新算法用于集群CT脑扫描部分的图像,可以识别大脑异常。Bukiewicz [15)等人介绍了一个变量来处理不确定性和直觉模糊集之间的相似度量模糊c均值算法,提出了一个数据集基于直觉模糊集理论的模糊聚类方法。赵(16)等人构建相应的λ切割矩阵通过计算直觉模糊集上的相关系数,然后聚集在切割矩阵。Cuong [17]提出的概念图片模糊集(PFS),这是一个直接的扩展一个模糊集和直觉模糊集。丁字裤(18)提出了一个基于图像模糊集的图像模糊聚类算法。提出的算法在文献[14- - - - - -18)有更好的聚类性能比传统的通用算法,但它们在应用程序中有一定的局限性。生成的会员矩阵没有稀疏,这将增加的计算量。
针对直觉模糊集的限制,Smarandache [19提出了neutrosophic集理论。描述的基本理念是,一切都可以在三个程度的真理,不确定性和失真。每个对象有三个程度的隶属函数。每一个成员函数属于标准和非标准的子集 。neutrosophic集理论不仅可以更好的描述不确定性的问题解决存在的问题,应用模糊理论。因此,学者们做了深入研究neutrosophic组(20.- - - - - -24),提出了许多neutrosophic聚类算法。你们(25)提出了一种单值neutrosophic最小生成树聚类算法(SVNMST),它显示了巨大的优势单值neutrosophic观测数据的聚类。同年,你们(26]提出的单值neutrosophic聚类方法基于单值neutrosophic集之间的相似度量(SVNSs)。郭(27]提出neutrosophic c均值聚类算法(不合格品)。两种算法可以计算确定性和不确定性,以及隶属函数不受噪音的影响。如今,neutrosophic集群已经被应用于许多领域,如图像分割和生物学(28- - - - - -32]。PFS是一种标准化的neutrosophic集。FC-PFS算法提出了(18)实际上是一种neutrosophic集算法类型。然而,该算法需要计算三个矩阵相同的规模,和会员矩阵不是稀疏,这在一定程度上影响集群效应。
为了解决上述问题,本文提出了一种新的算法稀疏neutrosophic模糊聚类算法SNCM(行业纠纷)。主要的思想是将正则化项引入FC-PFS算法。新算法可以产生稀疏,因为它减少了样本的特征值向量的个数。SNCM因此,行业纠纷减少了模型的复杂度。实验表明,该算法的性能优于其他聚类算法。实验结果产生一个加入稀疏矩阵,它反映了该算法的有效性。本文的其余部分的具体安排如下。
第二部分介绍了相关的基本概念和算法,第三部分提出了本文提出的新算法和解决方案过程中,第四部分通过相关实验证明了该算法的有效性,和第五部分给出了相关结论。
2。相关的算法
本文包含的数据集n数据点,每个点都是一个d维特征向量;聚类的目的是获得c集群。以下介绍一些FCM聚类算法和FC-PFS。
2.1。FCM算法
1984年的FCM算法是一个非常著名的算法。不仅用于模糊工程也在医学诊断和通信领域的流行。FCM算法将每个数据点到一个特定的集群 , 意味着我th数据点属于会员的价值jth集群。集群的集群中心表示为 ,和FCM算法的目标函数 在哪里米是一个模糊参数的约束条件公式(1)如下:
使用拉格朗日乘数法、迭代法获得的隶属度和聚类中心:
直到迭代的数量达到最大值 ,迭代终止,和的目标函数值吗t和t−1迭代,终止阈值,通常的范围(0,0.1)。根据模糊隶属度,如果 ,然后分为jth集群。它可以证明该算法最终收敛于局部最优或目标函数的鞍点。
2.2。FC-PFS算法
定义1。照片的模糊集非空的集合X是 在哪里的程度的积极会员吗在一个,是中性的成员的程度x在一个,程度的负面的会员吗x在一个,它满足下列条件: 拒绝程度的计算为一个元素
定义2。X是一个对象(点),x是一个元素X,neutrosophic集一个在X可以表示为
在哪里事实是隶属度,是不确定隶属度,是虚伪隶属度,属于标准的和非标准的子集
,也就是说,
。因为没有限制的总和
,有
。
从上述两个定义,可以看出图片模糊集的标准形式实际上是neutrosophic集。因此,丁字裤和儿子提出的FC-PFS算法是基于neutrosophic集。算法的目标函数
其中,
,
,和是真正的隶属度,拒绝隶属度,和中立的数据点的隶属度属于j分别th集群。公式的约束(8)
使用拉格朗日乘数法,采用迭代法获得的更新公式
,
,
,和
:
迭代终止,直到迭代次数达到最大或
。
3所示。稀疏Neutrosophic聚类算法
3.1。确定目标函数
在传统的k——集群、会员矩阵的每一行U包含一个1,剩下的c−1元素这一行是0,所以行之和U是1,每一列代表和采样点的数量在每个集群,以及模糊c算法则需要选择合适的模糊程度米。不同于上述三种聚类算法,该算法在本文中放松的每个元素U负的值小于1在约束条件下,预设模棱两可米=1。我们的目标是得到一个稀疏U,所以我们引入正则项新算法的目标函数:
上述公式满足以下约束条件:
我们可以看到,如果样本点分为单个集群,= 1。否则,它是一个负的值小于1。
稀疏的新算法认为每个样本点的隶属度分配到不同的集群在聚类过程中。的过程中尽量减少方程(11),每个部分的重要性是控制的参数 。如果参数为零,每个样本的会员向量不是稀疏。如果参数大小不断调整,成员的稀疏向量也将改变。随着参数逐渐增加,成员向量包含越来越多的非零元素。当达到最大值时,会员向量的所有元素不为零,和会员向量nonsparse。因此,该参数控制成员的稀疏向量。我们会给一个方法来确定合适的参数在随后的部分来获得更准确的聚类结果。
3.2。该模型和解决方案
使用交替迭代法解决上述模型。首先,解决变量 找到集群中心V。的导数(11)V是
通过考虑 ,我们有
解决U与固定V,ξ,η。为了方便的解决方案,我们进行以下变形的目标函数: 在哪里 是一个矩阵的元素年代,是我th行矩阵年代, 是一个距离矩阵的元素D为每一个 ,问题(17)可分为n子问题:
然后,(18)写在下列向量形式:
通过求解问题(19)的解决方案年代可以获得,更新公式U可以进一步获得
过程问题的具体解决方案(19)是在3.3节。固定的变量 ,使用拉格朗日乘子方法来解决 :
我们使用的函数l获得使它等于零,
最后,使用类似的技术狙击兵的33生成运营商,我们修改直觉模糊集的犹豫 获得的价值元素排斥度代替 与 ,如下:
3.3。优化的方法
在具体实践中,正则化参数的问题(19)是很难确定的,它的值可以从零到无穷大。在本节中,一个方法来确定正则化参数是给定的。问题的拉格朗日函数(19)是 在哪里和大于零,拉格朗日乘数法。
根据马条件,如下形式的最优解
在实践中,如果我们专注于数据的位置,通常我们可以获得更好的性能。因此,最好是学习稀疏 。学习稀疏矩阵的另一个优势年代是它可以大大减少后续处理的计算负担。不失一般性,它是假定 从小型到大型进行排序。如果最优只有k非零元素,然后根据方程(30.),我们知道 和 。所以,我们有
根据方程(30.)和约束 ,我们有
因此,为了获得问题的最优解(19)和精确k非零值,我们可以做
的平均 ,计算公式如下:
方程(35)给出了一个方法来确定正则化参数。
3.3.1。稀疏Neutrosophic聚类算法
(我)输入:数据集X数量的集群c和参数和k(一)初始化:设置t=0,随机初始化满足约束条件(12)(b)设置迭代:(2)为我=1、2、…maxSteps做(c)更新V(3)计算 由方程(16)(d)更新U(iv)为j= 1,2,…n做(v)计算年代由方程(36)(vi)结束了(七)通过求解问题(19),计算 由方程(18)(e)更新(八)计算 由方程(27)(f)更新(第九)计算 由方程(28)(g)迭代的跳出来创造条件 或 (x)结束了(十一)输出:聚类结果y下面,我们分析了算法的复杂性。首先,我们分析算法的时间复杂度。从算法的步骤,算法的基本句子的循环体算法迭代计算变量,计算循环体u是嵌入式的,所以算法的时间复杂度是什么O(nt),t迭代次数和吗n采样点的数量。其次,分析算法的空间复杂度与数据规模,因此,空间复杂度O(纳米),n采样点的数量,米是一个维度。
4所示。结果与讨论
为了验证SNCM聚类算法的可行性行业纠纷提出本文选择经典的聚类算法:FCM (10),K——(34],Ncut [35],Rcut [36FC-PFS],一个有效的基于数据的聚类方法不确定性在neutrosophic域(INCM) [37),因为比较算法。等多种评价指标准确性(ACC)和归一化互信息(敝中断)是用来评估聚类结果。
在参数方面,由于不稳定的K则,FCM和FS-PFC,平均的方法是采用50分。Rcut和Ncut,实验使用广泛使用的自调优高斯方法构造关联矩阵(自调优值)。以0.9为FC-PFS算法的参数。INCM算法中的参数值的最佳值在文献[37]。SNCM参数行业纠纷算法0.9,参数的值k主见,maxSteps是1000。
在实验环境方面,本文所有实验环境是Microsoft Windows 10系统,处理器是英特尔(R)的核心(TM) i5 - 7200 u杯@ 250 GHz 2.70 GHz, 8.00 GB内存,使用MATLAB R2016a编程软件。
4.1。SNCM算法描述
首先,我们SNCM说明该算法的流程行业纠纷集群WBC数据集;在这个时候,n=683年和c=2。最初的成员资格矩阵,矩阵的不确定性,和拒绝矩阵如下:
根据这些初始化数据点的分布如图1(一)SNCM的行业纠纷算法用来计算集群中心使用方程(19):
(一)
(b)
(c)
然后,我们计算新会员矩阵,矩阵的不确定性,和拒绝矩阵:
根据上述矩阵,计算值 大于 ,因此迭代步骤将继续。图1 (b)第一次迭代后显示集群的分布。
通过类似的过程,我们继续计算集群中心,隶属度矩阵不确定性程度,和拒绝,直到满足停止条件。最后的隶属度,犹豫程度,和拒绝程度矩阵如下:
最后计算集群中心表示如下,和集群和集群中心的分布如图1 (c):
4.2。稀疏的验证
首先,实验是利用人工进行聚合数据集和真正的葡萄酒数据集。聚合数据集组成的一个数据集的788二维数据点。葡萄酒数据集组成的一个数据集3 178十二数据点的集群。的参数k满足 。这个实验的目的是显示会员SNCM矩阵生成的行业纠纷算法稀疏而FCM算法。由于大量的采样点,它是不方便的身份完成矩阵在本文中,我们选择一些采样点显示。表1- - - - - -4SNCM会员矩阵结果的行业纠纷算法和FCM算法对两个数据集。从实验结果可以看出SNCM的行业纠纷算法有效地降低了模型的复杂性。
接下来,我们对人工执行的实验数据集,数据2(一个)和2 (b)显示分布的两个数据集,数据集(a) (b)有四个集群和数据集有三个集群。使用该算法进行聚类,聚类结果和加权连接图如图2 (c)- - - - - -2 (f)。数据2 (d)和2 (f)使用最后的隶属程度作为数据点之间的连接权重和集群中心。数据点连接到集群中心。可以看出点集群紧密连接到集群中的中心和集群之间的点是分开集群中心。它是分开的,所以该算法可以有效地集群上述数据集,可以有效地将集群的几类。
(一)
(b)
(c)
(d)
(e)
(f)
4.3。真实数据集
此外,白细胞,投票,皮肤病,Dnatest,皮马人,元音,托克斯- 171和鲍鱼用于实验。这些数据集在UCI机器学习库数据集。它们覆盖各种如高维数据集的特点和低维,多个样品,和一些样品。信息的真实数据集如表所示5。
真实数据集上的实验结果如表所示6和7。折叠的数据代表最好的结果,其次是斜体。表6显示了ACC的比较不同算法在每个数据集。表7显示了敝中断的比较不同算法在每个数据集。在真实数据集的实验结果表明,相对于传统方法,对于不同的真实数据集,SNCM聚类算法行业纠纷是优于其他聚类算法在大多数情况下。因此,这也证实了SNCM聚类算法的有效性行业纠纷。
此外,SNCM ACC平均价值的行业纠纷,平均分类算法的性能是61.38%,这是高于INCM (54.02%)、FCM (53.30%)、FC-PFS (53.23%),K——(59.81%),N减少(50.72%),R减少(41.39%)。具体情况如图3。
的参数,在图4,不同的指数来验证算法,和平均聚类算法在不同指数的准确性是图表中列出。我们发现SNCM聚类质量的行业纠纷相对稳定。随着指数的增加,SNCM的行业纠纷算法的准确性也会增加。因此,实验部分的参数值是0.9改善SNCM的行业纠纷算法的聚类精度。
最后,我们测试数据集SNCM收敛的行业纠纷。结果如图所示5。SNCM可以看出行业纠纷算法可以用一些交互步骤绝对收敛。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
SNCM的行业纠纷算法提高了算法的泛化能力通过引入正则化项,这样会员矩阵稀疏,会员考虑稀疏度的计算k。与对比算法相比,在大多数情况下,该算法的结果优于对比算法。算法的实验在多个数据集也可以说明这一点,和参数k结果有很大影响。
5。结论
在本文中,我们提出了一个新颖的方法,称为neutrosophic基于稀疏正则项约束聚类算法。不同于前面的neutrosophic聚类算法,本文提出的算法可以处理模棱两可的情况米= 1,不限于的条件米> 1。此外,介绍了正则项的算法稀疏,从而降低算法的计算复杂度。此外,我们提出一个方法来简化确定正则化参数的过程,提高聚类效果。此外,大量的实验表明,该算法的聚类结果人工数据集和真实数据集大多比其他聚类算法。然而,参数k在聚类算法具有更大的影响作用。所以,在未来我们将关注这个。
数据可用性
本文的数据来自在UCI机器学习数据集图书馆和官方数据库中是可用的。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究得到了国家自然科学基金(61976130),陕西省重点研究和发展项目(2018 kw - 021)、陕西省自然科学基金(2020金桥- 923)、陕西科学技术委员会(项目号2019 krm072)。