具有自适应标签的半质量深嵌入式聚类

摘要

深度嵌入聚类（Deep-embedding clustering，DEC）由于其优于端到端聚类的性能而备受关注。然而，DEC不能利用数量不断增加的数据中包含的少量先验知识。为了应对这一挑战，提出了一种带自适应标签的半监督深度嵌入聚类算法，该算法基于少量先验知识，以半监督的端到端方式对数据进行聚类。具体来说，基于自动编码范式和深度聚类设计了一个深度半监督聚类网络，该网络通过防止DEC中标签的移动来很好地挖掘聚类表示和聚类分配。然后，训练深度半监督聚类网络的参数，基于预训练和微调策略，提出了一种带自适应标签的反向传播算法。最后，在典型数据集上进行了大量实验，从聚类精度和归一化互信息两个方面评估了该方法的性能。结果表明，该方法优于现有的DEC方法。

1.介绍

聚类作为数据挖掘和机器学习最重要的基础研究方法之一，在模式识别、图像检索、计算机视觉、社会网络分析、自然语言处理和知识发现等方面发挥着重要作用[1］.它通过探索数据的潜在分布结构将数据样本划分为模式空间中的不同类别。在过去的几十年中，已经提出了许多古典聚类算法，例如K-Means，DBSCAN，高斯混合模型，光谱聚类，基于非负矩阵分子的聚类，以及基于图形的聚类[2- - - - - -5］.近年来，随着高维数据收集量的增加，深度聚类越来越受到人们的关注。通过学习数据的低维表示，可以很好地缓解传统聚类在面对高维输入数据时的退化。例如，Lv等人[6]提出了一种基于深度特征的聚类算法，利用层叠式自动编码器提取深度文本特征。为了进一步提高高维数据的聚类性能，提出了一些将深度神经网络融合到聚类中的深度端到端聚类方法。例如，Xie等人[7]提出了一种深度嵌入式聚类算法（DEC），该算法学习数据的聚类特征，并以自学习的方式对数据进行分割。Hong等人[8]提出了mini-GCN，它可以结合CNN和GCN来提取更多的特征，克服了GCN计算量大的缺点。赵等[9从共同特征中分离了特定于观众无关信息，消除了视图中无用信息的影响。

上述方法可以很好地以无监督的方式挖掘数据模式，忽略了真实数据中的一些先验知识，这些先验知识由少量的标记数据或专家给出的成对约束表示。最近，提出了一些半监督聚类方法[10.- - - - - -13.]，利用足够的未标记数据和一些先验知识来提高聚类性能。例如，Hong等人[14.[，]提出了一种半监督深度学习框架，该框架可以从小尺度高光谱图像中学习更多有区别的信息，并将其转移到大尺度数据的分类任务中。然而，目前大多数半监督聚类都不能以强监督的方式使用先验知识，因为它们没有使用标签信息直接指导聚类中心的学习。此外，它们不能以学习聚类中心和特定聚类表示的数据驱动方式对样本进行聚类。

为了解决这些问题，提出了一种新的半监督联合学习框架，该框架通过在联合优化函数中集成少量标签信息来联合学习特征嵌入空间和聚类分配。

此外，以往的半监督聚类策略在深度嵌入聚类中不能直接使用数据标签的强监督知识，因为存在标签移位问题，聚类结果与样本的实际标签不一致。也就是说，同一类的标记样本往往分散到不正确的类中，而这种不正确的监督信息破坏了数据的模式结构，导致深度嵌入聚类性能下降。

为了解决这一难题，本文提出了一种基于投票机制的标签自适应策略。通过标签自适应策略，将聚类过程中产生的移位标签投影为赢家标签，确保在聚类过程中同一类的标签样本始终处于同一类中。因此，该策略可以通过调整聚类中心和学习特定的聚类表示，直接利用标签丢失来指导聚类过程。本文的方法在DEC的基础上进行了改进，扩展为半监督深度聚类方法。本文的贡献总结如下:(我)提出了一种新的半监督联合学习框架，该框架结合少量的标签信息，借助联合优化函数联合学习特征嵌入空间和聚类分配。（ii）提出了一种标签自适应策略来修正聚类过程中的标签偏移。该算法不仅提高了标签信息的利用率，而且有效避免了传统深度聚类算法质心由代码网络主导的潜在退化。(3)在两个图像数据集和一个文本数据集上进行了大量的实验，实验结果表明，该方法的聚类性能明显优于现有的聚类方法。

本文的其余部分组织如下：我们简要回顾了第节中的相关工作2．部分3.介绍所提出的方法的细节。部分4介绍了基于预训练和微调策略的带自适应标签的反向传播算法。部分5介绍了本文的实验细节。最后，给出了结论。

2.1。无人监督的聚类

集群研究一直受到人们的广泛关注，并得到了长足的发展。提出了许多优秀的聚类算法[15.，16.］.例如，K-means是一种经典的无监督聚类算法，其目标是最小化数据点到质心的距离之和[2］.模糊期望最大化将聚类，群集号码检测和特征选择结合到估计问题中以执行聚类过程[17.］.特征聚类哈希(Feature clustering hashing, FCH)是一种基于特征聚类的哈希方法，在保持欧氏空间相似性的前提下，生成方差均衡的低维数据[18.］.以上方法可视为基于特征的聚类算法。带边信息的距离度量学习学习一种包含给定相似度对的距离度量。学习马氏距离度量设计了一种新的距离度量函数，可以通过强制调整给定实例的距离并将其应用到新的数据中来学习马氏距离度量[19.］.贝叶斯判别模糊聚类（BDFC）设计了一种概率的无监督距离度量学习方法，可以最大限度地提高投影空间中不同簇之间的可分离性[20.］.以上方法可以看作是基于距离度量学习的聚类算法。用约束拉普拉斯秩(CLR)学习图k连接的组件（其中k是群集数量），并将数据图调整为群集过程的一部分[21］.结构双随机（SDS）通过在图的拉普拉斯矩阵上应用低秩约束来学习结构化的双随机矩阵[22]. 多视图谱聚类是一种新的多视图马尔可夫链聚类方法，它可以利用嵌入在不同视图中的互补信息[23］.以上方法可以看作是基于图的聚类算法。随着深度学习的兴起，深度神经网络在聚类中的引入受到了广泛的关注。深度聚类网络(DCN)通过同步深度学习和聚类过程找到k -means友好的聚类空间[24］.深度嵌入式聚类(Deep embedded clustering, DEC)使用自动编码器完成特征空间的转换[7]. 巧妙地，它可以同时执行特征提取和聚类分配任务。该算法取得了良好的效果，为新的深度聚类算法的性能提供了参考。改进的深嵌入聚类（IDEC）通过保留数据的局部结构来提高聚类性能[25］.结肠学习非负相关和不相关的特征（COUFC）[26]识别特定于视图特征，并消除无关信息的影响，以获得有用的面试功能相关性。

在许多实际数据中都存在一些先验信息，但上述非监督方法并没有考虑这些信息。为了充分利用标签信息，本文提出了一种新的半监督联合学习框架，将标签信息集成到深度聚类中，共同学习数据表示和聚类分配。

２.２.Semisupervised集群

半监督聚类是数据挖掘领域的重要研究方向之一。它可以利用成对约束或少量标记数据等先验知识指导聚类过程，提高聚类质量。近年来，半监督聚类方法取得了丰硕的成果。例如，半监督核均值移位聚类(SKMS)将数据点映射到高维核空间，在高维核空间中，通过映射点的线性变换施加约束[27］.半化线性判别聚类（SLDC）结合了K-means和线性判别分析（LDA），以考虑聚类和维度减少，并通过使用未标记示例的软LDA找到适当的特征空间[28］.半预测的非负矩阵分解（CPSNMF）将有限的约束信息传播到整个数据集，以获得更多监控信息，并利用该监控信息来维护数据空间的几何形状[29]. 基于半监督图的聚类（SSGC）利用k近邻图和顶点间相似性的局部密度度量，将种子集成到构建聚类的过程中，提高了聚类的质量[30.］.以上方法可以看作是利用标签信息或成对约束的传统聚类算法的扩展。相关成分分析(RCA)是一种有效的学习马氏矩阵的算法，使用约束Fisher线性判别法[31］.辨别成分分析（DCA）了解与上下文信息的最佳Mahalanobis距离测量的线性数据转换[32]. 信息论度量学习（ITML）利用多元高斯分布和马氏距离集之间的关系来学习新的马氏距离函数[33］.Bregman距离功能学习（BKM）提出了一种使用边缘信息学习非线性距离函数的新方法，该方法是使用类似于支持向量机来学习Bregman距离功能的非参数方法[34］.上述方法可以被认为是通过使用约束信息来探索新的距离度量功能。仍然有些研究工作仍用于探索半体育聚类的综合框架。例如，基于双关联传播的簇合并（AP²c）将关联传播（AP）算法和归一化切割（NCUT）算法集成到群集集成框架中[35］.它可以捕捉属性之间的关系，找到一组具有代表性的属性，并消除噪声属性。带序列约束的半监督聚类(SCSC)提出了一种高效的动态半监督聚类框架[36］.它将动态聚类过程转换为可行的聚类空间上的搜索问题，该搜索问题被定义为通过分区多个集生成的凸壳。混合半培育群集合奏（HSCE）提出了一个半体验群集集合框架，它使用基于约束的半培育群集算法和基于度量的半培育群集算法来使用成对约束或标记数据来生成不同的基本分区，然后将这些基本分区集成到集成函数获取目标群集[37］.

传统的半监督聚类算法大多在原始空间中执行，对于高维数据的聚类性能较差。因此，有必要利用深度神经网络来提高其表达能力。MDL-RS设计了一个通用的多模态深度学习框架，能够很好地嵌入多个融合模块，突破了单一模态下的性能瓶颈[38]. 深度转移半监督最大裕度聚类利用给定约束条件下的带标签和未带标签数据学习最大裕度框架下的非线性映射进行聚类分析[39］.这项工作证明，原始的深度表示确实有助于改善聚类结果。半培育的深度嵌入式群集（SDEC）在特征学习过程中包含成对约束，强制同一群集中的数据样本彼此接近，不同群集的数据样本彼此相距远远甚远[40］.

但是，由于标签换档问题，这些半质化方法无法直接使用标签信息来指导集群中心的学习。因此，本文基于投票机制设计了标签自适应策略，以纠正聚类过程中标签的传输，直接使用标签丢失来指导聚类过程并提高聚类性能。

3.具有自适应标签的半化深层聚类

本节介绍了一种带自适应标签的半监督深度嵌入聚类算法(Semi-DEC)，该算法充分利用了少量标签的先验知识。半dec由一个深度编码网络和一个半监督嵌入网络组成，如图所示1．前者使用编码器解码器范例，将高维数据传输到低维特征中。它可以很好地解决数据中的维度的诅咒。后者通过将数据分成几个组来挖掘知识模式。通过求解聚类中标签的偏移，可以更好地考虑先验知识。这两个网络的细节如下介绍。

3.1. 深层代码网络

深度代码网络旨在基于编码器解码器网络学习低维空间中数据的潜在特征[41］.即计算数据样本的隐表示，并根据这些隐表示重构数据样本，最大限度地减少原始数据与重构数据之间的损失。具体来说，给定一个数据集n点，在哪里为数据的维数，深度代码网络学习数据的隐藏表示形式如下: 在哪里是一个随机映射函数，它根据给定的概率将每个输入的某些元素设置为0。是输入的随机映射的结果吗x．和分别是重量和偏置矢量，其代表编码器网络的参数。h是隐藏的代表代表编码器功能。

获得数据样本的隐藏表示后，深度代码网络通过重建函数解码隐藏的表示，如下所示：在哪里是隐藏表示的随机映射的结果h．和为解码器函数的权值和偏置向量。t是重建的数据，以及表示解码器功能。

最后，深度代码网络使用均方误差函数来测量原始数据和重建数据之间的损失，如下所示：在哪里表示平均平方误差函数。在半央行中，深度代码网络的丢失用于预rain参数。

３．２．半监督嵌入网络

半监督嵌入网络的目的是将数据分成几组，同一组的样本之间的距离要比不同组的样本之间的距离更近。半监督嵌入网络由挖掘固有模式的无监督部分和利用少量先验知识的监督部分组成。

3.2.1。无人监督的部分

半化嵌入网络的无监督部分由KL发散测量，如下所示：在哪里问半监督嵌入网络的聚类分配是和吗P是目标分布。鉴于隐藏的表示n数据样本（是嵌入空间中数据的维度）和k集群重心，半监督嵌入网络的聚类分配表示为

目标分布定义如下: 在哪里问是由学生分布和P是正方形吗问，加强每个样本的成员资格。

3.2.2。监督部件

引入监督部门以根据小组先验知识为无监督部分的标签转移解决。它由软最大损耗函数测量，如下所示：在哪里表示通过标签自适应策略获得的临时修正标签，λ.是平衡标签丢失影响的折衷参数，表示通过集群分配获得的标签，和是否有某个样品是否有标签的标志是通过表示的在哪里表示样本的真实标签。

最后，半监督嵌入网络的计算表示如下：该方法能有效地将少量标签的知识融合到无监督学习中。

３．３．优化

我们使用随机梯度下降（SGD）和反向传播来优化损失函数方程(11.）。值得注意的是要优化的参数有两个部分：嵌入每个数据点的特征空间以及集群中心．梯度l关于嵌入点可计算为

梯度l关于集群中心可计算为

在反向传播过程中，参数在深度编码网络中，通过向下传递梯度来更新．集群中心通过梯度更新．当连续两个迭代之间的群集分配小于时，聚类过程将终止或者达到最大的训练次数。

4.半DEC的反向传播算法

在本节中，引入反向传播算法来训练半DEC的参数。它由两个步骤组成，即无监督预训练步骤和半监督微调步骤。下文详细介绍了半DEC的反向传播算法。

4．1.无监督的预训练步骤

无监督预训练步骤采用编码器-解码器范式学习数据的广义特征，采用K-means聚类方法探索隐藏在数据中的质心。

具体来说，给定一个数据集n点X和一个深度的编码器网络米图层，无监督的预测步骤将深度编码器网络的每层基于方程式模型为AutoEncoder（1) (4）为了获得深度代码网络的预先预测参数。例如，每个原始样本在数据集中输入到第一个隐藏图层的autoencoder中，获取隐藏的表示输入到第二个隐藏层的自动编码器中。在以相同的方式初始化每个隐藏层之后，通过最小化重建损失，以端到端的方式重新训练整个网络。

然后，原始数据X被深度代码网络映射到潜在特征空间，得到隐藏的表示Z．K-means群集是在隐藏的表示上进行以获得初始质心。

4.2. 半监督微调步骤

在获得预先训练的深度码网络和初始质心后，根据损失函数方程(11.)解决无监督学习中标签的移位问题。具体来说，考虑到原始数据X， Semi-DEC构造样本标签符号列表，如式(10.). 然后，假设标记样本的数量为，它收集了每个时代标签的数据分发的统计数据如下：在哪里，，…,表示标记数据的分配标签及其值范围为1到k．最后，时间标签，，…,被纠正到数字最大的标签。

数字2是标签自适应策略的一个例子。对于具有类别标记数据的子集o，我们假设在群集分配后，大多数样本被分配给类别j还有一些样本被分配到其他类别，比如年代和U．这里，o，j，年代，和U分别代表不同的类别。通过投票机制，我们认为j具有最多数量的样本是集群分配中该子集的正确结果。然后，我们可以纠正在这一轮计算中不正确的群集的样本，即，使它们更接近类别j．自适应标签算法介绍如下:第1步：半DEC收集每个群集的标签分布基于半监督嵌入网络的输出在每一个时代。同时，具有最大数量的标签被动态视为正确的标签。步骤2:Semi-DEC通过统计标签分布情况对错误标签进行纠正。第3步：SEMI-DEC计算根据等式（）错误标记的那些样本的丢失（9）纠正网络的参数。第四步:半dec对深度码网络和半监督聚类网络的参数进行微调，找到最终的分配策略。

在所提出的标签自适应策略的帮助下，通过投票机制对聚类过程中被错误划分的标签数据进行纠正，通过强制具有相同标签的数据在同一个聚类中，有效地解决了标签移位问题。换句话说，这种标签自适应策略在聚类分配和特定于聚类的特征学习中保留了数据结构。半DEC反向传播算法的总体步骤如算法所示1．

	输入：训练数据集，群集数量k，迭代的最大值和训练阈值。
	输出：群集分配问，集群质心，以及非线性映射．
	开始
	预付费计算：
	构建深度代码网络。
	根据正态分布初始化网络参数。
	基于去噪的自动化策略培训每层深度码网络。
	以端到端的方式连接每个预制层和微调网络参数。
	利用预先训练的深度编码网络将原始数据映射到潜在空间以获取特征．
	使用k均值初始化质心基于特征．
	使用自适应标签进行聚类计算：
	使用方程式（7)和(8)来计算集群分配问和目标作业P.
	计算．
	使用等式（10.）用于构建标签列表。
	基于自适应标签算法动态纠正标签。
	根据公式(11.）。
	更新网络参数和质心。
	终点

5.实验

在本节中，对几个代表性数据集进行了广泛的实验，以评估半北部的性能。首先介绍我们实验中使用的数据集。然后，提出了若干最先进的聚类算法和评估度量。最后，详细说明了实施和实验结果。数据集的详细信息如表所示1．


数据集	样本	维	班级

MNIST	70000	784.	10.
美国邮政总局	9298	256	10.
Reuters-10k.	10000	2000	4

5.1。数据集

5.1.1。MNIST

MNIST数据集由70000个手写数字组成像素大小。在实验中，每个图像被重塑为784维的向量。

5.1.2中。美国邮政总局

USPS数据集由9298个手写数字组成像素大小。图像分为10个类别，训练集大小为7291和2007的测试集大小。

5.1.3。Reuters-10k.

在原始路透社数据集中，有大约810000英国新闻故事标记为一个类别。四个根类别如下：使用标签的公司/工业，政府/社会，市场和经济学，以及具有多个标签的所有文件都被进一步排除在外。我们在2000年最常用的单词上计算了TF-IDF功能来表示所有文档。随机采样10000个样本的子集，称为REUTERS-10K。

5.2。比较的方法

为了验证所提方法的有效性，使用了几种最先进的算法作为比较方法。以下是这些算法的摘要。

5.2.1。k均值

k-means是一种传统的无监督聚类算法[2］.它指导数据集的划分K基于最小化数据点与质心的距离之和的原理的类。

5.2.2。12月

深度嵌入聚类（DEC）是一个深度无监督的聚类算法[7］.它利用自动编码器对原始数据进行特征变换，然后在特征空间中进行聚类处理。

5.2.3。宽带运

深度聚类网络（DCN）是一个深度无监督的聚类算法[24］.它将AutoEncoder与K-means结合起来，提出了一种共同优化重建损失和K均值损耗的算法。

5.2.4。IDEC

改进的深度嵌入聚类（IDEC）也是一个深度无保化的聚类算法[25]. 这是对DEC的改进，增加了局部结构保护。

5.2.5。SMKL

自加权多核学习（SMKL）是一种传统的半体验群集算法[13.］.它构建了最佳内核，并自动为每个内核分配最佳权重。

5.2.6。SDEC

半质化的深度嵌入式聚类（SDEC）是一种深度半化聚类算法[40］.在特征学习过程中引入了成对约束。

5.3。评价指标

利用聚类精度(ACC)和归一化互信息(NMI)来评价该方法与其他比较算法的性能，这些算法在聚类任务中得到了广泛的应用。ACC和NMI的取值范围为0 ~ 1。两个指标的值越大，表明聚类结果越好。

行政协调会的定义如下: 在哪里N为样本数，是真正的标签，是由算法产生的群集分配标签，以及k范围覆盖集群和标签之间所有可能的一对一映射。

NMI的定义如下：在哪里一个是否设置了真正的集群，以及B为预测的聚类集。是相互之间的信息吗一个和B．H（一个),H（B）表示熵一个和B．

5.4. 参数设置

深码网络的编码器层结构设置为d-500-500-2000-10用于所有数据集，其中d是输入数据的维度。所有图层都完全连接，并且所有内层（输入层，嵌入层和输出层除外）由Relu非线性函数激活。在自动化器网络的预先预订和微调期间，我们使用与DEC中相同的参数设置，以确保改进实验结果是本文提出的方法的贡献。

对于每个数据集，监视器信息列表一个是根据数据集中是否存在标签信息动态生成的。列表的长度与每次获取的数据批的大小一致，如果数据点有实标签，则对应的元素值为1，如果没有标签，则为0。SGD的学习率为0.01。收敛阈值设置为0.1%。经过实验测试，得到了权衡参数λ.标签损耗设定为0.2（这通过{0.01,0.02,0.05,0.1,0.2,0.5,1.0,2.0,5.0，5.0}中的网格搜索确定。对于所有算法，我们设置了群集号码k作为基础真理类别的数量。我们独立运行每个算法10次，并报告平均结果。

5.5。实验结果

本节展示了三个代表性数据集上比较方法的结果。详细地说，是表格2和3.分别以ACC和NMI报告结果。标记数据的百分比为30%。在这两个表中，性能最好的结果以粗体突出显示。由此可见，本文提出的方法优于目前最先进的方法。


方法	MNIST	美国邮政总局	Reuters-10k.

k - means	0.5298	0.6567	0.5162
12月	0.843	0.7408	0.7369
宽带运	0.811	0.73	0.7505
IDEC	0.8806	0.7605	0.7564
SMKL	0.783	0.6819.	0.7203.
SDEC	0.8611	0.7639	0.6937
半央行	0.9648	0.8609	0.9176


方法	MNIST	美国邮政总局	Reuters-10k.

k - means	0.4974	0.62	0.4932
12月	0.8372	0.7529	0.4976
宽带运	0.757	0.719	0.4106
IDEC	0.8672	0.7846	0.4981
SMKL	0.6842	0.7105	0.4076.
SDEC	0.8289	0.7768	0.4762
半央行	0.9457	0.8654	0.7642

具体而言，与传统的K-Means和SMKL方法相比，该方法可以通过深度代码网络学习更多代表性能力的特征。此外，K-Means是一种无人监督的方法，它不能利用聚类过程中的标签信息，进一步导致性能的降低。虽然DEC，DCN和IDEC也利用了数据的深刻特征，但它们忽略了隐藏在少量标签数据中的信息，从而产生比所提出的方法更低的性能。SDEC使用成对约束来指导群集过程，属于监督信息的利用薄弱。通过标签自适应策略，我们可以直接使用标签丢失，这是强烈使用标签信息。这也是我们所提出的方法的关键。

为了进一步说明所提出的方法的优越性，我们还可以在图中的培训过程中可视化聚类结果3.．我们在每个数据集中随机选择1000个样本，并绘制潜在表示Z进入二维空间。从聚类结果的变化趋势可以看出，随着训练次数的增加，不同聚类中的样本变得更容易区分，同一聚类中的样本也变得更接近。这表明所学习的特征空间更适合于聚类任务，也证明了标签自适应策略可以有效地指导特征空间的学习和聚类分配。

此外，为了评估先验知识对Semi-DEC性能的影响，将标记训练样本的无线电频率从1%提高到50%。每次实验进行10次，平均结果见表4. 和桌子5给出了相同网络结构与Semi-DEC产生的分类精度结果。


数据集	1％		2％		5％		10％		20％		30％		40%		50％
数据集	ACC	敝中断	ACC	敝中断	ACC	敝中断	ACC	敝中断	ACC	敝中断	ACC	敝中断	ACC	敝中断	ACC	敝中断

MNIST	0.809	0.774	0.815	0.783	0.843	0.828	0.886	0.881	0.920	0.916	0.965	0.946	0.965	0.949	0.975	0.952
美国邮政总局	0.748	0.755	0.758	0.776	0.776	0.784	0.787	0.807	0.805	0.847	0.861	0.884	0.884	0.881	0.885.	0.878
Reuters-10k.	0.751	0.506	0.758	0.519	0.769	0.554	0.795	0.586	0.863	0.68	0.918	0.764	0.954	0.829	0.956	0.831


数据集	MNIST	美国邮政总局	REUSTERS-10K

平均ACC	0.972	0.931	0.949

如表格所示4和5和图4，有两个观察结果。首先，随着标记样本的数量增加，ACC和NMI结果在所有三个数据集中变大。特别是，ACC和NMI分别在MNIST数据集上分别达到97.5％和95.2％，具有50％标记的训练图像。其次，SEMI-DEC的集群ICC与50％标记数据的数据集大致等于三个数据集上的分类ACC。这些观察结果表明半北部的表现优惠。

（一种）

（b）

(c)

为了进一步测试本文的方法，我们在许多方面进行了实验，包括不同比例的标记数据对性能的影响，损失函数和准确性的变化过程以及权衡参数的效果λ.关于聚类性能和运行时间分析。

具体地，关于不同比例的标记数据对性能，图的影响4显示了MNIST、USPS和REUSTER-10K数据集上聚类结果的准确性趋势。虚线表示在同一网络架构下，使用Semi-DEC通过多次实验获得的分类精度结果。可以更直观地显示，随着标记数据比例的逐渐增加，在MNIST和REUSTER-10K数据集中，半DEC的效果可以接近分类效果。虽然USPS数据集的聚类效果与分类效果仍有一定差距，但距离不远。

图中记录了loss function和accuracy随训练次数增加的变化过程5．可以看出，在达到一定数量的迭代之后，损耗值和精度趋于稳定，这也是本文中该方法的鲁棒性的证据。

（一种）

（b）

(c)

来看看权衡参数λ.在本文中，我们通过在[0.01,5.0]范围内采样，在三个数据集上进行了实验。图形6给出了结果。如图所示，我们的方法在广泛的范围内运行稳定λ.．主要原因是，在这种情况下，半体验损失占主导地位。什么时候λ.为0.2时，性能渐近最优。

（一种）

（b）

(c)

关于运行时间，数字7记录了我们方法与DEC的运行时间比较，由于本文方法是在DEC的基础上进行的进一步研究，可以看出，本文方法在训练过程中消耗的时间比dec要多。这是因为加入了标签自适应策略，需要计算标签损耗。但我们认为有限的训练时间是值得的，因为我们的表现有了很大的改善。

（一种）

（b）

(c)

6。结论

在本文中，提出了一种具有自适应标签的新型半化深嵌入式聚类方法，以便在先验知识的帮助下共同学习群集表示和数据分配。提出了深度半化的聚类网络，以及标签自适应策略，可以通过使用现有的标签信息直接指导聚类过程。此外，旨在学习更强大的深度表示和更准确的集群中心的KL发散损失和标签损失的联合优化。MNIST，USPS和REUSTER-10K的实验结果表明本文提出的方法在ACC和NMI中取得了显着的性能改善，证明了该方法的有效性。将来，将探讨在深嵌入式群集中使用标签信息的更有效的方法。

数据可用性

我们在两个图像数据集和一个文本数据集上执行实验。使用的数据集是常用的公共数据集，其链接如下：mnist：http://yann.lecun.com/exdb/mnist/．美国邮政总局:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html.．路透社:http://www.ai.mit.edu/projects/jmlr/papers/volume5/Lewis04a/lyrl2004_rcv1v2_readme.htm.．

利益冲突

作者声明，本论文的发表不存在利益冲突。

致谢

这项工作得到了中国国家自然科学基金的支持，根据授予61672123，授予61602083，并授予辽宁省博士生科研基金（20170520425），授予Dut20Lab136的中央大学的基本研究基金，授予62002044DUT20TD107，赠送法定法律（3）100，以及中国奖学金委员会。

参考

“基于深度度量学习和图嵌入的半监督聚类算法”，《中国科学:信息科学》，2014年第4期。万维网，卷。23，不。2，pp。781-798,2020。查看在：出版商的网站|谷歌学术搜索
Lv z, H. Song, P. Basanta-Val, A. Steed, M. Jo，“下一代大数据分析:现状、挑战和未来研究课题”，工业信息学学报，卷。13，不。4，pp.1891-1899,2017。查看在：出版商的网站|谷歌学术搜索
Wang W.， Wu Y.， Tang C.， and M. Hor，“Adaptive density-based spatial clustering of applications with noise (DBSCAN) based on data，”，in chinese, 20152015机器学习与控制论国际会议论文集(ICMLC)， pp. 445-451，中国广州，2015。查看在：谷歌学术搜索
S. Guha, R. Rastogi, K. Shim，《治愈:大型数据库的高效聚类算法》信息系统，卷。26，不。1，pp。35-58,2001。查看在：出版商的网站|谷歌学术搜索
V. Bureva, E. Sotirova, S. Popov, D. Mavrov, and V. Traneva，“使用STING聚类分析过程的广义网络:空间数据挖掘的统计信息网格方法”，刊于第12届国际会议灵活查询应答系统（FQAS）的诉讼程序2017年，英国伦敦。查看在：谷歌学术搜索
B吕，W。侯，G。Liu等人，“文本聚类的深层cfs模型”，年2018年物联网国际会议论文集，第132-137页，哈利法克斯，加拿大，2018年。查看在：谷歌学术搜索
J.Xie，R. Girshick和A. Farhadi，“对聚类分析的无监督深度嵌入”第三届国际机械学习会议（ICML）的诉讼程序，卷。48，pp.478-487，纽约，纽约，美国，2016年。查看在：谷歌学术搜索
D洪，L。高，J。姚，B。张，A。广场和J。Chanusso，“用于高光谱图像分类的图卷积网络，”IEEE地球科学和遥感学报第1页，2020年。查看在：出版商的网站|谷歌学术搜索
Zhao L.， T. Zhao, T. Sun, Z. Liu, and Z. Chen，“Multi-view robust feature learning for data clustering，”IEEE信号处理字母，卷。27，PP。1750-1754,2020。查看在：出版商的网站|谷歌学术搜索
范伟，王灿，赖建军，“基于密度和距离的半监督非线性聚类研究”，《中国科学:信息科学》2016年大数据计算服务与应用国际会议论文集，第269-275页，牛津，英国，2016。查看在：谷歌学术搜索
“基于图的非负矩阵分解方法”，“基于图的非负矩阵分解”，Neurocomputing，第266卷，第91-1002017页。查看在：出版商的网站|谷歌学术搜索
十,。李，Y。吴先生。Ester等人，“属性异构信息网络中的半监督聚类”，年第26届世界宽网络国际会议的诉讼程序，第1621-1629页，澳大利亚珀斯，2017年。查看在：谷歌学术搜索
徐志伟，“基于自加权多核学习的半监督分类算法”，《中国科学:信息科学》，2014年第4期第27届国际人工智能联合会议论文集，pp.2312-2318，斯德哥尔摩，瑞典，2018年。查看在：谷歌学术搜索
D. Hong, N. Yokoya, g - s。朱晓霞，“X-ModalNet:一种用于遥感数据分类的半监督深度跨模态网络，”摄影测量与遥感学报，卷。167，pp。12-23,2020。查看在：出版商的网站|谷歌学术搜索
P李，Z。陈，J。Gao等人，“用于多视图土地数据聚类的深度融合高斯混合模型，”无线通信和移动计算，卷。2020，第8880430，9页，2020。查看在：出版商的网站|谷歌学术搜索
李鹏，陈振堂，杨立涛，赵磊，张骞，“基于云计算的高阶神经模糊c均值保护算法”，Neurocomputing，第256卷，第82-89页，2017。查看在：出版商的网站|谷歌学术搜索
A.萨哈和S。Das，“模糊数据聚类和同时特征选择：模型选择方法，”模糊集与系统，第340卷，第1-37页，2018年。查看在：出版商的网站|谷歌学术搜索
T元，W。邓，J。胡，Z。安和Y。Tang，“基于特征聚类的无监督自适应哈希，”Neurocomputing，第323卷，第373-38219页。查看在：出版商的网站|谷歌学术搜索
国家自然科学基金项目，“数据聚类与分类的马氏距离度量研究”，模式识别，卷。41，没有。12，pp。3600-3612,2008。查看在：出版商的网站|谷歌学术搜索
N. Heidari, Z. Moslehi, A. Mirzaei, M. Safayani，“判别模糊c均值聚类的贝叶斯距离度量学习”，Neurocomputing，卷。319，pp。21-33,2018。查看在：出版商的网站|谷歌学术搜索
“基于图的聚类问题的约束拉普拉斯秩算法”，《计算机应用与发展》，第1期第30届AAAI人工智能大会的诉讼程序，pp. 1969-1976，凤凰城，AZ，美国，2016年。查看在：谷歌学术搜索
王旭东，聂飞，黄宏生，“基于图的聚类的结构化双随机矩阵:结构化双随机矩阵”，出版第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集，pp.1245-1254，旧金山，加州，2016年。查看在：谷歌学术搜索
“基于全局图和局部图的多视点光谱聚类”，IEEE访问，第7卷，第31197-312062019页。查看在：出版商的网站|谷歌学术搜索
B. Yang，X. Fu，N. D. Sidiropoulos和M. Hong，“朝向K-Mease友好的空间：同时深入学习和聚类，”第34届国际机器学习会议(ICML)论文集，第3861-3870页，澳大利亚悉尼，2017。查看在：谷歌学术搜索
十,。郭，L。高某。刘和J。Yin，“改进了深嵌入聚类，保留了局部结构”，在第26届国际人工智能联合会议记录（IJCAI），第1753-1759页，澳大利亚墨尔本，2017年。查看在：谷歌学术搜索
L. Zhao，T. Yang，J. Zhang，Z. Chen，Y. Yang和Z. J. Wang，“共同学习非负相关和多源相关的功能，用于多视图数据”神经网络和学习系统的IEEE交易，第1-112020页。查看在：出版商的网站|谷歌学术搜索
s安南。米塔尔，O。图泽尔和P。Meer，“半监督核均值漂移聚类，”图案分析和机器智能的IEEE交易，第36卷，第6期，第1201-1215页，2014年。查看在：出版商的网站|谷歌学术搜索
C-L。刘，W-H。希奥，C-H。李和F-S。郭，“半监督线性判别聚类，”Cyebericics上的IEEE交易，第44卷，第7期，第989-1000页，2014年。查看在：出版商的网站|谷歌学术搜索
王德辉，“基于约束传播的半监督非负矩阵分解”，Cyebericics上的IEEE交易，卷。46，没有。1，pp。233-244,2016。查看在：出版商的网站|谷歌学术搜索
vv。Vu，“基于半监督图的高效聚类”，智能数据分析第22卷第2期2, pp. 297-307, 2018。查看在：出版商的网站|谷歌学术搜索
A.巴希勒尔，T。赫兹。申塔尔和D。Weinshall，“从等价约束学习马氏度量，”机器学习研究杂志，卷。6，PP。937-965,2005。查看在：谷歌学术搜索
刘文华，吕先生，马文华，“基于上下文约束的图像检索的学习距离度量”，载2006年IEEE计算机学会计算机视觉和模式识别会议记录（CVPR），pp.2072-2078，纽约，纽约，美国，2006年。查看在：谷歌学术搜索
Dai B. Dai, M. Yamada, M. Sugiyama，“基于熵正则化的信息理论半监督度量学习”，神经计算，第26卷，第8期，第1717-1762页，2014年。查看在：出版商的网站|谷歌学术搜索
“半监督聚类的学习方法”，《中国科学(d辑)》，2004年第4期。IEEE关于知识和数据工程的交易，第24卷，第3期，第478-491页，2012年。查看在：出版商的网站|谷歌学术搜索
Z. yu，L.Li，J. Liu，J. Zhang和G. Han，“自适应噪声免疫聚类与使用亲和力传播”，“IEEE关于知识和数据工程的交易第27卷第2期12, pp. 3176-3189, 2015。查看在：出版商的网站|谷歌学术搜索
J. Yi，L.张，杨，W.刘和J. Wang，“一种高效的半监督聚类算法，具有顺序约束”第21届ACM SIGKDD知识发现和数据挖掘国际会议记录， pp. 1405-1414，澳大利亚悉尼，2015。查看在：谷歌学术搜索
S. Wei，Z. Li和C. Zhang，“半监督集群集群合奏方法综合约束基于和基于度量”第七届互联网多媒体计算与服务国际会议论文集，张家杰，中国，2015年。查看在：谷歌学术搜索
D. Hong, L. Gao, N. Yokoya等，“更多样化意味着更好:多模式深度学习满足遥感图像分类，”IEEE地球科学和遥感学报第1页，2020年。查看在：出版商的网站|谷歌学术搜索
G. Chen，“深度转机半监督最大保证金聚类，”2015，https://arxiv.org/abs/1501.06237．查看在：谷歌学术搜索
Y任，K。胡，X。戴，L。潘，S。CH海，和Z。Xu，“半监督深层嵌入式聚类，”Neurocomputing，第325卷，第121-130页，2019。查看在：出版商的网站|谷歌学术搜索
J. Gao，P. Li，Z. Chen和J. Zhang，“多媒体数据融合的深度学习调查”神经计算，第32卷，第2期5, pp. 829-864, 2020。查看在：出版商的网站|谷歌学术搜索

科学规划