深嵌入集群(DEC)吸引了太多的关注由于其性能优于归因于端到端集群。然而,12月不能利用少量的先验知识包含在数据增加体积。应对这一挑战,semisupervised深嵌入聚类算法与自适应标签提出了集群semisupervised端到端地这些数据的基础上,一个先天的知识。具体来说,深semisupervised集群网络设计基于autoencoder范式和深集群,哪好我的集群表示和集群任务通过防止标签在12月的转变,深semisupervised集群网络的训练参数,back-propagation-based算法自适应标签介绍基于pretrain和调整策略。最后,广泛代表数据集进行实验评价了该方法的性能的聚类精度和归一化互信息。结果表明该方法优于12月的最先进的方法。
集群,作为最重要的一个基本研究方法在数据挖掘和机器学习,扮演着一个重要的角色在模式识别、图像检索、计算机视觉、社会网络分析、自然语言处理和知识发现(
上面这些方法可以挖掘数据模式以一种无监督的方式,忽视了一些先验知识在真实的数据,这是由少量的标签数据或成对约束由专家给出。最近,许多semisupervised聚类方法提出了(
为了解决这些挑战,提出了一种新的semisupervised联合学习框架,共同学习功能嵌入空间和集群任务通过整合少量的标签信息联合优化功能。
此外,前面semisupervised集群策略不能直接使用strong-supervised数据标签的知识深度嵌入集群由于标签转变问题,聚类结果与样本的实际标签不一致。换句话说,这些标记的样本相同的类通常是分散到不正确的类,和这种不正确的监督信息破坏模式结构的数据,造成深度嵌入集群的退化。
为了解决这个挑战,一个标签自适应策略介绍了基于投票机制。通过标签的自适应策略,改变标签生成的聚类过程中预计的赢家标签,确保标签样品相同的集群总是在一个集群的集群的过程。提出的策略可以直接使用标签丢失指导聚类过程中通过调整集群中心和学习特定于集群的表征。本文方法改进的基础上,12月semisupervised深聚类方法和扩展。本文的贡献总结如下:
提出了一种新的semisupervised联合学习框架,集成了少量标签信息,共同学习功能嵌入空间和集群任务的帮助下联合优化功能。
本文的其余部分组织如下:我们在部分简要回顾相关工作
集群已经吸引了大量的关注和大大发展了很长一段时间。提出了许多优秀的聚类算法(
在许多实际数据存在一些之前的信息,但上面的无监督方法不考虑信息。为了充分利用标签信息,提出了一种新的semisupervised联合学习框架,将标签信息集成到深集群共同学习数据表示和聚类任务。
Semisupervised聚类是数据挖掘领域的重要研究方向。它可以指导聚类过程,提高聚类的质量,利用成对约束等先验知识或少量的标签数据。最近,semisupervised聚类方法取得了丰硕的成果。例如,semisupervised内核意味着转移集群(日)数据点映射到一个高维内核空间的限制是由线性变换映射的点(
传统semisupervised聚类算法大多是在原始空间和执行在面对高维数据表现不佳。因此,有必要利用深层神经网络增强其表现力。MDL-RS设计一个通用的多通道深度学习框架,它可以嵌入多个融合模块和打破单一模式下的性能瓶颈
然而,由于标签的转变问题,这些semisupervised方法不能直接使用标签信息来指导集群的学习中心。因此,本文设计一个标签自适应策略基于投票机制的正确标签的转移在聚类过程中,直接使用标签丢失指导聚类过程,提高聚类的性能。
在本节中,semisupervised深嵌入聚类算法与自适应标签(Semi-DEC)介绍了充分利用先验知识的少量的标签。Semi-DEC由深网络和semisupervised嵌入网络代码,如图 深代码网络旨在学习的潜在特征数据在低维空间的基础上encoder-decoder网络( 在获得隐藏表示的数据样本,深层网络解码隐藏表示的代码重构函数如下: 最后,网络使用的深度代码之间的均方误差函数来衡量损失原始数据和重建数据如下: semisupervised嵌入网络的目标是将数据分成几组,同一组样本之间的距离更近的不同群体。semisupervised嵌入网络的无监督部分矿山内在模式和监督使用少量的先验知识的一部分。
无监督的部分semisupervised嵌入网络的KL差异如下: 定义目标分布如下: 监督部分介绍地址标签的变化无监督部分基于先验知识的小群体。它是衡量soft-max损失函数如下: 最后,计算semisupervised嵌入网络的表达如下: 我们使用随机梯度下降法(SGD)和bp优化损失函数方程 的梯度<我t一个l我c>
l我t一个l我c>对集群中心<我nl我ne-formula>
反向传播的过程中,参数<我nl我ne-formula>
在本节中,介绍了反向传播算法训练Semi-DEC参数。它是由两个步骤,即。,theun年代upervised pretraining step and the semisupervised fine-tuning step. The details of the back-propagation algorithm of Semi-DEC are introduced as follows.
无监督pretraining一步使用encoder-decoder范例学习广义特征数据,采用k - means聚类研究重心隐藏在数据。
具体地说,给定一个数据集<我t一个l我c>
n我t一个l我c>点<我t一个l我c>
X我t一个l我c>和网络的深度编码器<我t一个l我c>
米我t一个l我c>无监督pretraining一步模型层,每一层的深度编码器网络作为autoencoder基于方程(
然后,原始数据<我t一个l我c> X我t一个l我c>映射到潜在的特征空间的深度网络代码,得到隐藏的表征<我t一个l我c> Z我t一个l我c>。隐藏的k - means聚类进行初始质心表示。
在获得pretrained深代码网络和初始质心,Semi-DEC semisupervised的方式训练基于损失函数方程( 图 步骤1:Semi-DEC收集每个集群的标签分布<我nl我ne-formula>
步骤2:Semi-DEC纠正这些错误的标签根据标签的统计分布。
步骤3:Semi-DEC计算损失的那些错误的样品标签根据方程( 步骤4:Semi-DEC回馈都深的参数代码semisupervised集群网络和找到最终的分配策略。
标签的帮助下提出了自适应策略,被错误的标签数据划分聚类过程中纠正通过投票机制,可有效解决标签转移问题强有力的监督方式,迫使具有相同标签的数据在同一集群。换句话说,这个标签自适应策略保留了学习数据结构在集群任务和提供集群范围内的功能。误差反向传播算法的总体步骤Semi-DEC算法所示
构造深度网络代码。
初始化网络参数基于正态分布。
培训每一层的代码网络基于去噪autoencoder策略。
连接每个pretrained层和一个端到端的方式调整网络参数。
网络使用pretrained深代码获取原始数据映射到潜在的空间特性<我nl我ne-formula>
使用k - means质心进行初始化<我nl我ne-formula>
使用方程( 来计算<我nl我ne-formula>
使用方程( 基于自适应动态改变标签标签算法。
根据方程(计算损失 更新网络参数和重心。
在本节中,在几个代表进行了广泛的实验数据集评估Semi-DEC的性能。介绍了在我们的实验中使用的数据集。然后,提出了几种先进的聚类算法和评价指标。最后,实现和实验结果详细说明。数据集的详细信息如表所示 MNIST数据集是由70000份手写数字的<我nl我ne-formula>
美国邮政总局数据集是由9298手写数字<我nl我ne-formula>
在最初的路透数据集,大约有810000个英语新闻类别标记。四根类别如下:公司/工业、政府/社会、市场和经济使用的标签,和所有文件与多个标签进一步排除在外。我们计算TF-IDF特性最频繁的2000字来代表所有文档。10000个样本是随机取样的一个子集,称为REUTERS-10K。
来验证该方法的有效性,一些先进的算法作为比较的方法。下面是这些算法的概要。
k - means是传统的无监督聚类算法( 深嵌入集群(12月)是一个很深的无监督聚类算法( 深集群网络(宽带)是一个很深的无监督聚类算法( 改进的深度嵌入集群(IDEC)也深无监督聚类算法( 自权重的多个内核学习(SMKL)是一种传统semisupervised聚类算法( semisupervised深嵌入集群(SDEC)是一种深semisupervised聚类算法( 聚类精度(ACC)和归一化互信息(敝中断)是用来评估该方法的性能和其他算法相比,广泛应用于聚类任务。ACC和敝中断的值从0到1。更大的值两个指标都表明更好的聚类结果。
ACC的定义如下: 敝中断被定义如下: 深的编码器层结构将网络代码<我t一个l我c>
d我t一个l我c>500-500-2000-10的所有数据集,<我t一个l我c>
d我t一个l我c>输入数据的维数。所有的层都完全连接,和所有内部层(除了输入层、嵌入层和输出层)是由ReLU非线性激活函数。在pretraining和微调autoencoder网络,我们使用相同的参数设置在12月,确保实验结果的改进方法的贡献。
对于每个数据集,监控信息列表<我t一个l我c>
一个我t一个l我c>动态生成的基于标签信息数据集的存在与否。列表的长度符合每次数据批量的大小,及其相应的元素值为1,如果数据点有一个真正的标签,或0如果没有标签。学习SGD率是0.01。收敛阈值<我nl我ne-formula>
本节演示的结果相比三个代表数据集的方法。详细表 具体地说,与传统的k - means和SMKL方法相比,该方法可以学习深度代码特性的表征能力的网络。此外,k - means是一个无监督方法,在聚类过程中不能利用标签信息,进一步导致性能的退化。虽然12月,宽带,IDEC也利用深度数据的特点,他们忽略了信息隐藏在少量的标签数据,结果那些深方法性能低于该方法生产。SDEC使用成对约束指导聚类的过程,属于弱监督信息的利用率。通过标签的自适应策略,我们可以直接使用标签的损失,这是一个强大的使用标签信息。这也是我们建议的方法的关键。
进一步说明了该方法的优越性,我们也训练过程中的可视化聚类结果图 同时,评估的影响知识Semi-DEC的性能之前,收音机的标记训练样本从1%上升到50%。每个实验进行了10次,平均结果如表所示 如表所示 为了进一步测试方法在本文中,我们在许多方面进行了实验,包括不同比例的标签数据对性能的影响,损失函数的变化过程和准确性,以及权衡的影响参数<我t一个l我c>
λ我t一个l我c>对聚类性能和运行时间分析。
具体来说,对不同比例的标签数据对性能的影响,图 损失函数的变化过程和准确性增加训练时间记录在图中 趋势的准确性和损失的迭代次数(a) MNIST,美国邮政总局(b)和(c) REUTERS-10K。
如何权衡参数<我t一个l我c>
λ我t一个l我c>标签损失影响本文方法的性能,我们进行实验三个数据集抽样的范围[0.01,5.0]。图 权衡的影响参数<我t一个l我c>
λ我t一个l我c>集群性能(a) MNIST,美国邮政总局(b)和(c) REUTERS-10K。
运行时间图 运行时间的统计数据。实线代表的培训过程,虚线代表了测试过程。圆圈代表本文中的方法,星号代表了12月的方法。(一)MNIST,美国邮政总局(b)和(c) REUTERS-10K。
摘要小说semisupervised深嵌入与适应性提出了标签聚类方法,共同学习集群数据的表示和作业的帮助下先验知识。深semisupervised集群网络,提出了自适应策略,以及一个标签可以直接指导聚类过程通过使用现有的标签信息。同时,联合优化的KL发散损失和标签损失semisupervised集群框架的目的是学习更强大的深深表示和更精确的聚类中心。MNIST实验结果,美国邮政总局,REUSTER-10K展示本文提出的方法取得了显著的性能改进ACC和敝中断,证明了该方法的有效性。在未来,更有效的方法来利用标签信息深度嵌入集群将被探讨。
我们执行实验两个图像数据集和一个文本数据集。常用的公共使用的数据集的数据集,链接如下:MNIST:
作者宣称没有利益冲突有关的出版。
这部分工作是支持下由中国国家自然科学基金资助61672123,拨款61602083,和拨款62002044,辽宁省的博士科研基础(20170520425),中央大学的基础研究基金在格兰特DUT20LAB136,格兰特DUT20TD107和格兰特DUT15RC(3) 100年,和中国奖学金委员会。