文摘
有效的特征表示是机器学习应用程序的成功的关键。最近,许多特性提出了学习模型。在这些模型中,高斯过程潜变量模型(GPLVM)非线性特性学习由于其优异的性能已获得了高度的关注。然而,大多数现有的GPLVMs主要用于分类和回归任务,因此不能用于数据聚类任务。为了解决这个问题,扩展应用范围,本文提出了一种新型GPLVM为集群(C-GPLVM)。具体来说,通过GPLVM结合子空间聚类方法,我们C-GPLVM可以获得更多的代表潜变量聚类。此外,它可以直接预测新样本通过引入约束模型中,因此更适合大数据学习任务,如混沌时间序列的分析等等。在实验中,我们比较相关GPLVMs和聚类算法。实验结果表明,该模型不仅继承了GPLVM的特性的学习能力,但也有优越的聚类精度。
1。介绍
在机器学习任务中,数据通常是分布在一个高维空间,有很多冗余功能。培训机器学习模型等高维数据不仅可能导致更高的计算和存储复杂性也模型过度拟合问题1]。现有研究表明,高维数据通常是嵌入在低维流形。因此,我们可以利用减少尺寸和功能学习方法学习的低维流形和获得更多代表特性改进机器学习模型的精度和效率。因此,有效的特征表示是机器学习应用程序的成功的关键。
在过去的十年里,许多提出了相关的方法,如字典学习(2],autoencoder [3),高斯过程潜变量模型(GPLVM) [4],Isomap [5,局部线性嵌入(6]。在这些模型中,非线性特性的GPLVM学习因其优越的特性受到了人们的广泛关注学习能力并已用于许多应用,如动力系统(7),非线性系统的建模和控制(8]。给出了一些训练样本,它可以有效地学习的低维流形嵌入在高维空间,因此被广泛应用于减少尺寸和数据可视化的任务(9,10]。
尽管有上述优点,但传统GPLVM只是一个完全无监督特征学习模型,因此不能满足实际应用的需要,在处理具体的机器学习任务,如混沌时间序列的分析,动力系统(7),非线性系统的建模和控制我们也观察输入的响应值。如何修改GPLVM和改善其性能研究的关键内容相关。到目前为止,这个模型的扩展主要集中在监督和非监督学习方法(9,11,12]。这些方法都假定除了输入功能,我们也观察到样本的标签。通过他们的扩展,GPLVM可以有效利用监督信息来提高分类精度的学会了潜变量。然而,在实际应用中,我们也可以处理非监督聚类任务中我们不能获得标签信息或其他辅助信息,从而带来更多的挑战GPLVM的应用程序集群任务。
为了解决上述问题,本文提出一种融合模型,该模型结合了GPLVM与子空间聚类模型(13)同时获得更多代表特性和准确的聚类结果。此外,我们也使用约束技巧(14)在模型中,使模型直接预测新样本和更适合大数据学习任务,如混沌时间序列的分析。在实验中,我们在多个数据集验证该模型的性能。实验结果表明,我们的模型有很多优越的集群性能比其他相关模型。
2。相关工作
2.1。高斯过程潜变量模型
GPLVM是完全无监督和非线性潜变量模型。在这个模型中,观察到的样本 ( 表示训练样本),我们的目标是学习相应的低维潜变量。在本文中,我们使用 ( )潜变量的表示 。显然,GPLVM可以通过学习来实现降维的变量。具体来说,GPLVM假定的生成过程如下: 在哪里是的特征训练样本,是遵循一个高斯分布的噪声项 ,和是一个函数,高斯过程之前。我们使用来表示的输出的与输入 。因此,我们有 ,在那里是内核使用核函数矩阵计算的潜在的变量 。的行和列的元素是计算 。通过集成的中间变量 ,我们可以obtainthe边际似然函数: 在哪里表示hyperparameters参与内核函数和噪声分布。模型优化过程,GPLVM学习上面的潜变量和hyperparameters共同通过最大化似然函数,最后得到低维表示。
从上述的生成过程,作为一个完全无监督降维模型,GPLVM不能嵌入辅助信息在处理具体的机器学习任务,因此并不能满足实际应用的要求。例如,在混沌时间序列的分析,数据类似的时间将有类似的功能。如果它可以利用这一知识,任务的GPLVM将学习更具代表性的特性并显著提高预测精度。现有方法的延伸GPLVM主要集中在嵌入监督信息来提高分类和回归精度,例如,歧视GPLVM (D-GPLVM)和监督GPLVM (S-GPLVM)。扩展集群的任务,相关的作品少得多。现有的无监督GPLVM仅仅关注如何保护当地的距离和学习更好的潜变量或特性。例如,当地保留投影GPLVM (LPP-GPLVM)结合了当地的目的保留投影与GPLVM,因此同时学习和保护当地的低维表示结构(15]。GPLVM腰约束(B-GPLVM)引入了一个限制(从观察到的空间潜在空间)GPLVM。通过这种方式,它也能意识到保护当地的距离。
2.2。子空间聚类
子空间聚类的目标是能够把一组样本数据划分为不同的子空间;因此,类似的样品在相同的子空间,而不同样品在不同的子空间。在过去的十年中,子空间聚类被用于各种聚类任务等提出了许多精心设计的算法基于高斯混合模型(GMM)——的方法(16,17),矩阵分解——基于(MF)的方法18,19[],algebra-based方法20.),和谱聚类方法(13,21,22]。在这些模型中,基于谱聚类的子空间聚类方法得到了广泛的应用,因为它简洁的实现过程和可靠的性能。它使用低秩表示构造关联矩阵的谱聚类。它的目标是发现输入数据的低秩表示通过优化以下函数: 我们假定每一个样本都可以表达的其他样本的线性组合。上面的低秩点球术语可以被视为一个全球限制样本的子空间结构,使相似的样本也有类似的权重。一般来说,我们可以使用以下核规范取代惩罚条件: 我们使用核标准在哪里近似的秩 。考虑到通常含有噪声的数据,我们使用以下矩阵制定学习自己 :
在低秩子空间聚类,我们可以首先构造关联矩阵和拉普拉斯矩阵然后用谱聚类集群数据。和可以构造如下: 在哪里代表一个对角矩阵 。在获得拉普拉斯矩阵,我们可以优化以下目标函数获得潜变量 :
很明显,相对应的特征向量组成的吗最小的特征值。最后,我们可以学到的k - means算法运行,得到聚类结果。
3所示。模型建设和优化
3.1。设计高斯过程的潜变量聚类模型
假设有观察到的样本标记为 ,我们的目标是学习低维潜变量 与这些观察到的变量,使潜变量有更优越的集群性能(即。,使常见聚类学习算法获得准确的聚类结果 )。
为了实现上述目标,我们假定潜变量先验分布如下: 在哪里是一个常数,使得 和有以下形式: 在哪里是行和列关联矩阵的元素 。方程(9)经常可以写成:
在本文中,我们假设生成过程观测变量与潜变量可以由条件分布 。因此,从贝叶斯公式,我们可以obtainthe潜变量的后验分布
自是一个常数,因此,我们可以获得最佳的潜变量通过最大化联合边缘分布如下:
介绍GPLVM到这个模型中,我们假设是由潜在函数是高斯过程之前。因此,方程(12)可以写成 在哪里表示hyperparameter参与核函数的和表示高斯噪声分布的方差。
通过上面的造型过程,GPLVM学习时可以有效地嵌入示例相似信息的潜在变量,从而改善其潜变量聚类能力。然而,如何学习的亲和矩阵仍是一个紧迫的问题本文和其他相关学习和子空间聚类算法,如自己。在本文中,我们学习和借低秩的概念自己下面的低秩子空间约束引入到模型:
值得注意的是,在本文中,我们假设 ,即。,we directly use matrix亲和矩阵。这个设置是一样的的23),它的作用类似于亲和矩阵的子空间聚类。这C-GPLVM LPP-GPLVM非常相似。然而,在LPP-GPLVM,拉普拉斯矩阵是固定的。不同于LPP-GPLVM,拉普拉斯矩阵中我们可以学到C-GPLVM培训过程。因此,我们比LPP-GPLVM C-GPLVM具有更优越的性能。
GPLVM和自我形象的一个重要限制是,他们无法有效地预测新样本。为了缓解这个问题,我们引入一个约束模型。因此,给定一个新样本,它可以有效地预测相应的低维潜变量使用约束函数。具体地说,观察到的样本 ,我们假设我们可以用一个函数获得潜变量 : 在哪里神经网络函数与可学的参数吗 。最后,我们获得的目标模型如下:
整个模型结构如图1。
4所示。模型优化
为了优化(16),我们将其转换为如下优化问题: 在哪里 , ,和正则化项。通过这个公式,我们可以使用交替迭代学习所有的参数优化方法。首先,我们解决和写(17),
这个问题可以解决基于有效利用梯度方法,及其梯度有关可以计算为
梯度有关和类似于上面的配方。为了简便起见,我们省略了他们的推导过程。然后,我们可以解决 , 和和写(17),
关于第一项的梯度可以计算为 在哪里表示矩阵的行和 表示向量的元素是1。第二项的梯度计算
次梯度的第三个任期
通过以上推导,我们可以学习整个模型,提出了在算法1。的主要计算复杂性C-GPLVM是内核的反演矩阵,复杂的 ,在哪里是训练样本的数量。主存储器的复杂性的存储核矩阵,它的复杂性 。因此,计算和存储复杂性都是相同的传统GPLVM。
5。实验和分析
5.1。实验装置
验证C-GPLVM的有效性,我们使用8数据集的实验。这些数据集的详细信息表1。
酵母是一种数据集的预测蛋白定位网站。美国邮政总局是数字数据集是聚集在卓越中心的纽约州立大学水牛城分校在文档分析和识别作为项目的一部分,由美国邮政服务。耶鲁大学、JAFFE和ORL三人脸识别数据集,如图2。TR11、TR41 TR45三个文本数据集。
(一)
(b)
(c)
为了充分验证C-GPLVM的优势,我们比较相关的高斯过程(即潜变量模型。,B-GPLVM GPLVM和LPP-GPLVM)和聚类方法,如谱聚类方法(SC) [24),内核谱聚类(KSC) [25),和单纯形稀疏表示学习(SSR) (21]。所有基于模型(GPLVM LPP-GPLVM,肯尼迪和C-GPLVM)使用径向基函数(RBF)作为核函数。值得注意的是,其他一些内核函数也可以用于该模型,如线性内核,拉普拉斯算子的内核,内核和圆形。此外,所有的hyperparameters这些内核函数也可以在相同的形式提出。在实验过程中,hyperparameters , ,和选择从 。hyperparameters参与其他模型是将原始论文的相同。在实验过程中,我们使用高斯过程工具包(GPFlow)1实现GP-based模型。其他相关的模型都是用python实现。所有的算法测试Windows电脑i7 9700 CPU, 16 g内存。
5.2。聚类结果与分析
在实验中,我们使用聚类准确性,纯洁,和归一化互信息(敝中断)作为聚类测量。在集群阶段,所学到的潜在变量不同的方法被用作输入和k - means算法得到最终的聚类方法。维度和集群的数量将是相同的类的数量。同时,为了减轻k - means算法的初值敏感性问题,我们随机初始化和运行20倍的k - means方法。最后,我们计算这些20实验的平均值和标准偏差。实验结果如表所示2- - - - - -4粗体,最好的结果。
从表2- - - - - -4,我们可以观察到GPLVM,作为一个无监督降维模型,通常获得潜在变量聚类性能差。B-GPLVM LPP-GPLVM可以保存的地方距离样本在特征学习过程,从而获得更多的代表潜在的变量。与此同时,LPP-GPLVM获得更好的结果比B-GPLVM这表明图拉普拉斯正规化比回更适合聚类约束。一般而言,谱聚类和子空间聚类方法比GPLVM有更好的性能。我们可以看到,SC、肯尼迪和SSR超越GPLVM, B-GPLVM, LPP-GPLVM。本文提出与GPLVM C-GPLVM结合子空间聚类,从而有效提高集群GPLVM的性能。实验结果所示,C-GPLVM更优越的聚类的结果比其他相关模型在大多数情况下。
6。结论和未来的工作
提出了一种联合模型相结合的低秩子空间约束GPLVM回到解决穷人传统GPLVM集群的性能问题。拟议中的C-GPLVM不仅可以获得低维潜变量也直接预测新样本,这样可以有效地扩展应用程序的范围GPLVM混沌时间序列分析等任务。实验结果表明,C-GPLVM有更好的潜变量学习能力和优越的聚类性能。在未来的工作中,我们将进一步扩展C-GPLVM使它适合更大的数据集和监督分类和回归等任务,提高其效率和应用范围。
数据可用性
实验数据用于支持这项研究的结果已经存入UCI库(https://archive.ics.uci.edu/ml/index.php)。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的项目在2015年格兰特yjyb03玉林师范大学研究。