文摘

判别图embedding-based降维方法吸引了越来越多的关注在过去的几十年里。这些方法构造一个内在图和惩罚图保留组内样本的内在几何结构和单独的组内的样本。然而,边际样品不能准确表征只有惩罚图因为他们平等对待每个样本。在实践中,这些边际样本往往影响的分类性能,需要特殊处理。在这项研究中,附近邻居的假说的进一步最大化边际样品分离组内的样本,提高判别的能力通过整合内在图和罚款图。一本小说名叫LMGE-DDR判别降维已经提出。一些公共数据集进行实验来验证的有效性提出LMGE-DDR如ORL、耶鲁大学,曼彻斯特理工,FERET, CMIU-PIE09,和AR。LMGE-DDR执行比其他方法相比,和相应的标准差LMGE-DDR小于其他人。这表明,评价方法验证了方法的有效性。

1。介绍

降维(DR)更重要的是在大多数机器学习和模式识别等领域1- - - - - -4]。它旨在解决维数的诅咒实现相关的高维数据集的低维表示。线性判别分析(LDA)和主成分分析(PCA)是最具代表性的方法5,6]。主成分分析得到低维空间最大化方差。LDA可以使用标签信息项目的特征空间来区分类别阶级之间的距离最大化和最小化同类的距离。然而,LDA不能捕获数据的局部结构。众所周知,高维数据的局部结构对数据表示非常重要。

K附近邻居图可以更好地描述数据的局部结构(7]。因此,在过去的几年中,图embedding-based降维方法(如雨后春笋般涌现7,8),如米歇尔(9],Isomap [10,11],拉普拉斯算子eigenmap [12]。然而,这些多方面的学习方法不直接处理新样品,因为他们没有获得任何映射函数,这被称为“样本外”问题(13]。因此,为了解决这个问题,提出了一种更有效的方法来获得明确的投影映射。保局投影(牧民联盟)保存数据在低维空间的局部结构,这是一个著名的方法(2]。它的简单性和有效性,提出了它的变体(14,15]。然而,垂直距离执行糟在分类因为它并不完全使用标签信息,这是一种无监督的方法(16]。社区保留投影(NPP)保存数据流形上的本地邻居的信息(17]。

为了进一步提高分类性能,判别图embedding-based方法已逐渐成为一个热门研究课题,利用标签信息,旨在保存在类几何结构,与此同时,最大化类间距离不同的集合管(18]。因此,最近,越来越多的判别图embedding-based方法研究了。费舍尔边际分析(MFA)构造两个邻接图最大化两两之间的分离性边缘数据点(19]。当地判别嵌入(LDE) [20.利用标签信息并提出了最近的neighbor-based嵌入。然而,它遭受所谓的样本规模小(SSS)问题,它不能直接适用于高维数据20.]。考虑到当地同类景点或阶级之间的斥力,判别社区嵌入(DNE)提出了数据点在同一类压实,而类之间的差距变得更广泛的在一个低维子空间21]。然而,DNE并不总是设置不同类别的边缘与邻国,这将降低组内的新空间和距离会恶化的分类(22]。因此,丁等人构建双邻接图链接他们的同类和异类邻居和引入了一个更有效的版本DNE称为DAG-DNE [22]。受DAG-DNE的启发,提出了一些判别分析方法在过去的几年里(23- - - - - -33]。

大多数降维方法可以统一graph-embedding框架(19]。构造相似图形的方法和这些方法之间的点球图是不同的(34]。因此,graph-embedding-based方法对重量敏感矩阵,而它们赋予相同的重量为每个样本(包括边际样本)以同样的方式。然而,如前所述在[35),这些边际样本位于类保证金在高维空间中治疗达到最大的类间假设利润率和良好的分类性能,更重要的分类性能。因此,大假说附近邻居之间的利润边际样品可以改进嵌入特征的辨别能力,应该分别对待。为边际样本,在这项研究中,最近的邻居的假设边际样本被认为是边缘和最大化提高判别能力,除了构造邻接图的两倍。在这项研究中,一种新的大型边缘图embedding-based判别降维名叫LMGE-DDR已经介绍了。大部分实验结果证实的有效性提出LMGE-DDR几个公共数据集。

2。方法

首先,常见的符号在这项研究中。高维数据的表示 样品在d维度,包括 类与类 表示的样本 由矩阵转换 ,在哪里 , 是任何一个列向量。 ,分别表示 邻居(不同的类)和相同的类k邻居的样本

2.1。DNE

判别社区嵌入(DNE)被认为是当地同类景点和阶级之间的斥力和学习内在图 图和罚款 如下:

目标函数可以表示如下:

在此, 在哪里 在哪里

约束 可以保护当地的结构和加强判别能力36]。

目标(2)可以重写的正式跟踪如下: 在哪里 因此,目标函数(2)可以改写如下:

投影矩阵 可以通过解决以下特征向量的问题: 在哪里 特征值,= 1,…,d, (= 1,…,d)是相应的特征向量。假设 在给出的细节21]。

2.2。DAG-DNE

双邻接图论判别社区嵌入称为DAG-DNE构造双邻接图DNE的提出更有效的版本。在DAG-DNE, 可以定义如下:

投影矩阵 可以解决在DNE如下:

3所示。该方法

透露,邻接矩阵的权重被赋予相同的方式为每个样本包括边际样本,不能进一步改善类间假设利润率和恶化的分类性能。在这项研究中,边际示例定义中定义1。假设利润率是研究(37- - - - - -39]。

定义1。(边际样本)。 被认为是一种边际样本如果
边际样品在这个研究是位于类保证金的。图1 附近邻居的图并显示(即边际样本。,{5、6、7、8})。

定义2。(假设保证金)。5所示(37),假设利润率可以定义如下: 在哪里 表示最近的邻居的样本x分别用相同的类和不同的类。 代表了l2规范。样例x可以准确地认识到1神经网络分类器(最近邻)什么时候 ,如图2

定义3。(异构附近邻居的假说保证金)。边际的样本 如图3为了说明异构附近邻居的假设的 ,这是定义如下: 在此, ,
所示(11),它可以让不同样本之间的分离,实现大幅异构附近邻居当所有括号的表达式是大于零,这意味着它可以正确地分类1神经网络分类器。

4所示。LMGE-DDR

DAG-DNE的基础上,边际样本在高维空间中被最大化另外单独处理异构附近邻居的保证金,可以提高判别能力。LMGE-DDR可以提出如下:

组内的重量 在DAG-DNE一样,LMGE-DDR的目标函数可以表示为

在这里, 在DAG-DNE是一样的。女士表示边际样本在高维空间中设置。 是一种交换参数和吗

这个目标函数转化为两个部分如下:

基于(5)。

解决方案(12)很容易得到解决的最大特征值问题。

在这里, 在哪里 特征值,= 1,…,d, 对应的特征向量,= 1,…,d。假设

的细节中可以看到LMGE-DDR算法1

输入:一个训练集 , 和判别子空间的维数r。
输出:投影矩阵P;
(1) 构建同类邻接图 由:
和阶级之间的邻接图 由:
(2) 计算 基于(15)
(3) Eigendecompose矩阵,
(4) 选择r最大特征值对应的特征向量:

5。分析LMGE-DDR

在本节中,LMGE-DDR将分析说明保留几何和判别结构的有效性。

尽管LMGE-DDR类似于构建一个邻接图,DAG-DNE边际样本在高维空间,LMGE-DDR最大化异构附近邻居的假设利润率达到一个大的类间保证金在低维子空间和歧视邻居的局部结构,提高判别DAG-DNE相比。

LMGE-DDR表演的一个玩具数据见图4

如图4(一)的样本 , 因此,基于(12),假设边缘 表示如下:

基于定义2,样例 会认识到错误,因为它假设利润率小于零。

嵌入的结果和假设利润率在一维空间数据中所示4 (b)- - - - - -4 (e))。可以看出,假设样本的利润率 在低维空间中小于零MFA DAG-DNE, MNMDP相反的局势,DNE, LMGE-DDR。在LMGE-DDR,假设样本 大(H( )比DAG-DNE = 0.39),这是有用的分类。

总的来说,最大化异构附近邻居的假设边际边际样品可以进一步提高在低维空间的判别能力。

6。实验

在本节中,与一些流行的方法如DAG-DNE相比,DNE, MNMDP, MFA, LMGE-DDR进行几个实验系统来验证其有效性。具体来说,LMGE-DDR的性能的实验说明了人脸识别和二维可视化。随机选择的l从每个人构成了训练数据图像,剩下的测试数据。最近邻参数k, k1,k2在构建邻接图设置为l1中所有方法[40]。PCA是采取减少图像的维度近98%的能量。1应用神经网络分类器进行分类。20分的平均结果被认为是分类的结果。

6.1。二维可视化

葡萄酒数据集被执行2 d可视化如图5(41];从图5可以清楚的看到,所学到的采样点在低维空间比DAG-DNE LMGE-DDR分离。

6.2。人脸识别

在ORL LMGE-DDR评估(http://www.cad.zju.edu.cn/home/dengcai/Data/FaceData.html),FERET [42),基于“增大化现实”技术(43),耶鲁大学,曼彻斯特理工(https://www.sheffield.ac.uk/eee/research/iel/research/face),CMU-PIE09†面临数据集来评估分类系统性能和它与MFA等几种流行的方法相比,MNMDP DNE, DAG-DNE。

6.2.1。参数分析

参数的敏感性k0,一个在几个脸上LMGE-DDR分析数据集参数k, k1,k2被设置为l1。图6礼物最好的识别率LMGE-DDR的不同的值k0,一个。结果在图6显示的识别精度LMGE-DDR上下波动。总的来说,最好的识别精度能取得一个k0更大。原因是大一个可以使边际样本紧密聚集对类中心。大k0,边际样品。也就是说,异构附近邻居的利润边际的样本可以最大化,实现大型类间的优势,有利于分类。因此,的值k0一个在LMGE-DDR在不同的数据集采用交叉验证的人脸识别实验。

6.2.2。实验结果

在本节中,在公共数据集进行了几个实验来验证的有效性提出LMGE-DDR,如ORL、耶鲁大学,曼彻斯特理工,FERET CMIU-PIE09,和基于“增大化现实”技术的示例图片如图所示7。每个图像在ORL第一对齐和裁剪到32×32。每个图像在耶鲁是32×32第一对齐和剪裁。每个图像在曼彻斯特理工是40×50第一对齐和剪裁。所有的图片在FERET裁剪80×80。所有的图片在CMIU-PIE09裁剪64×64。所有图像的基于“增大化现实”技术的出现为50×40。表1- - - - - -6是最好的识别结果在不同的数据集。图8识别结果在不同的维度。

如图8和表1- - - - - -6,我们可以看到,在大多数实验,LMGE-DDR执行比其他方法和相应的标准差相比LMGE-DDR小于其他人。

6.2.3。时间成本分析

在本节中,不同的方法评估的时间成本在多个数据集包括ORL、耶鲁大学,曼彻斯特理工,FERTET。在表7,它是通过运行一次的时间计算l= 5,d= 20。

它可以得出结论,LMGE-DDR相当与其他方法在时间成本;然而,一些比别人表现得更好。

7所示。结论和未来的工作

在这项研究中,我们提出一个新的图embedding-based名叫LMGE-DDR降维方法,基于异构附近邻居的假说。不同于其他判别学习方法、边际样本在高维空间中,我们另外最大化异构附近邻居的假设利润率达到一个大的类间保证金,不包括学习两种相同的邻接图同样来说,这是非常重要的分类的实验结果。实验结果说明LMGE-DDR的有效性。在这篇文章中,我们还采用一些评价方法对该模型进行评估。结果表明,在一些公共数据集如ORL、耶鲁大学,曼彻斯特理工,FERET, CMIU-PIE09,和基于“增大化现实”技术,该模型优于其他基准模型。然而,在构建邻接图和边缘样品,将会受到噪声的影响,这是不能完全避免的。未来的作品,如何评估的可靠性社区将研究通过引入一种自适应邻接因素(44]。

数据可用性

使用的实验数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者声明,关于这项工作他们没有利益冲突。