文摘
本文提出了一种新的manifold-based降维算法框架。它可以处理数据的降维问题与噪音,给降维结果偏差值引起的噪声干扰。常用的流形学习方法对噪声敏感的数据。去噪方法,意味着计算是数据预处理的重要一步,但会导致局部结构信息的流失。此外,很难测量噪声数据的降维的准确性。因此,流形学习方法通常将数据转换为一个近似光滑流形结构;然而,现实世界的实际数据可能不满足要求。拟议的框架遵循的理念定位导管和使用图采样来确定一些当地的锚点从给定的数据。随后,地方的具体范围使用图像光谱分析,确定范围和密度在每个地方估计获得分布参数。然后,manifold-based降维,建立分布参数和偏差值在每个局部范围内测量,进一步扩展到所有的数据。 Thus, our proposed framework gives a measurement method for deviation caused by noise.
1。介绍
流形学习是自然和一般用于非线性降维的数据。这些数据通常被认为是非线性流形嵌入低维空间(1]。在理想情况下,数据是位于光滑流形,manifold-based ISOMAP[等方法2),局部线性嵌入(米歇尔)[3嵌入(LE)[],拉普拉斯4),和局部切空间排列(LTSA) [5)可以有效和准确的低维结构。然而,这些方法的性能降低噪声干扰时的数据准确,不允许嵌入流形。在实践中,从自然环境、噪声传感器和人工干预干扰的大部分通用背景和收集的数据对象。因此,噪声数据的降维是必要的。这是非常重要的在各个领域的数据挖掘应用程序。
Manifold-based噪声数据的降维是具有挑战性的。传统上,嗯,麦尔(6和龚et al。7)通过一个错误惩罚因子减少噪声影响,导致过度平滑,甚至变形的数据。目前的工作主要集中在组合去噪预处理和流形降维。赵et al。8)提出一个当地semisupervised multimanifold框架由线性嵌入了保护当地社区重建误差之间的拓扑结构标记和未标记样本。金和李9)建立一个度量函数来计算数据点之间的距离和预期的光滑流形,然后数据投射到这光滑流形。类似的工作指Rajagopal et al。10]。在金和巴赫曼的工作11),数据被划分为多个区域,每个区域的尺寸是获得主成分,减少连接来减少噪声干扰。Zhang et al。12)使用sparse-constrained流形映射来削弱噪声。Zhang et al。13)提出一个边际Isomap流形学习计算最短路径在图更好的单独的组内的样本,和作者(14)进一步提供semisupervised边际歧管可视化。郝et al。15)项目数据到本地切平面,实现去噪的平均投影坐标,但同时不保存原来的局部结构信息。Zhang et al。16)提出一个健壮的无监督负的自适应特征提取算法保留了流形结构和错误proximation联合权重分享的低维表示方法。
尽管上面的流形学习方法可以在一定程度上抑制噪声,原始数据可能overprocessed或人工干预,并降维就很难评估的有效性。燕et al。17),基于图像的频域谱图理论和噪音大多属于高频段,实现噪声点的检测数据本身的特征和不影响原始数据的分布;然而,这仍然是一个结合去噪和降维,不提供可能的原始数据的低维空间。图论还用于不确定非线性系统与环境噪音,和edge-based自适应算法解决分布式最优共识问题[18),而不必要的噪音是主要的形式。李和丽安19)考虑持续停留时间切换的频率切换马尔可夫跳跃系统的规则控制虽然不是特定于manifold-based方法。
嘈杂的低维空间数据将显示某些随机性干扰条件下;也就是说,噪声改变现有的分布特征,因为低维坐标变化,和这些特征反映的存在某些偏差值在降维结果。一些工作,比如通过Zhang et al。20.]提出一种联合标签预测显式地表示数据,保存箱结构和自适应,你们et al。21)提供一种新的线性判别分析异常值解决鲁棒性不足的问题,和Zhang et al。22)提出一个可靠和健壮的二维社区保持投影方法,关注鲁棒特征提取问题。这些论文的目的不同。本文针对manifold-based噪声数据的降维,解决问题引起的测量的偏差值低维数据噪声和决定了当地的数据的范围。
本地化的决心,这是一个重要的过程在大多数流形方法适当的定位,关键是要改变到一个低维结构近似非线性、高维。本文利用抽样(图23和光谱图24嘈杂的数据提供一个解决方案。在我们的论文中,图抽样用于我们的框架的第一步选择有用的节点,和谱图理论基础使图像小波分析在我们的框架的基础。本文提出的层数,以决定适当的地方范围的知识图采样和谱图等局部范围被认为是相对自然,结构,包括原始数据的噪声干扰,保留。需要所有提出的算法框架结构信息,完成结合图采样和谱图理论,测量噪声干扰下的低维样本的偏差值。
测量的偏差值低维样本,本研究使用最大似然估计在每个局部范围内构建一个正态分布函数适应当前的地方。这个函数可以用来获得的最大偏差嘈杂的数据在每一个地方,和降维结果应该受到噪声干扰的波动在一个或多个地方。计算权重计算的距离偏差结果噪声引起的降维结果在我们的算法框架。
从上面可以看出,本文的贡献如下:(1)本文提出一种流形降维框架嘈杂的数据。(2)提供一种当地的范围确定为复杂噪声数据图采样和图像光谱理论。(3)提出了一种加权和方法计算低维数据偏差值来自不同地方的范围由噪声引起的。
此外,我们的框架适合多种流形降维方法,因此可以应用于不同的研究领域。
本文的其余部分组织如下。下一节介绍了初步工程。之后,该算法框架,细节部分和下面的部分提供仿真数据和实际数据的实验结果。最后,总结了在最后的部分。
2。初步工程
嘈杂的数据被表示为 , 。假设噪声服从高斯分布 ,和数据采样的未知的光滑流形被表示为 。根据这些数据 ,一个无向加权图 了,代表图中的节点,节点有一一对应的原始数据样本,也就是说, 。 代表图中边连接两个节点的集合。权重矩阵计算和非负重量分配给每条边。在这项研究中,权重的计算使用高斯核函数
为了分析的光谱特性图 ,有必要假定有一个全球的信号功能 ,将被应用到节点集吗 。的影响图的拉普拉斯算符的功能表示为 在哪里代表了拉普拉斯算子矩阵,即 。 是一个对角矩阵,对角元素 。我们表现的特征值分解其特征值和特征向量。特征值代表了一种基于频域频谱。让 ,在哪里 代表特征向量,对角元素 的代表了特征值,按升序排列 。使用特征值和特征向量,可以进行基于傅里叶变换的信号功能 ,也就是说, 与傅里叶反变换
我们介绍了光谱图像小波理论7)来确定当地的图中低频范围。让是一个非负实值过滤功能满意 和 。拉普拉斯算子矩阵的大小有限,小波算子可以表示为 和 。操作员作用于的傅里叶变换的结果信号的函数 ,导致一个调制函数 和逆变换法,
在这个时候,对应的节点图中 ,和小波的小波系数运营商吗作用于一个给定的信号功能 ,也就是说, 。相关图光谱波工作(25进一步介绍了比例因子构建一个多尺度算子, 。另一个工作(26]研究使用低阶多项式近似小波母函数,构造一个光谱小波快速计算方法。
3所示。算法框架
本文算法框架分为三个部分:地方锚的决心向量,当地的范围和分布估计,流形降维分布参数。
3.1。当地锚向量
定位分析的第一步是减少歧管的维数。当地的锚向量的确定对确定当地的位置很重要。图抽样类似于图像将采样。图抽样可以选择一些数据样本组成一个基于极性降低数据图的拉普拉斯算子矩阵的特征向量,保留感兴趣的数据样本的一部分,以确定一些关键样本计算当地的范围。这些关键样品统称为“地方锚向量”。
让当地的锚向量组 ;然后, ,暗示锚向量集的一部分图形节点,并且每个地方锚向量及其地方范围代表最近的邻国。
本文采用一种基于组件的极性图抽样方法最大的特征向量,也就是说, ,特征值按升序排序。根据舒曼et al。27),图抽样应具备下列条件:(1)采样节点集应该大约一半的节点总数在原始图,也就是说, ;(2)删除的节点连接到边缘高权重;(3)计算是有效的和可行的。最大特征向量的极性采样方法满足三个条件,和当地锚向量集可以获得当地的范围分析。
3.2。当地的范围和分布估计
每个局部锚向量确定后,需要进一步确定其本地范围,然后计算出偏差值等信息造成的噪音干扰。
谱图理论是用于进一步分析当地的范围。光谱图是一种特殊类型的光谱分析。光谱分析本身是基于信号的频域特征是其光谱系数或光谱能量。根据(28),稳定的数据分布通常展品低频特征,虽然噪音可能出现在全频带和主要涵盖高频率。因此,当地的一个地方锚向量应该位于锚上的低频带信号向量。
本研究使用光谱图像小波方法获得当地的范围。这种方法更加灵活和有更少的参数超过再常见的算法。如果一个信号应用于锚向量,它会传播和扩展到周边地区。由于距离和噪声,信号强度将会减弱。在确定当地的范围使用光谱图像小波,信号衰减的范围在一定程度上和小波函数的带通特性也会影响衰减的速度。
让一个信号功能 行为图的每个节点上 和 。对于一个特定的节点 ,它的小波系数 。假设过滤器函数 。然后,
过滤器函数将控制信号传播的广度,也可以取出地区当地的范围可能会。给定一个锚向量 和一个信号 ;对应的小波系数向量 小波变换可以根据光谱图。基于功率谱的知识(29日),矢量的绝对值的平方代表了光谱能量。光谱能量越强,在这方面更好的信号传播。考虑这一特性,本研究提出了一种局部范围使用锚向量确定方法作为一个例子,通过选择节点的光谱能量占总信号频谱能量的90%。假设有节点属于当地的范围表示为 。然后,光谱能量关系
因此,我们遍历锚向量集,并确定每个锚的本地范围通过上面给出的光谱能量计算向量。
噪音会导致当地的某些分布范围的每个锚向量。在高斯噪声的前提下,也可以近似高斯分布。执行流形降维分布参数,需要估计分布参数。
我们建议的框架使用最大似然估计。我们考虑锚向量和其本地范围 作为一个例子。每个节点代表一个数据样本, 和 。根据最大似然和高斯密度函数的表达式,估算值的均值和协方差的估计价值,分别如下:
锚的估计分布向量当地范围内可以获得 。
3.3。流形学习和分布参数
manifold-based维度减少分布参数在本节将解决这个问题在测量低维流形的偏差值噪声干扰。使用最大似然估计在每个局部范围内构建一个正态分布函数适应当前的地方。在这项研究中,廖映射函数建立了局部均值和偏差的结果,获取多方面的降维结果与分布参数,然后计算偏差降维结果之间的偏差和平均降维结果。同样,使用原始数据建立多方面的映射函数,考虑到每个数据属于当地的一个或多个锚向量,降维结果也应受到噪声干扰的波动在一个或多个地方。在这项研究中,使用距离权重计算偏差的加权和降维结果每个数据样本的结果。
对于每个锚向量和其本地范围,均值和协方差估计。在现实中,意味着所有锚向量构成类型的去噪结果。这意味着结果将形成一个近似光滑流形。因此,流形降维的平均值作为基准偏差的措施。在这项研究中提出的框架可以使用任何流形降维方法来建立一个映射函数。假设表示为选定的流形降维方法 ;然后, 和 代表从减少维来维 。当映射函数得到的平均值,它是表示 。此外,有必要建立的降维结果造成的偏差值协方差。把锚向量和当地范围作为一个例子,因为 和 为一个特定的维度 ,我们可以计算方差参数的偏差值,因为在维度 ,也就是说, 在哪里是 - - - - - -th元素均值向量和是 - - - - - -对角元素的协方差 。遍历所有的维度的数据,可以获得的偏差值。偏差值分为积极的和消极的价值观,因为方差的方向,表示为 。
我们遍历所有锚向量获取所有本地偏差值集 并使用正面和负面的偏差得到降维映射功能和 ,分别。现在,我们获得了流形降维分布参数,也就是 。为了测量低维偏差值由噪声引起的,该框架在这项研究中需要以下两个计算:
(1)计算每个尺寸的偏差值的低维空间。我们使用 表示与分布参数的降维。对于任何 - - - - - -th维度,计算偏差的公式如下:
上述的偏差计算公式表示 - - - - - -th维度在局部范围内的锚向量 。
(2)低维空间数据的距离计算。的计算公式如下:
在上面的欧氏距离计算公式代表数据的偏差计算距离的局部范围内锚向量 。
为了进一步实现降维的整体噪声数据和测量噪声的干扰效应,基于获取锚的流形降维分布参数向量和当地的偏差值,该框架在这项研究提供了一个distance-weighted降维方法的原始值的数据。
使用distance-weighted方法的原因是,任何一个数据样本 ,可能位于当地的一个或多个锚向量,和噪音干扰由每个锚向量及其位置会影响当前的样本 。在这项研究中,当前样本之间的距离的比值和每个锚的地方平均向量作为重量。的偏差值来自偏差的加权和的结果每个锚的维向量。具体来说,假设样本的数据的地方吗这些锚锚向量,向量表示为 。然后,我们计算距离当地这些锚向量的平均值,也就是说,
每个维度的偏差值的低维当地锚向量被表示为 ;然后,每个维度的偏差值的低维空间是
对整个数据 ,降维结果 ,和每个维度的偏差值(11介绍获得整个低维的整个数据的偏差值与噪声干扰。为一个特定的维度 ,它是表达如下:
我们遍历总体低维并获得和 。因此,整个数据的偏差值在低维空间距离可以从欧氏距离计算获得(12)。
上述偏差值计算为每个维度在低维空间和整体数据在低维空间如图1。
(一)
(b)
通过重量、不同的局部范围内可以同时影响最后的偏差值。
总结以上三个部分的算法的示意图说明图2在下面。
拟议的框架的计算过程如下。
(1)输入数据样本和噪声 ;(2)功能 ;(3)过滤功能 ;(4)一个流形降维算法 。
过程。步骤1。建立一个图表 根据数据 ,在权重矩阵计算(1)。步骤2。计算拉普拉斯算子的矩阵图的并获得特征向量矩阵特征值矩阵通过矩阵分解。步骤3。确定锚向量集根据极性最大的特征向量。步骤4。为每一个 ,执行以下操作:应用信号函数在 。计算谱图信号的小波系数函数根据(7)。确定锚向量的局部范围根据(8)。获得锚的分布参数向量位置根据(9)。第5步。学会获取流形降维结果使用所有的意思是锚向量的向量集 。步骤6。使用所有锚向量集的协方差和(10)获得所有偏差值向量和学习获得流形降维结果 。步骤7。学会获取流形降维结果对所有数据 。步骤8。获得每个维度的偏差值的低维空间根据(11)。第9步。为每一个 ,执行以下操作:根据(13),计算比率之间的距离和当地的平均值锚当地范围包含向量组成的 。计算差值 的根据(14)和(15)。
输出。低维数据样本。 。
4所示。实验
对该算法框架中,两个模拟数据集和两个图像数据集选择算法实现和仿真。
4.1。瑞士卷数据集
这个三维数据集共有1000个数据样本。高斯噪声0均值和标准差为0.5添加到每个样本点,如图3。
我们构造图并计算拉普拉斯算子矩阵和它的特征值分解的结果 。最大的极性特征向量用于确定局部分析锚向量的集合,如图4。
接下来,图光谱小波方法决定每个锚向量的局部范围。本研究中选择的过滤函数 ,在哪里代表了拉普拉斯算子矩阵的最大特征值。这个函数低通特性。的参数可以控制低通频域宽度,因此改变当地的范围。在实践中,滤波函数的参数应选择适当的测试。为当前的仿真过程中, 被选中。一个信号功能应用于每个锚向量,图中节点的小波系数计算,这样每个锚向量的局部范围确定的总能量比小波系数。四锚向量是随机选择可视化例子,如图5。
(一)
(b)
(c)
(d)
对于每一个当地的范围,我们估计分布参数,即均值和协方差参数。根据(9),当地的平均向量和偏差值的三维空间中的每个锚矢量局部范围可以绘制,如图6。
均值向量用于学会确定降维 ,和偏差是用来学会确定降维 。为了可视化算法框架所示(获得的偏差值16),积极Z设在价值在三维空间中用于表示存在的偏差值,因为积极的分布参数的标准偏差,和负面的价值Z设在值用于表示因为负面的存在分布参数的标准偏差,也就是说,
现在,我们可以获得的降维结果均值向量和偏差值,如图7。该算法框架可以引入任何类型的流形降维方法。在实验中,四种常用方法:选择勒,ISOMAP,米歇尔,LTSA。
(一)
(b)
(c)
(d)
从图可以看出7的低维结果不同的流形学习方法和噪声干扰造成的偏差值是不同的。
我们利用流形学习对整个噪声数据进行降维,提出了距离加权法计算的偏差值的噪声干扰降维结果。为了可视化偏差的结果,积极的和消极的Z相互重合仍选择表示偏差值在低维空间中,如图8。
(一)
(b)
(c)
(d)
从图可以看出8,降维结果的偏差值分布参数表现出一定的形态特征,为不同的降维方法是不同的。
4.2。s型数据集
这个数据集共有1000个数据样本。高斯噪声0均值和标准差为0.5添加到每个样本点,如图9。
根据锚向量集和当地的范围确定方法的框架,如图设置的锚点10和当地的范围由六个随机选择锚的小波系数向量的例子,如图所示11。
(一)
(b)
(c)
(d)
在确定锚向量和地方范围内,分布参数估计和偏差可以获得基于标准差的积极和消极的方向,如图12。
类似瑞士卷数据集实验,平均向量和偏差值在图12用来计算偏差值是由噪声引起的干扰。四种常用的流形方法:勒,ISOMAP,米歇尔,LTSA减少二维和使用的积极和消极的方向Z设在表明计算偏差值,如图13。
(一)
(b)
(c)
(d)
然后,流形降维处理原始数据,执行和偏差值计算的噪声干扰降维结果。同样的,选择的积极和消极的方向Z设在指示偏差值在低维空间。
图14还表明,噪声的干扰流形降维结果随方法和有不同的特征。
(一)
(b)
(c)
(d)
4.3。MNIST数据集
MNIST数据集是一组手写数字灰度图像的大小 以像素为单位。本节实验的目的是测试该算法框架的有效性与分类标签数据集。因此,2000年的“0”和“1”的图像是任意选择的两种样品,和1500年的图像“0”,“1”和“2”是任意选为三级样本。可视化,每个图像数据矢量化 向量样本,减少用于二维流形降维方法,积极的和消极的Z相互重合的三维空间是用来描述噪声干扰造成的偏差值在低维空间。
4.3.1。两种样品
高斯噪声添加到原来的向量,2000 0均值和标准偏差为0.5。ISOMAP算法框架使用勒,米歇尔,LTSA,常用的流形降维方法和滤波器的参数函数是 。图15是原始图像的一个例子。图16显示的结果流形降维结果和正面和负面的偏差值标准偏差方向低维空间。
(一)
(b)
(一)
(b)
(c)
(d)
见图16减少到两个维度,不同阶层之间的距离是显而易见的,类标签可以区分,降维结果的偏差值与分布参数也有明显的阶级歧视。的差异也可以表明噪声干扰的变化在不同的数据集的地方。
4.3.2。三级样品
高斯噪声添加到原来的向量,1500 0均值和标准偏差为0.5。其他条件相似的两种实验。图17是原始图像的一个例子。图18显示尺寸减少的结果和偏差。
(一)
(b)
(一)
(b)
(c)
(d)
结果在图18也有明显的阶级歧视,每个样本点的噪声干扰的区别可以表达的流形降维结果之间的差异和分布参数。
4.4。Fashion-MNIST数据集
fashion-MNIST数据集属于MNIST数据集的扩展版本,包括 灰度图像集的十个分类标签等物品“t恤,”“牛仔裤”和“毛衣”。
4.1.1。两种样品
我们任意选择“t恤”和“靴子”两种样品。处理方法MNIST数据集实验是一样的。高斯噪声0均值和标准偏差为0.5。每个类随机由1000个数据样本。该算法框架是用于处理样品,和滤波器的参数功能是 。图19是原始图像的一个例子。图20.显示了流形降维的结果和偏差值降维结果的分布参数。
(一)
(b)
(一)
(b)
(c)
(d)
我们可以看到在图20.,降维结果有明显的阶级歧视,被噪声干扰偏差非线性和阶级歧视。
10/24/11。三级样品
我们任意选择三级的样本“裤子,”和“t恤,靴子。”实验的设置是一样的两种过程。高斯噪声0均值和标准偏差为0.5。我们随机将500个数据样本每个类进行降维处理。图21是原始图像的一个例子。实验结果如图所示22。
(一)
(b)
(一)
(b)
(c)
(d)
我们可以看到在图22,降维结果直观地保留了阶级歧视,从噪声干扰和偏差值不仅是非线性的,而且也有一个视觉阶级歧视。
5。结论
本文提出一种manifold-based降维算法框架处理噪声数据的能力。考虑多方面的定位和分布特征所带来的噪音干扰,我们提出一个方法来确定当地锚向量使用图抽样和锚向量的局部范围的确定方法基于小波频谱图。在每个局部范围内的锚向量,最大似然估计是用来估计分布参数,和distance-weighted偏差值计算方法提出了降维结果与分布参数。其中,降维可以采用当前使用的流形学习方法。
从噪声数据的仿真,该框架能实现噪声数据的降维与偏差值测量引起的噪声干扰和降维结果和偏差值提供了明显的歧视分类数据包含类标签。此外,该框架可以适用于其他类型的降维方法,用这种方法来扩展功能的方法将噪声数据作为输入被应用于更复杂的情况。
本文将进一步研究在不同的流形降维计算与其他类型的分布参数,优化过滤函数,定量评价方法的研究。
数据可用性
本文利用公共MNIST和fashion-MNIST数据集。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金(没有。61903029),中国(没有国家重点研发项目。2017 yfb0702100),国家环境腐蚀材料平台。