文摘

深入学习方法已经成功地应用到学习特性为高维数据表示,在学习特性能够揭示非线性属性数据中展出。本文深度学习的方法是利用高光谱数据的特征提取和分类任务的提取功能可以提供良好的辨别力。训练一个网络特征提取和分类包括无监督pretraining和监督微调。我们利用堆叠降噪autoencoder pretrain网络(SDAE)方法,强大的噪音。顶层的网络,逻辑回归(LR)方法是用来执行监督微调和分类。从稀疏的特性可能会提高分离能力,我们利用修正线性单元(ReLU)激活函数SDAE提取高水平和稀疏的特性。实验结果使用Hyperion、AVIRIS和防治高光谱数据表明SDAE pretraining会同LR微调和分类(SDAE_LR)可以获得更高的精度比流行的支持向量机(SVM)分类器。

1。介绍

高光谱遥感图像越来越可用并可能提供大大提高土地覆盖分类的判别能力。流行的分类方法如 最近邻(1),支持向量机(2],semisupervised分类器(3)已经成功地应用于高光谱图像。除此之外,一些特征匹配方法在计算机视觉领域也可以广义的光谱分类(4,5]。

特征提取是非常重要的高光谱数据的分类和学习特性可能会增加可怕地相似的类之间的分离,从而提高员工的分类性能。常用的线性特征提取方法,如主成分分析(PCA)和线性判别分析(LDA)是简单和容易实现。然而,这些方法没有模型的非线性结构数据。流形学习方法,提出了非线性特征提取,能够描述数据点之间的非线性关系(1,6,7]。然而,他们只能处理有限数量的数据点由于其较高的计算复杂度。深度学习的方法,还可以学习的非线性特性,能够处理大规模数据集。因此,我们利用深度学习高光谱数据的特征提取。

提出了深度学习训练神经网络对特征提取和分类。训练过程包括两个步骤:无监督layer-wise pretraining和监督微调。的layer-wise pretraining [8)可以减轻网络培训的难度深,自从学会了网络权值编码数据结构作为初始权重的整个网络。由逻辑回归的监督微调(LR)方法旨在进一步通过最小化分类误差调整网络的权值,标记的数据点。培训网络可以同时实现高水平的特性和分类。受欢迎的深度学习方法包括autoencoders (AE) [9),去噪autoencoders (DAE) [10],卷积神经网络(CNN) [11网络(DBN)[],很深的信仰12),和卷积限制玻耳兹曼机(CRBM) [13]。高光谱数据分析领域的,陈利用AE数据分类(14张,利用CNN对特征提取15]。

在本文中,我们专注于堆叠DAE (SDAE)方法(16),因为DAE非常健壮的噪音,和SDAE可以获得更高层次的特性。此外,由于稀疏的特性可能会提高分离能力,我们利用修正线性单元(ReLU)激活函数SDAE提取高水平和稀疏的特性。后layer-wise pretraining SDAE, LR层用于微调网络并进行分类。深层网络的特性,通过SDAE pretraining和LR微调被称为tuned-SDAE特性,并利用LR分类器的分类方法tuned-SDAE特性和摘要SDAE_LR以后表示。

本文的组织如下。部分2描述了DAE、SDAE SDAE_LR方法。部分3讨论了实验结果。结论部分进行了总结4

2。方法

给定一个神经网络,AE (14)列车网络通过约束输出值等于输入值,这也表明,输出层有同样多的节点作为输入层。重建误差之间的输入和输出的网络用于调整每一层的权重。因此,AE学到的特性可以代表输入数据。此外,培训AE是无监督的,因为它不需要标签信息。DAE由AE,但更加健壮,因为DAE假定输入数据包含从嘈杂的噪音和适合学习的特性数据。因此,DAE的泛化能力优于AE。此外,可以堆叠DAE获得高水平的特性,导致SDAE方法。layer-wise SDAE网络的训练,因为每个DAE与一个隐藏层是独立训练。SDAE网络,训练后的解码层移除和编码层产生功能保留。对于分类任务,添加一个逻辑回归(LR)层作为输出层。 Moreover, LR is also used to fine-tune the network. Therefore, the features are learned by SDAE pretraining in conjunction with LR fine-tuning.

2.1。降噪Autoencoder (DAE)

DAE包含三层:输入层、隐藏层和输出层,其中隐藏层和输出层也称为编码和解码层,分别。假设原始数据 ,在那里 是数据的维度。DAE首先产生一个向量 通过设置的一些元素为零或添加高斯噪声 。DAE使用 作为输入数据。输入层单元的数量 ,等于输入数据的维数 。DAE的编码是通过非线性变换函数: 在哪里 表示隐藏层的输出,也可以称为特性表征或代码, 是在隐藏层单元的数量, input-to-hidden权重, 表示偏见, 代表隐藏的输入层, 被称为隐藏层的激活函数。我们选择ReLU函数(17]随着激活函数在这项研究中,它是制定

如果该值的 小于零,隐层的输出将是零。因此,ReLU激活函数是表示能够产生一个稀疏的特性,这可能有更好的分离能力。此外,ReLU可以训练神经网络的大规模数据更快和更有效地比其他激活功能。

DAE的解码或重建是通过使用映射函数 : 在哪里 DAE的输出,这也是原始数据的重建 。输出层有相同数量的节点作为输入层。 被称为权重。如果 范围从0到1,我们选择softplus函数作为解码函数 ;否则我们进行预处理x由零相位成分分析(ZCA)美白,使用一个线性函数作为解码功能: 在哪里 。DAE旨在训练网络,要求输出数据 重建输入数据 ,这也被称为reconstruction-oriented培训。因此,应该使用重建误差作为目标函数或成本函数,定义如下: 在熵函数的值时使用输入 范围从0到1;否则使用的平方误差函数。 表示 的th元素 th样本 是L2-regularization术语,也称体重衰变。参数 控制正则化项的重要性。这是解决优化问题使用minibatch随机梯度下降法(MSGD)算法(18),而 在(5)表示minibatch的大小。

2.2。堆叠降噪Autoencoder (SDAE)

DAE可以堆叠建立深层网络已不止一个隐层(16]。图1显示了一个典型的实例SDAE结构,包括两层编码和解码两个层。编码部分,第一层编码的输出作为输入数据的第二编码层。假设有 隐藏层的编码部分,我们的激活函数 th编码层: 在哪里输入 是原始数据 。输出 最后的编码层是高水平SDAE网络特征提取。在解码部分,首先解码的输出层被认为是第二个解码层的输入。的解码功能 th解码层是 在哪里输入 第一层是解码输出 最后的编码层。输出 最后的解码层是原始数据的重建

的训练过程SDAE提供如下。

步骤1。选择输入数据,可以随机选择从高光谱图像。

步骤2。火车第一DAE,包括第一个编码层和最后一个解码层。获得网络的权重 和特性 这是第一个编码的输出层。

步骤3。使用 的输入数据 编码层。培训 th DAE并获得 和特性 ,在那里 是网络中的隐藏层的数量。

可以看出,每个DAE独立训练,因此SDAE叫做layer-wise培训的培训。此外,由SDAE训练网络权值作为初始权重在以下LR微调阶段。因此,SDAE pretrains网络。

2.3。SDAE_LR

SDAE_LR包括SDAE pretraining和LR微调。SDAE reconstruction-oriented列车网络权重和获得特性的学习,和学习权重作为网络的初始权值。此外,LR是用来调整网络权值和获得调整功能。值得注意的是,SDAE无监督,而LR监督,只有数据和标签信息可用于LR阶段。SDAE_LR网络如图2,这显示了两分的分类问题(有两个输出值)。我们可以看到删除SDAE和编码的解码部分的一部分SDAE保留生产最初的功能。此外,整个网络的输出层,也叫LR层,补充道。下面的乙状结肠函数作为激活函数的LR层: 在哪里 是输出 最后的编码层。这也是深特性由SDAE pretrained方法。乙状结肠的输出函数是在0和1之间,表示分类的结果。

标签相关的训练数据点,因此我们可以使用预测分类结果和真实值之间的错误标签来调整整个网络权重。成本函数被定义为以下熵函数: 在哪里 表示样品的标签 。最小化代价函数,我们可以更新网络权重。这个优化问题也是由MSGD方法来解决。

SDAE_LR网络训练的步骤如下。

步骤1。SDAE利用训练最初的网络权值,描述的部分2。2

步骤2。LR层是随机的初始权重集。

步骤3。训练数据作为输入数据,预测分类结果与整个网络的初始权值。

步骤4。网络权值是通过最小化代价函数的迭代调整(9)使用MSGD优化方法。

网络训练后,我们可以计算任何输入数据的特点,这是最后的输出编码层。我们称之为学习的特性SDAE pretraining和LR微调tuned-SDAE特性。值得注意的是,LR分类器是一个网络的一部分。LR的输出层,这也是整个网络的输出,表示分类的结果。因此,SDAE_LR同时获得特征提取和分类。此外,除了LR,其他监督分类器和支持向量机(SVM)也可以结合tuned-SDAE特性。

3所示。实验结果和分析

3.1。数据描述

三个高光谱图像被用于实验。一个是收集1992年印度松(输入)。这张照片是20米的空间分辨率;图像的可用频带分析200后去除噪声和水的吸收带。一个被亥伯龙神收购仪器奥卡万戈三角洲,博茨瓦纳(机器人),2001年5月。224 -乐队Hyperion数据10纳米光谱分辨率在400 nm - 2500 nm的范围。最后高空间分辨率高光谱图像收集反射光学系统成像光谱仪(防治)帕维亚大学(PU),意大利。这个数据集有103维谱范围从430纳米到860纳米,及其空间分辨率为1.3 m。机器人和PU数据包含9土地覆盖类型,并输入有13个土地覆盖类型。图3显示了RGB图像和地面参考信息类机器人的传说,聚氨酯,并输入图像。表1列表的类名称和数量三个数据集。

3.2。网络配置

我们首先规范化数据的范围在0和1之间,然后随机选择2万数据点从机器人,聚氨酯,并输入图像,用于无监督pretraining SDAE。监督LR训练阶段,我们随机标记数据分为训练数据,验证数据和测试数据,用一个比5:2:3。训练数据中使用LR微调,验证数据参数调优和终止MSGD迭代的方法,为评估和测试数据的算法。

网络配置包含三个参数,隐藏层的数量,隐层单元的数量,高斯噪声的标准差。选择隐藏层的数量范围从1到5,选择单位的数量 ,选择高斯噪声的标准差 。这些参数的最优选择是根据最优分类结果获得验证数据。机器人,聚氨酯,并输入数据,最佳层数是4,3和3,分别;的最佳选项的数量单位是100年,300年和200年,分别;的最佳选择高斯噪声的标准差是0.6,0.6,和0.2,分别。此外,网络训练包括两个参数:pretraining的时代和微调将于200年和1500年,和学习pretraining和微调经验选为0.01和0.1。

我们使用Theano进行SDAE_LR分类。Theano是一个Python库,可以定义、优化,有效地评估涉及多维数组的数学表达式,可以使用GPU加速计算。

3.3。SDAE_LR分类性能

SDAE_LR方法相比,支持向量机分类器在本节中,与线性SVM分类器和RBF内核进行了原始数据,分别被指示为LSVM和RSVM。RSVM分类器的参数优化,交叉验证方法,和LSVM惩罚参数被设置为2。使用整体精度的比较结果(OA %)如表所示2。可以看出SDAE_LR比LSVM所有三个数据集和获得更高的精度比RSVM聚氨酯并输入数据。这表明学习的特性SDAE pretraining和LR微调可以有效地增加了类之间的分离。图4显示整个图像的分类结果使用SDAE_LR三张图片。可接受的结果表明SDAE_LR方法的泛化能力好。

使用一台机器与英特尔至强的CPU i7 - 4770, GPU NVIDIA Q4000, 8 G RAM,机器人三个分类器的计算时间,聚氨酯,并输入数据如表所示3,LSVM RSVM使用CPU和实现SDAE_LR利用GPU的计算。LSVM成本最少时间和RSVM是最耗费时间的,因为参数调优。我们没有提供确切的时间RSVM PU数据因为它是超过12小时。拟议中的SDAE_LR RSVM要快得多,因为它是使用Theano实现显著加速计算。值得注意的是,SDAE pretraining快和LR微调成本时间,因为前者是layer-wise训练,后者通过整个网络传播错误。

3.4。比较不同的特征提取方法

SDAE_LR网络的特点是通过SDAE pretraining LR微调,叫做tuned-SDAE特性。我们比较与四个流行的特征提取方法,该方法包括主成分分析、拉普拉斯算子Eigenmaps (LE),局部线性嵌入(米歇尔)与乔治。前三种方法是无监督方法和LDA监督。此外,PCA和LDA线性方法,而勒和米歇尔是非线性的方法。我们设置的数量特征为PCA是50,LE,米歇尔经验。tuned-SDAE特性是通过使用相同的网络配置部分中描述3所示。2

利用主成分分析法(PCA)特征提取之后,勒,米歇尔,LDA, SDAE_LR,我们使用支持向量机分类器分类(LSVM和RSVM)。此外,我们还进行了支持向量机在原始高光谱数据。表45显示这些方法使用的总体精度LSVM RSVM,分别。几个观察可以得到:(1)对于不同的特征提取方法,tuned-SDAE表现最好的。它明显优于其他LSVM所有三个数据集分类器。RSVM分类时,tuned-SDAE特性也得到了最高精度的大部分数据集;(2)相比,支持向量机分类原始高光谱数据,这四个特征提取方法(PCA, LE,米歇尔和LDA)可能不会提高精度,而提出tuned-SDAE功能可以持续获得更好的性能在大多数数据集;(3)的四个特征提取方法(PCA, LE,米歇尔和LDA),我们无法找到一个方法,始终比其他人更好。SDAE_LR获得的特性产生稳定和良好的性能在所有的数据集;(4)RSVM表现好于LSVM原始数据和特性,利用主成分分析法(PCA)提取,米歇尔,和LDA, RSVM LSVM tuned-SDAE特性提供了类似的结果。

最后一列的表2,4,5,我们也可以观察到,tuned-SDAE特性,不同的分类器(LR、LSVM RSVM)导致类似的表演。在三种分类器,LR是简单的,因为它是一个网络的一部分,网络的输出是LR分类结果。

计算的时候不同的特征提取方法在表中列出的三个数据集6。因为勒和米歇尔的计算复杂度 ,在那里 的尺寸和数量吗 点的数量,LE和米歇尔不能处理大规模数据集。PU数据,我们随机选择5000数据点勒和米歇尔和提醒的功能数据点计算了基于泛化方法(1]。我们可以看到,PCA和LDA非常快。对于机器人数据,LE和米歇尔成本小,而对于输入和PU数据,非常耗时,米歇尔也花费时间,因为加工数据点的数量的输入和聚氨酯比机器人更大的数据。特征提取SDAE_LR还需要时间,特别是聚氨酯数据2万数据点用于LR微调阶段。

3.5。分析SDAE_LR网络配置

首先,我们提供三个参数的灵敏度分析网络配置(隐藏层,在每一个隐层的单元数,和高斯噪声的标准差)。其次,我们演示了ReLU激活函数的影响。第三,我们测试了分类性能相对于不同的训练数据率。

5显示参数分析的结果。当一个参数进行了测试,其他参数的值被设置为值描述的部分3所示。2。(1)层的深度网络,我们测试了五种不同的值 , ,分类结果图所示5(一个)。输入和PU数据,最好的层数是3;对于机器人数据,最佳的选择是4。结果在机器人和PU数据对这些参数不敏感的层数大于2时,虽然结果输入数据表明只值2,3,4产生令人满意的性能。(2)每个隐层单元的数量,我们评估七个不同的值 , 。作为显示在图5 (b)最好的数字的单位是100年,300年和200年机器人,聚氨酯,并输入数据,分别。输入数据,小值10分类性能恶化。然而,SDAE_LR不是很敏感这个参数在一个大范围(单位数量> 100)。(3)对于高斯噪声的标准差,我们测试了四种不同的值 。分类结果对这个参数如图5 (c)。最优值是0.6,0.6,0.2,机器人,聚氨酯,并输入数据,分别。它可以是SDAE_LR这个参数不是很敏感。

网络的激活函数的选择是非常重要的,我们选择ReLU函数作为激活函数,因为它是能够产生稀疏的特性。为了演示稀疏的有效性,我们比较两个激活功能:ReLU函数和s形的函数,后者不能获得稀疏的特性。提取的特征SDAE_LR是最后一个隐层的输出,因此特征的维数等于在隐藏层单元的数量。我们将稀疏率定义为零的数量的比率在特征维数的特征。高稀疏率意味着有很多零高度稀疏的特性和功能。图6块稀疏率与不同的单位数量的隐藏层使用ReLU激活函数。与不同数量的单位,稀疏率高,功能和非零值的数量是很小。以聚氨酯数据为例;当单元的数量是400,稀疏率是0.9626。这意味着数量是385 0的特性,和功能只包含15个非零值。表7显示了OA用SDAE_LR ReLU函数和s形的功能。可以看出ReLU函数优于乙状结肠函数在所有三个数据集,这表明稀疏特性使用ReLU函数的效率。

训练数据的数量也会影响网络训练,因为LR微调是监督,只能使用训练数据进一步调整网络权值。图7显示了SDAE_LR性能对不同训练数据的比例(1%、5%、10%、25%和50%)。一般来说,训练数据率导致精度高,因为LR执行监督微调和分类。

4所示。结论

深度学习的SDAE_LR提出了高光谱特征提取和分类,在SDAE pretrains网络以一种无监督的方式,和LR的回馈都整个网络并进行分类。所学到的特性是SDAE pretraining和LR微调。利用网络,ReLU激活函数实现稀疏的特性,这可能提高分离能力的特性。在实验中,SDAE_LR优于流行的SVM分类器与线性和RBF内核。tuned-SDAE特性还提供了分类精度比几个流行的特征提取方法,展示了良好的判别能力的提取功能。在SDAE,利用ReLU函数表现好于乙状结肠函数,表示的稀疏特性的影响。

在SDAE_LR方法中,我们只利用光谱特征的数据。大量的高光谱图像的空间信息也可以提取和利用2,19),如纹理特征、形态特征、空间坐标信息,空间相邻像素之间的关系。我们进一步的工作是结合空间信息SDAE_LR框架进一步提高分类的性能。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是由中国国家自然科学基金会(61102104,61102104),国立大学的基础研究基金,中国地质大学(武汉)(CUG120408 CUG120119),中国科学院自动化研究所。