文摘
最近,卷积神经网络具有优良的性能在各种视觉任务,包括常见的二维图像的分类。摘要深卷积神经网络是用来直接高光谱图像光谱域进行分类。更具体地说,该分类器的架构包含五层重量的输入层,卷积层,马克斯池层,完整的连接层和输出层。这五层上实现每个光谱特征歧视他人。基于几个高光谱图像数据集实验结果表明,该方法可以获得较好的分类性能比一些传统方法,如支持向量机和传统的基于深度学习的方法。
1。介绍
高光谱图像(HSI) [1)是通过远程传感器,它具有数以百计的观察与高光谱分辨率通道。以丰富的光谱信息的优势,许多传统的分类方法,如最近邻居(神经网络)、最小距离和逻辑回归2),已经开发出来。最近,一些更有效的特征提取方法以及提出了先进的分类器,如spectral-spatial分类(3)和地方Fisher判别分析(4]。在目前的文献中,支持向量机(SVM) [5,6)被视为一个有效和稳定的高光谱分类任务的方法,特别是在小训练样本大小。SVM寻求独立的两种数据通过学习最好的最优决策超平面分离kernel-included高维特征空间中的训练样本。一些扩展支持向量机的高光谱图像分类提出了提高分类的性能(3,7,8]。
神经网络(NN),如多层感知器(MLP) [9)和径向基函数(RBF) (10)神经网络,已经研究了遥感数据的分类。在[11),作者提出了一个semisupervised大规模HSI分类的神经网络框架。实际上,在遥感分类任务,支持向量机优于传统神经网络的分类精度以及计算成本。在[12),一个更深层次的体系结构的神经网络被认为是一个强大的模型分类,其分类支持向量机性能之间的竞争。
基于深度学习方法实现承诺的性能在许多领域。在深入学习,卷积神经网络(cnn) [12)处理visual-related发挥主导作用的问题。cnn是生物启发的深度学习模型和多层类使用单个神经网络训练的端到端从原始图像像素值分类器输出。cnn的想法是首先介绍了(13在[],改善14],提炼和简化[15,16]。大规模的训练数据来源和高效的实现在gpu, cnn最近表现优于其他传统的方法,甚至人类性能(17),在许多vision-related任务,包括图像分类(18,19),对象检测(20.),现场标签(21),门牌号码位数分类(22),和人脸识别23]。除了视觉任务,cnn一直还应用于其他领域,如语音识别(24,25]。这项技术已被证实为一个有效的模型来理解视觉形象的内容,给一些先进的结果视觉图像分类和其他visual-related问题。在[26),作者提出了对HSI款分类,堆放autoencoders(节约)是用来提取区别的特征。
cnn已经证明提供更好的分类性能比传统的支持向量机分类器(27和传统的深层神经网络(款)18visual-related地区]。然而,由于cnn一直在只考虑visual-related问题,技术上有罕见的文献与多层HSI分类。在这篇文章中,我们已经发现,cnn可以有效地用来分类后的高光谱数据建立适当的层结构。根据我们的实验中,我们观察到典型的cnn,如LeNet-5 [14与两个卷积层),实际上是不适用于高光谱数据。另外,我们提出一个简单但有效的CNN架构包含五层的权重监督HSI分类。几个实验证明性能优良的方法比经典的支持向量机和传统的深度学习的体系结构。据我们所知,这是首次采用CNN与多层HSI分类。
本文组织如下。节2,我们给cnn的简要介绍。节3CNN,典型的体系结构和相应的培训过程。节4实验中,我们比较我们的方法与支持向量机的性能和一些神经网络与不同的体系结构。最后,我们得出结论,总结我们的研究结果5。
2。美国有线电视新闻网
cnn代表前馈神经网络由各种组合的卷积层,马克斯池层和完全连接层和利用空间本地相关执行当地的相邻层的神经元之间的连接模式。卷积层相间max池层模仿的性质复杂和哺乳动物视觉皮层简单细胞(28]。CNN由一个或多个对卷积和最大池层,最后以一个完全连接的神经网络。一个典型的卷积网络体系结构如图1(24]。
在普通深层神经网络,神经元连接到下一层的所有神经元。cnn不同于普通神经网络中神经元卷积层只有稀疏连接到下一层神经元,基于他们的相对位置。也就是说,在一个完全连接款,每个隐藏激活计算乘以整个输入通过权重在这一层。然而,在cnn,计算每个隐藏激活乘以一个小地方输入权重。权重然后在整个输入空间共享,如图1。神经元属于同一层共享相同的权重。体重共享是cnn的一个关键原则,因为它有助于减少的总数可训练的参数和导致更有效的培训和更有效的模型。卷积层通常是紧随其后的是一个马克斯池层。
由于复制CNN的重量,一个特性可能会检测到输入数据。如果一个输入图像转移,神经元检测功能是转移。连接池是用来制造从位置不变的特性,并总结了多个神经元的输出卷积层通过池功能。典型的池函数是最大的。马克斯池功能基本上返回输入的最大值。马克斯池输入数据划分成一组不重叠的窗口和输出最大值为每个子区域,降低了计算复杂度为上层提供平移不变性的一种形式。用于分类,CNN的计算链结束在一个完全连接网络,集成了信息在所有位置的下面层的特征图谱。
cnn的大部分工作在图像识别有较低的层由备用卷积和最大池层,而传统MLP NNs上层完全连接。例如,LeNet-5是这样一个CNN架构提出了手写数字识别(14)首先,然后成功地用于解决其他visual-related问题。然而,LeNet-5可能不是直接采用HSI分类,尤其是对小型数据集,根据我们的实验部分4。在本文中,我们将探索什么是合适的架构和战略CNN-based HSI分类。
3所示。CNN-Based HSI分类
3.1。cnn应用到HSI分类
cnn的分层架构逐渐被证明是最有效的视觉表现和成功的学习方法。在这样的视觉任务的基本挑战是模型组内外观和形状变化的对象。高光谱数据与数以百计的光谱通道可以作为二维曲线如图(一维数组)2(9类选择帕维亚大学的数据集)。我们可以看到,每一个类都有自己的视觉形状的曲线是不同于其他类,虽然相对很难区分一些人眼的类(例如,砾石和阻挡效应砖)。我们知道cnn可以实现竞争,甚至比人类更好的性能在某些视觉问题,及其能力激发我们学习的可能性,cnn申请恒生指数分类使用的光谱特征。
(一)沥青
(b)草地
(c)碎石
(d)树
(e)表
(f)裸露的土壤
(g)沥青
(h)砖
(我)的阴影
3.2。拟议的CNN分类器的体系结构
CNN不同卷积和最大池层是如何实现的,篮网是如何训练的。如图3,网络包含五层重量,包括输入层、卷积层C1,马克斯池层M2,完整的连接层F3,输出层。假设代表所有的可训练的参数(重量值),和,在那里之间的参数集()th和层。
在溪,每个HSI像素样本可以被看作是一个2 d图像的高度等于1 (1 d音频输入语音识别)。因此,输入层的大小而已,是乐队的数量。第一个隐藏的卷积层C1过滤器输入数据与20粒的大小。层C1包含节点,。有可训练的参数层C1和输入层之间。最大池层M2是第二个隐藏层和内核大小。M2层包含节点,。在这一层没有参数。完全连接层F3节点和有可训练的这层与层之间M2参数。输出层有节点,还有该层与层之间F3可训练的参数。因此,我们提出的架构CNN分类器完全可训练的参数。
分类指定HSI像素与上述参数,需要相应的CNN和的光谱通道的大小和输出类的数目的数据集,分别。在我们的实验中,更好的是,。可以是任何数量在30 - 40之间,然后呢。设置为100。这些选择可能不是最好的,但一般的恒生指数数据是有效的。
在我们的架构中,C1和M2层可以被视为一种可训练的特征提取器输入恒生指数数据,和F3层特征提取器是一种可训练的分类器。二次抽样是实际的输出特性的原始数据。在我们提出的CNN结构,20特性可以从每个原始高光谱中提取,和每个功能都有维度。
我们的架构有一些相似之处的架构,CNN申请频域信号在语音识别24,25]。我们认为这是由于1 d输入语音频谱之间的相似性和高光谱数据。不同于(24,25),我们的网络根据光谱通道不同大小和输出类输入恒生指数的数据的数量。
3.3。培训策略
在这里,我们介绍如何学习提出了CNN的参数空间分类器。所有可训练的参数在CNN应该初始化是一个随机值−0.05和0.05之间。培训过程包含两个步骤:正向传播和反向传播。向前传播的目的是计算实际的输入数据的分类结果与当前参数。采用反向传播来更新训练参数之间的差异,使实际产出和分类所需的分类输出尽可能小。
3.3.1。向前传播
我们的()层CNN网络(在这项工作)组成输入单元层的输入,输出在输出层单元和几个所谓的隐藏单元层C2, M3, F4。假设是输入的th层和输出的()层,然后我们可以计算作为 在哪里 和是一个权重矩阵的吗th层作用于输入数据是一种添加剂偏差向量的层。的激活函数吗层。在我们的设计架构,我们选择了双曲正切函数一层一层C1和F3的激活函数。最大的功能用于层平方米。自提出CNN分类器是一个多类分类器,F3是美联储的输出层softmax函数产生一个分布的方法类标签,将softmax回归模型被定义为
输出向量层的输出表示最终的当前迭代中所有类的概率。
3.3.2。反向传播
在反向传播阶段,可训练的参数更新使用梯度下降法。它是意识到通过最小化代价函数和计算代价函数的偏导数对每个可训练的参数(29日]。这项工作中所使用的损失函数被定义为 在哪里是训练样本的数量。是所需的输出。是实际产出的价值(见(3))训练样本,是一个向量的大小。在所需的输出的样品,标签类的概率值是1,和其他类的概率值是0。意味着,如果等于所需的标签训练样本,它的值是1;否则,它的值是0。我们的前面加一个负号为了使计算更方便。
损失函数的导数与尊重是 在哪里表示element-wise乘法。可以很容易地表示为 因此,在每次迭代中,我们将执行更新 可训练的参数调整,是学习的因素(在我们的实现), 我们知道包含和, 在哪里
越来越多的训练迭代,成本函数的回归是小,这表明实际的输出接近所需的输出。迭代停止时,它们之间的差异足够小。我们用平方和来表示平均差异。最后,训练有素的CNN准备HSI分类。摘要中显示了该算法的算法1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.4。分类
从体系结构和相应的可训练的所有参数指定,我们可以构建CNN分类器分类HSI数据并重新加载保存参数。分类的过程就像向前传播步骤中,我们可以计算出分类结果(3)。
4所示。实验
所有的程序都使用Python语言实现和Theano30.)图书馆。Theano是一个Python库,让我们轻松地定义、优化和评估数学表达式在gpu涉及多维数组有效和方便。上生成的结果是一个电脑配备2.8 GHz的英特尔酷睿i7和Nvidia GeForce GTX 465图形卡。
4.1。数据集
三个高光谱数据,包括印度的松树,萨利纳斯,和帕维亚大学的场景,是用来评估该方法的有效性。所有的数据,我们随机选择200标记像素每个类培训和所有其他像素在地面实况图测试。发展数据来源于可用的训练数据通过进一步划分成训练和测试样本进行调优的参数提出了CNN分类器。此外,每个像素比例均匀。
印度松树收集的数据集是机载可见光/红外成像光谱仪(AVIRIS)传感器在印第安纳州的西北部。有220个光谱通道在0.4到2.45米区域的可见光和红外光谱的空间分辨率20米。从统计的角度来看,我们丢弃一些类,只有一些标签样本,选择8类的训练和测试样本的数量列在表中1。层提出了CNN的这个数据集分类器参数设置如下:,,,,,,,总可训练的参数数据集的数量是81408。
第二个数据收集的工作也AVIRIS传感器捕获面积在萨利纳斯山谷,加利福尼亚,空间分辨率为3.7 m。图像由像素220乐队。它主要包含蔬菜、裸露的土壤,和葡萄园字段(http://www.ehu.es/ccwintco/index.php/Hyperspectral_Remote_Sensing_Scenes)。也有16个不同的类,和数字的训练和测试样本表中列出2。这个数据集在CNN的层参数设置,,,,,,,总可训练的参数数据集的数量是82216。
帕维亚大学收集的数据集是由反射光学系统成像光谱仪(防治)传感器。图像场景,空间的报道意大利帕维亚像素覆盖城市,收集下HySens项目由经销商管理(德国航空航天机构)。之前的数据集有103个光谱波段水去除。它有一个光谱覆盖范围从0.43到0.86米和1.3米的空间分辨率。大约有42776标记像素9类从地面真理地图,和数字的训练和测试样本如表所示3。这个数据集在CNN的层参数设置,,,,,,,总可训练的参数数据集的数量是61249。
4.2。结果和比较
表4提供了分类性能的比较该方法与传统的SVM分类器。支持向量机与RBF内核实现使用libsvm包(http://www.csie.ntu.edu.tw/ ~ cjlin / libsvm);交叉验证也用来确定相关参数,和所有最优的用于以下实验。很明显,我们提出的方法具有更好的性能比支持向量机分类器(大约2%)使用所有三个数据集。数据4,5,6说明与我们的方法和获得的相应分类地图RBF-SVM分类器。此外,与RBF-SVM相比,提出的CNN分类器不仅具有更高的分类精度对整个数据集,也对几乎所有的具体类,如图7。
(一)
(b)
(c)
图8进一步说明了分类精度和训练时间之间的关系(包括测试时间也)三组实验数据。增加培训时间,每个数据的分类精度可以达到90%以上。我们必须承认,培训过程相对比较耗时的实现良好的性能;然而,拟议的CNN分类器同样的优势(例如,快速测试)的深度学习算法(见表5)。此外,CNN的实现在很大程度上可以提高效率,也可以使用其他CNN框架,如咖啡(31日),以减少培训和测试时间。根据我们的实验中,只需要5分钟达到90%的准确率MNIST数据集(32)通过使用咖啡相比,超过120分钟通过使用我们的实现框架。
(一)
(b)
(c)
图9演示了成本价值之间的关系(见(4))和帕维亚大学的数据集的训练时间。减少损失函数的值与越来越多的训练迭代,这表明我们网络的收敛为每个类只有200个训练样本。此外,成本价值仍然是减少后5分钟训练,但相应的测试精度相对稳定(见图8(一个)),这表明这个网络的过度拟合问题。
进一步验证该分类器适用于分类训练样本有限的数据集,我们也把我们的CNN与RBF-SVM帕维亚大学的不同培训规模数据集,如图10。很明显,我们建议的CNN一直比支持向量机提供更高的精度。然而,尽管传统的基于深度学习方法(26)可以比SVM分类器,它需要大量的训练样本构造autoencoders。
展示的分类精度和视觉差异之间的关系曲线的形状(见图2),我们提供详细的精度提出了帕维亚大学的CNN分类数据集表6。在表中,细胞的行,th列的百分比th类样本(根据地面实况)这是机密的类。例如,87.34%的沥青类样本正确分类,但6.25%的沥青类沥青样品错误分类类。对角线上的百分比对应类的分类精度。对于一个类,对应的曲线形状,越独特越高准确性提出了CNN分类器可以实现(检查类的影子和类表图2和表6)。类似的两条曲线越多,更高的机会他们相互错误分类(检查类砾石和类砖图2和表6)。此外,优秀的性能验证提出了CNN分类器有区别的微妙的视觉特征的提取能力,这甚至比人类的视觉分类复杂曲线的形状。
最后,我们还实现印度的其他类型的神经网络架构的三个松树数据集使用相同的训练和测试样本。第一个是一个简单的建筑只有两层完全连接在输入层。第二个是LeNet-5这是一个典型的CNN架构有两个卷积层。第三个是传统的深层神经网络(款)与3隐藏完全连接层(220-60-40-20-8架构的建议26])。分类性能总结表5。从表5,我们可以看到,CNN分类器实现最高精度与计算成本竞争力的培训和测试。LeNet-5和款花费更多的时间来训练模型由于其复杂的结构,但有限的训练样本分类限制他们的能力(只有20%选择样本进行检测26在我们的实验中这一比例为95%)。困难的另一个原因,更深层次的cnn和款面临实现更高精度的类型可能是恒生指数缺乏高频信号中常见的计算机视觉领域(见图2)。
5。结论和未来的工作
在本文中,我们提出了一个新颖的CNN-based HSI分类的方法,启发我们观察到HSI分类可以通过人类的视觉来实现。与基于svm分类器和常规DNN-based分类器相比,该方法可以实现更高精度使用所有的实验数据集,即使少量的训练样本。
我们的工作是一个探索使用cnn HSI分类和具有良好的性能。我们提出的架构CNN分类器只包含一个卷积层和一个完全连接层,由于小训练样本的数量。在未来,被称为暹罗网络的网络体系结构33可能被使用,已被证明是健壮的情境,每个类别的训练样本数量很小。一些技术,如辍学(34),也可以用来缓解过度拟合问题由训练样本有限造成的。此外,最近的研究在深度学习表示,可以使用无监督学习训练cnn,显著减少标签样本的要求。深度学习,特别是深cnn,应该为HSI分类有很大的潜力在未来。此外,在目前的工作,我们不考虑空间相关性,只有集中精力的光谱特征。我们相信,一些空间谱技术也可以应用于进一步提高CNN-based分类。最后,我们计划采用高效深CNN框架,如咖啡,来提高我们的计算性能。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由中国国家自然科学基金共同支持(61371165和61371165号),中国973项目(没有。2011 cb706900),新世纪优秀人才在大学项目批准号ncet - 11 - 0711,在北京化工大学跨学科研究项目。张魏胡锦涛和球迷也支持北京高等教育的年轻精英教师项目批准号。YETP0501 YETP0500,分别。