文摘
由于遥感高光谱数据的维数和体积增加,加速技术的发展为大规模的高光谱图像分析方法是一个非常重要的挑战。云计算提供了许多高光谱数据的分布式处理的可能性。本文提出了一种新颖的基于迭代误差分析的分布式并行endmember提取方法,利用云计算原则有效地处理大规模的高光谱数据。该方法利用技术,包括MapReduce编程模型,Hadoop分布式文件系统(HDFS)和Apache火花为高光谱endmember提取实现分布式并行实现,大大加快了高光谱的计算处理和提供高吞吐量大高光谱数据的访问。实验结果,获得的高光谱数据集的提取endmembers云计算平台建立在一个集群中,证明了该方法的有效性和计算效率。
1。介绍
高光谱遥感图像的特点是他们的大维度和卷,与数百名几乎连续的光谱通道。从地球表面获得的高光谱图像包含丰富的信息空间,辐射光谱,它提供了很大帮助研究人员分析,处理和监测地球表面信息。然而,由于传感器空间分辨率的限制,地被植物的多样性,图像的像素一般混合像素。最重要的一个技术高光谱数据剥削endmember萃取(1],描述混合像素的组合幽灵似地(即纯组件。endmembers)。最小的假设下二次反射和多次散射效应在数据收集过程中,一些技术已经开发在近年来线性分离模型(2),例如迭代误差分析(IEA) (3),独立分量分析(ICA) [4),独立分量分析(十)5),顶点成分分析(VCA) [6(SGA)[],单纯形算法7),和最小体积单工分析(MVSA) (8]。
上述工作得到改善的准确性高光谱endmember提取巨大。然而,它们中的大多数都是非常的运算量,因此妥协他们的适用性在时序要求严格的情况下包括军事侦察、环境质量监测、监测的化学污染,野火跟踪、检测和生物威胁。因此,近年来,许多技术已经开发对提高这些算法在高性能计算架构(9,10]。例如,轻量级的集成组件,比如现场可编程门阵列(fpga) [11),多核的中央处理单元(cpu) [12,13),和商品图形处理单元(gpu) [14,15)已经成功地应用于加速计算。然而,随着高光谱成像技术的发展,高光谱图像的体积增长,传统的计算资源分配机制单一机器是不足以满足有效需求的高光谱处理。因此,大型高光谱数据集的快速endmember提取一直是高光谱遥感领域的一个重要问题。幸运的是,云计算最近越来越受欢迎在研究和商业领域由于其均匀的操作环境和完全控制专用的资源(如网络、服务器、存储、应用和服务)(16,17]。云计算可以被视为改善处理分布式处理、并行处理和网格计算(18]。然而,我们所知,尽管潜在的大规模分布式并行计算在云计算和大规模数据处理高光谱成像的要求,很少有云计算的实现这一类算法的文献。为了有效地从大量的高光谱数据,提取endmembers小说分布式并行endmember提取方法基于迭代误差分析(IEA_DP)提出利用云计算原则有效地处理大规模的高光谱数据。特别是,高光谱数据的存储是组织良好,以减少数据分区之间的相关性以及避免数据倾斜。IEA算法的处理逻辑优化通过减少每个执行节点所产生的中间数据,避免过渡大数据。新开发的方法和评估火花和MapReduce实现模型。效率评估的准确性与串行和并行执行性能通过比较国际能源机构实现在单一CPU。
2。根据国际能源署Endmember提取
让表示高光谱图像N像素,是一个维高光谱影像观察。线性混合模型识别一组光谱纯组分光谱的测量光谱(endmembers)和表达endmembers混合像素的线性组合,通过分数加权丰度表明每个endmember包含的像素的比例(1]。这个过程可以在数学术语描述如下: 在哪里表示一个l——- - - - - -米混合矩阵的endmembers对应的列。这个矩阵是满列秩的一般。在这里,表示endmembers的数量,表示一个米1 endmembers向量包含各自的相对丰度,丰富的一部分吗th endmember,和符号代表向量转置操作;表示一个添加剂l1噪声向量代表的错误影响到测量每个像素的光谱带。Endmember提取高光谱数据的目的是获得一个很好的估计混合矩阵。几种方法被用来执行endmember提取,包括几何、统计和稀疏的回归方法(1]。在这些方法中,IEA算法是最成功的一个算法的第一类,因此得到了广泛的应用。
假设的存在相对纯像素,IEA算法执行一系列的线性约束分离(19),选择endmembers通过最小化剩余误差在纯粹的形象3]。执行本程序直接在光谱数据,不需要转换成主成分(pc)或任何其他消除冗余。IEA的分步描述算法如算法所示1。
|
||||||||||||||||||||||||||
3所示。基于云计算的处理框架
一般来说,云计算使用MapReduce编程模型,它本质上是一种粗粒度并行编程模型。MapReduce模型可以自动并行化大规模的计算任务。更重要的是,实现细节对用户是透明的。用户定义的map和reduce函数的计算,和底层操作系统自动执行跨大规模集群并行计算的机器,使有效的利用网络和磁盘调度intermachine通信(20.]。Hadoop使用MapReduce的云计算框架模型,是很出名的容错性和可扩展性21]。然而,Hadoop的解决方案依赖于从HDFS读写数据,因此速度慢。
幸运的是,Apache火花,一种新型高性能框架能够处理大规模数据处理工作负载在应对越来越大的规模的同时,提出了在22]。这个框架实现了流媒体和交互式查询和演示了其可伸缩性、容错和处理批处理的能力。Apache火花是一个集群计算平台,它是开源的,Hadoop-compatible,快,富有表现力。在数据存储方面,抽象出火花的分布式内存存储结构弹性分布式数据集(抽样)23]。抽样可以控制分区中的数据不同的节点和兼容HDFS。大量的现有数据在HDFS可以加载到抽样处理作为数据源。火花在现有HDFS运行基础设施来提供增强的和额外的功能。此外,火花是基于内存计算,而不是将中间结果保存在内存中写HDFS。
具体而言,为分布式并行处理框架endmember提取基于云计算的高光谱数据可以概括图形如图1。
4所示。分布式并行优化能源机构基于火花
火花是一个可扩展的数据分析平台,集成了原始的计算内存。因此,火花与Hadoop集群存储方法相比达到更好的性能。随着遥感技术的发展,高光谱遥感数据的数据量正在增加。甚至一个单一的像素可能包含数以百计的光谱信息类型,从而导致更多的高光谱数据处理的计算困难。另一方面,加快处理大量数据的高光谱图像的重要性。在这项工作中,我们提出一个分布式IEA算法的并行实现(IEA_DP) endmember提取大量的高光谱图像基于火花。
它可以观察到,最耗时的部分算法1不混溶的过程受到约束,计算错误图像和矢量的选择最大的错误。因此,我们专注于这些地区的并行优化。接下来,我们描述的分布式实现不同阶段的算法1和描述的架构级优化并行实现的开发过程中执行。
存储是一个关键问题的分布式并行实现。在高光谱遥感,日益增长的数据量,重要的是有效地存储和利用高光谱数据集,金额不限。HDFS代表一个完美选择可靠性和存储任务的弹性非常大的文件在不同的资源在大型集群。结果,我们在HDFS存储原始高光谱数据集,利用其功能分布式存储、容错和灵活性以透明的方式。
一个类(名为HSIInputFormat)从HDFS读取原始高光谱数据集定义NewHadoopRDD实例ByteRDD。在HDFS,原始高光谱图像分成许多空间域分区(16]。为了减少I / O(输入/输出)开销最程度上,我们读每个数据分区在HDFS键-值一对,键(命名抵消)是这个分区的抵消原始数据集和价值(命名像素)是字节的高光谱数据分区类型。随后,ByteRDD映射到一个MapPartitionsRDD(包含格式化的像素矢量数据,表示DataRDD)。最后,我们缓存DataRDD在RAM中快速访问。阅读高光谱数据集的过程的流程图是图形如图2。
首先,DataRDD映射到分区,这是积累通过列。的减少操作执行总论文,平均向量高光谱数据是计算的司机。
其次,限制执行分离使用,如下所示: 在哪里是一个阶单位矩阵,是一个N维列向量1项,,是一个像素向量。
当计算(2),和分别计算部分,在司机。在那之后,,,和播放所有工人。为了避免频繁的垃圾收集的Java虚拟机,像素的分区处理先后地图操作。取像素矢量例如;其丰度系数估计(2)和存储在向量。然后,它的重建误差可以计算。当所有的像素在分区处理,最大误差,以及相应的位置,被选中。一个元组得到的输出地图操作,的关键是确定分区,表示它的第一个像素的位置在整个高光谱图像。最大的元组后来选择吗减少操作和返回给司机。
在接下来的过程中,,,,,作为广播传播给每个职工变量。的地图操作上执行DataRDD找到像素最大的错误和的集合的子集向量的提取,包括所有这些向量的光谱角的最大误差向量。后减少归并排序操作执行,是平均向量的子集减少离群值和噪声的影响,endmember矩阵更新(司机一边)。
IEA_DP算法细节的图形如图3。高光谱数据的存储是组织良好,减少分区之间的相关性以及避免数据倾斜。此外,IEA算法的逻辑过程优化通过减少每个执行节点所产生的中间数据,避免过渡大数据。因此,IEA算法的计算可以大大加速。
5。实验评价
评估提议的分布式IEA算法的并行实现,实验进行火花集群装备1 8主节点和从节点。主人也NameNode HDFS和奴隶的datanode HDFS。主人是一个虚拟机主机上创建一个在2.53 GHz Intel Xeon E5630 cpu VMware vSphere 8核。奴隶节点是由虚拟机实现虚拟化的基础上创建4-blade IBM刀片中心HX5配备2在1.86 GHz Intel Xeon e7 - 4807 cpu和连接到12结核病SAS磁盘阵列的公共汽车。每个奴隶都配置了6个CPU核。主人和奴隶都安装了Ubuntu 12.04, Hadoop 1.2.1,火花1.4.1,和Java 1.6.45。此外,所有节点都通过千兆交换机连接。图4说明了实验平台的体系结构。
在我们的实验中使用的高光谱数据集的一个子集知名机载可见光红外成像光谱仪(AVIRIS)赤铜矿(http://aviris.jpl.nasa.gov/data/free_data.html与224年)图像光谱波段,收集赤铜矿矿区,1995年内华达州。这一幕被广泛用于验证endmember提取算法的性能。一些乐队1 - 3、107 - 114、159 - 169和221 - 224年已被移除之前分析由于吸水率与低信噪比乐队和乐队。由选定的数据集像素(如图5),192年乐队,总共大约44.86 MB的大小。为了评估算法的性能在不同大小的数据,我们使用的Mosaicking功能软件生成3个数据集大小不同的环境(包括数据集1:数据集的大小约为1.05 GB, 2:大小约为2.10 GB,数据集3:与的大小约4.21 GB) mosaicking原来的44.86 MB的数据集。计算性能和分离精度已经考虑了评价。
在一开始,我们评估的准确性考虑endmember提取算法在AVIRIS赤铜矿图像,利用详细的可用性实验室测量endmembers场景中包含(http://speclab.cr.usgs.gov/maps.html)。根据调查结果,美国地质调查局(USGS)赤铜矿矿业网站主要包含五个类别的矿物质,也就是说,明矾石,Buddingtonite,方解石、高岭石和莫斯科。他们引用可用地面签名的形式美国地质调查局库(http://speclab.cr.usgs.gov/spectral-lib.html)。endmember签名最相似,IEA算法选择和提取相比,可用5参考美国地质调查局的光谱特征的光谱角距离(SAD),以弧度。根据表1,可以得出结论,IEA的串行和分布式并行版本获得相同的结果,而提取endmembers非常相似,幽灵似地,参考美国地质调查局的光谱。
这项工作最重要的方面是什么程度的分布式并行实现改善endmember萃取过程的计算性能。报告我们的绩效评估之前,值得强调的是,我们的并行实现提供相同的结果作为串行版本endmember光谱和相对丰度。串行和并行版本之间的关键区别是完成所需的运行时计算。在随后的部分,我们报告两个版本上执行的计算性能不同大小的数据集,数据集,数据集数据集2和3。
执行时间和加速在处理数据集1在考虑云计算架构表中列出2。在表的第一列2,“平行“表示并行版本1主节点组成的分布式平台上执行从节点()。从表可以看出2,执行时间明显减少关于越来越多的节点。的加速效果,图6表明大约一个线性增长与节点的数量。
值得注意的是,分区的大小对并行版本的性能有很大影响。换句话说,一个好的调整分区大小有助于提高计算性能。在本文中,我们根据经验设置分区大小(如表2显示)保证每个奴隶的CPU利用率超过80%,同时运行,从而导致性能和加速。
以类似方式,实验数据集上执行数据集2和3,使用一个主节点和8个奴隶,评估IEA_DP算法的效率更大的数据集,以及比较IEA_DP算法和基于Hadoop IEA算法。从图可以得出结论7提出IEA_DP算法的执行时间尺度大约线性数据集的大小。此外,在计算上是有效的为大型数据集(例如,仅为8.1%,和6.2%的时间被执行的初始化数据集数据集2和3,分别地)。这个结论很重要,因为它表明提出的更好的可伸缩性IEA_DP随着数据量的增加。此外,图8表明IEA_DP算法火花的平台上执行处理高光谱数据比在Hadoop平台上快得多。
总结,提出IEA_DP执行和尺度下巨大的高光谱数据。特别是,额外的计算资源的可用性会导致更多的加速效果。当使用云平台组成的1 8主节点和从节点,IEA_DP算法实现加速的33个x高光谱endmember提取。endmember提取任务涉及大约1 GB高光谱数据集,历时半个多小时连续完成的版本,现在可以在1.1分钟左右完成通过使用我们的分布式并行算法。这一成就是一个高度复杂的任务非常有前途,比如endmember萃取的高光谱图像与高容量和维度。
6。结论
高可用性的增加维高光谱数据集对高光谱图像处理正成为一个重要的挑战。本文提出了一种新颖的基于迭代误差分析的分布式并行endmember提取方法,利用先进的云计算技术,如HDFS, Apache火花,和MapReduce模型,有效地处理大规模的高光谱数据。我们的实验结果表明,该方法可以有效地处理大规模的分布式高光谱数据的集合。这贡献导致的结论是,高光谱图像处理可以大大受益于云计算架构的有效利用。未来的工作将集中在更复杂的优化算法和应用遥感高光谱图像。
相互竞争的利益
作者宣称没有利益冲突。
确认
金融支持这项工作,提供由中国国家自然科学基金(批准号。61471199,61471199,11431015),江苏高技术研究重点实验室的研究基金批准号下的无线传感器网络WSNLBKF201507,江苏省六个顶级人才项目批准号下的中国wlw - 011。