文摘
本文报告建立基于深度学习的检测方法(DL)使用的融合光探测和测距数据和正投影(激光雷达)。该方法利用基于对象的分析来创建对象,一个特性融合、一个autoencoder-based降维将低级特性转换成压缩特性,和一个卷积神经网络(CNN)将压缩特性转换成高级特性,它被用来分类对象为建筑和背景。该建议的体系结构是优化的网格搜索方法,及其对hyperparameters的敏感性进行了分析和讨论。该模型评估在两个数据集从市区选择不同的建筑类型。autoencoder结果表明,该降维的方法从21特性到10特性可以提高检测精度从86.06%到86.19%在工作区域和测试地区从77.92%降至78.26%。敏感性分析也显示,选择hyperparameter值模型的显著影响检测的准确性。模型的最佳hyperparameters 128过滤器在CNN模型中,Adamax优化器,10单位在CNN完全连接层模型中,一批大小8,0.2的辍学生。这些hyperparameters提高模型的泛化能力的关键。此外,比较实验与支持向量机(SVM)表明,该模型有或没有降维优于支持向量机模型在工作区域。然而,支持向量机模型实现精度测试区域比该模型没有降维。 This study generally shows that the use of an autoencoder in DL models can improve the accuracy of building recognition in fused LiDAR–orthophoto data.
1。介绍
建筑的基本元素形成一个城市和城市映射是必不可少的1]。从遥感数据提取准确的建筑对象已成为一个有趣的话题,近年来受到越来越多的关注。构建在多个地理空间信息是重要的应用程序,如城市规划、风险和自然灾害的损失评估,三维城市建模、和环境科学。建筑从许多数据源对象可以划定,如卫星图像、航空照片、雷达图像和激光扫描数据。特别是,光探测和测距(激光雷达)提供了一种准确、有效的方法获取高程数据,可用于提取地面物体,如建筑(2]。使用激光雷达的优点与传统摄影测量包括收集高密度点云的能力在一个相对短的时间内,垂直精度高,成本低。然而,建筑在城市地区的准确提取精确的边界是一个艰巨的任务由于附近物体的存在,如树,经常都有相同的海拔高度的建筑。因此,激光雷达点云的融合和航空图像可以是一个重要的一步提高建筑质量检测。
许多方法已经提出了在过去几十年建立检测通过使用激光雷达数据和与激光雷达数据融合其他遥感数据,提高精度和质量。李等人。3)提出了一系列新颖的算法检测建筑边界从激光雷达和高分辨率的融合图像。他们的研究结果表明,激光雷达和高分辨率图像的融合是一种很有前途的方法构建边界的准确检测(= 98%正确性和完整性= 95%)。李等人。4)提出了一种改进的基于融合的建筑物提取方法的光学图像和激光雷达数据。前面提到的方法包括四个步骤:过滤、建筑检测、墙点去除,屋顶补丁检测。他们的研究结果表明,该方法可以自动提取建筑物具有复杂形状的对象。Saeidi et al。5基于Dempster-Shafer]也应用一个数据驱动的方法理论融合激光雷达和现货(卫星倒l 'Observation de la特)构建提取数据。这些研究人员检查潜在的坡度和高度信息提取LiDAR-based数字高程模型(DEM)和数字表面模型(DSM),以及创建的归一化植被指数(NDVI)从现货图片。他们的结果表明,归一化植被指数/规范化DSM (nDSM)融合执行比归一化植被指数/斜率为构建提取。
Uzar和Yastikli6)开发了一个自动构建检测方法基于激光雷达数据和航空照片。该方法包括与基于对象的图像分割和分类分析。精度评估显示了整体精度约为93%,96.73%的完整性和正确性95.02%的建筑物提取。Uzar [7)开发了一个基于多传感器数据自动提取的方法(激光雷达和航空照片)和基于规则的分类。他模糊分类用于改善建筑物提取的结果。他的方法取得了81.71%的完整性和正确性87.64%基于提取的建筑物之间的比较和参考数据。此外,Awrangjeb et al。8)提出了一个自动构建检测技术利用激光雷达数据和多光谱图像。他们利用归一化植被指数分离从树木和建筑物提取区域的住宅。Awrangjeb et al。9]也开发了一种建筑检测技术对于复杂场景。在他们的方法中,建立了一个基于规则的过程,利用归一化数字表面模型的任务从激光雷达数据中提取有效的手。
最近,王et al。10)提出了一个自动构建方法从激光雷达数据中提取边界。该方法包括height-based分割、形状识别的形状指数,和边界重建使用Hough变换和顺序连接技术。他们的研究结果表明,该方法可以实现准确提取建筑边界的比率为97%,85%,92%三个激光雷达数据集不同场景的复杂性。Prerna和辛格11)评估建筑检测方法基于激光雷达的分割和高分辨率的照片。这些研究人员确定一个object-based-oriented分类取得了最好的准确性( 与仅使用激光雷达相比)。赵et al。12)提出了一个构建提取方法使用激光雷达数据和连接操作符。他们的研究结果表明,该方法有效地执行。效率和平均偏移值的简单和复杂的建筑边界是0.2米到0.4米和0.3米到0.6米,分别。Tomljenovic et al。13)从激光雷达数据中提取应用基于对象的分析来构建。他们的结果表现出高度精度初步研究区域和在国际摄影测量与遥感学会基准没有任何修改。
Tomljenovic et al。2综述了建立基于激光雷达数据的提取方法。他们的分析表明,当前建筑检测方法的主要限制其应用广域数据集和可转移性的缺乏研究和措施。从激光雷达探测的其他挑战包括点云稀疏,高光谱变化,城市对象的差异,周围的复杂性和数据偏差(14]。吉拉尼et al。14)提出了一个方法,从激光雷达数据提取和演化建筑物使用功能和orthoimagery克服上述的一些局限性。他们的研究结果证明其方法的鲁棒性。然而,这种方法是影响激光雷达数据和orthoimagery之间的配准误差,这就需要进一步验证在不同的数据集。当前方法的缺乏可转移性主要是由于使用基于规则的分类。
因此,当前建筑论文报告检测方法基于激光雷达数据的融合和正色摄影使用深度学习(DL)的方法。目前,DL已经超出了多层感知器,由一组用于构建可达成的微架构的技术和计算方法。特别是,本研究发展一个框架基于autoencoder降低特征维数和卷积神经网络(CNN)区分建筑对象从nonbuilding对象分割后进行激光雷达和orthoimage数据。
2。方法
本节描述该模型并解释其组件从激光雷达探测建筑设计和基于DL正色摄影的方法。它描述了整个工作流、数据预处理和准备,通过多分辨率和光谱差异细分特征提取,特征融合和抽象使用autoencoders和CNN,和建筑检测,适用于完全连接层与乙状结肠激活最后一层。
2.1。总体架构
本研究提出了一个DL模型检测建筑融合激光雷达和正色摄影数据。整个工作流的模型图1。提出了管道包括四个主要组成部分:输入数据的预处理和制备,特征提取,融合和特征的抽象和分类。第一个组件,数据准备,包括激光雷达点云的几何校正和注册正色摄影。点云过滤创建DSM,民主党,nDSM样本。DSM是由使用逆距离加权插值点云(IDW)方法。民主党是由过滤nonground点利用ArcGIS的多尺度曲率算法(15]。从DSM nDSM是由减去民主党。民主党,LiDAR-derived DSM nDSM;数量的回报;和正投影乐队(即。,red, green, and blue) were then composted at 0.3 m spatial resolution and prepared for segmentation.
第二部分,即特征提取,实现提取的光谱和纹理特征正色摄影和DSM,民主党,数量的回报,从激光雷达数据和几何形状和特性。第三个组件包括特征融合和使用一个抽象autoencoder DL模型减少特性和CNN模型低级特性转换成高级特性。最后一个组件采用完全连接层和一层乙状结肠分类对象为背景和建筑形象。这些处理步骤的细节在以下部分解释。
2.2。特征提取
共有21个功能,包括光谱、形状,结构,和LiDAR-based特性,最初在激光雷达探测建筑对象提取和正色摄影数据。光谱特性被用来评估在正投影乐队平均像素值。形状特征参考几何信息有意义的对象,这些对象的像素计算形成。一个准确分割的地图是必要的,以确保成功使用这些特性。纹理特征也来源于Haralick纹理特性的基于灰度的同现矩阵应用灰度共生矩阵建立()或灰度差别向量。另外,LiDAR-based特性被用来描述对象的地形和高度。
底层特征(表1)计算基于图像创建的对象通过多分辨率和光谱差异细分。特征提取正色摄影和激光雷达数据融合的功能水平。应用一个被减少的特性autoencoder-based降维方法。减少低级特征被送入CNN模型提取高层特征分类。以下部分描述上述过程。
2.3。融合和特性抽象
建筑检测和描述重要的步骤在重建建筑对象。前者指的是识别的过程构建对象在其他对象(20.),而后者是指的过程描述的几何边界构建对象来描述其几何和提取信息作为属性与对象在一个地理信息系统(GIS)。一方面,正色摄影有一个重要的能力在空间分辨率和表现出很强的反射周围建筑边界。然而,不同地面物体的光谱相似性从正色摄影中提取建筑物产生困难。另一方面,提取与高度建立边缘不连续是困难的在激光雷达由于激光束的足迹大小相对较小,而不利的反向散射从照亮目标20.]。因此,融合正色摄影和激光雷达可以提高建筑检测的准确性和描述过程。
数据融合的过程被定义为使用或合并来自多个数据源的数据,形成一个新的数据集,实现一个特定目标21]。的三个融合水平可以组合来自不同数据源的数据被归类为像素,功能,和决策融合(22]。本研究采用功能水平因为与基于对象建立检测和描述分析更容易和更有效。正色摄影的特性(例如,光谱和纹理特征)和激光雷达特性(如DSM、民主党、nDSM和空间特性)结合形成低级特性构建检测(表1)。
许多功能相关的光谱结构,地形,形状和组织可以从正色摄影和激光雷达数据中提取。许多功能可能导致过度拟合的使用,特别是当训练样本相对较小。使用大量的特性的其他缺点是噪音,冗余信息,增加计算时间。当前的研究引入了一个autoencoder-based方法,降低特征空间维数,提高底层特征通过将它们转换为更少的特征(即,减少低层特征)来解决上述问题。转换后的特性将更多的信息比原始特性和提高建筑的整体方法论工作流的性能检测。CNN模型也开发检测建筑物和选择相关特性将减少低层特征到高层特征通过应用卷积和池的一组操作。减少的过程(或抽象)低级特性使用autoencoder和CNN模型在以下部分中描述。
2.3.1。Autoencoders
Autoencoders(图2)是神经网络,试图重建他们的输入不使用标签(无监督);他们有两个逻辑部分,也就是说,编码器和译码器(23]。前者包括网络层创建一个隐藏的表示输入的数据,而后者由网络层,把隐藏的代表从编码器和创建一个输出,类似于编码器的输入数据。因此,最后一层autoencoder网络具有相同的大小作为输入的第一个输入层。这个过程允许网络学习特性对输入数据和正则化参数。隐藏的表示可以小于输入数据;因此,autoencoders的主要好处是降维。
Autoencoders采用反向传播算法训练(23]。在一个autoencoder,输出 等于输入 。 在哪里是一个输入,属于维空间,是一个新的表示这属于吗维空间,是重建误差。
一个标准的autoencoder由三层组成。第一层第二层相当于一个编码器 ,和第二层第三层相当于一个译码器 。然后,该算法最小化通过调整参数在编码器和解码器获得重新输入。隐层节点的数量仅限于小于原来的输入节点数利用autoencoder作为一个降维算法。
提出autoencoder架构包括21个输入特性,与128年3隐藏层,50岁和30节点,和一个中央层维度5,10,15个迭代评估。几个隐藏层及其相关的节点数量选择使用网格搜索方法(25)和评估基于输入和重建数据之间的相似性通过均方误差测量。网络训练通过Adamax优化方法(26)使用其默认参数Keras (TensorFlow端)27)和批处理大小为32。稀疏约束(L1活动规范)也添加到编码表示,以避免过度拟合,降低模型的复杂性。
2.3.2。美国有线电视新闻网
美国有线电视新闻网(28)是一种方法,模拟人类大脑的多层结构。它可以提取的特征输入数据从低到高层逐步改善分类或预测流程。它抽象数据之间的关系和提高优化性能和减少训练参数。CNN的结构由三层组成,可以被描述为卷积,子样品(池),和完全连接层(图3)。
拟议的CNN架构包含两个堆叠功能阶段。每个阶段都包含一个卷积层后跟一个池层。与128年二维卷积过滤器和最大池。被压扁了的高级特性的二维特性估计通过卷积和池操作。网络也被训练使用Adamax 8批大小的优化方法。一旦获得高级特性,与10个节点完全致密层和辍学率0.2被用来分类特性的建筑或背景类。训练有素的CNN模型被用来预测测试数据的类,和输出用于创建最终在GIS建立地图。CNN网络优化使用网格搜索方法,这在下一节中解释。
2.3.3。优化过程
hyperparameters的优化是一个至关重要的步骤在发展中一个有效的目标检测模型通过DL方法,易于使用。优化可以提高整体性能、预测精度和泛化能力的模型,特别是当他们用来预测看不见的数据。当前的研究利用网格搜索方法确定最优hyperparameters CNN模型的特定的搜索空间。网格搜索通常识别组hyperparameters比手动搜索在相同的时间内。优化参数,他们的搜索空间,确定最佳值如表所示2。五hyperparameters,即优化器、过滤器、致密层的隐藏的单元数,辍学率,和批量大小,进行了优化。hyperparameters的搜索空间的优化器(不含)手动选择几个随机实验。
3所示。结果与讨论
本节描述实验数据集,建筑检测精度评估的结果,提出了模型的灵敏度分析。该模型是在Python中使用谷歌开发的TensorFlow图书馆。当时在个人电脑中实现与Intel®2.00 GHz酷睿i7和16 GB的内存(RAM)。
3.1。实验数据集
拟建建筑物检测模型在两个数据集(即评估。,working and testing) selected from the Universiti Putra Malaysia campus located in the state of Selangor, Malaysia (Figure4)。所选区域地理上位于纬度7°1100E和7°1400E和经度3°000040 N和3°00N Kertau RSO马来亚的坐标系统。的选择,因为他们的领域包括城市的混合特性,如沥青道路、树木、茂密的植被,水体和建筑。建筑有不同的屋面材料、形状、大小和高度。
本研究中使用的激光雷达数据获得激光扫描系统(格尔LM Q5600和相机Hassleblad 39议员)3月8日,2015年。系统的扫描角60°和照相机±30°角。激光雷达数据的平均密度点4分/ m2平均0.43点的空间。总的来说,激光雷达数据包含在工作和测试领域924万点。最小和最大海拔高度在37.65米和79.83米的工作区域,分别。测试领域的高度从36.86米到100.36米不等。三个不同的产品来源于原始激光雷达点云,即民主党,DSM,特性或nDSM高度。此外,激光扫描系统还收集了RGB图像的点云。的空间分辨率收集正色摄影是13厘米。
DSM是派生IDW插值空间分辨率为0.5米。与此同时,民主党获得使用一个名为多尺度曲率的ArcGIS滤波算法分类(MCC) [15]。这个过滤的验证方法表现出改善去除林下植被,这地址拓扑不同尺度的差异(15]。这种方法的其他优点包括一个内置的函数在ArcGIS软件,使其实现容易,使其融入自动处理管道。MCC算法过滤激光雷达点云分类激光雷达返回地面和nonground点。该算法结合了曲率过滤和规模组件和可变曲率宽容15]。MCC然后篡改表面在不同的决议通过利用薄板样条方法,并指出分类是基于渐进曲率阈值参数在本研究(0.78)。其他激光雷达数据过滤方法给出的作品(29日,30.]。
3.2。建立检测的结果
通过多分辨率分割图像创建的对象被分为建筑和背景使用提出了DL模型。分类应用的全套功能(21)和最好的数量特性获得的autoencoders(10)特性。检测结果如图5。图5(一个)显示了建筑模型在工作区域没有检测到的减少输入的维数特征。建筑检测的总数是2808,这是8%高于参考数据集的实数。这个错误分类的原因主要是由于噪音,导致小物体被错误检测为建筑。关于检测建筑物的几何形状,图5(c)表明,发现附近的建筑物被影响对象,如道路和树木。准确地描述这些对象创建一个问题的建筑。例如,一个单一的建筑是由几个对象,不能提供准确的建筑计算研究区域。额外附近还发现对象附加到建筑创建一个问题在描述构建对象,如估计屋顶几何、建筑面积,甚至他们的身高。相比之下,模型的结果减少功能显示更好与更少的错误分类和建立检测边界描述(数据5(b)和5(d))。建筑使用这种方法计算的数量是281,低于0.86%的引用数量的建筑。减少使用autoencoder模型特性的数量可能导致的功能,创建模型过度拟合和提供更好的检测结果。图5(d)的一个例子展示了如何减少特性用于构建检测也可以有助于改善对象的边界界定。这个属性是非常有用的在计算建筑在该研究领域有更好的精度。此外,与精确的边界建立检测可以计算一些空间和几何精度高的属性对象。autoencoders申请功能融合的模型输出和抽象允许出口的建筑信息研究领域,可以用于决策和城市规划,在其他应用程序中。
此外,该模型还用于检测建筑物在测试区,结果如图所示6。模型的应用和功能降低。图6(一个)显示测试领域的建筑不使用autoencoders模型获得的。建筑在这张地图上的数量是1029,4.47%高于地面实况号码。检测对象的几何形状也显示噪声边界附近和其他对象,如树结合建筑对象(图6(c))。吵闹的边界限制生产建筑地图的应用程序由于关于计算和几何精度不足。相比之下,使用autoencoders给出更好的结果(数据模型6(b)和6(d))。建筑的数量计算的地图是256(1.11%高于地面真理)。同样,结果表明,减少功能通过使用autoencoder方法可以提高建筑检测精度及其边界界定。
3.3。敏感性分析
该模型有几个有重大影响的hyperparameters建筑检测的准确性LiDAR-orthophoto融合的数据。因此,本节提出了一种灵敏度分析这些hyperparameters。
3.3.1。降维的影响
Autoencoders可以减少输入特征的维数较低数量的特性通过指定中央层的维度。表3显示了不同的实验应用于检测建筑物的输入数据和不同维度autoencoder模型的中间层。维度探讨15、10和5。模型的完整特性实现了86.06%和77.92%的工作精度和测试领域,分别。减少特征数量15后,模型检测精度的建筑领域略低于那些使用的全套功能。工作的准确性和测试地区15个特征分别为85.90%和76.71%,分别。此外,使用10特性提供了最好的结果和测试工作的地区整体精度为86.19%和81.86%,分别。相比之下,特征的数量减少到5时,建筑的整体精度检测下降了1.29%在工作区域和稍微改进测试区域而使用的全套功能。
Autoencoders学习的压缩表示输入;因此,使用转换后的特性而不是成套的特性可以减少噪音和冗余信息的功能。尽管使用autoencoders DL模型可以表现出较低的性能在训练数据,仍然可以获得更好的泛化能力。此外,减少特征的数量提高了模型的计算性能,同时保持精度尽可能高。autoencoders的使用更有效率比多级分类识别问题或看到下面成了构建检测问题。这一结果的主要原因是检测一个特征类型经常需要比使用许多功能相对较少的显著特征,其中的一些特性可能与任务无关。对于多类识别问题,功能与一个特定的类对别人可能是重要的,反之亦然。
3.3.2。CNN模型的影响
CNN模型有几个hyperparameters,如过滤器的数量,优化器,隐藏单位的数量完全连接层,批量大小,辍学率。hyperparameter值的选择显著影响检测精度;因此,参数进行了仔细分析和优化。图7显示了这些参数的敏感性分析的结果评估基于10倍交叉验证精度达到建筑检测测试区域。关于过滤器的数量,结果表明,滤波器的最佳数量是128,达到81.86%的精度。最低的准确性(15.5%)获得了64过滤器。分析还表明,最好的优化器是Adamax,意识到一个精度81.41%,明显优于其他方法。相比之下,隐藏的单位在致密层的数量忽视的影响。最高的精度(81.86%)获得通过使用10单位或100单位。3单位和50个单位获得的使用精度略低(81.61%)。使用较低的单位数量完全连接层可以提高模型的计算性能;因此,这些参数的最优值被认为是10。此外,灵敏度分析结果表明,最好的批大小是8,它实现了81.86%的准确性。 The use of a batch size of 4 also attained a slightly similar accuracy (81.32%). However, the use of batch sizes larger than 8 shows a reduction in accuracy of nearly 50%. Finally, the analysis indicates that the dropout rate can have direct effects on the accuracy of building recognition. The best dropout rate is 0.2, which achieved an accuracy of 81.73%. The combination of the best parameter values is considered the best set of parameters and thus is used to produce the final maps (Figures5和6)。
(一)
(b)
(c)
(d)
(e)
3.4。与支持向量机(SVM)
该模型与传统的支持向量机的机器学习方法。表4显示的准确性评估不同的方法应用于检测建筑工作和测试领域。在工作区域的对比实验的结果表明,最好的精度(86.19%)获得了使用该模型较低数量的特性选择autoencoder模型。该模型没有降维也获得更高的精度比支持向量机模型。结果表明,支持向量机模型可以实现当其hyperparameters优化精度相对较好。然而,支持向量机模型使用默认参数可以达到的最低精度(76.56%)。实验测试地区同样表明,最好的精度(81.86%)可以获得使用该模型降维。然而,支持向量机模型与优化hyperparameters优于该模型没有降维。优化的支持向量机模型的精度是79.27%,而不使用autoencoders DL模型降维达到77.92%建筑检测精度。SVM模型使用默认参数获得的最低精度(74.11%)。
图8提供了一个示例测试区域的建筑物的检测结果提出模型和支持向量机方法。图8(一个)显示了研究子集,包含不同的建筑类型与各种几何和屋面的特点。该模型的结果没有提出了降维图8 (b),而那些提出了降维图8 (c)。autoencoders使用更准确的结果,用更少的噪音在附近建筑边界。例如,结果表明,该模型较低数量的特性可以获得更精确的结果对建筑几何。建筑图8 (b)结合,模型不能检测建筑物之间的特性。相比之下,该模型的结果(10)呈现更好的构建分离与使用的全套功能。此外,使用转换后的特性,而不是原始的功能可以更好的区分建筑物和附近的树木。在场的SVM模型相对相似的结果。然而,优化SVM展品更好的检测精度和更少的建筑物之间的误分类和附近的树木。此外,优化支持向量机的结果显示更好的建设,突出了绿色圆圈图分离8 (d)。总的来说,分类精度评估和目视判读的结果表明,该模型比SVM模型更准确。
(一)
(b)
(c)
(d)
(e)
4所示。结论
本研究开发了一种基于autoencoders和CNN的DL方法模型来检测建筑融合LiDAR-orthophoto数据集。该建议的体系结构包括多分辨率和光谱差异细分创建对象通过分组图像像素根据其形状和光谱特性。总共21从光谱特性,结构,确定了激光雷达和空间特性构建检测。这些低级特征然后在特征级融合和压缩成10特性使用autoencoder模型。压缩特性变成了高级特性,然后用于分类的对象为建筑和nonbuildings。这样的架构应用到建筑的主要优势包括自动检测特征选择和删除冗余特性改善建筑检测数据集。
研究表明,使用的主要发现autoencoders降维一步可以提高建筑物识别的准确性,提高模型的计算性能。该模型实现了最佳工作区域的86.19%和81.86%的准确性在测试区域。比较研究表明,该模型优于SVM模型在工作和测试领域。此外,DL的敏感性分析表明,hyperparameters模型和支持向量机方法应该调整在构建检测获得更好的精度水平。虽然决心的方法是非常有用的检测达到更好的结果比支持向量机模型,几点仍然需要被认为是在未来。进一步的研究应该进行改善提出了大规模构建映射和测试模型。未来的研究还应该测试使用卫星图像代替正色摄影是否可以提高精度或只会增加的成本数据。
的利益冲突
作者宣称没有利益冲突。
确认
作者要感谢马来西亚Putra大学(其)(格兰特GP-IPS / 2016/9491800)资助该项目。