文摘
建筑从高分辨率航空影像中提取地理空间的关键应用,如电信、城市监控、动态更新地理数据库、城市规划、灾害监测、和导航。自动构建提取建筑是一个巨大的任务,因为在不同的地方有不同的光谱和几何特性。因此,传统的图像处理方法不足的自主构建从高分辨率航空影像中提取应用程序。自动从高分辨率图像中提取对象通过使用语义分割和深度学习模型,近年来已变得越来越重要。在这项研究中,U-Net模型被用于建筑提取,最初设计用于生物医学图像分析。编码器的一部分与ResNet50 U-Net模型已得到改进,VGG19, VGG16 DenseNet169, Xception。然而,其他三个模型实现测试的性能模型研究:PSPNet,红外系统,LinkNet。通过联盟的交集方法的性能分析表明,U-Net与VGG16编码器提供了最好的结果比其他模型高借据分数的83.06%。本研究旨在研究这四个方法的有效性从高分辨率航空数据提取建筑物。
1。介绍
收集城市地理信息和及时更新数据是至关重要的和重要的挑战更好的管理城市在快速城市化和城市建设。信息提取的准确性可能大大提高了使用高分辨率的遥感图像。来自世界各地的专家和学者都集中在遥感数据分类方法在最近几十年,从监督和非监督分类基于传统统计分析(1]。其中,基于像素统计分类方法已经成为最受欢迎的和发达的,在特定领域有前景的结果(2]。另一方面,传统的基于像素分类算法主要是利用光谱数据和分类效果有限的城市高分辨率多光谱图像与光谱为单独的类别(3]。开发更精确分类地图、地理信息等几何和空间特征和结构信息必须使用。
近年来,面向对象分类算法吸引了研究人员的兴趣(3,4]。它已被证实有能力克服遭受某种形式的单像素分析,如几何和上下文信息的遗漏。基本概念是将图像划分为具有特定含义的对象,然后使用物品分类谱,形式,结构属性。这种方法考虑额外的区别的特性,符合人类视觉解释模式,导致一种新的思考方式数据提取(5]。虽然一些研究已经证明了基于对象分类的好处在基于像素分类,有更少的关注其可能的缺点。然而,基于对象的技术都有自己的一组约束。包括过分割和欠分割图像分割错误。这些分割问题会影响分类过程在两个方面:(1)差分割图像过分割和欠分割对象错误产生图像对象跨越多个类,引入分类错误,因为所有的像素在每个混合图像对象必须分配到同一个类;(2)特征提取差分割图像过分割和欠分割对象错误并不代表真正的物体在地球表面的性质(例如,形状和面积),所以他们可能没有用处,甚至可能降低分类的准确性。
图像分割是一项必要而且至关重要的阶段(地理)对象的图像分析(GEOBIA或OBIA)。图像分割的质量极大地影响最终在OBIA特征提取和分类。在传统的分割方法、基于图像通常分为多个独立区域灰度、颜色、纹理和形状。典型的分割方法包括基于像素统计分类,基于阈值的分割方法,边缘,区域,和图论,基于对象的图像分割。
基于阈值的分割方法的基本思想是计算灰度阈值基于图像的灰度特征和比较图像的每个像素的灰度值与阈值获取其类别。例如,李et al。6使用小波变换和自适应全局阈值方法来提取建筑群体的标签信息根据建筑群体的分布和纹理特征来实现分割;吴et al。7)提出了一种基于线拦截直方图的方法。、分割方法和edge-based分割方法(8)主要进行边缘检测基于图像边缘灰度的突然改变,颜色,质地,和其他功能。微分算子如普瑞维特(9)进行图像边缘检测,确定图像的边缘信息,并完成分割。的基于图论的分割方法的基本思想是将图像分割问题与图的最小分割问题,最终实现分割的效果。例如,Felzenszwalb et al。10]介绍了基于图形表示的图像分割方法,提出一个变量组件模型算法基于贪婪的聚类算法,并建立了基于图论的分割算法。然而,由于遥感图像中包含的丰富的光谱信息,传统的特征提取方法仍然有很大的局限性要求遥感图像分割的应用场景,和他们的分类精度无法满足实际需要处理庞大的图像数据和图像干扰严重。因此,传统分类器是不适合复杂的图像分类,更准确地说,建筑提取。
城市系统研究承诺使用特定的分辨率和高空间卫星图像数据。因此,对于地球监测、各种传感器的发展大大扩大了高分辨率遥感图像的可用性自发射的第一颗人造卫星,给准确的地面场景有意义的解释和一个巨大的潜力。确定屋顶是最具挑战性的卫星图像分析,但主要任务为对象提取。许多遥感应用程序,如灾害监测、地理数据库、城市规划,等等,可以从这些数据中获益。然而,随着高空间和光谱RS数据质量,手工区分建筑物和其他对象和描述他们的轮廓是费时和昂贵的。因此,已经有几次试图开发自动化构建提取技术。
一些算法来构建基于高分辨率卫星和航空数据检测使用特定的建筑外观的标准,如统一的光谱反射率值。这些技术的基本问题是,建筑与其他对象混淆相似的光谱反射率。许多建筑物提取方法利用多光谱图像,提供一个场景设置标准高度信息,根据一个给定的模式相对同质结构。然而,这些技术是严格限制自建立标准仅为特定类型的建筑和工作并不适用于复杂多变的地区结构。不同的数据来源可能为对方提供补充信息。
近年来,深度学习表明重大承诺满足具有挑战性的遥感图像处理的要求。深度学习已经证明是一种非常有效的收集技术近年来,有时甚至超越人类能力执行高度计算工作。RS社区的兴趣深度学习方法正在迅速扩大,和几个架构开发近年来处理RS困难,经常与优秀的结果。深度学习是一个新兴的机器学习算法,它吸引了研究人员的广泛关注,因为它对图像特征的显著影响学习。与传统的图像分类方法相比,它不需要人工特征的描述和提取目标图像但自主学习特征从训练样本通过神经网络和提取高维和抽象的特征,而这些特征与分类器是密切相关的,解决了难题的手工特征提取和分类器的选择。它是一个端到端的模型。的基本优势深上优于图像分类方法相比传统的图像分类方法是,它可以自动学习更抽象的数据特性通过深层结构没有为特定的图像数据或设计特定的人工特征分类方法,显著提高图像分类的性能。深度学习(DL)明显比它的前辈;它是基于传统的神经网络。此外,为了构建多层学习模型,DL使用两种技术同时转换和图。 The latest DL algorithms have achieved excellent results in various applications, including natural language processing (NLP), visual data processing, and audio and voice processing. Convolutional neural networks (CNNs) with more hidden layers have a more complicated network structure and can learn and express features more effectively than classic machine learning approaches [11,12]。在遥感中,CNN的使用已成为重要的外观在非常高的空间分辨率多光谱数据。然而,图1显示了出版物的数量在过去的六年中,使用CNN和不同的技术对高分辨率卫星数据进行分类。这个指数的出版物数量显示了深度学习方法在自动目标识别的重要性从高和高空间和光谱分辨率图像。
高分辨率遥感图像具有丰富的空间信息,包含更少的乐队。为了提取抽象功能有足够的辨别力和健壮性,近年来,人们主要通过学习自动从图像数据中提取深层特性的方法。CNN是常用的遥感图像分类,可以分为patch-based CNN和完全卷积神经网络(FCN) [13]。Patch-based CNN能有效学习的空间谱联合特征像素分类,他们的社区和领域已广泛应用于高光谱分类(14]。然而,网络上有大量的重复计算,这限制了其应用在大规模高分辨率遥感图像的任务。训练FCNN可以分类的所有输入图像像素通过一个传球前进,这是更有效的比patch-based CNN (15]。因此,FCNN广泛用于大规模的高分辨率遥感影像建筑物提取任务(16]。CNN图像特征的学习实现了通过优化网络中每一层的卷积核。网络的静态结构决定功能的模式学习,并确定具体的数据特征提取结果,从而表现出一定的鲁棒性。残留网络中使用的特征融合方法(ResNet)和DenseNets (DenseNet),也就是说,功能映射加法和特征映射连接,在CNN优化研究有深远的影响。
建筑从遥感图像中提取和比较不同模型的语义分割性能的网络是我们这篇文章的主要动机。然而,本文允许我们:(我)展示的重要性深学习模型的分类与高空间分辨率卫星图像;(2)减少主观性在城市化地区分类过程中最重要的一步是分割;(3)比较四种改进DL架构(U-Net LinkNet,红外系统,和PSPNet)与五种不同的初始化和pre-trained编码器(VGG16, VGG19, ResNet50 DenseNet169, Xception);(iv)提高总体分类精度在马萨诸塞航拍图像数据集。
2。相关的工作
2.1。语义分割
遥感图像的语义分割的目的是分配土地覆盖标签图像中每个像素,这可以被理解为一种进行像素级的分类问题。完全卷积神经网络(FCN)提出了作者在17)来克服的局限性卷积神经网络应用于领域的语义分割。FCN通常采用一个encoder-decoder系统,编码器是一个二次抽样网络,主要是用来学习多层次语义特征。解码器通常被定义为一个采样过密的网络,主要用于编码器所学到的语义特征映射到原始分辨率的像素空间进行像素级分类。目前,在遥感领域,研究人员作了许多改进FCN基于遥感图像的特点。例如,考虑遥感对象的丰富和多样的分类和复杂边界,长et al。18)提高了译码器设计反褶积和跳连接,提高边缘提取效果的遥感对象的细节。解决这个问题的模糊边缘提取对象的细节,提出了FCN方法[19)通过减少孔卷积聚合本地特性的扩展因数。针对在复杂遥感地面对象的多尺度问题场景,h et al。20.]提议使用一个封闭的卷积神经网络完成信息之间的扩散特征图融合在不同层次上实现多尺度特征。如前所述(其他地方21),基于集群卷积的概念设计,一个高效的空间金字塔网络漏洞提出完整的遥感特征的多尺度信息提取。此外,考虑的问题FCN不能自适应的远程不同对象之间的依赖性,因为固定的接受域,递归神经网络,研究人员使用self-attention机制和其他方法模型的远程环境遥感对象进一步提高的语义分割精度(22]。
2.2。建筑物提取
几个作者利用深度学习模型从图像数据中提取城市功能具有很高的空间分辨率,和卷积的进步,功能抽象的程度不断增加,和接受域也会增加,这就不可避免地导致空间细节的损失。大多数FCNs用于构建提取使用encoder-decoder结构,分级解码的特点和空间信息是可以恢复的。U-Net有效复苏融合空间信息的编码段的特征图和相应的解码部分和显示了出色的潜力在建筑物提取的任务23]。此外,建筑高分辨率图像的多尺度特征,垂直在遥感图像成像的特点使其语义特征相当复杂。有许多地面物体具有相似颜色和纹理建筑屋顶。
U-Net家族(24)建议两个创新的分类器多目标分割提取道路和建筑物。多层次的上下文浇注U-Net (MCG-U-Net)和双向ConvLSTM U-Net模型两个模型进行了讨论。拟议的方法生成详细的细分地图,保护边界信息甚至在复杂背景结合紧密耦合曲线玲珑,双向ConvLSTM, squeeze-and-excitation模块。研究人员还设计了一个至关重要的效率损失函数称为boundary-aware损失(BAL),它允许网络专注等复杂的语义分割区域重叠的区域,微小物体、复杂对象和对象边界,同时仍然提供高质量的分割结果。采用从高分辨率航空影像构建特征,研究人员(25)开发了一个独特的深层神经网络称为Seg-U-Net方法,这是一个混合的Segnet和U-Net算法。他们利用马萨诸塞州建立数据集的分析。因此,增加到92.73%的准确性的贡献。作者在26)建立了一个独特的多任务损失解决的困难挡在高分辨率卫星图像语义分割边界。损失是基于不同的分割掩模的输出表示,据研究人员介绍,和偏见网络更多地专注于像素边界附近。作者证明这项技术优于最先进的方法9.8%在十字路口联盟(借据)测量没有额外的后处理步骤使用Inria航拍图像标签数据集。与ResNet50 U-Net模型作为一个编码器用于(27)增加,提高精度从马萨诸塞州数据集提取建筑物。
3所示。方法
3.1。语义分割与完全卷积网络
改善传统cnn进行像素级图像分割的,作者在18)提出了一个完全卷积神经网络,实现高精度的映像级别分类和回归任务,通常通过连接多个多个卷积层后完全连接层。N维特征向量是用来预测的概率值N类别,然后输入图像的类别。上述任务的区别和建筑物的提取是遥感图像输入图像中的每个像素分类获得进行像素级分类的结果。虽然CNN可以定义滑动窗口模型集中在每个像素和窗口功能获取语义分割结果在像素级别,时间复杂度显著增加,由于生成的大量重复的信息重叠区域相邻窗口。此外,窗口大小的选择也将是一个挑战:试窗口将失去目标上下文信息和减少精度;太大的窗口将会增加计算和内存负载。
为了解决这些问题,FCN CNN表现良好。FCN使用反褶积的范例映射到高维特性获得预测结果类似于输入图像,而不是利用完全连接层创建特征向量预测概率多层卷积和池后,如图2。这种网络拓扑结构可以防止传播过程失去输入图像的空间信息,允许图像中每个像素预测。此外,FCN没有执行window-by-window计算,极大地提高了计算效率。
尽管FCN增强可以达到相同的分割结果作为输入图像大小,预测图像经常太光滑,导致更严重的信息丢失。的根本原因是输入图像聚集很多次,允许在尾端神经元接收更多的信息,从而导致一个更广泛的知觉。然而,图像失去信息,因此使边缘轮廓提取的不可取的。因此,FCN集成了低维特征映射到特征金字塔和反褶积后的输出来克服上述问题,提高提取的详细信息的准确性。因此,U-Net [23)扩展了此合并低维特征与高维特征的想法。
3.2。模型使用
3.2.1之上。U-Net架构
图3描述了U-Net结构、特征编码和解码两个步骤组成。原始输入层和子样品层的卷积特性编码步骤获得空间分辨率较低的高层语义特征。在解码步骤中,底层的功能是增加了2倍一层一层地向上通过卷积操作,连接具有相同层特性的编码步骤,并返回到原始图像比例尺。在最初的规模,当前模型预测之间的区别和地面真理参考用于形式通过反向传播网络参数。U-Net只执行图像像素类分类在最后一层。尽管U-Net使用一些信息从之前的层编码步骤,其推广到多尺度信息的能力是有限的。
3.2.2。金字塔场景解析网络(PSPNet)
多尺度信息也是必不可少的增强语义分割的准确性。多尺度的接受域可以学习信息从不同大小的对象结合图像比例尺上下文。例如,全球场景分类可以提供类别分布信息语义图像分割,和金字塔集群模块获得类别分布信息通过使用集群与更大的卷积核层。空间金字塔现场解析网络(PSPNet) (28)提出收购整个场景的信息。如图4从输入图像中提取特征,使用卷积神经网络(CNN)模型和特征地图发送到金字塔聚类模型。此外,从图像中提取多尺度信息,不同尺度的模型集成四个并行集群特性和转换任何大小特征映射到一个固定长度的特征向量。捕捉全球功能,1 x1运算是用来减少渠道1/4的原始大小后每个聚类操作在不同的尺度。取消组之前,特征图谱使用双线性插值恢复到原来的大小,然后连接池前的特征图谱。最后,一个回旋的层生成最终的预测结果。空间金字塔池模型利用不同的空间信息,结合全球和本地信息获得全球对场景的理解。
3.2.3。LinkNet
LinkNet,实时语义分割网络,是由(29日]。DeconvNet和SegNet采用集群指数恢复空间信息丢失在二次抽样,而直接从编码器LinkNet发送空间信息匹配的解码器,保存尽可能多的图像的空间信息是可行的。如图5,该方法直接连接浅特性在编码器模块映射到相应的解码器模块大小,也就是说,每个编码器模块的输出作为输入相应的译码器模块,它不仅使用浅层的准确的位置信息,但也避免了添加冗余参数和计算,从而提高运算速度,同时保证准确性。
3.2.4。特征金字塔网络(红外系统)
卷积和池操作执行的原始图像卷积神经网络建立各层和大小的特征图谱。网络表层更感兴趣的是详细的信息,但深层语义信息更感兴趣,这可能帮助我们精确地检测目标。因此,典型的卷积神经网络使预测特征图的基础上最终的卷积层。功能的红外系统是一个端到端的网络地图是通过一连串的卷积过程,在每一步预测形成,特征图谱为每个预测利用层确定在适当的分辨率(30.]。这可以保证每一层有足够的分辨率和坚实的语义特征。通过权衡每个预测步骤的结果,红外系统得到最终的损失函数。原则是积累表层和深层特性,表面特征提供更准确的位置信息。相比之下,深层网络的位置信息不准确是由于多个二次抽样和过采样操作,和他们的结合使用构建一个更深的红外系统(图6)相结合的多层次的特征信息并产生各种特性。
3.3。的骨干网络
本研究采用模型与端到端完全卷积神经网络结构、解码器和编码器组成。编码器学习目标特性分层次逐步降低空间分辨率,然后逐渐增加接受域。在编码器的功能学、浅特性有更多的空间信息,包括边缘,轮廓,和位置信息,而深特性有更多的语义类别信息。解码器恢复学习的空间分辨率特性的编码器和生产预测结果与类似的空间分辨率图像作为输入。考虑建筑物的尺度的遥感图像有很大的不同,既有大型建筑和小型住宅在同一图像,编码过程中的空间信息丢失应该补偿网络设计过程中,和不同尺度的特点应该集成解码。
验证的重要性解码器和编码器层的深度和改进提出了网络。本文使用VGG16 VGG19、ResNet50 Densenet169, Xception pre-trained编码器大ImageNet数据集(31日]。添加encoder-decoder模块的目的主要是提高分割的详细信息通过恢复原来的像素信息。
3.3.1。VGG作为支柱
VGG 16 - 19层深卷积网络使用的视觉几何组(VGG)牛津大学在2014年ILSVRC (ImageNet)基于AlexNet网络的竞争。模型的成功率达到92.5%,验证集的前5名(32]。它输入的彩色图像的大小224∗224 px和将它分为1000类之一。然后,它返回一个向量大小1000,其中包含属于每个类的概率。自动特征提取利用卷积pre-trained网络的一部分。它使用它作为一个特征提取器的图像分类器。使用多尺度学习策略的数据量增加,模型表明,网络越深,效果越好。
3.3.2。ResNet作为支柱
在[33),ResNet解决退化问题的深层网络学习算法。ResNet添加常数使用快捷键映射结构,地图功能X在低级别直接在更高层次的网络。假设输入到神经网络部分X和所需的输出H(X),快捷方式将原来的学习目标H(X)H(X)−X这样整个网络需要学习的部分输出和输入之间的区别,简化网络目标和学习的困难。
3.3.3。DenseNet作为支柱
基于ResNet网络,黄等。34)提出了一个DenseNet模型连接网络之前所有层的每一层前馈方式在设计每一层特别狭窄和学习很少减少冗余特征图谱,而达到准确度ResNet ImageNet但需要更少的参数。
3.3.4。Xception作为支柱
卷积分离切除,Xception取代了《盗梦空间》模块(35),增加了剩余的链接。这种类型的方法,在不改变参数的数量,减少资源的使用在矩阵计算。
通常,编码器结构分割任务相似,主要来源于网络结构用于分类的任务。这样做的优势在于分类网络的权重参数训练的大型数据库可以借来的通过转移学习来获得更好的结果。因此,译码器的影响差异很大程度上决定了基于encoder-decoder分割网络结构。
的一个例子Res-U-Net (U-Net模型ResNet骨干)如图7。
3.4。骰子损失函数
叉损失函数(方程(1)通常用于二进制图像分割问题。改进的叉是很容易计算梯度,但当用于建筑物提取问题,它将更加关注识别分类与高比例由于样本的不平衡,使得它难以提取类别与一些样品。统计数据后,建筑的比例在马萨诸塞州non-building像素数据集是关于1:10。为了解决这个问题,本研究选择了骰子损失函数来减少损失函数来补充叉在构建提取样本不平衡的影响,定义为方程(2), 在哪里代表真正的标签类、建筑像素是1,non-building是0, [0,1]代表预测类概率,N在样本像素的总数,然后呢n是一个像素, 在哪里pn和tn代表了预测像素的类别和真正的标签分类,分别和其余的参数定义相同的方式在公式(1)。
根据方程(1)和(2),当有太多non-building像素,熵函数将non-building网络倾向于加强学习和提高预测类别non-building像素的概率减少损失。相比之下,骰子损失函数只关注建筑的正确分类像素。因此,在这项研究中,骰子损失函数l1(方程(1损失函数)和叉l2(方程(2)被添加到获得复合损失函数l3(方程(3结合骰子和叉),改善了网络的性能分类能力当建筑物有几个像素。
4所示。实验和分析
4.1。数据描述
麻萨诸塞州的数据集,由Mnih [36],被捕在马萨诸塞州,美国,和包含建筑物和道路的标签,在这个实验中只用于建筑物提取。数据集包含137个训练图像,10个测试图像,和4验证图片,与3的红色、绿色和蓝色,都在长度和宽度1500像素,和空间分辨率为1米,占地大约340公里2。正如前面提到的图8面具,一个原始RGB图像验证的对象(在这种情况下建筑)二所示。
4.2。数据增加
一般来说,数据量越大,越容易模型可以代表特性。由于获取新数据的高成本,有各种各样的数据增强技术增加的数据量,如放大,缩小,旋转,翻转,颜色变化,等。在这个实验中,缩放,旋转,水平和垂直翻转被用来提高数据。图9描述了结果:数字9(一个)和9 (b)显示修改后的最初的原始图像和图像,分别。
(一)
(b)
4.3。实现细节
内部参数的神经网络可以通过迭代优化算法,虽然有些hyperparameters需要人为地设置指导模型中学习,比如学习速率,优化功能,重量衰减参数,等等。
优化问题是计算数学中最重要的研究方向之一。领域的深入学习,优化算法的选择也是重中之重的一个模型。亚当优化(37这篇论文使用的函数;它是最受欢迎的优化深度学习。适用于许多类型的问题,包括模型与稀疏或嘈杂的梯度。它易于微调可以很快取得了不错的效果。亚当优化器结合的优势AdaGrad RMSProp。亚当为每个参数使用相同的学习速率和适应独立学习进展。
学习速率是一个重要hyperparameters优化深层神经网络;通过作用于其收敛,它集的条件操作之前学习的过程。事实上,学习速率过高导致基本重量更新,和收敛变得不稳定。另一方面,学习速率低,收敛是慢了下来,陷入局部最小值的可能性。流行的方法用于深度学习的最佳学习速率是开始学习高价值的加速梯度下降,减少以后提高精度(38]。实际上,这涉及到初始化一个α0到高价值的一开始,然后减少通过一个常数乘法因子在学习阶段,直到验证错误达到一个稳定值或当学习错误并不减少了(39]。
最初的学习速率是0.0001;它可以制定在方程(4),
在我们的实验中,训练和测试过程来构建检测实施PyTorch框架使用Nvidia TesUla K80显卡。批处理大小是16 100时代。
4.4。评价指标
验证语义分割方法的性能,在本文中,我们使用四个指标(精度、回忆,F1的分数,借据(十字路口在联盟)来评估不同的方法在数据集的性能。借据指标,通常被称为交叉在联盟比,也被称为Jaccard指数,它是确定准确的统计对象探测器在一个给定的数据集,这通常是使用不仅在语义分割评价但经常用于目标检测问题,如遥感图像。顾名思义,借据的比例是交叉和工会之间的目标和预测(方程(5)), 代表了建筑和特征预测的不同方法和B代表建筑的实际特点的地图。
精度表示为正确预测的数量的比例正样本数量的预测正样本,
召回表示为正确预测的数量之比积极的样本数量的所有积极的样品在测试集,
F1score之间的几何平均精度和召回,也被称为谐波的意思是,和是一个指数来衡量二进制分类模型的精度, TP(真阳性)是指积极正确分类样本的数量,FP(假阳性)是指数量的负样本贴错了标签,作为正样本),TN(真阴性)是指正确分类负样本)的数量,和FN(假阴性)指正样本错误标记为负样本的数量)。
5。结果
提出网络构建与更深的编码和解码层来实现更好的分割结果。FCN方法使用一个简单的卷积编码层。由于其较低的编码和解码层,它不能完全从建筑特征提取变量的特性,导致可怜的建筑特征提取结果。
本研究基于VGG16进行五个实验,VGG19, ResNet50, DenseNet169, Xception作为比较分析演示的骨干编码器和译码器层的深度的相关性为每个模型在构建网络。在这个工作中,几个深的效率上优于模型(PSPNet U-Net,红外系统,和LinkNet)从高分辨率航空影像中提取建筑物的评估,在这种情况下,借据技术,Fscore,精度和召回的实施和使用。这些模型可以提供几个不同的优势。例如,U-Net比其他人VGG16是一个浅模型和有一个基本的网络拓扑结构。另一方面,PSPNET架构时考虑图像的全局上下文预测当地水平的预测,从而提高性能等指标数据集城市风光,2012帕斯卡VOC。
因为每个地区都有不同的建筑分布特点,和每种方法很难达到最佳的影响在不同的位置,红外系统的测试集的结果不一样优秀的其他技术,如表所示1,但U-Net VGG16超过所有其他方法在借据在同一时间。第二,我们有LinkNet,总是使用VGG16解码器,其次是VGG19,优于U-Net在回忆和一个有趣的Fscore不久的顶级模特。基于第一个借据的比较,我们可以推断U-Net VGG解码器和LinkNet分类器很好地匹配。
第二最好Fscore LinkNet DenseNet169编码器,ResNet50紧随其后。
表2比较了测试数据众多小说分割方法报道图像数据集在前两年的天线。相比AttentionBuildNet (ABNet)模型提供的(40),我们的研究表明,与VGG U-Net方法增加了1.73%的借据。第二个比较MHA-NET模型提供的(41),我们的模型的UoI 11.5%,显著提高MHA-NET模型。描述的Res-U-Net方法相比,在42[],VGG U-Net改善借据0.52%42]。
图10描述了实验可视化,图10 ()的原始图像数据集在马萨诸塞州地区和图吗10 (b)是原始图像标签。数据10 (c)- - - - - -10 (e)说明每个模型的最佳可能的结果,PspNet, LinkNet,和U-Net (e)相比,分割结果,预测结果表明,U-Net技术在这项研究可以更好的区分建筑物之间的边界,创造出更少的错误分类像素丢失边缘信息,并获取酥脆的特点。它可以产生一个更精确的和现实的提取。一个定义良好的分割可以更好的寻找对象的分类。该模型的结果是迷人的高和低密度区域。
(一)
(b)
(c)
(d)
(e)
有几种类型的建筑(大型的购物商场、住宅、工业等),如图11大型建筑物,U-Net可以更好的区分与高精度PspNet相比,发现更难以提取他们更好。这是由于结构的建筑,它有一个显著的相似性停车场。然而,一个简单的建筑结构,如第一行图所示11,大多数模型也更接近地面的真相。太阳能阴影建筑本身可以影响建筑物提取太多。建筑分割的结果在一个大区域可以反映培训的程度模型,如图12。可以看出的分割结果,无论是两神经网络(PspNet和LinkNet)完全可以实现准确的建筑分割,这表明仍有差距训练模型和实际分割模型。另一方面,我们可以看到,图12证实了更多与vgg16 U-Net区分建筑更好,可以适应不同类型的高分辨率遥感图像。此外,我们还可以看到U-Net vgg16代表少比另一个假阴性模型和假阳性由于建筑物造成的阴影,代表一个重大的挑战增加准确性。
(一)
(b)
(c)
(d)
(e)
(一)
(b)
(c)
(d)
(e)
6。结论
建筑从遥感图像分割必须准确和自动化等应用城市规划和灾难管理。当前状态的发展关键深度学习方法用于图像分类和建筑实例讨论了从高分辨率遥感图像中提取。此外,本文主要关注四个最先进auto-encoder方法U-Net PSPNet, LinkNet,红外系统,和一个改进的模型使用VGG, ResNet DenseNet, Xception骨干。不同像素的特征相似性类型被削弱有效地从城市和复杂背景地区单独的像素。考虑到现有的基于深度学习的经典图像分类方法有很多局限性,如生成模糊边缘和失去的详细信息。由于环境信息和建筑信息很容易混淆,导致平庸的提取结果,提出了一种新的损失函数,允许模型更新更快和更稳定的参数。训练和测试执行在马萨诸塞州航拍图像数据集的覆盖340公里2。结果表明,U-net模型与VGG16骨干达到最好的结果为83.06%,优于所有提出的模型。
此外,太阳能阴影的存在,遮挡,建筑本身的特点和差异将有一些影响建筑物提取的完整性。不详尽的只考虑像素本身的颜色或亮度特征及其当地。在未来的工作中,有必要研究建筑的阴影和遮挡图像改善建筑物提取的效果。
数据可用性
Mssachusetts建筑数据用于支持本研究的发现是可用的https://www.cs.toronto.edu/∼vmnih /数据/。
的利益冲突
作者宣称没有利益冲突。