文摘
近年来,已经有显著提高目标识别的自然照片。然而,当将自然图像目标识别技术直接应用于卫星图像,结果往往不能令人满意。这主要是由于固有的差异在对象的规模和方向造成的卫星图像的无所不知的观点。农村和城市地区之间的区别因素在于对象。此外,卫星照片的复杂背景中准确地提取特征提出了挑战,导致许多地区的遗漏的小对象。目标检测的性能,识别的关键区域,也是受密度影响对象重叠和闭塞。为了解决这些提到的问题,我们做了修改广义单程探测器YOLOv5,专门针对卫星照片。对于这个研究,我们从谷歌地球手动收集数据,精心标签,随后验证他们与人类注释。然后我们预处理数据利用计算机视觉技术,如调整和标准化。接下来,我们使用YOLOv5 InceptionV3和转移上优于CNN架构,DenseNet201, Xception比较他们的表演。 The goal was to accurately identify rural and urban areas from remote sensing images.
1。介绍
高分辨率卫星图像是通过利用先进的地球卫星技术观察地球的表面。然而,处理大量的卫星照片给当前解释算法带来了重大挑战。计算机视觉的基本任务之一是物体检测,其中包括准确、有效地识别预定义的对象在图像。这种能力发现在精确农业等领域广泛应用,城市交通控制和各种其他领域(1- - - - - -3]。地球的轨道的商业卫星产生与日俱增的意象,以指数速度增长。卫星图像有多种目的,包括农作物分类(4,5),场景分类(6,7],野生动物监测[8,9)、森林特征(10,11)、气象分析(12,13)、基础设施评估、建筑定位(14,15),和土壤水分评估(16,17]。
最近的分割和对象检测任务的发展大大促进了数据驱动的深度学习技巧。训练数据集的大小和质量影响检测精度。目标检测的发展引发了一系列广泛的和困难的自然图像数据集,包括帕斯卡VOC和可可女士。然而,光学卫星照片识别对象仍具挑战性(18]。列出原因如下。首先,卫星照片取自鸟瞰为范围广泛的成像提供完整信息,与自然图像与水平地面摄像头捕捉到的观点。有一个前景项目和复杂的背景信息的不均匀分布在复杂的景观和城市设置(19]。此外,对象在卫星图片往往表现出不同的视觉表象和光学特性由于各种成像的情况下,如角度、光照和遮挡。最后,小对象经常有较少的外表比更大的信息,使其难以区分背景或其他附近的对象。
为了解决上述问题,本研究着重于提高区域识别性能在卫星图片。检测速度也提出了一种检测算法的重大挑战地区卫星图像中检测往往需要发生在真正的时间。你只看一次(YOLO)意思神经网络可以显著提高检测速度和结合对象分类的本地化(两级)成为一个单程的回归问题。我们所知,YOLOv5 YOLO,意思的最新版本是展示了最好的目标检测性能的自然照片。这是因为YOLOv5利用路径聚合网络(PANet)和增强CSPDarknet53随着网络的脖子和骨干,分别。
是具有挑战性的直接应用YOLOv5为区域识别卫星照片。在这项研究中,我们利用转移上优于CNN架构和更新YOLOv5从三个角度列举如下。第一,由于过度将采样的深层特征图融合在颈部YOLOv5将失去小细节的信息。为了克服这个问题,我们实现了一个新的分支在浅网络层执行每个区域的初步检测。这使我们能够保持最大限度的特征信息。第二,尽管YOLO净意思通常是建立在一个卷积神经网络(CNN), CNN主要是有效地捕获当地信息。然而,当处理高分辨率的卫星照片,传统的变压器将会遭受平方计算成本,尽管它能够弥补全球建模能力。
本研究的主要贡献可以概括如下:(我)我们已经提出了一个基于深度学习方法确定城乡使用卫星图像。(2)我们生成的数据集,其中包括两类,即在孟加拉国农村和城市地区。(3)我们进行了一项比较分析相同的数据集使用两种技术:YOLOv5-based探测技术和CNN-based分类技术。
论文的结构如下。部分2澄清几种疾病分类方法的相关工作。方法和材料使用说明的部分3。实验分析,包括性能和结果,描述了部分4。部分5讨论了本文的结论。
2。相关工作
已取得显著进展领域的卫星图像,与几个值得注意的研究探索。列出了其中的一些研究如下。
Kadhim和在床上的深度学习的方法20.]提出了基于实际深度学习方法卫星图像分类,涉及提取功能使用四个pretrained cnn。摘要(21专注于对象和设备在高分辨率多光谱卫星图像分类,利用深学习系统。系统结合CNN通过后处理神经网络预测与卫星的元数据。在另一项研究[22),现代目标检测算法的速度和性能比较商业EO卫星图像数据集,专门为石油和天然气压裂井和小型汽车。文章(23)检查天线的有效分类图像使用他们的应急网络模型,而新员工培训的无人机监控和应对紧急情况。锅等。24)引入了一个范例映射中国都市村庄在广州市使用U-net深度学习架构。他们的研究结果表明,结合U-net-based深度学习与高空间分辨率卫星照片可以提供有价值的信息在复杂的城市定居点建设,城市复兴的关键。Yoo et al。25)相比,CNN一个射频分类器以地图当地气候区,使用双时态陆地卫星图像。
其他方法:杨et al。26]利用合奏投影(EP)学习semi-supervised卫星图像分类特性,特别是在有限的场景带安全标签的数据和大量的未标记数据。文献[27卫星图像中)专注于特定的土地覆盖分类使用biogeography-based优化方法。戴和杨28]介绍了一种整合视觉注意力的技术在卫星图像分类和处理分类任务没有一个学习阶段。李等人。29日)进行图像裁剪对象检测策略,包括大型航拍图像的裁剪成均匀大小的小图片。其密度图指导对象识别网络(DMNet)的灵感来自于理解图像的对象地图显示对象的分布密度的像素强度。拉赫曼et al。30.)采用层次聚类方法基于五个指定空间标准孟加拉国331个城市划分为六类使用遥感数据。研究[31日)展示了卫星图像的有效性检测土地利用和土地覆盖(LULC)分析,以及分析了沿海动力波拉地区的农业(特点是茂密的森林)和达卡地区(以密集的城市)。马修et al。32探索基于对象分类的有效性,从图像中提取相关的地面特征使用自动图像分割技术。
3所示。材料和方法
在文章的这一部分,我们将提供一个简洁的总结阶段参与数据收集、预处理、准备。下一步是选择算法,我们详细研究每个模型使用。然后,我们将讨论平台和培训的关键参数和评价指标。图1提供了一个视觉分类检测过程所涉及的步骤的概述,强调了信息的流动和关键阶段。
3.1。数据集描述
数据收集过程细致的手工收集使用谷歌地球的卫星图像。3267卫星图像收集来自不同地区在孟加拉国,1631张图片代表城市和1636张图片代表农村地区。独立的数据集是准备cnn和YOLOv5,如表所示1。实验涉及YOLOv5,选择200张照片的一个子集。数据收集过程旨在确保的综合表示目标区域和促进准确的分析和评价。
3.2。预处理
提高预测CNN体系结构的性能,本研究中使用的推荐方法的数量降至最低,预处理步骤。我们优化培训流程为CNN模型使用三个标准的预处理步骤。
3.2.1之上。调整
通常情况下,原始图像的集合不同的格式,从而导致不平衡的形象特征。从技术上讲,整个数据集应该统一成一个结构调整图像的形状。不同大小的图像可以通过增加或减少调整解决矩阵运算。有两个具体的解决方案有效的性能和降低复杂性度量。这个数据集包括各种分辨率的图片和尺寸。确保所有输入图像具有相同的尺寸,我们都缩放图像从原来的224×224像素的大小。
3.2.2。归一化
图像归一化的预处理步骤,利用ImageNet的意思是减法的过程,我们新像素强度值。我们归一化强度值范围内的所有图片(0,255)的标准正态分布应用min-max正常化(33]强度区间[0,1],在那里 在哪里x表示像素的强度。在方程(1),输入图像的最小和最大强度值Xmin和Xmax,分别。
3.2.3。增加
图像增强技术利用扩大可利用的资源在一个图像通过生成nonduplicate地区。它包括各种转换应用到原始图像,如纹理反映,灰度变化,调整亮度水平,颜色对比,和其他相关图片的修改。通过引入边界框在增强,可以提高目标检测的准确性,导致合成数据的创建。通过图像翻转和旋转等操作,数据集的大小可以显著增加,导致一个更大、更多样化的图像集合。这个增强的过程有助于图像数量的增加,同时保留重要区域的完整性。在2 d图像,分辨率和图像质量等因素显著的重要性,尤其是在处理图像时表现出实质性的差异大小,形状和颜色。合成提供巨大的潜力指数提高精度的数据生成图像属于同一类别。
YOLOv5,数据集包含两种类型的数据文件。(1)原始数码照片,包括200年的JPG图像。(2)图像注释,200 . txt文件组成。这些文件提供信息,指定项目的确切位置的对应的图像标签附加到他们。使用人工注释,注释YOLOv5格式的数据保存在. txt。这些照片是谨慎使用流行的注释应用LabelImg标记。
3.3。选择的算法
我们使用对象检测架构YOLOv5和两个pretrained CNN模型,比如MobileNetV2 NASNetMobile,分类和比较他们的结果。在深度学习,大量的数据常常被用于提高网络的预测能力。由于缺少数据,我们采用转移学习(34)方法和pretrain权重的应用模型,使模型更好地做出预测。
3.4。YOLOv5
的网络结构图YOLOv5包括两个主要部分。第一部分是主要的架构,其中包括输入端和主干部分。第二部分是检测体系结构,包括颈部和预测部分35]。YOLOv5是可可训练数据集,一个对象检测模型,其中包含80种不同的类和200000带注释的图像。YOLO家族的意思模型,包括YOLOv2 YOLOv3, YOLOv4, YOLOv5, YOLOv6,和最近YOLOv7,被广泛用于识别任务。不同模型之间的差异大小的YOLOv5家庭,如YOLOv5s YOLOv5m, YOLOv5l,和YOLOv5x由BottleneckCSP模块的宽度和深度36]。BottleneckCSP模块的主要功能是提取特征映射的特性,使从输入图像的提取有价值的信息。在这项研究中,YOLOv5模型总结由270层、7025023参数,7025023渐变和16.0 GFLOPs的计算复杂度。图2展示的架构YOLOv5,突出它的组件。
3.5。转移上优于卷积神经网络(cnn)
我们工作的最后一步涉及使用转移学习分类。深卷积神经网络(DCNNs)最近获得一个最先进的性能在各种高级计算机视觉任务。卷积神经网络(cnn),通常被称为回旋网,是一种前馈神经网络,采用一系列的卷积层,每个是紧随其后的是一个汇聚层,学习从输入数据中提取特征并建立一系列高层特征图。拟议中的CNN-based分类方法一直在评估InceptionV3, DenseNet201, Xception。所选架构的网络结构如下。
3.5.1。InceptionV3
InceptionV3是深卷积神经网络体系结构,介绍了谷歌。它使用了《盗梦空间》模块的概念包括并行卷积与不同大小的过滤层。这允许网络捕获特性在多尺度和决议。InceptionV3通常用于传输学习由于其强劲表现在图像分类任务,如图3。在学习转移,pretrained InceptionV3模型作为特征提取器,在初始层冻结,只有最后一层调整目标数据集。这使得模型利用学到的表征从大规模数据集,如ImageNet和适应他们手头的特定任务。
3.5.2。DenseNet201
DenseNet201深卷积神经网络架构,强调功能重用和减轻梯度消失的问题。介绍了致密层之间的联系,每一层接收输入的前层。这有助于梯度的流动,鼓励功能重用,导致更好的梯度流和改善整个网络的信息传播。DenseNet201是学习常用的传输场景,在pretrained模型采用特征提取器,如图4。通过冻结初始层和微调后层,DenseNet201能有效转移知识从源数据集到目标任务,提高培训效率和泛化性能。
3.5.3。Xception
Xception,源自“极端的《盗梦空间》,”是一个体系结构,扩展了《盗梦空间》的概念进一步取代标准的卷积层切除可分离旋转。这因式分解卷积操作切除卷积,卷积点态,降低计算成本,同时保持表达能力。Xception已经显示出优异的性能在各种图像分类基准,如图5。在转移学习,Xception通常利用利用其pretrained权重作为特征提取器。初始层冻结,只有最后一层调整目标数据集。这种方法允许Xception转移高层特征从大规模数据集,使有限的训练数据有效推广新的任务。
3.6。培训实验设置
这个实验,和谷歌Colab用于火车YOLOv5和CNN模型,它提供了免费获取强大的gpu,不需要配置。我们的研究中,80%的属于每个类的图像被放置在训练集,而剩下的20%被放置在测试集。
图像的大小为640×640像素的一部分YOLOv5训练参数设置。在整个培训过程的持续时间,我们尝试了多种批量大小和数量的时代,所有这些早期的停止条件。在我们的试错法实验,得到了最好的预测结果批量大小的1,100时代,学习速率为0.01。我们利用笔记本Roboflow发明的38基于YOLOv5 []39),采用pretrained可可权重。三种不同类型的损失在图所示6盒子的损失、客体性损失和分类损失。来确定一个算法的性能,研究人员使用一个度量叫做“盒”损失,评估如何能找到对象的中心和它完全如何预测物体周围有一个盒子。客体性措施的概率一个对象存在于该地区的利益。最后,该算法能够正确地预测对象的类是反映在其分类损失。
培训所有卷积神经网络学习速度参数η=e−5,β1 = 0.9,β2 = 0.999,ε=e−8,衰变率设置为1e−5自适应优化器估计(亚当)。激活函数使用Softmax集辍学率0.5防止模型成为overfit。所有模型训练15世纪期间,与一批尺寸16。
3.7。评价指标
评估预测算法的性能在这项研究中,我们使用高度评价评价指标如召回、精度、准确性、F1-score,地图(平均平均精度)。
病例数的比例,正确分类测试图像的总数是常用的测量精度。这可以显示
精度,通常称为阳性预测值,被定义为标签准确识别患者的比例实际上是积极的,是谁说
精度和召回的加权平均值,称为F1-score或F-measure,结合精度和召回。F-measure写成
正确分类对象的百分比被召回或灵敏度测量。这是作为
整个十字路口在联盟(借据)阈值或均值平均精度在所有类是用来确定地图上的价值。它表示为(40]
根据上述部分,正确预测案例的数量被称为真正的阳性(TPs),而错误地预测情况下被称为假阴性(fn),和真正的底片(TNs)是正确预测消极的实例的数量。相比之下,错误地预测消极事件的数量被称为假阳性(FPs)。
4所示。结果分析和讨论
培训YOLOv5模型与我们的数据后,我们用它来让图片在我们的测试集预测没有见过的。图7展示了该算法能更准确地确定城乡。
表2显示的性能YOLOv5训练后使用不同的措施,如精度、回忆,地图(平均平均精度)当借据设置为0.5(50%)和0.95 (95%)。验证精度得分为0.995分,召回得分0.999,和地图0.995和0.978的分数@0.5IOU和@0.95IOU,分别得到YOLO v5意思模型后评估。
图8提出了一种图像提取测试集的集合,说明Xception模型准确的性能检测城市和农村地区。每张图片都伴随着相应的实际标签(城市或农村)和目标标签,连同相关的置信水平。描述结果突出模型的正确分类的能力区域,所表示的实际和目标之间的对齐标签和分配给每个预测的置信水平。这种视觉表现提供了有价值的见解Xception模型的有效性的城市和农村地区基于提供的数据集。
三种深度学习模型的性能,即InceptionV3, DenseNet201, Xception,评估分类情况下进入城市和农村类,如图9混淆矩阵的形式。InceptionV3展出44分类错误的情况下,DenseNet201 22错误,Xception 15实例演示了最低数量的错误。这些发现提供了宝贵的见解这些模型的准确性和有效性在准确分类情况下为城乡类别。这些信息是至关重要的领域的研究者和实践者深度学习在选择适当的模型相似的分类任务。
(一)
(b)
(c)
每个架构是单独的性能检测证明的性能提出了基于pretrained网络的分类方法。表3显示三个深度学习模型的准确性,即InceptionV3, DenseNet201, Xception,分类情况下进入城市和农村类。InceptionV3达到93.26%的精度,DenseNet201展示了更高精度的96.63%,Xception展示了97.70%的最高精度。
接受者操作特征(ROC)曲线是一种展示真正的阳性率(TPR)比较假阳性率(玻璃钢)基于分类阈值的值。接受者操作特征(ROC)曲线的两个pretrained架构图面积的数据集是可见的10。ROC曲线的性能,它可以清楚的看到Xception执行比InceptionV3和DenseNet201。
(一)
(b)
(c)
5。结论
本文介绍了开发一个数据集的识别在孟加拉国农村和城市地区,随着调查的两种截然不同的方法:利用YOLOv5检测方法和分类方法采用CNN。遇到的主要限制在这个研究属于限制数量的可用的图像。为了解决这个限制,转移学习技术应用,利用pretrained YOLOv5和三个DCNN架构,即InceptionV3 DenseNet201, Xception。检测方法基于YOLOv5表现出有利的结果,实现意味着平均精度(mAP) 0.995和0.978的分数intersection-over-union(借据)阈值为0.5和0.95,分别评估时对测试数据集。在分类方法中,Xception成为最精通的模型,达到97.70%的精度。增加的全面性和可靠性研究,未来的工作将需要扩大图像的数据集,将图像的数量增加和类。这个扩张的目的是促进更健壮的和精确的结论。此外,整体方法的探索整合替代建筑模型,将客观的衡量他们对整体性能的影响。研究结果提出了研究有助于农村和城市地区的持续发展识别在孟加拉国的背景下,利用计算机视觉方法。所确定的局限性,提出了进一步的调查途径建立未来的研究努力在这一领域的基础。
数据可用性
在这项研究中使用的数据是可用的要求从相应的作者。
的利益冲突
作者宣称没有利益冲突。