文摘
遥感图像广泛分布,小对象的大小,和复杂的背景,导致精度低、速度慢的遥感图像检测。现有的遥感目标检测通常是基于锚的探测器。与金字塔网络功能的建议(红外系统)和焦损失,一个漂泊的探测器的出现,然而,漂泊的检测通常是低的准确性。首先,本研究分析了联盟的交集的差异和特点(借据)基于锚在主流和形状的匹配算法和表明,在密集的或复杂的场景,有些标签不容易分配给积极的样本,从而导致检测失败。随后,我们proposean one-anchor-based (OAB)对象检测算法基于中心点的想法anchor-free探测器采样。正样本和负样本定义根据中央点采样和距离约束,和锚箱是预设为每一个积极的样本来加速收敛。它减少了anchor-based检测器的复杂度,提高了推理的速度,并减少hyperparameters的设置在传统的匹配策略,使模型更加灵活。最后,为了抑制背景噪声的遥感图像,采用视觉变压器(ViT)连接颈部和头部,使网络更容易注意关键信息。因此,它是不容易失去训练过程中。挑战公共dataset-DOTA数据集——实验验证该算法的有效性。 The experimental results show that the mAP of the optimized OAB-YOLOv5 method is improved by 2.79%, the number of parameters is reduced by 13.2%, and the inference time is reduced by 11% compared with the YOLOv5 baseline.
1。介绍
对象检测在计算机视觉领域中起着重要的作用。遥感图像具有高分辨率和可选的观察范围。遥感目标检测对象检测提供了一种新的检测方法,即在军事和国防安全领域的重要价值。近年来,目标检测一直是基于固定检测器,通常可分为单程检测(1- - - - - -6和两级检测方法7- - - - - -10]。单程方法通常许多preset-anchor点图像的地方。一般来说,各种锚点不同比例由集群预设,和每个锚箱的坐标和类别精制很多次。最后,检查锚盒子是检测结果。单程的方法相比,两阶段方法细化程度较高的锚箱,实现有前景的结果的准确性,而单程方法保持更快的检测速度。随着功能的出现金字塔网络(红外系统)11),精度单级和两级方法之间的差距也已缩小到一定程度上。
考虑到众多preset-anchor盒子anchor-based探测器,相关学术研究逐渐从anchor-based探测器转向anchor-free探测器。一种方法是找到一些预定义的或self-learned重点和绑定对象的空间范围,即关键点的方法(12]。另一种方法是定义积极示例使用对象的中心或地区和预测四个距离(上,下,左,右)从正样本对象边界。这种类型的anchor-free检测称为中心的方法(13]。它消除了相关hyperparameters锚和泛化能力。
然而,anchor-free探测器的性能不能赶上anchor-based目前的。有两个主要区别anchor-based和anchor-free探测器。我们把RetinaNet [14],YOLOv3 [6),和外交部13)为例来说明anchor-based和anchor-free探测器之间的区别。(1)分配策略的阳性样本如下:基于借据RetinaNet过滤策略需要积极的样品如果违约的借据价值锚和地面真理(GT)借据大于阈值。YOLOv3比较锚的宽度和高度的比值GT。如果比率小于设置hyperparameters宽度和高度的比例,这是一个积极的样本。外交部将地面实况边界框中的所有点作为正样本。(2)目标回归,RetinaNet YOLOv3算法回归的抵消边界相对于锚,而外交部是倒退的距离左上角和右下角点相对于锚点。目前,anchor-based探测器实现高绩效。
大多数anchor-based探测器密集预设锚在每个位置地图和三个不同尺度的特性。特别是额外锚设置根据不同角度间隔与额外的角度设置的任意对象。许多预设锚导致一个极端不平衡正负样本。最常见的解决方案是通过特定的采样策略控制候选人比15,16]。他们都有积极的和消极的样品不均的问题。一些学者在这个问题上做了一些研究。例如,ats (17)和动态R-CNN (18)自适应地选择高质量的阳性样本。然而,上述研究只考虑积极的声音样本,而忽略了潜在的大量的负样本和本地化能力借据的可信度。HAMBox [19)表明,低质量的负样本可以实现高质量的定位。ats (17),木豆(20.),和外交部13]表明,增加高质量的正样本锚显著加速收敛。
在空中图像场景图像的拍摄角度通常是一个俯视图角。相比之下,感兴趣的对象,如汽车、飞机、船只,通常相对较小,占领只有几个像素的图像。根据队伍(21),遥感图像有以下挑战。(1)复杂背景:航拍图像通常包含复杂的场景,和目标很容易被场景,导致遗漏或错误检测;(2)大规模变化:目标变化很大的规模;(3)密集的安排:检测对象有时密集或稀疏排列;和(4)小对象。我们指的是女士可可(11)定义的大型、中型和小型目标;大约60%的目标在队伍不到50像素。
由于复杂的背景和巨大的变化方向,规模和外观对象实例的遥感图像,很难检测水平检测算法应用于旋转对象。为了预测的位置和方向旋转物体在遥感图像中,先前的旋转检测算法(22- - - - - -29日使用预设旋转锚和额外的角度预测。由于取向的变化,众多主持人应预设功能映射空间符合GT盒子。其他方法使用水平锚点来检测旋转对象。例如,RoI变压器(23使用水平锚点但学习旋转空间转换的RoI在一定程度上减少了预定义的锚的数量。Rotate-YOLOv5 [29日)使用意识作为损失函数的边界框和马赛克数据增强提高检测准确性的基础上确保检测速度。R3Det [30.]重新编码模块使用层叠回归和重新定义框实现高绩效。虽然这个方法实现高绩效,必须躺着无数锚帧的特征图。然而,锚的分布有明显的冗余帧的旋转情况。
在这项研究中,队伍数据集是代表和挑战,我们将讨论该方法基于数据集。讨论的问题是普遍的检测算法。灵感来自外交部(13有人知道由罗[],4],ats [17],Rotate-YOLOv5 [29日],我们不仅分析现有主流算法的特点,积极的和消极的样本抽样策略还anchor-based和anchor-free方法的优点。同时,我们提出一个基于一个anchor-based遥感目标检测算法的方法。它优化问题的借据或hyperparameters风靡一时的策略,减少了设计。实验队伍进行了数据集来支持分析和结论。本研究的主要贡献如下:(我)基于借据的匹配策略的特点和形状进行了分析,并没有必要设置锚架与多个比例相同的锚点(2)结合的想法anchor-based和anchor-free方法,筛选策略基于一个anchor-based正负样本(OAB)方法(3)介绍了视觉变压器的self-attention机制削弱遥感场景复杂的背景信息,加强提取有用的信息,提高整体的检测性能
2。提出的方法
2.1。网络
遥感图像的目标检测必须考虑效率和精度,算法具有良好的可移植性。作为一个改进版本YOLOv3 [6]和YOLOv4 [1),YOLOv5也有类似的基本架构,算法可移植性好。YOLOv5方法被选为基线,以满足检测的性能和速度。网络的管道结构如图1。我们使用cross-stage部分连接(CSP) [1作为骨干)。顶部的骨干网络,我们添加了一个视觉变压器(ViT) [31日]模块连接到顶部的脖子。这使得网络关注关键信息和更好的学习特定的目标特性。检测网络的一部分,我们添加了一个point-spacing部门每一层抑制回归框远离GT的中心点,提高检测精度。这是外交部的自我为中心的意识(13]。
2.2。One-Anchor-Based YOLOv5方法
的重要部分之一anchor-based目标检测器是正负样本的抽样策略。目前,有两种主流的抽样策略收集和区别,一个是基于借据的采样策略,另一种是基于形状的抽样策略。基于借据的抽样策略设置借据阈值,结合采样步骤。当锚和GT的借据值大于设定的阈值,它被认为是收集阳性样本。抽样步骤可以控制锚的数量。步骤越小,主持人将生成越多,和更积极的样本将匹配,但与此同时,多余的负样本将被收集。正负样本的数量也小,所以,正负样本的采样阈值基于借据匹配需要设置合理。很难做,容易导致的损失小的目标,和一个不平衡的正负样本存在,尤其是在遥感图像。抽样策略基于形状匹配相对比较简单,但是这种方法更灵活,hyperparameters少。由于不合理的锚设置的采样策略基于借据,一定GT没有对应的锚和成为一个忽略了该地区。 It can be seen that this allocation system will lead to relatively few positive samples. It is guaranteed that each GT box must have a unique anchor by the sampling strategy based on shape. The threshold is not fully considered. By comparing the anchor aspect ratio and threshold, the sample is positive within the maximum IOU value. Even if the maximum IoU is less than ignore threshold, it will not affect the prediction box to be a positive sample. Otherwise, it is negative. However, more anchor frames need to be preset to match targets of different scales. Due to the different sizes of targets in the real environment, a large number of anchor aspect ratios will be set in advance to be more appropriate and real, which will increase the large amount of calculation and result in low calculation efficiency. In this section, we analyze the differences between the IoU and shape label collection methods. Subsequently, we solve the problem of IoU and shape label collection using the OAB method. Finally, we introduce the self-attention mechanism of ViT [31日)加强全球网络的推理能力特征映射到检测的准确性。
2.2.1。标签分配基于借据和形状的策略
(1)基于借据的策略。如图2,红色代表GT箱,黄色代表特性图的网格划分根据不同采样步,代表采样步并一步。红外系统生成特征图的大、中、小尺度;每个尺度特性图可以预测相应规模的目标。在采样过程中,采样步骤锚框架的扩展和功能图的分辨率下降。一般来说,特征图谱的大、中、小目标,采样步长设置为8,16和32。本研究需要 和16为例,分析了不同的采样步大小的影响在不同规模的目标。具体地说,当 不同比例的preset-anchor帧或8日每个中心点的黄色网格,和这些预设锚之间的借据,GT框计算。积极和消极样品获得了边界框回归和分类通过设置借据阈值划分正负样本。分工的正负样本包括两个hyperparameters:正样本借据阈值(pos_iou_thres)和负样本借据阈值(neg_iou_thres)。假设 和 。在图2(一个)锚定帧生成的,大多数的借据小于(neg_iou_thres)和被视为负样本。在图2 (b),整个图分为密集的网格通过减少采样步长。当生成的锚架与GT盒子,更积极的样品相匹配。然而,多余的阳性样本数量的增加。因此,设置借据hyperparameters显著影响正负样本的数量。此外,与地图的分辨率特性,减少采样步长增加导致的损失小的目标,和一个不平衡的正负样本存在,尤其是在遥感图像。
(一)
(b)
(2)基于形状的策略。如图3列出两个GT框,大规模的差异来说明shape-based匹配中存在的问题的策略。红色代表GT盒子。基于形状匹配策略,宽度和高度之间的比例的preset-anchor框架和GT的框计算。随后,hyperparameter阈值(anchor_ratio_thres)将根据这个比例将正负样本。如果preset-anchor帧之间的纵横比和GT盒子(1 / anchor_ratio_thres, anchor_ratio_thres)之间,这部分的示例是正的。GT框的左上角是一个小的目标,而右下角是一个大目标。红色代表默认锚架。发现默认的长宽比锚架非常不同于红GT盒子在左上角。因此,这些小目标可能会被忽视,导致没有积极的样本预测,而飞机在右下角匹配得很好。shape-based匹配策略匹配更积极的样品通过设置更大范围的纵横比。 Compared with the IoU-based matching strategy, this method is more flexible and has fewer hyperparameters. However, more anchor frames need to be preset to match targets of different scales. In the real world, especially in aerial images, the target scale varies significantly, and there are targets that are very large or small. Therefore, once the range of the aspect ratio is set improperly, some objects lose positive samples, resulting in poor detection performance of the corresponding categories.
2.2.2。One-Anchor-Based采样策略
在数据预处理,GT的坐标归一化。我们计算的分布坐标归一化后,网格点 。结果如图所示4(一)。我们发现大多数对象位于网格的中心。根据这一发现,我们选择网格的交点在每个GT中心点为中心的积极样本,而不是每个网格的中心,加快收敛速度的回归。如图4 (b),每一层的步幅大小被设置为1。每一层的功能映射红外系统被划分为网格 网格和中心点 每个格点的网格计算。点为中心 每个真正的标签,一个矩形(固定值)半径 是生成的,这被定义为网格框。此外,如果位置 属于网格的范围框,位置被认为是一种积极的样本,类别标签的位置(前台类)。否则,它是一个负样本 (背景类)。除了分类,有一个五维的向量 作为这一立场回归的目标。值得注意的是,坐标回归范围的边界框(bbox) YOLOv5 ,这是用于样品的扩张。在拟议的方法中,通过改变采样方法,回归的范围 坐标是 。
(一)归一化标签GT的坐标
(b) OAB匹配方法
如图5的宽度和高度遵循回归YOLOv3 [6]。如果细胞抵消从图像的左上角 和之前的边界框 , ,然后推理回归目标位置可以制定
2.3。视觉变压器
一般来说,空中数据集的背景很复杂,这减少了定位模型的能力。维特的self-attention机制(31日)允许网络上执行全球推理预测上的形象和特定的目标。模型用于观察图像的其他区域,以帮助确定目标的边界框。相反,传统的检测模型只能孤立地预测每个目标。因此,我们引入维特(31日)抑制背景噪声,增强模型的定位能力。
2.4。损失函数
2.4.1。回归的损失
在队伍21]数据集,大多数目标属于小目标,集中安排的。虽然借据评估预测的盒子作为整个计量单位,传统的借据方法只考虑重叠区域。根据队伍的特点(21]数据集、重叠区域中心点的距离,和长宽比的边界框被认为是全面的。因此,意识丧失(32)采用执行边界框的回归,和损失函数可以定义如下。
和权衡参数被定义为
2.4.2。角损失
角回归是一个困难的问题在旋转任务。因此,我们引入CSL (33]随着角回归方法并将其应用到基线YOLOv5和该方法。CSL (33)方法巧妙地变换角度预测任务从一个回归的问题分类问题来解决不连续边界问题在一个旋转的探测器。请参阅[33为进一步的细节。最后,角回归的表达如下: 变量 , ,和地面真理角,锚角度,分别和预测角。
3所示。实验结果和讨论
本节分为副标题。它提供了一个简洁而精确的描述和解释实验结果。
3.1。队伍的数据集和参数设置
3.1.1。DOTA-v1.5
队伍(21)是一个大型数据集遥感图像的目标检测。DOTA-v1.0包含2806个大型航拍图像的大小范围从 来 在15和188282实例常见的类别。DOTA-v1.5使用相同的图片DOTA-v1.0和极小的情况下(小于10像素)。此外,一个新的类别添加“集装箱起重机”。DOTA-v1.5总共包含403318个实例。因此,DOTA-v1.5比DOTA-v1.0更具挑战性。
队伍的版本在这个实验中使用数据集是DOTA-v1.5。的比例训练集、验证集和测试集DOTA-v1.5是1/2,1/6,分别和1/3。与此同时,我们农作物的一系列 补丁从原始图像和一个200像素的重叠队伍开发工具包。随后,不包含的子图象目标将被忽略。
3.1.2。实现细节
总共DOTA-v1.5训练120时代与YOLOv5m pretraining模型。最初的学习速率是0.01,cos退火学习速率时间表是用来更新学习速率。重量衰减设置为0.0005。SGD势头被设置为0.937。此外,热身策略采用找到一个合适的学习速率在第三期培训。和其他实验参数设置如表所示1。培训和测试补丁的补丁 。在推理过程中,我们首先发送补丁(培训)一样的设置在合并前获得检测结果,然后检测结果从贴片坐标映射到原始图像坐标,并执行nonmaximum抑制(NMS)这些结果通过原始图像坐标。指基准(34,35),我们为每个类,设置不同的NMS阈值“迂回”设置为0.1,“网球场”设置为0.3,“游泳池”设置为0.1,“储罐”设置为0.2,“soccer-ball-field”设置为0.3,“小型车辆设置为0.2,“船”设置为0.2,“飞机”设置为0.3,“大型车辆”设置为0.1,“直升机”设置为0.2,“港”设置为0.0001,“田径场”设置为0.3,“桥”设置为0.0001,“篮球场上”设置为0.3,“棒球内场”设置为0.3,“集装箱起重机”设置为0.05,并限制的最大数量预测实验的目标到1000年。干扰后,检测结果提交给队伍官方网站https://captain-whu.github.io/DOTA/evaluation.htmlfor在线测试数据集和评价与主流SOTA方法。评价指标的平均值是每个类别的平均精度(意味着平均精度,地图)。和地图的表达式如下: 美联社每个类别的平均精度,获得通过集成吗曲线结合精度和召回,代表类的平均精度 ,和代表类的数量。
3.2。实验结果
在本节中,我们的培训和评估该模型使用DOTA-v1.5数据集。它是部署在PyTorch1.7框架。所有实验都实现了与英特尔( )至强( )银4114(电子邮件保护)2.20 ghz, NVIDIA GeForce RTX 3090和64 GB的内存。
3.2.1之上。结果DOTA-v1.5
YOLOv5模型与改进的抽样策略是与主流SOTA方法相比。表2列表的检测性能改善YOLOv5方法和主流队伍SOTA方法数据集(包括单程算法和两阶段算法都是),以及评价指标的平均值是每个类别的美联社(地图)。我们比较了十同行技术,包括DCL [36],RSDet [23],GWD [37],KLD [38],R2-CNN [39],Rotate-YOLOv5 [29日],RetinaNet [14(先生),40],CMR [41],和FR OBB [21DOTA-v1.5]。具体来说,壮族等。29日]提出Rotate-YOLOv5这是我们的一个最相关的工作。我们one-anchor-based方法提出新的采样策略,可以更好地平衡正负样本的小目标。同时,我们添加一个维特骨干和颈部之间减少背景干扰,提高专注于目标,而他们用马赛克数据增强丰富数据集,提高检测小目标的准确性。然后,他们使用基于圆形长边定义方法平滑标签实现旋转边界框,它解决了角周期性对训练的影响将回归问题转化为分类问题。最后,他们用意识丧失的损失函数边界框提高检测准确性的基础上确保检测速度。在这项工作中,我们也关心旋转对象检测基于DOTA-v1.5数据集和评估在官方网站,以确保实验结果的可靠性。此外,在表的结果2显示了该方法的有效性和优越性。相反,类DOTA-v1.5 CC的实例数量最低,地图的所有,但“CC”类KLD方法很低,接近0%。我们相信这是由于正负样本的不平衡引起的采样策略。OAB在这项研究中提出的方法确保每个标签的样本比例稳定,不会引起不稳定的积极的和消极的样本比率由于借据的设置阈值和对象的大小,从而减轻长尾效应引起的不平衡样本大小之间的类别。如表所示2,OAB-YOLOv5达到最高的地图“CC”类的28.15%。实验结果表明,OAB-YOLOv5有着非常出色的表现在面向对象领域的检测。
3.2.2。烧蚀研究
进一步证明该采样策略的有效性和维生素的影响31日)模块的整体性能,我们比较了提出的抽样方法对检测性能的影响。不使用维生素(31日)模块,采样方法在这项研究中实现类似的性能基线,取得了5.45%的改善类别”CC。“总的来说,地图16类是相同的。总之,16个类别的地图是相同的。因此,我们减少了参数的数量由1米,不需要设置额外hyperparameters在采样阶段。因此,我们取得了结果类似于基线方法用更少的复杂性,证明了提出的抽样方法的有效性。最后,我们介绍了维特(31日)减少干扰背景因素的遥感图像,使网络学习整体形象和加强的能力模型。算法的精度进一步测试来证明整个方法的有效性。表3给出了实验结果。
最后,我们回顾性评估基线方法和该方法的速度。测试决议 ,批量大小是8。结果如表所示4;推理时间和NMS时间而言,该方法在本研究中减少锚的设计。因此,推理时间NMS是与基线相比减少了大约11%的方法。总之,该方法在速度和准确性达到一个更好的平衡比基线法。
4所示。检测效果和分析
某些类别的检测效果是可视化的研究。检测信心和借据阈值设置为0.1和0.6,分别。具体结果如图6(一)和6 (b)。测试的影响图方法在正确的列显示更清晰和比基线测试结果的方法。在使用基线方法获得的检测结果图,有许多乱锚帧因为每个标签预设各种不同尺度的锚。因此,有一些冗余检测锚帧。然而,该方法在本研究中更简单,更有效率。
(一)基本方法
(b)建议方法
5。结论
在这项研究中,我们提出了一种筛选策略基于单锚架实现高性能遥感目标检测任意方向。具体来说,两种匹配方法的特点,基于借据和形状进行了分析,并且识别出他们的缺点。因此,它是不必要的预设多个锚。它预设one-anchor-based (OAB)相结合的两种观点anchor-based anchor-free和采用中心点抽样的方法。获得高质量的样品,每个真正的标签周围的网格点计算抽样基准,这减少了hyperparameter匹配部分的设计,确保每个GT有相应的阳性样本进行预测。这个想法的有效性验证了使用数据集具有挑战性的队伍。
数据可用性
数据集可从https://captain-whu.github.io/DOTA/dataset.html。
的利益冲突
作者宣称没有利益冲突。