评估深度学习小目标检测的方法

文摘

小目标检测是计算机视觉的一个有趣的话题。深度学习的快速发展,吸引了一些研究人员的注意与创新方法加入比赛。这些创新提出了包括区域建议,划分网格单元,地图多尺度特性,和新的损失函数。因此,对象检测最近的性能有显著的改善。然而,大多数的最先进的探测器,在单级和两级方法,在检测小对象。在这项研究中,我们评估当前最先进的模型基于深度学习RCNN等两种方法快,快RCNN, RetinaNet, YOLOv3。我们提供一个深刻的评估模型的优点和局限性。具体来说,我们运行模型与不同的脊椎与多尺度对象在不同的数据集来找出什么类型的对象是适合每个模型和骨干。广泛的标准数据集2日进行了实证评价,即一个小对象数据集和一个从2007年帕斯卡VOC过滤数据集。最后,然后比较结果和分析。

1。介绍

对象检测被称作一个任务定位所有感兴趣的对象的位置在一个输入边界框和标签分类,他们属于。要完成这个任务,提出了一些想法与传统方法基于深度学习的方法。对象检测的方法主要分为两类,即基于区域方法建议的算法称为两阶段方法(1- - - - - -3)和方法基于回归或分类公认为实时和统一的网络或单程方法(4- - - - - -7]。基于实时目标检测的应用程序现在关注的人由于其对满足现代生活的需求,帮助人们更好的生活。例如,自动驾驶汽车是一个真实的同时帮助人们在街道上交通安全,减少交通事故,司机分心。另一个包括制造业,需要检测装配零件有缺陷或不确定性的一个视角,发现对象的大小,可变形形状,装配过程中显著变化(8]。它说明了实时目标检测,应用于现实世界中,最受欢迎的应用程序是必不可少的。然而,这些应用程序需要对象检测早期为了随后作为输入用于其他任务(9,10]。由于早期检测,表示的对象通常是小,甚至小。一般来说,鉴于感兴趣的一个图像,小目标检测的目的是立即检测常见的对象属于什么形象,特别是在小尺寸,这意味着对象感兴趣的对象,要么是自己的身体大外观只是占据一小块图像(火车、汽车、自行车等)(11,12)或者是一个小外观(鼠标、板、罐、瓶等)(13),如图1。

(一)

(b)

因此,小目标检测是一项非常具有挑战性的任务在计算机视觉,因为除了小表示的对象,输入图像的多样性也使这个任务更加困难。例如,一个图像可以在不同的决议;如果分辨率低,它可以阻碍探测器探测到小对象。在这种情况下,视觉信息来突出小物体的位置将被大大限制。此外,小物体变形或被其他对象重叠。各种各样的检测方法提出了在过去年深度学习的发展。各种想法已经提出,并高度评价了应对挑战的对象检测,但这些提议探测器目前花在正常大小的检测能力,不仅仅是小物件。然而,一个评估的小目标检测方法是必不可少的检测和研究的重要对象。最近,对象检测大大吸引注意力从最先进的方法,这使他们的努力解决对象检测和产生良好的性能等具有挑战性和多级数据集帕斯卡VOC和可可。这些先进的方法是首先对准ImageNet和转移到检测; for example, in [2],作者使用一个网络提出了一种适用于空间金字塔池层提取特性和计算这些在整个图像无论图像大小,而不是采用部分原因模型(14]。R-CNN [1)是一个突破性的先锋对象检测和有几个从先前的方法创新;一个图像的大小一个固定大小的喂到网络,然后外部算法适用于生成对象的建议。改善从[1),快R-CNN [3]应用感兴趣的区域(roi)提取一个固定长度的功能特征图的每一个建议。快R-CNN [15)使用自己的网络生成对象的建议而不是外部应用算法。

到目前为止,几乎所有well-performed检测模型具有挑战性的数据集,如可可和帕斯卡VOC。这些数据通常包含对象在一个中型或大型零件图像包含一些小物体造成不平衡数据对象之间在不同大小导致模型对象的偏见更大的数字。此外,当前小对象数据集的类的数量小于普通的数据集。除此之外,大部分的最先进的探测器,在单级和两级方法,在检测小对象。结果,我们提出了深入评估现有的深度学习模型在检测小物体在我们之前的工作16]。我们评估三种最先进的模型包括你只看一次(YOLO)意思,单发射击MultiBox检测器(SSD),和更快的R-CNN与相关的权衡因素,即。、准确性、执行时间和资源约束。在这个时候,我们不仅使一个扩展通过不断评估最先进的和最新的检测模型还总结利弊以及模型的设计,而不是引入他们的想法。而不是专注于实时模型,我们评估的模型在单程方法能够运行在实时YOLOv3等RetinaNet和两阶段方法,不能满足实时检测但快速RCNN等高精度和RCNN更快。我们添加这些模型来评估由于一些原因,我们首先要从这些模型的原创作品。特别是,我们捡YOLOv3因为这个检测器是小说和最先进的模型,结合当前先进的技术,如残块,跳过连接,和多尺度检测。同样,RetinaNet检测器,提出了一个更新的计算损失函数惩罚不平衡数据集的类。虽然快RCNN是唯一一个评估模型,在我们以前的工作,我们要评估这个模型有不同的脊椎需要考虑如何骨干工作当他们结合RCNN更快。此外,更快的快速RCNN RCNN是一种进步,我们还是快RCNN添加到我们的评价,因为这个模型与外部算法生成地区建议一个输入图像而不是地图上一个特性都RCNN更快。此外,我们评估这些模型用不同的脊椎如ResNet 50, ResNet 101年,152年ResNet ResNeXT 101,红外系统在小对象时考虑这些骨干如何结合模型。 We still make our evaluation on 2 datasets namely, small object dataset [13从2007年帕斯卡VOC)和过滤数据集(11)等标准的准确性、速度的处理和资源消耗。然而,我们希望提供分析的设计和模型的工作方式和探索与多尺度对象模型如何能负担得起。这有助于读者的偏好模型,并从那里,他们可以选择一个合适的模型来满足他们的需求。因此,以下是我们的贡献:(我)我们做了一个扩展评价深模型检测的两种主要方法,即单程方法和两阶段方法,如YOLOv3 RetinaNet,快速RCNN,和更快的RCNN随着红外系统等流行的骨干,ResNet或ResNeXT。(2)我们不仅提供相关模型精度的缺点和优势,资源消耗和环境的处理速度小物体,以及这些因素的变化当一个对象大小比例上升或下降而且单程和两阶段方法之间的比较。

2。挑战

总体而言,有几个问题需要解决的挑战对象检测。从研究对象检测本身吸引太多的注意,但一段时间后,挑战只是解决部分;特别是,可可挑战提供了一个标准的关于中小检测、和准确性在大多数探测器与这个标准仍然较低。因此,在小目标检测方面,很难研究,因为除了正常的挑战都对象检测、小物体拥有特别的挑战。此外,小物体的定义显然不清楚。下面的演讲使它更加明显。

2.1。小的场合

最近,小目标检测已被视为一个有吸引力的问题本身,因为有许多类型的非常有趣的研究人员自己的挑战。首先,小物体的外观的可能性比其他对象,因为体积小,导致探测器的事实感到困惑,这些对象在许多其他的对象位于周围甚至是相同的大小或外观。艰苦的时候区分小物体杂乱的背景。此外,可用像素代表小物体的信息也多不到正常的对象。这意味着有更少的信息代表探测器来执行其任务。此外,关键特性获得小物体从图像时脆弱,甚至失去了逐步彻底的多种不同的层深如卷积或汇聚层网络。例如,在VGG16,如果感兴趣的对象占据了一个3232岁大小,它将最多1像素经过5次的经历池。因此,精疲力竭的搜索,如滑动窗口(14)或边界框的数量急剧增加选择性搜索(17实现良好的输出)是不可行的。一些样品的小对象如图1。

2.2。小对象定义

定义的小目标检测问题澄清多小尺度大小的对象或他们占领多少像素在一个图像。这是艰苦的,不同的,如果我们考虑对象在高分辨率和低分辨率的图像。例如,一个对象分配一个小物体如占领400的一部分第400号决议于2048年500年2048年但非常大500一个。因此,它导致困难人员当数据集包括各种范围的分辨率的图像。直到现在,有些小物体的定义,这些定义不明确。它取决于数据集用于评估和感兴趣的对象的特征。因此,执行的任务检测小对象,研究人员定义不同的定义为不同的数据集,而不是只使用含有物体的边界框的大小考虑如果对象是小。例如,朱et al。18]提到小对象的对象大小填充图像的20%时释放他们对交通标志的数据集。如果交通标志广场大小,它是一个小对象当边界框的宽度小于20%的图像和边界框的高度小于一个图像的高度。在[19],Torralba等人应该小于或等于32小对象32像素。在小数据集对象13),对象是小当他们意味着相对重叠(边界框之间的重叠区域面积和图像)从0.08%提高到0.58%,分别为1616岁到4242像素在一个VGA的形象。在这项工作中,我们重用上面的定义,特别是定义从[13,18)为主要参考,因为他们是可靠的资源和其他研究者广泛接受。

2.3。数据和方法

有有限的工作专注于各种小物件,结果在经验和知识的局限性深深地去全面的研究。前面的方法只是指定关注大对象和忽视小物体的存在。事实上,我们不理解多少well-performed现有检测方法在处理小对象。因此,在这项工作中,我们的表现进行评估现有最先进的探测器来画一般的小目标检测的能力。

的小目标检测,只有一些有关小物体检测的问题。到目前为止,大部分的这些作品只是为了检测交通标志等单一类别(18)或车辆(20.- - - - - -22行人]或[23),不含常见或多级数据集在现实世界。这导致缺乏评价的方法来展示其能力检测不同的对象和不同的形状。幸运的是,陈等人。13)展示他们的小对象数据集通过结合微软的可可(12)和太阳数据集(24],包括常见的对象如“鼠标”,“电话”,“开关”,“出口”,“钟”,“纸巾盒”,“板”和“水龙头,jar。“陈也增加R-CNN算法并做一些修改,以提高性能检测小对象。这个想法后,我们对现有数据集进行小调查,作者发现帕斯卡VOC和可可和SUN的数据集,包含不同类别的小物体。我们依靠现有的和常见的小物件定义过滤对象满足这些定义和形成一个数据集包括4子集对应4小物体的定义不同,客观地考虑不同尺度的对象如何影响性能的检测。此外,还有最近一个小对象数据集在一个叫视觉满足无人机的挑战:挑战(http://aiskyeye.com/),这个数据集被认为是具有挑战性的数据集,因为它包含几个小对象,甚至微小物体图像在不同环境和条件下野生,但图像的视图快照从无人机飞行,从高分辨率相机拍照。不幸的是,这对测试数据集没有注释,所以很难进行评估。

因此,在这项工作中,我们选择小对象数据集(13)和过滤数据集,让我们的评价,因为这些数据集包含常见的对象和图像的数量很大,所以评估的目标。

3所示。深对目标检测模型

最近,在深度学习的广泛发展,众所周知,卷积神经网络(CNN)的方法显示大量的改进,取得了良好的效果在不同的任务。因此,它通常被应用于著名的作品。大部分的作品显示,检测对象填充介质或显著改善大部件在一个图像。

RCNN [1是先驱之一。以下方法的一种改进形式R-CNN等(2,3,15]。尤其是快R-CNN [15)被认为是最先进的方法。虽然这一系列先进使用很多不同的工作,突破思想从滑动窗口对象的提议和主要实现最好的结果作为最先进的方法具有挑战性的数据集,如可可,帕斯卡VOC,花很多时间和ILSVRC,然而,他们表示完全运行在一个图像,可能导致减少探测器的运行性能。因此,探测器在使用它们面对困难尽管实现高精度实时检测对象。这意味着他们只关注准确性和忽略处理速度的影响。此外,检测对象在现实世界中一样重要小尺寸对象有大或中等大小,甚至比我们想象的更为必要。特别是在汽车行业,智能汽车,军队的项目,和智能交通、数据必须及时、准确地处理,以确保安全是第一。但在这种情况下,一般来说,数据记录通常是远离我们的立场和信息是一个小的事情。

的实时检测,单程的方法,而不是使用对象的提案获得RoI之前像两级分类器方法如R-CNN更快,使用本地信息预测对象如YOLO和SSD的意思。两种方法正确处理实时图像和检测对象,仍然有很高的地图。然而,这些论文提到的模型可以检测小对象和有良好的结果,但是他们不显示证据证明多少的小物体或在多大程度上解决。在这项工作中,我们评估这些模型两种方法来找出他们的性能和延长他们擅长什么检测小对象。以下是上述方法的一般思想。

3.1。R-CNN

R-CNN [1)是一种新型的和简单的方法作为一种先进的先驱,提供超过30%的意思是平均精度(mAP)比之前的帕斯卡VOC。R-CNN架构的概述包括四个主要阶段,这种方法的新进展。首先,R-CNN网络调整图像,227227年,把它作为输入。然后,选择搜索算法(17)应用于图像和生成2000位候选人提出的边界框的扭曲区域用于CNN功能网络的输入。通过区域,网络从每个区域中提取一个4096维的特征向量,然后计算每个区域的特性。最后,使用最后一层是背后的职业专用线性SVM分类器分类区域考虑如果有对象和对象是什么。

R-CNN的成功的主要关键是物质的特性。R-CNN,底层图像特征(如猪)替换为CNN特性,更有识别力的表征。然而,图像的评价是非常昂贵和浪费因为R-CNN必须应用卷积网络2000倍。此外,调整输入的低227227是一个问题影响小对象很容易变形,甚至失去信息改变分辨率远从原来的大小。该地区建议重叠,从而导致计算很多次熟悉的特性,每个地区的提议,它必须存储到磁盘之前执行的提取功能。此外,大量的边界框重叠会导致一滴地图如果小物体接近大对象,因为有一个倾向选择的边界框包含大对象和无知小物体的边界框。

3.2。空间金字塔池(SPP)

SPP[的主要思想2动机是来自CNN架构的局限性,如原CNN接收输入图像的大小必须是一个固定大小(224224 AlexNet),所以实际使用的原始图片经常需要裁剪(一个固定大小的块,对原始图像截断)或扭曲(RoI图像的输入必须是一个固定大小的块)。完全连接层需要一个固定长度的输入和回旋的层,可以适应任意输入的大小;因此,它需要一个桥之间的调解层卷积层和完全连接层SPP层。特别是SPP-net首先发现的2000名候选人地区建议像R-CNN方法,然后从整个图像中提取特征图。SPP地图每个窗口的功能对应地区的建议作为一个固定长度的表示输入的大小无关。最后,2完全连接层由支持向量机用于分类。

简而言之,SPP-net与R-CNN:检测任务最好是100比R-CNN更快,但训练时间非常缓慢,因为多级培训步骤(最后一层的微调、支持向量机和回归),花费大量的磁盘空间来保存向量的特性。

3.3。快R-CNN

快R-CNN [3)是一种先进的方法,提出了各种创新提高培训和测试阶段的时间有效地分类对象建议同时使用深卷积网络提高准确率。快R-CNN的架构是训练有素的端到端多任务的损失。具体来说,卷积网络需要一个图像在任何大小作为输入和几个roi。而不是应用RoI的输入和包装它们流入网络像RCNN第一步,快速RCNN适用这些RoI特征映射几个卷积层后的基础网络。每个RoI提取由池层和一个固定大小的特征向量映射到一个特征向量的完全连接层。网络有两个输出向量/ RoI: softmax概率和每个类限定框回归补偿。

RoI的最重要的特性是共享的计算和记忆向前和向后传递相同的形象。快R-CNN的巨大贡献是提出了一种新的训练方法,修复的缺点R-CNN SPP-net,同时增加运行时间和准确率。检测的优点是意味着平均精度高于R-CNN SPP-net。训练阶段是一个单一的阶段,使用多任务的损失,可以更新整个网络层。磁盘存储的容量特性不需要缓存。

3.4。快R-CNN

快R-CNN [15从快速R-CNN)是一种创新的方法改进。与前两次不同的方法,而不是通过外部算法生成边界框(17)像(1,3),快R-CNN运行自己的方法称为地区建议网络(RPN),这是训练有素的端到端为了给一代高素质地区的建议。从早期的卷积层获得深刻的特性后,RPN的考虑和windows幻灯片在每个地区的特征映射到特征提取方案。项被认为是一个完全卷积网络,同时预测边界框的对象和客体性分数在每个位置。的输入项是一个图像的大小和输出一组边界框的矩形对象的建议,以及一个客体性得分为每个提案。具体来说,需要图像特征映射的第五项卷积(conv5)作为输入层和应用33滑动窗口功能映射。然后,中间层将融入到两个不同的分支,一个对象的分数(确定地区的事情或东西),另一个用于回归(决定了边界框应该如何改变更类似于地面真理)。项提高精度和运行时间以及避免产生过多的建议盒子因为降低成本通过共享项计算卷积特性。和快速R-CNN项合并成一个单一的网络通过分享他们的卷积特性。这种组合有助于更快R-CNN主要表现在精度但导致其架构作为一个两级网络,降低了该方法的处理速度。

3.5。你只看一次

继承的优点介绍了先前的模型之前,你只看一次(YOLO)的意思4被认为是一个最先进的实时目标检测各种类别。YOLO目前有三个版本(意思4- - - - - -6),通过每个版本逐步改善显著。有人知道由罗方法的详细分析为前提,把它应用到实际应用如下:

YOLOv1(4)广泛知道YOLO,意思是一个统一的或单程网络,是一种全新的方法基于一个想法,旨在解决对象提出的实时检测Redmon et al,。暗示,而不是执行的任务对象检测像前面技术基于复杂的任务,比如[1,4),使用了滑动窗口然后提要输出的分类器进行等距的地点在整个图像或地区建议生成边界框它可能包含对象,然后给他们卷积神经网络,YOLO认为目标检测是一个意思回归问题,同时给予不同的边界框的坐标和类的预测概率对这些盒子。执行检测的关键理念YOLO是YOLO分离图片意思意思为网格视图将运行时间以及精度在本地化的对象YOLO。意思YOLO是意思的目标处理两个问题,即哪些对象提出了,他们在一个图像。YOLO操作意思所得的总结三个主要步骤简单而直接。首先,YOLO以一个意思输入图像缩放到一个固定的尺寸,然后工作一个卷积网络作为一个统一的网络形象,并最终造成的结果检测的阈值评分模型的信心。YOLO运行在GPU 45 fps和较小的意思快YOLO达到150 fps意思。这种处理可以运行热气腾腾的实时视频。尽管YOLO架构提供端到端的意思培训的设计和实时检测,它仍然保持平均精度高。

网络将输入图像划分为一个年代年代网格,SS =宽度和高度的张量提出了最终的预测。如果对象的中心在一个网格单元,佩带细胞负责检测对象。此外,每个准备细胞同时负责预测边界框和信心得分,现在如何自信的边界框包含一个对象的模型以及如何准确的指出这个边界框是预测。

YOLO是意思的缺点落后于先进的检测系统对精度但比那些运行时间。它使不到一半的数量相比快R-CNN背景错误。YOLO高度可概括的意思,所以它可以快速识别对象在一个图像,但它通常难以准确定位一些对象,特别是小公司。因此,作者介绍了YOLOv2 YOLO同样意思的提高性能并修复缺陷。

YOLOv2 [5从YOLOv1]有许多各种各样的改进。类似于原点,YOLOv2运行在不同的固定大小的输入图像,但它引入了几个新的训练方法等目标检测和分类批量标准化,与更高的分辨率的输入图像多尺度训练,预测最终检测高空间输出,使用好违约边界框而不是完全连接层。

然而,这提供了一个速度和准确度之间的权衡。2007年帕斯卡VOC映射的细节改进图所示2。

(一)

(b)

(c)

(d)

这些小说改进允许YOLOv2可可或ImageNet等多类数据集训练。此外,它是试图训练检测器检测超过9000种不同的对象类。YOLOv2使用一个网络体系结构定制从原始网络。YOLOv2主要集中于提高召回和定位的一种方式,同时获得高精度的分类与最先进的探测器相比,和原点YOLO明显更本地化的意思错误,但不太可能预测错误检测的地方不存在。尽管YOLOv2精度的改进,YOLOv2不工作在小物体,因为输入将采样结果的低维特征映射用于最终的预测。要解决这些问题,最近,介绍YOLOv3对象检测,明显改善,特别是在小目标检测。一般来说,各种各样的最新网络往往是向更深和产生良好的性能在他们的任务从众多的层深特性。

YOLOv3 [6是这些方法之一;而不是使用Darknet-19像两个旧版本(4,5],YOLOv3发展更深层次的网络称为Darknet-53 53层和结合了网络和先进的技术,如残块,跳过连接,upsampling。剩余块和跳过连接在ResNet和相对的方法很受欢迎,upsampling最近也提高了回忆,精密,借据度量对象检测(25]。检测的任务,53层堆积到它,106 -层完全卷积YOLOv3底层架构。这背后的原因是缓慢的YOLOv3 YOLOv2相比。

第二,YOLOv3使探测器来预测对象在三个不同的输出三种不同的尺度,而不仅仅是一个预测的最后一层网络类似于其竞争对手SSD (26]这项技术已经有了很大的改进性能的低分辨率图像。这是有用的去接不同的结果,以提高检测的性能。最终的输出是由应用11内核地图上的一个特性。特别是,所做的检测是应用11检测内核特性三个不同大小的地图在三个不同地方的网络部分类似于金字塔特征网络(红外系统)27]。

第三,YOLOv3仍保持使用k - means生成锚盒子,而是充分应用5锚箱在最后检测,YOLOv3生成9锚盒子和分离成3位置。每个位置应用3锚箱;因此,有更多的边界框/形象。例如,如果我们有一个416的形象416年,YOLOv2预计135 = 845箱;在YOLOv3,箱子的数量是10647,这意味着YOLOv3预测数量的10倍框YOLOv2相比。

第四,YOLOv3也改变了计算成本函数。如果锚重叠地面真理比其他边界框,相应的客体性分数应该是1。对其他锚箱重叠大于一个预定义的阈值0.5,他们不会产生成本。每个地面真理只有一个边界框。如果一个边界框没有分配,不得因其分类和本地化了,只是损失客体性的信心。前YOLO看起来意思的损失函数

目前,而不是使用均方误差计算分类损失在最后三项,YOLOv3使用二进制叉损失为每个标签。换句话说,YOLOv3使其预测对象的得分和类为每个边界框使用逻辑回归预测。

没有更多的softmax函数类的预测。原因在于,目前使用的大多数分类器假设预测标签是独立和相互排斥的暗示,如果一个对象是一个类,那么它不能属于其他仅仅如此,如果输出预测是相互的,然而,以防数据集multilabel类和有非无排他性的标签如行人和人。当时,分数可能性的总和可能大于1如果softmax分类器,所以YOLOv3交替类预测的分类器将softmax函数独立物流分类器计算输入的可能性属于一个特定的标签。

3.6。单发射击MultiBox探测器

单发射击MultiBox检测器(SSD) [26]是一枪探测器使用单一和单程深层神经网络用于实时目标检测。相比之下,最先进的方法在两级处理,RCNN更快,使用其提出网络生成对象建议和利用这些对象进行分类,以向实时检测,而不是使用一个外部方法,但整个过程运行7 FPS。SSD可以提高运行时间的速度比以前更快探测器通过消除建议网络的需要。因此,地图,它会导致一些下降,SSD补偿通过应用一些改进包括多尺度特性和默认的盒子。这些改进允许SSD更快获得同样的RCNN使用低分辨率图像,然后进一步加速SSD的处理。300年300输入图像的最佳版本,SSD 77.2%地图在46岁FPS比快R-CNN 73.2%和小于YOLOv2最好的版本,554年554输入图像,78.6%的地图在2007年40 FPS VOC Nvidia泰坦X。

同样,SSD由2部分组成,即提取特征图和使用卷积过滤器来检测对象。固态硬盘使用VGG16作为基础网络来提取特征图。然后,它结合了6卷积层做出预测。每个预测包含一个边界框N+ 1的分数为每个类,N是类的数量,另一个用于extraclass没有对象。而不是使用一个地区建议网络生成盒子和饲料的分类器计算对象位置和类分数,SSD仅仅使用小卷积过滤器。VGG16基地网络从特征图提取特征后,SSD适用3为每个单元格预测对象3卷积过滤器。包括每个过滤器提供了一个输出N4 + 1的分数为每个类和属性为一个边界框。

SSD已经不同于以前的方法同时,这使得预测的多尺度特征图谱检测独立而不是最后一层。CNN网络空间逐渐减少图像的尺寸,导致特征图的分辨率下降。如前所述,SSD使用较低的输入图像来检测对象;因此,早期层用于检测小物体和低分辨率层逐步检测大规模对象。此外,SSD违约不同尺度盒适用于不同的层,以及直观的可视化图3。特别是,唯一的蓝色违约盒88特性适合映射到地面实况的猫,和唯一的红色44功能地图匹配的地面实况的狗。

尽管SSD显著改善在对象检测结合以上部分,SSD并不擅长发现小物体,可以提高与跳过连接添加反褶积层引入额外的大规模上下文(28]。一般来说,SSD优于RCNN更快,这是一个最先进的方法对准确性、帕斯卡VOC和可可在运行在实时检测。

3.7。CNN的缺点

大部分的CNN模型是目前设计的卷积和池层等各层的层次,按照一定的顺序排列,不仅在小型网络,而且在多层网络,先进的网络。随着这些层,完全连接层添加后,被称为FC层。块组成的FC层和前一层被指定为特征提取器,它输出对象的关键特性的利益作为分类器的输入。然而,深深经历多种层是一种不好的方式对小目标检测的任务,因为在小目标检测,对象感兴趣的对象拥有小尺寸和外观。此外,小物体,与正常或大型对象由调整图像大小影响较小或通过很多不同的层,非常容易受到图像大小的变化。图像通过卷积层时,图像的大小会减少接受字段,幻灯片图像中提取有用的特性。这并不影响小物体如果有几层,但是在CNN网络,这样我们有很多层,和很难小对象。不过,如果小物体经过卷积层,它不会被提及。小对象,只是有一些有益的存在必须通过池层,帮助避免,过度拟合,降低计算成本减少的参数。要做到这一点,这些层使用固定滑动窗口关心前确定一个固定的目标,如最大或贵重物品的平均计算。 For these reasons, GAN is an approach that may alter the CNN approach because of its advantages. We can take advantages of a way that the approach generates data to overcome the limitations of data of small objects for the training phase. Although images still have to pass layers such as convolutional and pooling layers, in this context, the network just has less layers compared to others. Bai el al. [29日)提出了应用MTGAN检测小物体通过作物投入等处理步骤由基线探测器快RCNN [15]或面具RCNN [9]。

因为提到原因和调查后30.),刘等人提出了大量的调查和评估工作,但没有工作,与小物体。因此,在这项工作中,我们评估受欢迎和最先进的模型来找出这些模型的优缺点。特别是,我们评估4深YOLOv3等模型,RetinaNet,快RCNN,快RCNN与多个基本网络与不同尺度的对象为小目标检测。在这些模型中,YOLOv3 RetinaNet属于单程的方法;快RCNN更快RCNN两阶段的方法。我们选择这些模型因为YOLOv3模型结合最先进的技术,和RetinaNet是惩罚的模型与一个新的损失函数类的不平衡数据集。此外,我们选择RetinaNet模型之间的比较在相同的方法。同样,快速RCNN更快RCNN是相同的,和两种模型在相同的方法和几乎类似的管道对象检测。有一个区别是,快RCNN利用外部建议提案基于输入图像生成对象。然而,快RCNN提出自己的网络生成对象特征图的建议,更快,这使得RCNN训练端到端轻松和更好地工作。

4所示。实验评价

在本节中,我们目前的实验设置和数据集的信息,我们使用进行评估。

4.1。实验设置

我们不断地训练和评估各种对象探测器的两个数据集,例如PASCAL VOC (11和一个新生成的数据集16]。这次的评估方法包括更快RCNN [15],YOLOv3 [6],RetinaNet [7与不同的骨干。除了YOLOv3,其余由Detectron python代码被训练和评估。

目前,普遍使用的原始数据集对象检测帕斯卡VOC (11和可可12]。两个数据集都是由几乎大对象或其他类型的对象的大小填补图像中的一个重要部分。这两个数据集是不适合小目标检测。此外,还有另一个数据集,这是大规模的,包括很多类小目标检测,收集的无人机,名叫VisDrone数据集(31日]。然而,它并不为测试集来评估发布标签,和视图的图像是由上而下的,不是我们的。因此,为了评估模型的检测性能,我们使用一个数据集出版(13]。这个数据集称为小对象数据集的结合可可(12和太阳24数据集。有10个类小对象数据集包括鼠标,电话,开关,插座,时钟,厕纸(t .纸),纸巾盒(t .盒),水龙头,板和罐。整个数据集包括总共4925张图片,和训练有3296张图片和1629图像进行测试。鼠标类拥有最多的实例图片:1739年2137个实例图片,和纸巾盒类实例的最小的数:100年103个实例图片。除了小对象数据集,我们也从2007年帕斯卡VOC过滤器子集后标准的定义。帕斯卡VOC,有20个类,但在小目标检测,严格定义上有更少的类的小对象。表1列表数量的小物体的细节和图像包含的数据集的子集。


子集	类	图片	实例

VOC_MRA_0.58	16	329年	529年
VOC_MRA_10	20.	2231年	5893年
VOC_MRA_20	20.	2970年	7867年
VOC_WH_20	18	1070年	2313年

我们训练模型在小数据集对象相同的参数。特别是,在训练阶段,我们与70年训练模型k迭代的参数包括动量、腐烂,γ,学习速率,批量大小、步长和培训表2。在第一时刻,我们试图开始模型具有更高的学习速率 ,但模型差异导致损失价值被南或正100年之后第一次迭代。然后,我们试着学习速率较低在100年第一次迭代和崛起考虑如果模型可以收敛开始学习速率较低。然而,它什么都保持不变。我们也看到模型迅速聚集在10k第一次迭代然后逐渐慢下来后20k。因此,我们决定开始训练学习速度和减少和在25岁k和35k分别迭代。这个设置显示,从40损失值是稳定的k,但我们设置培训多达70k考虑损失值变化后,发现它并没有改变很多40k迭代。我们试图评估模型从30k到70年k,一般来说,性能的模型是不稳定后40k迭代。出于这个原因,我们在30拿起重量进行评估k和40k迭代。30岁时k迭代,YOLO达到最好的效果意思和其他人得到最好的一个40k迭代。2007年帕斯卡VOC的子集,我们结合训练和有效的从2007年至2012年帕斯卡VOC形成训练集。帕斯卡VOC 2012作为数据增加为2007帕斯卡VOC。我们使用这个组合训练集训练模型和测试子集。所有模型火车相同的参数。首先,由于内存的限制,我们重新调节所有图片的大小相同的尺寸与最短的边600和时间最长的边1000年(15]。


方法	动力	衰变	γ	Learning_rate	Batch_size	Training_days	Stepsize

YOLOv2 [16]	0.9	0.0005		0.001	8	5	25000年
YOLOv3	0.9	0.0005		0.001	32	3 - 4	25000年
SSD300 [16]	0.9	0.0005	0.1	0.000004	12	9	40000年,80000年
SSD512 [16]	0.9	0.0005	0.1	0.000004	12	12	100000年,120000年
RetinaNet	0.9	0.0005	0.1	0.001	64年	4 - > 12 h	25000年,35000年
快RCNN	0.9	0.0005	0.1	0.001	64年	4 - > 12 h	25000年,35000年
快RCNN	0.9	0.0005	0.1	0.001	64年	4 - > 12 h	25000年,35000年

YOLOv3,我们运行9 k - means聚类算法来初始化默认的边界盒适合选择数据集的训练和测试阶段,我们改变了锚值。以下是9锚小对象数据集运行后的k - means算法:[10.3459,14.4216],[26.2937,19.0947],[21.4024,36.3180],[47.9317,29.1237],[40.4932,63.7489],[83.6447,51.3203],[72.2167,119.9181],[172.7416,117.0773],[124.6597,252.8465]。

快R-CNN,相当与之前工作在不同的脊椎和部署,我们还重用后直接锚尺度和纵横比文献[13)如锚尺度= 1616日,4040,100100像素和长宽比= 0.5,1和2,而不是聚集一组默认的边界框YOLOv3相似。类似地,在RetinaNet,我们保持默认设置培训如γ= 2.0损失,α= 0.25损失,锚规模= 4,每倍频程和标量= 3,因为作者之后,这个配置是优化的贵重物品。

4.2。我们的新生成的数据集

在这个时候,一个客观的比较,我们也使用我们的新生成的数据集,这个数据集的信息如表所示1。我们用它来考虑对象大小的影响因素,包括模型、时间的处理,精度和资源消耗。数据集包含4个子集过滤从2007年帕斯卡VOC VOC_WH_20等VOC_MRA_0.58, VOC_MRA_10, VOC_MRA_20,和细节信息提供如下:(我)VOC2007_WH_0.2包含对象的宽度和高度不到20%的一个图像的宽度和高度。这个不到2007年帕斯卡VOC两类,如餐桌和沙发,因为定义的约束。(2)VOC_MRA_0.58、VOC_MRA_10 VOC_MRA_20组成对象占据最大的意思是原始图像的相对面积低于0.58%,10%,和20%,分别。其中两个具有相同数量的帕斯卡VOC 2007类除了VOC_MRA_0.58和少四类,如餐桌,狗,沙发,和培训。

5。结果和分析

在本节中,我们显示的结果,我们通过实验阶段。所有模型在这一节中提到的,除了模型引用其他论文被训练在相同的环境和1 GPU: Ubuntu 16.04.4 LTS,英特尔(R)至强(R)黄金6152 CPU @ 2.10 GHz, GPU特斯拉岁入。除了比较准确,其他的比较也提供了让我们的目标和明确的评估结果。

5.1。精度

5.1.1。小对象数据集

后检测结果表3方法,属于两阶段方法表现的单程方法约8 - 10%。具体地说,快RCNN resnext - 101 - 644 d-fpn骨干实现两级的顶级映射方法和表的顶部,41.2%。与顶部在单程方法相比,YOLOv3 608×608 Darknet-53获得33.1%。后(32等),基于区域方法建议快RCNN比基于回归或分类方法如YOLO和SSD的意思。实际上,这也再一次在小数据集对象的上下文中。


方法	骨干	时钟	水龙头	Jar	鼠标	出口	板	开关	电话。	t .盒子	t .纸	地图

YOLO 416[意思16]	Darknet-19	22.8	30.8	4	52	20.4	13.1	13	6.1	0	35.3	19.39
YOLO 448[意思16]		23	36.9	9	52.5	18.4	13.6	17.5	4.2	0	34.3	20.13
YOLO 480[意思16]		34.2	37.3	9.1	53.3	21.4	13.6	15.8	9.1	9.1	34.2	23.71
YOLO 512[意思16]		23.1	36.6	6.1	59.8	24.6	14.2	15.7	9.1	4.5	32.4	22.61
YOLO 554[意思16]		23.4	37.2	9.1	60.1	27.2	13.4	19.9	9.1	4.5	34.5	23.84
YOLO 640[意思16]		20.2	36.2	3所示。2	59.8	27.8	11.7	18.1	8.2	4.5	35.6	22.53
YOLO 800[意思16]		27.6	36	2.3	60.2	32.8	13.1	23.3	9.1	9.1	26.7	24.02
YOLO 1024[意思16]		21.7	29.3	1。4	58.3	26.4	11.8	17.5	9.1	9.1	15.7	20.03
YOLO 320意思	Darknet-53	26.22	38.38	4.55	56.46	36.42	13.34	24.8	10.65	4.55	42.96	25.83
YOLO 416意思		28.47	47.15	10.83	60.49	43.15	15.87	30.73	15.15	2.62	48.3	30.28
YOLO 608意思		29.98	47.89	10.76	65.88	48.02	18.09	31.22	14.62	17.99	46.56	33.1
YOLO 320意思	ResNet-50	19.57	25.73	0.67	45.17	14.37	9.38	13.84	9.09	9.09	23.7	17.06
YOLO 416意思		23.78	36.65	0.4	54.23	18.37	13.75	19.78	9.84	9.42	35.68	22.19
YOLO 608意思		26.92	40.65	1.77	61.86	29.18	15.04	20.24	10.09	13.29	36.01	25.5
YOLO 320意思	resnet - 101	20.52	27.9	0.57	44.68	16.98	13.05	13.66	9.66	9.09	24.36	18.05
YOLO 416意思		25.72	35.6	3.03	55.73	22.4	15.61	17.26	9.32	3.03	38.71	22.64
YOLO 608意思		28.79	44.59	9.42	62.18	33.34	15.53	23.88	13.24	15.83	39.17	28.6
YOLO 320意思	resnet - 152	21.64	27.56	3.03	48.06	17.39	11.12	14.51	9.09	4.55	31.88	18.88
YOLO 416意思		25.7	36.54	0.89	53.81	20.6	14.13	20.21	11.49	0.29	33.06	21.67
YOLO 608意思		26.01	44.54	4.55	61年	31.76	13.02	22.67	12.35	9.93	39.99	26.58
SSD300 [16]	resnet - 101	5.5	9.1	0	25.5	6.1	4.5	0	4.5	9.1	18.2	8.25
SSD300 [16]	VGG16	9.1	17.1	0	26.1	9.1	9.1	0	4.5	0	16.7	9.16
SSD512 [16]	VGG16	9.1	17.1	0	43	9.1	9.1	9.1	9.1	0	7.6	11.32
RetinaNet	ResNet-50-FPN	30.7	49.3	2	65.5	21.3	16.1	8.5	12.9	1	25.7	23.3
RetinaNet	resnet - 101红外系统	30.6	48.7	7.1	64.7	20.	15.9	11.8	10.7	2.9	38.7	25.1
RetinaNet	resnext - 101 - 328 d-fpn	35.5	55	12.1	66.5	23.9	18.4	9.8	16.2	9.4	53.7	30.
RetinaNet	resnext - 101 - 644 d-fpn	31.4	50.2	8.9	66.3	20.8	15.3	9.4	14	2.2	32.4	25.1
R-CNN [13]	的RPN道具。+ VGG16	31.9	31.3	4.2	56.8	31.1	9.3	14.2	16.4	23.4	29.4	24.8
R-CNN [13]	Alexnet 7 ,300专业版	32.4	27.2	5.1	56.9	28	9.8	13.6	12.4	17.9	35.6	23.9
R-CNN [13]	VGG16 7 ,300专业版	37.3	30.3	7.2	60.6	41.5	15.8	21.5	13.7	22	33.3	28.4
R-CNN [13]	ContextNet (Alexnet 7 )	32.7	26.8	4.6	56.4	26.3	9.9	12.9	12.2	18.7	34	23.5
快RCNN	ResNet-50-C4	32.4	46.3	6.5	65.8	38.3	20.1	25.3	16.6	14.1	52	31.7
快RCNN	ResNet-50-FPN	37.4	47.3	7.3	68.9	46.7	21	32.1	17.1	9.3	45.9	33.3
快RCNN	resnet - 101红外系统	39.3	50.3	10.6	68.3	47.1	20.4	33.3	18.6	15.4	51.4	35.5
快RCNN	resnext - 101 - 328 d-fpn	47.5	54.8	10.3	71.8	54	21.4	34.4	21.7	17.7	53.5	38.7
快RCNN	resnext - 101 - 644 d-fpn	45.4	55.7	10.9	72.5	53.3	24	36.9	22.9	16	58.1	39.6
快R-CNN [16]	VGG16	23.76	37.65	8.03	54	16.16	11.88	15.12	9.1	6.25	37.29	21.92
快RCNN	ResNet-50-C4	32.2	44.6	6.6	65.9	35.2	17.5	25.7	19.6	13.7	40	30.1
快RCNN	ResNet-50-FPN	35.7	49.9	7.3	68.4	48.9	18.8	29.6	14.7	11.4	53.3	33.8
快RCNN	resnet - 101红外系统	39.8	49.2	4.9	68.2	47	18.5	29.7	14	12.9	52.2	33.7
快RCNN	resnext - 101 - 328 d-fpn	49.8	56.6	11.4	72.1	56.3	23.2	37	20.8	18.8	58.7	40.5
快RCNN	resnext - 101 - 644 d-fpn	49.6	58.6	12.2	72.5	54.5	23.2	36.9	20.8	20.1	63.1	41.2

以粗体显示的值代表最好的单程方法,和斜体的代表最高的两阶段方法。

每种方法的方法。首先两阶段方法,RCNN更快,这是一种改进的快速RCNN,只有大于快速RCNN约1 - 2%,但只有ResNeXT骨干和等于快速RCNN休息。区别不是太多,这意味着外部区域的性能建议选择性搜索结合ROI池一样好内部地区建议喜欢和ROI的RPN对齐。R-CNN相比,除此之外,我们认为这是一个提高8 - 10%当RoI池或RoI添加因为R-CNN对齐,它使用地区建议选择性搜索,然后提要从fc网络和直接计算特征(完全连接)层,与Alexnet只收到23.5%,24.8%的RPN VGG16结合的建议。然而,快速RCNN和更快的与两种roi RCNN好多了。快RCNN接收精度的基于不同的脊椎的31.7%到39.6%。同样,更快RCNN 30.1%到41.2%。其次,在单程方法,YOLO优于SSD和RetinaNet意思。然而,YOLO得到最高的意思结果33.1%,SSD和RetinaNet 11.32%和30%,分别。YOLO和SSD意思是先进的方法在速度和牺牲准确性。 However, there is a large difference in accuracy between YOLO and SSD; the difference here is that SSD adds multiple convolutional layers behind the backbone, and each layer has their own ability instead of using 2 fully connected layers like YOLO. Although RetinaNet is assigned into a method in one-stage approaches, it cannot run in real time. RetinaNet is one which is proposed to deal with the imbalance between foreground and background by the focal loss. Therefore, RetinaNet obtains a higher accuracy in comparison with others except for YOLOv3 (Darknet-53).

当涉及到脊椎,我们意识到Darknet-53是最好的单程和实时方法,甚至远高于ResNet-50 ResNet-50虽然同样具有相同的层次。相比之下,ResNeXT结合红外系统中最强大的一个单级和两级的方法,如果我们只考虑准确性。总的来说,有一个增加约1 - 3%改变简单的每种类型的复杂的支柱。例如,当从原始ResNet转向ResNet-FPN,精度提高2 - 3%。这是明确的,利用多尺度特性的优势提高检测和红外系统是一种常见的方法解决的规模不平衡输入图像和不同对象的边界框。同样的,我们开关resnext - 101 - 328 d-fpn resnext - 101 - 644 d-fpn,精度从40.5%变化到41.2%更快RCNN和快速RCNN从38.7%降至39.6%。然而,当考虑ResNet-50-FPN和resnet - 101红外系统之间只发生在快速增长RCNN从33.3%降至35.5%。有一点减少RCNN快0.1%。这也减少发生在RetinaNet,而简单的骨干resnext - 101 - 328 d-fpn得到30%,resnext - 101 - 644 d-fpn只是25.1%。这意味着更深层次的骨干并不能保证精度的增加,原因是,一个更深层次的优势学习网络需要更多的参数。这意味着作者必须有大量的数据反馈到网络培训和更新参数本身,但在这种情况下,小对象数据集的数据不太丰富的符合很深的网络,因此增加过度拟合的机会。此外,特性,它们来自早期层ResNet,不是好地实现因为当他们结合红外系统,精度提高约2 - 3%。当YOLO从Darknet-19切换到Darknet-53意思,它真的提高了准确性。准确性属于Darknet-19最高分辨率为10241024年获得24.02%。然而,YOLO 608意思608年Darknet-53得到33.1%。解释这个原因是YOLOv3 Darknet-53有几个改进从Darknet-19 YOLOv3有3个尺度预测对象的位置,特别是专业在Darknet-19等小物体,而不是只有一个,也是综合尖端残留块和快捷连接等优点。减少精度发生与YOLO切换时意思resnet resnet - 152 - 101 1 - 2%。在这些方法中,YOLO和SSD意思是唯一允许多个输入大小。输入图像的分辨率越高,获得更高精度的方法。原因是高分辨率图像允许更多的像素来描述小对象的视觉信息。然而,如果分辨率远从原始图像的大小,它导致精度下降。例如,YOLO 1024意思1024年Darknet-19精度低于800年的决议800年。此外,我们试图解决Darknet-53增加从608年到1024年,地图和决议时减少超过608608年。因此,图像大小的作用是明确的模型如SSD和YOLO。意思一般来说,所有比较结果的地图数据集类很大数量的统治,这是由图片和实例的数量之间的不平衡数据在这些图像。例如,据统计在13),鼠标是一个主要的类明显导致映射表3最高的实例数量和图片。然而,组织至少贡献最低的美联社最初受到数据的数量。此外,不平衡数据导致模型倾向于发现频繁的对象,这意味着模型将误解对象拥有一个几乎相似的外观与统治阶级利益的对象而不是那么频繁的对象。因此,假阳性将增加这些问题。图4说明了检测与最强的骨干。该可视化后,鼠标或水龙头等类的统治导致misdetection以地区可以有相同的外观。这个误解比较倾向较弱的骨干,单程方法像YOLO它们主要意思misdetection速度已经超过两阶段方法。导致这些问题的原因是不同的训练方式深网络(33]。单程YOLO使用软意思抽样法等方法,使用整个数据集更新参数,而不是只选择训练样本数据。然而,两阶段方法如RCNN家庭往往努力采用抽样方法,随机样本一定数量的积极的和消极的边框来训练网络。

(一)

(b)

(c)

5.1.2中。帕斯卡的子集

4 4不同尺度的图像中对象的子集,我们想找出多少尺度对模型的影响。整个结果如表所示4。我们单独的结果分为2组单程和两阶段方法,和图5是最强大的可视化骨干在每个方法的子集。


方法	方法	VOC_MRA_0.058	VOC_MRA_0.10	VOC_MRA_0.20	VOC_WH20

一个阶段	YOLOv2 41616]	3.02	31.38	42.89	18.52
	YOLOv2 44816]	4.47	32.9	60.15	21.96
	YOLOv2 48016]	4.26	33.48	60.78	26.67
	YOLOv2 51216]	5.42	35.74	61.12	24.63
	YOLOv2 54416]	6.97	36.56	63年	26.62
	YOLOv2 64016]	7.7	37.97	61.29	23.41
	YOLOv2 80016]	10.24	37.3	61.91	26.9
	YOLOv2 102416]	10.69	29.93	55.14	28.97
	YOLOv3 320	7.18	34.58	60.36	20.4
	YOLOv3 416	10.2	38.97	62.53	24.12
	YOLOv3 608	11.7	42.65	68.56	28.86
	SSD 30016]	1.71	32.76	46.26	16.91
	SSD 51216]	2.9	43.46	57.11	19.87
	RetinaNet-ResNet-50-FPN	8.84	41.5	50.2	28.14
	retinanet resnet - 101红外系统	8.95	42.5	51.9	27.46
	retinanet resnext - 101 32×8 d-fpn	10.29	45.4	54.5	30.08
	retinanet resnext - 101 64×4 d-fpn	10.71	45.5	55.1	31.32

两个阶段	快RCNN-ResNet-50-C4	0.23	13.2	49.9	3.93
	快RCNN-ResNet-50-FPN	0.63	13.5	55.6	3.45
	快rcnn resnet - 101红外系统	0.39	15.9	57.6	3.12
	快rcnn resnext - 101 32×8 d-fpn	0.51	14.4	57.9	3.33
	快rcnn resnext - 101 64×4 d-fpn	0.29	14.2	57.3	3.76
	快RCNN-ResNet-50-C4	6.98	39.9	48.7	26.04
	快RCNN-ResNet-50-FPN	10.74	45.6	56.3	29.79
	快rcnn resnet - 101红外系统	10.63	46.9	57.6	30.57
	快rcnn resnext - 101 32×8 d-fpn	11.64	47.3	57.6	32.12
	快rcnn resnext - 101 64×4 d-fpn	10.54	47.1	56.9	31.64
	快RCNN-VGG16 [16]	5.73	35.58	44.14	41.11

这个表说明了模型如何适应不同尺度的对象。以粗体显示的值代表最好的单程方法,和斜体的代表最高的两阶段方法。

(一)

(b)

(c)

(d)

图5

突出的边界框比较骨干在小数据集对象。我们这里选择YOLO Darknet-53和意思ResNet-50客观比较,因为有明显的同一层网络的重要技术,如跳过连接和残块。边界框表明ResNet-50敏感地区比Darknet-53类似于感兴趣的对象。同样,ResNet-50-FPN和ResNet-50-C4选择需要考虑。检测表明,ResNet-50结合红外系统输出一个更好的性能,而不是原始的。特别是misdetection发生在密度比ResNet-50-FPN如列4和5。放大看到更多的细节。

不同尺度的像我们的子集,是有区别的单程方法和两阶段方法。在这种情况下,单程的方法方法有更好的性能比两级的尺度。这真的是小对象数据集的反面。具体来说,完全比单程的两阶段方法的实时输入和只是稍微比nonreal-time模型VOC_WH20约10 - 20%,同样的结果VOC_MRA_0.058和VOC_MRA_0.10较小的对象。VOC_MRA_0.20,然而,在大对象方法单程方法有显著的结果而不是两级的。此外,只有RCNN更快,在大多数情况下都具有良好的性能比较方法在单程的。快RCNN只是擅长大对象VOC_MRA_0.20和不能有良好的检测在较小的对象。

单程的方法,在方法允许多个输入像YOLO SSD,意思有两种,即那些可以运行在实时和其他人不能,如果决议是在640年或512年YOLO SSD,意思分别。实时的YOLO优于SSD意思为所有对象的尺度。具体来说,YOLOv2 Darknet-19比SSD 26% VOC_MRA_0.058中的对象和VOC_MRA_0.10 4 - 15% VOC_MRA_0.20和VOC_WH_20对于较大的对象。YOLOv3 Darknet-53得到更高的结果与YOLOv2相比大约3 - 5%;因此,相比SSD YOLOv3也获得更高的结果。然而,如果我们考虑nonreal-time输入图像,SSD大于YOLO VOC_MRA_0.10对象。意思但是,RetinaNet是单程的方法不能实时运行,执行相同的结果相比的nonreal YOLO比SSD和更好的意思。RetinaNet比SSD更稳定,YOLO当尺度意思发生了变化。物体越大,越稳定。例如,太多的变化约33%在规模增加从VOC_MRA_0.058对象的VOC_MRA_0.10 VOC_MRA_0.20。 However, this change is not much about 10% with bigger objects in comparison with YOLO 15–25%. In case of YOLO, this remarkable increase in accuracy when objects are larger is obviously good for a model. The change in SSD resembles the change in RetinaNet.

有关决议YOLO和SSD的意思,我们看到,当图像分辨率增加时,他们把精度提高。为YOLOv2 Darknet-19和YOLOv3 Darknet-53和SSD,他们都有增加分辨率时精度大,除了YOLOv2对象属于VOC_MRA_0.10和VOC_MRA_0.20图像时超过800。此外,YOLOv2 VOC_WH20波动与这些对象。如前所述在我们以前的工作,YOLO比SSD意思在这些对象不到10%的图像;然而,在这种情况下,YOLOv3擅长所有对象的尺度。这是因为YOLOv3有3个检测位置和更多的违约比率盒子,它会导致一个重要的结果,当从3位置相结合的结果。

当我们切换到两阶段方法,更快RCNN有很大的改善,在大多数而不是快速RCNN除了VOC_MRA_0.20对象具有相同的精度。这表明如果对象完全分开到不同的尺度,RoI池没有和小对象和在VOC_WH20一道很好地工作。此外,如果我们和单程方法相比,明显低于他们。然而,RoI对齐以及RPN尺度变化时执行。当涉及到脊椎,有几个精度下降,当改变从ResNet-50-FPN resnet - 101红外系统或resnext - 101 - 328 d-fpn resnext - 101 - 644 d-fpn对象从所有尺度RCNN更快RCNN和快。VGG16骨干拥有令人印象深刻的结果,而不是强大的脊椎ResNet或ResNeXT等。虽然精度小于两个强大的骨干,VGG16仍然是更好的与对象VOC_WH20和有一些变化与大尺寸精度变化的对象时。

5.2。时间处理和资源消耗

表5和6让我们评估模型与基础网络的性能比较,属于模型。一般来说,我们可以看到,当内存测试和培训方面的消费增加,添加更多的层。这意味着,如果网络更加深入,需要处理也会增加,因为这将导致增加的参数和时间来处理数据。YOLO模型消耗最少的内存意思两阶段的训练和测试。特别是从4 g YOLO只是意思培训5 g和1.6 g与Darknet-53 1.8 g进行测试。YOLO是唯一一个意思就是能在实时运行。YOLO女士只需要大约0.3到0.4意思女士来处理图像相比,超过0.1和0.2年代更快RCNN和RetinaNet。这让我们捡起这些模型设备上拥有适度的内存。虽然RetinaNet分配给单程的方法,但它不够好,以满足实时检测。推理时间快RCNN稍微低于RCNN和RetinaNet更快。 In contrast, the RAM consumption in training and testing of RetinaNet is lower than Fast RCNN and Faster RCNN. Of all architectures, the ResNet-50-C4 is the one requiring the highest memory and time to process data because the output size of ResNet-50-C4 is bigger a bit than others [9]。如果我们考虑ResNet或ResNeXT结合红外系统,快速RCNN相比更快RCNN超过100 Mb和300 Mb RetinaNet。此外,根据表中2,培训的日子快RCNN和RetinaNet只需要更少的时间来训练几个小时到1天而不是YOLO 3 - 4天的意思。这表明如果我们我们关注性能和没有太多时间训练,我们选择更快RCNN或RetinaNet代替YOLO一个意思。相反,如果我们仍然只关注处理速度和实现良好的性能,单程方法总是好的。在同一上下文的骨干,RetinaNet使用资源低于快速RCNN更快RCNN大约100 Mb和300 Mb快速RCNN RCNN更快,分别测试时间。然而,RetinaNet使用多少内存的培训时间超过快RCNN关于RCNN快2.8 G和2.3 G resnext - 101 - 328 d-fpn resnext - 101 - 644 d-fpn。如果我们认为这在小数据集对象,它不会工作太多,因为RetinaNet低于更快RCNN约10%的性能。否则,在不同尺度上的子集,更快RCNN RetinaNet适用相比,不同的是只有2 - 4%的比例。尽管ResNet骨干结合其他收益率准确性的改善,他们不工作YOLO小意思对象数据集。YOLO Darknet-53利用更多的资源比ResNet的意思,但它有最好的模型精度。因此,我们只测试YOLO与意思Darknet-53帕斯卡的子集。


模型	骨干	推理时间(年代)	测试RAM (MiB)	火车RAM (MiB)

YOLOv3	Darknet-53	0.0331	1825年	4759年
YOLOv3	ResNet-50	0.027	1285年	3479年
YOLOv3	resnet - 101	0.0356	1829年	5383年
YOLOv3	resnet - 152	0.0454	2443年	7531年
RetinaNet	ResNet-50-FPN	0.102	2075年	4435年
RetinaNet	resnet - 101红外系统	0.127	2723年	5577年
RetinaNet	resnext - 101 - 328 d-fpn	0.229	3767年	7863年
RetinaNet	resnext - 101 - 644 d-fpn	0.292	3719年	7813年
快RCNN	ResNet-50-C4	0.3	6449年	5877年
快RCNN	ResNet-50-FPN	0.089	2277年	4455年
快RCNN	resnet - 101红外系统	0.113	2947年	5627年
快RCNN	resnext - 101 - 328 d-fpn	0.212	3987年	4961年
快RCNN	resnext - 101 - 644 d-fpn	0.269	3885年	4799年
快RCNN	ResNet-50-C4	0.412	6609年	6129年
快RCNN	ResNet-50-FPN	0.101	2387年	5381年
快RCNN	resnet - 101红外系统	0.124	3001年	6487年
快RCNN	resnext - 101 - 328 d-fpn	0.256	4027年	5333年
快RCNN	resnext - 101 - 644 d-fpn	0.286	4003年	5246年


模型	骨干	推理时间(年代)	测试RAM (MiB)	火车RAM (MiB)

YOLOv3	Darknet-53	0.027	1645年	4079年
RetinaNet	ResNet-50-FPN	0.1	1935年	4133年
RetinaNet	resnet - 101红外系统	0.116	2585年	5435年
RetinaNet	resnext - 101 - 328 d-fpn	0.222	3641年	7723年
RetinaNet	resnext - 101 - 644 d-fpn	0.284	3561年	7599年
快RCNN	ResNet-50-C4	0.495	6371年	5677年
快RCNN	ResNet-50-FPN	0.092	2131年	4387年
快RCNN	resnet - 101红外系统	0.114	2819年	5463年
快RCNN	resnext - 101 - 328 d-fpn	0.213	3873年	4637年
快RCNN	resnext - 101 - 644 d-fpn	0.265	3735年	4575年
快RCNN	ResNet-50-C4	0.26	6141年	5991年
快RCNN	ResNet-50-FPN	0.1	2245年	5207年
快RCNN	resnet - 101红外系统	0.13	2855年	6335年
快RCNN	resnext - 101 - 328 d-fpn	0.225	3943年	5087年
快RCNN	resnext - 101 - 644 d-fpn	0.276	3885年	4909年

5.3。分析探测器之间的权衡

网络设计和方法都应用的单程方法证明其性能检测通用对象小尺度和其他类型的尺度。尽管他们是快速和准确,仍有缺点总是存在于这些模型,也就是说,加工的精度和速度之间权衡。例如,YOLOv3提出的想法执行检测在三个不同的尺度上,这个结果显然令人印象深刻的和良好的性能。然而,为了获得这种优势,YOLOv3牺牲时间来处理。而不是所有输入模型的一般处理一次检测YOLOv2一样,这个想法必须工作3次。这种权衡也一定程度上影响决议我们改变它在训练或测试模型。在我们之前的工作中,我们曾提到,我们必须选择一个正确的决议,以确保我们的模型正常工作。的两阶段方法,提出区域建议提高服务对象的定位检测是好的。这是有用的,但我们必须考虑到,我们应该生成特征图的建议或直接在输入图像的路上因为这会影响很多,打算运行模型和识别对象的表示。如果对象是正常或有一个大的或中等的外表,它有利于模型工作,但如果对象是在多尺度,这是一个问题需要考虑和研究深度为了平衡性能以及改进它。 Therefore, to partly fix this problem, the one-stage approach allows us to choose a fixed size of an input for training and testing, but the support still depends on characteristics of datasets which we evaluate or the image size. After all, all models we choose to evaluate are affected by the scales of objects when we change the scale, and accuracy of models change a lot, except for Faster RCNN, the only one model that seems to be stable with the scale, especially when combining with the VGG16 architecture. Although the accuracy of VGG16 is not better than the other architectures, the difference here is that it does not change too much in accuracy. This is only right for big objects having the overlap of the bounding box and the image greater than 10%; if not, this is not assured.

图1表明小物体的可能性比其他对象。黑镜头的长度是类似于黑色鼠标放在鼠标垫。这种可能性小对象的存在会导致更多的困难探测器并导致错误的检测。在一个图像可以小物体,它导致一个事实探测器有很多错误的检测与熟悉的外观,他们看到了。如果我们考虑检测的可视化图4,错误的检测部分是类似于其他对象的数据集。这个问题是由每个类中的数据不平衡类和实例之间最初被称为前景类不平衡。换句话说,常见问题,这不仅发生在小物体,而且对整个数据集,是同类相似和组内的变异。

6。结论

小目标检测的任务是一个具有挑战性和有趣的问题对象检测和备受研究者关注,由于发展的深度学习动机提高性能的计算机视觉任务。虽然深模型属于检测最初倾向于解决问题相关的通用对象检测,他们仍然工作在一个特定的小目标检测的成功水平。作为深评价工作在小目标检测模型,我们的目标是突出成果显著的流行和最先进的深模型为了提供各种视图应用深小目标检测模型。特别,我们先进的实时评估探测器基于深度学习两种方法如YOLOv3 RetinaNet,快速RCNN,和更快的RCNN在两个数据集,即小对象数据集和子集帕斯卡VOC对过滤效果不同的客观因素包括准确性,执行时间和资源使用。

尽管近年来成功的成就,检测的性能有明显改善,仍有正常的对象之间的巨大差距在精度和小对象。标准的可可数据集,从小型到中型的区别和大尺度太过分了。大多数模特都是擅长检测正常的对象,和问题会发生在应用检测小物体。因此,减少小目标检测的差距,首先要做的是投资数据集具有大量的数据训练模型和有一个广泛的类别与人类视觉系统相似[竞争12,34]。

到目前为止,检测模型分为两个主要方法,即单程方法和两阶段的方法。模型的单程方法被称为探测器相比有更好的和更有效的检测到另一个方法。有潜在的权力运行效率,能够实时将它们应用到实际应用中。然而,准确性和速度之间的平衡是一个困难的挑战,需要考虑到为了平衡差距。然而,模型提出两阶段方法有其声誉的探测器具有精度高但速度太低,将它们应用到现实世界中。这个缺点来自网络的计算。

通过我们的评估,有一个架构,利用基础网络来提取深对框架特性有显著的影响。的架构是越深,检测的准确性就越高。一旦网络深度的增加,这意味着它比正常细胞层,有大量的参数训练。因此,这就需要大量的数据来调整这些参数合理。如果有计算,增加资源消耗也会增加。因此,很难,因为我们想带他们去适用于实际应用。此外,上下文模型中利用绝对是有限的,这种结果导致忽略很多有用和翔实的数据训练,尤其是在小型对象的上下文。因为,小物体能够出现在一个输入图像,如果图像与背景下,有效开发小目标检测的性能将会更好的改善。

出于以上原因,根据我们的评估,如果我们倾向于具有良好的性能和忽略处理的速度,两阶段方法像快RCNN well-performed并展示其网络设计与不同的数据集在许多对象包括多尺度对象的上下文。因此,快RCNN被认为是一个巨大的基线,以基地或开发。如果我们的目标有一个平衡的精度和速度,YOLO是好的意思,以防我们不在乎训练时间,因为速度和准确度之间的牺牲值得应用到实际应用。否则,更快RCNN或RetinaNet仍然是一个替换。脊椎时,我们必须关心的数据选择一个合理的骨干结合的方法。因为的数据量会显著影响模型中,如果数据不充足,肤浅的网络将会配合得很好。除此之外,还有最近在训练新方法承诺深弱监督学习模型用更少的数据如zero-shot、一次性或few-shot学习。因此,这些方法将在我们未来的工作,考虑之后,我们最近的搜索对象检测具有更好的性能,我们必须考虑几个因素来改善地图多尺度等培训,为扩大超限分辨小物体的视觉信息35),或预处理数据,以避免不平衡数据,因为我们有一个广泛的相关数据不平衡问题(33]。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由越南国立大学,城市胡志明市(VNU-HCM),在批准号B2017-26-01。

引用

r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议哥伦布,页580 - 587年,哦,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”欧洲计算机视觉的诉讼施普林格,页346 - 361年,苏黎世瑞士,2014年9月。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。《IEEE计算机视觉国际会议,页1440 - 1448,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页779 - 788年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
j . Redmon和a·哈蒂”YOLO9000:更好,更快,更强”,2016年,https://arxiv.org/abs/1612.08242。视图:谷歌学术搜索
j . Redmon和a·哈蒂”YOLOv3:增量改进”,2018年,https://arxiv.org/abs/1804.02767。视图:谷歌学术搜索
T.-Y。林,p . Goyal r . Girshick k .他和p .美元,“焦损失密集的对象检测,”诉讼的IEEE模式分析与机器智能2018年10月,威尼斯,意大利,。视图:出版商的网站|谷歌学术搜索
k .Židek a . Hosovsky j . Pitel’,和s . Bednar“卷积神经网络识别装配零件,”先进的制造工程和材料施普林格,页281 - 289年,可汗,瑞士,2019。视图:出版商的网站|谷歌学术搜索
k .他g . Gkioxari p .美元,r . Girshick“面具R-CNN”《IEEE计算机视觉国际会议(ICCV)IEEE,页2980 - 2988年,威尼斯,意大利,2017年10月。视图:谷歌学术搜索
L.-C。陈,a .何曼思g·帕潘德里欧et al .,“例如分割精炼与语义对象检测和方向特性,”2017年,https://arxiv.org/abs/1712.04837。视图:谷歌学术搜索
m . Everingham l . Van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(VOC)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。视图:出版商的网站|谷歌学术搜索
T.-Y。林,m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”欧洲计算机视觉的诉讼施普林格,页740 - 755年,苏黎世瑞士,2014年9月。视图:出版商的网站|谷歌学术搜索
c . Chen M.-Y。刘、o . Tuzel和j·肖,”小目标检测,R-CNN”计算机视觉的亚洲会议施普林格,页214 - 230年,台北,台湾,2016年11月。视图:出版商的网站|谷歌学术搜索
p . f . Felzenszwalb r . b . Girshick d . McAllester和d . Ramanan”对象检测与区别式模型部分原因,“IEEE模式分析与机器智能,32卷,不。9日,第1645 - 1627页,2010年。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”学报》第28届国际会议在神经信息处理系统中,爵士。少量的15麻省理工学院出版社,页91 - 99年,剑桥,妈,美国,2015年,http://dl.acm.org/citation.cfm?id=2969239.2969250。视图:谷歌学术搜索
p范教授,d .阮,t, t . d .非政府组织,D.-D。勒,”评价深模型实时小目标检测,”神经信息处理程序国际会议施普林格,页516 - 526年,广州,中国,2017年11月。视图:出版商的网站|谷歌学术搜索
j·r·r·Uijlings k·e·a . Van De Sande t . Gevers和a . w . m . Smeulders“选择性搜索对象识别,”国际计算机视觉杂志》上,卷104,不。2、154 - 171年,2013页。视图:出版商的网站|谷歌学术搜索
朱z d .梁,s .张x黄b·李和美国,“交通标志检测和分类在野外,”《IEEE计算机视觉与模式识别会议2118年,页2110 -拉斯维加斯,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
a . Torralba r·费格斯和w·t·弗里曼,“8000万小图片:非参数的大数据集对象和场景识别,”IEEE模式分析与机器智能,30卷,不。11日,第1970 - 1958页,2008年。视图:出版商的网站|谷歌学术搜索
a . Kembhavi d·哈伍德,l·s·戴维斯,“车辆检测使用偏最小二乘回归,”IEEE模式分析与机器智能,33卷,不。6,1250 - 1265年,2011页。视图:出版商的网站|谷歌学术搜索
诉诉Morariu,大肠Ahmed桑塔·d·哈伍德,l·s·戴维斯,“综合判别因子分析”《IEEE计算机视觉的冬季会议上应用IEEE,页564 - 571年,斯廷博特斯普林斯,有限公司,2014年3月。视图:出版商的网站|谷歌学术搜索
a .安德烈亚斯·楞次和r . Urtasun自主驾驶,我们准备好了吗?在kitti视觉基准套件。《IEEE计算机视觉与模式识别会议2012年6月美国普罗维登斯,国际扶轮。视图:出版商的网站|谷歌学术搜索
a . Alahi k .高尔诉拉马纳坦,a . Robicquet l .菲菲和s . Savarese”社会LSTM:人类轨迹预测在拥挤的空间,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页961 - 971年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
j .小k . a . Ehinger j·海斯,a . Torralba和a·奥利瓦,“太阳数据库:探索大量场景类别,“国际计算机视觉杂志》上,卷119,不。1,3-22,2016页。视图:出版商的网站|谷歌学术搜索
大肠盾,朱y, y霁,Du,“一种改进使用YOLOv2卷积神经网络对目标检测,”学报2018年IEEE国际会议上机电一体化和自动化(国际)IEEE,页1184 - 1188年,长春,中国,2018年8月。视图:出版商的网站|谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“单镜头multibox探测器,”欧洲计算机视觉的诉讼页21-37 Springer,阿姆斯特丹,荷兰,2016年10月。视图:谷歌学术搜索
T.-Y。林,p .美元,r . b . Girshick k .他b . Hariharan和s . j . Belongie“特性为目标检测金字塔网络,”《IEEE计算机视觉与模式识别会议(CVPR),1卷,不。2,p。4,檀香山,嗨,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
彭译葶。Ranga傅w·刘,a, a . Tyagi和a·c·伯格“DSSD: deconvolutional单检测器,”2017年,https://arxiv.org/abs/1701.06659。视图:谷歌学术搜索
y呗,y, m .叮,加尼姆,“SOD-MTGAN:小目标检测通过多任务生成对抗的网络”欧洲计算机视觉的诉讼施普林格,页210 - 226年,慕尼黑,德国,2018年9月。视图:出版商的网站|谷歌学术搜索
l . Liu w·欧阳x王et al .,“深度学习通用对象检测:一项调查,”2018年,https://arxiv.org/abs/1809.02165。视图:谷歌学术搜索
p .朱l .温x扁,l .海滨大道和问:胡锦涛,“满足无人机的设想:一个挑战,”2018年,https://arxiv.org/abs/1804.07437。视图:谷歌学术搜索
Z.-Q。赵,p .郑S.-t。徐、吴x”与深度学习对象检测:审查”,2018年,https://arxiv.org/abs/1807.05511。视图:谷歌学术搜索
公元前k . Oksuz凸轮,s . Kalkan就“同名同姓,e . Akbas”失衡问题对象检测:一个评论,”2019年,https://arxiv.org/abs/1909.00169。视图:谷歌学术搜索
o . Russakovsky j .邓·h·苏et al .,“Imagenet大规模视觉识别的挑战。”国际计算机视觉杂志》上,卷115,不。3、211 - 252年,2015页。视图:出版商的网站|谷歌学术搜索
y呗,y, m .叮,加尼姆,“SOD-MTGAN:小目标检测通过多任务生成对抗的网络”计算机视觉的欧洲会议(大会),页206 - 221,德国慕尼黑,2018年9月。视图:出版商的网站|谷歌学术搜索

电气和计算机工程杂志》上

文摘

1。介绍

2。挑战

2.1。小的场合

2.2。小对象定义

2.3。数据和方法

3所示。深对目标检测模型

3.1。R-CNN

3.2。空间金字塔池(SPP)

3.3。快R-CNN

3.4。快R-CNN

3.5。你只看一次

3.6。单发射击MultiBox探测器

3.7。CNN的缺点

4所示。实验评价

4.1。实验设置

4.2。我们的新生成的数据集

5。结果和分析

5.1。精度

5.1.1。小对象数据集

5.1.2中。帕斯卡的子集

5.2。时间处理和资源消耗

5.3。分析探测器之间的权衡

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章