文摘
水下图像质量较低,和水下目标有不同的大小。主流目标探测网络不能达到好的结果在检测对象从水下图像。在这项研究中,一个轻量级的水下多尺度目标探测模型与一个注意力机制旨在解决上述问题。在这个模型中,MobileNetv3骨干网络用于初步的特征提取。轻量级特征提取模块(LFEM)注重功能映射的通道和空间的水平。大权重提升的功能,而功能用小重量被抑制。同时,跨领域使用的信息交流丰富的语义信息和位置信息对象。上下文聚合模块(会议)池提取的特征图谱获取特征金字塔,和它使用upsampling-feature refinement-cascade之外(URC)方法有效融合全局上下文信息和增强特性表示。尺度归一化的特征金字塔(SNFP)执行自适应多尺度感知和multianchor检测特性映射到封面上不同大小的对象,实现多尺度在水下图像目标检测。该网络可以实现轻量级的特征提取,有效地处理全球水下场景和对象之间的关系,扩大接受域,不同尺度的遍历对象,实现自适应multianchor检测水下图像的多尺度对象。 The experimental results indicate that our method achieves an average accuracy of 81.94% and a detection speed of 44.3 FPS on a composite dataset. Also, our method is better than the mainstream object detection networks in terms of detection accuracy, lightweight design, and real-time performance.
1。介绍
世界人口的快速增长和可用的内陆资源的日益短缺,海洋中丰富的生物及矿产资源在未来成为人类生存的重要。在海洋勘探和研究的过程中,水下目标检测的水下图像中扮演一个重要的角色在水下应用,如军事行动、资源勘探、环境保护、和生物研究。
水下目标检测可以结合一个水下机器人监控和搜索感兴趣的目标的协助下水下相机,具有重要的研究价值和应用前景。水下目标检测作为计算机视觉的一个分支,基于光学图像已成为海洋探险的新研究领域。
在复杂的成像环境下,水下由水下摄像机拍摄的图像质量的恶化由于光照等因素,媒介,波长,和振动1]。这有很大的影响对目标探测的准确性。水下物体有不同的尺度,和大型对象的语义信息特征图。然而,小型对象的详细信息会逐渐减少,甚至将采样过程中丢失。这使水下图像目标检测的任务更加困难。现有的方法提高检测效果融合多尺度对象的特性和构建复杂网络,这提高了检测精度为代价的检测效率。同时,水下目标检测的实时性能大大降低。提高检测效率,同时提高检测精度是一个迫切要解决的问题,在水下目标检测。
针对上述问题,本文提出了一种引起轻量级对象检测多尺度模型。轻量级特征提取模块(LFEM)采用双重关注关注功能映射在通道级别(2)和空间(3),它使用“洗牌”频道4跨组)交换信息丰富多尺度对象的语义信息。上下文聚合模块(会议)使用不同尺度的金字塔池获得特性,并采用原始upsampling-feature refinement-cascade加法模块(URC)获得全局语义信息和局部细节信息。尺度归一化的特征金字塔(SNFP)模块执行自适应多尺度感知和multianchor检测特征地图上实现多尺度大小不同的水下图像目标检测。实验结果表明,我们提出的方法优于目前的主流方法的平均精度、速度和资源消耗。
本文的贡献总结如下:(1)针对水下图像目标检测所面临的问题,提出了一种轻量级的特征提取模块,可以有效地提取feature-layer信息同时减少模型参数,提高检测效率(2)在会议模块,战略“upsampling-feature refinement-cascade加法”提出了增加接受域和改善网络获取全局上下文信息的能力(3)获得一个更好的检测效果,提出SNFP执行不同尺度的自适应多尺度感知和multianchor检测(4)实验结果表明,我们建议的网络数据集RUIE, HabCam UID,鱿鱼达到更好的性能比目前的主流方法
2。相关的工作
当前的目标检测技术是非常成熟,和水下图像目标检测是目标检测的迅速发展为新的分支。平衡检测精度和速度是水下目标检测的研究热点5]。水下图像的质量严重退化,水下目标的大小千差万别。此外,水下目标检测相对较高的实时要求。如何执行准确、快速、稳定的多尺度检测目标在复杂的水下场景值得研究。
2.1。对象检测
根据候选帧生成阶段的存在与否,基于深度学习的对象检测方法可分为两级对象检测方法和单级对象检测方法。两级对象检测方法,如R-CNN [6),快R-CNN [7],和更快的R-CNN [8),首先提取候选区域,然后进行二次修正基于候选区域获得检测结果。检测精度高,检测速度慢是由于大量的卷积操作。单级对象检测方法,如SSD (9和YOLO系列的意思10- - - - - -13),不需要提取候选帧,直接计算出图像生成检测结果。检测速度快,但检测精度低。一些研究人员结合两种方法来平衡检测精度和速度。罗恩(14)是一种有效的和通用目标检测模型提出了基于R-CNN SSD和更快。实验结果表明,罗恩达到更高的检测精度比SSD在同等条件下,和检测速度快3倍比R-CNN更快。RefineDet [15集成的RPN,红外系统(16],SSD算法,提高了检测精度数据集2007年帕斯卡VOC (17)到80.0%,同时保持SSD的效率。RetinaNet [18)结合了红外系统和FCN网络,采用一种改进的叉焦损失有效地消除类不平衡的问题。标准化(19)提出了一种scale-transfer层产生大规模的特征图谱不增加参数的数量和计算量,提高了检测效率。
近年来,基于深度学习的水下图像目标检测领域也迅速发展。陈等人。20.)设计SWIPENet探测水下威胁对象。IMA SWIPENet使用样本权重算法,介绍了扩张卷积层来获得大量接受区域不牺牲地图的分辨率特性。林等。21基于候选框)提出了一种图像增强方法融合生成训练样本模拟重叠,闭塞,和模糊,改善意味着平均模型的精度(mAP)和鲁棒性。郑et al。22)首先增强图像更好的对比度,然后分离对象和背景提高目标检测性能。曾庆红et al。(23]提出R-CNN-AON更快,更快R-CNN网络和怡安(24)网络竞争和一起学习,以便检测网络可以获得更好的鲁棒性,有效地防止检测网络过度拟合,大大提高了检测精度。
2.2。轻量级的模块
深对象检测网络通常包含大量的参数,这需要巨大的存储空间和运行空间来完成检测任务。迁移的水下图像目标检测算法从服务器到移动终端,迫在眉睫的是轻量级的对象检测模型。
MobileNetv1 [25]把卷积的标准对象检测网络结构深度方面分离卷积,卷积逐点地,体重减少了网络参数和模型计算量,提高计算速度。MobileNetv2 [26)使用线性瓶颈消除非线性激活层后面的小维输出层和采用反向残余策略,从而大大提高了模型的效果。基于深度方面的结合分离卷积MobileNetv1和线性瓶颈和逆MobileNetv2残余结构,MobileNetv3 [27]介绍了SE关注模块和更新激活函数卷积神经网络更轻量级的。ShuffleNet v2 (28)使用通道洗牌洗牌方法的顺序每个特性映射到形成一个新特性映射到实现跨领域使用的信息交换。Ghostnet [29日)使用简单的线性运算获得冗余特性映射到增强功能,增加渠道,大大减少了计算量,提高计算效率。
轻量级模型在传统的目标检测是常见的,但很少有研究水下图像目标检测。本研究结合了不同的轻量级模型和转换的特点。与此同时,提出了一种轻量级的特征提取模块来提高水下图像目标检测的实时性能。
2.3。多尺度融合
目标检测的规模问题总是影响检测效果,和检测的准确性很大或很小的对象将会显著降低。许多有效的网络框架被设计用于多尺度检测。
图像金字塔尺度图像在不同尺度,随机列车不同尺度的图像,和部队规模不同的神经网络,以适应对象,初步改善了检测结果。剪断(30.通过选择性地返回梯度来实现选择性训练,减少域转变的影响,实现更好的检测结果极端大小的对象。基于剪断,狙击手31日)只有流程上下文真实地区实例图像金字塔,和训练速度增加了三倍。红外系统(16]upsamples每一层从上到下,它结合了高级功能的深度浅卷积的卷积层与底层特征层来获得更精确的像素的位置信息;PANet [32)基于红外系统创建一个自底向上的功能再熔边路径并重建一个金字塔,加强空间信息,使充分利用每个功能层的信息;SPP [33)模块采用SPM的多尺度块方法(34)和执行对每一块池操作任何大小的特征图转换为一个固定长度的特征向量。ASPP [35卷积)使用深黑色的卷积来构建内核与接受不同领域获得丰富的多尺度对象信息。模拟人类视觉系统的接受域结构尽可能RFBNet [36)集成了《盗梦空间》模块的特点(37和ASPP模块。这极大地提高了精度,同时保证检测的速度。
水下图像不仅在对象上的巨大差异的大小,也有大量的小对象。全面考虑检测的速度和准确性,本文提出了SNFP,剪断的优点相结合,红外系统和执行不同尺度的自适应多尺度感知和multianchor检测。
3所示。推荐方法的概述
解决困难的过程中遇到水下图像多尺度目标检测,提出了一个新的轻量级对象检测网络,和算法流程如图1。首先,最初的水下图像由MobileNetv3初步提取。然后,LFEM注重功能映射的通道和空间的水平,分别实现跨团队沟通的特征信息,通过通道洗牌。接下来,会议池提取的特征图谱获取特征金字塔,它融合特性不同尺度的地图使用原始URC方法有效融合全局上下文信息和提高特征表征能力。最后,感知和multianchor SNFP执行自适应多尺度检测特性不同大小的地图覆盖不同大小的对象,实现多尺度在水下图像目标检测。根据水下图像的特点,提出了网络实现轻量级的特征提取,有效地处理全球的场景和对象之间的关系,扩大接受域,并执行适应性multianchor盒检测对象与大规模的差异。在此基础上,该方法可以有效地检测多尺度对象在不同的水的场景。
3.1。轻量级的特征提取模块
传统的特征提取网络通常包含大量的曲线玲珑,消耗巨大的计算资源和实时检测性能很差。为了避免这个问题,本文设计一个轻量级的水下图像特征提取模块,其结构如图2。
3.1.1。深度方面分离卷积,卷积逐点地
深度方面分离卷积将卷积内核分为单通道形式和混淆每个通道不改变功能的深度地图。逐点卷积使用 卷积核融合在深度方面获得的特征图谱分离卷积来解决这个问题特征图谱之间的信息交换不畅。在深度方面分离卷积,卷积内核只是负责一个频道。假设有输入功能,输出特性,输入特征尺寸 ,和卷积核的 是必需的。输出特征映射,逐点卷积的用途 卷积核的卷积。的比率的计算量与标准卷积
参数的数量的比率
与一般的卷积相比,当和很大,分离卷积,卷积逐点地说深度方面有很大的优势的参数大小和计算速度。
3.1.2。双注意力机制
平行双注意力机制提取和保留关键信息。频道关注网络包含重要的对象特性信息的获取渠道和分配大重量值这些通道。地图的特性是由全球池来生成一个压缩 - - - - - -维特征向量,然后由全连接层处理 。特征向量映射到的范围 由乙状结肠门函数,最后和加权操作执行。所示的计算过程 在哪里代表重量参数,需要更新,代表了 - - - - - -维特征向量,代表了乙状结肠激活操作,代表完全连接层,代表了Relu激活功能,代表了加权特征映射。
空间注意的功能是捕捉当地地区特征图,包含重要的细节信息。地图的特性是通过两个平行对称卷积层,和输出添加沿着通道方向。最后,特征值映射到的范围 乙状结肠门函数,然后加权操作执行。所示的计算过程 在哪里代表卷积内核参数,和分别代表了不对称的褶积层代表输入特性图,代表乙状结肠激活操作,代表了加权特征映射。
一般来说,渠道关注关注“什么”是一个有效的特征,需要特定的关注,和空间注意力集中在“它”是最有益的功能。双重关注机制可以净化特性自适应地提取和保留关键特性。
3.1.3。通道洗牌
如图2、通道使用洗牌重新生成的特征图两个关注网络,实现跨领域使用的信息交换,形成一个完整的功能相同大小的地图与原始特征映射。跨领域使用的信息交换使得特征提取更充分,极大地提高了小型对象的特性利用效率。
3.2。上下文信息聚合模块
水下图像,低分辨率导致不清楚特性表达式。下逐层卷积,特征映射的细节丢失,以及像素之间的相关性逐渐减弱,这使得它很难获得场景上下文信息。聚合不同区域的上下文信息,提高网络的能力获得全球信息,本文设计了上下文信息聚合模块,如图3。原始特征地图集中与不同尺度获得特征金字塔。然后,不同尺度的特征图谱由URC融合模块考虑全局语义信息和局部细节信息和提高特征表征能力。
上下文信息聚合模块使用PPM-like方法获得不同大小的特征图谱。输入特征地图大小 ,它汇集了 , , ,和 获得特征图的输出大小 , , ,和 ,分别。这些大小不一的特征图谱包含上下文信息的不同区域。如图3,双线性插值特性映射F1 upsampled增加分辨率。然后,提高分辨率的特性映射是雅致的深黑色的卷积的速度2和添加功能F2像素映射到完整的第一个特征图谱之间的信息融合。重复上述操作,直到功能映射F4 upsampled原始特征地图大小。随后,输出特性图和原始特征地图拼接在频道维度,这不仅增加了接受域,也极大地提高了网络的能力来获得全局上下文信息。最后,上下文信息聚合模块合并深层语义信息与肤浅的边缘线,位置,形状和其他详细信息,这有助于捕获对象边界信息,细化分割结果和有效改善对象分割精度。
直观地展示会议的有效性,比较的结果并给出了四种最先进的传统分割方法在图4。从左到右是原始图像,图像增强,结果由Deeplab V3 + (38],DFANet [39],APCNet [40],STDC-Seg [41),我们的方法,和地面真理。从实验结果可以看出,提出的上下文信息聚合模块执行的最佳分割的完整性而言,定位精度,和边界定义和细节,这将有助于更好的水下目标探测性能。
(一)
(b)
(c)
(d)
3.3。SNFP
针对多尺度在水下图像目标检测的难度,本文设计的自适应多尺度预测SNFP和multianchor检测对象的不同的尺度。首先,RPN提取候选区域功能不同层的地图。大规模特性图,对应的RPN是只负责预测放大的小物件,和原来的大对象不再是在有效范围,因为它们太大了。小规模的地图功能,相应的RPN是只负责预测减少大型对象,和原来的小对象不再有效范围,因为他们太小了。RCN提取锚帧层不同尺度不同尺度的特性,和它显示地图上的所有锚帧规范化特征。最后,通过nonmaximum抑制对象检测结果输出,如图5。
4所示。实验分析
4.1。数据集
实验评估在三个公共数据集:RUIE [42],HabCam UID [43],UIEBD [44]。RUIE是一个白手起家的数据集的大连理工大学的科学和技术。它由4000低分辨率的水下图像,包括水下目标如扇贝、海参和海胆。HabCam UID数据集是由CVPR AAMVEM工作室,由10465年的水下图像的分辨率 。它包含超过100000个水下对象的实例,如鱼,扇贝,岩石,蝠鲼,和龟,这是最大和最多样化的水下图像目标检测的数据集最近发布了。UIEBD数据集包含950个水下图像的各种多分辨率水下场景,包括潜水员,雕塑,和其他海洋生物。合并这三个数据集是通过调整操作集群large-resolution图像和插入的像素的像素分辨率图像。在某种程度上,图像信息提取和排列的像素的分辨率 。合并后的数据集称为CUID(复合水下图像数据集),和训练集测试组的比例是4:1。实例CUID数据集的大小,如图6。小对象像素内 ,像素之间的介质对象 和 ,和大对象像素大于 。每一个类型的对象的数量分布如图7。
4.2。实验设置
我们的实验环境如表所示1。实验在计算机上配备了英特尔酷睿i7 - 6700 u @ 4.00 GHz, NVIDIA GeForce 3090 Ti RTX, 8 GB DDR3内存,运行Windows 64位操作系统。实验上实现PyTorch软件。CUDA的版本是10.1,PyTorch是1.5.0的版本,版本的Python是v3.6。我们的方法是GPU加速。
网络使用SGD[60] 0.95动力参数的优化策略。学习速率是设置为0.0001,然后均匀下降到0.00001。批处理大小设置为32,置信阈值设置为0.5,借据阈值设置为0.4。此外,辍学是设置为0.5,以防止过度拟合,和训练迭代的数量CUOID被设置为200000次。
4.3。评价指标
本研究采用美联社和地图作为评价指标。地面真理是通过人工注释。混淆矩阵如图8。
是真阳性样本的比例之和真阳性和假阴性样本样品,及其计算公式所示(9)。是真阳性样本的比例之和真阳性和假阳性样品,样品及其计算公式所示(10)。
美联社表示模型的平均检测精度为一个特定的类的对象,和地图是AP值的平均值在所有类别。他们的计算中所示 在哪里代表了精度值 - - - - - - 曲线和AP的积分计算 - - - - - - 曲线。代表一个特定的对象类,代表对象类的数量。
4.4。实验
4.1.1。客观的评价
表2Yolov5显示检测结果的比较,罗恩,RefineDet,标准化,SWIPENet R-CNN-AON快,RFBNet,我们提议在CUID数据集的方法。从表2,可以看出我们的方法达到最高的AP值检测的对象如海参、珊瑚、岩石、和章鱼。15类的对象之间的映射是81.94%,这比最先进的方法。从单一的角度一类目标,珊瑚,岩石,雕塑有最糟糕的检测效果。主要原因是珊瑚不能清楚的区分出岩石,导致许多错误的检测。雕塑的检测效果差的原因是,一些人形雕塑被归类为潜水员。
为了进一步比较不同尺度的检测对象的影响,表3列出了我们的方法的性能使用可可指标相对于Yolov5 CUID数据集,罗恩,RefineDet,标准化,SWIPENet, R-CNN-AON更快,RFBNet。从这个表可以看出,我们的方法的平均检测精度为小型对象和大对象是最好的,达到了48.73%和83.41%,分别,这表明,该方法可以适应multisize水下物体的场景,可以准确地探测水下物体不同的尺度。与此同时,我们的方法达到最佳检测效果更为严格的借据,AP50和AP75达到69.84%和49.94%,分别提供更精确的多尺度对象的边界框。
检测速度而言,表4显示参数的比较结果,模型大小,失败,和FPS Yolov5,罗恩,RefineDet,标准化,SWIPENet R-CNN-AON快,RFBNet,我们提议在CUID数据集的方法。我们可以发现我们的方法具有参数少,一个小模型大小和计算资源消耗少。此外,它有一个相对检测速度快。
图9显示了 - - - - - - 曲线检测小型、中型和大型对象和CUID数据集上的所有对象。显然,我们的方法可以达到最好的结果在检测各种尺度的对象。特别是,当召回率是0.5到0.7, - - - - - - 曲线的方法检测小物体是远高于其他检测网络。这意味着当我们的方法检测多尺度物体在水下图像质量较低的图像,检测影响小规模的对象是改善与其他最先进的方法。总的来说,作为一个轻量级的目标探测网络,我们的方法可以快速而有效地探测水下多尺度目标,它达到一个好的检测精度和速度之间的平衡。
10/24/11。主观的评价
对象检测CUID数据集的可视化结果如图10和11。从图可以看出10与其他先进方法相比,我们提出的方法可以有效降低漏检率,尤其是对小型对象,如第二幅的小型鱼类和潜水员们在第三照片。图11展示了我们的方法的检测结果在一些其他的图像数据集。我们的方法可以成功地检测不同尺度的对象。这是因为我们的方法达到scale-aware上下文信息聚合,减少有效的信息在低分辨率的损失,而SNFP实现自适应和精确的检测对象不同的尺度。
4.5。烧蚀实验
证明三个功能模块的合理性提出在我们的方法中,一个烧蚀实验进行验证每个模块对目标检测性能的影响。表5介绍了烧蚀的结果添加每个模块(即LFEM、凸轮和SNFP) MobileNetv3框架。可以看出,每个模块的添加整个网络带来的好处,特别是SNFP模块,可以从模型3和4之间的比较。模型5的网络检测性能是最高的,这表明三个模块是不可或缺的,它们的结合导致水下多尺度对象的最佳检测效果。
5。结论和未来的工作
本研究提出了一种轻量级的水下图像目标检测方法。在该方法中,MobileNetv3初步特征提取的骨干网。LFEM注重功能映射的通道和空间的水平。提升重物的特性,用小重量被抑制的特性。与此同时,跨团队的信息丰富的语义信息和位置信息交换的对象。会议池提取的特征图谱获取特征金字塔,它融合特性不同尺度的地图使用原始URC方法实现全局上下文信息的有效融合,提高特征表征能力。感知和multianchor SNFP执行自适应多尺度检测功能地图大小不同的封面上不同大小的对象,实现多尺度在水下图像目标检测。我们提出的方法可以有效地实现光特征提取和处理全球的场景和对象之间的关系,扩大接受域,从而实现自适应multianchor检测在水下图像多尺度对象。
实验结果表明,我们提出方法的平均检测精度达到81.94,模型大小只有31.2 Mb,检测速度达到44.3帧/秒。总的来说,我们提出的方法优于方面的最先进的方法检测精度,轻量级和实时性能。该方法可用于有效的水下图像多尺度对象检测。
在未来的工作中,将该方法更多的应用场景是我们研究的重点。同时,图像采集和检测使用的集成将探索水下智能机器人。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突的报告对于本研究。
确认
这项研究是由中国国家自然科学基金(批准号61671470)和中国的主要研究和开发项目(批准号2016 yfc0802900)。