基于深度CNN方法的水下图像处理与目标检测

摘要

由于水下勘探在深海资源开发利用中的重要性，水下自主作业对于避免深海高压危险环境越来越重要。对于水下自主作业来说，智能计算机视觉是最重要的技术。在水下环境下，弱光照和低质量图像增强是水下视觉的必要预处理步骤。本文结合max-RGB法和灰色阴影法应用于实现增强水下视觉,然后是CNN(卷积神经网络)方法求解水下图像的弱照明问题提出了培养获得照明映射的映射关系。在图像处理后，提出一种深度CNN方法进行水下检测和分类，根据水下视觉的特点，采用两种改进方案对深度CNN结构进行修改。在第一个方案中，a 卷积核被用于要素贴图，然后添加下采样层以将输出大小调整为相等．在第二种方案中，首先加入下采样层，然后在网络中插入卷积层，将结果与最后的输出相结合，实现检测。通过与Fast RCNN、Faster RCNN以及原YOLO V3的比较，验证了方案2在水下目标探测方面的优越性。检测速度约为50 FPS (Frames per Second)， mAP (mean Average Precision)约90%。该程序在水下机器人上得到了应用;实时检测结果表明，检测和分类的准确性和快速性足以辅助机器人实现水下作业。

1.介绍

随着计算机视觉和图像处理技术的发展，应用图像处理方法来提高水下图像质量以满足人类视觉系统和机器识别的要求已逐渐成为一个热点问题。目前，水下图像增强与恢复的方法可以分为非物理模型图像增强和基于物理模型的图像恢复。

对于水下图像增强，传统的图像处理方法包括色彩校正算法和对比度增强算法，白平衡法[1，灰色世界假说[2，灰色边缘假说[3.]是典型的颜色校正方法，对比度增强算法包括直方图均衡化[4]和限制对比度直方图均衡化[5]，通常用于增强水下图像。与常用的图像处理方法相比，这些方法在水下视觉中的效果并不理想。主要原因是海洋环境复杂，水对光的散射和吸收等诸多不利因素，以及水下悬浮颗粒物对图像质量的严重干扰。

人们提出了更为复杂和全面的水下图像增强方法，以解决颜色衰减、对比度降低和细节模糊问题[6]提出了一种解决水下图像对比度低的方法;采用瑞利拉伸有限对比度自适应直方图对全局对比度增强图像和局部对比度增强图像进行归一化，实现了对低质量水下图像的增强。李等人[7]考虑了水下图像的多种退化因素，采用图像去雾算法、颜色补偿直方图、均衡饱和、光照强度拉伸、双边滤波算法来解决模糊、颜色衰落、低对比度、噪声等问题。Braik等[8]采用粒子群优化算法(PSO)，通过减少光吸收和散射的影响来增强水下图像。此外，Retinex理论常应用于水下图像增强过程[9];Fu等[10]提出了一种基于Retinex模型的水下图像增强方法，该方法在颜色校正的基础上，采用不同的策略增强水下图像的反射和光照分量，然后合成最终的增强结果[11]提出了一种基于深度学习的水下图像增强方法，该方法构建了由退化水下图像组和恢复水下图像组组成的训练数据集。通过深度学习方法，从大量的训练集中获得退化水下图像与恢复水下图像之间的模型，用于增强水下图像质量。

水下检测主要依靠数码相机，通常采用图像处理来增强质量和降低噪声;轮廓分割是定位目标的常用方法。为了实现目标检测，人们提出了许多这样的方法。例如，陈畅等[12]提出了一种新的基于标准中值滤波器的图像去噪滤波器，用于检测噪声并将原始像素值改变为新的中值[13]提出了一种去除水下图像中附加噪声的新方法，采用同态滤波校正光照不均匀，各向异性滤波平滑。将小波分解与高通滤波器相结合的新去噪方法用于增强水下图像（Sun等人，2011）；后向散射噪声的低频分量和不相关的高频噪声可以同时得到有效抑制。然而，基于小波变换的图像处理方法存在严重的不清晰度问题。Kocak等人[14]采用中值滤波去除噪声，通过RGB颜色级拉伸增强图像质量，通过暗通道先验获得大气光，该方法对噪声较小的图像很有帮助。对于有噪声的图像，Zhang等人采用双边滤波方法[15]，结果良好，但处理时间很高。Markku等人介绍了广义Anscombe变换的精确无偏逆[16];对比结果表明，该方法对保证去噪结果的准确性起到了重要作用。

Forand等人设计并建造了一个激光水下相机图像增强系统[17]为了提高激光水下成像质量，证明该系统的成像范围是传统泛光相机的3-5倍[18]提出了一种基于Gabor变换的水下激光弱目标检测方法，对激光水下复杂非平稳信号进行处理，使其成为近似平稳信号，然后利用Gabor变换系数计算三重相关，消除随机干扰，突出目标信号的相关性。欧阳等[19研究了光场渲染(LFR)在分布式双基地非同步激光线扫描成像仪上的应用，利用视线和非视线成像几何来创建未知水下场景的多视角渲染。

Chang等[20.在散射角度接近90度时引入了大量的偏振光:这种光可以与被几乎完全没有偏振光的物体散射的光区分开来。结果由蒙特卡罗模拟和小规模实验获得，在该实验中，一个物体浸泡在充满悬浮在水中的聚苯乙烯乳胶球的细胞中。Gruev等人[21]描述了创建焦平面偏振成像传感器的两种方法。第一种方法将聚合物偏振滤波器与CMOS有源像素传感器相结合，并计算焦平面的偏振信息。第二种方法概述了使用铝纳米线的偏振滤波器的初始工作。fir测量详细讨论了st偏振图像传感器原型，描述了偏振技术在材料检测中的应用。Li等人详细介绍了水下偏振成像技术[22］.

以上方法都是基于小波分解、统计方法或借助激光技术或颜色偏振理论，结果表明这些方法是合理有效的，但共同的缺点是处理时间消耗大，难以实现实时检测。

卷积神经网络(CNN)在不同的研究领域被公认为最快的检测方法;Krizhevsky等[23]应用CNN方法处理分类问题，在ILSVRC (ImageNet Large Scale Visual Recognition Challenge)中获得冠军，将前5名的错误率降低到15.3%，从此深度CNN得到了广泛的应用。Girshick [24]提出的区域卷积神经网络(Region Convolutional Neural Network, RCNN)方法，结合rnn (Region Proposal Network)和CNN方法，在Pascal VOC 2007上进行验证，mAP达到66%。基于RCNN, He K.等人提出了SPP-Net (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)。[25]提高检测效率。RESNET是由[26];RESNET的成功在于通过引入残差模块解决了网络迁移的问题，从而提高了网络的深度，可以获得表达能力更强、精度更高的特征。采用多层感知机(Multilayer Perceptron, MLP)替代支持向量机(SVM);对训练和分类进行了显著优化，命名为Fast RCNN [6].在Fast RCNN中，Ren S、He K和Girshick[27]增加RPN来选择和修改区域建议，而不是选择性搜索，旨在解决端到端检测问题；这是更快的RCNN方法。刘伟在ECCV2016（欧洲计算机视觉会议）上提出了一种SSD（单激发多盒）方法。与快速RCNN相比，它具有明显的速度优势，能够直接预测边界框的坐标和类别，而无需生成建议。

在2016CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上，Redmon提出了YOLO (You Only Look Once) [28回归目标检测算法;该方法大大提高了检测速度，并可实现实时检测。在提出YOLO算法时，计算的准确性和速度都不如SSD算法。然后，雷蒙提出YOLO V2 [29版本通过一系列方法对原有的YOLO多目标检测框架进行优化，在保持原有速度的优势下，准确率大大提高。2018年初，Redmon提出了YOLO v3 [30.，被普遍认为是最快的检测方法，与其他方法相比，其准确率和检测速度都有很大提高。

本文采用max-RGB方法和灰度法相结合的方法对水下图像进行增强，对弱光照图像采用CNN方法。针对水下目标检测问题，提出了一种新的CNN方法来解决水下目标检测问题;考虑到水下视觉的特殊性，提出了两种改进方案来提高检测精度，并与Fast RCNN[6]，更快的RCNN[27]，以及原版YOLO V3[30.］.通过对比验证了改进方案的有效性，并将程序安装在水下机器人上进行了实时检测。

2.图像预处理

在水下计算机视觉中，图像预处理是目标检测中最重要的步骤。由于光在水中的散射和吸收的影响，水下视觉系统获得的图像具有照度不均匀、对比度低、噪声严重等特点。本文在分析现有图像处理算法的基础上，提出了水下图像增强算法。

2.1.水下视觉检测体系结构

典型的水下视觉系统由灯光照明、摄像机或传感器、图像采集卡和应用软件组成。水下视觉识别系统的软件流程一般包括图像采集、图像预处理、卷积神经网络、目标识别几个部分，如图所示1．

图像预处理处于较低水平，其根本目的是提高图像对比度，尽可能地削弱或抑制各种噪声的影响，在图像增强和图像滤波过程中保留有用的细节是很重要的。利用卷积神经网络将图像分割成多个不重叠区域;目标检测和分类的基础是特征提取，目的是提取最有效的反映目标本质特征。每一个方面都是密切相关的，所以要努力取得令人满意的结果。本文主要研究水下视觉中典型目标的图像预处理和识别。

2．2.最大rgb法和灰度法的结合

水对光的吸收导致水下图像的颜色下降。由于红光和橙光在水下10米深处被完全吸收，水下图像通常为蓝绿色。为了消除水下图像的颜色偏差，必须对水下图像进行颜色校正。

正常图像的色彩校正已经非常成熟。根据色温对图像的颜色偏差进行校正的白平衡方法有很多，如Gray Word法、max-RGB法、Shades of Gray法、Gray Edge法等。一般情况下，这些方法的应用场景都是一般的局部色彩条件，对严重水下视觉的处理效果并不理想。本文采用原有的最大rgb法和灰度法相结合的方法来识别光源的颜色。哪里是输入的水下图像，是光源发出的辐射度，是波长，为表面反射率，为传感器的灵敏度，为是可见光谱。

的光源定义为

根据灰色世界假设，场景的平均反射率是灰色的[31］

假设是一个定值，物理意义上的方程(1)可以简单地描述为所观测的图像能分解成反射率乘积的图像吗以及照明图．因此，弱光照图像增强就是将弱光照从输入图像中去除;方程(3.)代入方程(1）

通过解释，整个图像的平均颜色提高到一个幂

根据最大RGB法，上述方程可修改为哪里可以接受介于1和之间的任意数字，的默认值，定义为Finlayson提出的灰度法[31］.

2.3.用于弱照明图像增强的CNN方法

基于估计的光照图，利用Retinex模型对图像进行增强;对于水下视觉，图像通常是弱光照的，因此采用可训练的CNN方法来预测弱光照图像与对应光照图之间的映射关系。采用四层卷积网络，第一层和第三层聚焦于高光区域，第二层聚焦于低光区域，最后一层重建光照图。卷积神经网络直接从黑暗和明亮图像之间的端到端映射中学习。本文将弱光图像增强问题视为机器学习问题。输入弱光图像，然后输入应用卷积层将图像转换为32个通道;三维视图图是多层特征图，然后和网络中增加了卷积层，输出为单通道特征映射。在该模型中，大多数参数通过反向传播进行优化，而传统模型的参数依赖于中性网络。四层卷积网络结构如图所示2．

输入图像为弱光照图像，输出为对应的光照图。类似于Chongyi Li等人[32和Dong等[33，该网络包含四个具有特定任务的卷积层。观察图中的特征图2，不同的卷积层对最终的照明贴图有不同的效果。例如，前两层聚焦于高光区域，第三层聚焦于低光区域，而最后一层则是重建光照图。四个卷积层的具体操作形式如图所示2．

增强效果如图所示3.时，水下背景颜色得到显著改善，并利用可训练CNN方法增强弱光照图像。

（a）

（b）

（c）

(d)

(e)

3.目标检测理论

图像被调整为，输入图像将被调整大小，图像将被拉伸，标签也将被重新计算。在这种情况下，实际上，计算一个比例因子来分别记录宽度和高度的比例，和，，，和，但将输出图像调整为与原始图像相同的大小。使用CNN方法预测边界框和分类概率。在水下探测中，目标很难从背景中识别出来。为了提高检测精度，利用整个图像信息预测目标的包围盒，同时对目标进行分类;通过该方案，可以实现端到端的实时目标检测。

3．1.卷积神经网络

图像分为网格单元格，用于定位检测对象的中心。对于每个网格单元，预测包围盒(bbox)，包含5个参数，( ，）是边界框的中心位置( ，）是长方体的宽度和高度，置信度是并集的交点（IoU），它等于bbox和地面真相之间的并集除以交点，过程如图所示4．

通过全连接层预测包围盒;如果宽度和高度只与输入图像的比例和比例有关，那么不同形状的不同物体的位置就不可能非常准确。因此，我们采用区域提议网络来预测边界盒和置信度[27]，其中使用具有不同比例和比率的预测框，并以RPN计算框的偏移量，如图所示5.移除完全连接层，并添加带锚定框的卷积层以预测边界框。为了保持原始图像的高质量，移除池层，并对输入图像进行处理，最终要素地图的比例为只有一个中心。

通过一系列的卷积，得到一个公共的特征图，然后应用RPN。首先通过卷积得到一个新的特征映射，它也可以看作是高维特征向量，然后再通过卷积得到高维特征向量曲线玲珑, 特征图和得到特征图。这是结果，每个结果包含2个分数和4个坐标，然后结合预定义的锚点;预处理后，计算包围盒。

在深度学习过程中，将网格单元数据输入到深度学习结果中，将某些像素的中心放在特定网格单元的一定范围内，然后将满足对象特征的所有像素聚类在一定范围内。经过多次用罚试训练，通过滑动窗口找到准确的射程。但是，中心位置不能超过网格单元格的范围。这极大地限制了模型在图片中滑动时的计算。这样就将位置检测和类别识别结合到一个CNN网络中进行预测，只需要扫描一次图片就可以推断出图片中所有物体的位置信息和类别。

3.2. 聚类分析

的 -均值聚类法用于训练边界盒，目标是在bbox和接地真值之间获得更好的IoU，因此计算bbox中心到聚类中心的距离作为参数：

传统的欧几里得距离 -均值聚类法，即较大的盒子与较小的盒子相比误差较大，结果可能会偏离真实值，因此提出用IoU评分代替传统方法。

卷积核是，最大池大小为，特征图的维数减少了2倍。采用全局平均池化方法完成预测;的利用卷积对特征映射的通道进行压缩，减少了参数和计算量，增加了批量归一化层，加快了收敛速度，避免了过度拟合。

数据预处理(统一格式、均衡、降噪等)可以大大提高训练速度，增强训练效果。批处理归一化(Batch Normalization, BN)是由谷歌提出的，它在CNN网络中很常用。卷积或池化后，在激活函数之前，将所有输入数据归一化，如下所示: 哪里为批次平均值，Var为方差；和是从训练中获得的比例系数和移位系数。

3．3.位置预测

为了解决锚盒使用时的不稳定问题，特别是在早期迭代过程中，采用以下步骤来预测锚盒的位置: 在哪里( ，）为预测值，( ，）为锚坐标，( ，）为实坐标值，( ，）为偏移值，且( ，）为方框的宽度和高度。

当，所述方框向右偏移与所述方框宽度相等的距离;如果由于偏移量是向左的，所以每个预测框都可以定位在图像上的任意位置，这就是模型不稳定的原因，预测非常耗时。将预测框限制在网格单元内，使用sigmoid函数计算偏移值，偏移值定义在0-1之间;的，，，和可根据以下方程式计算：

在上述方程式中( ，）是网格单元格的左上角坐标，如图所示6；当网格单元格的比例为1时，中心在单元格内部受到s形函数的限制。的和为先验宽度和高度。

3.4. 损失函数

在训练过程中，损失函数形式是一项关键技术;对于本文提出的方法，采用误差损失和平方和来平衡误差。对于不同大小的预测框，用平方根值代替包围框的宽度和高度;因此，较小的方框有相对较大的值偏移，使预测更有效。损失函数可分为两部分:

旨在确定 -中的第四个框 -网格单元对目标是否负责，是对损失的一种坐标预测。

是盒子与对象的置信度预测损失。总损失是和，这可以在坐标、置信度和分类之间实现更好的平衡。

4.水下探测CNN网络

在水下检测中，由于视觉质量差，检测对象小，常用的方法并不适用。我们原来的神经网络如图所示7时，将输入图像调整为，调整大小后的图像应进行批处理归一化(BN)，卷积核为和，stride为1，输出feature map为．为了解决网络的梯度扩散或爆炸现象，较好的建议是将深度神经网络的逐层训练改为分步训练。将深度神经网络划分为若干个子网络段，每个子网络段包含浅网络层，然后利用捷径使每个子网络段训练残差，使每个子网络段具有总学习误差。同时，该方法可以很好地控制梯度的传播，避免了梯度消失或爆炸的情况，不利于训练。

首先, 利用卷积来减少信道数量和训练参数;然后，使用不同大小的卷积核进行卷积运算;最后，根据信道对各特征图像进行组合。为了得到更高级的特性，前面的方法是增加网络的深度，我们提出了这个网络通过增加网络的宽度来达到这个目的。概念模块综合考虑多个卷积核的结果，得到不同的输入图像信息，得到更好的图像表示。为了防止网络结构中间部分消失的梯度过程，我们引入了两个辅助分类器。对两个感知模块的输出采用Softmax运算，然后计算辅助损耗。辅助损失只用于训练，不用于预测过程。

4．1.网络结构的改进

水下目标检测是在水下机器人上安装视觉传感器。在实际操作中，常用的方法在小目标检测方面表现不佳，因为实验中使用的常规数据集是正常的图像，这些图像是高质量的、光线充足的图像。对于水下探测，物体总是被其他东西重叠，如岩石和珊瑚，水下视觉总是模糊的，清晰度低。在这些条件下，网络结构应该保留更多的原始特征。在深层CNN中，越层提取的特征越抽象，越能清晰地提取出深层语义信息。另一方面，更少的层可以保留更多的表示信息。可以将深层语义信息与表示信息相结合，实现更准确的检测。本文提出了两种结构方案，一种是a 卷积核被用于 Feature map，然后，一个向下采样层被添加，以调整输出的大小相等，与最后一次输出相结合，完成检测；改进如图所示8．

由于卷积操作中原有的信息丢失，在第二种方案中，首先加入下采样，然后在网络中插入卷积层，将结果与最后的输出相结合，实现检测;修改结果如图所示9．

有三个全卷积特征提取器，分别对应于卷积集，卷积集是特征提取器的内部卷积内核结构，卷积核用于降维，利用卷积核进行特征提取，将多个卷积核进行交叉来达到目的。每个全卷积特征层被连接。当前特征层的输入有前一层输出的一部分。每个特征层都有一个输出预测结果。最后，根据置信度对结果进行回归，得到最终的预测结果。

4.2.数据集扩充

水下数据集是困难的准备,水下图像和视频在互联网上不容易获得,对水下图像,背景几乎是在同一地区相同,所以图像数据集是相似的,因为这些因素的训练输出模式总是不能有效的使用在其他海域。因此，需要对数据集进行修改和扩充，使深度学习模型得到更广泛的应用。数据集增强主要基于旋转、翻转、缩放、移位等方法。

本文使用的数据集是从水下机器人拍摄的视频中获取的，图像总数约为18000张，且图像相似，因此采用旋转和颜色变换对原始图案进行变换。

图像的三个通道被降维(红色),(绿色)分别获得（蓝色）方向向量。

的特征值和特征向量，，和被定义为

为均值为0，方差为0.1的随机变量，将其加入变换函数中:

旋转变换表示为在哪里( ，）转换后的位置坐标是和吗为旋转角度。

移位变换如下所示：哪里是换档角度。

随机选取上述三种方法对原始图像进行变换，总数扩增到30000。

5.实验结果

本文提出的方法将用于水下遥控器（ROV）上，该机器人约为1 米长，0.8米宽，重90 收集海产品的方法为吸附式；设计和实际机器人如图所示10.机器人是远程操作的；我们的团队将把ROV改造成半自动的，因此关键技术是如何检测和定位目标。

5．1.检测比较

这些计算使用的GPU是NVIDIA GTX 1080ti，图像总数为30000张，人工逐个标注。在深度学习中，8520张图像用于训练，8530张图像用于验证，12950张图像用于测试。在目标检测中，精度、查全率和平均值是常用的检测方法;定义如图所示11．

平均平均精度是所有检测类精度的平均值，广泛用于评价检测系统。本文以Pascal VOC形式编写数据集，利用Fast RCNN [6]和更快RCNN [27]如图所示12，具体数据见(表)1和桌子2）.

（a）

（b）

（c）

(d)

(e)

(f)


迭代	快RCNN				快RCNN				YOLO V3意思
	地图(%)	精度（%）			地图	精度（%）			地图(%)	精度（%）
	地图(%)	海参	海胆	扇贝	地图	海参	海胆	扇贝	地图(%)	海参	海胆	扇贝

2000	27.26	30.13	26.79	24.87	27.53	30.18	27.29	25.13	35.43	37.14	35.42	33.74
4000	37.56	40.51	38.23	33.93	38.74	40.80	39.35	36.06	45.90	48.12	45.50	44.08
6000	41.83	44.45	41.36	39.67	43.15	45.30	42.80	41.35	49.61	51.81	49.87	47.16
8000	45.37	48.67	45.85	41.59	46.59	48.35	47.35	44.08	52.40	54.56	53.14	49.51
10000	48.22	51.33	47.84	45.50	50.28	52.09	50.76	48.00	55.89	58.17	56.99	52.50
12000	50.90	53.75	51.31	47.65	52.53	53.96	53.44	50.20	58.34	59.77	59.48	55.77
14000	53.09	55.69	54.20	49.38	54.43	56.18	54.78	52.31	60.58	63.39	60.91	57.44
16000	55.04	58.85	54.92	51.35	57.32	59.66	56.98	55.34	62.02	64.09	62.50	59.47
18000	56.66	60.49	56.81	52.67	58.62	60.35	59.55	55.95	64.18	66.79	65.15	60.58
20000	58.63	62.12	58.49	55.27	60.93	62.30	61.86	58.63	66	68.87	66.20	62.93
22000	60.42	63.95	60.63	56.67	63.07	64.33	63.93	60.95	67.22	70.37	68.02	63.26
24000	61.35	64.57	62.19	57.29	64.37	65.94	64.67	62.51	68.88	71.50	70.54	64.60
26000	63.40	66.60	63.94	59.65	66.38	68.07	67.17	63.90	70.44	72.85	71.83	66.64
28000	65.03	68.81	65.36	60.92	68.15	69.98	68.67	65.82	72.00	74.79	73.17	68.03
30000	66.84	70.09	68.19	62.24	69.42	70.49	70.53	67.24	71.99	74.84	73.44	67.70
32000	67.68	70.73	68.53	63.78	70.68	72.78	71.47	67.79	72.24	74.47	73.78	68.47
34000	69.26	72.65	71.03	64.11	71.72	73.96	72.17	69.01	72.15	74.62	74.01	67.81
36000	70.96	74.75	72.23	65.90	73.75	74.44	75.02	71.79	71.88	74.87	72.82	67.95
38000	71.25	74.83	71.98	66.95	74.80	76.83	75.53	72.03	71.69	74.05	72.37	68.63
40000	72.88	76.46	74.09	68.08	75.75	77.53	76.13	73.58	72.70	75.55	73.70	68.83
42000	73.23	76.30	74.68	68.71	75.99	77.41	76.96	73.59	71.96	75.34	73.21	67.33
44000	73.13	76.19	74.49	68.70	74.86	77.65	73.26	73.67	71.57	74.83	72.59	67.28
46000	72.82	76.00	74.93	67.53	74.46	76.19	74.33	72.85	71.87	74.58	73.41	67.61
48000	73.01	76.46	74.07	68.49	74.62	76.16	74.41	73.30	71.59	74.19	73.39	67.20
50000	72.84	76.35	74.69	67.48	74.64	76.40	73.26	74.25	71.44	74.32	72.32	67.69

本文提出的方法检测结果如表所示1．


迭代	原始网络				方案1				方案2
	地图(%)	精度（%）			地图	精度（%）			地图	精度（%）
	地图(%)	海参	海胆	扇贝	地图	海参	海胆	扇贝	地图	海参	海胆	扇贝

2000	24.90	28.88	26.48	19.35	40.29	42.25	40．25	38.37	40.72	42.25	41.25	38.65
4000	33.95	38.90	36.90	26.07	52.47	54.10	53.55	49.76	52.71	54.28	52.54	51.31
6000	40.85	40.57	37.45	44.54	57.94	60.76	58.25	54.81	57.73	59.24	58.51	55.43
8000	42.51	45.51	42.34	39.67	61.63	63.49	61.93	59.46	62.22	64.60	62.26	59.79
10000	44.72	50.58	44.29	39.29	65.27	68.39	66.11	61.31	64.91	67.60	65.33	61.79
12000	49.53	48.75	48.11	51.74	68.04	71.64	67.95	64.53	67.49	69.04	68.98	64.45
14000	48.37	50.35	50.59	44.16	70.50	72.86	70.74	67.89	70.47	72.64	70.35	68.41
16000	54.12	53.40	50.48	58.49	73.61	76.17	74.23	70.44	72.72	75.16	73.45	69.54
18000	52.95	59.29	55.08	44.48	75.38	78.84	74.99	72.31	74.32	76.51	75.40	71.07
20000	57.33	58.04	54.54	59.42	77.20	80.87	77.05	73.69	76.82	78.91	78.04	73.51
22000	58.04	57.21	59.24	57.67	79.54	82.80	79.70	76.13	78.48	80.72	79.70	75.02
24000	55.44	62.44	59.14	44.75	81.18	85.61	80.80	77.14	80.37	82.28	82.03	76.80
26000	57.85	61.98	62.52	49.05	83.02	86.31	82.70	80.06	83.34	85.46	84.48	80.07
28000	60.42	62.81	62.56	55.89	85.01	88.52	85.25	81.25	84.69	87.32	86.04	80.70
30000	59.74	67.91	61.47	49.85	85.60	89.44	85.78	81.58	86.54	89.33	87.92	82.39
32000	62.32	65.73	63.52	57.72	84.90	88.06	85.56	81.06	87.65	90.15	88.55	84.25
34000	63.60	68.72	65.44	56.64	84.96	88.28	85.79	80.82	87.92	90.96	89.55	83.26
36000	64.70	72.76	65.55	55.80	85.13	88.11	85.42	81.87	87.34	89.36	88.08	84.57
38000	63.73	69.71	65.50	55.98	85.65	89.40	85.33	82.21	87.90	89.62	89.28	84.79
40000	71.77	70.26	67.52	77.54	85.02	88.46	85.83	80.76	87.69	89.88	88.17	85.04
42000	67.62	71.46	69.78	61.63	85.12	89.47	84.89	80.99	87.58	90.27	87.99	84.48
44000	69.25	71.82	66.45	69.47	84.79	87.91	84.47	81.99	87.57	90.56	88.08	84.08
46000	66.42	71.26	71.02	56.99	85.04	89.01	84.45	81.66	87.15	89.48	88.64	83.33
48000	66.19	70.46	66.96	61.15	85.05	88.37	85.10	81.66	87.21	89.27	88.42	83.95
50000	70.33	68.86	70.35	71.78	84.59	88.73	84.78	80.27	87.42	90.69	87.68	83.91

为了明确不同方法的收敛性，图中显示了mAP值与迭代次数的关系13．

从以上结果和对比可以看出，Faster RCNN的检测精度优于其他方法，但差异不是很大。与原YOLO V3方法相比[30.]，提出的方法可以给出更准确的检测，方案2更有效。各方法的收敛性不同;YOLO V3方法经过28000次迭代后收敛，早于Fast RCNN和Faster RCNN。经过40000次迭代，所有方法都无法提高检测精度，原因是数据集缺少水下样本，且数据集图像相似，特别是图像背景相同。这是水下目标探测的主要原因，深海水下数据难以获取。

本文提出的原始网络不稳定;结果随迭代次数的增加而波动。为了提高稳定性和精度，提出了改进方案，如图所示13与其他典型方法相比，我们提出的方法可以给出更准确的结果。

损失函数曲线如图所示14，所有方法的损耗值都是收敛的，YOLO V3方法的损耗值幅值比Fast RCNN小[6]和更快RCNN [27];所提方法的收敛速度较原YOLO V3方法慢[30.］.

（a）

（b）

（c）

(d)

(e)

对于目标检测，上述方法的精度都足以应用，实时检测更为重要，检测速度如表所示3.．


方法	快RCNN	快RCNN	YOLO V3意思	方案1	方案2

时间成本(女士)	96	85	20.	22	19

很明显，YOLO V3 [30.方法具有非常快的检测速度，几乎比faster RCNN快4倍[27].根据精度和检测速度分析，方案2优于其他方法，与更快的RCNN具有相同的精度，该方法的检测速度约为50FPS，即使在NVIDIA TX2卡上，检测速度也可以达到17FPS，足以满足实际应用。

5.2。检测结果

通过以下典型图像对本文提出的方法(方案2)进行验证，其中图像由“水下机器人拾取大赛”提供，部分图像由水下机器人拍摄。

由于保留了更多的表示信息，因此方法方案2在水下检测中效果更好，比较如图所示15，（a）和（b）是相同的图像，方案2方法可以检测到左下角的海参和海胆，但原始图像没有检测到目标。在（c）和（d）中，左海参被原来的YOLO V3遗漏[30.]方法，所以这种方法显然更有效。从图像（a）检测中，我们可以看到，左下角被沙子覆盖的海参也可以被检测到，这是人类视觉难以检测到的。

（a）

（b）

（c）

(d)

为了验证该方法，实验中选取了8幅图像;检测结果如图所示16．

将训练模型应用于ROV中测试检测效果，天气多云，海水非常浑浊;实时检测结果如图所示17．

如图所示15，一些目标漏检，原因是数据集不够大，特别是数据集的图像非常相似；光线和背景都很简单，因此当训练后的模型用于其他海域或不同环境条件下的检测时，检测精度会降低m矿石或更少，因此我们团队计划在不同海域和不同条件下拍摄更多的水下图像，使数据集更加丰富，从而实现完美的水下检测。

6.结论

考虑到水下视觉的特点，提出了一些新的图像处理方法来处理低对比度和弱光照问题。提出了一种深度CNN方法来实现对海洋生物的检测和分类，这是公认的最快的目标检测方法。水下视觉质量较低，且物体总是重叠和阴影，因此原始YOLO V3[30.]方法对水下探测效果不明显;针对这些问题，本文提出了两种解决方法。通过与其他方法检测结果的比较，方案2可以给出更好的检测结果。训练后的模型用于协助ROV探测水下目标;定性和定量的评价结果明显地验证了该方法的有效性和能力。该方法适用于我们的水下机器人对目标的检测，并不优于其他数据集的典型方法。而dropout layer和其他技术在这个模型中并不重要;采用更复杂的算法重建网络效果更好。

数据可用性

用于支持本研究发现的数据可由通讯作者要求提供。

的利益冲突

作者没有报告潜在的利益冲突。

致谢

感谢国家重点研发计划(No. 2018YFC0309402)和中央高校基本科研业务费专项资金(No. 2018YFC0309402)对公司的支持。HEUCF180105)。

参考文献

林英英，“结合灰色世界和retinex理论在数码摄影中的自动白平衡”第九届消费电子国际研讨会论文集，2005。(ISCE 2005)，页134-139，澳门，澳门，2005年6月。浏览：出版商的网站|谷歌学者
G. Buchsbaum，“物体颜色感知的空间处理器模型”，富兰克林研究所杂志，第310卷，第2期1，页1 - 26,1980。浏览：出版商的网站|谷歌学者
J. Van De Weijer, T. Gevers，和A. Gijsenij，《基于边缘的颜色稳定性》，IEEE图像处理汇刊，第16卷，第5期。9, pp. 2207-2214, 2010。浏览：谷歌学者
R.Hummel，“通过直方图变换进行图像增强，”计算机图形和图像处理，第6卷，第2期2，第184-195页，1977。浏览：出版商的网站|谷歌学者
K.Zuiderveld，对比度受限自适应直方图均衡化[M]//graphics gems IV，学术出版专业公司，1994年。
A. S. A. Ghani和N. A. M. Isa，“通过综合全局和局部对比度校正增强低质量水下图像”，应用软计算，第37卷，C期，第332-344页，2015年。浏览：出版商的网站|谷歌学者
C. Li和J. Guo，“基于去雾和色彩校正的水下图像增强”，电子成像杂志，第24卷，第2期3、2015年第033023条。浏览：出版商的网站|谷歌学者
M. Braik, A. Sheta和A. Ayesh，“利用粒子群优化的图像增强”，智能系统杂志，第2165卷，第1期，第99-115页，2007年。浏览：谷歌学者
E. H. Land，《视网膜色觉理论》科学美国人，第237卷，第2期。6，第108-128页，1977。浏览：出版商的网站|谷歌学者
傅X，庄P，黄Y，廖Y，张X-P，丁X，“基于retinex的单幅水下图像增强方法”，年2014年IEEE国际图像处理会议（ICIP）第4572-4576页，法国巴黎，2014年10月。浏览：出版商的网站|谷歌学者
J.Perez，A.C.Attanasio，N.Nechyporenko和P.J.Sanz，“水下图像增强的深度学习方法”，年自然计算与人工计算相互作用国际工作会议，第183-192页，施普林格，Cham, 2017。浏览：谷歌学者
张志强，谢家平，“一种用于图像去噪的自适应中值滤波方法”，出版2008第二届智能信息技术应用国际研讨会， pp. 346-350，中国上海，2008年12月。浏览：出版商的网站|谷歌学者
C.J.Prabhakar和P.U.P.Kumar，“使用自适应小波子带阈值的水下图像去噪”，年2010国际信号与图像处理会议，第322-327页，印度钦奈，2010年12月。浏览：出版商的网站|谷歌学者
D. M. Kocak和F. M. Caimi，“当前的水下成像艺术——带着对过去的一瞥和对未来的憧憬，”海洋技术学会杂志，第39卷，第3期，第5-26页，2005年。浏览：出版商的网站|谷歌学者
M. Zhang和B. K. Gunturk，“图像去噪的多分辨率双边滤波”，IEEE信号处理学会的出版物，第十七卷，第二期12，页2324-2333,2008。浏览：出版商的网站|谷歌学者
M. Mäkitalo和A. Foi，“Poisson-Gaussian噪声广义Anscombe变换的最优反演，”IEEE图像处理汇刊，第22卷，第1期，第91-103页，2013年。浏览：出版商的网站|谷歌学者
J. L. Forand, G. R. Fournier, D. Bonnier，和P. Pace，《露西:激光水下相机图像增强器》海洋会议录'931993年10月，加拿大BC省维多利亚市。浏览：出版商的网站|谷歌学者
杨志强和彭福林，“基于Gabor变换的激光水下目标检测”，年2009第四届计算机科学与教育国际会议， pp. 95-97，中国南宁，2009年7月。浏览：出版商的网站|谷歌学者
B.欧阳，F. Dalgleish, A. Vuorenkoski, W. Britton, B. Ramos，和B. Metzger，“基于图像渲染的多静态水下激光线扫描系统的可视化和图像增强”，海洋工程学报第38卷第2期3, pp. 566-580, 2013。浏览：出版商的网站|谷歌学者
P. C. Y. Chang, J. C. Flitton, K. I. Hopcraft, E. Jakeman, D. L. Jordan, J. G. Walker，“利用偏振提高被动水下成像的能见度深度”，应用光学，第42卷，第15期，第2794-2803页，2003年。浏览：出版商的网站|谷歌学者
V. Gruev, J. V. D. Spiegel，和N. Engheta，“集成偏振图像传感器的进展”2009 IEEE/NIH生命科学系统与应用研讨会，第62-65页，Bethesda, MD, USA, 2009年4月。浏览：出版商的网站|谷歌学者
李勇，“水下偏振成像技术”2009年激光与电光会议&环太平洋激光与电光会议， pp. 1-2，中国上海，2009年8月。浏览：出版商的网站|谷歌学者
A. Krizhevsky, I. Sutskever，和G. E. Hinton，《基于深度卷积神经网络的图像网络分类》，ACM的通信，第60卷，第2期6，页84-90,2017。浏览：出版商的网站|谷歌学者
R.Girshick，“快速R-CNN”，在2015 IEEE计算机视觉国际会议(ICCV)，第1440-1448页，智利圣地亚哥，2015年12月。浏览：出版商的网站|谷歌学者
“基于深度卷积网络的视觉识别的空间金字塔池”，“基于深度卷积网络的视觉识别”，模式分析与机器智能汇刊，第37卷，第2期9, pp. 1904-1916, 2015。浏览：出版商的网站|谷歌学者
何凯，张昕，任舜，孙建军，“基于深度残差学习的图像识别”，《中国图象图形学报》2016 IEEE计算机视觉与模式识别大会(CVPR)，美国内华达州拉斯维加斯，2016年6月。浏览：出版商的网站|谷歌学者
R. Girshick, J. Donahue, T. Darrell，和J. Malik，“精确目标检测和语义分割的丰富特征层次结构”2014年IEEE计算机视觉和模式识别会议， pp. 580-587，美国俄亥俄州哥伦布市，2014年6月。浏览：出版商的网站|谷歌学者
Ren S.， K. He, R. Girshick, and J. Sun，“Faster R-CNN:基于区域提议网络的实时目标检测”，模式分析与机器智能学报第39卷第3期6，页1137-1149,2017。浏览：出版商的网站|谷歌学者
J. Redmon, S. Divvala, R. Girshick和A. Farhadi，“你只看一次:统一的，实时的目标检测”2016 IEEE计算机视觉与模式识别大会(CVPR)，第779-788页，拉斯维加斯，美国，2016年6月。浏览：出版商的网站|谷歌学者
J. Redmon和A. Farhadi，YOLOv3:增量改进, 2018年。
G.D.Finlayson和E.Trezzi，“灰色的阴影和颜色的稳定性”，年第十二届彩色成像会议，is&t -成像科学与技术学会，页37-41，斯科茨代尔，美国，2004。浏览：谷歌学者
李春梅，“基于卷积神经网络的弱光照图像增强方法”，模式识别的字母，第104卷，第15-22页，2018年。浏览：出版商的网站|谷歌学者
董志强，邓勇，陈志强，“基于深度卷积网络的压缩伪影减少方法”，出版2015 IEEE计算机视觉国际会议(ICCV)，智利圣地亚哥，2015年12月。浏览：出版商的网站|谷歌学者
D. J. Jobson, Z. Rahman，和G. A. Woodell，“一种用于弥合彩色图像和人类对场景的观察之间差距的多尺度Retinex，”IEEE图像处理汇刊，第6卷，第2期7，第965-976页，1997。浏览：出版商的网站|谷歌学者
R. C.冈萨雷斯和R. E.伍兹，数字图像处理，Prentice-Hall， Englewood Cliffs, NJ，美国，2017。

杂志上的传感器

摘要

1.介绍

2.图像预处理

2.1.水下视觉检测体系结构

2．2.最大rgb法和灰度法的结合

2.3.用于弱照明图像增强的CNN方法

3.目标检测理论

3．1.卷积神经网络

3.2. 聚类分析

3．3.位置预测

3.4. 损失函数

4.水下探测CNN网络

4．1.网络结构的改进

4.2.数据集扩充

5.实验结果

5．1.检测比较

5.2。检测结果

6.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章