文摘

最近的进步在深入学习研究提供了一个有效的方法在机器视觉使用光学图像。摘要卷积神经网络用于处理声纳探测的目标任务,和性能的每个神经网络模型水下声纳图像检测和识别任务的盒子和轮胎进行比较。仿真结果表明,本文提出的神经网络方法比传统的机器学习方法和SSD网络模型。的平均精度提出了声纳图像目标识别方法是93%,和一个图像的检测时间只有0.3秒。

1。介绍

海下的目标不方便人类直接接触,所以需要声纳探测和识别。目前,声纳图像的目标检测和识别是海洋目标探测的一个重要研究课题。传统的声纳探测主要识别海洋生物的特性或轮廓,比如水下目标的形状和纹理,但认识到这些特性的影响主要取决于功能是显而易见的。然而,由于水下环境的复杂性和相似的目标,传统的声纳识别不能满足当前水下目标的探测和识别。今天,深度学习目标探测和识别成为主流方法,它可以表示为深度特征提取目标识别和定位基于卷积神经网络。卷积神经网络(CNN)模型具有较强的描述和建模能力通过监督或nonsupervision训练方法。CNN的特点可以用对象层,和对象的抽象和描述僧侣政治。Girshick等人设计了一个探测器(RCNN)基于区域CNN,这也是目标检测领域的一个里程碑。从那时起,目标检测是发展很快,而且许多RCNN-based方法是文献中开发的。

近年来,一些计算模型提出了在文献中识别和检测的水下声学使用机器学习算法。例如,李et al。1和程等。2)深入学习算法用于声纳多传感器观测数据的数据融合。本文提出了一种新的SAR图像目标识别方法通过设计CNN和提高了无人探测机制,利用卷积特性。同样,杨et al。3和Lei et al。4)提出了另一个模型基于深度学习的主动声纳信号的识别和语义分割遥感图像,分别。作者产生了有前景的结果,和他们的策略是基于如何提取适当数量的地区建议为了提高目标检测的可靠性。此外,郑5和刘6)使用被动水声使用深度学习的方法分类学习算法。

探讨卷积神经网络方法用于遥感图像的语义分割和创造新技术和算法更大的准确性,在本文中,我们提出了新的计算模型基于卷积神经网络对声纳图像目标探测和识别。最重要的增加和论文的主要贡献如下:(1)一个聪明和强大的计算模型提出了声纳图像目标探测和识别的分类(2)这项工作提出了一个算法,可以自动执行目标识别、跟踪、检测工作(3)这项工作提出了一种划分multitype对象的严格模型的同时,传统方法使用特征匹配技术,可以检测一个类型的对象(4)最后,该方案已经在比较实验和消融研究经过了广泛的测试

剩下的纸是组织如下。节2,详细研究了文献综述部分3提供了详细的方法。部分4提供详细的结果和讨论。最后,本文的结论部分5

2。卷积神经网络模型的设计

在本节中,我们介绍的设计提出了卷积神经网络模型。该模型的体系结构如图1它包含许多组件详细讨论如下。

2.1。卷积神经网络

一个卷积神经网络(CNN)是一种深层神经网络(8- - - - - -12]。勒存在1990年代首次提出设计和卷积神经网络训练lenet5通过使用反向传播算法,取得了良好的效果在手写数字识别(13]。2006年,辛顿在加拿大多伦多大学的教授提出了深度学习的概念,解决了梯度的色散问题通过层pretraining传统神经网络方法,引发了一股的深度学习(14]。目前,卷积神经网络,使用最广泛的神经网络,在图像处理方面取得了一个突破(15),语音识别(16),目标检测(4,5),和其他领域。一般来说,CNN的基本结构由一个卷积层、汇聚层,完全连接层和输出层,如图1

2.1.1。褶积层

卷积层由多个特征图。输入原始图像卷积层混淆了一定规模和步长通过卷积内核和获得特征映射后下一层的激活函数。卷积核是一个权重矩阵的大小n n。卷积过程如图2

卷积层中的每个神经元与当地上层的一组权重,和像素的加权和。然后,局部加权和转移到一个非线性激活函数获得卷积层中的每个神经元的价值。计算公式如下: 在哪里 代表了jth特性的地图th层, 代表了激活函数, 代表了th特性上层的地图, 代表卷积操作, 卷积核, 代表的特征子集的地图上层参与操作,和 代表了抵消。卷积的功能层提取输入图像的不同特征。在CNN,因为卷积过程是线性的,增加网络的非线性表达能力,通常是使用非线性激活函数。常用的激活函数是乙状结肠函数,双曲正切函数,和ReLU功能。与其他两个函数相比,ReLU函数被广泛使用,因为它更快的收敛速度和更容易实现。ReLU、乙状结肠、激活和双曲正切函数可以使用以下方程在数学上表示:

2.1.2。汇聚层

池层也是由多个特征图。池操作类似于卷积操作。每个神经元的池层也与前一层特性的当地地图。然而,汇聚层的值不是当地的加权求和,但最大像素值或平均值的提取当地池层神经元的价值。汇聚层的功能是减少特征图的大小,减少网络模型的计算复杂度,提高网络的空间不变性的输入图像对象。常见的池方法是最大池和平均池。本文采用最大池中的所有网络。池操作如图3

2.1.3。完整的连接层

完整的连接层位于后面的卷积层和汇聚层。完整的连接层中的每个神经元与神经元在前面的层集成特性从卷积中提取层或池层。最后一个完整的连接层的输出值转移到输出层实现的输出分类结果。卷积神经网络的快速发展,目标检测方法基于卷积神经网络已被广泛使用。使用CNN提取图像目标特性已逐渐取代了传统的目标检测方法基于手动功能,已成为当前目标检测的主流方法。近年来,出现了许多优秀的目标探测模型其中快速RCNN YOLOv3, SSD模型是使用最广泛的。

2.2。快RCNN模型

快RCNN CNN目标探测模型是基于该地区胡在2015年提出的建议(16]。FastRCNN仍然是CNN的基本结构,但这种模式放弃传统的选择性搜索算法(17]在提取的过程中可能的候选区域,即。,region recommendation of the target in the image, and then adds a full convolution network (RPN) after the convolution feature map of the last layer of convolution neural network, and the RPN achieved this function. The overall structure of RCNN is shown in Figure4

模型的输入是原始图像。特征映射由深卷积神经网络提取,即。,vgg16 [18),然后提取候选区域的坐标信息项。大约2000名候选人区域从图像中提取,然后这些候选区域的坐标信息映射回原始图像中的位置并与真正的地区。当候选人之间的重叠率区域和目标区域在原始输入图像大于某一阈值,默认值为0.7,目标被认为是在该地区的存在,然后回归的位置是根据候选人的位置进行地区和真正的区域和目标的概率分布计算属于一个特定的类别。因为快RCNN实现候选区域提取和目标探测的过程神经网络,显著提高模型的运算速度而RCNN RCNN较快。

2.3。YOLOv3模型

YOLO(你只看一次)是一个意思CNN基于回归的目标探测模型认为[11]。YOLO经历了改善YOLO[意思意思19]和YOL09000 [20.),现在已经发展到YOLO3。不同于快RCNN模型,YOLO系列意思模型不需要提取图像中目标的可能的候选人地区但直接在整幅图像上执行回归训练。首先,原始图像转化为一个固定的大小,然后是卷积神经网络特征提取的深度。最后,分类结果和目标位置坐标信息输出。

使用的基本网络YOLOv3 Darknet53 [11]。为了避免梯度爆炸引起的网络层的深入,Darknet53添加RESNET(残余神经网络)21- - - - - -25]残余结构。分类目标对象时,YOLOv3使用多个独立的逻辑回归分类器。这些逻辑回归分类器判断的对象在目标框架属于当前的标签或不是,这是一个简单的二元分类。这样,multilabel分类是实现。此外,YOLOv3使用红外系统的想法(特征金字塔网络)(26,27)和预测三个不同规模特征图供参考,有三个目标框架为每个网格规模预测。对于一幅图像,如果它是最初分为N * N网格和C类需要预测,最后预测张量 ,其中包括四个坐标点的信息和信心得分。由于第一个两层特性的融合地图,该模型可以获得更多的低级和高级图像语义信息,使模型的预测更加准确。

2.4。SSD模型

SSD(单枪multibox探测器)是另一个CNN基于回归的想法和目标探测模型是目前的主流目标探测模型。SSD模型主要分为两个部分:一个是卷积神经网络对特征提取,基于VGG网络,取代的最后两个完整的连接层VGG卷积层和丢弃的辍学生层和softmax分类层;另一种是多尺度特征检测网络关注VGG网络,是由四个褶积层。每组第一个使用1 x 1卷积核减少渠道的数量,然后使用3 3卷积内核增加渠道的数量。不同层次的特征图谱用于不同规模的边界回归目标和不同类别的预测成绩。最后,最后获得的检测结果是NMS (23]。SSD是结合多尺度特性映射到探测小目标与浅特征图谱与高分辨率和大目标与低分辨率深度特征图,这样可以检测到不同尺度的目标。

3所示。模型的性能评价指标

机器学习算法的性能,评估四个参数通常用于检查模型的信度和效度(10- - - - - -12]。这些参数包括整体模型的准确性,特异性为真阴性率、灵敏度为真阳性率,MCC为马修的相关系数。这四个指标的计算公式如下: 在哪里(我) 代表真正的积极(2) 代表总真阴性(3) 代表了假阳性(iv) 代表了假阴性

4所示。结果与讨论

4.1。数据准备

在这篇文章中,声纳图像数据是通过实验获得的。在实验中使用的声纳是m3康斯贝格公司的多波束成像声纳,英国。工作频率是500 KHz,距离分辨率为0.01 M,最近的距离是0.2米,最远的距离是150米。共有2300个声纳图像是通过几个实验,其中80%是训练集和20%是测试集。最后的声纳图像显示在图5

声纳图像的分辨率是1920 1080年,该行业区域扫描声纳、扫描角是120,和原点O的部门是扫描中心,成像声纳的位置。纵向突出区域的左右图像的池壁,池壁外的区域并不是考虑。白色的电弧是一个等距线,和上任意一点的距离相同的等距线O是相同的。

4.2。实验装置

在实验中,我们设置了计算平台和基本的硬件和软件规范,包括英特尔酷睿i5 - 10500处理器,NVIDIA方形住宅区1060显卡,显卡是2 g的内存,Tensorflow版本是1.10,CUDA的版本是9.0,和操作系统是Ubuntu 16.04。为了确保结果的可比性,三种模式使用相同的超参数训练,学习速率为0.001,重量衰减因子为0.99,0.9和动量参数。随机梯度下降优化方法,迭代的数量是10000,和图片的数量参与每个迭代是16。

4.3。分析的目标检测

培训后,测试集是用来测试,结果如表所示1和图6。根据表中所示的结果1目标探测和识别任务的海星和扇贝声纳图像、地图YOLOv3达到92.95%,检测精度远高于越快可以和SSD模型。的检测速度,需要0.255秒YOLOv3检测一个图像,这类似于固态硬盘速度快但比快速RCNN 4倍因为快RCNN需要从每个图像提取约2000个候选区域单独和判断这些区域,从而导致更多的时间消耗。然而,YOLOv3和SSD模型使用回归方法直接输出坐标信息,因此,检测速度更快。声纳图像的检测结果的例子的海星扇贝YOLOv3表明模型仍然可以准确检测目标的大背景噪音。

此外,样品的数量选择不同的算法进一步的方向,具体结果如图7。总的来说,基本上每个算法都可以保持数据分布的相对稳定,但模型的训练是非常不同的,这也进一步表明,不确定性+多样性采样不仅可以选择高信息的数据量也使样品最低冗余和高表示。

通过以上实验,可以看出,模式的不确定性+多样性采样数据集上可以发挥良好的效果甚至在分布和不均匀分布。此外,不确定性+多样性采样图7可以获得一个更好的检测效果比所有训练数据通过选择高信息量的一部分,高级代表数据的情况下数据很小,和该算法是否有一种解脱的适应,是一个值得未来更多的探索的方向。

5。结论

本文提出了一个卷积神经网络模型对声纳图像的分类和识别。提出模型的性能广泛评估,和实验结果表明,该YOLOv3模型是有效的预测盒和轮胎在声纳图像。我们也比较该模型的性能和RCNN和SSD算法。YOLOv3的结果表明,检测精度高于其他两种方法在轮胎的情况下声纳图像目标检测任务;和检测SSD的速度几乎是一样的模型,这是四倍的快速RCNN模型。在未来,我们打算合并和比较,以及添加工具,更深入的影响如RNN和BNN学习框架。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。