文摘
图像声纳探测水下是一种广泛使用的无线通信技术对象,但检测过程往往导致增加困难对象识别由于缺乏设备的分辨率。的显著成绩通过人工智能技术在水下无线通信领域的研究中,我们提出一个对象检测方法基于卷积神经网络(CNN)和阴影信息捕获提高水下声纳图像的目标识别和定位效果的充分利用阴影信息的对象。我们设计一个影子捕获模块(SCM),可以捕获中的阴影信息特性图和利用它们。SCM兼容CNN模型,有一个小的增加参数和一定程度的可移植性,并且可以有效地缓解由于缺乏设备分辨率识别困难通过引用阴影的特性。通过大量实验Pengcheng实验室提供的水下声纳数据集,该方法可以有效地改善CNN的特征表示模型和提高类和类之间的区别特征。根据2012年帕斯卡VOC的主要评价标准,该方法提高了从平均69.61%到75.73%的准确性(mAP)借据阈值为0.7,超过许多现有传统的深度学习的模型,而我们提出的轻量级设计模块更有利于实现人工智能技术在水下无线通信领域。
1。介绍
电磁波、光波和声波是世界上常用的无线通讯运营商。在无线通信领域,海水中含有多种矿物质,成为导电介质。电磁波传播的海洋将会被海水,导致快速浪费大部分精力。因此,电磁波在海水中传播将大大抑制。基于上述分析,海水中电磁波传输将大大没有,因为大部分能量将很快被浪费和蔓延到海洋将被海水。光也是一种电磁波本质上,所以它在海水中传播也将是有限的(1- - - - - -3]。由于声波的原因是机械波可以旅行在弹性介质的海水没有太多干扰,广泛应用于水下无线通信领域。受声波的启发,许多声纳设备开发测量水或探测水下物体的深度。例如,前瞻性的声纳设备可以获得声波的反射信息并生成高分辨率的声纳图像,通常是用来获取水下信息形式的图像。
声纳图像目标识别方法主要分为传统的数学建模方法和基于卷积神经网络(CNN)的检测方法。传统的数学建模方法可以处理更多的声纳目标识别的任务,和它使用图像处理方法如尺度不变特征变换(筛选),方向梯度直方图(猪)4],费舍尔向量提取对象特征,然后通过机器学习或模式匹配分类对象特性(5- - - - - -7]。用这种方法提取的特征可以为特定的数据集和任务表现良好,但大多数功能的泛化能力是有限的,和特征提取仍然需要专业知识和大量的实验。相比之下,卷积神经网络(CNN)优化其参数与梯度传播,这使得它可以结合特征提取和模型预测到相同的管道。
作为一个强大的图像分类和目标检测模型,基于CNN的检测方法是一种最受欢迎的深度学习结构(8- - - - - -12]。与传统的计算机视觉方法相比,CNN方法广泛应用以来声纳图像识别领域的自动特征提取和多层次特征提取的优势(13- - - - - -20.]。有两种类型的CNN模型的应用程序。一是结合卷积模块或完全连接层模块来构建一个声纳图像识别模型。Matias [13]和Valdenegro-Toro [14)设计了一个CNN模型对象识别的声纳图像,这比模式匹配方法实现更好的结果。威廉姆斯(15)设计了一个深卷积神经网络应用到多个二进制分类任务区分不同类别在声纳数据集,比原分类器基于手动功能。其他类型的CNN模型是利用先进的计算机视觉理论和经验从简历(简历)来修改一些优秀的模型满足声纳图像识别的需要。Galusha et al。16)使用深卷积神经网络等对象检测对象识别和位置,和SAS图像的像素是减少到roi利益(地区)。这种检测形式相似的两阶段模型对象的标准检测流检测。Breistein [17和七巧板等。18]介绍了单程对象检测模型yolov2声纳图像识别,和模型实现预期结果在各自的数据集。Zacchini et al。19]介绍了声纳图像识别和面具RCNN对象定位和测试模型的功能LaSpezia海军支持中心和实验室。风扇等。20.)降低网络参数通过修改模型的网络结构在不影响精度。
上面的CNN方法有不同的强调使用深度学习模型。虽然取得了较好的效果在各自的数据集,他们只能定位和识别一个声纳对象由于小数量的数据集在大多数情况下。如何有效提高特性不同类别之间的差距,缩小差距同一类别的特点是特别重要的。此外,我们注意到前瞻性的声纳设备将发出的声波反弹它触及到的对象,不能达到对象背后的区域,形成一个影子相关对象形状生成的声纳图像。传统的图像处理方法很难解释突出区域代表对象由于上述成像声纳图像的缺陷,所以阴影信息往往是引入一个额外的辅助识别功能(21- - - - - -24]。尽管影子功能得到相当大的注意力在以前的识别任务,提出的方法是排他的,这意味着它是不可能单独的阴影的提取步骤特性和移植深度学习的方法。因此,研究人员还没有足够关注声纳图像的阴影信息现有深度学习的研究方法。
为了充分利用前瞻性的声纳图像中阴影信息,提高图像目标识别和定位的准确性,神经网络检测方法基于阴影捕获模块(SCM)设计。配置管理模块可以捕获图像中的阴影特征根据阴影的特点出现物体的正上方,这是非常轻量级的,便于携带。此外,我们做了一个数据集和阴影对象原始模型的训练和测试的能力区分阴影。通过大量的水下声纳图像,实验结果表明,网络模型的检测精度与供应链管理模块添加6.12%高于原始模型,这超过了现有的公共CNN模型。本文的主要贡献可以概括如下:(1)为了利用影子前瞻性的声纳图像中的信息,提出一个结构基于CNN模型能够捕捉影子信息和阴影信息集成到功能映射。(2)我们做了一个数据集与对象的影子训练该模型,然后用它们来识别和定位物体的影子。最终结果表明,检测精度达到94%,证明CNN模型也可以适应声纳图像阴影识别和为我们提供了先天的基础方法。(3)本文提出模块SCM可以有效地增加类别之间的差异程度的功能深度学习模型multicategory检测任务。设计模块的添加后,CNN模型的精度提高了6.12%,这是高于简历领域的主流目标检测模型。
2。影子捕获网络
将会有一个影子与形状有关的正上方目标对象的前瞻性的声纳图像。这是一个未被发现的区域形成的物体挡住了声纳设备发出的声波。这个区域的形状随物体的形状。尽管声纳设备发出声波的角度会影响影子的形状在某种程度上,唯一起着主导作用的阴影的形状物体的形状时,发射角基本上是常数。因此,在声纳图像由一个前瞻性的声纳设备发射声波在一个稳定的角度,影子可以被视为另一个对象的特征表达。
在本节中,我们描述的基本原理提出这种结构及其施工的细节。与CenterNet [25),我们的模型最终输出热量地图包含对象的分类预测评分和对象的位置的坐标在地图。自从之间有一对一的映射关系的对象分热图和原始图像,对象点在地图上的位置相对于热点图表示原始图像中的物体的位置相对于原始图像。前瞻性的声纳图像的使用影子特性可以增加类别之间的特性差异,提高对象的响应值点在地图上,从而提高网络的能力来识别对象。自分类生成大量热点与热点坐标,同时响应值也意味着更高的热点网络更加确定物体的位置,所以分类的优化效果也代表了本地化的增强效果。因此,捕捉阴影的特性和融合成网络的特征图谱可以全面提高热图的预测模型。
因此,我们在CenterNet替换模块,用来预测对象特性和捕获模块捕获的影子功能特性映射,并融合捕获的影子功能特性映射的骨干网络。然后,模块预测热图单独添加新模块后,利用熔融特性预测地图热图,服务来增强自己的预测效果。
2.1。概述
如图1,我们设计一个结构,可以利用阴影的特性。这个结构是用来捕捉影子从功能映射特性,融合成包含对象的特征映射,是将功能添加到对象。在我们的设计模型,我们使用沙漏(26作为这个模型的特征提取网络,与CenterNet不同,我们使用nonstacked沙漏。有两个原因的选择。首先,堆放沙漏网络太深,这将导致极端抽象的功能层,最终将被用作预测,和其庞大的截止特性映射在前面网络的一部分,这将导致困难的设计和解释模型。第二,每个堆叠沙漏都有不同地区的利息全部。多层叠加的沙漏网络会使每个堆栈沙漏感兴趣的网络都有自己的不同的地区,即。,每个不同的沙漏网络需要添加中介监督。模块设计的,这增加了不确定性。由于这两个原因,我们决定使用一个nonstacked沙漏网络。特征映射这个网络的输出将被用作设计模块的输入。特征映射后进入影子捕获模块(SCM),它通过两个分支,第一个是影子捕获分支,我们首先使用三个并行卷积层获得的初始位置参数映射对象的特性,然后我们捕获基于位置的特性参数和我们的手工设计捕获方法,使用roi的利益(地区)对齐池中提取感兴趣的区域模型的阴影,这是剥夺了从空间维度频道维度。第二分支功能融合部门,我们将感兴趣的阴影区与沙漏特性映射输出,通过卷积层完成的融合功能。 Once the fusion is complete, we feed this enhanced feature map into the heat map prediction module added at the end of the model to obtain more accurate object locations and classification scores.
2.2。影子语义特征捕获模块
在本节中,我们将介绍详细影子语义特征捕获模块。首先,在图2,三个并行预测卷积层设置获取位置参数 的对象, 代表对象的中心点坐标在地图和特性 代表对象的宽度和高度的功能映射。针对实验数据集的成像特性(见细节的部分数据集和标签),它可以确定物体的影子在声纳图像普遍存在对象的正上方。因此,我们设计一个捕捉影子特性的方法,不需要额外的监管信息。规则最终将捕捉影子特性在一个选定的地区地图上的特性,和规则如下:(1)对象的左上角的坐标 从物体的位置参数,然后的高度H地区吗 ,垂直坐标0地图左上方的像素点的特性,和宽度W宽度吗的对象。(2)通过观察影子图像的数据集,我们发现一些阴影的宽度略大于对象,还有一个小扭曲阴影双方的数据集,我们引入了一个宽度参数调整这个区域的宽度。这个地区的最终宽度 ,如图3。
(一)
(b)
最后,获取预定区域后,RoI-Align池是用来切。详细的操作和梯度反向传播形式,请参考[27,28]。池可以用来获取预定区域的高响应值和输出特性映射具有相同尺寸与原始特征包含阴影地图和高响应值。然后,新生成的特性将输入映射到随后的语义特征融合模块功能融合。
2.3。语义特征融合模块
这个模块需要共享卷积特性映射输出从沙漏网络和特征映射的输出影子语义特征包含的高响应值获取模块影子作为输入,并融合了两个。最后,增强特性与影子语义特征映射集成用于预测随后的热图。
如图1共享卷积特性后,地图输入模块,它等待影子语义特征捕获模块输出包含高响应值的特征映射的影子,然后使用连接操作,得到最终的功能映射C通过融合函数 : 在哪里是三个连续的混合操作:3×3卷积层,批处理规范(29日),ReLU和非线性激活函数。3×3卷积层用于引信功能映射B,包含阴影高响应值,与沙漏的特征映射网络输出一个。的批处理规范29日]规范化卷积的输出值的融合,从而可以缓解内部协变量转变现象(即每个参数迭代更新后,前一层的输出数据将被计算后数据分布的变化这一层的网络,这使得它很容易学习的下一层),本质上是在神经网络(29日)和模型数据分布的变化带来的我们使用的连接融合形式。非线性激活函数ReLU可以抑制和激活与平滑的熔融特性。
2.4。可解释性的模块
在本节中,我们将一个数学直觉的模型更好地理解为什么影子捕获模块(SCM)能够把阴影的语义特征。开头的部分2,我们解释说,模型定位和识别的效果取决于像素响应值的最终功能形象。也就是说,我们希望最终的输出模型的响应值更高的实际位置声纳对象,和其他地方的像素值尽可能接近0。在图4,我们发现功能映射也强调在阴影区域观察和分析。但只有两个目标在声纳图像,如果阴影区域仍有较高的响应值,它将增加最终的拟合压力预测模型,使模型更有可能导致错误检测。因此,我们希望使用影子的高度响应区域的信息来提高响应的影响对象区域,以帮助分类模型。为了实现这一目标,有必要带阴影的高度关注区域特性的空间维度,然后拼接高度关注区域的通道尺寸特性。影子特性被高度关注的地区后,从空间维度,最终功能图中的每个像素的值应该是如下(以1×1卷积为例): 在哪里j代表不同的渠道和我代表不同位置的像素值在同一个频道。重量参数的滤波器j通道的输入特性图,代表的像素值我位置j通道的输入特性图代表的像素值我位置j通道的输出特性图。当影子的高度响应区域剥夺了通道尺寸,该模型可以利用这个高度关注区域本身根据最后的检测要求。自卷积神经网络在每个通道的过滤器是不同的,这也意味着过滤器的参数是不同的,选择的模型,因此滤波器参数可以作为模型的重点强调的这一部分地区。的学习梯度反向传播方法,卷积可以学习的情况最适合每个通道的像素特征的融合。
(一)
(b)
3所示。实验
为了评估该方法,我们进行了一个全面的实验在水下前瞻性声纳Pengcheng实验室提供的数据集。实验结果表明,我们的模型达到良好的性能当借据阈值是0.5 - -0.8,使用2012年帕斯卡VOC作为评价标准。在下面几节中,我们将首先描述数据集和实验实现的细节,然后我们将一系列消融实验的实验结果进行前瞻性的水下声纳数据集。
3.1。数据集和标签
这个数据集是最大和最广泛的声像数据集在当前行业发起Pengcheng实验室。数据集有5000图片,包括3200年的训练集、验证集,800和1000测试集。对象类型包括立方体、球、圆柱、人体、轮胎、圆笼子,笼,金属桶,等等。每个图像只标志相关的对象,和影子没有任何标记的信息。数据采集设备用于声纳图像是我多波束前瞻性声纳Tritech双子座1200。检测设备发出的光束横向划分为若干个扇形束垂直张角φ之中,每个梁对象如图5强度信息,并形成一套距离和回波强度信息的所有梁安排根据位置关系形成声纳图像,如图6。梁的数量对应于图像的水平像素的数量。当水平角θ是常数,梁,角分辨率越高,每个波束回声收集的数据的数量对应于图像的垂直像素的数量,数据量越大,距离分辨率越高。声纳数据集的笛卡尔直角坐标系后(),这样的图像显示为一个矩形,而不是一个球迷。如图6像素(x,y在声纳图像代表了声反射强度信息方向 和范围 在极坐标系中。φ和R分别代表水平开口前视声纳的角度和倾斜范围,W和H分别代表图像的水平和垂直的维度。
3.2。实验的细节
我们实现了我们的方法基于Pytorch。经过多次实验和综合考虑,我们采用以下设置从头开始训练声纳数据集。输入分辨率的大小是固定的512×512,优化器使用亚当,基本学习速率是设定在0.001,训练轮的数量是300,学习速率的培训战略采用固定步长减少,每一次是1/10,减少和降低轮的数量是120200260,分别。为了提高数据的多样性,我们使用常规数据处理方法(垂直翻转,水平翻转,等等)的图像。
3.3。损失函数
训练我们的损失函数模型由两部分组成。第一部分是培训亏损阴影位置预测的阶段。在这个阶段,不仅热图(heatmap1)预测对象的长度和宽度和中心点的偏移对象。因此,在这个阶段损失值如下:损失的初步的热图(heatmap1),对象长度和宽度预测损失,和对象中心抵消损失。在预测阶段,预测heatmap1价值损失是由焦计算损失(30.),损失价值的预测长度和宽度和对象的损失价值中心偏移量由L1损失计算,和都设置为0.1。
另一部分是损失函数,预测最终的热图,heatmap2的损失。
整体的损失函数模型可以通过添加上述两部分的损失,和具体的计算公式如下:
3.4。比较实验
3.4.1。的参数α切削宽度的
自阴影的横向位置在这个数据集是在一定程度上抵消相对于对象,我们设计一个参数α切削宽度的倍数和采取不同的值α实验比较。平均精度(mAP)越高,越一致减少宽度的影子宽度数据集,和更完整的影子特性。实验结果如表所示1。
3.4.2。模型比较
比较我们的方法和所有经典对象检测技术在同一水下前瞻性声纳数据集。表2显示了不同的比较借据在帕斯卡VOC2012评价标准。我们可以发现我们的模型检测精度有明显的优势,通过比较不同模型。根据视觉图像的比较图7,也可以看到这种模式的检测性能与CenterNet相比提高了。
(一)
(b)
(c)
(d)
(e)
(f)
3.4.3。每个类别的准确性
帕斯卡voc2012评价标准下,我们的模型和经典的精度性能目标检测模型八类的对象在声纳数据集比较借据是0.7。因为我们的结构将阴影信息集成到功能映射和提高性能的特性映射对象的特性,它可以从表3这个模型的检测性能几乎是最好的在所有类别。
3.4.4。分析供应链管理的参数的数量
如表所示4后,比较CenterNet之间参数的数量和我们的模型,我们发现SCM只会增加2.954的参数,这是只有3.09%的CenterNet,所以这个模块是非常轻量级的。
4所示。结论
在本文中,我们提出一种结构捕捉影子特性和融合特征图。它利用阴影特征和对象之间的关联特性,以及不同类别的对象之间的阴影特征的差异,从而增加类别之间的特性差异。具有更明显的对象特性,网络的识别效果往往更好。结合我们的实验结果,表明,影子和对象特征的融合确实可以在一定程度上提高网络识别的作用。此外,还有一些值得探索的融合模式的影子和对象特性。如何更好地把影子的特征和对象特性将在未来的研究。
数据可用性
使用的数据集和分析在当前研究可从相应的作者在合理的请求。
信息披露
Taowen肖和子健Cai co-first作者的文章。
的利益冲突
作者宣称没有利益冲突相关的手稿。
确认
Taowen肖,子健Cai丛琳,和琼陈了同样的工作。这项工作是由中国国家自然科学基金支持下拨款62072121,2021 a1515011847广东省自然科学基金。