有效的并行化方法在2 d对象识别声纳图像基于任务划分

文摘

技术分析和避免危险的对象和情况下的海床上正在开发,以确保安全的船只和潜艇从各种危害。提高精度和实时响应是水下目标识别的关键,这依赖于水下声纳检测去除噪声和分析数据。因此,并行处理是被引入实时处理的二维(2 d)海底监测水下声纳探测器图像。然而,这需要优化的并行处理模块对图像处理和数据处理大量的数据。本研究提出了一种有效的并行处理方法,称为任务划分,根据中央和图形处理单元实时监测和识别水下对象基于2 d图像声纳。该方法的实用性评价实验通过比较连续的处理方法。实验结果表明,处理时间的任务划分方法极大地提高了声纳图像,因为它降低了1%和5%的平均执行时间的顺序处理方法和通用并行化,分别。

1。介绍

在导航、船舶面临着各种威胁,比如水下煤矿和潜艇、潜水器(1]。船舶的安全可以保证通过识别危险的水通过实时监控和监测海底环境。大多数海底环境监测系统使用声波(即。,sonar), which have a relatively innocuous effect on the underwater environment. Imaging sonar, an underwater image acquisition technology, generates images by transmitting sound waves, ranging from several tens of hertz to several megahertz, depending on the purpose, and analyzes signals reflected from the seabed or objects. To acquire the images, side-scan sonar [2),多波束回声测深仪(3),合成孔径声纳(4使用)。Sonar-based海底环境监测已经很难检测和识别事物由于低分辨率和干扰在水下环境中(5,6]。因此,收集的信息使用声纳含有大量的噪声,使图像处理贵。因此,成像声纳在无人平台的可用性很低,因为所需的时间来处理图像。

本研究提出了一种有效的软件方法,称为任务划分,使实时并行处理和识别的对象通过sonar-image分析在海底。我们建议的方法分区图像基于多核的中央处理单元(CPU),和它在任务执行并行处理单元,使用图形处理单元(GPU)检测对象。这种方法最大化并行管道工作cpu和gpu。评估方法的实用性,将它应用于声纳图像分析模拟器,通过实验比较顺序和并行处理方法(7]。实验结果表明,该方法显著提高了处理时间对去除噪声的声纳图像;我们的方法降低了1%和5%的平均执行时间的顺序处理方法和通用并行化方法,分别。此外,我们的方法显示,改进的164.5倍与顺序处理相比,和一个改进的17.4倍相比,通用并行的时间消耗在4 k图像识别多个海底对象有4096×4096分辨率。

2。背景

2.1。并行图像处理

多处理器和多核系统的普及增加了需求的提高图像处理应用程序的处理速度。然而,硬件单元多路复用(例如,CPU)进行简单的处理大多产生了令人失望的结果。即便如此,众所周知,图像处理的问题可以通过软件来解决并行处理。通过并行处理,改善预期的处理速度值, ,可以获得使用Amdahl法则(8),如下: 在哪里表示并行处理在一个给定的应用程序的性能和比例表示数量的CPU或GPU核心应用程序执行的地方。从情商。1),可以看出并行的处理速度的改善增加比例的比例通过多种并行处理核心代码部分。使用8个核心,例如,在一个系统的性能改善效果parallel-processed部分分别为40%和80%,和 ,分别。

有效的并行图像处理是很困难的,因为开销,由于小数据集和短的运行时间。所面临的这些困难是大多数图像处理应用程序中,承受负载平衡的问题,因为有限的并行性(9]。因此,有效的并行处理方法对于图像处理应用程序正在研究。有效的并行图像处理的关键因素是软件并行处理方法的选择匹配的CPU和GPU的体系结构。因此,必须选择目标处理器后理解算法的特点,在实现。此外,该算法必须设计/每个处理器的特点(9- - - - - -11]。

2.2。在图像分析并行处理

并行处理技术被应用到各个领域,包括图像处理和分析和计算机视觉。首先,金等。7]CPU和GPU并行处理申请自主导航机器人的目标识别,提出了一种parallel-processed关键点检测特征提取的方法。他们比较了运行速度的CPU和GPU并行处理利用尺度不变特征变换(筛选)算法(12]。每个实现的几种优化方法,如OpenMP [13),输入多个数据(SIMD) [14)结构和流SIMD扩展(SSE) (15),用于CPU。CUDA开发的并行计算平台和编程模型(英伟达)(16)是用于GPU。研究表明,关键点检测方法可以改善性能2.5至5倍,比现存的方法。

公园等。17)并行处理应用于三维(3 d)可视化工具,模拟拖网捕鱼使用复杂的内部每个功能组件的计算齿轮和水下网络。3 d模拟器开发研究中应用并行处理实现一种改进的平均40%的处理性能,包括用户输入的实时显示。

一个代表性的例子应用的并行处理在声纳图像合成是(+18北约的海底研究中心,实现每个进程使用GPU处理结构优化,使大约50次改善执行和速度性能呈现简单的场景。然而,当结果(18)是用于对象检测和跟踪,生成额外的开销,因为所需的额外数据转换由于GPU的体系结构的特点,其双精度运算性能低于单精度。

我们的研究团队开发了一个模拟图像分析检测和识别水下物体的二维(2 d)声纳图像。识别水下的对象,开发分析模拟器利用声纳图像预处理单元,可去除噪声,使用声纳图像的创造者,类似于(+对象检测。该工具检测预处理图像中的对象和对象识别单元,确定检测到的对象。图1显示了一个示意图发达2 d声纳图像分析模拟器(SIAS)。通过改进的性能进行实时处理的补充免疫活动,并行化,结果的基础上7),应用于预处理,目标检测和目标识别单元。然而,这种方法提高了目标识别的平均表现为45%,这是实现实时的能力不足。因此,我们的研究提出了一种有效的并行化方法对提高实时补充免疫活动的能力。

3所示。补充免疫活动并行化设计进行了优化

3.1。任务划分方法

在海底环境中使用2 d表示声纳图像,图像坐标是由距离传感器。虽然并行化是可能的一个算法在预处理和目标检测用于分析,有一个并行不能处理的部分,由于图像面积的数据依赖关系和处理步骤。因此,每个系列作为并行算法进行并行处理。形状组成的多个fork和join增加频繁fork - join开销和顺序处理部分比例。然而,对于获得旁侧扫描声纳图像,一个空的图像输出中心,由于下面的海底的距离传感器。图像的左右完全分裂和可以被视为独立的图像。分区执行任务并行处理,将左右独立图像划分为单独的补充免疫活动期间任务并行处理。

任务划分算法的图像序列部分分配最小化处理因为左右图像独立并行处理。对于每个任务,最大化并行化的影响,可以并行处理的图像分配给对应的线程的最大数量的线程支持的CPU。通用并行,多个线程的使用降低了并行化效率,因为并行化后,线程等待其他线程分支同时完成。

然而,在任务分配,左边和右边的图片是分开的,每个任务可以占用CPU的并行线程没有等待。因此,可以预期性能改进的并行化。此外,并行化的性能改进效率可以最大化,因为256位数据可以同时处理利用SIMD寄存器,这对多个数据执行相同的命令在每个线程的过程。图2显示了任务划分的概念应用于在补充免疫活动预处理提高并行处理的效率。在图2瓷砖是一个标准化的图像区域,不仅使平等的任务分发给每个线程,也限制的大小由CPU处理任务。

任务分区、并行化需要的图像划分过程识别变量输入声纳图像的垂直部分和任务划分过程,它由瓷砖单位分割图像分配给每个线程。首先,在形象部门,中央部分的声纳图像,基于旁侧扫描声纳、拍摄情况和变化的识别和转换成一个简化的二维二进制图像。显示了图像分割方法的算法1,它分为港口图像(InL)和右(InR)图像的大小和位置确定图像部分。

	函数Img_Partitioning (我,InL,印度卢比)
	/∗∗/颜色变换
	如果一个图像我不是一个二进制图像然后
	图像我转换为一个新的2 d二进制映像吗N用一个阈值
	其他的
	图像我只是复制到一个新的形象吗N
	如果
	标签/∗∗/
	发现连接组件N
	计算每组的位置
	发现该地区的中心N
	/分区∗∗/
	分N成InL和印度卢比基于中心地区
	如果InL是空的或印度卢比是空的然后
	返回假
	其他的
	返回分割图像
	如果
	结束函数

在任务分工,预处理算法改善噪声去除和物体识别的准确性左右图像分割在图像分割,以及检测的算法划分,这样他们既可以作为一个任务。然后,任务是为每个图像生成,分为并行处理基于系统核心的数量。显示了任务分工流程算法2Detection_Obj适用于()函数取代了预处理算法的目标检测。因此,所需的对象是确定在每一个分裂的形象,和每个部分的搜索是并行执行/线程的数量由系统或激活用户。

	函数Task_Partitioning (InL,印度卢比,T)
	/∗C_n∗/核心的数量吗
	检查核的数量
	为检测对象作为创建线程C_n
	为每个对象 , 来 , 做
	创建任务
	与Detection_Obj并行执行(InL, )
	创建任务
	与Detection_Obj并行执行(印度卢比, )
	结束函数

3.2。管道的方法

除了处理速度的提高,可以通过CPU的任务分工,额外的性能改进可能通过允许GPU处理算法。单指令多线程(SIMT) (19并行处理,使用了许多核心GPU,比CPU更高效的反复使用相同的命令时为每个像素或特征点,如目标检测和识别。然而,如果任务划分方法是使用GPU申请对象检测,它可以减少获得并行化,由于频繁的环境变化带来的开销。

同时,噪声去除预处理和目标探测和识别不能同时使用两个CPU和GPU的处理资源的依赖在处理序列。因此,GPU必须等到声纳图像预处理的CPU。即使并行处理是使用CPU和GPU,所需的时间检测对象通过使用两个处理资源满足以下方程: 在哪里Tc和T 表示所需的时间来处理一帧使用CPU和GPU,分别。我表示输入的帧序列图像。

GPU等待时间最小化的两份工作定义的处理顺序,管道方法同时应用于CPU和GPU任务分配预处理后的CPU和GPU对象检测。声纳图像输入时,预处理任务并行处理,基于CPU,输出的图像预处理后上传到GPU内存和处理基于GPU的。当完成上传GPU内存,CPU接收下一个声纳图像并进行预处理。同时,GPU执行第一声呐图像目标检测。图3说明了这种方法,应用CPU和GPU之间的管道。在图中,等待队列是一个FIFO(先进先出)数据结构和采用GPU独立使用图像数据处理CPU。因此,它可以最大限度地提高性能通过GPU并行处理通过有效地减少等待时间,如果同时处理是由CPU和GPU之间的管道声纳图像,所有的对象检测必须执行。对象检测所需的处理时间的声纳图像当这个管道方法应用可以表示如下:

GPU等待只在预处理的第一输入帧因为没有前一帧。然后,CPU和GPU执行预处理和对象同时检测,只有GPU处理时间为最后一帧的目标检测。此外,处理器的休眠时间最小化,提出管道的方法。如果管道方法不适用,处理器的总等待时间。然而,如果管道方法,减少。

4所示。实施和评价

优化的补充免疫活动并行处理性能改进方法在本研究评估通过实验比较它与现有的顺序处理方法和基于[并行处理7]。对于这个评价,对声纳图像分析仿真系统由多核和许多核心cpu由应用优化的并行处理方法补充免疫活动由我们的研究团队。

4.1。实现

预处理步骤中,我们开发了一种小波方法的并行版本(20.使用OpenMP api,它是应用于任务划分方法。图4说明了CPU-based并行处理的实现使用的任务划分方法预处理步骤。在图像分割阶段,两个任务的左右图像分割使用# prama omp平行和# prama omp节指令与OpenMP。的平行指令可以指定的操作并行代码部分,和部分指令分配每个任务执行的代码部分。然后,nowait条款中设置部分指令,这样当一个任务完成后,完成部分没有完成等待其他分支线程。每个瓷砖在分区任务的线程分配和小波方法的阶段,如小波变换、脊波变换和阈值,实现了# prama omp平行指令。的平行的指令使for循环并行执行的处理每一个分裂的瓷砖与指定的线程数量。规范的操作并行线程的数量,num_threads使用条款按照逻辑线程的数量的CPU、部分将对此进行说明3。允许同时执行指令的八个浮点数据类型,每个分裂的瓷砖的SIMD过程使用的实现# pragma omp对simd指令。

我们采用快速法(21)和p-SIFT方法(22)的对象检测步骤和实现模式匹配和跟踪特征点技术对检测对象进行分类。图5描述了基于GPU的线程并行处理阶段。实施对象识别,要执行的任务为每个元素被SIMT分为并行线程,每总元素的数量。GPU处理线程的数量GPU核心同时在总分配线程。我们实现了基于gpu的并行化,包括SIMT,快速法和p-SIFT法使用CUDA api。

特征点提取对象检测期间,线程像素分配的数量和特征量检测和匹配分为线程根据特征点的数量。在这种情况下,像素的数量和特征点的数量在一个4 k等图像输入的数量大于GPU核心系统中。因此,使用效率减少休眠期间GPU并行化是最小化。数据并行化是不可能的,和连续部分的GPU内核线程分配和活化处理CPU通过使用一种算法优化最小SIMT GPU数据并行,有几乎没有影响预处理算法占用CPU的处理速度。对象分类步骤执行后立即检测到的坐标和特征量识别候选对象。此外,我们实现了一个模板匹配方法中使用多个并行线程对象考虑的候选点比较同时识别多个对象。

图6显示了补充免疫活动的流程优化的并行实现。CPU-based任务划分方法预处理步骤,应用GPU并行处理。如图,管道的方法实现目标检测步骤股票产生的图像预处理步骤使用等待队列。我们也使用了#编译指示omp任务指令的OpenMP使管道的两个任务独立操作方法和激活使用嵌套的并行性omp_set_nested命令来启用额外的线程在图像预处理的任务分配。

补充免疫活动系统使用英特尔i7 quadcore cpu, 16 GB的RAM和Nvidia GEFORCE GTX公司为GPU图形卡。它运行在Windows上10操作系统。此外,安装CPU运行八个逻辑线程有四个物理核心,GPU 768核。补充免疫活动的软件是使用c++和CUDA实现语言。OpenMP 5.0被用于CPU并行API,和CUDA工具包7.5用于GPU并行化。最后,补充免疫活动的程序是使用LLVM 5.0编译器(23]。

4.2。实验和分析

测试图像旁侧扫描声纳4096×4096分辨率的图像,使用声纳图像的创造者,因此创建20类型的对象,包括每个四种类型(即五个单位。、矿山、渔礁、轮胎和鼓),可以插入。我们验证了新的补充免疫活动并行算法的准确性和测量的总时间20多个目标识别的输入图像。

核实新补充免疫活动的准确性,我们比较原始图像和之前版本使用顺序算法的补充免疫活动。图7补充免疫活动显示了对象识别的结果。图7(一)是一种合成图像声纳图像的创造者创造的补充免疫活动,和图吗7 (b)识别多个水下对象的结果在图吗7(一)通过并行处理的补充免疫活动。结果,如图7 (b)补充免疫活动,正确识别多个水下对象即使并行处理,包括任务划分和管道的方法,应用。从图中,我们看到,使用并行算法的补充免疫活动提供了识别的准确性,因为它确定了20多重天体的海床上识别率为80%或更多。

(一)

(b)

(c)

检查并行性能改进发达补充免疫活动,处理速度测量和实验相比,顺序处理(平方)使用没有并行,CPU-based通用并行处理(PP)和任务划分和GPU并行方法(TG)。管道的方法应用于任务分区和GPU并行化(TP)。

总结了实验结果表1和图8。任务的简单组合分区和GPU并行化(TG)达到大约92.1倍的加速,而顺序处理。然而,任务的管道应用分区和GPU并行化(TP)达到了164.5倍的加速,而顺序处理(平方)。此外,当并行优化方法应用TG和TP实现加速的9.7倍和17.4倍,分别比CPU并行处理(PP)。并行化效应分析的步骤时,TG和TP显示相同的结果在预处理步骤和平方相比提高了70.1倍。PP相比它还提高了20.3倍。从预处理步骤的结果如图8,我们看到,声纳图像处理的任务划分方法是可行的,因为它可以显著降低平均执行时间PP和平方的5%和1%,分别。


	平方(女士)	页(女士)	TG(女士)	TP(女士)

预处理	6310年	1832年	90年	90年
对象检测	12100年	109年	107年	109年
对象分类	9	3	3	3
总	18419年	1944年	200年	112年

平方:序贯过程;PP: CPU并行处理;TG:任务分区CPU + GPU并行处理;TP:任务分区CPU + GPU上并行处理与管道的方法。

(一)

(b)

(c)

(d)

在目标检测步骤中,PP和TP显示快110倍处理平方相比,和TG平方相比提高了113倍,显示出最有效的结果。最后,在对象分类步骤,PP、TG和TP显示比平方高出三倍的结果。TG和TP的结果表1TP略有延时,约2 ms,而TG的GPU并行管道的方法。然而,证实补充免疫活动由管线式优化方法,因为TP降低TG的总执行时间90毫秒左右通过CPU和GPU延迟最小化。

表的测试结果1和图8确认CPU-based任务划分方法显著提高了并行的处理速度和实际声纳图像处理,因为任务划分方法降低了1%和5%的平均执行时间的顺序处理方法和一般的并行化,分别。此外,由于GPU并行处理和管道的应用方法,总处理时间接近100 ms。因此,它可以用于海底声纳成像监测系统通过提供实时性能。

5。结论

声纳技术,对水下环境的影响相对较低,被广泛用于保护船只的安全通过识别水下危险通过海底环境的实时监测和监督。然而,由于水下环境的性质,收集到的声纳信号包含大量的噪音。因此,一个重要的过程的时间延迟是因为消除获得校准水下噪声信息。在这项研究中,水下环境监测的时间延迟通过声纳成像分析被应用任务划分方法显著提高,一种新的基于CPU的并行化方法,基于gpu的并行处理方法。同时使用的CPU和GPU通过一个管道。该方法实验时使用补充免疫活动与现有的方法相比,模拟器系统基于声纳成像识别水下物体,该方法显示顺序处理相比,改进的164.5倍和17.4倍相比,通用并行的时间消耗4 k图像中识别多个对象有4096×4096分辨率。在图像预处理,去除不必要的噪音,和校准期间,CPU-based任务分区大大改进有效地支持SIMD和多线程的并行处理速度。实证结果表明,我们的方法是可行的声纳图像处理,减少1%和5%的平均执行时间顺序处理方法和通用并行处理方法,分别。最后,这个改进优化的并行化是很重要的,因为它可用于水下声纳成像实时监控系统,可应用于确保安全的船只和潜艇从各种危害在水里。

数据可用性

数据源,包括数据和表,用于本文可从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是在国防科学研究所的支持下,韩国,在格兰特UD160014DD。

引用

里德,y Petillot j·贝尔,“我的自动检测和提取方法特性在侧扫声纳,”IEEE海洋工程》杂志上,28卷,不。1,第105 - 90页,2003。视图:出版商的网站|谷歌学术搜索
b•菲利普侧扫声纳的手册施普林格,柏林,德国,2009年。
h . Medwin和粘土,海洋声学原理、学术出版社、剑桥、马、美国、1997。
r·e·汉森“合成孔径声纳、概论”声纳系统:Kolev Ed, pp, 3-28 InTech,博尔顿,英国,2011年。视图:谷歌学术搜索
g . j .鸢尾草、b·e·麦克唐纳和w·a·库珀曼“降噪匹配阶段,”美国声学学会杂志》上,卷96,不。6,3499 - 3503年,1994页。视图:出版商的网站|谷歌学术搜索
a . Jarrot c Ioana, a . Quinquis“水下信号通过多路径传播渠道,去噪”海洋学报》2005年欧洲,1卷,页501 - 506,华盛顿特区,2005年9月美国。视图:谷歌学术搜索
e . j . Kim公园、崔x h . Kim和w·A . Gruver”快速特征提取在对象识别使用CPU和GPU并行处理,”诉讼IEEE国际会议系统,人与控制论圣安东尼奥,页3842 - 3847年,TX,美国,2009年10月。视图:谷歌学术搜索
m·d·希尔和m·r·马蒂Amdahl法则在多核时代,“电脑第41卷。。7,33-38,2008页。视图:出版商的网站|谷歌学术搜索
m . s .拉斯穆森,m·b·斯图尔特和s . Karlsson”在图像处理应用程序的并行性和可伸缩性国际期刊的并行编程,37卷,不。3、306 - 323年,2009页。视图:出版商的网站|谷歌学术搜索
i . k .公园,n . Singhal m·h·李,赵,和c·金”设计和图像处理算法的性能评估在gpu上,“IEEE并行和分布式系统,22卷,不。1,第104 - 91页,2011。视图:出版商的网站|谷歌学术搜索
杨j .香港季米特洛夫m . y . et al .,“gpu加速MATLAB的图像处理工具箱函数,”诉讼第三车间通用计算图形处理单元ACM,页75 - 85年,匹兹堡,PA,美国,2010年3月。视图:谷歌学术搜索
d·g·劳”,从当地的扇区特征对象识别,”第七届国际会议上计算机视觉学报》上,卷2,页1150 - 01157,IEEE,纽约,英国,1999年7月。视图:谷歌学术搜索
r·钱德拉l . Dagum d . Kohr d . Maydan r·梅农和j·麦克唐纳并行编程的OpenMP,摩根Kaufmann出版商Inc .,伯灵顿,妈,美国,2001。
d·a·帕特森和j·l·轩尼诗计算机组织与设计MIPS版:硬件/软件接口,摩根Kaufmann出版商Inc .,伯灵顿,妈,美国,2013。
塔迦尔s t . t .发怒,“互联网流媒体SIMD扩展,“电脑,32卷,不。12日,保险,1999页。视图:谷歌学术搜索
英伟达,CUDA C编程指南美国,英伟达,圣克拉拉,CA, 2018年,https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html。
m . c .公园,好哈,s . w . Ha和y . k . 6月“实时3 d仿真的拖网渔具基于声纳传感器数据的并行处理,”国际期刊的分布式传感器网络,10卷,不。7日,2014年。视图:出版商的网站|谷歌学术搜索
e . Coiras a Ramirez-Montesinos, j . Groen“基于gpu的旁侧声纳图像,模拟”海洋学报》2009 -欧洲德国不莱梅,页1 - 6,2009年5月。视图:谷歌学术搜索
c . Nvidia“下一代Nvidia的CUDA计算架构:费米,”计算机系统26卷,第72 - 63页,2009年。视图:谷歌学术搜索
c·k·崔介绍小波爱思唯尔,纽约,纽约,美国,2016年。
大肠Rosten t·德拉蒙德,“高速检测,机器学习”欧洲计算机视觉学报》上施普林格,页430 - 443年,格拉茨,奥地利,2006年5月。视图:谷歌学术搜索
l . Seidenari g·塞拉,公元Bagdanov, a . Del女人,”当地的锥体对图像识别描述符,“IEEE模式分析与机器智能,36卷,不。5,1033 - 1040年,2014页。视图:出版商的网站|谷歌学术搜索
c . Lattner和诉Adve LLVM:编译框架终身程序分析和变换,”程序的代码生成和优化国际研讨会(2004年CGO),页75 - 86,2004年3月,美国圣何塞。视图:谷歌学术搜索

科学的规划

文摘