提高鲸鱼的性能优化算法通过OpenCL-Based FPGA加速器

文摘

鲸鱼优化算法(WOA),称为小说自然群优化算法,说明优势在处理全球连续优化问题。然而,它的性能恶化,当应用于大规模复杂问题由于迅速增加巨大的计算任务所需的执行时间。基于交互在人口,WOA自然是适合并行性,促使一种有效的方法来减轻顺序WOA的缺点。在这篇文章中,现场可编程门阵列(FPGA)作为一个加速器,的高级综合利用开放计算语言(OpenCL)作为异构soc的通用编程范式。平台之上,小说并行框架WOA名叫PWOA。拟议的框架包括两个可行的并行模型称为部分平行和all-FPGA平行,分别。实验是由CPU上执行WOA和PWOA OpenCL-based FPGA异构平台,解决十个著名的基准函数。与此同时,其他两种经典算法包括粒子群优化(PSO)和竞争群优化器(方案)是采用比较。数值结果表明,该方法实现了一个有前途的计算性能加上高效优化相对大规模复杂问题。

1。介绍

群优化或进化算法演示了他们的广泛的科学意义和实际问题1- - - - - -5]。近年来,越来越多的研究的重点是多目标问题和人工智能6- - - - - -9]。鲸鱼优化算法(WOA),提出了一种新颖的基于群智能的metaheuristic算法,Mirjalili和刘易斯在2016年(10]。特殊的狩猎行为的启发,座头鲸,WOA显示更好的性能与一些现有流行的方法和伟大的研究受到了人们的关注。通常,阿卜杜拉·巴塞et al。11)综合WOA与当地人搜索策略应对置换流水车间调度问题。Mafarja和Mirjalili12)提出了一个混合WOA与模拟退火特征提取。Aljarah et al。13]介绍了WOA-based教练训练多层感知器(MLP)神经网络。此外,也有研究机构使用WOA试图解决其他多样的问题,如多目标优化(14- - - - - -16),图像处理17- - - - - -19,软件测试20.)和电力系统应用程序(21,22]。

然而,大规模、多约束和复杂的场景通常出现在实际工程优化问题,如作业车间调度、混合单位承诺问题,自动路径规划。此外,高需求的反应速度和实时性能时需要满足上面解决问题。在这种情况下,大多数优化算法包括WOA可能会困在执行困境。随着问题的规模和复杂性的增加,WOA的执行时间将迅速增加,从而导致时间性能恶化[23]。WOA固有的并行性,可以解决上述问题通过应用并行算法开发出针对特定平台加速。近年来,专家学者都试图实现各种群优化算法采用最先进的技术,如多核(消息传递interface-MPI OpenMP),分布式(MapReduce,火花),和异构computing-based并行平台(图形处理unit-GPU, FPGA)。

异构计算指的是使用专用的硬件设备和不同的体系结构来执行耗时的任务,平衡CPU的计算负载。GPU是经典的并行计算设备,广泛应用于图形可视化、图像/视频处理、科学计算、深度学习等等。然而,增加部署的GPU,能源消耗和散热系统扩展已经成为严重的局限性,以及给人类社会带来沉重的环境压力(24]。鉴于这一点,一些研究者开始选择其他硬件设备由GPU来缓解压力。FPGA,小说平行加速器,拥有强大的并行计算能力和灵活的可编程性,同时保持低功耗的优势(25]。然而,传统的FPGA设计缺陷的高开发难度和时间消耗。最近,英特尔为软件用户提供了一个开发工具包,使FPGA上部署OpenCL程序成为可能。因此,开发人员可以快速实现fpga异构应用程序通过OpenCL API从而减少开发成本和上市时间。

本研究提出了高性能并行WOA (PWOA),在FPGA实现有效地解决大规模复杂优化问题。更具体地说,并给出了本文的主要贡献如下:(1)一种新型异构并行框架基于FPGA OpenCL-based WOA的加速器。(2)两个有效的模型包括部分并行模型和all-FPGA并行模型,设计程序流和数据流分析。(3)与十几个不同的数值实验进行选择的基准函数。通过比较与顺序WOA CPU上执行,该PWOA基于两个并行模型达到更高的执行性能。

本文的其余部分组织如下:部分2代表一个实质性的文献综述对探索并行优化算法。WOA理论和OpenCL-based FPGA异构平台是加速介绍部分3。部分4描述了FPGA的实现提出了PWOAs与两个并行模型,其次是实验结果和统计分析部分5。最后,给出了结论部分6。

群优化算法包括WOA遇到挑战,优化性能降低由于广泛的计算成本时解决高维问题和复杂的数学模型。为了克服这些挑战,研究人员在各种平台上并行蜂群算法设计与实现。近年来,分布式和并行粒子群优化(PSO)已经实现了。一些研究[26- - - - - -30.]应用GPU并行化算法,提出不同的并行策略。Hajewski和奥利维拉31日支持缓存)开发快速并行PSO依靠OpenMP。蚁群优化(ACO) (32)和人工蜂群(ABC) [33)也通过GPU并行。关于头脑风暴优化(BSO)、金和秦34马]提出了基于gpu的方式同时et al。35)提出了并行BSO对关联规则挖掘算法基于火花框架。类似的作品(36,37使用GPU和FPGA加速遗传算法(GA)。值得注意的是,加西亚et al。38]实现的并行实现和比较教学优化(TLBO)和Jaya基于许多核心GPU。至于WOA,哈利勒et al。39)提出了一个简单的和健壮的分布式WOA使用Hadoop MapReduce,到达一个有前途的加速。

它可以得出结论,有几个典型的类型的并行技术包括OpenMP, MapReduce,火花,和异构体系结构基于专用加速器,GPU和FPGA等。GPU成为流行的通用并行计算的发展中通过GPU并行群体智能算法已经成功地获得了显著的性能改进(40]。最近,FPGA正逐渐应用到异构计算和算法加速基于OpenCL,得益于其high-parallelism,更好的能源效率,和灵活的可编程性41- - - - - -44]。实验(45)表明,蜂群算法在fpga实现一个更好的比多核cpu和gpu加速。然而,设计一个算法加速器不是一项容易的任务。在FPGA实现CPU-oriented代码很少增加性能,甚至降低了CPU的性能比较。因此,它不仅需要数字设计专业知识而且软件技能形成适当OpenCL代码(46]。

很少有研究调查在群优化算法的FPGA实现,尤其是WOA。我们之前的工作(47]探索WOA基于部分并行方案和FPGA异构平台上部署它。使用经典的基准,实证结果证明了提出的间接推动methology执行性能和收敛速度。本文由先前的研究动机,小说PWOA场景有两个通过FPGA并行模型包含进一步的利用。同时,更多样的基准用于验证的有效性PWOA基于FPGA并行框架及其计算性能对于大规模复杂问题。

3所示。鲸鱼优化算法和加速平台

3.1。基本WOA算法

WOA算法构成两个主要阶段,开发和探索,通过模拟环绕萎缩,bubble-net攻击,寻找猎物。下面的内容将详细解释每个阶段的数学模型。

3.1.1。开发阶段(环绕和Bubble-Net攻击)

第一座头鲸捕杀猎物,识别猎物的位置和包围他们。收缩包围的数学模型由以下方程: 在哪里是位置向量,代表的位置到目前为止,获得的最佳解决方案显示当前的迭代的数量,表示绝对操作,是指中的元素的乘法。和两个参数,计算如下: 在哪里通过迭代线性减少从2 0(在开采和勘探阶段)和一个随机数在吗。的价值通过计算 ,和是迭代的最大数量。

在开发阶段使用另一种方法是螺旋更新位置,在配合上述收缩包围了座头鲸的bubble-net攻击策略。数学方程如下: 在哪里是一个常数确定对数螺线的形状和吗一个随机数在吗。环绕萎缩和螺旋更新位置同时在开发阶段使用。数学模型如下: 在哪里是一个随机值即50%的概率选择收缩包围法或螺旋形机制优化过程中更新鲸鱼的位置。

3.1.2。探索阶段(寻找猎物)

除了开发阶段,随机搜索技术也采取了提高勘探WOA。与剥削,一个随机的鲸鱼从群体中选择浏览搜索空间,从而找到一个更好的最优解(猎物)比现有的一个。这个阶段可以有效地防止算法陷入局部最佳状态停滞。随后,基于参数 ,的决定机制用于更新鲸鱼的位置。探索了如果 ,与此同时,如果。优化过程数学描述如下: 在哪里是一个随机的位置鲸鱼从当前人口和选择通过方程计算(4)。

算法1介绍了WOA的伪代码。初的算法,生成初始随机人口,每个个体被健身功能和评价是目前最好的解决方案。然后,该算法反复执行,直到满足停止条件。在每个迭代中,搜索代理更新他们的位置根据随机选择的个体当 ,或者到目前为止获得的最优解。根据 ,WOA算法决定是否使用圆形或螺旋运动。

1	生成初始种群
2	评估每个搜索代理的健身
3	=最好的搜索代理
4	而做
5	为每个搜索代理做
6	更新和
7	如果然后
8	如果然后
9	更新当前的搜索代理的位置由方程(2)
10	其他的如果然后
11	选择一个随机搜索代理( )
12	更新当前的搜索代理的位置由方程(9)
13	如果
14	其他的如果然后
15	更新当前的搜索代理的位置由方程(6)
16	如果
17	结束了
18	修改搜索代理超出了搜索空间
19	计算每个搜索代理的健身
20.	取代更好的解决方案(如果发现)
21
22	结束时
23	返回

3.2。OpenCL-Based FPGA异构计算平台

3.2.1之上。OpenCL和FPGA

OpenCL,由Khronos组织是一个开放标准的通用并行计算(48]。各种硬件设备,如CPU、FPGA GPU, DSP,实现高效的支持和并行算法在异构计算平台。此外,OpenCL指定 - - - - - -软件开发人员编程API为基础上的便利。一个典型的OpenCL程序包含主机和内核部分。

FPGA是一个可配置的集成电路,可以反复重新配置来执行大量的逻辑功能。它通常包括可编程核心逻辑,层次可重构互联,I / O元素,内存块,和需求方。与这些实质性的逻辑资源,FPGA实现增加编程的灵活性相比,专用集成电路(asic)。然而,传统的开发流程在FPGA严重依赖于寄存器传输级(RTL)描述如Verilog和高速集成电路硬件描述语言(VHDL),所开发和验证成本高。为了解决这个问题,英特尔和Xilinx FPGA供应商如发布OpenCL-based开发流程,简化了软件开发人员设计FPGA的应用程序,使这一过程更有效率。

3.2.2。英特尔对OpenCL FPGA SDK

OpenCL的英特尔FPGA SDK (49)允许开发人员创建和OpenCL高级FPGA实现。这个SDK生成一个异构计算环境中OpenCL内核编译,阿尔特拉离线编译器在运行时(AOC)编程的FPGA。在这种范式,英特尔达到优化设计而隐藏了底层硬件细节的FPGA。随后,FPGA已逐渐被应用于广泛的领域,如图像和视频处理42,50),深度学习51- - - - - -53),和智能优化算法(46]。

OpenCL-based FPGA逻辑框架见图1几个模块具体解释如下:(1)内核管道:整个框架的核心模块,它是一个实现特定的功能。AOC内核代码编译通过离线优化编译器和将被合成到高度并行逻辑电路FPGA的内部结构。(2)处理器:主机处理器通常CPU,用于控制程序运行在FPGA器件。(3)DDR:片外存储器,包括全球和常量内存OpenCL内存模型。英特尔气旋V上下文中使用FPGA器件有一个容量为1 GB的DDR3。默认情况下,不断的缓存大小是16 KB和可以修改按照实际需求。(4)PCI-e:高速数据交换接口,负责运送主机和设备之间的数据和指令。(5FPGA的片上内存:内存设备,相当于本地和私有内存OpenCL内存模型。小容量但高速,它主要用于存储输入和输出临时数据,减少全局内存的访问。因此,我们可以利用片上内存来提高OpenCL程序的效率。(6本地内存互连:执行单元和内存之间的桥梁。(7)外部存储器控制器层和物理层:控制器负责通过DDR控制数据的发送和接收。

4所示。基于FPGA的并行鲸鱼优化算法

与上面的描述和定义,WOA的框架可以概括为左边的流程图如图所示2。同时请注意,正确的WOA流程图是一个简化的框架主要由初始化,群更新、健身的计算,和群评估。类似于其他群优化算法,WOA不可避免地遭受这个缺点耗时的操作,比如更新群和计算健身,大大限制了其执行速度(45]。由于天然的并行性,利用实现的组件群更新和健身计算WOA可以并发执行。群内更新阶段,寻找鲸鱼的位置分别更新相应的移动机制,更多的生物模拟一个真正的狩猎的过程。剩下的两个阶段,初始化保持主要意识形态在这个工作对计算性能几乎没有影响,而评价是同步的,不能平行。

本节将提出基于FPGA并行WOA异构计算平台。以达到有效的加速度,WOA的一些计算密集型任务需要转移到FPGA的并行执行而CPU执行剩下的任务。并行模型可分为局部平行all-FPGA并行,将不同的任务分配给CPU和FPGA。下面是PWOA实现中,在两个方面:描述程序流程设计和数据流分析。

4.1。初始化

初始化主要是准备WOA的基本数据需要在整个阶段,包括生成随机数和初始种群。这个过程是在WOA的开始阶段,只执行一次。除此之外,C / c++为随机数生成应用专用的图书馆OpenCL不支持本地随机数生成器。在这篇文章中,一个通用的方法,将计算任务的初始化在CPU,采用进这两个提议并行模型,以充分利用计算从CPU马力。

随机数生成WOA是一个至关重要的组件。一方面,鲸鱼的初始种群是由一个随机位置。需要确保是随机位置的值必须是决策变量的范围内根据特定的目标函数。另一方面,有一些随机数作为系数( ,和 )更新鲸鱼的位置,在优化性能起着重要作用。此外,这些系数出现在每一次迭代,这意味着FPGA和CPU之间的数据传输也出现在每一次迭代。它将成为瓶颈的运行速度PWOA由于频繁的FPGA和CPU之间的数据传输。缓解这个缺点,所有必需随机数的生成初始种群在CPU身边,然后发送到FPGA一旦通过OpenCL全局内存。该方法可以显著减少PWOA的时间开销。

4.2。部分并行模型PWOA

4.2.1。准备程序流程设计

部分并行模型执行几个并行算法部分涉及所谓的master-slaves模型。部分并行模型PWOA (PWOA-PPM)给出了FPGA在图3。

主程序流程。主程序的CPU上运行,进行初始化PWOA和转移相关基本数据内核通过OpenCL全局内存。由于同步的限制,群评价放在CPU顺序执行在这个模型。之后,主程序维护的基本框架WOA将任务分配给FPGA,读取从FPGA计算结果,并评估群在每个迭代中。评价结果也发送到FPGA当主机程序利用任务命令在FPGA驱动内核函数执行。这样的任务分配可以更好地利用CPU的处理能力但相应地导致CPU和FPGA之间额外的通信开销。

内核程序流。FPGA器件用于部署内核程序和加速它。主机可以卸载计算密集型任务到FPGA的并行计算。基于OpenCL的编程模型,并行算法的部分被映射到内核函数执行线程独立(或工作项目)(40,45]。在提出的模型中,采用细粒度策略,其中每个线程负责一个个体,计算健身和更新的位置。根据系数(和 ),每个线程(个人)同时执行不同的机制:萎缩的环绕,螺旋更新,或者随机搜索。一旦内核程序执行完毕,最终结果是写回到全局内存。

4.2.2。主机和内核之间的数据流分析

在提出的实现中,主机之间的数据流和内核主要取决于全局内存带宽。在主人身边,内存缓冲区的创建和使用的数据映射到这些缓冲区,这将进一步通过PCI-e发送到全局内存的内核。在内核中,每个线程是一个基本的处理元素,从全局内存读取数据并完成核函数。如图4,数据集包含所有搜索代理的立场和健身,全球最适条件 ,和系数( 和 )。一个街区的“位置”内存块和“健身”内存块是多维的鲸鱼个人位置信息和健身价值,分别。在“系数”内存块,所有系数所需的鲸鱼在整个迭代都存储在一个街区,而“最佳状态”内存块拥有全球最好的鲸鱼的位置。

4.3。All-FPGA PWOA为基础的并行模型

4.3.1。程序流程设计

在all-FPGA并行模型,大多数WOA的组成部分,除了初始化,移植到FPGA。All-FPGA并行模型PWOA (PWOA-AFPM)设计如图5。

主程序流程。在主人身边(CPU),类似于前面的部分并行模型,主程序进行初始化WOA和相关基本数据转移到内核通过OpenCL全局内存。然而,它不再控制WOA并行模型的基本框架,使CPU负载相对较低,同时为FPGA计算开销更大。完成上述两个操作后,主机程序利用任务命令来启动内核程序的FPGA,最后从全局内存读取结果。戏剧性的设计,与部分并行模型相比,是CPU和FPGA之间通信开销最小。

内核程序流。在这个模型中,内核程序运行在FPGA变得比以前更复杂的模型。除了接收数据和写作结果返回给全局内存,进化框架,其中包含群更新健身计算和群体评价,是由内核。同样,细粒度模型也适用于使多个线程并行执行内核函数。然而,关心应采取在评估群因为所有线程共享一个全局最优解。确保算法的准确性,我们定义内存线程对内存一致性栅栏(54,55]。如图5执行,过程中红色虚线为同步器,不仅所有线程之前达到同步状态这一过程,但是也可以使用一个更好的解决方案获得的任何线程来代替全局最优的解决方案是一个原子操作。通过这种方式,所有线程可以执行,因此保证了评估结果。

4.3.2。主机和内核之间的数据流分析

在这个模型中,主机和内核之间的数据流包括全局内存和芯片级内存(本地内存),呈现在图6。同前面的模型,通过全局内存位置和系数是传播。将最终结果从内核到主机,它还需要全局内存来存储这个变量。因此,创建一个内存缓冲区,主程序开始时,要求全球全球最佳状态的内存空间。使用FPGA的片上存储器是一个明显的变化之间的数据流模型和先验模型见图4。这是因为大多数业务WOA由FPGA执行,这是一个合理的策略利用片上内存由本地内存和私有内存。此外,这种记忆可以直接和有效地请求过程中执行内核。因此,中间结果,如最适条件和所有个人的健身,存储到本地内存中。此外,一个更高效的同步评估过程也受益于本地内存中的数据集。

5。数值实验和分析

5.1。实验装置

实验平台包含两个主要的硬件设备:CPU和FPGA。CPU平台,英特尔酷睿i5 - 8250 CPU和16 GB的RAM,而FPGA平台,英特尔FPGA气旋VGT与使用1 GB DDR3 SDRAM和64 MB。整个开发环境是基于Ubuntu 14.04 LTS和英特尔FPGA OpenCL 17.1版本的SDK。

摘要十一般基准函数(56),表中列出1串行WOA之间,用于制造性能比较(CPU实现)和两个平行模型基于PWOA (FPGA实现)。在这些基准测试函数, 单峰函数而多峰函数。


函数。	表达式	范围

			0
			0
			0
			0
			0

			0
			0
			0
			0

关于规范中的其他参数WOA算法,系数spiral-updating模型是整个评价过程中保持不变并设置为1.0。维度包括为优化测试设置,WOA的人口规模是动态尺寸大小的两倍。验证的性能提出PWOAs,其他两种典型算法,算法(57)和竞争群优化器(方案)58),进行比较选择。此外,与特定的维度设置,每个实现30独立运行和平均性能被认为是执行。为每个独立运行的最大数量(FEs)将健康评估 ,在哪里是搜索维度的测试函数。

5.2。在基准函数优化结果和运行时间

通过使用三个woa与不同的方案和两种最先进的算法来优化10基准函数,可获得实验数据表中列出2- - - - - -5,在那里和将优化结果的平均值和运行时间30分。


函数。	PWOA-PPM		PWOA-AFPM		WOA		方案		算法
函数。	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)

	2.32 e−105年	0.1625	2.73 e−104	0.1009	1.98 e−103	0.2905	9.28 e−07	0.1715	7.52 e−07	0.2689
	3.71 e−62年	0.1621	2.69 e−61	0.0868	6.50 e−61	0.3027	5.57 e−04	0.1746	8.98 e + 01	0.2741
	6.36 e + 02	0.1612	3.47 e+02	0.1028	2.67 e + 03	0.2859	8.75 e + 03	0.1711	1.76 e + 04	0.2513
	9.16 e−16	0.1589	1.04 e−16	0.9639	6.91 e−17	0.2903	1.50 e + 01	0.1598	3.42 e + 01	0.2842
	2.73 e−1	0.1747	2.53 e−1	0.1054	1.72 e−01	0.2918	1.70 e + 02	0.1803	3.22 e + 02	0.2892
	−2.65 e+04	0.2068	−2.63 e + 04	0.1223	−4.14 e + 03	0.6707	−2.19 e + 04	0.2945	−1.78 e + 04	0.4320
	0	0.2123	0	0.1139	0	0.5681	6.57 e + 01	0.2711	1.84 e + 02	0.3750
	2.04 e−15	0.1978	2.40 e−15	0.1098	3.41 e−15	0.5659	1.60 e−04	0.2610	3.23 e + 00	0.3799
	0	0.2016	0	0.1076	0	0.6759	2.30 e−03	0.2927	2.11 e−02	0.4254
	4.39 e−10	0.1685	3.93 e−10	0.0945	1.35 e−10	0.8494	6.37 e−02	0.3409	5.52 e + 00	0.6659


函数。	PWOA-PPM		PWOA-AFPM		WOA		方案		算法
函数。	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)

	8.37 e−111年	0.2614	2.52 e−110	0.2781	1.21 e−110	1.1735	4.79 e−07	0.6871	1.08 e−1	1.0877
	3.26 e−64年	0.2588	4.51 e−63	0.2761	1.71 e−62	1.1620	4.80 e−04	0.6495	4.05 e + 02	1.1288
	2.40 e + 03	0.2584	1.68 e+03	0.2817	2.45 e−03	1.1284	4.30 e + 04	0.6805	9.83 e + 04	1.3444
	1.46 e−18	0.2540	2.67 e−17	0.2693	1.70 e−17	1.1045	3.79 e + 01	0.6723	5.37 e + 01	1.1271
	4.36 e−1	0.2760	9.40 e−1	0.2584	7.56 e−02	1.1548	4.51 e + 02	0.7085	7.63 e + 02	1.1259
	−5.33 e + 04	0.3525	−5.35 e+04	0.3318	−6.37 e + 03	2.6482	−4.02 e + 04	1.1221	V3.23E + 04	1.9468
	0	0.3321	0	0.2641	0	2.21	1.26 e + 02	1.0309	4.43 e + 02	1.7101
	4.58 e−15	0.3020	2.22 e15汽油	0.2798	2.81 e−15	2.2070	8.17 e−04	1.0271	7.93 e + 00	1.6865
	0	0.3193	0	0.2733	0	2.6825	1.11 e−02	1.0924	2.85 e−1	1.8733
	3.37 e−10	0.2695	2.69 e−11	0.3795	2.01 e−11	3.3434	4.35 e−1	1.3632	2.31 e + 01	2.5813


函数。	PWOA-PPM		PWOA-AFPM		WOA		方案		算法
函数。	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)

	3.47 e−118年	0.6760	5.40 e−118	1.7067	4.72 e−118	4.4267	2.01 e−06	2.6118	7.82 e + 02	4.3250
	3.54 e−65年	0.7065	7.52 e−65	1.6059	5.59 e−65	4.5381	8.65 e−04	2.7718	8.64 e + 02	4.5422
	8.89 e+02	0.6839	3.15 e + 03	1.6452	2.87 e + 03	4.4668	1.62 e + 05	2.8792	4.13 e + 05	4.5937
	7.75 e−21	0.6947	2.20 e−21	1.7199	1.04 e−20	4.3673	3.46 e + 01	2.6202	6.84 e + 01	4.5842
	3.81 e + 00	0.7995	2.40 e−1	1.6395	8.51 e−02	4.5709	7.68 e + 02	2.6535	2.0 e + 05	4.9438
	−1.05 e + 05	1.0876	−1.07 e+05年	1.5272	−9.01 e + 03	10.5611	−7.45 e + 04	4.6981	−5.63 e + 04	7.1954
	0	1.1013	0	1.6448	0	8.7863	1.93 e + 02	4.1165	9.30 e + 02	6.0118
	1.06 e−15	0.9937	2.98 e−15	1.6502	3.06 e−15	8.7506	8.34 e−04	4.0297	1.36 e + 01	6.0041
	0	1.0277	0	1.6496	0	10.6604	1.31 e−03	4.3609	1.14 e + 01	8.1001
	2.34 e−11	0.8478	3.04 e−12	1.6143	6.36 e−12	13.3073	5.20 e−1	5.2544	8.13 e + 01	9.5807


函数。	PWOA-PPM		PWOA-AFPM		WOA		方案		算法
函数。	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)	的意思是	时间(年代)

	6.50 e−123年	2.5753	9.92 e−123	4.5841	1.38 e−122	17.6789	1.14 e−04	10.2368	8.32 e + 04	18.1490
	1.91 e−68年	2.5890	4.37 e−68	4.8587	9.88 e−68	18.0246	1.34 e−1	10.8658	1.74 e + 03	19.0045
	1.73 e + 04	2.4585	5.70 e + 03	4.6452	2.65 e+03	17.8125	1.38 e + 08年	10.4507	1.54 e + 06	18.5338
	8.08 e−23	2.5920	1.08 e−22	4.8721	4.79 e−22	17.4709	3.86 e + 01	10.0652	9.81 e + 01	18.7573
	1.31 e+00	2.8612	5.06 e + 00	3.8336	7.35 e + 00	18.2380	1.11 e + 03	10.8096	1.00 e + 08年	18.8939
	−2.14 e + 05	3.1862	−2.17 e+05年	5.9001	−1.43 e + 04	42.3103	−1.17 e + 05	19.2030	−9.31 e + 04	30.1889
	0	3.0358	0	3.9192	0	35.2929	2.79 e + 03	17.0799	2.81 e + 03	29.1872
	6.13 e−16	2.9920	3.29 e−15	5.6349	2.70 e−15	34.9978	4.36 e−03	15.6751	1.72 e + 01	28.9203
	0	3.0299	0	4.3163	0	42.7160	5.22 e−04	18.2628	7.59 e + 02	29.9871
	3.53 e−12	2.9357	1.09 e−12	7.4716	5.49 e−12	51.1879	3.34 e−1	21.4533	9.64 e + 06	34.8555

基于以上表中给出的数值,它可以注意到,WOA和PWOAs由两个平行模型(PWOA-PPM和PWOA-AFPM)目前解决问题的效力高于方案和算法优化所有基准测试函数和几个维度。至于意味着结果的所有10个测试用例,WOA和拟议中的PWOAs获得更准确的值,与其他两种算法。当优化 , , , ,和 ,WOA PWOAs保持微小差距的结果与最优值(0)。该算法,特别是可以收敛到一个理论上的最优值( )为和在任何规模。方案可以得到更可靠的解决方案 , , ,和 ,然而,仍低于该算法精度。相对而言,算法不收敛于一个精确值对于大多数基准测试。WOA与PWOAs之间的比较表明,提出的基于FPGA并行框架WOA异构平台维护固有优秀的全局收敛性。最重要的是,两个维度的增加和人口规模,提出算法的性能改善对于大多数基准测试函数除外 , ,和 ,这表明维度设置在一定程度上影响优化性能。一般来说,WOA的基准测试结果,PWOAs,全封闭,PSO证明的有效性两个平行WOA提出了这项工作。

关于运行时间,两个角度的函数类型和规模设置。从功能的角度类型,因为多峰函数( )算法的复杂性通常高于单峰函数( )(27,40),有一个明显的时间差距存在单峰和多峰函数优化算法在表中。对于经典算法,WOA和算法运行时间相对较近,特别是对于单峰函数。这是因为这两个算法本质上也有类似的结构和复杂性。方案,相反,保持更快的性能比WOA和PSO算法结构简单和低的社会发挥重要作用。PWOA-PPM和PWOA-AFPM而言,不同尺度的问题几乎没有对这两个算法的执行时间的影响。关于问题规模,这三种算法的运行时间是影响指标维度和人口规模没有例外。规范WOA是敏感的问题规模,不同规模的设置会导致在运行时间有很大的差距。PWOA-PPM,函数的执行时间的差异和是最小的,但显示了规模快速增长的趋势和。相反,PWOA-PPM相对稳定的性能。随着规模的增加,它演示了一个缓慢增长的PWOA-PPM运行时间。

简而言之,该PWOA-PPM PWOA-AFPM执行比WOA更稳定,这受益于FPGA的硬件加速性能由于内置专用算术单元和模块化设计的管道。

5.3。加速效果分析

在本节中,加速计算基于运行时间不同的尺度问题,给出如下: 在哪里和表示串行WOA的运行时间和FPGA实现并行WOA,分别。

加速由PWOAs解决各种基准函数图所示7和分析如下。注意,PWOAs执行有一定程度的改善和加速PWOA-PPM和PWOA-AFPM在多峰函数优于在单峰函数尺度与所有问题。从图7(一)、单峰和多峰函数,搜索空间的维数越大,加速WOA-PPM获得比例越高。此外,WOA-PPM能明显加速,当解决最复杂的 ,和周围的最大加速达到18 x 。至于WOA-AFPM,它被发现在图7(b), WOA-AFPM展品不稳定的计算性能,在所有功能的加速减少的虽然表现相对更好的加速的情况下和。此外,为优化WOA-AFPM获得的加速比 ,WOA-PPM相反,显示了一个轻微的下降趋势,随着问题规模的增加。产生的最大加速PWOA-AFPM可达10 x(解决与 )。

(一)

(b)

四条图,图中所示8,来直观地进行比较用于加速PWOA-PPM和PWOA-AFPM之间具有不同尺度的问题。在小范围内包括和 ,的加速PWOA-PPM不如PWOA-AFPM,特别是当解决的所有功能和在的情况下。但是请注意,PWOA-PPM稳步上升的运行效率随着规模的增加。在的情况下 ,所有单峰函数和WOA-PPM的加速比WOA-AFPM是大两倍或更多。这个值的差距加速WOA-PPM WOA-AFPM进一步从两次增加到2.5倍时解决在的情况下。在几句话,WOA-PPM解决中型的和大型的问题有更多的优势,而WOA-AFPM在小规模的问题更好的计算性能。

(一)

(b)

(c)

(d)

从上面可以看出实验分析,与两个模型PWOAs不符影响加速度,这主要是由于不同的框架指导PWOA-PPM和PWOA-AFPM FPGA的实现异构平台。PWOA-PPM,利用部分并行模型和一定数量的额外的开销,CPU和FPGA之间频繁的交流成为一个瓶颈导致性能下降的小规模。不像PWOA-PPM PWOA-AFPM转移最WOA FPGA一边工作执行。此外,同步操作使用内存栅栏需要更多的硬件实现和内核性能可能会降低在FPGA身边55]。反过来,这使得PWOA-AFPM更加低效的增量基准问题的复杂性和规模。

6。结论

展示优秀的全局优化,WOA引起显著的研究兴趣在过去的几年里。不可避免的现实是,性能下降需要地方WOA当面对大规模复杂优化问题。存在许多建议来解决这个问题,其中大部分,然而,基于经典算法如遗传算法和粒子群优化,而很少有文献研究并行WOA可以找到。基于FPGA的加速器,本研究提出两个精心设计的并行模型来实现并行PWOA使用OpenCL框架与英特尔异构平台上演示。最后,两个并行模型的表现基于PWOA (PWOA-PPM和PWOA-AFPM)已使用10基准函数评估。

对于未来的工作,它是必不可少的将该算法应用于实际工程问题来验证实际的好处。除此之外,更多的不同类型的设备,如GPU和DSP需要调查,建立一个正如异构平台。这个平台将是一个有效的合作运行环境中高昂计算任务可以分解成几个部分,然后分配给不同的设备。因此,该并行方案具有潜在的实际应用。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究工作得到了国家重点研发项目批准号2018 yfb1700500,国家科学基金会中国批准号。52077213,62003332,61702493,广东省自然科学基金(没有。2018 a030310671),优秀青年创新基金深圳先进技术研究院研究员,中国科学院(没有。201822)。

引用

r波里,j·肯尼迪,t·布莱克威尔”粒子群优化”,群体智慧,1卷,不。1,33-57,2007页。视图:出版商的网站|谷歌学术搜索
m .民宿、m . Birattari和t . Stutzle“蚁群优化”IEEE计算机情报杂志,1卷,不。4,28-39,2006页。视图:出版商的网站|谷歌学术搜索
美国高,y, y, j . Wang j . Cheng和m .周“混沌局部搜索微分进化算法优化,“IEEE系统,人,和控制论:系统,卷99,p . 2020。视图:出版商的网站|谷歌学术搜索
j .太阳,美国高,h·戴j . Cheng m .周和j·王,“Bi-objective精英微分进化算法对多值逻辑网络,”IEEE控制论,50卷,不。1,第246 - 233页,2020。视图:出版商的网站|谷歌学术搜索
y, y,美国高,h .锅和g .杨”层次引力搜索算法有效引力常数,”群与进化计算,46卷,第139 - 118页,2019年。视图:出版商的网站|谷歌学术搜索
美国高,m .周y . Wang h . Yachi j . Cheng和j·王,“神经元树突与有效的学习算法分类模型,近似,并预测,“IEEE神经网络和学习系统,30卷,不。2、601 - 614年,2019页。视图:出版商的网站|谷歌学术搜索
k . m . r . Cheng Li Li和x姚明,“进化多目标文中针对多通道优化:健身景观近似和峰值检测,”IEEE进化计算,22卷,不。5,692 - 706年,2018页。视图:出版商的网站|谷歌学术搜索
k . s . h . Cheng黄r . Cheng c . Tan和y金,“进化多目标优化驱动生成对抗网络(甘斯),“IEEE控制论,2020年。视图:出版商的网站|谷歌学术搜索
y, y, s .曹张x,和美国高,“回顾人工智能算法的应用在风力发电场,”人工智能审查,53卷,不。5,3447 - 3500年,2020页。视图:出版商的网站|谷歌学术搜索
Mirjalili和a .刘易斯“鲸鱼优化算法”,工程软件的进步卷。95年,51 - 67,2016页。视图:出版商的网站|谷歌学术搜索
m·阿卜杜拉·巴塞g . Manogaran d El-Shahat, s . Mirjalili“鲸鱼混合优化算法基于局部搜索策略的置换流水车间调度问题,“未来一代计算机系统卷,85年,第145 - 129页,2018年。视图:出版商的网站|谷歌学术搜索
m . m . Mafarja和s . Mirjalili“混合鲸鱼与模拟退火优化算法对特征选择,”Neurocomputing卷,260年,第312 - 302页,2017年。视图:出版商的网站|谷歌学术搜索
Aljarah, h·法里斯,s . Mirjalili”使用鲸鱼优化优化神经网络的连接权重算法,”软计算,22卷,不。1、1 - 15,2018页。视图:出版商的网站|谷歌学术搜索
p . j . Wang Du, t .妞妞和w·杨,“一种新型混合动力系统基于一种新的提议algorithm-multi-objective鲸鱼对风速预测优化算法,”应用能源卷,208年,第360 - 344页,2017年。视图:出版商的网站|谷歌学术搜索
m·a·e·阿齐兹,a . a .母羊和a . e . Hassanien“鲸鱼多目标优化算法对基于内容的图像检索,“多媒体工具和应用程序,卷77,不。19日,26135 - 26172年,2018页。视图:出版商的网站|谷歌学术搜索
A, A·穆萨维,d . Zouache”引导人口档案鲸鱼优化算法求解多目标优化问题,“专家系统与应用程序,第141卷,第112972页,2020年。视图:出版商的网站|谷歌学术搜索
m·a·e·阿齐兹,a . a .母羊和a . e . Hassanien“鲸鱼优化算法和moth-flame优化多级阈值图像分割,“专家系统与应用程序卷,83年,第256 - 242页,2017年。视图:出版商的网站|谷歌学术搜索
a . e . Hassanien m . Abd Elfattah s Aboulenin g . Schaefer郑胜耀朱,i Korovin,“使用鲸鱼优化binarisation历史手稿,”学报2016年IEEE国际会议系统,人,控制论(SMC)IEEE,页003842 - 003846年,布达佩斯,匈牙利,在2016年10月。视图:谷歌学术搜索
a . Mostafa a . e . Hassanien m . Houseni和h . Hefny“肝脏分割在MRI图像鲸鱼优化算法的基础上,“多媒体工具和应用程序,卷76,不。23日,第24954 - 24931页,2017年。视图:出版商的网站|谷歌学术搜索
s . Harikarthik诉Palanisamy p·拉马纳坦,“最优回归测试中的测试套件选择testcase优先级使用修改安和鲸鱼优化算法,”集群计算,22卷,不。5,11425 - 11434年,2019页。视图:出版商的网站|谷歌学术搜索
美国统治和b Bhattacharyya TCSC的最佳位置和使用鲸鱼SVC无功规划优化算法,”群与进化计算40卷,第143 - 131页,2018年。视图:出版商的网站|谷歌学术搜索
h . m . Hasanien“光伏发电系统的性能改进使用一个基于鲸鱼优化算法,最优控制策略”电力系统研究卷,157年,第176 - 168页,2018年。视图:出版商的网站|谷歌学术搜索
美国Rahnamayan g·g·王,“解决大规模优化问题,反对微分进化(ode),“圆柱事务在电脑上,7卷,不。10日,1792 - 1804年,2008页。视图:谷歌学术搜索
a . Jain m . Mishra s . k . Peddoju n . Jain,“节能computing-green云计算”学报2013年国际会议上节能技术的可持续性IEEE,页978 - 982年,Nagercoil, 2013年4月。视图:谷歌学术搜索
s . p . Liu李问:叮,“一个基于混合CPU-FPGA节能加速器设备密码恢复,”IEEE计算机,卷68,不。2、170 - 181年,2018页。视图:谷歌学术搜索
y周和y Tan“基于gpu的并行粒子群优化”学报2009年IEEE国会进化计算(CEC)IEEE,页1493 - 1500年,特隆赫姆挪威,2009年5月。视图:谷歌学术搜索
m·金和h,“平行与遗传粒子群优化传播策略及其实现GPU,”学报2012年IEEE 2云计算国际会议和情报系统IEEE,页99 - 104年,杭州,中国,2012年10月。视图:谷歌学术搜索
d Narjess和b . Sadok”,一个新的混合GPU-PSO方法求解max-csps,”遗传和进化计算学报2016年会议的同伴丹佛市,页119 - 120,美国2016年7月。视图:谷歌学术搜索
m·p·Wachowiak m . c . Timson d·j·杜瓦,“自适应粒子群优化异构多核并行性和GPU加速,”IEEE并行和分布式系统,28卷,不。10日,2784 - 2793年,2017页。视图:出版商的网站|谷歌学术搜索
j·库马尔·l·辛格(manmohan Singh)和美国保罗,“基于GPU的并行协同粒子群优化使用C-CUDA:一个案例研究”学报2013年IEEE国际会议在模糊系统(FUZZ-IEEE)IEEE,页1 - 8,海德拉巴,2013年7月。视图:谷歌学术搜索
j . Hajewski和s·奥利维拉,”两个简单技巧支持缓存的快速并行粒子群优化”学报2019年IEEE国会进化计算(CEC)IEEE,页1374 - 1381年,惠灵顿,新西兰,2019年3月。视图:谷歌学术搜索
b . a .塞斯·h·方蛋糕,h·a·a·否决权和f•b•德利马否决权”并行化策略基于gpu的蚁群优化解决旅行商问题,”学报2019年IEEE国会进化计算(CEC)IEEE,页3094 - 3101年,惠灵顿,新西兰,2019年3月。视图:谷歌学术搜索
y Djenouri, d . Djenouri a . Belhadi p . Fournier-Viger j . Chun-Wei林和a . Bendjoudi”利用GPU的并行性改善蜜蜂群优化矿业大事务数据库,”信息科学卷,496年,第342 - 326页,2019年。视图:出版商的网站|谷歌学术搜索
c·金和A . k .秦“头脑风暴的基于gpu实现优化”学报2017年IEEE国会进化计算(CEC)IEEE,页2698 - 2705年,2017年6月,西班牙圣塞巴斯蒂安。视图:谷歌学术搜索
g·l·马·t·张,r . Wang,和y张“Pbar:关联规则挖掘并行优化头脑风暴,”学报2019年IEEE国会进化计算(CEC)IEEE,页1148 - 1156年,惠灵顿,新西兰,2019年3月。视图:谷歌学术搜索
b, b . Chen h·刘,张x”的快速并行遗传算法基于CUDA图着色问题,”学报2015年国际会议上Cyber-Enabled分布式计算和知识发现IEEE,页145 - 148年,西安,中国,2015年9月。视图:谷歌学术搜索
马y和l . s . Indrusiak“硬件加速并行遗传算法对变量执行时间,健身功能”《遗传与进化计算2016年会议丹佛市,页829 - 836,美国2016年7月。视图:谷歌学术搜索
h . Rico-Garcia J.-L。Sanchez-Romero, a . Jimeno-Morenilla h . Migallon-Gomis h . Mora-Mora r . v . Rao,“比较高性能TLBO和JAYA优化的并行实现方法的冲击GPU,”IEEE访问7卷,第133831 - 133822页,2019年。视图:出版商的网站|谷歌学术搜索
y·哈利勒·m·Alshayeji,艾哈迈德,“分布式基于mapreduce的鲸鱼优化算法,并发性和计算:实践和经验没有,卷。31日。1,p . e4872 2019。视图:出版商的网站|谷歌学术搜索
y谭和k .丁”,调查群体智能算法的基于gpu实现,”IEEE控制论,46卷,不。9日,第2041 - 2028页,2016年。视图:出版商的网站|谷歌学术搜索
f . a . Escobar x Chang, c . Valderrama”HPC fpga为异构平台的适用性分析,“IEEE并行和分布式系统,27卷,不。2、600 - 612年,2015页。视图:谷歌学术搜索
h . m . Waidyasooriya y武井,s .辰和m . Hariyama”OpenCL-based FPGA-platform模板计算及其优化方法,”IEEE并行和分布式系统,28卷,不。5,1390 - 1402年,2016页。视图:谷歌学术搜索
d·韦勒f . Oboril d . Lukarski j·贝克尔和m . Tahoori”节能科学计算在fpga使用OpenCL,”学报2017 ACM / SIGDA国际研讨会现场可编程门阵列蒙特利,页247 - 256年,CF,美国,2017年2月。视图:谷歌学术搜索
k . Shata m . k . Elteir, a . a . EL-Zoghabi“OpenCL内核在fpga的优化实现,”《系统架构卷,97年,第505 - 491页,2019年。视图:出版商的网站|谷歌学术搜索
黄d, l . k . Wang w·庞y,和r·张”的总体框架加速群体智能算法在fpga, gpu和多核cpu,”IEEE访问》第六卷,第72344 - 72327页,2018年。视图:出版商的网站|谷歌学术搜索
h . m . Waidyasooriya m . Hariyama m . j . Miyama和m . Ohzeki”OpenCL-based设计FPGA加速器的量子退火模拟,”《华尔街日报》的超级计算,卷75,不。8,5019 - 5039年,2019页。视图:出版商的网站|谷歌学术搜索
杨问:江、郭y、z、x周,“鲸鱼并行优化算法及其FPGA实现,”Prceedings 2020年IEEE国会进化计算(CEC),页1 - 8,IEEE, Glassgow,英国,2020年7月。视图:谷歌学术搜索
OpenCL概述,2019,https://www.khronos.org/opencl/ < / u >。
英特尔对OpenCL FPGA SDK,2019,https://www.intel.com/content/www/us/en/software/programmable/sdk-for-opencl/overview.html < / u >。
d .陈和d·辛格(manmohan Singh)”使用OpenCL评估效率的cpu、gpu和fpga的信息过滤,”22日学报》国际会议现场可编程逻辑与应用国家贫困线以下IEEE,页5日至12日,奥斯陆,挪威,2012年8月。视图:谷歌学术搜索
j . Zhang和j·李”,提高OpenCL-based FPGA的性能对卷积神经网络加速器,”学报2017 ACM / SIGDA国际研讨会现场可编程门阵列美国MX,页25 - 34,蒙特利,2017年2月。视图:谷歌学术搜索
Aydonat, s·奥康奈尔,d . Capalija a·c·凌和g·r·赵”openclTM深学习加速器arria 10日”学报2017 ACM / SIGDA国际研讨会现场可编程门阵列55 - 64页。蒙特利,MX,美国,2017年2月。视图:谷歌学术搜索
n .须诉钱德拉,g . Dasika et al .,“Throughput-optimized OpenCL-based FPGA大规模卷积神经网络加速器,”学报2016 ACM / SIGDA国际研讨会现场可编程门阵列美国,第16 - 25页,蒙特利,CF, 2016年2月。视图:谷歌学术搜索
英特尔Fpga对Opencl Pro版Sdk:编程指南,2019,https://www.intel.cn/content/dam/www/programmable/us/en/pdfs/literature/hb/opencl-sdk/aocl_programming_guide.pdf < / u >。
英特尔Fpga对Opencl Pro版Sdk:最佳实践指南,2019,https://www.intel.cn/content/dam/www/programmable/us/en/pdfs/literature/hb/opencl-sdk/aocl-best-practices-guide.pdf < / u >。
m·贾米尔和x s .杨”,文献调查基准函数的全局优化问题,“国际期刊的数学建模和数值优化,4卷,不。2、150 - 194年,2013页。视图:出版商的网站|谷歌学术搜索
进行j·肯尼迪和r·埃伯哈特,“粒子群优化”ICNN学报》95 -神经网络国际会议IEEE,页1942 - 1948年,珀斯,英国,1995年11月。视图:谷歌学术搜索
r . Cheng和y金”,一个大规模的竞争群优化器优化,“IEEE控制论,45卷,不。2、191 - 204年,2014页。视图:谷歌学术搜索

复杂性