文摘
为了解决问题的快速路径规划和有效的避障自主水下航行器(AUV)的二维水下环境,提出了一种基于强化学习机制的路径规划算法和粒子群优化(RMPSO)。强化学习的反馈机制是嵌入到粒子群优化(PSO)算法通过使用提出RMPSO提高收敛速度和算法的自适应能力。然后,RMPSO整合速度合成方法与贝塞尔曲线的影响消除对AUV洋流和节约能源。最后,发展迅速,道路使用RMPSO,有效地避免了障碍。仿真和实验结果表明该方法与传统方法相比的优越性。
1。介绍
自主水下航行器(AUV)现在已经成为一个热点区域近年来,尤其是multi-AUV系统由于高并行性、鲁棒性和协作效率高(1- - - - - -6]。水下机器人的路径规划和避障路径规划研究领域的基本问题。因此,路径规划算法应用于计划的有效路径,避免在复杂的水下环境中自主障碍,它仍然是一个开放的AUV富有挑战性的问题7- - - - - -9]。
有许多成就在水下环境中对路径规划的研究报道。水下机器人路径规划算法可以分为局部路径规划和全局路径规划根据环境信息。局部路径规划,像滚动窗口算法10和人工势场法11,12),旨在避免的障碍很快当机器人的传感器检测到周围的障碍。全局路径规划,例如算法(13,14)、快速搜索算法(15[],迪杰斯特拉算法16),概率路线图(17),基于分布估计算法(EDA)的方法(18),是一种路径规划方法时使用地图环境而闻名。
粒子群优化(PSO)是一个著名的进化算法,通常被视为一种有效的优化方法解决路径规划问题(19]。Roberge说道(20.严),(21),和康22为避障采用PSO算法的水下机器人路径规划和轨迹优化。算法的仿真实验表明,该算法具有良好的鲁棒性和收敛速度快。然而,当地的PSO算法获得最优解。它是快的收敛速度的搜索算法在初始阶段,和后期的搜索,算法的收敛速度很慢。因此,该方法的一些改进已经出现。三次样条优化算法基于一种改进的PSO算法解决multi-AUV路径搜索问题。搜索的路径被认为是一个特定的三次样条曲线的参数优化。通过这种方式,可以显著改善算法的收敛性(23,24]。与标准PSO算法相比,新混合PSO-LPM算法(25)一个水下机器人可以找到更好的轨迹和成功地实现实时避免静态障碍和运动障碍。然而,洋流的影响并不认为这些算法。曾(26]采用量子粒子群优化(QPSO)算法对水下机器人的路径搜索。虽然在洋流AUV的导航研究,算法的收敛速度问题仍然存在。收敛速度的问题是粒子群优化算法收敛速度不考虑退出而洋流对AUV的影响进行了研究。然而,对于该RMPSO手稿,洋流的影响不仅是AUV收敛速度,而且收敛速度大幅提高,路径规划是迅速获得。
本文提出了一种改进的粒子群优化算法的基础上,强化机制(RMPSO)将强化学习机制与粒子群优化算法。惯性权重ω可以确定粒子群算法的收敛速度。的价值ω减少传统的线性时间算法不能调整的价值吗ω自适应。强化机制的引入可以调整的价值ω自适应算法收敛更快。的贡献和新算法可以概括如下。(1)为了使环境更准确的模型和减少计算,一个凸多边形的障碍是建立第一,然后障碍的面积扩展,形成一个危险的区域。的MAKLINK phase-free网络图是由使用危险的区域。(2)为了节省能源消耗AUV,洋流提出了评价函数,结合速度合成方法。根据洋流评价函数,介绍了新的适应度函数提出RMPSO实现避障和估计粒子的声明。(3)通过结合强化学习机制与算法,粒子群优化的参数可以调整自适应地根据周围的环境。仿真结果证明了该方法的有效性与传统方法相比。
剩下的纸是组织如下。部分2介绍了AUV水下路径规划问题,将算法应用于MAKLINK图的思考。部分3介绍了RMPSO算法路径规划和节能。仿真结果和实验测试中提供的部分4。最后,给出了结论和未来的工作部分5。
2。问题陈述和预赛
我们的任务是进行详细调查的可疑目标点在AUV水下环境。水下环境恶劣和复杂的障碍和洋流。路径规划和避障算法,目标的AUV接收信息后,将详细讨论。水下环境建模如图1。因为AUV的大小和目标出现很小的大海里,他们两人被视为质量点及其形状是被忽视的。在图1黑色区域表示障碍和红色五角星形表示可疑目标。有一些箭头线表示洋流。在这种环境下,海流速度通常是小于1的结,这是在该地区的AUV可以平衡直接达到目标。一个常数海流模型介绍了代表对AUV洋流的影响。
为了保证AUV完成任务并获得成功访问目标,有必要确保障碍可以避免和洋流的影响在AUV可以被消除。因此,RMPSO算法,它可以处理洋流和计划迅速安全的轨道。
2.1。水下环境的建模
自海洋环境中的障碍基本上是不规则的凹凸多边形,MAKLINK图理论对环境模型更准确地应用于模型的障碍。
2.1.1。建模的障碍
有效地避免障碍AUV的作品时,建立一个凸多边形的障碍模型通过使用格雷厄姆算法(27)根据边界信息的障碍。虚线所示图2(a)障碍是扩展的面积,这延长距离m。实线范围如图2(一)虚线和实线之间的空间叫危险区域。最后,水下机器人和障碍物之间的距离 。
2.1.2。模拟二维地图
假设有米在地图和障碍我th障碍有n顶点。障碍的数学模型可以表示如下: 米,n分别障碍和顶点的数量; 意味着我th障碍是jth顶点坐标,我= 1、2、3、…米和j= 1、2、3、…n。
可以建模为AUV的工作环境 在哪里B代表了环境边界。
一个2 d地图AUV如图2(b),有四个多边形障碍,所以米是设置为4,黄色和黑色区域代表危险区域和障碍,分别。图中的虚线2(b)代表了phase-free网络图基于MAKLINK图论。MAKLINK图算法介绍,显示为算法1。
|
2.2。考虑算法
作为一种进化算法,算法模仿鸟类的觅食行为来解决优化问题(28]。粒子不断优化自己通过跟踪两个极值在每个迭代。第一个极值是找到的最优解每个粒子本身,被称为个体极值。第二个极值是目前找到的最优解所有的粒子,称为全局极值的价值。粒子的位置将接近这两个峰值位置,即个体极值和全局极值的价值,并将搜索最优位置。
假设有一个d维搜索空间,并为每个粒子有两种属性,即当前位置和速度 , 和给出: 在哪里类似于 , ,和 ; 是dth的维度我粒子的速度。它是有限的区间 以避免粒子的爆炸。和代表个体极值和全局极值的值,分别。系数和是两个伪随机的标量值。在(上标3)表示t迭代。加速度系数和2为几乎所有的应用程序。的因素ω是惯性权重,这惯性权重的角色平衡全球搜索(大惯性权重)与当地的搜索(小惯性权重)。算法的性能大大提高了适应参数优化过程中。流程图的PSO算法应用于路径规划如图3。
3所示。主要算法
为了进一步解释如何改进PSO算法RMPSO,数学模型和公式和一些讨论。
3.1。适应度函数
粒子位置的评估是由适应度函数;然后,PSO算法优化粒子的位置根据粒子的健身价值。传统的适应度函数是: 在哪里
方程(5)给粒子的欧几里得距离生成路径,在哪里和代表了我th粒子在d维度。(1)罚函数:罚函数P(我)介绍了(7)确保AUV不是接近障碍和定义如下: 在哪里E是一个积极的常数,它的健身价值远远大于其他粒子。当障碍不遍历的路径形成的粒子,P(我)=E。否则,P(我)= 0。健身功能更新: 0.5和100可以通过调整参数的程序。方程(8)有效地阻止了颗粒产生障碍时,PSO算法迭代。(2)洋流评价功能:可以避免障碍后AUV成功,下一步,洋流评价函数结合速度合成方法(29日)的目的是估计在AUV洋流的影响。
如图4建立一个移动的坐标系统。速度矢量Vc在移动坐标系统代表了AUV海流速度的影响。VE和V一个代表向量合成和AUV的速度。之间的角度V一个/VE/VC和X设在被定义为α3,α2,α1,分别。
在哪里Vcn是洋流的垂直分量VE,范是AUV的垂直分量VE。当Vcn和V一个相反,洋流的副作用将被取消,也就是说, 。当海流速度是已知的,洋流可以用于路径规划通过调整AUV的速度和每个路段的方向。所需的速度VE和路径的角度α3AUV的可以算出:
假设AUV的速度是已知的,那么算法生成预期之间的差异的绝对值角度和每条路径的实际角度,和绝对值 。考虑到每个路径长度会影响AUV的能源消耗,角度不同,路径长度被认为是全面,和洋流每个路径段的评价函数 。每个粒子生成的路径洋流评价函数可以定义如下: 在哪里α3(id),α(id)和X预期的角度(id),实际的角,路径的长度d段生成的路径我分别th粒子。粒子的尺寸D,这表明每个粒子所产生的数量的路径点的地图。路径点的总数包括起点和终点d+ 2,路径段生成的数量d+ 1。当考虑海流,健身功能更新:
根据(11),不仅阻碍有效地避免,而且影响AUV洋流是考虑。
3.2。PSO重量更新功能
传统PSO算法具有收敛速度快的早期和后期收敛速度慢,并且不能调整ω自适应。的增加ω适当的可以提高算法的全局搜索能力,减少ω提高了局部搜索能力。因此,强化学习机制(30.,31日)是结合PSO克服PSO算法的缺点,快速计划最优路径。(1)强化学习机制:如图5,F(我)是适应值函数,可以计算每个粒子的适应度值根据环境信息,和F(我)也可以计算全局最优粒子人口的解决方案和局部最优解。然后,惯性权重ω(我)根据自适应地调整粒子的F(我)。当全球最优解、局部最优解和惯性权重ω(我),更新粒子的速度和位置根据(1)和(2)。上面提到的这些步骤是重复优化惯性权重ω(我)。适应值函数F(我)被定义为(11),ω(我)被定义为(13)。传统PSO算法的惯性权重更新公式显示为(12)。T是当前迭代的数量和惯性权重ω(我)降低线性增加T。与传统的惯性权重公式算法相比,RMPSO算法惯性权重可以调整自适应地根据周围的环境,所以RMPSO收敛速度的增加。 (2)PSO重量更新功能:基于上述强化机制,(13)引入PSO重量更新函数改进PSO算法的收敛速度和精度。以下方程定义: 0.3,0.03和0.63可以通过调整参数的程序;ω(我)代表的重量我th粒子,这体重有积极的关系F(我)(13)。有必要提高粒子的全局优化能力,当健身变得更大。与此同时,据(粒子的重量将会增加13),它可以提高全局优化的能力。当粒子适应度值变得越来越小,小ω(我),局部优化能力变得更强。
速度VidPSO算法中粒子的更新
3.3。贝塞尔曲线
贝塞尔曲线的学位n可以表示成 在哪里t表示归一化时间变量; 的坐标向量我th控制点与x我和y我在X分别和Y坐标。表示伯恩斯坦多项式的基础,代表了贝塞尔曲线基函数的表达式,给出的
从(15)和(16),可以生成每个控制点的参数方程如下: 在哪里t的范围是[0,1]。贝塞尔曲线平移和旋转不变性,这就叫做几何不变性的财产。此外,贝塞尔曲线从起点开始(t= 0)在结束和停止(t= 1)。换句话说,P0=R(0)和Pn=R(1)贝塞尔曲线有一些控制点的控制多边形,如图6。
被四等距离采样点生成的多段线RMPSO算法,这四个点是P0, P1, P2, P3。一系列密集的点P(t从(获得)17),然后获得光滑曲线连接这些点。
3.4。该算法的整个过程
改进的PSO算法的流算法所示2。整个路径规划算法是一个循环过程,重复,直到一个水下机器人接近目标。AUV移动到相应的位置,和洋流和障碍是同时考虑。执行的过程是通过迭代计算路径的最优解成本。
在图7,整个路径规划过程包括水下环境的模型,路径规划和路径优化。为了表达整体的海洋环境信息,格雷厄姆算法构造多边形的障碍模型,和一个2 d地图构建基于MAKLINK图论。
首先,建立了二维地图MAKLINK理论和格雷厄姆算法。这时,一个次优路径计划基于Dijkstra算法。当RMPSO用于通过迭代,不断优化的次优路径的障碍将会有效地避免基于MAKLINK phase-free网络图。最后,为了进一步优化路径,使用贝塞尔曲线光滑优化路径。
4所示。实验结果和分析
RMPSO算法的有效性证明,和模拟进行不同的海洋环境。同时,路径长度的蚁群算法(ACO)算法,Dijkstra算法,RMPSO在同一个地图进行比较。ACO算法收敛率,PSO, RMPSO也相比。的价值设置为1.875,这是AUV的长度的三倍。迭代的数量和种群大小设置为150年和80年;尺寸和最大粒子速度设置为8和3;C1和C2的学习因素是设置为2,2,分别。
4.1。模拟有效性
图8说明了环境模型和初始路径规划路线。水下工作空间设计为200×200。AUV的起始位置(180),和目标位置(160、90),这是由“开始”和“目标”。黄色区域和黑色区域是危险区域和障碍,分别。最初的路径形成使用迪杰斯特拉算法和绿色如图所示8。经过的路由节点的年代,P1, P2, P3, P4, P5, P12, P12,侯,T,分别。可以清楚地看到,沿虚线绿色路径不是最优路径,它的长度是252.26米。
在图8迪杰斯特拉算法决定了节点,它还决定了实线节点的位置,所以每一段路径可以移动的实线和线不相交路径障碍时移动。的位置P1, P2, P3, P4, P5, P12, P13,侯,不断调整来确定每段的最短路径,最后得到最优路径。
以下4.4.1。导致固定的环境
迪杰斯特拉算法的基础上,最后RMPSO路径优化采用执行算法。红色路线在图9(一个)是最终的路径优化路径的结果。AUV接近危险区域的边缘,以避免障碍,和路径长度只有176.2米,比初始路径规划的长度短。数据9 (b)和9 (c)显示的收敛趋势RMPSO算法已经收敛到最优值的35迭代算法。
(一)
(b)
(c)
4.1.2。导致洋流的环境
严重影响洋流的复杂的水下环境中可能导致AUV任务失败。假设AUV的速度是1.5米/秒,当前的速度是0.3米/秒,和方向是-75°。在图10(一个),红色实线的优化路径RMPSO算法洋流的影响下。当洋流的影响被认为是全面,路径点的位置变化的每个部分路径,形成曲折的路径。
为了节省AUV能源、贝塞尔曲线平滑路径是用来减少转折点。显示为固体蓝线路径图10(b),平滑路径没有明显的转折点。
4.2。比较研究
为了更清晰地比较ACO算法之间的差异(32[],迪杰斯特拉算法33)、PSO算法和RMPSO算法在收敛速度和总路径长度,洋流的影响没有考虑上述算法基于环境。
4.2.1。准备ACO算法的结果
路4号图11显示了蚁群算法的优化结果,可以看到,它的路径不是最短路径和总路径长度是188.86米。
4.2.2。PSO算法的结果
路径1号在图11显示了粒子群算法的优化结果,可以看到,几乎是相同的路径RMPSO算法的总路径长度179.38米。
4.2.3。比较和分析
图12显示的比较三种优化算法的收敛速度,即蚁群算法PSO算法,和RMPSO算法。可以看出,红色曲线代表RMPSO算法收敛速度远远超过其他两个相同数量的优化算法收敛。表1显示了特定的值收敛的三个优化算法。由于蚁群算法依赖于信息素浓度寻找路径,存在很多不稳定,所以它开始收敛只有在第56迭代。惯性权重的粒子群优化算法的线性迭代的数量减少,不能考虑当前粒子的条件,所以它开始只在45迭代收敛。RMPSO可以调整惯性权重根据周围的环境,和22日迭代算法开始收敛,这是更好的比其他两种算法。
与RMPSO相同数量的迭代算法收敛于最优值在22迭代,而蚁群和粒子群算法收敛于最优值只有在45和第56迭代,分别。
表2显示的总路径长度的比较四种优化算法。迪杰斯特拉算法有最长的路径是252.26米,而最后的路径长度RMPSO算法收敛于只有176.20。显然,RMPSO算法比标准粒子群算法不仅较短路径长度,但也远远高于其他两种优化算法的收敛速度。
4.2.4。比较基于栅格地图
栅格地图的优点能够轻易简单模型和验证新算法。因此,我们应用RMPSO栅格地图和比较它与PSO和∗算法。
图13显示了路径规划三个算法,与黑色方块障碍,PSO算法1号线,RMPSO 2号线的算法,和一个3号线的算法。通过表3,我们可以得知RMPSO规划的路径长度是优于PSO和算法,RMPSO已经3.75多 。因为一个算法基于适应值的大小中每个光栅的光栅图,有许多角落计划路径由于每个光栅的计算,所以的路径长度算法比PSO和RMPSO。
4.3。真正的实验和结果
进一步测试的性能提出RMPSO算法在实际环境中,建立了水下试验平台,如图所示14。水下试验平台主要由水下航行器(34]。水下航行器的尺寸如图14,长度0.625米,宽度为0.457米,高度为0.326米;8推进器用于驱动实现自由转弯。水下车辆的最大功率为1500 W,重达20公斤,并且可以配备摄像头,DVL和其他传感器。实验进行一个湖泊面积约3000平方米。
水下航行器平台由一个控制主机CPU模型i5, 8 g内存,120 g SSD与Windows操作系统。还配备了15个“高亮度LED屏幕,可以显示实时水下图像,态度,水下航行器深度、温度、和其他信息。地面控制平台控制车辆操作通过电缆。湖面上的实验来验证该算法便于观察实验。的实时位置水下航行器是通过控制平台和空中摄影、水下航行器的轨迹是策划。
如图15、凸多边形的障碍端点是由浮球,然后MKALINK 2 d环境模型是在电脑上完成。蓝色和绿色五角大楼和终端的入手点,分别。黑色的多边形是障碍,黄色区域是危险地带。
车辆速度设置为1.5 m / s的实验。在数据16,图(16日)显示的轨迹优化algorithm-controlled机器人操作。黄色的线是蚁群算法的路径规划,蓝线是RMPSO的路径规划算法。可以看出,尽管蚁群算法有效地避免了障碍,路径长度长于RMPSO的算法。图16 (b)显示RMPSO算法考虑的规划路径的洋流的影响,和红色曲线是贝塞尔曲线优化后的路径图。在实验过程中,控制委员会可以很大程度上减少频繁控制机器人的通过这条道路,也有效地避免障碍。稳定性可以大大提高水下航行器的使用提出RMPSO获得最短和平滑轨迹,导致节能高效。
(一)
(b)
5。结论和未来的工作
我们提出一种改进的基于强化机制的粒子群算法结合海流模型解决了水下机器人的路径规划问题和能源消耗问题。仿真结果表明,该RMPSO路径规划算法可以有效地避免障碍MAKLINK无向网络图。与RMPSO通过比较各种算法,该算法的收敛速度是发现的速度快得多,但有一些稳定的缺点。在未来的研究中,RMPSO算法将实际应用领域的水下搜索、救援,调查。统计分析将被用来证明RMPSO的优越性,提高算法的稳定性,用它来解决水下三维路径规划问题(35]。
数据可用性
研究数据用于支持本研究的结果中包括这篇文章。使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的基础研究基金为中央大学(B200202163),中国国家自然科学基金(61703098)、江苏省自然科学基金(BK20160699),和海岸和岛屿的福建省重点实验室管理技术研究(FJCIMTS2019-03)。