针对法律效率低的问题并行前缀和执行期间执行的微分进化粒子滤波算法,基于CUDA展开循环前缀的滤波算法和提出删除线程分化和线程并行前缀中存在的懒惰和通过展开循环方法和展开线程绑定的方法,优化周期,提高前缀和执行效率。通过引入并行策略,微分进化粒子滤波算法实现并行和GPU上执行期间使用改进的前缀和计算算法更新。通过大数据分析,结果表明,该并行差分演化粒子滤波算法与改进的前缀和法律可以有效地改善非线性系统微分进化粒子过滤状态和异构并行处理系统的实时性能。
一个bstract>粒子滤波是一种序贯蒙特卡罗方法,它采用粒子近似后验概率密度分布。在[
gydF4y2Ba解决线程分化的问题的执行微分进化粒子过滤并行算法,基于CUDA架构,提出了一种微分进化粒子滤波算法基础上展开循环前缀和优化删除线程分化和减少滞后引起的判断和分支预测,使粒子滤波算法逐步提高计算性能。
差分进化算法(DE)是一种随机并行直接搜索算法,其基本思想是将从一个随机生成的初始种群,迭代不断根据特定的操作规则,根据每个人的健身价值,保持良好的个人和消除劣质的,和指导搜索过程接近最优解。该算法具有结构简单、容易实现,不需要梯度信息,更少的参数,等等,和各种不同的搜索策略。
gydF4y2Ba摘要DE-PF算法的计算过程如下。
<状态ment id="step1">初始化步骤,执行抽样时间<我nline-formula>
预测步骤,设置<我nline-formula>
权重计算和归一化,在收到的测量步骤
正常化过程使粒子权重之和等于1,和正常化过程表示为
对于微分进化的重采样,我们有以下:
安排降序排列的粒子。
状态ment>计算每个粒子的次数复制,除了自己。
状态ment>步中计算权重的加权和
消除小颗粒。
状态ment>为国家输出步骤,优化的粒子作为样本集的权重相等<我nline-formula>
并行算法需要计算粒子的累积分布函数(CDF)当执行计算,这是一个简单的连续前缀和操作描述如下:
为了验证的基本性能与改进的前缀和并行算法,算法的性能模拟使用典型的一维非线性系统模型并与并行前缀和基于循环展开,基于线程并行前缀和演变周期,基于全面展开和并行前缀和滤波算法。实验平台包括Win10 64位系统,Visual Studio 2013编程软件,和CUDA9.2-based编程框架,GPU GTX1080Ti, CPU是i5 - 4460。详细参数表中列出
实验平台的详细参数。
一维非线性系统模型如下:
系统噪声的模型<我nline-formula>
该算法模拟<我nline-formula>
五个改进算法的状态估计结果。
状态估计算法的性能基本上是相同的。从图可以看出
数据
粒子数曲线的五个改进算法。
时间曲线计算了五个算法。
在重采样提高递归循环后,粒子降低了自适应,并行滤波算法的计算时间毕竟五展开循环相对减少,比IIPRPDE-PF小。在重采样后展开递归循环,整个算法的复杂性增加,和递归抽样所需的时间来更新实时计算的粒子数是不足以抵消粒子的减少所节省的时间当粒子的数量很小,和这种情况消失时平行微分进化粒子滤波的计算时间为所有展开循环小于相应的并行微分进化粒子滤波,也表明PRPDE-PF抽样展开循环改善了计算时间更重要。滤波器计算时间见表
比较滤波器计算时间<我nline-formula>
也,而这三个智能优化的并行粒子滤波算法在本文的王et al。
5个并行算法的计算时间。
比较五个平行运行的微分进化粒子滤波算法2 u-prpde-pf 4 u-prpde-pf 8 u-prpde-pf WU-PRPDE-PF, CU-PRPDE-PF基于CUDA循环展开和改进的前缀和postimprovement GPU的情况相同。表
六算法的运行计划。单位:女士。
相对于IIPRPDE-PF加速率的5个算法。
计划的三个算法运行。
加速度的比值相对于IIPRPDE-PF五过滤算法循环展开。
实验模拟执行与上面的五个改进算法基于GPU的条件不同。整个实验平台包括Win10体系、Visual Studio 2013编程软件,并与i5 - 4460 CPU CUDA9.2-based编程框架,列入表中
参数不同的gpu。
的性能实验5本文改进的算法都是基于相同的CPU和GPU条件不同。根据分析数据
2 u-prpde-pf算法在不同的gpu。
4 u-prpde-pf算法在不同的gpu。
8 u-prpde-pf算法在不同的gpu。
在不同的gpu TU-PRPDE-PF算法。
在不同的gpu CU-PRPDE-PF算法。
在本文中,我们提出一个CUDA展开循环状态估计方法,微分进化粒子滤波解决效率低下的问题,并行微分进化粒子滤波与并行执行线程的执行效率和改善前缀和展开的前缀和方法展开循环和一个线程包。该方法使用分段展开后循环前缀和改进的重采样和最新的观测时刻更新的建议分布实时优化的粒子滤波,自适应地调整粒子数的采样粒子滤波少数使用微分进化的重采样。此外,对粒子滤波算法的执行,前缀和执行线程执行效率低下的问题,和GPU没有分支预测能力,在每一个分支它执行,因此该算法消除了线程包分化和线程并行存在的懒惰展开循环前缀,展开线程绑定的方法,消除滞后造成的故障的判断和分支预测,进一步提高整体计算性能。目前的CUDA编译器不能为我们做这个优化,需要人为地展开核函数内的循环,这可以极大地提高内核的性能。展开循环在CUDA的目的是双重的:减少指令消耗和提高性能通过添加更多的独立的调度指令来减少碎片。仿真结果表明,这种演变的并行差分演化粒子滤波算法循环可以有效改善智能优化粒子滤波对非线性系统状态和实时性能。最后,实验仿真表明,该算法与改进的前缀和可以达到最好的加速因子1.19相对于IIPRPPDE-PF算法和1.48相对于PDE-PF GTX1080Ti下算法,和实验数据表明,该算法的总体性能在不同的GPU GPU成正比。实验数据表明,该算法的总体性能在不同的GPU GPU计算能力成正比,这表明本文的改进算法具有普遍的适用性。
使用的数据来支持本研究的结果包括在本文中。
作者宣称没有利益冲突。