复杂性

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2022年| 文章的ID9064669| https://doi.org/10.1155/2022/9064669

数据驱动的车辆路径问题的鲁棒优化与不确定的客户

张的叮当声 ,¹ 语素的太阳 ,¹ Qinbing冯,¹ Yanwei赵 ,¹ 和郑王²

学术编辑器: 宋庆龄王

收到了 2022年5月18日

修改后的 2022年8月19日

接受 2022年9月19日

发表 2022年10月05

文摘

随着物流业在经济的比例,车辆路径问题的研究对经济发展有着现实的意义。基于车辆路径问题(VRP),介绍了客户存在概率数据作为不确定的随机参数,并建立了VRP模型不确定的客户。通过优化的不确定性模型,结合数据驱动的核密度估计方法,历史数据样本的分布特性集可以安装,最后,一个分布式健壮的车辆路径模型建立了不确定的客户。强化学习的q学习算法引入到高层使用hyper-heuristic算法选择策略,基于q学习算法和hyper-heuristic算法旨在解决这个问题。用一定的方法相比,分布式的模型可以有效降低总成本和健壮的保守主义同时确保客户满意度。改进的算法也具有良好的性能。

1。介绍

降低运输成本规划车辆运输和分销链接,车辆路径问题(VRP)一直是一个关键的问题领域的物流调度。首次提出了VRP Dantzig和1959年的公羊1];基本的问题是一个容量车辆路径问题(CVRP)。满足已知的约束下车辆荷载和客户的需求,这个问题的目标是最小化车辆运输距离为所有客户服务,从而降低物流配送成本。

在传统车辆路径问题,普遍认为,所有的信息是完整的和固定;路径规划,规划的路径之前掌握的所有信息,包括客户信息和道路网络信息,然后找到了满足约束条件的最优解或满意的解决方案。然而,在实际的分配过程,上述资料不是不变的,路径规划也是难以完全掌握所有分布节点的信息,导致信息的不确定性,这将使原优化问题nonoptimal甚至是不可能的。研究不确定参数的VRP是叫的车辆路径问题的不确定性(UVRP)。

UVRP目前,大部分的研究是进行客户需求的不确定性或旅行时间。在实际分布,忽略客户缺席的影响将带来很多额外的运输成本和效率损失。具有重要意义,研究不确定客户的问题。Lei et al。2)首先研究了不确定客户和其分区问题,提出了一个两阶段的解决方案。在VRPUC的研究,大多数问题是由假设的概率分布优化的客户存在一个确定的值(3]或制定的策略实时优化的路径(4]。然而,客户存在不能准确测量的概率分布,只能根据历史数据估计。同时,车辆的重新将导致频繁的返回到仓库提货,这将导致更高的运输成本和低效率。因此,在我们的研究中,我们考虑的不确定性的客户存在概率和预测客户的概率分布存在基于客户的历史需求信息。

UVRP,最常见的方法是建立一个不确定性模型,然后将它转换为确定性模型来解决这些问题。研究者们采用了许多方法不确定性模型转化为确定性模型:·马尔科维奇et al。5城市垃圾收集的问题视为一个蚁群随机需求和旅游时间和表达问题的机会约束规划模型和正态分布。侯et al。6)建立了一个随机规划模型VRPUC时间窗口,它通过使用一种自适应遗传算法来解决。通用电气等。7]研究了电动VRP随机需求和积极补救措施与概率约束,建立了一个模型。Souyris et al。8)提出了一个健壮的VRP模型软时间窗和服务时间的不确定性和验证基于真实数据的分支和价格的方法。Solano-Charris et al。9)提出了一种基于离散场景的鲁棒优化方法来处理不确定与不确定旅行社同行VRP的成本费用。对于不确定性问题,随机规划需要精确概率随机变量的分布信息,无法获得观察。经典的鲁棒优化可以解决这个问题,但是解决方案太过保守。UVRP提出了几种启发式算法,其中包括可变邻域搜索(10),禁忌搜索(11)和粒子群优化(12]。

相比之下,分布的鲁棒优化理论近年来发展迅速,它可以弥补传统鲁棒优化的缺点和随机优化。它结合了统计学习理论和获得一个足够好的解决方案和优化通过假设参数服从一些可能的分布。目前,分布式鲁棒优化已应用于能源调度13,14),门诊安排(15,16),故障检测(17),和其他领域,取得了良好的效果。然而,分布式的应用鲁棒优化UVRP相对罕见,尤其是在解决VRPUC。也有意义使用分布式解决UVRP鲁棒优化理论。

强化学习,作为一个强大的决策工具,引起了广泛关注。很自然地,我们认为将强化学习应用到高层的战略使用hyper-heuristic算法选择低级的策略。Zhang et al。18)把强化学习算法基于深Q-network hyper-heuristic的高级策略算法,用它来评估潜在算子的性能,并学会了使用哪个运营商在一个特定的情况下获得最大的回报通过与环境的交互。秦et al。19]介绍了几个metaheuristic算法具有不同特点的低级启发式策略,介绍了基于策略的强化学习高级选择策略。此外,深度学习使用收集的数据中提取隐藏的模式更好地结合底层启发式的优点。然而,他们的算法复杂,表现不佳。与此同时,我们可以看到,强化学习的设计越来越被认为是hyper-heuristic算法,近年来取得了很大的进步。

VRPUC,我们提出了一种数据驱动的分布式鲁棒优化方法来解决这个问题。通过考虑不确定性的客户存在概率,我们建立了一个分布式鲁棒优化车辆路径模型和数据驱动的核密度估计方法以适应历史数据,然后优化的模型。强化学习算法基于q学习算法旨在解决上述模型。总之,本文的主要贡献如下:(1)与先前的研究相比,通常假定的存在客户服从一定的概率分布,我们考虑的不确定性概率存在的客户。(2)我们介绍了分布式鲁棒优化理论建立数学模型解决问题和使用客户点的历史数据优化模型。实验表明,该方法能够解决这个问题。(3)我们提出了一种基于强化学习的hyper-heuristic算法来解决模型。我们使用q学习算法作为高级选择策略选择低级操作符。通过实验,我们可以发现我们的算法具有正面的影响。

2。VRPUC模型

2.1。问题描述

VRPUC描述如下:与已知位置有一个配送中心,有一批客户提供已知位置。每个客户的需求是已知的,车辆的模型是固定的。众所周知,一些客户有固定的需求和车辆必须为他们每一次;其余客户目前根据确定的概率,他们可以生产情况不需要服务,和存在的概率是不确定的。被分配到一定数量的车辆提供服务给客户。可以为每个客户提供服务只有一个车辆,车辆必须满足每个客户的需求。车辆必须回到配送中心服务所有的客户后,应提供。由于预期需求,车辆不会满足所有客户的需求。这时,车辆将回到配送中心补货然后返回继续剩下的客户服务。目的是解决距离总成本,包括补充距离,在满足所有客户需求的前提下。

2.2。数学模型

VRPUC的配方如下:让我=0是配送中心,由客户的集合我(我= 1、2、3、…l),车辆由集k(k= 1、2、3、…K),问标准容量的车辆。每个客户需求为代表d_我(我= 1、2、3、…l)。每个客户的需求不确定的概率表示p_我,p_我值是相互独立的;如果客户需求决定p_我= 1。整个事件集由R表示,事件是由一个客户存在ζ。R /ζ代表其余事件后删除ζ事件,也就是说,事件的客户不需要的服务。的点集客户不满足需求O、惩罚系数ε,距离成本DT惩罚成本年代,总成本成本(x_ijk,y”_本土知识),c_ij代表客户的距离我对客户j。定义以下变量:

数学模型如下:

摘要目的:

主题:

方程(2)代表目标期望值,也就是最低预期成本。约束(3)表明,客户点的总需求,每辆车不大于标准车辆的负载能力。约束(4)代表概率事件的产物。前者是产品需求的事件发生的概率,而后者的概率是产品需求不发生的事件。约束(5)代表的总成本。前者是距离成本的计算公式,而后者是违约成本的计算公式。约束(6)确保每个客户点。约束(7)确保每个客户只有一个服务的工具。约束(8)消除了子环。约束(9)表明,客户需求的概率是[0,1];也就是说,客户可以有需求或需求在一定概率分布。方程(10)法官是否满足客户的需求。如果是这样,该值为0;否则,它是1。

3所示。鲁棒优化VRPUC配方

3.1。健壮的模型优化

分布的鲁棒优化通常是用于已知的不确定参数的近似分布。的实际分布来源于组合近似分布和历史数据。最坏的情况下选择的实际分布,然后,从最坏的情况下,得到一种改进的解决方案,更好的优化近似分布和实际之间的不一致,导致过于保守的测定方法。客户存在的模型不确定的概率,分布采用鲁棒优化,因为每个客户的实际分布的概率是未知的,但一阶和二阶时刻可以从历史数据中获得。

根据文献[20.),最小值是当有一个概率分布,获得预期的最小值。因此,(2)也可以写成在哪里P代表的是服从的概率分布,E_P(∙)代表的期望值的解决方案。介绍了分布式鲁棒优化方法来优化它,和P”被设计为一组概率的措施,其中包括所有可能的概率分布的需求p_我每个客户的实际情况,其范围大于P集。可以想象,如果最坏的情况下(最大值和上界)被选中P '设置和满足要求的条件下,局势p的设置也必须满足所需的条件。因此,(11)可以写成

因为后者的一部分(12)只与路径规划的结果,而不是直接相关的概率事件在某种程度上,约束(12)可以写成这意味着

根据(14),解决方案的关键是上半年不考虑惩罚成本。因为违约成本只能由路径规划决定的,也就是说,根据实际情况,是不可能获得其最大值函数表达式。因此,(14可以通过使用来解决

解决方案分为两个阶段。首先,我们解决上半年,也就是说,

扩大其预计公式

统一p_我和(1−p_我)(17)和重写成相应的分段函数

让μ从历史数据和获得的平均值σ²是方差。然后,设置的概率分布P有以下公式:

因为只有两个结果(客户是否需要服务),可以看出P概率应该大致满足二项分布;也就是说,变量是离散变量,(24)也可以表示为

方程(18)- (21利用对偶理论)可以改变。首先,我们将以下方程: 和约束条件(20.) 在哪里α_我和β_我拉格朗日乘数法。因此,(15)可以表示为

同样的,(29日)可以表示为

再一次,(31日)和(22)- (24)可以改变使用锥对偶理论,因为c_ijx_ijk与一个不确定的值是一个常数,条件可以省略。因此, 在哪里α_我^”,β_我^”,υ拉格朗日乘数法。因为上面的条件在转换之前的关系是等号关系,三个变量的值α_我^”∈R^n×n,β_我^”∈Rⁿ,υ∈R。删除下标后的变量可以表示为相应的矩阵和向量,因为这种情况反映了强有力的双重关系,它可以编写如下使用约束条件(32):

因此,如果(33)是常数,必须满足以下条件:

根据半定优化理论,约束(32)也可以写成

最后,(15)可以简化为以下两个公式:

最后的公式是

在(36),最大的部分是一个线性规划函数时p_我用作变量值等参数作为固定值。可以看出,这是一个凸函数有最大值。最大值时它可以获得

根据约束(28),(34)和(35)和属性的概率p_我本身是≥0或≤0,最优布置方案与变量(α_我^”,β_我^”,α,β,y^”_本土知识)可以解决,可以确定最小值、固定的解决方案p_我可以获得,最后确定的鲁棒优化模型参数可以获得。

3.2。鲁棒优化模型通过数据驱动

基于分布式解决VRPUC模型鲁棒优化需要知道不确定客户的分布概率变量和分布均值和方差等特征值。从简单的数据收集获得的样本不能代表整个数据,这是片面的。更准确地获得不确定参数的分布特征,所使用的数据驱动的非参数核密度估计方法。不确定变量的概率估计是客户需要服务,设置为p。假设P₁,P₂、…P_n是随机的样本n离散变量的概率密度函数f(x)。函数的具体形式和参数是未知的。经验分布函数可以表示为

假设内核函数K₀(p)。然后,它的密度估计函数

选择使用最广泛的高斯函数作为核函数转换上面的公式

带宽h有很大的影响吗分布。实证方法在文献[21)可以用来估计带宽:样本数据接近正态分布或双峰概率函数,我们选择在哪里σ样本的标准偏差数据和吗R从样本数据获得四分位数的距离。我们下一个设计客户的历史数据样本点与1000年历史数据样本对客户存在概率,和客户需求点的最大概率概率是> 55%。我们可以用上面的方法来估计其数据分布,如图1。

(一)

(b)

4所示。Hyper-Heuristic算法

在强化学习领域,q学习算法被广泛使用,因为它古典和容易理解的原则22]。hyper-heuristic算法基于q学习算法(HH-QL)设计。设计点Q学习算法的主要状态,行动,奖励,惩罚值,Q值,折现率(γ)和学习速率(α)。

4.1。的设计状态价值

状态=(年代₁,年代₂、…年代_n)代表的健身价值算法的性能在这个阶段。确定一些问题的最终解决,很容易判断之间的差距,最终的解决方案。VRP的算法的状态无法清楚地表达。这时,健身价值差,或者它可能只是跳出局部最优解,去另一个高峰。当它最终到达峰值,健身价值可能比这个值。因此,以下状态值在[设计方法19采用): 在哪里适合代表当前健身价值,适合的代表了上一代的健身价值,Ck代表不同类型的运营商的基数,突变类型运营商的基数是不同于non-mutation-type运营商,与值20至40岁的女性,分别以区分不同类型的运营商的影响在当前状态。

4.2。的设计行动和奖励值

行动=(一个₁,一个₂、…一个_n)代表了算法将执行下一个动作。只有低级的启发式(LLH)潜在的运营商选择,行动代表运营商的序列号。例如,一个¹设计1号操作符,也就是说,一个路径操作符。运营商提出了文献[23)作为底层的操作符。它主要包括三类:当地的研究(LLH-L)突变(LLH-M)和基于地理位置的径向破坏(LLH-LR),总共11 LLH潜在的运营商。

奖励= (r₁,r₂、…r_n]表明评价的影响行动在算法的历史舞台上。评价可以是好是坏。好的评价引导算法会增加的概率选择的行动当它遇到相同的阶段状态在未来。不好的评价会减少选择行动的可能性。的设计奖励有不同的影响,因为不同类型的操作符。例如,2-OPT运营商的影响是直接的,而破坏和重组操作符被延迟的影响。因此,奖励包括直接奖励和延迟奖励的,分别针对产生直接影响的运营商和运营商生产延迟的影响。设计如下: 在哪里I_re代表立即奖励价值,给出的

和F_re代表延迟奖励的价值。

如果健身价值提高,直接+ 1奖励;否则,它是−1;延迟奖励的直接奖励运营商总是设置为0。延迟奖励的运营商在当前计算其值设置为0。这时,延迟奖励的序列号运营商和相关信息,如问值,保存。如果健身价值已得到改进在下一个延迟算子之前出现,相应的算子的值+ 1,奖励和它问价值和其他信息将同时更新。

4.3。的设计问价值

的问值是根据函数值计算奖励价值和问历史价值。它是用来防止过于片面,评价影响基于使用的潮流算法奖励只有。计算公式如下: 在哪里年代代表状态,一个代表行动,r代表奖励,t代表了上一代的对应值,t+ 1代表了这一代的更新值,和马克斯_一个代表了最大的价值问在所有的价值行动值。

4.4。的设计γ和α值

γ表示对未来奖励和惩罚值的影响。如果γ值是更大、更强调未来的预测结果;也就是说,它将有一个更积极的当前行为的观点。相反,如果γ值是更小、更强调当前收入和当前的行为有更严格的要求。的价值γ详细研究了文献[23),推荐值是0.8。在大多数情况下,它对该算法有很好的效果。

α代表的学习程度问价值函数。更大的α值表明,新值替换旧值在更大程度上。相比之下,规模较小的α值表明,旧值仍然占有绝对位置数据和算法更关注的历史影响行动。在蚁群算法可能收敛于局部最优解,所以α价值时需要增加健身价值还没有被改善了很长一段时间。通过使用往复式余弦函数的波动的特点,α值可以确定

的SN值是设计为迭代次数的记录不是提高的健身价值。

4.5。其他的考虑

为了避免这种情况,当客户出现的概率非常高,服务路径已经安排路径,但是最终客户点不生成所需的服务,和捆绑客户点的方法被采用之前,人口的一代。方法可以避免急剧增加,造成成本两者之间的长路径点前后供水客户点生成服务。捆绑销售的原则是基于捆绑附近的根据客户点之间的距离。

算法流程如下(见图2):步骤1:包客户点。首先,确定客户捆绑与其他固定客户。我们不确定客户点加州大学_我和判断相应的j固定客户点根据原来的距离矩阵。如果距离c_ij是最小值与其它固定客户点相比,客户点j是捆绑我形成一个新客户C(我,我]。步骤2:初始化种群。随机生成Npop组群个体,生成可行的解决方案P(p_我=p₁,p₂、…p_NP),计算出健身价值f(f_我=f₁,f₂,f₃、…f_NP),随机选择一组P。初始化全局最优人口P_B和最优解决方案F_B,初始化状态值为0,初始化行动任何11操作符和初始化Q-Table为0。步骤3:计算和更新。的初始化行动操作符用于搜索的解决方案获得一个新的个体印第安纳州和健身价值健康。与此同时,如果适合≤F_B,这证明解决方案在这个时候更好,然后更新全局最优人口P_B和F_B这P_B=印第安纳州和F_B=适合。第四步:计算状态。首先,我们判断是否接受解决方案根据模拟退火。如果它被接受,状态值计算。否则,该值保持不变。第五步:评估行动。我们确定相对应的运营商行动目前。如果它是一个操作符,在算法和如果有延迟的影响DLN我们是空集,记录相应的吗DLN=(行动,奖励,问,适合]。如果不是空集,在相应的历史价值Q-Table将再次更新。第六步:计算奖励和问值。我们计算奖励和问值根据方程(45)- (47)和更新Q-Table。第七步:选择行动。根据Q-Table,我们选择行动最大的问值对应状态作为下一个行动的算法。第八步:更新学习速率α。我们更新学习速率α根据方程(48)。第九步:确定迭代。如果当前迭代数t≤t_马克斯重申,我们返回到步骤4;否则,我们退出算法。

5。计算实验

5.1。实现方面,配置参数和实例

算法在MATLAB编写,所有实验都是在计算机上用一个英特尔酷睿i5 - 3230 m和12 GB的RAM。经过反复测试,算法中使用的参数设置如下:折现率γ= 0.8问价值函数的初始值ε=0.5,迭代最大迭代t_马克斯= 10⁶,经验池N^E= 800,学习和样本选择的数量N^年代=600年。

所有计算实例(https://www.bernabe.dorronsoro.es/vrp/)在设置一个CVRP被选作实验。在每一个计算实例,总数的25%客户点尺度随机选择的是不确定的客户。在0.3 - -0.9的随机概率设计,不同区间[0.3,0.5]和[0.6,0.9]被用来生成1000随机{0,1}样品不均匀分布,其中0表示没有需求,1代表需求。下一个客户的需求点只能知道当车辆到达之前的客户。需求概率统计每10倍1000年随机样本。通过上述方法,随机需求数量根据需求数量的原始客户点生成,和1000年历史样本生成的每个客户点(客户点定义需求,需求保持不变)。因为有很多不确定的客户分在每个实例中,他们没有列出。只统计的意思u和方差σ²一些客户点的随机选择的实例显示,表中列出1。

5.2。与其他算法比较

为了测试算法的性能,HH-QL算法与文献[24- - - - - -26]。结果如表所示2。每个计算实例计算20次,最短的距离目标函数总旅行的路径,距离越小,算法的性能越好。列商品代表最优距离解决方案实例,列分代表最优距离算法获得的解决方案,列Avg代表的平均距离最优解决方案,和列DEV代表其成本和商品之间的差距。计算DEV(所示49)。同时,大胆引用的值最优的解决方案。

从结果可以看出,所获得的最优解的比例由LNS-ACO HVNSOS,大贺典雄的所有实例是62.96%,74.00%,和51.85%,分别HH-QL的比例是81.48%。与其他算法相比,HH-QL整体最优率的算法有一些优势。每个算法的平均偏差为27个实例的最优解是0.60%,0.13%,0.37%,0.07%。HH-QL是0.53%,0.09%和0.06%低于其他三种算法。在与60多个客户的所有实例,本文算法相对比其他算法更准确。本文可以得出结论,该算法有更好的搜索效果在一个标准的例子与其他三个多群搜索算法。

5.3。与某些参数的问题

测试上述分布式健壮的模型和算法的有效性,nonsatisfaction客户的比例,造成的额外成本nonsatisfaction客户评估。

表2列出了路径距离成本和客户满意度的比例每一计算实例获得鲁棒优化后的计算例子a大比例的降低成本和更大的客户满意度的比例优化后,更好的优化效果。实例列列表的序列号问题,某些类型的列表示某些参数问题,健壮的代表不确定参数的鲁棒优化问题,成本列列表的距离成本,减少列列出预期成本的百分比低于原计划成本,和总列列表的比例与最小成本路径规划,可以成功地在1000年历史样本会见了不确定客户的可能性存在。E1代表样本的比例,可以满足所有客户点的总样本,E2代表两个客户点不满意的比例,和E3代表三个或更多客户点的比例并不满意。

规划路线后,如果不满足客户的需求点,补给车辆立即回到原点,然后返回给客户,不满足的需求继续分发服务根据原来的路线。表3显示一组测量距离的额外成本的例子返回到仓库提货并继续发货,因为客户需求不能满足。成本增加的距离越短,鲁棒优化的效果就越好。增加的成本为0,这意味着车辆不需要返回到仓库交付。如果惩罚系数设置为1时,开车的处罚成本是距离成本路径。客户编号列名单的最大数量的客户不符合客户的需求在1000年历史的样本。更多成本列列表的增加成本回到原点不满足客户的需求点的1000历史样本。最大和最小列列表中最大和最小成本,分别。事实上成本列列表的距离开车成本获得的1000年历史样本根据客户实际点。象征,表明没有不满的客户对某些解决方案(表4)。

表2列出了测试实验的实例,以及某些和鲁棒优化方法的期望值和客户满意度。因为路径通过一定的方法占所有客户点的存在,总列不存在。鲁棒优化方法获得的路径占客户的期望概率的存在。客户的需求点是适当减少根据客户点出现的概率。因此,当顾客点确实存在,车辆负荷不足,导致未能满足一定的需求点。如果补充回来的时候,它将影响这一点和随后的点。结合成本值和预期值的对比图如图3,我们可以获得整体鲁棒优化后距离值小于使用一定的方法,获得和减少的比例范围是17% - -30%,这是显而易见的,反映出距离的调整成本。此外,客户满意度的图,可以看出,E1列的高度几乎占整个直方图的绝对值的一个实例。与此同时,随着规模的增加客户点,有一个高概率三个或更多客户点不满意;顾客越多,更大的不确定参数扰动的可能性,难以确定的程度就越大,越高的要求规划路径。可以得出结论,满意客户稳健优化路径的实际样品仍然很高,有一个低概率,一个或两个客户不会满意。

(一)

(b)

表3列出解决方案成本计算后得到实际的运输距离1000年根据客户业务数据历史数据样本在设置一个测试实验和距离的解决方案成本由补充补充。如图4,不管最大值,最小值,平均值,鲁棒优化后的线几乎是线下的某些结果;鲁棒优化后的前路,可以减少运输距离成本和防止不必要的成本浪费而获得的路径通过使用一定的方法。最大数字,当客户规模大,储蓄的程度较高,当客户规模小,结果是不明显的。图的最小值和平均值,之后的效果是很明显的客户规模达到48点。

(一)

(b)

(c)

(d)

如图4 (d)假设,如果惩罚系数为1,只有成本被认为是补给的影响距离,实际距离的平均值后成本1000历史数据样本不确定性的鲁棒优化客户添加到补给造成的惩罚成本的平均值;总成本,即差异图与实际距离的平均值相比成本通过一定的方法,是确定的成本平均−(健壮的成本平均+更多的成本平均)。从图可以看出,大多数的总成本后的两个实例集的鲁棒优化小于一定的方法。只有三个例外在设置一个,占总数的18.75%。折线图几乎是近似时,由于低概率和补充小补给路径的距离获得鲁棒优化后,总成本保持下降的趋势,这充分反映了健壮的模型在节约成本的优势。

图5显示了特定的路径图和鲁棒优化方法有一个很大的总成本降低。三角形的点表示不确定的客户点。从图中,可以看到,道路分布的两种方法是大致相同的。因为一定的方法寻找最短路径图与客户需要的服务是肯定的,有少交点之间的路径,而鲁棒优化方法追求不确定客户的合理分布。因为捆绑点算法中使用的方法是,在鲁棒优化,确定客户点往往是在最近的客户一样的路径点,如点49岁,35岁和4 A-n62。在相同的路径作为最近的点,当不确定客户需求点没有或有一个需求,总路径的变化很小。当然,从分布的路径,因为许多路径的十字路口,该算法可以设计更多的迭代计算,所以结果不是最优的。然而,如果它是最优的解决方案,成本只会更短的距离,更好的反映出鲁棒优化的效果。

(一)

(b)

6。结论和未来的工作

提出了分布式的鲁棒优化方法来解决客户需求的概率不确定性问题服务。方法使用分布式鲁棒优化理论将不确定的模型转换为确定性鲁棒优化模型参数。同时,该模型通过使用数据驱动的核密度估计方法进行了优化。我们也开发一个hyper-heuristic算法解决这个问题。

与其他算法相比,基于强化学习的我们hyper-heuristic算法具有良好的性能。在解决UVRP,数据驱动的分布式的鲁棒优化模型比确定性模型产生更好的结果,我们的方法可以有效地解决问题并减少额外的成本。

本文研究VRPUC,但在现实世界中,有更多的不确定因素,如车辆旅行时间和客户需求。有必要考虑多种不确定因素的共同影响将来的工作。摘要hyper-heuristic基础运营商很常见,相对一般。也是有意义的设计一些特定的底层算法来解决此类问题。

数据可用性

所有计算实例(https://www.bernabe.dorronsoro.es/vrp/)在设置一个CVRP选择实验。所有的数据用于支持本研究的结果也可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是国家自然科学基金的支持下,中国(没有。61402409),中国浙江省自然科学基金(没有。LY19F030017),也支持基金会的数字制造设备和技术国家重点实验室(批准号DMETKF2022024)。

引用

g . b . Dantzig和j . h .公羊”卡车调度问题。”管理科学》第六卷,没有。1,第91 - 80页,1959。
视图: 出版商的网站 | 谷歌学术搜索
Lei, h . g .拉波特,b .郭”分区路由与随机客户。”欧元在运输和物流》杂志上,1卷,不。1 - 2、67 - 85年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
s . s . Ozarık l . p . Veelenturf t . v . Woensel和g . Laporte”优化电子商务下最后一英里的车辆路由和调度不确定客户的存在,”运输研究E部分:物流和运输审查文章ID 102263卷,148年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
m·w·乌尔姆,“期待与活性重新优化的动态车辆路径与随机请求,”网络,卷73,不。3、277 - 291年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
d··马尔科维奇g .罗维奇z Cojbasic, d . Marinkovic”metaheuristic废物收集方法与随机需求车辆路径问题和旅行时间,“Acta Polytech挂卷。16日,45 - 60,2019页。
视图: 谷歌学术搜索
l .侯、h·周和c .梁”与不确定的需求和旅行时间,车辆路径问题”计算机集成制造系统,17卷,不。1,第108 - 101页,2011。
视图: 谷歌学术搜索
朱x, z, y,“电动随机需求车辆路径问题和动态的补救措施,”数学问题在工程,2020年1 - 15页。
视图: 出版商的网站 | 谷歌学术搜索
s Souyris c·e·科尔特斯f·德和A·温特劳布”的鲁棒优化方法调度技术人员在随机服务时间,“光学信,7卷,不。7,1549 - 1568年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
大肠Solano-Charris、c·普林斯和a·c·桑托斯”基于本地搜索metaheuristics健壮的车辆路径问题的离散的场景,“应用软计算32卷,第531 - 518页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
z h . Hu j·b·许凤l .赵和c c . Lu”动态闭环车辆路径问题的不确定性和不兼容的产品,”交通研究部分C:新兴技术,55卷,第297 - 273页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
朱x, z, y,“电动随机需求车辆路径问题和动态的补救措施,”数学问题在工程卷,2020篇文章ID 8795284, 15页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
b·f·穆贾达姆·r·鲁伊斯,s . j . Sadjadi”和不确定的需求车辆路径问题:一个先进的粒子群算法,”计算机与工业工程,卷62,不。1,第317 - 306页,2012。
视图: 出版商的网站 | 谷歌学术搜索
x和y, y . Liu,“能源管理优化模型岛微型智能电网"与发电和负荷的不确定性,”水资源和电力,38卷,不。1,第195 - 191页,2020。
视图: 谷歌学术搜索
周y、m . Shahidehpour z, z, g .太阳,和陈,“不等价健壮的单位承诺协调电力和集中供热网络”IEEE电力系统,35卷,不。3、2155 - 2166年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
h·楚说:“不等价鲁棒优化医疗服务运营管理应用程序,”北京理工学院卷。2016年,76年53 - 2016页。
视图: 谷歌学术搜索
k . s . Shehadeh A·e·m·科恩和r .江”一个不等价门诊结肠镜检查调度的鲁棒优化方法,”欧洲运筹学杂志》上,卷283,不。2、549 - 561年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
c .商美国x叮,h .你们“不等价强劲的动力系统故障检测的设计和评估,”自动化文章ID 109434卷,125年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
赵j .张问:冯,y, j . Liu和l .愣,“Hyper-heuristic cvrp强化学习,”计算机集成制造系统,26卷,不。4、1118 - 1129年,2020页。
视图: 谷歌学术搜索
w·秦z壮族、黄z和h .黄”一种新颖的基于强化学习hyper-heuristic异构车辆路径问题,“计算机与工业工程文章ID 107252卷,156年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
p . Mohajerin Esfahani d·库恩,“数据驱动的不等价鲁棒优化使用瓦瑟斯坦指标:性能担保和容易处理的新处方,”数学规划,卷171,不。1 - 2、115 - 166年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
y的歌,l .广域网,y刘“有关塔的巢,而且检测”电力系统的清洁能源,32卷,不。6,85 - 88年,2016页。
视图: 谷歌学术搜索
r·s·萨顿和a·g·Barto”强化学习:介绍,“IEEE神经网络,9卷,不。5,1054年,页1998。
视图: 出版商的网站 | 谷歌学术搜索
p . Rakshit东部赫拉,p . Bhowmik et al .,“实现一个自适应的迷因使用微分进化和q学习算法:一个案例研究在multirobot路径规划,“IEEE系统,人,和控制论:系统,43卷,不。4、814 - 831年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
s . Akpinar“混合大社区搜索算法生产车辆路径问题,“专家系统与应用程序卷。61年,28-38,2016页。
视图: 出版商的网站 | 谷歌学术搜索
李y和h迷,“混合变量社区生活搜索算法具有能力约束的车辆路径问题,“控制与决策,33卷,不。7,1190 - 1198年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
施n, y, t·张,x,”一个有效order-aware生产配送车辆路径问题的混合遗传算法在物联网中,“IEEE访问ID 86114条,卷。7日,2019年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

329年

下载

314年

引用