文摘

高速公路应急响应可以减少交通事故造成的损失。然而,城市主干道应急救援面临的高概率的意外事故造成的拥堵,使得救援路径复杂的计划。提出了一种改进路径规划方法,应急救援车辆在拥挤的城市主干道交通事故。首先,为应急救援路径规划环境车辆拥挤的城市主干道建立基于马尔可夫决策过程,其重点是主干道的体系结构,考虑到交通效率和车辆队列长度的路径规划;然后,优先体验重播深Q-network (PERDQN)强化学习算法用于路径规划在不同交通控制方案。该方法测试的部分东友谊路在西安,陕西省,中国。结果表明,与传统的最短路径方法相比,救援路线计划PERDQN减少了到达时间,67.1%的事故现场,和上游的事故点的队列长度缩短16.3%,这表明,该方法能够为紧急救援计划路径车辆在城市主干道拥堵,缩短到达时间,减少意外事故造成的车辆队列长度。

1。介绍

城市主干道是城市交通系统的重要组成部分,交通事故发生在他们整个城市道路网络上产生重大影响,造成巨大的人员伤亡和巨大的经济损失1- - - - - -3]。是很常见的,交通事故会导致产生的由于城市道路网络的高容量,大大改变道路网络的能力和影响力为应急救援最优路径(4- - - - - -7]。因此,作为一个典型的现象在城市交通事故救援,具有重要意义进行研究对紧急车辆路径规划在拥挤的城市主干道。

复杂成分的城市主干道,多个十字路口,和大型交通流为城市道路车辆路径规划带来了许多困难,这使它更加复杂与路线规划相比在高速公路8- - - - - -12]。此外,紧急救援路径规划车辆不同于一般的路线规划问题。首先,紧急救援路径规划车辆会遇到各种路况;由于大型城市道路的交通量,交通事故导致道路拥堵容易,大大降低了道路的容量上游的事故现场,使到达事故现场的耗时。此外,许多城市主干道的架构由主要道路和道路,含有大量的十字路口,选择路径规划和值得改进计划。

大量的研究集中在车辆路径规划问题。杨等人提出了一种路径规划方法对紧急车辆,道路网络分为加权的网格,然后救援路径是矢量网格地图计划方法(13]。绿蚁Jabbarpour等人提出的方法为无人地面车辆提供路径规划导致低功耗(14]。吴等人使用一种改进的蚁群算法在拥挤的市区动态路径规划,引入设计评估因素而不是路距离结合粒子群优化(15]。系统建立了张等人计划实时路径通过有效地缓存和真正的道路网络进行实验(16]。Karouri等人提出了一个有效的路径规划方法在大规模的交通场景中使用Dijkstra贪婪算法和绿灯最佳速度咨询服务(17]。上面提到的研究大多数都是对大规模的公路网络,然而精制的路径规划城市道路需要改善,更要注意研究最佳救援路径在不同交通控制方案在拥挤的道路。

随着人工智能的发展,深Q-network等算法被广泛用于决策在各种实际问题18- - - - - -20.]。利用强化学习路径规划越来越多,提供了不同的面向目标的路径规划对各种类型的汽车由于其强大的性能和高适用性路径选择的决策。刘等人设计了一个最好的路径选择方法,帮助不同类型的智能驾驶车辆基于先验知识应用的强化学习策略21]。Yu分层强化学习和神经网络相结合,提出了移动机器人路径规划算法和测试它在不同的场景中22]。陈提出了一个使用深强化学习自主车辆路径规划方案来降低运输成本和提高交通效率23]。虽然作为一个价值深高合格的强化学习算法稳定性和经验导致策略优化的强劲表现(24],PERDQN可以提供紧急救援车辆路径规划在一个复杂的道路网的可靠性。因此,我们建立了一个精致的拥挤的城市主干道道路网络模型,利用PERDQN提供急救车辆在交通事故中,路径规划,旨在达到最短的时间和最少的事故现场道路道路网络容量。

本文的内容组织如下。第二部分解释了如何构建一个马尔可夫决策过程为城市主干道,同时考虑对道路网交通效率和影响,同时也描述了如何对紧急车辆救援路径计划基于PERDQN算法在不同交通控制方案。第三节介绍该方法的结果的情况下真正的城市主干道。第四部分总结了本文的贡献,让我们未来的研究前景。

2。方法

2.1。路径规划基于PERDQN拥挤的城市主干道

紧急车辆的救援路径指的是开车跟踪从它出发的到达在交通事故现场,不同的救援路径导致不同的到达时间和道路网络的影响。从紧急车辆的角度,路径规划问题可以被看作是一个问题关于如何开车到事故现场用最短的时间和最少的影响道路网络,而紧急车辆驾驶决策在每个道路节点确定救援路径驱动器。因此,救援路径规划环境拥挤的城市主干道构造基于马尔可夫决策过程,和PERDQN计划路径用于紧急车辆环境的基础上。通过与MDP交互环境,急救车辆从经验中学习,提高路径规划功能,最终找到最佳的救援路径在不同控制方案。图1显示了救援路径规划的框架基于PERDQN急救车辆。

2.2。建立拥堵的城市主干路环境

城市主干道有不同的功能和复杂的成分。其中大部分是由主要道路和道路,并经常有许多十字路口点缀。此外,它是一种常见的现象,主要道路的主干道上的相反的方向由连续的道路栅栏,而联合道路的数量使mainroad和侧路连接在同一方向。这提供了multipleoptions急救车辆路径规划在事故救援,特别是在道路拥挤是因为交通事故。因此,有必要建立一个模型,提取问题的关键问题,同时保持主干道的特点。

node-segment模型是一种常见的方法,简化了路径规划问题,同时保留道路网的特征(13- - - - - -15]。模型是由节点和路段,尤其是专注于联合的道路,车辆可以改变路径,如之间的连接主要道路和道路方向相同,和对面的路口连接道路被视为节点模型中。节点模型 ,在哪里 表示 节点上的 路, 是主要道路的数量和侧道路在道路网络,然后呢 表示数量的联合点分离的道路上。段模型 代表了节点之间的公路段, 之间的公路段吗 ,表示为 是道路段的长度。此外,不同的单一主要道路或侧面车道道路被视为无法区分共享相同的有限速度和交通管制要求,导致相同的旅行效率和道路影响路径规划。

的基础上建立了node-segment公路网络模型的路径规划问题需要进一步改编成一个决策问题;作为一个动态的随机数学框架,描述了序贯决策,介绍了马尔可夫决策过程(MDP)建立决策环境的路径规划。马尔可夫决策过程包括一个元组 ,在国家 代表紧急车辆的位置,表示作为路网道路节点,节点的映射 可以表示成 , 节点山在哪里 车道。行动 显示下一个节点,紧急车辆道路。 的跃迁概率是车辆从当前节点移动到下一个节点,也代表了MDP的机制;节点之间的影响汽车驾驶的因素包括路段上的车辆的速度,路段的长度,和道路段的容量,他们中包括奖励塑造。奖励函数 定义了奖励价值获得当前节点通过开车到下一个节点。伟大的关注交通效率和道路网交通影响的研究(25- - - - - -27),和交通波理论提出的28,29日)和公共道路局(BPR)函数提出了(30.),车辆排队长度(VQL)在拥挤的公路网络交通事故和到达时间可以计算。进一步,让急救车辆考虑道路网络和旅游影响效率,回报函数设计 在哪里 表示紧急车辆收到国家开车时的奖励 , 的时间吗 ,并计算了BPR函数(5), 表示事故现场的预计到达时间 ,这是到达时间之和最短路径上的每个部分(最短路径从事故现场 迪杰斯特拉算法基于细分矩阵的生成部分已经提到的造型,迪杰斯特拉算法方法广泛用于最短路线计算(31日)), 是指期望队列长度之和计算不同控制方案和交通波理论(1)。 ,在哪里 表明最短的距离 事故,也由迪杰斯特拉算法计算。 关注节点之间的区别和紧急车辆,提供本地信息 为事故现场并提供估计时间 表示道路网络的影响下事故和交通控制方案。此外,时间因素 , 和距离的因素 , 共享相同的价值大小,时间因素被重新调节规范化预处理的范围意味着道路段的距离 因素,控制相应的比率指标,并将经验值为0.9,0.9,0.1,0.1,0.2,0.8,分别。 是路线和的目标是指事故现场的位置。 是一个常数,促使车辆到达事故点和150在我们建立的实验。

在紧急车辆路径规划问题,需要选择其驾驶行为根据当前位置到下一个位置,这意味着在MDP,紧急车辆选择根据驾驶驾驶行动策略 当前状态的基础上 ( 显示选择行动的概率 在国家 )。因此,MDP的目标是找到一个最优策略,尽快促使紧急车辆事故现场。在决策过程中紧急车辆,每个动作应该旨在最大化长期回报的努力,也就是说,到达事故点的最短时间和最小的道路网络的影响,和路线选择决策的贡献达到事故点通过政府行动值,定量评价函数: 在哪里 政府行动的值是一对吗 , 表示政策的预期价值 , 表示累积奖赏值, 指的是奖励 , 是奖励衰减系数。紧急车辆的最优策略应该有最大的政府行动值函数在任何情况下,确保决策做出自己的最大奖励;假设 最优政策呢

基于最优政策,最优行动根据当前状态 可以选择如下:

2.3。路径规划基于优先经验重播Q-Network深处

通过构造MDP环境,我们改变了路径规划问题转化为一个decision-optimization问题,更具体地说,现在一个问题关于如何制定紧急车辆获得最优政策在路径规划建立城市主干路模型。基于最优策略,紧急车辆决定去哪里根据当前位置和到达选定的位置在路径规划下一步维度。不断,紧急车辆计划其行驶路线基于当前位置,直到它到达事故现场。到那时,紧急车辆的行驶轨迹形式其救援路径。

在强化学习,最优政策与MDP从互动的经验,通过估计最优行为价值函数,因为行为价值函数是车辆的基础来决定如何在当前节点驱动。只有当不同的动作在不同的州的值是已知的最大车辆可以选择的行动值作为最优。

在PERDQN [24),深层神经网络用于获得估计最优行为价值函数为非线性函数的估计值,为制定 ,在哪里 指的是神经网络的参数。更具体地说,两个相同的神经网络结构包括Q-network和目标网络构建、Q-network产生 和评估当前的政府行动,目标网络用于生成目标价值 , 目标网络的参数, 指政府行动对采样。Q-network的损失计算 这是估算值和目标值之间的区别的梯度是什么

通过迭代更新,Q-network接近政府行动的值,逐步学会最优政府行动的价值功能 到那时,决定根据方程(4)是最优策略,这是对紧急车辆最优路径。

此外,PERDQN介绍了优先回放方法来提高经验重播的性能,这是一个优先级随机抽样方法。经历更多的信息将会有更高的概率抽样,和每个经验的概率抽样 在哪里 的优先级 经验和 用于控制优先级的振幅。比例计算优先级变种 在哪里 在哪里 表示TD错误 经验和 是一个小正的常数,确保TD误差为零的边界情况的经验可以取样。此外, - - - - - -贪婪的政策介绍PERDQN确保勘探和避免局部最优训练。

显示了PERDQN-based路径规划算法的伪代码1

(我) 初始化:minibatch ,步长 ,重播时间 和大小 ,指数 ,预算
(2) 初始化经验回放记忆
(3) 指定的起始位置紧急车辆的初始状态
(iv) 观察 和选择行动
(v) = 1
(vi) 观察
(七) 商店的驾驶体验 与优先级
(八) 如果
(第九)
(x) 样本驾驶体验
(十一) 计算重要性抽样体重经验
(十二) 计算基于方程(TD错误9)
(十三) 更新的经验优先
(十四) 积累体重改变
(十五) 结束了
(十六) 更新权重Q-network 根据方程(6),然后重启
(十七) 每一个 权值复制到目标网络的步骤
(十八) 如果
(十九) 的概率 ,随机选择的行动
(xx) 否则,选择行动
结束了

3所示。结果与讨论

3.1。实验设置

东友谊路是一个东西向城市主干道位于西安,陕西,中国。这是一个典型的城市主干路与主要道路和道路在两个方向上,篱笆之间存在相反的主要道路,断断续续的连接点连接的主要道路和公路方向相同。急救车辆可以改变车道之间的主要道路和旁路连接点上的同一方向或改变任何巷路口。图2介绍了东友谊路的体系结构和周边环境的部分从西Wenyi路东Cehui道路。

如图2,两个主要道路的交通事故被认为东友谊路东西方向。事故案例1将附近的西方道路与左边的图,和事故案例2是近东Cehui道路和显示在右边的图,和事故都是东西方向放置在主要道路。最近的消防站路段是史消防站位于东北1.9公里。因此,应急救援车辆的起点将交界处附近的东友谊路的东西向主干道和东Cehui路的十字路口。

进一步验证该方法的性能,我们假设两个交通事故发生在意外事故点1和点2,分别造成上游拥塞和车辆排队,现场紧急处理时间都是15分钟。此外,四种典型的交通控制方案由交通警察被应用于案例研究不同的最优路线不同的事故点在不同交通控制方案:方案1-reverse主要道路和旁路控制(RMSC),计划2-reverse主要道路控制(RMC),计划3-prograde主要道路控制(PMC),和方案4-prograde主要道路和旁路控制(PMSC),千米,其被认为是开车从东到西,因为紧急车辆的起点。此外,交警部门优先部门得到通知后发生交通事故,可以把责任比其他任何紧急部门早些时候,保证公路段关键时候被控制之前从其他紧急部门应急救援车辆到达事故区域。因此,交通管制下的结东友谊路,西Wenyi公路西方向,至关重要的是应急救援车辆包括消防员和救护车开车逆行的西方向东方友谊路,到达事故现场的速度比在拥挤的意外事故造成的部分。事故现场的上游部分总是控制在任何计划,以防止车辆进入事故区域,导致二次事故。

城市主干道交通流参数显示在[32,33)如表所示1

2展示了交通密度在东友谊路从上午11下午13:00在不同控制措施,即通过收集一周的数据在实际道路部分结合详细咨询贝林大队的交警,交警部门,西安公安局。

3.2。使用强化学习方法的路径规划

是在计算机上进行实验与英特尔i5 - 8300 h 2.30 GHz CPU, 8 GB的内存,和英伟达GTX1060 GPU。我们使用相同的网络架构和hyperparameter设置在两个深强化学习算法,其优化器RMSProp与批量大小64和 退火线性从1到0.0001降低为0.00005每一步;两种算法运行150 k的步骤,和10 k的重播缓冲区容量用于每个算法。DQN的神经网络结构和PERDQN也是相同的,输入层是一致的维度,第一个隐层是完全与30神经单元,第二个完全连接隐层神经单位,拥有15和维度的输出层的形状是一样的行动。

四种典型的交通控制方案、PERDQN和DQN用于救援路径规划;此外,救援路线最短路径(SP)方法的基础上,这是最常见的路径规划方法在实际救援路径规划,用于比较。图2演示了路径规划的结果使用PERDQN和SP方法精制路东友谊路的示意图。

3研究路段的显示了节点模型图和由相应的最优路径规划算法。联合路点,交通控制的地方,和事故现场的位置是由圆,矩形、三角形,分别。黄色实线分离数据显示救援路径计划通过相应的方法在不同的交通管制方案。(1)- (1 d)在图3显示对紧急车辆最优路径下四种典型的案例1由PERDQN决定交通控制方案,并在图(1 e)3显示选择的最优路径最短路线方法1。(2)- (2 d)在图3显示最优路径由PERDQN交通控制方案2,并在图(2 e)3显示了第二种情况的救援路径采用SP法。图3PERDQN表明,路径规划的算法是不同的在不同的交通管制方案而SP是相同的路径规划,道路交通效率和队列长度的差异在不同方案下使用PERDQN时考虑。然而,SP方法总是与最短路径选择的路径到事故现场,无论交通方案,所以只有一个图在每种情况下用于展示SP的救援路径规划方法。此外,不同方法的最优路径下四个交通控制方案进行了总结和列在表中3;注意,L2表示侯在案例1和P15在案例2中,虽然L1 P8, L3表示P17, L4代表P25在这两种情况下。案例1中相应的强化学习训练曲线如图所示4

3显示计划的最优路径PERDQN和SP方法,不同控制方案下的路线不同,最优路径的轨迹图绘制在图3。图4案例1显示了训练曲线,数据4(一)——(d)的训练曲线PERDQN和DQN四个方案。横轴是训练步骤的数量,纵轴代表的平均回报。在第一个10 k的步骤中,平均回报很少改变,因为两种算法不更新他们的神经网络参数,直到重播缓冲区首次实现。此外,优先重播的存在提高了采样的有效性经验,使比DQN PERDQN实现更好的决策的效果,也可以防止PERDQN DQN会陷入局部最优,导致路径计划PERDQN被DQN比计划。图4 (e)显示了比较PERDQN训练曲线的不同方案。结果表明,方案2拥有最高的平均回报,这表明案例1计划的最佳救援路径PERDQN P16-P24-P23-P22-P21-P20-P19-P18-P17-P9-P10使用RMC计划,也就是说,逆行通过相反的主要道路到达事故现场。

在[使用评价指标建议28),最优路径的到达时间和车辆队列长度在不同的交通管制方案1所示图5,到达时间,消耗时间,队列长度计算了交通波理论和BPR函数中提到的部分2.2;主干道上的交通流参数列在表中12。作为显示在图5,消散时间远远长于事故现场处置的到达时间,因为时间是包含在耗散。进变质主要道路的队列长度远远大于其他三个交通管制点,因为交通管制在L1, L3、L4尽快释放紧急车辆到达事故现场交通管制时L2维持直到现场事故处理完成。根据图5(一个)下,路径规划方案1和2使用PERDQN有相同的到达时间和消耗时间,所以队列长度的四个流量控制点方案1和2比较图5 (b);通过比较,可以发现,最优路径下方案2有最短到达时间,并与方案1相同的到达时间,车辆队列的长度减少,这表明,行驶在最优路径由PERDQN建议方案2中,紧急车辆可以在最短的时间内到达事故现场排队长度。

6展示了培训PERDQN曲线和DQN 2在不同交通控制方案,它显示了PERDQN与DQN相比的优越性,同时也表明,方案4导致最优救援路径之间的四个方案。图7显示了到达时间,耗散队列,时间和车辆队列长度为4秒流量控制点。很明显,救援路径计划由PERDQN方案4将导致最低到达时间和队列长度。也相信通过紧急车辆的轨迹P16-P8-P7-P6-P14将最优路径案例2中拯救。

4所示。结论

提出了一种改进路径规划方法急救车辆在拥挤的城市公路干线网络基于强化学习算法。通过抽象的位置道路节点和路段的长度,MDP模型描述决策建立了路径规划,和关于旅行效率和对道路网络的影响在不同事故期间交通管制方案,引入PERDQN算法进行路径规划。考虑到交通效率和道路网络的影响,特别关注拥挤造成的事故和交通控制方案,该方法能够提供最优路径规划紧急车辆到达城市主干道交通事故现场排队长度最短的时间和最少道路。

根据我们的方法,我们的未来作品包括扩展当前研究城市道路较长的距离,考虑多个救援点的路径规划和改善路径规划算法的性能。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢本白先生为他的建设性意见,以防选择。作者还要感谢警察马先生从贝林旅,交警部门,西安公安局,因为他在东友谊路合作收集数据。本研究支持部分由中国国家重点研发项目(2020 yfb1600400),陕西省的关键研究和发展项目(2020 gy - 020),中国国家自然科学基金(51505037)和基础研究基金为中央大学、冠心病(300102320305)。