文摘

连接的纵向轨迹规划和自主车辆(CAV)已被广泛研究文献中减少旅行时间和燃料消耗。骑兵的安全影响轨迹规划,混合交通流与CAV和人为车辆(丁肝病毒),然而,还不清楚。本研究提出了一种强化学习建模方法,名叫蒙特卡洛树搜索自主车辆安全算法,或者MCTS-AVS,优化混合交通流的安全,在单行道路路口交叉控制。事故潜在指数(CPI)定义特征测量混合交通流的安全性能。骑兵轨迹规划问题是首先制定作为一个优化模型;然后,提出了基于强化学习的解决方案过程。tree-expansion决心模块开发和推出终止模块识别和减少不必要的树扩张,以火车模型更有效地向期望的方向。案例研究结果表明,该算法能够减少76.56%的CPI,与基准模型相比没有任何情报,和12.08%,相比与另一个团队开发的基准模型。这些结果证明了该算法的令人满意的性能在提高混合交通流的安全。

1。介绍

连接和自动车辆(骑士)被证明有很大的潜力为未来交通系统(1- - - - - -4]。与人为车辆(丁肝病毒)相比,骑士的行为准确控制的计算机算法,和他们的轨迹可以调整与预定义的情报来实现目标,如减少延误和/或燃料消耗在道路路口。这个过程叫纵向轨迹规划和是一个重要的任务实现骑士的全部潜力。车载设备的数据(例如,车载传感器、雷达、相机和激光雷达)和远程设备(例如,DSRC /细胞,GNSS / IMU和先验地图)可以利用安排骑兵轨迹(5]。

大量的骑兵纵向轨迹规划进行了研究。例如,陈等人。6骑士]提出了集中控制方法通过使用成本函数包括骑兵安全、效率和运行舒适感最小化的目标。的连被制定为Min-Max模型预测控制(MM-MPC)问题,在优化加速度生成最小化代价函数。吴et al。7)提出了最优纵向均匀骑兵排的控制策略。线性二次最优控制器设计考虑全面的角度来看,包括行车安全、效率、运行舒适感,有三个性能指标包括车辆间隙误差,相对速度,所需的加速度。Malikopoulos et al。8)为骑士的协调提供了分散的理论框架。后端,speed-dependent安全约束被考虑。研究具有类似目标也可以发现在9- - - - - -15]。

重大进展在骑兵纵向轨迹规划中可以观察到上述的文学,在很大程度上是失踪的一件事是骑兵纵向轨迹规划算法的影响交通流的安全,然后,我们应该如何设计骑兵纵向轨迹规划算法来减少事故发生的概率。澄清,在大多数上述作品,轨迹规划的目的通常是为了减少旅行时间和燃料消耗,和CAV安全通常是建立在模型中约束,而不是客观的。此外,驾驶安全的考虑通常是有限的骑兵本身,而不是其他丁肝病毒的交通流量。然而,学习驾驶安全性和人类行为的研究中,交通事故经常发生,当车辆正在改变速度,如十字路口的加速或减速。在混合交通流环境与CAV和丁肝病毒,骑兵控制算法不仅会影响运动的骑兵,但是,通过交通流冲击波传播,也会影响驾驶行为丁肝病毒的上游位置。因此,应该注意的是,骑兵的安全影响不仅局限于周围的骑兵本身还丁肝病毒,和良好的纵向轨迹规划算法需要考虑所有这些,旨在最小化整个交通流的崩溃潜力。

方法论上,骑兵轨迹调度仍然是一个复杂的问题,考虑高度随机的性质的巨大挑战人类驾驶行为和几乎无限的决策在现实世界的混合交通环境。一个常见的和有效的方法来简化复杂问题是车辆轨迹划分为几个部分。换句话说,汽车通常设置为相同的巡航速度,或持续的加速/减速,在每个阶段。例如,他et al。16)提出了一种多级近似控制模型来解决最优轨迹问题。首先,车辆行程速度计算的算法,然后加速/减速时最后的速度穿过十字路口。吴et al。17)整车控制过程划分为一系列的控制阶段,每个阶段制定作为一个个体涉及时空约束的最优控制问题的存在引起的车辆队列。在[18),车辆应该加速通过几个速度不同的最优巡航速度也把道路的指导。在[19),道路分为三个部分由两个个体变量限速(IVSL)。IVSLs后,车辆速度调整到最后一个恒定值,这样他们的轨迹是光滑的。类似的方法可以找到(20.,21),每个车辆轨迹分为几部分分解最初很难简单的轨迹设计问题。尽管上述方法使模型分析解决和帮助减少计算负担,这些假设牺牲建模现实主义和不灵活的考虑驾驶员行为的不确定性在混合交通环境。

考虑到轨迹规划的建模技术,计算复杂度和算法运行时直接相关建模现实主义和市场普及率(MPR)的骑兵。降低模型的复杂性的一种方式是只考虑纯骑兵流量,即。没有任何丁肝病毒,交通环境。事实上,大量的研究在骑兵轨迹规划在这一假设。例如,李和公园(22)开发了一种CVIC操纵单个算法自动车辆进入交叉路口没有在100%与其他车辆相撞,MPR AVs的环境。王等人。13)提出了一种滚动地平线控制框架来控制所有车辆的轨迹,配备驾驶员辅助系统通过优化代价函数反映了不同的控制目标。在同样的假设,安et al。23)开发了一个环保系统,结合一个eco-cruise控制算法和最先进的车辆模型。周et al。15)提出了一种基于强化学习的方法来训练骑兵排以稳定的速度穿过十字路口。同样的研究背景中可以找到24- - - - - -29日]。在上面的研究中,虽然它能够简化模型和纯骑兵环境下提高计算效率,大大降低了模型的适用性。

解决上述问题,本研究提出了一个模范自由轨迹规划方法改善安全的混合交通流的丁肝病毒和骑兵,名叫蒙特卡洛树搜索自主车辆安全算法,或者MCTS-AVS。我们量化的安全级别混合交通流利用崩溃潜力指数(CPI)最小化的目标。骑兵轨迹规划问题是首先制定作为一个优化模型,然后,一个解决方案过程提出了基于强化学习。tree-expansion决心模块开发和推出终止模块识别和减少不必要的树扩张,以火车模型更有效地向期望的方向。这些建模工作导致算法解决方案质量和安全性能的提高。最后,该算法实现和测试在单行道路路口交叉控制。

2。符号

作为一个方便的参考,在本节中使用的数学符号是介绍如下。 :离散的时间步,和时间范围 :状态时t :行动CAV和设置的所有操作状态年代和时间t :车辆的距离 从道路入口,时间 :数组存储车辆的道路入口,距离时间 :车辆的速度 ,在时间t :数组存储车辆的速度、时间t :进展的车辆的距离在时间t :数组存储车辆的距离进展,在时间t :持续时间的绿色、黄色和红色信号,和周期长度 :最短的时间间隔 :速度限制 :道路段的长度 :车辆的平均长度

3所示。方法

3.1。模型公式
3.1.1。问题设置和分解

我们相信,在不久的将来,混合交通流的组成多个丁肝病毒和骑士在动脉段将一般的场景,而不是纯粹的骑兵交通流量。这是因为过渡到完全骑兵流量可能是一个耗时的过程。这也意味着我们将有一个混合物CAV和丁肝病毒混合交通流和交通动力学变得复杂。为了简化骑兵控制问题,这种混合交通流是首先分解为几个基本交互单元(国际),“如图1。分解后,每个骑兵参与一个国际障碍,和其余的车辆排的丁肝病毒。在图中1丁肝病毒的数量可能是一个或多个,或者可能没有骑兵。因此,混合交通流问题可以转化为一个轨迹优化问题对于每个国际障碍,大大降低了计算复杂度。

有两个原因这样的分解。首先,如果一个丁肝病毒是驾驶的骑兵,由于人的本性,它将驱动器根据限速或流行的巡航速度,因此,其行为并不影响其背后的骑兵。第二,骑兵速度受到限制或目前的交通状况,因为它不能开车的速度比一个典型的丁肝病毒。相反,当它减慢速度,低于丁肝病毒,它变成了一个移动瓶颈,以及所有丁肝病毒背后被迫放慢速度,遵循这个骑兵。总而言之,混合交通流控制问题,我们总是有一个骑兵领导排,可能有多个丁肝病毒背后的骑兵,在每个基本交互单元。这样的分解也常用在前面的文献。

3.1.2。状态转换

描述状态转换,我们使用 代表混合交通流状态的时间,在什么地方 , ,k是汽车的总数。然后, 更新的 骑兵举措和行动 在时间t。丁肝病毒的交通流量,有两种截然不同的场景:(1)丁肝病毒相对远离十字路口的时候,他们的行为大多是民(CF)和经典的CF模型可以描述的;(2)当丁肝病毒接近十字路口,车辆行为受信号灯。换句话说,车辆将开车经过十字路口时,光是绿色或如果他们不能安全的停止时,黄灯亮。否则,它将停止线前的减速和停止。展示了这两个场景的丁肝病毒行为数据2(一个)2 (b),他们两人跟随车辆的限制,包括避碰和速度限制,以及车辆运动学。

描述速度决策丁肝病毒的第一个场景中,一般采用通用模型考虑随机丁肝病毒行为。与经典的智能驱动模型(IDM)在引入30.),通用模型具有以下优势。(1)人类感知反应时间、速度差和空间进展参与这个模型作为一个简单的结构。它使丁肝病毒轨迹的仿真快速但没有失去太多的细节。(2)随机项揭示人类司机行为的不确定因素也被认为是。这使得模型更接近真实的场景和更高的适用性。通用模型显示的具体配方 在哪里 是人类驾驶车辆的加速度值吗 在时间 , 汽车的速度, 表示人类感知反应时间, 是目标车辆及其之间的速度差异主要车辆时间吗 , 是空间的进展, 是参数校准, 是一个随机的术语与车有关吗 在时间 一些研究人员(例如,31日])校准这些参数在现实世界中收集的数据。后 ,状态转换 是实现了

3.1.3。事故潜在的指数函数

考虑到运动车辆的流量,我们将交通流状态划分为两种类型,进一步评价当前状态的安全性能。一般来说,当车辆速度小于后方车辆,两辆车往往是关闭,交通流有潜在的事故风险。我们定义这种事故潜在状态,如左边的图所示3。例如,当信号光从绿色变为黄色,领先的车辆减速和交通流密度。相反,当车辆速度是大于或等于后方车辆,进展将保持不变或增加的距离,还有在这个交通碰撞的风险较小。这种状态被定义为一个安全的状态。例如,当信号光从红色变为绿色,领先的汽车开始加速和进展的距离逐渐增加,如右侧图所示3

量化的安全程度的交通流量,我们定义了一个潜在的指数(CPI)函数 在哪里 交通流的CPI值在时间吗tk的车辆总数。累计价值认为上述两种状态:两个相邻车辆之间的速度差异计算当他们接近或零当两个相邻车辆远或相对较慢。这个值直接反映整个事故潜在的交通流的程度。

3.1.4。优化模型

整体优化问题是由

骑兵行动的可行域 在时间t受到 在哪里T是混合交通流旅行的时间结束时(例如,通过一个十字路口)。 的上限是骑兵的绝对值加速度。

3.2。解决方案的算法
3.2.1之上。开普敦大学制定

这个问题在方程(4)和(5)是一个具有挑战性的非线性程序(NLP)与一个巨大的状态空间,这使得难以计算的问题。这是因为,在给定的时间 ,这个问题的状态被定义为一组特定的输入特性来描述当前的系统状态和任何需要强化学习算法。混合交通流,许多变量可以用来描述状态,例如,车辆的距离道路入口,车辆速度,加速度,车辆之间的间距/时间进展,时间,和信号光的颜色和他们的剩余时间。显然,当选择更多的功能,更多的细节将被捕获。然而,过多的元素可能直接导致状态空间的一个指数级增长,导致“维数的诅咒。“作为一个结果,一个巨大的状态空间将有一个更高的内存需求和计算负担。因此,必须仔细选择的特性。

在这项研究中,我们选择使用一个组合的时候,车辆的位置,和车辆速度来表示时间,车辆的位置和速度两个数组,包括所有车辆的交通流信息。然而,即使这三个变量有限,一旦我们离散化的时间,空间,和速度维度,这个模型变得高维状态,是非常具有挑战性的解决,因此我们必须依靠强化学习方法。在这项研究中,我们开发了一个启发式算法,蒙特卡洛树搜索自主车辆安全算法,或MCTS-AVS解决这个问题通过搜索near-optimum行动在每个时间步骑兵。

典型的特定算法包含四个步骤:选择、扩张、模拟、和反向传播(32,33]。节点算法(树木上信心边界)是用来MCTS-AVS的第一步,它可以平衡勘探开发之间的两难选择策略的一部分。底层节点的机制,这是用 ,描述由以下公式: 在哪里 选择的政策, 系统状态, 是行动, 是设置为所有操作, 的总数乘以一个国家吗 已经访问了, 行动的次数是一个被选中的状态 , 是经验累积奖励,平均超过所有迭代,当行动 被选中状态 , 是一个problem-dependent参数来控制开发和探索之间的平衡。方程(7)定义的值来计算奖励 : 在哪里 表示的回报仿真与行动一个。安全目标函数是由方程(建模3)。这个目标是集中在事故潜在的指数。期望是,通过调整运动CAV,混合交通流的崩溃可能可以减少。

3.2.2。Tree-Expansion决心模块

当骑兵发射一般特定算法,它将运行在任何时间步四个步骤。然而,有时一些操作既无必要,也有助于提高在实际操作过程中质量的解决方案。换句话说,如果交通状况并没有太多的变化与最后一刻相比,触发特定的仿真不带来任何新的信息,而是可能会引入随机噪声和成长树向一个不受欢迎的方向。此外,这样的操作带来了极大的忧虑算法运行时间和导致浪费内存和CPU资源。

确定当树扩张应该禁止,我们分析一个骑兵的“边际影响”运动。骑兵时执行一个动作,骑兵背后的丁肝病毒,立即会发现一个不同的时间进展,因此,其速度可能会调整根据方程(8)。确定调整的程度,我们执行偏导数,可以推出加速/减速值如下:

应该注意的是,方程(8)仅仅是量化的影响骑兵立即后面的车辆。如果多个车辆骑兵后,将传播到上游的影响车辆以冲击波的形式。因此,总影响的总和所有车辆在骑兵后面,也就是说, 和∀后面的骑兵。

3.2.3。推出终端模块

在仿真步骤中,快速推出算法是用来更新 在方程(7)如下。基本的仿真,骑兵的行动吸引随机从动作集,直到所有车辆成功地通过十字路口。这最后的状态被定义为正常的终端状态,从而终止仿真过程。然而,也有一些特殊的中间状态,如车辆崩溃或其他违反交通规则、后仿真失去了实际意义。这些最后的状态被定义为异常终端状态也将终止仿真过程。为了进一步提高蒙特卡罗树的扩张效率,加快推广算法,我们创建推出终止模块方程(10)来识别异常终端状态和缩短仿真时间持续时间。

仿真终止如果

这个模块包括以下情况下从方程(10)- (10 e):所有车辆通过停止线,崩溃,运行红灯,扭转,超速。模块可以避免不必要的仿真,以减少不必要的扩大搜索树来提高算法的效率。图4节目的影响力推出终止模块对搜索树的结构。可以看出,扩张已经过滤后,减少不必要的树和蒙特卡洛树的广度和深度是有效地缩小。

3.2.4。MCTS-AVS模型

框架基于上述模块,MCTS-AVS算法改进在天真的特定算法(或其特定算法的直接应用,表示n-MCTS)如图5

模型适用于以下步骤。(1)从当前状态 ,在这 是所有车辆的初始位置的距离, 是所有车辆的速度时间吗t。(2)Tree-expansion测定模型决定了如果有必要推出其特定算法通过方程(8)和(9)。如果是的,去第4步,否则去第3步。(3)骑兵领先一步,并相应地更新CAV和丁肝病毒。然后,回到步骤1。(4)确定迭代的最大数量。如果是的,转到步骤5,否则转到步骤6。(5)相应更新CAV和丁肝病毒,然后回到步骤1。(6)选择:确定最优行动骑兵节点函数通过方程(6)。更新美国CAV和丁肝病毒。(7)扩张:随机选择一个对CAV扩大树。(8)模拟:更新美国CAV和丁肝病毒,推出终止模块确定这是一个最终状态通过方程(10)- (10 e)。如果没有,去第9步。否则,到第十步。(9)选择下一个随机移动,回到步骤8。(10)反向传播:计算的最终受益X和更新节点的值。然后,回到步骤4。

4所示。案例研究

在本节中,提出MCTS-AVS算法实现和测试在一个典型的动脉道路段与信号控制。考虑到最低交叉口间距以及一组动脉走廊通常是四分之一英里,400米的测试场景由信号控制交叉口的道路。考虑到典型的城市道路网络拥塞和排队过程在十字路口,一个自由流动的速度8.33米/秒(即。,约20英里/小时)。分解后,骑兵成为领先的汽车排的丁肝病毒。均匀分布的排有六个车辆在道路入口附近。这个场景是如图6,表中列出的具体参数1。然后在MCTS-AVS算法,第一排的车辆分配的骑兵。目标函数是最小化的CPI。

4.1。算法的结果分析

比较的目的,我们定义了两个基准场景。第一基准场景没有骑兵情报,即。,骑兵开车就像一个典型的人为车辆。换句话说,这一基准方案相当于纯丁肝病毒的场景。第二个基准场景使用MCTF-MTF算法以前开发的研究团队(34]。第二基准模型,然而,开发的目标减少燃料消耗和旅行时间的混合交通流,使这种新模型的比较有趣,展示了这个新的MCTS-AVS算法的安全利益。

我们使用了CPI总额最小化作为目标函数,发现CPI值从162.63下降在基准的情况下(没有任何骑兵智能)与该算法38.12。换句话说,CPI值降低了76.56%。这个好处也大于前面MCTS-MTF方法,CPI值为43.36。换句话说,当与第二基准模型相比,12.08%的CPI储蓄。CPI的功能也证明了时空图7

在图7,图7(一)代表基准场景没有任何骑兵智慧,我们可以看到车辆首先以常数开车高速路口,然后踩下了刹车,停在十字路口红灯,最后加速并通过十字路口时,光变成了绿色。剧烈造成的领队汽车制动的一系列减速的丁肝病毒后,大大增加了事故潜在的交通流。相反,更平滑的轨迹被发现在图7 (b),因为这提议MCTS-AVS算法避免急剧减速和加速和确保CPI值的混合交通是保持尽可能低。图7 (c)显示了一个少以前开发的MCTS-MTF光滑曲线的方法。然而,影响安全的改善仍低于MCTS-AVS之前的方法。

4.2。算法收敛性分析

8显示CPI值的变化在不同的迭代。收敛曲线显示CPI值显著下降到38.39(46.8%)时,迭代次数增加到25。在那之后,结果波动随着迭代的增加。也观察到,在50岁th迭代,CPI值实际上变得非常稳定,波动的程度小于1,即。在1/73 = 1.37%,可以认为是聚集。

4.3。背景流量敏感分析

算法的性能在减少CPI值进一步测试了不同的服务水平(洛杉矶,1∼6对应于一个∼F),结果如图9和表2。它可以发现,CPI值,最大的储蓄被观察到洛杉矶B,而最低储蓄附近观察到洛杉矶,E和f .猜是自由流动的流量时(例如,洛杉矶),没有多少可以减少CPI值。相反,也有更大的碰撞风险在通畅的交通(例如,洛杉矶B)减速过程由于信号光的变化。而交通拥堵时(即。,LOS E and F), the percentage of saving was reduced significantly considering slowly moving and a low risk of collision between vehicles.

5。结论和未来的研究

这手稿提出了强化学习建模方法,名叫蒙特卡洛树搜索自主车辆安全算法,或者MCTS-AVS,优化混合交通流的安全,在单行道路路口交叉控制。事故潜在的索引定义特征衡量交通流的安全性能。骑兵轨迹规划问题是制定作为一个优化模型,提出和解决过程。tree-expansion决心模块开发和推出终止模块识别和减少不必要的树扩张,以火车模型更有效地向期望的方向。案例研究的结果表明,该算法能够减少76.56%的CPI,与基准模型相比没有任何情报,和12.08%相比,另一个团队开发了早些时候的基准模型。这些结果证明了该算法的令人满意的性能在提高交通流的安全。

为了扩大研究从单行交通场景中一般有多个车道的道路,未来的研究可以集中在以下主题。首先,如何分解混合交通满足该算法或成为算法改进的基石是一个话题值得调查。此外,与车道的数量的增加,不仅车辆行为,也有换道的动作更大的随机性的场景。从算法本身,如何提高仿真效率和识别不必要的树扩展节点在复杂的条件下也可以调查。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。