文摘
本研究开发三个措施优化junction-tree-based强化学习(RL)算法,它将用于全网信号协调。第一个措施是优化运行的频率junction-tree算法(JTA)和交叉状态。第二个是优化JTA信息传输模式。第三个是一个十字路口的优化操作。一个测试网络和三个测试组构建分析优化效果。1组是对照组,2组采用基本参数的优化和信息传播模式,和组3采用优化操作的一个十字路口。环境与不同的拥堵水平还测试了。结果表明,优化的基本参数和信息传输方式可以提高系统效率和绿灯的灵活性,和优化操作的一个路口可以提高系统的效率和个人的十字路口。运用该优化现有JTA-based RL算法,进行信号协调可以表现的更好。
1。介绍
信号控制系统是一个重要的改善城市交通的操作方法。与人民理解交通和技术的发展,城市交通信号控制系统已经经历了三个阶段:单点,线性协调,区域协调。交通信号协调被认为是更有效的比单点和线性协调在缓解交通拥堵。
1.1。回顾文献信号的协调
信号协调也已经有了很广泛的研究在过去的30年。第一个开发的信号协调控制系统包括疾走(1,走开2],PRODYN [3(OPAC),4],罗兹[5],乌托邦[6),克洛诺斯(7,职工大会(8]。尽管信号协调控制可以取得更好的效果比单点信号控制和感应信号控制,也有许多限制信号协调控制,如困难参数校准,计算复杂度,可怜的适应性和稳定性。
考虑这些限制和交通环境的动态特性还提供交互式环境相关学习环境的必要性,提出了机器学习算法用于信号协调控制的研究。在机器学习算法中,强化学习(RL)算法是应用最广泛的领域的交通信号控制。
梁等。9)提出了一个深刻的强化学习模型来控制交通灯周期。Aslani et al。10]介绍了actor-critic方法解决之间的权衡的问题探索交通环境和利用已经获得的知识。Aslani et al。11)开发的自适应交通信号控制器基于连续残余强化学习来提高其稳定性。全et al。12)提出一种新型人工智能,只使用一个十字路口的视频图像;基于图像的RL模型优于固定信号的实际操作和一个完全驱动操作。阿齐兹et al。13]应用R-Markov平均回报的技术强化学习算法对车辆的信号控制问题利用信号控制器连接车辆之间的信息共享环境。Darmoul et al。14)提出了免疫网络算法多重代理系统控制网络的路口十字路口,这是能够处理不同的交通场景。
图论模型可以减少RL的计算复杂度,特别是当需要计算可替换主体的联合行动。但在这一领域的研究已经完成。一些工作包括发展max-plus算法和junction-tree算法(JTA);这些都是应用于道路网络信号协调控制研究水平。
麦地那和Beenekohal15)应用max-plus算法作为协调策略在网络范围的信号控制问题。然而,max-plus算法有两个主要的局限性。首先,它只适用于树形结构网络和不能保证收敛到一个最优的解决方案一般循环网络。其次,该算法仅提供了一个简短的呆头呆脑的传播,指的是在一个节点不准确接收到的消息。因此,它只提供了一个近似推理的确切消息传递。朱et al。16)首次提出JTA而不是max-plus算法来获得最好的交通信号和联合行动,实现全网信号协调。JTA是由詹森首次提出et al。17]。JTA的优势是,它是计算效率,可以处理循环或无环公路网络和准确地推断出最好的联合方案。
1.2。本研究的动机和贡献
朱et al。16]表明,测试网络可以表现得更好在JTA相比,自适应或单RL-based控制。虽然网络系统改善,一些十字路口仍然经历了糟糕的操作。朱et al。16)还指出,有必要评估性能指标的方差在十字路口层面,应制定和修改方案优化系统,以确保所需的性能水平在当地的十字路口。
总而言之,研究目标如下:(1)JTA的基本参数优化算法,这样信号协调控制方案符合实际需求(2)评估现有算法对当地交叉操作的影响(3)提出优化措施,为当地的十字路口来提高算法的实际应用价值
2。介绍了Junction-Tree-Based RL算法
2.1。强化学习(RL)及其在信号控制中的应用
基本的RL模型如图1。它包含一个环境、代理商、学习者和策略。代理从环境中获得国家“s”和选择行动根据国家“a”。动作“a”与环境的相互作用,然后返回到一个新的国家”年代′”并发送一个反馈”r”代理。重复的相互作用后,代理可以学习情况下的最优策略。
在RL交通信号控制的应用,网络的道路环境和信号控制机代理。决定期间,信号控制机需要一个操作激活信号阶段,并相应环境状况的变化。该算法的目标是获得最优策略,可以获得最大回报。最优策略是活化阶段和状态的交通地图。反馈可以包括平均延迟和停止的数量。它的价值可以直接从环境中提取。
2.2。Junction-Tree在信号控制算法和应用
JTA的关键思想是找到一种全球联合概率的计算分解为一组相关的本地计算。介绍了JTA揭示全球和地方之间的重要联系使用图论概率推理。
JTA的本质是信息的传播。向前传播转移从根节点到叶子节点,而反向传播从叶节点到根节点。信息传递的过程可以表示由方程(1)- (4)。
向前传播的来 :
向前传播的来 :
反向传播的来 :
反向传播的来 :
在上面的方程中,根节点;是叶子节点;是分离节点; , ,和表示潜在的功能 , ,和 ; , ,和向前传输后表示潜在的功能;和 , ,和反向传输后表示潜在的功能。
JTA和RL有相同的目标函数的计算最大后验概率。他们都将整个网络优化问题分解为子问题,并都使用马尔可夫属性。在概率模型中,一个节点的概率取决于相邻节点。在交通信号协调控制,十字路口的选择阶段取决于相邻路口的阶段。因此,选择JTA解决交通信号协调控制问题。JTA很有优势在处理交通信号协调控制问题,因为它是最快的和最精确的推理算法。
2.3。RL Junction-Tree-Based算法
的控制流JTA-based RL算法方法如图2。在应用的方法中,RL信号控制的核心算法,并使用JTA找到回报率最高的信号控制方案。现有的研究验证应用方法比定时信号控制,独立问学习信号控制,最大队列长度优先信号控制在不同交通强度。
应该注意的是,RL算法可以学习问价值在特定的交通需求和一个或两个相邻交叉口的信号控制方案。但是,RL算法不能学习问值对整个网络有太多的十字路口,因为大规模的知识需要学习。JTA采用达到最好的信号控制方案,这样问整个价值网络是最好的。在该算法中,没有周期时间和分裂。如果运行JTA的频率是1 s,然后算法只能决定哪些阶段是为每个路口绿灯在接下来的1 s轨道。
3所示。优化Junction-Tree-Based RL算法
3.1。优化基本参数
3.1.1。JTA的频率运行
十字路口的JTA决定了相位开关,低频率运行,给定阶段持续时间会越长。根据反馈调整信号控制方案,运行频率不应低于JTA排队车辆的进展通过线停车。
邵et al。(18和赵et al。19)验证的进展小于2 s当队列长度超过10辆。然而,在现有研究JTA,频率是5 s,不能满足实际控制需求。为了提高信号控制方案的敏感性,并考虑信号控制方案的最小步长,1 s在这项研究工作。
3.1.2。十字路口状态划分
RL JTA-based算法选择最高的阶段计划返回根据道路网络的状态。阶段计划是由十字路口的数量和单个交叉路口的阶段,这是相对固定的。因此,应用信号控制方法的准确性取决于道路网络的状态。但是,大量的十字路口,当信号协调控制提供了一个执行状态划分过于详细,可能导致长时间学习。现有研究对饱和交叉口评价指标的入口,和饱和度的所有阶段的总结,分为三个层次。每个十字路口都包含三个州,和两个相邻路口的状态分为九个。在一般情况下,这个状态划分粗糙,使信号控制方案不敏感的路网的交通状态。
考虑到国家将被定义为一个八维向量应用程序的方法,每个交叉口的饱和度入口分为三个层次,然后每个路口都是分为81个国家。在未来的应用中,十字路口的状态可分为基于特定的详细要求。
3.2。JTA的分析信息传播模式
JTA使用连续性函数计算最大后验概率的时候,不应该直接应用到交通信号协调控制的信息传播。因此,一种新的信息传播方式定义将应用于信号协调控制。新的传播模式,以四个十字路口为例,如下所示。
假设所有四个十字路口只有两个阶段,A和B;阶段是南北交通,B阶段是东西方交通。虚拟道路网络可以被转移到一个连接树使用教化和三角测量,见图3。十字路口1 - 3形成一个根节点;十字路口2 - 4形成一个叶节点,和十字路口节点2和3组成分离。的关键参数问的值是两个相邻路口见表吗1。
JTA的目标函数 。
3.2.1之上。初始化:定义所有节点的势函数
根和叶节点的潜在功能的总和问三个十字路口形式节点的值。分离节点的势函数是两个交叉口的相位组合形成的节点;初始值是null。根节点的势函数分离节点的势函数叶子节点的势函数
3.2.2。向前传播从根节点到节点分离
传输函数 。
在传输之后,应该实现最大价值在所有可能的潜在功能并实现最佳相结合 。传播结果如表所示2。
3.2.3。从分离节点向前传播到叶节点
传输函数 。
传输后,叶子节点的势函数更改 。
3.2.4。反向传播从叶节点到节点分离
传输函数 , 。
在传输之后,应该实现最大价值在所有可能的潜在功能最好的相结合 。传播结果如表所示3。
通过结合和 ,很容易理解这一点 只有当达到最大价值4选择组合。换句话说, 可以达到最大值只有当路口2、3和4都是B阶段;与此同时,必须是13。
3.2.5。反向传输从分离节点到根节点
传输函数 。
在传输之后,更改基于 。在这个时候,是16,十字路口1阶段B应用JTA的结果是获得上述资料发生传播后,也就是说,后四个路口的联合行动变得(B, B, B, B),这将导致联合树实现其最高的势函数。
3.3。单个交叉口的优化操作
进行信号协调控制奉行系统优化和个人的需求的十字路口。例如,单个十字路口入口的队列长度不应太长,当网络有较低的平均队列长度。RL JTA-based算法考虑系统优化的目标;然而,这往往会导致一些入口车道的队列长度太长了。
提高单路口的性能,优化应该研究。
3.3.1。信息传输的基于规则的优化
在JTA-based RL算法,根和叶节点确定信息传输的方向沿着树结。现有的研究中,朱et al。16),只需指定端点连接树的根和叶节点,而不考虑信号控制需求。JTA信息传播模式分析表明,十字路口的阶段是确定反向传播过程。由于这些原因,提出了十字路口的阶段应该首先确定操作较差。因此,应采取最严重的运行节点的叶子节点,所有端点连接树作为根节点。信息传输规则之前和之后的优化图所示4。
3.3.2。分化Return-Based优化
系统问价值JTA-based RL算法决定的问每两个相邻路口的值。例如,一个和B相邻路口,入口之间的两个连接部分一个和B是充满了一个和b,然后问的价值一个和B可以表示为问(一个,B)=一个+b。当一个= 0.1,b= 0.8,然后问(一个,B)= 0.9;当一个=b= 0.45,然后问(一个,B)= 0.9。饱和度的0.1、0.45和0.8显示不同的服务水平,但在计算没有区别问(一个,B);因此,信号的差异不能学到的时机。因此,差异化return-based优化方法提出了优化的定义问值。
如果饱和问作为评价指标,从0到1,问应该分成n水平,和返回的kth水平应( )。当相邻交叉口的饱和度一个和B是和 , 属于水平 ,和属于水平 。因此,问相邻路口的价值表达如下: 在哪里问(一个,B)是问相邻路口的价值一个和B,和是相邻交叉口的饱和度的吗一个和B,和是水平的和 。
4所示。测试案例研究
4.1。网络描述
本研究使用VISSIM5.4构建一个虚拟的道路网和测试优化的有效性在JTA-based RL算法。在VISSIM的详细信息模块(如车辆、换道、交通灯控制)可以VISSIM手册中找到。RL JTA-based算法是用VB.net编写的,与VISSIM组件对象模型(COM)接口。
虚拟道路网络相同的朱镕基等人的研究(16]。在相同的测试环境下,这项研究的结果应该更有说服力。网络使用一个结构有六个水平和三个垂直的道路。车道的数量是随机集,网络中有18个十字路口,每个入口都有一个独立的左转车道,如图5。此外,鉴于树网络转换成一个结,如图6。
路段的长度在测试网络设置随机,和渠道化方案的18个十字路口也不统一。所有18个十字路口在测试网络协调一致的十字路口。四个阶段是:(一)西+ w e,右转,(b) n + s (n,右转,(c)双重离开学位+ W-N绑定和(d)双重西南郊约20离开+ n e。
RL JTA-based算法的性能测试在拥挤的三个层次:低,中,高。交通需求是输入到网络通过起源在图18链接5。交通拥堵水平是反映在需求范围的输入,500至600 vph vph, 600 vph 800 vph,分别为1200和900 vph vph。
4.2。测试组设置
在测试案例中,队列长度采用构建返回和目标函数。创建目标函数为系统实现最短的队列长度。返回函数如下: 在哪里十字路口的回归吗我在阶段j和时间t,是十字路口的交通量关键的入口吗我在阶段j和时间t,是密度的关键入口时拥挤的,然后呢是十字路口的车道长度可以排队吗我在阶段j。
三个测试组测试优化方法的有效性。设置的细节如下:组1:现有研究朱et al。16)使用JTA信号协调(1)JTA运行频率:5 s(2)交叉部门现状:每个路口都包含三个州,两个相邻路口的状态分为九个部分(3)JTA信息传输模式:模式中引入部分2.2(4)根和叶节点:V(1、2、4)根节点,和V(14、16、17)V(15、17、18)的叶节点(5)问价值:计算不考虑差异化的回报组2:优化的基本参数和信息传播模式(1)JTA运行频率:1(2)交叉部门现状:每个交叉口的饱和度入口分为三个层次,分为81个国家,每个路口(3)JTA信息传输模式:模式中引入部分3.2(4)根和叶节点:组1一样(5)问值计算组1一样第三组:优化信息传输规则和回报(1)JTA:频率组2一样(2)交叉部门现状:组2一样(3)JTA信息传输模式:组2一样(4)根和叶节点:最糟糕的运行节点作为连接树的叶子节点,而所有端点作为根节点(5)问value-differentiated返回计算和应用
除了以上设置,组1的培训时间是5 h,而组2和3是10 h。培训后,三组应用于信号协调;每组包含10个模拟运行(每一个都有不同的随机种子),并且每个模拟持续1小时。
differentiated-return-based优化方法采用3组分类队列长度是必要的 。这是本研究分为三个层次:第一层次 ,第二个是 ,第三个是 。每一层的回归是2,4,8,分别。
4.3。测试结果分析
通过比较三组的测试结果,可以得出几个结论如下。
4.3.1。每个阶段的绿灯是更加灵活
以十字路口8为例,50个随机选择的连续提取阶段中拥堵水平以下,和相应的绿灯时间图所示7。调用JTA的频率在组1 5 s,所有阶段的绿色时间是5的倍数,而组2的绿灯时间不受此约束。组2的绿灯时间可以调整根据队列的长度。可以得出结论,基本参数的优化可以增加绿灯时间的灵活性,从而使绿灯更合理。
4.3.2。信号协调的效率提高
系统的队列长度和十字路口在不同交通拥堵水平如表所示4。十字路口的队列长度最长队列长度的所有入口车道阶段时切换。系统的平均队列长度是所有18个交叉口的平均队列长度。随着交通需求是通过链接输入到网络的起源,最外层的十字路口的网络直接影响流量输入,这也可能会影响评价结果。考虑上述原因,只有十字路口5、8、11、14和分析选择。
系统的队列长度而言,表显示组2的长度小于组1 10%以上。它可以总结出优化的基本参数和JTA信息传输方式可以提高信号协调的效率。组2和组3的长度并不明显不同,这意味着单个交叉口的优化操作对系统操作的影响不大。
4.3.3。问题参数优化和信息传播模式之后仍然显著
优化方法改善系统操作,但一些十字路口的操作仍然是穷人。表4显示一些十字路口在2组的平均队列长度长于1组;例如,十字路口5下拥堵水平低和十字路口8高拥堵水平。队列长度的50个随机选择的连续阶段这两个十字路口也如图8和9。这两个数据显示十字路口与大型队列长度的波动,如十字路口下5拥堵水平低的最大队列长度0.55和最小队列长度为0.16。
换句话说,优化基本参数和信息传播模式后,单个交叉路口的操作仍需改善。
4.3.4。优化操作单路口可以减少系统的最大队列长度
系统的最大队列长度在低和高拥堵水平计算每隔10年代,如图10和11。很明显,队列长度组3是最低的。换句话说,系统的最大队列长度减少了优化后的操作一个十字路口。
4.3.5。优化操作的一个路口可以减少波动的队列长度的十字路口
应用差异化return-based优化后,组3应该更加敏感对回报比组1和2。十字路口的队列长度5低拥堵水平下不同群体可以作为一个例子。队列长度的变化如图所示12。组1中的队列长度变化从0.18到0.53,组2变化从0.17到0.55,3组从0.32到0.44不等。队列长度的波动表明,组3中的十字路口有更好的操作,这受益于分化return-based优化。
5。讨论和结论
研究提出了三种优化方法对JTA-based RL算法可用于全网信号协调。三个测试组建立分析优化效果。组1使用现有的算法应用JTA信号协调;这一组作为对照组组2应用基本参数优化和信息传播模式相对于组1组3应用优化传输规则相对于组2和返回
详细的分组和改善效果如表所示5。
表5表明本文提出的优化发挥良好的作用,改善操作JTA-based RL算法用于网络范围的信号协调。优化的基本参数和信息传播模式可以提高系统效率和绿色灯的灵活性。优化信息传输规则,还可以提高系统的效率和单一的十字路口。它可以得出结论,可以实现更好的操作结果进行信号协调运用提出优化现有JTA-based RL算法。
然而,研究结果是基于一个假设的网络。实际实现的结果应该在未来的研究学习。这将使我们的结论更强。更重要的是,每个十字路口仅分为81个国家;更详细的国家部门应该研究的可能性。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由高校自然科学研究项目的江苏省(19 kjb580012)。