城市交通信号优化控制策略的评估和应用基于强化学习

文摘

强化学习方法在复杂的多维空间有自学的能力,因为它不需要精确的数学模型,由于低环境的先验知识要求。单路口,动脉线,和区域道路网的多个十字路口在纸上作为研究对象。基于循环的三个关键参数,动脉协调抵消,和绿色的分裂,一组分层控制算法构建了基于强化学习来优化和改善当前的信号配时方案。然而,基于强化学习的交通信号优化策略适用于复杂的交通环境(高流和多个路口),和的影响比目前高流动的条件优化方法在单路口,动脉,和地区multi-intersection。总之,交通信号控制能力不足的问题进行了研究,基于强化学习和分层控制算法应用于交通信号控制,以便为交通信号控制理论提供了新的思路和方法。

1。介绍

交通拥堵已经成为世界各地world-concerned问题。车辆数量的增加,交通拥堵已深深地影响人们的日常生活和社会经济的发展。交通控制是一种最重要的技术手段调节交通流量,改善阻塞,提高其安全性和节能减排。目前,交通信号控制问题不仅长期拥堵现象在高峰时间,但也有明显的美容高峰时间的能力。为了缓解交通压力,理性分析和控制是一个重要的工具。其进步和发展总是与时俱进,伴随着信息技术、计算机技术、系统科学。

根据系统的适应环境的能力和水平的智能决策,Gartner提议的进化1996年城市交通控制系统发展水平(1]。第一代自适应控制系统采用多次定时控制的时期,分工或完全隔离的自适应控制,实现交通流量的简单规定。第二代交通信号控制系统动态调整的信号配时方案的参数(周期长度、分裂、抵消)。典型的第二代控制系统包括拟声唱法(2和疾走3]。英国交通研究实验室有一个全球声誉贡献交通信号控制领域,特别是当发起者TRANSYT和轻便摩托车信号协调方法(4]。第二代第三代控制系统使用类似的主意来动态调整信号定时参数的波动时变交通流的十字路口。香港Lo和高频Chow调查的关系更好的分辨率和较大的误差自适应交通控制系统通过一个广泛的模拟场景在香港最近开发了动态交通控制模型,迪斯科(5]。Aboudolas K和Papageorgiou M测试基于仿真的初步调查大规模城市道路信号控制问题的网络使用转发建模演示比较效率和实时开发信号控制方法的可行性6]。第四代交通信号控制系统是一个集成的交通管理和控制系统。Meneguzzer C提出两种确定性离散的DP模型之间的交互信号控制和路径选择,提出并与传统的迭代优化和分配(IOA)方法对网络交通信号设置(7]。第五代交通信号控制系统是基于人工智能和自学习的能力。

2。文献综述

2.1。交通大数据环境

数字化和信息基础设施的城市道路交通和建筑相关的系统在过去的十年里发展迅速,和城市交通控制发展从“数据贫困”*“数据丰富”。同时,ICV的外观(智能连接车辆)和自主车辆将共同构建未来交通环境,大大有别于传统手动驾驶车辆的个人信息采集、知觉能力、反应时间、互动行为,等新需求的交通控制已经形成了一个高级需求的下一代交通控制(8]。研究下一代交通信号控制区域交通“数据丰富”环境下提上议事日程。马D等人提出了路口十字路口和lane-based饱和程度估计最大队列长度估计交通车道组,这丰富了获取交通参数和增加了估算方法的精度。例如,结果表明,新方法的最大队列长度估计具有更高的精度比现有的方法基于一个类似的概念,最大和平均偏差为39.36%和12.25%,分别在20周期(9,10]。

有限的条件下截面交通流数据,许多现有的自适应交通控制系统采用交通模型,积极预测网络流量的进化,然后采用综合指标法来优化和解决时间参数。然而,时空数据的实时检测基于城市道路网络交通状态可以提供丰富和高质量的基本数据和细粒度的评估交通控制的控制效果。面对的主要缺陷中遇到现有的自适应交通控制系统,闭环反馈自适应控制系统有更好的响应能力和更高的智能决策水平的不确定性是不可避免的结果的客观需求开发和应用技术(11]。马D提出了一个计算方法占用每周期不同流量条件下,基于三个基本交通流参数之间的关系,速度、交通流量、密度(12]。结果表明,该方法的精度是影响探测器位置和总线无关紧要的比率(13]。

2.2。强化学习交通控制

根据实时采集的状态、奖励和惩罚,单个交叉口信号控制的强化学习可以找到一个交通信号控制优化策略适用于交通流特征通过交互。近年来,越来越多的国内学者研究了强化学习原理,讨论了强化学习算法在交通控制中的应用。强化学习发展迅速的优化控制14,15]。

学者做了大量研究强化学习理论、算法和应用程序并获得许多著名的研究成果。马D提出了一种新的控制方法,将瓶颈环节本身意义和积极作用,对整个测试区域(16]。杨女士认为关键问题在发展中基于代理交通控制系统集成网络是解决互操作性、适应性和可扩展性17]。张我画了一个结论:广泛的为上海设计仿真场景仿真结果表明大部分的观察项匹配很好交通模拟卷和展示的潜力MATSIM大规模动态交通仿真(18]。Aslani M开发自适应交通信号控制器基于连续残余强化学习(CRL-TSC)更稳定,和最好的设置CRL-TSC导致储蓄平均旅行时间的15%相比,一个优化的定时控制19]。

强化学习具有实时在线控制和反馈控制,特别是符合控制思想在城市路口的信号自适应控制。然而,有一个问题是否基于强化学习交通信号优化策略适用于所有的交通环境。

3所示。基于强化学习的交通信号控制策略

强化学习是一个典型的数据驱动的控制方法。在本文中,信号控制方案提出了改进的方法。根据不同的交通流特征,条件是分裂的。基于周期长度的三个关键参数,协调干线信号抵消,和绿色的分裂,一组分层控制算法构建了基于强化学习来优化和改善当前的信号配时方案。

3.1。控制亚区划分和循环优化

至于区域协调控制,主要内容是该部门的协调条件。在信号控制道路网络,每个路口都有其影响范围,该范围内和交叉部分极大地受到它的影响。量化的影响范围和定义的影响,文学定义直接关系来描述相邻交叉口之间的关系,发现当上游节点流量流向下游节点,它是接近或大于下游节点的进口能力。发现的路径相关性主要受交通网络拓扑和OD分布之间的两个十字路口。越OD路径通过两个节点同时,节点之间的相关性越强。流量越高的OD路径同时穿过两个节点,节点之间的相关性越强。越OD路径穿过两个节点在同一时间是独一无二的,节点之间的相关性越强。

优化范围区域层次上道路网络优化。控制条件除以平均旅行时间等特征参数;车辆OD量之间的十字路口和交通协调控制条件最终确定。

所需的信号周期指的是时间信号颜色显示一个周期在设置阶段顺序,也就是说,每个控制的步骤一步的总和一个周期。信号周期的关键控制参数,决定了交通信号控制的有效性。如果信号周期太短,很难确保车辆在各个方向可以通过十字路口顺利,导致频繁停在十字路口,十字路口的利用率的下降。如果信号周期太长,它将导致司机等待太久,大大增加车辆的延迟时间。绿波的周期控制是作为常见的周期的最大关键交叉口的信号周期动脉,和其余的十字路口的信号周期是分配给每个阶段根据交通流率。

根据不同的评价指标,利用基于模型的算法获得最优周期。关于十字路口的交通效率的评价指标,交通容量饱和,服务水平,旅行时间,停止,和国内外常用的队列长度。延迟主要是由于旅游交通摩擦引起的时间损失和流量控制。循环时间密切相关,绿色,和饱和度。这是一个重要的指标来评估路口十字路口的交通服务水平和运营效率,包括队列延迟、停车延误、控制延迟,延迟巷方法。

3.2。抵消优化基于贝叶斯优化算法

相位偏移也被称为时间抵消或绿色的时间偏移量。相位补偿包括绝对相位偏移量和相对相位偏移量。绝对相位偏移是指之间的偏移量开始或结束的信号绿灯(红光)协调动脉在每个十字路口的方向和信号的开始或结束点绿灯(红光)协调动脉在某个十字路口的方向(一般一个关键的十字路口)。之间的相对相位是指时间偏移的起始或结束点绿灯(红光)信号在动脉在相邻路口的协调的方向。相对相位偏移量之间的差值等于绝对相位偏移两个十字路口,这是由实际的车辆速度。

根据十字路口之间的协调效应,它分为几个控制条件,内部协调控制是实现交通的特点。控制亚区划分的基本原则如下:

相邻交叉口之间的距离小于600米,控制次区域包含不超过10的交叉点上。

每个路口的最优周期长度是一个整数倍数的关系。

下面的线和不一致的协调效果不应包括在分区域协调:

过长连接,沿着连接高度离散交通流。

有交通生产来源或吸引力来源(如大型停车场和购物中心),非常频繁的行人活动双方特定的路线,严重干扰交通流。

贝叶斯优化算法属于顺序基于模型的优化(SMBO)算法。这个算法决定了未来的价值(最优)样本集通过分析历史的观察一个损失函数。自从贝叶斯优化算法提出了2010年左右,它被用来优化机器学习模型的hyperparameters近年来机器学习领域的。所谓superparameter模型参数,需要人为地设置。在这种竞争中,由于大量的时间参数需要优化,其中包括多个不同的十字路口的信号分割和相位偏移,解决方案空间维度相对较高,优化非常困难。贝叶斯优化算法的总体想法如下:

计算后的预期损失函数用观察到的样本集。

生成一组新的样本样品损失函数 ,可以最大化的期望独立变量的值范围。

重复以上步骤直到到达预设的收敛条件。优化过程结束。

该算法将在下面详细描述和过程将总结。

计算后的预期损失函数 ,样品的可能性模型的先验概率模型应该提前获得。在贝叶斯优化过程中,我们可以假定样本服从多元正态分布和高斯概率函数获得:

先验分布,我们假设损失函数f可以被描述为一个高斯过程(GP)。高斯过程的本质是泛化的多元高斯分布函数分布。因此,正如高斯分布决定于它的期望和方差,高斯过程完全由它的预期功能和协方差函数。高斯过程广泛应用于所有的应用后验分布的概率模型,因为它描述的损失函数是容易分析和计算。

使用最广泛的采集功能之一是预期的改进(EI)函数。EI函数被定义为

在哪里是当前最优样本集,这个函数给出了一个新的样本集,最能提高的期望损失函数。此外,预期提升函数可以计算基于高斯过程模型,即

在哪里和累积分布函数和概率密度分布函数的多元标准高斯分布,分别。当后期望μ(X)高于当前的损失函数最优值 ,EI将得到更大的价值。当不确定性σ(X)的X高,EI将得到更大的价值。

在上述分析和介绍之后,贝叶斯优化的原理和过程可以概括成贝叶斯优化算法:

考虑到观测值的损失函数,后期望损失函数基于高斯模型的更新。

解决预期提升函数(EI函数)来找到最好的新样本集: 。

计算损失函数的值。

重复以上步骤直到预设数量的重复(即。,the number of iterations) is reached or the convergence condition is met.

在(2)上面的步骤,我们可以基于使用梯度方法优化EI函数得到的解决方案。

在此基础上,确定最优周期长度等参数,重复数据删除后交叉口的相位偏移可以被视为输入损失函数样本集。样品吗的函数,它返回的是在线反馈,可以多次迭代基于贝叶斯优化算法。

3.3。分割优化基于q学习算法

在城市交通系统中,交通流量、车辆速度、密度和交通是交通状况的最直观的反映。他们是三个交通流特征参数和交通流理论的研究重点和基础。其中,交通流量是指单位时间内通过的车辆数目;车辆速度指的是距离,单位时间内通过的车辆;和交通密度是指单位长度上的车辆数量部分。交通流理论的基础,建立城市交通信号控制系统。

交通模型使用离散差分方程或连续时间细分工具引入动态交通量Q的概念之间的关系,车辆速度V,交通密度K,总结了交通网络的物理量,是用来描述集体大量车辆的平均行为。在自由流动,车辆之间的相互作用可以忽略,与车辆交通流量增加线性密度。宽运动阻塞流通常由stop-go-stop交通特征,也就是说,一系列的堵塞。车辆在该地区的密度高,车辆的平均速度和流量很小。同步流的平均速度明显低于自由流动。

目前,q学习算法是最常用的方法之一,在强化学习领域,提出1989年沃特金斯(20.]。q学习算法广泛应用于控制领域,根据其特殊的价值函数的更新方式。

在q学习的主流价值函数的解公式如下。

根据公式,此刻的t, q学习的状态年代_t。如果采取了行动一个_t,对应的值函数将Q (年代_t,一个_t)。的更新值函数是由三个因素决定的。第一个是操作的当前值状态值函数,Q (年代_t,一个_t),需要更新。第二个是控制相应的最大值的q值的行动来的年代(t + 1),第三个是最直接的回报,r (t + 1),后行动。除此之外,还有两个模型参数,学习速率α∈ 0 1和折扣因素γ∈(0,1)。前者是用来平衡算法的学习和利用之间的关系。→1时,控制器会探索新知识;否则它将使用现有的知识。后者是用来协调当前与未来的关系。当 ,控制器会考虑未来的回报,当 ,控制器主要考虑立即返回(21]。

无论是在理论研究还是在工程实践的分析中,道路交通密度是衡量交通拥堵的程度的有效指标。交通部分的操作影响上游和下游交叉口的信号控制。释放信号直接在上游路口的密度变化部分,间接影响的交通容量和饱和部分停止线和间接影响队列部分的密度。两者的相互影响尤其明显处于过饱和状态。因为在不同部分连接汽车的普及率是未知的,无法直观地反映道路的实际流量通过离散连接车辆的数量。即使通过扩大样本,很难保证精度,但它可以清晰地反映整体交通流的速度。因此,本文运用交通密度为核心的绿色分离优化参数提供依据。

3.4。的流量控制算法

首先,根据不同的评价指标,利用基于模型的算法获得最优周期。使用车辆的平均旅行时间和贝叶斯优化方法基于高斯过程,这是常用的机器学习算法的优化,干线协调控制设置。优化的相位差的双向流动比率的上游和下游道路和合理设置人行横道阶段。然后设置不同的绿波带宽匹配的上游和下游交通早高峰小时,潮汐现象与不均匀旅行速度。q学习等智能算法用于优化每一个交叉口的绿灯的分割利用关键在每个十字路口交通流参数。

总之,流的交通信号控制策略如图基于强化学习1。

4所示。交通信号控制策略的验证基于强化学习

4.1。验证单交叉口信号控制策略基于强化学习

q学习等智能算法用于优化的绿色分离单个交叉口通过使用关键的十字路口交通流参数。我们比较了q学习控制方法本文采用与传统的定时信号控制和自适应控制方法在第二代交通信号控制系统。交叉口的延误意味着所有车辆的平均延误通过所有路口的车道组相同的周期。结果如图所示2。

相比传统的定时控制的交通信号控制方法基于q学习算法应用于本文的研究表明,q学习控制方法的应用取得了良好的性能。在有效性方面,与传统的定时控制相比,优化交通信号控制基于q学习的影响,分别达到31.68%,30.10%,37.59%,38.07%,40.69%,和43.89%,这表明,与传统的定时控制相比,基于q学习的交通信号控制可以达到更好的优化效果。然而,与现有的交通控制策略相比,优化交通信号控制基于q学习的影响,分别达到-4.21%,-5.28%,3.14%,6.23%,13.11%,9.72%。优化交通信号控制基于强化学习的效果不如在低流量条件下,当他们在中、高流量条件下更好。

4.2。动脉交叉路口信号控制策略验证基于强化学习

绿波协调控制有三个重要参数条件:每个路口的信号时钟应该同步;信号周期应该是相同的,相抵消(相邻交叉口的行程时间计算基于实际的平均速度)。只有这三个条件绿色浪潮的有效性可以得到保证。

离散连接车辆轨迹数据不能直接获得所需的数据信号分布和交叉渠道化方案在传统条件下可获得更详细和完整的trajectory-level数据。完整的车辆在驾驶的物理轨迹不仅可以反映车辆在道路上的驾驶路径网络,但也反映了车辆速度与时间和空间的变化特征。它是最全面和完整的表达形式的交通流运行状态,包含丰富的交通流信息为抵消优化关键参数(例如,旅行速度,队列长度,延迟,和终止时间)。

过度饱和状态的协调控制问题在早上高峰时间,上面的研究基本上是基于强大的数学假设模型,但由于控制系统偏离了原来的轨迹不基于强大的数学假设模型和从外部干扰的控制系统。针对这些缺陷,一些学者进一步提出了预测控制的思想,使系统实时正确的轨迹偏差,实现最优控制的目的。然而,建立最优控制模型仍然是一个集中式处理的想法。在十字路口控制问题中的应用,它侧重于单点交叉口的控制问题。从结构的角度控制算法的分层控制结构可以整合更多的控制人员的设计思想,这是很大的帮助来解决这个问题的复杂的道路网的控制状态。随着智能控制技术的发展,基于高斯过程的贝叶斯优化方法,模糊控制,强化学习计算,神经网络也已经广泛应用于交通控制。然而,这些应用程序提供一个类似的功能,松散结合实际交通状况。在线控制系统的计算速度仍然是一大障碍,是很难把它的实际应用。因此,交通控制在网络层对高峰应该基于离线大规模优化计算基于交通模型(基于行程时间,然后获得相邻交叉口之间的相对相位偏移量)和智能算法(贝叶斯优化方法基于高斯过程),寻求实现system-optimized相抵消时间计划。

另一方面,在传统的干线协调控制方案中,绿色的波速,远期绿波带宽,和反向绿波带宽的起点和终点之间总是相同或几乎相同,而没有或少是考虑个性化的部分之间的速度分布和交通流的潮汐。因此,我们采用不同的绿波速度优化方法对不同道路部分,结合独特的潮汐现象。交通流量大的方向的基础上,计算出绿波带宽,反向绿波的带宽是适当增加到高峰时间的交通需求相匹配。同时,车辆行驶阶段,分别覆盖的正向和反向双向绿波人行横道,最小化的概率的车辆停在信号控制人行横道。

作为显示在图3原始信号控制方案的比较和层次交通信号在不同的流量控制方法。与原始信号控制方案相比,干线交通信号优化控制方法基于层次交通信号控制执行更好的在中、高交通流量。平均延迟每辆车的原始信号控制方案,分别为28.47秒,40.34秒和61.38秒。同时对干线交通信号优化控制方法基于层次交通信号控制,每个车辆的平均延误,分别28.77秒,37.56秒和54.79秒。然后,优化比例分别是-1.05%,6.89%,10.74%。然而,由于交通流量的随机性,虽然有一些低交通流的平均延迟增加,总的趋势相似的结论。

4.3。验证区域交通信号控制策略基于强化学习

区域信号控制的概念可以分为广义和狭义。在狭义上,区域信号控制是一个结合几个十字路口的信号控制方法具有较强的相关性,进行相互协调,即所谓的地区信号协调控制。广义上说,区域信号控制是指所有路口的监控区域内的管理下的一个指挥和控制中心。它是一个全面的针对单一孤立交叉口信号控制,动脉和高度连接的多个路口十字路口。它可以分类根据控制策略(定时离线控制系统、自适应在线控制系统,控制方式(方案选择、方案生成),和控制结构(集中式、分布式)。

车辆路径特征提取的目的是获得节点的信息(即。,intersections and OD points) that each vehicle passes through, so as to be able to calculate other dynamic features of the sections and road networks (such as traffic, average speed, and road network OD matrix). However, the trajectory data does not contain information such as when the vehicle passed through which node, and we only know the coordinate points of the vehicle trajectory. Then, can we extract the vehicle trajectory by using the trajectory coordinate points and the node information?

一开始,我们尝试集群基于聚类的方法,试图集群根据分离道路段的坐标点。然而,在对各种主流聚类方法进行实验,发现聚类不能解决标签问题的坐标点。我们如何标记车辆坐标点和节点的标签吗?进一步的实验后,我们认为车辆路径提取可以由使用inpolygon, MATLAB的函数。的核心思想如下:

以每个节点为中心,普通多边形可以覆盖一定范围构造部分,分别。这些常规的多边形表示节点的输入输出范围,这称为节点正多边形。如果一个节点中的一个坐标点是正多边形,它被认为是属于节点;否则,它不属于节点。

遍历轨迹数据,找出属于哪个节点坐标点。如果一个坐标点不属于所有节点,这意味着坐标点是在路上段和特殊标签。

压缩每个车辆的轨迹信息,并记录每辆车通过的起始行号的节点,每个节点的数量的坐标点。

继续压缩每个车辆的轨迹信息,记录每辆车通过的所有节点(一个字符串和一个向量)的形式,并推导出OD的特点。

在本文中,信号控制方案提出了改进的方法。根据不同的交通流特征,条件是分裂的。基于循环的三个关键参数,动脉协调信号抵消,和绿色的分裂,一组分层控制算法构建了基于强化学习来优化和改善当前的信号配时方案。首先,根据不同的评价指标,利用获得的最优周期是基于模型的算法。使用车辆的平均旅行时间和贝叶斯优化方法基于高斯过程,这是常用的机器学习算法的优化,干线协调控制设置。优化的相位差的双向流动比率的上游和下游道路和合理设置人行横道阶段。然后设置不同的绿波带宽匹配的上游和下游交通高峰时间和潮汐现象与不均匀旅行速度。q学习等智能算法用于优化每一个交叉口的绿灯的分割利用关键的交通流参数如交通流量、密度,在每个路口和速度。最后,本文运用层次交通信号控制算法基于强化学习的相关知识,结合交通工程和工程经验来调整相位偏移和绿色绿波的分裂来解决问题的瓶颈点边拐车辆造成的动脉和信号干扰,然后获得最优解。

有四个关键评价指标包括机动车辆离开道路网络的模拟,和总延迟时间,总行程时间,和总数量已经减少了停下来不同程度如图4。

不同交通流状态,优化效应引起的q学习的信号控制方法提出了在高流条件(32.73%)比在中流量和低流量条件下(22.32%、17.11%)。这也证明了基于强化学习的交通控制策略更适合复杂交通环境(中等和高交通流量,multi-intersection)。

4.4。分析仿真结果

通过以上的比较和分析,可以得出结论,基于强化学习的交通信号优化策略并不是适用于所有的交通环境。单路口和动脉,其控制效果不如当前自适应交通信号控制策略在低流条件。然而,基于强化学习的交通信号优化策略适用于复杂的交通环境(高流和多个路口),和的影响比当前优化方法在高流动的条件,作为两个单独的十字路口和动脉。在未来,我们将专注于网络,继续研究网络交通信号优化方法基于强化学习,然后比较与传统优化算法的影响。

5。结论和讨论

本文运用层次交通信号控制算法基于强化学习的相关知识,结合交通工程和工程经验来调整相位偏移和绿色绿波的分裂来解决问题的瓶颈点边拐车辆造成的动脉和信号干扰,然后获得最优解。

在交通控制的时序动态方面,强化学习没有复杂的优化模块和即时决策可以响应的不确定性时变交通流根据交通流实时观测的特点,也符合实际情况。因此,本文着重于强化学习在交通控制领域中的应用,得出结论,基于强化学习的交通控制方法有更好的适用性在复杂的交通环境(高流和多个路口),但它并不适用于所有交通状况。此外,不同于单交叉口信号控制,面对交通干线和网络化水平的综合控制,它仍然需要进一步分析方面的数据模型和样品,协调优化技术和多主体的策略,和之间的相互作用机理分析启发式指导和更高层次的优化机制,如纯随机优化算法和层次。

数据可用性

作者根据数据支持,获得数据,模拟他们VISSIM-C #与内核算法实现二次开发。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢同济大学智能交通系统研究中心的数据支持。这项研究是由中国国家自然科学基金项目(项目号61773293和61773293)和中国国家自然科学基金重点项目(项目号51238008)。

引用

Gartner n h . c . Stamatiadis和p . j .塔尔诺夫负责这事,“发展先进的智能交通系统的交通信号控制策略:多层次设计,“交通研究记录,没有。1494年,第105 - 98页,1995年。视图:谷歌学术搜索
a·g·西姆斯,”悉尼协调适应性交通系统”学报工程基金会会议上研究方向在城市交通系统的计算机控制1979年,加州,美国。视图:谷歌学术搜索
Y.-T。吴和学术界。Ho”台湾动脉traffic-adaptive信号控制系统的发展及其现场试验:台湾的经验,“《先进的交通工具,43卷,不。4、455 - 480年,2009页。视图:出版商的网站|谷歌学术搜索
r·文森特“安全路口连接设计和自我优化控制,”《先进的交通工具,28卷,不。3、217 - 226年,2010页。视图:出版商的网站|谷歌学术搜索
h·k·h·f . Chow,“自适应交通控制系统:控制策略,预测,分辨率,和准确性,”《先进的交通工具,36卷,不。3、323 - 347年,2010页。视图:出版商的网站|谷歌学术搜索
c . Meneguzzer”动态过程模型,结合交通分配和控制信号与不同的更新策略,”《先进的交通工具,46卷,不。4、351 - 365年,2012页。视图:出版商的网站|谷歌学术搜索
k . Aboudolas m . Papageorgiou大肠Kosmatopoulos,“基于存储转发的方法大规模拥堵的城市道路网络的信号控制问题,”交通研究部分C:新兴技术,17卷,不。2、163 - 174年,2009页。视图:出版商的网站|谷歌学术搜索
j .,的研究数据驱动控制方法在交通控制中的应用,北京交通大学,北京,中国,2013。
d·马罗x, s, w•郭和d·王,“估计最大队列长度为行车道组使用旅行时间从视频图像数据,”IEEE智能交通系统杂志,10卷,不。3、123 - 134年,2018页。视图:出版商的网站|谷歌学术搜索
d·马罗x, s, d . Wang w·郭和f·王,“Lane-based饱和程度估计路口十字路口使用旅行时间数据,”IEEE智能交通系统杂志,9卷,不。3、136 - 148年,2017页。视图:出版商的网站|谷歌学术搜索
x y . Wang杨,梁h . y . Liu”回顾自适应交通信号控制系统的基于未来交通环境,”《先进的交通工具卷,2018篇文章ID 1096123, 12页,2018。视图:出版商的网站|谷歌学术搜索
D.-F。妈,D.-H。王,f .太阳,Y.-M。Bie,金,“溢出识别方法在城市街道网络使用循环探测器输出,“中南大学学报,20卷,不。2、572 - 578年,2013页。视图:出版商的网站|谷歌学术搜索
d, d . Wang y、金,和z .梅,“识别基于上游固定的溢出效应在城市街道网络流量数据,”KSCE土木工程杂志》上,18卷,不。5,1539 - 1547年,2014页。视图:出版商的网站|谷歌学术搜索
利特曼m . L。,“Markov games as a framework for multi-agent reinforcement learning,” in第11届国际会议上机器学习学报》上,第163 - 157页,1994年。视图:谷歌学术搜索
s . j . Bradtke和迈克尔·o·D。,“Reinforcement learning methods for continuous-time Markov decision problems,”先进的神经信息处理系统,第400 - 393页,1995年。视图:谷歌学术搜索
傅d, f,美国金et al .,“选通控制一个基于交通瓶颈链路负载均衡,”国际土木工程杂志》上,14卷,不。5,281 - 293年,2016页。视图:出版商的网站|谷歌学术搜索
w·杨,l . Zhang y史,m .张”的应用代理技术在城市交通信号控制系统:一项调查,“武汉理工大学学报(交通科学工程),38卷,不。4、709 - 718年,2014页。视图:谷歌学术搜索
l . Zhang w·杨,j . Wang,饶,“大规模的基于代理运输模拟在上海,中国交通研究记录,卷2399,不。1,34-43,2013页。视图:谷歌学术搜索
m . Aslani s Seipel, m .水坝”连续残余强化学习交通信号控制优化,“加拿大土木工程杂志》上,45卷,不。8,690 - 702年,2018页。视图:出版商的网站|谷歌学术搜索
c·j·沃特金斯从延迟奖励学习1989年,英国剑桥大学。
c·j·c·h·沃特金斯和p·达扬q学习的。”机器学习,8卷,不。3 - 4、279 - 292年,1992页。视图:出版商的网站|谷歌学术搜索

《先进的交通工具

机器学习在运输

文摘