文摘

环境有关的身体,技术网络化的东西可以找到网上被称为“物联网。“使用各种设备连接到一个网络,让这些设备之间的数据传输,这包括创建智能通信和计算环境,如智能家庭、智能交通系统、智能FinTech。各种学习形式和优化方法计算智能的基础。因此,包括新的学习技术,如反对学习、优化策略和强化学习的关键是为下一代的物联网应用发展趋势。在这项研究中,基于可替换主体的协同控制系统强化学习与智能传感器variable-guidance部分提出了在不同的路口。在未来一代的物联网(物联网)应用程序,这项研究提供了一个multi-intersection可变转向lane-appropriate控制方法,利用智能传感器以减少许多路口交通拥堵。由于multi-intersection场景的复杂交通流不能通过传统的可变转向车道管理方法。优先体验重播算法还包括提高转换效率的序列的使用经验重播池和加快算法收敛的有效的服务质量在即将到来的物联网应用。试验研究表明,multi-intersection变量转向车道与智能传感器是一个适当的控制机制,成功地减少了队列长度和延迟时间。等待时间和其他指标的有效性优于其他控制方法,有效地协调战略转换的变量可操纵的车道,提高路网的通行能力在多个十字路口在即将到来的物联网应用程序中有效的服务质量。

1。介绍

数量不断增加的机动车辆在我的国家,道路交通的供给和需求之间的矛盾日益加剧。特别是在十字路口场景,每个在十字路口的交通流提供了一个不均匀分布在不同的时间段,这很容易导致交通堵塞和浪费车道资源。为了解决这个问题,变量可操纵的车道使用智能传感器技术应运而生,它使用车道作为一个变量空间资源和动态分配根据每个将交通流量的需求的基础上,无线传感器之间的通信,以改善道路空间资源的利用率。智能传感器是一个函数,可以感知和检测信息从一个特定的项目,以及学习,法官和接收信号,一种新型的传感器管理和交际功能。智能传感器能够自动校准、补偿和收集数据。智能传感器的功能确定其精度高、分辨率,稳定性和可靠性和灵活性。它提供了一个很好的性价比标准相比,传感器。智能传感器有三种:那些可以判断;那些可以学习;而那些具有创造力。 Intelligent velocity sensors, intelligent acceleration sensors, intelligent flow sensors, intelligent position sensors, intelligent attitude sensors, intelligent displacement sensors, and intelligent dimension sensors are a few examples of intelligent sensor types.

变量可操纵的车道的一个十字路口,传统的控制方法可以有效地减轻方向盘不平衡的问题,但是随着可变转向车道的数量增加,多个路口之间的交通流变化变得更加复杂,和现在的能力,传统的方法是更加困难,和多个协调控制是不可能的。因此,如何使合作multi-intersection variable-guidance车道更有效的成为一个新问题。可变转向车道与许多十字路口是一个技术找出多变的导向车道的长度信号控制结的方法是披露的一项发明领域的道路交通标志线。过程变量需要首先获取的交通数据信息指导巷的方向指导,其次是将接收到的交通量转换成同等标准的小型车辆交通量。用排队论模型,然后可能确定的车辆排队数后面的信号控制路口停止线方法使用多路径排队多通道系统,车道排队不平衡系数的组合方法。最后,车辆数量转化为测量的信号控制交叉口可变导向车道的方法使用米的车辆平均排队长度。交通效率的方法可能是使用技术来估计的长度增加了信号控制交叉口的可变导向车道的方法,它允许汽车上游的可变导向车道进入路口的方法顺利。

“variable-guided车辆路线”一词描述了一个跟踪旅游方向并不完全为左旋转,右转,继续向前,而是包含了各种函数根据一天中不同的时间。整体交通十字路口的效率可以大大增加由于这跟踪的方式。自入口车道的路口交叉不适合扩大或有许多运河网,马车流显著缺乏一致性,不适合条件的信号控制装置来解决这个问题。应用在杭州、无锡、唐山、烟台,相当于中国的上海。可变车道正在安装在十字路口在几个地方为了更好地利用道路资源,增加通行能力。可变车道控制方法主要采用人工观测的流量交换条件,或者在定时切换执行基于历史统计数据。手动切换模式效率低下,统计方法不准确地反映当前的交通状况。然而,人工智能的快速发展和vehicle-road合作技术可以提供更多的可变车道控制实时和精确的数据。它是可行的调节变量巷更有效地通过适当的利用这些数据。

在本文中,我们提出一个variable-guidance协作控制系统部分基于可替换主体在不同的路口强化学习和智能传感器。本研究提出了一种multi-intersection可变转向lane-appropriate控制策略,利用智能传感器以减少交通拥堵在多个连接在下一代互联网(物联网)应用程序的东西。优先体验重播算法也将增加的效率转换序列的利用体验重播池中,加快算法的收敛在即将到来的物联网应用程序中有效的服务质量。

在十字路口的交通流动态变化在时间和空间。例如,在早晚高峰时段,每个在十字路口的交通流显示明显的规律变化,有一个严重的不平衡在不同导向车道车辆的队列长度。为了提高交叉口的通行能力和解决城市道路交通拥堵的问题,一些交通研究人员进行研究动态可变车道转向系统的控制方法,主要集中在三个方面:传统的控制方法,智能控制方法,强化学习方法。监督学习是机器学习的词,它是指独立的方法构造一个函数通过学习相关的样本。这是学习的方法广泛的概念从一个小数量的例子与他人。相反,强化学习是机器学习的一个分支,基于行为心理学的概念和直接关注与环境进行交互。它是人工智能领域的一个重要组成部分。回归和分类在监督学习是两个主要的工作,而剥削或探索,马尔可夫决策过程,政策学习,深入学习,和价值在强化学习中学习是不同的任务。基本加固模型中指定的马尔可夫决策过程的强化学习,而监督学习考察了训练数据并生成一个通用的公式。每个例子在监督学习将有一双输入对象和所需的输出值,然而,在强化学习,代理与环境交互在离散步骤,每个时期的观察”t为每个观察”,获得奖励,然后试图积累尽可能多的回报,使更多的观察。

公式来衡量的排队长度车道可以解释我们所展示的M / M / 1队列

我们可以演示的M / G / 1队列 在哪里l平均队列的平均顾客数,可能是忙,和时间的百分比公式所代表的都是忙吗ρ=λ/ (),1 /E(Inter-arrival-Time),E代表期望操作符,代表平均到达率, 服务时间的方差。

2.1。传统的控制方法

传统的可变车道控制方法研究基于经验或历史数据的使用方法提前设置控制计划和设计变量的指导规则可操纵的交叉路口车道。文献[1)提出了一种信号通道优化基于经验与phase-integrated设计有机结合。文献[2,3]提出variable-steering车道的转向控制模型在基于经验规则的一个十字路口variable-steering车道的设置条件。交通流量的变化特征和实际交通需求转向更紧密地与文献[4),全面考虑了实时交通因素在一个十字路口,和评估preimplementation计划。

特定的车道功能和信号定时切换方案部署,但预案必须反复测试和精度不高。文献[5,6)进行整数非线性规划根据多个道路约束与目标相关联的十字路口。模型的优化达到最小的优化后的临界流比一个十字路口。文献[7,8)集成关键交叉口的道路条件和下游相邻路口实现一个关联的控制模型。上述工作只考虑关键十字路口一个相邻交叉口影响但不设计一个综合优化方案相关的十字路口。文献[9)提出了一种控制方法协调多个路口的设计变量符号和相应的信号组基于收集的数据规则更好地减少车辆的平均延误。

上述方法的预设定变量规则转向车道通过经验或总结历史数据规则能够适应常规交通状态变化的需求在一定程度上,但是很难动态适应道路交通条件和突然的供给和需求异常交通流的变化。

2.2。智能控制方法

研究智能控制变量方法转向车道使明智的决定基于各种交通流实时收集的数据,并改善了十字路口的实时交通流变化的适应性。一些作品在道路使用收集到的实时交通流数据,如每个车道的空间,入住率(10),交通流量、速度、队列长度和其他特征通过视频检测(11),动态决策变量转向车道切换策略,但其后续的交通流变化适应性不好当结合实时收集的数据。文献[12]预测每个将交通流为基础判断车道方向切换和最小化平均延迟时间在十字路口。文献[13利用动态加权最小二乘法和短期交通流预测模型和融合算法为核心结合交通状态预测模型与模糊理论和神经网络系统的数据理论的核心,实现自动控制可变车道转向。文献[14)建造了一个混合整数和双层规划模型解决了粒子群算法来实现最小化的目标可变车道的基础上的总旅行时间预测模型。

以上相关研究工作有两个局限性:(1)主要应用于智能控制决策variable-steering车道转向一个十字路口和(2)prediction-based智能算法主要是基于历史和实时数据,和不能快速更新规则适应交通流的动态变化。

2.3。强化学习方法

近年来,强化学习技术发展迅速。它环境的先验知识要求较低,可以达到良好的学习优化的性能在复杂的非线性系统。因此,它适用于复杂多变的multi-intersection variable-guided巷智能控制方案。multi-intersection协同控制问题,交通信号优化的研究已经广泛使用的强化学习方法。文献[15)结合深强化学习的交通信号控制问题,分别定义状态,操作空间,并奖励功能,使用DQN(深Q-Network)模型,广泛的合成实验和实际数据证明强化学习方法的优越性。文献[16)定义联合使用可替换主体强化学习技术值的加权和个人价值观,通过最小化的加权和值和全球值,以确保一个代理可以考虑其它个体的学习过程,实现大规模的交通信号自动控制。文献[17)提出,不同的代理交换策略后,每一轮的学习达到一个零和游戏。在此基础上实现自主车辆的信号控制策略,并设计了一个有益的方法,结合了个人效率和整体效率。在multi-intersection协作控制场景中,交通信号优化时间维度的交通状况,和智能可变导向车道的空间维度。上述两个方向适合强化学习方法的使用进行全局优化研究。

3所示。可变转向车道合作控制方法采用智能传感器

3.1。总体结构

本研究提出了一种multi-intersection风向多变巷合作使用智能传感器控制算法基于可替换主体强化学习。方法主要包括可替换主体强化学习模型与智能传感器,一个全球奖励分解算法,算法和优先体验回放。可替换主体强化学习模型提出了基于价值函数QMIX算法的分解算法(18]。QMIX算法采用集中培训和分布的策略执行和使用全球回报函数优化联合行动在训练的帮助下智能传感器。价值函数可以实现多重代理合作控制的影响,和每个代理结构,提取相应的本地策略的联合行为价值函数,它不仅可以处理问题引起的环境的非平稳通过集中培训,还通过联合行为价值函数反向传播学习当地的每个代理的“最好”的政策,使可替换主体分散执行。通过提供一个更灵活的版本的限制,QMIX提高VDN算法。约束描述如下: 在哪里合计表示总功能和价值一个表示值函数为每个代理。每个特定值的权重函数一个应该是积极的,根据一个显而易见的解释。如果个人价值的权重函数一个是消极的,代理将被鼓励合作,因为更大的吗一个,共同价值越低合计。集中和分散的规则之间的一致性,表示每个QMIX由代理网络一个和混合网络,把大家召集在一起合计而不是像VDN添加它们。通过要求混合网络积极的重量,也会带来更多的限制。自从QMIX分解表示生长与代理的数量,它能够描述复杂的集中行为价值函数和使它简单的提取使用个人argmax操作在线性时间内分散的政策。

全球奖励分解算法提高了全球奖励分配法在价值函数分解算法和强加约束全局值函数和值函数之间的一个代理。在一些复杂的场景中,全局最优联合行动可能需要智能传感器做出一些牺牲个人利益的行为。分解技术把一个难题变成一个更简单的。只有二元约束的范围内形成一个有向无环图,出现的新问题。每组变量从最初的问题是由一个变量的新问题。这些集包含一组初始变量即使他们不一定是不相交的。在每组变量的关系,揭示翻译所有的部分解决方案。当地的解决方案之间的相互作用是反映在翻译问题。分解的方法创建一个二进制非循环问题定义;这些问题可能解决一个多项式时间的大小。 In response to this problem, this study decomposes the global reward into two parts, one part is the basic reward, and the specific distribution to different agents is realized through the QMIX hybrid network; the other part is the performance reward, according to the agent. The state hierarchically is assigned to each agent which is the IoT so that a single agent can maximize the global reward while taking into account its own reward, and realize the secondary distribution of the global reward. In RL, the agent receives a reward that is often a sum of many reward components, each designed to encode some aspect of the desired agent behavior. From this composite reward, it learns a single composite value function. Using value decomposition, an agent learns a component value function for each reward component. To perform policy optimization, the composite value function is recovered by taking a weighted sum of the component value functions. While prior work has proposed value decomposition methods for discrete-action则将。自治代理的发展通常是通过强化学习。在RL框架中,代理是允许的行为环境和奖励数值在每一步而不是显式地编程。RL算法的目标是发现策略,最大化总体预测奖励(或一些相关标准)。因此,奖励函数意味着最优行为。为了评估行为类型的优缺点以及它们之间的关系,语义相关的技术分解奖励为资金奖励类别。简明地描述一个动作为什么比另一个更有利的种,我们特别提出最小的想法足够的解释。

优先体验重播算法,针对不均匀随机抽样质量经验,导致培训效率低和算法收敛速度慢,联合价值函数的值函数分解算法用来计算错误,并结合样本抽取的数量来计算的优先级来加快算法收敛。

3.2。可替换主体传感器强化学习模型

可替换主体传感器基于价值函数强化学习模型分解如图1。基于值分解网络(VDN)算法(19],最初的线性映射被一个非线性映射,和超级网络介绍添加额外的全局状态信息映射过程来提高算法的性能(20.]。使用当前观测状态的每个代理的智能传感器,执行前面的时间步的作用作为输入,一个全球性的行为价值函数是通过混合网络学习这些智能代理 是全球的状态,α是全球行动。在multi-intersection变量转向车道场景中,涉及元素,如状态空间,操作空间和奖赏函数定义。为了使更现实和更丰富的输入状态,每个方向的车道的队列长度作为车辆的平均等待时间和平均延迟时间的比率指标。此外,为了准确地描述车辆的位置分布,变量转向车道区域离散和编码获取车辆映射矩阵,如图2。车道分为大小相同网格覆盖整个路段。每个网格的网格代表一辆车的现状。值意味着车辆存在的网格,和0意味着车辆与交叉形象相比并不存在直接的信息作为输入,该方法压缩数据维度和去除冗余信息,从而加快训练速度练习。

在multi-intersection场景中,状态空间表达式定义如下: 在哪里T是信号的循环次数, 平均队列长度、平均等待时间和平均延迟时间左转车道组的方向,分别 平均队列长度、平均等待时间和平均延迟时间直车道组的方向,然后呢 车辆位置映射矩阵。

在变量转向车道场景中,左直可变转向车道主要是研究和应用,不考虑和右转方向,行为空间是左转还是异性恋。

全球回报函数被定义为以下指标的加权和。(1)平均队列长度l车辆的车道(2)平均延迟时间比率D车辆的车道单行道延迟时间比的表达式D如下: 在哪里 车道上的车辆的平均速度吗, 车辆速度最大速度限制道路吗:(3)平均等待时间W车辆的车道。当车辆开始停下来等等,也就是说,当速度小于0.1 m / s,车辆的停车等待时间开始积累;(4)N是车辆的平均数量在所有通道,造成当前车道后,先前的行动;(5)V在所有车道车辆的平均速度离开当前车道后,先前的行动。给出了平均速度的表达式如下: 在哪里 每辆车的平均速度。

为上述分配相应的权重不同的流量指标,最后计算出全球奖励:

的公式, 重量参数,最后交通条件优化的效果是通过分析全球奖励3200年实验结果。

3.3。全球奖励分解算法

全球的奖励 分解成两部分,基本奖励 和绩效奖励 基于比例,如图3对全球的奖励结构分解算法。绩效奖励是一个额外的奖励,用于分发代理与更大的贡献。

全球奖励分解函数给出如下:

传统的混合网络方法用于分发基本奖励每个代理的智能传感器。使用绩效奖励激励作出更大贡献的代理区域合作的过程控制。性能的表达获得的奖励每个代理目前给出如下:

实际情况的战略冲突决议,自驾车辆之间的协调,和代理合作防守护送小组都包括合作可替换主体的挑战。这些问题可以建模为双重利益情况下,每个代理的同时试图最大化其个人支付(当地奖励)和团队的性能作为一个整体(全球奖励)。两种不同形式的现代的、先进的泥灰岩算法存在。虽然算法MADDPG和M3DDPG专注于优化当地奖励没有任何明确的协调,算法昏迷和QMIX努力最大化全球成功的奖励。我们首先定义多重代理合作奖励分配联合优化,证明每个代理有一个近似最优策略,分解为两个部分:一个只取决于代理自己的国家和其它连接相邻的州代理。CollaQ分解每个代理的Q-function self-term和交互项,使用可替换主体奖励归因(玛拉)损失调整训练。CollaQ测试在多个星际争霸地图和超越现有最先进的方法(如QMIX QTRAN和VDN)通过增加获胜的几率40%在使用相同数量的样本。

的公式, 性能获得的奖励吗 代理, 是平均排队长度的比值一定方向的车道组的代理总长度的车道, 是车道组的平均排队长度在执行之前的决定, 莱恩的总长度, 的比例是直车道组的平均排队长度的整体长度,平均排队长度的比值的左转车道组, 确定的阈值水平的车道, 最大的交通流量,可以赶出车道的绿灯期间,和车道的容量。 是最大的交通流21]。

所有代理分级时,绩效奖励分配 ,和相应的绩效奖励,每一层都是不同的(22,23]。见公式(8),当 左转, 直车道组队列长度比和 小于阈值时的交通流路段要小, 绩效奖励分配比例的平均水平,更大的,应该分配更多的绩效奖励(24]。

3.4。优先体验重播算法

深度学习使用目标网络,增加培训的稳定。主要培训网络和目标网络的两个网络DQN方法培训。平方,两个网络之间的差异是损失算法列车(通常是胡贝尔如今损失)所取代。主要培训网络定期替换目标网络的权重训练进展。目标网络预测最佳Q值的所有操作完成下一个状态的每个数据样本。这是所需的Q值。训练网络,使用预测的损失计算Q值,目标Q值,并观察奖励从数据样本。在单药强化学习,为了解决训练样本提取质量不均的问题在培训过程中,优先体验播放算法(25)提出,temporal-difference (TD)方法被用来测量样品的重要性。较大的样本设置为高优先级错误,和优先级高的样品提取训练来提高学习效率。在代理的可替换主体的智能传感器基于价值函数分解的强化学习算法,联合价值函数可用于计算TD错误,然后用它来计算优先级。为了实现优先体验播放算法,目标网络的损失 必须计算:

的公式, 可替换主体的共同状态和联合行动,γ衰减系数, 是可替换主体的联合状态和联合行动在接下来的时刻。值越大, 越高相应的经验将优先顺序。

使用 作为唯一的指标来衡量样本的重要性可能会导致一些样品是少经常由于其小尺寸。因此,本研究结合目标网损和得出的次数 作为一个指标来衡量样本的重要性。同时,考虑不同经验的损失价值目标网络有很大的区别 ,转换为无量纲量排序,这是损失增加的位置排序。最后重点的表达 给出如下:

的公式, 是拔牙的数量降序排列的位置; 抵消的概率,用于正确的情况优先太小,导致样本选择的概率太低了。

4所示。实验结果和分析

为了验证合作控制算法的有效性,采用智能传感器来缓解交通拥堵在多个路口的方法高效的服务质量在下一代使用强化学习物联网应用程序。multi-intersection变量可操纵的车道上的场景中,合作控制基础算法结合定时控制(英尺)和传统自适应控制算法multi-intersection (MTAC),单药强化学习自适应算法(DQN),可替换主体强化学习自适应算法(QMIX)和其他方法,并分析各算法的性能数据集,包括algorithm-level奖赏值,流量平均队列长度,平均delay-to-time比、平均等待时间、平均旅行时间指标的水平。在合作可替换主体系统中,代理共同努力完成任务,以换取一组奖励而不是个人利益。信贷分配技术通常用来区分各种代理没有个人的贡献奖励信号为了促进成功的合作。随着信贷分配最近被广泛使用值分解模式,实现QMIX已成为领先的技术。机器人成群,自驾车辆、传感器网络和合作可替换主体强化学习只是一些地区这种技术发现广泛使用。在这些活动中,每个代理必须学会分散的政策信号通过一个共享的团队奖励,因为个人激励并不可用。为了实现成功的合作,代理必须在一种歧视的方式,分配信贷。信贷分配使用合作可替换主体强化学习技术近年来取得了重大进展。价值取向的方法其中展示尖端性能在艰难的挑战。 Value factorization, which is based on the centralized training with decentralized execution (CTDE) paradigm, has recently gained a lot of popularity. It specifically integrates separate value functions在集中训练因式分解组合值函数Q合计。分散的政策可能很容易在执行期间由贪婪地决定选择个人行为从本地值函数。因为学会了通过最大化整个temporal-difference误差在一个全球奖励信号,一个隐式的可替换主体信用分配完成。

4.1。实验装置

本研究的实验设备配置如下:AMD 2.10 GHz CPU, 16 GB的内存,操作系统是Windows 10(64位)。仿真实验进行相扑v1.7.0基于微观交通仿真平台。接口与模拟环境进行交互,获取实时交通状态和自适应调整变量的控制策略转向车道。如图4,实验环境包括4交叉口和道路部分,共24和道路部分1∼9编号。总共有9个变量转向车道。可变转向车道的部分由5道:固定左转,变量左转/直,直,直,右转车道。10∼24节号是一个传统的路段,总共有15个,路段采用传统的固定三车道配置。每个路口的信号周期是相同的。

实验数据集收集来自不同流量捕获数据的街道,道路,等等等上游和下游路段编码,捕获时间、车道数,和车牌号码。

在这个实验中,十字路口的交通流数据被收集在城市地区。车辆的类型主要包括轿车,旅行车,公共汽车和大型客车。实际收集的车辆类型和数据输入到仿真系统,24,17592辆,156008年旅行车,91089公交车,和25113个大型客车,占89.88%,5.80%,3.39%,和0.93%的总流,分别。计算过程的仿真系统,为了规范十字路口的车辆位置信息转换为离散矩阵编码的车辆位置,这是用作定量强化学习模型的输入。此外,实际输入车辆类型和数量转化为标准汽车基于转换标准。模型的等效转换系数对应于标准1.2汽车旅行车,2.0公交车,和大型客车。众所周知,交通噪声转换和计算要做的预测模型使用“规范高速公路的环境影响评估”,而现在我们知道,其水平或等级,以及它的等价转换,可以以多种方式使用计算等效转换系数。速度测量和分析的结果让我们得出这样的结论:所有类型的车辆速度计算必须遵循自由交通流的高斯分布,允许我们显示速度离散化方法。上述方法协助各种车辆在不同速度转换成汽车类似的数字,而整体交通量可能转化为乘用车的评估自己在同一噪音水平。

为了确保公平的比较算法,网络结构和hyperparameter设置的强化学习算法是相同的。折现系数的值是0.95,学习速率的值是0.001,贪心策略的价值ε是0.05,内存条的大小是1000。样品的数量为每个更新是32,和模型更新步骤5信号周期。为了提高算法的稳定性,目标网络更新有延迟。体重替换目标网络的设置为30步信号周期和RMS道具(均方根道具)算法的更新算法。

在这项研究中,全球奖励分解的重量λ= 0.4的基础算法。排队长度作为一个指标来衡量效率的道路交通分流交通流不平衡下,和32的组合要设置重量值。在训练和测试的过程中,积累了车辆排队长度计算,100对每个方案进行实验,获得的平均队列长度的平均结果。平均队列长度越小就越好交通分流效果3200实验使用大量的传感器。结果确定各影响因素的权重在全球回报函数集在这个实验 分别。

4.2。实验分析

性能的测试集数据6期,即早晨高峰(1,2),晚高峰(阶段3、4),平峰(期5、6)。每个控制方法的性能数据所示56。在图5,R是奖励指数。数据集的多个时期,基本算法执行更好,其次是QMIX算法,表明可替换主体协作算法仍然是有效的在真实的场景。性能的基础,QMIX、IQL MTAC明显优于定时控制方案(英尺),表明自适应算法可以有效地适应交通流的变化在现实场景中,并且可以根据实时交通状态做出适当的决定。

5和表1表明基础算法的性能数据集的多个时期比其他算法,和基本算法具有显著领先早晚高峰时间比平坦的高峰时间。

如图6和表2,与其他算法相比,基本算法的平均排队长度指数在早晚高峰时间减少25.76%∼54.97%,和非高峰时段的指数降低49.00%∼70.67%,表明基础算法的拥塞的场景。与其他算法相比,基本算法的平均延迟时间减少15.54%∼55.09%,如图7和表3。5和6的测试集在高峰时期,道路交通网络中的小,变量的功能需求转向车道较弱,和每一个算法的性能接近。算法的性能(基地)在这项研究中仍然保留着略微领先。如图8和表4,与其他算法相比,在基础算法的平均等待时间减少9.28%∼42.39%,而在高峰时间如时间3,交通更拥挤的状态。IQL算法的平均等待时间在这个数据集略优于QMIX算法。

它仍然可以保持领先的性能,进一步证明了改进算法的有效性。如图9和表5,平均旅行时间减少6.44%∼29.93%与其他算法相比,性能是稳定的测试集下6期,总是有更好的性能。比较结果中每个交通指数的测试集数据所示69

算法的最佳性能在这项研究中验证的可替换主体协作算法的改进multi-intersection variable-guidance巷场景:全球奖励分解,该算法在本研究中可以学习的政策比QMIX算法性能培训过程与QMIX算法通过比较基础算法,训练过程的性能指标进行测试。平均累积奖励价值指数的比较如图-和表6。在图10,E是迭代的数量。

在训练过程中交通指标的变化如图8。交通平均队列长度等指标,平均延迟时间、平均等待时间、平均旅行时间改变算法的训练过程模型。指标显著降低,交通状态逐渐优化,和两个可替换主体协作算法能收敛。同时,根据每个交通指标的下降趋势在培训过程和最终的收敛状态,可以发现,全球奖励分解和优先级回放应用经验。基本算法,算法具有更快的收敛效果和更好的优化性能,能有效地适应交通流的multi-intersection场景,并实现交通状态优化当地的道路网络。

5。结论

计算智能是建立在一些学习和优化技术。因此,重要意义的一个新兴的趋势在未来一代的物联网应用程序的集成新的学习方法,比如反对学习,优化方法,强化学习。本研究提出了一个可替换主体基于强化学习协作控制方法采用智能传感器在多个路口variable-guidance车道。这种方法提高了性能在拥挤的情况下通过一个全球奖励分解算法和通过优先体验重播算法提高了学习效率。合作控制variable-guidance车道在多个路口:与其它控制方法相比,该方法具有更好的效果在减少平均队列长度,平均延迟时间,平均旅行时间,等等,而收敛更快,因此,提高下一代的物联网应用的服务质量。

后续工作包括将该算法与交通信号控制和执行联合优化的两个维度的时间和空间来进一步改善交通multi-intersection场景的能力。

数据可用性

可以根据要求提供的数据。

的利益冲突

作者宣称没有利益冲突。