文摘

经验回放记忆强化学习使代理能够记住和重用过去的经验。大部分的强化模型受单一经验回放记忆操作代理。在本文中,我们提出一个框架,提供双重使用经验重复记忆,同时利用这两个重要的转变和新转换。在数值研究,深 - - - - - -网络(DQN)配备双经验回放记忆检查在不同场景。无人驾驶汽车需要一个自动代理算出何时在实时基础上充分变换车道。为此,我们提出申请代理城市流动的模拟(相扑)实验。除此之外,我们还验证其适用性强化学习的行动空间离散的(例如,电脑游戏环境)。一起,我们得出这样的结论:该框架无优于已知的强化学习模型在双经验回放记忆的美德。

1。介绍

机器学习重要的是用于解决挑战本地化的自主车,道路,行人检测,例如,1)使用卷积神经网络与self-supervised学习需要人工路注释。这项研究允许注释自动使用OpenStreetMap (2]。Kocamaz et al。3行人和骑车人]建议应用检测方法与multicue集群算法旨在减少误报。自主汽车另一个重要指标是有效地控制在现实道路。因此,自治区汽车行业,一个有效的车道变化是最必要的问题来解决。此外,它主要是由于这样的事实,高速公路交通事故发生在现实中间的车道改变。许多尖端技术提出了适合实际交通环境的追求(4]。例如,杨et al。5表明自适应和高效的自动车辆车道变化轨迹规划。此外,塞萨里et al。6)和Suh et al。7)关注所需的控制器跟踪计划的轨迹。,大部分的贡献的基础上,收集和研究自然的驾驶数据ia旨在模拟人类驾驶技术在自动驾驶汽车的背景下(8- - - - - -10]。更重要的是,最新研究成功开发端到端学习技术在追求之间的关系找出视频传感数据和车道改变决定11]。现在强化学习(RL)已经被广泛应用于建模和规划无人驾驶汽车,车道变化问题得到解决通过使用RL-based代理各种实验(12- - - - - -15]。

强化学习是,理论上,旨在最大化数值奖励由代理与环境相互作用[16]。司空见惯,强化学习面临高昂计算成本主要是由于高维数据的视觉或演讲分析,因此,政策在RL很难适应高复杂性。最近的计算技术,祝福的RL模型的政策学习深度学习是有效的近似政策,从而大大提高适用于不同的环境(例如,深 - - - - - -学习(DQN) [17])。在深体验回放方法中起着重要作用 - - - - - -学习,允许一个代理要记住和重用过去的经验。这种方法功能增强的使用数据和变弱强样本之间的相关性。当前off-policy算法基于经验重播只采用均匀采样,这样转换采样在一个平等的机会。在这方面,这些方法只关注样本之间的关联度。与此相反,引入了基于规则的重复抽样。例如,优先体验回放(每)基于temporal-difference (TD)错误,是众所周知的改善深 - - - - - -雅达利环境下网络(18]。此外,最近的每种类型的方法(19)采用不同大小的重复记忆,记得,忘记经验记忆部分以提高性能在很大程度上。然而,这些方法是有限范围的单一经验重复记忆。最近,优化hyperparameter和安全的学习没有任何假设模型动力学一直积极强化学习领域的研究。这是因为寻找最优hyperparameter需要重复实验,它通常成本昂贵的强化学习任务。董et al。20.)使用基于过滤器的方法来优化hyperparameters Siamese-based相关性。刘等人。21)建议方法,健壮的强化模型利用整体方法适应模型动力学和健壮crossentropy方法与约束函数优化控制序列。

在本文中,我们提出了一个新颖的方法称为双经验回放记忆(DER),促进有效样本转换和利用同时回放记忆。更准确地说,我们调整我们的方法与均匀采样和使用hyperparameter TD-error-based抽样方法。该方法验证其实用性,这下评估一系列的实验场景。

简单地说, - - - - - -网络(DQN) (17火车一个代理巷离散行为空间的变化。优先体验回放(/)18)提高了DQN优先级。这里,我们简要回顾DQN和每个算法的角度来看之前我们给占了该算法。

2.1。深 - - - - - -网络(DQN)

强化学习(RL)的目标是旨在发现策略,最大化回报(16]。通常,RL迭代更新 - - - - - -函数的基础上 - - - - - -学习但是RL患有一些挑战。首先,为了模拟现实世界中,无数的状态是不可避免的需要。其次,样本之间的相关性高密集的共同点。解决, - - - - - -网络(DQN) (17]首创采用深度学习强化学习算法,DQN取代 - - - - - -与神经网络表。的 - - - - - -网络预测奖励在许多现实世界的国家经验和商店和样本数据回放(林,1992),以便它能减少样本相关性。多年来,许多人提出变异DQN改善。例如,NoisyNet-DQN (Fortunato et al . 2017年)添加参数噪声权重基于DQN结构和在雅达利游戏中获得更高的分数。ensemble-DQN(陈et al . 2018年)开发的整体网络深度强化学习。此外,随机合奏混合物(REM)(阿加瓦尔et al . 2019年)提出了离线 - - - - - -学习算法,并证明了算法可以使用DQN-based实验导致高质量的政策。最后,NROWAN-DQN(汉et al . 2020年)提出了一个NoisyNet-DQN降噪方法和设计重量调整策略。在这方面,它是证实DQN有助于大大推进RL域。

- - - - - -网络(DQN) (17)被称为模范自由强化学习(RL)算法对离散行动空间。DQN更新参数 - - - - - -为了得到一个近似的网络 - - - - - -值, 被定义为 ,在哪里 一个贪婪的政策促进搜索最优 - - - - - -价值。我们可以邀请RL模型中的一个 - - - - - -贪婪的相关政策 ,由概率控制政策 决定一个随机行动(均匀采样的行动空间)和采取的措施 的概率 在培训的过程中,一个代理探索集 - - - - - -贪婪的政策的基础上目前的行为价值函数的近似 (16]。过渡元组 作为副产品生成并存储在内存(又名重播缓冲区), 是一个状态,行动,在时间和奖励吗 ,分别。的 - - - - - -网络学习在贝尔曼方程:

转换存储为 元组到重播的缓冲,这元组从派生重播缓冲均匀采样。这回放记忆变弱相关性在连续状态的巨大样本。

2.2。优先体验回放(/)

前强化学习模型是为了均匀样本经验回放没有考虑转型重要性的程度。背后的想法优先体验回放(/)18)是不同的样本分布受人工环境(例如,过度好或表现不佳)。更新一个行为价值 ,我们采用TD-error损失更新近似行为价值函数代替 如下:

TD-error的价值,理论上,措施,代理经验的学习。精确,高绝对TD-error意味着预期的行动值校正函数变得很大。高TD-error经验与良好的性能在集。相反,经历大负TD-error与情节中表现不佳。表明,这种人为设计抽样方案优于改进代理。有趣的是,值得注意的是优先序列体验回放(ps) (Brittain et al . 2019年)提出了一个框架,用于优先序列学习有效的经验。ps不仅高优先分配给重要的经历像每也传播重点,先前的经验,导致重要的经验。它认为序列重要性增加早期经验优先。重要的是,该方法具有选择性的经验来提高精度。

3所示。算法

在这里,我们提出了强化学习模型,称为双经验回放记忆(DER),建立在一个组合多个采样转换。接下来,这个算法1描述:首先,我们分开两个回放记忆 ,每个组成的状态、动作、奖励和抽样概率用 , ,分别。第二,一个代理经验反复发作和商店过渡 ,在哪里 是重量元素 时间步长, ,都要遵循一个任意分布。用一点,一个代理学习基于转换采样 随后,搬到的转换 与另一个重量 它遵循一个预定义的分布,这样我们重用这些转换采样 换句话说, 相当于转换采样 用于构建模型。当 符合一个足够数量的转换训练,我们样本 交替的参数 ,在哪里 是一个常数调整选择批处理数据的比率 例如,如果 ,这意味着90%的训练数据 只有10%的数据 两个抽样概率在回放记忆(即 )通过预定义的规则更新。重要的是,抽样概率(即 )选择决定了转换,而选择频率(即, )决定了回放记忆之间的比率

考虑到::
一个off-policy RL算法,地点:DQN
抽样策略(1,2从回放)
地点:1:均匀采样,2基于TD-error抽样
一个更新概率策略 更新第二重播,
初始化
初始化重放缓冲 ,
观察S0和选择a0使用
集= 1,M
观察
商店过渡 遵循
t = 1;T
如果N2 > k然后
1,2,抽样比例λ
样品从
其他的
1从H1、样品转变
更新重量根据
把使用过渡到 的概率
如果 然后
更新 根据
直到收敛
3.1。制服,TD-Error-Based重量

在本节中,我们描述一个双倍经验回放记忆的例子。在 ,我们使用统一的采样策略, ,我们使用TD-error(例如, )基于抽样策略受到优先体验回放(每)。我们统一样本转换 这样 相比之下,适用于TD-error-based抽样策略 如下: 原则上,为了使体重 经常取样过渡,我们设置初始值指数 和更新权重如下:

数学上,转换与大型TD-error采样采样转换收敛于高机会和频繁 基线和采样部分的最小值。 从来不去和负价值 ,所以指数的重复 收敛于 重要的是要注意这一点 因为调整采样转换在一个平衡的方式 减少过渡的机会,如果他们选择在前面的步骤。相关的网络体系结构,我们使用深- 网络(DQN)作为基准算法。该方法利用两个过渡均匀采样的采样策略DQN和TD-error-based抽样策略。在这方面,这种预定义的规则可以被看作两个强化模型之间的一个中间类型方法。原则上,如果 等于0,意味着从DQN均匀采样,如果 等于1,这是一样的抽样仅从TD-error-based策略。整理所有策略在一个视图中,数字S2S3描述算法的管道。

4所示。数值实验

没有普遍性的丧失,我们首先评估如果拟议的方法灵活地适用于各种电脑游戏环境,这些是紧随其后的是自主车实验。

4.1。CartPole-v1

下面,我们进行实验基于CartPole环境提供的开放AI健身房(22]。我们使用256个细胞的多重线性感知器模型。我们运用亚当算法(23)和设置参数(例如,学习 , ,批处理 , , ,在哪里 表示的缓冲区大小 ,分别)。我们用10000步训练模型。

比例的内存之间比较结果,我们使用 0.1、0.5和0.9。在DQN作为基准算法,我们只有改变经验重复记忆。我们计算的平均回报的马克斯得分20集。提出了比较,平均成绩在所有事件,CartPole迅速到达最大得分。在表1和图1时,我们观察到该模型性能更好 增加大小。因此,这清楚地表明,提出的方法执行比均匀采样经验记忆(DQN)和/时 有趣的,图2显示了最优派生TD-error和重量,暗示TD-error和体重作为迭代稳定。

5。雅达利

雅达利是视频游戏环境的强化学习应用和使用视觉数据作为输入17]。接下来,我们指定实验配置。DQN基于卷积神经网络的输入由 4堆帧。我们调整图像,转换成灰度和规范化输入数据。第一层有32的过滤器 与进步4和应用整流器非线性单元(ReLU)函数。第三层有64的过滤器 2步,也适用于ReLU函数。最后一层有64的 1步ReLU函数紧随其后。最后一层是由512名ReLU完全连接。输出层完全与所有可用的操作(参见图S1)。关于参数的设置,我们使用默认的亚当与学习算法 , , ,批处理 , ,在哪里 表示的缓冲区大小 ,分别。比较性能,计算平均值100集返回和马克斯值,分别。我们进行了充分的学习有200000多道工序。在表2和图3,我们发现该方法 获得最好的成绩太空入侵者,拳击和突破。综上所述,在许多雅达利的环境中,我们发现DER执行比DQN均匀抽样和每。

5.1。城市流动

城市流动的模拟(相扑)是一个开源仿真方案设计模拟城市交通网络(24]。相扑提供简单网络,创建用户定义的网络,并允许实际城市模拟使用OpenStreetMap (OSM;OpenStreetMap贡献者(2])。相扑有助于评估与交通有关的问题,如交通灯控制,路由选择,无人驾驶汽车模拟。此外,相扑支持Python API TraCI [25),这样就可以评估每个时间单位。在本文中,我们创建环网络环境和假设是否无人驾驶汽车有效改变车道。下面是该仿真方案。首先,我们考虑每辆车绕两圈。首先,代理车辆(即。,maneuvered from RL rules) is placed in the outside ring and keeps moving around. The agent determines the moment to change a lane, thereby pushing towards the inner circle without collision as in Figure4(一)。的奖励,我们实施基线的对数平均速度在所有车辆工作,针对没有交通堵塞有环网络。准确地说,如果一个代理更改成功一个车道,我们添加100奖励,而我们带回100如果代理原因与另一辆车相撞。在这个仿真的环境下,我们只需要考虑车道改变为简单起见。等要素在推动加速,刹车和转向是由无相扑优化自动控制系统。对于每一个国家,一个代理可以确定代理的车辆速度,而其他邻近车辆的速度与监管,在30米的距离是有限的代理。验证该模型的优点,我们比较DQN,每,和我们的方法 从0.1到0.9,迭代训练了15000步。此外,我们创建一个网络通过OSM,模拟真实的地区附近的Yeongdong大桥位于首尔,韩国。图4 (b)描述了配置的地图。在这个模拟中,我们专注于车道改变性能,其环境因素是相同的环形网络场景和遵循规则提供的加速和刹车相扑作为默认选项以外的车道改变决定。

3包括每一个模型产生的总回报。重要的是,该方法(DER)优于/奖励(例如,环网:216.91 (DER)和135.71(每) ,Yeongdong桥:81.77 (DER)和79.50(每) )。很明显,我们的方法优于DQN居多,每。更重要的是,我们观察到大 增加奖励分数(见表3和图5)。

6。讨论

提出了双重体验回放(DER),提供两个不同的重复记忆来训练一个代理同时与重要的过渡和新探索的转变。这里,我们预先确定重量递减规则减少偏见的重要抽样方法每。在模拟中,我们比较该方法与均匀分布和优先回放记忆(每)使用temporal-difference (TD)错误,发现DER执行更好的在各种环境中实现OpenAI健身房。此外,一个代理车辆在相扑环境中也发现有效地改变车道。有趣的是,相扑和CartPole表明,过渡的模拟高绝对TD-error适合短而反复发作。值得开发的基准,以确定每个缓冲区的大小占据足够的内存大小和改善一个算法的计算时间上下文来推进它的适用性。最近的论文表明各种方法激励的回放记忆。为终身学习(选择性体验重播26)决定了存储的经历。他们补充FIFO缓冲的基础上半球和全球分销匹配策略。另一方面,经验重播优化(ERO咋et al。27)提出了两个政策一个更新代理政策和其他更新重播政策。前更新累计回报最大化,而后者更新代理(参见图提供有用的经验S4)。竞争的经验重复利用重新标记技术以适应一个代理在一个稀疏的奖励环境。重新标记技术加速性能。在未来的研究中,我们可以应用这种方法的同时DER稀疏奖励环境。

数据可用性

我们在出版部分上传下载链接我们的网站(http://www.hifiai.pe.kr)。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Jiseong汉和乔Kichun co-first作者。

确认

这项研究受到了韩国建国大学的研究员基金在2019年,在2020年建国大学研究员基金,和韩国国家研究基金会(NRF)由教育部科学技术(2019年2020 r1c1c1a01005229 2020 r1c1c1007739, r1i1a1a01061824)。

补充材料

图S1:卷积神经网络结构来强化学习。图S2: DER的流程图。图S3:抽样过程转换比率 和更新重量通过预定义的规则。图S4:仿真结果通过CartPole DQN和ERO进行比较(补充材料)