文摘

近年来,深入强化学习(DRL)实现了巨大的成功在许多领域,特别是在游戏领域,如AlphaGo AlphaZero, AlphaStar。然而,由于奖励稀疏问题,传统的DRL-based方法显示在3 d游戏性能有限,含有更高维度的状态空间。为了解决这个问题,在本文中,我们提出一个intrinsic-based政策为奖励稀疏优化(IBPO)算法。IBPO,小说内在奖励是集成到价值网络,它提供了一个额外的奖励在环境中稀疏的奖励,以加快培训。除此之外,对解决这个问题的价值的估计偏差,我们进一步设计三种辅助任务,可以更准确地评估国家的价值和行动在3 d场景。最后,辅助intrinsic-based政策的框架优化(AIBPO)提出,可以改善IBPO的性能。实验结果表明,该方法能够有效地处理奖励稀疏问题。因此,该方法可能适用于现实世界的场景,如三维导航和自动驾驶,可以提高样品利用率来减少成本的互动真正的设备收集的样本。

1。介绍

机游戏一直是人工智能最活跃的领域之一。根据游戏状态是否完全可观测的,机器博弈可分为两类:完全信息博弈(猪)和不完全信息博弈(IIG)。猪指的是游戏,参与者可以观察到所有的游戏状态,比如去下棋。相反,参与者IIG总是持有私人信息。因此,游戏状态不能完全观察球员,孔卡等扑克游戏。深入强化学习(DRL)取得了巨大的成功在猪最近[1- - - - - -5]。然而,由于隐藏信息,DRL-based IIG方法没有表现出令人满意的结果。IIG仍机器游戏领域的一个重大的挑战。

近年来,出现了许多新的测试平台来验证方法的IIG [6,7]。在这些平台上,战略游戏的基本元素包括所有IIG,星际争霸和VizDoom等。此外,战略游戏含有丰富的游戏场景和相当大的游戏状态空间(8- - - - - -10]。因此,战略游戏成为一种理想的平台来验证IIG的相关方法。的巨大成功通过DRL的猪,研究人员调查集中在解决战略游戏通过DRL IIG中的方法。2019年,DeepMind AlphaStar,基于DRL实验室,成为第一个代理,击败了一个专业的人类玩家星际争霸游戏,一直被视为一个里程碑在人工智能的发展11]。此外,DeepMind设计了一个代理,可以实现人类的性能在一个3 d多人第一人称游戏,地震三世竞技场在夺旗模式中,只使用像素和游戏分数作为输入(9]。

虽然DRL-based方法的研究取得了一定的成就解决策略游戏,仍有许多问题有待解决。DRL方法高度依赖于奖励培训过程中更新模型。合理和即时奖励不仅使训练过程收敛迅速,也使学习模型更加健壮。游戏中的场景,奖励是稀疏的,收敛的速度将会减缓严重甚至更多,最终导致了不同的模型。在3 d战略游戏更高维度的状态空间和更复杂的游戏场景,奖励稀疏问题将变得更加严重。虽然有一个明确的奖励(例如,游戏的分数)在这样的游戏场景中,大部分的最终目标需要通过定义一系列子目标在早期阶段。大多数子目标可能无法及时回报,除非他们完成。

奖励稀疏问题使训练过程更加困难和缓慢,因为它不能得到及时有效的奖励。为了解决这个问题,许多解决方案如奖励重塑,分层DRL,课程学习是近年来提出的12- - - - - -18]。在这些方法中,内在奖励机制起着重要的作用。相应的内部奖励机制的设计帮助代理更新根据内部奖励政策环境奖励信息的缺失。这个RL模型的定义包括内在激励的奖励是内在动机强化学习(IIML)。的一般模型IIML图所示1。IIML,外部环境现场RL代理。内部奖励生成模型是一个虚拟的环境。代理可以从外部环境获得奖励和内在奖励生成模型,分别。通过这种方式,代理会比平时更多的奖励信息,从而加快收敛剂。

然而,在实际应用的过程中,这些方法需要精心设计奖励相关问题或额外的训练数据,这就极大地限制了相关方法的适用性。因此,这些方法不能处理这个问题的稀疏的奖励很好。处理奖励稀疏的问题,本文改进了传统的策略优化DRL方法通过引入内在奖励机制。我们提出了一个intrinsic-based政策优化(IBPO)算法,提高了勘探剂的性能与稀疏的三维场景奖励。在这个算法中,内在奖励用于结合传统策略优化。此外,通过设计各种辅助任务,我们进一步提出了辅助intrinsic-based政策优化(AIBPO),进一步提高了IBPO。VizDoom上的测试实验结果表明,我们的方法比以前的方法具有更好的性能。我们总结的贡献如下:(我)我们提出一个方法,intrinsic-based政策优化(IBPO)算法,解决奖励稀疏问题在不完全信息的3 d游戏。IBPO有效提高代理相结合的探索表现内在奖励和传统策略优化方法。(2)我们提出了辅助intrinsic-based政策优化(AIBPO),这是基于IBPO,通过整合三种辅助任务:奖励预测辅助任务,行动价值辅助任务,和国家价值辅助任务。(3)大量实验结果表明,我们的方法的性能显著提高IBPO VizDoom,相比以前的方法。此外,AIBPO IBPO进一步改善性能。

本文组织如下。研究方法和细节部分中讨论2。然后,部分3显示实验结果包括与最先进的方法和烧蚀性能学研究。最后,给出本文的结论部分4

2。研究方法

在本节中,我们寻求一个方法的培训的代理可以解决复杂的3 d游戏的奖励稀疏的环境。Intrinsic-based政策优化(IBPO)提出了通过引入一种内在奖励机制。此外,结合辅助任务(奖励预测辅助任务,行动价值辅助任务,和国家价值辅助任务),辅助intrinsic-based政策优化(AIBPO)提出了基于IBPO。

2.1。Intrinsic-Based政策优化(IBPO)

由于稀疏的奖励问题3 d策略游戏,它是非常困难的代理执行政策迭代和更新。要解决这个问题,在这篇文章中,我们介绍内在报酬的概念,提供辅助奖励信息代理更新其政策。也就是说,这里我们使用一个IIML(如图1)模型。在这个模型中,不仅有来自环境的外部奖励也内在报酬所生成的内在报酬设计一代模块。此外,向传统的采用内在奖励政策优化框架,我们建议intrinsic-based政策优化(IBPO)算法,内在奖励的生成模块可以与政策优化框架无缝集成。

2.1.1。内在奖励的一代

我们描述的内在奖励是如何设计的。如前所述,IIML包含外部奖励和内在奖励。外部奖励反馈从环境中,有时无法获得。当代理接收到一个情况,缺乏外部奖励,内在奖励中扮演着重要角色在帮助代理继续更新它的政策。尤其是在3 d游戏,如果一个外部奖励是稀疏的,代理将很容易落入在当地地区挥之不去的问题。因此,为了避免当地问题,代理人应当增加其好奇心探索看不见的场景。基于这一考虑,本文构造的内在奖励估计的新奇程度状态。新奇的国家意味着代理还没有见过这种状态。某种程度上给了新的状态可以被视为内在奖励,和代理有机会解决当地问题。

基于上述假设,我们内在奖励一代模块设计如下。内在奖励一代模块由一个双网络结构如图2(一个)。在这种结构中,有一个目标映射网络和预测网络。这里,我们设定目标映射网络作为固定网络和预测网络可训练的网络。然后,内在奖励值作为输出向量之间的相似目标映射网络和预测网络。这两个网络的输入是游戏的当前状态。也就是说,如果游戏状态是小说,那么内在奖励将一个较大的值,反之亦然。的主要原因是让代理倾向于探索环境中的看不见的州。在最初的训练阶段,代理有一个小范围的运动和在游戏中有更多的陌生的状态。在这种情况下,两个网络不太相似的输出向量;因此,内在奖励计算值大。 When the action policy is updated, the agent takes intrinsic reward as the main source of the reward.

在这里,我们描述的细节构造目标映射网络和预测网络。三层卷积神经网络用于从输入状态,提取特征,最后一个向量代表与一个固定的维度是输出。采用相同的网络结构来减少误差的影响不同的网络结构计算向量的相似性。的损失函数l红外内在奖励生成模块的定义如下: 在哪里PT的输出向量预测向量和目标向量,分别 正则化项, 是普通的惩罚因子项,nj时间步长。

2.1.2。内在奖励融入政策优化

培养内在奖励预测网络,代理的足够的样品是必要的。同时,代理的操作环境中总是由政策优化算法。通过这种方式,它是一个结合的内在奖励生成模块的关键策略梯度或策略优化算法。

传统的政策优化算法,更新的政策主要取决于外部奖励通过与环境的交互生成。因此,应对外部奖励和内部奖励的关键内部奖励机制适应政策优化算法。在本文中,我们采用一种组合的长期内在奖励和情景外部奖励,如图2 (b)。长期奖励可以给代理一个目标。与此同时,这可能会导致奖励稀疏问题,使战略无法收敛或收敛慢下来。因此,介绍了内部奖励通过不断激励代理人去探索,这将继续支持代理来实现其目标。

2.2。辅助Intrinsic-Based政策优化(AIBPO)

代理在3 d游戏通常需要分阶段和长期的决策序列。这个决定需要高度相关的当前状态,以及代理的动作可以使状态改变。然而,DRL的状态值估计的神经网络方法,估计是有偏见的。从这个角度看,我们试图评估状态值和动作更准确地在3 d场景。在这项工作中,我们设计了三个辅助任务(奖励预测辅助任务,行动价值辅助任务,和国家价值辅助任务)基于多任务学习机制来感知信息,如奖励和邻州之间的联系,从而协助代理学习政策在3 d场景。

基于IBPO AIBPO与辅助任务。三种IBPO提供辅助学习任务。任务可以增强剂的感知环境奖励帮助代理做出决定。DRL的经验重复使用,和交互式应用示例IBPO训练辅助任务。代理的决策在3 d场景是由学习和更新DRL政策网络的参数。该辅助任务代理可以提供额外的决策支持信息。这就是为什么不同的辅助任务可以优化的主要政策和辅助政策更有效,在3 d场景强劲。

训练的辅助任务需要抽样数据到相应的状态,相关的奖励,和行动。IBPO代理将这些数据存储在训练过程中经验重复记忆。摘要三种辅助任务(奖励预测辅助任务,行动价值辅助任务,和国家价值辅助任务)是采用AIBPO协助决策。辅助intrinsic-based政策优化(AIBPO)可以定义如下: 在哪里 是奖励的参数预测的任务, 是国家的参数值的任务, 是操作的参数值的任务, 的损失函数是奖励预测任务, 是国家的损失函数值的任务, 是操作的损失函数值的任务,然后呢 的损失函数内在奖励政策优化算法。

方程(2)给AIBPO的总体框架。AIBPO可以学习有用的信息提供了不同的辅助任务在训练。这个信息是相关政策更新或相关场景感知,提高了政策从不同的角度优化3 d场景。此外,辅助任务损失函数的权重参数设置来确定影响程度的辅助任务的首要任务。的整体模型结构AIBPO图所示3。AIBPO由整个过程。代理根据IBPO与环境交互生成更多的数据,这是保存在经验池。辅助任务可以通过采样训练经验池。

我们的目标是添加特定的辅助任务最后挑选最好的辅助任务。效果,我们证明最优效应可以通过整合以下三个辅助任务。在以下描述的三个辅助任务,分别。

2.2.1。奖励预测辅助任务

在奖励预测辅助任务中,连续三帧作为网络的输入样本。通过卷积层和完全连接层,网络输出一个分类类别的代理获得的奖励,包括积极的奖励,负回报,零回报。的标签分类任务是一个炎热的编码对应的奖励采样经验回放记忆在接下来的步伐。由于多级熵损失函数用于分类任务,这里的损失函数 奖励预测网络中可以定义如下: 在哪里 网络输出的类别和吗 是奖励值在下一时刻。

2.2.2。状态值辅助任务

计算的优势估计方法可以更准确,如果辅助政策可以使DRL方法往往会产生更精确的状态估计价值。辅助政策可以使代理的培训过程更加稳定和主要政策的学习更有效率。因此,一个国家的价值辅助任务的回归预测标签状态值对应于图像在接下来的步伐。根据均方误差损失函数用于回归任务,损失函数 在价值网络可以定义如下: 在哪里 正则化参数, 是网络的状态值输出, 目标状态值, 是正则化惩罚因子。

2.2.3。行动价值辅助任务

代理可以更容易学习的主要政策,有效地获得奖励反馈如果辅助政策可以选择的行动和更大的价值。因此,一个动作值下面是辅助任务。在这个任务中,的行动值存储在培训过程IBPO取样。连续帧和temporal-difference行动值可以作为数据样本。根据均方误差损失函数用于回归任务,损失函数 行动价值网络中可以定义如下:t 在哪里 惩罚因子的正则化项, 的参数正则化项, 的行动价值网络输出和 是行动的时间不同。

3所示。实验结果

在本节中,我们首先介绍VizDoom。其次,实现细节。最后,我们进行实验评估IBPO和AIBPO的性能。此外,消融AIBPO也进行了研究。

3.1。描述VizDoom

VizDoom是一款第一人称射击游戏(8]。场景中代理人的行为类似于现实世界中,他们接收视觉信号,然后做出决定。DRL方法的主流研究平台,VizDoom平台提供了一个接口来接收动作输入和奖励DRL模型信号和模拟环境。全面,VizDoom平台培训代理探索3 d环境的能力。本文实验基于VizDoom寻路和生存情况,图中描述4

3.1.1。寻路的场景

奖励是稀疏的寻路的场景中,如图4(一)。代理人只能在目标奖励,但不是在任何其他位置。整个地图是由几个不同的不透明的房间只有一个固定目标点在一个特定的房间。在这个场景中,代理可以自由移动,但起始位置是远离目标。代理需要通过具有不同内容的房间获得奖励在目标位置。

3.1.2。生存的场景

有迷宫的生存场景,如图4 (b),阻止代理看到大范围的场景。此外,代理可以继续失去生命的价值在这个场景中运动。因此,获得代理尽可能有效地探索和运动在迷宫;否则,训练轮将结束时,生命值变成0。此外,药物包可以恢复生命值随机出现在幕后。代理需要收集尽可能多的药物包存活更长时间。

VizDoom平台中的不同的场景有不同的环境参数和奖励范围。的主要评价指标寻路的场景是代理的寻路的成功率和所需的行动步骤的数量。然而,在一个训练,永久代理不能继续前进。行动步骤的最大数量限制在256寻路的场景。一旦超过256步,当前训练集立即结束。代理花的时间越长在寻路的情况下,其勘探能力越弱。因此,外部环境会给代理一个点球信号按时间步。生存场景中,主要评价指标的生存时间步和人生价值包的数量。代理的生命价值的生存场景降低随着时间的推移,和减少程度提出了平台。

3.2。实现细节

网络结构调整政策的优化表所示1。NN1包括演员网络和评论家网络(19),这两个隐层神经元的一部分份额。本文批评网络设计有两个独立的奖励输出头提供独立监督外部奖励和内在奖励的信息。

内在奖励一代模型弥补了缺乏外部奖励时更新。模型包括一个目标映射网络和预测网络,这两个有相同的网络结构。在表1,NN2内在奖励一代的网络结构模型。

与辅助任务奖励功能增强学习增强剂的性能在3 d游戏通过构建他们的感知能力和状态估计。样品三提出辅助任务获得的经验重复记忆,这是存储在代理与环境交互。奖励预测的网络结构,价值,和动作值的任务都是由浅卷积神经网络和LSTM网络(20.,21]。在表1,NN3显示了网络结构的辅助任务。

此外,本研究开发平台的Linux服务器与Ubuntu 16.04 5.4.0系统;中央处理器是英特尔(R)至强(R)银4110 CPU @ 2.10 GHz, 32个虚拟核;GPU NVIDIA Tesla P100, 16 GB的视频内存;开发语言是基于Python 3.6.3。

3.3。比较实验
3.3.1。IBPO的性能

测试IBPO寻路的场景。代理开始探索整个场景从起始位置,不能完成任务,直到达到目标位置在寻路的场景中。这个场景是一个极具挑战性的训练地图VizDoom平台因为只有外部奖励目标信号。另一个问题是,很难达到目标位置随机代理有限的行动步骤。因此,我们测试IBPO算法在寻路的场景中。

在寻路的场景中,评价指标的平均回报值和平均行动步骤。平均回报价值被定义为代理的数量之比达到目标位置在指定步骤目前所有培训代理的数量,说明代理的寻路的成功率。平均动作步骤定义为行动步骤的平均数量为100可验证环境和代理之间的交互算法收敛后,这表明代理人的行动策略的稳定性。

我们训练不同的RL代理IBPO, DRQN [22],和DFP [23),分别在寻路的场景中证明的有效性IBPO通过比较他们的评价指标。实验验证内在奖励可以给代理协助更新环境奖励政策实际上没有反馈。DFP和DRQN是使用的方法第二和第三名特工在2017 VizDoom竞争。在这种竞争中,有类似于地图寻路的场景。DRQN利用游戏模拟器提供的信息。DFP拥有补充状态和奖励信息处理模块。这两个算法是占主导地位的寻路的场景。图5说明了使用IBPO性能曲线,DFP, DRQN寻路的场景。

我们可以发现IBPO达到平均奖励值为0.92,优于DRQN和DFP,平均回报值分别是0.79和0.86。平均回报值越接近于1,更有效的政策学习方法和代理将越有可能达到预期的位置。这个结果的主要原因是缺乏环境奖励的寻路的场景。的内在报酬IBPO弥补缺乏积极的奖励值经验回放记忆,从而促进探索政策的学习。上面的比较实验表明,由IBPO DRL代理训练拥有丰富的和高效的性能在探索三维寻路的场景中。

2总结了平均奖励值和平均寻路实验的操作步骤。第一行对应奖励在图5,第二行显示不同的代理来达到目标所需的行动步骤。我们可以发现IBPO执行中最好的三个方法的最小平均动作步骤61.8。它表明由IBPO代理训练可以找到目标的路径更快和更稳定的行动策略。

此外,为了验证IBPO内在奖励的有效性,我们还分析了趋势的内在奖励培训过程。如图6,内在奖励值逐渐减少从1到0.1。在整个培训过程中,DRL代理,有很多小说州早期的训练,结果在一个更大的内在奖励价值。这时,内在奖励值的主要奖励信号RL更新。随着培训过程的推移,代理逐步学习行动政策探索环境和内部奖励值逐渐降低。这时,RL的更新算法主要是外部奖励。

总之,价值生成的内在奖励模块提供辅助信号代理的政策更新,帮助代理学习有效的探索政策在稀疏的奖励方案。通过与DRQN和DFP比较实验,我们得出这样的结论:IBPO优于这两种方法的平均回报值和平均指标行动步骤。

3.3.2。AIBPO的性能

测试AIBPO的生存场景。在VizDoom的生存场景中,每个训练轮的布局是不同的。初始位置,药品包装的数量,和包的位置也是随机的。此外,迷宫墙限制代理的愿景。等随机因素的场景会影响代理人的政策学习。更新培训期间将不稳定,如果算法无法充分感知环境信息。

AIBPO, DRQN [22],DFP [23],A3C [19),和彩虹24)用于火车DRL代理比较实验的生存场景根据相关的评价指标。AIBPO是一个改进版本基于IBPO辅助任务学习机制。它的主体仍然是IBPO;因此,IBPO代理也在这个实验中实现。苏尔一步和图片惠普评价指标是DRL相当于游戏分数。的关于一步被定义为平均最大的行动步骤,代理可以生存100年可验证算法融合后的交互。的图片惠普被定义为药物包被的平均数后100年的代理交互算法已经收敛。表3的生存场景中展示了实验结果。大苏尔一步,更好的照片惠普

我们可以发现图片上的AIBPO是9.58惠普相比,这是比所有其他方法。他们是7.83,7.41,8.81,6.85,和7.32的IBPO DRQN, DFP, A3C,彩虹的照片惠普,分别。与此同时,IBPO也比其他方法除了DFP苏尔一步。此外,IBPO不执行比DFP和DRQN苏尔一步。原因在于IBPO主要目标在3 d场景的稀疏奖励的问题,但是有足够的奖励信息的生存场景。幸运的是,迷宫的特性还需要代理基于历史信息的长期计划。足够的奖励信息在这个场景中可以使用辅助AIBPO的任务。三种类型的辅助任务中扮演关键的角色增加代理人的报酬感知和状态估计能力。因此,AIBPO达到分数比IBPO DRQN在这个实验。这是接近DFP苏尔一步和优于DFP图片惠普

拟议中的IBPO旨在解决勘探问题与稀疏奖励3 d场景。寻路的场景的实验结果表明,IBPO有一定的效率改进DFP相比这种类型的场景。拟议中的AIBPO补充剂IBPO的缺点在感知环境奖励信息通过使用一个辅助任务学习机制。生存场景的实验结果显示,辅助任务学习机制作为一种辅助方法大大提高了IBPO。

3.3.3。烧蚀实验

拟议中的AIBPO包括三种类型的辅助任务:奖励预测任务 ,状态值的任务 ,任务和动作值 我们分别连接三个任务IBPO比较各自对原政策优化算法的影响。实验结果如表所示4

从表中我们可以看出4,在生存场景中,每个三个辅助任务基准算法IBPO不同程度有所提高,从而延长生存时间的代理。图片上的奖励预测任务表现的更好惠普比其他两个任务,而任务行动价值在苏尔效果最好一步。实际上,他们比分开更好的一起工作。整合了所有三个任务的AIBPO进步最大的3 d环境。

3.4。讨论

在许多真实世界的场景中,代理需要作出决定在三维空间中,例如,三维导航和自动驾驶。我们的工作是能够直接应用于这些任务,因此我们的方法显示了非常重要的应用价值。此外,在一些基于强化学习的任务,奖励稀疏是一个常见的问题,限制了算法的性能。例如,在机械手抓的任务,机械手只能得到奖励成功把握目标后通过完成一系列复杂的姿态控制。任何中间步骤进展的失败可能导致未能得到奖励。代理我们的方法提供了额外的奖励通过内在报酬和辅助任务,有效缓解奖励稀疏的问题。因此,我们的方法在理论上对这些任务有很强的参考意义。

4所示。结论

提出了一种新颖的方法,我们已经叫IBPO,奖励3 d游戏的稀疏问题。与现有DRL-based方法不同的是,一个代理我们的方法可以学习内在奖励,使用微分融合机制,修改后的价值网络。此外,AIBPO模型相结合,提出了基于IBPO辅助任务,进一步提高IBPO的性能。实验结果基于VizDoom平台展示了该方法的有效性。

然而,这种方法也有其局限性。首先,它需要相当多的专业知识在设计内在报酬和辅助任务,这限制了其进一步应用。第二,使用时在更复杂的场景中,计算机视觉,形势分析和其他技术才能使我们的方法更加健壮。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究受到了PINGAN-HITsz智能金融研究中心,研究和发展计划的关键字段在广东省,中国(2020号b0101380001),中国国家自然科学基金(61902093),和广东省自然科学基金(2020号a1515010652)。