计算智能和神经科学

在这一页上

文摘介绍相关的工作背景结论数据可用性的利益冲突引用版权相关文章

特殊的问题

人工智能和机器学习驱动决策

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID2951193| https://doi.org/10.1155/2022/2951193

学习注意力和封闭的通信通过好奇心

楚雄太阳 ,^1、2 凯杰,周 ,² 聪聪 ,^1、2 Kai李 ,² 瑞王 ,² 和晓惠胡 ²

学术编辑器: 魏香

收到了 2021年12月17日

修改后的 2022年2月14日

接受 2022年3月07

发表 2022年4月26日

文摘

由于多智能体系统分散,局部可观测性沟通合作是至关重要的。此外,能够决定什么时候和谁沟通实现有效的沟通是很重要的。然而,现有的方法通常由外部奖励。因此,当环境是稀疏的奖励,推迟,或者是吵闹的,这些方法的通信性能将受到限制。此外,它将引入额外的困难叫信贷分配使用外在报酬时培养沟通和样品一起的政策。为了解决这些困难,我们引入多智能体通信机制的内在动机心理学。我们的观点观察和更多的不确定性和好奇心是沟通更有价值。它可以帮助代理从观察找到有用的信息。这是一个很好的补充现有的外在驱动方法。具体地说,在发送端,我们从当地观测模型学习的好奇心沟通的重要性。 Then, we design a heuristic mechanism to prune unnecessary messages. It can solve the problem of when to communicate. Then, the ability to gate unnecessary message can reduce the cost and improve the efficiency of communication, which is important to apply to real-world scenarios. Furthermore, at receiving end, we utilize the intrinsic importance to differentiate information, which can be helpful for local decisions. It could solve the problem of whom to communicate. The ability to pay attention to useful information can efficiently improve the performance of communication behaviors. At last, we evaluate our method on a variety of multi-agent scenarios. The experiments of full communication demonstrate that the curiosity is capable to model the communication importance, and the results of gated communication further prove the conclusion.

1。介绍

对人类来说,沟通是一个重要工具,促进文明的进步。同样,驱动高效沟通的能力最近收到越来越多智能体强化学习文学的利益(泥灰岩)。特别是在一些真实世界的任务和应用程序代理需要分散决策仅仅根据当地的观察,沟通的能力会进一步的意义。具体地说,决定沟通的能力是一个重要的具有挑战性的一步多智能体通信(开车1]。然而,完整的所有代理之间的沟通每时每刻将推出大型计算和沟通成本,但交换的消息并不总是帮助决策。因此,决定什么时候沟通的能力基于观测信息是另一个具有挑战性的一步实现有效的沟通,特别是在一些场景通信资源(例如,带宽)限制(2- - - - - -7]。此外,如何区分传入消息和区分前景信息在接收端是另一个挑战来实现有效的沟通2,8,9]。

在这项工作中,我们从当地代理商的观察和学习交流的价值提出一个新颖的多智能体通信架构价值。这是一个扩展的版本(10]。具体地说,拟议中的协议的消息包含的内容信息,以及共享信息的重要性。代理会和他们的队友交流只有当他们观察到的信息是有意义的,并承诺;因此,资源可以分配给有价值的信息和不必要的通信将被避免。此外,收到消息后,代理商也会区分传入的信息,注意重要信息,可以帮助合作行为。

关键的挑战在我们的框架是如何衡量沟通的地方观测值在一个有前途的方法。虽然文献,直接学习价值制定观察信息沟通的重要性,在很大程度上是缺席,现有的通信协议是几百比例由环境奖励。因此,它可以总结为“交流什么回报你的”。该机制被广泛使用,使多智能体通信重大进展。然而,它可能不工作当外部奖励稀疏或不可分解的。为此,我们提出一个叫多智能体通信内在动机的机制在这工作。我们认为奇怪的和不确定的观察对交流很重要,因为它可以帮助代理商获得更多未知的信息。的动机IMMAC可以呈现为“沟通你惊喜”。此外,我们注意到该IMMAC享有良好的可伸缩性。它可以是一个很好的补充现有的方法由外部奖励。

为了验证是否内在动机的沟通可以帮助合作,我们评估我们的算法在不同的环境和比较各种基线和消融。首先,我们考虑全面沟通和评估性能的内在价值的关注机制。结果表明,内在价值是充分的激励有效的沟通行为。然后,我们将内在和外在的注意机制。结果表明,它们的结合可以享受两个世界的好处。它表明内在动机的沟通可以是一个很好的补充外在动机的沟通。最后,我们考虑封闭的通信和一种内在的价值取向的闸门机制应用到删除无用的信息。结果表明,它可以产生类似的结果下充分沟通交流有限,这再一次证明,内在价值是一种有效的方法来测量观测信息的重要性。

总的来说,我们的贡献可以总结如下:(我)提出了一种多智能体通信框架小说价值。框架允许代理编码当地观察和沟通决定何时以及如何区分前景的信息。(2)一种新型通信机制出于内在价值。我们所知,我们是第一个引入多智能体通信机制的内在动机。此外,当地的好奇心观察通过范式建模提出了(11]。可以规模分散执行自预测问题是随机生成的,好奇心可以当代理只有在执行期间访问当地的观察。(3)一个广泛的评价方法和综合的比较先进的方法实现,我们证明内在动机的沟通是一个可行的想法。

其他组织的工作描述如下。节2,我们首先介绍相关工作大约多智能体强化学习分散。然后,我们描述了内在动机的概念并介绍流行的内在报酬的强化学习方法。节3目前问题考虑,我们正式在这个工作。具体地说,我们提供的公式和符号Dec-POMDP,集中培训与分散的执行,和价值函数分解以及内在动机。节4介绍该方法的细节。首先,我们描述我们的多智能体通信代理和内在动机的体系结构提出如何在分散的场景模型内在的重要性。然后,我们展示了如何使用观测信息的重要性来驱动高效沟通。最后,我们提供培训细节,结合我们的方法和现有的工作方式。节5,我们证明了我们的方法的有效性。我们介绍各种环境、场景和基线用于这项工作。然后,我们报告的结果注意力和封闭的机制,这证明我们的方法可以有效的沟通。节6这些工作,我们提供一个结论。具体地说,我们的结论、方法和实验方法。然后,我们提供了一个简洁的相比,现有的方法。

2.1。多智能体强化学习

最近,深入强化学习(DRL)在很多情况下,如产品上取得了巨大成功,雅达利和机器人。然而,最成功一直局限于单环境和任务。和真实世界的场景往往需要DRL算法来控制多个代理。为了DRL算法应用到多智能模式,下面的困难需要克服。(我)可伸缩性。DRL算法扩展到多代理设置的一个方法是学习一个集中的策略或价值函数来控制多个代理(12]。多智能体强化学习这些方法简化单问题联合观察和行动空间。然而,这些方法很难因为联合观察和行动空间规模成倍增长数量的代理。此外,集中的方法将推出名为“懒惰的代理”问题(13),代理将神圣和懒惰探索当队友找到有效的政策。另一方面,学习独立的政策是另一种方式14,15]。独立的政策更容易学习,因为它只考虑当地的观察。然而,充分分散学习问题将不稳定的自每个独立代理作为其他代理的影响环境的一部分。因此,环境将从个人的角度不稳定剂,因为它是很难区分的环境和政策变化的特性转化的队友(16]。为了解决这个问题,混合模式命名为集中培训与分散执行(CTDE)提出了17]。混合框架可以享受的好处完全集中和分散的方法,最近成为一个标准和受欢迎的多智能体强化学习范例。例如,MADDPG [18]遵循CTDE范式,提出了一种新颖的培训框架,演员需要分散决策和评论家还在增加额外的信息(例如,队友和全球的信息状态)放松训练。(2)信贷分配。泥灰岩的问题往往需要多个代理优化一个团队奖励基于联合行动。因此,代理人可能观察欺骗性奖励信号源自队友(13]。由于无法区分代理商的贡献团队奖励,信贷分配成为一个重要的开放问题泥灰岩文学。学习价值分解网络是一种有效的方法来解决这个问题。具体地说,VDN [13]假定全球价值函数可以映像的总和当地值,提出了一个线性值分解架构。QMIX [19)取代了添加剂与单调假设约束,提出了一个非线性值分解网络。然而,VDN QMIX只能解决任务可以映像和满足的假设。通过改变值函数容易映像,QTRAN [20.)扩展到边界设置没有考虑这样的假设。此外,值映像方法可能导致次优政策自约束值函数将限制有远见的探索(21]。为了提高勘探能力,MAVEN (21]介绍了多元价值近似被注入一个共享和参数化潜变量混合网络。QDPP [22)发现自然值分解利用行列式点过程(23提供不同的模型在训练。另一方面,一个多代理actor-critic框架命名昏迷(24]介绍了一种信贷分配奖励来解决问题的差异。具体、昏迷替换一个代理的行动和一个默认计算获得奖励的差别,然后使用作为一个反事实的基线模型的差异个人代理的影响团队奖励。此外,夹住(25]值分解的概念适用于actor-critic框架和梯度法提出了一个可伸缩的政策。(3)沟通。CTDE范式和信贷分配方法可以引入隐式合作学习算法通过引入信息。更直接的多智能体文学帮助合作的方法是观察到的代理之间的信息分享。一般来说,沟通是预定义的和固定的符号在训练(26- - - - - -28]。然而,预定义的架构可能限制通信(2]。为此,(1名为CommNet提出一个架构,可以连续消息从当地的观察学习。通过学习与环境的交互,连续消息可以适应动态环境和最终决策中受益。事实上,提取信息的难度和做出决定基于传入的消息已基本解决。此外,为了决定是否基于观测信息沟通;(2,3)设计一个控制网络输出二进制沟通行动;(4)提出一个启发式机制,沟通只有当代理不能自信的决策;和[5- - - - - -7)采用体重依赖型剂量调度器控制通信,它只会通信资源分配给代理与重要的观察。然而,大多数提到的作品直接传入消息集成权重相等。这意味着代理平等对待每一个收到的消息。天真的机制是nonsophisticated和智能代理应该能够识别重要的信息从各式各样的消息。为了区分传入的消息,2利用双向LSTM单元,可以忽略无用的信息整合传入的消息,,8)使用软的注意机制共同生成的发送方和接收方的计算每条消息的重要性权重。此外,(9)达到目标两个信息理论通过引入通信regularizers。(29日]利用一个代理的影响他人模型通信的必要性和应用请求-应答模式决定是否传达到另一个代理。在通信协议所提到的,我们的工作主要涉及到(5- - - - - -8还因为他们利用一个observation-dependent体重控制通信。从框架的角度,5- - - - - -7]目的是决定何时交流,8)提出了决定人沟通,但是我们的工作可以被视为他们的组合可以享受两个世界的好处。此外,我们的工作完全不同于他们的方法来代表观察到的信息的重要性。我们考虑两个内在和外在价值评估当地的观察。沟通在工作中是出于外部奖励以及固有的好奇心和不确定性。

2.2。内在动机

我们的工作也与内在动机的作品。这个概念是源于心理学。与外在激励起源于外,内在动机是指行为,这是由内部回报率(30.]。介绍了近年来,内在奖励强化学习探索小说的领域行为。提出了各种依赖政府奖励奖金衡量内在价值(31日- - - - - -35]。首先,最直接的方法是使用访问数奖励小说州(36,37]。然而,天真的想法不能扩展到大规模的问题,因为它使用一个表来记录访问计数。(31日)使用密度模型状态空间估计pseudocount,和[35)提出了一个散列数,可以简化高维状态空间。

在这项工作中,我们介绍了多智能体通信机制的内在动机的文献以来如何衡量当地观测的重要性也承诺要实现有效的沟通和内在价值是一个很好的补充现有的解决方案。然而,大多数现有的内在价值无法大规模多智能体任务分散,因为代理只限制在执行期间访问。我们进行小心过滤,最后采用基于随机网络预测误差蒸馏(RND) [11)来衡量当地观测的内在价值。详细的方法模型内在价值和使用内在价值来驱动交流行为在以下部分中给出。

3所示。背景

在执行期间,代理只能访问本地观察但可以观察到的信息传递给他人。此外,在每个时间步,每个代理应分散的决定。然后,将交通环境到一个新的国家基于联合行动和每个代理将收到一个新的地方观察。此外,一个团队奖励所有代理。培训期间,额外的信息,比如全球的环境行为,和轨迹的其他代理提供集中和分散策略训练来实现一个共同的目标,最大化贴现团队奖励。它符合集中培训的模式和分散执行(13,18,19,24]。

3.1。价值函数分解

为了解决在Dec-POMDPs信贷分配的难度,近期作品(13,19,20.,22关注价值函数分解,利用混合机制学习联合每个代理的q值。具体地说,VDN [13)直接使用当地的总和值函数来代表联合价值函数。在哪里指的是全球功能和价值表示本地值的函数。

QMIX [19)取代了求和的非线性组合,而需要以下约束: 在哪里指的是联合行动空间由一组可用的联合行动。

3.2。在强化学习内在动机

有多样性的依赖内在报酬设计代表新奇,好奇心,状态空间的不确定性。在实践中,大多数内在价值可以分为两类:count-based方法(31日,35- - - - - -39和预测误差的方法33,34,40- - - - - -42]。基于这个点方法直接使用访问计数模型的新奇。在哪里指的是内在奖励, 的访问数量吗和。

基于的关键洞见点方法可以总结为低频率就意味着更高的新奇。此外,这部小说通常包含重要的信息,这是不确定的代理。

另一方面,预测误差的方法将制定依赖政府的预测问题,如预测未来状态给定的当前状态和行动。在哪里是指预测下一个状态。然后,预测错误通过状态空间用于表示的不确定性。

建模的内在价值承诺推动文学的探索性行为单强化学习当外部奖励稀疏或欺骗性。在这项工作中,我们介绍了泥灰岩的内在动机,鼓励沟通的行为。我们认为这将是一个良好的补充现有的沟通工作,而只考虑外部奖励评估观测信息的重要性。

4所示。方法

4.1。体系结构

如图1我们的框架包含一个部分观察环境,注意力的通信通道,和独立控制代理。在时间步 ,每个代理将获得本地观察吗从环境和一个集成的信息从通信通道。因为代理没有访问全局状态在执行过程中,信息共享合作会有帮助。具体地说,每个代理由政策网络内在价值网络和闸门机制。政策网络包含一个观察发电机编码器和一个操作。观察编码器被实现为一个1-layer多层感知(MLP)和1-layer封闭的复发性单元(格勒乌)43]。需要当地的观察作为输入,并负责编码当地的观察记录。然后,嵌入与传入消息连接和作为一个输入动作生成器。

图1

IMMAC的详细架构。在时间步 ,代理被当地的观察和股票所观察到的信息其他代理,然后接收集成信息从通信通道并产生行动与环境进行交互。更特别的,政策网络需要当地的观察和聚合信息可用的行动值作为输入和输出操作。内在价值网络需要作为输入和输出一个observation-dependent值 ,这是用来区分重要的地方观察。

此外,内在价值网络地图观察沟通价值观,负责测量内在观测信息的重要性。为了模型共享信息的重要性,我们随机制定相关代理的地方观察预测问题。预测的问题被定义为一个目标网络 ,它包含一个双层延时。目标网络的随机初始化和固定在训练,没有动态预测问题。预测网络实现为一个3 - layer MLP旨在回答这个预测问题。所有代理收集的训练经验,学会了通过最小化以下MSE 。我们的目标是利用代理的能力从当地的观察(即作出预测。,理解的能力 )模型中观察到的新奇和不确定性信息。换句话说,代理通常不能精确预测观测与小说和不确定的信息。这样的预测错误往往是大当观察小说,和错误会减少代理收集更多的类似经验。此外,这部小说观测通常包含重要的信息,可以帮助代理理解环境。因此,它是有前途的新颖的和不确定的观察队友分享。类似于奖励观察交流,分享小说观察也是一个有效的通信方向。它使代理区分是否观察到的信息是很重要的。

政策网络的参数和内在价值网络分别指 , ,和所有参数之间共享代理。此外,我们的体系结构还包括一个闸门机制,负责修剪无用的信息,和一个注意力机制,旨在整合传入消息。沟通的细节提供了下一个小节。

4.2。分散的沟通和执行

共享信息这个工作包括两个部分: 在哪里从观察到的信息和提取吗描述的信息有多重要。分别观察到的信息和重要性,从政策网络生成和内在价值网络。在哪里表示第二层的政策网络的输出。在哪里和 ,分别表示预测网络和目标网络分段中提到4.1。

首先,每个代理会产生沟通的信息和内在的重要性。此外,每个代理会将信息传递给控制模型。控制模型可以避免不必要的信息共享。具体地说,它使代理人决定是否进行交流的能力。在这部作品中,浇注模型作为一个启发式机制实现基于内在的重要性。在哪里是一个二进制信息,用于决定是否进行交流。具体地说,当观测信息的重要性大于一个阈值 ,的在代理之间共享信息。否则,不会与其他代理进行通信。因此,封闭的信息可以由以下方程: 在哪里表示的信息。决定什么时候沟通的能力是重要的沟通效率因为在许多真实世界的场景中,通信的资源是有限的,所以它承诺区分观测信息和分享他们的重要。

然后,从代理将发送到一个封闭的信息共享渠道。通道设计整合传入的信息。在这个工作我们实现一个注意力机制。具体,我们直接使用内在重要性表示关注权重,以便信息与大内在重要性将支付更多的关注。在哪里表示关注权重。在哪里是所有代理商的信息聚合。

我们注意到引入注意力机制可以帮助代理区分重要信息集成传入的消息时。它可以帮助代理获得更多有用的信息。最后,综合信息广播到每个代理和美联储政策网络来帮助做出更好的决策。在哪里代表当地的决定,参考的政策。

4.3。集中的训练

在培训期间,如全球国家可用的额外信息。然而,内在价值网络的训练完全是内在的。它不依赖于任何外在的和特定于任务的奖励信号。具体地说,内在价值网络的参数使用以下MSE更新: 在哪里用于制定预测问题和固定在训练,然后呢是指预测网络的参数。

此外,政策网络是由强化训练的损失和外部奖励。在最优目标值计算使用贝尔曼方程, ,和共同价值函数结合使用提出的范式(19), 。

4.4。内在和外在激励沟通

我们介绍内在动机的机制鼓励多代理沟通。然而,我们并不认为IMMAC代替现有的外在动机交流。我们进一步认为,内在动机的沟通可以是一个很好的补充现有的外在动机的沟通,特别是在场景外在激励沟通不工作。外在和内在动机可以被看作是两个单独的感官感知环境,共同帮助决策。外在动机和内在动机可以享受两个世界的好处。

在这项工作中,我们直接从当地观测模型的内在价值,提出一个基于价值观的框架来控制通信。显然,该框架很简单,结合现有外在体重依赖型剂量传播策略等(4,5,7,44]。具体地说,我们表示外在传达意义和直接结合起来提出了内在的重要性。在哪里和hyperparameters平衡内在和外在价值。

5。实验

在本节中,实验旨在探讨以下问题:(我)内在价值是否可以作为一个有效的沟通行为的动机(2)是否提出了内在价值框架可以提高合作的性能和效率(3)内在和外在价值的简单组合是否可以享受双方的好处

5.1。实验设置

为了全面评估IMMAC,我们考虑不同的环境,不同的场景,不同的基线,和消融在这工作。

5.1.1。环境

(1)合作的导航。如图2(一个)和2 (b)合作多智能体强化学习导航是一个受欢迎的基准。我们采用两个变量中使用(22并让他们传播和拦截器,分别。在这两种环境中,它由一个二维网格世界独立的代理。在每个时间步,代理可以观察自己的位置和需要决定朝着四个方向之一。代理会得到团队奖励每一刻之前,他们到达目的地。全球包括所有代理的位置只是在培训期间可用。在传播环境中,网格将的形状。有4个地标位于四个角落和每个代理必须导航到一个具有里程碑意义的与众不同。在拦截器环境下,将网格形状。有两种阻断剂放置在底部提起和三个特工随机初始化在第一行。负责的阻滞剂阻止代理可以向左或向右移动一个确定的规则。代理商必须导航到最后一行,同时避免阻滞剂。在这两种环境中,代理可以观察自己的位置但一无所知的队友,地标,和阻断剂,使导航任务更加困难,需要一个高水平的交流。

(一)

(b)

(c)

(d)

(2)多智能体挑战星际争霸(SMAC)。最近,SMAC [45)成为一个受欢迎的基准评估RL代理商的合作表现。如图2 (c)和2 (d)、环境由一组具有挑战性的场景基于星际争霸2,一个著名的即时战略游戏。它提供接口来控制一组分散代理对抗内置的人工智能。具体地说,每个代理的视线范围有限,只能观察相邻单位的信息。观察通常表示为一个特征向量组成的相对位置,距离,观察单位的类型和健康。部分可观测性使得代理很难知道队友和敌人的视线范围是否还活着。操作空间离散和不同的场景。通常,它包含四种类型的可用操作。此外,全球州包括坐标和特性可用的所有代理都只在训练。奖励函数设计和塑造基于破坏性,杀死敌方单位,或取胜的战斗。总的来说,SMAC环境挑战由于部分可观测性和复杂的状态空间。此外,场景都经过精心设计,与敌人的战斗能力通常是更强的。因此,它需要显微技术和高效合作打败强大的敌人。在本节中,我们选择两个和四个超级难场景根据提供的分类(45]。每个选择的场景的详细分类和组件如表所示1。

5.1.2中。基线和消融

(我)QMIX是一种先进的集中培训和分散执行算法。它可以实现多智能体任务不同,出色的表现,如SMAC。我们选择它作为多智能体强化学习的基本方法,用它来代表一个基线不沟通。(2)标准QMIX QMIX停机坪是变体。实现认为停机坪上,一个受欢迎的注意力通信协议,注意体重的训练,下游外部奖励。我们把注意力通信模块QMIX框架和用它来代表一个基线与最先进的外在动机交流。(3)与IMMAC QMIX指的是算法。(iv)QMIX停机坪和IMMAC认为外在和内在价值控制通信。我们的目标是测试组合是否可以享受两个世界的好处。

详细的架构和hyperparameters基线中给出的一个相似的8,19]。公平的比较,QMIX停机坪上被实现为1轮的沟通。我们结合停机坪和IMMAC采用简单的方法。具体地说,我们总结他们的注意重量,集和。此外,培训模式类似于(45]。我们暂停训练每一个时间步长和运行32个测试集的评估,和所有的结果报告在以下部分平均3随机种子。

5.2。内在价值的注意机制

为了评估内在注意力通信的性能,我们集并考虑在本节充分沟通。然后,我们绘制导航任务图的测试值返回3。结果可以初步澄清我们的想法;沟通可以帮助合作,然后,结合外在和内在动机可以进一步提高通信效率。此外,我们目前的中值测试赢得速度的更具挑战性的SMAC场景图4并提供一个详细的性能分析。

(一)

(b)

(一)

(b)

(c)

(d)

(e)

(f)

起初,停机坪上的性能和IMMAC优于QMIX以很大的优势在所有环境中。这表明之间的有效沟通代理可以很大程度上帮助合作的部分观察场景。具体地说,有效的信息共享可以帮助代理理解全球形势和做出更好的决策。此外,我们注意到IMMAC停机坪可以产生类似的性能最先进的方法。它证明了我们的想法,内在动机的机制可以有效地驱动交流行为。特别是,它表明内在价值可以有效地测量观测信息的重要性,然后帮助代理找到有用的信息从他们没有环境的外在报酬的帮助,这样我们的方法享受更好的可伸缩性。最后,我们进一步发现IMMAC和停机坪上可以进一步提高性能。这证明该IMMAC是个不错的补充而不是取代现有的外在动机的方法。

5.3。内在价值闸门机制

在实践中,注意模型已经装备代理能够在接收端区分传入的消息。理论上它降解闸门机制的价值。然而,实验(9]表明,停机坪上的性能将大大降低当切断信息与较小的权重。因此,我们想要检查我们的算法是否能够有效门无用的信息,同时避免重大影响性能。这是一个关键因素IMMAC应用于真实世界的场景通信资源是有限的。

具体地说,我们评估后的替代品的性能:(我)与IMMAC QMIX,集 ,它指的是一个完全的内在动机的沟通。(2)与IMMAC QMIX,集。(3)与IMMAC QMIX,集。(iv)与IMMAC QMIX,集 ,它降解QMIX没有沟通由于阈值是经验比内在的价值观。

封闭的通信率和性能IMMAC给出表2和3,分别。如表所示2,我们注意到相同的阈值会产生不同的通信率在场景中,从来和来。我们发现这一现象是由observation-dependent内在价值观的差异引起的。起初,通信速度共同决定的固有值和阈值。此外,有细微的差异在观察空间场景和收集的观察在事件代理也会不同。因此,它是很常见的,内在价值和沟通的差异率在场景中存在。

另一方面,表3表明我们的框架的性能是不受控制的结合机制。虽然消息的一部分是修剪,封闭的性能IMMAC仍明显比QMIX没有沟通。它甚至优于充分沟通以小的优势和只使用来通信资源。它表明,完整的沟通并不总是帮助合作。可能有一部分无用的信息,不能帮助甚至降级的决定。本节实验表明,内在闸门机制可以有效地删除无用的信息共享和再一次表明,内在价值是有效的,并承诺测量观测信息的重要性。

除了评估IMMAC大门的性能,我们进一步提供了一种分析为什么停机坪没有工作但IMMAC介绍闸门机制。从本质上讲,停机坪上重量训练通过下游损失和梯度的政策网络。当结合nondifferentiable控制模块,关注权重(即。,非本征值)将产生重大偏差。需要一个场景组成的五个代理作为一个例子,假设停机坪注意模块的输出。门后,体重变成了。在实践中,政策网络的梯度计算和关注模块更新使用。然而,沟通的观测值显然不是零和有偏见的0.1评估观测信息的重要性。另一方面,IMMAC值由一个训练有素的observation-dependent预测问题和梯度不流控制模块,以便它不会受到偏见影响闸门机制。此外,我们检查现有的工作相关的外在价值多智能体通信控制和找到几个作品5,7,44)模型非本征值门消息,但现有的外在价值能否扩展到我们的框架与注意力和nondifferentiable浇注模型仍不清楚。所以,我们只评估性能的内在价值闸门机制在这一节和离开内在和外在价值的关注和控制未来的工作。

6。结论

我们运用内在动机,这一概念起源于心理学,文学的多代理沟通。多智能体通信的目的是通过信息共享提高决策的准确性。因此,我们得出这样的结论:如何评估观测信息的重要性是驱动有效沟通的关键行为。然而,现有的作品利用外部奖励而忽视内在价值。我们认为,内在价值是一个很好的补充现有的工作。因此,我们提出一种新颖的多智能体通信的内在动力机制。具体地说,我们采用RND (11)来衡量内在新奇和观察到的不确定性信息。然后,我们应用一个内在价值闸门机制和多智能体通信框架的注意机制。闸门机制可以删除无用的信息,提高沟通的效率。注意机制可以帮助代理区分传入消息,提高决策的准确性。最后,我们广泛评估IMMAC的性能。结果验证,内在动机的沟通是有前途的,它可以产生更好的性能,结合现有的外在动机交流。

数据可用性

训练数据是基于一个名为SMAC合作的开放的泥灰岩环境导航,和环境的联系https://github.com/oxwhirl/pymarl。

的利益冲突

作者宣称没有利益冲突。

引用

苏赫巴托和r·费格斯”与反向传播学习可替换主体沟通”,页2244 - 2252,2016,https://arxiv.org/abs/1605.07736。
视图: 谷歌学术搜索
江和z,“学习注意力多智能体合作交流,”第7264 - 7254页,2018年,https://arxiv.org/abs/1805.07733。
视图: 谷歌学术搜索
辛格a、t . Jain和s .苏赫巴托”学习交流时合作的规模和竞争力的任务,”2018年,https://arxiv.org/abs/1812.09755。
视图: 谷歌学术搜索
张七张树群,j .林”多智能体强化学习有效沟通通过方差控制为基础,”第3244 - 3235页,2019年,https://arxiv.org/abs/1909.02682。
视图: 谷歌学术搜索
d .金月亮,d . Hostallero et al .,“学习安排多智能体强化学习交流,”2019年,https://arxiv.org/abs/1902.01554。
视图: 谷歌学术搜索
h .毛>肖z z,锣,和y倪,“学习代理通信有限带宽下消息修剪,”2019年,https://arxiv.org/abs/1912.05304。
视图: 谷歌学术搜索
w·r·王,他许,r . Yu秋Bo, z .拉比诺维奇,”学习多智能体通信效率:一个信息瓶颈的方法,”ICML学报2020:37国际会议上机器学习2020年7月,维也纳,奥地利。
视图: 谷歌学术搜索
答:Das, t . Gervet j . Romoff et al .,“停机坪上:多智能体通信目标,”机器学习的国际会议,页1538 - 1546,美国宾夕法尼亚州匹兹堡,2019年7月。
视图: 谷歌学术搜索
c . j . t . Wang Wang郑,c .张”通过沟通学习几乎能装腔作势的价值函数极小化,”ICLR学报2020:第八学习国际会议上表示美国洛杉矶,新奥尔良,2020年10月。
视图: 谷歌学术搜索
c .太阳,吴老板,r . Wang x, x,和c琮、“多智能体通信内在动机,”诉讼AAMAS 21: 20国际会议上的自治代理和多重代理系统f . Dignum, a . Lomuscio endris, a . Nowe, Eds。,pp. 1668–1670, ACM, Virtual Event, United Kingdom, May, 2021.
视图: 谷歌学术搜索
y Burda h·爱德华兹,s·阿莫斯,o·克里莫夫,“探索通过随机网络蒸馏,”2018年,https://arxiv.org/abs/1810.12894。
视图: 谷歌学术搜索
c·埃内斯托Guestrin d·科勒,r·e·帕尔”与分解mdp可替换主体计划”,先进的神经信息处理系统,少量的2001卷,1523 - 1530年,2002页。
视图: 谷歌学术搜索
s . Peter l ., a Gruslys et al .,“多智能体学习值分解网络合作,”2017年,https://arxiv.org/abs/1706.05296。
视图: 谷歌学术搜索
多智能体强化学习:m . Tan“独立vs.cooperative代理,”《第十届国际会议上机器学习(icml - 93)美国阿默斯特马,1993年7月。
视图: 谷歌学术搜索
a . Tampuu t . Matiisen d Kodelja et al .,“可替换主体与强化学习,合作与竞争”《公共科学图书馆•综合》,12卷,不。4篇文章ID e0172395 2017。
视图: 出版商的网站 | 谷歌学术搜索
g·j·劳伦、l . chirac)和n . Le Fort-Piat”世界的独立学习者不是马尔可夫链的,”国际期刊的知识和智能工程系统,15卷,不。1,55 - 64、2011页。
视图: 出版商的网站 | 谷歌学术搜索
跨度打,和f·a·Oliehoek m . t . j . n . a . Vlassis”最优分散pomdps和近似核反应能量函数,”人工智能研究杂志》上32卷,2008。
视图: 出版商的网站 | 谷歌学术搜索
r·劳易吴,特拉维夫他玛,j·哈布O.A. i . p . Abbeel i Mordatch,“多代理actor-critic cooperative-competitive混合的环境中,”诉讼进展的神经信息处理系统旧金山,页6379 - 6390;2017年11月,美国CA。
视图: 谷歌学术搜索
t·拉希德·m·Samvelyan美国德威特·g·法夸尔,j·福斯特把和s . Whiteson”Qmix:多智能体强化学习单调值函数Factorisation深,”2018年,https://arxiv.org/abs/1803.11485。
视图: 谷歌学术搜索
w . k .儿子,d . Kim Ju Kang d·厄尔Hostallero和y,“Qtran:学习因式分解与转换多智能体强化学习合作,”ICML学报2019:三十六国际会议上机器学习长滩,页5887 - 5896年,CA,美国,2019年6月。
视图: 谷歌学术搜索
a . Mahajan t·拉希德·m·Samvelyan, s . Whiteson“Maven:可替换主体变分探索,”先进的神经信息处理系统32卷,第7624 - 7613页,2019年。
视图: 谷歌学术搜索
王y, y, j . et al .,“多代理行列式q学习,”ICML学报2020:37国际会议上机器学习2020年7月,维也纳,奥地利。
视图: 谷歌学术搜索
o . Macchi费米子过程——以排斥分随机点过程的模型施普林格,荷兰,1977年。
j·n·福斯特把g·法夸尔t . Afouras n . Nardelli和s . Whiteson“梯度反事实的多重代理政策,”第2982 - 2974页,2018年,https://arxiv.org/abs/1705.08926。
视图: 谷歌学术搜索
h . y, b .汉,t . Wang Dong,和c,“多智能体分解策略梯度Off-policy,”2020年,https://arxiv.org/abs/2007.12322。
视图: 谷歌学术搜索
j·福斯特把中情局Assael: De Freitas s Whiteson,“学习”多智能体强化学习与深度沟通,页2137 - 2145,2016,https://arxiv.org/abs/1605.06676。
视图: 谷歌学术搜索
a . Lazaridou p·亚历山大,m·布洛尼,“多主体合作(自然)的出现,语言,”2016年,https://arxiv.org/abs/1612.07182。
视图: 谷歌学术搜索
即Mordatch和p . Abbeel出现接地多智能体种群组成语言,”三十二AAAI学报》关于人工智能的会议美国新奥尔良,路易斯安那州,2018年2月。
视图: 谷歌学术搜索
z丁、t·黄和z,“学习”单独推断多智能体合作交流,先进的神经信息处理系统33卷ID 22069条,2020年。
视图: 谷歌学术搜索
d .黑人和j·o·米特心理学导论:网关与概念地图和评论心理和行为美国,沃兹沃思,波士顿,MA, 2012。
m . Bellemare s Srinivasan g . Ostrovski s .汤姆·d·萨克斯顿,和r . Munos“基于统一点勘探和内在动机,”第1479 - 1471页,2016年,https://arxiv.org/abs/1606.01868。
视图: 谷歌学术搜索
段r . Houthooft Xi, y,约翰•舒尔曼f . De Turck和p . Abbeel”来:变分信息最大化探索,”2016年,https://arxiv.org/abs/1605.09674。
视图: 谷歌学术搜索
d·帕沙克·Agrawal a . a .埃和特雷弗·达雷尔“好奇心探索self-supervised预测,”机器学习(ICML)国际会议上,2017卷,2017年。
视图: 出版商的网站 | 谷歌学术搜索
公元前Stadie、s . Levine和p . Abbeel”激励探索强化学习的深度预测模型,”2015年,https://arxiv.org/abs/1507.00814。
视图: 谷歌学术搜索
h . Tang r . Houthooft f·戴维斯et al .,“探索:一个基于研究点勘探深度强化学习,”诉讼进展的神经信息处理系统旧金山,页2753 - 2762;2017年11月,美国CA。
视图: 谷歌学术搜索
j . z科特勒和a . y . Ng“Near-bayesian勘探在多项式时间内,”学报》第26届国际会议上机器学习ACM,页513 - 520年,蒙特利尔,魁北克,加拿大,2009年6月。
视图: 出版商的网站 | 谷歌学术搜索
a . l . Strehl和m·l·利特曼,”马尔可夫决策过程的分析,基于模型的区间估计,“计算机与系统科学杂志》上,卷74,不。8,1309 - 1331年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
j·马丁,s . Narayanan Sasikumar, t·埃维里特,和m . Hutter”Count-based探索强化学习的特征空间,”2017年,https://arxiv.org/abs/1706.08090。
视图: 谷歌学术搜索
g . Ostrovski m·g . Bellemare Aaron van den Oord,和r。基于Munos”点探索神经密度模型,”2017年,https://arxiv.org/abs/1703.01310。
视图: 谷歌学术搜索
j . Achiam和美国Sastry Surprise-based深强化学习内在动机,”2017年,https://arxiv.org/abs/1703.01732。
视图: 谷歌学术搜索
y Burda h·爱德华兹,d .总裁s .阿莫斯特雷弗·达雷尔a和a·埃”的大规模研究由好奇心引发的学习,”2018年,https://arxiv.org/abs/1808.04355。
视图: 谷歌学术搜索
李钱先生和z王”,黎曼子流形跟踪低秩代数不同,”美国31日AAAI会议上人工智能美国加州旧金山,2017年2月。
视图: 谷歌学术搜索
k .赵Bart van Merrienboer c Gulcehre et al .,“学习短语表示使用rnn encoder-decoder统计机器翻译,”学报2014年会议上实证方法在自然语言处理(EMNLP)1734年,页1724 -多哈,卡塔尔,2014年10月。
视图: 谷歌学术搜索
h .毛>肖z z,锣,和y倪,“学习代理通信有限带宽下消息修剪,”人工智能的三十四AAAI会议,34卷,不。4、5142 - 5149年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
m . Samvelyan t·拉希德·c·施罗德德威特et al ., 2019年“多智能体的挑战,星际争霸”,https://arxiv.org/abs/1902.04043。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

242年

下载

493年

引用

计算智能和神经科学

人工智能和机器学习驱动决策

学习注意力和封闭的通信通过好奇心

文摘

1。介绍

2。相关的工作

2.1。多智能体强化学习

2.2。内在动机

3所示。背景

3.1。价值函数分解

3.2。在强化学习内在动机

4所示。方法

4.1。体系结构

4.2。分散的沟通和执行

4.3。集中的训练

4.4。内在和外在激励沟通

5。实验

5.1。实验设置

5.1.1。环境

5.1.2中。基线和消融

5.2。内在价值的注意机制

5.3。内在价值闸门机制

6。结论

数据可用性

的利益冲突

引用

版权