文摘
由于多智能体系统分散,局部可观测性沟通合作是至关重要的。此外,能够决定什么时候和谁沟通实现有效的沟通是很重要的。然而,现有的方法通常由外部奖励。因此,当环境是稀疏的奖励,推迟,或者是吵闹的,这些方法的通信性能将受到限制。此外,它将引入额外的困难叫信贷分配使用外在报酬时培养沟通和样品一起的政策。为了解决这些困难,我们引入多智能体通信机制的内在动机心理学。我们的观点观察和更多的不确定性和好奇心是沟通更有价值。它可以帮助代理从观察找到有用的信息。这是一个很好的补充现有的外在驱动方法。具体地说,在发送端,我们从当地观测模型学习的好奇心沟通的重要性。 Then, we design a heuristic mechanism to prune unnecessary messages. It can solve the problem of when to communicate. Then, the ability to gate unnecessary message can reduce the cost and improve the efficiency of communication, which is important to apply to real-world scenarios. Furthermore, at receiving end, we utilize the intrinsic importance to differentiate information, which can be helpful for local decisions. It could solve the problem of whom to communicate. The ability to pay attention to useful information can efficiently improve the performance of communication behaviors. At last, we evaluate our method on a variety of multi-agent scenarios. The experiments of full communication demonstrate that the curiosity is capable to model the communication importance, and the results of gated communication further prove the conclusion.
1。介绍
对人类来说,沟通是一个重要工具,促进文明的进步。同样,驱动高效沟通的能力最近收到越来越多智能体强化学习文学的利益(泥灰岩)。特别是在一些真实世界的任务和应用程序代理需要分散决策仅仅根据当地的观察,沟通的能力会进一步的意义。具体地说,决定沟通的能力是一个重要的具有挑战性的一步多智能体通信(开车1]。然而,完整的所有代理之间的沟通每时每刻将推出大型计算和沟通成本,但交换的消息并不总是帮助决策。因此,决定什么时候沟通的能力基于观测信息是另一个具有挑战性的一步实现有效的沟通,特别是在一些场景通信资源(例如,带宽)限制(2- - - - - -7]。此外,如何区分传入消息和区分前景信息在接收端是另一个挑战来实现有效的沟通2,8,9]。
在这项工作中,我们从当地代理商的观察和学习交流的价值提出一个新颖的多智能体通信架构价值。这是一个扩展的版本(10]。具体地说,拟议中的协议的消息包含的内容信息,以及共享信息的重要性。代理会和他们的队友交流只有当他们观察到的信息是有意义的,并承诺;因此,资源可以分配给有价值的信息和不必要的通信将被避免。此外,收到消息后,代理商也会区分传入的信息,注意重要信息,可以帮助合作行为。
关键的挑战在我们的框架是如何衡量沟通的地方观测值在一个有前途的方法。虽然文献,直接学习价值制定观察信息沟通的重要性,在很大程度上是缺席,现有的通信协议是几百比例由环境奖励。因此,它可以总结为“交流什么回报你的”。该机制被广泛使用,使多智能体通信重大进展。然而,它可能不工作当外部奖励稀疏或不可分解的。为此,我们提出一个叫多智能体通信内在动机的机制在这工作。我们认为奇怪的和不确定的观察对交流很重要,因为它可以帮助代理商获得更多未知的信息。的动机IMMAC可以呈现为“沟通你惊喜”。此外,我们注意到该IMMAC享有良好的可伸缩性。它可以是一个很好的补充现有的方法由外部奖励。
为了验证是否内在动机的沟通可以帮助合作,我们评估我们的算法在不同的环境和比较各种基线和消融。首先,我们考虑全面沟通和评估性能的内在价值的关注机制。结果表明,内在价值是充分的激励有效的沟通行为。然后,我们将内在和外在的注意机制。结果表明,它们的结合可以享受两个世界的好处。它表明内在动机的沟通可以是一个很好的补充外在动机的沟通。最后,我们考虑封闭的通信和一种内在的价值取向的闸门机制应用到删除无用的信息。结果表明,它可以产生类似的结果下充分沟通交流有限,这再一次证明,内在价值是一种有效的方法来测量观测信息的重要性。
总的来说,我们的贡献可以总结如下:(我)提出了一种多智能体通信框架小说价值。框架允许代理编码当地观察和沟通决定何时以及如何区分前景的信息。(2)一种新型通信机制出于内在价值。我们所知,我们是第一个引入多智能体通信机制的内在动机。此外,当地的好奇心观察通过范式建模提出了(11]。可以规模分散执行自预测问题是随机生成的,好奇心可以当代理只有在执行期间访问当地的观察。(3)一个广泛的评价方法和综合的比较先进的方法实现,我们证明内在动机的沟通是一个可行的想法。
其他组织的工作描述如下。节2,我们首先介绍相关工作大约多智能体强化学习分散。然后,我们描述了内在动机的概念并介绍流行的内在报酬的强化学习方法。节3目前问题考虑,我们正式在这个工作。具体地说,我们提供的公式和符号Dec-POMDP,集中培训与分散的执行,和价值函数分解以及内在动机。节4介绍该方法的细节。首先,我们描述我们的多智能体通信代理和内在动机的体系结构提出如何在分散的场景模型内在的重要性。然后,我们展示了如何使用观测信息的重要性来驱动高效沟通。最后,我们提供培训细节,结合我们的方法和现有的工作方式。节5,我们证明了我们的方法的有效性。我们介绍各种环境、场景和基线用于这项工作。然后,我们报告的结果注意力和封闭的机制,这证明我们的方法可以有效的沟通。节6这些工作,我们提供一个结论。具体地说,我们的结论、方法和实验方法。然后,我们提供了一个简洁的相比,现有的方法。
2。相关的工作
2.1。多智能体强化学习
最近,深入强化学习(DRL)在很多情况下,如产品上取得了巨大成功,雅达利和机器人。然而,最成功一直局限于单环境和任务。和真实世界的场景往往需要DRL算法来控制多个代理。为了DRL算法应用到多智能模式,下面的困难需要克服。(我)可伸缩性。DRL算法扩展到多代理设置的一个方法是学习一个集中的策略或价值函数来控制多个代理(12]。多智能体强化学习这些方法简化单问题联合观察和行动空间。然而,这些方法很难因为联合观察和行动空间规模成倍增长数量的代理。此外,集中的方法将推出名为“懒惰的代理”问题(13),代理将神圣和懒惰探索当队友找到有效的政策。另一方面,学习独立的政策是另一种方式14,15]。独立的政策更容易学习,因为它只考虑当地的观察。然而,充分分散学习问题将不稳定的自每个独立代理作为其他代理的影响环境的一部分。因此,环境将从个人的角度不稳定剂,因为它是很难区分的环境和政策变化的特性转化的队友(16]。为了解决这个问题,混合模式命名为集中培训与分散执行(CTDE)提出了17]。混合框架可以享受的好处完全集中和分散的方法,最近成为一个标准和受欢迎的多智能体强化学习范例。例如,MADDPG [18]遵循CTDE范式,提出了一种新颖的培训框架,演员需要分散决策和评论家还在增加额外的信息(例如,队友和全球的信息状态)放松训练。(2)信贷分配。泥灰岩的问题往往需要多个代理优化一个团队奖励基于联合行动。因此,代理人可能观察欺骗性奖励信号源自队友(13]。由于无法区分代理商的贡献团队奖励,信贷分配成为一个重要的开放问题泥灰岩文学。学习价值分解网络是一种有效的方法来解决这个问题。具体地说,VDN [13]假定全球价值函数可以映像的总和当地值,提出了一个线性值分解架构。QMIX [19)取代了添加剂与单调假设约束,提出了一个非线性值分解网络。然而,VDN QMIX只能解决任务可以映像和满足的假设。通过改变值函数容易映像,QTRAN [20.)扩展到边界设置没有考虑这样的假设。此外,值映像方法可能导致次优政策自约束值函数将限制有远见的探索(21]。为了提高勘探能力,MAVEN (21]介绍了多元价值近似被注入一个共享和参数化潜变量混合网络。QDPP [22)发现自然值分解利用行列式点过程(23提供不同的模型在训练。另一方面,一个多代理actor-critic框架命名昏迷(24]介绍了一种信贷分配奖励来解决问题的差异。具体、昏迷替换一个代理的行动和一个默认计算获得奖励的差别,然后使用作为一个反事实的基线模型的差异个人代理的影响团队奖励。此外,夹住(25]值分解的概念适用于actor-critic框架和梯度法提出了一个可伸缩的政策。(3)沟通。CTDE范式和信贷分配方法可以引入隐式合作学习算法通过引入信息。更直接的多智能体文学帮助合作的方法是观察到的代理之间的信息分享。一般来说,沟通是预定义的和固定的符号在训练(26- - - - - -28]。然而,预定义的架构可能限制通信(2]。为此,(1名为CommNet提出一个架构,可以连续消息从当地的观察学习。通过学习与环境的交互,连续消息可以适应动态环境和最终决策中受益。事实上,提取信息的难度和做出决定基于传入的消息已基本解决。此外,为了决定是否基于观测信息沟通;(2,3)设计一个控制网络输出二进制沟通行动;(4)提出一个启发式机制,沟通只有当代理不能自信的决策;和[5- - - - - -7)采用体重依赖型剂量调度器控制通信,它只会通信资源分配给代理与重要的观察。然而,大多数提到的作品直接传入消息集成权重相等。这意味着代理平等对待每一个收到的消息。天真的机制是nonsophisticated和智能代理应该能够识别重要的信息从各式各样的消息。为了区分传入的消息,2利用双向LSTM单元,可以忽略无用的信息整合传入的消息,,8)使用软的注意机制共同生成的发送方和接收方的计算每条消息的重要性权重。此外,(9)达到目标两个信息理论通过引入通信regularizers。(29日]利用一个代理的影响他人模型通信的必要性和应用请求-应答模式决定是否传达到另一个代理。在通信协议所提到的,我们的工作主要涉及到(5- - - - - -8还因为他们利用一个observation-dependent体重控制通信。从框架的角度,5- - - - - -7]目的是决定何时交流,8)提出了决定人沟通,但是我们的工作可以被视为他们的组合可以享受两个世界的好处。此外,我们的工作完全不同于他们的方法来代表观察到的信息的重要性。我们考虑两个内在和外在价值评估当地的观察。沟通在工作中是出于外部奖励以及固有的好奇心和不确定性。
2.2。内在动机
我们的工作也与内在动机的作品。这个概念是源于心理学。与外在激励起源于外,内在动机是指行为,这是由内部回报率(30.]。介绍了近年来,内在奖励强化学习探索小说的领域行为。提出了各种依赖政府奖励奖金衡量内在价值(31日- - - - - -35]。首先,最直接的方法是使用访问数奖励小说州(36,37]。然而,天真的想法不能扩展到大规模的问题,因为它使用一个表来记录访问计数。(31日)使用密度模型状态空间估计pseudocount,和[35)提出了一个散列数,可以简化高维状态空间。
在这项工作中,我们介绍了多智能体通信机制的内在动机的文献以来如何衡量当地观测的重要性也承诺要实现有效的沟通和内在价值是一个很好的补充现有的解决方案。然而,大多数现有的内在价值无法大规模多智能体任务分散,因为代理只限制在执行期间访问。我们进行小心过滤,最后采用基于随机网络预测误差蒸馏(RND) [11)来衡量当地观测的内在价值。详细的方法模型内在价值和使用内在价值来驱动交流行为在以下部分中给出。
3所示。背景
在执行期间,代理只能访问本地观察但可以观察到的信息传递给他人。此外,在每个时间步,每个代理应分散的决定 。然后,将交通环境到一个新的国家基于联合行动 和每个代理将收到一个新的地方观察 。此外,一个团队奖励 所有代理。培训期间,额外的信息,比如全球的环境行为,和轨迹的其他代理提供集中和分散策略训练来实现一个共同的目标,最大化贴现团队奖励 。它符合集中培训的模式和分散执行(13,18,19,24]。
3.1。价值函数分解
为了解决在Dec-POMDPs信贷分配的难度,近期作品(13,19,20.,22关注价值函数分解,利用混合机制学习联合每个代理的q值。具体地说,VDN [13)直接使用当地的总和值函数来代表联合价值函数。 在哪里指的是全球功能和价值表示本地值的函数 。
QMIX [19)取代了求和的非线性组合,而需要以下约束: 在哪里指的是联合行动空间由一组可用的联合行动。
3.2。在强化学习内在动机
有多样性的依赖内在报酬设计代表新奇,好奇心,状态空间的不确定性。在实践中,大多数内在价值可以分为两类:count-based方法(31日,35- - - - - -39和预测误差的方法33,34,40- - - - - -42]。基于这个点方法直接使用访问计数模型的新奇。 在哪里指的是内在奖励, 的访问数量吗和 。
基于的关键洞见点方法可以总结为低频率就意味着更高的新奇。此外,这部小说通常包含重要的信息,这是不确定的代理。
另一方面,预测误差的方法将制定依赖政府的预测问题,如预测未来状态给定的当前状态和行动。 在哪里是指预测下一个状态。然后,预测错误通过状态空间用于表示的不确定性。
建模的内在价值承诺推动文学的探索性行为单强化学习当外部奖励稀疏或欺骗性。在这项工作中,我们介绍了泥灰岩的内在动机,鼓励沟通的行为。我们认为这将是一个良好的补充现有的沟通工作,而只考虑外部奖励评估观测信息的重要性。
4所示。方法
4.1。体系结构
如图1我们的框架包含一个部分观察环境,注意力的通信通道,和独立控制代理。在时间步 ,每个代理将获得本地观察吗从环境和一个集成的信息从通信通道。因为代理没有访问全局状态在执行过程中,信息共享合作会有帮助。具体地说,每个代理由政策网络内在价值网络和闸门机制。政策网络包含一个观察发电机编码器和一个操作。观察编码器被实现为一个1-layer多层感知(MLP)和1-layer封闭的复发性单元(格勒乌)43]。需要当地的观察作为输入,并负责编码当地的观察记录。然后,嵌入与传入消息连接和作为一个输入动作生成器。
此外,内在价值网络地图观察沟通价值观,负责测量内在观测信息的重要性。为了模型共享信息的重要性,我们随机制定相关代理的地方观察预测问题。预测的问题被定义为一个目标网络 ,它包含一个双层延时。目标网络的随机初始化和固定在训练,没有动态预测问题。预测网络 实现为一个3 - layer MLP旨在回答这个预测问题。所有代理收集的训练经验,学会了通过最小化以下MSE 。我们的目标是利用代理的能力从当地的观察(即作出预测。,理解的能力 )模型中观察到的新奇和不确定性信息。换句话说,代理通常不能精确预测观测与小说和不确定的信息。这样的预测错误往往是大当观察小说,和错误会减少代理收集更多的类似经验 。此外,这部小说观测通常包含重要的信息,可以帮助代理理解环境。因此,它是有前途的新颖的和不确定的观察队友分享。类似于奖励观察交流,分享小说观察也是一个有效的通信方向。它使代理区分是否观察到的信息是很重要的。
政策网络的参数和内在价值网络分别指 , ,和所有参数之间共享代理。此外,我们的体系结构还包括一个闸门机制,负责修剪无用的信息,和一个注意力机制,旨在整合传入消息。沟通的细节提供了下一个小节。
4.2。分散的沟通和执行
共享信息这个工作包括两个部分: 在哪里从观察到的信息和提取吗描述的信息有多重要。分别观察到的信息和重要性,从政策网络生成和内在价值网络。 在哪里表示第二层的政策网络的输出。 在哪里和 ,分别表示预测网络和目标网络分段中提到4.1。
首先,每个代理会产生沟通的信息和内在的重要性。此外,每个代理会将信息传递给控制模型。控制模型可以避免不必要的信息共享。具体地说,它使代理人决定是否进行交流的能力。在这部作品中,浇注模型作为一个启发式机制实现基于内在的重要性。 在哪里是一个二进制信息,用于决定是否进行交流。具体地说,当观测信息的重要性大于一个阈值 ,的在代理之间共享信息。否则,不会与其他代理进行通信。因此,封闭的信息可以由以下方程: 在哪里表示的信息。决定什么时候沟通的能力是重要的沟通效率因为在许多真实世界的场景中,通信的资源是有限的,所以它承诺区分观测信息和分享他们的重要。
然后,从代理将发送到一个封闭的信息共享渠道。通道设计整合传入的信息。在这个工作我们实现一个注意力机制。具体,我们直接使用内在重要性表示关注权重,以便信息与大内在重要性将支付更多的关注。 在哪里 表示关注权重。 在哪里是所有代理商的信息聚合。
我们注意到引入注意力机制可以帮助代理区分重要信息集成传入的消息时。它可以帮助代理获得更多有用的信息。最后,综合信息广播到每个代理和美联储政策网络来帮助做出更好的决策。 在哪里代表当地的决定,参考的政策 。
4.3。集中的训练
在培训期间,如全球国家可用的额外信息。然而,内在价值网络的训练完全是内在的。它不依赖于任何外在的和特定于任务的奖励信号。具体地说,内在价值网络的参数使用以下MSE更新: 在哪里用于制定预测问题和固定在训练,然后呢是指预测网络的参数。
此外,政策网络是由强化训练的损失和外部奖励。 在最优目标值计算使用贝尔曼方程, ,和共同价值函数结合使用提出的范式(19), 。
4.4。内在和外在激励沟通
我们介绍内在动机的机制鼓励多代理沟通。然而,我们并不认为IMMAC代替现有的外在动机交流。我们进一步认为,内在动机的沟通可以是一个很好的补充现有的外在动机的沟通,特别是在场景外在激励沟通不工作。外在和内在动机可以被看作是两个单独的感官感知环境,共同帮助决策。外在动机和内在动机可以享受两个世界的好处。
在这项工作中,我们直接从当地观测模型的内在价值,提出一个基于价值观的框架来控制通信。显然,该框架很简单,结合现有外在体重依赖型剂量传播策略等(4,5,7,44]。具体地说,我们表示外在传达意义和直接结合起来提出了内在的重要性。 在哪里和hyperparameters平衡内在和外在价值。
5。实验
在本节中,实验旨在探讨以下问题:(我)内在价值是否可以作为一个有效的沟通行为的动机(2)是否提出了内在价值框架可以提高合作的性能和效率(3)内在和外在价值的简单组合是否可以享受双方的好处
5.1。实验设置
为了全面评估IMMAC,我们考虑不同的环境,不同的场景,不同的基线,和消融在这工作。
5.1.1。环境
(1)合作的导航。如图2(一个)和2 (b)合作多智能体强化学习导航是一个受欢迎的基准。我们采用两个变量中使用(22并让他们传播和拦截器,分别。在这两种环境中,它由一个二维网格世界独立的代理。在每个时间步,代理可以观察自己的位置和需要决定朝着四个方向之一。代理会得到团队奖励每一刻之前,他们到达目的地。全球包括所有代理的位置只是在培训期间可用。在传播环境中,网格将的形状 。有4个地标位于四个角落和每个代理必须导航到一个具有里程碑意义的与众不同。在拦截器环境下,将网格形状 。有两种阻断剂放置在底部提起和三个特工随机初始化在第一行。负责的阻滞剂阻止代理可以向左或向右移动一个确定的规则。代理商必须导航到最后一行,同时避免阻滞剂。在这两种环境中,代理可以观察自己的位置但一无所知的队友,地标,和阻断剂,使导航任务更加困难,需要一个高水平的交流。
(一)
(b)
(c)
(d)
(2)多智能体挑战星际争霸(SMAC)。最近,SMAC [45)成为一个受欢迎的基准评估RL代理商的合作表现。如图2 (c)和2 (d)、环境由一组具有挑战性的场景基于星际争霸2,一个著名的即时战略游戏。它提供接口来控制一组分散代理对抗内置的人工智能。具体地说,每个代理的视线范围有限,只能观察相邻单位的信息。观察通常表示为一个特征向量组成的相对位置,距离,观察单位的类型和健康。部分可观测性使得代理很难知道队友和敌人的视线范围是否还活着。操作空间离散和不同的场景。通常,它包含四种类型的可用操作 。此外,全球州包括坐标和特性可用的所有代理都只在训练。奖励函数设计和塑造基于破坏性,杀死敌方单位,或取胜的战斗。总的来说,SMAC环境挑战由于部分可观测性和复杂的状态空间。此外,场景都经过精心设计,与敌人的战斗能力通常是更强的。因此,它需要显微技术和高效合作打败强大的敌人。在本节中,我们选择两个和四个超级难场景根据提供的分类(45]。每个选择的场景的详细分类和组件如表所示1。
5.1.2中。基线和消融
(我)QMIX是一种先进的集中培训和分散执行算法。它可以实现多智能体任务不同,出色的表现,如SMAC。我们选择它作为多智能体强化学习的基本方法,用它来代表一个基线不沟通。(2)标准QMIX QMIX停机坪是变体。实现认为停机坪上,一个受欢迎的注意力通信协议,注意体重的训练,下游外部奖励。我们把注意力通信模块QMIX框架和用它来代表一个基线与最先进的外在动机交流。(3)与IMMAC QMIX指的是算法。(iv)QMIX停机坪和IMMAC认为外在和内在价值控制通信。我们的目标是测试组合是否可以享受两个世界的好处。详细的架构和hyperparameters基线中给出的一个相似的8,19]。公平的比较,QMIX停机坪上被实现为1轮的沟通。我们结合停机坪和IMMAC采用简单的方法。具体地说,我们总结他们的注意重量,集 和 。此外,培训模式类似于(45]。我们暂停训练每一个时间步长和运行32个测试集的评估,和所有的结果报告在以下部分平均3随机种子。
5.2。内在价值的注意机制
为了评估内在注意力通信的性能,我们集 并考虑在本节充分沟通。然后,我们绘制导航任务图的测试值返回3。结果可以初步澄清我们的想法;沟通可以帮助合作,然后,结合外在和内在动机可以进一步提高通信效率。此外,我们目前的中值测试赢得速度的更具挑战性的SMAC场景图4并提供一个详细的性能分析。
(一)
(b)
(一)
(b)
(c)
(d)
(e)
(f)
起初,停机坪上的性能和IMMAC优于QMIX以很大的优势在所有环境中。这表明之间的有效沟通代理可以很大程度上帮助合作的部分观察场景。具体地说,有效的信息共享可以帮助代理理解全球形势和做出更好的决策。此外,我们注意到IMMAC停机坪可以产生类似的性能最先进的方法。它证明了我们的想法,内在动机的机制可以有效地驱动交流行为。特别是,它表明内在价值可以有效地测量观测信息的重要性,然后帮助代理找到有用的信息从他们没有环境的外在报酬的帮助,这样我们的方法享受更好的可伸缩性。最后,我们进一步发现IMMAC和停机坪上可以进一步提高性能。这证明该IMMAC是个不错的补充而不是取代现有的外在动机的方法。
5.3。内在价值闸门机制
在实践中,注意模型已经装备代理能够在接收端区分传入的消息。理论上它降解闸门机制的价值。然而,实验(9]表明,停机坪上的性能将大大降低当切断信息与较小的权重。因此,我们想要检查我们的算法是否能够有效门无用的信息,同时避免重大影响性能。这是一个关键因素IMMAC应用于真实世界的场景通信资源是有限的。
具体地说,我们评估后的替代品的性能:(我)与IMMAC QMIX,集 ,它指的是一个完全的内在动机的沟通。(2)与IMMAC QMIX,集 。(3)与IMMAC QMIX,集 。(iv)与IMMAC QMIX,集 ,它降解QMIX没有沟通由于阈值是经验比内在的价值观。
封闭的通信率和性能IMMAC给出表2和3,分别。如表所示2,我们注意到相同的阈值会产生不同的通信率在场景中,从来和来 。我们发现这一现象是由observation-dependent内在价值观的差异引起的。起初,通信速度共同决定的固有值和阈值。此外,有细微的差异在观察空间场景和收集的观察在事件代理也会不同。因此,它是很常见的,内在价值和沟通的差异率在场景中存在。
另一方面,表3表明我们的框架的性能是不受控制的结合机制。虽然消息的一部分是修剪,封闭的性能IMMAC仍明显比QMIX没有沟通。它甚至优于充分沟通以小的优势和只使用来通信资源。它表明,完整的沟通并不总是帮助合作。可能有一部分无用的信息,不能帮助甚至降级的决定。本节实验表明,内在闸门机制可以有效地删除无用的信息共享和再一次表明,内在价值是有效的,并承诺测量观测信息的重要性。
除了评估IMMAC大门的性能,我们进一步提供了一种分析为什么停机坪没有工作但IMMAC介绍闸门机制。从本质上讲,停机坪上重量训练通过下游损失和梯度的政策网络。当结合nondifferentiable控制模块,关注权重(即。,非本征值)将产生重大偏差。需要一个场景组成的五个代理作为一个例子,假设停机坪注意模块的输出 。门后,体重变成了 。在实践中,政策网络的梯度计算和关注模块更新使用 。然而,沟通的观测值显然不是零和有偏见的0.1评估观测信息的重要性。另一方面,IMMAC值由一个训练有素的observation-dependent预测问题和梯度不流控制模块,以便它不会受到偏见影响闸门机制。此外,我们检查现有的工作相关的外在价值多智能体通信控制和找到几个作品5,7,44)模型非本征值门消息,但现有的外在价值能否扩展到我们的框架与注意力和nondifferentiable浇注模型仍不清楚。所以,我们只评估性能的内在价值闸门机制在这一节和离开内在和外在价值的关注和控制未来的工作。
6。结论
我们运用内在动机,这一概念起源于心理学,文学的多代理沟通。多智能体通信的目的是通过信息共享提高决策的准确性。因此,我们得出这样的结论:如何评估观测信息的重要性是驱动有效沟通的关键行为。然而,现有的作品利用外部奖励而忽视内在价值。我们认为,内在价值是一个很好的补充现有的工作。因此,我们提出一种新颖的多智能体通信的内在动力机制。具体地说,我们采用RND (11)来衡量内在新奇和观察到的不确定性信息。然后,我们应用一个内在价值闸门机制和多智能体通信框架的注意机制。闸门机制可以删除无用的信息,提高沟通的效率。注意机制可以帮助代理区分传入消息,提高决策的准确性。最后,我们广泛评估IMMAC的性能。结果验证,内在动机的沟通是有前途的,它可以产生更好的性能,结合现有的外在动机交流。
数据可用性
训练数据是基于一个名为SMAC合作的开放的泥灰岩环境导航,和环境的联系https://github.com/oxwhirl/pymarl。
的利益冲突
作者宣称没有利益冲突。