研究文章

学习注意力和封闭的通信通过好奇心

图1

IMMAC的详细架构。在时间步 ,代理 被当地的观察 和股票所观察到的信息 其他代理,然后接收集成信息 从通信通道并产生行动 与环境进行交互。更特别的,政策网络需要当地的观察 和聚合信息 可用的行动值作为输入和输出操作。内在价值网络需要 作为输入和输出一个observation-dependent值 ,这是用来区分重要的地方观察。