TY -的A2 Quero Giuseppe AU -叮,本盟- Li Shengxiang盟——刘Guangyi AU -李,欧盟——柯,柯盟——白、杰出AU - Chen伟业PY - 2021 DA - 2021/12/08 TI -分散可替换主体Actor-Critic算法基于消息扩散SP - 8739206六世- 2021 AB -联合行动的指数爆炸和大规模数据采集的两个主要挑战是强化学习算法与集中培训。为了克服这些问题,在本文中,我们提出一个模范自由,充分分散actor-critic可替换主体强化学习算法基于消息扩散。为此,代理认为是放置在一个时变通信网络。每个代理使有限的观察对于全局状态和联合行动;因此,它需要通过网络获取和与他人分享信息。在该算法中,特工举行地方全局状态估计和联合行动和更新它们与当地观察和收到的消息的邻居。假设下的全局值分解,全球目标函数的梯度个人代理。与线性函数近似算法的收敛性是保证根据随机近似理论。在实验中,该算法应用于一个被动的位置可替换主体任务环境,取得了最先进的算法相比性能优越。SN - 1687 - 725 - 2021/8739206 / 10.1155 x你——https://doi.org/10.1155/2021/8739206——摩根富林明——《传感器PB - Hindawi KW - ER