TY -的A2 Hassanien Abd E.I.baset AU - Li Huale盟——曹,瑞盟——王,玄盟-侯,Xiaohan盟——钱,道盟——贾Fengwei盟——张,佳佳AU -气,Shuhan PY - 2021 DA - 2021/07/14 TI - AIBPO:结合内在奖励和辅助任务3 d战略游戏SP - 6698231六世- 2021 AB -近年来,深入强化学习(DRL)实现了巨大的成功在许多领域,特别是在游戏领域,如AlphaGo AlphaZero, AlphaStar。然而,由于奖励稀疏问题,传统的DRL-based方法显示在3 d游戏性能有限,含有更高维度的状态空间。为了解决这个问题,在本文中,我们提出一个intrinsic-based政策为奖励稀疏优化(IBPO)算法。IBPO,小说内在奖励是集成到价值网络,它提供了一个额外的奖励在环境中稀疏的奖励,以加快培训。除此之外,对解决这个问题的价值的估计偏差,我们进一步设计三种辅助任务,可以更准确地评估国家的价值和行动在3 d场景。最后,辅助intrinsic-based政策的框架优化(AIBPO)提出,可以改善IBPO的性能。实验结果表明,该方法能够有效地处理奖励稀疏问题。因此,该方法可能适用于现实世界的场景,如三维导航和自动驾驶,可以提高样品利用率来减少成本的互动真正的设备收集的样本。SN - 1076 - 2787你——https://doi.org/10.1155/2021/6698231——10.1155 / 2021/6698231 JF - PB - Hindawi KW - ER -复杂性