TY -的A2 Zargarzadeh哈桑盟——Meylahn j . m . AU -詹森,l . PY - 2022 DA - 2022/11/08 TI -限制动力学为q学习与记忆中就有一个对称的两人,摆弄双面游戏用器材SP - 4830491六世- 2022 AB -我们开发一种方法基于计算机代数系统代表相互纯策略最好的回应动力学对称两摆弄双面重复游戏由玩家用器材一年期的记忆。我们把这种方法应用到重复囚徒困境,猎鹿,鸽游戏和识别所有可能的均衡策略对和其存在的条件。唯一的均衡策略对可能在所有三场比赛是win-stay, lose-shift策略。最后,我们表明,双方最好的回应动力学实现通过一个示例批q学习算法在无限批量大小限制。SN - 1076 - 2787你——https://doi.org/10.1155/2022/4830491——10.1155 / 2022/4830491 JF - PB - Hindawi KW - ER -复杂性