文摘
我们开发一个基于计算机代数系统的方法来表示相互纯策略最好的回应动力学对称两摆弄双面重复游戏由玩家用器材一年期的记忆。我们把这种方法应用到重复囚徒困境,猎鹿,鸽游戏和识别所有可能的均衡策略对和其存在的条件。唯一的均衡策略对可能在所有三场比赛是win-stay, lose-shift策略。最后,我们表明,双方最好的回应动力学实现通过一个示例批q学习算法在无限批量大小限制。
1。介绍
作为算法正越来越多地用于各种设置,更多的情况下会出现算法进行交互。在强化学习(RL)算法,这相互作用将导致不容易预测的。这是由于大多数算法被设计为单设置(或静止的环境)。可替换主体强化学习的理论基础(泥灰岩)薄,很少有收敛的结果(1处理非平稳)和被称为泥灰岩的重大挑战之一2]。概述的学习病理可替换主体所面临的学习(MAL)算法[3和MAL的一般调查看4- - - - - -7]。最具挑战性的设置在分散泥灰岩,克服非平稳的算法没有交流的手段和信息关于对手的回报。分散泥灰岩的优点之一是,这种算法规模与代理更多更好的环境。这是设置我们将关注这里。
有许多应用领域的多个算法可以在相同的环境中学习。例如,在无线通信和网络8),车辆路径(9),或定价算法10]。从博弈论和可替换主体学习有趣的是,思想也适用于最优控制理论,控制问题可以转化为游戏的纳什均衡提供了最优控制策略(11- - - - - -13]。
造型分散泥灰岩的动态算法的一种方法是基于连续时间近似的学习动力和学习动态,我们指的是进化的问值下问值更新)(14- - - - - -16]。这种方法表明,q学习算法的动态(17softmax勘探和变异的它非常近似的复制因子动态进化博弈理论(18),这些模型获得的见解导致开发新的算法如frequency-adjusted q学习(19]。类似的方法是在20.)的区别在于,作者考虑q学习的 - - - - - -贪婪的探索。在这两种情况下,结果常微分方程(ode)编码如何预计的确定性动力学问时间值进化(这些常微分方程可以被视为一个平均场模型)。
另一种方法是开发的21),作者定义确定的学习时间不同学习算法。确定性学习编码学习动力的假设下,学习者有完美的信息;也就是说,they have a perfect picture of the environment (including their opponent) for each learning update. The dynamics can be interpreted as the dynamics of sample batch temporal difference learning algorithms in the infinite batch size limit.
这两种方法描述值空间的动态,即。的水平问值。与 - - - - - -贪婪的探索,然而,战略空间是有限固定探索率 。这让我们开发的表示确定的学习动态,解释为(21纯策略的情况下) 使用指导网络。我们方法的优点,在前面提到的方法,是动态的情况下可以很容易地表示环境可以在多个州(例如马尔可夫游戏),它允许精确计算可能的吸收,其存在的条件,及其流域的吸引力(自动力这是确定的,吸引力的盆地吸收状态的初始条件,导致它的分数)。知道可能吸收状态是必要的算法,定义适当的学习目标和盆地的吸引力量化的可能性可以实现学习目标。
我们将证明我们的方法对于对称的两人,(我们将使用术语“玩家”和“代理”互换)摆弄双面游戏,用器材的玩家可以在操作条件下他们的行动在前一轮比赛。这是经济有关,因为许多经典策略(如以牙还牙策略)两摆弄双面游戏需要一个一年期的内存用器材(22]。更具体地说,我们将研究结果动态情况下的囚徒困境(PD) (23),猎鹿(SH) [24),鸽(高清)25)(也称为鸡或雪堆)游戏。
这些游戏的选择是出于一个特别相关的应用程序域的理解可替换主体的动态学习是很重要的:算法定价(26]。这里,多个算法学习最优价格最大化利润为各自企业在一个市场。如果这些算法收敛于高于竞争性价格(因此学会合作或勾结),这对消费者不利影响。最近的研究表明,q学习的一年期的内存可以共谋的学习策略(27- - - - - -29日),虽然这发生在一个非常长的时间尺度(30.]。
民主党是一个简单的设置(与定价环境)的合作(或勾结)可以观察到30.]。这是一个典型的模型为研究合作在社会困境的出现31日),双寡头垄断定价(32),和其他经济学游戏(33]。模型的简单性使得严格的分析,给予见解,可以一些扩展到更现实的设置。除了PD,我们将研究SH游戏和高清游戏。这两个游戏保留两个动作的解释是合作与背叛,已经被广泛的研究在文献中(见[34- - - - - -37]最近在强化学习的环境贡献)。这个选择的游戏也代表不同的困境可能的组合强度参数(我们排除简单和谐游戏,没有出现困境)。强度参数量化的困境是多么有利的缺陷与合作者和比赛时是多么不利合作当对阵一个叛逃者。他们是特别有用的进化博弈理论(确定结果38- - - - - -42]。表示我们游戏的动态发展,然而,适用于所有十二个对称两摆弄双面游戏和用器材非常可以扩展到所有的游戏的元素周期表 游戏(43]。q学习没有内存,这类游戏一直在分类(44]。
平均场方法已成功应用研究的学习动力分散泥灰岩算法在正常游戏形式,例如,在零和q学习和合作范式游戏(45),指数与内部纳什均衡(RL在零和游戏中46]。最近,类似的技术已被应用于随机游戏设置,显示融合在零和随机游戏47,48]。为实现这一目标,作者利用two-timescale学习动态,确保环境似稳定的代理。
最好的回应动力学有很长的历史在游戏中作为分析工具的学习(49,50]。摄动的渐近性质最好的回应动力学在低噪声极限对应的进化博弈理论动力学(51]。最好的回应动力学可以实现使用虚构的游戏(52),但这需要完整信息的代理自己的回报,我们假设这里没有可用。
我们的方法有助于扩展,可以近似示例批处理算法与有限的动态批量大小,这样的影响算法的各种组件(批量大小,探索率,和学习速率)可以被孤立。理解这些组件的相互作用是解释这样的学习动态算法所需的设置。这样的见解,进而可以用来设计算法,了解更多成功的设置。在这个方向上并行工作(53)显示了表示这里开发补充了确定性学习动力开发的(21]。
1.1。贡献
本文旨在为泥灰岩的动态的造型通过开发一个方法用计算机代数系统代表(确定性)共同最好的回应动力学对称两摆弄双面迭代用器材与一年期记忆游戏。更具体地说,(我)这种方法使我们能够研究可能吸收状态,它们的存在条件,吸引的盆地。(2)我们表明,吸收状态标识54]对PD是唯一吸收状态,发现吸收的数量明显高于对SH游戏和高清游戏。(3)唯一的策略对是一个吸收状态在所有三场比赛双方球员使用win-stay lose-shift (wsl)策略。这表明wsl策略有一个结构,使它适合处理困境。(iv)最后,我们表明,双方最好的回应动力学实现了一个简单的示例批处理q学习算法在无限浴大小限制。
1.2。结构
节2我们识别符号,定义模型,介绍q学习的。节3确定学习的,我们描述表示。节4,我们目前的三场比赛我们考虑的结果,和部分5,我们表明,一个简单的示例批处理q学习算法收敛于相互最好的回应动力学在无限批量大小限制。最后,在节6,我们得出结论和讨论可能的扩展和未来的研究。
2。设置
2.1。符号
为了便于参考,我们提供的概述在文章中使用的符号。我们表示球员可用的操作 ,对缺陷和 ,为合作。对于游戏的回报,我们使用 ,和 。球员的策略用和期望是对球员的策略。用折扣因素 ,的学习速率 ,和探索率 。问值是用 ,第一个指数指的是球员,第二个指数是指状态,第三个指数指的是行动。相关函数是用价值 。用的指标函数当和评估是真实的和为零是假的。我们使用表示逻辑“或”和表示逻辑“与”。
2.2。环境
我们考虑一个设置类似于(54),我们将采用类似的符号为便于参考。双人的设置是,由两个Q-learners摆弄双面游戏用器材,标签 和使用公约 ,与你们的记忆里。每个Q-learner选择每个周期之间的两个动作:缺陷(D)或合作(C)。我们表示的动作 。由于你们的记忆,游戏变成一个多态,可能状态 ,第一个组件的向量表示球员的作用,第二部分代表两个球员的作用。玩家的收益(或报酬)当游戏状态用并采取以下形式: 我们列举了州在哪里 ,和 。此外,我们假设的标准 帕金森病, 上海比赛, 高清的游戏。
2.3。学习
每个玩家选择自己的行为根据策略 ,q学习的时期一个内存设置的条件概率玩动作考虑到游戏的状态 ,即。 。
球员的策略更新通过强化学习过程。我们考虑q学习算法,旨在学习折现未来回报最大化的行为,也就是说, 与 (在没有折扣的情况下;也就是说, ,必须考虑一个有限的时间范围或考虑玩家的目的是最大化他们的平均回报。我们的方法不是直接适用的在这种情况下,虽然一个类似的过程可能在后者的情况下利用平稳分布在美国被贴现因子和固定策略)表示时间。
它已经表明,最大化(2)可以实现在固定环境中解决
注意,因为在上一轮决定采取什么操作的当前状态,我们使用的符号 。右边第一项是采取行动的预期回报而在国家,第二项是贴现的预期的最大奖励表现最佳(据目前估计) 通过采取行动在国家 。定义的Q-function (3)与贝尔曼的价值功能 。
的Q-learner解决(3初始化一个Q-matrix) 据和更新的条目 在哪里 是学习速率。请注意, 期间获得的奖励(即。,the reward of taking action而在国家 ,导致状态 )。在固定环境中,定义的迭代过程(5)已被证明收敛在一些情况下,例如,在[55]。在任何时候,Q-learner的估计的最优策略是学习者的策略选择与最大的行动问值在每一个国家。
一般多态设置相比,这里的状态之间的转换发生确定性给玩家的行动。这意味着唯一的特性转化来自行为选择机制,即策略。这样的行为选择机制必须考虑exploration-exploitation权衡,在探索性行为有利于学习和探索行为最大化回报给代理的当前状态的知识。这个平衡的方法用于q学习可以分成两大类: - - - - - -贪婪的机制,将softmax或Boltzman机制。我们将重点讨论第一种机制,让后者未来的工作机制。与一个 - - - - - -贪婪的行为选择机制,玩家选择它认为最大化的行动与概率的奖励概率和随机选择一个行动一致 ,在勘探速度可能取决于时间。
贝尔曼方程的q学习收敛于一个解决方案在固定环境中。Q-learner在可替换主体环境,另一方面,面对的是一个非平稳的环境因为对手的策略会随着时间而改变。减轻这种非平稳的一个方法是批量通过学习,在此期间双方保持战略固定(21]。每一批的末尾,球员们同时更新策略。postbatch更新可以实现一个更大的学习速率(学习速率决定给多少重量在批处理)获得的信息批量大时,作为一个大的批处理会导致一个更好的估计(现在是静止的)环境。无限批量大小限制,执行postbatch更新可能的学习速率,同时导致玩家玩最好的应对策略的对手后,每批(见部分5)。这个算法的吸收状态的吸收状态是一样的算法(54)(如果玩家不改变策略相互最好的回答时,他们也将不会改变策略时顺序最好的回答,反之亦然)。
3所示。方法
3.1。有条理的贝尔曼方程的解决方案
如果我们限制自己纯策略,每个玩家可以选择两种操作的四个州,导致的策略。因此,纯策略对的总数 。使用计算机代数软件,比如数学,我们可以自动计算(54),执行16对称策略对,对所有可能的策略对重复它们。这使我们能够识别每个策略的最好的回应。
为此,我们用一个四维向量识别每个策略。四个条目编码策略。零意味着在第一个条目 ,而一个意味着 。向量 ,例如,代表了所有缺陷(All-D)策略(向量对应的索引条目的国家采取的行动)。向量相比之下代表win-stay-lose-shift (wsl)策略。同样,我们定义了一个战略对一个八维向量的前四项编码策略玩家1,和最后四项编码的策略玩家2(确保策略看起来一样的球员,我们把输入向量和状态3理查德·道金斯和入口状态2)。每个策略对向量导致16线性方程组,可以同时解决了十六岁问值。的问值表示的模型参数 ,和 。然而,向量编码一个假设之间的不平等获取问值。然后,我们执行一个自洽性检查结果问值满足假设给定的假设模型参数的不平等现象。通过这种方式,我们可以确定在哪些条件下有一个有效的解决贝尔曼方程给出的策略。
为了说明计算,我们将考虑PD玩家都玩所有缺陷的策略,即。,向量 。贝尔曼(31)玩家可以写成指标函数时考虑纯策略。玩家1的方程
由于我们假定双方球员使用All-D策略在这个例子中,我们可以评估指标函数(7)如下:
所以,(7)减少
通过求解下面的方程,我们得到
因为这是一对对称的策略,为球员贝尔曼方程2的解决方案都是相同的。
是否这是一个有效的解决方案,我们检查的不平等策略对由模型参数可以满足的。在这种情况下,需要的不平等现象 所以我们必须有 或者同样的
这总是满意的 PD。我们得出这样的结论:All-D是最好的应对策略与对手打All-D策略。最好的反应,因为对手的策略,计算通过求解一个线性方程组等(18),将是唯一的,除非回报参数导致解决方案 对于一些和 。我们会忽视这种情况下,当这些发生在一个很小很小的部分参数空间。
3.2。最好的回应网络
我们现在可以构造两种类型的直接网络为每个参数的选择 ,和从纯策略的响应。第一种我们称为最好的回应网络(BRNs),构造如下:我们每一个16策略转换成一个数字: , ,等(为此,我们使用二进制表示的数字)。这些成为了标签的节点图,我们画一个定向边缘从每个策略最好的回应。
第二种类型的网络相互最好的回应我们称之为网络(MBRNs)。对于这些,我们这样策略对转换成数字 ,等。现在,我们画一个定向边缘从一双策略包含最佳应对策略对球员在最后四项战略和最好的球员反应两个的策略四个条目。MBRN编码相互最好的回应动力学,在每轮每个玩家切换策略,他们的策略是最好的回应对手的以前的策略(见[56])。
在本文中,我们感兴趣的是相互最好的回应动力学限制动力学的研究。我们将看到,纯策略的限制意味着限制动力学可以由吸收战略对(策略对这两名球员发挥最好的应对对手的策略)和限制周期循环游戏双方一系列的策略。
吸收状态的相互最好的回应动力学节点与self-loops MBRN将出现。这些吸收状态对应于纳什均衡的动态。对称的吸收状态将显示为self-loops BRN,但是吸收状态会出现非对称互惠的边缘。除了吸收状态,MBRN将表现出极限环组成的战略对每个玩家在其中扮演的策略,是吸收状态的一部分,但不是相同的吸收状态。在这种情况下,相互的最好的回应动力学要求玩家将切换到每轮对手的策略。这是一个例子miscoordination学习病理学中讨论的3]。在本文中,我们将致力于在吸收状态,因为一旦所有的吸收是已知的,所有的极限环可以构造(每一对不同的吸收产生极限环相结合的策略玩家的第一吸收战略对球员的策略的两个第二吸收战略对)。
3.3。分类策略对
在本节中,我们介绍两种分类,使我们能够识别类型的吸收对策略。第一个分类是基于类型的行为策略对产生,和第二个分类是基于策略的对称性和反对称性。
3.3.1。从策略到行动
知道哪些策略对被打了还不一定的哪些行为将采取的算法。作为一个例子,考虑对称策略对双方球员使用TFT策略和探索。如果系统在CC或DD状态开始,它会一直在那儿待到玩家探索和选择D分别或C。然后系统将振荡之间的直流和CD状态,直到一个球员再次探索同步他们的行动与对手。这意味着游戏的状态图有三个断开连接的组件。组件之间的转换只出现由于勘探。
这个国家是由向量(注意,州2和3要求相反的反应从玩家1和2)。游戏的状态之间的转换,当两位选手发挥纯策略如图1。
我们可以包括转换由于探索如下:让没有人探索的概率 ,玩家1的概率了 (这是一样的球员2了)的概率,概率,探索 。然后过渡(随机)矩阵和一对对称的TFT的游戏策略 - - - - - -贪婪的勘探是由
的特征向量特征值1会给游戏上的平稳分布状态,因此告诉我们花了多少时间在每一个状态。这个矩阵的平稳分布是均匀分布在美国,例如, 。这意味着系统的两个玩家玩TFT花等量的时间在每一个状态。
类似的计算收益率以下平稳分布对称的触发策略组:
在极限趋于零,这是 ,这表明,即使在GT对称的战略合作是可能的探索使用时,它消失在小探索速率限制。
通过计算平稳分布的纯策略对小勘探速度极限,我们可以确定哪些国家的学习者将花费最多的时间,给我们一个想法的操作使用和预期的回报。使用这个,我们可以分类的策略对由此产生的平稳分布。在我们的例子中,我们确定了一对吸收战略是有利于合作(CC) (NCC)。一双策略有利于合作策略时对分配的积极的概率 国家在小探索速率限制。这一研究的提供了一个途径的可能性合作下纯相互最好的回应动力学。
3.3.2。结构对称
我们发现所有吸收状态的三场比赛我们认为可分为以下四类:对称(对称)。球员们在所有国家中发挥相同的动作。一个例子是 。补充(CM)。玩家玩同样的行动在美国(0,0)和(1,1),但是免费的行为在美国(0,1)和(1,0)。一个例子是 。补充(CS)。玩家玩同样的行动在美国(0,1)和(1,0),但是免费的行为在美国(0,0)和(1,1)。一个例子是 。补充(Com)。球员们在所有国家中发挥相反的行为。一个例子是 。
4所示。结果
在本节中,我们收集的关键条件BRNs变化,举例的网络,并确定共同的吸收状态最好的回应动力学。我们这样做囚徒困境,猎鹿,鸽游戏,每一种都对应于一个不同的排序模型的参数 ,和 。考虑到订购,我们可以获得强度参数的符号困境。这些定义如下: 首先是相对获利的叛逃与合作者,和第二个是合作反对叛逃者的相对风险。我们因此PD的游戏 ,SH游戏 和 ,和我们的高清游戏 和 。不失一般性,为便于博览会,我们将正常的游戏设置 和 当绘制相图。
4.1。囚徒困境
使用部分中概述的过程3所示。1,我们发现对称的吸收州发现的(54)是唯一可能吸收状态。这意味着不存在非对称战略对解决贝尔曼方程在此设置。
唯一可能的纯策略的解决方案对所有缺陷对称(All-D)策略由节点0,严峻的触发(GT)策略由节点17日和win-stay-lose-shift (wsl)策略由节点153(最后一个策略也称为one-period-punishment策略或巴甫洛夫策略)。All-D策略总是可能的,虽然有限制的模型参数值,确定当其他两个是可能的。这是总结表1。
(一)
(b)
在图说明的条件2参数意味着,我们绘制相图的规范化PD(例如, 和 )在图2。正如预期的那样,我们看到越来越多了(参数控制在球员赚多少钱 )增加了许多可能的解决方案。减少也有类似的效果,但有一个关键的价值决定是否有可能达成地区GT或wsl策略对减少存在与否。我们展示的区域变化的函数在附录A。
在表的关键条件1表明当BRN变化导致出现或消失的平衡。在表2我们显示所有BRN发生变化的临界条件。这些结果为两个极端的决议相图:第一个是最低分辨率和第二个是最高的。有一个中间的决议,我们确定的临界条件BRN图的变化导致吸引力的盆地发生变化的平衡。我们离开研究盆地的吸引力吸收未来工作状态。
从表2我们可以推断BRNs的数量是有可能的。因为一些条件是重复的(例如,节点9和13)的条件,我们发现有12个不同的BRNs;也就是说,there are twelve regions in the phase space. We show the phase diagram for these 12 graphs in the left panel of Figure2。在图3我们展示图BRRNs包含所有可能的边缘。我们认为这三个可能的平衡self-loops (GT All-D节点0,1,9 wsl)。
4.2。猎鹿
猎鹿的游戏平衡的数量显著增加,这意味着一个简单的评估产生的相图是不可行的。我们看到在表3SH产生一个共有16个可能的吸收,其中一半是对称的,一半是非对称。非对称吸收州所有的CM类型中定义的部分3所示。3。我们还发现,近70%的吸收状态有利于合作。非对称战略对,每个组合的策略表中出现两次3作为两种不同的策略可以分配给这两名球员在两个方面。这意味着有12种不同的战略组合,可以产生一个吸收。
表4表显示了一些相似之处2当交换许多关键条件是相同的和 。这种相似性是证实了图的左面板4我们看到相同的12个区域出现在左面板的图吗2。然而,不同区域的变化相关的吸收,通过比较正确的面板数据2和4。
(一)
(b)
在图5我们可以看到,网络可能的边缘BRN也不同于PD的情况。更具体地说,两场比赛有相同数量的可能的边缘(25),但民主党的最大入度是16的最大入度SH是5。我们在图情节入度分布6。
4.3。鸽
鹰鸽博弈,我们再次发现许多平衡,在SH游戏。我们看到在表5的高清产生总共17可能吸收状态,其中16是不利于合作。CC是对称wsl的吸收状态,这也是一种吸收状态的其他游戏。剩下的一半吸收状态是C,另一半是CS。非对称战略对,每个组合的策略表中出现两次3。这意味着有九个不同的组合策略,可以形成一个吸收战略对鸽博弈。
表6表再次显示了一些相似之处2当交换许多关键条件是相同的和 。再一次,我们发现在左侧面板中看到的12个区域图2相图在图7。在这种情况下,所有地区的变化相关的一组吸收状态。
在图8我们看到的网络边缘的BRN高清游戏类似于上海的网络。更具体地说,我们看到的最大的入度高清也是5。有趣的是,这个最大的节点实现相同的游戏(节点0和15;也就是说,the All-D strategy and the strategy pair where both players always cooperate) with the difference that they have a self-loop in the SH but do not have a self-loop in the HD game. In addition, the in-degree distributions for the SH and HD games are identical.
5。样品批量q学习的
学习动力,到目前为止我们已经讨论了框架主要是彼此最好的回应动力学。在本节中,我们表明,这些动力学限制示例批处理动力学q学习的无限时批量大小限制。我们将使用一个简单的示例批处理算法,很容易看到无限的批处理大小限制产生的相互最好的回应动力学,但更复杂的示例批处理算法存在的哪个更好地利用批处理过程中收集的信息(见[21,57])。
示例批处理算法分割的时间地平线成批量大小和跟踪两套q值。第一组,用 ,将被用来确定算法的操作需要在一个批处理。在批处理这些q值保持不变。第二组,用 ,在批处理将用于学习。批处理结束时,第一组被第二和重复的过程。图表说明这个过程在图给出9。
为了确保所有国家都经常去无限无限批量大小限制,该算法使用了一个 - - - - - -贪婪的行为选择机制,不断探索率根据批量大小。这意味着选择最大的行动问值的概率并与概率随机选择一个行动一致 。给定一个批量大小 ,我们定义探索率 与 一个小的常数。的政府行动对访问至少与小的行动问价值在美国只有达到当代理探索,例如,(4 C)政府行动当玩家使用All-D策略。使用这个,我们可以计算预期的次数一个下界的任何访问政府行动对一批大小 ,给定一个探索率 。达到这样的一双政府行动的概率 这样的预期的访问数批大小是
由于这是一个下界为预期的访问数量state-actions对,我们经常看到所有政府行动对参观了无限的极限 。
在批处理,第二组问值更新使用 与 在哪里是当地时间,由政府行动的次数对吗 一直在访问期间吗 。最后一批,问值用于确定操作更新如下: 对所有 。这个更新相当于执行一个更新使用的学习速率 postbatch更新。
的问价值在批处理更新定义为满足以上的条件收敛了(17),因为环境的更新是静止的。在无限的批处理大小限制,问值更新解决方案的贝尔曼方程考虑到对手的策略,作为计算部分3所示。1。我们认为,如果最初的问值的算法要求每个州(基于最优策略问价值观是一个纯策略),它将跟随共同MBRNs所代表的最好的回应动力学。
6。结论
6.1。贡献
本文MBRNs发达的网络表示共同最好的回应动力学对称两摆弄双面重复游戏由玩家用器材一年期的记忆。我们确定所有可能的边缘BRNs和为他们的存在提供了条件。这让我们绘制的相图游戏,在识别阶段的变化和网络结构的变化。我们发现的相图是相同的三场比赛我们考虑在这里,唯一的区别是与每个区域相关的网络结构。
相互最好的回应动力学的限制动态可分为两类:吸收状态和极限环。我们重点是吸收状态的原因给出脚注10。我们限制的相图只显示关键边界吸收的状态发生的变化。三场比赛之间的相似性在全相图是在失去了这种限制。
PD,我们已经表明,这三个对称的解决发现的贝尔曼方程(54)(All-D GT和wsl)是唯一吸收对可能的策略。总共有16个可能的吸收战略对SH游戏,其中大部分是有利于合作。在高清游戏,有17个可能的吸收战略对,几乎都是不利于合作。吸收策略对PD都是对称的。SH,一半是对称的,另一半是称赞的不对称状态。高清游戏只有一个对称的吸收策略,与其他被称赞完全或对称状态。
wsl策略一对是唯一吸收策略可能在所有三场比赛。总是一个吸收战略对SH游戏,和部分的参数空间PD和高清游戏增加有可能随着折现系数的增加(见图10)。TFT策略,另一方面,没有出现任何一对吸收战略的三场比赛。这是同意的结果58),这表明TFT的策略是PD wsl表现的策略。这表明wsl策略对是一个好的学习目标在社会困境类型游戏的玩家关心未来的结果。
相互最好的回应动力学不仅用于识别吸收战略对但也示例批处理的(确定性)限制动态q学习与无限的批量大小。MBRNs因此也相当于与大样本批量q学习的动力,但有限的批量大小。通过研究盆地MBRNs吸收状态的吸引力,我们可以近似的概率观察不同的学习结果(例如,合作)当使用这种算法(假设初始策略是均匀采样策略的随机空间)作为模型参数的函数。我们离开这样一个未来工作分析。
6.2。扩展
这里开发的表现有助于扩展如考虑两个时期内存算法,三个动作游戏,非对称游戏,超过两名球员,或将替代模型参数的情况而定。但是请注意,我们提出的方法的计算复杂度限制了它的直接应用到现实的环境(方程的数量在贝尔曼方程的线性系统必须解决的战略发展 ,在哪里是球员和可用操作的数量吗是球员的数量。这可以解决 ,但这必须重复策略。随着数量的策略 。计算复杂度从而呈指数级增长行为的数量和球员的数量)。这里的目标是理解可替换主体强化学习动力在简单的环境中,这不应被视为一个相关的限制。
另一个方向是研究结果的扩展网络如何改变在考虑一个较小的学习速率,即。,在哪里the sample batch algorithms move in the direction of the best response instead of playing the best response immediately or including a constant - - - - - -贪婪的探索率。也可以研究噪声的影响由于使用大但有限批量大小。这些扩展可以引入一个接一个,该方法允许我们隔离的影响这三个组件。这些并行扩展正在接受调查53]。
一个较小的学习速率的影响,探索,或噪音由于有限批量大小将取决于示例批处理的细节学习算法被使用。示例批处理算法考虑的替代品,如撒尔沙和演员评论家学习,讨论了(21]。此外,它是可能的修改postbatch更新利用技术,如乐观学习(59)或宽大处理60]。
最后,该方法可以扩展到连续的移动设置(54)通过构建一个有向网络边缘的两种类型:第一个决定策略对如何改变当球员一个行为,第二个决定策略对如何改变当球员两个行为。这个网络将遵循的顺序最好的回应动力学交替边缘类型的路径。
我们的结果,加上上述扩展,提供一个途径了解可替换主体的动态强化学习算法简单的设置。的见解通过这种理解也可以适用于更复杂的环境,可用于设计算法,学习成功地在这些设置或在设计政策调节使用某些技术的设置与不良结果(如价格勾结)。
附录
a .相图作为折现系数的函数
在图10我们把12个地区的PD不同值的相图 。这表明我们不同折扣的区域变化的因素。SH和高清游戏的情节将显示同样的行为,在不同的地区代表不同的图形。特别是,与特定的吸收状态的存在相关联的区域是不同的。
(一)
(b)
(c)
(d)
故事情节表明增加导致增加分数相空间占领的地区所有PD中存在三种可能的平衡。SH和高清,相比之下,我们发现地区吸收的某些组合状态存在当我们增加消失 。
b . MBRN的例子
在图11- - - - - -13,我们展示的MBRN区域的PD, SH,分别和高清。我们的确看到盆地吸收的吸引力的大小更均匀地分布在上海和高清比PD。
c . PD的条件
在表7,我们给的条件规范化PD的地区。另外两个条件(规范化)游戏可以很容易地来自这里的条件给取代与上海和与高清的游戏。
数据可用性
没有数据被用来支持本研究。
信息披露
这一研究工作是一个更新版本的预印(61年]。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由荷兰研究所紧急现象(DIEP)集群阿姆斯特丹大学的。