文摘
在实践中学习,改变信仰(和因此行为)由于经验,对自适应行为至关重要的组织以及个人居住。综述论文,我们总结不同病理学习过去的文献中指出使用基于共同的底层机制一毛钱有偏见的信念。这些不准确的关于环境的信念是一毛钱,因为作用于这些信念防止伪造。我们提供一个正式定义为一毛钱有偏见的信仰作为一个吸引子,可以锁定在实践中学习系统转化为次优的行动,并提供基于模拟的插图。然后我们比较和区分一毛钱有偏颇的看法和其他相关理论构造,包括确认偏误、自我实现的预言,和症结,强调效率低下的一毛钱一毛钱有偏颇的看法存在平衡和热火炉效应。最后,我们强调两种基本的方式来逃避一毛钱有偏颇的看法:采取行动(即符合信仰。顶尖,探索),得到的信息行为(即。,反设事实)。
1。介绍
学习能力是至关重要的为代理商在复杂环境中适应性行为。缺乏全知,学习,改变信仰(和因此行为)的经验,因为是一个代理的主要机制修正它的信仰更好地代表它发现自己的环境,因此需要更多的适应性行为。这被认为是真正的个人的1]随着组织[2)和其他学习系统(3]。特别是,“通过实践来学习”特征在组织中许多学习情况。它是一个过程,通过它代理从他们的行动的结果(即任务环境。自己的经验)。从社会学习(即通常是杰出的。,学习他人的经验)4]。
在学习通过过程中,两个属性通常cooccur。首先,关于环境的信息仅限于采取的行动所产生的代理,所谓“own-action依赖”[5)和内源性取样(6]。在这种情况下,顶尖的信息对应的行动不是提供给代理。第二,代理动机采取行动,可能会产生最好的结果鉴于目前信仰;代理行为“赚”,不仅“学习。“当这些属性cooccur,学习任务是正式相当于马尔可夫决策问题的类型称为强化学习问题3]。
cooccur为例,这两个属性,想象一个情况涉及招聘员工从三种类型的候选人(表1):A、B和c,雇主可能会选择员工类型最大化预期性能基于他们的信仰(可能是错误的一个未知的程度)。作为他们与选择的交互类型的员工,他们会收集信息和更新信念类型。然而,顶尖的反馈类型是不可用的,和他们的信仰有关这些类型将不会被更新。这种组合own-action依赖和代理的选择行为最大化结果鉴于目前信仰特性在许多在实践中学习过程在组织中——无论是在生产环境中(7),服务组织(8],对联盟伙伴选择[9),或新产品开发10]。
在这分析回顾,我们描述一毛钱有偏颇的看法(SCBB)作为一个统一的概念,形成了理解的基础病理在“通过实践来学习”过程。SCBB相关每当own-action依赖在学习中代理行为预期收益最大化他们的信仰。SCBB是有偏见的,不准确的表征的环境,和他们一毛钱,因为作用于这些信念防止伪造(11]。在上面的示例中,考虑雇主(I型)相信员工类型,B和C产生50,80和60个单位的回报。他们真正的价值是价值150、100和120(即。,雇主偏见的信念)。如果雇主采取行动符合他们的信仰,他们会选择类型b产生的结果将是100,从而增加他们的信心在类型b。然而,他们没有更新他们的信仰或C,因为他们不能观察它们的结果(即。反事实的)。因此,类型或C不会采样即使在未来,和偏见的信念将延续。SCBB是这样一种特殊的吸引子(即。,stable fixed point) of learning by doing systems that can lock such systems into suboptimal actions [12]。
连同SCBB的正式定义,我们提供与其他相关概念清晰通过比较SCBB跨几个文献理论构造,包括确认偏误(13),自我实现的预言(14],一毛钱平衡[15,16],症结[17),和“热火炉”效应11]。特别是,我们强调SCBB都一个共同的概念,低效的一毛钱平衡(15,16)和热火炉效应(11]。它可以独立于确认偏误的发生或症结和行动反对自我实现的预言。文献,因此,有助于组织学习提供一个综合的框架来理解的不同性质与在实践中学习相关的病理,以及一个详细的分析的一个核心概念,SCBB。
最后但并非最不重要,我们逃避SCBB阐明两种可能的途径。首先是迫使代理人采取行动不符合他们自己的信仰,从而打破成果代理商最大化的条件条件的信念。在上一个示例中,雇主决定不符合他们自己的信念(例如,招聘类型,认为B型优越)可能逃脱SCBB纠正偏见的信念。这种机制也已经有了很广泛的研究的exploration-exploitation权衡学习(18,19]。第二个解决方案,广泛了解较少,是提供信息通过逃避own-action依赖(即反设事实。顶尖的信息行为)。修改完成的任务环境和代理行为这是访问其他人的经验。社会学习,即使没有区别在最初的信仰在代理的准确性,还是能够打破own-action依赖,如果引入噪声焦剂的信仰通过利用错误信仰的多样性(20.,21]。再次,在招聘的例子中,观察其他雇主(II型)选择类型C可以降低焦雇主的信心继续类型的适当性b .这可能最终帮助他们发现(即正确的信念。A型)。
在下一节中,我们简要回顾组织科学的学习模型。然后,我们提供一个正式的定义SCBB multiarmed强盗模型的框架内,后跟一个与相关的理论结构。我们也为逃避SCBB探索两种机制,探索和社会学习,比较他们在组织环境中生存。最后,本研究的意义,指出未来可能的扩展。
2。在实践中学习,强化学习的一种形式
学习,修正信念基于可用的信息,解释了许多组织现象起到了至关重要的作用[4]。特别是,有两种基本类型的学习过程,在实践中学习(等同于从自己的经验中学习)和社会学习(或替代学习),学习别人的经验。的两个,在实践中学习是更基本的过程理解因为即使社会学习利用别人的在实践中学习。在实践中学习也是公认的中心原则的经验主义科学哲学(22,23]。
机器学习的最新发展也强调其他方面我们可能学习分类问题。例如,在线学习为学习者展开描述了一个情况信息随着时间和成本;学习信息输入到交错排列。这与离线学习,信息输入学习过程开始之前就已经存在(例如,归档数据)3]。因此,在实践中学习是在线学习的一种形式,但社会学习可以是在线还是离线。另一个普遍的分类在机器学习文献区分监督与非监督学习。在前者,必须学的目的是什么(即。,结果预测)是指定。例如,一个算法可以学习如何预测基于过去的信誉意识到信誉和申请人的数据特征。后者(无监督)的学习形式,不存在判断因变量(例如,集群找到个人选民人口相似)。在实践中学习几乎总是涉及到客观的性能,因此可以被视为一种监督学习。最后,当学习者的选择确定信息生成过程(即。,own-action dependence) and their utilities, this constitutes a Markov decision problem known as a reinforcement learning task [3]。在实践中学习,因此,正式相当于一个强化学习的任务(这也可以被描述为监督和网络)。
虽然计算机科学家感兴趣的主要是寻找最优解决学习问题,组织科学家专注于描述性的学习模型的价值。特别是在组织学习问题往往被描述在学习通过框架和建模使用强化学习任务(例如,11,24- - - - - -29日];参见[30.]审查)。这是因为组织学习问题经常满足两个条件,定义强化学习问题。
首先,选择在学习过程中往往与一个组织的有效性密切相关。由于来自竞争对手的压力,利益相关者,甚至同事的行为通常是出于想获得好的结果鉴于目前的信仰。第二,在许多的组织环境中,选择的价值只能测量通过他们(如新产品开发、组织实践的采用,或一个联盟伙伴的选择)。组织环境的动态特性提出了限制离线学习以来信息生成在过去可能不代表当前环境。总之,在实践中学习过程在组织中所描述的强化学习问题,主观效用的极大化者遇到一个任务环境own-action依赖。
接下来,我们介绍一毛钱的概念有偏颇的看法(SCBB)以及他们如何可能影响学习(即强化学习任务。组织在实践中学习过程)。
3所示。正式的定义
为SCBB提供一个正式的定义,我们描述了在实践中学习过程规范的框架内强化学习任务,multiarmed班迪特的问题。在这个任务中,存在多个备选方案,代理通过重复学习其价值观的选择(3]。这个模型已被广泛用于组织科学分析在实践中学习过程,包括个体层面的过程(31日),个人(或组织)之间耦合的学习过程24),和企业级的适应25]。连同一个正式的定义,我们提供一个SCBB的数值例子。然后我们说明的结果,探索在选择可以帮助SCBB逃跑。最后,我们介绍反设事实信息作为第二机制,可以有效地对抗SCBB。
考虑一个由任务环境米可能的替代行为 ,和这些映射到性能结果 。我们假设替代行为和相应的结果是固定的和决定性的时期(即。,一个稳定的任务环境)。的关系 是未知的,代理人选择一个行动基于其可能的替代品——信仰吗 : 。即代理将选择一个行动被认为提供最大的回报在一个给定的时期(即, ),也称“贪婪搜索。“注意,代理的信仰在一个特定的行动可能不反映其真实价值 。同时,信仰t可能不同于那些在时间吗为 代理更新其信仰基于收集的信息。当代理需要一个特定的行动,它将接收反馈为行动而不是其他顶尖的行为(即。own-action依赖)。为简单起见,我们假设这里没有噪音的反馈。也就是说,当代理选择行动我,它将接收在确定性的方式回报。我们认为SCBB在嘈杂的环境中在附录a。
SCBB时出现的一个动作和一个错误的信念永远不会将来取样。形式上,行动上的条件不正确的信念我( )在行动我将自我(即。SCBB存在)是由
代理不样的行动我在时间t因为它相信行动j更有吸引力( )。此外,操作的真正价值j高于感知收益的行动我( )。因此,代理将继续相信行动j比行动更有吸引力我即使代理学习操作的真正价值j。在这种情况下,错误的信念我永远不会被篡改( )。
注意,SCBB并不自动意味着表现不佳。只有当不正确的信念行动我坚持即使行动我实际上是优于选择的行动j( 这SCBB意味着学习病理。换句话说,为了挣更多的钱,代理需要纠正SCBB行动上优于当前但不是劣质的。因此,学习系统因为SCBB当表现很差
3.1。一毛钱的插图有偏见的信念
提供一个数值的例子SCBB(代码复制本文计算分析的结果是通过https://github.com/sanghyunpark4/Self-confirming-biased-beliefs/blob/main/SCBB.py任务环境),我们的模型与50替代品(multiarmed强盗的任务 ),与相应的性能结果( )从均匀分布在一个代理学习(0,1)。在这种环境下,我们假设它拥有自己的信念对于每一个选择在学习的初期阶段(即。前),这也是来自均匀分布在(0,1)。换句话说,代理开始之前无偏的分布。最后,在每个时间点上,代理选择另一种被认为提供最大的回报(主观期望效用最大化)和更新其信仰遵循贝叶斯准则更新(即。过去,平均回报)。我们将演示低于own-action依赖条件充分必要的一种自适应代理行为容易SCBB如上所述。
SCBB的模式在实践中学习的过程是健壮的其他模型规范,替代品的数量,回报的分布和先知先觉,更新规则(附录B)。总结了模型参数表2。我们的模型有随机分量(即。,payoff and prior distribution), all data points in the following figures were averaged over 10,000 repeated simulations to reduce statistical errors (we choose the sample size by setting a tolerance level at 5% for the proportion of the best choice at the steady-state. To be specific, we generate 10,000 samples for each sample size (i.e., 10, 100, 1,000, 10,000, and 100,000) and check whether the range of proportions of the best choice is smaller than 5%. We find that the pattern of SCBB is robust regardless of the sample size (Appendix C)).
图1说明了不同信息条件下SCBB。首先,我们的结果表明,错误的信仰(信念和现实之间的曼哈顿距离向量)系统中与own-action依赖持续下去,而他们最终消失如果完整的信息在把所有行为的后果,甚至在一个随机选择的行动是提供给代理(参见图1(一))。第二,在own-action依赖,在实践中学习产生因为SCBB锁定。在图1 (b),只有大约14%的病例在10000年重复模拟达到全局最优。有趣的是,与随机信息系统不受从SCBB一样,即使给代理的信息是不完整的。系统仍然可以达到最好的选择,尽管它需要更长的时间比完整的信息。换句话说,own-action依赖(结合剂的行为预期收益最大化条件信仰)SCBB的根源,而不是信息本身。
(一)
(b)
(c)
最后,SCBB未必导致劣质短期业绩。特别是在我们的说明,系统优于随机信息直到own-action依赖 (见图1 (c))。相比之下,选择最优的概率选择下随机信息超过下own-action依赖 。之间的权衡是SCBB生产过早收敛到一个好的但不是最优行动,而随机信息提供产生机会成本(在不知道结果的行动选择),可能只是抵消给定时间(19]。
4所示。从相关构造SCBB区别
SCBB有别于确认偏误,这指的是“寻求或解释的证据的方式部分现有的信念,期望,或者一个假设(13]。“这是一个认知偏见的信息处理由依赖试探法或避免认知失调32]。然而,SCBB任务环境的根源力量内生采样和代理商条件最大化回报的信念;代理可能过程产生的信息没有任何偏见的形式上面所提到的,仍然屈服于SCBB。如上我们演示了很容易被识别,SCBB可能出现即使代理开始无偏先验和遵循贝叶斯准则更新(6,33]。
SCBB也不同于自我实现的预言,这是指“错误的定义情境唤起一种新的行为使得原本假怀孕成真(14]。“它的底层机制是任务环境响应行为,减少偏见的信念。例如,教师的期望可以自我实现,因为学生对教师行为引起他们的期望(34]。换句话说,一个自我实现的预言了一个过程,有偏见的信念成为现实的正确表示由于更改造成的任务环境代理的行为。相反,SCBB描述偏见的持久性信仰尽管学习过程。事实上,它可以显示一个响应的任务环境中,一个自我实现的预言的必要条件,将减少SCBB(附录D)。
进一步区分SCBB和其他相关构念,它是有用的注意,最终可以只有两个来源的信仰产生SCBB:错误的先验和嘈杂的反馈。例如,当代理人认为,特定的替代方法是在初始阶段缺乏吸引力,它不会被取样。因此,即使这样的信仰是不正确的(即。,a false-negative belief), it will not be revised. Further, even when the agent has sampled the optimal alternative (i.e., the highest expected payoff), it may deviate from that alternative in the subsequent periods if the realized payoff is below the expected payoff due to noisy feedback (i.e., “hot-stove” effect [11])。在n代理游戏,玩家受到SCBB最终可能会在次优一毛钱平衡(有可能不正确的信念的发展之路信息集可能会持续),而偏离纳什平衡(15,16]。因此,SCBB既效率低下的超集一毛钱平衡(因为他们甚至可以存在与一个代理)和“热火炉效应”(因为他们可以存在即使没有噪音的回报)。
最后,SCBB也有别于症结,已定义的本地搜索在崎岖的风景。这些引用”这样的配置选择,一旦公司到达配置,该公司不会偏离它(17]。“虽然SCBB和症结都流动(即。,stable fixed points) of the adaptive system, the source of stability varies. On the one hand, the interdependency between elements of the system is a root cause of sticking points. An accurate assessment of a configuration combined with a local search constraint produces fixation for the system in the case of sticking points. On the other hand, the own-action dependency combined with the tendency to maximize payoffs based on beliefs causes SCBB. Thus, while sticking points and SCBB are both instances of the interactions between task environments and agent properties (i.e., Herbert Simon’s famous “scissors” [35定性]),他们也不同。专门SCBB,代理必须有偏见的信念的方式,作用于信念阻止可能伪造证据的生成错误的信念。因此,SCBB可以出现即使没有相互依存在任务环境中(例如,在前面的例子)或本地搜索限制,这两个是必要的症结。
5。如何逃离一毛钱有偏颇的看法
鉴于这些必要条件,扰乱了代理的回报最大化倾向基于他们的信仰或分手own-action依赖是逃避SCBB唯一可能的路径。第一路径涉及强制代理参与“探索”被定义为采取行动符合当前的信仰(36]。在学习模型,探索过程中一直得到广泛的研究(18,19]。通过取样操作,不会选择在现有的信仰体系(即。,taking those actions believed to be less attractive), the agent may deviate from SCBB. In the previous hiring example in Table1,雇主可以逃脱SCBB通过选择类型,这是不符合他们的信仰,并纠正偏见的信念。这揭示了著名的探索,在实践中学习的好处是常见的行为选择中引入随机噪声阶段学习模型(例如,ε贪婪,卢斯的选择规则,softmax [3),或最大熵37])。然而,实现这决不是一个简单的禁制令人类演员,作为一致性的要求,理由和解释社会设置的行为通常是相当高的。这促使詹姆斯3人呼吁“愚蠢的技术”,使代理人采取行动不符合当前的最佳信念(36]。
在组织环境中,探索包括实验、搜索、创新、和变异,这矛盾倾向于表现一致,synonmous与开发(例如,细化、效率、生产力和减少方差)。在克服勘探和一致性之间的紧张关系,放松要求一致性或分离探险的活动到另一个组织单元通常被视为可行的政策(38]。例如,一个组织文化,价值创新和效率可能允许个人从事创新活动在不损害质量或效率(39]。此外,张力也可以通过隔离勘探活动从剥削活动来解决。可以实现分离的三个不同层次:组织分离(例如,有研发部门)、时间(即分离。勘探和开发之间的顺序),或域(即分离。在一些领域,探索利用在其他领域)(见[38]审查)。然而,组织学者普遍认为保持充分的探索是一个要求很高的任务组织上下文(19]。
第三,少提到的方法是提供证据的代理(即可能是独立于自己的行动。、供应信息反设事实)。图1显示为一个随机选择的选择提供信息(而不是实际行动)可以解决SCBB。这可能是几乎很难实现在大多数任务发生在实践中学习的环境。然而,有可能是利用别人的经验可以反设事实信息的来源21]。为了说明这种机制,认为雇主在上一个示例中可以改变自己的信仰,当他们观察其他雇主(II型)(错误地)相信C型比A或B型更有吸引力;但是如果这个社会学习适当的减少他们的信心继续B型,这可能最终帮助他们发现(即最优行动。A型)。
社会学习的能力产生反事实的信息,当然,取决于不同的复印机和复制的。因此,只要代理相同的任务环境中采取不同的行动,因为不同的先验,因为他们获得的差异反馈相同的操作(例如,在嘈杂的回报),或者他们如何从反馈中学习的差异,相互复制可以打破own-action依赖机制。雇主(I型)可以正确SCBB类型C通过收集信息从其他雇主类型(II型),而不会用于孤立的学习者。社会学习的价值,在这种情况下,并不是把知识从深刻的无知,因此逐步集体洞察力(40),但摆脱无知系统中利用多样性(因此它能够生成反事实的信息)。
我们说明如何从别人不同勘探和反设事实纠正SCBB不同。实施探索性行为的破坏倾向于最大化基于信仰,我们假设代理之前将softmax规则(3]。具体而言,代理的概率选择一个行动时期是由
注意,现在所有选择都将分配一个积极的被选概率。因此,所有选择都将最终(如采样 ),和代理可以逃脱SCBB伪造不正确的信念。的参数代表的勘探程度在搜索过程中(3]。当高,选择的选择更少依赖于主观评估的选择(即。更多的探索)。作为 ,将softmax规则收敛于贪婪的搜索规则在我们的基线情况。我们探索内生收到回报的假设参数 (我们假设当τ< 0.01、代理商遵循一个贪婪搜索(即。,choosing the best one in the belief system) to prevent division by zero). This assumption allows agents to stick to a good alternative once they found a satisfactory one, thereby isolating the effect of SCBB from that of constant exploration (which prevents exploitation of good choices once found) in understanding the propensity to choose the best alternative.
为了说明社会学习,我们假设有两个代理系统中没有事前的知识差。他们不仅从自己的经验中学习,也从其他的经验(即。,行动和相应的回报)。具体,我们假设他们被分配平等权重更新信念自己和对方的经验,这意味着他们不是偏见在利用信息作为信息的质量(的模式结果独立于它的来源,我们说明这是健壮的其他规范的探索和社会学习(即。、勘探参数和重量信息来源;见附录E和F))。
图2显示了探索和社会学习的程度的SCBB相比基准提供随机信息,如图所示1。首先,相对于基线own-action依赖的情况下,所有三个版本减少偏见的信念;参见图2(一个)。特别是,所有增加的概率选择最好的选择在学习期(图2 (b))。第二,三个干预措施的有效性在解决不同SCBB找到最优的选择。有趣的是,我们发现随机行动提供信息优于其他两种机制。这是因为,在其他两个机制的根本原因(即。,own-action dependence with agents who behave consistently with their beliefs) is only partially resolved. The explorative behaviour under the softmax rule is less prone to SCBB but cannot escape it entirely since exploitation is rarely zero.
(一)
(b)
(c)
与社会学习系统,代理收敛的信念系统随着时间的推移,通过相互模仿,从而产生更少的反事实的信息。因此,社会学习是一个自我逃避SCBB机制;它有能力生产这与应用效益下降。同时,纠正的跨期权衡SCBB特权社会学习(图2 (c))。随机行动提供信息,真正采取行动不更新,失去机会受益于找到好的行动。社会学习没有这个问题,同时提供一个有用的反设事实来源。它有助于打破own-action依赖在搜索过程的早期,与此同时,允许利用良好的行动在早期发现(通过softmax探索和提供信息对随机选择的行为允许)。因此,不仅是SCBB剥削的根本原因和勘探的权衡18,19),而且社会学习是一个特别有效的手段来优化这个折衷的方式打破own-action依赖不牺牲收益从早期的成功,而其他机制(如一个常数nongreedy行为选择不提供。
这个社会学习的好处也可以在一个更大的系统,只要代理异质信念和分享反事实的信息。图3说明了系统的影响大小(即。,the number of agents) on SCBB when agents engage in social learning. In particular, our result shows that the probability of choosing the optimal action at the steady-state increases with the system size (Figure3(一个))。例如,尽管只有23%的情况下达到最优行动当系统包含两个代理,大约83%的系统找到最优当有十五代理。随着系统规模的增加,更多样的选择将采样,除非代理人从相同的先验(图开始3 (b))。在相同的先知先觉,多重代理系统不能享受在矫正SCBB社会学习的好处。这些结果指向另一种形式的“群体智慧”补救SCBB;只要有足够的异质性产生反设事实学习期间,群众可以提高个体学习者(41)(参见[42为解决问题相似的结果)。
(一)
(b)
6。讨论
在本综述中,我们总结我们了解学习中可能出现的病理做系统,它可以追溯到一毛钱有偏见的信念(SCBB)。特别是,我们找到两个条件共同满足学习系统变得容易SCBB: own-action依赖和代理商采取行动符合当前的信念(例如,主观期望效用最大化)。在这些条件下,自适应代理可能无法正确的假阴性的信念因为表演始终与信念阻止演员收集信息,消除这些信念。因此,这种不正确的信仰可以永久存在。因为以上两个条件共同足以产生SCBB,逃避SCBB的唯一方法是打破own-action依赖(即。反设事实,提供信息)或在选择和信念(即产生不一致。创建探索),或两者兼而有之。
我们提供比较SCBB和相关(或看似相关)结构在先前的文献。一方面,SCBB的根源都是次优的一毛钱平衡(15,16)和热火炉效应(11]。另一方面,SCBB不同于确认偏误(13和症结17)和可能减少自我实现的预言(14]。SCBB可能出现即使没有认知偏见在信息处理中,选择在系统的相互依存,本地搜索,或者响应环境调整到代理的行为。
我们也回顾了不同的机制,可以帮助逃脱SCBB及其可行性。尽管逃避SCBB探索帮助一个学习系统,通常要求个人和组织参与。除了自然趋势表现一致的信念,社会环境(例如,组织)通常需要的一致性和解释行为,这与勘探活动(如实验、搜索或变化)。进一步,尽管SCBB,学习者可能会建立正确的推理在当前最好的选择,因为它采样已经超过其他利益的选择。模糊厌恶因此会探索更加困难,作为一个利益的选择,这是假阴性的信念,可能进一步折扣(16,43]。的持久性SCBB尽管有一些勘探表明,最佳选择是根深蒂固的偏见的信念现有的信仰体系。
反设事实获取信息是一个逃离SCBB替代机制。在某些情况下,这很容易实现。例如,投资者在资本市场可以观察股市的表现,他们不投资(44),雇主可能跟踪候选人,他们不雇佣(即。在LinkedIn)。在其他情况下,社会学习(即。,learning from others’ experience) can be a feasible solution that reconciles a demand for consistency in their private beliefs and actions with the ability of breaking own-action dependence. Under social learning, agents can benefit from gathering information on counterfactuals even when each agent behaves consistently with their own beliefs. However, the nature of social influence is critical. For example, when individuals sample based on popularity (e.g., trying what the majority seem to be doing) without sharing experiences, they may develop “collective illusions” where beliefs are homogenized around popular but suboptimal alternatives [45]。
我们讨论SCBB有几个影响学习和组织内部人员感兴趣。最基本的一点是,在实践中学习过程中经历的数量可能不对应(即知识。,信仰的真实性)当演员有强烈的动机来赚取,不是(只)学习。探险的代理有限的经验可能有更好的表示任务的环境比一个剥削的代理与丰富的经验(图2(一个))。第二,SCBB提供一个独特的、吝啬的机制来解释持续的异质性跨组织尽管自适应过程。解释组织的多样性(如实践和形式),这是组织科学的核心问题之一,先前的方法依赖于本地搜索在崎岖的健身景观(46]或刚性(减少敏感的反馈)的组织结合异构的环境(47]。然而,异构同质环境下跨组织即使没有任何由于SCBB本地搜索的限制可能会持续。组织可能锁定理想实践不是因为他们有僵化和不学习或本地搜索的,因为他们的轨迹让他们当地的一个高峰,而是因为他们主观期望效用最大化;他们看不到任何理由偏离他们当前的信仰,这可能,然而,功能SCBB先知先觉。
我们工作的自然延伸是更详细地探索SCBB纠正机制,包括它们的边界条件。组织学者们提出了多种方式来平衡勘探的成本和收益38]。相反,我们有限的理解microprocess通过代理从别人的经验中学习及其边界条件生产的准确理解任务环境。从社会学习可能更可行的,比探索实施降低压力的一致性或理由,在组织环境中,这些问题也几乎与改善组织的在实践中学习过程。分析在实践中学习和社会学习(学习)很可能会受益于更紧密的集成,因为即使在后者,正如我们所指出的那样,最终一个学习从别人的在实践中学习。
附录
答:SCBB在嘈杂的反馈
在基线模型中,我们假设在绩效反馈(即没有噪音。绩效反馈是确定的)。在现实中,绩效反馈往往需要噪声(10,26]。也就是说,在嘈杂的反馈,绩效反馈( )代理接收可能偏离预期的性能( )。在绩效反馈是随机的,性能结果( )成为每个替代(预期的性能 )。然后,SCBB的条件是由 在哪里代表一个下界 。请注意,对SCBB噪声有两个相反的影响。一方面,它降低了SCBB因为 。简单来说,噪声在绩效反馈行动j可能允许代理纠正偏见的信念的行动我当 。另一方面,噪音性能反馈是一种错误的信念( )随着错误的先知先觉,导致SCBB,“热火炉效应(11]。“特工采样最好的选择可能会偏离它在随后的时期它收到不利的反馈由于噪音。因此,即使代理始于无偏先验( 为 ),它是容易SCBB反馈时吵了。
b .灵敏度检查
下图描述了灵敏度检查(图4):
(一)
(b)
(c)
c的分布比例的估计最好的选择对样本大小
下图描述了样本大小(图5):
d . SCBB在反应系统中环境
到目前为止,我们已经描述了SCBB上下文中的一个代理在实践中学习的环境,本身就是不agentic,不回应的行动。然而,有学习情况的环境也对代理人的行为(例如,回报行动可能改变由于被选中)。例如,代理的收益从一个动作可以通过提高重复选择的行动(一个“投资”的任务,比如信任增加B的可信度48)或代理重复任务增加了这个任务的回报通过某种形式的代理收益递增(49])。相反,一个替代的选择可能会减少其回报(“损耗”任务,比如在选择位置收获或鱼)。实施响应环境,我们假设 在哪里代表的次数的选择我被采样期间期和是一个回报 。当 ,任务环境特征是作为投资任务。另一方面, 代表一个枯竭的任务。
我们的结果表明,两种环境电抗可以减轻SCBB的影响。在投资的情况下,代理人的行动被锁定客观地成为最好的随着时间的推移,所以没有偏见的选择(图的最优选择6 (c)),尽管信仰对其他替代品(图可能仍然是有偏见的6(一))。这个结果对应于一个自我实现的预言(14]。在枯竭的情况下,所选择的客观行动变得更糟,也导致代理丢弃它(图6 (b)),消除偏见,鼓励流浪的替代品(图6(一))。
(一)
(b)
(c)
e .灵敏度检查的探索
下图描述了灵敏度检查勘探(图7):
(一)
(b)
f .灵敏度检查社会学习
下图描述了灵敏度检查社会学习:(图8)
(一)
(b)
数据可用性
的代码复制本文计算分析的结果是使读者可以通过GitHub (https://github.com/sanghyunpark4/Self-confirming-biased-beliefs/blob/main/SCBB.py)。
信息披露
本文的思想得益于表示詹姆斯3 G纪念会议于2019年10月在卡内基梅隆大学举行。
的利益冲突
作者宣称没有利益冲突有关的出版。