研究文章|开放获取
赛斯a .群Kai a·克鲁格特伦顿e . Kriete Tsung-Ren黄Thomas e .朦胧,兰德尔·c·O ' reilly, ”战略认知测序:认知神经科学计算方法”,计算智能和神经科学, 卷。2013年, 文章的ID149329年, 18 页面, 2013年。 https://doi.org/10.1155/2013/149329
战略认知测序:认知神经科学计算方法
文摘
我们解决战略认知测序,人类认知的“外循环”:大脑如何决定什么认知过程在给定时刻应用于解决复杂的多步认知任务。我们认为这个话题一直被忽视的重要性相对于其系统的原因,但最近的工作个体大脑系统如何实现他们的计算为有效解决大脑区域协调如何随着时间的推移,来完成我们的最令人印象深刻的思考。我们提出四个初步的神经网络模型。第一个地址的前额叶皮层(PFC)和基底神经节(BG)配合执行试错学习短序列;下一个,有几个领域PFC学会做出预测可能的奖励,以及这如何有助于BG水平的决策策略。第三个模型解决PFC, BG,顶叶皮层和海马可以一起工作记忆的认知操作的指令序列(或“自学”)。最后展示了一个约束满足的过程可以找到有用的计划。PFC保持当前状态和目标状态和同事从这两个“桥接”状态,一个抽象的计划。我们讨论这些过程如何一起工作来产生战略认知测序并讨论在这一领域未来的发展方向。
1。介绍
权衡一个科学理论的优点,决定哪些行动计划,或者考虑是否一项法案成为法律应该都需要许多认知行为,特别是序列(1,2]。人类使用复杂的认知策略来解决难题,和理解如何我们这样做是必要的来理解人类的智慧。在这些情况下,不同的策略组成的不同序列的认知行为是可行的,和战略的选择是至关重要的在确定我们如何成功和失败在特定认知挑战[3,4]。理解战略认知测序有重要意义减少偏见,从而改善人类决策(例如,5,6])。然而,这方面的认知研究很少的(7,8因为它是复杂的。任务,参与者倾向于使用不同的策略(因此序列)必然产生的数据不太清楚和可翻译的比从一个过程在一个简单的任务9]。因此,认知神经科学倾向于避免这样的任务,战略选择的神经机制和认知测序的利益相对于巨大的潜在实际影响。
在这里,我们讨论我们小组的努力形成的综合理论所涉及的神经机制的选择和实施一系列认知操作成功解决一个复杂问题。我们称这个过程为战略认知测序(SCS)。虽然每个区域的大脑显然是参与一些个人的步骤在某些特定的认知序列,有充分的证据表明前额叶皮层(PFC),基底神经节(BG)和海马和颞叶(HC和MTL)是特别重要的任务涉及SCS(例如,10- - - - - -14])。然而,这些大脑区域如何允许我们使用多步方法解决问题是未知的。这个过程显然是至关重要的细节理解这一过程,有助于正确的障碍,更好地训练它,也许最终繁殖人工总体智能(AGI)。
我们提出四种不同的神经网络模型,每一个计算函数,我们考虑的关键战略认知测序。前两个模型解决序列是如何学习和选择:大脑如何选择少量已知的战略元素在一个给定的情况下使用。第一,“模范自由学习”,是一个模型的dopamine-driven强化学习在PFC和BG可以学习认知序列完全通过反复试验,与奖赏只有最后一个成功的序列。第二,“PFC / BG决策”(PBDM),展示了大脑皮层的预测奖励和努力可以在基底神经节驱动决策策略为不同的任务,使系统快速推广从选择学习策略在旧任务新任务与相关但不同的策略。最后两个模型适用于选择什么计划或行动(从长期语义记忆)的大量的可能性将被这两个“的”系统。第三模式”,指示学习”,说明情景回忆可以与PFC和BG记住从指令序列,而最后“子目标选择”模型展示了语义关联过程后的皮层可以选择表示“弥合国家”也构成了广泛的计划连接当前状态和目标状态,每个理论上可以进一步阐述了使用相同的序列过程产生复杂的计划。
因为这些模型开发有点分别,他们和他们的描述地址”行动,”“子目标,”和“策略、计划。“我们认为所有这些是共享同一类型的表示和潜在的脑机制,实际上每个模型解决所有这些水平。所有这些理论可以应用个人行为或整体的动作序列之前学会了作为一个“块”或计划。这种分层序列之间的关系是很好理解的较低水平的汽车处理(约,辅助运动区编码序列的初级运动区表示,虽然presupplementary运动区编码序列的序列);我们假设这关系到更高的水平,这样的认知行为序列可以触发一个分布式表示松散编码整个序列和那些高级表示可以展开序列本身使用相同的大脑结构机械,可能略有不同,但平行的大脑区域。
在阐述每个模型之前,我们澄清的理论框架和背景,塑造了我们的思维。描述每个模型后,我们进一步将每个模型与我们人类战略的整体理论认知排序和描述我们计划建模工作未来的发展方向,将这些个体认知功能成一个完整的过程,学习和选择序列的认知行为制定计划和策略适合小说,复杂的心理任务,人类最令人印象深刻的认知能力之一。
2。理论框架
这些模型合成提供相关数据,构成我们尝试卡伦牌揣测理论。我们将计算认知神经科学方法,人工神经网络模型用于使具体化并指定我们的理论。模型以类似的方式作为认知艾滋病图表,写理论也为我们调查关注的计算方面的问题。这些理论不仅约束的数据我们特别考虑在这里还通过使用Leabra建模框架(15,16]。这个框架作为一个累积建模工作,已经应用于许多领域,总结了大量的数据对神经功能。这个框架作为一个揣测理论对大脑皮层功能,和单个模型代表更具体,但仍然PFC的实证支持和约束理论,基底神经节,奖励制度,海马功能。在这里,我们开始地址SCS扩展这些成熟的理论。
我们也把我们从纯粹的认知理论的认知顺序约束。生产系统架构工作作为复杂的人类如何认知步骤序列理论解决复杂问题[17- - - - - -19]。的多步骤生产系统模型进行一项复杂的任务,如空中交通管制(20.认知测序的)是一个很好的例子。我们的目标是详细说明特定的神经机制,并在这样做,我们改变这些理论有些虽然仍占行为数据,指导他们的创造。
神经网络是高度指定的其他类和累积的理论认知。然而,这些很少应用到我们这里地址类型的任务,在信息必须从一步一步聚合,但以任意方式(例如,第一个算出中心的一组点,然后计算距离的中心指向另一个点,然后根据距离,估计的可能性点股票属性的设置)。这就是因为神经网络执行并行信息处理和提供更好的解释单步解决问题。的确,我们认为人类能够使用战略认知的序列作为我们的祖先的大脑的这种机器,一个让我们更聪明,允许我们访问一系列战略,低等动物很大程度上不能使用(21,22]。
因为每种方法的缺点和其他力学上的缺乏详细、累积模型的认知,我们的灵感来自发达的理论从生产系统如何认知步骤排序(17- - - - - -19,23]而专注于人工神经网络化理论个体认知行为是如何执行的细节。这个角度看是受之前工作在混合理论和认知体系结构基于ACT-R和Leabra网络不同的目的(24]。ACT-R [18)是最广泛的开发生产系统体系结构和生理机能最明确的一个地址,而Leabra可以说是最广泛开发和累积神经神经功能理论从认知水平。
在ACT-R,认知行为的序列是由生产火灾。这反过来是基于每个条件之间的“适合”生产和认知系统的当前状态(这也反映出环境通过感官系统)的状态。这个函数提出了发生在基底神经节(BG) [25,26),这是通过匹配与人类神经影像学证实数据(25]。虽然有可能,BG单独负责选择动作熟练的情况下(27),我们关注学习过程等不成熟的情况下。在神经网络框架,我们这个功能分为皮质和BG区域,与大脑皮层(通常是PFC)生成一组可能的认知可能执行的行动下(通过关联模式匹配或“约束满足”),而基底神经节决定是否执行每个候选人的行动,根据之前与奖励的关系在类似情况下的信号。
在建模过程中,我们利用以前的工作从我们组在建模的机制和计算PFC和BG学会保持在工作记忆有用的信息(28- - - - - -32]。前额皮质基底神经节工作记忆(PBWM)模型由O ' reilly和他的同事们开发整合丰富的电生理学,解剖学,和行为数据,主要从动物工作。工作记忆似乎也是一个大组件的执行功能,因为在许多情况下,一个特定的任务的执行维护一组适当的任务(33实际上,记住要做什么。这些偏见维护表示其他大脑处理约束的满意度。因为它解释了我们如何学习的深奥的问题执行功能(EF),这个理论使进步消除“矮人”(30.),通过解释复杂的认知行为是由系统的集合,每个供应总体智力的一小部分,决策、和学习。
从本质上讲,PBWM框架扩展知识的财富在基底神经节的作用在电机控制解决工作记忆和执行功能。这是可能的,因为有惊人的规律在额叶皮层、皮层和基底神经节的解剖学,有助于运动机能非常类似于前额叶和前BG地区已知促进WM和英孚34]。这种解剖学被认为帮助选择潜在的运动行为“闸门”的信息通过丘脑皮层,放大,清晰地选择的几种可能的候选人的行为代表大脑皮层(例如,35])。PBWM的核心假设是,这些相同的电路帮助选择表示将积极维护在促进本地混响循环PFC的皮层,皮层和丘脑之间,通过触发内在维护电流,使皮质锥体神经元的自激的持续放电。BG的强化学习机制学习奖励也适用于哪些行动学习记住什么做什么。
的主要价值和学习价值(PVLV)模型变化的多巴胺释放奖励预测(36,37]PBWM也是一个关键的组成部分,是基于电生理和行为的数据集合的皮质下区域参与(例如,38- - - - - -41])。多巴胺释放的已知性质表明它作为奖励预测误差信号(42)信息的属性,这些属性使它有用的驾驶学习(43,44]。这个系统学习当一套新的信号表示可能会导致一个生物学上现实的奖励变异函数的大名鼎鼎的时间差异(TD)算法时补充了“合格跟踪”信息(例如,45])。这个奖励预测函数是至关重要的,因为很难评估一个动作的好处(无论是认知或行为)的实际回报通过行动经常发生在时间晚,所以不能直接用作学习信号(46,47]。相反,系统学习执行操作,预计将获得奖励。这种强化学习训练纹状体和工作与更强大的联想和error-driven学习PBWM PFC部分内的学习表现(因此联想语义)候选人的行为。
在本文的其余部分中,我们展示了四个模型的概况,从几个方面详细说明这个过程。第一个地址前面描述的学习机制,阐述了如何通过各种工人在我们组36,37,48,49)可以学习短序列的认知行为,当他们按顺序依赖,所以必须以正确的顺序执行实现奖励。第二个描述了海马体可以实现指导学习,参与约束的满意度决定哪些行动来考虑执行的过程,当我们执行新的任务基于记忆指令。第三个模型考虑多慢,皮质联想学习有助于相同”,“当前状态的过程通过使用约束和目标到达子目标,可以作为一个可行的序列中的下一个步骤。最后,我们和一些讨论本研究的状态和许多剩余的问题。
3所示。模范自由强化学习
模范自由强化学习(RL)可以被定义在一个高水平的学习行为(我们需要包括认知“行动”)产生回报,没有任何其他关于世界的知识43]。而我们在这里描述的学习机制是纯粹的试验和错误,同样的学习机制适用于模型驱动或“假说驱动的”学习。例如,同样的学习原理应用在使用行为,明确计划记住指令,或语义协会中最后两个模型描述。
希望更好的了解这一过程可能会发生在神经组织,我们有杠杆前额皮质基底神经节工作记忆框架,或PBWM [28- - - - - -32]。在这个账户下,一个基本的actor-critic架构(43,50]很自然地出现在前额叶皮层(PFC)之间,基底神经节(BG),中脑多巴胺系统建模的PVLV系统前面描述的。PVLV作为评论家,评估网络的状态和提供多巴胺破裂或下降比和比预期成果,分别。BG系统自然是位于执行参与者基于其已知的功能作用,选择电动机的行动(假设,选择认知行为类似的神经机制在更前的区域PFC)。使用BG评论家的输入,从经验中学习的政策更新隔离部分突发事件改变PFC的任务。PFC能够保持过去的环境和提供了一个暂时延长偏压影响系统的其他部分。将整个过程视为是有帮助的“闸门”的过程:BG闸门控制PFC中的正在积极维护,因此随后偏压(控制)处理其他皮质。当门关闭,然而,PFC坚定维护的内容和相对免受竞争的输入。重要的是,作为任务情况变化和演员确定需要改变,可以打开门让新的、可能更适当的任务、内容到PFC。
简单的RL-based PBWM框架的学习让我们轻松和自然的调查方式,大脑可能能够利用模范自由RL为了解决一个简单的任务。简而言之,网络必须学会保持特定的行动和评估这个序列基础上的成功或失败的一个模拟代理来获得奖励。我们使用的简单示例任务是一个基本的基于状态的导航任务(抽象层面的“房间”状态)的模拟剂必须导航状态空间与概率奖励工作的启发,Fu和安德森(51)(见图1)。任务的目标仅仅是学习一个动作导致最高金额的奖励政策。为了达到这个目标,代理必须做出选择在每个房间/国家访问移动左隔壁房间或者隔壁房间到右但总是前进。唯一的房间,最后一级包含奖励(如大多数任务)。奖励结构的概率,所以一个房间是最一致的提供者的奖励(房间3在图1),但其他的机会较低回报。为了PBWM框架最终成功,它必须能够维持一个历史很短的行动了,奖励或惩罚这些行为选择在最后的存在与否的奖励。这是一个简单的任务,但是以这种方式学习是一种有价值的工具,当系统必须先学习基本动作为了成功在更广泛的认知测序任务。
3.1。模型的描述
的模范自由RL网络如图2。网络的最终目标是获得奖励通过确定最好的行动给予的奖励结构模拟环境。有许多的强化学习模型在类似的领域,和PBWM PBDM模型应用到学习表面上类似的领域。然而,一些非常重要的差异使这种模式独特的设置。最重要的是,最终结果(哪个房间网络最终在基于选择的行动)网络的不确定的标准神经网络的方式激活传播通过单位和竞争决定获胜者。相反,通过网络选择一个操作行动层,它是唯一的传统网络输出层。可能的行动可以被认为是任何原子的行动可能会导致改变状态,如“向左”或“去吧。“网络选择一个动作后,状态转换表是用来确定行动的结果。更具体地说,网络使决定采取何种行动,和程序代码的效果对环境决定了模拟剂。结果会反馈给网络通过产生的状态层,但仅用于显示目的(不用于任何计算)。试验通过后开始介入的例子在本节中,将有助于澄清这一过程。
3.1.1。网络层描述
(我)行动层:这是网络的输出。所选的行动是通过一个状态转换表来选择一个新的房间。在当前的仿真,房间的选择是完全确定性基于动作。(2)现状后层:这是一个标准的输入层。现状后是当前状态(房间)模型是占领。(3)PossibleActions层:这是第二个输入层。层是用于指定“法律”行动是基于网络的当前状态是占领。重要的是,PossibleActions提供模拟基底神经节的主要信号来确定控制政策,以及主要的输入曼宁这确保只有合法的行动应选用(封闭)在任何给定的时间。(iv)PreviousAction层(只显示):这是一个只显示层。它维护的最后的动作选择网络。这可能是有用的了解网络到达其当前状态。(v)ResultingState层(只显示):这是一个只显示层。ResultingState是“房间”,模拟代理将抵达基于网络产生的行动。最后的房间是用于确定代理应该得到奖励。(vi)PVLV层:PVLV层(s)代表不同的大脑系统被认为是参与评价计算的评论家36]。(七)PFC maint和PFC:模拟前额皮质层,使用maint PFC积极维护信息过度扩张的延迟周期。PFC出层模型发布这些信息的过程中,允许它影响下游的皮质,使实际的反应。(八)maint矩阵和矩阵:这些层用于模型基底神经节和代表的演员部分网络系统。他们学会门PFC的一部分,通过经验,使用从PVLV系统提供的信息。
3.1.2。任务的例子
(1)当前状态(房间)通过现状后提出了网络层。输入对应于不同的房间,如图1,房间里0对应于第一单元现状后层,房间1第二,房间2的第三,等等。(2)使用现状后和PFC中维护的操作,网络必须决定去房间左边或右边的房间。这个决定反映层激活的行动。(3)选择的行动网络是用来确定模拟代理在哪里在当前状态空间,这是实现使用一个标准的转换表来查找下一个房间。操作的确定性和移动代理直接向房间只基于行动。(4)代理返回的结果状态通过激活网络现状后层中的指示作用的结果。回到步骤2除非代理到达终端的房间。(5)如果房间代理达成的最后一个房间,那个房间的奖赏的概率是用来确定奖励到代理的可能性。(6)重复步骤1,直到任务是可靠地学习。
3.2。结果
网络能够快速学习行动序列的最优政策,优化对这个任务的奖励。评估网络的能力来解决这个任务,我们建立了一个测试结构使得网络75“机会”来解决任务/时代(块)。在时代的结束,奖励记录的平均速度模拟剂。这是重复,直到代理收到奖励大于85%的时间或平均25时代(块),哪个是第一位的。十模拟代理跑,平均8 10达到标准的85%在25世纪的奖励。平均4时代才实现这一壮举。虽然这可能似乎是一个令人惊讶的结果,生物现实网络的复杂性使这远非一个放弃的结论。事实上,许多见解是获得关于如何本质的演员必须平衡状态空间的探索和获得奖励。如果网络随机奖励的低收益的州,它仍然必须愿意探索环境为了证实这一发现。相反,如果高回报的网络状态,没有得到奖励,(相对)惩罚这个nonreward需要允许可能返回相同的状态在将来的某个时候发现最佳的行动方针。 The limits of the framework are apparent in the 2 networks that did not reach criteria. In both of these cases, the agent randomly reached the low probability area of state space. In most cases, the agent is able to successfully explore other options and thus find the more rewarding rooms. However, the current PBWM framework will occasionally fail if reward is not present early enough in exploration process. We are investigating biologically inspired mechanisms to bootstrap the learning in more efficient ways. Encouraged by our initial framework, we are actively investigating how a simple model-free approach to learning basic sequences could be utilized by the human brain in order to scaffold up to more complex and interesting sequences. We are hopeful that concentrating on the relevant biological data and learning will provide us with useful insights to help us better understand how people are capable of such effortless sequencing of extended, diverse, and complex action plans.
我们假设这种类型的学习艾滋病的认知顺序通过允许人类发现有用的简单序列的认知行为完全由试验和错误。虽然这种学习不可能占人类认知的更令人印象深刻的壮举,因为这些似乎需要大量相关领域的语义模型和/或显式教学有用的序列,我们觉得理解大脑可以完成没有这些艾滋病是必要了解许多有关机制共同完成有用的战略认知测序。
4所示。前额皮质基底神经节决策(PBDM)模型
PBDM模型中,我们主要解决策略决策的任务(任务集在PFC表示,主要背外侧PFC (DLPFC))。决策是很重要的,在许多地区,但复杂的任务策略的选择是我们的重点。我们相信,同样的机制适用于决策在许多不同的领域。
PBDM背后的主要思想是计算模型之间的交互基底核和内侧前额叶区域代表特别行动计划或战略决策的相关信息。前扣带皮层(ACC)和眶额皮层(OFC)作为activation-based监视任务情感价值的参数(52,53),包括行动努力在ACC (54离岸金融中心,奖赏的概率。然后这些项目到基底神经节DLPFC控制更新,给它必要的信息来选择选择支持更低的努力和更高的奖励策略。因为ACC和离岸金融中心本身就是PFC地区输入相同类型的基底神经节/丘脑电路作为运动和工作记忆领域,他们假设能够迅速更新和维护他们的价值表征,用一个控制行动,改变评价,以反映新的重要信息。这带来极大的灵活性和快速适应快速变化的环境。在这个框架中,几个问题依然存在:什么,更准确地说,ACC和离岸金融中心代表什么?这些表示如何驱动DLPFC BG适当的控制行为?如何适当表示从事小说任务上下文?
PBDM模型的初始版本,稍后将详细介绍,如图3,我们采用简单的临时对这些问题的回答虽然认识到这些可能低估了发生在真实系统的复杂性。特别是,ACC往往是和在我们的模型中假定代表的努力,它真正的作用是更复杂的。综述了当前状态的知识在这些问题上彻底Kennerley和沃顿(55]。ACC和离岸金融中心在我们的模型中计算运行时间上的努力和回报概率估计,分别基于相位的输入每一个审判。如果一个任务正在进行,ACC只是增加其运行的平均time-effort。当收到奖励价值(否则预期时),离岸金融中心增加其运行的平均估计概率奖励。我们有四个不同的条纹在ACC和离岸金融中心,每个接收输入的,所以都有一个表示由一个任务的策略在顶叶皮层。这被认为是非常普遍的策略来处理空间信息,和一生的经验,我们建立合理的估计平均努力和回报他们是如何在类似的任务。为了在某种程度上捕捉语境的重要性,还有一组随机更新的任务特点,代表特定细节每个模型学会执行不同的任务。模型随着时间的推移,学会注意ACC /离岸金融中心值表示在选择一个任务策略和不重视这些特殊任务的线索。这样做后,模型可以概括小说任务上下文,通过关注底层空间任务价值和忽略了小说的特点。随着小说的任务的进展,实际经验丰富的奖励和努力推动ACC和离岸金融中心表示,为决策提供更准确的图片。 This is the overall model we think applies to subjects as they engage in novel tasks with multiple possible strategies.
我们概念化PBDM过程参与当人们积极地和明确地考虑一个新的策略或类似的决定。我们模型抽象空间的任务,个人空间的属性组的策略包括类似的物品。策略包括考虑一个或这些属性的组合。有4个不同的策略考虑(通过增加的顺序列出付出和回报的概率;精确值随任务):距离,距离+ BaseRate,距离+半径,距离+ BaseRate +半径。这些仅仅是示例策略关联到一个假想的空间估计任务,因此有时也称为策略0到3,分别;外的任务还没有实现这个模型完全假设成功的概率(奖励)和水平的努力(时间实现)。PBDM组件的重量训练模式历史悠久的经验与这些假设的奖励和精力值。这之后学习(通过它和纯),离岸金融中心奖励表示主要是偏见的途径,而ACC努力表示偏见勿动蛋白通路。正是由于这种平衡去勿动蛋白最终决定了战略选择。 In our models, we observe that different random initial weights produce different individual preferences along this tradeoff.
网络执行各种任务(开关在pretraining每10试验,模拟各种混杂在一起的空间任务一个人在日常生活中遇到)。奖励和所需的试验数量的概率取决于所选择的策略,DLPFC维护的任务表示。在现实中,可能的策略,因此表征空间会更大,但我们已经把范围缩小到4方位表征不同状态,(称为距离,Dist +基准利率,Dist +半径和Dist + BaseRate +半径;这些策略对特定任务的原始关系仅是无关紧要的,因为基本任务是抽象的策略组件模型)。内循环/试验由“执行”任务的问题,这是通过特定于任务的地区应对DLPFC任务表示。我们模型这一过程只在最抽象的水平:每个策略需要一个时间和成功的概率,为每一个可能的任务不同。因此,PBDM网络只有经历整个反馈参数:试验和奖励这些试验结束时的概率。我们没有模型实施这些策略的过程;这里的每个模型也可以用于了解一个特定的策略展开成一个适当的认知行为的序列。
整体行为因此如下:选择一个DLPFC任务表示,运行一个数量的空白试验(空白,因为我们假设底层过程执行策略没有影响这种级别的皮质机械)根据“努力”参数(代表任务性能),然后用给定的概率获得奖励由PCTask表示,DLPFC任务表示驱动器,然后重复。随着时间的推移,DLPFC的BG控制单元是由努力/延迟和奖励参数,选择DLPFC条纹,和相关的代表,与更大的成功和更短的延迟。
BG“矩阵”层单元控制闸门DLPFC所以,最终,做出最终决定的策略选择。他们收到输入ACC和离岸金融中心,学习随着时间的推移,编码,使用动态activation-based更新、平均运行时间的奖励和努力,与不同的策略在不同的任务。因为我们假设精神努力等于单位时间内跨越战略,努力整合集成是相同的时间。至关重要的是,因为这是在激活空间,这些可以立即更新,以反映当前PCTask上下文。随着时间的推移,BG学习权重,将每个OFC和ACC单元与相应的概率成功或努力。因此,立即activation-based ACC和离岸金融中心层的更新会立即控制闸门DLPFC层的选择,所以,系统可以快速改变其决策以应对不断变化的任务上下文(52,56,57]。
因此,网络训练的早期代表一个发育时期在ACC和离岸金融中心学习履行时间平均函数,DLPFC BG是学习他们的单位/表示对应的实际概率奖励和工作经历。然后,在后期,随着DLPFC任务表示继续迎战新任务提示输入(不同的特定版本的任务空间)、学会了ACC /离岸金融中心预测到DLPFC BG启用它选择一个好的任务策略表示第一次尝试。
4.1。网络层功能的细节
(我)TaskInput:广义的任务控制信息内循环任务正在执行项目DLPFC。我们假定这些信息来自于抽象的语义表示手头的任务;这可能是在各种后和前额叶区域,根据任务的类型。使用以下单位/方位表示:(一)PERF-performing当前task-signals DLPFC不应该更新任务表示(见DLPFC勿动蛋白在后面);这种重复试验的数量给定PCTask战略需要和罪犯延迟/努力与一个给定的策略。(b)我执行当前task-reward反馈将收到RewInput OFC和牛皮纸(PVLV);请注意,有一个“皮质”分布的标量值表示奖励(RewInput),除了直接的皮层下一个奖励学习系统(通过);从概念上讲这些是相同的表示,但实施不同。(c)CHOICE-DLPFC应该选择一个新的任务表示,基于影响从TaskCues ACC, OFC状态;新大门DLPFC表示将推动一个新的PCTask表示,然后确定需要多少性能试验和奖赏的概率下完成状态。(2)TaskCues:这些是随机二进制模式由cur_task_no状态,驱动DLPFC(皮层和BG);他们代表了所有的感官、上下文和教学线索与给定的特定任务。(3)PCTask反映了实际任务参数。在这个例子中,这些都是距离,距离+ BaseRate Dist +半径和Dist + BaseRate +半径,但更普遍的是这将是一个更大的空间的任务表示相关奖励和工作参数不同的任务。这可能也反映了后皮质和更后DLPFC表示提供由上而下的偏置和维护这些电脑任务表示他们在较短的时间。模型中的DLPFC更前“外循环”DLPFC保持更高级别的,长期持续的任务表示“展开”成有用的序列的其他进程,可能包括但不限于那些我们这里地址模型。(iv)RewInput:标量val奖励输入电平的激活在做试验;这也有一个−1状态被激活时的网络性能的任务模式,这就是触发延迟的递增/努力在ACC层(即。离岸金融中心和ACC饲料相同的基本RewInput层,拿出不同的信息)。这是整体冗余信号PVLV但包在一个简单的方法OFC / ACC为我们访问和操纵各种实验。(v)离岸金融中心计算运行时间的平均回报概率/大小;只更新奖励发生时(做实验),否则保持当前估计性能和选择试验。的网络学习coarse-coded分布式表示这个值,而不是一个标量值的格式,通过“解码”层(AvgRewOut)标量值的格式。但它是分布式表示,项目DLPFC偏差处理。目前并不完全清楚AvgRewOut对应于生物,但总的想法是,在脑干有自主水平状态,等等,低级的时间平均计算基于生理变量(例如,长时间血液中平均蔗糖浓度),这就是推动离岸金融中心学会计算activation-based平均运行时间。看到(七)这表示学会影响DLPFC浇注的方式。(vi)ACC计算运行时间平均间隔奖赏试验构成总努力在每一个任务,因为我们假设每时间大致相等的努力。它在每个更新性能试验和维护期间和选择试验;每个时间步长增加激活。与离岸金融中心,这一层学习coarse-coded分布表示的值,而不是一个标量值的格式,通过“解码”层(AvgDelayOut),这反映了长时间平均代谢成本变量。(七)DLPFC编码当前任务通过强化学习策略和学习表示完全稳定。它接收信息从TaskCues每个任务;基质层还收到从ACC和离岸金融中心和学习与良好的价值观随着时间的推移,选择任务表示ACC和离岸金融中心(即。、价值观与奖赏有关的那些已经过去)。DLPFC也项目PCTask,反过来项目ACC和离岸金融中心,“conditionalizes”(使适当的特定任务)表示。(八)DLPFC_NoGo_In是我们的一个“黑客。“这取决于勿动蛋白(强烈)当一个任务执行,以确保矩阵不更新DLPFC midtask。这种硬编码的行为仅是假设DLPFC任务组表示仍然活跃在任务绩效;也就是说,人们保持一个任务组没有中途切换策略更一般的学习:当你决定战略,坚持下去,直到你完成(或直到它被消耗太多时间)“令人沮丧”。
4.2。结果
4.2.1。准备仅奖励优化:离岸金融中心概念验证测试
第一个概念验证测试集的概率奖励。2,4,6,和PCTask单位0 - 3。8,分别(标记为“距离,”“+ BaseRate”“+半径,”和“结合”,职责),延迟设置为常数1试验(。2参数5试验最大延迟)对所有选项。因此,最好的策略是选择策略3,基于离岸金融中心输入。如图4,网络通过一段时间的探索紧随其后的是“剥削”策略3、立即自动选择和优化,尽管改变TaskCues输入。所有的批次(10/10)表现出同样的定性行为,一些稳定策略2,而不是3。这是第二好的策略,事实上,模型稳定在这在某些情况下显示了抽样的随机过程的成功,可能有助于nonoptimal策略的选择在一些真实的情况下(因为模型稳定后,它不会了解潜在的更好的策略如果没有一定的外部扰动强迫重采样)。没有稳定在0或1,因为他们大大奖赏的概率较低。如图5,权重矩阵去条纹,盖茨DLPFC学会编码相关的高价值的离岸金融中心表征策略3 OFC表示。
4.2.2。推迟发售n8优化:ACC概念验证测试
接下来,我们组概率为所有策略和6组延迟因素1、2、3和4的试验延迟,分别为0 - 3的策略。没有任何PVLV反馈性能试验期间,这个延迟的网络似乎是敏感因素,与战略0(1审判延迟)被优先选择。然而,这种偏好是有点弱,产生更强的,更可靠的偏好,我们添加了一个直接的多巴胺信号与拖延相关成本,已经被经验证明(58]。这个灯的大小减少DA奖励破裂比例努力/延迟(小加权项)。在我们的概念验证测试中,这个小调制产生50%的网络倾向于第一个(至少延迟)策略。
4.2.3。平衡的奖励和延迟(实际用例)
模拟一个似是而非的情况有一个付出和回报之间的权衡,我们设置了奖励因素。4、6、6、8和延迟因素。2,4,6,。8。这导致不同的战略新兴的培训在不同随机初始权重(“批次”)(比例如图6),和一些喜欢少量付出、低收益的唯一的选择,而其他人要完整的距离+ BaseRate +半径大量付出,高回报的情况下,和其他人在下降。特定结果高度随机和产品的特定选择的奖励和精力值;很容易摆布这些首选项通过使用不同权重的努力和时间。
(一)
(b)
4.3。讨论
PBDM模型显示了如何快速更新的前额叶皮层(PBWM中捕获模型和相关工作在持续放电PFC)可以帮助决策,允许系统使用上下文适当的预测表示奖励策略和努力推动决策任务。如果上下文(例如,物理环境和任务指令)保持不变,然后在ACC和离岸金融中心慢慢更新新的学习预测的值奖励通过体重依赖型剂量和努力学习。但是,如果环境变化,表示在ACC和离岸金融中心将“封闭的,”这样一套新的神经元学习新的上下文。旧环境的详细预测从而保存在突触权重,现在沉默单位(因为我们使用的学习规则,大多数人,不调整权重不活跃的神经元/单位)。
一种达到这个保存上下文依赖ACC和离岸金融中心表示可以是非常有用的在HC与情景记忆的交互。我们相信预测表示也可以检索ACC和离岸金融中心从海马的情景记忆,一种PFC-HC交互模型相似,但重要的是不同于我们的“指示学习”模式。
这个模型主要解决战略认知的“战略”部分测序,但这种努力决策,使整个皮质在线预测能力估计的收益和成本的一个可能的序列组件,可以帮助引导学习机制或两个指示学习和“模范自由”模型。
5。指导学习
的一个来源复杂,战略认知的序列学习他们直接从指令(59- - - - - -61年]。人类有卓越的学习能力从别人的智慧。我们可以建议或按照指令执行特定的认知顺序。可以观察到这样一个例子,每日由认知科学家进行人体实验。最正常的参与者可以任意小说的落实好指令任务很少或根本没有实践。然而,在认知神经科学的学习,强化学习中央研究课题和指导学习似乎是相对可以理解到目前为止。在本节中,我们对比强化教学和指导学习和动态轮廓在生物学上现实的神经模型。
强化学习适应行为基于行为的后果,而指示学习适应行为按照指示操作规则。结果,与缓慢,回顾过程强化学习的试验和错误,指示学习往往是快速、主动、无误。在大脑中,神经递质多巴胺信号奖励预测错误的基底神经节进行强化学习reward-linked行动(讨论,请参阅[62年])。至于指导学习,人类后海马构成语言编码成情景记忆(63年)和使用概念性知识的感知小说设置(64年]。
强化学习相比,指示学习似乎毫不费力。为什么学习这么艰苦的在另一个模式,但毫不费力?我们如何执行复杂的小说在第一次尝试的任务吗?我们建议指令只提供了一个新的计划重组旧把戏已经通过其他形式的学习。换句话说,指令快速组装,而不是慢慢地修改现有元素的知觉和运动知识。例如,我们可以立即按照指令:“按下左边的按钮,当看到一个三角形;按正确的按钮,当看到一个广场,”按钮按下的动作是一个先前存在的运动技能,和视觉识别和分类的形状也已经学会了知觉能力。也要注意理解指令之前需要一个学习语言的映射(例如,“媒体”)的口头命令实际行为(例如,“媒体”)的电动机执行。
进一步研究如何指导后进行神经行为水平,我们构建了一个模型的指示学习基于已知的神经解剖学的海马的神经生理学性质和prefrontal-basal ganglia电路(图7)。具体地说,该模型基底神经节(BG)进行强化学习电机执行(抽象模型中运动);模型海马快速编码指令动作集,可以根据上下文检索到前额叶皮层(PFC)作为指导后续的目标行为。与用途单一的神经网络,慢慢就让整个系统学习一种新的感觉运动变换,这种通用教程模式分离电机从计划表示,限制计划更新躺在海马快速学习,这是众所周知的,迅速将信息绑定到情景记忆。
作为一个具体的例子,该模型是指示10小说对if - then规则(例如,如果你看到一个,然后做B)和评估其成功的执行条件操作(例如,B)当遇到一个特定的条件(例如,看到)。在模型中,每一个“条件”,“行动”和“运动”的层由10个方位表示条件,言语行为,分别和(pre -)电动机输出。模型(即与action-to-motor pretrained映射。,from verbal commands to premotor responses) during the Pretraining stage and then trained with condition-to-action mappings (i.e., if-then rules) during the Instruction stage. Finally, during the Performance stage, it is tested with Condition-to-Motor mappings without any inputs from the “Action” layer. The simulation results are shown in Figure8。模型快速学会一个if - then规则只是一些试验中在教学阶段,并没有进一步的实践,没有错误在执行这些指令响应性能阶段,就像人体经常做了明确的指示和短的实践。
在模型中,学习发生在多个部分的架构。在Pretraining阶段,海马体学会执行标识映射为从“行动”层传送信息中相应的运动表示PFC层。同时,BG学会打开执行门PFC输出电动机决定“运动”层。在教学阶段,海马体的同事输入的“条件”和“行动”层和学习每一对条件动作模式。在表现阶段,所有的模型组件一起使用的机制模式完成,和海马体召回指令行动,做什么基于检索提示的“条件”层,及其下游PFC要么保持在工作记忆检索前运动命令当BG关闭执行门或进一步触发运动反应在“运动”层执行当BG打开门。
相比早期作品教程网络(65年),我们的模型进一步仔细解释大脑的不同部分系统协调快速学习和执行指令。尽管简单,我们的指示学习机制可以支持战略认知测序一个认知顺序可以由一组命令的指示或群体行动。旁边顺序行为,该模型也被扩展到解释指令和经验之间的交互(例如,66年- - - - - -69年的上下文中)确认偏误和假设检验。海马体的建模能力一次记住特定的事件无疑有助于我们的学习能力的重要组成部分复杂的面向目标的认知行为的序列。除了简单地记住他人指示,它还可以帮助学习的“群体”记住成功的步骤学习反复试验或其他方法,组装成新的序列。
6。规划通过关联发现桥接状态
我们探索的积极维护PFC的长期目标可以结合网络的语义知识来识别相关的子目标,然后使用这些单独的子目标以类似方式偏差行为选择的礼物。一个基本的问题促使本研究。给出一些终极目标,可能与明确的奖励,系统如何确定子目标,导致最终的目标吗?我们的假设是围绕语义,即关于世界如何运作的知识。我们的模型使用这些知识来执行约束满足使用的活动表示当前状态(我)和所需的目标(我要)联想到达子目标的表示,两国之间的“桥梁”。这个子目标可以作为重点战略或计划实现更大的目标。
6.1。模型的描述
有张力之间存在时间序列在一个或更多的子目标和多个约束满足方法,做事一步。显然,可以参与和可能是重要的。所以,当大脑做一与其他吗?我们采用了以下的启发式作为一种推论奥卡姆剃刀。一般来说,在默认情况下,大脑会试图做的事情在一个时间步如果能;作为最初的假设,我们怀疑,桥接在一个单独的子目标可能是相当于可以以这种方式完成。当不存在这样的计划,一个更复杂的过程,在通过干预国家逐步模拟建模的工作空间可以进行;因为这个过程是最复杂的,人类承担,一个模型,这在生物学上现实的方法是未来研究的一个目标。因此,这里我们最初的目标是试图证明一步约束满足问题解决一个简单的三态:当前状态和结束状态子目标(“桥接”)状态。
之间存在的另一个主要问题是紧张状态表示有时不得不互相竞争(例如,“当前状态是什么?”)和有时需要共存的扩散激活,以代表一个完整的运动计划或模型的状态空间(例如,代表所有的三个州在前面的三态问题)。解决方案我们决定分工之间的关系处理区域,可能后顶叶皮层(PPC,用红笔圈出来的图9)和语义关联领域,可能在前颞叶(ATL,用红线圈起的部分用蓝色)。因为许多大脑区域参与语义,精确的领域有望随语义域,但是我们描述的机制将这些差异。图9之后说明了这两个截然不同的领域。PFC(而不是显式地建模)是设想来表示目标状态,因此偏差处理在这两个领域。加工区的关系是基于描述的想法“语义认知”,罗杰斯和麦克勒兰德(70年]。
(一)早期
(b)中期
(c)晚
培训:网络训练State-Action-State三和弦的语义关系(壁/前颞叶皮层),但包括连接语义网络的一部分。想法是关系区域将学习特定的角色之间的关系(前,后)和行为(国家之间),而语义区域将学习简单的节点之间的关联。前者是由严格抑制竞争,而后者更多的自由体验扩散激活。这样,训练的所有单个S-A-S关系使桥接在一个中间子目标状态和偏差纠正行动在当前状态,偏压的影响下的目标状态。
如图9(一个),这显示了网络训练只有两两相邻状态之间的转换,当远程目标的当前状态和状态输入,同时被激活在语义网络和关系引擎早期在解决。定居在这个早期阶段,有三种行动单位积极参与ActionBetween层(引擎)的关系,这是所有可能的可以采取的行动在当前状态(S0)。后来在解决(图9 (b)),第三个国家单位,这是当前状态之间的中间状态和目标。它成为唯一活跃的单位由于约束满足的过程,包括自下而上的输入从当前状态和自上而下的目标状态的输入。这反过来驱动中的中间状态单元在AfterState层RelationEngine模块。
最后,在解决后期(图9 (c)),中间状态比目标单位在AfterState层由于吸引子与之前相关培训的连续状态转换。这是第三个行动单位ActionBetween和ActionNodes(语义网络)层。这是正确的答案。这个模型说明了约束满足找到桥接状态可以作为更复杂的计划的一个组成部分。
6.2。讨论
子目标在这种背景下被设想为一个版本的“冷”的目标,定义为目的论表示期望状态的世界,就其本身而言,不包括主要的奖励。因此,在某种意义上,冷目标(子目标)是“只是达到目的的一种手段。”
在考虑子目标的作用,可以发现一些重要的问题。首先,正如已经指出的那样,一个基本问题涉及大脑机制如何创建有用的子目标,如果他们不提供外部。此外,第二个重要的问题是是否有一个或多个生物合理的奖励机制实现子目标。这反过来有两个子组件:(1)首先学习如何实现子目标(例如,如何支持早上煮咖啡的研磨咖啡)和(2)学习如何/何时利用熟悉服务实现主目标的子目标(例如,学习,有咖啡粉是一个前兆享受好的新鲜杯热咖啡给自己和/或从你的另一半)获得荣誉。有趣的是,这两个相互依存学习分类展示。通常,学习如何实现子目标必须先于学习利用他们,尽管一个有趣的替代有时会发生:如果一个学习者可以利用其假设的想象力。例如,如果一个学习者可以做思想实验:“如果我有咖啡粉,冷水,和一个咖啡机工作,然后我可以热咖啡。“反复思考这个问题可以转让(想象)值的热咖啡咖啡粉,等等,然后可以作为次级强化激励的学习工具子目标。这种戏剧性的行为不是在任何现实的认知模型的建模,我们都知道;实现,这将是困难,但理解人类智慧的重要一步。
第三个关键问题是如何使用的子目标实际上是系统(机械意义上)的服务追求主的目标。这里,简单的想法,作为一种假设在我们的工作,积极维护子目标可以偏见产生的行为实现的一种目的论的未来的“拉”的方式。最后,那么仍然需要某种形式的认知顺序控制机制组织整个过程,也就是说,每个子目标的成就。最终,在我们的思维方式,整个过程可以通过保持主目标偏向积极维护整个过程。
总之,这个模型演示了一个草稿人力高层规划的一个方面:抽象状态表示允许约束满足流程基于联想学习找到当前状态和目标状态之间的连接状态。我们假设这个过程是迭代在不同级别的抽象上制定更详细的计划,因为他们是必要的。然而,我们还没有一个模型之间的运动,包括不同级别的抽象的计划。这里介绍的其他模型代表的一些机制这一过程所需但尚未被集成到一个连贯的,更不用说完成,人力规划的模型。
解释大脑执行计划需要了解涉及的计算要求。文学更抽象的算法和计算性能规划在人工智能的研究已经深入探索问题空间的许多类型的规划(例如,71年- - - - - -73年])。符合这个提议的生物模型,算法解决约束满足人工智能规划算法的一个重要组成部分(例如,(74年,75年])。其他扩展和组合这些模型也由人工智能规划工作;基于搜索算法(例如,76年,77年)表明,测序、存储和检索状态(如模范自由和指示排序模型)为灵活的规划至关重要。以后我们解决一些这样的可能的组合和扩展。
7所示。一般讨论
这里的四个模型代表一个不完整的完全模拟人类开始战略认知测序。一个完整的模型可以解释基本的哺乳动物大脑机制如何解释人类认知的复杂性和灵活性。将地址的使用复杂的认知序列构成了“程序”解决复杂问题和人们如何推广这个新问题的能力,这些序列构造适当的策略选择部分小说任务相关的领域。一个完整的模型是一个长期的和雄心勃勃的项目,但对于理解人类认知有重要意义。
以下主要地址描述的局限性在工作和我们的计划延长这些模型对一个更完整的解释复杂的人类认知顺序。虽然学习是不可或缺的所有模型,提出示范引导这种灵活的认知系统的可行性,这些初始模型的学习仍然是领域特定:模型训练任务的类内执行从一个幼稚的状态。尽管指示模型可以概括各种看不见的if - then规则和约束满足模型推广到看不见的既定目标配对,他们都只在各自的训练任务。
在未来的工作中,我们计划扩展到更复杂的训练或脚手架更一般的网络和生态有效。而不是开始培训特定的任务从一个天真的网络结构,这样做是为了培养网络多种不同的任务,从简单到复杂的发展。PBDM模型,例如,被训练在一个相对生态但没有学习有效的方式增加的复杂性和人类一样掌握了简单的任务。与越来越多的任务训练,网络应该学会提取任务之间的共性,抽象的本质任务成不同的表征。尽管目前尚不清楚这些任务表示可能是什么样子在生物规模越细,从实验或计算模型,似乎表示为一些基本计算认知顺序存在的基石。
这样的表示必须在抽象层面上,包括了一些在任何标准的计算机编程语言,如排序、循环、存储和回忆。虽然本文提供的模型不能实现这些功能的,我们已经有了一个粗略的依据这些基本任务构建块。所有之前的“程序流”功能可以被视为条件分支的子集(例如,如果你还没有找到目标对象,使用顺序查找)。这里介绍的其他模型(计划、模范自由序列学习和决策)地址序列是如何学习和使用的重要方面,但是仅指示学习模式足以理解大脑的一种方式可以表现出这样的程序流控制一次相关的序列是后天习得的。这种行为需要扩展模型存储和使用状态信息。这个小扩展将包括工作记忆更新在潜在的操作,使操作条件对那些工作记忆表征以及感官输入。
达扬(78年)已经探索PBWM的这种行为在一个更抽象的版本。这个模型包括存储操作和依赖于存储的信息符合PBWM的作用主要是开发,了解机制进化为控制电动机的行为控制在工作记忆存储。让记忆配对依赖工作记忆状态信息也简单,和已知的基底神经节的连接显示这样一个收敛前额工作记忆和后感觉皮质之间的信息为目的的控制决策。达扬(78年)还包括一个匹配检测函数允许nonmatch标准不出现自然联想神经网络的性质,这些模型我们未来发展的一个重要考虑事项。
本文提供的模型普遍一致的在这一领域最成熟的模型,过程模型,如ACT-R [60),我们的方法的灵感。虽然我们的工作通常是兼容的,我们希望提供更多的限制这些理论通过考虑数据详细的财富方面的神经功能。
特别是,我们的神经网络学习方法还允许我们约束理论正是表示用于产生认知的序列如何学习。通过研究学习了大量的任务,我们的目标是解决这些问题的表象出现发育时间范围从一个年轻的婴儿到成人的全面发展能力。这种关注地址学会学习,这一现象都被广泛地研究过了心理学以及机器学习和机器人(79年- - - - - -81年]。在这两种情况下,学会学习转移从一组任务新的有益的信息,加快学习的新任务。在机器学习,提出了许多不同的算法来实现转移学习或学习学习,一个好的比例是基于表征转移(79年,82年];,由于高效和一般表示在之前的任务,可以学习新的任务更快或更有效地指示。
为了解决这些问题,我们将利用我们的和别人的工作学习抽象的类别从感官数据(例如,83年])。概括从之前学习有用的分类小说通过神经处理感官输入,现在相对较好理解。这样的分类归纳,结合本文提供的模型,提供了一种解释学习的学习。当战略认知顺序执行基于分类表示(例如,替代“输入”的指示学习模式为“信号停止并等待指示”),学习将推广新的感官输入,可以正确地分类。这种类型的广义匹配相似性的最近版本的ACT-R变量匹配的规则(例如,“如果这个词(字X,先前存储),按下红色按钮”)。大神经建模这一过程细节将提供更多限制什么类型的泛化和匹配可以学会,由现实的神经网络。
也许是因为这样的高级认知不可避免地涉及多个脑区之间的相互作用,计算建模和其他形式的详细的理论建设,到目前为止,没有取得什么进展。然而,巨大的积累工作旨在理解来自个人的大脑区域呈现这个复杂而重要的领域的潜在生产力目标详细的建模和计算的理论。
确认
作者感谢CCN实验室成员铜博尔德有用的评论和讨论。本文支持ONR n00014 - 10 - 1 - 0177, NIH MH079485和情报高级研究项目活动(IARPA)通过内政部(DOI)合同编号。D10PC20021。美国政府授权复制和分发再版出于政府目的尽管任何版权注释。在此包含的观点和结论是作者和不应被解释为一定代表官方政策或支持,表示或暗示,IARPA, DOI或美国政府。
引用
- a . m .欧文,“调优在大脑活动的时序动态使用功能性磁共振成像(fMRI),“认知科学趋势,1卷,不。4、123 - 125年,1997页。视图:谷歌学术搜索
- t . Shallice“特定障碍的计划,”英国伦敦皇家学会哲学学报B,卷298,不。1089年,第209 - 199页,1982年。视图:谷歌学术搜索
- l·罗伊海滩和t·r·米切尔“应急模型的选择决定策略,”管理评审的学院,3卷,不。3、439 - 449年,1978页。视图:谷歌学术搜索
- p . Slovic b Fischhoff, s·利希滕斯坦,“行为决策理论,”年度回顾的心理学卷28日,1-39,1977页。视图:谷歌学术搜索
- m . Chi和k . VanLehn”,元认知策略教学智能辅导系统:如何,以及为什么,”教育技术与社会,13卷,不。1、25 - 39页。2010。视图:谷歌学术搜索
- j . m . Unterrainer b·拉姆·r·Leonhart c·c·拉夫和Halsband,”伦敦塔:指令的影响,提示,和学习规划能力,”大脑的认知研究,17卷,不。3、675 - 683年,2003页。视图:出版商的网站|谷歌学术搜索
- 纽厄尔,“你不能打20个问题与自然并赢得:射影评论这个研讨会的论文,”视觉信息处理艾德,w . g .追逐,页283 - 308,学术出版社,纽约,纽约,美国,1973年。视图:谷歌学术搜索
- l·b·史密斯,“感知的模型分类在儿童和成人,“心理评估,卷96,不。1,第144 - 125页,1989。视图:谷歌学术搜索
- m·j·罗伯茨和e . j .牛顿“理解战略选择,”国际人类计算机研究杂志》上,54卷,不。1,第154 - 137页,2001。视图:出版商的网站|谷歌学术搜索
- j .痰迹和大肠法师外侧前额叶皮层在行政行为中的作用控制,”生理上的评论,卷88,不。1,37-57,2008页。视图:出版商的网站|谷歌学术搜索
- a . Dagher a . m .欧文h . Boecker d·j·布鲁克斯,“映射网络规划:一个相关的宠物与伦敦塔任务激活的研究,“大脑,卷122,不。10日,1973 - 1987年,1999页。视图:出版商的网站|谷歌学术搜索
- o . a van den Heuvel, h . j . Groenewegen f . Barkhof r·h·c·Lazeron r·范·戴克和d . j . Veltman”Frontostriatal系统规划的复杂性:伦敦塔的参数功能磁共振版本的任务,”科学杂志,18卷,不。2、367 - 374年,2003页。视图:出版商的网站|谷歌学术搜索
- a . Dagher a . m .欧文h . Boecker d·j·布鲁克斯,“纹状体和海马的作用在规划:宠物激活研究帕金森病,”大脑,卷124,不。5,1020 - 1032年,2001页。视图:谷歌学术搜索
- k .日本岛m . Isoda h . Mushiake, j .痰迹”分类行为序列的前额叶皮层,“自然,卷445,不。7125年,第318 - 315页,2007年。视图:出版商的网站|谷歌学术搜索
- 宗像r . c . O ' reilly和y,计算在认知神经科学探索:理解大脑通过模拟大脑剑桥,麻省理工学院出版社,质量,美国,2000年。
- r . c . O ' reilly t.e.朦胧,s . a群”leabra认知架构:如何玩20原则与自然和赢了!,“在认知科学的牛津手册,美国Chipman, Ed,牛津大学出版社,出版社。视图:谷歌学术搜索
- 答:纽威尔和h·a·西蒙人类解决问题的能力美国新泽西,Prentice Hall,恩格尔伍德悬崖,1972。
- j·r·安德森,思想的规则美国新泽西,劳伦斯Erlbaum Associates山谷,1993。
- r·莫里斯和g·沃德,认知心理学的计划、心理出版社,2005年。
- c . Lebiere j·r·安德森,d .十分“多任务和认知负载的act-r模型简化的空中交通管制任务,”学报第十届会议上计算机生成兵力和行为表现,2001年。视图:谷歌学术搜索
- t . Suddendorf和m . c . Corballis”行为的证据精神时间旅行在其他动物身上,”大脑研究行为,卷215,不。2、292 - 298年,2010页。视图:出版商的网站|谷歌学术搜索
- s . j . Shettleworth“聪明动物比较心理学和令人扫兴的人解释,“认知科学趋势,14卷,不。11日,第481 - 477页,2010年。视图:出版商的网站|谷歌学术搜索
- d . Klahr p·兰利,r . Neches Eds。生产系统模型的学习和发展剑桥,麻省理工学院出版社,质量,美国,1987年。
- d . j . Jilk c . Lebiere r . c . O ' reilly和j·r·安德森,”萨尔:显式多元认知架构,”实验和理论人工智能杂志》上,20卷,不。3、197 - 218年,2008页。视图:出版商的网站|谷歌学术搜索
- j·r·安德森,d .十分m·d·伯恩s .道格拉斯c . Lebiere y .秦,“一个集成的理论思想,”心理评估,卷111,不。4、1036 - 1060年,2004页。视图:出版商的网站|谷歌学术搜索
- j·r·安德森,人类思维如何发生在物理宇宙吗?牛津大学出版社,2007年纽约,纽约,美国。
- 阴和b h·h·j·诺尔顿,“习惯形成的基底神经节的作用,“神经系统科学自然评论,7卷,不。6,464 - 476年,2006页。视图:出版商的网站|谷歌学术搜索
- m·j·弗兰克、b . Loughry和r . c . O ' reilly“额叶皮层和基底神经节之间的相互作用在工作记忆:一个计算模型,”认知、情感和行为神经科学,1卷,不。2、137 - 160年,2001页。视图:谷歌学术搜索
- m·j·弗兰克·l·c·Seeberger, r . c . O ' reilly“胡萝卜或大棒:认知强化学习在帕金森症,”科学,卷306,不。5703年,第1943 - 1940页,2004年。视图:出版商的网站|谷歌学术搜索
- t . e .朦胧,m·j·弗兰克,r . c . O ' reilly”驱逐矮人:使工作记忆的工作。”神经科学,卷139,不。1,第118 - 105页,2006。视图:出版商的网站|谷歌学术搜索
- t.e.朦胧,m·j·弗兰克,r . c . O ' reilly”向一位高管没有矮人:前额叶皮层、基底神经节的计算模型系统,”英国皇家学会哲学学报B,卷362,不。1485年,第1613 - 1601页,2007年。视图:出版商的网站|谷歌学术搜索
- r . c . O ' reilly和m·j·弗兰克”工作记忆:工作学习的计算模型在前额叶皮层和基底神经节,”神经计算,18卷,不。2、283 - 328年,2006页。视图:出版商的网站|谷歌学术搜索
- k .酒井法子”任务集和前额叶皮层,“年度回顾神经科学31卷,第245 - 219页,2008年。视图:出版商的网站|谷歌学术搜索
- g·e·亚历山大·m·r·DeLong和p . l .击球”平行的组织功能隔离电路连接基底神经节和皮层,“年度回顾神经科学9卷,第381 - 357页,1986年。视图:谷歌学术搜索
- m·j·弗兰克“动态多巴胺在基底神经节调制:neurocomputational账户nonmedicated接受药物治疗和认知障碍的帕金森症,”认知神经科学杂志》,17卷,不。1,51 - 72,2005页。视图:出版商的网站|谷歌学术搜索
- r . c . O ' reilly m·j·弗兰克·t·e·朦胧,和b . Watz”PVLV:巴甫洛夫的学习算法的主要价值和学习价值,”行为神经科学,卷121,不。1,31-49,2007页。视图:出版商的网站|谷歌学术搜索
- t . e .朦胧,m·j·弗兰克,r . c . O ' reilly”阶段的多巴胺反应学习获得的神经机制,“神经科学和生物行为的评论,34卷,不。5,701 - 720年,2010页。视图:出版商的网站|谷歌学术搜索
- j . m .柱身和a . a . Uyeda”边缘神经元的反应性欲望和厌恶信号的猴子,”脑电图与临床神经生理学,30卷,不。4、281 - 293年,1971页。视图:谷歌学术搜索
- e·k·米勒,“前额叶皮层和认知控制,”神经系统科学自然评论,1卷,不。1,59 - 65年,2000页。视图:谷歌学术搜索
- 中村k, t .小野h . Nishijo, m .福田“下丘脑神经元参与集成的奖励,厌恶和提示信号,”神经生理学杂志卷,56号1,第79 - 63页,1986。视图:谷歌学术搜索
- s . a . Deadwyler崎,j .欢呼和r·e·芬”奖励,内存和药物滥用:功能性神经电路在伏隔核,“神经科学和生物行为的评论,27卷,不。8,703 - 711年,2004页。视图:出版商的网站|谷歌学术搜索
- •舒尔茨(george w . bush)、p·达扬和p·r·蒙塔古“神经基质预测和奖励,”科学,卷275,不。5306年,第1599 - 1593页,1997年。视图:出版商的网站|谷歌学术搜索
- r·s·萨顿和a·g·Barto“对巴甫洛夫的强化模型,”学习和计算神经科学,j·w·摩尔和m·加布里埃尔。,pp. 497–537, MIT Press, Cambridge, Mass, USA, 1990.视图:谷歌学术搜索
- j·p·奥多尔蒂·达扬k . Friston h .奎奇立r·j·多兰,“时间差异模型和犒赏学习人类的大脑,”神经元,38卷,不。2、329 - 337年,2003页。视图:出版商的网站|谷歌学术搜索
- r·s·萨顿和a·g·Barto强化学习:介绍美国剑桥,麻省理工学院出版社,质量,1998年。
- r·斯图尔特·萨顿颞信贷分配强化学习(博士学位。论文)马萨诸塞大学阿默斯特,阿默斯特,质量,美国,1984年。
- p·达扬和b·w·Balleine”奖励,激励,强化学习,神经元,36卷,不。2、285 - 298年,2002页。视图:出版商的网站|谷歌学术搜索
- r . c . O ' reilly, s . a群和w·m·泡利“认知控制的计算模型,目前在神经生物学的观点,20卷,不。2、257 - 261年,2010页。视图:谷歌学术搜索
- c·h·查塔姆,s . a群a . m .黑雁et al .,“从网络行政执行控制:计算模型的n - back任务后,“认知神经科学杂志》,23卷,不。11日,第3619 - 3598页,2011年。视图:出版商的网站|谷歌学术搜索
- d . Joel y和合,大肠Ruppin”Actor-critic基底神经节的模型:新的解剖和计算的角度,“神经网络,15卷,不。4 - 6,535 - 547年,2002页。视图:出版商的网站|谷歌学术搜索
- W.-T。傅和j·r·安德森”解决信贷分配问题:显式和隐式学习的行动序列概率结果,“心理学研究,卷72,不。3、321 - 330年,2008页。视图:出版商的网站|谷歌学术搜索
- j·d·沃利斯“决策、眶额皮层及其贡献”年度回顾神经科学卷,30 31-56,2007页。视图:出版商的网站|谷歌学术搜索
- m·p·努南n .柯灵m·e·沃尔顿和m·f·s·拉什沃斯”重新评估眼窝前额皮质的作用在奖励和强化,“欧洲神经科学杂志》上,35卷,不。7,997 - 1010年,2012页。视图:出版商的网站|谷歌学术搜索
- p·l·克罗克森·m·e·沃尔顿j . x O ' reilly t . e . j . behren m·f·s·拉什沃斯,“基于努力的成本-收益估值和人类的大脑”《神经科学杂志》上卷,29号14日,第4541 - 4531页,2009年。视图:出版商的网站|谷歌学术搜索
- s . w . Kennerley和m·e·沃尔顿”决策在额叶皮层和奖励:从神经生理学和神经心理学研究补充证据,”行为神经科学,卷125,不。3、297 - 317年,2011页。视图:出版商的网站|谷歌学术搜索
- m·j·弗兰克和e . d .老人,”解剖学的决定:striato-orbitofrontal交互在强化学习中,决策、和逆转,”心理评估,卷113,不。2、300 - 326年,2006页。视图:出版商的网站|谷歌学术搜索
- j·m·海曼l . Ma e . Balaguer-Ballester d . Durstewitz和j·k·希孟斯”上下文编码集合体的内侧前额叶皮质神经元,”美国国家科学院院刊》上的美利坚合众国,卷109,不。13日,5086 - 5091年,2012页。视图:出版商的网站|谷歌学术搜索
- j。j, j·l·琼斯,r·m·怀特曼和r . m . Carelli”阶段的伏隔核多巴胺释放编码工作,delay-related成本,”生物精神病学,卷68,不。3、306 - 309年,2010页。视图:出版商的网站|谷歌学术搜索
- j .邓肯·m·施拉姆·r·汤普森,Dumontheil,“任务规则、工作记忆和流动智力,“心理环境通报与评论,19卷,不。5,864 - 8870年,2012页。视图:谷歌学术搜索
- j·r·安德森,认知体系结构、哈佛大学出版社、剑桥、质量,美国,1983年。
- 波斯纳p . m .费茨和麻省理工学院,人类的表现贝尔蒙特,质量,美国,1967年。
- p·雷德格雷夫和k·格尼,”短延迟多巴胺信号:一个角色在小说发现行动?”神经系统科学自然评论,7卷,不。12日,第975 - 967页,2006年。视图:出版商的网站|谷歌学术搜索
- g·费尔南德斯h . Weyerts m . Schrader-Bolsche et al .,“成功的语言编码成情景记忆从事后海马:参数化分析功能性磁共振成像研究中,“《神经科学杂志》上,18卷,不。5,1841 - 1847年,1998页。视图:谷歌学术搜索
- d·库玛j。j位于d·斯·e·a·马奎尔,“跟踪概念知识的出现在人类的决策,”神经元,卷63,不。6,889 - 901年,2009页。视图:出版商的网站|谷歌学术搜索
- d . c .诺艾尔和g·w·科特雷尔,”指令后,页面的联结主义模型”《17认知科学协会的年度会议j·d·摩尔和j·f·雷曼,Eds。,pp. 369–374, Lawrence Erlbaum Associates, Mahwah, NJ, USA, January 1995.视图:谷歌学术搜索
- g . Biele j . Rieskamp, r·冈萨雷斯”计算模型组合的建议和个人学习,”认知科学,33卷,不。2、206 - 242年,2009页。视图:出版商的网站|谷歌学术搜索
- 比比娃娃,w·j·雅各布斯,a·g·Sanfey和m·j·弗兰克,“教学控制的强化学习:行为和neurocomputational调查,“大脑研究卷,1299年,第94 - 74页,2009年。视图:出版商的网站|谷歌学术搜索
- m . r . j . Li Delgado, e·a·菲尔普斯”指示如何调节神经系统奖励的学习知识,”美国国家科学院院刊》上的美利坚合众国,卷108,不。1,则高达55 - 2011页。视图:出版商的网站|谷歌学术搜索
- m·m·沃尔什和j·r·安德森”调制的消极反馈相关指令和经验,“美国国家科学院院刊》上的美利坚合众国,卷108,不。47岁,19048 - 19053年,2011页。视图:出版商的网站|谷歌学术搜索
- t·t·罗杰斯和j·l·麦克勒兰德语义认知:并行分布式处理的方法美国剑桥,麻省理工学院出版社,质量,2004年。
- 罗素和p . Norvig人工智能:一种现代方法,普伦蒂斯霍尔出版社,1995。
- f·巴克斯,“航00计划竞争:第五届国际会议上人工智能规划和调度系统,”人工智能杂志,22卷,不。3,47-56,2001页。视图:谷歌学术搜索
- e . d . Sacerdoti”规划层次的抽象空间,”人工智能,5卷,不。2、115 - 135年,1974页。视图:谷歌学术搜索
- m b和s . Kambhampati”计划为约束满意度:解决编译成CSP的计划图,“人工智能,卷132,不。2、151 - 182年,2001页。视图:出版商的网站|谷歌学术搜索
- ·格雷戈里·d·长,m·福克斯”与可组合亚态图,基于约束的规划”学报》19世纪欧洲人工智能会议(ECAI 10)h·科埃略,r、m·里奇,Eds。,IOS出版社,2010年。视图:谷歌学术搜索
- a . l .布卢姆和m·l·福斯特“快速规划通过规划图表分析,“人工智能,卷90,不。1 - 2、281 - 300年,1997页。视图:谷歌学术搜索
- e·芬克和m·m·维罗索”形式化神童规划算法,“技术。众议员1-1-1996,1996。视图:谷歌学术搜索
- p .达扬“双线性、规则和前额叶皮层,”计算神经科学前沿,1卷,不。1、1 - 14,2007页。视图:谷歌学术搜索
- 杜伦和l·普拉特,“学会学习:介绍和概述”学会学习杜伦和l·普拉特,Eds。,Springer, New York, NY, USA, 1998.视图:谷歌学术搜索
- j·巴克斯特,“学会学习贝叶斯/信息理论模型,通过多个任务抽样,”机器学习,28卷,不。1,7-39,1997页。视图:谷歌学术搜索
- g . Konidaris和a . Barto”构建便携式选项:技能tran科幻在强化学习,”20国际联合会议上人工智能程序m·m·维罗索,艾德,895 - 900年,2006页。视图:谷歌学术搜索
- k·弗格森和s·马哈Proto-transfer学习使用光谱方法在马尔可夫决策过程,”程序结构知识转移研讨会的机器学习(ICML 06年),2006年。视图:谷歌学术搜索
- r . c . O ' reilly d . Wyatte s群b·明格斯和d . j . Jilk“反复在目标识别处理,”心理学领域第124条,卷。4日,2013年。视图:出版商的网站|谷歌学术搜索
版权
版权©2013塞斯a群等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。