兴奋和抑制性神经回路平行通路构成半球阶段的神经反应

文摘

阶段的活动在腹侧被盖区多巴胺(DA)神经元或黑质致密部(VTA / SNc)已建议编码奖励预测误差信号进行强化学习。最近的研究表明,外侧缰(LHb)神经元表现出类似的反应,但对于nonrewarding或惩罚的信号。因此,LHb神经元的瞬态信号的作用是相反的,DA神经元和其他的大脑核等边境地区的内部段(加仑桶)和吻侧苍白球内侧被盖(RMTg)。先前的理论模型研究神经回路的奖励机制基础阶段的DA神经元的活动,但更大的神经电路模型的可行性来解释观察到的半球阶段活动等其他大脑核LHb尚未显示。在这里,我们提出一个大规模的神经回路模型,表明平行兴奋和抑制性通路基础学习跨多个脑区神经反应。具体地说,该模型可以考虑相位的神经活动观察加仑桶,LHb RMTg, VTA / SNc。基于灵敏度分析,发现模型是健壮的对整个神经连接强度的变化。模型还预测,striosomes阶段的活动中发挥关键作用的区域/ SNc和LHb神经元编码之前和预期回报。综上所述,我们的模型识别并行神经电路通路的重要作用在跨多个脑区占阶段活动奖励和惩罚处理。

1。介绍

适应不确定性的能力是至关重要的生存和福祉的关键。调查潜在的神经机制相关,许多实验和计算研究使用随机调度的奖励进行了1- - - - - -9]。实验研究已经证明,在腹侧被盖区多巴胺(DA)神经元或黑质致密部(VTA / SNc)和神经元外侧缰(LHb)扮演重要角色在编码奖励和惩罚的不确定性5,8]。

如示意图如图所示1(上面一行),因为一些意想不到的奖励(一个无条件刺激我们的存在,比如食物),DA (LHb)神经元表现出相位的峰值(dip)在我们的存在5,8]。经过几次试验的学习在存在提示/刺激,调节。(预期)条件性线索/刺激(CS)变得与奖赏有关,和DA神经元(LHb)展览活动阶段的峰值(dip)的发病CS(图1(第二行)5,8]。现在注意,DA和LHb神经元不响应无条件刺激(美国)与奖励的结果(5,8]。一个可以把这个看成postreinforcement学习:代理已经学会完全关联线索/刺激CS与美国(例如,一个听觉的语气与食物),而后者不再需要进一步的学习。然而,如果有遗漏的奖励(例如,缺乏食物),还有一个额外的下降(峰值)活动DA神经元(LHb)(图1,第三行)5,8]。

而不是意想不到的奖励结果我们,如果我们现在把它换成一个意想不到的nonrewarding或厌恶刺激我们(例如,没有食物或轻微的电击),已经观察到相位的下降(峰值)DA神经元(LHb)发生在初始阶段的强化学习5,8)(图1第四行)。学习后,该信息转移到CS, DA (LHb)神经元表现出相位的下降(峰值)活动在CS的演讲而呆在基线活动水平在我们(图1第五行)。当突然意外遗漏的或者当我们成为奖励,然后有一个峰值(dip) DA (LHb)神经元的活动(8,10,11)(图1底下一行)。总之,DA和LHb神经元信号的相位的活动奖励和惩罚的不确定性。这种信号也反映在其他大脑区域如苍白球的边境地区内部段(加仑桶),内部的苍白球(GPi),和吻侧内侧被盖(RMTg) [2,3]。然而,还不清楚这些信息传播在一个更大的神经回路。

理解底层的计算,先前的理论和计算的研究应用时间差异学习(8,12- - - - - -15)和神经回路建模来理解DA神经元的阶段的活动(16- - - - - -18)基础上,DA神经元的阶段活动作为一种奖励预测误差信号(8]。特别是,在模型中通过布朗et al。16),有平行的途径:一种途径从皮层通过striosome VTA / SNc和其他途径从大脑皮层到腹侧纹状体(VS) pedunculopontine核(PPTN)和VTA / SNc。这两个通路合作控制DA神经元的活动(图2)。然而,LHb神经元的阶段活动尚未考虑,特别是考虑到LHb拥有大量预测DA神经元在腹侧被盖区/ SNc [5]。

图2

电路模型。橙色箭头表示兴奋性途径,蓝色圆圈表示抑制通路,hemidisks表示突触学习发生。黑色虚线表示多巴胺能的信号。证据(21]表明,腹侧纹状体(VS)激发PPTN和腹侧苍白球(VP)。Striosome神经元GPi神经元反过来项目加仑桶。多巴胺(DA)由皮层神经元兴奋输入()编码条件刺激和外侧下丘脑输入通过路径VS-VP-GPb-LHb-RMTg-VTA /编码非条件刺激SNc和路径VS-PPTN-VTA / SNc路径。DA神经元抑制通过striosome-VTA / SNc的路径。注意,striosome包含一个自适应谱时间机制和可以学习产生滞后,自适应时间信号(16]。LHb神经元兴奋不已通过路径striosome-GPi-GPb-LHb。LHb神经元抑制和通过路径VS-VP-GPb-LHb。

在这项工作中,我们提出一个大规模的神经电路模型通过扩展布朗et al。(16)模式调查阶段不仅DA和LHb神经元的活动,也是网络的扩展部分如加仑桶,GPi、RMTg。除了神经电路通路布朗et al。16),控制信号(见上图),我们的模型还包括通路striosome和VS LHb还有一个途径从LHb腹侧被盖区/ SNc通过RMTg。这些额外的途径是必要的观察阶段的活动占LHb神经元(图2)。进一步,途径从LHb VTA / SNc通过RMTg提供了DA的抑制神经活动时期望的奖励是省略还是有一种厌恶的结果。这interareal连接是受制于现有知识从生理研究证据(见下文)。

基于仿真结果,我们的模型可以解释各种实验的观察阶段激活奖励或nonrewarding CS,一起有或没有回报的结果。具体地说,该模型可以占VTA的转变/ SNc和LHb神经元响应从结果到CS,同意实验。此外,该模型还可以占加仑桶的阶段的活动和RMTg神经元,其反应类似于LHb神经元。模型揭示的机制VTA / SNc和LHb阶段活动在神经回路层面,平行的兴奋和抑制性通路的重要角色的学习反应;即(i) VS-PPTN-VTA / SNc通路兴奋哒,虽然striosome-VTA / SNc通路抑制达;(2)VS-VP-GPb-LHb通路抑制LHb, striosome-GPi-GPb-LHb通路兴奋LHb;和(3)LHb-RMTg-VTA / SNc通路放大VTA / SNc的阶段的活动。模型也相当有弹性整体区际关系的变化。最后,我们的模型预测,striosome是很重要的,因为它可能还记得之前的奖励和提供的时机比较信号与目前的奖励。

2。材料和方法

2.1。模型架构

我们建议的神经回路模型示意图如图2,这是布朗提出的模型的一个扩展版本et al。16]。即,我们包括加仑桶、LHb RMTg神经数量到模型基于最近的实验结果(2,3,19,20.]。我们的模型的每个部分的细节描述如下。

2.1.1。通过RMTg LHb抑制SNC /区域

大多数神经元LHb glutamatergic [22),但实验表明,LHb抑制DA神经元。首先,在活的有机体内录音证明大多数LHb神经元兴奋通过nonreward-predicting提示,抑制reward-predicting提示当恒河猴进行视觉引导扫视任务(5]。LHb神经元的阶段活动相反,DA神经元的响应结果价;LHb (DA)神经元兴奋(抑制)nonreward /处罚结果/提示和抑制(兴奋)奖励结果/提示[5,8]。其次,LHb神经元响应信号比DA神经元早在未获得报偿的试验5]。第三,刺激LHb神经元将抑制DA神经元(21]。LHb在DA神经元的抑制可能出现的直接从LHb投射神经元在腹侧被盖区/ SNc[抑制性中间神经元23)或间接地通过一些抑制核。事实上,实验也揭示了一条从LHb DA神经元通过RMTg和神经元RMTg似乎厌恶刺激编码(19,20.]。同时,RMTg传达负面奖励预测错误的信号LHb神经元积极奖励预测错误DA神经元的信号(3]。为简单起见,我们只包括从LHb的间接路径通过gaba ergic RMTg DA神经元。

2.1.2。加仑桶兴奋LHb

低强度电刺激在加仑桶可以唤起一个短延迟LHb神经元兴奋性反应(21]。加仑桶神经元的激发LHb神经元可以由乙酰胆碱或谷氨酸(2),或通过intra-LHb去抑制中间神经元在GP(考虑到微型电路技术比较复杂2,24]。此外,glutamatergic预测从老鼠的LHb entopeduncular或灵长类动物的神经元加仑桶曾被观察到在非人灵长类动物实验25,26]。简而言之,有兴奋性预测从加仑桶LHb形成一条从加仑桶VTA / SNC通过LHb和RMTg [19]。

2.1.3。推测输入从GPi加仑桶

已经证明,加仑桶从纹状体神经元接收输入,大概从striosome [27]。洪教授和Hikosaka [21]已经观察到典型的神经元的外部和内部的苍白球(GPe和GPi)是第一个被纹状体神经元刺激但加仑桶通常(但不总是)纹状体刺激兴奋或抑制。他们建议信号加仑桶应该通过抑制轴突来介导络脉在纹状体(28]或GPe [24]。基于这些观察结果,我们推测striosome项目通过GPi LHb。

2.1.4。副总裁输入加仑桶

在布朗et al。16)模式,VP神经元被回报的期望。然而,最近的实验观察,大多数的VP神经元兴奋的期待大奖励(21]。因此,VP-LHb连接可能抑制(21]。因此,我们假设犒赏信号被传输到LHb通过从加仑桶和抑制性兴奋性连接关系副总裁。

2.1.5节讨论。从VS VP和PPTN兴奋性输入

尽管对神经元通常确认为gaba ergic和抑制下游神经元,洪教授和Hikosaka [21]表明,纹状体(gaba ergic)神经元激发PPTN和VP神经元。对神经元的激发可以由物质(29日,30.]。因此,我们假设VS直接激发PPTN和副总裁。

2.2。动力学方程,投入产出函数和数值方法

我们假设每个脑区神经元同质性,这样每个神经人口的射速活动在大脑区域或核可以动态地由常微分方程描述通常与衰减项加上一项输入输出功能:燃烧率类型模型(威尔逊和科恩,1976;看数学和方程)。具体来说,神经人口发射率(输出)规范化,从0到1。输入包括常数输入生成背景自发基线发射活动对于每个神经人口(和大脑区域)和突触耦合强度的形式来提供不同的神经种群之间的相互作用(见数学和方程)。的一些耦合优势(即受到改变。、塑料)依赖的奖励(见图2)。进一步建模细节可以从原始模型获得的棕色et al。16]。总结了模型变量表1。参数的调整来适应观察到神经元的反应。参数值用于模拟给出了表2。在所有模拟,数值积分的常微分方程与四阶龙格-库塔法进行31日使用自定义Python代码。码可按照客户要求定制。


	腹侧纹状体神经元的激活水平
	的th CS输入信号
	美国输入信号
	CS-to-VS突触权重
	钙信号
	比基本多巴胺破裂信号
	Below-baseline多巴胺浸渍信号
	Striosomal metabotropic响应
	Striosomal活动累积率参数
	Striosomal钙浓度
	CS input-to-striosomal突触权重
	物质的水平激动人心的PPTN
	GABA水平抑制PPTN
	物质的水平激动人心的副总裁
	GABA水平抑制副总裁
	PPTN神经元的激活水平
	VP神经元的激活水平
	物质的净效应和GABA PPTN
	物质的净效应和GABA副总裁
	加仑桶神经元的激活水平
	LHb神经元的激活水平
	RMTg神经元的激活水平
	DA神经元的激活水平


象征	描述	价值

背景_集成电路	基线的CS输入	0.30
背景_红外	基线的输入	0.20
	指数衰减时间常数的CS /我们输入	20.0
	对神经元的时间常数	36.0
	体重的变化的时间常数	6
	CS-to-VS重量学习速率	13.0
	最大CS-to-VS突触重量	4.00
	CS-to-VS重量衰变率	13.00
	基线DA神经元的激活水平	0.194
	相位的多巴胺信号阈值	0.001
	Striosomal频谱间距	16.5
	Striosomal频谱偏移量	30.9
	钙激活率	3.00
	钙离子浓度最大	5.00
	钙飙升阈值	0.37
	钙被动衰减率	12.00
	钙的回收率	0.108
	活动依赖性钙失活率	48.0
	钙失活阈值	0.18
	Striosomal学习速率	500.00
	Striosomal输出阈值	0.27
	最大的CS input-to-striosomal突触权重	20.0
	CS input-to-striosomal突触权重衰减率	40.0
	的变化的时间常数	36.00
	的变化的时间常数	6.00
	VS-to-pre-PPTN突触权重	1.00
	的变化的时间常数	36.00
	的变化的时间常数	6.00
	VS-to-pre-VP突触权重	1.00
	背景PPTN的输入	0.10
	VS-to-PPTN输入重量	3.00
	PPTN神经元响应时间常数	36.00
	背景VP的输入	0.10
	VS-to-VP输入重量	3.00
	VP神经元响应时间常数	36.00
	兴奋和抑制性信号阈值的差异影响PPTN之前	0.006
	兴奋和抑制性信号阈值的差异影响以前的副总裁	0.006
	加仑桶神经元响应时间常数	36.00
	背景加仑桶的输入	0.60
	VP-to-GPb突触权重	1.00
	Striosome-GPb突触权重	0.35
	LHb神经元响应时间常数	36.00
	背景LHb的输入	0.10
	GPb-to-LHb突触权重	5.00
	加仑桶输出信号阈值	0.45
	RMTg神经元响应时间常数	36.00
	背景RMTg的输入	0.10
	LHb-to-RMTg突触权重	2.00
	LHb输出信号阈值	0.25
	DA神经元响应时间常数	36.00
	后台输入	0.40
	RMTg-to-VTA / SNc突触的重量	0.80
	PPTN-to VTA / SNc突触的重量	1.00
	PPTN输出信号阈值	0.10
	最大的DA神经元的超极化	0.10

2.3。仿真协议

我们在一个块(图模拟200次试验3(一个))。每个试验持续10秒模拟(数字3 (b)- - - - - -3 (e))。在每个试验中,我们使用不同的输入来模拟不同的条件如下。首先,我们第一次的99试验模拟与奖励CS和奖励我们:学习试验。网络可以将奖励CS与奖励我们。第100届试验是一个“测试”试验和网络接收奖励CS和nonrewarding我们。然后我们模拟意想不到的奖励条件,也就是说,nonrewarding CS和奖励我们。从第101位试验的199试验、网络接收nonrewarding CS和nonrewarding我们。网络伙伴nonrewarding CS nonrewarding我们。第200届审判,网络接收nonrewarding CS但回报我们。参见图3(一个)的总结学习的协议。

(一)

(b)

(c)

(d)

(e)

图3

模型仿真协议。(一)模拟不同条件下应用不同的输入。我们模拟一个共有200个试验。在第一个99次试验,我们提出奖励CS输入和奖励我们输入模拟学习过程,将奖励CS与奖励我们。在第100审判,我们现在奖励CS输入但nonreward我们输入;因此,预测一个奖励,但没有收到。在接下来的99次试验,我们现在nonreward CS输入和nonreward输入模拟学习过程,将美国nonreward与nonreward CS。在第200审判,我们提出nonreward CS输入但奖励我们,模拟情况的预测nonreward但接收它。(b) ~ (e)不同的输入。黄色虚线表明CS出现的时间(2.0),和绿色虚线表示的时间奖励是否发布(3.4秒)。 (b) Reward CS input. (c) Nonreward CS input. (d) Reward US input. (e) Nonreward US input.

我们实现不同输入从皮质VS和striosome基于四个条件:奖励CS, nonreward CS,奖励我们,nonreward我们。奖励/ nonrewarding CS和我们在图所示3及其数学表达式给出的数学方程。注意,输入从大脑皮层总是大于(燃烧率活动不能消极的价值)。

这样的实现的动机是基于一些观察到的证据。首先,在眼窝前额皮质神经元火最强烈地暗示预测大型奖励(小处罚)和最强烈暗示预测大点球(小奖励)相对于中性条件(小奖励和小处罚)32,33]。第二,皮质神经元,包括额叶皮质,众所周知,表现出灵活性和混合响应特性;也就是说,不同的皮质神经元可以有相同的刺激不同的反应34,35]。例如,一个完全相同的基调可能导致不同的反应分别从不同的皮质神经元又会传输信息相同的神经“下游”(例如,在中脑)。第三,暗示的预期值信号存储在大脑皮层但不是在基底神经节或LHb [36,37]。DA神经元的阶段的活动可以导致大脑皮层可塑性和改变提示信号的表示38]。事实上,活动配置文件数据3 (d)和3 (e)类似于DA的释放或nonrelease(伏安法测量,例如,(39])。此外,持续的或持续的活动图3 (b)可以代表(工作)记忆的线索,一个普遍观察到的现象在额叶皮层神经元36,37,40),而抑制活动图3 (c)可以被认为是一些抑制作用的反应在图3 (b)。

3所示。结果

3.1。从我们CS转变阶段的反应

许多实验和理论研究已经报道了DA神经元的响应从美国转移到CS (41- - - - - -43]。正如前面所讨论的,在学习的初始阶段,DA神经元phasically激活从基线的演示一个出乎意料的奖励。一篇暗示与奖励的结果通过一个学习的过程。学习后,相位的活动奖励结果随后减少基线,而相位的活动现在似乎在提示发病(图1)。

我们的模拟可以复制这一趋势(图4)。当网络接收到奖励CS和奖励我们(在99年第一个试验),DA神经元表现出相位的活动在美国在第一次试验(图4(一))。在第二和随后的试验,峰值出现在CS发病和活动在我们的上一个峰值出现消失(数字4 (b)和4 (c))。

(一)

(b)

(c)

(d)

(e)

(f)

图4

DA的转变,从我们CS LHb神经元的反应。一开始我们的模拟,该模型电路接收奖励CS和奖励我们。FR:神经放电频率的活动。(a)的多巴胺神经元响应试验1:DA神经元表现出相位的高峰来临之前学习和不响应CS。(b) DA神经元的响应试验2:DA神经元的活动显示了峰值在CS和峰值。响应我们的反应弱于1日审判。DA神经元的反应在3日第98试验和(b)类似,但峰值在试验中我们也会变得更弱。(c) DA神经元的反应在第99审判:DA神经元的活动显示了峰值在CS,但基线后对我们学习。(d) LHb神经元的响应试验1:LHb神经元表现出相位的下降对我们之前学习和不响应CS。(e) LHb神经元的响应试验2:LHb神经元的活动显示了浸在CS和倾斜。 The response upon US is weaker than the response in the 1st trial. The responses of DA neurons in the 3rd to 98th trials are similar to (e), but the dip upon US gets weaker trial by trial. (f) Response of LHb neurons in the 99th trial: the activity of LHb neurons shows a dip upon CS, but baseline responding to US after learning. (a), (b), and (c) show the shift of DA neural response from US to CS after learning, while (d), (e), and (f) show the shift of LHb neural response. The yellow dashed line indicates the time at which CS appears and the green dashed line indicates the time at which rewards are released or not.

并行通路在我们的模型可以解释神经反应我们CS的转变。在学习的开始阶段,CS-to-VS突触权重和CS input-to-striosomal突触权重很小或接近零。因此,striosome的活动是维持在基线水平的活动和有一个发病高峰来临。VS的高峰活动然后传播到LHb VS-VP-GPb-LHb通路,从而导致LHb活动的下降。与此同时,一个阶段的输入通过VS-VP-GPb-LHb-RMTg-VTA DA神经元/ SNc途径和VS-PPTN-VTA / SNc途径导致相位的DA神经元的活动奖励我们。DA神经元的阶段的活动奖励我们反过来增强了积极的强化学习信号N⁺(见(7)导致更强的突触强度的传入输入VS和striosome皮层:增加的突触和将增强CS信号通路从VS通过PPTN DA (VS-PPTN-VTA / SNc)和副总裁(VS-VP-GPb-LHb-RMTg-VTA / SNc),途径从striosome DA (striosome-VTA / SNc),并通过加仑桶通路从striosome DA (striosome-GPi-GPb-LHb-RMTg-VTA / SNc)。

模型有一个自适应的striosome时间谱,编码时间和奖励的数量与CS (16,44,45](见(10)- (14))。因此,通过VS-PPTN-VTA / SNc通路,奖励CS能触发相位的DA神经元的活动(数据4(一)- - - - - -4 (c)),而nonrewarding CS能引发蘸活动(数据5 (c)- - - - - -5 (d))。我们奖励的信号通过striosome抑制DA神经元的时候奖励我们预计将出现,但奖励的激励我们通过VS VTA / SNc通过PPTN取消CS的抑制通路,导致基线DA神经元的活动奖励我们(数据4 (c)和5(一个))。相反,nonrewarding我们不能触发足够激发取消造成的抑制CS在DA神经元,导致浸在活动nonrewarding我们开始(图5 (b))。

(一)

(b)

(c)

(d)

(e)

(f)

图5

收购了DA神经元的响应。(一)第99届试验:从1到99的试验,模型电路接收奖励CS和奖励我们。学习后,结果表明,DA神经元表现出相位的峰值在奖励CS和基线,以应对奖励的结果。(b)第100届试验:模型电路接收奖励CS和nonrewarding我们。结果表明,DA神经元展览阶段当奖励CS出现峰值,展览阶段下降时预计的奖励。(c) 199试验:从第101到第199次试验,模型电路接收nonrewarding CS和nonrewarding我们。结果表明,学习后,DA神经元表现出相位的浸在nonrewarding CS和基线当没有奖励释放试验。(d)第200届试验:模型电路接收nonrewarding CS和奖励我们。结果表明,DA神经元表现出阶段性下降当nonreward CS出现和展览阶段的峰值在奖励我们。(e) DA神经元在不同的阶段的活动情况。 The thick red line indicates the activity of DA neurons at the 99th trial, the narrow blue line indicates the activity of DA at the 100th trial, the thick blue line indicates the activity of DA neurons at the 199th trial, and the narrow red line indicates the activity of DA neurons at the 200th trial. The yellow dashed line indicates the time at which CS appears and the green dashed line indicates the time at which rewards are released or not. (f) The physiological experimental result reprinted from Matsumoto and Hikosaka [5]。红色线表示奖励试验,和蓝色线表示没有奖励试验。完整的线表示奖励CS-to-reward美国(红色)和nonreward CS-to-nonreward我们(蓝色),而虚线表示奖励CS-to-nonreward美国(蓝色)和nonreward CS-to-reward我们(红色)。

实验研究表明,该阶段的活动LHb相反,DA神经元的响应奖励价,但类似的转移活动哒阶段的活动。在我们的模型中,LHb神经元抑制和降低显示的活动奖励我们开始(图4 (d))。LHb神经活动的下降从美国转移到有益的CS在以下和随后的试验数据4 (e)- - - - - -4 (f))。如前所述,意想不到的奖励我们可以打开通路striosome-GPi-GPb-LHb和VS-VP-GPb-LHb。然而,开启之前,我们奖励将抑制LHb神经元通过VS-VP-GPb-LHb通路(图4 (d))。一旦striosome-LHb VS-LHb通道开启,奖励CS将有效地抑制LHb神经元通过VS-VP-GPb-LHb通路,导致下降的时候奖励CS。但造成的抑制奖励我们将被取消的励磁striosome-GPi-GPb-LHb途径导致基线LHb神经元活动时的奖励(图4 (f))。

3.2。DA神经元的神经通路基础学习阶段的活动

DA神经元的阶段活动已经建议奖励预测误差编码和强化学习中发挥关键作用8,46,47]。DA神经活动在我们的模型显示奖励预测误差与实验观察相一致(图5 (f))。例如,99次试验的训练后,网络已经可以把奖励CS和奖励我们。DA神经元表现出相位的活动在CS(时间2 s图5(一个))。但在第100次试验,我们模拟的条件期望的奖励是省略了。DA神经元兴奋后CS发作(2 s)和抑制我们演示(3.6秒)(图5 (b))。网络现在再结合后的CS nonrewarding我们训练从第101到第199次试验。DA神经元的活动,然后显示一个下降的时候nonrewarding CS 2 s和显示给出了基线活动当nonrewarding我们在3.6秒(图5 (c))。最后,在第200届试验,我们现在nonrewarding CS和奖励来模拟一个意想不到的奖励条件。DA神经元抑制在CS演讲(2 s),但兴奋的时候奖励我们再次提出(3.6秒)(图5 (d))。整个活动概要DA神经元的总结在图4 (e)与实验观察一致(图5 (f))。

上述阶段反应的神经活动与学习相关的刺激可以理解基于电路的两条平行的途径:VS-PPTN-VTA / SNc和striosome-VTA / SNc通路。应该注意,第一试验后,突触的优势和都不为零,所以VS响应奖励CS和奖励我们。然后,DA神经元兴奋通过VS-PPTN-VTA奖励CS / SNc通路。当我们奖励,奖励CS的信号触发striosomal神经元的活动和直接抑制DA神经元。然而,这种抑制是取消奖励的激励我们通过VS-PPTN-VTA / SNc途径。因此,DA神经元的活动有效地维持在基线(图5(一个))。由第99试验,相关的网络已经奖励CS与奖励我们。

现在,如果奖励我们省略(第100届试验),没有激发striosome配重平衡直接抑制,导致在DA神经元的活动(图5 (b))。这个过程一直持续到第199审判。当网络出现nonrewarding CS nonrewarding紧随其后,直接抑制通路从striosome DA神经元被关闭,DA神经元显示噪音对nonrewarding CS发病阶段的活动,和DA神经元的活动保持在基线时nonrewarding我们(图5 (c))。随后与一个意想不到的奖励我们200年审判,现在DA神经元兴奋通过VS-PPTN-VTA / SNc通路而nonrewarding CS仍然引起蘸活动(图5 (d))。

3.3。LHb神经元的神经通路基础学习阶段的活动

LHb行为实验研究表明,相位的活动在一个相反的DA神经元(5]。因此,有人建议LHb神经元发挥关键作用的编码厌恶/负面信号[48,49]。实验进行了调查活动的几个脑核,如加仑桶(2]和RMTg [3),探索可能的功能与这些脑区之间的关系。

在这里,我们模拟这些核的活动,结果与实验观察一致。我们的模拟显示,阶段反应LHb神经元从美国转移到CS。LHb神经元表现出相位的倾斜时,意想不到的奖励我们在第一次试验(图了4 (d))。在接下来的试验中,倾斜转向的时候给出的奖励CS(数字4 (e)- - - - - -4 (f))和基线活动与奖励CS(图观察6(一))和一个小阶段的活动在nonrewarding我们(图6 (b))。nonrewarding训练后的CS从101到199试验,LHb神经元显示阶段的活动在nonrewarding CS (2 s),同时保持一个基线水平时nonrewarding我们(图6 (c))。在第200届审判,LHb nonrewarding CS神经元表现出峰值活动,但活动大幅贬值给我们(图一个意想不到的奖励6 (d))。的整体活动概要LHb神经元(图6 (e)实验观察(图)同意6 (f))。

(一)

(b)

(c)

(d)

(e)

(f)

图6

获得LHb神经元的响应。(一)第99届试验:从1号试验的99试验、模型电路接收奖励CS和奖励我们。学习后,结果表明,神经元LHb展览阶段浸在奖励CS和基线活动有益的结果。(b)第100届试验:模型电路接收奖励CS和nonrewarding我们。结果表明,LHb神经元表现出阶段性下降当奖励CS出现和展览阶段高峰时奖励应该被释放。(c) 199试验:从第101试验的199试验,模型电路接收nonrewarding CS和nonrewarding我们。结果表明,学习后,LHb神经元表现出相位的峰值在nonrewarding CS和基线活动由于漏报奖励在这个试验。(d)第200届试验:模型电路接收nonrewarding CS和奖励我们。结果表明,LHb神经元表现出阶段性当nonrewarding CS出现峰值和展览阶段浸在奖励我们。(e) LHb神经元在不同的阶段的活动情况。 The thick red line indicates the activity of LHb at the 99th trial, the narrow blue line indicates the activity of LHb at the 100th trial, the thick blue line indicates the activity of LHb at the 199th trial, and the narrow red line indicates the activities of LHb at the 200th trial. The yellow dashed line indicates the time at which CS appears and the green dashed line indicates the time at which rewards are released or not. (f) The physiological experimental results reprinted from Hong and Hikosaka [2]。红色线表示奖励试验,和蓝色线表示没有奖励试验。粗线表示奖励CS-to-reward美国(红色)和nonreward CS-to-nonreward我们(蓝色),而窄线表示奖励CS-to-nonreward美国(蓝色)和nonreward CS-to-reward我们(红色)。

上述学习阶段LHb神经元的活动可以解释两条平行的途径:striosome-to-LHb通路通过谷歌价格指数和加仑桶并通过VP和加仑桶VS-to-LHb通路。例如,在第99届试验,突触的优势W_是和Z_ij值不为零,这意味着网络已经完全相关的奖励CS奖励我们。奖励CS可以通过抑制striatum-VP-GPb-LHb通路抑制LHb神经元。奖励我们出现时,通过striatum-VP-GPb-LHb抑制通路将被取消striosome-GPi-GPb-LHb的激励途径,导致基线水平的LHb神经活动奖励遗漏。在第100届审判,LHb神经元表现出下降的存在有益的CS。但奖励的疏忽意味着激发通过striosome-GPb-LHb路径不能被取消,导致一个小阶段LHb神经元的活动奖励遗漏。同时,突触强度Z_ij从皮层striosome减少为零。当接下来我们还搭配了一个nonrewarding nonrewarding CS(从101到200试验),LHb神经元表现出相位的活动时nonrewarding CS发作,因为通过striatum-VP-GPb-LHb通路抑制。在第200试验,抑制通路striosome-GPb-LHb意想不到的奖励信号开关,导致蘸LHb神经元的活动。

3.4。加仑桶和RMTg学习阶段的活动

实验表明,加仑桶和RMTg神经元显示阶段对CS和美国的反应。在我们的模型中,striosome-GPi-GPb通路之间的交互和VS-VP-GPb途径导致的相位的活动加仑桶神经元在CS和美国表示。特别是加仑桶、LHb RMTg也有效地与兴奋性突触(图2),因此他们的相位的活动应该与LHb,具有相同的解释活动概要文件对于LHb(数字7和8)。此外,LHb-RMTg-VTA / SNc途径只会放大阶段DA神经元的活动和不定性变化DA神经元的活动概要。

(一)

(b)

(c)

(d)

(e)

(f)

(一)

(b)

(c)

(d)

(e)

(f)

3.5。两条平行的途径”模型的鲁棒性分析

在并联电路通路的重要作用在繁殖阶段的活动中观察到实验中,我们未来进一步研究阶段的鲁棒性活动在我们的模型对连接强度变化。具体地说,我们增加或减少突触权重10%和监控阶段的活动如何改变。

首先,我们发现阶段的DA和LHb神经元的活动并没有改变显著,当我们增加或减少突触权重10%以下: , , , , , ,和(数据没有显示)。第二,权重的突触通路VP-GPb-LHb-RMTg-VTA / SNc被发现影响主音基线DA神经元的活动,我们定义为。因此,我们改变同时保持相位的DA和LHb神经元活动当我们增加或减少突触沿着这个通道的权重(见表3)。在数据9和10,我们将展示DA神经元的活动和LHb神经元突触权重从三个不同的副总裁加仑桶和相应的基线活动。我们可以看到,DA神经元和LHb继续展示他们的特征阶段活动的概要文件。简而言之,我们的神经回路模型突触权重的变化具有很好的鲁棒性。


突触权重

(一)

(b)

(c)

(d)

(e)

(f)

图9

的阶段的活动DA神经元突触的给予不同的权重从副总裁到加仑桶。黄线表示DA神经元的活动= 1.00和= 0.19431,蓝色线表示活动的时候= 1.10和= 0.20307,红线表示活动时= 0.90和= 0.18608。1:(a)试验阶段的峰值响应无条件的奖励活动。(b)试验2:阶段的活动转移到线索。(c) 99年审判:阶段活动的线索和基线活动奖励。(d)试验100:活动奖励时遗漏。199 (e)试验:浸活动nonrewarding线索。200年(f)试验:活动高峰在意想不到的奖励。

(一)

(b)

(c)

(d)

(e)

(f)

图10

的阶段的活动LHb神经元突触的给予不同的权重从副总裁到加仑桶。黄线表示LHb神经元的活动= 1.00和= 0.19431,蓝色线表示活动的时候= 1.10和= 0.20307,红线表示活动时= 0.90和= 0.18608。1:(a)试验阶段的活动响应无条件的奖励。(b)试验2:阶段的活动转移到线索。(c) 99年审判:阶段活动的线索和基线活动奖励。高峰(d) 100年审判:活动奖励遗漏。199 (e)试验:高峰活动nonrewarding线索。(f) 200年审判:浸活动在意想不到的奖励。

4所示。讨论

我们扩展先前的神经回路模型(16)通过合并细胞核加仑桶、LHb RMTg,模型可以解释各种实验数据从单独的作品。具体地说,该模型可以表现出这种转变的DA和LHb神经反应我们CS演示时间。我们的模拟也复制的阶段活动哒,LHb,加仑桶,RMTg神经元实验中观察到。DA (LHb)神经元表现出相位的峰值(dip)奖励CS和维护基线活动在回应一个有益的结果,但一个相位的下降(峰值)如果奖励是省略。相比之下,DA (LHb)神经元表现出相位的下降(峰值)在回答nonrewarding CS或惩罚CS和维护基线活动应对nonrewarding我们,而是一个阶段的峰值(dip)如果发生奖励或厌恶我们省略了。加仑桶的获得响应和RMTg神经元相似LHb神经元。这些获得的响应与实验数据相一致(2,3,5,8)和行为实验(50]。

我们的模型提供了洞察DA的神经回路机制和LHb阶段的活动。特别是,兴奋和抑制性通路构成并行学习反应:striatum-to-PPTN-to-VTA / SNc通路兴奋哒,虽然striosome-VTA / SNc通路抑制达;striatum-to-VP-to-GPb-to-LHb通路抑制LHb, striosome-to-GPb-to-LHb通路兴奋LHb;LHb-to-RMTg-to-VTA / SNc通路放大DA的阶段的活动。在不同任务条件下,我们应用不同的CS和输入到模型中。DA的模型有一个反馈回路可以调节层次的突触和corticostriosome突触。这将反过来影响DA反应,关闭循环。学习后,这些突触的权重稳定和保持不变。这导致了紧急阶段活动概要文件核的电路,与平行通路相互平衡。此外,我们发现striosome关键脑核,记得以前的奖励和编码的时间预测的回报。 In fact, there are recent experimental works [51支持我们的模型预测的)。

在我们的模型中,我们预测striosome神经元编码预期回报,但有替代理论。例如,科恩et al。52)发现有三种类型的VTA神经元和神经元分泌gaba ergic可能信号期望的奖励,这可能是一个关键变量对多巴胺神经元计算奖励预测错误。近期作品(53- - - - - -55)强调的重要性VTA gaba ergic神经元。Averbeck和哥56建议扁桃体可以学习和代表期望值与纹状体,他们预测,杏仁核在强化学习中发挥核心作用,腹侧纹状体可能较少扮演主要角色。瓦格纳et al。57)表明,小脑颗粒细胞可能编码的期望回报。罗等。58李,et al。59],Hayashi et al。60)发现,在中缝背核5 -羟色胺神经元可以编码奖励的信号。一些生理和理论作品(17,18,61年- - - - - -63年)关注D1和D2受体在腹侧纹状体和建议他们发挥重要作用计算奖励预测误差。未来的神经回路建模工作需要将这些发现。

获得的结果与实验一致,我们采用了几个假设。首先,我们假定纹状体神经元激发PPTN和腹侧苍白球。纹状体神经元通常确认为gaba ergic和抑制,但是他们可能激发下游神经元通过disinhibitory效应或物质纹状体神经元释放的(29日,30.]。事实上,它已经证明了物质介导VP神经元的兴奋性纹状体神经元之间的相互作用29日)和纹状体投射神经元(30.]。第二,我们假设striosome项目GPi进而项目加仑桶。虽然我们没有直接证据,洪教授和Hikosaka [21)观察到典型的GPe和GPi首先被纹状体神经元刺激和加仑桶神经元通常(但不总是)纹状体刺激而兴奋不已。他们建议输入加仑桶介导通过抑制轴突络脉在纹状体(28]或GPe [24]。

在开发模型,我们试图增加最小功能棕色的先前的模型等。16]。因此,值得注意的是,我们忽略了几个因素来简化模型。具体来说,我们忽略了一些大脑核之间的联系,比如cortex-to-GPb [2],VP-to-RMTg [3,LHb-to-LHb cortex-to-LHb [48],DA-to-striatum [64年通路。我们也没有考虑直接LHb-to-VTA [65年]和VTA-to-LHb [66年)连接在我们的模拟,但我们模仿的整体抑制LHb VTA神经元。我们也忽略了许多脑核的不同类型的活动。例如,研究表明三种类型的神经元加仑桶:奖励积极类型,奖励消极类型和方向选择性类型(2]。我们的模型只考虑奖励消极类型由于大多数神经元的加仑桶奖励消极类型,这种类型的神经元可能在犒赏信息传递起到关键作用。

尽管模型的假设,我们的神经回路模型仍然可以实施奖励计算相位的信号和强化学习,在各种实验中观测到的。阶段的活动在多个脑区代表预测错误信号,这不仅将线索与结果,而且记忆两者之间的特定的时间间隔。这需要神经系统预测的信息线索,比较结果的信息,和报告的结果比较。在我们的模型中,时间的频谱striosome和兴奋和抑制性通路提供了并行计算平台等。DA的高峰活动和LHb神经元功能互补的角色,分别编码奖励和nonreward /惩罚信息,减轻任何地板(限制)下降的影响活动的神经元类型。我们新颖的神经电路模型与并行路径提供了一个实例化的复杂的神经计算。

5。数学和方程

本节列出了模型的数学方程(图2)。我们给模型电路模拟不同条件下不同的输入。我们用微分方程来模拟发射率(或活动水平)的神经元在不同的脑核。总结了模型变量表1,总结了固定参数表2,下面的数学表达式。

(我)在每个试验(图不同的输入2)。大脑皮层,尤其是眼窝前额皮质(OFC),编码预期未来的结果和他们的反应反映传达的价值相结合的奖励和惩罚的线索36,37]。此外,离岸金融中心神经元发射强烈暗示预测大型奖励小惩罚,或者至少强烈暗示预测大型罚款或小奖励相对于中性条件(32,33]。因此,我们为奖励提示设置更大的值和较小但正值nonrewarding提示如下。

奖励CS输入如下: 我们设置背景_集成电路= 0.30, 。

当网络接收到奖励CS,输入从大脑皮层突然增加,持续到预期的时候应给予奖励。然后,输入衰减指数基线活动水平。

Nonreward CS输入如下: 奖励我们输入如下: 我们设置。

当网络收到奖励我们,输入从外侧下丘脑突然增加,持续很短的时间。然后,输入衰减指数基线活动水平。

Nonreward我们输入如下: 如果网络没有得到奖励或获得nonreward厌恶(或惩罚),我们假设输入在这个实验中没有改变,和输入仍在基线水平。

(2)微分方程。首先,腹侧纹状体的细胞激活的变化水平由(16] 纹状体的活动水平细胞变化后的被动衰减和激发CS输入和输入。重量是固定的而体重吗可以改变。

重量是由(17,18] 突触权重变化引起的相位的多巴胺破裂或倾斜信号,和(定义在(7)和(8))。学习是封闭的延迟发布的第二信使和钙信号是由(9)和(11速度) 。

积极的强化学习信号来源于兴奋的多巴胺信号相位的波动高于基准: 互补的负强化学习信号来源于抑制相位的多巴胺信号低于基线的波动: 第二,striosomes阶段活动发挥重要作用的DA神经元和神经元LHb因为它的时间谱机制:一系列的striosomal MSPN第二信使的活动响应th输入速度 : 的第二信使累积利率在哪里的活动诱导细胞内钙动力学在一个给定的脊柱在延迟由。细胞内钙飙升是由数量 ,在哪里在(11),是一个阶跃函数: 在短暂的间隔钙浓度在一个特定的脊柱超过一个阈值的活动 ,CS-striosomal重量在那个特定的脊柱成为合格的改变可能引起的多巴胺或下降。第三,PPTN水平的变化通过下面的微分方程来描述: 在哪里和可以被看作是物质的影响和GABA PPTN。腹侧纹状体神经元分泌的物质和伽马氨基丁酸。物质兴奋神经元后,GABA神经元抑制以下;表示物质的净效应和伽马氨基丁酸。作者认为这个解释是更现实的,但它需要更多的生理实验证实。PPTN神经元的活动水平的变化取决于背景输入,其衰变,纹状体的净效应。

第四,腹侧苍白球的水平的变化(VP)是由下列微分方程描述: 在哪里解释是类似于(15)~ (18)。VP神经元的活动水平的变化源于后台输入,其衰变,纹状体的净效应。

第五,加仑桶神经元水平的变化是由下列微分方程描述: 加仑桶神经元的活动水平的变化是由后台输入,其衰变,VP神经元的抑制作用并从striosomes disinhibitory输入。

第六,水平的变化LHb神经活动是由下列微分方程描述: LHb神经元的活动水平的变化源于后台输入,其衰变,兴奋性输入加仑桶。

第七,水平的变化RMTg神经元通过下面的微分方程来描述: RMTg神经元的活动水平的变化取决于背景输入,其衰变,从LHb兴奋性输入。

第八,水平的多巴胺能神经元的变化通过下面的微分方程来描述: 多巴胺能神经元的活动水平的变化取决于背景输入,其衰变,RMTg神经元的抑制作用和striosomes PPTN兴奋性输入。

的利益冲突

作者声明,关于这项工作他们没有利益冲突。

确认

Da-Hui王是由国家自然科学基金委资助号。31271169和31271169,中央大学,基础研究基金和BMSTC(北京市科学技术委员会)批准号Z171100000117007。KongFatt Wong-Lin被BBSRC (BB / P003427/1)支持,成本行动开放多尺度系统医学(OpenMultiMed)支持成本(欧洲科学技术合作)和北爱尔兰脑功能映射工具(1303/101154803)由镍和阿尔斯特大学的投资。Da-Hui Wang和KongFatt Wong-Lin也支持的皇家Society-NSFC国际交流Scheme-Cost共享计划(31511130066,IE141307)。

引用

p·n·c·d·Fiorillo称,通常情况下Tobler, w•舒尔茨“离散编码多巴胺神经元的奖励概率和不确定性,”科学,卷299,不。5614年,第1902 - 1898页,2003年。视图:出版商的网站|谷歌学术搜索
美国香港和o . Hikosaka苍白球犒赏发送信号到外侧缰,”神经元,60卷,不。4、720 - 729年,2008页。视图:出版商的网站|谷歌学术搜索
香港,t . c . Jhou m·史密斯,k . s .萨利姆,o . Hikosaka,“负奖励信号从外侧缰多巴胺神经元由rostromedial盖的原子核在灵长类动物,”《神经科学杂志》上没有,卷。31日。32岁,11457 - 11471年,2011页。视图:出版商的网站|谷歌学术搜索
Kuhnen c . m和b·克努森,“金融冒险行为的神经基础,”神经元卷,47号5,763 - 770年,2005页。视图:出版商的网站|谷歌学术搜索
m .松本和o . Hikosaka外侧缰的负奖励在多巴胺神经元的信号,”自然,卷447,不。7148年,第1115 - 1111页,2007年。视图:出版商的网站|谷歌学术搜索
a . n .真品和m·l·普拉特“风险敏感性在猕猴后扣带皮层神经元,”自然神经科学,8卷,不。9日,第1227 - 1220页,2005年。视图:出版商的网站|谷歌学术搜索
即Monosov和o . Hikosaka奖励不确定性的神经元的选择性和分级编码灵长类anterodorsal间隔地区”自然神经科学,16卷,不。6,756 - 762年,2013页。视图:出版商的网站|谷歌学术搜索
•舒尔茨(george w . bush)、p·达扬和p·r·蒙塔古“神经基质预测和奖励,”科学,卷275,不。5306年,第1599 - 1593页,1997年。视图:出版商的网站|谷歌学术搜索
e . Van Duuren g . Van Der Plasse j . Lankelma r·n·j·m·a . Joosten m·g·p·芬斯特拉和c . m . a . Pennartz“单细胞和人口编码预期回报的概率在眼窝前额皮质的老鼠,”《神经科学杂志》上卷,29号28日,第8976 - 8965页,2009年。视图:出版商的网站|谷歌学术搜索
e . s . Bromberg-Martin m .松本,o . Hikosaka”在激励控制:多巴胺奖励、厌恶和提醒,“神经元,卷68,不。5,815 - 834年,2010页。视图:出版商的网站|谷歌学术搜索
m .松本和o . Hikosaka”两种类型的多巴胺神经元明显传达积极的和消极的激励信号,”自然,卷459,不。7248年,第841 - 837页,2009年。视图:出版商的网站|谷歌学术搜索
“格里姆彻校正,了解多巴胺和强化学习:多巴胺奖赏预测误差假设,”美国国家科学与美利坚合众国,卷108,不。42岁,17568 - 17569年,2011页。视图:出版商的网站|谷歌学术搜索
y和合、m·o·达夫和p·d·达扬“多巴胺、不确定性和TD学习”,行为和大脑功能,1卷,2005年。视图:出版商的网站|谷歌学术搜索
r·s·萨顿“学习方法预测的时间差异,”机器学习,3卷,不。1,9-44,1988页。视图:出版商的网站|谷歌学术搜索
r·s·萨顿和a·g·Barto”向现代理论的自适应网络:期望和预测,“心理评估,卷88,不。2、135 - 170年,1981页。视图:出版商的网站|谷歌学术搜索
j·布朗、d·布洛克和s . Grossberg”如何基底神经节兴奋和抑制性学习使用并行路径选择性地应对意想不到的奖励提示,“《神经科学杂志》上,19卷,不。23日,第10511 - 10502页,1999年。视图:谷歌学术搜索
ot能和d·布洛克,”当地的一个电路模型下学会了纹状体和多巴胺细胞反应的概率时间表的奖励,”《神经科学杂志》上,28卷,不。40岁,10062 - 10074年,2008页。视图:出版商的网站|谷歌学术搜索
c . o . Tan和d·布洛克”dopamine-acetylcholine级联:模拟学习和lesion-induced纹状体的胆碱能中间神经元,”神经生理学杂志,卷100,不。4、2409 - 2421年,2008页。视图:出版商的网站|谷歌学术搜索
o . Hikosaka”,系带:从压力逃避价值决策,”神经系统科学自然评论,11卷,不。7,503 - 513年,2010页。视图:出版商的网站|谷歌学术搜索
t . c . Jhou h·l .字段,m·g·巴克斯特,c . b . sap和p . c .荷兰”的Rostromedial盖的原子核(RMTg),中脑多巴胺神经元的gaba ergic传入,编码厌恶刺激和抑制电动机响应,“神经元,卷61,不。5,786 - 800年,2009页。视图:出版商的网站|谷歌学术搜索
美国香港和o . Hikosaka不同来源基底神经节的奖励值信号传送到外侧缰核的猴子,”人类神经科学前沿,2013年文章ID 778。视图:出版商的网站|谷歌学术搜索
p . Kalen m . Pritzel a . Nieoullon功能l .但,”兴奋性氨基酸传播的进一步证据对延髓中缝核外侧habenular投影:Lesion-induced高亲和力谷氨酸摄取减少,”神经学字母,卷68,不。1、35 - 40,1986页。视图:出版商的网站|谷歌学术搜索
k . Brinschwitz a . Dittgen诉玛,r . Lommel聊聊,和r·w·Veh”Glutamatergic轴突从外侧缰主要终止gaba ergic腹侧中脑神经元,”神经科学,卷168,不。2、463 - 476年,2010页。视图:出版商的网站|谷歌学术搜索
A . r . Sadek p . j . Magill和j.p. Bolam“单细胞分析的内在连接老鼠苍白球,”《神经科学杂志》上,27卷,不。24日,第6362 - 6352页,2007年。视图:出版商的网站|谷歌学术搜索
s . j . Shabel c . d•a .三叠系r·t·墨菲和r . Malinow”输入到外侧缰从基底神经节兴奋,厌恶,和抑制血清素,”神经元,卷74,不。3、475 - 481年,2012页。视图:出版商的网站|谷歌学术搜索
s . j . Shabel c . d•j . Piriz和r . Malinow”GABA /谷氨酸缰co-release控制输出和抗抑郁药物治疗被修改,“科学,卷345,不。6203年,第1498 - 1494页,2014年。视图:出版商的网站|谷歌学术搜索
n . Rajakumar k Elisevich, b . a . Flumerfelt”区划的起源striato entopeduncular应承担的投影的老鼠,”比较神经病学杂志》,卷331,不。2、286 - 296年,1993页。视图:出版商的网站|谷歌学术搜索
l . Tremblay和m . Filion pallidal神经元的反应刺激纹状体在完整的醒着的猴子,”大脑研究,卷498,不。1,硕士论文,1989页。视图:出版商的网站|谷歌学术搜索
t·c·纳皮尔Mitrovic, l·丘吉尔·m·a . Klitenick X.-Y。陆,P . w . Kalivas“P物质在腹侧苍白球:腹侧纹状体的投影,和电生理和行为cinsequences pallidal P物质,”神经科学,卷69,不。1,59 - 70年,1995页。视图:出版商的网站|谷歌学术搜索
c·p·Blomeley洛杉矶凯赫,e . Bracci“p物质介导投射神经元兴奋性纹状体之间的相互作用,”《神经科学杂志》上卷,29号15日,第4963 - 4953页,2009年。视图:出版商的网站|谷歌学术搜索
w·h·出版社,b·p·弗兰纳里,s . a . Teukolsky和w·t·Vetterling数值的食谱英国剑桥,剑桥大学出版社,第二版,1992年版。视图:MathSciNet
s e·莫里森和c, d . Salzman表示灵长类动物的欲望和厌恶信息眶额皮层,“纽约科学院上,卷1239,不。1,59 - 70年,2011页。视图:出版商的网站|谷歌学术搜索
m·r·罗斯切和c·r·奥尔森,”神经活动相关的奖励价值和动机在灵长类动物的额叶皮质,”科学,卷304,不。5668年,第310 - 307页,2004年。视图:出版商的网站|谷歌学术搜索
美国副食、e·k·米勒和m . Rigotti”为什么神经元组合:高维度较高的认知,“目前在神经生物学的观点37卷,第74 - 66页,2016年。视图:出版商的网站|谷歌学术搜索
诉Mante, d . Sussillo k . v .谢诺和w·t·Newsome”上下文相关的复发性动力学计算的前额叶皮层,“自然,卷503,不。7474年,第84 - 78页,2013年。视图:出版商的网站|谷歌学术搜索
派多亚夏欧帕c和j·a·阿萨德“眶额皮层神经元编码经济价值。”自然,卷441,不。7090年,第226 - 223页,2006年。视图:出版商的网站|谷歌学术搜索
派多亚夏欧帕c和k . e . Conen眼窝前额皮质:经济决策的神经回路,”神经元,卷96,不。4、736 - 754年,2017页。视图:出版商的网站|谷歌学术搜索
诉Pascoli j .梗a养蜂人,c .路舍“充足的中脑边缘多巴胺神经元刺激发展为上瘾,”神经元,卷88,不。5,1054 - 1066年,2015页。视图:出版商的网站|谷歌学术搜索
p·e·m·菲利普斯·d·l·罗宾逊,gdp存根,r . m . Carelli和r·m·怀特曼”实时测量相位的变化在细胞外多巴胺浓度在自由移动的老鼠通过快速扫描环绕伏安测量法。”方法在分子医学卷,79年,第464 - 443页,2003年。视图:谷歌学术搜索
e·k·米勒、c·a·埃里克森和r·德西蒙“视觉工作记忆的神经机制猕猴的前额叶皮层,“《神经科学杂志》上,16卷,不。16,5154 - 5167年,1996页。视图:谷歌学术搜索
t·永贝里p•阿•舒尔茨(george w . bush),“猴子多巴胺神经元的反应在学习的行为反应,”神经生理学杂志,卷67,不。1,第163 - 145页,1992。视图:出版商的网站|谷歌学术搜索
w·舒尔茨“预测奖励多巴胺神经元的信号,”神经生理学杂志,卷80,不。1,1-27,1998页。视图:出版商的网站|谷歌学术搜索
W.-X。锅,r·施密特j . r . Wickens调查局海兰德,“多巴胺细胞响应预测事件在经典条件作用:reward-learning网络证据资格的痕迹,“《神经科学杂志》上,25卷,不。26日,第6242 - 6235页,2005年。视图:出版商的网站|谷歌学术搜索
c·j·伯克和p . n . Tobler”时间,而不是大小,重要对纹状体多巴胺奖赏预测,“神经元,卷91,不。1,8 - 11,2016页。视图:出版商的网站|谷歌学术搜索
j . c . Fiala s Grossberg, d·布洛克”Metabotropic谷氨酸受体激活在小脑浦肯野细胞的基质适应性经典条件但反应的时间,“《神经科学杂志》上,16卷,不。11日,第3774 - 3760页,1996年。视图:谷歌学术搜索
h . m .拜耳和p·w·格里姆彻中脑多巴胺神经元编码量化奖励预测误差信号,”神经元卷,47号1,第141 - 129页,2005。视图:出版商的网站|谷歌学术搜索
g·莫里斯,d . Arkadir答:不,e . Vaadia h·伯格曼,”重合,但不同的消息中脑多巴胺和纹状体神经元tonically活跃,”神经元,43卷,不。1,第143 - 133页,2004。视图:出版商的网站|谷歌学术搜索
f . j . Meye s Lecca k . Valentinova和m . Mameli“突触和细胞的神经元外侧缰,”人类神经科学前沿7卷,2013。视图:出版商的网站|谷歌学术搜索
m .歌曲,y . s .乔Y.-K。李,js。崔”,病变外侧缰促进主动学习和灭绝的威胁,避免“大脑研究行为卷。318年,12 - 17,2017页。视图:出版商的网站|谷歌学术搜索
c·l·丹娜·d·谢泼德和g·埃尔默,“缰治理动机的归因显著奖励预测暗示,“人类神经科学前沿7卷,2013。视图:出版商的网站|谷歌学术搜索
y . k .高桥a·j·兰登y和合,和g . Schoenbaum”时间奖励预测错误信号的特异性公认的大鼠VTA取决于腹侧纹状体的多巴胺神经元,”神经元,卷91,不。1,第193 - 182页,2016。视图:出版商的网站|谷歌学术搜索
j.y.科恩,s . Haesler l .疯人比比洛厄尔,和n田”Neuron-type-specific信号在腹侧被盖区奖励和惩罚,”自然,卷482,不。7383年,第88 - 85页,2012年。视图:出版商的网站|谷歌学术搜索
m·莫拉莱斯和e·b·马戈利斯,”腹侧被盖区:细胞异质性,连通性和行为,“神经系统科学自然评论,18卷,不。2、73 - 85年,2017页。视图:出版商的网站|谷歌学术搜索
w·r·Stauffer”系统神经科学:塑造奖励预测误差信号,”当代生物学,25卷,不。22日,R1081-R1084, 2015页。视图:出版商的网站|谷歌学术搜索
j . h . Yoo诉泽尔:Gutierrez-Reed et al .,“腹侧被盖区谷氨酸神经元co-release GABA和促进积极的强化,“自然通讯ID 13697条,卷。7日,2016年。视图:出版商的网站|谷歌学术搜索
比比Averbeck诉d·科斯塔,“激励神经回路潜在的强化学习,”自然神经科学,20卷,不。4、505 - 512年,2017页。视图:出版商的网站|谷歌学术搜索
m·j·瓦格纳,t·h·金,j . Savall m·j·施尼策尔和l .罗“小脑颗粒细胞编码的期望回报,”自然,卷544,不。7648年,第100 - 96页,2017年。视图:出版商的网站|谷歌学术搜索
m·罗j .周,z . Liu”奖励中缝背核处理:5,“学习与记忆,22卷,不。9日,第460 - 452页,2015年。视图:出版商的网站|谷歌学术搜索
w . y . Li钟,d . Wang et al .,“在中缝背核5 -羟色胺神经元编码奖励信号,”自然通讯ID 10503条,卷。7日,2016年。视图:出版商的网站|谷歌学术搜索
k . Hayashi k中,k .中村”欲望和厌恶信息编码在灵长类动物中缝背核,“《神经科学杂志》上,35卷,不。15日,第6208 - 6195页,2015年。视图:出版商的网站|谷歌学术搜索
t . Hikida m .盛田昭夫,t·麦克弗森,“伏隔核的神经机制电路在奖励和厌恶学习,”神经科学研究卷,108年,页1 - 5,2016。视图:出版商的网站|谷歌学术搜索
m·d·汉弗莱斯和t·j·普雷斯科特腹侧基底神经节,在空间的十字路口,选择机制的策略,和奖励,“神经生物学的进展,卷90,不。4、385 - 417年,2010页。视图:出版商的网站|谷歌学术搜索
r . Keiflin和p h . Janak多巴胺预测错误奖励学习和成瘾:从理论到神经回路,”神经元,卷88,不。2、247 - 263年,2015页。视图:出版商的网站|谷歌学术搜索
n·f·帕克,c . m .卡梅隆j.p.塔et al .,“奖励和中脑多巴胺神经元的选择编码终端取决于纹状体目标,“自然神经科学,2016年。视图:出版商的网站|谷歌学术搜索
w . c .轮询器诉玛,r·伯纳德·g . Laube和r·w·Veh”从外侧下丘脑glutamatergic投影目标VTA-projecting神经元在大鼠外侧缰,”大脑研究卷。1507年,45 - 60,2013页。视图:出版商的网站|谷歌学术搜索
r·l·j·h·A . m . Stamatakis詹宁斯)et al .,“一个独特的人口的腹侧被盖区神经元抑制外侧缰促进奖励,“神经元,卷80,不。4、1039 - 1053年,2013页。视图:出版商的网站|谷歌学术搜索

复杂性

神经网络对复杂系统:理论和应用程序

文摘

1。介绍

2。材料和方法

2.1。模型架构

2.1.1。通过RMTg LHb抑制SNC /区域

2.1.2。加仑桶兴奋LHb

2.1.3。推测输入从GPi加仑桶

2.1.4。副总裁输入加仑桶

2.1.5节讨论。从VS VP和PPTN兴奋性输入

2.2。动力学方程,投入产出函数和数值方法

2.3。仿真协议

3所示。结果

3.1。从我们CS转变阶段的反应

3.2。DA神经元的神经通路基础学习阶段的活动

3.3。LHb神经元的神经通路基础学习阶段的活动

3.4。加仑桶和RMTg学习阶段的活动

3.5。两条平行的途径”模型的鲁棒性分析

4所示。讨论

5。数学和方程

的利益冲突

确认

引用

版权

更多相关文章

相关文章