从偶尔不可避免的必须的选择:尼古丁上瘾的计算模型

文摘

虽然,有相当大的工作奖励学习和决策的神经机制,和大多数人提到成瘾可以解释为在这些认知过程故障,有很少的计算模型。本文对尼古丁上瘾,尼古丁上瘾的计算模型提出了基于成瘾的神经生理学基础。妥协不同层次模型,从分子基础系统层面,它展示了三种不同的可能的行为模式是瘾君子,nonaddict,优柔寡断。该模型的动力学行为研究工具用于分析非线性动力系统,行为模式之间的关系和系统的动力学进行了探讨。

1。介绍

经验的价值或一个行动是由获得的奖励。动作诱发更大的奖赏是感觉到作为一个卓越的行动,因此连续出现的这种类型的行动回报更频繁(1]。上瘾的情况下,滥用物质(尼古丁、毒品等)有一个值大于其他形式的奖励实施行动。一些持续修改大脑的神经突触可塑性的子系统被认为导致上瘾;因此,声称毒瘾是一种障碍的中脑边缘系统开发的改性反应奖励行为(1- - - - - -4]。误导的过份强调奖励知觉,成瘾者强制寻求他们上瘾的物质。奖励机制以来持续改变,成瘾者通常不能完全治愈,他们常常陷入吸毒治疗后(2]。

考虑到上瘾的社会和身体都有负面影响,任何试图理解这种现象的潜在神经机制是有价值的。因此,在这项研究中,一种上瘾的计算模型。我们提出一个模型对尼古丁上瘾是由cortico-striato-thalamic行为选择电路和多巴胺信号单元操作根据强化学习。该模型是基于神经结构已知的交互作用在成瘾和神经递质在这些结构的影响。该模型着重于成瘾的神经生理学基础和模型的结果表明,该模型能够展示不同的行为模式。(见网上包含源代码的补充材料http://dx.doi.org/10.1155/2012/817485获得http://www.selinmetin.info/)。

因为被认为是神经生理学方面,我们集中在边缘和皮质结构之间的交互。这些结构被认为是不仅对成瘾还在解释大范围的认知过程‎(3- - - - - -5]。两个主要的行为方法用来解释上瘾是对立过程理论和犒赏学习‎(6- - - - - -8]。利用强化学习理论,上瘾是解释为累积的结果获得的药物管理的正强化物‎(8- - - - - -10]。的对立过程理论的动机‎(6是用来解释导致愉悦和强迫性行为的调节原则。根据对立过程理论,情感是成对的,当一个情感在一对是经验丰富的,另一种是抑制。在‎(11),这两种方法被认为是在推导尼古丁上瘾的计算模型。我们的模型也结合了这两种方法设计一个成瘾发展的动力系统。提出了动态模型满足期望从任何生物过程的计算模型;它给一个正式的方法,可以进一步提高理解生物过程背后的机制,而不仅仅是模仿过程的结果。

摘要我们的目标是支持成瘾发展的想法是一种有目的的行为,和corticostriatothalamic行动选择的互动循环成瘾发展过程中一个重要的角色。我们假设,尼古丁上瘾是一个过渡的冲动行为通过强化学习来强迫行为发展。我们提出一个上瘾的初始模型基于边缘和皮质结构的相互作用。模型是影响目标导向行为的计算模型‎(12)和尼古丁上瘾‎(11]。虽然在‎(11)一个行为选择模块使用“赢者通吃”的机制,选择动作的部分我们的模型能够揭示强化学习元素。我们的目标是给一个正式的方法一样,我们使用动力系统理论建模尼古丁上瘾行为。通过强化学习动力系统建模行为选择(的)决定了它不动点沉淀。这些观测点改变评价选择的强化学习与行为选择在开发一种瘾。这种行为的模块使用XPPAUT获得的分岔图,解释在成瘾过程模拟与内部建立了MATLAB的m文件。所以,基于非线性动力系统的一个正式的方法评估与时间和参数变化提出了模式生物过程。

结果和部分发表在模型方程‎(13,14]。然而,我们的模型的所有方面,包括从文学背景神经生理学和支持材料,首次给出了一个紧凑的形式。

一个简短的摘要计算模型与认知过程声称有成瘾作用在部分2。这个总结是给给一个想法什么是艺术的状态计算模型和建立必要的背景评估模型提出在连接在文献中相关的工作。节3上瘾的,神经和行为方面解释为该模型的目的是给一个正式的方法理解成瘾的这两个方面。节4,介绍了该模型,然后实现它是详细解释,这样的结果可以复制。这些实现两部分覆盖的动力学分析模块和实现强化学习适应的选择的模块。节5,模型的模拟结果和讨论。节6,讨论模型的比较与讨论的模型部分2是给定的。

2。上瘾的计算模型

药物成瘾的数学模型可以分为三个主要标题:定量药理模型研究影响多巴胺(DA)的奖励机制,计算模型研究与DA在强化学习和行为选择的影响,和neurodynamical模型研究opponent-processes和大脑的多巴胺系统‎(15]。

强化学习可以简述为学习的经验在与环境的交互来实现目标。学习者或决策者不断交互环境中选择一个操作和环境响应行动向学习者展示新情况‎(16]。对立过程理论(6]声称的条件导致个体做出选择并不只取决于操作的有益的品质也在一般经验和个人的情况。每当一个令人愉快的刺激感受,立即喜欢反应迅速发展和高潮。如果刺激保持稳定,这个反应逐渐达到一个平衡状态。当刺激消失,这一次负面反应发展做出消极的高潮。这两个反应被称为opponent-processes。

在这里,我们将总结艺术的状态计算模型的强化学习和opponent-processes特别是提到模型与成瘾有关。

2.1。对立过程模型和强化学习

药理模型可以分组到正面和负面反馈模型。正反馈模型认为毒品消费不是一个有目的的行为,而是一种大脑药物水平降低时自动刺激过程。另一方面,负面反馈模型假设毒品消费是一种有目的的行为。这两种方法的缺点是,他们不能成瘾的发展带来一个解释。给出了计算模型的一个很好的例子‎(17),这个模型使用时间不同强化学习原理计算和更新每个情况的价值。然而,它缺乏解释如何奖励函数学习过程的一部分。

Opponent-processes声称是重要的情感系统在大脑中。他们给洞察特别是解释经验的评价和计算回报的期望。提出了几个模型来解释opponent-processes成瘾和目标导向行为的作用。在这里,我们将总结一些重要的这些模型的方法发展成瘾或整体的完整解释的行为成瘾。

Grossberg古托斯基,‎(18)使用封闭的偶极子来解释opponent-processes决策。他们的假设,情感平衡理论,解释了决策过程在高风险的情况下使用心理生理机制。单个神经元细胞的输出取决于输入和神经传递素的动态变化方程。一个常数输入信号的乘法和慢慢地改变神经递质浓度的结果在一个快速增长阶段,一个习惯化阶段,和一个输出信号的快速下降阶段。当用作two-neuron复杂,他们称之为最小的一个封闭的偶极子神经网络结构。他们使用封闭的偶极对立过程模型发病或抵消的强化物可以与条件刺激(CS)。封闭的偶极子的合成输出图非常相似与所罗门和Corbit [6]opponent-processes的描述。然而,有一些主要差异。‎(6]解释opponent-processes减法的两个对立的过程。自‎(6]的方法从行为和心理的角度来看,并不试图给一个动力或甚至一个数学模型,不同时间尺度的两个对立的过程,后者是由前者不清楚地解释道。Grossberg的模型提供了一个洞察这个问题,假设一个慢慢适应,tonically引起控制神经递质信号。

在‎(19),一个专门的封闭的偶极子电路,读取电路,开发了解释现象二级抑制性条件反射。读取电路结合opponent-processing和联想学习机制。因为它基于封闭的偶极结构,读取电路操作使用过程作用于三个主要时间尺度:一个快速激活的时间尺度,较慢的习惯化的时间尺度,和一个更慢的调节时间尺度。这些过程是由非线性反馈交互联系在一起。封闭的偶极子电路结合竞争性交互选择动机驱动表示使用一个赢家通吃的机制。在‎(19],Grossberg Schmajuk设计和比较几个专业的偶极子电路分析行为数据和相关的大脑信号。他们用这些电路检查动力,调节,注意,快速的信息,和缓慢的学习机制在大脑中,以及短期和长期记忆的作用在这些机制。

在‎(20.),寒鸦等人使用两个神经递质多巴胺(DA)和5 -羟色胺引发的opponent-processes欲望和厌恶系统。他们使用DA作为主要元素编码时间的误差信号不同的强化学习。此外,他们声称,血清素是负责长期预测的表达和厌恶刺激的时间差别强化学习(TDRL)误差信号。他们试图模型的短期和长期两方面对立利用相位的DA补剂血清素信号的交互负责报告的平均回报预测。这个奖励配方提供了一个计算解释的范围从强化学习对立过程模型由所罗门et al。这个模型简化了平均奖励率作为一个静态函数,只考虑两个时间尺度参加反对行为机制。

Dezfouli et al。‎(21)增强寒鸦的(22时间差异(TD) DA系统的模型。寒鸦的模型‎(22)是基于平均回报的指数加权移动平均计算经验的奖励。由于变更引起的大脑奖赏系统长期药物使用,基本奖励级别来衡量回报异常增加。这一增长是由DA功能下降引起的。基底奖励水平被认为是一个内部变量的决策系统,并自称是对应的平均回报。基底奖励级别显示为负项计算的误差信号,从而影响决策系统。药物的估计价值的增长停止当误差信号。这个模型有一些相似之处与Gutkin等的模型‎(11),但它没有考虑到药物剂量。这个模型不包含一些大脑的结构像杏仁核,前额叶皮层(PFC)和腹侧苍白球成瘾发展很重要。

格思里和他的同事开发了一个网络模型纹状体DA直接通路的行动选择‎(23]。这个网络可以按顺序学习的任务依赖于基底神经节。通过操作阶段的补剂的DA水平,模型可以证明人类帕金森病的症状。作者声称,障碍的结果表明,帕金森病是由主音DA水平降低和响应信号相位的DA的奖励和惩罚。

2.2。尼古丁上瘾的计算模型

模型的计算方法对立过程在尼古丁上瘾的作用是由Gutkin和同事‎(11]。他们模型的化学活动烟碱乙酰胆碱受体(乙酰)在三个不同的时间尺度根据环境中的浓度达:激活,upregulation,长期的敌对状态。的分子方法比机械的不同方法Grossberg和同事‎(18,19),他们不能显式地定义时间尺度的范围。然而,他们是一个互补的研究来解释这个psychological-molecular-neurophysiological现象。

虽然它不是一个边缘系统模型中,值得一提的是Graupner和Gutkin [24,25]。他们开发了一个意味着磁场电路模型DA分泌的腹侧被盖区(VTA)。他们考虑的平均活动DA和γ-氨基丁酸(GABA)神经元在腹侧被盖区乙酰胆碱(Ach)和谷氨酸(Glu)输入和考虑到乙酰激活/脱敏根据不同亚型的乙酰胆。本文总结了DA的互相配合和在腹侧被盖区GABA神经元分泌DA中脑边缘系统。

VTA DA细胞活性的分子水平的方法模拟主音发射和破裂模式开发‎(26]。他们展示single-compartmental模型定性的多巴胺能神经元的动力学行为,特别是在尼古丁的存在。这个模型是类似于著名的Hodgkin-Huxley模型神经元功能,和细胞膜上的钙和钾离子通道模型的关键元素。conductance-based方法用于该模型对应于药理操纵毒品apamin所致。

尽管这两个最后的计算模型是通用的解释机制的DA隔离,他们不打算用于澄清DA成瘾的作用。尽管所有这些模型是重要的里程碑在对立过程计算模型,强化学习,犒赏DA隔离,他们不打算解释成瘾背后的机制基于边缘和认知神经回路的相互作用。

3所示。神经和行为成瘾机制

成瘾是一种物质感觉感情特别高,和发展成瘾可以被认为是一种学习行为。上瘾的对象被高估,这高估了取悦上瘾物质的质量会导致更频繁的消费‎(1]。直接正比于它的价值,没有上瘾的物质被认为是一种压力和悲伤。这种负面情感的感觉引起强迫寻求行为‎(2]。积极和消极情感两个对手的情绪密切相关,和任何破坏这种关系导致的情绪感到无比的,后来导致成瘾行为。

世界卫生组织定义了成瘾依赖综合症是一个集群的生理、行为和认知现象,使用一种物质或一个类的物质需要更高的优先级为给定的个体比其他行为,一旦有更大的价值。之前一个人成瘾,有一个时期的神经可塑性是可逆的。一些持续修改突触可塑性被认为是成瘾的主要原因。因此,我们可以考虑成瘾障碍在中脑边缘系统的大脑,这不可逆转地修改反应有益的行动。自失去可塑性,行动/物质的(新)值不正确学习,和前的值的行为导致的损失可塑性盖章。

由于持续的改变奖励机制,成瘾者通常不能完全治愈,治疗后复发药物使用‎(2]。

几个阶段定义成为吸烟成瘾‎(27)的变换无关的想法,偶尔也会吸烟,偶尔慢性,长期沉迷于吸烟。因为冲动是定义为一个突如其来的不可抗拒的,非理性的欲望或行为产生的一个特定的感觉或精神状态,和强迫性重复动作的对象执行一种非理性的冲动行为‎(28],上瘾吸烟可以视为从冲动行为转移到强迫性行为模式。通过过程导致上瘾,抽烟是第一反应个人的环境造成的压力。然后,它开始调节外部刺激需求,最后烟无法抑制的冲动,因为它成为了一个对内部刺激,如血液水平的尼古丁‎(29日]。

3.1。神经生理学的对立过程和强化Rearning

在假说解释成瘾的发展,强化学习和联想过程有强烈的地面。根据调节方法,将强化学习的焦点,上瘾是解释为药物的累积结果自治正强化物‎(8- - - - - -10]。成瘾物质的奖励质量导致行为选择的频率增加,个体寻求更多的物质。因此,上瘾的物质是积极强化物,最大化可衡量的奖励获得特定类型的行为。每次一个人决定使用成瘾物质,这个行动的值存储在联想记忆。在接下来的决定时刻,这个存储值的概率决定选择行动。

上瘾的行为方面是用对立过程理论来解释。所罗门的对立过程理论提出的动机和Corbit‎(6是用来解释导致愉悦和强迫性行为的调节原则。对立过程理论声称情况导致个体做出选择不仅是物质的奖励的品质,而且一般的经验和个人的实际情况。根据这一模型,情绪是成对的,当一个情感在一对是经验丰富的,另一种是抑制。当一个刺激,喜欢要么烦人,经验丰富,主要反应的发展,迅速达到峰值点,定居在一个表情状态。当从环境刺激消失,主要反应也消失和二次反应相反的方向发展的第一个。二级反应也很快达到了高潮,随着时间的流逝消失。这些对称为B-processes。重复的对手的情绪对加强他们的经验,虽然他们经历少削弱了对立过程。特别是b直接放大其发展成正比的频率。b是依赖于一个过程,因为它是间接引发的一个过程。 For healthy individuals, opponent-processes are experienced almost equally (such as fear and relaxation afterwards), but for addicts, the B-process lasts longer and has a greater magnitude (Figure1)‎(6,7,30.]。

行为的改变以前解释的神经生理学背景。戒断症状有相同的瘾君子中脑边缘系统的影响。当上瘾了,大脑的奖励知觉水平被修改的震级,B-processes将减少。中性水平,这显示了上瘾的物质环境中,也会减少。我们能想象这种情况香烟的吸烟者。一开始,个人没有对抗尼古丁的积极或消极的想法。吸烟之后一段时间,吸烟的行动开始感觉良好,香烟燃烧完全,没有经验是一个负面的感情。这些积极的和消极的情绪形成对立过程的机制。在我们的模型中,也体现了对立过程烟碱乙酰胆碱受体的反应(乙酰)血液中尼古丁水平。

拮抗平衡的修改即有机系统,其稳态平衡状态适应一个新的国家为了回答长期需求(7,30.]。换句话说,拮抗平衡是维持稳定的生物即当修改继续。奖励的知觉品质的变化的滥用物质是一个非稳态调节,稳定,应该保留奖励函数的稳定性。通过检查大脑中的动力系统,它可以表示,这一过程是由大脑的自我平衡的修改反击系统(b)‎(30.]。自故障大脑奖励机制导致成瘾,相关的负面情绪状态增加了滥用物质消费。一旦坏了,奖励机制B-processes定义的正常稳态极限奖励函数不能再次在正常范围内。

3.2。尼古丁上瘾的分子基础

最有效的神经递质在中脑边缘系统中,因此成瘾机制,是多巴胺(DA)。可能的行为选择的价值计算通过使用过去行动的结果,这个值是存储在内存中。这个存储信息是用来预测未来行为的结果。达应该是密码错误值计算进行比较的结果行动和奖励获得的预测。这个错误值更新存储的信息在未来的选择使用。因此,DA形状未来行动为了增加奖励获得‎(1,30.]。奖励获得行动的越高,越频繁的重复。DA强化这value-action链接,在成瘾行为的发展有至关重要的作用‎(31日,32]。适应性变化DA传播引起非联合型、持久,最终不可逆转的修改(DA)致敏的DA系统,导致上瘾33]。

仔细看看neuromodulatory DA系统分泌的腹侧被盖区(VTA)揭示了两个组件的参与,对于兴奋性和内在动力:校长兴奋性输入腹侧被盖区是乙酰胆碱(Ach) amygdala-lateral hypothalamus-pedunculopontine盖的核/ laterodorsal盖的原子核(Am-LH-PPTg / LDTg)阻止和谷氨酸(Glu)皮质区域(前额叶皮层)。这些预测突触DA和γ-氨基丁酸(GABA)神经元在腹侧被盖区(图2),调节他们的活动。主要的抑制性输入腹侧被盖区是gaba ergic和项目从伏隔核(NAc)和腹侧苍白球(VP)。内在动力的腹侧被盖区是由DA和GABA神经元之间的交互。空调采暖或Glu GABA神经元的输入增加他们的活动导致增加GABA的含量。另一方面,增加GABA活动对DA神经元有抑制作用。Glu DA神经元的输入与GABA神经元同时导致初始DA神经元活动增加。然而,随着GABA神经元活动增加,大幅减少是观察。相反,Ach输入DA神经元减少他们的活动,有一个倾向水平GABA神经元活动的高峰时间。当Ach和Glu,中观察到一个更高的增加GABA神经元活动和两相的反应是观察DA神经元的活动。因此,DA神经元活动第一次增加,有一个峰值在GABA神经元活动的高峰时间,然后迅速降低,产生对立过程的著名的形状。

连续尼古丁暴露导致脱敏和导致GABA神经元显著减少其活动响应Ach输入。GABA神经元的抑制下降导致的长期激励DA神经元,导致DA神经元活动处于高于中性状态(没有主音尼古丁暴露)‎(24,25,34,35]。

上述编码信息的期望可能选择一个学习任务。因此,上述信号要求的内部表示一个学习任务‎(24,25,36]。Glu负责学习过程在大脑背striatum-related子结构的参与行为决策,即行为选择电路(11,24,25]。

与长效管理的尼古丁,DA的奖励效果减少,因为对立过程。这导致DA神经元可塑性的修改导致控制腹侧的差距达尼古丁代谢通路。在这一点上,强迫药物寻求建立(24,25]。这些中皮层DA系统的修改和他们glutamatergic反馈回路对药物寻求行为和复发有刺激影响药物使用(2]。

3.3。我们的模型的神经生理学基础

尼古丁上瘾包含几个循环背后的神经通路内的边缘大脑的子结构。我们采用多巴胺方法的目标导向行为和发展成瘾。在图3在目标导向行为的一些途径重要的吸引我们的模型的范围。有两个重要的DA分泌中心大脑中重要的行为选择是基于奖励评估‎(10,37]:VTA和黑质致密部(SNc)。DA神经元在边缘前脑腹侧被盖区项目(南京,,海马)和前额叶皮层(PFC)。SNc项目中DA神经元的背侧纹状体(尾状核和壳核)‎(1]。所有这些子结构,除了南汽,glutamatergic与腹侧被盖区兴奋性的联系。的主要机制触发DA分泌物从腹侧被盖区/ SNc在腹侧被盖区/ DA神经元的激发点,SNc的LH, PPTg刺激的LH / LDTg块。另一方面,纹状体抑制信号发送给腹侧被盖区DA分泌系统。主要glutamatergic兴奋性输入的腹侧被盖区是PFC和PPTg / LDTg。GABA神经元在腹侧被盖区提供一个本地DA分泌抑制系统‎(24,25]。兴奋和抑制性信号之间的时间差异导致VTA DA神经元/ SNc破裂,导致的突然增加哒分泌或暂停导致哒下降‎(37]。glutamatergic输入从PFC激发DA和GABA神经元在腹侧被盖区。增加GABA在腹侧被盖区分泌抑制影响腹侧被盖区DA神经元,导致DA水平下降。

图3

在目标导向行为的途径的作用。演员和评论家的元素强化学习与虚线所示。GPi /信噪比:苍白球孔/黑质致密部;我:外部输入;南京:伏隔核;n-s-c: opponent-processes刺激尼古丁的存在;PFC:前额叶皮层;STN:丘脑核;Str:背侧纹状体(尾状核和壳核);Thl:丘脑; VTA: ventral tegmental area.

学习期间,腹侧纹状体(NAc)放电增加,这活动导致环境的表示邮资。这些表示然后用来计算action-situation双的奖励价值和期望‎(38]。

4所示。该模型对尼古丁上瘾

本文中提出的方法‎(11对尼古丁上瘾是结合目标导向的系统了‎(12]。模型有两个部分:DA信号模块负责强化学习任务和动作选择(一)模块。的模块是一个研究cortex-basal ganglia-thalamus动力系统。达信号模块是由的活动刺激的存在尼古丁乙酰胆。

DA信号模块由一个动作评价部分运营基于尼古丁水平和赋值计算奖励的一部分分配给执行操作和一个期望误差。达信号模块驱动的循环与享乐价值的表现形式的行动。提出的模型(图3)捕获这个过程通过强化学习适应一个参数,即W_r,表示VTA DA信号对行为选择的影响。

4.1。在模型中神经结构考虑

在图3,我们的模型的示意图表示。这里,背选择动作循环画VTA和南汽参加奖励评估过程。这个选择动作循环对应的演员元素强化学习。网状的苍白球interna /黑质帕尔斯(GPi /信噪比),纹状体(Str)和丘脑核(STN)核的基底神经节贡献行为选择的值通过计算奖励的奖励和错误的到达时间,并将这些信息传递给PFC在丘脑(Thl)。这个电路未来引导行动基于当前的价值回报。关于积极的信息评估,更有效率,操作存储在背侧纹状体。背侧纹状体,特别是尾状核,是参与社会学习‎(10]。PFC是最后边界的有目的的行为,因为它引导个人决定目标和抑制有害的行为。PFC的运动区是该系统的输出,因为他们执行所选的操作作为个人行为的环境。

NAc评估是重要的奖励和激励等积极感知情感的情况下‎(38]。自然的回报和滥用药物增加突触DA的NAc启动行为,因此也有类似的影响。然而,他们并不会增加DA传播在内侧PFC (mPFC) mesocortical DA神经元终止‎(33]。随着南汽,我、海马和前额皮质(OFC)奖励评价有重要的作用,建立记忆与回报。南汽的DA分泌相关的品质目标的动机。DA的释放在南汽、PFC、点,Str标识特定体验的动机的重要性和价值。然而,在腹侧被盖区作为DA DA神经元腹侧边缘DA子系统的资源。DA神经元在腹侧被盖区刺激通过在分子水平上对立过程相关的修改,因此他们调整DA分泌有效奖励评价(图3)。先前行为的调节尼古丁和评价由南汽的评论家元素强化学习在我们的模型中。

4.2。动力学行为选择的模块

使用XPPAUT动力学的系统研究‎(13),和所有附录中给出的相关方程B。虽然的系统是由运动前和运动部件,因为这两个非常相似,我们研究运动的动态系统。只有皮层组件,考虑,因为它是运动的输出的系统,驱动电机回路。强化学习通过改变提供模型中的参数导致选择的行动被修改。修改的效果演示了对运动系统的分岔图。通过强化学习这个参数变化,平衡的动力系统和其稳定性变化。

为了解释明确模型的操作期间发生了什么,下面给出的初始参数值。在开始学习之前,随机选择权重矩阵如下: 使用这些参数作为权重,作为一个2×2的矩阵组成的0.5的,,,以下不动点(表1)获得了运动系统。


平衡点	特征值

0.9982	0.06	−0.05	0

前五个组件的值给出了平衡点在桌子上1,它可以跟着这个平衡点是稳定特征值都是单位圆内。

分岔图绘制的根据参数在图给出4(一)。标记点在图中显示分岔点和表中列出2。在标签4在图中,有一个霍普夫分岔。霍普夫分岔的存在表示的系统行为改变参数值。因此,系统动力学的变化从稳态解组成的平衡指向一个极限环的行为。在我们的模型中,稳定平衡点表示的选择取决于行为选择模块,极限环的行为对应于寻找一个合适的选择。所以,鉴于动力系统的行为选择,探索和利用的特性可以实现强化学习过程。


泰	实验室

EP	1	0.5	0.9981
EP	2	2.32	0.9983
LP	3	−0.046	0.816
乙肝	4	−0.045	0.735
EP	5	−2.24	0.133

(泰:类型的分岔,实验室:标签,EP:终点,LP:极限点分岔,和HB:霍普夫分岔)。

(一)

(b)

以前的不动点参数表3。与以前的参数、分岔图4 (b)是获得。标记点在图中显示分岔点和表中列出4。在点标签3和4在图中,有一个霍普夫分岔。


平衡点	特征值

0.9989	0.05	−0.05	0


泰	实验室

EP	1	1	0.9989
EP	2	2.03	0.9989
乙肝	3	−0.116	0.695
乙肝	4	−0.782	0.298
EP	5	−2.247	0.211

(泰:类型的分岔,实验室:标签,EP:终点,LP:极限点分岔,和HB:霍普夫分岔)。

在学习结束后,权重矩阵成为: 当之前和之后的分岔图学习比较,最重要的区别是不稳定的参数范围。它比之前更大的学习后的图学习图。根据强化学习原理,系统尝试操作,它没有选择之前发现的行动有效地产生回报。这个词的解释是探索这个试验阶段。此强化学习探索阶段对应的方式故意选择行动目前估计为次优以减少不确定性在神经科学术语。相对应的参数值不稳定地区和霍普夫分岔唤起强化学习的“探索”的过程,而引起稳定平衡的参数值点对应于一个行动选择。因此,分岔图显示的模块能够揭示两种不同类型的行为(两个稳定平衡点),以及学习情况没有发生系统是优柔寡断的(不稳定的平衡点)。

4.3。实现强化学习的模型

达信号模块利用强化学习效果的模块的下一步决策。就像在‎(11],DA的影响证明了差分方程为模型的动态行为过程: 激活函数是一个s形函数作为吗乙酰活动建模的三个动态变量如附件一个。是乙酰胆的upregulation尼古丁和由n和s值的乘积信号当尼古丁注射停止(附录一个)。尼古丁环境中,乙酰激活增加。然而,对立(大脑稳态系统)行为正常化这一活动,为正常水平,形成了对立过程机制在这个系统。是阈值设置的最低主音DA水平。我们把。是奖励的信号由尼古丁。是学习速率的DA子系统。

以前的作品(39- - - - - -42)建议行为选择模型cortico-basal ganglia-thalamic循环。在我们选择动作模块获得的‎(12),有两个组件:运动前和运动循环的动力系统模型cortex-basal ganglia-thalamus (C-BG-TH)循环。运动前和运动循环的相关方程给出了附录B。

增加了丘脑核的扩散效应和是一个对称矩阵。的对角矩阵代表腹侧纹状体的影响(伏隔核)背侧纹状体(尾状核和壳核)。腹侧通路是有效的评价而背侧通路是目标导向的行为负责。因此,参数根据评估显示行动选择的调制。参数修改根据强化学习和改变,选择的行动可以改变。感官刺激是由矩阵的表示。节中解释2.1,先前的行动影响当前的奖励值,因此调节当前的行动选择。权重的适应和完成如下: 只有在计算奖励的信号大于0.5。这样做是因为在现实生活中,起初没有强大的喜爱情感香烟。人开始吸烟后比随意更频繁,吸烟变得更大的奖励价值和调节。因此,在模型中,我们没有考虑到奖励,直到它通过一个阈值,成为调节。

的运行平均10步骤表示‎(11]。阈值和分别是和θ0.1倍,作为各自的信号。的学习速率被认为是0.1。的变量δ代表了期望和计算误差行为选择的评估基于感觉皮层用的输入并给出相应的奖励的价值信号: 在这里,是一个行向量,这个词吗基地是一个行向量,相同的条目。一个期望信号基于价值信号生成,一起,产生错误δ。误差信号代表了神经传递素的调节作用和调节背侧纹状体通过流的行为。误差信号加强感官输入的表示通过和更新刺激通过的价值如下:

5。结果

测量模型的性能,应对nicotine-taking解释道‎(11被认为是。起初,奖励值()非常小(如0.01)。每次选择的行动是吸烟,乘以2,直到。连续20个吸烟的决定后,系统被认为成为瘾君子的模型。20不是一个神奇的数字,但我们应用统计边界。的倾向值在图6,当一个行为是学习(因为这是一种瘾或盖章),不是修改在未来的行为。所以,限制数量的20个选择能充分展示。

选择的行动的模块是由计算的解决方案。的价值函数和误差函数(6)- (8)计算,利用这些结果权重矩阵,,据更新(5)和(8)。仿真停止吸烟,如果行动选择先后20次在给定的时间框架作为1000步。如果连续吸烟行为的数量没有达到20在给定的时间间隔,系统被认为是模型的主题,不成为一个瘾君子,但一个人如果吸烟,吸烟只是偶尔。图表的数据5(一),5(b)和5(c)显示,这种行为不会改变后,和统计方法结束模拟1000步就足以看到结果。

图5

δ δ δ δ 期望误差为每个国家的制度。(a)、(b)和(c)误差信号的期望(蓝线)和吸烟行为(红点)。最初(a)时,系统随机选择吸烟或不吸烟,但随着时间的推移,系统学习选择禁烟行动。当禁止吸烟行为坚决采用,变成了0和禁止吸烟的行动总是选择。(b)不采用特定的行为。的误差信号之间的震荡−1和1在仿真期间,和系统随机选择吸烟或不吸烟。系统没有学习任何行为。(c),系统随机选择吸烟或不吸烟,但最终,系统学习选择吸烟动作不断。即使没有选择偶尔吸烟,系统很快就克服了这一决定,再采用习得行为。当成瘾的发展,变成了0和吸烟的行动总是选择。(d)的分岔图选择动作系统(分支的颜色是绿色,稳定分支不致瘾的行为;蓝色,不稳定的分支对应于勘查;红色,上瘾的稳定分支)。

图6

4 的变化系统的参数在每个国家。(一)成瘾不发展。学习结束后,价值观的转变,即是不吸烟的行为的代码在我们的模拟。(b)的模拟,值转移到。不采用特定的行为。(c)和成瘾的发展,学习结束后价值观的转变代表吸烟行为模拟的代码。(d)行为选择系统的分岔图(已经在图)(分支的颜色是绿色,稳定的分支不致瘾的行为;蓝色,不稳定的分支对应于勘查;红色,上瘾的稳定分支)。

仿真中使用的参数值,,,,,,,基本是0.2。权重矩阵的初始值和生成随机小正实数。的矩阵是对角的主对角线元素的初始值等于1。在更新阶段矩阵的值和是标准化的。的矩阵和由0.5的常数。噪声信号和一个非常小的随机数生成。动作输出编码是对于吸烟,不吸烟,优柔寡断的行为。

在50个连续运行时,该模型完成了任务成为瘾君子的363年平均22的模拟步骤与标准偏差为288.5952 1000步。最后一个矩阵给出了审判当上瘾是设置如下: 每个国家期望错误的图形系统的图5。在数据5(一),5(b)5(c)δ误差信号的期望(蓝线)和吸烟行为(红点)。0的每个红点显示了行动的选择,当选择禁止吸烟或积极的十进制数显示的数量连续吸烟行为。的设在规范化的10个原因图形(例如,当,它实际上是20。当选择禁烟行动,设在是0。如果当前的行动是连续第五吸烟的行动选择,)。我们接受成瘾发展当吸烟先后选择了20次。误差信号δ保持不变先后,如果相同的选择和变化。在(a),最初系统随机选择吸烟或不吸烟,但随着时间的推移,系统学习反复选择禁烟行动。当禁止吸烟行为坚决采用,δ变成了0和禁止吸烟的行动总是选择。图5(b)显示δ误差信号之间的震荡−1和1在仿真期间,和系统随机选择吸烟或不吸烟。系统没有学习任何行为,即它学会优柔寡断关于吸烟。在(c),首先是系统随机选择吸烟或不吸烟,但随着时间的推移,系统学习选择吸烟动作不断。即使没有选择偶尔吸烟,系统很快就克服了这一决定,再采用习得行为。当成瘾的发展,δ变成了0和吸烟的行动总是选择。图5(d)显示了系统的分岔图每个分支对应于不同的行为模式的不同。

W的变化参数的图形在前面提到的模拟图6。显示了协会的环境影响与当前操作。在(a),学习结束后,价值观的转变的代码,即“不吸烟的行动”在我们的模拟。在(b),最后的仿真值转移到,即不采用特定的行为。在(c),当学习结束和成瘾的发展,价值观的转变代表吸烟行为模拟的代码。图6(d)显示了彩色系统的分岔图。注意,甚至截然相反的选择采取行动偶尔的图像参数不会改变其倾向。例如在图5(c),大约300步,系统选择吸烟的一段时间,但后来它跳过并选择禁止吸烟。在图中相应的步骤6(c),我们可以看到已经转移到图的角落,它不会改变它的方向虽然没有吸烟的行动选择几次。这证明系统学会选择吸烟的行为。大约400步,系统总是选择吸烟的行动。

6。结论和讨论

根据我们的假设,尼古丁上瘾是一个从冲动行为过渡到强迫行为通过强化学习发达。奖励评价大脑边缘系统的一个关键流程元素,它可以刺激容易通过强化学习任务。因此,我们基于强化学习行为选择模型使我们能够理解和遵循的行为修改过程在大脑子系统。

DA用作neuromodulatory元素的模型。腹侧被盖区DA分泌,刺激基底神经节中的行为选择的任务,并在编码学习行为。DA皮质层之间的传输(PFC、离岸金融中心和mOFC)和杏仁核和海马是有效的学习。DA分泌在南汽用于评估行为和编码奖励值。DA在基底神经节的预测结构用于决策过程。知道DA在大脑中有很多不同的角色,该模型降低这些领域单一类型的DA传输为了简化建模。

大脑处理流程建模在系统级等几个层面,单一核函数水平和分子水平。我们建议的模型利用这些不同的方法的结合。在调制模型的影响乙酰胆,DA分泌物腹侧被盖区提供了一个很现实的方法来处理奖励评估。模型的行为选择模块是基于系统级方法,和每一个方程写为每个组件的模块对应一个基底神经节的细胞核。因为模型是由不同的块,每一块作为子模型和连接这些子使用投入产出关系证明我们使用不同的建模方法。

该模型表明,尼古丁上瘾是一种习得行为,这个过程使一个人成为瘾君子可以解释为目标导向行为的故障。所以,corticostriatothalamic选择动作循环之间的相互作用与上皮层部分学习和奖励评价被认为是较低的边缘组件。论述了这些地区的大脑回路在成瘾的发展有作用。与累积效应的模型证明之前的行为是存储在内存中,用于评估可能的后果的行为。

这个工作代表进展上瘾的统一计算模型开发过程在大脑中。此外,本文的工作是一个完整的演示(13,14]。DA DA分泌来源和不同的角色的大脑保持模型的改进区域。引发的行为选择循环模型中输入曼宁然而,纹状体被称为基底神经节的调节输入核,所以选择动作子系统动力学需要改进接受调节输入从纹状体。内部奖励价值在我们的模型是几何增长。然而,中脑边缘系统的奖励的评价应该考虑另一个动态系统调制的行动结果必须考虑未来的工作。我们强调强化学习的主要过程潜在上瘾;然而,未来的工作还应该考虑其他心理过程和相关的神经递质谷氨酸和GABA等。

6.1。和改进了我们的模型的区别

我们的工作提出了一个cortico-striato-thalamic的电路由尼古丁上瘾nicotine-taking作为模型的影响。的电路两部分,对应于一个选择动作部分的背流模拟行为选择,和第二部分对应于腹侧流模拟操作的评价选择和调节行为选择。的电路利用竞争学习与腹侧被盖区DA修改信号受到尼古丁的影响。时的电路是一个相互联系的结构非线性动力系统对应于运动前和运动循环的PFC-basal ganglia-thalamus,行动选择的修改实现通过改变一个参数的循环运动。这个参数,Wr,对应于达通过强化学习过程的调节效应。通过调整参数,系统可以学会是一个瘾君子,nonaddict,采用一个优柔寡断的人的行为模式。因此,的模块,不像的‎(11),能够揭示强化学习。在‎(11提及),强化学习;然而,模型并不管理nicotine-taking通过自己的选择。动力系统被认为是由非线性离散时间系统,因此,该模型的非线性和动态项目认知过程出现,它仍然是容易跟随参数变化的动态行为出现。

本文目的是支持这个想法,成瘾的发展作为一种有目的的行为,因此,cortico-striato-thalamic行动选择的互动循环成瘾的发展有重要的作用。因为之前的行动的累积效应引发目前的行为选择,这种机制被建模为一个非线性动力系统实际模拟成瘾过程和神经结构的强化学习的作用。

此外,我们改进了n-s-c电路中给出‎(11)来演示的反应的变化对血液中尼古丁乙酰胆当成瘾的发展水平。通过参数化修改激活函数(附录一个),的破坏性影响成瘾对立过程可以观察到。的值γ和φ参数变化的范围获得给定的图在图1。

附录

一个。

慢性尼古丁消费,乙酰胆DA神经元的行为在三个不同的时间尺度。并行快速DA信号增加乙酰反应,。Upregulation数量的增加乙酰胆表面的DA神经元对尼古丁使他们更敏感。信号显示了upregulation乙酰胆。大脑的长期对立,试图把用乙酰反应正常水平。这些信号,是最快的,是最慢的11]。

的初始值,,是中使用的参数方程方程中所使用的利率激活功能通过改变的值γ和φ参数的范围的影响成为一个瘾君子的对立过程可以证明是在图1。在成瘾,b持久,opponent-processes的中性水平低于健康人的中性水平。

的动态方程,,是

B。

在我们的行动选择模块获得的(12),有两个组件:运动前和运动循环。运动前区(pm)和运动方程()循环cortex-basal ganglia-thalamus (C-BG-TH)动力系统的模块给出如下: 的变量,,,,支持向量对应的皮层,Thl, Str, STN,和GPi /信噪比的运动和运动循环,分别。这些向量的维度是由行动选择的数量决定的。对尼古丁上瘾,两个动作被认为,“烟”和“不吸烟”,所以系统作为一个整体的尺寸是20。就像在‎(12),选择动作模块决定的行动结果评估的价值提出了刺激。然而,如果奖励信号生成的刺激令人失望,生成一个随机响应。使随机性,噪声信号添加到电动机回路。运动前区部分完成评估和确定可能的行动,然后马达部分决定这些可能性之一作为鉴别器。用感官刺激影响运动循环,该循环调节电动机的输出循环,导致行动。对尼古丁上瘾模型在这个层次上,这感觉刺激被认为是中性的,使用一个二维向量相同的组件值小。

乙状结肠和给定的非线性函数

确认

这项工作是由ITU-BAP项目没有。17250年,图项目没有。111 e264。

补充材料

文中给出的仿真结果得到模型的m-files行为和XPPAUT编码分岔图。这两个源代码作为补充材料,可以提供下载http://www.selinmetin.info/。

补充材料

引用

s e·海曼、r . c . Malenka和e . j .是个“成瘾的神经机制:犒赏学习和记忆的作用,“年度回顾神经科学,29卷,第598 - 565页,2006年。视图:出版商的网站|谷歌学术搜索
r . Spanagel和m . Heilig”成瘾和大脑科学”,上瘾,卷100,不。12日,第1822 - 1813页,2005年。视图:出版商的网站|谷歌学术搜索
b·j·埃维里特,j·a·帕金森,m·c·奥姆·m·阿罗约p .多和t·w·罗宾斯,“联想过程成瘾和奖励。的角色amygdala-ventral纹状体子系统”,纽约科学院上卷,877年,第438 - 412页,1999年。视图:出版商的网站|谷歌学术搜索
r . n .红衣主教和b·j·埃维里特,”神经食欲的学习和心理机制:药物成瘾的链接,”目前在神经生物学的观点,14卷,不。2、156 - 162年,2004页。视图:出版商的网站|谷歌学术搜索
哈伯、j·l·福吉和n·r·麦克法兰”Striatonigrostriatal通路灵长类动物形式的一个提升的螺旋壳背外侧纹状体,“神经科学杂志》上,20卷,不。6,2369 - 2382年,2000页。视图:谷歌学术搜索
r·l·所罗门和j . d . Corbit”一个激励的对立过程理论”,美国经济评论,卷68,不。6、12 - 24,1978页。视图:谷歌学术搜索
g . f . Koob和m . Le Moal”上瘾,对手激励过程的神经生物学机制”英国皇家学会哲学学报B,卷363,不。1507年,第3123 - 3113页,2008年。视图:出版商的网站|谷歌学术搜索
p .达扬“多巴胺、强化学习和上瘾,”Pharmacopsychiatry,42卷,S56-S65, 2009页。视图:谷歌学术搜索
Peele和b . k .亚历山大”成瘾的意思,“第三章,成瘾的理论,http://www.peele.net/lib/moa3.html。视图:谷歌学术搜索
m·r·德尔珈朵“犒赏反应人类的纹状体,纽约科学院上卷,1104年,第88 - 70页,2007年。视图:出版商的网站|谷歌学术搜索
b . s . Gutkin s Dehaene j.p.襄热,“尼古丁上瘾的neurocomputational假说,”美国国家科学院院刊》上的美利坚合众国,卷103,不。4、1106 - 1111年,2006页。视图:出版商的网站|谷歌学术搜索
n . s . Sengor o . Karabacak,美国斯坦梅茨,”cortico-striato-thalamic电路的计算模型有目的的行为,”课堂讲稿在计算机科学中,ICANN学报》上,卷5164,不。2、328 - 337年,2008页。视图:出版商的网站|谷歌学术搜索
美国Metin和n . s . Sengor“动力系统方法在建模上瘾,”Brain-Inspired认知系统研讨会论文集(BICS的10),2010年。视图:谷歌学术搜索
美国Metin和n s Sengor neurocomputational模型基于强化学习的尼古丁上瘾,”20学报》国际会议上人工神经网络(ICANN的10)2010年,页15 - 18日。视图:谷歌学术搜索
s . h·艾哈迈德·m·Graupner, b . Gutkin”计算方法药物成瘾的神经生物学,”Pharmacopsychiatry,42卷,补充1,S144-S152, 2009页。视图:谷歌学术搜索
r·s·萨顿和a·g·Barto强化学习:介绍美国剑桥,麻省理工学院出版社,质量,第二版,1999年版。
公元Redish”上瘾是一个计算过程失败,”科学,卷306,不。5703年,第1947 - 1944页,2004年。视图:出版商的网站|谷歌学术搜索
古托斯基Grossberg和w·e·”,风险性决策的神经动力学:情感平衡和认知情绪的相互作用,”心理评估,卷94,不。3、300 - 318年,1987页。视图:谷歌学术搜索
美国Grossberg和n . a . Schmajuk”神经动力学的注意力调制巴甫洛夫conditioning-conditioned强化,抑制,和对手processing_Grossberg”精神生物学,15卷,不。3、195 - 240年,1987页。视图:谷歌学术搜索
n . d .寒鸦s进行祷告,p .达扬“对手5 -羟色胺和多巴胺之间的相互作用,”神经网络,15卷,不。4 - 6,603 - 616年,2002页。视图:出版商的网站|谷歌学术搜索
A . Dezfouli p . Piray m . m . Keramati h . Ekhtiari c·卢卡斯和A . Mokri“neurocomputational模型对可卡因上瘾,”神经计算,21卷,不。10日,2869 - 2893年,2009页。视图:出版商的网站|谷歌学术搜索
n . d .寒鸦多巴胺系统的强化学习模型(博士和他们的行为的影响。论文)卡内基梅隆大学,2003。
m . Guthrie c·e·迈尔斯和m·A·格里克”neurocomputational模型主音和相位的多巴胺的行动选择:和帕金森病认知障碍相比,“大脑研究行为,卷200,不。1,48-59,2009页。视图:出版商的网站|谷歌学术搜索
m . Graupner和b . Gutkin尼古丁控制在腹侧被盖区多巴胺信号,”神经科学。在出版社。视图:谷歌学术搜索
m . Graupner和b . Gutkin建模从全球功能和网络水平烟碱神经调节乙酰胆机制为基础,“Pharmacologica学报,30卷,不。6,681 - 693年,2009页。视图:出版商的网站|谷歌学术搜索
A . m .奥斯特和b s Gutkin DA神经元的减少模型动态显示静止,主音发射和破裂,“生理学杂志》的巴黎,卷105,不。1 - 3,53-58,2011页。视图:出版商的网站|谷歌学术搜索
k·梅休b . r .剥,j·a·莫特”阶段发展的青少年吸烟,”药物和酒精依赖,卷59,补充1,第81 - 61页,2000年。视图:出版商的网站|谷歌学术搜索
http://medical-dictionary.thefreedictionary.com/。
p . w . Kalivas“成瘾的神经回路,”神经精神药理学:第五代的进步,95章,页1357 - 1366,Lippincott, Williams &威尔金斯,2002。视图:谷歌学术搜索
g . f . Koob和m . Le Moal”药物成瘾、失调的奖励和拮抗平衡,即“神经精神药理学,24卷,不。2、97 - 129年,2001页。视图:出版商的网站|谷歌学术搜索
萨尔d, y, a Bonci, r . c . Malenka“药物滥用和压力引发常见的多巴胺神经元突触的适应,”神经元,37卷,不。4、577 - 582年,2003页。视图:出版商的网站|谷歌学术搜索
d . w .自我,“神经基质的药物在药物成瘾,渴望与故态复萌”医学年鉴,30卷,不。4、379 - 389年,1998页。视图:谷歌学术搜索
g·迪奇亚拉”角色的多巴胺相关行为动作的尼古丁上瘾,”欧洲药理学杂志,卷393,不。1 - 3、295 - 314年,2000页。视图:出版商的网站|谷歌学术搜索
h·d·Mansvelder和d s McGehee尼古丁上瘾的细胞和突触机制”,神经生物学杂志》上,53卷,不。4、606 - 617年,2002页。视图:出版商的网站|谷歌学术搜索
a . a .优雅,s . b . Floresco y Goto,和d . j .提出“多巴胺能神经元的监管和控制目标导向行为,”神经科学的趋势,30卷,不。5,220 - 227年,2007页。视图:出版商的网站|谷歌学术搜索
a . j . Yu和p·达扬“不确定性、神经调节和关注,”神经元,46卷,不。4、681 - 692年,2005页。视图:出版商的网站|谷歌学术搜索
卓南思,m . r . s . Grossberg d·布洛克,“多巴胺能和non-dopaminergic价值系统在调节和outcome-specific升值,”大脑研究卷,1238年,第287 - 239页,2008年。视图:出版商的网站|谷歌学术搜索
e . j .是个“常见的成瘾和记忆,分子和细胞基质”学习和记忆的神经生物学,卷78,不。3、637 - 647年,2002页。视图:出版商的网站|谷歌学术搜索
n·r·泰勒和j·g·泰勒,“天生的工作记忆模型和时间序列存储和生成,“神经网络,13卷,不。2、201 - 224年,2000页。视图:出版商的网站|谷歌学术搜索
j·g·泰勒和n·r·泰勒“分析复发性cortico-basal ganglia-thalamic循环工作记忆,”生物控制论,卷82,不。5,415 - 432年,2000页。视图:谷歌学术搜索
k·格尼,t·j·普雷斯科特和p·雷德格雷夫,”行动选择的计算模型在基底神经节。即一个新功能解剖学”,生物控制论,卷84,不。6,401 - 410年,2001页。视图:谷歌学术搜索
k·格尼,t·j·普雷斯科特和p·雷德格雷夫,”行动选择的计算模型在基底神经节。二世。分析和仿真的行为。”生物控制论,卷84,不。6,411 - 423年,2001页。视图:谷歌学术搜索

计算智能和神经科学

文摘