在连续的学习泛化的认知模型

文摘

传统的人工神经网络模型的学习受到灾难性的干扰。它们通常训练来执行特定的任务只有一个,当训练一个新任务时,他们完全忘记最初的任务。已经表明,Leabra neurocomputational的根本原则体现的认知建模框架,特别快速的侧抑制和一个当地的突触可塑性模型,其中包括相关性和偏差的组件,能够在很大程度上克服这个限制在连续的多个运动技能的学习。还提供了证据,Leabra能够概括运动技能的子序列,当这样做是适当的。在本文中,我们提供了一个详细的分析概括的程度可能与Leabra顺序学习的多个任务。相比之下,我们测量误差反向传播学习算法的泛化展出。此外,我们演示顺序学习的适用性一双运动任务使用一个模拟的机械手臂。

1。介绍

人类获得许多不同的技能、行为和记忆一生。缺乏使用特定的技能、行为或内存导致缓慢下降。这是一种常见的观察这篇作品的知识通常是快速比最初的收购。这个保留的知识,经常以潜在的形式,被称为储蓄。

为什么我们观察一块性能退化当一个特定的知识无法使用?最初的收购任务的知识是由突触可塑性,由经验。这种可塑性继续即使任务知识并不经常使用。因此,经验与其他活动可能影响神经回路的方式干扰的初步知识。

而储蓄的神经基础又会是什么呢?储蓄可能出现由于神经专业化。的一些神经元受雇于一个初始任务学习后续任务时可能不被重用。的程度与不同的任务相关的组神经元是不相交的,学习一个任务不会影响与另一个相关联的突触。但是请注意,当神经元之间共享任务储蓄仍然是可能的。储蓄可能源于阈下的残余突触权重与初始task-weights压低了干扰经历为神经放电低于阈值,但并不是所有的到他们的初始值。最后,任务可以共享组件或子任务。”的程度,这些组件隔离神经表征,学习一个新任务实际上可能加强的部分以前学的任务。

人类学习传统的人工神经网络模型,包括基于强大误差反向传播学习算法,不能充分显示强劲的存款任务学习顺序。一组突触连接权值作为神经网络的记忆,和任何的任务是学会了通过修改这些权重。这是神经网络的力量,因为他们可以学习几乎任何可能的输入输出映射。然而,这也是问题的来源,因为网络有一个固有的倾向,突然,完全忘记之前学的知识当面对新训练的输入。这种现象被称为灾难性的干扰(1]。这可以防止人工神经网络具有储蓄和,因此,导致对自己的生物合理性问题。

在我们以前的工作,我们建议的生物结构所施加的约束皮质电路可能体现必要的属性来促进储蓄,期间观察到的人类技能收购(2]。具体来说,我们检查了neurocomputational原则形成Leabra认知建模框架(3),我们发现这些生物动力原则产生的储蓄而不需要任何辅助机制。我们的研究表明,快速的Leabra实现代理横向协同抑制作用与突触可塑性机制为了产生充分稀疏表示支持技能储蓄。

稀疏表征涉及的神经活动模式中,只有一小部分的神经元“池”或“层”是强烈活动在任何时候。使用稀疏表示的结果在不同的神经元被用于不同的任务,网络已被训练来执行。有理由相信,当学习多个任务时,人类是能够概括常见的结构,它们之间是否存在。在我们之前的工作中,我们提供了初步证据表明Leabra网络,即使有稀疏的内部表示执行由一个生物合理的侧抑制机制,能够概括常见的由多个任务共享的子任务,如果这样做会导致适当的反应。在这篇文章中,我们提供一个更详细的分析概括Leabra网络。我们表明,泛化见过Leabra网络学习两个任务顺序与泛化看到两个任务时学会了以交叉的方式。相比之下,一个backpropagation-based人工神经网络不仅不显示任何泛化,但它还没有显示任何储蓄。

大多数神经元网络控制器需要大量的培训在一个特定的任务和需要再次培训如果网络随后学习不同的任务(4,5]。网络模型展览储蓄为这样的应用程序提供了潜在的好处。先前学习任务所需的培训时间大大减少,如果网络展览储蓄。这样一个网络将能够学习的多个任务顺序而不需要交错这些任务。

各种各样的顺序重要紧迫的任务已经被用来研究人类运动技能学习(6- - - - - -8),和一些有趣的发现。有一段时间的快速的改善表现在早期阶段的训练。在这个阶段,学习效应是独立的(例如,切换手不大幅降低性能)。进一步,干扰额系统参与控制通路在此期间严重干扰的性能。干扰自动途径,然而,并不影响性能在人生的早期阶段。在本文中,我们证明我们的适用性Leabra学习网络模型在模拟机器人机械手的运动任务。网络能够表现出储蓄而学习手臂运动任务顺序,从而大幅降低所需的培训时间。

本文组织如下。在下一节中,我们提供了一些背景和相关工作的概述。部分3提供了一个描述Leabra-based任务学习模型和模拟模型。部分4描述了这些仿真实验的结果。我们讨论的结果,以及一些结论。

2。背景

2.1。Leabra

Leabra框架提供了一组基于已知的综合认知建模形式皮质电路时足够抽象的属性来支持仿真的行为引起的大神经系统。它包括树突整合使用point-neuron近似,神经编码的发射率模型,大脑皮层区域之间的双向激励,快速的前馈和反馈抑制,突触可塑性机制(3](参考附件更详细的描述)。Leabra模型已经成功地阐明认知功能在各种各样的领域,包括知觉、对象识别、注意,语义记忆、情景记忆、工作记忆、技能学习、强化学习,内隐学习,认知控制和语言学习和使用的各个方面。特别相关的技能储蓄Leabra侧抑制形式及其突触学习规则。

在大脑皮层,两个连接的一般模式曾被观察到涉及抑制性神经元及其与兴奋性神经元的相互作用,也就是说,前馈和反馈抑制(3]。前馈抑制发生在大脑皮层区域的抑制性中间神经元的输入直接驱动地区,生产的快速抑制兴奋性神经元。附近的反馈抑制发生在相同的神经元激活抑制性中间神经元,进而抑制细胞激发,产生一种负面反馈循环。

抑制性中间神经元的影响往往是强大和快速的皮层。这允许抑制法在一份监管作用,中介的积极反馈双向兴奋大脑区域之间的连接。模拟研究表明,快速前馈和反馈抑制的组合可以产生一种“设定点动态,”意味着发射率的细胞在一个给定的地区仍相对稳定的适度变化的平均强度输入。作为输入变得更强,他们开车抑制性中间神经元兴奋性锥体细胞,产生兴奋和抑制之间的动态平衡。Leabra实现这个动态的使用k-Winners-Take-All (kWTA)抑制功能,快速调节池的数量抑制了一层模拟皮层神经单元,基于层的输入活动。这导致约常数单位超过他们的点火阈值。一层内的侧抑制可以参数化在很多方面,最常见的是单位的比例在料层中,平均超过阈值。一层神经单位有一个小的价值参数(例如,10 - 25%)会产生稀疏表示,只有一小部分单位的活动。

关于学习,Leabra修改突触连接在两个主要方面的力量。一个纠错学习算法改变突触权重,提高网络任务的性能。与误差反向传播算法,Leabra纠错方案不需要生理上难以置信传播错误信息向后跨突触。除了这种纠错机制,Leabra还集成了一个Hebbian相关学习规则。这意味着突触权重将继续改变即使任务绩效本质上是完美的。这种形式的相关学习允许Leabra捕捉某些过度学习的影响。

2.2。灾难性的干扰

许多过去的研究表明,人工神经网络遭受一种灾难性的干扰是人类表现的异常。灾难性的干扰的例子是实验由麦克洛斯基和科恩(1),作者试图使用一个标准的反向传播网络执行AB-AC研究任务。在这个任务中,网络开始通过学习成对associates的一组(a - b)组成的一个非言词和一个真正的词(如“pruth-heavy”)。一次,这种学习完成后,他们训练的网络关联一个新的真正的原词与每个非言词(a - c)。作者发现,一旦培训交流名单开始,网络完全忘记了AB列表。

原始观测以来的灾难性的干扰在人工神经网络中,提出了一系列的计算机制来克服它。其中大部分涉及隔离与不同的技能相关的神经单位为了避免造成的损害的“重用”突触权重(9]。例如,迫使神经单元的层形成稀疏表示的概率降低单位将活跃在执行一个给定的技巧,从而减少干扰的概率在学习多种技能序列。Leabra提供了一种生物生产稀疏表示的合理机制。较低参数,LeabrakWTA侧抑制实现限制之间的重叠的神经表征用于不同的任务。这已经被证明可以提高性能的AB-AC学习任务列表(3]。

神经元之间的一种极端形式的隔离用于不同的任务包括隔离成离散模块。模块化的人工神经网络架构提出了明确检测任务的差异在学习,和“新鲜”模块的神经单位是从事学习的任务,保护之前训练模块从干扰10,11]。任务的重要的是,过度学习可以加强其整合在一个模块中,增加抵抗干扰,是观察人类[12,13]。虽然这样的模块化模型可以表现出强劲的储蓄(和适当的有限形式的干扰),未经训练的神经模块的生物合理性储备等待分配新任务时需要学习是有问题的。即使我们假设的存在未使用的模块,问题仍然对他们granularity-do我们需要一个不同的模块甚至不同变体的相同的任务?它还提出了一个问题可用模块的总数。一些模块化网络确实显示有限形式的泛化通过结合多个模块的输出11),但他们仍然需要为大多数情况下使用一个新的模块(14]。

这种模块化方法应该区别假设海马体和大脑皮层形成不同的学习系统(15]。这个假说认为灾难性的干扰是通过使用一个快速减轻海马学习系统,使用稀疏表示。而皮层系统假定使用更少的稀疏表示,使他们更容易受到干扰,问题是通过海马介导整合的过程,避免在皮层网络接收交叉在多个“虚拟”实践技能。通过中介的海马体,多种技能继续基本上学会了“在一起,”而不是按顺序一个接一个。

一个成功的计算学习策略,在本质上是类似的海马介导整合涉及的使用“pseudopatterns”[16]。训练的人工神经网络模型用于生成虚拟训练experiences-pseudopatterns-which类似于之前学的模式。这些pseudopatterns混合与新模式,对应于新的学习经验,并给出网络交叉培训所有这些模式。已经观察到的使用pseudopatterns大幅减轻灾难性的问题干扰(17,18]。然而,生物机制引起的生成和使用这些模式尚未充分阐述。也是难以想象的一代pseudopatterns维护各种各样的知识。尤其是如果海马体被认为是唯一的网站维护的混合培训模式集。各种知识和技能的习得不依赖海马。例如,有证据表明,人类可以继续学习新的运动技能甚至完全删除后海马(19]。

有很多其他因素导致储蓄(2,20.]。之间的上下文线索帮助解释清楚不同的任务,也可能导致使用不同的神经元的表示。过度学习特定任务导致的锐化表示,这是抗扰动。最后,有可能干扰任务的学习期间突触变化可能推动某些神经元与先前学习任务低于发射threshold-but略低于阈值,使他们能够很快恢复一次实践之前的任务是恢复。

在以往的研究中,我们已经表明,稀疏表示执行Leabra侧抑制机制,结合其突触学习规则,导致Leabra皮质电路的模拟逃生最可怕的陷阱的灾难性的干扰,当这些电路都必须按顺序学习多个暂时延长运动轨迹(2]。

2.3。泛化

使用稀疏表示结果的使用不同的神经元对不同的任务。这意味着网络学习任务高度专业化的方式。因此,网络可能无法推广公共子结构之间存在不同的任务。有理由相信,人类是能够做出这样的概括,即使任务顺序学习。同时,人工神经网络模型的人类学习多个任务时泛化学习以交叉的方式(21]。这样的概括也走出网络,生成pseudopatterns以前学的任务(17,18]。

是否有可能为一个网络稀疏表示计划任务时仍然表现出泛化学习顺序?我们知道,一个小值的使用参数为内部隐藏层创建使用不同单位不同的任务的可能性。上下文提示层增加这个概率通过提供不同的隐层神经元的输入不同的任务。上下文线索在生理上合理,显著提高储蓄。然而,如果提示信号太强,它执行一个单独的表示即使是常见的子任务,从而阻碍泛化。我们发现线索的强度可以设置为一个最优值,这样网络继续表现出明显的储蓄通过实施正交表示(22),同时仍然允许使用相同的神经元为常见的子任务,从而使泛化。

2.4。神经网络控制器

神经元网络控制技术已被广泛用于解决控制工程中常见的问题。最有用的特性的神经网络控制的能力通过学习近似任意线性或非线性映射。因为上述性质,研制了许多神经元网络控制器补偿非线性的影响和系统不确定性的控制系统,使系统性能的稳定性和鲁棒性等可以改善。

已经有相当多的研究对智能或自学neural-based控制器体系结构的发展机器人技术。Riedmiller和Janusz23)提出了一种神经自学习控制器架构基于异步动态规划的方法(24]。控制器的功能显示在两个典型的序贯决策问题。Johnson et al。25)是第一个利用反向传播网络训练一个机械手臂。backprop能够制定手臂逆运动学关系的手臂上被训练之后的数据。Hesselroth et al。26)采用神经算法映射到控制一个five-joint气动机器人手臂和爪通过反馈两个摄像机。气动驱动机械臂(SoftArm)受雇于这个调查股票与骨骼肌系统的基本力学特性。控制臂的位置,200个神经元代表三维工作空间形成了一个网络嵌入在一个四维坐标系统的两个摄像头和学会了一套三维压力对应于末端执行器的位置。

Bouganis和沙27)提供一个自主神经网络架构,学会控制飙升4-degrees-of-freedom机械臂在最初一段时间的汽车胡说。其目的是提供的联合命令将末端执行器所需的空间方向,鉴于联合配置的胳膊。Vaezi和Nekouie28)利用一种新的神经网络和时间序列prediction-based方法控制复杂的非线性多变量机械臂运动系统在3 d环境中而复杂的机械臂的动力学方程在控制器设计阶段。

2.5。连续的学习

连续训练的意义和优势在给定的网络体系结构无关的部分任务仍然主要是未知的,不清楚或甚至出现消极的形式,例如,灾难性的干扰(20.,29日]。然而在机器人和机器学习,已经进行了很多尝试在分析增强学习通过一系列的培训环境(30.- - - - - -35]。萨尔et al。36)考虑触觉歧视的问题,评估一个潜在的目标状态参数的顺序设置。他们提出一个框架,使用主动学习帮助的顺序收集样本数据,利用信息理论标准寻找最优行动在每个时间步。克鲁格探索的影响顺序训练在认知领域的形式塑造。他认为抽象,然而更多的启发,学习模型并提出了扩展和需求,以确保使用长期记忆模型塑造是有益的。虽然这个模型可以学习顺序和减轻灾难性的干扰,这是依赖一个显式的内存模型,而我们的模型避免了灾难性的干扰通过模拟真实神经元的生物过程如侧抑制。克鲁格(37]探索的影响顺序训练在认知领域的形式塑造。他认为抽象,然而更多的启发,学习模型并提出了扩展和需求确认塑造有利于顺序学习。然而,我们所知还没有系统被设计来显式地利用储蓄在连续的环境中利用泛化现象的神经模型的认知框架。

2.6。RoboSim机械手臂模拟器

RoboSim模拟机器人机械手(38)是用于证明我们的方法的适用性学习运动序列。RoboSim是6个自由度机器人机械臂的仿真系统。对于我们的实验我们只用三个关节,使其他3固定导致3自由度机械手。机械手可以在关节坐标或笛卡尔坐标移动。RoboSim允许联合权重被改变,以支持各个关节的运动与他人。仿真系统既包括机械手运动学和逆解。该系统还允许用户教操纵者一系列连续运动。

3所示。方法

3.1。模拟的任务Leabra网络

四个不同的任务是用于我们的模拟。每个任务包含18个不同的输入-输出双,输入和输出向量随机生成的。虽然每个任务不同的输出向量,输入向量保持相同的所有任务。这导致了不同的输入输出映射网络学习的不同的任务。

培训基地的任务后,网络训练的干扰任务。表1简要描述了相似性干扰的基本任务和任务。干扰任务训练后,保留性能基础上的任务是评估。每个输入和输出模式是在Leabra网络编码的神经单位36。


任务	相似

没有相同的任务	没有与基地的任务
5模式相同的任务	5 18模式一样的基本任务
10模式相同的任务	10的18模式一样的基本任务

3.2。网络

图1显示了Leabra网络用于我们的模拟。每一步,36-unit输入向量,提供的网络编码的一个18模式由一个任务。从这个输入完全互联层100单元隐藏层产生一种内部表示为当前模式,与所控制的稀疏表示在隐层(即侧抑制。,由其参数)。完成双向兴奋性连接这种内部表示映射到一个输出层,目的是编码输出模式。在培训期间,输出层也能提供一个目标信号,指示正确的输出。背景层包含两个单位,每个对应的两个学习任务,指示的两个任务是由网络。这一层是连接到隐层有80%几率给定上下文之间的互连层单元和任何给定隐层单元。这个随机互连结构将增加正交的机会表示不同的任务。

大多数的网络参数用于模拟是Leabra默认值。单元之间的连接权重随机初始化的平均值为0.5,方差为0.25。任何互连的最小重量值是0,最大值1。任何节点的激活可能范围在0和1之间。Leabra使用GeneRec的混合学习算法和Hebbian学习的一种形式。GeneRec是error-driven学习算法(3]。Hebbian加强学习在我们的模拟,而Leabra违约,导致突触体重的1%变化而不是默认的0.1%。培训的学习速率是设置为0.01。错误容忍被设置为0.25。这意味着任何输出装置可以在±0.25所需的活动没有促使纠错学习。为了促进稀疏的内部表示,一个值用于隐藏层。作为对比,误差反向传播网络(BP)、匹配Leabra网络的结构和规模,也检查了。

有两种常见的措施节省:准确的识别和再学习(9]。准确识别测量评估原始任务网络的比例正确执行后学会了第二个任务。再学习测量网络检查需要多长时间重新学习最初的任务。这两个指标通常是相关的。我们使用一个精确的识别测量评估储蓄。特别是,我们测量了和平方网络输出的误差(SSE)第一个任务训练后在第二个任务。为了对比这个SSE价值“完全忘记”的第一个任务,上交所也记录在第一个任务训练之前,我们报告的比例SSE干扰训练SSE后未经训练的网络。这一比率的一个或多个值表明完成忘记最初的任务,而较低的值表明储蓄。

衡量相似性隐层表示常见的子任务在两个任务之间,两个不同的措施。首先,我们计算均方根(RMS)的价值之间的差异隐藏层活动常见的子任务使用以下公式:

在这里,的活动吗th隐层单元后常见的子任务网络一直在训练基地的任务。同样的,的活动吗th隐层单元的网络一直在训练后常见的子任务干扰任务。层单位的总数。最小均方根值为0。这将会发生,如果隐层两个任务的活动是完全相同的。因为单位的活动仅限于范围在0和1之间,最大均方根值是1。这将发生如果隐藏层活动完全正交,每单位解雇其最大可能的激活值的任务和根本不是解雇其他任务。

第二,我们测量的百分比总活动单位(至少0.05激活),是普遍的常见的子任务在两个相关的培训。这个比例是一个很好的衡量相似性表示Leabra网络,自大约只有10单位在任何时间(因为十分活跃隐藏层)。然而,这种方法并不适合于BP网络,因为英国石油公司使用几乎所有隐藏的单位来表示一个任务。

我们五次重复每个实验为了处理随机变化(等因素引起的随机初始权重和模式)的随机模拟。我们报告这些重复的平均值。

4所示。结果

4.1。泛化

随机初始化网络训练基础上的任务。然后,网络干扰任务训练。同样使用“任务”第二个任务;上交所比率的变化作为隐层的函数WTA参数如图2。

我们发现一个常规的减少和降低误差率。这种减少的原因是减少重叠的基本任务和没有相同的任务变得稀疏的隐藏层激活模式表示。我们测量的百分比总活性单位常见的两个任务。这个比例是密度大,表示和稀疏表示的明显下降。因此,增加侧抑制产生更多不同的任务,并最终改善之间的内部表示储蓄。网络显示完整遗忘(SSE比率大于1)的基本任务大于40。这表明储蓄Leabra网络将展出WTA机制,而不是由于其复发性架构。发现BP网络表现出任何储蓄。这是按预期由于没有明确的机制来促进不重叠的隐层BP网络的表示。

接下来,我们固定隐层和执行类似的实验与所有其他的干扰任务。表2展示了各种情况下SSE比率。发现SSE比例接近1的BP网络。这表明,BP网络一直经历了灾难性的干扰。在另一个极端是Leabra网络,给出了两个任务交叉培训。在这种情况下,网络学习的任务。Leabra网络与上下文线索(激活1.0级和0.35)是连续训练的两个任务显示重要的储蓄,由一个很小的SSE比率。


网络	5模式相同	10模式相同

英国石油公司	1.269 (±0.0242)	0.841 (±0.0425)
上下文= 1.0	0.196 (±0.0606)	0.144 (±0.0457)
上下文= 0.35	0.147 (±0.0350)	0.108 (±0.0168)
交叉	0.000 (±0.0000)	0.000 (±0.0000)

测试网络是否能够提出一个广义表示常见的子任务,我们比较常见的隐层活动子任务之间的两个任务的学习。表3显示了活跃的比例的单位,在两个任务是很常见的。如上所述,这个比例计算只为Leabra网络。


网络	5模式相同	10模式相同

上下文= 1.0	(12.748±1.695)%	(12.724±1.975)%
上下文= 0.35	(71.246±2.036)%	(66.702±2.750)%
交叉	(68.882±1.785)%	(67.340±2.300)%

我们发现Leabra网络的上下文线索强度0.35显示了Leabra泛化与网络,两个任务以交叉的方式训练。另一方面,上下文线索的Leabra网络强度1.0显示了很少的泛化。相比之下,我们还测量了常见的活跃的百分比单位“没什么相同的任务”时用作干扰任务和上下文线索是1.0的力量。我们发现这个比例是零,这说明完全正交的内部表示。

比较结果的概括Leabra网络与BP网络,我们计算均方根(RMS)不同隐层常见的子任务之间的两个任务活动。表4显示了不同情况下的均方根值。再一次,这是观察到的RMS的区别是可比Leabra网络与上下文线索强度0.35 Leabra网络,给出了交叉培训。Leabra网络同时,RMS值的上下文线索强度1.0与BP网络。相比之下,我们也测量了RMS值“没什么相同的任务”时用作干扰任务。BP网络的均方根值,Leabra网络。


网络	5模式相同	10模式相同

英国石油公司	0.324 (±0.0080)	0.381 (±0.0067)
上下文= 1.0	0.299 (±0.0044)	0.329 (±0.0060)
上下文= 0.35	0.159 (±0.0060)	0.147 (±0.0052)
交叉	0.156 (±0.0053)	0.156 (±0.0083)

4.2。储蓄

发现我们的模型的展品储蓄,我们进行了模拟记录网络如何改变在训练和灭绝。动物是更快的获取一个熄灭行为,相比最初的收购,他们快熄灭再获得的行为,比最初的灭绝(39- - - - - -44]。随机初始化网络训练反应模式的表示。一旦这个培训达到标准,网络训练模式的表示不回应。这个过程被重复5次。图3显示的数量连续采集和灭绝培训所需试验。注意,所需的时间迅速减少。模型预测所需数量的试验将渐近线几acquisition-extinction迭代后一个较小的值。

网络开始小初始突触权重。因此,巨大的重量变化,需要在第一次成功收购训练。第一次灭绝训练期间,收购神经元的权重开始减少和灭绝的权重神经元开始增加。一旦灭绝神经元赢得抑制竞争,往往低于收购神经元放电阈值。在这个阶段,停止收购神经元的权重降低,这些神经元不再导致错误输出。因此,大量收购相关协会力量保留通过灭绝的过程。篇训练期间,再次收购增加神经元的权重,权重灭绝神经元减少。再次,权重停止改变一旦灭绝神经元失去抑制竞争。因此,大多数extinction-related可塑性是保留通过收购的过程。通过这种方式,随后的收购和灭绝培训需要一个很小的重量变化(图4)。有效地获取和灭绝协会保持并排在网络,允许它们之间的快速切换基于最近的培训反馈。

图4

- - - - - - 这个图块的变化总结连接权重的获取途径和灭绝的途径(轴)在连续采集和灭绝培训(设在)。重量减少的变化在两个途径的收购和灭绝之前训练的数量增加。似乎有一个缓慢上升的趋势在权重的途径,这似乎是一个怪癖的模拟器。

4.2.1。准备节省机械手臂的动作

我们使用我们的模型来模拟手臂运动序列的学习。我们的模型控制模拟3日共同平面的手臂动作在一个三维空间,如图5。臂的状态在任何时候由向量(q1、q2、q3), q1、q2和q3是三个关节角。之间的关节角范围和。两个不相关的轨迹是教每个轨迹表示为一个序列的机械手手臂州在连续的时间步骤。在培训过程中,手臂基本上是沿着期望的轨迹,与电机的输出之间的差异的手臂控制器和配置的手臂,在指定的指导,作为衡量误差驱动突触的体重变化。

图6显示了Leabra网络用于我们的模拟。Sensory_Input层提供的当前状态的胳膊作为网络的输入和Motor_Output层是生产所需的手臂状态下一个时间步。各关节角是编码在一池36神经单位。每个36单位首选的角度,从来,在增量。编码一个给定的关节角,最接近的单位对偏好,以及它的两个邻国,将其最大发射率。同样,活动模式在每一行的36个单位Motor_Output被识别的首选角度解码单元中间的三个相邻的单位都是活跃的。活动的其他模式Motor_Output层被认为是不合语法的。与每个关节角编码在36个单位通过这种方式,完整的手臂配置编码超过108单位。背景层被用来编码相关上下文信息的任务。

连续20手臂位置的任务由机械手被训练来实现。机械手已经学了动作后第一个任务,网络随后在第二个任务训练。生成的任务是确保没有任务之间的通用模式。机械手在第一个任务然后测试和重新训练。机械手能够准确地记得培训15 20运动的首要任务与SSE比率为0.234。更重要的是,培训时间再学习第一次只是2时代而不是15训练的网络时代。

进一步调查储蓄的应用,机械手顺序网络训练五个机械手的任务(任务1 - 5)。所有任务的SSE比率表所示5。正如预期的那样,最近的SSE比率是最低的训练任务,显示更多的存款为这些任务。更重要的是,所有任务的培训时间明显少于最初的训练时间。图7显示了先后训练任务的储蓄的变化与不同价值观的隐藏层。随着参数的增加,网络能够保留较少的信息之前训练任务。


任务	上交所比率	培训的时代	再培训时代

任务1	0.522 (±0.0033)	10.8 (±0.24)	4.2 (±0.20)
任务2	0.467 (±0.0023)	12.2 (±0.24)	4.2 (±0.20)
任务3	0.413 (±0.0097)	15.4 (±0.24)	2.4 (±0.48)
Task 4	0.328 (±0.0049)	13.8 (±0.24)	2.4 (±0.48)
任务5	- - - - - -	13.6 (±0.24)	- - - - - -

5。结论和讨论

我们已经表明,neurocomputational Leabra建模框架原则体现的是足以产生泛化,同时表现出明显的储蓄在多个任务的顺序学习。不需要辅助计算机制。泛化是发现敏感的上下文线索输入的强度。某些神经元发展强大的连接权重常见的子任务在基地任务训练。由于强大的权重,这些神经元接收更强的输入为常见的子任务即使在干扰任务训练。因此,他们有更大的机会。上下文线索,然而,提供强大的输入某些其他神经元隐层中神经元与共享。如果提示信号太强了,这些其他神经元赢得竞争,和网络未能概括常见的子任务。我们已经表明,信号强度可以设置为一个最优值,提示是强大到足以通过代正交表示强制储蓄,同时仍然允许类似的出现表示常见的子任务之间不同的任务。泛化期间观察到的顺序学习的任务是与泛化观察到当两个任务以交叉的方式学习。

而我们以前的工作(2)演示了如何克服灾难性的干扰通过泛化Leabra网络,目前论文展示了储蓄来模拟机械臂的应用。我们已经表明,生物学上的应用合理的储蓄在机器人机械手任务的顺序学习额外的好处保留以前学的任务。我们表明,少量的培训机械手能够准确执行最初的任务。这突出了设计一个网络的优势能够学习多个任务序列。它节省了用户的麻烦交错的任务或生成人工pseudopatterns。而人类运动技能学习是更加微妙,这个框架提供了洞察快速灭绝后篇作品展出期间,受试者调节实验。这种网络可能存在更多的应用。

尽管生物合理性一直是我们工作的重点,研究这个方向也是重要的许多工程领域,使用人工神经网络。在许多真实世界的场景中,全方位的训练数据不可用。在这种情况下,传统的神经网络需要更新,新信息的到来。本文中所述的技术可以用来提高这些系统的效率,使网络学习任务的顺序。

附录

答:树突整合

神经元的基本功能是传入突触信息的转换成特定的动作电位输出模式。这种转变的一个重要组成部分是突触整合,电压的组合变形量由无数的突触输入单一膜电位的变化。Leabra模拟这种集成在神经元的树突通过加权求和的所有输入激活之后,功能转换(通常s形)的总和。

b点神经元近似

Leabra使用点神经元激活函数,模型真实神经元的电生理特性,同时简化几何单点。这个函数是一样简单的计算标准的s形的激活函数,但更多的基于生物的实现使得它相当容易模型抑制竞争,如下所述。此外,使用这个函数使认知模型更容易与生理上更详细的模拟,从而促进生物学和认知之间的桥梁建设。

c .侧抑制

侧抑制的过程尤其提出了相关的模型。侧抑制神经元之间允许竞争参与编码的刺激。随着突触学习的机制,这种竞争将把经济刺激与反应的神经元,神经元或收购,从那些副nonresponding的刺激,叫灭绝神经元。抑制功能的类Leabra采用被称为-winners-take-all功能。一个函数确保不超过单位的在一层是活跃在任何给定的时间点上。从生物的角度这是有吸引力的因为它抓住了抑制性中间神经元的性质,通过负反馈活动水平维持在约常数级别(例如,)。

D。WTA函数实现

的活跃的单位函数接收的是最兴奋性输入()。每个单元的层计算layer-wide抑制电导水平(),更新其膜电位,顶部单位会高于阈值平衡膜的潜力与价值,其余仍将低于发射阈值。函数计算的数量抑制电流这将使一个单位就在阈值给定的当前水平的兴奋性输入,在那里是膜电位阈值。在阈值(计算抑制电导)的收益率在哪里代表了兴奋性输入减去体重和贡献的偏见是总电导钾和钠离子通道,分别。和平衡电位的钾和钠离子通道,分别是(3]。计算之间的中间值吗的值和单位按兴奋电导水平()。这确保了单位仍低于阈值,单位是上面。这是由表示为一个公式在哪里确定之间的抑制作用所在和单位。

大肠Leabra学习算法

Leabra Hebbian和error-driven学习提供了一个平衡。Hebbian学习是使用一个条件执行主成分分析(CPCA)算法。使用GeneRec Error-driven学习执行,这是一个泛化的再循环算法和近似Almeida-Pineda复发性反向传播。

f . Hebbian学习

CPCA学习规则的目的是修改权值对于一个给定的输入单元()来表示输入单位的条件概率(当相应的接收单位()是活跃的)也活跃。这是表示为

在(F.1)权重反映的频率给定的输入是活跃在输入模式的子集,由接收单位。如果发生输入模式经常与这样的输入,然后从它产生的重量将会相对较大。另一方面如果输入模式很少出现在这种输入模式,那么得到的权重会小。以下重量更新规则达到CPCA条件概率目标由(F.1) 在哪里是学习速率参数。权重调整以匹配的值发送单元激活的激活加权比例,接收单位()。因此接收单位不意味着没有重量修改会发生。相反,如果接收单位是非常活跃的附近(1),更新规则修改重量匹配输入单元的激活。体重最终将发送单元来近似的期望值时,接收机是活跃的(一致(F.1))。

g . Error-Driven学习

GeneRec实现误差反向传播使用本地可用激活变量从而使这样的一个学习生物合理的规则。该算法包含+和-激活的概念阶段。在负相,网络的输出代表的期望或响应网络,作为标准的激活函数解决过程响应给定的输入模式。然后,在+相、环境负责提供的结果或目标输出激活。

所有单位的学习规则的网络接收单位与激活和发送单元与激活。的规则调整偏差权重常规重量是一样的,但与发送单位激活设置为1:

激活的两个阶段之间的区别的单位贡献整体误差信号。双向连接可以传达一个隐藏的单元输出误差的差异在其激活状态在加和减。()。

确认

作者要感谢三个匿名评论者对他们有价值的反馈,有助于显著提高文章的质量。

引用

m·麦克洛斯基n·j·科恩,“灾难性的干涉联结主义网络:顺序学习问题,”学习心理学和动力艾德,g·h·鲍尔,24卷,第164 - 109页,学术出版社,纽约,纽约,美国,1989年。视图:谷歌学术搜索
a·古普塔和d . c .诺艾尔neurocomputational原则的角色技能储蓄,”美国27日认知科学协会的年度会议,第868 - 863页,2005年。视图:谷歌学术搜索
宗像r . c . O ' reilly和y,计算在认知神经科学探索,麻省理工学院出版社,2000年。
y赵和c . c .却有些“位置和力控制的机器人机械手使用神经网络”Prroceedings IEEE会议上的机器人、自动化和机电一体化2004年12月,页300 - 305。视图:谷歌学术搜索
m . j . Er和y高,”鲁棒自适应控制的机器人机械手使用广义模糊神经网络,”IEEE工业电子产品,50卷,不。3、620 - 628年,2003页。视图:出版商的网站|谷歌学术搜索
r . s . Bapi k没有事情,a . m .要控制”效应的证据独立和依赖的表示和微分时间的运动序列学习期间收购,”大脑研究实验,卷132,不。2、149 - 162年,2000页。视图:出版商的网站|谷歌学术搜索
o . Hikosaka中村k, k .酒井法子和h . Nakahara“运动技能学习的核心机制,”目前在神经生物学的观点,12卷,不。2、217 - 222年,2002页。视图:出版商的网站|谷歌学术搜索
m·k·兰德o . Hikosaka s Miyachi et al .,”特征顺序运动早期学习期间的猴子,”大脑研究实验,卷131,不。3、293 - 304年,2000页。视图:谷歌学术搜索
r . m .法国灾难性干涉联结主义网络,麦克米伦认知科学的百科全书,2011。
t . Brashers-Krug r . Shadmehr大肠托多罗夫,“灾难性的干涉人类的运动学习,”先进的神经信息处理系统7卷,19-26,1995页。视图:谷歌学术搜索
m . Haruno d·m·沃伯特和m . Kawato“马赛克感觉运动学习和控制模型,神经计算,13卷,不。10日,2201 - 2220年,2001页。视图:出版商的网站|谷歌学术搜索
t . Brashers-Krug r . Shadmehr大肠Bizzi,“人类运动记忆,巩固”自然,卷382,不。6588年,第255 - 252页,1996年。视图:出版商的网站|谷歌学术搜索
r . Shadmehr和h·h·霍尔科姆,”神经运动相关记忆的巩固。”科学,卷277,不。5327年,第825 - 821页,1997年。视图:出版商的网站|谷歌学术搜索
c . Miall“模块化运动学习”,认知科学趋势》第六卷,没有。1、1 - 3,2002页。视图:出版商的网站|谷歌学术搜索
j·l·麦克勒兰德、b . l . McNaughton和r . c . O ' reilly”为什么会有互补学习系统在海马和皮层:成功和失败的见解联结主义模型的学习和记忆,”心理评估,卷102,不。3、419 - 457年,1995页。视图:谷歌学术搜索
a·罗宾斯,“灾难性的遗忘,彩排,pseudorehearsal。”连接科学7卷,第146 - 123页,1995年。视图:谷歌学术搜索
答,“顺序学习在分布式神经网络没有灾难性忘记:一个和现实的自我更新内存能做到,”神经信息处理,4卷,不。2,新,2004页。视图:谷歌学术搜索
b . Ans, s . Rousset r . m .法国和美国苍蝇座,“预防——terference灾难性的多重序列学习使用耦合回荡elman网络”《24日认知科学协会的年度会议,2002年。视图:谷歌学术搜索
p·d·h·詹金斯,d . j .布鲁克斯尼克松,r . s . j . Frackowiak和r . e . Passingham”运动序列学习:与正电子发射断层扫描研究,“神经科学杂志》上,14卷,不。6,3775 - 3790年,1994页。视图:谷歌学术搜索
r . m .法国“灾难性的忘记在联结主义网络,”认知科学趋势,3卷,不。4、128 - 135年,1999页。视图:出版商的网站|谷歌学术搜索
m . Botvinick和d . c . Plaut“做不带模式层次结构:复发性联结主义的方法正常和受损的常规顺序动作,“心理评估,卷111,不。2、395 - 429年,2004页。视图:出版商的网站|谷歌学术搜索
r . m .法国“动态约束联结主义网络产生分布式,正交表示减少灾难性的干扰,”第16届认知学会学报会议,1994年。视图:谷歌学术搜索
m . Riedmiller和b . Janusz机器人使用强化神经控制器,”学报》第八届澳大利亚有关人工智能的会议,1995年。视图:谷歌学术搜索
a·g·Barto s . j . Bradtke和s·p·辛格,“学习使用实时动态编程法,”人工智能,卷72,不。1 - 2、81 - 138年,1995页。视图:谷歌学术搜索
j·约翰逊,r . Challoo r . A . McLauchlan和s。奥马尔”multi-neural网络智能机械臂的路径规划,”《人工神经网络工程(安妮的96),1996年。视图:谷歌学术搜索
t . Hesselroth k . Sarkar p p . Van der Smagt和k•舒尔腾“神经网络控制的气动机器人的手臂,“IEEE系统,人与控制论,24卷,不。1,28-38,1994页。视图:出版商的网站|谷歌学术搜索
a . Bouganis和m .沙纳罕,“训练强化神经网络控制基于套牢可塑性,四自由度机械臂”IEEE世界大会的程序计算智能(WCCI 10),2010年。视图:谷歌学术搜索
m . Vaezi和m . a . Nekouie机械臂使用基于神经网络的自适应控制方法,”机器人与自动化国际杂志》上,1卷,不。5,87 - 99年,2011页。视图:谷歌学术搜索
m·麦克洛斯基“灾难性的干涉联结主义网络:顺序学习问题,“学习心理学和动力,24卷,第169 - 164页,1989年。视图:出版商的网站|谷歌学术搜索
s p·辛格(manmohan Singh)“学习迁移通过组合解决方案元素顺序的任务,”机器学习,8卷,不。3 - 4、323 - 339年,1992页。视图:出版商的网站|谷歌学术搜索
l . m . Saksida s·m·雷蒙德,d . s . Touretzky”塑造机器人行为”利用工具性条件作用的原理,机器人和自治系统,22卷,不。3 - 4、231 - 249年,1997页。视图:谷歌学术搜索
m .民宿和m . Colombetti”机器人塑造:开发位于代理通过学习,“技术。众议员tr - 92 - 040,国际计算机科学研究所,1993年。视图:谷歌学术搜索
和a . y . p . Abbeel Ng,“学徒通过逆强化学习,学习”21国际会议的程序机器学习(ICML ' 04)2004年7月,页1 - 8,。视图:谷歌学术搜索
y Bengio, j . Louradour r . Collobert和j·韦斯顿,“课程学习”学报》第26届国际会议上机器学习(ICML ' 09)2009年6月,页41-48,。视图:谷歌学术搜索
m·e·泰勒和p的石头,“转移学习强化学习领域:一项调查,“机器学习研究杂志》上,10卷,第1685 - 1633页,2009年。视图:谷歌学术搜索
h·萨尔,j . Ting, s . Vijayakumar“活动顺序与触觉反馈学习,”机器学习研究杂志》上9卷,第684 - 677页,2010年。视图:谷歌学术搜索
k·a·克鲁格顺序的形式学习shapingas认知exibility的来源博士论文,盖茨比的计算神经科学单位,伦敦大学,2011年。
r . Pollak j . Schuetznerz, t . Braunl“机器人机械手的模拟,”1996年,http://robotics.ee.uwa.edu.au/robosim/。视图:谷歌学术搜索
c . Balkenius和j . Moren”经典条件作用的计算模型:一个较研究,“技术。众议员吕克·62,1998。视图:谷歌学术搜索
r . a . Rescorla”培训熄灭巴甫洛夫的刺激。”实验心理学杂志:动物行为过程,27卷,不。2、115 - 124年,2001页。视图:谷歌学术搜索
r . a . Rescorla”储蓄测试:分离率的差异从不同的初始学习水平,”实验心理学杂志:动物行为过程,28卷,不。4、369 - 377年,2002页。视图:出版商的网站|谷歌学术搜索
r . a . Rescorla”比较联想的利率变化在收购和灭绝,”实验心理学杂志:动物行为过程,28卷,不。4、406 - 415年,2002页。视图:出版商的网站|谷歌学术搜索
r . a . Rescorla“更快速的关联变化比初始培训和再培训,“实验心理学杂志:动物行为过程卷,29号4、251 - 260年,2003页。视图:出版商的网站|谷歌学术搜索
g·s·雷诺兹,操作性条件反射的底漆斯科特,有限公司,1975年版。

机器人杂志