行动选择和操作性条件反射:Neurorobotic实现

文摘

选择动作(如)被认为代表机制涉及自然代理在决定什么应该成为下一个移动或行动。有功能的基本核心维持这个认知过程?我们可以复制机制的人造代理,更具体地说neurorobotic范式?无人监督的自主机器人可能需要决策技能发展在现实世界和bioinspired方法是大道通过本文探讨。我们提出模拟过程通过使用一个小飙升神经网络(SNN)较低的神经生物,为了控制虚拟和物理机器人。我们作为流程基于一个简单的中枢模式发生器(CPG),决定神经元,感觉神经元和运动神经元主要的电路元件。新奇,本研究目标具体操作性条件反射(OC)上下文相关的过程;选择做影响未来的感觉反馈。使用一个简单的自适应场景中,我们展示了互补互动的现象。我们还表明,这是内核可能是一个快速跟踪模型有效地设计复杂SNN包括越来越多的输入刺激和运动输出。 Our results demonstrate that merging AS and OC brings flexibility to the behavior in generic dynamical situations.

1。介绍

绝大的话题选择动作(如),包括决策、行为选择,和behavior-switch作为术语,是彻底的探索从不同的角度理解,水平分辨率,和科学界1]。作为生物现象的结果从一个神经过程的观察导致代理在其他几个人做一个动作。精确的神经基质支撑这种机制还没有发现(2,3]。尽管许多见解(4,5)指向如何模拟自然过程在人工代理,没有共识方法这一认知现象。在这个视图中,neurorobotic域旨在研究生物灵感但申请人工智能(AI)和机器人的目的(6]。作为前提,构建无监督自主机器人控制器必然需要一个专门的经营行为转换机制。此外,在现实世界中,这些行为应该适应,而不是由一个固定的模式。因此,模拟过程应该足够灵活来应对变化的环境。这些适应性行为可能来自学习函数作为调节器的过程。

人工神经网络飙升(SNN) (7)已经成功地用于brain-controllers机器人,和一些研究提出了不同的计算模型实现通过这个特定的实验范式8,9]。SNN的一个主要方面是了解信息处理的一个峰值(10]。因此,峰值的时间可用于时序事件相关性和联想学习。因此,它可能是有趣的研究一个作为操作性条件作用机制结合(OC)的过程,因为我们预计,这些过程添加更多的灵活性,开关从他们的交互行为,分享两个指定行为的能力。

函数的过程是决定不同的行为取决于上下文。事实上,无脊椎动物神经生物秀丽隐杆线虫(11,12],刺丝胞动物[13),和果蝇(14)在选择几个行动只有小电路的神经元。其中包括指挥中心神经元和中枢模式发生器(CPG) [15- - - - - -18),这是公认的固有振动特性。可以扣除是建模的过程并不一定需要复杂如高的大脑结构。因此,模拟的工作假说的进程状态,应该得到一个简单的机制。在本文中,我们使用一个基本的CPG神经结构有助于在模拟过程包含感官输入,电机输出,神经元和决策(19]。

我们建议研究过程SNN框架内,针对bioinspired机器人控制器。我们的首要动机是合并成单一neurorobotic模型和OC流程。主要目标是构建一个简单而自适应的机制与塑性特性合并OC学习规则,而发生在动态场景。第二个目标是开发一种快速跟踪方法实现通用流程SNN。这项研究是由这一事实仍然是一个挑战,创建一个机器人控制器的学习能力从多个感官信号和行动SNN范式。

理论背景。在神经科学,努力完成一个行为出现外部感官信号和内部的实时动态值,不同的竞争神经信号最终东方代理向一个优先行动。在一个心理的问题,从传感器串行过程发生汽车以行为选择。根据文献在计算认知科学,给养竞争假说(20.)认为,这样一个过程是平行的,意味着之前从正在进行的感官输入可能的行为规范。具体来说,当动态过程包括几个反馈循环高神经结构和一种注意力机制,大脑专注于一个具体的行动赢得而不断寻找其他操作,根据上下文(21]。

在机器人领域中,提出了作为过程的计算模型(随机蓄电池、linear-ballistic累加器和集成蓄电池模型)(22,23]以及CPG结合SNN [24]。因为只有少数研究在这一领域研究的过程使用SNN bioinspired brain-controllers,我们的研究将朝这个方向迈出的一步。因此,我们的重点是之间的密切互动,OC学习功能,我们提出新奇的域。

经验上,问题是常常的角度达到一个最优解的统计方法(5,25]或繁殖生物学数据。在我们的研究中,我们要考虑调制因素可能影响的动态模型的交互学习规则。从这个角度看,一个学习技巧可以提高机器人对行为的选择决定未来的解决方案。OC在于其中一个主要的学习功能允许认知代理副反馈自己的行动。自然OC过程是很好理解的无脊椎动物(26]。因此,等等(27,28),学习与OC代表一个潜在的修饰符的机制,可能允许更多的灵活性来自突触可塑性特点的适应性行为。从自己的过去的行为给予奖励或惩罚反馈,一个机器人最终可能会选择不同的操作,加速或减速的倾向的选择。

我们解决这些问题的过程结合OC通过评估一个简单的场景在虚拟和物理机器人。这个目前的工作并不关注广泛的测试和评估总体计算AS-OC模型所涉及的参数的影响。也超出了本文的范围,挑战其他方法。尽管有这些限制,我们将展示一种生物的这些机制在neurorobotic实现的核心基地。机器人的好处包括,OC关键进程是不可否认的,因为大多数物理机器人现在能够执行一个丰富的行为选择,可能在分层组织优先事项,顺序一个固定的模式,竞争行为,冲突并行行为。

在简历中,我们展示了一个基于CPG机制结构和一些基本的神经单位。这个过程是受调制时合并OC学习规则。在一起,这些过程提供更多的灵活性,选择最好的行动在动态多变的环境。进一步的示威活动在更复杂的场景仍有待研究。

2。方法

2.1。飙升的神经模型

我们提出一个简单的场景来探索和OC相互关系,解释两个过程在neurorobotic范例。机器人的控制器包括人工神经单位通过突触连接。我们的SNN模型(29日),类似于标准漏integrate-and-fire神经元模型,基于膜电位变化,将非线性,暂时持续输入通过SNN (1)。在这些神经元膜电位达到一个特定的阈值,触发一个动静极限的动作电位。启动CPG动态模拟开始时,一个现实的神经属性添加一个强大的内生起搏器实现泄漏(见(1)和起动器神经元SNN)。连续排放飙升,发送电子通量,在突触转变成了当地的兴奋性或抑制性突触postpotential电流。然后在目标元素(2)。突触是计算建模为动力的体重和学习主题是调制函数。我们使用的学习规则在这SNN是一个适应spike-timing依赖性可塑性(STDP) [30.- - - - - -32]。STDP函数的结果是增加突触的体重如果preneuron峰值postneuron单元之前,定义在一个短的时间窗口。如果postspike prespike出现后,那么逆相关关系导致减少突触权重(3)。

方程1:离散神经输入集成功能。考虑以下: 在周期=膜电位,=突触输入计算的总和(2),=提升指数函数设置介于0和阈值(设置为65)=泄漏电流为起搏器属性(设置为1)。

方程2:一般α表示突触后电位曲线函数。考虑 =振幅(设置为20),=τ(设置为7)=以来飙升(周期)。

方程3:STDP函数使用。考虑以下: =突触重量变化,或−1,这取决于的迹象,=时间常数。

STDP系数如下。最大变化周期= 3000周期。最大的突触改变= 35%。最大STDP时间窗口= 25周期。

2.2。作为过程

中的元素的机制包括四个基本组细胞。第一组代表决策或神经元指向行动神经元激活致动器(第二组)。第三组包含了感觉神经元提供上下文输入神经元与决定。最后,最后一组的细胞包含CPG神经元弱连接神经元的决定。中央人民政府的主要功能是提供一个常规的振荡输出模式偏向一个首选决定其他神经元。注意,CPG神经元的输出是决不允许触发以来有关决定神经元EPSP太弱达到高峰阈值。然而,当搭配感觉和CPG输入,只有这样才能达到阈值和峰值(见图2)。因此,参数的优化必须重叠在中央人民政府时期和感官持续时间的关系。在我们的实验中,一个完整的CPG循环需要90周期;因此,一个神经元CPG每30周期峰值。去年大约110周期的感官输入持续时间。中央人民政府的第二个影响是消除歧义平等的感觉输入,一个已知冲突问题在人工智能领域难以解决。最后,CPG也可以理解为有节奏的内在价值观,喂养输入的过程。

图形化表示为流程(图1左侧),我们显示它在一个完整的通用场景中两个传感器和两个动作。SNN架构分为三个不同的层次:感官输入,内部整合,和外部动作输出。在图3,作为组件也集中在一个单一的模块内通用,但详细SNN。

(一)

(b)

图1

动态的机制和CPG拓扑。(一)首先,刺激被认为感觉神经元。然后,感觉神经元的峰值发射目标所有决定神经元,保护一个中立方面的选择可能的行动。最后,当感觉输入的同时,中央人民政府决定神经元,链接的操作将被执行(或者切换操作)。(b)在,中央人民政府代表了连续循环兴奋性拓扑我们用于这项工作。在,我们将展示几个选择之一的可能性等参数调优不同内部神经postpotential状态值,不应期,神经的长度曲线。在,我们将展示一个所有交换抑制CPG电路由内生起搏器神经元。在,我们仍然保持起搏器CPG但现在与神经元兴奋性突触。总的来说,(b)(比较峰值酒吧在同一时间尺度)右边显示输出模式的多样性体现在不同的CPG,来自微小的结构和功能改变。

图2

图显示正常的输出峰值模式从串行循环兴奋CPG神经元C(图形),这是我们在实验中使用的拓扑。这些神经元背后的数学神经动态激增是一样的其他细胞。当CPG飙升伴随着感觉峰值(图形D F),决定神经元的膜电位(图形G I)达到峰值发射的阈值(见过程在一个完整的SNN架构4)。

CPG的内核,我们选择嵌入最普通和简约的结构(见选项1突出显示右边的图1)。突触权重都设置为100%,为了循环持续飙升。中央人民政府开始,我们使用一个生物学上的内生起搏器后关闭启动动态。该起动器选项可以被理解的一个内部价值(即。,low batteries, attentional process, and sensory-motor input) or could also be any other kind of triggers. As a result, the three neurons of the CPG are stimulated one after the other because of the circular serial excitatory connections 2.

2.3。OC的学习过程

细胞组件包含在OC过程由传感器神经元提供上下文输入Decision-to-Action神经元生成的行为。同时,外部强化物指着预测神经元也连接到Decision-to-Action神经元。由于传感器神经元是弱相关预测神经元,但包含一个STDP规则,强化物的重复的巧合(欲望行动后)和预测的感官输入神经元突触的重量将会增加。因此,感官输入最终将引发行为没有任何进一步的强化物的需求(29日]。

2.4。SNN架构

专门用于我们的结果在一个three-sensor和三个操作上下文(图4),三个颜色的感觉神经元由传感器(绿色、黄色和红色)除了一个光传感器感知奖励。电动机的输出神经元由三个led灯(绿色、黄色和红色)。我们的过程包括,作为调制元素,CPG放置在中间神经层。它包含三个神经元与相同数量的可能的行动。提出了CPG内核在于兴奋性神经元组织在一个串行环形拓扑结构。

CPG中的每个CPG神经元网络是连接到自己的决定与小神经元突触的重量。决定神经元的一个目标是连接行动神经元之间有很强的突触权重这些单位;决定神经元峰值时,有关行动神经元峰值。每个决策神经元也弱连接到自己的预测神经元学习上下文相关性。在这个实验中,预测目标输出所有其他决定神经元与神经元抑制强烈的突触联系。因此,从一个精确的预测序列sensor-action-reward时神经元,它将关闭所有其他可能的行动。这仲裁员机制可以被理解为一种神经竞争。最初的突触值用于我们的SNN手动调整,可以检索表1。


突触权重表
的名字	强度	延迟	类型

年代:G / E: G	5	0	兴奋性
年代:R / E: R	5	0	兴奋性
年代:Y / E: Y	5	0	兴奋性
S-CPG: G / CPG: Y	One hundred.	30.	兴奋性
S-CPG: G / D: G	30.	0	兴奋性
S-CPG: R / CPG: G	One hundred.	30.	兴奋性
S-CPG: R / D: R	30.	0	兴奋性
S-CPG: Y / CPG: R	One hundred.	30.	兴奋性
S-CPG: Y / D: Y	30.	0	兴奋性
源:G / G	One hundred.	0	兴奋性
源:G / P: G	15	0	兴奋性
源:R / R	One hundred.	0	兴奋性
源:R / P: R	15	0	兴奋性
源:Y / Y	One hundred.	0	兴奋性
源:Y / P: Y	15	0	兴奋性
S-Reward / P: G	8	0	兴奋性
S-Reward / P, R	8	0	兴奋性
S-Reward / P: Y	8	0	兴奋性
s: G / D: G	15	0	兴奋性
s: G / D: R	15	0	兴奋性
s: G / D: Y	15	0	兴奋性
s: G / P: G	15	0	兴奋性
s: G / P R	15	0	兴奋性
s: G / P: Y	15	0	兴奋性
s: R / D: G	15	0	兴奋性
s: R / D: R	15	0	兴奋性
s: R / D: Y	15	0	兴奋性
s: R / P: G	15	0	兴奋性
s: R / P R	15	0	兴奋性
s: R / P: Y	15	0	兴奋性
s: Y / D: G	15	0	兴奋性
s: Y / D: R	15	0	兴奋性
s: Y / D: Y	15	0	兴奋性
s: Y / P: G	15	0	兴奋性
s: Y / P: R	15	0	兴奋性
s: Y / P: Y	15	0	兴奋性
S-Starter / CPG: G	50	0	兴奋性
s p: G / D: R	10	0	抑制
s p: G / D: Y	10	0	抑制
G s p: R / D:	10	0	抑制
s p: R / D: Y	10	0	抑制
G s p: Y / D:	10	0	抑制
s p: Y / D: R	10	0	抑制

2.5。任务和行动

在虚拟实验(图5),SNN实现机器人在静态。机器人的任务在于学习配色之间的三种可能的行动导致排放(绿色、黄色和红色)和感知颜色块。我们的3 d仿真软件环境(SIMCOG-NeuroSim AI-Future)允许三个不同颜色的块(绿色、黄色和红色)不断移动,以恒定的速度,在顺时针环形轨迹,通过一次就在机器人的前面。的时间框架的联系使机器人,至少产生一个不同的操作对于每个块超过1000周期。在实验的第一部分(0 - 10000周期),奖励光(图中未显示)触发只有当领导的行动与块匹配相同的颜色。暂时在10500周期,机器人感动3000个周期(周期10500 - 13500)位置没有收到感官输入,允许操作遗忘因子和重置突触权重。然后,机器人取代其新一轮的初始位置。然而,在这一部分,接下来的有益的光线只有当领导排放是在下一个颜色块。这部分的目的是展示如何有效和OC动力学可以修改行为,因为这些小说学习协会是实现在一个审判。

作为一个概念证明和端点在机器人领域中,我们复制虚拟物理实验(图设置6)。SNN是完全相同的,我们简单地转移到物理机器人没有任何进一步的调整。为简单起见,我们选择了EV3乐高Mindstorm(乐高公司)作为物理平台。主处理器是一个ARM9核心它包含时钟在300 MHz、64 MB RAM。发光二极管类似于虚拟场景,除了只有两种颜色,绿色和红色。当他们两个打开的同时,产生的颜色是橙色,因此我们实验的第三种颜色。光传感器也用于读取外部奖励,这是覆盆子π板、同步和交付后所需的行动是由机器人来完成。NXT乐高Mindstorm控制器(乐高公司),安装在轴上,控制的旋转三色砖(绿色、橘色和红色)使用一个连接电机。一套分段速度慢是没有可能性的调制机器人。在这个配置中,砖通过前面的颜色传感器。 When a sensor catches a color block, the numerical value is converted in an artificial electrical current with an adapted scaling factor for the SNN. Only the first learning part was done for the demonstration. Supplementary material is available athttps://www.youtube.com/watch?v=8MXA4wxJSpE,由一个视频的实验。

3所示。结果

虚拟实验得到的结果在一个审判。下面的图形数据将参考图4SNN架构和表1对其相关的突触权重矩阵。在图7开始时,我们可以观察到当绿色传感器的模拟神经元(n: G)峰值(黑人酒吧图形),机器人尝试替代行动点燃每个领导(图形B:绿色,图形G:黄色,和图形L:红色)。由于没有任何行动之前触发周期奖励300,没有观察到学习STDP规则从传感器到预测神经元之间的突触(D,我和N)。在500年周期,第一个黄色块从传感器感知黄色(F),尽管中央人民政府不断提供另类的行为导致的排放。具体来说,点燃的黄色(G)的带领下,和下面的光奖励(没有显示),相关预测神经元(H)峰值。因此,一个积极的黄色传感器神经元这预测神经元之间的联系开始增加STDP系数(I)。这会影响突触权重约束限制几个关联发生时,稳定在4000周期。预测神经元(H)的角色在这个SNN抑制其他决定神经元和神经元连接行动(B, L)。在8500年周期,一个可以看到机器人已经完全学会了三个感觉器官上下文通过配对好领导的行动与感知颜色块。中央人民政府时期以来的神经元和颜色块的旋转不太合身,每个感觉器官的学习时间是不相同的。

图7

神经突的图形和STDP规则因素发生超过24000周期。前五(图形到E)关注绿色块和绿色了。中间五捕获黄色的逻辑块和黄色了。最后一组五与红色相关联。8500周期,机器人已经学会执行正确的操作与适当的提示。这意味着,在触发一个动作,如果预测峰值从奖励后,STDP系数将会增加,增加传感器和预测值之间的突触权重。一旦突触重量达到临界阈值,传感器输入钢筋预测神经元将触发一个高峰,而不需要回报。

周期之间的10500年和13500年,我们改变了机器人的位置,以避免颜色块的看法。这样做是为了让SNN重置突触权重的初始值(使用一个遗忘参数出现在STDP规则)。这是可选的,和学习永远将结果场景如果特性并不活跃。忘却也可以从反演获得传感器的时间序列,行动,和奖励。如果没有相关性,STDP规则将逐步减少突触权重。在另一个仿真的设置中,惩罚(抑制)也可以作为一种快速-突触权重的调制系数。

最后一部分(> 13500周期)的人物7展示了在线SNN嵌入OC的适应行为方面和。可以观察到机器人必须选择不同的行动来获得奖励。在这种情况下,照亮了一块绿色的领导在一个黄色的,黄色红色方块,领导和领导的红绿块触发奖励。相应的STDP因素(E, J, N)匹配这三个学习集。

至于我们的物理模拟,结构并不以任何方式修改,除了绑定逻辑传感器和电机的机器人。图8显示了仿真的结果,在一个试验中获得的。他们近似地显示相同的数据,或多或少的精度和小工件。这是由于这样的事实,它确实更容易配置变量和虚拟环境中比在现实世界中。

4所示。讨论

在本文中,我们探讨了作为neurorobotic过程视角。因为这个一般机制直接关系到行动,我们演示了OC程序的上下文中现象也意味着选择行为的强化物。我们的主要目标是研究合并的好处影响这学习规则的过程。第二个担忧是提供一个快速跟踪解决方案有效地设计更复杂SNN用作虚拟和物理机器人大脑的控制器,包括几个电机输出。我们提出一个基本的CPG主题作为一个关键组件的过程中,为了保持中立其可用的行动之间切换。与中央人民政府结构与感觉输入上下文关系,决定神经元得到所需的所有信息倾向一个优先行动。我们还表明,OC学习函数的影响过程,赋予补充突触可塑性的适应性行为。

我们选择了一个简单的CPG拓扑机制的一个组件。其他CPG配置是可能的(33),包括那些由相互抑制和内源性起搏器神经元突触联系,尽管分析问题更复杂的跟踪和预测。调优参数(即。,postpotential spike value, threshold) of individual neuron differently could also influence the rhythm, affecting the CPG network by increasing or decreasing their output periods. After several options, we found that a serial excitatory circular CPG motif is a good trade-off between simplicity and benefits. In our AS model, without any other synaptic feed, this CPG configuration will spike one unit after the other, indefinitely and at a constant rate. We showed the AS model in a generic two-two example and in a specific three-three sensory input and motor output configurations. Adding more sensors and actions will necessary require other neurons in the CPG network, though their numbers are linearly related to their attached decision and action neurons, acting as a premotor structures. In this case, hierarchical groups of CPG/actions could also replace the serial circular topology, possibly avoiding useless spikes or triggering other networks. Allowing different combinations and compositions of CPG units also dramatically increase the behavior possibilities, without considering a one-to-one CPG-action, though it was not explored in this paper.

添加决定神经元(相当于指令神经元在无脊椎动物)到作为模型允许灵活性,对于一些上下文输入源。中央人民政府单位把决定神经元膜电位阈下射击水平。自中央人民政府时期是固定的,-准确率权衡法则(SAT)的决策34结果快速、准确。不幸的是,但没有调整是有可能的,一个主要建模时需要考虑的一个过程。有时,认知代理必须很快做出决定,而在其他条件下,有必要花时间来计算出最好的决定。根据最近的一项假说(35),坐的灵活性的反应变量依赖于基线调整发射率、感官增益和噪声输入,发射阈值,和相关的绑定参数接收神经元(25,36]。

在内调制器各种因素,设计复杂SNN几个神经元的数量包括异构个人神经参数值是可能的,但高度复杂的正常调整。从这个角度看,逐步整合强/低,快/慢CPG输入可以添加歧视和灵活响应的优势以及提供更现实的行为特性的机制。在一个模型中计算挑战neurorobotic字段允许SNN动态改变所有这些初始固定参数值,赋予相当大的自适应特性的认知代理。在这个紧要关头,也许关于SAT问题是:什么是变量偏差的过程中没有紧急时,选择一个行动?

在我们的实验中,换向块要反时针旋转,加速或减速的速度旋转以及混合颜色订单不改变定性方面的学习曲线。然而,时间关系的感知时间接触传感器输入和中央人民政府的时机影响这些协会和出现的次数,因此,需要学习的时间。在任何情况下,EPSP时机中央人民政府和感觉神经元之间主要的重要性和需要一个完整的一致性为整个动态系统。在这个角度来看,物理实验阐明我们的时间鲁棒性和OC模型,证明其纳入研究。不改变任何参数在SNN EV3机器人能够很好地学习如何获得奖励时实现良好的行动,即使块的旋转不规则由于材料的不精确。

我们解释了OC学习规则调节SNN范式的过程。感觉环境影响决定做一个动作在别人。这些决策不仅仅是内置的反应。此外,观察到即使CPG动态行为可塑性是固定的。在这一点上,一些有趣的差异可能是添加其他学习规则不限于OC的一个过程。因此,整合非联合型(习惯)和其他联想学习(经典条件作用)函数可以完成设计的模型,但它是超出了本文的范围。

一个问题我们避免本文是注意力的问题。我们选择忽略这个主要的认知成分,主要是因为目前的低时缺乏神经机制和理论应用于神经系统的生物。我们明白,基底神经节或任何皮层下或皮质影响过程似乎相关结构在高等生物神经系统,如在人类和灵长类动物。然而,我们目前的观点的问题在于AI neurorobotic领域,目前仍无法达到认知自然物种越低。我们的战略目标是工程师bioinspired极简主义的解决方案从模仿简单的神经生物等秀丽隐杆线虫,选择其行为不涉及巨大的结构。相反,神经元和神经元CPG是常见的细胞中发现的元素原始无脊椎动物神经回路。毫无疑问,复杂的神经层可能扩展和增加盈利值的仿真过程,但不应该是一个必要的要求实现一个基本的一个。这些进化问题可能最终找到一个回声的多重性和分层机制。

范围从这些结果在理论上是不限于只有几个简单的动作或单峰单一的感官刺激。作为过程的通用方面来自于吝啬的组件在内核和参数。这个模块已经允许的简单性是自适应的到一个sensors-actions场景SNN架构没有多少变化。在这两种情况下,只要有相同的数字可能结束的行动和传感器作为输入,为核心流程和优化操作相同的。因此,构建更复杂的SNN包括几个行动应该预期更快和更容易,但它仍有待证明在其他情况下。在这个意义上,我们目前在塑造行为学习技术基于过程,而模拟室内动态导航任务几个可能的行为。这是一个例子,可以证明这个bioinspired过程可以帮助机器人领域的具体应用。

5。结论

本文展示了作为过程由简单的细胞元素。它是基于CPG和感觉神经元,影响他们的选择决定神经元生成神经元的行为动作。我们证明了这个基本机制的OC学习上下文,允许行为灵活性相互影响。生物启发下的实验范式,专门与SNN作为brain-controller虚拟和物理机器人。此外,作为模型的简单性和通用方面可能会提供一个快速跟踪解决方案构建更复杂的SNN,在不同的动态场景中包括多个操作。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

a·k·赛斯·t·j·普雷斯科特,j·j·布赖森模拟自然选择动作英国剑桥,剑桥大学出版社,2011年。
m·d·汉弗莱斯、k·格尼和t·j·普雷斯科特”行动有脑干衬底选择?”英国皇家学会哲学学报B:生物科学》,卷362,不。1485年,第1639 - 1627页,2007年。视图:出版商的网站|谷歌学术搜索
j . i金和m . n . Shadlen”决策的神经基础,”年度回顾神经科学,30卷,第574 - 535页,2007年。视图:出版商的网站|谷歌学术搜索
m . Khamassi l . Lacheze b·吉拉德a . Berthoz和a .第5期”Actor-critic基底神经节的强化学习模型:从自然到人工的老鼠,”适应性行为,13卷,不。2、131 - 148年,2005页。视图:出版商的网站|谷歌学术搜索
n . f . Lepora c·w·福克斯·m·h·埃文斯,m . e .钻石,k .格尼和t·j·普雷斯科特,“最优决策在哺乳动物:一个机器人研究的见解的啮齿动物纹理歧视,”《英国皇家学会界面,9卷,不。72年,第1528 - 1517页,2012年。视图:出版商的网站|谷歌学术搜索
t·j·普雷斯科特·m·m·冈萨雷斯,k .格尼·m·d·汉弗莱斯和p·雷德格雷夫,”机器人模型的基底神经节:行为和内在处理,”神经网络,19卷,不。1、31 - 61年,2006页。视图:出版商的网站|谷歌学术搜索
w .马斯河“强化神经元网络:神经网络模型的第三代,“神经网络,10卷,不。9日,第1671 - 1659页,1997年。视图:出版商的网站|谷歌学术搜索
t·c·斯图尔特、t . Bekolay和c . Eliasmith”学习选择的行动在当前基底神经节中的神经元,”神经科学前沿第二条,卷。6日,2012年。视图:出版商的网站|谷歌学术搜索
美国Skorheim、p . Lonjers和m . Bazhenov”强化网络模型的决策采用奖励STDP,”《公共科学图书馆•综合》,9卷,不。第三条ID e90821, 2014。视图:出版商的网站|谷歌学术搜索
e . m . Izhikevich神经元激增的简单的模型不同,“IEEE神经网络,14卷,不。6,1569 - 1572年,2003页。视图:出版商的网站|谷歌学术搜索
美国Faumont、t·h·林赛和s . r . Lockery”决策在秀丽隐杆线虫神经微电路,”目前在神经生物学的观点,22卷,不。4、580 - 591年,2012页。视图:出版商的网站|谷歌学术搜索
m . Zhang w·r·谢弗,r .灵,“时间模式的电路模型生成器的秀丽产卵行为,”BMC系统生物学,4卷,不。1,第81条,2010。视图:出版商的网站|谷歌学术搜索
a . l . Stockl r . Petie, D.-E。尼尔森,“设置速度:洞察中枢模式发生器交互在箱形水母游泳,”《公共科学图书馆•综合》》第六卷,没有。11日文章ID e27201, 2011。视图:出版商的网站|谷歌学术搜索
c·r·冯·雷恩,p .面包,m . y Peek et al .,“spike-timing行为选择机制”,自然神经科学,2014年。视图:出版商的网站|谷歌学术搜索
美国Grillner”,在脊椎动物有节奏的动作行为的神经生物学基础科学,卷228,不。4696年,第149 - 143页,1985年。视图:出版商的网站|谷歌学术搜索
k .松岗”机制的频率和模式控制神经节奏发电机,”生物控制论卷,56号5 - 6,345 - 353年,1987页。视图:出版商的网站|谷歌学术搜索
a . j . Ijspeert”中枢模式发生器在动物和机器人运动控制:复习一下,”神经网络,21卷,不。4、642 - 653年,2008页。视图:出版商的网站|谷歌学术搜索
m·海森堡“行动选择,”无脊椎动物学习和记忆r·门泽尔和p .本杰明,Eds。22卷,学术出版社,2013年。视图:谷歌学术搜索
p·雷德格雷夫,t·j·普雷斯科特和k·格尼,“基底神经节:脊椎动物解决方案选择问题吗?”神经科学,卷89,不。4、1009 - 1023年,1999页。视图:出版商的网站|谷歌学术搜索
p . Cisek”,通过一个分布式决策共识。”目前在神经生物学的观点,22卷,不。6,927 - 936年,2012页。视图:出版商的网站|谷歌学术搜索
p . Cisek g·a·普斯卡什,s . El-Murr”决定在改变条件:urgency-gating模式”,《神经科学杂志》上卷,29号37岁,11560 - 11571年,2009页。视图:出版商的网站|谷歌学术搜索
s d·布朗和a . Heathcote”最简单的选择响应时间完整的模型:线性弹道积累,”认知心理学卷,57号3、153 - 178年,2008页。视图:出版商的网站|谷歌学术搜索
m .开创和j·l·麦克勒兰德”感性选择的时间进程:漏水、蓄电池竞争模型中,“心理评估,卷108,不。3、550 - 592年,2001页。视图:出版商的网站|谷歌学术搜索
卡欣m . n。m .艾尔沙德,“仿生使用matlab仿真,中枢模式发生器”《MEDINFO,98卷,1998年。视图:谷歌学术搜索
d . Standage d . Wang和g . Blohm”神经动力学实现灵活决定用一个固定的发射率的选择:一个基于模型的假设,”神经科学前沿第318条,卷。8日,2014年。视图:出版商的网站|谷歌学术搜索
b . Brembs f . d . Lorenzetti f·d·雷耶斯d·a·巴克斯特和j·h·伯恩”,操作性学习奖励海兔:神经关联和机制”,科学,卷296,不。5573年,第1709 - 1706页,2002年。视图:出版商的网站|谷歌学术搜索
k . m .酥和k . a . Mesce“超越中枢模式发生器:胺调制决策神经通路降序从药用水蛭的大脑,”实验生物学杂志》上,卷209,不。9日,第1756 - 1746页,2006年。视图:出版商的网站|谷歌学术搜索
t·m·赖特jr .)和r . l .花茎甘蓝的突触前活动模式和突触强度产生运动输出交互,”《神经科学杂志》上没有,卷。31日。48岁,17555 - 17571年,2011页。视图:出版商的网站|谷歌学术搜索
Cyr a、m . Boukadoum和f . Theriault“操作性条件反射:最小组件需求激增在人工神经元为仿生机器人的控制器设计,“Neurorobotics前沿第二十一条,卷。8日,2014年。视图:谷歌学术搜索
n Caporale和y丹,”斯派克套牢可塑性:Hebbian学习规则,”年度回顾神经科学,卷。31日25-46,2008页。视图:出版商的网站|谷歌学术搜索
Cyr a和m . Boukadoum”经典条件作用在不同的时间约束:一个STDP激增机器人控制的神经网络学习规则,”适应性行为,20卷,不。4、257 - 272年,2012页。视图:出版商的网站|谷歌学术搜索
h·马克拉姆,w·郭士纳,p . j . Sjostrom“spike-timing-dependent可塑性的历史,”突触神经科学前沿,3卷,第四条,2011年。视图:出版商的网站|谷歌学术搜索
ai Selverston,“无脊椎动物中枢模式发生器电路,”英国皇家学会哲学学报B:生物科学》,卷365,不。1551年,第2345 - 2329页,2010年。视图:出版商的网站|谷歌学术搜索
p·凯西,a . Heathcote s d·布朗和o·斯波恩,“大脑和行为决策,”PLoS计算生物学,10卷,不。7篇文章ID e1003700 2014。视图:出版商的网站|谷歌学术搜索
r . Bogacz E.-J。Wagenmakers, b .美国福斯特曼,美国Nieuwenhuis”的神经基础-准确率权衡法则”,神经科学的趋势,33卷,不。1,10到16,2010页。视图:出版商的网站|谷歌学术搜索
r . p . Heitz和j·d·绍尔对“神经机制-准确率权衡法则。”神经元,卷76,不。3、616 - 628年,2012页。视图:出版商的网站|谷歌学术搜索

机器人杂志

仿生机器人

文摘