集成Hebbian-based和强化学习(RL)规则提出了动态突触。拟议的框架允许Hebbian规则更新隐藏突触模型参数调节突触的反应而非突触权重。这是使用价值和执行时间的符号不同奖励每次试验后的信号。应用这个框架,强化网络测试与spike-timing-dependent突触学习异暂时编码的基础上计算。奖励值计算与网络的输出脉冲序列之间的距离和一个参考目标。结果表明,该网络可以获取所需的动力学和拟议的框架可以揭示Hebbian和RL的确实一个集成版本。拟议的框架是驯良的和更少的计算昂贵。突触的框架适用于广泛的类模型和并不局限于使用神经表示。这种普遍性,以及报告结果,支持采用引入方法受益于生物的突触模型广泛的直观的信号处理。
<年代p一个nclass="end-abs">
1。介绍
学习神经网络可以通过两个主要策略,即监督和非监督学习。无监督学习是遵循相关性在输入信息网络。唐纳德•海布在1949年提出(<一个href=”#B20">20.一个>)的修改突触传递效能的相关性是由发射前和突触后神经元的活动。Spike-timing-dependent可塑性(STDP)突触,突触后飙升的增强作用遵循突触前的峰值在几十毫秒的时间窗口和抑郁的突触时峰值的顺序正好相反。因为这是与d·赫的假设一致,有时这种类型的STDP称为Hebbian STDP。当的符号改变突触强度的改变,这一过程可能会被称为anti-Hebbian STDP [<一个href=”#B17">17一个>]。Hebbian学习规则实现这种依赖性突触变化的相对时间前和突触后动作电位和STDP Hebbian调制是突触变化后学习算法通过Hebbian或anti-Hebbian规则(<一个href=”#B19">19一个>]。的一个有吸引力的模型在这方面是Bienenstock-Cooper-Munro (BCM)模型的发展方向选择性细胞视觉系统(<一个href=”#B4">4一个>]。Hebbian学习规则的模型已收到相当大的支持(LTP)长期电位化实验和长期抑郁(有限公司)<一个href=”#B31">31日一个>]。
许多研究调查如何Hebbian-based学习算法可以应用于赋予人工神经网络(ann)的性能,特别是那些使用强化神经元模型和/或突触模型实现STDP;见,例如,(<一个href=”#B15">15一个>,<一个href=”#B37">37一个>为最近的评论。一个correlation-based Hebbian飙升神经元的学习规则提出了报告,输入和输出之间的相关性放电稳定(<一个href=”#B21">21一个>]。一个生物的介绍了多层神经网络的学习算法(<一个href=”#B23">23一个>]。结果表明:学习算法使得网络来解决部分没有反向传播异(XOR)的问题。应用Hebbian和anti-Hebbian规则在复发性网络实现STDP研究[<一个href=”#B7">7一个>]。它已经表明,导致突触权重的近似收敛。这些研究都集中在STDP的计算性能,因此他们已经说明其功能在神经内稳态和监督和非监督学习。
值得注意的是,许多理论分析报道,Hebbian和anti-Hebbian调制STDP可以最小化或最大化的突触后(神经元)发射可变性给定特定的突触前输入(<一个href=”#B7">7一个>,<一个href=”#B17">17一个>,<一个href=”#B39">39一个>]。这些研究表明,结合Hebbian规则和强化学习(RL) [<一个href=”#B34">34一个>)促进学习能力的模拟生物神经系统。大量的研究调查了两个概念之间的集成站得住脚。例如,能够减少对特定任务所需的学习步骤相比,应用RL独自研究[<一个href=”#B5">5一个>]。很差的任务定义用于通用机器学习机制。RL规则应用到spike-response模型(SRM)进行<一个href=”#B11">11一个>]。这是通过添加一个Hebbian RL规则。后者研究也指导调查影响学习步骤的数目。已经表明,RL可以通过关联发生不规则的波动飙升与奖励信号网络神经元组成的泊松高峰列车(<一个href=”#B33">33一个>,<一个href=”#B40">40一个>]。激增的另一项研究试图教一个网络神经元输出特定的发射模式在不同的时间尺度和针对不同的输入组合(<一个href=”#B15">15一个>]。
通过所有这些研究一般,调制目标仅仅突触的突触权重参数化,也就是说,只有spike-timing<我>独立的我>突触的参数调整的一部分。很少有人注意到突触隐藏的直接调制参数,例如,响应和恢复时间常数。
为了得到一个印象的相关性应用学习规则直接调整突触隐藏参数,回顾了在接下来的一些话题。采用spike-timing依赖性突触行动假定前和突触后飙升活动影响导致突触行动本身的内部机制。说不久,有一种闭环反馈机制调节突触行动观察通过突触可塑性的变化<一个href=”#B28">28一个>,<一个href=”#B41">41一个>]。在化学突触,钙离子缓冲,一般来说,到达峰值facilitatory角色和触发的突触前终端。这个缓冲提高了传播的突触前飙升,敦促从囊泡释放神经递质进入突触间隙。这个facilitatory角色的程度,但是,一定会等其他机制的贡献的池大小准备释放囊泡和postrelease恢复时间常数的神经递质。之间存在着依赖性突触资源的利用率(离子和神经递质),和整体突触行动是调制的高峰时间在突触前的网站。突触的动作因此影响突触后的活动。延迟之间的突触后允许神经传递素的吸收峰值裂和改革在突触前囊泡的终端。这些延迟释放过程基本上是调制的最初presynaptically监管(<一个href=”#B41">41一个>]。因此,之间存在着相互依存STDP(突触前和突触后飙升)之间的相关性和突触的资源,例如,神经递质和离子的浓度。了解,相互依存关系源于突触行动和预处理和突触后动作电位的相对时间。这种相互依存关系表明,学习框架,一般来说,可能专门调整内部突触动态机制根据预定义的输入/输出的组合。
突触的类模型,实现STDP,整个突触反应源于两个贡献:突触权重和动态spike-timing依赖机制。后者源自隐藏突触之间的协同参数为例,通过响应时间常数和扩展的因素。马斯河和Zador报道,应用梯度下降优化隐藏参数的随机突触模型会导致学习原则上在神经回路(<一个href=”#B27">27一个>,<一个href=”#B30">30.一个>]。这种方法是基于以前的工作,<一个href=”#B1">1一个>,<一个href=”#B2">2一个>,<一个href=”#B29">29日一个>];已经表明,突触动力学模型,在一般情况下,有限脉冲响应滤波器可以通过调节学习他们隐藏的参数。生物的突触模型,实现时间编码通过STDP可以作为集成的一般特征(多层)有限脉冲响应滤波器<一个href=”#B18">18一个>]。
很有诱惑力,因此,调查是否Hebbian / anti-Hebbian调制STDP RL框架之内,也就是说,用奖励的信号,可能导致RL当学习指向调整隐藏的突触模型的参数。在这项研究中,我们提出一个后续研究的框架中引入[<一个href=”#B12">12一个>]。(而不是产生的研究结果分别采用从[<一个href=”#B12">12一个>]。)框架集成的概念学习和RL Hebbian / anti-Hebbian而显式地使用合理的生物神经元和突触的表示。介绍训练算法影响突触动态管理的值(例如,时间常数)而不是改变突触的重量。为了说明这一点,学习异(XOR)的计算选择。模拟神经网络使用(a)飙升Markram-Tsodyks突触模型(<一个href=”#B28">28一个>),(b)漏integrate-and-fire神经元。建议的方法是随机学习算法的启发中引入的突触(<一个href=”#B13">13一个>]。作者的知识,这是第一次试验开发这样一个框架培训隐藏在动态突触的突触参数模型。
它并不打算引入一种新颖的基于网络的解决方案XOR问题;相反,XOR的任务是选择作为学习算法的经典的基准问题。核心目标是提出一个合适的,但简单,学习算法实现Hebbian和RL规则强化网络通过调优与spike-timing-dependent突触的突触模型参数而非突触权重。这样一个框架的可用性打开新途径采用生物物理类突触模型神经信号的处理和计算。这些突触模型没有任何标量特征权重因素突触权重(见,例如,<一个href=”#B13">13一个>,<一个href=”#B24">24一个>]),这就是为什么他们没有广泛应用于信号处理的任务,需要调优模型参数来实现某些政权的动力学特征是预定义的输入和输出峰值模式之间的映射。
2。模型
<年代p一个nclass="statement" id="head1">神经元模型我>年代p一个n>
神经元模型为漏integrate-and-fire (LIaF)神经元<一个href=”#B6">6一个>]。描述每个神经元膜电位的电压<年代vg height="10.575" id="M1" style="vertical-align:-0.20064pt;width:12.625px;" version="1.1" viewbox="0 0 12.625 10.575" width="12.625" xmlns="http://www.w3.org/2000/svg">
在哪里<年代vg height="10.9" id="M3" style="vertical-align:-3.27548pt;width:17.5px;" version="1.1" viewbox="0 0 17.5 10.9" width="17.5" xmlns="http://www.w3.org/2000/svg">
膜时间常数设定在20 msec和EPSP总观察兴奋性突触后电位从突触前终端。当<年代vg height="14.7125" id="M4" style="vertical-align:-3.22281pt;width:62.012501px;" version="1.1" viewbox="0 0 62.012501 14.7125" width="62.012501" xmlns="http://www.w3.org/2000/svg">
(
)
≥
t
h
,会生成一个高峰<年代vg height="16.375" id="M5" style="vertical-align:-3.22281pt;width:85.199997px;" version="1.1" viewbox="0 0 85.199997 16.375" width="85.199997" xmlns="http://www.w3.org/2000/svg">
(
+
)
∶
=
r
e
年代
t
,在那里<年代vg height="12.5" id="M6" style="vertical-align:-0.11285pt;width:13.1375px;" version="1.1" viewbox="0 0 13.1375 12.5" width="13.1375" xmlns="http://www.w3.org/2000/svg">
+
是时候即时后<年代vg height="9.125" id="M7" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
和<年代vg height="14.7125" id="M8" style="vertical-align:-3.22281pt;width:52.625px;" version="1.1" viewbox="0 0 52.625 14.7125" width="52.625" xmlns="http://www.w3.org/2000/svg">
r
e
年代
t
=
0
mV和<年代vg height="14.9" id="M9" style="vertical-align:-3.22281pt;width:53.349998px;" version="1.1" viewbox="0 0 53.349998 14.9" width="53.349998" xmlns="http://www.w3.org/2000/svg">
t
h
=
5
0
mV。绝对不应期<年代vg height="14.7125" id="M10" style="vertical-align:-3.22281pt;width:51.712502px;" version="1.1" viewbox="0 0 51.712502 14.7125" width="51.712502" xmlns="http://www.w3.org/2000/svg">
r
e
f
r
=
2
实现微秒。年代p一个n>
突触模型(STDP)我>年代p一个n>
它是行之有效的现象学模型从马克拉姆et al。<一个href=”#B28">28一个>,<一个href=”#B36">36一个>短期突触可塑性。在下面,我们将这种模式称为Markram-Tsodyks模型。这个模型描述了动作电位的影响突触的集体利用功效<年代vg height="13.45" id="M11" style="vertical-align:-2.21957pt;width:22.8375px;" version="1.1" viewbox="0 0 22.8375 13.45" width="22.8375" xmlns="http://www.w3.org/2000/svg">
(
)
和随后的复苏的过程<年代vg height="13.45" id="M12" style="vertical-align:-2.21957pt;width:21.799999px;" version="1.1" viewbox="0 0 21.799999 13.45" width="21.799999" xmlns="http://www.w3.org/2000/svg">
(
)
。它是一个综合模型,描述了两个突触行动的抑郁和便利化。它读取(<一个href=”#B3">3一个>]<年代p一个nclass="equation" id="EEq2">
在哪里<年代vg height="10.825" id="M15" style="vertical-align:-3.22281pt;width:22.0875px;" version="1.1" viewbox="0 0 22.0875 10.825" width="22.0875" xmlns="http://www.w3.org/2000/svg">
r
e
c
是池恢复时间常数。<年代vg height="14.7125" id="M16" style="vertical-align:-3.2316pt;width:49.849998px;" version="1.1" viewbox="0 0 49.849998 14.7125" width="49.849998" xmlns="http://www.w3.org/2000/svg">
(
−
)
狄拉克δ函数和代表传入飙升<年代vg height="13.0125" id="M17" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
。
假设一个突触前动作电位时间<年代vg height="13.0125" id="M18" style="vertical-align:-3.2316pt;width:9.0375004px;" version="1.1" viewbox="0 0 9.0375004 13.0125" width="9.0375004" xmlns="http://www.w3.org/2000/svg">
可以表达的,萧条的过程(<一个href=”#EEq2">2一个>),<年代vg height="7.0124998" id="M19" style="vertical-align:-0.0pt;width:6.5px;" version="1.1" viewbox="0 0 6.5 7.0124998" width="6.5" xmlns="http://www.w3.org/2000/svg">
神经递质池用于传播的一部分,<年代vg height="7.1624999" id="M20" style="vertical-align:-0.11285pt;width:7.5374999px;" version="1.1" viewbox="0 0 7.5374999 7.1624999" width="7.5374999" xmlns="http://www.w3.org/2000/svg">
的分数是<年代vg height="7.0124998" id="M21" style="vertical-align:-0.0pt;width:6.5px;" version="1.1" viewbox="0 0 6.5 7.0124998" width="6.5" xmlns="http://www.w3.org/2000/svg">
被利用,因为每一个高峰,神经递质释放概率模型。促进机制,另一方面,是由于增加突触利用在每个突触前峰值,可以由(制定<一个href=”#EEq2">3一个>)。<年代vg height="14.3875" id="M22" style="vertical-align:-3.25792pt;width:24.5375px;" version="1.1" viewbox="0 0 24.5375 14.3875" width="24.5375" xmlns="http://www.w3.org/2000/svg">
年代
E
是一个常量值确定步骤增加<年代vg height="7.1624999" id="M23" style="vertical-align:-0.11285pt;width:7.5374999px;" version="1.1" viewbox="0 0 7.5374999 7.1624999" width="7.5374999" xmlns="http://www.w3.org/2000/svg">
和<年代vg height="10.825" id="M24" style="vertical-align:-3.22281pt;width:21.825001px;" version="1.1" viewbox="0 0 21.825001 10.825" width="21.825001" xmlns="http://www.w3.org/2000/svg">
f
一个
c
弛豫时间常数,在哪里<年代vg height="14.3875" id="M25" style="vertical-align:-3.25792pt;width:24.5375px;" version="1.1" viewbox="0 0 24.5375 14.3875" width="24.5375" xmlns="http://www.w3.org/2000/svg">
年代
E
应该有界<年代vg height="13.125" id="M26" style="vertical-align:-1.95624pt;width:32.674999px;" version="1.1" viewbox="0 0 32.674999 13.125" width="32.674999" xmlns="http://www.w3.org/2000/svg">
(
0
,
1
]
。后传入的尖峰,<年代vg height="7.1624999" id="M27" style="vertical-align:-0.11285pt;width:7.5374999px;" version="1.1" viewbox="0 0 7.5374999 7.1624999" width="7.5374999" xmlns="http://www.w3.org/2000/svg">
从其当前值增加,<年代vg height="13.45" id="M28" style="vertical-align:-2.21957pt;width:22.8375px;" version="1.1" viewbox="0 0 22.8375 13.45" width="22.8375" xmlns="http://www.w3.org/2000/svg">
(
)
,<年代vg height="16.424999" id="M29" style="vertical-align:-3.25792pt;width:185.1125px;" version="1.1" viewbox="0 0 185.1125 16.424999" width="185.1125" xmlns="http://www.w3.org/2000/svg">
(
+
)
=
(
)
+
年代
E
⋅
(
1
−
(
)
)
,飘向其基线值<年代vg height="14.3875" id="M30" style="vertical-align:-3.25792pt;width:24.5375px;" version="1.1" viewbox="0 0 24.5375 14.3875" width="24.5375" xmlns="http://www.w3.org/2000/svg">
年代
E
与时间常数<年代vg height="10.825" id="M31" style="vertical-align:-3.22281pt;width:21.825001px;" version="1.1" viewbox="0 0 21.825001 10.825" width="21.825001" xmlns="http://www.w3.org/2000/svg">
f
一个
c
动作电位之间的关系。规则使<年代vg height="13.45" id="M32" style="vertical-align:-2.21957pt;width:50.037498px;" version="1.1" viewbox="0 0 50.037498 13.45" width="50.037498" xmlns="http://www.w3.org/2000/svg">
(
)
<
1
。图<一个href=”http年代://www.newsama.com/journals/cin/2011/869348/fig1/" target="_blank">1一个>说明了响应的状态参数<年代vg height="7.0124998" id="M33" style="vertical-align:-0.0pt;width:6.5px;" version="1.1" viewbox="0 0 6.5 7.0124998" width="6.5" xmlns="http://www.w3.org/2000/svg">
和<年代vg height="7.1624999" id="M34" style="vertical-align:-0.11285pt;width:7.5374999px;" version="1.1" viewbox="0 0 7.5374999 7.1624999" width="7.5374999" xmlns="http://www.w3.org/2000/svg">
常规输入脉冲序列如图<一个href=”http年代://www.newsama.com/journals/cin/2011/869348/fig1/" target="_blank">1(一)一个>。兴奋性突触后反应(EPSP)通过一个动作电位<年代vg height="13.45" id="M35" style="vertical-align:-2.21957pt;width:148.8875px;" version="1.1" viewbox="0 0 148.8875 13.45" width="148.8875" xmlns="http://www.w3.org/2000/svg">
E
P
年代
P
(
)
=
⋅
(
)
⋅
(
)
,在那里<年代vg height="10.55" id="M36" style="vertical-align:-0.0pt;width:11.325px;" version="1.1" viewbox="0 0 11.325 10.55" width="11.325" xmlns="http://www.w3.org/2000/svg">
突触的基线水平输出。的一种抑制性突触,<年代vg height="10.55" id="M37" style="vertical-align:-0.0pt;width:61.612499px;" version="1.1" viewbox="0 0 61.612499 10.55" width="61.612499" xmlns="http://www.w3.org/2000/svg">
→
−
。
在这种突触模型,<年代vg height="10.55" id="M38" style="vertical-align:-0.0pt;width:11.325px;" version="1.1" viewbox="0 0 11.325 10.55" width="11.325" xmlns="http://www.w3.org/2000/svg">
可能被视为突触权重。它代表了spike-timing<我>独立的我>贡献的突触反应。动态突触的贡献<年代vg height="10.725" id="M39" style="vertical-align:-0.1254pt;width:11.375px;" version="1.1" viewbox="0 0 11.375 10.725" width="11.375" xmlns="http://www.w3.org/2000/svg">
在任何时候即时<年代vg height="9.125" id="M40" style="vertical-align:-0.11285pt;width:5.0124998px;" version="1.1" viewbox="0 0 5.0124998 9.125" width="5.0124998" xmlns="http://www.w3.org/2000/svg">
评估是<年代vg height="13.45" id="M41" style="vertical-align:-2.21957pt;width:100.775px;" version="1.1" viewbox="0 0 100.775 13.45" width="100.775" xmlns="http://www.w3.org/2000/svg">
(
)
=
(
)
⋅
(
)
(<一个href=”#B26">26一个>]。这种动态的价值贡献取决于相关参数的值:<年代vg height="14.3875" id="M42" style="vertical-align:-3.25792pt;width:24.5375px;" version="1.1" viewbox="0 0 24.5375 14.3875" width="24.5375" xmlns="http://www.w3.org/2000/svg">
年代
E
,<年代vg height="10.825" id="M43" style="vertical-align:-3.22281pt;width:21.825001px;" version="1.1" viewbox="0 0 21.825001 10.825" width="21.825001" xmlns="http://www.w3.org/2000/svg">
f
一个
c
,<年代vg height="10.825" id="M44" style="vertical-align:-3.22281pt;width:22.0875px;" version="1.1" viewbox="0 0 22.0875 10.825" width="22.0875" xmlns="http://www.w3.org/2000/svg">
r
e
c
。在下一节中,我们将解释如何学习规则曲调只有动态部分通过调节这些参数调节spike-timing-dependent响应。年代p一个n>
(一)年代trong>
(b)年代trong>
(c)年代trong>