空间概念学习:强化神经网络实现在虚拟和物理机器人

文摘

本文提出了一种人工神经网络(SNN)持续飙升空间概念学习的认知抽象流程,嵌入在虚拟和真实的机器人。基于一个操作性条件作用过程中,机器人学习水平/垂直的关系和左/右视觉刺激,不管他们的特定模式成分或其位置的图像。测试与小说模式和位置是成功完成收购后的学习阶段。结果表明,该SNN时可以实时调整其行为奖励规则的改变。

1。介绍

掌握抽象概念似乎是一个关键达到更高层次的认知,使动物收集更多的复杂的知识(1]。节省时间,避免概念学习的每一个刺激,重组在大类处理新情况。根据Zentall认为et al。2),定义了三个主要层次类型的抽象概念。知觉或自然抽象概念在于发现物理不同对象之间的相似性或刺激和第一类型的分类。第二个类型、关系的概念,涉及一般规则或抽象刺激之间的关系并不是直接关系到他们的特定的物理属性。从这个意义上说,它是一个二阶的过程(3,4]。例如,大小(如大小)是抽象类,通过比较提出了对象的大小决定的。因此,维关系不是绑定到对象的确切物理尺寸相比,但从经验和发达。最后,联想或功能的概念意味着一个刺激或与另一个特点是可互换(即。犬吠)。本文着重于空间抽象概念作为一个前一步实现关系高于/低于神经回路。

有一个丰富的经验数据集合关系概念,以及在文献中。动物模型和方法也很多很多层面的比较(5- - - - - -9]。最近,这种更高级的认知过程与无脊椎动物研究。令人吃惊的是,这是表明,蜜蜂可以学习一些不同类型的关系的概念,尽管有一个小的大脑,由不到一百万个神经元(10- - - - - -15]。即使一些进展与学习过程和神经基质16),没有精确的神经回路是目前已知的解释的概念从一个完整的感觉,运动学习建筑,无论是自然或人工。同时,知觉之间的关系和关系的概念水平仍然从计算neurorobotic角度主要是未知的。

神经建模是一种计算工具,也许有助于接近这个问题,更准确地说,阐述一个精确的人工神经电路相关行为观察。很少有文章探讨了抽象概念学习过程现象从这个角度。因此,本文旨在进一步研究主题下强化神经网络(SNN)模式。此外,本研究亦一步超出一个SNN通过实现整个认知过程在一个完整的虚拟和物理neurorobotic模型17]。这允许验证所提出的计算模型在brain-body-environment或体现认知语境(18]。

SNNs bioinspired神经模型强调单一事件飙升和temporal-coincidental的关系19,20.]。一般来说,从这些神经模型使用的学习规则是基于从spike-timing依赖性可塑性突触变化(STDP)过程(21- - - - - -23]。因此,本文使用一个特定的SNN模型来维持的表示空间概念学习过程。

在这项研究中,一个空间视觉任务不同的图像由水平/垂直和左/右所示模式是静态机器人面前。从一个操作性条件作用过程,机器人必须决定哪一方选择(左或右)。因此,从增援,学会副不同的空间关系,独立于特定的刺激模式及其位置。这种视觉学习场景部分灵感来自一个由蜜蜂(11,24),这充分成功地学习两个关系抽象概念(高于/低于、左/右和相同/不同)与泛化传输测试。本文是在我们以前的工作的连续性,这是建立一个SNN neurorobotic维持身份概念学习过程的域(25]。

下一节描述了方法和学习协议的细节。这是紧随其后的是结果,强调空间的概念学习过程从突触行为变化。最后一节包含一个讨论当前模型的局限性和未来的角度学习模型。

2。方法

2.1。协议

视觉任务在于学习水平/垂直和左/右空间概念。图像投影在机器人的前面。每个人都有两面(左和右):一边包含两个垂直对齐的黑色/白色图案和另一边包含两个主题水平(图保持一致1)。第一个实验的分组模式(水平或垂直),排列的三种可能的位置上。因此,所有图片第一个随机的横向和纵向模式,第二的位置,第三个人刺激模式组合(图2)。图片覆盖了整个机器人的摄像头的视场。第二个实验测试刺激新奇的地方,一旦学习阶段完成。最后,第三个实验可以验证SNN在不精确的情况下,通过使用一个真正的机器人。

图像捕捉后,机器人需要二分向左或向右的决定根据选择的刺激,随机选择之前的学习。这个动作是通过直接旋转马达转向。从一个调节过程,奖励是一致地应用于垂直或水平的主题,根据所需的学习规则。随着任务和一些积极的强化物,机器人学习水平/垂直或左/右关系,忽略了具体个人模式的特点以及它的位置。验证SNN的鲁棒性,实验结束演讲的小说模式在新的位置。

2.2。体系结构

神经电路被组织成四个基本层:感官输入层,一个综合层,一层决定,电动机的输出层(图3)。感官的视觉神经元与相机捕获的图像4:3比率。这些神经元排列在一个3×15数组,其中每个重叠的不同空间部分,因此完全覆盖了视野。在这个实验中,只感觉神经元整合黑色强度数值。这些都是平均规模和规范化的百分比。因此,感官视觉神经元的活动激增反映刺激模式显示在机器人的前面。一旦图像捕获的机器人的观点是,一个冷却时间阻止相机触发一个动作之前。否则,不断刺激输入从这一层防止SNN整合和行为在一个单一的形象。

感觉输入层转发信号综合神经元。这些从地形上组织在社区配置中,分离在左/右和上/中/下逻辑部分。在当前的模型中,第一级的集成是由12个神经元(6垂直和六个水平检测)。这允许SNN应对当地的刺激。更准确地说,每个综合元素可以应对任何垂直或水平显示黑色的刺激。第二个综合水平'每一方的所有水平和垂直神经元(ViewVerticalLeft, ViewVerticalRight、ViewHorizontalLeft ViewHorizontalRight)。

从综合神经元信号传递到决定层,更精确地预测神经元。这些预测神经元与它们相关的选择神经元(ChooseLeft, ChooseRight、ChooseVert ChooseHor)弱兴奋性突触和突触学习规则(STDP)和层也连接到行动。学习之前,预测神经元不能触发选择神经元。作为回报,STDP规则加强那些特定的突触。这最终使得正确预测神经元触发相关的选择。奖励是模拟通过移动一个红外传感器位于前面的一块后面的机器人。在这项研究中,从STDP学习规则需要第三个因素(奖励)被激活(26,27]。当没有奖励,这意味着机器人带着一个错误的决定和突触强烈削弱。

决定层还包含神经元(GoVertLeft、GoVertRight GoHorLeft, GoHorRight)。例如,当水平选择神经元峰值,Go神经元水平允许适当的行动(左/右)要做,这取决于水平刺激所在地。

行动层包括两个运动神经元(Action-TurnLeft Action-TurnRight),定向机器人向选择的一面。学习之前,当检测到一个模式的感官视觉层,随机行动是由发送延时信号引发运动神经元。这个动作可能最终会绕过决定预测神经元的神经,在学习。

2.3。神经动态

本文使用的飙升神经模型和神经结构实现SIMCOG软件(28]。神经动态是基于标准属性,这是膜电位变化(方程(1),(3)和(4)),非线性集成兴奋或抑制性输入(方程(2)),阈值上升的事件,绝对不应期,后一个峰值超极化状态。自定义良好的神经回路,起始突触权重的优化是手动调整发射之前最后一个实验(补充材料开始在突触权重值http://aifuture.com/res/2018-spatial)。该模型中使用的学习规则集STDP函数(方程(5)只有层突触的决定。

漏水的积分器神经动态: 在哪里在周期=膜电位 , =突触输入计算方程(2),=膜电位曲线方程计算(3)。

通用函数描述突触后电位曲线: 在哪里=最大振幅(从2到20集),=τ(7),=以来飙升(周期)=最大持续时间的PSP(设置周期从1到10)。

膜电位函数: 在哪里=膜电位(设置为43)和其他价值=阈值(设置为65)。

膜电位输出: 在哪里=[4、11、18、23、28日,32岁,36岁,42岁,43岁,44岁,45岁,47岁,50岁,53岁,58岁的65年,100年),提升阶段达到阈值= ,从发布动作电位上升阶段为每一个从1到7,动作电位= 100。

一般STDP函数。在哪里=突触重量变化,=乘数因子(1.0),当 ,−1 ,c=时间常数(设置为100/3)STDP系数 :突触改变的时间= 1000周期,马克斯。突触的变化一个成对飙升= 25%,马克斯。全球突触变化= 100%。

2.4。物理环境

调优后SNN参数和评估他们在一个虚拟的世界,它是嵌入在一个物理环境使用覆盆子π3安装一个160×120分辨率的相机和两个伺服电机(pan /倾斜相机旋转)。本仿真的目的是验证SNN的能力和更少的精确变量(即学习。,事件的时机,摄像头检测,等等)。嵌入的SNN覆盆子π机器人,它只需要一个修改。因为机器人不包含红外传感器,奖励是相反的前面显示一个红色的纸。因此,一个额外的奖励视觉神经元与相机,以感知红色。

3所示。结果

图4代表了神经行为动态的主要元素实现空间概念学习的任务。对于每个审判,感官神经层(3×15组神经元)捕获图像与一个水平模式,一边一个垂直模式在另一边。这是由两种不同的黑白图案(3×4像素)。机器人的三个例子视图顶部的图所示。感官层转发信号综合层导致上涨事件相关的四个主要神经元(图形到D)。从这些,一个从决定选择神经元神经层(图形E H)发出一个动作电位。

在第一个实验中,所需的输出是在垂直的刺激。然后奖励规则被修改,2000年周期,给一个奖励在选择水平模式。一个可以看到SNN完全适应其行为即使改变在线奖励规则。相反的情况(学习水平刺激前垂直)是还测试了,没有对学习过程的影响(没有显示)。由于图像序列是随机的,包括模式和水平或垂直的侧面,我们做了一些试验。在所有情况下,SNN成功地学习,根据所需的输出调整其行为。

初的模拟、预测神经元之间的突触联系和选择神经元都很弱。因此,行动的选择是随机的。在实验期间,积极强化(图形I)时应用SNN成功地选择正确的行动(图形J和K)。这个学习过程所示图形L O与增加突触权重从几个奖励。学习一步因素是为了达到阈值点后三个正确的关联,但它可能已经完成不同的顺利学习,甚至引发了反应后一个正确的审判。当SNN不断预测正确的行动,最后测试完成了小说模式(见例子在4100周期)。

在第二个实验中,大多数图像都显示左侧垂直,直到2200年循环(图5)。这使得SNN学习之间的两个选择:离开和垂直。防止机器人只学习规则左边(从ChooseLeft神经元),一些horizontal-left / horizontal-right图片所示(例如,在循环250)。2200年周期之后,垂直模式显示在右边,验证SNN仍然可以使用了垂直规则虽然是小说的位置。

真正的实验,使用覆盆子π,给了相似的结果,尽管它是必要的运行实验前几次成功。这里的主要困难是关于时间和手工图像调整在镜头面前;否则,它没有正确地捕获图像的感官输入层。而且,由于没有红外传感器对实体机器人,被给予的奖励,红色的论文在前面,被它的相机。这增加了一些工件在模拟。视频和仿真结果可作为补充材料:http://aifuture.com/res/2018-spatial。

4所示。讨论

抽象概念学习被认为是一个更高的认知过程和智能自然物种的一个重要特征。最近神经科学文献表明,即使与小型无脊椎动物的大脑可能达到这种程度的复杂性。这个吸引人的事实刺激认知现象的模拟激增bioinspired人工神经元方法嵌入neurorobotic模型。这种模式依赖于工作假说之一的计算一般智力水平层面上,基于功能认知过程相关的特定的身体结构和环境。然而,精确的认知过程的模拟人工神经电路和给定机器人实现并不打算反映自然,但只有繁殖人工基质的功能和行为,建立在一个真实的背景。

这个项目将是一个一步达到关系概念水平之前,从设计一个特定SNN相关水平/垂直的空间抽象概念和左/右。以外的主要目的通过neurorobotic模型模拟这个学习过程,本实验还充当一个原型模型进一步研究一般神经设计的发展,从而维持概念学习的三种不同类型,以及多种形式的概念在每个类别。

在其目前的形式来看,SNN模型了视觉规模小的限制(视网膜)和一个单一的色彩感知(黑色)。SNN设计也是局限于检测完美的水平或垂直的刺激。因此,它将无法执行时,看到前面一个直角刺激它,这是另一个可能的测试泛化属性。在同一角度,上下伸缩刺激是不可能在这个实验中,从视网膜的限制功能。然而,这些问题可能在未来纠正工作。此外,更高的歧视将会是一个理想的特性包括在目前SNN模型,因为它需要在高于/低于相同/不同关系的概念,以及它的完整验证传输测试。然而,我们相信这种架构的核心神经层将保持,可以用于更复杂的研究有关。

关系概念学习过程摆脱经验和突触修改现有的神经回路,或是否需要添加新的神经元的发育神经阶段?是自底向上的关系概念结构化神经层次?分类的一阶感知水平维持二阶关系抽象概念?作为一个开始向回答这些问题从neurorobotic模型的角度来看,该SNN允许学习两个空间的概念,从一组特定的神经元和突触。首先,机器人的学习规则尚不清楚,但作为回报,SNN适应其行为的监督增援的操作性条件反射的过程。此外,SNN时表现出行为可塑性改变在线奖励规则。

在目前的实验中,没有必要区分刺激模式,例如,区分黑色广场刺激和X形刺激。这种低水平的感知没有实现空间学习任务所需的左/右和水平/垂直模式。然而,这当然是一个关键的步骤达到关系抽象的学习水平。例如,在上面/下面的场景中,确定常数视觉空间参照而其他视觉模式需要一个不同的位置知觉歧视和功能作用的比较。这是一个未来的工作为我们的团队整合目前的模型,并构建一个SNN链接这个空间概念级二阶关系概念。

本文的另一个目标是提供实验数据比较不同计算机器人模型,以及开发基准测试增量学习领域的复杂场景中抽象的概念。

5。结论

本文表明,拟议中的SNN控制虚拟和物理机器人,成功学习水平/垂直的空间概念和左/右视觉模式从调节过程和突触修改。这个实验打算做第一步研究达到二阶关系概念的上面/下面的情况。我们相信这bioinspired方法可能打开新的视角达到较高的人工识别neurorobotic域。

数据可用性

完整的访问所有参数和结果数据用于支持这项研究,以及SIMCOG软件,可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

t·r·Zentall认为e·a·沃瑟曼o . f . Lazareva r·k·汤普森和m . j . Rattermann”概念学习的动物,”比较认知和行为的评论,3卷,13-45,2008页。视图:出版商的网站|谷歌学术搜索
t·r·Zentall认为e·a·沃瑟曼,p . j . Urcuioli“关联概念学习的动物,”实验分析的行为》杂志上,卷101,不。1,第151 - 130页,2014。视图:出版商的网站|谷歌学术搜索
j·s·卡茨,a·a·赖特和k·d·身体”问题比较抽象概念学习的认知。”比较认知和行为的评论,2卷,第92 - 79页,2007年。视图:出版商的网站|谷歌学术搜索
a . a·赖特和j·s·卡茨,”泛化的假设的抽象概念学习:学习策略和相关问题在解剖,宿务apella,鸽属利维亚,”比较心理学杂志,卷121,不。4、387 - 397年,2007页。视图:出版商的网站|谷歌学术搜索
l .奇特和k·延森动物认知:概念从猿到蜜蜂,”当代生物学,21卷,不。3,R116-R119, 2011页。视图:出版商的网站|谷歌学术搜索
j·s·卡茨和a . a .莱特”相同/不同的抽象概念学习的鸽子。”实验心理学杂志:动物行为过程,32卷,不。1,第86 - 80页,2006。视图:出版商的网站|谷歌学术搜索
j·s·卡茨,a·a·赖特和j . Bachevalier”机制的不同抽象概念学习由恒河猴(解剖),“实验心理学杂志:动物行为过程,28卷,不。4、358 - 368年,2002页。视图:出版商的网站|谷歌学术搜索
g·l·墨菲大本的概念美国马剑桥,麻省理工学院出版社,2004年。
a . a .莱特”概念学习和学习策略。”心理科学,8卷,不。2、119 - 123年,1997页。视图:出版商的网站|谷歌学术搜索
a . Avargues-Weber d d 'Amaro, m·麦茨勒和a·g·代尔”概念化相对大小的蜜蜂。”行为神经科学前沿,8卷,p。80年,2014年。视图:出版商的网站|谷歌学术搜索
a . Avargues-Weber a·g·代尔m .峡谷和m . Giurfa”同时掌握两种微型大脑抽象概念的蜜蜂,“美国国家科学院院刊》上,卷109,不。19日,7481 - 7486年,2012页。视图:出版商的网站|谷歌学术搜索
a . Avargues-Weber和m . Giurfa”概念通过微型学习的大脑,”英国《皇家学会学报B:生物科学,卷280,不。1772年,文章ID 20131907, 2013。视图:出版商的网站|谷歌学术搜索
m . Giurfa”认知与一些神经元:高阶学习昆虫,”神经科学的趋势,36卷,不。5,285 - 294年,2013页。视图:出版商的网站|谷歌学术搜索
m . Giurfa s, a . Jenett r·门泽尔和m . v . Srinivasan”的概念“相同”和“不同”在昆虫。”自然,卷410,不。6831年,第933 - 930页,2001年。视图:出版商的网站|谷歌学术搜索
r门泽尔,“蜜蜂作为模型来理解认知的基础上,“神经系统科学自然评论,13卷,不。11日,第768 - 758页,2012年。视图:出版商的网站|谷歌学术搜索
c·j·佩里,a·b·巴伦和k . Cheng“无脊椎动物学习与认知:现象相关的神经基质,”威利跨学科评论:认知科学,4卷,不。5,561 - 582年,2013页。视图:出版商的网站|谷歌学术搜索
j·l·Krichmar”Neurorobotics-a繁荣的社区和一个有前途的途径向智能认知机器人,”Neurorobotics前沿,12卷,2018年。视图:出版商的网站|谷歌学术搜索
A . Cangelosi和f . Stramandinoli”体现的抽象概念学习代理和机器人,”英国皇家学会哲学学报B:生物科学》,卷373,不。1752年,文章ID 20170131, 2018。视图:出版商的网站|谷歌学术搜索
w·郭士纳,和w·基斯特勒公司强化神经元模型:单神经元,数量,可塑性英国剑桥,剑桥大学出版社,2002年。
w .马斯河“强化神经元网络:神经网络模型的第三代,“神经网络,10卷,不。9日,第1671 - 1659页,1997年。视图:出版商的网站|谷歌学术搜索
g .问:Bi和m . m .粪便,”在培养的海马神经元突触修改:依赖峰值时间、突触强度,和突触后细胞类型,“神经科学杂志》上,18卷,不。24日,第10472 - 10464页,1998年。视图:出版商的网站|谷歌学术搜索
n Caporale和y丹,”斯派克套牢可塑性:hebbian学习规则,”年度回顾神经科学没有,卷。31日。1,25-46,2008页。视图:出版商的网站|谷歌学术搜索
Lubke h·马克拉姆j . m . Frotscher, b . Sakmann”调节突触效能巧合的是突触后APs和EPSPs”科学,卷275,不。5297年,第215 - 213页,1997年。视图:出版商的网站|谷歌学术搜索
a . Avargues-Weber a·g·代尔和m . Giurfa”上下关系的概念化的昆虫,”《皇家学会学报B:生物科学,卷278,不。1707年,第905 - 898页,2011年。视图:出版商的网站|谷歌学术搜索
Cyr a、a . Avargues-Weber和f . Theriault”相同/不同强化神经回路关系前体概念模型:一个仿生机器人的实现,“生物启发的认知体系结构卷。21日,59 - 66年,2017页。视图:出版商的网站|谷歌学术搜索
n . Fremaux h . Sprekeler和w·郭士纳,“功能要求reward-modulated spike-timing-dependent可塑性,”神经科学杂志》上,30卷,不。40岁,13326 - 13337年,2010页。视图:出版商的网站|谷歌学术搜索
Ł。Kuśmierz、t . Isomura和t . Toyoizumi”,学习有三个因素:调制hebbian可塑性与错误,”目前在神经生物学的观点,46卷,第177 - 170页,2017年。视图:出版商的网站|谷歌学术搜索
Cyr a、m . Boukadoum和p .地方“AI-SIMCOG:模拟器飙升神经元和多个动画”行为,神经计算和应用,18卷,不。5,431 - 446年,2009页。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

计算在Neurorobotics智力和神经科学

文摘