raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

CIN

计算智能和神经科学

1687 - 5273 1687 - 5265

Hindawi

10.1155 / 2019/4862157

4862157

研究文章

仿人机器人的控制自适应Bioinspired小脑模块3 d运动任务

http://orcid.org/0000 - 0003 - 0388 - 6321

萨曼塔

阿尔贝托。

http://orcid.org/0000 - 0002 - 5392 - 3525

玛蒂娜

达里奥

http://orcid.org/0000 - 0002 - 8729 - 0391

Casellato

克劳迪亚

http://orcid.org/0000 - 0002 - 6007 - 7187

D天使

Egidio

http://orcid.org/0000 - 0001 - 9957 - 2786

Pedrocchi

亚历山德拉

¹ Kiatwanidvilai

Somyot

电子系

信息和生物工程

米兰理工大学

米兰

意大利

polimi.it

的大脑和行为科学部门

帕维亚大学

大脑连接中心史Neurologico IRCCS基金会Mondino

帕维亚

意大利

unipv.eu

2019年

27 1 2019年

2019年 12 10 2018年 27 12 2018年 27 1 2019年

2019年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

bioinspired自适应模型,开发了通过强化神经网络由成千上万的人工神经元,已被用于一个人形NAO机器人实时控制。学习系统的属性一直在挑战经典cerebellum-driven范式,一种摄动上肢达成协议。神经生理学原则用于开发模型成功地驾驶一种自适应电动机与基线控制协议,收购,和灭绝阶段。飙升神经网络模型显示学习行为类似的实验测量与人类受试者在收购阶段相同的任务,同时采取其他策略在灭绝阶段。模型在实时处理外部输入、编码为峰值,和生成的输出神经元的活动是解码,为了提供适当的校正电机驱动器。三个双向长期可塑性规则已经嵌入了不同连接和不同时间尺度。可塑性的输出层神经元的放电活动的网络。摄动上肢达成协议,neurorobot成功地学会了如何弥补外部扰动生成一个适当的修正。因此,飙升小脑模型能够再现机器人平台生物系统如何处理外部的误差来源,在理想和现实(噪声)环境。

地平线2020框架计划

720270年

785907年

HBP合作项目

1。介绍

这项工作属于neurorobotics,一门学科的目的复制机器人平台的典型动物行为。其目标是开发系统,通过特定的算法和计算模型受生物学和生理学、能够模仿动物和人类的感觉和运动控制机制。这个雄心勃勃的目标是追求为了开发一个更好的理解的生物机制,我们的行为规则。获得的技术和系统还将提供有价值的反馈和前馈控制功能,可以介绍感觉器官协调机器人。在这项工作中,我们专注于bioinspired小脑模拟器集成到仿人机器人的控制器。我们测试了其学习性能在典型的摄动上肢感觉运动的任务达到[ 1]。

电动机控制的主要任务之一是中枢神经系统(CNS),和许多假说对其工作原理和机制。考虑电机控制系统之间的亲密关系和感觉系统电动机执行,可以参考他们的行为感觉运动回路相结合。这个循环结合前馈和反馈策略的感觉和认知过程的输入生成下一个运动输出。计算,中枢神经系统是由系统处理输入并生成输出。所有的感官信息的输入由本体感受的受体以及认知的内部和外部信号。输出是电动机命令指示的肌肉会产生对环境的影响。感觉运动回路理解许多不同子结构,在别人,小脑。它有一个重要的角色在精细运动控制和运动学习的任务和协会模式。小脑从许多感觉通道(即处理数据。,vestibular and proprioceptive) and combines them with the previous motor commands to produce the updated motor commands for the next execution. The cerebellum is also supposed to be involved in a large amount of cognitive learning processes [ 2]。文学的模式评估,强调了小脑的角色,是关联任务的眼睛闪烁的经典条件作用[ 3),vestibule-ocular反射(伏尔)[ 4),和摄动上肢达到运动控制( 5]。

超过一半的大脑神经元位于小脑,大脑只占10%的质量。小脑细胞因此密集在高度复杂的小脑皮层的灰质和四个深小脑核,在两个大脑半球。小脑皮层由三层组成,其中包括至少5个类型的细胞。小脑结构及其功能行为已经深入分析。在这个广泛的研究,许多小脑提出了计算模型和发展( 6- - - - - - 9]。其中,现象学模型所得计算电机控制研究是最好的候选人解决感觉运动的集成问题,因为它们使用基于函数抽象方法。这种模型能够处理运动规划、内部模型,状态估计,运动学习和模块化 10]。基于神经生物学的一个现实的方法需要使用相互关联的自适应神经网络(SNN)飙升。这些网络有可能复制好的机器人自适应控制系统,考虑到生物组织执行的控制使用的各个部分相互连接的神经元( 11]。

在以前的工作,我们已经测试了一系列简化,但现实,小脑模型为感觉运动任务( 12- - - - - - 14]。这项工作的目的是实现机器人平台的计算模型,以验证其在实时控制功能和行为问题。特别是,一个机器人控制器集成了cerebellar-inspired网络,为系统提供运动学习的能力。电机控制系统的组件可以用他们的现象学模型,如内部的反馈和前馈机制模型。第一个是基于持续的错误来自传感器的更新,而后者是基于直接运动命令。让机器人平台之间的这种集成控制器和bioinspired飙升网络,我们需要引入正确的接口模块内。介绍了三个接口;两个编码所需的输入轨迹和飙升的活动,获得的错误,另一个解码输出神经元的频率成角值,然后应用的机器人控制器。强化神经网络模拟了EDLUT平台,SNN模拟器可以实时执行。通过查找表,EDLUT绕过需要解决微分方程管理每一个网络单元的状态,从而减少计算负荷。

2。材料和方法

首先,我们定义了一个合适的版本的摄动上肢达成协议。这种模式用于提高小脑效应在感觉运动回路。目标是有主题,机器人在这种情况下,按照特定的轨迹,在某种程度上,一个意想不到的外力应用将产生扰动的执行轨迹。然后应用于一系列相同的扰动试验,所以话题学会预测扰动,从而限制了错误(收购阶段)。之后,突然被扰动,主体生成一个错误在相反的方向,这是取消了以下试验(灭绝阶段)。

网络优化使用机器人模拟器进行生理行为;因此,我们设置的起始重量值之间的不同类型的细胞提供活动频率匹配的出现在文献中。然后,我们执行一个蛮力探索找到最佳组合模型的塑性参数。

一旦网络进行优化,我们继续测试它的泛化能力与其他轨迹,不同于一个用于训练网络。进一步研究网络行为,我们评估其与真正的机器人表演使用来自模拟器的调优参数。我们评估不同的可塑性和如何获得优化的影响表现在一个嘈杂的环境和网络在现实机器人如何处理不同的扰动(即。,不同的轨迹)。

最后一个测试是使用一个网络执行十倍,同样的轨迹和参数,验证详细SNN如何改变提出电动机的演出任务。

总结,我们这项工作集中在三个主要目标:(i)的优化上肢达成协议,它适应NAO机器人同时控制三个自由度(自由度);(2)SNN参数调优,复制其组成神经元的生理行为和由此产生的机器人行为的;和(iii)的开发,优化网络在不同的轨迹(转移学习)。

2.1。模拟和真实的机器人

NAO是一个集成的、可编程的中型机器人仿人机器人由毕宿五。NAO成为(版本V3.3)是一个58厘米,5公斤的机器人,与远程计算机通过IEEE 802.11 g无线或有线以太网链接。国家审计署的有21个自由度和特性不同的传感器。因为我们感兴趣的手臂动作,我们控制三关节机器人的左肩和肘部(图 1(c)):肩(关节1),手肘偏航(关节2),和肘部辊(联合3)。

图1

轨迹和实验性的协议。(一)平面表示( Y- - - - - - Z轴,在机器人坐标系)的理想(蓝色)和摄动(黄色)笛卡尔轨迹。相应的关节空间的轨迹中描述面板(b)。(c)机器人的关节控制对应于三个旋转:肩膀高度(关节1)肱骨旋转(关节2),和肘部弯曲扩展(联合3)。(d)实验协议由5基准试验、20试验的收购,在负载应用到机器人手臂,和5试验灭绝的,额外的负载。

接口与神经网络机器人,能够运行在实时频率1 kHz,一个稳定的更新频率是一个严格的要求。出于这个原因,指挥机器人通过设备通信管理器(DCM)。DCM的软件模块负责与所有电子设备通信的机器人(板、传感器、执行器等)。这是高级功能和底层控制器之间的联系。扩张型心肌病有单独的实时线程运行每10毫秒,从而保证稳定的100 Hz刷新率。

NAO机器人不能直接控制电机转矩/电流,但只有在适当的位置。这个禁止身体扰乱手臂达到运动任务与外部力量。在力较低的情况下,机器人手臂就会达到理想的角度,而对于高力马达会停滞不动。因为这个原因,使用两种不同的轨迹:一个理想轨迹作为所需的路径和另一个摄动轨迹,纠正的网络使用关节角误差作为学习信号。

因为网络优化过程将需要数百个测试,我们使用一个机器人叫做Webots模拟器。这个模拟器允许启动一个模拟NAO移动在一个虚拟的世界,提供一个安全的地方在部署之前测试的行为在一个真正的机器人。考虑提供的级别的控制SNN DCM和不可预测的行为,特别是在优化阶段,模拟器是理想的测试如何影响电动机的命令和防止危险命令发送给真正的机器人。NAO虽然是一个非常准确的模拟,与任何其他模拟器一样,一些nonidealities不考虑(如非线性摩擦、传感器错误,和电动机过热)。

2.2。小脑模型

在这项工作中,cerebellar-inspired SNN,基于以前的版本,测试( 12, 13),被用来证明其适应能力在一个复杂的运动任务。使用的小脑的神经网络具有以下结构(图 2(一个)),建立了小脑的生理研究中获取灵感,与神经科学家紧密合作。SNN是由6480漏水的集成和火复制小脑神经元微电路:300苔藓纤维(MFs),第一个输入小脑的网络,组织在6组,每组50个细胞:3组,每个关节的控制,一个编码信息所需的位置和3组编码信息所需的速度;6000颗粒细胞(吉),生成一个稀疏表示的输入;72劣质橄榄油神经元(IOs),第二个输入小脑,各自爬纤维(CFs);IOs分为6组,每组12个细胞,3组,每个关节,一个编码的错误和其他3组编码负面的;72浦肯野细胞(pc)的集成商稀疏状态信息通过平行纤维来自一个集选区(PFs)通过CFs来自IOs的错误信息;36深小脑核神经元(DCNs公司),这是唯一的小脑microcomplex的输出,因此产生小脑输出变量,分成6组,两个为每一个关节,一组控制积极的补偿(即错误。受体激动剂肌肉)和其他补偿负(即错误。,对手的肌肉)。

图2

小脑SNN和编码/解码策略。(一)计算模型申请创建小脑SNN嵌入NAO机器人的控制器。每个块代表一个神经人口,相对的输入和输出。兴奋性、抑制性和教学连接描述。阴影区域代表了三个可塑性网站:红色PF-PC突触,蓝色MF-DCN突触,和绿色PC-DCN突触,改编自( 15]。(b)编码(MFs和IOs)和解码(DCNs公司)战略实施集成模拟机器人世界的飙升SNN的活动。美联储三关节角和角速度作为输入的MFs通过RBF方法,重叠一个随机活动。各关节误差转化为IO峰值通过泊松发电机,产生峰值的概率误差大小成正比。每个IO产生一个峰值模式,因此独立的历史和其他的IOs。宽带峰值转换为一个角修正发送给机器人关节的瞬间燃烧率计算,随后平均mobile-window过滤器。

(一) (b)

三个接口(图 2 (b))实施,将模拟信号转换为扣球活动通过网络反馈(输入),反之亦然(输出)。

MFs的第一个界面计算输入电流和径向基函数(RBF)的方法。当前的我 t 用于增量膜电位 V 米 t 曼氏金融。RBF中心分布在感官维度,同样的宽度调整以确保小重叠连续MF的反应。一维的当前值转化为多维向量,每个RBF一个。每个MF都有自己的接受域编码模拟信息,规范化−1(最小值)和1之间(最大值)。

第二个接口将联合错误转换成IO峰值。这些神经元发射率较低(小于10 Hz),可以防止高频误差信号的表示相关的任务是学习。这个问题可以利用不规则放电IO的统计抽样整个误差信号在多个试验。已经观察到的时间分布峰值IOs股票的泊松模型相似的特征。IOs火随机行为动物在休息和反应后的眼在猴子和arm-motion任务。这个随机特征发射增强输入-输出互信息尽管CFs超低发射率( 16]。发射率与峰值的泊松模型生成和复制,在每一个时间步,IO峰值的概率是随机生成的,误差大小成正比。这种方法被用来生成独立的峰值模式在多个输入输出神经元。因此对于每个IO,射击概率独立之前的活动和其他活动的激增IOs ( 17, 18]。大量证据支持在CFs误差信号和运动学习和误差信号之间的比例飙升CFs验证活动( 19, 20.]。

第三个界面解码宽带峰值模式模拟角值。首先,每一个宽带的瞬时燃烧率计算,然后积极的和消极的宽带发射率平均移动时间窗的200个样本(即。200 ms)。小脑的输出是通过计算平均净区别这两个的意思是宽带发射率(正面和负面) 12]。

由于这些接口,SNN可以集成到机器人平台控制器,与前馈预测控制器的功能。

SNN神经元连接的三种可能的方法: (我)

联系:兴奋性突触的突触前神经元的动作电位发生动作电位的概率增加突触后细胞。有兴奋性之间的联系MFs和集选区,MFs和DCNs公司之间,集选区制度和个人电脑之间。

(2)

抑制连接:在突触前细胞突触的冲动导致的可能性减少突触后细胞产生动作电位。有抑制pc和DCNs公司之间的连接。

(3)

教学连接:连接编码教学高峰列车(错误)相关的监督学习可塑性小脑的网站。

根据神经生物学的研究,已确定三个可塑性网站在人类小脑:PF-PC兴奋性连接的水平;在MF-DCN兴奋性连接;和PC-DCN抑制水平的连接( 21- - - - - - 24]。

SNN模型配备三可塑性网站,在皮质(PF-PC)和核(MF-DCN和PC-DCN)水平。每个站点的突触连接三个不同的学习规则,加强或削弱这些联系的长期的修改:长期势差(LTP)和长期抑郁(有限公司)。LTP和公司机制被建模为修改在突触电导(详细描述 13, 15]。一般来说,这三个机制是基于不同的Spike-Timing-Dependent可塑性(STDP),但每一个是根据具体的实验测量机制。第一个可塑性(PF-PC)调节电脑的活动,增加或减少的突触强度连接IO的监督下活动。第二个可塑性(MF-DCN)也是一种监督学习规则;在这种情况下,电脑活动的调制信号影响突触权重。第三可塑性(PC-DCN)是一种无监督标准STDP重量修改在哪里独特由突触前的时机(PC)和突触后神经元(宽带)。

对于网络的初始化突触权重,我们称为生理值。曼氏金融活动将由约50赫兹频率,通过调整背景随机活动和重叠和贝尔rbf的宽度。MF-GrC已经设置权重来实现一个集选区3 - 6赫兹的频率和GrC-PC重量生产个人电脑的频率- Hz左右。MF-DCN重量是为了有一个宽带频率大约25赫兹在没有电脑抑制(PC-DCN重量= 0)。最后一步是在调整PC-DCN重量、取消宽带活动存在一个稳定的电脑活动45赫兹。

执行实时模拟,我们杠杆EDLUT模拟器 25),一个开源模拟器的SNN提供减少计算负荷,加快网络仿真通过查找表。事实上,一个标准的模拟器(例如,神经元 26],巢[ 27, 28),或布莱恩 29日]),程序必须解决一个或多个微分方程为每个神经元和不能保证实时性能,接口需要一个真正的机器人平台。

2.3。试验协议

我们挑战了SNN 3 d运动适应协议,类似于适应协议基于力场进行人体试验( 30.- - - - - - 32]。理想的轨迹,机器人想要执行的平面圆 0.1 米半径,在执行 Y- - - - - - Z飞机和中心 Y = 0.1 米和 Z = 0.1 米 (图 1(一)、蓝线)。当一个意想不到的加载几乎是添加到机器人的手,变形的轨迹偏离了理想的人,向地面(图 1(一)、黄线)。结果,三个关节角控制偏离理想的路径(图 1(b)),因此每个自由度产生正面和负面的错误。

实验协议由30试验分为三个阶段(图 1(d)):第一个是基线阶段,机器人的命令是理想的轨迹和持续了5试验。第二阶段习得阶段,持续了20个试验和机器人的输入摄动的轨迹。最后一个是一个灭绝5期试验,再次输入是理想的轨迹。为了模拟小脑的适应能力,SNN是最小化的目标共同错误,从而减少后续笛卡尔三维空间中的错误。

2.4。参数调优

正如上面提到的,有三种不同的可塑性可以修改SNN的行为的网站,每一个学习的特点是两个参数:LTP和有限公司为了评估为这六个参数的最佳值,蛮力探索已经完成。第一可塑性(皮层可塑性,PF-PC)是学习效果的主要原因,因为它控制电脑的活动,抑制了宽带输出。另外两个可塑性(核可塑性,MF-DCN, PC-DCN)二次效应,影响误差减少性能上更长的时间尺度和强度较低。参数调优与Webot模拟器测试被执行,以防止损害,避免不可预知的机器人手臂运动由于网络的意想不到的行为。

评估网络性能,我们计算一个全球成本函数,我们想最小化。成本函数是两个质量量度的总和。两个指标考虑均方根误差(RMSE)的所有三个关节。对于每一个审判,RMSE每联合计算的 5000年女士试验的时间,然后三个均方根平均。的平均均方根误差我 th 审判是计算 (1) RMSE Avg 我 = RMSE 联合 1 我 + RMSE 联合 2 我 + RMSE 联合 3 我 3 。

第一个质量指标的加权平均计算 RMSE Avg 在收购和灭绝阶段。虽然有较高的错误是正常的在第一个收购试验,一个好的小脑控制器应该逐渐纠正持续的共同错误。这个指标奖励SNN显示一个好的调整的后期阶段收购也低灭绝错误: (2) RMSE 加权 = ∑ 我 = 6 30. RMSE Avg 我 ⋅ 重量我 25 , 在哪里 (3) 重量我 = 我 − 4 3 , 如果 6 ≤ 我 ≤ 25 收购阶段 , 4 , 如果我 > 25 灭绝阶段。

第二个质量指标措施稳定的修正,计算标准偏差(SD)的试验21 - 25日(即。收购的最后5个试验)。高值的LTP和RMSE有限公司参数可能导致快速变化在采集阶段,但也不稳定。这导致高RMSE的标准偏差,特别是在过去五试验,在最小误差应该已经达到: (4) 性病 = ∑ 我 = 21 25 RMSE Avg 我 − RMSE Avg ¯ 2 5 。

最后,全球成本函数,其最低应该确定最执行模型探索区域,计算正常化 RMSE 加权和性病他们的最大和最小值,从而获得值(0 - 1)之间,然后总结他们获得全球成本价值范围(0 - 2)。

第一可塑性,我们评价一个11×11矩阵, LTP 1 值从0到0.001和0.01的步骤有限公司 1 值从0到0.05的步骤0.005。探索进行迭代,选择一个LTP值并与所有公司值配对,然后重复这个过程的所有其他LTP值。为每个LTP和组合,完整的协议进行了仿真,最后的全球成本价值计算。第一次探索后,第二个在该地区已经完成全球最低的成本函数,与细步骤,测试其他10×10值。最好的LTP-LTD配置然后被选的调优其他核可塑性。

核可塑性的 LTP 1 和有限公司 1 造成之前的探索一直固定的,和探索对LTP和有限公司执行参数(例如, LTP 2 , 有限公司 2 , LTP 3 , 有限公司 3 )。评价是类似于第一个可塑性,除了参数范围。LTP和不等 10 − 10 来 10 − 1 ×10步骤。和之前一样,第二个最好的地区勘探确定了。第二个搜索覆盖10×10参数区域集中在最佳参数确定在第一勘探、测试一半的上方和下方的值(例如, 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 × 10 j ,在那里 j是最好的代指数)。

塑性值被设置后,需要考虑的另一个参数是获得需要转换网络的模拟输出在一个角度值(弧度)。因为每个关节都有不同的范围和幅度不同的错误,一个适当的增益为每个联合使用。找到最优增益值,蛮力勘探勘探总值(即已经完成。,testing gain values ranging from 0.005 to 0.05 with steps of 0.005) and a subsequent finer exploration (i.e., testing 10 gain values centered on the best result of the gross exploration, with steps of 0.001). The gain factor is particularly relevant due to the normalization of the angular values and the error that is given as input to the network. As the network manages values comprised between 0 and 1 for all joints, its output does not consider the differences in the actual angular errors. Therefore, a joint with small angular error will require a lower gain, while more perturbed joints will require a greater gain.

2.5。转移学习

确定了网络参数的设置(例如, LTP 1 − 3 , 有限公司 1 − 3 , 获得 1 − 3 ),产生最好的表现,我们有验证如果(i) SNN能够弥补外部扰动3 d运动由一个物理NAO机器人如果(ii) SNN能够补偿不同扰动模拟和物理机器人平台。

因此,我们执行10测试Webot模拟器和NAO机器人,为了验证控制器的鲁棒性在嘈杂的系统执行相同的协议用于SNN优化。

验证转移小脑模型的学习能力,我们有10测试Webot模拟器和NAO机器人执行协议的变化,与其他3夫妇的理想和摄动轨迹:两个理想圆的变形轨迹(椭圆和一个平方变形)和理想和变形 ∞ 形的轨迹。

2.6。网络增强

使用网络的限制之一是低的输出细胞数量限制的解决修正,导致抽筋的角轨迹。因此,我们测试了一个扩展版的SNN,观察网络的大小可以改变整个表演cerebellar-inspired控制器。每个神经人口增加十倍,保持相同的连接规则解释。所有参数都保持一样的正常使用的网络,获得已经减少了十,为了匹配输出细胞数量的增加。增加的副作用的大小网络实时性的损失是由于要处理大量的峰值。因此,更大的网络测试单个测试而不是通常的10个测试。也在这种情况下,我们还测试了三个额外的轨迹来验证学习的普遍性SNN的属性。

3所示。结果与讨论 3.1。参数调优

每个可塑性总值勘探后,导致最佳性能参数空间区域,根据开发成本函数,进一步探索。RMSE在所有试验计算10测试,使用参数优化中发现,为了验证SNN在不同阶段的行为。

在图 3(一个),可以看到的影响 LTP 1 和有限公司 1 的质量更正:有三个主要的地区可以识别。第一个是左下角,太低了,LTP是一贯高(蓝十字)。自有限公司是主要参与者在电脑活动的衰减和随之而来的宽带活动的增加,网络不执行在采集阶段(即。,没有学习)虽然在灭绝阶段表现良好,因为没有额外的负载时过度补偿(图中删除 3 (c)蓝线)。第二个区域是中间的右角,有限公司是高于LTP(绿十字)。宽带运达到高水平的活动,和自校正强,这是最糟糕的地区灭绝阶段。注意,同样在收购,这个区域不是有用的,太快和激进的调整会导致不稳定在这个阶段的最后审判(图 3 (c)绿线)。最后,还有主对角线附近区域,我们在哪里可以找到低成本函数的值。顶部中心区域包含全球最低(红场)是该地区选择更好的探索(图 3 (b))。

图3

大脑皮层可塑性的优化。(一)探索总值所引起的成本函数 LTP 1 和有限公司 1 参数。黑暗的值代表低成本函数的值,因此两个塑性参数的最佳组合。参数空间的进一步探索更好的搜索(b)是确定的红场。蓝色和绿色跨越识别参数两个例子给糟糕的表演(c)。(b)所引起的成本函数更好的探索 LTP 1 和有限公司 1 参数。红场标识全球最低,因此选择的组合 LTP 1 和有限公司 1 。(c)三个例子的RMSE 30试验协议的性能。红线代表了良好的性能,减少的RMSE在收购阶段和良好的灭绝在过去5试验。蓝线代表的结合 LTP 1 = 0.0 和有限公司 1 = 0.0 ;因此,没有调整发生在收购阶段,导致高成本函数值。绿线代表一个过高的组合 LTP 1 和有限公司 1 ,导致一个不稳定的和无效的校正试验。(d)和SD RMSE 10测试执行与Webot模拟器的最佳组合 LTP 1 和有限公司 1 发现更好的探索。

(一) (b) (c) (d)

更好的探索产生更均匀的结果,但它仍可能排除与过高的值较低的区域,修正不足和不稳定的地方。全球最小的探索与参数 LTP 1 = 0.0006 和有限公司 1 = 0.015 。已经证明了在以前的作品( 21- - - - - - 23, 33),皮质有限公司对公司有更大的值。这个组合的参数测试十次评估结果的再现性(图 3 (d)),然后使用期间的调核可塑性。

获得的结果在第二次塑性总值(MF-DCN)勘探图所示 4(一))。很明显,最高的错误出现在右下角区域,在高LTP产生过度补偿的效果。注意,对于这个可塑性, LTP 2 主要负责活动的增加宽带有限公司 2 他的衰减。在正确的区域,太高了有限公司 2 导致没有宽带的活动,因此修正。在左边的区域, 有限公司 2 允许一个活动从宽带,因此更好的结果。我们调查了左上角区域,包含全球最低。更好的探索(图 4 (b))几乎是统一的;因此,我们发现全球最低成本函数的组合参数 LTP 2 = 10 − 9 和有限公司 2 = 2 ⋅ 10 − 10 。在其他协议麦地那et al。 34];萨曼塔等。 13];Mauk和鲁伊斯 35];和麦地那和Mauk 36),MF-DCN塑性参数值明显低于皮层可塑性,从而确认核可塑性的影响的假设变得有意义的在长时间尺度上。

图4

核可塑性优化。(a, b)的总值和更好的探索带来的成本函数 LTP 2 和有限公司 2 参数。黑暗的值代表低成本函数的值,因此两个塑性参数的最佳组合。参数空间的进一步探索更好的搜索(b)是确定的红场(a)。(c, d) (a、b),但对于总值和更好的探索 LTP 3 和有限公司 3 。

(一) (b) (c) (d)

第三可塑性(PC-DCN)勘探生产总值几乎统一的结果,如果比其他两个可塑性(图) 4 (c))。在正确的区域,太高,因此,电脑无法选择性地抑制相应的宽带。即使更多的组合 LTP 3 和有限公司 3 给低成本的函数值,如果没有定义一个特定区域,靠近全球最小的参数空间中探索更好的搜索。更好的探索(图 4 (c))显示均匀的表演没有特别感兴趣的地方。全球最小的探索与参数 LTP 3 = 10 − 2 和有限公司 3 = 10 − 7 。

3.2。模拟和真实的机器人表演

优化了三个学习规则,10个测试进行只有皮层可塑性和可塑性激活(图 5(一个))。就明显的性能改进的核可塑性是微不足道的。正如前面提到的,可以看到核可塑性的主要作用在较长的时间尺度。它已被证实( 13]核可塑性的好处可以验证在长范式,可能超过100次试验后,当更多重复的采集和灭绝是重复的。此外,提供的可能改进核可塑性可能隐藏的不可忽视的变化之间的10个进行测试。

图5

RMSE在不同的测试条件。(a)和SD RMSE 10测试只有皮层可塑性优化计算(红色)和优化后的皮质和核可塑性(红色)。(b)和SD RMSE计算10测试优化后的皮质和核可塑性(红色)和优化后的增益(黑色)。(c)和SD RMSE计算10测试优化后的获得与Webot模拟器(黑色)和NAO机器人(橙色)。

(一) (b) (c)

一旦三个可塑性已经优化,我们进行调优的三个联合收益。在前面的情况下,所有的关节使用相同的增益值为0.012时,理论上来源于预见最大联合错误。第一个粗糙勘探证实附近已经使用的值。精细勘探的结果确定最优收益如下: 获得 1 = 0.005 , 获得 1 = 0.013 , 获得 1 = 0.012 。因为我们有优化网络的可塑性与固定增益为0.012,这是合理的,获得的收益并不与原来截然不同。

测试与优化SNN收益(图 5 (b)),我们获得了普遍较低的错误和一个更稳定的趋势在采集阶段,在适当的增益使网络的干预更充足的补偿误差,从而减少导致过校正效果不稳定。

有评估的性能SNN几乎在一个理想的环境(Webot模拟器),我们在现实世界中继续测试模型的性能与NAO机器人。十个测试执行与NAO机器人(图 5 (b))显示一个适当的校正在采集阶段,灭绝的后果开始阶段,和良好的灭绝在过去的试验。正如所料,Webot模拟器表现略优于NAO机器人,较小的方差。然而,NAO机器人的性能获得还是相似的,有一个很好的减少错误和类似的生理行为。鉴于NAO机器人的高可变性,这将是更难注意到差异的表演SNN配备皮质可塑性或多个可塑性。

3.3。转移学习表演

我们想测试转移提出SNN控制器的学习能力;我们因此挑战与三个不同的理想和摄动轨迹优化SNN(数字 6(一), 6 (d), 6 (g))。对于每个轨迹,我们已经适应增益值按比例每一个关节的最大误差。然后,我们测试了不同形状Webot模拟器(数据 6 (b), 6 (e), 6 (h)NAO机器人)和(数据 6 (c), 6 (f), 6(我))。

图6

转移学习表演。(a、d、g)理想(蓝色)和摄动(黄色)笛卡尔轨迹在三个案例:广场,椭圆形,分别和无限的。(b、e、h)和SD RMSE计算10与Webot模拟器测试各自的轨迹。(c、f i)和SD RMSE计算10测试与NAO机器人各自的轨迹。

(一) (b) (c) (d) (e) (f) (g) (h) (我)

Webot模拟器测试,比较误差趋势随着时间的推移获得使用原来的轨迹,可以通知略高可变性展出的椭圆轨迹,轨迹而无限和广场表演获得类似于一个与原来的扰动。然而,在所有的情况下,整体表现类似于一个实现训练轨迹。

在NAO机器人测试,不同于获得Webot模拟器,最糟糕的表现获得了无限的轨迹。这个结果是合理的,是无限的轨迹,降低角的错误,价值观更受到整体噪声的影响。因此,SNN效率较低,无法执行以及其他轨迹。

3.4。网络增强

之一的极限SNN迄今为止使用的输出(宽带),限制了解决校正。因此,小脑关节角值校正是牛肉干。为了弥补这种效果,我们测试了大图(十倍)相同的网络。所有参数都保持一样的正常使用的网络,并获得已经减少了一个因素十来匹配输出细胞数量的增加。增加的副作用的大小网络实时性的损失,由于要处理大量的峰值。因此更大的网络测试与Webot模拟器(图 7(一)(图)和NAO机器人 7(一))在一个测试中,而不是通常的10个测试。主要的改进对正常网络初始误差在基线阶段,仍然在零附近,较低和更稳定的RMSE收购阶段。另一个区别是在灭绝阶段修正产生更高的过度补偿效应越高,,它需要更多的时间来返回到初始状态对正常网络。

图7

与增强SNN RMSE。(a)和SD RMSE计算10测试Webot模拟器与标准网络(黑色)和一个单独的测试与增强十倍SNN(灰色)。(b)和SD RMSE计算10测试NAO机器人与标准网络(橙色)和一个单独的测试与增强十倍SNN(光橙色)。(c)和SD RMSE计算三个单独的测试执行与Webot模拟器和三个额外的轨迹:广场(浅灰色),椭圆形(灰色),和无限的(黑)。

(一) (b) (c)

转移学习能力保持在较大的SNN,还与流畅的在这种情况下,更稳定的共同错误的修正所有的三个额外的轨迹。可以注意SNN的增强,增加网络的分辨率,使其缓慢的适应过程。然而,参数调优使用原始大SNN SNN可以被重用,而无需重新运行优化过程(这将是不可行的,因为扩展计算负载较大的SNN)。

3.5。神经行为

我们也评估了网络活动。所有的细胞所产生的峰值已经记录在测试阶段,他们可以被分析来验证错误如何影响神经元的活动人群的试验。MFs保持一个几乎恒定的频率在所有的实验中,与价值观由44和47个赫兹之间。集选区也几乎恒定的频率之间6和7赫兹;考虑到这些细胞,大量的监控很有挑战性,因此飙升的数据没有收集到所有的测试。电脑、IO和宽带的细胞解释网络的行为,从他们的频率的变化,我们可以评估我们的生理相似系统与一个真正的生物之一。

对于每一个测试中,我们记录了理想和真正的共同价值观,与实际的笛卡尔轨迹由机械手执行的。在这里,我们报告的网络活动和相对笛卡尔和角轨迹为圆轨道摄动的附加负载应用程序使用NAO机器人的机械手和增强SNN。分析的突出试验协议(参见视频作为补充材料(可提供在这里)),可以注意到网络活动形状机器人的行为,反之亦然。

在基线的初审阶段(图 8(一个)),机器人执行正确的轨迹,因此IO活动低,和电脑发射没有限制。因此,宽带的输出几乎是零。

图8

笛卡儿和关节轨迹与相关的网络活动突出试验。每一行对应一个特定的凸审判的协议:(a)试验1,当测试和基线阶段开始;6 (b)审判,当收购阶段开始;(c)审判25日的最后审判收购阶段;26日(d)审判,灭绝的初审阶段;30 (e)试验,最后灭绝的试验和测试的最后审判。在每一行,第一列代表了笛卡尔的轨迹 - z飞机,蓝线是理想的轨迹(无扰动,如试验1)和红线就是审判期间执行实际的轨迹。第二列代表了三个关节轨迹(关节1 - 3在黑色、灰色和浅灰色,分别)在审判期间执行。第三列代表的光栅图神经产生的峰值期间SNN试验(MFs、pc、DCNs公司和IOs蓝色,绿色,黑色,红色,分别)。

(一) (b) (c) (d) (e)

在收购的第一次审判阶段(图 8 (b)),机械手是倾斜的附加载荷。增加的共同错误触发IO活动持续上升,尽管IO人口一般低频(< 10 Hz)。然而,电脑活动仍然很高,抑制宽带。试验过程中IO的一致的活动减少了电脑的活动,达到一个点,宽带是免费的火在最后审判的收购(图 8 (c)),这里的电脑是有选择地沉默而产生的控制信号宽带运上升,以弥补错误。从笛卡尔的轨迹,补偿的效果越高和周长的左下部分是可见的。

在灭绝的初审阶段(图 8 (d)),删除额外的负载,但SNN网络仍是补偿错误学习。这种行为,产生错误相反的方向对收购阶段错误,是小脑的适当的适应和它叫做后效。在最后审判的灭绝阶段(图 8 (e)),我们可以观察到,后果已经取消,和执行轨迹接近所需的。然而,观察神经活动,可以注意到nonphysiological行为。通常,一个期望的变化信号从IO触发LTP的影响PC细胞从而抑制了宽带。然而,这里有一个进一步抑制pc,相反的迹象,这个时候,触发DCNs公司的反应相反的符号,而不是射击直到灭绝的开始阶段。结果,校正的缺失是由于取消两个相反的影响,而不是回到最初的宽带沉默。

这意想不到的结果可能是由于简洁的协议(只有20采集试验)和成本函数使用的参数调优,回报高的值有限公司 1 关于 LTP 1 大脑皮层可塑性。这是可见的陡坡RMSE在第一个收购试验(图 3 (c))。低 LTP 1 值不足以恢复网络的初始状态,只有5物种灭绝的试验阶段,因此奖励一个配置的优化过程有限公司 1 补偿误差相反的活动迹象的宽带反号(拮抗剂活动)而不是减少当前(兴奋剂)宽带运活动。这种效应导致的无效受体激动剂和拮抗剂神经元活动,与净输出接近于零(即。附近的所需的网络输出在灭绝阶段)。这个结果表明即使在皮质LTP /有限公司比率不平衡,一个系统可以仍然能够学习和扑灭电机适应。这个假设应由临时测试实验,皮质LTP机制必须阻塞或受损(类似于所作的与突变小鼠Schonewille et al。 37])。

4所示。结论

在这项工作中,我们旨在整合bioinspired SNN NAO机器人控制器。特别是,小脑被选为其关键作用的神经结构来模拟运动学习的任务。小脑结构的集成在一个机器人可以帮助开发新的范式和方法执行机器人在不同的电动机控制任务。

我们的工作是基于之前的;在这里,我们介绍网络的放大,同时能够控制三个自由度,而不是一个。这使得机器人在更复杂的测试任务,使用SNN改编的上肢摄动达成协议,通常用来测试小脑学习属性。

我们得到了积极的结果,SNN表现良好测试时不同的轨迹,显示的小脑财产转移(即学习。普遍性)。可能适应不同发动机的任务是基本属性的目的bioinspired机器人控制器将不得不处理不同种类的运动任务。

我们的网络的一个主要的限制是低分辨率的输出控制信号。测试执行与一个更大的网络(10倍)。这个网络,更多的宽带可以产生平滑的输出,能更好地应对小错误。

进一步调查这个网络可以执行与其他典型的小脑范例。在[ 12),这对相关小脑SNN维护一个通用的任务。因此有可能适应网络和机器人的巴甫洛夫条件反射或vestibulo-ocular反射协议。

控制关节的数量的增加以及良好的表现获得了与我们的测试,表明一个更大的网络将是理想的解决这种电动机的任务。特别是如果SNN控制一个真正的系统,在这样一个世界丰富的不可预知的错误,降低了网络性能。这样的大规模SNN的实时仿真,开发一个真正的bioinspired物理机器人的控制器,可以获得独特的高度并行计算(例如,GPU)或神经形态硬件。这可能有助于在发展中更好的机器人控制的策略,能够运动学习和事件相关,满足实际应用在许多领域,从行业到人工智能应用程序。

数据可用性

模拟的数据生成的优化过程,完成了Webot模拟器和NAO机器人已经存入哈佛Dataverse库。此外,MATLAB脚本复制所有数据提出了工作提供(DOI: https://doi.org/10.7910/DVN/HEPECM)。

的利益冲突

作者宣称没有利益冲突有关这篇文章的出版。

确认

我们感谢Eng。保罗的欧洲House-Ambrosetti Borzatta借给NAO机器人,它允许我们执行机器人实验提出了工作。这项研究已经收到了欧盟资助的地平线2020研究和创新在特定框架规划赠款协议号。720270(人类大脑计划SGA1)和785907(人类大脑计划SGA2)和由HBP合作项目(CerebNEST)。

补充材料

提供了补充视频,这说明了三维运动NAO机器人所执行的任务,由SNN控制器驱动,三个实验阶段:5基线试验(在一个平静的条件);20采集试验(附加扰动引起的虚拟负载在NAO);和5灭绝试验(删除额外的负载)。

曾

Y.-W。

Diedrichsen

J。

科莱考尔

j·W。

Shadmehr

R。

巴斯蒂安·

a·J。

感觉驱动cerebellum-dependent适应的预测错误

神经生理学杂志 2007年 98年 1 54 62年

10.1152 / jn.00266.2007

2 - s2.0 - 34447572657

Kawato

M。

沃伯特

D。

内部电机控制模型

诺华基金会座谈会 1998年 218年 291年 297年

10.1002/9780470515563. ch16

Bartha

g . T。

汤普森

r F。

小脑和调节

大脑理论和神经网络的手册 1998年

美国剑桥,马

麻省理工学院出版社

169年 172年

德没有

r . L。

Vestibulo-ocular反射弧

神经病学和精神病学档案 1933年 30. 2 245年

10.1001 / archneurpsyc.1933.02240140009001

2 - s2.0 - 84931943256

Shadmehr

R。

史密斯

m·A。

科莱考尔

j·W。

纠错、感觉预测,在运动控制和适应

年度回顾神经科学 2010年 33 1 89年 108年

10.1146 / annurev -神经- 060909 - 153135

2 - s2.0 - 77956235029

Braitenberg

V。

阿特伍德

r P。

形态学观察小脑皮层

比较神经病学杂志》 1958年 109年 1 1 33

10.1002 / cne.901090102

2 - s2.0 - 34648865430

马尔

D。

小脑皮质的理论

生理学杂志 1969年 202年 2 437年 470年

10.1113 / jphysiol.1969.sp008820

2 - s2.0 - 0014526073

阿不思·

j·S。

机械手控制的新方法:小脑模型关节控制器(小脑)

杂志的动态系统、测量和控制 1975年 97年 3 220年

10.1115/1.3426922

2 - s2.0 - 0016556021

胡克

j . C。

白金汉

j . T。

Barto

a·G。

小脑模型和运动学习

行为和大脑科学 2011年 19 3 368年 383年

10.1017 / s0140525x00081474

2 - s2.0 - 0030425157

沃伯特

d . M。

Miall

r . C。

Kawato

M。

在小脑内部模型

认知科学趋势 1998年 2 9 338年 347年

10.1016 / s1364 - 6613 (98) 01221 - 2

2 - s2.0 - 0031858537

Nolfi

年代。

Floreano

D。

自主机器人通过进化的综合

认知科学趋势 2002年 6 1 31日 37

10.1016 / s1364 - 6613 (00) 01812 - x

2 - s2.0 - 0036144997

Casellato

C。

萨曼塔

一个。

加里多

j . A。

自适应自动控制由一个多才多艺的飙升小脑网络

《公共科学图书馆•综合》 2014年 9 11

e112265

10.1371 / journal.pone.0112265

2 - s2.0 - 84911465963

萨曼塔

一个。

Casellato

C。

加里多

j . A。

强化神经网络与分布式可塑性繁殖小脑学习眨眼制约模式

IEEE生物医学工程 2016年 63年 1 210年 219年

10.1109 / tbme.2015.2485301

2 - s2.0 - 84959366120

萨曼塔

一个。

Casellato

C。

D天使

E。

Pedrocchi

一个。

模型驱动的所谓经典条件作用的分析揭示了小脑的底层结构可塑性和神经活动

IEEE神经网络和学习系统 2016年 28 11 2748年 2762年

10.1109 / tnnls.2016.2598190

2 - s2.0 - 85037042708

萨曼塔

一个。

Casellato

C。

加里多

j . A。

D天使

E。

Pedrocchi

一个。

飙升小脑模型与多个可塑性站点繁殖眼睛闪烁的经典条件作用

学报2015年7日国际IEEE /磨床神经工程会议(尼珥)

2015年7月

法国蒙彼利埃

IEEE

296年 299年

黑田

年代。

山本

K。

宫本茂

H。

没有事情

K。

Kawato

M。

统计特征的攀登纤维峰值效率所必需的小脑学习

生物控制论 2001年 84年 3 183年 192年

10.1007 / s004220000206

2 - s2.0 - 0035286289

凯尼恩

g . T。

的连续时间模型在小脑皮质突触可塑性

计算神经科学 1997年

波士顿,美国

激飞美国

99年 105年

Maruta

J。

Hensbroek

r。

辛普森

j . I。

Intraburst interburst信号,攀登纤维

神经科学杂志》上 2007年 27 42 11263年 11270年

10.1523 / jneurosci.2559 - 07.2007

2 - s2.0 - 35448975100

施特伦

m . L。

Popa

l S。

t·J。

攀登纤维控制的浦肯野细胞表示行为

神经科学杂志》上 2017年 37 8 1997年 2009年

10.1523 / jneurosci.3163 - 16.2017

2 - s2.0 - 85013642473

20.

破车

M。

Endres

D。

太阳

z . P。

迪克

p W。

Giese

M。

他们的

P。

学习从过去:一个混响小脑爬过去错误的光纤信号

公共科学图书馆生物学 2018年 16 8

e2004344

10.1371 / journal.pbio.2004344

2 - s2.0 - 85053262371

加里多

j . A。

卢克

n R。

D天使

E。

Ros

E。

分布式小脑可塑性实现适应性控制操纵任务:闭环仿真机器人

前沿的神经回路 2013年 7 159年

10.3389 / fncir.2013.00159

2 - s2.0 - 84886835922

D天使

E。

萨曼塔

一个。

Casali

年代。

对小脑微电路建模:新策略一个长期存在的问题

细胞神经科学前沿 2016年 10 176年

10.3389 / fncel.2016.00176

2 - s2.0 - 84978765955

高

Z。

范Beugen

b . J。

德齐乌

c。I。

学习分布式协同可塑性和小脑

神经系统科学自然评论 2012年 13 9 619年 635年

10.1038 / nrn3312

2 - s2.0 - 84865228434

Potjans

W。

莫里森

一个。

Diesmann

M。

使功能神经回路模拟neuromodulated可塑性的分布式计算

计算神经科学前沿 2010年 4 141年

10.3389 / fncom.2010.00141

2 - s2.0 - 79958093750

Ros

E。

Carrillo

R。

Ortigosa

e . M。

巴伯

B。

世界

R。

事件驱动的仿真方案强化神经网络利用查找表来描述神经动力学

神经计算 2006年 18 12 2959年 2993年

10.1162 / neco.2006.18.12.2959

2 - s2.0 - 33747045377

海恩斯

m . L。

走向灭亡

n . T。

神经元,神经科学家的工具

神经系统科学家 2016年 7 2 123年 135年

10.1177 / 107385840100700207

2 - s2.0 - 0035080096

Gewaltig

M.-O。

Diesmann

M。

巢(神经模拟工具)

Scholarpedia 2007年 2 4 1430年

10.4249 / scholarpedia.1430

叩诊槌

h·E。

Diesmann

M。

Gewaltig

M.-O。

莫里森

一个。

窝:神经模拟工具

计算神经科学百科全书 2015年

纽约,纽约,美国

施普林格

1849年 1852年

29日

古德曼

D。

布莱恩:强化神经网络在Python的模拟器

Neuroinformatics前沿 2008年 2 5

10.3389 / neuro.11.005.2008

2 - s2.0 - 84885847922

30.

瑞芭

K。

Livne

O。

Gizewski

e·R。

适应visuomotor旋转和力场扰动与小脑变性患者大脑不同区域

神经生理学杂志 2009年 101年 4 1961年 1971年

10.1152 / jn.91069.2008

2 - s2.0 - 65949096079

31日

Donchin

O。

瑞芭

K。

Diedrichsen

J。

小脑区域参与适应力场和visuomotor扰动

神经生理学杂志 2012年 107年 1 134年 147年

10.1152 / jn.00007.2011

2 - s2.0 - 84255171228

Sarlegna

f·R。

Malfait

N。

Bringoux

布尔

C。

Vercher

J.-L。

力场适应没有本体感受:肢体动力学模型的视觉可以使用吗?

这项研究 2010年 48 1 60 67年

10.1016 / j.neuropsychologia.2009.08.011

2 - s2.0 - 71549161712

Casellato

C。

萨曼塔

一个。

加里多

j . A。

Ferrigno

G。

D天使

E。

Pedrocchi

一个。

在真正的机器人分布式小脑可塑性实现广义多尺度的内存组件感觉运动任务

计算神经科学前沿 2015年 9

10.3389 / fncom.2015.00024

2 - s2.0 - 84924112328

麦地那

j·F。

加西亚

k . S。

Mauk

m D。

在小脑储蓄机制

神经科学杂志》上 2001年 21 11 4081年 4089年

10.1523 / jneurosci.21 - 11 - 04081.2001

Mauk

m D。

鲁伊斯

b P。

Learning-dependent巴甫洛夫眼睑响应时间:微分调节使用多个interstimulus间隔

行为神经科学 1992年 106年 4 666年 681年

10.1037 / 0735 - 7044.106.4.666

2 - s2.0 - 0026710948

麦地那

j·F。

Mauk

m D。

小脑信息处理的计算机模拟

自然神经科学 2000年 3 Sl 1205年 1211年

10.1038/81486

2 - s2.0 - 0033661780

Schonewille

M。

Belmeguenai

一个。

Koekkoek

美国K。

浦肯野特异性敲除的蛋白质磷酸酶PP2B损害势差现象和小脑运动学习

神经元 2010年 67年 4 618年 628年

10.1016 / j.neuron.2010.07.009

2 - s2.0 - 77955933308