bioinspired自适应模型,开发了通过强化神经网络由成千上万的人工神经元,已被用于一个人形NAO机器人实时控制。学习系统的属性一直在挑战经典cerebellum-driven范式,一种摄动上肢达成协议。神经生理学原则用于开发模型成功地驾驶一种自适应电动机与基线控制协议,收购,和灭绝阶段。飙升神经网络模型显示学习行为类似的实验测量与人类受试者在收购阶段相同的任务,同时采取其他策略在灭绝阶段。模型在实时处理外部输入、编码为峰值,和生成的输出神经元的活动是解码,为了提供适当的校正电机驱动器。三个双向长期可塑性规则已经嵌入了不同连接和不同时间尺度。可塑性的输出层神经元的放电活动的网络。摄动上肢达成协议,neurorobot成功地学会了如何弥补外部扰动生成一个适当的修正。因此,飙升小脑模型能够再现机器人平台生物系统如何处理外部的误差来源,在理想和现实(噪声)环境。
这项工作属于neurorobotics,一门学科的目的复制机器人平台的典型动物行为。其目标是开发系统,通过特定的算法和计算模型受生物学和生理学、能够模仿动物和人类的感觉和运动控制机制。这个雄心勃勃的目标是追求为了开发一个更好的理解的生物机制,我们的行为规则。获得的技术和系统还将提供有价值的反馈和前馈控制功能,可以介绍感觉器官协调机器人。在这项工作中,我们专注于bioinspired小脑模拟器集成到仿人机器人的控制器。我们测试了其学习性能在典型的摄动上肢感觉运动的任务达到[
电动机控制的主要任务之一是中枢神经系统(CNS),和许多假说对其工作原理和机制。考虑电机控制系统之间的亲密关系和感觉系统电动机执行,可以参考他们的行为感觉运动回路相结合。这个循环结合前馈和反馈策略的感觉和认知过程的输入生成下一个运动输出。计算,中枢神经系统是由系统处理输入并生成输出。所有的感官信息的输入由本体感受的受体以及认知的内部和外部信号。输出是电动机命令指示的肌肉会产生对环境的影响。感觉运动回路理解许多不同子结构,在别人,小脑。它有一个重要的角色在精细运动控制和运动学习的任务和协会模式。小脑从许多感觉通道(即处理数据。,vestibular and proprioceptive) and combines them with the previous motor commands to produce the updated motor commands for the next execution. The cerebellum is also supposed to be involved in a large amount of cognitive learning processes [
超过一半的大脑神经元位于小脑,大脑只占10%的质量。小脑细胞因此密集在高度复杂的小脑皮层的灰质和四个深小脑核,在两个大脑半球。小脑皮层由三层组成,其中包括至少5个类型的细胞。小脑结构及其功能行为已经深入分析。在这个广泛的研究,许多小脑提出了计算模型和发展(
在以前的工作,我们已经测试了一系列简化,但现实,小脑模型为感觉运动任务(
首先,我们定义了一个合适的版本的摄动上肢达成协议。这种模式用于提高小脑效应在感觉运动回路。目标是有主题,机器人在这种情况下,按照特定的轨迹,在某种程度上,一个意想不到的外力应用将产生扰动的执行轨迹。然后应用于一系列相同的扰动试验,所以话题学会预测扰动,从而限制了错误(收购阶段)。之后,突然被扰动,主体生成一个错误在相反的方向,这是取消了以下试验(灭绝阶段)。
网络优化使用机器人模拟器进行生理行为;因此,我们设置的起始重量值之间的不同类型的细胞提供活动频率匹配的出现在文献中。然后,我们执行一个蛮力探索找到最佳组合模型的塑性参数。
一旦网络进行优化,我们继续测试它的泛化能力与其他轨迹,不同于一个用于训练网络。进一步研究网络行为,我们评估其与真正的机器人表演使用来自模拟器的调优参数。我们评估不同的可塑性和如何获得优化的影响表现在一个嘈杂的环境和网络在现实机器人如何处理不同的扰动(即。,不同的轨迹)。
最后一个测试是使用一个网络执行十倍,同样的轨迹和参数,验证详细SNN如何改变提出电动机的演出任务。
总结,我们这项工作集中在三个主要目标:(i)的优化上肢达成协议,它适应NAO机器人同时控制三个自由度(自由度);(2)SNN参数调优,复制其组成神经元的生理行为和由此产生的机器人行为的;和(iii)的开发,优化网络在不同的轨迹(转移学习)。
NAO是一个集成的、可编程的中型机器人仿人机器人由毕宿五。NAO成为(版本V3.3)是一个58厘米,5公斤的机器人,与远程计算机通过IEEE 802.11 g无线或有线以太网链接。国家审计署的有21个自由度和特性不同的传感器。因为我们感兴趣的手臂动作,我们控制三关节机器人的左肩和肘部(图
轨迹和实验性的协议。(一)平面表示(
接口与神经网络机器人,能够运行在实时频率1 kHz,一个稳定的更新频率是一个严格的要求。出于这个原因,指挥机器人通过设备通信管理器(DCM)。DCM的软件模块负责与所有电子设备通信的机器人(板、传感器、执行器等)。这是高级功能和底层控制器之间的联系。扩张型心肌病有单独的实时线程运行每10毫秒,从而保证稳定的100 Hz刷新率。
NAO机器人不能直接控制电机转矩/电流,但只有在适当的位置。这个禁止身体扰乱手臂达到运动任务与外部力量。在力较低的情况下,机器人手臂就会达到理想的角度,而对于高力马达会停滞不动。因为这个原因,使用两种不同的轨迹:一个理想轨迹作为所需的路径和另一个
因为网络优化过程将需要数百个测试,我们使用一个机器人叫做Webots模拟器。这个模拟器允许启动一个模拟NAO移动在一个虚拟的世界,提供一个安全的地方在部署之前测试的行为在一个真正的机器人。考虑提供的级别的控制SNN DCM和不可预测的行为,特别是在优化阶段,模拟器是理想的测试如何影响电动机的命令和防止危险命令发送给真正的机器人。NAO虽然是一个非常准确的模拟,与任何其他模拟器一样,一些nonidealities不考虑(如非线性摩擦、传感器错误,和电动机过热)。
在这项工作中,cerebellar-inspired SNN,基于以前的版本,测试(
小脑SNN和编码/解码策略。(一)计算模型申请创建小脑SNN嵌入NAO机器人的控制器。每个块代表一个神经人口,相对的输入和输出。兴奋性、抑制性和教学连接描述。阴影区域代表了三个可塑性网站:红色PF-PC突触,蓝色MF-DCN突触,和绿色PC-DCN突触,改编自(
三个接口(图
MFs的第一个界面计算输入电流和径向基函数(RBF)的方法。当前的
第二个接口将联合错误转换成IO峰值。这些神经元发射率较低(小于10 Hz),可以防止高频误差信号的表示相关的任务是学习。这个问题可以利用不规则放电IO的统计抽样整个误差信号在多个试验。已经观察到的时间分布峰值IOs股票的泊松模型相似的特征。IOs火随机行为动物在休息和反应后的眼在猴子和arm-motion任务。这个随机特征发射增强输入-输出互信息尽管CFs超低发射率(
第三个界面解码宽带峰值模式模拟角值。首先,每一个宽带的瞬时燃烧率计算,然后积极的和消极的宽带发射率平均移动时间窗的200个样本(即。200 ms)。小脑的输出是通过计算平均净区别这两个的意思是宽带发射率(正面和负面)
由于这些接口,SNN可以集成到机器人平台控制器,与前馈预测控制器的功能。
SNN神经元连接的三种可能的方法:
联系:兴奋性突触的突触前神经元的动作电位发生动作电位的概率增加突触后细胞。有兴奋性之间的联系MFs和集选区,MFs和DCNs公司之间,集选区制度和个人电脑之间。
抑制连接:在突触前细胞突触的冲动导致的可能性减少突触后细胞产生动作电位。有抑制pc和DCNs公司之间的连接。
教学连接:连接编码教学高峰列车(错误)相关的监督学习可塑性小脑的网站。
根据神经生物学的研究,已确定三个可塑性网站在人类小脑:PF-PC兴奋性连接的水平;在MF-DCN兴奋性连接;和PC-DCN抑制水平的连接(
SNN模型配备三可塑性网站,在皮质(PF-PC)和核(MF-DCN和PC-DCN)水平。每个站点的突触连接三个不同的学习规则,加强或削弱这些联系的长期的修改:长期势差(LTP)和长期抑郁(有限公司)。LTP和公司机制被建模为修改在突触电导(详细描述
对于网络的初始化突触权重,我们称为生理值。曼氏金融活动将由约50赫兹频率,通过调整背景随机活动和重叠和贝尔rbf的宽度。MF-GrC已经设置权重来实现一个集选区3 - 6赫兹的频率和GrC-PC重量生产个人电脑的频率- Hz左右。MF-DCN重量是为了有一个宽带频率大约25赫兹在没有电脑抑制(PC-DCN重量= 0)。最后一步是在调整PC-DCN重量、取消宽带活动存在一个稳定的电脑活动45赫兹。
执行实时模拟,我们杠杆EDLUT模拟器
我们挑战了SNN 3 d运动适应协议,类似于适应协议基于力场进行人体试验(
实验协议由30试验分为三个阶段(图
正如上面提到的,有三种不同的可塑性可以修改SNN的行为的网站,每一个学习的特点是两个参数:LTP和有限公司为了评估为这六个参数的最佳值,蛮力探索已经完成。第一可塑性(皮层可塑性,PF-PC)是学习效果的主要原因,因为它控制电脑的活动,抑制了宽带输出。另外两个可塑性(核可塑性,MF-DCN, PC-DCN)二次效应,影响误差减少性能上更长的时间尺度和强度较低。参数调优与Webot模拟器测试被执行,以防止损害,避免不可预知的机器人手臂运动由于网络的意想不到的行为。
评估网络性能,我们计算一个全球成本函数,我们想最小化。成本函数是两个质量量度的总和。两个指标考虑均方根误差(RMSE)的所有三个关节。对于每一个审判,RMSE每联合计算的
第一个质量指标的加权平均计算
第二个质量指标措施稳定的修正,计算标准偏差(SD)的试验21 - 25日(即。收购的最后5个试验)。高值的LTP和RMSE有限公司参数可能导致快速变化在采集阶段,但也不稳定。这导致高RMSE的标准偏差,特别是在过去五试验,在最小误差应该已经达到:
最后,全球成本函数,其最低应该确定最执行模型探索区域,计算正常化
第一可塑性,我们评价一个11×11矩阵,
核可塑性的
塑性值被设置后,需要考虑的另一个参数是获得需要转换网络的模拟输出在一个角度值(弧度)。因为每个关节都有不同的范围和幅度不同的错误,一个适当的增益为每个联合使用。找到最优增益值,蛮力勘探勘探总值(即已经完成。,testing gain values ranging from 0.005 to 0.05 with steps of 0.005) and a subsequent finer exploration (i.e., testing 10 gain values centered on the best result of the gross exploration, with steps of 0.001). The gain factor is particularly relevant due to the normalization of the angular values and the error that is given as input to the network. As the network manages values comprised between 0 and 1 for all joints, its output does not consider the differences in the actual angular errors. Therefore, a joint with small angular error will require a lower gain, while more perturbed joints will require a greater gain.
确定了网络参数的设置(例如,
因此,我们执行10测试Webot模拟器和NAO机器人,为了验证控制器的鲁棒性在嘈杂的系统执行相同的协议用于SNN优化。
验证转移小脑模型的学习能力,我们有10测试Webot模拟器和NAO机器人执行协议的变化,与其他3夫妇的理想和摄动轨迹:两个理想圆的变形轨迹(椭圆和一个平方变形)和理想和变形
使用网络的限制之一是低的输出细胞数量限制的解决修正,导致抽筋的角轨迹。因此,我们测试了一个扩展版的SNN,观察网络的大小可以改变整个表演cerebellar-inspired控制器。每个神经人口增加十倍,保持相同的连接规则解释。所有参数都保持一样的正常使用的网络,获得已经减少了十,为了匹配输出细胞数量的增加。增加的副作用的大小网络实时性的损失是由于要处理大量的峰值。因此,更大的网络测试单个测试而不是通常的10个测试。也在这种情况下,我们还测试了三个额外的轨迹来验证学习的普遍性SNN的属性。
每个可塑性总值勘探后,导致最佳性能参数空间区域,根据开发成本函数,进一步探索。RMSE在所有试验计算10测试,使用参数优化中发现,为了验证SNN在不同阶段的行为。
在图
大脑皮层可塑性的优化。(一)探索总值所引起的成本函数
更好的探索产生更均匀的结果,但它仍可能排除与过高的值较低的区域,修正不足和不稳定的地方。全球最小的探索与参数
获得的结果在第二次塑性总值(MF-DCN)勘探图所示
核可塑性优化。(a, b)的总值和更好的探索带来的成本函数
第三可塑性(PC-DCN)勘探生产总值几乎统一的结果,如果比其他两个可塑性(图)
优化了三个学习规则,10个测试进行只有皮层可塑性和可塑性激活(图
RMSE在不同的测试条件。(a)和SD RMSE 10测试只有皮层可塑性优化计算(红色)和优化后的皮质和核可塑性(红色)。(b)和SD RMSE计算10测试优化后的皮质和核可塑性(红色)和优化后的增益(黑色)。(c)和SD RMSE计算10测试优化后的获得与Webot模拟器(黑色)和NAO机器人(橙色)。
一旦三个可塑性已经优化,我们进行调优的三个联合收益。在前面的情况下,所有的关节使用相同的增益值为0.012时,理论上来源于预见最大联合错误。第一个粗糙勘探证实附近已经使用的值。精细勘探的结果确定最优收益如下:
测试与优化SNN收益(图
有评估的性能SNN几乎在一个理想的环境(Webot模拟器),我们在现实世界中继续测试模型的性能与NAO机器人。十个测试执行与NAO机器人(图
我们想测试转移提出SNN控制器的学习能力;我们因此挑战与三个不同的理想和摄动轨迹优化SNN(数字
转移学习表演。(a、d、g)理想(蓝色)和摄动(黄色)笛卡尔轨迹在三个案例:广场,椭圆形,分别和无限的。(b、e、h)和SD RMSE计算10与Webot模拟器测试各自的轨迹。(c、f i)和SD RMSE计算10测试与NAO机器人各自的轨迹。
Webot模拟器测试,比较误差趋势随着时间的推移获得使用原来的轨迹,可以通知略高可变性展出的椭圆轨迹,轨迹而无限和广场表演获得类似于一个与原来的扰动。然而,在所有的情况下,整体表现类似于一个实现训练轨迹。
在NAO机器人测试,不同于获得Webot模拟器,最糟糕的表现获得了无限的轨迹。这个结果是合理的,是无限的轨迹,降低角的错误,价值观更受到整体噪声的影响。因此,SNN效率较低,无法执行以及其他轨迹。
之一的极限SNN迄今为止使用的输出(宽带),限制了解决校正。因此,小脑关节角值校正是牛肉干。为了弥补这种效果,我们测试了大图(十倍)相同的网络。所有参数都保持一样的正常使用的网络,并获得已经减少了一个因素十来匹配输出细胞数量的增加。增加的副作用的大小网络实时性的损失,由于要处理大量的峰值。因此更大的网络测试与Webot模拟器(图
与增强SNN RMSE。(a)和SD RMSE计算10测试Webot模拟器与标准网络(黑色)和一个单独的测试与增强十倍SNN(灰色)。(b)和SD RMSE计算10测试NAO机器人与标准网络(橙色)和一个单独的测试与增强十倍SNN(光橙色)。(c)和SD RMSE计算三个单独的测试执行与Webot模拟器和三个额外的轨迹:广场(浅灰色),椭圆形(灰色),和无限的(黑)。
转移学习能力保持在较大的SNN,还与流畅的在这种情况下,更稳定的共同错误的修正所有的三个额外的轨迹。可以注意SNN的增强,增加网络的分辨率,使其缓慢的适应过程。然而,参数调优使用原始大SNN SNN可以被重用,而无需重新运行优化过程(这将是不可行的,因为扩展计算负载较大的SNN)。
我们也评估了网络活动。所有的细胞所产生的峰值已经记录在测试阶段,他们可以被分析来验证错误如何影响神经元的活动人群的试验。MFs保持一个几乎恒定的频率在所有的实验中,与价值观由44和47个赫兹之间。集选区也几乎恒定的频率之间6和7赫兹;考虑到这些细胞,大量的监控很有挑战性,因此飙升的数据没有收集到所有的测试。电脑、IO和宽带的细胞解释网络的行为,从他们的频率的变化,我们可以评估我们的生理相似系统与一个真正的生物之一。
对于每一个测试中,我们记录了理想和真正的共同价值观,与实际的笛卡尔轨迹由机械手执行的。在这里,我们报告的网络活动和相对笛卡尔和角轨迹为圆轨道摄动的附加负载应用程序使用NAO机器人的机械手和增强SNN。分析的突出试验协议(参见视频作为补充材料(可提供
在基线的初审阶段(图
笛卡儿和关节轨迹与相关的网络活动突出试验。每一行对应一个特定的凸审判的协议:(a)试验1,当测试和基线阶段开始;6 (b)审判,当收购阶段开始;(c)审判25日的最后审判收购阶段;26日(d)审判,灭绝的初审阶段;30 (e)试验,最后灭绝的试验和测试的最后审判。在每一行,第一列代表了笛卡尔的轨迹
在收购的第一次审判阶段(图
在灭绝的初审阶段(图
这意想不到的结果可能是由于简洁的协议(只有20采集试验)和成本函数使用的参数调优,回报高的值
在这项工作中,我们旨在整合bioinspired SNN NAO机器人控制器。特别是,小脑被选为其关键作用的神经结构来模拟运动学习的任务。小脑结构的集成在一个机器人可以帮助开发新的范式和方法执行机器人在不同的电动机控制任务。
我们的工作是基于之前的;在这里,我们介绍网络的放大,同时能够控制三个自由度,而不是一个。这使得机器人在更复杂的测试任务,使用SNN改编的上肢摄动达成协议,通常用来测试小脑学习属性。
我们得到了积极的结果,SNN表现良好测试时不同的轨迹,显示的小脑财产转移(即学习。普遍性)。可能适应不同发动机的任务是基本属性的目的bioinspired机器人控制器将不得不处理不同种类的运动任务。
我们的网络的一个主要的限制是低分辨率的输出控制信号。测试执行与一个更大的网络(10倍)。这个网络,更多的宽带可以产生平滑的输出,能更好地应对小错误。
进一步调查这个网络可以执行与其他典型的小脑范例。在[
控制关节的数量的增加以及良好的表现获得了与我们的测试,表明一个更大的网络将是理想的解决这种电动机的任务。特别是如果SNN控制一个真正的系统,在这样一个世界丰富的不可预知的错误,降低了网络性能。这样的大规模SNN的实时仿真,开发一个真正的bioinspired物理机器人的控制器,可以获得独特的高度并行计算(例如,GPU)或神经形态硬件。这可能有助于在发展中更好的机器人控制的策略,能够运动学习和事件相关,满足实际应用在许多领域,从行业到人工智能应用程序。
模拟的数据生成的优化过程,完成了Webot模拟器和NAO机器人已经存入哈佛Dataverse库。此外,MATLAB脚本复制所有数据提出了工作提供(DOI:
作者宣称没有利益冲突有关这篇文章的出版。
我们感谢Eng。保罗的欧洲House-Ambrosetti Borzatta借给NAO机器人,它允许我们执行机器人实验提出了工作。这项研究已经收到了欧盟资助的地平线2020研究和创新在特定框架规划赠款协议号。720270(人类大脑计划SGA1)和785907(人类大脑计划SGA2)和由HBP合作项目(CerebNEST)。
提供了补充视频,这说明了三维运动NAO机器人所执行的任务,由SNN控制器驱动,三个实验阶段:5基线试验(在一个平静的条件);20采集试验(附加扰动引起的虚拟负载在NAO);和5灭绝试验(删除额外的负载)。