文摘
研究表明,在分层架构、拓扑更高层次可能代表了当前的场景感觉事件与慢变化的活动。他们试图预测低水平上的神经活动通过转发预测信息后感觉运动事件的场景已经确定。另一方面,传入的感觉信息纠正这样的预测更高层次上的事件的快速变化的小说或奇怪的信号。从这一点上,我们提出一个预测分层人工神经网络模型,检验这一假说neurorobotic平台上。它集成了预测编码的感知和行动框架。此外,在这种神经网络模型,有不同时间尺度预测现有的不同级别的分级预测编码架构,它定义了时间记忆记录发生的事件。同时,快速和变化缓慢的神经活动是通过控制调节电机的动作。因此,变化缓慢的神经元可以被视为代表最近的感觉运动系统遇到的场景。neurorobotic实验基于体系结构也进行了。
1。介绍
1.1。预测系统
延误总是存在于生物和工程系统。他们通常处理时间在生物器官,引起的电路或计算机程序。此外,噪音,非线性,延迟、不确定性和冗余系统中其他因素造成延误。为了反应和适应,系统需要补偿由两个的意思是:首先系统假设即将到来的信号的延迟时间内认知系统的各个组件之间的旅行;其次,基于上下文的提前计划即将到来的事件背景,包括自己的感知和行动,直到感觉运动循环的结束。
基本上,为了解决这样一个延迟问题,系统的临界点是控制变量和独立提前计划因变量的变化。这里,从控制系统的角度来看,这些变量的独立变量,可以通过监管调整控制器或认知过程,而因变量的流程相对较慢的反应而独立变量的变化。例如,在肌肉收缩的情况下,肌肉力量是因变量,因为它运行的变化相对缓慢而感觉过渡运动皮层和认知命令,使实时反馈控制的电机控制不可行1,2]。
这样一个提前计划预测可能不是一个非常恒定的事件如认知外推法(3]或甚至可能是竞技体育等复杂的事件,当他们相关背景知识或上下文信息。例如,在生物系统,这些因变量推迟处理时间可能是由于神经处理。但是消除这样的延误对安全性和自适应性的行为是至关重要的。这样的预测模型在行为实验的观察表明,生物世界的预测有助于潜水鸟收回翅膀在进入水(4和家蝇的土地5]。预测自然一直被广泛探讨,并演示了通过对神经系统的研究。例如,实验表明,猴子有能力进行平滑运动追求零视网膜滑(6]。
解决延迟问题在一个更复杂的世界,在知觉节省带宽,人们普遍认为应该使用预测模型在许多方面我们的大脑系统(见,例如,7- - - - - -10])。生物学中的预测模型应该能够自适应补偿当前延迟和调整自身适应环境的参数,这两个是基于学习(噪声)测量的独立变量。当我们认为感觉运动系统是一个控制系统,这样的预测是参与协作感知和行动,它是通过至少两个策略:(1)独立变量的观测和预测的趋势,从而导致因变量的预测控制。(2)世界的理解和分类系统相互作用,它提供了一个线索,改变不同的预测策略(即。元学习)。
具体地说,这两种观点的控制对应无意识或有意识的认知功能的工作方式,他们依赖的感觉运动回路中的事件的复杂性。请注意,没有一个人独自完成工作预测自己的感觉运动系统。相反,大脑中的完整的预测系统结合了这两种策略的不同程度的组合。例如,抓住一个球需要预测和反射(反馈)机制(11,12]。这种预测反应甚至可以检测到手臂肌肉的肌肉信号(肱二头肌和肱三头肌)球前到达,这表明这样一个预测无意识地触发机制。接触后,下意识的反馈机制是由受体参与的手和手臂。在这样的过程中,小脑和运动皮层的输出是一个信号,可以结合延迟感觉反馈以及预测状态的肢体运动的历史命令,就是从我们的有意识的大脑动力学。
1.2。预测编码的答案
更强的理论预测是预测编码(PC)。是关于我们的大脑不断作用预测等预测循环和知觉不仅是延迟的补偿,但也形成更高层次的认知功能的一部分。实现了预测误差本身的层次。被认为是一个统一的预测框架集成感知和行动,一般来说,电脑断言感觉运动回路作为预测机利用感知和行动,减少预测误差。最小化积极处理积分模型的功能解释我们的感觉运动经验和感性意识。这个整合过程可以指定如下:集成预测感知和行动,感觉运动系统需要预测的感官刺激传入流上下文因素和内部模型应该能够处理所提供的先验感性经验。在这种背景下,认知过程作为一个预测运行机器在不知不觉中,积极预测的感官认知使用prelearnt内部模型。同时,内部模型也了解世界和推断的统计结构的后一个场景或事件后,另一个为了生成的预测可能是当前状态和调整参数或战略本身,如果必要的。这是基于感性意识。因此,PC理论提供了一个统一的解释我们的大脑如何形成有意识的预测从无意识的期待。
定量,这种估计的不确定性可以制定(近似)贝叶斯推理13),计算后验概率最高的后认知基于之前: 在哪里估计即将到来的知觉证据给出一个执行的行动大脑已经知道之前和其他信息( )。这个词表明prelearnt模型代表电机动作的可能性将给定一个执行(可能)产生的感官预测( )被认为的更高级的预测(自上而下的计算)。假设方程决定当前的行动取决于知觉。
与此同时,也有可能,我们可以选择适当的运动知觉的输入以及我们的目标。 在哪里代表一个特定的行动选择的感官信息(目的)和一个目标 。这里我们假设一个的行动只取决于当前的感官输入和目标可以通过整个层次结构调整行为选择。
总结这两个视角,大脑总是试图构建活动流程等之间的估计误差最小化后估计和真相,通过改变其内部学习模型(“知觉推理”)(参见[14,15])或行动执行(“积极推理”)(参见[16,17])。因此,感知世界(知觉推理)和作用于它(活跃的推理)是两个过程,旨在最大限度地减少预测误差的分层体系结构。学习贝叶斯模型来感知和行动,一个需要不断学习整个童年,通过与环境的交互。例如,object-directed达到[18和把握19)在婴儿发展的早期阶段被认为是运动和感觉的学习效果与远期模型(20.),您考虑的对象。
而神经区域组织层次的方式(21),基于PC的框架,更高层次上的神经表征生成的预测在较低的水平。这种人口预测神经抑制或抑制人口预测误差。在每个级别,反过来,自底向上的活动只带试图正确预测的剩余错误发生在每一层的神经活动模式。(22从神经生物学的证据)发现:“预测编码理论认为知觉系统结构分层次组织的生成模型越来越通用模型在高水平。”与此同时,在每个级别的这个层次生成模型,行动的角色也可以发现抑制本体感受的预测错误的脊髓和脑核。这些预测误差最小化的规则已经制定(10),提出了一个数学上优雅的方式,即自由能原理,描述一个统一的故事在感知、动作,他们的预测。
因此,感觉运动回路的概念层次结构是必不可少的电脑系统,使知觉推理。PC框架内,许多意识知觉经验和心理问题可能占intransient表示更高层次的,那里是一个模态的经验所有瞬态的形式输入从自上而下的知识但没有多大影响23]。如此高水平的理解基于多种模式还提供了一个来源推断的感知水平越低,通过自顶向下的层次结构的预测。在数学上,这种分层生成模型使高水平的神经表征优化之前我们自己的信仰,因此,基于这种本身之前,这是原因我们可以看到(或预测)内感受器的输入。
2。相关的工作
2.1。Amodal-Based预测
解决工程问题控制因变量的预测的独立变量,一些方法试图模型独立变量的趋势。amodal-based方法对预测控制设计模型可以用来预测输出变量的当前值基于预先构建的模型。一个典型的预测模型应考虑残差,实际和预测输出之间的差异,来生成这个预测模型的反馈信号。模型预测控制(MPC)方法首先用于解决控制系统长时间延误和长延迟包含一组相关的变量。它基本上预测因变量的变化的系统,将由独立变量的变化引起的。这是通过求解一个优化问题来预测未来输出和控制操作。它认为有限序列的控制动作发生在过去的固定长度的时间(又名。地平线)。自MPC控制器主要实现数字系统已被限制和离散属性以在线的方式,尽管MPC nonoptimal提供解决方案,这种权衡仍然是可接受的控制应用程序的实时最优控制问题无法解决。
由于它的实时特性,MPC控制被应用于各种机器人应用程序,尤其是对轨迹规划和控制。例如,[24- - - - - -26]研究了自主移动机器人的路径规划功能,它是意识到的上优于MPC了先验世界的物理模型,考虑学习干扰感知模型。保证性能的鲁棒性,27)使用了一个线性MPC与边界的不确定性来构造不变的路径规划。文献[28]应用使直线化跟踪误差预测未来系统动力学行为使用二次成本函数。另一方面,除了机器人本身的预测,预测模型也可以用于世界模型(29日- - - - - -31日]。
总而言之,研究基于amodal-based方法关注独立变量的变化的跟踪只描述的属性变量,包括系统和环境。然而,这些预测的困难问题是系统的独立变量的高阶变量只能被难以跟踪。这些变量可以目标位置和取向,不可以渐近平滑和时不变反馈控制律。
2.2。多模式预测的相互作用
在这篇文章中,多通道的概念学习方法通常采用机制优化感知和行动是由观察从环境中不可分割的一部分。这样体现了学习机制可以被认为是一种内部模型动物也可以被认为是认知科学的基础(例如,32,33])。自感觉运动模型的多通道方面,这样的内部模型通常强调体现和位于性质的代理和学习从与世界交流34]。
内部模型的预测功能的范围可以从短期和中期时间尺度预测/延迟补偿相对长期的规划行为,摆脱短期模拟。相关的短期预测模型主要是感觉运动控制,特别是维护的一致性visuomotor协调(例如,35,36(例如,[])或快速反应37,38])。
有证据,这种短期神经预测可能导致一些预测行为。论文(20.,39)研究如何运用内部模型在实际控制电机动作。研究[40)还扩展了模型学习模仿行为。所有的三个模型建立了一个预测模型来控制机器人和获得某些行为。同样,一个长期的规划行为也可以通过内部模拟预测是否出现之前计划(例如,(41,42])。文献[43)报道,实验与复发两级架构实现移动机器人能够完成语言和感觉运动的任务。一个扩展模型也被检查在象征性的理解任务(44]。
如果我们把预测具有不同时间尺度的统一的学习计划,多个时间尺度提出的神经网络(MTRNN) (45]。模型可以表示不同时间尺度的感觉运动信息的层次结构感觉运动序列,如单词的拼写(46)和对象特性/运动(47]。扩展从MTRNN模型与多个模式,多种时空尺度RNN (MSTRNN) [48]MTRNN和卷积神经网络集成49,50]。它包括两种形式:时间属性和接受域,这两种不同的空间大小和时间常数在不同的水平。PredNet [51)也持有类似的概念,利用卷积网络捕捉视觉流的地方特色,但架构保证了学习的确定性时间序列的性质。
在本文中,我们提出一个使用深computational-feasible模型神经网络,根据预测编码(PC)模型学习的数据集在现实世界中。类似于PC框架,模型结合预测的两种方法:(1)场景识别的基于层次感觉运动相互作用,这可能会导致更高层次的认知计算;(2)预测在视觉认知调节的“理解”世界以及自愿ego-motion(注意,肌肉收缩应视为因变量与延迟和干扰)。
注意,预测这两个视角通过改变因变量不是完全分开的感觉运动系统。相反,它们可以组合和混合在不同的水平。这个模型还表明,这种集成的有意识和无意识的预测发生只有一个参数决定。
3所示。模型
3.1。调制行为预测模型
的体系结构中,多个时间尺度行动反馈增强预测网络(MT-AFA-PredNet)(图1)类似于我们以前的工作称为AFA-Prednet [52]。符合perception-action集成的一般概念,它集成了汽车行动作为额外的信号通过一个注意力机制调节自顶向下的生成过程。此外,多个时间尺度的不同导致的更新率的差异perception-action集成。
因为大多数的深度学习架构,网络由一系列重复堆叠模块分层的方式尝试当地的预测视觉输入。一般来说,MT-AFA-PredNet功能组织作为集成了两个网络:左边部分相当于生成周期性网络(自顶向下),而正确的部分是一个标准的卷积网络(自底向上)。每一层的网络由三个基本部分组成:生成单元( ,绿色)包含复发卷积网络,区别的单元( ,蓝色)包含卷积网络(CNN)和错误表示层( ,红色)。生成单元, ,通常是一个生成模型能够给出下一个时间步的预测在当前输入。在这里,卷积LSTM [53)是用来生成图像地区当地的预测。我们雇用一些独立重复单位的一层单位,以确保他们学习不同的可能性的预测基于调制价值从电动机的行动。在训练各种action-perception削的场合,这些单位暗中记下不同可能性的预测(例如,移动方向)对电动机以自组织的方式采取行动。
的网络计算卷积预测的输出信号之间的差异和自底向上的信号误差表示, ,分为单独纠正正面和负面的错误数量。这个错误, ,然后提出通过卷积的一层,成为下一层的输入。复发性预测层收到一个误差信号的副本 ,随着从表示层自上而下的输入下一个层次的网络( )。
3.2。多个时间尺度
多个时间尺度的概念在人工复发性神经网络首先提出在45]。在这个层次网络中,所有神经元在同一层有相同的更新率,但神经元在不同层的更新率是不同的。具体来说,神经元在低水平更快的更新率,称为快速上下文神经元(或层),而神经元水平较慢的更新率越高,被称为慢上下文神经元(或层)。快和慢上下文层之间的这种差异是由时间常数 ,确定适应给定的速度时间序列与一个特定的长度,当更新神经活动。更大的价值 ,神经元适应越慢。适应的差异率的神经元进一步组装功能的输入序列在不同时间尺度,导致长期的表示上下文:考虑到时间 ,他们的时空特性将在不同级别的自组织网络。因此,这种振荡模式在RNN是由自组织形成的不动点和limited-cycle非线性动力学是记住了。
在MT-AFA-PredNet的背景下,时间常数设置生成单元,即。,the convolutional LSTM units, in which the values are updated with influence from the previous state. 在哪里的输出是什么 - - - - - -th生成单元( ,即。,ConvLSTM here) at time在 - - - - - -层。
3.3。行动调制
我们雇佣数量独立复发的单位在一个层的数量单位,独立记忆可能改变像素的可能性。因为我们有多个生殖单位( ),电动机的调制作用的作用是选择性集成不同的预测结果单位。这是松散相似的视觉注意机制的系统(参见[54]),因为只有部分生成输出的整体预测。这样的注意机制最近被用于NLP (55)、文本翻译(56,57),和语言模型(58]。从注意力模型的启发,但考虑到电机调制作用是马尔可夫模型,我们使用汽车行动在当前时间作为输入的注意模型(5)。这种关注模型进一步应用的标准化术语输出多个卷积LSTM单元(6)。这种可能性进一步集成的soft-max功能单位注意,计算了电机的行动。 在哪里 在这里,等于每一层上的卷积LSTM单位数量。soft-max函数,我们可以有一个归一化组合的所有输出卷积LSTM单位。
3.4。算法
我们表示这些知觉输入图像的指标 ,和目标网络的预测将在最低水平的实际认知下一个时间步 。我们直接把图像作为输入层,最低的图层1,所以图层1的输入, ,等于实际的图像数据 。
在时间步的目标更高的层表示为 。除了第一层,通过深卷积的高级表示层,它遵循通常的计算过程中所示的卷积网络(6):卷积核,纠正线性单元(ReLU)计算,和max-pooling顺序使用。这种自下而上的过程使用卷积网络提取错误的地方特色。
在顾单位,生成过程是由周期性的表示连接(即。从以前的时间步) ,自底向上的错误 ,和自顶向下的预测 。等在计算卷积LSTM预测(9):使用反褶积来重建一个更大的大小(预测)表示纠正后的函数(ReLU) (Eq。7))。
为了避免ReLU缺点的,只有抓住了正面和负面的错误,这个错误表示计算从积极和消极错误(Eq。8)),与原始PredNet。
在训练各种action-perception削的场合,在移动车辆的实例,用不同的转动方向交叉,这些单位暗中记下不同可能性的预测(例如,移动方向)对电动机以自组织的方式采取行动。 在哪里是一个神经元的激活函数,我们应用ReLu函数来确保反向传播的更快的学习,的神经表征水平在时间 。上的表现层是 。的 , , ,和相应的神经算法。整个算法优化网络算法所示1。
|
||||||||||||||||||||||||||||||||||||||||||
4所示。实验结果
在本节中,进行了两个实验探讨如何感知和行动的机器人(或自主车)可以集成在预测编码(PC)框架和层次表现如何不同在不同的场景中。
4.1。线示踪机器人
第一个实验是在一个模拟场景,进行多个电动机动作与相同的图像输入可能被处死。从这一点来看,我们分析网络的性能以及单位的表示,尤其是顾单位。机器人仿真的数据集被记录在该方案中,示踪机器人车沿着线从VRep模拟器59]。在这个模拟(图2),机器人配备了三个视觉传感器以及三线仪传感器(图2),因此,图像序列可以被捕获,同时机器人自主车跟踪这条线。使用VRep,我们也能够记录车轮速度数据和相机数据训练网络。收集的数据,我们的二进制图像大小 从相机在中间每一个像素年代。
3 - layer MT-AFA-PredNet用于训练序列的机动动作向量(即。车轮的速度)和图像,与亚当优化器(60]。三个不同的值被应用在三个不同的层次。有更大的上水平,这表明神经活动预计将放缓。相比值中选择MTRNN作品(例如,45,47]),一个小得多的值是选择,因为LSTM网络执行长期记忆。参数如表所示1。
数据3和4显示原始的样本之间的比较和预测的图像。尽管图3是黑白相间的二进制输入训练而灰度数据用于生成输出图吗4,我们仍然可以观察到的相似之处。
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
我们进一步想象的神经活动在不同层检查时间参数影响表示。对应的预测样本,预测一日的内部表示的每一层(图所示5,6,7),我们可以观察到更高水平的预测图像(图7)保持稳定在几乎整个运动的机器人相对于其他两层。一个演示实验可以在Youtube上找到(https://youtu.be/4w7RqeU42XY)。
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
4.2。预测不同的概率
探讨如何表示区分各种场景,我们操纵线在三个不同的虚拟模拟略有不同。这些差异不是很明显但周围的线区域 不同。我们训练有素的模型这三个轨迹检查是否感觉运动反应的差异在这三个场景可以编码在不同单位。这些轨迹的三个场景图所示8。然后我们使用双层网络3单位在每一层。类似于前面的小节,我们想象的表示输出,看看它们是不同的。我们选择当机器人到达的时间坐标想象他们每为 。
(一)轨迹1
(b)轨迹2
(c)轨迹3
我们发现最发生差异水平,在数据可视化9- - - - - -12。虽然不是直接映射图像的预测,他们出现在不同的训练场景。相对可以发现细微的差别层相比层,可能是因为所有的生成可以在一层进行分层体系结构。
(一)
(b)
(c)
(一)
(b)
(c)
(一)轨迹1
(b)轨迹2
(c)轨迹3
(一)轨迹1
(b)轨迹2
(c)轨迹3
4.3。在驾驶学习的场景
我们进行了实验考察多个时间尺度的表演提出了网络的属性。实验的目标是双重的:(1)预测传入的图像与其他预测模型相比。(2)multitime尺度提出了网络的属性。
按照目标,我们选择驾驶数据集(https://ccv.wordpress.fos.auckland.ac.nz/eisats/set-1/)。这个数据集,由戴姆勒公司(Daimler AG)提供,包含了五个不同的驾驶场景,每一个都包含250或300的图像。此外,驾驶信息还包括对应于每个图像的时间戳。5个单位向量表示的长ego-motion信息:(1) :方向盘的角度。(2) :每个轮子的速度。
3 - layer MT-AFA-PredNet用于训练序列的机动动作向量(即。车轮的速度)和图像,与亚当优化器(60]。三个不同的值被应用在三个不同的层次。有更大的上水平,这表明神经活动预计将放缓。相比值中选择MTRNN作品(例如,45,47]),一个小得多的值是选择,因为LSTM网络执行长期记忆。参数如表所示2。时代= 300,其中包括500年为每个序列的迭代。
4.4。合成的图像
使用驾驶数据集,我们计算错误而生成模型预测图像序列。类似,时代将是300,其中包括500每个序列的迭代。培训结束后,计算每个图像的均方根
我们比较MT-AFA-PredNet之间的均方根误差和LSTM表3。作为基线,单层LSTM用来预测图像序列没有马达动作作为输入。我们可以看到,MT-AFA-PredNet,它使用多个层卷积LSTM,比单层LSTM性能更好的预测,可能是因为卷积计算每一层有利于检测图像特征。
地面真之间的定性比较和合成图像如下所示。具体来说,数据13和15显示一些样品的原始之间的比较和预测图像场景“疯狂,”和数字14和16显示“施工现场的场景。”因为我们预测后的归一化,合成图像显示反向的颜色。
(一)框架10
(b) 20帧
(c) 30帧
(d) 40帧
50 (e)框架
(一)框架10
(b) 20帧
(c) 30帧
(d) 40帧
50 (e)框架
(一)框架10
(b) 20帧
(c) 30帧
(d) 40帧
50 (e)框架
(一)第一帧
(b)框架10
(c) 50帧
100年(d)框架
130 (e)框架
4.5。场景分类
我们进一步形象化的神经活动在不同的层次来检查时间参数影响表示。由于页面限制,在本节内,只有定量结果显示:我们首先想象表示在第一层1和2两个场景(“疯狂”和“施工现场”)。将进行定量比较是否更新对每一层都有区别。然后我们将观察如果它一直在分类基础上,表示层2。
预测样本,对应的内部表示1和2层顾单位所示,分别在数字17,18,19,20.。我们可以观察到高级代表(2)层比低水平保持稳定。似乎在稀疏编码方法和表示。从这个结果,我们可以分类不同的驾驶场景如图21,我们可以看到有不同的表征与不同的训练序列。
(一)框架10 (GU 1)
顾(b) 50帧(1)
顾100 (c)框架(1)
150 (d)框架(GU 1)
顾200 (e)框架(1)
(f)框架10 (GU 2)
(g) 50帧(GU 2)
顾100 (h)框架(2)
(我)帧150 (GU 2)
(j)帧200 (GU 2)
(一)框架10 (GU 1)
顾(b) 50帧(1)
顾100 (c)框架(1)
150 (d)框架(GU 1)
顾200 (e)框架(1)
(f)框架10 (GU 2)
(g) 50帧(GU 2)
顾100 (h)框架(2)
(我)帧150 (GU 2)
(j)帧200 (GU 2)
(一)框架10 (GU 1)
顾(b) 50帧(1)
顾100 (c)框架(1)
150 (d)框架(GU 1)
顾200 (e)框架(1)
(f)框架10 (GU 2)
(g) 50帧(GU 2)
顾100 (h)框架(2)
(我)帧150 (GU 2)
(j)帧200 (GU 2)
(一)框架10 (GU 1)
顾(b) 50帧(1)
顾100 (c)框架(1)
150 (d)框架(GU 1)
顾200 (e)框架(1)
(f)框架10 (GU 2)
(g) 50帧(GU 2)
顾100 (h)框架(2)
(我)帧150 (GU 2)
(j)帧200 (GU 2)
(一)疯狂
(b)建筑工地
(c)跳舞
(d)实习生在自行车上
(e)的安全
(f)松鼠
5。讨论
5.1。从预测感知到规划
反馈影响感官输入可以被视为一种预测性信息从内存检索(61年]。基于预测编码理论,分层架构使用反馈信号(尤其是自顶向下的信号)预测即将到来的感觉输入,而丰富性非常在意自底向上的信号只提供估计的误差。我们的模型进一步提出一个假设,在基于事件的预测,这样的反馈可能是基于持续的感觉运动事件的分类。他们执行类似的贝叶斯推理和总是更新认知过程的先验知识水平。
相似,在认知过程层次,如果这样的预测闭环和持续足够长时间域,可能扮演一个更高层次的表示心理模拟对未来事件。这样一个事件可以在更高的层次,更新慢的神经活动。这样的预测也对多峰性。它捕获的结构规律的形态,和在空间和时间域。(62年)认为,这样的任务的完成对决策和规划有关贝叶斯推理在更高层次的认知功能。因此,感觉运动预测之间的区别,事件的分类,可以统一规划的行为。这种模型特别关注的统一感觉运动预测和分类的事件。
在[指定63年),这样的规划过程继承了预测过程时才存在(1)特定目标已经确定在第一个开始;(2)在短期或中期规划问题。
当人类解决更复杂的规划问题,如多目标优化问题(例如,旅行推销员问题,TSP),它需要一个更高层次的认知过程,使决策的计算能量和时间。然而,从工程的角度来看,短期和中期计划是充分的在一些短期和中期计划应用程序中,例如,自动驾驶,PredNet模型已经检查预测下一帧图像的相机。
5.2。模范自由Perception-Action学习
传统控制问题通常需要一个显式描述的模型。因此,质量控制不仅依赖于选择控制策略,但也认为植物模型的精度。例如,代理应该获得的动力学环境以及本身的物理模型的描述。然而,分析描述通常很难定义,因为系统非线性和高阶动力学。
最近强化的发展机器人控制(例如,运动64年],操纵[65年,66年]),和自主车辆控制67年)通常需要显式的植物和环境模型的数学表示。例如,与蒙特卡罗学习强化学习算法,其价值函数的政策没有一个具体的模型,学习随机样本放置perception-action配对。
虽然我们的模型不包括强化学习范式,它还地图这样的感知和行动配对没有奖励的先验知识。这也使得我们的模型更实用因为一个适当的政策或值函数表示不能总是选择这样的时间序列perception-action结对是在实际环境中难以实现。另一方面,作为目标的实际强化学习者的实际应用程序通常学习情景任务后的奖励。LSTM的内存可以完成类似的工作没有明确的工程工作的手工制作奖励函数本身。
这也提出了一个代理问题bioinspired学习问题:当“状态空间”和“行动空间”在强化学习明确定义,通常reward-driving学习学习这两个空间之间的映射和一个简单的假设动作纯粹是由知觉,这并不是一个显而易见的情况下如果我们研究人类认知的发展。相反,大多数的认知研究提出,感知和行动应持有一个集成的关系。建议的体系结构,perception-action集成可以很容易地由反馈回路在我们未来的工作。这种perception-action配对可能成为另一种替代方法来解决机器人学习的感觉运动问题。
5.3。多通道和跨通道预测
提出了网络的第一个版本(AFA-PredNet)模型集成预测编码下的感知和行动框架。它描述了认知和行动的可能性可以集成在一个分层架构。此外,双向反馈连接在此体系结构中产生的跨通道影响感知和行动。
在人类的大脑,这样的影响已被广泛认知中找到。例如,麦格尔效应表明听觉和视觉形式之间的相互作用的可能性。此外,预测编码的框架下,感知和行动都试图预测误差最小化。
分层架构已经使用了跨通道的理解,中发现了一些有趣的更高层次的表示(例如,68年,69年])。这样的表现可能会暗示我们的更高层次的认知也施加自上而下的低层次的感官数据信号,如何传入感官数据的样子。这种更高层次的认知也获得代理与环境交互时,这种“世界模型”,对应于MT-AFA-PredNet缓慢的背景层,不能显式地建模。相反,不同形式的配对,以及perception-action是一个模范自由学习的过程。
5.4。结论
自顶向下的预测是通过整个大脑,对这种自上而下的预测:预测编码提出一个框架误差流经大脑的自底向上的层次和纠正内部的自上而下的预测模型。更高层次的认知扮演了一个角色对解释当前的感觉运动场景模式的世界模型,动态变化,基于这样一个模型,使预测。在这个过程中,电机动作也作为先验知识来进行预测。建立这样一个集成预测编码感知和行动之间,多个时间尺度行动反馈增强预测网络(MT-AFA-PredNet),提出了实现以下功能的预测编码框架neurorobotic实验:(1)自顶向下反馈通路为感官感知应用的预测。预测是意识到通过提取出先验知识从知觉和建设世界模型,嵌入到更高层次的认知,关于代理的感觉运动信息本身。(2)这样一个表示关于长期感觉运动的认知语境是编码在一个缓慢的背景层人工神经网络架构。快和慢上下文神经元是由一个时间参数决定的。(3)这种“预测编码”理论进一步结合ego-motor行动。它是意识到的注意机制。
在两个模拟实验。第一行示踪实验表明,机器人独立生成单位编码的预测不同的运动,进一步调制的注意机制。驱动数据集上的第二个实验演示了其分类能力不同的驾驶活动,及其预测优于LSTM的结果。
数据可用性
的Pytorch实现模型和驱动数据集用于支持这项研究的结果已经沉积在GitHub: https://github.com/jonizhong/MT_AFAPrednet。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是部分支持的新能源和工业技术发展组织(NEDO)。