技能学习的智能机器人Perception-Action集成:从分层时间的记忆

文摘

技能自主学习通过与环境的相互作用是一个重要的智能机器人的能力。perception-action集成或感觉运动周期,作为一个重要的问题在模仿学习,是一种天然的机制没有复杂的程序的过程。最近,neurocomputing模型视为一种新趋势和发展智能方法实现机器人的技能学习。本文基于研究人类大脑的新皮层模型,我们提出一种技能学习方法通过perception-action集成策略从分层时间记忆的角度(HTM)理论。顺序传感器数据代表一个特定技能从RGB-D收到相机然后编码为一个(SDR)向量的稀疏分布序列表示。特别提款权顺序向量被视为perception-action HTM的输入。特别提款权的HTM学习序列,使预测的下一个输入特别提款权。它存储转换当前的传感器数据和未来预测的行为。我们评估的性能提出了学习框架握手技巧人形机器人。实验结果表明,本文设计的技能学习方法是光明的。

1。介绍

技能自主学习通过与环境的相互作用是一个至关重要的能力对于智能机器人,它可以提高机器人的灵活性和适应性1]。模仿学习是实现的主要方法技巧学习(2]。perception-action集成或感觉运动周期,作为一个重要的问题在模仿学习,指的是信息流从环境中感觉和运动结构和回环境和感觉输入。连续的传感器信息的处理和连续的转导目标导向行为(3]。技能学习的智能机器人实际上是一个学习的模式之间的联系感知环境的输入和反馈行动系统。Perception-action集成是一种天然的技能学而不复杂的程序过程的机制。一些来自认知科学的研究成果为这种说法提供令人信服的证据。心理模拟(4)源于神经心理学作为反应和感知组件的一部分,因为它实现了行动和感觉之间的交互环境的状态。知觉-运动的理论(5州neurocomputational框架是用于连接与最新的知觉上的数据可能的运动系统的功能作用。沃伯特et al。6)综述了计算机制的感觉运动学习。此外,perception-action集成的计算模型是机器人研究领域的主导技术技能的学习。

1.1。相关工作

传统的人工智能方法的计算模型如贝叶斯建模(7和强化学习8)第一次关心学习技能。最近,neurocomputing模型视为一种新趋势和发展智能方法实现机器人的技能学习。做et al。9)提出了一个引导的方法学习擦技能。这个方法引导的感觉运动经验和学习对象属性之间的关系和操作参数。PerAc神经网络(10)应用于知觉学习的动力学耦合的一方的行动,和学协会的感知和行动是用于识别的姿势。神经运动激活(11),模拟神经元激活过程分配一个权重每个电动机组件显示其程度的激活。权重更新的知觉过程。神经激活引起的认知过程与系统反馈;因此,感知和行动之间实现集成。神经网络体系结构相结合的递归神经网络参数偏差(RNNPB)和横向产品模型被用来预测未来知觉和感觉运动系统的行为之间的联系发展的腹侧和背侧视觉流和概念化的出现在视觉流(12]。

此外,一些复杂的认知体系结构用于模拟的大脑通路perception-action周期研究了。Cutsuridis和泰勒检查几个neurocomputational visuomotor机制大脑处理和协调整合他们建立视觉神经框架把握任务(13]。认知模型(14]基于斯金纳的操作性条件反射原理是专为机器人掌握平衡能力。这个模型包括小脑、基底神经节和大脑皮层。每个组件模仿人类大脑中相应部分的基本功能。特别是,小脑地图感觉运动状态与监督学习行为和基底神经节提供适当的行动基于操作性条件反射理论。

1.2。为什么分层时间内存(HTM)

作为未来学家库兹威尔在他的书中描述(15),大脑皮层包含层次结构模式识别电路和最负责的人类思想的各个方面。他还解释说,如果存在一个设计数字大脑皮层,它可以被用来创建人类的大脑一样的功能。分层时间内存(HTM)理论(16霍金斯[],首次提出的17),是一个实现数字大脑皮层的版本的库兹韦尔的观点。它试图模型大脑功能级别而不是在一个神经元或分子水平上。HTM bioinspired模型,抓住了大脑皮层的主要特征。它模仿学习的大脑皮层的能力,推理,从顺序输入和预测模式在稀疏分布的形式,因此,它可以描述一个复杂的模型世界。此外,HTM使用稀疏分布的表征(sdr)来表示复杂的输入数据和HTM放贷如此多的灵活性,这是类似于大脑是一个递归的概率分形行代码表示在30 - 100字节的基因组中压缩代码(15]。

细胞(神经元)HTM参与感觉运动集成和学习过程,这是由生物证据(18]。此外,皮质HTM的学习算法(CLA)包括空间池和时间记忆的过程。这些是perception-action一体化的重要组成部分,由拉兰和Lorenceau证明19]。感觉器官还时空功能促进收购映射的训练数据量较少和促进的行为(20.]。在研究工作中,他们指出,大脑利用空间和时间巧合从空间信息空间特性聚集通过不同的方式相互连接。

库兹韦尔的书的核心是心灵的模式识别理论。它的主要观点是,层次结构视为模式识别器,不仅仅是感知世界,但是对于思想的几乎所有方面。很自然的是HTM首次成功地应用于模式识别系统(21- - - - - -23]。

上述原因和HTM和神经科学之间的关系表明,HTM可以被认为是一种很有前途的方法实施perception-action集成。因此,在这项研究中,我们应用HTM设计perception-action技能学习的集成框架。这个框架接收顺序传感器数据代表一个特定的技能从RGB-D相机。然后这些感官数据编码为一个序列(SDR)向量稀疏分布的表示。特别提款权顺序向量被视为perception-action HTM的输入。特别提款权的HTM学习序列,使预测的下一个输入特别提款权。它存储转换当前的传感器数据和未来预测的行为。我们评估的性能提出了学习框架握手技巧人形机器人。

2。HTM初步

本研究的目的是实现技能学习通过使用HTM perception-action集成框架的基础上,设计的过程遵循一般的HTM工作流如图1。网络学习的时变输入。在这个应用程序中,输入捕获的骨骼关节和深度数据。这些输入编码的编码器(16)作为一个稀疏二进制字符串或矩阵,这是必要的输入表单的HTM系统。在我们的例子中,顺序握手伴随着关节数据深度数据记录和编码为一个1024位的二进制串的编码器。这个字符串的格式

HTM系统学习不断的输入数据。学习算法课的设计与传感器和电机不断变化的数据。每个输入的变化,HTM的记忆系统更新。HTM使用班学习的动态过程时空变异性一般发生在连续的输入数据,然后进行预测。典型的班是由两个子过程:空间池(SP)和时间记忆(TM)算法。

输入来自感官或其他地区的HTM混乱和不规则的。SP算法的最基本的功能是将一个地区的输入转换成一个特别提款权通过重叠计算,抑制和更新过程,同时保留语义编码信息。每个特别提款权的语义属性表示。通过确定任意两个之间的重叠特别提款权我们可以立即看到两个表示语义相似以及它们在语义上是不同的。由于这种特别提款权的语义重叠属性,SP HTM的联想连接输入细胞,他们将能够学习模式在开始改变的空间。TM算法内存转换的数据流。它学的特别提款权序列由SP算法,使预测的下一个输入特别提款权。TM是用于感觉推理和运动的一代。它形成的稀疏表示输入捕获之前输入的时间背景,然后形成一个预测基于当前输入先前输入的上下文中。HTM理论假定,每一个在大脑皮层兴奋性神经元学习过渡的模式,大部分在每个神经元突触是致力于学习这些转换。

记忆系统,HTM本质上是一种类型的神经网络。模型细胞,连接和安排列,细胞组织列在一个二维数组来构成了HTM地区,最后建立了一个分层神经网络,如图所示2。详细的解释、属性和学习HTM的伪代码可以发现技术报告(16]。只在本节中,我们描述我们的应用程序相关的重要内容。

2.1。细胞

HTM细胞生物神经元,提取最重要的功能,如图3,他们有更复杂的结构比传统的人工神经元。典型的HTM电池有三个输出状态:前馈输入的活动状态激活,从横向输入预测状态激活,不活跃的状态。每个HTM细胞在一列股票一个近端树突段(最接近胞体)和远端树突段列表(远离胞体)。近端树突段接收所有前馈输入,包括环境感知数据和输出的低层区域,通过积极的突触的绿点。这些积极的突触在胞体线性累加效应。远端树突段接收侧的输入从附近的细胞通过活跃的突触的蓝点。图3显示每一段远端树突都是阈值检测器。段将被激活,如果活动突触的数量上面一段是一个阈值。或操作上执行所有活动远端树突段使细胞成为预测状态有关。HTM细胞的突触二进制权重,由一组潜在的突触。潜在的突触是足够接近的轴突和树突片段可能会突触。近端树突,潜在的突触包括所有输入到一个地区的一个子集,远端树突,潜在的突触是主要从附近的细胞在一个地区。每个潜在的突触是分配一个标量值从0到1。这个标量值命名为永恒,代表之间的亲密程度或连接一个轴突和树突。一个更大的永久性收益率之间有很强的关联。如果永久高于阈值,突触的潜力成为一个有效的突触,这个有效的突触的重量是设置为1。胞体接收到输入突触的近端和远端部分,沿着轴突提供了两种输出:一个处于活动状态(红线),横向送到其他相邻的细胞,另一种是积极的或结果和预测状态(蓝线)和发送到下一个区域的细胞。因为HTM的感知和行动集成网络,远端树突输入也可以外部输入。横向联系,在感觉运动细胞通常会被关闭推理。

2.2。空间池(SP)

空间池的基本功能是形成一个特别提款权的输入。当输入出现在一个地区,每一位的输入信号只会被分配一个固定数量的列。每一列都有一个关联的近端树突段(共享一个列的所有细胞,cf,图3),作为到输入空间的连接。每个近端树突段有一组潜在的突触输入位代表的一个子集。每个潜在的突触有永恒的价值。这些值是随机初始化在永久阈值。基于他们的永恒价值,当永久大于阈值一些潜在的突触将已经被连接。

对于任何给定的输入,确定有多少连接突触连接到活动每一列输入比特(位1)。突触连接突触变得活跃。活动突触的数量乘以男朋友提振因素,动态确定的频率相对于邻国列是活跃。最高的列激活后提高禁用一个固定比例的列在一个抑制半径。抑制的结果是形成一个稀疏组活跃列被视为TM子流程的输入在同一地区。Hebbian-like学习过程实现每个活跃的列。永久的值输入比特增加突触与活跃,和那些与不活跃的输入位下降。永恒的变化值做出相应突触成为有效或无效。同时,促进因子和抑制半径都是根据更新在哪里(现役周期)是一个滑动平均代表频率列一直积极抑制后,例如,在过去的500迭代。代表所需的最小发射率列。是更新函数,线性插入点(之间的促进因素 )和( ),如图4。一般来说,同时更新所有列的促进因素。为抑制半径更新输入的数量一列连接(用)应该首先确定,然后,这个数字乘以总列数为每个输入(用存在)。为多个维度,上述计算平均超过所有维度的输入和列。

2.3。时间记忆(TM)

TM比SP更复杂,因为它结合了学习和预测过程。它学习特别提款权由SP算法,使预测。TM由三个阶段组成。

2.3.1。第一阶段:形成的表示输入先前输入的上下文中(确定细胞的活动状态)

空间池后,TM算法将输入的柱状表示转换成一种新的表示方法包括状态,或背景,从过去。新代表是由激活细胞内每一列的一个子集,每列通常只有一个细胞。

对于每一个活跃的列了SP,解雇了一个预测状态的细胞被激活(指从先前的时间(3))。同时,远端树突段对这些细胞被标记为活动当突触的数量超过一个阈值。选择的学习细胞(6)。此外,如果一段从学习细胞被激活之前的期间,这部分的细胞连接设置为学习单元(见(4))。如果没有在预测细胞状态,列中所有的细胞被激活,这是定义在(5)。对于这种情况,部分有最大数量的活跃突触在列细胞在时间 ,然后,这部分的相关细胞连接是选为学习单元。如果没有细胞这一段,我们选择最少的细胞数量的部分学习细胞(见(6))。在阶段1中,结果集的活跃细胞之前由上下文中的当前输入的输入。

对于perception-action集成的情况,有一个可选的“Learn-On-One-Cell (LOOC)(可用https://github.com/numenta/htmresearch/wiki/Sensorimotor-Inference-Algorithm)“滞后模式。在以下情况下这种模式切换。当一列不是预测,而是由感官输入,激活细胞,以前选为学习细胞仍将作为学习细胞在当前时间。如果没有这样的细胞存在,学习细胞也取决于(6)。如果触发LOOC模式,发动机信号的副本添加到输入的远端树突。方程(6)条件”(细胞有段最大数量的活跃的突触的时间吗 )∥(细胞如果在时间最少的部分 )。”代表细胞的活动状态在列在时间鉴于目前前馈输入和前颞上下文;和是学习和预测状态的细胞在列在时间和分别;和代表在细胞活跃的部分在列在时间。同样的, 是一段学习细胞激活的时间吗。如果多个段是活跃的,序列片段给出偏好。是细胞的数量列。是一组活动列索引的时间吗。

2.3.2。第二阶段:形成一个预测的上下文中基于输入前输入

后第一阶段根据(7),细胞活性片段预测状态,除非他们已经主动承认由于前馈输入。代表了预测状态的细胞在列在时间。所有的预测细胞形成区域的预测。

在列细胞 ,当前活跃的部分添加到更新列表 ,将用于哪一个第三阶段。扩展预测在时间,另一个远端树突段有最大数量的活跃的突触在以前的时间也被认为是添加到更新列表。

2.3.3。阶段3:更新突触

类似于突触更新近端树突的SP算法,每当一个远端树突段变得活跃,相关的潜在的永久价值Hebbian突触修改的规则只有在细胞正确预测前馈输入。因此,突触永恒价值段的更新列表将增强积极的还是消极的。

最后,一个向量代表或活动的结果和预测状态的细胞区域成为输入到下一个区域的层次结构。而不是存储一组预测细胞,TM算法存储一组活跃的远端树突段,即预测相关的部分骨架位置握手。预测,HTM网络可以估计约当输入可能会到达下一个调用和分离运动的信息。

3所示。结果

3.1。实验装置

我们应用HTM perception-action集成学习握手技巧基于一个NAO机器人。由于没有实际NAO机器人在我们的实验室,Webots NAO模拟器结合Kinect V1 RGB-D相机被认为是实验配置检查技能学习性能。作为显示在图5,RGB-D相机安装在顶部的液晶是模拟真正的相机和声纳传感器NAO机器人。RGB-D相机拍摄顺序人的运动骨架和深度数据NAO模拟器和人类之间的关系。应该注意在图5摄像机和物体之间的距离必须配置的有效检测范围内RGB-D相机,也就是说,2米的Kinect V1。在这里,我们设置1.5米。

学习技能NAO机器人,我们需要感知和操作数据。因此,我们收集了两个人的训练数据。这些训练数据用于群最好的HTM模型参数。设置训练数据采集图所示6。一个人站在远离另一个1.5米,和两个RGB-D摄像头被安装在他们的头。两个传感器之间的距离地面2米。相机1,命名为感知相机,用于获取骨骼数据2人2和深度的人。照相机2(即的目的。,action camera) is the same as camera 1 except that the data are from person 1. Note that the depth data from the separate cameras have to be converted to the distance between two persons. Combining the skeleton data from two cameras and the converted distance, we build up the training dataset. Two groups of training data were recorded, and each group consists of ten sets of shaking hands skeleton data and depth data. Group one is for the case that one person (person 2) walked towards and stopped 0.5 meters far from another one (person 1) and then shook hands. Group two is for the case that two persons walked towards and stopped 0.5 meters far from each other and then began to shake hands. Camera 1 captured skeleton data of person 2 which will be treated as the perception data for NAO simulator; camera 2 recorded skeleton data of person 1 which is to be taken as the action data for NAO simulator. Because these perception-action skeleton motion data are from different cameras, it is necessary to consider the synchronization issue of data acquisition time. In this paper, we applied asynchronous mechanism to address this problem. The perception camera acquisition thread first started and then triggered the action camera acquisition thread. These two threads are alternate. Furthermore, when two data acquisition threads started, persons stood statically 5 seconds to maintain the skeleton data stable before recording. This asynchronous manner imitates the perception-action cycle. When the HTM network is trained, we used the experimental setup in Figure5检查技能学习在线形式的性能。RGB-D相机捕捉到第一帧的人的骨架和模拟器和人之间的距离来衡量。这些感知数据被送到HTM网络,和HTM网络提供了预测框架行动。预测的骨架行动框架坐标系的转换RGB-D相机的共同协调框架NAO模拟器然后关节上执行。这是一个知觉(传感器数据采集)行动(预测)周期在线评估。这个循环执行逐帧,直到颤抖不已的手完成。

记录文件的数据结构(8)。后的数据是有序的时间戳。“ID”描绘了RGB-D相机ID捕获骨骼数据;深度数据总是获得只有通过相机1 ( )和深度的照相机2我们相机的深度数据1直接复制。它可以发现,感知和行动数据记录交替。每个关节数据由三维笛卡尔坐标和20关节包括60坐标值(指https://msdn.microsoft.com/en-us/library/nuiskeleton.nui_skeleton_position_index.aspx)。实际上,NAO模拟器,只有12个关节,可以控制和各关节由几个欧拉角值(指表1)。有必要解决这个问题之前,聚集的过程。我们选择相应的骨骼关节和其三维笛卡尔坐标转化为欧拉角,然后重组后的转换数据格式(9群集)最优参数。因此,12个关节NAO模拟器覆盖20个欧拉角值。由于图像的大小深度信息,使计算效率,在一个感兴趣的区域(ROI)提取。选为roi 矩形的中心形象。采样时间设置为100毫秒。


联合	欧拉角

左肩	音高和卷
左肘	偏航和滚
左腕关节	偏航
右肩	音高和卷
右手肘	偏航和滚
右手腕	偏航
左髋部	音高和卷
左膝盖	球场
左脚踝	音高和卷
右髋部	音高和卷
右膝	球场
右脚踝	音高和卷

HTM设计基于开源NuPIC(可用https://github.com/numenta/nupic),其设置为上面的两种情况是一样的。HTM模型是一个地区网络。列在这个区域的大小被设置为2048(安排在2 d平面),细胞的数量在每一列被设置为32。这个配置维护特别提款权的多样性和低概率之间的错误匹配任意两个特别提款权。5所示(1),转换框架数据编码为一个二进制字符串标量编码器和各关节占领了32位数据。深度数据也由类别编码器编码为一个32位二进制串。在这里,我们定义了两个类:关闭和深度数据。“关闭”意味着人接近开始握手,和“远”意味着人勇往直前。编码机制是由最小距离内提取ROI。如果最小距离小于一个阈值,即50厘米在我们的实验中,一类是“关闭”,反之亦然。额外的传感器信息的保留位设计未来的工作。

3.2。结果分析

我们选择第一个5组每组训练数据群最优HTM网络参数。最后的分群结果SP和TM算法的主要参数在表列出了前一节中描述2。这些最优参数和训练数据,我们检查了技能学习性能离线和在线的形式,分别。离线验证是一个范式的批量测试;即骨架和深度相机1(感知相机)收集的数据采样时间第一次被编码为连续的二进制字符串,然后发送到HTM网络获得一批提前一步预测行动框架数据采样时间吗。我们预测的骨骼转移到关节坐标系NAO模拟器,模拟器NAO检索握手以批处理形式。预测与原骨架相机记录的数据比较2(动作镜头) 相比,关节轨迹,统计结果如图7和表3,分别。因为在案例1 NAO模拟器站静态,只颤抖的右手,右手臂的关节数据只记录在图7(一),机器人20 100采样时间内完成了任务。数据7 (b)- - - - - -7 (e)说明所有的关节轨迹,机器人握手的手在第100至180采样时间和它走0.5米从0到100采样时间。它还可以发现在图7预测的骨架与实际是一致的框架行动被照相机2。表3显示了行动的统计预测与训练数据。可以看出,每个预测的均值和方差都接近于零,这体现的行动预计正确和成功。图8显示了框架(可以找到完整的视频剪辑附加媒体1),在左列是案例1和右列是第二种情况。这些离线检测结果表明,我们建议的perception-action集成提供了正确的动作预测根据不同的输入数据。


参数	描述	价值

	阈值活动突触的数量在一个段	15
	阈值的持久性潜在的突触	0.2
	初始值的促进因素	1.0
	最大的刺激因素	2。0
	初始值的抑制作用半径	0
	最小获胜的列数	1
	在空间池增加永久价值	0.05
	在空间共享递减永恒价值	0.05
	任何持久的突触值大于该阈值将成为一个活跃的突触	0.1
	最低现役周期	0.001
	阈值用于确定远端段是否激活	14
	在颞池增加永久价值	0.1
	在颞池递减永恒价值	0.1


情况下	LShoulder球场		LShoulder卷		LElbow偏航		LElbow卷		LWrist偏航
情况下

1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
2

情况下	LHip卷		LHip球场		LKnee球场		LAnkle球场		LAnkle卷
情况下

1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
2

情况下	RShoulder球场		RShoulder卷		RElbow偏航		RElbow卷		RWrist偏航
情况下

1									- - - - - -	- - - - - -
2

情况下	RHip卷		RHip球场		RKnee球场		怨恨球场		怨恨卷
情况下

1	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
2

(一)在案例1关节轨迹

在例2 (b)关节轨迹

案例2中(c)关节轨迹(续)。

案例2中(d)关节轨迹(续)。

(e)关节轨迹,以防2(续)。

在线评估,一个人站在前面RGB-D摄像头(参考图5)。当摄像头捕捉人的骨架,HTM网络预测相应的动作,然后行动转移到联合立场NAO模拟器,NAO模拟器可以交互式地与对方握手。图9显示NAO模拟器之间的交互和人握手(完整的视频可以在媒体上找到2),抓帧在案例1的左列和右列是第二种情况。NAO模拟器的关节轨迹图所示10。与训练数据曲线比较图7可以看到,它的形状预测框架数据曲线类似于训练数据,体现,我们建议的方法也可以用于在线学习的技能。与离线轨迹的考试相比,应该注意的是,在网上评价NAO模拟器有一个默认的初始运动轨迹的相关数据从0到50次的数据采样10 ()- - - - - -10 (e)。我们不考虑这些部分的关节轨迹提出了技能学习框架,只是模拟的初始行动真正NAO机器人。此外,学习行动框架数据在训练过程中记得HTM,他们被当作参考预测行为。如果预测是不正常,这些存储操作可用于异常检测,部分中讨论4。

(一)在案例1关节轨迹

在例2 (b)关节轨迹

案例2中(c)关节轨迹(续)。

案例2中(d)关节轨迹(续)。

(e)关节轨迹,以防2(续)。

计算平台是一个Corel i7 - 6500 u 2.50 GHz, 12 G RAM的笔记本电脑。云集HTM网络优化参数的时间约为60分钟(训练数据的数量大约是1000行)。在线评估过程,包括加载HTM网络的最优参数,抓住一个框架的骨架和深度数据,编码这些感知数据,实现SP和TM算法,和输出预测,消耗2.35秒。在线验证的时间成本大大低于培训,因为培训是一个最优的搜索处理通常耗时。此外,只有一帧RGB-D数据处理;因此,计算时间大大减少。考虑到结果的时间成本,合理使用提出了实时perception-action集成技能学习任务。

4所示。讨论

4.1。异常检测

有一个重要的问题要考虑在线评估。如果预测的行动偏离预期,机器人可能握手失败的任务。这种情况被称为NuPIC作为条件的异常。它是有价值的许多应用程序实时检测异常。班花异常的可能性从异常分数计算,一个强大的异常检测分析方法,为解决这一问题(24]。异常的可能性使同学提供一个指标表示的输入序列的每个记录的程度是可以预测的。它是相对于数据流而不是绝对测量的异常行为,因而一个关键参考检测模式异常高的分数是否异常。异常可能造成错误的平均分数,然后比较了当前平均误差的分布平均误差已经在过去的数据流。这使我们能够识别异常基于概率。如图11,如果异常可能是在绿色部分,这表明记录是正常的。如果是在红色部分,记录显示异常值,这表明该模式是一个小说未见任何序列。黄色部分表示模式有点不同寻常,我们并没有高的信心。在我们的应用程序中,我们考虑一个模式异常如果它可能是在黄色部分。基于异常检测的概念,我们计算每个预测行为的异常可能在握手的学习任务。如果异常任何行动的可能性高于一个预定义的阈值概率(0.90在我们的实验中,也就是说,绿色部分的概率或准确性为90%,相当于1.65容许区间为正态分布),我们设计了一个简单的行动检索策略,即回忆保存细胞的活跃的远端树突段对应的行动序列训练数据来代替预测行动异常的可能性更高。检索到的行动被视为预测在接下来的时间。

它可以在图中找到8抓住那个人的手骨骼数据帧的案例1视频偏差。这个异常预测相应行动的可能性感知手骨架为0.954,超过0.90。我们更换这个异常动作与存储动作在训练和把它送回HTM作为下次的预测。用这个替换过程中,以下预测行为是正确维护和NAO模拟器继续正确地握手。因为CLA预测机制在我们的实验中是领先一步,我们只检索一个预测的行动。如果采用多步向前预测机制,行动检索的数量是由预测步骤和异常可能的数量。

4.2。生物学证据的行动的预测

学习的整合行为不同的人是一个重要的认知功能perception-action集成系统,已检查Knoblich和Flach25]。他们还证明,这种类型的预测更加准确,当一个人获得知识从自己的行动,而不是他人的。生物的证据来支持他们的研究提供了HTM的动作预测机制及其应用技能学习任务。然而,当前的HTM只实现了一个简单的预测结果。它提供了一个序列的预测行为,包括一步和多步预测,但不考虑这些预测背后的潜在信息。从生物学角度来看,目前的版本的HTM不链接知觉与动作系统输入预测未来结果的行动(25];也就是说,它不能解释知觉的意向性goal-related行动(26)或实现的理解意图隐藏在连续预测的行为(27和学会如何看待新事物28]。此外,如何预测行为指导未来知觉过程不考虑。因此,以上这两个问题都将是我们未来工作的主题。

5。结论

本研究是第一次尝试探讨perception-action集成视图的HTM技能学习问题的智能机器人。时序知觉信息的主要概念是有助于预测未来一步行动。我们选择握手为例探讨技能学习NAO模拟器性能提出的框架。目标人的感知到的骨架和深度数据从目标人抓起从RGB-D相机。感知数据首先被编码为一个连续的二进制字符串。通过使用SP算法,二进制串序列组织作为一个2 d特别提款权。特别提款权,TM算法使得NAO预测框架数据模拟器通过存储当前感知骨架之间的转换数据和预测未来的时间。预测数据转化为关节坐标框架,NAO模拟器可以实现手摇晃动作与一个真正的人。实验结果表明,该方法在本文中是有前途的技能学习的智能机器人。

的利益冲突

作者声明没有潜在的利益冲突的研究,本文的作者,和/或出版。

确认

这项工作是由中国国家自然科学基金支持下批准号61203338。作者感谢NuPIC开源项目和所有的贡献者NuPIC代码。

补充材料

Media1:离线评估的视频剪辑。

Media2:视频的在线评估。

补充材料

引用

o .西高德和j·彼得斯在机器人运动学习互动学习施普林格,柏林,德国,2010年。
美国Schaal”,人形机器人是模仿学习的路线?”认知科学趋势,3卷,不。6,233 - 242年,1999页。视图:出版商的网站|谷歌学术搜索
j . m .柱身上处理perception-action周期的阶段,”认知科学趋势,8卷,不。4、143 - 145年,2004页。视图:出版商的网站|谷歌学术搜索
n . l . Cassimatis j·g . Trafton m . d . Bugajska和a·c·舒尔茨“整合认知、感知和行动通过心理仿真机器人,”机器人和自治系统卷,49号1 - 2,13-23,2004页。视图:出版商的网站|谷歌学术搜索
J.-L。施瓦茨,A . Basirat l . Menard和m .佐藤”Perception-for-Action-Control理论(协议):perceptuo-motor言语知觉理论,“神经语言学期刊,25卷,不。5,336 - 354年,2012页。视图:出版商的网站|谷歌学术搜索
j·d·m·沃尔伯特Diedrichsen, j·r·弗拉纳根,“感觉运动原理学习,”神经系统科学自然评论,12卷,不。12日,第751 - 739页,2011年。视图:出版商的网站|谷歌学术搜索
k·p·科德和d·m·沃伯特“贝叶斯集成在感觉运动学习,”自然,卷427,不。6971年,第247 - 244页,2004年。视图:出版商的网站|谷歌学术搜索
j .反坦克炮,s . Jodogne r . Detry et al ., perception-action系统学习视觉表示,“国际机器人研究杂志》上,30卷,不。3、294 - 307年,2011页。视图:出版商的网站|谷歌学术搜索
j·希尔,m . j . Ernesti, t . Asfour”学习擦:一个案例研究结构引导的感觉运动的经验,”诉讼的IEEE机器人与自动化国际会议的举行(“国际机器人与自动化会议”14)香港,页1858 - 1864年,2014年5月- 6月。视图:谷歌学术搜索
h . Guedjou、美国Boucenna和m . Chetouani“姿势识别分析在人与机器人模仿学习,”程序联合IEEE国际会议发展和学习和表观遗传机器人(ICDL-EpiRob 16)- pontoise,页193 - 194年,法国,2016年9月。视图:谷歌学术搜索
a Sadeghipour和s .科普”体现的姿态处理:电机集成的感知和行动在社会人工代理”认知计算,3卷,不。3、419 - 435年,2011页。视图:出版商的网站|谷歌学术搜索
j .钟a Cangelosi, s . Wermter”走向自组织pre-symbolic神经模型代表感觉运动原语,“行为神经科学前沿第二十二条,卷。8日,2014年。视图:出版商的网站|谷歌学术搜索
诉Cutsuridis和j·g·泰勒,“认知控制架构perception-action周期的机器人和代理商,“认知计算,5卷,不。3、383 - 395年,2013页。视图:出版商的网站|谷歌学术搜索
t·史、w·杨和h .任“研究机器人感觉运动系统的认知模型,”智能和模糊系统杂志》上,28卷,不。5,1955 - 1968年,2015页。视图:出版商的网站|谷歌学术搜索|MathSciNet
r·库兹韦尔如何创建一个思想:人类思维的秘密透露,2013年海盗。
j·霍金斯,艾哈迈德,s . Purdy和a·拉文生物和机器智能(BAMI),2016,http://numenta.com/biological-and-machine-intelligence/。
j·霍金斯,在智力时代图书,纽约,纽约,美国,2004年。
d·胡贝尔d . a . Gutnisky s·贝隆et al .,“多个动态表征在运动皮质感觉运动学习,”自然,卷484,不。7395年,第478 - 473页,2012年。视图:出版商的网站|谷歌学术搜索
c .拉兰和j . Lorenceau“交叉集成感知和行动,”Physiology-Paris杂志,卷98,不。1 - 3、265 - 279年,2004页。视图:出版商的网站|谷歌学术搜索
e·维塞尔和g“进步学习的感觉通过时空预测地图,”程序联合IEEE国际会议发展和学习和表观遗传机器人(ICDL-EpiRob 16)页,43-48 - pontoise,法国,2016年9月。视图:谷歌学术搜索
Y.-S。黄和Y.-J。王”,一个基于分层时间记忆手姿势识别方法,”IAENG国际计算机科学杂志(IJCS),40卷,不。2、87 - 93年,2013页。视图:谷歌学术搜索
y Du, w . Wang和l .王”基于骨架的动作识别,递归神经网络分层”《IEEE计算机视觉与模式识别会议(CVPR 15)2015年6月,页1110 - 1118。视图:谷歌学术搜索
d . Rozado f·b·罗德里格斯,p . Varona”扩展bioinspired分层时间记忆范式的手语识别,”Neurocomputing卷,79年,第86 - 75页,2012年。视图:出版商的网站|谷歌学术搜索
s·艾哈迈德·a·拉文美国Purdy, z大官,“无人监督的实时流媒体数据的异常检测,”Neurocomputing卷,262年,第147 - 134页,2017年。视图:出版商的网站|谷歌学术搜索
g . Knoblich和r . Flach预测行为的影响:交互感知和行动,”心理科学,12卷,不。6,467 - 472年,2001页。视图:出版商的网站|谷歌学术搜索
a·e·梦露,g·d·里德和l·詹姆斯,“知觉的意向性goal-related行动:行为描述问题,“《公共科学图书馆•综合》,10卷,不。第三条ID e0119841, 2015。视图:出版商的网站|谷歌学术搜索
S.-J。布莱克莫尔和j .戴西迪”观念的行动意图的理解,“神经系统科学自然评论,卷2,不。8,561 - 567年,2001页。视图:出版商的网站|谷歌学术搜索
e·a·迪保罗x e . Barandiaran m . Beaton和t . Buhrmann”学习感知感觉运动方法:动态平衡皮亚杰的理论解释,“人类神经科学前沿第551条,卷。8日,2014年。视图:谷歌学术搜索

复杂性

神经网络对复杂系统:理论和应用程序

文摘

1。介绍

1.1。相关工作

1.2。为什么分层时间内存(HTM)

2。HTM初步

2.1。细胞

2.2。空间池(SP)

2.3。时间记忆(TM)

2.3.1。第一阶段:形成的表示输入先前输入的上下文中(确定细胞的活动状态)

2.3.2。第二阶段:形成一个预测的上下文中基于输入前输入

2.3.3。阶段3:更新突触

3所示。结果

3.1。实验装置

3.2。结果分析

4所示。讨论

4.1。异常检测

4.2。生物学证据的行动的预测

5。结论

的利益冲突

确认

补充材料

引用

版权

相关文章

复杂性

神经网络对复杂系统:理论和应用程序

技能学习的智能机器人Perception-Action集成:从分层时间的记忆

文摘

1。介绍

1.1。相关工作

1.2。为什么分层时间内存(HTM)

2。HTM初步

2.1。细胞

2.2。空间池(SP)

2.3。时间记忆(TM)

2.3.1。第一阶段:形成的表示输入先前输入的上下文中(确定细胞的活动状态)

2.3.2。第二阶段:形成一个预测的上下文中基于输入前输入

2.3.3。阶段3:更新突触

3所示。结果

3.1。实验装置

3.2。结果分析

4所示。讨论

4.1。异常检测

4.2。生物学证据的行动的预测

5。结论

的利益冲突

确认

补充材料

引用

版权

更多相关文章

相关文章