神经行为链移动机器人的行为学习

文摘

本文提出一种视觉/运动行为学习的方法,基于神经网络。我们建议行为链模型(BCM)为了创建行为学习的一种方式。我们的基于行为的系统进化的任务是一个移动机器人探测目标和驾驶/代理。首先,图像之间的映射关系对象的功能域和机器人行动领域。第二,多层神经网络的离线学习使用映射关系。这种学习结构通过神经网络训练过程代表的视觉感知和运动序列之间的连接动作以控制目标。最后,使用行为学习通过注意到操作链,我们可以预测移动机器人行为在相似环境中各种相似的任务。预测结果表明,方法是适当的,可能被视为一个想法来设计不同的移动机器人行为的援助。

1。介绍

机器人研究涵盖了范围广泛的应用场景,从工业或服务机器人机器人辅助残疾人或老年人。机器人在工业、矿业、农业、空间探索和健康科学只是几个例子具有挑战性的应用人类的属性,如认知、感知和情报可以发挥重要的作用。诱导知觉和认知,那里的知识分子到机器人的机器的主要目的是构建一个机器人,能够“思考”和操作在不确定的和非结构化的条件。

成功地实现指令的能力(例如,对象操纵,触觉的操控,引导机器人手术操作,等等),机器人必须提取相关输入/输出控制信号从操作系统任务为了学习任务执行所需的控制序列(1]。视觉运动映射的概念,它描述了视觉感知特性和电机信号之间的关系有必要采取行动,在机器人(很受欢迎2]。有很多视觉运动映射,摄像机和机器人之间的定义。从视觉输入的巨大变化使得它几乎不可能代表明确的顺序动作,这样的知识必须获得一组机器学习技术的例子(3]。机器人满足适当的目的使用其学习和预测能力。

预测策略在机器人可以实现在以下方面(4,5]。(我)基于模型的强化学习。学习环境模型,除了强化值。(2)模式的机制。模型是由规则和学习自下而上通过生成更专门的规则在必要时。(3)预期寿命模型。强化只是传播一次期望状态是由一个行为模块和传播完成使用动态编程技术,应用于学预测模型和信号列表。(iv)预期的学习分类器系统。类似于模式机理和寿命模型,它们包含显式的预测组件。预测模型由一组规则(分类),被赋予一个“效果”部分,预测未来情况代理会遇到如果执行指定的操作规则。这些系统可以对感觉输入泛化。(v)人工神经网络(ANN)。代理控制器将输出发送到执行机构,基于感官输入。学习控制剂由学会副好组输出一组输入代理可能会经历。最常见的方式来执行这样的学习是通过使用反向传播算法。

的上下文中学习轨迹编程通过示范提出了强化学习(下6]。真正的移动机器人的视觉servobehavior,学会了通过试验和错误的方法,利用强化学习,下了(7]。

提出了不同形式的visual-based学习(8),在每一个的视觉感知与致动器紧密耦合的影响,以便学习适当的行为。学习一些行为,如避障或目标追求通过运动示意图,是一些例子。

摘要(9)处理未建模对象的视觉引导掌握基于机器人表现出一种体验——自适应行为。对象的特性计算图像和手的运动学。真正的实验数据在一个人形机器人是受雇于一个分类策略,基于最近的邻居估计规则,预测掌握配置的可靠性。

在[10),从实验结果提出了一个视觉指导的四轮式移动机器人进行基于视觉运动知觉判断预期表现出的能力理解障碍的空间布置在其行为意义。机器人学习安排内转发模型,随机移动障碍和观察变化的视觉输入。感性判断,机器人的伫立,观察到一个单一的形象,和内部模拟变化图像,给出一系列的运动命令(车轮速度),按照一定的运动计划。这个仿真机器人法官额障碍和识别的距离,安排的障碍,死胡同或通道。预计使用一组图像多层感知器,其中每个像素计算三层感知器。

perception-action方案视觉引导操作,包括视觉预测和检测机制通过比较预期的反馈和意外事件的反馈提出了下(11]。预期的视觉感知是基于电机命令和机器人机械手的本体感受有关。如果系统的预测是正确的,不需要完整的感官输入处理在这个阶段。只有当预期感知传入感官数据不匹配,一个完整的知觉加工被激活。

人工神经网络(ANN),普遍接近者,能够模拟复杂系统的输入和输出之间的映射到一个任意的精度。ALVINN示例说明了标准前馈网络的力量,以及其局限性。控制网络解决了一个困难的模式识别任务,需要复杂的图像预处理,使用线提取算法,等等,如果编程人类设计师。然而,由于其使用前馈网络,ALVINN是一个被动的系统。这意味着它没有概念在时间方面的任务,总是对其视觉输入同样的时尚,无论当前上下文(12]。

情况,但是,从根本上改变,一旦人工神经网络作为机器人控制器;网络可以,通过机器人的身体(传感器和效应器),与物理对象的交互环境,独立于观察者的解释或中介。在[13),复发性控制网络(RNN)分析表明,他们利用内部状态(即。,the hidden unit activation values) to carry out behavioral sequences corresponding to particular motion strategies instead of merely reacting to the current input. The RNNs play a central role in such approaches to the study of cognitive representation. This is because they account for the (long-term) representation of learning experience in the connection weights, as well as the (short-term) representation of the controlled agent’s current context or immediate past in the form of internal feedback. But, every task solved by a higher-order RNN could also be solved by some first-order net [14]。

各种形式的神经启发RNN网络被称为近年来在文学。例如,连续递归神经网络(CTRNN)是实现仿人机器人为对象操作任务(15]。该网络是用来学习和再生visual-proprioceptive感觉训练序列,我们假设在顶叶皮层对应于一个类似的活动。其特点是学习时空结构在连续时间和空间域。最新的生物观察大脑的开发多个时间尺度作为灵感来源复发性神经网络(MTRNN) [16]。MTRNN模型的初始测试iCub人形机器人,能够复制序列的操作对象。

最重要的因素机器人援助的行为序列学习是神经网络之间的接口的设计和传感器/致动器。虽然安理论上可以适应不同的传感器/致动器接口表示,有必要找到一个界面认知复杂性较低的安(17]。

介绍了行为描述,强调动作的重复序列的编号,注意到行为链的学习。在我们的研究中,利用神经网络的特点,系统学习必要的组操作移动机器人的运动为了访问的对象空间观察。这样的训练和测试网络的基础上,预测的机器人动作对象识别构造的新场景。在类似的情况下学会运动可以应用。我们的方法很容易扩展为其他应用程序。

2。机器人行为设置

我们的方法侧重于行为系统,学会相关的视觉信息与运动命令为了引导机器人朝着一个目标。我们选择这个任务设置,因为这种方法可以用于任何形式的视觉/电机协调,所以任务规范新配方,可以作为各种各样的行为反应。

图1显示了一个移动机器人实验平台Boe-Bot视差,与CMUcam1 AppMod视觉系统跟踪颜色的任务。

这款相机可以检测静止和移动对象。CMUcam1 SX28单片机,干扰OV6620 Omnivision CMOS相机芯片上。移动机器人有爪,其长度是12厘米,这是他控制球。夹持长度指定,它必须停止卖地厘米的距离前面的目标。

机器人在环境和球的中心可以在任何位置的机器人与各自的角度范围(0 - 180°)。视觉感知和运动之间的交互行为(操作)的序列是通过实时可视化的二维跟踪程序。

图2显示所有球位置,操作序列的实验确定。

机器人将能找到球从它的起始位置,直到它进入机器人的视野,后球的机器人可以可靠地跟踪红色开车时向它。在环境中没有障碍,机器人选择可能的行动序列由于视觉跟踪:即把从它的起始位置,直到机器人领域的对象来看,即把10°,留下的即把10°,直接翻译,停止移动。

移动机器人的行为方案包括以下阶段:(1)视觉处理涉及检测特性,如颜色或时空强度梯度;(2)获取视觉信息之间的基本关系和机器人运动相关视觉模式和运动命令;(3)学习的移动机器人行为控制目标;(4)预测电机的行为对新视觉感知,人物3。

3所示。视觉检测的功能

在第一阶段,视觉检测的功能是由一个特定的数据集的基础上,从相机的视频发送到移动机器人。质量中心(RCVData(2)),窗口内的像素数量(RCVData(8)),和数据可靠性有关的颜色(RCVData(9))从图像特定参数。

当对象定位在中间的机器人相机窗口中,变量RCVData 45(2)是有价值的。(伪代码中表示可能的行动选择1)。例如,如果我们得到RCVData(2)大于55和数据可靠性有关的颜色(RCVData(9)大于25,对象的中心。在这种情况下,机器人需要向左转。

步骤1:启动、移动= 0
第二步:发送命令“跟踪颜色”回来
数组的数据
如果(RCVData> 55 & RCVData> 25)然后
= 1;操作(移动机器人的左)
else if (RCVData< 35 & RCVData> 25)然后
= 1;操作(移动的机器人向右)
else if (RCVData< 140 & RCVData> 25)然后
= 1;行动(机器人向前移动)
else if RCVData> 140年然后
= 1,行动(停止)
如果移动= 0
操作(移动机器人的左)
其他步骤2。

4所示。行为链模型

行为可以被实现为一个有限状态受体(FSA) (18],它描述了聚合和序列的行为。他们明确行为活跃在任何给定的时间和它们之间的转换。FSA是最好的用于指定复杂的行为控制系统在整个集原始行为的交换期间执行的一些高层的成就目标。

我们建议行为链模型(BCM)为了推广形式应对各种相似的任务在类似的环境。每个动作类型的变化提出了行为改变。例如,每一次,当人类开始做新的东西,它开始计数(我们柜台的脚在一个方向,然后改变方向或烹饪时,我们柜台勺子,在混合之前,等等)。这是灵感引入这种行为模型的形式定义。

BCM包括:(1)创造的行为链序列的操作和使用行为(2)提取物理变量变换函数。我们介绍下一个定义:

定义1。系统的行为,包括序列行为动作与重复相同的动作类型的连续序列行动可以被描述为行为链,与连锁系数,:
我们引入一个正式定义的行为变换函数,给出变量的实际问题的数学描述。

定义2。系统行为变换函数连锁转换系数,在物理变量

在哪里

对于我们的行为模式,我们引入系数,计数改变行动:(我) =之和(数字重复的)在初始位置,之前)和检测球后相机(或);(2) =数量的重复翻译马上从起点到新的点(按顺序);(3) (=数量的重复新变化或按顺序);(iv) =马上重复的新翻译数量(在序列)。

更多的行动改变重复(长期目标距离或环境障碍),我们可以引入更多的系数,我们可以描述一个系统的行为。

创建行为链的一个例子是呈现在图4。

表1只包含一个实验结果的一部分,与球的坐标位置,切屑从它的起始位置,直到找到目标的视野和一系列的行动,该移动机器人必须采取目标。考虑第一个例子的行动序列的球的位置(55厘米,170°)在极坐标系。首先,移动机器人把10°到左边,直到检测到球,然后再次机器人旋转10°到左边,然后马上(行动),然后再把10°离开(行动)和直接走(6个重复的行动)。


位置 (,)	把	一系列的行动

(55,170)	6
(160)	5
(150)	3
(140)	3
(130)	2
(120)	1
(65,110)	1
(100)	0
(65,90)	0
(55,80)	0
(70)	0
(45、60)	1
(65年,50)	3
(25岁,40)	2
(15、30)	3
(45岁,20)	6
(65年,10)	6

向左转有一个积极的价值,而向右拐有一个负值的矩阵。这个例子的球位置(55岁,170°),一系列的行动提出了以下行为链:

球的位置(65年,50°),一系列的行动提出了以下行为链:

移动机器人的例子的行为对于一些球的位置((65厘米,50°),(35厘米,70°),和(45厘米,120°))呈现在图5。

例如,在极地系统提出了移动机器人位置。我们需要转换过程,给出了变量从一个实际问题的数学描述。这个转换过程提出了LBCM模型的第二阶段。

5。移动机器人的数学模型定位

为了计算的位置一个移动机器人,我们使用下面的移动机器人定位的数学模型。在一个实验中,我们得到了机器人运动的顺序动作,给定对象的位置(图6)。

在我们的方法中,一个是10度()。对那些对象的位置在环境中,移动机器人需要认识到,直观的矢量距离的移动机器人可以叠加两个向量的近似和的强度是由表达式(翻译步骤6厘米):

角是最初的角的总和,初始位移后的结果和90°,也就是说,

从图5是有效的,下面的关系: 或

最后,角可以表示: 使用行为转换函数在哪里

表2显示了一些示例的球的位置,移动机器人的位置从上面的计算数学模型。


,)

(55,170)	7	1	1	6	42	169年
(160)	7	3	0	0	18	160年
(150)	5	0	0	0	0	140年
(140)	4	1	1	1	12	135年
(130)	4	5	0	0	30.	130年
(120)	3	5	1	0	30.	120年
(65,110)	2	7	1	2	54	112年
(100)	1	2	0	0	12	One hundred.
(65,90)	0	9	0	0	54	90年
(55,80)	−1	6	0	0	36	80年
(70)	−2	3	0	0	18	70年
(45、60)	−3	4	0	0	24	60
(65年,50)	−4	6	−1	2	47	45
(25岁,40)	−5	1	0	0	6	40
(15、30)	−6	1	0	0	6	30.
(45岁,20)	−8	4	−1	1	30.	8
(65年,10)	−8	5	−1	3	48	6

第三阶段在我们的学习方法是一个操作序列,建立一个适当的感知之间的通信状态和行为。计算移动机器人的位置,根据系数提取实验模式,将与移动机器人的位置基于神经学系数,预测服务的目的。

6。机器人行为学习

基于人工识别,机器人系统可以模拟人类行为目标导向和显著增加符合人类的期望19]。我们的方法强调行为链的创建从一个操作序列。为了达到视觉引导指出,我们的任务学习从球坐标的映射移动机器人的运动命令,出现行为链,需要实现这些位置。为了简化维度问题,移动机器人位置指定为向量的线性组合原语,从形成的参数。这种形式的映射是学习以神经,导致机器人的预测能力。在一些实验不同的神经网络结构,与反向传播学习算法训练,我们使用了前馈多层网络Levenberg-Marquardt (LM)的学习算法。

由一组输入数据目标样本和一系列的行动从起始位置到一个点可以拿起球。收集到的数据分为三个次级样本,训练样本(63%),测试样品(31%),和预测样本(6%)。前馈多层网络用于训练和两个隐藏层,与tansig或purelin激活函数和一个隐藏层神经元的总数(10、20或30)。神经网络的输出层有4个神经元,这礼物4系数用于计算()。一些结果列在表中3。


				测试误差(MSE)		错误预测(MSE)		RMS
								RMS

1	10	500年	0.001	7.74	7.77	3.29	4.55	4.00
1	10	1000年	0.001	5.18	8.48	2.45	4.44	3.76
1	20.	500年	0.01	5.57	10.5	7.13	3.11	4.07
1	30.	500年	0.001	38.13	13.6	29.7	8.88	7.30
2	30.	500年	0.001	5.99	8.65	4.20	14.43	3.89
2	20.	500年	0.01	5.01	7.77	2.43	4.63	3.63
2	20.	1000年	0.01	7.57	8.07	3.57	4.43	4.02
2	30.	500年	0.1	8.52	8.93	4.79	4.30	4.25
2	20.	1500年	0.1	8.86	736年	3.04	4.43	3.80
2	30.	1500年	0.01	17.62	10.6	3.06	4.30	5.40

在神经网络训练中,我们改变了隐藏层的数量(),在隐藏层神经元的数量()、时代的最大数量(),隐层和输出层的激活函数类型,和学习速率()。对于每一个神经网络配置,我们计算均方误差(均方误差)之间从神经网络学习和价值观对测试集和预测集,以及均方根误差(均方根)测试集,根据表的结果3,最好的网络配置与均方根误差的最小值被选中。我们有最小均方根误差(均方根)三层神经网络与20在隐藏层神经元,学习系数0.01,隐层和输出层神经元的激活函数tansig purelin,和训练是通过500年时代。

7所示。预测行为的结果

收集的数据在实验是由大量的信息。几个进行分析可以对这个数据,特别是对不同特性的适当性和有效性。然而,我们更感兴趣的预测功能,可以从这些数据和推断方法,可以充分利用它。

在第四阶段的我们的方法,我们提出使用神经网络预测的结果选择输入数据配置以最小的误差(RMS)的价值。为每个目标位置的预测,我们计算从实验中使用数学模型和比较他们,得到了神经网络的学习过程(表4)。


	15	25	35	45	55	65年
	160年	140年	120年	One hundred.	80年	60

真正的系数值

	6	4	3	1	−1	−3
	0	1	3	5	6	8
	0	1	0	0	0	0
	0	1	0	0	0	0

实际的值(,)

	0	12	18	30.	36	48
	150年	135年	120年	One hundred.	80年	60

的系数值从神经网络学习过程

	6.66	5.09	3.05	1.00	−0.68	−2.70
	−0.06	2.10	3.34	4.68	4.92	5.71
	−0.14	0.09	0.02	0.04	−0.22	−0.32
	0.00	−0.34	−0.07	0.48	1.55	2.14

和从神经网络学习过程

	0.37	10.57	19.65	30.99	38.83	47.09
	149.95	129.83	119.99	100.04	79.46	59.12

用表4,我们比较图形移动机器人的位置通过一个实验,利用神经网络的数学模型和学习。

数据7和8介绍了不同序列的移动机器人对目标行为。路径(看到一个红色的线)是一个移动机器人路径的数学模型和路径(面对蓝线)是一个移动机器人路径,从神经网络学习获得的参数。球的距离之间的区别和距离d(机器人)哪里来存在,因为爪指定的长度,机器人必须停止在卖地厘米距离前面的目标。

例如,目标位于位置(100),图7。从其初始位置,移动机器人为10度角转向左边,也就是说,。然后,4翻译行为是由6厘米(每个),和4厘米的位移。之后,一把了(这是一个角度0.4度),其次是位移2.9厘米,和它能够控制一个球。

例如,目标位于位置(80),图8。从其初始位置,移动机器人转向角6.8度,也就是说,。然后,4翻译行为(每6厘米),包括位移5.5厘米。之后,一把是(向右倾斜角度为2.2度),然后6厘米3.3厘米位移,然后它能够控制一个球。

8。结论

我们提出一个方法,试图模仿人类行为的视觉概念,包括:对象的主要识别环境,visual-based移动机器人行为学习和预测的新情况。这种形式的机器人不需要知识了解机器人的环境或运动学/动力学本身,因为这些知识是隐式地体现在结构的学习过程。

这种方法非常灵活,可以应用于各种各样的问题,因为行为描述是“弹性”足以适应各种情况。为了我们的方法适用于任何类型的任务,我们必须解决两个重要的问题。一个是如何构建行为和其他行为描述的是如何推广学习形式来应对各种相似的任务在类似的环境。

尽管神经网络理论上可以适应不同的传感器/致动器接口表示,有必要找到一个接口为神经网络认知复杂性较低,而在我们的例子中,是一个简单的极坐标表示目的传感器和机器人运动通过“”参数。此外,我们使用不同的尺寸和参数的影响分析了多层感知器。而神经元的数量对性能的影响越小,影响了神经网络的完整类型表示的结果。

我们实现了一个预测方法,利用这些特性产生可靠的输出。特征空间数据来自真实的实验用摄影机移动机器人和爪。获得足够令人满意的预测结果表明,方法是充足的,应取得进一步进展这个方向。在未来的工作中,更多的参与策略可能是由一组新的扩张操作任务,独立学习,适应在太空,或涉及可替换主体行为学习。

引用

a . m .霍华德和c·h·公园,“触觉的指导学习manipualtion遥操作任务,”机器人:科学和系统:研讨会机器人操作2007年6月,亚特兰大,乔治亚州,美国。视图:谷歌学术搜索
g·泰勒和l . Kleeman视觉感知和机器人操作:3 d对象识别、跟踪和手眼协调能力施普林格,2006年。
y吴,视力和学习的智能人机交互(博士学位。论文)Illnois大学,2001。
o . m . v .巴兹西高德,p .杰拉德,”内部模型和自适应学习系统的期望,”学报第一车间的适应性行为预期学习系统(ABiALS 06年),2006年。视图:谷歌学术搜索
a·巴雷拉”预期人类感觉器官协调激励机制控制的自适应机器人:简要回顾,”机器人学习InTech,宾,Ed的哲理,2010。视图:谷歌学术搜索
l . Rozo p·吉梅内斯,c .肾脏病,”机器人学习container-emptyng技能通过触觉示范,“科技,众议员IRI-TR-09-05 de Robotica我Informatica工业研究所CSIC-UPC, 2009年。视图:谷歌学术搜索
c . Gaskett l·弗莱彻和a . Zelinsky”为移动机器人视觉伺服,强化学习”机器人和自动化学报澳大利亚会议上(肢端' 00)2000年8月,墨尔本,澳大利亚,。视图:谷歌学术搜索
m .浅田和另外,t .中村和k . Hosoda“通过visual-based机器人学习,行为习得”第七届国际研讨会上机器人研究学报》上,1996年。视图:谷歌学术搜索
a·莫拉莱斯e . Chinellato a . h . Fagg和a . p . del Pobil”实验的预测从视觉特征,把握任务的性能”《IEEE / RSJ智能机器人和系统国际会议3428年,页3423 -拉斯维加斯,内华达州,美国,2003年10月。视图:谷歌学术搜索
h·霍夫曼,“通过visuomotor期待在移动机器人感知,”神经网络,20卷,不。1,22-33,2007页。视图:出版商的网站|谷歌学术搜索
e . Datteri g . Teti, Laschi c、g . Tamburrini·达里奥和e . Guglielmelli”预期感知:anticipation-based perception-action计划机器人”《IEEE / RSJ智能机器人和系统国际会议,1卷,第939 - 934页,2003年10月。视图:谷歌学术搜索
d·a·波默洛神经网络的移动机器人感知指导提供参考,多德雷赫特,荷兰,1993年。
洛杉矶Meeden、g . McGraw和d .空白”出现自主车辆的控制和计划”《50认知科学协会的年度会议p。735年,劳伦斯Erlbaum Associates山谷,新泽西,美国,1993年。视图:谷歌学术搜索
t . Ziemke”,记住如何做人:复发性神经网络自适应机器人的行为,”复发性神经网络,设计和应用程序l . r . Medsker l . c . Jain, Eds。,CRC出版社,2001年。视图:谷歌学术搜索
j·j·塔尼语,r . Nishimoto Namikawa, m .伊藤”Codevelopmental学习人类和仿人机器人之间使用一个动态神经网络模型中,“IEEE系统,人,控制论B,38卷,不。1,43-59,2008页。视图:出版商的网站|谷歌学术搜索
m . Peniak d . Marocco j . Taniy y Yamashitay, k .费舍尔和a . Cangelosi”多个时间尺度递归神经网络对于复杂的收购行动,”学报》国际联合会议上开发和学习(ICDL)和后生机器人(ICDL-EPIROB 11)法兰克福,德国,2011年8月。视图:谷歌学术搜索
即Fehervari和w . Elmenreich进化神经网络控制器的自组织团队的机器人,”《机器人体积文章ID 841286卷,2010年,10页,2010。视图:出版商的网站|谷歌学术搜索
r·c·阿金基于行为的机器人剑桥,麻省理工学院出版社,质量,美国,1998年。
m·梅耶,b . Odenthal和m . Grandt“面向任务的认知使用MTM生产系统,工艺设计”第二届国际会议上应用人为因素和人体工程学美国酒吧,2008。视图:谷歌学术搜索

应用计算智能和软计算

文摘