机器人杂志

PDF
机器人杂志/2012年/文章

研究文章|开放获取

体积 2012年 |文章的ID 505191年 | https://doi.org/10.1155/2012/505191

桓谭、黔Du Na, 机器人学习写作”,机器人杂志, 卷。2012年, 文章的ID505191年, 15 页面, 2012年 https://doi.org/10.1155/2012/505191

机器人学习写作

学术编辑器:Huosheng胡
收到了 2012年3月19日
接受 2012年6月19日
发表 2012年8月01

文摘

提出了一种通用的方法,来同时学习机器人运动和相应的语义知识。修改ISOMAP算法用于关节角的取样6维向量转换成二维轨迹,写作和所需的运动数据从这ISOMAP-based修改模型。使用该算法,建立知识模型。学习运动和知识模型存储在一个2 d潜在空间。高斯过程(GP)方法用于模型和表示这些模型。实际实验进行一个人形机器人,名叫直接督导下,学习的语义表示和写作的移动号码通过模仿和验证该框架的有效性。这个框架是应用于培训一个人型机器人,名叫直接督导下的。不仅在学习阶段,直接督导下的学习运动的动力学要求写的数字,但也学习数字的语义相关的写作运动从相同的数据集。语音命令,直接督导下的识别相应的运动轨迹生成的单词和写数字。这种模仿学习方法上实现认知架构提供健壮的认知信息处理。

1。介绍

在动态环境中机器人将会像人类行为(1,2]。然而,它是非常困难的对机器人开发技能或行为完全从头开始,没有最初的知识。斯洛曼规定的论文,机器人应该学习照顾期和早熟性的行为“出生”后3]。因此,它是合理的,机器人有一些基本的和简单的初始知识与运动原语(4),或一些基本的和简单的初始技能探索世界发展新知识和技能生存或完成任务。在这些初步的知识和技能,人类可以教机器人更复杂的行为或技能来完成更复杂的任务。

模仿学习(也称为学习的演示,演示编程)现在认为是一个强大的工具之间的转移技能机器人(尤其是人形机器人)(5]。与传统teaching-executing模式,机器人只是记录由人类运营商和移动轨迹编程角度和终端执行器沿轨迹,自1970年代以来,研究人员曾试图训练机器人学习简单的运动模式(6]。艾特克森在1980年代,训练一个倒立摆机器人学习如何平衡在一个直立的位置通过实践7]。从那以后,许多方法在各领域提出了模仿学习8]。在2000年代,研究人员发现生物学证据和模型动物的模仿学习9]。渐渐地,模仿学习被划分为两个部分(10]。一个是培训学习机器人的动力学运动(11),另一个是训练机器人学习行为的原语序列(12]。

本文的动机是要找到一个方法,机器人可以同时学习运动模型和语义知识在当前流行的模仿学习框架。在实验部分,人形机器人,名叫直接督导下,训练学写数字,从人类的老师。

本文的其余部分组织如下。部分2介绍了当前相关工作;部分3解释了系统框架,这个框架中使用的算法;部分4解释了实现认知体系结构;部分5解释了实验设置和实验结果;部分6讨论了实验结果和未来工作;第七节总结本文的工作。

2.1。运动学习

示威运动是由真人教师或其他机器人和机器人学生试图记录示威。有许多不同种类的示威运动的方法:通过观察来学习(13从操纵杆操作),14),通过手动移动机器人的手臂10),从人体上的传感器(15,16]。

有时记录数据的维数降低预测的数据从高维数据空间到低维数据空间,命名为潜在的空间。相应地,需要重建的数据从低维数据空间到高维数据空间。“降维”和“重建”并不总是需要在当前的模仿学习研究。在某些情况下的动态演示需要或几个内在相关性分析需要进行分析,“降维”和“重建”可以应用。提出了许多降维方法提取数据的特征,如主成分分析(17),因子分析(18],ISOMAP [19),局部线性嵌入(20.],和MDS [21]。使用降维技术的一个典型的例子是(10],Calinon和桌球提出一个方法来利用降维方法来建立一个强耦合关系潜在的空间和数据空间中的数据,并使用数据分布的潜在空间,以确保生成的行为也有类似的示威活动的内在动力和约束。

学习运动模型存储在内存(数据库)的机器人,机器人商店学到的知识或技能。线性的全球模型高强)[22),高斯过程(GP) [23),局部加权回归(轻水反应堆)[24),局部加权回归(LWPR)[投影25),主曲线(PC),高斯混合模型(26)和人工神经网络(ANN) [27)用于代表记忆的模型。

2.2。语义知识学习

机器人需要理解学习运动,它意味着机器人需要把这些运动模型和相应的语义知识联系起来。这通常是通过标签运动模型与语义名称或相关的语义描述的任务。

2.3。一代

给定一个类似和不同情况(机器人需要完成一个相同类型的任务具有不同参数),一个命令,或外部触发(信号、图像等),需要计划行为和需要运动模型是通过搜索相应的检索行为名称在“标记行为模型”。

如果需要,动作的参数被修改以适应相似但略有不同的情况。生成的行为被描述为与指定参数。动态运动原语(纯数字)16)被广泛用于生成运动动力学相似的示威活动,可以实现不同的目标。Calinon等人提出了一个方法来减少生成的运动和学习之间的加权距离运动在原始数据中的潜在的空间和空间(10]。彼得斯使用强化学习(28]方法适应机器人运动模型的参数来生成类似的动作相似但略有不同情况(29日]。Theodorou应用最优控制(30.在强化学习环境学习机器人的运动模型示威和使用DMP(生成类似的动作31日,32]。

如果数据存储在一个潜在的空间中,生成的轨迹的运动需要从潜在的空间投影到原始数据空间,例如,关节空间。

2.4。动机

机器人需要学习的运动行为和行为的语义在前两个阶段所描述的部分。的一个学习阶段仍像一个编程过程中,行为的名称由真人教师手动分配给运动模型。

机器人的一个重要问题是可以学习的运动游行和使用学习运动相似但略有不同的情况,但是机器人如何使用这些学到的知识以外的其他地区执行动作,例如,识别、语义理解、推理和规划,特别是在写作,学习运动应该与语义含义的字母,数字或符号,和机器人使用学习运动可能会发现自己的更高层次的语义含义。当我们看到有人演示如何一个角色,我们可以直接想到这个角色的意义在我们的大脑中,当我们编写一个字符的方法在我们的大脑,我们可以评估结果与真实的性格。游戏可能是熟悉我们大多数人,有人写字母我们使用手指和我们试图猜出他/她是写作。人类,显然,我们可以使用遥感信息在构造运动的轨迹的手指在我们的大脑,并尝试比较它与我们的学习知识的信件。摘要机器人使用编码器感觉运动关节的关节空间和试图匹配的感觉运动关节和学到的知识这些数字。然后,真人教师不需要教的是数量和机器人,机器人能自动与写信的学习运动到相应的字母。

3所示。系统设计

在本文中,我们提出了一个通用框架,使用机器人可以同时完成上述两个学习阶段,如图所示1

从图1,这个提议框架的贡献是,运动模型和知识模型的信息从一个单一来源。机器人使用的信息学习的示威运动模型和知识模型。本文直接督导下学习如何编写和自动关联的运动写号码语义知识模型。

3.1。示范

示威是由人类的老师。本文演示显示手动移动直接督导下的右手臂。

记录的数据 = { , } ,这是一个 × 7 矩阵。 记录六关节的角度直接督导下的右手臂,和 是时间信息。

3.2。特征提取

对于大多数情况,机器人需要学习两个特性:运动和语义。提取的信息存储在相应的模型。

3.2.1之上。运动模式学习

如引言部分中所述,有很多方法来表示数据的运动。在本文中,我们使用一个修改ISOMAP算法(33)项目6-dimensional数据空间到二维空间。著作的运动在三维笛卡尔空间是由6个关节。然而,作品的特点是二维的,因为字符写在一个二维平面。所以它是合理的使用功能为其他使用一个二维平面。使用这个修改的额外动机ISOMAP算法可视化研究人员的抽样数据在二维平面上轻易找到运动的特性,并使二维平面上的轨迹没有重叠部分内部本身或十字路口内本身。使用该算法,空间和时间的特征样本数据可以在一个二维可视化。

我们想要提到降维并不是所有应用程序所必需的。摘要降维提取方便识别的特性和使用特性。

指定的原始ISOMAP算法算法如下。(1)示例演示轨迹上的点: = , ( 1 ) (2)计算测地线距离矩阵D女士: G 年代 ( , ) = , f 0 , o t h e r w 年代 e 年代 ( , ) = n G 年代 ( , ) , G 年代 ( , ) + G 年代 , ( , ) = 1 , 2 , , , ( 2 ) 年代 迭代计算,直到值元素的融合。

在原始ISOMAP算法, 被定义为一个欧氏空间两点间的距离: 。在我们修改ISOMAP算法, 被定义为两个点之间的时间距离: 用于记录六个关节的角度: = 1 , 2 , , ( 3 ) 计算内积, 年代 1 = 2 , ( 3 ) 在哪里 = 年代 2 , 一个 n d = ( 1 / ) ( = 1 , w h e n = , = 0 , w h e n ) ( 4 ) 计算的新坐标采样点的空间 X : = 1 1 , 2 2 , ( 4 ) 在哪里 1 2 是最大的两个特征值的 ( ) 有两个相应的特征向量: 1 2

ISOMAP修改方法,它既反映了采样数据点之间的时间和空间关系在二维平面,用于训练机器人学习写字母在一个二维平面上的运动(33]。

原ISOMAP MDS的延伸,它构造矩阵通过连接采样点的距离的邻居。原ISOMAP用于描述邻居采样点之间的距离。为了找到采样轨迹的时间信息,在我们的算法的邻居被严格定义为时间的邻居。空间关系是没有定义但ISOMAP算法计算了这个修改。修改设计 G t ( , ) = | | , f | | , 0 , o t h e r w 年代 e , ( 5 ) 在哪里 是时间阈值。在(1), 空间的阈值。

使用这种方法, G t 和相应的 ( t ) 计算。采样点的空间表示为 = ( 1 1 , 2 2 ) ,在那里 1 2 是最大的两个特征值的 ( t ) 有两个相应的特征向量: 1 2

2004年詹金斯和Matarić提出时空ISOMAP算法(34]。他们的方法是全面和详细定义了类型的邻居。为不同的邻居,建筑的距离矩阵的方法是不同的。在我们的方法中,我们简单地添加时间限制建设距离矩阵和严格假定所有的距离应该是时间相关的。这种方法是简单而方便计算。詹金斯的方法和我们的方法都是有效的描述的时空特征的采样数据点。

在当前的模仿学习,行为是特殊的机器人运动在特定任务相关的情况。这意味着我们可以假定的抽样数据从示威行为总是躺在同样的歧管在数据空间。预测结果的数据潜在的空间数据的空间必须在同一歧管作为示范。因此,它是合理的假设存在一个数据空间中的数据之间的关系和潜在的空间,它可以被描述为一个函数: = , , ( 6 ) 在哪里 是一个潜在的空间和数据点吗 是一种相应的原始数据空间中的数据点。

因此, ( , ) 设计作为一个广义线性回归模型: = Φ ( 7 )

Φ ( ) 是由 基础功能: Φ ( ) = e x p 2 Σ , = 1 , 2 , , , ( 8 ) 在哪里 是第i个基函数的中心和 Σ 是带宽。均匀分布在中心的空间和带宽是专为基函数的潜在空间。

是一个 ( 1 ) 矩阵哪些项目潜在的数据空间数据的空间。然而,主教核实,基函数的数量通常必须成倍增长与输入空间的维数35]。这意味着利用降维计算和存储最终到达一定值随着维度的数目增加。节4使用不同数量的基函数,比较的结果。

假设投影矩阵 是已知的,概率分布的空间点数据 = , , 2 e x p 2 ( , ) 2 ( 9 )

日志的可能性的概率分布的点数据空间中每个点的分布概率的乘法: ( , ) = = 1 l n , , ( 1 0 )

最大化对数似然函数可以通过对数似然函数对区分 : = 1 Φ Φ = 0 ( 1 1 )

重写(11): = 1 Φ Φ = = 1 Φ ( 1 2 )

投影矩阵 可以计算出(11), = = 1 Φ = 1 Φ Φ __ , ( 1 3 ) 在哪里 ( = 1 Φ ( ) Φ ( ) ) __ 是Moore-Penrosepseudo逆矩阵的 = 1 Φ ( ) Φ ( )

采样轨迹从6-dimensional预计数据空间到二维空间使用原始ISOMAP算法和修改ISOMAP算法在“特征提取”块中。

在潜在的空间,我们有数据点集 ,这是一个二维空间。如前面所述,在“降维”,时间信息只用于计算邻域图。但在“行为”规划阶段,应结合到模型和时间信息设置为查询点。

数据点的潜在空间遵循(14): = , = 1 , 2 , , ( 1 4 )

使用高斯过程(22),我们可以得到一个内核基于方法的模型演示的潜在空间。二维平面上的点被描述为 = { , } ,一个GP模型用于一维的空间。医生已广泛应用(36- - - - - -39]代表采样数据点,因为它的健壮性和非参数特征。

假设 二维数据点在二维潜在空间概率分布如下: = , 1 , = , 1 ( 1 5 ) 以计算在第一维度为例: ( ) = ( 0 , ) ,协方差矩阵 ( , ) = ( , ) + 1 , 是一个向量的目标价值。

( , ) 是内核函数。通常情况下, , = 0 e x p 1 2 2 + 2 + 3 , ( 1 6 ) 被认为是时间一步演示。

在“一代”阶段,一个新的时间步 e n u r y 是作为一个查询点,医生是用来计算相应的数据值 e n u r y , e n u r y = , e n u r y 0 , + 1 ( 1 7 )

协方差矩阵: + 1 = , ( 1 8 ) 在哪里 = ( , e n u r y ) = 1 , 2 , ,

使用贝叶斯方法, e n u r y 计算使用(19) e n u r y = 1 ( 1 9 )

使用相同的方法, e n u r y 可以计算使用(20.): e n u r y = 1 ( 2 0 )

在本部分中,输入一个数据集包括6-dimensional关节空间采样数据点,轨迹和输出是一个GP模型的潜在空间。给定一个查询点(通常一个时间点),该模型的输出,这是(19)和(20.),对应的数据点的轨迹。

使用下面的方程,我们可以从低维潜在项目的数据空间到原始数据空间: = Φ ( 2 1 )

这些数据将用于机器人学习如何生成所需的运动轨迹。在机器人模仿学习,机器人需要符合记录运动轨迹与模型用于发电机(16,40]。拟合过程被认为是学习模式发生器。

在我们的系统中,我们使用动态运动原语(DMP) [11),提出Ijspeert,模式发生器。

DMP被配置为 ̇ = , ( ) ̇ = + ( 2 2 )

是我们的目标状态, 内部状态, RFWR模型,计算记录的动态演示和保证收敛的新生成的轨迹, DMP微分方程生成的位置,然后呢 ̇ 是生成的相应速度。 , , 这个方程的常数。

拟合(或学习)是训练机器人学习模型: = = 1 Ψ = 1 Ψ ( 2 3 )

满足以下方程: ̇ = , ( ) ̇ = ( 2 4 )

Ψ 是接受基函数,它在空间分布: Ψ 1 = e x p 2 2 2 ( 2 5 )

基函数的中心,分布在空间,然后呢 是带宽。

目标是使用采样点 和使用机器人迭代学习方法适应参数 。在学习后,参数是固定的,不需要改变在生成阶段: Δ ( + 1 ) 1 = e x p 2 ( + 1 ) ( + 1 ) , ( + 1 ) = ( ) + Δ ( + 1 ) , ( 2 6 ) 下标 ( + 1 ) 表示这是 ( + 1 ) 迭代, ( + 1 ) 是用于更新的数据点的模型吗 ( + 1 ) 迭代, Δ ( + 1 ) 计算数据点之间的加权距离吗 ( + 1 ) 基函数的中心,用于更新重量

3.2.2。语义知识学习

记录和书写的字符是不够的机器人与人类和机器人应该理解的语义动作和关联自动运动模型和语义知识模型。

在图所示的通用算法2

提取的特征的示范与模板用于比较。分类结果自动分配的语义模板对应的模型。学习运动应该关系semantic-related模板。例如,写人物的动作应该有形状和拓扑关系的字符,等等。

本文直接督导下的训练写数字和自动学习的语义含义的数字。如下所述,示范写,模板应该是数字的形状或者拓扑。相应地,在本部分中,原始ISOMAP方法,反映了采样数据点的空间拓扑结构,用于训练机器人学习动作的语义。为了反映整个空间采样数据点的拓扑结构,所有的邻居点视为时间邻居。为简单起见,修改ISOMAP算法也可以应用在这个建模部分虽然时间距离s的阈值设置为采样数据点的大小。

使用原始ISOMAP算法,示范动作的写信与相应的投影到二维平面的投影矩阵。记录轨迹的潜在空间归一化在相同的规模。本文的范围x设在是 ( 0 , 1 ] 和的范围y设在也 ( 0 , 1 ] 。正常化的原因是显而易见的,因为考虑到真人教师示范可能有不同的比例。为了比较命令的示威活动在生成阶段,这些示威活动应该归一化处理。

建立模型的技术记录轨迹编写基于模板和认识到号码不是本文的浓度;读者可能感兴趣的其他文献发现许多先进的分词和识别方法。

摘要光学字符识别(OCR)软件工具,TesseractOCR(目前由惠普(hewlett - packard)和由谷歌),用于直接督导下的识别比较知识模型和数据库中的字符。在实际应用程序中,认识到一个数字的结果通过使用Tesseract-OCR并不好。因此,知识模型的图片大小正常大小的信,放在一个句子“这是。”然后承认“这是* *。这是“放弃”,“直接督导下获得的语义知识这公认的照片。

识别后,运动模型是automated-assigned语义和相应的模板根据识别结果。

标签运动模型存储在“标记行为模式”。

在“行为建模”块,投影矩阵计算使用一个典型的学习算法。潜在的轨迹空间和相应的投影矩阵存储在“行为模式”。给定一个命令,直接督导下的解析命令或识别的命令并将它们转换为行动”命令分析”阻止和检索行为模型的“行为模式”。“重建”块项目潜在的空间到关节空间的轨迹生成新的行为。

3.3。一代

在生成阶段,命令发送给机器人和机器人需要分析命令和命令转化为行动与指定参数。所需的运动模型是通过搜索的语义动作的名称与指定参数。如果运动模型存储在潜在的空间,需要重建项目从潜在的空间运动模型的原始数据空间;否则,将直接使用运动模型。最后,机器人需要执行的动作来完成任务。

3.3.1。命令分析

对于大多数情况的模仿学习,机器人是给定一个任务相关的情况。初始状态和目标状态给出了在这种情况下,机器人需要使用学到的行为来完成任务(实现目标状态)。摘要语音命令用于机器人理解任务。

使用语音,机器人需要倾听人类操作员的命令,识别所需的信息,并将信息转换为行动与指定参数(41]: 一个 c t o n ( p 一个 r 一个 e t e r ) + 一个 c t o n ( p 一个 r 一个 e t e r ) + + 一个 c t o n ( p 一个 r 一个 e t e r ) ( 2 7 )

3显示命令分析的一般方法。

机器人的命令分解成不同部分通过寻找匹配的词在词汇使用特定的语法规则。主题、操作对象、目标和环境是预定义的词汇。使用一定的规则,所示的命令转换为行动(7)。这是一个典型的自然语言处理的方法。读者可以参考这本书所写的(42]。

例如写数字,词典的设计主题:直接督导下行动:写对象:零,一,二,三,四,五,六,七,八,九,十。语法设计行动+对象。

收到一个命令从人类的老师,直接督导下的提取从命令和“对象”信息检索相应的行为模式从“标记行为模型”块通过搜索所需的“对象”行为的名字。实现是使用微软语音识别库。

3.3.2。重建和执行

如果运动模型存储在潜在的空间,使用(6),从潜在的空间模型可以预测到原始数据空间。

摘要GP-based模型是用来描述运动模型的空间。因此,(6)改写为: = Φ ( ) , ( 2 8 ) 在哪里 从GP模型获得的数据点是给定一个询盘。

获得所需的数据在关节空间和机器人移动后的致动器生成的轨迹。

使用(28),所需的轨迹可以计算

使用正运动学、位置和方向可以计算 = F o r w 一个 r d K n e 一个 t c 年代 ( 2 9 )

生成一个类似的目标运动轨迹完成任务是证明轨迹之间的误差最小化,生成的轨迹。

我们在每个时间步是定义二次成本: = ( 3 0 )

是一种理想的轨迹(本文演示的轨迹), 是一个生成的轨迹, 是时间的步骤。

代表了轨迹之间的加权误差,在时间步生成的轨迹 。目标是最小化总成本: Φ ( ) + 1 = 1 ( 3 1 ) Φ ( ) 终端成本,通常定义为: Φ ( ) = ( 3 2 )

为简单起见,我们的算法, 被定义为一个联合对角矩阵。

控制过程是一种集成的传感和计划。在这篇文章中,我们不关注执行机构控制的低水平。因为直接督导下的监管机构商业设备就像“黑盒”,我们假设一个监管机构可以实现控制目标的自动调节控制输出时需要参考输入。

初始位置和姿态计算: 0 = F o r w 一个 r d K n e 一个 t c 年代 0 ( 3 3 )

在时间步 , 1 在时间步是感觉到关节角吗 1 和假设 计划基于当前传感信息: 1 = 1 , ( 3 4 ) 在哪里 1 计算: 1 = F o r w 一个 r d K n e 一个 t c 年代 1 , ( 3 5 ) 雅可比矩阵。

目标是最小化 = ( 3 6 )

重写(36): = 1 + 1 × 1 + 1 ( 3 7 )

最小化代价函数,微分 关于 并设置导数为零,我们得到 = 1 2 1 + 1 1 2 1 + 1 ( 3 8 )

在每个时间步, 给监管机构作为低级致动器控制的参考输入。

3.4。实现

这个框架实现认知架构,名叫直接督导下的认知架构,开发的智能系统中心的范德比尔特大学(43- - - - - -45]。

4显示直接督导下的认知体系结构的系统设计。

3.4.1。知觉代理(PA)

巴勒斯坦权力机构获得的感官信息环境。通常情况下,编码器的关节机器人,摄像头的机器人,和力反馈传感器实现机器人的手腕在这个代理。

3.4.2。短期记忆(STM)

获得的信息是发送到STM和存储。感觉自我领域(SES)实现STM,执行spatio-termporal巧合检测,协调每个认知的显著,并促进知觉绑定。

3.4.3。工作记忆系统(WMS)

块的WMS存储任务相关信息。该组件是在生成阶段尤其重要。

3.4.4。中央行政代理(CEA)

东航提供中央处理、决策和控制策略产生不同的任务目标是存储在目标代理(GA)。在层次结构中,该组件访问的所有感知信息,使决策任务。

3.4.5。目标代理(GA)

相应地,GA商店的动机和目标任务的情况。

3.4.6。长期记忆(LTM)

中心存储记忆尤其是长期使用的知识。程序、语义和情景知识存储在该组件。在模仿学习,学到的技能或知识存储程序和情景知识使用的数学模型。

3.4.7。内部演练系统(IRS)

国税局评估决策的结果从东航通过内部彩排。

3.4.8。工作循环

使用这种体系结构,我们可以开发三个工作循环:活泼,常规和协商。

反应循环内perception-action代理。知觉代理收集的感官信息环境。使用必要的一级代理,行动是由执行机构代理影响环境和机器人的身体。这个控制回路用于机器人来处理紧急情况或意外变化的环境。

Perception-Action代理内部的常规循环、过滤和代理,STM和世界媒体峰会。这个循环完成常规任务WMS是定义良好的。机器人从WMS获得任务相关的信息并将这些信息发送给执行机构通过过滤和代理。执行机构是由接收到的信息来完成任务。常规循环还包括反应循环避免意想不到的环境的变化。

审议循环用于机器人通过建模学习新的行为或技能,知识耦合,等等,和完成新任务或选择使用推理行为来完成任务,决策,等等。CEA是中央组件在这个循环。它检索存储知识的中心思想,从STM和WMS接收环境信息,并使用国税局评估现状作出决定或建立模型的感觉信息。决定时,任务相关信息发送到WMS系统将使用常规循环来完成这个任务。审议循环涉及反应循环和常规循环。我们的系统在很大程度上是基于协商的循环。

5显示树的工作循环之间的关系。

3.4.9。学习阶段

在学习阶段,如图6,直接督导下的收集信息从编码器使用PA和将感官信息发送到东航。CEA获得原始ISOMAP算法和修改后的ISOMAP算法从中心思想和计算运动模型和知识模型。使用RMS,直接督导下的标记行为模型建立在prelearned语义知识和存储模型的中心思想。

工作循环可以显示如图7

3.4.10。一代舞台

在生成阶段,如图8鉴于语音命令,直接督导下的收集使用PA的语音信息,并发送语音信息通过STM CEA。通过分析语音命令,CEA与指定参数生成对应的操作。从中心思想获得所需的行为模式是通过搜索RMS。获得的行为模式,东航计划根据运动目标并发送WMS运动信息。WMS存储任务相关信息和发送控制命令到AA执行动作。

工作循环可以显示如图9

4所示。实验结果

一个人形机器人,名叫直接督导下,用于验证提出的系统(如图10)。直接督导下的是一个固定气动驱动的人形机器人,它有七个自由度(自由度)每个部门(包括自由(开启和关闭)终端执行器)。在这个系统中,我们只使用直接督导下的权利证明所需的运动轨迹的写作和写数字。笔总是抓住使用末端执行器,我们只使用六自由度的直接督导下的右手臂。两个摄像头安装在机器人用于直接督导下的观察环境,我们开发了一个OpenCV-based程序来捕获和处理从摄像机获取的图像。个人电脑,1 GHz CPU,用于控制直接督导下的手臂,一台个人电脑,2.4 GHz CPU,用于处理图像,和一台笔记本电脑,2.4 GHz CPU,用于存储语义知识模型和运动轨迹模型。

直接督导下显示如何写信通过手动将其右臂如图12。图11显示使用的字母示威。的拓扑写信在笛卡尔空间的运动也一样形状的字母。

收集到的数据投影到二维平面上使用原始ISOMAP算法和修改后的ISOMAP算法。图13显示了使用原ISOMAP算法,获得模型和图14显示模型使用修改后的ISOMAP算法获得的。

在实际应用中,为了使用降维结果的识别部分,图像二维平面上的扩张。

在图13降维结果显示形状和拓扑分布的抽样关节角的示威活动的潜在空间。从这个图中,形状和拓扑数据的分布类似于真正的字母在纸上和末端执行器的运动在笛卡尔空间写信。在这里有必要强调不使用运动学模型,计算末端执行器的位置在笛卡尔空间中使用关节角,降维结果仍然可以近似描述的字母在纸上。

在图14,运动模型中表示的空间。这些模型使用修改后的ISOMAP算法。从实验结果,我们可以发现两个模型使用这个算法的特性。 ( 1 ) 每一个轨迹与本身不重叠; ( 2 ) 每个轨迹,使用修改ISOMAP是自动生成的,总是从一侧开始,终止于另一方。第二个功能是保证邻居的定义的算法。直观地说,因为邻居邻居被定义为时间,时间距离的第一点和最后一点是最大的距离矩阵。因此,该算法总是把起点和终点两图的两端。

通过识别、知识模型图13使用Tesseract-OCR与pre-learned公认的数字。

在实际应用程序中,图的照片13应该是预处理Tesseract-OCR为了兼容。有几个的预处理步骤。(1)照片我是旋转0度,结果是i_1照片。(2)照片我旋转90度,结果是i_2照片。(3)照片我旋转180度,结果是i_3照片。(4)照片我旋转270度,结果是i_4照片。(5)照片我是水平方向,结果是i_5照片。(6)图片i_5旋转90度,结果是i_6照片。(7)图片i_5旋转180度,结果是i_7照片。(8)图片i_5旋转270度,结果是i_8照片。

获得八使用Tesseract-OCR图片都是公认的。如果识别结果中包含预定义的白名单: { 0 , 1 , , 9 } ,它被接受。

如果确认结果 ( 6 ) ( 9 ) ,它需要进一步的处理。我们的方法是确定写作的起点 ( 6 ) ( 9 ) 。如果出发点是图像的边缘附近 ( 6 ) ;否则,它是 ( 9 )

识别结果,标签行为模型建立。图15是模型的一个例子。

从人类接到一个命令,直接督导下的分析命令和命令转换成指定的动作与参数:写(六)如图16。从标记获得所需的运动模型是行为模型和直接督导下的执行动作。

17显示器上的数字直接督导下写的论文。

5。讨论

在本文中,我们提出了一个框架,用于机器人学习运动模型和语义知识模型同时只有一个数据集的示威活动是用于学习阶段。

在当前的模仿学习框架,机器人的运动学习一直强调学习完成一些有趣的任务。

一些研究人员正在研究将从认知科学概念和思想纳入机器人研究。一个典型的应用程序使用认知体系结构来实现机器人控制的认知过程和认知控制回路和学习(46]。

如果我们考虑整个机器学习框架层次架构,紧急的问题是,似乎有差距之间存在认知体系结构和运动学习的利用率。正如我们所知,推理和认知架构的规划往往是象征性的方式实现,使用传统的人工智能(AI)方法。因此,如何连接符号表征和数学模型运动模型?

在我们的论文中,提出了一个框架,这是基于自然语言处理的连接,与合适的行为名称标签运动模型,分析行为的认知体系结构中的命令名称。在这篇文章中,我们进一步提出训练机器人学习语义(或符号)知识通过使用相同的数据集的自动演示,提高我们提出的框架。

正如我们所知,当人类看到的,听着,感觉其他人类的行为,我们可以与我们所看到的,听着,和感觉我们的学习过程,情景和语义知识。框架提出了人类日常认知的大脑工作的启发。

6。未来研究和结论

为应用程序的“写作”,使用相同的方法在本文(降维使用原始的和修改ISOMAP算法和一个字母识别技术)机器人可以学习如何写字母和相关的运动模型和知识模型相应的语义知识模型。

在其他领域,例如,“音乐”,机器人可以学习如何演奏音乐(打鼓,弹吉他,弹钢琴)和关联播放音乐所需的运动模型相应的语义知识。ISOMAP算法不可能完成这样的学习在这些领域。然而,读者可以发现击打鼓的节奏在对应的节奏上下移动的手。如果节奏击打鼓的声音,可以提炼出的模板和节奏移动手可以提取的知识模型,该框架还可以用于机器人学习演奏音乐的动作,这些动作的语义自动同时。

这个框架的应用程序的关键是找到运动的特性,在通信行为的内在特性密切相关的语义模型。

提出了一个框架,用于学习机器人的运动模型和语义知识模型同时使用一个数据集的示威活动。修改ISOMAP算法用于机器人从示威游行中提取语义信息。认知体系结构的实现是与几个扩展当前的算法。语义分析的命令也在这个框架中实现。人形的实验,实验结果证明了该框架的有效性。

引用

  1. r·A·布鲁克斯,”一个健壮的分层的移动机器人的控制系统,”IEEE机器人与自动化》杂志上,卷2,不。1、5、1986页。视图:谷歌学术搜索
  2. r·布鲁克斯,“如何建立完整的生物,而不是孤立的认知模拟器”架构情报,k . VanLehn Ed,页225 - 239,劳伦斯Erlbaum Associates纽约,纽约,美国,1991年。视图:谷歌学术搜索
  3. a·斯洛曼和j . Chappell“机器人altricial-precocial光谱,”《人工智能国际联合会议(IJCA ' 05)英国爱丁堡,页1187 - 1192,,2005。视图:谷歌学术搜索
  4. a . Stoytchev”对学习对象的绑定功能:behavior-grounded方法,”学报AAAI研讨会上发展机器人技术,研讨会,2005页。视图:谷歌学术搜索
  5. Schaal,“从示范,学习”先进的神经信息处理系统m . j . m . c .莫泽尔和t . Petsche Eds。,pp。1040- - - - - -1046,The MIT Press, Cambridge, Mass, USA, 1997.视图:谷歌学术搜索
  6. m .中山教授”,形成高速运动模式的机械手臂的审判,“交易,仪表和控制工程师学会,19卷,第712 - 706页,1978年。视图:谷歌学术搜索
  7. 艾特克森c·j·麦金太尔,“机器人轨迹通过实践学习,”机器人和自动化学报IEEE会议上,页1737 - 1742年,旧金山,加州,美国,1986年。视图:谷歌学术搜索
  8. b . d . Argall s Chernova m·维罗索和b·布朗宁的调查机器人学习示范,“机器人和自治系统卷,57号5,469 - 483年,2009页。视图:出版商的网站|谷歌学术搜索
  9. 答:台球,“模仿学习运动技能:一个生物机器人模型的启发,“控制论和系统,32卷,不。1 - 2、155 - 193年,2001页。视图:谷歌学术搜索
  10. f s Calinon京特·a .桌球”学习、代表和推广一个任务在一个人形机器人,”IEEE系统,人,控制论,37卷,不。2、286 - 298年,2007页。视图:出版商的网站|谷歌学术搜索
  11. a . Ijspeert j .录像,s . Schaal“学习吸引子景观学习运动原语,”先进的神经信息处理系统美国贝克,美国杜伦,k . Obermayer Eds。,卷。15,pp。1547- - - - - -1554, The MIT Press, 2003.视图:谷歌学术搜索
  12. r . Dillmann o . Rogalla m . Ehrenmann r·松奈和m . Bordegoni”学习机器人的行为和技能基于人类示范和建议:机器学习的范例,”第九届国际研讨会的机器人研究学报》(ISRR ' 99)雪鸟,页229 - 238年,犹他州,美国,1999年10月。视图:谷歌学术搜索
  13. y Kuniyoshi、m .稻叶型和h .井上”学习通过观察:从视觉中提取可重用的任务知识观察人类的表现,”IEEE机器人和自动化,10卷,不。6,799 - 822年,1994页。视图:出版商的网站|谷歌学术搜索
  14. t . Inamura m .稻叶型和h .井上,“收购概率行为决策模型基于交互式教学方法,”第九届国际会议上先进的机器人,学报》,第528 - 523页,1999年。视图:谷歌学术搜索
  15. r . m . Voyles和p·k·斯拉”,多代理系统编程机器人由人类示范,“集成计算机辅助工程,8卷,不。1,59 - 67年,2001页。视图:谷歌学术搜索
  16. a . j . Ijspeert j .录像,s . Schaal”运动仿人形机器人非线性动力系统,”IEEE机器人与自动化国际会议上华盛顿特区,页1398 - 1403,美国2002年5月。视图:谷歌学术搜索
  17. Jolliffe,主成分分析施普林格,纽约,纽约,美国,1986年。
  18. d·j·巴塞洛缪”因素分析的基础。”生物统计学,卷71,不。2、221 - 232年,1984页。视图:出版商的网站|谷歌学术搜索
  19. j·b·特南鲍姆诉de Silva, j·c·朗格弗德”全球几何非线性降维,框架”科学,卷290,不。5500年,第2323 - 2319页,2000年。视图:出版商的网站|谷歌学术搜索
  20. s . t . Roweis l . k .扫罗,“通过局部线性嵌入非线性降维,”科学,卷290,不。5500年,第2326 - 2323页,2000年。视图:出版商的网站|谷歌学术搜索
  21. c·k·威廉姆斯,”内核PCA和指标多维标度之间的联系,“机器学习,46卷,不。1 - 3,11-19,2002页。视图:出版商的网站|谷歌学术搜索
  22. c .主教模式识别和机器学习施普林格,纽约,纽约,美国,2006年。
  23. c·拉斯穆森“高斯过程在机器学习,”先进的机器学习讲座,页63 - 71年,麻省理工学院出版社,剑桥,质量,美国,2004年。视图:谷歌学术搜索
  24. a·w·c·g·艾特克森称,摩尔,s . Schaal“局部加权学习”,人工智能审查,11卷,不。1 - 5、11 - 73、1997页。视图:谷歌学术搜索
  25. Schaal Vijayakumar和美国“局部加权投影回归:一个O (n)实时增量学习算法在高维空间中,”学报》第17届国际会议上机器学习,页288 - 293,斯坦福,加州,美国,2000年。视图:谷歌学术搜索
  26. Chernova和m维罗索,“在意政策学习使用高斯混合模型,从示范”第六届国际联合会议上自治代理诉讼和多重代理系统,233年,页2007。视图:出版商的网站|谷歌学术搜索
  27. h . Abdi“神经网络入门”,《生物系统,卷2,不。3、247 - 283年,1994页。视图:出版商的网站|谷歌学术搜索
  28. r·萨顿和a . Barto强化学习:介绍,麻省理工学院出版社,1998年。
  29. 美国Vijayakumar j·彼得斯,s . Schaal“仿人机器人技术,强化学习”IEEE-RAS人形Robotis国际会议的程序德国卡尔斯鲁厄,页1 - 20,2003。视图:谷歌学术搜索
  30. p·代尔和s . r . McReynolds最优控制的计算和理论、学术出版社,1970年。
  31. e . Theodorou j . Buchli, s . Schaal”强化学习运动技能的高维度:路径积分的方法,”IEEE机器人与自动化国际会议的举行(“国际机器人与自动化会议”10),第2403 - 2397页,2010年。视图:出版商的网站|谷歌学术搜索
  32. e·A·Theodorou j . Buchli, s . Schaal“广义路径积分控制的强化学习方法,“机器学习的研究》杂志上11卷,第3181 - 3137页,2010年。视图:谷歌学术搜索
  33. h . Tan和k .河村建夫”计算框架集成机器人人类探索和示范模仿学习,”《IEEE国际会议系统,人与控制论安克雷奇,页2501 - 2506年,阿拉斯加,美国,2011年。视图:谷歌学术搜索
  34. o·c·詹金斯和m . j . Matarić”时空扩展isomap非线性降维,”21国际会议的程序机器学习(ICML ' 04)2004年7月,p . 56岁。视图:谷歌学术搜索
  35. c . m .主教,m . Svensen和c k·威廉姆斯,“GTM:生成地形测绘,”神经计算,10卷,不。1,第234 - 215页,1998。视图:谷歌学术搜索
  36. Calinon和桌球,“概率编程通过演示框架处理约束在关节空间和工作空间,”《IEEE国际会议上智能机器人和系统2008年9月,页367 - 372。视图:出版商的网站|谷歌学术搜索
  37. d·格兰姆斯r . Chalodhorn r . Rao,“动态仿人形机器人通过非参数概率推理,”机器人的程序:科学和系统(RSS 06年),麻省理工学院出版社,2006年。视图:谷歌学术搜索
  38. a .铁城k . Grochow a . Hertzmann r . Rao,”高斯过程Cca的图像合成和机器人模仿,“技术。众议员威斯康辛大学- CSE - tr - 2005 - 06 - 02年,华盛顿大学CSE部门,2005年。视图:谷歌学术搜索
  39. m·施奈德和w . Ertel机器人学习示范与当地高斯过程回归”《IEEE国际会议上智能机器人和系统(——10)2010年10月,页255 - 260。视图:出版商的网站|谷歌学术搜索
  40. e . h . Tan Erdemir, k .河村建夫,Du,“动态运动的势场基于方法的扩展原始与避障算法模仿学习,”《IEEE国际会议上机电一体化和自动化,第530 - 525页,北京,中国,2011。视图:谷歌学术搜索
  41. 问:h . Tan Du, n .吴”的框架认知机器人通过模仿和学习行为与人类互动”《IEEE国际多学科会议上认知方法的大局意识和决策支持新奥尔良,页235 - 238年,洛杉矶,美国,2012年。视图:谷歌学术搜索
  42. 美国j·拉塞尔和p . Norvig人工智能:一种现代方法,Prentice Hall,上台北,美国第3版,2010年版。
  43. k .河村建夫·r·彼得斯II, r .这样et al .,“Multiagent-based认知机器人体系结构及其实现,”国际仿人机器人技术杂志》上1卷,第93 - 65页,2004年。视图:出版商的网站|谷歌学术搜索
  44. k .河村建夫,s·m·戈登,p . Ratanaswasd e . Erdemir和j·f·霍尔”实现仿人机器人的认知控制。”国际仿人机器人技术杂志》上,5卷,不。4、547 - 586年,2008页。视图:出版商的网站|谷歌学术搜索
  45. h·谭”,实现仿人机器人上的模仿学习的框架使用一个认知架构,”人形机器人的未来:研究和应用程序,r·扎伊Ed,页189 - 210,InTech开放获取出版,2012年。视图:谷歌学术搜索
  46. 梁h . Tan和c”概念的认知架构机器人学习行为从机器人援助地区示威,”IEEE工程学报》第33届国际会议在医学和生物学的社会,页1248 - 1262,波士顿,质量,美国,2011年。视图:谷歌学术搜索

版权©2012桓谭等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1867年
下载1969年
引用

相关文章