小gydF4y2Ba 机器人杂志gydF4y2Ba 1687 - 9619gydF4y2Ba 1687 - 9600gydF4y2Ba Hindawi出版公司gydF4y2Ba 505191年gydF4y2Ba 10.1155 / 2012/505191gydF4y2Ba 505191年gydF4y2Ba 研究文章gydF4y2Ba 机器人学习写作gydF4y2Ba 棕褐色gydF4y2Ba 欢gydF4y2Ba 1gydF4y2Ba 杜gydF4y2Ba 钱gydF4y2Ba 2gydF4y2Ba 吴gydF4y2Ba NagydF4y2Ba 3gydF4y2Ba 胡gydF4y2Ba HuoshenggydF4y2Ba 1gydF4y2Ba 电气工程和计算机科学,范德比尔特大学gydF4y2Ba 纳什维尔,TN 37240gydF4y2Ba 美国gydF4y2Ba vanderbilt.edugydF4y2Ba 2gydF4y2Ba 机器人和自动信息系统研究所、南开大学gydF4y2Ba 天津300071gydF4y2Ba 中国gydF4y2Ba nankai.edu.cngydF4y2Ba 3gydF4y2Ba 和技术,研究生院决定东京理工学院gydF4y2Ba 东京152 - 8552gydF4y2Ba 日本gydF4y2Ba titech.ac.jpgydF4y2Ba 2012年gydF4y2Ba 01gydF4y2Ba 07年gydF4y2Ba 2012年gydF4y2Ba 2012年gydF4y2Ba 19gydF4y2Ba 03gydF4y2Ba 2012年gydF4y2Ba 19gydF4y2Ba 06gydF4y2Ba 2012年gydF4y2Ba 2012年gydF4y2Ba 版权©2012桓谭等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

提出了一种通用的方法,来同时学习机器人运动和相应的语义知识。修改ISOMAP算法用于关节角的取样6维向量转换成二维轨迹,写作和所需的运动数据从这ISOMAP-based修改模型。使用该算法,建立知识模型。学习运动和知识模型存储在一个2 d潜在空间。高斯过程(GP)方法用于模型和表示这些模型。实际实验进行一个人形机器人,名叫直接督导下,学习的语义表示和写作的移动号码通过模仿和验证该框架的有效性。这个框架是应用于培训一个人型机器人,名叫直接督导下的。不仅在学习阶段,直接督导下的学习运动的动力学要求写的数字,但也学习数字的语义相关的写作运动从相同的数据集。语音命令,直接督导下的识别相应的运动轨迹生成的单词和写数字。这种模仿学习方法上实现认知架构提供健壮的认知信息处理。gydF4y2Ba

1。介绍gydF4y2Ba

在动态环境中机器人将会像人类行为(gydF4y2Ba 1gydF4y2Ba,gydF4y2Ba 2gydF4y2Ba]。然而,它是非常困难的对机器人开发技能或行为完全从头开始,没有最初的知识。斯洛曼规定的论文,机器人应该学习照顾期和早熟性的行为“出生”后gydF4y2Ba 3gydF4y2Ba]。因此,它是合理的,机器人有一些基本的和简单的初始知识与运动原语(gydF4y2Ba 4gydF4y2Ba),或一些基本的和简单的初始技能探索世界发展新知识和技能生存或完成任务。在这些初步的知识和技能,人类可以教机器人更复杂的行为或技能来完成更复杂的任务。gydF4y2Ba

模仿学习(也称为学习的演示,演示编程)现在认为是一个强大的工具之间的转移技能机器人(尤其是人形机器人)(gydF4y2Ba 5gydF4y2Ba]。与传统teaching-executing模式,机器人只是记录由人类运营商和移动轨迹编程角度和终端执行器沿轨迹,自1970年代以来,研究人员曾试图训练机器人学习简单的运动模式(gydF4y2Ba 6gydF4y2Ba]。艾特克森在1980年代,训练一个倒立摆机器人学习如何平衡在一个直立的位置通过实践gydF4y2Ba 7gydF4y2Ba]。从那以后,许多方法在各领域提出了模仿学习gydF4y2Ba 8gydF4y2Ba]。在2000年代,研究人员发现生物学证据和模型动物的模仿学习gydF4y2Ba 9gydF4y2Ba]。渐渐地,模仿学习被划分为两个部分(gydF4y2Ba 10gydF4y2Ba]。一个是培训学习机器人的动力学运动(gydF4y2Ba 11gydF4y2Ba),另一个是训练机器人学习行为的原语序列(gydF4y2Ba 12gydF4y2Ba]。gydF4y2Ba

本文的动机是要找到一个方法,机器人可以同时学习运动模型和语义知识在当前流行的模仿学习框架。在实验部分,人形机器人,名叫直接督导下,训练学写数字,从人类的老师。gydF4y2Ba

本文的其余部分组织如下。部分gydF4y2Ba 2gydF4y2Ba介绍了当前相关工作;部分gydF4y2Ba 3gydF4y2Ba解释了系统框架,这个框架中使用的算法;部分gydF4y2Ba 4gydF4y2Ba解释了实现认知体系结构;部分gydF4y2Ba 5gydF4y2Ba解释了实验设置和实验结果;部分gydF4y2Ba 6gydF4y2Ba讨论了实验结果和未来工作;第七节总结本文的工作。gydF4y2Ba

2。相关工作和动机gydF4y2Ba 2.1。运动学习gydF4y2Ba

示威运动是由真人教师或其他机器人和机器人学生试图记录示威。有许多不同种类的示威运动的方法:通过观察来学习(gydF4y2Ba 13gydF4y2Ba从操纵杆操作),gydF4y2Ba 14gydF4y2Ba),通过手动移动机器人的手臂gydF4y2Ba 10gydF4y2Ba),从人体上的传感器(gydF4y2Ba 15gydF4y2Ba,gydF4y2Ba 16gydF4y2Ba]。gydF4y2Ba

有时记录数据的维数降低预测的数据从高维数据空间到低维数据空间,命名为潜在的空间。相应地,需要重建的数据从低维数据空间到高维数据空间。“降维”和“重建”并不总是需要在当前的模仿学习研究。在某些情况下的动态演示需要或几个内在相关性分析需要进行分析,“降维”和“重建”可以应用。提出了许多降维方法提取数据的特征,如主成分分析(gydF4y2Ba 17gydF4y2Ba),因子分析(gydF4y2Ba 18gydF4y2Ba],ISOMAP [gydF4y2Ba 19gydF4y2Ba),局部线性嵌入(gydF4y2Ba 20.gydF4y2Ba],和MDS [gydF4y2Ba 21gydF4y2Ba]。使用降维技术的一个典型的例子是(gydF4y2Ba 10gydF4y2Ba],Calinon和桌球提出一个方法来利用降维方法来建立一个强耦合关系潜在的空间和数据空间中的数据,并使用数据分布的潜在空间,以确保生成的行为也有类似的示威活动的内在动力和约束。gydF4y2Ba

学习运动模型存储在内存(数据库)的机器人,机器人商店学到的知识或技能。线性的全球模型高强)[gydF4y2Ba 22gydF4y2Ba),高斯过程(GP) [gydF4y2Ba 23gydF4y2Ba),局部加权回归(轻水反应堆)[gydF4y2Ba 24gydF4y2Ba),局部加权回归(LWPR)[投影gydF4y2Ba 25gydF4y2Ba),主曲线(PC),高斯混合模型(gydF4y2Ba 26gydF4y2Ba)和人工神经网络(ANN) [gydF4y2Ba 27gydF4y2Ba)用于代表记忆的模型。gydF4y2Ba

2.2。语义知识学习gydF4y2Ba

机器人需要理解学习运动,它意味着机器人需要把这些运动模型和相应的语义知识联系起来。这通常是通过标签运动模型与语义名称或相关的语义描述的任务。gydF4y2Ba

2.3。一代gydF4y2Ba

给定一个类似和不同情况(机器人需要完成一个相同类型的任务具有不同参数),一个命令,或外部触发(信号、图像等),需要计划行为和需要运动模型是通过搜索相应的检索行为名称在“标记行为模型”。gydF4y2Ba

如果需要,动作的参数被修改以适应相似但略有不同的情况。生成的行为被描述为与指定参数。动态运动原语(纯数字)gydF4y2Ba 16gydF4y2Ba)被广泛用于生成运动动力学相似的示威活动,可以实现不同的目标。Calinon等人提出了一个方法来减少生成的运动和学习之间的加权距离运动在原始数据中的潜在的空间和空间(gydF4y2Ba 10gydF4y2Ba]。彼得斯使用强化学习(gydF4y2Ba 28gydF4y2Ba]方法适应机器人运动模型的参数来生成类似的动作相似但略有不同情况(gydF4y2Ba 29日gydF4y2Ba]。Theodorou应用最优控制(gydF4y2Ba 30.gydF4y2Ba在强化学习环境学习机器人的运动模型示威和使用DMP(生成类似的动作gydF4y2Ba 31日gydF4y2Ba,gydF4y2Ba 32gydF4y2Ba]。gydF4y2Ba

如果数据存储在一个潜在的空间中,生成的轨迹的运动需要从潜在的空间投影到原始数据空间,例如,关节空间。gydF4y2Ba

2.4。动机gydF4y2Ba

机器人需要学习的运动行为和行为的语义在前两个阶段所描述的部分。的一个学习阶段仍像一个编程过程中,行为的名称由真人教师手动分配给运动模型。gydF4y2Ba

机器人的一个重要问题是可以学习的运动游行和使用学习运动相似但略有不同的情况,但是机器人如何使用这些学到的知识以外的其他地区执行动作,例如,识别、语义理解、推理和规划,特别是在写作,学习运动应该与语义含义的字母,数字或符号,和机器人使用学习运动可能会发现自己的更高层次的语义含义。当我们看到有人演示如何一个角色,我们可以直接想到这个角色的意义在我们的大脑中,当我们编写一个字符的方法在我们的大脑,我们可以评估结果与真实的性格。游戏可能是熟悉我们大多数人,有人写字母我们使用手指和我们试图猜出他/她是写作。人类,显然,我们可以使用遥感信息在构造运动的轨迹的手指在我们的大脑,并尝试比较它与我们的学习知识的信件。摘要机器人使用编码器感觉运动关节的关节空间和试图匹配的感觉运动关节和学到的知识这些数字。然后,真人教师不需要教的是数量和机器人,机器人能自动与写信的学习运动到相应的字母。gydF4y2Ba

3所示。系统设计gydF4y2Ba

在本文中,我们提出了一个通用框架,使用机器人可以同时完成上述两个学习阶段,如图所示gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

提出了模仿学习框架。gydF4y2Ba

从图gydF4y2Ba 1gydF4y2Ba,这个提议框架的贡献是,运动模型和知识模型的信息从一个单一来源。机器人使用的信息学习的示威运动模型和知识模型。本文直接督导下学习如何编写和自动关联的运动写号码语义知识模型。gydF4y2Ba

3.1。示范gydF4y2Ba

示威是由人类的老师。本文演示显示手动移动直接督导下的右手臂。gydF4y2Ba

记录的数据gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba {gydF4y2Ba θgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba }gydF4y2Ba ,这是一个gydF4y2Ba NgydF4y2Ba ×gydF4y2Ba 7gydF4y2Ba 矩阵。gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 记录六关节的角度直接督导下的右手臂,和gydF4y2Ba tgydF4y2Ba 是时间信息。gydF4y2Ba

3.2。特征提取gydF4y2Ba

对于大多数情况,机器人需要学习两个特性:运动和语义。提取的信息存储在相应的模型。gydF4y2Ba

3.2.1之上。运动模式学习gydF4y2Ba

如引言部分中所述,有很多方法来表示数据的运动。在本文中,我们使用一个修改ISOMAP算法(gydF4y2Ba 33gydF4y2Ba)项目6-dimensional数据空间到二维空间。著作的运动在三维笛卡尔空间是由6个关节。然而,作品的特点是二维的,因为字符写在一个二维平面。所以它是合理的使用功能为其他使用一个二维平面。使用这个修改的额外动机ISOMAP算法可视化研究人员的抽样数据在二维平面上轻易找到运动的特性,并使二维平面上的轨迹没有重叠部分内部本身或十字路口内本身。使用该算法,空间和时间的特征样本数据可以在一个二维可视化。gydF4y2Ba

我们想要提到降维并不是所有应用程序所必需的。摘要降维提取方便识别的特性和使用特性。gydF4y2Ba

指定的原始ISOMAP算法算法如下。gydF4y2Ba

示例演示轨迹上的点:gydF4y2Ba (1)gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba {gydF4y2Ba θgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba }gydF4y2Ba 。gydF4y2Ba

计算测地线距离矩阵DgydF4y2Ba女士gydF4y2Ba:gydF4y2Ba (2)gydF4y2Ba DgydF4y2Ba GsgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 为gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba 为gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 为gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba 为gydF4y2Ba ≤gydF4y2Ba dgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 否则gydF4y2Ba DgydF4y2Ba 女士gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 最小值gydF4y2Ba (gydF4y2Ba DgydF4y2Ba GsgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba DgydF4y2Ba GsgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba )gydF4y2Ba +gydF4y2Ba DgydF4y2Ba GsgydF4y2Ba (gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba DgydF4y2Ba 女士gydF4y2Ba 迭代计算,直到值元素的融合。gydF4y2Ba

在原始ISOMAP算法,gydF4y2Ba ∥gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba ∥gydF4y2Ba 被定义为一个欧氏空间两点间的距离:gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba 和gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba 。在我们修改ISOMAP算法,gydF4y2Ba ∥gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba ∥gydF4y2Ba 被定义为两个点之间的时间距离:gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba 和gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba 。gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 用于记录六个关节的角度:gydF4y2Ba θgydF4y2Ba vgydF4y2Ba =gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba vgydF4y2Ba NgydF4y2Ba 。gydF4y2Ba

计算内积,gydF4y2Ba (3)gydF4y2Ba τgydF4y2Ba (gydF4y2Ba DgydF4y2Ba 女士gydF4y2Ba )gydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba HgydF4y2Ba 年代gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba DgydF4y2Ba 女士gydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba HgydF4y2Ba =gydF4y2Ba δgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba /gydF4y2Ba NgydF4y2Ba )gydF4y2Ba (gydF4y2Ba δgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 当gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba δgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 当gydF4y2Ba 我gydF4y2Ba ≠gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

计算的新坐标采样点的空间gydF4y2Ba XgydF4y2Ba :gydF4y2Ba (4)gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba (gydF4y2Ba λgydF4y2Ba 年代gydF4y2Ba 1gydF4y2Ba αgydF4y2Ba 年代gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba 年代gydF4y2Ba 2gydF4y2Ba αgydF4y2Ba 年代gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba λgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba λgydF4y2Ba 2gydF4y2Ba 是最大的两个特征值的gydF4y2Ba τgydF4y2Ba (gydF4y2Ba DgydF4y2Ba 米gydF4y2Ba )gydF4y2Ba 有两个相应的特征向量:gydF4y2Ba αgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba αgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

ISOMAP修改方法,它既反映了采样数据点之间的时间和空间关系在二维平面,用于训练机器人学习写字母在一个二维平面上的运动(gydF4y2Ba 33gydF4y2Ba]。gydF4y2Ba

原ISOMAP MDS的延伸,它构造矩阵通过连接采样点的距离的邻居。原ISOMAP用于描述邻居采样点之间的距离。为了找到采样轨迹的时间信息,在我们的算法的邻居被严格定义为时间的邻居。空间关系是没有定义但ISOMAP算法计算了这个修改。修改设计gydF4y2Ba (5)gydF4y2Ba DgydF4y2Ba GtgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 为gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba vgydF4y2Ba jgydF4y2Ba 为gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba |gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba tgydF4y2Ba jgydF4y2Ba |gydF4y2Ba ≤gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 否则gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba 是时间阈值。在(gydF4y2Ba 1gydF4y2Ba),gydF4y2Ba dgydF4y2Ba 空间的阈值。gydF4y2Ba

使用这种方法,gydF4y2Ba DgydF4y2Ba GtgydF4y2Ba 和相应的gydF4y2Ba τgydF4y2Ba (gydF4y2Ba DgydF4y2Ba 太gydF4y2Ba )gydF4y2Ba 计算。采样点的空间表示为gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba =gydF4y2Ba (gydF4y2Ba λgydF4y2Ba tgydF4y2Ba 1gydF4y2Ba αgydF4y2Ba tgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba λgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba αgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba TgydF4y2Ba ,在那里gydF4y2Ba λgydF4y2Ba tgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba λgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba 是最大的两个特征值的gydF4y2Ba τgydF4y2Ba (gydF4y2Ba DgydF4y2Ba 太gydF4y2Ba )gydF4y2Ba 有两个相应的特征向量:gydF4y2Ba αgydF4y2Ba tgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba αgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

2004年詹金斯和Matarić提出时空ISOMAP算法(gydF4y2Ba 34gydF4y2Ba]。他们的方法是全面和详细定义了类型的邻居。为不同的邻居,建筑的距离矩阵的方法是不同的。在我们的方法中,我们简单地添加时间限制建设距离矩阵和严格假定所有的距离应该是时间相关的。这种方法是简单而方便计算。詹金斯的方法和我们的方法都是有效的描述的时空特征的采样数据点。gydF4y2Ba

在当前的模仿学习,行为是特殊的机器人运动在特定任务相关的情况。这意味着我们可以假定的抽样数据从示威行为总是躺在同样的歧管在数据空间。预测结果的数据潜在的空间数据的空间必须在同一歧管作为示范。因此,它是合理的假设存在一个数据空间中的数据之间的关系和潜在的空间,它可以被描述为一个函数:gydF4y2Ba (6)gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 是一个潜在的空间和数据点吗gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba 是一种相应的原始数据空间中的数据点。gydF4y2Ba

因此,gydF4y2Ba fgydF4y2Ba (gydF4y2Ba XgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba )gydF4y2Ba 设计作为一个广义线性回归模型:gydF4y2Ba (7)gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba WgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 是由gydF4y2Ba RgydF4y2Ba 基础功能:gydF4y2Ba (8)gydF4y2Ba ΦgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba - - - - - -gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba - - - - - -gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba ΣgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 是第i个基函数的中心和gydF4y2Ba ΣgydF4y2Ba 我gydF4y2Ba 是带宽。均匀分布在中心的空间和带宽是专为基函数的潜在空间。gydF4y2Ba

WgydF4y2Ba 是一个gydF4y2Ba (gydF4y2Ba DgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba *gydF4y2Ba RgydF4y2Ba 矩阵哪些项目潜在的数据空间数据的空间。然而,主教核实,基函数的数量通常必须成倍增长与输入空间的维数gydF4y2Ba 35gydF4y2Ba]。这意味着利用降维计算和存储最终到达一定值随着维度的数目增加。节gydF4y2Ba 4gydF4y2Ba使用不同数量的基函数,比较的结果。gydF4y2Ba

假设投影矩阵gydF4y2Ba WgydF4y2Ba 是已知的,概率分布的空间点数据gydF4y2Ba (9)gydF4y2Ba pgydF4y2Ba (gydF4y2Ba θgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba )gydF4y2Ba =gydF4y2Ba (gydF4y2Ba βgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba DgydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba - - - - - -gydF4y2Ba βgydF4y2Ba 2gydF4y2Ba 为gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

日志的可能性的概率分布的点数据空间中每个点的分布概率的乘法:gydF4y2Ba (10)gydF4y2Ba lgydF4y2Ba (gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba )gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba lngydF4y2Ba ⁡gydF4y2Ba ⁡gydF4y2Ba pgydF4y2Ba (gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

最大化对数似然函数可以通过对数似然函数对区分gydF4y2Ba WgydF4y2Ba :gydF4y2Ba (11)gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba WgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba

重写(gydF4y2Ba 11gydF4y2Ba):gydF4y2Ba (12)gydF4y2Ba WgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba θgydF4y2Ba 我gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba 。gydF4y2Ba

投影矩阵gydF4y2Ba WgydF4y2Ba 可以计算出(gydF4y2Ba 11gydF4y2Ba),gydF4y2Ba (13)gydF4y2Ba WgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba θgydF4y2Ba 我gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba *gydF4y2Ba (gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba )gydF4y2Ba __gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba (gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba )gydF4y2Ba __gydF4y2Ba 是Moore-Penrosepseudo逆矩阵的gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba 。gydF4y2Ba

采样轨迹从6-dimensional预计数据空间到二维空间使用原始ISOMAP算法和修改ISOMAP算法在“特征提取”块中。gydF4y2Ba

在潜在的空间,我们有数据点集gydF4y2Ba XgydF4y2Ba ,这是一个二维空间。如前面所述,在“降维”,时间信息只用于计算邻域图。但在“行为”规划阶段,应结合到模型和时间信息设置为查询点。gydF4y2Ba

数据点的潜在空间遵循(gydF4y2Ba 14gydF4y2Ba):gydF4y2Ba (14)gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba fgydF4y2Ba (gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba NgydF4y2Ba 。gydF4y2Ba

使用高斯过程(gydF4y2Ba 22gydF4y2Ba),我们可以得到一个内核基于方法的模型演示的潜在空间。二维平面上的点被描述为gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba {gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba 我gydF4y2Ba }gydF4y2Ba ,一个GP模型用于一维的空间。医生已广泛应用(gydF4y2Ba 36gydF4y2Ba- - - - - -gydF4y2Ba 39gydF4y2Ba]代表采样数据点,因为它的健壮性和非参数特征。gydF4y2Ba

假设gydF4y2Ba NgydF4y2Ba 二维数据点在二维潜在空间概率分布如下:gydF4y2Ba (15)gydF4y2Ba pgydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba )gydF4y2Ba =gydF4y2Ba NgydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba ,gydF4y2Ba βgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba →gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba →gydF4y2Ba )gydF4y2Ba =gydF4y2Ba gydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba →gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba →gydF4y2Ba ,gydF4y2Ba βgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba 以计算在第一维度为例:gydF4y2Ba pgydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba →gydF4y2Ba )gydF4y2Ba =gydF4y2Ba gydF4y2Ba (gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba →gydF4y2Ba ∣gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba CgydF4y2Ba NgydF4y2Ba )gydF4y2Ba ,协方差矩阵gydF4y2Ba CgydF4y2Ba (gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba )gydF4y2Ba =gydF4y2Ba kgydF4y2Ba (gydF4y2Ba tgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba tgydF4y2Ba 米gydF4y2Ba )gydF4y2Ba +gydF4y2Ba βgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba δgydF4y2Ba ngydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba zgydF4y2Ba →gydF4y2Ba 是一个向量的目标价值。gydF4y2Ba

kgydF4y2Ba (gydF4y2Ba tgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba tgydF4y2Ba 米gydF4y2Ba )gydF4y2Ba 是内核函数。通常情况下,gydF4y2Ba (16)gydF4y2Ba kgydF4y2Ba (gydF4y2Ba tgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba tgydF4y2Ba 米gydF4y2Ba )gydF4y2Ba =gydF4y2Ba θgydF4y2Ba 0gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba {gydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 为gydF4y2Ba tgydF4y2Ba ngydF4y2Ba - - - - - -gydF4y2Ba tgydF4y2Ba 米gydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba }gydF4y2Ba +gydF4y2Ba θgydF4y2Ba 2gydF4y2Ba +gydF4y2Ba θgydF4y2Ba 3gydF4y2Ba tgydF4y2Ba ngydF4y2Ba TgydF4y2Ba tgydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba xgydF4y2Ba ngydF4y2Ba 被认为是时间一步演示。gydF4y2Ba

在“一代”阶段,一个新的时间步gydF4y2Ba tgydF4y2Ba 询盘gydF4y2Ba 是作为一个查询点,医生是用来计算相应的数据值gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba 。gydF4y2Ba (17)gydF4y2Ba pgydF4y2Ba (gydF4y2Ba {gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba ,gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba }gydF4y2Ba )gydF4y2Ba =gydF4y2Ba NgydF4y2Ba (gydF4y2Ba {gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba ,gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba }gydF4y2Ba ∣gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba CgydF4y2Ba NgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

协方差矩阵:gydF4y2Ba (18)gydF4y2Ba CgydF4y2Ba NgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba (gydF4y2Ba CgydF4y2Ba NgydF4y2Ba kgydF4y2Ba →gydF4y2Ba kgydF4y2Ba TgydF4y2Ba →gydF4y2Ba cgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba kgydF4y2Ba =gydF4y2Ba kgydF4y2Ba (gydF4y2Ba tgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba tgydF4y2Ba 询盘gydF4y2Ba )gydF4y2Ba 为gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba NgydF4y2Ba 。gydF4y2Ba

使用贝叶斯方法,gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba 计算使用(gydF4y2Ba 19gydF4y2Ba)gydF4y2Ba (19)gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba =gydF4y2Ba kgydF4y2Ba TgydF4y2Ba →gydF4y2Ba CgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ⟶gydF4y2Ba 。gydF4y2Ba

使用相同的方法,gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba 可以计算使用(gydF4y2Ba 20.gydF4y2Ba):gydF4y2Ba (20)gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba 询盘gydF4y2Ba =gydF4y2Ba kgydF4y2Ba TgydF4y2Ba →gydF4y2Ba CgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba zgydF4y2Ba ′gydF4y2Ba ′gydF4y2Ba →gydF4y2Ba 。gydF4y2Ba

在本部分中,输入一个数据集包括6-dimensional关节空间采样数据点,轨迹和输出是一个GP模型的潜在空间。给定一个查询点(通常一个时间点),该模型的输出,这是(gydF4y2Ba 19gydF4y2Ba)和(gydF4y2Ba 20.gydF4y2Ba),对应的数据点的轨迹。gydF4y2Ba

使用下面的方程,我们可以从低维潜在项目的数据空间到原始数据空间:gydF4y2Ba (21)gydF4y2Ba θgydF4y2Ba vgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba WgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

这些数据将用于机器人学习如何生成所需的运动轨迹。在机器人模仿学习,机器人需要符合记录运动轨迹与模型用于发电机(gydF4y2Ba 16gydF4y2Ba,gydF4y2Ba 40gydF4y2Ba]。拟合过程被认为是学习模式发生器。gydF4y2Ba

在我们的系统中,我们使用动态运动原语(DMP) [gydF4y2Ba 11gydF4y2Ba),提出Ijspeert,模式发生器。gydF4y2Ba

DMP被配置为gydF4y2Ba (22)gydF4y2Ba τgydF4y2Ba zgydF4y2Ba ˙gydF4y2Ba =gydF4y2Ba αgydF4y2Ba zgydF4y2Ba (gydF4y2Ba βgydF4y2Ba zgydF4y2Ba (gydF4y2Ba ggydF4y2Ba - - - - - -gydF4y2Ba ygydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba zgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba τgydF4y2Ba ygydF4y2Ba ˙gydF4y2Ba =gydF4y2Ba zgydF4y2Ba +gydF4y2Ba fgydF4y2Ba 。gydF4y2Ba

ggydF4y2Ba 是我们的目标状态,gydF4y2Ba zgydF4y2Ba 内部状态,gydF4y2Ba fgydF4y2Ba RFWR模型,计算记录的动态演示和保证收敛的新生成的轨迹,gydF4y2Ba ygydF4y2Ba DMP微分方程生成的位置,然后呢gydF4y2Ba ygydF4y2Ba ˙gydF4y2Ba 是生成的相应速度。gydF4y2Ba αgydF4y2Ba zgydF4y2Ba ,gydF4y2Ba βgydF4y2Ba zgydF4y2Ba ,gydF4y2Ba τgydF4y2Ba 这个方程的常数。gydF4y2Ba

拟合(或学习)是训练机器人学习模型:gydF4y2Ba (23)gydF4y2Ba fgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΨgydF4y2Ba 我gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ΨgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

和gydF4y2Ba vgydF4y2Ba 满足以下方程:gydF4y2Ba (24)gydF4y2Ba τgydF4y2Ba vgydF4y2Ba ˙gydF4y2Ba =gydF4y2Ba αgydF4y2Ba zgydF4y2Ba (gydF4y2Ba βgydF4y2Ba zgydF4y2Ba (gydF4y2Ba ggydF4y2Ba - - - - - -gydF4y2Ba xgydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba vgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ˙gydF4y2Ba =gydF4y2Ba vgydF4y2Ba 。gydF4y2Ba

ΨgydF4y2Ba 我gydF4y2Ba 是接受基函数,它在空间分布:gydF4y2Ba (25)gydF4y2Ba ΨgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba 2gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba (gydF4y2Ba xgydF4y2Ba - - - - - -gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

cgydF4y2Ba 我gydF4y2Ba 基函数的中心,分布在空间,然后呢gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba 是带宽。gydF4y2Ba

目标是使用采样点gydF4y2Ba xgydF4y2Ba 和使用机器人迭代学习方法适应参数gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba 。在学习后,参数是固定的,不需要改变在生成阶段:gydF4y2Ba (26)gydF4y2Ba ΔgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba ⁡gydF4y2Ba (gydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba (gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba TgydF4y2Ba DgydF4y2Ba (gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba - - - - - -gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba =gydF4y2Ba λgydF4y2Ba wgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ngydF4y2Ba )gydF4y2Ba +gydF4y2Ba ΔgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 下标gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 表示这是gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 迭代,gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 是用于更新的数据点的模型吗gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 迭代,gydF4y2Ba ΔgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 计算数据点之间的加权距离吗gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 基函数的中心,用于更新重量gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

3.2.2。语义知识学习gydF4y2Ba

记录和书写的字符是不够的机器人与人类和机器人应该理解的语义动作和关联自动运动模型和语义知识模型。gydF4y2Ba

在图所示的通用算法gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

学习的运动模型和语义知识。gydF4y2Ba

提取的特征的示范与模板用于比较。分类结果自动分配的语义模板对应的模型。学习运动应该关系semantic-related模板。例如,写人物的动作应该有形状和拓扑关系的字符,等等。gydF4y2Ba

本文直接督导下的训练写数字和自动学习的语义含义的数字。如下所述,示范写,模板应该是数字的形状或者拓扑。相应地,在本部分中,原始ISOMAP方法,反映了采样数据点的空间拓扑结构,用于训练机器人学习动作的语义。为了反映整个空间采样数据点的拓扑结构,所有的邻居点视为时间邻居。为简单起见,修改ISOMAP算法也可以应用在这个建模部分虽然时间距离s的阈值设置为采样数据点的大小。gydF4y2Ba

使用原始ISOMAP算法,示范动作的写信与相应的投影到二维平面的投影矩阵。记录轨迹的潜在空间归一化在相同的规模。本文的范围gydF4y2Ba xgydF4y2Ba设在是gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba 和的范围gydF4y2Ba ygydF4y2Ba设在也gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba 。正常化的原因是显而易见的,因为考虑到真人教师示范可能有不同的比例。为了比较命令的示威活动在生成阶段,这些示威活动应该归一化处理。gydF4y2Ba

建立模型的技术记录轨迹编写基于模板和认识到号码不是本文的浓度;读者可能感兴趣的其他文献发现许多先进的分词和识别方法。gydF4y2Ba

摘要光学字符识别(OCR)软件工具,TesseractOCR(目前由惠普(hewlett - packard)和由谷歌),用于直接督导下的识别比较知识模型和数据库中的字符。在实际应用程序中,认识到一个数字的结果通过使用Tesseract-OCR并不好。因此,知识模型的图片大小正常大小的信,放在一个句子“这是。”然后承认“这是* *。这是“放弃”,“直接督导下获得的语义知识这公认的照片。gydF4y2Ba

识别后,运动模型是automated-assigned语义和相应的模板根据识别结果。gydF4y2Ba

标签运动模型存储在“标记行为模式”。gydF4y2Ba

在“行为建模”块,投影矩阵计算使用一个典型的学习算法。潜在的轨迹空间和相应的投影矩阵存储在“行为模式”。给定一个命令,直接督导下的解析命令或识别的命令并将它们转换为行动”命令分析”阻止和检索行为模型的“行为模式”。“重建”块项目潜在的空间到关节空间的轨迹生成新的行为。gydF4y2Ba

3.3。一代gydF4y2Ba

在生成阶段,命令发送给机器人和机器人需要分析命令和命令转化为行动与指定参数。所需的运动模型是通过搜索的语义动作的名称与指定参数。如果运动模型存储在潜在的空间,需要重建项目从潜在的空间运动模型的原始数据空间;否则,将直接使用运动模型。最后,机器人需要执行的动作来完成任务。gydF4y2Ba

3.3.1。命令分析gydF4y2Ba

对于大多数情况的模仿学习,机器人是给定一个任务相关的情况。初始状态和目标状态给出了在这种情况下,机器人需要使用学到的行为来完成任务(实现目标状态)。摘要语音命令用于机器人理解任务。gydF4y2Ba

使用语音,机器人需要倾听人类操作员的命令,识别所需的信息,并将信息转换为行动与指定参数(gydF4y2Ba 41gydF4y2Ba]:gydF4y2Ba (27)gydF4y2Ba 行动gydF4y2Ba (gydF4y2Ba 参数gydF4y2Ba )gydF4y2Ba +gydF4y2Ba 行动gydF4y2Ba (gydF4y2Ba 参数gydF4y2Ba )gydF4y2Ba +gydF4y2Ba ⋯gydF4y2Ba +gydF4y2Ba 行动gydF4y2Ba (gydF4y2Ba 参数gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

图gydF4y2Ba 3gydF4y2Ba显示命令分析的一般方法。gydF4y2Ba

命令分析。gydF4y2Ba

机器人的命令分解成不同部分通过寻找匹配的词在词汇使用特定的语法规则。主题、操作对象、目标和环境是预定义的词汇。使用一定的规则,所示的命令转换为行动(gydF4y2Ba 7gydF4y2Ba)。这是一个典型的自然语言处理的方法。读者可以参考这本书所写的(gydF4y2Ba 42gydF4y2Ba]。gydF4y2Ba

例如写数字,词典的设计gydF4y2Ba

主题:直接督导下gydF4y2Ba

行动:写gydF4y2Ba

对象:零,一,二,三,四,五,六,七,八,九,十。gydF4y2Ba

语法设计行动+对象。gydF4y2Ba

收到一个命令从人类的老师,直接督导下的提取从命令和“对象”信息检索相应的行为模式从“标记行为模型”块通过搜索所需的“对象”行为的名字。实现是使用微软语音识别库。gydF4y2Ba

3.3.2。重建和执行gydF4y2Ba

如果运动模型存储在潜在的空间,使用(gydF4y2Ba 6gydF4y2Ba),从潜在的空间模型可以预测到原始数据空间。gydF4y2Ba

摘要GP-based模型是用来描述运动模型的空间。因此,(gydF4y2Ba 6gydF4y2Ba)改写为:gydF4y2Ba (28)gydF4y2Ba θgydF4y2Ba =gydF4y2Ba WgydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba zgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba zgydF4y2Ba 从GP模型获得的数据点是给定一个询盘。gydF4y2Ba

获得所需的数据在关节空间和机器人移动后的致动器生成的轨迹。gydF4y2Ba

使用(gydF4y2Ba 28gydF4y2Ba),所需的轨迹可以计算gydF4y2Ba θgydF4y2Ba dgydF4y2Ba 。gydF4y2Ba

使用正运动学、位置和方向可以计算gydF4y2Ba (29)gydF4y2Ba XgydF4y2Ba dgydF4y2Ba =gydF4y2Ba 向前gydF4y2Ba 运动学gydF4y2Ba (gydF4y2Ba θgydF4y2Ba dgydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

生成一个类似的目标运动轨迹完成任务是证明轨迹之间的误差最小化,生成的轨迹。gydF4y2Ba

我们在每个时间步是定义二次成本:gydF4y2Ba (30)gydF4y2Ba lgydF4y2Ba kgydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba )gydF4y2Ba TgydF4y2Ba WgydF4y2Ba kgydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba )gydF4y2Ba

XgydF4y2Ba dgydF4y2Ba 是一种理想的轨迹(本文演示的轨迹),gydF4y2Ba XgydF4y2Ba ggydF4y2Ba 是一个生成的轨迹,gydF4y2Ba kgydF4y2Ba 是时间的步骤。gydF4y2Ba

lgydF4y2Ba 代表了轨迹之间的加权误差,在时间步生成的轨迹gydF4y2Ba kgydF4y2Ba 。目标是最小化总成本:gydF4y2Ba (31)gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba NgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba kgydF4y2Ba 。gydF4y2Ba 而gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba NgydF4y2Ba )gydF4y2Ba 终端成本,通常定义为:gydF4y2Ba (32)gydF4y2Ba ΦgydF4y2Ba (gydF4y2Ba NgydF4y2Ba )gydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba NgydF4y2Ba )gydF4y2Ba TgydF4y2Ba WgydF4y2Ba NgydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba NgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba NgydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

为简单起见,我们的算法,gydF4y2Ba WgydF4y2Ba kgydF4y2Ba 和gydF4y2Ba WgydF4y2Ba NgydF4y2Ba 被定义为一个联合对角矩阵。gydF4y2Ba

控制过程是一种集成的传感和计划。在这篇文章中,我们不关注执行机构控制的低水平。因为直接督导下的监管机构商业设备就像“黑盒”,我们假设一个监管机构可以实现控制目标的自动调节控制输出时需要参考输入。gydF4y2Ba

初始位置和姿态计算:gydF4y2Ba (33)gydF4y2Ba XgydF4y2Ba 0gydF4y2Ba =gydF4y2Ba 正运动学gydF4y2Ba (gydF4y2Ba θgydF4y2Ba 0gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

在时间步gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 在时间步是感觉到关节角吗gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 和假设gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba 计划基于当前传感信息:gydF4y2Ba (34)gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba JgydF4y2Ba *gydF4y2Ba (gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 计算:gydF4y2Ba (35)gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba 向前gydF4y2Ba 运动学gydF4y2Ba (gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba JgydF4y2Ba 雅可比矩阵。gydF4y2Ba

目标是最小化gydF4y2Ba (36)gydF4y2Ba lgydF4y2Ba kgydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba )gydF4y2Ba TgydF4y2Ba WgydF4y2Ba kgydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

重写(gydF4y2Ba 36gydF4y2Ba):gydF4y2Ba (37)gydF4y2Ba lgydF4y2Ba kgydF4y2Ba =gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba JgydF4y2Ba (gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba +gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba TgydF4y2Ba ×gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba JgydF4y2Ba (gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba +gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

最小化代价函数,微分gydF4y2Ba lgydF4y2Ba kgydF4y2Ba 关于gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba 并设置导数为零,我们得到gydF4y2Ba (38)gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba JgydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba TgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba JgydF4y2Ba TgydF4y2Ba (gydF4y2Ba XgydF4y2Ba dgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba XgydF4y2Ba ggydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba JgydF4y2Ba θgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

在每个时间步,gydF4y2Ba θgydF4y2Ba ggydF4y2Ba kgydF4y2Ba 给监管机构作为低级致动器控制的参考输入。gydF4y2Ba

3.4。实现gydF4y2Ba

这个框架实现认知架构,名叫直接督导下的认知架构,开发的智能系统中心的范德比尔特大学(gydF4y2Ba 43gydF4y2Ba- - - - - -gydF4y2Ba 45gydF4y2Ba]。gydF4y2Ba

图gydF4y2Ba 4gydF4y2Ba显示直接督导下的认知体系结构的系统设计。gydF4y2Ba

直接督导下的认知结构。gydF4y2Ba

3.4.1。知觉代理(PA)gydF4y2Ba

巴勒斯坦权力机构获得的感官信息环境。通常情况下,编码器的关节机器人,摄像头的机器人,和力反馈传感器实现机器人的手腕在这个代理。gydF4y2Ba

3.4.2。短期记忆(STM)gydF4y2Ba

获得的信息是发送到STM和存储。感觉自我领域(SES)实现STM,执行spatio-termporal巧合检测,协调每个认知的显著,并促进知觉绑定。gydF4y2Ba

3.4.3。工作记忆系统(WMS)gydF4y2Ba

块的WMS存储任务相关信息。该组件是在生成阶段尤其重要。gydF4y2Ba

3.4.4。中央行政代理(CEA)gydF4y2Ba

东航提供中央处理、决策和控制策略产生不同的任务目标是存储在目标代理(GA)。在层次结构中,该组件访问的所有感知信息,使决策任务。gydF4y2Ba

3.4.5。目标代理(GA)gydF4y2Ba

相应地,GA商店的动机和目标任务的情况。gydF4y2Ba

3.4.6。长期记忆(LTM)gydF4y2Ba

中心存储记忆尤其是长期使用的知识。程序、语义和情景知识存储在该组件。在模仿学习,学到的技能或知识存储程序和情景知识使用的数学模型。gydF4y2Ba

3.4.7。内部演练系统(IRS)gydF4y2Ba

国税局评估决策的结果从东航通过内部彩排。gydF4y2Ba

3.4.8。工作循环gydF4y2Ba

使用这种体系结构,我们可以开发三个工作循环:活泼,常规和协商。gydF4y2Ba

反应循环内perception-action代理。知觉代理收集的感官信息环境。使用必要的一级代理,行动是由执行机构代理影响环境和机器人的身体。这个控制回路用于机器人来处理紧急情况或意外变化的环境。gydF4y2Ba

Perception-Action代理内部的常规循环、过滤和代理,STM和世界媒体峰会。这个循环完成常规任务WMS是定义良好的。机器人从WMS获得任务相关的信息并将这些信息发送给执行机构通过过滤和代理。执行机构是由接收到的信息来完成任务。常规循环还包括反应循环避免意想不到的环境的变化。gydF4y2Ba

审议循环用于机器人通过建模学习新的行为或技能,知识耦合,等等,和完成新任务或选择使用推理行为来完成任务,决策,等等。CEA是中央组件在这个循环。它检索存储知识的中心思想,从STM和WMS接收环境信息,并使用国税局评估现状作出决定或建立模型的感觉信息。决定时,任务相关信息发送到WMS系统将使用常规循环来完成这个任务。审议循环涉及反应循环和常规循环。我们的系统在很大程度上是基于协商的循环。gydF4y2Ba

图gydF4y2Ba 5gydF4y2Ba显示树的工作循环之间的关系。gydF4y2Ba

工作循环。gydF4y2Ba

3.4.9。学习阶段gydF4y2Ba

在学习阶段,如图gydF4y2Ba 6gydF4y2Ba,直接督导下的收集信息从编码器使用PA和将感官信息发送到东航。CEA获得原始ISOMAP算法和修改后的ISOMAP算法从中心思想和计算运动模型和知识模型。使用RMS,直接督导下的标记行为模型建立在prelearned语义知识和存储模型的中心思想。gydF4y2Ba

学习阶段直接督导下的认知结构。gydF4y2Ba

工作循环可以显示如图gydF4y2Ba 7gydF4y2Ba。gydF4y2Ba

工作循环的学习阶段。gydF4y2Ba

3.4.10。一代舞台gydF4y2Ba

在生成阶段,如图gydF4y2Ba 8gydF4y2Ba鉴于语音命令,直接督导下的收集使用PA的语音信息,并发送语音信息通过STM CEA。通过分析语音命令,CEA与指定参数生成对应的操作。从中心思想获得所需的行为模式是通过搜索RMS。获得的行为模式,东航计划根据运动目标并发送WMS运动信息。WMS存储任务相关信息和发送控制命令到AA执行动作。gydF4y2Ba

一代阶段直接督导下的认知结构。gydF4y2Ba

工作循环可以显示如图gydF4y2Ba 9gydF4y2Ba。gydF4y2Ba

一代的工作循环阶段。gydF4y2Ba

4所示。实验结果gydF4y2Ba

一个人形机器人,名叫直接督导下,用于验证提出的系统(如图gydF4y2Ba 10gydF4y2Ba)。直接督导下的是一个固定气动驱动的人形机器人,它有七个自由度(自由度)每个部门(包括自由(开启和关闭)终端执行器)。在这个系统中,我们只使用直接督导下的权利证明所需的运动轨迹的写作和写数字。笔总是抓住使用末端执行器,我们只使用六自由度的直接督导下的右手臂。两个摄像头安装在机器人用于直接督导下的观察环境,我们开发了一个OpenCV-based程序来捕获和处理从摄像机获取的图像。个人电脑,1 GHz CPU,用于控制直接督导下的手臂,一台个人电脑,2.4 GHz CPU,用于处理图像,和一台笔记本电脑,2.4 GHz CPU,用于存储语义知识模型和运动轨迹模型。gydF4y2Ba

直接督导下的机器人。gydF4y2Ba

直接督导下显示如何写信通过手动将其右臂如图gydF4y2Ba 12gydF4y2Ba。图gydF4y2Ba 11gydF4y2Ba显示使用的字母示威。的拓扑写信在笛卡尔空间的运动也一样形状的字母。gydF4y2Ba

字母的示威活动。gydF4y2Ba

示威活动。gydF4y2Ba

收集到的数据投影到二维平面上使用原始ISOMAP算法和修改后的ISOMAP算法。图gydF4y2Ba 13gydF4y2Ba显示了使用原ISOMAP算法,获得模型和图gydF4y2Ba 14gydF4y2Ba显示模型使用修改后的ISOMAP算法获得的。gydF4y2Ba

降维结果的原始ISOMAP算法。gydF4y2Ba

潜在的空间运动模型使用修改后的ISOMAP算法。gydF4y2Ba

在实际应用中,为了使用降维结果的识别部分,图像二维平面上的扩张。gydF4y2Ba

在图gydF4y2Ba 13gydF4y2Ba降维结果显示形状和拓扑分布的抽样关节角的示威活动的潜在空间。从这个图中,形状和拓扑数据的分布类似于真正的字母在纸上和末端执行器的运动在笛卡尔空间写信。在这里有必要强调不使用运动学模型,计算末端执行器的位置在笛卡尔空间中使用关节角,降维结果仍然可以近似描述的字母在纸上。gydF4y2Ba

在图gydF4y2Ba 14gydF4y2Ba,运动模型中表示的空间。这些模型使用修改后的ISOMAP算法。从实验结果,我们可以发现两个模型使用这个算法的特性。gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 每一个轨迹与本身不重叠;gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 每个轨迹,使用修改ISOMAP是自动生成的,总是从一侧开始,终止于另一方。第二个功能是保证邻居的定义的算法。直观地说,因为邻居邻居被定义为时间,时间距离的第一点和最后一点是最大的距离矩阵。因此,该算法总是把起点和终点两图的两端。gydF4y2Ba

通过识别、知识模型图gydF4y2Ba 13gydF4y2Ba使用Tesseract-OCR与pre-learned公认的数字。gydF4y2Ba

在实际应用程序中,图的照片gydF4y2Ba 13gydF4y2Ba应该是预处理Tesseract-OCR为了兼容。有几个的预处理步骤。gydF4y2Ba

照片我是旋转0度,结果是i_1照片。gydF4y2Ba

照片我旋转90度,结果是i_2照片。gydF4y2Ba

照片我旋转180度,结果是i_3照片。gydF4y2Ba

照片我旋转270度,结果是i_4照片。gydF4y2Ba

照片我是水平方向,结果是i_5照片。gydF4y2Ba

图片i_5旋转90度,结果是i_6照片。gydF4y2Ba

图片i_5旋转180度,结果是i_7照片。gydF4y2Ba

图片i_5旋转270度,结果是i_8照片。gydF4y2Ba

获得八使用Tesseract-OCR图片都是公认的。如果识别结果中包含预定义的白名单:gydF4y2Ba {gydF4y2Ba 0 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 9gydF4y2Ba }gydF4y2Ba ,它被接受。gydF4y2Ba

如果确认结果gydF4y2Ba (gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 或gydF4y2Ba (gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba ,它需要进一步的处理。我们的方法是确定写作的起点gydF4y2Ba (gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 或gydF4y2Ba (gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba 。如果出发点是图像的边缘附近gydF4y2Ba (gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba ;否则,它是gydF4y2Ba (gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

识别结果,标签行为模型建立。图gydF4y2Ba 15gydF4y2Ba是模型的一个例子。gydF4y2Ba

标签的行为模型。gydF4y2Ba

从人类接到一个命令,直接督导下的分析命令和命令转换成指定的动作与参数:写(六)如图gydF4y2Ba 16gydF4y2Ba。从标记获得所需的运动模型是行为模型和直接督导下的执行动作。gydF4y2Ba

命令分析和生成。gydF4y2Ba

图gydF4y2Ba 17gydF4y2Ba显示器上的数字直接督导下写的论文。gydF4y2Ba

字母直接督导下写的。gydF4y2Ba

5。讨论gydF4y2Ba

在本文中,我们提出了一个框架,用于机器人学习运动模型和语义知识模型同时只有一个数据集的示威活动是用于学习阶段。gydF4y2Ba

在当前的模仿学习框架,机器人的运动学习一直强调学习完成一些有趣的任务。gydF4y2Ba

一些研究人员正在研究将从认知科学概念和思想纳入机器人研究。一个典型的应用程序使用认知体系结构来实现机器人控制的认知过程和认知控制回路和学习(gydF4y2Ba 46gydF4y2Ba]。gydF4y2Ba

如果我们考虑整个机器学习框架层次架构,紧急的问题是,似乎有差距之间存在认知体系结构和运动学习的利用率。正如我们所知,推理和认知架构的规划往往是象征性的方式实现,使用传统的人工智能(AI)方法。因此,如何连接符号表征和数学模型运动模型?gydF4y2Ba

在我们的论文中,提出了一个框架,这是基于自然语言处理的连接,与合适的行为名称标签运动模型,分析行为的认知体系结构中的命令名称。在这篇文章中,我们进一步提出训练机器人学习语义(或符号)知识通过使用相同的数据集的自动演示,提高我们提出的框架。gydF4y2Ba

正如我们所知,当人类看到的,听着,感觉其他人类的行为,我们可以与我们所看到的,听着,和感觉我们的学习过程,情景和语义知识。框架提出了人类日常认知的大脑工作的启发。gydF4y2Ba

6。未来研究和结论gydF4y2Ba

为应用程序的“写作”,使用相同的方法在本文(降维使用原始的和修改ISOMAP算法和一个字母识别技术)机器人可以学习如何写字母和相关的运动模型和知识模型相应的语义知识模型。gydF4y2Ba

在其他领域,例如,“音乐”,机器人可以学习如何演奏音乐(打鼓,弹吉他,弹钢琴)和关联播放音乐所需的运动模型相应的语义知识。ISOMAP算法不可能完成这样的学习在这些领域。然而,读者可以发现击打鼓的节奏在对应的节奏上下移动的手。如果节奏击打鼓的声音,可以提炼出的模板和节奏移动手可以提取的知识模型,该框架还可以用于机器人学习演奏音乐的动作,这些动作的语义自动同时。gydF4y2Ba

这个框架的应用程序的关键是找到运动的特性,在通信行为的内在特性密切相关的语义模型。gydF4y2Ba

提出了一个框架,用于学习机器人的运动模型和语义知识模型同时使用一个数据集的示威活动。修改ISOMAP算法用于机器人从示威游行中提取语义信息。认知体系结构的实现是与几个扩展当前的算法。语义分析的命令也在这个框架中实现。人形的实验,实验结果证明了该框架的有效性。gydF4y2Ba

布鲁克斯gydF4y2Ba r。gydF4y2Ba 一个健壮的分层移动机器人的控制系统gydF4y2Ba IEEE机器人与自动化》杂志上gydF4y2Ba 1986年gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba 14gydF4y2Ba 23gydF4y2Ba 2 - s2.0 - 0022688781gydF4y2Ba 布鲁克斯gydF4y2Ba R。gydF4y2Ba VanLehngydF4y2Ba K。gydF4y2Ba 如何构建完整的生物,而不是孤立的认知模拟器gydF4y2Ba 架构情报gydF4y2Ba 1991年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 劳伦斯Erlbaum同事gydF4y2Ba 225年gydF4y2Ba 239年gydF4y2Ba 斯洛曼gydF4y2Ba 一个。gydF4y2Ba ChappellgydF4y2Ba J。gydF4y2Ba 机器人的altricial-precocial频谱gydF4y2Ba 《人工智能国际联合会议(IJCA ' 05)gydF4y2Ba 2005年gydF4y2Ba 英国爱丁堡gydF4y2Ba 1187年gydF4y2Ba 1192年gydF4y2Ba StoytchevgydF4y2Ba 一个。gydF4y2Ba 对学习对象的绑定功能:behavior-grounded方法gydF4y2Ba 学报AAAI研讨会上发展机器人技术gydF4y2Ba 2005年gydF4y2Ba 21gydF4y2Ba 23gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 不好的gydF4y2Ba m . j . m . C。gydF4y2Ba PetschegydF4y2Ba T。gydF4y2Ba 学习示范gydF4y2Ba 先进的神经信息处理系统gydF4y2Ba 1997年gydF4y2Ba 美国马萨诸塞州剑桥市gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 1040年gydF4y2Ba 1046年gydF4y2Ba 中山教授gydF4y2Ba M。gydF4y2Ba 形成高速运动模式的机械手臂的审判gydF4y2Ba 交易,仪表和控制工程师学会gydF4y2Ba 1978年gydF4y2Ba 19gydF4y2Ba 706年gydF4y2Ba 712年gydF4y2Ba 阿特基森gydF4y2Ba C。gydF4y2Ba 麦金太尔gydF4y2Ba J。gydF4y2Ba 机器人轨迹通过实践学习gydF4y2Ba 机器人和自动化学报IEEE会议上gydF4y2Ba 1986年gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 1737年gydF4y2Ba 1742年gydF4y2Ba ArgallgydF4y2Ba b D。gydF4y2Ba ChernovagydF4y2Ba 年代。gydF4y2Ba 维罗索gydF4y2Ba M。gydF4y2Ba 褐变gydF4y2Ba B。gydF4y2Ba 机器人从示范学习的调查gydF4y2Ba 机器人和自治系统gydF4y2Ba 2009年gydF4y2Ba 57gydF4y2Ba 5gydF4y2Ba 469年gydF4y2Ba 483年gydF4y2Ba 2 - s2.0 - 63149159130gydF4y2Ba 10.1016 / j.robot.2008.10.024gydF4y2Ba 桌球gydF4y2Ba 一个。gydF4y2Ba 通过模仿学习运动技能:仿生机器人模型gydF4y2Ba 控制论和系统gydF4y2Ba 2001年gydF4y2Ba 32gydF4y2Ba 1 - 2gydF4y2Ba 155年gydF4y2Ba 193年gydF4y2Ba 2 - s2.0 - 0008389203gydF4y2Ba CalinongydF4y2Ba 年代。gydF4y2Ba 京特·gydF4y2Ba F。gydF4y2Ba 桌球gydF4y2Ba 一个。gydF4y2Ba 学习、代表和仿人机器人的推广任务gydF4y2Ba IEEE系统,人,控制论gydF4y2Ba 2007年gydF4y2Ba 37gydF4y2Ba 2gydF4y2Ba 286年gydF4y2Ba 298年gydF4y2Ba 2 - s2.0 - 34047173490gydF4y2Ba 10.1109 / TSMCB.2006.886952gydF4y2Ba IjspeertgydF4y2Ba 一个。gydF4y2Ba 录像gydF4y2Ba J。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 贝克尔gydF4y2Ba 年代。gydF4y2Ba 杜伦gydF4y2Ba 年代。gydF4y2Ba ObermayergydF4y2Ba K。gydF4y2Ba 学习吸引子景观学习运动原语gydF4y2Ba 先进的神经信息处理系统gydF4y2Ba 2003年gydF4y2Ba 15gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 1547年gydF4y2Ba 1554年gydF4y2Ba DillmanngydF4y2Ba R。gydF4y2Ba RogallagydF4y2Ba O。gydF4y2Ba EhrenmanngydF4y2Ba M。gydF4y2Ba 松奈gydF4y2Ba R。gydF4y2Ba BordegonigydF4y2Ba M。gydF4y2Ba 基于人类学习机器人的行为和技能示范和建议:机器学习范式gydF4y2Ba 第九届国际研讨会的机器人研究学报》(ISRR ' 99)gydF4y2Ba 1999年10月gydF4y2Ba 雪鸟,美国犹他州gydF4y2Ba 229年gydF4y2Ba 238年gydF4y2Ba KuniyoshigydF4y2Ba Y。gydF4y2Ba 稻叶型gydF4y2Ba M。gydF4y2Ba 井上gydF4y2Ba H。gydF4y2Ba 学习通过观察:从视觉中提取可重用的任务知识观察人类的性能gydF4y2Ba IEEE机器人和自动化gydF4y2Ba 1994年gydF4y2Ba 10gydF4y2Ba 6gydF4y2Ba 799年gydF4y2Ba 822年gydF4y2Ba 2 - s2.0 - 0028740409gydF4y2Ba 10.1109/70.338535gydF4y2Ba InamuragydF4y2Ba T。gydF4y2Ba 稻叶型gydF4y2Ba M。gydF4y2Ba 井上gydF4y2Ba H。gydF4y2Ba 收购概率行为决策模型基于交互式教学方法gydF4y2Ba 第九届国际会议上先进的机器人,学报》gydF4y2Ba 1999年gydF4y2Ba 523年gydF4y2Ba 528年gydF4y2Ba VoylesgydF4y2Ba r·M。gydF4y2Ba 科斯拉gydF4y2Ba p K。gydF4y2Ba 多代理系统编程机器人由人类演示gydF4y2Ba 集成计算机辅助工程gydF4y2Ba 2001年gydF4y2Ba 8gydF4y2Ba 1gydF4y2Ba 59gydF4y2Ba 67年gydF4y2Ba 2 - s2.0 - 0035128021gydF4y2Ba IjspeertgydF4y2Ba a·J。gydF4y2Ba 录像gydF4y2Ba J。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 运动仿人形机器人的非线性动力系统gydF4y2Ba IEEE机器人与自动化国际会议上gydF4y2Ba 2002年5月gydF4y2Ba 美国华盛顿特区gydF4y2Ba 1398年gydF4y2Ba 1403年gydF4y2Ba 2 - s2.0 - 0036059542gydF4y2Ba JolliffegydF4y2Ba 我。gydF4y2Ba 主成分分析gydF4y2Ba 1986年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba 巴塞洛缪gydF4y2Ba d . J。gydF4y2Ba 因子分析的基础gydF4y2Ba 生物统计学gydF4y2Ba 1984年gydF4y2Ba 71年gydF4y2Ba 2gydF4y2Ba 221年gydF4y2Ba 232年gydF4y2Ba 2 - s2.0 - 0000192916gydF4y2Ba 10.1093 / biomet / 71.2.221gydF4y2Ba 特南鲍姆gydF4y2Ba j·B。gydF4y2Ba 德席尔瓦gydF4y2Ba V。gydF4y2Ba 朗格弗德gydF4y2Ba j . C。gydF4y2Ba 一个全局几何非线性降维的框架gydF4y2Ba 科学gydF4y2Ba 2000年gydF4y2Ba 290年gydF4y2Ba 5500年gydF4y2Ba 2319年gydF4y2Ba 2323年gydF4y2Ba 2 - s2.0 - 0034704229gydF4y2Ba 10.1126 / science.290.5500.2319gydF4y2Ba RoweisgydF4y2Ba s T。gydF4y2Ba 扫罗gydF4y2Ba l·K。gydF4y2Ba 通过局部线性嵌入非线性降维gydF4y2Ba 科学gydF4y2Ba 2000年gydF4y2Ba 290年gydF4y2Ba 5500年gydF4y2Ba 2323年gydF4y2Ba 2326年gydF4y2Ba 2 - s2.0 - 0034704222gydF4y2Ba 10.1126 / science.290.5500.2323gydF4y2Ba 威廉姆斯gydF4y2Ba c . k . I。gydF4y2Ba 在内核PCA和指标多维标度之间的联系gydF4y2Ba 机器学习gydF4y2Ba 2002年gydF4y2Ba 46gydF4y2Ba 1 - 3gydF4y2Ba 11gydF4y2Ba 19gydF4y2Ba 2 - s2.0 - 0036165146gydF4y2Ba 10.1023 /:1012485807823gydF4y2Ba 主教gydF4y2Ba C。gydF4y2Ba 模式识别和机器学习gydF4y2Ba 2006年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 施普林格gydF4y2Ba 拉斯穆森gydF4y2Ba C。gydF4y2Ba 高斯过程机器学习gydF4y2Ba 先进的机器学习讲座gydF4y2Ba 2004年gydF4y2Ba 美国马萨诸塞州剑桥市gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 63年gydF4y2Ba 71年gydF4y2Ba 阿特基森gydF4y2Ba c·G。gydF4y2Ba 摩尔gydF4y2Ba 答:W。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 局部加权学习gydF4y2Ba 人工智能审查gydF4y2Ba 1997年gydF4y2Ba 11gydF4y2Ba 1 - 5gydF4y2Ba 11gydF4y2Ba 73年gydF4y2Ba 2 - s2.0 - 0031074521gydF4y2Ba VijayakumargydF4y2Ba 年代。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 局部加权投影回归:一个O (n)实时增量学习算法在高维空间中gydF4y2Ba 学报》第17届国际会议上机器学习gydF4y2Ba 2000年gydF4y2Ba 斯坦福大学,加州,美国gydF4y2Ba 288年gydF4y2Ba 293年gydF4y2Ba ChernovagydF4y2Ba 年代。gydF4y2Ba 维罗索gydF4y2Ba M。gydF4y2Ba 在意政策学习示范使用高斯混合模型gydF4y2Ba 第六届国际联合会议上自治代理诉讼和多重代理系统gydF4y2Ba 2007年gydF4y2Ba 233年gydF4y2Ba 2 - s2.0 - 60349110367gydF4y2Ba 10.1145/1329125.1329407gydF4y2Ba AbdigydF4y2Ba H。gydF4y2Ba 一个神经网络底漆gydF4y2Ba 《生物系统gydF4y2Ba 1994年gydF4y2Ba 2gydF4y2Ba 3gydF4y2Ba 247年gydF4y2Ba 283年gydF4y2Ba 10.1142 / S0218339094000179gydF4y2Ba 萨顿gydF4y2Ba R。gydF4y2Ba BartogydF4y2Ba 一个。gydF4y2Ba 强化学习:介绍gydF4y2Ba 1998年gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 彼得斯gydF4y2Ba J。gydF4y2Ba VijayakumargydF4y2Ba 年代。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 仿人机器人的强化学习gydF4y2Ba IEEE-RAS人形Robotis国际会议的程序gydF4y2Ba 2003年gydF4y2Ba 德国卡尔斯鲁厄gydF4y2Ba 1gydF4y2Ba 20.gydF4y2Ba 戴尔gydF4y2Ba P。gydF4y2Ba McReynoldsgydF4y2Ba s R。gydF4y2Ba 最优控制的计算和理论gydF4y2Ba 1970年gydF4y2Ba 学术出版社gydF4y2Ba TheodorougydF4y2Ba E。gydF4y2Ba BuchligydF4y2Ba J。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 强化学习运动技能的高维度:路径积分方法gydF4y2Ba IEEE机器人与自动化国际会议的举行(“国际机器人与自动化会议”10)gydF4y2Ba 2010年gydF4y2Ba 2397年gydF4y2Ba 2403年gydF4y2Ba 2 - s2.0 - 77955836276gydF4y2Ba 10.1109 / ROBOT.2010.5509336gydF4y2Ba TheodorougydF4y2Ba 大肠。gydF4y2Ba BuchligydF4y2Ba J。gydF4y2Ba SchaalgydF4y2Ba 年代。gydF4y2Ba 一个广义路径积分控制的强化学习方法gydF4y2Ba 机器学习的研究》杂志上gydF4y2Ba 2010年gydF4y2Ba 11gydF4y2Ba 3137年gydF4y2Ba 3181年gydF4y2Ba 2 - s2.0 - 79551503171gydF4y2Ba 棕褐色gydF4y2Ba H。gydF4y2Ba 河村建夫gydF4y2Ba K。gydF4y2Ba 计算框架集成机器人人类探索和示范模仿学习gydF4y2Ba 《IEEE国际会议系统,人与控制论gydF4y2Ba 2011年gydF4y2Ba 安克雷奇,阿拉斯加,美国gydF4y2Ba 2501年gydF4y2Ba 2506年gydF4y2Ba 詹金斯gydF4y2Ba o . C。gydF4y2Ba MatarićgydF4y2Ba m·J。gydF4y2Ba 一个时空扩展isomap非线性降维gydF4y2Ba 21国际会议的程序机器学习(ICML ' 04)gydF4y2Ba 2004年7月gydF4y2Ba 56gydF4y2Ba 2 - s2.0 - 14344257134gydF4y2Ba 主教gydF4y2Ba c . M。gydF4y2Ba SvensengydF4y2Ba M。gydF4y2Ba 威廉姆斯gydF4y2Ba c . k . I。gydF4y2Ba GTM:生成地形映射gydF4y2Ba 神经计算gydF4y2Ba 1998年gydF4y2Ba 10gydF4y2Ba 1gydF4y2Ba 215年gydF4y2Ba 234年gydF4y2Ba 2 - s2.0 - 0347963789gydF4y2Ba CalinongydF4y2Ba 年代。gydF4y2Ba 桌球gydF4y2Ba 一个。gydF4y2Ba 概率的编程通过演示框架处理约束在关节空间和工作空间gydF4y2Ba 《IEEE国际会议上智能机器人和系统gydF4y2Ba 2008年9月gydF4y2Ba 367年gydF4y2Ba 372年gydF4y2Ba 2 - s2.0 - 69549116699gydF4y2Ba 10.1109 / IROS.2008.4650593gydF4y2Ba 格里姆斯gydF4y2Ba D。gydF4y2Ba ChalodhorngydF4y2Ba R。gydF4y2Ba 饶gydF4y2Ba R。gydF4y2Ba 动态仿人形机器人通过非参数概率推理gydF4y2Ba 机器人的程序:科学和系统(RSS 06年)gydF4y2Ba 2006年gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 示范gydF4y2Ba 一个。gydF4y2Ba GrochowgydF4y2Ba K。gydF4y2Ba HertzmanngydF4y2Ba 一个。gydF4y2Ba 饶gydF4y2Ba R。gydF4y2Ba 高斯过程Cca的图像合成和机械模仿gydF4y2Ba 2005年gydF4y2Ba 威斯康辛大学- cse - tr - 2005 - 06 - 02gydF4y2Ba 华盛顿大学CSE部门gydF4y2Ba 施耐德gydF4y2Ba M。gydF4y2Ba ErtelgydF4y2Ba W。gydF4y2Ba 机器人学习示范与当地高斯过程回归gydF4y2Ba 《IEEE国际会议上智能机器人和系统(——10)gydF4y2Ba 2010年10月gydF4y2Ba 255年gydF4y2Ba 260年gydF4y2Ba 2 - s2.0 - 78651476611gydF4y2Ba 10.1109 / IROS.2010.5650949gydF4y2Ba 棕褐色gydF4y2Ba H。gydF4y2Ba ErdemirgydF4y2Ba E。gydF4y2Ba 河村建夫gydF4y2Ba K。gydF4y2Ba 杜gydF4y2Ba Q。gydF4y2Ba 动态运动的势场基于方法的扩展原始与避障算法模仿学习gydF4y2Ba 《IEEE国际会议上机电一体化和自动化gydF4y2Ba 2011年gydF4y2Ba 中国,北京gydF4y2Ba 525年gydF4y2Ba 530年gydF4y2Ba 棕褐色gydF4y2Ba H。gydF4y2Ba 杜gydF4y2Ba Q。gydF4y2Ba 吴gydF4y2Ba N。gydF4y2Ba 一个认知框架的机器人与人类通过模仿学习的行为和交互gydF4y2Ba 《IEEE国际多学科会议上认知方法的大局意识和决策支持gydF4y2Ba 2012年gydF4y2Ba 新奥尔良,洛杉矶,美国gydF4y2Ba 235年gydF4y2Ba 238年gydF4y2Ba 罗素gydF4y2Ba 美国J。gydF4y2Ba NorviggydF4y2Ba P。gydF4y2Ba 人工智能:一种现代方法gydF4y2Ba 2010年gydF4y2Ba 3日gydF4y2Ba 上台北,美国gydF4y2Ba 普伦蒂斯霍尔gydF4y2Ba 河村建夫gydF4y2Ba K。gydF4y2Ba 彼得斯gydF4y2Ba R。gydF4y2Ba 二世gydF4y2Ba 这样gydF4y2Ba R。gydF4y2Ba SarkargydF4y2Ba N。gydF4y2Ba 公园gydF4y2Ba J。gydF4y2Ba SpratleygydF4y2Ba 一个。gydF4y2Ba HambuchengydF4y2Ba K。gydF4y2Ba Multiagent-based认知机器人体系结构及其实现gydF4y2Ba 国际仿人机器人技术杂志》上gydF4y2Ba 2004年gydF4y2Ba 1gydF4y2Ba 65年gydF4y2Ba 93年gydF4y2Ba 10.1142 / S021984360400006XgydF4y2Ba 河村建夫gydF4y2Ba K。gydF4y2Ba 戈登gydF4y2Ba s M。gydF4y2Ba RatanaswasdgydF4y2Ba P。gydF4y2Ba ErdemirgydF4y2Ba E。gydF4y2Ba 大厅gydF4y2Ba j·F。gydF4y2Ba 仿人机器人的认知控制的实现gydF4y2Ba 国际仿人机器人技术杂志》上gydF4y2Ba 2008年gydF4y2Ba 5gydF4y2Ba 4gydF4y2Ba 547年gydF4y2Ba 586年gydF4y2Ba 2 - s2.0 - 59149095193gydF4y2Ba 10.1142 / S0219843608001558gydF4y2Ba 棕褐色gydF4y2Ba H。gydF4y2Ba 扎伊gydF4y2Ba R。gydF4y2Ba 实现仿人机器人的模仿学习的框架使用一个认知体系结构gydF4y2Ba 人形机器人的未来:研究和应用程序gydF4y2Ba 2012年gydF4y2Ba InTech开放获取出版gydF4y2Ba 189年gydF4y2Ba 210年gydF4y2Ba 棕褐色gydF4y2Ba H。gydF4y2Ba 梁gydF4y2Ba C。gydF4y2Ba 机器人的概念认知架构学习行为从机器人援助地区的示威活动gydF4y2Ba IEEE工程学报》第33届国际会议在医学和生物学的社会gydF4y2Ba 2011年gydF4y2Ba 波士顿,美国质量gydF4y2Ba 1248年gydF4y2Ba 1262年gydF4y2Ba