机器人杂志

PDF
机器人杂志/2016年/文章

研究文章|开放获取

体积 2016年 |文章的ID 3081048 | https://doi.org/10.1155/2016/3081048

伊凡就Rascon迦勒,纪伯伦Fuentes路易斯·a·皮内, Indexicality到来的声音来源的方向,和人机交互”,机器人杂志, 卷。2016年, 文章的ID3081048, 13 页面, 2016年 https://doi.org/10.1155/2016/3081048

Indexicality到来的声音来源的方向,和人机交互

学术编辑器:戈登·r·Pennock
收到了 2015年11月30日
修改后的 2016年3月07
接受 2016年4月10
发表 2016年5月23日

文摘

我们现在使用到达方向(DOA)的声音来源索引在人类之间的交互和服务机器人。这些指数遵循定义的概念的理论解释皮尔斯的迹象。这个概念建立了一个强大的物理信号(DOAs)和对象之间的关系在特定上下文中所指。记住这一点,我们建模在远处叫机器人作为索引的。这些指标可以稍后解释为用户和用户的位置他/她自己。之间的关系叫和发射器是形式化的框架的发展服务机器人基于SitLog编程语言。特别是,我们创建一组行为基于到达方向信息用于服务机器人的编程任务。基于这些行为,我们实现了四个任务,严重依赖他们:一个人后,将出席一个类,玩马可波罗,作为一个服务员在餐馆。

1。介绍

知道一个声源的起源是一个机器人的一个重要技能。通常,这个技能是与生存相关的行为,知识是用来应对天敌或杰出的危险。然而,这个技能也在互动的过程中起着关键作用,例如,在调用一个服务员过去。起初,知道到达方向(DOA)的声源似乎太基本元素的交互;然而,正如我们将显示,这些信息可以是有意义的,这样的机器人可以以适当的方式,提高交互反应。

我们考虑的方向到达信息作为一个索引的皮尔斯的符号理论提出的1,2]。在这个理论中,考虑到他们的关系有三种类型的迹象表示对象。这些类型图标,指数,象征图标反映对象的定性特征,例如,对象的图片或图纸。指数有一个存在或与特定上下文中的对象物理连接;例如,一个乌云是下雨。另一方面,符号有一个稳定的解释基于公约,连接他们的对象,例如,一个产品的标志。这也适用于口语沟通;拟声词,例如,标志性的因为他们像他们代表什么(例如,),代词是指数,因为他们“点”他们所代表的对象,和名词是象征性的,因为他们是传统和脱离他们所代表的对象。在这个分类的背景下,DOA信息有一个索引的质量;索引的对象的位置也发出声音和物体本身,因为它拥有一个强烈的声音发射器之间的联系(对象)和到达方向(迹象)。在这项工作中,我们利用这个索引的使用机器人之间的交互和用户的支持。

目前工作的索引的新风是SitLog形式化和实现编程语言,我们开发并用于项目服务机器人(3,4]。SitLog定义了一组行为,从简单的(一个技能)组成(不止一个技能)行为。这些行为的基本块用于计划我们的机器人在一个更高的水平。简单的行为的例子,机器人从当前位置到目的地,和,提示用户并等待口语答案的问题。由行为的一个例子寻找一个对象在不同的位置,因为它依赖于其他基本行为等看到对象。从本质上讲,一个行为必须是(1)便携式,所以它可以用在不同的任务,(2)组成,所以通过耦合不同的行为我们可以创建更复杂的行为或程序任务,和(3)能够处理潜在故障(例如,不是到达目的地,从用户不听答案,或者找不到对象)。

为了模型的indexicality DOAs并将其融入到交互功能的机器人,我们提出一个简单的行为来处理新风和解释这些指标。这支持的交互通过允许调用在远处。在这种情况下,用户或用户可以使机器人的注意到一个特定的区域中产生声音。这种行为也可以结合使用行为允许中断期间行走如调用一个服务员过去。此外,还支持行为验证来源的数量在谈话。特别是,这可以结合使用行为,以确保当机器人听答案,只有一个人说话。

本文的组织结构如下:部分2了以前的工作声音信息服务机器人的任务的一部分。部分3评论indexicality为解释过程。部分4介绍了框架我们用来DOAs迹象解释为指标。部分5描述了DOA行为的方式解决了DOA指标。部分6显示的四个任务指标声音来源用于直接交互。部分7提供了一个讨论我们的建议和发现。

2。以前的工作

使用机器人声源定位(SSL)是一个盛开的领域;Okuno和Nakadai Argentieri et al .,现在评论的主要方法及其使用不同类型的机器人(6- - - - - -8]。应用机器人技术以来,SSL被提拔为机器人的主要技能。布鲁克斯等人提出齿轮项目中作为交互的基本技能(9]。提出了机器人团体作为世界杯赛的实验设置竞争(10];和机器人斯巴达克斯党参加了2005年AAAI移动机器人挑战实现SSL作为它的一部分技能(11]。

虽然互动的目标是一种动力,有一个努力开发一个健壮的SSL模块。记住这个目标,首选设置数组的使用麦克风上的机器人。many-microphone解决方案提供了不错的性能由于其冗余。在[12)、华菱等人提出的 麦克风3 d数组来提高语音识别和DOA估计的序言。更多的可能是麦克风。Hara等人用两个数组 麦克风(总共16日)(13]。然而,最小的系统 麦克风也是有可能的,比如在[14]。一个常见的设置,我们遵循,是使用 麦克风(15,16]。最好的方法和配置仍然是一个悬而未决的问题。Badali等人提出了一个评估的主要方法 麦克风阵列的移动机器人(17]。

源定位活性,可以作为互动的形态呈现在作品处理后的谈话(18- - - - - -21];也可以是交互的一个重要组成部分,比如使用声音控制机器人的导航定位。特别是,Teachasrisaksakul等人提出一个系统,是一个人通过一个房间她或他的声音22]。另一方面,李等人证明了一个机器人捉迷藏使用视觉和听觉形式的交互(23]。这些作品遵循类似的方法对如何将声源位置作为交互的一部分我们的建议。然而,由于只有一个用户存在于他们的工作,其治疗指数是微不足道的。DOA标志直接解读为用户;没有冲突对于谁可以代表签字。

考虑到该领域的进展,针对捕获一个更复杂的交互。例如,Fransen等人提出一个多通道的机器人它遵循两个用户之间的指令到达一个目标(24]。Nakadai等人提出一个机器人能够判断剪刀声音游戏(25]。Quizmaster机器人玩一个游戏,它要求一个问题4参与者和使用SSL和源分离决定谁先回答26]。做等人提出一个机器人一起照顾者日志和检测某些声音的来源27]。在这个水平的相互作用的复杂性,DOA的迹象正在间接用作指数:新风成为指数表示直接的用户和这些信息是用来消除歧义调用或赢。在[27),新风和相关类别表示类型的事件。在这个层次上,多个源使一个方法来分配必要的DOA的实体。我们会看到在这个工作,考虑DOA作为索引的好处在正确的上下文中允许我们使用索引的决议执行该消歧的情况下多个DOA竞争。在这项工作中,我们形式化这项决议同样对机器人其他引用解析机制,如直证的引用(28,29日]。这不同于其他方法的研究和多通道信息互补消歧30.]。

3所示。索引的表达式

交互式剂如机器人理解用户的意图或预期的事件可以发生在环境为了产生足够的反应。考虑皮尔斯的符号理论,我们可以制定“理解”的目标提供一个信号或一组符号识别所指对象或对象(1,2,31日]。为了表示的对象,它的机器人构建表示法。例如,如果用户命令机器人去厨房,符号的序列机器人,,,的,厨房把翻译成表示 ,机器人可以建立所指对象(本身,厨房,和行动)并采取相应行动。一个类似的机制可以用于标志性符号的解释;例如,当机器人看到一个表,确定了一瓶果汁,它将生成表示 ,表示完全的对应汁对象。

当一组交互的迹象包括索引的迹象,表示不完全指定的迹象以来该指数有关决议一个额外的步骤中表示对象。例如,如果用户状态的命令机器人来这里,这话语是不作为的表现 。为了充分指定这个表达式,它必须是关于任务的背景下,分析中可以推断出用户的位置。例如,如果用户位于厨房,表情应该解决

在这个方案中,产生一个未指定索引的迹象表示在以后首先应解决的上下文信息。此外,指标提供额外的约束类型的对象可以解析表达式;例如,在前面的例子中,机器人的目的是解决有效的位置。为了解释这种现象,受到的治疗指数(32),我们建议以下公式演算的一个索引,我们使用符号” “信号约束 在一个特定的变量 : 指标定义这种形式接受作为参数约束 遗漏和谓词 ;应用这些参数的影响是约束变量的绑定 到表达式 。在这种情况下,符号 象征功能的应用程序(例如, 减少演算)。如果我们在前一个例子应用指数 产生如下表示: 。还未指定,但限制了变量 用户的位置。第二个决议过程识别从上下文用户是在厨房里。

1索引的的两个例子显示使用该配方与一个机器人。对于这些例子,考虑以下背景:用户和机器人在桌子前有一个橙汁放在它。第一个插图示例是一个多通道表达式:用户说什么和指向一个对象。这个词会同指向手势定义一个索引,对所指的对象空间约束。在这种情况下,约束对象的构成(从视觉系统提取的位置和姿态)。这个约束是用来识别场景中的对象,在这个例子中要解决的一瓶果汁。第二个例子展示了一个索引的引用这个词也增加了约束(33]。在这种情况下,遗漏变量必须解决一个对象在现实世界中,一瓶果汁。请注意,我们调用一个空间和直证的分辨率;然而,我们没有指定一个特定的机制来执行这种类型的决议。有效的解决机制的主题索引的表情仍是研究在不同领域34- - - - - -36),应用机制取决于类型的表达式和类型的任务得到解决。在这项工作中,我们定义索引的DOA的解析表达式和机制可以应用的条件。


标志 表示 约束 解决

这是果汁+指向手势 ( ) 构成的对象
把它 ( ) 对象

4所示。对话模型和机器人

在我们的机器人,模块之间的协调执行期间执行的任务是通过对话模型。这些对话模型使用SitLog编程语言编写服务机器人。模型由一组对话的情况下有一个相关的元组的预期,行动,和明年的情况下。在一个典型的互动循环,机器人是在一个给定的情况下,它有一定的期望;如果到达解释匹配一些期望,机器人继续执行相关的操作和移动到另一个的情况。在这个框架中,执行一个任务包含在遍历一个对话模型模块提供解释和执行的操作定义的对话模型。此外,在SitLog,可以动态的主要元素定义为函数,构建对话的结构模型。也可以调用另一个对话模型从一个特定的情况。图1描述了这些情况:(一)它显示了一个典型的SitLog弧的情况 有一个期望 ;如果这是满意的,行为的集合 执行和电弧到达情况 (b)这是定义的元素是函数和定义的期望将评价函数 ,行动 ,接下来的情况 。特别是,这些属性使它可能计划动态对话模型变化任务执行。(c)它显示的情况递归情况下,形势下整个对话模型执行,完成时,它使用过去情况的名字作为自己的期望。算法1介绍了为这些情况下SitLog代码。

id= = >s_i,
= = > α:betha= >s_j
id= = >s_i,
= = > f (x):g (y)= >h (z)
id= = >s_i,
embeded_dm= = >r (m)
= = > α:betha= >s_j

SitLog framework-agnostic的核心;一个可以实现不同的框架如包容(37),反应(38),或简单状态机架构。在我们目前的实验室,我们已经开发出一个完整的图书馆基于我们的交互行为和任务周期的这是一个高水平的认知体系结构(IOCA [4,39])。与体系结构相关,我们已经实现了一些技能如视觉、语言(40)、声音(5),导航,操作,和运动。使用这个框架,我们编程Golem-II +机器人(如在图所示2(41])。表2总结了主要功能模块和硬件组成的机器人。在这个框架和当前版本的硬件,我们实现了几个任务,比如一个人后,介绍自己,寻找对象,作为宴会或餐厅的服务员42),保护博物馆,玩游戏比赛的记忆(任务的例子,请访问http://golem.iimas.unam.mx/)。


模块 硬件 软件库

对话管理
对话管理器 - - - - - - SitLog
以知识为基础 - - - - - - 序言

愿景
对象识别 跳蚤3相机 机动脚踏两用车
人识别 网络摄像头 OpenCV
人跟踪 Kinect OpenNI
手势识别 Kinect OpenNI

语言
语音识别 定向麦克风 PocketSphinx
语音合成器 演讲者 节日TTS
理解 - - - - - - GF语法,IH解析器

声音感知
DOA系统 3全向麦克风 - - - - - -
量监控 定向麦克风 杰克,IH图书馆
量监控 M-Audio快速通道接口 杰克,IH图书馆

导航、操纵和脖子
导航 机器人基地,激光 球员
操纵 IH机械手臂 Dynamixel RoboPlus
颈部运动 IH的脖子 Dynamixel RoboPlus

4.1。Multiple-DOA评估系统

执行的DOA技能是multiple-DOA评估系统。这是基于以前的工作集中在一个小,轻量级的硬件设置,能够估计新风比的麦克风使用(5,43]。

从硬件的角度来看(见表2、声音感知部分),系统使用一个二维数组3-microphone(见图4)经历4-channel USB接口。从软件的角度来看,架构图中可以看到3。系统分为三个部分。

音频采集。这是底层模块为音频数据到另一个系统的一部分。它是基于杰克音频连接工具包(44),它提供了高分辨率数据(48 kHz,在我们的例子中)在实时速度非常高的公差在麦克风的数量管理和资源需求相对较小。这个捕获音频通过VAD激活本地化。

初始Single-DOA估计。对于每一个时间窗口,每一对麦克风用于估计使用互相关信号延迟向量(闭路)方法(请参见图3,single-DOA估计块)。每个延迟是用来计算两个初步DOAs(考虑前后颠倒的镜像问题 维数组构成)。使用一个基本的搜索方法,最连贯的 DOAs ( 从每一对麦克风),使用提出的一致性指标(见图5)。如果相干的组高于某个阈值,一双垂直向的DOA源提出了作为其DOA;这双是选择避免非线性延迟之间的关系和由此产生的DOA。图5说明了这个舞台。

Multiple-DOA跟踪。因为前面的部分进行DOA估计接近实时的速度,它能够从一个源估计DOA小时间窗口,甚至在有两个或更多的实例同时声音来源(见图3,multi-DOA跟踪块)。不过,很幸运的发生时间窗口在这种情况下是随机源。这种效应,提出了一种DOA从之前的系统的一部分,采用了一种聚类方法来几个附近的DOAs分组到一个或多个估计声音来源的方向。

6显示三个扬声器的跟踪 秒;每个演讲者是隔开的 度。可以看到,这个跟踪是很有效的,因为它可以本地化的每个发现的来源。在这个例子中,系统精度69%和60%召回在帧级性能。表3提出了一种评估整个系统。虽然它可能会认为这对HRI交互性能是不够的,因为它是在帧标签(即。,100 ms), in an interaction setting when turns are being taken, this performance is more than enough to catch the interaction of a user. An extensive evaluation of this module can be consulted in [43]。


最小距离的演讲者 30厘米
最大距离的演讲者 5米
最大数量的同时扬声器 4
响应时间 年代
范围(最小夹角扬声器) 10
报道 360年
- - - - - - 1人 100.00%
- - - - - - 2人 78.79%
- - - - - - 3人 72.34%
- - - - - - 4人 61.02%

5。DOA的行为

DOA行为的目标是将DOA的测量转换为参考对象上下文中的任务。当DOA系统检测到一个源,这个标志与声音的发射器有很强的关系。这个强大的DOA行为利用关系来解决对象被征收“指向”空间限制可能的来源。空间约束的相对位置 的源 鉴于目前机器人的位置(例如, )。在这一点上,我们只有是在位置的信息 ;然而,由于我们考虑DOA索引,我们可以使用公式(1减少为指标),这样我们得到以下: 尽管我们能够限制的对象,到目前为止,我们还没有解决了索引正确的指示物;为了达到这个目标,我们需要使用上下文信息。DOA的角度是用来识别潜在对象的上下文。算法2负责这项决议阶段通过分析哪些对象上下文约束满足DOA。

需要:DOAs Pred上下文
确保:
如果 然后
如果
结束了
结束了

整个机制是封装在一个行为的编程模型(参见图作为一个简单的对话7)。这个对话模型可以处理多个独立;对于每个人来说,这将试图解决被提到的对象。如果成功,它创建一个 情况与所指对象的列表,否则,它达到错误的情况。拟议的DOA行为支持交互两个模式:(我)无限制的电话。(2)更符合实际的调用。

第一种情况对应的场景,在该场景中,用户的位置不能期望/事先预测;在本例中,上下文的描述 是空的意思是只有一个用户存在(图8(一个)描述了机器人在这种情况下);即指标直接解释为用户机器人互动。在第二种情况下,机器人有一个期望的方向,它将调用使用这种期望确定调用者。例如,图8 (b)描述了机器人和两个用户对话;的信息的位置,它可以丢弃三分之一用户不是谈话的一部分。

到目前为止,我们已经假定机器人不动,但是用户应该能够调用机器人移动时。为了解决这种情况下,我们创建了一个由行为使机器人行走距离和监听可能调用。图9显示了这种行为的对话模型。要求这种行为 ; 代表了目的地, 空间环境的描述。首先,行为开始的行动 的机器人的民意调查,尽管这样做可能DOAs的来源 。如果没有,它继续走;否则,它结束了对话的情况 它包含相关的信息中断。空间上下文在每次调用更新当前位置的机器人。注意,这种行为重用简单DOA行为(情况 )。

对于另一种情况,当用户移动时,信号DOA强加了一个额外的约束指数。这个约束是相对位置的DOA之前来自同一声源DOA这额外的信息是由multiple-DOA估计系统的跟踪阶段。多亏了这个约束,我们可以使用相同的机制迄今概述来处理这种情况。结合散步和听的行为,他们可以蜡烛场景,在该场景中,用户和机器人移动。

另外,我们还建议使用DOA行为来验证声音来源的数量在一个特定的时刻。特别是,我们已经创建了一个由行为之间的问和DOA行为,利用这种情况。图10这种行为显示了对话模型。后问一个问题 从用户和听答案,机器人检查有多少指数(即恢复。元素的个数 ):如果只有一个,它可以进行交互;如果不止一个,多个用户的机器人推断说话,所以它会产生一个错误必须由机器人处理。类似于行走行为,这种行为重用简单的DOA的行为。

6。执行任务

DOA行为被用来与我们的机器人程序以下任务Golem-II +(这些任务可以观看的视频https://youtube/Q6prwIjoDnE?list=PL4EiERt__u4faJoxHF1M5EMwhEoNH4NSc)。

后一个人。在这个任务中,机器人是一个人通过视觉跟踪系统(基于kinect)。机器人试图保持1米的距离;在用户移动,机器人试图捕捉它在一个安全的速度。在机器人失去他,它要求用户称之为所以机器人可以推断出哪个方向去寻找。一旦放置在正确的方向上,它使用视觉继续跟踪使用。失去时,用户可以在任何方向和在一个5米的比例和机器人将确定它在哪里。如果用户没有找到,它会坚持被称为并再次尝试找到他(全系统的演示,请参阅补充视频person.mp4后在网上补充材料http://dx.doi.org/10.1155/2016/3081048)。

出席。在这个任务中,机器人将出席在类通过调用类的成员的名字和每个调用,预计听觉反应。确定反应的方向时,它面临着向那个方向,检查如果有一个人问波,并接近核实学生的身份。学生的数量是有限的视觉系统只可以看到多达四个不同的人。他们必须位于一条直线;目前,任务不考虑多个行。我们利用这个设置指定一个空间环境中,学生只有在前面的机器人(全系统的演示,请参阅补充视频采取class.mp4出席)。

在马可波罗。在这个任务中,机器人的角色寻找用户,适合马可和期待一个或多个马球响应。当确定响应的方向,它走向那个方向。当这个方向前进,如果前面的激光传感器承认有人近距离,它假定它赢得了比赛;否则,它继续打电话马可直到用户响应。机器人有 试图抓住用户;如果不是,它放弃和失去了比赛。激光假设有人在前面,如果它检测到一个不连续的阅读。在此设置中,玩家可以位于任何方向的比例5米(全系统的演示,请参阅补充视频玩Marco-Polo.mp4)。

服务员。在前面的例子中,DOA的行为依赖于机器人的倡议。这个任务将行为mixed-initiative策略。在这种情况下,机器人是一个服务员,它等待电话用户位于餐厅表。一次表调用在远处,机器人会走到表的订单客户。然而,尽管走,它会倾听其他调用不同的表;如果发生这种情况,它可以让用户在相应的表中知道它将尽快完成表目前步行。在接受订单时,机器人将交互如果多个客户端同时进行谈判。一旦订单,继续把它的饮料/食物从指定的传感器位置在厨房区域或直接问厨师。这个任务的最大数量是有限的资源,可以同时检测( )。在这种情况下,表参加的最大数量 的最大数量 客户在每个表;这要比5米(整个系统的演示,看到补充视频服务员在restaurant.mp4)。

我们假设的成功交互的每个任务是有可能的,因为利用DOA信息索引完全解释每个任务的上下文中。这些上下文之间的物理关系符号(调用)和对象(用户或用户)明显。见表4总结的主要元素参与的分辨率DOA指标在每个任务和详细如下。


后一个人 将出席

代理 人被跟踪 学生
机器人的目标 跟踪一个人 验证学生现在
用户目标 被跟踪 是在课堂上
DOA的行为 在远处叫 在远处叫
情况 用户丢失 叫学生的名字
标志 在这里 现在
表达式
决议
解释 目标和它的位置 学生和位置

在马可波罗 服务员

代理 球员 客户
机器人的目标 抓住一个球员 接受和交付订货
用户目标 不被抓住 收到订单
DOA的行为 在远处叫 在远处叫验证
情况 马可 机器人无所作为或要求秩序
标志 马球 服务员
表达式
决议
解释 球员和它的位置 表顺序和客户交谈

在的情况下后一个人任务,直到用户和地址的机器人已经失去了她或他,被解释为用户的响应和方向,它可以寻找它的用户;这是一个无约束的情况下电话的空间上下文是空的。没有上下文,机器人能够建立用户的相对位置。

在的情况下将出席任务,交互的协议很标准。机器人叫学生的名字,她或他必须应对这些调用。这样的反应是解释为学生的存在及其相对位置。在这里,我们可以限制的呼声在机器人的前面。

在的情况下在马可波罗任务,规则定义的上下文调用解释。这些规则指定,当机器人说马可,用户必须应对马球;此类反应的指数的相对位置可以解释为一个特定的球员,它可以直接机器人看起来在这个领域。这个任务也使用一个不受约束的调用。事实上,用户甚至不需要说马球,因为这个游戏的目的是,机器人“捕获”的一个单独用户通过声音;因此,任何声音的DOA可能被视为一个索引;这个DOA指用户。

在的情况下服务员任务,定义的空间上下文是安排在餐厅的表。这个任务使用这个空间上下文来解释表要求机器人的注意。引发的约束DOA信息帮助识别调用表,并建立了其相对位置。任务使用简单版本和步行版本的DOA行为解决指标。此外,它使用问版本的DOA行为时的顺序。提供的信息要求机器人使用的版本是面对客户在把他们的订单和直接问的交互用户说话的时间。

6.1。DOA行为任务的应用

11显示摘录对话模型后一个人,将出席,在马可波罗任务。鉴于DOA的行为,所提供的信息后一个人在马可波罗不能识别用户的任务;就好像他或她只会说我在这里。机器人这种交互的反应不是语言,而是行动;在这两种情况下,结果电话的方向。如果一个错误检测的DOA,机器人将尝试恢复。在后一个人任务,跟踪的人会引发一个错误当没有人发现,它将为用户的电话又问。在在马可波罗任务,机器人会重复马可,等待答案,继续游戏。因为的性质点名任务,指数信号的解释一个特定的学生即使在一个未指定的上下文,因为机器人知道学生的名字被称为,和响应是由于他或她。就好像他或她就会回应道我X,我在这里。在这个任务中,机器人试图防止错误在DOA的位置和它检查如果有一个实际的人在那个方向,但它不是,它会叫学生的名字。

12显示了DOA的行为服务员的任务。这个任务使用的三个行为基于DOA的技能。首先,它使用DOA行为但定义上下文。索引的解释取决于空间上下文和它将定义表调用机器人。在这种情况下,就好像客户会说表X需要的东西。的任务,一个错误有较大的影响;如果机器人误方法表没有要求,它将提供的订单客户有可能拒绝或如果表是空的机器人将会离开。然而,真正想问订单的表可以叫机器人在步行,这样当机器人是完成了错误的表,它将正确的方法。在这些运动,行走任务使用DOA的行为。最后,当到达一个表问订单,任务使用问DOA的行为,如果一个以上的索引返回响应,它会让客户知道只有一个用户应该是一次谈话。如果DOAs的检测错误发生在这部分的任务,它将创建一个机器人的混乱局面将面临客户不存在;然而,如果没有客户的答案,机器人将假定“鬼”客户端不希望任何东西,并将继续与其他接受订单和交付。

6.2。历史的演示和评估任务

后一个人,马可波罗,服务员任务已经在我们实验室重复证明了公众和RoboCup@Home竞争(45,46]。这些示威活动的经验在比赛中是积极的。在2012年,后一个人任务是在德国公开竞争,演示允许团队获得第三名,并在墨西哥的比赛机器人国家竞争,机器人获得了第一名。在2013年,服务员任务提出了世界杯赛的第一阶段比赛中,荣获创新奖的@联盟。此外,同年,示威的机器人和另一个机器人玩马可波罗未遂但技术问题阻碍了执行演示在竞争,但它成功地向公众进行。在所有这些情况下,我们观察到一个积极的集成声音定位在人类和机器人之间的交互。特别是,服务员任务已经广泛评估(42]。这个评价是与最终用户(30)被要求订货的机器人。 没有经验的用户与服务机器人。我们发现,当要求订单,客户反复称为距离( )和完全完成任务( )。尽管并不是常见的两个用户同时交谈( ),当他们做,机器人能够直接的交互。

在的情况下将出席为期三周的任务,这是编程的学生暑期实习。学生以前没有认识我们的开发框架。在实习期间,他们学会了框架,发展理念,实现机器人。其他四个小组的学生发展其他四个不同的任务。的技能作为一个元素的抽象SitLog语言使它相对容易直接实现任务和达到一个适当的性能在短时间跨度。

7所示。讨论

在这项工作中,我们提出了利用声源的方向到达指数。在许多人机交互任务,对象的位置是至关重要的执行任务,例如,失去一个人而他或她。在这个角度看,DOAs是二等公民,因为他们不提供一个位置,但方向。然而,治疗DOAs等指标允许机器人链接对象的方向在空间环境中导致的正确解释和延续的任务,猜测,失去的是一个方向。这种考虑允许建模要求在远处一个机器人是一个可取的方式与交互式代理进行交互。为了证明这个概念,我们实现的一组行为取决于DOAs被解释为指标和测试他们在四个任务:一个人后,类的出勤率,玩马可波罗,作为一个服务员在餐馆。

空间上下文,或缺乏,定义方面的交互类型的任务。当没有可用空间上下文,例如当马可波罗,任何索引被机器人作为一种可能的参与者。然而,当一个空间上下文定义,例如,在一家餐馆参加表,可以跟踪多个用户。还可以有一个mixed-initiative互动的机器人等待电话,而不是访问每个表和问他们想要的任何东西。DOAs的indexicality允许机器人反应用户并继续交互的方向,不一定是在相同的模式:马可波罗,机器人移动的方向指数;在将出席后一个人任务,机器人通过视觉方法确认了用户的存在的方向指数;在服务员任务,机器人面临对应索引的表。这些交互作用的三种可能的方面当使用索引的DOAs (mixed-initiative,多用户和多通道)的一个例子是丰富的使用电话在远处的交互。

此外,我们表明,DOA补充言语互动行为。特别是,知道有不止一个人说当机器人听是一个好迹象,交互可能不是很好。索引的信息,机器人可以控制和直接的交互通过要求每个用户说一次,防止错误的沟通。

以来我们能够实现这些任务multiple-DOA估计系统是光和强劲的四声音来源。然而,这个系统和其他机器人系统强加一些限制交互。对于一个人后,它只能跟一个人近距离(1米);在出席的情况下,学生必须一致;在我们的测试中,有三个学生;玩的马可波罗和等待表、用户、球员和表,必须在一个5米的比例。在所有这些情况下,扬声器的最大数量可能是四个。然而,在这种情况下,系统的性能是最贫穷和有影响的交互;我们的评估显示,一个用户对马可波罗和两个用户表在服务员的情况下实现良好的性能。在这一点上,另一个主要问题是劫持的可能性的关注机器人。 This is related to the fact that when the spatial context is not defined, the robot automatically interprets the DOA as its target. This is exemplified with the Marco-Polo game. At the moment, our implementation of the task takes advantage of this situation and an index is interpreted as a possible user which becomes the target to approach. However, this situation can provoke the fact that the robot switches targets constantly rather than targeting one which might be a better strategy to win the game. In order to account for this situation, we have identified that the DOA behaviour could be complemented with a speaker verification stage in which the identity of who is responding with马球将得到证实。这个补充持续我们的建议,因为它变成了一个额外的约束称为对象。其他任务也可以利用这一点,因此验证的一部分后一个人,将出席,服务员任务。在未来,我们将探讨补充DOA与验证和其行为后果的交互。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

作者感谢CONACYT通过项目81965年和178673年的支持,通过项目IN107513 PAPIIT-UNAM,通过项目picco12 ICYTDF - 024。

补充材料

person.mp4后:In this video a GolemII+ follows a person, when robot lost the sight of its user it ask this to call it. The direction of arrival of this call is interpreted as an index for its user so it decides to look for it in that direction to continue with the task.

采取class.mp4出席:In this video GolemII+ takes attendance of a class. After calling the name of a student it expects for answer. The direction of arrival of such answer is used as an index of the student, the robot faces that direction and verifies the identity of the student.

玩Marco-Polo.mp4:In this video GolemII+ plays the MarcoPolo game. The robot says “marco” and expects for the “polo” answer by another player. The direction of arrival of such answer is used as an index. It uses this information to explore and look for the other player in that direction.

服务员在restaurant.mp4:In this video GolemII+ acts a waiter. It expects for the calls from the tables. Once it is called it approaches the table to ask for the order. When multiple clients talk simultaneously to the robot, it asks them to do it one by one. While approaching to a table other table can call it. In all this cases, the direction of arrival of the call is used as an index in context of the spatial information.

  1. 补充材料

引用

  1. c·皮尔斯:豪斯,c . Kloesel基本皮尔斯:选择哲学著作的第1卷必要的皮尔斯,印第安纳大学出版社,1992年。
  2. c·皮尔斯:豪斯、c . Kloesel和p e项目,基本皮尔斯:选择哲学著作的第2卷必要的皮尔斯,印第安纳大学出版社,1998年。
  3. 洛杉矶皮l·萨利纳斯诉面向社会,c . Rascon g·富恩特斯,“坐日志:服务机器人任务的编程语言,“国际先进的机器人系统杂志》上,10卷,1 - 12,2013页。视图:出版商的网站|谷歌学术搜索
  4. l .皮a . Rodrguez g . f c . Rascn和面向社会,“服务机器人的概念和功能结构”,国际先进的机器人系统杂志》上》第六卷,页1 - 15,2015。视图:出版商的网站|谷歌学术搜索
  5. c . Rascon和l .皮”多个direction-of-arrival估计与小型移动机器人平台硬件设置,”IAENG交易工程技术、h·k·金siv。Ao, m . a . Amouzegar比比Rieger, Eds。卷,247课堂讲稿电气工程施普林格,页209 - 223年,阿姆斯特丹,荷兰,2014年。视图:出版商的网站|谷歌学术搜索
  6. 美国。阿尔真蒂耶——a . Portello m·伯纳德·p·丹麦人,和b气体,“双耳在机器人系统”双耳听力的技术施普林格,页225 - 253年,柏林,德国,2013年。视图:谷歌学术搜索
  7. h . g . Okuno和k . Nakadai”机器人听觉:中国的崛起和观点,”《IEEE国际会议音响、演讲和信号处理(ICASSP 15),页5610 - 5614,南布里斯班,澳大利亚,2015年4月。视图:出版商的网站|谷歌学术搜索
  8. 美国。阿尔真蒂耶——p .丹麦人,p . Soueres”在机器人声源定位的一项调查显示:从双耳阵列处理方法,”电脑语音和语言,34卷,不。1,第112 - 87页,2015。视图:出版商的网站|谷歌学术搜索
  9. 布雷西亚c·r·a·布鲁克斯还,m . Marjanovićb . Scassellati m·m·威廉姆森,“齿轮项目:建立一个人形机器人,”计算隐喻、类比和代理卷,1562在计算机科学的课堂讲稿施普林格,页52 - 87年,柏林,德国,1999年。视图:出版商的网站|谷歌学术搜索
  10. h .北野h . g . Okuno k . Nakadai t . Sabisch和t .松井”团体的人形的设计和架构:一个实验平台的综合感知机器人世界杯赛人形的挑战,”《IEEE / RSJ智能机器人和系统国际会议(——' 00),1卷,页181 - 190,IEEE,高松,日本,2000年。视图:出版商的网站|谷歌学术搜索
  11. f . Michaud c . Cote d一起et al .,“斯巴达克斯党参加2005年AAAI大会,”自主机器人,22卷,不。4、369 - 383年,2007页。视图:出版商的网站|谷歌学术搜索
  12. 人类。华菱,山本,j . Rouat f . Michaud k . Nakadai和h . g . Okuno”强大的移动机器人识别同步的语音,“IEEE机器人,23卷,不。4、742 - 752年,2007页。视图:出版商的网站|谷歌学术搜索
  13. f .浅野i Hara h . Asoh et al .,”鲁棒语音界面基于音频和视频信息融合为人形HRP-2”《IEEE / RSJ智能机器人和系统国际会议(——“04),3卷,第2410 - 2404页,2004。视图:出版商的网站|谷歌学术搜索
  14. j·c·默里·h·r·欧文,s . Wermter”机器人声源定位架构使用互相关和复发性神经网络,”神经网络,22卷,不。2、173 - 189年,2009页。视图:出版商的网站|谷歌学术搜索
  15. 》。金,js。崔,m .金正日“视听一体化,在真实环境中人机交互”国际期刊的控制、自动化和系统,5卷,不。1,第69 - 61页,2007。视图:谷歌学术搜索
  16. 在公元前。公园,K.-D。禁令,K.-C。夸克和H.-S。Yoon”,声源定位基于视听信息智能服务机器人,”学报》第八届国际研讨会上先进的智能系统(伊希斯' 07)Sokcho,页364 - 367年,韩国,2007年。视图:谷歌学术搜索
  17. a . Badali人类。华菱、f . Michaud和p . Aarabi”,评估实时音频定位算法在机器人人工试镜,”《IEEE / RSJ智能机器人和系统国际会议(——' 09),页2033 - 2038年,圣路易斯,小姐,美国,2009年10月。视图:出版商的网站|谷歌学术搜索
  18. d . Bohus和e·霍维茨”,促进多方对话框与目光、手势和演讲,”学报》国际会议多通道多通道交互的接口和车间的机器学习(ICMI-MLMI 10),页5:1-5:8,北京,中国,2010年11月。视图:出版商的网站|谷歌学术搜索
  19. k . Nakadai h . g . Okuno h .北野,“机器人试镜,实时声源定位和分离”《IEEE国际会议上口头语言处理(ICSLP ' 02)科罗拉多州丹佛,页193 - 196,美国2002年9月。视图:谷歌学术搜索
  20. v . m . Trifa a . Koene j . Moren和g . Cheng“实时声学源定位人与机器在嘈杂的环境中多通道交互,”学报》第16届IEEE国际会议上机器人和人类互动交流(RO-MAN ' 07)2007年8月,页393 - 398。视图:出版商的网站|谷歌学术搜索
  21. j·g . Trafton m . d . Bugajska b . r . Fransen和r . m . Ratwani”整合视觉和听觉认知架构中跟踪对话,”学报》第三届ACM和IEEE国际会议上人机交互(HRI ' 08)ACM,页201 - 208年,2008年3月。视图:出版商的网站|谷歌学术搜索
  22. k . Teachasrisaksakul n . Iemcha-Od s Thiemjarus, c . Polprasert“议长室内机器人导航、跟踪模块”学报》第九届国际会议上电气工程/电子、计算机、通信和信息技术(ECTI-CON 12)4 p。1, 2012年5月。视图:出版商的网站|谷歌学术搜索
  23. 李x m .沈w . Wang和h . Liu“实时声源定位的移动机器人基于引导spectral-temporal位置的方法,”国际先进的机器人系统杂志》上第78条,卷。9日,2012年。视图:出版商的网站|谷歌学术搜索
  24. b . Fransen诉Morariu,大肠马丁森et al .,“使用视觉、声学和自然语言歧义,”ACM和IEEE国际会议的程序人机交互((HRI ' 07),页73 - 80,阿灵顿,弗吉尼亚州,美国,2007年3月。视图:出版商的网站|谷歌学术搜索
  25. k . Nakadai山本,h . g . Okuno h .只是,长谷川y,和h . Tsujino“机器人裁判剪刀声音游戏,”诉讼的IEEE机器人与自动化国际会议上08年举行(“国际机器人与自动化会议”)IEEE,页3469 - 3474年,帕萨迪纳,加利福尼亚州,美国,2008年5月。视图:出版商的网站|谷歌学术搜索
  26. 吉井Nishimuta, k . Itoyama k和h . g . Okuno”向quizmaster机器人基于语音的多方互动,”先进的机器人卷,29号18日,第1219 - 1205页,2015年。视图:出版商的网站|谷歌学术搜索
  27. h . m ., w .盛,m .刘“听觉感知的一个开放的平台为家庭服务机器人”《IEEE / RSJ智能机器人和系统国际会议(——“15)IEEE,页6161 - 6166年,汉堡,德国,2015年9 ~ 10月。视图:出版商的网站|谷歌学术搜索
  28. a·g·布鲁克斯和布雷西亚c还使用机器人和对象:回顾直证的参考实现空间共同立场,”学报第一ACM SIGCHI / SIGART人机交互会议(HRI 06年),页297 - 304,盐湖城犹他,美国,2006年3月。视图:出版商的网站|谷歌学术搜索
  29. o . Sugiyama t .神田,m . Imai h .石黑浩和n . Hagita“自然直证的交互模型,”在社会机器人人机交互,104卷,2012年。视图:谷歌学术搜索
  30. h . g . Okuno k . Nakadai K.-I。Hidai h .沟口健二,h .北野”,“人非语言交互授权通过听觉和视觉multiple-talker实时跟踪,”先进的机器人,17卷,不。2、115 - 130年,2003页。视图:出版商的网站|谷歌学术搜索
  31. 答:特金,“皮尔斯的符号,理论”斯坦福哲学百科全书e . n . Zalta Ed, 2013。视图:谷歌学术搜索
  32. 在d·卡普兰,”Dthat。语法和语义艾德,p·科尔,9卷,第243 - 221页,学术出版社,纽约,纽约,美国,1978年。视图:谷歌学术搜索
  33. l·皮·g·加尔萨,“多通道引用解析模型”,计算语言学,26卷,不。2、139 - 193年,2000页。视图:出版商的网站|谷歌学术搜索
  34. r . Mitkov用来解决朗文,卷。134年,伦敦,英国,2002年。
  35. j . r . Tetreault“定心和代词分辨率的基于语料库的评价。”计算语言学,27卷,不。4、507 - 520年,2001页。视图:出版商的网站|谷歌学术搜索
  36. 诉Ng和c的羊毛衫,提高机器学习方法算法”美国40对计算语言学协会年度会议,页104 - 111,计算语言学协会,2002。视图:谷歌学术搜索
  37. r·a·布鲁克斯,“如何建立完整的生物,而不是孤立的认知模拟器”架构情报,k . VanLehn Ed, 225 - 239年,1991页。视图:谷歌学术搜索
  38. r·p·Bonasso r . j . Firby大肠手枪,d . Kortenkamp d·p·米勒和m . g .松弛”为智能架构的体验、活性代理”实验和理论人工智能杂志》上,9卷,不。2 - 3、237 - 256年,1997页。视图:出版商的网站|谷歌学术搜索
  39. 洛杉矶皮我就,h·h·铁砧et al .,“IOCA: interaction-oriented认知架构,”研究计算机科学54卷,第284 - 273页,2011年。视图:谷歌学术搜索
  40. 即面向社会、c . Rascon和洛杉矶皮“情景化服务机器人的实用语音识别,”先进的软计算及其应用:12日墨西哥人工智能国际会议上,MICAI 2013年,墨西哥城,墨西哥,2013年11月能力,程序,第二部分卷,8266在计算机科学的课堂讲稿施普林格,页423 - 434年,柏林,德国,2013年。视图:出版商的网站|谷歌学术搜索
  41. l .皮和g . Golme Grupo傀儡:robocup@home”《机器人世界杯赛p。8日,本届联合会,埃因霍温,荷兰,2013年6月。视图:谷歌学术搜索
  42. c . Rascon面向社会,g . f l·萨利纳斯和洛杉矶皮”整合multi-doa评估功能,人机交互,”国际先进的机器人系统杂志》上,12卷,不。8,2015。视图:出版商的网站|谷歌学术搜索
  43. c . Rascon g·富恩特斯,面向社会,“轻量级multi-DOA跟踪移动语音来源,”EURASIP杂志在音频、语音和音乐的处理,卷2015,不。1,硕士论文,2015页。视图:出版商的网站|谷歌学术搜索
  44. p·戴维斯,杰克连接一个有声的世界,http://jackaudio.org
  45. t . van der Zant和t . Wisspeintner杯赛X:新联盟的提议举办的现实世界,”“机器人足球世界杯”2005:第九机器人足球世界杯a . Bredenfeld, a . Jacoff。野田佳彦,Eds)。卷,4020在计算机科学的课堂讲稿,第172 - 166页,2006年。视图:谷歌学术搜索
  46. t . Wisspeintner t·范德Zant l . Iocchi和s·希弗,”RoboCup@Home:科学竞争和基准为国内服务机器人,”相互作用研究,10卷,不。3、392 - 426年,2009页。视图:出版商的网站|谷歌学术搜索

版权©2016伊凡就等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1295年
下载594年
引用

相关文章