Parameterless-Growing-SOM语音指令学习系统及其应用

文摘

一种改进的自组织映射(SOM) parameterless-growing-SOM (PL-G-SOM),本文提出了。克服存在的问题在传统SOM (Kohonen, 1982),各种structure-growing-SOMs或parameter-adjusting-SOMs发明并通常分开。在这里,我们把越来越多的想法索姆(鲍尔和Villmann, 1997;Dittenbach et al . 2000年)和无参数SOM(巴瑞和Sitte, 2006)是一本小说SOM名叫PL-G-SOM实现额外的学习,优化社区保护和自动调优参数。改进SOM应用于构建一个语音指令学习系统合作伙伴机器人采用一个简单的强化学习算法。用户的指令的声音由PL-G-SOM分类,然后机器人根据随机选择一个预期的行动策略。的政策调整机器人的用户给出的奖励或惩罚。感觉地图也是为了表达学习程度的语音指令。学习和其他学习实验使用指令在多种语言包括日本,英语,中文,和马来西亚证实了该系统的有效性。

1。介绍

Kohonen的自组织映射(SOM)是一种神经网络映射一个高维输入到一个常规的低维网格有序的通过无监督学习计划(1- - - - - -4]。因为它的简单算法和强大的性能,SOM开发,广泛应用于模式识别领域的信号处理、智能控制等(5- - - - - -15]。SOM图书馆的网站(6),超过7000篇论文收集与该技术有关。

一般来说,SOM算法映射一个n在一个输入空间维度特征数据一个单位我在一个低维空间连接输出通过一个简单的规则使用欧氏距离,“赢者通吃”, 即高维输入对应于一个最合适的单位我与位置best-match-unit (BMU)在输出地图。所有输入和随机值和初始连接,一个竞争学习规则输入数据具有类似特性的提高保持密切的可视化输出地图拓扑在哪里学习速率,是一个邻域函数在这里,表示的位置上的任意单元输出地图和BMU,分别是一个常数。很明显,,,。

事实上,输出空间的大小N×米在最初的SOM提前是固定的,和学习速率等参数和社区的规模往往根据经验。这些约束导致两种技术应用程序中的问题(6- - - - - -14]: 固定大小的输出地图防止额外的学习提出了新特性数据时和BMU年代训练输出地图上很难被发现; 退火方案调整学习速率和邻域大小是必要的提高操作的速度输出映射;然而,它通常会增加计算负载实现退火。

SOM增长结构的变化提出了解决第一个问题(7- - - - - -10]。这些SOM的基本思想是将输出特性与小型最初地图,例如,2单位,然后行/列插入地图在训练中,/当一个最常访问BMU存在(7,10)或单位之间的距离的偏差输入层和输出地图上(8,9]。我们提出另一种方法来解决缺少单位使用内存存储层成熟单位培训过程中地图上的特性和释放成熟单元初始化,即单位来可以重用(12,13]。特征数据集时学习系统的输入,搜索过程相应BMU记忆层,功能映射SOM只是成为一个中间产生的地图,我们称之为瞬时SOM (T-SOM)。

为了解决第二个问题,也有各种方法,如减少学习速率(在(2))和邻域大小(在(3)线性,乘以衰减系数,计算输入空间邻域大小,或使用卡尔曼滤波器在输出空间找到BMU (6]。巴瑞和Sitte提出一种低成本的无参数SOM算法(PLSOM)最近使用输入和地图之间的拟合误差只决定退火方案(11]。

在这篇文章中,我们将日益增长的SOM算法的概念和方法PLSOM构建小说SOM名字parameterless-growing-SOM (PL-G-SOM)应对SOM上面描述的问题。这个新的PL-G-SOM增加其结构适应输入数据,和免疫印迹参数实现敏感集群自动输出空间。我们还采用PL-G-SOM成语音指令学习系统,它是一个自动分类器的输入特征以及T-SOM已经应用于手形象指导学习系统(12,13和一个语音指令学习系统14]。

本文的其余部分组织如下。部分2礼物PL-G-SOM的细节。部分3显示了一个使用PL-G-SOM语音指令的学习系统。节4用4种语言,指导学习实验报告确认的能力提出了系统的学习和其他学习。部分5是结论。

2。一个新的SOM: PL-G-SOM

2.1。增长的输出地图

构建一个日益增长的SOM哪个更敏感更大的输入数据类别比较与SOM提前固定大小,提出了不同的标准。Fritzke选择插入一个新行/列相邻网格(最常访问BMU在增长7]。地图放大的原因则是,早期的地图可能被视为一个粗和BMUs可能性需要提高分辨率处理输入的变化。同时,鲍尔和Villmann建议增加单位的方向,甚至新维度之间的最大误差输入数据和输出地图GSOM [8,9]。然而,扩大输出映射的过程在网格生长或GSOM相似,如图1。事实上,当一个新的行/列需要插入BMU的邻居c例如,在中间c和f,输入和新节点之间的连接权重的平均值c和f: 他们也一样r的邻居在哪里或米。单位f选择具有最大欧氏距离BMU吗c的邻居c,在这个过程中,地图大小变化,或。

图1

c

f

c, r

行/列插入功能映射。单位是一个BMU,最远的单元的邻居吗插入的行/列。

然而,我们使用相同的成长过程提出的一个新的准则选择BMU关于强化学习算法当SOM采用人机交互学习系统。细节将在部分3。

2.2。退火的参数

决定学习速率和社区功能的大小,我们采用的方法PLSOM巴瑞和Sitte[提出的11]。的学习速率或附近的大小计算输入和BMU之间的距离: 在哪里是积极的参数,例如,价值可能是地图的大小和1.0,分别。

竞争学习规则的输入和输出之间的连接单元,(2),可以改变一个在线学习算法

3所示。一个声音指令使用PL-G-SOM学习系统

语音指令学习系统应该是作为一个自治机器人的内部模型,执行各种可用的行动当外部信号在输出声音起初并学会请求操作使用老师的奖励或惩罚。因此,系统支持机器人保持学习和额外的学习能力。例如,语音指令的机器人学习系统是能够“理解”人类的指令在不同的语言中,或一个宠物机器人“爱宝”[16)很容易用来改变一个新的所有者。

3.1。结构

实现人机交互,构建了自主机器人的内部模型如图2。结构类似于一个学习系统使用Transient-SOM (T-SOM),提出了我们的以前的工作12- - - - - -14]。在[12,13),一只手形象指导学习系统有5层包括输入层、特征地图,行动地图,地图,感觉和记忆层是由与SOM算法和强化学习规则。指令的机器人种类的人类的手的形状,和机器人分类,即图像信号在一个80 -维空间与SOM和自主行动的指令都贴有系列根据随机的政策。教师观察机器人的行动,并提供奖励和惩罚的行动机器人,所以机器人的行动政策能够被修改以配合手的指示图片。在线学习和其他学习,T-SOM采用了一种记忆层用来存储BMUs“成熟”,与单位的记忆和输入特性匹配层之前执行SOM特征地图上。我们也采用退火计划决定社区的规模和学习速率T-SOM,并使用改进的语音指令学习系统T-SOM名叫PL-T-SOM开发(14]。存在于T-SOM然而,一个问题是它的内存只存储层成熟的价值单位没有地图的拓扑特性。即使记忆层可以记住地图训练网络的拓扑特性,新的拓扑将无法建立。出于这个原因,我们提出一种新的语音指令学习系统使用PL-G-SOM节中给出2而不是T-SOM。

图2

12 14 语音指令的结构使用PL-G-SOM学习系统。它类似于系统中使用T-SOM [- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - - - - -- - - - - -- - - - - -- - - - - -- - - - - -),然而,而不是记忆层BMU T-SOM,每个地图的增长与培训。退火计划他们的社区规模和利率由PL-G-SOM学习。

在图2,特征映射的基本增长SOM和行动地图和感觉地图的大小与功能映射。事实上,指示通过语音数据转化为特征向量的输入空间(层),然后PL-G-SOM算法地图上执行的功能,和越来越多的规则由(4)和(5)(图1)也应用于增加活动地图和地图的感觉。行动地图是由这些单位特征地图上对应的单位;即,每个单元操作地图上代表输入数据的各种特性。单位行动地图上标记的强化学习算法给出的部分3.2限制每个特性自适应操作的机器人。感觉地图行动的单位具有相同的分布地图。行动数字来自行动映射是配有一个感觉值表示机器人的动作掌握的程度。感觉地图节中描述的细节3.3。

3.2。强化学习算法

地图上行动单位的价值是由价值函数和行动,也就是说,(8),选择行动的价值吗当机器人,=最初随机数字: 在哪里的经验值奖励()/惩罚()由老师给出,例如,一个积极的常数当机器人行动正确根据其政策功能和负常数相对。

现在假设有单位,存在于行动地图;也就是说,马尔可夫决策过程的状态存在于环境(MDP),每个单元行动选择可用,那么强化学习(RL)算法(17)可用于标签的类单位的美国地图上行动产生了地图的功能。根据(8),可以建立核反应能量表如表所示1。


${年代}_{t}$	${一个}_{t} (1)$	${一个}_{t} (2)$	${一个}_{t} (我)$	${一个}_{t} (K)$

$1$	$6$	$2$	$- - - - - - 8$	$0$
$2$	$10$	$1$	$0$	$1$
$\dots$
$N \times 米$	$0$	$2$	$7$	$2$

对于每个国家提出了语音指令,机器人打算选择一个有价值的行动根据随机行动政策由吉布斯分布(玻耳兹曼分布)所示

在这里,是一个积极的参数指定的温度(17),高引起积极的探索行动(类似的概率下的每个操作被选中),和更低的给出了一个贪婪的选择具有更高的行动相对价值。

我们建议使用作为一个标准大小的增长特性的地图,行动地图,地图的感觉。事实上,当机器人选择高的一个动作但教练法官是错误的,那么一个新行/列插入附近,即BMUc。成长过程中所描述的部分2.1。

3.3。感觉地图

表达的程度如何学习语音指令机器人,感觉映射具有相同数量的单位与行动地图设计(图2)。输入模式的距离BMU特性映射和导师的奖励是用于计算值归一化的感觉(1.0,1.0),高正值意味着幸福和0.0是每个单元的初始值;负值表示悲伤。(使用的学习算法也是12- - - - - -14)是由在哪里)指出,感觉单位的价值最初地图上的感觉(零),C指出继续奖励或惩罚的时候,之间的欧几里得距离(平方误差)是相对应的单元特征地图上吗输入数据,是常数,

4所示。实验

4.1。描述

学习和其他学习实验使用PL-G-SOM提出的系统执行部分3和系统与T-SOM [12- - - - - -14]。

四种声音指令用于实验:坐下来,躺下,站起来,和走。在日本被用来训练系统的指令。额外的学习使用语音指令由其他语言使用日本训练后被处决。三种语言:英语,中文,和马来西亚是用来确认额外的系统的学习能力。的声音被记录在一个正常的房间每条指令3 * 3男性明显。有3个样品一个指令用于各种语言而与48个样品4的行动。

声波是由归一化预处理和噪声消除,和窗口的20间隔生产20输入空间的特征向量。图4显示了一个示例教学”坐下来“在日本(“Osuwari”),英语(“坐下”),中国(“Zuoxia”),和马来西亚(“杜”)。实验中使用的参数如表所示2。


描述	象征	数量

功能T-SOM地图的大小	$N \times 米$	$5 \times 5$
初始大小PL-G-SOM	$N \times 米$	$5 \times 5$
迭代次数为一个指令	$t$	$300年 \times 4$
温度	$T$	1.0
数的指令(操作)	$一个 (我)$	4
最大/最小PL-G-SOM附近	$σ_{马克斯},$ $σ_{最小值}$	$N \times 米 / 2, 0.7$
奖励一个动作	$r$	10.0
参数的映射	$一个, b$	0.2,0.05
数量的样品	- - - - - -	48
采样率	- - - - - -	8 KHz
样本大小	- - - - - -	8位
通道	- - - - - -	单声道的

(一)日本:Osuwari(坐下)

(b)英语:坐(坐下)

(c)中国:Zuoxia(坐下)

(d)马来西亚:杜(坐下)

4.2。结果和分析

T-SOM或PL-G-SOM实现100%认可率为4的行为在不同的语言学习和额外的学习。然而,比T-SOM PL-G-SOM显示速度和更好的收敛之间的欧几里得距离(SE:平方误差)输入和BMUs(图5)。这意味着输入模式的分类被PL-G-SOM更有效地执行。此外,感觉值表达指令正确识别率显示更明显,行动机器人相应指令的声音获得更快更稳定(图6)。图7地图显示功能的内部状态(左)和动作映射(右)改变训练。曲线在每个单元功能映射图7表达的价值观。数字操作地图上用不同的颜色表示不同的动作分类(标签)的强化学习过程中所描述的部分3。

图5

:

12 14 比较的欧几里得距离(SE平方误差)之间的输入和BMUs学习(第一个300次迭代)/ T-SOM[之间额外的学习过程- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - - - - -- - - - - -- - - - - -- - - - - -- - - - - -)(虚线)和PL-T-SOM(实线)。

图6

12 14 感觉值升至1.0的最大幸福根据训练迭代。PL-G-SOM这里提出(实线)显示,(比T-SOM更快和更长的收敛- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - - - - -- - - - - -- - - - - -- - - - - -- - - - - -)(虚线)。

(一)T-SOM: t = 0

(b) PL-G-SOM: t = 0

(c) T-SOM: t = 300

(d) PL-G-SOM: t = 300

数据7(一)和7 (b)显示T-SOM的初始状态和PL-G-SOM随机数。数据7 (c)和7 (d)学习使用日本指令的结果。与T-SOM相比,PL-G-SOM显示拓扑形成更有效的行动;地图上操作,数字的行动集群更清楚。后额外学习,使用英语,中文,和马来西亚300次,分别的大小特征映射和行动PL-G-SOM地图从25 ()单位165 ()(图8)。

(一)功能PL-G-SOM地图(t = 1200)

(b)行动PL-G-SOM地图(t = 1200)

图8

11 \times 15

5 \times 5

结果的特征分类和指令使用PL-G-SOM学习/额外的学习。地图的大小了(165单位)当他们开始(25)的实验。

比例变量用于PL-G-SOM ((6)- (7)改变了训练和人物9,你可以确认减少最终在最初学习;然而,一种新的语言输入时,缩放变量突然改变大,重复其退火方案。图10显示的单位数量的增加内存T-SOM层和PL-G-SOM单位数量的增加。单位增加额外的学习和记忆上的单位数量T-SOM停在33层,同时140辆插入PL-G-SOM每一层。确认这两个学习系统的鲁棒性,我们还测试了嘈杂的样本。

表3显示了识别的不同动作的结果为10%,20%和30%的声音(即添加到48个声音样本。N % 20的数据维度取而代之的是[之间的随机数])。成功的平均利率行动使用T-SOM PL-G-SOM为48.0%和86.7,分别由10倍执行。表4显示了识别的结果率的不同语言各自的样本。


语言	方法	成功率(10%的声音)	成功率(20%的声音)	成功率(30%的声音)

日本	T-SOM	45.9	40.9	35.0
日本	PL-G-SOM	88.5	57.8	46.6
英语	T-SOM	50.8	45.3	27.0
英语	PL-G-SOM	93.2	57.6	39.9
中国	T-SOM	44.5	41.1	32.5
中国	PL-G-SOM	88.3	60.1	43.9
马来西亚	T-SOM	51.0	40.0	37.1
马来西亚	PL-G-SOM	81.9	54.9	47.2
平均	T-SOM	48.0	41.6	33.1
平均	PL-G-SOM	86.7	57.6	44.4


指令	方法	成功率(10%的声音)	成功率(20%的声音)	成功率(30%的声音)

坐下来	T-SOM	48.8	55.2	33.6
	PL-G-SOM	87.2	62.0	42.0
躺下	T-SOM	47.2	34.0	36.4
	PL-G-SOM	90.8	67.2	56.0
站起来	T-SOM	45.6	33.2	25.2
	PL-G-SOM	86.4	48.4	33.2
走	T-SOM	50.4	44.0	37.6
	PL-G-SOM	82.4	52.8	46.4
平均	T-SOM	48.0	41.6	33.1
	PL-G-SOM	86.7	57.6	44.4

图11显示了识别的比较T-SOM和PL-G-SOM当10%噪声存在于所有48个指令样本。

(a)识别利率不同动作的嘈杂的声音(4种语言)

(b)与嘈杂的声音识别的不同的语言(对4种行为)

结果使用PL-G-SOM提出这里展示优势在所有情况下都比传统的学习系统。事实上,我们还调查了使用频率特性识别不同的指令,然而,实验中也观察到类似的结果。

5。结论

PL-G-SOM,提出了一种新颖的自组织映射,利用强化学习算法和退火方案的参数。在线学习与PL-G-SOM和额外的学习,是采用自主机器人的语音指令学习系统代替传统T-SOM。实验结果表明,新的学习系统的优点是速度和噪声鲁棒性。

承认

本文是由科学研究补助金(jsp号。20500207,20500207)。

引用

t . Kohonen“自组织形成拓扑正确的特征图谱,”生物控制论,43卷,不。1,59 - 69年,1982页。视图:谷歌学术搜索
t . Kohonen“分析一个简单的自组织过程,”生物控制论,44卷,不。2、135 - 140年,1982页。视图:谷歌学术搜索
t . Kohonen“自组织映射”,Neurocomputing,21卷,不。1 - 3、1 - 6,1998页。视图:出版商的网站|谷歌学术搜索
t . Kohonen自组织映射信息科学,施普林格系列,施普林格,柏林,德国,1995年。
堡,j·c·m·科特雷尔,g .页面,“SOM算法的理论方面,”Neurocomputing,21卷,不。1 - 3、119 - 138年,1998页。视图:出版商的网站|谷歌学术搜索
SOM的参考书目,http://www.cis.hut.fi/nnrc/refs/。
b . Fritzke "变网格自组织网络与常数附近范围和适应的力量,”神经处理信件,卷2,不。5、参与,1995页。视图:出版商的网站|谷歌学术搜索
H.-U。鲍尔和t . Villmann hypercubical输出增长空间自组织特征映射,”IEEE神经网络,8卷,不。2、218 - 226年,1997页。视图:谷歌学术搜索
t . Villmann H.-U。鲍尔,“日益增长的自组织映射,应用程序”Neurocomputing,21卷,不。1 - 3、91 - 100年,1998页。视图:出版商的网站|谷歌学术搜索
m . Dittenbach d Merkl, a . raub“分层自组织映射,增长”神经网络国际联合会议(IJCNN ' 00)》第六卷,页15 - 19,2000年7月。视图:谷歌学术搜索
巴瑞和j . Sitte“无参数自组织映射算法,”IEEE神经网络,17卷,不。2、305 - 316年,2006页。视图:出版商的网站|谷歌学术搜索
t . Kuremoto t因素、k .小林和m .大林”伙伴机器人:一只手使用transient-SOM指令学习系统,”第二届国际会议上自然计算和第三届国际会议上模糊系统和知识发现(FSKD 06年),第414 - 403页,2006年。视图:谷歌学术搜索
t .因素,t . Kuremoto、k .小林和m .大林”一只手形象指令使用transient-SOM学习系统,”对社会事务的仪表和控制工程,43卷,不。11日,第1006 - 1004页,2007年。视图:谷歌学术搜索
t . Kuremoto t Komoto、k . Kobayshi和m .大林,”一个声音指令使用PL-T-SOM学习系统,“第二届国际大会上图像和信号处理(CISP ' 09),第4299 - 4294页,2009年。视图:出版商的网站|谷歌学术搜索
诉Moschou、d . Ververidis和c . Kotropoulos“评估与应用程序集群的自组织映射变异情感语音的再分配模式,”Neurocomputing,卷71,不。1 - 3、147 - 156年,2007页。视图:出版商的网站|谷歌学术搜索
欧宝http://www.jp.aibo.com/。
美国萨顿和a·g·Barto强化学习:一条指令英国伦敦,麻省理工学院出版社,1998。

机器人杂志

认知和神经方面的机器人技术与应用程序

文摘