研究文章|开放获取
YuKang贾,吴至诚Yanyan徐,登封Ke,恺乐苏, ”长期短期记忆递归神经网络投影体系结构对钢琴的持续注意识别”,机器人杂志, 卷。2017年, 文章的ID2061827, 7 页面, 2017年。 https://doi.org/10.1155/2017/2061827
长期短期记忆递归神经网络投影体系结构对钢琴的持续注意识别
文摘
长短期记忆(LSTM)是一种递归神经网络(RNN)有关时间序列,取得了良好的性能在演讲tension和图像识别。长期短期记忆的投影(LSTMP)是一个变体LSTM进一步优化速度和性能LSTM通过添加投影层。LSTM和LSTMP表现良好在模式识别中,在本文中,我们把他们联结主义时间分类(CTC)研究钢琴的连续注意识别机器人。根据北京林业大学音乐图书馆,我们进行实验显示识别利率和数字LSTM迭代的一层,与一层LSTMP,深LSTM (DLSTM, LSTM多层膜)。因此,单层LSTMP证明执行比单层LSTM时间和识别率;即LSTMP参数较少,因此减少了训练时间,,此外,受益于投影层,LSTMP也有更好的性能。LSTMP最好的识别率。至于DLSTM,识别率可以达到因为深层结构的有效性,而是与单层LSTMP相比,DLSTM需要更多的训练时间。
1。介绍
钢琴是连续注意识别是非常重要的对于一个机器人,无论是仿生机器人,机器人舞蹈机器人,或音乐。已经有公司研究音乐机器人。例如,Vadi Vatti能够识别产生的声纹。
大多数现有的钢琴注意识别技术使用隐马尔科夫模型(HMM)和径向基函数(RBF)识别音符与音符一次,因此不适合连续注意识别。幸运的是,在模式识别领域,神经网络(款)方面显示了极大的优势。款用于识别特征提取大量的隐藏节点(1),寻求扭转部分指导通过链式法则,同时使神经网络权重矩阵迭代收敛通过培训数据,然后实现识别(2]。基于[款RNN添加一个时间序列3),这使得特性有时间连续性[4,5]。然而,在实验中,我们发现RNN的时间特点四迭代后将完全消失6),和一个音乐注意通常是超过一个框架(7),因此RNN不适合钢琴的持续注意识别8]。幸运的是,RNN的变种,名叫LSTM,提出(9- - - - - -12),输入,一个输出门,和一个被遗忘的门被添加到记住一个长期的细胞状态保持长期记忆(8,9,13- - - - - -16]。此外,LSTMP添加一个投影层LSTM提高它的效率和有效性。
本文研究LSTM和LSTMP钢琴的持续注意识别,为了解决时间分类问题,我们结合LSTM LSTMP和一个叫CTC的方法(17]。在实验中,我们测试的性能单层LSTM,深LSTM,一层LSTMP与不同的参数。与传统钢琴的识别方法相比,LSTM LSTMP可以识别连续记录,也就是说,一些简单的钢琴音乐。实验结果表明,单层LSTMP可以达到的识别率和深度LSTM可以达到,这证明了我们的方法是很有效的。
本文的其余部分组织如下。节2,我们首先介绍了LSTM网络架构,然后LSTM深处。LSTMP见部分3。节4,我们将讨论CTC。并给出了实验结果5最后,在部分6,我们得出结论,给我们未来的工作。
2。LSTM
2.1。LSTM网络架构
LSTM是一种RNN成功保持记忆一段时间通过添加一个“记忆细胞。“记忆细胞主要是由“输入门,”“遗忘之门,”和“输出门。“输入门激活存储单元的输入信息,和忘记门选择性地抹平了一些信息存储单元和激活存储下一个输入(18]。最后,输出门决定将输出什么信息存储单元(19]。
LSTM网络结构如图1。每个盒子代表不同的数据,线和箭头意味着这些数据之间的数据流。从图1,我们可以了解LSTM存储内存很长一段时间。
识别过程LSTM始于一组输入序列 (是一个向量),最后输出一组 (也是一个向量),按照下列公式计算:
在这些方程,意味着输入门,和分别输出门和忘记门。是信息存储单元的输入,包括细胞的激活向量,是存储单元的信息输出。代表权重矩阵(例如,代表了从输入权重矩阵输入门)。偏差(是输入门偏差向量),和是激活细胞细胞输入和输出的函数,分别视为吗和在大多数的模型也。是在一个矩阵乘法。是激活函数的神经网络输出,和我们使用在这篇文章中。
进行一些实验后,我们发现,相比标准方程,(3)是更简单,更容易收敛。不仅训练时间变得更少,但同样的迭代的数量变得越来越小。因此,在神经网络在这篇文章中,我们使用(3)来计算而不是标准方程。
2.2。深LSTM
在钢琴的持续注意识别,我们也建立一个多层神经网络,进一步提高识别率。深LSTM又增加了LSTM等等(10]。添加LSTMs有相同的结构与原始。每一层作为最后的输出层下一层的输入。我们希望不同LSTM层的神经网络将学习不同的特征,以便从不同方面学习音符的各种特性,因此提高识别率。
3所示。LSTMP-LSTM投影层
在LSTM,有大量的计算在各种盖茨,计算参数的数量在神经网络。权重矩阵维输入的门,门的输出,此时细胞状态,重量矩阵维度在最后时间,输出矩阵维度与神经网络的输出,在那里和输入和输出的尺寸,分别和记忆细胞的数量。我们可以很容易地得到下面的公式: 也就是说,
当我们增加,生长在一个正方形的模式。因此,增加记忆细胞的数量增加成本的内存数量很多,但规模较小的细胞数量会带来较低的识别率,因此我们提出一个架构LSTMP命名,这不仅可以提高精度,也有效地减少了计算。
在神经网络的输出层,LSTM输出矩阵。然后,发送到输出矩阵输出,同时也作为神经网络的输入下一个时间。我们添加一个LSTM架构层,通过这一层后,成为一个矩阵称为,替换作为输入的下一个神经网络。当神经网络的记忆细胞数量增加,在神经网络参数的数量 也就是说,
计算 ,我们有
因此,在LSTMP因素影响参数变化的总数来。我们可以改变的价值减少计算复杂度。当 ,LSTMP可以加快训练模型。此外,通过投影层,LSTMP可以收敛更快,以确保模型的收敛性。LSTMP的数学公式如下:
在这些公式,代表了层,另一个方程LSTM一样。
图2LSTMP的结构,部分标有红色虚线是投影。通过比较图1与图2,我们可以看到,LSTMP LSTM投影层。
算法1是LSTMP的伪代码。是输入权重矩阵,最后结果的权重矩阵。是偏见,是投影矩阵。我们把音符特性提取到神经网络和算法执行,直到我们得到一个可接受的识别率。
|
||||||||||||||||||||||||||
4所示。CTC
输出层的LSTM LSTMP叫做CTC (20.]。我们用CTC,因为它不需要presegmented训练数据或外部后处理提取标签序列从网络输出。
同许多最新的神经网络,CTC向前和向后算法。当涉及到算法,关键是通过概率分布估计。考虑到长度,输入序列,训练集在时间,激活输出的单位在时间被解释为观察标签的概率 :
我们参考元素 路径,设置的长度吗在字母序列 。然后我们定义了一个多对一的映射先删除重复的空白标签,然后路径。看一眼路径,会发现它们是互斥的。根据特点,一些标签的条件概率 可以计算的概率求和所有路径映射到它: 所有这些过程后,CTC将完成分类任务。
5。实验
我们在服务器上进行我们的实验4 Intel Xeon e5 - 2620 cpu和512 GB的记忆。NVIDIA Tesla M2070-Q显卡是用来训练模型。我们使用的编程语言是python 3.5。
我们选择钢琴作为乐器。我们记录445注意序列数据集和每个序列的长度大约是8秒。
提取的特征,我们进行汉明窗处理,然后进行快速傅里叶变换(FFT)的实部和虚部每个窗口。然后我们让FFT结果被添加的平方正交实部和虚部。除此之外,我们获得日志的平方和。最后,执行输入数据的标准化。
在实验中,各种票据的数量是8,输入节点的数量是9。我们试着不同数量的细胞单位在我们的模型中,从20到320。神经网络的初始值设置为一个随机值内学习速率是0.001。在结构方面,所有的神经网络都连接到一个单层CTC。至于数据集,我们选择80%的样品开发和20%设置为测试集。
5.1。实验结果
表1显示了识别利率和LSTM多少次,DLSTM,并与不同的参数需要进行迭代,直到他们LSTMP识别利率稳定,和最好的结果是粗体。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在表1,“LSTMP - 80 - 20”意味着LSTMP模型预测80细胞细胞的20个州州。从表1,我们看到DLSTM LSTMP比LSTM表现更好,和他们最好的认可率几乎相同,分别是100%和99.8%。对于迭代的数量,比LSTM和DLSTM LSTMP需要更少的迭代,使LSTMP更适合钢琴的持续注意识别机器人考虑效率。
5.2。LSTMP DLSTM和不同的参数
图3说明了与不同的参数和DLSTM LSTMP不同层。的轴的迭代次数和方式轴意味着识别率。我们看到LSTMP模型预测80细胞细胞的20个州有最好的结果,但所有LSTMP结果非常接近。至于DLSTM,我们清楚地看到,深LSTM比LSTM只有一层。
5.3。比较LSTM、LSTMP DLSTM
我们比较LSTM、LSTMP DLSTM图4。考虑到相同的参数,LSTMP执行比LSTM好多了。至于LSTMP DLSTM,我们发现,当迭代的数量很小,LSTMP有巨大的优势,但随着迭代次数的增加,DLSTM变得更好。
6。结论和未来的工作
在本文中,我们使用了神经网络结构与CTC LSTM认识到连续的音符。LSTM的基础上,我们还尝试LSTMP DLSTM。其中,LSTMP预测时效果最好细胞状态细胞状态,这需要更少的迭代比LSTM和DLSTM,使其最适合钢琴是连续注意识别。
在未来,我们将使用LSTM, LSTMP,和DLSTM认识到更复杂的连续和弦音乐,比如钢琴音乐,小提琴,甚至交响乐,这将大大提高音乐机器人的发展。
的利益冲突
作者宣称没有利益冲突。
确认
感谢杨将Yanlin收集记录材料。这项工作是支持的基础研究基金为中央大学(没有。2016 jx06)和中国国家自然科学基金(没有。61472369)。
引用
- a . k . Jain, j .毛和k . m . Mohiuddin“人工神经网络:一个教程,”IEEE计算机科学与工程卷,29号3,31-44,1996页。视图:出版商的网站|谷歌学术搜索
- j·r·张,t·m·洛克和m . r .律”混合粒子群optimization-back-propagation前馈神经网络算法训练,”应用数学和计算,卷185,不。2、1026 - 1037年,2007页。视图:出版商的网站|谷歌学术搜索
- l .梁y, l·本·w .小华,基于人工神经网络的世界时系列,2004年5月11日。美国专利6735580。
- r·j·威廉姆斯和d .拉链”,连续不断地学习算法完全复发性神经网络,”神经计算,1卷,不。2、270 - 280年,1989页。视图:出版商的网站|谷歌学术搜索
- l . r . Medsker l . c . Jain,“复发性神经网络”,设计和应用,5卷,2001年。视图:谷歌学术搜索
- g .莎莉尼·o . Vinyals b . Strope r·斯科特·t·迪恩和l .见鬼,”上下文lstm (clstm)模型对大规模nlp的任务,”https://arxiv.org/abs/1602.06291。视图:谷歌学术搜索
- a . Karpathy不合理的复发性神经网络的有效性。http://karpathy.github.io/2015/05/21/rnn-effectiveness/,2015年。
- d·特恩布尔和c·埃尔坎”,使用RBF网络的快速识别音乐流派。”IEEE工程知识和数据,17卷,不。4、580 - 584年,2005页。视图:出版商的网站|谷歌学术搜索
- h . Sak a高级,f . Beaufays”长期短期记忆递归神经网络架构大型声学建模、”15学报》国际言语交际协会的年会:庆祝口头语言的多样性,INTERSPEECH 20142014年9月,页338 - 342。视图:谷歌学术搜索
- 答:坟墓,联合。穆罕默德,g .辛顿”与深复发性神经网络语音识别,”学报》第38届IEEE国际会议音响、演讲,和信号处理(ICASSP 13)2013年5月,页6645 - 6649。视图:出版商的网站|谷歌学术搜索
- ,的j。施密德胡贝尔表示“深度学习神经网络:概述”,神经网络卷,61年,第117 - 85页,2015年。视图:出版商的网站|谷歌学术搜索
- k·m·赫尔曼·t·Kočisky大肠Grefenstette et al .,“教学机器阅读和理解”学报》第29届年会在神经信息处理系统中,少量的20152015年12月,页1693 - 1701。视图:谷歌学术搜索
- b,他“与短期记忆,强化学习”先进的神经信息处理系统,1475 - 1482页。视图:谷歌学术搜索
- ,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
- p . Goelet v . f . Castellucci s Schacher和e·r·坎德尔,“长期记忆的长和短——分子框架,“自然,卷322,不。6078年,第422 - 419页,1986年。视图:出版商的网站|谷歌学术搜索
- 问:律、吴z和j .朱“复调音乐造型与LSTM-RTRBM”学报》第23届ACM国际会议多媒体,2015毫米来自,页991 - 994年,2015年10月。视图:出版商的网站|谷歌学术搜索
- 哈伊姆,a .高级r . Kanishka, f . Beaufays”快速和准确的复发性神经网络语音识别的声学模型,”https://arxiv.org/abs/1507.06947。视图:谷歌学术搜索
- f . a .蒙古包,的j。施密德胡贝尔表示和f·康明斯,“与LSTM学习忘记:持续的预测,”神经计算,12卷,不。10日,2451 - 2471年,2000页。视图:出版商的网站|谷歌学术搜索
- f . a .蒙古包,n . n . Schraudolph,,的j。施密德胡贝尔表示“学习与{LSTM}复发性网络精确计时,“机器学习研究期刊》的研究(JMLR),3卷,不。1,第143 - 115页,2003。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 坟墓,s·费尔南德斯、f·戈麦斯和,的j。施密德胡贝尔表示“联结主义时间分类:标签不分段序列数据与复发性神经网络”学报》第23届国际会议在机器学习,ICML 2006,页369 - 376,宾夕法尼亚州匹兹堡,美国,2006年6月。视图:出版商的网站|谷歌学术搜索
版权
版权©2017 YuKang贾庆林等。这是一个开放的访问分布在条知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。