文摘
单音的音色和音量是其基本特征之一。单音检测技术是关键的基础MNFR(音符特征识别),这是建立在单一色调的基本特征提取。基于LSTM MNFR方法(长短期记忆)提出,因为传统方法精度较低在MNFR注意功能分类和低精度。卷积处理的一系列特征图,特征图直接输入LSTM学习哈希码。提取注意功能。段根据物理特性的变化趋势的笔记。此外,许多功能映射是由卷积特性映射从众多卷积层之前训练的cnn(卷积神经网络),考虑到空间的细节和语义特征。使用增强的注意开始向量产生峰值提取算法基于高斯核平滑。研究结果表明,当使用100个样本时,该方法的分类精度不同的DBN(深层信念网络)和DWT(离散小波变换)的1.17%和2.04%,分别。分析结论表明,本文提出的算法在理论上和实际上都可行。
1。介绍
MNFR(音符特性识别)是一个一般术语涵盖许多任务,如分类、识别、音频流分割、数据检索和内容分析,包含音乐的音频文件。从本质上讲,它是基于内容的音频识别和处理,具有高程度的性别的复杂性。在音乐创作领域,许多作曲家使用一些注意特征语音识别软件来自动识别功能的笔记。笔记不仅用于学习音乐,而且对搜索和分类歌曲根据识别的笔记,促进音乐的多元化发展(1]。如果他们能由计算机自动识别他们所播放的音乐,完成自动创建的乐谱,这将大大提高他们的创新效率,极大地激发创作灵感,改变目前手工创作音乐成绩的不便。
MNFR是语音识别的一个分支。事实上,理论和实践与语音识别MNFR有许多相似之处。人工智能的研究越来越成熟,智能技术的应用是越来越接近公众生活。赖昌星等人提出了一个框架的阶段特征提取,特征选择和分类,因此,新功能可以很容易地结合或新音乐风格可以进行测试2]。框架包括不同的分类方法,如贝叶斯分类器,最近邻,自组织图。艾丽西亚等人认为深层神经网络的底层网络可以提取特征类似于扬声器,而高层网络之间可以提取歧视信息类别(3]。李等人利用CNN(对流神经网络)进行基于内容的音乐推荐,意识到听众的预测听偏好基于音频信号,然后用WMF(加权矩阵分解)模型进行评分预测(4]。赵等人提出了一种基于改进的主旋律识别方法欧几里得算法和动态规划5]。在这种方法中,每一帧的候选人音高估计的改进的欧几里得算法,然后是意义和顺序的连续性旋律音高的框架下分析了动态规划。传统的智能音符分割方法是基于时间离散傅里叶变换方法实现音符分割识别功能,但这种方法有低灵敏度乐音识别和识别效率低,并且容易识别错误。
虽然可以识别音符,它绝不是一个简单的问题。它涉及到多学科的支持,比如音乐、心理学、计算机、数学、信号处理,多学科的交叉。传统音乐信息检索通常使用文本检索技术来处理音乐信息。音乐是手动标记,如歌名、歌手,作曲家,然后进行搜索文本检索技术。与传统的散列学习方法相比,深哈希学习方法在某些方面显示了更好的结果。因此,本文研究了基于LSTM MNFR方法(长期短期记忆)。与经典算法相比,它可以直接提取声学特性或音乐的音乐特征,通过分类器训练,得到识别和分类的结果和MNFR提高分类精度。
论文的创新:(1)本文的特点,注意音调作为纸币的识别标志,以提高音调识别的敏感性和能力,促进发展的音符。(2)摘要提出了一种基于LSTM MNFR方法。音频帧STFT转换后的向量作为输入,框架的戏剧类用作训练标签LSTM训练,训练模型是用于提取上下文相关的特性。
本文的内容安排如下:
第一章介绍了研究背景和意义,然后介绍了本文的主要工作。第二章主要介绍MNFR的相关技术。第三章提出了本研究的具体方法和实现。第四章验证本研究模型的优越性和可行性。第五章是全文的总结。
2。相关工作
2.1。MNFR-Related研究
Nazemi等人全面分析的整个过程注意起点检测,包括预处理、信号降低,峰值提取(6]。方法用于文学中的每个过程进行了分析,并给出实验结果和评价。一般来说,注意起始点检测的研究过程概括为三个部分:预处理、信号降低,峰值提取。王等人使用学习演算法来选择一组特性的音频特性集,然后分类音乐流派聚合算法(7]。女士等人使用调制光谱分析来获取时变信息和韵律的音乐信号(8]。Strisciuglio等人使用自适应和声搜索算法的低维特征子集选择最相关的特性集,大大提高音乐流派分类的准确性9]。
李等人使用堆栈self-coding网络语音特征编码和压缩数据和最小重建误差预设长度(10]。比比等人探索各种DL(深度学习)框架在语音情感的任务,和他们的实验表明,前馈和RNN(递归神经网络)结构及其变体可以用来帮助语音识别,尤其是情感识别(11]。fornas等人提出的方法识别孤立的声音事件通过DBN(深层信念网络)。声学事件与61年不同类别分类任务,神经网络分类器的分类精度优于传统的混合模式分类器(12]。巴迪等人利用DWT(离散小波变换)分解音乐信号(13]。
2.2。LSTM的研究现状
与传统RNN的基本结构不同,LSTM的隐层,即循环层,不再简单地使用激活函数控制信息,但是介绍细胞的状态。内存使用“门”结构来控制状态和输出在不同的时间。特别是理解的应用和优化的核心结构LSTM-driven细胞的结构和细胞状态结构将具有十分重要的意义和价值。
耿建立了一个新的基于LSTM番茄目标产量预测模型,证明LSTM有高精度预测番茄目标收益率(14]。燕等人LSTM构造神经网络的端到端框架用于机器翻译和介绍当地的注意机制模型来提高翻译质量(15]。李等人利用强化学习actor-critic培训网络评估的价值的输出指出LSTM网络,以更新的一代战略LSTM网络,和生成的音乐有一个稳定的结构和更多的风格16]。Saqib等人进行了两次实验双向LSTM和单向LSTM语音语料库,并发现双向LSTM优于单向LSTM和传统RNN [17]。
陆等人建立了一个端到端的基于注意力的手写识别模型。与以往的研究不同,本系统可以学习阅读的顺序和过程双向角色没有事先将数据划分为行(18]。林等人堆叠LSTM网络与LSTM叠加不同的隐藏层单元在空间中增加网络容量(19]。香港等人介绍了深神经网络语音识别技术和直接取代了高斯混合分布模型与神经网络(20.]。
3所示。方法
3.1。特征提取和分析的音符智能分割
音乐是一种定螺距声音由常规的振动发音对象。最重要和调性音乐的基本组成部分。音调旋律和和谐的音乐。语调和节奏是互补的有机元素。一段音乐不能有节奏没有另一种节奏。类似于这个,没有节奏节奏不能生存。他们是整体组件。处理效率降低存储和处理音乐的数据量也在不断增加。信号数字化过程将导致明显的波形失真,如果数据精度和采样率太低,所以16位精度和22050赫兹采样率可以选择。
发现语音信号的低频段的能量较大,而高频信号的能量显然是较小的。预加重的演讲的目的是提高演讲和压平信号频谱的高频部分,同时,它可以消除辐射的嘴唇和提高分辨率的影响演讲的高频部分。语音信号可以被视为一个短期静态信号。研究表明,语音信号的频谱特性可以被视为在10∼30 ms基本持平。因此,语音信号可以分为许多相等长度的短时间内,每个短叫音频帧,短期在每一帧语音信号处理平稳信号调查方法。需要有一个特定的帧偏移(重叠)前一帧和第二帧,所以前一帧和第二帧之间的过渡可以顺利。本文框架抵消是1/2。
在确定帧长度和相应的帧转移参数,具体框架窗口过程完成。窗口过程包括信号乘以窗函数与一个有限长度和一个固定的形状,然后显示的窗口移动音频帧的变化。在这个实验中,音频帧长度是25 ms,斜率是10毫秒,和汉明窗,常用于语音和音频处理,被选中的窗口函数。用于表示窗口长度和函数表达式如下:
音频信号处理框架和窗口已经可以作为最简单的输入,但是效果一般不是很好由于明确的信号提取太少,所以有更高级的输入处理方法如下。
在我们的任务中,弥散系数二阶色散转换获得的代表每个频率由音频信号的特征。与传统方法得到的特征相比,这些特性更不变的地方翻译。同时,因为高通滤波的性能更稳定,对于这个任务,有必要提取特征信息中包含的高频信号。研究表明,迭代小波模量操作可以恢复高频信息。因此,高频复苏是通过执行以下操作:
代表的一阶散射变换 ,和代表了一阶变换。对于音频信号,它通常是小波具有相同的滤波器频率定义为梅尔频谱。为了使小波模量系数不变的翻译,时间平均单位使用。最后,近似梅尔谱系数是通过小波模量系数的平均值 。
一般来说,峰值提取是设定一个阈值检测函数曲线 ,点超出阈值是作为起点。有两种方法可以设置阈值;首先是解决阈值 ,如下:
这样,在高潮部分,注意的声音强度大于平坦的部分。这个时候,如果注意起点的门槛仍然是固定的,注意起点在平坦的部分将被忽略。因此,自适应阈值应该用于阈值设置。
摘要卡式肺囊虫肺炎(沥青类概要文件)特征提取方法。提取方法是基于音高和音调理论。球场代表注意的八度,球场代表了三冠王的注意。基调形成进一步分类注意注意所代表的特征根据谐波信息完成细化。提取过程如图1。
通过卡式肺囊虫肺炎特征提取方法,音乐旋律一般成音阶范围,和notes映射12-average-law映射音阶。然后,笔记分为帧,每个音调水平和笔记的重叠帧信号消除。特定的辅助公式如下: 在哪里表示频率的坐标;代表了STFT的中心(短时傅里叶变换)窗口;代表注意数据帧的长度;和是指汉明窗。
假设 值得注意的是阈值向量类 ; 是一个简单的有向图节点,所以方阵 可以被称为相似矩阵的 。其中,
在这个时候,是一个对称矩阵,这也是一个音符的相似性矩阵。报告根据音符相似性矩阵,特征选择的标准,这个标准作为优化目标函数的音符特征子集。
卡式肺囊虫肺炎特点代表音乐信号帧的十二特征向量,可以转换成音平谱的谱重建。在重建过程中,谐波被分配到相应的少数民族价值观多对一的方式。因此,卡式肺囊虫肺炎的特征能量压缩的重要特征。如果执行STFT,它对应于频率数量相同的卡式肺囊虫肺炎声级,STFT振幅是积累在每个卡式肺囊虫肺炎声级。
卡式肺囊虫肺炎的特点是密切相关的和弦在音乐。当和弦变化时,卡式肺囊虫肺炎的特征向量也变化。和弦的变化意味着创建一个新的注意。因此,开始注意可以检测到的变化卡式肺囊虫肺炎的特征向量。
3.2。MNFR方法的实现
3.2.1之上。LSTM模型的介绍
提出的基本动机LSTM是保护信息传输的完整性,梯度误差反向传播的过程中是恒定的。为了控制信息在内存的影响在不同的时间流,一些无关紧要的信息可以有选择地“屏蔽。“因此,进入输出门,门的输出也是由乙状结肠控制函数,它生成一个关系来控制输出关系在所有细胞的当前状态的信息。LSTM的隐层单元结构模型如图2。
输入可以分为两个部分。第一部分是确定新信息被添加到细胞状态,和第二部分是确定这个新信息的比例添加到存储单元的状态。其输入是隐藏层的状态在最后一刻和输入在当前时刻,及其计算公式 在哪里 是重量和抵消。
门决定了信息在当前时间的内部状态输出神经元的外部状态。门的输出表达式所示
门也选择乙状结肠函数的非线性函数。信息筛选的原则是一样的输入和忘记17门。时的值方法1,将输出从内部状态的更多信息的到外部状态的在当前的时刻。
然而,LSTM可以有效地解决梯度的问题消失在普通RNN培训通过优化内部结构的神经元。而不是把梯度前面因为有一个向量0在中间,梯度消失了。此外,由于网络学习阈值,通过梯度下降法,网络会自动调整当梯度应该减毒和保持。
3.2.2。算法实现
广义MNFR涵盖自动音高标记的所有元素,包括单声道注意识别,评估,多音节节拍和节奏识别,旋律和和声提取、多频estimation-basic复调音乐,和许多其他的话题。音高数据本地化主要被认为是在初始报告中分离和检测。短期音调信号excel在许多地区连续色调不。短期分析是另一个更有效的信号处理方法。最大的问题是无法做决定时使用不同渠道之间的相关性;这就是特色融合。音频文件共享通过文章的所有特性,在窗口和框架的使用保留的所有特性的数据同步。
尽管本章的任务是MNFR,它将首先进行预处理的音乐信号,转换成频谱,所以它可以被视为一个图像识别问题。每个卷积的特征映射层使用双线性插值和相似性选择策略来形成一个功能图序列,然后输入LSTM和散列层,最后由softmax识别和分类。MNFRDL框架提出了本章图所示3。
每一列输入LSTM学习特征向量在一个固定的顺序使用卷积的空间结构特性映射作为输入。特征地图直接输入LSTM学习哈希码以卷积过程的一系列特征图。此外,创建一组特征图使用卷积特性图取自pretrained CNN的多重卷积层,考虑语义和空间细节。最后,创建一个新的损失函数保持语义相似的基本平衡,哈希代码,同时控制量化误差散列的输出层。
池一层一层可以被视为一种采样下来,这不仅可以减少参数合理,而且可以减少过度学习问题改善结果。在激活函数的选择,最常用的一个CNN ReLUs。这是定义如下:
由于引入semilinearity, ReLUs更高效的梯度计算和更有效的传播,以及生命的概率和稀疏激活结构,同时保持足够的简单性。因此,选择ReLUs激活函数的实验。
性能检测算法,信号的稳定性能是不同的迭代次数后沥青部分和瞬态部分是相同的,以确定瞬态部分和信号的起始点。在这个算法中,冗余字典采用实函数设置:
窗口函数是高斯窗,使 。窗口调整时间和频率分辨率的时频原子比例因子 ,和信号的适应能力增强。窗口的能量分布在时频平面椭圆长、短轴在时间轴和频率轴上,和比例因子可以调整比例的椭圆的长短轴。
培训的目的是使正确的标签路径序列的分数高于其他竞争序列解码条件下现有的模型。因此,本文的目标函数进行了优化和改进的基于最小风险贝叶斯框架优化准则,并优化表达式所示 在哪里 是一个衡量序列识别结果的准确性相对于目标序列 。
Superparameters LSTM之前必须设置初始参数模型开始训练,而不是参数,不断调整和优化学习的数据集。superparameters的有效选择和优化有很大的影响在整个培训过程和预期的结果。广义梯度下降方法用于最小化上述目标函数,如图所示 在哪里初始模型的学习速率和吗的下行梯度th参数的步长 。根据该参数所代表的比例,一些隐藏的神经元和重量相应的输入和输出参数是随机移除,传播和维持有效的神经网络的梯度变化的前提下确保效率和准确性。
4所示。实验和结果
为了验证综合该基于LSTM MNFR方法的有效性,进行了以下实验:实验环境是英特尔酷睿8 - 460 24 g内存,操作系统是Windows 7。变量特征识别和提取的方法进行了比较。实验结果如表所示1。
可以看出,随着样本数量的增加,三种方法的分类精度对应的笔记已经改变了。当样品的数量是100,我们的方法和DBN和DWT的区别是1.17%和2.04%,分别。实验结果表明,该方法分类精度最高。
音高和起点组件占据了绝大多数的音乐。当相邻帧信号衰减的部分,频率和振幅逐渐变化,使原子系综及其能源和相对稳定。因此,解释程度趋于稳定。重要的是要注意,这个泛音的目标识别是识别特定频率的泛音点而不是识别特定仪器产生(或人的声音)。让原子和泛音的频率对应的听觉特征,哪个更符合音乐本身的特点。抖动功能从而提取参与匹配的模式。
为了确保实验的合理性和科学性,本文设计DBN方法和DWT识别方法作为实验的传统比较方法,划分和识别根据三种方法相同的音乐旋律。时间序列识别的实验结果如图所示4。
可以看出,不同方法的智能分割和注意识别时间是不同的。识别数量是2 GB时,智能注意细分DBN识别方法的识别时间是0.021分钟,DWT的识别方法是0.016分钟,这个方法是0.0036分钟。该方法的识别时间远远低于其他两种传统方法,因为它可以段指出根据物理特性的变化趋势,指出,有效的提取特征和缩短识别时间。
基于最初的训练数据集的120小时语音数据,本文结合率干扰技术。实验数据讲话的速度是1.2倍和0.8倍,最初的演讲中,分别。这样,没有添加新的语音数据,训练数据的数量增加了2.5倍,在这个实验中,所以,在实际应用中,如果数据丢失,该模型可以充分的训练。基于LSTM MNFR模型的性能比较如表所示2。
本文模型在原始数据集训练大大减少了测试集的字错误率。原始数据集只有一个120小时的历史,和LSTM-based模型取得了精度高,这证明了这个模型的强大功能。训练数据后进一步扩大的速度扰动技术,模型的字错误率降低了。因为端到端训练方法需要很高的训练数据,目前在这个实验中所用的训练数据量相对较小,即使利率受到干扰,所以这种方法的模型可能还没有完全发挥。
注意检测结果的可靠性和准确性的基本频率计算的两个因素是影响识别系统如何执行。前者只涉及基频提取算法,而后者是关键组件,挑战,意味着可以改进的算法。唯一可以从分析获得窗口的操作窗口均值和方差操作特征。它是一样的合并到熔融特性后,首先计算均方误差在分析窗口,而不是相反。为了避免直接在高维空间内积操作,在低维空间开发内核函数来计算和表达空间的分类效果。
当音乐数据集分为帧,帧长度是20 ms,帧重叠率是1/2。下面显示了仿真结果的能量估计方法基于音乐的系数向量信号。图5显示LSTM分解的影响乘以系数向量能源估计算法。
可以看出,开始F注意开始检测的价值逐渐增加而衰减时间的增加。当衰减时间超过60次,检测中的注意事项F值基本保持不变。这是因为分解的数量达到一定值时,信号的残余能量变得越来越小,无论是表达程度的算法或算法估计向量能量系数,以及每次的残余能量变得越来越小。对整个信号的总能量的影响甚至可能受到外部噪声的影响,导致轻微的减少F价值。
的基本频率跟踪信号可以反映两个音高和长度的特征。本文讨论的识别任务的基本频率作为特征向量识别大致可以满足需求。然而,当两个音符的音高不断出现,只能代表一个音符的音高频率图;因为音乐信号的特殊性和平均码书训练的过程,取消平滑可以更好地满足音乐信号的要求。图6显示MNFR利率钢琴,小提琴,和双簧管。
实验结果表明,LSTM可以解决MNFR的基本问题。与上面提到的识别率相比,系统的性能已经有了很大的改进。这表明MNFR LSTM是有效的。保存,然后删除声音的混合。其他声音信号的也是如此。通过这种方式,可以估计占主导地位的基本频率。利用先验知识来约束识别结果是一个不可避免的方法来进一步提高识别率。摘要八种中国传统歌剧进行分类和研究。然而,中国古代戏剧下来在一个连续的线,和各种各样的歌剧彼此互相学习和发展,形成一个繁荣的古典歌剧表演。图7显示了分类精度的两种类型的歌剧在每个特性。
分类八歌剧,可以看出时间上下文功能效果最好,虽然在一些实例中,倍频程频谱对比,归一化光谱信封,距家庭功能工作得更好。光谱波峰和波谷的相对分布在每一个副环带倍频程谱最明显的强调,也有最好的对比效果。因此,它更容易看到的高峰和低谷歌剧音频信号分布。一般不合适使用准确性或均方根误差作为测量标准标签数据集,因为许多标签尺寸可能是0。散列方法的性能,它有两个主要的好处,因此,在这个实验中使用三个常用的评估指标。第一个是相当有弹性不平衡数据集,和第二个使用一组简单的数字作为其描述指标。地图(平均平均精度):一副图像的相似性得分的分析计算,可以计算出测试样本和训练样本之间的汉明距离使用学到的二元语义特征。Precision@k的比例与最接近的匹配图像中准确的结果,第一批测试图像k图像。准确的结果的百分比时,测试样本和训练样本之间的汉明距离小于2被称为HAM2(汉明距离小于2)。大小不一的特征图的识别结果如图所示8。
可以看出,当特征地图的大小6∗6,可以获得更好的识别结果。这是因为聪明注意分割识别方法研究了预处理的注意数据笔记之前分段切割和消除了冗余的音调旋律没有断点条件。智能注意分割基于音频特征技术的识别方法使用分层分割和过滤完成计算的旋律,这减少了注意的任务细分并提高了注分割识别的效率。
识别过程包括估算各种状态根据功能流和有经验的获得最好的状态序列,从而获得注意顺序。考虑多个候选人,搜索过程应该返回候选人与不同长度时,对应于不同的注意检测结果,最后得到识别结果通过候选人的决定。可以说,选择合理的特性可以用一半的努力得到两倍的结果,和一个简单的分类器也能取得良好的成绩;如果一个无效的甚至令人困惑的选择功能,结果显然是贫穷。功能完整性确保功能的可用性;不仅可以区分音频功能,而且音频到正确的类别进行分类。简而言之,功能的可靠性保证功能的准确性。
5。结论
经过多年的发展,MNFR技术开发系统越来越完美。单音的基础上提取和识别、提取和识别技术单音旋律和多方复调音乐的发展,包括音色、节奏、速度、体积和和谐。针对传统MNFR方法的缺点,提出了一种基于LSTM MNFR方法。根据熔融特性在不同分类器的识别结果,高斯核平滑算法应用于检测函数的光滑曲线,然后移动窗口检测函数的归一化,并设置阈值和起点检测函数。实验表明,上述深度网络更适合音乐识别技术。DL MNFR技术的应用需要结合一些在计算机视觉领域知识,带来了新的研究方向和关键研究点DL MNFR技术的应用。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。