文摘

数字化音乐信号分析处理技术是数字音乐的核心技术。研究音乐信号特征识别技术基于数学方程反演方法,旨在设计一个方法可以帮助音乐学习者在学习和作曲。本文首先研究音乐信号的建模及其分析和处理算法,结合音乐声音的四个元素,提取的特征参数分析和指出,建立单注意信号的数学模型和乐谱的信号。单一注意识别算法研究了提取信号的梅尔频率倒谱系数,提高DTW算法实现单注意识别。基于单注意算法的实现,我们将注意时间分割方法基于energy-entropy比段乐谱成单个音符序列实现乐谱的认可。本文接着研究音乐合成算法和执行模拟。基准模型演示了球场的正相关特性识别通过比较实验,探讨了谐波的数量应该出席当识别不同的乐器。关注网络分类模型利用人类听觉注意改进的属性识别评分的主要弹奏乐器和整体识别精度的仪器。两级分类模型分为一期分类模型和二级分类模型,和二级分类模型包括三个剩余网络,分别训练专门识别字符串,风,打击乐器。该方法识别评分和整体精度最高。

1。介绍

计算机技术的出现和互联网的诞生和发展促进了一系列科学与艺术结合的跨学科的学科。音乐领域的研究,音乐作为一种艺术与日常生活密切相关的学科和学习,逐渐走向数字化技术。近年来,现代音乐技术,特别是电子音乐技术,取得了快速发展,音乐识别等问题,基于计算机技术的检索和合成有收到研究者更多的关注1]。传统音乐教学需要专业老师辅导学生,和教学特点是重复的练习。这种重复性的工作不仅大大降低了教师的有效利用,而且费用昂贵的费用进行一对一的教学和辅导,使系统的音乐学习不可能与低收入家庭的水平。此外,在教学过程中,音乐家法官根据他们丰富的教学经验,根据人耳听到的,太主观,犯错误不准确(2]。如果计算机技术应用于音乐教学中,一方面,它可以帮助音乐家在音乐教学中减少劳动强度,另一方面,音乐学习者可以进行音乐学习独立于教师在一定程度上,降低学习成本。除了在音乐教学中扮演重要角色,数字音乐技术也能促进智能作曲的发展(3]。实现音乐合成技术使自动作曲,和对于那些不是很精通音乐理论、音乐合成技术降低了阈值的音乐成分,以便更多的音乐爱好者可以创建他们的作品。此外,音乐合成技术也有助于电子仪器的发展和改善传统乐器的声音4]。

随着人工智能技术的发展,音乐信息检索已经收到了新的计算机科学领域的关注。基于内容的音乐信息检索包括几个研究方向:音乐识别、旋律提取,音高估计,情绪分类、节奏检测、风格和样式分类(5]。其中,识别多种乐器的音乐歌曲和活动水平的预测是一个重要的研究课题在米尔的任务。音乐识别技术可以应用在许多情况下,如搜索歌曲与特定工具或确定的开始和结束位置一定的仪器在音频。建模基于用户喜好的音乐推荐系统的性能对某些工具可以改善。他们也可以用来自动转录在复调音乐,音乐播放技术检测,和源分离任务,预处理模型的具体工具出现在源分离的任务可能会改善其性能(6]。Multimusic识别本质上是一个音色感知任务。语气是一个主观的性质很难量化。人有良好的音乐感觉和专业培训可以很容易地识别仪器在音频。然而,大量的音乐不能依赖人类的识别,然后提供标签的信息检索。随着人工智能和计算能力的发展,我们可以提取音频文件中相应的乐器的特点和训练有效的深卷积网络实现自动识别的乐器。

音乐信号,一种音频信号,通过方便的互联网广泛分布。版权许可的,人们可以在互联网上下载各种各样的音乐。因此,音乐音频的数据量越来越大,和检索任务的要求变得越来越高。然而,许多主流音乐搜索引擎仍然是基于简单的文本检索,手动标记的歌名,艺术家,甚至数年。这将是重要的检索效率和用户体验如果能够基于内容的信息检索音乐信号本身,和这些特性可以被自动识别。第1章:介绍。首先,这篇论文的背景和意义的上下文中解释当前社会形势和社会需求,和每一章的主要研究内容和安排。第二章:相关工作。研究目前的研究方法进行分析,和一些音乐理论知识和介绍了数字音频的基本元素,这是有利于深入了解乐器的基本特征和建设的关键特性标识。第三章:研究音乐信号识别基于数学方程反演方法。 In terms of recognition, the paper chooses to characterize the original signal using Mel inversion coefficients. Then, the single note recognition algorithm is introduced, and based on it, the note cutting algorithm is studied to achieve multinote recognition. In terms of synthesis, mathematical modeling of the music signal is studied, and additive synthesis techniques are used to achieve piano tone reproduction based on the music score as well as note time value information. Chapter 4: Analysis of Results. Chapter 5: Conclusion. It mainly summarizes the final research results of the paper, analyzes the shortcomings of the paper in the research process, and also provides an outlook for future work because of these shortcomings.

道格拉斯·纳恩提出了一个基于逆音乐识别系统信号处理方法的数学方程。的最大连接数,系统可以识别是增加到8,但系统的准确性不是很高,因为它是更关心识别结果与听觉感知的一致性(7]。自逆数学方程方法网络使用一个分布式协作的方法来消除全球控制模块,研究人员开始应用逆数学方程方法网络音乐识别系统。(8的成功应用贝叶斯网络在音乐识别系统已被证明导致更好的系统的先验知识。近年来,研究人员开始将模糊神经网络应用到音乐识别。通过验证,该方法是最接近人类的认知过程的音乐,可以有效地提取信息;因此,它已被广泛应用。Ambrosanio等人提出了一个自动音乐情感识别方法基于数学方程反演模型和基因表达式编程算法,为一种表情识别率高的音乐,但可怜的识别与多个复杂的音乐情感9]。Yatabe等人应用和弦的色调层次轮廓特征识别算法,取得了令人满意的识别结果(10]。

在单声部的音乐,它已经可以执行音乐识别音频片段的注意水平或连续音频信号由独奏乐器(11]。他等人提出了一个线性光谱特性一起使用高斯混合模型来评估仪器家庭的分类和分类仪器14仪器的家庭。除了分析预定义的功能分类,分类器可以用来学习的特性来完成分类任务(12]。长等人使用稀疏频谱编码和支持向量机分类单一和多源音频(13]。江等人提出了提取Meier声谱图从一个数据集的单注剪辑24乐器,使用稀疏编码学习特性的谱图,然后训练支持向量机使用学到的特性分类的仪器的精度约0.95 24仪器类别(14]。深架构支持端到端训练的特征提取和分类模块“学习”功能,导致精度高于传统方法(15]。深度学习的成功应用在这两个场景中,基于单声部的音乐识别和主要识别在复调音乐,激发我们进一步应用到复调音乐识别(16]。

执行multimusic识别在复调音乐,一般的时频特性也许不能实现良好的认可,所以我们选择沥青特性和数学方程反演识别作为输入模型的特性。音高特征反映仪器的范围和基本频率的笔记,我们用multibasis频率估计的概念提取音高特征通过一个过滤器设置自定义参数提取的初始功能音频美联储卷积网络。数值方程逆辨识是一种特殊的小波变换,改善促进音乐分析,可以反映出每个音调的能量分布。我们使用一种改进的快速计算方法提取数值方程逆音频的识别。这两个特性相结合可以有效地捕捉音乐信号的谐波结构,这是反映在音乐中乐器的音色17,18]。我们目前不知道有任何工作相关的音调音色音乐识别。最后,我们feature-processed提取的特征和构造三种分类模型,即一个基线模型,关注网络分类模型和二级分类模型。基线模型演示了音乐音高特征识别的有效性;已广泛应用于计算机视觉注意机制,我们把它应用到音乐信号的“听觉”的关注。二级分类模型首先执行仪器家庭的粗分类,然后执行相应的特定工具仪器家庭的子分类,和层次识别与基本是一致的。二级分类模型首先执行仪器家庭的粗分类,然后相应仪器的具体工具的次范畴化的家庭。一系列的还比较三种分类模型的实验探索各种已知的经验的有效性multimusic识别,以及未知的可能性的方法。

3所示。研究音乐信号识别基于数学方程的反演方法

3.1。音乐信号特征参数提取

一个完整的音乐作品是由不同部分组成的;部分是由不同的动机,部分,和短语。作为一个整体,它是由完整的部分,部分,或运动。所以整个音乐信号既有性格,和它们之间的交互和连接,构成了音乐的完整性。总体特点是表达的主题音乐,和周围的开发地方特色总体特征。共性和个性的关系,在共性决定了个性反映了个性和共性(19]。研究的总体特征和地方特色音乐信号可以揭示音乐信号的基本特征。个人部分的最小单位是音乐信号可分为,因为它已经明确表示在音乐的表达思想和音乐形象的塑造。因此,在这个项目中,我们以一个部分为音乐分析的最小单位。图1显示了音乐信号的特征图。舒缓的音乐变化缓慢的节奏,音乐信号是柔软的。通过数学方程,提取音乐特性,比如动机,节日,短语,段落,音乐俱乐部,和运动。

所示的光谱能量方程的表达式(1),这是一个统计量。元素表示是基于人类感知的基本频率周期的研究,方法也通常被称为色度向量法。向量中,每个元素对应于一个传统的12个周期(20.]。价值发现的均方根谱获得的能量是一个物理量与声音的强度有关。在注意建模和单一注意识别,只有注意部分需要检测的演讲与空白混合噪声部分。因此,本文选择短期平均能量较低和更好的实时计算端点检测的性能。

每个重要的频谱扩展函数有10 dB和25 dB扩展高和低频率,分别。掩蔽效应的低频带高频频带是强大的。关键的乐队的效果 满足方程(2), 音乐信号也不同于一般的音频信号,它不仅类型部门,而且这首歌的风格。从音乐理论的观点,击败通常发生在注意发病,与坐标系的选择直接影响信号的特点,随着仪器的玩,和歌手唱歌,以有序的方式结束根据节拍(21,22]。音乐节拍的速度通常代表的风格音乐信号;一般来说,信号频谱的变化更强烈的音乐节奏更快,和音乐信号更加活跃。柔和的音乐节奏缓慢变化和柔和的音乐信号。

整机全极模型得到的线性预测分析系统方程的函数(3)。

在方程(3), 线性预测是最重要的。是否认为是脉冲响应 ,我们有方程(4)。然而,由于LPC cepstral系数仅仅是基于预测的线性关系,参数的鲁棒性不是很好,噪音免疫力低。

当语音信号传输的行波在耳蜗基底膜,低频信号的传输距离大于高频的信号由于其低频率和长波长;因此,蒙面的低频信号,高频信号的掩蔽能力更高频率的声音频率的不同而变化,越大越高音频、屏蔽能力(23]。因此,人耳听觉系统相当于一个过滤系统过滤的高音。的设计实现中,一组带通滤波器可以设计,从密集排列稀疏根据每个频率点的屏蔽能力基于人耳的听觉特性。转换线性频率之间的关系 频率方程所示(5)。

每个三角形的对数能量输出滤波器组计算见方程(6)。

获得了MFCC通过离散正弦变换 ,和转换方程,方程(7)。 特征参数的维数。自从梅尔频率倒谱系数不仅对人耳听力效果,也不做任何假设和限制输入信号,它具有更好的鲁棒性。

3.2。数学方程反演识别算法

在这项研究中,我们提出一个程序来计算自适应交叉率和变异率使用人口集中通过添加一个额外的程序计算之间的人口集中在选择操作和交叉操作。人口集中 ,在这项研究中,使用计算方程(8)。 是进化的数量。

因为伟大的随机性发音纠正器振动时,发音的长度时间无法很好的得到控制。如果线性均匀扩张方法用于调整帧长度的文本文件和模板文件,它将忽略每个小段的时间长度转换音频文件在不同的情况下,导致识别率低的结果(24]。人口集中 将用于调节交叉率和变异率,人口分散,更多的交叉和变异的策略是采用增加剥削。当人口集中,更多的变异和交叉的策略用于提高勘探。自适应交叉率和变量的特定设置率方程所示(9)。的 可以根据需要调整控制交叉率和可变利率在指定的范围内波动。

逆算法通过随机生成初始化模型 的结构方程(10),保存它的人口,并设置进化代数 为0。初始化只运行一次的遗传算法。

在方程(10), 表示层数拟合反演。 层的介电常数, 层的厚度。人口表示为方程(11)。 表示进化代数。

音乐信号识别记录 每个模型与测量数据相比 ,和适应值 每个模型的计算。计算目标函数的确定。本研究的目标函数设置为方程(12)。 是测量的波形数据,然后呢 逆安装波形数据,目标函数是最小化误差的测量和合成波形数据。同时,错误也将适应值的模型,模型的适应值越小,就越好。向前和向后的过程不断互动,这样模型接近地下介质保留和类似的孩子们复制来消除差拟合模型。经过几代的发展,人口模型将逐步近似测量地层模型、优化模型的人口将输出进化完成后获得音乐信号的反演结果。

由于最优路径的搜索过程是受到斜率,某些帧不能匹配在实际求解最优解的过程。因此,改进的DTW算法需要充分考虑的约束和减少不必要的信息帧之间的匹配计算。动态正则化算法的有效计算范围可分为三个部分: , , 两个最接近的整数的值。

当执行模板匹配,每一帧 - - - - - -轴的参数来确定只需要比帧的间隔 - - - - - -轴, 计算在方程(15)。

分析的范围 增加两个每一帧的帧 - - - - - -轴,直到 是相反的 ,减少两个每一帧的帧 - - - - - -轴,直到 因此,在实际的编码 , 计算区间获得使用方程(16)。

如果能量波动不大的分配每一个频段,然后信号对应于该带的光谱包含更多的信息,为这个乐队和熵值的信号也更大。因此,信息熵可以用来探测信号的不稳定和找到正确的音符分割点在连续的笔记。然而,当使用熵值直接段,有一个问题,音频能量很大但谱熵值很小,为了解决这个问题,介绍了energy-entropy比率。energy-entropy比例的比例是每一帧的短时能量熵值和每一帧的频谱是预处理的傅里叶变换得到的离散音频信号 ,由方程(提供17)。

钢琴弦的振动是一组驻波振动与许多泛音组件,并且每个泛音能量最强键被按下时在很短的期间,然后随着时间的推移慢慢减少为零。基于高频内容(HFC)注意分割方法使用这个属性的钢琴音符体重在频域的高频能量,从而提高频域分析信号的高频频带。 定义在方程(18)。的 频域加权窗口,马斯里提出了使用线性加权 对高频能量。

3.3。音乐信号识别建模

音乐合成基于音乐信号的分析,和光谱合成纸使用加法合成技术模拟音乐音调由钢琴音符。加法合成技术是由傅里叶理论,任何周期信号可以分解为许多不同频率的正弦信号,振幅和阶段。图2显示了加法合成原理的示意图。定义不同的谐波的频率和振幅,把它们混合在一起,形成一个新的声音。但如果你想使用1-9th谐波形成看到tooth-like波形,您需要一个振荡器、放大器,混频器,阈值控制放大器的开关。使用数据方程反演方法使合成器更有效率。

关注网络分类模型有一个缺点,虽然整体识别评分的准确性和仪器的高频率出现改善,调和工具的识别主要弹奏乐器时不满意与谐波同时出现其他乐器家庭的工具。这实际上是一个类别不平衡问题;不同比例的不同类别可能会干扰学习的模型参数。一个类别的概率发生时只有0.01,即使模型识别错所有这些类别,错误率仅增加0.01。这使得模型倾向于获得参数,支持更大比例的类别的识别培训期间,虽然往往忽略一个小比例的类别。一些分类场景从根本上解决这个问题通过增加样本的数量较小的类别,但对于multi-instrument音乐信号,识别问题类别不平衡是不可避免的。这是因为在各种音乐流派的创作,某些仪器适用于旋律乐器和某些仪器适合谐波使用由于其场音色特点和范围宽度,和旋律乐器总是比谐波仪器出现更频繁。我们经常听到各种钢琴作品,但我们很少听到“小号”或“小军鼓碎片。”

两级分类模型由一个一级分类模型和一个二级分类模型中,两个卷积网络模型。第一级分类模型使用数学方程作为输入的识别功能和第一粗分类仪器家庭音频信号,也就是说,只有三个粗分类标签可用于字符串,风,打击乐器。这三个工具的家庭字符串、风和打击乐有不同的能量特征。为字符串,低阶谐波的峰值频率点是不同的,和高频谐波振幅衰减。管乐器,峰值低阶谐波频率点明显比字符串,还有丰富的谐波谱峰高振幅在高频区域。打击乐,谱峰不明显,还有noninteger谐波,和合成器通常加白噪声时合成某些打击乐器。反识别的数学方程反映了音频信号的时频能量分布,我们认为可以作为有效的粗分类功能。第二级分类模型包括三个剩余网络模型具有相同的架构,并且每个剩余网络模型是专门训练来识别各种仪器在某些乐器的家庭;有一个特定的网络模型为每个仪器的三个家庭;基于仪器家庭的粗分类结果确定的一级分类模型,相应的网络模型选择二级分类模型,最后,细分类结果中每个网络模型的二级分类模型选择。 The subclassification results of each network model in the second classification model are aggregated as the final classification results of the audio signal.

4所示。分析的结果

4.1。音乐信号采集分析

根据音乐的模式,我们把音乐信号根据模式中的酒吧,酒吧的长度是由音乐信号的长度和酒吧的数量。酒吧有一个明确的终止信号频谱的音乐。总共十选择不同类型的音乐信号处理在这个实验中,和分工的音乐信号的结果如图所示3

4对应结果的统计线图李雅普诺夫指数的音乐信号。每个酒吧的李雅普诺夫指数大于0,表明每个酒吧(当地)的块都有一个混乱的字符。最大李雅普诺夫指数的酒吧酒吧92年最强的混沌特性。最小的李雅普诺夫指数仍然是装饰图案37岁的弱混沌特性。最大和最小的李雅普诺夫指数表明,该分段最大范围的混沌特性和强大的非线性特性。同时,李雅普诺夫指数本身并不是特别大,说明音乐与控制工作是一个弱混沌系统非线性特征。这是一样的音乐作品的性质,在音乐作品的总体趋势是可控的,但一个特定的长度和强度在某些时刻注意不精确可控和随机的。

4.2。音乐信号识别分析

可以讨论遗传算法的进化效率分析的进化速度和最后的适应价值进化的结果。图5显示的平均适应值曲线每一代的最优解1000倒置。在图5,可以看出遗传算法的进化速度的数学方程式编码系统显著快于遗传算法的二进制系统的进化,但数学方程的标准遗传算法几乎停滞后第十代的适应值进化结果低于二进制遗传算法。二进制的结果标准遗传算法和自适应遗传算法二进制相似,但二进制自适应遗传算法比自适应遗传算法的数学方程的进化速度。数学方程的自适应遗传算法是最快和最好的进化速度和进化的结果。

分析了算法的计算成本计算的计算时间为每个十反演,结果如图所示6,执行计算的平台是一个个人计算机。自数学方程式编码系统节省了二进制和十进制之间的转换,平均计算时间使用的数学方程的遗传算法编码系统从4.76 ~ 4.89年代减少到0.92 ~ 0.93年代,可以节省81.23% ~ 86.16%的计算成本。数学公式编码系统的使用可以显著提高波阻抗反演的计算效率。

通过上述分析,数学方程的自适应遗传算法性能优越在进化效率和运行效率。在实验中音乐信号的反演模型,自适应遗传算法的数学方程依靠连续空间编码系统和自动调整交叉率和可变利率的进化地位,有效地避免了问题的稳定性差和传统遗传算法进化缓慢。自适应遗传算法用于测量数据的反演。证明数学方程的自适应遗传算法具有较高的稳定性和运行效率,选择和数学方程的自适应遗传算法作为测量数据转化的方法。

4.3。音乐信号仿真分析

实验环境和数据集阈值设置是与上一节相同。数学方程的反演在第一级分类模型作为输入,和音乐讯号系列矩阵输出。使用的动量与动量算法0.93,minibatch大小是60,最初的学习速率是0.05,重量衰减系数 在第二级分类模型中,我们使用三阶调和映射矩阵I3, 5次谐波映射矩阵I5和sixth-order调和映射矩阵16字符串作为输入的特性分类网络,风分类网络,分别和打击乐器分类网络。然后,输出的三个网络聚合获得最后的音乐讯号系列矩阵。识别评分和整体精度的各种仪器的二级分类模型中可以看到图7。可以看出大多数乐器识别评分的改善,尤其是木琴,这表明两级分类模型减轻类别不平衡的问题。因此,总体精度也有所改善。

使用真正的标签和提取的音调特性构建调和映射矩阵分别输入基准模型,进行了对比实验证明球场multi-instrument识别功能有正相关影响;此外,调和映射矩阵的比较不同的订单导致的结论是,识别不同的仪器应关注不同数量的谐波。关注网络分类模型,利用视觉注意力的概念,提高了识别评分的主要弹奏乐器。二级分类模型构造每个仪器的专业分类网络的家庭,与仪器的粗分类家庭其次是细分类的一个特定的工具,这符合基本的认知逻辑,减轻类别不平衡的问题。在性能方面,二级分类模型的识别结果,最好和基于网络的分类模型是最具成本效益的关注。

在这个实验中,主要的模型相比L1逆识别模型的数学方程,L2逆识别模型的数学方程,L3数学方程逆识别模型,自适应逆识别模型的数学方程。图8(一个)显示了所有模型的最终结果分类实验,和图8 (b)显示所有模型回归实验的最终结果。我们可以看到,自适应数学方程反演识别模型达到优秀的结果准确性和均方误差,自适应数学方程反演识别模型可以获得更高的精度和更低的均方误差损失与其他三个模型。一段音乐的一般发展趋势可以从分数推断图,但同一段音乐的表现不能是相同的,由不同的人,有很多的不确定性在表现的过程中,不改变音乐的总体发展趋势。音乐信号具有混沌的特点。通过计算相关尺寸,我们还发现音乐信号的混沌特征存在,它仍然稳定在一个值,尽管多个差分,也显示了稳定的音乐信号的混乱。

5。结论

系统研究本文侧重于计算机科学的应用领域的音乐,音乐信号数字化处理,有必要理解音乐信号的四种元素。这四种元素,音调和音色是更重要的特征参数。从系统的角度来看,音乐信号时滞非线性动力系统,时滞系统通常有多个自由度和高维特征。分岔过程伴随着弱混沌现象的产生。本文首先比较了多云的雨中更常用特征参数识别和选择了MFCC参数作为特征参数对注意识别基于比较的结果。然后,介绍了注意识别算法基于数学方程的反演方法,提出了改进的DTW算法。在分级识别,我们使用两个级别的分级,它可以增加在未来的数量和特征公认的音乐。音乐信号中的噪声不一定是我们建立的交流噪声。过程中音乐信号数据采集领域,例如,放大器的零点漂移与温度变化,麦克风,周围的干扰及其不稳定性可能会带来很多噪音,因此我们还需要研究各种实际情况。考虑到许多不同风格的音乐信号,我们不仅会增加研究的深度垂直而且水平在未来的研究分析许多类型的信号。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。

确认

支持的工作是社会科学规划项目:青岛音乐的作用研究和开发技术在青岛的继承传统文化和红色文化(没有。:QDSKL2001161s)。