文摘
摘要提出了一种结合数学特别自动音乐转录系统治疗。该系统是专门为computer-synthesized音乐。结合数学治疗包括谐波选择、矩阵分析、概率分析方法。利用主成分分析法(PCA)算法减少了尺寸和选择候选人首先人类听觉模型和谐波结构的笔记。它改变了multiple-F0估计问题转化为数学问题,解决了数学方法。可以显示摘要,实验结果表明,该方法有很好的识别效果。
1。介绍
音乐转录意味着一种听一段音乐,写下一张乐谱。制作音乐的传统方式是这样的:一个表演者阅读得分,演奏乐器,因此产生音乐。转录的复调音乐是一个相反的过程:一个声学波形转换为参数表示(如MIDI),笔记,音高,起始时间和持续时间从信号中提取(1]。自动音乐转录意味着将声学音乐信号转换为乐谱由计算机自动分析技术。自动音乐转录大大减少了体力劳动和时间,就音乐信号处理的关键技术2,3]。自动音乐转录可广泛用于基于内容的音乐检索、低速率编码、自动音乐伴奏系统,等等。
基频(F0)是一个重要的描述符的谐波声音信号,如语音和音乐,它决定了一个音乐的音高。Single-F0估计算法假设最多有一个音乐的F0提取。尽管single-F0估计算法已经相当发达,他们的应用程序对音乐信号是有限的,因为大多数音乐信号包含多个并发的谐波源。Multiple-F0估计算法从而一般情况下所需的来源和它需要估计每个玩在一起,这是最重要的一个部分的自动音乐转录4,5]。
本文最重要的贡献是解决multiple-F0估计的数学分析方法。我们需要处理的信号在时域波形x(米]。首先我们需要改变成频域 或倒频谱域
然后我们改变multiple-F0估计问题转化为矩阵线性方程。它是一个不适定方程,我们可以使用一个完全截断最小二乘法解决它。在此基础上,我们可以用先验概率提高正确的速度滤波器的结果。
本文组织如下。首先介绍了研究背景和研究现状的自动音乐转录和multiple-F0估计。然后详细描述了我们的算法和实验阶段。我们专注于谐波结构的影响主要选择进步和multiple-F0估计的数学模型。紧随其后的是一个实验结果显示,最后是结论和观点和承认。
2。自动音乐转录系统
自动音乐转录系统的系统架构提出了可以在同一作者的另一篇论文(6]。在此系统中,输入音乐信号通过光谱分析模块,然后执行一个经过预处理和窗口的DFT multiple-F0评估进展。执行以下multiple-F0估计算法为每个音乐帧预测一个或多个指出,出现在这个时间片。最后,该算法将检测每个音符的开始时间和结束时间。通过这些步骤,可以转录成注意音乐信号事件序列,可以描述的MIDI音乐形式或直接得分。
这个系统的关键过程是multiple-F0估计也是本文的主要贡献。multiple-F0估计算法主要有两个阶段:训练和识别。培训过程中它包含三个主要步骤:预处理,PCA和信号归一化,和六个主要步骤:装在框内,进行预处理,PCA,信号归一化频率初选,multiple-F0估计。相同名称的步骤做了同样的事情。(我)预处理:这是训练过程的第一步。它消除了沉默的正面和背面的注释部分,然后通过一个窗口的DFT变换。(2)归一化:信号归一化意味着将预处理后的信号转换成等价的一个平均值为0,方差为1,它是用来促进后续治疗。信号是归一化后分为两部分。将进入PCA一步,另一个将被用来分析谐波结构。(3)主成分分析:主成分分析PCA方法。它让所有的音符在一起的一个常见preextraction主要组件。是所有的音符从高维空间映射到较低维空间坐标系统。在PCA用于培训日期,我们可以定义一个PCA得分的组件,这意味着我们只保留比例之和大于得分。(iv)计算 :在这一步我们需要决定谐波的数量为每个音符和为每个谐波频谱的振幅。事实上,每个音符清晰的谐波特性。这意味着将会有明确的冲动在基本频率的整数倍。相同的音符由不同的乐器有谐波在几乎相同的位置但每个音符的边缘可能会有所不同。使用这个特性,我们可以大致估计某些音频是否包含一个注意。这个特性可以用来选择候选人基本频率,以促进后续治疗。(v)装在框内:音乐被探测到的长度是可变的;因此,一个装在框内处理是必要的,以获得一个更精确的检测和估计的笔记。每一帧都有检测结果,显示了该框架指出,包括在内。(vi)频率的主要选择:为了减少数据的计算和提高估计精度,在多个基本频率估计的步骤之前,频率主要选择步骤需要生产。在这一步中,估计所有候选笔记。在这之后,它只需要从这些候选人的选择最后的笔记,而不是从所有的音符,可以大大受益的速度和估计精度。详细信息将在下一节中描述。(七)Multiple-F0估计:这里的多个基本频率估计方法估计的音符组成的候选人基于上述处理后的数据。这是整个系统的核心部分,我们可以用一些数学方法来解决这个问题。详细信息将在下一节中描述。
3所示。使用谐波结构
3.1。基本知识
声音的音色是指感觉特性,如频率、响度和持续时间。音色有恒等函数,我们可以区分两种声音的音调和强度相同,但是来自不同乐器的声音音色的差异。音色是一个多维对象。除了频率、响度和持续时间,它还包含振幅包络谱包络。
包络谱是一个重要的参数来描述的声音在频域,它是构成所有谐波的振幅。我们可以描述的包络谱谐波结构,贴上: 在哪里的振幅是吗kth谐波和谐波的数量。
按照西方音乐惯例,注意事件命令使用对数刻度(7]。线性频率MIDI转换,可以使用以下表达式: 在音乐符号,每个音符的命名以下符号:Re Mi Fa索尔La Ci。
一系列的笔记fromDo Ci称为一个倍频程。在一个给定的八度,每个音符的基本频率是基频的整数倍数从先前的八度的同名。因为每个音符的谐波也基本频率的整数倍,这些谐波代表同名的它在下个八度8]。例如,洛杉矶的基频八度4(即。拉4)是220 (Hz)。所以,二次谐波的频率是440 (Hz)等于基频拉在八度5(即。La5)。这是上面提到的频率重叠的问题,我们也是一个关键的问题在执行迭代时删除。
光谱信封不同的仪器有明显的区别,而同样的仪器也有类似的包络谱。音乐同样的仪器有高度的相似性和一个稳定的谐波结构。然而,computer-synthesized音乐是建立的软波表相同。所以我们可以相信的谐波结构计算机音乐合成的类似仪器几乎是相同的。本文假定F0的谐波结构不变,当一个音符正在改变弱半音程。
3.2。使用谐波结构
基于上述特点,谐波结构的信息可以用来改善多个基本频率估计算法。谐波结构的信息在我们的算法中,主要用于两个地方:在培训阶段,获得每个音符的谐波信息结构由不同的乐器,在识别阶段,使用谐波结构匹配率来确定候选人基本频率,增加以下multiple-F0估计的准确性。
在训练阶段,每个音符的参数可以从培训材料中提取,每个培训材料只包含一个注意,每个注意到100年可以训练材料。我们分析每个材料和包络谱计算谐波结构。我们设定一个阈值训练th1。如果归一化光谱信封比th1在谐波结构,相应的元素设置为谐波振幅,否则被设置为0。
in-harmonic仪器,部分频率可以进一步偏离这一频率范围。因此,泛音错过或错误地分配给其他泛音通过我们的系统(9]。然而,这种情况只发生强烈in-harmonic仪器和在高参数的值。部分频率in-harmonic仪器可以表达的,在那里是inharmonicity系数。典型值系数范围从来在钢琴低音10]。部分频率超过所选频率范围为,为,或为。基频MIDI的注意n是计算 上述分析表明一个注意的问题,谐波可能不仅仅是基频的整数倍数位置因为inharmonicity。根据这个,当我们计算,我们使用而不是,在那里最大局部振幅频率范围中。当没有泛音的频率范围,设置为0。
在识别阶段,谐波结构匹配率可用于确定候选基频。
打一份报告时,将包含整个谐波频谱。如果位于相同的半音程纸条,它将具有相同的谐波结构,其中谐波匹配的比率kth谐波可以被定义为以下几点: 在哪里是音乐的STFT和是th元素。
为了消除谐波的复调音乐重叠的影响,谐波最小匹配所有谐波组件比选为谐波匹配比的注意,这正如所示 然后,为了更好地描述的情况打笔记,笔记的力量可以定义如下: 更大的显示了更大的可能性,包括注意的基本频率。如果大于阈值th2,基本频率的注意将被选为候选人基本频率。选择所有的候选人时,频率主要选择一步完成。
4所示。该算法中的其他数学方法
4.1。主成分分析
在训练阶段和识别阶段,主成分分析是一种重要的一步降低维度,我们介绍这里的详细计算过程。
主成分分析(PCA)是一种数学程序,使用一个正交变换将一组观测可能相关变量转换成一组不相关的变量的值称为主要组件。主成分的数量小于或等于原始变量的数量。这个变换定义,第一主成分尽可能高的方差(即。,accounts for as much of the variability in the data as possible), and each succeeding component in turn has the highest variance possible under the constraint that it be orthogonal to (uncorrelated with) the preceding components. Principal components are guaranteed to be independent only if the data set is jointly normally distributed. PCA is sensitive to the relative scaling of the original variables.
PCA在数学上定义为正交线性变换将数据转换到一个新的坐标系统,最大的方差的投影数据来躺在第一个坐标(称为第一主成分),第二大方差在第二个坐标,等等。PCA是一个成熟的工具,经典的计算过程。主成分分析的实现方法可以在找到10]。
主成分分析的计算步骤如下。 计算相关系数矩阵: 在哪里原始变量的相关系数和。计算公式是 是一个真正的对称矩阵,即,所以我们只需要计算出上三角或下三角元素的元素。 计算特征值和特征向量:第一,解决了特征方程。通常使用雅可比方法找出特征值,让他们安排的大小,也就是说,,找出特征向量对应的特征值,分别。在这里,也就是说,,在那里代表了组件的向量。 计算的贡献主要组件和累积贡献。主要组件的贡献是 累计贡献是 计算主要部件的重量: 之后,我们可以计算每个主要组件的分数: 在哪里
4.2。在Multiple-F0估计的数学表示
多个基本频率(multiple-F0)估计是用于估计多个笔记同时响起的音乐。核心技术和自动音乐转录系统的主要困难。最实际的是复调音乐的,这意味着有一个以上的笔记在同一时间。情况更复杂的光谱添加笔记,这让multiple-F0估计更困难。为了改善系统的性能,一个好的multiple-F0估计算法需要考虑很多因素,比如inharmonicity因素,频率失踪,谐波失踪,频率重叠,和频率误差(6]。本文提出的算法建立了多个基本频率估计的数学模型。获得的结果multiple-F0估计相当于解决这个数学问题。在本部分中,我们介绍该算法的主要思想。
在音乐划分规则,音符之间有足够的频率间隔,纯色调之间的屏蔽效果相对较弱。因此,掩蔽效应可以忽略,而计算精度的要求不是很高。忽略了掩蔽效应,可以添加响度线性特性。这意味着声音的响度混合多个notes是每个音符的响度的总和。
从上面的分析我们可以看到,音频估计是标准notes的线性组合。假设笔记的数量,每个音符的包括PCA过程特性后,然后训练集是一个矩阵。估计的音频预处理后,PCA,规范化记录,然后是一个向量,是维特征。是否记录为PCA的能量损失老,我们得到以下几点: 在哪里培训过程的结果集,这是一个矩阵。X是一个向量,,它介绍了组合系数对应于每个音符。如果我们把老作为一个错误部分,我们可以忽略它并得到下一个公式:
multiple-F0估计的主要任务是估计最好的为了使随着越来越多的接近。这是一个问题的计算极端,它可以通过线性代数的知识来解决。
让
问题是获得最佳为了使获得最大的价值。它可以证明和在同一个地方获得最大的价值。下一个问题是计算为了使得到的最大价值。根据高等数学的知识我们可以得到
方程(4.12分解(后)可以获得4.11): 简化(4.12)可以得到 写(4.13)成矩阵形式: 在哪里和所以,知道吗可以通过线性代数的知识。
应该注意的是,如果有一些负的系数X,这意味着音频不包含相应的注意,我们应该重新计算这个没有这张钞票。这是重复,直到所有的组件X是积极的或重复(为了避免无限循环,您需要手动设置一定数量的周期t)。一个阈值可以设置。如果,并注意包含在这个框架。通过这种方式,我们可以估计这个框架中包含的所有的音符。
我们可以解决函数(4所示。9用另一种方式)。在函数(4所示。9),是一个矩阵。在一般情况下,,所以函数(4所示。9)是一个不适定的矩阵方程。完全截断最小二乘方法可以用来获取这个函数的解决方案,因为这种方法对误差不敏感。循序渐进的过程如下。
起初,增广矩阵的奇异值分解需要计算: 然后,选择一个截断的策略和较小的奇异值,让剪除 第三,让,使问成为一个分块矩阵: 在哪里。
最后我们可以得到解决方案: 在哪里是一个广义逆矩阵。
我们得到后X,消极的和更小的值组件被删除,其余的混合系数相应的笔记。
我们可以用两种方法解决函数(4所示。9),使它们相互身份验证进行改进。
在计算在训练阶段,我们考虑频率的信息丢失,谐波失踪,而在频率主要选择阶段,我们考虑用inharmonicity因素和频率误差。函数(4所示。9)可以显示的信息频率重叠。结果,我们的算法比别人有更好的结果。
4.3。纳税人根据音乐类别和先验概率
这个内容是本文的最大贡献之一。
正如我们所知,有类型的音乐,如新时代、节奏蓝调、说唱音乐、摇滚、爵士乐。不同的音乐有不同的节奏和旋律和许多其他的东西。从音频特性,它们有不同的低短时间内能量比和非零螺距比和其他特征。每个音符的发生概率是不同的对于不同类型的音乐。相同的概率分布,在不同类型的音乐也不同。我们可以用这个来执行一项基于音乐类别的先前的实验结果。
需要指出,对音乐进行分类并不是本文的研究内容。我们假设每个音乐属于的类别是已知的。
我们只考虑最受欢迎的笔记(大约72年)实际的歌曲。让事件={注包含在我th框架},={注包含在帧}。很明显,的数量x和y的数量是有限的,和事件吗或也是有限的。让事件={虽然当前帧包含注意,下一个帧包含注意。根据条件概率的定义我们可以得到=。对不同类型的音乐,条件概率不是同样的同样的注意吗x或y。如果我们知道音乐的类型,我们可以过滤帧由相应的条件概率。通过这种方式,我们可以把笔记和小概率验证指出在当前帧相关的后验概率。
在培训过程中,我们可以得到的通过实验={帧的数量包括注意/{}的总帧数。我们也可以得到={下一帧包含报告的数量而当前帧包含笔记/{}的总帧数。
在识别过程中,我们可以计算出以下数据。(我)得到了直接通过查询培训结果集。(2)得到了直接通过查询培训结果集。(3)计算通过全概率公式: (iv)计算由贝叶斯公式:
可以看到上面的四个概率的分析。第一个可能性是先验概率没有任何限制。第二个考虑了相邻帧之间的关系。第三个是全概率公式和计算出是由贝叶斯后验概率计算公式。前三个概率先验概率用于直接确定当前帧中包含的概率。第四个是后验概率用于确定前一帧的概率,包含一个音符,而当前帧包含另一个。每个概率可以用来获取结果单独在一起但是我们把四个概率,结果更准确。
设置一个概率阈值,我们考虑的事件只有当所有的概率比上面提到的。
5。实验方法和结果
根据前一节中描述的算法,在Matlab仿真。实验参数如下列出每一步。(我)所有的音频信号分解的采样频率kHz和16位。(2)汉明窗口。(3)FFT长度。(iv)冷杉高通滤波器,用于预加重。(v)帧长度是100 ms。(vi)72由钢琴用于火车,这从C3(注意36)B8(注107),每个音符,我们得到100波形数据进行训练。(七)歌曲的数量用于训练对每个类别都是100,并做统计和得到和以它们为基础。(八)PCA分数= 80%。(第九)阈值的包络谱的频率主要选择的步骤th1= 0.1。(x)强度系数的阈值:th2= 1.5。(十一)的概率阈值过滤步骤= 0.6。(十二)我们获得注意错误率(负阻元件)如下: FP(假阳性)的数量不注意帧转录活跃和FN(假阴性)活动注意帧的数量转录活性。
为了充分测试本文中给出的算法的性能,我们做了大量的实验与不同类型和风格的音乐,包括古典音乐、爵士乐、童谣,舒缓的音乐,快节奏的音乐,音乐有很多基本频率重叠和音乐刚刚有点基本频率重叠。帧的大小有一个小对识别结果影响不同类型的音乐。分析的结果让我们发现我们的算法是对音乐节奏的变化不敏感。快节奏的音乐和缓慢的节奏也有类似的识别结果,但它是敏感的变化规律的节奏。音乐有规律的节奏变化可以得到更好的识别结果。
大量的实验表明,我们的算法平均尼珥约13%。这是一个非常高的准确率与描述的一些最先进的算法(11,12]。转录的结果没有明显的影响对我们理解这种音乐。
6。结论和观点
本文提出一种创作模式识别和机器学习方法computer-synthesized音乐特别multiple-F0估计和构建一个高效的自动音乐转录系统。这种方法还考虑人类的听觉模型和音乐笔记,提高了算法的谐波结构在此基础上。尽管使用谐波匹配和迭代删除仅能完成multiple-F0估计,或删除的频率主要选择一步识别阶段,建立数学模型,解决它也可以完成这项任务,结合这两种方法可以提高算法的性能和识别结果。贝叶斯估计和先验概率的使用提高了性能。此外,尽管如此,一些必须指出需要改进。首先,我们可以提高谐波的定义匹配得到更准确的结果。FFT,然后,我们可以考虑使用多变的FFT长度,因为notes在低频区域含有丰富的谐波组件,而在高频区域有相对简单的谐波分量。在低频区域,需要更高的频率分辨率在高频区域的情况恰恰相反。第三,截断阈值th1或th2在我们的算法可以被定义在一个多变的方式得到更准确的结果。此外,因为合奏音乐包括很多乐器,我们需要与多种训练笔记和大量的计算。如果我们可以开发一个无监督方法和之前的信息仪器不是从文件中获得相同的仪器在不同的音乐数据库,但直接从音乐文件进行分析,获得将提高效率。
确认
感谢侯Xiaorong教授将唐教授精心指导,忌用对作者的研究的财政支持。