文摘
数字化,音乐信号的分析和处理技术是数字音乐的核心技术。通常有一个预处理过程之前,音乐信号处理。预处理过程通常包括抗锯齿过滤、数字化预加重,窗口和框架。歌曲在流行的MP3格式wav格式和在互联网上都是歌曲已经被数字技术处理,不需要数字化。预处理可以影响的有效性和可靠性的音乐信号的特征参数提取。因为音乐是一种声音信号,声音的处理也适用于音乐信号。在自适应波动方程反演的研究,传统的全波方程反演使用真实的数据和模拟数据之间的最小均方误差作为目标函数。梯度的方向是由残余波场反向传播的互相关和远期模拟波场对时间的二阶导数。当初始模型之间有很大的差距和正式的模型,周期跳跃的现象将不可避免地出现。在本文中,自适应波动方程反演。 This method adopts the idea of penalty function and introduces the Wiener filter to establish a dual objective function for the phase difference that appears in the inversion. This article discusses the calculation formulas of the accompanying source, gradient, and iteration step length and uses the conjugate gradient method to iteratively reduce the phase difference. In the test function group and the recorded music signal library, a large number of simulation experiments and comparative analysis of the music signal recognition experiment were performed on the extracted features, which verified the time-frequency analysis performance of the wave equation inversion and the improvement of the decomposition algorithm. The features extracted by the wave equation inversion have a higher recognition rate than the features extracted based on the standard decomposition algorithm, which verifies that the wave equation inversion has a better decomposition ability.
1。介绍
音乐可以表达人的思想和可以传达人们快乐,愤怒,悲伤和快乐。它存在于不同的文化和国家,与人们的生活密切相关1]。自改革开放以来,音乐不断发展和变化的,有很多不同风格的音乐和大量音乐作品(2]。64%的用户无法找到他们想听的歌当使用音乐搜索引擎,和许多用户并不清楚他们的需求对音乐(3]。面对大量的音乐,很难找到你最喜欢的音乐,和音乐分类和搜索仍有巨大的发展空间4]。今天,随着互联网的普及和网络应用的不断发展,在面对一个巨大的用户群和大规模的数据,数字音乐检索和推荐的重要性是不言而喻的5]。音乐音乐检索的分类是一个重要的领域。这是前提、技术手段和基于内容的音乐检索研究的主要工作内容和建议。音乐风格分类的研究有着广泛的发展空间(6]。音乐风格的分类可以帮助人们快速找到自己喜欢的音乐,可以演奏不同风格的音乐在不同时期根据不同的场合。
在音乐信号识别技术,关键的问题是建立一个音乐信号的声学模型识别原语(7]。目前,一些音乐信号的声学模型技术尚未完全解决,导致一些产品的性能仍难以达到理想的使用要求(8]。声学模型的基础上建立了音乐信号的特征参数。因此,大量的有用的信息包含在音乐信号的特征参数的准确性直接决定了音乐信号的声学模型的描述。参数信息少,所以最后的声学模型也是不完美的。声学模型建立之前,必须研究特征参数提取最有用的参数信息(9]。声学模型建立了基于特征参数主要分为两类。一个是映射规划在时间轴上,这两个特征参数测量的失真;另一种是基于统计模型的知识。建立基于初始模型和训练数据,不断要重新计算模型和优化参数,直到收敛。这个算法不是全局最优分析的解决方案,它是容易陷入局部最优解。最终的模型参数有很大的不同。因此,研究特征参数提取和模型初始化是在音乐信号识别具有重要意义。
本文介绍了自适应波动方程反演方法为核心,分析了波动方程反演在时域,包括波动方程反演的想法。全波方程反演的目标函数给出方法在时域,和当地的优化算法,即梯度法,用于反演。梯度公式,并附详细的推导过程。针对这段时间跳跃,提出自适应波动方程反演介绍,包括该方法的基本原理和目标函数。一个新的目标函数是用来给陪同源和梯度的公式,给出一个详细的推导过程。自适应梯度差异波动方程反演和全波方程反演相比。共轭梯度法的梯度公式,介绍了选择步长。我们对音乐信号库执行元音识别实验1和2,分别。对音乐信号特性相同的维度,图书馆1,波动方程反演的识别率高于三个对比功能。2音乐信号库,它也有一个更高的识别率在原始信号,信噪比低。 For the combination of features in this article, HMS-MFCC has a strong characterization ability, while EWCF is more susceptible to noise pollution, but it has the lowest dimensionality.
2。相关工作
特征提取的目的是获取信息,有利于识别和消除干扰的音乐信号。音乐信号包含大量不仅音乐信号信息,而且个人特征信息。音乐信号的特征参数应该能够准确反映原始信号中包含的所有信息,有助于区分。深入研究了现有的特征参数不能完全和准确地描述音乐的信息信号。目前,音乐信号的特征参数可分为时域,频域,倒频谱域。时域参数是通过减少每一帧的维度的音乐信号在时域形成一组特征向量。时域参数主要包括短期能源,短期讨论二阶导数过零率,自相关系数。频域和倒频谱域参数将每一帧的音乐信号转换成频域范围和提取特征参数在频域或频域参数转换成倒频谱域。
目前,没有参数特征提取能够代表所有音乐信号的有用信息,即使使用的更成熟的MFCC参数(10]。在各种参数,这是一个近似的描述音乐信号的某些方面。例如,常用的MFCC参数模拟人类听觉系统,主要考虑低频组件。参数的低频分量占主要部分,和使用组件的MFCC参数的差异不是考虑特征选择,这样的参数将会失去一些重要的信息11]。研究人员已经提出了很多算法来提高音乐信号的特征参数12]。
的Mel-frequency cepstral系数是目前使用最广泛的特征系数在音乐信号识别系统。它是基于人耳的听觉系统和提取参数通过模拟人耳的听觉系统建立一个模型来描述音乐信号在频域的能量分布(13]。对于不同频率的声音,人类听觉系统感知他们的能力是不同的。声音的频率低于1000赫兹,听觉系统感知它的能力满足一个近似的线性关系,但当频率高于1000赫兹,声音的听觉系统感知满足对数关系的频率大约[14]。与PLC和PLCC参数相比,MFCC参数强调音乐信号的低频信息,屏蔽高频噪音干扰,和没有任何假设,可以用在各种各样的问题。
计算机科学和技术的进步和发展,音乐的基本理论和关键技术的信号识别技术已经开始推广(15]。音乐信号识别技术的主要研究成果在这一时期是动态规划(DP)和线性预测(LP)。其中,动态编程技术是一个技术校准一群音乐信号。它可以更好地解决不平等问题的长度修正音乐信号在信号识别(16]。线性预测分析技术提出了一个更好的解决方案音乐信号生成的数学模型,对发展具有深远的影响和应用,音乐信号识别技术(17]。同时,NEC实验室,在日本东京广播实验室,和京都大学先后研究和生产的专用硬件设备用于音乐信号识别技术,奠定了坚实的基础为进一步的理论研究和实际应用18,19]。
Baum-Welch算法本质上是一种算法,它使用的最大期望值(20.]。这个算法可以确保输出的概率模型,重新计数不是一旦增加,但该算法有很大依赖初始参数。对于不同的初始参数,最终的输出概率并不是唯一的。因此,传统Baum-Welch算法不能完全准确地建立一个训练有素的音乐信号的声学模型观测序列(21]。隐马尔科夫模型而言,如何培养一个完美的声学模型一直是一个难点的研究[22]。为了解决这个问题,Baum-Welch算法对初始模型参数的依赖可能会导致最终的培训模式陷入局部最优,研究者提出了各种解决方案和算法(23]。这些算法主要针对两个方面:一是在算法的训练过程中,结合其它算法,智能优化模型参数得到升值。这些算法通常有全局优化的优势(24]。另一种是优化模型中参数的初始化阶段,尽量选择更合适的模型初始化参数(25]。
3所示。音乐信号处理技术
3.1。音乐信号的数学模型
基于音乐的声道模型的特征信号,音乐信号模型由三部分组成:(1)声门的激发函数 ,(2)声道调制函数 ,和(3)唇辐射功能 。
音乐信号生成系统是由串联连接这三个功能,即
常见的声道模型包括无损的声音管和共振峰模型。的兴奋波声源影响声道的共振,共振发生在某些频段。产生的峰值包络谱线的共振频率的共振峰。一般的声道模型元音是整机全极模型所代表的和nongeneral元音和辅音大部分是由zero-pole模型。二阶谐振器的传递函数表达式
多个线性组合得到获得声道的共振峰模型:
音乐信号的自励磁模型是所有波兰人表达式的形式,我们称之为音乐信号的比值的输出波速声道的辐射阻抗,忽略的开放区嘴唇比头部面积小得多,并推导出辐射阻抗表达式:
在实际的过程中,音乐信号的物理过程产生不同于上述三个模型但大约是等价的。这也验证音乐信号是一个短期的稳定信号和随时间变化的信号。此外,表示听起来都无声的摩擦音,同时表达了激励源,不能通过简单的叠加。
3.2。音乐信号的预处理
音乐信号由时变函数曲线的数学表示图像,及其维度 ,这是一个列向量。其中,是样品的数量的总和在音乐信号。通过采样和A / D转换,音乐信号从模拟信号到数字信号改变。采样率是音乐信号采样的次数在1 s单位时间。采样率越高,单位时间内得到更多的音乐信号的信息。音乐信号的恢复更真实。为了保持音乐的最大特征信号,避免频谱混叠,奈奎斯特时,必须满足采样定理,采样频率 ,和是音乐的最高频率的信号。量化是整个的振幅范围划分为一个有限集合,指定的一个范围的波形作为标准,并将所有的波形的振幅作为拥有相同的振幅。
预加重处理是考虑音乐信号在高频波段800赫兹以上6 dB /八度振幅下降。有时,它也被认为是消除直流偏移,所以音乐信号的高频部分通过传递函数必须添加。
音乐信号是一个短期的稳定的信号,其特点可以被认为是10毫秒内保持不变。声音的部分区间通过音乐信号乘以窗函数称为帧。间隔的长度称为帧长度。一般来说,有33 - 100帧每秒。相邻帧之间的重叠部分称为一帧。为了使一个连续帧之间的平稳过渡,帧转移通常是帧长度的1/3。
矩形窗口的主瓣窄,和相应的频率分辨率高,旁瓣峰值大,光谱平滑效果好,但频谱泄漏更为严重;汉明窗的主瓣的宽度大,这可以极大地保留了音乐信号的波形特征。但其旁瓣衰减比较大。根据音乐信号波形乘以窗函数,不会有大幅变化,音乐信号波形特点应保持尽可能多的。选择窗口时,主瓣宽度、频率分辨率和旁瓣衰减应全面考虑。
端点检测可以发现声音的开始和结束部分的信号,可以删除无声段,增强有用信号的一部分,并减少声音的长度。孤立词识别的主要目的是减少计算和噪声干扰,提高计算精度;连续语音识别,它主要是用来划分识别基元模型和识别识别原语。只有准确地找到的起始结束语音信号的后续处理的声音可以准确地执行。dual-threshold端点检测方法的原理图如图1。
4所示。自适应波动方程反演的数学模型
4.1。自适应波动方程反演
全波方程反演的目标函数在时域
提出模拟波场 ,波场是 ,和剩余的两个。残余波动方程反演方程
当预测数据和实际数据之间的相位差大于半个周期,周期跳会发生在这个时候。使用时在实际地震资料中,由于初始模型不准确在大多数情况下,它是容易循环跳,有一个很好的对反演的影响。在此基础上,我们提出引入惩罚项来约束目标函数克服周期跳。
图2是循环的示意图跳过FWI工件。固体蓝线代表了真正的波形的时间函数 。上述固体红线代表了时间延迟大于预测波形 从真正的波形周期。在这种情况下,FWI将更新地下介质模型的地震记录 期预测数据将与n期观测数据的地图。一个错误发生在地下介质模型的更新,导致反演效果,偏差。在底部的例子,期的预测数据和观察到的数据是一致的,因为延时小于 ,和FWI可以得到正确的地下介质模型更新。
自适应波动方程反演提出了抑制周期跳跃在反演的影响,并且它可以倒在一个不令人满意的初始模型仍然获得相对理想的反演结果。
自适应波动方程反演的理论和方法与传统的全波方程反演方法不同。这里,滤波器的卷积和的一个数据集用于减去另一个数据集,而不是直接的减法。自适应全波方程反演可以抑制周期发生的转移。
一个信号的卷积和信号的影响等于本身。当波场值与冲击函数的卷积,波场吗是获得。当预测波场数据非常接近真正的波场数据, 可以获得。滤波器系数计算,模拟数据与滤波器卷积系数。通过不断迭代,模拟数据越来越接近真实的数据,同时,两者之间的相位差逐渐减小,周期跳很压抑。滤波器系数逐渐变成了一个冲击函数或接近冲击函数。这时,模拟数据和真实数据之间的差异最小,最后,一个理想的反演效果。调用此方法提出了自适应波动方程反演。同时,当真正的数据是卷积滤波器系数,然后与模拟数据相比,两者之间的差距也可以减少通过迭代。随后调用此方法自适应波动方程反演。
4.2。自适应波动方程反演的目标函数
自适应波动方程反演的目标函数是不同传统的全波方程反演。与双目标函数,反演也分为两个步骤:第一步是计算滤波器系数。第二步是确定新陪同通过滤波器系数和源计算梯度结合迭代计算的步长。第一步是设计一个维纳滤波器,即定义一个维纳滤波器l,第一卷与真实数据过滤器,然后卷积的结果与模拟数据的最小二乘法可以获得目标函数 :
远期模拟波场和维纳滤波器的系数,是Toblitz矩阵,每一列包含了地震勘探记录波场 ,和是真实的数据卷积过滤器 。在传统的全波方程反演中,目标函数的最小均方误差预测数据和实际数据之间的差异。在那些最初的预测模型,反演结果是贫穷或反演结果是错误的,和循环是影响因素之一。
第一步是找到滤波器的系数。下面简要介绍了维纳滤波器的原理:在系统中,如果是它的单位响应,是一个输入随机信号, 在哪里代表了信号和代表了噪音。然后,输出是
众所周知,所需的输出
错误的是
均方误差
进一步,我们得到
设计一个维纳滤波器的过程就是找到表达的滤波器的单位脉冲响应或传递函数根据最小均方误差,其实质是解决维纳霍普夫方程。这里,使用维纳滤波器可以抑制周期跳。通过采用维纳滤波,过滤器的目标函数在自适应波动方程反演可以推导出:
是地震勘探记录波场的自相关 ,和提出模拟波场之间的互相关吗和地震勘探记录波场 。过滤器的意义公式是观测数据的自相关矩阵的逆矩阵乘以观测数据和预测数据之间的互相关。当观测数据与预测数据是一致的,也就是说,当 , 应该是一个脉冲函数。但总的来说,预测数据不等于观测数据。通过过滤器和随后的算法,我们试图让过滤器一个脉冲信号。当设计 - - - - - -阶滤波器 ,应该考虑震源子波。
计算滤波器的系数后,目标函数自适应全波方程的反演得到:
这个目标函数设计的目的是限制过滤器 ,使用罚函数的概念,在那里是一个 对角矩阵。的函数是基于绝对相位差之间的模拟数据和真实数据。但更复杂的形式函数可以提供更快、更稳定的收敛性。
4.3。伴随来源和梯度的自适应波动方程反演
由于目标函数的变化,伴随来源和梯度的自适应波动方程反演不同于那些全波方程的反演。这里给出的公式推导。代表一个矩阵的数值运算符来实现波动方程。是震源,是产生的波场模型 。
当模型目标函数的偏导数,我们可以得到
上面的仍然是梯度公式的推导过程全波方程的反演。在这里,如果设置变量,梯度自适应全波方程的反演
相应的源是
通过以上推导,的梯度和相应的来源全波方程的反演。这是在时间域波动方程反演。与全波方程反演在时域,转换是需要获得最终的梯度。
全波方程反演的梯度的二阶导数的积分前进波场对时间和剩余波场的反向传播。的梯度自适应波动方程反演不同于前者。从正向波场的二阶导数对时间和附带的反向传播积分的新来源,寻找新的陪同源起着重要的作用在整个方法的实现。总的来说,目标函数的梯度公式适应性波动方程反演设计旨在如何抑制造成的不利影响周期跳。
与模拟数据当滤波器卷积,然后第二准则的区别真实数据,获得的滤波器系数的方法和相应的来源在这种形式被称为前适应波动方程反演。
其中,是Toblitz矩阵,每一列包含模拟数据 ,和是前面的滤波器系数。可以看出,这两种方法的区别在于过滤与模拟数据与真实数据或卷积。
4.4。共轭梯度法自适应波动方程反演
梯度法是最早的局部优化算法使用。它的优点是算法相对简单,每次迭代的计算量相对较小,和内存使用量也小。条件下的低初始点要求,它还可以收敛到局部最小值。缺点是收敛速度慢和收敛到局部最小值而不是一个全球最低。牛顿法收敛速度非常快,已经二次收敛的优点。它可以收敛到全局最小值。然而,海赛矩阵需要处理。的计算量大,收敛速度缓慢。与此同时,它需要一个初始点,很难构造。高斯牛顿法的基础上改进牛顿法避免的纠缠,使用最小二乘法和二阶偏导数极值问题。
共轭梯度法是一种局部优化算法的重要方法。它有很多优势,如良好的收敛性,稳定性高,不需要添加额外的参数。这种方法也使用目标函数的梯度生成共轭方向。虽然计算量比最速下降法,它克服了最速下降法的收敛慢的缺点。与牛顿法相比,它不仅需要计算一阶导数信息,还二阶导数信息,存储,和海赛矩阵和逆;共轭梯度法只需要计算一阶导数信息,和收敛效果比牛顿法。因此,共轭梯度法可以更有效的算法求解线性或非线性优化。结合上述方法,本文选择了共轭梯度法作为自适应波动方程的非线性共轭梯度法反演。计算公式如下:
根据计算电流的负梯度方向模型和前面计算共轭梯度方向搜索方向的共轭梯度法、共轭梯度方向的迭代是 ,第二次迭代的共轭梯度方向 ,负方向的梯度计算的初始模型 ,负方向的梯度计算模型在迭代是 ,和加权系数 。自适应波动方程反演的流程图如图3。
5。实验和结果分析
我们用表1描述人物特征。本文的实验在以下两点:(1)的结果识别率的情况下添加噪音是五岁以下的中间值重复实验。“信噪比=混合”的形成方法如下:假设音乐信号的样本大小 ,和随机数生成25平均值和标准差的6通过一个随机函数。我们添加噪声的信噪比价值生成的随机数的原创音乐信号形成音乐信号库不同的信噪比。(2)特征提取方法本文采用Sliding-fastBSpline-EMD分解算法。如果没有特殊说明,窗口长度是3,滑动重叠数量是2。
5.1。实验音乐信号库1
因为音乐信号库1是同一个人的不同元音,这是可以理解的,只有不同元音的描述和区分能力的特性检查,所以分类更准确,每组特征的识别率也更高。从同维特征的识别率的比较图4波动方程反演的识别率高于常用特性LPCC, MFCC和WPTSBCC几个噪音水平。它也可以发现,信噪比越低,更好的波动方程反演的识别率是相对于三个对比功能。这不仅反映了波动方程反演比这三个特征区分不同的元音,但也反映出这种情况下,它有更好的抗噪性能。
在图5,波动方程反演具有更高的识别率比其他三种方法。与此同时,它可以发现区别他们的识别率可以达到9.5。这充分反映了波动方程反演结合特性具有很强的描述能力。
结果在图6显示的时间反演波方程是最小的,平均约为0.2毫秒,满足实时系统的要求。WPTSBCC需要最多的时间,约0.6毫秒,耗时的波动方程反演的三倍。
5.2。实验音乐信号库2
从结果可以看出在图7波动方程反演的识别率高于三个比较特性,和它的优点更明显的噪声水平下。这反映了在这两种情况下,HMS的信号提供了一个范围,更好地反映的真实频率信号能量分布比傅里叶谱和小波系数能量谱,和波动方程反演具有更好的表征能力,除了LPCC。其他三个都是基于频谱特性。因为音乐信号信号库2是六个不同的元音的发音不同的人,和不同的人的发音本身具有多样性,这带来了很大程度上的影响6个元音的识别。识别率的差异反映了这种多样性的不同的影响和噪声三个光谱。
不同的特征向量维度的识别率对音乐信号库2所示图8。不同特征向量维度的识别时间音乐信号库2所示图9。因为EWCF大大地受到噪声的影响,这两个音乐信号的识别实验结果数据库,分别列出它的识别结果表征能力在高信噪比的情况下。它可以发现特征提取的波动方程反演通常高于提取基于标准的分解算法。这充分反映了波动方程反演提供更清晰、更现实的信号相比,标准的分解算法。
6。结论
在本文中,自适应时域波动方程反演方法的研究。我们介绍了反演的概念和全波方程反演的原则。根据时域全波方程的反演,给出目标函数,梯度的计算公式。的原则,详细介绍了自适应波动方程反演,介绍了两个目标函数,相应的计算公式来源和梯度步长自适应波方程推导出反演。解决方案介绍了自适应波动方程反演的方法。通过分析特征提取原理的共同的音乐信号识别、整合遗传性出血性毛细血管扩张症的有效机制特征提取过程进行了研究,并建立了本文的特征提取框架。基于瞬时频率和瞬时能量HMS和国际货币基金组织,分别两种特性,HMS-MFCC和EWCF提取。音乐信号库上的实验结果1和2显示HMS-MFCC具有较强的描述能力,而且在大多数情况下,波动方程反演的识别率高于LPCC, MFCC和WPTSBCC。尽管EWCF大大地受到噪音的影响,它有一个高的识别率高信噪比,但其功能维度大大压缩,这有助于减少识别系统的复杂性。然而,本文研究和实验都是基于特异性的音乐信号的识别基于小词汇和单词。 Human language is generally continuous, large vocabulary, and relatively large noise interference from the background environment of music signals. Moreover, the music signal contains various other characteristics such as phoneme and timbre. Since the research on music signal recognition technology is not long enough, we only conducted some in-depth research on the feature parameter extraction algorithm of music signal and the matching model of music signal recognition system, and other aspects of music signal recognition technology. There are deficiencies in the research. Music signal is a complex signal, which contains many characteristics of music signal. Integrating these important characteristics in music signals and applying them to music signal recognition technology are another important direction for follow-up research.
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。