文摘

音乐是一种方式来反映人们的真实情感,和听音乐已经成为日常生活不可分割的习惯。基于文本的音乐信息检索的主要方法仍然是人们寻找音乐,但是这种方法也有明显的缺点和不足,这是一个比较繁琐和低效的方法。为了解决这个问题,本文提出一种基于轮廓的特征提取LAM算法的音乐旋律。旋律是最重要的提取特征在基于内容的音乐检索。用户可以根据自己的记忆哼一首歌,然后提取节奏,旋律,哼着歌曲音频信息和其他信息来匹配和识别原创歌曲的节奏和旋律特征存储在数据库中。检索方法是基于旋律,节奏,和其他音乐的音乐特征,涉及到很多问题,比如音乐旋律的表达,音乐旋律的特征提取,用户查询建筑、音乐旋律匹配,和音乐数据库建设。的帮助下定制查询接口、媒体信息可以被检索。最后,实验证明了林算法聚类后的排名前十的命中率是91.3%,零售业的命中率是78.8%,和第一个命中率是71.2%。近似符号匹配DP算法有一个十大83.6%的命中率,命中率为66.4%,三大,第一个63.6%的命中率。本文提出的方法检索命中率很高。

1。介绍

人类的听觉感知音乐密切相关。它表达了一种感觉,一种情绪,是难以量化。这首歌的标题,歌手,和其他方面的音乐是由这个音频分类和检索技术的特点。外在信息时是无关紧要的音乐分析。传统音频检索使用基于文本的检索技术,这意味着所需的音频输入关键词检索的信息如音频文件的名称,作者,和歌词1]。尽管他们的力量,他们都有不可克服的局限性,因为他们仅仅依靠文字来描述音频数据。很难用语言表达人类如何看待音频,如旋律、音高,在音乐和声音质量。音频数据的数量是巨大的,爆炸性的。前面的文本注释不仅耗时,而且昂贵,和注释等大量的音频数据是不可能的。音频数据本身是一个二进制流,缺乏语义描述和基于文本的注释是主观的和不完整的。用户不可能保持新鲜的记忆音频关键字,他们总是关心。也许他们只记得一个粗略的旋律。在这个时候,基于文本的检索技术不能满足用户的需求2]。

为了解决上述问题,melody-based音频检索技术应运而生。所谓melody-based音频检索是指检索基于音频的旋律特点,也就是说,使用物理特性如振幅和音频信号的频谱,听觉特征如响度、音调、音色、节奏和旋律等语义特征检索。它提取的语义和功能对象直接从音频数据,然后使用这些信息来搜索大量的音频数据存储在数据库中对音频数据具有相似的特性。Melody-based音乐检索一个分支叫做humming-based音乐检索(3]。它使用用户的嗡嗡声或唱歌来搜索音乐数据库。用户只有必须哼歌的一部分,数据库和检索系统将搜索这首歌相似歌曲由用户根据旋律哼着歌曲。Humming-based音乐检索更加方便、自然和用户友好的比传统的基于文本的检索方法和提供了更好的用户体验。因此,humming-based音乐检索是越来越受欢迎。

声音是连续产生的声波振动的一个对象,和声波传播的媒介。自然是充满了各种各样的声音。相关的学者发现,人类能感知的声音实际上是相关的振动频率的范围。人类只能认为他们在20赫兹到20000赫兹的频率范围。声波超越人类认知分为超声波和次声波波;,声音与振动频率超过20000赫兹称为超声波;声音低于20赫兹波被称为次声。人类语言的频率范围是一般300赫兹到4000赫兹,但在音乐,除了歌手的歌声,还有各种各样的乐器伴奏声音(4,5]。一些这些乐器发出的声音有一定的规律性,和一些不,但是声音的频率覆盖整个人类能听到的频率范围。依法振动,声音可分为音乐和噪音。常规振动产生的噪音,被称为声调;否则,它是噪音。嗡嗡作响,人声歌曲都是人的声音,和他们的分析原则和角度没有太大的区别的演讲分析(6]。作为一种自然的声音,音乐的声音也有一些基本属性,包括时域特性和频域特性,这也适用于音乐的研究。同时,一段音乐的灵魂,旋律非常的提取和表示有关音乐理论密切相关。本文将介绍和分析相关的音乐理论的旋律,然后进行旋律特征匹配引擎在此基础上。设计及相关算法的研究也将推出。

本文的创新:本文提出了一种音乐检索模型的基础上,基于轮廓的特征提取LAM算法的音乐旋律,因为基于文本的音乐信息检索效率低下和繁琐的使用。用户只需要哼歌的一部分的系统识别。由用户根据旋律哼着歌曲,歌曲数据库中可以找到类似的歌曲。Humming-based音乐检索更加方便、自然和用户友好的比传统的基于文本的检索方法和提供了更好的用户体验。文章的篇章结构如下:第一章介绍了相关学者的研究音乐检索;第二章探讨了音乐旋律特征的提取算法从短期能源、端点检测、音乐和频域特性;第三章使用类和时频域混合提取音乐数据进行对比实验;第四章是全文的总结。

作为一种重要的方法和手段的信息采集、计算机信息检索技术已经发展了几十年。随着计算机硬件和软件技术的发展和互联网,信息检索的对象已经开发出从一个文本信息,二维图像、音频、视频和其他多媒体信息(7]。

张等人对输入执行特征提取音频,把笔记通过分析能量,计算零点交叉率和自相关函数提取,并使用三元组作为单位来表示的旋律。在匹配方面,首先使用DP算法大致比较轮廓,然后用更准确的算法比较的旋律音程和持续时间误差小于某个阈值。他们的系统没有限制用户的嗡嗡作响的发音;用通常的“达达”的发音。搜索音乐库的规模1000音乐,只有74%的前三支安打。然而,他们的想法的分级匹配是被大多数的后续研究[8]。刘等人使用音高变化和编码长度变化的旋律,在一秒钟可以检索10000首歌曲,并取得75%的命中率的五大优势之一。用户必须嗡嗡声的伴奏节拍器。虽然该系统极大地提高了精度和速度,它非常方便用户使用(9]。胡安和周提高了几何相似匹配方法,提出了一种新的近似方法旋律matching-Linear对齐匹配方法(LAM)。他们哼唱音乐和检索系统包含3864件62的声音嗡嗡作响。匹配算法实现三大命中率为90.3%,这是逾11%高于传统的近似匹配算法(象征10]。陈等人尝试两种不同的相似度计算方法哼唱搜索。一个是使用距离来估计目标的区别和数据库中的数据;另一种是把旋律序列数据库中作为一个嗯形式,和输入数据的观察序列,它只匹配如果一些嗯结构似乎能够生成查询序列(11]。布拉德利提出使用两个音高变化和分布来改善系统的性能,他们开发了一个系统被称为声音罗盘可以检索10086首歌曲在1秒,实现五大75%的命中率。然而,它需要上到处是一个节拍器实际使用时,这是很不方便,不适合大多数非专业用户(12]。文图拉提取输入音频的特征,计算自相关函数提取,最后转换为一个三元组序列(音高曲线,音高距离,和持续时间)。匹配阶段采用两级匹配。首先,使用动态编程算法大致比较音高曲线,然后匹配后执行精确匹配。他们的系统检索1000首歌曲,达到74%的命中率(三大13]。凌晨提出使用间距和长度来搜索,利用欧氏距离搜索系统中,用户输入和数据库内容的系统分为固定窗长度。系统第一次过滤掉不同的数据,然后比较了剩余的数据,但该系统运行时消耗大量的内存,所以它并没有被广泛使用14]。Hashiguchi提出了一种基于树的数据库检索方法减少匹配的数量计算,从而提高系统的检索精度和速度(15]。索恩伯格等人基于注意使用方法分割,利用时域方法段哼唱歌曲的音符,提取每个音符的音高轮廓分割后,然后用三个字母来表示音高的变化。这三个字母年代,U,D,在那里年代代表相同的球场之前,U代表了一个更高的音调比之前的注意,D代表一个低音比前面的注意。旋律信息表示为一个字符串序列,最后,使用字符串模糊匹配算法匹配数据库中的歌曲,以检索所需的歌曲信息(16]。乔治等人提出了一个增强的哼唱检索系统,它结合了哼着这首歌的旋律和歌词信息,提高了检索精度,并产生一个良好的检索效果17]。Larrouy-Maestri等人提出了一个音乐检索系统可以识别歌曲封面和哼唱歌曲。本系统使用的组合HPCP,旋律特点,bassline功能,然后使用Qmax旋律匹配算法。它还展示了良好的音乐检索系统在后续性能测试(18]。

本文选择的匹配算法不仅关系到特定的系统资源,但也有密切的关系与上面提到的旋律表示方法。如何更好地把它们有机地仍是一个热点研究问题。本文旨在设计一种改进的匹配算法和检索的音乐旋律后聚类分析(19的系统资源,因为两个特点的音乐旋律。对检索的影响是最明显的和直接的。

3所示。音乐旋律特征的表示和提取

3.1。短期能源分析

本文非常重要的演讲和音乐。旋律是两个最常用和重要的一个基本属性相关的学术研究。同样,音高和时间是最重要的因素,影响音乐的感性特质。一方面,可以由不同的工具或旋律音调和音色不同的人,这意味着每个仪器或人会有自己的独特的音色和音调,但这并没有影响人们的认知和感知评价的旋律;另一方面,如果不同的音高和节奏是用来玩唱歌或者一个特定的旋律,旋律将受损,在最坏的情况,旋律甚至可能迷失在认知。因此,数据采集和特征提取,以及音乐检索,基于音高的结合使用,球场上,或长度在melody-based音乐检索研究和设计。音频信号的能量随着时间发生巨大的变化,和其短期能源分析捕获这些振幅的变化提供了一个有用的描述。短期能量的公式如下所示:

其中,第一点的信号代表了短期能源启动窗口函数。可以看出短期能量可以被视为广场的输出的音频信号通过一个线性滤波器,和线性滤波器的单位脉冲响应 短期能源可以有效地判断信号振幅的大小,可以用来确定是否有声音或没有声音。分析发现,还可能出现异常时使用不同的音频信号。例如,爆炸通常只持续几短时帧,和能量由短音频帧之前和之后的爆炸声音极低。如果仅仅是短期能量用于声音沉默检测算法,将会有一个问题,判断爆炸音频例子沉默。短期平均零点交叉率的公式如下所示: 在哪里 是符合函数,如以下公式所示:

人类感知的过程密切相关的音频信号频谱分析人类听觉系统的功能。傅里叶谱分析是一种广泛使用的方法在音频信号的频域分析。傅里叶频谱分析是傅里叶变换的基础。傅里叶变换及其逆变换可用于获得傅里叶谱、自相关函数、功率谱、倒频谱,等。因此,音频信号的频谱分析是一个重要的方法来识别和处理音频信号。本文基于最初的提取方法,端点检测是应用于沥青提取算法区分无声段和噪声段哼唱的声音混在一起的,所以注意分割的结果是更准确的20.]。摘要旋律提取的过程如图1

声音信号的预处理主要是窗口音频音乐文件的音频片段序列。在这篇文章中,当音频信号窗口的,分为帧,每一帧处理汉明窗。汉明窗显示的函数公式如下: 在哪里 代表帧长度和 代表帧的采样点。为了保持连续性之间的平稳过渡帧,采用重叠法的窗口和框架处理音频信号。重叠的部分前一帧和第二帧被称为帧转移,和帧转移到帧长度的比例一般为0.5。

3.2。频域特性

先前被表示为一个相对音高旋律序列,这是基于字符串的方式表达在一些以前的音乐检索系统中,只有那些检索使用相关算法哼着旋律和匹配字符串相似性时,旋律在音乐库。同时,它显著地掩盖了哼唱旋律特性,增加的可能性错误的检索。因此,本文中描述的旋律基频轮廓。

音频信号,如语音和音乐的非平稳随机信号。为非平稳的随机过程,传统的标准傅里叶变换适用于周期性瞬态,或平稳随机信号不能直接使用。短期音频随机:传统的傅里叶变换的信号满足条件,导致短期内短期音频信号的频谱(21]。人耳感知就像通过一个过滤器银行,和这些过滤器在频率轴上的分布不均匀。有许多过滤器在低频区域,分布相对密集,但在高频区域,过滤器的数量变得越来越小(22]。梅尔频域,对人耳是线性的,和普通频率转化为梅尔频率公式如下公式所示:

音乐信号的线性预测分析的基本思想如下:音频信号的抽样可以近似的线性组合几个音乐信号样本过去,通过抽样近似线性预测实际的音频信号采样的最小均方误差。可以获得一组独特的预测系数。然后,预测信号可以表示如下:

其中, 表示加权系数,它被称为预测系数,预测误差是下列公式所示:

是唯一由一组线性预测系数的预测误差在一定准则下的最小值。音乐的短期平均能量信号可以反映信号的能量随时间的变化。采样点的数量框架如图2

基于傅里叶变换频域能量系数如下公式所示:

如果某一帧的频域能量小于阈值,帧被标记为一个沉默的框架;否则,它是nonsilent框架;即频域能量可以用来判断这是一个沉默的框架。

3.3。端点检测

端点检测的问题本质上是一个区分语音和噪声的问题。短时能量检测和短时讨论二阶导数过零率统计数据是常用的端点检测方法。具体来说,短期能源检测是用来区分无声段,和短期讨论二阶导数过零率检测是用来区分噪声段(23]。端点检测的程序流图所示3

整个声音信号端点检测可以分为四个部分:沉默,过渡,演讲,和结束。如果能量或讨论二阶导数过零率超过了低阈值在沉默的部分,你应该开始标记和进入过渡段的起始点。因为参数的值是相对较小的过渡段,未知是否在真正的演讲部分,只要两个参数的值低于低阈值、当前状态将恢复沉默。你一定会进入演讲部分如果过渡段的两个参数超过了高门槛。如果两个参数的值低于低阈值,和总时间长度低于最短的时间阈值,而当前状态是在演讲中,它被认为是一个噪音,和未来的演讲的扫描数据仍在继续。否则,返回后,标志着结束端点。本文使用聚类算法对候选人的歌集进行分类检索之前,标记每个集群的中心,然后将其存储在特性数据库,和准确匹配的音乐与集群中的每个音乐相匹配。

在本文中,使用聚类算法分类前的候选歌集匹配检索;也就是说,音乐的音频特征数据库集群在检索之前,每个集群被标记的中心和存储在数据库的特性。首先,将音乐的片段与每个集群的中心,选择集群类集群中心相似性较高的所在地,然后准确地匹配音乐与集群中的每个音乐相匹配。基本频率相对较低时,谐波的数量会相对较大。当基本频率相对较高,谐波的数量可能相对较小,但频率差异高频半音来也相对较大。频率误差的公式如下公式所示:

其中, 帧的长度帧处理, 谐波的数量。任意增加帧长度也不允许,而声音只是短时间内的稳定。如果帧长度太长,多个不同频率的声音在不同的时间可能会叠加在一起。由于FFT将失去时间的变化信息,是不可能区分这些不同频率的声音的序列。

4所示。提高音乐为音乐旋律轮廓数据提取

4.1。时频域混合

捕捉过程的时间序列是随机事件的变化和发展。时间序列分析是一个过程,观察和研究时间序列,寻找法律的变化和发展,并预测其未来趋势。在大多数情况下,使用两种方法来计算时间序列之间的距离。方法将时间序列映射到一维空间点和计算距离序列使用多维空间距离计算公式,如欧氏距离公式。这个距离计算方法的致命弱点是它对噪声过于敏感,因为每个序列包含更多的数据点一般来说,计算需要很长时间的距离。旋律的功能是用来实现哼唱检索系统。基频轮廓与旋律特征。能够正确表达和提取的旋律哼唱检索系统至关重要,因为它直接影响旋律匹配精度。系统实现基于基频特征序列,和基频提取算法的各种单声道的嗡嗡声,复合的基本频率音乐家深度研究,不同的旋律提取方法的优缺点进行比较,并提出了一种新方法。倒频谱的基本频率提取算法已得到改进。

小波分析是另一个有效的谐波分析工具开发的基于傅里叶变换分析。与傅里叶变换分析相比,它是时间和频率的局部变换,因此它能有效地从信号中提取本地信息。瞬时频谱用于提高基频提取的准确性。与此同时,本文还比较了评价指标与其他优秀的基频提取基频提取的算法来验证本文提出的改进算法的性能。一个音频信号和能量计算值的波形如图45

比较的能量在每一帧音频的时间,保留信号值最大的能源时,帧长度是10 ms的地方,然后在保留波形信号进行傅里叶变换,然后根cepstral序列可以获得。如数据所示67,这些是保留音频信号和傅里叶变换后的频域信封和倒频谱。

倒频谱序列峰值检测,时间对应的倒数第一个高峰是基本频率的大小。一般来说,人类语音的基频是50赫兹和400赫兹之间。如果第一个高峰是2.5毫秒至20 ms,认为音频帧的基音周期检测。经过一系列的基本频率序列了,基频轮廓需要平滑。它的功能是删除一些基本频率点偏离很大轮廓,提高基频提取的准确性。音频信号的时域特性只使用时间。上的信息域提取时不需要特殊的转换,处理时间短,和简单的优点,计算复杂度小,和明确的物理意义。常见的时域特性包括短时讨论二阶导数过零率、平均能量、自相关函数和短时平均幅度差函数。频域特性需要将时域波形信号光谱或cepstral域,然后执行计算。

4.2。功能聚合

生成丰富的音频特征表示,该功能聚合模块有效融合音频电平特性获得的音频功能模块与音乐标签向量学习的标签向量提取模块。模块首先总结了音频电平特性使用max池和平均池操作,导致多个一维音频特征向量。马克斯池操作提取代表特性从卷积的结果,虽然平均池操作总结段特性捕捉本地信息。最后,功能聚合模块批量可实现多个一维音频特征向量和标签每个池层得到的特征向量,然后线性连接向量生成最终的融合的特征向量。

本文的正确性验证集群的命中率和检索效果后续检索。在上述情况下,本文方法和经典近似匹配算法用于检索象征嗡嗡作响的录音,验证和检索的命中率。检索方法的有效性和优越性摘要解释道。近似匹配算法是象征两个注意集群的线性叠加音高差异和音高差异和使用适当的转移成本表达旋律的不同造成的增加或减少的注意。确定主旋律跟踪与提取精度直接相关的音乐特征库。如果所有的歌曲添加到音乐库,将不必要的数据,检索的复杂性会增加。因此,音乐库应该包含数据的主要旋律跟踪尽可能多。

林算法首先线性扩展两个旋律,也就是说,两个音符序列,时间轴上的长度相同,将笔记与亲密的时刻在一定的误差范围内,然后检查旋律的节奏相似。然后,在每个时间点,比较两个等长旋律音调频率的距离。旋律表达方面的差异,允许用户在任何球场的嗡嗡声。最后,一个匹配分数分配基于节奏和音高的相似之处。注意单位,使用启发式对齐匹配。会有音高和节奏错误在用户的增长。先前的许多研究表明,有节奏的因素被认为是为了与旋律,但没有考虑如何优化和容忍节奏错误。林算法试图突破这一障碍,指出调整接近测深时刻指定误差范围内匹配之前,允许误差造成的用户哼唱注意太长或太短。图8显示的检索命中率LAM算法和聚类后的近似符号匹配DP算法。

十大聚类后,林算法的命中率是91.3%,零售业的命中率是78.8%,和第一个命中率是71.2%。近似符号匹配DP算法有一个十大83.6%的命中率,命中率为66.4%,三大,第一个63.6%的命中率。从图可以看出9应用LAM算法聚类后的平均检索命中率有着明显的优势。

从图可以看出9同样的音乐库的规模,该算法聚类后仅仅是使用算法所需的时间。与此同时,如果音乐库的大小约10000首歌曲,2/7,片面的连续matching-based算法。音乐聚类算法后,运行时间的音乐检索只有2到6秒。集群音乐库已优化,检索速度都得到很大的提高。聚类算法是一种有前途的音乐库优化算法。检索所需的时间是影响分类结果,但类的数量不会与音乐库的增加显著增加,所以音乐库的增加不会大大影响了检索时间。

摘要性能测试数据结果有一定的局限性;也就是说,他们不能被严格而直接与测试数据在其他类似的研究。这是因为没有测试样品和测试模板的标准库在当前哼唱检索字段。执行的测试在不同的研究中进行不同的测试样品和测试模板库,它不是直接比较有意义的结果。正是因为这一原因,我们测试两种不同匹配算法在相同的数据集。只有用这种方法我们才能执行比较科学和解释两个匹配算法的优缺点。

5。结论

音乐检索系统的一个关键的步骤就是提取的轮廓特征从音乐乐谱。本文使用LAM算法提取基于旋律分析现有的旋律提取算法。音乐的旋律跟踪分割,获得嗡嗡作响的轮廓;嗡嗡作响的轮廓转换为分数等值线,和一个可搜索的分数轮廓序列形成字符串搜索匹配算法,使用标准的声音来构造一个标准节不同地图和表使用。我们检查格式文件和嗡嗡作响的属性和特征波形文件的特征提取根据音乐旋律。主音轨萃取法分析了多个音轨的文件,和一个音轨作为特征提取的主要源文件以满足实验需求。特征提取实验表明,端点检测方法显著提高了特征提取的准确性。实验表明,该算法用于音乐检索的音乐功能,它可以提高搜索精度和适应嘈杂的环境中有一定的能力。同时,由于该算法使用乐谱直接信息搜索目标,它将有优势的构建大型音乐数据库和搜索速度。我们存储数据使用两种表征方法、字符串和轮廓,根据音乐旋律特征。 The former is used for audio feature clustering analysis, while the latter is used for humming data matching and retrieval. This paper conducts a thorough investigation of the entire humming retrieval system and suggests ways to improve the algorithm’s precision rate and search efficiency. It is also difficult to be put into practice, and there’s currently no standard set of test samples or data for humming retrieval based on music melody or audio feature clustering. Audio clustering is essentially clustering for different attributes of music in most literature. The accuracy of the classification can only be verified because this paper can only perform similarity clustering on the string information of the entire music. It is indirectly attested by the retrieval’s accuracy.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。