文摘
提高音乐分割的准确性,提高分割效果,一个算法基于自适应测量提出了更新的信心。根据压缩感知理论,运用音乐片段,从而去噪信号进行短期相关性分析。然后,提取音高频率和音乐片段大致分类的小波变换实现预处理音乐片段。为了计算的信心程度的音乐片段,使用支持向量机方法,而自适应更新的信心措施是使用可靠的数据选择算法研究。根据更新动态阈值指出分段实现音乐分割结果。实验结果表明,该算法的查全率和查准率值达到97.5%和93.8%,分别分割错误率较低,并且可以实现有效的分割的音乐片段,表明该算法是有效的。
1。介绍
音乐剪辑的音频信号是一个复杂的混合多个声音信号(声音、音乐、环境声音等)交织在一起的。当从一种类型的音频信号转换到另一个,一些听觉特性会改变,和前后的区别很大,就像视觉特征图像序列(1]。音乐分类的目的是区分不同的音频信号根据音频特征在准备随后的音频处理,如分类(2]。通过音乐分割,可以采用不同的处理方法对不同类型的音频信号,以减少搜索空间进行进一步处理。此外,分割的结果反映了高层语义特征的音频内容,特别是音频剪辑的特点,重视音乐检索和理解音乐的内容(3]。
目前常用的音乐分割方法主要包括实时音频分割算法基于自适应阈值调整,音频分割算法基于分层熵检测、音频分割算法基于可信度变化趋势,和音频分割算法基于固定长度的窗口分层检测。其中,基于阈值自适应调整的实时音频分割方法主要针对实时音频应用程序,把环境因素作为外部环境检测的测量,并使用自适应地调整分割阈值。最后,采用查表法来判断分割类型通过状态转换之间达到平衡效率和准确性,从而实现音乐分割。音频分割算法基于分层熵检测使用固定长度分析层次结构窗口遍历音频流,和跳点是根据熵的变化趋势发现窗口。实验结果表明,该算法是一种有效的音频分割方法。音频分割算法基于可信度的变化趋势采用固定长度的滑动窗口检测结构减少累积误差,计算每个音频帧的可信度的窗口中,根据变化趋势和检测跳点的信誉,以避免造成的虚假检测阈值选择和硬阈值决定。实验结果表明,该算法具有良好的分割性能。音频分割算法基于固定长度的窗口分层检测使用固定长度的滑动窗口遍历音频流,和发现跳点计算从上到下的窗口。最后,发现候选人跳点是由当地极端值测定方法验证。实验结果表明,该算法的处理速度大大提高了与其他分割算法相比。
尽管上述方法可以实现音乐分割因为不考虑噪音干扰,分割结果的错误率很高,和准确性需要改善。因此,本文提出了一个音乐分割算法基于自适应更新的信心。
在这篇文章中,我们分类后的音乐片段的一些方法和理论部分2。进一步研究分割算法分割提出了部分实现准确的音乐3。此外,实验验证的有效性音乐分割算法基于自适应测量完成部分更新的信心4。结论提出了第五节,其中包括一个总结的方法用于解决音乐分割精度低的问题。
2。音乐预处理
在本节中,分割的准确性考虑,我们用声音和音乐片段的“属性。为了避免发生的噪音信号在这种情况下,使用压缩传感理论。由小波变换实现音乐的分类,如果音乐片段已经准备好被处理。
2.1。音乐段Presegmentation
音乐信号短期固定特征;即信号特征基本稳定在一个有限的短时间内。根据不同的音乐信号特征,固定段范围从数百毫秒的时间几秒钟。段presegmentation是连续的非平稳信号流划分为一系列短期固定段。目前,常用presegmentation方法可分为固定长度的分割和不定长度分割。前直接将处理过的信号分成几个相等长度段根据信号处理的特点,并假设每段只包含一种声源。在后者,整个信号流predivided成若干短段信号频谱断点检测算法。这两个presegmentation算法很难避免presegmentation错误;即一段可能包含不同的声音来源,导致分割错误。
为了更加精确,本文使用音乐片段分解为小形式的声乐和“非模型训练,因为他们的质量,直接影响音乐段presegmentation的准确性。假设有一组 这样属于一个声音或一个“非音乐片段。让 是 - - - - - -帧的特征向量段。和分别是声乐和“presegmentation模型。两人的对数似然率
在前面的公式,代表音乐作品划分;代表了声乐模型相匹配的音乐作品被划分;代表了“音乐模式相匹配的块划分。如果 ,然后声乐;否则,它是通过“音乐。
由于许多类型和流派的音乐和歌曲,所使用的乐器,演奏,歌手的声音,和唱歌都是非常不同的。为了充分描述尽可能多的不同的音乐特点,大量的音乐通常需要训练数据建立和 。一方面,这增加模型的复杂性。另一方面,它增加了之间的不匹配模型和一个特定的音乐被分割。因此,降低模型的复杂度,同时提高它接近每段音乐处理是提高分类精度的关键。
2.2。音乐信号去噪
根据节2.1,音乐的声音和“属性段可以初步获得。虽然音乐分割提供了一定依据,由于外部干扰条件的影响,将会有一个很大的噪音在音乐领域4),这将影响音乐分割的影响。因此,压缩传感理论将用于消除干扰噪声信号在音乐领域5]。
压缩传感理论的核心思想(6)是使用非适应的线性投影收集信号,然后重建原始信号的测量值根据相应的重建算法。给定一个测量矩阵 ,和线性测量值定义为F, ,信号的 在测量矩阵,即:
现在考虑重建从 。显然,因为的维数比这低得多的 ,上面的方程有无限的解决方案。理论证明了信号可以准确地计算出测量值吗通过求解最优标准。重构 或
信号重建的基础上,考虑到噪声信号的小波系数在不同的尺度上没有稀疏(7),压缩传感理论可以用来恢复小波系数的稀疏,从而达到信号降噪的目的。去噪过程如图1。
在去噪过程中,随机测量矩阵需要满足的原则统一的不确定性,也就是说,对于任何稀疏向量 ,如果
据说满足的原则一致的不确定性和音乐信号去噪。
2.3。音高频率提取
对音乐信号去噪,执行短期相关分析和定义某一帧信号的自相关函数
的公式,代表某一音乐信号,代表一段视窗化和陷害信号,代表一个滞后。
自相关函数将有一个峰值在基音周期的整数倍,所以可以通过检测提取基音周期值峰值的位置。确保正确提取音高,窗口的长度设置为大于2节时期框架、和中值滤波方法用于删除造成的“局外人”,音高提取过程:
的公式,代表输入信号,代表中值滤波器的输出,代表平滑窗口,满足
的公式,代表平滑窗口的长度。
音乐的音高的每一帧信号提取音高频率字符串。因为球场字符串值的变化可以对应于音高变化,方便搜索和分类音乐根据场上变化。
2.4。粗略分类的音乐片段
粗略的分类的音乐片段,采用综合处理方法。该方法结合基因识别和和弦识别算法同时处理,使计算效率(8]。基本思想是首先通过小波变换分析音乐数据结构,然后屏幕的最大振幅的比较项目,和时间的发音时间相邻的候选项。最后,比较相邻的数据一个接一个地发现大的振幅变化点和记录的持续时间或大或小幅度域;因此,可以获得所需的粗略的分类效果。
图2的原理图frequency-amplitude混合注意注意比较项的措施。其中,与频率是唯一注意比较项目 , 振幅; , ,和是三合会比较注意物品辅音成分的频率是 , ,和 ,分别为, , ,和相应的振幅;是一个注意和频率比较项吗 ,和是它的振幅。中间的小振幅的元素并不明显。这些元素没有意义的音乐和可以忽略的分类选择阈值。注意比较项的frequency-amplitude图如图2。
为了实现一个粗略的分类的音乐,一个数字序列 可以被定义,在哪里代表了注意包含在选择 - - - - - -注意对比项。如果它是一个注意 。如果它是一个合唱 。此外,一个数字序列 可以被定义,在哪里代表中包含的注意强度过滤 - - - - - -注意对比项, 。让比较系数 ,及其计算公式
的公式,代表的平均能量 - - - - - -注意对比项。注意比较项可以一个声音或一个辅音。表达式是
当注意比较项是单声部的, ,其平衡能源 。
的价值可以用来判断相邻的变化比较项目笔记。如果该值的在闭区间[0.6,1.4](值是一个经验值),可以近似为一个小的变化的变化相同的粗集情感领域。如果该值的超过这个范围,其变化可近似作为粗情感领域。然而,这种比较常见的情况出现,也就是说,
例如, 或 ;这偶尔的单个或几个跳跃,根据经验,并不足以表明,情感的音乐跳在不同粗情感领域,所以某些限制需要了。可以设置在一定范围内根据音乐的实际情况,以确保音乐与情绪变化可以稳定在其情感域停留一段时间,所以这段音乐的情感信息可以完全显示出来。否则,它需要被视为一个无效的情感表达,所以整个音乐大致可以分类根据当地强度和节奏的音乐。
3所示。实现音乐的分类
presegmentation的音乐片段,音乐信号去噪,音高频率提取和粗糙的音乐片段分类是通过音乐的预处理部分实现的。处理结果为音乐分割提供了坚实的基础。在此基础上,为了实现准确的音乐分割,分割算法进行了进一步的研究。
3.1。音乐段处理基于自适应更新的信心的措施
3.1.1。计算的信任度量的音乐片段
在本文中,支持向量机方法(9)是用来计算的信心程度的音乐片段。首先,信心测量特征向量提取每个音节根据候选人的信息。假设是一个字组成的音节,其相应的候选人可以分解为音节候选人和音节对应于候选人 。使用支持向量机分类器得到分类的分数信心的度量特征向量对应的候选人 ,然后是信心的措施音节的候选人是根据分类计算分数。
具体的计算步骤如下:首先,使用乙状结肠功能正常化的分数SVM分类器(1,1);然后,取对数归一化的结果。上述过程类似于计算因子水平信心措施的过程。具体的计算公式
的公式,代表一个常数控制乙状结肠的光滑函数。
接下来,根据每个音节的分类评分的候选人,信心指标可以计算整个字的候选人。最简单的方法是使用分类评分的平均(10]:
与代理加权信心指标,如果syllable-level信心测量分布是不同的,不同的权重可以用来权衡syllable-level信心的措施。因此,似乎建立加权测量获得信心,也就是说,
的公式,和 ,分别代表了线性加权系数和偏移量。这两个参数可以根据加权系数的训练方法。
3.1.2。信心指标自适应更新数据的选择
由于不同的训练数据,pretrained声乐和“非模型不能精确地描述音乐的声学特征信号分割。模型和处理过的数据之间的不匹配会导致严重错误的分割结果。如果直言不讳,“从音乐信号中提取信号分段自适应更新和相应的模型,模型之间的匹配程度和处理过的数据可以得到改善。因为音乐的声音和“部分信号是已知的,可靠的数据选择的自适应更新算法测量的信心。
基于presegmentation音乐片段,使用和把音乐片段划分为两类,即
的公式,代表了纯粹的音乐和声音片段,代表音乐混合段,代表了音乐的高潮部分。
由于模型之间的不匹配和处理数据,有数据的面孔和 ,相反,片段包含类。信心的措施和是用来判断部分的可靠性和 ,分别定义为
越大和 ,更大的段的可能性是正确确定为口头或通过“。研究表明,和近似正态分布。本研究中采用的可靠数据选择标准如下。
让和的平均值和标准偏差 ,分别。对于每一个部分 ,如果其信心测量 ,然后可靠的数据,可用于模型更新。通过分析,发现时可以获得最优分割结果的价值大约是1。因此,本文以 然后更新措施的信心获取数据更新结果。
3.2。动态阈值注意细分
传统的振幅差异注意分割算法将影响基本频率的平均值由于不准确的计算注意入住率框架或影响票据的数量由于错误的分割,从而影响分割精度。因此,基于自适应更新的信心指标,本文使用振幅差异函数动态地设置阈值获取分段线的位置和设置约束条件来确定分割改进算法的适应性和准确性。
3.2.1之上。确定分割点
扫描的类别标签序列获得的粗分类找到所有相邻点对不同类别。每一个这样的点对应于一个音频剪辑与长度为12 s [11]。有一个合适的分割点,称为边界区域的分割点。
在边界区域的分割点,准确定位分割点的问题可以转化为一系列的两种类型的音频分类问题在小范围内。具体的类别是由类别对过渡点 。边界区域的分割点分为若干连续小音频剪辑,和每个小17-dimensional特征向量提取音频剪辑。每个小音频剪辑分为类或类通过相应的两种分类器。每个小音频剪辑的长度是1秒,以及相邻片段之间没有重叠。分类后,这些小的音频剪辑一个接一个,一个类别标签序列的边界区域将获得的分割点,只有分类标签的类和类 。
调整修正规则后,这类标签序列,一切合理的类别跳点对将作为最终的分割点决策点对。所谓的“合理”类别跳转点对意味着如果有一双类别跳转点 在粗分割序列,这些点对符合类别跳转方向确定的细分过程中合理确定最后相应的分割点。
为了确保分割点的准确性,允许多个最终分割点边界区域的分割点。如果无法找到一双合理类别跳转点边界地区的一个分割点,算法将放弃定位分割点边界区域的分割点,可能消除一些错误的分割点边界地区由粗分割算法。
3.2.2。幅度差函数
音乐信号的振幅将随时间急剧变化;尤其注意的振幅分割有很大的差距。传统分割算法的振幅函数定义如下:
的公式,代表了波形振幅函数,代表采样点的振幅,代表某一输入信号的帧。然后,振幅差的函数是
应用比应用更明显单独一个注意的分界线,便于后续处理。
3.2.3。确定的分界线
为了找到分界线,阈值必须确定(通常,是一个百分比的意思吗 ); 注意开始帧,是注意结束帧[12),两人的表情
分析后,可以看出,在修复 ,不同的音乐领域的适应性是贫穷。即使变化与 ,因为只有整个信号被认为是和当地的峰值特征的属性将被忽略,必然会引起错误。因此,每个部分在一个固定的百分比计算的意思是指出,和一组动态变化得到:
的公式,代表的步长变化和代表某一段除以可变步长。
自变化在当地范围内,可以得到一组动态分割的值。
在集群的分界线,只有唯一的最优划分。根据这两个特征的注意,注意长度和固定的有限性的音乐节奏,限制条件设置,找到最优解13]。判断条件如下:(1)帧的数量被指出是适当的。设置最小和最大帧通过实验去,显然不合适的分割。(2)注意细分是统一的。因为一段音乐的节拍是肯定的,讲义分段线分割的制服。当一个注意大于或小于1.5倍的帧数被邻近的注意,该部门决定是无效的。
3.3。音乐分类的实现过程
音乐分割过程中,音频文件的长度有一定的限制,分割的结果。音频太长时,分割过程消耗更多的时间。考虑数据丢失的可能性由于分割失败,分段演讲部分不应太长;当分段语音段太短,它会增加分类引擎的次数,减少了分割效率。本文选择将音频文件的长度约30年代。如果音频直接分成30年代的长度,这将导致音乐和声音的一部分被分成相同的部分,这将干扰音频段的分割,将不可避免地导致数据丢失或音乐分割错误。在这篇文章中,当音频分割被执行时,执行粗分割;即初始分割后的音频长度设置为超过5 s,然后分割后的音频文件合并获得一个音频文件,满足需求和有一个合适的长度。该算法总结如下:(1)读的音频文件和音频正常化14]。(2)滤波器归一化信号(5]。(3)从音频流的起始位置开始,找到音频段长度和信号强度大于0.2大于0.3秒。如果它存在,记录音频段的开始和结束位置,进入步骤4,如果它不存在,音频段音乐或噪音,和结束过程。(4)框架,添加窗口,寻求短期能源。(5)计算的平均短期能源沉默的开始和结束位置的部分步骤3。(6)音频流精细划分,和无声段之间的持续时间两个音频段设置为0.2秒。(7)计算的有效段比和沉默比每个音频段分割后,发现分类因子值,确定每个音频段的类型根据这个值,最后实现音乐分割。
4所示。仿真实验
为了验证的有效性音乐分割算法基于自适应更新的信心指标,进行仿真实验。
4.1。实验参数设置
该算法进行测试。在实验中,输入音乐信号取样11.025千赫/ 8位/ monc格式由带通滤波器通过麦克风和过滤。上下截止频率的跳频= 3400赫兹和fL = 60 Hz - 100 Hz,分别。使用一阶数字滤波器H(Z)= 1−µz−1在哼唱信号,执行高频增强处理的价值在哪里µ是0.98。利用汉明窗窗口和框架哼唱信号段,窗口的长度是128,和帧之间的重叠长度设置为64。本文提出的分割算法测试在一个音频流,其中包含4中类型的音频(钢琴音乐1,交响曲2,京剧3,流行歌曲4)总长度为1小时。有56个真正的分割点在这个音频流。表1是一个比较音频流的规模和频率。
根据表中所示的信息1实时音频分割算法基于自适应阈值调整和基于层次熵检测的音频分割算法作为比较方法和本文方法进行比较。结果分析如下。
4.2。实验结果和分析
4.2.1。准备音乐分类错误率(%)
图3显示相应的分割错误率不同的分割方法后,错误率在哪里定义为音乐信号的长度的比例不正确分割的总长度的信号。
从图可以看出3随着迭代次数的增加,不同的方法一般的音乐分类错误率显示首次下降的趋势,然后稳定变化。其中,音乐分割算法提出了基于自适应测量达到3迭代更新的信心。第二次后,音乐分类的错误率明显降低。在迭代周期中不仅有优点但也有更明显的优势错误率的音乐分类方法,表明本文方法的分割结果更可靠。然而,实时音频分割算法基于自适应阈值调整和音频分割算法基于分层熵检测一直音乐分割错误率高于这个方法,分割效果并不好。
4.2.2。查全率和查准率的比较值
为了进一步验证本文方法的分割精度,召回和精度值作为比较指标,并进一步比较和分析的三种方法。两个参数的计算公式
的公式,代表一个正确分割音频的场景,代表一个失踪的分割音频的场景,表示一个错误分割音频的场景。
获得回忆和精度值根据上面的公式,结果如表所示2。
根据表中的数据2,回忆和该方法的精度值达到97.5%和93.8%,分别在回忆和精度值的实时音频分割算法基于自适应阈值调整为87.3%和85.6%,分别。低于该方法在本文中,基于分层熵检测音频分割算法有较低的召回和精度值。可以看出,该方法的分割结果有很高的准确性,这显示了分割方法的有效性。
4.2.3。音频剪辑分割效果
选择任意一个音频;音频已经暂停,9点16 s, 23。三种方法用于细分,细分结果如图4。
(一)
(b)
(c)
(d)
通过分析图4可以看出,音频文件可以准确地分割9年代,16 s,由该方法和23个年代,可以获得三个暂停点。实时音频分割算法基于自适应阈值调整只能段16岁和23个年代停顿。音频分割算法基于分层熵检测只能段23 s暂停,还有一个分割错误;即执行分割8年代,但事实上,没有停顿。因此,这种方法的分割效果更好,这表明其应用价值较高。
5。结论
为了解决这一问题的低精度的音乐在传统方法分割,分割效果差,一个音乐分割算法基于自适应测量提出了更新的信心。以下是总结本文的创新点的方法:(1)降噪的音乐片段基于压缩传感理论和执行短期相关性分析去噪音乐信号获取球场上的频率(2)使用小波变换方法大致分类音乐片段,得到分类结果,实现音乐片段的预处理(3)使用支持向量机方法计算信心程度的音乐片段,和自适应更新信心的措施(4)根据更新结果,指出动态阈值分割实现音乐分割
实验结果的分析表明,与传统方法相比,该算法的分割效果更好,特别体现在回忆和精度值,分割错误率,分割效果,充分验证了该算法的实际应用价值。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关。