文摘

多媒体和数字技术的发展,音乐在互联网上资源迅速增加,改变了听众的习惯从硬盘到在线音乐平台。它允许研究人员使用分类技术有效的存储、组织、检索和推荐的音乐资源。传统音乐分类方法使用许多人为设计的声学特性,需要在音乐领域知识。不同分类任务的特点往往是不通用的。本文提供了一个解决这个问题提出了一种新颖的方法和递归神经网络通道的注意机制对音乐功能分类。音乐基于卷积神经网络分类方法忽略了音频本身的时间特性。因此,本文结合卷积与双向递归神经网络结构,使用注意力机制来分配不同的权重注意递归神经网络的输出在不同的时间;权重分配获得更好的表现音乐的整体特征。模型的分类精度上GTZAN数据集已经增加到93.1%。multilabel标签数据集上的AUC MagnaTagATune已经达到了92.3%,超过了其他比较的方法。 The labeling of different music labels has been analyzed. This method has good labeling ability for most of the labels of music genres. Also, it has good performance on some labels of musical instruments, singing, and emotion categories.

1。介绍

随着电脑和手机的普及,越来越多的人选择在网上听音乐,而不是使用传统的磁带和cd。人们听音乐的方式的变化导致了数字音乐的爆炸性增长。越来越多的音乐网站,提供在线音乐监听服务已经出现。面对大量的数字音乐在互联网上,快速、准确地检索用户想要的音乐变得更加重要。它已成为一个音乐网站的用户友好性的一个重要指标(1]。音乐体裁分类2音乐信息检索的一个重要分支。正确的音乐分类具有重要意义为提高音乐信息检索的效率。目前,音乐分类主要包括文本分类和分类基于音乐内容。文本分类主要是基于音乐元数据信息,如歌手、歌词、作曲、年龄、音乐的名字,和其他标签文本信息(3]。这种分类方法很容易实现,操作简单,快速检索,但缺点也很明显。首先,这种方法依赖于手动标记音乐数据,这需要很多的劳动力,和手动标记是具有挑战性的,以避免错误标签的音乐信息。其次,这个短信方法不涉及音乐的音频数据本身。音频数据包括许多音乐的重要特征,如音高、音色、旋律、音高,等等。这些特征几乎是不可能的标签的文本(4]。基于内容的分类提取原创音乐的特征数据,并利用提取的特征数据来训练分类器实现音乐分类的目的。因此,基于内容的音乐分类也成为近年来的研究热点。在此基础上,本文的研究方向也是基于基于内容的音乐分类5]。

目前,人工智能(7- - - - - -9正如火如荼地进行着,深度学习(22,24,25)是最重要的。深入学习是广泛应用于图像处理和语音识别。它取得了更好的结果比传统机器学习方法(23]。因此,许多研究人员已经开始深入学习技术引入到音乐信息检索领域的16]。正确的音乐流派分类有助于提高音乐检索的效率和提高音乐推荐的准确性。例如,假设用户喜欢摇滚歌曲a。在这种情况下,岩石下的推荐系统推荐的歌B类用户基于相似度的计算。因为歌曲A和B都是摇滚风的歌,觉得推荐的用户是非常准确的,无形的,提高产品的用户体验。

因此,通过叠加卷积层(10,11),网络可以提取一层一层地更抽象的声谱特性。然而,音乐信号是一种计时信息。音乐的特性在不同时刻可能有时间相关性,忽略了时间信息在音乐12]。为了应对这些问题在前面的方法中,本文结合了卷积神经网络提出了一种改进型的双向递归神经网络。它提出了一个音乐分类模型基于卷积递归神经网络模型可以学习音乐的计时信息。此外,通过分配不同的权重注意递归神经网络的输出在不同时刻,更好地代表整个音乐功能13可以获得。

以下是本文的主要贡献点:(1)本文结合提出了卷积神经网络的双向递归神经网络。它提出了一个音乐基于卷积递归神经网络分类模型。模型可以在音乐学习时间序列信息。通过神经网络对不同时刻、不同关注权重分配到输出代表总体特征的音乐更好。(2)本文将音乐的音频信号转换成声音频谱。声谱记录音乐的时域和频域信息的信号。数据的规模减少在保护的前提下最大的音乐信息。不同的音乐是统一的转换方法,避免了手工特征选择问题。(3)本文比较和烧蚀实验进行GTZAN和MagnaTagATune数据集。实验结果证明算法的有效性和优越性。

剩下的纸是组织如下。背景研究的部分2,其次是部分的方法3。部分4讨论结果,并给出结论5

2。背景

本节讨论声音信号的属性和元素的声音信号的细节。

2.1。声音信号的基本属性

频率是一个物理量(14)描述振动探测对象的数量单位的时间。国际体系的频率是赫兹,代表单位振动的次数在1秒。音乐主要由人声和乐器的声音。振动的频率、强度和持续时间不同的乐器是不一样的。听觉系统感知各种各样的音调和音色。当振动波传播的对象,它不断将反映。反射波会形成驻波时遇到以下波的叠加。驻波是为什么一个物体的振动总是有一个固定的频率和一个固定的语气,因为只有一些频率波可以形成驻波在对象继续传播(15]。相比之下,其他电波会很快消散,从而形成色彩。最强的声音振动能量和频率最低的一个对象被称为基音。频率被称为基本频率和其他声音的频率整数倍基音的谐音(16]。不同乐器的基本和泛音频率如表所示1

在机械振动,最大值之间的距离产生的声波对象的振动和物体的平衡位置称为振幅。振幅测量物体的振动能量和振幅。这数值等于物体之间的最大距离和平衡位置的振动。响度和振幅是经常在一起讨论。两者之间的主要区别是,振幅是一个物理量和响度。前者可以通过分析声波(17]。后者是一种心理量描述人耳的听觉感知声音的大小,除了除了振幅,也与频率有关。振动波形的阶段是一个重要的属性。划分两个相邻磁极之间的差异值的水平轴投影坐标系统在两个相同频率的周期性的运动和除以周期大小的比例。然后,将它转换成弧度来获取阶段的波形。它描述了一个振动物体在某一时刻的状态。简谐运动的阶段类似于匀速圆周运动的角。随着时间的变化,角运动也将改变。2的相变 ,这意味着匀速圆周运动表现一圈相当于探测对象,并进行振动周期。这样,通过一个特定阶段的时刻,对象的位置的振动。

2.2。音乐的基本元素

作为一个抽象的艺术形式形成的旋律和节奏,乐器的声音,与和谐,音乐可以带来丰富的听觉享受。使用各种乐器在不同的音乐和歌手唱的方式也是不同的。与此同时,有不同的旋律和节奏。第一人耳听到的组合不同的音调,音色、音量。然后处理这些音乐信号通过大脑产生高层次的认知,如类型、情绪等。18]。从上面的过程理解音乐的大脑,可以看出音乐的分析数据首先需要理解音乐作为音频信号的特点。这三个基本要素构成音乐介绍如下。

节描述了乐器的振动频率的大小。高频乐器产生更高的音调。不同乐器的频率与他们的形状和材料(19]。人类的耳朵是富有同情心的球场,球场是不同的。男性声音一般感觉厚和完整,和女性的声音通常是明亮和高音。女性通常比男性高一个八度的声音,声音如此高音较男性中许多女性。如表所示1,不同的乐器有不同频率的振动和声音。例如,一架钢琴的基本频率是27.5赫兹和4186赫兹之间。范围是比其他乐器更全面,使钢琴产生丰富的声音(20.]。

声强描述人类听觉系统的体积。响度与上面描述的振幅。一般来说,振幅越大,声音越响,但振幅和响度的关系不是线性的。这也是与声音的波形和频率有关。人类的大脑会觉得1000赫兹到4000赫兹的声音响度相同的声音强度更高(21]。在这个范围之外,随着频率的增加或减少,人类的耳朵会感觉越来越少提高声音敏感。当频率超过20赫兹到20000赫兹的范围,听觉系统不会有声音的感觉。因此,人耳感知的声音之间的关系强度和幅度并不是线性的。通常被描述为基调的颜色。人耳能分辨出声音相同的音调和强度通过音色的差异。同音异义和语气的强度是至关重要的因素,影响音色的感觉(19]。根据傅里叶的理论,任何复杂的声音振动过程可以分解为许多基本组件。当这些基本组件被添加在一起,整个过程可以描述复杂的振动。

3所示。方法

虽然网络可以提取更抽象的声谱特性一层一层地叠加卷积层,音乐信号是一种计时信息。即使它转换为梅尔·声谱声谱的时间维度。顺序,只需使用卷积结构将忽略音乐内部的计时信息。一维卷积执行翻译在时间维度。而捕捉当地的声谱特征,也忽略了序列关系的声谱特征不同的时间框架。只有一维卷积模型不能有效的音乐序列之间的关系。针对上述问题,本文提出了一种新型的卷积递归神经网络模型,可以学习音乐的计时信息。考虑到一段音乐的音乐特征在不同的时刻有不同的影响对整个类别的音乐,注意力机制用于分配不同的权重注意循环神经网络的输出序列特征聚合在不同的时刻。

3.1。音乐序列建模

在本节中,我们将提供细节关于复发性神经网络及其在音乐中建模的重要性。

3.1.1。递归神经网络的基本原理
(1)RNN的基本结构。RNN的当前隐层输出状态不仅与输入当前时刻还取决于在最后一刻隐层的状态。这种结构使网络存储器像特征,也有依赖于上下文,如序列预测和分类。RNN的需要解决的问题是合适的。RNN的基本网络结构如图1 是输入的 th步骤; 的状态吗 隐层的th一步,这是一个RNN网络单元与记忆功能。 计算从输入 当前的 输入层和状态 以前的隐藏层。计算公式如下: 在这里, 是一个非线性激活函数。在RNN,一般 是偏见, 是连接矩阵的输入层。隐层之间的权矩阵在之前的时间和隐藏层在下次说 说。 网络的输出在一步 ,在哪里 输出层的连接矩阵, 是偏见的术语: 如果方程(2)是毛圈到方程(1),忽略偏差项 它可以看到从上面的方程,RNN的输出不仅取决于当前的输入也与之前的历史,这就是为什么它有记忆。(2)LSTM和格勒乌内存单元。如果一个序列的时间足够长,很难RNN将信息从一个相对早期的时间步以后的步骤。相对较长的序列时,它可能会失去信息相关的在最后一次任务。反向传播的过程中,RNN会遇到梯度消失的问题。这个问题的存在使得RNN很难被广泛应用。为了应对这一问题,学术界提出了各种内存单元变异;最受欢迎的是LSTM和格勒乌。

长期短期记忆网络(LSTM)有一个特殊的门结构,使网络能够实现长时间序列的选择性记忆功能。序列数据之间的依赖性之前和之后的序列数据可以更好的使学习过程变得更好。LSTM三个门结构发挥重要作用:忘记门,输入大门,大门和输出,对应 , , 在图中。同时,保持长期的网络,LSTM添加一个状态 被称为细胞状态。忘记门 决定了细胞的状态信息 前一刻将保留当前的时刻 输入门 决定了网络的输入信息,目前将保留到细胞状态 输出门 控制单元的状态多少 输出到输出值 目前的单位?下面的公式可以计算出LSTM门结构: 在哪里 代表了s形的函数, 忘记门的参数矩阵, , 都是一样的。由此,细胞状态 和输出 在LSTM可以获得如下:

格勒乌的结构如图2。格勒乌是类似于它使用各种LSTM门结构。与LSTM不同,只有两个门格勒乌结构:重置和更新登机口。这两个盖茨一起确定如何从嗨前一步中隐藏的状态。下一个隐藏的状态,H1,丢弃门LSTM内存单元的输出。如果重置门的输出是1和更新门的输出是0,那么RNN格勒乌变成简单。

在格勒乌门结构的计算方法如下:

根据上面的方程,计算方法隐藏层的状态更新

3.1.2。基于BRNN音乐序列建模

在前一节中描述的RNN也可以称为单向RNN。所谓单向RNN意味着下一个步骤的输出只是影响前面的所有步骤的输入。双向RNN认为不仅需要考虑前面的输入,但后者输入也可能受到影响。数据建模是有益的。图3显示BRNN的结构。 有关 转发的计算, 有关 反向计算, 代表隐藏层的状态。计算方程 如下:

然后,添加网络的正向和反向的每一步得到的最终输出网络:

3.2。序列特征聚合基于注意机制

BRNN后用来模拟音乐特征序列,每一刻的高层抽象特性表示。被传递到之前完全连接层,所有时刻的抽象特性通常聚合为一个整体的特性表示。最常见的聚合方法在时间维度。历史的最大池和平均池功能。为音乐、特定的外观声谱特性在不同时刻的音乐可能有不同的贡献相对应的音乐类别特征。例如,同样的旋律音乐的开始或者结束会给人不同的感觉。某些音频特征出现在一个特定的时刻也可能与某些类别,如emotion-related类别。

4本节显示了关注模块使用。假设声谱特征序列卷积层可以表示为输出 代表卷积的时间维度特征映射,即序列长度。下面的公式可以获得每个序列特性的关注重量: 在哪里 权重矩阵。将softmax函数确保所有功能的关注权重序列1和 代表了 激活功能。从公式可以看出,注意体重学习非常类似于远期神经网络消除了偏见。在获得权向量的重视 ,总体特征表示 序列的特性计算如下:

总体特征表示的加权求和得到的序列特征权重根据相应的关注。通过关注机制,抽象的特性在所有时刻都聚合到一个总体特征向量,可以传递给后续网络完成音乐分类任务。

3.3。我们的模型

卷积层学习声谱后,一个功能映射可以获得包含高层抽象特性。特征映射展开及时获得序列卷积特性。序列卷积特性是BRNN模型音乐序列的输入。通过网络,学会了关注体重对特征序列执行加权求和输出BRNN和集成的输出BRNN多个时刻的整体特性表达音乐。最后,它将其传递到完全连接层进行进一步的学习得到分类结果。根据不同的功能,每个网络的一部分,根据网络中信息传输的方向,学习它可以分为音乐表示层,音乐序列建模和序列特征聚合层,和完全连接层。在这一节中提出的网络结构如图5

4所示。实验和结果

本节讨论实验环境、数据集、评价指标和性能所提出的方案。

4.1。实验环境

本文中的所有音频样本两个数据集转换成mono处理、抽样、重采样的采样率16赫兹。傅里叶变换窗口长度用于梅尔声谱的转换是512;窗口跳过大小是256。箱子的数量是128的频率。GTZAN数据集,使用音频分割方法。分割时间是5秒,生成的梅尔·声谱规范((313、128)。的音频样本MagnaTagATune数据集,没有将进行细分,梅尔的声音将生成。频谱规范(1813,128)。

4.2。数据集

GTZAN数据集包含10音乐流派:蓝调,古典的,国家,迪斯科,嘻哈,爵士,金属,流行,雷鬼音乐,摇滚。每个类型都有100 30年代音频。MagnaTagATune数据集包含一个2,5863音频。每个音频长约29秒,采样率为16000 Hz。数据集有188音乐标签,包括类型、乐器、情感,和另一个类别去了。这些音频样本选择从5223年真正的歌曲和445年的专辑,包括230年创造者。组织者收集MagnaTagATune的标签数据集通过一个名为TagATune的在线游戏。在游戏中,每两名球员将被要求听音乐剪辑提供的游戏,然后球员们需要给听到音乐的类别标记片段。最后两名球员将讨论类别标签他们给确定最后的音乐标签的音乐片段。

4.3。评价指标

计算获得的AUC是接受者操作特征曲线下的面积(中华民国)。图6显示了三种不同的ROC曲线。坐标轴的横坐标代表的假阳性率(玻璃钢)两种模型,纵坐标代表真阳性率(TPR)。通过设置不同的分类阈值,不同组合的TPR和玻璃钢将获得。连接这些点在坐标轴构成ROC曲线。AUC是指相应的ROC曲线包围的面积和坐标轴。

multilabel分类数据集,不同类别的标签之间的相互排他性较低。可能会有大量的标签相同的音乐在同一时间。因此,音乐分类MagnaTagATune数据集可以被视为一个标签的问题。标签的标签标签更倾向于积极相关。例如,摇滚风格的歌曲是显而易见的,它将标志着在磐石上高概率的类别。然而,女性或男性标签可能失踪,这是一个问题,标签的力量音乐标签,如果模型给出了一个确定。标签有更高的预测概率。这个标签不是在测试样本,这未必是模型预测误差。我们应该更加注意模型,发现有多少贴上标签的召回率。测量模型的性能更全面,本文也将使用Recall@k作为multilabel分类的一个评价指标。 The calculation method is as follows: 在哪里 表示实际的标签组测试样本 代表了最高的集合 品牌排名由大变小根据预测模型的概率。

4.4。递归神经网络结构对分类性能的影响

本节实验将考虑影响RNN性能的三个主要因素:层的数量,内存单元的类型,和方向(单/双向)。不同的RNN结构将被用于实验。不同RNN的分类性能指标结构将比知道循环神经。

从表可以看出2的分类效果BGRU和BLSTM网络使用双向结构优于单向的格勒乌和LSTM网络结构。对于音乐,RNN声谱的特点的理解在某些时刻不仅是基于前面的音乐时刻也在随后的音乐的表达方式。相比之下,理解音乐在一个方向,这是两个不同的方向。感知的整体序列信息可以帮助模型更加智能地理解卷积的功能抽象层的意义在某一时刻对整个音乐。网络可以更好的音乐序列模型。这表明音乐信号与序列相似性信息,如语音和文本。BRNN已广泛应用于后两个的相关研究领域。从比较结果也可以看出,增加递归神经网络的层数并不能提高模型的分类能力。所有四个网络或多或少的现象分类能力增加随着RNN层数量的减少。本文使用一个联合网络模型以来,前面有一个卷积网络层。 The gradient path is too long when backpropagating, which causes the difficulty of training the entire network to be increased, making the parameters of the previous network layer unable to be effectively updated. In this experiment, the single-layer BLSTM showed the best classification performance, indicating that the LSTM memory unit is more suitable for the model in this paper.

4.5。比较相关的方法和分析结果

3和图7显示比较GTZAN数据集上的分类性能。使用双向循环神经网络对音乐序列建模序列特征聚合和注意力机制提高了模型的分类性能GTZAN数据集。这表明使用RNN模型短期音乐序列关系在5秒内仍有利于获得更好的音乐特性表示。效果比最大的全球共享。

5。结论

递归神经网络提出了一种新颖的方法和一个通道注意机制对音乐功能分类。因为音乐基于卷积神经网络分类方法忽略了时间音频本身的特点,因此,本文结合提出了卷积与双向递归神经网络结构,提出了一种基于卷积递归神经网络的音乐分类模型,并使用注意力机制来分配不同的注意在不同的时间递归神经网络的输出。模型的分类精度上GTZAN数据集已经增加到93.1%。multilabel标签数据集上的AUC MagnaTagATune已经达到了92.3%,超过了其他比较的方法。分析了不同的唱片公司的标签。该方法具有良好的标记标签的能力对于大多数音乐流派。同时,它有良好的性能在一些标签的乐器、唱歌、和情感类别。

数据可用性

使用的数据来支持本研究的结果中包括补充信息文件(年代)。

的利益冲突

作者宣称没有利益冲突有关的出版。