谐波分类与加强音乐使用深度学习技术

文摘

从谐波特征信息的自动提取的音乐音频被认为是。自动获取相关信息的分析不仅是必要的而且音乐节目等商业问题的辅导和生成的铅板。两个方面的和谐被认为是、和弦和全球关键,面对的问题通过机器学习的算法提取问题。贡献是识别和弦在音乐特征提取方法(模型)performd比手动。的造型进行和弦序列,从帧的基础上,在和弦的识别系统。这样的机器学习技术的卷积神经网络(CNN)将系统提取和弦序列实现优势上下文模型。然后,传统分类是用来创建关键分类器比他人或手动。数据集用来评估该模型相比现有结果成绩很好。

1。介绍

时代的艺术活动,如一个关键的音乐家是最高级别的谐波表示西方音乐的音调。块定义其谐波的关键中心,给谐波发展意义,并提供了一个背景谐波的积累和释放压力。因此,它起着核心作用在理解这篇文章的意义。因此,理解不仅驱动理论分析的音乐,也适合当代音乐创作者混合样品的不同适合到一个新的成分(1]。

心弦被定义为一组谐波听到的两个或两个以上的音符就像同时测深(2]。这些被认为是最好的特征之一的音乐。数字音乐的广阔的生产许多艺术家已经很难处理数据手动但打开门自动化信息检索的音乐虽然设计了许多研究和算法并应用于从音乐信号中提取信息2]。

从韵谐波信息的提取是计算理解音乐的基础。它描述了张力形成和音乐片段如何成有意义的部分工作。它提供了背景内容,似乎重要的侦听器,如旋律和声音3]。因此,如果我们不考虑谐波一块的内容,我们的理解(或计算机理解)这只是肤浅的。计算谐波分析促进许多实际应用。因此,电子音乐制作人可以找到音乐样本匹配他们的踪迹。对于音乐家来说,应用程序可以显示指标对即兴创作的进步一个特定的和弦,它可以自动帮助创建主表他们想玩的歌,它可以帮助学生掌握他们的乐器。此外,记住的实际重要性,本研究着重于艺术任务本身,建立算法模型,提取谐波信息(字符串和键)从音乐的声音信号4]。

研究人员报道,扩大双向远程内存网络(BiLSTM)模型来解决这些缺点。基本思想是训练模型来预测不仅字符串名称,而且弦函数,如图1(5]。我们称之为生成的模型深多任务模型或m armonizer因为它处理一些任务在同一时间。我们注意到和弦的使用功能协调旋律已经发现有用,使用隐马尔科夫模型(HMM)。功能和声澄清字符串和尺度之间的关系,描述了谐波运动指导音乐知觉和情感6]。

而发展的和弦是由随机选择的字符串通常出现漫无目的,功能和声的和弦进行,遵循规则建立或冲突与和谐。音乐理论家分配各量表得分的色调,子和主导功能基于给定尺度上与这方面相关的和弦。这篇文章解释了一个特定的量表得分的作用相对于规模,及其相关的和弦在音乐措辞,和组成,但很难检测机器学习。虽然特定格式可以被认为是正确的在某些情况下,它也可以被认为是不重要在现代背景下(7]。

然而,提取的和弦与时间从一个给定的序列。声音乐信号通常被称为自动字符串(ACE)估计,它是一个研究的主题在音乐信息检索(MIR)。ACE系统由一些提取声学特性的变化,后跟一个模式匹配步骤的声学特性是和弦标签(8]。

特征提取和模式匹配通常是使用机器学习技术在现代ACE系统中实现;在最近的当前ACE系统,通常有一些深度学习的味道。虽然ACE最近的表现强度允许它用于商业产品(例如,Chordify和Riffstation2),其性能近年来似乎在逐渐降低(9]。然而,字符串的可视化录制音乐是非常主观的,这提出了一个问题在派生的注释命名一个引用和弦“地面实况。“这使得任务分类和标签之一,类似于语音识别。关键的区别是,我们感兴趣的标签和段的时间戳,而在语音识别,只有标签序列问题[10]。

本文计算的机器,从信号中提取高层信息面临两个关键问题:(i)如何从噪声中提取有意义的信息来源,和(2)如何处理这些信息到合理的输出。和弦识别,因此,转化为声学建模,如何预测和弦标签为每个位置或帧音频和时序模型和如何把这些信息到有意义的段和弦。

本文的目的是在改善frame-wise声学模型的预测,而只有少数作品探索改善时间模型。因此,趋势是增强通过了解现有的时序模型的能力是有限的,和时间连续性模型执行个体的和弦,而不是提供关于和弦转换的信息,和他们主要模型和弦的持续时间11]。同样,我们可以注意到,在传统音乐,“和弦进行比似乎难以预测,“因此,知道和弦历史不会大大缩小的可能性下一个和弦(11]。

预测将来的结果是必需的,因为每个模型的参数,成为必要的控制增加了深度学习如CNN (12]。模型的自动化行为成为有价值的学习是很重要的在这个世界上如此之深的共鸣识别和关键激素的音乐的分类模型。

本文的其余部分组织如下。部分2评审相关工作和背景谐波的音乐和机器学习的质量。部分3和弦的识别系统提供了一个简短回顾。部分4描述我们的谐波场的主要分类。部分5提出了方法和讨论包括特性、处理和分类的研究。部分6提供了本研究的结果和讨论和评估,和部分7总结了纸。

一个信号的谐波内容就是给声音Toun从而使字符串的语气明显的从长笛或簧管。谐波失真引入了额外的谐波音乐相关的输入信号(13]。

一个新颖的方法检测谐波的变化音乐音频信号的质量。平等的沥青类空间,使用这个模型。这个模型12-bin彩度向量映射到6 d多面体的室内空间;这个多面体的顶点映射与音高组织。自适应阈值的应用将增强更严重的谐波变化的检测。强大的瞬态信号可能触发掩盖了真正的山峰。能解决这个问题,通过添加音频的瞬态和稳态的区别。因此测试结果表明,该算法可以成功地检测出谐波变化复调音频文件,如和弦边界(14]。

然而,为特征提取嗓音检测、Dieleman和Schrauwen [15)使用一个统一的网络特征提取和分类。从逻辑上讲,比目前更好的特性应该能够通过使用可学的网络中提取特征提取。Dieleman和Schrauwen的研究,仿真结果表明,这种形式的统一。网络利用传统特性相比,网络没有更精确,作为一个常用的音频应用程序的功能是MFCCC (Mel频率Cepstral系数)。

然而,音频和象征性的共鸣识别中的数据都进行了广泛的调查问题。各种机器学习方法近年来已应用于这个问题。RNN-based方法如LSTM-based网络已经实现在音频数据处理,因为他们的能力模型的长期依赖一个时间序列16,17]。

最近的研究表明,这些模型已应用于低层次级(直接在音频帧),防止学习音乐的关系,包括表达模型,如反复出现的神经网络(RNNs)。

然而,时序模型是闲散到谐波语言模型应用到弦的弦长序列和一个模型与语言模型的声学模型的框架水准仪chord-level预测预测。弦上的每个模型识别评分的作用是分析的结果表明,使用谐波的语言和长度模型提高了结果(18]。

传统形式的音频主观评价涉及到大量的人面试和评估,主观听觉方差和样本空间数据的试验机有限的影响实验的准确性。此外,使用深度学习网络,历史的音频数据具有显著的畸变问题。针对音频数据修复的特点,智能语音评估技术探索。因此,一个高质量的设计方法设计分析音频数据,因此系统性能和音频信号质量测试通过提取出特征。测试的结果表明,该设备运行良好;预测结果和相关性和色散的主观评价指标都很好,0.91和0.19 (19]。

有很多小音频信号的特点,以不同的方式限制音乐情感的决议。multifeature融合音乐分类算法的研究基于深信心网络解决单一形态数据的局限性在音乐情感分类。的确,音乐信号特征向量提取出来,并从多个角度融合形成multifeature数据。同时,通过添加微调节点来提高模型的可调谐性,传统的深信心网络增强对音乐情感分类。因此,在改进的深度信任网络,从融合获得的训练集训练。试验结果表明,82.23%,这是一个很好的音乐检索,援助是最高的音乐情感分类结果(21]。

短时傅里叶变换转换到光谱域提出了窗口的信号(STFT)。自从STFT系数是复数的,发给CNN进行处理之前,我们把模量。有窗的信号乘以权重由正弦和余弦系数是可实现的网络结构。如图2有1024套的重量,每一个有2048个系数。尺寸63 - 1024获得的谱图SQRT(根)的输出层,1024代表频率垃圾箱和63年代表时间实例(14]。

在图2,使用广场层输出从罪恶MYP1D广场,因为MYP1D,然后添加值的平方扎根。广场的原因是为了防止负值。他们不关心信号的过程,但只与信号的相对“权力”(能源)。因此,平方函数。在现实中,在实验中,他们试图消除广场和平方根函数,但这种安排的准确性是低得多(14]。

通过之前的研究,可以受益于前面的方法和开发方法,克服传统方法的缺陷。

3所示。和弦识别系统

和弦识别是段音频和标签这些段和弦的象征。这个符号应该对应的谐波解释专家侦听器。这简短描述熊主体性的印记:谐波的解释,往往有不同的音乐专家之一。因此,它使和弦识别的构建和评价模型。这样做的原因是,只有一个子集的所有音调认为声音同时被认为是有关当地的和谐。这是子集,这球被认为声音同时解释。

事实上,和弦识别系统往往像适应从语音识别模型。和弦的主要区别是,识别、标记片段的开始和结束时间是至关重要的,在语音识别时,通常只识别单词的顺序很重要。和弦识别系统按照计划如图3。他们特性的声学模型,从上下文的音频提取特征并经常还预测一个和弦标签的中心框架上下文。这些预测然后处理时序模型,包含了更多的时间背景和输出均匀标记和弦段。例如,许多的共鸣识别系统是基于色度特性由高斯混合模型作为声学模型,隐马尔科夫模型的时间模式22]。

4所示。谐波的主要分类

关键分类的目的是找到一个音乐音频(全球键)。因此,专家所理解的侦听器,一个总谐波表示在整个作品应该是一个全球的关键。这是一个主观的事业,在和弦的认可,但没有研究,探索这一主体性如何影响主要计算分类模型(23]。

关键的评估是指由研究人员。考虑,然而,同样的参数,和弦的认可。分类因此分配一个分类标签更准确地描述整个输入任务给定一个低级输入表示。根据定义,这是一个场景分类(24]。

隐马尔科夫模型,嗯,最常见的方法用于预测浓度提供的和弦序列向量与涉及关键评估(25]。嗯是一种概率模型的假定的序列建模是一个马尔可夫隐藏变量循环并行链的观测变量取决于这些隐变量。和弦是考虑时,彩色特征(或光谱属性)如图4(一)是所发现的隐藏变量的和弦。嗯变量可以调整由一个专家或从数据计算。此外,作为专家系统,我们将参考前者类型的模型,后者作为机器学习模型(26]。

(一)

(b)

机器学习方法首先在和弦估计。通常,如果一个完全注释训练集可用可能与拉普拉斯校正(27),它估计参数通过期望最大化或者使用最大的概率。最近,歧视性的参数估计方法也被使用,直接尝试优化性能的评估,而不是概率函数(28]。

最终,它是指出,在不同色调的钥匙,和弦变化特征可以利用,这样估计自然和弦和钥匙在同一时间。这样做是通过使用更复杂的嗯拓扑,通常被称为动态贝叶斯网络(27,28]。这些方法使用键/和弦链连接到传播key-to-chord信息图3(一个)。这嗯拓扑数学将一个概率分布P(k、c、X / 0)的浓度向量X和注释,0代表分布参数。考虑到最优参数 ,关键/和弦估计任务相当于找到{}这最大化联合概率:{}= argmax k、cP(k、c、X / )。

相反,系统学习参数0,对于更复杂的模型,完全从训练的歌曲和注释29日]。大多数的方法都集中,至少在某种程度上,在专家知识,参数定义的基础上,开发人员的音乐理论知识28,29日]。举个例子,一个专家,通常根据知觉key-to-key chord-to-key关系,可以设置键和和弦转换参数(29日]。

然而,尽管和弦的低音音符的估计使用bassline作为一个额外的序列包含调查与研究的关键(30.),这些研究线才收敛专家的新系统,也就是说,音乐概率(MP)模型,被释放了。

议员模型结构如图3(b)。它被誉为第一设备大多数音乐功能合并到一个模型,允许主和弦,和低音团体同时推断(30.]。这标志着飞跃在谐波分析研究,首次使预测复杂的和弦。结构的复杂性,然而,也增加了搜索空间,导致了大量的内存使用和处理时间问题,限制了其实际应用。

5。方法和讨论

这翻译的声学模型来预测一个和弦标记的每一帧音频和弦识别。声学模型因此得出分类frame-wise和弦,通常的形式分布在和弦标签。这些模型已经手工,分为特征提取和模式匹配在传统和弦识别系统。提取的特征将音频信号转换为代表,强调谐波内容;通常,这是某种pitch-class概要;匹配模式分配和弦标签这样的交涉,但只适用于单帧或本地上下文(31日]。

每个和弦和全球关键机器学习的方法是通过使用三个主要阶段,即特征提取和关键分类方法包括预处理阶段,这是我们的主要关切。以下将详细解释。

5.1。特征提取

特征提取是一个两阶段的过程。首先,在预处理阶段,我们将信号转换为一个时频表示。然后,我们给这个描述一个卷积神经网络(CNN)和训练它分类和弦。我们作为一个高层特征提取激活隐层的网络,然后使用对最后的和弦序列进行分类。

5.1.1。预处理

第一步我们的特征提取管道将音频输入转换成适合一个CNN的输入时频表示。cnn由固定大小过滤捕获局部结构,需要在每个输入地区类似的空间分布关系。我们测量音频级谱图的实现和应用过滤器银行间隔的对数与三角形的过滤器。

这个时频表示输入的所有领域,和笔记(及其谐波)之间的距离是相等的。最后,我们紧凑的查对数过滤后的频谱的价值大小。在数学上,一个录音的被定义为产生的时频表示在哪里年代是短时傅里叶变换)的音频和是对数间隔的三角形滤波器组。要简洁,我们将参考问在本节的其余部分光谱图。

我们喂网络谱图帧与背景,网络不是一个单一的输入列的问但一个矩阵:

该指数的目标框架我大小和上下文c。STFT,我们使用一个8192帧大小与跳大小4410 44 100 Hz的采样率。65赫兹到2100赫兹,每倍频程滤波器组由24过滤器。背景大小C= 7,因此每个X_我代表1.50秒的音频。我们的参数选择结果的输入维数X_我∈R105×15。

然而,我们选择时间模型直接通过他们的能力模型和弦序列和框架水准仪和弦识别如下解释。

5.2。和弦序列建模

我们想具体测量时序模型的建模能力。鉴于已经观察到的,时序模型预测下一个和弦符号序列。因为我们处理框架水准仪数据并遵循10帧的帧率,有10个和弦符号每秒一个和弦级数。更正式,一个模型米输出概率分布(下午 )为每一个欧美,因为一个和弦级数y=y1:T。我们可以确定的可能性的和弦系列:

我们计算的平均对数概率分配序列y∈衡量一个模型米预测和弦序列数据集: 在哪里是和弦的符号数据集的总数。

5.3。框架水准仪和弦识别

识别系统的一个完整的和弦,我们想测试时间模型。任务是预测正确的符号为每个音频帧的共鸣。作为和弦序列模型中,我们使用相同的细节,同样的培训/测试分裂,同一个和弦词汇(主要/次要和“没有和弦”)。

表1加权和弦回忆的24个主要和次要的和弦和象征的“no-chord”类测试时序模型谱图计算,一个训练有素的特征提取器和自动和弦预测,最后颞模型都包含在我们的共鸣识别管道。


框架	没有一个	MV	嗯	RNN

LogReg	70.1	72.3	73.1	73.5
款	73.2	74.8	77.1	76.0
CoveNet	78.1	78.9	79.3	79.0

我们提取log-filtered和对数谱图10帧每秒65赫兹和100赫兹之间光谱和饲料1.50补丁的三个声学模型:一个逻辑回归神经网络分类器(LogReg)和深。

5.4。主要分类方法

音乐音频部分的关键分类与一个全球关键:在主分类管道,我们放弃手工制作或调优元素相比以前的作品。我们的设备运行在光谱图直接从数据,它可以估计其参数。然而,这项研究取代完整的主要分类管道可以端到端优化的模型。

提出的神经网络旨在涵盖所有阶段的经典关键分类管道,一层convolutionary预处理步骤中,致密层,项目特征在时间框架级映射到一个简短的描述,一个全球平均层,聚集这个描述随着时间的推移,和一块softmax分类层预测的全球关键。

图5显示我们的模型的体系结构:卷积与8层函数映射计算5×5内核,紧随其后的是一层致密46 frame-wise单位;然后对这个投影是时间平均使用softmax 24层方式和分类。exponential-linear激活函数是用于所有图层(将SoftMax层除外)。

在传统关键分类方案,卷积层构成的第一个组件“特征提取”等价的。他们旨在过程输入谱图,处理不利因素如噪音或轻微失调,和计算短frame-wise谐波的定义内容以及投影层。任意长度的输入可以通过这个网络的一部分。在以下层,其生产聚合。

平均层降低了提取表征分类之前一个固定长度的向量。我们可以用其他更有效的方法(如复发性层),但我们发现他们在初步实验难以产生更好的结果。

最后,全球音频关键是预测SoftMax分类表。我们限制自己只对主要和次要的模式,可能导致一个输出24组(12补养药(主要和次要的)。因为大多数乐曲是大或小,这是一个常见的限制,因为没有数据集与准确song-level注释在其他模式下。

6。结果与讨论

CNN的预测也提供良好的结果而言,frame-wise使用模式匹配阶段的预测精度。和弦序列中产生这种方式总是打破,然而。因此,和弦序列解码的主要目的是平稳序列记录。因此,添加帧间依赖关系,找到最佳的状态序列使用维特比解码(20.CRF),我们使用一个线性链: 在哪里是标签向量序列和是特征向量序列的长度相同。我们假设每个在一个炎热的目标标签编码。能量函数的定义是在哪里一个帧间势模型,Wframe-input势和标签的偏见,第一个标签的潜力,是最后一个标签的潜力。这种形式的能量函数定义了一个直链CRF。

的方程,然后6.1和6.2意味着CRF可以用作一个普遍的逻辑回归。当我们设置一个7,t为0,他们变得平等。此外,逻辑回归神经网络的类似softmax输出层。因此,我们认为,可以查看CRF的输入是计算神经网络作为普遍SoftMax输出层,允许个人预测之间的依赖关系。这使得CRFs自然选择对集成神经网络预测之间的依赖关系。

然而,我们的模型中,有25个州(12个半音来大,小如表中所示2,一个类“no-chord”)。通过权重矩阵W,计算加权总为每个类的功能,这些州观测到的相关特性。这是符合什么CNN global-average-pooling部分。因此,作为CRF的输入,我们将使用的输入组件的差距,Fi, 128年平均为每个函数的地图。线性卷积和批处理之间的业务正常化是线性和不执行辍学在测试时,我们可以把平均操作从最后一层一层特征提取之后。


方法	Isophonics	罗比·威廉姆斯	RWC

CB3	81.8	- - - - - -	- - - - - -
KO1	82.6	- - - - - -	- - - - - -
NMSD2	82.2	- - - - - -	- - - - - -
提出了	83.1	82.9	82.6

据Wilcoxon符号秩检验,NMSD2在统计上显著的结果比别人。注意,CB3、KO1 NMSD2训练和测试数据重叠,而我们的系统计算了8倍交叉验证的结果。

我们将正式参考输入系列∈,每一列平均CNN特性对于一个给定的输出输入。CRF模型P( )相应的行动。

我们训练使用亚当,CRF与CNN一样,但是设置一个更高的学习速率为0.01。迷你批次由32 1024帧序列的长度(102.3秒)。我们使用1正规化负对数似所有序列的数据集作为一个优化准则: 在哪里年代在数据集的组合数,λ= 10−4l1 regularisation因素,是CRF参数。我们停止训练时验证精度不会增加5时代。

三个最先进的算法相比,表3显示了我们的过程的结果。我们可以看到,虽然火车的方法与测试集的引用,该方法执行略微更好的(但不是统计学意义)。


符号	马尔可夫链	复发性神经网络

ℓ(M, )	−0.278	−0.277
(M, )	−6.444	−5.222
(M, )	−0.051	−0.055

数据集包含了69个不同的和弦类型。事实上,这些和弦形式分布不均:四种最常见的类型(主要、次要、主导7和小7)已经构成85%的注释(32]。我们只是简化这个词汇主要/次要的和弦,我们地图和弦与未成年人3日作为第一次要间隔和所有其他主要和弦。后我们有24和弦符号映射(12根笔记(主要和次要的))和“no-chord”符号,所以25组。

表3表明ℓs (M、Y)和ℓc (M、Y)表示除了ℓ(M、Y)。这些数字反映的平均对数概率分配模型的数据集的和弦符号当当前符号是与前一个相同,当它已经改变了。类似于ℓ(M、Y),他们计算,但结果在方程(5)捕获t只有当=或≠ ,分别。他们让我们思考如何可以平滑预测模型时,和弦是稳定和和弦可以预测转变时(这就是“音乐知识”可以发挥作用)。

我们可以考虑更大的造型能力,RNN执行只是略微比马尔可夫链(MC)。这种转变是根植于更好地预测的和弦的变化(RNN vs−−5.22 5.42 MC)。这可能意味着RNN可以,毕竟,音乐知识比MC模型。这个好处,然而,是微不足道的,很少发挥作用:正确的和弦avg。RNN的概率是0.0054 vs MC1 0.0044,和职位的数量变化和弦象征的低相比,它是相同的。

此外,当框架水准仪和弦系统中实现,我们确定的边际改善RNN转化为更好的共鸣识别精度。

在表4,结果表明,简单的一阶嗯不表现复杂RNN时序模型。相比不使用时序模型和绝对多数选票,他们提高。


文本集	方法	训练集	加权	正确的	第五	相对	平行	其他

GS	对照	GS^MTG	75.3	68.2	6.8	7.1	4.3	14.1
	CK2	BB^电视	57.6	47.5	6.7	12.8	16.8	17.7
	CK3	GS^MTG和BB^电视	69.5	61.6	6.9	8.7	6.5	16.6
	电火花^一个		65.9	57.4	7.6	6.8	11.0	17.8
	电火花^米		70.4	63.5	8.8	2.6	6.5	18.7
	电火花^T		44.9	33.9	8.7	15.7	9.7	32.5
	QM		50.8	39.8	12.0	13.5	4.9	31.3

BB^TE	对照	GS^MTG	72.9	62.8	7.8	13.4	12.7	4.4
	CK2	BB^电视	84.0	77.4	9.2	5.1	4.5	5.0
	CK3	GS^MTG和BB^电视	80.0	71.0	9.9	9.3	6.6	4.2
	电火花^一个		78.9	70.8	11.6	3所示。0	5.8	9.3
	电火花^米		30.0	14.8	2.4	16.3	42.2	25.2
	电火花^T		75.8	66.9	12.7	6.5	2.9	12.0
	QM		61.0	52.3	11.9	4.4	8.5	23.9

第一个观察,然而,集中在一个复杂的时序模型可以预测和弦序列相比,一个简单的一阶。我们只看到复杂的模型表现略好,尽管其显著提高造型能力。第二个结果表明,RNN时序模型并不比一阶嗯当和弦内识别系统实现。近似推理算法的设计可能抵消其略微改善能力模型框架水准仪和弦序列。

根据关键分类结果,更需要全面的定量分析计算的准确性分数。特别是,当设计方法,我们认为任务是一个简单的24-way分类问题,和一些比其他类语义上彼此接近。因此,表4说明该模型提出一直在训练两个数据集(GS和BB)。

所有培训配置的测试结果我们建议的模型和参考系统如表所示4。通过魏克森讯号等级测试,确定结果的统计学意义,与错误类型反映了排名。我们的模型明显优于参考系统如果训练正确的类型:75.3和70.4 (αGiantSteps = 0.010) (GS)数据集和84.0和78.9 (α= 0.014)的广告牌(BB)数据集。

我们提到的一个主要的准确性下降主要分类:一个模型训练BBTV(流行/摇滚)测试GS(电子音乐)达到一个加权分数只有57.6,75.3相比,当训练GSMTG电子音乐。然而,严重的错误的数量(“其他”类别),我们的系统提交在这个配置不大于参考系统。类似于参考系统专门从事这类型(分别为17.8%和187% EDMA和EDMM),该模型预测完全无关的关键只有17.7%,反之亦然,它达到了最低的严重错误当GSMTG训练和测试BBTE (4.5%)。

预测的最常见的错误发生在这些cross-genre设置是一个错误的模式和预测相对小/大关键(导致并行小/大)。这意味着,尽管某些基本概念的音调仍然可以理解的模型,更好的特性变化太多不同流派之间的部分。

在训练阶段,可以训练该模型提供了一个良好的统一的多个流派的关键估计量。结果CK3系统没有达到专业的效率(69.5 vs 75.3 g和80.0和84.0 BBTE),但它执行GS EDMM,手动校准提供良好的结果在电子音乐数据集(69.5和70.4)。

GiantSteps数据集,给出的数字系统不同于那些最初发表(33]。这主要是因为我们已经推出了更严格的“第五”分类标准:我们需要调整目标模式与预期的模式,因此忽略的模式类别。同时,改善图书馆使用的初始实现加剧了发现与原来的相比,根据个人通信作者。

我们已经提出了一个使用CNN全球关键分类系统。不需要专家知识在功能设计或复杂的预处理步骤中,特征选择,和框架水准仪和弦,这个模型可以自动训练有素的端到端相比以前的工作。

数据集的实验表明,,电子音乐和流行/摇滚音乐,执行先进的模型。此外,我们希望测试更多的流派或古典音乐,该模型。

7所示。结论

我们开发了两个谐波音乐技巧。我们第一次开发强大的声学模型基于深层神经网络和处理他们的预测随机条件字段,一个简单的一阶模型平滑预测的主要声学模型。然后我们研究数据驱动时序模型,如何超越平滑可以开发。因此,他们需要和弦符号序列。这直接导致一系列开放问题的模型语言的共鸣。分层建模方法的发展和评估和弦语言模型,而且完整的共鸣识别系统,对这些点上面列出很重要。

我们认为在本文的第二部分主要分类。我们首先开发了一个卷积层的神经网络主要受传统分类算法的结构。

本文的贡献在于它只能提取一块全球关键和不知道关键的调节。而提供的方法可以用来检测键(使用预处理和特征选择),简称音频摘录,分类精度下降。我们得出结论,正确跟踪关键调节,未来系统需要了解一块的层次谐波结构。未来的工作将是希望我们创造新的网络体系结构造型色调和谐作为一个整体在一个单一的神经网络。为了解决这一挑战,我们可能无法依赖于标准模型。

数据可用性

两个标准数据集被用于拟议的系统,每一个有超过600块,识别应用framewise 48台。GiantSteps的两种类型(GS)数据集和广告牌(BB)数据集是有助于提高模型和五个卷积与9层特征图(33]。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

f . Chollet”与切除可分离旋转Xception:深入学习,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页1251 - 1258年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
r . Shrestha”和弦使用人工神经网络分类的音频信号,”国际研究杂志》上的工程和技术(IRJET),5卷,不。11日,2018年。视图:谷歌学术搜索
z Rafii, a . Liutkus F.-R。小公牛,s . i Mimilakis d·菲茨杰拉德,b . Pardo”概述分离铅和伴奏的音乐,“IEEE / ACM交易音频、语音和语言处理,26卷,不。8,1307 - 1335年,2018页。视图:出版商的网站|谷歌学术搜索
s . Basak a . Bazavov c·伯纳德et al .,”格计算电磁贡献k介子和介子的质量,”物理评论D,卷99,不。第三条ID 034503, 2019。视图:出版商的网站|谷歌学术搜索
f . Korzeniowski和g . Widmer徒劳的学习复杂的和弦识别框架水准仪语言模型,”2017年,https://arxiv.org/abs/1702.00178。视图:谷歌学术搜索
n高桥:他,:y Mitsufuji,“Mmdenselstm:高效率的结合卷积和复发性神经网络音频源分离”学报2018年16日国际研讨会声学信号增强(IWAENC)IEEE,页106 - 110年,东京,日本,2018年9月。视图:出版商的网站|谷歌学术搜索
y . c .叶w . y .萧,s Fukayama et al .,“与三合会自动协调旋律和弦:比较研究,“新音乐研究》杂志上,50卷,1 - 5,2021页。视图:出版商的网站|谷歌学术搜索
f . Simonetta s Ntalampiras f . Avanzini,“多通道音乐信息处理和检索:调查和未来的挑战,”《2019年国际研讨会上多层音乐表示和处理(MMRP)10 - 18,页,IEEE、米兰、意大利,2019年1月。视图:出版商的网站|谷歌学术搜索
r . Vinayakumar m . Alazab k . p .索曼p . Poornachandran a . Al-Nemrat和美国万卡特拉曼·莱马克里斯,“深度学习智能入侵检测系统的方法。”IEEE访问7卷,第41550 - 41525页,2019年。视图:出版商的网站|谷歌学术搜索
w·w·格雷夫斯o . Boukrina e . j . a . Mattheiss e·j·亚历山大和s . Baillet”扭转的标准神经签名word-nonword区别,”认知神经科学杂志》卷,29号1,第94 - 79页,2017。视图:出版商的网站|谷歌学术搜索
吴y和w·李”音频和弦自动识别MIDI-trained深特性和BLSTM-CRF序列解码模型,”IEEE / ACM交易音频、语音和语言处理,27卷,不。2、355 - 366年,2018页。视图:谷歌学术搜索
Korzeniowski和g . Widmer Genre-agnostic关键与卷积神经网络分类”19学报》国际社会对音乐信息检索会议(ISMIR)2018年9月,巴黎,法国,。视图:谷歌学术搜索
g·e·杜兰计算机系统谐波转录的爵士乐智利天主教大学,圣地亚哥,智利,2020。
s . d .你,c·h·刘,和w·k·陈,“歌声检测比较研究基于神经网络和整体学习,”以人为中心的计算和信息科学,8卷,不。1,1 - 8,2018页。视图:出版商的网站|谷歌学术搜索
黄h . m . w . k . Chen c·h·刘,和s . d .你,“歌声检测基于卷积神经网络,”学报2018年第七届国际研讨会下一代电子产品,台北,台湾,2018年5月。视图:出版商的网站|谷歌学术搜索
w·w·格雷夫斯o . Boukrina s . r . Mattheiss e·j·亚历山大和s . Baillet”扭转的标准神经签名word-nonword区别,”认知神经科学杂志》卷,29号1,第94 - 79页,2017。视图:出版商的网站|谷歌学术搜索
b·麦克菲和胡安-帕布鲁,“词汇量和弦识别、结构化的培训”18学报》国际社会对音乐信息检索会议苏州,页188 - 194年,中国,2017。视图:谷歌学术搜索
f . Korzeniowski和g . Widmer改善和弦识别相结合的持续时间和谐波语言模型,”2018年,https://arxiv.org/abs/1808.05335。视图:谷歌学术搜索
H.-W。盾和Yi-H。杨”,与二进制卷积生成对抗网络神经元对复调音乐一代,”2018年,https://arxiv.org/abs/1804.09399。视图:谷歌学术搜索
c·金、w .赵和h . Wang”研究客观评价基于深度学习的录音音频恢复网络,”多媒体的发展ID 3748141条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
t·龚“深度信念网络multifeature融合音乐分类算法和仿真,”复杂性卷,2021篇文章ID 8861896, 10页,2021。视图:出版商的网站|谷歌学术搜索
h . Purwins b·李·t·维尔塔宁,j . Schluter S.-Y。Chang和t . Sainath音频信号处理,深度学习”IEEE选定的主题在信号处理杂志》上,13卷,不。2、206 - 219年,2019页。视图:出版商的网站|谷歌学术搜索
e·d·布朗·m·l·加内特k·e·安德森和j。Laurenceau。,“Can the arts get under the skin? Arts and cortisol for economically disadvantaged children,”儿童发展,卷88,不。4、1368 - 1381年,2017页。视图:出版商的网站|谷歌学术搜索
j .·f·Rottensteiner, Soergel, c . Heipke“分层分类的高阶crf机载激光雷达点云在城市地区,”ISPRS-International档案的摄影测量、遥感和空间信息科学,655 - 662页。视图:出版商的网站|谷歌学术搜索
Essl发表,l . Turchet c . Fischione g d·凯勒和m . Barthet”物联网的音乐:愿景和挑战,”IEEE访问》第六卷,第62017 - 61994页,2018年。视图:出版商的网站|谷歌学术搜索
见鬼,乔杜里,b·拉尔和p·k·罗伊,“学习有效的连接使用隐马尔可夫模型自回归从fMRI缺失的数据,”神经科学杂志》上的方法卷,278年,第100 - 87页,2017年。视图:出版商的网站|谷歌学术搜索
m . j . Baucas和p . Spachos使用云计算和雾计算大规模iot-based城市声音分类,“仿真建模实践和理论文章ID 102013卷,101年,2020年。视图:出版商的网站|谷歌学术搜索
j·j·李公园、k金和j .南”Samplecnn:端到端深卷积神经网络使用非常小的过滤器对音乐分类,“应用科学,8卷,不。1,p。150年,2018。视图:出版商的网站|谷歌学术搜索
f . Radenovićg . Tolias, o .密友”微调CNN图像检索,没有人类的注释,“IEEE模式分析与机器智能第41卷。。7,1655 - 1668年,2018页。视图:谷歌学术搜索
f . Korzeniowski和g . Widmer Genre-agnostic关键与卷积神经网络分类”19学报》国际社会对音乐信息检索会议,巴黎,法国,2018年。视图:谷歌学术搜索
t·曹和j·p·贝罗”的相对重要性的共鸣识别系统的各个组件,”IEEE / ACM交易音频、语音和语言处理,22卷,不。2,第492 - 477页,2014年2月。视图:出版商的网站|谷歌学术搜索
A . Faraldo s Jorda, p . Herrera”multi-profile关键评估EDM方法”AES国际会议的程序语义的音频2017年6月,德国埃朗根。视图:谷歌学术搜索
c . Cannam m . Mauch m·e·戴维斯et al .,“灭蚁灵2016条目:鞋面插件中心的数字音乐,“灭蚁灵,圣多明各多米尼加共和国,2016年,技术报告。视图:谷歌学术搜索