文摘
的持续发展研究领域的情感分析,音乐,作为一种常见的多通道信息载体在人们的日常生活中,经常通过歌词和旋律传递情感,所以它已逐渐纳入情感分析的研究范畴。基于CNN-LSTM融合分类模型提出了有效提高音频和歌词的情感分类的准确性。同时,针对这一问题,传统的决策级融合方法忽略了关系模式和数据集的局限性,本文进一步改善现有的泰尔维情感决策融合方法,以音频能量轴数据为主要歧视基础,并提高了决策融合分类的准确性。音乐情感分析的结果的基础上,本文进一步进行音乐一代的任务。基于特征之间往往有一致的情感表达音乐和歌曲,双重Seq2Seq框架构建了基于强化学习。通过引入忠诚的奖励价值情感一致性和内容,输出与输入歌词和旋律都有相同的情感达到较好的使用效果。与普通Seq2Seq相比,我们提出的模型的准确性提高了约1.1%。这表明可以有效地提高模型的精度,利用强化学习。
1。介绍
随着技术的不断发展,数字音乐已成为大众的主流频道音乐欣赏在过去的二十年中,通过互联网广为传播。报告显示,有超过6亿活跃用户的在线音乐仅在中国。同时,随着TikTok等视频应用的普及,越来越多的用户正在使用音乐情感表达的主体。的背景下如此巨大的用户群和在线音乐库的持续增长能力,如何描述和计算一段音乐有效地应用到音乐领域的智能推荐和智能代已成为一个巨大的研究价值的问题。
早些时候,音乐情感识别主要集中在底层物理特性的分析一段音频通过先进的技术。例如,贝丝等人使用的主要特点MFCCs (Mel频率cepstral系数)对音乐的语音识别建模、验证MFCCs的合理性在音乐识别(1]。在随后的研究中,许多研究人员进行了大量的工作在音乐情感分类基于音频,建立了Hevner模式2),泰勒模型和TWC模型(3),和垫模型(4),试图从不同维度模型来描述音乐的情感类型可以包含,并不断追求分类的合理性和准确性。同时,以听力的分类方法,多数学者采用了常见的机器学习分类算法,如再邻居(资讯)5),支持向量机(SVM) [6),贝叶斯方法(7]。这些基于数学统计模型受到样本的数量和分类的影响,很容易导致不满意的结果。此外,传统的机器学习方法也面临着高成本的音频特征提取的问题,不能处理大样本。在此基础上,研究人员开始尝试使用深度学习方法如高斯混合模型(GMM) [8]和卷积神经网络(CNN) [9音乐情感分类。同时,为了解决传统的深度学习方法精度低的问题,研究人员开始寻求一些组合方法对音乐情感更准确地进行分类。例如,唐等人提高效率和性能的音乐分类任务相结合深入学习与广泛的学习(10]。与此同时,一些研究人员已经进行了一些工作基于歌词的音乐情感分类,其中大部分是基于自然语言处理的机器学习方法。陈等人使用向量空间模型来判断音乐的歌词水平的压力,因此开创性的单模歌词完成音乐情感的识别11]。最初的脑电图(EEG)信号的接收音乐信息直接用于卷积神经网络和长期记忆网络(CNN-LSTM),和获得更高的分类精度12]。与相关音乐情感分类研究的不断发展和计算机处理能力的提高,single-modal音乐情感分类研究不再能满足性能要求。因此,越来越多的研究人员开始探索多通道音乐情感分类方法和确认相关的方法反映了特定的应用效率和使用价值。常见的多通道分析方法是音乐情感分类的两种模式相结合的歌词和音频。杨提取音频和文本功能,包括MFCC。多通道融合模型提出了基于v A的情感空间。音乐情感分类后的音频和文本维度,结果是线性叠加分析音乐的情感。然而,在这类研究中有一些限制。也就是说,歌词和歌曲分离之间的情感联系,以及它们之间的一致性是忽略13]。音乐一代而言,江等人提出了一个深刻的强化学习算法在线伴奏的一代,这使得它有可能实时人机二重唱的即兴创作,并证明了其音乐一代能力由于基线方法通过主观偏好的方法评估(14]。
总之,本文构建了一个基于现有的多通道多通道交互网络音乐情感分析方法,考虑到情感一致性的各种模式,以获得更理想的音乐情感分析结果。同时,本文也试图产生基于强化学习音乐,可表达一种特定的情绪,与歌词的情感表达是一致的。
2。音乐情感分类基于多通道信息
2.1。多通道情感分类模型
2.1.1。叠加方法的介绍
基于音乐的分析,它分为音频和歌词文本。音频特征的二级融合歌曲和歌词的文本特性可以生成歌曲的情感融合特性,可以更准确地判断音乐的情绪和更好地反映情感信息和情感倾向。多通道之间的音乐情感分类方法结合音频和歌词,有三个主要类型的多通道融合:数据级融合、部件级融合和决策级融合。决策级融合是最先进的。装袋(15和提高16)都是集成学习方法在机器学习领域。它们被用于许多弱分类器为强分类器融合。他们不是彼此融合多通道数据,但可以有效地使用。然而,这种架构不能用于深度学习方法和缺乏泛化能力,可用的分类器的处理能力差的音乐特性数据,和他们的实用性很低。
为了解决上面的问题,我们改进的基本部件级和决策级方法避免情感信息的损失,解决功能问题的相关性。叠加(6)是一种模型集成技术,结合了多个模型的输出产生一种新的模式,它结合了多模型来提高机器学习的结果。这种方法允许更好的分类性能比单一模型和本质上不是一个多通道融合的方法。的核心思想是培养原样品特性与不同的基分类器,结合培训的结果分类标签,代表数据集样本的新特性,然后输入二级分类器学习培训,和输出集成分类结果。叠加的基本框架如图1。
叠加方法通常使用不同的基分类器输出值产生异质性的特征,因为平滑的集成模型,集成模型的集成性能通常是更好的比任何基分类器模型。此外,集成模型可以专注于模型表现良好,而不是信任模型,执行不佳。因此,叠加方法非常有效的集成非常不同的基本模型。因此,本文使用叠加方法融合在音乐的多通道特性。
音频和抒情音乐文本特征代表的是两种不同的模式。虽然有一些情感和语义关联,有相当大的异质性的数字表示特性数据。的分类输出特性直接融合是不好的。堆积,另一方面,需要各种分化特征分类模型作为基分类器。传统的叠加输入特性集相同的模式,导致不同的分类器的输出结果。我们试图使用音频和抒情分类模型作为基分类器作为一个整体,和叠加方法还可以用于分类的输出。
分裂过程中训练数据集的输出并将其转换为训练集,堆叠集成方法容易过度拟合如果的整个训练集训练模型用于预测训练集的标签。图中的模型使用5倍(5倍交叉验证)方法来解决过度拟合问题的叠加过程。模型的图如图2。
2.1.2。模型描述
(1)数据集的处理。在这个实验中使用的数据集样本数量是2000,这是数据集分为训练集和根据8:2的比例。基于原始训练集,训练集是由5倍交叉验证进一步分为五个部分,如下:
(2)基分类器训练。模型包含两个基本分类器:一个是基于CNN-LSTM音频分类模型(M1),另一个是基于文本分类模型(M2)。首先,对于音频分类器(M1),四(1280)的部分训练集训练的5倍交叉验证图2剩下的一个(320)预计如下:
训练模型也是培训原始整个测试集:
五个新和复制是通过执行上述操作5次。五份连接,最后P1大小是1600。五个的平均值样本计算和T1的大小是400。我们有以下:
文本分类模型(M2), P2, T2, P,和T(与原始数据集大小相同,2列的特性和所有的分类标签信息)是通过做同样的操作P1和T1连接训练集和测试集的二次分类如下:
(3)二级分类器训练。基分类器的训练之后,一个新的训练集P和一个新的测试集T生成培训二级分类器。数据不同的模式融合为标签,消除特性数据的异构性。subclassifiers通常是一个逻辑回归方法的选择。复杂的神经网络分类模型用于输出的过程和基本的组合分类器的特性,因此选择subclassifiers不需要太复杂。这个模型使用Softmax层(9)作为二级分类器的训练方法,使最终的多通道子分类。训练描述如下:
总之,堆叠框架集成分类算法不同的模式和综合的能力,不同的分类器算法提取特征从不同的角度,以相互补充和优化结果。本文使用stacking-based多模式集成方法解决异构性的问题不同的模态特性。集成结果更加稳定和准确的特性融合方法、模型和程序实现起来比较简单。它不需要调整single-modal分类模型建立之前,也不需要太多的调整参数,有效打击过度拟合。
2.2。音乐情感分类基于音频特征
2.2.1。音频特征的提取
(1)音频预处理①分离的声乐旋律。为了探索更细粒度和轻松地反映了旋律和歌词之间的关系,有必要单独人声歌曲的旋律。我们使用开源程序Spleeter(地址是https://github.com/deezer/spleeter)作为分离工具人声旋律的音乐。Spleeter可以评估每个声源通过使用u型网络和使用它作为一个柔软的面具,最终分离的声乐钢琴,吉他等乐器。基于上述方法,本文的实验过程中,实际的整个音乐分为四个水平来构建一个数据集和分类器输出的结果是投票表决。第一个是30年代平均分割,第二个是一个细粒度的15秒能分割、语句和其他两种方法获得纯净的声音和背景声音片段中提取的音频处理工具。提高情感分类系统的性能,实验研究比较不同预处理方法的分类结果。②细粒度切片。长时间会导致太大功能维度和训练速度慢,分类器是容易过度拟合。此外,音乐音频可能显示在不同的时期不同的情感倾向,和直接的情感分类作为一个整体可能会导致部分浸没。为了合成语音情感信息,提高分类的速度,本文细粒度划分的真正的音乐数据和输出的情感通过投票决策的结果,这可以有效地提高音乐情感分类的准确性。(2)选择的音频功能歌中音频、各种特征参数可以在时间和频率域,提取其中光谱特性结合时域和频域特征,可以代表情感信息。一种常见的解决方案是使用短时傅里叶变换(STFT)生成声音。然而,音乐不同于语音数据,audio-converted声谱图包含了复杂的信息,很难和图像特征表示通常是相关的图像分辨率和其他特性。在实际的研究中,有一些限制分类的输出谱图表征语音情感特征。根据实际需要的音乐情感提取,相关研究通常提取低级和高级音频的描述性特征。低级的描述符(lld)低级特性设计的手,通常计算从一帧音频。高级统计功能(hsf)特性基于lld,如均值和最大。他们是多帧音频特性表征。具体特征选择如表所示1。
2.2.2。基于CNN-LSTM音频的情感分类模型
基于主题的音乐情感分类、音频的情感分类通常需要结合光谱和时间特性。由于卷积和池结构的存在,卷积神经网络有很强的综合信息的能力和从二维提取特征数据,可以进一步压缩特性,而循环神经网络有能力处理序列化特性数据。本文构建了一个基于CNN-LSTM融合情感分类模型,可用于分类数据和输出的情感特征。
CNN的卷积和池层扮演一个角色在特征提取和特征选择。一组特征向量可以使用部分输出结构的CNN和支持向量机的输入和LSTM新特性。融合分类模型的基础上CNN-LSTM、音频特征输入到网络。光谱特征提取特征,并选择通过CNN的卷积和池层特性。序列化特性的一组向量是输出,输入到LSTM网络新特性和输出的注意机制是补充道。lld由统计方法,然后结合hsf减少款。最后,输出特征向量的两个网络结构纵缝成音频融合与将Softmax层的特性和分类,得到分类结果。模型网络结构如图3。模型由两个主要部分组成:光谱图+ CNN-LSTM lld +款。模型结合了CNN的综合特征的提取能力强的二维数据和RNN从时间序列数据中提取上下文的能力。进一步从图像中提取的光谱特性和时间序列特性。考虑单个光谱特征的分类能力不足,LLD特点相结合来弥补情感信息表示网络中来提高分类性能。
2.3。基于歌词的音乐情感分类
2.3.1。提取的抒情特性
(1)TF-IDF特征提取术语frequency-inverse文档频率(TF-IDF)是基于特征提取方法,体重表示单词出现的频率在一个文件中。TF-IDF可以使用概率统计计算出现的字,评估文档中的词项的比例,确定这个词的重要性,并使用它来代表歌词文本的情感极性。次情感的代表词出现在歌词文本,更重要的是在情感分类评价。通过结合所有的频率信息,整个歌词文本的情感倾向可以评估。然而,也有一些缺点。对待单词在文档中作为独立的功能,忽略了词与词之间的联系,整个文章。(2)卡方检验的特征提取卡方检验特征提取方法来源于数理统计中的卡方检验统计方法来描述两个随机变量之间的相关性。在歌曲,歌词文本的表达特定的情感类型的歌词,经常有大量的紧凑的描述符。统计处理这些特殊的情感词可以提高歌词文本分类的性能。
2.3.2。基于CNN-LSTM歌词情感分类模型
模型分为两个部分:词向量+ CNN-LSTM和词频重量+款。首先,卷积神经网络用于提取多字向量输入文本的特点,和提取的功能集成到输入LSTM神经网络的输出一组新的词向量特性表征。然后,向量提取的袋模型TF-IDF或卡方检验提取款。两类缝合在一起的特性的融合表达歌词的文本,然后由Softmax分类和输出文本情感分类的结果。
类似于音频情感分类模型,两个single-modal分类模型是由输入层、CNN层,LSTM层,注意机制层,款层和输出层,主要区别是输入层。输入音频分类模型的谱图和LLD特性,在文本分类模型的输入向量和词频权重向量。抒情的情感分类模型的框架如图4。
2.4。多通道音乐情感分类实验
2.4.1。选择的数据集
多通道的音乐情感分类中使用的数据集实验是一致的,用于single-modal实验相比之下。多通道实验的音乐情感分类、情感标签(四),音频和歌词文本文件中提取使用下载工具。情感标签也生气,开心,放松,和伤心,每个情感列表总计2000与500年,如表所示2。随机完成整个数据集的分区,其中80%是一个训练集,这是一个测试集的20%。
2.4.2。比较实验
我们选择一些比较主流的分类方法作为对比实验来验证该框架的有效性和优越性在音乐情感分类。结果如表所示3。
实验结果表明,该模型比一些更有效的主流研究方法近年来发现。single-modal研究方法在文献中取得了一定的分类性能,歌词分类精度的总体高于音频分类,但也有局限性。多通道融合实验的结果表明,该部件级和决策级融合方法可以结合不同模式的情感信息,比single-modal融合方法具有更好的性能。
3所示。音乐一代基于增强学习
为了更好地应用关键元素的音乐情感,音乐情感分析之后,本文试图从音乐的角度学习音乐一代情感,达到指定的代音乐旋律的情感类型。我们首先改善现有的MIDI词的表示粒度数据集,然后构造一个基于强化学习的双重Seq2Seq模型,可以限制输入文本的情感和输出音频是否在同一水平上通过增加情感忠诚约束一致性和内容。后者可使模型更稳定的转换。最终的结果是一个输入文本和一个输出音频和文本的情感。
3.1。数据集选择和预处理
我们选择一个中国流行音乐数据集由李等人(2019年20.]。他们收集了1000件中国流行音乐的旋律为MIDI格式转换成便于后续研究。同时,粒度词对齐是MIDI和歌词之间完成的。这些标签数据非常高质量的资源,可用于基于MIDI音乐一代。在这些数据的基础上,可以大大提高音乐生成的质量,和每个单词可以给定一个特定的注意。尽管原始数据集包含1000件中国流行音乐的音乐只有球场上的标签注意或只注意的持续时间的标签。还有歌曲,注意每个句子长度的数量不匹配的笔记和损失。我们过滤数据集,最终使840人作为分析的对象。
3.2。基于增强学习Seq2Seq音乐生成模型
在音乐中生成的任务,我们还需要确保歌词和旋律的情感在相同的范围。为此,我们构建Seq2Seq音乐一代模型基于强化学习,由两个Seq2Seqs,一端是旋律,另一端是歌词。它的奖励主要由两部分组成;一部分是情感一致性奖励缩写为钢筋混凝土,另一部分是内容忠诚奖励缩写为Rs。这个框架的过程主要分为两个步骤:双重Seq2Seq pretraining的多通道情感模型和训练。Seq2Seq音乐的框架生成模型如图5。
在音乐一代的任务,我们使用强化学习方法来限制歌词和旋律情感通过设置奖励函数奖励,这样生成的歌词或旋律的情感可以在情感上与输入端一致。我们改善多通道情感分类模型提出了部分3鉴频器的情绪一致性。此外,对于一个更好的培训模型,我们使用双重镜子训练法训练两个Seq2Seq模型和引入另一个内容忠诚奖励来衡量两个Seq2Seq模型的训练质量。
3.3。实验结果和分析
我们使用ACC评估模型的性能在两个不同的分区数据集。我们有严格的精度要求,要求Remi-digitized序列是完全相同的数字化生成序列的原始旋律是准确的,我们生成具有相同的和弦的音乐,注意,时间和其他信息与原始的旋律。因为李使用两个序列的笔记和持续时间来代表MIDI音频原始数据集,它不能直接比较,我们使用Seq2Seq,它是相同的参数,进行对比实验雷米表示。实验结果如表所示4和准确性(ACC)是评价指标。根据本部门不同数据集的数据规模如表所示5。
4所示。结论
音乐包含了丰富的人类情感信息。研究对音乐情感分类可以帮助组织和检索大量的音乐数据。音乐包含情感信息的两种模式:音频和抒情文字。通过构建一个多通道的音乐情感分类系统,可以有效地提高分类性能。
本文选择Thayer情感模型为基础的音乐情感分类和音乐分为四类:愤怒,快乐,放松,和悲伤。解决问题的长期和复杂的真正的音乐组成,提出了一种细粒度分割预处理方法和提取纯背景声音片段通过分离优化样本集来提高分类性能。针对单一特征的局限性和单一网络分类方法的局限性,本文提出一种基于CNN-LSTM single-modal情感分类模型,达到最好的分类结果,68%的音频分类精度和文本分类精度为74%。不同模态之间的异质性数据也是一个大挑战多通道融合的分类系统。摘要提出了一种多通道集成学习方法基于叠加架构,达到最好的多通道分类性能的分类精度为78%,这是更好的比single-modal分类。
与此同时,我们设计了一套双Seq2Seq模型基于强化学习。通过这个模型,我们可以有效地控制情感的歌词与旋律之间实现音乐的目标生成基于情感指导。模型增加了情感内容的一致性和奖励值奖励值保真度达到相同的情感类型之间的输入输出的旋律和歌词。
在未来,我们将主要从以下几方面进行。首先,我们将继续完善构建音乐数据集,标签等其他音乐结构(如前奏和桥梁段)。同时,本文提出的分类方法应该改进和优化参数的网络模型需要进行调整,以提高分类精度。
数据可用性
标签数据集用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由渭南师范大学。