文摘
我们都知道,音乐艺术家的灵魂,培养音乐的感觉是不可或缺的,美声唱法教学的重要组成部分。传统音乐课堂教育落后于信息时代的发展。根据美声唱法的教学方法教学,美声唱法声音的识别实验,帮助学生分析音乐意义包含在音乐作品的内容,和教师培养学生的音乐感觉和音乐理论知识根据有效的结果。为了更好地让学生欣赏音乐的真谛,有必要添加在线工具来协助美声唱法的教学。传统方法既教学生按照实际情况因材施教,但使用匹配资源的迅速发展的计算机技术,也不认真培养学生欣赏音乐的能力和感知的情感。基于上述问题,本文从深层领域学习和计划建立一个混合模型与LSTM有关。本文的结果如下:(1)CNN-LSTM模型最高识别率曲线,和一些情感的识别率是90%;亏损率往往是稳定在200次迭代,收敛速度是迅速。(2)预处理后,情感识别率较高,平均精度的音频特征提取基于光谱图+ lld情感约为0.7。(3)根据实际的应用场景,音乐感觉栽培的最佳效果是使用模型来辅助课堂教学,和得分最高可以达到8.8分。 In addition, the error between the emotional expression identified by the model and the original work is between 0 and 0.5 points, and the emotional expression effect is excellent. (4) The model can also recognize different kinds and times of emotion in 5-minute Bel Canto works. The above experimental results show that the model basically meets the requirements of the subject, and its performance is excellent, but the details need to be optimized.
1。介绍
互联网的快速发展和技术的快速创新促进音乐教育的变化和打开音乐教学的新方法。在过去,美声唱法的教学主要是传统的“面对面”的课堂,要求老师教学生各种技能不依赖任何工具。老师这将导致巨大的压力,很容易忽略了培养学生的音乐和丰富的教学资源的浪费。基于广泛应用和性能优良的深度学习在音频领域,本文选择研究多通道数据融合,构造一个模型与混合卷积神经网络和循环神经网络。一方面,学生可以正确地感知音乐的场景和情感通过专业和详细的模型分析。另一方面,模型鼓励学生解决他们的自我意识,可以进行大量的训练根据自己的情况来培养他们的音乐能力。减少教学任务后,教师可以调整美声唱法的教学内容根据模型试验的结果,找到正确的训练方式不同的学生。结合现有的美声唱法的教学系统,为了获得更多的参考思路和改进方法,我们将大量相关文献和资料进行研究。本文提供了参考方法和思想对以下人员如下所示。
通过改进传统的音乐教学技能培训,探讨了培养学生的音乐和欣赏教学(1]。受到COVID-19、教学模式的改变,采用在线音乐教育开始的声乐教学模式2]。声乐教学在高等音乐教育需求多样化和创新和实现新时期教学通过使用现代信息技术(3]。基于开放和合作教学模式,本文研究的培养音乐在高校声乐教学和音乐教育(4]。根据新形势下音乐教学,学生的综合音乐素质和音乐修养通过音乐教育,和基本的音乐理论知识增加5]。分析的重要性,培养学生的音乐在音乐教育,探索有效的方法提高学生的音乐(6]。音乐的理解,掌握美声唱法技术和第二个创作的作品,论述了美声唱法的歌唱艺术(7]。根据音乐的流行趋势,预测模型结合长期记忆力与注意力机制的目的是(8]。LSTM和注意力机制集成分类音乐情感,这解决了问题,很难找到喜欢的音乐9]。根据音频歌曲情感分类的特征提取,CNN-LSTM模型识别音乐感觉10]。分类方法的基础上,音乐内容、音乐体裁分类通过长期和短期记忆网络(11]。结合关键对象识别和深self-attention Bi-LSTM模型对情感分类(12]。引入惩罚项,堆叠LSTM模型嵌入self-attention机制提出了音频和视频情感识别(13]。使用LSTM模型,一种新的多通道融合的音乐情感分类方法提出了基于音频和歌词(14]。音乐素养的重要性分析美声唱法的声乐歌手的性能(15]。
2。理论基础
2.1。美声唱法的教学方法
美声唱法(16:它的字面意思可以解释为“美丽的歌声。“这是一个软歌唱方法起源于17世纪的欧洲,它影响了世界各地的音乐不断发展和传播。观众通常是感染了歌手的情感和感受和共鸣,从而实现音乐的艺术作品。不同于其他的歌唱方法,美声唱法采用喉低声方法,使用真和假声共振和混合声音领域技能。这也导致了美声唱法,非常依赖于教师的教学,需要注意教学技能和风格,这样学生可以学到正确歌唱的本质。
美声唱法的教学中,我们可以把内容分成两类。首先,它是声乐的教学技能。老师需要教学生唱歌和正确的呼吸方式,确保呼吸循环体内通过科学训练。学生也应该学习发声的技巧,调整根据自己的声音音色和音质特点,培养听的能力和区分耳朵通过大量的训练。第二点属于非技术声乐教学。针对美声唱法中包含的情感特征的作品,老师教学生继承创新的音乐风格,让学生控制和表达微妙的情绪变化,歌唱效果和完善阶段。
2.2。音乐的意义
音乐的感觉(17):音乐欣赏水平和音乐修养的体现。从本质上讲,音乐感觉是能够感知音乐的情感。对许多人来说,不难操作和玩乐器机械或使用技能来执行歌曲。然而,模型训练不能真的让人深深地感受到音乐的魅力和情感。如果我们想生成产生共鸣,实现学习音乐的乐趣,我们需要注意音乐感觉的培养。因此,与传统课堂相比,最初的教育方法只针对技能不再适用,和老师需要调整自己的教育政策和教学概念和修改程序。如何培养学生的音乐,使学生深刻理解背后的情感意义的音乐已经成为教师思考的新课题。类似于音乐的感觉是语感的培养,都需要大量的时间和优秀的音乐作品为基础。通过长期和持续的培训,学生们可以感知音乐表达的内涵。老师可以培养学生的音乐感知能力方面的语气,风格,音色,范围、强度变化,情感,和节奏。
2.3。音频分割方法
音频分割(18]:本文使用音频的纵轴,美声唱法音频作品可以协助模型来分析音乐不同的频段。细分规则:
通常,音频水平是不同的,所以我们可以使用这个特性来段音乐。一般来说,音乐听起来有两个区域:高中和较低的学校,三组注意序列。因此,我们将分成三段音频、低频、中频和高频。然后,使用统计计算方法,三个音频序列操作。提取的注意序列信息如下:
平均间距:
平均声强(19]:
球场的趋势:
语音标准偏差:
时间间隔(20.]:
间隔标准偏差:
间隔绝对值的平均值:
2.4。功能分类方法
“深度学习”21]:这个概念提出主要研究人工神经网络的各种性能成就领域的机器学习。此法适用于数据字段,如声音、图像、文本、视频和取得的巨大成就近年来在人工智能的研究。方法1:卷积神经网络。它可以添加三层网络,即卷积层、汇聚层,和完整的连接层,增加网络的深度和宽度。 对于公式(9后),通过特征映射kth卷积内核,代表了k输出特性图。X代表输入功能,代表了k卷积核。符号””表示一个二维卷积算子。方法2:循环神经网络。LSTM [22]:它被称为“长短期记忆。”,因为这种方法的特殊的网络结构,方便处理序列化特性数据。LSTM非常适合序列化的信息,如文本和音频。此外,由于LSTM有着特殊的门结构,与传统的基本RNN相比,LSTM可以解决长期依赖的问题。 的输入向量tth时间节点 ;隐藏状态的节点 。和功能f是一个非线性函数。U和代表输入层和隐层的权值。值得注意的是,通常初始化为0,然后呢代表隐藏层和输出层的重量。方法3:支持向量机。它的简称是“支持向量机”,这是1996年提出的。该方法可以处理二元分类问题没有样本数量的限制。(1)线性可分支持向量机: 计算支持向量的距离: 约束优化问题: (2)线性不可分的支持向量机:改变约束: 相应的问题: (3)非线性(23]: 在哪里和b分别代表法向量和负载的距离。越大价值,正确分类的可能性就越高。通过引入拉格朗日算子,原优化问题可以简化和对偶问题可以计算。代表松弛变量和C罚函数。代表空间变换;引入核函数可以解决问题的内积计算成本的提高。
3所示。LSTM混合模型基于音乐意义分析
3.1。音频预处理
美声唱法音频信号的特征提取之前,情感处理音频数据预处理的第一步。这是因为收集到的音频很容易受到一些因素的影响,如不完整,缺失的数据,数据太多的噪音,或太多的沉默造成干扰。因此,有必要提高音频信号和补充缺失数据在特征提取之前,抛弃无用的数据,标准化数据,并删除所有音频杂质。(1)框架处理音频分割方法。(2)降低数据泄漏的影响通过添加窗口函数。根据信号类型和目标,选择合适的正常运作。 矩形窗口: 汉宁窗: 汉明窗: (3)端点检测可以准确地控制声音段和无声段,减少模型的计算复杂度。(4)语音信号的降噪:近似估算: 计算获得的功能: 计算每一个信噪比: (5)特征选择和降维。 (6)减少数据差异和规范化。
Min-max方法(24]:
Z分数(25]:
3.2。音频特征提取
过去,传统的音频的情感数据集大多是纯音乐片段或纯人类声音片段,这两个短时间内,单一的声音组合。美声唱法声音主要是存储在数字音乐的形式,通常是不到5分钟的时间,比传统的音频测试时间长,和情感表达在不同时期是不同的。此外,美声唱法音频不是一个单一的组件,通常包括两种声音:音乐和人类的声音。然而,美声唱法音频研究研究完全不同于音频研究过去。因此,在音频特征提取的过程中,我们需要执行细粒度的音频分割和语音分离操作。使用这两个方法,我们可以解决这两个问题的大型功能维度和复杂的成分。这都是由于长时间唱美声唱法。此外,光谱图可用于输出的情感特征。本文提取一些特征参数如表所示1。
其中,基于lld hsf统计特性。的提取MFCC lld密切相关。通过FFT频谱,最后m维MFCC系数是通过转换公式,三角形滤波器,对数操作和DCT变换。除此之外,一些其他特性可以提取音频信号如讨论二阶导数过零率、频谱质心,频谱带宽,频谱衰减、频谱变化,和色度特征。
3.3。建筑的模型
为了全面考虑频谱和时间序列的性能特点在美声唱法音频的情感分类,本文结合了CNN和LSTM情感分类模型神经网络构造混合情绪美声唱法的音频数据。这个模型吸收美声唱法的精髓教学和可以应用于音乐的分析意义。网络模型的框架结构清晰,布局合理,如图1。
处理音频特征作为网络输入整个模型的一部分。然后,该模型可分为两个主要部分的一系列操作。第一个主要部分是由光谱图和CNN-LSTM。第一剂可以序列化输出一组特征向量,然后添加一个注意到输出机制。考虑到一个单一的谱图的特征分类能力不足以满足实验要求,第二个主要模型的一部分融合lld特性和网络中的款。lld演变成hsf通过统计组合,款被用来减少维度。第二个代理的帮助下希望这三个组件,可以提高分类性能来弥补情感信息的表达。最后,得到的特征向量垂直拼接两个代理,和音频输入融合特性将Softmax层。分类处理后,得到了情感分类结果。
4所示。实验分析
4.1。实验准备
LSTM混合模型建立需要训练和专业的服务器平台上测试过。因此,在仿真实验中,我们公开展示一些硬件和软件信息的具体详细的参数如表所示2。
4.2。情感上的数据集
我们的模型的目的是准确地识别情绪状态在美声唱法音频和帮助教师和学生发展他们的音乐。这无疑是一个巨大的成功对美声唱法的教学。在这个数据集的建设,情感的描述需要被广泛的专家和学者。因此,我们选择离散情感理论为基础并收集常用的离散情感数据集,如CASIA EMODB, IEMOCAP和建立一个高质量、高分辨率,成功率高速率情感适合本研究的数据集。根据许多学者的基本情绪的定义不同,我们选择使用最广泛的情感分类方法。美声唱法的教学,培养学生的音乐意义上相当于让学生理解丰富的情感在音乐水平。当学生能够正确地理解和分析的情感在不同时期的音乐作品,学生音乐能力的意义。为了正确识别情感类别,有必要构建美声唱法音频的情感数据集。提出的这种方法,埃克曼弗瑞森,埃尔斯沃思将情绪分为六个概念。他们很高兴、惊讶、愤怒、厌恶、害怕,和伤心。 Our experiment will identify Bel Canto audio clips according to these six emotions.
4.3。测试模型
4.3.1。模型的性能比较
在本节的仿真试验中,我们测试的性能LSTM混合模型构造。
(1)不同模型的识别率。比较这四种模式的识别率六情绪,识别率曲线混合CNN-LSTM模型有明显的增加。其中,幸福的最高识别率为61%,这是六人中最低的情绪,和相关的识别工作需要加强;惊讶的情绪的识别率是88%;识别的愤怒,悲伤和恐惧都超过90%。识别LSTM和CNN模型是相似的,但几乎没有差异,音乐的识别效果不够好。虽然情感识别的性能3 dacrnn模型并不优于CNN-LSTM模型,3 dacrnn模型的识别性能略有改善与其他单一模型相比,LSTM和CNN模型,如图2。
(2)比较的损失率。损失函数的变化测试模型可以直观地反映模型的收敛速度。损失值不同迭代次数下的四个模型进行比较。可以清楚地看到,CNN-LSTM模型收敛迅速的数据集和往往是稳定在200迭代,和损失函数值是0.01在第1000届迭代,和随后的损失价值趋于0时无线。然而,当3 dacrnn模型接近600次迭代,损失函数值接近0.1。经过1000次迭代的LSTM和CNN,损失值接近0.2和停止收敛。总之,CNN-LSTM模型训练速度最快的,其收敛速度比其他三个模型如图3。
4.3.2。情感识别实验
在这个实验中,我们主要针对不同的预处理方法和不同的音频特性探讨模型对音乐情感分类识别精度。
(1)预处理音频分割。一个1分钟的美声唱法音频分为三个部分:初始段、纯背景音乐,声乐歌唱。该方法分析了分类精度的六个情绪表现。我们可以发现原始的片段没有预处理,和六个情感的识别率较低。预处理后,纯背景音乐和声乐演唱的识别率明显增加,如图4。
(2)不同的音频特征。支持向量机(SVM)作为分类方法识别情感的美声唱法音频单一lld, hsf特性和光谱图+ lld音频特性提出了。我们可以发现一个特点表现在快乐的分类和愤怒的情绪,和其他情绪的分类精度可以达到0.6以上。单一lld和hsf的平均精度约为0.61。在这种方法下,六情绪是大约0.7的平均分类精度和整体价值远高于其他两个的性能特征,如图5。
4.3.3。实践教学应用
(1)混合教学模式。我们比较传统美声唱法教学,纯在线教学,辅助教学和混合模型。六个学习小组建立,每个学习小组分为六个学生,谁学了3分钟美声唱法音频在一起。为了量化的培养学生的音乐,我们使用10成绩评分结果。我们可以发现,第三组得分最高,达到8.8点,利用模型来帮助音乐感觉的培养课堂教学。添加模型之后,这些六组可以达到传统教学的效果,那就更好了。然而,美声唱法教学的影响通过使用在线模型仅是最差的,得分最低的4.3和7.2的得分最高。这表明美声唱法教学没有实际的课堂培训不是可行的,如图6。
(2)人工评估的主观情感。有6组在这个测试组,测试6个不同的音乐感觉美声唱法。三个相关专家被邀请进真正的实际效果,以及采用十分制评分法。主要测试模型之间的一致性和真正的美声唱法的情绪,为了验证模型在音乐分析的影响。我们可以看到,没有多少区别的测试效果6工作和实际工作的情感效果。整体误差值在0到0.5之间。这表明该模型识别的情感表达是非常符合原作的表达,如图7。
(3)在不同时期情感识别。根据5分钟美声唱法音频、识别音乐的意义上进行,有多少不同的情绪在这段时间。以1分钟为极限,他们被分成5组,音乐情绪的类型和时间以每组是不同的。根据识别情况,我们可以确定的音乐风格,情感变化状态,节奏速度,和其他条件的美声唱法的工作,它可以帮助教师和学生综合学习美声唱法和培养音乐感觉更好。第一个两分钟的音频主要是开心和惊讶,然后,气氛渐渐变得悲伤,沮丧,随着时间的推移和充满了悲伤的情绪。高兴和惊讶的情绪被检测到6倍;愤怒是检测3次;厌恶是检测到11倍;有恐惧的8倍;悲伤是最,如图26倍8。
5。结论
美声唱法的音乐意义分析专业,很少有研究在国内外。本文着重于培养音乐在美声唱法的教学和讨论了美声唱法的作品中包含的不同的情绪。通过音频特性分类和提取方法,融合情感信息模式削减了细粒度的音频数据中提取不同的特征,和分类模型输出的情感。实验可以避免分类缺陷造成的直接降维方法,很好地利用各种模式之间的相关性来获得最佳的性能。音乐情感识别的效果和性能的分类精度在一定程度上得到改善。在此期间,为了提高单一特性和单一网络分类的缺陷,本文使用现有的音乐识别技术将模型基于LSTM和CNN。本文的研究结果表明,该模型结合了美声唱法的情感特征和音乐风格,遵循现有的结果修改实验基于这种偏好。我们的混合模型弥补了缺陷,很难提取音频时间特性在一个单一的模式,和计算速度更快。
尽管本文中的模型构造表现良好在美声唱法音频识别中,它证明了本文研究是有效的。然而,对于一些性能的模型和实际的应用场景中,仍存在一些问题,需要进一步的研究。在未来的研究过程中,我们可以从以下角度:测试和探索调整混合网络模型和优化参数来提高分类精度,扩大可辨认的情感类别的音乐感觉,使情感分类更微妙的,美声唱法方便教学。美声唱法音频特征提取阶段,所有功能都考虑全面,并介绍了各种特性,讨论,和这个词向量方法相结合来提高分类性能,增加数据的实验,使实验结果更全面和普遍性,并提高模型的训练算法,以减少计算复杂度和时间;当模型识别美声唱法音频,它很容易受到网络干扰和延迟的影响,从而导致偏差的精度,并需要更多的实验进行降噪。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突的这方面的工作。