文摘

音乐表演的工作系统是控制光线改变通过识别音乐的情感因素。因此,一旦出现识别错误,它将无法创建一个良好的舞台效果。因此,基于图像序列的多通道音乐情感识别方法进行了研究。音乐的情感特征进行了分析,包括声学特征、旋律特点、和音频特征,特征向量构造。基于神经网络的识别和分类模型的训练,每一层的重量和阈值调整,然后特征向量输入到训练模型实现多通道智能识别和分类的音乐情绪。起点的阈值范围的一个特定的哼唱注意中心给出的剪裁方法,用于消除低振幅嗡嗡作响的一部分注意信号,提取短时谱的结构特性和包络特性,并完成多通道音乐情感识别。结果表明,kappa系数计算k大于0.75,这表明,识别和分类结果与实际结果有很好的一致性,和分类识别精度高。

1。介绍

音乐是一种艺术形式,以声音为沟通然后产生情感体验的一种手段。音乐可以传达情感直接以声音的形式运动。音乐是情感的本质。音乐声波振动的具体形式是直接关系到人类的情感。根据这个连接,音乐可以用来描述人的情绪活动细节。遵守所有的音乐活动,反映了人们的内心世界,的波动是否创造者和表演者发泄他们的情绪或听众接受音乐的情感内涵。如今,数字音乐技术带来了巨大的变化,传统的和经典的情感交流方式。计算机科学的发展带来了革命性的进步,创建、通信、存储和释放的音乐作品。尤其是在计算机音乐的连续浓缩材料,已经成为一个紧迫的科研课题研究音乐作品的情感信息通过使用智能信息分析和处理方法,使计算机能够识别和表达音乐情感像人一样。音乐比语言更早出现。 When human beings did not use language to express their feelings, they had learned to use music [1,2]。可以说,音乐在人类历史上扮演着重要的角色,和音乐已经融入人类生活的所有方面(3]。随着科学技术的不断发展,创建、存储和传播的音乐已经大大改变了。音乐是一种艺术形式,以声音为沟通然后产生情感体验的一种手段。音乐可以直接进行情感交流的形式良好的运动(4,5]。可以说,音乐是情感的本质。音乐声学振动的具体形式是直接关系到人类的情感。根据这个连接,音乐可以用来描述人的情绪活动详细(6]。遵守所有的音乐活动,反映了人们的内心世界,的波动是否创造者和表演者发泄他们的情绪或听众接受音乐的情感内涵。如今,数字音乐技术带来了巨大的变化,传统的和经典的情感交流方式。图像序列的发展带来了革命性的进步创造,通信、存储和释放的音乐作品。一般来说,图像序列噪声是一个不可预测的随机信号。噪声对图像序列处理非常重要。它影响所有链接的输入、采集和处理图像处理和输出结果的整个过程(7,8]。特别是,图像和收购的抑制噪声的输入是非常关键的问题。如果输入是伴随着大的噪音,它将不可避免地影响整个过程和输出结果。因此,一个好的图像序列处理系统,由计算机模拟处理或数字处理,以降低第一级的噪声为主要目标(9,10]。特别是随着计算机音乐材料不断浓缩,它已成为一个重要的研究内容使用图像序列智能信息分析和处理方法研究音乐作品的情感信息,使计算机能够识别和表达多通道音乐的情感像人。

在这方面,相关学者已经提出了很多研究。文献[11)提出了常见的神经机制相比,音乐和发声和情感处理的神经机制参与发声和音乐处理,以观察他们在情感内容编码可能的相似之处。积极和消极情绪的声音(如笑和哭)和小提琴音乐刺激提取数字作为刺激,具有共同的旋律轮廓和主要沥青/频率特性。文献[12]提出语义和情景记忆的音乐是由不同的神经网络,并提取语义记忆和情景记忆的大脑是由不同的神经网络完成。它基本上是通过语言和视觉空间的材料。两个延迟构造识别任务,一个只包含熟悉的东西,另一只陌生的物品。对于每个识别任务,一般提取目标提出了在前面的语义任务。通过比较两种知觉控制与另一个知觉控制任务,任务情境任务和语义进行了比较。基于上述分析,多通道音乐情感识别方法提出了基于图像序列。音乐情感特征包括声学特性、旋律特点,和音频特征进行了分析,并构造特征向量。基于神经网络的识别和分类模型的训练,每一层的重量和阈值调整,和特征向量输入到训练模型实现多通道智能识别和分类的音乐情绪。起点的阈值范围的一个特定的哼唱注意中心给出的剪裁方法,用于消除低振幅嗡嗡作响的一部分注意信号,提取短时谱的结构特性和包络特性,并完成多通道音乐情感识别。多通道的识别和表达音乐情感使用户能够实现人机交互通过音乐情感,丰富人机交互技术的研究内容。

2。多通道音乐情感识别和分类基于图像序列

除了必要的音乐本身,一个完美的音乐性能是一个互补的现场气氛。在音乐表演,现场气氛的对比主要是实现了照明,这通常是改变了音乐表达的情感因素协助音乐创造良好的舞台效果。在这种背景下,为了更好地控制光,多通道音乐情感识别是非常重要的13- - - - - -15]。因此,针对多通道音乐情感分类和识别模型来完成多通道的智能识别和分类研究音乐情感在音乐表现系统。

2.1。分析多通道音乐的情感特征

实现多通道的音乐情感识别是基于多通道音乐情感特征,所以多通道音乐情感特征提取是本研究的第一个链接(16,17]。在前面的多通道音乐情感分类,其中大部分以一个音乐特征为分类依据。虽然他们也可以完成分类任务,无法保证其准确性。为了解决上述问题,在这项研究中,各种各样的音乐特征提取和融合基于图像序列,然后分类和识别基于融合特征。图像序列的原理图所示1

为了识别音乐情感特征(18),有必要理解音乐的成分。其中,音乐能明显显示情感特征的相关因素包括声学特征、旋律特点、和音频特征。

2.1.1。声学特性

声学特征指的是代表的声学特征的物理量多通道音乐演讲。也是针对许多元素的声学性能的声音,例如,能量集中区域,共振峰频率,共振峰强度,代表多通道音乐的音色和带宽,以及持续时间、基本频率,平均的声音力量代表言论多通道音乐的韵律特征。多通道的分类音乐演讲中,传统的方法是研究发音器官的特点,如元音的舌头的位置,前后,辅音的发音位置。现在,随着科技的进步,进一步的研究可以根据声学特征。

音乐(声因素是最基本的组成部分19,20.]。音乐与不同的情感节目不同的声学特征,基本的对应关系如表所示1

2.1.2。旋律特征

旋律特征也称为旋律特征;即行组成的高、低音调有不同长度的灵魂音乐和音乐的旋律。按照一定的法律(音调被组织21- - - - - -23]。提取的特征包括五个方面。(1)平衡参数 :平衡是指体积的比例值在左和右通道。计算公式如下: (2)体积参数 :体积是指声音的响度人耳可以听到的。计算公式如下: (3)距参数 :距是指基本频率的振动频率。快节奏音乐快速振动频率;相反,它缓慢的振动频率。计算公式如下: (4)平均强度参数 :强度是指音乐所产生的权力的力量。舒缓的音乐已经薄弱的力量,而更令人震惊的音乐有很强的实力24,25]。计算公式如下: (5)请注意能量参数 :注意能源是指注意间距和长度的乘积的总和。计算公式如下:

的公式, 代表左和右通道的平衡值,和它的值范围是0 - 127; 代表的数量,范围从0 - 127; 代表注意球场; 代表的笔记跟踪; 代表的强度值 注意在 跟踪; 显示追踪号码; 代表了的笔记 跟踪; 代表的音高和长度 笔记的 跟踪通道。

2.1.3。音频功能

音频功能是识别和确定多通道音乐情感的一个重要条件。通过不同的音频特性不同的音乐情感表达。音频是音乐的重要影响因素之一,影响音乐的节奏。节奏越快,越明显的音频和快乐多通道音乐情感表达。相反,多通道音乐情感更乏味的或令人沮丧的26,27]。音频特征的描述基于图像序列可以从两个方面进行,实时域特性和频域特性(28]。(1)时域特征音频的时域特征是指每一帧的时域参数计算从音乐信号,主要包括零交叉率和幅值(29日- - - - - -31日]。下面是具体的分析。(1)过零率 :过零率是指音频信号波形的频率通过零水平。一般来说,过零率高频波段的一段音乐将相对较高;相反,过零率会相对较低。通过这个参数,我们可以区分声音浊音和清音的音乐。一般来说,无声的声音大多用在欢快的音乐,而表示声音缓慢而深刻的音乐中经常使用。过零率的计算公式如下: 的公式, 代表了音频信号的符号功能 ; 代表窗口的有效宽度; 代表着时间窗口的位置。(2)范围 :振幅指的宽度扩大了音频信号的波形振动32- - - - - -34]。充满激情的音乐越多,音频幅度越大。更舒缓的音乐,流畅的声音振幅。音频振幅描述如下: 的公式, 代表了移动窗口函数。(3)频域特征:频域音频的特征包括两个:频谱质心 和光谱变化 计算公式如下: 的公式, 代表的短时谱幅度 帧频点 ; 代表的规范化的振幅谱 框架和 帧频点 ,分别。

基于上述三个类别和14多通道音乐情感特征,形成特征向量,用于描述一段音乐的情感因素。它是描述如下:

的公式, 代表声学特征; 代表旋律特征; 代表音频特征。音频功能结构如图2

2.2。多通道建设音乐情感识别分类模型

基于上面的音乐中包含的情感特性,建立了分类和识别模型,实现多通道音乐情感识别和分类,并用于构造神经网络模型(35,36]。BP神经网络是一种发明的智能算法模拟人类大脑神经网络的工作原理。神经网络主要包括三层,分类处理是通过每一层的操作。由该算法的分类和识别模型图所示3

在图3模型建设、培训是关键,具体过程如下。首先,输入训练样本的选择,隐藏层和输出层操作之后,你会得到结果,然后比较结果与预期的结果,当他们之间的差异小于设定阈值,完成培训;否则,会有反向传播,不同从输出到输入,和重复的过程,直到你达到最优权重和阈值。BP神经网络训练的目的是调整和优化权重和阈值模型中的连接在每两个层次。因此,公式如下。(1)调整公式连接权重 和阈值 输入层和隐层之间: 的公式, 代表了隐层的误差值; 表示输入特征向量; 表示迭代次数; 代表了训练样本的数量; 表示输入层的神经元数; 代表了隐层神经元的数量。(2)调整公式连接权重 和阈值 隐藏层和输出层之间:

的公式, 代表了目标特征向量之间的误差值与实际输出向量; 代表隐藏层的输出。

基于BP神经网络的训练模式可以实现多通道音乐情感分类通过输入测试样本。

2.3。基于剪切智能识别的起点
2.3.1。计算注意信号之间的相关函数

智能优化和识别的过程中注意起点的检索功能基调,最初的注意信号是基于图像序列的预处理过滤噪声的高频部分。随机注意信号分为短期固定信号基于图像序列,计算不同语音波形信号之间的相似性,以及每个音符信号之间的互相关函数。基于图像序列的识别框架的设计如图4

无处不在的环境结合网络技术和移动技术和设计一个以顾客为中心自适应推荐结构。无处不在的环境是由网络设备,包括电脑、手机、及各种网络连接设备,包括计算和网络服务,管理和控制。在这样的环境下,网络可以收集查询、配置和管理来自用户和管理员的信息,这些信息转移到每个服务器端口,然后将它们应用于综合平台通过网络的推荐系统的设计提供了依据。

具体步骤详细如下。

假设 代表了注意帧长度和 代表帧的采样点,语气检索每个哼唱注意信号的特点是有窗的框架处理公式(11),使每个哼唱注意短期稳定的信号:

的公式, 代表任何哼唱信号 代表的短时能量

假设 代表当前采样值的短时哼唱注意信号, 被定义为历史采样值和激励信号的线性组合,由以下公式表示:

的公式, 代表图像序列的预测系数, 代表图像序列的预测订单, 代表图像序列的增益系数, 代表了语言的图像序列的脉冲激励,和 代表图像序列的信道响应值。

判断是声门的脉冲激发的结果吗 过滤的通道响应 , 注意短期的嗡嗡声信号与周期特征。

假设 代表一个函数与同一时期,不同嗡嗡作响的波形信号之间的相似性由下列公式计算:

波形信号之间的相似性不同嗡嗡作响的笔记主要有两种状态:交叉和九宫网格,如图56

正则广场是用来表示不同哼唱注意波形信号之间的相似性。一般来说,图像序列的值是0或1。二维空间是由大量的图像序列。研究相邻元素的子元素,和他们的形状主要是广场。 代表 并与同期的信号 ,和离散时间信号的数学表达式是由以下公式:

基于图像序列,该中心削波的阈值方法用于给特定的起点范围哼唱指出,这是表示如下:

的公式,代表独立的加性高斯白噪声 是嗡嗡作响的三阶水平信号注意搜索 通过剪裁方法,消除了嗡嗡的低振幅部分注意信号,并计算出哼唱注意起点信号之间的相关函数。

总之,它可以解释说,智能优化和识别过程中值得注意的特性音调检索起点,最初的注意信号预处理,计算不同注意波形信号之间的相似性,以及每个音符之间的互相关函数信号,这对智能优化和识别奠定了基础的起点的特征检索。

2.3.2。智能优化识别基于起点特征值得注意的起点

因为旋律音高特征提取是一个智能优化和识别的关键环节的注意起点功能基调检索和直接影响语气检索的质量特性,在识别的过程中,短期旋律音高的光谱结构特性和包络特征提取是基于之间的相关函数获得注意信号基于图像序列的起点。基于特征转换和融合每个旋律音高的起点,智能优化识别完成的起点。图像序列特征提取的流程图如图7

根据图7音乐,首先,输入多通道音频信号前置滤波器将输入模拟音频转换成声音频率范围内的数字音频信号可以由人耳接收。其次,根据短时音频信号的稳定性,preweighted音频信号是加工成帧,使用汉明窗窗口每一帧的信号减少吉布斯效应的影响。短时傅里叶变换将时域信号转换为频域信号,这是方便后续的三角窗过滤梅尔过滤器。然后,过滤信号的对数,进行离散余弦变换,消除各种维度的信号之间的相关性,以及信号映射到低维空间。最后,梅尔倒谱系数谱获得的权重,倒频谱减法,和差异处理。因为倒频谱的低阶参数很容易受到演讲者和通道的特点,识别能力提高。

智能优化识别的具体步骤详细如下。

假设 代表球场轨迹的平滑参数,基于获得的 ,的短时谱结构特征提取的哼唱旋律音高为代表 由信封和特性 提取了以下公式:

的公式, 表示起点嗡嗡作响的笔记和数量 代表偏移向量。

一组变换矩阵的起点哼唱旋律音高辨别训练获得的。基于图像序列,每一组对应于一个地区的变换矩阵的特征空间划分的起点哼唱指出,与相对应的变换矩阵转换特征向量所属区域。假设 代表时间的输入特性 , 对应的变换矩阵 域,变换的特征 旋律音调段描述由以下公式:

的公式, 代表起始域划分和后段旋律音调 对应的权重系数选择特性变换矩阵

假设 代表的激励信号 层哼唱旋律音调节点,由变换矩阵的特性 融合了以下公式:

的公式, 代表了正则化函数。

假设估计的价值 使用噪声频谱,融合变换矩阵的参数特性 优化由以下公式:

的公式, 对应的变换矩阵非零系数项。根据公式计算结果(21),注意起点在功能的智能识别音检索可以有效地完成,从而完成多通道音乐情感的研究基于图像序列的识别方法。

3所示。实验分析

为了测试的应用效果,基于图像序列的多通道音乐情感识别方法,使用MATLAB软件的算法操作平台,选择一个具体的例子进行仿真测试和分析。实验环境设置如表所示2

样品在测试中选择来自情感语料库。根据所选样本和情感表达,分为五类。样品的具体分布如表所示3

Kappa系数选择的指数评价音乐情感的智能识别和分类。Kappa系数用于一致性测试和分类精度。其计算公式如下。

的公式, 观察率和一致性 代表了预期的一致性。更大的值 和越大 价值,更一致的两个结果。当 ≥0.75,结果是一致的和分类识别更准确。如果 < 0.4,表明缺乏一致性和可怜的分类和识别精度。

输入测试样本表3训练神经网络模型,测试样本,计算样品的测试结果,并计算kappa系数。结果如下:

kappa系数 计算值大于0.75以上,表明识别和分类结果与实际结果有很好的一致性,和分类识别精度高,达到了研究目的。多通道音乐情感识别方法用于识别音乐片段在测试集,和一些结果拦截测试样品和他们的歧视,如表所示4

从表可以看出4相同的测试样本的识别结果的不同的方法是不同的。节奏和旋律特征对音乐情感的识别有很大的影响。图像序列不变的前提下,选择合适的音乐特性输入向量将改善多通道音乐情感识别的准确性在一定程度上。

4所示。结论与展望

4.1。结论

多通道的音乐情感在人工智能领域的一个突破。它已成为计算机科学的一个新的研究特征,认知科学、神经科学、脑科学、心理学、行为科学等跨学科领域。多通道的音乐情绪理解是情感计算的一个重要分支,有着广泛的发展前景。多通道的音乐情感识别方法基于图像序列通过一个例子验证该算法的性能。kappa系数证明算法的分类识别精度高,达到研究目标。与此同时,节奏和旋律特征对音乐情感的识别有很大的影响。

4.2。前景

未来可能的研究方向是应用深度学习音乐情感识别方法。深度学习是一种基于功能层次结构,无监督学习学习法的特点,有很多隐藏层的所有优秀的人工神经网络的学习能力的特点,学习特点的本质特征的数据通过数以百万计的音乐是用于研究的特点。因此,让机器自主选择更好的音乐特性来描述音乐和情感之间的关系。

数据可用性

原始数据支持了本文的结论将由作者提供,没有过度的预订。

的利益冲突

作者宣称没有利益冲突的这方面的工作。