文摘
为了建立一个有效的和有效的深质量识别模型,决策融合方法利用浅层学习和深度学习的优点是制定。在文献中,浅学习与音乐相关的质量是一个传统的识别方法,即人工统计特征提取和识别的设计。与此同时,我们的深度学习模块利用所谓的PCANET网络实现特征提取过程,随后以描述与音乐相关的谱图信息为网络的输入。首先,各种各样的任务分类的音乐信号问题存在分歧。后来,深度学习的优化和采用音乐特征提取和序列的两个主要问题建模。最后,提出了一种音乐应用程序来说明深度学习在音乐质量评价的实际应用。肤浅的学习特点和深层学习功能无缝地结合到支持向量机模型对音乐质量建模,根据微分投票机制杠杆实现决策融合层。大量的实验结果表明,该音乐质量识别率的方法可以显著改善我们自己编译的库和柏林数据库。除此之外,它与竞争对手相比表现出明显的优势。
1。介绍
音乐质量分析是模式识别领域的一个研究热点。它已成为一个不可或缺的技术发展的新的人机交互系统和人工智能1]。音乐质量评价技术主要可以分为三个阶段:语音信号采集、特征提取和质量分数计算(2),其中的关键模块是特征提取和质量分数的计算。研究人员对声学特征提取进行了详细的分析和研究在过去几十年。声学特性主要包括韵律特征、频域特征,和声音质量特性(3]。这些特性中扮演关键角色在传统音乐质量识别中,结合其他特性。特征选择算法可以达到优秀的音乐质量识别性能的多个数据集。值得一提的是,研究人员试图结合的声学特征时间和频率域。他们已经提出了一个谱图特征提取方法,该方法应用于语音识别(4和语音情感识别相关领域5]。
的识别模型,从浅层学习支持向量机(SVM) [6隐马尔可夫模型(HMM) [],7)和高斯混合模型(GMM) [8)深度学习卷积神经网络(CNN) (9网络(DBN)[],很深的信仰10递归神经网络(RNN) [],11]。与传统的机器学习模型相比,深度学习可以提取高级特性。它取得了优秀的性能领域的近年来计算机视觉和语音识别。其中,卷积神经网络在音乐质量识别取得了空前的成功,图像识别,和其他领域10]。许多研究人员还介绍了深度学习为SER任务。朱et al。10]杠杆深层信念网络自动提取语音情感特征,结合连续多帧的语音情感特征构造一个高维特性。他们最终输入到支持向量机(SVM)分类。香港et al。12)提取特征基于众所周知的CNN网络,可以大大提高SER情感识别的性能在各种复杂的风景。实验表明,该方法具有较高的鲁棒性和稳定性。廖et al。13)训练的一种改进的CNN模型,它可以提取重要的语音情感特征,从而提高情感识别率。王等人。14)提取的高级功能和应用RNN的音乐质量的预测。它可以实现62%的识别精度IEMOCAP数据库。姚明et al。(15)提出了一种数据预处理算法获取更多的数据通过改变光谱图的大小和输入到AlexNet深层神经网络模型。它获得了平均48.8%的准确性IEMOCAP数据集。(16]研究了前馈神经网络和递归神经网络及其变体适合SER任务。这种技术深度学习的有效性验证结构副语言的语音识别。(17)提出了一种基于语音的音乐质量使用卷积神经网络识别方法来识别谱图特征。更具体地说,灰度提取声谱图特征,随后,伽柏小波和块PCA用于特征提取与降维。这是送入cnn对音乐品质识别和分类,在取得了令人印象深刻的成果。尽管SER深度学习取得了令人满意的结果,传统的语音情感识别(浅学习)在过去仍然是有价值的。肤浅的学习模型训练速度快和一些参数,在此基础上提取的特征是有针对性的。深层学习网络结构复杂,需要大量的训练数据,是复杂和昂贵的调整参数。指出,深度学习不需要手动参数调优和缺乏先验知识的指导。它提出了一个利用浅层学习指导深度学习的方法,这表明浅层学习仍有前所未有的意义。语音情感识别的问题,尽管它是大数据的时代,获得有效的数据是有限的,在小样本数据集和肤浅的学习优势。优势互补是一个值得研究的话题。
本文在此,我们提出一个语音情感识别模型,集成了深度学习和肤浅的学习。我们的方法适用于小演讲。两种识别模型构建:传统语音学习和深度学习framework-PCANET recognition-shallow模型。我们的方法终于提出了两个模型融合形成一层有效的决策。我们提出的研究目标是充分利用浅层学习和深度学习的优点避免缺陷和提高音乐素质识别率和鲁棒性。传统的听觉功能目标,但非常客观。深字母网可以自动提取特征,但是他们会倾向于匹配的数量和参数。通过一个有效的解决液化方法,可以详尽利用获得的增益稳定和崇高的隆多质量注意估值。概述我们的话语无知和深厚的时尚联盟框架呈现在图1。
2。相关工作
2.1。声学特征提取
音乐是用来传递消息,意图,和情绪,是对人类最熟悉的方式来传达信息。音乐有很大的特点,精确和准确的信息。多媒体信息处理技术的发展和计算机数据处理能力的增强,音频处理技术受到关注,被广泛应用于许多领域。语音合成,语音识别的实际应用和说话人识别不断广泛进入生活。与此同时,与音乐有关的技术已成为人工智能的一个重要组成部分,多媒体应用的主要方向之一。音乐信号比语音信号有一个更大的范围,还有很多重要的和有趣的研究方向,如音频场景分析。在过去的几十年里,MFCC已广泛应用于音频分析任务、标准化及其提取步骤。然而,这种方法的缺点是,人为地构造特征可能不是最优为目标的任务。过滤声音信号的本质是将不同的权重,这些权重可以学到的没有人工神经网络设计。深层神经网络能够自动提取功能。 In this way, the above two separation problems can be jointly optimized. Furthermore, through the deep learning method, the steps of FFT transformation and Mel filtering can be discarded. Also, the neural network can directly perform feature learning on the sound sequence, completely abandoning all previous feature engineering operations. In feature extraction, after introducing the deep learning method, on the one hand, the neural network of the frequency domain filter bank can be constructed on the Mel filter bank. If shape constraints are introduced, filter gain, center frequency, and bandwidth are three learnable parameters. For triangular window filters, sigmoid curves and straight lines can be leveraged to fit triangular windows to ensure global differentiability, Gaussian window filter or filter without shape constraint. On the spectral reconstruction task, the unconstrained filter bank performs better, while on the audio scene classification task, the shape-constrained filter bank performs better. Further analysis of the learned filters demonstrates that the learnable filter banks tend to integrate more low-frequency information. Another aspect is to improve an end-to-end audio feature extraction method. For example, the well-known TCNN is proposed that integrates a temporal signal processing unit. It can use temporal convolution + temporal pooling + nonlinear transformation. WaveNet proposes that layer-by-layer neighborhood convolution and temporal pooling nonlinear transformation can be leveraged. It should be observable that the DCT transformation in the conventional method will lose the structural information of different music, so it does not perform well in the deep model. The most widely used features are the log-mel spectrum and the constant-Q spectrum. And the latter one is commonly used in music information retrieval tasks.
2.2。深度学习
深度学习深机器学习架构的深度表示在多个转换的功能。常用的模型是一个多层神经网络。每一层的神经网络将输入一些非线性映射。通过非线性映射的多个层的叠加,非常抽象的功能可以计算深层神经网络进行分类。例如,在卷积神经网络用于图像分析,原始图像的像素值直接输入。同时,第一层的神经网络可以被视为一个边缘检测器,第二个层神经网络可以检测边缘的结合。它可以获得多个基本模块;第三层后,网络将这些基本模块和最后检测目标。深度学习使得没有必要选择和变换分别在许多应用程序的特性。我们只需要输入原始数据到模型,模型将适合分类特征表示通过学习。 The re-emergence of neural networks began in 2006. Hinton et al. proposed the training algorithms of deep belief network (DBN) and restricted Boltzmann machine (RBM). He applied the DBN to handwritten characters recognition, and highly competitive results can be observed. The authors proposed an unsupervised learning method that can be leveraged to initialize the parameters layer by layer, and subsequently the supervised learning method is leveraged to fine-tune the training method of the entire network. This scheme can effectively solve the problem of deep neural network learning. Such a training method can initialize the neural network using an optimal initial value, and it is convenient to converge to a better local extremum. In the following years, deep neural networks became popular and were generalized as “deep learning.” Many deep learning training algorithms were proposed, such as parameter initialization methods, new activation functions, and dropout (discard) training methods. These techniques can better solve the problems of overfitting and difficult training of traditional neural networks when the deep architecture is complicated. Meanwhile, the development of computers and the Internet has also made it feasible to accumulate unprecedented amounts of data to train neural networks in computer vision tasks such as image recognition. In the ImageNet competition in 2012, Krizhevsky et al. proposed the convolutional neural networks to increase the accuracy rate by 10%, which for the first time significantly surpassed the learning mode of hand-designed features with shallow model. It also introduces deep learning techniques in the industry. In 2015, the well-known AlphaGo developed by Google’s DeepMind company utilized the deep learning method to defeat the European Go champion in the Go game. This makes the influence of deep learning increasingly widespread. AI researchers call the current big development of deep learning the third boom of artificial intelligence.
3所示。我们建议的方法
给定一个音乐表示,我们可以分析它通过利用机器学习模型,包括延时,CNN, RNN,他们的衍生品。延时的输入通常是一个一维系数向量,如扁平的MFCC。每个学习中长期规划的全球特性。CNN,有许多类型的声学特性,可以提取。当提取一维声音序列,你可以用1 d CNN对学习和输入一个二维谱图。此外,您可以使用一个2 d CNN学习。CNN的主要特征是,它可以提取当地的相关特性和学习功能,如相邻帧之间的关系,以及相邻的特性(频率维度)之间的关系。此外,CNN的weight-sharing网络结构使其参数小,模型复杂度低。RNN,我们通常模型短期和长期的相关性(依赖性)在时间层面。RNN主要对序列数据有良好的效果,并有很强的时间相关。 For example, the logic before and after speech is a highly informative channel. Usually, CNN and RNN are combined. First, CNN is leveraged to extract high-dimensional features, and subsequently RNN is utilized to characterize temporal correlation. Although RNN performs well on some tasks, there are also other problems. Owing to the long-term dependence of RNN, it is prone to the problem of gradient disappearance. At the same time, it is not as good as CNN on the GPU optimization. Therefore, the training speed is usually a little slow [17]。此外,氮化镓也有许多应用程序在与音乐相关的信号处理,如SEGAN语音增强。甘WaveNet声音代和一些领域的结构声源分离和乐器转换也经常使用。
高功能叙述的深度学习需要大量的训练数据。在音乐处理的领域,开源数据集相关的演讲,如与音乐相关的开源数据集,例如,数据集和MusicNet百万首歌。有环境声音相关的数据集,如AudioSet。除了语音识别领域外,其他与音乐相关的任务面临小开放数据集的问题。我们应该处理这个问题,深层网络的数据不足可能会导致过度拟合。数据增加可以被认为是通过随机分割的概念和随机跳帧,利用基于规则的音频序列扩增方法和使用随机框架跳过。循环神经网络模型利用多个预定义的规则。基于规则的序列扩张段数据按顺序和重组。随机分割增加序列的多样性,增加了数据量。此外,它可以带来显著的性能改进,为了进行肤浅的学习。 The advantages of the deep learning model complement each other, and the decision-making layer fusion method is employed.
支持向量机分类器已广泛应用在小音乐质量评估。PCANET模型取决于支持向量机,可以实现更好的结果(15]。作为一种常用而有效的策略,支持向量机采用投票机制。总而言之,我们在本文中提出了一个有效的微分投票机制基于投票决策。成对SVM分类器之间的差异相结合形成的选票总数,基于类别的最高的选票被视为最终决定类别。使用深度学习特性,支持向量机分类器设置为D-SVM,并使用浅学习是SVM-SVM分类器。我们首先计算两个模型的不同信息。之后,我们选择一个小数量的测试样本在每个类别(10)来测试平均两个模型的识别能力。音乐质量平均识别率 ,投票信息获得的区别是规范化区间 根据质量的识别精度。然后,信息分布的区别:D-SVM。 在 。接下来,我们计算每个模型之间的差异信息类别。“一对一”的情况下,支持向量机分类器识别类别, sub-classifiers。分类器投票对根据每个成对类别之间的距离。为了确保投票的有效性,无效的选票与距离小于指定阈值被丢弃,可以描述如下:(1)计算的阈值(取平均距离值的sub-classifiers样本);(2)放弃投票两个sub-classifiers之间的距离小于 ;(3)计算的最终投票类别 ,在哪里 , 深度学习的第一步。包含有效选票的数量类别,并有效选票的数量吗 - - - - - -类别的肤浅的学习。因此,结果是 。
标准发音的音乐版本属性评价离不开听觉示例的国旗仔细衡量相似性演讲者的发音和叉的颜色。横幅音叉是基于美国语言时产生音乐。同时,颜色层次相对高贵,但评价精度不高,不妨碍的区别在响亮的色彩和时尚的特点。通过这种方式,不能利用听觉质感和经验命令。因此,听觉模式是不自觉地撞在不同程度上保证音乐播放器的准确性对发音性质的评价。在我们的工作中,回归(MLLR)和最大后验概率(MAP)是用于其他发言者,可以反对的程度孪生听觉死了,试金石责骂的事在某种程度上在自己的演讲(3]]。适度克服不匹配的程度也很重要当它是真正有用的英文歌曲的评价排序,但权威的程度仍是重要的听觉设计后妥协。在GMM-based音乐识别中,差异是大举借债的GMM参数。MLLR算法规则改善出现的窄innovation-supported自适应估计样本数据参数。同时,翻译规范听觉设计记录实验的对话,只需要少量的数据获取类事件。映射算法进行了GMM参数估计。它可以用注意更新高斯分布向量自适应体积。它还可以实现更好的结果的大量的数据。因此,为了充分利用两者的优势方案,评价形状被MLLR-MAP模型制备条件。嗯时尚的高斯分布使用相同版本的网时更新所有的参数设定的听觉设计MLLR算法规则。
人们普遍认识到,MAP算法规则是自定义头发分离解决方案的一个例子。为了确保flag-level骄傲之后可以保持听觉设计配置,信息系统自动识别阅读规则。与此同时,它消除了墨鱼节好平的适配器。MLLR-MAP第二适应性听觉假(14采用。这种技术授权美国符号和数字化版本为大胆的分割。它包含了共和党条件等色的记录。部门分数超过预设的标准调整的必然性。这种方法可以实现一个听力叉矫正英语相当于一个会说中文的。通过阈值明显的语音的音乐的声音,我们提供一个面对面的谈话在一个age-common分析。我们也地位提升到英文摘录语音主要标志。自动化和应用建模与仿真技术是适合得分设计签名的幽灵。经验的音乐质量分析规则是用来量化和平等的话语。支持的音乐杰出的声音跟踪实例分析连锁创新。 The objective of the problem is the citation of the utterance ripple entropy form, wherein the rate fitting of the pronunciation-grade utterances, namely:
4所示。实验结果和分析
模拟运输素描终止三个功能:输入音频库,网络传输模型,和扭曲的音频库。影响流媒体音乐行业的主要因素是编码器损坏,网状抖动,和设置损伤,所以担心传输模型体现在编码器,时尚包损伤模型,和抖动。其中,编码器采用AMR-WB低严责编码器适合流媒体传输,和这本书损伤的建议和收缩性设计推导出ITU_T COM12-D97和ITU-T COM12-D98]。论坛使用8编码方法,19发光损失分类和21的抖动。我们用沉默取代不敏感和未交付的包丢包和易怒发生时分裂。根据中国和谐的要求分类过程中ITU-T EV-VBR质量评价和排序优化认证,大气结果分为4类:古典管弦乐队的气氛,公共乐团、acapella将军和流行acapella_5]。登陆选择5氛围的结果,每一个循环15秒,形成一个健全的银行输入。异教徒的口号和可接受的口号,过多的全集的男性和女性的选票导致2男性语言和3女声调。
20证明序列通过48传输条件,分别购买和960排列形成变质血统图书馆。使用Sphinx4地址识别系统为载体,40大学生选择懂英语话语为主体的听觉适应计划。所有的学生选择20个句子的主要文本和解释一种颜色的声音,甚至多达选项。英语语音语音数据库管理系统主要包括70个大学生单词。坏的估计和套接字的学生是相等的,但也有明显的差异来说稳定。所有学生申报的意义20全集,大约每10个账户。三名高级英语专家聘为法官判断口才方面的真实性的发音特点,流利的口才,言论和完整性。人类得分的一个重要基础教练的账户,必须首先征收。以无功功率互惠为评价指标,通过种植W得分手,表中给出的分数计算1。
从表可以看出2,低程度的决策水平和福音级别是0.84和0.79,分别表明键盘有一个坚实的得分和可以作为主要的信使形状。20%是随机选择从地址数据库管理系统作为测试集,和其他运动尴尬。我们计算试金石事件和人类之间的关系分级推理和选择之间的类比五倍打破验证测量和分解机器平整过的成绩雪道。从每个录制音乐声学特征提取。我们注意到每个记录特性和识别广泛的行为试图联合分析的SVR得分模式。音乐的发音准确性经验来源如表所示2。从表可以看出2那块石头障碍程度和共和党是最好的评估标准,并能有良好的评价能力独立应用,主要是因为共和党分数是奶油。两者之间的相关性是一个很好的反驳的发音的真实性,可以正确的关系清晰的意义和说话者的直率。
在回应的命题PEAQ不能强迫一个中等评价的流媒体音乐,我们提出了一个PEsAQ指标对音乐流媒体的质量评价。具体步骤是基于模仿。这可以描述如下:(1)Prealign清新的音乐,随后把安静的音乐片段之前发明的音频。(2)设计一致性模型和进一步行动的障碍和易怒的扭曲的音乐通过对齐的进步。(3)一方面,我们使用PEAQ评估正确的配置和扭曲的音乐片段和PEAQ的评价结果。另一方面,MFCC参数的后裔音频和音乐部分线性变形,变形的DTW拟合两个是最短的距离6]。(4)客观原因UDTWoDG符合DTW通过类比,DTW与主观评分的最小距离。我们获得了DG音乐的护照获得主观评价的操作DG的音乐。对齐模型原始按计划和畸形的音乐帧对齐。在此,我们进行了斜perve支持保留FFT之间关系。
5。结论
本文设计了一种自适应音乐质量评价的评价框架。首先,提出了职业的音乐评价体系。第二,语音特征的自适应评估设计和验证向量回归算法改进,和知觉校对设计基于分类评价。最后,音乐的质量评价标准的适应性,进一步提出了实证评估。上升表明,系统能够准确地评估从不同的环境音乐的质量记录。这可以显示歌手的水平和技巧。我们也注意到,不同的声学特性之间的非线性关系和签名保证了准确性和一致性的音乐质量评价框架。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。