研究文章|开放获取
邹Cairong,张欣然,赵咋Cheng Li, ”小说DBN Cross-Corpus语音情感识别特征融合模型”,电气和计算机工程杂志》上, 卷。2016年, 文章的ID7437860, 11 页面, 2016年。 https://doi.org/10.1155/2016/7437860
小说DBN Cross-Corpus语音情感识别特征融合模型
文摘
独立源的特性融合是当前cross-corpus语音情感识别的技术难题。本文的目的,基于深度信念网(DBN)深度学习,使用语音谱图中的情感信息隐藏(谱图)作为图像特征,然后实现特征融合与传统的情感特征。首先,基于机顶盒/ Itti模型的谱图分析,新谱图特征提取颜色、亮度,和取向,分别;他们使用两个可选DBN模型融合传统和声谱图特征,这些都会增加的规模特征子集和情感的表征能力。通过实验在ABC数据库和中国全集,新功能子集与传统的语音情感特征相比,识别结果cross-corpus,明显进步了8.8%。特征融合的方法提供了一个新想法的情感识别。
1。介绍
近年来,更关注情感识别的研究。演讲,作为一个最重要的交流方式,在人类日常生活中,含有丰富的情感信息。语音情感识别(SER),由于其广泛的应用意义和研究价值的智力和自然的人机交互方面1),近年来越来越多的研究者的关注。情感识别系统性能决定了质量信息的反馈和人机交互的效率,而爵士的总体性能取决于特征之间的匹配程度和分类器2]。虽然早些时候时间特性可能不适合当前语料库结构(3],时域上的包含情感信息仍保留良好的表现能力。为了研究SER整体技术水平,扩展数据库源和搜索合适的融合模型大情感信息数据已成为新的关注(3,4]。
特征层融合集成的数据预处理和特征提取后,很多相关研究(5,6应用于这一领域。通过特定的手段融合等来源的规模特点是增强和扩展数据集。此外,介绍了一些有效的数据分析技术和应用,如神经网络和深入学习。共同特征融合通常用于单一源数据样本。因为不同的情感属性功能是多方面的,cross-corpus识别目前的融合方法的效果并不令人满意。深度学习技术的发展为爵士带来了一个新的方向。使用合适的算法来训练神经网络模型深处,更有价值的特性可以来自多个来源的大量原始数据库(7]。因此,深度信念网(DBN)模型,它是一种常用的模型深度学习区(8),介绍了我们的工作。通过限制玻耳兹曼机(元)9],DBN可以不断调整权重的连接,可以实现有效的融合功能。以前cross-corpus研究依赖传统的全球超音段的声学特性,通常用于情感识别技术(10]。自情感SER特性有很大的意义,探索新功能促进SER的发展cross-corpus研究不可替代的作用。因此,本文引入了一个新的情感特征分类基于视觉注意力机制。新的特征空间包括三种图像向量:颜色,亮度,和方向。特征提取声谱图连接时间域和频率域,所以他们为cross-corpus SER研究有重要的意义。研究的新方向,使用光谱图的情感特征(4,5其整体信息)的优势。集成特性与传统的声学特征可能结合全球和时间特性,它补充原始特征空间。
本文主要研究了基于DBN的特征融合方法的融合光谱图的特性和声学全球SER特性。节2选择性注意机制,与时频域特征提取相关特征而情绪识别能力进行了分析。然后在节3基于DBN融合方法在功能层面上,另一个DBN(所谓的DBN21)功能融合层模型提出了融合提取声谱图特征。之后,获得近似最优特征子集为克服相邻帧之间缺乏识别能力的差异,通常出现在传统的特征融合方法。此外,至于cross-corpus情况下,修改DBN网络模型(所谓的DBN22)是专为光谱图融合特性和声学特性。节4,仿真实验证明四个数据库,提出了融合方法的特点有效改善cross-corpus SER系统的性能。
2。基于选择性注意的声谱图特征提取
光谱图,即语音谱图,基于时域信号处理,横轴表示时间,纵轴代表频率,和中点的深度图的颜色代表相应信号的强度。光谱图是一种时域和频域之间的通信,这反映了两个域的相关性。因为谱图的视觉表达演讲的时频分布能源(11),它包含特征信息,比如能源和共振峰。在我们的研究中,基于机顶盒/ Itti模型(12),选择性注意功能取向,颜色和亮度的谱图提取作为SER的新特点。同时,特征的降维与优化是由提出DBN模型。然后改进学习内核K最近邻居算法基于特征线质心(kernel-KNNFLC) [13)分类器进行了实验。结果表明,提取的特征具有更强大的情感识别的能力比他们的对比。光谱图特征提取过程与选择性注意机制和SER DBN图所示1。
2.1。光谱图特征提取
谱图的计算公式如下:
代表输入信号,代表了汉明窗函数,窗口长度。图2是演讲的声谱图从一块中提取标记“咄咄逼人”的情感ABC语料库。
2.2。高斯金字塔分解
基于选择性注意机制,区域很容易得到人们的关注,通常有强烈的差异比周围地区(14]。可以解决多尺度多通道滤波和线性高斯卷积操作内核。一个使用高斯内核。高斯金字塔分解后生成图像公式(加仑日)如下: 在哪里表示层数和是层分解后的图像,是原始图像。多尺度多道过滤后,进行特征抽取,每个规模的形象定位、颜色、亮度,然后形成序列图像,分别。
在视锥感光细胞反应水平,模型是三色机制。然而,在选择的过程中信息中心选择在大脑中,它改变成4的主要机制。因此,4主要渠道是Itti模型中定义的。因此,的对抗R- - - - - -G和B- - - - - -Y颜色可以用来模拟所做的卓越贡献是颜色图片。然后计算公式 在公式(3),,分别代表了三种原色:红、绿、蓝。这里有16加仑日图像基于不同尺度图像的颜色特征提取。
加仑日图像亮度特性计算平均归一化后得到,,: 这里有8加仑日图像的亮度。
二维伽柏方向滤波器可以用来模拟视网膜的定向选择机制(15];因此,我们可以利用其卷积与亮度特性的加仑日面向当地的加仑日图像特征。已经证明的角度可以用来表示方向特性: 相应的公式如下: 是定位率的值为1;和分别代表标准差和波长的价值像素和7个像素;的阶段,。32个加仑日取向特性可以通过使用获得的图像共有8级和4方向,2 d伽柏。
2.3。特性矩阵获取和重建
依靠加仑日的颜色和亮度特征提取之前,他们无法吸引选择性注意不够,也需要图像特征的差异对比。这些特性与全球传统声学特性相比,属性,有更好的描述不同的语音样本来源(语言、扬声器包括噪声等)中隐含的情感信息。在我们的研究中应用center-surround计算的计算方法(16]。实验结果表明,这种center-surround方法使模型更可靠cross-corpus SER的鲁棒性。对比特征向量的计算后,依据特征图像可以获得基于合并策略迭代规范化(本地)。 在哪里代表的各种依据特征图像共有7,包括R- - - - - -G和B- - - - - -Y2种颜色的特性,一种亮度特性,和四种取向特性;高斯金字塔的中心规模;和是周围的规模,其中。代表了合并策略与当地迭代规范化(17]。最后我们收到了12个颜色对比,6亮度对比,24 orientation-contrast特征图像。提取的依据特征图像基于语音样本如图3。
一个特征图像是很多线和列,形成总亚区。那么每个次区域取代了它的意思。此外,图像归一化的特征矩阵,这样一个低分辨率图像的特征矩阵是用来描述整个光谱图。特征矩阵的数学表示如下: 其中是特征图像和是矩阵对应的特性,。在这里,是4,是5。和代表特征图像的高度和宽度,分别。然后,是重建获得的特征矩阵向量,功能表现cross-corpus爵士将在随后的实验进行验证。
3所示。SER DBN特性融合模型
深度信念网基于统计力学模型,即通过能量函数和概率分布函数来描述。能量函数可以反映系统的稳定性。当系统处于有序状态的概率分布强烈集中,系统的能量很小。相反,如果系统障碍和概率分布是均匀的,系统可能更大的能量。DBN模型形成一个多层堆栈遏制,就像建造一栋建筑。疟疾是积累层和评估一个接一个从底部到顶部。每一层的训练是独立而顶部遏制self-associative内存的信息显示更低。最终的误差反向传播(BP)算法应用于微调重量。顶部的DBN, kernel-KNNFLC分类的分类器连接。
3.1。限制在DBN玻耳兹曼机
玻耳兹曼机(BM)是一种随机神经网络模型,它是由两部分组成:可见光和隐藏层。尽管BM无监督学习能力强和可以学习的复杂规则数据,训练时间是巨大的长。为了解决这个问题,Smolensky提出了遏制,结构如图4。
(一)BM
(b)元
模型图表明,它是不存在的内部可见层和隐层之间的联系的遏制,房地产的:如果隐藏单位的状态,激活单位可视层是条件独立的,所以,如果隐藏的单元号和层可见的遏制和分别哪些状态向量和根据给定的状态,能量可以定义如下: 在这和可见单元的偏差值吗和隐藏的单元分别为,表示连接的重量和。在这里在遏制作为整个参数集。确定参数集时,联合概率分布可以根据公式(获得10),如以下公式所示: 在这里被称为配分函数。因为,与单位被遏制了,激活状态之间隐藏的单元是独立的,如果是在一个给定的单元状态,激活的概率和可以得到如下:
3.2。基于对比散度的快速学习算法
吉布斯抽样算法是基于马尔可夫链蒙特卡罗(密度)策略18]。通过条件概率分布的重量,可以从任何国家开始,该算法实现了迭代采样为每个组件。吉布斯抽样方法获得的概率分布,这常常需要使用大量的抽样步骤。特别是在高维数据,模型的训练效率可能会极大的影响。因此,辛顿提出了一种快速学习算法称为元对比差异(CD) [19]。与吉布斯抽样不同,这种方法(CD)使用训练数据初始化和需求步骤(通常)获得一个令人满意的近似。初的CD算法,可见单元状态设置为一个训练样本,然后公式(12)是用来计算的单元状态隐藏层。在那之后,的概率圣单位隐藏值等于1可以根据公式计算(12)。,可见层的重构。
培训组织遏制的任务是让参数。对数似然函数是通过训练集参数集的最大化,这可能符合给定的训练数据。如果训练样本的数量,有 然后,随机梯度上升方法用于寻找最优参数方程(最大化12):
在公式(13)是计算数学期望的分布。第一项的公式可以由训练样本,在以下项目需要隐藏或显示单位的联合概率分布。然后,计算分布函数不能直接计算,抽样方法(如吉布斯抽样)介绍了近似相关的值。当使用“数据”的标签和“模型”隐藏或显示单元的偏移公式(13)是和重量是分别和连接。然后偏导数可用:
基于的标准公式(14),随机梯度上升的方法被用来最大化对数似然函数的值在训练数据。因此,更新的标准参数 在这学习速率和吗代表一步重构后定义的分布模型。
从上面的内容,遏制算法的训练过程分为几个步骤:(1)首先,初始化的疟疾行动是必要的。因此,主要包括以下内容:样本训练集;神经元的数量包含在隐藏层,可见层神经元的数目;连接的重量可见和隐层;单位的偏见和可见和隐层;的学习速率和培训周期;算法步骤的数量。(2)快速采样进行基于CD-k算法。进而,根据每个参数的更新,刷新参数集的价值。(3)重复抽样过程在整个训练期间,直到收敛公式(12)。
3.3。DBN21和DBN22模型
根据疟疾,两种DBN模型,分别DBN21 DBN22, SER实验跨数据库的结构。如数据所示5和6,()DBN21模型提出了不同层特征融合与传统声谱图特征和声学特性(国际通用的提取方法中提到的部分4.1。3);()DBN22模型集成的谱图和传统声学特性的功能层。因为SER的语音情感特征提取实验是实数数据,并不适合应用二进制元建模。因此,我们选择了Gaussian-Bernoulli遏制(GRBM) [20.)建立结构底部。GRBM的能量函数
公式(16)代表的高斯噪声方差可见神经元。由于能量函数的变化,也改变了条件概率,必须修改
如图6,输入视觉、隐藏层和输出表示为蓝色,红色,和绿色的彩色的轮,分别。重组的模型表明,DBN22输入有两个表示(尽管实际上DBNN21和DBN22有相同的结构特征向量结合一次)。DBN22网络模型的训练过程是按照以下步骤进行。
()无监督学习的初始化是必要的培训。初始化过程一步一步完成每一层由多个元按照自下而上的顺序。
首先,从传统中提取特征向量特性被认为是视觉第一层左侧遏制;光谱图的特征向量是视觉第一层右侧的遏制。然后,cd算法为每一层的重量训练,用和。根据获得的权重和输入层,可见加权求和的所有输入节点上进行。然后,隐藏层和可以通过映射(21]。
在那之后,和是视觉的输入层在二元。重量也在cd训练,连接可以获得。然后,隐藏层根据输入获得视觉层和重量吗。
()深层信念网络构成。训练有素的遏制的自上而下的顺序是一层一层地重叠,如图6。至上的遏制是双向连接的形式而其他人被自上而下地连接。
()添加了kernel-KNNFLC分类器分类的上方。
(调整网络权值。在获得最终的网络参数,调整是必要的训练结果和BP算法权重可能更准确。
DBN21模型的训练过程类似于DNB22,而底层元只有DBN22的左半部分。DBN的数据生成过程是通过顶部元吉布斯采样和传输完成从上到下。吉布斯抽样的遏制分为多个交替的过程,这使得获得的样本分布平衡。然后,生成的数据是自上而下DBN网络。这种方式有效地节省cross-corpus样本的特征信息,以提高SER系统的鲁棒性。权重调整的操作pretraining后进行。然后,基于误差反向传播的方法,标签数据是用来调整权重。这种策略搜索权重空间在运行的过程中,可以有效地加快训练速度。
4所示。实验结果和分析
4.1。实验准备
以下4.4.1。设置的实验
在本节中,聚变实验分为三个部分。首先,DBN21模型是用来进行层融合爵士整个数据库、功能的传统声学(见部分4.1。3)。然后,实验的结果与传统的特性没有DBN融合和这个实验小组被标记为融合1。DBN21模型用于提取声谱图特征层融合基于选择性注意机制。也没有DBN的特性融合的研究结果进行比较,这表明cross-corpus SER能力。这组实验被标记为融合2。最后DNB22模型提出了融合传统和声谱图特征。实验结果与融合1和融合2。证明DBN22具有显著改善性能的特性融合爵士,被标记为这组实验融合3。
4.1.2。数据库设置
选择适当的情感数据库也是语音情感识别的一个重要组成部分。在我们的研究中,我们选择了一个常见的语音情感数据库:ABC(飞机行为语料库),这是记录在德国(22]。此外,深度学习技术适用于大量数据集的情况,尽管国际经典数据库通常拥有更少的样本。同时,为了验证融合方法的效果在中国语音数据库,两个中国全集广泛研究在中国国内介绍和总和。以下是简要介绍3数据库,分别。
ABC得到度假飞机飞行的背景中预先录制的公告。飞行场景和10返回的场景包含13个即将到来的旅行。八个选择针对性的乘客通过设置条件:假食物,飞机导航动荡,睡眠,与邻居交谈。在这个过程中11.5个小时的视频与431多的声音,共计8.4秒长度的记录。最后收集到的部分是独立的分析了三个专业人员,然后选中的样品标签按照“积极”,“很有趣,”“兴奋”,“紧张”,“中性”和“累”6种情感类别。
中国语料中使用我们的SER实验包括两个数据库记录的诱导和言论行动,分别。其中一个是中国数据库(CNDB)由水声信号处理的重点实验室在东南大学。它由两部分组成:实用语音情感数据库(23)和耳语情感数据库(24]。声明材料的实际语音情感数据库记录通过表演者表演的或广播经验(8 8男性和女性,年龄在20到30年,而最近一冷,标准普通话)。录音室内环境是安静。为了保证质量的情感语料库,主观听力评估。超过85%置信系数的选择语句总共1410从男性演员和1429的女演员,包括六种基本情感类别:“肆虐”“恐惧”,“快乐”,“中性”,“悲伤,”和“惊喜。“耳语数据库包含“快乐”、“愤怒,”“意外,”“伤心,”和“安静”等五种情感。然后,演讲材料分为三种类型:单词,短语,和长句子。语料库包含25个字,20短语,每个情感类别6长句。每一位发言人重复低语3倍和1次正常的声音(后来比较),形成9600语句。低声讲话的研究数据库具有重要意义:进一步提高人机交互能力,结合语义判断人的内心活动,并帮助电脑真正了解运营商的思想、感情和态度。低声的情感特征的分析和处理语音信号的判断有重要的意义,而模拟的情绪状态从扬声器在理论和应用程序。
根据录音标准语料,两名中国数据库合并,最终形成7839 -中国声明CNDB全集。录音使用mono、16位量化和11.025千赫采样率。的选择语句遵循两个原则:)选择的语句不包含一个特定的情感倾向;()语句必须有高情感自由,它可以产生不同的情绪在同一语句。
另一个中国语料库的语音情感数据库是中国科学院自动化研究所(CASIA) [25]。数据库是中国的语言,由四个演员。数据库包含1200语句和情感分为6类:“生气,”“恐惧”,“快乐”,“中性”,“令人惊讶的是,”和“悲伤”。
为了验证本文提出的方法的有效性,在每组实验中两种方案(我和案件)采用分别进行测试。根据情感理论轮(26),共同或相似的四个基本情绪的三个选择数据库、“愤怒(咄咄逼人,激烈),”“快乐(快乐,觉得有趣),”“惊喜(兴奋,惊讶)”和“中性”,选择实验评估。因为DBN模型可以显示融合的有效性条件下大量的数据,我们合并3中国语音情感全集成一个叫做中文数据库。在情况下,我数据库,普通话作为训练数据集(标签),而ABC(未知标签)是作为测试集。该方案采用旋转的cross-corpus SER实验测试方法:数据集分成10份,培训/测试的比例是9:1。这10倍交叉验证的设置是为了优化参数在语料库[来源10]。交叉验证后,平均得到的结果cross-corpus实验。在案例二世,ABC语料库(标签)是作为训练集,而中文数据库(未知标签)是作为测试集,因为德国ABC语料库的样本数量少,样本平衡语料库的SER评价的过程中,我们加入一个汉语的一部分样品(45%是最佳的测试、标签)到ABC样本作为训练集,其余的中文样本(55%全集,未知标签)作为测试集。
4.1.3。设置的特征参数和分类器
关于传统的声全球功能,常见的工具openSMILE用于特征提取的工具数量设置为1 (27]。然后Interspeech 2010 SER竞争的特性集28),其中包含1582维特性,介绍了在我们的实验。38声低级描述符(lld)及其一阶差异。通过统计中包含21类函数lld(16特性与0信息删除),我们添加的数量和长度F0特性集。对比组没有融合,功能设置中直接提取LDA进行降维,使其尺寸匹配融合实验组。
本文采用kernel-KNNFLC分类器识别实验,可验证的SER能力融合功能。根据重力中心标准,Kernel-KNNFLC学习样本距离和提高K邻居与内核学习方法。分类器优化区分类型的情感特征向量,这解决了问题造成巨大的计算之前样品的特性。cross-corpus样本训练的基础上,建立了识别模型,然后不同的情感分类是有区别的。高斯径向基核函数(RBF)用于分类器:,在这。KNNFLC分类器基于内核对高维数据SER性能稳定。此外我们的实验使用四种语音情感,所以尺寸降至3实现最好的识别率。这是由于广义特征值的解决原则:优化时达到最小数量的特性是解决。与K最近邻居算法基于特征线重心,提高RBF核函数和最优值(13]。
4.2。传统的全球声学特征融合实验(1)融合
的目的融合1是比较融合功能与DBN21特性没有DBN,以便cross-corpus识别性能熔解的传统特性可以透露。提取的DBN21模型的声学特性作为输入。然后由DBN优化过程。之后,结合kernel-KNNFLC分类器之前介绍过的,情绪识别任务上进行交叉数据集。
疟疾行动学习速率的设置应该是温和的,因为太大或太小利率都将增加重建误差。GRBM学习速率的底层融合1是设置为和培训周期设置为。设置为上层遏制和。可见层单元和输入数字以来的尺寸都是一样的,输入单位数量的层在实验中可见和上层的数量设置为隐藏的单位。重量是根据高斯随机向量。隐藏或显示单元的偏见和。由于中间层隐藏单位的数量可能会影响系统性能,因此我们列举6个单位的数字对比实验:250、500、750年,1000年,1250年和1500年,为了确定最优数量的隐藏的单位。实验对比结果如图7。
图7显示和隐藏节点数量的增加,系统的识别效率增长。然而,节点数量的增加可能会导致额外的计算量。很明显,当节点数量从750年到1000年,识别率大大提高,然后它是稳定的。在此考虑的时间消耗和准确性,隐藏节点的数量融合1设置为1000。
语音情感识别实验通过DBN21模型提出了进行。在我们的测试策略,旨在ABC和中文数据库,是验证算法的鲁棒性cross-corpus SER的任务。对每一种情感在两跨数据库的情况下,识别利率之前和之后的传统特征融合表所示1。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
实验结果表明优化后的传统功能DBN。情感识别能力大大提升,平均识别率上升了4.6%。它揭示了DBN模型提出了功能层是有效的SER特征融合的研究。训练后在ABC和中文数据库情况下,我SER的ABC测试普通话训练集达到52.2%。其中“快乐”和“中性”最高达到63%以上,其识别效果优于案例二世。它与许多类似的样品在3训练语料。通过大量的情感深度学习训练在各种类别的数据,模型变得非常成熟,传统的情感类别的匹配度高的句歧视(“快乐”“中性”)很高。两个实验方案的比较表明,在ABC产生少量的训练样本信息不足。因此,在大型语料库的数据可能会导致undermatching进一步测试模型。
4.3。光谱图特征融合实验(融合2)
的主要目的融合2是验证cross-corpus特征光谱图的有效性。特性集抽象是基于摘要介绍了选择性注意机制。为了反映促销跨数据库的识别性能,实验结果后DBN21融合与传统特性进行比较融合1。
一样的融合,GRBM学习速率的底层融合2是设置为和培训周期设置为;设置为上层遏制和。但输入单位数量的层是可见和上层的数量设置为隐藏的单位。重量也;与此同时,隐藏或显示单元的偏见和。在考虑,隐藏节点的数量在层疟疾行动可能会导致系统性能的影响;这个实验还需要讨论隐藏节点的数量。节点数的分析在传统功能如图8。
在图所示的关系8,它有别于传统的特性实验;光谱图特征的识别效率大大提升750点位置的隐藏节点。这是由于传统的声学特性的谱图相比,具有更高的输入维度,因此,在光谱图特征融合的实验中,隐藏节点的数量在底部设置为750元。
根据爵士在特征层融合模型,基于选择性注意如图1,cross-corpus实验进行。在融合2、美国广播公司和中国cross-corpus测试数据库交叉培训。SER混淆矩阵情况下,我由DBN21融合模型如图9。
从实验结果可以看到,谱图特征提取整体具有很强的语音情感识别的能力。相比传统的特征,光谱图展品优势在处理交叉数据集的任务。这是因为传统的功能只包含当地常见的语音处理领域的特征,光谱图,从时域和频域方面的抽象,包含相邻帧之间的信息和时间特性可以弥补缺乏全局特性。在光谱图特征,与此同时,传统的全球特性相比,级联向量具有更高的维度为描述情感包含更多的信息。其中,“快乐”、“愤怒”,和实验结果与传统相比显著提高融合功能。它表明,谱图的特性有一个相对更好的区别影响情感类别高频域相关的依赖。
4.4。DBN22特性融合实验Cross-Corpus(融合3)
在实验融合3DBN22模型,我们进行特征层融合传统的全球声学特性和光谱图特征基于选择性注意。之后cross-corpus kernel-KNNFLC结合SER系统实验。该方法集成了图像特征和声学特性,这是一种新型的数据源的新尝试语音情感识别领域的延伸。同时,实验证明,因此融合方法的特性可以显著帮助提高SER性能跨数据库。
设置的遏制融合3是:GRBM学习速率的底层是设置为和培训周期设置为。设置为上层遏制和。可见层单元和输入数字以来的尺寸是相同的,因此,输入单位数量的可见层声学和声谱图特征和,分别。上的数量设置为隐藏的单位。重量是根据高斯随机向量。隐藏或显示单元的偏见和。由于中间层隐藏单位的数量可能会影响系统性能,根据两个融合实验,隐藏的单位数字元声和声谱图特征是1000和750,分别。
跨数据库SER实验后,传统声学和声谱图特征融合的特性获得了基于DBN22网络。然后识别结果而DBN21团体融合1和融合2在吧台(使用情况下,我cross-corpus设置(见图)10)。
在图的分析10、跨数据库识别效率的熔融特性融合3是最高的。特别是“快乐”、“愤怒”、“惊喜”,和“中性”4情感类型与传统组相比增长12.6%,1.8%,11.6%,和12.6%,分别;促进平均识别率为8.8%。相对于谱图特征,结果增加了5.8%,5.8%,6.6%,和5.8%,分别和海拔平均识别利率高达6.5%。DBN22融合的两种特性得到良好的识别效果在所有的情感类别。结果受益于遏制功能融合层的优化堆栈的DBN网络,同时也有因素的分类器和网络参数的设置。实验表明,DBN网络模型提出了成功获得传统的声学特征的融合特征和谱图的信息图像,而与此同时有效改善cross-corpus SER系统的效率。
5。结论
本文主要研究了特征层融合模型在语音情感识别的DBN的力量。首先,基于选择性注意机制,系统提取三种光谱图特征与时间信息和全球信息,用于cross-corpus SER。声谱图特征介绍了解决信息损失的问题,传统的特征选择方法。此外,这是一个补充下情感信息跨数据库的类型。然后,修改后的DBN模型提出了合理优化高维光谱特性,保留有用的信息,提高cross-corpus SER系统的鲁棒性。在随后的仿真实验,DBN21 DBN22模型设计中使用的特征层融合光谱图和传统的声学特征。此外,比较实验结果与基准模型。通过实验在跨数据库包含三个中国公司和德国将军,DBN网络与多层元证明作为cross-corpus健壮的特征层融合模型。谱图特征,同时,有利于提高验证情感特征融合后区分能力。本文深入学习的基础上认为,DBN22模型提出有效融合光谱图和传统声学情感特性。 This progress realizes the features fusion of various data sources and provides a new direction for further research of SER in cross-corpus.
相互竞争的利益
作者宣称没有利益冲突有关的出版。
确认
这项工作一直支持中国的国家自然科学基金(国家自然科学基金委)拨款61231002和61231002号。
引用
- s . g . Koolagudi k . s . Rao,“语音情感识别:审查。”国际语音识别技术杂志》上,15卷,不。2、99 - 117年,2012页。视图:出版商的网站|谷歌学术搜索
- Ramakrishnan s和i . m . m . El Emary“人机交互语音情感识别方法”,电信系统,52卷,不。3、1467 - 1478年,2013页。视图:出版商的网站|谷歌学术搜索
- e·马奇a . Batliner b舒乐问et al .,“演讲、情感、年龄、语言、任务和典型性:试图解决性能和功能的相关性,”学报》国际会议隐私、安全、风险和信任(帕萨特的12)和社会计算国际会议(SocialCom 12),第968 - 961页,2012年。视图:谷歌学术搜索
- c . Parlak b Diri, f . Gurgen“语音情感识别cross-corpus实验,”学报》国际研讨会上演讲,语言和音频多媒体(大满贯14)58 - 61页。槟榔屿,马来西亚,2014年。视图:谷歌学术搜索
- m . El Ayadi、m . s .卡迈勒和f . Karray”语音情感识别:调查功能,分类方案,和数据库,”模式识别,44卷,不。3、572 - 587年,2011页。视图:出版商的网站|谷歌学术搜索
- 金,p·g·乔治奥李,和美国时称,“实时情感检测系统使用演讲:多模式融合不同的时间尺度特性,”IEEE 9日学报》国际研讨会上多媒体信号处理(MMSP ' 07)页48-51克里特岛,希腊,2007年10月。视图:出版商的网站|谷歌学术搜索
- k·汉、d . Yu和Tashev,“语音情感识别使用深层神经网络和极端的学习机器,”学报》第15届年会的国际言语交际协会(Interspeech 14)新加坡,页223 - 227年,2014年9月。视图:谷歌学术搜索
- c . h . Lee Ekanadham, y Ng,“稀疏的深度信念网模型的视觉区域V2”先进的神经信息处理系统,第880 - 873页,2008年。视图:谷歌学术搜索
- 诉Nair g·e·辛顿,“修正线性单位改善限制玻耳兹曼机,”学报》第27届国际会议上机器学习(ICML 10)2010年6月,页807 - 814。视图:谷歌学术搜索
- 舒乐问,z, f . Weninger et al .,“为cross-corpus选择训练数据语音情感识别:prototypicality与泛化,”学报》第27届国际会议上机器学习(ICML-10 11),第814 - 807页,2011年。视图:谷歌学术搜索
- t·a·兰伯特和s e m·奥基夫“跟踪检测的谱图图像”,模式识别,46卷,不。5,1396 - 1408年,2013页。视图:出版商的网站|谷歌学术搜索
- a . Borji d . n . Sihite和l . Itti”定量分析人类模型的协议在视觉特点建模:比较研究,“IEEE图像处理,22卷,不。1,55 - 69、2013页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- x x张c .查徐,p .歌曲,和l .赵”语音情感识别基于LDA + kernel-KNNFLC”,东南大学学报(自然科学版),45卷,不。1,第5 - 11页,2015。视图:出版商的网站|谷歌学术搜索
- o . Kalinli r·陈,“语音音节元音/电话边界检测使用听觉注意线索,”谷歌的专利,2014年。视图:谷歌学术搜索
- y太阳和r·费舍尔“计算机视觉对象的视觉注意力,”人工智能,卷146,不。1,第123 - 77页,2003。视图:出版商的网站|谷歌学术搜索|MathSciNet
- c·史蒂文斯低质粗支亚麻纱,d . j .甜菜j . Currin d·帕里和h·内维尔”检查高危幼儿园小朋友注意力和指令的作用:选择性听觉注意前后的电生理措施早期识字干预,”学习障碍杂志》,46卷,不。1,第86 - 73页,2013。视图:出版商的网站|谷歌学术搜索
- g . Evangelopoulos a . Zlatintsi a Potamianos et al .,“多通道特点和融合电影总结基于听觉,视觉和文本的关注,“IEEE多媒体,15卷,不。7,1553 - 1568年,2013页。视图:出版商的网站|谷歌学术搜索
- a . Smith, a Doucet n . de Freitas et al。序贯蒙特卡罗方法在实践中施普林格科学与商业媒体,2013年。
- g·e·辛顿”,培训产品的专家通过最小化对比差异,”神经计算,14卷,不。8,1771 - 1800年,2002页。视图:出版商的网站|谷歌学术搜索
- 联合。穆罕默德,t . n . Sainath g .达尔b . Ramabhadran g·e·辛顿和m . a . Picheny“深层信念网络电话识别使用区别的特性,”美国第36 IEEE国际会议音响,演讲,和信号处理(ICASSP 2011),页5060 - 5063,布拉格,捷克共和国,2011年5月。视图:出版商的网站|谷歌学术搜索
- y曹和中州。赖”,广义最大后验振幅谱估计的语音增强,”言语交际卷,76年,第126 - 112页,2016年。视图:出版商的网站|谷歌学术搜索
- b .舒乐问d . Arsic g . Rigoll m·威默和b . Radig“视听结合行为建模的功能空间,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 07),页2 - 733 - 2 - 736,檀香山,夏威夷,美国,2007年4月。视图:出版商的网站|谷歌学术搜索
- 黄,y, y赵et al .,“设计和建立实用的语音情感数据库”,声学技术卷,29号4,第399 - 396页,2010年(中国)。视图:谷歌学术搜索
- 赵y, y,黄c . et al .,“设计和建立中国低声讲话情感数据库,”技术声学,没有。1,第68 - 63页,2010。视图:谷歌学术搜索
- 中国科学院自动化研究所选择的语音情感的数据库中国科学院自动化研究所(CASIA), 2010年,http://www.chineseldc.org/resource_info.php?rid=76。
- Banziger t、诉Tran和k·r·谢勒“日内瓦情感轮:情绪反应的口头报告的工具”海报在ISRE卷,149年,页149 - 271,巴里,意大利,2005年。视图:谷歌学术搜索
- f . Eyben m . Wollmer b .舒乐问,“Opensmile:慕尼黑多才多艺的和快速的开源音频特征提取器,”学报18 ACM国际多媒体会议10(毫米),页1459 - 1462,佛罗伦萨,意大利,2010年10月。视图:出版商的网站|谷歌学术搜索
- b .舒乐问s Steidl a Batliner et al .,“2010年INTERSPEECH副语言的挑战,”国际演讲和交流协会学报》(INTERSPEECH 10)Makuhari,页2794 - 2797年,日本,2010年。视图:谷歌学术搜索
版权
版权©2016邹Cairong等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。