研究文章|gydF4y2Ba开放获取gydF4y2Ba
Lei Lei,她库恩gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba说话人识别使用小波包熵、矢量i和余弦距离得分gydF4y2Ba”,gydF4y2Ba电气和计算机工程杂志》上gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2017年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba1735698gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2017年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2017/1735698gydF4y2Ba
说话人识别使用小波包熵、矢量i和余弦距离得分gydF4y2Ba
文摘gydF4y2Ba
今天,越来越多的人从说话人识别中受益。然而,说话人识别的准确性往往会迅速下降,因为低质量的语音和噪声。本文提出了一种新的基于小波包的说话人识别模型的熵(热电),矢量i,余弦距离得分(CDS)。在提出的模型中,热电转换演讲短期频谱特征向量(短向量)和抵抗噪声。i矢量生成短向量和特征的演讲来提高识别精度。cd相比之下迅速的区别两个i-vectors给出识别结果。该模型是评价TIMIT语音数据库。实验结果表明,该模型可以获得良好的性能在清晰和嘈杂的环境和低质量的演讲并不敏感,但模型的时间成本很高。降低时间成本,使用并行计算。gydF4y2Ba
1。介绍gydF4y2Ba
说话人识别是指识别未知的人从他们的声音。使用语音作为访问的生物系统,越来越多的普通的人受益于这项技术(gydF4y2Ba1gydF4y2Ba]。一个例子是基于语音的自动访问系统。与传统的基于密码的系统相比,该系统更适合老人的眼睛不能看得清楚,数字是笨拙的。gydF4y2Ba
随着手机的发展服务,用于识别的演讲通常是通过电话记录。然而,电话语音是低质量的认可,因为电话讲话只有8 KHz的采样率。此外,环境噪声和信道噪声不能完全删除。因此,有必要找到一个说话人识别模型等这些因素不敏感噪声和低质量的演讲。gydF4y2Ba
在说话人识别模型,演讲首先转换成一个或多个特征向量代表独特信息特定说话人无论演讲内容(gydF4y2Ba2gydF4y2Ba]。最广泛使用的特征向量是短向量,因为它是容易计算和产生良好的性能gydF4y2Ba3gydF4y2Ba]。通常,短向量提取通过Mel频率cepstral系数(MFCC)方法(gydF4y2Ba4gydF4y2Ba]。这种方法可以表示语音频谱压缩形式,但提取的短向量只代表演讲的静态信息。来表示动态信息,融合MFCC (FMFCC)方法(gydF4y2Ba5gydF4y2Ba提出了]。这种方法不仅计算cepstral系数δ衍生品,所以短向量提取通过这个方法可以表示静态和动态信息。gydF4y2Ba
这两种方法都使用离散傅里叶变换(DFT)获取频谱。DFT分解信号为全球频域。如果被噪声频率的一部分,整个频谱将强烈干扰(gydF4y2Ba6gydF4y2Ba]。换句话说,DFT-based提取方法,如MFCC和FMFCC噪声不敏感。小波包变换(WPT) [gydF4y2Ba7gydF4y2Ba是其他类型的工具用于获得频谱。演讲与DFT相比,WPT分解成许多小的频段是相互独立的。因为这些独立乐队,声音不能传播的不良影响在整个频谱。换句话说,WPT抗噪音的能力。基于WPT,小波包熵(热电)[gydF4y2Ba8gydF4y2Ba提出了)方法提取短向量。参考文献(gydF4y2Ba8gydF4y2Ba- - - - - -gydF4y2Ba11gydF4y2Ba]表明,短向量提取的热电制冷是噪声不敏感。gydF4y2Ba
矢量i是另一种类型的特征向量。它是一个可靠的方式来表示的一次演讲中使用单一高维向量和向量生成的短。矢量i认为两人依赖和背景信息,所以它往往带来良好的精度。参考文献(gydF4y2Ba12gydF4y2Ba- - - - - -gydF4y2Ba14gydF4y2Ba)用它来提高说话人识别模型的性能。特别,gydF4y2Ba15gydF4y2Ba)使用矢量i改善低质的歧视言论。通常,短向量的生成矢量i MFCC提取或FMFCC方法,但我们采用热电制冷提取这些短向量,由于热电制冷可以抵抗噪声的不良影响。gydF4y2Ba
一旦演讲转化为特征向量,使用分类器识别说话人的身份基于这些特征向量。高斯混合模型(GMM)是一种传统的分类器。因为它是快速和简单,GMM已广泛用于说话人识别(gydF4y2Ba4gydF4y2Ba,gydF4y2Ba16gydF4y2Ba]。然而,如果特征向量的维数很高,维度的诅咒将会摧毁这个分类器。不幸的是,矢量i高维向量与短向量。余弦距离得分(CDS)是另一种类型的标识符用于说话人识别(gydF4y2Ba17gydF4y2Ba]。这个分类器使用一个内核函数处理高维向量的问题,所以它适用于矢量i。在本文中,我们使用的cd议长分类。gydF4y2Ba
本文的主要工作是提出一个新的说话人识别模型通过使用小波包熵热电制冷,矢量i,余弦距离得分(CDS)。热电制冷是用来提取短向量演讲,因为它是健壮的反对声音。从这些短向量生成矢量i。它是用来描述用于识别的演讲来提高劣质的歧视言论。cd非常适合高维向量,如矢量i,因为它使用一个内核函数来处理维度的诅咒。为了提高矢量i的歧视,线性判别分析(LDA)和协方差归一化(WCNN)被添加到cd。我们建议的模型是评价TIMIT数据库。实验结果表明,该模型可以处理低质量的语音问题,抵制不良影响的噪音。然而,新模型的时间成本很高,因为提取热电制冷是耗时的。本文计算了热电制冷以并行方式减少时间成本。gydF4y2Ba
本文的其余部分组织如下。节gydF4y2Ba2gydF4y2Ba我们描述了传统的说话人识别模型。节gydF4y2Ba3gydF4y2Ba基于矢量i,说话人识别模型。我们提出一个新的说话人识别模型gydF4y2Ba4gydF4y2Ba,该模型的性能报告gydF4y2Ba5gydF4y2Ba。最后,我们给出一个结论gydF4y2Ba6gydF4y2Ba。gydF4y2Ba
2。传统的说话人识别模型gydF4y2Ba
传统的说话人识别模型可以分为两个部分,如短向量提取和分类。短向量提取将语音转换成短向量和演讲者使用分类器分类给出了基于短向量识别结果。gydF4y2Ba
2.1。短向量提取gydF4y2Ba
梅尔频率cepstral系数(MFCC)方法是传统的短向量提取算法。该方法首先分解演讲到20 - 30帧女士讲话。对于每一帧,cepstral系数可以计算如下gydF4y2Ba18gydF4y2Ba]:gydF4y2Ba(1)gydF4y2Ba带框架的DFT获取频谱。gydF4y2Ba(2)gydF4y2Ba地图的力量使用梅尔滤波器组谱到梅尔规模。gydF4y2Ba(3)gydF4y2Ba计算对数功率谱值映射在梅尔的规模。gydF4y2Ba(4)gydF4y2BaDCT的对数功率谱得到cepstral系数。gydF4y2Ba通常,低13 - 14日系数是用来形成短向量。融合MFCC (FMFCC)方法是MFCC的扩展。与MFCC相比,进一步计算出三角洲衍生品来表示语言的动态信息。衍生品定义如下(gydF4y2Ba5gydF4y2Ba]:gydF4y2Ba 在哪里gydF4y2Ba是gydF4y2Bath cepstral系数MFCC方法和获得的gydF4y2Ba是抵消。gydF4y2Ba是gydF4y2Bath三角洲系数和gydF4y2Ba是gydF4y2Baδ系数。如果短向量由MFCC提取表示gydF4y2Ba,然后通过FMFCC短向量提取来标示gydF4y2Ba。gydF4y2Ba
2.2。说话人分类gydF4y2Ba
高斯混合模型(GMM)是一种传统的分类器。它被定义为gydF4y2Ba 在哪里gydF4y2BaxgydF4y2Ba是一个短向量提取从一个未知的演讲。gydF4y2Ba是gydF4y2Ba在GMM th高斯函数gydF4y2Ba分别是它的均值向量和方差矩阵。gydF4y2Ba高斯函数的权重组合,满足gydF4y2Ba。gydF4y2Ba混合物的GMM。所有的参数,如重量,意思是向量,和方差矩阵,由著名的EM算法估计(gydF4y2Ba19gydF4y2Ba)使用一个已知的演讲者的语音样本。换句话说,gydF4y2Ba代表了已知的演讲者的声音的特点,所以我们使用gydF4y2Ba认识到作者未知的演讲。假设一个未知的演讲用gydF4y2Ba,在那里gydF4y2Ba代表了gydF4y2Ba短向量提取gydF4y2BaYgydF4y2Ba。另外,假设的参数gydF4y2Ba估计使用一个已知的演讲者的语音样本吗gydF4y2Ba。识别被定义为的结果gydF4y2Ba 在哪里gydF4y2Ba事先决定阈值,应调整以获得最佳的识别性能。如果gydF4y2Ba,那么GMM决定作者未知的演讲并不是已知的演讲者gydF4y2Ba;如果gydF4y2Ba,那么GMM决定未知的演讲是演讲者gydF4y2Ba。gydF4y2Ba
3所示。说话人识别模型使用矢量igydF4y2Ba
说话人识别模型使用矢量i可以分解为三个部分(如短向量提取、矢量i提取和分类。图gydF4y2Ba1gydF4y2Ba显示了模型的结构。gydF4y2Ba
有三种类型的演讲用于此模型。背景的演讲包含成千上万的演讲很多人所说的,已知的演讲是已知的演讲者的语音样本,和未知的演讲是演讲者所说的认可。在短向量提取,所有的演讲都转换成短向量的特征提取方法。i矢量提取的背景短向量用于训练背景模型。背景模型通常是由一个与2048年GMM混合物,和协方差矩阵的GMM假设相同的简单计算。根据已知和未知的背景模型,使用短向量提取已知和未知i-vectors,分别。注意,一个矢量i是指只有一个演讲。在演讲者分类,分类器是用于匹配已知与未知i矢量和矢量i给出识别结果。gydF4y2Ba
4所示。拟议的说话人识别模型gydF4y2Ba
识别系统的准确性通常会迅速下降,因为低质量的语音和噪声。处理这个问题,我们提出一种新的基于小波包的说话人识别模型的熵(热电),矢量i,余弦距离得分(CDS)。节gydF4y2Ba4.1gydF4y2Ba,我们描述了热电制冷的方法和用它来提取短向量。部分gydF4y2Ba4.2gydF4y2Ba描述如何使用上述提取矢量i短向量。最后,介绍了cd的细节部分gydF4y2Ba4.3gydF4y2Ba。gydF4y2Ba
4.1。短向量提取gydF4y2Ba
本文利用热电制冷提取短向量。热电制冷是基于小波包变换(WPT) [gydF4y2Ba20.gydF4y2Ba),所以WPT首先被描述。WPT是当地的信号处理方法,用于获得频谱。演讲它分解成许多当地频段在多个水平,获得频谱基于乐队。离散信号,如数字语音,WPT通常是由著名的Mallat实现快速算法(gydF4y2Ba21gydF4y2Ba]。WPT算法,实现由低通滤波器和一个高通滤波器,所生成的母小波和相应的尺度函数,分别。通过两个过滤器,演讲是迭代分解成低频和高频成分。我们可以使用一个满二叉树来描述WPT的过程。三个结构如图gydF4y2Ba2gydF4y2Ba。gydF4y2Ba
在图gydF4y2Ba2gydF4y2Ba根是演讲进行分析。每个nonroot节点代表一个组件。左子母公司的低频分量,对孩子是母公司的高频分量。左边的分支和分支的低通和高通滤波过程之后,2:1将采样,分别。过滤过程被定义为gydF4y2Ba 在哪里gydF4y2BahgydF4y2Ba和gydF4y2BaggydF4y2Ba分别是低通和高通滤波器。gydF4y2Ba的长度是频率分量的水平gydF4y2Ba。gydF4y2Ba是卷积操作。gydF4y2Ba的总数是分解水平。因为WPT满足能量守恒,每个叶节点表示WPT获得的频段的频谱。WPT的基础上,提出了小波包熵(热电)方法提取短向量,我们添加一个标准化进入体积的方法来减少不良影响。本文使用热电制冷的流程图如图gydF4y2Ba3gydF4y2Ba。gydF4y2Ba
假设有一个数字语音信号具有有限能量和长度。女士首先分解为20帧,每一帧是标准化的。被定义为的标准化过程gydF4y2Ba 在哪里gydF4y2Ba是信号帧和gydF4y2Ba是它的长度。gydF4y2Ba框架和的平均值吗gydF4y2Ba是它的标准方差。gydF4y2Ba是归一化的框架。标准化过程后,WPT分解框架4级别使用(gydF4y2Ba4gydF4y2Ba)。因此,我们最终获得16频段,频率在这些乐队被指示为光谱gydF4y2Ba,分别。对于每个光谱,香农熵计算。香农熵是表示gydF4y2Ba 与gydF4y2Ba 在哪里gydF4y2Ba的能量吗gydF4y2Ba频谱。gydF4y2Ba的能量分布gydF4y2Ba频谱。gydF4y2Ba是每个频谱的长度。最后,所有的香农熵的光谱计算并收集形成特征向量表示gydF4y2Ba。gydF4y2Ba
4.2。i矢量提取gydF4y2Ba
矢量i是一个健壮的特性向量代表一个演讲使用一个高维向量。因为它考虑了背景信息,i矢量通常可以提高识别的准确性(gydF4y2Ba22gydF4y2Ba]。假设有一组演讲。这些演讲是由不同的扬声器和所有的演讲都转换成短向量。i矢量理论,议长——假设和channel-dependent特征向量gydF4y2Ba 在哪里gydF4y2Ba演讲者,channel-dependent特征向量。gydF4y2Ba米gydF4y2Ba是背景因素。通常,它是由叠加背景模型的均值向量。假设背景模型的均值向量用gydF4y2Ba,每个向量是一个行向量。gydF4y2Ba米gydF4y2Ba用gydF4y2Ba。gydF4y2BaTgydF4y2Ba命名的总变异矩阵包含扬声器和代表一个空间——和channel-dependent信息。gydF4y2Ba是一个随机向量有标准正态分布gydF4y2Ba。矢量i的期望gydF4y2Ba。gydF4y2Ba是一组演讲和演讲都转换成短向量。假定一个背景模型gydF4y2Ba初始化背景模型的协方差矩阵。gydF4y2BaTgydF4y2Ba和gydF4y2Ba随机初始化。gydF4y2BaTgydF4y2Ba和gydF4y2Ba估计是一个迭代过程描述如下:gydF4y2Ba(1)gydF4y2BaE-step:每个组的言论gydF4y2BaUgydF4y2Ba计算参数的后验分布gydF4y2Ba使用当前的估计gydF4y2BaTgydF4y2Ba,gydF4y2Ba,gydF4y2Ba米gydF4y2Ba。gydF4y2Ba(2)gydF4y2BaM-step:更新gydF4y2BaTgydF4y2Ba和gydF4y2Ba线性回归中gydF4y2Ba年代扮演解释变量。gydF4y2Ba(3)gydF4y2Ba遍历到的期望gydF4y2Ba是稳定的。gydF4y2Ba的评估过程的细节gydF4y2BaTgydF4y2Ba和gydF4y2Ba在描述gydF4y2Ba23gydF4y2Ba]。gydF4y2Ba
4.3。说话人分类gydF4y2Ba
余弦距离得分(CDS)作为分类器模型。它使用一个内核函数处理维度的诅咒,所以矢量i cd是非常合适的。来描述这个分类器很容易,我们two-classification任务,例如。假设有两个发言人表示gydF4y2Ba和gydF4y2Ba。两位议长分别讲话gydF4y2Ba和gydF4y2Ba演讲。所有的演讲都是由i-vectors,用表示gydF4y2Ba和gydF4y2Ba,在那里gydF4y2Ba是矢量i代表gydF4y2Ba演讲的演讲者样本gydF4y2Ba。我们还假设有一个未知的演讲由i矢量表示gydF4y2BaygydF4y2Ba。分类器的目的是匹配未知与已知i-vectors i矢量,确定哪一个说未知的演讲。识别的结果被定义为gydF4y2Ba 在哪里gydF4y2Ba是演讲的总数由演讲者吗gydF4y2Ba。gydF4y2Ba是决定阈值。如果gydF4y2Ba未知的演讲不是已知的语言gydF4y2Ba;如果gydF4y2Ba未知的,那么作者演讲是演讲者gydF4y2Ba。gydF4y2Ba内核和余弦的定义是什么gydF4y2Ba 在哪里gydF4y2BaxgydF4y2Ba已知的矢量i和吗gydF4y2BaygydF4y2Ba是未知的矢量i。通常,线性判别分析(LDA)和类内方差归一化(WCCN)是用于实现矢量i的歧视。因此,内核函数写成gydF4y2Ba 在哪里gydF4y2Ba一个gydF4y2BaLDA投影矩阵和吗gydF4y2BaWgydF4y2Ba是WCCN矩阵。gydF4y2Ba一个gydF4y2Ba和gydF4y2BaWgydF4y2Ba估计用的所有i-vectors小伙子的细节和WCCN[中描述gydF4y2Ba24gydF4y2Ba]。gydF4y2Ba
5。实验和结果gydF4y2Ba
在本节中,我们报告我们的实验的结果。节gydF4y2Ba5.1gydF4y2Ba,我们将描述实验数据集。节gydF4y2Ba5.2gydF4y2Ba,我们进行一个实验为热电制冷选择最优母小波的算法。节gydF4y2Ba5.3gydF4y2Ba我们评估我们的模型的识别精度。节gydF4y2Ba5.4gydF4y2Ba,我们评估该模型的性能。最后,模型计算的时间成本部分gydF4y2Ba5.5gydF4y2Ba。gydF4y2Ba
5.1。实验数据集gydF4y2Ba
我们的实验结果TIMIT演讲的数据库上执行的(gydF4y2Ba25gydF4y2Ba]。这个数据库包含630个扬声器(192名女性和438名男性)来自8个不同的英语方言区域。每个演讲者供应十语音样本采样在16赫兹,持续5秒。所有女性的演讲是用来获取背景模型,代表女性声音的共同特征。同时,所有男性演讲用于生成另一个背景模型描述男性的声音。384人(192名女性和192名男性)是随机选择的,他们的演讲作为已知和未知的演讲。测试结果在我们的实验是在电脑上收集2.5 GHz Intel Core i5 8通用的内存和CPU和MATLAB R2012b实验平台。gydF4y2Ba
5.2。最优母小波gydF4y2Ba
一个好母亲小波可以提高热电性能的算法。母小波的性能是基于两个重要的元素,如大小和数量的支持消失的时刻。如果一个母亲小波有大量消失的时刻,热电制冷会忽略很多重要信息;如果母亲小波小支持大小、热电制冷会准确地找到重要的信息(gydF4y2Ba26gydF4y2Ba]。因此,最优的母小波应该有大量的消失时刻和小尺寸的支持。在这个视图中,Daubechies和Symlet小波是小波好,因为他们有最多的消失时刻给定大小的支持。此外,这些小波正交和适合的Mallat算法快。gydF4y2Ba
是论文中,我们使用Energy-to-Shannon熵率(es)来评估这些Daubechies Symlet小波找出最好的一个。es是母小波的分析性能的方法,用来选择最好的母小波(gydF4y2Ba27gydF4y2Ba]。定义为esgydF4y2Ba 在哪里gydF4y2Ba的香农熵谱获得WPT和吗gydF4y2Ba的能量谱。高能源意味着获得的光谱WPT的演讲包含了足够的信息。低熵意味着信息的频谱是稳定的。因此,最优母小波熵应该最大化的能量同时最小化。gydF4y2Ba
在这个实验中,8 Daubechies 8 Symlet小波,分别表示db1-8和sym1-8是用来分解从TIMIT数据库随机选择的演讲。我们运行实验和记录的平均ws 100倍的母小波表gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||
在表gydF4y2Ba1gydF4y2Ba,我们发现db4和sym6获得最高的es。换句话说,db4 sysm6是最好的母亲的小波语音数据。文献[gydF4y2Ba28gydF4y2Ba]表明sym6可以提高说话人识别模型的性能。然而,Symlet小波产生的复系数虚部是真正的冗余数字语音等信号,所以我们放弃了db4 sym6并选择。gydF4y2Ba
5.3。在明确环境中说话人识别模型的准确性gydF4y2Ba
这个实验评估说话人识别模型的准确性。我们随机选择384扬声器(192名女性和192名男性)。对于每一个演讲者,一半的演讲作为未知的演讲和演讲的另一半作为已知的演讲。对于每一个演讲者,说话人识别模型匹配他/她未知的演讲与所有已知的演讲384扬声器和决定谁说未知的演讲。如果结果是正确的,该模型得到一个分数;如果结果是错误的,该模型得到零分。最后,我们计算分数,计算平均精度定义为gydF4y2Ba
在这个实验中,我们使用四种类型的说话人识别模型进行比较。第一个是MFCC-GMM模型(gydF4y2Ba4gydF4y2Ba]。这个模型使用MFCC方法提取14 d短向量和使用GMM 8混合物识别议长根据这些短向量。第二个是FMFCC-GMM模型(gydF4y2Ba16gydF4y2Ba]。这个模型非常类似于MFCC-GMM模型,但它使用FMFCC方法提取52 d短向量。第三个是WPE-GMM模型(gydF4y2Ba10gydF4y2Ba]。该模型首先使用热电变换演讲到16 d短向量,然后使用GMM分类。最后一个是WPE-I-CDS模型提出了。与WPE-GMM模型相比,模型使用16 d短向量生成400 d i矢量,并使用cd识别基于矢量i议长。我们进行每个实验在本节中获得平均25倍精度。上述4的平均精度模型如图gydF4y2Ba4gydF4y2Ba。gydF4y2Ba
在图gydF4y2Ba4gydF4y2Ba,我们发现MFCC-GMM获得最低的88.46%的准确性。的结果(gydF4y2Ba4gydF4y2Ba显示了MFCC-GMM模型可以获得高于90%的准确性。这是因为我们使用的GMM 8混合物作为分类器,但gydF4y2Ba4gydF4y2Ba)使用32的GMM混合物作为分类器。大混合物GMM的数量可以提高性能,但它也会导致非常高的计算费用。WPE-I-CDS获得最高94.36%的准确性。这个解释i矢量理论的成就。另一方面,当8 KHz演讲(低质量的演讲),所有的说话人识别模型的准确性却降低了。MFCC-GMM的准确性、FMFCC-GMM WPE-GMM减少约6%。相比之下,WPE-I-CDS减少约1%的准确性。这是因为矢量i认为i矢量提高说话人识别模型的准确性和cd用LDA和WCCN提高矢量i的歧视。文献[gydF4y2Ba29日gydF4y2Ba]还报告说,i矢量和cd的结合可以提高说话人识别的性能模型用于低质量的演讲如电话讲话。gydF4y2Ba
5.4。在复杂的噪声环境下说话人识别模型的准确性gydF4y2Ba
很难找到一个干净的演讲在现实应用中,由于传输信道的噪声和环境是无法控制的。在这个实验中,我们添加了30 dB, 20 dB, 10 dB高斯白噪声的演讲来模拟吵闹的演讲。MATLAB生成的所有的声音都是高斯白噪声函数。gydF4y2Ba
相比之下,这个实验采用三种基于矢量i模型如MFCC-I-CDS [gydF4y2Ba30.gydF4y2Ba],FMFCC-I-CD [gydF4y2Ba31日gydF4y2Ba),和WPE-I-CDS。两个模型非常类似于我们的模型,但他们使用MFCC和FMFCC提取短向量,分别。3模型的准确性在嘈杂的环境如图gydF4y2Ba5gydF4y2Ba。gydF4y2Ba
在图gydF4y2Ba5gydF4y2Ba,这三个模型在干净的环境中获得精度高。这也表明,矢量i能有效地提高识别精度。然而,当我们使用嘈杂的演讲来测试3模型,其精度降低。当30分贝噪声添加到演讲,三个模型的准确性降低了约4%。这表明所有的模型可以抵抗弱噪声。然而,当我们提高声音的力量,MFCC-I-CDS的准确性和FMFCC-I-CDS会迅速下降。特别是,当噪声增加到10 dB,上述两个模型的准确性降低30%以上。相比之下,WPE-I-CDS的准确性下降不到12%。这些表明,WPE-I-CDS相比MFCC-I-CDS和FMFCC-I-CDS健壮在嘈杂的环境。这是因为热电制冷使用WPT获取频谱但MFCC和DFT FMFCC使用。 The WPT decomposes the speech into many local frequency bands that can limit the ill effect of noise, but the DFT decomposes the speech into a global frequency domain that is sensitive to the noise.
5.5。说话人识别模型的性能gydF4y2Ba
通常情况下,说话人识别模型是用于访问控制系统。因此,一个好的说话人识别模型应该能够接受正确的登录人同时拒绝访问的冒名顶替者,作为一个看门人。在这个实验中,我们使用接受者操作特征(ROC)曲线来评价我们的模型的能力。ROC曲线显示了真阳性率(TPR)作为一个函数的假阳性率(玻璃钢)为不同值的决策阈值和一直被应用在gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba
在这个实验中,我们随机选择384扬声器(192男性和192女性)计算ROC曲线。一半的人是正确的人,另一个扬声器作为冒名顶替者的一半。我们首先使用正确的演讲人们测试说话人识别模型来计算TPR,然后我们用演讲的冒名顶替者攻击玻璃钢的说话人识别模型来计算。4模型,如MFCC-GMM、FMFCC-GMM WPE-GMM,和WPE-I-CDS,用于比较。绘制ROC曲线,我们调整了决定阈值获得不同的中华民国点。中华民国曲线模型如图4gydF4y2Ba6gydF4y2Ba。gydF4y2Ba
低玻璃钢表明说话人识别模型可以有效地抵抗攻击来自冒名顶替者,和高TPR表明说话人识别模型可以准确地接受正确的扬声器的登录。换句话说,一个说话人识别模型可以有用如果低玻璃钢的TPR很高。在图gydF4y2Ba6gydF4y2Ba玻璃钢是高于0.45时,所有模型获得高TPR,但是WPE-I-CDS TPR获得高于其他3模型对于一个给定的玻璃钢小于4.5。这表明WPE-I-CDS可以更有效地实现访问控制的任务比其他模型。gydF4y2Ba
5.6。时间成本gydF4y2Ba
这部分测试的时间成本快速MFCC-GMM,传统MFCC-I-CDS, WPE-I-CDS。我们使用200 5-second-long演讲来测试每个模型和计算的平均时间成本。这个实验的结果是显示在表gydF4y2Ba2gydF4y2Ba。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||
在表gydF4y2Ba2gydF4y2Ba,MFCC-GMM不采用矢量i演讲表示,所以它不花费时间提取矢量i。相对,WPE-I-CDS应该花费时间来提取矢量i。WPE-I-CDS成本最提取时间短向量与MFCC-GMM相比。这是因为使用的WPT热电制冷是更复杂的比使用的DFT MFCC。另一方面,GMM应该事先估计的参数,如MFCC-GMM花费时间来训练分类器。光盘不需要花费时间来估计参数,但它应该花费时间来估计LDA的矩阵和WCNN训练分类器的步骤。总的来说,矢量i可以提高识别精度的增加时间成本消耗和计算热电制冷成本太多时间而计算MFCC。因此,它是非常重要的发现方法减少热电制冷的时间成本。gydF4y2Ba
并行计算是一种有效的方法来减少成本,因为线性计算的循环可以一次完成,使用并行算法。例如,一个信号,其长度gydF4y2BaWPT分解的gydF4y2Ba的水平。在传统WPT的线性算法,我们必须运行一个过滤过程的时间复杂度gydF4y2Ba时间对于每一个分解层次,所以WPT的总时间成本gydF4y2Ba。如果我们使用gydF4y2Ba独立的计算核心植入WPT使用并行算法,时间复杂度的WPT可以减少gydF4y2Ba。本文使用16个独立的计算核心实现热电制冷的并行算法,和表的最后一行gydF4y2Ba2gydF4y2Ba表明,热电制冷的时间成本降低很多。gydF4y2Ba
6。结论gydF4y2Ba
随着计算机技术的发展,为基于语音的说话人识别已广泛应用访问系统。在现实环境中,演讲的质量转换频道可能会低,噪音是无法控制的。因此,有必要找到一个说话人识别模型等这些因素不敏感噪声和低质量的演讲。gydF4y2Ba
提出了一种新的说话人识别模型采用小波包熵热电制冷,矢量i,模型WPE-I-CDS和cd,我们的名字。热电制冷用当地DFT分析工具叫WPT而不是分解的信号。因为WPT信号分解成许多独立频带限制噪声的不良影响,热电制冷强劲在嘈杂的环境中。矢量i是一种健壮的特征向量。因为它考虑了背景信息,i矢量可以提高识别的准确性。cd使用核函数来处理维度的诅咒,所以它适用于高维特征向量i矢量等。本文实验的结果表明,该说话人识别模型可以提高识别的性能比传统的模型如MFCC-GMM FMFCC-GMM, WPE-GMM在清洁的环境。此外,WPE-I-CDS获得精度高于其他i-vector-based模型如MFCC-I-CDS和FMFCC-I-CDS在嘈杂的环境。然而,该模型的时间成本非常高。降低时间成本,我们采用并行算法实现热电制冷和i矢量提取方法。gydF4y2Ba
在未来,我们将结合音频和视觉特性来提高说话人识别系统的性能。gydF4y2Ba
的利益冲突gydF4y2Ba
作者宣称没有利益冲突。gydF4y2Ba
确认gydF4y2Ba
作者还感谢库恩教授她的协助准备手稿。本文由四川省科学计划的项目支持(M112016GZ0073)和国家自然基金(批准号61672136)。gydF4y2Ba
引用gydF4y2Ba
- h·佩雷斯·j·马丁内斯,i Espinosa”使用声paraliguistic信息来评估交互质量为老用户使用语音系统中,“gydF4y2Ba国际Jounrnal人机研究gydF4y2Ba卷。98年,1-13,2017页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- n . Almaadeed a Aggoun, a .剧中,“议长识别使用多通道神经网络和小波分析,“gydF4y2Ba专业生物识别技术gydF4y2Ba,4卷,不。1,18-28,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Kinnunen和h·李”的概述text-independent说话人识别:从功能到supervectors,”gydF4y2Ba言语交际gydF4y2Ba,52卷,不。1,12-40,2010页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d·a·雷诺兹和r . c .玫瑰,“强劲text-independent发言者识别使用高斯混合模型,”gydF4y2BaIEEE语音和音频处理gydF4y2Ba,3卷,不。1,第83 - 72页,1995。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k·s·艾哈迈德·A . s . Thosar Nirmal, j . h . v . s .潘德,“一个独特的方法text-independent说话人识别使用mfcc特征集和概率神经网络”gydF4y2Ba第八届国际会议上提出的诉讼模式识别(ICAPR 15)gydF4y2Ba加尔各答,印度,2015。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- X.-Y。张,j .呗,W.-Z。梁,基于树皮小波MFCC,语音识别系统”gydF4y2Ba《第八届国际会议上信号处理(ICSP 06年)gydF4y2Ba,16 - 20页,北京,2006。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 答:Biswas p . k . Sahu, m·钱德拉”容许小波包特征基于人类内耳印地语辅音识别的频率响应,“gydF4y2Ba计算机与通信技术gydF4y2Ba40卷,第1122 - 1111页,2014年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k . Daqrouq和t . a . Tutunji”发言人识别使用元音共振峰的特性通过组合方法,小波,和神经网络分类器,”gydF4y2Ba应用软计算gydF4y2Ba27卷,第239 - 231页,2015年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d . Avci”,说话人识别专家系统使用自适应小波熵确定,”gydF4y2Ba专家系统与应用程序gydF4y2Ba,36卷,不。3、6295 - 6300年,2009页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k . Daqrouq”,小波熵和text-independent议长识别神经网络,”gydF4y2Ba人工智能技术的工程应用gydF4y2Ba,24卷,不。5,796 - 802年,2011页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . k . Elyaberani s h . Mahmoodian, g . Sheikhi“小波包在speaker-identification熵的情绪状态从语音信号检测,”gydF4y2Ba智能程序在电子技术杂志》上gydF4y2Ba,20卷,第74 - 67页,2015年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a . m . Li Tsiartas, m . Van Segbroeck和s . s .时称,“议长验证使用简化和监督i矢量建模,”gydF4y2Ba学报》第38届IEEE国际会议音响、演讲,和信号处理(ICASSP 13)gydF4y2Ba7203年,页7199 -温哥华,加拿大,2013。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d . Garcia-Romero和a . McCree”监督领域适应基于矢量i的说话人识别,”gydF4y2BaIEEE国际会议上声学学报》演讲和信号处理gydF4y2Ba,页4047 - 4051,佛罗伦萨,意大利,2014年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a . Kanagasundaram d院长,美国曾经“基于矢量i的说话人识别使用先进的信道补偿技术,”gydF4y2Ba电脑语音& LabguagegydF4y2Ba28卷,第140 - 121页,2014年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·h·Bahari r . Saeidi h . Van Hamme和d . Van Leeuwen”口音识别使用矢量i,高斯意味着supervector和高斯后验概率supervector自发电话讲话,”gydF4y2Ba《IEEE国际会议音响、演讲和信号处理gydF4y2BaIEEE,页7344 - 7348年,温哥华,加拿大,2013。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- b·萨哈和k . Kamarauslas”有效性的评估不同的方法在说话人识别中,“gydF4y2BaElektronika红外ElektrochnikagydF4y2Ba卷,98年,第70 - 67页,2015年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k . k .乔治·c·s·库马尔,k . i拉马钱德兰和a .熊猫“余弦距离特性健壮的发言人确认,”gydF4y2Ba美国第16届会议的国际言语交际协会(INTERSPEECH 15)gydF4y2Ba德累斯顿,页234 - 238年,德国,2015年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- b . g . Nagaraja和h s Jayanna“有效窗口单语和crosslingual演讲者使用MFCC识别,”gydF4y2Ba诉讼的先进的计算机和通信系统国际会议(ICACCS 13)gydF4y2Ba哥印拜陀,页1 - 4,印度,2013。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Medeiros g . Araujo h·马赛,m .切拉和l -马托斯”Multi-kernel EM算法的并行化方法对GMM训练,”gydF4y2Ba学报》第三届巴西智能会议系统(BRACIS 14)gydF4y2Ba,页158 - 165,圣保罗,巴西,2014年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- h·r·Tohidypour s a Seyyedsalehi, h . Behbood”对比小波包变换,树皮小波和MFCC稳健语音识别任务”gydF4y2Ba第二届工业机电一体化和自动化国际会议上(ICIMA 10)gydF4y2Ba武汉,页329 - 332年,中国,2010。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- x。Lv和p .道,”Mallat算法的小波时变系统参数识别,”gydF4y2Ba学报》第25届中国控制与决策会议”(CCDC 13)gydF4y2Ba贵阳,页1554 - 1556年,中国,2013。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d . Marthnez o . Pichot, l . Burget“语言识别在i矢量空间,”gydF4y2BaProceedongs Interspeech的gydF4y2Ba,页861 - 864,佛罗伦萨,意大利,2011年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- p .肯尼·g·Boulianne, p . Dumouchel“Eigenvoice建模与稀疏的训练数据,”gydF4y2BaIEEE语音和音频处理gydF4y2Ba,13卷,不。3、345 - 354年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·麦克拉伦和d . Van Leeuwen”,提高说话人识别当使用i-vectors言论来自多个来源,”gydF4y2Ba《第36 IEEE国际会议音响,演讲,和信号处理(ICASSP 11)gydF4y2Ba,页5460 - 5463,布拉格,捷克共和国,2011年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 答:Biswas p . k . Sahu a . Bhowmick和m·钱德拉”特征提取技术使用ERB小波子频带周期和非周期分解TIMIT音素识别,”gydF4y2Ba国际语音识别技术杂志》上gydF4y2Ba,17卷,不。4、389 - 399年,2014页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- s . g . MallatgydF4y2Ba小波信号处理gydF4y2Ba爱思唯尔,荷兰阿姆斯特丹,2012年。gydF4y2Ba
- 问:杨和j·王,“多级小波香农entropy-based方法单一传感器故障位置,”gydF4y2Ba熵gydF4y2Ba,17卷,不。10日,7101 - 7117年,2015页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Ganchev m . Siafarikas i Mporas, t . Stoyanova”增强的语音参数化的小波基选择扬声器验证,”gydF4y2Ba国际语音识别技术杂志》上gydF4y2Ba,17卷,不。1,27-36,2014页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Seboussaoui p·肯尼,n . Dehak”一个矢量i器适合与麦克风和说话人识别电话讲话,“gydF4y2Ba奥德赛gydF4y2Ba》第六卷,1 - 6,2011页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- n . Dehak r . Dehak p·肯尼:介绍,p . Ouellet和p . Dumouchel“支持向量机和快速得分低维总变化空间的议长验证,”gydF4y2Ba学报》国际言语交际协会第十届会议(INTERSPEECH ' 09)gydF4y2Ba布莱顿,页1559 - 1562年,英国,2009年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- Mandasari, m·麦克拉伦,d . Van Leeuwen”评价矢量i法医应用程序中,说话人识别系统”gydF4y2Ba12年度会议的国际言语交际协会(INTERSPEECH 11)gydF4y2Ba,页21 - 24日,佛罗伦萨,意大利,2011年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
版权gydF4y2Ba
版权©2017 Lei Lei,库恩。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba