研究文章|开放获取
他妈,左,铁山,c·l·菲利普·陈, ”数据驱动的决策支持系统使用E-Vector说话人识别系统”,科学的规划, 卷。2020年, 文章的ID4748606, 13 页面, 2020年。 https://doi.org/10.1155/2020/4748606
数据驱动的决策支持系统使用E-Vector说话人识别系统
文摘
最近,使用指纹生物识别授权,声纹,面部特征引起了相当大的关注从公众与识别技术的发展和智能手机的普及。在这样的生物识别技术,声纹有个人身份高的指纹也使用非接触模式识别相似的面孔。语音信号处理是语音识别精度的关键之一。大多数语音识别系统仍然采用mel-scale频率倒谱系数(MFCC)发音特征的关键。MFCC的质量和准确性依赖于准备好的短语,属于text-dependent议长识别。相比之下,一些新的特性,如维矢量,提供一个黑箱过程声乐学习的特性。为了解决这些方面,小说的声音特征提取的数据驱动的方法提出了基于决策支持系统(DSS)。每个语音信号可以转换为一个向量表示使用该DSS声音的特性。建立这个DSS包括三个步骤:(i)语音数据预处理,(ii)分层聚类分析的逆离散余弦变换倒频谱系数,和(3)学习欧几里得度量的E-vector通过最小化。我们对比实验来验证E-vectors提取DSS与其他声音特性措施,并将它们应用于text-dependent和text-independent数据集。 In the experiments containing one utterance of each speaker, the average accuracy of the E-vector is improved by approximately 1.5% over the MFCC. In the experiments containing multiple utterances of each speaker, the average micro-F1 score of the E-vector is also improved by approximately 2.1% over the MFCC. The results of the E-vector show remarkable advantages when applied to both the Texas Instruments/Massachusetts Institute of Technology corpus and LibriSpeech corpus. These improvements of the E-vector contribute to the capabilities of speaker identification and also enhance its usability for more real-world identification tasks.
1。介绍
在过去的几十年里,基于生物识别技术的识别技术如指纹、面部特征,声纹,和虹膜扫描访问安全,广泛应用于目标识别系统的身份,私人确认等方面的技术和实际使用情况,通过虹膜扫描识别是最安全、准确、适用于满足军事需求的标准(1]。质量需求,指纹识别是最受欢迎的和成熟的身份识别技术2]。指纹采集和识别需要特定的设备3),近年来越来越多地取代了面部识别,通常首选的非接触模式(4]。面部数据可以收集更容易比虹膜和指纹数据,因为大多数智能手机已经有一个内置的摄像头。然而,人脸识别的准确性依赖于识别条件,如环境亮度和视角5]。类似于人脸识别,语音识别也是一个非接触模式技术。收集到的声纹可以很容易地使用一个麦克风和其他声音接收器,及其质量要求更少依赖比人脸识别的环境因素6]。类似于指纹,声纹也含有独特的生物特性和识别精度优于面部特征。然而,语音识别与其他识别技术相比有许多优点。从声纹特征提取数据的主要技术瓶颈,及其实际应用更少比指纹和人脸识别在日常生活中。与人脸识别,采用图像处理方法、声纹是由经典力学波,需要信号处理方法从时域表示语音信号转换成频域表示。这样的声音特性很难实现,但很有效的说话人识别由于生物之间的差异和个人特征不同的声纹。在大多数演讲者识别(SI)的方法,主要有两个过程:一个是提取声音特性,,另一个是学习基于这些特征的识别模型。声音的特性不仅充分代表的共同属性相同的演讲者,而且单独不同的扬声器尽可能远。因此,一个有效的提取声音的特性可以确定硅的性能模型,这些模型可以识别目标从多个扬声器扬声器的话语。
SI的一般过程可以被视为一个决策支持过程决定相应的演讲者的身份的话语。领域的自动语音识别(ASR),大多数的方法如果是由提取的特征,这也是最重要的一个应用程序如果决策支持系统(DSS)的任务。线性预测系数(LPC)提取的线性组合退出演讲,于1967年首次提出语音功能(7]。由于发音特征命名mel-scale频率倒谱系数(MFCC)在1980年提出了8),它被广泛应用于SI系统。敏锐的线性预测系数,将语音信号提取的基于LPC 2011年[听觉模型9]。2012年,一个直方图频域变换的离散余弦变换(DCT)倒频谱系数(HDCC)进行了基于MFCC特征提取的概念(10]。随后,金和斯特恩一个幂律非线性变换而不是传统的日志非线性变换的MFCC听觉处理,他们提出了一个新功能叫做power-normalized cepstral系数(PNCC)在2016年[11]。相比与传统的声音特性,SI模型基于身份向量(矢量i)也提出了一个数据驱动的方法12),这是一个ASR领域的热门话题。此外,Variani等人深神经网络应用于生成维矢量,这是一个相似的特征矢量i (13]。基于这一维向量,一个端到端的SI方法也提出了(14]。
现有的声音特征的提取方法主要用于基于模型的方法,如MFCC PNCC和LPC的。相比之下,一些新的声音特性,比如维矢量是基于数据驱动的方法。然而,这些方法都是“黑盒”在发音特征的学习(14]。因此,在这项研究中,一种新的方法使用层次聚类分析的数据驱动的方法提出了SI。有三个主要贡献:(1)提出了一种新的声音特征提取方法基于层次聚类分析的数据驱动的方法;(2)欧几里得度量作为衡量生成一个自适应的特征向量称为“E-vector”;(3)决策支持系统建立了基于E-vector SI任务提供决策支持服务。在数据驱动的层次聚类方法中,各种个人语音特性被认为是学习和提取声音的特征向量。不同cepstral系数之间的距离相同的演讲者使用欧几里得度量测量,并通过分层聚类方法生成E-vector通过最小化欧几里得度量。在单一话语SI的比较实验,E-vector方法提高了识别精度MFCC大约3%和5% HDCC, SI的DSS是基于高斯混合模型(GMM)。在多个话语SI的比较实验,小类的分数E-vector比MFCC和HDCC SI的DSS是基于GMM和隐马尔可夫模型(HMM)。
本文的其余部分组织如下:问题陈述和E-vector介绍部分2。进行了对比实验评估的性能E-vector节中描述3。最后,结论部分提供4。
2。材料和方法
2.1。问题陈述
2.1.1。基于模型的提取声音的特性
现有的声音特性用于SI大多是基于基于模型的方法,如MFCC HDCC, PNCC。MFCC是一个广泛使用的语言特性在1980年代首次提出。MFCC离散傅里叶变换方法适用于将时域信号转换为频域信号。MFCC的变换,我们使用以下方程将频域信号转化为mel-frequency: 在哪里f是原来的频率,代表mel-frequency。随后,基于mel-frequency振幅计算了一系列的三角形过滤器,如图1(一)。最后,MFCC获得通过使用mel-frequency信号的倒频谱分析和三角过滤器(8]。HDCC是一个新特性提出了MFCC的影响。HDCC创建一个连任两届的直方图箱:50 - 500 Hz的跨度50赫兹和600 - 1000 Hz, 100 Hz的每个如图1 (b)。DCT后倒频谱系数每本从直方图分析得到,我们可以提取HDCC每本(10]。PNCC有相似的部分的前两个步骤MFCC的初始过程。接下来,PNCC获得短时谱功率使用方gammatone求和。如图1 (c),gammatone过滤器是幂律非线性转换,有别于传统的日志中使用非线性MFCC。最后,smoothing-weight处理是用于每一帧,谱减法应用实现噪声抑制(11]。
(一)
(b)
(c)
2.1.2。数据驱动提取声音的特性
现有的研究使用数据驱动的方法如果主要集中在聚类不同的演讲者通过特性相似。例如,阿里巴巴集团提出了一种基于聚类方法的语音识别方法(2017年15]。他们获得了基于聚类分析的特征向量训练数据。然后,特征向量模型建立了语音识别(15]。然而,很少有研究将数据驱动的方法应用于提取声音的特性。矢量i、d向量和端到端SI的方法提出了基于数据驱动的方法;然而,他们是黑盒没有透明的工作过程(方法)12- - - - - -14]。实际上,声乐数据相关规律占演讲者的个人语音功能。因此,在本文中,小说的特性,E-vector,提取使用提出了一种数据驱动的方法。如果学习的方法作为DSS模型基于E-vector意识到。
2.2。确定决策目标
在决策过程中,一般有四个步骤,如图2(一个)。起初,决定目标(做)应该发现问题后决定。然后,该计划将基于决策环境设计。接下来,该计划将被评估为了执行计划。如果任务,如果过程可以被视为一个multilabel分类任务。扬声器的数量是类的数量;标签是每个说话人的话语。做的就是实现分类所有演讲者通过识别所有演讲者的身份基于声音的特性,如图2(b)。
2.3。E-Vector扬声器系统识别
在本节中,我们介绍了为SI-DSS E-vector系统。这是显示在图3(一个)基于E-vector SI-DSS系统建立了三个步骤:(i)数据预处理,(2)聚类分析,(3)学习模型。连续语音信号时放入E-vector系统,应用数据预处理得到逆离散余弦变换(IDCT)倒频谱系数;然后使用聚类方法分析IDCT倒频谱系数,最后,应用GMM和嗯对扬声器进行分类。下面的图表显示E-vector系统的详细介绍。
(一)
(b)
(c)
2.3.1。第一步:数据预处理
数据预处理的能力是存储语音数据的形式IDCT倒频谱系数。最初的语音数据的形式是一个持续的信号波,和声谱图通常是用来描述连续波信号。在这项研究中,提取声谱图通过以下三个步骤:(1)第一步旨在使语音信号波更重要。高通滤波过程如下方程用于preemphasize输入信号波(7]: 在这里,z是输入语音信号,H (z)是输出预加重语音信号和的值0.97在本研究中。(2)在第二步中,preweighted语音信号分割成小块得到一帧信号(20 ms在这项研究的框架)。(3)第三步是添加一个汉明窗,W的信号。汉明窗函数被定义为 在哪里N每一帧的数量。它能让声音数据更定期分析每一帧信号。
然后,应用同态信号处理得到IDCT倒频谱系数。处理包括三个步骤:(1)在第一步中,应用基于DCT获得乘法信号方程(4)从所有帧的语音信号。DCT的过程被定义为 在这里,年代(b)输入语音信号和米是它的点;C(一个)是输出信号一个点的转换: 在这里,是高频信号;代表了低频信号。(2)第二步是计算对数能量输出信号的乘法信号转换成一个加法信号如下: (3)第三步是应用IDCT获得倒频谱系数如下:
在这里,c(一个)是IDCT倒频谱系数,是输出高频信号,然后呢是输出低频信号。
2.3.2。步骤2:聚类分析对IDCT倒频谱系数
获得的IDCT倒频谱系数是一个数据矩阵,和一行的长度成正比的时间输入声音信号,和一个列的长度成正比的扬声器的输入信号。IDCT倒谱系数的分析过程包括五个步骤:(1)如果输入声音信号包含米演讲者的演讲,IDCT倒频谱系数可以被设置一个。演讲者的演讲p( 在()可以被描述为9),n的数量是一个的列。对于这样一个数据矩阵,集群方法可以应用于分析使用数据驱动的方法。提出了一种改进的层次聚类法分析IDCT倒频谱系数只能分组相邻列: (2)每一列的设置一个被认为是一个类,所以有吗n类,如图3 (b)。(3)计算相邻类的距离和相似度值定义为一组。在这里,欧几里得距离测量(16是用来计算的距离。值的距离越小,相似度越大。欧氏距离 的和可以被描述为(10)。因此,一组可以由距离值的数量。它可以被描述为(11): (4)比较所有的值 ;如果欧几里得距离的和是最低的,集团吗和成一个类。更新的类集一个。(5)重复步骤(2)步骤(4),直到数n的课程设置一个等于X(X是由识别准确性)如图所示3 (c)。然后,在集合的类一个构成了E-vector。
2.3.3。步骤3:学习SI模型
识别过程与模型匹配的输入特性特性集的相似度。在这项研究中,建立了模型的特性集使用GMM和嗯基于E-vector功能算法1。嗯达到识别任务通过搜索序列最有可能产生某一特定输出序列的隐式状态;这个过程包括六个步骤:(1)定义一个直言不讳的特性集 为模型,是数量X类的特性集一个。(2)积累一定的声音特性与他们在每个类的标签声音的特性集一个建立培训特性集。(3)获得最好的模型为 基于训练集,如图3 (c)。(4)产生一个未知的观察序列O输入功能。(5)输入估计的概率特性 。最大的输入特性属于类概率。(6)计算评价指标的价值X是由国家最高的精度。
|
||||||||||||||||||||||||||||||||||||
3所示。结果与讨论
3.1。实验设计
3.1.1。直言不讳的语料库的数据集
在实验中,我们使用两个声音数据集。一个是德州仪器/麻省理工学院(TIMIT)语料库,另一个是LibriSpeech语料库。TIMIT语料库应用的代表text-dependent实验,含有6300句所说的630人(17]。LibriSpeech语料库是各种音频数据集,由文字和声音。因此,LibriSpeech语料库作为代表的text-independent实验(18]。两组实验TIMIT语料库和LibriSpeech语料库。表1显示了在实验中使用的扬声器数量与TIMIT LibriSpeech语料库。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1.2。评价指标
身份识别、研究的几个评价指标被应用于评估算法的性能。假废品率(FRR)病例的比例把匹配的声纹无与伦比的声纹。它指的是比例的情况下,相同的声纹是错误地视为不同的声纹在测试上的声纹识别标准声纹数据库:
在这项研究中,我们应用精度的措施,精度,回忆,小类分数评估E-vector对其他功能的性能。如果扬声器的数量米,是真正的正数的我“(0≤我≤米)人,是假阳性的数量”我”,是真正的负数的我”,假阴性的”我。”
准确计算如下:
精确计算如下:
召回代表比例实际上真正积极的设置,并描述如下:
小类的公式描述如下:
3.2。比较实验
3.2.1之上。优化E-Vector维度
为了决定最优E-vector基于层次聚类分析的维度,我们选择TIMIT语料库(也就是630人。、T4)和LibriSpeech语料库(即40人。、L4)和测量训练精度。拟议中的E-vector特性与不同维度的15日25岁和35岁使用GMM和嗯如果任务。结果在表2显示15维度E-vector获得最高的训练精度。在实验中TIMIT语料库,630人的语音信号被选作实验。40人的语音信号被选作实验LibriSpeech语料库。这是显示在表2E-vector获得相同的精度最高,当它由15至35尺寸。我们选择了较小的尺寸,15日E-vector的维度。
|
|||||||||||||||||||||||||||||||||||||||||||
3.2.2。Single-Utterance对比实验
我们首先测试了15维E-vector, 13-dimensional MFCC,和15维HDCC SI与输入语音信号包含一个每个说话人的话语。TIMIT语料库中的不同数量的扬声器和LibriSpeech语料库标识使用GMM,嗯。精度结果如表所示3。最好的表演为每个测试在每个语料库粗体铅字所示。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
下面是显示:(1)TIMIT语料库,E-vector执行最佳精度1.000当使用GMM,和MFCC的结果相对比的E-vector;HDCC不如MFCC和E-vector大约10%的差距,如图4(一)。嗯,识别模型时如图4 (c),结果MFCC和E-vector都是大约0.850。它可以发现所有这些特征参数识别精度超过0.75性能良好。(2)LibriSpeech语料库,E-vector也执行最佳精度1当使用GMM;MFCC和HDCC不如E-vector如图4 (b)。MFCC几乎是类似于HDCC如图4 (d)使用嗯,精度大约0.93。在single-utterance E-vector的识别结果显示显著的优势对比实验。
(一)
(b)
(c)
(d)
3.2.3。Multiple-Utterance对比实验
为了进一步验证E-vector的有效性,我们进行了实验与输入语音信号包含多个话语GMM,嗯。我们首先使用信号包含三个话语从每个演讲者,和实验结果如表所示4。随后,我们添加了每个说话人的话语和使用的信号与五每个说话人的话语,结果如表所示5。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在图5与输入信号,识别结果显示包含三个话语。(1)当GMM用作SI模型,E-vector的小类分数略高于MFCC,大约1%,TIMIT和LibriSpeech主体之一。小类分数HDCC小于MFCC和E-vector大约20%(见图5(一个))。(2)当嗯SI模型,E-vector小类分数几乎等于MFCC。HDCC不如别人约10%(见图5 (c)),几乎是等于MFCC和E-vector LibriSpeech(见图5 (b)和5 (d))。
(一)
(b)
(c)
(d)
在图6,识别结果与输入信号包含五个话语。使用GMM SI模型时,小类几十个E-vector和MFCC几乎相等,如图6(一)和6 (b)。当使用嗯SI模型,结果MFCC和E-vector几乎相同的级别,如图6 (c)和6 (d)。小类分数HDCC小于MFCC和E-vector大约20%(见图6(一)),它是一个小(参见图比别人差6 (b))。LibriSpeech语料库,我们可以找到数据6 (b)和6 (d)MFCC和E-vector显示良好的表演与小类的分数超过0.96。
(一)
(b)
(c)
(d)
由于mirco-F1分数是一个协作测量的精度和召回,它可以更好的表示识别性能和稳定性。因此,我们计算了小类分数的平均值(平均小类)和标准偏差的小类分数(Std。Dev.小类)实验的多重话语(三话语和五话语)和比较的结果E-vector MFCC和HDCC基于不同模型和语料库数据库(见表6和图7)。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(一)
(b)
(c)
(d)
在图7(一),我们可以发现,平均小类和性病。Dev.小类的E-vector比HDCC优于MFCC和更好。然而,图7 (b)表明E-vector获得类似的性病。Dev.小类MFCC。E-vector仍然优于MFCC和HDCC相比平均小类。随后,我们还可以在数据获得相同的结果7 (c)和7 (d)。特别是TIMIT语料库(见图7 (c)),平均小类E-vector可以针对MFCC和HDCC提高了0.65%和21.40%,和性病。Dev.小类的E-vector可以提高5.41%和21.40%对其他两个声音的特性。总之,上述调查显示,错把匹配的平均比例话语的无与伦比的话语E-vector小于MFCC和HDCC;即FRR multiple-utterance SI E-vector较低的任务。
4所示。结论
在本文中,我们提出了一个新颖的基于DSS声音特征提取的数据驱动的方法。我们的方法学习的E-vector最小化的欧几里得度量使用层次分析IDCT倒频谱系数,通过语音数据预处理。几种不同的图的实验说明了我们的方法的有效性在挑战如果任务。
声音特征提取方法,概括E-vector也是重要的。我们的结果表明,E-vector完美的识别性能——和multiple-utterance实验在不同的语料数据库,有大约1.5%的优势MFCC。也表明,我们的方法是适合GMM和嗯,大约2.1%平均小类的分数优势MFCC。该方法的这些优势有助于voice-feature提取和增强其可用性的功能更多真实的识别任务。在我们未来的工作,我们计划调查余弦相似性和相关系数计算方法提取更优化的特征向量。
数据可用性
给出了本文中使用的数据和代码如下:TIMIT文集:http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3;LibriSpeech文集:http://www.openslr.org/12/;E-vector源代码:https://github.com/XiaoHe68/voice2vector。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
他妈和易建联左贡献同样这项工作。
确认
这项工作是支持部分由中国国家自然科学基金(批准号。61751202下,U1813203, 61803064, 51939001, 61976033),大连科技创新基金(批准号下2018 j11cy022),辽宁振兴人才计划(批准号。XLYC1807046和XLYC1908018),辽宁省自然科学基金(批准号。2019 - zd - 0151和2020 - hylh 26),中央大学和基础研究基金(批准号下3132019345)。
引用
- d .赵w·罗,l, l .曰“负面虹膜识别,”IEEE可靠和安全的计算,15卷,不。1,第125 - 112页,2015。视图:谷歌学术搜索
- T.-Y。牛仔裤和诉Govindaraju minutia-based部分指纹识别系统”,模式识别,38卷,不。10日,1672 - 1684年,2005页。视图:出版商的网站|谷歌学术搜索
- r·卡佩里·m·费拉拉,d . Maltoni”琐事cylinder-code:指纹识别和匹配技术新表示,“IEEE模式分析与机器智能,32卷,不。12日,第2141 - 2128页,2010年。视图:出版商的网站|谷歌学术搜索
- 曹k . a . k . Jain,“自动隐藏指纹识别”,IEEE模式分析与机器智能第41卷。。4、788 - 800年,2019页。视图:出版商的网站|谷歌学术搜索
- 诉布鲁斯和a .年轻,“了解人脸识别,”英国心理学杂志上的,卷77,不。3、305 - 327年,2011页。视图:出版商的网站|谷歌学术搜索
- j . z z . Liu, t . Li Li和c .沈”简称GMM和CNN混合方法表达说话人识别,”IEEE工业信息,14卷,不。7,3244 - 3252年,2018页。视图:出版商的网站|谷歌学术搜索
- b . s .阿塔尔和s . l . Hanauer”语音线性预测分析和合成的语音波,“《美国声学学会杂志》上,50卷,第655 - 637页,2005年。视图:出版商的网站|谷歌学术搜索
- l·穆达,m . Begam Elamvazuthi,“语音识别算法使用梅尔频率cepstral系数(MFCC)和动态时间规整(DTW)技术,”《计算,2卷,2010年。视图:谷歌学术搜索
- 美国Cai,李x, x邹et al .,“权力规范化知觉作用的线性预测功能强大的自动语音识别,”学报INTER-NOISE NOISE-CON国会和会议论文集,页3022 - 3027,噪声控制工程研究所,2011年,日本大阪。视图:谷歌学术搜索
- s . Al-Rawahy a Hossen, Heute,“Text-independent说话人识别系统基于直方图DCT-cepstrum系数,”国际期刊的知识和智能工程系统,16卷,不。3、141 - 161年,2012页。视图:出版商的网站|谷歌学术搜索
- c·金和r·m·斯特恩”Power-normalized cepstral系数(PNCC)强大的语音识别,”IEEE / ACM交易音频、语音和语言处理,24卷,不。7,1315 - 1329年,2016页。视图:出版商的网站|谷歌学术搜索
- n . Dehak p . j .肯尼·r·Dehak p . Dumouchel和p . Ouellet前端为议长验证因子分析,“IEEE音频、语音和语言处理,19卷,不。4、788 - 798年,2011页。视图:出版商的网站|谷歌学术搜索
- e . Variani x Lei, e·麦克德莫特。洛佩兹莫雷诺,和j . Gonzalez-Dominguez“深层神经网络对小足迹text-dependent议长验证”学报IEEE国际会议音响、演讲和信号处理(ICASSP)IEEE,页4052 - 4056年,佛罗伦萨,意大利,2014年5月。视图:出版商的网站|谷歌学术搜索
- g . Heigold莫雷诺,s . Bengio, n . Shazeer“端到端text-dependent议长验证,”学报IEEE国际会议音响、演讲和信号处理(ICASSP)IEEE,页5115 - 5119年,上海,中国,2016年5月。视图:出版商的网站|谷歌学术搜索
- 阿里巴巴集团控股有限公司和开曼群岛(肯塔基州),“语音识别的方法和设备。CN 107564513 A,”2018年,CN专利107564513。视图:谷歌学术搜索
- 美国c·约翰逊,“分层聚类方案”,心理测量学,32卷,不。3、241 - 254年,1967页。视图:出版商的网站|谷歌学术搜索
- 诉Zue、美国Seneff和j .玻璃,”麻省理工学院的演讲数据库开发:timit之外,“言语交际,9卷,不。4、351 - 356年,1990页。视图:出版商的网站|谷歌学术搜索
- 诉Panayotov、d·波维g . Chen和s . Khudanpur”Librispeech:一种基于公共领域的asr语料库音频书籍,”《IEEE国际会议音响、演讲和信号处理(ICASSP)IEEE,页5206 - 5210年,2015年4月澳大利亚,布里斯班。视图:出版商的网站|谷歌学术搜索
版权
版权©2020年他马等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。