最近,使用指纹生物识别授权,声纹,面部特征引起了相当大的关注从公众与识别技术的发展和智能手机的普及。在这样的生物识别技术,声纹有个人身份高的指纹也使用非接触模式识别相似的面孔。语音信号处理是语音识别精度的关键之一。大多数语音识别系统仍然采用mel-scale频率倒谱系数(MFCC)发音特征的关键。MFCC的质量和准确性依赖于准备好的短语,属于text-dependent议长识别。相比之下,一些新的特性,如维矢量,提供一个黑箱过程声乐学习的特性。为了解决这些方面,小说的声音特征提取的数据驱动的方法提出了基于决策支持系统(DSS)。每个语音信号可以转换为一个向量表示使用该DSS声音的特性。建立这个DSS包括三个步骤:(i)语音数据预处理,(ii)分层聚类分析的逆离散余弦变换倒频谱系数,和(3)学习欧几里得度量的E-vector通过最小化。我们对比实验来验证E-vectors提取DSS与其他声音特性措施,并将它们应用于text-dependent和text-independent数据集。 In the experiments containing one utterance of each speaker, the average accuracy of the E-vector is improved by approximately 1.5% over the MFCC. In the experiments containing multiple utterances of each speaker, the average micro-F1 score of the E-vector is also improved by approximately 2.1% over the MFCC. The results of the E-vector show remarkable advantages when applied to both the Texas Instruments/Massachusetts Institute of Technology corpus and LibriSpeech corpus. These improvements of the E-vector contribute to the capabilities of speaker identification and also enhance its usability for more real-world identification tasks.
在过去的几十年里,基于生物识别技术的识别技术如指纹、面部特征,声纹,和虹膜扫描访问安全,广泛应用于目标识别系统的身份,私人确认等方面的技术和实际使用情况,通过虹膜扫描识别是最安全、准确、适用于满足军事需求的标准(
SI的一般过程可以被视为一个决策支持过程决定相应的演讲者的身份的话语。领域的自动语音识别(ASR),大多数的方法如果是由提取的特征,这也是最重要的一个应用程序如果决策支持系统(DSS)的任务。线性预测系数(LPC)提取的线性组合退出演讲,于1967年首次提出语音功能(
现有的声音特征的提取方法主要用于基于模型的方法,如MFCC PNCC和LPC的。相比之下,一些新的声音特性,比如维矢量是基于数据驱动的方法。然而,这些方法都是“黑盒”在发音特征的学习(
本文的其余部分组织如下:问题陈述和E-vector介绍部分
现有的声音特性用于SI大多是基于基于模型的方法,如MFCC HDCC, PNCC。MFCC是一个广泛使用的语言特性在1980年代首次提出。MFCC离散傅里叶变换方法适用于将时域信号转换为频域信号。MFCC的变换,我们使用以下方程将频域信号转化为mel-frequency:
(一)MFCC过滤器。(b) HDCC过滤器。(c) PNCC过滤器。
现有的研究使用数据驱动的方法如果主要集中在聚类不同的演讲者通过特性相似。例如,阿里巴巴集团提出了一种基于聚类方法的语音识别方法(2017年
在决策过程中,一般有四个步骤,如图
DSS和硅之间的关系。(一)DSS。(b) SI系统基于DSS。
在本节中,我们介绍了为SI-DSS E-vector系统。这是显示在图
SI-DSS E-vector系统的概述。(一)SI-DSS流程图。(b) E-vector过程的流程图。(c) SI系统的流程图。
数据预处理的能力是存储语音数据的形式IDCT倒频谱系数。最初的语音数据的形式是一个持续的信号波,和声谱图通常是用来描述连续波信号。在这项研究中,提取声谱图通过以下三个步骤:
第一步旨在使语音信号波更重要。高通滤波过程如下方程用于preemphasize输入信号波(
在这里,
在第二步中,preweighted语音信号分割成小块得到一帧信号(20 ms在这项研究的框架)。
第三步是添加一个汉明窗,
然后,应用同态信号处理得到IDCT倒频谱系数。处理包括三个步骤:
在第一步中,应用基于DCT获得乘法信号方程(4)从所有帧的语音信号。DCT的过程被定义为
在这里,
在这里,
第二步是计算对数能量输出信号的乘法信号转换成一个加法信号如下:
第三步是应用IDCT获得倒频谱系数如下:
在这里,
获得的IDCT倒频谱系数是一个数据矩阵,和一行的长度成正比的时间输入声音信号,和一个列的长度成正比的扬声器的输入信号。IDCT倒谱系数的分析过程包括五个步骤:
如果输入声音信号包含
每一列的设置
计算相邻类的距离和相似度值定义为一组。在这里,欧几里得距离测量(
比较所有的值
重复步骤(2)步骤(4),直到数
识别过程与模型匹配的输入特性特性集的相似度。在这项研究中,建立了模型的特性集使用GMM和嗯基于E-vector功能算法
定义一个直言不讳的特性集
积累一定的声音特性与他们在每个类的标签
获得最好的模型
产生一个未知的观察序列
输入估计的概率特性
计算评价指标的价值
初始化:
数据预处理:
集群:设置
把所有
打破;
继续;
学习模型:把GMM,嗯⟶准确性、小类
在实验中,我们使用两个声音数据集。一个是德州仪器/麻省理工学院(TIMIT)语料库,另一个是LibriSpeech语料库。TIMIT语料库应用的代表text-dependent实验,含有6300句所说的630人(
数据集TIMIT LibriSpeech主体之一。
| TIMIT | LibriSpeech | |||||||
|
|
||||||||
| 没有设置。 | T1 | T2 | T3 | T4 | L1 | L2 | L3 | L4 |
| 许多演讲者 | One hundred. | 300年 | 500年 | 630年 | 10 | 20. | 30. | 40 |
身份识别、研究的几个评价指标被应用于评估算法的性能。假废品率(FRR)病例的比例把匹配的声纹无与伦比的声纹。它指的是比例的情况下,相同的声纹是错误地视为不同的声纹在测试上的声纹识别标准声纹数据库:
在这项研究中,我们应用精度的措施,精度,回忆,小类分数评估E-vector对其他功能的性能。如果扬声器的数量
准确计算如下:
精确计算如下:
召回代表比例实际上真正积极的设置,并描述如下:
小类的公式描述如下:
为了决定最优E-vector基于层次聚类分析的维度,我们选择TIMIT语料库(也就是630人。、T4)和LibriSpeech语料库(即40人。、L4)和测量训练精度。拟议中的E-vector特性与不同维度的15日25岁和35岁使用GMM和嗯如果任务。结果在表
识别精度比较。
| 模型 | 没有设置。 | E-vector (15) | E-vector (25) | E-vector (35) |
|---|---|---|---|---|
| GMM | T4 | 1.000 | 0.970 | 1.000 |
| L4 | 1.000 | 1.000 | 1.000 | |
|
|
||||
| 嗯 | T4 | 0.930 | 0.930 | 0.930 |
| L4 | 0.950 | 0.950 | 0.950 | |
我们首先测试了15维E-vector, 13-dimensional MFCC,和15维HDCC SI与输入语音信号包含一个每个说话人的话语。TIMIT语料库中的不同数量的扬声器和LibriSpeech语料库标识使用GMM,嗯。精度结果如表所示
Single-utterance实验识别精度比较。
| 模型 | 功能 | T1 | T2 | T3 | T4 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|---|---|---|---|
| GMM | MFCC |
|
0.990 | 1.000 | 0.995 | 1.000 | 0.950 | 0.970 | 0.975 |
| HDCC | 0.940 | 0.920 | 0.926 | 0.924 |
|
|
0.970 | 0.950 | |
| E-vector |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
| 嗯 | MFCC | 0.930 | 0.866 |
|
|
|
0.900 |
|
|
| HDCC | 0.833 | 0.830 | 0.776 | 0.760 |
|
|
|
0.925 | |
| E-vector |
|
|
0.780 |
|
|
|
|
|
|
下面是显示:(1)TIMIT语料库,E-vector执行最佳精度1.000当使用GMM,和MFCC的结果相对比的E-vector;HDCC不如MFCC和E-vector大约10%的差距,如图
Single-utterance实验精度比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。
为了进一步验证E-vector的有效性,我们进行了实验与输入语音信号包含多个话语GMM,嗯。我们首先使用信号包含三个话语从每个演讲者,和实验结果如表所示
Three-utterance实验小类评分比较。
| 模型 | 功能 | T1 | T2 | T3 | T4 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|---|---|---|---|
| GMM | MFCC |
|
0.971 | 0.965 | 0.973 |
|
|
|
|
| HDCC | 0.897 | 0.793 | 0.778 | 0.765 |
|
|
0.978 | 0.992 | |
| E-vector | 0.977 |
|
|
|
|
|
|
|
|
|
|
|||||||||
| 嗯 | MFCC | 0.940 | 0.903 | 0.902 | 0.895 | 1.000 | 0.933 | 0.925 | 0.900 |
| HDCC | 0.877 | 0.827 | 0.815 | 0.807 |
|
|
0.956 | 0.958 | |
| E-vector |
|
|
|
|
|
|
|
|
|
Five-utterance实验小类评分比较。
| 模型 | 功能 | T1 | T2 | T3 | T4 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|---|---|---|---|
| GMM | MFCC | 0.962 | 0.948 | 0.939 | 0.928 |
|
0.990 | 0.987 | 0.990 |
| HDCC | 0.706 | 0.699 | 0.659 | 0.630 | 0.970 |
|
0.960 | 0.970 | |
| E-vector |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
| 嗯 | MFCC | 0.916 | 0.889 | 0.886 | 0.860 |
|
0.940 |
|
0.940 |
| HDCC | 0.816 | 0.772 | 0.753 | 0.735 |
|
0.890 |
|
0.955 | |
| E-vector |
|
|
|
|
|
|
0.920 |
|
|
在图
Three-utterance实验小类评分比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。
在图
Five-utterance实验小类评分比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。
由于mirco-F1分数是一个协作测量的精度和召回,它可以更好的表示识别性能和稳定性。因此,我们计算了小类分数的平均值(平均小类)和标准偏差的小类分数(Std。Dev.小类)实验的多重话语(三话语和五话语)和比较的结果E-vector MFCC和HDCC基于不同模型和语料库数据库(见表
比较平均micro-F1and性病。Dev.小类SD multiple-utterance识别。
| 小类 | 不同的模型 | |||||
| GMM | 嗯 | |||||
| E-vector | MFCC | HDCC | E-vector | MFCC | HDCC | |
|
|
||||||
| Avg。 | ↑0.982 | 0.978 | 0.862 | ↑0.935 | 0.924 | 0.879 |
| 性病,戴夫。 | ↓0.018 | 0.023 | 0.139 | ↓0.039 | ↓0.039 | 0.090 |
|
|
||||||
| 不同的语料数据库 | ||||||
| TIMIT | LibriSpeech | |||||
| E-vector | MFCC | HDCC | E-vector | MFCC | HDCC | |
|
|
||||||
| Avg。 | ↑0.936 | 0.930 | 0.771 | ↑0.982 | 0.972 | 0.971 |
| 性病,戴夫。 | ↓0.035 | 0.037 | 0.071 | ↓0.025 | 0.034 | 0.029 |
稳定的比较E-vector、MFCC和HDCC在不同的情况下。(一)GMM-based如果使用TIMIT和LibriSpeech语料库。(b) HMM-based如果使用TIMIT和LibriSpeech语料库。(c) SI TIMIT语料库使用GMM,嗯。(d) SI LibriSpeech语料库使用GMM,嗯。
在图
在本文中,我们提出了一个新颖的基于DSS声音特征提取的数据驱动的方法。我们的方法学习的E-vector最小化的欧几里得度量使用层次分析IDCT倒频谱系数,通过语音数据预处理。几种不同的图的实验说明了我们的方法的有效性在挑战如果任务。
声音特征提取方法,概括E-vector也是重要的。我们的结果表明,E-vector完美的识别性能——和multiple-utterance实验在不同的语料数据库,有大约1.5%的优势MFCC。也表明,我们的方法是适合GMM和嗯,大约2.1%平均小类的分数优势MFCC。该方法的这些优势有助于voice-feature提取和增强其可用性的功能更多真实的识别任务。在我们未来的工作,我们计划调查余弦相似性和相关系数计算方法提取更优化的特征向量。
给出了本文中使用的数据和代码如下:TIMIT文集:
作者宣称没有利益冲突有关的出版。
他妈和易建联左贡献同样这项工作。
这项工作是支持部分由中国国家自然科学基金(批准号。61751202下,U1813203, 61803064, 51939001, 61976033),大连科技创新基金(批准号下2018 j11cy022),辽宁振兴人才计划(批准号。XLYC1807046和XLYC1908018),辽宁省自然科学基金(批准号。2019 - zd - 0151和2020 - hylh 26),中央大学和基础研究基金(批准号下3132019345)。