raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

科学的规划

1875 - 919 x 1058 - 9244

Hindawi

10.1155 / 2020/4748606

4748606

研究文章

数据驱动的决策支持系统使用E-Vector说话人识别系统

马

他

https://orcid.org/0000 - 0002 - 4580 - 6855

左

易

¹ ² ³ ⁴ 李

铁山

¹ ² 陈

c·l·菲利普

¹ ² 阿里

拉赫曼

航海学院

大连海事大学

大连116026

中国

dlmu.edu.cn

海上大数据与人工智能应用中心

大连海事大学

大连116026

中国

dlmu.edu.cn

交通研究协同创新中心

大连海事大学

大连116026

中国

dlmu.edu.cn

⁴

Socionetwork研究所策略

关西大学

大阪5648680

日本

kansai-u.ac.jp

2020年

29日 6 2020年

2020年 12 11 2019年 24 2 2020年 12 6 2020年 29日 6 2020年

2020年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

最近,使用指纹生物识别授权,声纹,面部特征引起了相当大的关注从公众与识别技术的发展和智能手机的普及。在这样的生物识别技术,声纹有个人身份高的指纹也使用非接触模式识别相似的面孔。语音信号处理是语音识别精度的关键之一。大多数语音识别系统仍然采用mel-scale频率倒谱系数(MFCC)发音特征的关键。MFCC的质量和准确性依赖于准备好的短语,属于text-dependent议长识别。相比之下,一些新的特性,如维矢量,提供一个黑箱过程声乐学习的特性。为了解决这些方面,小说的声音特征提取的数据驱动的方法提出了基于决策支持系统(DSS)。每个语音信号可以转换为一个向量表示使用该DSS声音的特性。建立这个DSS包括三个步骤:(i)语音数据预处理,(ii)分层聚类分析的逆离散余弦变换倒频谱系数,和(3)学习欧几里得度量的E-vector通过最小化。我们对比实验来验证E-vectors提取DSS与其他声音特性措施,并将它们应用于text-dependent和text-independent数据集。 In the experiments containing one utterance of each speaker, the average accuracy of the E-vector is improved by approximately 1.5% over the MFCC. In the experiments containing multiple utterances of each speaker, the average micro-F1 score of the E-vector is also improved by approximately 2.1% over the MFCC. The results of the E-vector show remarkable advantages when applied to both the Texas Instruments/Massachusetts Institute of Technology corpus and LibriSpeech corpus. These improvements of the E-vector contribute to the capabilities of speaker identification and also enhance its usability for more real-world identification tasks.

中国国家自然科学基金

61751202

U1813203

61803064

51939001

61976033

大连科技创新基金

2018年j11cy022

辽宁振兴人才计划

XLYC1807046

XLYC1908018

辽宁省自然科学基金

2019 - zd - 0151

2020 - hylh - 26所示

中央大学基础研究基金

3132019345

1。介绍

在过去的几十年里,基于生物识别技术的识别技术如指纹、面部特征,声纹,和虹膜扫描访问安全,广泛应用于目标识别系统的身份,私人确认等方面的技术和实际使用情况,通过虹膜扫描识别是最安全、准确、适用于满足军事需求的标准( 1]。质量需求,指纹识别是最受欢迎的和成熟的身份识别技术 2]。指纹采集和识别需要特定的设备 3),近年来越来越多地取代了面部识别,通常首选的非接触模式( 4]。面部数据可以收集更容易比虹膜和指纹数据,因为大多数智能手机已经有一个内置的摄像头。然而,人脸识别的准确性依赖于识别条件,如环境亮度和视角 5]。类似于人脸识别,语音识别也是一个非接触模式技术。收集到的声纹可以很容易地使用一个麦克风和其他声音接收器,及其质量要求更少依赖比人脸识别的环境因素 6]。类似于指纹,声纹也含有独特的生物特性和识别精度优于面部特征。然而,语音识别与其他识别技术相比有许多优点。从声纹特征提取数据的主要技术瓶颈,及其实际应用更少比指纹和人脸识别在日常生活中。与人脸识别,采用图像处理方法、声纹是由经典力学波,需要信号处理方法从时域表示语音信号转换成频域表示。这样的声音特性很难实现,但很有效的说话人识别由于生物之间的差异和个人特征不同的声纹。在大多数演讲者识别(SI)的方法,主要有两个过程:一个是提取声音特性,,另一个是学习基于这些特征的识别模型。声音的特性不仅充分代表的共同属性相同的演讲者,而且单独不同的扬声器尽可能远。因此,一个有效的提取声音的特性可以确定硅的性能模型,这些模型可以识别目标从多个扬声器扬声器的话语。

SI的一般过程可以被视为一个决策支持过程决定相应的演讲者的身份的话语。领域的自动语音识别(ASR),大多数的方法如果是由提取的特征,这也是最重要的一个应用程序如果决策支持系统(DSS)的任务。线性预测系数(LPC)提取的线性组合退出演讲,于1967年首次提出语音功能( 7]。由于发音特征命名mel-scale频率倒谱系数(MFCC)在1980年提出了 8),它被广泛应用于SI系统。敏锐的线性预测系数,将语音信号提取的基于LPC 2011年[听觉模型 9]。2012年,一个直方图频域变换的离散余弦变换(DCT)倒频谱系数(HDCC)进行了基于MFCC特征提取的概念( 10]。随后,金和斯特恩一个幂律非线性变换而不是传统的日志非线性变换的MFCC听觉处理,他们提出了一个新功能叫做power-normalized cepstral系数(PNCC)在2016年[ 11]。相比与传统的声音特性,SI模型基于身份向量(矢量i)也提出了一个数据驱动的方法 12),这是一个ASR领域的热门话题。此外,Variani等人深神经网络应用于生成维矢量,这是一个相似的特征矢量i ( 13]。基于这一维向量,一个端到端的SI方法也提出了( 14]。

现有的声音特征的提取方法主要用于基于模型的方法,如MFCC PNCC和LPC的。相比之下,一些新的声音特性,比如维矢量是基于数据驱动的方法。然而,这些方法都是“黑盒”在发音特征的学习( 14]。因此,在这项研究中,一种新的方法使用层次聚类分析的数据驱动的方法提出了SI。有三个主要贡献:(1)提出了一种新的声音特征提取方法基于层次聚类分析的数据驱动的方法;(2)欧几里得度量作为衡量生成一个自适应的特征向量称为“E-vector”;(3)决策支持系统建立了基于E-vector SI任务提供决策支持服务。在数据驱动的层次聚类方法中,各种个人语音特性被认为是学习和提取声音的特征向量。不同cepstral系数之间的距离相同的演讲者使用欧几里得度量测量,并通过分层聚类方法生成E-vector通过最小化欧几里得度量。在单一话语SI的比较实验,E-vector方法提高了识别精度MFCC大约3%和5% HDCC, SI的DSS是基于高斯混合模型(GMM)。在多个话语SI的比较实验,小类的分数E-vector比MFCC和HDCC SI的DSS是基于GMM和隐马尔可夫模型(HMM)。

本文的其余部分组织如下:问题陈述和E-vector介绍部分 2。进行了对比实验评估的性能E-vector节中描述 3。最后,结论部分提供 4。

2。材料和方法 2.1。问题陈述 2.1.1。基于模型的提取声音的特性

现有的声音特性用于SI大多是基于基于模型的方法,如MFCC HDCC, PNCC。MFCC是一个广泛使用的语言特性在1980年代首次提出。MFCC离散傅里叶变换方法适用于将时域信号转换为频域信号。MFCC的变换,我们使用以下方程将频域信号转化为mel-frequency: (1) 梅尔 f = 2595年 ∗ ln 1 + f 700年 , 在哪里 f是原来的频率, 梅尔 f 代表mel-frequency。随后,基于mel-frequency振幅计算了一系列的三角形过滤器,如图 1(一)。最后,MFCC获得通过使用mel-frequency信号的倒频谱分析和三角过滤器( 8]。HDCC是一个新特性提出了MFCC的影响。HDCC创建一个连任两届的直方图箱:50 - 500 Hz的跨度50赫兹和600 - 1000 Hz, 100 Hz的每个如图 1 (b)。DCT后倒频谱系数每本从直方图分析得到,我们可以提取HDCC每本( 10]。PNCC有相似的部分的前两个步骤MFCC的初始过程。接下来,PNCC获得短时谱功率使用方gammatone求和。如图 1 (c),gammatone过滤器是幂律非线性转换,有别于传统的日志中使用非线性MFCC。最后,smoothing-weight处理是用于每一帧,谱减法应用实现噪声抑制( 11]。

图1

(一)MFCC过滤器。(b) HDCC过滤器。(c) PNCC过滤器。

(一) (b) (c)

2.1.2。数据驱动提取声音的特性

现有的研究使用数据驱动的方法如果主要集中在聚类不同的演讲者通过特性相似。例如,阿里巴巴集团提出了一种基于聚类方法的语音识别方法(2017年 15]。他们获得了基于聚类分析的特征向量训练数据。然后,特征向量模型建立了语音识别( 15]。然而,很少有研究将数据驱动的方法应用于提取声音的特性。矢量i、d向量和端到端SI的方法提出了基于数据驱动的方法;然而,他们是黑盒没有透明的工作过程(方法) 12- - - - - - 14]。实际上,声乐数据相关规律占演讲者的个人语音功能。因此,在本文中,小说的特性,E-vector,提取使用提出了一种数据驱动的方法。如果学习的方法作为DSS模型基于E-vector意识到。

2.2。确定决策目标

在决策过程中,一般有四个步骤,如图 2(一个)。起初,决定目标(做)应该发现问题后决定。然后,该计划将基于决策环境设计。接下来,该计划将被评估为了执行计划。如果任务,如果过程可以被视为一个multilabel分类任务。扬声器的数量是类的数量;标签是每个说话人的话语。做的就是实现分类所有演讲者通过识别所有演讲者的身份基于声音的特性,如图 2(b)。

图2

DSS和硅之间的关系。(一)DSS。(b) SI系统基于DSS。

2.3。E-Vector扬声器系统识别

在本节中,我们介绍了为SI-DSS E-vector系统。这是显示在图 3(一个)基于E-vector SI-DSS系统建立了三个步骤:(i)数据预处理,(2)聚类分析,(3)学习模型。连续语音信号时放入E-vector系统,应用数据预处理得到逆离散余弦变换(IDCT)倒频谱系数;然后使用聚类方法分析IDCT倒频谱系数,最后,应用GMM和嗯对扬声器进行分类。下面的图表显示E-vector系统的详细介绍。

图3

SI-DSS E-vector系统的概述。(一)SI-DSS流程图。(b) E-vector过程的流程图。(c) SI系统的流程图。

(一) (b) (c)

2.3.1。第一步:数据预处理

数据预处理的能力是存储语音数据的形式IDCT倒频谱系数。最初的语音数据的形式是一个持续的信号波,和声谱图通常是用来描述连续波信号。在这项研究中,提取声谱图通过以下三个步骤: (1)

第一步旨在使语音信号波更重要。高通滤波过程如下方程用于preemphasize输入信号波( 7]: (2) H z = 1 − μ z − 1 。

在这里, z是输入语音信号,H ( z)是输出预加重语音信号和的值 μ 0.97在本研究中。

(2)

在第二步中,preweighted语音信号分割成小块得到一帧信号(20 ms在这项研究的框架)。

(3)

第三步是添加一个汉明窗, W的信号。汉明窗函数被定义为 (3) W n , 0.46 = 0.54 − 一个 × 因为 2 π n N − 1 , 0 ≤ n ≪ N − 1 ,

在哪里 N每一帧的数量。它能让声音数据更定期分析每一帧信号。

然后,应用同态信号处理得到IDCT倒频谱系数。处理包括三个步骤: (1)

在第一步中,应用基于DCT获得乘法信号方程(4)从所有帧的语音信号。DCT的过程被定义为

(4) C 一个 = ∑ 米 = 0 N − 1 年代 b 因为 π n b − 0.5 米 , 一个 = 1、2 , … , l 。

在这里, 年代( b)输入语音信号和米是它的点; C( 一个)是输出信号一个点的转换:

(5) C 一个 = 年代 h b × 年代 l b 。

在这里, 年代 h b 是高频信号; 年代 l b 代表了低频信号。

(2)

第二步是计算对数能量输出信号的乘法信号转换成一个加法信号如下:

(6) 日志 C 一个 = 日志年代 h b + 日志年代 l b 。

(3)

第三步是应用IDCT获得倒频谱系数如下:

(7) c 一个 = 年代 h b × 年代 l b 。

在这里, c( 一个)是IDCT倒频谱系数, 年代 h b 是输出高频信号,然后呢年代 l b 是输出低频信号。

2.3.2。步骤2:聚类分析对IDCT倒频谱系数

获得的IDCT倒频谱系数是一个数据矩阵,和一行的长度成正比的时间输入声音信号,和一个列的长度成正比的扬声器的输入信号。IDCT倒谱系数的分析过程包括五个步骤: (1)

如果输入声音信号包含米演讲者的演讲,IDCT倒频谱系数可以被设置一个。演讲者的演讲 p( p = 1、2 , … , 米在()可以被描述为 9), n的数量是一个的列。对于这样一个数据矩阵,集群方法可以应用于分析使用数据驱动的方法。提出了一种改进的层次聚类法分析IDCT倒频谱系数只能分组相邻列:

(8) 一个 = 一个 1 ; 一个 2 ; … ; 一个米 , (9) 一个 p = 一个 1 P , 一个 2 P , … , 一个 n P 。

(2)

每一列的设置一个被认为是一个类,所以有吗 n类,如图 3 (b)。

(3)

计算相邻类的距离和相似度值定义为一组。在这里,欧几里得距离测量( 16是用来计算的距离。值的距离越小,相似度越大。欧氏距离 l 我 l 我 ∈ 年代的一个我和一个我 + 1 可以被描述为( 10)。因此,一组年代可以由 n − 1 距离值的数量。它可以被描述为( 11):

(10) l 我 = 说一个我 , 一个我 + 1 = ∑ j = 1 米 n 一个我 , j − 一个我 + 1 , j , (11) 年代 = l 1 , l 2 , … , l n − 1 。

(4)

比较所有的值年代 ;如果欧几里得距离 l 我的一个我和一个我 + 1 是最低的,集团吗一个我和一个我 + 1 成一个类。更新的类集一个。

(5)

重复步骤(2)步骤(4),直到数 n的课程设置一个等于 X( X是由识别准确性)如图所示 3 (c)。然后,在集合的类一个构成了E-vector。

2.3.3。步骤3:学习SI模型

识别过程与模型匹配的输入特性特性集的相似度。在这项研究中,建立了模型的特性集使用GMM和嗯基于E-vector功能算法 1。嗯达到识别任务通过搜索序列最有可能产生某一特定输出序列的隐式状态;这个过程包括六个步骤: (1)

定义一个直言不讳的特性集一个 = 一个 1 , 一个 2 , … , 一个 X 为模型, 一个 X 是数量 X类的特性集一个。

(2)

积累一定的声音特性与他们在每个类的标签一个我声音的特性集一个建立培训特性集。

(3)

获得最好的模型 λ 我为一个我基于训练集,如图 3 (c)。

(4)

产生一个未知的观察序列 O输入功能。

(5)

输入估计的概率特性公关 O / λ 我我 = 1、2 , … , X 。最大的输入特性属于类概率。

(6)

计算评价指标的价值 X是由国家最高的精度。

<大胆>算法1:< /大胆> E-vector扬声器系统识别。

输入: z(连续的语音信号);帧20 ms;步骤10 ms; n= X

输出:E-vector 一个 = 一个 1 , 一个 2 , … , 一个 X ;准确;小类

(1)

初始化: c( 一个)⟶IDCT倒频谱系数

(2)

数据预处理: c( 一个)=数据预处理( z)

(3)

集群:设置年代(← ∅ ),名字 c( 一个)⟶ 一个 = 一个 1 , 一个 2 , … , 一个我 , … , 一个 n 。

(4)

为每一个一个我在一个做

(5)

l 我 = 说一个我 , 一个我+ 1

(6)

把所有 l 我成年代

(7)

如果 l 我 = 弧分年代

(8)

一个 = 一个 1 , 一个 2 , … , 一个我 + 一个我 + 1 , 一个我 + 2 … , 一个 n 。

(9)

如果 n = X

(10)

打破;

(11)

其他的

(12)

继续;

(13)

结束

(14)

结束

(15)

结束

(16)

学习模型:把GMM,嗯⟶准确性、小类

3所示。结果与讨论 3.1。实验设计 3.1.1。直言不讳的语料库的数据集

在实验中,我们使用两个声音数据集。一个是德州仪器/麻省理工学院(TIMIT)语料库,另一个是LibriSpeech语料库。TIMIT语料库应用的代表text-dependent实验,含有6300句所说的630人( 17]。LibriSpeech语料库是各种音频数据集,由文字和声音。因此,LibriSpeech语料库作为代表的text-independent实验( 18]。两组实验TIMIT语料库和LibriSpeech语料库。表 1显示了在实验中使用的扬声器数量与TIMIT LibriSpeech语料库。

表1

数据集TIMIT LibriSpeech主体之一。

	TIMIT				LibriSpeech

没有设置。	T1	T2	T3	T4	L1	L2	L3	L4
许多演讲者	One hundred.	300年	500年	630年	10	20.	30.	40

3.1.2。评价指标

身份识别、研究的几个评价指标被应用于评估算法的性能。假废品率(FRR)病例的比例把匹配的声纹无与伦比的声纹。它指的是比例的情况下,相同的声纹是错误地视为不同的声纹在测试上的声纹识别标准声纹数据库: (12) FRR = 1 − 回忆。

在这项研究中,我们应用精度的措施,精度,回忆,小类分数评估E-vector对其他功能的性能。如果扬声器的数量米, TP 我是真正的正数的我“(0≤ 我≤ 米)人, 《外交政策》我是假阳性的数量” 我”, TN 我是真正的负数的我”, FN 我假阴性的” 我。”

准确计算如下: (13) 精度 = ∑ 我 = 0 米 TP 我 + TN 我 ∑ 我 = 0 米 TP 我 + 《外交政策》我 + TN 我 + FN 我。

精确计算如下: (14) 精度 = ∑ 我 = 0 米 TP ∑ 我 = 0 米 TP 我 + 《外交政策》。

召回代表比例实际上真正积极的设置,并描述如下: (15) 回忆 = ∑ 我 = 0 米 TP 我 ∑ 我 = 0 米 TP 我 + FN 我。

小类的公式描述如下: (16) 微 − F 1 = 2 × 记得×精度回忆 + 精度。

3.2。比较实验 3.2.1之上。优化E-Vector维度

为了决定最优E-vector基于层次聚类分析的维度,我们选择TIMIT语料库(也就是630人。、T4)和LibriSpeech语料库(即40人。、L4)和测量训练精度。拟议中的E-vector特性与不同维度的15日25岁和35岁使用GMM和嗯如果任务。结果在表 2显示15维度E-vector获得最高的训练精度。在实验中TIMIT语料库,630人的语音信号被选作实验。40人的语音信号被选作实验LibriSpeech语料库。这是显示在表 2E-vector获得相同的精度最高,当它由15至35尺寸。我们选择了较小的尺寸,15日E-vector的维度。

表2

识别精度比较。

模型	没有设置。	E-vector (15)	E-vector (25)	E-vector (35)
GMM	T4	1.000	0.970	1.000
GMM	L4	1.000	1.000	1.000

嗯	T4	0.930	0.930	0.930
嗯	L4	0.950	0.950	0.950

3.2.2。Single-Utterance对比实验

我们首先测试了15维E-vector, 13-dimensional MFCC,和15维HDCC SI与输入语音信号包含一个每个说话人的话语。TIMIT语料库中的不同数量的扬声器和LibriSpeech语料库标识使用GMM,嗯。精度结果如表所示 3。最好的表演为每个测试在每个语料库粗体铅字所示。

表3

Single-utterance实验识别精度比较。

模型	功能	T1	T2	T3	T4	L1	L2	L3	L4
GMM	MFCC	1.000	0.990	1.000	0.995	1.000	0.950	0.970	0.975
	HDCC	0.940	0.920	0.926	0.924	1.000	1.000	0.970	0.950
	E-vector	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000

嗯	MFCC	0.930	0.866	0.874	0.860	1.000	0.900	0.930	0.950
	HDCC	0.833	0.830	0.776	0.760	1.000	0.950	0.930	0.925
	E-vector	0.940	0.870	0.780	0.860	1.000	0.950	0.930	0.950

下面是显示:(1)TIMIT语料库,E-vector执行最佳精度1.000当使用GMM,和MFCC的结果相对比的E-vector;HDCC不如MFCC和E-vector大约10%的差距,如图 4(一)。嗯,识别模型时如图 4 (c),结果MFCC和E-vector都是大约0.850。它可以发现所有这些特征参数识别精度超过0.75性能良好。(2)LibriSpeech语料库,E-vector也执行最佳精度1当使用GMM;MFCC和HDCC不如E-vector如图 4 (b)。MFCC几乎是类似于HDCC如图 4 (d)使用嗯,精度大约0.93。在single-utterance E-vector的识别结果显示显著的优势对比实验。

图4

Single-utterance实验精度比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。

(一) (b) (c) (d)

3.2.3。Multiple-Utterance对比实验

为了进一步验证E-vector的有效性,我们进行了实验与输入语音信号包含多个话语GMM,嗯。我们首先使用信号包含三个话语从每个演讲者,和实验结果如表所示 4。随后,我们添加了每个说话人的话语和使用的信号与五每个说话人的话语,结果如表所示 5。

表4

Three-utterance实验小类评分比较。

模型	功能	T1	T2	T3	T4	L1	L2	L3	L4
GMM	MFCC	0.990	0.971	0.965	0.973	1.000	1.000	1.000	1.000
	HDCC	0.897	0.793	0.778	0.765	1.000	1.000	0.978	0.992
	E-vector	0.977	0.978	0.975	0.976	1.000	1.000	1.000	1.000

嗯	MFCC	0.940	0.903	0.902	0.895	1.000	0.933	0.925	0.900
	HDCC	0.877	0.827	0.815	0.807	1.000	0.950	0.956	0.958
	E-vector	0.943	0.920	0.905	0.899	1.000	0.950	0.967	0.975

表5

Five-utterance实验小类评分比较。

模型	功能	T1	T2	T3	T4	L1	L2	L3	L4
GMM	MFCC	0.962	0.948	0.939	0.928	1.000	0.990	0.987	0.990
	HDCC	0.706	0.699	0.659	0.630	0.970	1.000	0.960	0.970
	E-vector	0.968	0.959	0.954	0.948	1.000	1.000	0.987	0.990

嗯	MFCC	0.916	0.889	0.886	0.860	1.000	0.940	0.953	0.940
	HDCC	0.816	0.772	0.753	0.735	1.000	0.890	0.953	0.955
	E-vector	0.912	0.895	0.887	0.876	1.000	0.950	0.920	0.965

在图 5与输入信号,识别结果显示包含三个话语。(1)当GMM用作SI模型,E-vector的小类分数略高于MFCC,大约1%,TIMIT和LibriSpeech主体之一。小类分数HDCC小于MFCC和E-vector大约20%(见图 5(一个))。(2)当嗯SI模型,E-vector小类分数几乎等于MFCC。HDCC不如别人约10%(见图 5 (c)),几乎是等于MFCC和E-vector LibriSpeech(见图 5 (b)和 5 (d))。

图5

Three-utterance实验小类评分比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。

(一) (b) (c) (d)

在图 6,识别结果与输入信号包含五个话语。使用GMM SI模型时,小类几十个E-vector和MFCC几乎相等,如图 6(一)和 6 (b)。当使用嗯SI模型,结果MFCC和E-vector几乎相同的级别,如图 6 (c)和 6 (d)。小类分数HDCC小于MFCC和E-vector大约20%(见图 6(一)),它是一个小(参见图比别人差 6 (b))。LibriSpeech语料库,我们可以找到数据 6 (b)和 6 (d)MFCC和E-vector显示良好的表演与小类的分数超过0.96。

图6

Five-utterance实验小类评分比较。(一)使用GMM TIMIT语料库。(b)使用GMM LibriSpeech语料库。(c)使用嗯TIMIT语料库。(d)使用嗯LibriSpeech语料库。

(一) (b) (c) (d)

由于mirco-F1分数是一个协作测量的精度和召回,它可以更好的表示识别性能和稳定性。因此,我们计算了小类分数的平均值(平均小类)和标准偏差的小类分数(Std。Dev.小类)实验的多重话语(三话语和五话语)和比较的结果E-vector MFCC和HDCC基于不同模型和语料库数据库(见表 6和图 7)。

表6

比较平均micro-F1and性病。Dev.小类SD multiple-utterance识别。

小类	不同的模型
	GMM			嗯
	E-vector	MFCC	HDCC	E-vector	MFCC	HDCC

Avg。	↑0.982	0.978	0.862	↑0.935	0.924	0.879
性病,戴夫。	↓0.018	0.023	0.139	↓0.039	↓0.039	0.090

	不同的语料数据库
	TIMIT			LibriSpeech
	E-vector	MFCC	HDCC	E-vector	MFCC	HDCC

Avg。	↑0.936	0.930	0.771	↑0.982	0.972	0.971
性病,戴夫。	↓0.035	0.037	0.071	↓0.025	0.034	0.029

图7

稳定的比较E-vector、MFCC和HDCC在不同的情况下。(一)GMM-based如果使用TIMIT和LibriSpeech语料库。(b) HMM-based如果使用TIMIT和LibriSpeech语料库。(c) SI TIMIT语料库使用GMM,嗯。(d) SI LibriSpeech语料库使用GMM,嗯。

(一) (b) (c) (d)

在图 7(一),我们可以发现,平均小类和性病。Dev.小类的E-vector比HDCC优于MFCC和更好。然而,图 7 (b)表明E-vector获得类似的性病。Dev.小类MFCC。E-vector仍然优于MFCC和HDCC相比平均小类。随后,我们还可以在数据获得相同的结果 7 (c)和 7 (d)。特别是TIMIT语料库(见图 7 (c)),平均小类E-vector可以针对MFCC和HDCC提高了0.65%和21.40%,和性病。Dev.小类的E-vector可以提高5.41%和21.40%对其他两个声音的特性。总之,上述调查显示,错把匹配的平均比例话语的无与伦比的话语E-vector小于MFCC和HDCC;即FRR multiple-utterance SI E-vector较低的任务。

4所示。结论

在本文中,我们提出了一个新颖的基于DSS声音特征提取的数据驱动的方法。我们的方法学习的E-vector最小化的欧几里得度量使用层次分析IDCT倒频谱系数,通过语音数据预处理。几种不同的图的实验说明了我们的方法的有效性在挑战如果任务。

声音特征提取方法,概括E-vector也是重要的。我们的结果表明,E-vector完美的识别性能——和multiple-utterance实验在不同的语料数据库,有大约1.5%的优势MFCC。也表明,我们的方法是适合GMM和嗯,大约2.1%平均小类的分数优势MFCC。该方法的这些优势有助于voice-feature提取和增强其可用性的功能更多真实的识别任务。在我们未来的工作,我们计划调查余弦相似性和相关系数计算方法提取更优化的特征向量。

数据可用性

给出了本文中使用的数据和代码如下:TIMIT文集: http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3;LibriSpeech文集: http://www.openslr.org/12/;E-vector源代码: https://github.com/XiaoHe68/voice2vector。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

他妈和易建联左贡献同样这项工作。

确认

这项工作是支持部分由中国国家自然科学基金(批准号。61751202下,U1813203, 61803064, 51939001, 61976033),大连科技创新基金(批准号下2018 j11cy022),辽宁振兴人才计划(批准号。XLYC1807046和XLYC1908018),辽宁省自然科学基金(批准号。2019 - zd - 0151和2020 - hylh 26),中央大学和基础研究基金(批准号下3132019345)。

赵

D。

罗

W。

跑

悦

消极的虹膜识别

IEEE可靠和安全的计算 2015年 15 1 112年 125年

工装裤

T.-Y。

Govindaraju

V。

minutia-based部分指纹识别系统

模式识别 2005年 38 10 1672年 1684年

10.1016 / j.patcog.2005.03.016

2 - s2.0 - 22844450724

卡佩里

R。

费拉拉

M。

Maltoni

D。

琐事cylinder-code:一个新的表示和匹配的指纹识别技术

IEEE模式分析与机器智能 2010年 32 12 2128年 2141年

10.1109 / tpami.2010.52

2 - s2.0 - 78049513630

曹

K。

耆那教徒的

答:K。

潜伏指纹自动识别

IEEE模式分析与机器智能 2019年 41 4 788年 800年

10.1109 / tpami.2018.2818162

2 - s2.0 - 85044298008

布鲁斯

V。

年轻的

一个。

了解人脸识别

英国心理学杂志上的 2011年 77年 3 305年 327年

10.1111 / j.2044-8295.1986.tb02199.x

2 - s2.0 - 85004809751

刘

Z。

吴

Z。

李

T。

李

J。

沈

C。

GMM和CNN简短的话语说话人识别的混合方法

IEEE工业信息 2018年 14 7 3244年 3252年

10.1109 / tii.2018.2799928

2 - s2.0 - 85043385905

阿塔尔•

b S。

Hanauer

s . L。

语音线性预测分析和合成的语音波

《美国声学学会杂志》上 2005年 50 637年 655年

10.1121/1.1912679

2 - s2.0 - 0015112070

穆达

Begam

M。

Elamvazuthi

我。

语音识别算法使用梅尔频率cepstral系数(MFCC)和动态时间扭曲(DTW)技术

《计算 2010年 2

蔡

年代。

李

X。

邹

X。

权力规范化知觉作用的线性预测功能强大的自动语音识别

学报INTER-NOISE NOISE-CON国会和会议论文集

2011年

日本大阪

噪声控制工程学院

3022年 3027年

Al-Rawahy

年代。

Hossen

一个。

Heute

U。

Text-independent说话人识别系统基于直方图的DCT-cepstrum系数

国际期刊的知识和智能工程系统 2012年 16 3 141年 161年

10.3233 /凯斯- 2012 - 0239

2 - s2.0 - 84861380344

金

C。

斯特恩

r·M。

Power-normalized cepstral系数(PNCC)鲁棒语音识别

IEEE / ACM交易音频、语音和语言处理 2016年 24 7 1315年 1329年

10.1109 / taslp.2016.2545928

2 - s2.0 - 84976444872

Dehak

N。

肯尼

p . J。

Dehak

R。

Dumouchel

P。

Ouellet

P。

前端为议长验证因子分析

IEEE音频、语音和语言处理 2011年 19 4 788年 798年

10.1109 / tasl.2010.2064307

2 - s2.0 - 79951609039

Variani

E。

Lei

X。

麦克德莫特

E。

洛佩兹莫雷诺

我。

Gonzalez-Dominguez

J。

深层神经网络对小足迹text-dependent议长验证

学报IEEE国际会议音响、演讲和信号处理(ICASSP)

2014年5月

意大利的佛罗伦萨

IEEE

4052年 4056年

10.1109 / ICASSP.2014.6854363

2 - s2.0 - 84905252894

Heigold

G。

莫雷诺

我。

Bengio

年代。

Shazeer

N。

端到端text-dependent议长验证

学报IEEE国际会议音响、演讲和信号处理(ICASSP)

2016年5月

中国上海

IEEE

5115年 5119年

10.1109 / ICASSP.2016.7472652

2 - s2.0 - 84973322289

阿里巴巴集团控股有限公司大开曼岛(肯塔基州)

语音识别的方法及其装置:CN 107564513 A

2018年 CN专利107564513

约翰逊

s . C。

层次聚类方案

心理测量学 1967年 32 3 241年 254年

10.1007 / bf02289588

2 - s2.0 - 0014129195

Zue

V。

Seneff

年代。

玻璃

J。

麻省理工学院的演讲数据库开发:timit和超越

言语交际 1990年 9 4 351年 356年

10.1016 / 0167 - 6393 (90)90010 - 7

2 - s2.0 - 0025477640

Panayotov

V。

陈

G。

Povey

D。

Khudanpur

年代。

Librispeech:一种基于公共领域的asr语料库有声书本

《IEEE国际会议音响、演讲和信号处理(ICASSP)

2015年4月

澳大利亚布里斯班

IEEE

5206年 5210年

10.1109 / ICASSP.2015.7178964

2 - s2.0 - 84946015916