发展高精度分类器对说话人识别系统

文摘

语音信号是富含大量的特性用于生物统计的识别和其他应用程序如性别和情感上的认可。信道条件下体现的主要挑战是由背景噪声和混响导致功能测试和训练数据的变化。本文混合议长识别模型一致的语音特征和识别精度高。功能使用梅尔频谱系数(MFCC)提高了融合一个音高频率系数从语音时域分析。为了提高噪声免疫力,我们提出了一个隐藏层前馈神经网络(FFNN)调整优化的粒子群优化算法(OPSO)。该模型使用10倍交叉验证测试在不同级别的自适应高斯白噪声(AWGN) (0-50 dB)。识别精度为97.83%,从模型获得干净的声音环境。然而,噪声信道实现对该模型的影响较小plain-FFNN等与其他基准分类器相比,随机森林(RF), - - - - - -近邻(资讯)和支持向量机(SVM)。

1。介绍

声音是人类历史上最古老的通讯报道的方法。这是执行的事实,人类不断生存需要分享他们的感受和要求。语音通信是受这一事实可以交换大量的信息,使其成为最佳的媒介沟通比其他可能的替代品,如写作,甚至现代通信设备等电子短信(1]。语言被发明的概念由于人类血统的多样性表现出不同的地理区域。按照环境和自然语言不同的地方表现出的人类。在这些基地,不同说方言和口音是公认的在今天的世界2]。说话人识别系统进一步实现为一个电子解决方案支持安全和隐私执法系统。是首选的服务提供商来保护个人数据和用于防止自主攻击。语音识别系统是基于语音生成系统的独特结构在每一个人3]。声音的声轨是主要的贡献者创建过程;它是空气吹过一组声带使其振动,因此,振动产生的语调。声音流今后通过声音传播通过喉咙和嘴巴。语音语调是直接影响声乐钉的形状和口内可用的对象,如牙齿的数量(4]。系统的一次演讲中遇到各种数字的挑战,对演讲者的造型过程至关重要。说话人识别系统的主要障碍是语音信号的随机性质。这些信号被他们称为随机性质,可以实现电性质的波动在时间。光谱的信息在一个语音信号可以在不同的时期,所以很难依靠频率信息调制的过程音轨(5,6]。说话人识别过程包括两个不同阶段的处理。处理的第一阶段称为text-dependent说话人识别系统,是根据具体的(被告知)声音印在测试和培训。Text-dependent说话人识别是使用时域分析,可实现的,这种方法的缺点是需要完整的测试和列车之间的匹配数据,几乎是不可能的(7,8]。另一方面,在text-independent议长识别,演讲者可以被基于信号频率分析。这通常是通过使用如傅里叶变换频域分析。这种方法的主要缺点是在这样一个领域不一致的实际现实自然的声音。语音信号是时变、信号频率(频谱)信息改变了时间9]。关于上面的场景中,传统模型似乎无法适应性质不同的声音信号。然而,传统模型可以使用傅里叶变换作为基本方法分析频率。其他方法,如零交点、卷积和相关通常用作分析语音信号的时域方法。传统语音识别模型根据上述方法不一致性克服语音信号的时变性质(10]。从流行的声学特征提取方法,LPCC用于(11]因为造型语言产生过程。生产线性预测系数的LPCC的敏感光谱平滑和光谱的偏见。在[12,13],LPCC特征融合与MFCC特征努力改善后的特性而实现普遍高斯混合背景模型(GMM-UBM)。为了提高MFCC特征,汉明窗取代了多个窗口以达到平滑光谱的结果。在[14),从语音信号中提取瓶颈特性通过使用深层神经网络;然而,同样是连接扬声器识别改进的MFCC特征。功能部分融合集的特性是使用基于执行学习(例如,支持向量机(SVM))和使用SR的特征模型15]。另一种方法是在(16]SR性能增强使用语音数据从不同的渠道构建声学特性。降维技术被提出(17采用主成分分析算法。计算的关键是减少解决方案性能增强;相同的有效方法之一是减少帧速率的语音信号18]。降维是在执行19)通过操纵演讲者或话语层通过减少信道噪声的影响(通道得分)20.]。机器学习算法,即朴素贝叶斯(NB)、支持向量机(SVM)和 - - - - - -最近的邻居(资讯),提出了分类算法的谓词(21,22]。

在本文中,我们正在开发一个智能语音识别系统中使用深度学习方法预测扬声器。深度学习模型执行认知任务模型训练与语音信号的特征。前馈神经网络的优化版本中使用服务所需识别的目的。

2。声音处理器

语音信号的预处理是指所有适用于信号的变化之前,实际上是传递到分析器。然而,预处理进行了采样的信号转换为一组样本进行有效的分析。在此,说话人识别系统可以处理大量的扬声器,数据集预处理[准备是一个很重要的一步23]。以下,点是值得注意的,而预处理。250数据集包括声音剪辑记录从许多演讲者,和相同的剪辑需要订购和命名的数字或字母的形式来给他们容易进入处理系统。索引与数据集描述语音信号的名字。如果相同的不可用数据集,它需要被创建。这样就可以形成一个索引作为字符串的可能性更大 ;在默认情况下,索引可用数据集,指数验证是开始匹配索引数据库中的声音剪辑,,在许多情况下,索引可能会失去一些声音剪辑,这将创建一个错误在进一步处理。图1描述数据集预处理的过程。

3所示。混合语音功能

3.1。时间域

基频语音信号是一个有趣的特性;它可以使用互相关方法在时域分析。这个功能的目的是识别语音信号的基频(24]。基频也叫音高频率和使用基音周期计算。这一时期位于之间的互相关信号,代表了时间的最小最大值和最大局部极大值信号语料库。假设语音信号由采样 ,让时移复制相同的信号。互相关( )可以在

数据2和3描绘的合成语音信号之间的互相关和复制的样品转移(阶段)。下一步是评估合成信号的峰值;这些山峰命名为最大的局部最大值如图4和最小局部极大值如图2。

3.2。梅尔·域

梅尔·规模是一个流行的术语在演讲的背景下;它模拟了人耳的价值感觉语音信号。Mel频率不同于当地的频率的信号,和制定梅尔·梅尔谱系数代表了人耳听觉灵敏度的一个特定的语音信号。因此,每个对耳语音信号有不同的影响,和梅尔·频谱系数代表的耳朵响应一个向量的形式八值。梅尔·频谱系数向量可以用下面的方程表示(25]。为了推导出梅尔频谱系数代表耳朵回应的声音首先,语音信号是通过预加重过滤器是为了扩大低功率样本。这个过程是很重要的原因,可能包括低频声音片段导致声音波形(样本)由于窃窃私语或没有大声[26]。然而,预加重过滤器将语音信号和试图统一力量,这样的力量可以均匀的分布在频率作为显示在图5。信号从预加重过滤器可以导致一个新版本的信号增强的信号噪声比。低功率频率更容易受到噪声的影响,较高的预加重滤波器产生一个信号电源插槽,因此,信号功率噪声功率的比例将更大27]。一旦信号结果具有良好的信噪比(信噪比)的预加重滤波器,信号帧中的下一个过程梅尔频谱系数算法。然而,由于语音信号是时变信号意味着频率和时间的改变而不断改变和nonfixed频率可以确保静止,研究人员同意的语音信号仍然固定在很短的时间内更有可能在25毫秒。为此,为了确定信号的属性时不变信号,信号的框架是必须的。这个窗口被称为汉明窗并且可以由以下方程(2);样品和汉明窗的傅里叶变换是描绘在图6。

在哪里代表了汉明窗在语音信号的样本总数。

在进一步措施,每个汉明窗从样本转换成频谱使用快速傅里叶变换(FFT)中给出

在哪里采样信号的快速傅里叶变换 ;此外,Mel频率是来自上面的组件使用梅尔转换公式如(3)。

在哪里是梅尔规模和语音信号的频率赫兹是频率规模的演讲。

最后一步在梅尔频谱算法是模拟人耳感知到的声音信号。因此,用于执行相同的滤波器组。转移函数下面给出的滤波器组实现产生人耳感知声音。过滤器银行应对输入可以显示在图7。也是代表梅尔光谱根据耳朵的规模通常回应语音信号在低和高频率,因此,耳朵像图可以反应一个狭窄的响应低频和给高频宽的响应,因此,对于每一个语音信号,会有不同的反应。

4所示。特征映射

语音信号的特征生成的梅尔·频谱系数(MFCC)法和基频法(音高频率)。梅尔规模得到语音信号的MFCC方法代表了人耳对语音,和它将语音信号划分为一组的windows使用一个三角形滤波器组,并返回不同的窗口大小和较低的频率就越高。换句话说,MFCC可能分离语音信号根据给出的频率范围,取决于梅尔规模(人耳感知)。此外,音高频率也从语音信号获得;它产生一个值在赫兹;说话人识别的基本频率是至关重要的,因为它提出了最低声带振动的频率(16,17]。执行上述两种方法结合的音高频率可能会受到噪音影响协会,因此,它可能不会返回的确切角色语音信号。因此,特征的音高频率法和梅尔·频谱系数法得到和用于识别工作。250语音信号和9个特性对于每一个信号,共有2250个特性(元素)扬声器产生的模型。图8描述的过程特性的组合。

5。模型优化器

5.1。平原FFNN

前馈神经网络模型用于这个项目预测演讲者的角色。然而,每个扬声器的特性应用于模型训练;根据参数表建立模型1。的三层FFNN 30日20日和1节点;选择这个的原因是减少延迟的节点数量的模型的训练和测试阶段。根据图9,LM算法用于训练模型,和目标性能(均方误差)是由等于1 - - - - - -29。三个实验的时间线是由增强模型;在每个试验中,模型是升级为了性能增强。因此,第一个实验依赖表中给出的参数1。在这个实验的训练阶段,人们注意到,结果不同每次重新启动模型自LM算法随机分配重量值,和它重复相同的模型。为了监控模型的性能和处理结果的随机性质,实验重复了100次,结果被记录,然后,平均结果用于检查模型性能(28,29日]。


术语	值

总层	三个
节点分布	三十、二十
学习算法	内置LM
MSE的目标	1 - - - - - -200年
重复	One hundred.

5.2。模型冻结

第二个实验是根据监控结果从第一个经验;性能的神经网络实现对所有100个重复;因此,每一个的重量重复记录。然而,体重冻结技术包括预设定的重量值FFNN模型的重量值,返回最好的成本。冷冻技术可应用于需要训练算法作为现成的权重可以送入预定的性能模型。选择适当的重量值完全取决于前面的实验涉及的记录重量和成本值。图9演示了冻结的过程模型。图显示,程序可以建立测试所有的重量和选择收益率的体重最好的成本。

第三个实验是由另一个试图提高预测的性能,所以新算法作为训练算法。粒子群优化算法被证明有明显的优化前馈神经网络的性能。图10显示了PSO-FFNN算法的流程图。PSO算法是由生产重量值,产生一个增强的性能;下面的步骤来执行算法。

6。结果与讨论

正如在前面的章节所讨论的,下的前馈神经网络研究了几个性能指标,以确定最好的模型,该模型能够预测演讲者的身份。使用三种模式,即纯前馈神经网络,重量freezing-based前馈神经网络,并最终粒子群文中针对前馈神经网络。结果在表列出这些模型的性能2。观察到演讲者预测的准确性是最佳在FFNN PSO用于性能优化;因此,从上述模型记录97.83%的准确率。在其他模型,即纯FFNN和修改FFNN (MFFNN),记录了说话人识别的精度,分别为78.59%和89.25%。PSO-FFNN模型中的最优精度检测。高贵的方法采用PSO算法调优FFNN重量系数产生了权重系数的结果误差最小的预测。通过使用普通FFNN和重量MFFNN冻结法,两种模型的预测结果进行了分析和使用PSO群(重量)发电机为构建生成的随机成群的种子。另一方面,它是意识到的时间预测演讲者的身份使用PSO-FFNN模型为0.97,这意味着该模型能够执行所需任务在最短时间比其他模型。PSO-FFNN模型的快速操作性能以来报道FFNN模型将完全依靠生产重量系数的PSO算法不需要执行独立的(内部)重量的一代。最终,均方误差(MSE)和均方根误差(RMSE)指标也发现最小的(30.- - - - - -32]。MSE和RMSE指标暗示小该模型预测误差的存在。结果在图生动地体现了出来11。


工具	精度	均方误差	时间	时代	RMSE

FFNN	78.59	5.72	2.52	12.00	2.39
MFFNN	89.25	2.11	2.10	10.00	1.45
PSO-FFNN	97.83	1.77	0.97	14.00	1.33

此外,不同的分类器被用于预测演讲者身份等随机森林算法(RF), - - - - - -近邻(资讯)和支持向量机(SVM)。为了评估提出的所有工具的性能, - - - - - -方法验证是使用各种输入方式进行试验。我们模型的准确性分数以及其他10倍演示了算法在各种噪声条件数据12- - - - - -16。准确性措施下明确的声音环境是描绘在图12。准确性措施下10 dB AWGN声音环境是描绘在图13。准确性措施15岁以下dB AWGN声音环境是描绘在图14。准确性措施下20 dB AWGN声音环境是描绘在图15。50岁以下的准确性措施dB AWGN声音环境是描绘在图16。

该分类器例如PSO-FNN期间取得了最佳准确性分数所有噪声条件见表3。


算法/准确性	PSO-FFNN	MFFNN	FFNN	射频	然而,	支持向量机

@ 0分贝噪音	92.4280	79.7520	62.8260	43.8660	82.5720	72.8080
@ 10分贝噪音	91.0280	78.5520	61.4260	42.4660	80.9720	71.4080
@ 15分贝噪音	89.6280	77.5520	60.0260	41.0660	79.9720	70.6080
噪音@ 20 dB	89.2280	76.3520	59.6260	40.4660	79.3720	69.2080
@ 50分贝噪音	80.2280	67.5520	50.8260	32.0660	70.7720	59.6080

7所示。结论

说话人识别是一个重要的阶段,在许多个人身份验证和安全系统;它构建验证逻辑的人使用他们的生物统计的功能,更具体地说,声音的特性。实体的说话人识别系统主要涉及两个阶段称为特征提取和演讲者的分类。然而,这些过程可能开始语音预处理包括语音信号的准备和设置数据集在一起。语音特性包括时域和频域处理;都是语音处理中不可或缺的组成部分,可以用来形成一个最终的识别系统。语音信号预处理是关于信号增强通过减少噪音和删除其他不必要的信息,比如背景噪音和其他同事。它可能涉及沉默删除,删除的低功率样本代表的沉默说出句子(优惠而发言)。这些过程是重要的提高信号质量,使信号更具可读性的进一步处理(阶段)。然而,预处理,以减少额外的计算能力是很重要的,可能利用处理器的能力和扭曲了整个系统的性能。另一方面,一些方法把执行语音信号的特征提取。 The fundamental frequency and Mel frequency cepstrum coefficients are the main approaches employed over this system, whether deep learning approaches are however employed for speaker classification tasks (mapping the features to particular speakers). FFNN is used for mapping the features to their perspective speaker, and the results have shown that PSO-FFNN outperformed the other techniques used in this paper.

数据可用性

使用数据网上公共和自由。

的利益冲突

作者宣称没有利益冲突。

引用

m . Abou-Zleikha Z.-H。棕褐色,m·g·克里斯坦森和s . h . Jensen”的区别的方法选择议长de-identification系统”23日欧洲信号处理会议(EUSIPCO),不错,法国,2015年。视图:出版商的网站|谷歌学术搜索
x风扇和j·h·l·汉森,”发言人认同低声讲话基于修改LFCC参数和特征映射,”IEEE国际会议音响、演讲和信号处理,台北,台湾,2009。视图:出版商的网站|谷歌学术搜索
b . Wang j .赵彭x,在公元前。李”,小说在说话人识别系统中,说话人聚类算法”IEEE学报第五届国际会议上机器学习和控制论,大连,大连,中国,2016。视图:出版商的网站|谷歌学术搜索
b . g . Nagaraja和h s Jayanna“有效窗口单语和crosslingual演讲者使用MFCC识别,”IEEE国际会议上先进的计算机和通信系统,哥印拜陀,印度,2015。视图:出版商的网站|谷歌学术搜索
e·b·塔子和n . El Makhfi健壮的演讲者的混合前端识别在嘈杂的情况下,”2017智能系统会议(IntelliSys),伦敦,英国,2017年。视图:出版商的网站|谷歌学术搜索
r . Martsyshyn m . Medykovskyy l . Sikora y Miyushkovych, n . Lysa和b . Yakymchuk”说话人识别技术的多通道界面自动化系统在压力下,”2013年12日国际会议的经验设计和CAD系统的应用在微电子(CADSM),页447 - 448,利沃夫,乌克兰,2013。视图:谷歌学术搜索
v . m . Sardar和s . d . Shrbahadurkar“议长识别使用低声讲话,”IEEE国际会议通信系统和网络技术2015年,印度浦那。视图:出版商的网站|谷歌学术搜索
a . Maazouzi n . Aqili a . Aamoud m . Raji和a . Hammouch”MFCC和相似性度量说话人识别系统,”2017年国际会议上电子和信息技术(ICEIT)拉巴特摩洛哥,2017。视图:出版商的网站|谷歌学术搜索
k . Daqrouq w . Al-Sawalmeh联合。Al-Qawasmi, i n . Abu-Isbeih“说话人识别基于小波变换的方法,”2008年第五届国际Multi-Conference系统、信号和设备2015年,安曼,约旦,。视图:出版商的网站|谷歌学术搜索
r s Mohsen Bazyar”新议长变化检测方法在两个喇叭分割的说话人识别系统,”IEEE计算机应用研讨会上与工业电子产品(ISCAIE)2014年,马来西亚槟城。视图:出版商的网站|谷歌学术搜索
m·j·阿拉姆t . Kinnunen·肯尼·Ouellet和d . O ' shaughnessy”球使用i-vectors MFCC和议长PLP特性验证,”言语交际,55卷,不。2、237 - 251年,2013页。视图:出版商的网站|谷歌学术搜索
n·m·奥马尔和m . e . El-Hawary”功能融合技术基础培训MLP为说话人识别系统。”2017年IEEE 30日加拿大电气和计算机工程会议(CCECE)2017年,温莎,加拿大。视图:出版商的网站|谷歌学术搜索
b . Dautrich l·拉宾,t·马丁,“不同的滤波器组的影响参数对孤立词识别,”IEEE声学,演讲,和信号处理没有,卷。31日。4、793 - 807年,1983页。视图:出版商的网站|谷歌学术搜索
h . Zeinali h . Sameti, l . Burget”HMM-based phrase-independent矢量i text-dependent议长验证器,”IEEE / ACM交易音频、语音和语言处理,25卷,不。7,1421 - 1435年,2017页。视图:出版商的网站|谷歌学术搜索
y金,p的歌,w .郑,l .赵”特征选择和特征融合组合与说话者不相关的语音情感识别的方法,”IEEE国际会议音响、演讲和信号处理(ICASSP)佛罗伦萨,意大利,2014年。视图:出版商的网站|谷歌学术搜索
中州。涂,j . Du问:Wang L.-R x包。戴和学术界。李,“与多通道信息融合框架功能连接和多角度系统结合deep-learning-based健壮的识别的麦克风阵列语音,“电脑语音和语言,46卷,第534 - 517页,2017年。视图:出版商的网站|谷歌学术搜索
w·拉奥和m . w . Mak”,提高基于矢量i扬声器的性能验证通过话语分区”IEEE音频、语音和语言处理,21卷,不。5,1012 - 1022年,2013页。视图:出版商的网站|谷歌学术搜索
t . Kinnunen、e·卡尔波夫和p .弗兰提“高效在线扬声器群组选择方法验证,”在第八届国际会议上口头语言处理济州岛,韩国,2004年。视图:谷歌学术搜索
n . Dehak r . Dehak p·肯尼:介绍,p . Ouellet和p . Dumouchel“支持向量机和快速得分低维总变化空间的议长验证,”十年会的国际言语交际协会布莱顿,页1559 - 1562年,英国,2009年。视图:谷歌学术搜索
r·麦克拉纳罕p·l·德莱昂,“减少计算矢量i的说话人识别系统使用树结构通用背景模型,”言语交际卷。66年,36-46,2015页。视图:出版商的网站|谷歌学术搜索
t·h·Aldhyani a s Alshebami, m . y . Alzahrani“软聚类为加强慢性病的诊断在机器学习算法,”医疗保健工程卷,2020篇文章ID 4984967, 16页,2020年。视图:出版商的网站|谷歌学术搜索
h . i Alsaadi a . m .拉法o .到了和o . n . Ucani”计算智能算法处理提高入侵检测系统的降维,”信息科学与工程》杂志上,36卷,不。2、293 - 308年,2020页。视图:谷歌学术搜索
s . Dagtas m . Sarimollaoglu和k·伊克巴尔,“综合与text-independent虚拟环境实时议长识别、”《IEEE第六多媒体软件工程国际研讨会(ISMSE ' 04),页557 - 560,迈阿密,佛罗里达,美国,2004年。视图:出版商的网站|谷歌学术搜索
v . r . Apsingekar p·l·德莱昂,“基于支持向量机的说话人识别系统使用GMM参数”2009年税收艾斯洛玛尔会议的会议记录信号,系统和电脑太平洋格罗夫,页1766 - 1769年,CA,美国,2009年。视图:出版商的网站|谷歌学术搜索
c·库马尔·拉赫曼,库马尔,a . Mehmood和g . Shabir”分析MFCC和BFCC在说话人识别系统”2018年国际会议上计算、数学和工程技术(iCoMET)苏库尔,巴基斯坦,2018年。视图:出版商的网站|谷歌学术搜索
A.-E。Maazouzi: Aqili、Raji m和A . Hammouch”说话人识别系统用功率谱密度和相似性度量,”2015第三世界复杂系统会议(“)2015年,摩洛哥马拉喀什。视图:出版商的网站|谷歌学术搜索
d·l·艾哈迈德该导弹”的调查印尼议长识别通道相关的建模使用矢量i, "东方国际章协调委员会会议和演讲的标准化数据库和评估技术(O-COCOSDA),2016年巴厘岛。视图:出版商的网站|谷歌学术搜索
y山和朱问:“扬声器声音变化环境下识别,”2014年国际会议上音频,语言和图像处理,上海,中国,2014。视图:出版商的网站|谷歌学术搜索
g·加西亚·t·埃里克森和研究。荣格》统计的说话人识别系统的性能评价方法,”2007年IEEE国际会议音响、演讲和信号处理——ICASSP ' 07火奴鲁鲁,嗨,美国,2017年。视图:出版商的网站|谷歌学术搜索
h·h·Theyazn Aldhyani“智能时间序列模型来预测带宽利用率”、“计算机科学与应用程序的国际期刊,14卷,不。2、130 - 141年,2017页。视图:谷歌学术搜索
f·r·Chowdhury美国。Selouani和d . O ' shaughnessy“分布式自动text-independent发言者使用GMM-UBM识别模型,”2009年加拿大电气和计算机工程会议圣约翰,问,加拿大,2016。视图:出版商的网站|谷歌学术搜索
中州。曹国伟,”发言人识别措施,使用成对的对数似然比”2012年第九届国际会议上模糊系统和知识发现中国,重庆,2012年。视图:出版商的网站|谷歌学术搜索

应用仿生学和生物力学

先进的计算和工程仿生学和医疗应用程序

文摘