DGR:人类语言使用的性别识别一维传统的神经网络

文摘

演讲必须在人类的声音基本上由副语言的信息用于许多语音识别应用程序。性别的声音被认为是关键部件之一从一个给定的声音,发现一个任务涉及到某些并发症。为了区分性别和声音信号,一组技术被用来确定相关特性用于建立一个从训练集模型。该模型用于确定性别(即。从语音信号,男性或女性)。的贡献三个方面包括(i)提供分析著名的语音信号特征信息使用一个著名的数据集,(2)研究各种机器学习模型的不同理论家庭分类性别、声音和(iii)使用三个突出特征选择算法找到充满希望地最优特性对提高分类模型。实验结果显示subfeatures超过他人的重要性,这对提高分类的效率是至关重要的模型的性能。实验表明,最好的回忆价值等于99.97%;最好的回忆值是99.7%,两个模型的深度学习(DL)和支持向量机(SVM),特征选择,最好的回忆值是100%支持向量机技术。

1。介绍

人类语言的声音是一个有效的沟通方法组成的独特的语义语言和副语言的特征,如性别,年龄,语言,口音,和情绪状态。人类声音的声波组成是独特的在所有的生物产生声自每一波有不同的频率。基于语音识别人类的性别是一个具有挑战性的任务的声音和声音的分析师部署大量的应用程序包括(i)有效的广告和营销策略在客户关系管理(CRM)系统依赖于性别互操作性等用户界面风格以及偏好的单词和颜色;(2)调查刑事犯罪场景声音;和(3)提高人机交互(HCI)系统特别是对话系统通过定制服务,依靠性别声音,同时提高用户满意度的水平。因为通过语音识别鉴定性别的重要性,人类的声音应该转换从模拟到数字形式提取有用的特性,然后构造分类模型。分类器的鲁棒性和有效性取决于质量的特性,取决于训练集采用机器学习(ML)技术。因此,诱发的声音特性起着至关重要的作用在提高分类器的效率因为人类的声音是负责nonuseful特性。研究提高语音分类器的效率是丰富的,尤其是学习的过程从声音中提取有效的特征包括识别语音信号组件的语言内容和处置nonuseful背景噪音等内容。

有一组特征用于识别性别的声音。最共同的特征用于语音性别识别mel-scaled功率谱图(Mel) mel-frequency cepstral系数(MFCCs),功率谱图色(色),光谱对比(对比),和色调质心特征(Tonnetz)。通过提取的特征结合性别标签作为训练集的一种形式,毫升技术用于构建一个高质量的模型识别语音性别,如图1。特别是,每个分类技术是用来构建一组假设模型并选择最优的一个。这个模型分类未知的声音标签通过接收声音的特性和分类性别的声音。

大量语料库的研究进行了解决语音分类器旨在提高效率的程序所使用的准确性。胡锦涛et al。(1)使用两层分类器(音高频率和GMM分类器)来识别说话者的性别对TIDIGITS数据集达到98.65%的成功率。Djemili et al。2]使用的四个分类器包括GMM,多层感知器(MLP),矢量量化(VQ),和学习矢量量化(LVQ)分析声音取自IViE语料库。他们设法实现96.4%的成功率。李等人。3)联合估计的语音声学级别的五种不同的方法为一个分数级别。使用日期的结果数据集的性别分类81.7%的成功率。Yucesoy和Nabiyev4)提出了一个识别系统扬声器使用融合七分子系统的MFCC特征向量,PLP, GMM和韵律在三种不同的分类器,支持向量机,GMM-SV-based SVM结合在分数级别。分类性别认同使用日期数据库上的成功率是90.4%。李和夸克(5)使用两个分类器:支持向量机,决策树(DT) MFCC特征,在一个私人主体识别性别的声音。总体精度使用MFCC-SVM和MFCC-DT性别分类分别为93.16%和91.45%,分别。

最有效的分类和特征提取器优越的精度在语音性别识别包括深层神经网络(款)和卷积神经网络。Qawaqneh et al。6)提出一个适当的技术来提高MFCC特征,然后调整款层之间的权重。这些改进的MFCC特征评估款和i矢量分类器的总体精度分别为58.98%和56.13%,分别。夏朗和里7)相比,两种分类方法(SVM)款使用单一和组合特征向量强劲的声音分类。结果显示更好的性能的技术,因为它是款强劲,噪音低传感方法。

在这个工作中,提出了一种新颖的方法来描述语音性别使用一组不同的特性以及不同的ML算法从不同的家庭。这些特征显示它们的有效性在提取语音模式,因此分类性别。的贡献是证明如下:(我)研究一组语音特性和检查的影响尽可能适合性别分类技术的特性(一)RQ1。在多大程度上是选择语音信号特征构建机器学习分类器有用吗?(2)使用不同毫升技术的各种家庭的语音性别识别提取和高效的特点(b)RQ2。是什么性别语音识别各种毫升模型应用程序的性能?(3)著名的自然特征选择评估方法选择最优的特性(c)RQ3。在多大程度上使用自然特征选择评估有助于提高ML性能的技术?

本文的结构组织如下:相关工作介绍介绍。部分2讨论了该方法在给定语音性别分类。它提供了一个详细的讨论语音识别的分类器,包括预处理的阶段,提取特征,毫升技术,评价指标和特征提取方法。部分3介绍了实验设置和研究问题的答案在每个部分之后。结论和未来的工作进行了讨论和总结4。

2。深性别识别(DGR)

拟议的演讲性别分类方法包括一组阶段简要地讨论了。转换阶段开始的声音,从它的抽象表示,成一个一致的形式,以提取相关特性。然后,选择相关特性作为输入来构建分类器模型识别人类的性别的声音。此外,DL模型正在建造中自动提取有用的特性和喂成一个完全连接的人工神经网络(ANN)的分类。然而,在这里,一组为其他过程特征提取模型而不是DL和分类技术进行了总结如下。

2.1。语音预处理

声音传播不可避免地容易受到噪声干扰和声音衰减,需要一个预处理过程为特征提取净化。这一阶段显示了一组步骤如下。

2.1.1。A / D转换的信号

使用A / D信号转换将给定声音从模拟到数字信号的采样与量化技术(8]。信号的A / D转换制定一个机器可以理解的形式,以方便操作。

2.1.2。预加重的过程

由于在语音信号的高频部分衰减,有必要需要使用预加重过滤器。预加重过滤器(或语音)波形趋于平缓的信号。过滤过程低频干扰,尤其是在低频部分功率频率干扰,为了强调高频部分产生一个高通滤波器进行谱分析的干扰。这个过程发生在A / D转换的一阶数字预修正滤波器方程(9]: 在哪里z代表了过滤和μ预加重滤波器系数的值通常在(0.9,1)不等。

2.1.3。帧阻塞和汉明窗

帧阻塞是过滤处理数字信号的数量N小段帧相邻帧隔开米( )。汉明窗最小化语音信号不连续的过程之前和之后的每一帧中的窗口框架。这种方法通常用于MFCC mel-frequency扭曲前一步,梅尔尺度计算。的汉明窗的分析表示在哪里窗口操作,n单个样品的数量,N是语音样本的总数9]。

2.1.4。快速傅里叶变换(FFT)

FFT算法一般用于估计离散傅里叶变换(DFT)的序列,或者它的逆矩阵形式。在演讲的声音信号,FFT将每一帧N样品从时域信号的频域形式(10]。FFT是一个计算DFT的高效实现方法,这是定义在一组N样品如下: 在哪里是一个复杂的数量视为一个绝对值(频率的大小或模量)。由此产生的序列的解释如下:积极的频率吗对应的值 ,而负频率对应于。代表了采样率。获得的结果被称为语音信号的频谱。

2.2。从数字语音信号中提取特征

有一组相关功能,可以推断出从语音信号。因此,一个预处理阶段需要准备的语音信号作为输入一组特征提取技术。这些套功能和语音性别作为一个标签代表的训练集建立一个分类器模型,以认识到性别的声音讲话。可视化的图2显示一个声音样本,这是一个英国英语女性的声音和它的功能。本文中使用的功能如下。

(一)

(b)

(c)

(d)

(e)

(f)

2.2.1。Mel-Spectrogram

Mel-spectrogram计算mel-scaled功率谱图系数。mel-spectrogram类型的一个对象代表声音的声波时频表示,如图2 (b)。功率谱密度是采样点周围等距的次数和频率(mel-frequency范围)。mel-frequency规模被定义为

2.2.2。MFCC

MFCC代表准确的声道过滤的人声也体现在信封的短时功率谱,如图2 (c)。为了计算MFCCs,应遵循一组连续的步骤:

(1)帧信号短帧。音频信号被陷害为20 - 40 ms (25 ms是标准)帧来克服样本的变化在很短时间内将在很长一段时间的不断改变。

(2)功率谱的周期图。这个计算每一帧的周期图估计功率谱,确定频率的框架。

(3)应用梅尔Filterbank幂谱(或求和的能量在每个过滤器)。估计需要一个过滤器的能量在不同频率区域出现在一群聚合周期图箱加窗周期图谱估计。因为不必要的信息因此,梅尔filterbank估计更高频率的能量接近0 Hz然后关心变化较少。

(4)所有的对数Filterbank能量。大变化的能量比例使用对数刻度没有不同的声音大的能量。对数刻度是渠道标准化技术,也利用cepstral意味着减法。

(5)DCT的日志Filterbank能量。因为filterbank相关的能量,导致重叠,使用DCT decorrelate能量。这个生成对角协方差矩阵的特性。

(6)2 - 13 DCT系数。选择更高的DCT系数减少filterbank能量的快速变化和丢弃。

2.2.3。Chorma-STFT(短时傅里叶变换)

Chorma-STFT计算chromagram从波形或功率谱图,如图2 (d)。色度特性是强大的代表整个的音乐音频频谱是代表12个不同的半音来投射到12箱(或浓度)的音乐八度。

2.2.4。Spectral_Contrast

Spectral_Contrast计算光谱对比,使用方法定义在[11]。它代表的相对光谱分布而不是平均谱包络。

2.2.5。Tonnetz

Tonnetz计算色调质心特征(或Tonnetz)、方法(后1)检测音乐音频信号的谐波含量的变化。

2.3。分类学习技术

分类学习算法的目标是找到一个最优分类器模型识别测试样品提供的特性和未知的标签。几个学习技巧从根本上揭示了哲学理论作为数学建模知识形式。为了使用不同形式的多样性,各种家庭的一组分类学习算法。特别是,所选择的分类器的家庭包括以下(12]。

2.3.1。贝叶斯

贝叶斯是一个直接的方法,找到最好的假说通过使用贝叶斯定理作为概率定理建立规则,或者基于分类模型。两个著名的使用方法,贝叶斯网络(BN)和朴素贝叶斯(NB)模型。

2.3.2。功能

在这个家庭中,分类器构建一个函数(或假设)的输入域(即。、功能)和地图范围的输出(即。标签),形成一个功能分类。一组模型是使用多层感知器(MLP), SMO(序列最小优化支持向量机)、物流(L)、支持向量机(SVM线性(S_L), SVM多项式(S_P)和SVM径向(S_R)),和潜在狄利克雷分配(LDA)。

2.3.3。深层神经网络(款)

款是一个框架的两个阶段,工程特点和分类13,14]。工程过程特性自动从原始数据中提取有用的和非线性特性使用卷积和池层通过优化权重W层间(或特征图)(15]。在分类阶段,有用的特性是平作为一个向量送入一个完全连接安。在这部作品中,款的架构,如图3,接收的MFCC特征输入语音作为一维(1 d)数据。这些特性被送入一个回旋的层,由三层32、48、120个神经元使用ReLu作为非线性激活函数。池(或二次抽样)层遵循传统的层使用max函数减少导致功能的大小。最后,这些特性被夷为平地的作为输入向量的完全连接安三致密层的128个神经元,64个神经元使用ReLu函数,2代表的性别输入输出神经元的声音使用softmax函数(即。规范化的概率函数)。两个1 d款模型使用的规范化卷积神经网络(DL_norm)和深深卷积神经网络(DL)。1000款时代的参数设置(或迭代的数量),25%辍学(或调整),亚当优化器,池和特性图2的大小2。

2.3.4。懒惰的

懒惰学习者简单分类新样本估计向量样本之间的相似性特征和样本训练集的向量,然后分配的最类似的测试样本。懒惰的分类器不同于其他方法称为积极的学习态度。渴望学习者构建一个机器学习模型在测试过程随时可用的分类器模型。在这项研究中使用的懒惰的学习者是IBk和KStar ( )。

2.3.5。元

学习的想法是一个专家分类器的整体弱分类器相结合的方式来预测一个标签使用平均或投票的方法。演算法(Ada)和装袋(B)是众所周知的算法。

2.3.6。树

每个分类器是一种分层树的一个节点在每个级别代表最好的属性在这一水平,而弧表示该属性的值。决策树(J48) (RF)和随机森林模型。

2.3.7。规则

规则遍历每个特性值和创建一个规则,找到最常见的标签。选择的标准特性取决于计算规则的错误率。三种技术使用,专家(1 R) Ridor (R)和粗糙集(RS)模型。

2.4。特征选择技术

构建一个最优分类器模型的影响没有相关功能用于构建这样一个模型。这些特性模型产生的低精度提供了标签导致underfitting或过度拟合问题。因此,选择相关的子集的必要性是必要的。三个特征选择优化器使用来源于自然behaviour-evolutionary搜索,粒子群优化(PSO)搜索,和狼搜索(16- - - - - -18]。每个算法生成一组单独的解决方案,然后选择最优解决方案基于学习者评估指标和优化器(或评估者)。在这部作品中,评价指标使用ROC曲线下面积(AUC)来验证分类器是否能单独的正面和负面的样品分离和识别的最佳阈值(19]。相反,RF分类器从树上家庭作为评估者选择最佳特征子集。

2.5。评价

在此阶段,特别是在训练阶段,使用10倍交叉验证方法为每个实验重复10次在每个构建分类器的过程。使用的评价指标是精度和召回20.]。精度的比率相关样本获取的,而回忆的比例是检索和相关样品的总量相关样本。

3所示。实验结果

一组实验是进行评估的贡献,其中包括研究提取的效率特性,评估不同的学习技术,分析了三个自然优化用于特征选择。这一节还显示了数据集、实验参数和设置,然后介绍了评价的贡献。

3.1。实验设置

人工声音的标准数据集的研究(21使用)。数据集由20种语言。每种语言有16个声音样本的八个文件为每个性别。产生的人工语音信号数学再生时间和光谱特征的人类语言。这些人造的声音在100 Hz之间带宽和8 kHz,大大影响了线性和非线性通信系统的性能。人造的声音主要用于语音处理系统和设备的客观评价。与持续的活动(即单通道。,out pauses) is sufficient for measuring characteristics. The advantage of generating artificial voice is that it is more easily generated and has smaller variability than real voice.

自然特征选择方法的参数设置在Weka工具(https://www.cs.waikato.ac.nz/ml/weka/)作为默认设置。虽然有一系列的自然方法,本研究介绍了最常见的,这是进化搜索算法搜索,搜索和狼。

3.2。语音功能效应和相关性

为了研究哪些特性建立一个最优分类器,相关特性之间的关系必须检查展示它们是如何相互关联的。四种功能类型,在目前的工作,被认为是包括MFCCs、彩度、梅尔,Tonnetz。提出了图之间的关联特性4显示一个分散的情节代表不同的功能类型之间的相关关系。每个表包含一个制定评估特性值的线性回归方程。此外,它阐明了相关系数。是一个统计指标,确定距离真正的数据点拟合的线性回归模型。这意味着,如果值接近1,数据是高度拟合的回归,和没有区别影响测试标签,或者,相反,一个坏相关的标签。

(一)

(b)

(c)

(d)

特别是,如图4,最好的之间的0.332是MFCC和色度特性。相比之下,根据图表,最严重的色度和对比度特性之间的相关性发生等于0.35。在每一个功能类别,MFCC特征有最好的相关性与色度特性等于0.332和糟糕的相关性与Tonnetz特性等于0.0012。色度特性与梅尔最糟糕的相关特性等于0.0004相比其他功能类别。梅尔·特性恶化相关值与Tonnetz特性相比,如图4 (c),等于0.0062。Tonnetz特性有最糟糕的相关性值为3.2e⁻⁶相比之下功能类别。

总之,MFCC、浓度和梅尔·特性表现出高效的性能更相关。原因是这些特性从信号中提取高能系数,相比之下,其他功能关注音乐的音调信号。这回答研究问题RQ1确保选择更合适的特性的重要性可能为声音语种信息方面建立更准确的分类器。

3.3。语音性别识别和分类

这项工作旨在建立一个分类器识别给定人类声音的性别。性别的声音,无论是男性还是女性,不同的信号能量和调优。因此,有必要构建一个分类器模型区分男性人类的声音从女性的声音,因为如上所述在许多应用程序中是很重要的。

为了确保多样性构建和使用分类模型,不同的理论构建监督分类器,如图5。图中显示一个条形图,x设在代表和监督学习方法y设在表示精度/召回评估指标从0.86到1。如图所示,该函数整体性能优越家庭实验结果相比其他家庭特别是DL_norm和SMO技术与精密/回忆值约99.97%和99.7%,分别。然而,特别是BN技术显示出更好的性能比贝叶斯家族的NB技术精度/召回大约10.2%的价值。这意味着网络图的BN的概率方法相比更健壮的NB的规则生成方法。函数中的家庭,DL_norm并在本地SMO技术获得显著的性能一般。IBk技术成果主要性能相比方法以2.2%为IBk方法和召回的价值99.1%方法有回忆价值的97%。元家的演算法得到的值精度高/回忆比B技术比例增加到13.12%。在增量式规则的家庭,R技术获得一致的性能值相比1 R和RS方法。家庭规则显示低性能的方法与其他家庭相比,但结果给出解释这样一个结论。在树上的家庭,很明显,RF获得一致的结果相比,J48技术性能值增加2.1%。

DL_norm SMO作为重要的技术来评估他们的表现相比,最好的技术进行介绍。公平的实验相同的数据集。图6显示的精度值DL_norm和SMO技术和最先进的方法。如图所示,DL_norm SMO仍然表现出更好的性能与其他先进的方法相比,能够确保承诺使用SMO DL_norm和性别识别的技术。

简而言之,我们讨论了构造分类器模型识别语音性别通过使用各种不同的技术理论的家庭。结果表明,家庭收益函数一致和显著的性能值使用SMO DL_norm和技术。这意味着建立这样的模型的理论方法也会影响人类的声音性别歧视。每毫升技术算法使用良好的特性可能是一个有前途的方法,语音性别识别应用程序。因此,这些结果让我们RQ2断然回答研究问题。

3.4。特征选择技术和结果

建筑分类技术的性能是影响质量的训练集的特性。因此,有必要选择最优特征增强语音性别识别模型的性能。三种最常见的优化器是利用特征选择受自然行为,EA, PSO和狼技术包装选择算法。这些方法在技术上依赖搜索空间的解决方案,选择最优的评估分类器如RF评估者。

五个功能类别进行了讨论与每个类别的一组功能。128年有40岁,12日,7日和6 MFCCs特征子集,色度,梅尔,对比,和Tonnetz分别。然而,图7显示了一个条形图,解释了每个类别的选择subfeatures使用三种选择方法。的x而设在代表了特征类y设在代表的数量选择subfeatures选择方法。特别选择的百分比subfeatures使用EA, PSO,狼与技术(55%、47.5%、47.5%),(16.7%、16.7%、25%),(41.1%、44.5%、46.88%),(42.86%、57.1%、28.6%)和(16.7%、50%、50%)平均为34.5%,43.2%,39.6%,MFCCs,色度,梅尔,对比,和Tonnetz分别。百分比表明,EA算法选择少量的subfeatures浓度和Tonnetz类别。PSO的技术只有少数subfeatures浓度类别,而狼方法选择少量的subfeatures色度和对比度类别。这个问题如何如果这些影响subfeatures毫升技术用于语音性别识别应用程序需要回答。

为了评估选择subfeatures从三个特征选择技术识别人的声音的性别,进行类似的实验在同一家庭的ML技术,如图8。图中显示三个柱状图的三个选择算法x设在和y设在类似图5。结果明显改善分类器的性能模型在整体有大约相同的效果的三种技术的家庭在选择最优特征根据ML性能的技术。特别是,最佳性能精度/回忆值subfeature选择进化后,算法,和狼方法L方法99.7%,S_P方法为100%,分别与射频方法99.4%。

(一)

(b)

(c)

总之,这些结果确保EA选择算法获得高评价性能以99.7%的精度/ L回忆价值方法也与少数subfeatures比例34.5%的平均水平相比,PSO和狼技术。如果有宽容的比例选择subfeatures算法显示了优越的导致人类的声音性别分类使用SVM_P毫升技术达到了100%。因此,使用自然的特征选择算法是有用的在提高ML性能的技术,导致少量的相关特性。这相应地RQ3回答研究问题。

4所示。结论和未来的工作

认识到人类声音的性别被认为是一个具有挑战性的任务,因为它的重要性在不同的应用程序。的贡献三个方面包括(i)研究提取的特征通过检查彼此之间的关系,(2)构建分类模型使用不同的ML技术来自不同的家庭,和(3)评估自然特征选择技术在寻找最优的子集对分类性能的相关特性。特别是,三个功能类别执行有效,因为他们的理论方法提取语音信号的相关系数的能量,这是MFCCs,彩度、和梅尔,这RQ1回答研究问题。从的角度分类器的性能,毫升技术以不同的方式表现。结果表明,函数家族获得了更好的性能比其他家庭。虽然功能家庭优越的结果,其他技术有可喜的成果,这让我们RQ2回答研究问题。最后,一组实验进行了使用三种常见的特征选择技术受自然启发,EA, PSO和狼方法使用射频作为评估者。这些包装器选择技术从功能类别选择subfeatures平均大约39.1%的整体特性。尽管少数subfeatures,毫升技术性能的提高有一些特征在决定人类声音的性别无关。这也RQ3回答研究问题。

在未来的工作中,更多的实验正在进行使用很多功能类别,毫升技术,和其他自然特征选择技术。此外,该技术正在检查在不同的数据集从这里只是一个标准的人造的声音从研究[21使用)。使用它背后的原因是,它包含了许多不同的语言(即。,20种语言),以及声音文本太长。

数据可用性

人造的声音的标准数据集的研究(21)用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

吴y, d, a . Nucci Pitch-based性别认同两阶段分类,“安全性和通信网络,5卷,不。2、211 - 225年,2012页。视图:出版商的网站|谷歌学术搜索
r . Djemili h . Bourouba, m . c . A . Korba”基于语音信号的性别识别系统使用四个分类器”《2012年国际会议上多媒体计算和系统摩洛哥丹吉尔,页184 - 187,,2012年5月。视图:谷歌学术搜索
k . j . m . Li汉,美国时称,“议长年龄和性别自动识别使用声音和韵律信息融合水平,”电脑语音和语言,27卷,不。1,第167 - 151页,2013。视图:出版商的网站|谷歌学术搜索
大肠Yucesoy,诉诉Nabiyev score-level融合分类的新方法一个演讲者的年龄和性别,”计算机与电气工程卷,53 29-39,2016页。视图:出版商的网站|谷歌学术搜索
硕士。李和K.-C。夸克”,性能比较性别和年龄组为人机交互识别,”IJACSA)国际期刊《先进的计算机科学和应用程序,3卷,不。12日,2012年。视图:谷歌学术搜索
z Qawaqneh Mallouh:篇名,b . d . Barkana“深层神经网络框架和转换MFCCs议长的年龄和性别分类,“以知识为基础的系统卷。115年,为5 - 14,2017页。视图:出版商的网站|谷歌学术搜索
r . v . Sharan t·j·莫伊尔,“健壮的声学事件使用深层神经网络分类,”信息科学卷,396页/,2017。视图:出版商的网站|谷歌学术搜索
j·g·Proakis和d . g . Manolakis“数字信号处理”原理、算法和应用程序美国,新世纪,上台北,第3版,1996年版。视图:谷歌学术搜索
m·格里马尔迪·康明斯,“议长识别使用瞬时频率”,IEEE音频、语音和语言处理,16卷,不。6,1097 - 1111年,2008页。视图:出版商的网站|谷歌学术搜索
K.-I。Kanatani”、快速傅里叶变换”粒子表征技术页,31-50 CRC出版社,2018年美国佛罗里达州博卡拉顿的。视图:谷歌学术搜索
w·阿卜杜勒:Kasabov, D.-N。新西兰”,提高语音识别性能通过性别分离。”变化,9卷,p。2001。视图:谷歌学术搜索
i . h .威滕·e·弗兰克,m·a·霍尔数据挖掘:实用机器学习工具和技术,摩根Kaufmann出版商Inc .)、旧金山、钙、美国第3版,2011年版。
w . Di, a . Bhardwaj和j·魏、深度学习要点:你的实践指南深度学习和神经网络建模的基本原理Packt发布,伯明翰,英国,2018年。
李z d . Hoiem,“学而不忘。”IEEE模式分析与机器智能,40卷,不。12日,第2947 - 2935页,2018年。视图:出版商的网站|谷歌学术搜索
s . Hinterstoisser诉Lepetit、p . Wohlhart和k . Konolige”pre-trained形象特点和合成图像深度学习,”欧洲计算机视觉的诉讼施普林格,页682 - 697年,慕尼黑,德国,2018年9月。视图:谷歌学术搜索
y Chtioui、d·伯特兰和胡须,“遗传算法的特征选择。应用人工视觉种子歧视,”粮食和农业的科学杂志》上,卷76,不。1,第86 - 77页,1998。视图:出版商的网站|谷歌学术搜索
e . Emary h . m . Zawbaa c . Grosan和a . e . Hassenian”特征子集选择方法由灰狼优化”Afro-European工业发展的会议答:亚伯拉罕,p . krom诉Snasel, Eds。,pp. 1–13, Springer International Publishing, Cham, Switzerland, 2015.视图:谷歌学术搜索
雪,m . Zhang和w·n·布朗,“粒子群优化分类:特征选择的多目标的方法,”IEEE控制论,43卷,不。6,1656 - 1671年,2013页。视图:出版商的网站|谷歌学术搜索
l . b .贪念,“信号检测能力和医疗决策,”科学,卷171,不。3977年,第1219 - 1217页,1971年。视图:出版商的网站|谷歌学术搜索
j·戴维斯和m . Goadrich“precision-recall和roc曲线之间的关系,”学报》第23届国际会议上机器学习(ICML 06年)ACM,页233 - 240年,纽约,纽约,美国,2006年。视图:谷歌学术搜索
ITU-T推荐P.50,“客观的测量仪器,”《国际电信Union-Telecommunication标准化部门(ITU-T)1999年9月,瑞士日内瓦。视图:谷歌学术搜索

科学的规划

文摘

1。介绍

2。深性别识别(DGR)

2.1。语音预处理

2.1.1。A / D转换的信号

2.1.2。预加重的过程

2.1.3。帧阻塞和汉明窗

2.1.4。快速傅里叶变换(FFT)

2.2。从数字语音信号中提取特征

2.2.1。Mel-Spectrogram

2.2.2。MFCC

2.2.3。Chorma-STFT(短时傅里叶变换)

2.2.4。Spectral_Contrast

2.2.5。Tonnetz

2.3。分类学习技术

2.3.1。贝叶斯

2.3.2。功能

2.3.3。深层神经网络(款)

2.3.4。懒惰的

2.3.5。元

2.3.6。树

2.3.7。规则

2.4。特征选择技术

2.5。评价

3所示。实验结果

3.1。实验设置

3.2。语音功能效应和相关性

3.3。语音性别识别和分类

3.4。特征选择技术和结果

4所示。结论和未来的工作

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章