Cry-Based分类健康和生病的婴儿使用适应提高混合学习方法对高斯混合模型

文摘

我们利用信息在婴儿哭信号以确定婴儿的心理状态。高斯混合模型(gmm)应用于区分健康足月的早产儿,和那些特定的健康问题在我们哭泣数据库。哭泣模式为每个病理条件是由使用适应提高混合学习(BML)方法来估计混合模型参数。在第一个实验中,测试结果表明,引入适应BML gmm方法学习的更好的性能比传统EM-based reestimation multipathological分类算法作为参考系统的任务。这个新生cry-based诊断系统(非传染性疾病)提取Mel-frequency cepstral系数(MFCCs)作为特征向量对新生婴儿的哭泣模式。在二进制分类实验中,系统识别测试婴儿哭的信号分成两个组,即基于MFCCs健康和病态。二元分类器实现一个真正积极的80.77%的速度和一个真正的负面率为86.96%,显示系统的能力正确识别健康和患病的婴儿,分别。

1。介绍

孩子哭,是第一个声音让他进入他的母亲的子宫外面的世界,这是一个非常积极的一个新的健康生活的迹象。婴儿哭因为同样的原因,成人说话,就是让别人知道他们的需求或问题。因为哭是宝宝能做的来表达任何不适,似乎这种多通道信号有很多关于他的信息。在早期的婴儿哭的研究分析,婴儿哭的声学结构进行了分析,和一些重要的变量控制他们的哭声被描述的生产1]。哭后分析与各种疾病的婴儿,在某些情况下,它已经注意到,有固定的属性而哭泣,罕见的健康婴儿的哭声。相反,这些属性在哭泣的婴儿经常发生的疾病(1- - - - - -3]。因此隐藏信息包含在一声信号可以澄清婴儿的心理现状。婴儿哭信号的声学分析有助于定量测量这些参数来执行比较健康和疾病状态。因为婴儿的哭泣可能会改变从正常到异常的疾病或畸形有能力对中枢神经系统产生不良影响,口服蛀牙,或呼吸器官,我们的目标是开发一种非传染性疾病对婴儿在不同的生理条件下进行分类。

一般来说,听起来可以以多种方式来表示。在特征表示方法中,特征选择的步骤在很大程度上依赖于问题的很好的理解。有些文献定义和使用不同的哭特性和频率特性区分健康的婴儿哭的婴儿窒息,脑损伤、高胆红素血,唐氏综合症,母亲怀孕期间药物滥用(1,4]。人类语言功能特性如线性预测系数(lpc) MFCCs,研究了基本频率和共振峰在以前的作品(2,5- - - - - -9]。工作Hariharan等人提出的采用小波包变换(WPT)来计算子带能量和熵特性的小波包系数(10]。我们的目标是得到一组典型模式不同病理婴儿哭类,构造一个函数,当面对一个新特性从一个婴儿哭属于类,该函数将识别正确的索引病理学类。近年来,等机器学习算法人工神经网络(ANN)、径向基函数(RBF)和概率神经网络识别哭(并)已经证明了他们的能力模式和做出明智的决定基于可用的训练数据库(8,10,11]。此外,混合动力系统的分类方法结合几种方法下像装袋12],增加[12铆合),多数投票,为了达到更好的最终检查结果比单个分类器是运行的情况(5- - - - - -7]。

在本文中,我们利用提取MFCCs从婴儿的哭信号诊断病理条件和特定疾病以前没有研究如“主动脉缩窄”和“法洛四联症”,支持从数据库收集的哭。正如我们前面所提到的,存在大量的方法进行建模和分类任务。我们将关注gmm,最成功的分类器在用于音频数据时序结构并不重要(13]。本文采用gmm引入分类技术领域的统计学习理论使用BML方法适应列车混合模型建模的婴儿哭的信号。BML方法(14)提出了三个主要优点:(1)将新组件添加到很大程度上增加了目标函数的方向,(2)减少对初始参数的敏感性,和(3)估计最优数量的组件,与传统EM-based reestimation算法。局部和全局更新方法被用于模型参数估计过程,以加速学习过程和收敛到更健壮和可靠的评估一个新的混合组件。适应BML方法的另一个优点是,它使用贝叶斯推理准则(BIC) [15模型选择的)。这是部分基于似然函数,但避免过度拟合也有一个惩罚项。

本文的组织结构如下:在部分2我们给简要回顾GMM, cry-pattern分类器的角色,适应BML方法的优势。部分3解释了非传染性疾病的不同部分,以及它如何确定婴儿。节4实验的结果multipathological和二进制分类任务报告,和部分5后续的分析结果和结论提出了完成论文。

2。为Cry-Pattern gmm分类

gmm是隐马尔可夫模型的特例(摘要)更加注重声音的时间结构和已被证明是无价的工具在语音识别等领域13]。相比人类语言建模的隐马尔可夫模型与有限的国家,哭刚刚一个国家被认为是信号。此外,GMM有能力形成光滑近似任意形状的密度,它被证明是一个有效的概率模型等应用生物系统,尤其是在说话人识别系统和说话人识别(16)由于其能力代表一个大的样本分布。cry-based诊断系统中没有机会训练分类器与一个特定的个体相比,发生在特定人自动语音识别(ASR)系统。因此我们应该使用可用哭为每个可用的数据库来创建一个更一般的模型病理条件来调整测试婴儿的病理检测。像ASR系统在学习阶段,有两个主要部分17):首先,选择一些哭的特性,然后从这些特性创建模式。第二,cry-pattern分类器根据工作刚刚创建的哭泣在新生儿模式识别的生理条件。拟议中的cry-modeling方法训练功能流的GMM分类器。这意味着哭来自健康或病态类的信号是由一个独立的高斯模型的建模使用提取的特征向量。适应BML是用来在增量学习混合模型和递归方式,与EM-based re-estimation算法,最后模型初始参数不敏感。因此,它可能收敛到一个更好的优点。根据提高理论上限训练错误率是所有训练样本分析最小化和利润的增加。此外,在前面的文章(14的强项BML方法表明,一个新的高斯组件估计在每一步的功能梯度目标函数。因此每一个新的组件总是添加增加了目标函数的方向。本文适应BML被描述为对数似混合模型在训练数据的函数作为目标函数。

3所示。新生儿Cry-Based诊断(非传染性疾病)系统

3.1。哭的数据库

带安全标签的数据时使用的数量在训练阶段的主导作用分类器的性能。例如,如果有少量的哭样病态的兴趣,结果训练分类器可能太具体推广到看不见的婴儿哭的信号。哭数据库收集仍在进步,到目前为止,以下两种数据库中的新生婴儿被认为是:(1)健康的新生儿,任期和过早,(2)生病的新生儿,任期和不成熟,与特定选择的病态。

不平衡的学习问题18是关心学习算法的性能。在未被充分代表的数据和倾斜类分配这个问题就出现了,这是一个自然的直接结果哭数据库中数据的空间。表1显示的列表不同的病态和可用的样本在每个类的数量。


婴儿	状态	病态	数量

完整的词	健康的	N /一个	38
	病态	牛蛋白质过敏	13
		法洛四联症	5
		腔静脉血栓形成	13

不成熟的	健康的	N /一个	25
	病态	法洛四联症	9
		有氧运动复杂	14
		X染色体异常	9
		主动脉缩窄	10

3.2。预处理和特征提取

在数据收集步骤中我们使用2声道录音机44.1千赫采样率。一声信号的时域表示两个渠道如图1。在预处理步骤中使用平均值函数转化为一个频道的信号。

在声学分析步骤,由此产生的波没有任何沉默区域或外部的护士或医生的声音听起来像,然后归一化,分成帧。接下来,MFCCs提取。声道形状通常随时间变化缓慢,往往在很短的间隔是常数。合理近似保证再现性分析信号到毫秒一帧的序列,其中每个帧都表示为一个特征向量描述短时间间隔的平均光谱(19]。在阅读关于应用程序的频率特性分析的语音信号,它是常见的做法之前preemphasize信号计算参数采用一阶差分方程样本序列在每个窗口的长度。的过滤器的变换。戴勒(20.)早些时候曾提到采用预修正滤波器这背后的原因是双重的:首先,它是由于取消光谱的影响声门的两极之一,和第二个原因是为了防止数值不稳定。灰色小和马克尔[21]和Makhoul Viswanathan [22)的最优值给出的在MSE的感觉通常是短期自相关序列的帧结束吗与参数对应于自相关滞后。一个估计量是由(20.]: 在哪里是一个窗口的长度。表示帧数最优值附近的团结,而对于无声的帧它很小。因此,不应进行无声的言论和表达框架;这是范围介绍了零附近吗和一个每倍频程频谱上转变。我们使用一个通用的价值因素是0.97 (23- - - - - -26]。在下一步中,MFCCs提取每帧只对那些表示帧。序列的特征向量描述短时间间隔的平均频谱可以表示为一个矩阵,就像一个模式在分类阶段。

在所有相关的实际应用中,术语或短帧应该利用这意味着信号的特征是一致的。因此所选部分的信号必须足够短是静止的。时间属性可以假定固定时间间隔的10 - 30毫秒(27]。在任何频率分析之前,汉明窗口有必要减少任何不连续的边缘所选择的区域。一般长窗往往会产生更好的光谱信号,而窗口的照片完全是在一个固定区域,而短窗口会更好地解决事件信号。有时被称为光谱时间分辨率权衡折衷[20.]。共同的选择窗口长度的值(10 - 30毫秒)17,27- - - - - -29日通常是大于帧速率。例如,典型值的窗口长度HTK [23是25毫秒。MFCCs获得通过应用离散余弦变换(DCT)的输出mel-filters。真正的倒频谱的不同之处在于,使用非线性频率刻度,这近似于听觉系统的行为(27]。一个过滤器银行过滤器定义,所有这些三角形过滤器计算平均频谱在每个中心频率增加带宽。一声表示使用MFCCs通常被称为“梅尔倒频谱。“执行快速傅里叶变换(FFT)在每个窗口的框架,MFCCs计算使用以下DCT (13]: 在哪里是次能带的数量,倒频谱是所需的长度,,代表了滤波器组能量经过三角形带通滤波器。我们使用一组20三角窗这是利用在一个共同的方法来模拟临界频带滤波(30.,31日),其能量输出设计,。我们将讨论参数的选择以后。图2显示所有的预处理步骤cry-recording一步直到MFCCs的提取。

3.3。适应BML gmm方法

提高机器学习方法的主要思想是,而不是总是把所有数据点相同的情况下,组件分类器应该专注于某一特定样本。特别是,如果一个样本很难分类和现有的分类器有问题,多个组件应该关注它。相比其他学习混合模型(32- - - - - -34],BML方法[14)有很大的特权添加新的混合组件的方式在预定义的目标函数最大的改善,()。此外,该方法对初始参数不敏感,导致更好的最优的收敛过程。整个cry-pattern分类方法包括分类方案使用gmm分类模式由实值提取频域特性。GMM,与高斯组件和给定的特征向量可以表示成的限制为和在哪里和混合的比例和分布吗组件,分别。的的多元高斯组件采用特征向量可以用以下符号: 在哪里的均值和协方差参数吗组件,表示矩阵的转置。一个混合物模型开始,学习逐渐通过添加一个新的混合组件的每一步。根据定义的目标函数添加组件,每个过程应该满足的不平等。所有reestimation公式更新高斯分布参数计算。对数似函数的混合模型对所有培训特性数据对上述公式有至关重要的作用。例如,预定义的混合模型的目标函数对所有培训特性可以用下面的公式计算: 在哪里是训练特征向量的个数在病理学类。迭代re-estimation公式模型参数在迭代可以评估如下: 在哪里表示均值向量和协方差矩阵高斯分量的迭代,。请注意代表一个重量分配到特征向量后迭代。可以看到根据这个权重函数显然明白,目前的模型给出了概率较低的特征向量权重比那些概率。因此,新的高斯组件关注这些功能由当前糟糕的建模模型,几乎以相同的方式作为其他增强算法(35,36]。

3.4。初始化的样品重量

有问题的初始化值权重基于提高理论可以计算通过使用方程如下: 在哪里。的动态范围大,这可能是由只有少数样本概率较低或离群值。我们使用所谓的“衰变”方法(37]为了平滑的低概率样本权重基于权力扩展: 在哪里是一个指数衰减参数或比例因子。在第二种方法抽样的思想提高(35)应用于形式培训功能的一个子集向量根据衰变权重的均值和方差值。之后,利用向量包含在刚刚创建的子集以同样的权重估计新组件的参数。假设和表示权重的均值和方差计算(8如下定义: 然后,上述子集选择大权重如下所述: 在哪里是一个线性比例因子来控制子集的大小。

3.5。添加新组件的过程

添加过程的训练向量中有一个更高的价值比混合模型的提醒,用吗,被选中。那么这个子集的数据应由小GMM建模两个高斯组件组成的叫什么和。初始组件来自EM-based re-estimation算法,然后第二组件和它的重量估计基于BML和线搜索方法,分别。我们认为估计武器第二——一个初始组件,跑BML方法了。这个过程不断重复,直到达到最优的最大对数似估计参数。这个过程寻找最佳的两个新组件和持续了。在所有的创建混合模型,用,给的最高价值目标函数(对数似值一样)选择并添加到混合物通过调整它的重量。

3.6。局部和全局更新

在前面的步骤,而不是寻找新的混合重量从下面的线搜索: 有另一种方法叫做局部更新,每一个新的组件和它的重量大约在同一时间,这是可取的,因为它可能会导致更加健壮和可靠的评估: 更新的所有方程重量分配到特征向量、混合重量值和均值和协方差矩阵估计如下(14]: 此外,为了加速收敛过程和发现高斯组件的最小数量在最后的混合物,混合模型应该更新全球对训练样本数据前添加下一个组件。例如,在GMM组件,用,组件可以重新估计当提醒混合模型被认为是固定的。这个过程不断迭代,直到目标函数值达到一个局部最大值。这意味着在获得一个混合模型每个组件,我们可以更新和它的重量在所有训练特征向量通过使用相同的更新方程。

3.7。标准模型选择

添加新的混合组件的过程逐步继续先前的混合模型和递归直到混合物的最优数量。组高斯组件选择应该表示向量空间覆盖的特性。为此选择策略停止添加一览表就是给予一定标准过程是一个一个叫贝叶斯推理准则(BIC)。它可以表示为以下(15]: 在哪里是对数似函数混合模型的训练数据,在模型中使用的参数的数量吗,表示训练数据的总数病理学类。第二项在BIC方程是一个惩罚项的参数的数量模型。BIC Akaike密切相关的信息标准(AIC) [38,39但惩罚项在BIC AIC更大。图3显示所有提到的简要回顾流程培训每个可用的GMM病理条件。

3.8。决策规则

一个特征向量的可能性给定一个高斯模型被定义为在哪里和一组均值和协方差参数吗高斯函数和是一种规格化因素也进行相应的权重和约束,这样吗和。每一个训练有素的混合模型接近一个类的分布特性。婴儿哭的信号之间存在着显著的结构差异与不同的疾病。因此,我们可以假设每个哭泣的特性信号的分布是不同的。因此,当分类特征向量属于病理类我们将期待,。的一个常见的决策规则是选择可能性最高的假设值称为最大似然(ML)决策准则: 似然值与婴儿的哭信号计算根据生成的高斯混合模型,,然后通过使用毫升规则决定。图4显示了混合模型训练MFCCs与不同病理条件相关联。和是高斯组件的总数可以描述健康的足月,早产儿的模型,分别。同样的,和是足月的高斯组件的数量与病理学和早产儿,分别。

4所示。实验

实施哭数据库分成两个不相交的子集进行训练和测试。几乎63%的总哭信号是利用训练阶段和测试阶段。在创建每个可用的病理条件的gmm哭数据库使用改编BML方法,我们可以评估的准确率。MFCC秩序也学了语音识别实验。总数12 MFCCs是常见的在语音处理20.,23),他们是直接从数据计算。那就是相同数量用于(40通过摘要]识别语音情感。能量在一个框架也是一个重要的功能,可以很容易地获得。为更好的性能cepstral系数是附加到特征向量作为13特性。最初的系数代表了平均能量(与零频余弦加权)一样的角色日志能量(29日,30.]。因此,使用第一个13 MFCCs组成的特征向量。正如我们前面定义的,是倒频谱的所需的长度,这是一个固定的参数。高阶MFCC不会进一步减少相对错误率与典型的语音识别系统与13阶MFCC相比,这意味着第一个13系数已经包含语音识别所需的最重要的信息(29日]。我们充分利用与衰减参数初始化方法和线性比例因子克服过度拟合的参数值和小协方差矩阵若干次迭代后成立。它是相同的参数值设置为BML设计算法在大词汇连续语音识别任务(14]。后,只有以同样的样本权重样本子集被用来估计均值和协方差矩阵的高斯组件。提出的方法实现良好的性能有至关重要的作用,避免过度拟合问题的学习步骤。

在第一个实验中,非传染性疾病测试几个multipathology分类任务。它包括所有上述条件哭数据库。可能是难以评估的有效性为建模和改编BML创造了gmm方法学习的混合模型提取单一特征数据库从一个小哭。然而我们的结果表明,有一个更好的准确率与传统EM-based gmm方法作为我们的参考系统。值得一提的是,创造的gmm EM-based re-estimation方法为每一个类被训练通过设置组件的数量等于改编BML混合模型学习的方法。在这里,我们解决问题的分类性能评估系统对帧长度的帧持续时间不同,但同样的重叠连续两个窗户之间的百分比(30%)。为了提取MFCCs,帧与不同时间使用而30%重叠之间引入连续两个窗户。表2显示了所有的准确率获得9不同组的婴儿的顺序如表所示1帧持续时间20毫秒,25 msec和30毫秒。可以看出两种方法发表了伟大的表演对于大多数病理类,但方法最好的结局。早产儿的“主动脉缩窄”似乎不够定义良好的学习模式是能够准确地分类。我们相信这是由于少量的训练样本(6和4的样品婴儿哭的培训和测试,分别地。)或病态noninformed特性用于这种疾病。


帧持续时间的方法	20毫秒		25毫秒		30毫秒
帧持续时间的方法	基于EM	ABML	基于EM	ABML	基于EM	ABML

1	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
2	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
3	One hundred.	One hundred.	0	50	0	50
4	75年	One hundred.	75年	One hundred.	75年	50
5	One hundred.	88.9	One hundred.	One hundred.	One hundred.	One hundred.
6	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
7	80年	60	40	60	20.	40
8	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
9	0	0	0	0	0	0

为了更好地理解帧持续时间对性能的影响,分类准确率的平均值计算频率分布在9病理学类和它们是由(41] 在哪里和显示获得的频率和准确率病理学类。结果在图5显示的表演EM-based和自适应BML方法降低当帧持续时间增加。因此,系统性能是最好的提取MFCCs使用20毫秒时帧长度。此外,图5说,提出了自适应BML方法,平均工作时比EM-based方法帧持续时间不同。

变异系数(CV)尤其有用为代表的可靠性性能测试是基于标准差的色散系数。它给平均值的标准偏差的比例如下(41]: 在图6我们现在这个色散系数这两种技术的不同的帧持续时间。简历越大,性能各不相同。由于变异系数是少短段,因此,他们的表演更加一致。的CV值自适应BML法少得多比EM-based方法帧长度25 - 30毫秒,尽管他们是如此接近彼此帧长度20毫秒。

大型cry-signal数据库应明确定义的混合模型保持组件的数量尽可能小。正如我们前面说的,在大型cry-signal样本,少量的异常值是可以预料到的。组件的数量最小化BIC在每个混合模型如图7。

第二个实验是为了测试诊断系统二进制分类任务哭所有数据在数据库中被组织成两个独立的组,即健康和病态。注意,这里的帧长度30毫秒的重叠使用的30%。每个婴儿的类定义在这个实验中,一个GMM拟合提取数据从哭信号利用改编BML技术训练。组件的数量在健康和病态类的混合模型估计9和12,分别。这些数字的组件是由传统的混合模型用于学习的步骤EM-based方法就像在前面的实验。表3显示两个混淆矩阵,使可视化的二元分类问题中的每个方法的性能。这两个矩阵,(a)该方法和传统EM-based (b)方法,这使得它提供了比较容易看到如果系统是由包含混淆两个预定义的类的健康和病态的婴儿数量是正确或错误地分类分类的。

(一)提出ABML-GMM方法


	预测类
实际的类	病理	健康的

病理	21	5
健康的	3	20.

(b)传统EM-GMM方法


	预测类
实际的类	病理	健康的

病理	26	0
健康的	6	17

真阳性(TP)和真阴性(TN)率被定义为一个2×2的混淆矩阵,计算使用以下方程(42]: ,“”和“”是正确的数量预测,实例是正面的还是负面的,分别。其他参数”,”和““定义以类似的方式通过计算错误的预测实例的数量相应的正面或负面。病理诊断系统,真正积极的速度或测试灵敏度显示系统正确检测婴儿的能力与疾病,而真阴性率或测试特异性演示的能力系统正确识别那些没有疾病。这两个统计总结了两种方法表的措施4。


	EM-GMM	ABML-GMM

测试灵敏度	100%	80.77%
测试特异性	73.91%	86.96%

假阳性的衍生物(错误)和假阴性(II型错误)在某些情况下,特别是医学考试是不一样的(18]。人能比相反的情况更昂贵和不可复原。最好是,分类器应该能够提供一个平衡的程度的预测精度(理想情况下100%)为少数和多数类在不平衡数据的直接结果是哭的性质数据库。

5。结论

新生儿cry-based诊断系统(非传染性疾病)基于提取mel-frequency cepstral系数(MFCCs)信号提出了婴儿的哭。所有哭样本属于健康婴儿类或婴儿类与不同病理生理条件下,与独立的高斯混合模型池估计作为一个哭泣的模式。适应提高混合学习(BML)方法被介绍给列车混合模型。一些先进的信号处理技术和机器学习等学习过程的不同部分使用添加新组件,为样本权重函数,模型选择和全球re-estimation的参数。在multi-pathological分类任务,结果表明,平均的方法取得了较高的分类准确率识别婴儿的疾病比EM-based re-estimation算法对高斯混合模型(gmm)。自适应的性能和可靠性BML-GMMs是最好的,当使用20毫秒作为帧持续时间长度时,逐步降低进一步增加。结果表明,自适应BML方法可以提供更好的分类准确率比EM-based方法提高系统的可靠性。二元分类问题,30毫秒帧持续时间(最坏的情况),适应BML可以识别健康婴儿足月和过早比EM-based方法,但另一方面它提供性能低于EM-based方法生病的婴儿。然而,适应BML提供了更好的平衡程度的预测准确性的少数和多数类(试验敏感性80.77%,特异性86.96%)。

确认

作者要感谢巴林顿博士和新生儿学群的成员母亲和孩子在蒙特利尔大学医院中心(QC)为他们奉献在数据库的收集婴儿的哭。这项工作已经由来自比尔和梅林达•盖茨基金会的资助通过“探索大挑战”项目。

引用

o . Wasz-Hockert k Michelsson, j·林德25年的北欧哭的研究美国,纽约,纽约,1985年。
j .本森社会和情感发展阶段和早期的童年,爱思唯尔,2009年。
o . Wasz-Hockert婴儿哭:光谱和听觉分析Lippincott,费城,宾夕法尼亚州,美国,1968年。
m·j·科文·b·m·莱斯特和h·l·戈卢布”婴儿哭:它能告诉我们什么?”当前的问题在儿童和青少年卫生保健,26卷,不。9日,第333 - 325页,1996年。视图:谷歌学术搜索
o . Galaviz和c·加西亚”,婴儿哭分类识别海波声学和窒息比较evolutionary-neural系统和神经网络系统”《人工智能的进步(MICAI ' 05),a . Gelbukh和h .遗体,分别。卷,3789年,页949 - 958,施普林格。视图:谷歌学术搜索
卡诺,Suaste, d . Escobedo c·雷耶斯-加西亚A很和t . Ekkel,“哭单位新的声学属性的组合分类器,”进步在模式识别、图像分析和应用程序施普林格,卷。4225年,2006年。视图:出版商的网站|谷歌学术搜索
大肠Amaro-Camargo雷耶斯-加西亚和c很”,应用统计的声学特征向量自动分类的婴儿哭,”先进的智能计算理论和应用。方面的理论和方法论的问题、黄d s、l . Heutte和m . Loog Eds。,卷。4681,pp. 1078–1085, Springer, Berlin, Germany, 2007.视图:谷歌学术搜索
j·奥罗斯科和c·a·r·加西亚”检测病理从婴儿哭应用共轭梯度神经网络,”欧洲研讨会上提出了人工神经网络2003年,比利时布鲁日。视图:谷歌学术搜索
k·林德和k . Wermke“发展声乐基本频率的自发的哭声在前3个月,“国际小儿耳鼻喉科学杂志》上,卷64,不。2、97 - 104年,2002页。视图:出版商的网站|谷歌学术搜索
m . Hariharan s Yaacob, s . a . Awang“病态的婴儿哭分析利用小波包变换和概率神经网络,”专家系统与应用程序,38卷,不。12日,第15382 - 15377页,2011年。视图:谷歌学术搜索
卡诺,Suaste, d . Escobedo c·雷耶斯-加西亚A很和t . Ekkel”面向径向基函数网络的婴儿哭分类,”进步在模式识别、图像分析和应用程序j . Martinez-Trinidad j·a·c·奥乔亚,Eds j .难应付的。卷,3287,pp。15-36,施普林格,柏林,德国,2004年。视图:谷歌学术搜索
e·鲍尔和r . Kohavi经验投票分类算法的比较:装袋,增加,变异,”机器学习,36卷,不。1,第139 - 105页,1999。视图:谷歌学术搜索
a . Divakaran多媒体内容分析:理论和应用程序(信号和通信技术)施普林格,2009年。
d, y胡、江和h”提高了混合学习基于最大似然的高斯混合隐马尔可夫模型对语音识别,”IEEE音频、语音和语言处理,19卷,不。7,2091 - 2100年,2011页。视图:出版商的网站|谷歌学术搜索
g·施瓦兹,“估计模型的维度”,统计年报》第六卷,没有。2、461 - 464年,1978页。视图:出版商的网站|谷歌学术搜索
d·a·雷诺兹和r . c .玫瑰,“强劲text-independent发言者识别使用高斯混合模型,”IEEE语音和音频处理,3卷,不。1,第83 - 72页,1995。视图:出版商的网站|谷歌学术搜索
d O ' shaughnessy”特邀报告:自动语音识别:历史、方法和挑战,”模式识别第41卷。。10日,2965 - 2979年,2008页。视图:出版商的网站|谷歌学术搜索
h .他机器智能自适应系统,2011年。
w·福尔摩斯,语音合成与识别泰勒和弗朗西斯,第二版,2001年版。
j·j·r·戴勒·j·h·l·汉森和j·g . Proakis语音信号的离散时间处理普伦蒂斯霍尔PTR, 1993。
A . h .灰色jr .)和j . d .马克尔”spectral-flatness措施为研究线性预测的自相关方法的语音分析,“IEEE声学,演讲,和信号处理,22卷,不。3、207 - 217年,1974页。视图:谷歌学术搜索
j . Makhoul和r . Viswanathan”,自适应线性预测语音压缩预处理系统”,美国声学学会杂志》上,55卷,第476 - 475页,1974年。视图:谷歌学术搜索
美国年轻,d . Kershaw j . Odell d . Ollason诉Valtchev, p .林地,HTK书(HTK版本3。4),2006年剑桥大学工程系。
Mporas, t . Ganchev o·柯奇士便因和n . Fakotakis”Context-adaptive预处理方案鲁棒语音识别在fast-varying噪声环境中,“信号处理,卷91,不。8,2101 - 2111年,2011页。视图:出版商的网站|谷歌学术搜索
o . o . Akande和p . j .墨菲”的估计声道传递函数与应用程序声门的波分析,“言语交际,46卷,不。1,15-36,2005页。视图:出版商的网站|谷歌学术搜索
r·弗林和e·琼斯”,结合语音增强和听觉造型为健壮的分布式语音识别,”言语交际,50卷,不。10日,797 - 809年,2008页。视图:出版商的网站|谷歌学术搜索
l·r·拉宾和r·w·谢弗数字语音信号的处理,普伦蒂斯·霍尔出版社,1978年。
m . Benzeghiba r·德森o·德鲁et al .,“自动语音识别和语音变化:复习一下,”言语交际卷,49号年级,763 - 786年,2007页。视图:出版商的网站|谷歌学术搜索
黄x a Acero, H.-W。亲爱的,口语处理:指导理论,算法和系统开发,普伦蒂斯霍尔PTR上台北,美国,2001年。
d O ' shaughnessy语音通信:人类和机器加拿大蒙特利尔,Wiley-IEEE出版社,2000。
“s b·戴维斯和p . Mermelstein比较单音节的词识别的参数表示连续口语句子,“IEEE声学,演讲,和信号处理,28卷,不。4、357 - 366年,1980页。视图:谷歌学术搜索
r . a .红肿和h·f·沃克混合物密度、最大似然和Em算法,”暹罗审查,26卷,不。2、195 - 239年,1984页。视图:谷歌学术搜索
研究。Ng和g·j·克劳克兰”,加速了EM算法的混合模型,磁共振图像分割”模式识别,37卷,不。8,1573 - 1589年,2004页。视图:出版商的网站|谷歌学术搜索
a . Berlinet和c·罗兰与应用EM算法加速计划”,计算统计和数据分析,51卷,不。8,3689 - 3702年,2007页。视图:出版商的网站|谷歌学术搜索
y弗洛伊德和r·e·Schapire”决策理论泛化的在线学习和提高应用程序,”计算机与系统科学杂志》上,55卷,不。1,第139 - 119页,1997。视图:谷歌学术搜索
j·h·弗里德曼,“贪婪的近似函数:一个梯度增加机器,”统计年鉴卷,29号5,1189 - 1232年,2001页。视图:谷歌学术搜索
美国安全,“健壮的提高及其与包装的关系,”在第11届ACM SIGKDD国际会议的程序在数据挖掘的知识发现美国,芝加哥,生病,2005年。视图:谷歌学术搜索
h . Akaike,”一个新的看统计模型识别,”IEEE自动控制,19卷,不。6,716 - 723年,1974页。视图:谷歌学术搜索
t·本特松和j·e·瓦诺”,一种改进Akaike信息标准选择、状态空间模型”计算统计和数据分析,50卷,不。10日,2635 - 2654年,2006页。视图:出版商的网站|谷歌学术搜索
t . l .动态s . w . Foo, l . c . De Silva“语音情感识别使用隐马尔科夫模型”,言语交际第41卷。。4、603 - 623年,2003页。视图:出版商的网站|谷歌学术搜索
d . Zill和w·s·沃伦,先进的工程数学,第四版,2011年。
r . Kohavi f .教务长,“术语表”社论特别问题的应用机器学习与知识发现过程,30卷,第274 - 271页,1998年。视图:谷歌学术搜索

建模和模拟在工程

Cry-Based分类健康和生病的婴儿使用适应提高混合学习方法对高斯混合模型

文摘

1。介绍

2。为Cry-Pattern gmm分类

3所示。新生儿Cry-Based诊断(非传染性疾病)系统

3.1。哭的数据库

3.2。预处理和特征提取

3.3。适应BML gmm方法

3.4。初始化的样品重量

3.5。添加新组件的过程

3.6。局部和全局更新

3.7。标准模型选择

3.8。决策规则

4所示。实验

5。结论

确认

引用

版权

相关文章

建模和模拟在工程

Cry-Based分类健康和生病的婴儿使用适应提高混合学习方法对高斯混合模型

文摘

1。介绍

2。为Cry-Pattern gmm分类

3所示。新生儿Cry-Based诊断(非传染性疾病)系统

3.1。哭的数据库

3.2。预处理和特征提取

3.3。适应BML gmm方法

3.4。初始化的样品重量

3.5。添加新组件的过程

3.6。局部和全局更新

3.7。标准模型选择

3.8。决策规则

4所示。实验

5。结论

确认

引用

版权

更多相关文章

相关文章