文摘

本文提出一种noise-biased补偿最小统计(MS)使用非线性函数和方法先天的演讲没有概率(SAP)高度的非平稳噪声环境下的语音增强。女士的方法是一个著名的非平稳噪声环境中的噪声功率估计技术;然而,它往往偏见噪声估计低于真实的噪音水平。该方法结合基于乙状结肠函数和自适应参数先天的SAP的残留噪声降低。此外,我们的方法使用一个autoparameter控制语音失真和剩余噪声之间的权衡。我们评估的噪声功率估计高度不稳定和不同噪声环境。方面的改进可以确认信噪比(信噪比)和Itakura-Saito失真测量(ISDM)。

1。介绍

噪声估计算法是许多现代移动通信的基本要素,语音识别和语音增强人机交互系统(1,2]。通常包含了语音增强改善语音清晰度和噪声信号的质量。然而,很难减少噪音没有扭曲的演讲因为任何噪声估计算法的性能通常取决于语音失真和噪声降低之间的权衡。

当前单麦克风的语音增强方法属于两组,即时域方法如子空间方法和频域方法如谱减法(SS) [3)和最小均方误差(MMSE)估计量(4]。这两种方法都有自己的优点和缺点。子空间方法提供一种机制来控制语音失真和剩余噪声之间的权衡,但沉重的成本计算负载(5]。频域方法,另一方面,通常消耗更少的计算资源,但没有从理论上建立机制来控制语音失真和剩余噪声之间的权衡。其中,谱减法(SS)是计算效率和有一个简单的机制来控制语音失真和剩余噪声之间的权衡,但患有一个臭名昭著的工件被称为音乐噪声(6]。这些谱降噪算法需要估计的噪声频谱,可以获得演讲没有框架表示的语音活动检测(VAD)或,或者,用最小统计(MS)方法(7),也就是说,通过追踪每个频带谱最小值。

最近的一些研究提出了未知的噪音信号(噪声估计方案1- - - - - -14]。的最小统计(MS)噪声估计方案(7)的非平稳噪声环境中运行良好。马丁提出了噪声估计算法基于最小统计(7]。能够跟踪不同噪音水平为主要特征的最小统计(MS)算法(7]。噪声估计的最小值获得平滑功率估计的噪声信号,补偿偏差乘以一个因素。然而,MS算法仍然倾向于偏见噪声估计低于真正的噪音水平,无论的帧数(8]。因此,叶子残余噪声帧的帧的语音没有和噪声特征在高度变化的非平稳噪声环境。

为了解决这个问题,我们提出一个结合基于乙状结肠功能和适应性的因素先天的演讲没有概率(SAP)估计9偏置补偿。具体来说,我们应用自适应因子 作为后验信噪比。当后验信噪比降低, 增加,但限制之间的一个值 。因此,提出自适应偏差补偿因子 方法 有时,当信噪比很低。此外,当先天的SAP等于团结、自适应偏差补偿因子 同样的方法 在每个频率本,反之亦然。此外,我们的方法使用另一个自适应参数来控制语音失真和剩余噪声抑制之间的权衡估计噪声在高度不稳定和各种嘈杂的环境中。自动控制参数控制后验信噪比(信噪比)的变化的噪音水平。

我们评估算法的性能的非平稳噪声和各种噪声环境。改善可以证实在节段信噪比和Itakura-Saito失真测量(ISDM) [15]。结果表明,我们提出的方法优于传统的方法。论文的结构如下。部分2评论和最小统计数据先天的SAP估计算法。部分3地址噪声估计和抑制使用线性和非线性函数。节4,我们表达乙状结肠功能结合使用后验信噪比和先天的SAP估计健壮的偏置补偿。节5,我们将讨论实验结果。

2。最小统计(MS)和演讲没有概率(SAP)

2.1。对女士

吵闹的语音信号 可以表示成 ,在那里 干净的语音信号和吗 噪声信号。将信号划分为重叠框架使用一个窗口函数,应用短时傅里叶变换(STFT) [16每一帧率时频表示 ,在那里 本指标和频率 是时间帧索引。它可以显示 在哪里 , 噪声语音信号的功率谱,干净的演讲,分别和噪音。

MS算法依赖于噪声功率谱的事实往往成为时期等于噪声功率谱的语音停顿(7,13,17]。因此,噪声功率谱的估计是通过分别跟踪最低嘈杂的演讲在每个频率的垃圾箱。此外,由于最小偏向值较低,可以通过乘以一个无偏估计偏差的因素,这是来自局部最小值的统计数据。搜索最小值,取一阶递归的噪声功率谱: 在哪里 平滑周期图和吗 是平滑因子。中使用的平滑因子(2)必须接近 保持的方差最小跟踪尽可能小。因此,时间和频率依赖需要确定演讲存在或缺席。因此,平滑因子通过最小化之间的均方误差 : 在哪里 噪声方差: 在(4),时频相关的平滑系数 使用而不是固定的吗 中定义的(2)。用(4)(3),设置一阶导数 我们找到的最优值 根据(5),平滑因子可以不同 ,但这样的平滑因子是不实际的15]。的价值 大的变得越来越小后验信噪比 (演讲)。然而,甚至需要平滑期间的言论,因为言论功率谱还包含一个百分比的噪音。因此,平滑因子的地板(0.3),导致最多只(70%)的剩余原始频谱内任何一个框架。相反,当后验信噪比 演讲很低(缺席) 倾向于1,导致平滑输出锁定的前一个值。为消除这一隐患,(5)乘以 。从(5),我们注意到 取决于真实的噪声方差 ,这是未知的。在实践中,我们可以更换 最新的估计价值 。不过,总体而言,落后于如此噪声方差,因此估计平滑因子可能太小或大。可能出现问题的时候 接近1,因为 不足够快的响应变化的噪音。因此,跟踪错误监控(7)通过比较平均短期平滑周期图估计噪声方差。包括校正因子(后7] 最后一个因素 随着时间的推移也平滑(7]。

基于估计噪声功率的算法[女士7)是通过寻找一个最小长度在一个有限的窗口 平滑功率的估计 : 因为最低功率估计通过时变平滑系数小于平均值,MS算法需要一个偏差补偿公正的噪声功率估计如下(详细7]: 在哪里 是无偏估计噪声功率。的数量 是偏差补偿因素。

2.2。审查的言论没有概率

言语事件的两国模型可以表示为一个二进制的假设模型(9,15,17]: 在哪里 代表演讲的缺失和存在的 本的频率 th框架,分别 先天的概率的演讲将会缺席。一个有效的估计量是派生的先天的根据估计的SAP使用不痒的决定方法先天的信噪比(9]。一个递归平均可以被定义为 在哪里 是一个时间常数。decision-directed方法提出以法莲和马拉4)提供了一个有用的评估方案先天的信噪比: 在哪里 是一个平滑因子, 是一个函数,它可以防止负, 代表了后验信噪比(9]。当地和全球平均窗口然后应用(13)[9),导致 其中下标 可以表示“本地”或“全球”窗口, 是归一化窗口的大小 。我们定义了两个参数 代表上述平均值之间的关系和言论的可能性 本的频率 框架。这些参数有(9] 在哪里 经验常数,最大化减弱噪声而弱语音组件不受影响。第三个参数 需要减弱噪音的speech-absent框架,基于语音能量在相邻帧9]:如果 然后如果 然后 其他的 其他的 ,

在哪里 在频域平均, 代表一个软从演讲过渡到噪音, 是一个在峰值的 , 经验常数,确定过渡的延迟,定义在[9]。最后,先天的SAP可以被定义为(9] 因此, 大如果前一帧或最近相邻频率垃圾箱不包含演讲。因此,当SAP ,语音存在概率

3所示。噪声估计和抑制使用线性和非线性函数

3.1。结合基于乙状结肠函数和自适应因子先天的SAP

在本节中,我们提出一个方法,该方法结合了基于s形的函数和自适应因子先天的SAP估计(9)实现偏置补偿。

首先,我们可以检测自适应因子通过要求平滑功率谱 更新后的噪声功率估计量 在演讲中缺乏的地区。特别是,我们可以确定自适应因子通过最小化均方误差(MSE)之间 如下: 我们假设噪声功率估计更新在哪里 在演讲期间缺乏地区 用(18)(17),那么在MSE的一阶导数对 和设置它等于零,得到自适应因子 : 在哪里 是公正的噪声功率估计(9)。我们应用自适应系数基于乙状结肠函数的偏置补偿因子算法根据女士后验信噪比: 在哪里 来自斜率因子 和经验常数 。的后验信噪比是 在哪里 是一个矢量的欧氏长度。自适应因子 是控制的后验信噪比。当后验信噪比降低, 增加,但限制之间的一个值 。因此,提出自适应偏差补偿因子 方法 有时,当信噪比很低。此外,当先天的SAP等于团结、自适应偏差补偿因子 也等于 在每个频率本,反之亦然。自适应因子是一个偏置补偿在图所示1。这表明,所建议的(20.)和(21),随着后验信噪比的增加, 减少,但 维护之间的一个值 。因此,自适应因子 方法 当信噪比接近20分贝。仿真结果表明,增加 有利于噪声信号的低信噪比小于5 dB,减少 有利于噪声信号与一个相对较高的信噪比大于10 dB。我们可以控制之间的权衡语音失真和剩余噪声帧索引的使用 。在(22),让 是更新后的噪声功率估计根据总和先天的SAP和自适应因素: 这个词 先天的SAP (16)。当 变成1,自适应偏差补偿因子 等于 。因此,演讲没有区域有效地补偿相结合先天的SAP和适应性的因素 本的频率 框架。结果,更新噪声功率估计最优平滑因子 推导出的7),

3.2。使用线性函数估计噪声抑制

在本节中,我们的方法是使用另一个自适应参数来控制语音失真和剩余噪声抑制之间的权衡估计噪声在一个高度不稳定和不同噪声环境。自动控制参数控制后验信噪比(信噪比)的变化的噪音水平。

干净的语音功率谱估计可以表示为所示(28)。一个人 在哪里 是oversubtraction因素, 斜率, 是抵消。常数 , 分别为(3]。自适应线性因子 影响语音失真引起的谱减法的数量(28)。的因素 提供了大量的灵活性的改进谱减法(MSS)计划。的 在(24)是后验信噪比的频率。估计干净语音信号可以转换回时域通过逆STFT和使用交叠相加合成方法。

4所示。实验结果和讨论

噪声信号用于我们的评价被从NOIZEUS数据库(15]。我们使用30测试话语,其中3例来自男性和女性的语音信号。分析信号在采样8 kHz和短时Fourier-transformed使用50%重叠的汉明窗的256个样本。两个女士(7)和提出方法跟踪噪声的最小语音更新噪声估计在图2。女士的方法是通过跟踪噪声功率谱的最小指定数量的帧。因此,女士噪声估计算法往往是偏向低于真实的噪声水平,无论帧的数量。演讲我们的方法有效地补偿缺乏地区通过结合自适应偏差补偿因子和先天的SAP。这意味着,该方法比传统的更准确,可以改善剩余噪声降低。

3该方法显示了明显的优越性在高度的非平稳噪声环境。传统的方法(7)没有很好的工作从最初的框架到20帧的汽车噪音 从110帧到130帧的汽车 也遭受残留噪声。另一个结果是在图的红色圆圈3。特别是,该方法的鲁棒特征尽管吵闹的环境的变化了。因此,我们可以更精确的估计噪声水平减少残余噪声与常规方法相比在高度的非平稳噪声环境。

干净的信号的频谱图4(一),嘈杂的语音信号的频谱使用MS +谱减法语音增强(SS) (MS + SS) [3,7方法在图4 (b)。我们还可以观察到的最小控制递归平均(MCRA) SS在图4 (c)。有残余噪声图4 (c) 而在 ,部分原因是无能的噪声估计算法偏差低于真实的噪声水平。提出了降噪方法的光谱图如图4 (d)。相比之下,面板图4 (d)表明,残余噪声比传统的方法更明显减少。

12总结段的平均结果信噪比和Itakura-Saito失真测量(ISDM) [15]。节段信噪比可以评估的时间或频率域。时域测量也许是最简单的一个客观指标用来评估语音增强方法。这个测量才有意义,这是很重要的原始和处理信号及时调整和纠正任何相位误差的存在15]。对于不同噪声类型输入信噪比从0到15分贝,节段后信噪比处理显然是更好的方法比传统的(7),除了的情况(以粗体突出显示)。我们也可以确认我们的方法有效控制语音失真和剩余噪声抑制之间的权衡估计噪声在高度不稳定和各种嘈杂的环境中。

ISDM是显示给良好的相关性与主观可解性措施明确诊断可接受性措施(坝)。这个结果在一个客观的测试,可以用来制造一个好的有意义的结果。这也导致一个测试显示失真和噪声降低15]。在这里,我们可以确认的结果ISDM ISDM的方法产生好结果与传统的方法相比,除了女士方法的情况下,学生街10 dB嘈杂的信号。

5。结论

我们提出一个修改后的噪声估计和抑制算法,结合非线性函数先天的SAP估计偏差补偿。此外,我们的方法使用另一个自适应参数来控制语音失真和剩余噪声抑制之间的权衡估计噪声在高度不稳定和各种嘈杂的环境中。新算法的性能评估是通过测量段信噪比和ISDM。我们通常表明,该算法优于传统的方法,减少残余噪声和语音失真的非平稳和嘈杂的环境。在未来,我们打算评估其可能在预处理信号处理领域中的应用。

相互竞争的利益

作者宣称没有利益冲突。

确认

这项研究受到了联盟(2013 r1a1a2012536)。