文摘
我们提出一个新的活跃的频率响应的非线性模型的基膜在生物耳蜗称为简单的双路径非线性(SDPN)模型和新颖的声音处理策略耳蜗植入设备(CIs)基于这个模型。SDPN模型被开发利用的优势等级相关的频率响应特征基膜在噪声条件下的健壮的共振峰表示。相比双共振非线性模型(DRNL)曾提出作为一个活跃的基膜的非线性模型,SDPN模型能够重现类似的等级相关频率响应与一个更简单的结构,因而更适合纳入CI声音处理器。主频率成分的分析,确认后代表演讲更强劲的共振峰频率分解的非线性filterbank使用SDPN,相比一个线性带通滤波器阵列用于传统的策略。声学仿真和听力与听力正常受试者的实验结果表明,该策略在更好的音节识别speech-shaped噪音比传统策略基于固定线性带通滤波器。
1。介绍
耳蜗植入设备(CIs)已经成功地用于恢复听力功能在深刻的感音神经性听力损失的情况下使用电脉冲刺激的螺旋神经节。电脉冲的参数确定从传入的声音通过声音处理策略。尽管有很大的进步在一段时间内超过二十年,许多问题仍有待解决实现成功恢复听力在嘈杂的环境中,旋律识别,减少病人的认知负荷(1]。听力在嘈杂的环境中尤其重要的实用目的。
改进的几种方法可以利用CI。其中,小说发展的声音处理策略尤其有用,因为它可以通过修改完成语音处理器和嵌入式项目不需要改变硬件。声音处理策略是在这里定义为一种算法来产生电刺激脉冲基于传入的声音波形的处理,也被称为一个编码策略。更准确的模仿正常听觉功能是一个有前途的方法CI声音处理战略发展(1- - - - - -3]。
有人建议,言语知觉可以大大提高性能,采用积极的非线性模型在耳蜗基底膜,称为双共振非线性(DRNL)模型(2,3]。使用DRNL模型被证明是有益的对共振峰的信息的表示,这意味着声道的共振和反映在语音谱谱峰(2,3]。共振峰是已知人口编码响应的听觉神经4,5]。他们非常重要的言语知觉线索,因为信息表示元音共振峰是至关重要的。也必须辅音表示,共振峰过渡提供了有价值的信息的识别辅音,如爆破音,停止,和摩擦音(6]。
上述使用CI性能改进的活跃的基膜的非线性模型可能造成噪声条件下的共振峰的健壮的表示。DRNL模型首次应用于CI声音处理器和改善言语知觉表现验证了从一个侦听器(2]。也报道,DRNL-based声音处理策略提供了健壮的特性和增强了元音共振峰表示知觉(3]。DRNL模型最初开发的定量描述基膜的生理属性,并提供一个令人满意的实验结果。因此,DRNL模型包括许多参数,应该从实验数据确定,CI及其结构是相当复杂的设备。因此,一个简单的模型可以实现在不影响DRNL模型的优点。
在这里,我们提出一个新的活跃的频率响应的非线性模型的基膜,称为简单的双路径非线性(SDPN)模型和新颖的声音处理策略基于这个模型。目前研究的目的只是利用有效非线性响应的优点,而不是复制的生理属性基膜在生物详细耳蜗。的一个子集,结果在一次会议上提交了诉讼(7]。
2。方法
2.1。提出了声音处理策略
图1(一)显示了CI声音处理器的总体结构。传入的声音是分解成多个频段(第二阶段在图1(一)),然后每个部分波段获得的相对强度包络检波器(阶段3)调节后刺激脉冲的振幅对数压缩。这个结构是出于地方编码(tonotopy)基膜和大多数现代CI设备都是基于这个结构(8- - - - - -10]。战略提出的频率分解阶段被替换为一个简单的有源非线性滤波器模型的基膜与变量的反应,而不是一个固定的线性带通滤波器是采用传统的CIs。变量响应特性来源于input-dependent基膜的调谐特性造成的积极能动性外毛细胞(OHC) [11]这活跃的非线性响应特性有助于强健表示语音信号噪声条件下(12]。
(一)
(b)
(c)
数据1 (b)和1 (c)说明传统之间的差异并提出策略。两者都可以被视为结构如图1(一)。在传统的策略(图1 (b)),一个固定的线性带通滤波器阵列,采用频率分解的图块1(一)。相比之下,在该策略(图1 (c)SDPN模型),执行频率分解的数组。每个通道的输出可以被视为bandpass-filtered版本的输入,类似传统的策略。然而,频率响应特性是非线性和水平相关的。随后,每个通道的相对强度计算采用信封从每个SDPN探测器的输出。信封是用来调节电流脉冲的振幅在临床应用中涉及到电刺激;声学仿真,正弦信号的振幅调制的脉冲振幅。这是详细描述后(部分3所示。4)。
图2(一个)说明了双共振非线性(DRNL)模型开发的定量描述基膜的生理属性,并提供一个令人满意的适合实验结果(12]。每个耳蜗分区的输出表示为求和输出的线性和非线性DRNL模型中的路径。线性路径由一个线性增益,gammatone带通滤波器、巴特沃斯低通滤波器。非线性路径包括broken-stick非线性两个带通滤波器,使其对总产出的贡献是由输入信号电平。DRNL模型和参数的细节报道(12]。有效的中心频率的线性和非线性路径略有不同。两个路径变量的相对贡献,因为非线性增益的非线性路径,因此总体响应增益和带宽也可变等特点。DRNL模型可以复制生物耳蜗的频率响应等级相关调优和等级相关获得属性可以复制成功(12]。与其他模型相比具有类似目的,它相对简单,且计算效率。然而,DRNL模型包括许多参数及其结构是采用CI设备过于复杂。
(一)
(b)
SDPN的框图模型如图2 (b)。虽然发展SDPN模型,我们没有试图重现实验结果对于基膜的神经生理学属性数值的细节。这里的目的是实现等级相关生物耳蜗的频率响应特性。DRNL模型中,传入的声音是通过两个途径。线性路径由一个线性增益(固定在这里6)和广泛的带通滤波器,称为尾过滤器。尖锐的非线性路径是由带通滤波器,称为提示过滤器,一个用来模拟压非线性饱和OHC的属性。表达为非线性。尾巴和提示过滤器是由巴特沃斯带通滤波器(尾过滤器:二阶,提示过滤器:4号顺序)。尾巴滤波器的带宽将是三倍的过滤器。实现变量响应特性,每个通路的相对贡献是根据输入电平控制的非线性(均方根值)。的整体输出从一个通道频率分解求和得到的块的输出两个途径。在后面讨论部分3(图3),这种方法允许活动的实现非线性频率响应特性的生物耳蜗与计算成本远低于DRNL模型。
频率分解后,每个通道输出的信封。我们使用传统的包络检波器整流器和低通滤波器组成。此外,我们还研究了使用一个增强的优点吉尔茨提出的包络检波器和伍特斯13]。这是基于产生的适应效应之间的突触内毛细胞和听觉神经,利用两个信封探测器的组合,也就是说,一个标准的包络检波器组成的全波整流器和一个四阶巴特沃斯低通滤波器与400 - Hz截止频率,另一个用于提取低通滤波器截止频率的慢变包络20 Hz。通过比较这两个信封,可以确定时间点,快速的瞬态变化,和额外的获得可以应用在这些时间点为重点的瞬变。报告的详细算法(13]。
2.2。声学仿真
声学仿真可以用来预测性能趋势的CI声音处理策略,因此被用于许多研究小说的发展策略(14]。我们采用正弦调制声波波形的合成,在许多先前的研究在CI声音处理战略发展(14,15]。渠道选择的中心频率的方法Loizou et al。16),这使得系统计算滤波器的带宽和当前CI设备中使用。对数过滤器间距用于4-channel实现和半对数的梅尔·间距用于8 - 12频道。详细的中心频率和带宽值表中列出1。
声学仿真的方法在传统的战略是类似于多尔曼et al。17]。频率分解后的声音通过一个线性带通滤波器阵列,信封探测器组成的全波整流器和一个四阶巴特沃斯低通滤波器(截止频率:400 Hz)是应用。发现信封是用来调节频率的正弦曲线一样的中心频率表中列出1。最后,所有的通道都总结的调幅正弦曲线。
一个声波波形的生成提出了对应策略,频率分解是由一系列SDPN模型,然后从每个SDPN模型输出的信封被包络提取探测器。探测器采用常规或增强的信封。根据输出正弦信号的振幅调制包络检测器。正弦信号的频率是一样的在使用传统的仿真策略。注意,我们指定一个正弦信号通道,为中心频率的尾巴和提示过滤器都是相同的。因此,声学仿真的结果很容易相比传统的策略。这不同于声的情况下模拟DRNL-based声音处理策略2,3),应该使用两个正弦曲线来模拟一个频道由于不同中心频率的线性和非线性路径。
2.3。听力实验
十个科目与听力正常志愿参加听证会实验(年龄:年;女性6人,4)。所有受试者延世大学的本科生或研究生。实验过程是由当地的伦理审查委员会审查和批准。两个噪声条件下的实验研究:(即没有任何噪音。信噪比(信噪比)dB)和speech-shaped噪音(SSN) 2 dB信噪比。生成的SSN是应用二阶巴特沃斯低通滤波器(截止频率1100赫兹)高斯白噪声(WGN)如前所述18),使其光谱形状相似的语音波形。通道的数量不一,8日或12频道。
音节识别测试使用闭集执行任务。Consonant-vowel-consonant-vowel (CVCV)双音节构造主要是为了测试元音感知性能。每个演讲令牌是固定的形式/ sVda /;也就是说,只有第一个元音是改变而其他固定/ s /, / d /和/ /。第一个元音是选择从/ /,/ǝ/,/ o /, / u /, / /, / e /。这个CVCV形成更自然的韩国语言,因此用来代替CVC-type回答一两个字经常用于元音感知测试在先前的研究13,17]。Vowel-consonant-vowel (VCV)回答一两个字也构造类型。在开始和结束的元音是相同的和固定/ /。选择之间的辅音元音/ g /, / b /, / m /, / n /, / /, / j /。因此,aCa /类型的演讲材料。72 - / sVda /类型双音节和72 - / aCa /类型(生成(辅音/元音2策略(常规/ SDPN-based)2噪音水平3通道类型)。两个实验课程进行了相同的主题;第一个传统和SDPN-based策略相比,第二个比较传统策略,基于SDPN和增强的包络检波器。
16位所产生的声波波形的言论令牌是mono 22.050 kHz的采样率模拟数字转换和存储。wav文件。存储文件播放通过点击图标显示在个人电脑上的图形用户界面准备实验。演讲提出了令牌双耳使用耳机(森海塞尔HD25SP1)和16位声卡(声卡驱动集成数字音频声卡)。噪音控制是舒适对于每个主题(范围:70 - 80分贝)。前5分钟训练是主要的实验。每个演讲令牌了。声音处理策略的条件和噪声条件下被随机分配在主题。如果受试者要求,再次播放波形。听到每个演讲令牌后,受试者被要求选择了音节中6例尽可能正确,正确答案的百分比是得分。
3所示。结果
3.1。变量SDPN模型的频率响应
图3显示的频率响应提出SDPN模型中心频率为1500赫兹。当输入振幅较低(35分贝声压级(SPL)),非线性路径的贡献相对较大,所以总体响应显示锋利的频率选择性取决于提示过滤器。峰值增益为9.44,半宽度(应用)为140.27赫兹。随着振幅的增加(85分贝),线性路径成为占主导地位的贡献,整体频率响应成为更广泛的(赫兹)。同时,整个增益下降由于压非线性()。总体来看,频率响应的SDPN模型显示等级相关的行为,这是类似于生物耳蜗。DRNL模型相比,提出了简化的结构可以快速执行。例如,处理1 s的声音,CPU时间s (SDPN模型),而对DRNL40年代(平均试验,用Matlab实现,3.0 GHz Pentium 4处理器、2 GB内存)。的处理时间,提出SDPN模型只有1/24.6 DRNL的模型。
3.2。在噪声条件下共振峰表示
活跃的非线性模型的优越性的健壮的表示共振峰在噪声条件下可以通过主频率成分分析,也就是说,通过策划的输出每个耳蜗分区的最大频率为中心频率的函数(19]。我们将从181年的100赫兹至10 kHz频率范围分区和观察每个耳蜗分区的输出。图4显示了主频率成分分析的结果使用固定线性带通滤波器频率分解后,DRNL模型,提出SDPN模型(输入:元音/ i /,在安静的条件下,5 dB WGN,和5 dB SSN)。特别是在嘈杂的情况下,从活跃的非线性模型的最大频率输出(DRNL和SDPN)集中在共振峰频率位置,如图所示的水平线在共振峰,而从线性filterbank模型测定每个通道的中心频率,数据点集中在对角线位置。因此,提出了健壮的共振峰SDPN模型更有效的表示比线性滤波器阵列在噪声条件下,具有类似于DRNL模型。类似的结果也获得了/ / / u /。
从主频率成分分析的结果,共振峰表示性能可以通过计数量化耳蜗分区的数量最大的输出频率是由共振峰频率决定。我们定义了两个共振峰提取比率(转账),FER1 FER2,耳蜗分区与最大输出频率的比率是一样的第一和第二共振峰频率,分别。FER1 FER2可以被视为好定量措施共振峰的凸起表示在输出演讲。因为非线性模型的性能可以根据输入电平变化的响应特性对输入电平变化,我们观察到共振峰的变化表征性能期限不同。图5显示FER1和FER2元音/ i /函数的输入条件下振幅WGN和SSN 5 dB信噪比。广泛的输入水平,SDPN产生更高的FER1和FER2线性带通滤波器相比之下WGN和SSN。线性模型保持不变的车内除了轻微的波动由于错误。如数据所示5(一个)和5 (b)SDPN导致更高的值在所有输入振幅FER1 WGN之下。的FER2 SDPN也高于线性模型在SPL高于40 dB。这表明,共振峰的SDPN优越表现为典型的SPL的水平。SDPN也优越SSN时作为背景噪声(添加数据5 (b)和5 (d))。
(一)
(b)
(c)
(d)
3.3。增强包络检波器
图6显示4频道的信封从传统(图6(一))和增强(图6 (b))信封探测器后频率分解使用SDPN模型。箭头在图6 (b)指示的时间点有效增强包络检波器强调演讲开始。特别是输入演讲》/又名“爆发点/ k /明显加重了图6 (b)。
(一)
(b)
3.4。声学仿真实验和听力
听力实验的结果使用提出的声学模拟声音处理策略基于SDPN模型图所示7。正确答案的百分比是策划的函数的数量渠道4,8和12通道。所有条件,提出的策略是大大优于传统的策略。虽然统计学意义()没有达到一些条件,提出的策略取得了更好的言语知觉表现为所有的条件;所有值是0.0762和统计学意义。图8显示听力实验的结果使用一个策略基于SDPN和增强的包络检波器。安静的条件下,提出的策略比传统的所有信道条件。所有渠道的优势是统计上显著的条件(t以及,4通道和8和12通道)。SSN 2 dB信噪比下,提出策略大大提供更好的音节识别所有信道条件(t以及,4和8频道,12通道)。
(一)
(b)
(c)
(一)
(b)
(c)
4所示。讨论
在这项研究中,我们提出一个简单的活跃耳蜗基底膜的非线性模型,开发了一种新颖的声音处理CIs战略基于这个模型。声学仿真和听力与听力正常受试者的实验表明,该策略提供了增强的音节识别性能的条件下speech-shaped噪音,相比传统策略使用一个固定的线性带通滤波器阵列。
一些以前的实验研究表明,积极的非线性共振峰的频率响应特性很大程度上有助于强健表示信息在嘈杂的环境中。几个模型提出了复制这个属性(11,20.,21]。例如,邓和聊聊11)提出了一个非线性微分方程模型与可变阻尼项来模拟等级相关的压缩效果,成功地重建生物耳蜗的响应特性,有利于强健的光谱信号表示在噪音。这意味着CIs的言语知觉表现可以提高采用有源非线性响应性质,增强性能的增长表明基于DRNL模型(CI声音处理策略2,3]。
虽然DRNL模型是一种最有效的模型的计算成本,它的目的是定量描述的基膜的生理属性和复制详细的实验结果。复杂的结构和众多DRNL模型的参数使其不适合CI声音处理器。的动机发展SDPN模型是简化DRNL模型在不影响其优势由于自适应非线性频率响应。SDPN模型开发的进一步简化DRNL模型,开发CI声音处理策略的目的。重点是繁殖生物耳蜗定性的input-dependent响应特性。许多DRNL模型的构建模块和参数都没有必要实现等级相关生物耳蜗的频率响应,因为他们采用详细的实验结果,不复制我们的目标至关重要。拟议中的SDPN比DRNL简单得多,但仍然可以提供等级相关的频率响应,这是有利于实时处理由于更少的计算更低的能耗。
主频率分析的结果证实更健壮的共振峰表示下可以获得SSN提出SDPN模型。SDPN模型被使用时,输出频率是由共振峰频率相比,更多的耳蜗分区的情况下线性带通filterbank(数字4和5)。尽管简化,共振峰表示SDPN模型的性能相当的DRNL提出(3),可以验证的主要频率成分分析和车内的结果。这表明详细的模仿人类的基膜的频率响应特性并不是必不可少的CI言语知觉的性能的提高。这是与先前的研究相比2)在人类基膜的详细模型基于DRNL模型采用CI声音处理器。
由两个信封信封中提取探测器之间的比较如图6显示增强的包络检波器提供演讲的重点开始点,这通常是弱振幅。这个属性可能有助于改善知觉的停止,摩擦音,破裂音辅音。这是来自听力实验证实使用声学模拟(数字7和8),使用提供的增强的包络检波器在言语知觉SDPN-based战略的进一步改善。
一个新的声音处理CI战略应该应用于临床试验更全面的验证。这需要调制的基于声音处理器输出电脉冲的火车。拟议中的SDPN-based战略开发,雇佣了一个调幅脉冲序列/频道实际CI设备。因此,它很容易适用于当前CIs的现有硬件。
总之,我们提出一个简单活跃的新模型的非线性特征生物耳蜗和技术为基础开发出了一种声音处理CI战略模型。提出SDPN模型是基于基膜的功能,这样一个等级相关频率响应可以复制;它比DRNL模型简单得多,因此更适合纳入CI声音处理器。SDPN-based策略由光谱分析评估,听力与听力正常受试者的实验。结果表明,使用SDPN DRNL-based战略的模型提供了类似的优势在共振峰更强劲代表嘈杂的环境。进一步改善言语知觉在噪声条件下是可能采用一个增强的包络检波器。
利益冲突
作者声明,不存在利益冲突。
承认
本研究支持的格兰特工业源技术发展项目(没有。10033812)的知识经济部(MKE)的大韩民国和格兰特的智能融合系统研究中心(没有。2011 - 0031867)由教育部资助,作为全球前沿科技项目。