文摘
声音生产发生与声门的气流通过声带振动耦合。声带病变影响声乐系统,导致语音障碍。在本文中,一个病态的声音源分析系统的设计。本研究整合与优化的不对称非线性动力学两个模型探讨声带振动的非线性特点,和声学参数的变化,如基本频率,由不同的subglottal压力和不同程度的声带麻痹进行了分析。各种样品的持续元音/ /正常和病理的声音从MEEI(麻省眼耳医院)数据库。拟合过程结合遗传粒子群优化和拟牛顿方法被开发来优化生物力学模型参数和匹配目标声音来源。实验结果验证该模型的适用性与高精度复制声带振动,并表明声带瘫痪模型耦合刚度增加。
1。介绍
声带振动中断连续气流排出肺成一系列的脉冲作为激励源的声音和声音。去神经或有机声带疾病,如瘫痪和息肉,会引起不规则的振动与相应的变化,表现为带呼吸声的或沙哑的声音。这些疾病通常影响的一侧声带结构,导致双边声带张力显著不平衡(1,2]。不规则的振动声带对应不同的语音障碍可以观察到电子喉镜声带协助诊断疾病。然而,喉镜检查检查是侵入性,结果是相对主观的。声学分析可以补充和在某些情况下取代其他侵入性方法,基于直接声襞观察(3,4]。
临床诊断和病理嗓音分类用客观方法在医疗评估是一个重要的问题。先前的研究主要结合声学参数与模式识别算法来帮助诊断病态的声音(5,6]。然而,选择语音信号参数不能直接与实际的物理结构,和声乐结构性变化导致声乐语音障碍需要进一步研究。
非线性动力学理论为动力系统相关研究提供了一条新途径,例如,结合非线性理论与光谱分析方法已经成功地应用于心电图和脑电图信号分析。它也被扩展到研究语音信号(7,8]。
声乐系统固有的非线性会导致不规则的声音行为,根据谐波表示,分歧,低维混沌在高速的录音声带振动信号(9,10]。病理声襞的程度密切相关的非线性振动声带。(11]。因此,传统分析声学参数可能不准确,但非线性动力学理论已被证明有良好的适用性等特征信号(12]。时间频率基于嵌入相空间图的形状分析和非线性动力学方法可以用来评估声襞动力学在发声(13]。非线性模型可以模拟各种声音现象和已经使用了动态预测与喉癌病理相关的无序的演讲(14- - - - - -16]。许多物理建模方法提出了声门的激发,和相应的模型参数用来研究各种语音障碍。两个(如果)模型是最著名的古典声带的物理模型,首次提出通过Ishizaka Flanagan和简化Steinecke和Herzel (SH模型),研究声带的振动特征。薛总和Steinecke和Herzel n - s方程,分析了不规则的振动声带张力不平衡造成的双边,以及音效(17]。最近,大梁修改SH的不对称的接触力模型基于牛顿第三定律(18]。然而,一个全面的非线性分析修改SH模型仍然是不完整的。
虽然物理模型在语音合成和语音分析方面具有巨大潜力,大量的模型参数和模型优化匹配观测数据的复杂性已经阻止了它的实际应用(19]。Dollinger Nelder-Mead算法用于最小化误差实验曲线获得高速glottography序列和曲线与两个模型生成(2毫米)20.]。然而,这是一种侵入性方法因为需要内窥镜记录发声时声带振动。戈麦斯计算生物力学参数基于声门的源的功率谱密度提高语音病理学检测(21]。
其他研究人员利用遗传算法优化模型参数匹配记录声门的区域,轨迹,和声门的体积波和显示模型反演的可能性22,23]。道声襞的提取相关的生理参数模型从高速视频图像系列(24]。
复杂的优化过程和大量的参数均值匹配结果可以是不稳定的。因此,找到重要的调优参数和选择合适的优化算法仍然是重要的问题要解决物理建模应用程序,为不对称和模拟声带还需要进一步研究。
本文设计了一种病态的声音源分析系统使用一个优化模型研究的动态非对称声带。将光谱分析,分岔和相图,探讨结构性变化的影响声带的振动和基本频率。音效由于肺部的压力也进行了研究。一个优化SH模型结合粒子群和拟牛顿方法(GPSO-QN)提出了确定生物力学模型参数。模型的参数调整和改变振荡模式允许模拟正常和瘫痪的声音来源。优化模型参数之间的差异进行分析,协助确定声带麻痹的来源。
2。方法
2.1。对称的模型
声带是两个对称膜解剖结构位于喉咙。气流的气管和肺不断冲击声带,引起振动。振动行为调节气流产生声门的脉冲(25]。基于弹性和声带的动态属性,每个折叠由两个耦合振荡器有两个质量,三个弹簧,和两个阻尼器,在质量和弹簧常数表示声音的质量品质和紧张,分别。图1学生展示了简化体(SH)模型,它可以表示为 在哪里 指数 分别表示上下质量; 分别表示左和右部分;是subglottal压力;和群众的位移和相应的速度,分别; , , ,和代表质量,弹簧常数,耦合常数,和阻尼常数,分别; , ,和质量代表了声带长度、厚度 ,和休息区域,分别; 是一个额外的弹簧常数来处理碰撞;声门的区域;和伯努利力和恢复力是由于声带碰撞,分别;和是低质量的压力。
利用空气动力学分析,压力下降声门的入口处和粘性损失在声门被忽略。
如果模型相比,伯努利流存在低于最小声门差距,与飞机地区高于收缩压力被认为是常数(26]。从伯努利方程, 在哪里是supraglottal压力,是体积流速(声门的波形),空气密度。我们忽略通道耦合, ,考虑到伯努利的压力只存在于当声门开放。因此, 在哪里 与单位厘米,克,分别和毫秒。
这个模型的标准参数 , , , , , , , , , 。这些参数使用的对称模型来模拟声带振动,解决微分方程使用标准的四阶龙格-库塔法与初始条件 , , , ,如图2。群众上下位移和声门的气流波形是周期性的,和一个固定的相位差存在位移波形(见图2(一个))。
(一)
(b)
2.2。不对称的声带模型
声带息肉和麻痹通常发生在一侧声带。不对称声带造成张力不平衡,吹毛求疵的失衡可能会引起不规则的振动。不失一般性,我们假设左声带是正常的,也就是说,改变参数,和声带病变只出现在右边。这种不平衡是由一个不对称参数表示 和正确的声乐参数可以表示为
小意味着高度的不对称,导致更复杂的声带振动。因此,次谐波性能增强和混乱发生。分岔图和相图可以用来描述的影响变化对声音系统。
声带不对称时,接触力被修改
2.3。声音的振动分析
不对称的两个模型的振动特性进行了分析;对时间、频率和相位。临床病理的声音的声音机制也对物理模拟研究。正如上面所讨论的,我们认为左声带是正常的,只在右声带病变发生。建议临床观察声带的生理特征 是一个适当的范围和固定在0.8 kPa subglottal压力。
图3显示降低两国大规模的位移 ,0.53,0.6,0.8,1。两侧声带结构对称的正常的声音,和双方的振动波形完全一致。直言不讳地开启和关闭一次持续时间被定义为一个基音周期,并存在一个最大值在这样一个时期。
不对称的声带振动是更复杂的。当不对称的程度相对较小 ,对声音的幅度略大于左侧,和相对先进的阶段。随着不对称程度的增加,右声带振幅也增加与左剩余振幅基本不变。因此,相位差的增加,和双方的极值比不再是1:1。图3(d)显示了极值比改变1:3,和准周期的或不规则的振荡出现,导致不规则的气流速度。
之前和之后的分岔,进化动力系统的相空间可以用相图描述的双边声带振动的位移飞机。图4显示,当 ,没有发生分岔,相轨迹是一个极限环。作为降低到0.53,不对称的增加,出现分歧,和相轨迹变得复杂周期倍极限环。然而,当 相轨迹几何简化,与时域中的结果一致。
考虑的情况下固定subglottal (0.8 kPa)和压力β= 0.45,0.53,0.6,0.8,1,我们比较傅里叶光谱对应 , , ,和自然频率从一个特征值的分析系统。数据5(一)——(e)显示两个垂直的虚线表示的两个固有频率左声带,声带和dash-dotted线代表那些正确的。
当 (图5(一)),健康的发声情况下,双边折叠固有频率相同。这个发声频率大约是145 Hz,位于两个学左(或右)。作为减少了学又不一致,和更复杂的振动行为。图5(b)显示,更少的不对称, 虽然固有频率的变化,对频谱的影响相对较少。图5(c)显示,当 用相对小的振幅,频率大约190赫兹之间出现的两个学的左边正常的折叠。图5(d)显示,当 既存的泛音的频率重叠单独和一个小泛音的频率出现在110赫兹之间。图5(e)显示,当 之间的泛音的第二本征频率折叠和第一个左折右就消失了。然而,泛音频率的振幅左学之间的正常折叠球场一样大的频率几乎是不可能的。
因此,基本频率主要是依赖于病理声带,而正常折叠主要影响泛音。
3所示。模型参数优化
我们提出一个优化的过程找到合适的参数可以准确地模拟正常的生物力学模型和瘫痪的声音来源。首先,反滤波实现减少渠道影响语音信号,并提取声门的流。声门的流分别在时间和频率域参数化,以减少计算复杂度。然后,采用优化算法优化SH模型参数获取模拟声门的流。最后,最小化误差的参数模拟并提取声门的流模型可以准确地再现特定的声音来源,和相应的声音参数也可以获得。
3.1。估计的声门的来源
重建声门的来源是基于迭代反滤波的自适应版本由Alku [27]。声音跟踪, ,可能被认为是一代模型的输出, ,兴奋被火车脉冲, ,的输出是由声道传递函数建模,嘴唇,产生声音, ,这是辐射 ,在哪里是辐射模型,意味着信号的卷积,
图6显示了反滤波过程。首先被辐射效应 ,和由此产生的辐射补偿的声音, ,过滤了重建deglottalized声音, ,的估计可能是派生的。美联储与声道逆模型滤波器参数被用来去除声道的影响 ,生产第一的估计声门的脉搏, 。另一个迭代开始新的估计装入的 ,和周期重复2 - 3次获得一个很好的估计声门的来源。
声门的流将被定义为
声门的流从反滤波估计的一个例子是图所示7。
3.2。目标函数声带
由于不对称SH模型影响振荡在时间和频率域,声门的流, ,模拟波形, ,也比较的参数化在这些领域的频率, ,和时间上有基于Lijiencrants-Frant模型计算,包括速度系数(平方)的比值声门的开关门时间开放商(infoq),开放时间的比例基本周期;关闭商(出入境检验检疫局),结束时间除以基本周期;和规范化的振幅因素NAQ),振幅的比值商(最大振幅除以相应的最大负峰的一阶导数)基本周期。
之间的误差来描述正常目标声门的流和模拟波形,目标函数,财政年度,被定义为 ,“”是指源于仿真波形的参数。
传统微扰分析显示不稳定的病态的声音。合成目标函数定义为: 使用上标表示参数变量的模拟声门的流。
如果基于时间的份额被同样加权,频率和时间参数的影响F都是一样的,他们的不同影响相当于原来的参数, 和 。当或达到全局最小值,相应的模型可以准确地再现目标声门的波形。
3.3。优化算法
梯度技术已被证明是不充分的,因为目标函数是凸,包含很多局部最小值。进化算法具有较高的鲁棒性和广泛适用性的全局优化可以处理复杂的问题,传统的优化算法不能解决。粒子群优化(PSO)和遗传算法(GA)是相似的,但不同的优势在处理不同的问题28]。
因此,我们结合自己的优势。基于群体智能算法是一种进化计算技术,是一个以社区为基础的优化工具。PSO算法首先初始化一群随机粒子随机解,然后所有的个人和团体品种最好的个人。找到最优的解决方案通过一个迭代的过程。我们增加了选择和交叉过程类似于GA算法,生成GPSO算法。
相比之下,拟牛顿方法是常用的求解非线性优化问题,目标函数的梯度在每个迭代步骤。一个目标函数可以由测量梯度产生超线性收敛。然而,这种方法对初始点有点敏感,和结果大多是当地的最适条件。因此,我们结合GPSO和拟牛顿算法(GPSO-QN)优化生物力学模型参数匹配目标声音来源。
群众,弹簧常数,耦合系数,阻尼常数,和subglottal压力都需要优化,可以表示为一个向量 。与优化模型应该模拟在良好的协议 。
先前的分析表明,非对称病理性声带是不规则的振动的主要原因。因此,我们把和作为匹配参数的搜索区间 , , 。然后使用提出合适的匹配参数可以获得GPSO-QN算法确保优化模型准确地再现了声门的波形。
为了避免获取局部最小值在一个凸搜索空间梯度法的直接应用,GPSO算法首先应用提供一个粗略的近似,然后QN方法应用于局部优化近似解,提供全局最优的结果。
图8显示了参数优化过程。选择和交叉过程利用蒙特卡罗的选择规则选择米个人。终止条件是获得最大的健身价值超过预设阈值或达到预设的迭代次数。
4所示。结果和讨论
4.1。实验参数
本文选择从MEEI数据库持续元音/ / (29日),编号样品1 - 8(4正常和瘫痪的声音)。采样频率是25 kHz,提出GPSO-QN算法被用来优化模型参数与初始种群的粒子数设置为30和后代的数量限制在400。学习的因素和= 2,设置和权重系数的范围是= [0.5,0.9]。
4.2。正常的声音源匹配
图9显示了激励源(红色虚线)从四个正常的声音样本中提取使用优化模型是准确模拟。使用样例3为例,图10显示模拟和实际光谱也有良好的一致性。
4.3。麻痹声音源匹配
图11表明,该模型模拟的波形瘫痪的声音样本(红色虚线)实际样品有明显的错误,尤其是对样品7和8。然而,光谱显示出良好的一致性,只有大小偏差,如图12。
4.4。差异分析的匹配结果
探讨正常和瘫痪的声音来源之间的差异,我们连续9帧匹配样品1 - 8,人物13显示优化参数的统计分布。刚度之间没有明显差异,正常和瘫痪的质量和阻尼模型。然而,瘫痪的声音声音来源的耦合刚度大于正常的来源,并观察声带瘫痪的严重不对称,如最后两行图所示13(b)。
因此,耦合刚度和不对称参数, ,可以作为分类的依据正常和瘫痪的声音来源。图14显示了病理嗓音源分析系统。它是由MATLAB设计和编程。
5。结论
本研究分析了不对称的非线性特征声带运动使用优化的生物力学模型来设计一个病态的声音源分析系统。一个算法来优化质量,弹簧常数,耦合系数,阻尼常数,不对称参数,subglottal质量模型的压力。
拟议中的生物力学模型准确模拟不规则的振动引起的不平衡的声音紧张。期翻倍分岔和频率夹带在分岔和相图,观察和谱图。
振动系统的复杂性和不对称没有一个简单的比例关系。这项研究表明,音高频率主要是受到声带的非对称结构的影响,而subglottal压力相对较小的影响。
最优生物力学模型可以准确地再现源声音流调制的不对称的声带。虽然声音来源的生理参数是不同的,不对称和耦合刚度参数帮助确定麻痹声音来源。
优化模型模拟将是很有价值的对于理解临床沙哑声音对应的声音不对称结构和预测对单侧声带疾病治疗的影响。
未来的工作将建立理性声音声带息肉和其他有机疾病模型与真实的声音来源,协助声带疾病的分类。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这个项目是由中国国家自然科学基金批准号下61372146也没有。61271359。作者感谢的支持协同创新中心苏州纳米科技和关键Jiemei生物医学工程联合实验室,东吴大学。