分割和分类的元音音素的阿萨姆邦的演讲使用混合神经框架

文摘

在口语识别中,关键之一是识别元音音素。本文描述了一种基于人工神经网络(ANN)的分割和识别算法开发的阿萨姆邦的语言从一些单词的元音音素包含这些元音。自组织映射(SOM)训练不同的迭代次数这个词用于细分为它的组成音素。后,概率神经网络(并通过训练用干净的元音音素是用来识别从六个不同的元音部分SOM分段音素。该算法的一个重要方面是,它证明了公认的元音的验证检查第一共振峰频率。第一共振峰频率的阿萨姆语元音的估计杆或共振峰的位置是预先确定的线性预测(LP)的声道模型。该算法显示了一个高识别性能相比传统的基于离散小波变换(DWT)的分割。

1。介绍

大多数语言,包括阿萨姆邦的,有一个固定数量的元音音素。元音扮演最重要的角色在生产不同的单词。开发一个有效的语音识别系统,它总是必须认识到第一个元音音素。元音识别的第一步是段词的元音音素。语音分割通常是使用常数时间执行块,例如,使用windows(固定长度1]。但不断细分风险失去准确的音素边界的信息。更令人满意的方法是基于离散小波变换(DWT)的语音分割。小波分解作为分割技术在各种生物医学应用程序像脑电图工件自动删除,胎儿心电图(胎儿心电图)提取,肌肉活动检测,等等。一些工作报告(2- - - - - -6]。在语音分割应用程序一样,DWT可以很容易地提取语音参数,考虑到人类听觉系统的属性。但成功率得到基于DWT的分割可以得到改善。这项工作提出了一种新颖的基于两种不同的元音分割算法监督和非监督人工神经网络(ANN)结构。自组织映射(SOM)训练六个不同的迭代数量用于部分单词的元音部分被认可。一个训练有素的SOM提供最合适的权重集在这种情况下,数字6的目的。任何一个的六个权重向量从而获得被认为是代表元音音素。特定权向量是元音部分是由与几两类模式匹配概率神经网络(并)块,用干净的元音音素训练说出的五女5男扬声器。公认的元音音素的验证证明了通过检查第一共振峰频率(F1)。阿萨姆邦的语言的所有元音的f1计算先验使用钢管或共振峰的位置确定的方法从线性预测(LP)的声道模型。 The sample Assamese words and clean vowel sounds are recorded from ten native Assamese boy and girl speakers for this work. Assamese is a demanding language of North-East India both in pronunciation and speed of speaking and is being considered as a fairly accurate case study for speech researchers.

本文提供了一个元音之间的比较分析分割基于传统DWT和安提出的辅助方法。实验结果证明了该方法的优越性。这里的描述包括组织如下。部分2提供简单的phonemical细节阿萨姆邦的语言。摘要,接下来,包括一个简短的账户基于DWT的元音分割方面的考虑。提出的基于SOM分割算法,并通过和F1识别部分描述部分5和部分6,分别。结果和相关讨论中包括部分7。部分8总结了描述。

2。阿萨姆邦的语言的某些Phonemical特征

阿萨姆人是一种印度雅利安人语言起源于吠陀方言,因此,它是一个姐姐的印度北部的语言。虽然的确切性质的起源和发展语言尚未清楚,据推测与其他印欧语系的语言,阿萨姆人也从出生的Apabhraṁś一个方言由Magadhi古代印度语Sanskritic东森集团的语言(7]。保留其母印欧语系家族的某些特性,它有许多独特的语音特征使阿萨姆邦的语言独特的,因此它需要一个研究专门针对语音识别/合成系统的发展在阿萨姆邦的8]。

有23个辅音和元音音素八口语化的阿萨姆邦的标准。阿萨姆邦的元音音素表获得(7)如表所示1。八个元音呈现三种不同类型的对比。首先,他们呈现的是一个八路的对比在闭音节,在开音节/ iu /不立即跟随下一个音节的干预一个除了鼻辅音。再次,他们显示出六方对比在开音节/我/后立即发生在音节的干预任何单个辅音除了鼻音,或者除了鼻音化,最后,五方对比在开音节/ u /后立即发生在与单个辅音音节干预(7]。


元音	前面	中央	回来

高	我		u
更高的中期	e		o
较低的中期			ɔ
低		一个	ɒ

3所示。演讲的线性预测模型

语音信号是由行动的激励来自于声门声道。不同构象的声道产生不同的共振放大激励的频率成分,导致不同的声音(9]。共振频率产生的一个特定的配置接骨的人有助于形成对应于给定的音素和被称为共振峰频率的声音10]。

线性预测模型是基于一个声道的数学近似。在特定时间样本,演讲表示为一个线性的和吗以前的样品。在LP模型的演讲中,每一对复杂杆对应一个二阶谐振器。每一杆的谐振频率与光谱的峰值能量或一个共振峰的候选人。极半径与局部能量的浓度和共振峰带宽的候选人11]。

源声道系统的滤波器模型可以表示为离散时间线性时不变滤波器。短期频率响应的线性系统模拟的频率塑造声道系统,由于声道形状变化相对缓慢,这是合理的假设线性系统响应不随时间间隔的10毫秒左右。因此,通常描述离散时间线性系统的系统函数的形式给出的滤波器系数和改变速度的50到100次/秒。这些波兰人系统功能的谎言接近单位圆,创建共振模式共振峰频率(10]。在短期的时间间隔,线性系统是由(1整机全极系统)可以被描述为一个函数的形式: 这个模型的主要优点是增益参数和滤波器系数可以估计,计算高效的方式是非常简单的一个线性预测分析的方法。

线性预测误差序列具有冷杉的形式输出的线性系统的系统功能因此,预测误差滤波器,是一个逆滤波器的系统,,也就是说, 根据(4),的零的波兰人。因此,如果模型顺序是明智的选择,那么可以预计,大约根将关闭在频率的共振峰频率(10]。

北极的位置预测多项式可以计算通过求解方程的根吗。每一对复根用于计算相应的共振峰频率和带宽。复杂的根对和采样频率共振峰频率和3 db带宽拥有的变换方程的形式由以下两11]:

4所示。基于DWT的分割

在DWT的时间尺度表示信号进行分析通过过滤器在不同尺度不同的截止频率。小波可以通过迭代实现与尺度改变过滤器。信号的分辨率,这是一个测量信号的详细信息,由过滤操作,规模是由upsampling和将采样操作(12- - - - - -14]。在这项工作中,我们进行了一个只有六级分解的语音信号的频带覆盖人类的声音。

图1显示了DWT分割块。存储为DWT分段音素,,,,,后来,用于识别元音音素识别算法(部分6)。在每一个层面上,信号重构是通过设置所有其余的小波系数0除了重建信号的水平。可以看出如果分解语音信号重建的一部分,各级,不同信号的一部分。工作使用Daubechies”小波作为母小波函数和四个正交小波分解和重构滤波器。对于小订单Daubechies的小波,小波和更好的时间分辨率。然而,频率响应的低阶小波有很多旁瓣。通过增加订单,我们得到光滑的版本更好的母小波分析对信号。因此,根据(12),我们选择使用10-order小波。

5。提出了基于SOM的分割算法

SOM的特殊属性有效创造空间组织的内部表示各种输入信号的特点和他们的抽象15]。索姆可以看作一种数据可视化技术,也就是说,它提供了一些基本的数据结构(16]。这个想法是用于我们的元音分割技术。通过培训获得的权向量与LPC特性的一维SOM包含元音的单词分割是在工作中使用。训练同样的SOM各种迭代,我们得到不同的权重向量,每一个都被认为是一段不同的音素构成单词。工作涵盖所有阿萨姆邦的元音。SOM权向量提取算法可以概括为图的框图2。为一个特定的迭代算法在算法可以在数学上表示为1。SOM权向量从而提取存储,,,,,。SOM的作用是提供音素分割边界。在这里,六种不同的分割边界获得了六个不同的权重向量。所使用的权重向量从而获得,并认识到这一节中描述元音音素6。

(1)输入:口语的大小、抽样
频率、持续时间第二个
(2)预处理信号使用预处理
算法中所描述的部分7.1
(3)初始化线性预测、订单
(4)发现的系数阶线性预测滤波器

预测实值的当前值
预处理时间序列基于过去的样品。
(5)存储
(6)拓扑地图的神经元排列
一个维六角形图案。
(7)初始化的重量一个小的随机数。
(8)学习参数进行初始化,和邻居。
(9)()
选择一个(k)
找到取胜的神经元,

更新突触取胜集群的向量,

更新,
(10)存储更新后的重量作为,在那里

6。识别算法

四并训练用干净的元音音素是用来识别六段通过DWT的元音音素或基于SOM的分割。对所测试的优势是,它是保证方法的贝叶斯最优决策。贝叶斯决策准则的最优分类过程的pdf文档类歧视是已知的先验。并通过以来最快的网络学习过程只需要本地化参数适应性与单个通过训练集(17]。这里,两舱并执行问题,并通过四个训练两个干净的元音音素和命名PNN1,PNN2,PNN3,PNN4,即输出类PNN1/我/ / u /,输出类的PNN2/ e / o /,等等。这四个并使用顺序确定分段元音音素。干净的元音被记录从五男五女发言人用作输入的输入层,并通过提供给每个神经元对所测试的模式层。并通过学习算法在算法可以表示为2。

(1)声明:元音分类输入模式成
两个类别的元音,元音-一个和元音-B
(2)初始化:平滑参数
(从观察确定成功的学习)
(3)每个模式的输出单位,

(权向量)
(4)执行非线性操作找到神经元激活函数的形式

(5)所有的总和类别元音-一个并为类别元音——做同样的事情B
(6)二元决策的重量由——两个求和输出变量

在那里,
和先天的模式从元音的发生概率一个和元音-B分别
损失与错误的决定
和没有的模式
元音,一个和元音-B分别为两个类别是10

一个两步决定是采取的识别算法。第一场比赛对所测试的元音部分模式,然后检查其第一共振峰频率F1,是否位于预定的范围。并通过和F1识别算法为特定元音/ i /算法可以表示为3。F1的音素概况部分中解释7.2。

(1)输入:演讲的大小采样频率,、持续时间第二个
(2)预处理信号使用预处理算法中描述的部分7.1
(3)获得Dw1, Dw2、Dw3 Dw4, Dw5,使用DWT Dw6
基于分割中所描述的部分4或获得SW1 SW2 SW3、SW4 SW5,送回使用SOM的重量
向量提取算法中描述的部分5
(4)找到第一共振峰频率Dw1 Dw2, Dw3, Dw4,
Dw5 Dw6和商店,,,,和或找到的第一共振峰频率SW1、SW2 SW3, SW4,
SW5,送回商店,,,,和
(5)负载*PNN1*
(6)决定VOWEL-A
如果Dw1 = VOWEL-A和= F1的元音
其他的如果
Dw2 = VOWEL-A和= F1的元音
其他的如果
Dw3 = VOWEL-A和= F1的元音
其他的如果
Dw4 = VOWEL-A和= F1的元音
其他的如果
Dw5 = VOWEL-A和= F1的元音
其他的如果
Dw6 = VOWEL-A和F1的元音
其他的决定
“不是阿萨姆语元音音素/我/”。
或
决定VOWEL-A
如果SW1 = VOWEL-A和F1的元音
其他的如果
SW2 = VOWEL-A和F1的元音
其他的如果
SW3 = VOWEL-A和= F1的元音
其他的如果
SW4 = VOWEL-A和= F1的元音
其他的如果
SW5 = VOWEL-A和= F1的元音
其他的如果
送回= VOWEL-A和= F1的元音
其他的决定
“不是阿萨姆语元音音素/我/”。

7所示。实验的细节

工作是进行按图的流程图3。工作只涉及元音音素。实验记录语音样本从五个女性演讲者和五个男性扬声器。首先清洁元音音素的2秒持续时间被记录在8000样本/秒和16位/样本,结果总共10广泛的语音信号。在第二阶段两个字母的词,,,,等等。记录和其他女性和男性扬声器。这些话后来分割获得第一个音素。以下部分描述各种实验工作和结果。

7.1。预处理

语音信号的预处理包括两个operations-smoothing信号的中值滤波和删除沉默的一部分的阈值方法。虽然语音信号被记录在免费噪声环境中,存在一些不必要的峰值是观察。因此进行中值滤波操作原始语音信号,以便元音分割不受任何类型的不必要的频率分量(18]。

平滑信号包含演讲和nonspeech部分。nonspeech或沉默的部分发生在语音信号由于演讲者之前和之后的时间说出这次演讲和信息被认为是多余的一个元音分割的目的。沉默的一部分理想强度为零。但在实际情况下,观察到即使平滑,沉默的语音信号强度约为0.04的一部分。我们的预处理算法认为这个强度值作为阈值算法的算法4。因此纯信号只包含必要的演讲部分。

(1)输入:演讲的大小采样频率,,
持续时间第二个
(2)输出:语音信号的一部分新的尺寸,
持续时间
(3)来做
为来做
(4)
(5)结束
(6)结束
(7)初始化
(8)

(9)
(10)初始化
(11)来做
如果然后
如果然后
如果
结束了
(12)初始化
(13)来做
如果然后

其他的
如果
结束了

7.2。估计共振峰频率

八个元音的共振峰频率的阿萨姆邦的语言使用LP模型估计的谱包络的声道。LP分析,整机全极预测滤波器模型一个声道的角位置的两极滤波器给出了共振峰频率(9]。总共八个干净的元音音素和八个分段元音音素的平均使用范围的第一和第二共振峰为每个元音音素估计。声道谱包络的元音/ i /口语女发言人如图4。

在LPC的共振峰中心频率和带宽可以确定准确地通过分解预测多项式。由于预测订单选择先验的LP分析,可以获得复杂波兰人的最大数量是什么。无关的波兰人很容易孤立在LP分析相比,因为他们的带宽往往非常大的共振峰带宽(10,19]。因此,预测订单使用LP分析共振峰估计的一个重要因素。五、六声道的共振是足以代表共振峰的位置。另一个重要因素,选择预测订单,语音信号的采样频率是解释部分3(10]。记住这两个事实,为这项工作选择的预测订单是8。这意味着8还需要值:7反射系数和增益。

表2代表了前两个元音共振峰的频率。图5显示了一个阴谋的F1和F2证明所谓的元音三角形可以可视化的估计共振峰的价值观。


Sl.没有	音素	F₁(赫兹)	F₂(赫兹)

(1)	/我/	260年	1030年
(2)	/ u /	320年	620年
(3)	/ e /	470年	1050年
(4)	/ o /	370年	680年
(5)	//	590年	990年
(6)	/ɔ/	500年	730年
(7)	/ /	630年	820年
(8)	/ɒ/	570年	720年

7.3。分割和分类结果

节中描述4和部分5分割是进行两次通过使用两种不同的方法:首先使用传统的基于DWT方法使用基于SOM的方法其次。分段音素然后检查一个接一个地找到特定的部分代表元音音素训练并通过匹配模式。可以看出不同的元音的识别成功率是突然增加(从89.6%到96.27%)和基于SOM的分割技术。表3总结了这种性能差异。SOM是训练了六种不同的迭代边界提供相同数量的决定。获得50会话一段名叫SW1(图2)。同样,100年,1000年、1500年、2000年和3000年会议其他五个部分。这有点类似于使用DWT进行分割。DWT为六级分解提供了比SOM更快的处理时间。SOM,一些重要的时段是迷失在训练。但SOM提供的部分提供更高的分辨率,帮助并随后提供一种改进的歧视能力。表4展示了各种元音成功率。基于SOM算法的计算时间更基于DWT方法相比。但它是观察到的基于SOM方法,识别率相当满意。与分布式处理器和更好的编程技术可以进一步降低算法的计算时间。


Sl没有	细分技术	成功率

(1)	DWT	89.6%
(2)	耶鲁大学管理学院	96.27%


Sl没有	元音	成功 DWT的速度	成功 SOM的速度

(1)	/我/	89.8%	97%
(2)	/ u /	86%	96%
(3)	/ e /	84%	95%
(4)	/ o /	86.5%	96%
(5)	/ε/	94.6%	91%
(6)	/ɔ/	93%	98.2%
(7)	/ /	88%	99%
(8)	/ɒ/	95%	98%

另一个音素分割可以解决方案经验模态分解(EMD)方法,时间序列数据分为固有振荡基于本地的,时间,数据的结构特点。EMD方法是一个重要的替代传统的时间序列数据分析方法如小波分析(20.- - - - - -22]。该方法可以比较的结果,从EMD可获得建议未来方向目前的工作。

8。结论

介绍了一个基于混合神经框架分割和识别算法的阿萨姆语元音音素从两个字母阿萨姆人字包含这些元音音素。虽然在该算法识别时间更,但它显示了明显的优势的成功率比基于DWT的方式。通过使用一个分布式处理,计算时间可以进一步降低。通过开发类似的算法来识别其他成分音素包括最初的人,一个完整的扬声器独立的语音识别系统可以开发专门为阿萨姆邦的语言。

引用

k . o . e . Elenius和h . g . c . Traven多层感知器和音素识别的概率神经网络、言语交际和音乐音响、数值分析和计算机科学系(NADA),斯德哥尔摩,瑞典,1993年。
n . Mammone f . La Foresta经纪人莫拉比托f . c,“自动工件从多通道小波ICA头皮脑电图,拒绝”IEEE传感器杂志,12卷,不。3、533 - 542年,2012页。视图:谷歌学术搜索
d . Labate f . La Foresta g . Inuso和经纪人莫拉比托f . c”对小波分析在脑电图工件检测,”人工智能前沿和应用程序卷,226年,第106 - 99页,2011年。视图:出版商的网站|谷歌学术搜索
s . c . Ng和p . Raveendran“强化μ节奏使用盲源分离和小波变换,提取”IEEE生物医学工程卷,56号8,2024 - 2034年,2009页。视图:谷歌学术搜索
n·p·卡斯特罗和v . a .马卡罗夫脑电图恢复大脑信号:工件抑制与小波增强的独立分量分析,“神经科学杂志》上的方法,卷158,不。2、300 - 312年,2006页。视图:出版商的网站|谷歌学术搜索
b . Azzerboni g . Finocchio m . Ipsale f . La Foresta经纪人莫拉比托f . c,“肌肉活动的一种新的检测方法独立分量分析和小波变换,”神经网络卷,2486在计算机科学的课堂讲稿,第116 - 109页,2002年。视图:谷歌学术搜索
g . c .他,:阿萨姆邦的结构们、出版部门、大学、阿萨姆邦,印度,1982年版,1日。
礼貌:Gautam约纳利教授,http://tdil.mit.gov.in/assamesecodechartoct02.pdf部门CSE, IIT,印度。
a . m .•德利马Arajo和f . Violaro共振峰频率估计使用梅尔规模Lpc算法、DECOM-FEEC-UNICAMP圣保罗,巴西,2002年。
l·r·拉宾和r·w·谢弗语音信号数字处理,第三个印象培生教育,上台北,美国,2009年。
m . Misiti y Misiti、g·奥本海姆和j . Poggi小波工具箱,用户指南,http://web.mit.edu/1.130/WebDocs/wavelet_ug.pdf,1996年。
第二章d Sripathi,离散小波变换,http://etd.lib.fsu.edu/theses/available/etd 185039/unrestricted/09_ds_chapter2.pdf——11242003,2003年。
d·b·珀西瓦尔和a·t·瓦尔登湖小波时间序列分析的方法英国剑桥,剑桥大学出版社,2000年。
s . Mallat小波信号处理、学术出版社,纽约,纽约,美国,1999年。
t . Kohonen“自组织映射”,IEEE学报》,卷78,不。9日,第1480 - 1464页,1990年。视图:出版商的网站|谷歌学术搜索
微积分,神经网络和学习机器φ学习私人有限,新德里,印度,第3版,2009年版。
d . f . Specht“概率神经网络”,神经网络,3卷,不。1,第118 - 109页,1990。视图:谷歌学术搜索
b t . Tang r·朗·h·施罗德,a .喷雾和p . Dermody”将小波分析应用于语音分割和分类、小波应用程序”学报学报卷,2242年,第761 - 750页,1994年。视图:谷歌学术搜索
r·c·斯奈尔和f . Milinazzo“共振峰位置从LPC的分析数据,”IEEE语音和音频处理,1卷,不。2、129 - 134年,1993页。视图:出版商的网站|谷歌学术搜索
n . Ur Rehman, d . p . Mandic多元经验模态分解的滤波器组属性。”IEEE信号处理卷,59号5,2421 - 2426年,2011页。视图:出版商的网站|谷歌学术搜索
m·坎波洛d . Labate f . La Foresta经纪人莫拉比托f . c, a . Lay-Ekuakille和p . Vergallo“ECG-derived呼吸信号利用经验模态分解,”《IEEE国际研讨会医疗测量和应用程序(MeMeA 11),5966727条,2011年。视图:谷歌学术搜索
c·d·布莱克一个快速的非平稳非线性时间序列的经验模态分解技术美国,爱思唯尔科学,纽约,纽约,2005年。

应用计算智能和软计算

文摘