以证据为基础的补充和替代医学

在这一页上

文摘介绍方法和材料实验结果讨论和结论确认引用版权相关文章

研究文章|开放获取

体积2012年| 文章的ID831543年| https://doi.org/10.1155/2012/831543

学习声乐的特征选择方法和声音识别四种宪法类型的属性

马Ho金,¹ Boncho Ku,¹ Namsik康,¹ Young-Su金,¹ Jun-Su张成泽,¹ 和Kim Jong Yeol ¹

学术编辑器: 田中伸男(Nobuo山口

收到了 2011年9月14日

修改后的 2011年11月15日

接受 2011年11月20日

发表 2012年3月19日

文摘

声音已经被用于四个宪法类型进行分类,并认识到一个主题的健康状况中提取有意义的物理量,在韩国传统医学。在本文中,我们提出一个方法,从各种声音特性选择可靠的变量,如频率导数特性,频带比率,和强度,从元音和一个句子。进一步,我们建议一个过程提取独立变量通过消除解释变量和减少他们的相关性和删除边远数据,使可靠的判别分析。此外,合适的部门的数据进行分析,根据研究对象的性别和年龄,进行了探讨。最后,声音特性应用于判别分析对每个宪法类型进行分类。这个声音分类方法可以广泛应用于u-Healthcare个性化医疗体系,提高诊断准确性。

1。介绍

Sasang宪法医学(SCM)提供了相同的症状,不同的治疗方法,因为它将人类划分为四种类型(Taeyangin (TY) Soyangin (SY) Tae-eumin (TE)和Soeumin (SE))根据他们的外表和性格1,2]。在韩国传统医学(TKM),声音检查形式四考试之一3),以及目视检查(4],听诊[5],触诊[6,7),一项调查。声音检查有脱颖而出的重要主题为研究四种人类宪法类型(5,8]。这些宪法类型之间的关系和声音所示Sasang-Inhaejinam Saseongron [5)如下:泰类型的声音尖锐的语气,来源于良好的呼吸器官。他们的声音是干净和光滑,匹配的声音商(商音)在中国传统五的声音。TE类型有一个响亮的男中音,因此声音沉重,厚,温柔。由于阴优于阳,男中音和这样一个声音的响度是足够高的。SY类型有可怜的呼吸器官,因此有一个低沉的语气和light-sounding声音。他们的节奏声音紧迫,他们的声音很容易分散广泛。因为SE类型有丰富的声音,他们听起来明快,缓慢,容易。男中音和响度的声音足够高像TE类型5]。

基于TKM四宪法关系类型和声音,研究试图科学和定量解释这种关系进行了。2004年,公园和金9)获得重要成果使用,从一个客观的诊断微光,h1和h2谐波定义不同的声音强度和共振峰带宽为个人识别。2005年,金等人研究了韩国成年女性使用的宪法特征,振幅微扰商(APQ),闪闪发光,八度,和能源的声音特性(10]。2006年,金正日et al。11]研究了四种宪法的特点在6到12岁的孩子的声音,和蔡等人研究了各种特性的显著特点的成年男性的声音12]。

然而,在这一领域的许多研究已经表明,可以只提取一些声音特性,然后应用这些统计参数估计。此外,他们毫无意义的结果产生宪法分类采用不同的模式分类方法,随着声音数据从一个地点和一个有限的年龄区间。本文提取各种元音和一个句子的声音特点的声音来自多个站点的数据被执行时,和稳定的声音特性选择部分的可重复性2.1和2.2。收购独立变量和消除异常值量化和可靠的判别分析讨论了部分2.3和2.5。此外,语音数据的属性在所有性别和年龄组合,和一般的宪法分类方法提出了部分2.4。

2。方法和材料

2.1。语音习得环境

初始语音习得中,我们使用个人电脑(PC)和外部PC声卡避免噪声。我们挑选了一声霸卡活24位外部声卡,和使用一个森海塞尔e - 835 s的声音只记录麦克风。通过使用一个麦克风,麦克风和一个主题的嘴之间的距离是5厘米,和麦克风缸的主要轴是固定要与地面平行和垂直于口。我们使用的音频编辑器v5.58 [13录音软件和保存声音文件为WAV文件。为了确保高质量的录音,使用44.1 kHz的采样频率。

每位受试者被要求自己座位舒适,说话自然不紧张在足够的休息超过1小时,与运营商,好像他们是唯一的人在房间里,照顾维持通常体积和速度的声音。元音发音和句子时,1 s的主题是沉默,然后明显“,”“e”“我”“啊,”和“u”3 s, 1 s每个元音之间的沉默。进一步1 s的沉默后,给出的主题重复句子两次,1 s每个句子之间的沉默和年底的最后一句话结束录音。在这一系列的实验开始之前,标准操作程序(SOP),类似于上面所述的习得过程,建立了作为防范差异在个人设备运营商。所有进程然后跟着SOP。宪法类型的所有对象都证实了SCM医生在许多韩国医疗诊所后记录后的反应,观察病人的改进管理constitution-specific制药、SCM的诊所和医生的数量是24和43岁的分别。

2.2。选择预处理的声音特征

我们实现了c++程序见图1,加上HTK [14]和Praat [15),获得声音的特性。元音和一个句子的语音特征提取从声音波文件在给定的环境中捕获。特征提取的窗口大小40 ms,和邻近窗户被重叠的50%。

声音的特性数据所示2和3分别为5个元音和一个句子,为了不失去任何声音信息。每个元音T0的特点,F0(平均音调频率),DTF0(平均F0的不同时间间隔),F1-F4, BW1, BW2(第一和第二共振峰频率和带宽的计算)(16F1, F2 / F1、F3 /, F4 / F1、F3 / F2, F4 / F2、F3, F4 /(共振峰频率的比值),JITA, JITT, PPQ,说唱(抖动,抖动的比例,平均变异,平均音高频率),MFCC1-13条款(mel-frequency cepstral系数(MFCC)),哪些是有用的语音识别的模式(17- - - - - -21),SHDB,垫片,APQ (dB闪闪发光,它的变异,和光滑振幅的变化),能源和元音的力量,和声音能量的比率固定频段,如60 - 120赫兹,120 - 240赫兹,240 - 480赫兹,480 - 960赫兹,960 - 1920赫兹,和1920 - 3840赫兹。

一个句子的特点是F10 F50,法郎,F0(10、50和90百分位数和音高频率的平均值),(频率之比的百分比差异),一块,I50, I90, I0(10、50和90百分位数,平均强度),(强度的比率百分比差异),FSTD(音高频率的变化),ISTD(强度)的变化,社民党(一个句子阅读速度),CORR(皮尔森相关系数22F0之间和钱数超过给定的时间间隔),和声音能量的比率固定频段,在“s”在前面表示”的句子。“最后,我们获得了222的特性/主题。

222年在这些特性,我们认识到,一些功能的变化敏感话题的话语。我们试图找到稳定的特性由流程如图4。

起初,我们记录了五次元音和句子在同一天的上午和下午,共计十个录音的六个科目(三个男性和三个女性)。然后提取每个主题的重复特性的声音获得简历(变异系数),和只收购功能有足够的可重复性(定义为这些功能的CVs所有六个受试者少于20%)。

然而,如左边的图所示5从precollected数据集,它是已知的一些特性没有高斯分布,但不是向右倾斜,我们将通过日志或根。这些改变分布在右边的数据显示5(一个)和5 (b)分别是类似于高斯模型。

(一)第一共振峰的频率

(b) JITA

由于偏态分布的特点,很难区分正常数据和异常数据删除离群值,构建一个精确的判别函数。分布的变化可能会影响结果的判别函数。

2.3。特征提取和相关检查之间的特性

我们收购了声音数据预处理,然后提取选定的声音特性,根据流图6。这之后,我们进行了相关检查,进行如下。通常情况下,有一些特性之间的相关性从相同的声音。如果两个或多个预测变量是高度相关的数据集,这些变量包含基本相同的信息的反应。这种现象被称为多重共线性,它增加回归系数的估计的标准误差,然后给迷惑和误导的结果;模型构建适合,即使不是每个个体特性是具有统计学意义。

一个可能的解决方案,以避免多重共线性是消除冗余的解释变量的模型通过检查相关结构特性。发现多重共线性的一个流行的方法是计算通货膨胀因素变化(VIF)为每个解释变量,因为在哪里模型的确定系数包括预测除了吗预测。如果,那么多重共线性的问题存在。对于我们的数据,一些声音的特性有一个非常高,因此我们之前减少了数据矩阵构造分类模型。

2.4。部门根据性别和年龄区间的声音属性

作为下一个步骤,数据的平均值和标准偏差被认为是。一个学生的以及用于测试性别差异的重要性。图7表明,和女性高于男性,这些差异是显著的。此外,图8说明了,“a”(在男性随着年龄的增加线性二十出头的年代,,SY类型比本身更大。在女性,线性下降从青葱岁月到年代,和SE类型大比SY在六十年代之前,但这一趋势在五十年代开始逆转。这个图不显示数据泰类型,因为泰类型太小的数量统计分析(少于1%)。由于这些因素,我们分析的数据集包括青少年和其余数据划分成年龄间隔。尽管许多间隔需要discretised进一步使更精确的分析,我们还需要更多的样本在每个区间相关的统计分析。间隔分为只有三个部分作为一个权衡,即20多岁、30多岁和40多岁,年过五十的人,根据性别。

(一)

(b)

(一)

(b)

2.5。删除离群值

当一个特性从一个考生的语音数据在范围之外(四分位范围23),该功能被认为是一个异类和排除在分析,因此数据干扰判别的准确性。剩下的数据被用来获得显著的特性以宪法的分类。离群值可能是由于噪声和错误记录。

2.6。判别分析

本研究的目的是确定的声音特征frequency-derivative变量、强度、速度和找到这些的统计学意义与宪法的四个类型。统计分析结果表明四个宪法类型相关的量化特征。有四个宪法(泰,TE、SE和SY类型),可以使用一个单向方差分析(方差分析)来测试零假设,没有宪法的四个类型的区别。四种类型,我们排除了泰的分类由于小数量的数据可用于这种类型。用SPSS统计软件进行统计分析(14.0版)(24),而小于0.05的值被认为是具有统计学意义。

3所示。实验结果

3.1。特征选择和数据采集

我们提取每主题(见表92特性1),他的CVs在所有六个受试者不到20%,因此有足够的可重复性,我们中提到的部分2.2。这些特性包括场地,时间,日志或平方根变换,元音共振峰和频段的比率,球场的百分位数及其比例,强度,频带的比率,改变句子的阅读速度。

我们收集了2669个声音来自24个医疗中心的数据。其中,531是由操作员手动排除分析,由于太短,表面上吵闹,或在记录时间错误,即使他们获得严格按照SOP。剩下的数据由852男性和1286女性。TE的数字,SE、泰、SY类型是787年,563年,61年和727年,分别。数据从青少年打破的声音也被排除在外。泰类型数据集的少量会产生具有统计学意义的结果,所以他们也被排除在分析之外。要分析的数据是多样化分布从20年代,和男女。最后,我们分析了1972数据集后扣除泰和青少年。最初,92年选择功能表1从这1972个声音数据提取。

3.2。特性和代表之间的关系特征

我们计算了VIF之间选择的特性,其中一些是高度相关(那些大型VIF值)。准确的判别分析,我们应该只提取独立代表从这些特性。球,他们的衍生变量,CORR从元音和句子相互高度相关。这意味着一个类似频率属性生成的一个话题,因此我们只选择uF0_ln和eT0_ln从这些。从元音共振峰和他们的比率是高度相关,因此我们选择只显示一个高斯分布的改变共振峰。强度及其衍生品是sI0减少。所有的转换JITAs,音高的变化,依然存在。xFB60_120 / xFB240_480和xFB60_120 / xFB960_1920值从元音和句子都是高度相关,但MFCCs没有表现出显著相关性。因此,我们获得了代表特性表中给出238岁的,最终的数量特征及其vif每个小于10。

3.3。删除离群值

如果任何一个特性的数据范围之外的一个主题,数据包含这个特性被认为是一个异类,删除。数据集的数量被减少到可容纳1923观众,详细的表3。宪法的男性比例数据是42.82,24.07和33.11%,这些女性的数据是34.93,28.18和36.89%,TE, SE,分别和SY。

3.4。宪法的分类

由于不同的声音特征根据性别和年龄,我们能够将受试者分为六组,两者的结合的性别和三个年龄间隔。

首先,我们每组数据提取的显著特征。其次,来自这些重要特性判别函数。最后,宪法的分类判别函数类型与他们的不同。这个过程被重复的六组。

尽管宪法有四种类型,泰类型太小的数量统计分析。因此,将泰数据排除在我们的分析后,我们剩下的三种类型分类。宪法的结果精度如表所示4。男性在二十几岁,宪法精度是52,53岁,44%为TE, SE, SY,分别和整体平均比例为50%。男性在三四十岁,42的精度,58岁,52%为TE, SE, SY被发现,分别平均是50%。男性超过五十岁,宪法精度是54岁,55岁,46%,TE, SE, SY,分别与一个整体平均水平为51%。

二十几岁的女性,宪法精度是55岁,38岁的49%,TE, SE, SY,分别和整体平均比例为53%。女性在三四十岁,42岁,50岁,45%为TE, SE, SY,分别与一个整体平均水平为46%。女性超过50岁,他们40岁,50岁,54%为TE, SE, SY,分别,整体平均水平为47%。

相同的倾向SE类型的高准确率比TE和SY类型在男性和女性在所有年龄间隔。20多岁的女性比其他女性显示更高的准确率年龄段,男性和女性的平均准确率和相似。

4所示。讨论和结论

本研究旨在利用科学和系统化的方法来检测重要的声音特性,以帮助确定宪法类型的病人。因此,我们尝试一个分类过程以客观和定量区分宪法类型通过分析受试者的声音的特性不受噪声和错误。

找到稳定和重要的声音特性,我们使用CVs和vif的特征选择方法。简历阈值的20%被用于选择稳定的特性,然后VIF阈值7 - 8用于减少特征之间的相关性。只有一个相关的特征选择和分类过程的分析。我们发现一种密切的相关性元音和一个句子的音高,元音的共振峰频率和比率,为每个元音和频带的比率或每个句子,这显示了频率特性。此外,句子的平均和平均强度密切相关。通过避免解释变量,我们获得准确的判别函数来自38个特征变量。判别函数使用的功能,包括转换,减少相关根据性别和年龄区间如下。一般来说,元音,是一个低调,e是一个中间色调,和我,啊,你是相对较高的音调。男性在二十几岁,TE给更大的值比SY的F2低沉的,低沉的财产。SE有较大重量的F3, F4中间搭e和似乎并不属于高或低的音调。

二十几岁的女性,SY类型比TE F4的高音,高音的F3 o。特别是,TE iFB240_480 / iFB960_1920显示低音调作为低价值。此外,由于SY显示字母o音高变化较小,这意味着SY类型明显这封信更清楚。

男性在三四十岁,SE是更大的F2中间搭e,与SY F4的高音。TE显示频带上的低调的属性比(oFB240_480 / oFB960_1920) o,音高变化的高音u SY和SE较小,这表明,他们的声音是清晰的。

女性在三四十岁,SE在句子的力量(sI0)是重要的,这是一个重要的因素区分SE类型。此外,TE是更大的在球场上变化的高音啊,这表明,TE类型有粗糙的声音。

对50岁以上的男性,SY是比其他类型的TE的高音o。低调的属性类型和高音SY类型之一是显示在o和u的频段,分别。

50岁以上的女性,SY是较大的的高音,SE和SY类型显示一些关系的强度(sI0)他们的话语。是已知的因素在这个年龄间隔TE的区别并不大。

从前面的评论中,我们可以推断出的变量导致每个宪法类型的确定,根据性别和年龄差异。

MFCCs通常用于语音识别,但这些都是充分利用判别函数的区别四个宪法类型。然而,转换后的共振峰频率利用在每个年龄间隔和性别,和这些参数反映声道的结构通过口腔和鼻腔为articulation-the蛀牙菌膜,下巴,舌头和嘴唇。

在这项研究中,我们提取稳定的声音特性的语音数据,改变了这些特性,划分数据根据性别和年龄的声音属性。然后我们最小化相关功能,删除离群值,发达的判别函数自适应特性的性别和年龄显示报告的准确性。

最后,给出了一个判别函数分类精度约50%的宪法为每个年龄间隔和性别。这精度水平是有意义的,因为它决定只使用的声音。如果有三种类型的宪法,一种类型被选中的概率随机只有1/3。此外,如果综合算法包含的脸和身体形状数据和调查,以及语音数据,制定宪法的分类,那么我们的研究结果对于语音分类有助于改善的精度水平。

在未来,我们需要找到更有效的声音特性分类和显示判别方法区分健康状况以及宪法类型。特别是语音分析方法将发挥关键和重要作用,最终导致u-Healthcare和智能手机的系统。

确认

这项工作得到了韩国知识经济部和韩国评价工业技术研究所(10028438)和部分由韩国国家研究基金会(NRF)授予由韩国政府资助(最高明的)(20100020617)。

引用

j.y.金姆和d·d·范教授,“Sasang宪法医学作为一个整体定制的医学”,以证据为基础的补充和替代医学》第六卷,附录1,11-19,2009页。
视图: 出版商的网站 | 谷歌学术搜索
h·崔,s . h .公园,s . j . Lee m . g . Kim d .婚礼,和y . k . Kwon”心理的sasang类型学:系统回顾,“以证据为基础的补充和替代医学》第六卷,附录1,21,2009页。
视图: 出版商的网站 | 谷歌学术搜索
世卫组织西太平洋区域,国际标准术语在西太平洋地区的传统医学,2007年。
古,j . y . Kim m·g·金和k·h·金,“从面部图像特征选择的区别sasang宪法,”以证据为基础的补充和替代医学》第六卷,附录1,第71 - 65页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
j·李,“Dongeuisusebowon-chogo”,比起122年,页119 - 1999,(由D.-R翻译。金)。
视图: 谷歌学术搜索
j·金,y . j .全y . j . Lee, k . h . Kim和j . y .金”小说诊断算法浮动沉脉冲特性及其临床试验”以证据为基础的补充和替代医学文章ID 813427卷,2011年,10页,2011。
视图: 出版商的网站 | 谷歌学术搜索
h·w·歌,李,y . k .公园和郑胜耀哇,“定量区分tae-eumin sasang宪法诊断方法和基于弹性soeumin类型测量皮肤的人类的手,“以证据为基础的补充和替代医学》第六卷,附录1,第98 - 93页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
s . j .月亮,j·h·达克,h . j .黄”的语音研究“Sasang宪法”,“Malsori,55卷,页1 - 14,2005。
视图: 谷歌学术搜索
S.-J。公园和D.-R。金”,研究相关性Sasang宪法和声音特征谐波和共振峰带宽使用,“Sasang宪法医学杂志》上,16卷,不。1,第73 - 61页,2004。
视图: 谷歌学术搜索
工程学系。金,D.-Y。汉族,J.-Y。梦想,D.-R。金,J.-W。全”,研究韩国成年女性声音的特点与pssc Sasang宪法分析- 2004”Sasang宪法医学杂志》上,17卷,不。1,第102 - 84页,2005。
视图: 谷歌学术搜索
S.-M h . Kim。杨,G.-H。垫片,js。Yoo和D.-R。金,“Sasang宪法的声音特征类型使用pssc - 2004在朝鲜的孩子,”Sasang宪法医学杂志》上,18卷,不。2,55 - 67、2006页。
视图: 谷歌学术搜索
J.-W。崔H.-S。歌,D.-Y。汉和信息。曹”,研究韩国成年男性声音的特点,根据Sasang宪法用PSCC一句话,“Sasang宪法医学杂志》上,18卷,不。3、64 - 74年,2006页。
视图: 谷歌学术搜索
http://www.goldwave.com/。
http://htk.eng.cam.ac.uk/。
http://www.fon.hum.uva.nl/praat/。
j·r·戴勒·j·h·l·汉森和j·g . Proakis离散时间语音信号的处理Wiley-Interscience,纽约,纽约,美国,2000年。
j . c . Junqua和j.p. Haton在自动语音Recognition-Fundamental和应用程序健壮性,Kluwer学术出版社,1996年。
a . Acero和r·m·斯特恩“自动语音识别、环境鲁棒性”国际会议声学学报》,演讲,和信号处理(ICASSP ' 90)1990年4月,页849 - 852。
视图: 谷歌学术搜索
h . Hermansky:摩根和h . g . Hirsch”识别基于塔法里教的演说中添加剂和卷积噪声谱处理”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 93),页我- 83 - 86年,1993年4月。
视图: 谷歌学术搜索
m·g . Rahim和b . h . Juang”信号偏差消除最大似然估计的健壮的电话语音识别,”IEEE语音和音频处理,4卷,不。1,19-30,1996页。
视图: 谷歌学术搜索
n .阿米尔,“情感分类演讲:一个比较的方法,”学报》第七届欧洲语音通信和技术会议(Eurospeech 01),1卷,页127 - 130,Aalborg,丹麦,2001年9月。
视图: 谷歌学术搜索
http://www.vias.org/tmdatanaleng/cc_corr_coeff.html。
http://en.wikipedia.org/wiki/Interquartile_range。
http://www - 01. ibm.com/software/analytics/spss/。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1502年

下载

948年

引用