自动性别检测的基于特征声带的移动医疗系统

文摘

自动性别检测可能是有用的在某些情况下的移动医疗系统。例如,有些病态,如声襞囊肿,主要发生在女性患者。如果有一个自动性别检测方法嵌入到系统中,很容易对医疗专业评估和规定适当的药物治疗病人。在人类的声音生产系统中,声带的贡献是非常重要的。声带是依赖于性别的长度;男性比女性长声带议长。由于声带长,一个男性的声音变得沉重和,因此,含有更多的声音强度。基于这个想法,一种新的时域声学特征自动性别检测系统提出了本文。拟议的特性测量声音强度计算修改下的面积轮廓区分男性和女性。两个不同的数据库是用来表明,该功能是独立于文本、口语、方言地区,记录系统和环境。 The obtained results for clean and noisy speech are 98.27% and 96.55%, respectively.

1。介绍

自动性别检测的应用(AGD)系统显著增加,由于最近发展演讲/说话人识别、人机交互、和生物安全系统包括身份验证访问数据,监测,和安全。冒名顶替者的性别检测系统限制搜索空间的一半许多识别和安全系统的最终目标是识别一个人。考虑不同的特征提取和建模技术,识别和安全系统应该实现的比较以这样一种方式,它不应该增加整个系统的复杂性。此外,性别检测系统可用于自动男性/女性的电话转移到相关的人或部门。此外,性别依赖模型的准确性高于性别独立的模型(1]。

在移动医疗系统(2- - - - - -5),自动性别检测可以发挥重要作用。有一些声带疾病(6,7),特定性别偏见;例如,声带囊肿可以看到尤其是女性患者(8,9]。如果有一种机制来自动检测病人的性别,这是更容易照顾者或医疗专业开出合适的治疗。在此系统中,病人的语音或演讲记录通过智能设备,连接到互联网。声音或演讲然后传输到云,云管理器验证病人。经理分配的任务特征提取和分类到不同的服务器,在决定性别。决策以及医学数据传输到注册医疗专业人员适当的治疗。

在大多数的研究(10- - - - - -16),用于性别检测的声学特性依赖于准确的估计的基本频率。基本频率的准确评估本身就是一个具有挑战性的任务。不准确的估计的基本频率可能会导致显著减少性别检测系统的准确性。此外,各种传统的语音特性,比如线性预测系数(LPC),线性预测cepstral系数(LPCC) Mel-frequency cepstral系数(MFCC)知觉(PLP),线性预测系数和相对光谱系数(RASTA-PLP)使用中(10,12- - - - - -14,17,18]性别检测。作者在研究[19)声称,用于语音识别的功能可能无法提供好的结果性别检测。因此,有必要探索新功能的性别检测其他比传统的语音特性,这些特性不应依赖于准确的估计的基本频率。

在本文中,我们提出了一种新型自动性别检测的功能。该特性考虑男性和女性演讲者的语音信号时域的形式,并提供了一个值面积轮廓(MVC)修改后的声音。该特性不依赖于估计的基本频率,它比现有的功能提供了良好的结果。

自动性别检测系统基于不同类型的特征和分类器不同精度在文献报道。人类的声学特征是基于性别由于声门的生理变化,声道厚度和长度。因此,研究人员正在试图找出最歧视性别特性检测。例如,两个声学特性,音高和第一共振峰提取的线性预测分析构建一个性别检测系统(17]。第一个特性与声音源和第二个声道。音调和共振峰频率的女性比男性的高。基于欧氏距离和最近邻分类器实现检测性别。吴和所在的研究10],许多声学参数,如自相关,线性预测倒谱,和反思,从元音,提取和摩擦音浊音和清音的,表现良好的性别检测。研究认为,对于一个给定的性别,是时不变的信息,音素独立,扬声器独立。在[11),96%的精度达到当音调输入多层感知器(MLP)神经网络。沥青、能源和十二MFCC美联储支持向量机(SVM),和性别检测系统的性能是95% (12]。使用声音来源进行性别检测,不同的声音源参数提取,检出率为94.7%,男性为95.5%,女性的声音是实现20.]。

比较各种cepstral特性提供了(13)当仅从表示中提取帧,从运行的演讲。cepstral特性,MFCC、LPCC和PLP,使用他们的三角洲系数在三种不同条件下进行实验。西格蒙德(18]选择MFCC分类使用男性和女性通过使用短元音以及段句子。

一个健壮的性别检测系统是由曾庆红等人在14]。发达系统已经测试了嘈杂的环境,和依赖的语言也被认为是系统的评价。获得的精度是95%,这显示了开发系统对噪声的鲁棒性。实验表明,该系统是独立于语言。相对光谱的特性和音高的男性和女性的扬声器用于性别检测。陈等人。15)提出了两个年龄组的儿童性别检测系统的8 - 9年,16 - 17年。获得的精度分别为60%和94%,分别有两个年龄组。不同的声学特性,源谱级,cepstral峰值突出,和harmonic-to-noise比率,用于实现系统。Sedaaghi [21)性别检测进行了比较研究,通过使用两个不同的数据库。使用各种分类器和声学特性(16性别分类系统,最好的报道准确性为95%。共有113个功能是用于研究和贝叶斯分类器是用于特征选择。的功能被分组到球场上,共振峰,谱和强度。最近的邻居、支持向量机、人工神经网络和高斯混合模型(GMM)作为分类器(16]。印地语语音自动性别检测系统开发(19)通过使用MFCC特征和欧氏距离分类方法。作者在本研究中提到相同的特性可用于性别和语音识别。然而,使用相同的特征对识别系统不能保证良好的性能。

拟议的功能做了初步调查(22]MVC用来测量时演讲的声音强度样本区分性别。数据库使用阿拉伯数字和手动阈值被用来分类的男性和女性。验证提出的性能特性,TIMIT数据库被认为是和自动分类的性别是由支持向量机(23]。

在这项研究中,我们调查了提议的特性在很多方面,这使得本研究不同(22,23]。最重要的因素是观察该特性对噪声的鲁棒性。背景/环境噪声语音基础应用程序可以降低开发的系统的性能,因此,不容忽视。因此,白噪声在不同sound-to-noise比(信噪比)中添加水平两性的语音信号,然后,开发系统的性能评估。结果用干净的演讲也获得的结果之间做个比较干净和嘈杂的演讲。此外,许多实验表明,该特性是独立执行的语言,文字,和记录系统。两个数据库是用于此目的;第一个数据库是英语,第二个是阿拉伯语。两个数据库记录通过使用不同的记录系统,和口语文本也是不同的。此外,提出了功能比较的结果与沥青+ RASTA-PLP特性提供最好的95%的准确性(14]。拟议的功能提供了良好的精度,可以用于说话人识别和生物安全系统,以减少系统的复杂性,把搜索空间分成两半。

剩下的纸是组织如下:部分2描述了我们提出的自动性别检测系统。部分3提供语音数据库的描述。部分4解释提出和现有的实验装置和结果比较系统。部分5分析结果和结论部分6。

2。提出了自动性别检测系统

在这项研究中,一个自动性别检测系统通过使用该功能。拟议的特性决定了语音信号的声音强度使用MVC。要实现该功能,辛普森法则是用来计算面积的MVC。MVC后获得的增加的一个因素一个三次多项式拟合峰。山峰被发现从每一帧语音说话时分成帧。最后,计算区域是美联储支持向量机对性别的类型决定。MVC的框图来确定语音信号如图1。提出的实现特性分为五个主要组件和它们分为三个步骤:(1)帧阻塞和峰值计算,(2)多项式拟合和调整,和(3)计算面积的MVC使用辛普森法则。对性别做出决定,一个二进制分类支持向量机使用。

2.1。帧阻塞和峰值的决心

语音信号,如图2(一个),记录在16 KHz的采样频率。一个语音信号本质上可以被认为是动态的,因为它随着时间的变化。因此,分析整个演讲是不可能由于语音信号的变化。这是演讲的原因可以分成小帧范围在10 ~ 40毫秒。一个框架的变化大小从10到40毫秒并不重要;然而,一个框架的大小32毫秒略有提供了更好的结果比帧长度16和25毫秒(24]。

(一)

(b)

确定MVC,山峰被发现后阻塞整个语音信号帧。每一帧的长度是32毫秒,它包含512个样本。峰值高于一定阈值确定打在每一帧。计算推敲整个语音信号通过使用(1所有的帧数),并保持相同的信号。一个框架显示计算峰描绘在图2 (b): 在哪里和分别是3%和97%百分位数的振幅在语音信号,分别。打信号不同的信号。不同的波形的词表现出不同的模式,,因此,在语音信号振幅也不同。因此,计算每个语音信号的自动打,(1实现)。中提供的关系(1)也被成功地用于其他应用程序来确定阈值(25]。

2.2。多项式的拟合和调整

计算每一帧的山峰后,它们是连在一起的。这时,一个三次多项式,,是通过这些山峰形成一条曲线,如图3;曲线是由钻石组成的。它可以看到从图3拟合多项式经过峰值点,因此,没有一个信封在加入峰值点。因此,一个因素(2)添加多项式MVC的: “高峰”是一个向量包含所有帧和山峰是一个向量包含所有点拟合多项式。方程(2)提供调整拟合多项式的一个因素相当于70%的最高峰和最大点的区别。为了避免偏见的山峰,70%的差异被认为是;否则,调整曲线将不适应环境的人,不会让一个信封的峰值。添加拟合多项式的系数之后,MVC组成的“”如图3和获得

2.3。面积计算

最后,获取声音强度,MVC下的面积计算数值积分的辛普森法则(26- - - - - -28),由(4)。规则将MVC的区域划分为梯形,如图4,计算每个梯形的面积。然后,它需要求和的所有梯形的面积提供MVC下的总面积。辛普森法则计算区域如下: 在哪里和第一个和最后一个点在MVC。

梯形的数量在MVC为代表。在辛普森法则,好的近似曲线下的面积可以通过增加因为误差近似区域增加随着梯形数量的减少。大值的考虑也不可行,因为它会增加计算成本。的价值总是即使在辛普森法则,它被设置为50后,本研究尝试、50、100和150。

2.4。支持向量机

支持向量机是由Vapnik提出(29日),它变得流行由于其良好的性能和较低的计算成本相比其他分类技术如GMM和隐马尔可夫模型(HMM)。开发了比较系统,支持向量机需要下的面积MVC使说话者的性别决定。SVM构造决定表面(超平面)最大化两类之间的距离,正类和一个负类(30.]。超平面的尺寸取决于SVM特征向量的维数。

在这项研究中,支持向量机实现采用LIBSVM [24)和径向基函数(RBF)作为内核,由在哪里是训练样本,是测试样本,是一个免费的参数。支持向量机是一个线性分类器;然而,在大多数情况下,数据不是线性可分的。因此,实现核函数将原始输入空间映射到高维空间,功能是嫡系地分离。在实现中,男性演讲者表示为正类和女性演讲者表示为负类。

3所示。材料

评估该功能独立于文本和语言,使用两个不同的数据库。第一个数据库的语言是英语,第二个是阿拉伯语。两个数据库记录通过使用不同的录音系统和环境,和口语文本也是不同的。

3.1。TIMIT数据库

国防部高级研究计划局TIMIT Acoustic-Phonetic连续语音语料库(TIMIT) [31日是用于执行与英语语言实验。数据库包含630扬声器的八个不同的方言地区的美国。每个演讲者都有记录10个句子在16 KHz的采样率压缩麦克风,句子,句子1和2是相同的所有扬声器。这些固定的句子如下。

句子1。她的深色西装油腻洗水。

句子2。不要问我这样一个含油抹布。

只有一个话语的这些句子是可用的,因为每个演讲者都有记录这些句子只有一次。数据库包括了许多方言地区的使用者,但在这项研究中,我们只包括那些方言地区的扬声器的总数约为100,包含至少30名女扬声器。演讲者在方言地区的数量2,4,5,贴上D2, D4和D5, 102,, 100年和98年,分别,而男性和女性扬声器的数量在每个方言地区表中列出1。


方言地区	标签	许多演讲者
方言地区	标签	男性	女	总

2	D2	71年	31日	102年
4	D4	69年	31日	One hundred.
5	D5	62年	36	98年

十二个字,随机选择,从句子中提取1和2。所以可用样品试验的总数是3600。提取的单词的列表给出了表2。第二列提供了单词在句子的位置。例如,第一项“黑暗”的第二列表示句子1中在第四的位置。


句子	字的位置	词

1	4	黑暗
	5	西装
	7	油腻的
	8	洗
	9	水
	10	所有
	11	一年

2	2	问
	5	携带
	7	油性
	8	破布
	9	就像

3.2。阿拉伯语的数据库

阿拉伯语数据库(32]包含语音样本的71扬声器:53个男性和18个女性。每个演讲者都有记录每个阿拉伯数字从1到9的一个话语,表中列出3。演讲者记录的数字专业side-address电容式传声器(美国舒尔PG42)连接到一个高质量的混合器(雅马哈MW12CX) 16 KHz的采样率。


数字
象征	在罗马的英语	在阿拉伯语	异丙醇

1	哇	واحد	佤邦:ħid
2	Athnayn	أثنين	?我θ倪:n
3	Thalathah	ثلاثه	θ像:θ啊
4	Arbaah	أربعه	? ar-ba”啊
5	Khamsah	خمسه	xam-sah
6	Setah	سته	Sit-tah
7	Sabaah	سبعه	Sab -啊
8	Thamanyah	ثمانية	θa-ma-ni-jah
9	Tesaah	تسعه	是——“啊

4所示。实验装置和结果

各种实验执行调查的性能特性提出的数据库使用英语和阿拉伯语。多的男性和女性演讲者是不一样的在选定的地区D2, D4和D5英文数据库。所以,首先,一个实验为每个方言地区执行检查biasness性别不平衡语料库的特性。其次,一些实验语料库平衡后执行。第三,添加噪声不同信噪比的调查提出了特征对噪声的鲁棒性。最后,与阿拉伯语数据库执行一些实验观察另一个口语的准确性。演讲者英语和阿拉伯语的文本记录的数据库是不同的。实验设置如图5。

性别检测的结果都是通过使用5倍的方法获得。5倍的方法,数据库分为五个不同的子集。每一次,用于测试的一个子集,其余四个子集用于系统的培训。提出了比较系统的性能是由使用以下参数:真阳性(TP):男性扬声器系统检测到的男性。真阴性(TN):女发言人系统检测到的女性。假阳性(FP):女发言人系统检测到的男性。假阴性(FN):女发言人系统检测到的男性。灵敏度(SE):系统检测到男性当输入的可能性是男性演讲者, 特异性(SP):系统检测到的可能性女女发言人输入时, 准确性(ACC):性别比例正确检测到文件的文件的总数, 曲线下面积(AUC):接受者操作特征(ROC)曲线下的面积。

4.1。与不平衡语料库性别检测

在本节中,执行实验观察的准确性提出了比较系统同时分别用每个单词和单词。在所有的实验中,男性和女性的数量扬声器是不同的。

以下4.4.1。性别检测与不平衡语料库使用单词

性别检测的结果中列出的每个单词表2总结在表4。方言地区D5这些实验中使用,因为它有更多的女性数量比D2和D4。TP是93%的最高结果1和TN也93%,但词2。词2和它的最大实现精度为90%。表4提供了分析的词在不同的性能指标,这样我们会观察每个词的贡献性别检测。比较不同的单词有好结果TP、TN、ACC是描绘在图6。


性能的措施	单词
性能的措施	1	2	3	4	5	6	7	8	9	10	11	12

TP (%)	93年	86年	52	72年	72年	72年	48	55	72年	83年	59	41
TN (%)	52	93年	86年	48	41	48	83年	69年	69年	83年	69年	66年
FP (%)	48	7	14	52	59	52	17	31日	31日	17	31日	34
FN (%)	7	14	48	28	28	28	52	45	28	17	41	59
ACC (%)	72年	90年	69年	60	57	60	66年	62年	71年	83年	64年	53

4.1.2。性别检测与不平衡语料库同时使用所有单词

面积计算每个扬声器的所有单词,然后,融合之前提供SVM性别检测。Twelve-dimensional特征向量用于每个演讲者在每个维度代表这个词的一个领域。的准确性达到96%,获得SE和SP分别为94%和100%,分别。27次,28日,系统检测到正确的性别:17 18岁男性和10的女性。面积的情节MVC为男性和女性演讲者的话9方言地区的D5如图7。方言地区D5 98扬声器:36名女性和62名男性。

通过分析性别检测的结果同时使用单词单独和所有单词,可以推断出,最好使用超过一个词来实现高检测率。因此,在其他的实验中,我们将使用所有单词同时取得更好的性别检出率。与所有的单词表中列出2D5达到96%的准确性。男性和女性的扬声器的数量在这个实验是在62年,36岁的分别。

可能认为,拟议的功能是偏见当样品的数量是不同的男性和女性的扬声器。提供答案的biasness提出的功能,有必要使用相同数量的男性和女性的扬声器系统的训练和测试。唯一可用的选项是包括其他方言地区的女发言人。它将使两性之间的平衡,它会增加扬声器的总数。然而,在这样做之前,两个实验的方言地区D2和D4执行调查地区方言的影响。D2和D4的获得检测率分别为94%和96%,分别,这表明方言地区不会影响开发系统的准确性,提出的性能特性好。因此,演讲者可以组合不同的方言地区使男性和女性扬声器的数量相等。D2的准确性,D4和D5中提到的表5。


方言地区	许多演讲者(M + F)	精度

D2	71 + 31	94%
D4	69 + 31	96%
D5	62 + 36	96%

M和F代表男性和女性演讲者,分别。

4.2。性别检测与平衡语料库

这是结论部分4.1使用所有单词的同时提供了良好的性别检出率。因此,我们将继续在其他的实验。此外,在表的结果5表明,该特性是独立的方言。因此,让男性和女性的数量之间的平衡,我们可以结合不同方言的人,平衡语料库将用于实验在本节的其余部分。

数量的女发言人在方言地区D2, D4和D5 31日,31日,36岁,分别和相同数量的男性从这些区域之间做一个平衡男性和女性的扬声器。现在,女性的总数是98(= 31 + 31 + 36)和相同数量的男性演讲者使扬声器的总数等于196。

白噪声的信噪比10 db和0数据库添加到平衡语料库来检查该特征对噪声的鲁棒性,并比较结果与现有系统提出了(14]。音高和RASTA-PLP [33提取]在[14从清洁和嘈杂的演讲,和八个高斯函数被认为是构建GMM。在这项研究中,确定优化参数的GMM,意思是,协方差矩阵,和先验概率,采用(EM)算法(34)实现的,而这些参数通过使用初始化则算法(35]。在基于GMM的性别检测系统GMM男女双方。检测的测试话语,性别的演讲者,将两种模型。的最大似然模型测试话语将测试的性别话语。

4.2.1。准备性别检测清洁演讲与平衡语料库

两个实验进行观察的行为提出了纯净语音功能。在第一个实验中,13个系数提取每帧中每个单词。第一个系数是音高,其余的十二11阶RASTA_PLP系数特性。提取的特征输入到GMM建构性别的模型通过使用4、8、16个高斯函数对男性和女性的检测。第一个实验是现有的AGD系统提出了(14]。执行这个实验比较结果与我们提出的特性。

在第二个实验中,该特性提供了一个值(MVC)下的面积为一个字使该系统更高效。然后,计算面积MVC喂养SVM对性别类型决定。两个实验的结果提供了表6。


性能的措施	现有的系统			提出了系统
性能的措施	4高斯函数	8高斯函数	16个高斯函数	提出了系统

TP (%)	99.13	99.71	99.71	100.00
TN (%)	91.66	91.66	95.11	96.55
FP (%)	8.33	8.33	4.89	3.45
FN (%)	0.86	0.29	0.29	0.00
SE	0.99	1.00	1.00	1.00
SP	0.92	0.92	0.95	0.97
ACC (%)	95.4	95.68	97.41	98.27
AUC	0.9510	0.9734	0.9795	0.9845

提出了功能的准确性为98.27%,比现有系统。建议在所有性能参数功能占主导地位。真正的男性检出率是100%,女性,它是96.55%。只有3.45%的女性演讲者发现男,虽然没有男性演讲者被公认为女性。执行现有系统的实验与不同数量的高斯函数为系统找到最好的检出率。

每个系统策划的ROC曲线分析其性能,如图8。假阳性率(1−特异性)和真阳性率(灵敏度)设在和分别设在。所有独特的数字在支持向量机的决策值视为截止点准确地画出曲线。对于现有系统,决定值最高的准确性,即97.41%,用于绘制曲线。ROC曲线下的面积提出功能大于现有的系统。

4.2.2。性别检测与平衡语料库嘈杂的演讲

观察的行为提出功能在嘈杂的环境中,许多实验进行的演讲包含白噪声信噪比10 db和0分贝,比较和结果与现有的系统。系统信噪比的结果10 db和0分贝与不同的性能参数在表中进行了总结7和8,分别。


性能的措施	现有的系统			提出了系统
性能的措施	4高斯函数	8高斯函数	16个高斯函数	提出了系统

TP (%)	89.37	97.13	96.84	100.00
TN (%)	83.33	89.66	91.09	89.65
FP (%)	16.67	10.34	8.91	10.34
FN (%)	10.63	2.87	3.16	0.00
SE	0.89	0.97	0.97	1.00
SP	0.83	0.90	0.91	0.90
ACC (%)	95.25	93.96	96.12	96.55
AUC	0.9612	0.9732	0.9721	1


性能的措施	现有的系统			提出了系统
性能的措施	4高斯函数	8高斯函数	16个高斯函数	提出了系统

TP (%)	89.37	97.13	96.84	100.00
TN (%)	83.33	89.66	91.09	89.65
FP (%)	16.67	10.34	8.91	10.34
FN (%)	10.63	2.87	3.16	0.00
SE	0.89	0.97	0.97	1.00
SP	0.83	0.90	0.91	0.90
ACC (%)	86.35	93.39	93.96	94.82
AUC	0.8867	0.9645	0.9609	0.9893

通过观察获得的结果,可以推测,通过计算获得的特性面积MVC甚至可以在嘈杂的环境中表现良好的性别检测,再一次,它主导着RASTA-PLP在大部分的性能参数。拟议的功能提供了精度96.55%和94.82%的信噪比10 db和0分贝,分别比现有系统。ROC曲线的信噪比现有的和拟议中的数据特征进行描述9和10。

4.3。性别检测与阿拉伯语语料库

支持真理关于拟议的功能,它可以实现良好的检出率为其他口语,它独立于文本和录音设备,一些实验正在进行。这次调查是由使用阿拉伯数字从1到9,列在表中3由53个男性和18个女性说出扬声器。MVC是测量的面积按照图中所示的步骤1鉴于支持向量机检测的性别。

面积计算每一位每一个演讲者,所以每个演讲者特征向量的维数是9时喂SVM。决定价值,在性别的分类,通过支持向量机绘制在图11。MVC的一个或两个话语下的面积可以绘制容易,但是在这个实验中,九个数字融合的领域。这种多维特征的解释并不容易理解人类思维。因此,研究基于多维分析系统引入机器学习阶段(36),和决策分类器中获取的值可以看作类之间的歧视措施。因此,在图11,我们已经绘制从支持向量机的决策值。

它可以看到从图11积极和消极的价值观类完成的分类。没有房间相互混淆的性别由良好的利润率。获得的性别的精度是100%。TP、TN也是100%,FN和FP是男性和女性为0%。现有系统的结果,并提出了系统提供的表9。提出系统的性能比现有的系统。


性能的措施	现有的系统			提出了系统
性能的措施	4高斯函数	8高斯函数	16个高斯函数	提出了系统

TP (%)	92.5	94.3	96.2	One hundred.
TN (%)	88.9	94.4	94.4	One hundred.
FP (%)	11.1	5。6	5。6	0
FN (%)	7.5	5。7	3.8	0
SE	0.92	0.94	0.96	1.0
SP	0.88	0.94	0.95	1.0
ACC (%)	91.5	94.3	95.7	One hundred.
AUC	0.93	0.95	0.97	1.0

5。讨论

噪音健壮的长度比较系统通过使用该特性是在这项研究中开发的。拟议的功能取决于声音语音信号的强度。在人类的声音生产系统,肺通过气管,所产生的空气压力也称为气管。生成的压力振动声带而驻留在气管的顶部。声带的振动,打开和关闭,产生一个声音穿过人的嘴和生成语言。声音的特点,因人而异,由于不同形状、长度和厚度的声带。因此,人们感觉的声音明显不同。人类的声带的长度通常是12到24毫米(mm),而厚度是3到5毫米(37]。

声带的大小也取决于人类的性别。女性的声带长度是大约从12.5毫米到17.5毫米,而对于男性,从17.5毫米至24毫米的长度是38]。由于声带长,男性的声音变得更低,距,因此,一个男性的声音比女性的感觉重。沉重的声音包含更多的强度,它是主要的动机提出一种新型的功能性别检测。该措施的声音强度特性MVC下语音信号通过计算面积。图中可以看到7MVC男性演讲者下,计算面积比的女发言人,因为男性的声音强度超过女议长。

该特性不依赖于准确的估计的基本频率本身就是一项艰巨的任务。大部分的声学特性,如共振峰,harmonic-to-noise比率,音高估计依赖于准确的估计的基本频率。如果基本精度不准确,系统基于这样一个类型的特性可能会影响结果。在研究[19),作者声称,传统的语音功能可能不会在性别检测系统很好地执行。因此,在这项研究中提出了一种新型的功能自动性别检测。

发达的AGD系统已经以不同的方式评估通过使用干净的演讲,嘈杂的演讲中,语音语料库,平衡不平衡语料库的演讲中,两个口语,和不同的记录系统/环境和文本。

性别不平衡语料库,获得检测率在94%到96%的范围D2, D4和D5。后性别平衡语料库包括三个方言的女发言人,真正的阳性(TP) 100%,真阴性(TN)拟议的功能为96.55%。现有系统,最好的TP、TN和16个高斯函数得到,他们分别是99.71%和96.55%。的准确性和ROC曲线下的面积提出了特性也优于现有的系统。

性别检出率提出系统的嘈杂的演讲也高于现有的系统。TP、TN的信噪比10 db和0 100%和89.65%,分别。对于现有系统,获得了TP与高斯模型8 97.13%,TN是91.09%和16信噪比高斯函数。ROC曲线下的面积所列出的特征是2.84%比现有系统的10 db和3.45% 0分贝。

所列出的特征为有前途的结果提供了阿拉伯数字。雄性和雌性都完全分类的特性,获得检出率为100%。结果还表明,功能是检测性别与任何口语的能力。总体而言,该特性在不同情况下表现良好。逐字的性别检测实验表明,提出的功能可以帮助找到的单词和音素可以提供良好的检出率。

观察统计意义,Mann-Whitney测试是在5%的显著水平。获得的值为干净的演讲0分贝噪音,10分贝噪音。所有值小于0.05,拒绝零假设,男性和女性演讲者的决定值中位数从连续分布都是平等的。的Mann-Whitney试验表明,该系统可以明显区分男性和女性。

6。结论

功能的一种新型性别检测系统提出了研究。开发的系统可以使用在移动医疗系统,因为它提供了良好的检出率在正常和嘈杂的环境。提出系统的使用与移动医疗系统可以帮助医生评估和处方适当药物治疗病人。

提出系统决定了MVC的语音信号,然后发现面积MVC区分男性和女性的扬声器。MVC下的面积代表扬声器的声音强度。扬声器的声音强度是高度依赖于声带。声带的大小在一个男性演讲者比这个长女性演讲者使男性沉重的声音。因此,男性演讲者对他们的声音比女性更有强度。

许多实验是由使用不同语言的两个数据库评估该方法和在不同情况下测试其有效性。的帮助下进行的实验,我们可以得出这样的结论:该功能可以在任何语言中执行同样。公正和独立于语言,口语文本,和录音设备。此外,该功能是能够提供良好的检出率甚至吵闹的环境。所有结果比现有的AGD系统。

相互竞争的利益

作者宣称没有利益冲突。

确认

作者扩展他们的升值在沙特国王大学科研院长以来,利雅得,沙特阿拉伯,资助这项工作通过研究小组项目。rg - 1436 - 016。

引用

h . Harb l·陈,“语音性别识别多媒体应用,”智能信息系统杂志》上,24卷,不。2、179 - 198年,2005页。视图:出版商的网站|谷歌学术搜索
m、侯赛因·g·默罕默德,“Cloud-assisted工业物联网(IIoT)启用健康监测框架,“计算机网络,2016年。视图:出版商的网站|谷歌学术搜索
g·默罕默德”,自动语音识别使用隔行衍生模式基于云的医疗保健系统,”集群计算,18卷,不。2、795 - 802年,2015页。视图:出版商的网站|谷歌学术搜索
m、侯赛因·g·穆罕默德,m . f . Alhamid b的歌,和k . Al-Mutib“视听情感识别使用大数据对5克,”移动网络和应用程序,2016年。视图:出版商的网站|谷歌学术搜索
m·s·侯赛因”Cloud-supported cyber-physical本地化框架病人监测,“IEEE系统杂志,2015年。视图:出版商的网站|谷歌学术搜索
g·穆罕默德,t . a . Mesallam k·h·马利基m . Farahat m . Alsulaiman和m·布哈里“共振峰分析dysphonic病人和阿拉伯数字自动语音识别,”生物医学工程在线第四十一条,卷。10日,2011年。视图:出版商的网站|谷歌学术搜索
g·穆罕默德,m . AlSulaiman a·马哈茂德和z阿里,“自动语音障碍分类使用元音共振峰,”《IEEE国际会议多媒体和世博会(ICME 11),页1 - 6,巴塞罗那,西班牙,2011年7月。视图:谷歌学术搜索
m . Bouchayer g . Cornut e .通过r·卢瓦尔j·b·罗氏制药和r·w·巴斯蒂安·“表皮样囊肿、沟和声带粘膜桥梁的真实:一份报告的157例中,“的喉镜,卷95,不。9日,第1094 - 1087页,1985年。视图:谷歌学术搜索
m·m·约翰,”更新的病因,诊断和治疗声襞结节、息肉、囊肿,”目前看来耳鼻咽喉头颈外科,11卷,不。6,456 - 461年,2003页。视图:出版商的网站|谷歌学术搜索
吴k·d·g·德斯,“性别识别的语音。第一部分:粗分析。”美国声学学会杂志》上,卷90,不。4我,1828 - 1840年,1991页。视图:出版商的网站|谷歌学术搜索
s·m·r·Azghadi m . r . Bonyadi, h . Sliahhosseini“性别分类基于前馈反向传播神经网络,”2007年人工智能和创新:从理论到应用程序:程序的第四届联合会国际会议上人工智能应用和创新(AIAI 2007)c . Boukis l . Pnevmatikakis, l . Polymenakos Eds。卷,247联合会国际信息处理联合会施普林格,页299 - 304年,柏林,德国,2007年。视图:出版商的网站|谷歌学术搜索
s . Gaikwad b Gawali, s . c . Mehrotra“性别识别使用SVM和MFCC的组合,”计算研究进展,4卷,不。1,第73 - 69页,2012。视图:谷歌学术搜索
m . Pronobis和m . Magimai-Doss”分析F0和cepstral健壮的性别自动识别功能,“技术。众议员Idiap - rr - 30 - 2009, Idiap, 2009年。视图:谷歌学术搜索
Y.-M。曾,Z.-Y。吴、t·福尔克和W.-Y。Chan“健壮的基于GMM的性别分类使用音高和RASTA-PLP参数的言论,”国际会议的程序在机器学习和控制论大连,页3376 - 3379年,中国,2006年8月。视图:出版商的网站|谷歌学术搜索
g . Chen x, y·苏,a . Alwan”使用声音源措施自动儿童性别分类的演讲,”《第11届国际言语交际协会会议(INTERSPEECH 10)千叶,页673 - 676年,日本,2010年。视图:谷歌学术搜索
f . Lingenfelser j·瓦格纳,t·沃格特j . Kim和e·安德烈“年龄和性别分类从演讲中使用基于决策级融合和集成技术”《第11届国际言语交际协会会议(INTERSPEECH 10)千叶,页2798 - 2801年,日本,2010年9月。视图:谷歌学术搜索
拉克什,k . s .杜塔,k .莎玛,“性别识别使用语音处理技术在虚拟仪器中,”国际工程科技的进步杂志》上,1卷,不。2,51 - 63,2011页。视图:谷歌学术搜索
m·西格蒙德”性别区别使用短的语音信号段,”国际计算机科学杂志和网络安全,8卷,不。10日,159 - 162年,2008页。视图:谷歌学术搜索
d . s . Deiv Gaurav m·巴塔查里亚,“印地语语音识别,自动性别认同”国际期刊的计算机应用程序没有,卷。31日。5,页1 - 8,2011。视图:谷歌学术搜索
v . n . Sorokin i s马卡罗夫,“性别识别声音来源,”声学物理,54卷,不。4、571 - 578年,2008页。视图:出版商的网站|谷歌学术搜索
m·h·Sedaaghi”比较研究语音信号的性别和年龄分类”伊朗电力电子与工程杂志》上,5卷,不。1、1 - 12,2009页。视图:谷歌学术搜索
m . Alsulaiman z Ali g·默罕默德,“性别分类与声音强度,”第五届欧洲学报》研讨会的数学建模和计算机仿真建模,第209 - 205页,马德里,西班牙,2011年11月。视图:谷歌学术搜索
m . Alsulaiman z Ali g·默罕默德,”声音强度基于性别分类通过与SVM使用辛普森法则,”19国际会议的程序系统、信号和图像处理,第573 - 570页,维也纳,奥地利,2012年4月。视图:谷歌学术搜索
Mporas, t . Ganchev、大肠Kotinas和n . Fakotakis”检查语音帧大小和数量的影响cepstral系数在语音识别性能,”第12届国际会议上演讲和计算机学报》2007年,页1 - 6,莫斯科,俄罗斯。视图:谷歌学术搜索
r .张成泽、音频信号处理和识别:端点检测在时域,2016年3月,http://mirlab.org/jang/books/audiosignalprocessing/epdtimedomain.asp?title=6 - 2% - 20 epd%20in%20time%20domain%20英航(% % DD % C2I % B0%BB % B4%FA % A1G % AE % C9%B0%EC % AA % % A4%E8%AAk BA)。
c·f·杰拉尔德·p·o·惠特利,应用数值分析皮尔森,第七版,2003年版。
阿布拉莫维茨和中情局Stegun,手册的数学函数公式、图表和数学表多佛,纽约,纽约,美国第九版,1972年版。
A·霍维茨,”辛普森法则的一个版本为多个积分,“计算和应用数学杂志》上,卷134,不。1 - 2、1 - 11,2001页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
微积分,神经网络综合的基础麦克马斯特大学,Hamil-ton,安大略省,加拿大,第二版,1998年版。
s . m . Kamruzzaman a . n . m . Rezaul卡里姆美国伊斯兰教,和e . Haque“演讲者使用MFCC-Domain支持向量机识别,”国际电气和电力工程杂志》上,1卷,不。3、274 - 278年,2007页。视图:谷歌学术搜索
j . s . Garofolo l . f .薄层w·m·费舍尔j·g . Fiscus d s Pallett n . l .达利,”美国国防部高级研究计划局TIMIT acoustic-phonetic连续语音语料库cd - rom,“技术。代表,NIST, 1993年。视图:谷歌学术搜索
m . Alsulaiman g·穆罕默德·m·a·Bencherif a . Mahmood z阿里和m . Aljabri“构建一个丰富的阿拉伯语语音数据库,”第五届亚洲建模学报》研讨会(AMS的11)吉隆坡,页100 - 105年,2011年5月。视图:出版商的网站|谷歌学术搜索
m·a·Anusuya和s . k . Katti”语音识别前端分析:复习一下,”国际语音识别技术杂志》上,14卷,不。2、99 - 145年,2011页。视图:出版商的网站|谷歌学术搜索
r . a .红肿和h·f·沃克混合物密度、最大似然和EM算法,”暹罗审查,26卷,不。2、195 - 239年,1984页。视图:出版商的网站|谷歌学术搜索|MathSciNet
a . k . Jain和r·c·杜布算法聚类数据美国,新世纪,上台北,1988年。
j . i Godino-Llorente r . Fraile n . Saenz-Lechon诉Osma-Ruiz和p . Gomez-Vilda”运行的声音从text-dependent缺陷自动检测的演讲中,“生物医学信号处理和控制,4卷,不。3、176 - 182年,2009页。视图:出版商的网站|谷歌学术搜索
m . s . Hahn b·a·贝克·m·m·史蒂文斯,的s m .柴特斯一起和r·兰格”胶原蛋白复合水凝胶为声襞固有膜修复,”生物材料,27卷,不。7,1104 - 1109年,2006页。视图:出版商的网站|谷歌学术搜索
i r . Titze声音的生产原理普伦蒂斯霍尔,第1版,1994年版。

移动信息系统

移动医疗信息系统的基本问题

文摘