本文的主要目的是给创造一个以计算机为基础的临床决策支持的基础为喉病(CDS)系统。方法之一,可用于拟议的cd是基于语音信号分析使用递归神经网络(RNNs)。RNNs可用于模式识别在时间序列数据由于其记忆一些信息从过去的能力。Elman网络(ENs)是RNNs的经典代表。提高学习能力的实体,我们可以修改,用另一种RNNs结合,即,约旦网络。修改后的Elman-Jordan网络(EJNs)显化一个更快和更准确的成就的目标模式。验证实验进行语音信号的患者和对照组两种喉病。
以计算机为基础的临床决策支持(CDS)被定义为使用计算机将相关知识对一个病人的医疗保健和健康
大多数的方法提出了迄今为止只基于语音谱的统计分析(例如,
我们的研究问题设计的电脑支持有效的方法选择喉疾病的无创性诊断。存在各种方法分析生物医学信号(cf。
早些时候发表的一系列论文(见[
是被反复提到的功能神经网络。一个类的Elman神经网络(ENs) (
论文的其余部分组织如下。介绍后,我们描述了不久喉疾病(部分相关医学背景
基于模型的言论一代“source-filter”组合。源是喉刺激,被动的声带振动subglottis压力增加的结果。这种现象使语音响亮的声门空间叫做发声。演讲的过滤器是剩下的发音器官运河创造共振空间。喉的信号刺激的形状,在这些空间调制。这个过程称为演讲的最终产品。
病理变化出现在声门空间需要一个更大或更小的损伤喉发声功能的。提出了研究的主题与疾病有关,这出现在声带上,也就是说,他们有一个直接影响发声(
我们感兴趣的是两种疾病:Reinke水肿(
Reinke水肿出现经常双边和通常不对称的声带。它是由漏出的槽形上皮空间折叠缺乏淋巴血管和腺体,叫做Reinke空间。在疾病的发病机制,在其中扮演了一个重要角色刺激喉粘膜由不同的因素,如吸烟、过度的声音努力,inhalatory毒素,或过敏原。主要症状有以下几点:声音沙哑声襞振动或造成干扰,对于大型的水肿,吸入呼吸困难。Reinke水肿的,不应用保守治疗。他们是显微外科被剥外皮拯救了直言不讳的肌肉。
喉息肉是良性肿瘤时引起的温柔的纤维组织增生的声带粘膜。发病机理,在其中扮演了一个重要角色因素导致慢性喉粘膜的炎症和刺激声带:吸烟、过度的声音努力,回流,等等。主要症状有以下几点:声音沙哑,失音,咳嗽,喉痒。对于非常大的息肉,呼吸困难可能出现。然而,不大息肉可能与声音混淆肿瘤特别是当病人的负载的声音的一个因素。息肉可能有梗的或可能的广泛基础。如果有必要,息肉是显微外科切除拯救自由声襞和声带肌肉的边缘。
研究证明,主观评价的声音总是反映在语音信号的基本声学参数。声音参数与声音的器官的解剖结构和功能特性是一个主题感兴趣的研究人员。然而,解剖形式的多样性,天生的发声习惯,一种探索材料的多样性导致研究执行不同的理由。声音一代受到很多因素的限制,这给声音一个个体,独特的性格。然而,分析语音信号的个体特性在一个合适的人,合适的众多,显示了一些收敛值测试参数。这使分化来源的变化特征(喉刺激)引起的不同的病态。因为口语是一个随机的过程,一种探索性的材料通常是由元音说出分别与扩展的清晰度。加上缺乏语调,它使消除发声习惯。
我们可以区分两种类型的声学测量方法:客观和主观的。他们都属于间接探索性方法。比较直接的方法(如计算机光线照相术,频闪观测法,生物电子系统)表明,他们有几个优势。他们方便病人因为测量仪器(在这种情况下,一个麦克风)坐落在声音的器官。这使得免费的清晰度。声学方法的优点是使用电脑自动化测量技术的可能性。也可以想象个人语音信号的参数。使用主观听诊的方法等,在喉科学和语音矫正法的正确或病态的声音发射。客观的方法是基于物理特征的声音。他们变得特别流行,当计算机技术达到一个高程度的专业化。 They enable the objective assessment of voice and deliver information in case of pathology and rehabilitation of the voice organ. Examined parameters aid the doctor's assessment of the patient's health state.
在文献中,我们可以注意到源(喉刺激)的参数经常检查,例如,(
在大多数情况下,神经网络拓扑结构可分为两大类:前馈(没有循环和连接在同一层)和复发性(可能的反馈循环)。Hopfield网络、Elman网络,和约旦网络最著名的复发性网络。在本文中,我们对两个最后的感兴趣。
在Elman网络(图
一个训练有素的Elman神经网络的结构。
Elman-Jordan训练神经网络的结构。
纯Elman网络由四层:
一个输入层(在我们的模型:神经元
一个隐藏层(在我们的模型:神经元
一个上下文层(在我们的模型:神经元
一个输出层(在我们的模型:神经元
提高学习能力的纯Elman网络,我们建议添加额外的反馈在网络结构。实验中所描述的部分
反馈一个输出层和隐层之间通过上下文神经元(在我们的模型:神经元
反馈一个输出层。
一个新的网络结构将被称为修改Elman-Jordan网络。
Elman网络,根据它的结构,可以存储网络的内部状态。可以有信号值的隐层单元
训练一个网络的价值
训练一个网络在每个值
训练一个网络只有一个值
在我们的例子中,我们使用的方法
约旦网络可分为变体之一NARMA非线性自回归移动平均模型(
如果我们将一个值传递给网络输入在一个给定的时间单位
清晰度是个体病人的特性。因此,我们不能训练神经网络的独立模式单个元音的发音。对于每一个病人,记录语音信号用于神经网络的训练和测试。过程如下。我们将检查患者的语音信号分为时间窗口对应音素。接下来,我们选择随机的时间窗口。这组选择windows用于确定语音信号的一些特征变形系数。这个系数是由一个错误在测试阶段的神经网络获得。我们建议使用类似于交叉验证的方法策略。一个时间窗口是训练神经网络和神经网络的剩余的测试。 The network learns a selected time window. If the remaining windows are similar to the selected one in terms of the time patterns, then, for such windows, an error generated by the network in a testing stage is small. If significant replication disturbances in time appear for patients with the larynx disease, then an error generated by the network is greater. In this case, the time pattern is not preserved in the whole signal. Therefore, the error generated by the network reflects nonnatural disturbances in the patient phonation. Our approach can be expressed formally as it is shown in Algorithm
样品),
相应的变形
返回
在实验中,声音样本进行了分析。实验进行了两组患者(
实验进行呼吸练习的课程与教学发音的一种方式。所有检查病人的任务分别是完全不同的波兰元音发音尽可能延长,没有语调,每个单独的过期。麦克风ECM-MS907(索尼)是用于记录。每一个声音样本记录在小型磁盘MZ-R55(索尼)。在小型磁盘,一个模拟信号转换为数字信号根据CD(光盘)标准(16位,44.1 kHz),其次是改变通过ATRAC(小型磁盘自适应变换声音编码)系统。数据大小是5比1比例的减少。压缩系统是基于分离谐波,人类是最敏感的。这些谐波编码精度高。然而,不那么重要的谐波进行编码与压缩比越高。可以使用小型磁盘成功。 Effectiveness of such analysis was confirmed by Winholtz and Titze in 1998 [
实验过程的框图如图
实验过程的框图。
样本归一化到区间
从对照组CG:一个女人,
与喉息肉LP:一个女人,
再保险:女人与Reinke水肿,
选择实验的结果对女性使用Elman网络获得。
|
|
原始信号 | Ddifferentiated信号 | ||
|---|---|---|---|---|
|
|
|
|
|
|
|
|
||||
|
|
0.0068 | 389年 | 0.0245 | 455年 |
|
|
2.4523 | 335年 | 0.0208 | 650年 |
|
|
0.017 | 501年 | 0.0341 | 497年 |
|
|
0.0109 | 597年 | 0.01 | 422年 |
|
|
0.0332 | 662年 | 0.0566 | 650年 |
|
|
0.0178 | 609年 | 0.0324 | 656年 |
|
|
0.0096 | 428年 | 0.0202 | 333年 |
|
|
0.0068 | 318年 | 0.028 | 575年 |
|
|
0.008 | 490年 | 0.0216 | 925年 |
|
|
0.0084 | 553年 | 0.05 | 504年 |
|
|
||||
|
|
0.172 | 331年 | 0.1081 | 564年 |
|
|
0.2764 | 536年 | 0.1936 | 622年 |
|
|
0.0518 | 566年 | 0.0533 | 593年 |
|
|
0.0268 | 504年 | 0.0879 | 498年 |
|
|
0.0418 | 646年 | 0.1726 | 547年 |
|
|
0.2107 | 444年 | 0.2468 | 506年 |
|
|
0.0921 | 1040年 | 0.1687 | 439年 |
|
|
0.0364 | 992年 | 0.1396 | 758年 |
|
|
0.038 | 541年 | 0.1061 | 826年 |
|
|
0.1461 | 363年 | 0.2448 | 711年 |
|
|
||||
|
|
0.039 | 360年 | 0.055 | 487年 |
|
|
0.1006 | 452年 | 0.1 | 729年 |
|
|
0.1021 | 446年 | 0.1583 | 608年 |
|
|
0.0636 | 780年 | 0.0804 | 586年 |
|
|
0.1626 | 446年 | 0.2376 | 545年 |
|
|
0.1953 | 477年 | 0.1905 | 500年 |
|
|
0.2027 | 337年 | 0.1661 | 378年 |
|
|
0.1927 | 457年 | 0.1367 | 717年 |
|
|
0.2908 | 939年 | 0.2139 | 865年 |
|
|
0.4357 | 679年 | 0.3795 | 820年 |
选择实验的结果对女性使用修改后的Elman-Jordan网络获得。
|
|
原始信号 | Ddifferentiated信号 | ||
|---|---|---|---|---|
|
|
|
|
|
|
|
|
||||
|
|
0.0061 | 88年 | 0.0228 | 103年 |
|
|
0.0111 | 92年 | 0.0193 | 90年 |
|
|
0.0178 | 107年 | 0.0347 | 117年 |
|
|
0.0115 | 96年 | 0.0086 | 35 |
|
|
0.0301 | 146年 | 0.0537 | 123年 |
|
|
0.0166 | 104年 | 0.0328 | 76年 |
|
|
0.0086 | 78年 | 0.0201 | 178年 |
|
|
0.0068 | 108年 | 0.0248 | 116年 |
|
|
0.008 | 162年 | 0.0204 | 106年 |
|
|
0.0087 | 119年 | 0.0494 | 76年 |
|
|
||||
|
|
0.1677 | 92年 | 0.1042 | 204年 |
|
|
0.3107 | 191年 | 0.2108 | 47 |
|
|
0.0542 | 96年 | 0.0545 | 97年 |
|
|
0.0258 | 142年 | 0.0853 | 144年 |
|
|
0.0423 | 239年 | 0.1716 | 119年 |
|
|
0.2134 | 71年 | 0.2428 | 86年 |
|
|
0.0877 | 40 | 0.1648 | 109年 |
|
|
0.0351 | 72年 | 0.1362 | 132年 |
|
|
0.037 | 180年 | 0.105 | 123年 |
|
|
0.1411 | 160年 | 0.2382 | 96年 |
|
|
||||
|
|
0.0395 | 148年 | 0.0534 | 117年 |
|
|
0.097 | 99年 | 0.0991 | 96年 |
|
|
0.1053 | 115年 | 0.1583 | 117年 |
|
|
0.0628 | 36 | 0.0784 | 70年 |
|
|
0.1596 | 133年 | 0.2332 | 116年 |
|
|
0.1951 | 95年 | 0.1945 | 90年 |
|
|
0.1954 | 51 | 0.1669 | 177年 |
|
|
0.191 | 99年 | 0.1358 | 120年 |
|
|
0.281 | 106年 | 0.2084 | One hundred. |
|
|
0.4366 | 65年 | 0.3746 | 77年 |
很容易看到,Elman神经网络和约旦的组合结构改进的神经网络的学习能力而区别(正常和疾病状态之间)能力保持在同一水平。有时,Elman网络不能学习给定模式的时代等于10000(见,例如,
二维空间中描述患者可以使用不同的数据挖掘和机器学习分类方法(见,例如,
粗糙集勘探系统(rs)——软件工具库的方法和图形用户界面支持多种基于粗糙集的计算(
WEKA:一组数据挖掘任务的机器学习算法(
中最通用的格式,医学诊断规则条件语句的形式:如果
输入数据的分类(用于学习或提取数据)之间的关系,我们有一个表格形式(见例子在表
输入数据被分类(片段)。
| 患者ID |
|
|
|
|---|---|---|---|
|
|
0.0061 | 0.0228 |
|
|
|
0.0111 | 0.0193 |
|
|
|
|
|
|
|
|
0.1677 | 0.1042 |
|
|
|
0.3107 | 0.2108 |
|
|
|
|
|
|
|
|
0.0395 | 0.0534 |
|
|
|
0.097 | 0.0991 |
|
|
|
|
|
|
描述性的属性的值(
在我们的实验中,我们使用,例如,两个不同的规则生成方法:
直接法:包括LEM2算法,其中,在rs系统;
基于决策树的方法:J4.8算法,包括其中,WEKA系统。
第一个算法是基于覆盖的方法。由j . Grzymala-Busse LEM2算法(
如果
如果
训练集的分类误差是0%。不受任何生成的规则就是一个例子。
通过J4.8算法产生的类似的规则。决策树获得使用J4.8算法形式如图
如果
如果
如果
决策树使用J4.8算法获得的。
在括号中,决策树每个节点代表一个病例数分为类别分配到该节点。训练集的分类误差是0%。
示范结果表明,病人描述的二维(两个属性对应的平均均方误差由RNNs提供原始信号和分化信号,分别地。)之间的空间可以很容易地识别正常和疾病状态。
下列事项可以注意到在实验中所描述的基础。
结合和修改两个递归神经网络的结构(约旦河Elman网络与网络)用于评估喉疾病会导致患者的语音信号变形提高神经网络的学习能力,而(正常和疾病状态)之间的区别能力保持在同一水平。这样的加速度是很重要的,如果一个实时诊断应该做出决定。
该方法使用递归神经网络的语音信号分析的基础上可以初步一步区分正常和疾病状态。
我们可以列出以下主要问题将来会被认为是:
杂交喉病的患者的分类方法,本文给出的方法构成元素之一(基于频率和time-frequency-based方法旁边)。
设计方法能够区分不同的喉疾病(例如,喉息肉和Reinke水肿)。本文中提出的方法不让我们做出这种区分;
自动化的过程将语音信号划分为时间窗口对应音素由峰值(一个窗口是有限的)。在当前阶段,窗口的方法并不是自动进行的。样品相应的音素强烈噪声的一部分,特别是在开始和结束时,这部分不能提供给神经网络的输入。
提交结果将有助于选择合适的技术来创建计算机工具支持喉疾病的诊断。
这项研究支持的已批准号N N516 423938从波兰科学和高等教育。