文摘

近年来,日益增加的兴趣发展的区别的方法基于与离散字典对信号稀疏表示分类已被观察到。目前尚不清楚,然而,最合适的方法是什么区别的信息引入稀疏表示问题。也不知道哪个是最好的差异测量用于分类。在特征选择问题的背景下,一些因提出了措施。这项工作的主要目的是探索一种方法,使用这些措施来构建区别的子字典使用脉搏血氧定量法检测低通气事件信号。除了传统差异的措施,我们研究一个简单的一个叫差条件激活频率(DCAF)。我们另外探索overcompleteness的综合效应和冗余的字典的稀疏表示。结果表明,因措施能够充分指出歧视原子。特别是DCAF收益率竞争力平均检测准确率72.57%计算成本较低。此外,ROC曲线分析显示平均诊断敏感性和特异性的81.88%和87.32%,分别。 This shows that discriminative subdictionary construction methods for sparse representations of pulse oximetry signals constitute a valuable tool for apnea-hypopnea screening.

1。介绍

虽然被广泛使用和接受的,复杂性的概念经常避免严格的形式化。因此毫不奇怪,没有公认的测量存在等量化的一个概念。特别是在信息理论,任何元素的代码的复杂性,或任何特性的信号表示在信号处理中,是带有强烈相关的信息,或者更准确地说,其熵的价值。然而重要的是要指出,在信号分类的背景下,信息特征的分类()并不一定更大的熵。因此,需要更多的“特别”的措施。事实上,任何适当的复杂性度量对应于一个给定的特性应该相反,强烈相关的类成员提供的这样一个特性的信息。一个可以认为使用测量的复杂性类的条件熵的特性。然而,功能提供最歧视信息类几乎总是那些条件熵值较低,因此,最好的特性分类的目的将是最复杂的。

信息理论最初是基于工程嘈杂的沟通渠道,并大量密切相关学科如信号处理、人工智能、复杂的系统中,模式识别,只有少数的名字。我们尤其感兴趣的是后者。模式识别是一门学科,主要面向的生成算法或方法,可以决定一个操作基于某些公认的相似之处(模式)的输入数据。在信号分类,这可能是模式识别的一些最重要的一个分支,几个差异措施用于问题来自各种各样的机器学习等领域(1)、图像和语音处理2),神经网络(3),和生物医学信号处理(4,5]。其中,最常用的是Kullback-Leibler(吉隆坡)差异6,7]。这个分歧,也称为相对熵,作为歧视的措施用于选择,从大量的标准正交基,达到最大的信息(1]。最近的一个方法是引入Gupta et al(8)使用这个散度差异衡量传统再(事例)算法,产生竞争分类性能原始上下文中的脑电图仪的信号分类。虽然它提供了一定的计算和理论优势,缺乏对称性KL分歧的动机等对称版本的发展所谓的“J散度(9),著名的和广泛使用的Jensen-Shannon分歧10]。

信号的稀疏表示是一个有用的技术,近年来引起了广泛的兴趣,由于它的成功在信号和图像处理等许多应用程序(11]。这种技术允许的分析信号通过只有几个明确的基本波形。由于它的优点,如鲁棒性噪音和降维,稀疏表示获得了一个在生物医学信号处理领域大受欢迎。例如,该技术已成功应用于几个问题包括人类呼吸速率的估计(12)和心电图信号处理,信号增强和QRS波群检测,改善心脏疾病分析和诊断(13]。然而及时指出,据我们所知,没有措施的应用差异对信号稀疏表示分类是已知的。

所有重建方法,如主成分分析(PCA),独立分量分析(ICA),和前面提到的稀疏表示14),产生特定类型的信号表示给定成本最小化功能通常涉及忠诚和正则化项。这些方法已经成功地应用于各种各样的问题,如信号去噪,缺失数据和异常值。另一方面,区别的方法如线性判别分析(LDA)面向找到最优决策边界用于分类的任务。众所周知,对于信号的分类,这是我们的主要对这项工作的兴趣,歧视方法通常比重建方法。主要出于这个原因,一些作者最近开发的监督方法基于稀疏表示的同时重建和歧视15,16]。

阻塞性睡眠低通气(OSAH)综合征(17)是最常见的一种睡眠障碍,往往仍未确诊的,因此不进行治疗。这种综合症是由重复的事件引起的部分或全部睡眠期间上呼吸道阻塞,分别对应于事件的呼吸不足和呼吸暂停。评估的严重性程度OSAH综合症,医学医生创造了所谓的低通气指数(AHI),它被定义为低通气事件的平均数量每小时的睡眠。这个索引,OSAH分为正常、轻度、中度或严重取决于这样一个指数下跌区间 , , ,分别。黄金标准测试OSAH诊断的一项研究被称为多导睡眠图(PSG)。然而,PSG昂贵而冗长的和可访问性的这种类型的研究是有限的。此外,PSG的学习需要的信息来自各种生理信号如脑电图(EEG)、气流和脉搏血氧仪( )。众所周知,然而退化与通气相关的呼吸事件总是伴随着氧饱和度水平的下降 信号记录,尽管经常这样下降非常小,几乎不可能发现了一个人类的观察者。

这项工作的主要目的就是开发一个基于稀疏表示技术和适当的使用区别的信息,能够准确、有效地检测通过只使用低通气事件 信号。存在几种方式结合区别的信息和上下文中的信号稀疏表示分类。我们应当遵循一个组成的使用区别的信息检测这些原子最常见的激活为了提供他们作为分类器的输入。这种方法最初介绍了(4),两种方法使用原子的激活差异的绝对值作为衡量OSAH歧视信息检测的。在这项工作中,严格规范化的措施是引入并与其他几个差异分类办法通气事件。同时,使用不同大小的综合效应nonredundant字典和不同稀疏度的详细探讨。结果清楚地表明该措施能够充分指出区别的原子在一个完整的字典,产生竞争个人通气事件检测的准确率。此外,这种新方法在计算上非常便宜。事实上,它已经证明了至少两倍的速度比那些相关的所有其他差异的措施。

本文的其余部分组织如下:在部分2阻塞性睡眠低通气综合征是解释说。介绍了信号的稀疏表示3。发现问题的歧视sub-dictionaries节中描述4而一些歧视措施提出了部分信息5。部分6包含一个详细描述的进行实验。结果和讨论介绍了部分7结论提出了在部分8

2。睡眠低通气

通气事件发生时由于上呼吸道的functional-anatomic扰动产生其部分或全部堵塞。低通气,年底的一个显著稀释血液血红蛋白常发生。这些稀释生成特征模式的脉搏血氧仪记录被称为间歇性血氧不足。hypoxemia-reoxygenation周期促进氧化应激、血管生成和肿瘤生长和支持交感激活增加血压和系统性炎症和血管内皮功能障碍导致multiorganic慢性发病,代谢异常,和认知障碍18]。此外,强大的肿瘤疾病之间的相关性和OSAH综合症被描述在19]。此外,雄性老鼠之间最近的一项研究表明,OSAH的间歇性缺氧可以联系到生育能力降低20.]。目前,该病理影响全世界4%以上的人口(21]。此外,发现老化,男性性别、打鼾、和肥胖都是风险因素OSAH综合症(22]。

虽然在很多国家非常有限,夜间多导睡眠图(PSG)是目前诊断的黄金标准工具OSAH综合症。正如前面提到的,一个完整的PSG由多个生理信号的同步测量如脑电图、心电图(ECG)、呼吸作用,气流, ,和电活动产生的骨骼肌(EMG)。主要由于其易于获取,我们尤其感兴趣 信号。图1显示了一个典型的几个生理信号的时序图来自一个完整的巴黎圣日耳曼。这图也描述了一个原始的一部分原始气流信号以及相应的部分 信号。低通气的对应标签事件(虚线)也显示。最后,在图的底部,心脏的电活动以及睡眠阶段。在一个典型的PSG的研究中,在正常时间的睡眠,记录信号提供给医学专家分析整个事件记录和马克通气和睡眠阶段,所需的后评估AHI指数。由于它的复杂性和成本,一些替代PSG已经采用。其中最受欢迎的是所谓的“家庭呼吸道polygraphy(合)23),不需要神经生理学信号。虽然研究表明,AHI值之间存在着高度的相关性所产生的合和PSG研究[24),合仍然需要一些生理信号的采集强烈影响人的正常睡眠。因此非常需要建立一个可靠的OSAH筛选系统,利用尽可能少的生理信号。在这方面,脉搏血氧仪,是一个便宜的和非侵入性技术,已成为一个合适的替代筛查的目的(25]。

在这项工作中,我们将开发一个方法只使用低通气事件的检测 信号。我们的方法会导致一个二进制分类问题的主要目的是检测事件的存在(或没有)的呼吸暂停和呼吸不足。及时指出,虽然我们的方法并考虑适当的忠诚,我们绝不是实现准确的信号表示感兴趣。

3所示。稀疏表示

正如前面提到的,一个最受欢迎的整形方法是基于信号的稀疏表示。稀疏可以执行包括上界的非零系数的表示给定信号的原子在一个字典。

形式上,信号的稀疏表示问题可以分为两个子问题,所谓的稀疏字典编码问题和学习问题。现在我们将继续详细描述每一个这些子问题。更准确地说,让 是一个离散信号,让 (一般 )是一个字典的列 我们想使用原子获得的表示吗 的形式 。这里,在续集中,我们将参考向量 作为“代表” 稀疏基本上由获得尽可能少的非零元素的表示。的方法获得这样一个表示包含解决以下问题: 在哪里 表示 pseudonorm,定义为非零元素的数量

几个问题有关的问题 立即出现。其中有以下几点:(i)确实存在一个精确的表示 ?,(2)如果一个精确的表示存在,它是独特的吗?,(iii) in the case of nonuniqueness, how do we find the “sparsest” representation? and (iv) how difficult is it, from the computational point of view, to solve problem ?。虽然它不是本文的目的进入细节关于这些问题的答案,事实证明,实施精确的表示通常是限制太多,因此不适当的限制,另一方面,解决 这种方法通常是一个np难问题的高度不适合大多数应用程序。对于更多的细节,我们参考读者([26), 1.8)。

为了克服的一些困难需要解决的问题 ,它被认为是一些放松的版本。其中包括允许一个小表示错误而强加一个上界 pseudonorm表示: 在哪里 是一个整数参数规定。这个公式考虑可能的附加噪声的存在条件;换句话说,它假设 ,在那里 是一个很小的能量噪声项。因此,这种方法尤其适合在大多数实际应用程序(如生物医学信号处理),测量信号总是被噪声污染。提出了几个贪婪策略来解决问题 (27,28]。其中,正交匹配追踪(OMP) (28)也许是最常用的策略。这种贪婪算法保证收敛的投影 跨度的字典原子,在不超过 迭代。图2显示了一个示例的一个特定系数的值 相关的原子 通过应用OMP算法获得大量(近一百万)的部分 信号及其对应的激活直方图。

尽管preconstructed字典,如著名的小波包(29日),通常导致快速稀疏编码,他们几乎总是局限于某些类型的信号。主要是这个原因,新方法引入数据驱动的字典学习技术出现了。一个字典学习( 问题包括同时找到一本字典 和表征 信号 , ,(这样的字典原子)遵守稀疏约束的每一个 误差信号,同时最小化总表示。( )问题相关的数据: , , , , 信号 , ,可以正式写成

第一个基于数据字典学习算法最初开发近三十年前(30.- - - - - -32]。他们中的一些人有他们的根在概率框架通过考虑某些随机变量的观测数据,实现(30.,31日]。在[31日]例如,作者开发了一个算法寻找冗余字典,最大化似然函数的概率分布数据。工作,似然函数的解析表达式导出了近似后验分布的高斯函数。字典学习的迭代方法,称为“方法最优方向”(MOD),提出了在32]。这种方法的稀疏编码阶段利用OMP算法紧随其后的是一个简单的字典更新规则。最近提出的一种新的迭代算法等在[14]。这种新方法,称为“K”奇异值分解(K-SVD),主要包括两个阶段:一个稀疏编码阶段和字典学习阶段。OMP算法用于稀疏编码阶段,这是紧随其后的是一个字典更新一步的原子更新一次,表示系数可以改变以最小化总表示误差。

4所示。歧视Subdictionary建设

尽管数据驱动的字典学习算法产生强劲的信号稀疏表示对噪音和缺失的数据,这样的表现是不合适的,如果最终目标是信号分类。这主要是因为这些算法不考虑任何先验或可用的信息关于类会员。为了克服这个困难,提出了一些策略,将适当的类信息(4,16,33]。在[33),例如,作者开发了一种区别的字典学习方法通过有效地将单个预测线性分类器集成到K-SVD算法的代价函数。方法将一个区别的术语纳入标准的成本函数K-SVD算法(16]。这种方法找到一个最佳的字典同时代表和歧视为人脸识别任务。在这项工作中,我们使用一种简单的方法来检测有识别力的原子从以前学习字典并建立一个新的subdictionary使用。这种方法最初是在(4),包括解决两个问题,即上述完整(我) 问题,(2)一个歧视subdictionary 建设问题。我们现在继续描述问题(iii)的一种方式获得最大化的区别的子字典包含一个适当的区别的价值功能 给定一个数据矩阵 ,一个类标签向量 ( 是所有类的集合;在二元的情况下 ),一个字典 (与 ),最歧视subdictionary 有识别力的价值功能,根据适当的规定 ,被定义为 , 表示 矩阵的 th列是 列的 这个函数 ,必须提供,量化每个subdictionary歧视的力量 因此,大的值 对应于高度区别的子字典而小的值 子字典辨别力较低有关。

几个问题有关的问题 清晰的出现。其中有以下几点:(i)我们如何找到一个合适的区别的价值功能 ?,(ii)功能 ,是否问题 有解决方案吗?,(iii) if it does, is it unique?, (iv) in the case of nonuniqueness, how do we decide which subdictionary, among the optimizers, is the best for our classification purposes? and (v) how difficult is it, in terms of computational cost, to solve problem ?。虽然这个问题并没有被广泛地研究过了,知道解决 在计算上非常具有挑战性 ,主要是由于它们的组合爆炸问题。一种方法来克服问题的计算复杂性 由定义适当的区别的价值功能 。以这种方式 独立评估在每一个原子(列)的 和歧视subdictionary 由叠加并排第一 排名列 与最大 值。这种简化是基于假设每个原子在字典里是用来模拟特定的特征并不完全由其他原子模型。因此,歧视特定的原子所提供的信息将会不同于其他原子贡献的信息。

5。有识别力的原子选择的价值功能

几种方法适当构造有识别力的价值功能 的存在。在本节中,我们提出两种不同的方法来定义一个函数,即使用传统差异的措施(i)和(ii)使用一个新的歧视措施,我们应参考“条件激活频率差异”(DCAF)。之前我们需要引入一个适当的设置和术语关于概率密度函数(pdf)中对信号稀疏表示分类。

这里,在续集中,我们将考虑向量 为实现一个特定的随机向量 任何这些向量的稀疏表示将导致每个系数的pdf文档 (相关的原子 )显示一个非常集中的峰值在零与沉重的尾巴(如图2)。在二进制信号分类的背景下,有理由认为,如果一个给定的原子 高度歧视,那么条件pdf文档 将明显不同。因此,如果一个字典 不歧视,那么你应该期待吗 对所有

虽然元素 表示的向量 一般实数,出于实际的原因,它是适当的离散化。以通常的方式可以通过分区实线 为间隔 , 的长度 和相关的离散随机变量 。相应的概率质量函数(及) , 。图3显示了估计及和相应的条件及(给每一个两类),对nondiscriminative和歧视原子使用 信号。

我们现在继续定义如何计算有识别力的价值功能 考虑到数据矩阵 ,相应的类标签向量 和一个完整的字典 ,第一步由获得稀疏矩阵 通过应用OMP算法。的 这种稀疏矩阵的行然后用于估计条件及 最后的价值 在原子 计算的差异(以一个适当的量化差异衡量)这两种及之间。接下来,我们介绍差异的措施,我们将在这项工作中使用。

5.1。传统差异的措施

一个伟大的多样性的措施,其目的是执行比较概率分布存在(34]。在这部作品中,最著名的,更常用的是相比的性能选择最歧视原子字典。KL、J和JS措施是利用散度,以及费舍尔得分(F)。

KL散度(7)可能是最广泛使用的信息“距离”措施从理论框架,并成功地应用在许多问题的信号分类(1,35,36]。比较两个条件及相关的激活 使用th原子,KL距离如下:

假设

尽管提供的计算和理论属性KL距离,通常在许多问题成为一个麻烦的信号分类是其缺乏对称性。它可以很容易地看到,改变参数的顺序(5)可以改变输出值。为了解决这个问题,一个对称版本的KL距离可以使用如J散度(9),即使没有最初创建为一个对称的版本的KL距离,是两个可能的KL距离之和的概率分布。在这篇文章中,J散度定义如下:

另一个对称的平滑版本的KL距离是JS散度(10]。相关问题的比较这两个条件概率定义为每一个类 在哪里 是每一个条件及相关的权重, 。JS的距离的一个有趣的特性是不同的权重值( )可以分配给概率分布根据它们的重要性。在这工作, ,即权重与类的先验概率有关。注意,这里定义计算JS的距离是一样的计算类间的互信息和激活,也就是说,

在信号分类问题,F是一个测量已广泛使用。与本文提供的其他措施,需要估计的条件及F使用分布的两个参数(均值和标准差)。这使得这种方法更昂贵的计算来说,但隐式地假定某些特征(即分布的研究。二阶特征)。在一元二元问题的情况下,可以定义为F 在哪里 的平均值和标准偏差 (37]。

尽管措施提供上述差异,在某种意义上,“措施”两个概率分布之间的距离函数,其中大部分(如KL散度和对称变体)不严格的一个度量。例如,KL散度是一个非对称差异测量三角不等式在哪里不满意。尽管如此, 是一个非负测量, 当且仅当

5.2。不同条件激活的频率

在之前的工作中,一个名为最歧视的方法列选择(mdc)歧视subdictionary最初提出的建设(4]。信号的稀疏表示的子字典构造使用mdc在通气事件的检测提供良好的性能。提到工作,最歧视的原子被确定通过比较条件激活频率的差异。

候选人被认为是“最歧视”根据(4)这些原子高绝对条件激活概率给定类的区别。也就是说,一个原子被认为是高度区别的如果它是活跃的,成比例,更多的时间的一个类。使用这种方法来衡量辨别力是最富有表现力的参数之一的想法关于给定原子的重要性是它的激活概率。此外,如果某些原子活动主要是对于一个给定的类,那么就认为他们代表特征重要性的描述的特定类。

这个想法后,DCAF被定义为 在哪里

中定义的测量(9)是对称的;它的值总是 和廉价的计算(如果类平衡,DCAF可以更换只是通过简单的计算,没有划分的必要性与样本的数量)。

它可以很容易地看到的定义 在(10的最大似然估计)等于激活的条件概率,也就是说,

替换这个表达式(9),我们可以写 最后表达DCAF互补的条件概率的原子不会被激活。除了F,所有部分中给出的措施5。1可以表示为累加,唯一的条件是计算使用的概率 。然而,由于高稀疏表示的相关条款 是特别重要的。这个事实让我们期望获得的结果之间的一些关联DCAF措施和不同的差异。

4显示的表示条件及相关的激活两种不同的原子(左)等的说明函数的峰值集中在零( )被丢弃(中间)。重要的是要注意,当排除zero-centered峰图形,显著减少的大小 设在规模生产,突出了稀疏表示的激活概率的重要性。然而,分布之间的差异不仅是由于原子激活概率,因为轻微的概率值之间的差异 存在(的放大地区)。此外,这些差异的绝对值是由灰色区域表示。同样重要的是要指出,这些区域的值显示在灰色( )并不一定等于DCAF对应值。然而,对于对称及高的峰态和沉重的尾巴(这样的情况及用于这项工作),条件和先验分布是相似的,因此这两个区域值接近对方。

6。实验装置

本节介绍了拟议的系统及其配置设置,旨在检测病人怀疑患有中度到重度OSAH综合症。它还描述了数据库用于训练和测试方法以及评估其性能的措施选择。

我们的研究的主要目的是探索使用差异的影响措施等级原子根据他们的辨别力。同时,实验设计确定的影响使用字典和不同程度的overcompleteness(冗余字典)通气事件的检测。此外,系统的性能对不同大小的子字典和稀疏度进行了分析。

5显示了一个简化了系统的框图。它可以观察到,我们的系统包括一个训练阶段(上图)和一个测试阶段(下图)。阐明系统的描述,我们把它分为三个不同阶段,即阶段I, II期和III期。可以看出阶段I和II包括训练和测试阶段,第三阶段只是测试期间使用。我由一个预处理阶段输入原始的块 过滤段的信号,其输出信号,如部分所述6。1。在训练阶段,第二阶段接收分段信号和找到一个最佳的歧视subdictionary。在测试阶段,第二阶段获得一个稀疏矩阵的subdictionary之前发现。这些过程是彻底的部分中描述6。2。最后,获得稀疏编码作为输入的第三阶段。这个阶段检测通气事件和估计,AHI价值,如部分所述6。3

6.1。数据库和信号的预处理

睡眠心脏健康研究(嘘)数据集(38,39)最初被设计成研究睡眠呼吸性障碍和心血管疾病之间的相关性。这个数据集包含大量PSG的研究中,每一个都包含几个生理信号如脑电图、心电图,鼻气流和 医学专家注释的睡眠阶段,微觉醒和通气事件也提供。在这项工作中,只有 信号(采样1 Hz)和相应的低通气标签被认为是进行实验。在本文中,第一个在线版本的数据库(SHHS-2)。这个版本的数据库包含995免费PSG研究(https://physionet.org/physiobank/)。

信号主要由病人运动退化,基线漂移,断开连接,和脉搏血氧仪的分辨率有限,以及其他因素。当发生断开时,传感器信号的时间间隔期间的记录被丢失。为了克服这种不便,血氧饱和度在这样一个时间间隔内的值是线性插值。为了消除干扰信号,小波处理技术(40使用)。去噪过程由归零法近似系数在8级,以及前三个级别的细节系数的离散二进小波变换小波Daubechies母亲2。然后信号合成使用修改后的小波系数的逆离散二进小波变换。该小波分解技术的应用带通滤波器的影响基线漂移和低频噪声和高频噪声,以及量化噪声的消除。图6显示了最初的原始的一个小片段 信号(上)及其wavelet-filtered版本(底部)。标签的通气事件(虚线)提出的医学专家还补充道。这些标签被医学专家使用气流信息生成,从而冲淡颜色不一致,也就是说,之间有一个变量延迟事件的开始时间和相应的稀释。

稀疏表示技术的应用需要一个适当的细分信号。段的长度 (对应于128秒信号记录)以75%的连续两个部分之间的重叠。适当指出,尽管几个重叠的百分比进行测试,最好的系统性能产生了75%的重叠。这种冗余可以防止通气事件被发现。在这个分割过程中,出现断开的时间间隔被丢弃。脉搏血氧测量信号的部分然后同时安排列向量 和标记的( )和负的( ),一个对应于低通气事件,和- 1的缺乏。最后,一个信号矩阵 是由叠加并排列向量 ,即信号矩阵被定义为

如上所述,整个数据集用于这项工作包含995个完整的研究,其中41以来执行实验没有考虑信号向量的大小不同于相应的矢量类标签。剩余的954项研究中,667(70%)的一个子集研究随机选择和固定字典对于学习和训练的分类器。剩余的287(30%)的研究为最终的测试。的 信号过滤使用小波滤波器和分段如上所述成列向量的大小128。在执行滤波和分割过程之后,一个信号矩阵 的大小 组装之前通过连接两个信号矩阵,构造一个用于每一个类, ,分别包含183163和272352段。另一方面,对于每一个研究包括测试数据集,一个测试矩阵 是建立。

6.2。稀疏编码和Subdictionary建设

在我们的实验中,字典的学习是由使用传统K-SVD方法[14]。优化的MATLAB代码字典学习使用K-SVD以及稀疏编码使用OMP算法都是免费为学术和个人使用在罗恩·鲁宾斯坦的个人网页(http://www.cs.technion.ac.il/ ~ ronrubin / software.html)。起初,分配给符合初始的原子字典是随机选择的输入信号矩阵的培训不考虑任何有关课程的信息。如果信号的空间尺寸是固定的,应构建词典的影响与不同overcompleteness学位?。要回答这个问题,用三种类型的字典 的大小 , 的大小 , 的大小 ,相应的冗余因素1、2和4,分别建成。首先,字典 是由连接两个subcomplete字典的大小 学会了使用大量的培训部分(共计100000段为每个类)属于类 ,分别。同样的想法后,用冗余字典 (256个原子)和 (512个原子)是适当的。在字典学习阶段,选择非零元素的数量和固定的百分比值 原子符合字典。此外,共有30 K-SVD算法进行迭代。

一旦已经训练字典,稀疏表示向量 对应的输入信号 是通过应用OMP算法。在这样一个过程中,最近的整数百分比值 选择和固定。在选择这个百分比值的原因是因为它呈现最好的representativity和辨别力的片段之间的权衡。因此,稀疏的值 , 代表输入信号选择培训的完整的字典吗 , ,分别。

柱状图通常用于近似的数据分布。在这项工作中,我们利用直方图原子的激活近似pdf文档。离散化过程是由使用 值为0.5。原子最歧视的检测是通过最大化条件之间的差异及原子的激活类。这一目标是通过使用该DCAF测量以及那些用KL, J, JS, f .不同差异的措施,稀疏向量的应用程序允许选择不同的“区别的原子,”这意味着有识别力的子字典的建设本质上是不同的。建设的子字典,用在这里 , ,通过选择执行原子 , , ,分别。一旦检测到最歧视的原子,subdictionary构建,因此获得的特征向量是通过应用OMP算法。最后,每个特征向量分配是榆树分类器的输入。

6.3。事件检测和AHI估计

多层感知器(MLP)神经网络训练信号分类已被证明是一个工具,提供了不错的表演OSAH综合征检测(4];然而,这类神经网络训练的过程变得非常昂贵的主要时间。出于这个原因,在这个工作中,我们建议使用极端学习机(ELM) [41)这是一个类型的单隐层前馈神经网络(SLFNs),而不是使用MLP神经网络。从理论上讲,该算法(ELM)结果提供了一个良好的泛化性能速度极快的学习。实验结果基于一些人工和真正的基准函数近似和分类问题,包括大型复杂应用程序显示,榆树在大多数情况下可以产生良好的泛化性能和可以学习快几千倍比传统流行的前馈神经网络学习算法(42]。

基本的榆树分类器的MATLAB代码可以下载Guang-Bin黄的web页面(http://www.ntu.edu.sg/home/egbhuang/elm_codes.html)。训练分类器,固定的主要参数是隐层神经元的数量以及神经元的激活函数。在我们的实验中,榆树的隐层的神经元数量对应特征向量维数的四倍。此外,著名的乙状结肠激活函数,它是最常见的激活函数隐藏的节点和/或输出层,是选择。

为了评估提出了分类器的性能检测的单个低通气事件(本地方法),或更具体地说,识别的人怀疑患有中度到重度OSAH综合症(全球方法),三个使用性能的措施。单段包含低通气事件的识别,灵敏度( )代表的总数正确分类的信号段任何通气事件发生。同样的想法后,个别部分的检测信号不包含任何通气事件,特异性( )的定义是正确的总数分类部分的任何通气不存在。的准确性( )最终定义如下: 在哪里 表示部分的总数, 表示相应的类标签 th段和相应的分类器的预测,分别 代表了δ函数的输出是正确的(一个)如果条件 满意和假(零)。

事件检测的性能获得的差异之间的差异测量进行了评估,以测试它们是否具有统计学意义。执行的测试是假设统计独立分类错误的不同研究和逼近误差的二项分布的正态分布。由于大量的这个假设是合理的 信号段用于每项研究(1100段研究,总计301306段)。

估计AHI指数( )被定义为每小时预测事件的平均数量的研究。这个新的索引用于OSAH综合征检测。在这种情况下,敏感性( )被定义为OSAH综合症的人来说,比最后的测试是积极的,和特异性( )被定义为健康患者的比例来说,最后的测试是负的。而且,ROC曲线下的面积(AUC)来自一个接收器的操作特点(ROC)分析43使用)。ROC分析包括计算的值在所有可能的敏感性和特异性检测阈值(DT)值。然后,ROC曲线是由执行块1−特异性与灵敏度值。这条曲线已经被医学医生广泛使用的评估诊断测试(44]。比较两种不同的方法可以有效地通过寻找“最佳”(在某些意义上)曲线的分界点和评估相应的表演。最后,准确性 定义如下: 在哪里 对应于研究来自测试数据集的总数和“ ”是调整过高的检测阈值分割过程中产生的事件。的价值 结果的最佳分界点ROC曲线。这一点,同时最大化的敏感性和特异性,对应于最小欧氏距离( )的点(0,1)ROC曲线。

7所示。结果与讨论

在本节中,提出了进行实验的结果和讨论。这部分主要分为两个部分,即,(我)的性能调优部分和(2)最优系统性能部分。

7.1。性能调优

本节提出了探索性实验的结果发现执行提出了系统的最优配置。节中解释6。2,三个不同的字典 , , 学会了通过应用标准K-SVD算法。在这个过程中,预计大多数字典原子捕获高频振荡和正常的呼吸周期 信号。然而重要的是要指出,典型的稀释通气事件有关的信号应该是由一些原子编码。其次,稀疏矩阵 , , 通过应用OMP算法得到。节中描述6。2,一些措施被用来量化单个原子的歧视程度研究的每一个字典。最后,减少数量级的字典原子被排名根据他们歧视的权力。图7显示的波形排名前七的字典的原子 根据我们的测量(第一行)等排名前七的原子字典根据所有其他差异措施(从2到5行)。可以看出最歧视的原子被DCAF(冲波形)提供了两个定义良好的稀释信息信号。同样重要的是要指出,这个原子对应于最歧视时使用J散度或最终使用JS散度。此外,一个可以清楚地注意到,没有高度区别的原子被当使用费舍尔得分。

有识别力的子字典叫 , , 由叠加并排第一吗 排名原子 , , ,分别根据他们的歧视程度。是适当的提到几个差异的评价措施导致不同区别的子字典的建设。然而,最优值 (subdictionary大小) (稀疏)参数需要调整。为了找到最佳值的hyperparameters,网格搜索了。

我们的系统的性能的第一次测试是通过执行一个随机选择的字典原子(RS)。相关结果适当固定和用作参考。原子的随机选择了十次。此外,为每一个原子的随机选择60网格搜索的迭代执行。因此,准确率的分类器引入的变化最小化。图8显示了三个图像对应于平均准确率为每个评估词典之一。平均准确率(引用值)获得通过使用字典 低通气检测的事件是在左边的图。可以看出,稀疏表示的 ,使用最小的subdictionary大小和稀疏度最高,导致更好的性能比通过使用所有其他配置 和overcomplete字典 通过这种方式,两个区域可以区分对应一个高性能的区域代理和一个档次。第一个,或者我们的兴趣,产生了通过同时使用一个小subdictionary大小(10%)和一个稀疏程度高(5%)。

接下来,DCAF适当措施用于构建和其他四个差异歧视子字典。然后,网格搜索hyperparameters是由分析性能,收益率(殖利率)我们的系统在使用每一个的子字典。图9显示五个图像对应DCAF(左上角)和其他四个差异的措施。这些图片代表之间的差异准确率获得通过使用歧视措施和参考(随机选择) 同时,这些图像的每个像素对应于特定的百分比subdictionary大小和稀疏的水平。它可以观察到,独立于歧视措施,小subdictionary大小的百分比收益率好的表演。然而适当指出,维度的影响(subdictionary大小)系统的性能更重要比使用引起的歧视措施。

类似地,数据1011显示五个图像对应DCAF(左上角)和所有其他差异的措施。图片中描述的人物1011代表之间的差异准确率获得通过使用这些措施和参考字典 ,分别。

如果我们比较结果如图9- - - - - -11,那么它可以得出结论,该系统提供了最好的性能,在检测的准确率低通气事件,当使用完整的字典 虽然应用也获得了类似的调查结果提出DCAF测量和那些传统的(参见图9),重要的是要指出,使用差异导致相当高的改进措施对原子的“随机”的选择。正如上面所讨论的,尺寸减少subdictionary大小以及高稀疏的水平让中国选手获得了较高的准确率。这是一个小的原因subdictionary大小(10%)和高稀疏的水平(5%)选择执行最后的测试。

系统性能的变化进行了分析通过执行比较平均准确率获得的使用区别的子字典和那些通过使用完整的字典。表1显示平均精度通过考虑固定百分比歧视subdictionary大小(10%),同时允许稀疏水平变化(从3 - 7行)。这个表的最后一行介绍了平均百分比精度产生了通过使用完全不同的稀疏字典的水平。它可以观察到,在所有的情况下,歧视的子字典比完整的字典在通气事件的检测。

稀疏度的影响在我们的系统的性能见表2。这些结果产生的平均准确率获得稀疏的5%,考虑到所有可能的subdictionary大小(从10%到90%)。例如,第二行显示了平均准确率获得通过歧视子字典的原子从 , , 通过使用DCAF措施。

7.2。优化系统性能

选择最优的系统配置和固定进行最后的测试。在前面的小节中,发现有识别力的子字典由原子取自字典 产生更好的表现比那些由选择字典的原子 此外,发现歧视subdictionary由只有12个原子(10%)和一个稀疏的收益率(5%)在我们的系统最好的准确率。

为了克服方差引入的榆树预测,60重复测试过程的执行。表3显示百分比值最小(最小值),最大(Max),平均水平( )和标准差( )获得相应的检测准确率低通气的事件。虽然DCAF执行类似于其他四个差异的措施,实现其性能与相对较低的计算成本。此外,结果表明,演出获得通过使用歧视措施构建子字典总是比那些产生了利用随机构造的子字典。

我们也评估表中给出的结果的统计学意义3通过计算概率,使用每一个评估措施,包括RS,收益率比其他人更好的分类性能。为了执行这个测试中,我们假设每个研究分类错误的统计独立性。同时,可以近似误差的二项概率分布正态分布由于广泛可用的信号(301306)。表4总结的结果进行了统计显著性试验,通过考虑 值为0.01。可以看出DCAF和三个其他差异的措施(KL、J和JS差异)对随机选择明显不同。同样,没有发现显著差异F分数和随机选择之间的关系。此外,发现DCAF不执行明显好于吉隆坡,J, JS分歧。

确定OSAH综合症的严重程度,ROC曲线分析成功地由考虑检测AHI 15。该指数被选为了识别病人怀疑患有中度到重度OSAH综合症。表5显示的最小操作(截止)中华民国曲线和最大比例的敏感性,特异性和准确性以及最大值的ROC曲线下的面积AHI诊断阈值15(图12(一个))。可以看出DCAF导致最大的ROC曲线下面积0.9250和敏感性和特异性的百分比81.88和87.32,分别。这是最大的绩效指标最小ROC曲线的分界点。如果我们比较之间的表演获得所有的评估措施,那么最大SE和AUC值由J散度了。同时,JS散度优于其他ACC和DCAF导致最低ROC曲线的分界点。

我们另外ROC曲线进行分析的平均表现DCAF和所有其他差异的措施,包括(RS)(图12 (b))。此外,表6显示的最小操作(截止)的平均ROC曲线以及最大百分比的敏感性,特异性和准确性,包括相同的最大的AUC值OSAH综合症诊断阈值。结果表明,DCAF优于所有其他差异的措施的最低最优操作ROC曲线的分界点以及灵敏度和准确度。同时,KL平均分歧导致最好的ROC曲线下的面积和最大平均特异性被JS分歧了。使用DCAF时观察到显著的性能改进措施或者其他的差异相比,随机选择。

多个应用程序存在,需要最大化的敏感性。例如,如果测试的主要目的是“筛选”,也就是说,发现早期疾病的大量看似健康的人,一个高灵敏度通常是理想的。有鉴于此,如果选择的敏感性98% ROC曲线在图12为所有使用措施,方法达到特异性接近45%。这一事实表明,脉搏血氧测量信号的分析通过该方法可能会作为一种有效的诊断筛查工具应用于临床实践。

在以前的工作(4),结果表明,使用DCAF mdc方法选择有识别力的原子在一个给定的词典提供良好的通气事件的检测准确率。在工作中,比较分析表演产生的mdc和其他方法45- - - - - -47]表明MDCS优于其他人。也观察到的计算成本MDCS略高于所需的其他三种方法。另一方面,在这项工作中,我们表明,mdc使用DCAF选择有识别力的原子比MDCS执行同样使用其他几个传统差异的措施。重要的是要强调DCAF很容易计算性能和产量竞争率低通气事件的检测低计算成本。

8。结论

信号的稀疏表示构成功能强大的技术,产量高的检测准确率低通气的事件。在这部作品中,不同条件激活的频率(DCAF)测量被成功用于准确地指出区别的原子在一个完整的字典。此外,我们比较DCAF有四个广泛使用的性能差异的措施。发现DCAF和其他三个差异的措施(KL、J和JS分歧)比原子的随机选择,与F分数。此外,DCAF是便宜的计算。有识别力的子字典被成功构建通过完整的最好排名原子字典根据他们的辨别力。结果表明,信号的稀疏表示的区别的子字典导致更好的表演获得完整的字典在通气事件的检测只使用脉搏血氧仪的信号。在这种背景下,发现更稀疏的解决方案几乎总是产生更好的性能。此外,观察到大字典overcompleteness恶化系统的性能。未来的研究项目包括更多DCAF措施的分析,研究其属性,这样的措施多类问题的延伸。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持Consejo Nacional de Investigaciones Cientificas y Tecnicas,国家通过皮普2014 - 2016号11220130100216 - co和皮普2012 - 2014号114 20110100284 - ka4,由美国空军科学研究办公室AFOSR / SOARD,通过批准号fa9550 - 14 - 1 - 0130,由所del沿海地区通过项目CAI + D图片没有。504 201501 00098(2016)和图片没有。李504 201501 00036(2016),和Asociacion盖膝布德大学的讲师Tecnologica Nacional (FAGDUT),巴拉那部分。作者要感谢路易斯·d·Larrateguy博士,谁是睡眠障碍的专家,他的宝贵的意见和建议。