文摘

目标。在这个研究哮喘结果预测的新方法,基于主成分分析和最小二乘支持向量机分类器,提出了。大多数哮喘病例出现在第一年的生活。因此,幼儿的早期识别高危发展持久的症状在儿童是一个重要的公共卫生的优先级。方法。该智能系统由三个阶段组成。在第一阶段,主成分分析用于特征提取与降维。在第二阶段,模式分类的实现是通过使用最小二乘支持向量机分类器。最后,在第三阶段的绩效评估系统估计利用分类精度和10倍交叉验证。结果。提出了预测系统可用于哮喘的结果预测有95.54%的成功实验结果所示。结论。本研究表明,该系统是一个潜在的有用的决策支持工具预测哮喘结果,一些风险因素增强其预测能力。

1。介绍

哮喘是一种气道的慢性炎症性疾病,其特征是一个妨碍气流,这可能是完全或部分逆转有或没有特定的治疗(1]。气道炎症是各种细胞之间的相互作用的结果,细胞的元素,和细胞因子。在易感个体,气道炎症可能导致复发或持续的支气管痉挛,与气喘等症状,呼吸困难,胸闷,咳嗽,尤其在晚上或运动后。哮喘是一种疾病,多态表现型受到几个环境和遗传因素都起着关键的作用在疾病的发展和持久性2,3]。在这些因素家族哮喘史,出现过敏性皮炎或过敏性鼻炎,哮喘发作在儿童时期,母亲在怀孕期间吸烟,和一些产前和环境因素包括4- - - - - -7]。

大多数孩子患有哮喘发展他们的第一个症状在5岁之前(8]。然而,很难区分哮喘童年,因为其他哮喘疾病的症状是相似的。因此,儿童哮喘可能经常被误诊为感冒,细支气管炎或肺炎。诊断哮喘的一个详细的病史和体格检查肺功能测试通常是必需的。另一方面,肺功能测试很难被执行在5岁以下的儿童。

在预防医学,一个测试的价值在于它能够识别那些处于高风险的疾病,因此需要干预而不包括那些不需要这样的干预。风险分类的准确性尤为相关的哮喘疾病。早期识别高危患者的哮喘疾病进展可能会导致更好的治疗机会,希望更好的疾病结果成年期(9- - - - - -13]。

一些努力已经由不同群体发现一个安全的方式,如哮喘哮喘结果的预测指数API或修改哮喘指数在五岁以下儿童(mAPI14,15]。作者的知识,这是第一个研究机器学习技术用于预测持续哮喘。然而,主成分分析(PCA)被用于一些医学研究为例探讨多元功能微血管变量之间的联系和clinical-laboratorial-anthropometrical测量(16]。此外,在研究[17),多变量投影技术已经用于揭示炎症介质如何展示一个不同的模式在人类应对创伤性脑损伤。最后,在[18],PCA用于步态运动学数据在急性和慢性中风患者。最小二乘支持向量机(LSSVM)分类器已成功地用于肺癌的诊断(19)和肝炎诊断系统(20.]。

主成分分析提供了一种强大的方法,探索复杂的数据集与多个变量和缺失的数据点相对小数量的观察(21]。LSSVM是健壮和可靠的分类器系统,有能力执行快速分类。由于这些原因,这两个技术已经为本研究选择(22]。

摘要智能系统方法对哮喘预测结果。系统由三个阶段组成:(a)通过PCA特征提取和减少,(b)模式通过使用LSSVM分类器,分类和(c)的性能评价分类器的准确性、敏感性,特异性,10倍交叉验证。本文组织如下。部分2。1介绍了实验数据集被用于这项研究。节2。2简要描述的主成分分析显示,而在部分2。3介绍了LSSVM分类器。节2。4该预测系统,而结果部分所示3。描述的讨论和最后的结论部分45,分别。

2。方法

2.1。临床数据

数据从148例儿科学系Alexandroupolis的大学医院,希腊2008 - 2010年期间收集和记录。148名病人诊断为哮喘研究前瞻性从7到14岁。所有患者缺失的数据被排除在目前的研究中,共有112名患者。

病史,包括数据哮喘、过敏性疾病,通过调查问卷和生活方式因素。参与者(父母和孩子)回答问题对哮喘和过敏症状,哮喘发作,直到第五年,养宠物,家庭成员,父母的历史,和其他一些有用的信息。中使用的预后因素问卷已经来自先前的研究[2- - - - - -10]。共有46个预后因素被认为是他们总结表1。对其中一些所需的编码是一种为了有效地利用当前的调查。他们的编码表2

2.2。主成分分析的功能降低

在目前的研究中,输入向量的维数很大,同时向量的分量强烈相关。因此,它是有用的在这种情况下,以减少输入向量的维数。一个有效的程序来执行该操作是采用PCA方法。这种技术有三个作用:它使正交化的组件的输入向量,这样他们彼此不相关的,它种类产生的正交分量(主成分),这样那些最大的变化是第一,,最后,它消除了这些组件的变化贡献最少的数据集(23]。

根据文献[24),最常见的PCA的定义是,一组观测向量 , , , 下那些保留方差正交轴上投影是最大的。它可以表明向量 给出的 占主导地位的特征向量(即。,those with largest associated eigenvalues) of the covariance matrix 这样 ,在那里 简单的平均值和吗 是一个标量,称为相对应的特征值

向量 ,在那里 ,是一个 观察向量的维减少表示 (25]。

2.3。最小二乘支持向量机分类器

支持向量机(SVM)是一种分类和回归预测工具,利用机器学习理论而获得最大的预测精度自动避免over-fit数据。支持向量机的基础已由Vapnik [26由于许多有前途的功能)和流行。通过构建一个支持向量机进行分类 维超平面,优化分离数据分为两类。支持向量机的目标是产生一个模型的形式 预测的目标价值只有测试数据给出的测试数据属性。训练集 ,在那里 是输入和 是输出,显示了类。

用定理(27)的解决方案 总是可以写成一个训练数据的线性组合: 通过这种方式,可以制定学习线性SVM分类器 通过求解一个优化问题 ,在那里 拉格朗日, 是一个真正的常数,然后呢 训练数据的大小。

是一个非线性核函数 ,在那里 从原始空间的非线性映射到高维空间。

解决下面的二次规划问题的支持向量机分类器: , , , 代表数据的误分类的程度 是惩罚参数的误差项28]。

本文使用最小二乘版本的支持向量机,其主要优点是计算效率比标准的支持向量机方法。在这种情况下,训练过程需要一组线性方程的解决方案,而不是标准的二次规划问题的支持向量机。LSSVM的方法时径向基函数(RBF)内核只布料需要两个参数( ),而减少了时间消耗的训练方法,代替一组简单的线性方程的二次优化问题(29日]。在LSSVMs平等理论制定的上下文中进行岭回归如下: ,

2.4。智能PCA-LSSVM预测系统

哮喘的预测系统,提出了本研究包含三个阶段:(i)通过PCA特征提取与降维,(ii)模式分类采用LSSVM分类器,和(3)绩效评估通过使用分类精度,灵敏度、特异性和10倍交叉验证。哮喘预测智能系统的流程图如图1。算法的实现步骤遵循一个特定的序列。首先,病人的数据收集和准备一个电子表单适合进一步处理。在这一步中,所有参数(很有必要)编码,输出分配标签1(哮喘持久性)或0(无哮喘持久性)。最后,数据集的维度有46特性减少到18特性使用PCA方法。

在PCA-LSSVM智能预测系统的分类阶段,美联储降低功能从第一阶段获得LSSVM分类器。LSSVM分类器参数,这是 (RBF核函数的宽度)和margin-losses权衡 ,影响预测的性能。最好的组合 被选中的网格搜索序列增长 (1 - 1000 = 10步) (1 - 100步骤= 1)。每个组合参数的选择是使用10倍交叉验证检查。起初,112名患者被分为10几乎相等的子组。10的子组被用作评估数据,其余的学习数据分类。评估数据改变了10倍,因此每个小组曾是评估调查数据。所有获得的平均值评价数据的精度被认为是模型的估计能力。交叉验证精度最好的参数选择。

3所示。结果

并给出了实验结果的准确性、敏感性和特异性,如表所示3。预测被认为是真阳性(TP)如果病人有哮喘和它是正确预测哮喘。相反,如果与nonasthmatic哮喘患者错误地预测,预测是指定为假阴性(FN) [30.]。假阳性(FP)和真阴性(TN)预测可以以同样的方式决定的。调查培训模型,有68个积极的数据(根据医生存在哮喘)和44负(根据医生没有哮喘)。敏感性、特异性和准确性估计使用以下方程: 在哪里 , , , TP的数量、TN、FP, FN分别31日]。敏感性和特异性统计措施的二元分类的性能测试。敏感性措施积极的百分比(哮喘)人,正确认定有哮喘。特异性措施的比例负(不是哮喘)人已被正确地认定为没有哮喘。准确性的程度是预计值接近实际的。

在表3,best-performed 10的组合 价值观和正确的哮喘预测率。从这些结果可以看出,有价值建议哮喘预测的预测精度最高智能方法被发现95.54%,情况

4所示。讨论

提出了系统的预测精度不容易与其他研究相比较,因为不同的研究设计和目标。作者的知识有限数量的研究已经发表在儿童哮喘预测时当症状。研究Caudri et al。32哮喘的预测是基于8个临床参数,考虑从7到8岁的儿童。这八个参数是雄性,postterm交付,父母的教育和吸入药物治疗,喘息频率、喘息、呼吸困难除了感冒、呼吸道感染、湿疹。在72%的情况下,模型准确地歧视哮喘和nonasthmatic孩子。克劳夫et al。33]开发了模型检查喘息的潜在风险因素,持续至少12个月在一群年轻的孩子演讲之后,都有至少一个异位的家长,与早期的喘息。本文表明,提高演讲的年龄,个人特异反应性和提高可溶性IL-2R都与风险增加有关。Castro-Rodriguez et al。34)开发的两个临床指标在3岁哮喘在学校时代的预测。结果表明,59%的儿童积极宽松的指标和76%的积极严格的指标有活跃的哮喘至少一个调查在学校期间。他们的指标包括气喘的特点在生命的前3年,父母的哮喘或湿疹、哮喘没有感冒,嗜酸性粒细胞,或过敏性鼻炎。最后,在研究Devulapalli et al。35)因阻塞性气道疾病入院的患者的数量在生命的最初2年已经包括在预测模型中,阳性预测值和阴性预测值为55%和92%,分别。

基于比较,已经如上所示,似乎有价值的研究发表在哮喘的预测。然而,这些预测方法不能达到显著较高的预测精度。因此,有意义的利用计算智能方法,以克服这些问题。这样的一个例子所示。该方法对哮喘预测到5岁可能预测准确性超过95%的哮喘。然而未来的研究应该进行进一步评估我们的方法在临床实践中。此外,无论使用算法预测结果,评估的结果与医生合作哮喘专家必须为了执行决定如果病人需要治疗或不是。

5。结论

在这篇文章中,一个新的智能系统基于主成分分析和最小二乘支持向量机分类器对哮喘预测提出了。使用参数向量有相当高的维度和,因此,需要降低以达到尽可能低计算成本的一方面,而另一方面减少系统的复杂性。因为哮喘是一种严重的健康状况,各种模型,它被用来检测,必须有很高的准确性,哮喘患者不被忽视。

实验结果表明,该方法可以预测95.54%的哮喘患者。最后,该系统能给一个重大贡献,是一个有用的工具在临床实践中医生为了克服许多的治疗难题。

利益冲突

作者报告没有利益冲突。