计算和数学方法在医学

PDF
计算和数学方法在医学/2020/文章

研究文章|开放获取

音量 2020 |文章编号 8308173号 | 11 网页 | https://doi.org/10.1155/2020/8308173

基于迭代逼近马氏毯的混合特征选择方法研究

学术编辑:Andrzej Kloczkowski
收到 2019年11月10
认可的 2020年2月22日
发布时间 2020年4月7日

摘要

中药的基本实验数据一般是通过高效液相色谱和质谱联用获得的。数据往往表现出高维、样本少的特点,数据中存在许多不相关的特征和冗余的特征,给中医药素材信息的深入挖掘带来了挑战。提出了一种基于迭代近似马尔可夫覆盖(CI_-AMB)的混合特征选择方法。该方法首先利用最大信息系数度量特征与目标变量之间的相关性,达到根据评价准则过滤无关特征的目的。迭代逼近马尔可夫覆盖策略分析特征之间的冗余,实现冗余特征的消除,最后选择有效的特征子集。利用中药材料基础实验数据和UCI的多个公开数据集进行对比实验,结果表明,与Lasso、XGBoost和经典的近似马尔可夫包层方法相比,新方法在选择少量高度解释性特征方面具有更好的优势。

1.简介

目前,由于科技水平的迅速发展,信息获取技术和存储容量都得到了很大改善,并且该数据获得携带更多的足够的信息,为此,规模越来越大。在中国传统药材的基础研究领域,高性能液相(水域H级)和质谱(SYNAPT G2-SI)通常用于获取实验数据。这些数据通常涉及数千个物质,其特征在于高维数据和容易引起维灾害。与此同时,由于实验倍的限制,小样本的特性也呈现,这容易导致问题,如过度拟合。常规的统计分析方法,如多元线性回归,主成分回归,和岭回归,选择回归系数以反映变量之间的关系[1个],但是,这不能有效地删除不相关特征和冗余功能,并实现筛选的重要物质,对中国传统医药与高维及少量的基本数据的目的。与此同时,传统的特征选择方法,如套索和-分裂套索[4个,在处理数据时,只能在一定程度上删除不相关的特征和冗余的特征,不能满足高维小样本的数据处理要求。因此,在对该问题的看法,中医高维小样本数据包含更多的无关信息和冗余信息,迫切需要找到一个分析模型,可以从高维小样本数据,选择有效的特征,提高模型的精度和操作为研究人员提供技术支持。

接下来,本文将介绍部分研究相关的工作2个。新的方法在阐述节。节4个上TCM材料的两个基本数据和三个公共UCI数据被用于在新的方法,该方法还与一些现有的算法,以进一步验证的可行性和有效性进行比较来分析。最后,全文总结第5个

特征选择是解决维度灾害,实现特征降维的有效方法。通过分析特征与目标变量、特征之间的内在关系,保留最有利于回归(或分类)的有效特征[5个,6个]从而更好地消除冗余特征和与目标变量无关的特征,降低算法的复杂度,提高算法的精度。根据与机器学习的结合,特征选择方法可以分为过滤、封装、嵌入和集成[7个]。滤波是独立于特定机器学习模型的,其中特征排序和特征空间搜索通常用于获得特征子集包括一些特殊的典型的方法,例如,互信息,对称的不确定性,和最大信息系数10]. 封装是将学习算法集成到特征选择过程中,即将分类算法视为评价特征子集性能的黑盒,从而达到最大分类准确率。嵌入式将特征选择过程作为学习算法的一部分。该方法解决了封装不同数据集时重建成本高的问题。集成方法是先用多种特征选择方法进行学习,然后用一定的规则对每个结果进行集成,分别得到结果。该方法优于单一特征选择方法,适用于解决特征选择方法的不稳定性问题。

特征选择方法引起了国内外众多学者的关注。例如,在生物医学领域,姚等。[11]提出了一种基于超图用于多任务的特征选择和最终选择的有效大脑区域信息的多峰态特征选择方法;Sun等。[12]提出了一种基于Lasso的混合特征选择算法,该算法能够选择分类能力强的信息基因子集;Mingquan等。[13]提出了一种基于对称性不确定性和支持向量机递归特征消除的信息基因选择方法,有效地消除了与类别无关的基因。同时,特征选择方法在其他领域也有很好的应用。长崎[14]采用偏最小二乘回归和优化实验设计,选择与类别相关性强的特征。[15通过联合谱聚类和邻域互信息,其可以除去签名无关的特性]中提出的特征选择算法。

然而,在上述文献中提到的研究方法只能删除不相关的特征或消除冗余特征在一定程度上,并且不能满足数据处理的中国传统医药高维小样本的问题的需求。因此,一些研究人员对此进行了深入的探讨和研究,做功能的相关性和冗余的两级分析和近似的近似马尔科夫毯(AMB)的特征选择过程中实现有效筛选的目的和功能较少[16]。其中,文献[17]提出了使用交叉熵近似马尔可夫毯的方法。该方法首先使用Pearson相关系数,以计算特征之间的相关性,并删除不相关的特征,然后使用近似马尔可夫毯执行冗余特征:缺失;文献[18]提出使用近似马尔可夫毛毯最大相关最小冗余特征选择算法。该方法首先使用为特征的相关性排序的最大相关最小冗余的准则,然后通过互信息与马可结合以除去无关的特征和冗余特征确实近似计算;文献 [19]提出了基于最大信息系数和近似马尔可夫毯(FCBF-MIC),其首先由对称的不确定性测量的特征和类别之间的相关性,以删除不相关的类别或弱相关的特征的特征选择方法。其次,马尔可夫地毯通过使用最大信息系数,从而实现了目的删除冗余特征近似。然而,分析和实验的讨论后,发现的是,上述方法是因为近似马尔可夫毯的定义,这使得不可能在高维小选择少量的高度说明特征的更严格所以还是需要中国医药样本数据,为我们做的中国医药数据库分析方法的进一步研究和探索。

在特征选择研究中,高质量的特征选择方法应该具有以下特征[20.]:(1)可解释性,这意味着在该模型中选择的特征具有科学意义;(2)接受的示范稳定性;在假设检验偏差的(3)避免;一个可管理的范围内,并且(4)模型计算的复杂性。同时,在文献[21],最优特征子集的标准,提出了为四类:不相关的功能,弱相关和冗余特征,弱相关非冗余功能,并强烈相关的特征。它被认为是最佳的特征子集应该包含在本文后面两个。通过大量的实验比较,该标准已被证明具有较低的时间复杂度和更好的特征选择的结果[22,23]。

鉴于此,提出了基于迭代的混合动力车的特征选择方法近似马尔可夫毯(CI_AMB),其被分为两个阶段:在第一阶段时,它首先使用最大信息系数,以测量每维之间的相关性设有和目标变量和实现了不相关的功能的滤波和采集根据一些评价标准候选特征的子集的;在第二阶段,候选特征的子集进行排序,并分为子集,然后迭代地剔除冗余功能,以获得弱相关的非冗余功能和基于信息系数的最大近似马尔可夫地毯强烈相关特征。不仅可以在算法有效过滤无关的功能和消除冗余的功能,同时也降低了模型的时间复杂度,提高了模型的解释度。这是适合中国传统医学的高维小样本数据分析的新模式。

三。基于迭代逼近马尔可夫包层的混合特征选择方法研究

最大信息系数(MIC)是一个新的度量通过瑞舍夫等人提出的信息化。[24]2011年。它不仅更好地反映了特征与目标变量、特征与特征之间的相关性,同时也弥补了互信息等度量无法规范化和离散化敏感,信息增益和对称不确定性等度量无法有效度量特征之间的非函数依赖性的问题。在许多实验分析中,也有效地证明了最大信息系数具有良好的稳定性和度量特征之间关系的能力[2527]。

Markov blanket是一种最小化特征子集以保持目标变量信息最大化的方法,同时使剩下的特征子集在特征子集被选择的条件下独立于目标变量[19,28]. 马尔可夫地毯虽然可以达到特征降维的效果,但由于其独立条件过于严格,所发现的关系属于NP-hard问题,因此特征选择方法往往采用马尔可夫地毯的逼近策略。因此,结合最大信息系数的优点,在本文中,我们使用MIC来近似马尔可夫覆盖(参见定义1个)为了更好地消除冗余特征,从而实现最优特征子集筛选和模型优化。

定义1。(近似的马尔可夫毯)。假设有两种不同的特点,在功能设置,分别为,如果 据认为 ,也就是说, 被保留而 是一个冗余特征并从特征集中移除。

定义2。(弱相关的非冗余功能和强烈相关的功能)。满足,有没有一个大概马尔科夫毯特征的条件只有当 ,特写 是弱相关非冗余特征或强相关特征,即, ,哪里 功能是否齐全 分别是不相关的特征集和冗余功能集,。
ciu-AMB方法主要分为两个阶段。在第一阶段,首先利用MIC方法测量各特征与目标变量之间的相关性,并根据评价准则对较好的无关特征进行滤波,实现候选特征子集的获取。MIC方法选择的特征往往与伴随的冗余特征高度相关,冗余特征的数量越多,不仅增加了模型的时间复杂度和空间复杂度,而且降低了模型的解释程度。因此,在第二阶段,新方法进一步分析了特征的冗余性,即根据MIC方法得到的特征得分,将候选子集的特征按升序排列,并平均划分为部分。然后,近似马尔可夫毯(AMB)用于迭代地消除冗余的功能,从而使弱相关非冗余功能和强烈相关特征可以被选择(算法1个)。该算法构造的流动示于图1个
模型的具体构建过程如下:阶段1。过滤无关的特性步骤1. MIC计算:对原始数据进行MIC计算 特征,即,最大信息系数计算由式(每个特征2个)并且获得一个得分序列 所有的特征,和 值为[0,1]。值得注意的是,特征得分越接近1,特征与目标变量的相关性越强,得分越接近0,相关性越弱: 哪里 的最大互信息 下网格划分[19,29] 是有序对置的样品, 表示划分特征的取值范围 部分, 表示划分因变量的值范围 段, 是啮合的上限。一般来说 , 是样本大小。步骤2。确定所述候选特征子集:MIC计算用于获得得分序列 ,和递减的次序被布置和序列 根据一定的比率截取当前排名靠前的特征子集;如果所选特征子集满足评价指标RMSE的最优值,则候选特征子集 ( 维特征, )可以直接选择,但如果没有,滤波操作和判断的进步继续: 步骤3。数据划分和初始化:候选特征的子集 根据特征分数被布置在相反的顺序,从而得到对齐的候选特征子集 为了在以后的处理排名功能,以确保在回归任务高的重要相关性特征的最大保留,然后细分候选特征集 组,并确定 将候选特征子集划分为初始化最优特征集时对子集进行分组 是空的。阶段2。消除冗余功能步骤4。特征冗余分析:首先从第一个特征子集中去除冗余特征 通过使用AMB方法(即,定义1个),然后将非冗余的特征被过滤到 其次, 和第二个的特征子集 将其合并为当前特征子集,并通过AMB方法对其进行分析,删除冗余特征,然后 目前正在更新。因此,最佳的功能子集T型最好的与剩余的第m“尺寸(" <通过依次迭代到第k特征子集获得 () 为了。步骤5. 模型评估:使用弱相关非冗余和强相关最优特征子集比较和评估各种策略( )在上述步骤中获得。

输入:数据集 , 样本, 特征
//划分的特征子集的数目
输出:最优特征子集 , 样本, 特征
开始
 阶段1:过滤不相关的特征
 = 1 to:/ /麦克风计算
  Standardize ;
计算每个特征的MIC分值 ;
结束
  根据评价指标RMSE,确定滤波后的候选特征子集,并确定       的候选特征子集 维度按升序排列;
  Then, the selected candidate feature subset sequences are divided: ;//被分成股票
;//初始化最优特征子集是空的
阶段2:消除冗余特性
使用AMB方法对第一个特征子集进行冗余分析,并过滤掉非冗余特征进行连接 ;
    For = 2至:/ /迭代AMB
;//添加当前最优特征子集 到下一个分区子集
;//使用AMB方法更新最优特性列表,最后
结束
  建立回归模型,验证和评价模型的有效性和可靠性;
结束

4.实验设计

4.1。实验数据说明

本文中使用的五个实验数据集包括中药物质基础实验数据(WYHXB和NYWZ)的现代中药制剂教育部,居住建筑数据集(RBuild),社区和犯罪在UCI数据集(CCrime)和BlogFeedback(简称BlogData),和每个数据集描述的基本信息表1个。其中,有798层的功能,1个因变量,和54个样品中WYHXB数据,和10283层的功能,1个因变量,和54个样品中NYWZ数据;BlogData是描述博客文章,它包括280层的功能,1个因变量,和60021米的样品的数据;RBuild是描述住宅楼,其中包括103层的功能,1个因变量,和372米的样品的数据;CCrime是描述社区犯罪,其中包括127层的功能,1个因变量,和1994年的样品的数据。值得注意的是,从UCI机器学习库中获得的UCI数据通常有更多的缺失值;因此,用于数据在实验过程中的处理的平均填充方法。在本文中,使用UCI数据集的BlogData,RBuild和CCrime是比较对公共数据集的新模式的回归效果来验证我们的实验中,新模型的可靠性和概括。


数据集 样品数量 属性数

WYHXB 54 799个(7个9个八 + 1)
纽约市 54 1028年4个(1个0个2个八三 + 1)
BlogData 60021号 281个(2个八0个 + 1)
RBuild 372 104 (103 + 1)
CCrime 1994年 128(1个2个7个 + 1)

既WYHXB和NYWZ是心源性休克的治疗参附注射液的基本实验数据。实验者使用的左心脏尖端附近冠状动脉前降支复制中期心源性休克大鼠模型并给参附注射液(单位:ml·千克-1个)将休克大鼠按参附注射液的剂量分为7组(分别为0.1、0.33、1.0、3.3、10、15、20),每组6只,同时设模型组和空白组。给药60分钟后,收集红细胞流量(m/s)的药效学指标。参附注射液中的物质信息称为外源性物质(即WYHXB数据,如表所示2个),而实验个体自身的物质信息则称为内源性物质(即内源性物质)。, NYWZ数据,如表所示)。在两个数据,该材料信息是特征,和红血细胞流量是因变量。


0.34_237.0119 /z轴 0.35 _735.1196/z轴 0.36 _588.0942/z轴 0.36_590.0903 /z轴 红细胞流速(μ·米/秒)

0.48808 302.16 0个 27.8589元 750个
100.078个 62.016 0个 3.80712 1400
11.6992 52.5058 7.61005号 4.85059 785个
143.643 284.113个 0个 456.607个 790个
7.75089条 54.4535 0个 0个 670
18.2499 0个 0个 14.6621 680
28.5783 0个 0个 2.3551 850个
2.91064个 0个 16.1624 3.41406 620个


11.10平方米787.5077平方米/z轴 12.29_526.1784 /z轴 2005年12月29日/z轴 12.47 _631.3847/z轴 红细胞流速(μ·米/秒)

53.3719个 11557.6 764.329个 1795.79 2200
43.4717 7971.33个 875.465个 1842.39 2750
76.507个 3399.9个 870.161号 1562.81 1980年
153.145 51027.4 916.064 1619.62年 1860
16.3197 10694.4 942.699 1612.42 2100年
42.2836个 11048.1 714.536 1649.23 2000
55.5021个 4702.83 748.844个 1632.9年 2481
153.21 78912.8 835.24 1647.55年 2970

4.2。结果与讨论

本实验使用的编程工具为Python 3.6,操作系统为Windows 10,内存为8gb,CPU为Intel(R)Core(TM)i5-3230M。

4.2.1条。无关特征过滤

为了确保新的模型中,RMSE的GBDT [两个回归模型的可靠性(根均方误差)30.]和XGBoost [31]被采纳为综合评价指标,即,在两个回归模型RMSE的平均值作为评价指标,并通过一定的比率,过滤然后原始数据集的特征 逐渐地(如果特征数有一个十进制数,则在实验中将结果四舍五入),这样就可以确定相应的RMSE值是什么时候的最佳比值 取。而且它是比较合适的了解有多少不相关特征被删除,以达到有效过滤不相关特征的目的,实验结果如表所示4个


WYHXB 纽约市 BlogData RBuild CCrime
的功能数 Ave-RMSE 的功能数 Ave-RMSE 的功能数 Ave-RMSE 的功能数 Ave-RMSE 的功能数 Ave-RMSE

0.95分 758个 234.960328 9768 233.324863 266个 12.645784 97 354.101779 120 0.131535个
0.9 718 235.019819 9254 233.324863 252个 12.645784 92 354.090179 114 0.131695
0.85分 678 234.800187 8740 233.324863 238个 12.645784 87 354.134252 107 0.131858
0.8 638 235.133101 8226 233.324863 224 12.645784 82 354.146541 101 0.131792个
0.75分 598 235.104648 7712个 233.388367 210 12.645784 77 353.914801号 95 0.131897
0.7 558个 235.132128个 7198 233.388367 196 12.645784 72 353.914801号 88 0.131853
0.65分 518个 235.191663 6683个 233.385479 182 12.645784 66 353.923275个 82 0.131902
0.6 478个 235.202756年 6169个 233.394604 168 12.645784 61 354.042364号 76 0.132113
0.55 438 235.263138 5655 233.394604 154 12.645784 56 354.050328 69 0.132164
0.5 399 235.962421 5141 233.357302 140 12.645784 51 354.053246号 63 0.132310
0.45 359 235.941428 4627 233.355757号 126 12.649723号 46 354.770411 57 0.132497
0.4 319个 236.399412号 4113 233.354086 112 12.651157 41 354.849084 50 0.132620个
0.35 279个 236.574098 3599个 233.354248 98 12.657242 36 355.659524 44 0.133428
0.3 239个 376.546789元 3084 233.358374 84 12.664293 30. 355.714190号 38 0.133759
0.25 199 406.768586 2570个 233.399275 70 12.671595 25 355.700106 31 0.134865
0.2 159 445.621765 2056年 233.437486号 56 12.676944 20. 355.714027 25 0.136386
0.15 119 545.521345 1542 233.539485 42 12.677181号 15 355.722452 19 0.137433
0.1 79 553.326100 1028年 233.550540 28 12.677343 10 355.785519 12 0.139937个

根据上表的实验结果4个, 什么时候 在WYHXB数据,相应的平均RMSE平均值是最好的,并且被过滤120个不相关特征(原始特征798);什么时候 在NYWZ数据,相应的平均RMSE是最好的,和2057个不相关特征进行滤波(10283原始特征);什么时候 在BlogData数据,相应的RMSE是最好的,和140个不相关的特征进行滤波(280个原始特征);什么时候 在RBuild数据中,其相应的RMSE平均值是最好的,并且过滤了31个不相关的特征(103个原始特征);当CCrime数据采用 ,其相应的RMSE平均值是最好的,和7个不相关特征(127个原始特征)进行过滤。其结果是,通过上述方法MIC过滤不相关特征后,可以得到的五组试验数据的一个候选特征的子集。通过进一步分析所述候选特征子集,则可以发现,原始数据的RMSE具有与候选特征的子集的RMSE差别不大(实验结果示于表5个);因此,本实验中删除的特征对模型的准确性影响不大,最终过滤掉不相关的特征,更好地保留了与目标变量相关的特征。


原始数据 候选特征的子集
的功能数 RMSE 的功能数 RMSE

WYHXB 798个 234.967849 678 234.800187
纽约市 10283 234.052699号 8226 233.324863
BlogData 280个 12.645784 140 12.645784
RBuild 103 352.473674 72 353.914801号
CCrime 128 0.131377 120 0.131535个

4.2.2条。消除冗余特征

通过以上的实验中,不相关的特征的过滤可以通过获得候选特征子集来实现。然而,根据新模式的建设,有必要在实验过程中均分候选特征的子集(升序),但不同的分区策略会影响最终的实验结果,那么进一步的讨论和分析的参数是否需要(的值范围被设定为1〜15),以确定最佳值,以确保该模型的结果的可靠性。与此同时,为了避免实验的偶然性尽可能,实验仍采用GBDT和XGBoost的RMSE为一体的综合评价指标(即,它们的平均RMSE)。后的实验分析(在图中所示的结果2个6个),可以发现当 = 5的WYHXB数据,其对应的RMSE值最好;当 = 6 of NYWZ data, its corresponding RMSE value is the best; when the = 5的BlogData数据,对应的RMSE值最好;当 = 3的RBuild数据中,对应的RMSE值最好;当 = 14 in the CCrime data, the corresponding RMSE value is the best. After the division of the candidate feature subsets, the redundancy of the features can be analyzed in the later experiments, so as to select the optimal feature subsets.

为了进一步分析模型,每个数据集被随机分成一个训练集和一个比率为6 : 4和XGBoost的测试集[31],套索[32],FCBF-MIC[19]采用改进算法(CI_-AMB)进行训练和学习,测试集进行回归实验(模型参数选择与上述实验结果一致),以RSME作为模型指标。同时,为了保证模型结果的可靠性,对每个试验数据进行了10次试验,取平均值作为最终的试验结果。为了验证实验过程中特征选择的效果和有效性,利用GBDT和XGBoost回归模型对原始数据进行了比较。实验结果如表所示6个7个:


原始数据 CI_AMB XGBoost 套索 FCBF-麦克风
的功能数 RMSE 的功能数 RMSE 的功能数 RMSE 的功能数 RMSE 的功能数 RMSE

WYHXB 798个 267.5115 80 (19 + 61) 232.7352 83 269.1644 89 255.9661 15 265.0474
纽约市 10283 258.4021 220 (59 + 161) 234.8831 212 263.3908 215 256.2172个 60 265.2352号
BlogData 280个 22.7247 4个八(5个 + 43) 7.4822 43 14.5660 47 18.7933个 9个 24.2629
RBuild 103 458.0302 35(16 + 19) 417.1441个 23 458.2780个 26 466.8546个 461.7130
CCrime 127 0.1067 37(3 + 34) 0.1091 37 0.1176 31 0.1121 5个 0.1231
平均值 201.3550元 178.4708 201.1034 199.5887号 203.2763


原始数据 CI_AMB XGBoost 套索 FCBF-麦克风
的功能数 RMSE 的功能数 RMSE 的功能数 RMSE 的功能数 RMSE 的功能数 RMSE

WYHXB 798个 227.9061号 80 (19 + 61) 205.0669 83 221.8774 89 214.0560 15 229.7367
纽约市 10283 219.7160 220 (59 + 161) 201.5748 212 220.3312个 215 225.1712 60 225.1525
BlogData 280个 8.6356 4个八(5个 + 43) 4.1587 43 10.0949号 47 10.2909年 9个 10.8045
RBuild 103 264.5195 35(16 + 19) 255.1114 23 269.8928 26 261.3095个 278.6242
CCrime 127 0.1447个 37(3 + 34) 0.1443个 37 0.1487 31 0.1483 5个 0.1492
平均值 144.1844 133.2112 144.4690个 142.1952年 148.8934

从实验结果可以看到在上面的表CI_AMB的特征选择方法是在测试集上执行的五套原始数据,和实验结果如下:WYHXB数据的原始特征的数量是798,删除冗余特性之后,最终选择的最优特征子集数是80,包括61年19强烈相关特性和弱相关nonredundant特性。NYWZ数据的原始特征数为10283。剔除冗余特征后,最终可筛选到的最优特征子集数量为220个,其中强相关特征59个,弱相关非冗余特征161个;BlogData数据的原始个数为280,剔除冗余特征后,最终可筛选出的最优特征子集数为48个,包括5个强相关特征和43个弱相关非冗余特征。在去除冗余特征后,RBuild数据的原始特征数为103。最后,可以筛选出的最优特征子集数量为35个,其中包括16个强相关特征和19个弱相关非冗余特征;CCrime数据的原始特征个数为127,经过冗余处理后,最终次优特征集个数可选择为37,其中包括3个强相关特征和34个弱相关非冗余特征。值得注意的是,在过滤无关的特性和消除冗余特征,获得的强相关特性和弱相关nonredundant特性是根据相关性的程度区分特性和目标变量,也就是说,如果麦克风得分大于0.6,这是一个功能有着密切的联系,如果没有,这是一个弱相关nonredundant特性。

经过CI_-AMB特征选择后,发现(1)与原始数据(在没有特征选择的情况下)相比,新方法在原始数据(以GBDT的RMSE作为评价指标,表)中有稍差的结果(比原始数据误差大0.0024)6个),但在其它的数据集,其结果是比原来的数据更好(见表6个7个);(2)与XGBoost、Lasso、FCBF-MIC相比,虽然特征数相似,但CI_AMB方法评价模型的RMSE值优于其他方法。同时,为了更直观地观察和比较实验结果,绘制了两种评价指标(GBDT和XGBoost)的趋势图(图2)7个),以反映人民币汇率的整体波动。结合上表和图的实验结果7个结果表明,改进后的算法总体上优于其他算法,说明新模型能有效地消除无关特征和冗余特征的影响。总之,改进后的算法不仅能较好地滤除强相关特征和弱相关非冗余特征,而且在一定程度上提高了模型的回归精度。

5.结论

摘要针对中医基础实验数据维数高、样本少、无关信息和冗余信息多的问题,提出了一种基于迭代近似马尔科夫包层的混合特征选择方法。该方法分别利用最大信息系数和迭代近似马尔科夫包层进行两阶段特征分析,对不相关特征进行过滤,对冗余特征进行剔除,从而达到筛选最优特征子集的目的。通过中医基础数据与UCI数据集的实验比较,证明改进算法显著降低了模型的特征维数,提高了模型的解释程度。是一种适合于中药高次小样本数据分析的方法。在接下来的研究工作中,我们将继续对算法进行优化,确保在建立模型时可以进一步研究相关参数的合理设置。

数据可用性

在这项研究中使用了中国传统医药数据库可以由第一作者联系索取。在UCI数据可以通过UCI机器学习库(获得http://archive.ics.uci.edu/ml/datasets.html)。应当指出的是,UCI数据集常用由加州大学欧文分校的建议标准测试数据集,机器学习。

的利益冲突

作者声明本论文的发表不存在利益冲突。

致谢

这项研究是由中国国家自然科学基金(编号61762051和61562045)和江西省重大项目基金(20171ACE50021,20171BBG70108和YC2018-S281)的资助。

参考文献

  1. K、 H.Hellton和N.L.Hjort,“冰箱:针对个性化预测的岭回归集中微调”医学统计卷。37,没有。8,第1390至03年,2018。查看在:出版商的网站|谷歌学术
  2. N.杨,“岭回归分析在解决多重共线性问题的独特作用,”统计与决策,第7卷,第3期,第14-15页,2004年。查看在:谷歌学术
  3. J.刘P.高,J.元,十都,“监控基于RMT和PCA大规模的交通格局的有效方法,”概率统计杂志卷。2010年,没有。6,文章编号375942,16页,2010。查看在:出版商的网站|谷歌学术
  4. J.张,X.胡,和Y.章,“K-分裂套索:用于肿瘤的基因表达数据的有效的特征选择方法[J],”计算机科学与技术前沿杂志,第6卷,第12期,第1136-114320012页。查看在:谷歌学术
  5. B.安德烈,JRahnenführer和L.米歇尔,“一个多目标的方法来找到与高维数据的稳定特征选择的预测和稀疏模式,以”计算和数学方法在医学, 2017年第1期,no。1、文章ID 7907163, 18页,2017。查看在:出版商的网站|谷歌学术
  6. H.轩,“研究和特征降维的发展,”计算机科学,第45卷,no。S1, pp. 16-21 +53, 2018。查看在:谷歌学术
  7. 十王和X胡“概述在高维和小样本大小的分类特征选择,”计算机应用杂志,第37卷,第9期,第2433-2438页,2017年。查看在:谷歌学术
  8. H.周和J.巧“的基础上的高维k-最近邻互信息特征选择方法,”CAAI智能系统交易,第12卷,第5期,第595-600页,2017年。查看在:谷歌学术
  9. G. Sosa-Cabrera, M. Garcia-Torres, S. Gomez等,“理解多元对称不确定性有助于特征选择”,2017,http://arxiv.org/abs/1709.08730查看在:谷歌学术
  10. L.牛,X.赵,和Y轼“特征选择带有属性的最大信息系数聚类,”Procedia计算机科学,第17卷,no。2,第70-79页,2013。查看在:出版商的网站|谷歌学术
  11. “基于超图的多模态特征选择及其应用”,计算机科学与技术前沿期刊卷。12,没有。1,第112-119,2018。查看在:谷歌学术
  12. G. Sun和J.张,“高维微阵列数据的混合特征选择算法”[中国计算机系统卷。36,没有。6,第1209至13年,2015年。查看在:谷歌学术
  13. Q、 Ye,Y.Gao,R.Wu等人,“基于对称不确定性和SVM递归特征消除的信息基因选择方法”模式识别与人工智能,第30卷,第5期,第47-56页,2017年。查看在:谷歌学术
  14. “使用偏最小二乘回归和最优实验设计的特征选择”神经网络2015年国际联合学术会议论文集(IJCNN),第17-19页,IEEE,基拉尼,爱尔兰,2015年7月。查看在:出版商的网站|谷歌学术
  15. M、 “基于联合谱聚类和邻域互信息的特征选择算法,”模式识别与人工智能,第30卷,no。12、1121-1129页,2017。查看在:谷歌学术
  16. 韩和刘,“基于近似马尔可夫毯的前向特征选择”,中神经网络进展国际会议,第64-72页,斯普林格·维拉格,柏林,德国,2012年。查看在:出版商的网站|谷歌学术
  17. D.科勒和M. Sahami,“走向最佳特征选择,”在第十三届机器学习国际会议论文集1996年7月,意大利巴里,第284-292页。查看在:谷歌学术
  18. 李大章,王C.和W郭沫若“使用近似的马尔可夫毯最大相关性最小冗余特征选择算法”西安交通大学卷。52,没有。10,第147-151,2018。查看在:谷歌学术
  19. G.-L.太阳,Z.-C.宋,J.-L。Liu等人,“基于最大信息系数和近似马尔可夫毛毯的特征选择方法,”自动化学报,第43卷,第5期,第795-805页,2017年。查看在:谷歌学术
  20. 万峰,薛刚,“基于特征选择算法的K-part Lasso的高维数据提取”计算机工程与应用卷。48,没有。1,第157-161,2012。查看在:谷歌学术
  21. 余丽华,“关联与冗余分析在特征选择中的应用”,杂志的机器学习研究的,第5卷,第12期,第1205-12242004页。查看在:谷歌学术
  22. 问:宋,J. Ni和G.王,“高维数据的快速基于聚类的特征子集选择算法”IEEE交易对知识与数据工程,第25卷,第1期,第1-14页,2013年。查看在:谷歌学术
  23. R、 Ruiz,J.C.Riquelme和J.S.Aguilar Ruiz,“从微阵列数据中为癌症分类进行基于包装的基因选择的增量”模式识别卷。39,没有。12,页。2383年至2392年,2006年。查看在:出版商的网站|谷歌学术
  24. D、 N.Reshef,Y.A.Reshef,H.K.Finucane等人,“检测大数据集中的新关联,”科学卷。334,没有。6062,第1518至1524年,2011。查看在:出版商的网站|谷歌学术
  25. R、 S.De Souza,U.Maio,V.Biffi和B.Ciardi,“早期微晕中重子的稳健主成分分析和最小公因子统计”皇家天文学会月刊卷。440,没有。1,第240-248,2014。查看在:出版商的网站|谷歌学术
  26. Q. Q. Zeng, A. Zeng, D. Pan等人,“基于最大信息系数的贝叶斯网络结构学习算法”计算机工程,第43卷,第8期,第225-230页,2017年。查看在:谷歌学术
  27. A. manio - varnosfaderani和M. Ghaemmaghami,“使用最大信息系数定义的标准评估二维分离系统的正交性,”色谱A的卷。1415,没有。10,第108-114,2015。查看在:出版商的网站|谷歌学术
  28. F、 顺凯,S.智珍,S.明等,“利用拓扑信息加速马尔可夫毯的恢复”计算机科学卷。42,没有。Z11,第42-48,2015年。查看在:谷歌学术
  29. A.曾和Q.-m.郑,“深信念网络研究基于最大信息系数”计算机科学卷。43,没有。8,第249-253,2016。查看在:谷歌学术
  30. Z.昌,Y.华,D.亦皆等人,“用于使用梯度升压决策树预测的蛋白质相互作用的氨基酸序列的多尺度编码,”《公共科学图书馆•综合》卷。12,没有。8,文章ID e0181426,2017。查看在:出版商的网站|谷歌学术
  31. T. Chen, H. Tong, and M. Benesty, < Xgboost: extreme gradient boost >, 2016。查看在:谷歌学术
  32. 黄,马,张,“稀疏高维回归的自适应LASSO”,Statistica中央研究院卷。18,没有。4,第1603年至1618年,2006年。查看在:谷歌学术

版权所有©2020黄灿毅等人这是一篇开放获取的文章知识共享署名许可,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。


更多相关文章

76 查看 | 70 下载 | 0个 引用
PDF 下载引用 引文
下载其他格式更多的
为了打印副本订购

相关文章

我们致力于尽快、安全地分享与COVID-19相关的发现。任何提交COVID-19论文的作者应在help@hindawi.com网址以确保他们的研究是快速跟踪和尽快预印本服务器上公布。我们将针对与COVID-19接受的文章中提供的出版费用减免无限。在此注册作为一个评论家,以帮助快速跟踪新的意见书。