基于迭代逼近马氏毯的混合特征选择方法研究

摘要

中药的基本实验数据一般是通过高效液相色谱和质谱联用获得的。数据往往表现出高维、样本少的特点，数据中存在许多不相关的特征和冗余的特征，给中医药素材信息的深入挖掘带来了挑战。提出了一种基于迭代近似马尔可夫覆盖（CI_-AMB）的混合特征选择方法。该方法首先利用最大信息系数度量特征与目标变量之间的相关性，达到根据评价准则过滤无关特征的目的。迭代逼近马尔可夫覆盖策略分析特征之间的冗余，实现冗余特征的消除，最后选择有效的特征子集。利用中药材料基础实验数据和UCI的多个公开数据集进行对比实验，结果表明，与Lasso、XGBoost和经典的近似马尔可夫包层方法相比，新方法在选择少量高度解释性特征方面具有更好的优势。

1.简介

目前，由于科技水平的迅速发展，信息获取技术和存储容量都得到了很大改善，并且该数据获得携带更多的足够的信息，为此，规模越来越大。在中国传统药材的基础研究领域，高性能液相（水域H级）和质谱（SYNAPT G2-SI）通常用于获取实验数据。这些数据通常涉及数千个物质，其特征在于高维数据和容易引起维灾害。与此同时，由于实验倍的限制，小样本的特性也呈现，这容易导致问题，如过度拟合。常规的统计分析方法，如多元线性回归，主成分回归，和岭回归，选择回归系数以反映变量之间的关系[1个–三]，但是，这不能有效地删除不相关特征和冗余功能，并实现筛选的重要物质，对中国传统医药与高维及少量的基本数据的目的。与此同时，传统的特征选择方法，如套索和千-分裂套索[4个，在处理数据时，只能在一定程度上删除不相关的特征和冗余的特征，不能满足高维小样本的数据处理要求。因此,在对该问题的看法,中医高维小样本数据包含更多的无关信息和冗余信息,迫切需要找到一个分析模型,可以从高维小样本数据,选择有效的特征,提高模型的精度和操作为研究人员提供技术支持。

接下来，本文将介绍部分研究相关的工作2个。新的方法在阐述节三。节4个上TCM材料的两个基本数据和三个公共UCI数据被用于在新的方法，该方法还与一些现有的算法，以进一步验证的可行性和有效性进行比较来分析。最后，全文总结第5个。

特征选择是解决维度灾害，实现特征降维的有效方法。通过分析特征与目标变量、特征之间的内在关系，保留最有利于回归(或分类)的有效特征[5个,6个]从而更好地消除冗余特征和与目标变量无关的特征，降低算法的复杂度，提高算法的精度。根据与机器学习的结合，特征选择方法可以分为过滤、封装、嵌入和集成[7个]。滤波是独立于特定机器学习模型的，其中特征排序和特征空间搜索通常用于获得特征子集包括一些特殊的典型的方法，例如，互信息，对称的不确定性，和最大信息系数八–10]. 封装是将学习算法集成到特征选择过程中，即将分类算法视为评价特征子集性能的黑盒，从而达到最大分类准确率。嵌入式将特征选择过程作为学习算法的一部分。该方法解决了封装不同数据集时重建成本高的问题。集成方法是先用多种特征选择方法进行学习，然后用一定的规则对每个结果进行集成，分别得到结果。该方法优于单一特征选择方法，适用于解决特征选择方法的不稳定性问题。

特征选择方法引起了国内外众多学者的关注。例如，在生物医学领域，姚等。[11]提出了一种基于超图用于多任务的特征选择和最终选择的有效大脑区域信息的多峰态特征选择方法;Sun等。[12]提出了一种基于Lasso的混合特征选择算法，该算法能够选择分类能力强的信息基因子集；Mingquan等。[13]提出了一种基于对称性不确定性和支持向量机递归特征消除的信息基因选择方法，有效地消除了与类别无关的基因。同时，特征选择方法在其他领域也有很好的应用。长崎[14]采用偏最小二乘回归和优化实验设计，选择与类别相关性强的特征。[15通过联合谱聚类和邻域互信息，其可以除去签名无关的特性]中提出的特征选择算法。

然而，在上述文献中提到的研究方法只能删除不相关的特征或消除冗余特征在一定程度上，并且不能满足数据处理的中国传统医药高维小样本的问题的需求。因此，一些研究人员对此进行了深入的探讨和研究，做功能的相关性和冗余的两级分析和近似的近似马尔科夫毯（AMB）的特征选择过程中实现有效筛选的目的和功能较少[16]。其中，文献[17]提出了使用交叉熵近似马尔可夫毯的方法。该方法首先使用Pearson相关系数，以计算特征之间的相关性，并删除不相关的特征，然后使用近似马尔可夫毯执行冗余特征：缺失;文献[18]提出使用近似马尔可夫毛毯最大相关最小冗余特征选择算法。该方法首先使用为特征的相关性排序的最大相关最小冗余的准则，然后通过互信息与马可结合以除去无关的特征和冗余特征确实近似计算;文献 [19]提出了基于最大信息系数和近似马尔可夫毯（FCBF-MIC），其首先由对称的不确定性测量的特征和类别之间的相关性，以删除不相关的类别或弱相关的特征的特征选择方法。其次，马尔可夫地毯通过使用最大信息系数，从而实现了目的删除冗余特征近似。然而，分析和实验的讨论后，发现的是，上述方法是因为近似马尔可夫毯的定义，这使得不可能在高维小选择少量的高度说明特征的更严格所以还是需要中国医药样本数据，为我们做的中国医药数据库分析方法的进一步研究和探索。

在特征选择研究中，高质量的特征选择方法应该具有以下特征[20.]：（1）可解释性，这意味着在该模型中选择的特征具有科学意义;（2）接受的示范稳定性;在假设检验偏差的（3）避免;一个可管理的范围内，并且（4）模型计算的复杂性。同时，在文献[21]，最优特征子集的标准，提出了为四类：不相关的功能，弱相关和冗余特征，弱相关非冗余功能，并强烈相关的特征。它被认为是最佳的特征子集应该包含在本文后面两个。通过大量的实验比较，该标准已被证明具有较低的时间复杂度和更好的特征选择的结果[22,23]。

鉴于此，提出了基于迭代的混合动力车的特征选择方法近似马尔可夫毯（CI_AMB），其被分为两个阶段：在第一阶段时，它首先使用最大信息系数，以测量每维之间的相关性设有和目标变量和实现了不相关的功能的滤波和采集根据一些评价标准候选特征的子集的;在第二阶段，候选特征的子集进行排序，并分为千子集，然后迭代地剔除冗余功能，以获得弱相关的非冗余功能和基于信息系数的最大近似马尔可夫地毯强烈相关特征。不仅可以在算法有效过滤无关的功能和消除冗余的功能，同时也降低了模型的时间复杂度，提高了模型的解释度。这是适合中国传统医学的高维小样本数据分析的新模式。

三。基于迭代逼近马尔可夫包层的混合特征选择方法研究

最大信息系数（MIC）是一个新的度量通过瑞舍夫等人提出的信息化。[24]2011年。它不仅更好地反映了特征与目标变量、特征与特征之间的相关性，同时也弥补了互信息等度量无法规范化和离散化敏感，信息增益和对称不确定性等度量无法有效度量特征之间的非函数依赖性的问题。在许多实验分析中，也有效地证明了最大信息系数具有良好的稳定性和度量特征之间关系的能力[25–27]。

Markov blanket是一种最小化特征子集以保持目标变量信息最大化的方法，同时使剩下的特征子集在特征子集被选择的条件下独立于目标变量[19,28]. 马尔可夫地毯虽然可以达到特征降维的效果，但由于其独立条件过于严格，所发现的关系属于NP-hard问题，因此特征选择方法往往采用马尔可夫地毯的逼近策略。因此，结合最大信息系数的优点，在本文中，我们使用MIC来近似马尔可夫覆盖（参见定义1个)为了更好地消除冗余特征，从而实现最优特征子集筛选和模型优化。

定义1。（近似的马尔可夫毯）。假设有两种不同的特点，在功能设置，分别为，如果据认为是 ,也就是说，被保留而是一个冗余特征并从特征集中移除。

定义2。（弱相关的非冗余功能和强烈相关的功能）。满足，有没有一个大概马尔科夫毯特征的条件只有当 ,特写是弱相关非冗余特征或强相关特征，即， ,哪里功能是否齐全和分别是不相关的特征集和冗余功能集，。
ciu-AMB方法主要分为两个阶段。在第一阶段，首先利用MIC方法测量各特征与目标变量之间的相关性，并根据评价准则对较好的无关特征进行滤波，实现候选特征子集的获取。MIC方法选择的特征往往与伴随的冗余特征高度相关，冗余特征的数量越多，不仅增加了模型的时间复杂度和空间复杂度，而且降低了模型的解释程度。因此，在第二阶段，新方法进一步分析了特征的冗余性，即根据MIC方法得到的特征得分，将候选子集的特征按升序排列，并平均划分为千部分。然后，近似马尔可夫毯（AMB）用于迭代地消除冗余的功能，从而使弱相关非冗余功能和强烈相关特征可以被选择（算法1个）。该算法构造的流动示于图1个。
模型的具体构建过程如下：阶段1。过滤无关的特性步骤1. MIC计算：对原始数据进行MIC计算特征，即，最大信息系数计算由式（每个特征2个）并且获得一个得分序列所有的特征，和值为[0，1]。值得注意的是，特征得分越接近1，特征与目标变量的相关性越强，得分越接近0，相关性越弱：哪里的最大互信息下网格划分[19,29]是有序对置的样品，表示划分特征的取值范围成部分，表示划分因变量的值范围成段,是啮合的上限。一般来说是 ,和是样本大小。步骤2。确定所述候选特征子集：MIC计算用于获得得分序列 ,和递减的次序被布置和序列根据一定的比率截取当前排名靠前的特征子集；如果所选特征子集满足评价指标RMSE的最优值，则候选特征子集(维特征， )可以直接选择，但如果没有，滤波操作和判断的进步继续： 步骤3。数据划分和初始化：候选特征的子集根据特征分数被布置在相反的顺序，从而得到对齐的候选特征子集为了在以后的处理排名功能，以确保在回归任务高的重要相关性特征的最大保留，然后细分候选特征集成千组，并确定是将候选特征子集划分为千初始化最优特征集时对子集进行分组是空的。阶段2。消除冗余功能步骤4。特征冗余分析:首先从第一个特征子集中去除冗余特征通过使用AMB方法（即，定义1个），然后将非冗余的特征被过滤到。其次，和第二个的特征子集将其合并为当前特征子集，并通过AMB方法对其进行分析，删除冗余特征，然后目前正在更新。因此，最佳的功能子集T型_最好的与剩余的第m“尺寸（米" <米通过依次迭代到第k特征子集获得(千）为了。步骤5. 模型评估：使用弱相关非冗余和强相关最优特征子集比较和评估各种策略( )在上述步骤中获得。

输入:数据集 , 样本，特征
千//划分的特征子集的数目
输出：最优特征子集 , 样本，特征
开始
阶段1：过滤不相关的特征
为我 = 1 to米:/ /麦克风计算
Standardize和 ;
计算每个特征的MIC分值 ;
结束
根据评价指标RMSE，确定滤波后的候选特征子集，并确定的候选特征子集维度按升序排列；
Then, the selected candidate feature subset sequences are divided: ;//被分成千股票
;//初始化最优特征子集是空的
阶段2:消除冗余特性
使用AMB方法对第一个特征子集进行冗余分析，并过滤掉非冗余特征进行连接 ;
For我 = 2至千:/ /迭代AMB
;//添加当前最优特征子集到下一个分区子集
;//使用AMB方法更新最优特性列表，最后
结束
建立回归模型，验证和评价模型的有效性和可靠性；
结束

4.实验设计

4.1。实验数据说明

本文中使用的五个实验数据集包括中药物质基础实验数据(WYHXB和NYWZ)的现代中药制剂教育部,居住建筑数据集(RBuild),社区和犯罪在UCI数据集(CCrime)和BlogFeedback(简称BlogData),和每个数据集描述的基本信息表1个。其中，有798层的功能，1个因变量，和54个样品中WYHXB数据，和10283层的功能，1个因变量，和54个样品中NYWZ数据;BlogData是描述博客文章，它包括280层的功能，1个因变量，和60021米的样品的数据;RBuild是描述住宅楼，其中包括103层的功能，1个因变量，和372米的样品的数据;CCrime是描述社区犯罪，其中包括127层的功能，1个因变量，和1994年的样品的数据。值得注意的是，从UCI机器学习库中获得的UCI数据通常有更多的缺失值;因此，用于数据在实验过程中的处理的平均填充方法。在本文中，使用UCI数据集的BlogData，RBuild和CCrime是比较对公共数据集的新模式的回归效果来验证我们的实验中，新模型的可靠性和概括。


数据集	样品数量	属性数

WYHXB	54	799个(7个9个八 + 1)
纽约市	54	1028年4个(1个0个2个八三 + 1)
BlogData	60021号	281个(2个八0个 + 1)
RBuild	372	104 (103 + 1)
CCrime	1994年	128(1个2个7个 + 1)

既WYHXB和NYWZ是心源性休克的治疗参附注射液的基本实验数据。实验者使用的左心脏尖端附近冠状动脉前降支复制中期心源性休克大鼠模型并给参附注射液（单位：ml·千克^-1个)将休克大鼠按参附注射液的剂量分为7组（分别为0.1、0.33、1.0、3.3、10、15、20），每组6只，同时设模型组和空白组。给药60分钟后，收集红细胞流量（m/s）的药效学指标。参附注射液中的物质信息称为外源性物质（即WYHXB数据，如表所示2个)，而实验个体自身的物质信息则称为内源性物质(即内源性物质)。， NYWZ数据，如表所示三）。在两个数据，该材料信息是特征，和红血细胞流量是因变量。


0.34_237.0119 米/z轴	0.35 _735.1196米/z轴	0.36 _588.0942米/z轴	…	0.36_590.0903 米/z轴	红细胞流速(μ·米/秒）

0.48808	302.16	0个	…	27.8589元	750个
100.078个	62.016	0个	…	3.80712	1400
11.6992	52.5058	7.61005号	…	4.85059	785个
143.643	284.113个	0个	…	456.607个	790个
7.75089条	54.4535	0个	…	0个	670
18.2499	0个	0个	…	14.6621	680
…	…	…	…	…	…
28.5783	0个	0个	…	2.3551	850个
2.91064个	0个	16.1624	…	3.41406	620个
…	…	…	…	…	…


11.10平方米787.5077平方米米/z轴	12.29_526.1784 米/z轴	2005年12月29日米/z轴	…	12.47 _631.3847米/z轴	红细胞流速(μ·米/秒）

53.3719个	11557.6	764.329个	…	1795.79	2200
43.4717	7971.33个	875.465个	…	1842.39	2750
76.507个	3399.9个	870.161号	…	1562.81	1980年
153.145	51027.4	916.064	…	1619.62年	1860
16.3197	10694.4	942.699	…	1612.42	2100年
42.2836个	11048.1	714.536	…	1649.23	2000
…	…	…	…	…	…
55.5021个	4702.83	748.844个	…	1632.9年	2481
153.21	78912.8	835.24	…	1647.55年	2970
…	…	…	…	…	…

4.2。结果与讨论

本实验使用的编程工具为Python 3.6，操作系统为Windows 10，内存为8gb，CPU为Intel（R）Core（TM）i5-3230M。

4.2.1条。无关特征过滤

为了确保新的模型中，RMSE的GBDT [两个回归模型的可靠性（根均方误差）30.]和XGBoost [31]被采纳为综合评价指标，即，在两个回归模型RMSE的平均值作为评价指标，并通过一定的比率，过滤然后原始数据集的特征逐渐地（如果特征数有一个十进制数，则在实验中将结果四舍五入），这样就可以确定相应的RMSE值是什么时候的最佳比值取。而且它是比较合适的了解有多少不相关特征被删除，以达到有效过滤不相关特征的目的，实验结果如表所示4个。


	WYHXB		纽约市		BlogData		RBuild		CCrime
	的功能数	Ave-RMSE	的功能数	Ave-RMSE	的功能数	Ave-RMSE	的功能数	Ave-RMSE	的功能数	Ave-RMSE

0.95分	758个	234.960328	9768	233.324863	266个	12.645784	97	354.101779	120	0.131535个
0.9	718	235.019819	9254	233.324863	252个	12.645784	92	354.090179	114	0.131695
0.85分	678	234.800187	8740	233.324863	238个	12.645784	87	354.134252	107	0.131858
0.8	638	235.133101	8226	233.324863	224	12.645784	82	354.146541	101	0.131792个
0.75分	598	235.104648	7712个	233.388367	210	12.645784	77	353.914801号	95	0.131897
0.7	558个	235.132128个	7198	233.388367	196	12.645784	72	353.914801号	88	0.131853
0.65分	518个	235.191663	6683个	233.385479	182	12.645784	66	353.923275个	82	0.131902
0.6	478个	235.202756年	6169个	233.394604	168	12.645784	61	354.042364号	76	0.132113
0.55	438	235.263138	5655	233.394604	154	12.645784	56	354.050328	69	0.132164
0.5	399	235.962421	5141	233.357302	140	12.645784	51	354.053246号	63	0.132310
0.45	359	235.941428	4627	233.355757号	126	12.649723号	46	354.770411	57	0.132497
0.4	319个	236.399412号	4113	233.354086	112	12.651157	41	354.849084	50	0.132620个
0.35	279个	236.574098	3599个	233.354248	98	12.657242	36	355.659524	44	0.133428
0.3	239个	376.546789元	3084	233.358374	84	12.664293	30.	355.714190号	38	0.133759
0.25	199	406.768586	2570个	233.399275	70	12.671595	25	355.700106	31	0.134865
0.2	159	445.621765	2056年	233.437486号	56	12.676944	20.	355.714027	25	0.136386
0.15	119	545.521345	1542	233.539485	42	12.677181号	15	355.722452	19	0.137433
0.1	79	553.326100	1028年	233.550540	28	12.677343	10	355.785519	12	0.139937个

根据上表的实验结果4个，什么时候在WYHXB数据，相应的平均RMSE平均值是最好的，并且被过滤120个不相关特征（原始特征798）;什么时候在NYWZ数据，相应的平均RMSE是最好的，和2057个不相关特征进行滤波（10283原始特征）;什么时候在BlogData数据，相应的RMSE是最好的，和140个不相关的特征进行滤波（280个原始特征）;什么时候在RBuild数据中，其相应的RMSE平均值是最好的，并且过滤了31个不相关的特征（103个原始特征）；当CCrime数据采用 ,其相应的RMSE平均值是最好的，和7个不相关特征（127个原始特征）进行过滤。其结果是，通过上述方法MIC过滤不相关特征后，可以得到的五组试验数据的一个候选特征的子集。通过进一步分析所述候选特征子集，则可以发现，原始数据的RMSE具有与候选特征的子集的RMSE差别不大（实验结果示于表5个);因此，本实验中删除的特征对模型的准确性影响不大，最终过滤掉不相关的特征，更好地保留了与目标变量相关的特征。


	原始数据		候选特征的子集
	的功能数	RMSE	的功能数	RMSE

WYHXB	798个	234.967849	678	234.800187
纽约市	10283	234.052699号	8226	233.324863
BlogData	280个	12.645784	140	12.645784
RBuild	103	352.473674	72	353.914801号
CCrime	128	0.131377	120	0.131535个

4.2.2条。消除冗余特征

通过以上的实验中，不相关的特征的过滤可以通过获得候选特征子集来实现。然而，根据新模式的建设，有必要在实验过程中均分候选特征的子集（升序），但不同的分区策略会影响最终的实验结果，那么进一步的讨论和分析的参数千是否需要(的值范围千被设定为1〜15），以确定最佳千值，以确保该模型的结果的可靠性。与此同时，为了避免实验的偶然性尽可能，实验仍采用GBDT和XGBoost的RMSE为一体的综合评价指标（即，它们的平均RMSE）。后的实验分析（在图中所示的结果2个–6个)，可以发现当千 = 5的WYHXB数据，其对应的RMSE值最好；当千 = 6 of NYWZ data, its corresponding RMSE value is the best; when the千 = 5的BlogData数据，对应的RMSE值最好；当千 = 3的RBuild数据中，对应的RMSE值最好；当千 = 14 in the CCrime data, the corresponding RMSE value is the best. After the division of the candidate feature subsets, the redundancy of the features can be analyzed in the later experiments, so as to select the optimal feature subsets.

为了进一步分析模型，每个数据集被随机分成一个训练集和一个比率为6 ： 4和XGBoost的测试集[31]，套索[32]，FCBF-MIC[19]采用改进算法（CI_-AMB）进行训练和学习，测试集进行回归实验（模型参数选择与上述实验结果一致），以RSME作为模型指标。同时，为了保证模型结果的可靠性，对每个试验数据进行了10次试验，取平均值作为最终的试验结果。为了验证实验过程中特征选择的效果和有效性，利用GBDT和XGBoost回归模型对原始数据进行了比较。实验结果如表所示6个–7个:


	原始数据		CI_AMB		XGBoost		套索		FCBF-麦克风
	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE

WYHXB	798个	267.5115	80 (19 + 61)	232.7352	83	269.1644	89	255.9661	15	265.0474
纽约市	10283	258.4021	220 (59 + 161)	234.8831	212	263.3908	215	256.2172个	60	265.2352号
BlogData	280个	22.7247	4个八(5个 + 43)	7.4822	43	14.5660	47	18.7933个	9个	24.2629
RBuild	103	458.0302	35（16 + 19）	417.1441个	23	458.2780个	26	466.8546个	三	461.7130
CCrime	127	0.1067	37（3 + 34）	0.1091	37	0.1176	31	0.1121	5个	0.1231
平均值		201.3550元		178.4708		201.1034		199.5887号		203.2763


	原始数据		CI_AMB		XGBoost		套索		FCBF-麦克风
	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE	的功能数	RMSE

WYHXB	798个	227.9061号	80 (19 + 61)	205.0669	83	221.8774	89	214.0560	15	229.7367
纽约市	10283	219.7160	220 (59 + 161)	201.5748	212	220.3312个	215	225.1712	60	225.1525
BlogData	280个	8.6356	4个八(5个 + 43)	4.1587	43	10.0949号	47	10.2909年	9个	10.8045
RBuild	103	264.5195	35（16 + 19）	255.1114	23	269.8928	26	261.3095个	三	278.6242
CCrime	127	0.1447个	37（3 + 34）	0.1443个	37	0.1487	31	0.1483	5个	0.1492
平均值		144.1844		133.2112		144.4690个		142.1952年		148.8934

从实验结果可以看到在上面的表CI_AMB的特征选择方法是在测试集上执行的五套原始数据,和实验结果如下:WYHXB数据的原始特征的数量是798,删除冗余特性之后,最终选择的最优特征子集数是80,包括61年19强烈相关特性和弱相关nonredundant特性。NYWZ数据的原始特征数为10283。剔除冗余特征后，最终可筛选到的最优特征子集数量为220个，其中强相关特征59个，弱相关非冗余特征161个;BlogData数据的原始个数为280，剔除冗余特征后，最终可筛选出的最优特征子集数为48个，包括5个强相关特征和43个弱相关非冗余特征。在去除冗余特征后，RBuild数据的原始特征数为103。最后，可以筛选出的最优特征子集数量为35个，其中包括16个强相关特征和19个弱相关非冗余特征;CCrime数据的原始特征个数为127，经过冗余处理后，最终次优特征集个数可选择为37，其中包括3个强相关特征和34个弱相关非冗余特征。值得注意的是,在过滤无关的特性和消除冗余特征,获得的强相关特性和弱相关nonredundant特性是根据相关性的程度区分特性和目标变量,也就是说,如果麦克风得分大于0.6,这是一个功能有着密切的联系,如果没有,这是一个弱相关nonredundant特性。

经过CI_-AMB特征选择后，发现（1）与原始数据（在没有特征选择的情况下）相比，新方法在原始数据（以GBDT的RMSE作为评价指标，表）中有稍差的结果（比原始数据误差大0.0024）6个），但在其它的数据集，其结果是比原来的数据更好（见表6个和7个);(2)与XGBoost、Lasso、FCBF-MIC相比，虽然特征数相似，但CI_AMB方法评价模型的RMSE值优于其他方法。同时，为了更直观地观察和比较实验结果，绘制了两种评价指标(GBDT和XGBoost)的趋势图(图2)7个和八)，以反映人民币汇率的整体波动。结合上表和图的实验结果7个和八结果表明，改进后的算法总体上优于其他算法，说明新模型能有效地消除无关特征和冗余特征的影响。总之，改进后的算法不仅能较好地滤除强相关特征和弱相关非冗余特征，而且在一定程度上提高了模型的回归精度。

5.结论

摘要针对中医基础实验数据维数高、样本少、无关信息和冗余信息多的问题，提出了一种基于迭代近似马尔科夫包层的混合特征选择方法。该方法分别利用最大信息系数和迭代近似马尔科夫包层进行两阶段特征分析，对不相关特征进行过滤，对冗余特征进行剔除，从而达到筛选最优特征子集的目的。通过中医基础数据与UCI数据集的实验比较，证明改进算法显著降低了模型的特征维数，提高了模型的解释程度。是一种适合于中药高次小样本数据分析的方法。在接下来的研究工作中，我们将继续对算法进行优化，确保在建立模型时可以进一步研究相关参数的合理设置。

数据可用性

在这项研究中使用了中国传统医药数据库可以由第一作者联系索取。在UCI数据可以通过UCI机器学习库（获得http://archive.ics.uci.edu/ml/datasets.html）。应当指出的是，UCI数据集常用由加州大学欧文分校的建议标准测试数据集，机器学习。

的利益冲突

作者声明本论文的发表不存在利益冲突。

致谢

这项研究是由中国国家自然科学基金（编号61762051和61562045）和江西省重大项目基金（20171ACE50021，20171BBG70108和YC2018-S281）的资助。

参考文献

K、 H.Hellton和N.L.Hjort，“冰箱：针对个性化预测的岭回归集中微调”医学统计卷。37，没有。8，第1390至03年，2018。查看在：出版商的网站|谷歌学术
N.杨，“岭回归分析在解决多重共线性问题的独特作用，”统计与决策，第7卷，第3期，第14-15页，2004年。查看在：谷歌学术
J.刘P.高，J.元，十都，“监控基于RMT和PCA大规模的交通格局的有效方法，”概率统计杂志卷。2010年，没有。6，文章编号375942，16页，2010。查看在：出版商的网站|谷歌学术
J.张，X.胡，和Y.章，“K-分裂套索：用于肿瘤的基因表达数据的有效的特征选择方法[J]，”计算机科学与技术前沿杂志，第6卷，第12期，第1136-114320012页。查看在：谷歌学术
B.安德烈，JRahnenführer和L.米歇尔，“一个多目标的方法来找到与高维数据的稳定特征选择的预测和稀疏模式，以”计算和数学方法在医学， 2017年第1期，no。1、文章ID 7907163, 18页，2017。查看在：出版商的网站|谷歌学术
H.轩，“研究和特征降维的发展，”计算机科学，第45卷，no。S1, pp. 16-21 +53, 2018。查看在：谷歌学术
十王和X胡“概述在高维和小样本大小的分类特征选择，”计算机应用杂志，第37卷，第9期，第2433-2438页，2017年。查看在：谷歌学术
H.周和J.巧“的基础上的高维k-最近邻互信息特征选择方法，”CAAI智能系统交易，第12卷，第5期，第595-600页，2017年。查看在：谷歌学术
G. Sosa-Cabrera, M. Garcia-Torres, S. Gomez等，“理解多元对称不确定性有助于特征选择”，2017，http://arxiv.org/abs/1709.08730。查看在：谷歌学术
L.牛，X.赵，和Y轼“特征选择带有属性的最大信息系数聚类，”Procedia计算机科学，第17卷，no。2，第70-79页，2013。查看在：出版商的网站|谷歌学术
“基于超图的多模态特征选择及其应用”，计算机科学与技术前沿期刊卷。12，没有。1，第112-119，2018。查看在：谷歌学术
G. Sun和J.张，“高维微阵列数据的混合特征选择算法”[中国计算机系统卷。36，没有。6，第1209至13年，2015年。查看在：谷歌学术
Q、 Ye，Y.Gao，R.Wu等人，“基于对称不确定性和SVM递归特征消除的信息基因选择方法”模式识别与人工智能，第30卷，第5期，第47-56页，2017年。查看在：谷歌学术
“使用偏最小二乘回归和最优实验设计的特征选择”神经网络2015年国际联合学术会议论文集（IJCNN），第17-19页，IEEE，基拉尼，爱尔兰，2015年7月。查看在：出版商的网站|谷歌学术
M、 “基于联合谱聚类和邻域互信息的特征选择算法，”模式识别与人工智能，第30卷，no。12、1121-1129页，2017。查看在：谷歌学术
韩和刘，“基于近似马尔可夫毯的前向特征选择”，中神经网络进展国际会议，第64-72页，斯普林格·维拉格，柏林，德国，2012年。查看在：出版商的网站|谷歌学术
D.科勒和M. Sahami，“走向最佳特征选择，”在第十三届机器学习国际会议论文集1996年7月，意大利巴里，第284-292页。查看在：谷歌学术
李大章，王C.和W郭沫若“使用近似的马尔可夫毯最大相关性最小冗余特征选择算法”西安交通大学卷。52，没有。10，第147-151，2018。查看在：谷歌学术
G.-L.太阳，Z.-C.宋，J.-L。Liu等人，“基于最大信息系数和近似马尔可夫毛毯的特征选择方法，”自动化学报，第43卷，第5期，第795-805页，2017年。查看在：谷歌学术
万峰，薛刚，“基于特征选择算法的K-part Lasso的高维数据提取”计算机工程与应用卷。48，没有。1，第157-161，2012。查看在：谷歌学术
余丽华，“关联与冗余分析在特征选择中的应用”，杂志的机器学习研究的，第5卷，第12期，第1205-12242004页。查看在：谷歌学术
问：宋，J. Ni和G.王，“高维数据的快速基于聚类的特征子集选择算法”IEEE交易对知识与数据工程，第25卷，第1期，第1-14页，2013年。查看在：谷歌学术
R、 Ruiz，J.C.Riquelme和J.S.Aguilar Ruiz，“从微阵列数据中为癌症分类进行基于包装的基因选择的增量”模式识别卷。39，没有。12，页。2383年至2392年，2006年。查看在：出版商的网站|谷歌学术
D、 N.Reshef，Y.A.Reshef，H.K.Finucane等人，“检测大数据集中的新关联，”科学卷。334，没有。6062，第1518至1524年，2011。查看在：出版商的网站|谷歌学术
R、 S.De Souza，U.Maio，V.Biffi和B.Ciardi，“早期微晕中重子的稳健主成分分析和最小公因子统计”皇家天文学会月刊卷。440，没有。1，第240-248，2014。查看在：出版商的网站|谷歌学术
Q. Q. Zeng, A. Zeng, D. Pan等人，“基于最大信息系数的贝叶斯网络结构学习算法”计算机工程，第43卷，第8期，第225-230页，2017年。查看在：谷歌学术
A. manio - varnosfaderani和M. Ghaemmaghami，“使用最大信息系数定义的标准评估二维分离系统的正交性，”色谱A的卷。1415，没有。10，第108-114，2015。查看在：出版商的网站|谷歌学术
F、顺凯，S.智珍，S.明等，“利用拓扑信息加速马尔可夫毯的恢复”计算机科学卷。42，没有。Z11，第42-48，2015年。查看在：谷歌学术
A.曾和Q.-m.郑，“深信念网络研究基于最大信息系数”计算机科学卷。43，没有。8，第249-253，2016。查看在：谷歌学术
Z.昌，Y.华，D.亦皆等人，“用于使用梯度升压决策树预测的蛋白质相互作用的氨基酸序列的多尺度编码，”《公共科学图书馆•综合》卷。12，没有。8，文章ID e0181426，2017。查看在：出版商的网站|谷歌学术
T. Chen, H. Tong, and M. Benesty， < Xgboost: extreme gradient boost >， 2016。查看在：谷歌学术
黄，马，张，“稀疏高维回归的自适应LASSO”，Statistica中央研究院卷。18，没有。4，第1603年至1618年，2006年。查看在：谷歌学术