中医的基本实验数据通常通过高性能液相色谱和质谱分析。数据通常显示高维度和几个样本的特点,有很多无关紧要的功能和数据冗余特性,带来挑战的深入探索中药材料信息。基于迭代混合特征选择方法近似马尔科夫毯(CI_AMB)提出。方法使用的最大信息系数来衡量特征之间的相关性和目标变量和达到过滤的目的无关的特征根据评估标准,首先。迭代近似马尔科夫毯策略分析之间的冗余特性,实现了消除冗余特征,然后选择最后一个有效的特征子集。使用中药进行比较实验材料基本实验和UCI的多个公共数据集的数据表明,新方法具有更好的优势选择少量的高度说明特性,与套索相比,XGBoost,经典近似马尔科夫毯的方法。
目前,由于科学技术水平的快速发展,信息获取技术和存储容量大大提高,和获得更充分的信息,数据的规模变得越来越大。领域的基础研究对中药的材料,高性能液相(水h级)和质谱(synapt G2-si)通常用于获得实验数据。这些数据通常涉及成千上万的物质,它的特点是高维数据,容易导致维灾害。与此同时,由于实验时间的限制,小样本的特点也提出,这很容易导致问题,如过度拟合。传统的统计分析方法,如多元线性回归、主成分回归,和岭回归,选择回归系数来反映变量之间的关系(
接下来,本文将介绍研究性的工作部分
特征选择是一种有效的方法来解决维数灾难,实现特征降维。它可以保持有效的特性,是最有利于回归(或分类)通过分析特征和目标变量和特征之间的内在关系(
特征选择方法吸引了许多国内外学者的关注。例如,在生物医学领域,姚明et al。(
然而,上述文献中提到的研究方法只能去除无关的特征或消除冗余特征在一定程度上并不能满足数据处理需求的高维小样本问题的传统中药。因此,一些研究人员进行了深入的讨论和研究做一个两阶段的分析特性的相关性和冗余和近似近似马尔科夫毯(AMB)特征选择过程实现的目的筛选有效和更少的特征(
在特征选择研究中,高质量的特征选择方法应该表现出以下特点
针对这一点,本文提出一种基于迭代混合特征选择方法近似马尔科夫毯(CI_AMB),分为两个阶段:在第一阶段,它首先使用的最大信息系数来衡量per-dimensional特性之间的相关性和目标变量和达到过滤不相关的特性和候选特征子集的收购根据一些评估标准;在第二阶段,候选人排序并分为特征子集<我talic> K我talic>子集,然后迭代剔除冗余特性获得nonredundant弱相关特性和强烈相关特性基于信息的最大近似马尔科夫毯系数。该算法不仅可以有效地过滤无关的特性和消除冗余特征,但也降低了时间复杂度,提高模型的解释模型的程度。这是一个新的模型适用于高维小样本数据分析的传统中药。
的最大信息系数(MIC)是一种新的信息化指标提出谢夫et al。
马尔科夫毯是一种方法,最大限度地减少功能保持最大化目标变量的子集信息同时让剩下的特征子集独立目标变量的子集的条件下特征选择(
(近似马尔科夫毯)。假设有两种不同的功能特性,分别
它被认为是<我nline-formula>
(弱相关nonredundant特性和强烈相关功能)。只有当满足条件,没有一个近似马尔科夫毯特性<我nline-formula>
CI_AMB方法主要分为两个阶段。在第一阶段,它首先使用麦克风的方法来测量每个特性之间的相关性和目标变量和达到更好的过滤不相关特性根据评估标准实现候选特征子集的收购。麦克风的特征选择方法通常是高度相关的冗余特性陪同,更大量的冗余的特性不仅增加的时间复杂性和空间复杂性模型,而且可以减少模型的解释的程度。因此,在第二阶段中,新方法进一步分析了冗余的特性,也就是说,根据特性麦克风的方法获得的分数,候选人的特征子集以升序排列,同样分成<我talic>
K我talic>部分。然后,近似马尔科夫毯(AMB)用于迭代消除冗余特征,所以弱相关nonredundant特性和强烈相关特性可以选择(算法
模型的具体施工过程如下:<列表>
在哪里<我nline-formula>
输入:数据集<我nline-formula>
输出:最优特征子集<我nline-formula>
开始
阶段1:过滤不相关的功能
为<我talic> 我我talic>= 1,<我talic> 米我talic>:/ /麦克风计算
标准化<我nline-formula>
计算每个特性的麦克风的分数值<我nline-formula>
结束
根据评价指标RMSE,确定过滤候选特征子集,候选人的特征子集<我nline-formula>
然后,选定的候选特征子集序列划分:<我nline-formula>
阶段2:消除冗余特征
第一特征子集执行冗余分析使用AMB方法和过滤nonredundant功能加入<我nline-formula>
为<我talic> 我我talic>= 2<我talic> K我talic>:/ /迭代AMB
结束
建立一个回归模型并验证和评价模型的有效性和可靠性;
结束
CI_AMB模型。
本文中使用的五个实验数据集包括中药物质基础实验数据(WYHXB和NYWZ)的现代中药制剂教育部,居住建筑数据集(RBuild),社区和犯罪在UCI数据集(CCrime)和BlogFeedback(简称BlogData),和每个数据集描述的基本信息表
基本数据集信息(默认任务:回归)。
| 数据集 | 数量的样品 | 数量的属性 |
|---|---|---|
| WYHXB | 54 | 799 (798 + 1) |
| NYWZ | 54 | 10284 (10283 + 1) |
| BlogData | 60021年 | 281 (280 + 1) |
| RBuild | 372年 | 104 (103 + 1) |
| CCrime | 1994年 | 128 (127 + 1) |
WYHXB和NYWZ Shenfu的基本实验数据注入治疗心原性休克。实验者使用靠近心脏的冠状动脉左前降枝梢复制中期心原性休克大鼠模型,给Shenfu注入(单位:毫升·公斤<年代up>−1年代up>)休克大鼠模型分为7组(0.1,0.33,1.0,3.3,10,15日和20日,分别)Shenfu剂量的注入,在每组包括6大鼠,并设置模型组和空白组同时在整个实验。60分钟的政府后,红细胞流速的药效学指标(m / s)收集。中包含的物质信息Shenfu注入称为外源性物质(即。、WYHXB数据如表所示
部分数据用中药物质基础实验(WYHXB)。
| 0.34 _237.0119<我talic> 米我talic>/<我talic> z我talic> | 0.35 _735.1196<我talic> 米我talic>/<我talic> z我talic> | 0.36 _588.0942<我talic> 米我talic>/<我talic> z我talic> | … | 0.36 _590.0903<我talic> 米我talic>/<我talic> z我talic> | 红细胞流速(<我talic> μ我talic>·m / s) |
|---|---|---|---|---|---|
| 0.48808 | 302.16 | 0 | … | 27.8589 | 750年 |
| 100.078 | 62.016 | 0 | … | 3.80712 | 1400年 |
| 11.6992 | 52.5058 | 7.61005 | … | 4.85059 | 785年 |
| 143.643 | 284.113 | 0 | … | 456.607 | 790年 |
| 7.75089 | 54.4535 | 0 | … | 0 | 670年 |
| 18.2499 | 0 | 0 | … | 14.6621 | 680年 |
| … | … | … | … | … | … |
| 28.5783 | 0 | 0 | … | 2.3551 | 850年 |
| 2.91064 | 0 | 16.1624 | … | 3.41406 | 620年 |
| … | … | … | … | … | … |
部分数据用中药物质基础实验(NYWZ)。
| 11.10 _787.5077<我talic> 米我talic>/<我talic> z我talic> | 12.29 _526.1784<我talic> 米我talic>/<我talic> z我talic> | 12.29 _531.2005<我talic> 米我talic>/<我talic> z我talic> | … | 12.47 _631.3847<我talic> 米我talic>/<我talic> z我talic> | 红细胞流速(<我talic> μ我talic>·m / s) |
|---|---|---|---|---|---|
| 53.3719 | 11557.6 | 764.329 | … | 1795.79 | 2200年 |
| 43.4717 | 7971.33 | 875.465 | … | 1842.39 | 2750年 |
| 76.507 | 3399.9 | 870.161 | … | 1562.81 | 1980年 |
| 153.145 | 51027.4 | 916.064 | … | 1619.62 | 1860年 |
| 16.3197 | 10694.4 | 942.699 | … | 1612.42 | 2100年 |
| 42.2836 | 11048.1 | 714.536 | … | 1649.23 | 2000年 |
| … | … | … | … | … | … |
| 55.5021 | 4702.83 | 748.844 | … | 1632.9 | 2481年 |
| 153.21 | 78912.8 | 835.24 | … | 1647.55 | 2970年 |
| … | … | … | … | … | … |
在这个实验中使用的编程工具是Python 3.6中,操作系统是Windows, 8 GB的内存,CPU是英特尔(R)的核心(TM) i5 - 3230 m。
为了确保新模型的可靠性,RMSE(均方根误差)的两个回归模型GBDT [
五个数据集的实验结果filter-independent特性。
|
|
WYHXB | NYWZ | BlogData | RBuild | CCrime | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 数的功能 | Ave-RMSE | 数的功能 | Ave-RMSE | 数的功能 | Ave-RMSE | 数的功能 | Ave-RMSE | 数的功能 | Ave-RMSE | |
|
|
758年 | 234.960328 | 9768年 | 233.324863 | 266年 | 12.645784 | 97年 | 354.101779 |
|
|
| 0.9 | 718年 | 235.019819 | 9254年 | 233.324863 | 252年 | 12.645784 | 92年 | 354.090179 | 114年 | 0.131695 |
|
|
|
|
8740年 | 233.324863 | 238年 | 12.645784 | 87年 | 354.134252 | 107年 | 0.131858 |
|
|
638年 | 235.133101 |
|
|
224年 | 12.645784 | 82年 | 354.146541 | 101年 | 0.131792 |
| 0.75 | 598年 | 235.104648 | 7712年 | 233.388367 | 210年 | 12.645784 | 77年 | 353.914801 | 95年 | 0.131897 |
|
|
558年 | 235.132128 | 7198年 | 233.388367 | 196年 | 12.645784 |
|
|
88年 | 0.131853 |
| 0.65 | 518年 | 235.191663 | 6683年 | 233.385479 | 182年 | 12.645784 | 66年 | 353.923275 | 82年 | 0.131902 |
| 0.6 | 478年 | 235.202756 | 6169年 | 233.394604 | 168年 | 12.645784 | 61年 | 354.042364 | 76年 | 0.132113 |
| 0.55 | 438年 | 235.263138 | 5655年 | 233.394604 | 154年 | 12.645784 | 56 | 354.050328 | 69年 | 0.132164 |
|
|
399年 | 235.962421 | 5141年 | 233.357302 |
|
|
51 | 354.053246 | 63年 | 0.132310 |
| 0.45 | 359年 | 235.941428 | 4627年 | 233.355757 | 126年 | 12.649723 | 46 | 354.770411 | 57 | 0.132497 |
| 0.4 | 319年 | 236.399412 | 4113年 | 233.354086 | 112年 | 12.651157 | 41 | 354.849084 | 50 | 0.132620 |
| 0.35 | 279年 | 236.574098 | 3599年 | 233.354248 | 98年 | 12.657242 | 36 | 355.659524 | 44 | 0.133428 |
| 0.3 | 239年 | 376.546789 | 3084年 | 233.358374 | 84年 | 12.664293 | 30. | 355.714190 | 38 | 0.133759 |
| 0.25 | 199年 | 406.768586 | 2570年 | 233.399275 | 70年 | 12.671595 | 25 | 355.700106 | 31日 | 0.134865 |
| 0.2 | 159年 | 445.621765 | 2056年 | 233.437486 | 56 | 12.676944 | 20. | 355.714027 | 25 | 0.136386 |
| 0.15 | 119年 | 545.521345 | 1542年 | 233.539485 | 42 | 12.677181 | 15 | 355.722452 | 19 | 0.137433 |
| 0.1 | 79年 | 553.326100 | 1028年 | 233.550540 | 28 | 12.677343 | 10 | 355.785519 | 12 | 0.139937 |
根据上述实验结果表
原始数据之间的比较实验数据和候选特征子集。
| 原始数据 | 候选特征子集 | |||
|---|---|---|---|---|
| 数的功能 | RMSE | 数的功能 | RMSE | |
| WYHXB | 798年 | 234.967849 | 678年 | 234.800187 |
| NYWZ | 10283年 | 234.052699 | 8226年 | 233.324863 |
| BlogData | 280年 | 12.645784 | 140年 | 12.645784 |
| RBuild | 103年 | 352.473674 | 72年 | 353.914801 |
| CCrime | 128年 | 0.131377 | 120年 | 0.131535 |
通过以上实验,过滤无关的特性可以通过获取候选特征子集。然而,根据新模型的建设,有必要把候选人特征子集(升序)同样在实验过程中,但不同的分区策略会影响最终的实验结果,所以参数的进一步讨论和分析<我talic>
K我talic>(需要的价值范围<我talic>
K我talic>设置为1 - 15)来确定最优<我talic>
K我talic>值,以确保结果的可靠性模型。与此同时,为了避免实验尽可能的应急,实验还采用GBDT RMSE XGBoost作为综合评价指标(即。的意思是RMSE两个)。在实验分析结果如图
WYHXB参数<我talic> K我talic>选择。
NYWZ参数<我talic> K我talic>选择。
BlogData参数<我talic> K我talic>选择。
RBuild参数<我talic> K我talic>选择。
CCrime参数<我talic> K我talic>选择。
为进一步分析模型,每个数据集随机分为训练集和测试集的比例6:4,XGBoost [
CI_AMB之间的比较实验结果和其他方法(GBDT RMSE评价指标)。
| 原始数据 | CI_AMB | XGBoost | 套索 | FCBF-MIC | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | |
| WYHXB | 798年 | 267.5115 | 80 (19 + 61) |
|
83年 | 269.1644 | 89年 | 255.9661 | 15 | 265.0474 |
| NYWZ | 10283年 | 258.4021 | 220 (59 + 161) |
|
212年 | 263.3908 | 215年 | 256.2172 | 60 | 265.2352 |
| BlogData | 280年 | 22.7247 | 48 (5 + 43) |
|
43 | 14.5660 | 47 | 18.7933 | 9 | 24.2629 |
| RBuild | 103年 | 458.0302 | 35 (16 + 19) |
|
23 | 458.2780 | 26 | 466.8546 | 3 | 461.7130 |
| CCrime | 127年 |
|
37 (3 + 34) | 0.1091 | 37 | 0.1176 | 31日 | 0.1121 | 5 | 0.1231 |
| 平均值 | 201.3550 |
|
201.1034 | 199.5887 | 203.2763 | |||||
CI_AMB的比较实验结果与其他方法(XGBoost RMSE评价指标)。
| 原始数据 | CI_AMB | XGBoost | 套索 | FCBF-MIC | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | 数的功能 | RMSE | |
| WYHXB | 798年 | 227.9061 | 80 (19 + 61) |
|
83年 | 221.8774 | 89年 | 214.0560 | 15 | 229.7367 |
| NYWZ | 10283年 | 219.7160 | 220 (59 + 161) |
|
212年 | 220.3312 | 215年 | 225.1712 | 60 | 225.1525 |
| BlogData | 280年 | 8.6356 | 48 (5 + 43) |
|
43 | 10.0949 | 47 | 10.2909 | 9 | 10.8045 |
| RBuild | 103年 | 264.5195 | 35 (16 + 19) |
|
23 | 269.8928 | 26 | 261.3095 | 3 | 278.6242 |
| CCrime | 127年 | 0.1447 | 37 (3 + 34) |
|
37 | 0.1487 | 31日 | 0.1483 | 5 | 0.1492 |
| 平均值 | 144.1844 |
|
144.4690 | 142.1952 | 148.8934 | |||||
从实验结果可以看到在上面的表CI_AMB的特征选择方法是在测试集上执行的五套原始数据,和实验结果如下:WYHXB数据的原始特征的数量是798,删除冗余特性之后,最终选择的最优特征子集数是80,包括61年19强烈相关特性和弱相关nonredundant特性。NYWZ数据的原始特征的数量是10283。消除冗余特征后,最终数量的最优特征子集,可以筛选是220,包括161年59强烈相关特性和弱相关nonredundant功能;BlogData数据的原始编号是280,消除冗余特性后,最后,筛选最优特征子集的数量可以是48岁,包括5强烈相关特性和43 nonredundant弱相关特性。RBuild数据的原始特征的数量是103,在消除冗余特征。最后,筛选最优特征子集的数量可以是35,包括16强相关特性和19 nonredundant弱相关功能;CCrime数据的原始特征的数量是127,后做冗余,和最终的数量可以选择到37次优的特性,包括3强烈相关特性和34 nonredundant弱相关特性。值得注意的是,在过滤无关的特性和消除冗余特征,获得的强相关特性和弱相关nonredundant特性是根据相关性的程度区分特性和目标变量,也就是说,如果麦克风得分大于0.6,这是一个功能有着密切的联系,如果没有,这是一个弱相关nonredundant特性。
后CI_AMB特征选择,可以发现,(1)与原始数据相比(在没有特征选择)的情况下,新方法稍差的结果(0.0024误差大于原始数据)的结果在CCrime数据(使用RMSE GBDT作为评价指标,表
的平均RMSE趋势五套数据集。
的平均RMSE趋势五套数据集。
针对问题,中医的基本实验数据高维度和一些样品和含有更多的无关信息和冗余信息,混合特征选择方法提出了基于迭代逼近马尔科夫毯。方法执行两阶段特性分析的最大信息迭代近似系数和马尔科夫毯,分别做过滤不相关特性和扑杀的冗余特性,从而达到最优特征子集的筛查。通过实验比较中药的基本数据和UCI数据集,它是证明了改进算法显著降低了特征维数和提高模型的解释程度。它是一种分析方法适合高维小样本数据的传统中药。在未来的研究工作中,我们将继续优化算法,确保合理设置相关参数可以进一步研究在构建模型。
本研究中使用的中药数据可以通过联系第一作者。UCI数据集可以通过UCI机器学习库(
作者宣称没有利益冲突有关的出版。
这项研究是由中国国家自然科学基金(61762051和61762051号)和江西省重大项目基金(20171 ace50021, 20171 bbg70108和YC2018-S281)。