CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi 10.1155 / 2020/8308173 8308173 研究文章 基于迭代逼近的混合特征选择方法研究马尔可夫毯子 https://orcid.org/0000 - 0001 - 8231 - 2216 Canyi 1 保证了 2 https://orcid.org/0000 - 0001 - 5584 - 9181 Jianqiang 1 1 https://orcid.org/0000 - 0003 - 0610 - 8891 郭亮 3 Wangping 1 Jigen 1 Kloczkowski Andrzej 1 学校的电脑 江西中医药大学 南昌330004年 中国 jxutcm.edu.cn 2 人文学院的 江西中医药大学 南昌330004年 中国 jxutcm.edu.cn 3 药学院 江西中医药大学 南昌330004年 中国 jxutcm.edu.cn 2020年 7 4 2020年 2020年 10 11 2019年 22 02 2020年 7 4 2020年 2020年 版权©2020 Canyi黄等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

中医的基本实验数据通常通过高性能液相色谱和质谱分析。数据通常显示高维度和几个样本的特点,有很多无关紧要的功能和数据冗余特性,带来挑战的深入探索中药材料信息。基于迭代混合特征选择方法近似马尔科夫毯(CI_AMB)提出。方法使用的最大信息系数来衡量特征之间的相关性和目标变量和达到过滤的目的无关的特征根据评估标准,首先。迭代近似马尔科夫毯策略分析之间的冗余特性,实现了消除冗余特征,然后选择最后一个有效的特征子集。使用中药进行比较实验材料基本实验和UCI的多个公共数据集的数据表明,新方法具有更好的优势选择少量的高度说明特性,与套索相比,XGBoost,经典近似马尔科夫毯的方法。

中国国家自然科学基金 61762051 61562045 江西省重大项目基金 20171 ace50021 20171 bbg70108 YC2018-S281
1。介绍</t我tle> <p>目前,由于科学技术水平的快速发展,信息获取技术和存储容量大大提高,和获得更充分的信息,数据的规模变得越来越大。领域的基础研究对中药的材料,高性能液相(水h级)和质谱(synapt G2-si)通常用于获得实验数据。这些数据通常涉及成千上万的物质,它的特点是高维数据,容易导致维灾害。与此同时,由于实验时间的限制,小样本的特点也提出,这很容易导致问题,如过度拟合。传统的统计分析方法,如多元线性回归、主成分回归,和岭回归,选择回归系数来反映变量之间的关系(<xref ref-type="bibr" rid="B1"> 1</xref>- - - - - -<xref ref-type="bibr" rid="B3"> 3</xref>),然而,这不能有效删除无关的特性和冗余特性,筛选的目的,实现重要的中药物质基础数据高维度和少量。与此同时,传统的特征选择方法,例如套索<我talic> K</我talic>分裂套索(<xref ref-type="bibr" rid="B4"> 4</xref>),只能删除无关的特性和冗余的特性在一定程度上并不能满足数据处理在处理高维小样本数据的需求。因此,在对该问题的看法,中医高维小样本数据包含更多的无关信息和冗余信息,迫切需要找到一个分析模型,可以从高维小样本数据,选择有效的特征,提高模型的精度和操作为研究人员提供技术支持。</p> <p>接下来,本文将介绍研究性的工作部分<xref ref-type="sec" rid="sec2"> 2</xref>。节中阐述了新方法<xref ref-type="sec" rid="sec3"> 3</xref>。节<xref ref-type="sec" rid="sec4"> 4</xref>,中医两种基本的数据材料和三个公共UCI数据用于分析的新方法,也与一些现有算法相比,进一步验证了可行性和有效性。最后,总结了全文<xref ref-type="sec" rid="sec5"> 5</xref>。</p> </sec> <sec id="sec2"> <title>2。相关工作</t我tle> <p>特征选择是一种有效的方法来解决维数灾难,实现特征降维。它可以保持有效的特性,是最有利于回归(或分类)通过分析特征和目标变量和特征之间的内在关系(<xref ref-type="bibr" rid="B5"> 5</xref>,<xref ref-type="bibr" rid="B6"> 6</xref>),冗余特性和目标变量无关的特性更好的消除,旨在降低算法的复杂度,提高算法的精度。根据结合机器学习,特征选择方法可分为过滤、封装、嵌入和集成(<xref ref-type="bibr" rid="B7"> 7</xref>]。过滤是独立于特定的机器学习模型,功能分类和特征空间搜索通常用于获得特征子集包括一些特殊的典型方法,例如,互信息,信息对称的不确定性,和最大系数(<xref ref-type="bibr" rid="B8"> 8</xref>- - - - - -<xref ref-type="bibr" rid="B10"> 10</xref>]。封装是集成学习算法的特征选择的过程,也就是说,分类算法被视为一个黑盒性能评估特征子集,这是实现最大的分类准确率。嵌入了特征选择过程的学习算法。该方法用于解决高重建成本的问题当封装不同的数据集。集成的方法是获得结果,分别通过学习使用多个特征选择方法首先,然后整合每个结果具有一定规则。该方法比单一特征选择方法,适用于解决问题的不稳定的特征选择方法。</p> <p>特征选择方法吸引了许多国内外学者的关注。例如,在生物医学领域,姚明et al。(<xref ref-type="bibr" rid="B11"> 11</xref>)提出了一种基于超图的多通道模态特征选择方法对多任务特征选择,最后选择有效的大脑区域信息;太阳et al。<xref ref-type="bibr" rid="B12"> 12</xref>)提出了一个基于套索混合特征选择算法,可以选择一个子集的信息基因分类能力强;Mingquan et al。<xref ref-type="bibr" rid="B13"> 13</xref>)提出了基于对称信息基因选择方法的不确定性和支持向量机(SVM)消除递归特性,可以有效地消除基因与分类无关。同时,特征选择方法也应用于其他领域。Nagaraja [<xref ref-type="bibr" rid="B14"> 14</xref>)使用偏最小二乘回归和优化实验设计与类别选择功能,并有很强的相关性;胡锦涛et al。(<xref ref-type="bibr" rid="B15"> 15</xref>]提出的特征选择算法的联合谱聚类和邻里互信息,可以删除signature-independent特性。</p> <p>然而,上述文献中提到的研究方法只能去除无关的特征或消除冗余特征在一定程度上并不能满足数据处理需求的高维小样本问题的传统中药。因此,一些研究人员进行了深入的讨论和研究做一个两阶段的分析特性的相关性和冗余和近似近似马尔科夫毯(AMB)特征选择过程实现的目的筛选有效和更少的特征(<xref ref-type="bibr" rid="B16"> 16</xref>]。其中,文献[<xref ref-type="bibr" rid="B17"> 17</xref>)提出了一个近似马尔科夫毯使用交叉熵的方法。方法首先使用皮尔逊系数计算之间的关联特性,消除了无关紧要的功能,然后使用近似马尔科夫毯进行冗余功能:删除;摘要(<xref ref-type="bibr" rid="B18"> 18</xref>)提出了一个最大相关最小冗余特征选择算法使用近似马尔科夫毯。方法首先使用标准的最大相关最小冗余特性相关性排序然后做近似计算通过结合互信息与马可删除无关紧要的功能和冗余功能;文献[<xref ref-type="bibr" rid="B19"> 19</xref>)提出了一种基于最大信息系数和特征选择方法近似马尔科夫毯(FCBF-MIC),首先测量特性之间的相关性和类别的对称的删除功能的不确定性与类别或弱相关。其次,马尔科夫毯使用的最大信息来近似系数,从而实现删除冗余功能。然而,在实验的分析和讨论,发现上面的方法更为严格,因为近似的定义马尔可夫毛毯,这使得它不可能选择少量的高度说明特性在中医的高维小样本数据,所以我们仍然需要做进一步的研究和探索中医药数据分析方法。</p> <p>在特征选择研究中,高质量的特征选择方法应该表现出以下特点<xref ref-type="bibr" rid="B20"> 20.</xref>):(1)可解释性,即特征选择模型中有科学意义;(2)可接受的模型稳定性;(3)避免偏差假设检验;和(4)模型计算复杂度在可控的范围之内。同时,在文献[<xref ref-type="bibr" rid="B21"> 21</xref>),一个标准的最优特征子集,提出分为四类:不相关的特性,弱相关性和冗余特性,nonredundant弱相关特性,以及强烈的相关特性。认为应包含最优特征子集后两个。通过大量的实验比较,证明标准较低时间复杂度和更好的特征选择结果<xref ref-type="bibr" rid="B22"> 22</xref>,<xref ref-type="bibr" rid="B23"> 23</xref>]。</p> <p>针对这一点,本文提出一种基于迭代混合特征选择方法近似马尔科夫毯(CI_AMB),分为两个阶段:在第一阶段,它首先使用的最大信息系数来衡量per-dimensional特性之间的相关性和目标变量和达到过滤不相关的特性和候选特征子集的收购根据一些评估标准;在第二阶段,候选人排序并分为特征子集<我talic> K</我talic>子集,然后迭代剔除冗余特性获得nonredundant弱相关特性和强烈相关特性基于信息的最大近似马尔科夫毯系数。该算法不仅可以有效地过滤无关的特性和消除冗余特征,但也降低了时间复杂度,提高模型的解释模型的程度。这是一个新的模型适用于高维小样本数据分析的传统中药。</p> </sec> <sec id="sec3"> <title>3所示。基于迭代逼近的混合特征选择方法研究马尔科夫毯(CI_AMB)</t我tle> <p>的最大信息系数(MIC)是一种新的信息化指标提出谢夫et al。<xref ref-type="bibr" rid="B24"> 24</xref>2011年)。它不仅更好地反映特性之间的相关性和目标变量,和特性和功能,也弥补了度量的问题如不能归一化互信息和敏感的离散化,度量信息增益和对称性等不确定性不能有效测量失功之间的依赖特性。在很多实验分析,最大的信息的特征系数具有良好的稳定性和能力指标之间的关系特性也有效证明(<xref ref-type="bibr" rid="B25"> 25</xref>- - - - - -<xref ref-type="bibr" rid="B27"> 27</xref>]。</p> <p>马尔科夫毯是一种方法,最大限度地减少功能保持最大化目标变量的子集信息同时让剩下的特征子集独立目标变量的子集的条件下特征选择(<xref ref-type="bibr" rid="B19"> 19</xref>,<xref ref-type="bibr" rid="B28"> 28</xref>]。尽管马尔科夫毯可以实现特征降维的效果,因为它独立的条件过于严格和发现的关系属于np难问题,特征选择方法通常采用近似策略马尔科夫毯。因此,结合信息系数最大的优点,在本文中,我们使用麦克风近似马尔科夫毯(见定义<xref ref-type="statement" rid="deff1"> 1</xref>)为了更好地消除冗余特征,因此最优特征子集筛选和模型优化实现。</p> <statement id="deff1"> <title>定义1。</t我tle> <p>(近似马尔科夫毯)。假设有两种不同的功能特性,分别<disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M1"> <mml:mtable> <mml:mlabeledtr id="EEq1"> <mml:mtd> <mml:mtext> (1)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mtext> 麦克风</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mtext> obj</米米l:mtext> </mml:mrow> </mml:mfenced> <mml:mo> ≥</米米l:mo> <mml:mtext> 麦克风</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mtext> obj</米米l:mtext> </mml:mrow> </mml:mfenced> <mml:mfenced open="‖" close="" separators="|"> <mml:mrow> <mml:mtext> 麦克风</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ≥</米米l:mo> <mml:mtext> 麦克风</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mtext> obj</米米l:mtext> </mml:mrow> </mml:mfenced> <mml:mo> 。</米米l:mo> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>它被认为是<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M2"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是一个近似的马尔科夫毯吗<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M3"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,也就是说,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M4"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>被保留在<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M5"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> j</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是一个冗余特性和删除的特性集。</p> </statement> <statement id="deff2"> <title>定义2。</t我tle> <p>(弱相关nonredundant特性和强烈相关功能)。只有当满足条件,没有一个近似马尔科夫毯特性<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M6"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,该功能<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M7"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是一个弱相关nonredundant特性或功能有着密切的联系,也就是说,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M8"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ∈</米米l:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> F</米米l:mi> <mml:mo> −</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 无关紧要的</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> −</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 冗余</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,在那里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M9"> <mml:mi> F</米米l:mi> </mml:math> </inline-formula>功能配套和吗<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M10"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 无关紧要的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>和<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M11"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> f</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 冗余</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是无关紧要的特性集和冗余的特性集,分别。</p> <p>CI_AMB方法主要分为两个阶段。在第一阶段,它首先使用麦克风的方法来测量每个特性之间的相关性和目标变量和达到更好的过滤不相关特性根据评估标准实现候选特征子集的收购。麦克风的特征选择方法通常是高度相关的冗余特性陪同,更大量的冗余的特性不仅增加的时间复杂性和空间复杂性模型,而且可以减少模型的解释的程度。因此,在第二阶段中,新方法进一步分析了冗余的特性,也就是说,根据特性麦克风的方法获得的分数,候选人的特征子集以升序排列,同样分成<我talic> K</我talic>部分。然后,近似马尔科夫毯(AMB)用于迭代消除冗余特征,所以弱相关nonredundant特性和强烈相关特性可以选择(算法<xref ref-type="other" rid="alg1"> 1</xref>)。算法的流程结构如图<xref ref-type="fig" rid="fig1"> 1</xref>。</p> <p>模型的具体施工过程如下:<列表> <list-item> <label></label> </list-item> </list></p> <p> <italic> 第一阶段</我talic>。过滤无关的特性</p> <list-item> <label></label> <p> <italic> 步骤1</我talic>。麦克风计算:麦克风上执行计算的原始数据<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M12"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>功能,即最大信息对每个特性系数计算公式(<xref ref-type="disp-formula" rid="EEq2"> 2</xref>),获得分数序列<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M13"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> t</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> t</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mo> …</米米l:mo> <mml:mo> ,</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> t</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 米</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>所有功能,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M14"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>值是[0,1]。值得注意的是,分数越高的特性,特性和目标变量的相关性越强,越接近比分是0,较弱的关系是:</p> </list-item> <disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M15"> <mml:mtable> <mml:mlabeledtr id="EEq2"> <mml:mtd> <mml:mtext> (2)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mtext> 麦克风</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> O</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:munder> <mml:mrow> <mml:mi mathvariant="normal"> 马克斯</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> x</米米l:mi> <mml:mi> y</米米l:mi> <mml:mo> <</米米l:mo> <mml:mi> B</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:munder> <mml:mfrac> <mml:mrow> <mml:msup> <mml:mrow> <mml:mtext> 心肌梗死</米米l:mtext> </mml:mrow> <mml:mrow> <mml:mi> ∗</米米l:mi> </mml:mrow> </mml:msup> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> O</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mi> x</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> y</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mi mathvariant="normal"> 日志</米米l:mi> <mml:mi mathvariant="normal"> 最小值</米米l:mi> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> x</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> y</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfrac> <mml:mo> ,</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula> <list> <list-item> <label></label> <p>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M16"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mtext> 心肌梗死</米米l:mtext> </mml:mrow> <mml:mrow> <mml:mi> ∗</米米l:mi> </mml:mrow> </mml:msup> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> O</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> ,</米米l:mo> <mml:mi> x</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> y</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是指的最大互信息<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M17"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> O</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>在网格分区(<xref ref-type="bibr" rid="B19"> 19</xref>,<xref ref-type="bibr" rid="B29"> 29日</xref>),<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M18"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> O</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 年代</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>订购了两套样品,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M19"> <mml:mi> x</米米l:mi> </mml:math> </inline-formula>意味着分裂值范围的功能<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M20"> <mml:mi> X</米米l:mi> </mml:math> </inline-formula>成<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M21"> <mml:mi> x</米米l:mi> </mml:math> </inline-formula>段,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M22"> <mml:mi> y</米米l:mi> </mml:math> </inline-formula>意味着将因变量的值范围<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M23"> <mml:mi> Y</米米l:mi> </mml:math> </inline-formula>成<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M24"> <mml:mi> y</米米l:mi> </mml:math> </inline-formula>段,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M25"> <mml:mrow> <mml:mi> B</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>的上限是啮合。一般来说,的价值<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M26"> <mml:mrow> <mml:mi> B</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M27"> <mml:mrow> <mml:mi> B</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:msup> <mml:mrow> <mml:mi> n</米米l:mi> </mml:mrow> <mml:mrow> <mml:mn> 0.6</米米l:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M28"> <mml:mi> n</米米l:mi> </mml:math> </inline-formula>是样本容量。</p> </list-item> <list-item> <label></label> <p> <italic> 步骤2</我talic>。确定候选特征子集:麦克风计算用于获得分数序列<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M29"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,降序排列顺序<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M30"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>拦截根据一定的比例,然后当前的最高排名选择特征子集;如果所选特征子集满足最好的评价指标RMSE,候选特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M31"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 米</米米l:mi> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>(<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M32"> <mml:mi> 米</米米l:mi> <mml:mo> ′</米米l:mo> </mml:math> </inline-formula>维特性,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M33"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mi> 米</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msup> <mml:mo> <</米米l:mo> <mml:mi> 米</米米l:mi> </mml:mrow> </mml:math> </inline-formula>)可以直接选择,但如果不是,过滤操作和判断的进步继续说:</p> </list-item> </list> <disp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M34"> <mml:mtable> <mml:mlabeledtr id="EEq3"> <mml:mtd> <mml:mtext> (3)</米米l:mtext> </mml:mtd> <mml:mtd> <mml:mtext> RMSE</米米l:mtext> <mml:mo> =</米米l:mo> <mml:msqrt> <mml:mrow> <mml:mfrac> <mml:mn> 1</米米l:mn> <mml:mi> n</米米l:mi> </mml:mfrac> <mml:mstyle displaystyle="true"> <mml:munderover> <mml:mo stretchy="true"> ∑</米米l:mo> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 1</米米l:mn> </mml:mrow> <mml:mi> n</米米l:mi> </mml:munderover> <mml:mrow> <mml:msup> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> y</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> <mml:mo> −</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> y</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mstyle> </mml:mrow> </mml:msqrt> <mml:mo> 。</米米l:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula> <list> <list-item> <label></label> <p> <italic> 步骤3</我talic>。数据部门和初始化:候选特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M35"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mi> 米</米米l:mi> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>被安排在相反的顺序根据功能评分,从而获得一个对齐的候选特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M36"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>为了确保最大的保留特性重要相关性高的回归任务排名在后期处理的特性,然后细分候选特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M37"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>成<我talic> K</我talic>组和定义<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M38"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M39"> <mml:mrow> <mml:mi> 我</米米l:mi> <mml:mo> −</米米l:mo> <mml:mi> t</米米l:mi> <mml:mi> h</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 1</米米l:mn> <mml:mo> ≤</米米l:mo> <mml:mi> 我</米米l:mi> <mml:mo> ≤</米米l:mo> <mml:mi> K</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>候选特征子集划分成后功能<我talic> K</我talic>组的子集,而初始化的最佳特性集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M40"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是空的。</p> </list-item> <list-item> <label></label> <p> <italic> 第二阶段</我talic>。消除冗余特征</p> </list-item> <list-item> <label></label> <p> <italic> 步骤4</我talic>。功能冗余分析:首先,从第一个删除冗余特性特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M41"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>通过使用AMB方法(即。、定义<xref ref-type="statement" rid="deff1"> 1</xref>),然后过滤成的nonredundant特性<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M42"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>。其次,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M43"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>和第二个特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M44"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>合并当前特征子集,它将分析AMB方法删除冗余特性,然后呢<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M45"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>目前更新。因此,最优特征子集<我talic> T</我talic><sub>最好的</年代ub>剩下的m”维度(<我talic> 米</我talic>" <<我talic> 米</我talic>′)是通过迭代顺序k特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M46"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>(<我talic> k</我talic>)。</p> </list-item> <list-item> <label></label> <p> <italic> 步骤5</我talic>。模型评价:比较和评价各种策略通过使用弱相关的最优特征子集nonredundant,强烈的关系(<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M47"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>)在上面的步骤中获得的。</p> </list-item> </list> <p></p> </statement> <p id="alg1"> <list list-content="algorithm"> <title><大胆>算法1:< /大胆> CI_AMB算法。</t我tle> <list-item></list-item> </list></p> <p>输入:数据集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M48"> <mml:mrow> <mml:mi> D</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> X</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> Y</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M49"> <mml:mi> n</米米l:mi> </mml:math> </inline-formula>样品,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M50"> <mml:mi> 米</米米l:mi> </mml:math> </inline-formula>特性</p> <list-item> <p> <italic> K</我talic>/ /功能子集划分的数量</p> </list-item> <list-item> <p>输出:最优特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M51"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M52"> <mml:mi> n</米米l:mi> </mml:math> </inline-formula>样品,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M53"> <mml:msup> <mml:mrow> <mml:mi> 米</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ”</米米l:mo> </mml:mrow> </mml:msup> </mml:math> </inline-formula>特性</p> </list-item> <list-item> <p>开始</p> </list-item> <list-item> <p>阶段1:过滤不相关的功能</p> </list-item> <list-item> <p>为<我talic> 我</我talic>= 1,<我talic> 米</我talic>:/ /麦克风计算</p> </list-item> <list-item> <p>标准化<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M54"> <mml:mi> X</米米l:mi> </mml:math> </inline-formula>和<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M55"> <mml:mi> Y</米米l:mi> </mml:math> </inline-formula>;</p> </list-item> <list-item> <p>计算每个特性的麦克风的分数值<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M56"> <mml:mrow> <mml:mi> D</米米l:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> X</米米l:mi> <mml:mo> ,</米米l:mo> <mml:mi> Y</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>;</p> </list-item> <list-item> <p>结束</p> </list-item> <list-item> <p>根据评价指标RMSE,确定过滤候选特征子集,候选人的特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M57"> <mml:msup> <mml:mrow> <mml:mi> 米</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</米米l:mo> </mml:mrow> </mml:msup> </mml:math> </inline-formula>尺寸是按升序排列;</p> </list-item> <list-item> <p>然后,选定的候选特征子集序列划分:<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M58"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 1</米米l:mn> </mml:mrow> </mml:mfenced> <mml:mo> ,</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 2</米米l:mn> </mml:mrow> </mml:mfenced> <mml:mo> ,</米米l:mo> <mml:mo> …</米米l:mo> <mml:mo> ,</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> K</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>;/ /分<我talic> K</我talic>股票</p> </list-item> <list-item> <p> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M59"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mtext> 零</米米l:mtext> </mml:mrow> </mml:math> </inline-formula>;/ /初始化最优特征子集是空的</p> </list-item> <list-item> <p>阶段2:消除冗余特征</p> </list-item> <list-item> <p>第一特征子集执行冗余分析使用AMB方法和过滤nonredundant功能加入<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M60"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>;</p> </list-item> <list-item> <p>为<我talic> 我</我talic>= 2<我talic> K</我talic>:/ /迭代AMB</p> </list-item> <list-item> <p> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M61"> <mml:mrow> <mml:mtext> 临时</米米l:mtext> <mml:mo> _</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> ∪</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> 我</米米l:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>;/ /添加当前最优特征子集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M62"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>到下一个分区的子集</p> </list-item> <list-item> <p> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M63"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> <mml:mo> =</米米l:mo> <mml:mtext> AMB</米米l:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mtext> 临时</米米l:mtext> <mml:mo> _</米米l:mo> <mml:msub> <mml:mrow> <mml:mi> D</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 列表</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>;/ /更新的列表使用AMB方法最优特性,最后<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M64"> <mml:mrow> <mml:mfenced open="|" close="|" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> T</米米l:mi> </mml:mrow> <mml:mrow> <mml:mtext> 最好的</米米l:mtext> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> =</米米l:mo> <mml:msup> <mml:mrow> <mml:mi> 米</米米l:mi> </mml:mrow> <mml:mrow> <mml:mo> ”</米米l:mo> </mml:mrow> </mml:msup> </mml:mrow> </mml:math> </inline-formula></p> </list-item> <list-item> <p>结束</p> </list-item> <list-item> <p>建立一个回归模型并验证和评价模型的有效性和可靠性;</p> </list-item> <list-item> <p>结束</p> </list-item> <p></p> <fig id="fig1"> <label>图1</label> <p>CI_AMB模型。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.001"></graphic> </fig> </sec> <sec id="sec4"> <title>4所示。实验设计</t我tle> <sec id="sec4.1"> <title>4.1。实验数据说明</t我tle> <p>本文中使用的五个实验数据集包括中药物质基础实验数据(WYHXB和NYWZ)的现代中药制剂教育部,居住建筑数据集(RBuild),社区和犯罪在UCI数据集(CCrime)和BlogFeedback(简称BlogData),和每个数据集描述的基本信息表<xref ref-type="table" rid="tab1"> 1</xref>。其中,有798个特性,1因变量,在WYHXB和54个样本数据,和10283年的特性,1因变量,在NYWZ和54个样本数据;BlogData是数据描述博客文章,其中包括280年特性,1因变量,和60021个样本;RBuild是数据描述住宅,包括103功能,1因变量,和372个样本;CCrime是数据描述社区犯罪,其中包括127年的特性,1因变量,1994个样本。值得注意的是,从UCI机器学习库获得UCI数据集通常有更多的缺失值;因此,平均填充方法是用来在实验数据处理。本文使用BlogData、RBuild CCrime UCI数据集的比较回归效果的新模型在公共数据集验证新模型的可靠性和推广在我们的实验。</p> <table-wrap id="tab1"> <label>表1</label> <p>基本数据集信息(默认任务:回归)。</p> <table> <thead> <tr> <th align="left">数据集</th> <th align="center">数量的样品</th> <th align="center">数量的属性</th> </tr> </thead> <tbody> <tr> <td align="left">WYHXB</td> <td align="center">54</td> <td align="center">799 (798 + 1)</td> </tr> <tr> <td align="left">NYWZ</td> <td align="center">54</td> <td align="center">10284 (10283 + 1)</td> </tr> <tr> <td align="left">BlogData</td> <td align="center">60021年</td> <td align="center">281 (280 + 1)</td> </tr> <tr> <td align="left">RBuild</td> <td align="center">372年</td> <td align="center">104 (103 + 1)</td> </tr> <tr> <td align="left">CCrime</td> <td align="center">1994年</td> <td align="center">128 (127 + 1)</td> </tr> </tbody> </table> </table-wrap> <p>WYHXB和NYWZ Shenfu的基本实验数据注入治疗心原性休克。实验者使用靠近心脏的冠状动脉左前降枝梢复制中期心原性休克大鼠模型,给Shenfu注入(单位:毫升·公斤<年代up>−1</年代up>)休克大鼠模型分为7组(0.1,0.33,1.0,3.3,10,15日和20日,分别)Shenfu剂量的注入,在每组包括6大鼠,并设置模型组和空白组同时在整个实验。60分钟的政府后,红细胞流速的药效学指标(m / s)收集。中包含的物质信息Shenfu注入称为外源性物质(即。、WYHXB数据如表所示<xref ref-type="table" rid="tab2"> 2</xref>),实验个体本身的物质信息称为内源性物质(即。、NYWZ数据如表所示<xref ref-type="table" rid="tab3"> 3</xref>)。两个数据,材料信息特点,红细胞流速是因变量。</p> <table-wrap id="tab2"> <label>表2</label> <p>部分数据用中药物质基础实验(WYHXB)。</p> <table> <thead> <tr> <th align="left">0.34 _237.0119<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">0.35 _735.1196<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">0.36 _588.0942<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">…</th> <th align="center">0.36 _590.0903<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">红细胞流速(<我talic> μ</我talic>·m / s)</th> </tr> </thead> <tbody> <tr> <td align="left">0.48808</td> <td align="center">302.16</td> <td align="center">0</td> <td align="center">…</td> <td align="center">27.8589</td> <td align="center">750年</td> </tr> <tr> <td align="left">100.078</td> <td align="center">62.016</td> <td align="center">0</td> <td align="center">…</td> <td align="center">3.80712</td> <td align="center">1400年</td> </tr> <tr> <td align="left">11.6992</td> <td align="center">52.5058</td> <td align="center">7.61005</td> <td align="center">…</td> <td align="center">4.85059</td> <td align="center">785年</td> </tr> <tr> <td align="left">143.643</td> <td align="center">284.113</td> <td align="center">0</td> <td align="center">…</td> <td align="center">456.607</td> <td align="center">790年</td> </tr> <tr> <td align="left">7.75089</td> <td align="center">54.4535</td> <td align="center">0</td> <td align="center">…</td> <td align="center">0</td> <td align="center">670年</td> </tr> <tr> <td align="left">18.2499</td> <td align="center">0</td> <td align="center">0</td> <td align="center">…</td> <td align="center">14.6621</td> <td align="center">680年</td> </tr> <tr> <td align="left">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> </tr> <tr> <td align="left">28.5783</td> <td align="center">0</td> <td align="center">0</td> <td align="center">…</td> <td align="center">2.3551</td> <td align="center">850年</td> </tr> <tr> <td align="left">2.91064</td> <td align="center">0</td> <td align="center">16.1624</td> <td align="center">…</td> <td align="center">3.41406</td> <td align="center">620年</td> </tr> <tr> <td align="left">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> </tr> </tbody> </table> </table-wrap> <table-wrap id="tab3"> <label>表3</label> <p>部分数据用中药物质基础实验(NYWZ)。</p> <table> <thead> <tr> <th align="left">11.10 _787.5077<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">12.29 _526.1784<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">12.29 _531.2005<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">…</th> <th align="center">12.47 _631.3847<我talic> 米</我talic>/<我talic> z</我talic></th> <th align="center">红细胞流速(<我talic> μ</我talic>·m / s)</th> </tr> </thead> <tbody> <tr> <td align="left">53.3719</td> <td align="center">11557.6</td> <td align="center">764.329</td> <td align="center">…</td> <td align="center">1795.79</td> <td align="center">2200年</td> </tr> <tr> <td align="left">43.4717</td> <td align="center">7971.33</td> <td align="center">875.465</td> <td align="center">…</td> <td align="center">1842.39</td> <td align="center">2750年</td> </tr> <tr> <td align="left">76.507</td> <td align="center">3399.9</td> <td align="center">870.161</td> <td align="center">…</td> <td align="center">1562.81</td> <td align="center">1980年</td> </tr> <tr> <td align="left">153.145</td> <td align="center">51027.4</td> <td align="center">916.064</td> <td align="center">…</td> <td align="center">1619.62</td> <td align="center">1860年</td> </tr> <tr> <td align="left">16.3197</td> <td align="center">10694.4</td> <td align="center">942.699</td> <td align="center">…</td> <td align="center">1612.42</td> <td align="center">2100年</td> </tr> <tr> <td align="left">42.2836</td> <td align="center">11048.1</td> <td align="center">714.536</td> <td align="center">…</td> <td align="center">1649.23</td> <td align="center">2000年</td> </tr> <tr> <td align="left">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> </tr> <tr> <td align="left">55.5021</td> <td align="center">4702.83</td> <td align="center">748.844</td> <td align="center">…</td> <td align="center">1632.9</td> <td align="center">2481年</td> </tr> <tr> <td align="left">153.21</td> <td align="center">78912.8</td> <td align="center">835.24</td> <td align="center">…</td> <td align="center">1647.55</td> <td align="center">2970年</td> </tr> <tr> <td align="left">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> <td align="center">…</td> </tr> </tbody> </table> </table-wrap> </sec> <sec id="sec4.2"> <title>4.2。结果与讨论</t我tle> <p>在这个实验中使用的编程工具是Python 3.6中,操作系统是Windows, 8 GB的内存,CPU是英特尔(R)的核心(TM) i5 - 3230 m。</p> <sec id="sec4.2.1"> <title>4.2.1。准备过滤无关的特性</t我tle> <p>为了确保新模型的可靠性,RMSE(均方根误差)的两个回归模型GBDT [<xref ref-type="bibr" rid="B30"> 30.</xref>]和XGBoost [<xref ref-type="bibr" rid="B31"> 31日</xref>)采用综合评价指标,也就是说,平均两个回归模型RMSE值作为评价指标,然后原数据集的特点是由一定的过滤率<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M65"> <mml:mi> P</米米l:mi> </mml:math> </inline-formula>逐渐(如果数量的特性有一个十进制数,实验结果是圆形的),所以它可以确定相应的RMSE值是最好的比例<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M66"> <mml:mi> P</米米l:mi> </mml:math> </inline-formula>。和更适当的判断有多少删除无关的特性来达到有效过滤的目的无关的特性,与实验结果如表所示<xref ref-type="table" rid="tab4"> 4</xref>。</p> <table-wrap id="tab4"> <label>表4</label> <p>五个数据集的实验结果filter-independent特性。</p> <table> <thead> <tr> <th align="left" rowspan="2"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M67"> <mml:mi> P</米米l:mi> </mml:math> </inline-formula></th> <th align="center" colspan="2">WYHXB</th> <th align="center" colspan="2">NYWZ</th> <th align="center" colspan="2">BlogData</th> <th align="center" colspan="2">RBuild</th> <th align="center" colspan="2">CCrime</th> </tr> <tr> <th align="center">数的功能</th> <th align="center">Ave-RMSE</th> <th align="center">数的功能</th> <th align="center">Ave-RMSE</th> <th align="center">数的功能</th> <th align="center">Ave-RMSE</th> <th align="center">数的功能</th> <th align="center">Ave-RMSE</th> <th align="center">数的功能</th> <th align="center">Ave-RMSE</th> </tr> </thead> <tbody> <tr> <td align="left"> <bold> 0.95</bold></td> <td align="center">758年</td> <td align="center">234.960328</td> <td align="center">9768年</td> <td align="center">233.324863</td> <td align="center">266年</td> <td align="center">12.645784</td> <td align="center">97年</td> <td align="center">354.101779</td> <td align="center"> <bold> 120年</bold></td> <td align="center"> <bold> 0.131535</bold></td> </tr> <tr> <td align="left">0.9</td> <td align="center">718年</td> <td align="center">235.019819</td> <td align="center">9254年</td> <td align="center">233.324863</td> <td align="center">252年</td> <td align="center">12.645784</td> <td align="center">92年</td> <td align="center">354.090179</td> <td align="center">114年</td> <td align="center">0.131695</td> </tr> <tr> <td align="left"> <bold> 0.85</bold></td> <td align="center"> <bold> 678年</bold></td> <td align="center"> <bold> 234.800187</bold></td> <td align="center">8740年</td> <td align="center">233.324863</td> <td align="center">238年</td> <td align="center">12.645784</td> <td align="center">87年</td> <td align="center">354.134252</td> <td align="center">107年</td> <td align="center">0.131858</td> </tr> <tr> <td align="left"> <bold> 0.8</bold></td> <td align="center">638年</td> <td align="center">235.133101</td> <td align="center"> <bold> 8226年</bold></td> <td align="center"> <bold> 233.324863</bold></td> <td align="center">224年</td> <td align="center">12.645784</td> <td align="center">82年</td> <td align="center">354.146541</td> <td align="center">101年</td> <td align="center">0.131792</td> </tr> <tr> <td align="left">0.75</td> <td align="center">598年</td> <td align="center">235.104648</td> <td align="center">7712年</td> <td align="center">233.388367</td> <td align="center">210年</td> <td align="center">12.645784</td> <td align="center">77年</td> <td align="center">353.914801</td> <td align="center">95年</td> <td align="center">0.131897</td> </tr> <tr> <td align="left"> <bold> 0.7</bold></td> <td align="center">558年</td> <td align="center">235.132128</td> <td align="center">7198年</td> <td align="center">233.388367</td> <td align="center">196年</td> <td align="center">12.645784</td> <td align="center"> <bold> 72年</bold></td> <td align="center"> <bold> 353.914801</bold></td> <td align="center">88年</td> <td align="center">0.131853</td> </tr> <tr> <td align="left">0.65</td> <td align="center">518年</td> <td align="center">235.191663</td> <td align="center">6683年</td> <td align="center">233.385479</td> <td align="center">182年</td> <td align="center">12.645784</td> <td align="center">66年</td> <td align="center">353.923275</td> <td align="center">82年</td> <td align="center">0.131902</td> </tr> <tr> <td align="left">0.6</td> <td align="center">478年</td> <td align="center">235.202756</td> <td align="center">6169年</td> <td align="center">233.394604</td> <td align="center">168年</td> <td align="center">12.645784</td> <td align="center">61年</td> <td align="center">354.042364</td> <td align="center">76年</td> <td align="center">0.132113</td> </tr> <tr> <td align="left">0.55</td> <td align="center">438年</td> <td align="center">235.263138</td> <td align="center">5655年</td> <td align="center">233.394604</td> <td align="center">154年</td> <td align="center">12.645784</td> <td align="center">56</td> <td align="center">354.050328</td> <td align="center">69年</td> <td align="center">0.132164</td> </tr> <tr> <td align="left"> <bold> 0.5</bold></td> <td align="center">399年</td> <td align="center">235.962421</td> <td align="center">5141年</td> <td align="center">233.357302</td> <td align="center"> <bold> 140年</bold></td> <td align="center"> <bold> 12.645784</bold></td> <td align="center">51</td> <td align="center">354.053246</td> <td align="center">63年</td> <td align="center">0.132310</td> </tr> <tr> <td align="left">0.45</td> <td align="center">359年</td> <td align="center">235.941428</td> <td align="center">4627年</td> <td align="center">233.355757</td> <td align="center">126年</td> <td align="center">12.649723</td> <td align="center">46</td> <td align="center">354.770411</td> <td align="center">57</td> <td align="center">0.132497</td> </tr> <tr> <td align="left">0.4</td> <td align="center">319年</td> <td align="center">236.399412</td> <td align="center">4113年</td> <td align="center">233.354086</td> <td align="center">112年</td> <td align="center">12.651157</td> <td align="center">41</td> <td align="center">354.849084</td> <td align="center">50</td> <td align="center">0.132620</td> </tr> <tr> <td align="left">0.35</td> <td align="center">279年</td> <td align="center">236.574098</td> <td align="center">3599年</td> <td align="center">233.354248</td> <td align="center">98年</td> <td align="center">12.657242</td> <td align="center">36</td> <td align="center">355.659524</td> <td align="center">44</td> <td align="center">0.133428</td> </tr> <tr> <td align="left">0.3</td> <td align="center">239年</td> <td align="center">376.546789</td> <td align="center">3084年</td> <td align="center">233.358374</td> <td align="center">84年</td> <td align="center">12.664293</td> <td align="center">30.</td> <td align="center">355.714190</td> <td align="center">38</td> <td align="center">0.133759</td> </tr> <tr> <td align="left">0.25</td> <td align="center">199年</td> <td align="center">406.768586</td> <td align="center">2570年</td> <td align="center">233.399275</td> <td align="center">70年</td> <td align="center">12.671595</td> <td align="center">25</td> <td align="center">355.700106</td> <td align="center">31日</td> <td align="center">0.134865</td> </tr> <tr> <td align="left">0.2</td> <td align="center">159年</td> <td align="center">445.621765</td> <td align="center">2056年</td> <td align="center">233.437486</td> <td align="center">56</td> <td align="center">12.676944</td> <td align="center">20.</td> <td align="center">355.714027</td> <td align="center">25</td> <td align="center">0.136386</td> </tr> <tr> <td align="left">0.15</td> <td align="center">119年</td> <td align="center">545.521345</td> <td align="center">1542年</td> <td align="center">233.539485</td> <td align="center">42</td> <td align="center">12.677181</td> <td align="center">15</td> <td align="center">355.722452</td> <td align="center">19</td> <td align="center">0.137433</td> </tr> <tr> <td align="left">0.1</td> <td align="center">79年</td> <td align="center">553.326100</td> <td align="center">1028年</td> <td align="center">233.550540</td> <td align="center">28</td> <td align="center">12.677343</td> <td align="center">10</td> <td align="center">355.785519</td> <td align="center">12</td> <td align="center">0.139937</td> </tr> </tbody> </table> </table-wrap> <p>根据上述实验结果表<xref ref-type="table" rid="tab4"> 4</xref>,当<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M68"> <mml:mrow> <mml:mi> P</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0.85</米米l:mn> </mml:mrow> </mml:math> </inline-formula>WYHXB数据,相应的平均RMSE值是最好的,和120年无关的特性过滤(798)最初的特性;当<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M69"> <mml:mrow> <mml:mi> P</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0.8</米米l:mn> </mml:mrow> </mml:math> </inline-formula>NYWZ数据,相应的平均RMSE是最好的,和2057年无关的特性过滤(10283原始功能);当<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M70"> <mml:mrow> <mml:mi> P</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0.5</米米l:mn> </mml:mrow> </mml:math> </inline-formula>BlogData数据,相应的RMSE是最好的,和140年无关的特性过滤(280原始功能);当<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M71"> <mml:mrow> <mml:mi> P</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0.7</米米l:mn> </mml:mrow> </mml:math> </inline-formula>RBuild数据,其相应的RMSE的意思是最好的,过滤和31无关的特性(103原始功能);CCrime数据时需要<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M72"> <mml:mrow> <mml:mi> P</米米l:mi> <mml:mo> =</米米l:mo> <mml:mn> 0.95</米米l:mn> </mml:mrow> </mml:math> </inline-formula>,其相应的RMSE的意思是最好的,和7(127原始功能)过滤无关的特性。因此,过滤后通过上面的麦克风方法无关的特性,一个候选人的特征子集可以得到五组实验数据。通过进一步分析候选特征子集,它可以发现原始数据的RMSE几乎没有区别的RMSE候选特征子集(实验结果如表所示<xref ref-type="table" rid="tab5"> 5</xref>);因此,删除的特性在这个实验中没有影响模型的准确性和过程最终过滤掉无关的特性和更好的保存与目标变量相关的特性。</p> <table-wrap id="tab5"> <label>表5</label> <p>原始数据之间的比较实验数据和候选特征子集。</p> <table> <thead> <tr> <th align="left" rowspan="2"></th> <th align="center" colspan="2">原始数据</th> <th align="center" colspan="2">候选特征子集</th> </tr> <tr> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> </tr> </thead> <tbody> <tr> <td align="left">WYHXB</td> <td align="center">798年</td> <td align="center">234.967849</td> <td align="center">678年</td> <td align="center">234.800187</td> </tr> <tr> <td align="left">NYWZ</td> <td align="center">10283年</td> <td align="center">234.052699</td> <td align="center">8226年</td> <td align="center">233.324863</td> </tr> <tr> <td align="left">BlogData</td> <td align="center">280年</td> <td align="center">12.645784</td> <td align="center">140年</td> <td align="center">12.645784</td> </tr> <tr> <td align="left">RBuild</td> <td align="center">103年</td> <td align="center">352.473674</td> <td align="center">72年</td> <td align="center">353.914801</td> </tr> <tr> <td align="left">CCrime</td> <td align="center">128年</td> <td align="center">0.131377</td> <td align="center">120年</td> <td align="center">0.131535</td> </tr> </tbody> </table> </table-wrap> </sec> <sec id="sec4.2.2"> <title>4.2.2。消除冗余特征</t我tle> <p>通过以上实验,过滤无关的特性可以通过获取候选特征子集。然而,根据新模型的建设,有必要把候选人特征子集(升序)同样在实验过程中,但不同的分区策略会影响最终的实验结果,所以参数的进一步讨论和分析<我talic> K</我talic>(需要的价值范围<我talic> K</我talic>设置为1 - 15)来确定最优<我talic> K</我talic>值,以确保结果的可靠性模型。与此同时,为了避免实验尽可能的应急,实验还采用GBDT RMSE XGBoost作为综合评价指标(即。的意思是RMSE两个)。在实验分析结果如图<xref ref-type="fig" rid="fig2"> 2</xref>- - - - - -<xref ref-type="fig" rid="fig6"> 6</xref>),它可以发现,当<我talic> k</我talic>= 5 WYHXB数据,其相应的权值是最好的;当<我talic> k</我talic>= 6 NYWZ数据,其相应的权值是最好的;当<我talic> k</我talic>= 5 BlogData数据,相应的权值是最好的;当<我talic> k</我talic>= 3 RBuild数据,相应的权值是最好的;当<我talic> k</我talic>= 14 CCrime数据,相应的权值是最好的。候选特征子集的划分后,的冗余特性可以分析在后来的实验中,以选择最优特征子集。</p> <fig id="fig2"> <label>图2</label> <p>WYHXB参数<我talic> K</我talic>选择。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.002"></graphic> </fig> <fig id="fig3"> <label>图3</label> <p>NYWZ参数<我talic> K</我talic>选择。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.003"></graphic> </fig> <fig id="fig4"> <label>图4</label> <p>BlogData参数<我talic> K</我talic>选择。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.004"></graphic> </fig> <fig id="fig5"> <label>图5</label> <p>RBuild参数<我talic> K</我talic>选择。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.005"></graphic> </fig> <fig id="fig6"> <label>图6</label> <p>CCrime参数<我talic> K</我talic>选择。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.006"></graphic> </fig> <p>为进一步分析模型,每个数据集随机分为训练集和测试集的比例6:4,XGBoost [<xref ref-type="bibr" rid="B31"> 31日</xref>],套索[<xref ref-type="bibr" rid="B32"> 32</xref>],FCBF-MIC [<xref ref-type="bibr" rid="B19"> 19</xref>),改进算法(CI_AMB)被用于培训和学习;测试集受到回归实验(模型参数选择与上述实验结果一致),和RSME被用作模型索引。同时,为了保证结果的可靠性模型,每个测试数据测试10次,然后平均值作为最终的实验结果。为了验证效果和有效性的特征选择在实验期间,原始数据也使用GBDT的回归模型和XGBoost相媲美。实验结果如表所示<xref ref-type="table" rid="tab6"> 6</xref>- - - - - -<xref ref-type="table" rid="tab7"> 7</xref>:</p> <table-wrap id="tab6"> <label>表6</label> <p>CI_AMB之间的比较实验结果和其他方法(GBDT RMSE评价指标)。</p> <table> <thead> <tr> <th align="left" rowspan="2"></th> <th align="center" colspan="2">原始数据</th> <th align="center" colspan="2">CI_AMB</th> <th align="center" colspan="2">XGBoost</th> <th align="center" colspan="2">套索</th> <th align="center" colspan="2">FCBF-MIC</th> </tr> <tr> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> </tr> </thead> <tbody> <tr> <td align="left">WYHXB</td> <td align="center">798年</td> <td align="center">267.5115</td> <td align="center">80 (19 + 61)</td> <td align="center"> <bold> 232.7352</bold></td> <td align="center">83年</td> <td align="center">269.1644</td> <td align="center">89年</td> <td align="center">255.9661</td> <td align="center">15</td> <td align="center">265.0474</td> </tr> <tr> <td align="left">NYWZ</td> <td align="center">10283年</td> <td align="center">258.4021</td> <td align="center">220 (59 + 161)</td> <td align="center"> <bold> 234.8831</bold></td> <td align="center">212年</td> <td align="center">263.3908</td> <td align="center">215年</td> <td align="center">256.2172</td> <td align="center">60</td> <td align="center">265.2352</td> </tr> <tr> <td align="left">BlogData</td> <td align="center">280年</td> <td align="center">22.7247</td> <td align="center">48 (5 + 43)</td> <td align="center"> <bold> 7.4822</bold></td> <td align="center">43</td> <td align="center">14.5660</td> <td align="center">47</td> <td align="center">18.7933</td> <td align="center">9</td> <td align="center">24.2629</td> </tr> <tr> <td align="left">RBuild</td> <td align="center">103年</td> <td align="center">458.0302</td> <td align="center">35 (16 + 19)</td> <td align="center"> <bold> 417.1441</bold></td> <td align="center">23</td> <td align="center">458.2780</td> <td align="center">26</td> <td align="center">466.8546</td> <td align="center">3</td> <td align="center">461.7130</td> </tr> <tr> <td align="left">CCrime</td> <td align="center">127年</td> <td align="center"> <bold> 0.1067</bold></td> <td align="center">37 (3 + 34)</td> <td align="center">0.1091</td> <td align="center">37</td> <td align="center">0.1176</td> <td align="center">31日</td> <td align="center">0.1121</td> <td align="center">5</td> <td align="center">0.1231</td> </tr> <tr> <td align="left">平均值</td> <td align="left"></td> <td align="center">201.3550</td> <td align="left"></td> <td align="center"> <bold> 178.4708</bold></td> <td align="left"></td> <td align="center">201.1034</td> <td align="left"></td> <td align="center">199.5887</td> <td align="left"></td> <td align="center">203.2763</td> </tr> </tbody> </table> </table-wrap> <table-wrap id="tab7"> <label>表7</label> <p>CI_AMB的比较实验结果与其他方法(XGBoost RMSE评价指标)。</p> <table> <thead> <tr> <th align="left" rowspan="2"></th> <th align="center" colspan="2">原始数据</th> <th align="center" colspan="2">CI_AMB</th> <th align="center" colspan="2">XGBoost</th> <th align="center" colspan="2">套索</th> <th align="center" colspan="2">FCBF-MIC</th> </tr> <tr> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> <th align="center">数的功能</th> <th align="center">RMSE</th> </tr> </thead> <tbody> <tr> <td align="left">WYHXB</td> <td align="center">798年</td> <td align="center">227.9061</td> <td align="center">80 (19 + 61)</td> <td align="center"> <bold> 205.0669</bold></td> <td align="center">83年</td> <td align="center">221.8774</td> <td align="center">89年</td> <td align="center">214.0560</td> <td align="center">15</td> <td align="center">229.7367</td> </tr> <tr> <td align="left">NYWZ</td> <td align="center">10283年</td> <td align="center">219.7160</td> <td align="center">220 (59 + 161)</td> <td align="center"> <bold> 201.5748</bold></td> <td align="center">212年</td> <td align="center">220.3312</td> <td align="center">215年</td> <td align="center">225.1712</td> <td align="center">60</td> <td align="center">225.1525</td> </tr> <tr> <td align="left">BlogData</td> <td align="center">280年</td> <td align="center">8.6356</td> <td align="center">48 (5 + 43)</td> <td align="center"> <bold> 4.1587</bold></td> <td align="center">43</td> <td align="center">10.0949</td> <td align="center">47</td> <td align="center">10.2909</td> <td align="center">9</td> <td align="center">10.8045</td> </tr> <tr> <td align="left">RBuild</td> <td align="center">103年</td> <td align="center">264.5195</td> <td align="center">35 (16 + 19)</td> <td align="center"> <bold> 255.1114</bold></td> <td align="center">23</td> <td align="center">269.8928</td> <td align="center">26</td> <td align="center">261.3095</td> <td align="center">3</td> <td align="center">278.6242</td> </tr> <tr> <td align="left">CCrime</td> <td align="center">127年</td> <td align="center">0.1447</td> <td align="center">37 (3 + 34)</td> <td align="center"> <bold> 0.1443</bold></td> <td align="center">37</td> <td align="center">0.1487</td> <td align="center">31日</td> <td align="center">0.1483</td> <td align="center">5</td> <td align="center">0.1492</td> </tr> <tr> <td align="left">平均值</td> <td align="left"></td> <td align="center">144.1844</td> <td align="left"></td> <td align="center"> <bold> 133.2112</bold></td> <td align="left"></td> <td align="center">144.4690</td> <td align="left"></td> <td align="center">142.1952</td> <td align="left"></td> <td align="center">148.8934</td> </tr> </tbody> </table> </table-wrap> <p>从实验结果可以看到在上面的表CI_AMB的特征选择方法是在测试集上执行的五套原始数据,和实验结果如下:WYHXB数据的原始特征的数量是798,删除冗余特性之后,最终选择的最优特征子集数是80,包括61年19强烈相关特性和弱相关nonredundant特性。NYWZ数据的原始特征的数量是10283。消除冗余特征后,最终数量的最优特征子集,可以筛选是220,包括161年59强烈相关特性和弱相关nonredundant功能;BlogData数据的原始编号是280,消除冗余特性后,最后,筛选最优特征子集的数量可以是48岁,包括5强烈相关特性和43 nonredundant弱相关特性。RBuild数据的原始特征的数量是103,在消除冗余特征。最后,筛选最优特征子集的数量可以是35,包括16强相关特性和19 nonredundant弱相关功能;CCrime数据的原始特征的数量是127,后做冗余,和最终的数量可以选择到37次优的特性,包括3强烈相关特性和34 nonredundant弱相关特性。值得注意的是,在过滤无关的特性和消除冗余特征,获得的强相关特性和弱相关nonredundant特性是根据相关性的程度区分特性和目标变量,也就是说,如果麦克风得分大于0.6,这是一个功能有着密切的联系,如果没有,这是一个弱相关nonredundant特性。</p> <p>后CI_AMB特征选择,可以发现,(1)与原始数据相比(在没有特征选择)的情况下,新方法稍差的结果(0.0024误差大于原始数据)的结果在CCrime数据(使用RMSE GBDT作为评价指标,表<xref ref-type="table" rid="tab6"> 6</xref>),但在其他数据集,结果比原始数据(见表<xref ref-type="table" rid="tab6"> 6</xref>和<xref ref-type="table" rid="tab7"> 7</xref>);(2)与XGBoost相比,套索,FCBF-MIC,而功能是相似的,RMSE值CI_AMB评价模型的方法比其他方法更好。与此同时,为了观察和比较实验结果更直观,两个评价指标的趋势图(GBDT和XGBoost)策划(数字<xref ref-type="fig" rid="fig7"> 7</xref>和<xref ref-type="fig" rid="fig8"> 8</xref>),以反映RMSE的整体波动。结合上面的表和数据的实验结果<xref ref-type="fig" rid="fig7"> 7</xref>和<xref ref-type="fig" rid="fig8"> 8</xref>,它可以观察到,改进后的算法通常优于其他算法,表明新模型有效地去除无关的特征和冗余特征的影响。总之,改进后的算法不仅可以更好地过滤掉nonredundant强烈相关特性和弱相关的特性,但也提高了回归模型的准确性在一定程度上。</p> <fig id="fig7"> <label>图7</label> <p>的平均RMSE趋势五套数据集。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.007"></graphic> </fig> <fig id="fig8"> <label>图8</label> <p>的平均RMSE趋势五套数据集。</p> <graphic xlink:href="//www.newsama.com/downloads/journals/cmmm/2020/8308173.fig.008"></graphic> </fig> </sec> </sec> </sec> <sec id="sec5"> <title>5。结论</t我tle> <p>针对问题,中医的基本实验数据高维度和一些样品和含有更多的无关信息和冗余信息,混合特征选择方法提出了基于迭代逼近马尔科夫毯。方法执行两阶段特性分析的最大信息迭代近似系数和马尔科夫毯,分别做过滤不相关特性和扑杀的冗余特性,从而达到最优特征子集的筛查。通过实验比较中药的基本数据和UCI数据集,它是证明了改进算法显著降低了特征维数和提高模型的解释程度。它是一种分析方法适合高维小样本数据的传统中药。在未来的研究工作中,我们将继续优化算法,确保合理设置相关参数可以进一步研究在构建模型。</p> </sec> <back> <sec sec-type="data-availability"> <title>数据可用性</t我tle> <p>本研究中使用的中药数据可以通过联系第一作者。UCI数据集可以通过UCI机器学习库(<ext-link ext-link-type="uri" xlink:href="http://archive.ics.uci.edu/ml/datasets.html"> http://archive.ics.uci.edu/ml/datasets.html</ext-link>)。应该注意,UCI数据集是常用的标准测试数据集提出的加州大学欧文分校的机器学习。</p> </sec> <sec sec-type="COI-statement"> <title>的利益冲突</t我tle> <p>作者宣称没有利益冲突有关的出版。</p> </sec> <ack> <title>确认</t我tle> <p>这项研究是由中国国家自然科学基金(61762051和61762051号)和江西省重大项目基金(20171 ace50021, 20171 bbg70108和YC2018-S281)。</p> </ack> <ref-list> <ref id="B1" content-type="article"> <label>1</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Hellton</年代urname> <given-names> k . H。</given-names> </name> <name> <surname> Hjort</年代urname> <given-names> n . L。</given-names> </name> </person-group> <article-title> 冰箱:集中微调个性化的岭回归预测</article-title> <source> <italic> 医学统计</我talic> <year> 2018年</year> <volume> 37</volume> <issue> 8</我年代年代ue> <fpage> 1290年</fpage> <lpage> 1303年</lpage> <pub-id pub-id-type="doi"> 10.1002 / sim.7576</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85043599673</pub-id> </element-citation> </ref> <ref id="B2" content-type="article"> <label>2</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 杨</年代urname> <given-names> N。</given-names> </name> </person-group> <article-title> 岭回归分析的独特作用在解决多重共线性问题</article-title> <source> <italic> 统计与决策</我talic> <year> 2004年</year> <volume> 7</volume> <issue> 3</我年代年代ue> <fpage> 14</fpage> <lpage> 15</lpage> </element-citation> </ref> <ref id="B3" content-type="article"> <label>3</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 刘</年代urname> <given-names> J。</given-names> </name> <name> <surname> 高</年代urname> <given-names> P。</given-names> </name> <name> <surname> 元</年代urname> <given-names> J。</given-names> </name> <name> <surname> 杜</年代urname> <given-names> X。</given-names> </name> </person-group> <article-title> 监控的一个有效方法基于RMT和PCA的大规模的交通模式</article-title> <source> <italic> 概率论与数理统计》杂志上</我talic> <year> 2010年</year> <volume> 2010年</volume> <issue> 6</我年代年代ue> <lpage> 16</lpage> <pub-id pub-id-type="publisher-id"> 375942年</pub-id> <pub-id pub-id-type="doi"> 10.1155 / 2010/375942</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84859199212</pub-id> </element-citation> </ref> <ref id="B4" content-type="article"> <label>4</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 张</年代urname> <given-names> J。</given-names> </name> <name> <surname> 胡</年代urname> <given-names> X。</given-names> </name> <name> <surname> 张</年代urname> <given-names> Y。</given-names> </name> </person-group> <article-title> K-split套索:一个有效的特征选择方法为肿瘤基因表达数据分析[J]</article-title> <source> <italic> 计算机科学与技术的前沿》杂志上</我talic> <year> 2012年</year> <volume> 6</volume> <issue> 12</我年代年代ue> <fpage> 1136年</fpage> <lpage> 1143年</lpage> </element-citation> </ref> <ref id="B5" content-type="article"> <label>5</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 安德里亚</年代urname> <given-names> B。</given-names> </name> <name> <surname> Rahnenfuhrer</年代urname> <given-names> J</given-names> </name> <name> <surname> 米歇尔</年代urname> <given-names> l</given-names> </name> </person-group> <article-title> 多准则方法找到预测和稀疏模型与稳定的高维数据的特征选择</article-title> <source> <italic> 计算和数学方法在医学</我talic> <year> 2017年</year> <volume> 2017年</volume> <issue> 1</我年代年代ue> <lpage> 18</lpage> <pub-id pub-id-type="publisher-id"> 7907163</pub-id> <pub-id pub-id-type="doi"> 10.1155 / 2017/7907163</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85038009712</pub-id> </element-citation> </ref> <ref id="B6" content-type="article"> <label>6</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 宣</年代urname> <given-names> H。</given-names> </name> </person-group> <article-title> 特征降维的研究和开发</article-title> <source> <italic> 计算机科学</我talic> <year> 2018年</year> <volume> 45</volume> <issue> S1</我年代年代ue> <fpage> 16</fpage> <lpage> 21 + 53</lpage> </element-citation> </ref> <ref id="B7" content-type="article"> <label>7</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 王</年代urname> <given-names> X。</given-names> </name> <name> <surname> 胡</年代urname> <given-names> X。</given-names> </name> </person-group> <article-title> 在高维特征选择和样本规模小的分类概述</article-title> <source> <italic> 《计算机应用</我talic> <year> 2017年</year> <volume> 37</volume> <issue> 9</我年代年代ue> <fpage> 2433年</fpage> <lpage> 2438年</lpage> </element-citation> </ref> <ref id="B8" content-type="article"> <label>8</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 周</年代urname> <given-names> H。</given-names> </name> <name> <surname> 乔</年代urname> <given-names> J。</given-names> </name> </person-group> <article-title> 基于高维的特征选择方法再邻居互信息</article-title> <source> <italic> CAAI智能交易系统</我talic> <year> 2017年</year> <volume> 12</volume> <issue> 5</我年代年代ue> <fpage> 595年</fpage> <lpage> 600年</lpage> </element-citation> </ref> <ref id="B9" content-type="misc"> <label>9</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Sosa-Cabrera</年代urname> <given-names> G。</given-names> </name> <name> <surname> Garcia-Torres</年代urname> <given-names> M。</given-names> </name> <name> <surname> 戈麦斯</年代urname> <given-names> 年代。</given-names> </name> <etal></etal> </person-group> <article-title> 理解一种多元对称协助特征选择的不确定性</article-title> <year> 2017年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1709.08730"> http://arxiv.org/abs/1709.08730</ext-link> </comment> </element-citation> </ref> <ref id="B10" content-type="article"> <label>10</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 妞妞</年代urname> <given-names> l</given-names> </name> <name> <surname> 赵</年代urname> <given-names> X。</given-names> </name> <name> <surname> 史</年代urname> <given-names> Y。</given-names> </name> </person-group> <article-title> 特征选择与属性聚类系数最大的信息</article-title> <source> <italic> Procedia计算机科学</我talic> <year> 2013年</year> <volume> 17</volume> <issue> 2</我年代年代ue> <fpage> 70年</fpage> <lpage> 79年</lpage> <pub-id pub-id-type="doi"> 10.1016 / j.procs.2013.05.021</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84898752711</pub-id> </element-citation> </ref> <ref id="B11" content-type="article"> <label>11</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 彭</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 祖茂堂</年代urname> <given-names> C。</given-names> </name> <name> <surname> 张</年代urname> <given-names> D。</given-names> </name> </person-group> <article-title> 基于超图的多模式特征选择和它的应用程序</article-title> <source> <italic> 计算机科学与技术的前沿》杂志上</我talic> <year> 2018年</year> <volume> 12</volume> <issue> 1</我年代年代ue> <fpage> 112年</fpage> <lpage> 119年</lpage> </element-citation> </ref> <ref id="B12" content-type="article"> <label>12</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 太阳</年代urname> <given-names> G。</given-names> </name> <name> <surname> 张</年代urname> <given-names> J。</given-names> </name> </person-group> <article-title> 混合特征选择算法对高维微阵列数据</article-title> <source> <italic> 《中国计算机系统</我talic> <year> 2015年</year> <volume> 36</volume> <issue> 6</我年代年代ue> <fpage> 1209年</fpage> <lpage> 1213年</lpage> </element-citation> </ref> <ref id="B13" content-type="article"> <label>13</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 叶</年代urname> <given-names> Q。</given-names> </name> <name> <surname> 高</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 吴</年代urname> <given-names> R。</given-names> </name> <etal></etal> </person-group> <article-title> 基于对称的基因选择方法的不确定性和SVM的递归特性消除</article-title> <source> <italic> 模式识别和人工智能</我talic> <year> 2017年</year> <volume> 30.</volume> <issue> 5</我年代年代ue> <fpage> 47</fpage> <lpage> 56</lpage> </element-citation> </ref> <ref id="B14" content-type="inproceedings"> <label>14</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> Nagaraja</年代urname> <given-names> 诉K。</given-names> </name> <name> <surname> Abd-Almageed</年代urname> <given-names> W。</given-names> </name> </person-group> <article-title> 使用偏最小二乘回归特征选择和最优实验设计</article-title> <conf-name> 《2015年国际神经网络(IJCNN)联合会议</conf-name> <conf-date> 2015年7月</conf-date> <conf-loc> 爱尔兰基拉尼的</conf-loc> <publisher-name> IEEE</publisher-name> <fpage> 17</fpage> <lpage> 19</lpage> <pub-id pub-id-type="doi"> 10.1109 / ijcnn.2015.7280341</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84951206044</pub-id> </element-citation> </ref> <ref id="B15" content-type="article"> <label>15</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 胡</年代urname> <given-names> M。</given-names> </name> <name> <surname> 郑</年代urname> <given-names> l</given-names> </name> <name> <surname> 唐</年代urname> <given-names> l</given-names> </name> <etal></etal> </person-group> <article-title> 基于联合谱聚类的特征选择算法和邻里互信息</article-title> <source> <italic> 模式识别和人工智能</我talic> <year> 2017年</year> <volume> 30.</volume> <issue> 12</我年代年代ue> <fpage> 1121年</fpage> <lpage> 1129年</lpage> </element-citation> </ref> <ref id="B16" content-type="incollection"> <label>16</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> 汉</年代urname> <given-names> M。</given-names> </name> <name> <surname> 刘</年代urname> <given-names> X。</given-names> </name> </person-group> <article-title> 提出了特征选择基于近似马尔科夫毯</article-title> <source> <italic> 国际会议上提出的神经网络</我talic> <year> 2012年</year> <publisher-loc> 柏林,德国</publisher-loc> <publisher-name> 斯普林格出版社</publisher-name> <fpage> 64年</fpage> <lpage> 72年</lpage> <pub-id pub-id-type="doi"> 10.1007 / 978 - 3 - 642 - 31362 - 2 - _8</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84865116931</pub-id> </element-citation> </ref> <ref id="B17" content-type="inproceedings"> <label>17</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 科勒</年代urname> <given-names> D。</given-names> </name> <name> <surname> Sahami</年代urname> <given-names> M。</given-names> </name> </person-group> <article-title> 对最优特征选择</article-title> <conf-name> 十三学报》国际会议上国际会议上机器学习</conf-name> <conf-date> 1996年7月</conf-date> <conf-loc> 巴里,意大利</conf-loc> <fpage> 284年</fpage> <lpage> 292年</lpage> </element-citation> </ref> <ref id="B18" content-type="article"> <label>18</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 张</年代urname> <given-names> 李</given-names> </name> <name> <surname> 王</年代urname> <given-names> C。</given-names> </name> <name> <surname> 郭</年代urname> <given-names> W。</given-names> </name> </person-group> <article-title> 最大相关最小冗余的特征选择算法使用近似马尔科夫毯</article-title> <source> <italic> 西安交通大学学报</我talic> <year> 2018年</year> <volume> 52</volume> <issue> 10</我年代年代ue> <fpage> 147年</fpage> <lpage> 151年</lpage> </element-citation> </ref> <ref id="B19" content-type="article"> <label>19</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 太阳</年代urname> <given-names> G.-L。</given-names> </name> <name> <surname> 首歌</年代urname> <given-names> Z.-C。</given-names> </name> <name> <surname> 刘</年代urname> <given-names> J.-L。</given-names> </name> <etal></etal> </person-group> <article-title> 基于最大信息系数的特征选择方法和近似马尔科夫毯</article-title> <source> <italic> 《自动化学报》</我talic> <year> 2017年</year> <volume> 43</volume> <issue> 5</我年代年代ue> <fpage> 795年</fpage> <lpage> 805年</lpage> </element-citation> </ref> <ref id="B20" content-type="article"> <label>20.</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 万丰</年代urname> <given-names> 年代。</given-names> </name> <name> <surname> Xuegang</年代urname> <given-names> h . U。</given-names> </name> </person-group> <article-title> 部分k套索基于高维数据的特征选择算法</article-title> <source> <italic> 计算机工程与应用</我talic> <year> 2012年</year> <volume> 48</volume> <issue> 1</我年代年代ue> <fpage> 157年</fpage> <lpage> 161年</lpage> </element-citation> </ref> <ref id="B21" content-type="article"> <label>21</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 余</年代urname> <given-names> l</given-names> </name> <name> <surname> 刘</年代urname> <given-names> H。</given-names> </name> </person-group> <article-title> 通过相关性分析和冗余Eficient特征选择</article-title> <source> <italic> 机器学习研究杂志》上</我talic> <year> 2004年</year> <volume> 5</volume> <issue> 12</我年代年代ue> <fpage> 1205年</fpage> <lpage> 1224年</lpage> </element-citation> </ref> <ref id="B22" content-type="article"> <label>22</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 首歌</年代urname> <given-names> Q。</given-names> </name> <name> <surname> 倪</年代urname> <given-names> J。</given-names> </name> <name> <surname> 王</年代urname> <given-names> G。</given-names> </name> </person-group> <article-title> 快速clustering-based高维数据的特征子集选择算法</article-title> <source> <italic> IEEE工程知识和数据</我talic> <year> 2013年</year> <volume> 25</volume> <issue> 1</我年代年代ue> <fpage> 1</fpage> <lpage> 14</lpage> </element-citation> </ref> <ref id="B23" content-type="article"> <label>23</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 鲁伊斯</年代urname> <given-names> R。</given-names> </name> <name> <surname> 里克尔梅</年代urname> <given-names> j . C。</given-names> </name> <name> <surname> Aguilar-Ruiz</年代urname> <given-names> j·S。</given-names> </name> </person-group> <article-title> 增量wrapper-based癌症基因选择从微阵列数据的分类</article-title> <source> <italic> 模式识别</我talic> <year> 2006年</year> <volume> 39</volume> <issue> 12</我年代年代ue> <fpage> 2383年</fpage> <lpage> 2392年</lpage> <pub-id pub-id-type="doi"> 10.1016 / j.patcog.2005.11.001</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 33748416594</pub-id> </element-citation> </ref> <ref id="B24" content-type="article"> <label>24</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 谢夫</年代urname> <given-names> d . N。</given-names> </name> <name> <surname> 谢夫</年代urname> <given-names> y。</given-names> </name> <name> <surname> 芬努凯恩</年代urname> <given-names> h·K。</given-names> </name> <etal></etal> </person-group> <article-title> 检测小说在大型数据集关联</article-title> <source> <italic> 科学</我talic> <year> 2011年</year> <volume> 334年</volume> <issue> 6062年</我年代年代ue> <fpage> 1518年</fpage> <lpage> 1524年</lpage> <pub-id pub-id-type="doi"> 10.1126 / science.1205438</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 83755163018</pub-id> </element-citation> </ref> <ref id="B25" content-type="article"> <label>25</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> De Souza</年代urname> <given-names> r S。</given-names> </name> <name> <surname> Maio</年代urname> <given-names> U。</given-names> </name> <name> <surname> Biffi</年代urname> <given-names> V。</given-names> </name> <name> <surname> Ciardi</年代urname> <given-names> B。</given-names> </name> </person-group> <article-title> 健壮的PCA和麦克风minihaloes月初统计的重子</article-title> <source> <italic> 皇家天文学会月刊</我talic> <year> 2014年</year> <volume> 440年</volume> <issue> 1</我年代年代ue> <fpage> 240年</fpage> <lpage> 248年</lpage> <pub-id pub-id-type="doi"> 10.1093 / mnras / stu274</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84897494290</pub-id> </element-citation> </ref> <ref id="B26" content-type="article"> <label>26</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 曾</年代urname> <given-names> 问:问。</given-names> </name> <name> <surname> 曾</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> 锅</年代urname> <given-names> D。</given-names> </name> <etal></etal> </person-group> <article-title> 贝叶斯网络结构学习算法基于最大信息系数</article-title> <source> <italic> 计算机工程</我talic> <year> 2017年</year> <volume> 43</volume> <issue> 8</我年代年代ue> <fpage> 225年</fpage> <lpage> 230年</lpage> </element-citation> </ref> <ref id="B27" content-type="article"> <label>27</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Mani-Varnosfaderani</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> Ghaemmaghami</年代urname> <given-names> M。</given-names> </name> </person-group> <article-title> 评估使用标准正交的二维分离系统定义的最大信息系数</article-title> <source> <italic> 杂志的色谱</我talic> <year> 2015年</year> <volume> 1415年</volume> <issue> 10</我年代年代ue> <fpage> 108年</fpage> <lpage> 114年</lpage> <pub-id pub-id-type="doi"> 10.1016 / j.chroma.2015.08.049</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84941878234</pub-id> </element-citation> </ref> <ref id="B28" content-type="article"> <label>28</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Shun-Kai</年代urname> <given-names> F。</given-names> </name> <name> <surname> Zhi-Zhen</年代urname> <given-names> 年代。</given-names> </name> <name> <surname> 明尼苏达州</年代urname> <given-names> 年代。</given-names> </name> <etal></etal> </person-group> <article-title> 加速马尔科夫毯使用拓扑信息的恢复</article-title> <source> <italic> 计算机科学</我talic> <year> 2015年</year> <volume> 42</volume> <issue> Z11</我年代年代ue> <fpage> 42</fpage> <lpage> 48</lpage> </element-citation> </ref> <ref id="B29" content-type="article"> <label>29日</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 曾</年代urname> <given-names> 一个。</given-names> </name> <name> <surname> 郑</年代urname> <given-names> Q.-m。</given-names> </name> </person-group> <article-title> 深度信念网络研究基于最大信息系数</article-title> <source> <italic> 计算机科学</我talic> <year> 2016年</year> <volume> 43</volume> <issue> 8</我年代年代ue> <fpage> 249年</fpage> <lpage> 253年</lpage> </element-citation> </ref> <ref id="B30" content-type="article"> <label>30.</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 常</年代urname> <given-names> Z。</given-names> </name> <name> <surname> 华</年代urname> <given-names> Y。</given-names> </name> <name> <surname> 杰出</年代urname> <given-names> D。</given-names> </name> <etal></etal> </person-group> <article-title> 多尺度编码的氨基酸序列预测蛋白质相互作用使用梯度提高决策树</article-title> <source> <italic> 《公共科学图书馆•综合》</我talic> <year> 2017年</year> <volume> 12</volume> <issue> 8</我年代年代ue> <pub-id pub-id-type="publisher-id"> e0181426</pub-id> <pub-id pub-id-type="doi"> 10.1371 / journal.pone.0181426</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85027018673</pub-id> </element-citation> </ref> <ref id="B31" content-type="misc"> <label>31日</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 陈</年代urname> <given-names> T。</given-names> </name> <name> <surname> 通</年代urname> <given-names> H。</given-names> </name> <name> <surname> Benesty</年代urname> <given-names> M。</given-names> </name> </person-group> <article-title> Xgboost:极端的梯度增加</article-title> <year> 2016年</year> </element-citation> </ref> <ref id="B32" content-type="article"> <label>32</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 黄</年代urname> <given-names> J。</given-names> </name> <name> <surname> 马</年代urname> <given-names> 年代。</given-names> </name> <name> <surname> 张</年代urname> <given-names> c . H。</given-names> </name> </person-group> <article-title> 自适应稀疏高维回归的套索</article-title> <source> <italic> Statistica中央研究院</我talic> <year> 2006年</year> <volume> 18</volume> <issue> 4</我年代年代ue> <fpage> 1603年</fpage> <lpage> 1618年</lpage> </element-citation> </ref> </ref-list> </back> </article> </body> </html>