JPS 概率论与数理统计》杂志上 1687 - 9538我年代年代n><我年代年代npub-type="ppub"> 1687 - 952 x我年代年代n> Hindawi出版公司 10.1155 / 2015/432986一个rt我cle- - - - - -我d><一个rt我cle-id pub-id-type="publisher-id"> 432986年一个rt我cle- - - - - -我d><一个rt我cle-categories> 研究文章年代ubject> 鲁棒稳定性最佳子集选择Autocorrelated数据基于健壮位置和分散估计量一个rt我cle- - - - - -t我tle> Uraibi年代urn一个米e> 哈桑。 1、2年代up> 2 Midi年代urn一个米e> Habshah 3年代up> Rana年代urn一个米e> Sohel 3年代up> Rodriguez-Dagnino年代urn一个米e> 拉蒙·M。 1年代up><一个ddr- - - - - -l我ne> 实验室的计算统计和运筹学一个ddr- - - - - -l我ne><一个ddr- - - - - -line> INSPEM一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 大学Putra马来西亚一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 43400年Serdang一个ddr- - - - - -l我ne> 马来西亚 upm.edu.my一个ff> 2年代up><一个ddr- - - - - -l我ne> 部门统计一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 学院经济学和管理一个ddr- - - - - -l我ne><一个ddr- - - - - -line> Al-Qadisiyah大学一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 迪瓦一个ddr- - - - - -l我ne> 伊拉克 qadissuniedu.iq一个ff> 3年代up><一个ddr- - - - - -l我ne> 学院科学和数学研究所一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 大学Putra马来西亚一个ddr- - - - - -l我ne><一个ddr- - - - - -line> 43400年Serdang一个ddr- - - - - -l我ne> 马来西亚 upm.edu.my一个ff> 2015年 31日 12米onth> 2015年 2015年 23 09年米onth> 2015年 07年 12米onth> 2015年 08年 12米onth> 2015年 2015年 版权©2015哈桑Uraibi et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。 稳定选择(multisplit)方法是一个变量选择过程依赖于multisplit数据克服缺点可能发生的每个劈叉数据。不幸的是,这个过程会产生非常贫穷的结果在异常值的存在和其他污染的原始数据。这个问题变得更加复杂的回归残差序列相关时。本文提出了一种新的鲁棒稳定性选拔程序救济相结合的自相关问题和异常值。我们的良好的性能提出了健壮的选择方法使用真实的空气质量数据和仿真研究。一个bstract> 1。介绍的方法是将数据拆分为两部分并不是新统计推断和数据分析。沃瑟曼和罗德 1)建议将每个劈叉方法与变量选择过程。变量选择算法进行第一部分(随机数据的一半),紧随其后的是测试每个选定的变量基础上的重要性<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 价值的回归系数的第二部分数据(剩下的一半的数据)。然而,由于这个过程并不能保证可重复的结果选择任意分割( 2]。选择或multisplit稳定性的方法是提出加强和改善每个劈叉变量选择方法的性能。稳定的现代方法提出的选择依赖于二次抽样技术( 2, 3高维度数据。数据是多次与相同大小的随机分割成两部分<我nl我ne- - - - - -formula> n米米l:米我><米米l:mo> /米米l:米o><米米l:米n> 2米米l:米n>米米l:math> 。反复与引导,稳定选择方法选择(不重复)两个次级样本大小相等<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> n米米l:米我><米米l:mo> /米米l:米o><米米l:米n> 2米米l:米n><米米l:米o stretchy="false"> ]米米l:米o>米米l:math> 从原始数据。有可能分裂的任何部分数据可能包含异常值比分裂的其他部分的数据。因此,现有的经典线性回归稳定选拔程序很容易受到异常值的影响,因此导致不可靠的变量选择最终的模型。能解决这个问题,将稳健估计的选择过程。然而,这种方法可能不是足够以来稳健估计将表现良好,一定比例的异常值(Imon "和阿里 4),Norazan et al。 5])。自稳定选择方法的选择过程是相当封闭的引导( 6),健壮的想法引导选拔程序可用于稳定。后的想法 4),在本文中,我们提出二次抽样前诊断方法。该诊断方法是基于再加权快速一致和高(RFCH)分解估计量是由( 7)(被Alkenani和Yu ( 8),奥兹德米尔和威尔科克斯 9张,et al。 10])。疑似异常值确定并执行删除和随机二次抽样从剩下的(清洁)的观察。拟议中的变量选择过程也考虑了自相关问题。这个问题,如果不纠正,可能提供误导性的结论的统计意义回归系数( 11]。因此,现有的变量选择过程可以选择错误的模型。必须采取适当的补救措施后检测的存在自相关问题。一个经常使用Cochrane-Orcutt或Prais-Winsten方法(格林[ 12],古吉拉特语和波特 11纠正相关问题)。尽管如此,这些程序是基于OLS估计,不健壮,因此很容易受到异常值的影响。安和Midi ( 13)提出了健壮Cochrane-Orcutt Prais-Winsten (RCOPW)迭代法,基于高故障点和高效率MM-estimator [ 14),以克服异常值的组合问题和autocorrelated错误。因此,本文的主要目的是开发可靠、鲁棒稳定性all-subset选拔程序在异常值的存在和自相关的问题。该方法是由整流制定自相关问题在一开始,随后再加权快速高(RFCH)分解估计量是一致的合并算法。收敛,集中(清洁)数据集标识和所有可能的子集的过程,即Akaike信息准则(AIC)和贝叶斯信息准则(BIC)方法,应用于集中数据集的最后步骤RFCH方法。这种方法被称为集中all-subset选择,可以视为一个之间的权衡的质量数据和模型的可解释性。 2。鲁棒稳定性选择的一致性橄榄油和霍金斯( 7)表明,RFCH估计快一致和高崩溃。RFCH估计构造使用浓度算法收敛的十个步骤后实现。在融合,识别异常值和从数据集中删除。剩下的数据将用于鲁棒稳定性选择方法,前者可以被认为是一种一致性有以下属性:(1) 每个劈叉all-subset选择的数据是一致的基础上( 7,定理<我nl我ne- - - - - -formula> 1米米l:米n>米米l:mrow> ]。(2) 每个劈叉的multisplit过程数据是重复的<我nl我ne- - - - - -formula> B米米l:米我>米米l:mrow> 次也是一致的基础上( 2,推论<我nl我ne- - - - - -formula> 3.1米米l:米n>米米l:mrow> ]。 3所示。鲁棒稳定性All-Subset选择方法让一个多元位置和散射模型的联合分布<我nl我ne- - - - - -formula> 我米米l:米我>米米l:mrow> th的情况下<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ×米米l:米o><米米l:米n> 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 随机向量完全指定的<我nl我ne- - - - - -formula> p米米l:米我><米米l:mo> ×米米l:米o><米米l:米n> 1米米l:米n>米米l:math> 人口的位置向量<我nl我ne- - - - - -formula> μ米米l:米我>米米l:mrow> 和一个<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ×米米l:米o><米米l:米i> p米米l:米我><米米l:mo stretchy="false"> )米米l:米o>米米l:math> 对称正定人口散射矩阵<我nl我ne- - - - - -formula> Σ米米l:米我>米米l:mrow> 。假设<我nl我ne- - - - - -formula> n米米l:米我>米米l:mrow> 病例收集在一个<我nl我ne- - - - - -formula> n米米l:米我><米米l:mo> ×米米l:米o><米米l:米i> p米米l:米我>米米l:math> 矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ,这样<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ubsup> X米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米年代ubsup> X米米l:米我>米米l:mrow> p米米l:米我>米米l:mrow> T米米l:米我>米米l:mrow> 是独立的。考虑线性回归模型<我nl我ne- - - - - -formula> Y米米l:米我><米米l:mo> =米米l:米o><米米l:米i> X米米l:米我><米米l:mi> β米米l:米我><米米l:mo> +米米l:米o><米米l:米i> ε米米l:米我>米米l:math> ,在那里<我nl我ne- - - - - -formula> Y米米l:米我>米米l:mrow> 是一个<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> n米米l:米我><米米l:mo> ×米米l:米o><米米l:米n> 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 响应变量的向量,<我nl我ne- - - - - -formula> β米米l:米我>米米l:mrow> 是一个<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> n米米l:米我><米米l:mo> ×米米l:米o><米米l:米n> 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 向量回归参数,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 是一个<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> n米米l:米我><米米l:mo> ×米米l:米o><米米l:米i> p米米l:米我><米米l:mo stretchy="false"> )米米l:米o>米米l:math> 独立变量的矩阵,<我nl我ne- - - - - -formula> ε米米l:米我>米米l:mrow> 是一个<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> n米米l:米我><米米l:mo> ×米米l:米o><米米l:米n> 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 随机误差向量,<我nl我ne- - - - - -formula> ε米米l:米我><米米l:mo> ~米米l:米o><米米l:米i> N米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米n> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米年代up> σ米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> 我米米l:米我>米米l:mrow> n米米l:米我>米米l:mrow> )米米l:米o>米米l:math> 。我们提出的算法健壮和快速一致的变量选择包括三个主要阶段,总结如下。<年代t一个te米ent我d="stage1"> 第一阶段(整流自相关的问题)。我们遵循一个简单的程序健壮Cochrane-Orcutt安和Midi提出的方法( 13]纠正的自相关问题的存在这两种类型的外围观察,垂直异常值,并利用点。这个过程可以概括如下:(1) 估计的回归系数使用MM-estimator残差<我nl我ne- - - - - -formula> U米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> t米米l:米我>米米l:mrow> 。(2) 回归<我nl我ne- - - - - -formula> U米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> t米米l:米我>米米l:mrow> 与<我nl我ne- - - - - -formula> U米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> t米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n> 1米米l:米n>米米l:mrow> 使用MM-estimator,找到可靠的参数<我nl我ne- - - - - -formula> ρ米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> 。 (3) 使用<我nl我ne- - - - - -formula> ρ米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> 在下面的方程解决相关问题,并获得一个新的设计矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> 和响应变量<我nl我ne- - - - - -formula> Y米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> : (1)米米l:米text>米ml:mtd> Y米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代ub> Y米米l:米我>米米l:mrow> 2米米l:米n><米米l:米o> :米米l:米o><米米l:米i> n米米l:米我>米米l:mrow> - - - - - -米米l:米o><米米l:米over accent="true"> ρ米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> Y米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> :米米l:米o><米米l:米fenced separators="" open="(" close=")"> n米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n>米米l:mrow> X米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代ub> X米米l:米我>米米l:mrow> 2米米l:米n><米米l:米o> :米米l:米o><米米l:米i> n米米l:米我><米米l:mo> ,米米l:米o><米米l:米i> j米米l:米我>米米l:mrow> - - - - - -米米l:米o><米米l:米over accent="true"> ρ米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> X米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> :米米l:米o><米米l:米fenced open="[" close="]" separators="|"> n米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n> 1米米l:米n>米米l:mrow> ,米米l:米o><米米l:米i> j米米l:米我>米米l:mrow> ,米米l:米o>米米l:mtd> 在哪里<我nl我ne- - - - - -formula> j米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> p米米l:米我>米米l:math> 。 第二阶段(集中数据)。集中算法假设线性回归常态假设是违反了由于异常值或其他污染。RFCH算法是用来清理数据。这个过程使用德夫林,格纳纳德西肯和Kettenring (DGK) [ 15),平均球(MB) [ 16]。这些算法进行了总结如下。假设矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 结合了响应向量<我nl我ne- - - - - -formula> Y米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> 协变量和矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> 。年代t一个te米ent> (我)DGK算法我t一个l我c><年代tatement id="step1"> 步骤1。首先计算经典的估计量<我nl我ne- - - - - -formula> (米米l:米o><米米l:米over accent="true"> X米米l:米我>米米l:mrow> - - - - - -米米l:米o>米米l:mover> ,米米l:米o><米米l:米i mathvariant="normal"> c米米l:米我><米米l:mi mathvariant="normal"> o米米l:米我><米米l:mi mathvariant="normal"> v米米l:米我><米米l:mo stretchy="false"> )米米l:米o>米米l:math> 原始数据集的初始或起点<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> T米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> )米米l:米o>米米l:math> ,找到最初Mahalanobis距离: (2)米米l:米text>米ml:mtd> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代qrt> X米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> t米米l:米我>米米l:mrow> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> - - - - - -米米l:米o><米米l:米n> 1米米l:米n>米米l:mrow> X米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> 。米米l:米o>米米l:mtd> 步骤2。安排初始距离增加以计算其值。那些Mahalanobis观测原始数据集的距离小于中位数的Mahalanobis距离将在剩下的设置(一半数据集),会用<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> : (3)米米l:米text>米ml:mtd> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> =米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我><米米l:mi mathvariant="normal"> 我米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> n米米l:米我><米米l:mfenced separators="" open="(" close=")"> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="}" separators="|"> X米米l:米我>米米l:mrow> 我米米l:米我><米米l:mi> j米米l:米我>米米l:mrow> :米米l:米o><米米l:米年代ub> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ≤米米l:米o><米米l:米年代ub> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米i class="cond"> 我米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米o> j米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> 米米米l:米我><米米l:mo> 。米米l:米o>米米l:mtd> 步骤3。让<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 等于<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> 是原始数据的variance-covariance矩阵。计算平均的variance-covariance估计<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 第一个吸引子<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> T米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> )米米l:米o>米米l:math> 。年代t一个te米ent><年代tatement id="step4"> 步骤4。如果的对角元素<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 等于<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> 算法,然后停止。否则,重复步骤<我nl我ne- - - - - -formula> 1米米l:米n><米米l:米text> - - - - - -米米l:米text><米米l:mn> 3米米l:米n>米米l:math> 直到收敛,得到最终的吸引子<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> )米米l:米o>米米l:math> 和<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> K米米l:米我>米米l:mrow> 是收敛的一步。年代t一个te米ent> (2)中间球(MB)算法我t一个l我c><年代tatement id="step10"> 步骤1。假设初始variance-covariance矩阵<我nl我ne- - - - - -formula> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> =米米l:米o><米米l:米row> 诊断接头米米l:米我>米米l:mrow> 米米l:米o><米米l:米row> p米米l:米我>米米l:mrow> 地中海的单位矩阵和假设是中值矢量的矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 。然后,Mahalanobis距离基于中值定义如下: (4)米米l:米text>米ml:mtd> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代qrt> X米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> t米米l:米我>米米l:mrow> C米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 年代米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> r米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:mrow> - - - - - -米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n>米米l:mrow> X米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> 。米米l:米o>米米l:mtd> 步骤2。的中位数是分界点位置标准<我nl我ne- - - - - -formula> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> 和用<我nl我ne- - - - - -formula> l米米l:米我><米米l:mi mathvariant="normal"> u米米l:米我><米米l:mi mathvariant="normal"> c米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我>米米l:math> : (5)米米l:米text>米ml:mtd> l米米l:米我><米米l:mi mathvariant="normal"> u米米l:米我><米米l:mi mathvariant="normal"> c米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mo> =米米l:米o><米米l:米年代ub> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> =米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我><米米l:mi mathvariant="normal"> 我米米l:米我><米米l:mi mathvariant="normal"> 一个米米l:米我><米米l:mi mathvariant="normal"> n米米l:米我><米米l:mfenced separators="|"> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o>米米l:mtd> 在哪里<我nl我ne- - - - - -formula> l米米l:米我><米米l:mi mathvariant="normal"> u米米l:米我><米米l:mi mathvariant="normal"> c米米l:米我><米米l:mi mathvariant="normal"> t米米l:米我><米米l:mo> ≠米米l:米o><米米l:米n mathvariant="normal"> 0.5米米l:米n>米米l:math> 。应的分位数的分界点<我nl我ne- - - - - -formula> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> 的概率等于0.5。的浓度<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 数据集,找到一半只有nonoutlying观测的Mahalanobis距离小于或等于平均: (6)米米l:米text>米ml:mtd> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="}" separators="|"> X米米l:米我>米米l:mrow> 我米米l:米我><米米l:mi> j米米l:米我>米米l:mrow> :米米l:米o><米米l:米年代ub> D米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ≤米米l:米o><米米l:米年代ub> 米米米l:米我><米米l:mi mathvariant="normal"> e米米l:米我><米米l:mi mathvariant="normal"> d米米l:米我>米米l:mrow> 0米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o><米米l:米i class="cond"> 我米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米o> j米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> 米米米l:米我><米米l:mo> 。米米l:米o>米米l:mtd> 步骤3。计算平均的variance-covariance矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> 。年代t一个te米ent><年代tatement id="step40"> 步骤4。浓度,计算Mahalanobis距离,并重复步骤<我nl我ne- - - - - -formula> 1米米l:米n><米米l:米text> - - - - - -米米l:米text><米米l:mn> 3米米l:米n>米米l:math> 直到收敛在最后的吸引子<我nl我ne- - - - - -formula> (米米l:米o><米米l:米i> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 5米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> )米米l:米o>米米l:math> 和<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> K米米l:米我>米米l:mrow> 是收敛的一步。年代t一个te米ent> (3)再加权快速且一致的高(RFCH)分解算法。我t一个l我c>橄榄油和霍金斯( 7]开发了MB估计通过添加标准或分界点位置选择吸引子,并提出所谓的快速一致和高(FCH)分解估计量。橄榄油和霍金斯( 7)指出,FCH估计使用最小行列式的吸引子。<年代t一个te米ent我d="step100"> 步骤1。遵循同样的方法橄榄和霍金斯( 7),定义最后流动如下: (7)米米l:米text>米ml:mtd> T米米l:米我>米米l:mrow> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="" separators="|"> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 如果米米l:米text><米米l:mo> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> <米米l:米o><米米l:米年代qrt> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> 否则,米米l:米text>米ml:mtd> C米米l:米我>米米l:mrow> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="" separators="|"> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mfenced separators="|"> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o>米米l:mtd> 如果米米l:米text><米米l:mo> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> <米米l:米o><米米l:米年代qrt> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mfenced separators="|"> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o>米米l:mtd> 否则,米米l:米text>米ml:mtd> 在哪里<我nl我ne- - - - - -formula> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> 卡方分布的50百分位吗<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 的自由度。根据( 7,定理<我nl我ne- - - - - -formula> 1米米l:米n>米米l:mrow> ),只要开始<我nl我ne- - - - - -formula> (米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我>米米l:mrow> )米米l:米o>米米l:math> 是一个一致的估计量的<我nl我ne- - - - - -formula> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> 年代米米l:米我>米米l:mrow> 0米米l:米n>米米l:mrow> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> 或<我nl我ne- - - - - -formula> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> 年代米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,FCH吸引子是一个一致的估计量<我nl我ne- - - - - -formula> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米i> 一个米米l:米我><米米l:msub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> 0米米l:米n>米米l:mrow> =米米l:米o><米米l:米row> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米年代ubsup> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> (米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> D米米l:米我><米米l:mi mathvariant="normal"> G米米l:米我><米米l:mi mathvariant="normal"> K米米l:米我>米米l:mrow> )米米l:米o><米米l:米o stretchy="false"> )米米l:米o>米米l:mrow> /米米l:米o><米米l:米row> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> 和<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> =米米l:米o><米米l:米row> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米年代ubsup> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> (米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> K米米l:米我><米米l:mo> ,米米l:米o><米米l:米i mathvariant="normal"> 米米米l:米我><米米l:mi mathvariant="normal"> B米米l:米我>米米l:mrow> )米米l:米o><米米l:米o stretchy="false"> )米米l:米o>米米l:mrow> /米米l:米o><米米l:米row> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> 是积极的常量和<我nl我ne- - - - - -formula> 一个米米l:米我><米米l:mo> =米米l:米o><米米l:米年代ub> 年代米米l:米我>米米l:mrow> 0米米l:米n>米米l:mrow> 或<我nl我ne- - - - - -formula> 一个米米l:米我><米米l:mo> =米米l:米o><米米l:米年代ub> 年代米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> 基于标准的分界点。年代t一个te米ent><年代tatement id="step200"> 步骤2。获得再加权FCH流动通过隔离观察<我nl我ne- - - - - -formula> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ≤米米l:米o><米米l:米年代ubsup> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.975米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> ,使用经典的估计量获取<我nl我ne- - - - - -formula> T米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> 从 (8)米米l:米text>米ml:mtd> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="}" separators="|"> X米米l:米我>米米l:mrow> 我米米l:米我><米米l:mi> j米米l:米我>米米l:mrow> :米米l:米o><米米l:米年代ubsup> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 米米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ≤米米l:米o><米米l:米年代ubsup> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n mathvariant="normal"> 0.975米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> ,米米l:米o><米米l:米i class="cond"> 我米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米o> j米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> 米米米l:米我><米米l:mo> 。米米l:米o>米米l:mtd> 计算新分界点<我nl我ne- - - - - -formula> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米年代ubsup> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> (米米l:米o><米米l:米年代ub> T米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> )米米l:米o><米米l:米o stretchy="false"> )米米l:米o>米米l:mrow> /米米l:米o><米米l:米row> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> 。新variance-covariance矩阵 (9)米米l:米text>米ml:mtd> C米米l:米我>米米l:mrow> 2米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> =米米l:米o><米米l:米frac> 米米米l:米我><米米l:mi mathvariant="normal"> E米米l:米我><米米l:mi mathvariant="normal"> D米米l:米我><米米l:mfenced separators="|"> D米米l:米我>米米l:mrow> 我米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> T米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> χ米米l:米我>米米l:mrow> p米米l:米我><米米l:mo> ,米米l:米o><米米l:米n> 0.5米米l:米n>米米l:mrow> 2米米l:米n>米米l:mrow> C米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> ,米米l:米o><米米l:米i mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> 。米米l:米o>米米l:mtd> 步骤3。重复步骤<我nl我ne- - - - - -formula> 1米米l:米n>米米l:mrow> - - - - - -<我nl我ne- - - - - -formula> 2米米l:米n>米米l:mrow> 与新分界点直到收敛,得到最终的吸引子<我nl我ne- - - - - -formula> T米米l:米我>米米l:mrow> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,米米l:米o><米米l:米年代ub> C米米l:米我>米米l:mrow> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> 和<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> 。年代t一个te米ent><年代tatement id="stage3"> 第三阶段(鲁棒稳定性选择基于all-subset选择)。集中的数据<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> 涉及到集中响应向量<我nl我ne- - - - - -formula> Y米米l:米我>米米l:mrow> RFCH米米l:米text>米ml:mrow> ∗米米l:米我>米米l:mrow> 和集中设计矩阵<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> RFCH米米l:米text>米ml:mrow> ∗米米l:米我>米米l:mrow> 。假设<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> RFCH米米l:米text>米ml:mrow> n米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> 是来自一个随机子样品吗<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> R米米l:米我><米米l:mi mathvariant="normal"> F米米l:米我><米米l:mi mathvariant="normal"> C米米l:米我><米米l:mi mathvariant="normal"> H米米l:米我>米米l:mrow> ,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> RFCH米米l:米text>米ml:mrow> n米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> 剩下的子样品,在哪里<我nl我ne- - - - - -formula> n米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> =米米l:米o><米米l:米年代ub> n米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> =米米l:米o><米米l:米fenced open="[" close="]" separators="|"> n米米l:米我><米米l:mo> /米米l:米o><米米l:米n> 2米米l:米n>米米l:mrow> 这样<我nl我ne- - - - - -formula> n米米l:米我>米米l:mrow> 在集中设计矩阵的行数<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> MRFCH米米l:米text>米ml:mrow> ∗米米l:米我>米米l:mrow> 。All-subset回归方法保证所有可能的潜在协变量将包含在子。经典的BIC准则可以确定最佳模型。我们建议all-subset程序适用于第一部分的数据<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> ~米米l:米o>米米l:mover> RFCH米米l:米text>米ml:mrow> n米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> 。最好的模型是一个系数<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 值小于<我nl我ne- - - - - -formula> α米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米n> 0.05米米l:米n><米米l:米o> /米米l:米o><米米l:米i> d米米l:米我>米米l:math> ,在那里<我nl我ne- - - - - -formula> d米米l:米我>米米l:mrow> 协变量是所有候选人的数量。重复这个过程<我nl我ne- - - - - -formula> B米米l:米我>米米l:mrow> 次,直到收敛<我nl我ne- - - - - -formula> B米米l:米我>米米l:mrow> 最好的子集,这样<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> k米米l:米我><米米l:mi> j米米l:米我>米米l:mrow> =米米l:米o><米米l:米fenced open="{" close="}" separators="|"> k米米l:米我><米米l:mi> j米米l:米我><米米l:mo> ;米米l:米o><米米l:米年代ub> β米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> j米米l:米我>米米l:mrow> ≠米米l:米o><米米l:米n> 0米米l:米n>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> j米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> 米米米l:米我>米米l:math> ;<我nl我ne- - - - - -formula> 米米米l:米我>米米l:mrow> 子集的参数估计数量吗<我nl我ne- - - - - -formula> k米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> k米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米i> B米米l:米我>米米l:math> 。后Meinshausen和Buhlmann 2阈值被定义为 (10)米米l:米text>米ml:mtd> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> =米米l:米o><米米l:米年代qrt> 电动汽车米米l:米text><米米l:mo> ×米米l:米o><米米l:米i> p米米l:米我><米米l:mo> ×米米l:米o><米米l:米fenced separators="|"> 2米米l:米n><米米l:米o> ×米米l:米o><米米l:米i> λ米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n>米米l:mrow> ,米米l:米o>米米l:mtd> 在哪里<我nl我ne- - - - - -formula> E米米l:米我><米米l:mi mathvariant="normal"> V米米l:米我>米米l:math> 变量的期望值是错误的选择,<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 协变量的数量的特定子集,然后呢<我nl我ne- - - - - -formula> λ米米l:米我>米米l:mrow> 是最高的选择选择概率最孔路径的协变量选择的解决方案。在这项研究中,我们使用<我nl我ne- - - - - -formula> λ米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 0.95米米l:米n>米米l:math> 。让<我nl我ne- - - - - -formula> δ米米l:米我>米米l:mrow> 的数量是<我nl我ne- - - - - -formula> β米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> j米米l:米我>米米l:mrow> 的重复<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> k米米l:米我><米米l:mi> j米米l:米我>米米l:mrow> ;然后,选中的变量是那些属于<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> j米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> 这样<我nl我ne- - - - - -formula> 年代米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> ∗米米l:米我>米米l:mrow> (米米l:米o><米米l:米年代ub> β米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> j米米l:米我>米米l:mrow> )米米l:米o><米米l:米o> =米米l:米o><米米l:米fenced open="{" close="}" separators="|"> j米米l:米我><米米l:mo> ;米米l:米o><米米l:米row> δ米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米年代ub> β米米l:米我>米米l:mrow> ^米米l:米o>米米l:mover> j米米l:米我>米米l:mrow> )米米l:米o>米米l:mrow> /米米l:米o><米米l:米row> B米米l:米我>米米l:mrow> >米米l:米o><米米l:米年代ubsup> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> ∗米米l:米我>米米l:mrow> 。我们把<我nl我ne- - - - - -formula> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> 通过<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 创造阈值以百分比;也就是说,<我nl我ne- - - - - -formula> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代ub> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> ×米米l:米o><米米l:米i> p米米l:米我>米米l:math> ,在那里<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> 协变量的数量是在特定的子集。年代t一个te米ent> 4所示。模拟研究在这里,我们报告一个模拟研究,旨在评估的性能提出了健壮的变量选择技术在两个不同的异常情况。在这个实验中,我们考虑用以下关系:多元线性回归模型 (11)米米l:米text>米ml:mtd> Y米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 7米米l:米n><米米l:米年代ub> X米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> +米米l:米o><米米l:米n mathvariant="normal"> 6米米l:米n><米米l:米年代ub> X米米l:米我>米米l:mrow> 3米米l:米n>米米l:mrow> +米米l:米o><米米l:米n mathvariant="normal"> 5米米l:米n><米米l:米年代ub> X米米l:米我>米米l:mrow> 4米米l:米n>米米l:mrow> +米米l:米o><米米l:米n mathvariant="normal"> 7米米l:米n><米米l:米年代ub> X米米l:米我>米米l:mrow> 6米米l:米n>米米l:mrow> +米米l:米o><米米l:米n mathvariant="normal"> 7米米l:米n><米米l:米年代ub> X米米l:米我>米米l:mrow> 9米米l:米n>米米l:mrow> +米米l:米o><米米l:米n mathvariant="normal"> 0米米l:米n><米米l:米fenced open="[" close="]" separators="|"> X米米l:米我>米米l:mrow> D米米l:米我>米米l:mrow> +米米l:米o><米米l:米i> ε米米l:米我><米米l:mo> ,米米l:米o>米米l:mtd> 在哪里<我nl我ne- - - - - -formula> D米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 2、5米米l:米n><米米l:米o> ,米米l:米o><米米l:米n mathvariant="normal"> 7、8米米l:米n><米米l:米o> ,米米l:米o><米米l:米n mathvariant="normal"> 10米米l:米n>米米l:math> 。设计矩阵生成的多元正态分布的协方差结构<我nl我ne- - - - - -formula> 浸米米l:米我>米米l:mrow> 米米l:米o><米米l:米row> (米米l:米o><米米l:米年代ub> X米米l:米我>米米l:mrow> j米米l:米我>米米l:mrow> ;米米l:米o><米米l:米年代ub> X米米l:米我>米米l:mrow> k米米l:米我>米米l:mrow> )米米l:米o><米米l:米o> =米米l:米o><米米l:米年代up> ρ米米l:米我>米米l:mrow> j米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米i> k米米l:米我>米米l:mrow> ,在那里<我nl我ne- - - - - -formula> ρ米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 0.5米米l:米n>米米l:math> ,<我nl我ne- - - - - -formula> j米米l:米我><米米l:mo> ,米米l:米o><米米l:米i> k米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 1、2米米l:米n><米米l:米o> ,米米l:米o><米米l:米o> …米米l:米o><米米l:米o> ,米米l:米o><米米l:米n> 10米米l:米n>米米l:math> ,<我nl我ne- - - - - -formula> n米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 500年米米l:米n>米米l:math> 。随机错误<我nl我ne- - - - - -formula> ε米米l:米我>米米l:mrow> 来自标准正态分布。创建自相关问题,我们认为以下设置: (12)米米l:米text>米ml:mtd> Y米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代ub> Y米米l:米我>米米l:mrow> 2米米l:米n><米米l:米o> :米米l:米o><米米l:米i> n米米l:米我>米米l:mrow> +米米l:米o><米米l:米i> ρ米米l:米我><米米l:msub> Y米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> :米米l:米o><米米l:米fenced separators="|"> n米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n>米米l:mrow> ,米米l:米o>米米l:mtd> X米米l:米我>米米l:mrow> ∗米米l:米我>米米l:mrow> =米米l:米o><米米l:米年代ub> X米米l:米我>米米l:mrow> 2米米l:米n><米米l:米o> :米米l:米o><米米l:米i> n米米l:米我>米米l:mrow> +米米l:米o><米米l:米i> ρ米米l:米我><米米l:msub> X米米l:米我>米米l:mrow> 1米米l:米n><米米l:米o> :米米l:米o><米米l:米fenced separators="|"> n米米l:米我><米米l:mo> - - - - - -米米l:米o><米米l:米n> 1米米l:米n>米米l:mrow> ,米米l:米o>米米l:mtd> 在哪里<我nl我ne- - - - - -formula> ρ米米l:米我><米米l:mo> =米米l:米o><米米l:米n> 0.9米米l:米n>米米l:math> 。在[ 17),两个局外人场景被添加到数据。第一个场景的残差污染<我nl我ne- - - - - -formula> ε米米l:米我>米米l:mrow> 与削减分布对称的异常值,<我nl我ne- - - - - -formula> ε米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 0.10米米l:米n>米米l:math> ,和生成的随机错误<我nl我ne- - - - - -formula> ε米米l:米我><米米l:mo> ~米米l:米o><米米l:米fenced separators="|"> 1米米l:米n><米米l:米o> - - - - - -米米l:米o><米米l:米i> ε米米l:米我>米米l:mrow> N米米l:米我><米米l:mfenced separators="|"> 0 1米米l:米n>米米l:mrow> +米米l:米o><米米l:米i> ε米米l:米我><米米l:mi> N米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米n> 0 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o><米米l:米o> /米米l:米o><米米l:米i> u米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米n> 0 1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 。第二个例外情况是由取代10%的原始值和高杠杆点和垂直离群值。垂直的离群值生成为不对称的局外人,<我nl我ne- - - - - -formula> ε米米l:米我><米米l:mo> =米米l:米o><米米l:米n mathvariant="normal"> 0.10米米l:米n>米米l:math> ,生成的错误<我nl我ne- - - - - -formula> ε米米l:米我><米米l:mo> ~米米l:米o><米米l:米fenced separators="|"> 1米米l:米n><米米l:米o> - - - - - -米米l:米o><米米l:米i> ε米米l:米我>米米l:mrow> N米米l:米我><米米l:mfenced separators="|"> 0 1米米l:米n>米米l:mrow> +米米l:米o><米米l:米i> ε米米l:米我><米米l:mi> N米米l:米我><米米l:mfenced separators="|"> 20日,1米米l:米n>米米l:mrow> 。创建杠杆点,每个协变量外围观察产生污染的10%<我nl我ne- - - - - -formula> N米米l:米我><米米l:mo stretchy="false"> (米米l:米o><米米l:米n> 50岁,1米米l:米n><米米l:米o stretchy="false"> )米米l:米o>米米l:math> 。对于每个案例,我们生成的500个独立的模拟数据集。autocorrelated错误的问题首先是纠正,然后随机的每个数据集分割成培训<我nl我ne- - - - - -formula> n米米l:米我>米米l:mrow> tr米米l:米我><米米l:mo> 米米l:米o>米米l:mrow> (70%)和测试<我nl我ne- - - - - -formula> n米米l:米我>米米l:mrow> ts米米l:米text>米ml:mrow> (30%)。提出的鲁棒稳定性选择(r . multisplit-AIC和r . multisplit-BIC),现有稳定的选择(multisplit-AIC和multisplit-BIC),和每个劈叉all-subsets-AIC和每个劈叉all-subsets-BIC方法被应用于训练数据集。这个过程重复了500次。根平均值广场错误(RMSE)超过500模拟运行测试集和训练集的比例每个变量的机会被选在最后的模型提出了超过500个模拟运行表 1- - - - - - 3。潜在的变量选择也展示在表。最好的方法是最低RMSE并选择正确的变量(变量<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 1米米l:米n>米米l:mrow> ,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 3米米l:米n>米米l:mrow> ,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 4米米l:米n>米米l:mrow> ,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 6米米l:米n>米米l:mrow> ,<我nl我ne- - - - - -formula> X米米l:米我>米米l:mrow> 9米米l:米n>米米l:mrow> )在最后的模型没有噪声变量。结果在表 1表明,当没有数据中离群值,所有的六个方法相当封闭。结果表明,我们的方法是与其他现有方法类似。 表1 选择变量,平均RMSE,比例为每一个变量被选为清洁数据(阈值= 71.41)。 Single-split-AIC Single-split-BIC Multisplit-AIC Multisplit-BIC r . multisplit-AIC r . multisplit-BIC RMSE0.670.670.650.650.650.65 1One hundred.One hundred.One hundred.One hundred.99.999.9 217.91.7917.52.600.840.84 3One hundred.99.9One hundred.One hundred.99.799.7 4One hundred.99.9One hundred.One hundred.99.699.6 5131.6519.93.900.840.84 6One hundred.99.9One hundred.One hundred.99.799.7 7141.5117.001.700.880.88 8121.4720.33.400.750.75 999.999.9One hundred.One hundred.99.899.8 1016.61.7116.73.20.810.81 选择变量1、3、4、6、91、3、4、6、91、3、4、6、91、3、4、6、91、3、4、6、91、3、4、6、9 表2 选择变量,平均RMSE,比例为每一个变量被选为高杠杆和垂直离群值(阈值= 71.41)。 Single-split-AIC Single-split-BIC Multisplit-AIC Multisplit-BIC r . multisplit-AIC r . multisplit-BIC RMSE0.0390.03921.9322.290.0360.036 1One hundred.One hundred.43.616.5One hundred.One hundred. 299.8997.7228.75.42.162.16 3One hundred.One hundred.66.745.4One hundred.One hundred. 4One hundred.One hundred.49.625.2One hundred.One hundred. 517.221.7297.578.11.041.04 6One hundred.One hundred.One hundred.99.9One hundred.One hundred. 715.82.0816.82.80.490.49 819.382.7916.33.41.311.31 9One hundred.One hundred.97.192.399.999.9 1016.652.6616.22.1 01.271.27 选择变量1、2、3、4、6、91、2、3、4、6、95、6、95、6、91、3、4、6、91、3、4、6、9 表3 选择变量,平均RMSE,比例为每一个变量被选为对称的离群值(阈值= 71.41)。 Single-split-AIC Single-split-BIC Multisplit-AIC Multisplit-BIC r . multisplit-AIC r . multisplit-BIC RMSE0.6630.6630.230.230.2120.212 191.1887.5492.196.7One hundred.One hundred. 216.973.6915.86。01.1361.136 376.3663.7591.081.9One hundred.One hundred. 488.4584.2689.875.1One hundred.One hundred. 518.074.2118.36。41.221.22 685.8878.7193.696.8One hundred.One hundred. 717.883.2815.43.51.211.21 8158年3.0217.83.30.780.78 968.4551.9291.596.599.599.5 1018.333.69617.94.60.950.95 选择变量1、3、4、61、4、61、3、4、6、91、3、4、6、91、3、4、6、91、3、4、6、9 然而,结果发生戏剧性的变化在两个离群值的情况。它可以观察到从表 2古典multisplit-AIC和multisplit-BIC方法影响的高杠杆和垂直离群值。这两种方法都有最高的rms和underfitting。在这种情况下,single-split-AIC和single-split-BIC变量选择技术也无法选择正确的变量。这两种方法往往是过度拟合也因为他们选择在最后的模型噪声变量。对称的异常值的存在可以从表 3变化令人惊讶的事情。single-split-AIC的rms和single-split-BIC相对比的其他方法,往往是underfitting。令人惊讶的是,multisplit-AIC和multisplit-BIC方法在这种情况下选择正确的变量。尽管如此,他们的rms比r . multisplit-AIC和r . multisplit-BIC。另一方面,r的rms multisplit-AIC和r . multisplit-BIC持续六人中最小的方法。变量两种方法选择正确的变量,没有噪音,没有污染发生时在模型中,也在这两个离群值场景。因此,可以得出结论,我们提出了r . multisplit-AIC和r . multisplit-BIC方法是最好的线性回归模型中的变量选择方法autocorrelated错误,因为他们是稳定和一致地选择正确的变量而不选择任何噪声变量。年代ec><年代ec id="sec5"> 5。空气质量数据在这项研究中,每小时空气污染数据取自美国环境(DoE),马来西亚,用于进一步评估我们的方法的性能。的数据由PM10浓度和十独立变量,其中六个是污染物变量(二氧化硫(这样<年代ub>2年代ub>)、二氧化氮(没有<年代ub>2年代ub>)、一氧化氮(NO)、氧化氮(<我nl我ne- - - - - -formula> N米米l:米我><米米l:mi mathvariant="normal"> O米米l:米我>米米l:mrow> x米米l:米我>米米l:mrow> )、一氧化碳(CO)和臭氧(O<年代ub>3年代ub>))和四个气象变量(风速(WS),风向(WD)、温度(临时)和相对湿度(哼))。可吸入颗粒物是颗粒物直径10微米或更小的固体或半固体物质在空气中找到。每个变量的值被记录的监测站Seberang Perai,槟榔屿(图 1),每小时每一天从2005年1月至2013年12月。 图1 位置的Seberang Perai,槟城 18]。 统计分析的目的,被转换为平均每天每小时的数据,给3287个读数。缺失值和校准时间的某些变量取代了这些变量的协调中位数。让我们先观察阴谋在图 2。直方图(b)和quantile-quantile (qq)情节(图c) 2表明残差污染是重尾分布混合分布。因为一些点在qq情节不落在直线和直方图是向右倾斜,这表明这些数据是不正常的。因此,我们在离群点存在怀疑,这个数据集。图 2 (d)还显示有一些杠杆点在每个协变量。 图2 qq情节,残差直方图,和情节PM10和每个组件的空气质量数据,Seberang Perai,槟榔树。 (一) (b) (c) (d) 图 2(一个)表明存在自相关或残差之间的序列相关性,似乎有高阶自回归AR (<我nl我ne- - - - - -formula> p米米l:米我>米米l:mrow> )。我们提出了鲁棒稳定性all-subset选择程序和现有的方法被应用到数据(3287)观察调查影响PM10的重要变量。数据集由3287年的观察,包括PM10作为响应变量和十个独立变量已经提到。因为空气质量数据是在时间序列,杜宾沃森(DW)测试应用于数据检查存在的相关问题。德宾沃森的结果为原始空气质量数据统计(<我nl我ne- - - - - -formula> p米米l:米我><米米l:mo> ≪米米l:米o><米米l:米n> 0.01米米l:米n>米米l:math> 证实的存在自相关和不相关(<我nl我ne- - - - - -formula> p米米l:米我><米米l:mo> >米米l:米o><米米l:米n> 0.05米米l:米n>米米l:math> )治疗后的自相关问题。纠正后的自相关问题,然后随机分为训练数据(30%)(70%)和测试集。这个过程被重复了3000次。RFCH用于集中培训和测试集的数据。后Meinshausen和Buhlmann 2),每个训练集和测试集随机分割成两个相等大小和这个过程重复50次。六个变量选择方法被应用于第一部分的训练数据集。最终模型的变量选择确定。交叉验证,每个训练模型的系数是用来预测的响应(PM10)使用测试集数据。模型残差的均方根计算。表 4展品所选变量,每个变量的百分比被选为训练集数据和测试集的平均RMSE数据超过3000分。表的阈值 4计算如下: (13)米米l:米text>米ml:mtd> π米米l:米我>米米l:mrow> th米米l:米text>米ml:mrow> =米米l:米o><米米l:米年代qrt> 5米米l:米n><米米l:米o> ×米米l:米o><米米l:米n mathvariant="normal"> 10米米l:米n><米米l:米o> ×米米l:米o><米米l:米fenced separators="|"> 2米米l:米n><米米l:米o> ×米米l:米o><米米l:米fenced separators="|"> 0.95米米l:米n>米米l:mrow> - - - - - -米米l:米o><米米l:米n mathvariant="normal"> 1米米l:米n>米米l:mrow> ×米米l:米o><米米l:米n mathvariant="normal"> 10米米l:米n><米米l:米o> =米米l:米o><米米l:米n mathvariant="normal"> 67.08米米l:米n><米米l:米o> 。米米l:米o>米米l:mtd> 表4 选择变量、RMSE平均每个变量和百分比的机会被选中时,空气质量数据(阈值= 67.08)。 Single-split-AIC Single-split-BIC Multisplit-AIC Multisplit-BIC r . multisplit-AIC r . multisplit-BIC RMSE0.510.510.510.510.40.4 WS8.530.424.240.6423.076。6 WD One hundred.76.8673.3414.24 One hundred. 99.77 临时 One hundred.One hundred.One hundred.One hundred. One hundred. One hundred. 嗡嗡声 One hundred.One hundred.One hundred.One hundred. One hundred. One hundred. 没有米米l:米text>米ml:mrow> x米米l:米我>米米l:mrow> 91年45.9379.3061.2254.4326.3 没有96.547.887.6667.5449.624.63 年代米米l:米我><米米l:mi mathvariant="bold-italic"> O米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> 89.2313.637.120.06 99.93 91.33 N米米l:米我><米米l:mi mathvariant="bold-italic"> O米米l:米我>米米l:mrow> 2米米l:米n>米米l:mrow> 10.4654.3632.4247.06 71年 84.77 O米米l:米我>米米l:mrow> 3米米l:米n>米米l:mrow> One hundred.One hundred.One hundred.One hundred. One hundred. One hundred. 有限公司 One hundred.One hundred.One hundred.One hundred. One hundred. One hundred. 选择变量2,3,4,5,6,7,9、102、3、4、9、102、3、4、5、6、9、103、4、5、8、92、3、4、7、8、9、102、3、4、7、8、9、10 候选人的变量是一个被选择的比例超过阈值模型。最好的方法是平均RMSE最低的国家之一。结果在表 4表明,我们提出的RMSE方法,基于AIC和BIC是最小的比现有的方法。这表明,我们提出的方法正确地识别潜在的变量,也就是说,WD,临时,哼,如此<年代ub>2年代ub>,没有<年代ub>2年代ub>阿,<年代ub>3年代ub>公司,被包括在最终的模型。single-split-AIC方法选择八,而single-split-BIC方法选择协变量只有6个。古典multisplit-AIC选择七反是multisplit-BIC选择五协变量。有趣的是注意到,我们建议的方法选择所有污染物除了不变量<年代ub> x我t一个l我c>年代ub>也没有,所有的气象变量除了WS。从结果表 4,我们可以清楚地推断r . multisplit-AIC和r . multisplit-BIC方法比传统方法更有效,因为最后的选择模型,这些方法是充分的协变量包括所有非零和的RMSE值最小。模型验证结果表明,WD,临时,哼,如此<年代ub>2年代ub>,没有<年代ub>2年代ub>阿,<年代ub>3年代ub>,公司应该被包括在最终的模型。年代ec><年代ec id="sec6"> 6。结论和建议本研究的主要目的是开发一个可靠的替代方法,能够选择正确的变量在最后的模型数据异常值和autocorrelated错误的结合问题。我们认为是众所周知的all-subsets-AIC all-subsets-BIC, multisplit-AIC和multisplit-BIC变量选择方法在这方面。所有现有的方法不能有效地选择正确的变量在最后的模型。在这项研究中,我们提出了一种鲁棒稳定性选择方法,通过融合一个高效、高击穿MM-estimator RFCH估计量,并应用all-subset-BIC和all-subset-AIC集中的数据。真正的空气质量数据,仿真实验表明,提出的方法成功地和持续选择正确的和最小的RMSE最终模型中的变量。常用的方法未能正确地选择正确的变量在最后的模型。因此,我们可以考虑我们建议的方法更好的变量选择方法,强烈建议使用它们尤其是异常值和autocorrelated错误发生在数据。年代ec> 利益冲突作者宣称没有利益冲突有关的出版。年代ec><一个ck> 确认作者要感谢中国科学、技术和创新,马来西亚、支持这项工作下eScienceFund研究批准号06-01-04-SF1764。还要特别感谢部门环境、自然资源与环境、马来西亚,这提供了空气污染数据用于这项研究。一个ck> 1 沃瑟曼年代urn一个米e> l 罗德年代urn一个米e> K。 高维变量选择一个rt我cle- - - - - -t我tle> 统计年鉴我t一个l我c> 2009年 37<我年代年代ue> 5我年代年代ue> 2178年 2201年 10.1214 / 08-aos646 2 - s2.0 - 69049091975 2 Meinshausen年代urn一个米e> N。 Buhlmann年代urn一个米e> P。 稳定的选择一个rt我cle- - - - - -t我tle> 英国皇家统计学会杂志》上的B:统计方法我t一个l我c> 2010年 72年<我年代年代ue> 4我年代年代ue> 417年 473年 10.1111 / j.1467-9868.2010.00740.x 2 - s2.0 - 77958487535 3 沙阿年代urn一个米e> r D。 Samworth年代urn一个米e> r . J。 变量选择和错误控制:另一个看稳定的选择一个rt我cle- - - - - -t我tle> 皇家统计学会杂志》系列B:统计方法我t一个l我c> 2013年 75年<我年代年代ue> 1我年代年代ue> 55 80年 10.1111 / j.1467-9868.2011.01034.x 2 - s2.0 - 84871371181 4 Imon "年代urn一个米e> a . h . M。 阿里年代urn一个米e> M . M。 引导回归残差一个rt我cle- - - - - -t我tle> 朝鲜的数据和信息科学学会杂志》上我t一个l我c> 2005年 16<我年代年代ue> 3我年代年代ue> 665年 682年 5 Norazan年代urn一个米e> m·R。 Midi年代urn一个米e> H。 Imon "年代urn一个米e> a . h . m . R。 陈年代urn一个米e> 年代。 与概率加权引导回归一个rt我cle- - - - - -t我tle> 第八圆柱学报》国际会议上应用计算机和应用计算科学 2009年 杭州,中国 6 Buhlmann年代urn一个米e> P。 余年代urn一个米e> B。 分析装袋一个rt我cle- - - - - -t我tle> 统计年鉴我t一个l我c> 2002年 30.<我年代年代ue> 4我年代年代ue> 927年 961年 10.1214 /市场/ 1031689014 ZBL1029.62037 2 - s2.0 - 0043289776 7 橄榄年代urn一个米e> d . J。 霍金斯年代urn一个米e> d . M。 鲁棒多变量位置和分散一个rt我cle- - - - - -t我tle> 2010年, http://lagrange.math.siu.edu/Olive/pphbmld.pdf 8 Alkenani年代urn一个米e> 一个。 余年代urn一个米e> K。 健壮的典型相关方法的比较研究一个rt我cle- - - - - -t我tle> 杂志的统计计算和模拟我t一个l我c> 2013年 83年<我年代年代ue> 4我年代年代ue> 690年 720年 10.1080 / 00949655.2011.632775 2 - s2.0 - 84876000784 9 奥兹德米尔年代urn一个米e> 答:F。 威尔科克斯年代urn一个米e> R。 新成果的小样本性质一些健壮的单变量的估计位置一个rt我cle- - - - - -t我tle> 通信数据:模拟和计算我t一个l我c> 2012年 41<我年代年代ue> 9我年代年代ue> 1544年 1556年 10.1080 / 03610918.2011.611310 2 - s2.0 - 84862862549 10 张年代urn一个米e> J。 橄榄年代urn一个米e> d . J。 叶年代urn一个米e> P。 健壮的协方差矩阵估计与典型相关分析一个rt我cle- - - - - -t我tle> 国际期刊的统计和概率我t一个l我c> 2012年 1<我年代年代ue> 2我年代年代ue> 119年 10.5539 / ijsp.v1n2p119 11 古吉拉特语年代urn一个米e> d . N。 波特年代urn一个米e> D。 基本的计量经济学我t一个l我c> 2009年 纽约,纽约,美国 麦格劳-希尔 12 格林年代urn一个米e> w·H。 计量经济学分析我t一个l我c> 2003年 新德里,印度 培生教育 13 安年代urn一个米e> l . H。 Midi年代urn一个米e> H。 高杠杆点健壮的自相关的影响在多元线性回归测试一个rt我cle- - - - - -t我tle> 学报11圆柱应用计算机科学国际会议(ACS的11) 2011年10月 马来西亚槟城 14 Yohai年代urn一个米e> 诉J。 高击穿点和高效稳健回归估计一个rt我cle- - - - - -t我tle> 统计年报我t一个l我c> 1987年 15<我年代年代ue> 2我年代年代ue> 642年 656年 10.1214 /市场/ 1176350366 MR888431 ZBL0624.62037 15 Devlin年代urn一个米e> 美国J。 格纳纳德西肯年代urn一个米e> R。 Kettenring年代urn一个米e> j . R。 稳健估计的色散矩阵和主成分一个rt我cle- - - - - -t我tle> 美国统计协会杂志》上我t一个l我c> 1981年 76年<我年代年代ue> 374年我年代年代ue> 354年 362年 10.1080 / 01621459.1981.10477654 16 橄榄年代urn一个米e> d . J。 霍金斯年代urn一个米e> d . M。 高击穿多元估计一个rt我cle- - - - - -t我tle> http://lagrange.math.siu.edu/Olive/pphbrs.pdf 17 Agostinelli年代urn一个米e> C。 Salibian-Barrera年代urn一个米e> M。 健壮的模型选择和基于S-estimators佬司一个rt我cle- - - - - -t我tle> COMPSTAT学报》2010年我t一个l我c> 2010年 柏林,德国 施普林格 69年 78年 10.1007 / 978 - 3 - 7908 - 2604 - 3 - _6 18 Ul-Saufie年代urn一个米e> 答:Z。 Yahaya年代urn一个米e> 答:S。 Ramli年代urn一个米e> n。 哈米德年代urn一个米e> h·A。 稳健回归模型预测PM10浓度在一个工业区一个rt我cle- - - - - -t我tle> 国际工程和技术杂志》上我t一个l我c> 2012年 2<我年代年代ue> 3我年代年代ue> 364年 370年