鲁棒稳定性最佳子集选择Autocorrelated数据基于健壮位置和分散估计量

文摘

稳定选择(multisplit)方法是一个变量选择过程依赖于multisplit数据克服缺点可能发生的每个劈叉数据。不幸的是,这个过程会产生非常贫穷的结果在异常值的存在和其他污染的原始数据。这个问题变得更加复杂的回归残差序列相关时。本文提出了一种新的鲁棒稳定性选拔程序救济相结合的自相关问题和异常值。我们的良好的性能提出了健壮的选择方法使用真实的空气质量数据和仿真研究。

1。介绍

的方法是将数据拆分为两部分并不是新统计推断和数据分析。沃瑟曼和罗德1)建议将每个劈叉方法与变量选择过程。变量选择算法进行第一部分(随机数据的一半),紧随其后的是测试每个选定的变量基础上的重要性价值的回归系数的第二部分数据(剩下的一半的数据)。然而,由于这个过程并不能保证可重复的结果选择任意分割(2]。

选择或multisplit稳定性的方法是提出加强和改善每个劈叉变量选择方法的性能。稳定的现代方法提出的选择依赖于二次抽样技术(2,3高维度数据。数据是多次与相同大小的随机分割成两部分。反复与引导,稳定选择方法选择(不重复)两个次级样本大小相等从原始数据。有可能分裂的任何部分数据可能包含异常值比分裂的其他部分的数据。因此,现有的经典线性回归稳定选拔程序很容易受到异常值的影响,因此导致不可靠的变量选择最终的模型。能解决这个问题,将稳健估计的选择过程。然而,这种方法可能不是足够以来稳健估计将表现良好,一定比例的异常值(Imon "和阿里4),Norazan et al。5])。自稳定选择方法的选择过程是相当封闭的引导(6),健壮的想法引导选拔程序可用于稳定。

后的想法4),在本文中,我们提出二次抽样前诊断方法。该诊断方法是基于再加权快速一致和高(RFCH)分解估计量是由(7)(被Alkenani和Yu (8),奥兹德米尔和威尔科克斯9张,et al。10])。疑似异常值确定并执行删除和随机二次抽样从剩下的(清洁)的观察。

拟议中的变量选择过程也考虑了自相关问题。这个问题,如果不纠正,可能提供误导性的结论的统计意义回归系数(11]。因此,现有的变量选择过程可以选择错误的模型。必须采取适当的补救措施后检测的存在自相关问题。一个经常使用Cochrane-Orcutt或Prais-Winsten方法(格林[12],古吉拉特语和波特11纠正相关问题)。尽管如此,这些程序是基于OLS估计,不健壮,因此很容易受到异常值的影响。安和Midi (13)提出了健壮Cochrane-Orcutt Prais-Winsten (RCOPW)迭代法,基于高故障点和高效率MM-estimator [14),以克服异常值的组合问题和autocorrelated错误。

因此,本文的主要目的是开发可靠、鲁棒稳定性all-subset选拔程序在异常值的存在和自相关的问题。该方法是由整流制定自相关问题在一开始,随后再加权快速高(RFCH)分解估计量是一致的合并算法。收敛,集中(清洁)数据集标识和所有可能的子集的过程,即Akaike信息准则(AIC)和贝叶斯信息准则(BIC)方法,应用于集中数据集的最后步骤RFCH方法。这种方法被称为集中all-subset选择,可以视为一个之间的权衡的质量数据和模型的可解释性。

2。鲁棒稳定性选择的一致性

橄榄油和霍金斯(7)表明,RFCH估计快一致和高崩溃。RFCH估计构造使用浓度算法收敛的十个步骤后实现。在融合,识别异常值和从数据集中删除。剩下的数据将用于鲁棒稳定性选择方法,前者可以被认为是一种一致性有以下属性:(1)每个劈叉all-subset选择的数据是一致的基础上(7,定理]。(2)每个劈叉的multisplit过程数据是重复的次也是一致的基础上(2,推论]。

3所示。鲁棒稳定性All-Subset选择方法

让一个多元位置和散射模型的联合分布th的情况下随机向量完全指定的人口的位置向量和一个对称正定人口散射矩阵。假设病例收集在一个矩阵,这样是独立的。考虑线性回归模型,在那里是一个响应变量的向量,是一个向量回归参数,是一个独立变量的矩阵,是一个随机误差向量,。我们提出的算法健壮和快速一致的变量选择包括三个主要阶段,总结如下。

第一阶段(整流自相关的问题)。我们遵循一个简单的程序健壮Cochrane-Orcutt安和Midi提出的方法(13]纠正的自相关问题的存在这两种类型的外围观察,垂直异常值,并利用点。这个过程可以概括如下:(1)估计的回归系数使用MM-estimator残差。(2)回归与使用MM-estimator,找到可靠的参数。(3)使用在下面的方程解决相关问题,并获得一个新的设计矩阵和响应变量: 在哪里。

第二阶段(集中数据)。集中算法假设线性回归常态假设是违反了由于异常值或其他污染。RFCH算法是用来清理数据。这个过程使用德夫林,格纳纳德西肯和Kettenring (DGK) [15),平均球(MB) [16]。这些算法进行了总结如下。
假设矩阵结合了响应向量协变量和矩阵。

(我)DGK算法

步骤1。首先计算经典的估计量原始数据集的初始或起点,找到最初Mahalanobis距离:

步骤2。安排初始距离增加以计算其值。那些Mahalanobis观测原始数据集的距离小于中位数的Mahalanobis距离将在剩下的设置(一半数据集),会用:

步骤3。让等于,在那里是原始数据的variance-covariance矩阵。计算平均的variance-covariance估计第一个吸引子。

步骤4。如果的对角元素等于算法,然后停止。否则,重复步骤直到收敛,得到最终的吸引子和,在那里是收敛的一步。

(2)中间球(MB)算法

步骤1。假设初始variance-covariance矩阵地中海的单位矩阵和假设是中值矢量的矩阵。然后,Mahalanobis距离基于中值定义如下:

步骤2。的中位数是分界点位置标准和用: 在哪里。应的分位数的分界点的概率等于0.5。的浓度数据集,找到一半只有nonoutlying观测的Mahalanobis距离小于或等于平均:

步骤3。计算平均的variance-covariance矩阵。

步骤4。浓度,计算Mahalanobis距离,并重复步骤直到收敛在最后的吸引子和,在那里是收敛的一步。

(3)再加权快速且一致的高(RFCH)分解算法。橄榄油和霍金斯(7]开发了MB估计通过添加标准或分界点位置选择吸引子,并提出所谓的快速一致和高(FCH)分解估计量。橄榄油和霍金斯(7)指出,FCH估计使用最小行列式的吸引子。

步骤1。遵循同样的方法橄榄和霍金斯(7),定义最后流动如下: 在哪里卡方分布的50百分位吗的自由度。
根据(7,定理),只要开始是一个一致的估计量的或,FCH吸引子是一个一致的估计量,在那里和是积极的常量和或基于标准的分界点。

步骤2。获得再加权FCH流动通过隔离观察,使用经典的估计量获取从计算新分界点。新variance-covariance矩阵

步骤3。重复步骤- - - - - -与新分界点直到收敛,得到最终的吸引子和。

第三阶段(鲁棒稳定性选择基于all-subset选择)。集中的数据涉及到集中响应向量和集中设计矩阵。假设是来自一个随机子样品吗,剩下的子样品,在哪里这样在集中设计矩阵的行数。
All-subset回归方法保证所有可能的潜在协变量将包含在子。经典的BIC准则可以确定最佳模型。我们建议all-subset程序适用于第一部分的数据。最好的模型是一个系数值小于,在那里协变量是所有候选人的数量。重复这个过程次,直到收敛最好的子集,这样,在那里;子集的参数估计数量吗,在那里。
后Meinshausen和Buhlmann2阈值被定义为在哪里变量的期望值是错误的选择,协变量的数量的特定子集,然后呢是最高的选择选择概率最孔路径的协变量选择的解决方案。在这项研究中,我们使用。让的数量是的重复;然后,选中的变量是那些属于这样。我们把通过创造阈值以百分比;也就是说,,在那里协变量的数量是在特定的子集。

4所示。模拟研究

在这里,我们报告一个模拟研究,旨在评估的性能提出了健壮的变量选择技术在两个不同的异常情况。在这个实验中,我们考虑用以下关系:多元线性回归模型在哪里。

设计矩阵生成的多元正态分布的协方差结构,在那里,,。

随机错误来自标准正态分布。创建自相关问题,我们认为以下设置: 在哪里。

在[17),两个局外人场景被添加到数据。第一个场景的残差污染与削减分布对称的异常值,,和生成的随机错误。第二个例外情况是由取代10%的原始值和高杠杆点和垂直离群值。垂直的离群值生成为不对称的局外人,,生成的错误。创建杠杆点,每个协变量外围观察产生污染的10%。

对于每个案例,我们生成的500个独立的模拟数据集。autocorrelated错误的问题首先是纠正,然后随机的每个数据集分割成培训(70%)和测试(30%)。提出的鲁棒稳定性选择(r . multisplit-AIC和r . multisplit-BIC),现有稳定的选择(multisplit-AIC和multisplit-BIC),和每个劈叉all-subsets-AIC和每个劈叉all-subsets-BIC方法被应用于训练数据集。这个过程重复了500次。根平均值广场错误(RMSE)超过500模拟运行测试集和训练集的比例每个变量的机会被选在最后的模型提出了超过500个模拟运行表1- - - - - -3。潜在的变量选择也展示在表。最好的方法是最低RMSE并选择正确的变量(变量,,,,)在最后的模型没有噪声变量。结果在表1表明,当没有数据中离群值,所有的六个方法相当封闭。结果表明,我们的方法是与其他现有方法类似。


	Single-split-AIC	Single-split-BIC	Multisplit-AIC	Multisplit-BIC	r . multisplit-AIC	r . multisplit-BIC

RMSE	0.67	0.67	0.65	0.65	0.65	0.65
1	One hundred.	One hundred.	One hundred.	One hundred.	99.9	99.9
2	17.9	1.79	17.5	2.60	0.84	0.84
3	One hundred.	99.9	One hundred.	One hundred.	99.7	99.7
4	One hundred.	99.9	One hundred.	One hundred.	99.6	99.6
5	13	1.65	19.9	3.90	0.84	0.84
6	One hundred.	99.9	One hundred.	One hundred.	99.7	99.7
7	14	1.51	17.00	1.70	0.88	0.88
8	12	1.47	20.3	3.40	0.75	0.75
9	99.9	99.9	One hundred.	One hundred.	99.8	99.8
10	16.6	1.71	16.7	3.2	0.81	0.81
选择变量	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9


	Single-split-AIC	Single-split-BIC	Multisplit-AIC	Multisplit-BIC	r . multisplit-AIC	r . multisplit-BIC

RMSE	0.039	0.039	21.93	22.29	0.036	0.036
1	One hundred.	One hundred.	43.6	16.5	One hundred.	One hundred.
2	99.89	97.72	28.7	5.4	2.16	2.16
3	One hundred.	One hundred.	66.7	45.4	One hundred.	One hundred.
4	One hundred.	One hundred.	49.6	25.2	One hundred.	One hundred.
5	17.22	1.72	97.5	78.1	1.04	1.04
6	One hundred.	One hundred.	One hundred.	99.9	One hundred.	One hundred.
7	15.8	2.08	16.8	2.8	0.49	0.49
8	19.38	2.79	16.3	3.4	1.31	1.31
9	One hundred.	One hundred.	97.1	92.3	99.9	99.9
10	16.65	2.66	16.2	2.1 0	1.27	1.27
选择变量	1、2、3、4、6、9	1、2、3、4、6、9	5、6、9	5、6、9	1、3、4、6、9	1、3、4、6、9


	Single-split-AIC	Single-split-BIC	Multisplit-AIC	Multisplit-BIC	r . multisplit-AIC	r . multisplit-BIC

RMSE	0.663	0.663	0.23	0.23	0.212	0.212
1	91.18	87.54	92.1	96.7	One hundred.	One hundred.
2	16.97	3.69	15.8	6。0	1.136	1.136
3	76.36	63.75	91.0	81.9	One hundred.	One hundred.
4	88.45	84.26	89.8	75.1	One hundred.	One hundred.
5	18.07	4.21	18.3	6。4	1.22	1.22
6	85.88	78.71	93.6	96.8	One hundred.	One hundred.
7	17.88	3.28	15.4	3.5	1.21	1.21
8	158年	3.02	17.8	3.3	0.78	0.78
9	68.45	51.92	91.5	96.5	99.5	99.5
10	18.33	3.696	17.9	4.6	0.95	0.95
选择变量	1、3、4、6	1、4、6	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9	1、3、4、6、9

然而,结果发生戏剧性的变化在两个离群值的情况。它可以观察到从表2古典multisplit-AIC和multisplit-BIC方法影响的高杠杆和垂直离群值。这两种方法都有最高的rms和underfitting。在这种情况下,single-split-AIC和single-split-BIC变量选择技术也无法选择正确的变量。这两种方法往往是过度拟合也因为他们选择在最后的模型噪声变量。对称的异常值的存在可以从表3变化令人惊讶的事情。single-split-AIC的rms和single-split-BIC相对比的其他方法,往往是underfitting。令人惊讶的是,multisplit-AIC和multisplit-BIC方法在这种情况下选择正确的变量。尽管如此,他们的rms比r . multisplit-AIC和r . multisplit-BIC。另一方面,r的rms multisplit-AIC和r . multisplit-BIC持续六人中最小的方法。变量两种方法选择正确的变量,没有噪音,没有污染发生时在模型中,也在这两个离群值场景。因此,可以得出结论,我们提出了r . multisplit-AIC和r . multisplit-BIC方法是最好的线性回归模型中的变量选择方法autocorrelated错误,因为他们是稳定和一致地选择正确的变量而不选择任何噪声变量。

5。空气质量数据

在这项研究中,每小时空气污染数据取自美国环境(DoE),马来西亚,用于进一步评估我们的方法的性能。的数据由PM10浓度和十独立变量,其中六个是污染物变量(二氧化硫(这样₂)、二氧化氮(没有₂)、一氧化氮(NO)、氧化氮()、一氧化碳(CO)和臭氧(O₃))和四个气象变量(风速(WS),风向(WD)、温度(临时)和相对湿度(哼))。可吸入颗粒物是颗粒物直径10微米或更小的固体或半固体物质在空气中找到。每个变量的值被记录的监测站Seberang Perai,槟榔屿(图1),每小时每一天从2005年1月至2013年12月。

统计分析的目的,被转换为平均每天每小时的数据,给3287个读数。缺失值和校准时间的某些变量取代了这些变量的协调中位数。让我们先观察阴谋在图2。直方图(b)和quantile-quantile (qq)情节(图c)2表明残差污染是重尾分布混合分布。因为一些点在qq情节不落在直线和直方图是向右倾斜,这表明这些数据是不正常的。因此,我们在离群点存在怀疑,这个数据集。图2 (d)还显示有一些杠杆点在每个协变量。

(一)

(b)

(c)

(d)

图2(一个)表明存在自相关或残差之间的序列相关性,似乎有高阶自回归AR ()。

我们提出了鲁棒稳定性all-subset选择程序和现有的方法被应用到数据(3287)观察调查影响PM10的重要变量。数据集由3287年的观察,包括PM10作为响应变量和十个独立变量已经提到。因为空气质量数据是在时间序列,杜宾沃森(DW)测试应用于数据检查存在的相关问题。德宾沃森的结果为原始空气质量数据统计(证实的存在自相关和不相关()治疗后的自相关问题。

纠正后的自相关问题,然后随机分为训练数据(30%)(70%)和测试集。

这个过程被重复了3000次。RFCH用于集中培训和测试集的数据。后Meinshausen和Buhlmann2),每个训练集和测试集随机分割成两个相等大小和这个过程重复50次。六个变量选择方法被应用于第一部分的训练数据集。最终模型的变量选择确定。交叉验证,每个训练模型的系数是用来预测的响应(PM10)使用测试集数据。模型残差的均方根计算。表4展品所选变量,每个变量的百分比被选为训练集数据和测试集的平均RMSE数据超过3000分。表的阈值4计算如下:


	Single-split-AIC	Single-split-BIC	Multisplit-AIC	Multisplit-BIC	r . multisplit-AIC	r . multisplit-BIC

RMSE	0.51	0.51	0.51	0.51	0.4	0.4
WS	8.53	0.4	24.24	0.64	23.07	6。6
WD	One hundred.	76.86	73.34	14.24	One hundred.	99.77
临时	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
嗡嗡声	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
	91年	45.93	79.30	61.22	54.43	26.3
没有	96.5	47.8	87.66	67.54	49.6	24.63
	89.23	13.63	7.12	0.06	99.93	91.33
	10.46	54.36	32.42	47.06	71年	84.77
	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
有限公司	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
选择变量	2,3,4,5,6,7,9、10	2、3、4、9、10	2、3、4、5、6、9、10	3、4、5、8、9	2、3、4、7、8、9、10	2、3、4、7、8、9、10

候选人的变量是一个被选择的比例超过阈值模型。最好的方法是平均RMSE最低的国家之一。

结果在表4表明,我们提出的RMSE方法,基于AIC和BIC是最小的比现有的方法。这表明,我们提出的方法正确地识别潜在的变量,也就是说,WD,临时,哼,如此₂,没有₂阿,₃公司,被包括在最终的模型。single-split-AIC方法选择八,而single-split-BIC方法选择协变量只有6个。古典multisplit-AIC选择七反是multisplit-BIC选择五协变量。

有趣的是注意到,我们建议的方法选择所有污染物除了不变量_x也没有,所有的气象变量除了WS。从结果表4,我们可以清楚地推断r . multisplit-AIC和r . multisplit-BIC方法比传统方法更有效,因为最后的选择模型,这些方法是充分的协变量包括所有非零和的RMSE值最小。模型验证结果表明,WD,临时,哼,如此₂,没有₂阿,₃,公司应该被包括在最终的模型。

6。结论和建议

本研究的主要目的是开发一个可靠的替代方法,能够选择正确的变量在最后的模型数据异常值和autocorrelated错误的结合问题。我们认为是众所周知的all-subsets-AIC all-subsets-BIC, multisplit-AIC和multisplit-BIC变量选择方法在这方面。所有现有的方法不能有效地选择正确的变量在最后的模型。在这项研究中,我们提出了一种鲁棒稳定性选择方法,通过融合一个高效、高击穿MM-estimator RFCH估计量,并应用all-subset-BIC和all-subset-AIC集中的数据。真正的空气质量数据,仿真实验表明,提出的方法成功地和持续选择正确的和最小的RMSE最终模型中的变量。常用的方法未能正确地选择正确的变量在最后的模型。因此,我们可以考虑我们建议的方法更好的变量选择方法,强烈建议使用它们尤其是异常值和autocorrelated错误发生在数据。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢中国科学、技术和创新,马来西亚、支持这项工作下eScienceFund研究批准号06-01-04-SF1764。还要特别感谢部门环境、自然资源与环境、马来西亚,这提供了空气污染数据用于这项研究。

引用

l·沃瑟曼和k·罗德,“高维变量选择,”统计年鉴,37卷,不。5,2178 - 2201年,2009页。视图:出版商的网站|谷歌学术搜索
n Meinshausen和p . Buhlmann稳定选择,”英国皇家统计学会杂志》上的B:统计方法,卷72,不。4、417 - 473年,2010页。视图:出版商的网站|谷歌学术搜索
r·d·沙阿和r . j . Samworth”和错误控制变量的选择:另一个看稳定的选择,“皇家统计学会杂志》系列B:统计方法,卷75,不。1,55 - 80、2013页。视图:出版商的网站|谷歌学术搜索
a . h . m . Imon "和m·m·阿里“引导回归残差,”朝鲜的数据和信息科学学会杂志》上,16卷,不。3、665 - 682年,2005页。视图:谷歌学术搜索
m . r . Norazan h . Midi a . h . m . r . Imon " s·陈,“与概率加权引导回归,”第八圆柱学报》国际会议上应用计算机和应用计算科学,杭州,中国,2009。视图:谷歌学术搜索
p . Buhlmann b . Yu,“分析装袋,”统计年鉴,30卷,不。4、927 - 961年,2002页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
d . j .橄榄油和d·m·霍金斯“健壮的多元位置和分散,”2010年,http://lagrange.math.siu.edu/Olive/pphbmld.pdf。视图:谷歌学术搜索
A . Alkenani k . Yu,“健壮的典型相关方法的比较研究”,杂志的统计计算和模拟,卷83,不。4、690 - 720年,2013页。视图:出版商的网站|谷歌学术搜索
a·f·奥兹德米尔和r·威尔科克斯”新结果的小样本性质的一些强大的单变量估计位置,”通信数据:模拟和计算第41卷。。9日,第1556 - 1544页,2012年。视图:出版商的网站|谷歌学术搜索
j·张,d . j .橄榄和p .你们“健壮的协方差矩阵估计与典型相关分析,“国际期刊的统计和概率,1卷,不。2,p。119年,2012年。视图:出版商的网站|谷歌学术搜索
d . n .古吉拉特语和d·波特基本的计量经济学美国麦格劳-希尔,纽约,纽约,2009年。
w·h·格林计量经济学分析培生教育,新德里,印度,2003。
l·h·安和h . Midi,”高杠杆的影响点的自相关测试在多元线性回归,”学报11圆柱应用计算机科学国际会议(ACS的11)2011年10月,马来西亚槟城。视图:谷歌学术搜索
v . j . Yohai“高击穿点和高效稳健估计的回归,“统计年报,15卷,不。2、642 - 656年,1987页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
美国j·德夫林、r·格纳纳德西肯和j . r . Kettenring“稳健估计色散矩阵和主成分”,美国统计协会杂志》上,卷76,不。374年,第362 - 354页,1981年。视图:出版商的网站|谷歌学术搜索
d . j .橄榄油和d·m·霍金斯,”高分解多元估计。”http://lagrange.math.siu.edu/Olive/pphbrs.pdf。视图:谷歌学术搜索
c . Agostinelli和m . Salibian-Barrera”与拉斯基于S-estimators健壮的模型选择,”COMPSTAT学报》2010年施普林格,页69 - 78年,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
a . z . Ul-Saufie a s Yahaya: a . Ramli h·a·哈米德,“稳健回归模型预测PM10浓度在一个工业区,”国际工程和技术杂志》上,卷2,不。3、364 - 370年,2012页。视图:谷歌学术搜索

概率论与数理统计》杂志上

文摘