研究文章|开放获取
阿里•Alkenani Tahir r . Dikheel, ”健壮的团体意识和变量选择回归”,概率论与数理统计》杂志上, 卷。2017年, 文章的ID2170816, 8 页面, 2017年。 https://doi.org/10.1155/2017/2170816
健壮的团体意识和变量选择回归
文摘
消除无关紧要的预测和组合预测的系数是寻找真正的模型中提出的两个问题。成对绝对集群和稀疏(pac)达到目标。不幸的是,pac敏感异常值由于其依赖的最小二乘损失函数是非常敏感的不寻常的数据。在本文中,pac的敏感性异常值进行了研究。健壮的版本的pac (RPACS)代替最小二乘和nonrobust提出的权重与MM-estimation pac和健壮的重量取决于健壮的相关性,而不是人相关,分别。仿真研究和两个真实数据的应用程序被用来评估提出的方法的有效性。
1。介绍
的最新发展数据聚合产生大量的变量。大量数据构成挑战最标准的统计方法。在许多回归问题,变量的数量是巨大的。此外,这些变量是无关紧要的。变量选择(VS)是选择重要的过程变量用于模型建设。这是一个统计分析的重要一步。统计程序和特点是提高模型的预测,提供可说明的模型,同时保留计算效率。和技术,如逐步选择和最佳子集回归,可能遭受不稳定(1]。应对不稳定的问题,正则化方法被用来进行与他们越来越受欢迎,因为他们提供的工具和实施过程中估计系数的模型,例如,套索(2,竹荚鱼3],elastic-net [4),融合套索(5),自适应套索(6),集团套索(7],奥斯卡[8),自适应elastic-net [9],MCP (10]。
寻找正确的模型提出了两个问题:排除无关紧要的预测和组合预测的系数(IC) [11]。上述方法可以删除无关紧要的预测但没有成功,合并预测与IC。成对绝对集群和稀疏(pac, (11)实现这两个目标。此外,pac是oracle的方法同时识别和VS。
不幸的是,pac敏感异常值由于其依赖的最小二乘损失函数被认为是不寻常的数据非常敏感。在本文中,pac的敏感性异常值进行了研究。健壮的版本的pac (RPACS)代替最小二乘和nonrobust提出的权重与MM-estimation pac和健壮的重量取决于健壮的相关性,而不是人相关,分别。RPACS完全可以估计的参数回归和选择的重要预测因子,同时,健壮的可能的异常值的存在。
本文的其余部分收益如下。节2,pac情况进行了简要的评述。pac的健壮的扩展在节中有详细描述3。模拟研究在不同的设置提出了部分4。节5拟议的健壮pac被应用到两个真实的数据集。最后,讨论总结部分6。
2。简要回顾pac
在线性回归模型中设置与标准化的预测因子和响应值为中心 , 和 。Sharma et al。11]提出了同时oracle方法pac集团标识和与pac不如奥斯卡的方法计算成本。pac,平等的系数是通过将点球获得成对差异和成对的系数。pac估计的解如下: 在哪里 正则化参数和吗是一个非负权重。
点球(1)由鼓励稀疏, ,和鼓励平等的系数。第二项的处罚鼓励同一信号系数设置为相同的情况下,而第三项鼓励相反系数大小设置为平等的迹象。
选择适当的自适应权重是非常重要的对pac oracle过程。因此,Sharma et al。11)自适应政治行动委员会建议将相关性给出的权重如下: 在哪里是一致的估计量 ,如普通最小二乘法(OLS)估计或其他收缩岭回归估计和估计皮尔森的关系吗 预测因子。
Sharma et al。11建议使用岭估计的初步估计获得的权重表现良好和共线的预测研究。
3所示。强大的政治行动委员会
3.1。方法论的政治行动委员会
pac的令人满意的表现已经证明了在正常的错误(11]。然而,离群值的高灵敏度是pac的主要缺点,一个局外人可以完全改变pac估计的性能良好。
注意,在(1),使用最小二乘准则之间的预测和响应。同时,加权惩罚包含权重取决于皮尔森的相关计算。然而,最小二乘准则和皮尔逊相关性不健壮的异常值。实现鲁棒性的评估和选择信息预测强劲,作者提出用MM-estimation代替最小二乘准则(12]MM——估计是有效和高故障点。此外,nonrobust权重健壮的重量取决于取代健壮的相关性等快速一致的高分解(FCH) [13),再加权多元正态(RMVN) [13),斯皮尔曼相关(SP),肯德尔(KN)的相关性。RPACS估计最小化以下: 在哪里 正则化参数和吗是描述的非负权重的健壮的版本(2)。 ,M-estimate残差的规模,它被定义为一个解决方案吗 在哪里是一个常数,功能满足下列条件:(1) 是对称的连续可微的, 。(2)存在 这样是严格增加和常数 (3) 。
MM估计量的第一部分(3)被定义为一个M-estimator使用redescending得分函数, ,获得(4)。这是一个解决方案 在哪里是另一个有界函数,这样 。
3.2。选择的权重
选择合适的权重的过程是非常重要的为了获得一个oracle过程(11]。介绍了权重(2),取决于皮尔森的相关计算。从实用的观点,众所周知,皮尔森的相关性并不对离群值,因此选择权重(2基于这种相关性会导致不确定的和欺骗性的结果。因此,为了得到健壮的重量,需要通过使用健壮的方法估计的相关性。有两种类型的皮尔森相关的健壮的版本。第一类包括那些健壮的异常值,数据的总体结构没有兴趣,而第二种类型给关注数据的总体结构在处理离群值(14]。KN, MCD(协方差最小行列式)对第一和第二类型的例子,分别。橄榄油和霍金斯(13]提出FCH实际的和RMVN方法一致,耐离群值估计多元位置和分散。Alkenani和Yu (15]采用FCH RMVN估计而不是皮尔逊相关的典型相关分析(CCA)获得强劲的CCA。作者表明,这些估计的异常值有良好的性能在不同的设置。
本文FCH RMVN, SP,而KN相关性曾皮尔逊相关性的为了获得强劲的重量如下: 在哪里是一个健壮的版本的皮尔森相关如FCH RMVN, SP, KN的相关性。是一个健壮的初始估计我们建议使用健壮的岭估计的初步估计β的年代。
4所示。模拟研究
在本节中,五个例子被用来评估我们的方法RPACS通过比较它与pac的建议(11]。生成一个回归模型如下:
在所有例子中,预测是标准的正常。误差项的分布和预测污染两种类型的分布,分布在5个自由度平均值为0柯西分布和方差等于1 。此外,不同的污染率(5%,10%,15%,20%,25%)。方法的性能比较,使用模型预测精度误差(我)标准定义的 在哪里代表了人口的协方差矩阵 。样品尺寸是50 - 100和模拟模型复制1000倍。
例1。在这个例子中,我们选择真正的参数模型的研究 , 。前三个预测是高度与相关系数等于0.7及其大小相等,而其余的都是不相关的。
例2。在这个例子中,真正的系数被认为是 , 。前三个预测因素高度相关,相关系数等于0.7及其不同大小,而其余的都是不相关的。
例3。在这个例子中,真正的参数 , 。前三个预测是高度与相关系数等于0.7和他们的大小是相等的,而第二个三个预测因子相关性等于0.3和不同震级较低。其余的预测是不相关的。
例4。在这个例子中,真正的参数 , 。前三个预测因子与相关等于0.3和大小的系数是相等的,而第二个三个预测因子相关性等于0.7和不同的大小。其余的预测是不相关的。
例5。在这个例子中,假定为真正的参数 , 。前三个预测是高度与两两相关等于0.7和0.7第二两个预测因子两两相关,而其余的都是不相关的。它可以观察到,三组和两个高度相关的预测系数相等的大小。
为了避免重复,观测的结果表1- - - - - -5被总结如下。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表1,2,3,4,5没有污染数据,pac与我们提出的方法相比具有很好的检测性能。很明显,当污染的比例或上升pac的性能下降而RPACS健壮的权重具有性能稳定,RPACS和偏好。RMVN RPACS。RFCH分别对所有的样本大小。RPACS估计我的变化值与所有的重量接近污染和样本大小的不同设置下,他们不到pac的变化估计。
5。实际数据分析
RPACS方法在本节中,与所有的重量和pac方法已经应用于实际数据。NCAA体育数据从Mangold et al。16)和污染数据从麦当劳和等(17研究了。
响应变量是集中和预测标准化。核实RPACS,分析的两个数据集已经包括在响应变量和预测异常值。两个数据集已经污染的(5%,10%,15%,和20%)来自多元的数据分布有三个自由度。
评估RPACS方法的估计精度之间的相关性估计参数根据不同的方法考虑从pac和估计参数没有异常值,表示 ,提出了。同时,有效模型大小占绝对的平等系数估计后报告。
5.1。NCAA运动数据
NCAA的运动数据取自社会人口指标的影响的研究和体育项目毕业率。数据集是可以从网站(http://www4.stat.ncsu.edu/嘘声/ var.select / ncaa.html)。数据的大小 和 预测因子。响应变量是6年毕业率的平均值为1996 - 1999。预测学生在前10% HS (X1)、复合25 (X2),在校园生活(X3),本科生(X4),注册总人数/ 1000 (X5),课程的助教(X6),篮球综合排名(X7),州内学费/ 1000(×8),食宿/ 1000 (X9), avg BB家出席(X10),正教授工资(X11),学生教师比例(X12)、白(* 13),助理教授的薪水(X14),人口的城市,位于(连接),教师和博士(),录取率(X17),获得贷款(X18),状态(X19)。
5.2。污染数据(PD)
PD取自不同的空气污染指标的影响的研究和社会人口因素对死亡率。数据集是可以从网站(http://www4.stat.ncsu.edu/嘘声/ var.select / pollution.html)。数据包含 观察和 预测因子。响应的总年龄调整死亡率(y),预测年平均降雨量(X1)、平均温度(X2), 1月平均温度(X3) 7月,% 65岁以上人口(X4),每户人口(X5),平均学年(X6), %的住房设施(X7),人口每平方英里(×8),非白人人口的百分比(X9), % (X10)就业白领职业,家庭收入的%下3;000 (X11),相对人口潜在的碳氢化合物(RPP) (X12), RPP氮的氧化物(* 13),RPP的二氧化硫(X14),相对湿度和%(连接)。
从表6和7,我们有以下结果的估计精度和有效的模型尺寸:(1)在没有污染的情况下,可以观察到RPACS pac方法给出类似的结果。此外,它可以看出RPACS。RMVN RPACS。比RPACS FCH取得更好的性能。KN, RPACS.SP。(2)污染,pac的性能极大地影响。另外,很明显,RPACS。RMVN RPACS。FCH方法给非常一致的结果,即使高污染的百分比。RPACS的性能。KN, RPACS。SP比RPACS效率较低。RMVN RPACS。FCH尤其是对所有污染的百分比。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6。结论
本文提出了健壮的一致的团体意识和对程序(RPACS)结合的力量强劲和识别相关团体和VS过程。真实数据的仿真研究和分析证明RPACS方法有更好的预测精度和识别相关团体比pac异常值存在于响应变量和预测。一般来说,RPACS的偏好。RMVN RPACS。RFCH分别对所有的样本大小。
缩写
| 套索: | 至少绝对收缩和选择算子 |
| 政治行动委员会: | 成对绝对集群和稀疏 |
| RPACS: | 健壮的成对绝对集群和稀疏 |
| 与: | 变量的选择 |
| 竹荚鱼: | 顺利剪绝对偏差 |
| 融合套索: | 融合至少绝对收缩和选择算子 |
| 自适应套索: | 自适应最小绝对收缩和选择算子 |
| 集团套索: | 组至少绝对收缩和选择算子 |
| 奥斯卡: | 八角形的收缩和回归的聚类算法 |
| MCP: | 极大极小凹点球 |
| 集成电路: | 无法区分系数 |
| FCH: | 快速一致的高分解 |
| RMVN: | 再加权多元正态 |
| SP: | 斯皮尔曼的相关性 |
| KN: | 肯德尔的相关性 |
| 背景: | 协方差最小行列式 |
| CCA: | 典型相关分析 |
| NCAA: | 全国大学体育协会 |
| 帕金森病: | 污染数据。 |
的利益冲突
作者宣称没有利益冲突有关的出版。
引用
- l . Breiman“启发式模型选择的不稳定和稳定”统计年报,24卷,不。6,2350 - 2383年,1996页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- r . Tibshirani”回归收缩和选择通过套索:回顾,“皇家统计学会杂志》:系列B(方法论),卷73,不。3、273 - 282年,1996页。视图:出版商的网站|谷歌学术搜索
- j .风扇和r·李”变量选择通过nonconcave惩罚可能性及其甲骨文属性,“美国统计协会杂志》上,卷96,不。456年,第1360 - 1348页,2001年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- h .邹和t . Hastie正规化和变量选择通过弹性网”英国皇家统计学会杂志》上的B:统计方法,卷67,不。2、301 - 320年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- r . Tibshirani m·桑德斯,美国安全,j .朱和k .骑士,“通过融合套索稀疏和平滑度,”英国皇家统计学会杂志》上的B:统计方法,卷67,不。1,第108 - 91页,2005。视图:出版商的网站|谷歌学术搜索
- h .邹,”自适应套索和oracle属性”,美国统计协会杂志》上,卷101,不。476年,第1429 - 1418页,2006年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 林m元,y,”在回归模型选择和评估分组变量,“英国皇家统计学会杂志》:系列B(统计方法),卷68,不。1,49 - 67年,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- h·d·Bondell和b . j .帝国”,同时回归收缩、变量选择和监督聚类预测奥斯卡,“生物识别技术,卷64,不。1,第123 - 115页,2008。视图:出版商的网站|谷歌学术搜索
- h .邹和h·h·张在自适应elastic-net不同数量的参数,“统计年报,37卷,不。4、1733 - 1751年,2009页。视图:出版商的网站|谷歌学术搜索
- 学术界。张,“近无偏变量选择下极大极小凹点球,”统计年报,38卷,不。2、894 - 942年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- d·b·沙玛,h·d·Bondell和h·h·张,“一致的团体意识和变量选择与相关预测回归,”计算和图形统计杂志》上,22卷,不。2、319 - 340年,2013页。视图:出版商的网站|谷歌学术搜索
- v c。Yohai”,高击穿点和高效稳健估计回归,”统计年报,15卷,不。2、642 - 656年,1987页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- d . j .橄榄油和d·m·霍金斯“健壮的多元位置和分散,”http://lagrange.math.siu.edu/Olive/pphbmld.pdf,2010年。视图:谷歌学术搜索
- r·威尔科克斯介绍了稳健估计和假设检验、统计建模和决策科学、学术出版社,2005年。视图:MathSciNet
- A . Alkenani k . Yu,“健壮的典型相关方法的比较研究”,杂志的统计计算和模拟,卷83,不。4、690 - 720年,2013页。视图:出版商的网站|谷歌学术搜索
- w·d·Mangold l . Bean和d·亚当斯”之间的校际体育对毕业率的影响主要的全国大学生大学:大学坚持理论和实践的影响,“《高等教育,卷74,不。5,540 - 563年,2003页。视图:谷歌学术搜索
- g·c·麦克唐纳和r . c .等不稳定的回归估计空气污染相关的死亡率,”技术计量学,15卷,不。3、463 - 481年,1973页。视图:出版商的网站|谷歌学术搜索
版权
版权©2017阿里Alkenani和Tahir r . Dikheel。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。