杂志概率统计

PDF
杂志概率统计/2020/文章

研究文章|开放获取

体积 2020 |文章编号 7352097号 | 7 | https://doi.org/10.1155/2020/7352097

线性回归模型中的随机约束套索型估计量

学术编辑:Yaozhong胡
收到 2019年11月13日
修改后的 2020年2月9日
公认 2020年2月29日
发布时间 2020年3月30

摘要

在众多的变量选择方法中,当预测变量之间存在多重共线性时,LASSO是同时处理高维线性回归模型中正则化和变量选择的最理想的估计方法。由于套索在高多重共线性下是不稳定的,采用弹性网(Enet)估计来克服这一问题。根据文献报道,回归参数的估计可以通过在模型中加入回归系数的先验信息来改进,这些先验信息可以是精确的或随机的线性约束形式。本文通过引入随机线性约束,提出了一种随机约束套索型估计器(SRLASSO)。在蒙特卡罗模拟的基础上,比较了SRLASSO与LASSO和Enet在均方根误差(RMSE)准则和平均绝对预测误差(MAPE)准则中的性能。最后,用一个真实的例子来演示SRLASSO的性能。

1.简介

让我们考虑线性回归模型 在哪里ÿñ × 1因变量观测向量,Xñ × p非随机预测变量的观测矩阵,β是一个p×1未知系数向量,ϵ是ñ × 1 vector of random error terms, which is independent and identically normally distributed with the mean zero and common varianceσ2,也就是说,Ë(ϵ)= 0Ë(ϵϵ′)=Ω = σ2一世

众所周知,普通最小二乘估计量(OLSE)是模型的最佳线性无偏估计量(1),它被定义为

此外,研究人员(12]已经表明,当用于回归系数的先验信息可用参数估计得到改善,这可在精确线性限制或随机线性限制的形式。让我们假设存在先验信息β以随机线性约束的形式 在哪里φq × 1 vector,[Rq × p矩阵秩q,和vq × 1干扰矢量,以便Ëv)= 0,dv) = Ëvv′) = Ψ = σ2w ^w ^是正定的)和Ëvϵ′) = 0。注意等式(3)当v = 0。

泰尔和戈德伯格[2]结合模型提出了混合回归估计(MRE)(1)和(3),它被定义为

据文献报道,有人指出,OLSE和MRE是不稳定的,当预测器的数目是高的。在这种情况下,已经使用了变量选择方法,如前向选择,后向选择,并逐步选择。然而,这些方法也是不稳定的,当存在多重共线性预测变量中。作为补救办法解决这个问题,Tibshirani [3],考虑模型(1)同时处理多重共线性和变量选择同时在高维线性回归模型。套索估计被定义为 在哪里Ť≥0为转向参数。LASSO的解可以使用标准二次规划技术或最小角度回归(LARS) [4]算法。据邹等人。[6],Lasso是不稳定的,当预测变量之间存在多重共线性高。因此,他们提出了弹性网(硅谷动力)估计,以替代套索处理这个问题。所述硅谷动力估计被定义为

利用改进的LARS算法LARS-EN,可以得到Enet解。

诺鲁兹拉德等[7]图阿萨和阿尔斯兰[8]试图将LASSO与精确的线性约束结合起来,由于LASSO没有解析解,他们的工作没有很好地定义如何将精确的约束结合起来。在本文中,我们将LASSO和随机约束相结合,提出了一种随机约束的LASSO型估计量。此外,我们通过蒙特卡罗模拟研究和实际例子,比较了SRLASSO与LASSO和Enet在均方根误差(RMSE)准则和平均绝对预测误差(MAPE)准则方面的性能。本文其余部分的结构如下2介绍了SRLASSO和找到SRLASSO解的算法,第节3展示了SRLASSO的性能,以及剖面4总结在文末提供的文章和引用。

2.随机受限LASSO型估计器(SRLASSO)

通过考虑方程式(3)作为附加约束,我们定义随机受限LASSO型估计器(SRLASSO)作为

我们可以把它看作一个二次优化问题。这里,我们有两个p+q限制。然而,这种方法并不适合实际情况,如果p很大。因此,我们提出了一个随机限制LARS (SRLARS)算法,这是LARS算法的修改版本,以找到SRLASSO解。在SRLARS中,我们将MRE与LARS合并。

2.1。随机指标限制LARS(SRLARS)

标准化预测变量X到具有零的平均值和一个标准偏差,和响应变量ÿ得到一个均值0。设模型残差(1)和(3) 分别。

第一步。从...开始 [R0 = ÿ,和τ0 = φ

第二步。查找预测XĴ1最相关的[R0如下: 为的回归系数X. 然后,增加 从0朝向MRE直至任何其它预测XĴ2具有与当前剩余作为具有高相关性XĴ1确实。在这一点上,在SRLARS两个预测之间的等角方向前进XĴ1XĴ2而不是继续基于XĴ1
同样地,一世th变量X最终,它会进入活动集,然后拉尔斯会沿着两者之间的等角方向前进XĴ1XĴ2, …,X. 以这种方式继续向活动集添加变量,并沿最小角度方向定义的方向移动。在中间步骤中,使用以下公式更新系数估计值: 在哪里α一世是0和1表示多远的方向上的移动估算的另一个变量进入模型和方向再次改变之前,与之间的值ü一世是等角向量。
的方向ü一世根据MRE使用以下公式计算: 在哪里Ë一世是带列的矩阵(ËĴ1ËĴ2, …,Ë),ËĴĴth在标准单位矢量 其具有在每个随后的步骤中选择的变量的索引。
那么,α一世的计算方法如下: 在哪里 任何人Ĵ这样 任何人Ĵ这样

步骤3。如果 然后Ë一世矩阵是通过移除列形成的吗ËĴË一世-1。然后[R一世τ一世与当前步骤被计算为 然后进入下一个步骤Ĵ一世+1个是的价值Ĵ这样

步骤4。继续步骤2直到α一世= 1。

2.2。SRLARS的属性

SRLARS算法依次更新SRLASSO估计。它需要Ø3+下午2)操作,其中,是的步数。SRLARS的预测性能是使用RMSE准则和MAPE准则,这是在部分所述评价3。据埃弗龙等人。[4],传统的调谐参数是 以及车削参数的适宜值Ť对于特定问题,使用K-fold交叉验证进行选择。

2.3。先验信息的选择

根据Nagar和Kakwani的说法[9],我们可以如下定义先验信息:设β1是一些选定的向量q要素ββ2成为其他元素。假设b是已知的无偏估计β1. 通过使用“二西格玛规则”,现在我们可以写出β1b ± 2SE(b). 在此基础上,我们可以设置方程的表达式(3)作为

3. SRLASSO性能

将SRLASSO与LASSO和Enet使用RMSE准则和MAPE准则进行比较,RMSE准则和MAPE准则是算法的期望预测误差,定义为 其中(ÿ新的X新的)表示它们不用于获得参数估计新的数据,ñ是新的观察结果的数量, β使用各自的算法。采用蒙特卡罗模拟研究和实际算例进行比较。

3.1。模拟研究

据McDonald和Galarneau说[10],我们首先生成通过使用下面的公式预测变量: 在哪里ž一世Ĵ是一个独立的标准正态伪随机数和吗ρ是任意两个解释变量之间的理论相关。

在本研究中,我们使用了100个观察值和20个预测因子的线性回归模型。因变量由下式产生: 其中ε一世是具有零均值和方差共同正常伪随机数σ2

我们选择β= (β1β2, …,β20.)为对应的最大特征值的特征向量归XX为此ββ= 1。根据章节定义先验信息2.3款,我们假设OLSE估计β是公正的,这是估计b。为了研究不同的多重共线性度对估计量的影响,我们选择了ρ= (0。五,0。7,0。9), which represents weak, moderated, and high multicollinearity. For the analysis, we have simulated 50 data sets consisting of 50 observations to fit the model and 50 observations to calculate the RMSE and MAPE. The cross-validated RMSE and MAPE of the estimators are displayed in Figure1和数字2,分别。估计量的中间交叉验证RMSE和MAPE如表所示1


估计器 RMSE公司 日军 Ť ķ 选择的变量

ρ = 0。五 套索 3.440 2830万 7.60 - 16
硅谷动力 3.454 2.854 7.14 0.01 17
SRLASSO 3.280 2.63条 6.16 - 15

ρ = 0。7 套索 3.512 2.804 8.66 - 15
硅谷动力 3.609 2.879 8.95 0.01 17
SRLASSO 3.322 2.676 6.43 - 15

ρ = 0。9 套索 3.502 2.769 13.48 - 15
硅谷动力 3.466 2.814 14.47 0.01 16
SRLASSO 3.318 2.732 11.66 - 15

从数据12和表1,我们可以观察到SRLASSO总是表现出更好的性能相比,套索和硅谷动力所有程度的多重共线性下都RMSE准则和MAPE准则。

3.2。真实世界的例子

作为一数字例子,公知的前列腺癌数据[11]是用来比较SRLASSO的性能。该数据集上安装有“lasso2” R包。在前列腺癌的数据,该预测器以下八个临床措施:日志癌体积(lcavol),日志前列腺重量(LWEIGHT),年龄,日志良性前列腺增生(lbph),精囊浸润(SVI)的量的,日志荚膜渗透(LCP),Gleason评分(格里森),和百分比Gleason评分4或5(pgg45)。响应是前列腺特异抗原(LPSA)的对数,和数据集具有97个观测。的数据集的预测变量的方差膨胀因子(VIF)值是3.09,2.97,2.47,2.05,1.95,1.37,1.36,和1.32,和条件数为243,其示出了预测器变量之间的多重共线性的证据。Stamey等。[11研究了前列腺特异性抗原水平与这八项临床指标的相关性。此外,Tibshirani [3]以及Tibshirani等人。[4用这些数据分别检验了LASSO和LARS算法的性能。我们用67个观测值来拟合模型,用30个观测值来计算RMSE和MAPE。我们假设OLSE对前列腺癌数据的前三个回归系数的估计是无偏的,我们基于切片定义了该数据的先验信息2.3款. 估计量的交叉验证RMSE和MAPE显示在表中2,各估计器的系数路径如图所示3


估计器 RMSE公司 日军 Ť ķ

套索 0.8567个 0.6496个 1.2263 -
硅谷动力 0.8063 0.6010个 1.2897个 0.01
SRLASSO 0.7833 0.5803 1.0415 -

从表2我们可以观察到SRLASSO在RMSE准则和MAPE准则下均优于LASSO和Enet。此外,我们可以注意到,通过比较数字,每个估计器的变量选择是不同的图3(a)-3(c)

4.结论

研究表明,当预测变量之间存在多重共线性时,SRLASSO在RMSE准则和MAPE准则中的性能均优于LASSO和Enet。因此,如果回归系数的先验信息是可获得的,SRLASSO可以作为LASSO和Enet的替代估计。提出的SRLARS算法可用于求解SRLASSO解。

数据可用性

用于支持该研究结果的数据包括在项目之内。

利益冲突

作者声明他们没有利益冲突。

参考

  1. J.德宾,“关于回归的说明时,有大约系数的一个无关的信息,”美国统计协会杂志卷。48,没有。264,第799-808,1953。查看位置:出版商的网站|谷歌学术搜索
  2. H.泰尔和A. S.戈德伯格,“关于经济纯与混合的统计估计,”国际经济评论,第2卷第2期1,第65-78页,1961。查看位置:出版商的网站|谷歌学术搜索
  3. R. Tibshirani,“回归收缩和经由套索选择,”英国皇家统计学会期刊:B辑(方法论),第58卷第2期1,第267-288页,1996。查看位置:出版商的网站|谷歌学术搜索
  4. B. Efron, T. Hastie, I. Johnstone和R. Tibshirani,《最小角度回归》统计年报,第32卷,no。2,第407-499页,2004。查看位置:出版商的网站|谷歌学术搜索
  5. 邹和哈斯蒂,“通过弹性网络的正则化和变量选择”,英国皇家统计学会学报:B辑(统计方法论),第67卷,第2期,第301-320页,2005年。查看位置:出版商的网站|谷歌学术搜索
  6. Z、 Y.Algamal,M.H.Lee,A.M.Al-Fakih和M.Aziz,“使用调整自适应套索对咪唑4,5-b吡啶衍生物抗癌活性的高维定量构效关系预测”杂志化学计量学卷。29,没有。10,第547-556,2015。查看位置:出版商的网站|谷歌学术搜索
  7. M. Norouzirad,M.岚,和A. K.萨利赫,“受限套索和双缩水,” 2015年,https://arxiv.org/abs/1505.02913查看位置:谷歌学术搜索
  8. Y. TUAC和O.阿尔斯兰,“在限制线性回归模型变量选择,” 2017年,https://arxiv.org/abs/1710.04105查看位置:谷歌学术搜索
  9. a . L. Nagar和N. C. Kakwani,“混合回归估计量的偏差和矩矩阵”,费雪,第32卷,no。1/2页,174-182,1964。查看位置:出版商的网站|谷歌学术搜索
  10. G. C. McDonald和D. I. Galarneau,“一些脊型估计的蒙特卡洛评价,”美国统计协会杂志,第70卷,no。350页,407-416页,1975年。查看位置:出版商的网站|谷歌学术搜索
  11. T、 A.Stamey,J.N.Kabalin,J.E.McNeal等人,“前列腺特异性抗原在前列腺癌诊断和治疗中的应用”。二。根治性前列腺切除术泌尿外科杂志卷。141,没有。5,第1076至83年,1989。查看位置:出版商的网站|谷歌学术搜索

版权所有©2020 Manickavasagar Kayanan和Pushpakanthie Wijekoon。这是下发布的开放式访问文章知识共享署名许可,它允许在任何媒体中不受限制地使用、分发和复制,前提是正确引用了原始作品。


更多相关文章

124 的观点 | 75 下载 | 0 引文
PDF 下载文献 引用
下载其他格式更多的
为了打印副本订购

相关文章

我们致力于尽快、安全地分享与COVID-19有关的发现。任何提交COVID-19论文的作者应通知我们help@hindawi.com网址以确保他们的研究得到快速跟踪,并尽快在印前服务器上提供。我们将为接受的与COVID-19相关的文章提供无限的出版费用减免。注册在这里作为一个评论家,以帮助快速跟踪新的意见书。