线性回归模型中的随机约束套索型估计量

摘要

在众多的变量选择方法中，当预测变量之间存在多重共线性时，LASSO是同时处理高维线性回归模型中正则化和变量选择的最理想的估计方法。由于套索在高多重共线性下是不稳定的，采用弹性网（Enet）估计来克服这一问题。根据文献报道，回归参数的估计可以通过在模型中加入回归系数的先验信息来改进，这些先验信息可以是精确的或随机的线性约束形式。本文通过引入随机线性约束，提出了一种随机约束套索型估计器（SRLASSO）。在蒙特卡罗模拟的基础上，比较了SRLASSO与LASSO和Enet在均方根误差（RMSE）准则和平均绝对预测误差（MAPE）准则中的性能。最后，用一个真实的例子来演示SRLASSO的性能。

1.简介

让我们考虑线性回归模型在哪里ÿ是ñ × 1因变量观测向量，X是ñ × p非随机预测变量的观测矩阵，β是一个p×1未知系数向量,ϵ是ñ × 1 vector of random error terms, which is independent and identically normally distributed with the mean zero and common varianceσ²,也就是说,Ë(ϵ)= 0Ë(ϵϵ′)=Ω = σ²一世。

众所周知，普通最小二乘估计量(OLSE)是模型的最佳线性无偏估计量(1），它被定义为

此外,研究人员(1，2]已经表明，当用于回归系数的先验信息可用参数估计得到改善，这可在精确线性限制或随机线性限制的形式。让我们假设存在先验信息β以随机线性约束的形式在哪里φ是q × 1 vector,[R是q × p矩阵秩q，和v是q × 1干扰矢量，以便Ë（v)= 0,d（v) = Ë（vv′) = Ψ = σ²w ^（w ^是正定的）和Ë（vϵ′） = 0。注意等式(3)当v = 0。

泰尔和戈德伯格[2]结合模型提出了混合回归估计（MRE）(1）和（3），它被定义为

据文献报道，有人指出，OLSE和MRE是不稳定的，当预测器的数目是高的。在这种情况下，已经使用了变量选择方法，如前向选择，后向选择，并逐步选择。然而，这些方法也是不稳定的，当存在多重共线性预测变量中。作为补救办法解决这个问题，Tibshirani [3]，考虑模型(1）同时处理多重共线性和变量选择同时在高维线性回归模型。套索估计被定义为在哪里Ť≥0为转向参数。LASSO的解可以使用标准二次规划技术或最小角度回归(LARS) [4]算法。据邹等人。[五，6]，Lasso是不稳定的，当预测变量之间存在多重共线性高。因此，他们提出了弹性网（硅谷动力）估计，以替代套索处理这个问题。所述硅谷动力估计被定义为

利用改进的LARS算法LARS-EN，可以得到Enet解。

诺鲁兹拉德等[7]图阿萨和阿尔斯兰[8]试图将LASSO与精确的线性约束结合起来，由于LASSO没有解析解，他们的工作没有很好地定义如何将精确的约束结合起来。在本文中，我们将LASSO和随机约束相结合，提出了一种随机约束的LASSO型估计量。此外，我们通过蒙特卡罗模拟研究和实际例子，比较了SRLASSO与LASSO和Enet在均方根误差(RMSE)准则和平均绝对预测误差(MAPE)准则方面的性能。本文其余部分的结构如下2介绍了SRLASSO和找到SRLASSO解的算法，第节3展示了SRLASSO的性能，以及剖面4总结在文末提供的文章和引用。

2.随机受限LASSO型估计器（SRLASSO）

通过考虑方程式（3）作为附加约束，我们定义随机受限LASSO型估计器（SRLASSO）作为

我们可以把它看作一个二次优化问题。这里，我们有两个^p+q限制。然而，这种方法并不适合实际情况，如果p很大。因此，我们提出了一个随机限制LARS (SRLARS)算法，这是LARS算法的修改版本，以找到SRLASSO解。在SRLARS中，我们将MRE与LARS合并。

2.1。随机指标限制LARS（SRLARS）

标准化预测变量X到具有零的平均值和一个标准偏差，和响应变量ÿ得到一个均值0。设模型残差(1）和（3)和，分别。

第一步。从...开始，[R₀ = ÿ，和τ₀ = φ。

第二步。查找预测X_Ĵ1最相关的[R₀如下：让为的回归系数X_吉. 然后，增加从0朝向MRE直至任何其它预测X_Ĵ2具有与当前剩余作为具有高相关性X_Ĵ1确实。在这一点上，在SRLARS两个预测之间的等角方向前进X_Ĵ1和X_Ĵ2而不是继续基于X_Ĵ1。
同样地，一世^th变量X_吉最终，它会进入活动集，然后拉尔斯会沿着两者之间的等角方向前进X_Ĵ1，X_Ĵ2, …,X_吉. 以这种方式继续向活动集添加变量，并沿最小角度方向定义的方向移动。在中间步骤中，使用以下公式更新系数估计值：在哪里α_一世是0和1表示多远的方向上的移动估算的另一个变量进入模型和方向再次改变之前，与之间的值ü_一世是等角向量。
的方向ü_一世根据MRE使用以下公式计算：在哪里Ë_一世是带列的矩阵(Ë_Ĵ1，Ë_Ĵ2, …,Ë_吉),Ë_Ĵ是Ĵ^th在标准单位矢量，其具有在每个随后的步骤中选择的变量的索引。
那么，α_一世的计算方法如下：在哪里任何人Ĵ这样和任何人Ĵ这样。

步骤3。如果，然后Ë_一世矩阵是通过移除列形成的吗Ë_Ĵ从Ë_一世-1。然后[R_一世和τ_一世与当前步骤被计算为然后进入下一个步骤Ĵ_一世+1个是的价值Ĵ这样或或。

步骤4。继续步骤2直到α_一世= 1。

2.2。SRLARS的属性

SRLARS算法依次更新SRLASSO估计。它需要Ø（米³+下午²）操作，其中，米是的步数。SRLARS的预测性能是使用RMSE准则和MAPE准则，这是在部分所述评价3。据埃弗龙等人。[4]，传统的调谐参数是，以及车削参数的适宜值Ť对于特定问题，使用K-fold交叉验证进行选择。

2.3。先验信息的选择

根据Nagar和Kakwani的说法[9]，我们可以如下定义先验信息：设β₁是一些选定的向量q要素β和β₂成为其他元素。假设b是已知的无偏估计β₁. 通过使用“二西格玛规则”，现在我们可以写出β₁如b ± 2SE(b). 在此基础上，我们可以设置方程的表达式(3）作为，，，和。

3. SRLASSO性能

将SRLASSO与LASSO和Enet使用RMSE准则和MAPE准则进行比较，RMSE准则和MAPE准则是算法的期望预测误差，定义为其中(ÿ_新的，X_新的）表示它们不用于获得参数估计新的数据，ñ是新的观察结果的数量，是β使用各自的算法。采用蒙特卡罗模拟研究和实际算例进行比较。

3.1。模拟研究

据McDonald和Galarneau说[10]，我们首先生成通过使用下面的公式预测变量：在哪里ž_一世，Ĵ是一个独立的标准正态伪随机数和吗ρ是任意两个解释变量之间的理论相关。

在本研究中，我们使用了100个观察值和20个预测因子的线性回归模型。因变量由下式产生: 其中ε_一世是具有零均值和方差共同正常伪随机数σ²。

我们选择β= (β₁，β₂, …,β_20.）为对应的最大特征值的特征向量归X“X为此β“β= 1。根据章节定义先验信息2.3款，我们假设OLSE估计β是公正的，这是估计b。为了研究不同的多重共线性度对估计量的影响，我们选择了ρ= (0。五，0。7，0。9), which represents weak, moderated, and high multicollinearity. For the analysis, we have simulated 50 data sets consisting of 50 observations to fit the model and 50 observations to calculate the RMSE and MAPE. The cross-validated RMSE and MAPE of the estimators are displayed in Figure1和数字2,分别。估计量的中间交叉验证RMSE和MAPE如表所示1。

（一）

(b)

(c)

（一）

(b)

(c)


	估计器	RMSE公司	日军	Ť	ķ	选择的变量

ρ = 0。五	套索	3.440	2830万	7.60	-	16
	硅谷动力	3.454	2.854	7.14	0.01	17
	SRLASSO	3.280	2.63条	6.16	-	15

ρ = 0。7	套索	3.512	2.804	8.66	-	15
	硅谷动力	3.609	2.879	8.95	0.01	17
	SRLASSO	3.322	2.676	6.43	-	15

ρ = 0。9	套索	3.502	2.769	13.48	-	15
	硅谷动力	3.466	2.814	14.47	0.01	16
	SRLASSO	3.318	2.732	11.66	-	15

从数据1和2和表1，我们可以观察到SRLASSO总是表现出更好的性能相比，套索和硅谷动力所有程度的多重共线性下都RMSE准则和MAPE准则。

3.2。真实世界的例子

作为一数字例子，公知的前列腺癌数据[11]是用来比较SRLASSO的性能。该数据集上安装有“lasso2” R包。在前列腺癌的数据，该预测器以下八个临床措施：日志癌体积（lcavol），日志前列腺重量（LWEIGHT），年龄，日志良性前列腺增生（lbph），精囊浸润（SVI）的量的，日志荚膜渗透（LCP），Gleason评分（格里森），和百分比Gleason评分4或5（pgg45）。响应是前列腺特异抗原（LPSA）的对数，和数据集具有97个观测。的数据集的预测变量的方差膨胀因子（VIF）值是3.09，2.97，2.47，2.05，1.95，1.37，1.36，和1.32，和条件数为243，其示出了预测器变量之间的多重共线性的证据。Stamey等。[11研究了前列腺特异性抗原水平与这八项临床指标的相关性。此外,Tibshirani [3]以及Tibshirani等人。[4用这些数据分别检验了LASSO和LARS算法的性能。我们用67个观测值来拟合模型，用30个观测值来计算RMSE和MAPE。我们假设OLSE对前列腺癌数据的前三个回归系数的估计是无偏的，我们基于切片定义了该数据的先验信息2.3款. 估计量的交叉验证RMSE和MAPE显示在表中2，各估计器的系数路径如图所示3。


估计器	RMSE公司	日军	Ť	ķ

套索	0.8567个	0.6496个	1.2263	-
硅谷动力	0.8063	0.6010个	1.2897个	0.01
SRLASSO	0.7833	0.5803	1.0415	-

（一）

(b)

(c)

从表2我们可以观察到SRLASSO在RMSE准则和MAPE准则下均优于LASSO和Enet。此外，我们可以注意到，通过比较数字，每个估计器的变量选择是不同的图3（a）-3（c）。

4.结论

研究表明，当预测变量之间存在多重共线性时，SRLASSO在RMSE准则和MAPE准则中的性能均优于LASSO和Enet。因此，如果回归系数的先验信息是可获得的，SRLASSO可以作为LASSO和Enet的替代估计。提出的SRLARS算法可用于求解SRLASSO解。

数据可用性

用于支持该研究结果的数据包括在项目之内。

利益冲突

作者声明他们没有利益冲突。

参考

J.德宾，“关于回归的说明时，有大约系数的一个无关的信息，”美国统计协会杂志卷。48，没有。264，第799-808，1953。查看位置：出版商的网站|谷歌学术搜索
H.泰尔和A. S.戈德伯格，“关于经济纯与混合的统计估计，”国际经济评论，第2卷第2期1，第65-78页，1961。查看位置：出版商的网站|谷歌学术搜索
R. Tibshirani，“回归收缩和经由套索选择，”英国皇家统计学会期刊:B辑(方法论)，第58卷第2期1，第267-288页，1996。查看位置：出版商的网站|谷歌学术搜索
B. Efron, T. Hastie, I. Johnstone和R. Tibshirani，《最小角度回归》统计年报，第32卷，no。2，第407-499页，2004。查看位置：出版商的网站|谷歌学术搜索
邹和哈斯蒂，“通过弹性网络的正则化和变量选择”，英国皇家统计学会学报:B辑(统计方法论)，第67卷，第2期，第301-320页，2005年。查看位置：出版商的网站|谷歌学术搜索
Z、 Y.Algamal，M.H.Lee，A.M.Al-Fakih和M.Aziz，“使用调整自适应套索对咪唑4，5-b吡啶衍生物抗癌活性的高维定量构效关系预测”杂志化学计量学卷。29，没有。10，第547-556，2015。查看位置：出版商的网站|谷歌学术搜索
M. Norouzirad，M.岚，和A. K.萨利赫，“受限套索和双缩水，” 2015年，https://arxiv.org/abs/1505.02913。查看位置：谷歌学术搜索
Y. TUAC和O.阿尔斯兰，“在限制线性回归模型变量选择，” 2017年，https://arxiv.org/abs/1710.04105。查看位置：谷歌学术搜索
a . L. Nagar和N. C. Kakwani，“混合回归估计量的偏差和矩矩阵”，费雪，第32卷，no。1/2页，174-182,1964。查看位置：出版商的网站|谷歌学术搜索
G. C. McDonald和D. I. Galarneau，“一些脊型估计的蒙特卡洛评价，”美国统计协会杂志，第70卷，no。350页，407-416页，1975年。查看位置：出版商的网站|谷歌学术搜索
T、 A.Stamey，J.N.Kabalin，J.E.McNeal等人，“前列腺特异性抗原在前列腺癌诊断和治疗中的应用”。二。根治性前列腺切除术泌尿外科杂志卷。141，没有。5，第1076至83年，1989。查看位置：出版商的网站|谷歌学术搜索

杂志概率统计

摘要

1.简介

2.随机受限LASSO型估计器（SRLASSO）

2.1。随机指标限制LARS（SRLARS）

2.2。SRLARS的属性

2.3。先验信息的选择

3. SRLASSO性能

3.1。模拟研究

3.2。真实世界的例子

4.结论

数据可用性

利益冲突

参考

版权

更多相关文章

相关文章