文摘
岭估计的使用是很常见的在多元线性回归模型存在多重共线性。岭作为替代普通最小二乘法的多重共线性均方误差较低。选择偏置参数的最优值k岭回归的偏见方差贸易是至关重要的。因为岭之间的理论比较是不可能的,这是惯例进行蒙特卡罗研究进行比较。在蒙特卡洛设计现有岭检查,这是看到的表演岭只考虑相同级别的独立变量之间的关系。然而,它更有可能遇到不同程度的独立变量之间的关系在现实数据集。在这项研究中,提出了一种新型迭代岭估计基于修改的估计均方误差函数形式。此外,还提供了一个新颖的搜索算法实现了估计。提出了估计量的性能比较与普通最小二乘估计量和现有18岭估计通过一个广泛的蒙特卡罗设计。在蒙特卡洛的设计,数据生成技术考虑,基于常数和不同自变量之间的相关性水平。两个说明性的真实数据的例子。该估计量优于现有的估计量的均方误差的数据生成类型。此外,它也是上级对k-fold交叉验证方法在现实数据的例子。
1。介绍
让我们考虑多元线性回归模型的一般形式: 在哪里是一个 向量的响应(依赖)变量,是一个 未知的回归系数向量,是一个 设计矩阵的秩 ,和是一个 随机误差向量,与零均值向量和多元正态分布variance-covariance矩阵。普通最小二乘法(OLS)的估计量是由 和variance-covariance矩阵是(1]。
回想一下,OLS估计量是无偏最小方差无偏估计量中。OLS估计量保持最小方差的无偏性,但失去了财产的存在多重共线性。因此,大型标准错误导致更广泛的置信区间和严重的错误解释的模型参数。数估计提出了解决多重共线性问题[1- - - - - -10]。这些研究都集中在减少牺牲的方差无偏性,从而发现有小的估计均方误差(MSE)。岭回归旨在解决多重共线性的问题通过添加小正对角元素的值矩阵。岭估计的 在哪里 是一个未知参数向量和尺寸吗 由方程(2)提出了4]。大部分的岭估计来自转换之前提出的估计。例如,调和平均数的吗 ;此外, , ,和估计也获得使用算术平均,几何平均数和中位数 ,分别为(1,5]。和估计被(建议1,11),分别。六岭估计提出了通过添加乘数包括不同分位数的 (最大特征值的矩阵)和估计,12]。这些例子可以延长研究新的估计得到通过应用最小值,最大值,和平方根转换现有的估计(8,9]。
除了脊和刘类型估计量的估计相结合,解决方案的估计在最近的研究提出的问题涉及到多重共线性和异常值问题脱颖而出13- - - - - -16]。有研究涉及到修改不同的评估方法或使用岭回归模型。例如,作者在17]提出四岭估计基于OLS估计得到deleted-d重叠方法,提出代替了岭估计基于经典的主成分估计。作者在18也提出了一个延伸的Kibria Lukman伽马回归模型的估计量的存在多重共线性。
在这项研究中,提出了一种新的估计基于修改形式的估计均方误差函数,而不是使用任何转换现有的估计,也给出了一种新的快速搜索算法获取岭估计。我们检查了岭估计家中小企业的仿真,发现这些估计是远远大于理论MSE。此外,我们也观察到类似的估计家中小企业为非常大或非常小的岭估计。为了克服这些估计的声明的缺点,我们提出了新的估计量的估计均方误差接近理论MSE。当蒙特卡洛岭估计的研究检查,发现他们是由假设所有的独立变量之间的关系是平等的。然而,它更有可能遇到不同程度的变量与实际数据集之间的关系。在这项研究中,数据生成技术可以生成数据根据独立变量之间的关系在不同层次上就像在真实数据集用于评估的性能估计除了现有的人工数据生成技术。论文的组织如下:给出了岭估计的关注,并提出了估计量的部分2。节3,蒙特卡洛仿真和结果的绩效评估估计进行了讨论。两个真实数据的例子和结果呈现在部分4。最后,给出了一些结论5。
2。统计方法
岭估计的用 在哪里被称为“脊”或“缩水”参数。同样清楚的是,的一个特例吗为 (4]。
规范形式的方程(1)可以表示使用 和 作为 在哪里 代表的特征值 。 被定义为一个正交的特征向量矩阵的大小 这样 。岭估计的给出如下: 在哪里是单位矩阵的大小 , ,和 OLS估计量的吗 。的均方误差在方程(4)和最小化 (是th元素 )(3,4]。
在真实数据的例子,给出的估计均方误差方程(5)用于岭估计的性能比较和是未知的1]。
在表1,部分岭估计在文献中。
2.1。该估计量
一般来说,在文献中,岭估计的性能在实际数据集由squares-based最小均方误差估计(相比1,2,6,8,9,11,12,14- - - - - -18]。从这个角度看,我们专注于基于OLS估计均方误差,并考虑到仿真结果,我们发现这种方法失败,估计为了这些估计都远远大于理论MSE。这一事实不同岭给相似非常大或非常小的岭估计为了估计表明,无法考虑获取最优岭估计均方误差函数的凸性。原因说,一个新的岭估计量提出优化的基础上修改,但仍估计的均方误差函数的凸函数。在方程(6)是通过修改在方程(5)。该估计量不同在三个方面。首先,在方程(6)使用正则参数给定岭岭估计的参数不是OLS估计。所有值在每个表中给出估计量1OLS估计 。第二,乘数在方差组件添加到考虑样本容量的效果。最后, 术语保证了小岭估计;很明显,大型岭估计将增加MSE。
的解决方案在(6)不能获得的分析,我们提出了一种快速搜索算法。在算法的步骤如下tth迭代。
|
3所示。模拟研究
这部分是关于蒙特卡罗模拟的因素包括有重大影响的估计和绩效评价标准估计在考虑。我们检查了相关矩阵的结构(数据生成的类型),样本大小,程度的多重共线性,误差项的方差估计的影响性能的因素。
3.1。模拟布局
许多作者认为所有的变量之间的关系是平等的岭估计的数值评估(1,2,6- - - - - -9]。这些作品使用数据生成方法提出的(19]。我们这种类型的数据表示为一代DG和应用它,如下所示。数据矩阵的大小列二元的解释变量的相关性生成的 在哪里生产的标准正态分布(19]。
我们还研究了数据生成根据不同级别的独立变量之间的相关性。我们这种类型的数据表示为一代与CG和应用如下。这个方程 可以编写提供了吗的相关矩阵和柯列斯基分解的 ,和是标准正态分布的伪随机矩阵。CG类型数据生成检查通过考虑相关性矩阵等决定的和 。这些相关性矩阵生成根据指定的偏相关性葡萄树方法(20.]。中给出的相关系数分布在一个狭窄的范围,而在更广泛的绝对值。
仿真研究进行如下。首先,four-variable (= 4)设计矩阵为每个类型的数据生成的一代。被认为是对应的关系 和根据和CG。然后,对于这两种类型的数据代以下应用程序相同的方式。每一列的集中和标准化通过计算z分数和除以 。因变量是标准化。因此,和在相关表单。选择是最大的特征值对应的归一化特征向量矩阵。其他的选择因素的值在模拟研究中被认为是样本容量= 30、50、100和标准偏差的误差项 和 。
因变量是由观察(9),样本独立同分布的正态分布为零,意味着什么方差。
选择数据生成的类型和值和 ,不同样本生成使用方程(9)和模拟重复10000次。对于每一个复制,平均MSE (AMSE)估计量的(10)用于性能评估标准: 在哪里岭估计量的估计参数向量tth迭代为真正的参数向量 。
3.2。结果与讨论
仿真结果给出了基于DG在表2- - - - - -4。我们观察到的结果DG数据生成类型最低AMSE价值对于所有给定的值 ,和 。执行OLS估计量最糟糕的AMSE标准。我们还观察到从表2- - - - - -4相关程度的增加,ams , , , ,和估计是所有样本大小除了减少= 0.1,= 30。
一般来说,错误的标准偏差方面的增加,和AMSE值也增加。然而,AMSE值的变化 , , ,和估计是不规则的。随着误差项的标准差增加,估计是最均匀估计AMSE值= 0.95,= 0.99,虽然是第二个最好的均匀的估计量= 0.999。
我们观察到的CG型数据生成结果的表5- - - - - -7这一估计AMSE值最低的所有值 , ,和 。OLS估计量的估计中也表现最糟糕的AMSE标准。
也注意到,随着观察的数量增加,AMSE值和为每个关联结构和增加值。然而,随着观测数量的增加 0.1, 5,值= 10,AMSE估计减少的相关结构。
一般来说,我们得出这样的结论:当增加,AMSE值的估计都增加样本容量和相关结构。也观察到AMSE值更高的相关矩阵时具有较高的变异性。
4所示。真实数据的例子
在前一节中,给出了详细的仿真研究比较选定的估计的性能。估计的真正的表演,两个真实数据的例子。共线性的存在是由条件决定的数量(CN)。的平方根矩阵的最大特征值的比值最小的特征值确定为CN。一般来说,CN值10至30表示温和的多重共线性。CN的值大于30被接受为指示性强烈的共线性(2]。多重共线性是高的,如果CN 30至100和严重当其大于10013]。
与蒙特卡罗研究,估计的性能评估是k-fold交叉验证(CV)方法,考虑到模型参数的真实值不知道真实数据的应用程序。在CV方法中,数据集随机分为部分(折叠),每个部分由选定的行和 。对于创建的分区,数据集随机分为训练和测试数据次了。观察训练和测试数据的数量 和 ,分别。从训练数据模型估计是用于估计测试数据(21]。简历统计给出了方程(11),是jth的观察我th折叠,是预测jth的观察我使用剩余的th褶皱( )褶皱作为训练数据和用于评估每个岭估计的性能。
4.1。汽油消费数据
汽油消费和汽车的第一个例子中使用的数据(22]。模型中的变量视为英里/加仑 ,位移(立方英寸) ,转矩(英尺/磅) ,化油器(桶) ,的传输速度 ,和总长度(英寸) 。给出的所有变量之间的相关性 。之间的相关性变化的中度到高水平独立变量被观察到 。号码是1132,这表明严重的多重共线性的担忧。简历的结果给出不同的分区表8。
4.2。栈损失数据
我们使用Brownlee堆栈数据包含21天的数据损失的氧化氨硝酸在第二个示例中(23]。响应变量和独立变量在模型中考虑北半球3堆栈的损失百分比 ,空气流 ,冷却水进口温度 ,和酸浓度 ,分别。给出的所有变量之间的相关性中度到高度变化的关系在哪里观察之间的独立变量。条件数为57.51,这表明一个严重的多重共线性的担忧。简历的结果给出了两个分区表9。
根据实际数据的应用程序的结果表8和9,估计有最小的CV值在其他汽油消费和栈损失数据的例子。的估计最大的简历申请所有分区和执行在所有最严重的估计。
共有75个不同的场景进行模拟,45为CG DG和30。的估计执行最好的考虑需要地方的数量为每个场景的AMSE前三名。当图1检查,发现其他的排名估计DG和重心都是不一致的。我们观察到,第二个最好的估计是DG和CG。
5。结论
在本文中,我们介绍了一种新型迭代岭估计量。在以前的研究中,讨论了估计的性能只有同样的独立变量之间的关系(1,2,6,8,9]。在这项研究中,评估人员的表现也比较独立变量之间的关系在不同的水平。我们评估的性能估计通过一个广泛的蒙特卡罗模拟研究和两个真实数据的例子。DG的结果,这是作为一个标准的数据生成技术研究和CG相似,它提供了更多的类似的数据比较真实的数据结构。一般来说,在文献中,岭估计真实数据集上的性能比估计的均方误差(1- - - - - -3,6- - - - - -10]。比较基于均方误差(MSE)可能是适当的实际值参数在仿真研究。然而,由于未知参数的实际值在真实数据集,通过估计均方误差性能比较基于单个样本可能导致错误的推论。这些情况有问号揭示当前估计的实际表现。然而,由于实际的参数值不知道在实践中,这种方法不会像可靠的仿真研究。出于这个原因,我们比较的性能估计在实际数据应用与k-fold交叉验证方法。这些结果表明,该估计量优于比其他人的AMSE模拟研究和k-fold交叉验证的真实数据的例子。因此,我们建议研究人员遇到的多重共线性问题作为替代岭估计其他估计检查在这项研究。
在未来,工作可能会延长比较提出了多元线性回归估计量与其他估计。在这些比较中,多重共线性和异常值的存在可以同时被评估。提出了估计量的性能在不同的回归模型,如γ回归可以检查。该估计量可以用来获得新的估计使用的方法包括deleted-d重叠的(17]。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。