偏最小二乘(PLS)回归是普通最小二乘(OLS)回归的替代,在多重的存在下使用。与任何其他建模方法,PLS回归需要一个可靠的模型选择工具。交叉验证(CV)是指在两个严谨和准确性诸多优点中最常用的工具,但它也有一些缺点;因此,我们将使用L-曲线准则作为替代方案,因为它考虑到PLS的收缩性质。对于使用L-曲线准则的理论理由被呈现,以及在两个模拟和实际数据的应用程序。实际应用表明该标准通常如何优于交叉验证和广义交叉验证(GCV)平均平方预测误差和计算效率。
在存在多重共线性的情况下,偏最小二乘回归是普通最小二乘回归的一种替代方法;它最初是由Wold开发的。
交叉验证虽然有效,但不能发现最优模型;在本文中,我们将提出l曲线准则作为另一种模型选择工具。第一次在正则化方法中使用l曲线图可以追溯到Lawson和Miller [
第一部分将是PLS回归的简短介绍,第二个将是大约交叉验证和其可能的缺点,第三将呈现广义交叉验证方法,最后,我们将提出的L曲线算法证明它是适于PLS回归和最后在两个真实和模拟数据的应用程序结束。我们的比较表明,L-曲线算法比实际数据都交叉验证和广义交叉验证和给出了模拟数据集可喜的成果。
考虑最小化问题:
P大号小号回归使用一组被称为分数的潜在变量,而不是常规的预测因子<一世ñ升一世ñe-formula>
当保留了所有PLS元件,PLS估计成为普通最小二乘估计,那就是为什么它是必须要知道的组件的最佳数量在最终模型包括。背后PLS回归的主要目标是能够预测未来的观测,这正是交叉验证就派上用场了,因为它测试模型的预测能力,无论其是否合身的。
交叉验证背后的主要思想是,该模型的力量取决于其预测未来价值的能力。在<一世Ťalic>
ķ一世Ťalic>倍交叉验证,观察被随机分成<一世Ťalic>
ķ一世Ťalic>平等的子集,<一世ñ升一世ñe-formula>
请回归,<一世Ťalic>
ķ一世Ťalic>往往等于<一世Ťalic>
ñ一世Ťalic>(观测值的数量),并且该交叉验证称为留一。下面是根据Tenenhaus [在PLS交叉验证的步骤
在<一世Ťalic>
ķ一世Ťalic>日PLS迭代中,估计误差和预测误差使用表达式被计算:
计算:
甲PLS成分被保留,如果<一世ñ升一世ñe-formula>
交叉验证计算成本特别大的数据时,更何况,它表现不佳时预测的数量比观测的数量越大;也有过度拟合的风险时,观测的数量大,是什么促使一种新的模式选择工具,这将成为交叉验证的替代,一个考虑到PLS回归的正规化自然的选择。
广义交叉验证(GCV)
该公式最初用于岭回归,其中
GCV的现有版本之间的差异是由于在分母中估计了矩阵的轨迹。据我们所知,GCV尚未用于PLS回归,但已用于正则化共轭梯度法[
的GCV在PLS回归的情况下,上述公式变为[
对矩阵的迹提出了各种估计<一世ñ升一世ñe-formula>
使用上面的表达式,我们的停止规则将是参数<一世Ťalic>
ķ一世Ťalic>,最大限度地减少<一世ñ升一世ñe-formula>
还值得一提的是,GCV是不是受欢迎,因为通过Tenenhaus [建议旧的方式交叉验证方法
要了解参数选择的问题,我们会考虑解决<一世ñ升一世ñe-formula>
该L曲线准则是在正则化算法如Tikonov和截断奇异值分解(主成分回归)中使用的图形参数的选择方法;这些正则化方法具有稳定通过包括附加信息的解决方案的主要目标。
有两种类型的L-曲线算法中,第一个是用于连续正则化方法,和第二个是用于离散那些;该L曲线是离散的,当参数<一世Ťalic>
ķ一世Ťalic>在离散的时间间隔而变化。请回归,<一世Ťalic>
ķ一世Ťalic>表示所选优化空间的维数;它也代表了模型中保留的潜在因素的数量。这一标准背后的目标是在两个标绘的量之间找到正确的平衡<一世ñ升一世ñe-formula>
考虑一个带有一组点的离散l曲线<一世ñ升一世ñe-formula>
为了避免寻找本地角落,该算法定义修剪L-曲线的序列;从每个,我们选择了两位候选人的角落。这将产生的候选点小名单是角落。下一步是选择符合标准的角度,我们认为我们对L-曲线最后一个弯道的最佳点;有关详细信息,我们建议汉森等人。[
该算法在“转正包”实现由汉森[MATLAB开发
该L曲线准则使用背后的逻辑每个正则化方法,该方法是找到解决方案的尺寸增加之间的一种折衷<一世ñ升一世ñe-formula>
使用L-曲线标准的必要的假设是,剩余误差的范数和正则溶液的范数是参数的单调函数<一世Ťalic>
ķ一世Ťalic>[
为了证明解的范数是参数的单调函数<一世Ťalic> ķ一世Ťalic>,我们将使用PLS回归和共轭梯度算法之间的等价性应用于正规方程。
共轭梯度算法的正规方程进行的:<一世ñ升一世ñe-formula>
命题1意味着PLS回归是应用于正规方程的共轭梯度的一种特殊情况,我们在之前的论文中已经给出了证明[
下一个命题是前一个命题的直接结果,它是定理Heitens和Steifel的应用,有助于证明PLS的范数是关于参数的单调函数<一世Ťalic> ķ一世Ťalic>。
该PLS估计<一世ñ升一世ñe-formula>
残差<一世ñ升一世ñe-formula>
自<一世ñ升一世ñe-formula>
我们有
据汉森[
这种模拟的目的是要比较的PLS回归,交叉验证。三个模式选择工具在正则化方法使用的性能,广义交叉验证,和L-曲线标准。比较将包括模拟和真实数据集;在L-曲线所使用的算法是自适应剪枝算法,在离散正使用的
我们将使用一个名为Cornell (Table)的数据集
辛烷的混合物的化学组分。
<Ťable>既然我们无法计算回归系数的均方误差,我们将比较的值<一世Ťalic> [R一世Ťalic>在交叉验证GCV和L-曲线响应变量的平方和均方误差。
(表CV,GCV,并在真实数据集康奈尔L曲线之间的比较
交叉验证(CV),广义交叉验证(GCV)和真实数据L曲线标准之间的比较的结果。
<Ťable>我们注意到,L-曲线选择了包含5个组件模型(图
L-曲线图与数据集中康奈尔所选择的角,由自适应修剪算法。
所经过的时间为每个方法的比较示出的下一个结果。
根据表
交叉验证(CV)之间的比较的结果,在广义PLS回归交叉验证(GCV),和L-曲线准则在实际数据的情况下执行的速度方面。
<Ťable>我们在模拟数据集上比较交叉验证、广义交叉验证和l -曲线算法<一世ñ升一世ñe-formula>
数据集是使用多元正态分布产生,具有零均值和协方差矩阵,其发生在对应于中和高共线性两个值。
回归向量是由区间[0,3]内的均匀分布产生的,我们考虑三种不同的信噪比作为误差的标准差。
我们有6个不同的数据集,每个数据集生成500次,我们估计每个数据集的PLS模型,使用CV、GCV和L-curve算法,以选择保留在最终模型中的组件数量。比较每种模型选择方法的回归系数和因变量估计值的均方误差(MSE)的500个值的平均值,并将结果汇总在表中
摘要利用估计量和预测量的均方误差,对PLS回归中交叉验证(CV)、广义交叉验证(GCV)和l -曲线准则进行了比较<一世Ťalic> ÿ一世Ťalic>。
<Ťable>在部件的数量方面交叉验证(CV),广义交叉验证(GCV),和L-曲线准则在PLS回归之间比较的结果保留在最终模型。
<Ťable>
交叉验证(CV),广义交叉验证(GCV),和L-曲线准则之间在PLS回归中执行的速度方面在模拟的数据集的情况下,比较的结果。
<Ťable>回归系数的MSE是使用表达式(欧几里得范数)计算值:
在交叉验证的结果中遇到的第一个问题是,当信噪比等于1时,的数量<一世ñ升一世ñe-formula>
用于模拟数据的三种方法的速度的比较中,我们选择了具有各100个观测10点的数据集,用变量改变从90到99表
在本文中,我们提出了一个模型选择的工具,通常在正则化方法中使用,这样我们用它在PLS回归,在偏最小二乘回归和共轭梯度算法之间存在的链路的投资。为了评估PLS这种模式选择工具的贡献,我们与交叉验证的两个版本相比它,一个基本上是在PLS模型选择最流行的方法,由于它的简单性,另一种是在数值分析领域流行,并在统计建模领域较少见。L-曲线似乎合适的,因为它考虑了收缩的解决方案的尺寸和残留误差之间的平衡。我们的模拟研究表明,L-曲线优于在真实数据的两种方法,并且是在人工数据的情况下要少得多计算成本,其结果是几乎相同的GCV方法。在GCV的主要缺点,这是计算成本高,L-曲线称重似乎与大规模数据集,这是常见的研究很多领域需要使用PLS回归的工作时,是更好的选择。
此前报告的数据被用来作为真实的数据来支持这一研究可在[
这项工作的一个早期版本已经表现为国际SM2A会议梅克内斯,摩洛哥,2017年的口头交流。
作者声明,他们没有利益冲突。