l曲线准则作为PLS回归模型选择的工具

摘要

偏最小二乘回归(PLS)是一种替代普通最小二乘(OLS)回归，在存在多重共线性的情况下使用。与其他建模方法一样，PLS回归需要一个可靠的模型选择工具。交叉验证(CV)是最常用的工具，在准确性和精确性上都有很多优点，但也有一些缺点;因此，考虑到PLS的收缩性，我们将使用L-curve准则作为替代，给出了使用L-curve准则的理论依据，并在模拟数据和实际数据上进行了应用。应用表明，该准则在均方预测误差和计算效率方面通常优于交叉验证和广义交叉验证(GCV)。

一。介绍

偏最小二乘回归是在多重共线性条件下替代普通最小二乘回归的一种方法;它是由Wold [1]，作为一种算法，计算具有缺失值的数据集的主成分。PLS回归在化学计量学等许多领域都有应用，共线性是一个普遍存在的问题;这个问题也出现在许多其他领域，如基因组学和计算生物学。当使用PLS回归时，会遇到停止规则的问题，即最终模型中要保留的构件数量;交叉验证是文献中用来选择最终PLS模型的最优方法。

交叉验证虽然效率很高，但却不能检测出最优模型;在本文中，我们将提出l -曲线准则作为模型选择工具。在正则化方法中第一次使用L-curve plot要追溯到Lawson和Miller [2,3.]，Hansen是第一个使用这些图来计算正则化参数的人[4]. 后来发展了一种基于三次样条的算法[5]，以及自适应剪枝算法[6在我们的论文中使用。我们将比较交叉验证与正则化方法中常用的l -曲线算法，如共轭梯度算法和Tikhonov优化，投资于PLS回归与共轭梯度算法CGLS算法(共轭梯度最小二乘算法)的实现的等价性。之前的研究也进行过类似的比较，如Gao等人[7[[endnoteref: 2]]，比较了一般交叉验证和L-curve准则，评价了一种确定最优正则化参数的新方法的性能。比较还将包括广义交叉验证，尽管它还没有在PLS回归中广泛使用。

第一部分将是PLS回归的简短介绍，第二个将是大约交叉验证和其可能的缺点，第三将呈现广义交叉验证方法，最后，我们将提出的L曲线算法证明它是适于PLS回归和最后在两个真实和模拟数据的应用程序结束。我们的比较表明，L-曲线算法比实际数据都交叉验证和广义交叉验证和给出了模拟数据集可喜的成果。

2.PLS回归和模型选择

考虑最小化问题: 同为表示预测变量值的矩阵，是因变量，和是回归系数。

与常规预测变量不同，PLS回归使用一组称为得分的潜在变量（与是放气矩阵X在kPLS回归的次迭代）。潜在变量或PLS组分迭代计算，基于下一组合物：同是错误，一组向量，称为载荷，和是长度的权重向量。

当保留了所有PLS元件，PLS估计成为普通最小二乘估计，那就是为什么它是必须要知道的组件的最佳数量在最终模型包括。背后PLS回归的主要目标是能够预测未来的观测，这正是交叉验证就派上用场了，因为它测试模型的预测能力，无论其是否合身的。

3.交叉验证

交叉验证背后的主要思想是，模型的威力取决于它预测未来值的能力。在K倍交叉验证，观察被随机分成K平等的子集，对于K次;我们把模型放上去并使用估计的参数来预测 ,这提供了所述预测误差的估计。

请回归,K往往等于n（观测值的数量），并且该交叉验证称为留一。下面是根据Tenenhaus [在PLS交叉验证的步骤8]:

步骤1。在k^日PLS迭代中，估计误差和预测误差使用表达式被计算：哪里是的估计通过包含所有观测值的模型，以及被排除在外的模型观察。

步骤2。计算: 一个PLS组件被保留，如果。
交叉验证计算成本特别大的数据时，更何况，它表现不佳时预测的数量比观测的数量越大;也有过度拟合的风险时，观测的数量大，是什么促使一种新的模式选择工具，这将成为交叉验证的替代，一个考虑到PLS回归的正规化自然的选择。

4.广义交叉验证

广义交叉验证(GCV) [9]用于选择正则化方法的最佳参数。该方法基于预测误差估计，主要用于正则化方法的数值应用，如Tikhonov正则化和共轭梯度正则化。汉森认为这种方法是成功的[10，因为它是基于统计上的考虑。GCV中选择的参数使函数最小化[9]:

这个公式最初是为岭回归设想的，其中

的GCV的现有版本之间的差别是由于在分母中矩阵的迹的估计。据我们所知，GCV尚未使用PLS回归，但它已经在正则共轭梯度法被用于[11]。

的GCV在PLS回归的情况下，上述公式变为[11] 同矩阵的投影关于维数的Krylov子空间k: 哪里被所述基质由尺寸的Krylov子空间的基础的元件形成k。

对矩阵的迹给出了各种估计 ;我们将使用提出了一个[11，与[6]。这导致了GCV功能:

使用上面的表达式，我们的停止规则将是参数k这会使 ,在PLS算法的所有迭代过程中。汉森等人的工作。[6]已经证明了L-曲线标准的鲁棒性时，在截断奇异值分解的情况下，GCV和规范共轭梯度迭代进行比较。

同样值得注意的是，GCV并不像Tenenhaus提出的老式交叉验证方法那样受欢迎[8，至少在化学计量学及其应用领域。GCV方法的主要缺点是计算开销大，因为它需要拟合所有可能的模型，这在处理有时包含数千个预测变量的大型数据集时非常麻烦。

5. L-曲线算法

要了解参数选择的问题，我们会考虑解决 ,哪里一个是一个矩阵的载体。什么时候一个是病态的，解决方案变得不稳定，因为很难找到逆的A，这是正则化干扰，提供一套替代的解决方案通过一个迭代过程k是根据所选方法而不同的正则化参数。

l曲线准则是正则化算法(如Tikonov和截断奇异值分解(主成分回归))中使用的图形化参数选择方法;这些正则化方法的主要目标是通过包含额外的信息来稳定解决方案。

有两种类型的L-曲线算法中，第一个是用于连续正则化方法，和第二个是用于离散那些;该L曲线是离散的，当参数k在离散的时间间隔而变化。请回归,k表示所选优化空间的维数;它还表示模型中保留的潜在因子的数量。这个标准背后的目标是在两个标绘的量之间找到适当的平衡标度、残差的范数和解的范数;这个右边的平衡是l曲线的角，这是曲率最大的点;数字1给出了一个关于测试问题的L-曲线的例子。

通过将一个函数拟合到一组离散的点来解析地计算转角，Hansen和O 'Leary [5]使用三次样条曲线通过三角形的方法来拟合图或几何图形[12]。我们选择了一种叫做自适应剪枝算法(算法)的算法1)[6，这是一种用于计算离散l型曲线转角的算法。

(1)	初始化
(2)	第一阶段：当
(3)
(4)	Create a pruned L-curve consisting of the最大的线段。
（5）	为每个角落定位例程
（6）	找到角落里使用修剪L-曲线。
（7）	将角落添加到列表中:
（8）
（9）	第二阶段：如果然后 ;回报。
（10）	否则为
（11）	Compute the slope与点相关联在洛杉矶。
（12）	如果然后 ;回报。
（13）	否则令。

6.自适应剪枝算法[6]

考虑具有一组点的离散l型曲线 ;特别要强调三点 , ,和同。我们定义面向角。其原理是计算所有可能的角度和角落最接近的角度关联。

该算法定义了一组裁剪后的l -曲线序列，避免了局部求角;我们从每个角落中选择两个候选人。这会产生一个更小的角候选点列表。下一步是选择满足角度标准的最佳点，我们考虑l曲线的最终转角;更多详情，我们推荐Hansen等人[6]。

该算法在“转正包”实现由汉森[MATLAB开发13]。自适应剪枝算法的优点是，它考虑了找到局部角点的可能性，当数据是高维数据时，这种情况很常见。

7.l曲线标准和PLS回归

该L曲线准则使用背后的逻辑每个正则化方法，该方法是找到解决方案的尺寸增加之间的一种折衷在功能k在每个参数，并且降低残留误差k: ,通过绘制两个量，并找到曲率的点。

使用l -曲线准则的必要假设是残差的范数和正则解的范数都是参数的单调函数k(10]，我们将显示下次PLS回归满足这些假设。

7.1。解决方案的标准

为了证明解的范数是参数的单调函数k，我们将使用PLS回归和共轭梯度算法之间的等价应用于正常的方程。

命题1。共轭梯度算法的正规方程进行的：与起始载体是否等价于PLS回归和。
命题1意味着PLS回归是应用于正规方程的共轭梯度的一种特殊情况，我们已经在之前的论文中给出了证明[14]。我们将使用这个链接来证明L-曲线的选择，证明PLS满足其假设。
下一个命题是前一个命题的直接结果，是海特斯定理和斯泰费尔定理的应用，这将有助于证明偏最小二乘法范数是关于参数的单调函数k。

命题2。该PLS估计，它们都将表达式最小化: 同。

残差根据Hestenes和Stiefel [15]。因此，它们形成用于Krylov子空间的基础：这就意味着偏最小二乘法的范数迭代是

自从是的递减函数吗k，我们可以很容易地证明PLS估计的范数是参数的一个递增函数k;因此，它是单调的。

7.2。残差的模

我们有

根据汉森[10]，上述用于施加在正规方程共轭梯度算法的残余误差的表达式为的递减函数k，当初始向量： ,这相当于说，PLS回归的残留误差也参数的递减函数k。

8.应用

本模拟的目的是比较三种模型选择工具在PLS回归、交叉验证、广义交叉验证和正则化方法中使用的l -曲线准则的性能。比较将包括模拟和实际数据集;L-curve使用的算法是自适应剪枝算法，用于离散正则化[6]。

8.1。真实的数据

我们将使用一个名为Cornell (Table)的数据集1)，载于[8,16]。这些数据测量了7种化学成分对辛烷值发动机额定值的影响，样本是12种不同的混合物。


直接运行
重整
t . c . naphta
C. C.石脑油
聚合物
烷基化物
天然汽油

既然我们无法计算回归系数的均方误差，我们将比较的值R在交叉验证GCV和L-曲线响应变量的平方和均方误差。

（表CV，GCV，并在真实数据集康奈尔L曲线之间的比较2）显示，最后一个给了一个更好的模型，有超过的均方误差值的改善y,R平方，这意味着更好的预测能力的PLS模型。


R的平方			的MSEPy			模型中保留的PLS分量数
简历	GCV	L-曲线	简历	GCV	L-曲线	简历	GCV	L-曲线

0.97	0.99	0.99	0.36	35.8条	29.4	3.	4	5

我们注意到，L-曲线选择了包含5个组件模型（图2)， GCV选择有四个组件的模型，交叉验证选择只有前三个组件的模型。

对每个方法的运行时间的比较显示了下一个结果。

根据表3.，与其他两种方法相比，GCV选择最优模型的时间稍长一些。这种差异会随着空间变量的维数的增加而增加，并且在模拟中会更加明显。


	简历	GCV	L-曲线

经过时间(秒)	0.01	2.42	0.06

8.2。模拟数据

我们比较了交叉验证、广义交叉验证和l -曲线算法在模拟数据集上的应用观察结果。我们选择的每个数据集的变量数随机，通过选择米在区间[10，90]。我们的目标是探索在变量的空间的方法的稳健性。

数据集是使用多元正态分布产生，具有零均值和协方差矩阵，其发生在对应于中和高共线性两个值。

回归向量由区间[0,3]内的均匀分布产生，我们考虑三种不同的信噪比作为误差的标准差。

我们有6个不同的数据集，每个数据集生成500次，我们估计每个数据集的PLS模型，使用CV、GCV和L-curve算法，选择要保留在最终模型中的组件数量。我们比较了每种模型选择方法的回归系数和因变量估计值的均方误差(MSE)的500个值的平均值，并将结果汇总到表中4- - - - - -6。


参数	简历		GCV		L-曲线
参数	均方误差系数	MSE的y	均方误差系数	MSE的y	均方误差系数	MSE的y

(米,0.5,1)	108	217780	13414	63990	6786	80820
(米，0.5％，5）	0.0445	433.20	25.31	117.58分	11.00	149.5405
(米，0.5％，7）	0.0414	112.4997	6.43	29.0744	2.90	38.8957
(米,0.8,1)	97	559670	8679.3	151260	3596	199000个
(米，0.8％，5）	0.435	1000.9	135.98	269.7	64.43	343
(米，0.8％，7）	0.0599	380.83	38.46	148.54	19.94	169.22


	PLS部件的数量保留在最终模型
	简历	GCV	L-曲线准则

(米,0.5,1)	1	6	4
(米，0.5％，5）	1	6	4
(米，0.5％，7）	2	6	4
(米,0.8,1)	1	6	3.
(米，0.8％，5）	1	6	4
(米，0.8％，7）	1	10	5

负值为。


	简历	GCV	L-曲线

经过时间(秒)	11.75分	75.04	0.047

回归系数的MSE是使用表达式（欧几里得范数）计算值：是真正的回归系数。

交叉验证结果中遇到的第一个问题是，当信噪比为1时在500个数据集的所有情况下都为负。这意味着它无法选择一个模型(在本例中，我们选择第一个组件进行比较)。GCV对响应变量的MSE最小，对回归系数的MSE最大;交叉验证的回归系数MSE较低，但显著地提高了响应变量的MSE。同时，L-curve给出了合理的结果，回归系数的MSE优于GCV，响应变量的MSE给出了几乎相似的结果。

用于模拟数据的三种方法的速度的比较中，我们选择了具有各100个观测10点的数据集，用变量改变从90到99表6表示十个数据集的平均运行时间。GCV选择最优模型的时间约为75.04秒，是最慢的，其次是CV，为11.75秒，L-curve始终给出最低的执行时间，取值为0.047。

9.结论

本文提出了正则化方法中常用的模型选择工具，并将其应用于PLS回归，研究了偏最小二乘回归与共轭梯度算法之间的联系。评估这个模型的贡献在请选择工具,我们比较两个版本的交叉验证,基本上是一个最受欢迎的模型选择方法请,由于它的简单性,另一种是受欢迎的领域的数值分析,和更少的共同领域的统计模型。l曲线似乎比较合适，因为它考虑了收缩溶液的大小和残差之间的平衡。我们的仿真研究表明，L-curve在真实数据中表现优于这两种方法，在人工数据情况下计算开销要小得多，结果与GCV方法几乎相同。考虑到GCV的主要缺点(计算成本高)，L-curve在处理大量数据集时似乎是更好的选择，这在许多需要使用PLS回归的研究领域中是很常见的。

数据可用性

此前报告的数据被用来作为真实的数据来支持这一研究可在[8,16]，这是在文中引用。

信息披露

这项工作的一个早期版本已经表现为国际SM2A会议梅克内斯，摩洛哥2017年的口头交流。

利益冲突

作者声明他们没有利益冲突。

工具书类

H. Wold的，“由潜在变量软建模：非线性迭代偏最小二乘（NIPALS）的方法，”应用概率杂志，第12卷，no。S1，第117-142页，1975。视图:出版商网站|谷歌学术
C. L.劳森和R. J.汉森，解决最小二乘问题卷。15，SIAM，费城，PA，USA，1995。
“给定边界不适定问题的最小二乘方法”，SIAM杂志上数学分析卷。1，没有。1，第52-74，1970。视图:出版商网站|谷歌学术
P、汉森，“用L-曲线分析离散不适定问题”暹罗审查，第34卷，no。4, 561-580页，1992。视图:出版商网站|谷歌学术
P. C.汉森和D. P.奥利里，“l-曲线在离散不适定问题正则化中的应用”，科学计算的暹罗杂志，第14卷第1期6，第1487至1503年，1993。视图:出版商网站|谷歌学术
P. C.汉森，T. K.詹森和G.罗德里格斯，“离散l -曲线准则的自适应剪枝算法”，[计算与应用数学卷。198，没有。2，第483-492，2007。视图:出版商网站|谷歌学术
高，于，吴，“负载辨识反问题中最优正则化参数确定的新方法”，冲击和振动卷。2016年，文章编号732896，16页，2016年视图:出版商网站|谷歌学术
m . Tenenhaus回归PLS:理论和实践， 1998，德西尼布出版社。
G. H.戈卢布，M.荒地和G.沃赫拜，“广义交叉验证作为用于选择一个好的脊参数的方法，”Technometrics卷。21，没有。2，第215-223，1979。视图:出版商网站|谷歌学术
p·c·汉森秩亏和离散不适定问题：线性反演的数值方面，第4卷，暹罗，费城，宾夕法尼亚州，美国，2005年。
P.法瓦蒂，G. Lotti的，O. Menchi，和F.罗姆，“广义交叉验证应用于离散不适定问题共轭梯度，”应用数学与计算，第243卷，第258-268页，2014年。视图:出版商网站|谷歌学术
J. L. Castellanos, S. Gomez，和V. Guerra， "寻找l -曲线角的三角形方法，"应用数学年刊，第43卷，no。4，第359-373页，2002年。视图:出版商网站|谷歌学术
P. C.汉森，“正则化工具：一个Matlab包进行分析和离散不适定问题的解决方案，”数值算法，第6卷第1期。1，第1 - 35页，1994。视图:出版商网站|谷歌学术
A. Kerkri, J. Allal和Z. Zarrouk，“强调使用共轭梯度算法的PLS回归的正则化特性，”国际应用数学与统计杂志，第56卷，no。5、第63-74页，2017。视图:谷歌学术
M、 R.赫斯特尼斯和E.斯蒂费尔，解线性方程组共轭梯度方法卷。49，没有。1，国家统计局，华盛顿特区，美国，1952年。
N. Kettaneh-Wold，“偏最小二乘混合数据分析”，化学计量学和智能实验室系统，第14卷第1期1-3页，57-69页，1992。视图:出版商网站|谷歌学术

概率与统计杂志

摘要