鲁棒非线性偏最小二乘回归算法使用熏肉

文摘

偏最小二乘回归(PLS回归)作为一种替代方法用于普通最小二乘回归的存在多重共线性。这发生在化学工程中是很常见的问题。除了请的线性形式,有其他版本是基于非线性的方法,如二次请(QPLS2)。QPLS2之间的区别和常规PLS算法使用二次回归代替OLS回归计算的潜在变量。在本文中,我们提出一个健壮的版本QPLS2克服对离群值使用了自适应计算高效的离群值提名者(培根)算法。我们的混合法是在真实和模拟数据进行测试。

1。介绍

它是由山地开发后1),请回归成为一个经典的方式克服相关回归分析;这种方法流行在基因组学和化学计量学等许多领域。许多统计学家显示感兴趣的数学属性方法;德容(2]证明了请估计量是普通最小二乘估计量的正规化的版本。相同的结果后来证明代数由Goutis et al。3]。产生的数据显示非线性行为在许多领域,有必要有一个新版本的PLS回归了非线性模型,并提供更加节俭。荒原(4)开发的第一个非线性版本请算法通过二次用OLS回归计算请组件。荒原(5)也提出了样条请算法。另一个基于神经网络的非线性算法处理提出了气象数据的非线性6]。

请回归敏感异常值和利用。因此在文献中提出了几个健壮的版本,但只有线性请休伯特。7)提出了两个健壮的版本SIMPLS算法采用稳健估计的variance-covariance矩阵。Kondylis和哈迪8]培根算法用于消除异常值,导致一个健壮的线性请。

在这个工作我们试图获得一个健壮的版本的二次QPLS2 PLS算法,算法利用培根。应用在真实和模拟数据被用来验证方法。

2。非线性PLS回归

每一个线性回归方法是基于如下的优化问题: 在哪里是一个矩阵独立变量的值, 是因变量,回归系数。

而不是常规的预测,请回归使用一组潜在的变量称为分数: (与泄气的版本的初始矩阵)。潜变量(也称为请组件)迭代计算,基于分解: 在哪里是错误,是一个向量的集合称为载荷,权向量的长度。在介绍中提到的,由于遇到的数据显示非线性行为,许多研究者提出了新的请算法来捕捉这些数据集的非线性。在这个工作我们用二次非线性请提出山地(4]。

二次非线性PLS是PLS算法,假设存在两个街区之间的非线性关系的变量。而不是OLS回归的线性PLS算法山地et al。4用二次回归: 每个回归方法在异常值的存在表现很差。由于不稳定的估计,已研制出许多方法来克服这个问题,如过滤数据集的异常值,或给他们较低的重量最小化影响评估过程。下一节将专注于培根算法,作为一种方法,删除离群值获得一个干净的数据集。

3所示。健壮的PLS回归

3.1。异常值检测和健壮的回归

健壮的回归是一种处理离群值,观察来自一个不同的分布。它们也可以误差测量的结果,并能损害评估的质量。就像OLS回归,请回归也是敏感异常值(8]。因此他们检测是一个必要的过程,为了获得稳定的估计,准确的预测。

许多研究人员提出的方法处理异常问题请回归。休伯特(7)使用两个健壮的估计SIMPLS variance-covariance矩阵的算法,和Kondylis哈迪(8]培根算法用于异常检测。这两种方法被证明是一个定期请显著改善。

培根算法(9开始观察的一个子集的大小应该是免费的异常值,然后迭代添加符合初始设置的观测。观测排除是离群值。

选择第一组。然后定义的距离作为标准包括观察初始子集。这里有两个距离用于文学和是整个数据集的variance-covariance矩阵代表了观察,第一距离叫做Mahanalobis距离,第二个就是距离的观测值。这里是算法的详细步骤:(1)选择一组初始(2)计算的距离(的意思是 ,和的协方差矩阵是吗): (3)设置新的子集和所有的点在哪里是卡方百分位, (4)重复(2)和(3)不会改变,直到子集。(5) 数据集是免费的从离群值。

3.2。鲁棒非线性请

我们与二次请合并培根算法,与算法的目标是获得一个健壮的版本:(1)在数据集上运行培根算法使用距离(6),并保持结果。然后删除的观测因变量异常值获得有关从局外人(免费)。(2)对于每个请维度,重复,直到收敛(的第一列)(我)计算权重: (2)计算分数: (3)适合来使用二次函数和计算的预测使用非线性估计: (iv)计算 (v)更新 (vi)更新(我所描述的)。(七)计算新值(t): (3)使用t的终值计算载荷: (4)缩小和 : (5)如果需要额外的维度,替换和E和F和重复步骤(2)到(4)。

4所示。应用程序

这个应用程序的目标是比较强劲的性能与原二次二次请请。模拟和实际数据进行比较。

4.1。真实的数据

我们使用的数据集(4),其中包含8个不同的化妆品配方,为预测变量,因变量11展示质量指标收集在一个实验17个人。

因为我们不能计算均方误差,我们将比较中可解释的变异的比例强劲和原始二次请: 和的潜在的分量吗请迭代,因变量的数量,p是预测变量的数量。

在表1,比较原始和健壮的二次请表明后者提高了因变量的解释方差从68%提高到91%,这是一个相当大的数额。这是一个指标的数据集包含异常值影响了评估的原始的二次请。


								累积方差

0.286	0.196	0.129	0.139	0.05	0.11	0.08	0.003	0.99
0.277	0.239	0.155	0.177	0.051	0.093	0.004	0	0.99
0.180	0.077	0.137	0.134	0.042	0.04	0.065	0.03	0.68
0.33	0.181	0.103	0.117	0.06	0.037	0.0.32	0.05	0.91

4.2。模拟数据

在本节中,污染的研究是用来评估的质量提出了健壮的方法,通过以下步骤:(1)(提出的非线性函数10)用于生成一个数据集(与500年的观察和6变量是由一个均匀分布): (2)数据集随机污染通过添加一小部分数据(5%,10%,和15%)从多元正态分布。(3)我们首先应用二次请生成的数据,然后运用鲁棒二次请前面描述的。(4)我们比较原始的二次请提出了健壮的请使用解释方差,以及预测均方误差和预测残差平方和(新闻)。

数据集模拟1000次。解释方差、预测均方误差和媒体为每个数据集所有值的平均值计算。

污染率5%(表2),原来的二次请收益率73%的总方差解释,但当应用鲁棒二次请,这解释方差变成了99%,这是一个相当大的改进。也是如此的污染率,10%和15%,我们看到一个因变量的解释方差的改善。


污染率	原来的二次请解释方差		二次请解释方差的强劲
污染率	X	Y	X	Y

5%	0.99	0.73	1	0.99
10%	1	0.68	1	0.99
15%	1	0.67	1	0.99

500年观测的数据集分成了两个部分。第一个包含400年观测估计中使用的两个模型:一个与原二次请,一个健壮的二次请。然后我们计算预测剩余均方误差(RMSEP)因变量的100的观察。

比较(表的结果3)的三个污染率表明,强劲的二次请产量较小的均方预测误差在每一个案例。相同的表为每个率,提出了新闻价值的计算留下10%的观察。也是如此的预测误差平方和是改进的鲁棒二次请。


污染率	均方预测误差(摩根士丹利亚洲)		预测误差平方和(新闻)
污染率	二次请	鲁棒二次请	二次请	鲁棒二次请

5%	103.07	12.83	100.9	89年
10%	110.42	60.9	108.75	17.15
15%	119.08	4.32	117.37	17.15

数据1,2,3显示一个比较预测值与实际值的模拟数据集,对二次和健壮的二次请回归。对于所有污染率的预测是明显改善的情况下提出的鲁棒二次请,因为它给了比原来更好的预测。

5。结论

请回归大大发展,因为它首次引入。数据遇到的非线性性质在化学工程领域的发展中非线性PLS方法背后的动机。在本文中,我们提出了一个健壮的版本的二次非线性PLS,混合形式之间的二次请算法和培根算法为了克服问题引起的离群值。我们的方法优于二次请真实和模拟数据。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

h .荒原”,潜变量:软建模的非线性迭代偏最小二乘方法,”在概率论与数理统计角度,论文巴特利特小姐的荣誉,第540 - 520页,1975年。视图:谷歌学术搜索|MathSciNet
德容,“请收缩”,化学计量学杂志》,9卷,不。4、323 - 326年,1995页。视图:出版商的网站|谷歌学术搜索
c . Goutis“偏最小二乘算法产生收缩估计,”统计年报,24卷,不。2、816 - 824年,1996页。视图:出版商的网站|谷歌学术搜索|MathSciNet
美国荒原:Kettaneh-Wold, b . Skagerberg“非线性PLS建模、”化学计量学和智能实验室系统,7卷,不。1 - 2日,53 - 65年,1989页。视图:出版商的网站|谷歌学术搜索
美国荒原”,非线性偏最小二乘建模。二世。花键的内在关系,“化学计量学和智能实验室系统,14卷,不。1 - 3、71 - 84年,1992页。视图:出版商的网站|谷歌学术搜索
z孟,s, y Yanh et al .,“非线性偏最小二乘法对气象数据的一致性分析,“数学问题在工程ID 143965条,卷。2015年,8页,2015。视图:出版商的网站|谷歌学术搜索
m·休伯特和k . v . Branden“健壮的偏最小二乘回归方法,”化学计量学杂志》,17卷,不。10日,537 - 549年,2003页。视图:出版商的网站|谷歌学术搜索
答:Kondylis和a·s·哈迪”派生组件使用培根算法回归。”计算统计和数据分析,51卷,不。2、556 - 569年,2006页。视图:出版商的网站|谷歌学术搜索
n . Billor a·s·哈迪和p . f . Velleman“培根:阻止自适应计算高效的离群值提名者”,计算统计和数据分析,34卷,不。3、279 - 298年,2000页。视图:出版商的网站|谷歌学术搜索
诉Cherkassky、d·格林和f . Mulier”从样本比较函数估计的自适应方法,”IEEE神经网络和学习系统,7卷,不。4、969 - 984年,1996页。视图:出版商的网站|谷歌学术搜索

应用数学学报

文摘

1。介绍

2。非线性PLS回归

3所示。健壮的PLS回归

3.1。异常值检测和健壮的回归

3.2。鲁棒非线性请

4所示。应用程序

4.1。真实的数据

4.2。模拟数据

5。结论

数据可用性

的利益冲突

引用

版权

相关文章

应用数学学报

鲁棒非线性偏最小二乘回归算法使用熏肉

文摘

1。介绍

2。非线性PLS回归

3所示。健壮的PLS回归

3.1。异常值检测和健壮的回归

3.2。鲁棒非线性请

4所示。应用程序

4.1。真实的数据

4.2。模拟数据

5。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章