应用数学学报

PDF
应用数学学报/2018年/文章

研究文章|开放获取

体积 2018年 |文章的ID 7696302 | https://doi.org/10.1155/2018/7696302

Abdelmounaim Kerkri, Jelloul Allal, Zoubir Zarrouk, 鲁棒非线性偏最小二乘回归算法使用熏肉”,应用数学学报, 卷。2018年, 文章的ID7696302, 5 页面, 2018年 https://doi.org/10.1155/2018/7696302

鲁棒非线性偏最小二乘回归算法使用熏肉

学术编辑器:卢卡斯Jodar
收到了 2018年6月11日
修改后的 2018年8月18日
接受 2018年9月18日
发表 2018年10月02

文摘

偏最小二乘回归(PLS回归)作为一种替代方法用于普通最小二乘回归的存在多重共线性。这发生在化学工程中是很常见的问题。除了请的线性形式,有其他版本是基于非线性的方法,如二次请(QPLS2)。QPLS2之间的区别和常规PLS算法使用二次回归代替OLS回归计算的潜在变量。在本文中,我们提出一个健壮的版本QPLS2克服对离群值使用了自适应计算高效的离群值提名者(培根)算法。我们的混合法是在真实和模拟数据进行测试。

1。介绍

它是由山地开发后1),请回归成为一个经典的方式克服相关回归分析;这种方法流行在基因组学和化学计量学等许多领域。许多统计学家显示感兴趣的数学属性方法;德容(2]证明了请估计量是普通最小二乘估计量的正规化的版本。相同的结果后来证明代数由Goutis et al。3]。产生的数据显示非线性行为在许多领域,有必要有一个新版本的PLS回归了非线性模型,并提供更加节俭。荒原(4)开发的第一个非线性版本请算法通过二次用OLS回归计算请组件。荒原(5)也提出了样条请算法。另一个基于神经网络的非线性算法处理提出了气象数据的非线性6]。

请回归敏感异常值和利用。因此在文献中提出了几个健壮的版本,但只有线性请休伯特。7)提出了两个健壮的版本SIMPLS算法采用稳健估计的variance-covariance矩阵。Kondylis和哈迪8]培根算法用于消除异常值,导致一个健壮的线性请。

在这个工作我们试图获得一个健壮的版本的二次QPLS2 PLS算法,算法利用培根。应用在真实和模拟数据被用来验证方法。

2。非线性PLS回归

每一个线性回归方法是基于如下的优化问题: 在哪里 是一个矩阵独立变量的值, 是因变量, 回归系数。

而不是常规的预测,请回归使用一组潜在的变量称为分数: (与 泄气的版本的初始矩阵 )。潜变量(也称为请组件)迭代计算,基于分解: 在哪里 是错误, 是一个向量的集合称为载荷, 权向量的长度 在介绍中提到的,由于遇到的数据显示非线性行为,许多研究者提出了新的请算法来捕捉这些数据集的非线性。在这个工作我们用二次非线性请提出山地(4]。

二次非线性PLS是PLS算法,假设存在两个街区之间的非线性关系的变量。而不是OLS回归的线性PLS算法 山地et al。4用二次回归: 每个回归方法在异常值的存在表现很差。由于不稳定的估计,已研制出许多方法来克服这个问题,如过滤数据集的异常值,或给他们较低的重量最小化影响评估过程。下一节将专注于培根算法,作为一种方法,删除离群值获得一个干净的数据集。

3所示。健壮的PLS回归

3.1。异常值检测和健壮的回归

健壮的回归是一种处理离群值,观察来自一个不同的分布。它们也可以误差测量的结果,并能损害评估的质量。就像OLS回归,请回归也是敏感异常值(8]。因此他们检测是一个必要的过程,为了获得稳定的估计,准确的预测。

许多研究人员提出的方法处理异常问题请回归。休伯特(7)使用两个健壮的估计SIMPLS variance-covariance矩阵的算法,和Kondylis哈迪(8]培根算法用于异常检测。这两种方法被证明是一个定期请显著改善。

培根算法(9开始观察的一个子集的大小 应该是免费的异常值,然后迭代添加符合初始设置的观测。观测排除是离群值。

选择第一组。然后定义的距离作为标准包括观察初始子集。这里有两个距离用于文学 是整个数据集的variance-covariance矩阵 代表了 观察,第一距离叫做Mahanalobis距离,第二个就是距离的观测值 这里是算法的详细步骤:(1)选择一组初始 (2)计算的距离( 的意思是 , 的协方差矩阵是吗 ): (3)设置新的子集和所有的点 在哪里 卡方百分位, (4)重复(2)和(3)不会改变,直到子集。(5) 数据集是免费的从离群值。

3.2。鲁棒非线性请

我们与二次请合并培根算法,与算法的目标是获得一个健壮的版本:(1)在数据集上运行培根算法使用距离(6),并保持结果 然后删除的观测因变量异常值获得有关 从局外人(免费)。(2)对于每个请维度,重复,直到收敛 ( 的第一列 )(我)计算权重: (2)计算分数: (3)适合 使用二次函数和计算 的预测 使用非线性估计: (iv)计算 (v)更新 (vi)更新 (我所描述的)。(七)计算新值(t): (3)使用t的终值计算载荷: (4)缩小 : (5)如果需要额外的维度,替换 E和F和重复步骤(2)到(4)。

4所示。应用程序

这个应用程序的目标是比较强劲的性能与原二次二次请请。模拟和实际数据进行比较。

4.1。真实的数据

我们使用的数据集(4),其中包含8个不同的化妆品配方,为预测变量,因变量11展示质量指标收集在一个实验17个人。

因为我们不能计算均方误差,我们将比较中可解释的变异的比例强劲和原始二次请: 的潜在的分量吗 请迭代, 因变量的数量,p是预测变量的数量。

在表1,比较原始和健壮的二次请表明后者提高了因变量的解释方差从68%提高到91%,这是一个相当大的数额。这是一个指标的数据集包含异常值影响了评估的原始的二次请。


累积方差

0.286 0.196 0.129 0.139 0.05 0.11 0.08 0.003 0.99
0.277 0.239 0.155 0.177 0.051 0.093 0.004 0 0.99
0.180 0.077 0.137 0.134 0.042 0.04 0.065 0.03 0.68
0.33 0.181 0.103 0.117 0.06 0.037 0.0.32 0.05 0.91

4.2。模拟数据

在本节中,污染的研究是用来评估的质量提出了健壮的方法,通过以下步骤:(1)(提出的非线性函数10)用于生成一个数据集(与500年的观察和6变量 是由一个均匀分布): (2)数据集随机污染通过添加一小部分数据(5%,10%,和15%)从多元正态分布。(3)我们首先应用二次请生成的数据,然后运用鲁棒二次请前面描述的。(4)我们比较原始的二次请提出了健壮的请使用解释方差,以及预测均方误差和预测残差平方和(新闻)。

数据集模拟1000次。解释方差、预测均方误差和媒体为每个数据集所有值的平均值计算。

污染率5%(表2),原来的二次请收益率73%的总方差解释,但当应用鲁棒二次请,这解释方差变成了99%,这是一个相当大的改进。也是如此的污染率,10%和15%,我们看到一个因变量的解释方差的改善。


污染率 原来的二次请解释方差 二次请解释方差的强劲
X Y X Y

5% 0.99 0.73 1 0.99
10% 1 0.68 1 0.99
15% 1 0.67 1 0.99

500年观测的数据集分成了两个部分。第一个包含400年观测估计中使用的两个模型:一个与原二次请,一个健壮的二次请。然后我们计算预测剩余均方误差(RMSEP)因变量的100的观察。

比较(表的结果3)的三个污染率表明,强劲的二次请产量较小的均方预测误差在每一个案例。相同的表为每个率,提出了新闻价值的计算留下10%的观察。也是如此的预测误差平方和是改进的鲁棒二次请。


污染率 均方预测误差(摩根士丹利亚洲) 预测误差平方和(新闻)
二次请 鲁棒二次请 二次请 鲁棒二次请

5% 103.07 12.83 100.9 89年
10% 110.42 60.9 108.75 17.15
15% 119.08 4.32 117.37 17.15

数据1,2,3显示一个比较预测值与实际值的模拟数据集,对二次和健壮的二次请回归。对于所有污染率的预测是明显改善的情况下提出的鲁棒二次请,因为它给了比原来更好的预测。

5。结论

请回归大大发展,因为它首次引入。数据遇到的非线性性质在化学工程领域的发展中非线性PLS方法背后的动机。在本文中,我们提出了一个健壮的版本的二次非线性PLS,混合形式之间的二次请算法和培根算法为了克服问题引起的离群值。我们的方法优于二次请真实和模拟数据。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

  1. h .荒原”,潜变量:软建模的非线性迭代偏最小二乘方法,”在概率论与数理统计角度,论文巴特利特小姐的荣誉,第540 - 520页,1975年。视图:谷歌学术搜索|MathSciNet
  2. 德容,“请收缩”,化学计量学杂志》,9卷,不。4、323 - 326年,1995页。视图:出版商的网站|谷歌学术搜索
  3. c . Goutis“偏最小二乘算法产生收缩估计,”统计年报,24卷,不。2、816 - 824年,1996页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  4. 美国荒原:Kettaneh-Wold, b . Skagerberg“非线性PLS建模、”化学计量学和智能实验室系统,7卷,不。1 - 2日,53 - 65年,1989页。视图:出版商的网站|谷歌学术搜索
  5. 美国荒原”,非线性偏最小二乘建模。二世。花键的内在关系,“化学计量学和智能实验室系统,14卷,不。1 - 3、71 - 84年,1992页。视图:出版商的网站|谷歌学术搜索
  6. z孟,s, y Yanh et al .,“非线性偏最小二乘法对气象数据的一致性分析,“数学问题在工程ID 143965条,卷。2015年,8页,2015。视图:出版商的网站|谷歌学术搜索
  7. m·休伯特和k . v . Branden“健壮的偏最小二乘回归方法,”化学计量学杂志》,17卷,不。10日,537 - 549年,2003页。视图:出版商的网站|谷歌学术搜索
  8. 答:Kondylis和a·s·哈迪”派生组件使用培根算法回归。”计算统计和数据分析,51卷,不。2、556 - 569年,2006页。视图:出版商的网站|谷歌学术搜索
  9. n . Billor a·s·哈迪和p . f . Velleman“培根:阻止自适应计算高效的离群值提名者”,计算统计和数据分析,34卷,不。3、279 - 298年,2000页。视图:出版商的网站|谷歌学术搜索
  10. 诉Cherkassky、d·格林和f . Mulier”从样本比较函数估计的自适应方法,”IEEE神经网络和学习系统,7卷,不。4、969 - 984年,1996页。视图:出版商的网站|谷歌学术搜索

版权©2018 Abdelmounaim Kerkri等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

对本文没有相关内容可用。
PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1948年
下载848年
引用

相关文章

对本文没有相关内容可用。

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读