研究文章|开放获取
Abdelmounaim Kerkri, Jelloul Allal, Zoubir Zarrouk, ”鲁棒非线性偏最小二乘回归算法使用熏肉”,应用数学学报, 卷。2018年, 文章的ID7696302, 5 页面, 2018年。 https://doi.org/10.1155/2018/7696302
鲁棒非线性偏最小二乘回归算法使用熏肉
文摘
偏最小二乘回归(PLS回归)作为一种替代方法用于普通最小二乘回归的存在多重共线性。这发生在化学工程中是很常见的问题。除了请的线性形式,有其他版本是基于非线性的方法,如二次请(QPLS2)。QPLS2之间的区别和常规PLS算法使用二次回归代替OLS回归计算的潜在变量。在本文中,我们提出一个健壮的版本QPLS2克服对离群值使用了自适应计算高效的离群值提名者(培根)算法。我们的混合法是在真实和模拟数据进行测试。
1。介绍
它是由山地开发后1),请回归成为一个经典的方式克服相关回归分析;这种方法流行在基因组学和化学计量学等许多领域。许多统计学家显示感兴趣的数学属性方法;德容(2]证明了请估计量是普通最小二乘估计量的正规化的版本。相同的结果后来证明代数由Goutis et al。3]。产生的数据显示非线性行为在许多领域,有必要有一个新版本的PLS回归了非线性模型,并提供更加节俭。荒原(4)开发的第一个非线性版本请算法通过二次用OLS回归计算请组件。荒原(5)也提出了样条请算法。另一个基于神经网络的非线性算法处理提出了气象数据的非线性6]。
请回归敏感异常值和利用。因此在文献中提出了几个健壮的版本,但只有线性请休伯特。7)提出了两个健壮的版本SIMPLS算法采用稳健估计的variance-covariance矩阵。Kondylis和哈迪8]培根算法用于消除异常值,导致一个健壮的线性请。
在这个工作我们试图获得一个健壮的版本的二次QPLS2 PLS算法,算法利用培根。应用在真实和模拟数据被用来验证方法。
2。非线性PLS回归
每一个线性回归方法是基于如下的优化问题: 在哪里 是一个矩阵独立变量的值, 是因变量,回归系数。
而不是常规的预测,请回归使用一组潜在的变量称为分数: (与泄气的版本的初始矩阵)。潜变量(也称为请组件)迭代计算,基于分解: 在哪里是错误,是一个向量的集合称为载荷,权向量的长度 。在介绍中提到的,由于遇到的数据显示非线性行为,许多研究者提出了新的请算法来捕捉这些数据集的非线性。在这个工作我们用二次非线性请提出山地(4]。
二次非线性PLS是PLS算法,假设存在两个街区之间的非线性关系的变量。而不是OLS回归的线性PLS算法 山地et al。4用二次回归: 每个回归方法在异常值的存在表现很差。由于不稳定的估计,已研制出许多方法来克服这个问题,如过滤数据集的异常值,或给他们较低的重量最小化影响评估过程。下一节将专注于培根算法,作为一种方法,删除离群值获得一个干净的数据集。
3所示。健壮的PLS回归
3.1。异常值检测和健壮的回归
健壮的回归是一种处理离群值,观察来自一个不同的分布。它们也可以误差测量的结果,并能损害评估的质量。就像OLS回归,请回归也是敏感异常值(8]。因此他们检测是一个必要的过程,为了获得稳定的估计,准确的预测。
许多研究人员提出的方法处理异常问题请回归。休伯特(7)使用两个健壮的估计SIMPLS variance-covariance矩阵的算法,和Kondylis哈迪(8]培根算法用于异常检测。这两种方法被证明是一个定期请显著改善。
培根算法(9开始观察的一个子集的大小应该是免费的异常值,然后迭代添加符合初始设置的观测。观测排除是离群值。
选择第一组。然后定义的距离作为标准包括观察初始子集。这里有两个距离用于文学 和 是整个数据集的variance-covariance矩阵代表了观察,第一距离叫做Mahanalobis距离,第二个就是距离的观测值 。这里是算法的详细步骤:(1)选择一组初始(2)计算的距离(的意思是 ,和的协方差矩阵是吗): (3)设置新的子集和所有的点 在哪里是 卡方百分位, (4)重复(2)和(3)不会改变,直到子集。(5) 数据集是免费的从离群值。
3.2。鲁棒非线性请
我们与二次请合并培根算法,与算法的目标是获得一个健壮的版本:(1)在数据集上运行培根算法使用距离(6),并保持结果 。然后删除的观测因变量异常值获得有关从局外人(免费)。(2)对于每个请维度,重复,直到收敛(的第一列)(我)计算权重: (2)计算分数: (3)适合来使用二次函数和计算的预测使用非线性估计: (iv)计算 (v)更新 (vi)更新(我所描述的)。(七)计算新值(t): (3)使用t的终值计算载荷: (4)缩小和 : (5)如果需要额外的维度,替换和E和F和重复步骤(2)到(4)。
4所示。应用程序
这个应用程序的目标是比较强劲的性能与原二次二次请请。模拟和实际数据进行比较。
4.1。真实的数据
我们使用的数据集(4),其中包含8个不同的化妆品配方,为预测变量,因变量11展示质量指标收集在一个实验17个人。
因为我们不能计算均方误差,我们将比较中可解释的变异的比例强劲和原始二次请: 和 的潜在的分量吗请迭代,因变量的数量,p是预测变量的数量。
在表1,比较原始和健壮的二次请表明后者提高了因变量的解释方差从68%提高到91%,这是一个相当大的数额。这是一个指标的数据集包含异常值影响了评估的原始的二次请。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.2。模拟数据
在本节中,污染的研究是用来评估的质量提出了健壮的方法,通过以下步骤:(1)(提出的非线性函数10)用于生成一个数据集(与500年的观察和6变量 是由一个均匀分布): (2)数据集随机污染通过添加一小部分数据(5%,10%,和15%)从多元正态分布。(3)我们首先应用二次请生成的数据,然后运用鲁棒二次请前面描述的。(4)我们比较原始的二次请提出了健壮的请使用解释方差,以及预测均方误差和预测残差平方和(新闻)。
数据集模拟1000次。解释方差、预测均方误差和媒体为每个数据集所有值的平均值计算。
污染率5%(表2),原来的二次请收益率73%的总方差解释,但当应用鲁棒二次请,这解释方差变成了99%,这是一个相当大的改进。也是如此的污染率,10%和15%,我们看到一个因变量的解释方差的改善。
|
|||||||||||||||||||||||||||||||||||||||
500年观测的数据集分成了两个部分。第一个包含400年观测估计中使用的两个模型:一个与原二次请,一个健壮的二次请。然后我们计算预测剩余均方误差(RMSEP)因变量的100的观察。
比较(表的结果3)的三个污染率表明,强劲的二次请产量较小的均方预测误差在每一个案例。相同的表为每个率,提出了新闻价值的计算留下10%的观察。也是如此的预测误差平方和是改进的鲁棒二次请。
|
|||||||||||||||||||||||||||||||||||||||
数据1,2,3显示一个比较预测值与实际值的模拟数据集,对二次和健壮的二次请回归。对于所有污染率的预测是明显改善的情况下提出的鲁棒二次请,因为它给了比原来更好的预测。
5。结论
请回归大大发展,因为它首次引入。数据遇到的非线性性质在化学工程领域的发展中非线性PLS方法背后的动机。在本文中,我们提出了一个健壮的版本的二次非线性PLS,混合形式之间的二次请算法和培根算法为了克服问题引起的离群值。我们的方法优于二次请真实和模拟数据。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
引用
- h .荒原”,潜变量:软建模的非线性迭代偏最小二乘方法,”在概率论与数理统计角度,论文巴特利特小姐的荣誉,第540 - 520页,1975年。视图:谷歌学术搜索|MathSciNet
- 德容,“请收缩”,化学计量学杂志》,9卷,不。4、323 - 326年,1995页。视图:出版商的网站|谷歌学术搜索
- c . Goutis“偏最小二乘算法产生收缩估计,”统计年报,24卷,不。2、816 - 824年,1996页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 美国荒原:Kettaneh-Wold, b . Skagerberg“非线性PLS建模、”化学计量学和智能实验室系统,7卷,不。1 - 2日,53 - 65年,1989页。视图:出版商的网站|谷歌学术搜索
- 美国荒原”,非线性偏最小二乘建模。二世。花键的内在关系,“化学计量学和智能实验室系统,14卷,不。1 - 3、71 - 84年,1992页。视图:出版商的网站|谷歌学术搜索
- z孟,s, y Yanh et al .,“非线性偏最小二乘法对气象数据的一致性分析,“数学问题在工程ID 143965条,卷。2015年,8页,2015。视图:出版商的网站|谷歌学术搜索
- m·休伯特和k . v . Branden“健壮的偏最小二乘回归方法,”化学计量学杂志》,17卷,不。10日,537 - 549年,2003页。视图:出版商的网站|谷歌学术搜索
- 答:Kondylis和a·s·哈迪”派生组件使用培根算法回归。”计算统计和数据分析,51卷,不。2、556 - 569年,2006页。视图:出版商的网站|谷歌学术搜索
- n . Billor a·s·哈迪和p . f . Velleman“培根:阻止自适应计算高效的离群值提名者”,计算统计和数据分析,34卷,不。3、279 - 298年,2000页。视图:出版商的网站|谷歌学术搜索
- 诉Cherkassky、d·格林和f . Mulier”从样本比较函数估计的自适应方法,”IEEE神经网络和学习系统,7卷,不。4、969 - 984年,1996页。视图:出版商的网站|谷歌学术搜索
版权
版权©2018 Abdelmounaim Kerkri等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。