𝐿 2 -based methods such as ordinary least squares and orthogonal regression can be used to determine this relationship. However, both of these methods become impaired when influential values are present. This problem becomes compounded when outliers confound standard diagnostics. This work proposes an 𝐿 1 -norm orthogonal regression method ( 𝐿 1 OR) formulated as a nonconvex optimization problem. Solution strategies for finding globally optimal solutions are presented. Simulation studies are conducted to assess the resistance of the method to outliers and the consistency of the method. The method is also applied to real-world data arising from an environmental science application."> 通过Reformulation-Linearization Outlier-Resistant正交回归技术gydF4y2Ba - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

行动研究进展gydF4y2Ba

行动研究进展gydF4y2Ba/gydF4y2Ba2011年gydF4y2Ba/gydF4y2Ba文章gydF4y2Ba

研究文章|gydF4y2Ba开放获取gydF4y2Ba

体积gydF4y2Ba 2011年gydF4y2Ba |gydF4y2Ba文章的IDgydF4y2Ba 263762年gydF4y2Ba |gydF4y2Ba https://doi.org/10.1155/2011/263762gydF4y2Ba

保罗·布鲁克斯,爱德华·l·布恩gydF4y2Ba,gydF4y2Ba ”gydF4y2BaOutlier-ResistantgydF4y2Ba gydF4y2Ba gydF4y2Ba 通过Reformulation-Linearization正交回归技术gydF4y2Ba”,gydF4y2Ba行动研究进展gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2011年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba263762年gydF4y2Ba,gydF4y2Ba 18gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2011年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2011/263762gydF4y2Ba

Outlier-ResistantgydF4y2Ba gydF4y2Ba gydF4y2Ba 通过Reformulation-Linearization正交回归技术gydF4y2Ba

学术编辑器:gydF4y2Bai . l . AverbakhgydF4y2Ba
收到了gydF4y2Ba 09年9月2010年gydF4y2Ba
修改后的gydF4y2Ba 2011年1月07gydF4y2Ba
接受gydF4y2Ba 2011年1月14日gydF4y2Ba
发表gydF4y2Ba 2011年2月17日gydF4y2Ba

文摘gydF4y2Ba

评估之间的线性关系的一组连续预测和连续反应是统计和数据挖掘的一个研究问题。gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 如普通最小二乘法和正交回归的方法可以用来确定这种关系。然而,这两种方法成为有影响力的值时存在受损。这个问题变得更加复杂,当异常值混淆标准诊断。这项工作提出了一个gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 规范正交回归方法(gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或)制定作为一个非凸优化问题。提出了解决策略寻找全局最优的解决方案。仿真研究进行了评估的阻力异常值的方法和方法的一致性。该方法也适用于现实世界的数据源自于一个环境科学应用程序。gydF4y2Ba

1。介绍和背景gydF4y2Ba

数据分析师经常提出的问题确定几个变量和响应变量之间的关系。标准技术时,所有的变量定义在连续域是普通最小二乘回归(OLS)。当gydF4y2Ba离群值gydF4y2Ba,或不寻常的观察,存在于数据,传统的回归技术成为受损。方法如M-regression(先生)使用M估计减少离群值的影响。这些方法不是为开发而设计的gydF4y2Baerrors-in-variablesgydF4y2Ba模型预测和响应的测量误差或被认为是随机组件。这种情况的一个例子是研究pH值和碱度之间的关系在淡水栖息地,同时测量误差。gydF4y2Ba

正交回归(gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或)时使用的不确定性是目前在这两个独立和相关的变量。这种假设与OLS,预测是假定为已知没有测量误差。此外,正交回归方法的正交距离超平面安装而在OLS残差测量的垂直距离观测到表面。gydF4y2Ba

1.1。以前的工作在健壮的正交回归gydF4y2Ba

的敏感性gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或离群值已经指出,和其他调查人员正致力于开发健壮的方法(gydF4y2Ba1gydF4y2Ba- - - - - -gydF4y2Ba3gydF4y2Ba]。Zamar[工作gydF4y2Ba3gydF4y2Ba包括使用gydF4y2Ba gydF4y2Ba 和gydF4y2Ba gydF4y2Ba 为正交回归估计。Spath和沃森gydF4y2Ba4gydF4y2Ba]介绍合并的方法gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 规范正交测量距离的回归。gydF4y2Ba

gydF4y2Ba 2gydF4y2Ba 或者可以制定为相当于找到最后一个主成分,或最小的方向变化,主成分分析(PCA)。因此,任何健壮的PCA方法可用于健壮的正交回归。两个主要方法鲁棒主成分分析(1)找到稳健估计的协方差矩阵(在传统的主成分分析,主成分是协方差矩阵的特征向量)和(2)使用一个健壮的离差的量度。研究区域包括前(gydF4y2Ba5gydF4y2Ba- - - - - -gydF4y2Ba11gydF4y2Ba]。分散的PCA的可靠估计研究[gydF4y2Ba12gydF4y2Ba- - - - - -gydF4y2Ba16gydF4y2Ba];这些作品是基于gydF4y2Ba投影的追求gydF4y2Ba的方法。gydF4y2Ba

我们的方法密切相关,由Spath和沃森(gydF4y2Ba4gydF4y2Ba和夸克gydF4y2Ba16gydF4y2Ba我们结合的方式)gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 规范成一个正交回归过程。Spath和沃森gydF4y2Ba4gydF4y2Ba)测量误差的观测gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 距离它的正交投影超平面。夸克(gydF4y2Ba16gydF4y2Ba)连续发现方向最大化的最大变化gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 距离gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 投影点在一条直线。与这些方法相比,我们的方法是直接通过最大化找到最小的方向变化gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 点和他们之间的距离gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 投影向量(见图gydF4y2Ba1gydF4y2Ba)。同时,提出的方法(gydF4y2Ba4gydF4y2Ba,gydF4y2Ba16gydF4y2Ba)保证各自只有局部最小值优化问题,当我们提出一个方法推导全局最优的解决方案。gydF4y2Ba

这三种方法可以被视为近似最大似然估计值(标定)线性errors-in-variables模型与独立的错误与拉普拉斯分布(见[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba])。这样一个模型对应于一个超平面的标定,最小化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 预测。Zwanzig [gydF4y2Ba25gydF4y2Ba考虑一个gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 估计量的非线性推广error-in-variables模型和误差分布,表明在一定假设的估计量是一致的。当应用于的设置gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 正交线性回归,估计类似的方法Spath和沃森gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

1.2。传统的正交回归gydF4y2Ba

假设我们给出观测连续预测和响应gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba gydF4y2Ba ×gydF4y2Ba ℝgydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 。gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或试图找到一个正交投影的数据到一个超平面,这样的正交距离点的总和gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba 超平面的最小化。我们假设在这个工作中位数是减去从样品和安装超平面经过原点。我们注意到,对于大的值gydF4y2Ba gydF4y2Ba 坐标态值可能不是一个好估计,一个数据中心的云(见[gydF4y2Ba26gydF4y2Ba])。gydF4y2Ba

在gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或者,的正交距离的平方的总和gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba 定义的超平面gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 是最小化。向量gydF4y2Ba gydF4y2Ba 是正常的最佳超平面,是数据的最小的方向变化。因为gydF4y2Ba gydF4y2Ba 是最小的方向变化,距离平方的总和的观察他们的预测吗gydF4y2Ba gydF4y2Ba 是最大化。因此,我们可以找到gydF4y2Ba gydF4y2Ba 通过求解优化问题如下:gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba OgydF4y2Ba RgydF4y2Ba gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 受gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba

变量的向量gydF4y2Ba gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 。这个词gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba 代表的正交投影观察gydF4y2Ba gydF4y2Ba 沿着gydF4y2Ba gydF4y2Ba 的原始坐标数据。gydF4y2Ba

在本文中,我们提出一个新的outlier-resistant正交回归方法调用gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或。最小的方向变化数据发现通过最大化gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 观察他们的投影点距离向量。安装的超平面正交于最小的方向变化。问题是制定非凸优化问题。我们描述如何得到全局最优的解决方案基于reformulation-linearization技术(RLT)由Sherali和Tuncbilek [gydF4y2Ba27gydF4y2Ba]。我们提出申请的结果gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或污染的模拟数据异常值和比较健壮的方法进行正交回归的结果。的一致性gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者是使用模拟数据评估。gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或应用于数据收集海洋栖息地评估不确定性驻留在依赖和独立变量。gydF4y2Ba

2。寻找最优超平面gydF4y2Ba

假设,而不是最大化的平方之和观测的垂直距离投影最小的方向变化,我们最大化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 距离。使用gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 指标降低离群值观测的影响。gydF4y2Ba

在图gydF4y2Ba1gydF4y2Ba,我们说明了不同方法的结合gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 规范转化为一个二维正交回归过程的例子。定义安装超平面的法向量gydF4y2Ba gydF4y2Ba 代表一个近似的最小的方向变化的数据。向量gydF4y2Ba gydF4y2Ba 跨越空间定义的超平面。我们的方法是最大化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 距离的点到他们的预测gydF4y2Ba gydF4y2Ba 。的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 的距离gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba 对其gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 上的投影gydF4y2Ba gydF4y2Ba 是由gydF4y2Ba gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 在图中。Spath和华生提出的过程(gydF4y2Ba4gydF4y2Ba最小化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 点的距离gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 预测在一个超平面。的距离gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba 其在安装子空间投影显示gydF4y2Ba gydF4y2Ba 3gydF4y2Ba +gydF4y2Ba gydF4y2Ba 4gydF4y2Ba 。过程引入了夸克(gydF4y2Ba16gydF4y2Ba最大化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 震级的预测点到超平面。在图gydF4y2Ba1gydF4y2Ba,这个大小是由gydF4y2Ba gydF4y2Ba 5gydF4y2Ba +gydF4y2Ba gydF4y2Ba 6gydF4y2Ba 。当这三个距离测量使用gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 规范,同样的回归平面是最佳gydF4y2Ba28gydF4y2Ba];然而,由于在每种情况下的距离测量使用gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 规范,最终回归飞机并不总是一致。的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 的投影gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba 超平面是由安装gydF4y2Ba (gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ;一个标定方法的总和最小化gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 点的距离gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 预测。gydF4y2Ba

最大化的总和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 距离的点线经过原点是写成gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 为gydF4y2Ba 为gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba |gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba

目标函数是非线性和非凸。与[gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或),定义的最优超平面gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。让gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 是gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 剩余的组件gydF4y2Ba gydF4y2Ba 的观察gydF4y2Ba gydF4y2Ba 。同时,让gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba 是一个向量1的,所以这些吗gydF4y2Ba gydF4y2Ba gydF4y2Ba 变量都是非负的。这种替换是必要的对于我们的解决方案方法如下解释。数学课程可以作为制定gydF4y2Ba gydF4y2Ba gydF4y2Ba 1gydF4y2Ba OgydF4y2Ba RgydF4y2Ba gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba

受gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba 我gydF4y2Ba fgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba ∀gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba 我gydF4y2Ba fgydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ∀gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∈gydF4y2Ba {gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba }gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ;gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba

的数量gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 与每个坐标向量的值为0,1和2分别。目标函数现在是线性的,和前三集定义约束的非凸函数。gydF4y2Ba

获得全局最优解(gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或),我们将使用和整数规划与和reformulation-linearization技术(RLT)中描述gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba子问题gydF4y2Ba将引用一个线性混合整数规划(MIP)对应于RLT和树中的一个节点。每个子问题可以转化为一个线性MIP表达条件限制gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba 为一个足够大的常数gydF4y2Ba gydF4y2Ba 。gydF4y2Ba

以下是总结RLT应用于(gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或]。gydF4y2Ba(我)gydF4y2Ba子问题优化。gydF4y2Ba选择子问题来解决。每个子问题是一个线性MIP放松非凸约束。如果所有子问题都解决了,现任的解决方案是最优的。gydF4y2Ba(2)gydF4y2Ba检查新绑定。gydF4y2Ba如果解决方案满足原始的非凸约束,目前的解决方案是可行的。更新现有的解决方案,如果适当的客观价值。gydF4y2Ba(3)gydF4y2Ba理解。gydF4y2Ba理解如果(1)解决方案满足原来的约束,(2)子问题是不可行的,或(3)子问题的客观价值小于现任客观价值。gydF4y2Ba(iv)gydF4y2Ba分支。gydF4y2Ba为分支选择变量,创建两个子问题。gydF4y2Ba

RLT的流程图,详细的步骤和过程包括在图中gydF4y2Ba2gydF4y2Ba。gydF4y2Ba

我们现在描述RLT根子问题的建设。每次出现gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 的限制,替换一个新的变量gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 配方。同时,添加约束的形式gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 但是替换出现的gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 与gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 。的存在约束0是反映的下界gydF4y2Ba gydF4y2Ba gydF4y2Ba 变量;这些下界将改变在优化算法如下所述。结果是一个线性MIP,是一个放松的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或][gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba

我们现在描述分支过程。最优解的放松是可行的(gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或如果gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 对所有gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 。如果不满足此条件,然后选择一个变量gydF4y2Ba gydF4y2Ba gydF4y2Ba 与gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≠gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 对于一些gydF4y2Ba gydF4y2Ba 与当前值gydF4y2Ba gydF4y2Ba gydF4y2Ba 并创建两个子问题。的一个新子问题约束的形式gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 7gydF4y2Ba )gydF4y2Ba

替换出现的所有gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 与gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 创建线性约束。另一个新子问题线性化形式的约束gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 2gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba 0gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba

和树中的节点遍历,的界限gydF4y2Ba gydF4y2Ba gydF4y2Ba 变量是连续收紧。Sherali和TuncbilekgydF4y2Ba27gydF4y2Ba]证明要么寻找最优解的有限步终止与全局最优的解决方案,否则任何聚点的解决方案在一个无限的分支和树是一种全局最优的解决方案。gydF4y2Ba

3所示。模拟研究gydF4y2Ba

在本节中,的能力gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或拒绝两种类型的异常值的影响评估使用模拟研究。比较的方法gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或者和几个健壮的程序。的一致性gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者也是评估使用模拟研究。gydF4y2Ba

(gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 使用12.1最大化策略或MIP子问题得到解决。如果没有达到可证明的最优的MIP子问题2分钟后,使用的是最著名的整数可行解。我们实现了我们的算法和应用RLT在C程序中,时间限制为7200 CPU秒为每个实例。机器上的问题得到解决gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba 6gydF4y2Ba GHz Opteron处理器和2 GB RAM。gydF4y2Ba

gydF4y2Ba 1gydF4y2Ba 或者是健壮的方法相比,基于投影寻踪(gydF4y2Ba12gydF4y2Ba),一个gydF4y2Ba gydF4y2Ba scale-based使正交化Gnanadesikan-Kettenring估计(gydF4y2Ba29日gydF4y2Ba)(以下gydF4y2Ba gydF4y2Ba -OGK)和基于PCA方法gydF4y2Ba gydF4y2Ba 1gydF4y2Ba (gydF4y2Ba16gydF4y2Ba]。应用投影寻踪方法用描述的主成分分析方法(gydF4y2Ba15gydF4y2Ba]。正交回归的方法是修改了最后一个健壮的主成分正交回归的系数超平面。我们通过ppOR-mad表示这种方法或ppOR-qn后缀表明规模函数使用。用其他方法gydF4y2Ba gydF4y2Ba -OGK和PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 。PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ,初始向量集gydF4y2Ba gydF4y2Ba 0gydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba gydF4y2Ba 为gydF4y2Ba gydF4y2Ba gydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba (见[gydF4y2Ba16gydF4y2Ba])。gydF4y2Ba

gydF4y2Ba 2gydF4y2Ba 或者和ppOR模型中使用gydF4y2Baprcomp ()gydF4y2Ba和gydF4y2BaPCAgrid ()gydF4y2Ba函数,分别称为R环境统计计算(gydF4y2Ba30.gydF4y2Ba]。这个函数gydF4y2BaPCAgrid ()gydF4y2Ba是在gydF4y2BapcaPPgydF4y2Ba(gydF4y2Ba31日gydF4y2Ba)图书馆。R的代码gydF4y2Ba gydF4y2Ba -OGK估计量是由一个匿名裁判。我们实现了PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 方法(gydF4y2Ba16gydF4y2Ba在一个C程序)。gydF4y2Ba

3.1。垂直的离群值gydF4y2Ba

一个模拟研究进行了评估的能力gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 在二元数据或检测线性关系的存在gydF4y2Ba垂直的离群值gydF4y2Ba。垂直异常值有显著的变化只在他们的反应变量值。仿真的设计是利用不同污染观测的数量(gydF4y2Ba gydF4y2Ba )和污染程度(gydF4y2Ba gydF4y2Ba )。每个方法运行30日与100年数据集在每个治疗条件下的观察。在这项研究中,gydF4y2Ba gydF4y2Ba 以下列方式多种多样:没有污染,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 、中度污染,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 和高污染,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 。污染的严重性gydF4y2Ba gydF4y2Ba 是多种多样的gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba :低污染,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba :中等大小,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba :大大小。gydF4y2Ba

以以下方式采样的数据。gydF4y2Ba(我)gydF4y2Ba生成未被污染的数据:gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba 和gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,因为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba −gydF4y2Ba gydF4y2Ba 。gydF4y2Ba(2)gydF4y2Ba产生污染的数据:gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 5gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba 和gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba |gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ×gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba |gydF4y2Ba ,因为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba

生成数据集与拟合模型使用一个例子gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 图中给出了gydF4y2Ba3(一个)gydF4y2Ba。gydF4y2Ba

评估每个方法准确地符合已知的底层模型的能力,下面的模型误差,gydF4y2Ba gydF4y2Ba 使用:gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba |gydF4y2Ba |gydF4y2Ba gydF4y2Ba |gydF4y2Ba |gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba )gydF4y2Ba −gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 3gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 在哪里gydF4y2Ba gydF4y2Ba 是已知的模型和gydF4y2Ba gydF4y2Ba gydF4y2Ba 是估计模型。请注意,gydF4y2Ba gydF4y2Ba 对应于之间的区域gydF4y2Ba gydF4y2Ba 和gydF4y2Ba gydF4y2Ba gydF4y2Ba 。如果估计模型是接近真实的模型gydF4y2Ba gydF4y2Ba 将小。为每个模拟gydF4y2Ba gydF4y2Ba 计算并记录。使用这些结果平均模型误差,gydF4y2Ba gydF4y2Ba 和标准错误计算。gydF4y2Ba

分析仿真,均值和标准差gydF4y2Ba gydF4y2Ba 计算每个设置的gydF4y2Ba gydF4y2Ba 和gydF4y2Ba gydF4y2Ba ,可以发现在表gydF4y2Ba1gydF4y2Ba。为所有配置gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或均值和标准差低于所有其他方法测试,表明在抵制异常污染等性能优越的条件。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或执行比健壮的方法除了PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 但比outlier-sensitivegydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。在极端的情况下污染gydF4y2Ba (gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或者和PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 离群值非常敏感的大值gydF4y2Ba gydF4y2Ba 。这个配置是ppOR-qn表现最好的方法。gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者意味着差距只有0.34以上ppOR-qn但至少1.28小于outlier-sensitive方法。总的来说,这表明gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或表现良好,没有污染物的存在更大程度的污染,但降解性能相对于一些健壮的方法当污染的大小是非常大的。gydF4y2Ba


方法gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.00997 (0.00540)gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.01818 (0.01459)gydF4y2Ba
ppOR-madgydF4y2Ba 0.13624 (0.09616)gydF4y2Ba
ppOR-qngydF4y2Ba 0.08398 (0.07724)gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.01870 (0.01486)gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.02081 (0.01388)gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.00934 (0.00583)gydF4y2Ba 0.08496 (0.01798)gydF4y2Ba 0.31339 (0.05527)gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.03070 (0.01578)gydF4y2Ba 0.32365 (0.10149)gydF4y2Ba 3.54666 (0.99552)gydF4y2Ba
ppOR-madgydF4y2Ba 0.13714 (0.12535)gydF4y2Ba 0.11584 (0.10239)gydF4y2Ba 0.08906 (0.07094)gydF4y2Ba
ppOR-qngydF4y2Ba 0.07475 (0.06369)gydF4y2Ba 0.14938 (0.08210)gydF4y2Ba 0.05840 (0.04831)gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.03018 (0.01696)gydF4y2Ba 0.18032 (0.03857)gydF4y2Ba 0.20396 (0.03736)gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.02608 (0.01667)gydF4y2Ba 0.17335 (0.04240)gydF4y2Ba 0.76836 (0.16126)gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.01190 (0.00573)gydF4y2Ba 0.16172 (0.02743)gydF4y2Ba 0.58962 (0.06106)gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.04505 (0.01420)gydF4y2Ba 0.62263 (0.12630)gydF4y2Ba 6.26558 (1.35709)gydF4y2Ba
ppOR-madgydF4y2Ba 0.12443 (0.10311)gydF4y2Ba 0.25518 (0.24805)gydF4y2Ba 0.31136 (0.28315)gydF4y2Ba
ppOR-qngydF4y2Ba 0.08947 (0.08796)gydF4y2Ba 0.59031 (0.18792)gydF4y2Ba 0.24970 (0.12092)gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.03865 (0.01879)gydF4y2Ba 0.45040 (0.09105)gydF4y2Ba 0.54522 (0.08887)gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.03940 (0.01382)gydF4y2Ba 0.35664 (0.06198)gydF4y2Ba 1.87768 (0.31515)gydF4y2Ba

3.2。集群利用离群值gydF4y2Ba

的能力gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或在二元数据与异常值检测线性关系进一步分析与模拟使用的数据集gydF4y2Ba集群利用离群值gydF4y2Ba。集群利用离群值的数据集有非常相似的值,但远离其他数据集。仿真设计不同观测的数量(gydF4y2Ba gydF4y2Ba )和污染水平(gydF4y2Ba gydF4y2Ba )。对于每一个治疗条件和复制,生成一个数据集没有污染和同伴数据集生成取代第一gydF4y2Ba ⌈gydF4y2Ba gydF4y2Ba gydF4y2Ba ⌉gydF4y2Ba 观察与受污染的数据。有50复制每个治疗条件。对于这个实验,gydF4y2Ba gydF4y2Ba 以下列方式多种多样:低污染:gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 0gydF4y2Ba 5gydF4y2Ba 中度污染:gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 和高污染:gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 。gydF4y2Ba

数据抽样如下。gydF4y2Ba(我)gydF4y2Ba生成未被污染的数据:gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba ,因为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 。gydF4y2Ba(2)gydF4y2Ba产生污染的数据:gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba −gydF4y2Ba 2gydF4y2Ba gydF4y2Ba )gydF4y2Ba ,因为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba ⌈gydF4y2Ba gydF4y2Ba gydF4y2Ba ⌉gydF4y2Ba 。gydF4y2Ba

协方差矩阵(gydF4y2Ba gydF4y2Ba 在复制)是不同的。首先,一个gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba 2gydF4y2Ba 矩阵gydF4y2Ba gydF4y2Ba 这样每个条目生成采样是一个人吗gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 分布。QR分解gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba 计算。让gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba 年代gydF4y2Ba ggydF4y2Ba ngydF4y2Ba (gydF4y2Ba ⟨gydF4y2Ba gydF4y2Ba ⟩gydF4y2Ba )gydF4y2Ba ,在那里gydF4y2Ba ⟨gydF4y2Ba ⋅gydF4y2Ba ⟩gydF4y2Ba 表明以对角元素为一个向量gydF4y2Ba 年代gydF4y2Ba ggydF4y2Ba ngydF4y2Ba (gydF4y2Ba ⋅gydF4y2Ba )gydF4y2Ba 向量与向量的对应元素的迹象。然后gydF4y2Ba gydF4y2Ba 从wishard采样gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba 。的方法(gydF4y2Ba gydF4y2Ba )等产生的污染数据gydF4y2Ba(1)gydF4y2Ba的Mahalanobis距离gydF4y2Ba gydF4y2Ba 从分布gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba 至少是gydF4y2Ba gydF4y2Ba 2gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 9gydF4y2Ba 9gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ′gydF4y2Ba ,gydF4y2Ba(2)gydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba {gydF4y2Ba gydF4y2Ba gydF4y2Ba ∶gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba }gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba {gydF4y2Ba xgydF4y2Ba gydF4y2Ba ∶gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba }gydF4y2Ba ,gydF4y2Ba(3)gydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba {gydF4y2Ba gydF4y2Ba gydF4y2Ba ∶gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba }gydF4y2Ba ≤gydF4y2Ba gydF4y2Ba 2gydF4y2Ba ≤gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba {gydF4y2Ba gydF4y2Ba gydF4y2Ba ∶gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba }gydF4y2Ba 。gydF4y2Ba

一个示例数据集与100年观察和拟合模型生成的使用gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 图中给出了gydF4y2Ba3 (b)gydF4y2Ba。gydF4y2Ba

每个基于模型的相似性评估方法适用于伴未被污染的和被污染的数据集。相似度测量gydF4y2Ba gydF4y2Ba 被定义为内积的绝对值gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 2gydF4y2Ba gydF4y2Ba =gydF4y2Ba |gydF4y2Ba |gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ⋅gydF4y2Ba gydF4y2Ba 2gydF4y2Ba |gydF4y2Ba |gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 3gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 在哪里gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 的向量系数推导出未被污染的和被污染的数据集。的值gydF4y2Ba gydF4y2Ba 可以用更大的值在0和1之间,表明模型是一致的,离群值不会影响估计。gydF4y2Ba

意味着在复制和比例的实例gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 9gydF4y2Ba 0gydF4y2Ba 为每个值gydF4y2Ba gydF4y2Ba 和gydF4y2Ba gydF4y2Ba 包含在表gydF4y2Ba2gydF4y2Ba。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 0gydF4y2Ba 5gydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 的性能,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者几乎是常数gydF4y2Ba gydF4y2Ba 是增加了。有一个轻微的性能退化为更大的值gydF4y2Ba gydF4y2Ba ,这可能是由于计算复杂度的增加(见实例部分gydF4y2Ba5gydF4y2Ba)。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 0gydF4y2Ba 5gydF4y2Ba ,所有的方法有很高的平均值gydF4y2Ba gydF4y2Ba 和高百分比的实例gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 9gydF4y2Ba ,包括outlier-sensitivegydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或所有的健壮的方法有更大的平均值gydF4y2Ba gydF4y2Ba 比gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。ppOR-qn估计量的最一致的性能不同的值gydF4y2Ba gydF4y2Ba 为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 的平均值gydF4y2Ba gydF4y2Ba 0.94以上。的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或估计量平均值为0.93以上gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba ,但性能降低gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 。的gydF4y2Ba gydF4y2Ba -OGK估计最高或次高的平均值gydF4y2Ba gydF4y2Ba 为gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 的性能,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或滞后的方法。为gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba ,性能是相似的gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。为gydF4y2Ba gydF4y2Ba ≥gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 的平均值gydF4y2Ba gydF4y2Ba 不到的吗gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 首选的估计似乎ppOR-mad,它的最高或次高值gydF4y2Ba gydF4y2Ba 为每一个gydF4y2Ba gydF4y2Ba 。gydF4y2Ba


方法gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 0gydF4y2Ba 5gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.996/1.000gydF4y2Ba 0.993/1.000gydF4y2Ba 0.680/0.520gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.981/0.980gydF4y2Ba 0.963/0.920gydF4y2Ba 0.648/0.240gydF4y2Ba
ppOR-madgydF4y2Ba 0.967/0.900gydF4y2Ba 0.933/0.740gydF4y2Ba 0.859/0.500gydF4y2Ba
ppOR-qngydF4y2Ba 0.963/0.880gydF4y2Ba 0.944/0.800gydF4y2Ba 0.869/0.460gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.994/1.000gydF4y2Ba 0.985/0.980gydF4y2Ba 0.842/0.660gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.962/0.940gydF4y2Ba 0.969/0.960gydF4y2Ba 0.794/0.380gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.998/1.000gydF4y2Ba 0.932/0.920gydF4y2Ba 0.602/0.360gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.988/1.000gydF4y2Ba 0.912/0.860gydF4y2Ba 0.609/0.260gydF4y2Ba
ppOR-madgydF4y2Ba 0.974/0.900gydF4y2Ba 0.943/0.860gydF4y2Ba 0.903/0.660gydF4y2Ba
ppOR-qngydF4y2Ba 0.989/1.000gydF4y2Ba 0.962/0.900gydF4y2Ba 0.858/0.400gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.997/1.000gydF4y2Ba 0.974/0.980gydF4y2Ba 0.818/0.640gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.986/0.960gydF4y2Ba 0.932/0.880gydF4y2Ba 0.779/0.380gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.973/0.960gydF4y2Ba 0.931/0.900gydF4y2Ba 0.519/0.180gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.981/0.960gydF4y2Ba 0.884/0.700gydF4y2Ba 0.623/0.200gydF4y2Ba
ppOR-madgydF4y2Ba 0.979/0.960gydF4y2Ba 0.956/0.900gydF4y2Ba 0.923/0.700gydF4y2Ba
ppOR-qngydF4y2Ba 0.989/1.000gydF4y2Ba 0.958/0.900gydF4y2Ba 0.878/0.480gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.998/1.000gydF4y2Ba 0.977/0.940gydF4y2Ba 0.828/0.540gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.979/0.960gydF4y2Ba 0.940/0.880gydF4y2Ba 0.810/0.340gydF4y2Ba

gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba 0.932/0.800gydF4y2Ba 0.857/0.760gydF4y2Ba 0.509/0.140gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba 0.917/0.820gydF4y2Ba 0.805/0.580gydF4y2Ba 0.608/0.160gydF4y2Ba
ppOR-madgydF4y2Ba 0.975/0.960gydF4y2Ba 0.970/0.920gydF4y2Ba 0.942/0.780gydF4y2Ba
ppOR-qngydF4y2Ba 0.978/0.980gydF4y2Ba 0.959/0.860gydF4y2Ba 0.893/0.560gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba 0.997/1.000gydF4y2Ba 0.954/0.920gydF4y2Ba 0.834/0.600gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 0.926/0.860gydF4y2Ba 0.922/0.820gydF4y2Ba 0.785/0.340gydF4y2Ba

3.3。一致性gydF4y2Ba

的一致性gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或通过执行测试评估实例与不同的样本大小。二元数据gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 产生这样gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba (gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba 和gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba +gydF4y2Ba gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba 。测试样本大小gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba ,gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba ;100年数据生成数据集的每个值gydF4y2Ba gydF4y2Ba 。的gydF4y2Barlaplace ()gydF4y2BaR的函数包gydF4y2BarmutilgydF4y2Ba(gydF4y2Ba32gydF4y2Ba)用于样本拉普拉斯分布。一个示例数据集与200年观察和安装gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或在图模型gydF4y2Ba3 (c)gydF4y2Ba。gydF4y2Ba

图gydF4y2Ba4gydF4y2Ba描述了标准误差斜率的绝对值作为样本大小的函数。随着样本容量的增加,标准误差迅速趋于0,表明程序是一致的。对大样本大小,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者应该提供良好的估计。gydF4y2Ba

4所示。一个环境的例子gydF4y2Ba

水的pH值和碱度鱼生活的已知影响他们的整体健康。碱度的测量解决中和酸的能力。研究人员预计pH值和碱度是高度相关的。然而,两个变量的关系是很难估计在许多数据集由于低pH值的变化在溪流和由于异常值的存在。这个例子是一个子集的数据集值收集在俄亥俄州的状态导致312年的观察。不同子集的这个数据集已经被诺顿认为之前(gydF4y2Ba17gydF4y2Ba),Lipkovich et al。gydF4y2Ba18gydF4y2Ba),高贵的et al。gydF4y2Ba19gydF4y2Ba,布恩et al。gydF4y2Ba20.gydF4y2Ba)不同程度的成功,估计pH值和碱度之间的关系。对于本工作pH值和碱度都是标准化的。注意,在这些数据pH值和碱度的测量误差,因此应该使用正交回归方法。相同的计算设置仿真研究中用于分析。gydF4y2Ba

图gydF4y2Ba5gydF4y2Ba显示了pH值的散点图和碱度。似乎有一个线性关系碱度和博士也注意到垂直和利用数据中出现的异常值。皮尔逊相关系数的pH值和碱度之间的关系gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 3gydF4y2Ba 3gydF4y2Ba 6gydF4y2Ba 6gydF4y2Ba 这是偏见由于数据中的异常值。此外,自相关性是有偏见的,提取pH-alkalinity组件和使用,作为一个预测不会谨慎。因此,需要回归方法对离群值/影响力的点。除了ppOR-mad, outlier-insensitive方法展示抵抗异常值的测量pH outlier-sensitive相比gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或。基于主成分分析的方法gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 产生一个模型,似乎至少受到异常值的影响,其次是gydF4y2Ba gydF4y2Ba -OGK估计量,然后gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或。gydF4y2Ba

表gydF4y2Ba3gydF4y2Ba为每个方法显示了回归模型的总结。这里的标准错误引导标准错误基于100引导样品。整个方法引导标准误差相差很大,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者最稳定的估计,就是明证较小的标准错误,紧随其后gydF4y2Ba gydF4y2Ba -OGK和PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 。除了ppOR-mad,gydF4y2Ba gydF4y2Ba 值表明,pH值和碱度之间的关系是显著的。请注意,gydF4y2Ba gydF4y2Ba 统计上显著的使用价值的关系gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者,gydF4y2Ba gydF4y2Ba -OGK, PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 与一个gydF4y2Ba gydF4y2Ba 不到.00001的价值。的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者,gydF4y2Ba gydF4y2Ba -OGK, PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 估计似乎是最好的选择对于这个数据,与PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 生产最好的估计和gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或提供最稳定的估计。gydF4y2Ba


方法gydF4y2Ba 估计gydF4y2Ba 标准错误gydF4y2Ba ∗gydF4y2Ba gydF4y2Ba 价值gydF4y2Ba gydF4y2Ba 价值gydF4y2Ba

gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba −0.87760gydF4y2Ba 0.05993gydF4y2Ba −14.64350gydF4y2Ba .00000gydF4y2Ba
gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba −0.97168gydF4y2Ba 0.42857gydF4y2Ba −2.26728gydF4y2Ba .02555gydF4y2Ba
ppOR-madgydF4y2Ba −1.28919gydF4y2Ba 0.74707gydF4y2Ba −1.72567gydF4y2Ba .08753gydF4y2Ba
ppOR-qngydF4y2Ba −0.93906gydF4y2Ba 0.20355gydF4y2Ba −4.61344gydF4y2Ba .00001gydF4y2Ba
gydF4y2Ba -OGKgydF4y2Ba −0.83845gydF4y2Ba 0.10632gydF4y2Ba −7.88578gydF4y2Ba .00000gydF4y2Ba
PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba −0.74421gydF4y2Ba 0.11951gydF4y2Ba −6.22713gydF4y2Ba .00000gydF4y2Ba

扩大这个问题是考虑如何碱度,pH值和栖息地生境指标定性评价指标(QHEI)影响的生物完整性指数(IBI)。QHEI措施驻留的鱼类栖息地的质量(gydF4y2Ba21gydF4y2Ba]。QHEI决定从以下六个措施:流衬底,在流覆盖,渠道形态、河岸和银行状况,池和分割质量和梯度。更高的值对应于更好的栖息地的质量,较低的值对应于栖息地质量差。IBI措施鱼的健康社区。IBI的降低值对应只有宽容物种存在,较低的社区组织,高比例的鱼身体异常。鱼高值对应于高度有组织的社区,许多不宽容的物种,和高多样性物种间(gydF4y2Ba22gydF4y2Ba]。数据由312年观测来自同一个网站。gydF4y2Ba

正交回归模型是适合数据与响应和QHEI IBI、pH值和碱度的预测指标。提出的方法Croux和Haesbroeck [gydF4y2Ba10gydF4y2Ba(以下CH)代替gydF4y2Ba gydF4y2Ba -OGK因为增加数量的变量。CH方法是主成分分析的一个健壮的基础上找到一个健壮的特征值估计的协方差矩阵。gydF4y2Ba

表gydF4y2Ba4gydF4y2Ba显示了系数,引导标准错误,gydF4y2Ba gydF4y2Ba 价值,gydF4y2Ba gydF4y2Ba 值回归使用每种方法。请注意,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或估计系数的pH值和碱度是最稳定的,低的标准错误。QHEI系数估计的标准误差最小的为每个方法。QHEI系数的估计CH最低标准估计误差和最大的积极似乎同意最好的生物的期望。更好的栖息地鱼生活在,更好的鱼的健康社区。除了所有方法gydF4y2Ba gydF4y2Ba 2gydF4y2Ba 或者和PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba ,系数表明IBI和pH值之间的正相关和负相关IBI和碱度之间的关系。虽然没有一个变量在任何回归的统计学意义,这个数据集提供了一个示例的回归系数与异常值正交回归可能会怀疑。gydF4y2Ba


方法gydF4y2Ba 变量gydF4y2Ba 估计gydF4y2Ba 标准错误gydF4y2Ba ∗gydF4y2Ba TgydF4y2Ba价值gydF4y2Ba gydF4y2Ba 价值gydF4y2Ba

gydF4y2Ba 1gydF4y2Ba 或gydF4y2Ba QHEIgydF4y2Ba −0.67248gydF4y2Ba 5.58039gydF4y2Ba −0.12051gydF4y2Ba .90433gydF4y2Ba
pH值gydF4y2Ba 0.70695gydF4y2Ba 9.31363gydF4y2Ba 0.07591gydF4y2Ba .93965gydF4y2Ba
碱性gydF4y2Ba −1.26714gydF4y2Ba 5.60148gydF4y2Ba −0.22622gydF4y2Ba .82150gydF4y2Ba

gydF4y2Ba 2gydF4y2Ba 或gydF4y2Ba QHEIgydF4y2Ba 0.17841gydF4y2Ba 5.79662gydF4y2Ba 0.03078gydF4y2Ba .97551gydF4y2Ba
pH值gydF4y2Ba −11.25396gydF4y2Ba 86.54848gydF4y2Ba −0.13003gydF4y2Ba .89681gydF4y2Ba
碱性gydF4y2Ba 3.97315gydF4y2Ba 64.00076gydF4y2Ba 0.06208gydF4y2Ba .95062gydF4y2Ba

ppOR-madgydF4y2Ba QHEIgydF4y2Ba 0.07038gydF4y2Ba 5.57955gydF4y2Ba 0.01261gydF4y2Ba .98996gydF4y2Ba
pH值gydF4y2Ba 4.31182gydF4y2Ba 68.31064gydF4y2Ba 0.06312gydF4y2Ba .94980gydF4y2Ba
碱性gydF4y2Ba −4.36975gydF4y2Ba 41.89404gydF4y2Ba −0.10430gydF4y2Ba .91714gydF4y2Ba

ppOR-qngydF4y2Ba QHEIgydF4y2Ba −1.88655gydF4y2Ba 4.41714gydF4y2Ba −0.42710gydF4y2Ba .67024gydF4y2Ba
pH值gydF4y2Ba 21.51640gydF4y2Ba 83.28626gydF4y2Ba 0.25834gydF4y2Ba .79668gydF4y2Ba
碱性gydF4y2Ba −13.92729gydF4y2Ba 60.63738gydF4y2Ba −0.22968gydF4y2Ba .81881gydF4y2Ba

CHgydF4y2Ba QHEIgydF4y2Ba 0.33704gydF4y2Ba 3.75244gydF4y2Ba 0.08982gydF4y2Ba .92861gydF4y2Ba
pH值gydF4y2Ba 21.25614gydF4y2Ba 53.26711gydF4y2Ba 0.39905gydF4y2Ba .69072gydF4y2Ba
碱性gydF4y2Ba −21.16159gydF4y2Ba 67.57228gydF4y2Ba −0.31317gydF4y2Ba .75481gydF4y2Ba

PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba QHEIgydF4y2Ba −0.97810gydF4y2Ba 9.09927gydF4y2Ba −0.10749gydF4y2Ba .91462gydF4y2Ba
pH值gydF4y2Ba −3.61571gydF4y2Ba 107.89751gydF4y2Ba −0.03351gydF4y2Ba .97333gydF4y2Ba
碱性gydF4y2Ba 3.33549gydF4y2Ba 79.46839gydF4y2Ba 0.04197gydF4y2Ba .96661gydF4y2Ba

∗gydF4y2Ba 基于100年的标准错误引导标准错误引导样品。gydF4y2Ba

5。计算时间gydF4y2Ba

提出了解决方法gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或者是更多的计算量比其他方法比较。这里使用的替代方法解决所有的实例在不到几秒钟。在本节中,我们评估的计算性能的实现gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或。gydF4y2Ba

表gydF4y2Ba5gydF4y2Ba- - - - - -gydF4y2Ba8gydF4y2Ba包含数据的计算性能gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或在每一个实验。在每个表中,第一列(s)显示的配置数据:对于表gydF4y2Ba5gydF4y2Ba污染水平gydF4y2Ba gydF4y2Ba 和污染程度gydF4y2Ba gydF4y2Ba ;对于表gydF4y2Ba6gydF4y2Ba样本的大小gydF4y2Ba gydF4y2Ba 、污染水平gydF4y2Ba gydF4y2Ba 数据是否有异常值;对于表gydF4y2Ba7gydF4y2Ba样本的大小gydF4y2Ba gydF4y2Ba ;对于表gydF4y2Ba8gydF4y2Ba变量的数量gydF4y2Ba gydF4y2Ba 。第二列gydF4y2Ba%的最优gydF4y2Ba表明实例求解最优的比例,这意味着所有MIP子问题解决最优和RLT树分支界限法得到充分的探讨。第三列gydF4y2BaAvg。MIPs解决gydF4y2Ba包含MIPs的平均数量为每个配置解决了。第四列gydF4y2BaAvg。MIPs次优gydF4y2Ba包含MIPs的平均数量,120 CPU秒内没有解决最优时间限制。第五列gydF4y2BaTime-to-Term Avg。(年代)gydF4y2Ba包含较小的平均CPU秒前RLT分支界限法树是探索和7200秒。最后一列gydF4y2BaAvg。时间最好的溶液(s)。gydF4y2Ba包含的平均时间找到最好的可行的解决方案。gydF4y2Ba


Avg MIPs。gydF4y2Ba Avg MIPs。gydF4y2Ba 平均每次gydF4y2Ba 平均每次gydF4y2Ba
gydF4y2Ba gydF4y2Ba %的最优gydF4y2Ba 解决了gydF4y2Ba 次优的gydF4y2Ba 术语。(年代)gydF4y2Ba 到最好的溶液。gydF4y2Ba

0gydF4y2Ba 0gydF4y2Ba 7.0gydF4y2Ba 193.2gydF4y2Ba 1。2gydF4y2Ba 289.4gydF4y2Ba 235.2gydF4y2Ba
10gydF4y2Ba 1gydF4y2Ba 6.0gydF4y2Ba 217.9gydF4y2Ba 1。0gydF4y2Ba 282.2gydF4y2Ba 242.7gydF4y2Ba
10gydF4y2Ba 10gydF4y2Ba 6.0gydF4y2Ba 187.0gydF4y2Ba 0.9gydF4y2Ba 279.1gydF4y2Ba 255.5gydF4y2Ba
10gydF4y2Ba 50gydF4y2Ba 14.0gydF4y2Ba 117.9gydF4y2Ba 0.5gydF4y2Ba 199.0gydF4y2Ba 186.4gydF4y2Ba
25gydF4y2Ba 1gydF4y2Ba 9.0gydF4y2Ba 236.4gydF4y2Ba 0.9gydF4y2Ba 287.1gydF4y2Ba 226.2gydF4y2Ba
25gydF4y2Ba 10gydF4y2Ba 1。0gydF4y2Ba 105.7gydF4y2Ba 1。2gydF4y2Ba 231.3gydF4y2Ba 223.0gydF4y2Ba
25gydF4y2Ba 50gydF4y2Ba 24.0gydF4y2Ba 154.1gydF4y2Ba 0.2gydF4y2Ba 163.1gydF4y2Ba 149.4gydF4y2Ba


Avg MIPs。gydF4y2Ba Avg MIPs。gydF4y2Ba 平均每次gydF4y2Ba 平均每次gydF4y2Ba
gydF4y2Ba gydF4y2Ba 污染gydF4y2Ba %的最优gydF4y2Ba 解决了gydF4y2Ba 次优的gydF4y2Ba 术语。(年代)gydF4y2Ba 到最好的溶液。gydF4y2Ba

25gydF4y2Ba 0.05gydF4y2Ba NgydF4y2Ba 100.00gydF4y2Ba 112.5gydF4y2Ba 0.0gydF4y2Ba 5.7gydF4y2Ba 5.1gydF4y2Ba
25gydF4y2Ba 0.05gydF4y2Ba YgydF4y2Ba 100.00gydF4y2Ba 116.4gydF4y2Ba 0.0gydF4y2Ba 7.3gydF4y2Ba 6.5gydF4y2Ba
25gydF4y2Ba 0.1gydF4y2Ba NgydF4y2Ba 100.00gydF4y2Ba 110.8gydF4y2Ba 0.0gydF4y2Ba 6.1gydF4y2Ba 5.3gydF4y2Ba
25gydF4y2Ba 0.1gydF4y2Ba YgydF4y2Ba 100.00gydF4y2Ba 114.8gydF4y2Ba 0.0gydF4y2Ba 8.2gydF4y2Ba 7.6gydF4y2Ba
25gydF4y2Ba 0.25gydF4y2Ba NgydF4y2Ba 100.00gydF4y2Ba 140.6gydF4y2Ba 0.0gydF4y2Ba 7.8gydF4y2Ba 6.7gydF4y2Ba
25gydF4y2Ba 0.25gydF4y2Ba YgydF4y2Ba 100.00gydF4y2Ba 104.1gydF4y2Ba 0.0gydF4y2Ba 10.3gydF4y2Ba 9.9gydF4y2Ba
50gydF4y2Ba 0.05gydF4y2Ba NgydF4y2Ba 90.00gydF4y2Ba 115.8gydF4y2Ba 0.1gydF4y2Ba 55.4gydF4y2Ba 52.2gydF4y2Ba
50gydF4y2Ba 0.05gydF4y2Ba YgydF4y2Ba 82.00gydF4y2Ba 111.2gydF4y2Ba 0.2gydF4y2Ba 82.7gydF4y2Ba 80.8gydF4y2Ba
50gydF4y2Ba 0.1gydF4y2Ba NgydF4y2Ba 94.00gydF4y2Ba 127.3gydF4y2Ba 0.1gydF4y2Ba 53.0gydF4y2Ba 49.8gydF4y2Ba
50gydF4y2Ba 0.1gydF4y2Ba YgydF4y2Ba 76.00gydF4y2Ba 113.5gydF4y2Ba 0.3gydF4y2Ba 102.4gydF4y2Ba 100.1gydF4y2Ba
50gydF4y2Ba 0.25gydF4y2Ba NgydF4y2Ba 86.00gydF4y2Ba 115.1gydF4y2Ba 0.2gydF4y2Ba 62.8gydF4y2Ba 60.7gydF4y2Ba
50gydF4y2Ba 0.25gydF4y2Ba YgydF4y2Ba 44.00gydF4y2Ba 125.9gydF4y2Ba 0.8gydF4y2Ba 186.3gydF4y2Ba 184.1gydF4y2Ba
One hundred.gydF4y2Ba 0.05gydF4y2Ba NgydF4y2Ba 10.00gydF4y2Ba 119.5gydF4y2Ba 2.4gydF4y2Ba 445.3gydF4y2Ba 434.5gydF4y2Ba
One hundred.gydF4y2Ba 0.05gydF4y2Ba YgydF4y2Ba 6.00gydF4y2Ba 124.5gydF4y2Ba 3所示。1gydF4y2Ba 548.3gydF4y2Ba 541.4gydF4y2Ba
One hundred.gydF4y2Ba 0.1gydF4y2Ba NgydF4y2Ba 16.00gydF4y2Ba 106.1gydF4y2Ba 2.1gydF4y2Ba 389.0gydF4y2Ba 378.0gydF4y2Ba
One hundred.gydF4y2Ba 0.1gydF4y2Ba YgydF4y2Ba 4.00gydF4y2Ba 112.7gydF4y2Ba 4.2gydF4y2Ba 697.2gydF4y2Ba 671.8gydF4y2Ba
One hundred.gydF4y2Ba 0.25gydF4y2Ba NgydF4y2Ba 6.00gydF4y2Ba 118.7gydF4y2Ba 2.6gydF4y2Ba 465.8gydF4y2Ba 452.3gydF4y2Ba
One hundred.gydF4y2Ba 0.25gydF4y2Ba YgydF4y2Ba 0.00gydF4y2Ba 114.4gydF4y2Ba 5.9gydF4y2Ba 911.2gydF4y2Ba 886.6gydF4y2Ba
200年gydF4y2Ba 0.05gydF4y2Ba NgydF4y2Ba 0.00gydF4y2Ba 96.9gydF4y2Ba 7.2gydF4y2Ba 1243.3gydF4y2Ba 1154.3gydF4y2Ba
200年gydF4y2Ba 0.05gydF4y2Ba YgydF4y2Ba 0.00gydF4y2Ba 99.1gydF4y2Ba 9.1gydF4y2Ba 1459.7gydF4y2Ba 1398.4gydF4y2Ba
200年gydF4y2Ba 0.1gydF4y2Ba NgydF4y2Ba 0.00gydF4y2Ba 93.4gydF4y2Ba 7.3gydF4y2Ba 1201.8gydF4y2Ba 1150.1gydF4y2Ba
200年gydF4y2Ba 0.1gydF4y2Ba YgydF4y2Ba 0.00gydF4y2Ba 102.2gydF4y2Ba 10.8gydF4y2Ba 1662.2gydF4y2Ba 1617.2gydF4y2Ba
200年gydF4y2Ba 0.25gydF4y2Ba NgydF4y2Ba 0.00gydF4y2Ba 108.4gydF4y2Ba 7.3gydF4y2Ba 1249.9gydF4y2Ba 1206.4gydF4y2Ba
200年gydF4y2Ba 0.25gydF4y2Ba YgydF4y2Ba 0.00gydF4y2Ba 102.3gydF4y2Ba 11.8gydF4y2Ba 1743.9gydF4y2Ba 1704.6gydF4y2Ba


Avg MIPs。gydF4y2Ba Avg MIPs。gydF4y2Ba 平均每次gydF4y2Ba 平均每次gydF4y2Ba
gydF4y2Ba %的最优gydF4y2Ba 解决了gydF4y2Ba 次优的gydF4y2Ba 术语。(年代)gydF4y2Ba 到最好的溶液。gydF4y2Ba

10gydF4y2Ba 100.00gydF4y2Ba 134.1gydF4y2Ba 0.0gydF4y2Ba 1。7gydF4y2Ba 1。3gydF4y2Ba
25gydF4y2Ba 100.00gydF4y2Ba 131.9gydF4y2Ba 0.0gydF4y2Ba 9.2gydF4y2Ba 7.9gydF4y2Ba
50gydF4y2Ba 89.00gydF4y2Ba 127.8gydF4y2Ba 0.1gydF4y2Ba 54.8gydF4y2Ba 51.6gydF4y2Ba
One hundred.gydF4y2Ba 1.00gydF4y2Ba 115.7gydF4y2Ba 1。6gydF4y2Ba 358.2gydF4y2Ba 346.8gydF4y2Ba
200年gydF4y2Ba 0.00gydF4y2Ba 105.1gydF4y2Ba 7.7gydF4y2Ba 1481.8gydF4y2Ba 1418.5gydF4y2Ba


Avg MIPs。gydF4y2Ba Avg MIPs。gydF4y2Ba 平均每次gydF4y2Ba 平均每次gydF4y2Ba
gydF4y2Ba %的最优gydF4y2Ba 解决了gydF4y2Ba 次优的gydF4y2Ba 术语。(年代)gydF4y2Ba 到最好的溶液。gydF4y2Ba

2gydF4y2Ba 0.00gydF4y2Ba 105.1gydF4y2Ba 3所示。2gydF4y2Ba 1099.3gydF4y2Ba 1020.5gydF4y2Ba
4gydF4y2Ba 0.00gydF4y2Ba 69.5gydF4y2Ba 57.5gydF4y2Ba 7257.9gydF4y2Ba 5511.9gydF4y2Ba

除了引导样品的环境数据gydF4y2Ba gydF4y2Ba =gydF4y2Ba 4gydF4y2Ba (表gydF4y2Ba8gydF4y2Ba),RLT和树是探索在每一个实例。然而,对于许多这样的情况下,至少有一个的MIP子问题不解决最优。的解决方案在这些实例因此不是“可能为“最佳。与所有实例gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 2gydF4y2Ba 5gydF4y2Ba 解决最优。作为gydF4y2Ba gydF4y2Ba 增加到50和更大的,更少的情况下是最优解。为gydF4y2Ba gydF4y2Ba ≤gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba MIP的子问题不解决的子问题的最优性小于5%平均解决那些实例。为gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 在模拟集群利用离群值和一致性的实验中,约10%的MIPs不解决最优。引导的模拟gydF4y2Ba gydF4y2Ba =gydF4y2Ba 4gydF4y2Ba ,超过一半的MIPs没有解决最优。gydF4y2Ba

在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba),多个实例时最优解决异常污染比较大。相比之下,在模拟集群利用离群值(表gydF4y2Ba6gydF4y2Ba),更少的实例与污染解决最优,比同伴数据集没有污染。另外,实例的数量最优解决似乎减少随着污染程度的增加。gydF4y2Ba

在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba),至少一个MIP不是解决大多数情况下最优。除了极端异常污染的情况下,gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 或执行竞争力相比,健壮的方法。同时,标准误差斜率的一致性试验(表gydF4y2Ba7gydF4y2Ba),实例求解最优的比例显著降低gydF4y2Ba gydF4y2Ba 增加,但估计的标准误差继续减少。这些实例,期限MIP子问题并没有阻碍的能力找到好的解决方案。gydF4y2Ba

只有一个实验,引导模拟gydF4y2Ba gydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 使用数据有超过两个变量。计算性能的退化是更戏剧性的转变gydF4y2Ba gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 来gydF4y2Ba gydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 在引导模拟退化观察时gydF4y2Ba gydF4y2Ba 增加的二元实验。这种现象可能是由于增加的非线性约束需要生产RLT放松。gydF4y2Ba

6。讨论gydF4y2Ba

这引入了一个新的工作gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 正交回归技术,对于被设计成较强的抵抗力。我们开发一种方法得到全局最优解问题的实例。通过仿真,该方法显示了被承诺对离群值。应用程序环境的例子进一步说明抗异常值的方法产生的结果比传统的正交回归和与其他强劲的竞争方法。因此,这种方法使数据分析师处理耐errors-in-variables数据含有异常值替代正交回归。gydF4y2Ba

本文提供的计算研究表明,不同的健壮或outlier-resistant方法在不同的情况下是合适的,并且没有明显优越的方法。pcaPP-mad方法中表现最好的垂直和集群利用模拟数据中离群值,但也许最贫穷的估计现实的例子,其中包含两种类型的离群值。PCA -gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 是表现最糟糕的股票之一的垂直和集群利用模拟数据异常值,但会产生一些最好的估计在实际分析。对PCA -结果的不一致gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 可能是由于方法的依赖有一个很好的起点寻找局部最优解。的gydF4y2Ba gydF4y2Ba 1gydF4y2Ba 这里介绍或方法执行最好的关于其他方法存在中度污染的垂直异常值但遭受极端的污染。gydF4y2Ba

传统的正交回归(gydF4y2Ba gydF4y2Ba 2gydF4y2Ba )也可以作为PCA的特殊情况制定。提出了制定和优化工作的方法可以适应开发一个outlier-resistant PCA方法。outlier-resistant PCA算法将有用的数据分析师处理受污染的数据。另一个可能的扩展是一个outlier-resistant因子分析程序分析分类数据。gydF4y2Ba

承认gydF4y2Ba

作者要感谢两位匿名裁判为许多建议提高这项工作的内容和表现形式。gydF4y2Ba

引用gydF4y2Ba

  1. m·l·布朗“健壮的线与这两个变量中的错误估计,“gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,77年,第79 - 71页,1982年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  2. r·j·卡罗尔和p·p·盖洛,”方面功能errors-in-variables回归模型的鲁棒性,”gydF4y2Ba通信数据gydF4y2Ba11卷,第2585 - 2573页,1982年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  3. r·h·Zamar“errors-in-variables稳健估计的模型,gydF4y2Ba生物统计学gydF4y2Ba卷,76年,第160 - 149页,1989年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  4. h . Spath和g·a·沃森在正交线性的gydF4y2BaℓgydF4y2Ba1近似。”gydF4y2BaNumerische MathematikgydF4y2Ba,51卷,不。5,531 - 543年,1987页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
  5. n a·坎贝尔,“在多元分析,我健壮的程序:健壮的协方差估计,“gydF4y2Ba应用统计学gydF4y2Ba,29卷,第237 - 231页,1980年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  6. 美国j·德夫林、r . Gnandesikan和j . r . Kettenring“稳健估计色散矩阵和主成分”,gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,76年,第362 - 354页,1981年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  7. j·s·Galpin d·m·霍金斯,”的方法gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 估计的协方差矩阵,”gydF4y2Ba计算统计和数据分析gydF4y2Ba,5卷,不。4、305 - 319年,1987页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  8. r·a·纳迦和g . Antille健壮和稳定non-robust主成分分析,“gydF4y2Ba计算统计和数据分析gydF4y2Ba,10卷,不。2、169 - 174年,1990页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  9. j·马登,“一些稳健主成分估计。”gydF4y2Ba统计和概率的信件gydF4y2Ba,43卷,不。4、349 - 359年,1999页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  10. c . Croux g . Haesbroeck,“主成分分析基于稳健估计的协方差或相关矩阵:影响功能和效率,”gydF4y2Ba生物统计学gydF4y2Ba,卷87,不。3、603 - 618年,2000页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  11. h . Kamiya和s .江”一类鲁棒主成分向量,”gydF4y2Ba杂志的多变量分析gydF4y2Ba,卷77,不。2、239 - 269年,2001页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
  12. g·李和z陈”,健壮的色散矩阵和主成分投影寻踪方法:基本理论和蒙特卡罗”gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,80年,第766 - 759页,1985年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  13. y y谢,j . Wang Liang l .太阳x的歌,和r . Yu,“稳健主成分分析的投影追求,”gydF4y2Ba化学计量学杂志》gydF4y2Ba7卷,第541 - 527页,1993年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  14. r . Maronna”、主成分和正交回归基于健壮的尺度,“gydF4y2Ba技术计量学gydF4y2Ba卷,47号3、264 - 273年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
  15. c . Croux和a . Ruiz-Gazen“高击穿对主成分估计:投影寻踪方法重新审视,“gydF4y2Ba杂志的多变量分析gydF4y2Ba,卷95,不。1,第226 - 206页,2005。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
  16. n .夸克“主成分分析基于L1-norm最大化,”gydF4y2BaIEEE模式分析与机器智能gydF4y2Ba,30卷,不。9日,第1680 - 1672页,2008年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  17. 美国b·诺顿gydF4y2Ba使用生物监测数据来区分类型的压力的玉米带东部平原Ecoregion流gydF4y2Ba博士论文,费尔法克斯的乔治梅森大学,弗吉尼亚州,美国,1999年。gydF4y2Ba
  18. 即Lipkovich、e·p·史密斯和k,“评估环境压力对底栖大型无脊椎动物群落的影响通过贝叶斯模型平均”gydF4y2Ba在贝叶斯统计案例研究gydF4y2Ba,第283 - 267页,2002年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  19. r .高贵、e·p·史密斯和k .你们”模型选择的典型相关分析(CCA)使用贝叶斯模型平均”gydF4y2BaEnvironmetricsgydF4y2Ba,15卷,不。4、291 - 311年,2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  20. e·l·布恩,你们k和e·p·史密斯,”评估生态之间的关系和生境条件使用分层模型,”gydF4y2Ba《农业、生物和环境统计数据gydF4y2Ba,10卷,不。2、131 - 147年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  21. 俄亥俄州环境保护局gydF4y2Ba定性生境评价指标(QHEI):原理、方法和应用gydF4y2Ba,1989年的俄亥俄州环境保护局。gydF4y2Ba
  22. 俄亥俄州环境保护局gydF4y2Ba生物保护水生生物的标准:第二卷:用户手册俄亥俄州地表水生物评估gydF4y2Ba1988年,来自俄亥俄州的国家环境保护署,WQMA-SWS-6。gydF4y2Ba
  23. 巴奇尼A, p·贝斯和A . de Faguerolles“L1-norm PCA和启发式的方法,”gydF4y2Ba《国际会议顺序和符号数据分析gydF4y2Ba,第368 - 359页,1987年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  24. Agarwal, m . k . Chandraker f·卡尔,d . Kriegman和s . Belongie“实用的全局优化多视图几何。”gydF4y2Ba在计算机科学的课堂讲稿gydF4y2Ba卷,3951年,第605 - 592页,2006年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  25. 在美国Zwanzig。gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 范数估计非线性回归和非线性errors-in-variables模型”gydF4y2BaIMS Notes-Monograph系列讲座gydF4y2Ba,35卷,第118 - 101页,1997年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  26. p . j . Rousseeuw和a . Struyf”计算位置深度和回归深度在更高的维度,“gydF4y2Ba统计和计算gydF4y2Ba,8卷,不。3、193 - 203年,1998页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  27. h·d·Sherali和c·h·Tuncbilek多项式规划问题的全局优化算法使用Reformulation-Linearization技术,”gydF4y2Ba杂志的全局优化gydF4y2Ba,卷2,不。1,第112 - 101页,1992。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
  28. i t . JolliffegydF4y2Ba主成分分析gydF4y2Ba施普林格,纽约,纽约,美国,第二版,2002年版。gydF4y2Ba
  29. r . a . Maronna和r·h·Zamar“稳健的估计位置和色散对高维数据集,“gydF4y2Ba技术计量学gydF4y2Ba,44卷,不。4、307 - 317年,2002页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  30. R开发核心团队,gydF4y2Ba接待员:统计计算的语言和环境gydF4y2Ba,R统计计算的基础,维也纳,奥地利,2009年。gydF4y2Ba
  31. p . Filzmozer、h·弗里茨和k . KalchergydF4y2BapcaPP:健壮的PCA在投影的追求gydF4y2Ba,2009年。gydF4y2Ba
  32. j·林赛,gydF4y2Barmutil:对非线性回归和重复测量的工具gydF4y2Ba,2009年。gydF4y2Ba

版权©2011保罗·布鲁克斯和爱德华·l·布恩。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba

相关文章gydF4y2Ba

对本文没有相关内容可用。gydF4y2Ba
PDFgydF4y2Ba 下载引用gydF4y2Ba 引用gydF4y2Ba
下载其他格式gydF4y2Ba更多的gydF4y2Ba
订单打印副本gydF4y2Ba订单gydF4y2Ba
的观点gydF4y2Ba1389年gydF4y2Ba
下载gydF4y2Ba825年gydF4y2Ba
引用gydF4y2Ba

相关文章gydF4y2Ba

对本文没有相关内容可用。gydF4y2Ba

文章奖:2021年杰出的研究贡献,选择由我们的首席编辑。gydF4y2Ba获奖的文章阅读gydF4y2Ba。gydF4y2Ba