通过Reformulation-Linearization Outlier-Resistant正交回归技术gydF4y2Ba - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

文摘gydF4y2Ba

评估之间的线性关系的一组连续预测和连续反应是统计和数据挖掘的一个研究问题。gydF4y2Ba如普通最小二乘法和正交回归的方法可以用来确定这种关系。然而,这两种方法成为有影响力的值时存在受损。这个问题变得更加复杂,当异常值混淆标准诊断。这项工作提出了一个gydF4y2Ba规范正交回归方法(gydF4y2Ba或)制定作为一个非凸优化问题。提出了解决策略寻找全局最优的解决方案。仿真研究进行了评估的阻力异常值的方法和方法的一致性。该方法也适用于现实世界的数据源自于一个环境科学应用程序。gydF4y2Ba

1。介绍和背景gydF4y2Ba

数据分析师经常提出的问题确定几个变量和响应变量之间的关系。标准技术时,所有的变量定义在连续域是普通最小二乘回归(OLS)。当gydF4y2Ba离群值gydF4y2Ba,或不寻常的观察,存在于数据,传统的回归技术成为受损。方法如M-regression(先生)使用M估计减少离群值的影响。这些方法不是为开发而设计的gydF4y2Baerrors-in-variablesgydF4y2Ba模型预测和响应的测量误差或被认为是随机组件。这种情况的一个例子是研究pH值和碱度之间的关系在淡水栖息地,同时测量误差。gydF4y2Ba

正交回归(gydF4y2Ba或)时使用的不确定性是目前在这两个独立和相关的变量。这种假设与OLS,预测是假定为已知没有测量误差。此外,正交回归方法的正交距离超平面安装而在OLS残差测量的垂直距离观测到表面。gydF4y2Ba

1.1。以前的工作在健壮的正交回归gydF4y2Ba

的敏感性gydF4y2Ba或离群值已经指出,和其他调查人员正致力于开发健壮的方法(gydF4y2Ba1gydF4y2Ba- - - - - -gydF4y2Ba3gydF4y2Ba]。Zamar[工作gydF4y2Ba3gydF4y2Ba包括使用gydF4y2Ba和gydF4y2Ba为正交回归估计。Spath和沃森gydF4y2Ba4gydF4y2Ba]介绍合并的方法gydF4y2Ba规范正交测量距离的回归。gydF4y2Ba

或者可以制定为相当于找到最后一个主成分,或最小的方向变化,主成分分析(PCA)。因此,任何健壮的PCA方法可用于健壮的正交回归。两个主要方法鲁棒主成分分析(1)找到稳健估计的协方差矩阵(在传统的主成分分析,主成分是协方差矩阵的特征向量)和(2)使用一个健壮的离差的量度。研究区域包括前(gydF4y2Ba5gydF4y2Ba- - - - - -gydF4y2Ba11gydF4y2Ba]。分散的PCA的可靠估计研究[gydF4y2Ba12gydF4y2Ba- - - - - -gydF4y2Ba16gydF4y2Ba];这些作品是基于gydF4y2Ba投影的追求gydF4y2Ba的方法。gydF4y2Ba

我们的方法密切相关,由Spath和沃森(gydF4y2Ba4gydF4y2Ba和夸克gydF4y2Ba16gydF4y2Ba我们结合的方式)gydF4y2Ba规范成一个正交回归过程。Spath和沃森gydF4y2Ba4gydF4y2Ba)测量误差的观测gydF4y2Ba距离它的正交投影超平面。夸克(gydF4y2Ba16gydF4y2Ba)连续发现方向最大化的最大变化gydF4y2Ba距离gydF4y2Ba投影点在一条直线。与这些方法相比,我们的方法是直接通过最大化找到最小的方向变化gydF4y2Ba点和他们之间的距离gydF4y2Ba投影向量(见图gydF4y2Ba1gydF4y2Ba)。同时,提出的方法(gydF4y2Ba4gydF4y2Ba,gydF4y2Ba16gydF4y2Ba)保证各自只有局部最小值优化问题,当我们提出一个方法推导全局最优的解决方案。gydF4y2Ba

图1gydF4y2Ba

二维图结合了不同的方法gydF4y2Ba规范正交回归。在传统的正交回归,距离点的总和gydF4y2Ba来gydF4y2Ba是最大化,点距离的总和gydF4y2Ba来gydF4y2Ba是最小化,大小之和的gydF4y2Ba是最大化。作为文本指出,这些措施可以将修改的距离gydF4y2Ba规范获得不同的结果。本文的方法是最大化的总和gydF4y2Ba点的距离gydF4y2Ba来gydF4y2Ba这是说明了gydF4y2Ba。gydF4y2Ba

这三种方法可以被视为近似最大似然估计值(标定)线性errors-in-variables模型与独立的错误与拉普拉斯分布(见[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba])。这样一个模型对应于一个超平面的标定,最小化的总和gydF4y2Ba预测。Zwanzig [gydF4y2Ba25gydF4y2Ba考虑一个gydF4y2Ba估计量的非线性推广error-in-variables模型和误差分布,表明在一定假设的估计量是一致的。当应用于的设置gydF4y2Ba正交线性回归,估计类似的方法Spath和沃森gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

1.2。传统的正交回归gydF4y2Ba

假设我们给出观测连续预测和响应gydF4y2Ba,gydF4y2Ba。gydF4y2Ba或试图找到一个正交投影的数据到一个超平面,这样的正交距离点的总和gydF4y2Ba超平面的最小化。我们假设在这个工作中位数是减去从样品和安装超平面经过原点。我们注意到,对于大的值gydF4y2Ba坐标态值可能不是一个好估计,一个数据中心的云(见[gydF4y2Ba26gydF4y2Ba])。gydF4y2Ba

在gydF4y2Ba或者,的正交距离的平方的总和gydF4y2Ba定义的超平面gydF4y2Ba是最小化。向量gydF4y2Ba是正常的最佳超平面,是数据的最小的方向变化。因为gydF4y2Ba是最小的方向变化,距离平方的总和的观察他们的预测吗gydF4y2Ba是最大化。因此,我们可以找到gydF4y2Ba通过求解优化问题如下:gydF4y2Ba 受gydF4y2Ba

变量的向量gydF4y2Ba。这个词gydF4y2Ba代表的正交投影观察gydF4y2Ba沿着gydF4y2Ba的原始坐标数据。gydF4y2Ba

在本文中,我们提出一个新的outlier-resistant正交回归方法调用gydF4y2Ba或。最小的方向变化数据发现通过最大化gydF4y2Ba观察他们的投影点距离向量。安装的超平面正交于最小的方向变化。问题是制定非凸优化问题。我们描述如何得到全局最优的解决方案基于reformulation-linearization技术(RLT)由Sherali和Tuncbilek [gydF4y2Ba27gydF4y2Ba]。我们提出申请的结果gydF4y2Ba或污染的模拟数据异常值和比较健壮的方法进行正交回归的结果。的一致性gydF4y2Ba或者是使用模拟数据评估。gydF4y2Ba或应用于数据收集海洋栖息地评估不确定性驻留在依赖和独立变量。gydF4y2Ba

2。寻找最优超平面gydF4y2Ba

假设,而不是最大化的平方之和观测的垂直距离投影最小的方向变化,我们最大化的总和gydF4y2Ba距离。使用gydF4y2Ba指标降低离群值观测的影响。gydF4y2Ba

在图gydF4y2Ba1gydF4y2Ba,我们说明了不同方法的结合gydF4y2Ba规范转化为一个二维正交回归过程的例子。定义安装超平面的法向量gydF4y2Ba代表一个近似的最小的方向变化的数据。向量gydF4y2Ba跨越空间定义的超平面。我们的方法是最大化的总和gydF4y2Ba距离的点到他们的预测gydF4y2Ba。的gydF4y2Ba的距离gydF4y2Ba对其gydF4y2Ba上的投影gydF4y2Ba是由gydF4y2Ba在图中。Spath和华生提出的过程(gydF4y2Ba4gydF4y2Ba最小化的总和gydF4y2Ba点的距离gydF4y2Ba预测在一个超平面。的距离gydF4y2Ba其在安装子空间投影显示gydF4y2Ba。过程引入了夸克(gydF4y2Ba16gydF4y2Ba最大化的总和gydF4y2Ba震级的预测点到超平面。在图gydF4y2Ba1gydF4y2Ba,这个大小是由gydF4y2Ba。当这三个距离测量使用gydF4y2Ba规范,同样的回归平面是最佳gydF4y2Ba28gydF4y2Ba];然而,由于在每种情况下的距离测量使用gydF4y2Ba规范,最终回归飞机并不总是一致。的gydF4y2Ba的投影gydF4y2Ba超平面是由安装gydF4y2Ba;一个标定方法的总和最小化gydF4y2Ba点的距离gydF4y2Ba预测。gydF4y2Ba

最大化的总和gydF4y2Ba距离的点线经过原点是写成gydF4y2Ba

目标函数是非线性和非凸。与[gydF4y2Ba或),定义的最优超平面gydF4y2Ba。让gydF4y2Ba是gydF4y2Ba剩余的组件gydF4y2Ba的观察gydF4y2Ba。同时,让gydF4y2Ba,在那里gydF4y2Ba是一个向量1的,所以这些吗gydF4y2Ba变量都是非负的。这种替换是必要的对于我们的解决方案方法如下解释。数学课程可以作为制定gydF4y2Ba

受gydF4y2Ba

的数量gydF4y2Ba,gydF4y2Ba,gydF4y2Ba与每个坐标向量的值为0,1和2分别。目标函数现在是线性的,和前三集定义约束的非凸函数。gydF4y2Ba

获得全局最优解(gydF4y2Ba或),我们将使用和整数规划与和reformulation-linearization技术(RLT)中描述gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba子问题gydF4y2Ba将引用一个线性混合整数规划(MIP)对应于RLT和树中的一个节点。每个子问题可以转化为一个线性MIP表达条件限制gydF4y2Ba 为一个足够大的常数gydF4y2Ba。gydF4y2Ba

以下是总结RLT应用于(gydF4y2Ba或]。gydF4y2Ba(我)gydF4y2Ba子问题优化。gydF4y2Ba选择子问题来解决。每个子问题是一个线性MIP放松非凸约束。如果所有子问题都解决了,现任的解决方案是最优的。gydF4y2Ba(2)gydF4y2Ba检查新绑定。gydF4y2Ba如果解决方案满足原始的非凸约束,目前的解决方案是可行的。更新现有的解决方案,如果适当的客观价值。gydF4y2Ba(3)gydF4y2Ba理解。gydF4y2Ba理解如果(1)解决方案满足原来的约束,(2)子问题是不可行的,或(3)子问题的客观价值小于现任客观价值。gydF4y2Ba(iv)gydF4y2Ba分支。gydF4y2Ba为分支选择变量,创建两个子问题。gydF4y2Ba

RLT的流程图,详细的步骤和过程包括在图中gydF4y2Ba2gydF4y2Ba。gydF4y2Ba

我们现在描述RLT根子问题的建设。每次出现gydF4y2Ba的限制,替换一个新的变量gydF4y2Ba配方。同时,添加约束的形式gydF4y2Ba 但是替换出现的gydF4y2Ba与gydF4y2Ba。的存在约束0是反映的下界gydF4y2Ba变量;这些下界将改变在优化算法如下所述。结果是一个线性MIP,是一个放松的gydF4y2Ba或][gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba

我们现在描述分支过程。最优解的放松是可行的(gydF4y2Ba或如果gydF4y2Ba对所有gydF4y2Ba。如果不满足此条件,然后选择一个变量gydF4y2Ba与gydF4y2Ba对于一些gydF4y2Ba与当前值gydF4y2Ba并创建两个子问题。的一个新子问题约束的形式gydF4y2Ba

替换出现的所有gydF4y2Ba与gydF4y2Ba创建线性约束。另一个新子问题线性化形式的约束gydF4y2Ba

和树中的节点遍历,的界限gydF4y2Ba变量是连续收紧。Sherali和TuncbilekgydF4y2Ba27gydF4y2Ba]证明要么寻找最优解的有限步终止与全局最优的解决方案,否则任何聚点的解决方案在一个无限的分支和树是一种全局最优的解决方案。gydF4y2Ba

3所示。模拟研究gydF4y2Ba

在本节中,的能力gydF4y2Ba或拒绝两种类型的异常值的影响评估使用模拟研究。比较的方法gydF4y2Ba或者和几个健壮的程序。的一致性gydF4y2Ba或者也是评估使用模拟研究。gydF4y2Ba

(gydF4y2Ba使用12.1最大化策略或MIP子问题得到解决。如果没有达到可证明的最优的MIP子问题2分钟后,使用的是最著名的整数可行解。我们实现了我们的算法和应用RLT在C程序中,时间限制为7200 CPU秒为每个实例。机器上的问题得到解决gydF4y2BaGHz Opteron处理器和2 GB RAM。gydF4y2Ba

或者是健壮的方法相比,基于投影寻踪(gydF4y2Ba12gydF4y2Ba),一个gydF4y2Bascale-based使正交化Gnanadesikan-Kettenring估计(gydF4y2Ba29日gydF4y2Ba)(以下gydF4y2Ba-OGK)和基于PCA方法gydF4y2Ba(gydF4y2Ba16gydF4y2Ba]。应用投影寻踪方法用描述的主成分分析方法(gydF4y2Ba15gydF4y2Ba]。正交回归的方法是修改了最后一个健壮的主成分正交回归的系数超平面。我们通过ppOR-mad表示这种方法或ppOR-qn后缀表明规模函数使用。用其他方法gydF4y2Ba-OGK和PCA -gydF4y2Ba。PCA -gydF4y2Ba,初始向量集gydF4y2Ba(见[gydF4y2Ba16gydF4y2Ba])。gydF4y2Ba

或者和ppOR模型中使用gydF4y2Baprcomp ()gydF4y2Ba和gydF4y2BaPCAgrid ()gydF4y2Ba函数,分别称为R环境统计计算(gydF4y2Ba30.gydF4y2Ba]。这个函数gydF4y2BaPCAgrid ()gydF4y2Ba是在gydF4y2BapcaPPgydF4y2Ba(gydF4y2Ba31日gydF4y2Ba)图书馆。R的代码gydF4y2Ba-OGK估计量是由一个匿名裁判。我们实现了PCA -gydF4y2Ba方法(gydF4y2Ba16gydF4y2Ba在一个C程序)。gydF4y2Ba

3.1。垂直的离群值gydF4y2Ba

一个模拟研究进行了评估的能力gydF4y2Ba在二元数据或检测线性关系的存在gydF4y2Ba垂直的离群值gydF4y2Ba。垂直异常值有显著的变化只在他们的反应变量值。仿真的设计是利用不同污染观测的数量(gydF4y2Ba)和污染程度(gydF4y2Ba)。每个方法运行30日与100年数据集在每个治疗条件下的观察。在这项研究中,gydF4y2Ba以下列方式多种多样:没有污染,gydF4y2Ba、中度污染,gydF4y2Ba和高污染,gydF4y2Ba。污染的严重性gydF4y2Ba是多种多样的gydF4y2Ba:低污染,gydF4y2Ba:中等大小,gydF4y2Ba:大大小。gydF4y2Ba

以以下方式采样的数据。gydF4y2Ba(我)gydF4y2Ba生成未被污染的数据:gydF4y2Ba和gydF4y2Ba,在那里gydF4y2Ba,因为gydF4y2Ba。gydF4y2Ba(2)gydF4y2Ba产生污染的数据:gydF4y2Ba和gydF4y2Ba,因为gydF4y2Ba。gydF4y2Ba

生成数据集与拟合模型使用一个例子gydF4y2Ba和gydF4y2Ba图中给出了gydF4y2Ba3(一个)gydF4y2Ba。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

(c)gydF4y2Ba

图3gydF4y2Ba

例子中使用的数据集的仿真实验和拟合模型:(a)与垂直离群值生成一个数据集使用的参数gydF4y2Ba和,(b)gydF4y2Ba一个数据集与集群利用离群值gydF4y2Ba生成和使用,(c)gydF4y2Ba一个数据集错误在两个变量抽样从拉普拉斯分布gydF4y2Ba。gydF4y2Ba

评估每个方法准确地符合已知的底层模型的能力,下面的模型误差,gydF4y2Ba使用:gydF4y2Ba 在哪里gydF4y2Ba是已知的模型和gydF4y2Ba是估计模型。请注意,gydF4y2Ba对应于之间的区域gydF4y2Ba和gydF4y2Ba。如果估计模型是接近真实的模型gydF4y2Ba将小。为每个模拟gydF4y2Ba计算并记录。使用这些结果平均模型误差,gydF4y2Ba和标准错误计算。gydF4y2Ba

分析仿真,均值和标准差gydF4y2Ba计算每个设置的gydF4y2Ba和gydF4y2Ba,可以发现在表gydF4y2Ba1gydF4y2Ba。为所有配置gydF4y2Ba,gydF4y2Ba或均值和标准差低于所有其他方法测试,表明在抵制异常污染等性能优越的条件。为gydF4y2Ba,gydF4y2Ba或执行比健壮的方法除了PCA -gydF4y2Ba但比outlier-sensitivegydF4y2Ba或。在极端的情况下污染gydF4y2Ba,gydF4y2Ba或者和PCA -gydF4y2Ba离群值非常敏感的大值gydF4y2Ba。这个配置是ppOR-qn表现最好的方法。gydF4y2Ba或者意味着差距只有0.34以上ppOR-qn但至少1.28小于outlier-sensitive方法。总的来说,这表明gydF4y2Ba或表现良好,没有污染物的存在更大程度的污染,但降解性能相对于一些健壮的方法当污染的大小是非常大的。gydF4y2Ba


方法gydF4y2Ba

或gydF4y2Ba	0.00997 (0.00540)gydF4y2Ba
或gydF4y2Ba	0.01818 (0.01459)gydF4y2Ba
ppOR-madgydF4y2Ba	0.13624 (0.09616)gydF4y2Ba
ppOR-qngydF4y2Ba	0.08398 (0.07724)gydF4y2Ba
-OGKgydF4y2Ba	0.01870 (0.01486)gydF4y2Ba
PCA -gydF4y2Ba	0.02081 (0.01388)gydF4y2Ba

或gydF4y2Ba	0.00934 (0.00583)gydF4y2Ba	0.08496 (0.01798)gydF4y2Ba	0.31339 (0.05527)gydF4y2Ba
或gydF4y2Ba	0.03070 (0.01578)gydF4y2Ba	0.32365 (0.10149)gydF4y2Ba	3.54666 (0.99552)gydF4y2Ba
ppOR-madgydF4y2Ba	0.13714 (0.12535)gydF4y2Ba	0.11584 (0.10239)gydF4y2Ba	0.08906 (0.07094)gydF4y2Ba
ppOR-qngydF4y2Ba	0.07475 (0.06369)gydF4y2Ba	0.14938 (0.08210)gydF4y2Ba	0.05840 (0.04831)gydF4y2Ba
-OGKgydF4y2Ba	0.03018 (0.01696)gydF4y2Ba	0.18032 (0.03857)gydF4y2Ba	0.20396 (0.03736)gydF4y2Ba
PCA -gydF4y2Ba	0.02608 (0.01667)gydF4y2Ba	0.17335 (0.04240)gydF4y2Ba	0.76836 (0.16126)gydF4y2Ba

或gydF4y2Ba	0.01190 (0.00573)gydF4y2Ba	0.16172 (0.02743)gydF4y2Ba	0.58962 (0.06106)gydF4y2Ba
或gydF4y2Ba	0.04505 (0.01420)gydF4y2Ba	0.62263 (0.12630)gydF4y2Ba	6.26558 (1.35709)gydF4y2Ba
ppOR-madgydF4y2Ba	0.12443 (0.10311)gydF4y2Ba	0.25518 (0.24805)gydF4y2Ba	0.31136 (0.28315)gydF4y2Ba
ppOR-qngydF4y2Ba	0.08947 (0.08796)gydF4y2Ba	0.59031 (0.18792)gydF4y2Ba	0.24970 (0.12092)gydF4y2Ba
-OGKgydF4y2Ba	0.03865 (0.01879)gydF4y2Ba	0.45040 (0.09105)gydF4y2Ba	0.54522 (0.08887)gydF4y2Ba
PCA -gydF4y2Ba	0.03940 (0.01382)gydF4y2Ba	0.35664 (0.06198)gydF4y2Ba	1.87768 (0.31515)gydF4y2Ba

3.2。集群利用离群值gydF4y2Ba

的能力gydF4y2Ba或在二元数据与异常值检测线性关系进一步分析与模拟使用的数据集gydF4y2Ba集群利用离群值gydF4y2Ba。集群利用离群值的数据集有非常相似的值,但远离其他数据集。仿真设计不同观测的数量(gydF4y2Ba)和污染水平(gydF4y2Ba)。对于每一个治疗条件和复制,生成一个数据集没有污染和同伴数据集生成取代第一gydF4y2Ba观察与受污染的数据。有50复制每个治疗条件。对于这个实验,gydF4y2Ba以下列方式多种多样:低污染:gydF4y2Ba中度污染:gydF4y2Ba和高污染:gydF4y2Ba。gydF4y2Ba

数据抽样如下。gydF4y2Ba(我)gydF4y2Ba生成未被污染的数据:gydF4y2Ba,因为gydF4y2Ba。gydF4y2Ba(2)gydF4y2Ba产生污染的数据:gydF4y2Ba,因为gydF4y2Ba。gydF4y2Ba

协方差矩阵(gydF4y2Ba在复制)是不同的。首先,一个gydF4y2Ba矩阵gydF4y2Ba这样每个条目生成采样是一个人吗gydF4y2Ba分布。QR分解gydF4y2Ba计算。让gydF4y2Ba,在那里gydF4y2Ba表明以对角元素为一个向量gydF4y2Ba向量与向量的对应元素的迹象。然后gydF4y2Ba从wishard采样gydF4y2Ba。的方法(gydF4y2Ba)等产生的污染数据gydF4y2Ba(1)gydF4y2Ba的Mahalanobis距离gydF4y2Ba从分布gydF4y2Ba至少是gydF4y2Ba,gydF4y2Ba(2)gydF4y2Ba ,gydF4y2Ba(3)gydF4y2Ba 。gydF4y2Ba

一个示例数据集与100年观察和拟合模型生成的使用gydF4y2Ba图中给出了gydF4y2Ba3 (b)gydF4y2Ba。gydF4y2Ba

每个基于模型的相似性评估方法适用于伴未被污染的和被污染的数据集。相似度测量gydF4y2Ba被定义为内积的绝对值gydF4y2Ba 在哪里gydF4y2Ba和gydF4y2Ba的向量系数推导出未被污染的和被污染的数据集。的值gydF4y2Ba可以用更大的值在0和1之间,表明模型是一致的,离群值不会影响估计。gydF4y2Ba

意味着在复制和比例的实例gydF4y2Ba为每个值gydF4y2Ba和gydF4y2Ba包含在表gydF4y2Ba2gydF4y2Ba。为gydF4y2Ba的性能,gydF4y2Ba或者几乎是常数gydF4y2Ba是增加了。有一个轻微的性能退化为更大的值gydF4y2Ba,这可能是由于计算复杂度的增加(见实例部分gydF4y2Ba5gydF4y2Ba)。为gydF4y2Ba,所有的方法有很高的平均值gydF4y2Ba和高百分比的实例gydF4y2Ba,包括outlier-sensitivegydF4y2Ba或。为gydF4y2Ba,gydF4y2Ba或所有的健壮的方法有更大的平均值gydF4y2Ba比gydF4y2Ba或。ppOR-qn估计量的最一致的性能不同的值gydF4y2Ba为gydF4y2Ba的平均值gydF4y2Ba0.94以上。的gydF4y2Ba或估计量平均值为0.93以上gydF4y2Ba,但性能降低gydF4y2Ba。的gydF4y2Ba-OGK估计最高或次高的平均值gydF4y2Ba为gydF4y2Ba。为gydF4y2Ba的性能,gydF4y2Ba或滞后的方法。为gydF4y2Ba,性能是相似的gydF4y2Ba或。为gydF4y2Ba的平均值gydF4y2Ba不到的吗gydF4y2Ba或。为gydF4y2Ba首选的估计似乎ppOR-mad,它的最高或次高值gydF4y2Ba为每一个gydF4y2Ba。gydF4y2Ba


方法gydF4y2Ba

或gydF4y2Ba	0.996/1.000gydF4y2Ba	0.993/1.000gydF4y2Ba	0.680/0.520gydF4y2Ba
或gydF4y2Ba	0.981/0.980gydF4y2Ba	0.963/0.920gydF4y2Ba	0.648/0.240gydF4y2Ba
ppOR-madgydF4y2Ba	0.967/0.900gydF4y2Ba	0.933/0.740gydF4y2Ba	0.859/0.500gydF4y2Ba
ppOR-qngydF4y2Ba	0.963/0.880gydF4y2Ba	0.944/0.800gydF4y2Ba	0.869/0.460gydF4y2Ba
-OGKgydF4y2Ba	0.994/1.000gydF4y2Ba	0.985/0.980gydF4y2Ba	0.842/0.660gydF4y2Ba
PCA -gydF4y2Ba	0.962/0.940gydF4y2Ba	0.969/0.960gydF4y2Ba	0.794/0.380gydF4y2Ba

或gydF4y2Ba	0.998/1.000gydF4y2Ba	0.932/0.920gydF4y2Ba	0.602/0.360gydF4y2Ba
或gydF4y2Ba	0.988/1.000gydF4y2Ba	0.912/0.860gydF4y2Ba	0.609/0.260gydF4y2Ba
ppOR-madgydF4y2Ba	0.974/0.900gydF4y2Ba	0.943/0.860gydF4y2Ba	0.903/0.660gydF4y2Ba
ppOR-qngydF4y2Ba	0.989/1.000gydF4y2Ba	0.962/0.900gydF4y2Ba	0.858/0.400gydF4y2Ba
-OGKgydF4y2Ba	0.997/1.000gydF4y2Ba	0.974/0.980gydF4y2Ba	0.818/0.640gydF4y2Ba
PCA -gydF4y2Ba	0.986/0.960gydF4y2Ba	0.932/0.880gydF4y2Ba	0.779/0.380gydF4y2Ba

或gydF4y2Ba	0.973/0.960gydF4y2Ba	0.931/0.900gydF4y2Ba	0.519/0.180gydF4y2Ba
或gydF4y2Ba	0.981/0.960gydF4y2Ba	0.884/0.700gydF4y2Ba	0.623/0.200gydF4y2Ba
ppOR-madgydF4y2Ba	0.979/0.960gydF4y2Ba	0.956/0.900gydF4y2Ba	0.923/0.700gydF4y2Ba
ppOR-qngydF4y2Ba	0.989/1.000gydF4y2Ba	0.958/0.900gydF4y2Ba	0.878/0.480gydF4y2Ba
-OGKgydF4y2Ba	0.998/1.000gydF4y2Ba	0.977/0.940gydF4y2Ba	0.828/0.540gydF4y2Ba
PCA -gydF4y2Ba	0.979/0.960gydF4y2Ba	0.940/0.880gydF4y2Ba	0.810/0.340gydF4y2Ba

或gydF4y2Ba	0.932/0.800gydF4y2Ba	0.857/0.760gydF4y2Ba	0.509/0.140gydF4y2Ba
或gydF4y2Ba	0.917/0.820gydF4y2Ba	0.805/0.580gydF4y2Ba	0.608/0.160gydF4y2Ba
ppOR-madgydF4y2Ba	0.975/0.960gydF4y2Ba	0.970/0.920gydF4y2Ba	0.942/0.780gydF4y2Ba
ppOR-qngydF4y2Ba	0.978/0.980gydF4y2Ba	0.959/0.860gydF4y2Ba	0.893/0.560gydF4y2Ba
-OGKgydF4y2Ba	0.997/1.000gydF4y2Ba	0.954/0.920gydF4y2Ba	0.834/0.600gydF4y2Ba
PCA -gydF4y2Ba	0.926/0.860gydF4y2Ba	0.922/0.820gydF4y2Ba	0.785/0.340gydF4y2Ba

3.3。一致性gydF4y2Ba

的一致性gydF4y2Ba或通过执行测试评估实例与不同的样本大小。二元数据gydF4y2Ba,gydF4y2Ba产生这样gydF4y2Ba,在那里gydF4y2Ba和gydF4y2Ba,gydF4y2Ba,在那里gydF4y2Ba。测试样本大小gydF4y2Ba;100年数据生成数据集的每个值gydF4y2Ba。的gydF4y2Barlaplace ()gydF4y2BaR的函数包gydF4y2BarmutilgydF4y2Ba(gydF4y2Ba32gydF4y2Ba)用于样本拉普拉斯分布。一个示例数据集与200年观察和安装gydF4y2Ba或在图模型gydF4y2Ba3 (c)gydF4y2Ba。gydF4y2Ba

图gydF4y2Ba4gydF4y2Ba描述了标准误差斜率的绝对值作为样本大小的函数。随着样本容量的增加,标准误差迅速趋于0,表明程序是一致的。对大样本大小,gydF4y2Ba或者应该提供良好的估计。gydF4y2Ba

4所示。一个环境的例子gydF4y2Ba

水的pH值和碱度鱼生活的已知影响他们的整体健康。碱度的测量解决中和酸的能力。研究人员预计pH值和碱度是高度相关的。然而,两个变量的关系是很难估计在许多数据集由于低pH值的变化在溪流和由于异常值的存在。这个例子是一个子集的数据集值收集在俄亥俄州的状态导致312年的观察。不同子集的这个数据集已经被诺顿认为之前(gydF4y2Ba17gydF4y2Ba),Lipkovich et al。gydF4y2Ba18gydF4y2Ba),高贵的et al。gydF4y2Ba19gydF4y2Ba,布恩et al。gydF4y2Ba20.gydF4y2Ba)不同程度的成功,估计pH值和碱度之间的关系。对于本工作pH值和碱度都是标准化的。注意,在这些数据pH值和碱度的测量误差,因此应该使用正交回归方法。相同的计算设置仿真研究中用于分析。gydF4y2Ba

图gydF4y2Ba5gydF4y2Ba显示了pH值的散点图和碱度。似乎有一个线性关系碱度和博士也注意到垂直和利用数据中出现的异常值。皮尔逊相关系数的pH值和碱度之间的关系gydF4y2Ba这是偏见由于数据中的异常值。此外,自相关性是有偏见的,提取pH-alkalinity组件和使用,作为一个预测不会谨慎。因此,需要回归方法对离群值/影响力的点。除了ppOR-mad, outlier-insensitive方法展示抵抗异常值的测量pH outlier-sensitive相比gydF4y2Ba或。基于主成分分析的方法gydF4y2Ba产生一个模型,似乎至少受到异常值的影响,其次是gydF4y2Ba-OGK估计量,然后gydF4y2Ba或。gydF4y2Ba

表gydF4y2Ba3gydF4y2Ba为每个方法显示了回归模型的总结。这里的标准错误引导标准错误基于100引导样品。整个方法引导标准误差相差很大,gydF4y2Ba或者最稳定的估计,就是明证较小的标准错误,紧随其后gydF4y2Ba-OGK和PCA -gydF4y2Ba。除了ppOR-mad,gydF4y2Ba值表明,pH值和碱度之间的关系是显著的。请注意,gydF4y2Ba统计上显著的使用价值的关系gydF4y2Ba或者,gydF4y2Ba-OGK, PCA -gydF4y2Ba与一个gydF4y2Ba不到.00001的价值。的gydF4y2Ba或者,gydF4y2Ba-OGK, PCA -gydF4y2Ba估计似乎是最好的选择对于这个数据,与PCA -gydF4y2Ba生产最好的估计和gydF4y2Ba或提供最稳定的估计。gydF4y2Ba


方法gydF4y2Ba	估计gydF4y2Ba	标准错误gydF4y2Ba	价值gydF4y2Ba	价值gydF4y2Ba

或gydF4y2Ba	−0.87760gydF4y2Ba	0.05993gydF4y2Ba	−14.64350gydF4y2Ba	.00000gydF4y2Ba
或gydF4y2Ba	−0.97168gydF4y2Ba	0.42857gydF4y2Ba	−2.26728gydF4y2Ba	.02555gydF4y2Ba
ppOR-madgydF4y2Ba	−1.28919gydF4y2Ba	0.74707gydF4y2Ba	−1.72567gydF4y2Ba	.08753gydF4y2Ba
ppOR-qngydF4y2Ba	−0.93906gydF4y2Ba	0.20355gydF4y2Ba	−4.61344gydF4y2Ba	.00001gydF4y2Ba
-OGKgydF4y2Ba	−0.83845gydF4y2Ba	0.10632gydF4y2Ba	−7.88578gydF4y2Ba	.00000gydF4y2Ba
PCA -gydF4y2Ba	−0.74421gydF4y2Ba	0.11951gydF4y2Ba	−6.22713gydF4y2Ba	.00000gydF4y2Ba

扩大这个问题是考虑如何碱度,pH值和栖息地生境指标定性评价指标(QHEI)影响的生物完整性指数(IBI)。QHEI措施驻留的鱼类栖息地的质量(gydF4y2Ba21gydF4y2Ba]。QHEI决定从以下六个措施:流衬底,在流覆盖,渠道形态、河岸和银行状况,池和分割质量和梯度。更高的值对应于更好的栖息地的质量,较低的值对应于栖息地质量差。IBI措施鱼的健康社区。IBI的降低值对应只有宽容物种存在,较低的社区组织,高比例的鱼身体异常。鱼高值对应于高度有组织的社区,许多不宽容的物种,和高多样性物种间(gydF4y2Ba22gydF4y2Ba]。数据由312年观测来自同一个网站。gydF4y2Ba

正交回归模型是适合数据与响应和QHEI IBI、pH值和碱度的预测指标。提出的方法Croux和Haesbroeck [gydF4y2Ba10gydF4y2Ba(以下CH)代替gydF4y2Ba-OGK因为增加数量的变量。CH方法是主成分分析的一个健壮的基础上找到一个健壮的特征值估计的协方差矩阵。gydF4y2Ba

表gydF4y2Ba4gydF4y2Ba显示了系数,引导标准错误,gydF4y2Ba价值,gydF4y2Ba值回归使用每种方法。请注意,gydF4y2Ba或估计系数的pH值和碱度是最稳定的,低的标准错误。QHEI系数估计的标准误差最小的为每个方法。QHEI系数的估计CH最低标准估计误差和最大的积极似乎同意最好的生物的期望。更好的栖息地鱼生活在,更好的鱼的健康社区。除了所有方法gydF4y2Ba或者和PCA -gydF4y2Ba,系数表明IBI和pH值之间的正相关和负相关IBI和碱度之间的关系。虽然没有一个变量在任何回归的统计学意义,这个数据集提供了一个示例的回归系数与异常值正交回归可能会怀疑。gydF4y2Ba


方法gydF4y2Ba	变量gydF4y2Ba	估计gydF4y2Ba	标准错误gydF4y2Ba	TgydF4y2Ba价值gydF4y2Ba	价值gydF4y2Ba

或gydF4y2Ba	QHEIgydF4y2Ba	−0.67248gydF4y2Ba	5.58039gydF4y2Ba	−0.12051gydF4y2Ba	.90433gydF4y2Ba
	pH值gydF4y2Ba	0.70695gydF4y2Ba	9.31363gydF4y2Ba	0.07591gydF4y2Ba	.93965gydF4y2Ba
	碱性gydF4y2Ba	−1.26714gydF4y2Ba	5.60148gydF4y2Ba	−0.22622gydF4y2Ba	.82150gydF4y2Ba

或gydF4y2Ba	QHEIgydF4y2Ba	0.17841gydF4y2Ba	5.79662gydF4y2Ba	0.03078gydF4y2Ba	.97551gydF4y2Ba
	pH值gydF4y2Ba	−11.25396gydF4y2Ba	86.54848gydF4y2Ba	−0.13003gydF4y2Ba	.89681gydF4y2Ba
	碱性gydF4y2Ba	3.97315gydF4y2Ba	64.00076gydF4y2Ba	0.06208gydF4y2Ba	.95062gydF4y2Ba

ppOR-madgydF4y2Ba	QHEIgydF4y2Ba	0.07038gydF4y2Ba	5.57955gydF4y2Ba	0.01261gydF4y2Ba	.98996gydF4y2Ba
	pH值gydF4y2Ba	4.31182gydF4y2Ba	68.31064gydF4y2Ba	0.06312gydF4y2Ba	.94980gydF4y2Ba
	碱性gydF4y2Ba	−4.36975gydF4y2Ba	41.89404gydF4y2Ba	−0.10430gydF4y2Ba	.91714gydF4y2Ba

ppOR-qngydF4y2Ba	QHEIgydF4y2Ba	−1.88655gydF4y2Ba	4.41714gydF4y2Ba	−0.42710gydF4y2Ba	.67024gydF4y2Ba
	pH值gydF4y2Ba	21.51640gydF4y2Ba	83.28626gydF4y2Ba	0.25834gydF4y2Ba	.79668gydF4y2Ba
	碱性gydF4y2Ba	−13.92729gydF4y2Ba	60.63738gydF4y2Ba	−0.22968gydF4y2Ba	.81881gydF4y2Ba

CHgydF4y2Ba	QHEIgydF4y2Ba	0.33704gydF4y2Ba	3.75244gydF4y2Ba	0.08982gydF4y2Ba	.92861gydF4y2Ba
	pH值gydF4y2Ba	21.25614gydF4y2Ba	53.26711gydF4y2Ba	0.39905gydF4y2Ba	.69072gydF4y2Ba
	碱性gydF4y2Ba	−21.16159gydF4y2Ba	67.57228gydF4y2Ba	−0.31317gydF4y2Ba	.75481gydF4y2Ba

PCA -gydF4y2Ba	QHEIgydF4y2Ba	−0.97810gydF4y2Ba	9.09927gydF4y2Ba	−0.10749gydF4y2Ba	.91462gydF4y2Ba
	pH值gydF4y2Ba	−3.61571gydF4y2Ba	107.89751gydF4y2Ba	−0.03351gydF4y2Ba	.97333gydF4y2Ba
	碱性gydF4y2Ba	3.33549gydF4y2Ba	79.46839gydF4y2Ba	0.04197gydF4y2Ba	.96661gydF4y2Ba

基于100年的标准错误引导标准错误引导样品。gydF4y2Ba

5。计算时间gydF4y2Ba

提出了解决方法gydF4y2Ba或者是更多的计算量比其他方法比较。这里使用的替代方法解决所有的实例在不到几秒钟。在本节中,我们评估的计算性能的实现gydF4y2Ba或。gydF4y2Ba

表gydF4y2Ba5gydF4y2Ba- - - - - -gydF4y2Ba8gydF4y2Ba包含数据的计算性能gydF4y2Ba或在每一个实验。在每个表中,第一列(s)显示的配置数据:对于表gydF4y2Ba5gydF4y2Ba污染水平gydF4y2Ba和污染程度gydF4y2Ba;对于表gydF4y2Ba6gydF4y2Ba样本的大小gydF4y2Ba、污染水平gydF4y2Ba数据是否有异常值;对于表gydF4y2Ba7gydF4y2Ba样本的大小gydF4y2Ba;对于表gydF4y2Ba8gydF4y2Ba变量的数量gydF4y2Ba。第二列gydF4y2Ba%的最优gydF4y2Ba表明实例求解最优的比例,这意味着所有MIP子问题解决最优和RLT树分支界限法得到充分的探讨。第三列gydF4y2BaAvg。MIPs解决gydF4y2Ba包含MIPs的平均数量为每个配置解决了。第四列gydF4y2BaAvg。MIPs次优gydF4y2Ba包含MIPs的平均数量,120 CPU秒内没有解决最优时间限制。第五列gydF4y2BaTime-to-Term Avg。(年代)gydF4y2Ba包含较小的平均CPU秒前RLT分支界限法树是探索和7200秒。最后一列gydF4y2BaAvg。时间最好的溶液(s)。gydF4y2Ba包含的平均时间找到最好的可行的解决方案。gydF4y2Ba


			Avg MIPs。gydF4y2Ba	Avg MIPs。gydF4y2Ba	平均每次gydF4y2Ba	平均每次gydF4y2Ba
		%的最优gydF4y2Ba	解决了gydF4y2Ba	次优的gydF4y2Ba	术语。(年代)gydF4y2Ba	到最好的溶液。gydF4y2Ba

0gydF4y2Ba	0gydF4y2Ba	7.0gydF4y2Ba	193.2gydF4y2Ba	1。2gydF4y2Ba	289.4gydF4y2Ba	235.2gydF4y2Ba
10gydF4y2Ba	1gydF4y2Ba	6.0gydF4y2Ba	217.9gydF4y2Ba	1。0gydF4y2Ba	282.2gydF4y2Ba	242.7gydF4y2Ba
10gydF4y2Ba	10gydF4y2Ba	6.0gydF4y2Ba	187.0gydF4y2Ba	0.9gydF4y2Ba	279.1gydF4y2Ba	255.5gydF4y2Ba
10gydF4y2Ba	50gydF4y2Ba	14.0gydF4y2Ba	117.9gydF4y2Ba	0.5gydF4y2Ba	199.0gydF4y2Ba	186.4gydF4y2Ba
25gydF4y2Ba	1gydF4y2Ba	9.0gydF4y2Ba	236.4gydF4y2Ba	0.9gydF4y2Ba	287.1gydF4y2Ba	226.2gydF4y2Ba
25gydF4y2Ba	10gydF4y2Ba	1。0gydF4y2Ba	105.7gydF4y2Ba	1。2gydF4y2Ba	231.3gydF4y2Ba	223.0gydF4y2Ba
25gydF4y2Ba	50gydF4y2Ba	24.0gydF4y2Ba	154.1gydF4y2Ba	0.2gydF4y2Ba	163.1gydF4y2Ba	149.4gydF4y2Ba


				Avg MIPs。gydF4y2Ba	Avg MIPs。gydF4y2Ba	平均每次gydF4y2Ba	平均每次gydF4y2Ba
		污染gydF4y2Ba	%的最优gydF4y2Ba	解决了gydF4y2Ba	次优的gydF4y2Ba	术语。(年代)gydF4y2Ba	到最好的溶液。gydF4y2Ba

25gydF4y2Ba	0.05gydF4y2Ba	NgydF4y2Ba	100.00gydF4y2Ba	112.5gydF4y2Ba	0.0gydF4y2Ba	5.7gydF4y2Ba	5.1gydF4y2Ba
25gydF4y2Ba	0.05gydF4y2Ba	YgydF4y2Ba	100.00gydF4y2Ba	116.4gydF4y2Ba	0.0gydF4y2Ba	7.3gydF4y2Ba	6.5gydF4y2Ba
25gydF4y2Ba	0.1gydF4y2Ba	NgydF4y2Ba	100.00gydF4y2Ba	110.8gydF4y2Ba	0.0gydF4y2Ba	6.1gydF4y2Ba	5.3gydF4y2Ba
25gydF4y2Ba	0.1gydF4y2Ba	YgydF4y2Ba	100.00gydF4y2Ba	114.8gydF4y2Ba	0.0gydF4y2Ba	8.2gydF4y2Ba	7.6gydF4y2Ba
25gydF4y2Ba	0.25gydF4y2Ba	NgydF4y2Ba	100.00gydF4y2Ba	140.6gydF4y2Ba	0.0gydF4y2Ba	7.8gydF4y2Ba	6.7gydF4y2Ba
25gydF4y2Ba	0.25gydF4y2Ba	YgydF4y2Ba	100.00gydF4y2Ba	104.1gydF4y2Ba	0.0gydF4y2Ba	10.3gydF4y2Ba	9.9gydF4y2Ba
50gydF4y2Ba	0.05gydF4y2Ba	NgydF4y2Ba	90.00gydF4y2Ba	115.8gydF4y2Ba	0.1gydF4y2Ba	55.4gydF4y2Ba	52.2gydF4y2Ba
50gydF4y2Ba	0.05gydF4y2Ba	YgydF4y2Ba	82.00gydF4y2Ba	111.2gydF4y2Ba	0.2gydF4y2Ba	82.7gydF4y2Ba	80.8gydF4y2Ba
50gydF4y2Ba	0.1gydF4y2Ba	NgydF4y2Ba	94.00gydF4y2Ba	127.3gydF4y2Ba	0.1gydF4y2Ba	53.0gydF4y2Ba	49.8gydF4y2Ba
50gydF4y2Ba	0.1gydF4y2Ba	YgydF4y2Ba	76.00gydF4y2Ba	113.5gydF4y2Ba	0.3gydF4y2Ba	102.4gydF4y2Ba	100.1gydF4y2Ba
50gydF4y2Ba	0.25gydF4y2Ba	NgydF4y2Ba	86.00gydF4y2Ba	115.1gydF4y2Ba	0.2gydF4y2Ba	62.8gydF4y2Ba	60.7gydF4y2Ba
50gydF4y2Ba	0.25gydF4y2Ba	YgydF4y2Ba	44.00gydF4y2Ba	125.9gydF4y2Ba	0.8gydF4y2Ba	186.3gydF4y2Ba	184.1gydF4y2Ba
One hundred.gydF4y2Ba	0.05gydF4y2Ba	NgydF4y2Ba	10.00gydF4y2Ba	119.5gydF4y2Ba	2.4gydF4y2Ba	445.3gydF4y2Ba	434.5gydF4y2Ba
One hundred.gydF4y2Ba	0.05gydF4y2Ba	YgydF4y2Ba	6.00gydF4y2Ba	124.5gydF4y2Ba	3所示。1gydF4y2Ba	548.3gydF4y2Ba	541.4gydF4y2Ba
One hundred.gydF4y2Ba	0.1gydF4y2Ba	NgydF4y2Ba	16.00gydF4y2Ba	106.1gydF4y2Ba	2.1gydF4y2Ba	389.0gydF4y2Ba	378.0gydF4y2Ba
One hundred.gydF4y2Ba	0.1gydF4y2Ba	YgydF4y2Ba	4.00gydF4y2Ba	112.7gydF4y2Ba	4.2gydF4y2Ba	697.2gydF4y2Ba	671.8gydF4y2Ba
One hundred.gydF4y2Ba	0.25gydF4y2Ba	NgydF4y2Ba	6.00gydF4y2Ba	118.7gydF4y2Ba	2.6gydF4y2Ba	465.8gydF4y2Ba	452.3gydF4y2Ba
One hundred.gydF4y2Ba	0.25gydF4y2Ba	YgydF4y2Ba	0.00gydF4y2Ba	114.4gydF4y2Ba	5.9gydF4y2Ba	911.2gydF4y2Ba	886.6gydF4y2Ba
200年gydF4y2Ba	0.05gydF4y2Ba	NgydF4y2Ba	0.00gydF4y2Ba	96.9gydF4y2Ba	7.2gydF4y2Ba	1243.3gydF4y2Ba	1154.3gydF4y2Ba
200年gydF4y2Ba	0.05gydF4y2Ba	YgydF4y2Ba	0.00gydF4y2Ba	99.1gydF4y2Ba	9.1gydF4y2Ba	1459.7gydF4y2Ba	1398.4gydF4y2Ba
200年gydF4y2Ba	0.1gydF4y2Ba	NgydF4y2Ba	0.00gydF4y2Ba	93.4gydF4y2Ba	7.3gydF4y2Ba	1201.8gydF4y2Ba	1150.1gydF4y2Ba
200年gydF4y2Ba	0.1gydF4y2Ba	YgydF4y2Ba	0.00gydF4y2Ba	102.2gydF4y2Ba	10.8gydF4y2Ba	1662.2gydF4y2Ba	1617.2gydF4y2Ba
200年gydF4y2Ba	0.25gydF4y2Ba	NgydF4y2Ba	0.00gydF4y2Ba	108.4gydF4y2Ba	7.3gydF4y2Ba	1249.9gydF4y2Ba	1206.4gydF4y2Ba
200年gydF4y2Ba	0.25gydF4y2Ba	YgydF4y2Ba	0.00gydF4y2Ba	102.3gydF4y2Ba	11.8gydF4y2Ba	1743.9gydF4y2Ba	1704.6gydF4y2Ba


		Avg MIPs。gydF4y2Ba	Avg MIPs。gydF4y2Ba	平均每次gydF4y2Ba	平均每次gydF4y2Ba
	%的最优gydF4y2Ba	解决了gydF4y2Ba	次优的gydF4y2Ba	术语。(年代)gydF4y2Ba	到最好的溶液。gydF4y2Ba

10gydF4y2Ba	100.00gydF4y2Ba	134.1gydF4y2Ba	0.0gydF4y2Ba	1。7gydF4y2Ba	1。3gydF4y2Ba
25gydF4y2Ba	100.00gydF4y2Ba	131.9gydF4y2Ba	0.0gydF4y2Ba	9.2gydF4y2Ba	7.9gydF4y2Ba
50gydF4y2Ba	89.00gydF4y2Ba	127.8gydF4y2Ba	0.1gydF4y2Ba	54.8gydF4y2Ba	51.6gydF4y2Ba
One hundred.gydF4y2Ba	1.00gydF4y2Ba	115.7gydF4y2Ba	1。6gydF4y2Ba	358.2gydF4y2Ba	346.8gydF4y2Ba
200年gydF4y2Ba	0.00gydF4y2Ba	105.1gydF4y2Ba	7.7gydF4y2Ba	1481.8gydF4y2Ba	1418.5gydF4y2Ba


		Avg MIPs。gydF4y2Ba	Avg MIPs。gydF4y2Ba	平均每次gydF4y2Ba	平均每次gydF4y2Ba
	%的最优gydF4y2Ba	解决了gydF4y2Ba	次优的gydF4y2Ba	术语。(年代)gydF4y2Ba	到最好的溶液。gydF4y2Ba

2gydF4y2Ba	0.00gydF4y2Ba	105.1gydF4y2Ba	3所示。2gydF4y2Ba	1099.3gydF4y2Ba	1020.5gydF4y2Ba
4gydF4y2Ba	0.00gydF4y2Ba	69.5gydF4y2Ba	57.5gydF4y2Ba	7257.9gydF4y2Ba	5511.9gydF4y2Ba

除了引导样品的环境数据gydF4y2Ba(表gydF4y2Ba8gydF4y2Ba),RLT和树是探索在每一个实例。然而,对于许多这样的情况下,至少有一个的MIP子问题不解决最优。的解决方案在这些实例因此不是“可能为“最佳。与所有实例gydF4y2Ba解决最优。作为gydF4y2Ba增加到50和更大的,更少的情况下是最优解。为gydF4y2BaMIP的子问题不解决的子问题的最优性小于5%平均解决那些实例。为gydF4y2Ba在模拟集群利用离群值和一致性的实验中,约10%的MIPs不解决最优。引导的模拟gydF4y2Ba,超过一半的MIPs没有解决最优。gydF4y2Ba

在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba),多个实例时最优解决异常污染比较大。相比之下,在模拟集群利用离群值(表gydF4y2Ba6gydF4y2Ba),更少的实例与污染解决最优,比同伴数据集没有污染。另外,实例的数量最优解决似乎减少随着污染程度的增加。gydF4y2Ba

在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba),至少一个MIP不是解决大多数情况下最优。除了极端异常污染的情况下,gydF4y2Ba或执行竞争力相比,健壮的方法。同时,标准误差斜率的一致性试验(表gydF4y2Ba7gydF4y2Ba),实例求解最优的比例显著降低gydF4y2Ba增加,但估计的标准误差继续减少。这些实例,期限MIP子问题并没有阻碍的能力找到好的解决方案。gydF4y2Ba

只有一个实验,引导模拟gydF4y2Ba使用数据有超过两个变量。计算性能的退化是更戏剧性的转变gydF4y2Ba来gydF4y2Ba在引导模拟退化观察时gydF4y2Ba增加的二元实验。这种现象可能是由于增加的非线性约束需要生产RLT放松。gydF4y2Ba

6。讨论gydF4y2Ba

这引入了一个新的工作gydF4y2Ba正交回归技术,对于被设计成较强的抵抗力。我们开发一种方法得到全局最优解问题的实例。通过仿真,该方法显示了被承诺对离群值。应用程序环境的例子进一步说明抗异常值的方法产生的结果比传统的正交回归和与其他强劲的竞争方法。因此,这种方法使数据分析师处理耐errors-in-variables数据含有异常值替代正交回归。gydF4y2Ba

本文提供的计算研究表明,不同的健壮或outlier-resistant方法在不同的情况下是合适的,并且没有明显优越的方法。pcaPP-mad方法中表现最好的垂直和集群利用模拟数据中离群值,但也许最贫穷的估计现实的例子,其中包含两种类型的离群值。PCA -gydF4y2Ba是表现最糟糕的股票之一的垂直和集群利用模拟数据异常值,但会产生一些最好的估计在实际分析。对PCA -结果的不一致gydF4y2Ba可能是由于方法的依赖有一个很好的起点寻找局部最优解。的gydF4y2Ba这里介绍或方法执行最好的关于其他方法存在中度污染的垂直异常值但遭受极端的污染。gydF4y2Ba

传统的正交回归(gydF4y2Ba)也可以作为PCA的特殊情况制定。提出了制定和优化工作的方法可以适应开发一个outlier-resistant PCA方法。outlier-resistant PCA算法将有用的数据分析师处理受污染的数据。另一个可能的扩展是一个outlier-resistant因子分析程序分析分类数据。gydF4y2Ba

承认gydF4y2Ba

作者要感谢两位匿名裁判为许多建议提高这项工作的内容和表现形式。gydF4y2Ba

引用gydF4y2Ba

m·l·布朗“健壮的线与这两个变量中的错误估计,“gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,77年,第79 - 71页,1982年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·j·卡罗尔和p·p·盖洛,”方面功能errors-in-variables回归模型的鲁棒性,”gydF4y2Ba通信数据gydF4y2Ba11卷,第2585 - 2573页,1982年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·h·Zamar“errors-in-variables稳健估计的模型,gydF4y2Ba生物统计学gydF4y2Ba卷,76年,第160 - 149页,1989年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
h . Spath和g·a·沃森在正交线性的gydF4y2BaℓgydF4y2Ba1近似。”gydF4y2BaNumerische MathematikgydF4y2Ba,51卷,不。5,531 - 543年,1987页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
n a·坎贝尔,“在多元分析,我健壮的程序:健壮的协方差估计,“gydF4y2Ba应用统计学gydF4y2Ba,29卷,第237 - 231页,1980年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
美国j·德夫林、r . Gnandesikan和j . r . Kettenring“稳健估计色散矩阵和主成分”,gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,76年,第362 - 354页,1981年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·s·Galpin d·m·霍金斯,”的方法gydF4y2Ba ${lgydF4y2Ba}_{1gydF4y2Ba}$ 估计的协方差矩阵,”gydF4y2Ba计算统计和数据分析gydF4y2Ba,5卷,不。4、305 - 319年,1987页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r·a·纳迦和g . Antille健壮和稳定non-robust主成分分析,“gydF4y2Ba计算统计和数据分析gydF4y2Ba,10卷,不。2、169 - 174年,1990页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
j·马登,“一些稳健主成分估计。”gydF4y2Ba统计和概率的信件gydF4y2Ba,43卷,不。4、349 - 359年,1999页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
c . Croux g . Haesbroeck,“主成分分析基于稳健估计的协方差或相关矩阵:影响功能和效率,”gydF4y2Ba生物统计学gydF4y2Ba,卷87,不。3、603 - 618年,2000页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
h . Kamiya和s .江”一类鲁棒主成分向量,”gydF4y2Ba杂志的多变量分析gydF4y2Ba,卷77,不。2、239 - 269年,2001页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
g·李和z陈”,健壮的色散矩阵和主成分投影寻踪方法:基本理论和蒙特卡罗”gydF4y2Ba美国统计协会杂志》上gydF4y2Ba卷,80年,第766 - 759页,1985年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
y y谢,j . Wang Liang l .太阳x的歌,和r . Yu,“稳健主成分分析的投影追求,”gydF4y2Ba化学计量学杂志》gydF4y2Ba7卷,第541 - 527页,1993年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r . Maronna”、主成分和正交回归基于健壮的尺度,“gydF4y2Ba技术计量学gydF4y2Ba卷,47号3、264 - 273年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
c . Croux和a . Ruiz-Gazen“高击穿对主成分估计:投影寻踪方法重新审视,“gydF4y2Ba杂志的多变量分析gydF4y2Ba,卷95,不。1,第226 - 206页,2005。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
n .夸克“主成分分析基于L1-norm最大化,”gydF4y2BaIEEE模式分析与机器智能gydF4y2Ba,30卷,不。9日,第1680 - 1672页,2008年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
美国b·诺顿gydF4y2Ba使用生物监测数据来区分类型的压力的玉米带东部平原Ecoregion流gydF4y2Ba博士论文,费尔法克斯的乔治梅森大学,弗吉尼亚州,美国,1999年。gydF4y2Ba
即Lipkovich、e·p·史密斯和k,“评估环境压力对底栖大型无脊椎动物群落的影响通过贝叶斯模型平均”gydF4y2Ba在贝叶斯统计案例研究gydF4y2Ba,第283 - 267页,2002年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
r .高贵、e·p·史密斯和k .你们”模型选择的典型相关分析(CCA)使用贝叶斯模型平均”gydF4y2BaEnvironmetricsgydF4y2Ba,15卷,不。4、291 - 311年,2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
e·l·布恩,你们k和e·p·史密斯,”评估生态之间的关系和生境条件使用分层模型,”gydF4y2Ba《农业、生物和环境统计数据gydF4y2Ba,10卷,不。2、131 - 147年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
俄亥俄州环境保护局gydF4y2Ba定性生境评价指标(QHEI):原理、方法和应用gydF4y2Ba,1989年的俄亥俄州环境保护局。gydF4y2Ba
俄亥俄州环境保护局gydF4y2Ba生物保护水生生物的标准:第二卷:用户手册俄亥俄州地表水生物评估gydF4y2Ba1988年,来自俄亥俄州的国家环境保护署,WQMA-SWS-6。gydF4y2Ba
巴奇尼A, p·贝斯和A . de Faguerolles“L1-norm PCA和启发式的方法,”gydF4y2Ba《国际会议顺序和符号数据分析gydF4y2Ba,第368 - 359页,1987年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
Agarwal, m . k . Chandraker f·卡尔,d . Kriegman和s . Belongie“实用的全局优化多视图几何。”gydF4y2Ba在计算机科学的课堂讲稿gydF4y2Ba卷,3951年,第605 - 592页,2006年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
在美国Zwanzig。gydF4y2Ba ${lgydF4y2Ba}_{1gydF4y2Ba}$ 范数估计非线性回归和非线性errors-in-variables模型”gydF4y2BaIMS Notes-Monograph系列讲座gydF4y2Ba,35卷,第118 - 101页,1997年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
p . j . Rousseeuw和a . Struyf”计算位置深度和回归深度在更高的维度,“gydF4y2Ba统计和计算gydF4y2Ba,8卷,不。3、193 - 203年,1998页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
h·d·Sherali和c·h·Tuncbilek多项式规划问题的全局优化算法使用Reformulation-Linearization技术,”gydF4y2Ba杂志的全局优化gydF4y2Ba,卷2,不。1,第112 - 101页,1992。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba|gydF4y2BaMathSciNetgydF4y2Ba
i t . JolliffegydF4y2Ba主成分分析gydF4y2Ba施普林格,纽约,纽约,美国,第二版,2002年版。gydF4y2Ba
r . a . Maronna和r·h·Zamar“稳健的估计位置和色散对高维数据集,“gydF4y2Ba技术计量学gydF4y2Ba,44卷,不。4、307 - 317年,2002页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
R开发核心团队,gydF4y2Ba接待员:统计计算的语言和环境gydF4y2Ba,R统计计算的基础,维也纳,奥地利,2009年。gydF4y2Ba
p . Filzmozer、h·弗里茨和k . KalchergydF4y2BapcaPP:健壮的PCA在投影的追求gydF4y2Ba,2009年。gydF4y2Ba
j·林赛,gydF4y2Barmutil:对非线性回归和重复测量的工具gydF4y2Ba,2009年。gydF4y2Ba

行动研究进展gydF4y2Ba

Outlier-ResistantgydF4y2Ba通过Reformulation-Linearization正交回归技术gydF4y2Ba

文摘gydF4y2Ba

1。介绍和背景gydF4y2Ba

1.1。以前的工作在健壮的正交回归gydF4y2Ba

1.2。传统的正交回归gydF4y2Ba

2。寻找最优超平面gydF4y2Ba

3所示。模拟研究gydF4y2Ba

3.1。垂直的离群值gydF4y2Ba

3.2。集群利用离群值gydF4y2Ba

3.3。一致性gydF4y2Ba

4所示。一个环境的例子gydF4y2Ba

5。计算时间gydF4y2Ba

6。讨论gydF4y2Ba

承认gydF4y2Ba

引用gydF4y2Ba

版权gydF4y2Ba

相关文章gydF4y2Ba

相关文章gydF4y2Ba

行动研究进展gydF4y2Ba

Outlier-ResistantgydF4y2Ba gydF4y2Ba gydF4y2Ba 通过Reformulation-Linearization正交回归技术gydF4y2Ba

文摘gydF4y2Ba

1。介绍和背景gydF4y2Ba

1.1。以前的工作在健壮的正交回归gydF4y2Ba

1.2。传统的正交回归gydF4y2Ba

2。寻找最优超平面gydF4y2Ba

3所示。模拟研究gydF4y2Ba

3.1。垂直的离群值gydF4y2Ba

3.2。集群利用离群值gydF4y2Ba

3.3。一致性gydF4y2Ba

4所示。一个环境的例子gydF4y2Ba

5。计算时间gydF4y2Ba

6。讨论gydF4y2Ba

承认gydF4y2Ba

引用gydF4y2Ba

版权gydF4y2Ba

相关文章gydF4y2Ba

更多相关文章gydF4y2Ba

更多相关文章gydF4y2Ba

相关文章gydF4y2Ba

Outlier-ResistantgydF4y2Ba通过Reformulation-Linearization正交回归技术gydF4y2Ba