评估之间的线性关系的一组连续预测和连续反应是统计和数据挖掘的一个研究问题。gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
如普通最小二乘法和正交回归的方法可以用来确定这种关系。然而,这两种方法成为有影响力的值时存在受损。这个问题变得更加复杂,当异常值混淆标准诊断。这项工作提出了一个gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
规范正交回归方法(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或)制定作为一个非凸优化问题。提出了解决策略寻找全局最优的解决方案。仿真研究进行了评估的阻力异常值的方法和方法的一致性。该方法也适用于现实世界的数据源自于一个环境科学应用程序。gydF4y2Ba
1。介绍和背景gydF4y2Ba
数据分析师经常提出的问题确定几个变量和响应变量之间的关系。标准技术时,所有的变量定义在连续域是普通最小二乘回归(OLS)。当gydF4y2Ba离群值gydF4y2Ba ,或不寻常的观察,存在于数据,传统的回归技术成为受损。方法如M-regression(先生)使用M估计减少离群值的影响。这些方法不是为开发而设计的gydF4y2Baerrors-in-variablesgydF4y2Ba 模型预测和响应的测量误差或被认为是随机组件。这种情况的一个例子是研究pH值和碱度之间的关系在淡水栖息地,同时测量误差。gydF4y2Ba
正交回归(gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或)时使用的不确定性是目前在这两个独立和相关的变量。这种假设与OLS,预测是假定为已知没有测量误差。此外,正交回归方法的正交距离超平面安装而在OLS残差测量的垂直距离观测到表面。gydF4y2Ba
1.1。以前的工作在健壮的正交回归gydF4y2Ba
的敏感性gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或离群值已经指出,和其他调查人员正致力于开发健壮的方法(gydF4y2Ba1gydF4y2Ba - - - - - -gydF4y2Ba3gydF4y2Ba ]。Zamar[工作gydF4y2Ba3gydF4y2Ba 包括使用gydF4y2Ba
gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
为正交回归估计。Spath和沃森gydF4y2Ba4gydF4y2Ba ]介绍合并的方法gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
规范正交测量距离的回归。gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者可以制定为相当于找到最后一个主成分,或最小的方向变化,主成分分析(PCA)。因此,任何健壮的PCA方法可用于健壮的正交回归。两个主要方法鲁棒主成分分析(1)找到稳健估计的协方差矩阵(在传统的主成分分析,主成分是协方差矩阵的特征向量)和(2)使用一个健壮的离差的量度。研究区域包括前(gydF4y2Ba5gydF4y2Ba - - - - - -gydF4y2Ba11gydF4y2Ba ]。分散的PCA的可靠估计研究[gydF4y2Ba12gydF4y2Ba - - - - - -gydF4y2Ba16gydF4y2Ba ];这些作品是基于gydF4y2Ba投影的追求gydF4y2Ba 的方法。gydF4y2Ba
我们的方法密切相关,由Spath和沃森(gydF4y2Ba4gydF4y2Ba 和夸克gydF4y2Ba16gydF4y2Ba 我们结合的方式)gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
规范成一个正交回归过程。Spath和沃森gydF4y2Ba4gydF4y2Ba )测量误差的观测gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
距离它的正交投影超平面。夸克(gydF4y2Ba16gydF4y2Ba )连续发现方向最大化的最大变化gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
距离gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
投影点在一条直线。与这些方法相比,我们的方法是直接通过最大化找到最小的方向变化gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
点和他们之间的距离gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
投影向量(见图gydF4y2Ba1gydF4y2Ba )。同时,提出的方法(gydF4y2Ba4gydF4y2Ba ,gydF4y2Ba16gydF4y2Ba )保证各自只有局部最小值优化问题,当我们提出一个方法推导全局最优的解决方案。gydF4y2Ba
这三种方法可以被视为近似最大似然估计值(标定)线性errors-in-variables模型与独立的错误与拉普拉斯分布(见[gydF4y2Ba23gydF4y2Ba ,gydF4y2Ba24gydF4y2Ba ])。这样一个模型对应于一个超平面的标定,最小化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
预测。Zwanzig [gydF4y2Ba25gydF4y2Ba 考虑一个gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
估计量的非线性推广error-in-variables模型和误差分布,表明在一定假设的估计量是一致的。当应用于的设置gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
正交线性回归,估计类似的方法Spath和沃森gydF4y2Ba4gydF4y2Ba ]。gydF4y2Ba
1.2。传统的正交回归gydF4y2Ba
假设我们给出观测连续预测和响应gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
gydF4y2Ba
×gydF4y2Ba
ℝgydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或试图找到一个正交投影的数据到一个超平面,这样的正交距离点的总和gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
超平面的最小化。我们假设在这个工作中位数是减去从样品和安装超平面经过原点。我们注意到,对于大的值gydF4y2Ba
gydF4y2Ba
坐标态值可能不是一个好估计,一个数据中心的云(见[gydF4y2Ba26gydF4y2Ba ])。gydF4y2Ba
在gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者,的正交距离的平方的总和gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
定义的超平面gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
是最小化。向量gydF4y2Ba
gydF4y2Ba
是正常的最佳超平面,是数据的最小的方向变化。因为gydF4y2Ba
gydF4y2Ba
是最小的方向变化,距离平方的总和的观察他们的预测吗gydF4y2Ba
gydF4y2Ba
是最大化。因此,我们可以找到gydF4y2Ba
gydF4y2Ba
通过求解优化问题如下:gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
OgydF4y2Ba
RgydF4y2Ba
gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
为gydF4y2Ba
为gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
为gydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
受gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
(gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
变量的向量gydF4y2Ba
gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
。这个词gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
代表的正交投影观察gydF4y2Ba
gydF4y2Ba
沿着gydF4y2Ba
gydF4y2Ba
的原始坐标数据。gydF4y2Ba
在本文中,我们提出一个新的outlier-resistant正交回归方法调用gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或。最小的方向变化数据发现通过最大化gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
观察他们的投影点距离向量。安装的超平面正交于最小的方向变化。问题是制定非凸优化问题。我们描述如何得到全局最优的解决方案基于reformulation-linearization技术(RLT)由Sherali和Tuncbilek [gydF4y2Ba27gydF4y2Ba ]。我们提出申请的结果gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或污染的模拟数据异常值和比较健壮的方法进行正交回归的结果。的一致性gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者是使用模拟数据评估。gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或应用于数据收集海洋栖息地评估不确定性驻留在依赖和独立变量。gydF4y2Ba
2。寻找最优超平面gydF4y2Ba
假设,而不是最大化的平方之和观测的垂直距离投影最小的方向变化,我们最大化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
距离。使用gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
指标降低离群值观测的影响。gydF4y2Ba
在图gydF4y2Ba1gydF4y2Ba ,我们说明了不同方法的结合gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
规范转化为一个二维正交回归过程的例子。定义安装超平面的法向量gydF4y2Ba
gydF4y2Ba
代表一个近似的最小的方向变化的数据。向量gydF4y2Ba
gydF4y2Ba
跨越空间定义的超平面。我们的方法是最大化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
距离的点到他们的预测gydF4y2Ba
gydF4y2Ba
。的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
的距离gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
对其gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
上的投影gydF4y2Ba
gydF4y2Ba
是由gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
在图中。Spath和华生提出的过程(gydF4y2Ba4gydF4y2Ba 最小化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
点的距离gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
预测在一个超平面。的距离gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
其在安装子空间投影显示gydF4y2Ba
gydF4y2Ba
3gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
4gydF4y2Ba
。过程引入了夸克(gydF4y2Ba16gydF4y2Ba 最大化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
震级的预测点到超平面。在图gydF4y2Ba1gydF4y2Ba ,这个大小是由gydF4y2Ba
gydF4y2Ba
5gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
6gydF4y2Ba
。当这三个距离测量使用gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
规范,同样的回归平面是最佳gydF4y2Ba28gydF4y2Ba ];然而,由于在每种情况下的距离测量使用gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
规范,最终回归飞机并不总是一致。的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
的投影gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
超平面是由安装gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
;一个标定方法的总和最小化gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
点的距离gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
预测。gydF4y2Ba
最大化的总和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
距离的点线经过原点是写成gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
为gydF4y2Ba
为gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
为gydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
。gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
目标函数是非线性和非凸。与[gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或),定义的最优超平面gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。让gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
是gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
剩余的组件gydF4y2Ba
gydF4y2Ba
的观察gydF4y2Ba
gydF4y2Ba
。同时,让gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
,在那里gydF4y2Ba
gydF4y2Ba
是一个向量1的,所以这些吗gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
变量都是非负的。这种替换是必要的对于我们的解决方案方法如下解释。数学课程可以作为制定gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
OgydF4y2Ba
RgydF4y2Ba
gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
受gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
我gydF4y2Ba
fgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
∀gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
我gydF4y2Ba
fgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
∀gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
3gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∈gydF4y2Ba
{gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
}gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
;gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
4gydF4y2Ba
)gydF4y2Ba
的数量gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
与每个坐标向量的值为0,1和2分别。目标函数现在是线性的,和前三集定义约束的非凸函数。gydF4y2Ba
获得全局最优解(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或),我们将使用和整数规划与和reformulation-linearization技术(RLT)中描述gydF4y2Ba27gydF4y2Ba ]。gydF4y2Ba子问题gydF4y2Ba 将引用一个线性混合整数规划(MIP)对应于RLT和树中的一个节点。每个子问题可以转化为一个线性MIP表达条件限制gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
5gydF4y2Ba
)gydF4y2Ba
为一个足够大的常数gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba
以下是总结RLT应用于(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或]。gydF4y2Ba(我)gydF4y2Ba 子问题优化。gydF4y2Ba 选择子问题来解决。每个子问题是一个线性MIP放松非凸约束。如果所有子问题都解决了,现任的解决方案是最优的。gydF4y2Ba(2)gydF4y2Ba 检查新绑定。gydF4y2Ba 如果解决方案满足原始的非凸约束,目前的解决方案是可行的。更新现有的解决方案,如果适当的客观价值。gydF4y2Ba(3)gydF4y2Ba 理解。gydF4y2Ba 理解如果(1)解决方案满足原来的约束,(2)子问题是不可行的,或(3)子问题的客观价值小于现任客观价值。gydF4y2Ba(iv)gydF4y2Ba 分支。gydF4y2Ba 为分支选择变量,创建两个子问题。gydF4y2Ba
RLT的流程图,详细的步骤和过程包括在图中gydF4y2Ba2gydF4y2Ba 。gydF4y2Ba
我们现在描述RLT根子问题的建设。每次出现gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
的限制,替换一个新的变量gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
配方。同时,添加约束的形式gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
6gydF4y2Ba
)gydF4y2Ba
但是替换出现的gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
与gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
。的存在约束0是反映的下界gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
变量;这些下界将改变在优化算法如下所述。结果是一个线性MIP,是一个放松的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或][gydF4y2Ba27gydF4y2Ba ]。gydF4y2Ba
我们现在描述分支过程。最优解的放松是可行的(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或如果gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
对所有gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
。如果不满足此条件,然后选择一个变量gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
与gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≠gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
对于一些gydF4y2Ba
gydF4y2Ba
与当前值gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
并创建两个子问题。的一个新子问题约束的形式gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
7gydF4y2Ba
)gydF4y2Ba
替换出现的所有gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
与gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
创建线性约束。另一个新子问题线性化形式的约束gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba
(gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
8gydF4y2Ba
)gydF4y2Ba
和树中的节点遍历,的界限gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
变量是连续收紧。Sherali和TuncbilekgydF4y2Ba27gydF4y2Ba ]证明要么寻找最优解的有限步终止与全局最优的解决方案,否则任何聚点的解决方案在一个无限的分支和树是一种全局最优的解决方案。gydF4y2Ba
3所示。模拟研究gydF4y2Ba
在本节中,的能力gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或拒绝两种类型的异常值的影响评估使用模拟研究。比较的方法gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者和几个健壮的程序。的一致性gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者也是评估使用模拟研究。gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
使用12.1最大化策略或MIP子问题得到解决。如果没有达到可证明的最优的MIP子问题2分钟后,使用的是最著名的整数可行解。我们实现了我们的算法和应用RLT在C程序中,时间限制为7200 CPU秒为每个实例。机器上的问题得到解决gydF4y2Ba
2gydF4y2Ba
×gydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
6gydF4y2Ba
GHz Opteron处理器和2 GB RAM。gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者是健壮的方法相比,基于投影寻踪(gydF4y2Ba12gydF4y2Ba ),一个gydF4y2Ba
gydF4y2Ba
scale-based使正交化Gnanadesikan-Kettenring估计(gydF4y2Ba29日gydF4y2Ba )(以下gydF4y2Ba
gydF4y2Ba
-OGK)和基于PCA方法gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
(gydF4y2Ba16gydF4y2Ba ]。应用投影寻踪方法用描述的主成分分析方法(gydF4y2Ba15gydF4y2Ba ]。正交回归的方法是修改了最后一个健壮的主成分正交回归的系数超平面。我们通过ppOR-mad表示这种方法或ppOR-qn后缀表明规模函数使用。用其他方法gydF4y2Ba
gydF4y2Ba
-OGK和PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
。PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
,初始向量集gydF4y2Ba
gydF4y2Ba
0gydF4y2Ba
=gydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
ggydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
2gydF4y2Ba
(见[gydF4y2Ba16gydF4y2Ba ])。gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者和ppOR模型中使用gydF4y2Baprcomp ()gydF4y2Ba 和gydF4y2BaPCAgrid ()gydF4y2Ba 函数,分别称为R环境统计计算(gydF4y2Ba30.gydF4y2Ba ]。这个函数gydF4y2BaPCAgrid ()gydF4y2Ba 是在gydF4y2BapcaPPgydF4y2Ba (gydF4y2Ba31日gydF4y2Ba )图书馆。R的代码gydF4y2Ba
gydF4y2Ba
-OGK估计量是由一个匿名裁判。我们实现了PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
方法(gydF4y2Ba16gydF4y2Ba 在一个C程序)。gydF4y2Ba
3.1。垂直的离群值gydF4y2Ba
一个模拟研究进行了评估的能力gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
在二元数据或检测线性关系的存在gydF4y2Ba垂直的离群值gydF4y2Ba 。垂直异常值有显著的变化只在他们的反应变量值。仿真的设计是利用不同污染观测的数量(gydF4y2Ba
gydF4y2Ba
)和污染程度(gydF4y2Ba
gydF4y2Ba
)。每个方法运行30日与100年数据集在每个治疗条件下的观察。在这项研究中,gydF4y2Ba
gydF4y2Ba
以下列方式多种多样:没有污染,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
、中度污染,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
和高污染,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
。污染的严重性gydF4y2Ba
gydF4y2Ba
是多种多样的gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
:低污染,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
:中等大小,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
:大大小。gydF4y2Ba
以以下方式采样的数据。gydF4y2Ba(我)gydF4y2Ba 生成未被污染的数据:gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
]gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,在那里gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
,因为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba (2)gydF4y2Ba 产生污染的数据:gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
5gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
]gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
×gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
|gydF4y2Ba
,因为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
生成数据集与拟合模型使用一个例子gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
图中给出了gydF4y2Ba3(一个)gydF4y2Ba 。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
(c)gydF4y2Ba
评估每个方法准确地符合已知的底层模型的能力,下面的模型误差,gydF4y2Ba
gydF4y2Ba
使用:gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
−gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
3gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
在哪里gydF4y2Ba
gydF4y2Ba
是已知的模型和gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
是估计模型。请注意,gydF4y2Ba
gydF4y2Ba
对应于之间的区域gydF4y2Ba
gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
。如果估计模型是接近真实的模型gydF4y2Ba
gydF4y2Ba
将小。为每个模拟gydF4y2Ba
gydF4y2Ba
计算并记录。使用这些结果平均模型误差,gydF4y2Ba
gydF4y2Ba
和标准错误计算。gydF4y2Ba
分析仿真,均值和标准差gydF4y2Ba
gydF4y2Ba
计算每个设置的gydF4y2Ba
gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
,可以发现在表gydF4y2Ba1gydF4y2Ba 。为所有配置gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或均值和标准差低于所有其他方法测试,表明在抵制异常污染等性能优越的条件。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或执行比健壮的方法除了PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
但比outlier-sensitivegydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。在极端的情况下污染gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者和PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
离群值非常敏感的大值gydF4y2Ba
gydF4y2Ba
。这个配置是ppOR-qn表现最好的方法。gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者意味着差距只有0.34以上ppOR-qn但至少1.28小于outlier-sensitive方法。总的来说,这表明gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或表现良好,没有污染物的存在更大程度的污染,但降解性能相对于一些健壮的方法当污染的大小是非常大的。gydF4y2Ba
方法gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.00997 (0.00540)gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.01818 (0.01459)gydF4y2Ba
ppOR-madgydF4y2Ba
0.13624 (0.09616)gydF4y2Ba
ppOR-qngydF4y2Ba
0.08398 (0.07724)gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.01870 (0.01486)gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.02081 (0.01388)gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.00934 (0.00583)gydF4y2Ba
0.08496 (0.01798)gydF4y2Ba
0.31339 (0.05527)gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.03070 (0.01578)gydF4y2Ba
0.32365 (0.10149)gydF4y2Ba
3.54666 (0.99552)gydF4y2Ba
ppOR-madgydF4y2Ba
0.13714 (0.12535)gydF4y2Ba
0.11584 (0.10239)gydF4y2Ba
0.08906 (0.07094)gydF4y2Ba
ppOR-qngydF4y2Ba
0.07475 (0.06369)gydF4y2Ba
0.14938 (0.08210)gydF4y2Ba
0.05840 (0.04831)gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.03018 (0.01696)gydF4y2Ba
0.18032 (0.03857)gydF4y2Ba
0.20396 (0.03736)gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.02608 (0.01667)gydF4y2Ba
0.17335 (0.04240)gydF4y2Ba
0.76836 (0.16126)gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.01190 (0.00573)gydF4y2Ba
0.16172 (0.02743)gydF4y2Ba
0.58962 (0.06106)gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.04505 (0.01420)gydF4y2Ba
0.62263 (0.12630)gydF4y2Ba
6.26558 (1.35709)gydF4y2Ba
ppOR-madgydF4y2Ba
0.12443 (0.10311)gydF4y2Ba
0.25518 (0.24805)gydF4y2Ba
0.31136 (0.28315)gydF4y2Ba
ppOR-qngydF4y2Ba
0.08947 (0.08796)gydF4y2Ba
0.59031 (0.18792)gydF4y2Ba
0.24970 (0.12092)gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.03865 (0.01879)gydF4y2Ba
0.45040 (0.09105)gydF4y2Ba
0.54522 (0.08887)gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.03940 (0.01382)gydF4y2Ba
0.35664 (0.06198)gydF4y2Ba
1.87768 (0.31515)gydF4y2Ba
3.2。集群利用离群值gydF4y2Ba
的能力gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或在二元数据与异常值检测线性关系进一步分析与模拟使用的数据集gydF4y2Ba集群利用离群值gydF4y2Ba 。集群利用离群值的数据集有非常相似的值,但远离其他数据集。仿真设计不同观测的数量(gydF4y2Ba
gydF4y2Ba
)和污染水平(gydF4y2Ba
gydF4y2Ba
)。对于每一个治疗条件和复制,生成一个数据集没有污染和同伴数据集生成取代第一gydF4y2Ba
⌈gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
⌉gydF4y2Ba
观察与受污染的数据。有50复制每个治疗条件。对于这个实验,gydF4y2Ba
gydF4y2Ba
以下列方式多种多样:低污染:gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
0gydF4y2Ba
5gydF4y2Ba
中度污染:gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
和高污染:gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
。gydF4y2Ba
数据抽样如下。gydF4y2Ba(我)gydF4y2Ba 生成未被污染的数据:gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
,因为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba (2)gydF4y2Ba 产生污染的数据:gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
−gydF4y2Ba
2gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
,因为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
⌈gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
⌉gydF4y2Ba
。gydF4y2Ba
协方差矩阵(gydF4y2Ba
gydF4y2Ba
在复制)是不同的。首先,一个gydF4y2Ba
2gydF4y2Ba
×gydF4y2Ba
2gydF4y2Ba
矩阵gydF4y2Ba
gydF4y2Ba
这样每个条目生成采样是一个人吗gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
分布。QR分解gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
计算。让gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
年代gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
⟨gydF4y2Ba
gydF4y2Ba
⟩gydF4y2Ba
)gydF4y2Ba
,在那里gydF4y2Ba
⟨gydF4y2Ba
⋅gydF4y2Ba
⟩gydF4y2Ba
表明以对角元素为一个向量gydF4y2Ba
年代gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
⋅gydF4y2Ba
)gydF4y2Ba
向量与向量的对应元素的迹象。然后gydF4y2Ba
gydF4y2Ba
从wishard采样gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
5gydF4y2Ba
)gydF4y2Ba
。的方法(gydF4y2Ba
gydF4y2Ba
)等产生的污染数据gydF4y2Ba(1)gydF4y2Ba 的Mahalanobis距离gydF4y2Ba
gydF4y2Ba
从分布gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
至少是gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
9gydF4y2Ba
9gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
′gydF4y2Ba
,gydF4y2Ba (2)gydF4y2Ba
米gydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
{gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∶gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
}gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
≤gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
{gydF4y2Ba
xgydF4y2Ba
gydF4y2Ba
∶gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
}gydF4y2Ba
,gydF4y2Ba (3)gydF4y2Ba
米gydF4y2Ba
我gydF4y2Ba
ngydF4y2Ba
{gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∶gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
}gydF4y2Ba
≤gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
≤gydF4y2Ba
米gydF4y2Ba
一个gydF4y2Ba
xgydF4y2Ba
{gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∶gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
}gydF4y2Ba
。gydF4y2Ba
一个示例数据集与100年观察和拟合模型生成的使用gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
图中给出了gydF4y2Ba3 (b)gydF4y2Ba 。gydF4y2Ba
每个基于模型的相似性评估方法适用于伴未被污染的和被污染的数据集。相似度测量gydF4y2Ba
gydF4y2Ba
被定义为内积的绝对值gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
⋅gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
3gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
在哪里gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
的向量系数推导出未被污染的和被污染的数据集。的值gydF4y2Ba
gydF4y2Ba
可以用更大的值在0和1之间,表明模型是一致的,离群值不会影响估计。gydF4y2Ba
意味着在复制和比例的实例gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
9gydF4y2Ba
0gydF4y2Ba
为每个值gydF4y2Ba
gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
包含在表gydF4y2Ba2gydF4y2Ba 。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
0gydF4y2Ba
5gydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
的性能,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者几乎是常数gydF4y2Ba
gydF4y2Ba
是增加了。有一个轻微的性能退化为更大的值gydF4y2Ba
gydF4y2Ba
,这可能是由于计算复杂度的增加(见实例部分gydF4y2Ba5gydF4y2Ba )。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
0gydF4y2Ba
5gydF4y2Ba
,所有的方法有很高的平均值gydF4y2Ba
gydF4y2Ba
和高百分比的实例gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
9gydF4y2Ba
,包括outlier-sensitivegydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或所有的健壮的方法有更大的平均值gydF4y2Ba
gydF4y2Ba
比gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。ppOR-qn估计量的最一致的性能不同的值gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
的平均值gydF4y2Ba
gydF4y2Ba
0.94以上。的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或估计量平均值为0.93以上gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
,但性能降低gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
。的gydF4y2Ba
gydF4y2Ba
-OGK估计最高或次高的平均值gydF4y2Ba
gydF4y2Ba
为gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
的性能,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或滞后的方法。为gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
,性能是相似的gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。为gydF4y2Ba
gydF4y2Ba
≥gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
的平均值gydF4y2Ba
gydF4y2Ba
不到的吗gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
首选的估计似乎ppOR-mad,它的最高或次高值gydF4y2Ba
gydF4y2Ba
为每一个gydF4y2Ba
gydF4y2Ba
。gydF4y2Ba
方法gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
0gydF4y2Ba
5gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.996/1.000gydF4y2Ba
0.993/1.000gydF4y2Ba
0.680/0.520gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.981/0.980gydF4y2Ba
0.963/0.920gydF4y2Ba
0.648/0.240gydF4y2Ba
ppOR-madgydF4y2Ba
0.967/0.900gydF4y2Ba
0.933/0.740gydF4y2Ba
0.859/0.500gydF4y2Ba
ppOR-qngydF4y2Ba
0.963/0.880gydF4y2Ba
0.944/0.800gydF4y2Ba
0.869/0.460gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.994/1.000gydF4y2Ba
0.985/0.980gydF4y2Ba
0.842/0.660gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.962/0.940gydF4y2Ba
0.969/0.960gydF4y2Ba
0.794/0.380gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.998/1.000gydF4y2Ba
0.932/0.920gydF4y2Ba
0.602/0.360gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.988/1.000gydF4y2Ba
0.912/0.860gydF4y2Ba
0.609/0.260gydF4y2Ba
ppOR-madgydF4y2Ba
0.974/0.900gydF4y2Ba
0.943/0.860gydF4y2Ba
0.903/0.660gydF4y2Ba
ppOR-qngydF4y2Ba
0.989/1.000gydF4y2Ba
0.962/0.900gydF4y2Ba
0.858/0.400gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.997/1.000gydF4y2Ba
0.974/0.980gydF4y2Ba
0.818/0.640gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.986/0.960gydF4y2Ba
0.932/0.880gydF4y2Ba
0.779/0.380gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.973/0.960gydF4y2Ba
0.931/0.900gydF4y2Ba
0.519/0.180gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.981/0.960gydF4y2Ba
0.884/0.700gydF4y2Ba
0.623/0.200gydF4y2Ba
ppOR-madgydF4y2Ba
0.979/0.960gydF4y2Ba
0.956/0.900gydF4y2Ba
0.923/0.700gydF4y2Ba
ppOR-qngydF4y2Ba
0.989/1.000gydF4y2Ba
0.958/0.900gydF4y2Ba
0.878/0.480gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.998/1.000gydF4y2Ba
0.977/0.940gydF4y2Ba
0.828/0.540gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.979/0.960gydF4y2Ba
0.940/0.880gydF4y2Ba
0.810/0.340gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
0.932/0.800gydF4y2Ba
0.857/0.760gydF4y2Ba
0.509/0.140gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
0.917/0.820gydF4y2Ba
0.805/0.580gydF4y2Ba
0.608/0.160gydF4y2Ba
ppOR-madgydF4y2Ba
0.975/0.960gydF4y2Ba
0.970/0.920gydF4y2Ba
0.942/0.780gydF4y2Ba
ppOR-qngydF4y2Ba
0.978/0.980gydF4y2Ba
0.959/0.860gydF4y2Ba
0.893/0.560gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
0.997/1.000gydF4y2Ba
0.954/0.920gydF4y2Ba
0.834/0.600gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
0.926/0.860gydF4y2Ba
0.922/0.820gydF4y2Ba
0.785/0.340gydF4y2Ba
3.3。一致性gydF4y2Ba
的一致性gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或通过执行测试评估实例与不同的样本大小。二元数据gydF4y2Ba
(gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
产生这样gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,在那里gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
]gydF4y2Ba
和gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
5gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
+gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
,在那里gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
∼gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
(gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
5gydF4y2Ba
)gydF4y2Ba
。测试样本大小gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
,gydF4y2Ba
5gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
;100年数据生成数据集的每个值gydF4y2Ba
gydF4y2Ba
。的gydF4y2Barlaplace ()gydF4y2Ba R的函数包gydF4y2BarmutilgydF4y2Ba (gydF4y2Ba32gydF4y2Ba )用于样本拉普拉斯分布。一个示例数据集与200年观察和安装gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或在图模型gydF4y2Ba3 (c)gydF4y2Ba 。gydF4y2Ba
图gydF4y2Ba4gydF4y2Ba 描述了标准误差斜率的绝对值作为样本大小的函数。随着样本容量的增加,标准误差迅速趋于0,表明程序是一致的。对大样本大小,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者应该提供良好的估计。gydF4y2Ba
4所示。一个环境的例子gydF4y2Ba
水的pH值和碱度鱼生活的已知影响他们的整体健康。碱度的测量解决中和酸的能力。研究人员预计pH值和碱度是高度相关的。然而,两个变量的关系是很难估计在许多数据集由于低pH值的变化在溪流和由于异常值的存在。这个例子是一个子集的数据集值收集在俄亥俄州的状态导致312年的观察。不同子集的这个数据集已经被诺顿认为之前(gydF4y2Ba17gydF4y2Ba ),Lipkovich et al。gydF4y2Ba18gydF4y2Ba ),高贵的et al。gydF4y2Ba19gydF4y2Ba ,布恩et al。gydF4y2Ba20.gydF4y2Ba )不同程度的成功,估计pH值和碱度之间的关系。对于本工作pH值和碱度都是标准化的。注意,在这些数据pH值和碱度的测量误差,因此应该使用正交回归方法。相同的计算设置仿真研究中用于分析。gydF4y2Ba
图gydF4y2Ba5gydF4y2Ba 显示了pH值的散点图和碱度。似乎有一个线性关系碱度和博士也注意到垂直和利用数据中出现的异常值。皮尔逊相关系数的pH值和碱度之间的关系gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
。gydF4y2Ba
3gydF4y2Ba
3gydF4y2Ba
6gydF4y2Ba
6gydF4y2Ba
这是偏见由于数据中的异常值。此外,自相关性是有偏见的,提取pH-alkalinity组件和使用,作为一个预测不会谨慎。因此,需要回归方法对离群值/影响力的点。除了ppOR-mad, outlier-insensitive方法展示抵抗异常值的测量pH outlier-sensitive相比gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或。基于主成分分析的方法gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
产生一个模型,似乎至少受到异常值的影响,其次是gydF4y2Ba
gydF4y2Ba
-OGK估计量,然后gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或。gydF4y2Ba
表gydF4y2Ba3gydF4y2Ba 为每个方法显示了回归模型的总结。这里的标准错误引导标准错误基于100引导样品。整个方法引导标准误差相差很大,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者最稳定的估计,就是明证较小的标准错误,紧随其后gydF4y2Ba
gydF4y2Ba
-OGK和PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
。除了ppOR-mad,gydF4y2Ba
gydF4y2Ba
值表明,pH值和碱度之间的关系是显著的。请注意,gydF4y2Ba
gydF4y2Ba
统计上显著的使用价值的关系gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者,gydF4y2Ba
gydF4y2Ba
-OGK, PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
与一个gydF4y2Ba
gydF4y2Ba
不到.00001的价值。的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者,gydF4y2Ba
gydF4y2Ba
-OGK, PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
估计似乎是最好的选择对于这个数据,与PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
生产最好的估计和gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或提供最稳定的估计。gydF4y2Ba
方法gydF4y2Ba
估计gydF4y2Ba
标准错误gydF4y2Ba
∗gydF4y2Ba
gydF4y2Ba
价值gydF4y2Ba
gydF4y2Ba
价值gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
−0.87760gydF4y2Ba
0.05993gydF4y2Ba
−14.64350gydF4y2Ba
.00000gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
−0.97168gydF4y2Ba
0.42857gydF4y2Ba
−2.26728gydF4y2Ba
.02555gydF4y2Ba
ppOR-madgydF4y2Ba
−1.28919gydF4y2Ba
0.74707gydF4y2Ba
−1.72567gydF4y2Ba
.08753gydF4y2Ba
ppOR-qngydF4y2Ba
−0.93906gydF4y2Ba
0.20355gydF4y2Ba
−4.61344gydF4y2Ba
.00001gydF4y2Ba
gydF4y2Ba
-OGKgydF4y2Ba
−0.83845gydF4y2Ba
0.10632gydF4y2Ba
−7.88578gydF4y2Ba
.00000gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
−0.74421gydF4y2Ba
0.11951gydF4y2Ba
−6.22713gydF4y2Ba
.00000gydF4y2Ba
扩大这个问题是考虑如何碱度,pH值和栖息地生境指标定性评价指标(QHEI)影响的生物完整性指数(IBI)。QHEI措施驻留的鱼类栖息地的质量(gydF4y2Ba21gydF4y2Ba ]。QHEI决定从以下六个措施:流衬底,在流覆盖,渠道形态、河岸和银行状况,池和分割质量和梯度。更高的值对应于更好的栖息地的质量,较低的值对应于栖息地质量差。IBI措施鱼的健康社区。IBI的降低值对应只有宽容物种存在,较低的社区组织,高比例的鱼身体异常。鱼高值对应于高度有组织的社区,许多不宽容的物种,和高多样性物种间(gydF4y2Ba22gydF4y2Ba ]。数据由312年观测来自同一个网站。gydF4y2Ba
正交回归模型是适合数据与响应和QHEI IBI、pH值和碱度的预测指标。提出的方法Croux和Haesbroeck [gydF4y2Ba10gydF4y2Ba (以下CH)代替gydF4y2Ba
gydF4y2Ba
-OGK因为增加数量的变量。CH方法是主成分分析的一个健壮的基础上找到一个健壮的特征值估计的协方差矩阵。gydF4y2Ba
表gydF4y2Ba4gydF4y2Ba 显示了系数,引导标准错误,gydF4y2Ba
gydF4y2Ba
价值,gydF4y2Ba
gydF4y2Ba
值回归使用每种方法。请注意,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或估计系数的pH值和碱度是最稳定的,低的标准错误。QHEI系数估计的标准误差最小的为每个方法。QHEI系数的估计CH最低标准估计误差和最大的积极似乎同意最好的生物的期望。更好的栖息地鱼生活在,更好的鱼的健康社区。除了所有方法gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或者和PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
,系数表明IBI和pH值之间的正相关和负相关IBI和碱度之间的关系。虽然没有一个变量在任何回归的统计学意义,这个数据集提供了一个示例的回归系数与异常值正交回归可能会怀疑。gydF4y2Ba
方法gydF4y2Ba
变量gydF4y2Ba
估计gydF4y2Ba
标准错误gydF4y2Ba
∗gydF4y2Ba
TgydF4y2Ba 价值gydF4y2Ba
gydF4y2Ba
价值gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或gydF4y2Ba
QHEIgydF4y2Ba
−0.67248gydF4y2Ba
5.58039gydF4y2Ba
−0.12051gydF4y2Ba
.90433gydF4y2Ba
pH值gydF4y2Ba
0.70695gydF4y2Ba
9.31363gydF4y2Ba
0.07591gydF4y2Ba
.93965gydF4y2Ba
碱性gydF4y2Ba
−1.26714gydF4y2Ba
5.60148gydF4y2Ba
−0.22622gydF4y2Ba
.82150gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
或gydF4y2Ba
QHEIgydF4y2Ba
0.17841gydF4y2Ba
5.79662gydF4y2Ba
0.03078gydF4y2Ba
.97551gydF4y2Ba
pH值gydF4y2Ba
−11.25396gydF4y2Ba
86.54848gydF4y2Ba
−0.13003gydF4y2Ba
.89681gydF4y2Ba
碱性gydF4y2Ba
3.97315gydF4y2Ba
64.00076gydF4y2Ba
0.06208gydF4y2Ba
.95062gydF4y2Ba
ppOR-madgydF4y2Ba
QHEIgydF4y2Ba
0.07038gydF4y2Ba
5.57955gydF4y2Ba
0.01261gydF4y2Ba
.98996gydF4y2Ba
pH值gydF4y2Ba
4.31182gydF4y2Ba
68.31064gydF4y2Ba
0.06312gydF4y2Ba
.94980gydF4y2Ba
碱性gydF4y2Ba
−4.36975gydF4y2Ba
41.89404gydF4y2Ba
−0.10430gydF4y2Ba
.91714gydF4y2Ba
ppOR-qngydF4y2Ba
QHEIgydF4y2Ba
−1.88655gydF4y2Ba
4.41714gydF4y2Ba
−0.42710gydF4y2Ba
.67024gydF4y2Ba
pH值gydF4y2Ba
21.51640gydF4y2Ba
83.28626gydF4y2Ba
0.25834gydF4y2Ba
.79668gydF4y2Ba
碱性gydF4y2Ba
−13.92729gydF4y2Ba
60.63738gydF4y2Ba
−0.22968gydF4y2Ba
.81881gydF4y2Ba
CHgydF4y2Ba
QHEIgydF4y2Ba
0.33704gydF4y2Ba
3.75244gydF4y2Ba
0.08982gydF4y2Ba
.92861gydF4y2Ba
pH值gydF4y2Ba
21.25614gydF4y2Ba
53.26711gydF4y2Ba
0.39905gydF4y2Ba
.69072gydF4y2Ba
碱性gydF4y2Ba
−21.16159gydF4y2Ba
67.57228gydF4y2Ba
−0.31317gydF4y2Ba
.75481gydF4y2Ba
PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
QHEIgydF4y2Ba
−0.97810gydF4y2Ba
9.09927gydF4y2Ba
−0.10749gydF4y2Ba
.91462gydF4y2Ba
pH值gydF4y2Ba
−3.61571gydF4y2Ba
107.89751gydF4y2Ba
−0.03351gydF4y2Ba
.97333gydF4y2Ba
碱性gydF4y2Ba
3.33549gydF4y2Ba
79.46839gydF4y2Ba
0.04197gydF4y2Ba
.96661gydF4y2Ba
∗gydF4y2Ba
基于100年的标准错误引导标准错误引导样品。gydF4y2Ba
5。计算时间gydF4y2Ba
提出了解决方法gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或者是更多的计算量比其他方法比较。这里使用的替代方法解决所有的实例在不到几秒钟。在本节中,我们评估的计算性能的实现gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或。gydF4y2Ba
表gydF4y2Ba5gydF4y2Ba - - - - - -gydF4y2Ba8gydF4y2Ba 包含数据的计算性能gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或在每一个实验。在每个表中,第一列(s)显示的配置数据:对于表gydF4y2Ba5gydF4y2Ba 污染水平gydF4y2Ba
gydF4y2Ba
和污染程度gydF4y2Ba
gydF4y2Ba
;对于表gydF4y2Ba6gydF4y2Ba 样本的大小gydF4y2Ba
gydF4y2Ba
、污染水平gydF4y2Ba
gydF4y2Ba
数据是否有异常值;对于表gydF4y2Ba7gydF4y2Ba 样本的大小gydF4y2Ba
gydF4y2Ba
;对于表gydF4y2Ba8gydF4y2Ba 变量的数量gydF4y2Ba
gydF4y2Ba
。第二列gydF4y2Ba%的最优gydF4y2Ba 表明实例求解最优的比例,这意味着所有MIP子问题解决最优和RLT树分支界限法得到充分的探讨。第三列gydF4y2BaAvg。MIPs解决gydF4y2Ba 包含MIPs的平均数量为每个配置解决了。第四列gydF4y2BaAvg。MIPs次优gydF4y2Ba 包含MIPs的平均数量,120 CPU秒内没有解决最优时间限制。第五列gydF4y2BaTime-to-Term Avg。(年代)gydF4y2Ba 包含较小的平均CPU秒前RLT分支界限法树是探索和7200秒。最后一列gydF4y2BaAvg。时间最好的溶液(s)。gydF4y2Ba 包含的平均时间找到最好的可行的解决方案。gydF4y2Ba
Avg MIPs。gydF4y2Ba
Avg MIPs。gydF4y2Ba
平均每次gydF4y2Ba
平均每次gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
%的最优gydF4y2Ba
解决了gydF4y2Ba
次优的gydF4y2Ba
术语。(年代)gydF4y2Ba
到最好的溶液。gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
7.0gydF4y2Ba
193.2gydF4y2Ba
1。2gydF4y2Ba
289.4gydF4y2Ba
235.2gydF4y2Ba
10gydF4y2Ba
1gydF4y2Ba
6.0gydF4y2Ba
217.9gydF4y2Ba
1。0gydF4y2Ba
282.2gydF4y2Ba
242.7gydF4y2Ba
10gydF4y2Ba
10gydF4y2Ba
6.0gydF4y2Ba
187.0gydF4y2Ba
0.9gydF4y2Ba
279.1gydF4y2Ba
255.5gydF4y2Ba
10gydF4y2Ba
50gydF4y2Ba
14.0gydF4y2Ba
117.9gydF4y2Ba
0.5gydF4y2Ba
199.0gydF4y2Ba
186.4gydF4y2Ba
25gydF4y2Ba
1gydF4y2Ba
9.0gydF4y2Ba
236.4gydF4y2Ba
0.9gydF4y2Ba
287.1gydF4y2Ba
226.2gydF4y2Ba
25gydF4y2Ba
10gydF4y2Ba
1。0gydF4y2Ba
105.7gydF4y2Ba
1。2gydF4y2Ba
231.3gydF4y2Ba
223.0gydF4y2Ba
25gydF4y2Ba
50gydF4y2Ba
24.0gydF4y2Ba
154.1gydF4y2Ba
0.2gydF4y2Ba
163.1gydF4y2Ba
149.4gydF4y2Ba
Avg MIPs。gydF4y2Ba
Avg MIPs。gydF4y2Ba
平均每次gydF4y2Ba
平均每次gydF4y2Ba
gydF4y2Ba
gydF4y2Ba
污染gydF4y2Ba
%的最优gydF4y2Ba
解决了gydF4y2Ba
次优的gydF4y2Ba
术语。(年代)gydF4y2Ba
到最好的溶液。gydF4y2Ba
25gydF4y2Ba
0.05gydF4y2Ba
NgydF4y2Ba
100.00gydF4y2Ba
112.5gydF4y2Ba
0.0gydF4y2Ba
5.7gydF4y2Ba
5.1gydF4y2Ba
25gydF4y2Ba
0.05gydF4y2Ba
YgydF4y2Ba
100.00gydF4y2Ba
116.4gydF4y2Ba
0.0gydF4y2Ba
7.3gydF4y2Ba
6.5gydF4y2Ba
25gydF4y2Ba
0.1gydF4y2Ba
NgydF4y2Ba
100.00gydF4y2Ba
110.8gydF4y2Ba
0.0gydF4y2Ba
6.1gydF4y2Ba
5.3gydF4y2Ba
25gydF4y2Ba
0.1gydF4y2Ba
YgydF4y2Ba
100.00gydF4y2Ba
114.8gydF4y2Ba
0.0gydF4y2Ba
8.2gydF4y2Ba
7.6gydF4y2Ba
25gydF4y2Ba
0.25gydF4y2Ba
NgydF4y2Ba
100.00gydF4y2Ba
140.6gydF4y2Ba
0.0gydF4y2Ba
7.8gydF4y2Ba
6.7gydF4y2Ba
25gydF4y2Ba
0.25gydF4y2Ba
YgydF4y2Ba
100.00gydF4y2Ba
104.1gydF4y2Ba
0.0gydF4y2Ba
10.3gydF4y2Ba
9.9gydF4y2Ba
50gydF4y2Ba
0.05gydF4y2Ba
NgydF4y2Ba
90.00gydF4y2Ba
115.8gydF4y2Ba
0.1gydF4y2Ba
55.4gydF4y2Ba
52.2gydF4y2Ba
50gydF4y2Ba
0.05gydF4y2Ba
YgydF4y2Ba
82.00gydF4y2Ba
111.2gydF4y2Ba
0.2gydF4y2Ba
82.7gydF4y2Ba
80.8gydF4y2Ba
50gydF4y2Ba
0.1gydF4y2Ba
NgydF4y2Ba
94.00gydF4y2Ba
127.3gydF4y2Ba
0.1gydF4y2Ba
53.0gydF4y2Ba
49.8gydF4y2Ba
50gydF4y2Ba
0.1gydF4y2Ba
YgydF4y2Ba
76.00gydF4y2Ba
113.5gydF4y2Ba
0.3gydF4y2Ba
102.4gydF4y2Ba
100.1gydF4y2Ba
50gydF4y2Ba
0.25gydF4y2Ba
NgydF4y2Ba
86.00gydF4y2Ba
115.1gydF4y2Ba
0.2gydF4y2Ba
62.8gydF4y2Ba
60.7gydF4y2Ba
50gydF4y2Ba
0.25gydF4y2Ba
YgydF4y2Ba
44.00gydF4y2Ba
125.9gydF4y2Ba
0.8gydF4y2Ba
186.3gydF4y2Ba
184.1gydF4y2Ba
One hundred.gydF4y2Ba
0.05gydF4y2Ba
NgydF4y2Ba
10.00gydF4y2Ba
119.5gydF4y2Ba
2.4gydF4y2Ba
445.3gydF4y2Ba
434.5gydF4y2Ba
One hundred.gydF4y2Ba
0.05gydF4y2Ba
YgydF4y2Ba
6.00gydF4y2Ba
124.5gydF4y2Ba
3所示。1gydF4y2Ba
548.3gydF4y2Ba
541.4gydF4y2Ba
One hundred.gydF4y2Ba
0.1gydF4y2Ba
NgydF4y2Ba
16.00gydF4y2Ba
106.1gydF4y2Ba
2.1gydF4y2Ba
389.0gydF4y2Ba
378.0gydF4y2Ba
One hundred.gydF4y2Ba
0.1gydF4y2Ba
YgydF4y2Ba
4.00gydF4y2Ba
112.7gydF4y2Ba
4.2gydF4y2Ba
697.2gydF4y2Ba
671.8gydF4y2Ba
One hundred.gydF4y2Ba
0.25gydF4y2Ba
NgydF4y2Ba
6.00gydF4y2Ba
118.7gydF4y2Ba
2.6gydF4y2Ba
465.8gydF4y2Ba
452.3gydF4y2Ba
One hundred.gydF4y2Ba
0.25gydF4y2Ba
YgydF4y2Ba
0.00gydF4y2Ba
114.4gydF4y2Ba
5.9gydF4y2Ba
911.2gydF4y2Ba
886.6gydF4y2Ba
200年gydF4y2Ba
0.05gydF4y2Ba
NgydF4y2Ba
0.00gydF4y2Ba
96.9gydF4y2Ba
7.2gydF4y2Ba
1243.3gydF4y2Ba
1154.3gydF4y2Ba
200年gydF4y2Ba
0.05gydF4y2Ba
YgydF4y2Ba
0.00gydF4y2Ba
99.1gydF4y2Ba
9.1gydF4y2Ba
1459.7gydF4y2Ba
1398.4gydF4y2Ba
200年gydF4y2Ba
0.1gydF4y2Ba
NgydF4y2Ba
0.00gydF4y2Ba
93.4gydF4y2Ba
7.3gydF4y2Ba
1201.8gydF4y2Ba
1150.1gydF4y2Ba
200年gydF4y2Ba
0.1gydF4y2Ba
YgydF4y2Ba
0.00gydF4y2Ba
102.2gydF4y2Ba
10.8gydF4y2Ba
1662.2gydF4y2Ba
1617.2gydF4y2Ba
200年gydF4y2Ba
0.25gydF4y2Ba
NgydF4y2Ba
0.00gydF4y2Ba
108.4gydF4y2Ba
7.3gydF4y2Ba
1249.9gydF4y2Ba
1206.4gydF4y2Ba
200年gydF4y2Ba
0.25gydF4y2Ba
YgydF4y2Ba
0.00gydF4y2Ba
102.3gydF4y2Ba
11.8gydF4y2Ba
1743.9gydF4y2Ba
1704.6gydF4y2Ba
Avg MIPs。gydF4y2Ba
Avg MIPs。gydF4y2Ba
平均每次gydF4y2Ba
平均每次gydF4y2Ba
gydF4y2Ba
%的最优gydF4y2Ba
解决了gydF4y2Ba
次优的gydF4y2Ba
术语。(年代)gydF4y2Ba
到最好的溶液。gydF4y2Ba
10gydF4y2Ba
100.00gydF4y2Ba
134.1gydF4y2Ba
0.0gydF4y2Ba
1。7gydF4y2Ba
1。3gydF4y2Ba
25gydF4y2Ba
100.00gydF4y2Ba
131.9gydF4y2Ba
0.0gydF4y2Ba
9.2gydF4y2Ba
7.9gydF4y2Ba
50gydF4y2Ba
89.00gydF4y2Ba
127.8gydF4y2Ba
0.1gydF4y2Ba
54.8gydF4y2Ba
51.6gydF4y2Ba
One hundred.gydF4y2Ba
1.00gydF4y2Ba
115.7gydF4y2Ba
1。6gydF4y2Ba
358.2gydF4y2Ba
346.8gydF4y2Ba
200年gydF4y2Ba
0.00gydF4y2Ba
105.1gydF4y2Ba
7.7gydF4y2Ba
1481.8gydF4y2Ba
1418.5gydF4y2Ba
Avg MIPs。gydF4y2Ba
Avg MIPs。gydF4y2Ba
平均每次gydF4y2Ba
平均每次gydF4y2Ba
gydF4y2Ba
%的最优gydF4y2Ba
解决了gydF4y2Ba
次优的gydF4y2Ba
术语。(年代)gydF4y2Ba
到最好的溶液。gydF4y2Ba
2gydF4y2Ba
0.00gydF4y2Ba
105.1gydF4y2Ba
3所示。2gydF4y2Ba
1099.3gydF4y2Ba
1020.5gydF4y2Ba
4gydF4y2Ba
0.00gydF4y2Ba
69.5gydF4y2Ba
57.5gydF4y2Ba
7257.9gydF4y2Ba
5511.9gydF4y2Ba
除了引导样品的环境数据gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
4gydF4y2Ba
(表gydF4y2Ba8gydF4y2Ba ),RLT和树是探索在每一个实例。然而,对于许多这样的情况下,至少有一个的MIP子问题不解决最优。的解决方案在这些实例因此不是“可能为“最佳。与所有实例gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
2gydF4y2Ba
5gydF4y2Ba
解决最优。作为gydF4y2Ba
gydF4y2Ba
增加到50和更大的,更少的情况下是最优解。为gydF4y2Ba
gydF4y2Ba
≤gydF4y2Ba
1gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
MIP的子问题不解决的子问题的最优性小于5%平均解决那些实例。为gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
0gydF4y2Ba
0gydF4y2Ba
在模拟集群利用离群值和一致性的实验中,约10%的MIPs不解决最优。引导的模拟gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
4gydF4y2Ba
,超过一半的MIPs没有解决最优。gydF4y2Ba
在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba ),多个实例时最优解决异常污染比较大。相比之下,在模拟集群利用离群值(表gydF4y2Ba6gydF4y2Ba ),更少的实例与污染解决最优,比同伴数据集没有污染。另外,实例的数量最优解决似乎减少随着污染程度的增加。gydF4y2Ba
在模拟垂直离群值(表gydF4y2Ba5gydF4y2Ba ),至少一个MIP不是解决大多数情况下最优。除了极端异常污染的情况下,gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
或执行竞争力相比,健壮的方法。同时,标准误差斜率的一致性试验(表gydF4y2Ba7gydF4y2Ba ),实例求解最优的比例显著降低gydF4y2Ba
gydF4y2Ba
增加,但估计的标准误差继续减少。这些实例,期限MIP子问题并没有阻碍的能力找到好的解决方案。gydF4y2Ba
只有一个实验,引导模拟gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
4gydF4y2Ba
使用数据有超过两个变量。计算性能的退化是更戏剧性的转变gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
来gydF4y2Ba
gydF4y2Ba
=gydF4y2Ba
4gydF4y2Ba
在引导模拟退化观察时gydF4y2Ba
gydF4y2Ba
增加的二元实验。这种现象可能是由于增加的非线性约束需要生产RLT放松。gydF4y2Ba
6。讨论gydF4y2Ba
这引入了一个新的工作gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
正交回归技术,对于被设计成较强的抵抗力。我们开发一种方法得到全局最优解问题的实例。通过仿真,该方法显示了被承诺对离群值。应用程序环境的例子进一步说明抗异常值的方法产生的结果比传统的正交回归和与其他强劲的竞争方法。因此,这种方法使数据分析师处理耐errors-in-variables数据含有异常值替代正交回归。gydF4y2Ba
本文提供的计算研究表明,不同的健壮或outlier-resistant方法在不同的情况下是合适的,并且没有明显优越的方法。pcaPP-mad方法中表现最好的垂直和集群利用模拟数据中离群值,但也许最贫穷的估计现实的例子,其中包含两种类型的离群值。PCA -gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
是表现最糟糕的股票之一的垂直和集群利用模拟数据异常值,但会产生一些最好的估计在实际分析。对PCA -结果的不一致gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
可能是由于方法的依赖有一个很好的起点寻找局部最优解。的gydF4y2Ba
gydF4y2Ba
1gydF4y2Ba
这里介绍或方法执行最好的关于其他方法存在中度污染的垂直异常值但遭受极端的污染。gydF4y2Ba
传统的正交回归(gydF4y2Ba
gydF4y2Ba
2gydF4y2Ba
)也可以作为PCA的特殊情况制定。提出了制定和优化工作的方法可以适应开发一个outlier-resistant PCA方法。outlier-resistant PCA算法将有用的数据分析师处理受污染的数据。另一个可能的扩展是一个outlier-resistant因子分析程序分析分类数据。gydF4y2Ba
承认gydF4y2Ba
作者要感谢两位匿名裁判为许多建议提高这项工作的内容和表现形式。gydF4y2Ba