文摘
经典的小波阈值方法受到边界问题引起的一个有限的信号小波变换的应用。因此,大偏差的边缘和人工摆动时的经典边界假设并不满意。尽管多项式小波回归和局部多项式小波回归有效降低的风险这一问题,这两个方法的估计很容易受到相关噪声和异常值的存在,给了不准确的估计。介绍了两个健壮的方法,边界问题的影响,离群值,同时考虑相关噪声。提出的方法结合阈值估计量与本地多项式模型或者使用广义最小二乘法多项式模型而不是普通的一个。一个主要步骤,包括去除外围观察通过统计函数被认为是。提出的方法已被评估的实际性能通过仿真实验和真实数据的例子。结果是强有力的证据表明,该方法是非常有效的纠正偏见的边界和消除异常值和相关噪声的影响。
1。介绍
假设一个嘈杂的数据集生活在固定的设计模型 经典的模型(1.1)假设未知函数,是平方可积的间隔。序列是独立的,与相同的分布通常意味着零和相同的差异。小波方法一直集中在过去二十年中用于估计一个未知函数中噪声的存在,之后的开创性工作的开创性论文Donoho和约翰斯通1,2),小波阈值的概念引入统计文学。研究人员已经开始寻找的情况通常假设不再满意。当噪声包含一定数量的结构形式的相关性,小波系数的差异取决于分辨率的小波分解,但将在每个级别不变。结果,全球阈值分解,因为它很大的困难提供了一个全局阈值阈值小波系数所需的水平。为了克服这个限制,约翰斯通和西尔弗曼3)推荐使用级别,级别的阈值,也就是说,不要只使用一个阈值值系数在所有分辨率水平,而是取决于一个水平。等不同的阈值方法被认为是普遍的Donoho和约翰斯通1),确定Donoho和约翰斯通2),平移不变的去噪算法Coifman和Donoho4]。细节可以在约翰斯通和西尔弗曼3]。(提出的等级相关阈值方法3考虑噪声相关的情况但静止的。如果噪音是相关但不固定,DWT系数将异方差的和相关的。科瓦奇和西尔弗曼5)考虑到这些情况,并提出了更一般的阈值方法,既可用于平稳和非平稳的噪声。另一种方法是提出的小王和木材(6),数据的协方差结构已被考虑。这种方法是基于估计噪声的相关结构在两个不同的领域,即时间域和小波域。异常值的存在,很多研究进行了消除异常值的影响。离群值的数据通常导致大型系数在小波分解。这些大系数将不会被通常的阈值方法。一个健壮的小波阈值估计可以追溯到早期的科瓦克(7),阈值是应用于中值滤波器的输出。此外,科瓦克和Sliverman [5)提出了一个健壮的过程包括以下步骤。首先,使用统计检验问题识别异常值。然后,这些异常值从数据中删除。最后一步是将小波阈值应用到剩余的间隔不规则数据来估计潜在的功能。Sardy et al。8)提出了一个健壮的斜小波去噪方法。Averkamp和Houdre9)将小波阈值的极大极小理论扩展到一些已知的对称沉重的尾巴的声音。以类似的方式科瓦奇(7),魏et al。10)使用一个两阶段健壮的基于中值滤波和小波阈值去噪方法。在第一阶段,腐败的数据是通过中值滤波,抑制异常值。在第二阶段,数据与柔软的小波阈值萎缩,和最终的重建信号。最近,新方法提出了哦et al。11),基于伪数据的概念,哦et al。12),基于稳健估计内强劲的阈值的概念。Altaher和伊斯梅尔13)表明,这些方法的实际性能将提高考虑提出的自动边界处理哦et al。14和哦和李15]。
在所有的文学上面所讨论的,科瓦奇和西尔弗曼5)是唯一考虑相关噪声和离群值的影响同时,但是这种方法的局限性是使用经典边界假设。这个方法执行边界假设感到满意,但其实际成就可以大大提高利用多项式小波回归的想法(压水式反应堆)或局部多项式小波回归(LPWR)自动边界修正。我们得出结论,有一个真正的需要找到一个合适的方法同时考虑边界问题的影响,相关的噪音,和离群值估计;这是本文的主要贡献。
本文的其余部分组织如下。节2,我们给一个简短的背景自动边界的治疗方法在小波回归。部分3综述了小波估计科瓦奇和西尔弗曼5)和广义最小二乘法,紧随其后的是我们建议的方法。仿真实验和实际数据的例子介绍了部分4。结论部分5。
2。背景
2.1。在小波阈值边界处理
边界效应已经被考虑在使用经典的小波阈值征收一些如对称或周期性边界假设。不幸的是,这种假设并不总是有效的,某些情况下的问题仍然存在。边界问题可以自动使用的原则多项式小波回归(压水式反应堆)或局部多项式小波回归(LPWR)。
2.1.1。多项式小波回归(压水式反应堆)
多项式小波回归方法(压水式反应堆)认为哦et al。14)是基于小波函数的组合和低阶多项式。因此,的估计量,,是
最优阶多项式模型将使多项式估计消除“nonperiodicity”数据。然后,剩下的信号可以使用小波阈值,以及估计说,一个周期性边界的假设。不同的方法已经被提议为了找到这样的选择合适的多项式秩序和阈值。阈值,EBayesThresh程序(16)是最受欢迎的良好的理论性能和良好的性能仿真和实践。找到,提出了观测数据回归在对于一个固定的值,。一次据估计,剩下的残差信号将被隐藏,。为此,第二步是应用小波回归。最后的估计会的总和吗和在(2.1)。例如,更多细节,请参阅哦et al。14)和李哦(17]。
压水式反应堆的使用有效地解决边界问题工作如果多项式估计量可以移除“nonperiodicity”数据,这当然需要使用一个适当的顺序与一个合适的阈值。提出了不同的标准来帮助选择多项式模型的顺序应该被纳入小波函数为了得到成功修正偏差的边界地区。这里我们给出一个简要介绍常见的。(1)李和哦(17)提出了两个标准:第一个标准使用的价值最大化 在这里,表示参数多项式模型的系数。在这个方法中,这个顺序的典范被用于确定阈值。(2)第二个标准是基于贝叶斯信息准则(),这是用来选择通过最小化 在这种方法中,一个模型应该使用EbayeThresh约翰斯通和西尔弗曼(16]。(3)哦,和金18)提出了三种不同的贝叶斯方法集成的可能性基础上,有条件的经验贝叶斯,可逆跳转马尔可夫链蒙特卡罗(密度)。关于这些方法的数学细节,看到哦,金(18]。
2.1.2。局部多项式小波回归(LPWR)
介绍了局部多项式小波回归方法哦,李(15)作为一个改善边界调整小波回归。而不是使用全球多项式适合哦et al。(14),提出用局部多项式,。因此,局部多项式小波回归估计量,,可以编写如下:
哦,李所示15),可以通过迭代算法计算受back-fitting算法的启发,看到约翰斯通和西尔弗曼16]。下面的步骤总结要点寻找最后的局部多项式小波回归估计,。(1)选择一个初始估计为,让。(2)为重复以下步骤。(一)小波阈值应用到剩余工资并获得。(b)估计通过拟合局部多项式回归。(3)如果停止是收敛的。
3所示。方法
3.1。小波估计科瓦奇和西尔弗曼5]
约翰斯通提出的等级相关阈值方法和西尔弗曼3考虑噪声相关的情况但静止的。在这种情况下,小波系数的方差之间的不同水平是相同的,但系数可以通过水平阈值水平,看到Altaher和伊斯梅尔19数值模拟结果。另一方面,如果噪声相关但不固定,离散小波变换(DWT)将异方差和相关系数。科瓦奇和西尔弗曼5)考虑到这些情况,并提出了更一般的阈值方法可以用于平稳和非平稳的噪声。
所示科瓦奇和西尔弗曼5),一个算法可以用来找到所有的差异,within-level协方差与给定序列的小波表中的协方差结构。如果原始数据的协方差矩阵是带限,然后算法是线性序列的长度。也已经表明,variance-calculation算法允许数据在任何组自变量的值治疗如下:首先,嘈杂的数据插入到一个新的等距的合适长度的网格(函数makegrid在R可以使用)。然后,小波阈值应用到网格数据。
基于给定的信息科瓦克和西尔弗曼5),该方法的要点如下。
给定一个离散序列观察到在,提出了一种新的等距的网格在是生成的,,,,。
在此基础上网格,原始数据值在是线性插值的新的数据值在新网格: 这种插值可以写成矩阵形式如下: 的矩阵是线性变换矩阵。小波回归的第一步是应用离散小波变换,可以写成矩阵形式如下: 在哪里是小波矩阵。从最初的观察的协方差矩阵,相关吗是由 对所有和,考虑阈值的形式 在哪里,通用阈值。
虽然这种方法对许多不同种类的功能很不错,只有经典治疗边界问题被认为是周期性或对称)(如假设。现在,作为我们的动机提出了方法,描述之后,我们这里现在非常受欢迎的功能,称为fg1 Donoho和约翰斯通1]显示严重这一传统方法回归函数时的行为既不是周期也不是对称的。然后,我们将展示如何提高评估质量,如果我们把这种方法与一个多项式模型或本地多项式模型。图1描述了软弱和估计方法的改进5]。在这个图中,可以看出,最适合的是我们建议的方法,也就是说,当我们结合科瓦奇的阈值方法和西尔弗曼5与多项式或局部多项式模型)。
(一)
(b)
(c)
(d)
细节对于这些方法将给定的未来,但首先,我们将介绍广义最小二乘的方法,将该方法用于我们的第一阶段。
3.2。普通最小二乘法和广义最小二乘法
考虑到标准线性模型: 在哪里是响应向量;是一个模型矩阵;是一个向量的参数估计;是一个向量的错误。错误的词可能是常数,不相关的或相关,如,在那里variance-covariance矩阵的错误。根据这两个假设,我们可以区分两个公式的参数估计。
如果,然后 相关噪声的存在有几个对OLS的影响。虽然回归系数估计仍是公正的,他们不再是最小方差估计。在呈正相关噪声的情况下,剩余均方误差可能严重低估了误差方差,。因此标准回归系数的错误可能是太小了。因此,置信区间比他们应该短,看到蒙哥马利et al。20.]。
另一种解决方案,估计回归系数的相关噪声是使用以下广义最小二乘估计。
如果,然后 使用Choleski分解,矩阵三角矩阵可以写成,,这样。模型(3所示。6)可以写成: 在哪里和。在新的模型(3.10)可以很容易地显示。
3.3。提出了稳健估计方法对数据异常值和相关噪声
在本节中,我们将提出一些两级相结合的方法,可用于异常值的存在及相关噪声。在压水式反应堆和LPWR的经典方法是使用OLS残差。由于严重的OLS相关噪声的影响,我们建议使用广义最小二乘的方法(gl)作为一种有效的替代解决方案摆脱(或者至少是减少)这些影响。的一个主要步骤去除外围观察是雇佣申请前gl。
在第二阶段,我们采用小波阈值估计所示部分3所示。1为消除剩余的噪声。因此,最后的估计将求和函数的估计从多项式模型(或局部多项式)第一阶段的估计科瓦奇和西尔弗曼5在第二阶段]估计量。
以下两个算法描述我们提出两个方法。第一个算法对压水式反应堆和第二个是LPWR。
算法3.1。让是原来的嘈杂的数据样本。以下几个步骤描述第一个方法。(1)删除任何异常值。这个函数get.outliers在R可用于确定可能的问题离群值。(2)插入的数据到一个新的等距的设计和在接下来的步骤中使用它们。这个函数makegrid可以使用(R)。(3)应用广义最小二乘法,并选择最优多项式用于获得然后是残差。这个函数用于应用gl;它可用在Rnlme包中。(4)应用小波阈值过程的5残差和发现。(5)最后的估计。
算法3.2。类似于算法3所示。1,第二个方法包括下列步骤。(1)删除任何异常值。这个函数get.outliers使用。(2)这个函数makegrid用于插入剩余的数据到一个新的等距的设计和在接下来的步骤中使用它们。(3)应用局部多项式估计使用插值数据然后剩余工资。(4)应用小波阈值过程科瓦奇和西尔弗曼5残差和发现。(5)最后的估计。
4所示。评估的实际性能
4.1。仿真实验
R统计软件包被用来进行模拟研究,以比较的数值表现以下三种方法:(1)科瓦克的小波回归方法和西尔弗曼5),贴上(I)。(2)该方法基于多项式模型,贴上(II)。(3)该方法基于局部多项式模型,贴上(III)。
我们模拟100 -时间序列数据的长度128使用三种常见相关流程模型和不同的参数。这些产品包括第一和二阶自回归模型和一个一阶移动平均模型,见下表1。对于每个模型中,我们添加了四种不同的噪音,类似于Gelper et al。21]。然后三个小波回归方法(I, II, III),最后,全球和当地均方误差计算进行比较。四种噪声如下。(1)纯粹的正常噪音0均值和方差等于1(干净数据、CD)(2)混合正常噪音:0.95+ 0.05(对称离群值平方)。(3)混合正常噪音:0.95+ 0.05(非对称离群值,AQ)。(4) 噪音(肥尾噪声)。
生成时间序列数据将确保我们的数据与相关噪声。上面提到的声音将扮演的角色有离群值。第二声音设置,例如,清洁观测的一小部分被对称的异常值(SOs),在第三声音设置,取而代之的是不对称的异常值(代谢)。最后噪音噪音是一个沉重的尾巴,一个常见的例子非高斯噪声和离群值。
全球平均平方误差的数值结果和地方均方误差给出了表3,4,5。检查这些仿真结果时,以下经验的言论。(我)在全球均方误差:(1)在干净的数据的情况下,全球均方误差表明,提出的方法(3)优于其他两种方法对所有三种自回归模型与四个不同的参数。其他两个方法,该方法(I)优于传统方法的5]。唯一的例外是为AR(2)参数(0.2,0.7)。(2)在对称的离群值的情况下,全球均方误差表明,提出的方法(2)优于其他两种方法为所有三个自回归模型和他们的四个不同的参数。唯一的例外是马(1)与参数(3.8)。在这种情况下,该方法(3)提供了最好的结果。(3)在不对称的离群值的情况下,全球均方误差表明,提出的方法(2)优于其他两种方法为所有三个自回归模型和他们的四个不同的参数。(4)肥尾的数据,全球均方误差表明,提出的方法(3)执行比其他两种方法对所有三种自回归模型与四个不同的参数。(2)的地方均方误差:(1)在干净的数据的情况下,当地的均方误差表明,提出的方法(3)优于其余三个自回归模型的两种方法及其四个不同的参数。唯一的例外是AR(1)与参数(0.3)和AR(2)参数。(2)在对称的离群值的情况下,当地的均方误差表明,提出的两个方法II和III超越科瓦克的传统方法和西尔弗曼5]。AR(1)和AR(2),该方法(2)实现更好的结果除了参数(0.3)和(0.1,0.5)。(3)在不对称的离群值的情况下,当地的均方误差表明,提出的方法(2)优于其他两种方法除了与参数AR(1)(0.9)和马(1)参数(3.8)。(4)在长尾的情况下数据,当地的均方误差表明,提出的方法(3)执行优于其他两种方法。(5)一般来说,在全球均方误差方面,从48本模拟中使用不同的模型和不同的参数,它已经发现,首次提出方法赢得了25倍,第二个方法赢得了23倍,而科瓦克的传统方法和西尔弗曼5甚至没有赢得一次。当地的均方误差,48个不同的模型和不同的参数用于模拟,人们已经发现,第一个提出方法赢得了19倍,第二个方法赢得了22倍,而科瓦克的传统方法和西尔弗曼5]只赢得了7次。
总的来说,这仿真实验表明,提出的两个方法是可取的,科瓦奇和西尔弗曼5在拟合数据与相关噪声和离群值。
4.2。评估通过真实数据的例子
在本节中,我们将应用科瓦克的传统方法和西尔弗曼5),这两个新提出的两个数据集的方法。
第一个数据是美国月度流感死亡率数据取自沙姆韦和Stoffer22]。响应变量表示在月肺炎和流感造成的死亡。图2是每月的情节肺炎和流感在美国每10000人死亡11年从1968年到1978年。许多有趣的特性中可以看到这些数据。死亡的人数通常会增加更慢比减少。没有理由认为这个时间序列是一个线性高斯过程。如果是这样的话,我们就没有见过这么大的正面和负面发生周期性的变化。
第二个数据也从沙姆韦和Stoffer [22),全球平均气温偏差年摄氏度(1880 - 1943);参见图3。
我们首先研究相关的结构,以确保我们有数据与相关噪声。图4显示了自相关函数和相应的偏相关函数。然后我们跟进的Durbin-Watson统计数据通过计算OLS回归估计,见下表2。显著的相关性结果明确证据的滞后1,4,5为两个数据集。
(一)
(b)
(c)
(d)
图5使用两种提议的方法显示了估计曲线(面板(c)和(d))和传统方法(科瓦奇的面板(b))和西尔弗曼(5]。视觉评价是不够的,以确定哪些方法是比其他的更准确,所以我们用的均方误差判断。均方误差值(0.01127487、0.01046806和0.004596079)的传统方法,第一个方法,第二个方法,分别。这意味着最适合由第二个方法,然后提出方法,最后通过传统的方法。
(一)
(b)
(c)
(d)
第二个数据集的拟合是描绘在图6。均方误差值(0.008085288、0.006734333和0.005019866)。这意味着最好的配件是由第二个方法,然后提出方法,最后通过传统的方法。
(一)
(b)
(c)
(d)
达到一个类似的结论,当我们检查当地的均方误差。当地使用第一个数据集均方误差值是0.01767953,0.01677273,和0.00516326,第二个数据集,0.007946142,0.002644399和0.002241301。
5。结论
摘要边界问题和相关噪声和离群值的影响考虑小波阈值估计。同时提出了两种组合方法来消除边界的影响问题,离群值,相关噪声。提出的方法结合的阈值估计量5)与当地的多项式模型或一个多项式模型,通过广义最小二乘估计。仿真实验和实际数据的例子被用来评估该方法的实际性能。总的来说,结果表明,提出的两个方法是可取的科瓦奇和西尔弗曼5在拟合数据与相关噪声和离群值。
承认
作者要感谢马来西亚理科大学的财政支持。