文摘

小说multimodel合奏方法基于学习数据使用神经网络(NN)技术是制定和应用为提高24小时降水预测在美国大陆。发达非线性方法允许我们考虑非线性相关性乐团成员和生产“最佳”表示为一个非线性神经网络预测整体的意思。神经网络方法与保守的多模型集成相比,使用多元线性回归整体方法,和由人类预测结果。神经网络的多模型集成提高了保守的多模型集成和多元线性回归整体,它(1)显著减少高偏差在低降水水平,(2)显著减少偏见在高降水水平低,和(3)提高特性使它们更接近观测到的。神经网络多模型集合执行至少以及人类预测提供相同的信息。发达的方法是一个通用的方法,也适用于其他多模型集成领域以及单一模型集合体。

1。介绍

对数值天气预报(NWP)模型、降雨是最困难的领域来预测准确。大气湿度和垂直运动的详细知识领域是至关重要的预测位置和数量的降雨,但这些都是难以准确预测和观察的数量。降雨雪是由云动力学和微观物理学的过程决定的。云和对流是最重要和复杂的大气系统的现象。控制云的过程,通过它们与地球系统的其他组件包括慢速和快速流体运动携带热量,水分,动力,和微量成分,并影响其他重要物理过程通过水的相变物质,辐射传输、化学、生产和去除微量成分和大气电(1]。这些过程在时间和空间高度可变。

参与过程的时间尺度范围从几天到几秒钟(一些微观物理学事件),和空间尺度变化从数千公里(气旋现象)数十微米(云中的水滴的大小)。在这种情况下,一个单一的数值天气预报模型不能充分代表了云动力学和微观物理学的过程在降雨的一代,因为多数这些过程发生在次网格尺度,这意味着他们的时间和空间尺度远低于鳞片NWP模型中显式地处理解决。通常NWP模型空间分辨率, ,从几(区域模型)到几十公里(全球模型)。这意味着该模型不解决任何大小的网格单元内部发生的过程 × 公里。这样的过程称为次网格过程。因此,NWP模型必须采用参数化治疗次网格过程(例如,对流云团)在一个非常简化的方法有效地考虑次网格处理(云相关的流程),降水量的确定非常重要的参数。

使用参数化对流物理学引入不确定性定量降水预报(QPFs)由于至少有两个原因: ( 1 ) 通常存在各种不同的方法来开发参数化;因此,使用各种参数化存在和产生不同的QPFs和在不同的模型 ( 2 ) 一个特定的模型使用一个特定的参数化生产QPF所确定的大规模(模型)所描述的条件独立于精细情况(未解决的模型)。精细的场景可能发生显著的变化,这取决于一个特定的地点和时间,导致实际的降水量为每个特定的位置和不同时间和不同QPF预测的模型。除了不确定性QPFs由于上述预测模型的局限性,QPFs的不确定性可能出现错误的结果观察由于观测系统的缺点。因此,QPF应该被视为随机变量与重大不确定性和统计特征可能取决于时间和空间位置。

来弥补缺点的观测系统和模型的物理QPFs减少不确定性,有趋势近年来集成预测,由实现模型集成的数量,也就是说,不同的摄动运行相同的数值天气预报模式或不同的数值天气预报模型。预报系统(系统)使用摄动初始条件都进行了广泛的测试和用于操作在欧洲中期天气预报中心(ECMWF)和美国国家环境预测中心(NCEP) (2,3]。使用此策略,一个可以估算各种事件的概率,也可能与一个特定的预测相关的不确定性。系综平均一再被证明能够给出一个更准确的预测比单一预测模型的实现(4,5,9]。缺点与单模系统 ( 1 ) 这种技术的计算非常昂贵和分辨率较低版本的模型通常用来降低计算费用,减少预测和质量 ( 2 ) 假设错误结果主要来自初始条件的不确定性,任何偏见存在于模型本身也将出现在合奏和可能需要校准。最近引入的“随机”或“不安”模型物理试图占subgrid-scale流程建模的不确定性(2,6,7]。

Multimodel合奏(MME)是另一种方法,来解决上述问题。艾伯特(8]详尽调查的居里夫人方法的优势和问题使用一个居里夫人由七个业务数值天气预报全球和区域模型。在居里夫人的情况下,整体由输出不同的高分辨率数值天气预报模型(通常是运行在不同的操作天气预报中心),而不是降低分辨率单一模型摄动系统初始条件。与支付系统使用奇异向量或育种模式来生成最优扰动的初始条件,居里夫人样品初始条件的不确定性通过不同的观测数据,数据同化系统,初始化方法所使用的不同的操作中心。居里夫人也样本不确定性模型公式由于模型动力学的差异,各种各样的物理参数化模型,数值和决议。因此,居里夫人可以被看作是一个方法,数值天气预报系统的所有组件的摄动不仅初始条件或物理模型。另一方面,任何方法一样,这是因为有一些缺点。例如,有固有的缺乏控制范围intermodel差异,考虑到所使用的模型输出”。“同时,模型中包含的居里夫人需要持续的监控,因为一些模型的质量可能恶化随着时间的推移。尽管有这些限制,许多作者(8- - - - - -10)展示了性能优越的QPFs居里夫人。

在本文中,我们引入了一个新的非线性的居里夫人基于学习使用神经网络(NN)从数据集成技术。NNs和NN乐团已经成功应用在其他气候和气象应用程序(11- - - - - -13]。本研究的目的是检查改进非线性NN-based居里夫人可能引入正则(线性)居里夫人的降水预报。下一节描述了预测和验证数据,我们在研究中使用。部分3评论线性计算合奏乐团成员和预测相结合的方法,介绍了非线性NN-based杜洛瓦部分4包含结果及其讨论。本文的最后结论。

2。预测和验证数据

24小时降水预测在美国大陆(圆锥)可从8操作模型,包括NCEP的中尺度和全球模型(南和GFS),区域和全球模型从加拿大气象中心(CMC和CMCGLB),来自德国的全球模型Wetterdienst (DWD),欧洲中期天气预报中心(ECMWF),日本气象厅(日本)和英国气象局(UKMO)。

还摘要气候预测中心(CPC) 1/8每日测量降水分析可用程度。中国共产党的分析得到用于训练和验证模型预测的“地面实况”。

所有网格数据字段插入相同的网格,40公里的兰伯特正形AWIPS电网212年,包括圆锥和有23865个网格分领域。

模型与中共QPFs分析比较表明,所有的模型展示类似的行为在较低水平的降水略有湿润比中共分析和水平较高(> 50 - 60毫米/天)比中国共产党干燥器分析(详细讨论,请参阅[14])。此外,高点和低点的位置和细节降水的降水特点是不同的领域所产生的不同的模型。这些差异的原因进行了讨论1。模型结果(24小时预报)三种模式(南、GFS和ECMWF)中国共产党一起验证分析如图1在2010年10月24日。这个数字说明了问题,演示了一个典型的模型预测之间的分歧。

所有提到的八个模型的预测在2010年的前六个月在图所示2作为一个散点图,提出了24小时QPF策划与分析。超过 4 × 1 0 6 事件了。图展示了一个巨大的传播模型的结果。预测的不确定性在更高水平的降水数量特别大。相同的信息显示为封存所有eight-model的散点图如图24小时预测与共产党验证分析3。模型创建一个信封传播与降水的增加率增加。所有的模型在高水平的降雨雪越来越低的偏见。

数据23说明很好上述问题和展示所考虑的系统的随机性质。保守的套装意味着(厚的实线星号),在下一节中定义(见(1)),在信封的中间,而不是改善情况。在下一节中,我们调查的可能性提高Multimodel合奏技术24小时降水预测使用线性多元线性回归和非线性(NN)技术改进保守的线性合奏(1)。

3所示。方法

在居里夫人在EPS基于单个模型中,最终产品的乐团成员的组合。在一个特定的时间在一个特定的地点的合奏 乐团成员, 预测, , = 1 , , ,可用于一个特定变量 。产生一个预测,乐团成员应该结合预报值。最简单和最常见的组合是算术合奏乐团成员意味着(EM),这是作为一个简单的计算平均乐团成员(又名保守的合奏): 1 E = = 1 , ( 1 ) 在哪里 乐团成员和总数吗 乐团成员产生的型号 。这种方法结合乐团成员有两个主要优点:(i)它不需要任何额外的信息;因此,(2)独特的结果(1),他们总是可以计算。主要的缺点是没有担保,(1)最佳的利用信息由预测因素的集合。

更复杂的方法使用加权系综均值(电话): W E = = 1 , = 1 = 1 , ( 2 ) 乐团成员都是订阅的重量, ,通常是基于一些特别的考虑。例如,如果从过去经验众所周知,一些模型给比别人更好的预测,它们可以订阅与更高的权重2)。

此外,多元线性回归技术已经应用(15,16)确定最优权重, 结合乐团成员。这种方法可以使用只有一个训练数据集可以学习从数据回归系数;显著改善了使用加权合奏的意思是在简单的合奏的意思。

如果训练数据是可用的,(2)可以推广和其他预测, , = 1 , , 可以包含在线性回归 W E = = 0 + + = + 1 ( 3 )

上述方法(简单和加权平均数)隐式地假定一个乐团成员和最好的预测价值之间线性相关(降雨雪量在我们的例子中)。然而,在许多情况下,预测是显著相关的。本文考虑,这是因为QPFs由不同的数值天气预报模式相同的时间和地点是相似的和相关的。线性回归技术成为数值病态矩阵在处理相关的预测和可能需要额外的数值计算工作。此外,在某些情况下,对于线性关系的假设可能是错误的本身。例如,对于更长的预测合奏的时候分岔预测可能发生时,它会导致误导的结果。也为字段(如降水字段)和高梯度和锋利,局部特性,线性的假设可能导致重大问题在居里夫人的预测(见以下各部分更详细的讨论)。在这种情况下,乐团成员之间的依赖和最好的预测价值可能是一个复杂的非线性问题。

在这项研究中,我们放松的线性假设,允许任意非线性依赖中国的居里夫人成员之间和最好的预测价值,居里夫人,因为 E = ( ) , ( 4 ) 的向量 = { , } , = { } = 1 , , ,是一个向量的预测和乐团成员 = { } = 1 , , 是一个向量额外的预测,这可能适应时间和地点的依赖,等等。

神经网络(NN)技术用于近似任意非线性依赖(4)使用训练集由过去的数据学习神经网络权值的数据。使用神经网络技术,因为神经网络是一种通用近似者,可以近似任何连续或几乎连续依赖给定一个代表数据集训练(17,18]。非线性神经网络整体的意思(NNEM),这里我们介绍,定义以下(16,19];它是一个分析多层感知器,可以写成 N N E = 0 + = 1 0 + = 1 , ( 5 ) 在哪里 组件的输入向量 (一样(4)由相同的 输入(乐团成员)与用于EM和电话方程(1)和(2)+可选的额外的输入参数(见(4)和部分4), 输入的数量( ), 拟合参数(权重),然后呢 ( 0 + = 1 ) 是一个所谓的“神经元。“对激活函数, ,我们使用双曲正切, 神经元的数量(5)。

这是值得注意的重复,表达式(5)可以逼近任何非线性nonstochastic变量之间的关系。然而,用于训练神经网络的训练集(5)是由输入和输出的不确定性。的输入, QPFs包含向量, 、数值天气预报预测的模型和输出包含观测降水(CPC验证分析)。输入和输出都含有重要的不确定性(见部分1),是随机变量。这意味着非线性函数 (4)也是一个随机函数,因为它描述了两个随机变量之间的关系。

实际上,函数的随机函数是一个家庭,每一个都描述了两个考虑变量之间的关系在一个走廊由这些变量的不确定性概率由这些变量的联合概率分布。因此,一个单一的神经网络(5)不能提供足够的逼近随机函数(4)。然而,神经网络技术是富人和足够灵活来解决这个问题。建议(20.),得到一个可以作为足够的工具来逼近随机函数(映射)。因此,在本文中,我们产生多个NNs(一种神经网络集成)近似随机函数(4), 。每个NN乐团成员由(5)。最后,QPF NN系综平均计算 1 N N E = = 1 N N E , ( 6 ) 在哪里 是得到的数量(5)神经网络集合,每个 N N E 是其中之一 NNEMs (5)。有许多不同的方法创建NN的集合体。在这项研究中,我们使用了一个合奏NNs (5),有不同的权重 对应于不同的局部最小值的神经网络训练误差函数最小化。这些最小值被发现使用不同的神经网络权值初始化

利用神经网络计算合奏的居里夫人的意思是,MNNEM, (6)有一个额外的优势。它使我们能够计算神经网络的散射乐团成员NNEMs的标准差 = 1 = 1 N N E N N E 2 , ( 7 ) 可能是有用的预测估算的不确定性的居里夫人。

因为前面描述的模型问题,研究社区一直在探索各种方式更好的降水预报。方法调查中在摘要和摘要,我们考虑一个居里夫人,平均在三种不同的方式计算(我)一个保守的合奏,EM (1),(2)基于多元线性回归的电话(8),(3)非线性神经网络合奏MNNME (6),基于NNEM (5)。不同的居里夫人技术已经申请24小时降水预报计算圆锥的领土(14]。

首先,我们介绍和研究了一种改进的线性方法。我们定义的电话(3在以下方式)作为多元线性回归(21]: W E = 1 c j d + 2 年代 j d + 3 l 一个 t + 4 l o n + 8 = 1 + 4 , ( 8 ) 在哪里 { } = 1 , , 1 2 回归参数, c j d = c o 年代 ( ( / 1 8 3 ) j d 一个 y ) , 年代 j d = 年代 n ( ( / 1 8 3 ) j d 一个 y ) ) jday是儒略日,lat纬度,经度是经度, 乐团成员在一个特定的网格点的圆锥与纬度和经度坐标网格在特定时间(jday)。因此,多元线性回归(8总共有12个输入参数。

每个居里夫人NN成员(NNEM)被定义为(5),输入向量 是由相同的吗 = 1 2 输入与用于电话(8)。前两个参数占环境的非平稳的周期平稳行为(年度周期)。因为我们只有一年过去的数据用于开发,我们只考虑了这些基本周期平稳变化;然而,在必要时可以引入更一般的时间依赖性。

= 7 隐藏的神经元(5)选择经过多次试验,以避免过度拟合(21]。电话和NNEM都有一个输出,24小时降水预报。相同的共产党分析对应的预测被用来训练输出在这两种情况下。值得注意的是我们的回归参数和神经网络权重NNEM不取决于位置和时间和所有网格点和时间都是一样的。电话和NNEM训练之后,他们使用相同的回归系数(或权重NN)在任何圆锥网格的网格点。因此,依赖于时间和地点的结果只有通过输入参数。

降水量是一个不平衡的数据集,因为一个好的百分比的网格点是零,而其余的各种值大于零。降水量的分布非常不对称,正态分布。实际上,降水量具有对数正态分布分布,这意味着对数的降水量的分布接近正常(见图4)。因为我们的均方误差函数最小化训练,与非对称非正态的分布不平衡的数据集可以显著恶化训练过程的准确性。为了缓解这个问题,我们使用了对数的沉淀得到的输出(5),我们训练有素的平衡数据集和处理数据分布式几乎正常(见图4)。

4所示。结果与讨论

电话和NNEM年代已经开发使用2009数据(超过310000 /记录(21])。他们一直在验证独立2010年上半年的数据,例如,结果如图25计算了使用这些独立的验证数据。数据中提供的案例研究68和计算统计图所示9完全独立的数据,从2010年10月至2011年7月一直在使用。

3显示了被散点图的降水在圆锥领土在2010年的前六个月。它显示了八个可用的模型与EM (1)与中国共产党的分析结果。我们可以看到在图3保守的合奏EM (1)(中间)信封内创建的模型。一般来说,新兴市场提供了一个更好的位置降水区域;然而,它并不显著改善这种情况。此外,新兴市场(1)轻抚,扩散特性,减少空间梯度;高过偏见对低水平的降雨(大面积虚假低降雨雪)和低过偏见在高水平的降雨(高位平滑,减少)。这些数据说明问题5,6,7,8。他们驱使我们去寻找改进技术包括非线性神经网络。我们的验证表明,降水场、电话(8)不显著改进常规Multimodel合奏EM (1)。在图5,这两个合奏,EM和电话,显示由厚固体和相应的冲黑色线条。从数据可以看出35,所有的模型、EM和电话比中共分析低降水略有湿润数量明显比中国共产党干燥器分析降水含量更高。线性乐团,他们的电话,不改变现状明显(见图5(一个)5 (b))。多元线性回归整体,电话,不引入任何明显的改善迹象。

另一方面,有一个重要的区别线性系综平均技术(1)和(8)和非线性(5)。EM (1)都是独一无二的。电话(8)总是提供了独特的解决方案对于一个给定的训练集,非线性系综平均NN合奏意味着NNEM (5),可以提供多个解决方案对于一个给定的训练集。准确的训练数据(nonstochastic函数(4),没有不确定性),不同的解决方案有不同的近似错误,最好的解决方案可以选择最小的近似误差。训练数据的高水平的不确定性(噪音),像我们的数据如图23,多个解决方案几乎相同的近似精度接近数据的不确定性。这意味着所有这些解决方案都提供同样有效的非线性平均的居里夫人。

的神经网络方法,我们训练有素的合奏十一来用户(5)相同的架构( = 1 2 输入,一个输出 = 7 隐藏的神经元),但不同权重的初始化值 (见(5))。所有十一来用户初始化不同的小随机数使用初始化过程开发的(22]。这些得到的训练,这是一个非线性最小化误差函数,导致十个不同的局部最小值的误差函数大约相同的值的近似误差。然而,由于这十NNs有不同的权重 (见(5),他们的地区产生非常不同的结果数据的不确定性较高(过更高水平的降雨)。增加乐团成员的数量超出十不会导致显著的改善结果。

结果的应用不同的居里夫人平均NNs (NN乐团成员)验证数据集在图所示5。它显示了他们被散点图(1)、电话(8)和十NNEMs (5)( N N E , = 1 , , = 1 0 )。图5(一个)显示整个降水区间值从0到145毫米/天图5 (b)放大低降水区域从0到50毫米/天。

所有十NNEMs降水的好协议在较低的水平。他们在更高水平的降水明显分歧。他们的大传播反映了数据的不确定性的不确定性,也就是说,不同的预测更高水平的降水的不同成员的居里夫人(见图2)。

但值得一提的是,在训练和验证数据集不到0.5%的数据记录有降水值大于50毫米/天,只有少数记录降水值大于100毫米/天。

提高统计学意义的非线性神经网络的居里夫人平均(特别是在更高的沉淀值),我们认为十上述NNs作为一个整体平均NNs和计算神经网络集成意味着MNNEM使用(6)。这是显示在图5红色实线。MNNEM产生显著改善相对于他们和我们在更高水平的降雨雪(图5(一个));它大大降低了低偏差在更高的降水量高(35 mm /天)。它还提高了结果在低降水量水平,显著降低高偏差降水水平较低(从0到10毫米/天)。然而,在媒介降水量从~ 12到30毫米/天,MNNEM和NN乐团成员的多数偏差低于EM和电话,可以看到在图5 (b)。因此,非线性神经网络系综平均的方法是足够灵活的谈判过湿度较低的降雨和改进干燥偏差量就越高。

数据68展示三个案例研究,说明非线性神经网络集合预报的优势,MNNEM,与保守的集合预报,相比。这里,我们不显示电话(8)结果,因为视觉上不区分他们的结果。中国共产党分析相对应的时间预测是用于验证。同时,人工24小时预报产生的水文气象预测中心(HPC)由人类预测也提出了比较。生产HPC预测,预测者使用模型预测以及所有可用的观测和卫星数据(包括卫星图像序列)(23]。

数据68证明了居里夫人的非线性神经网络平均提高定位降水领域内的降水特征。它删除过虚假的低水平的重要地区降雨产生的标准EM (1)技术。它锐利了特性和提高降水方面,最大值。MNNEM技术提供了一个预测,相当与HPC在使用更少的资源和时间的预测。

在结论的讨论中,统计结果描述的准确性定位降水特性如图9。统计数据包括八个月期间的数据从11月15日,2010年到2011年7月15日。就像前面所提到的,发自2009年一直在训练数据。

公平的威胁得分(ETS) (24)措施,观察事件的正确预测,调整为正确的预测,由于随机的机会。可能的资产范围从−1 1/3(完美的预测每降水阈值1分)。倾向分数仅仅是预测和观察到的降水区域覆盖的比例超过给定的阈值。理想的预测会有偏见的1在每一个阈值。

总结,MNNEM预报与HPC可比预报和明显好于EM阈值小于0.1英寸/天,超过1英寸/天,这是在良好的协议与数据呈现在图5

5。结论

在本文中,我们引入一个非线性神经网络Multimodel合奏的方法来提高24小时Multimodel合奏降水预报。这个简单的应用程序得到的问题取得了可喜的成果。我们表明,神经网络的居里夫人改善简单线性合奏;它(1)大大降低高偏差低降水量水平;(2)大大降低低偏压high-precipitation水平;(3)提高特性使它们更接近观测值。

值得注意的是,NN Multimodel集合预报工作至少和人类产生的预测预报。神经网络预测生产不使用任何额外的信息可以预测,和更少的时间和资源消耗。

也值得注意的神经网络技术是足够灵活以适应环境的时间和空间依赖神经网络是通过额外的时间和地点相关的输入。神经网络技术还允许我们考虑问题的随机性质。我们成功地使用神经网络集成技术近似一个随机函数(映射),它执行一个平均的居里夫人考虑重要的数据用于神经网络训练的不确定性。

任何系综平均技术(线性或非线性)基于使用历史数据,包括介绍了神经网络方法,需要额外的维护工作与最简单的保守的套装(1)。中国的居里夫人乐团成员,NWP模型发展的复杂系统。他们的预测质量随时间变化。因此,函数 (4)随时间变化。因此,其近似的质量(5),(8),或任何其他应该永久地监控,如果有必要,近似应定期调整(重新训练)。方法介绍了,NN合奏训练在2011年2009数据仍然有效。因此,如果神经网络整体需要再培训,应该每执行一次 ( > 2 )年。

在这项研究中,我们实现了神经网络在一个简单的方法,为它提供相同的信息的线性Multimodel合奏的方法使用。神经网络方法的灵活性使我们在将来的研究中引入更复杂的神经网络方法。例如,我们正在计划向信息介绍人类分析师(和HPC预测本身)是我们得到额外的输入。我们也打算实现一个field-wise方法把输入从几个相邻网格点,等等。此外,一些先前的预测和/或共产党分析可以作为额外的输入。

非线性神经网络平均方法,我们开发了在本文中是一个通用的方法。虽然我们应用它降水领域,很明显,它可以应用于其他领域。还在这里,我们应用此方法计算居里夫人的意思是;它可以应用非线性合奏的意思是在一个单一的模型计算每股收益。

承认

作者要感谢斯蒂芬博士主启动这项工作和刺激讨论和评论家很有帮助和建设性的意见。没有MMAB贡献。296年。