文摘

的结果的确定性校准nonhydrostatic convection-permitting LAM-EPS AEMET -γSREPS所示。LAM-EPS AEMET -γSREPS multiboundary条件,multimodel集合预报系统开发西班牙。机器学习工具是用来校准乐团的成员。机器学习(以下毫升)一直相当成功在许多问题,和最近的研究表明,气象学和气候学不是一个例外。这些机器学习工具的范围从经典统计方法当代成功和强大的内核和神经网络等方法。校准完成了机场位于西班牙的许多地区,代表不同的气候条件。变量校准是用2米高的温度,10米风速、降水在24小时。经典统计方法执行很好温度和风速;沉淀是一种微妙的情况:似乎没有一个通用的规则,对每一个点,决定采取什么方法(如果有的话)改善模型的直接输出,但即使是认识到这一点,很小的进步可以显示毫升沉淀的方法。

1。介绍

气象模型的校准的必要性多年而闻名。是否由经典统计方法的使用或更现代和先进技术(1),预测的艺术和科学利用校准的势头。有方法,有助于改善预测,如金属氧化物半导体(模型输出数据)2和完美的食物3),主要区别在于,该模型被认为是在金属氧化物半导体而不是完美的食物。后来,等集成技术的发展,具体的校准BMA(贝叶斯模型平均)4),获得良好的结果。

在这部作品中,nonhydrostatic convection-permitting LAM-EPS AEMET -γSREPS一直使用。LAM-EPS AEMET -γSREPS是西班牙的短程中尺度预报系统。这是一个雄心勃勃的和原始短程合奏和不同边界条件和数值天气预报模型(因此,它是一个multiboundary multimodel合奏)。它由20名成员组成,运行分辨率2.5公里,对流允许。它使用两个分支的欧洲模式Harmonie (ALARO和AROME),从NOAA-NCAR WRF-ARW, NMMB NOAA-NCEP。边界条件来自5全球NWP模型(中心/ NWP模型):ECMWF / IFS, NOAA-NCEP / GFS、加拿大CMC /宝石,日本气象厅/ GSM和Meteo-France / ARPEGE。Multimodel方法考虑数值天气预报模式的错误和不确定性主要在中尺度和初始和边界条件的不确定性通过multiboundaries处理方法更与天气相关的不确定性。multiboundaries和multimodel AEMET——的设计γSREPS同其前任AEMET-SREPS [5因为相同的原因:更好的性能更一致的EPS,有更好的技能比使用其他EPS方法作为物理模型,随机参数化、多参数、边界条件从全球EPS (6]。

校准,决定使用一个确定性方法与不同的机器学习(ML)方法;也就是说,它是决定校准的每个20名成员就像确定性模型,和5个机场代表不同气候条件的西班牙被选中;这些机场Madrid-Adolfo Suarez-Barajas, Barcelona-El屁股,Vigo-Peinador,帕尔马Mallorca-Son圣胡安,马德里和Malaga-Costa del Sol。中间有一个机场的伊比利亚半岛,与大陆和干燥的气候;两个机场接近海岸(巴塞罗那和马洛卡帕尔马):其中一个(马洛卡帕尔马)是在一个小岛地中海气候。其他两个机场在潮湿的西班牙大西洋facade(维)和在炎热的土地的西班牙南部的安达卢西亚(马拉加)。

决定校准3变量产生明显影响的天气敏感表面:温度、风速、降水在24小时。校准是大致的复杂温度降水的增加订单,由于固有的困难与这些变量联系在一起。如前所述,机器学习(ML)工具被使用,一系列强大的统计方法越来越受欢迎,因为他们的成功。简要概述毫升方法下一节所示。

一些努力已经完成在过去用毫升校准工具。有新的和有前景的结果用毫升例如短时预测的降水(7]随着老成就像(8- - - - - -11]。这项工作是原始的,因为校准进行了大规模的合奏和20名成员因为物理考虑添加到方法来补充毫升技术。

2。材料和方法

机器学习方法是广泛的统计工具,允许提取数据的意义。事实上,统计和机器学习可以是同义词。都是关心学习数据。简化太多,也许有人会说,统计数据将努力在正式的低维问题的推理机器学习处理高维问题[12]。关键似乎是,随着计算能力的增加,许多问题以往被视为棘手至少可以部分解决。一些术语表示相同的概念有所不同取决于用户来自一个毫升或统计背景(例如,估计在统计数据和学习在ML)。我们将在本文中使用毫升术语。

机器学习可以分为三大范式:强化,监督和非监督学习。应用强化学习系统学习时,它的发展与环境交互。监督或无监督学习是取决于是否有一个函数或一组标签,指导学习。在这部作品中,使用监督模式,与数据(观察),应该是类似于模型。内部监督模式,分类或回归问题根据离散或连续变量,分别。在这个工作变量是连续的,回归所使用的技术。

毫升的许多技术出现在文学作品中,这些方法被选择:岭回归,套索,弹性网,贝叶斯岭,随机森林回归,梯度推进,XGBoost,演算法,多项式回归,奇异向量回归(SVR)和前馈神经网络(fnn)简要描述在接下来的部分。

2.1。岭回归,套索、弹性网和贝叶斯山脊

这些方法复杂的版本的经典线性回归来解决卡尔高斯200年前。他们一个平方误差函数最小化线性回归,但增加一个额外的特性来防止过度拟合。过度拟合是一个词,将会出现大量的工作。这意味着一个模型已经完成了从数据集提取主要特征,以及数据集只是记忆。在这种情况下,都能获得良好的性能丢失当我们将模型应用于另一个,甚至相似的数据集。防止过度拟合的方法是限制自由参数的数量在一个模型(见,例如,约翰·冯·诺依曼讽刺评论这13])。

在山脊,(有时也称为一个惩罚项正则化术语)添加到广场命名错误l2。岭的误差函数如下: 的观察和 执行合适的线性模型( 预测矩阵的元素, 系数), 是惩罚系数,n在数据点的数量,然后呢p预测的数量。

套索非常类似于岭,但它使用l1惩罚项,即。,the absolute value instead of a square term, that is,

套索的主要特性之一是,它减少了用于回归的预测数量只有那些提供更多信息功能是最靠近观察。

弹性网脊和套索在同一时间。贝叶斯岭假定一个贝叶斯概率思考,分配一个高斯概率分布模型的参数,然后估计他们在回归;这导致一种脊(非常类似的方法14]。

2.2。随机森林和提高技术

随机森林是创建一个决策树,在值的均值估计那些树。决策树是一个类似于流程图模型和节点组成的分支。节点数据的功能,如均方误差(MSE)或资讯类指标(例如Akaike信息标准)。分支机构的操作节点的不同结果。的树,树叶,也就是说,不同的操作的最终结果。在处理随机森林,它是至关重要的设置足够的树的深度,也就是说,在流程图的数量水平。

提高结合了随机森林方法与误差函数的最小化,像MSE。他们使用这种最小化的梯度下降法。知道梯度函数的最大增长的方向,我们可以在相反的方向移动以寻找最低的功能: 的参数 是我们搜索、迭代、 是误差函数(例如,MSE),然后呢 是学习速率,一个常数,可以精确调整。梯度下降法承认很多变体,以改善其性能,如动量方法,减少通过参数空间的振荡运动,或选择的学习速率作为优化变量,而不是一个常数。这些技术的例子是演算法,梯度推进,XGBoost(最后两个主要区别在于实现细节)。

从更广泛的角度来看,随机森林算法可以看作是减少模型的方差,提高算法可以看作是减少偏见的模型。这两种技术导致减少的MSE因为我们知道

2.3。奇异向量回归和神经网络

这些都是重要的在时尚技术显示相当大的权力在处理大而复杂的数据集(特别是神经网络)。实施的细节,他们的工作是相当复杂的,这里,只有一个非常简短的总结各自的特点。有兴趣的读者可以参考(14,15]。

SVR(奇异向量回归)技术是基于将高维空间为了将非线性问题转化为线性的。在高维空间是有成本的,所谓的诅咒的维度,但聪明的使用一些功能(内核)简化和减少大部分的计算。

前馈神经网络(FNN)是一种人工模仿人脑,分层的层的神经元接收一组输入和计算非线性函数或激活。这些神经元依赖参数,可以学会使用梯度下降的方法启发反向传播。除了神经元“内部”的参数,有许多hyperparameters神经网络也需要调整,如层数,确切的神经元计算的函数类型,或执行反向传播算法。当然,就像在任何其他毫升方法,有必要打击过度拟合。所有这一切都表明,尽管他们拥有相当大的权力,神经网络可以非常棘手的训练。

3所示。结果与讨论

3.1。校准用2米高的温度

训练数据集从11月14日,2016年,1月22日,2018年,大约一年又两个月。用2米高的温度的观察来自5个机场的航空例行报告。最近的4点的坐标观测站所选择的点,覆盖网格面积2.5×2.5公里2。选择这四个点的原因是不总是最接近点提供了更好的信息,而且可以获得更多的信息通过添加其他点。在图1,获得多少信息的例子显示一个方法来执行特别好,岭回归。马德里机场的例子。观测点在经度和纬度40.485度−3.570度。4点约为0.712公里,1.992公里,2.137公里和2.833公里的观察点。这些距离计算使用Vincenty距离来自考虑地球作为一个与投影椭球wgs - 84规定的实例geopyPython库。可以看到在图1,这不是最近的观测点的最好R2系数。在本例中,它是第二点,最好的一个R2。可以看到在图24分,最好的R2系数。当然,更多的点仍然可以被添加到回归,事实上,这样做是对降水的情况下,由于空间这个变量的不确定性;然而,对于温度,增加点意味着失去我们模型的高分辨率。4最亲密的邻居,它被认为有一个好的分辨率和额外的信息之间的权衡。

在一些机场,如马德里,最近的4点都是土地点,所以没有需要采取特殊的措施。巴萨或者帕尔马,但在案件的一些4最亲密的邻居可能是(,)点大海。众所周知,昼夜周期的温度在海洋和陆地是不同的。一个合法的方法可以包括4点的回归,不考虑如果他们陆地或海上;消除系统误差(偏见),就像陆地和海洋之间的温度差异,尤其擅长ML算法。然而,它决定一个额外的“帮助”可以提供给算法过滤这些点在大海。毫升的文学,这叫做工程特性,在某些情况下,它是必不可少的一个很好的结果。近年的方法是使用一个面具的成员LAM-EPS AEMET -γSREPS合奏执行过滤。一个函数是在Python代码中实现的帮助下ecCodes图书馆的ECMWF选择最近的4点。对于每一个点,它是检查如果是海洋或陆地。点从海里被丢弃。额外的、特殊的例程(很特殊)情况下的4来自大海最近的点添加;在这种情况下,程序将搜索直到土地点出现,将所选的点。在一些点被丢弃的情况是因为他们海点,这是决定不继续搜索,直到完成4分,为了不太远离观察(因此失去一个高分辨率模型)的力量。妥协的解决办法是只选择那些点土地点,即使只有一个。

的数据模型H+ 6个小时,直到H+ 36小时,每3小时(观测与航空例行每三十分钟像往常一样,但模型的步骤都3个小时)。我们进行了质量控制的模型和观测总值删除离群值(阈值是值大于±80摄氏度);为模型,这是唯一的控制。这个阈值似乎有些奇怪,但是它的原因的一部分毫升哲学:搜索之间的权衡丢弃的能力非常糟糕的预测模型,将破坏所有的学习,同时,能够惩罚模型如果它显示错误的值(没有破坏整个学习)。经验表明,观测也需要一个质量控制。观察,进行一个额外的,非常严格的质量控制:对于每个小时小时观察,平均温度在H−3和H+ 3了,值H一直如果差异对前面计算的平均绝对值低于5度。也许有效值与这个过程被删除,但这方法是健壮的不同类型的温度的变化,甚至一些突然的变化,和至少一个可以合理地确定异常值没有出现在观察。

在这些质量控制(和其他基本的检查,如删除重复值相同的小时),1列的观察和预测面临的4列,准备校准或与不同的ML方法培训。的加入和准备数据集使用非常有用熊猫图书馆从Python环境。

训练的结果5机场选择的成员之一LAM-EPS AEMET -γSREPS合奏,019所示。没有什么特殊的理由选择这个成员虽然结果例证与很多其他成员发生了什么。目的是显示的结果温度、风、和降水与完全不同的成员NWP模型和边界条件,因此不同的成员代表不同的模型和边界条件的三个变量选择。019是WRF-ARW模型[成员16]从日本的全球模型边界条件,GSM (http://www.jma.go.jp)。图,MSE误差在竖线和ML单杠中使用的方法不同。水平线的MSE模型没有后处理:绿线的MSE最接近点的观测4最近的点,和红线的MSE原始点的最小MSE 4分。在许多情况下,这些线重合,因为点相一致。每毫升方法,平均性能及其标准偏差计算。使用这个计算已经完成交叉验证。在交叉验证(CV),数据集分为N部件和N1部分是用于学习或推理模型的参数和评估执行剩下的部分。重复这个过程,直到每一个N部分已评估的一部分。然后,平均和标准偏差计算,和一个诚实的评价模型。一个简历N除了使用SVR = 10部分,计算优化,只有5部分。在两个模型中,模糊神经网络和利用技术嵌套的交叉验证使用;这基本上是2 CVs,最深的人找到最好的hyperparameters定义模型,另一个与所选hyperparameters模型的性能。

的图5显示选择机场019年会员。MSE在垂直轴和水平不同的ML方法。显示了每个方法的平均性能,及其与交叉验证的计算标准偏差。对于每个MSE,它代表了MSE +标准差顶部工具栏和MSE -标准差的最低部分酒吧,给一个想法的变化范围。如前所述,红线是没有后处理模型输出的最小MSE 4分。绿线是最接近点的MSE的观察,这是真正的点(或线)使用模型和ML方法之间的比较。5个机场的校准数据所示3- - - - - -7

作为一个额外的,点之间的散点图最小MSE和观察(图所示8)。在一个理想的模型,所有的点在对角45度。适合一条直线和一个二阶多项式被执行时,提供的直觉。

有必要发表评论,同样的重量和偏见已经使用在所有时间的算法H+ 06H+ 36。一个更严格的方法是每次训练算法,考虑到这一事实模型降低随着时间的流逝。然而,这将意味着严重的分层数据集(减少超过十分之一的原始数据集),和这些数据集仍然小自LAM-EPS AEMET -γSREPS已经运行一年半在写这个的时候,和更少的时间进行了计算。此外,从H+ 06H+ 36岁的退化模型仍然是小,这是不奇怪的看到在日常实践,例如,一个预估H+ 12比预测更准确H+ 09年。最后,一切都将是一个实际的决定:是这个过程的培训好吗?正如图表所显示的,答案是,训练很好,所以使用了这种方法。也许在未来,以更大的数据集,为LAM-EPS AEMET -γSREPS积累更多的数据,这样的分层可以完成。

可以看到,经典统计和线性方法能够很好地执行。脊方法似乎脱颖而出。与绿线(最接近点观察)可以看到有改善(在某些情况下高,在某些情况下不高)。的情况下两个机场(比戈和马拉加),没有明显的改善,但脊方法在这种情况下类似于模型性能,所以没有破坏。

3.2。风速的校准

与温度、数据集从11月14日,2016年,2018年1月22日。的主要思想实现的情况下温度也申请了风速在10米。然而,一些事项需要考虑。首先,随着LAM-EPS AEMET -γSREPS在兰伯特正形圆锥投影,风,一个矢量,需要充分旋转为了与风的观测相比,它在笛卡尔坐标。有些人认为兰伯特圆锥共形之间的差异和笛卡尔坐标,在有限区域模式像LAM-EPS AEMET -γ集中在伊比利亚半岛,SREPS很小,可以忽略。这是真的,即。,the angles between the Cartesian grid and the Lambert grid were very small (the biggest angle was below 3 degrees). Besides, the ML methods are especially good subtracting systematic errors, as previously commented. However, the spirit of this work was to do as much feature engineering as possible (in other words, to reason as physically as possible), so the wind vectors were rotated from Lambert to Cartesian.

风组件u 提取、旋转进行dataframe熊猫从创建Python库,如温度的情况下。从时间范围H+ 06H+ 36每3小时。的分层数据集(每个时间步训练算法)是没有完成同样的原因,对温度、分层数据集将减少1/11的数据集的大小,36小时的极限是一个相对较短的退化模型的限制,而且,在实际操作层面,选择的方法有不错的效果。

评论一个重要的事情是风速的培训完成,也就是说,标量值,而不是风矢量的大小和方向。这是纯粹的原因选择的问题。检查,当培训风作为一个向量,学习去学习方向的一部分,学习去学习大小的一部分。决定一个风矢量的方向不同于航空例行在某些度不是很相关,但不同的几节(或m / s)是预测更重要和更有帮助。所以风矢量的模量的计算u 组件和培训执行风力的大小。

也是相关的话,唯一的质量控制进行了观测和模型是一个基本的质量控制删除总异常值的存在,在一个类似的精神温度的情况下,也就是说,平衡避免异常值总值的必要性,会破坏学习的同时惩罚坏的模型值。阈值是100 m / s。与所发生的温度,很难以执行质量控制风不丢弃大量的有效措施。与温度,是不现实的期望在风的演变规律,允许我们做出有效的对比几个小时之前和之后的值。

4观测点搜索,最近的网格点和多变量回归了。并不是所有的点都点。风的情况下,测量10米,也有陆地和海洋之间的区别,但它认为这种差异是不重要的温度(以其强大的周日和夜间周期土地分),其他因素更重要(类型的地形,例如)。在温度的情况下,可以看到在图的例子9它不是最接近点的人提供最佳的信息(参照R2系数)。在这种情况下,它是最远的点。在图的例子10,结果表明,使用4邻居添加额外的质量回归,这是选择的过程。结果显示001的成员,也就是说,HARMONIE-AROME NWP模型(17)的边界条件ECMWF / IFS (http://www.ecmwf.int)。

这也是散点图(图所示11)模型的最小MSE和观察。适合不一样完美的温度,如预期。非常沙石现象像小地形的变化,建筑,或其他障碍可以修改风测量。这些都是系统误差,它预计的毫升方法很好地处理它们。

对于每个MSE, MSE +标准差是表示为顶部的酒吧和MSE -标准差是表示为最低的酒吧的一部分,给一个想法的变化范围。红线是没有后处理模型输出的最小MSE 4分。绿线是最接近点的MSE的观察,这是真正的点(或线)使用的模型和ML方法之间的比较。因为它是校准图表(图所示12- - - - - -16)有一个改进的预测风速与许多毫升的方法。喜欢的温度,脊似乎提供了一个巨大的改善,同时计算可接受的操作环境。

3.3。校准的降水

至于风和温度的情况下,使用相同的数据集,从11月14日,2016年,2018年1月22日。校准的降水是一个非常微妙的问题。这是彻底知道,降水不遵循一个高斯分布。也知道校准时,降水是必要的考虑,除了数值量,降水的结构也很重要。这就是为什么遵循的方法是不同的。与风和温度的情况下,使用的点模型的12个最亲密的邻居点,不是4最亲密的。认为,这个数字的分,高空间不确定性影响降水的考虑。这个数的点,收集降水结构的特点,同时,没有一个放弃的高分辨率特性LAM-EPS AEMET -γSREPS。当然,其他的选择是可能的,但是,作为这项工作之前,他选择的方法是平衡的计算效率与物理的见解。最后,考虑结构是一个不规则的八角(8分)+八角(图中的4分17)。24小时降水量校准,测量模型中从06年到06 UTC但从07年到07年UTC的观测网络。当然,这将是理想的模型从07年到07年,但不幸的是事实并非如此。在不久的将来,LAM-EPS AEMET -γSREPS输出每小时,但是,现在,随着输出每3个小时,1小时之间的滞后模型和观测是一个不可避免的缺陷,没有选择,只能假设。

温度在2米u 风的组件在10米也添加到提高校准。为这些变量,它是决定使用点靠近观察,如果不加区分的观点是陆地或海上;之所以这么做是因为,一方面,有很高的信心,毫升的方法可以很好地处理系统误差,另一方面,因为这些变量是一个有助于改善回归,他们额外的信息,而不是期望的结果。的检查做了三个可能的组合:12分的降水+最近的点的温度、降水的12分加的最近点u 风的组件,12点降水+最近的点的温度和u 风场的组件。最后,它是决定为一个更好的算法提供更多的变量,最后一个选项被选中。

在风场的情况下,质量控制是丢弃总值离群值(如果有的话)的模型和观测。在观察的情况下,质量控制是做过合并到西班牙气候数据库的任何数据。为模型的风速,可以丢弃总值只离群值时清楚地表明,一些是错误的计算或存储数据;这些异常值由于机械或操作问题,与模型的设计和性能。除了总异常值,差值模型包括和处罚的培训。在24小时内水平在2000毫米的降水和100 m / s在温度、风速和±80度。安全检查,行了负值是删除:这可以转换数据时发生(例如,在西班牙气候数据库值存储为零点几毫米,对于这个工作,他们转换为毫米);这种现象被称为下溢在计算机科学文献。

在处理这种类型的回归,标准化数据集被认为的可能性。标准化是一个过程,对于每个独立 为每个预测变量的回归方程(),平均计算, ,和它的标准差, ,然后操作 进行,在哪里 贯穿所有的样本数据集。关于标准化一个很好的观点是所有变量做回归时具有相同的相对权重;这很好,因为在这项工作中有变量规模200 - 300(温度),变量分布在0 (u 风场的组件),和积极的变量与一个伟大的光谱的变异(降水)。标准化是一些算法的另一个好点的工作范围与均匀分布的正态分布值或值在0和1之间。在模糊神经网络的情况下尤其如此(前馈神经网络)。在风和温度的情况下,合理地取得了较好的效果没有标准化的必要性,和一些实验标准化改变算法的性能而不是实质性的结果,所以决定不使用标准化的风和温度。

图,对于每个MSE, MSE +标准差是表示为顶部的酒吧和MSE -标准差是表示为最低的酒吧的一部分,给一个想法的变化范围。红线是没有后处理模型输出的最小MSE 12分。绿线是最接近点的MSE的观察,这是真正的点(或线),应该使用模型和毫升之间的比较方法。降水的结果显示没有标准化数据18- - - - - -22)和标准化(数据23- - - - - -27mbr010)成员。Mbr010 Harmonie-ALARO NWP模型与边界条件从ARPEGE模型(18由Meteo-France) (http://www.meteofrance.fr)。

请注意,有时表示标准偏差的蓝色酒吧负值。当然,这并不意味着MSE -级。它只是反映了交叉验证技术已经显示出广泛的MSE的可变性。MSE取决于很多不同部分是验证集和片训练集。蓝色的酒吧是根据定义对称MSE的平均值,也就是说,顶部的一个酒吧是MSE的平均值+标准偏差和酒吧的最低部分MSE -标准差。所以,酒吧在负值是为了伟大的积极价值。

可以看到,降水是一个非常微妙的变量来校准。降水的情况下,每个点都有其特性更强地比与风速和温度。什么有可能说的是标准化有助于(然而,也许不总是)。沉淀,最成熟的方法,如奇异向量回归和神经网络开始展示他们的力量虽然仍然与脊实现合理的结果。

4所示。结论

因为它已被证明,毫升的方法是一个伟大的气象模型的校准工具。经典线性回归,正规化的额外帮助,非常适合的温度和风速。的沉淀,没有首选方法,事情似乎依赖于点和数据集的性质,并不奇怪,因为它是已知的,没有一个放之四海而皆准的ML方法,有效的对所有的数据集(19]。降水,标准化的数据集是很有帮助的,和对方法,神经网络提供了一个不错的选择,尽管其他方法如套索,弹性网,或脊表演,可以接近的神经网络但提供相当大的容易训练。操作环境,为每一个乐团的成员,对于每一个点,一个培训必须执行,交叉验证后,将选择最好的方法。提到的方法(脊、模糊神经网络等)不需要总是有效的,和每个数据集都有自己的方法。我们可以猜测什么方法是最好的基于物理和统计方面的考虑,但最终,只有一次校准应用我们才能决定。

问自己什么是合法的真正做这毫升方法(至少,它们是什么可能做自还有开放式问题如何毫升方法工作)。重要的是要区分风速和温度一方面和降水在另一边。的风速和温度,毫升方法可能是纠正偏见(系统误差),天气情况的模型对典型模式(甚至可能对于中尺度情况)。对于降水的情况下,错误有许多不同的起源,因为不仅偏见和系统误差,而且由于模型的近似考虑降水、喜欢云粒子物理学的计划使用或出现对流参数化;在这种情况下,毫升方法管理更大的复杂性和不确定性。

为什么有些方法比别人表现得更好?在大多数情况下,在ML,很难说是已知的先验方法将是正确的。是证明和错误最终决定什么方法具有最好的性能。然而,从纯粹的物理因素,风速和温度,相对比较简单的方式来岭的成功,弹性网,套索,或贝叶斯脊,这基本上是扩展的线性回归,可能是与前面的段落中提到的事实:主要系统误差的校正由于相对较少和控制这些变量的误差来源。在降水的情况下,所有的不确定性和复杂性,更复杂的方法如模糊神经网络,能够辨别的更微妙的信号数据,开始给更好的结果。模糊神经网络和其他复杂的方法是难以训练,倾向于overfit等细微之处;这些方法不适合相对更好的确定等问题的预测风速和温度。

是很重要的话,校准顺利当毫升方法处理值的数据集的最小值或最大值,换句话说,值的算法”。“当一个校准算法面临着价值以外的培训范围,任何事情都有可能发生。根据他们的本性,一些算法将执行一个线性外推法和其他人可以满足一些复杂的价值,高阶多项式曲线。为了避免这种行为,有可能建立一个标志或类似的警告建议停用算法对于这样一个价值,让直接(未校准)的输出模型的价值。至少是极端值是包含的数据集,它将成为未来的培训过程。

对ML的校准,有很多的研究,可以探索在未来。可以更深入毫升的方法中,如何寻找实例深度学习(与多层神经网络)执行:递归神经网络可能是一个有趣的方法,例如,也许深沉的学习能够有助于提高沉淀的结果。可以认为在扩展这些校准方法从点到面,下面的一些种类的分类函数类型的地形、天气或气候。或一个可以使用的算法提供概率输出(模糊神经网络)直接校准乐团的成员而不是成员。毫无疑问,这是一个有趣的话题来探究。

数据可用性

海量数据已被用于这项工作,其中部分可能被释放(尽管我们不能保证它)如果需要通过联系相应的作者通过(电子邮件保护)

信息披露

这篇文章的前一版本出现在西班牙本关于关于天气预报不同的策略。这是一个总结的已被证明在这里,和整个部分被省略,如降水的分析。作者没有赚任何钱的出版这本书。

的利益冲突

作者宣称没有利益冲突。

确认

作者感谢西班牙天气服务,AEMET,资金和支持,总部办公室和当地办公室的加那利群岛。他们也感谢ECMWF,加拿大CMC法国流星还是法国,日本气象厅、为他们的善良和北美NOAA提供LAM-EPS AEMETγSREPS应承担应承担的边界条件,也感谢北美NOAA,摘要,NCAR NWS和相关社区WRF-ARW NMMB模型和Harmonie社区。作者还要感谢所有团队的LAM EPS AEMETγSREPS应承担的合奏,为同类的支持和帮助在许多话题,尤其是对何塞·安东尼奥·加西亚莫亚应承担的萨帕塔:他非常善良,显示路径大卫Quintero广场是一个总初学者;超过一个团队领袖,他一直是一个导师。特别要感谢Jose Luis Casado卢比奥,他的设计非常优秀软件的图书馆。我们也要感谢Alvaro Subias迪亚兹的布兰科和阿尔方斯Callado Pallares帮助和有用的评论。我们感谢社区的数据科学和机器学习在Python开发真正伟大的工具。