文摘
准确地估算蒸发损失的金额为调度和计算灌溉用水需求是必要的。在这项研究中,四个机器学习(ML)的建模方法,极端学习机(ELM),梯度增加机器(GBM),分位数随机森林(QRF)和高斯过程回归(GPR),开发了估计每月蒸发损失在两站位于伊拉克。每月史前植物参数作为输入变量用于模拟蒸发率。几个统计措施(例如,平均绝对误差(MAE)、相关系数(R),平均绝对百分误差(日军),和修改协议(Md)指数),以及图形检查,被用来比较应用的性能模型。结果表明,“绿带运动”模型具有更好的性能在预测每月蒸发两站与其他应用模型。第一案例研究在迪亚拉省,结果显示预测增强的美和RMSE 7.17%, 21.01%;16.51%、15.74%;和23.14%,26.64%;使用“绿带运动”相比,榆树,探地雷达和QRF,分别。然而,对于第二个案例研究(在埃尔比勒),提高了预测增强减少美和RMSE 10.88%, 9.24%;15.24%、5%;和16.06%,15.76%;分别,而榆树、探地雷达、QRF模型。 The results of the proposed GMBM model can therefore assist local stakeholders in the management of water resources.
1。介绍
在水文循环,蒸发过程中起着重要作用;因此,监测蒸发是重要的水资源管理,优化灌溉计划、农业生产和建模(1,2]。此外,蒸发率具有重要意义在研究气候变化和全球变暖,因为这个参数消散好全球降水的比例(3- - - - - -5]。蒸发损失的影响主要由蒸汽压力梯度和可用的热能,这是由天气数据像空气温度、相对湿度、风速、太阳辐射(6- - - - - -8]。这些变量与当前季节等其他方面紧密相关,每天的时间,地理位置,气候(9,10]。蒸发过程是极其非线性和复杂。
计算和评估蒸发,有两个程序,直接和间接(11]。蒸发锅被认为是一个著名的直接法广泛用于蒸发率的估计。特别是,蒸发计不能放置无处不在,尤其是在难以接近的区域精确的仪器是不可能的12]。此外,安装和维护的过程中这几个地区的蒸发设备是昂贵的13]。然而,间接方法包括实证方程用于测量蒸发率(14]。这些经验方程可以建立利用气象和水文参数如温度、阳光小时,风速,湿度和降雨量15,16]。精确测量这些气象因素需要先进的工具和熟练工人17]。通常,仪器故障、维护不当和恶劣的天气条件下很难衡量这些数据减去任何错误,这是至关重要的预测蒸发通过实证方程(18]。因此,它将有问题的项目评估这些因素不正确(蒸发19]。
因此,间接估算蒸发系统通过应用依赖于数据和经验方程也受到不同的假设。换句话说,这些方法是数据敏感过程和预测的准确性将主要依赖于数据的有效性(20.]。此外,这样的气候数据通常是稀缺或很难找到在一个特定的水文站,他们往往是不连续在某些地方(21]。蒸发模型很难通过经验技术由于其极其复杂的物理和非线性性质。此外,实证模型设计为一个特定的场景可能不执行在另一个场景中,需要在执行之前的调整系数。几个实证模型已被许多研究人员在文学创造模型蒸发损失(22]。的选择预测的主要挑战之一是非线性回归的过程。因此,创建一个健壮的预测模型使用实证过程是非常困难的。
许多研究已经进行了解决不同的水资源问题采用不同的人工智能(AI)方法如随机森林(RF)、支持向量机(SVM),极端学习机(ELM)前馈神经网络(FFNN) extra-tree,高斯过程回归(GPR),梯度增加模型(GBM),分位数回归森林(QRF) [23- - - - - -29日]。Goyal et al。30.]。提出的一项研究估计每日蒸发损失在亚热带地区使用不同的人工智能建模方法。这项研究使用了六个气象参数建立应用模型。这个研究的发现说明自适应Neurofuzzy推理系统(简称ANFIS)和最小二乘支持向量回归(LS-SVR)提供最好的精度比其他使用模型。另一项研究是在31日)估计的蒸发损失Beysehir湖位于土耳其的南部。本研究采用一些机器学习方法加上交叉验证技术来预测每月蒸发在这案例研究作为一个特征是干旱和半干旱地区。研究发现,安和SVR有良好的预测精度。Qasem et al。32)开发了一个复杂的模型基于ML的整合模型如SVR和安与小波变换(WT)建模每月蒸发率在干旱和潮湿的气候。结果表明,WT并未显著提高预测精度。此外,标准模型(安)显示令人满意的精度预测蒸发率。作为安表现出更高的性能预测蒸发损失,比较是重要的安与其他射频、榆树等机器学习方法。引入的一项研究[33安]提供了一个很好的对比的表现和随机森林预测蒸发。研究的结果证明了射频有更好的性能比安以及提供非常准确的估计。此外,Althoff et al。34)提出了一个研究使用不同的ML估计方法在巴西的小水坝的蒸发损失。这个研究的发现说明射频的性能非常满意在蒸发损失的预测小水坝。其他一些研究证明的贡献的人工智能模型模拟流域蒸发过程(35- - - - - -37]。最近,基于模型、模糊算法和混合动力车和其他算法已经成功地用于预测蒸发(38]。然而,开发的梯度增加模型很少应用于建模参考蒸散。据我们所知,没有研究都集中在评估和比较新开发的功能梯度增加蒸发模型估计伊拉克在干旱半干旱气候区。因此,有趣的是“绿带运动”的性能评估和比较它与可靠的人工智能模型,如极端学习机(ELM),分位数回归森林(QRF)和高斯过程回归(GPR)估算蒸发率(Ep伊拉克的)在干旱半干旱气候区。
本研究的贡献是确定梯度的效率提高模型(GBM)估算蒸发率( )使用收集的数据来自两个气象站位于伊拉克。GBM的性能和可靠的人工智能模型相比,比如极端学习机(ELM),分位数回归森林(QRF)和高斯过程回归(GPR)。此外,这是第一次使用“绿带运动”每月蒸发损失预测模型相关的几个站位于伊拉克。
2。数据和案例研究
伊拉克是地理上位于中东和几乎两个气候区,南部半干旱和semihumid在北方39]。伊拉克地区缺乏足够的水资源和遭受严重的干旱40,41]。随着气温升高在伊拉克,地表水可用性降低和含水层的地下水水平降低。伊拉克的水文循环已经被蒸发影响严重,目前消耗约61%的总降水量(16,42]。因此,它是非常重要的在伊拉克的准确预测蒸发损失。在这项研究中,选择两个案例研究来评估蒸发率。第一个案例是在迪亚拉省州,而第二个站在埃尔比勒状态(见图1)。迪亚拉位于中部地区的一部分,在埃尔比勒位于北部地区。蒸发率预测函数6计量参数如阳光小时,最小和最大温度、风速、降水、相对湿度。
3所示。方法
3.1。高斯过程回归
拉斯穆森和威廉姆斯是第一个引入高斯过程回归(GPR) [43]。这种方法是一个著名的和非参数方法用于解决分类和回归问题。此外,探地雷达模型通常用来解决一些水资源音乐会(44- - - - - -47]。探地雷达贝叶斯学习和内核的机器结合形成一个原则和概率的方法来创建一个回归模型。模型预测的不确定性可以直接输出与预期值(48]。
一般来说,均值和核函数可以用来计算一个探地雷达(49]。根据这个定义,探地雷达是一个随机变量的值代表函数的组合在给定的位置 。它可以表示如下:
回归函数的先验分布, 分别内核和功能。考虑到训练集包括输入有限数字矩阵形式 ,探地雷达的联合分布是定义如下: 在哪里是指函数可以计算的函数意味着什么如下:
此外,核函数 的应用模型可以由意味着函数 )如下:
在这项研究中,均值函数设置为0为简单起见产生一个广泛使用的探地雷达之前。除此之外,该技术已广泛应用于先前的研究[43,50]。最后,(1)将改写如下:
3.2。极端的学习机器
极限学习机(ELM)具有单隐层的前馈神经网络(FFNN)具有良好的全局搜索能力,结构简单、学习速度快,和良好的泛化能力51]。有两种类型的权重在榆树:输入相关权重随机分配的隐藏层和输出权重分析和计算获得的(52]。换句话说,与传统的神经网络,榆树不需要迭代学习(53]。榆树的输出权值可以很容易地计算确定的输出矩阵的广义逆隐藏输出重量值。榆树的结构大大简化了这一过程。榆树的训练过程是通过几个步骤总结如下:。(我)输入训练数据集,选择榆树的结构(隐藏节点)和隐层的激活函数(见图2)。(2)计算H矩阵(隐层输出)如下: ( ,随机分配隐藏节点参数。(3)确定输出权重矩阵( ): 在哪里T是实际的训练数据集和标签向量Moore-Penrose广义逆矩阵(H)。
3.3。分位数随机森林(QRF)
随机森林(RF)是一个整体,监督学习算法Breiman[发明的54]。这种方法的核心概念是通过整体学习过程集成多种树。此外,射频的修改版本装袋算法的基本思想,对原始数据集,选择作为一种新的数据和将被训练使用单独放回抽样法。射频的CART决策树是采用弱的学习者;然而,对于每一个生成树,所需数量的特性将从原始数据集随机选择的标签。因此,在一个回归的问题,薄弱的学习者的结果( )平均得到最终的模型输出。平均的方法射频有很大的重要性在减少偏见,以及方差和相关性树(23]。
分位数随机森林(QRF)被认为是一个射频的改进版本,应用分位数回归(QR)而不是平均的方法在计算目标的最终形式55]。此外,QRF被认为是一种非参数方法增强了一个坚实的理论基础56]。QRF可以的条件分布数学表达如下:
在(8)派生通过观测的平均值。关于QRF, 代表所有观测数据的加权平均值 。
下面的步骤说明了QRF算法:(我)的米决策树 ,中创建随机森林(以及考虑到观测的相关决策树每个节点。(2)为 ,o这将是对所有决策树,然后确定重复的观察每一个决策树。最后,重量 每一个观察 由平均树决策的权重计算。(3)对所有 计算估计的分布函数(9)通过使用在步骤(2)中获得的权重。
图3提出了QRF模型的流程图。
3.4。梯度增加机器
梯度提升机(GBM)模型是最著名的监督算法引入一个健壮的技术来解决分类和回归问题(57]。决策树是一个更快的算法,但它仍然存在不稳定,所以GBM介绍解决这个严重的问题58- - - - - -60]。此外,“绿带运动”结合的决定卷发和提高算法的优势(61年]。GBM工程主要制定促进技术和梯度下降,因此,它是非常有用的分类和回归问题(62年]。提高结构整体形成的主要是一个建设性的方案,涉及先后添加新的弱碱模型训练根据前面的整体模型的计算误差为每个迭代中,这些基地学习者只生成一个稍低错误率比随机猜测。提高方法的家庭是基于一个建设性的策略学习机制适合新车型顺序产生更精确的估计响应变量。图4显示的结构梯度增加机器回归模型。
“绿带运动”模型的方法可以在几个步骤说明如下:(我)初始化GMB最小化损失函数以一个恒定值。(2)成本函数的负梯度估计在每个迭代训练过程的剩余价值模型(当前)。(3)一个新的回归树将被训练以适应从第二步获得的残余。(iv)在这一步中,剩余更新和当前回归树添加到先前的模型。(v)GBM的算法仍然是反复训练和最大迭代次数(用户选择)。
应用GMB算法的数学表达式和简要描述如下所示(63年]。
3.5。统计评价指标
四个应用模型进行比较和评估选择最好的模型预测每月的蒸发。有五个统计标准,均方根误差(RMSE),平均绝对误差(MAE)、相关系数(R),平均绝对百分误差(日军),和修改协议指数(Md),被用来评估模型对训练和测试阶段的表现。这些参数的数学表达式所示(64年]: 在上面的方程中,和的实际和预测月度蒸发值吗分别记录。和是观察和预测月度蒸发值和意味着什么算法的记录数量吗1。
|
||||||||||||||||||||||
4所示。结果与讨论
在这项研究中,开发了四个机器学习建模方法来选择最好的模型预测月度蒸发。四个模型(射频、榆树、GBM和GPR)训练和验证使用气候数据收集在伊拉克从两个不同的位置。大约百分之七十的可用数据被用于校准和其他30百分比用于验证预测模型。使用模型在本研究中被不同的统计评估标准以及图形演示。
案例研究,应用模型通过训练阶段的表现进行了总结表1。给定的统计数据显示,所有的模型提供了一个良好的相似性预测蒸发和预测值除了探地雷达(R=O.938,Md = 0.967)。此外,它可以观察到,“绿带运动”产生更少的错误预测比其他模型(美= 14.170,RMSE = 23.092,日军= 0.095,R= 0.987,Md = 0.993)。然而,榆树的表演和射频模型非常相似。然而,可以说,有轻微的优势有利于榆树的模型。这个模型提供了小美和日军的价值观相比,子模型。表2提供了重要的分析模型的表现通过培训第二阶段的案例研究。根据结果,“绿带运动”模型显示一个优秀的预测能力每月蒸发,提供最低估计错误(RMSE = 20.509美= 13.645,日军= 0.058)和预测精度最高(R= 0.994,= 9.997)。第二个和第三个最佳模型榆树和QRF,分别。然而,探地雷达被认为是最糟糕的预测模型,因为它给了最高的RMSE值,日军,美。它可以得出结论,通过训练阶段,探地雷达被注意到一个贫穷的两个案例研究的准确性。然而,“绿带运动”模型有一个健壮的性能仿真的蒸发率为案例研究根据获得的统计参数。
评估应用模型的预测精度的两个案例研究中,建立了箱线图图来直观地显示了相似的预报值与观察到的蒸发率。表演的四个应用模型预测每月蒸发率这两种情况下研究图形所示数据5和6,分别。最清晰的观察,可以报告是探地雷达的能力模型生成一个可接受的蒸发估计的准确性。此外,该模型无法提供令人满意的预测尤其是更高和更低的值的蒸发。然而,数据表明,“绿带运动”是优越的,因为该模型的计算值非常接近实际值。此外,它成功地设法模拟的高和低价值蒸发与其他模型相比。
虽然成功已经达到每月使用GBM蒸发模型在培训阶段,评估该模型是非常必要的测试数据集。众所周知,培训结果可以提供误导性的评估,因为模型训练使用已知输入和第三相应目标(65年]。此外,测试阶段是非常重要的在评估预测模型的质量,因此,模型的泛化能力会很好地评估和避免过度拟合(66年]。
应用模型的评估过程通过测试阶段的第一个案例研究在迪亚拉状态是在桌子上展出3。GBM的优越性模型估计每月的蒸发与其他模型相比已经很容易指出表中。更具体地说,“绿带运动”模型被发现产生令人满意的预测均方根误差为28.478,美21.541,0.181日军,R0.976和0.987的Md。然而,QRF提供最糟糕的预测精度与应用模型。对案例研究2在埃尔比勒状态,根据表“绿带运动”的性能4也优越,提供更少的估计错误(RMSE = 35.345美= 26.368,日军= 0.130)以及更高的值R(0.985)和(0.989)。
报告结果的案例研究表明,“绿带运动”显著优于其他机器学习模型。这个模型的优越性可以测量基于其容量减少的美和RMSE站在测试阶段(见图7)。结果显示的第一个案例研究预测增强的美和RMSE 7.17%, 21.01%;16.51%、15.74%;和23.14%,26.64%;在使用“绿带运动”相比,榆树,探地雷达和QRF分别。然而,对于第二个案例研究在埃尔比勒的状态,提高了预测增强减少美和RMSE 10.88%, 9.24%;15.24%、5%;和16.06%,15.76%;分别,而榆树、探地雷达、QRF模型。
提出了数据可视化评估8和9证明了估计每月蒸发率为电台通过测试阶段GBM非常接近观测值。此外,统计参数如平均和最高和最低值是注意到非常类似于实际值。然而,这些数字表明,探地雷达模型有一个糟糕的表现在这两个案例研究相对于其他模型。
进行进一步的评估,泰勒图创建使用预测值获得四站(参见图模型10和11)。使用泰勒图是评估的优势比较模型与实际数据使用三个统计参数(标准偏差、均方根误差和相关系数)。此外,相当于蒸发率获得每个模型和实际值被分配在极坐标图。它可以从数据相关的两个站,“绿带运动”的位置模型比其他类似的模型更接近实际值。
5。结论
随着水文循环中的蒸发率是一个重要的元素,其在自然是非常复杂和随机过程。人工智能模型的能力,如榆树,QRF,“绿带运动”,和探地雷达每月的预测评估蒸发两站位于迪亚拉和埃尔比勒国家,伊拉克。输入参数包括计量数据,如阳光小时,最小和最大温度、风速、相对湿度。使用不同的统计模型评估标准以及图形的阴谋。本研究的结果显示,“绿带运动”建模方法具有优秀的性能预测的月度蒸发率与最小预测误差在两站。然而,QRF模型显示,贫穷的性能相对于其他应用模型。总之,实现结果证明提出的预测模型(GBM)显示一个乐观的技术,这些区域;因此,它可以帮助当地利益相关者在水资源的管理。
6。建议
建议未来的研究可以说明如下:(我)本研究采用模型的推荐使用GBM估计每月蒸发率和调查几个站位于伊拉克中部和南部地区。这项研究表明,“绿带运动”模型显示一个好的预测精度地区位于伊拉克的东部和北部地区。因此,它是非常重要的调查的能力,这个模型估算蒸发在另一个地区。(2)特征选择工具的应用是非常重要的选择最适当的输入变量,从而降低模型复杂度(13,67年]。(3)GBM模型结合小说bioinspirated算法提高其性能预测,从而产生更准确的预测(68年- - - - - -70年]。
数据可用性
通讯作者的数据要求。
的利益冲突
作者宣称没有利益冲突。