文摘

降水是驱动水文建模的主要因素;因此,丢失的降水数据可以导致水文建模故障。尽管缺少降水插值数据被认为是一个重要的研究课题,只有少数方法遵循一个回归的方法。在这项研究中,逐日降水数据插值使用五种不同的内核函数,即Epanechnikov,四次,Triweight Tricube,余弦,估计失踪降水数据。这项研究还提供了一个评估,通过比较缺少降水估计数据 最近的邻居(th NN)五个不同的内核回归估计及其性能模拟河流利用土壤水分评估工具(SWAT)水文模型。结果表明,内核方法提供更高质量的降水数据的插值相比 神经网络回归方法,在统计数据评估和水文建模性能。

1。介绍

降水数据的关键因素估算降雨径流水文建模机制(1]。故障在运行水文建模可能发生由于不连续的降水时间序列输入。根据这一重要问题,丢失的降水数据估计水文建模是一项具有挑战性的任务。许多水文建模要求缺少降水插值数据(2),完成气象数据系列(3),或归责的气象数据4]。估计丢失的降水,研究者应考虑时空降水(降雨和降雪)值的变化和相关的物理过程。然而,占时空变异和物理过程是很困难的,如果缺乏设备测量降水。因此,统计方法已成为广泛使用的方法填写丢失的降水数据(5]。

许多研究调查取代丢失的流速及流水量数据与几个统计方法(5),但有有限的研究不完整的降水和温度数据的插值6- - - - - -10]。最近,调查的人工神经网络(ann:(11),一个更先进的统计方法,估计丢失的降水数据,提出了(12]。人工神经网络可以从训练数据来重建一个非线性关系,获得值缺失的数据。Pisoni et al。13]研究了缺失数据的插值海表面温度(SST)卫星图像使用ANN方法;他们发现安方法结果显示精度比的结果一个插值系统,在Seze及Desbois (1987)。然而,网络仍在争论中,因为他们的神经系统不能提供清晰的数据之间的关系14]。

美国土木工程师协会(第3期)任务委员会(15],尽管讨论人工神经网络估计丢失的降水数据的性能已经得到证实,应提出一个替代解决方案可用数据不足的情况,由于依赖网络高质量和数量的数据。此外,人工神经网络有其他的限制,如缺乏物理概念和关系,那些使用的经验和偏好的基础上,研究和培训网络(15- - - - - -17]。由于人工神经网络被视为黑盒模型(18),很难使用这种方法实现更多的线性关系,即使人工神经网络可以实现收敛几乎任何问题(17]。在水文模型,因此,对于真正的机制之间的线性关系存在一系列天气输入,解决方案是不明确(19]。

一般来说,回归或距离加权法是最常用的估算失踪降水水文建模(20.]。戴利et al。21)也提出各种回归模型将空间天气数据的变化。然而,Creutin et al。22)发现,尽管插值方法的简单线性回归显示令人满意的序列相关性的每日或每月流水量;降水模式时不显示适当的相关使用简单线性回归或插值方法。此外,如果一种回归方法用于估计失踪沉淀精制降水时间序列,一个小数据样本不会遵循正态分布基于线性回归的基本理论。

另一种方法估计丢失的降水数据使用相邻的数据是基于距离的重量。夏et al。23]使用最近的火车站重建丢失的降水数据通过几何距离重量;威尔默特et al。24)使用算术平均从邻国数据填充缺失的降水;和Teegavarapu和华25)使用了一个逆距离权重法从相邻的数据来估计丢失的降水数据。史密斯(26),Simanton和奥斯本27],萨拉斯[28)表明,传统的加权和数据驱动方法,即基于距离的加权方法,是估计丢失的降水数据的插值。距离权重方法估计丢失的降水数据结合线性回归和回归平均分布29日,30.]。年轻的[31日)和Filippini et al。32)建议空间插值的相关定义重量每个车站。

丢失的降水数据估计是可能的,当数据可用于相同的位置。Linacre(1992)调查失踪的降水数据的插值通过使用一个数据系列的平均值在同一位置和洛瑞33)建议之间的简单插值数据系列。翘起的和Pachepsky34)使用数据之前和之后几天失踪降水估计不完整的降水数据的数据点。 最近的邻居( nn)回归估计丢失的降水数据的基本方法,认为附近。然而,该方法存在一些弱点,当数据异常值或一个非线性趋势存在缺失的数据。而 神经网络回归有基本假定遵循正态分布统计上不健全的,内核方法使用一个平均值,可以克服 神经网络回归通过内核加权法的弱点。通过使用邻居核函数中的数据,尽管数据显示非线性趋势,它可以克服 神经网络回归的弱点。

本研究的目的是重建逐日降水数据通过使用五种不同的内核函数(Epanechnikov,四次,Triweight Tricube, cos)来估计丢失的降水数据。这项研究还提供了一个评估,通过比较缺少降水估计数据 神经网络回归到五个不同的内核估计和他们的表现在使用土壤水分模拟水流评估工具(SWAT)水文模型。本文的其余部分组织如下。部分2提供了一个研究区域和水文模型的描述。节3的方法,提出了五种不同的内核方法。部分4介绍了失踪的逐日降水数据的插值结果与水文模型模拟。最后,结论部分5

2。研究区和水文模型

Imha(图1)流域被选为本研究的试验台。Nakdong Imha分水岭是一个支流的流域和位于上部的一面在韩国Nakdong河流域。它的特点是山区;大约79.8%的总面积1361公里2是多山的。斜率Imha分水岭是40%到60%,也就是说,655公里2总流域面积的33%。Imha分水岭的海拔范围从80到1215米。平均年降水量、最低温度、最高温度、湿度、风速和Imha分水岭是1050毫米,7°C, 18.8°C, 65%,分别和1.6 m / s(水资源管理信息系统(WAMIS),http://www.wamis.go.kr/)。因为这个地区的气候条件是由温暖的温度,没有雪的形式沉淀;所有降水由降雨。对于这个评价降水数据的插值和水文模型性能,降水和流速及流水量指标被选中,如图1和降水和流速及流水量数据来自水资源管理信息系统(http://www.wamis.go.kr/)。

本研究选择了SWAT模型进行分析。斯瓦特GIS扩展,ArcSWAT,它允许使用各种基于GIS的数据模型给定的盆地的地貌。SWAT模型是通过美国农业部研究开发(美国农业部),农业研究服务(ARS)。斯瓦特的主要数据输入包括温度(最大和最小),每日降水量、太阳辐射、相对湿度、风速、和地理空间数据代表土壤类型、土地覆盖和海拔。一个分水岭分为较小的次盆地,必须分解成更小的单位称为水文响应单元(HRU)。这些HRUs特点是统一的土地利用和土壤类型。斯瓦特可以用来准确预测水文模式长时间(35]。林冠截留是隐含在曲线(CN)方法和Green-Ampt是显式的方法。渗透是最准确地占使用CN方法在斯瓦特。另一种方法可以用来占渗透是Green-Ampt方法。然而,Green-Ampt方法尚未见CN方法提高精度,因此,CN法用于这项研究。

3所示。方法

本研究使用了五个内核函数、Epanechnikov四次,Triweight Tricube,余弦,体重预测缺失值。Tricube方法大重量目标点。尽管Tricube体重Triweight相似,体重的减少加速度小于Triweight远离目标点。一级目标点是四次左右,这类似于Triweight速度减少重量。Epanechnikov和余弦小影响邻近值。简要描述的五个内核函数和他们的应用程序对于重建缺失值提出了以下和特定的内核函数在附录中描述一个

3.1。Epanechnikov

Epanechnikov内核是最常用的核函数。Epanechnikov内核分配零重量观测距离的四、六、八的参考点。这些值对应区间宽度的选择。这是通常被称为平滑参数的选择或带宽的选择。Epanechnikov内核的主要特征是,即便是远离目标的距离值,也就是说,这个研究的缺失值,其估计是光滑的。简要描述是由以下几点: 在哪里 内核函数和吗 周围最近的值作为一个独立的数据。

3.2。四次

第二个内核函数研究中使用的四次内核更重的敏感性基于缺失值的距离。应用以来体重很大程度上是远近不同数据点,更受到周围的数据。它由一个四阶方程具有比二阶方程更敏感的距离。它是由以下描述:

3.3。Triweight

第三个内核函数研究中使用Triweight内核包括sixth-order方程。它有最敏感的距离因为sixth-order方程估计缺失值基于距离的差异与加权函数表示如下:

3.4。Tricube

四核函数研究中使用Tricube内核,它使用绝对值。因为它使用绝对值,它提供了一个平滑模式比Triweight内核最近的值。然而,随着值进一步距离最近的值,它显示了一个陡峭的趋势。Tricube内核最敏感的加权距离因为它包含ninth-order方程,如下面所示:

3.5。余弦

第五个内核函数研究中使用余弦内核函数。这是一个内核函数在各领域的广泛应用,因为它有一个常曲率。它的形状类似于Epanechnikov内核,尽管它使用一个余弦函数如下所示:

3.6。缺失值的计算

在使用一个内核函数计算的重量缺失的数据,估计丢失的数据是使用以下执行: 在哪里 缺失值, 最近的邻居的数量, 最近的值对应 (正意味着右边和负意味着左侧)。左右对称核函数应该基于一个值为零。例如,如果使用最近的四个社区估计缺失值,使用附近的值将从右边两个和两个从左侧。这个示例中所示的特定方程如下和附件中描述的示例计算B:

3.7。统计测试

填入的正常测试需要评估填写插值数据的方法。Shapiro-Wilk [36)正常测试是使用19个样品来确定是否正态分布的平均差异。检验统计量如下面所示: 在哪里 th顺序统计量,即 th最小值的样本, 的意思是 , 是一个常数由命令数据。Shapiro-Wilk常态的零假设测试样本正态分布,如果重要性概率小于5%,将拒绝零假设,即样本不满足正态分布。因为整个组(表的概率意义1)低于5%,零假设被拒绝。因此,这项研究应该为正常使用非参数检验分析。

弗里德曼测试(37),这是一种 样品测试,可以提供配对的值之间的差异,被选为非参数测试。这种方法评估小样本差异的排名顺序列表。弗里德曼的零假设测试是没有每组的平均差异,如果重要性概率小于5%,将拒绝零假设,从而进行平均每组中存在差异。弗里德曼的简要描述在以下测试: 在哪里 的平方之和的治疗和平方误差的总和,分别。

零假设在这个实例中被拒绝,因为意义的概率小于5%,这项研究得出的结论是,平均每个插值方法有差异,这就是为什么每个方法被认为是独立的,虽然本研究使用五种不同内核的方法。例如,四个参考点的平均排名 nn-regression Tricube,四次,余弦,Triweight, Epanechnikov变化从一个大平均小平均等级(表2)。六个参考点, nn-regression、Tricube Triweight四次,余弦,Epanechnikov排名如表所示2。在另一个例子中,八个参考点使用 nn-regression Triweight,四次,余弦和Epanechnikov平均等级(表2)。如表所示2, nn-regression最大的平均等级和Epanechnikov最小等级平均所有参考点的情况。这个结果证明了这些方法的不同。

来确定哪些方法是不同的,本研究进行了魏克森讯号等级测试(38]。魏克森讯号等级测试的基本特征是,数据样本来自相同的人口是成对的,详细如下: 在哪里 是样品的尺寸, 第二个数据点的价值, th值的第一个数据点, 的排名是 。如果 值小于5%,这意味着有不同的机制用于样本数据或方法。表3表明, 所有病例nn-regression小于5%。因此,这意味着 nn-regression是完全不同的其他方法。虽然五个不同的内核数据插值方法表现出彼此相似或不同的数量取决于参考点,所有内核的方法可以区分开来 nn-regression通过魏克森讯号等级测试。

4所示。结果

Epanechnikov以来最小的平均等级,这意味着一个小区别的观测值和插入值表中所有参考点2插值数据从Epanechnikov方法获得最佳结果的研究方法。图2显示填写数据 nn-regression有很大差异四个和六个参考点。插值数据从内核方法接近于零的平均数和中位数的值在四个参考点,这意味着插值数据类似于观测数据。另一方面,75%以上的插值的数据 比0 nn-regression展品不同。当插值数据评估六点参考点在图2的中值 nn-regression显示是远离零。在八个参考点, nn-regression平均数和中位数都是接近于零值;然而,很难得出结论,这是一个理想的方法因为边远最大值平均数和中位数会影响价值。

本研究对降水数据插值插值数据的仿真评估使用SWAT水文模型。在斯瓦特水文建模,通过考虑过量降水与地表径流估计通过水土保持服务抽象和渗透系数曲线(SCS-CN)方法。Green-Ampt (GA)渗透方法是另一种方法来计算地表径流在斯瓦特。一项研究表明,这两种方法给出了合理的结果,并没有显著的优势在使用一个观察。然而,GA方法似乎有更多的限制比SCS-CN方法建模的季节性变化。因此,SCS-CN方法用于渗透因素在这个研究。SCS曲线多为基础模拟需要时间步更新信息,土壤含水量的变化。过量降雨方程在SCS-CN方法生成基于历史关系曲线数量和水文20多年的机制。在地表径流计算,渗透应该更新根据土壤类型。蒸发蒸腾和土壤等抽象和雪蒸发计算了Penman-Monteith和气象统计方法。 Finally, the kinematic storage model is used to compute groundwater storage and seepage. Flow resulting in SWAT modeling is routed HRUs to watershed outlet. Figure3显示的校准模型模拟中所描述的初始步骤和具体参数表4。SWAT模型的校准后,六种不同的插值降水数据集,用三个不同的参考范围为每个(共24过插值降雨数据点),被用来评估性能的插值水文模型模拟的降水数据。水流模拟做了三年从2008年到2010年。评估模型的性能考虑使用不同的插值的降水数据集,本研究使用 (Nash-Sutcliffe系数), 广场(确定系数)和RMSE(均方根误差)。表5和图4显示仿真结果 nn-regression展览低斯瓦特模拟水流估计的性能,为0.54 ,0.74 广场,23.783/ s RMSE平均。所有的内核函数,另一方面,表现出良好的性能与插值水文模拟降水数据(表5和图4)的平均值 , 广场,RMSE Epanechnikov(1)为0.83,0.86和14.03米3/ s;(2)四次是0.84,0.88和13.03米3/ s;(3)Triweight是0.93,0.93,和9.30米3/ s;Tricube(4)是0.94,0.95,和8.13米3/ s;和(5)余弦是0.93,0.94和9.00米3分别/ s。

5。结论

五个不同的内核函数应用到Imha分水岭来评估每个加权方法的性能估计丢失的降水数据和水文模拟的使用插值数据评估。从这个研究可以得出以下结论。(1)估计丢失的降水数据点,探索过程应考虑降水的时空变化。由于困难在占这些变化,估计丢失的降水数据的统计方法是常用的。(2)虽然人工神经网络是一种先进的方法来估计丢失的数据,机制尚不清楚,因为神经元系统最终是一个黑盒模型。因此,回归方法被广泛用于估计缺失的数据,虽然有局限性,回归方法不能遵循正态分布时,样本很小。(3)当使用内核函数作为加权方法,估计缺失的数据符合正态分布的统计上的声音。同样,内核方法可以克服弱点 nn-regression如果数据有异常值和/或非线性趋势在丢失的数据点的平均值。(4)本研究评估了五个内核函数、Epanechnikov四次,Triweight Tricube,余弦,体重预测缺失值。在比较 nn-regression方法,这项研究表明内核方法提供更高质量的插值比降水数据 nn-regression方法。此外,核函数的结果更好的符合统计标准。(5)此外,更高质量的插值降水水文模拟的数据结果在更好的性能,本研究例证。所有的水流模拟的统计分析表明,使用插值模拟降水数据从内核函数提供了更好的结果比使用 nn-regression。(6)使用内核的分布是一个更有效的方法比回归降水数据有上升或下降的趋势。然而,如果降水数据非线性趋势,很难有效地重建缺失的值。进一步研究时间序列分析、随机游走模型使用一个随机过程是可能的方法来估计缺失的数据,那里是一个非线性的趋势。

附录

a型芯的功能

核密度估计是一种无监督学习过程,历史上之前内核回归。也就自然引出一个简单的非参数分类程序的家庭。

. 1。核密度估计

假设我们有一个随机样本 从概率密度 我们希望估计 在一个点 。为简单起见,我们假设现在 (真正的价值)。认为,自然的地方估计的形式 在哪里 意味着许多 这是收敛的 是一个小指标附近 的宽度 。这估计是崎岖不平的,光滑Parzen估计是首选, 因为它计算观测接近 与距离权重降低 。在这种情况下,一个受欢迎的选择 是高斯核 。让 表示高斯密度平均值为零且其实历史 ,然后(a .)的形式 样本经验分布的卷积 。分布 把质量 在每一个观察 和跳动;在 我们有平滑 通过添加独立的高斯噪声,观察

Parzen密度估计相当于当地的平均水平,并提出了改进的局部回归(密度的对数尺度)。我们这里不会追求这些。在 的自然推广高斯密度估计相当于使用高斯产品内核(a .),

由信用证。核密度的分类

一个可以使用非参数密度估计分类以直接的方式使用贝叶斯定理。假设为一个 类问题我们适合非参数密度估计 , 分别在每个类的,我们也有先验估计类 (通常样本比例)。然后 在这个区域的数据稀疏的类,并且由于高斯核密度估计使用基质内核,密度很低,估计质量差(高方差)在这些地区。当地的逻辑回归方法使用tricube内核 神经网络带宽;这有效地扩大这个地区的内核和利用当地的线性假设平滑估计(分对数刻度)。

如果分类是最终目标,那么学好单独的类密度可能是不必要的,实际上可以误导。在学习不同的密度表单数据,可能决定接受一个粗糙,高方差适合捕捉这些特性,为了估计后验概率无关。事实上,如果分类是最终目标,那么我们只需要评估后决定边界附近(两类,这是一组 )。

失踪的降水过程

这个步骤展示了示例计算核函数加权平均数。这是一个例子关于每种情况下的重量。如果内核函数都是对称的,相同的值用于重量根据一天的距离。下表61日,2日,3日,4日天距离和加权值显示。例如,如果我们想要估计丢失的降水量为2010-02-12(实际值是6),看到后程序步骤(3)4-NN Epanechnikov内核(表7)。

步骤1。选择目标插值数据的日期。

步骤2。决定 最近的天降水和每一粒重。

步骤3。计算重量平均来估计失踪。

其余的内核的方法估计丢失的降水中所描述的表8

c .样品与实际价值计算

本节将展示如何计算缺少降水与内核的意思是通过使用若干重功能。这个样例选择每日数据从2008年到2010年0.02可能性通过随机二元。选定的数据后,设置数据位置操作。Zhang et al。39]解决基于内核的非参数多元归责有更好的性能比一般线性回归当样本数据偏小或有限。

9显示了内核在每个函数的过程。我们使用数据2012年2月10日,从2月14日,2014年2月12日,估计2012人失踪的数据。Epanechnikov内核表明最长数据估计最高为0.417;然而,Triweight内核最长显示数据估计最低为0.188。最近的体重最高价值是Tricube内核和最低体重Epanechnikov内核。一般来说,Tricube,重量高,显示了失踪的过高的降水。

利益冲突

作者宣称没有利益冲突有关的出版。