文摘
多准则参考方法被开发来评估18环流模型的表现(GCMs)研究地区从1970年到2005年。结果显示如下。(1)模型模拟温度比降雨量。时间和空间分布的模拟温度与观测相比,表现良好。温度相比,模拟降水的空间分布表现不佳。大部分的全球大气环流模型低估了温度和高估了降水。(2)Grubbs测试是用来检测异常运动等级分数的变化(RS)的结果;inm-cm4和ipsl-cm5b-lr模型被拒绝当模拟温度,而bnu-esm和canesm2模型模拟降水时表现不佳。(3)添加或删除任何标准并不显著影响RS的结果,这表明多准则的参考方法是健壮的。使用多准则评估模型参考方法的优点表现证明,这个方法还提供了一个更全面的评估相比,一种标准的方法。 The multicriteria method could replace other criteria as the research requirements and could be easily extended to different study regions; the results could be used for better informed regional climate change impact analyses.
1。介绍
环流模型(GCMs)是最常见的工具来预测未来的气候变化。错误和不确定性在严重性GCM元数据范围,特别是导致无法模拟观测气象事件。GCM模拟通常由偏见和不确定性特征,限制其直接应用程序(1]。不同的迫使场景,全球大气环流模型,subgrid-scale营力和过程引起的不确定性,揭示大量的信息也表明,大量的工作需要识别有用的信息,这限制了GCM应用程序(2]。尽管不断努力改善GCM模拟性能,评价方法的应用是至关重要的气候变化的影响研究(3]。
为了改进GCM应用程序的准确性,全球大气环流模型评估在许多研究[4- - - - - -6]。这些评估强调全球大气环流模型根据其不同的应用程序的各个方面。例如,在一项研究中,一个长期的气候变化分析是重点,评估应用程序前的GCM性能只关注其长期时间和空间分布模拟。然而,这一评估的缺点是只能使用一个标准描述模型的时间或空间的表现,但可能不符合其他条件的研究4]。更全面的理解这个模型的优点和缺点是可能的,当越来越多的标准包括在GCM评估。
迄今为止,没有评估方法研究的全球大气环流模型已经被广泛接受。评估模型的性能在使用它们之前成为一个有趣的问题。本文分析了多准则参考方法和表演的全球大气环流模型定量计算和检查。我们研究了这种方法,目的是全面、准确地评估模型的性能。
论文的大纲如下:部分中给出的数据和方法2和3,分别。部分4描述每个GCM的性能。温度和降水的GCM模拟评估在研究地区。提供了结束语部分5。
2。研究区域和数据集
Yellow-Huai-Hai地区模型的性能进行评估。Yellow-Huai-Hai地区,位于中国中北部30°之间和42.5°N和90°和122.5°E(图1),中国最大的冲积平原。研究区大部分地区半干旱和semihumid(即。,the Yellow River and Hai River basins, respectively), and only a small part of the region in the southeast of the study area has a humid climate (the area covering the Huai River basin). The Yellow-Huai-Hai region is an agricultural breadbasket and prime urban and industrial region in China. This region, therefore, plays an important role in the social and economic development of the country. Thus, the consequences of climate change seriously restrain economic growth [7,8]。
GCM所有数据都来自第五阶段的耦合模型相互比较项目(CMIP5),这是分析未来气候变化的最重要的工具。数据集从这个项目提供了一个框架,用于协调气候变化实验,目的是评估气候模拟近年来提供更准确的预测气候变化和气候反馈量化从CMIP3相比9]。详细的数据可以发现苔藓et al。10和泰勒et al。9]。模拟未来气候变化,18全球GCMs CMIP5摘要被认为是(包括access1-0、bcc-csm1 bnu-esm, canesm2, ccsm4, cesm1-bgc, cnrm-cm5, giss-e2-h, csiro-mk3.6, fgoals-g2, gfdl-cm3, hadgem2, inm-cm4, noresm1-m, miroc-esm, ipsl-cm5b-lr, mri-cgcm3)。更多细节在所有可用的模型http://cmip-pcmdi.llnl.gov/cmip5/docs/CMIP5_modeling_groups.docx。自GCM水平分辨率不同,GCM输出被窜改统一分辨率为2.5°×2.5°。网格单元分布在研究区图所示1。
高质量的温度和降水数据来自《每日数据集中国表面的气候(V3.0) 1970 - 2005年期间由国家气象信息中心提供。这些数据是基于测量数据(图128个气象站1)和控制质量和准确性的近100%;更多细节,请参阅http://data.cma.cn/data/cdcdetail/dataCode/SURF_CLI_CHN_MUL_DAY_V3.0.html。有效地评估模型的性能,每日气象站观测的数据收集月度数据和内插到2.5°×2.5°细胞使用逆距离加权法。空心圆图1代表每个GCM网格点的位置,和GCM的数据网格点,标有黑色圆圈,在这项研究中被选作评估。
3所示。方法
在这项研究中,多准则参考方法被开发来评估GCM模拟在区域范围内的性能。标准包括年平均数据,标准偏差,年度气候周期,归一化均方根误差(NRMSE),空间分布,气候变化趋势,经验正交函数(EOF)和概率密度函数(PDF);这些标准在表列出1。
评估,0 - 9的等级分数(RS)值,用于评估每个单独的评估标准,都写在下列形式: 在哪里代表之间的相对误差(RE)GCM结果和观察或相关的统计值GCM。再保险公司的更大表明一个更大的RS在GCM性能评估。此外,每个GCM的总RS是所有加权累加的RS标准。这个RS方法用于描述观察和模拟之间的拟合程度顺序统计特征。根据拟合结果,每个GCM的分数被分配一个0到9的数字来评估每个GCM的性能。RS并不代表实际的模拟精度的具体模型,但适用于比较不同GCM表演。几种不同的标准,有相同的统计目的,如Mann-Kendall (mk)测试(Z)和趋势大小(β),这是标准的趋势分析;EOF1、EOF2 EOF分析标准;和荆棘的分数(BS)和意义的分数(Sscore),标准的pdf(这将在稍后描述),有重量在这求和(表0.51),而其他个人标准权重为1.0。如果一个有效GCM模拟一个观察,然后RS很小。
再保险是用来量化相似模拟和观测值之间长期均值和标准差每月: 在哪里和代表的模拟和观测数据时间序列,分别代表这些样本的时间(从1970年到2005年的432个月)。
基于历史数据,和代表GCM在历史时间和观察结果 ,分别;代表的意思是观察;和表示时间序列的长度。NRMSE的优点是,它可以考虑预测的平均值和标准偏差。NRMSE本质上是均方根误差除以标准差在相应的观测。相关的最低价值NRMSE总是最好的结果,这个最小值是可靠的确定最好的模拟。NRMSE变化的范围从0到正无穷,0表示,有一个完美的协议GCM数据和参考数据。
年度周期的相关系数计算建模与实际观测值之间长期的月度平均值。空间分布,观察和建模之间的相关系数计算长期对每个网格单元。
m k测试和趋势量法来确定长期单调年度趋势和量化他们的大小13]。的rank-based价值非参数m k检验统计量(Z)模型和观察气候变量的估计 在哪里 在哪里代表年度气候变量的时间序列,代表一年的长度,代表任何程度的领带(连续的长度相等的值),和表示所有关系的总和。
这一趋势大小 ,森的坡,这是一个度量由赫希et al。13和森提出的14];被定义为 在哪里 。斜率估计量, ,等于所有可能的组合的值对整个数据集(7]。代表了时间序列变量来进行评估的研究。森的斜率的变化趋势进行了分析通过分析时间序列数据的数据可能避免数据丢失的不良影响的分析。在方程(再保险2)被用来评估距离的值和每个GCM观测值。
EOF分析被用于这项研究比较气候建模的空间分布差异的变量和观测(15]。一个EOF可以识别和量化的空间结构(相关的可变性16]。两大模式选择在这个评估,因为他们占多数的总方差。
BS和Sscore被用来评估月度气候变量的pdf模型。 在哪里和代表模拟和观测概率值,分别在每一本代表垃圾箱的数量。根据数据范围,我们箱子的数量设置为100;因此,我们将所有的数据分成100等量的顺序,然后计算每个尺寸的概率密度。在这项研究中,b表示概率预测的均方误差(17,18)和Sscore代表累积计算最小值为每个本模拟结果与实际观测值的分布,模拟结果与实际观测值之间的重叠可以量化的数据(19,20.]。因此,当GCM的BS更低,Sscore更高,GCM的性能更好。
4所示。结果
4.1。评估温度
表2包括评估的结果GCM Yellow-Huai-Hai地区温度的性能。观察到的平均温度在研究地区的历史时期是8.49°C,而通过模型模拟的温度是3.62 - -8.09°C。大多数模型低估了平均温度约2°C。观察的标准偏差为0.53°C,和大多数标准差在全球大气环流模型从0.4 - -0.6°C。NRMSE总是用来比较观测和模拟之间的区别。因此,如果有组数据均值和标准差结果非常相似,小NRMSE结果显示一个更好的模拟数据的集合。每月平均温度,最佳NRMSE发生与mpi-esm-lr GCM(0.16),而NRMSE ipsl-cm5b-lr模型的结果是最大的全球大气环流模型。模拟月度年度为每个GCM气候周期分布是相对类似的观测数据,可以从相关指数(所有值都大于0.995)。因此,相关结果的月度年度周期的分布圆为1。空间温度分布的相关系数之间GCM和观测结果也大于0.9。 The simulated spatial temperature had a distribution similar to that of the observations, where the temperature increased from west to east, and the temperature was lowest in the source region of the Yellow River, while it was highest in the southern region of the Huai River basin (Figure2)。
(一)
(b)
根据m k的结果分析表2Yellow-Huai-Hai地区,温度增加了在过去的36年。大多数模型显示温度的增加趋势,排除giss-e2-h模型。不同模型模拟的性能变化趋势不同。m k测试观察温度的Z值是4.81,这意味着观察到的平均气温在0.05显著性水平显著增加。然而,大多数模型的Z值在1.13和4.59之间(不含giss-e2-h canesm2),这表明大多数全球大气环流模型低估了这一地区的温度变化趋势。这种趋势大小, ,通过森的斜率显示了类似的结果。
结果空间温度使用EOF分析表明,EOF的第一和第二向量月度温度通过观察占总方差的98.9%和0.51%(表2),分别。第一解释方差模型的范围是96.99%至98.63,而第二个解释方差是在0.55%和1.23%之间。这个结果只是评估模型的性能通过使用两个解释方差值,表明这个模型模拟可变性。根据EOF模型的结果,所有的模型表现良好的物理过程的温度变化。应该注意的是,在某些特殊情况下,空间模式可能不同,而空间模式和观测值方差相似。然而,这种情况比较少见,因此,本研究中没有讨论。
经验累积概率分布(图3)表明,经验累积概率分布模拟的月平均气温最这个模型非常接近观察(不包括inm-cm4和ipsl-cm5b-lr模型,低估了整体温度Yellow-Huai-Hai地区)。结果Sscore和BS所有53个选定的网格点呈现在图4。所有53个网格点的分数的变化意味着空间差异。高Sscore BS表明优秀的GCM相对较低性能的概率分布的网格点。网格点的均值Sscores大多数模型都超过80%。ipsl-cm5b-lr模型的结果是一致的经验累积概率情节,BS大Sscore值小。每个模型的BS和Sscore每个网格点之间的不同,反映出气候要素的空间变异性。例如,在一些模型,网格点的Sscore超过90%,b值接近0,这意味着GCM温度的概率密度分布在这些网格点的观察非常相似。然而,Sscore不超过50% BS高价值在一些网格点,这表明温度模拟这些模型的概率分布在这些网格点不是很强烈。利用RS评估模型的性能评估,计算了每个模型的最后得分。ccsm4模型得分最高,而inm-cm4模型得分最低。 Figure5描述了不同年度之间的温度变化观察和Yellow-Huai-Hai地区最好和最差的模型。我们可以清楚地看到,即使ccsm4模型低估了平均温度,该模型模拟的观察变化趋势相似。相比之下,inm-cm4模型大大低估了温度和模拟一个不正确的温度变化的观察比较。
4.2。降水的评估
表3包括降水GCM表现的评估结果。相比与温度、降水的全球大气环流模型方面表现不佳。观察到Yellow-Huai-Hai地区的年平均降雨量568毫米,而大多数模型高估了降水的价值(650 mm - 1256 mm)。bnu-esm模型中的具体而言,降水达到1256毫米,这是观察到的降水两倍金额。的标准差bnu-esm mri-cgcm3 83.4毫米和33.58毫米,分别,这是完全不同于观察(61.5毫米)。降水NRMSE(只有0.54 - -1.5)远远大于温度(0.16 - -0.55)。月降水的相关系数通过GCMs低于年度周期的温度,但大多数仍大于0.9相关系数值。但是,当我们分析这个模型的性能的降水空间分布、空间模型的相关系数是0.45 - -0.82,这表明GCM模拟降水的空间分布,远不如温度的空间分布。图6表明bnu-esm模型在模拟空间降水和执行不佳,具体地说,它错误地估计高降水区域研究中区域。
(一)
(b)
Yellow-Huai-Hai地区年降水量经历一个无足轻重的减少0.05显著性水平。根据Z价值和森的斜率大小,大多数模型的变化趋势减少少于那些观察;具体地说,一些模型似乎已经在研究期间增加的趋势。m k测试表明,模型显示了不同降水变化趋势,这表明通过模型模拟的降水比模拟温度更加不确定。eof分析表明,观察和模型之间的差异大于温度,符合其他标准的评估结果,降水模拟相比,温度相对不佳。影响降水的物理机制主要是受大气环流因素的影响;不一致的模拟降水空间分布表明,一些全球大气环流模型无法解释循环的影响因素。
GCM月降水的经验累积概率分布与观测图进行比较7。经验累积概率分布的模拟降水是不准确的温度。一般来说,大多数全球大气环流模型模拟一个贫穷的结果为高值经验的沉淀累积概率分布。大多数模型高估高沉淀值的概率分布,这是与年降水量的分析结果一致。月降水的BS 53个网格点远远大于月度温度,和离群值也显示这个模型之间的不一致和观察(图8)。尽管Sscore中间值几乎相同大小的月度温度、高BS和低Sscore的结果也表明,温度模拟模型比模拟的降水(尤其是bnu-esm模型)。
GCM表演的结果利用RS值如表所示3。csiro-mk3.6模型模拟的降水比其他模型,及其RS只有12.24。此外,bnu-esm模型表现最糟糕的模拟降水、最高的RS (48.52)。图9描述了Yellow-Huai-Hai地区年降水量的变化。bnu-esm模型大大高估了研究地区的年降雨量,和振荡模型似乎反相比较与观察。甚至csiro-mk3.6模型似乎略有高估研究地区的年降水量和展览不同的波动变化观测相比1970年代初;模型有一个波动变化类似于1975后的观测数据。
总共五个模型,RS温度低于17 (ccsm4、hadgem2 mpi-esm-lr, cesm1-bgc和access1-0),和4模型,总共有RS降水不到20 (csiro-mk3.6、access1-0 ccsm4, cnrm-cm5, hadgem2,和cesm1-bgc),被选为好GCM组(图10)。与观测相比,好的GCM组是窄的区间不确定性,和平均值接近的观察。注意,GCM元数据中的错误影响整个光谱强度,和偏差纠正改善GCM模拟能力。一个简单的偏差纠正后,模型很好的GCM组可以有效地应用于未来的研究。
(一)
(b)
4.3。全球大气环流模型的整体性能和灵敏度分析
温度和降水的RSs用于评估所有模型的表现(最后一列在表中2和3)。以升序排序,排名连续两个分数(即之间的区别。,移动范围(MR))是用于检测任何变化点的存在(21- - - - - -23]。此外,格拉布测试(24是用来测试是否有一个异常值单变量数据集。如果测试表明显著差异,那么我们有证据拒绝GCMs大排名分数组内。测试分析和Grubbs先生的结果如表所示4。
两个变化点的温度检测,而Grubbs测试的结果表明,这些变化点是离群值在95%的显著性水平(图11)。因此,这些模型(inm-cm4和ipsl-cm5b-lr)应该被拒绝,因为他们的RSs明显不同于其他的模型。第一个8模型的差异并不显著。一些高级模型分数不能拒绝的测试,因为这些模型可以捕捉一个或多个特征在时间或空间分布月度温度。
(一)
(b)
降水、两个变化点检测(图12)。Grubbs测试的结果表明,bnu-esm和canesm2模型应该拒绝由于模拟降水的糟糕表现。RSs的最后两个模型非常不同与其他模型相比,在GCM RSs中其他模型的差异很小。
(一)
(b)
根据表4模拟模型的温度比降水表现得更好。这个结果符合全球范围内AR4全球大气环流模型的研究,显示大部分模型可以捕捉月度温度而不是那些降水的特点(12]。我们应该注意到相同的GCM模式以不同的方式执行不同的气候变量。例如,bnu-esm模型是第六届最佳温度模型,但它是最糟糕的降水模型。此外,csiro-mk3.6模型模拟降水最好的,虽然它在RS评估仅排名第十。
此外,这个模型在不同地区的不同也有不同的表现。例如,bnu-esm模型不适合预测未来气候变化Yellow-Huai-Hai地区,但它可能对另一个研究地区表现良好。
分析每个评估标准的排名结果,总体结果与结果通过删除单个统计标准。基于图13,添加或删除任何评估标准不明显影响整体排名。RS得分标准是移除后可能会改变,但性能模式仍然表现良好在添加或删除一个标准。结果表明,这种RS方法评估GCM表演。这种强劲的评估提供了一个优势当使用多准则方法来评估模型的性能,而不是使用一个单独的评估标准,因为GCM模拟单个统计因素可能但不提供良好的模拟其他因素。
每个RSs的统计数据是由一个单一的标准被单独使用,相比之下,总体结果(图14)。根据相关分析,没有单一的标准生产完全相同的结果整体排名,也肯定了多准则方法比单准则评估产生更多的信息。单一的评估标准提供了不同的结果,如NRMSE标准的RS接近总体排名和相关系数是0.75,而空间分布的相关系数只有0.08。因此,如果有GCM模拟空间分布和季节性Yellow-Huai-Hai地区,但这并不意味着这种模式也将更好的结果在模拟其他统计数据(如长期意味着,趋势大小,或概率密度)。
5。结论
本文开发了多准则参考方法评估GCM性能Yellow-Huai-Hai地区从1970年到2005年。这些标准的RSs应用全面评估18全球大气环流模型时的时间和空间性能模拟研究地区的降水和温度。
所有模型模拟温度时表现良好。尽管所有的模型低估了平均温度,时间和空间分布的结果很接近,从观察。这个模型没有模拟降水以及温度,尤其是模拟降水空间分布。大多数模型高估意味着在研究区降水。表现良好的模型选择组成良好的GCM组,的意思是好的GCM组更接近观测。
通过标准的敏感性分析,我们发现,删除或添加一个标准不明显影响评估的结果,这表明多准则评估模型参考方法是一个健壮的方法。这项研究提供了一种不同的方法从单一评价标准来评估模型的模拟能力。研究人员可以指定他们的具体应用和研究的标准相关要求选择适当的模型作为研究对象。这种方法可以很容易地应用于不同的研究区域的选择和指导模型用于研究区域气候变化的影响。
数据可用性
这个模型的数据用于支持本研究的发现已被存入http://wwwpemdi.llnl.gov。
的利益冲突
作者宣称没有利益冲突。
确认
我们非常感谢匿名评论者的建设性的评论,这大大提高了手稿。我们感谢气候建模组生产和向公众提供他们的模型输出。金融支持国家重点研究和发展计划(批准2018 yfc0407403),中国国家自然科学基金(拨款51809103和51809103),特殊研究基金会的黄河液压研究所(赠款hky jbyw - 2018 - 06和hky jbyw - 2017 - 08年),中国博士后科学基金会(批准2017 m610458),和技术发展基金会黄河液压研究所(格兰特HKF201604)。