文摘
土地利用和土地覆盖变化(LUCC)是气候变化的主要驱动力之一。大部分注意力都集中在土地覆盖数据的准确性的影响在许多气候模拟项目。颞土地利用数据的准确性从中国科学院(CAS)高于90%,但高精度土地覆盖数据不在。我们从不同来源覆盖土地覆盖地图,和网格分类被选为样本网格一致。通过比较获得的结果与不同的决策树分类器WEKA工具包的数据挖掘,发现C4.5算法更适合将土地使用CAS的数据分类IGBP分类的土地覆盖数据。我们重置决策规则与净初级生产力(NPP)和归一化植被指数(NDVI)作为指标。重新分类的准确性土地覆盖数据是通过比较证明达到83.14%的陆地生态系统监测站点和高分辨率的图像。因此,它是可行的生产时间土地覆盖数据使用此方法,可以用作参数动力降尺度的区域气候模拟。
1。介绍
土地覆盖变化,气候系统中扮演着重要的角色在全球、地区和地方尺度,导致气候变化和差异(1]。随着气候建模研究的进步在过去的十年里,它已被广泛认识到,还有一个更迫切需要准确地描述地表气候模型的边界条件(2- - - - - -6]。的具体贡献土地覆盖变化对全球气候变化仍然是一个争议但越来越担心的问题。许多土地覆盖数据中国近年来产生的遥感数据。先前的研究表明,降水研究的结果将会极大地影响了土地覆盖数据的准确性是否低于80%,结果可能更糟的准确性继续下降(7]。不幸的是,无论是整体还是职业专用大多数数据集可以满足精度的常见需求区域气候建模。因此,它是必要的生产土地覆盖数据集与高精度气候模拟基于现有的土地利用数据集,土地覆盖数据集和一些辅助数据集。这些数据与高水平的不确定性可能会提高结合不同数据源,以满足气候模拟的要求。
研究气候建模在不同空间和时间尺度。所以时间土地覆盖数据集对凝聚力的气候模型的发展至关重要。中国科学院(CAS)建造了一个土地利用数据集,包括1988年的数据,1995年,2000年和2005年(8- - - - - -10]。然而,仍然没有比较区域土地覆盖数据集的规模,特别是在中国,土地利用变化大大由于经济快速发展和人为干扰。许多研究表明,土地覆盖数据集之间的分歧主要源于不同的传感器、空间分辨率、算法和分类方案(11,12];其中,不同的分类方案被认为是土地覆盖数据集的关键分歧的原因和主要障碍比较来自不同土地覆盖数据集的数据(13,14]。因此,巨大的贡献可能是气候变化研究如果我们能充分利用长期土地利用数据集从CAS和使用适当的方法将其转换成国际地圈生物圈计划(IGBP)的土地覆盖分类方案由17个类别(表1)和被广泛接受和使用的模拟气候变化(15,16]。
决策树是一个最强大的分类算法分类土地覆盖类型的遥感影像(17,18]。决策树技术更适合分类的分析结果。此外,很容易理解,计算便宜的,处理噪声数据的能力。此外,它的预测模型是用户更容易理解。此外,它可以找到重要的高阶相互作用迅速自动交互检测,它可以产生更多的信息输出(19- - - - - -21]。决策树分类器包括C4.5 / C5.0 / J48 NBTree, SimpleCart, REPTree,和BFTree C4.5 / C5.0 J48分类器是最受欢迎的和强大的一个22,23]。C4.5分类器被选中在这项研究中根据精度评估,以确定植被解集分类在中国北方农牧交错群落交错区。
群落交错区是公认的最重要的一个生态研究的对象,因为它们是不稳定和对周围的环境非常敏感24]。此外,交错群落更适合的土地覆盖制图研究气候模拟。农牧交错交错群落已经收到了很多学术界的关注由于其面积最大,最长跨度,典型特征(25]。它包括9个省和106个县,面积共654年,564公里2(26]。这个地区的总人口是多少,平均人口密度为每平方公里47.9人。土地利用变化很大在中国北方的农牧交错群落交错区后发起的广泛而深刻的经济改革在1980年代早期(27,28)和农田的流动比率,林地、草地是1.0:1.17:3.67(图1)。温度上升已经越来越明显的在过去50年,平均增长率为0.4°C / 10 [29日]。因此,更应注意土地覆盖变化和气候变化之间的相互作用在ecozone生态环境退化的控制。
本文组织如下。部分1讨论了土地覆盖的气候模拟的意义,介绍了本研究的目标。部分2介绍了输入和参考数据,和部分3提出了空间数据挖掘的方法。部分4分析结果,以及评估的准确性和不确定性得到映射相比与其他土地覆盖地图。部分5讨论了研究结果和结论。
2。数据准备
介绍了空间数据挖掘的推理规则来区分森林类型中基于一致的网格数据的国际岩石圈生物圈项目数据和信息系统(IGBPDIS:https://lpdaac.usgs.gov/products/modis_products_table/mcd12q1(30.),全球土地Cover2000 (GLC2000:http://bioval.jrc.ec.europa.eu/products/glc2000/glc2000.php(31日),源集成中国土地覆盖(WESTDC:http://westdc.westgis.ac.cn/)[32),(UMD格式http://www.landcover.org/2000年)土地覆盖数据。分类规则是在2000年第一次修正,以提高准确性。那么1988年的土地利用数据,1995年和2005年被转换为土地覆盖数据根据这个推理规则。
在这篇文章中,我们还使用了土地利用数据库开发的中国科学院(CAS)。数据是可用的四个时期,即1988年,1995年,2000年和2005年。25土地覆盖类的层次分类体系应用于数据。团队还花了大量时间验证的数据解释的精度TM图像和土地覆盖分类通过广泛的实地调查(地面验证)。验证结果表明,解释的平均精度达到95% (33]。中国1公里土地利用图来源于1:100000年土地利用数据库。它包括两种类型的数据;一个是地理编码的地区(即方法。,if a cell has more than one possible code or it contains two or more polygons, the code of the polygon with the greatest area in the cell is used). The other was geocoded with area percentage grid method, in which each cell can be divided into 25 layers to record the area of each type [10]。此外,植被的植被图可以提供参考的信息由于森林分类的变化是轻微的在短期内。中国植被图反映了植被分布的详细信息,包括水平和垂直11区植被组,54个植被类型,135生物群系单位,796 subbiome单位(34]。
2000年土地覆盖数据的映射的基础上,数据挖掘是一个基准的长期的土地覆盖数据集。有必要收集辅助数据由于没有其他数据系列。信息数据的自然地理学包括地形坡度和植被属性变化的信息。地形斜率和平原面积比例的信息来自DEM数据覆盖整个中国的规模1:250000。这些数据中心提供的数据资源和中国科学院环境科学。气象数据,包括年度温度和年降水量,获得来自中国气象局。探路者数据集的NDVI数据集来自地球资源观测系统(EROS);从NOAA / AVHRR-NDVI图片中提取。图像的空间分辨率,其时间分辨率是15天。为了保证数据质量,所有的数据都被预处理与国际公认的可靠的方法(35]。此外,为了消除云造成的噪声污染和大气的影响,我们也与Savitzky-Golay平滑时间序列NDVI数据平滑滤波方法(36]。NPP 1985 - 1999年期间的数据来自NOAA / AVHRR遥感数据和2000 - 2010年期间,来自NPP MODIS的产物。
3所示。方法
工序的分类如下。首先,基于马赛克式的定义,我们产生了农田/自然植被马赛克数据使用CAS中的网格面积百分比数据集土地利用系统。然后其他类型的土地使用除了森林和森林是通过利用网格最大区域映射两个子分类定义CAS和IGBP之间。此后,我们检查和确定的网格类型符合WESTDC森林和森林,UMD格式,相关,和IGBPDIS土地覆盖数据;同时我们发现森林和森林的边界,这符合中科院的土地使用,生成的示例数据。最后,我们意识到森林的转换类型的IGBP和C4.5分类器(图方案2)。
3.1。土地利用类型映射到决定性的土地覆盖分类
最初的土地利用类型转变为土地覆盖类型。很容易把一些土地利用类型,例如,3类和马赛克土地开发,2类人造土地,1类的水IGBP土地覆盖分类。
它只需要从许多变换到一个或一个(表2)。例如,稻田土地和土地利用图的陆地CAS是显式的,对应于农田IGBP类定义,因此,只需要将其聚合成农田与二进制网格。更可行的判断农田的土地覆盖分类/自然植被镶嵌稻田面积百分比网格数据的土地,干涸的土地,森林,灌丛带,其中没有一个包含超过60%的景观类型。农田的土地覆盖/自然植被马赛克主要位于内蒙古、辽宁、河北、陕西、山西两省,面积共约730,00公里22000年(图3)。土地覆盖类型的8类包括IGBP10-IGBP17转换,占总土地面积的近一半。此外,有一个小稀树大草原在中国,这是很方便的判断基于温度和土地利用类型。然而,8类植被(森林、灌木和草本植物),叶子属性(常绿和落叶)和叶类型(丘陵山地和原始)是很难确定的,因为我们缺少植被的信息。
3.2。选择植被的空间协议样本数据挖掘
封闭的森林和其他森林乔木类森林中科院在土地利用分类的类。他们没有具体指定森林类型信息。然而,这提供了一个准确的森林边界;因此,我们需要一个推理规则改变土地利用分类系统和森林之间IGBP森林类别:常绿针叶林森林,常绿阔叶林,落叶针叶林森林,落叶阔叶林,混交林基于2000年的辅助数据。
之间的重叠程度,任何两个土地覆盖类基于分类方案的特性定义用于选择IGBPDIS采样网格,WESTDC, UMD格式和相关数据37]。协议为每个网格的程度是由重叠度规,这表明了基于相似在不同土地覆盖产品。如果两个产品是相同的或主要的类重叠对于一个给定的网格,网格将被赋值为1,这表明两类不同的分类方案完全同意对方。否则,网格将被指派的值为0。最后,表达同意和不同意的地图将在整个地区被创建,它突出的领域有很高的信心的分类(图4)。换句话说,采样网格地图可以从协议中选择学位。
在这项研究中,该方法提高了分类结果的进一步应用数据挖掘技术,利用辅助信息。详细的DEM数据,归一化植被指数、NPP和气象数据利用辅助信息分离植物类,它有非常不同的生态特点。植被类型是自然地理因素和气象条件密切相关。地形在每个网格可以通过地形描述类(例如,希尔,斜坡,抑郁等)通过处理的原始高程数据,气象数据的观察可以插入1公里网格单元。因此,这些数据集可以表示1公里网格数据。额外的信息来源被用来改进C4.5分类器的结果。我们重叠土地覆盖地图和这些辅助数据和样本数据集的ASCII文本格式ArcInfo工作站工具包。此后的训练数据集和测试数据挖掘的分类器在WEKA工具包。
3.3。构建分类方法识别植被类型
许多分类方法领域的研究人员提出了机器学习,模式识别,数据。在这项研究中,我们关注的分类方法将IGBP土地覆盖的森林和草原分类方案。在这种情况下,隐藏的和有价值的知识在相关辅助数据库发现总结了决策树的结构。与决策树分类技术可以不执行复杂的计算,这个方法可以用于连续和分类变量。我们发现C4.5分类器实现土地覆盖这些方法中精度最高的识别。分类器是决策树学习的基础上开发的,它是一个启发式,一步超前(希尔攀登),nonbacktracking搜索所有可能的决策树的空间。这种分类器的具体原则如下。首先,最初的样本数据是递归地划分为子组。然后所有的增益值的属性示例数据计算,根据数值的属性用于分类选择。接下来,使用属性最大的增益值逻辑测试,每个测试形式一个分支,样本子集(训练数据)令人满意的结果的子节点被转移到相应的子节点。 Thereafter, this process runs recursively on each child node until the needed leaf nodes were obtained. Finally, the decision tree was modified according to the relevant empirical knowledge. The C4.5 classifier is one of the decision tree families that can produce both decision tree and rule sets; the C4.5 classifier uses two heuristic criteria to rank the possible tests, that is, the information gain that uses the attribute selection measure, which minimizes the total entropy of the subset和默认的增益比,将信息增益的信息提供的测试结果。获得定量描述的算法函数获得(),如下所示。(1)最高的属性信息增益被选中。(2) 包含类的元组 。意味着分类的数量。(3)需要测量或预期信息的信息分类任意元组: (4)熵的属性与价值观计算了。 (5)信息增益方法可以获得多少分支的属性:
属性包含了民主党,经度,纬度,每年温度、年降水量、NPP、归一化植被指数和其他辅助空间数据。我们计算获得比选择属性,可用于生成辅助信息的分类(表3)。大约有35396个细胞样本的封闭的森林和其他森林。训练数据集的获得率计算,最大的值是0.27,这表明NDVI-12最合适的是森林的属性类别。森林被进一步分为两个子分类根据NDVI-12 NDVI-3;即森林NDVI-12达到0.53和NDVI-3达到0.39分为常绿的森林,在森林NDVI-12低于0.53和NDVI-3低于0.39分为落叶林。虽然民主党的增益比和温度高于NPP,很难区分森林类型根据他们。因此,我们杰出的丘陵山地,needleleaved,根据NPP混交林。NPP的阔叶林是超过445,和needle-leaved森林还不到297年,和森林中间NPP值分为混合森林。
不同分类器的精度与WEKA工具包。我们重置决策树规则使用NPP和归一化植被指数根据上述信息。WEKA工具包是一个集合的数据挖掘任务的机器学习算法。它包含工具进行数据预处理、分类、回归、聚类、关联规则、可视化。也非常适合开发新机器学习计划。
4所示。结果和讨论
4.1。评估土地覆盖分类的准确性
使用方法前面所提到的,一份气候模拟土地覆盖(SCSLC)地图生成和基于多源空间数据挖掘的决策规则在中国北方农牧交错群落交错区(图5)。分析这张地图的特点,我们比较每个土地覆盖类的区域与其他三个受欢迎的土地覆盖地图,这张地图,WESTDC地图,地图,UMD格式,相关地图。每个土地覆盖类的整体区域所示的四个地图中根据同一分类(表4)。值得注意的是,SCSLC地图使用C4.5分类器类似于WESTDC地图,但有显著增加农田/自然植被马赛克和相应的减少草原。我们还发现的准确性、相关地图和地图低于SCSLC UMD格式,WESTDC。相关地图忽略了城市和建设用地,而忽略了UMD格式水体在中国北方农牧交错群落交错区,但两种土地覆盖类型的气候模拟至关重要。
在分类过程中,分类地图的准确性评估了一组35396个采样点与分层随机抽样的方法选择;这些采样点是随机选择为每个生成的类的分类地图在这个研究。对于每一个映射,创建一个混淆矩阵,精度测量。使用测量等整体精度,Kappa统计,生产商的准确性和用户的准确性已经相当普遍,大量的出版物的详细解释。混淆矩阵构造与土地覆盖数据使用决策规则和大规模的土地覆盖映射与多源信息的集成,这被认为是真实的数据。结果表明,总体精度达到了88.62%,这表明它上涨约增加17.62%精度相比WESTDC地图(表5)。
此外,我们画的接受者操作特征(ROC)曲线使用WEKA森林分类决策规则。真阳性率(灵敏度)策划的假阳性率(1-Specificity)函数不同的截止点的ROC曲线。ROC曲线中的每个点代表一个敏感性和特异性双阈值对应于一个特定的决定。测试与完美的歧视(没有重叠的两个分布)进行ROC曲线,通过左上角(敏感性100%,特异性100%)。越接近左上角ROC曲线,整体测试的准确性越高。ROC曲线下的面积(AUC)常绿needleleaved森林,落叶needleleaved森林,落叶阔叶林,混交林,灌木的土地,打开和关闭灌木土地分别为0.82,0.91,0.93,0.91,0.85,和0.85,分别(图6)。最大的AUC值被分配到常绿阔叶林、常绿阔叶林表明所获得的结果应该比其他四个模型。
(一)
(b)
(c)
(d)
(e)
(f)
4.2。验证与地面参考数据
很难进行大规模的验证映射所有土地覆盖类型的所有地区由于缺少参考数据,可以代表“真正”的土地覆盖。龚执行验证的全球土地覆盖地图使用真实样品从全球土地覆盖数据流量网站(38]。在这项研究中,输入土地利用数据的准确性高,2000年被验证。所以我们只需要验证的准确性森林类型和草地类型。地面参考数据来自多个来源如现场调查、陆地生态系统监测站点(显微镜),和2样本通过谷歌地球获得的高分辨率图像,用来验证土地覆盖产品(表6)。结果表明,SCSLC地图的整体精度为83.14%,远远高于相关的土地覆盖图(68%)和土地覆盖UMD格式映射(52%)。
此外,时间特征也很重要的验证信息的植被类型。我们比较的时序NDVI值改变了土地覆盖数据分析不同森林类型的特点。我们评估的数据集根据植被物候特征密切相关的温度和海拔。植被动力学代表一些重要的短期和长期的生态过程。地表参数的连续时间观测卫星可以揭示其季节性和年度发展。在这项研究中,我们使用了植被指数的分类森林植被的状态和动态的特点。在大多数情况下,不同类型的植被物候不同模式。NDVI值落叶阔叶林是最高的四种类型的植被,以及开放的灌木地是最低的。土地覆盖分类图的统计曲线表明,常绿土地覆盖没有显著的变化在研究期间。然而,落叶林有一个单一的滑动曲线峰值归一化植被指数(图一年7)。这可能是因为落叶丘陵山地森林主要是位于温带,虽然needleleaved森林主要是在寒温区或山脉在温带。
5。结论和讨论
土地覆盖的信息具有重要意义的研究全球变化的科学。人类活动的影响,如土地覆盖变化对区域和全球气候与气候建模技术可以研究。土地覆盖数据集,往往源自于遥感图像,被广泛用于描述物理表面条件地表气候模型的方案。但是这些数据集的准确性还没有高到足以满足气候模拟的要求。
本文描述了研究的意义使用数据挖掘分类技术的土地覆盖分类。研究的植被分类精度显著提高土地覆盖华北地区采用数据挖掘技术来中国的不同采用卫星土地覆盖数据,精度更高的土地利用数据和其他辅助空间数据。通过计算得到植被分类的属性值,结果表明,特殊的每月的归一化植被指数的信息是最重要的,和温度对当地的土地覆盖的变化更敏感于降水。方法用于分类等植被类封闭的森林,灌丛带,和草原独有的光谱特征参数。
土地覆盖分类的准确性评估通过比较分类结果与参考数据,被认为是准确地反映真实的土地覆盖。在这项研究中,我们发现C4.5分类器的准确性为88.96%,高于别人,包括NBTree SimpleCart REPTree, BFTree。此外,我们计算了混合矩阵和ROC植被分类的价值。Kappa系数为0.87,与中华民国价值几乎达到0.90,但中华民国落叶阔叶林只有0.74。验证中国各地表明土地覆盖图的整体精度为83.14%,高于其他土地覆盖地图和遇到的气候模拟精度的要求超过了80%。因此,结果有可能提高建模精度的陆地表面过程在中国,可以用作参数动力降尺度的区域气候模拟。
总之,本研究中所开发的分类器可以用来快速高分辨率CAS土地利用类型转换成的土地覆盖类型与区域气候气候模拟模型。此外,时间序列NDVI和NPP数据从遥感数据中检索可以用来快速产生高分辨率时间序列的植被数据,实现动态区域气候模型的输入参数,这可以极大地提高区域气候模拟的准确性。此外,结果可能会提供支持的其他研究地表科学。
确认
这项研究受到了中国国家基础研究计划(973计划)(没有。2010 cb950904)。数据支持中国的国家自然科学基金项目(没有。71225005)和探索前沿项目研究组成员、中科院地理所的科学战略计划、中科院也赞赏。