文摘

森林大火造成的不同环境和人为因素是造成大量破坏自然和经济资源。现代机器学习技术已成为流行的发展中非常准确和精确的易感性的各种自然灾害地图帮助减少这些灾难的发生。目前的研究和测试多个算法应用于地图领域容易土耳其在地中海地区的森林大火。此外,XGBoost的性能、CatBoost梯度增加,演算法,LightGBM野火易感性映射也检查的方法。结果显示较高的测试精度CatBoost算法(95.47%),其次是LightGBM (94.70%)、XGBoost(88.8%)、演算法(86.0%),和“绿带运动”(84.48%)算法。合成野火易感性地图为森林工程师提供适当的库存,规划者,未来政策和地方政府的灾害管理在土耳其。

1。介绍

森林火灾是至关重要的自然灾害和严重的生态、经济和社会后果世界(1,2]。近年来,火灾事故的频率显著增加,受影响地区的程度已经观察到,说明问题的严厉。根据欧洲森林火灾信息系统(有效率),831.46公里的一个领域2在土耳其在2019年受火灾影响,近2018年的两倍,而这一数字达到了998.57公里22020年(3]。这些统计数据表明,土耳其的受灾地区由于森林火灾随时间增加。研究表明,人为因素(4,5)和气候变化(6- - - - - -8)发挥重要作用在火灾发生的频率,增加受影响的地区。大火不仅负责森林的大规模杀伤性武器,但他们也有一些对自然环境造成的不良影响,如增加侵蚀风险(9- - - - - -12),水质量差(9),土地利用的变化(13),和消除野生动物14]。然而,许多地中海植物物种进化生存的某种形式的适应机制在火15]。例如,土耳其在地中海地区的植物松果体brutia有火政权产生耐药性16]。

发现以前的文献披露多个环境和人为因素可能引发森林火灾负责在地中海地区(17,18]。使用不同的相关研究数据从各种环境参数如高程、方面、坡度、植被、温度、湿度、风力,以及人类参数如距离公路,距离,和人口,找出森林大火的原因(19- - - - - -22]。回顾相关文献没有经常使用模型来评价火灾风险分析。重量和变量建模指标可能有所不同全球不同地区的森林大火有特定的特征(23,24]。根据相关文献,许多其他模型用于森林火灾风险分析(25,26]。在不同的研究中,地理信息系统(GIS)项目是经常用于处理大型数据集和生产有用的火敏感性地图(27- - - - - -29日]。此外,使用卫星图像基于gis技术的森林火灾风险分析项目经验测试产生更健壮的结果(30.,31日]。

统计方法如双变量和多变量分析(32,33),多元线性回归(34,35),和逻辑回归36- - - - - -39)已广泛用于森林火灾模型。近年来,机器学习算法在森林火灾风险分析也得到普及40- - - - - -44]。罗德里格斯和De La Riva45)开发的随机森林(RF),提高回归树(BRT)和支持向量机(SVM)算法在他们的研究在该地区覆盖几乎整个西班牙半岛。结果表明,射频达到最高的性能。纳尔逊et al。46]车相比,BRT,射频在不列颠哥伦比亚进行的一项研究中,加拿大,和发现BRT表现最好的模型,其次是车和射频。分析的相关研究显示,选择一个适当的模型对森林火灾风险映射是具有挑战性的每个算法的结果因地区而异47]。

机器学习技术已经广泛应用和测试在许多实证研究开发各种自然灾害的敏感性地图和准确的预测(48]。例如,马等。49)一个极端的梯度增加(XGBoost)方法用于洪水风险评估在中国西南的云南省。XGBoost方法成功地确定了选择的因素和洪水事件和表现之间的关系比较LSSVM_RBF模型。但地区滑坡敏感性研究映射Bartın省西部土耳其黑海地区(50)相比,四个新的梯度增强算法命名为梯度增强机(GBM)分类增加(CatBoost),极端的梯度增加(XGBoost),光梯度提升机(LightGBM)。结果显示精度最高的CatBoost模型的预测能力。

相反,射频方法被发现有最低的预测能力与整体方法相比,吴et al。51)使用另一种滑坡敏感性的地图创建决策树(ADTree)县县(陕西,中国)。此外,他们使用基于gis技术的新乐团技术,包括与引导ADTree(装袋),自适应增强(演),ADTree。结果表明,ADTree-AdaBoost模型有最好的结果。对于中国的三峡库区,Chen等人。52)创建了一个滑坡敏感性地图使用三种先进的机器学习方法,梯度提高决策树(GBDT),随机森林(RF),(发票)模型和信息价值。在这些模型相比,GBDT显示精度最高的方法。可以等。53]极端梯度增加(XGBoost)方法用于滑坡敏感性的映射阿塔图尔克水坝上游盆地在土耳其。XGBoost算法的性能被发现在各种指标。在三峡库区万州部分(中国),山体滑坡敏感性地图开发使用加权梯度提高决策树(加权GBDT)模型(54]。逻辑回归(LR)模型和梯度提高决策树(GBDT)模型也被用于比较的研究。结果表明,加权GBDT模型精度最高,其次是GBDT和LR模型。然而,加权GBDT和GBDT模型产生了非常相似的结果。

讨厌等人。55)使用的演算法,XGBoost、射频和多层感知器(MLP)机器学习算法来确定商业建筑在高火灾风险在亨伯赛德郡地区,英国。结果显示,演算法的性能优于其他算法。在中国的云南省,周等人。56]应用CatBoost算法,对森林火灾的风险评估。分析使用五个森林火灾风险因素,并发现该模型和实际火灾点重叠。Rosadi和Andriyani57)将学习演算法与决策树和支持向量机方法来预测森林火灾的发生。这项研究解释说,模糊c均值聚类和演算法在预测森林火灾方法提供了良好的结果。迈克尔et al。58)使用两个采用卫星测量(NDVIW和NDVIT)在三个机器算法(LR、射频和XGBoost)提高火灾风险映射。研究在一个地区的希腊确定XGBoost模型产生最好的结果。

回顾最近的研究揭示了各种算法的应用和性能开发敏感性的地图不同的自然灾害。然而,大多数的这些机器学习方法用于滑坡敏感性映射。文学差距很少研究观察到使用和应用机器学习技术来制作野火易感性的地图。此外,本研究工作的兴趣和在2030年联合国可持续发展议程。本研究旨在应用和测试各种算法映射领域容易土耳其在地中海地区的森林大火。制定的易感性地图定位至关重要的地区容易野火,采取必要的措施,避免任何事故在未来。本文的主要贡献是评估XGBoost的性能,CatBoost,梯度推进,演算法,LightGBM野火易感性映射的方法。我们先前的文学知识,没有先前的研究调查了这些模型的性能野火易感性映射。因此,寻找最佳的性能模型野火易感性地图将有助于改善决策在未来减少森林火灾的风险。

2。材料和方法

2.1。选定研究区域

研究区域包括5个省份的土耳其的地中海地区宣布“灾区”灾害和应急管理职位(AFAD) 7月31日,2021年,在最近的火灾事件在土耳其。这些省份包括Muğla、安塔利亚,梅尔辛,阿达纳,沿着托罗斯山脉和Osmaniye,拉伸和土耳其南部的地中海沿海地带。研究区从36°1′14.884 N 38°24′8.919 N纬度和27°12′18.892 E 36°42′19.828 E经度(图1)。

所选区域的影响仍在亚速尔群岛的高压在夏天,在冬天,典型的气候特征融合的北部极地气团和南部热带气团主宰该地区(59,60]。该地区通常有一个典型的地中海型气候,夏季炎热干燥,温和,冬季多雨。从海岸大约海拔达到3500米。每年的温度变化从12°C到20°C,年降水量平均是400 - 1200,平均相对湿度约53 - 69 (http://www.mgm.gov.tr)。此外,流行的干燥和连续北风被认为是高度负责森林火灾,火灾时期尤其如此。该地区拥有最高的特有植物在土耳其由于limestone-covered土地和气候条件适合喀斯特作用[61年- - - - - -64年]。

选中的区域延伸超过66014 .26公里2,其中大约54%被森林覆盖(表1)。分为不同的生态区域面积的基础上增加高度的海岸线。一些主要植物协会和研究区域的森林Quercus coccifera,齐墩果欧洲,杨梅andrachne,月桂nobilis, Ceratonia长角果,松果体brutia,松属黑质,冷杉属cilicica无性系种群。cilicca,冷杉属cilicica无性系种群。isaurica,雪松libani,Juniperus excelsa,Juniperus foetidissima,Quercus libani,Quercus infectoria,Quercus cerris。松果体brutia在该地区是一个优势种火灵敏度高(65年,66年]。

2.2。历史的森林火灾

历史的森林火灾的准备库存基于不同来源(卫星图像、田野调查、历史档案,等等)是第一步在造型森林火灾的易感性41,67年- - - - - -70年]。在这个研究中,3256个样本测定过去森林大火的事件。历史的森林火灾数据集生成,使用的数据来自美国宇航局的火灾信息资源管理系统(企业)(https://earthdata.nasa.gov/firms),美国国家航空航天局地球观测系统的数据和信息系统(EOSDIS)。森林火灾事件的数据集是使用实时(NRT)附近的中分辨率成像光谱仪(MODIS),热异常/火灾地点1公里空间分辨率的泰拉和阿卡平台。此外,这些数据的投影是WGS84,被称为61年MODIS集合。历史数据集的范围涵盖了从2021年4月到2021年8月,作为该地区被宣布AFAD“灾区影响总体生活”。根据数据集,大部分的森林火灾事件发生在Muğla 7月和8月安塔利亚。然而,几乎没有森林火灾事件发生在4月和8月Osmaniye梅尔辛如图2和说明表2

2.3。森林大火调节因素

火灾发生的可能性是基于任何森林面积的环境条件。环境条件可以地形、气候、vegetation-related和人类。这些类被称为野火调节因素和生成最终的易感性地图(至关重要71年]。十三野火调节因素包括海拔高度、边坡,边坡方面,地形湿度指数(双胞胎),年平均温度、年平均相对湿度、年平均风速、土地使用、水体的距离,距离居民区,距离公路、归一化植被指数(NDVI)和地表温度(LST),选择和产生的GIS框架作为地理空间数据库(数据3- - - - - -5)。

LST的一个关键指标是一个广泛的研究课题。它代表大气表面之间的相互作用以及它们之间的能量流。LST被计算从极地轨道卫星和地球同步卫星热红外数据。各种算法开发了克服外部影响和检索LST数据精度高。在本研究中,LST数据的MODIS(中分辨率成像光谱仪)计算是基于广义split-window (GSW)算法的72年]:

的公式,T年代代表LST。 , ( 在渠道代表地表发射率 )。 的气氛(TOA)亮度温度测量通道 MODIS数据。 系数得到模拟数据。

所有的空间变量表示基于WGS 1984墨卡托投影坐标系统。原始数据集获得各种数据来源如表所示3

最初,数字高程模型(DEM)收购从ASTER(先进星载热发射和反射辐射仪)作为GDEM(全球数字高程模型)30米空间分辨率。地形变量如高程、坡度、方面和双胞胎(地形湿度指数)是来自民主党。以下方程被用来生成双胞胎:

的方程,一个年代表示特定的排水区(m / m2)和“β”显示的角度单位斜率学位。

气候要素观测一段时间得到从米高梅(总局气象学)每个气象站。选择气候变量的年平均温度、年平均相对湿度、年平均风速在GIS环境中被加入了车站位置。之后,数据库的变量是使用IDW逆距离加权插值法。基于矢量数据是从土耳其获得农业和林业部生成土地使用变量,距离水体和居民区。在GIS数据处理工具,如土地利用光栅化,欧几里得距离附近的水库和定居点。道路网络数据从OSM下载(公开街道地图)产生距离道路使用GIS的欧几里得距离工具。所有的变量都表示在同一空间分辨率(30米)。相反,空间变量的MODIS(中分辨率成像光谱仪)获得在不同空间分辨率,例如,归一化植被指数和LST的决议250和1公里,分别。

2.4。增强算法

(1)梯度提升机(GBM)。梯度增加机器(本研究)是一个独特的机器学习算法,在许多类型的研究显示显著的成功。与一个公式是基于梯度下降的推动建立统计协会的研究方法。这些增加的方法及相关算法命名为梯度增加机器(73年,74年]。在本研究中,按顺序学习系统涉及新车型配件,确保产生的响应变量是一个更准确的估计。算法的主要目标是构建新基地学习者以这样一种方式,最大限度地与ensemble-related损失函数的负梯度。在这方面,本研究有重大的成功记录在实际应用和各种机器学习和数据挖掘的挑战75年]。

(2)极端梯度增加(XGBoost)。XGBoost gradient-boosting算法,结合弱学习者预测的预测变得更强的学习者。这方面已经被数据常用的科学家最近研究更好的结果(76年]。XGBoost算法,购物车作为基分类器。输入以下决策树和样本训练和预测的结果之前的决策树与彼此相关联,共同决定。除了解决回归和分类问题,它是一个灵活的算法根据其用途(49]。

(3)光梯度增加长尾猕猴(GBM)光。LightGBM是一种梯度提高决策树。该算法主要利用在分类、排序和回归。LightGBM使用直方图算法来提高计算速度和降低复杂性。它支持算法如“绿带运动”,GBDT GBRT,集市,其准确性和效率非常高77年,78年]。基于在LightGBM梯度单面抽样(高斯)是一种用于计算信息增益的方法,以便提供更多的信息增益(未经加工实例79年]。这些方面,光“绿带运动”提供了快速实践和更广泛的性能,内存使用量低,精度好,支持GPU的学习,和处理大规模数据的能力80年]。

(4)分类增加(CatBoost)。分类增加(CatBoost)是由(81年]。CatBoost GBDT应用机器学习。该算法有两个重要特征:命令目标统计和有序的推动。CatBoost是一个很好的算法解决复杂数据的问题。然而,它可能不是非常适合解决问题不太复杂82年]。CatBoost在解决问题的另一个主要特点是,它捕获高度依赖和使用分类特征的组合(83年]。

(5)自适应增强(演)。弗洛伊德和Schapire发达1995年学习演算法,其重量可以监管没有先验知识(学习者的要求84年]。弗洛伊德和Schapire发达算法解决多类问题在1997年有一个广泛的类别(85年]。自演算法是一种自适应算法,它是最常见的增强算法。此外,演算法是简单的使用和实际解决问题。它通常提供了非常有效的结果86年]。

2.5。精度评价

LightGBM的性能评估、GBM XGBoost,演算法,在森林火灾易感性和CatBoost算法建模,我们使用了接受者操作特征(ROC)曲线第一阶段。中华民国说明了真阳性(TP),真阴性(TN),假阳性(FP),和假阴性(FN)样本在机器学习模型(41,87年]。之后,所有的模型进行评估并与统计方法如总体精度(方程(3))、精密(方程(4)),回忆(方程(5)),灵敏度(方程(6)),特异性(方程(7)),F1度量(方程(8)),k指数(方程(9)),曲线下面积(AUC):

3所示。结果与讨论

3.1。野火调节因素的重要性

野火调节因素的重要性程度在图中给出了本研究中使用6。这是观察到的重要性在所有的模型元素有相同的排名。风速是观察到的最重要的因素在所有的模型中,紧随其后的是湿度,温度,LST,水体的距离,距离住宅、高程、坡度、土地使用、归一化植被指数,距离道路,双胞胎,和方面。演算法模型忽略一些因素的影响,如土地使用、归一化植被指数,距离道路,双胞胎,和方面,而忽视的影响方面的“绿带运动”模型。

3.2。野火易感性模型

在这项研究中,我们评估了预测五机器学习算法的性能包括LightGBM,“绿带运动”,XGBoost,演算法,CatBoost野火易感性映射。所有模型的预测性能比较。准备13调节因素分析研究区域的野火易感性。之后,所有的因素都是提取到总共6292目标点,包括历史森林火灾点(3256)和无火灾点(3036)。同时,目标点分离作为二进制转化为无火灾0和1的历史样本。这些采样点的模型训练数据集作为输入。输入训练数据集分为70%和30%进行验证。分析后,所有选定的模型结果的地图在ArcMap生产。结果野火易感性地图分为五类:非常低,低,中,高,非常高,使用自然分类器(图7)。

森林火灾的空间分布类根据模型提出了表4和图8。已经观察到高和高易感性类共享总面积的25%,11%,23%,78%,和10%的方法XGBoost, CatBoost,“绿带运动”,演算法,分别和LightGBM。

3.3。野火易感性模型的评价和比较

选择模型的统计学评价提出了表5。因此,所有的模型都显示高和可接受的精度在训练和测试的分数。培训成绩发现高于测试成绩在所有的模型中,确认所有的模型避免了过度拟合的问题。

据统计测量评估,测试成绩显示CatBoost算法的更好的性能比其他模型LightGBM紧随其后,XGBoost,演算法,“绿带运动”算法。总体准确性分数证明CatBoost模型正确分类样本预测的准确率为95%。此外,CatBoost模型在精度更相关的采样率为0.951和0.954在回忆,与其它模型相比,精度高。根据F1分数,精度和召回的性能测量表明,CatBoost(0.952)模型达到更高的精度,并随后由LightGBM (0.936), XGBoost(0.874),演算法(0.864),和“绿带运动”(0.827)。此外,根据特异性分数,CatBoost模型更好的在TN样本分类更正确,一个值为0.954。分类的其他模型也表现良好TN样本(LightGBM 0.939 XGBoost 0.885、演算法0.873和0.838 GBM)。在TP样本分类,CatBoost和LightGBM模型揭示了平等的性能值为0.956。相比之下,其他模式,如XGBoost,“绿带运动”,和演算法显示敏感性得分为0.892,0.853,和0.846,分别。CatBoost Kappa指数显示一个更为平衡的分布模型分类样本值为0.909。此外,AUC值表明CatBoost模型0.955测试分数,其次是LightGBM, XGBoost,演算法,和GBM算法0.948,0.888,0.859,和0.846 AUC值,分别为(图9)。

本研究中使用的算法已经应用于许多预测映射研究各种自然过程,因为它们的固体和分离性的预测性能作为替代传统的统计和机器学习方法。本研究的结果是平行的,许多先前的研究,比较不同算法的效率易感性地图。领域(88年]发现CatBoost模型优越在预测滑坡敏感性区域Bolu地区的土耳其。同样,军刀et al。89年]也赞赏CatBoost洪水易感性和LightGBM算法。周et al。56使用CatBoost]提出了一种火灾预测模型算法在中国云南省。输入使用的模型,如植被、气象、地形、人为因素达到0.83 AUC值。结果表明,CatBoost模型有效地预测森林火灾发生的风险。

CatBoost算法不是详尽的测试在之前的野火易感性的研究尽管它更高的性能和准确性在确定敏感性地图。哈基姆et al。90年雇佣只演算法和LogitBoost算法,而Arabameri et al。91年测试了VIKOR和Cforest模型来创建地面沉降敏感性地图。Rosadi和Andriyani57)学习演算法应用于预测森林火灾发生,并与经典分类方法,如决策树SVM(支持向量机)和方法。迈克尔et al。58]研究长期植被条件对野火的影响风险映射通过应用射频,逻辑回归,XGBoost方法。同样,见鬼et al。55)使用随机森林(RF),多层感知器(MLP) XGBoost,演算法发展年度火灾预测模型的亨伯赛德郡在英国。研究人员报告说,学习演算法优于其它模型相比。然而,他们没有使用CatBoost模型在他们的研究中,已取得了更健壮的结果在许多先前的研究,包括目前的研究。

因此,最好的作者的知识,没有以前的研究相比野火易感性映射使用毫升XGBoost等方法,CatBoost,“绿带运动”,演算法,和LightGBM。本研究的结果有助于进一步开放测试的研究更多创新的机器学习技术在提高野火易感性地图的准确性。

4所示。结论

森林火灾是森林最危险的自然灾害之一地区和栖息地。由于全球气候变暖,森林火灾的频率增加了在过去的几十年里,尤其是在地中海气候区。预测敏感性映射野火是一种有效的工具,规划者和管理者预防和防止野火的不良影响。磁化率的可靠性地图不同于其输入参数和所使用的方法。近年来,ML-based预测映射研究已经迅速增长并获得信任的研究。在目前的研究中,我们比较先进的ML算法如XGBoost CatBoost,“绿带运动”,演算法,LightGBM产生野火易感性土耳其的地中海区域的映射。我们最好的知识,没有研究这些算法相比在野火易感性映射文学。使用分析,13个输入参数:海拔、坡度,坡度方面,双胞胎,温度、湿度、风速、土地使用、水体的距离,距离住宅、道路、距离和归一化植被指数LST。按照重要性的顺序的因素,而风速是最关键因素,方面是最重要的在所有的模型。生产易感性地图后,统计精度评估技术,如整体精度,精度,还记得,敏感性,特异性,AUC,F1分,Kappa指数应用。结果表明,CatBoost算法比其他模型精度较高,其次是LightGBM, XGBoost,演,“绿带运动”算法。然而,所有的模型揭示了相当好的AUC测量性能:0.955,0.888,0.859,和0.846,分别。

目前的研究也有一些局限性。首先,空间插值技术产生风速、湿度和温度因素。插值技术缺点,如依赖样本位置,泛化,忽略了地貌条件。因此,一些参数不能完全反映实际的选择区域的气候条件。第二,本研究并不描述野火的人为因素由于缺乏空间维度的数据。第三,本研究只提供了一个评估给一些想法关于ML-based wildfire-sensitive领域研究中区域。因此,未来的野火应遵循和检查,考虑在本研究中产生的地图。的一个主要限制之间的矛盾是大规模的地区和所需的细节造型。因此,解释的因素在模型开发过程变得更加复杂,由于缺少细节。此外,高计算能力的需求使造型挑战来处理所有可用的决议。

目前的研究被认为是小说研究生产的热点地区和野火易感性土耳其的地中海地区的地图。森林的地图将提供有价值的库存工程师、规划师,未来政策和地方政府灾害管理在土耳其。此外,本研究还提供了一个相对较新的ML算法的比较分析如XGBoost CatBoost,“绿带运动”,演算法,LightGBM野火易感性映射的研究。建议未来的研究包括比较本研究中使用的方法和其他统计和ML-based使用不同的输入参数的方法和模型。本研究建议未来的研究使用云计算平台如谷歌地球引擎,谷歌Colab,亚马逊那边,和Kaggle执行野火易感性的造型映射。

数据可用性

所有相关的数据都包含在这篇文章。

信息披露

执行这项工作的一部分,作者的职责以及合作国际工程和管理学院(ICEM)和Karabuk大学(KBU)。

的利益冲突

作者宣称没有利益冲突。