文摘
新方法将数据挖掘技术与统计方法提出了预测热带气旋的特征因素包含纬度,经度,中心最低压力,和风速。在拟议的方法,最好的跟踪数据集在1949 ~ 2012年用于预测。使用方法,形成有效的标准来判断是否热带气旋登陆海南岛。准确判断的概率最高可达79%以上。对TCs判断登陆海南岛,相关预测方程建立了有效地预测他们的特征因素。结果表明,平均距离误差是改善与中国国家气象中心。
1。介绍
台风是一种热带气旋(TC),到达的center-sustained风速级别12 - 13(台风不是本文区别于TC除非特别强调)。海南岛(108 37°E′~ 111°05′E, 18°10′N ~ 20°10′N)在中国被称为“台风走廊。“根据历史数据分析,TCs登陆海南岛,年度和月度统计结果如图1和2,分别。(注:本文的条件来确定是否台风土地是台风中心和海南岛之间的最小距离不超过预设的影响半径,这里300公里)。因此TCs登陆海南岛的频率非常高。此外,台风排名榜首海南岛上各种各样的灾害之一。以台风“Damrey”为例,在2005年,它摧毁了18个城市海南和影响多达630.5万人其中21人丧生。直接经济损失达到121亿元人民币(1]。因此,及时和准确的预测TCs在海南岛灾难预防是非常重要的。它也可以有效降低造成的伤亡和损失TC时发生。
传统的TC预报的主要方法包括统计方法和动态方法,其中大多数是在复杂的流程或较低的精度。统计方法使用历史TCs的位置、强度等预测TC的特征因素,如模糊多准则决策支持模型(2),有条件非线性最优扰动,第一个奇异向量,合奏变换卡尔曼滤波器(3),propagation-neural网络(4),自适应神经网络分类器使用一个两层的功能选择器(5),使用数据简化方法和支持向量机(6]。动态方法主要是基于数值预报,如一个简化的基于物流增长动力系统方程(LGE) [7),一个区域耦合模型(硕士8版本5],PSU-NCAR中尺度模式(9),GFDL 25-km-Resolution全球大气模式10]。三个主要预测中心,例如,24/48小时的平均距离误差预测的美国国家飓风中心(NHC) 106/187公里,也就是125/243公里为日本气象厅(日本)和120/215公里中国国家气象中心(NMCC) [11]。张等人从HY-2监测数据和QuikSCAT相比与实际台风的卫星散射仪地面观测的数据。结果表明,台风路径和强度很大的偏差和标准偏差也很大(12]。因此,尽管有很多台风预报方法目前在使用,他们的精度仍然不能满足需要实时台风警报。
利用数据挖掘技术与统计方法相结合,一种新的TC预测方法提出了基于历史数据。首先,台风中心位置该地区48(或72作为对比实验)小时前登陆海南岛分为5(或数量作为一个比较实验)地区使用——聚类算法。每个区域的TC登陆则是由分类和回归树(CART)。此外,预测平方和(媒体)算法及其进步的最优算法应用于优化预测因素集。最后,历史数据的一部分用于建立预测方程通过多元线性回归模型(MLRM),这些方程的准确性检查剩余的历史数据。结果表明,这种方法是更准确的与现在相比现有预测方法。
2。数据和方法
2.1。数据
本研究中使用的数据是基于TCs的最佳轨迹数据集的1949 ~ 2012年在西北太平洋海域(包括南中国海,赤道的北部和西部的180°E) (13TC信息中心],来自中国气象局(CMA) (http://tcdata.typhoon.gov.cn/)。CMA最佳跟踪数据集包含2172 TCs,总共有62663个观测点。每个观察点可以提供信息如下:观察时间,强度等级,纬度,经度,中心最低压力(以下简称空气压力),2-minute-average-near-center-maximum风速(以下简称风速)和平均风速在2分钟。因为2分钟平均风速不能获得大多数观察点,强度等级(SG), (LAT)纬度,经度(朗),空气压力(AR)、风速(WS),经度和纬度偏移速度(LATMV),偏移速度(LONMV)选为七个预测因子(以下简称观测点信息)。当前LATMV LONMV可以使用以下方法计算。
设置当前观测点的时刻和前两个观察点,,分别为(是代表经度和是代表纬度)。然后LONMV LATMV当前的观测时间和计算的 在哪里是地球的平均半径的值6370.856公里;代表符号函数;的单位和公里/小时。
2.2。方法
在介绍中提到的,登陆TC被定义为TC,台风中心和海南岛之间的最小距离不超过预设影响半径。因此,为了区分TCs着陆,而不是登陆海南岛之间,每个TC的跟踪和之间的最小距离海南岛外边界需要计算根据CMA最好的跟踪数据。由于各种各样的TCs的轨道,直接应用通用曲线拟合不提供一个好的结果。因此,多项式拟合(14]应用本文中介绍了一个中间变量与经度和纬度进行曲线拟合,分别。以任意TC,为例,具体拟合效果如图3和4。使用每个TC的拟合多项式和海南岛外边界的经度和纬度对相应的中间变量,每个TC的任何点之间的距离跟踪和海南岛外边界上的任何一点可以计算,可以选择的最小距离。大圆距离(GCD)在地球上任意两个点之间可以使用公式计算(3)。肾小球囊性肾病是地球上任意两点之间最短的距离。地球上的任何两个点和肾小球囊性肾病是
由三个主要用于预测的时间间隔TCs预测中心(NHC,日本气象厅,NMCC) 24日,48和72小时。为了及时预测TCs和比较不同测定方法的预测精度,TCs的中心位置在该地区48小时之前,登陆海南岛(如图5)选择为研究对象。为了缩小研究范围,——聚类算法(15,16TCs)应用于划分区域的中心位于48小时之前,登陆海南岛五个领域。该地区的情况下,在本节中,TCs的中心是位于前48小时内登陆选择为研究对象,研究对象分为五个领域,是一个方便的声明作为一个例子。其他情况也进行了比较实验的部分3.3。
的五个领域,所有的观察点着陆,而不是着陆TCs过滤进入这个区域。与强度等级、纬度、经度、空气压力、风速、纬度迁移速度,经度和迁移速度作为分类属性,每个区域的TC登陆则是由使用购物车算法(17,18]。形成着陆标准的流程图如图6。
TCs即判定为登陆海南岛,媒体和其渐进最优算法和MLRM可以用来预测TCs的特征因素(包括纬度,经度,中心最低压力,和风速)。本文预测包含着陆预测模式和动态预测模式。着陆预测模式被定义为使用这些点的观测点信息首先进入任何区域预测的特征因素当TC的土地。动态预测模式被定义为24小时和48小时的预测对进入任何区域的观察点。着陆预测模式的流图和动态预测模式所示的数据7和8,分别。在这里按[19和它的渐进最优算法20.,21)用于选择最好的预测因素设置七个预测这将被用来预测相应的特征因素。MLRM [22)是用于建立相应的预测方程。MLRM表示为(23] 在哪里估计的价值,回归系数,是随机误差,观测点的预测因素。
3所示。结果和讨论
在本节中,TCs的情况下,区域的中心是位于前48小时内登陆选择为研究对象,研究对象分为五个方面,首先是研究。其他情况下的对比实验,研究对象可能是地区TCs的中心位于72小时之前降落和区域划分研究对象的数量可能是任意数量的最后,还讨论了的部分。
3.1。将研究区域划分为五个区域
使用聚类算法则将研究区域划分为五个领域中描述的部分2。2的几何中心和范围如表所示1。对每个区域,所有的观察点着陆,而不是着陆TCs过滤进入这个区域。这些观察点的位置如图所示9和用于形成TCs的着陆标准。这些观测点的数据(OPs)降落和着陆TCs如表所示2。五个领域分工的进一步缩小研究范围,使观察点的选择更相关,形成有效的标准,这将进一步说明部分3.3。
3.2。着陆在五个领域标准的形成
根据购物车算法,着陆标准如图五个领域10(引用部分2。1七个预测因子的意义)。相应的概率准确判断(),假警报的概率(),和错误的概率解雇()如表所示3。设置数字的行动着陆,而不是着陆TCs在任何领域和分别;行动的数量判断降落时根据着陆着陆标准真的是表示和运维的数量判断不着陆时根据着陆标准没有土地真正来标示。然后,,这个区域的计算如下:
3.3。其他情况作为对比实验
在部分3.1和3.2TCs的中心位置,该地区48小时着陆之前就被选中为研究对象,研究对象分为五个领域。在本节中其他情况作为对比实验研究和比较。最后,我们选择情况产生最佳结果。
为了区分不同的情况下,它们的标签都用表表示4Ti,参数是用来说明研究对象是地区TCs的中心所在。Ti小时前他们登陆海南岛;ν表示的区域划分研究对象的数量。
从表可以看出4,FE5情况一直在研究部分3.1和3.2。剩下的七个情况研究如下使用方法与FE5是相同的。
的,,每个地区的每个剩余七情况可以根据公式计算(5),结果如表所示5。
为了选择最好的这八个情况在表4,介绍了评价方法,计算每种情况的指数,指数在哪里定义根据公式(6)。任何情况下,表示数量的划分研究对象和领域,,表示,,的th区域,分别。考虑以下:
很明显,指数越高,越好着陆的结果整体上的标准。该指数为每个八情况如表所示6。形势FE5显示最好的结果,也说明了研究方案部分3.1和3.2与其他情况相比要好。最后,选择情况FE5着陆标准形式。
3.4。预测TCs的特征因素
3.4.1。着陆预测模式
着陆预测模式定义如下:获得观测点信息(7预测)当着陆TCs的中心第一次进入任何领域,可以用来预测特征因素(纬度、经度、美联社和WS)当TCs土地在海南岛。流程图如图6。区域1,例如,历史着陆TCs的运维中心当他们第一次进入区域1所示图11和历史着陆TCs的轨道通过区域1所示图12。
分裂的历史着陆TCs通过每个区域分成两组相同的号码,一群TCs是用于建立预测方程,另一组是用来测试这些方程的准确性。这些预测方程TCs的测试结果,通过每个区域如表所示7。利用实际和预测经度和纬度TCs的中心,结合公式(3),计算出平均值和标准偏差的GCD着陆预测模式所示的数据13和14,分别。平均五个领域的结果,它可以获得/标准偏差的平均值(SD)肾小球囊性肾病是144.6382/97.8740公里。在[24],玉等人的平均肾小球囊性肾病误差分析48小时的预测在南海,这是222.6公里。因此,着陆预测模式提出了显示了良好的预测精度。TCs即判定为登陆海南岛,只要观测点信息中心第一次进入任何区域时,相应的预测方程可以用来预测特征因素当他们的土地。
3.4.2。动态预测模式
动态预测模式是使用当前观测点信息进行24小时和48小时预报,也是见图8。有两种不同的预测模型在动态预测模式,描述如下。
预测模型1。是获取当前观测点信息(7预测)当着陆TCs的中心首次进入任何区域,利用它进行24小时和48小时的预测。
预测模型2。是获取当前观测点信息(7预测)当着陆TCs的中心是在任何区域(不一定是首次进入任何区域),利用它进行24小时和48小时的预测。
TCs在实际预测的过程中,它们被认为是降落在海南岛,观测点信息当他们中心首次进入任何区域和建立方程预测模型1中用于进行动态预测。此外,观测点信息TCs的中心区域(没有必要,TCs的中心首次进入这一地区)任何区域和建立方程预测模型2中可以用来进行动态预测。
相似的部分3.4.1历史的观察点,满足相应的要求在相应的预测模型(1或2)分为两组相同数量的观察点。一群观察点是用于建立预测方程和另一组点是用来测试这些方程的精度。测试这些预测方程的结果预测模型1和2预测模型如表所示8。结合公式(3),肾小球囊性肾病的平均值和标准偏差计算两个预测模型图所示15和16,分别。平均五个领域的结果,它可以获得的平均均值/标准差下肾小球囊性肾病的预测模型1和预测模型2为24小时的分别预测费用150.5192/84.6156公里和141.5464/81.2509公里。48小时的预测,平均肾小球囊性肾病的均值/标准差下两种不同的预测模型是261.7517/145.6345公里和256.7109/145.2903公里,分别。尽管平均肾小球囊性肾病的动态预测模式不少于三个主要预测中心(NHC,日本气象厅,NMCC),这是远远低于数值预测模型(25),186.3/319.5公里的手段,基于系统T106基于T213为24/48和161.8/295.8公里小时的预测。此外,预报模型1和2都是比预测更准确使用卫星散射仪的监控数据的标准差肾小球囊性肾病和杂草速度误差的均值149.6002公里和11.9618米/秒(12]。从表可以看出8和数字15和16预测模型的精度1和预测模型2不同来自不同地区和不同特征的因素。更准确的预测模型可以选择从预测模型根据实际情况1和2。统计显著性测试的结果为每个方程用于预测相应的特征因素预测模型1和2预测模型如表所示9,这表明值远小于0.05在几乎所有情况下,证明了相应的预测方程具有重要意义。
(a)的均值GCD 24小时两种预测模型的预测
(b)的标准差GCD 24小时两种预测模型的预测
(a)的均值GCD 48小时两种预测模型的预测
(b)的标准差GCD 48小时两种预测模型的预测
4所示。总结
摘要CMA最佳跟踪数据集从1949年到2012年,结合数据挖掘技术和统计方法,提出一种新的方法来预测TCs的特征因素。这种方法能够准确地判断是否TCs登陆海南岛和预测其特征因素(包括经度、纬度最低的中心的压力,和风速)。着陆的平均概率的精确的判断标准是74.70%,最高的精度可以达到79.76%。预计着陆的TCs的特征因素,着陆预测提出了模式和动态预测模式,不仅可以准确预测动态特性因素当TCs的土地也意识到24小时和48小时的预测。着陆的影响预测模式更好,肾小球囊性肾病的意思是144.6382公里,与当前的48小时预报在南中国海,222.6公里。尽管平均肾小球囊性肾病的动态预测模式不少于三个主要预测中心(NHC,日本气象厅,NMCC),这是远远低于数值预测模型(25),该方法利用卫星散射仪的监测数据(12]。本文提出的预测方法提供了一种新的方法,在海南岛的台风警报不涉及太多的气象学知识,从而简化了预测过程的实现,同时保证预测的准确性。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作是国家科技支撑计划支持的先进能源技术领域。海南电网公司提供支持,本研究通过“地区智能电网综合示范工程”。2013 baa01b03。目前黄博士研究工程师的西安大略大学的电气和计算机工程,本文也提出了宝贵的修改意见。