月降雨量估算使用数据挖掘过程

文摘

重要的是要准确地估计降雨对水资源的有效利用和水结构的最优规划。为此,开发的模型估算降雨Isparta使用数据挖掘过程。不同的输入组合拥有1 - 2 -,3 -和4-input参数使用了的降雨值Senirkent, Uluborlu, Eğirdir, Isparta Yalvac站。最合适的算法被确定为多重线性回归模型开发中各种数据挖掘算法。多重线性回归模型的输入参数的月降水值Senirkent, Uluborlu和Eğirdir电台。这个模型的相对误差是0.7%计算。结果表明,数据挖掘过程可用于估计缺少降雨值。

1。介绍

气象事件影响人类生活永久。考虑到气象现象,没有干预的可能性,他们导致人类生活重要的结果,准确的估计和分析这些变量也是非常重要的。沉淀,生成流,是一个重要的参数。极端降水的发生在很短的时间内引起水灾等重大事件,影响人类生活。然而,如果长时间降雨不足发生干旱。因此,降雨估计是非常重要的对人类生活的影响,水资源和用水区域。然而,降雨影响地理和区域变化和特征很难估计。如今,有许多关于人工智能的研究方法用于估计降雨(1- - - - - -7]。分娩的et al。8]发达降雨使用人工神经网络的评估模型和小波变换方法。Bodri和Čermak9)降水预测神经网络的适用性评估。Chang et al。10应用一个修改的方法,结合逆距离法和模糊理论,降水插值。他们用遗传算法确定模糊隶属度函数的参数,这代表之间的关系位置没有降雨记录及其周边的雨量。他们致力于减少降水的估计误差的优化过程。

的目的之一将这些数据存储在数据库和接收数据,还可以从许多别的来源是将原始数据转换成信息。这个过程称为数据挖掘(DM)将数据转换成信息的过程。近年来,数据挖掘过程的使用在水文领域正在增加。使用DM流程执行的研究在许多领域(11- - - - - -13]。Keskin et al。14)开发的集成使用DM蒸发模型过程三个湖泊在土耳其。Terzi [15)开发的模型来预测流动Kızılırmak河与DM使用降雨和流动参数的过程。Terzi et al。16)提出各种太阳辐射模型与DM过程使用空气温度,相对湿度,风速和气压参数和评估模型的性能。Teegavarapu [17)进行关联规则挖掘的使用(ARM)与失踪的降水空间插值技术来估计数据和克服的一个主要空间插值技术的局限性。Solomatine和Dulal18]调查比较性能的人工神经网络(ann)和树(MTs)的降雨径流模型转换。他们确定ann和MTs提前1小时预测产生良好的结果,可以接受的结果提前6小时3 - h提前预测和有条件地接受结果的预测。1小时前他们获得几乎相似的性能预测径流,但安的结果略优于高等交货期太从这些技术。Keskin et al。19应用数据挖掘过程河流量预测。他们认为这是可能的使用数据挖掘流程河流量预测。Teegavarapu和华6)开发了一个模型,使用人工神经网络的概念和随机插值技术。他们测试了丢失的降水数据的估计模型。

这项研究的目的是评估的使用数据挖掘过程的估计降雨Isparta在土耳其。本研究使用Senirkent降雨数据,执行Uluborlu, Eğirdir, Yalvac站在Isparta城市。

2。数据挖掘过程

知识发现是一个过程,提取隐含的、潜在有用的或未知的信息数据。图中描述的知识发现过程1。

让我们检查图的知识发现过程1在细节。(我)来自各种数据源的数据集成到一个单一的数据存储被称为目标数据。(2)数据是预处理和转换成标准格式。(3)数据挖掘算法处理数据的输出形式的模式或规则。(iv)然后这些模式和规则解释新的有用的知识或信息。

知识发现和数据挖掘过程的最终目标是找到的模式隐藏在巨大的数据和解释他们有用的知识和信息。正如上面流程图中所描述的,数据挖掘是知识发现过程的核心部分。

数据挖掘的定义是定义为“提取未知的过程中,理解,和可操作的信息从大型数据库和使用它至关重要的商业决策”(20.]。这个数据挖掘定义商业气息和商业环境。然而,数据挖掘是一个过程,可以应用到任何类型的数据从天气预报,电力负荷预测,产品设计等。

数据挖掘也可以被定义为计算机辅助过程,挖掘和分析大量的数据集,然后提取知识或信息。在其最简单的定义,在数据库(数据挖掘自动化相关的检测模式21]。

的出现在数据库知识发现(KDD)作为一种新技术带来了信息和数据库技术的快速发展和广泛应用。知识发现(KDD)被定义为一个迭代序列的过程的四个步骤:定义问题、数据预处理(数据准备),数据挖掘,postdata-mining。

2.1。定义问题

知识发现项目的目标必须确定。目标必须被验证是可行的。例如,如果目标是满足,一个商业组织可以把新发现的知识。要使用的数据也必须确认清楚。

2.2。数据预处理

数据准备包括这些技术有关原始数据,分析收益质量数据,主要包括数据采集、数据集成、数据转换、数据清洗、数据还原和数据离散化。

2.3。数据挖掘

考虑到清洗数据,智能方法应用,以提取数据模式。寻找感兴趣的模式,包括分类规则或树木,回归,集群、序列建模,依赖,等等。

2.4。Postdata-Mining

数据挖掘包括模式后评价、部署模型,维护,和知识。

KDD过程是迭代。例如,清洁和准备数据时,可能会发现某个源数据是不可用,或者来自未知来源的数据和其他数据需要合并考虑。通常,第一次通过,数据挖掘的步骤将显示,需要额外的数据清洗22]。

3所示。研究区域与数据

在这项研究中,数据用于开发降雨量估算模型Isparta月度降雨数据,Senirkent Uluborlu, Eğirdir, Yalvac电台。Isparta城市位于湖区位于地中海地区的北部,和31°和30°20′之间18东经度和37°33′′和38°30′北纬度。的高度Isparta表面积为8933公里²的平均是1050米。Isparta的年平均降雨量为440.3公斤/米²。的降雨(72.69%)发生在冬季和春季。夏季和秋季月很干(总降雨量的29.31%)。虽然是观察通常下雨,偶尔在该地区的雪在冬天,它是观察到暴雨的形式在春季和夏季。研究地区雨量数据如图的位置2。

1964 - 2005年的月度降雨数据用于本研究从土耳其国家气象服务。各种降水估计模型为Isparta开发使用的降水值Senirkent, Uluborlu, Eğirdir, Yalvac站作为输入参数。这是调查是否有任何缺失的数据。然后,缺失值的平均值用于替换。训练数据集包括1964 - 1996年被用来开发模型。训练模型被用来运行测试数据集了1997 - 2005年。

4所示。模型性能标准

后的模型评估阶段,它建立了一组使用不同的算法模型,这些模型进行评估的准确性。有一些受欢迎的标准来评估模型的质量。这是选择确定系数()和根均方误差(RMSE)最广为人知和常用的性能标准(23- - - - - -25]。的在数据集的比例变化所占的统计模型。RMSE是有价值的,因为它表明错误的单位(或平方单位)感兴趣的成分,帮助分析的结果。确定系数基于计算降雨估计错误在哪里是观测数据的数量,和每月测量降雨量和开发模型的结果,分别和是指降雨测量。

均方根误差表示的误差模型,并定义为在参数上面定义。

5。降雨量估算模型

决策表,降雨量估算KStar,多重线性回归,M5'Rules,多层感知器,RBF网络,随机子空间,简单线性回归算法被用于这项研究。15模型使用不同的输入组合开发的降雨值Senirkent, Uluborlu, Eğirdir Yalvac站估计降雨Isparta车站。这些模型包括1-input 2-input, 3-input 4-input参数表中给出1,2,3,4,分别。


输入参数	Eğirdir		Senirkent		Uluborlu		Yalvac
模型		RMSE		RMSE		RMSE		RMSE

决策表	0.254	141.5	0.695	57.90	0.638	68.62	0.531	89.10
KStar	0.686	59.60	0.641	68.14	0.648	66.82	0.543	86.70
多重线性回归	0.671	62.49	0.745	48.44	0.717	53.63	0.616	72.84
M5'Rules	0.671	62.49	0.745	48.44	0.717	53.63	0.616	72.84
多层感知器	0.711	54.89	0.649	66.58	0.653	65.81	0.578	80.06
RBF网络	0.533	88.67	0.641	68.13	0.672	62.28	0.495	95.81
随机子空间	0.617	72.71	0.634	69.56	0.590	77.77	0.492	96.43
简单线性回归	0.671	62.49	0.745	48.44	0.717	53.63	0.616	72.84


输入参数	Eğirdir-Uluborlu		Eğirdir-Yalvac		Eğirdir-Senirkent		Senirkent-Uluborlu		Senirkent-Yalvac		Uluborlu-Yalvac
模型		RMSE		RMSE		RMSE		RMSE		RMSE		RMSE

决策表	0.638	68.62	0.254	141.52	0.695	57.90	0.695	57.90	0.695	57.90	0.638	68.62
KStar	0.765	44.52	0.732	50.83	0.751	47.21	0.727	51.81	0.668	62.93	0.684	60.07
多重线性回归	0.807	36.65	0.743	48.80	0.792	39.40	0.765	44.60	0.745	48.44	0.717	53.63
M5'Rules	0.807	36.65	0.743	48.80	0.792	39.40	0.765	44.60	0.745	48.44	0.717	53.63
多层感知器	0.796	38.64	0.743	48.69	0.746	48.29	0.678	61.08	0.662	64.12	0.670	62.64
RBF网络	0.663	63.87	0.550	85.41	0.568	81.96	0.647	67.02	0.556	84.19	0.567	82.21
随机子空间	0.782	41.45	0.620	72.05	0.725	52.27	0.695	57.93	0.610	74.12	0.638	68.65
简单的线性	0.717	53.63	0.671	62.49	0.745	48.44	0.745	48.44	0.745	48.44	0.717	53.63
回归	0.717	53.63	0.671	62.49	0.745	48.44	0.745	48.44	0.745	48.44	0.717	53.63


输入参数	Senirkent-Uluborlu-Eğirdir		Senirkent Uluborlu-Yalvac		Senirkent-Yalvac-Eğirdir		Uluborlu-Yalvac-Eğirdir
模型		RMSE		RMSE		RMSE		RMSE

决策表	0.695	57.90	0.695	57.90	0.695	57.90	0.638	68.62
KStar	0.771	43.54	0.693	58.20	0.745	48.33	0.771	43.43
多重线性回归	0.813	35.43	0.765	44.60	0.792	39.40	0.798	38.38
M5'Rules	0.808	36.43	0.765	44.60	0.792	39.40	0.711	54.89
多层感知器	0.774	42.83	0.726	51.98	0.772	43.33	0.797	38.55
RBF网络	0.622	71.67	0.560	83.48	0.583	79.23	0.574	80.90
随机子空间	0.760	45.62	0.680	60.83	0.714	54.31	0.757	46.12
简单的线性	0.745	48.44	0.745	48.44	0.745	48.44	0.717	53.63
回归	0.745	48.44	0.745	48.44	0.745	48.44	0.717	53.63


分析员		RMSE

决策表	0.695	57.90
KStar	0.761	45.33
多重线性回归	0.806	36.89
M5'Rules	0.766	44.35
多层感知器	0.774	42.91
RBF网络	0.573	80.95
随机子空间	0.757	46.17
简单线性回归	0.745	48.44

首先,Isparta站的降水数据之间的关系和他们的其他电台(Senirkent, Uluborlu、Eğirdir Yalvac)使用统计分析研究。有效的变量对Isparta站Senirkent排名的顺序,Uluborlu, Eğirdir, Yalvac站。模型的性能标准开发1-input参数表1为测试集。

检查表中给出的模型1,它被确定为最高值为0.745和最低RMSE值48.44 mm模型使用多重线性回归(高),开发M5'Rules和简单线性回归算法与降雨Senirkent站的数据。这些模型有相同的和RMSE值。最糟糕的RMSE(141.50)最高的模型开发与决策表。当发达模型通过使用高钙、M5'Rules和简单线性回归算法进行了分析,表现最好的模型的输入参数是Senirkent站的降水。之后,最好的模型通常在Uluborlu排名,Eğirdir, Yalvac站。在表2,这是考虑到的开发模型和RMSE值2-input参数。

从表2,最高RMSE最低(0.807)和(36.65)值是获得高钙和M5'Rules模型使用降雨Eğirdir值和开发Uluborlu站。表2显示,增加的数量模型的输入参数模型的性能改善。而价值最好的模型输入参数为0.745,性能模型的两个输入参数是0.807。模型有3-input参数如表所示3。

这是显示值的模型有3-input参数(Senirkent-Uluborlu-Eğirdir)分别为0.813和0.808的高钙和M5'Rules模型表3,分别。高钙(Senirkent-Uluborlu-Eğirdir)模型表现出最好的性能。模型开发Senirkent、Uluborlu Eğirdir站排名根据统计分析显示通常更好的性能。该模型表现最差的径向基函数(RBF)网络模型。模型有4-input参数如表所示4。

这是显示价值的模型有三个4-input参数是高钙模型在表0.8064。当Yalvac站是最好添加到3-input模型,4-input模型性能略有下降。所有的高钙和M5'Rules算法DM算法通常给最好的结果和有几乎相同的性能除了4-input模型。而人工神经网络算法的RBF网络显示最糟糕的表现在所有DM模型,高钙有相对较好的结果。MLR考虑所有的DM模型,即模型3-input参数()表现出最好的性能。检查的RMSE值模型,模型(Senirkent-Uluborlu-Eğirdir)最低错误。因此,月降雨量高模型的结果(Senirkent-Uluborlu-Eğirdir)所示的数据3和4作为测试的比较图和时间序列数据集。图3表明高模型比较阴谋被均匀分布在45°直线暗示没有偏见的影响。很明显降雨估计和测量值之间的良好关系。测量值之间的相对误差和开发高价值的模型计算了0.7%。

是表明,Isparta地区,开发了高钙模型给最好的结果估算降雨。他们不能用于估计另一个地区的降雨,因为高模型为Isparta开发地区。不同的地区,模型需要重建或需要校准的数据显示一个新的地区。在未来,当得到更多的数据,开发模式需要加以修订。其他方法可以给出更好的结果比高时添加更多的数据或开发模型为不同的区域。

6。结论

降雨的水资源的使用是一个重要的因素是难以估计的变量。在这项研究中,数据挖掘过程被用来估计每月降雨Isparta的价值观。Uluborlu,月降雨量数据Senirkent Eğirdir, Yalvac站用于开发降雨量估算模型。当比较发达模型来测量值,多重线性回归模型从数据挖掘过程给更合适的结果比模型在这项研究中开发的。最好的模型输入参数的降雨值Senirkent, Uluborlu, Eğirdir站。因此,结果表明,数据挖掘的过程,产生一个解决方案比传统方法更快,可以用来完成缺少的数据估算降雨。

引用

t·b·Trafalis m·b·里奇曼答:白色,和b . Santosa“数据挖掘技术来提高wsr - 88 d降雨估计,“计算机和工业工程,43卷,不。4、775 - 786年,2002页。视图:出版商的网站|谷歌学术搜索
k . c .——j·e·球,a . Sharma”降雨预报的人工神经网络的应用,”数学和计算机模拟,33卷,不。6 - 7,683 - 693年,2001页。视图:出版商的网站|谷歌学术搜索
j . m . Zhang Fulcher, r·a·斯科菲尔德“降雨量估算使用人工神经网络群,”Neurocomputing,16卷,不。2、97 - 115年,1997页。视图:出版商的网站|谷歌学术搜索
t . Shoji和h . Kitaura”,日本中部的降雨量的统计和地质统计分析,“电脑和地球科学,32卷,不。8,1007 - 1024年,2006页。视图:出版商的网站|谷歌学术搜索
m . c . v .拉米雷斯·h·f·c . Velho n·j·费雷拉,“降雨预报的人工神经网络技术应用于圣保罗地区,”《水文,卷301,不。1 - 4、146 - 162年,2005页。视图:出版商的网站|谷歌学术搜索
r . s . v . Teegavarapu诉华,“改进的加权方法,确定性和随机数据驱动模型估计失踪降水记录,“《水文,卷312,不。1 - 4、191 - 206年,2005页。视图:出版商的网站|谷歌学术搜索
Y.-M。蒋介石,f . j . Chang b . j . d .周素卿p·f·林,“动态安从雷达观测降水估计和预测,“《水文,卷334,不。1 - 2、250 - 261年,2007页。视图:出版商的网站|谷歌学术搜索
t .分娩的大肠Kahya, k . Cığızoğlu”估计降水数据使用人工神经网络和小波变换,“ITU杂志,7卷,不。3,页73 - 85 2008(土耳其)。视图:谷歌学术搜索
l . Bodri和诉Čermak”,使用神经网络预测极端降水:应用程序在摩拉维亚夏季洪水发生,”工程软件的进步没有,卷。31日。5,311 - 321年,2000页。视图:谷歌学术搜索
c . l . Chang, s . l . Lo和s . l . Yu”将模糊理论和遗传算法应用于插入降水、”《水文,卷314,不。1 - 4、92 - 104年,2005页。视图:出版商的网站|谷歌学术搜索
c . Damle和a . Yalcin“洪水预测使用时间序列数据挖掘,”《水文,卷333,不。2 - 4、305 - 316年,2007页。视图:出版商的网站|谷歌学术搜索
K.-W。洲和n . Muttil”数据挖掘和多元统计分析在沿海水域生态系统”Hydroinformatics杂志,9卷,不。4、305 - 317年,2007页。视图:出版商的网站|谷歌学术搜索
e . p .警察水质建模和降雨量估算:[硕士的一个数据驱动的方法论文)爱荷华大学爱荷华州的城市,爱荷华州,美国,2011年。
m . e . Keskin是O。Terzi,和欧盟Kucuksille集成数据挖掘过程蒸发模式”,灌溉和排水工程》杂志上,卷135,不。1,39-43,2009页。视图:出版商的网站|谷歌学术搜索
O。Terzi,“月河流量预测的数据挖掘过程面向知识在数据挖掘中的应用InTech,艾德。k . Funatsu的哲理,里耶卡,克罗地亚,2011。视图:谷歌学术搜索
O。Terzi,欧盟Kucuksille、g·埃尔和a .İlker“太阳辐射估计使用数据挖掘的过程,”信号分配装置国际技术科学,3卷,不。2,页29-37 2011(土耳其)。视图:谷歌学术搜索
r . s . v . Teegavarapu”估计失踪降水记录积分曲面插值技术和时空关联规则,”Hydroinformatics杂志,11卷,不。2、133 - 146年,2009页。视图:出版商的网站|谷歌学术搜索
d . p . Solomatine和k . n . Dulal”模型树作为替代在降雨径流模型,神经网络”水文科学杂志,48卷,不。3、399 - 412年,2003页。视图:出版商的网站|谷歌学术搜索
m . e . Keskin是d Taylan,欧盟Kucuksille,“水文时间序列数据挖掘过程建模”,水文研究。在出版社。视图:谷歌学术搜索
为数据挖掘e . Simoudis“现实的脸颊,“IEEE Expert-Intelligent系统和他们的应用程序,11卷,不。5,26-33,1996页。视图:谷歌学术搜索
http://www.dataminingtechniques.net/data-mining-tutorial/what-is-data-mining/。
张,c .张,杨问:“数据准备,数据挖掘,”应用人工智能,17卷,不。5 - 6,375 - 381年,2003页。视图:谷歌学术搜索
d . n . Moriasi j·g·阿诺德·m·w·范·刘,r . l . Bingner r·d·马克,t·l·威斯,”模型评估指南系统量化流域模拟的准确性”交易的ASABE,50卷,不。3、885 - 900年,2007页。视图:谷歌学术搜索
j·皮尔,阿明,a . Moghaddamnia a . Keshavarz d·汉和r . Remesan“每日盘蒸发建模在炎热和干燥的气候,”水文工程杂志,14卷,不。8,803 - 811年,2009页。视图:出版商的网站|谷歌学术搜索
Lallahem和j .狂热,”一个非线性降雨径流模型使用神经网络技术:在断裂的多孔介质,”数学和计算机模拟,37卷,不。9 - 10,1047 - 1061年,2003页。视图:谷歌学术搜索

应用计算智能和软计算

文摘