文摘
介绍了发展水稻产量在斯里兰卡的天气模型基于9个气象指标,即降雨,相对湿度(最小值和最大值)、温度(最小和最大),风速(早晚),蒸发,和阳光小时。七个地理区域的统计信息,有助于国家水稻总产量的三分之二,被用于这项研究。水稻产量的气象指数的意义探讨了采用随机森林(RF)和变量的重要性每个人都确定了。皮尔逊相关性和斯皮尔曼相关被用来识别相关的行为在一个积极的还是消极的方向。此外,天气指数之间的两两相关检查。结果表明,最小相对湿度和最大温度在水稻栽培时期最具影响力的天气指数。此外,使用射频开发水稻产量预测模型和四个技术,即权力回归(PR),多元线性回归(高),逐步选择,向前(升压)选择,和向后(降压)消除,用于基准性能的机器学习技术。他们的表演比较而言,根均方误差(RMSE),相关系数(R),平均绝对误差(MAE)和平均绝对百分比误差(日军)。根据结果,射频是一个可靠的和精确的模型预测水稻产量在斯里兰卡,演示非常高R0.99和至少1.4%的日军。
1。介绍
据悉,有利的天气条件以及其他因素,如采用现代技术在农业、食品保存技术,改良品种的种子,化肥在培养等等都有助于增强食品安全和农业领域的生产力。许多进步的举措对可持续扩张的主要作物在世界范围内,长期自给自足的计划和提高生产率在水稻种植农业科学家和决策者,因为水稻敏感问题仍然是主要的食物来源今天在世界的许多国家,尤其是在亚洲。与日益增长的世界人口对100亿年是到本世纪中叶,大米的需求总是应增加和农业技术人员将很难发明能够提高产量的技术,为水稻种植的农业土地的范围将在几年内耗尽。
研究人员研究了影响regionwise作物产量因素差异在技术、生物和环境类别(1]。例如,随机森林(RF)被用来评估参数与生物物理和社会经济环境,影响水稻的生长2]。在上述因素之一,人们已经发现,天气因素占比其他人更多的作物的生产力由于他们的直接和间接影响3]。弗雷德排名低于7分类管理因素影响玉米籽粒产量和显示,由天气对产量影响最大的有27%的贡献相对于其他因素,如氮、混合,和以前的作物4]。
由于这种重大影响由气候对作物产量,这将是一个有用的练习来识别最有效的气象因素和它们之间的相关性,所以适当措施可能会考虑有利因素的影响,最大限度地减少有害因素对水稻的产量。考虑到不可控和不可预测的性质与天气有关,研究者的范围仅限于使用辅助数据定期天气模式在发展中收获天气模型准确的作物产量预测,尽管偶尔极端天气条件。
能找到一些相关的研究文献中,使用以下回归技术解决上述主题在其他一些国家。沙玛和乔希检查稻米产量和产量的空间和时间性能的因素和确定水稻的种植面积和产量在印度沿海地区5]。他们使用普通最小二乘估计方程和拟合多重回归interdistrict从1984/85到1988/89的数据发现的程度变量,包括灌溉、化肥使用、降雨量、面积和高产品种,负责水稻产量的增长。发现降雨和化肥的使用是最重要的因素与积极的相关系数,增加产量。天气模型用于预测水稻产量在泰米尔纳德邦,印度,使用一个完整的模型和逐步回归分析6]。这项研究中,从10年被七个变量的数据进行逐步回归,预测水稻产量的水稻生长季节确定系数(R2)0.9234使用只有四个因素,即水稻面积的百分比,与最低温度的天数,平均每日最低温度,每月平均太阳辐射。摘要权力回归(PR)和三个与逐步多元线性回归(高)模型选择,选择向前,向后消除变量是用来与水稻产量气象指数及其性能应与更强大的非参数方法相比的公关和射频识别最适合模型(s)在斯里兰卡背景下九个地区的特点是两个主要的水稻生长季节有不同的天气状况。
机器学习技术也被用于开发收获天气模型和理解天气最有影响力的因素。Konduri等人相比的性能的线性和非线性回归模型R2和均方根误差(RMSE),发现支持向量回归(SVR)和射频有能力生产相对更好的性能在主成分回归和岭回归的线性模型在评估气候对作物产量的影响(7]。他们进一步强调了射频回归精度,同时将其优越性在处理数据多重共线性和提取非线性相互作用。比较评估进行了线性回归和射频的两个版本中提取的相对重要性的回归量变量(8]。在本研究报道8),线性回归将会崩溃当有比观测变量,而非参数法,射频出现更健壮的解释天气指数之间存在非线性和交互和作物产量。史和霍也表明射频不同可以处理混合变量类型(分类和命令),它以简单明了的方式是一致的对常规转换的变量值和强劲的离群值(9]。由于射频发展中收获天气模型的优越性,它也被用于这项研究开发为斯里兰卡paddy-weather模型。
虽然天气因素是已知的控制作物产量更大程度上,一个全面的研究重点与水稻产量的相对重要性和相关性尚未进行探索斯里兰卡的情况。因此,本研究关注的是调查的目标最有效的天气指数对水稻产量在斯里兰卡。根据上面所提到大量的建模技术,可以缩小选择方法,将有助于实现本研究的目标。由于使用射频压倒性的成功报道,它将被用来解释interregressor相关性,这是一个重要的变量重要性的行为矩阵的行列式。
节2本文的模型、方法和数据分析的范围。详细讨论了研究结果部分3参照变量重要性、相关性和回归模型,其次是基于观察和验证的结果预测产量。部分4有结论的总结来自斯里兰卡的研究背景。
2。材料和方法
2.1。数据
十一年的辅助数据对水稻产量从普查和统计部门发布的报告,国家总理学院在斯里兰卡,维护信息的官方库不同领域收集使用适当的科学方法和工具。时间范围的数据包括两个主要水稻种植季节从5月到8月(也拉季)和9月至来年3月(摩诃季节)随后的年期间从2009年到2019年,而空间覆盖包含7个行政区划,一起为整体每年近62%的水稻生产在斯里兰卡(图1)。
表1介绍了areawise (districtwise)平均百分比贡献的整体年度稻谷产量斯里兰卡,约为270万吨,满足国内需求的95%左右。水稻种植了约180万户农民在全国蔓延在估计每年870000公顷。可以追踪从表中,七个地区的平均收益率在也拉季节是在3.7到5.2吨/公顷的范围和在摩诃季节变化幅度略大的3.1到5.8吨/公顷。除了Ampara和汉班托塔地区,在摩诃季节平均收益率通常高于在也拉的季节。它也可以指出,最肥沃的收益率是由Batticaloa和Polonnaruwa地区在这两个季节。
天气数据从另一个国家购买研究所,气象部门在斯里兰卡,同一时期的水稻产量数据。总降雨量在种植季节的季节性平均使用8个多月的意思是天气指数相对湿度(最小值和最大值)、温度(最小和最大),风速(早晚),蒸发,和阳光小时。因此,上面的时间和空间范围提供共有11年×7区×2季的数据分析使用高,公关,射频。在高钙,三种类型的变量选择方法,即逐步,选择,和反向淘汰工作。
表2总结了培养期间所获得的总降雨量数量和其他的天气指数在七个地理区域覆盖的数据。它可以指出,最高降雨量在水稻生长季节期间被记录在Batticaloa区,其次是Polonnaruwa区和最低降雨量发生在汉班托塔区。至少最低相对湿度在Polonnaruwa和Monaragala地区盛行,而最高最大相对湿度在库鲁内格勒两市就盛行,Anuradhapura, Batticaloa地区。最低温度已降至约22°C Polonnaruwa Monaragala区和最大上涨了33.5°C Polonnaruwa区。在Polonnaruwa记录最高的蒸发区是一致的最阳光小时相比于其他地区。早上风速是最强的(5.8 km / h)在中北部省份Anuradhapura区,其次是汉班托塔区为4.8 km / h在斯里兰卡南部省份,而最弱的是在库鲁内格勒两市报道,Batticaloa, Monaragala地区。虽然较弱的早晨,晚上在东部海岸Batticaloa记录最强的风(6.9 km / h),其次是Anuradhapura区。一般来说,它可以推断出一个风环境盛行Anuradhapura地区丰富的许多大型水库,而库鲁内格勒两市和Monaragala保持相对平静的相比于其他地区。此外,晚上风平均比早晨风在所有地区。
2.2。变量的重要性
预测通常是衡量评估的相对重要性多少每个预测有助于提高模型精度(10]。因此,变量的重要性(或特性的重要性)技术是指一组技术,分配分数预测,表明各因素的相对重要性在做一个准确的预测。它提供了一个洞察数据集以及预测模型和改进的预测模型是很有用的。进一步,它强调了最重要的预测因子和最小的重要预测因子(10]。因此,它可以作为收集更多的基础或不同的数据模型。基于每个预测的意义,一个特征选择可以只保留最重要预测因子的预测模型。它简化了建模的问题,加快了建模过程,从而提高模型的整体性能。
在这个研究中,射频的内置变量重要性方法回归模型(11,12)是用于理解每个预测天气指数对产量预测。RF回归首先生成一组决策树模型,使用不同的组合预测。每个决策树是一组内部节点和叶子生长在引导样本的原始数据集。只有一个随机子集的预测是分裂的候选人在每个分裂在树上。分裂规则在射频回归最大化的减少杂质引入的一个分裂。射频回归衡量每个预测降低了杂质的分离和最高的预测减少内部节点的选择。所有的树木和每个预测,平均价值如何计算降低了杂质,它被认为是衡量变量重要性的预测(11,12]。
对于每一个决策树,射频回归计算节点的重要性使用基尼重要性,假设只有两个子节点(二叉树)。节点的重要性被定义为 在哪里样品到达节点的加权数吗 , 节点的杂质价值吗j(左)( )节点的左子节点分裂吗 和正确的( )节点的右子节点分裂吗 。每个特性的重要性然后计算为一个决策树
接下来,功能重要性值归一化和归一化特性的重要性在树被指定为
最后在射频功能重要性水平是其平均超过总数的树(T)。
2.3。皮尔森相关系数(R)
和每个天气指数收益率之间的相关性确定量化的影响并确定是否积极或消极的影响。皮尔森相关系数和斯皮尔曼相关系数计算使用的编程语言R工作室(1.3.1093版)。皮尔森相关系数是一个检验统计量的措施都两两之间线性关系的强度和方向两个定量连续变量(13]。这是基于以下公式计算: 在这项研究中,和是一对的观测变量的产量和天气指数中提到的部分2。1。和是两个变量的方法。
积极的相关系数意味着增加了这两个变量在同一个方向和一个负值意味着变量的变化方向相反。表中给出了相关矩阵从而得到3。此外,非零值R接近±1是强有力的证据变量之间的线性关系,和值接近于零表示没有这样的关系。皮尔森相关适合线性相关的变量,每一个都有一个正常(高斯,“钟形曲线”,参数)分布,而斯皮尔曼等级相关的可用于非线性相关,非正态的分布(非参数)14]。
2.4。斯皮尔曼的相关性
一些研究报道显示非线性和天气指数收益率之间的关系(7),它是决定检查成对斯皮尔曼相关系数在水稻产量和相同的天气指数成对详尽,总结如表4。它可以改变从−1 + 1,这样的限制意味着一个完美的单调关系(15),给出如下: 在哪里这两个的区别是每个观察和排名的N是观测的数量。
的值接近+ 1显示强阳性,协会−1表示强烈的负面,协会和零表示较弱或之间没有联系。可能存在非线性关系,即使这个系数是零。的优点之一是,斯皮尔曼相关系数可以用皮尔逊相关系数的假设,即常态,线性,和连续变量的本质,不再是有效的。
2.5。多元线性回归
观测的数量远远超过的数量变量、线性回归是一个强大的经典参数方法(8]。在这项研究中,高钙被用来检查如何独立变量与因变量有关。一旦确定因变量与自变量之间的关系,它可以用来制造更强大的和准确的预测因变量。水稻产量作为因变量,而九相应季节的天气指数作为独立变量。普通最小二乘回归的延伸,在高收益率表示如下: 在哪里是拦截(常数),来输入变量的回归系数,ε是假设下的随机误差正态分布均值为0和恒定方差。
三种高钙方法不同的选择过程变量,即向前(升压)选择,向后(降压)消除,和逐步选择使用。逐步回归是一个组合的其他两种技术中变量添加后逐步验证的意义对公差水平。转发(升压)选择方法,预测变量(天气指数)添加顺序递减与因变量的相关(收益率)。一个相反的过程发生在向后(降压)消去法,每个预测变量不是导致回归方程。
2.6。权力回归
公关是一个非线性回归模型的输出也成比例模型的解释变量。在公关中,函数是一个权力多项式方程的形式y=斧头b,在那里x非零。该方程预测y值躺在绘制的值x,因为它是不太可靠的预测y值,绘制外值。在本研究中,水稻产量也拉或摩诃季节在任何一年作为因变量,而相应的天气指数作为独立变量。它可以表示如下: 在哪里 是常数。
2.7。随机森林
射频是一种广泛使用的基于监督学习机器学习技术,证明了其造型的效率作物产量由于其良好的性能在许多预测领域16,17]。在这个研究中,射频回归法,因为它已成功地用于农业应用,如预测收益率不同的农作物(小麦、玉米和马铃薯)准确地与气候和生物物理预测在全球和区域尺度(18]。同时,其非线性特性是有用的在开发一个可靠的模型来理解气候之间的关系,生物物理预测,产量(11]。
射频构造预测模型和估计预测因子的相对重要性12]。它首先生成一组决策树模型,使用不同的组合预测和解释数据集阈值,为个体生成树的从原始数据采样。然后,它需要这些树模型的总体平均输出预测,这被称为整体造型。而不是平均预测的树木,射频使用随机给它的名字的两个关键概念:(1)随机抽样的训练观察在构建树和(2)分裂节点的随机特性的子集(11]。射频构建多个决策树和合并他们的预测在一起得到一个更精确的和稳定的预测而不是依靠个人决策树。的内在变量选择促进不同射频处理大量的变量(9]。预测通常是衡量评估的相对重要性多少每个预测有助于提高模型精度(12]。
在这个研究中,首先,功能正常化作为输入数据集X:{降雨、最小相对湿度、最大相对湿度、最低温度、最高温度、蒸发},和一个输出集Y:{预测收益率}。然后数据被分为训练集和测试集,由80%和20%,分别以适应上的射频输入数据。接下来,数据获取到射频模型10决策树,每棵树的深度是5的水平。最后,模型评估的准确性的一些统计参数。
2.8。评估模型
射频开发模型后,逐步选择高钙,高钙向前(升压)选择、高钙与落后(降压)消除,和公关,他们的表现评估的相关系数(R)、均方根误差、平均绝对误差 ,和平均绝对百分误差( )。 在哪里和分别是实际的和估计收益率,N是观测的数量。RMSE越低,美,和日军,越接近R1,精确的模型,使之符合实际的水稻产量与预测产量。
3所示。结果与讨论
每个独立变量的功能重要性的水稻产量测量分数和分布的两个最重要的变量是检查澄清了他们相关值与水稻产量相关性矩阵。每个天气指数与产量的相关性和剩下的天气指数量化使用皮尔逊相关法和斯皮尔曼相关方法。强大而温和的相关性是区别于基于三个范围较弱的相关性。五种型号的性能相比可以理解彼此的统计指标R、RMSE美,日军。错误的分布的预测产生的收益率高钙(逐步),公关和射频方法也说明。
3.1。变量的重要性和相关性
最小相对湿度被发现是最重要的独立变量(图2)。不过,皮尔森的相关矩阵和斯皮尔曼相关矩阵表示更高的相关性最低相对湿度和水稻产量(表3和4)。独立变量之间的相关性(最低相对湿度)和因变量(水稻产量)调查了解这个不连贯。观察到的关系是不确定的皮尔森相关(图由于其非线性行为3(一个))。为了检查原因导致更少的斯皮尔曼的相关性,最小相对湿度数据绘制的分布,生成直方图,频率密度曲线叠加。这是观察到的分布数据不正常(图3 (b))。特别是,非行为最低相对湿度之间的关系和水稻产量影响,识别枪兵的相关性(图3(一个))。
(一)
(b)
最高温度是第二个最重要的自变量。皮尔逊相关性和枪兵的相关性显示积极的最大温度和水稻产量之间的关系。积极的皮尔森的相关性与线性关系(图一致4(一))。同样,将会呈现出一种非线性关系,又积极导致积极的斯皮尔曼的相关值(图4 (b))。最佳温度水稻的生长阶段,也就是说,从出现到成熟和收获,特别是水稻开花,范围从27°C到32°C (19),在上面所示的水稻产量没有增加的温度32°C。最高温度数据的分布也调查,发现正常(图4 (c))。因变量和水稻产量还演示了一个正态分布导致相当大的这两个指数之间的相关性(图4 (d))。
(一)
(b)
(c)
(d)
风速是第三个最重要的变量,而风在早上和晚上影响收益率相反,早上风与收益率呈现出正相关,在晚上是负面关联。这种对比相关的风可能是由于强晚上风造成的负面影响(表2)。据报道在文学,强风在开花阶段阻碍水稻的施肥(20.]。蒸发积极水稻产量相关,而降水负相关。的重要性以及相关的其他两个变量,即阳光的小时数和最小温度,是最小的。
强烈的相关性被发现如果两值两个指标之间的相关性在区间[0.75,1.0]或[0.75−−1]和平庸的相关性,如果至少一个值是在区间[0.50,0.74]或[−0.50−0.74]和其他价值在于(强)区间就越高。因此,强大的和平庸的相关性的变量是总结在表相关联的积极的和消极的5。
3.2。回归模型
总共五个收获天气模型是在这项研究中开发的线性和非线性两方面考虑,他们的表现是总结表6。基于性能指标,可以理解,几乎没有区别与向前选择和向后消除高钙的方法,相应的统计措施非常接近对方。比较,高钙方法与逐步回归和非线性的公关方法显示类似的和更好的性能统计证实的性能指标。
从逐步回归方程出现高钙和公关在(9)和(10),分别在前五天气指数模型的表示。公关模型保留了早上晚上风速的风速。此外,这两个模型的相似性是进一步明显从他们相同的错误分布数据中描述5(一个)和5 (b)。
(一)
(b)
(c)
最令人鼓舞的结果产生的非线性射频方法相关系数最高的和最低的RMSE,美,和日军(表6)。较高的相关性是连贯的优秀的巧合产量与实际产量预测的模型,如图5 (c)。的优越性RF-based结果可以观察到在图6,这显示了数据样本的百分比的分布对连续六次间隔的错误。逐步高模型的错误和可比的公关模型大小和分布在错误时间间隔,而40%和60%的样本数据有误差小于1%,在1 - 5%,分别为射频模式。的变化预测水稻产量与实际产量的射频模型如图7。它还表明,所有预测收益率值非常接近相应的实际收益率。
3.3。讨论
研究人员利用大量统计和机器学习技术开发收获天气模型对各种作物如水稻、小麦和玉米。有关研究提出了摘要表7。在这些研究中,提出了不同天气指数作为最具影响力的独立变量(s)。不同的结论背后的原因是天气的差异的研究领域,这在大范围变化。例如,温度低于19°C诱导粮食不育水稻的关键(27但赤道水稻种植区的温度通常不会掉下来。同样,水稻种植的最佳相对湿度介于60%和80%,而值高于85%(至关重要28]。然而,小穗生育并不总是抑制只有高相对湿度(29日]。相反,它导致几乎完全水稻不育的温度大约35°C (27]。因此,更高的温度高的相对湿度降低水稻产量(30.)证明的综合效应的一个重要因素,温度和相对湿度在水稻种植28]。从这个意义上讲,综合分析领域的利益需要了解天气和水稻产量之间的关系。
在斯里兰卡,米饭是主食,气候变化的影响是广泛的研究(31日- - - - - -34]。然而,在大多数的研究中,只有一些气候因素被认为是。因此,读者,尤其是负责任的政府,都没有给出明确的照片由天气指数影响水稻产量。在这个研究中,水稻产量之间的相关性和所有相关的气象因素量化,确定每个因素的重要性。本研究可以扩展到研究天气的影响指数在水稻栽培的不同阶段,通过每周的天气数据。此外,最具影响力的nonclimatic因素可能被识别并可以调查他们的影响力。这些发现将有助于农业部门和决策者考虑适当措施提高水稻产量,减轻负面影响和优化通过作物管理的积极作用。
虽然水稻产量预测模型是由应用众多技术(35,36),这是第一个研究开发水稻产量在斯里兰卡的天气模型。这项研究可以扩展为水稻产量的预测未来的季节或年如果独立变量可以作为预测气候变量。未来天气估计或预测时,他们可以应用于本研究中所开发的模型预测未来水稻产量。预测未来气候下不同的场景(例如,代表浓度路径)是广泛报道37- - - - - -39)和一个这样的气候预测场景可以应用在未来的研究。作为射频模型应用的相关系数是0.99与日军非常低的1.4%,它可以用作一个高度准确的产量预测模型。
4所示。结论
本研究进行了数据可用的气象学和斯里兰卡的普查和统计部门的目标提取最具影响力的天气因素对水稻产量在斯里兰卡。数据覆盖七个主要水稻种植区域占将近三分之二的整个国家在农业生产超过十一年的季节。总共五个回归技术,可以模拟线性以及非线性相互作用的关系。其中,RF模型是最准确的回归方法。之间的性能差异的向前选择和向后消除方法高钙是无关紧要的,而逐步高钙方法更好,仍与公关的方法。然而,卓越和射频模型的准确性明显证明了统计性能指标以及实际产量和模型之间的误差分布产生收益。这研究可能会延长应用预测气候条件对RF未来水稻产量的预测模型。预测未来收益的能力将有利于农业部门,确保食品安全。这样的预测是有用的在宏观的国家的经济活动是由农业部门的主要农作物是水稻。
射频回归用于天气指数排名影响水稻产量在斯里兰卡。最小相对湿度成为最有效的天气指数非线性相关性与水稻产量,紧随其后的是最高温度显示线性和非线性与水稻产量的关系。早上风速是呈正相关,而晚上风水稻产量呈负相关。皮尔森和斯皮尔曼相关矩阵提供了进一步洞察天气两两指标之间的关联程度。天气指数的最大和最小相对湿度和蒸发与最高温度显示强烈的正相关性。然而,最高温度、降雨量和最大相对湿度湿度呈负相关,最高温度,分别和阳光小时。在未来的研究中,nonclimatic因素也可能是合并和它们的重要性可能会调查。
数据可用性
用于研究的数据可从相应的作者要求,受到有关部门的批准。
的利益冲突
作者宣称没有利益冲突。
确认
作者感谢美国人口普查统计数据和气象部门,斯里兰卡,提供过去的记录水稻丰收,产量和气候数据。