研究论文|开放存取
粮食消费量预测:一个被修改的MLR模型结合时间序列预测理论
摘要
在传统的多变量预测模型,大多数研究研究主要集中在有关行为因素的选择和提高的主要行为因素的预测准确性的历史数据,主行为因素的历史数据的稳定性从来没有被认为是一个有关行为的因素,这实际上可能是第一个关键影响因子;此外,历史数据可以直接预测的时间序列预测模型,主要的行为,如ARIMA模型。在本文中,一个经修饰的MLR模型与时间序列预测理论相结合,提出并在谷物消费预测中的应用。在所提出的模型,以改善当前晶粒消耗预测,如何选择影响因素也通过组合灰关联度和Pearson相关系数与给出的权重所讨论的,和最优由移动平均滤波预处理参数被计算用于消除异常点和稳定的数据。最后,所选择的主影响因子被输入到所提出的修改的MLR模型预测晶粒消耗。仿真结果已经表明,定量和饲料颗粒的五年平均绝对误差百分比分别为2.34%和3.27%,和预测精度有所改善高达2倍与BP模型和模型LSTM相比。此外,模型的稳健性是通过预测分析历史数据的不同的时间间隔进行验证。
1.介绍
随着社会、经济、环境等因素的变化,粮食消费结构呈现出新的特点。从研究方法、研究重点、研究视角来看,预测方法多种多样,可分为定性分析和定量分析。定性预测是专家根据历史数据和直观材料的特点进行分析,并依靠研究人员的经验和分析能力得出相应的结果。定量预测方法是通过建立一个数学模型来预测未来的变化规律和发展趋势,得到了更广泛的接受和应用。一般来说,定量分析方法有时间序列预测模型、计量方程(单方程和联立方程)、回归分析预测模型等[1]。Cheng等。认为中国目前的粮食消费和中国的人口发展的未来趋势的实际水平和预测,中国粮食总消费需求将不会在2030年超过6.4亿吨[2]。高通过选择居民的全国样本使用时间序列方法计算人均粮食消费量和预测的食品消费总量。他说,在2020年,中国的粮食总消费量将达到5.95亿吨[3]。陈等人。使用单方程计量模型来完成的,中国的人均农村消费和人口变化的预测;这里的两个变量分别乘以获得粮食总消费量,这将在2030年达到2020年的7600万吨和6500万吨[4]。Liao等。提出的修改的CAPSIM - PODIUM模型来预测和分析全国及九大流域片,包括大米,小麦和玉米的粮食需求;结果表明,中国的粮食总需求将在2020年[达到5.07亿吨五]。潘等人。首先建立一个回归分析;这里只有两个食品价格的可支配收入和人均因素被视为对食品消费显著的影响。因此,通过线性拟合模型获得农村居民人均直接和间接粮食消费模型,并通过总人口相结合得到的总粮食消费量的预测值。结果表明,在中国的农村地区直接和间接粮食消费量到2030年将达到96865800吨和87317300吨2020年和58.1396吨和91164700吨[6]。从现有的研究,影响因素和历史数据的特点是粮食消费预测模型更重要。然而,迄今为止,这是不够的,更全面的分析。在本文中,一个新的组合模型,提出了包括影响因素的选择和考虑最佳的预处理。
本文的主要贡献如下:(1)以平滑的原始数据和优化的影响因子的选择,首先,在原来的数据中的异常点由移动平均滤波与最佳窗口宽度,这使得数据趋势进行平滑和稳定化,晶粒的关联度除去消耗和其影响因素由所提出的相结合的方法来计算,因此,关键影响因子被选择。(2)结合两种模型的优点,结合基于数据重心的时间序列预测理论,提出了一种新的修正MLR模型。
2.电量预测方法的研究
中国的粮食消费可以分为两大类:食品消费和非食品消费。食物消费包括定量和饲料谷物消耗,同时非食品消费包括工业谷物,种子粒,和损耗的晶粒。如图1因此,本文的研究重点是口粮和饲料粮的变化趋势。
2.1。移动平均滤波的方法与最佳窗口跨度
移动平均滤波已经在数值分析广泛的应用,也被称为线性滤波,属于一维滤波。该算法是通过递归,即实现的,与几个邻域点的平均值替换对应位置的原始值,和移动平均值被认为是在此期间,移动平均项的趋势代表值。在本文中,所有的历史数据都将通过平均移动过滤器用于消除异常点和随机波动预处理。一般地,当滤波窗口宽度ñ是正的奇数,移动平均滤波的通式定义为 哪里为输入序列,是输出序列,和ñ是窗口宽度。
在不同窗宽下,滤波原始数据的平滑性和稳定性会有较大差异。这里采用变异系数来评价观测值的离散性,可以用各观测值的标准差与平均值之比来表示,符号为CV [7]: 哪里是标准偏差, ,和为平均值, 。变化较小的系数,更好的稳定性的组数据的了。事实上,为了得到更高的预测精度,偏差可能不会带来预期的结果的最小的系数最大窗口宽度;因此,最佳的滤波窗口宽度将由变异系数和预测误差来选择。
2.2。粮食消费的影响因素分析
2.2.1。灰色关联度
灰色关联分析方法,又称“灰色关联度”,被广泛用于计算变量之间的相关性[8],它可以分析两个系统之间或系统内两个因素在时间和速度变化的情况下的相关性程度,并通过比较两个数据序列的几何相似性判断它们是否高度相关。本文假设粮食消费数据为参考序列,其影响因素为比较序列,计算参考序列与比较序列的灰色关联度为[9]:(1)参考序列是 ;比较序列是 (2)采用归一化方法进行无量纲预处理,归一化参考序列和比较序列表示为和 ,分别。 (3)计算绝对差分序列参考序列之间和序列比较 : (4)搜索最大绝对差序列和最小绝对差序列 :该一世-th灰色关联系数定义为 哪里为分辨率系数,一般在0.5到1之间。参数越小p是,较强的关联系数之间的差异的区分能力,一般服用0.5。(5)平均关系系数:关联度能够作为获得
2.2.2。Pearson相关系数
Pearson相关系数是通过皮尔逊提出了古典统计量。在统计学中,它被广泛用于测量两个变量,其可以反映两个变量之间的线性相关性之间的相关程度。它被定义为协方差的两个变量[之间的商和标准偏差10]。假设两个系列 和 ,二者之间的Pearson相关系数为 哪里[R是-1和1之间的相关系数的较大的绝对值,较高的相关性X和ÿ是,和正相关系数意味着正相关,负相关系数表示负相关性。
2.2.3。选择主要影响因素的组合模型
谷物消费包括定量消耗,饲料谷物消费和工业/种子/损耗的晶粒消耗。变化中的社会,经济和环境因素会产生晶粒消费的每个部件上的不同效应;然而,一些不相关的影响因子和那些具有较低的相关性会降低预测精度,并增加了复杂性。因此,有必要选择主要影响因素为粮食消费的以下预测。
从部分2.2.1和2.2.2,灰色关联分析可以具体化为任何两个因素之间的几何相似性,和Pearson相关系数可以反映两个变量之间的线性关系。如何结合上述两个关联度,选择真正的关键影响因素将是本文的创新之一。在现有的参考文献,只有一个相关的分析通常被用于秩1个主要的行为因素和参考序列之间的相关度。虽然对于相同的影响的因素,也可以通过上述两个相关分析方法产生相关度的不同排列顺序[11]。图中提出了一种选择主要影响因素的新组合模型2。这里,粮食消费是主要的行为因素,其更可能的影响因素为参考序列。从图2,它们之间的相关度将首先分别由灰色相关分析和Pearson相关系数计算,并且然后一个加权操作者将采用以获得最终的关联度。因此,关键影响因子可以通过排列顺序和最后的关联度的一个阈值来选择。这里,阈值可以通过下面的预测误差的反馈来确定。
2.2.4。影响因素预测模型
ARIMA模型是在70年代初期由方块和詹金斯提出一个时间序列的预测方法,该方法也被称为箱Jenkins模型[12,13]。在ARIMA(p,d,q)模型,p被称为自回归秩序q被称为移动平均线顺序。为了获得更好的预测,原始数据应该是静止的。单位根检验经常被用来检查时间序列的平稳性。如果时间序列是非平稳,可以通过差异的几次[转化为平稳时间序列14]。
假设在预测值Ť年,各种影响因素,在过去的原始值p年,集 ;这里是具有单个整数序列d为了与是静止系列;ARMA模型的一般形式可以写成
假设大号是滞后运算符,则 与方程(9)可以改写为 哪里
该dARMA的阶差变换(p,q)作为公式(10)称为ARIMA(p,d,q): 哪里与它的平均值为0和方差存在一个白噪声过程 。
2.3。基于数据重心的MLR预测模型
在经典的多元线性回归模型中,通常采用最小二乘法计算预测参数。与最小二乘方法相比,重心算子[15]可以为多元回归模型提供更高稳定的参数[16]。
假设数据集 ,它的一阶重心可以写成
如果记录 ,被称为 一阶重心算子。同样,它的二阶重心可以写成 哪里 ,被称为 ,二阶重心运算符。
如此反复,在ķ阶重心运营商 哪里 。
在经典的多元线性回归模型[17,18]中,预测值可以表示为 这里,为预测参数;是自变量,及号码他们,组变量观察表示为 。
在这篇论文中ķ阶重心运算符采用计算多变量预测模型的参数。的顺序ķ-阶重心算子等于模型的预测参数数。新的基于数据重心的模型称为基于db的MLR。
在基于DB-MLR,方程(17)可转换为
让ķ = 1, 2, …,p在方程(18);我们可以得到一个线性方程组,对应的参数可以用Cramer法则求解: 哪里
取代了Ĵth列d与(即在公式左边项(18)),我们可以得到的系数 , 。此外,考虑方程(19)代入方程式(17),最优预测模型参数可以通过多次迭代来获得。
2.4。时间序列预测模型
时间序列预测模型是的定量预测的方法,其中整理所述预测对象的历史数据到时间顺序的时间序列,分析随时间的变化趋势之一,并建立了一个数学模型来推断未来值。[19]。时序预测模型的一般结构表示如下: 哪里是预测参数和是粮食消费的历史价值。根据建模思想和参数计算算法,时间序列模型可分为移动平均(MA)模型、趋势外推模型、指数回归(ES)模型、自回归(AR)模型、ARMA模型、ARIMA模型等[20-22]。它是同一个用于上述时间序列通过拟合其历史数据,仅使用的模型参数的不同的计算方法预测的未来值。
2.5。结合时间序列预测理论的修正MLR模型
通过对时间序列模型和经典MLR模型的分析,我们发现这两种模型不能同时充分利用历史数据和影响因素。本文将预测变量的历史数据作为一个关键影响因素,将其与所选择的其他影响因素一起归为MLR模型。提出的改进MLR模型可以表示为 哪里历史数据的预测值是多少 ;它们是MLR模型的“内部因素”;除此之外,是所选择的关键影响因子,其是“外部因素”。因此,修改后的模型MLR可以采取优点添加内部因素。在这个模型中,模型参数和可以在同一时间被计算;因此,该模型是用简单的分别结合两种模式,不同的。预测性能将在下面的章节中讨论。
2.6。预测误差的评价指标
本文以预测残差的绝对百分误差(APE)、平均绝对百分误差(MAPE)和泰尔不等式系数作为模型预测的准则。MAPE是所有绝对误差百分比(ape)与真实值的平均比率,它是一个百分比。一般情况下,绝对误差可以避免误差相互抵消的问题;因此,MAPE能较准确地反映实际预测误差,较好地反映预测模型的可靠性。此外,泰尔不等式系数是衡量预测精度的相关指标。泰尔不等式系数越接近0,预测值与实际值的差越小,说明预测模型的拟合程度越好。定义了平均绝对百分误差和泰尔不等式系数
3.仿真分析
3.1。移动平均滤波的方法与最佳窗口宽度
实验数据来源于国家统计局网站和《中国统计年鉴2018》[23]。通过不同窗口宽度下的移动平均滤波对所有影响因素和不同种类的晶粒消耗进行预处理,如图所示3和4。这里,城市定额(1981 ~ 2017)是实验中原始数据的一个例子。
从数据3和4,对于不同的窗口宽度ñ,较大的窗口宽度是,变异系数越小和越平滑滤波的序列是。考虑下面的预测精度,对于给定的训练数据,最佳窗口宽度可以由两个索引来确定:变化测试和预测误差的系数。
3.2。影响因素的选择
如图节2.2.1和2.2.2,每一种晶粒消耗和相应的几个影响因素之间的关联度和顺序进行了分析。的主要影响因素的选择被示出为表1。在这里,粮食消费包括城镇比,农村比城市的饲料粮,农村谷物饲料。影响因素包括人口,城市化水平,恩格尔系数,人均收入,农产品价格指数等。
|
||||||||||||||||||||||||||
3.3。模型预测分析
在上述提出的修正预测模型中,考虑到算法的复杂性和实验结果的比较,项目最终确定的模型如下: 其中,模型参数 ,和可以用数据质心法计算。
原始数据包括粮食消费和几个影响因素。在模拟中,粮食消费数据的第一33年(1981年至2013年)在模型中被训练,然后在未来五年晶粒消耗数据(2014 - 2017年)进行预测。定义的1981年为Ť = 1 and 2013 asŤ = 33, the urban ration consumption, urban feed-grain consumption, rural ration consumption, and rural feed-grain consumption are, respectively, expressed as ,和 ;的五个因素中,分别定义为 ,和 。预测过程如下所示:(1)当Ť = 1∼37, the relational degree between和 ,和计算;采用所提出的组合方法选取两个关键影响因素,表示为和 。(2)当Ť= 1∼33岁 , , ,和,经平均移动滤波预处理,表示为 , , ,和 ,分别被用作训练数据进 。该模型参数 ,和将由数据重心计算,然后可以得到预测模型。(3) 和 通过ARIMA模型进行预测。(4)假设Ť = Ť + 1 and ,城市口粮消费在明年被提出的联合模型获得。(5)重复(3)〜(4),城市配给消耗量的预测就可以完成。
类似于农村口粮消费的预测过程,城市饲料-粮食消费的预测过程 ,农村口粮消费 ,和农村的饲料,粮食消费可以分别得到。为得到粮食消费总量,可以将上述预测结果相加。
3.3.1。拟合结果
通过所提出的方法如等式(24),对于每一种晶粒消耗,两个关键影响因子和历史粮食消费被选择作为时间系列-MLR关节模型的输入。然而,对于传统的MLR模型中,输入是仅在两个选择的关键影响因子。两个模型的拟合结果显示在图5(一个)用于饲料谷物的预测和预测5 (b)用于定量谷物预测。
(一)
(b)中
从表2中,可以看出,定量和饲料颗粒的嵌合优度都能得到改善。该模型的拟合效果可以提供更好的预测可靠性。
|
||||||||||||||||||||||||||||||
3.3.2。预测结果分析
对于预测未来粮食消费趋势的实验,我们选择滤波窗宽为3,5,7,并建立预测模型。不同的滤波窗口宽度会影响模型的预测性能;因此,通过反馈预测误差来调整滤波参数,可以选择最优滤波窗宽。这里,对于口粮消耗预测和饲料粮消耗预测,选择的最优窗宽分别为5和3。本文基于这些优化预处理方法,建立了多级线性回归模型和改进的多级线性回归模型。
此外,在我们的模拟,经典的时间序列ARIMA模型采用预测在中国的口粮和饲料粮的消费。此外,深学习预测也被认为比较,这是近年来新兴的研究热点[24-三十]。采用五种预测模型对APE、MAPE和Theil预测模型进行了比较ü性能。(1)经典的时间序列ARIMA模型: 哪里是过去的实际值p年份;的顺序p和q可以通过模式识别来实现和和可以通过最小二乘法来计算。(2)国土资源部模型:将关联度最大的两个影响因素作为建模中的关键影响因素输入MLR预测模型: 哪里是关键影响因素;模型参数可以用数据质心法计算。(3)改进的MLR模型:考虑到算法的复杂性和预测性能,提出的MLR模型是 其中,模型参数 ,和可以由数据重心的方法来计算;为未来预测值;为预测变量的历史数据;和为所选择的最佳影响因子。(4)该BP模型:BP (Backpropagation, BP)是一种应用广泛的人工神经网络(ANNs),它可以通过反向误差传播算法来训练模型参数[24-28]。的BP模型的预测帧在图中示出6。根据输入的三种历史数据,对未来价值进行三层预测;这里使用隐含层来分析输入数据的特征。在图6,为输入的粮食消费历史数据,未来的预测值是多少和为训练模型的权重值。(5)该LSTM模型:LSTM是一种特殊的递归神经网络(RNN),它将隐含层的原始神经单元替换为记忆单元[29,三十]。每个存储器单元具有一个输入门,输出门,遗忘门和存储器单元,如图7。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表3和4,对于ARIMA模型,预测年份越接近,模型预测精度越高。对于MLR模型,预测年份越远,模型预测精度越高。这是因为时间序列预测模型更适合短期预测,而多元回归模型更适合长期预测。但是,可以发现改进的MLR模型的预测精度高于单时间序列模型和经典的MLR模型。这主要是因为组合模型既能跟踪影响因素的变化,又能把握粮食消费的内部变化趋势,从而误差范围较小。该模型在MAPE和Theil两个指标上均优于BP模型和LSTM模型ü。
同时,为了验证修改MLR模型的稳定性,两个实验都进行:(1)训练时间间隔是1981年至2014年,和所述预测时间间隔为2015 - 2018年;(2)在训练时间间隔是1981至2013年,并且预测的时间间隔是2014 - 2017年。配给消耗和饲料颗粒的消耗的预测性能示于表五。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
从表五,可以看出,不同时间区间的口粮和饲料粮用量的预测误差限制在2%以内,表明所提出的模型能够实现稳定的预测,且中短期预测精度较好。
4。结论
在本文中,一个新的修改MLR模型与时间序列预测理论相结合,提出了。在所提出的模型,预测变量的历史数据将被视为一个关键影响因子,这将在归因于与其它所选的影响因子的MLR模型。因此,它可以充分利用时间序列模型和MLR模型的优点,和预测的性能得到了显着提高,与MLR模型,ARIMA模型,甚至BP模型和模型LSTM比较。此外,还有其他创新工程;原始数据由下最佳窗口移动平均滤波预处理,并且数据重心方法也适于计算MLR的模型参数用于改善鲁棒性。所提出的预测模型可以在广泛谷物预测或其他字段的短中期预测来施加。
数据可用性
支持本研究结果的数据可从通讯作者处获得,但需提出合理要求。
利益冲突
作者声明他们没有利益冲突。
致谢
这项研究是财政由中国国家自然科学基金(61871176和61741107)的支持,河南省科技厅(202102110265),河南省高校重点科研项目和大学的应用研究计划(19A510011),以及科学的重点项目研究基金会自然科学工程河南工业大学(2018RCJH18)。
参考
- Jian M., Luo Q., Gao M.,“粮食需求预测方法综述”,中国农业资源与区划。卷。34,没有。3,第28-33,2011。视图:谷歌学术
- 郑志强和陈l.,“中国粮食需求的长期趋势”,在中国农村观察卷。3,第1-6页,1998年。视图:谷歌学术
- Q. J.高,“分析和城乡居民的粮食消费量的预测,”中国农村经济卷。10,第20-25,2004年。视图:谷歌学术
- 陈欣欣、付启明,“中国农村家庭粮食消费预测研究”,《中国农村家庭粮食消费预测研究》,技术经济学卷。20,没有。2,第92-95,2007。视图:谷歌学术
- 廖元顺、黄志强,“21世纪中国九大流域粮食需求预测分析”,南-to -North,水利水电科技第2卷第1期1,第29-32页,2004。视图:谷歌学术
- Y.潘和L.刘,“分析与中国农村居民食品消费的预测,”人口和Rconomy,第3卷,第1-8页,2005年。视图:谷歌学术
- Xu t.t., Zhang R. Y.,“中国卫生人力资源均等化测度及其影响因素分析——基于2012 - 2016年省级面板数据的实证研究”卫生经济学研究卷。36,没有。6,第13-17,2019。视图:谷歌学术
- 问:李楼和G. L.康,“影响基于灰色关联粮食生产河南省的因素,”亚洲农业研究卷。1,没有。5,第23-27,2009年。视图:谷歌学术
- J. P. Li和S. M.王,“国产电影票房的预测基于灰色关联分析和BP算法”电子世界的探索与观察,第24卷,第18-19页。视图:谷歌学术
- 蔡杰,张明华,“基于皮尔逊相关系数的货车能耗模型”,交通运输系统工程和信息技术第18卷,no。2018年,241-2463页。视图:谷歌学术
- J. Y.张,R. Gao等人,“灰色关联度和Pearson相关系数的应用对比,”杂志赤峰大学卷。30,没有。21,第1-2页,2014。视图:谷歌学术
- 杨,“基于ARIMA模型的粮食产量预测研究”,中国农业科学出版社。河南工业大学学报卷。5,第19-22,2015年。视图:谷歌学术
- 杨,“基于组合动态模型的饲料谷物需求预测模型”,硕士论文。计算智能与神经科学,第2016卷,文章编号5329870,6页,2016年。视图:出版商网站|谷歌学术
- 关c.y.,“浙江省GDP增长的ARIMA模型预测”,科技经济指南第26卷,no。2018年,第35页214-215页。视图:谷歌学术
- 问:张和J. L.张,“研究多 - 因子数据预测重心和应用,”中国管理科学的卷。13,没有。5,第126-129,2005。视图:谷歌学术
- 张建林,“滑动数据重心预测方法及其应用研究”,数理统计与管理卷。11,没有。3,第3653-1042,2010。视图:谷歌学术
- 王宏伟,“多元线性回归的预测建模方法”,北京航空航天大学的卷。33,没有。4,第500-504,2007。视图:谷歌学术
- 刘慧玲,“一种估计回归模型参数的新方法”,扬州大学学报(自然科学版)卷。3,第18-20页,2003。视图:谷歌学术
- J. W.莫,设计和趋势预测模型中的应用时间序列分析,中国科学院,北京,中国,2014年大学。
- k.c.苗,研究农产品价格预测基于对指数平滑模型2009年,合肥工业大学,中国合肥。
- A.艾夫斯,K. C.雅培,和N. L. Ziebarth,“与生态ARMA时间序列分析(p,q)和模式”,生态第91卷第1期3,第858-871页,2010年。视图:谷歌学术
- Y. G.党和J. J.王“的灰色预测技术研究进展综述”[电气工程上海政法学院学报第18卷,no。1, 2015年第1 - 7页。视图:谷歌学术
- 国家统计局的数据,中国统计年鉴2018,中国统计出版社,中国北京,2018。
- B.小和L.周,“研究基于人工神经网络的地基沉降的预测,”建筑工程卷。4,没有。2,第78-85,2014。视图:谷歌学术
- G.-Z.泉,潘J.和十王“由BP神经网络模型高温合金NIMONIC 80A的热压缩变形行为的预测,”应用科学第3卷,no。3,第33-73页,2016年。视图:谷歌学术
- “基于BP神经网络的雨季降雨预测模型研究”,李玉华,刘德华,金。气象科学第22卷,第2期。2002年,第461-467页。视图:谷歌学术
- 谢中,张元华,金中,“基于BP神经网络的采空区煤炭自燃预测”,Procedia工程卷。43,第88-92,2012。视图:出版商网站|谷歌学术
- 曾志雄和曾志强。“基于神经网络算法的教室照明系统优化”,刘志军,灯光工程卷。38,没有。4,第45-51,2018。视图:出版商网站|谷歌学术
- T.耳根和S.塞尔达尔Kozat,“基于LSTM神经网络的高效的在线学习算法”IEEE神经网络和学习系统汇刊卷。29,没有。8,第1-12,2017。视图:谷歌学术
- 王志强,赵s, A. Kalra等,“利用深度序列神经网络预测网页深度可见性”,IEEE知识与数据工程学报卷。31,没有。3,P。1,2018。视图:谷歌学术
版权
版权所有©2020春华朱等人。这是下发布的开放式访问文章知识共享署名许可,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。