1. 引言
俗话说:一天一苹果,疾病远离我。苹果包含丰富的营养物质,含有维生素以及微量元素,有利于儿童的生长发育,增强记忆力,同样也是美容佳品,可以说营养价值在众多水果中堪称完美。我国苹果产量位于水果总产量首位,其栽培面积可达全球栽培面积的一半,苹果产量占全球总产量的30%,在我国农产品产业中有着鲜明的国际竞争力。水果能够提供人类所需要的多种营养元素,水果对于民众的身体健康是十分重要的[1]。所以,对苹果产量的预测可以使苹果达到一个供求平衡的状态,为种植苹果的果农提供一定的理论条件。
国内对农产品及其水果产量的预测研究连绵不绝,其中以ARIMA模型对产量的预测最为广泛,赵嘉宝,陈杰,安霞,孙占海,张学东基于吐鲁番市葡萄产业的现状,利用ARIMA(3,2,1)模型对2018~2010年的葡萄产量进行了预测,预测区间为喇叭状,预测结果较为精确[2];阴明哲,李一帆,芦铃元,邢家轩,崔永福采用ARIMA(3,1,2)模型对河北省2018~2020年的花生产量进行了预测并对花生产业进行了比较细密的分析[3];陈鼎玉,万坚,程瀚锋基于1948~2018年的粮食数据,利用ARIMA模型对我国粮食产量进行了预测,并对粮食增长速度进行了预测[4];李娟丽,许英选取1990~2015年的棉花产量数据进行产量预测研究,利用Eviews软件建立ARIMA模型进一部预测未来棉花产量预测[5];高蕾利用以1949~2013年的粮食产量为数据进行分析,建立ARIMA模型,对安徽省粮食产量做预测,为有关部门制定政策提供了理论支撑[6];刘立国,姜健,贾媛媛对锦州市2000~2012年的粮食数据做了统计分析,建立ARIMA模型,利用该模型对粮食产量进行预测,精准的预测了锦州市未来3年的粮食产量[7]。本文采用ARIMA模型分析陕西省苹果产量,其优势在于能够处理非平稳的时间序列数据,通过差分处理将非平稳时间序列转换为平稳时间序列,从而进行有效建模。此外,ARIMA模型还能够捕捉序列的自回归和移动平均效应,通过选择适当的参数来提高预测准确性。这种模型的灵活性较强,可以通过调整参数适应各种不同类型的时间序列,如季节性、趋势性等。因此,使用ARIMA模型分析苹果产量等时间序列数据,可以有效地预测未来的产量趋势,这对于农业生产和市场分析具有重要的指导意义。
2. 模型介绍
ARIMA模型在70年代被提出,是时间序列中用来推测未来值一种数学方法。其基本思想:将长时间形成的数据视为随机数据,利用模型来描述未来预测值的数学方法。平稳的数据才能利用该模型来预测。如果数据没有表现出稳定的状态,是不能进行模型预测的,对数据做处理使得稳定,才能进行建模预测。
ARIMA(p,d,q)模型有以下结构:
(1)
(1)式中,
;
,为平稳可逆ARMA(p,q)模型的自回归系数多项式,
,为平稳可逆ARMA(p,q)模型的移动平均系数多项式。
ARIMA模型可以分为下面三个结构:
当d = 0时,ARIMA(p,d,q)模型实际为ARMA(p,q)模型;
当p = 0时,ARIMA(0,d,q)可以简记为IMA(d,q)模型;
当q = 0时,ARIMA(p,d,0)可以简记为ARI(p,d)模型。
3. ARIMA模型的建立与分析
选取1979~2018年陕西省苹果产量数据为研究变量,记为序列Xt。对序列建立相应的ARIMA模型进行分析预测,利用Eviews软件进行相应的操作。
3.1. 序列的平稳性处理
该数据来源于陕西省统计年鉴,首先绘制出陕西省1979~2018年苹果产量的时序图(见图1)。
Figure 1. Time series diagram of apple production in Shanxi Province
图1. 陕西省苹果产量时序图
序列Xt的时序图是有逐渐上升的趋势(见图1),不是平稳时间序列,对序列Xt做平稳处理。
3.1.1. 平稳性处理
由于序列Xt呈现指数上升的趋势,对序列Xt取对数,并检验其平稳性(见图2)。
Figure 2. ADF test after logarithmic transformation
图2. 取对数后的ADF检验
T统计量的值为−2.078579 (见图2),对应的概率P为0.2540,在0.1水平下接受原假设,认为经过对数后的序列认为非平稳序列,对该序列做一阶差分并检验其平稳性(见图3)。
Figure 3. ADF test after logarithmic difference
图3. 对数差分后的ADF检验
Figure 4. Autocorrelated and partial autocorrelated graphs
图4. 自相关图和偏自相关图
对经过对数差分后的序列记为序列Yt。对序列Yt做ADF检验,结果如图3所示,T统计量的值为−6.510600,该值小于在0.01、0.05、0.1水平下的值,且相对应的概率P值为0.0000,所以拒绝原假设,则序列Yt为平稳的时间序列序列。
3.1.2. 白噪声检验
要建立ARIMA模型,首先要判断序列是否为白噪声序列。由图3可以看出,经过对数并做一阶差分后的序列Yt是平稳的时间序列,对该序列进行纯随机性检验(见图4)。
由图4可看出,序列Yt的自相关函数相对应的Q统计量的P值基本在0.05以下,拒绝原假设,所以序列Yt为平稳非白噪声序列,符合建模条件,可选用序列做模型拟合。
3.2. 模型估计与检验
3.2.1. 模型估计
由图4可知,序列Yt的自相关系数在滞后2阶落在两倍标准差之外,偏相关系数拖尾。根据ACF和PACF的特性选择建立模型,建立ARIMA(2,1,1)模型(见图5)。
Figure 5. Parameter estimation diagram of model ARIMA(2,1,1)
图5. 模型ARIMA(2,1,1)的参数估计图
由图5所示,参数有效性检验的P值小于0.1,说明模型各项系数在10%的水平下是显著的,通过检验,可以对模型进行下一步分析。
3.2.2. 模型检验
检验模型的拟合效果,即对模型的残差序列进行纯随机性检验(见图6),如果残差序列为白噪声序列的话,说明序列的信息已被充分利用,建立的模型是有效的,此时才能利用该模型进行下一步预测。
由图6可以看出,自偏相关函数相对应的Q统计量的概率值大于0.05,即残差序列为白噪声序列,接受残差序列不存在序列相关性的原假设,通过白噪声检验,表明建立的模型是有效的。
3.3. 模型预测结果分析
利用建立的疏系数模型ARIMA(2,1,1),预测陕西省苹果的产量,以Eviews分析软件中的forecast函数进行操作(见表1)。
Figure 6. Residual test of model ARIMA(2,1,1)
图6. 模型ARIMA(2,1,1)的残差检验
Table 1. Comparison results of predicted and actual values
表1. 预测值与真实值的比较结果
年份 |
实际产量(万t) |
预测产量(万t) |
相对误差(%) |
平均绝对误差(%) |
2019 |
1135.58 |
1043.02 |
−8.15% |
|
2020 |
1185.21 |
1249.59 |
5.43% |
6.61% |
2021 |
1242.46 |
1320.46 |
6.27% |
|
由表1可知,2019年、2020年、2021年的预测产量与实际产量有一定的误差,其相对误差在2020年是最小的,平均相对误差在6.61%,可以用来预测短期内的苹果产量。由于苹果产量受外界因素影响,而时间序列模型是不考虑影响因素的条件下进行的预测,所以该模型仅用于参考。利用该模型对陕西省2022和2023年两年的苹果产量进行预测,其结果为:1472.86万t、1662.73万t。
4. 结论
通过对陕西省苹果产量的分析可知,陕西省苹果产量存在上升的趋势,在2018年受外界情况的影响有所下降,且陕西省苹果种植主要以延安市、渭南市以及咸阳市三个地区为主。本文运用统计学与经济学的理论方法作为基础,结合陕西省苹果产业的发展实际情况,运用时间序列方法ARIMA模型对近几年陕西省苹果产量做预测研究,得到结论如下:
依据陕西统计年鉴中1979~2018年苹果产量数据,利用Eviews软件对数据平稳分析处理,取对数差分使数据成为平稳序列,然后根据ACF和PACF进行模型识别,通过模型检验与优化,最终建立ARIMA(2,1,1)模型,预测出陕西省2022年的苹果产量为1472.86万t,2023年的苹果产量为1662.73万t。
本文构建ARIMA模型对陕西省苹果产量做预测,预测平均相对误差为6.61%,可以较好的反应陕西省苹果产量的趋势,但是该模型是在不考虑苹果产量的影响因素的情况下对未来趋势做预测,由于苹果的产量受各种外界情况的影响,例如,如果出现气候灾害的情况下,会导致苹果产量下降,此时预测误差会较大,所以该模型仅用来进行短期预测,如果模型被用来预测苹果的长期产量,就需要进一步加强对模型的研究,提高模型预测的精度,使得预测更为精准,预测更接近实际值。
利用ARIMA模型对陕西省苹果产量做分析并实行预测仅为苹果产业的发展及果农提供一定量的参考。除此之外,利用组合模型对陕西省苹果产量的研究,以及对苹果产量的影响因素研究,也是日后研究的一个点。
NOTES
*通讯作者。