1. 引言
近年来,我国农业的发展逐渐走向现代化和科技化,农产品的生产水平和加工水平得到显著提升,销售渠道也逐渐系统地多元发展,这明显提高了我国农产品的销售水平。对于享有“农业大省”的河南省而言,农产品的销售是河南省经济收入的重要渠道之一。因而,对近两年不同种类农产品的销售数量进行研究有着很大的现实意义。
一般来说,小麦、玉米、苹果等农作物受季节的影响较大,查阅文献发现,对小麦、玉米的产量、销售的时间序列分析及预测已相对完善,但是对其他种类的农产品进行时间序列分析及预测的成果有待完善,故本文选择一种较为便捷的时间序列预测方法——ARIMA模型。考虑到农产品的产量、出口量的变化趋势有波动性及不确定性,是一种非平稳的随机过程,在建立ARIMA模型时通过引入差分算子,可以使原来不平稳的时间序列经过d阶差分变为平稳时间序列,这种方法大大提高了时间序列预测的效率,使得对具有时间规律对象的研究更加方便。
国内关于时间序列模型及ARIMA模型在不同领域的研究已经有了显著成果,如孟强等基于ARIMA模型对东三省粮食产量的时间序列分析 [1] ,王纪鹏等基于ARIMA模型的邮政业务量预测研究 [2] ,汪淼等提出的基于ARIMA模型的中国消费者价格指数时间序列分析 [3] ,喻达磊等对葡萄酒月度价格指标的季节ARIMA时间序列分析 [4] ,马佳玉等做出的基于组合模型的某农场电商生鲜农产品需求预测研究 [5] ,何延治基于时间序列分析的吉林省粮食产量预测模型 [6] ,庞碧玉,冯爱芬等对中国粮食供需的研究及预测 [7] ,李明书等基于时间序列分析的长春市物流研究及预测 [8] ,黄梦婷基于ARIMA模型的股票价格预测实证研究 [9] ,白同元等对我国进出口总额的时间序列分析 [10] 等。ARIMA模型已经广泛应用于不同领域的预测研究中,比如所提到的粮食、邮政业务量、消费者价格指数、生鲜农产品需求等方面,都可以建立ARIMA模型来进行预测。
ARIMA模型在多个领域的便捷应用说明其在时间序列的预测上有着很好的效果,考虑到我国关于河南省农产品出口的ARIMA模型尚待完善,因此本文主要研究河南省不同农产品的ARIMA建模问题。
2. 数据的采集与分析
本文从郑州海关收集到河南省2020-09到2022-8不同农产品出口数量的数据,如表1:

Table 1. Table of export quantity of Henan Province from 2020-09 to 2022-08
表1. 2020-09到2022-08河南省出口数量表
本数据来自中国郑州海关(http://zhengzhou.customs.gov.cn/)。
本文主要想法是通过对不同农产品建立ARIMA模型,研究不同农产品的销售问题,对于农产品的出口数量的数据,其中或许包含离散的数据,其不具有研究价值,也可能包含有研究价值的数据,便于我们对其进行进一步的研究。因而对于数据处理方面,本文想到白噪声检验的方法,筛选出具有研究价值的农产品种类,之后对这些有研究价值的农产品建立ARIMA模型,利用ARIMA模型分析农产品的销售是否具有季节性。
根据河南省2020年9月至2022年8月不同种类农产品的出口数量,本文首先采用白噪声检验的方法对出口数量数据进行价值性分析,以便筛选出具有进一步研究分析价值的农产品种类;其次,本文利用R语言求解模型的相关系数、对于筛选出的不同农产品分别建立ARIMA模型;为了检验建立的ARIMA模型是否合理,本文考虑用不同方法对模型进行检验,以确保模型真实可行,通过标准化残差图、残差的AFC图、残差的Ljung-Box白噪声检验p值这三种模型诊断方法来验证模型的合理性,最后,本文根据ARIMA模型对不同农产品种类的出口数量进行短期预测,并将预测结果与真实结果进行误差计算。
3. 根据白噪声检验结果筛选出有研究价值的农产品种类
白噪声检验也被称为纯随机性检验,是检验数据是否为随机序列的常用方法,当数据为纯随机数据时,在对数据进行分析就毫无意义,因此对不同种类农产品建立ARIMA模型前,对其出口数量的数据进行白噪声检验,从而筛选出具有研究价值的农产品种类,这个操作可以提高研究效率,减少没有研究价值的建模步骤,因此,在建立ARIMA模型前对数据进行白噪声检验是很有必要的操作。
白噪声序列具有纯随机性、方差齐性。其中,纯随机性指的是序列各项间的自相关系数为0,即序列的各项之间没有任何相关关系;方差齐性指的是序列中每个变量的方差都相等,在序列具有方差齐性时,用最小二乘法得到的未知参数的估计值才更准确有效。白噪声检验首先需要假设条件,其次需要检验Q统计量,通过R语言计算出Q统计量的p值,如果p值大于0.05,则说明无法拒绝原假设,代表这个时间序列的确就是白噪声序列,即为随即系列,不具有研究价值;如果p值小于0.05,则说明可以拒绝原假设,该时间序列不是白噪声序列,具有研究价值,可进一步对数据进行研究分析。
根据表1的数据,本文对所研究的十种农产品进行白噪声检验,结果如表2:
由表2可知,干鲜瓜果及坚果、苹果、罐头、蔬菜罐头、果蔬汁这五种农产品的p值小于0.05,说明这五种农产品的数据具有研究价值,可以对其进行进一步的分析。下图是干鲜瓜果及坚果、苹果、罐头、蔬菜罐头、果蔬汁这五种农产品的出口数量折线图:

Figure 1. Line chart of export quantity of five kinds of agricultural products
图1. 五种农产品的出口数量折线图
由图1可以观察到这五种农产品呈现一定的季节性,为进一步研究,下面本文以苹果和罐头为例,进行ARIMA建模并进行研究分析。
4. ARIMA的模型原理
所谓ARIMA模型,就是将原本非平稳的时间序列通过差分等一系列方法,转化为平稳的时间序列,这种自相关性用定量的方法描述,通过依据时间的序列过去值来预测将来值,是一种很好的时间序列预测方法。ARIMA模型是一种时间序列建模方法,常被应用在统计学等多种学科中,在大多数时间序列的分析中,很多时间序列呈现出季节性和趋势性,比如说周度、月度、季度或其他时间因素引起的变化,这种时间序列称为季节性序列。
ARIMA模型是用于单变量时间序列预测的最广泛使用方法之一,模型较为简单。通过建立具体的ARIMA模型,可以对农产品的出口量进行预测。下面是ARIMA模型的四种形式:
1) AR(p)模型(零均值):
为白噪声过程。参数为
,满足
为复数域。
2) 可逆MA(q)模型(零均值):
满足
3) 零均值可逆ARMA(p,q)模型:
记一阶差分为
,d阶差分为
,事实上
其中,
是k取j的组合个数。
4) ARIMA(p,d,q)模型:
如果
满足零均值可逆ARMA(p,q)模型,就称
满足ARIMA(p,d,q)模型。
其中,p为自回归项数,q为滑动平均项数,d为使之成为平稳序列所做的差分阶数。
5) ARMA(p,q)模型的ACF与PACF理论模式:
根据上述不同的ARIMA模型,来确定最佳的农产品出口数量的时间序列模型。由于ARIMA是平稳时间序列模型,而农产品的产量、出口量的变化趋势有波动性及不确定性,是一种非平稳的随机过程,故本文建立模型时需引入差分算子,以便使原来不平稳的时间序列经过d阶差分变为平稳时间序列;根据表3做出ACF图(时间序列的自相关图)及PACF图(时间序列的偏自相关图),若ACF图在q阶位置基本落在2倍标准差范围内,就可以确定滑动平均项数q;若PACF图在p阶位置就基本落在2倍标准差范围内,就可以确定自回归项数p。
由于
满足零均值可逆ARMA(p,q)模型,因此对于农产品出口数量的时间序列模型,选择ARIMA(p,d,q)更为合适。
5. 不同农产品的ARIMA模型
本文首先对表2中的非白噪声序列的农产品数据进行差分运算,若d阶差分与d + 1阶差分的时间序列大致不变,且d阶差分的时间序列平稳,则可以确定差分阶数为d;之后做出时间序列的自相关(ACF)图、偏自相关(P-ACF)图,根据自相关图在q阶位置是否基本落在2倍标准差范围内来确定滑动平均项数q;根据偏自相关图在p阶位置是否基本落在2倍标准差范围内来确定自回归项数p。根据确定的p,d,q的值,就可以确定ARIMA(p,d,q)模型,最后通过Matlab求出相应系数,就可建立出具体的ARIMA模型,从而对时间序列进行拟合。
5.1. 苹果的ARIMA模型
由图2可以看出一阶差分后的时间序列在均值和方差上看起来像是平稳的,与二阶差分的图形相差不大,随着时间推移,时间序列大致保持不变,因此设置差分项d = 1。
由图3可以看出ACF和PACF都呈现拖尾,ACF在2阶位置就开始基本落在2倍标准差范围,PACF在1阶位置就开始基本落在2倍标准差范围,所以是ARIMA(1,1,2)模型。

Figure 2. First-and second-order difference diagrams
图2. 一阶差分与二阶差分图

Figure 3. First-and second-order difference diagrams
图3. 自相关图和偏自相关图
苹果的ARIMA模型可以表示为:
另外,AIC值为295.71,较低,说明模型的参数较为合适。
5.2. 罐头的ARIMA模型
由图4可以看出一阶差分后的时间序列在均值和方差上看起来像是平稳的,与二阶差分的图形相差不大,随着时间推移,时间序列大致保持不变,因此设置差分项d = 1。

Figure 4. First-and second-order difference diagrams
图4. 一阶差分与二阶差分图

Figure 5. Autocorrelation and partial autocorrelation
图5. 自相关图和偏自相关图
由图5可以看出ACF和PACF都呈现拖尾,ACF在4阶位置开始基本落在2倍标准差范围,PACF在1阶位置开始基本落在2倍标准差范围,所以是ARIMA(1,1,4)模型。
罐头的ARIMA模型可以表示为:
另外,AIC值为305.73,说明模型的参数较为合适。
6. 不同农产品的ARIMA模型诊断
本文通过标准化残差、残差的ACF、残差的Ljung-Box白噪声检验p值来对不同农产品的ARIMA模型进行诊断。
标准化残差是残差除以其标准差的结果,若大约有95%的残差在(−2, 2)之间,则说明模型拟合效果较好。
残差的ACF是用来检验残差序列是否存在相关性,若存在截尾特征,则表明残差序列不存在相关性,这说明模型拟合效果好,
Ljung-Box test是对时间序列是否存在滞后相关的一种统计检验,检验对多个滞后值计算,p值高于横虚线(0.05线)表示模型的建立是合适的。
6.1. 苹果的ARIMA模型诊断
根据图6,标准化残差图表明,仅有一个标准化残差小于−2,其余的标准化残差都在−2~2之间,说明误差项服从标准正态分布;残差的AFC图表明残差的自相关函数呈现出1阶截尾特征,即自相关系数在最初的一阶明显大于2倍标准差范围,之后100%的自相关系数都落在2倍标准差范围以内,并且自相关系数从非零衰减到在零附近微弱波动的过程十分突然;残差的Ljung-Box白噪声检验p值图表明所有的p值均高于横虚线,即0.05线。因此,苹果的ARIMA模型的建立是合理的。
6.2. 罐头的ARIMA模型诊断
根据图7,标准化残差图表明,仅有一个标准化残差大于2,其余的标准化残差都在−2~2之间,说明误差项服从标准正态分布;残差的AFC图表明残差的自相关函数呈现出1阶截尾特征,即自相关系数在最初的一阶明显大于2倍标准差范围,之后100%的自相关系数都落在2倍标准差范围以内,并且自相关系数从非零衰减到在零附近微弱波动的过程十分突然;残差的Ljung-Box白噪声检验p值图表明所有的p值均高于横虚线,即0.05线。因此,罐头的ARIMA模型的建立是合理的。
7. 通过ARIMA模型进行预测
通过ARIMA模型对农产品未来半年的数量进行预测,预测结果如表4,为了对预测结果的合理性进行检验,本文查找到2022年9月到12月的实际数据,通过实际结果与预测结果进行误差计算,来说明结果的合理性,实际结果如表5,误差结果如表6。
有表6可知,预测结果与实际结果的误差绝对值大多在0~0.2,误差值较小,预测结果合理,这说明用ARIMA模型对不同产品进行预测的预测效果较好,因此,预测结果可以成为河南省未来粮食生产的有效参考依据,可以为河南省市场预测及政府宏观经济政策的制定提供理论依据。
8. 总结
本文以苹果、罐头为例,通过分析差分及相关性,对苹果和罐头这两种农产品分别确定了ARIMA(1,1,2)模型、ARIMA(1,1,4)模型,通过求解系数最终确定模型;之后通过标准化残差图、残差的AFC图、残差的Ljung-Box白噪声检验p值来验证了模型的合理性;最后利用ARIMA模型预测出河南省未来半年河南省的农产品销售情况。
ARIMA模型的建立相对简单,只需要内生变量而不需要借助其他外生变量,以简单的模型来方便高效地研究农产品的季节性并进行预测,具有很高的研究价值。通过建立ARIMA模型对河南省多种农产品的出口数量进行分析预测,并通过建立的ARIMA模型对不同种类农产品的出口量进行短期预测,这样能够为河南省的农产品生产状况、出口状况提供有效的参考依据,为河南省市场预测及政府宏观经济政策的制定提供理论依据。
基金项目
国家基金项目(12101195);河南科技大学大学生研究训练计划项目(SRTP: 2022225)。