1. 引言
1.1. 课题背景与意义
正所谓:“人民是国家的根本,粮食则是人民的根本”。有效落实我国粮食安全工作,对于完成建设小康社会的目标、创建社会主义和谐社会和夯实新时代农村建设具有不凡的意义。近年来,受国际紧张局势和全球新冠疫情的影响,粮食价格起伏波动,劳动力成本和农资价格不断攀升,导致农户种粮收益空间不断缩减,种粮积极性遭到严重打击。为了探究改革开放以来浙江省粮食产量的发展趋势,本文将采用ARIMA模型对其进行研究。
此外,粮食产量是衡量农业发展程度的一个重要指标,也是保证粮食供给的决定性因素,影响着粮食价格的稳定性 [1] ,是开展农业供给侧结构性改革的关键因素,因此研究粮食产量增长及其增长潜力对于研究农业发展具有重要意义 [2] 。
1.2. 国内外研究现状
保障粮食产量安全有助于国家经济繁荣和社会稳定,准确的粮食产量预测可使各地政府及农业工作者了解未来粮食产量的发展趋势,为政府提前作出相应的生产结构调整提供决策建议,为农业工作者规划作物种植面积、施肥量等提供参考 [3] 。因此,粮食产量的精准预测在农业经济中起着决定性作用,对全球粮食生产安全和农业经济稳定发展具有重要的现实意义 [4] 。国内外众多学者提出了很多粮食产量预测方法,主要包括传统时间序列预测模型和机器学习预测模型两种。
比如蔡承智、张林 [5] 通过ARIMA-TR模型预测分析了当前世界的马铃薯产量潜力,得出结论:产量提升尚有空间,并且主要依靠保持高产国家优势。樊超等 [6] 结合小波变换与ARIMA的优点,建立组合预测模型,进一步提高了趋势信号的预测精度。Dash等 [7] 和Dauda Taofik等 [8] 国外学者分别运用ARIMA模型预测了当地不同作物的产量,以估计其对经济总体的影响。贾梦琦等 [9] 学者通过机器学习模型,运用皮尔逊相关分析法选出影响粮食产量的主要因素并进行预测。鄂梦然等 [10] 和罗巍等 [11] 学者分别在粮食安全和流域–能源–粮食纽带关系的角度上对粮食产量进行了分析研究。朱艳娜等 [12] 和胡晗等 [13] 在供给侧改革的背景下对我国粮食调控机制展开了研究。桂文林等 [14] 和吴秀芝等 [15] 分别从粮食价格和人均占有量等方面运用ARIMA进行了预测。
1.3. 主要研究内容
本文主要基于浙江省1978~2021年这44年的粮食产量数据,研究其ARIMA模型的平稳性检验、白噪声检验、模型定阶、参数估计、残差分析、预测等,为研究浙江省粮食产业发展提供模型和数据支撑。
1.4. 论文组织结构(见图1)

Figure 1. Organizational chart of the paper
图1. 论文组织结构图
2. 数据预处理与检验
2.1. 数据来源

Figure 2. Time series diagram of original data
图2. 原数据时间序列图
通过浙江省统计局官网,下载了浙江省1978~2021年的粮食产量数据,并绘制其时间序列图,如图2所示。
2.2. 数据预处理
2.2.1. 缺失值处理
缺失值产生的原因有许多种,主要分为机械原因和人为原因,并且根据数据的具体情况有不同的处理方式。
在数据集极大并且缺失数据较少的情况下可选择直接删除缺失值,也可以根据数据可能的缺失原因以及存在缺失值的变量所代表的含义等进行均值、中位数等替换缺失值,也可以插补法等方式进行处理。通过缺失值检验数据表明收集到的粮食产量数据没有缺失值,所以不用进行缺失值处理。
2.2.2. 异常值处理
数据中的异常值的检验方法有3G原则、箱型图等。并且根据具体的情况选择删除异常的数据或者将异常数据视为缺失值进行处理。通过箱型检验表明数据中没有异常值存在(见图3)。
2.3. 平稳性检验
ADF检验
ADF (Augmented Dickey-Fuller)检验也称单位根检验,是Dickey-Fuller检验的增广形式。ADF检验主要是通过判断过程是否存在单位根来判断序列是否平稳,若序列平稳则不存在单位根,若序列不平稳则存在单位根。ADF检验的零假设为序列是非平稳的,备择假设为序列是平稳的。由图2可知,该数据有向下趋势,可能是非平稳的,故为确定该数据的平稳性,置信度为95%,进行了ADF检验,结果如表1所示。
由表1可知,p = 0.5966 > 0.05,故在α = 0.05水平下接受原假设,认为数据非平稳。因此,将采取差分的方式对数据进行平稳化处理。

Figure 4. First order differential time series diagram
图4. 一阶差分时间序列图
由图4可知,该数据可能是非平稳的,为确定该数据的平稳性,同样进行了ADF检验,结果如表2所示。

Table 2. First order differential data ADF test results
表2. 一阶差分数据ADF检验结果
由表2可知,p = 0.01818 < 0.05,故在α = 0.05水平下拒绝原假设,认为数据平稳。
2.4. 白噪声检验
对差分后得到的数据进行白噪声检验,结果如表3所示。
由表3可知,p = 0.03409 < 0.05,拒绝原假设,故认为一阶差分后的数据不是白噪声数据,符合建模要求。
3. 模型识别
本模块将采用ACF图、PACF图和auto.arima()函数相结合的方式,对模型进行定阶(见图5、图6)。

Figure 6. Function order determination result graph
图6. 函数定阶结果图
通过上面的图,结合模型效果选出最优模型,即采用auto.arima()函数的定阶,支持使用ARIMA(1, 0, 0)模型。
4. 参数估计
4.1. 极大似然估计

Figure 7. Maximum likelihood estimation result graph
图7. 极大似然估计结果图
由图7可知,各参数的估计为:
。
由此可得到ARIMA(1, 0, 0)模型的公式为:Yt = − 0.3366Yt – 1 + et。
4.2. 最小二乘估计
由图8可知,各参数的估计为:
。
由此可得到ARIMA(1, 0, 0)模型的公式为:Yt = − 0.3444Yt – 1 + et。

Figure 8. Least squares estimation result graph
图8. 最小二乘估计结果图
4.3. 两种估计方法之比较
通过对比两种估计方法的参数结果,可以发现两者的结果都比较接近,所以该模型得以支持,在之后的建模中,采用极大似然估计的参数进行后续分析。
5. 模型诊断
5.1. 残差分析——正态性检验
在完成参数估计后,对模型进行残差分析,以此对模型的拟合优度进行检验。

Figure 9. Standard residual time series diagram
图9. 标准残差时间序列图
由图9可以看出,数据基本围绕0点上下浮动,没有明显的趋势。为进一步对残差进行分析,绘制Q-Q图对其正态性进行检验。
5.1.1. Q-Q图检验
由图10可以看出,数据的头部和尾部有些偏离直线,不确定是否服从正态分布。故采用S-W检验方法对其再次进行检验。
5.1.2. S-W检验
由表4可知,p = 0.3217 > 0.05,在α = 0.05水平下接受原假设,故认为标准残差服从正态分布。
5.2. 残差分析——独立性检验
在进行残差的正态性检验后,进一步对标准残差的独立性进行检验。
5.2.1. Ljung-Box检验

Table 5. Ljung Box test results
表5. Ljung-Box检验结果
由表5可知,p = 0.7756 > 0.05,故在α = 0.05水平下接受原假设,认为模型残差不存在自相关,是独立的。
5.2.2. 游程检验
由表6可知,在游程检验中,p = 0.354 > 0.05,故在α = 0.05水平下接受原假设,认为模型残差是独立的。
5.2.3. ACF检验
由图11可知,通过ACF检验我们发现,残差的样本自相关所有数值都没有超过虚线,即认为残差不存在显著自相关,是独立的。
6. 预测结果
使用forecast()函数对模型二进行预测,图12为预测结果,图13为预测图。
利用所建模型,可以得到浙江省2017年~2021年粮食产量的预测,与真实值进行比较可以发现,数值偏差不大,模型预测效果良好。
7. 方法分析
本文之所以在粮食产量预测问题上使用ARIMA模型,是因为与其他回归预测算法模型相比,ARIMA模型在这个领域有一些显著的优势:
首先是考虑时间序列特性,ARIMA模型专门用于处理时间序列数据,能够捕捉数据中的趋势性、季节性和周期性变化。这使得ARIMA在处理具有时间依赖性的粮食产量数据时更具优势,因为它能够考虑过去的观测值对未来的影响,而回归模型通常不具备这种能力。
其次,ARIMA模型适用性广泛。ARIMA模型不依赖于特定的假设,因此,它适用于各种类型的时间序列数据,包括非线性和非正态数据,这在粮食产量预测中可能更为合适。
第三,ARIMA模型考虑季节性。由于粮食产量问题通常受季节性因素的影响,如天气和农业周期。ARIMA模型能够有效地捕捉和建模这些季节性变化,而许多传统的回归模型通常需要复杂的特征工程才能实现这一点。
第四,ARIMA模型具有较好的综合性能。ARIMA模型综合了自回归(AR)和滑动平均(MA)两种组件,这使得它能够很好地处理多种数据特性。它在建模不稳定时间序列时表现出色,也适用于稳定时间序列。
第五,ARIMA模型具有自适应性。ARIMA模型能够自适应地调整模型参数,以适应时间序列数据的变化。这意味着它可以应对不断变化的产量趋势,而无需重新训练模型。在农业领域,由于受天气、自然灾害和政策等因素的影响,对于粮食产量问题,ARIMA的自适应性使其结果更具鲁棒性。
最后,ARIMA模型有较好的参数可解释性。ARIMA模型的参数通常具有明确的统计意义,这使得模型的结果更容易理解和解释。与某些复杂的机器学习模型相比,ARIMA模型的可解释性更强,这对于决策制定者和利益相关者来说是一个重要优势。
然而,需要指出的是,ARIMA模型也有其局限性,特别是在长期预测和处理具有非常复杂的数据模式时。在某些情况下,其他高级的机器学习算法和深度学习模型可能会更为适用。因此,在选择模型时,需要根据具体问题和数据特点综合考虑不同模型的优势和限制。
8. 结论与展望
党的二十大擘画了全面建设社会主义现代化国家的宏伟蓝图,并首次提出加快建设农业强国。在2022年底召开的中央农村工作会议上,党中央着眼全面建成社会主义现代化强国战略全局,对建设农业强国、加快推进农业农村现代化、全面推进乡村振兴等一系列重大理论和实践问题作出深刻阐述,为做好新时代新征程“三农”工作提供了根本遵循和行动指南。农业强国是社会主义现代化强国的根基,推进农业现代化是实现高质量发展的必然要求。我们必须深刻领会、准确理解中央决策部署,不折不扣抓好贯彻落实,锚定建设农业强国目标,集中资源力量全面推进乡村振兴,加快农业农村现代化步伐。
加快建设农业强国是实现高质量发展的重要支撑。现代化发展过程中,农业在国内生产总值中占比下降,但农业关联的二三产业不断拓展、体量不断扩大,农业基础性战略性作用更加凸显。2022年第一产业增加值占国内生产总值的比重为7.3%,而按农业全产业链口径统计,2021年全国农业及相关产业增加值占国内生产总值的比重达到16.05%。“三农”涉及行业多、领域广、群体大,对稳增长、稳就业、稳物价都具有重要支撑作用,在扩大国内需求方面有着巨大潜力可挖。加快构建新发展格局,推动高质量发展,迫切需要通过加快建设农业强国,畅通城乡要素流动和经济循环,激活农业农村潜在的投资需求和消费动能,为拉动经济增长助力,进一步拓展我国发展的战略空间和纵深。
加快建设农业强国是筑牢国家安全根基的迫切需要。纵观世界强国发展史,一个国家要真正强大,必须要有强大的农业作支撑。作为一个人口大国和农业大国,中国要成为现代化强国,重要农产品供给、农业关键核心技术和产业链供应链等方面不能有明显短板。现代化强国的安全根基牢不牢,很重要的一个方面是看我们的农业强不强。必须统筹发展和安全,以农业之强筑牢强国之基,把“三农”这个“压舱石”夯得实之又实,真正把发展的自主权牢牢掌握在我们自己手上,为稳大局、应变局、开新局赢得战略主动。
针对本次研究,可得出结论:浙江省的农业在逐步成长,粮食产量也呈现上涨趋势,积极响应了“三农”的号召。之后,希望可以顺应时代发展,开拓市场,实现粮食农业现代化。
附录
数据