1. 引言
GDP (国内生产总值),是一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。重庆是国家中心城市,是西部大开发的重要战略支点、处在“一带一路”与长江经济带的联结点上,还有成渝地区双城经济圈、西部陆海新通道等国家战略部署“加持”,区位优势明显、战略意义重大。由此可见,重庆重要的政治地位和地理位置对西部经济的发展起到了很重要的作用。目前有很多学者已经尝试使用各种模型对重庆GDP的年度数据进行分析和预测,但缺乏对GDP季度数据的分析,因而不能及时反映国家经济变化。季节波动的存在是许多经济现象的主要特征之一,在经济分析中不能被忽视或消除因此从重庆GDP的季度数据出发,分析其季节特征,并及时预测未来变化是非常重要的。本文建立多元的回归模型SARIMA模型分析重庆GDP季度数据的内在因素,并且对GDP进行短期预测。
差分自回归移动平均(differential autoregressive moving average, ARIMA)模型是由美国统计学家Box和英国统计学家Jenkins于20世纪70年代初提出的时间序列分析、预测和控制的方法,又称Box-Jenkins法,主要用于拟合具有平稳性或者可以被转换为平稳序列的时间序列。可以通过序列的规律性变化,利用过去值和现在值预测未来值。但是,当时间序列中有明显的时间趋势和季节性变化时,使用ARIMA模型进行分析及预测往往预测结果不理想。因此出现了季节性ARIMA模型,一特殊的季节模型如下式所示:
S为时间序列的周期(periodicity of the series),at为序列的白噪声(a white noise series),
、|
[1]。
2. 本文模型的资料来源和建模过程
本文的重庆GDP数据来自于中国统计年鉴1998Q1~2021Q3的GDP季度数据。
首先对所要建模的GDP季度数据进行一期差分。一期差分后的ACF显示高度的季节性相关特征,所以进行一次4期差分。一次4期差分后的ACF图呈现下降形态,但下降依然缓慢,可能存在单位根。用使用urca程序包中ur.df函数进行检验式的判断与单位根的检验,发现即一次4期差分后GDP时间序列是平稳的。
用TSA程序包的eacf来计算样本的EACF值,估计可能的p、q值。从样本EACF图可以看到一个明显的倒三角区域,其左上方断点在AR = 4与MR = 4 (相当于4期季节性一阶SMA 1)处,再结合ACF图与PACF图所看到的图形形态,可以试着用SARIMA(4, 0, 0) × (0, 1, 1)4,最后用程序选择多个p、q、P、Q,用AIC最小的准则,选取最佳模型。
用ACF图和Ljung-box统计量检验残差是否符合白噪声,以确定模型是否合适与充分。
用拟合值(原始序列值 + 残差)的算法,将所有观察值的拟合值算出,并跟原始数列比较来检验模型的可靠性 [1]。
利用所建模型,预测2021的3个季度GDP与实际值进行比较可看到来检验模型的预测性能。
3. ARIMA模型对重庆GDP的预测及实证结果分析
对重庆1998Q1~2021Q3年95个GDP季节数据进行分析,为了检验模型的预测能力,现在选取前92个GDP季节数据即1998Q1~2020Q3用来建模,利用所建模型预测后2021的3个季度GDP与实际值进行比较来检验模型的预测能力。
3.1. 数据平稳性检验与处理
根据1998Q1~2021Q3的重庆GDP数据,画出时间序列图如图1所示。

Figure 1. Time series of Chongqing quarterly GDP from 1998Q1 to 2020Q4
图1. 重庆季节GDP时间序列图1998Q1~2020Q4

Figure 2. ACF of Chongqing quarterly GDP
图2. 重庆季节GDP的ACF图
从图1中可以看出,GDP的季节时间序列图呈周期性和季节性的波动,画出ACF图(图2),ACF图显示样本衰减较慢,对GDP做一阶差分。一期差分后的ACF (图3)显示,4、8、12、16、20、24、28、32期均显著不为0,下降趋势也是缓慢的,因此至少可以做一次4期(季度)的季节性差分(图4)。
一次4期差分后的ACF图(图4)呈现下降形态,但下降依然缓慢,可能存在单位根。用使用urca程序包中ur.df函数进行检验式的判断与单位根的检验。

Figure 3. ACF of the first differenced series
图3. 一期差分后的ACF

Figure 4. ACF of the seasonally differenced series
图4. 一次季节差分的ACF
(1)
(2)
(3)
首先对带趋势项的式子即(3)中设定进行检验,原假设,检验统计量值phi3为29.2615,phi3的1%,5%,10%的显著性水平下的临界值分别为8.73、6.49、5.47,即在5%的显著性水平下拒绝原假设,认为GDP时间序列采用带趋势项的(3)式进行单位根检验是合适的。在此用检验式下单位根检验的tau3检验统计量值为−7.65,tau3的1%,5%,10%的显著性水平下的临界值分别为−4.04 −3.45 −3.15,即5%的显著性水平下拒绝原假设,认为不存在单位根,一次4期差分后GDP时间序列是平稳的。用PP.test (Phillips-perron Test)检验,也显示统计量为−65.187,p-value = 0.01,小于0.05,在5%水平下拒绝假设,即一次4期差分后GDP时间序列是平稳的。
从季节性差分一次的样本ACF (图4)和PACF图(图5)当中,可以看出差分后的序列在4期、8期的ACF和PACF值明显不等于0,并且在这些期的第5、7期等期数的ACF和PACF值明显也不等于0,因此本文建立ARMIA和季节性模型的混合模型,即SARIMA模型。

Figure 5. PACF of the seasonally differenced series
图5. 一次季节差分的PACF
3.2. 确定SARIMA模型的阶数
从上述分析得到,一次4期差分后GDP时间序列是平稳的。SARIMA阶的确定与建模。用TSA程序包的eacf来计算样本的EACF值,估计可能的p、q值 [2]。
从样本EACF图(图6)可以看到一个明显的倒三角区域,其左上方断点在AR = 4与MR = 4 (相当于4期季节性一阶SMA1)处,再结合ACF图与PACF图所看到的图形形态,可以试着用SARIMA(4, 0, 0) × (0, 1, 1)4。
为了确定最优的阶数,用程序算出各种ARIMA(p, d, q) × (P, D, Q)4模型的AIC值,选取最小的AIC值的模型。程序显示,当p = 2、q = 3、P = 1、Q = 0时AIC = 1262.761达到最小。因此确定的模型为SARIMA(2, 0, 3) × (1, 1, 0)4。
3.3. 模型的检验
模型的残差序列必须是白噪声说明模型是合适和充分的。本文利用ACF图和Ljung-box统计量检验残差是否符合白噪声。从残差的ACF图(图7)中看出样本的自相关函数值都在二倍标准差以内,说明无明显自相关。Ljung-Box统计量给出Q(12) = 5.67、Q(15) = 6.10,p值为0.46、0.41,均大于0.05,即在5%的水平下模型的残差并无显著的序列相关。从残差的ACF图和Ljung-Box统计量说明模型是合适和充分的。

Figure 7. Sample ACF of residual series
图7. 残差的ACF图

Figure 8. The fitted values (dashed line) and the actual observations (solid line) of GDP
图8. GDP的拟合值(虚线)与实际值(实线)
3.4. 拟合和预测
用拟合值(原始序列值–残差)的算法,将所有观察值的拟合值算出,并跟原始数列比较来检验模型的可靠性与准确性。图8显示模型和原始数据拟合很好,说明模型是可靠的和准确的。
利用SARIMA(2, 0, 3) × (1, 1, 0)4模型,预测2021三个季度的重庆GDP,预测结果如表所示,从表1分析可看到三个季度预测的平均误差为12.32%,模型的预测性能准确。图9显示利用R软体做出的模型3步向前预测值,即2021三个季度的重庆GDP预测值与真实值的对比以及预测值95%置信的区间预测上下线。

Table 1. Comparison of the forecasts and actual observations in SARIMA(2, 0, 3) × (1, 1, 0)4
表1. SARIMA(2, 0, 3) × (1, 1, 0)4预测值与实际值的比较

Figure 9. The forecasts (hollow circles) and actual observations (solid circles), and dashed lines show 95% interval forecasts from 2021Q1 to 2012Q3
图9. 2021三个季度的预测值(空心)与真实值(实心)及预测值95%的区间预测上下线(虚线)
4. 结语
论文1998Q1~2021Q3的重庆GDP季度数据,利用R软体建立SARIMA模型,对其分析、建模,并进行短期预测,得出以下结论:
1998Q1~2021Q3的重庆GDP季度数据呈现较为规律的以季度为周期的波动性,根据预测量可以为政府制定相应政策提供数据参考。
通过SARIMA模型拟合1998Q1~2021Q3的重庆GDP季度数据发现模型SARIMA(2, 0, 3) × (1, 1, 0)4能很好地拟合数据,并且预测精度较高。预测值与实际值的平均相对误差为12.32%。
SARIMA模型是在原有ARIMA模型基础上加入时间序列的季度变化而形成的一种短期预测模型。该模型的缺点是突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界因素发生较大变化,往往会有较大偏差,另外随着时间的增长,预测能力下降 [3]。
参考文献