基于SARIMA模型的河北省居民人均消费性支出预测
Prediction of Per Capita Consumer Expenditure in Hebei Province Based on SARIMA Model
DOI: 10.12677/SA.2023.121020, PDF, HTML, XML, 下载: 191  浏览: 311 
作者: 杨晓彤:云南财经大学统计与数学学院,云南 昆明
关键词: SARIMA模型居民消费性支出消费预测SARIMA Model Consumer Expenditure of Residents Consumption Forecast
摘要: 本文基于2013年第1季度~2022年第3季度河北省居民消费性支出的季度数据,利用Rstudio软件进行分析,以2013第1季度~2021年第4季度的数据为训练集,以2022年的数据为测试集。原始序列为非平稳序列,1阶4步差分后,序列趋于平稳,故采用SARIMA加法模型进行预测,并根据AIC信息准则确定模型的拟合效果最优,且其预测结果通过了显著性检验,能够为各级政府提出平衡供需市场的策略提供一定的参考价值。
Abstract: Based on the quarterly data of consumer spending of residents in Hebei Province from the first quarter of 2013 to the third quarter of 2022, this paper uses Rstudio software for analysis, taking the data from the first quarter of 2013 to the fourth quarter of 2021 as the training set, and the data from 2022 as the test set. The original series is non-stationary, and the series tends to be stable after the first order four-step difference, so the SARIMA additive model is used for prediction, and the fitting effect of the model is determined to be the best according to AIC information criteria, and the prediction results have passed the significance test, which can provide a certain reference value for governments at all levels to propose strategies to balance the supply and demand market.
文章引用:杨晓彤. 基于SARIMA模型的河北省居民人均消费性支出预测[J]. 统计学与应用, 2023, 12(1): 186-195. https://doi.org/10.12677/SA.2023.121020

1. 研究背景

在畅通国内国际双循环的背景下,准确预测居民消费现状和发展趋势,适时调整制定合理的消费战略和政策,促进扩大内需是做大做强国内大循环的关键。居民人均消费性支出作为反映居民生活水平的指标,在一定程度上能够反映居民的需求情况。供需市场面临多方冲击并不是封闭的,如何在短期中预测居民消费性支出,怎样才能选择最优的预测,是弄清居民消费需求现状、促使国内供需平衡、做好国内大循环的重要前提。

2022年前三季度,河北省居民人均消费性支出为30160元,位于我国各省、直辖市、自治区以特别行政区的中等水平,因此以河北省居民消费性支出为研究对象具有一般代表性。

2. 文献综述

目前,已有许多学者对居民消费支出的发展规律展开了详细的研究,根据研究方法的不同,主要可分为时间序列模型和非时间序列模型两类。

关于非时间序列模型对居民消费支出的发展规律的研究,封永刚等 [1] 构建重庆市1997~2010年农村居民人均消费支出的灰色预测模型,采用灰色关联分析法进行分析研究,发现GM(1,1)模型无论从精度还是有效度考虑都可以很好地预测农村居民消费支出;夏法刚 [2] 利用灰色预测法对福建省1993~2008年农村居民人均实际消费支出进行研究,证实了GM(1,1)模型同样适用于福建省农村居民消费情况的预测;陶晓婷 [3] 选取1981~2015年的网络数据,分别使用Lasso、A-Lasso、E-Net、AE-Net、BP神经网络、A-Lasso和BP神经网络的组合模型以及AE-Net和BP神经网络的组合模型对城镇居民消费支出进行预测,并比较他们之间的预测效果,研究结果显示组合模型的预测结果比四种单一的Lasso类方法和BP神经网络的预测结果更接近真实值,对比两个组合模型,AE-Net和BP神经网络的组合模型的预测结果更胜一筹;郭倩和王效俐 [4] 以1995~2015年的中国农村居民人均生活消费统计数据为研究对象,采用Matlab软件构建了基于BP网络的生活消费预测模型,通过预测误差分析可知,该模型可较为准确的预测生活消费趋势。

通过对这些文献的梳理,可以发现学者们在对消费支出的预测中,无论是选择灰色预测还是Lasso类方法,亦或是BP神经网络,虽然其预测结果都较为理想,但这类非时间序列模型建模过程较为复杂,预测结果的时效性不太理想。然而,时间序列模型凭借其通俗易懂、建模轻松、中短期预测卓有效果的特点在研究此类问题中占有一定优势。

关于时间序列模型对居民消费支出的发展规律的研究,李洪雄和汪浩瀚 [5] 选取1978~2007年的GDP、CPI以及居民消费支出为样本,分别构建了向量自回归模型和向量误差修正模型对生产总值和居民消费支出进行预测,结果显示VECM模型的预测值比VAR模型的预测值更接近实际值;曹飞 [6] 选取1980~2007年云南农村居民人均消费支出为样本,通过构建自回归移动平均模型对云南农村居民消费支出进行预测,综合比较ARIMA(3,1,0)模型和ARIMA(3,1,1)模型,发现ARIMA(3,1,0)模型的预测结果更为理想;王妍婷 [7] 构建ARIMA模型对湖北省1980~2014年城镇居民人均消费支出进行研究,综合比较ARIMA(1,1,1)模型、ARIMA(1,1,0)模型和ARIMA(0,1,1)模型,发现ARIMA(1,1,1)模型的拟合优度最高、AIC值最低,说明ARIMA(1,1,1)模型对湖北城镇居民消费支出的预测效果更理想;石捡情和杨世娟 [8] 选取2009年1月到2017年4月的每月居民消费价格指数为研究对象,构建ARIMA模型进行研究,发现ARIMA(4,1,1)模型的预测效果理想;刘忠广和刘德欣 [9] 以1980~2014年河南省城镇居民人均消费支出为实验组构建ARIMA疏系数模型进行预测,以2015~2018年的数据为对照组检验模型预测效果,研究表明ARIMA(4,2,1)模型能够较好地预测河南城镇居民的消费趋势。

综上所述,已经有较多学者利用包括时间序列模型在内的各类模型对居民消费进行了预测研究,但考虑季节因素的研究微乎其微,对河北省居民消费支出的研究也寥寥无几。因此,本文在前人研究的基础上,利用SARIMA模型对河北省居民人均消费性支出进行短期预测分析。

3. 理论方法介绍

3.1. 单位根检验

检验序列的平稳性是构建ARIMA模型的必要环节,序列平稳可以避免伪回归的出现,模型的构建才有意义。一般可以利用时序图、自相关图和偏自相关图对序列的平稳性进行初步判断,也可以运用ADF检验进一步判断序列的平稳性 [10] 。主要包含三种类型的模型:

无漂移项无趋势项模型:

Δ x t = δ x t 1 + i = 1 m β i Δ x t 1 + ε t

有漂移项无趋势项模型:

Δ x t = α + δ x t 1 + i = 1 m β i Δ x t 1 + ε t

有漂移项有趋势项模型:

Δ x t = α + β t + δ x t 1 + i = 1 m β i Δ x t 1 + ε t

原假设为H0 δ = 0 ,表示序列至少存在一个单位根,当ADF检验的统计值小于临界值或其对应的P值小于显著性水平,则拒绝原假设,认为所检验序列平稳。

3.2. 季节性差分自回归移动平均(SARIMA)

求和自回归移动平均模型是差分运算与ARMA模型的结合物,用来拟合初始非平稳经过差分后呈现平稳特征的数据,简记为ARIMA(p,d,q),其中p和q的含义与ARMA模型一致,d表示序列差分的阶数。ARIMA模型的具体形式为:

( 1 i = 1 p φ i B i ) ( 1 B ) d X t = ( 1 + i = 1 q θ i B i ) ε t

其中, X t 为原始序列,B为滞后算子, ε t 为白噪声序列。

SARIMA模型是对ARIMA模型的扩展,它在ARIMA模型的基础上提取季节效应,本文采用的是SARIMA加法模型,故主要对加法模型进行介绍。

SARIMA加法模型的基本原理是将序列的总效应分解为长期趋势效应、循环波动效应、季节性变化效应和随机波动效应,四者以累加的形式反映模型的总体趋势,即 x t = T t + C t + S t + I t ,其中, T t 为长期趋势效应、 C t 为循环波动效应、 S t 为季节性变化趋势、 I t 为随机波动趋势。若原序列趋势性和周期性并存,可记为 SARIMA ( p , d , q ) ( P , D , Q ) s 模型,其中p、d、q的含义与ARIMA一样,P、Q分别表示季节的自回归阶数和移动平均阶数,D为代表季节差分阶数。SARIMA模型的具体形式为:

φ p ( B ) Φ p ( B s ) ( 1 B ) d ( 1 B S ) D X t = θ q ( B ) Θ Q ( B S ) ε t

式中, ( 1 B S ) D 为季节性差分。

3.3. 参数估计方法

本文采用极大似然估计法进行估计:

L ( β ^ 1 , β ^ 2 , , β ^ k ; x 1 , x 2 , , x n ) = max { p ( x 1 , x 2 , , x n ) ; β ^ 1 , β ^ 2 , , β ^ k }

一般情况下时间序列所服从的正态分布是未知的,因而首先假定序列服从多元正态分布:

x t = ϕ 1 x t 1 + + ϕ p x t p + ε t θ 1 ε t θ q ε t q

其中, x ¯ = ( x 1 , x 2 , , x n ) β ¯ = ( ϕ 1 , , ϕ p , θ 1 , , θ q ) n = ( x ˜ x ˜ ) = Ω σ ε 2

对数似然函数为:

ln ( x ˜ , β ˜ ) = n 2 ln ( 2 π ) n 2 ln ( σ ε 2 ) n 2 | Ω | n 2 σ ε 2 ln [ x ˜ Ω x ˜ ]

求偏导,得到方程组:

{ σ ε 2 ln ( x ˜ , β ˜ ) = n 2 σ ε 2 + s ( β ˜ ) 2 σ ε 4 = 0 β ˜ ln ( x ˜ , β ˜ ) = 1 2 ln | Ω | β ˜ + 1 σ ε 4 s ( β ˜ ) 2 β ˜ = 0

式中, s ( β ˜ ) = x ˜ Ω 1 x ˜

3.4. 模型检验

3.4.1. 模型显著性检验

检验残差序列是否为白噪声。

H0: ρ 1 = = ρ m = 0 m > 1 ;H1:至少存在某个 ρ k 0 1 k m

检验统计量为:

L B = n ( n + 2 ) k = 1 m ρ k 2 ^ n k ~ x 2 ( m )

若残差序列非白噪声,说明有效信息未被充分提取。

3.4.2. 参数显著性检验

显著性检验的主要目的是检验模型中的参数是否显著非零,假设条件:

H0: β j = 0 1 j m ;H1: β j 0 1 j m

检验统计量为:

T = n m β j ^ β j a j j Q ( β ^ ) ~ t ( n m )

4. 数据来源和处理

本文以河北省居民消费性支出为研究对象,数据选用河北省居民消费性支出水平2013年第一季度至2022年第三季度的季度数据,用变量 X t 表示,其中2013~2021年的数据用于模型构建,2022年第一季度至第三季度的数据用于检验模型的预测能力。数据全部来源于国家统计局网。

5. 河北省居民消费性支出水平实证分析

5.1. 平稳性检验

5.1.1. 时序图检验

绘制河北省居民消费性支出2013年第一季度至2021年第四季度的季度数据的时序图,通过时序图可以发现河北省居民消费性支出数据序列具有明显的线性递增趋势和季节性波动趋势,为典型的非平稳序列。从图1可以看出河北省居民消费性支出在每一年的第一季度达到谷底,在每一年的第四季度达到峰顶,且该序列每个季节的振幅相对稳定,根据该序列的季节性特征,本文以一年为季节波动周期,并选择加法函数构建因素分解模型。

Figure 1. Sequence diagram of consumer expenditure of residents in Hebei Province

图1. 河北省居民消费性支出序列时序图

对序列进行1阶4步差分后 X t 的时序图如图2所示,发现序列仍存在较为明显的周期性,初步判断一阶差分后的序列非平稳。

Figure 2. First difference time sequence diagram of consumer expenditure sequence of residents in Hebei Province

图2. 河北省居民消费性支出序列一阶差分时序图

5.1.2. 单位根检验

通过时序图初步判断原序列和一阶差分后的序列均是非平稳的,但通过时序图判断序列是否平稳具有一定的主观因素,为了更加客观地判断序列的平稳性,现利用ADF检验对1阶4步差分后的序列进行平稳性检验,检验结果如表1。该表显示,无截距无趋势、有截距无趋势、有截距有趋势的三种情况的单位根检验的P值均小于显著性水平0.05,接受序列中不含单位根的备择假设,认为一阶差分后的河北省居民消费性支出序列平稳。

Table 1. ADF value of differential sequence of consumer expenditure of residents in Hebei Province

表1. 河北省居民消费性支出差分后序列的ADF值

5.2. 随机性检验

根据上文的平稳性检验结果,原序列为非平稳序列,一阶差分后序列平稳,符合SARIMA模型序列平稳的要求。序列平稳以后还需检验其差分后是否为随机序列,因此对差分后序列进行随机性检验,检验结果如表2所示。

Table 2. Results of randomicity test

表2. 随机性检验结果

由随机性检验结果可知,河北省居民消费性支出差分后序列的P值小于显著性水平0.05,说明一阶差分后的序列在5%的显著性水平下为非纯随机序列,即差分后的序列为平稳非白噪声序列,具有研究意义,因此可以对其进行进一步的拟合研究。

5.3. 模型选择和优化

根据前文的平稳性检验,可确定SARIMA(P,D,Q)(p,d,q)模型中的D = 1,d = 1,接下来通过分析河北省居民消费性支出差分后序列自相关系数和偏自相关系数来识别可能的P、Q、p、q值。

差分后序列的自相关图和偏自相关图如图3所示,自相关系数周期上3阶截尾或拖尾,周期内既不拖尾也不截尾;偏自相关系数周期上1阶截尾,周期内拖尾。由于可尝试拟合模型选择性较多,在此仅选择P = 1、Q = 0或3,p、q的选择从低阶开始,逐渐升阶,对比各模型的AIC值,以确定最优模型。现尝试拟合模型 SARIMA ( 1 , 1 , 0 ) ( 0 , 1 , 1 ) 4 SARIMA ( 1 , 1 , 0 ) ( 1 , 1 , 0 ) 4 SARIMA ( 1 , 1 , 0 ) ( 1 , 1 , 1 ) 4 SARIMA ( 1 , 1 , 3 ) ( 0 , 1 , 1 ) 4 SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 0 ) 4 SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 SARIMA ( 0 , 1 , 3 ) ( 0 , 1 , 1 ) 4 SARIMA ( 0 , 1 , 3 ) ( 1 , 1 , 0 ) 4 SARIMA ( 0 , 1 , 3 ) ( 1 , 1 , 1 ) 4 SARIMA ( 0 , 1 , 0 ) ( 0 , 1 , 1 ) 4 SARIMA ( 0 , 1 , 0 ) ( 1 , 1 , 0 ) 4 SARIMA ( 0 , 1 , 0 ) ( 1 , 1 , 1 ) 4 。除 SARIMA ( 0 , 1 , 0 ) ( 1 , 1 , 1 ) 4 模型含非平稳季节性的AR部分,其余每个模型对应的AIC值如表3

Figure 3. Sequential autocorrelation diagram and partial autocorrelation diagram after difference of consumer expenditure of residents in Hebei Province

图3. 河北省居民消费性支出差分后序列自相关图和偏自相关图

Table 3. AIC value corresponding to SARIMA model

表3. SARIMA模型对应的AIC值

表3中可以发现, SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型的AIC值最小,故该模型能够较好地拟合河北省居民消费性支出序列。

5.4. 参数估计

SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型参数拟合结果如表4。在5%的显著性水平下,大多参数为显著的,仅MA(2)和MA(3)未通过显著性检验。

Table 4. AIC value corresponding to SARIMA model

表4. SARIMA模型对应的AIC值

模型展开式可写为:

( 1 0.5733 B ) ( 1 0.9999 B 4 ) ( 1 B ) ( 1 B 4 ) X t = ( 1 + 0.4580 B + 0.2350 B 2 + 0.2800 B 3 ) ( 1 + 0.9732 B 4 ) ε t

5.5. 模型检验

图4中左下角为残差序列白噪声检验图,可以看到该序列所有延迟阶数的纯随机性检验的P值都在0.05显著性参考线之上,故可以认为该模型显著成立;图4中右下角为残差序列正态性检验QQ图,可以发现正态分布的分位数与样本分位数构成的点大致密集地分布在对角线左右,可认为该序列近似服从正态分布。

Figure 4. Significance test of differential post-series fitting model of consumer expenditure in Hebei province

图4. 河北省居民消费性支出差分后序列拟合模型显著性检验

5.6. 序列预测

利用得到的最优模型 SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型预测2022~2023年的河北省居民消费性支出,可以得到预测支出如表5,其中利用2022年第一季度至第三季度的消费性支出进行拟合预测,预测值与实际值的走势如图5,其中相对误差为预测值和实际值的差与实际值之比。

Table 5. Forecast results of consumer expenditure of residents in Hebei Province

表5. 河北省居民消费性支出预测结果

Figure 5. Effect Chart of Residential Consumption Expenditure Forecast in Hebei Province

图5. 河北省居民消费性支出模型预测效果图

表5图5可以看出, SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型拟合2022年第1季度至第3季度数据的相对误差大多较小,只有第2季度的误差超过了5%,拟合效果欠佳,其余季度的误差均控制在2%以内,2022年前三个季度的平均误差为2.71%,预测值与真实值基本吻合,拟合效果较好,因此可以证明该模型用于拟合河北省居民消费性支出的合理性。图5所示的居民消费性支出预测效果图显示,预测值的走势与原序列基本一致,说明 SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型拟合效果较优。

6. 总结与展望

本文以2013年第1季度~2022年第3季度河北省居民消费性支出序列作为分析,通过时序图发现该序列具有明显的周期性和上升趋势,对该序列进行1阶4步差分后,序列趋于平稳。依据自相关图和偏自相关图,初步确定预拟合模型,对比这些模型的AIC值,最终选择预测效果最优的 SARIMA ( 1 , 1 , 3 ) ( 1 , 1 , 1 ) 4 模型。继而用该模型对2022年前3个季度进行预测,将预测结果对比2022年第1季度、第2季度和第3季度的河北省居民消费性支出数据(分别为5474、9743、14943),发现最大相对误差为5.58%,最小相对误差为0.88%,平均预测误差为2.71%,表明该模型对河北省居民消费性支出有较好的预测效果。

本文在对居民消费性支出的预测中,采用的是河北省2013年~2022年的季度数据,预测结果对河北省更具参考价值。但居民消费性支出发展趋势的特征在各省、直辖市、自治区以特别行政区具有一定共性,因此针对各个地域的具体数据,采用合适的模型进行预测,促使“供”、“需”联动,更好发挥消费的需求效应对经济增长的拉动作用,助力国内大循环向更加强劲可持续的方向发展。

参考文献

[1] 封永刚, 郭薇, 张俊亮. 重庆农村居民消费支出的灰色预测及关联度分析[J]. 重庆理工大学学报(社会科学), 2012, 26(11): 40-46.
[2] 夏法刚, 刘飞翔, 肖锦元. 基于灰色预测法的福建农村居民人均消费研究[J]. 科技和产业, 2010, 10(11): 107-113.
[3] 陶晓婷. Lasso类方法与BP神经网络在城镇居民消费支出预测中的应用[D]: [硕士学位论文]. 桂林: 桂林理工大学, 2017.
[4] 郭倩, 王效俐. 基于BP神经网络的农村人均生活消费预测[J]. 商业经济, 2018(2): 80-83.
[5] 李洪雄, 汪浩瀚. 向量自回归模型与向量误差修正模型预测功能的比较——基于我国国内生产总值和居民消费支出变量的实证研究[J]. 宁波大学学报(理工版), 2011, 24(2): 119-123.
[6] 曹飞. ARIMA模型在云南省农村居民人均消费预测中的应用[J]. 安徽农业科学, 2009, 37(30): 14923-14925.
[7] 王妍婷. ARIMA模型在湖北省城镇居民人均消费预测中的应用[J]. 湖北工业职业技术学院学报, 2017, 30(3): 67-70.
[8] 石捡情, 杨世娟. 我国居民消费价格指数时间序列预测——基于ARIMA模型的分析[J]. 科技资讯, 2017, 15(33): 35-36+40.
[9] 刘忠广, 刘德欣. 河南省城镇居民人均消费支出预测[J]. 北方经贸, 2020(3): 31-33.
[10] 王燕. 时间序列分析——基于R(第2版) [M]. 北京: 中国人民大学出版社, 2020.