1. 引言
社会消费品零售总额直接表现了国内消费需求,反映了人们的消费水平[1]。而自2019年12月新冠肺炎确诊以来,各行各业遭受重大冲击,尤其是商品零售、餐饮业及旅游业等,社会消费品零售总额较往年同期产生大幅度的下降,我国经济面临重大的危机和挑战。
因此,本文以我国社会消费品零售总额为研究对象,运用时间序列分析理论,选择季节ARIMA模型,预测若无疫情影响下2020年各月我国社会消费品零售总额,以探究疫情对我国居民生活和社会经济产生的影响。对我国社会消费品零售总额进行合理预测,可以了解后疫情时期我国居民消费需求情况,从而结合消费需求以促进对应的生产力水平的恢复,为相关经济政策的制定提供重要的参考依据。
全景月(2013) [2]运用季节时间序列模型(SARIMA)对我国2002~2011年的社会消费品零售总额进行了时间序列分析并对2012年社会消费品零售总额进行了预测,与2012年实际数据相比较,误差较小。马强等(2020) [3]利用2001年1月至2020年5月的社会消费品零售总额月度数据,拟合季节ARIMA模型,并运用此模型预测2020年6月到12月的月度数据,将预测结果与真实值进行比较,发现结果偏差很大。例如12月预测值是35,098亿元,而真实值是40,566亿元,误差为13.47%,几乎不能有效预测。其实也很好理解,疫情对序列的正常行为产生了干预,改变了时间序列的均值函数或趋势,使得2020年1月至5月的样本观测值成为异常值,而大多数的时间序列模型没有包含对时间序列正常行为的干预影响,因此,将2020年各月数据当作样本进行拟合的模型得到的预测结果的预测精度将会很低。
本文为了避免疫情对社会消费品零售总额时间序列的干预影响,选用疫情暴发前即2020年1月前的数据当作样本,对其建立SARIMA模型表示未受扰的过程,并预测若无疫情影响下的2020年各月我国社会消费品零售总额,并将其与真实值进行比较,分析疫情对我国经济造成的影响。
2. 季节性时间序列理论概述
2.1. 乘积季节模型
在实际生活中,大部分时间序列中的趋势效应、季节效应等各种效应之间的关系都不能简单地用加法来表示,通常它们之间相互交织、相互影响,存在着复杂的交互效应,此时需要采用乘积季节模型。
乘积季节模型通常表示为ARMA(p, q)和ARMA(P, Q)的乘积形式,其中ARMA(p, q)模型用于提取序列中的短期相关性,即将序列中的趋势信息运用ARMA模型建模方法进行拟合;ARMA(P, Q)模型用于提取序列中的季节性信息,即将序列中的季节性信息运用ARMA模型建模方法进行拟合,其乘积形式表示它们之间的交互效应。
综合前面的d阶趋势差分和D阶以周期S为步长的季节差分运算,乘积季节模型通常表示如下:
(1)
式中,
该乘积模型简记为
。
2.2. SARIMA模型建模
2.2.1. 数据的平稳性检验
图检验法是常用的一种方法,优点是简便易操作,结合序列的时序图和自相关图,根据它们的特征就能进行分析判断,如一个序列有明显的趋势或强烈的季节性波动,往往可以判断它是非平稳时间序列,缺点是带有强烈的主观性,在时序图或自相关图的特征不是很明显的情况下,容易造成错误的判断。
单位根检验也是常用的一种方法,有DF检验与ADF检验。两种检验的原假设均为序列非平稳,备择假设为序列平稳,即给定一个显著性水平α,若P值 < α,则可以判断序列平稳;反之,可以判断序列非平稳。
Cramer分解定理在理论上证明了适当的差分可以将任何一个非平稳序列转化为平稳序列[4]。因此,对于没有通过平稳性检验的非平稳序列,差分运算是一种有效的将非平稳序列转化为平稳序列的处理工具。
当序列标准差与水平值成正比,则对数变化也能有效使序列变为平稳序列[5]。拟合ARIMA模型需要残差序列满足方差齐性的假设,而在一些经济序列中,它们常常不能满足这个假设,而对数变换能有效消除序列的方差齐性,因此对数变换被广泛地用于对经济数据的时间序列建模中。
2.2.2. SARIMA模型的识别、估计和检验
对于SARIMA模型的识别和参数估计采用Box-Jenkins方法。该方法需要计算出序列的样本自相关系数和偏自相关系数的值。
样本自相关系数可由如下公式求得:
(2)
样本偏自相关系数可根据样本自相关系数求得,如下所示:
(3)
式中,
表1总结了在模型识别中有用的自相关和偏自相关函数的特征。通过观察函数再结合下表,可以选择恰当模型进行拟合。
Table 1. General characteristics of ACF and PACF in the ARMA model
表1. ARMA模型中ACF和PACF的一般特征
|
AR(p) |
MA(q) |
ARMA(p, q), p > 0, q > 0 |
ACF |
拖尾 |
滞后q阶后截尾 |
拖尾 |
PACF |
滞后p阶后截尾 |
拖尾 |
拖尾 |
当模型识别结束,接下来就需要对识别模型的参数进行估计,参数估计常用矩估计法、最小二乘估计及极大似然估计。矩估计通常而言是其中最简单的方法,运用样本均值估计平稳过程的均值,但此过程很多情况下不能充分提取样本的信息,因此,估计结果往往不够有效,使得估计结果不那么令人满意。
相比于矩估计只运用了一阶矩信息,最小二乘估计充分利用了样本的一阶矩和二阶矩信息,它实质是使得序列的残差平方和达到最小,因此,最小二乘估计往往比矩估计方法更有效。
然而,在更一般的条件下,最小二乘估计也未必能足够充分地提取有效信息,而极大似然估计能有效地保证这一点,但是运用极大似然估计需要样本的联合概率密度函数。
对模型进行识别,对选取模型选择合适的参数进行估计之后,需要对模型进行诊断,检验该模型的拟合程度,判断该模型的好坏,如果未能通过检验,则需要重新选择模型或对该模型进行调整。模型诊断有两种常用的思路,一是分析模型的残差,对残差进行显著性检验,即检验残差序列是否为白噪声序列,若是,则说明该模型已经充分提取样本中包含的信息,二是分析该模型是否拟合过度,即如果存在一个更为简洁且效果更好的模型,那么原模型则过度拟合。
Pierce (1970)提出Q统计量对残差序列进行纯随机性检验,也称白噪声检验[6]。Q统计量计算公式如下:
(4)
其中,T为时间序列观测值的个数,K为自相关系数的个数,
为残差的样本自相关系数。当样本量n足够大时,Q统计量近似服从
分布,其中p为ARMA模型中的自回归阶数,q为移动平均阶数。对于给定的显著性水平
,其判别规则如下:
若
,则模型拟合合适,可以进行下一步预测。
若
,则模型拟合不合适,应进行改善修正。
判断模型是否拟合过度,则需要对参数进行显著性检验,参数的显著性检验运用
统计量,
统计量定义为参数估计值除以参数标准差,若检验统计量
值小于给定显著性水平
,则拒绝原假设认为参数显著,反之,认为参数不显著。
2.2.3. 模型预测
时间序列建模的目的通常是运用拟合模型进行预测。目前最小均方误差预测是对平稳序列最常用的预测方法[7]。
基于序列可获得的直到时间
的历史数据,即
,预测未来
期的值
,称时间
为预测起点,
为预测前置时间,而用
代表预测值。
最小均方误差预测如下:
(5)
3. 我国社会消费品零售总额的分析预测
3.1. 数据的来源
本文研究对象为我国社会消费品零售总额,根据国家统计局官方网站公布数据,本文选取其中2000年1月至2020年12月的共计234个样本值的月度数据。样本中共234个样本观测值,其中2012年至2020年每年的1月和2月的月度数据官网并未给出,当序列有缺失值时,我们通常会通过插值的方法对缺失值进行插补。在时间序列分析中,最常用的插值法是简单的线性插值法和样条插值法,因此可以使用R语言中的zoo程序包对原始数据进行线性插值,得到一个完整的样本数据,此时,样本共有253个样本观测值,其中2000年1月至2019年12月的241个月度数据为预干预数据,即此数据未受疫情的干预影响,该序列记为
,2020年1月至12月的12个月度数据为干预数据,即此数据受到疫情的干预影响。
3.2. 数据的预处理与分析
使用R语言,绘制时间序列的时序图(见图1)。
Figure 1. Time series diagram of the monthly data of China’s total retail sales of social consumer goods
图1. 我国社会消费品零售总额月度数据时序图
由图1可以看出,2000年至2019年我国社会消费品零售总额呈现快速增长的趋势,2020年初出现较大的跌落,而后快速回升,并且近十年来出现越来越明显的季节性波动。
社会消费品零售总额的不断增长有多方面的原因。步入21世纪,城市人口增加,城镇化比例提高,居民生活水平提高,消费能力也随之提高。近十年来,增长尤为迅速,与网络消费的蓬勃发展息息相关。
3.3. 模型的建立
时序图图1显示社会消费品零售总额序列有明显的上升趋势,且季节性波动强烈,随着时间的变化季节性更为明显。取对数化1阶12步差分之后序列趋势信息和季节信息被充分提取,并且呈现出平稳特征。接下来观察自相关图(图2)和偏自相关图(图3)的特征,选取合适模型进行拟合,差分后序列的自相关图和偏自相关图都不截尾,表现出拖尾属性,所以运用加法季节模型ARIMA(1, (1, 12), 1)进行拟合。
Figure 2. Sequence autocorrelation plot of the sequence after logarithmicization of the first-order difference
图2. 对数化1阶差分后序列自相关图
Figure 3. Partial autocorrelation plot of the sequence after logarithmicization of the first-order difference
图3. 对数化1阶差分后序列偏自相关图
模型拟合完成之后,先进行模型诊断,检验模型的拟合优度,利用LB (Ljung-Box)检验统计量对残差序列进行白噪声检验,检验该模型是否将有关信息充分提取。白噪声检验结果见表2,若给定一个显著性水平0.0.5,在延迟6阶的情况下,LB统计量值为12.317,P值略微大于0.05,而在延迟12阶的情况下,LB统计量值为125.77,P值显著小于0.05,可以认为残差序列属于非白噪声序列,说明该模型没有充分提取相关信息。因此,加法季节模型并不适合拟合这个序列。
Table 2. Significance test (Ljung-Box test) results of the additive seasonal model
表2. 加法季节模型的显著性检验(Ljung-Box检验)结果
LB检验统计量 |
延迟阶数 |
P值 |
12.317 |
6 |
0.05526 |
125.77 |
12 |
2.2e−16 |
加法季节模型不适合拟合该序列,说明该序列的各效应之间不是简单的加法关系,并不是相互独立存在的,而是存在着复杂的交互效应,不能简单地分开。因此,需要考虑乘积季节模型,对于这种复杂情况,乘积季节模型能够有效地进行拟合。
首先考虑序列的短期相关性,确定ARMA(p, q)中的参数p、q。观察自相关图(图2)和偏自相关图(图3),发现12阶以内的自相关系数没有趋向于零,呈现拖尾性,偏自相关系数具有较大波动,也呈现拖尾性,根据表1 ARMA模型中ACF、PACF的一般特征,可以判断使用ARMA(1, 1)模型提取差分后序列的短期自相关信息。
再考虑序列的季节效应,确定ARMA(P, Q)中的参数P、Q。自相关图(图2)显示延迟12阶自相关系数显著非零,延迟24阶自相关系数也显著非零,其余都落入2倍标准差范围内,自相关系数拖尾。而偏自相关图(图3)显示延迟12阶显著非零,但延迟24阶的偏自相关系数落入2倍标准差范围内,偏自相关系数截尾。根据表1 ARMA模型中ACF、PACF的一般特征,可以判断使用以12步为周期的
模型提取差分后序列的季节自相关信息。
由于上述效应间可能存在乘积效应,我们要拟合的乘积模型为
。残差序列的白噪声检验见表3,延迟12阶情况下,检验统计量的值为7.8787,若给定一个显著性水平为0.05,则P值大于0.05,该拟合模型显著成立。
Table 3. Significance test (Ljung-Box test) results of the multiplication seasonal model
表3. 乘法季节模型的显著性检验(Ljung-Box检验)结果
LB检验统计量 |
延迟阶数 |
P值 |
5.914 |
6 |
0.4329 |
7.8787 |
12 |
0.7945 |
综合上述分析,我们要拟合的乘积模型为
。
根据表4拟合输出结果,拟合模型为:
Table 4.
model parameter estimation results
表4.
模型参数估计结果
系数 |
ar1 |
ma1 |
sar1 |
|
0.0699 |
0.4807 |
0.4293 |
σ估计 |
0.1349 |
0.1140 |
0.0589 |
3.4. 模型的预测
在确定最优模型以后,将2000年1月至2018年12月数据作为样本观测值,运用以上分析确定的最优模型
对2019年各月份的社会消费品零售总额进行预测,预测结果见表5,并与2019年1月至12月真实数据值进行比较,计算出相对误差,相对误差均不超过3%,因此该模型拟合程度很高。
Table 5. Comparison of the forecast value and the real value of total retail sales of social consumer goods in 2019
表5. 2019年社会消费品零售总额预测值与真实值比较
时间 |
预测值/亿元 |
真实值/亿元 |
相对误差 |
2019年1月 |
34242.9 |
34504.2 |
1% |
2019年2月 |
32517.2 |
33115 |
2% |
2019年3月 |
30785.2 |
31725.7 |
3% |
2019年4月 |
30114.9 |
30586.1 |
2% |
2019年5月 |
32235.8 |
32955.7 |
2% |
2019年6月 |
32693.4 |
33878.1 |
3% |
2019年7月 |
32536.2 |
33073.3 |
2% |
2019年8月 |
33365.1 |
33896.3 |
2% |
2019年9月 |
33898.6 |
34494.9 |
2% |
2019年10月 |
37621.2 |
38104.3 |
1% |
2019年11月 |
37390.7 |
38093.8 |
2% |
2019年12月 |
38068.7 |
38776.7 |
2% |
根据上述分析,我们有把握认为将2000年1月至2019年12月数据作为样本,运用
模型对2020年1月至12月数据进行预测,能够有效预测若无疫情等特殊状况影响下的2020年各月社会消费品零售总额。
为此,我们运用此模型预测若无疫情等特殊因素干扰下的2020年各月社会消费品零售总额(见表6)。
Table 6. Forecast value of total retail sales of social consumer goods for each month in 2020
表6. 2020年各月社会消费品零售总额预测值
时间 |
预测值/亿元 |
2020年1月 |
37013.3 |
2020年2月 |
35267.9 |
续表
2020年3月 |
33521.1 |
2020年4月 |
32511.9 |
2020年5月 |
34837.3 |
2020年6月 |
35630.9 |
2020年7月 |
35092.5 |
2020年8月 |
35987.2 |
2020年9月 |
36576.7 |
2020年10月 |
40492.2 |
2020年11月 |
40351.1 |
2020年12月 |
41075.3 |
3.5. 结果分析
对数据进行形象化处理,进行更直观的展示,如下图4所示,其中红色实线为真实值,蓝色虚线为模型拟合值。我们发现2000年至2019年红色实线和蓝色虚线几乎重叠,因此该模型拟合程度相当高,而2020年的巨大偏差也符合新冠肺炎疫情对社会消费品零售总额造成巨大影响的背景。
Figure 4. Fitting and forecasting chart of total retail sales of social consumer goods
图4. 社会消费品零售总额序列拟合与预测图
结合图4的2019年我国社会消费品零售总额月度数据的变化趋势,2020各月的预测值与2019年各月真实值变化趋势相符。容易看出2020年1月至3月社会消费品零售总额真实值与预测值的偏差快速扩大,3月至5月偏差逐渐缩小,5月至7月偏差相对稳定且适中,8月至12月偏差相对较小(见表7)。总体来说,上半年预测值与真实值偏差较大,下半年偏差较小,年底近乎拟合较好。
Table 7. Comparison of the forecast value and the real value of total retail sales of social consumer goods in 2020
表7. 2020年社会消费品零售总额预测值与真实值比较
时间 |
预测值/亿元 |
真实值/亿元 |
偏差/亿元 |
相对误差 |
2020年1月 |
37013.3 |
34667.7 |
2345.6 |
7% |
2020年2月 |
35267.9 |
30558.8 |
4709.07 |
15% |
2020年3月 |
33521.1 |
26449.9 |
7071.23 |
27% |
2020年4月 |
32511.9 |
28177.8 |
4334.14 |
15% |
2020年5月 |
34837.3 |
31972.8 |
2864.53 |
9% |
2020年6月 |
35630.9 |
33525.9 |
2104.96 |
6% |
2020年7月 |
35092.5 |
32202.5 |
2890 |
9% |
2020年8月 |
35987.2 |
33570.6 |
2416.61 |
7% |
2020年9月 |
36576.7 |
35294.7 |
1281.99 |
4% |
2020年10月 |
40492.2 |
38576.5 |
1915.66 |
5% |
2020年11月 |
40351.1 |
39514.2 |
836.92 |
2% |
2020年12月 |
41075.3 |
40566 |
509.32 |
1% |
综合上述分析,我们可以看出,疫情在3月份对社会消费品零售总额造成最大影响,使社会消费品零售总额较原预期值减少约7071亿元,疫情造成的较大影响集中在2020年上半年,并且呈现出先增大后减小的趋势,而在8月以后,疫情造成的影响几乎很小,因此,2020年新冠肺炎疫情总体上对社会消费品零售总额产生了短期的影响,也符合实际结果。但社会消费品零售总额真实值始终小于预测值,表明虽然疫情得到了有效控制,但它造成的影响却依然长期存在。
4. 总结与展望
本文研究对象是我国社会消费品零售总额,以国家统计局公布的2000年1月至2019年12月社会消费品零售总额月度数据为预干预数据,根据时间序列理论应用季节性ARIMA模型对此时间序列进行分析。根据自相关图和偏自相关图进行模型识别,并通过残差单位根检验确定最优模型
,并运用此模型对2019年的各月社会消费品零售总额进行预测,从预测结果来看,拟合值与真实值相差无几,相对误差基本在3%以下,预测精度较高。因此,有把握认为运用此模型能有效预测若无疫情影响下的2020年各月社会消费品零售总额,并将预测结果与真实值进行分析,量化疫情对社会消费品零售总额产生的影响。结果发现,疫情对社会消费品零售总额的最大影响是在3月份,总体上而言,对2020年上半年影响较大,而下半年随着疫情好转,社会消费品零售总额受到的影响逐渐减小。
目前,对社会消费品零售总额预测的研究大多是对这个总指标进行研究,而社会消费品零售总额有多种分法,如线下消费和线上消费、餐饮收入和商品零售等。近十年来,互联网产业的蓬勃发展极大地促进了人们的线上消费,网络零售在零售业中占据越来越重要的地位。如2020年初疫情严重暴发时,人们减少外出,传统零售业遭受严重打击,而线上销售影响相对较小,甚至某些行业发展愈发蓬勃,如线上教育等。通过对线下消费和线上消费等方面的合理预测,可以为我国有关部门制定相应的政策提供一些依据,使经济向更好的方向发展。因此,对社会消费零售总额的分类预测的研究将是未来本文分析和研究的一个方向。