基于ARIMA-Holt指数平滑模型的短期居民消费指数预测
Short-Term Consumer Index Prediction Based on ARIMA-Holt Index Smoothing Model
DOI: 10.12677/AAM.2020.98141, PDF, HTML, XML, 下载: 530  浏览: 994  科研立项经费支持
作者: 赵 晗, 孙德山:辽宁师范大学数学学院,辽宁 大连
关键词: CPIARIMA模型Holt指数平滑短期预测CPI ARIMA Model Holt Exponential Smoothing Short-Term Forecast
摘要: 以上海市2008~2017年10年间居民消费指数(CPI)的月度历史数据为样本,采取时间序列检验方法对其进行了相关分析,建立了ARIMA模型。同时利用多种不同预测方法对2018年第一季度上海市居民消费指数水平进行预测,结果表明:上海市居民消费指数具有明显的趋势性,且Holt指数平滑预测方法具有更优的预测能力,效果较为理想,为短期预测提供一定的借鉴。
Abstract: Taking the monthly historical data of Shanghai Consumer Price Index (CPI) for the 10-year period from 2008 to 2017 as a sample, the time series test method was used to analyze the correlation and establish the ARIMA model. At the same time, a variety of forecasting methods are used to forecast the level of Shanghai Residents’ consumption index in the first quarter of 2018. The results show that the Shanghai consumer index has a clear trend, and the Holt index smooth forecasting method has better forecasting ability, and the effect is ideal, which provides a certain reference for short-term forecasting.
文章引用:赵晗, 孙德山. 基于ARIMA-Holt指数平滑模型的短期居民消费指数预测[J]. 应用数学进展, 2020, 9(8): 1206-1212. https://doi.org/10.12677/AAM.2020.98141

1. 引言

居民消费指数(CPI)是用来反映居民家庭购买消费商品及服务的价格水平的变动情况,CPI能在特定时段内度量一组代表性消费商品及服务项目的价格水平随时间而变动的情况,是对中国经济增速最稳定的拉动。所以分析居民消费指数水平的波动情况对于总体经济发展具有很重要的意义。

一般而言,可以根据已知数据建立多元线性回归模型预测CPI,但该种方法过于传统往往预测效果不太理想。时间序列分析ARIMA模型是由伯克斯和詹金斯(Box-Jenkins)于上个世纪70年代系统提出的不同于回归模型的根据观测的时间序列数据,通过曲线拟合和参数估计建立数学模型的一种分析方法,所以现在大多采用时间序列分析模型进行预测。李菊梅建立了ARMA模型对我国1984~2005年的年度进出口数据进行分析,发现其短期预测效果比长期预测效果好 [1];张立杰等人基于自回归移动平均及支持向量机方法对中国棉花价格预测,得到了很好的效果 [2];敬久旺利用ARIMA乘积季节模型,对我国海关进出口商品对总值进行时间序列分析,发现该种方法预测能力更优,能充分反映我国海关进出口商品总值的时间序列变化规律 [3]。本文在宏观经济理论的基础上,以上海市2008~2017年月度CPI变化的时间序列为研究切入点,借助R语言统计软件,建立相应的CPI时间序列ARIMA模型,并用多种方法对2018年第一季度上海市CPI进行有效预测分析,得到了较好的结果。

2. ARIMA模型和Holt指数平滑

2.1. ARIMA模型

一般来讲,随机时间序列模型包括移动平均模型(MA)、自回归模型(AR)和自回归移动平均模型(ARMA),对于非平稳时间序列通常采取自回归综合移动平均模型(ARIMA)。

在一个p阶自回归模型中,序列的每一个值都可以用它之前p个值的线性组合来表示:

AR ( p ) : Y t = μ + β 1 Y t 1 + β 2 Y t 2 + + β p Y t p + ε t (1)

其中 Y t 是时序中的任一观测值, µ 是序列均值, β 是权重, ε t 是随机扰动。在一个q阶移动平均模型中,序列的每一个观测值都可以用它之前的q个残差的线性组合来表示:

MA ( q ) : Y t = μ θ 1 ε t 1 θ 2 ε t 2 θ q ε t q ε t (2)

其中 ε t 是预测残差, θ 是权重。这两种方法的混合即 ARMA ( p , q ) 模型,其表达式如下:

Y t = μ + β 1 Y t 1 + β 2 Y t 2 + + β p Y t p θ 1 ε t 1 θ 2 ε t 2 θ q ε t q + ε t (3)

此时,序列中的每个观测值用过去的p个观测值和q个残差的线性组合来表示。

在一般的自回归移动平均模型中,序列仅有趋势性,假设 x t 表示随机序列,并假设 L x t = x t 1 ,其中L是滞后算子。如果存在非负整数d满足:

ϕ ( L ) d x t = θ ( L ) ε t (4)

式中函数表示为:

{ ϕ ( L ) = 1 ϕ 1 L ϕ 2 L 2 ϕ p L p θ ( L ) = 1 + θ 1 L + θ 2 L 2 + + θ q L q d = ( 1 L ) d (5)

| L | 1 ϕ ( L ) θ ( L ) 互素, ϕ p θ q 0 { ε t } 是白噪声序列,存在 E ( ε t ) = 0 E ( ε t ) 2 < ARIMA ( p , d , q ) 模型意味着序列被差分了d次,且序列中的每个观测值都是用过去的p个观测值和q个残差的线性组合来表示 [4]。

2.2. Holt指数平滑

Holt指数平滑可以对有水平项和趋势项的时序进行拟合,时刻t的观测值可以表示为:

Y t = level + slope × t + irregualr (6)

其中平滑参数 α 控制水平项的指数型下降, β 控制斜率的指数型下降,参数取值越大意味着越近的观测值的权重越大。

3. 实证分析

3.1. 数据的选取与说明

选取2008~2017年10年间上海市居民消费价格指数为实验样本,数据取自上海市统计年鉴,每个月度的CPI值如表1所示。基于上述理论,对时间序列数据进行建模和分析,依此采用多种方法对2018上半年CPI进行监控预测并与实际值进行比较分析,从而评价模型的预测能力。

Table 1. Consumer Price Index (CPI) in Shanghai from 2008 to 2017

表1. 上海市2008~2017居民消费价格指数

3.2. 数据处理与模型构建

3.2.1. 数据的处理与分析

本文使用的统计软件为R语言,首先验证序列的平稳性。画出该序列的折线图,从上表1和序列的折线图(图1)可以发现,序列受时间趋势影响明显,属于非平稳序列,因此有必要对原对数后的时间序列作差分处理,发现2阶差分效果最好,处理后的时序如图2所示。

Figure 1. The original sequence

图1. 原始序列

Figure 2. Post-difference sequence

图2. 差分后序列

3.2.2. 模型确立

对差分后的时序进行ADF检验显示此时序列平稳,接下来要进行模型的选取与检验,一般来说,建立ARIMA模型的步骤包括:

(1) 确保时序的平稳性;

(2) 找到一个(或几个)合理的模型(即选定可能的 值和 值);

(3) 拟合模型;

(4) 从统计假设和预测准确性等角度评估模型;

(5) 预测 [5]。

我们需要为模型选定参数 , 和 ,差分次数为2, 值已经确定,下面通过ACF和PACF图来选择备选模型的 和 [6],从CPI时序的ACF与PACF结果呈现的特点中可发现:一方面,从ACF图中可以发现序列自1阶开始逐渐增大,自相关数值迅速趋于0,这说明该序列表现出上升态势;另一方面,从PACF图中,偏自相关函数呈明显的下降趋势,逐渐减小到0,虽然11阶偏自相关系数值超出边界,很可能属于偶然出现的,尽管如此,1阶到5阶相关函数显著不为零,也说明该时间序列变动具有趋势性,检验结果如图3所示。

Figure 3. Autocorrelation and partial autocorrelation of CPI sequence after quadratic difference

图3. 二次差分后的CPI序列自相关和偏自相关图

由上述大概可以确定模型,观察自相关函数图与偏自相关函数图可得出相应结论:

(1) 自相关系数呈现1阶截尾,偏自相关系数呈现拖尾状态。自相关函数图中1阶自相关系数显著不为0,1阶后显著为0,可取移动平均阶数 q = 1 。偏自相关函数中偏自相关系数前6阶显著不为0,呈线性增长趋于0,可取自回归阶数 p = 0

(2) 时序不具有季节性。在上述序列的平稳性分析中,对时序进行季节性检验,发现该序列不具有季节性,同时非季节性差分结果 d = 2 ,序列具有趋势性。

根据上述结论进行模型确认和参数估计得到最终预测模型为ARIMA (0, 2, 1),参数估计 δ 2 1.083 ,故拟合后的ARIMA模型为:

Y t = 0.9189 Y t 1 + 0.0284 Y t 2 + ε t 1.083 ε t 1 (7)

3.2.3. 模型拟合与评估

综上已经确立了ARIMA模型,下面我们进行模型的拟合与评估。模型拟合效果以对百分比误差的绝对值做平均,即MAPE的值为指标,本案例MAPE的值为0.22%,证明拟合效果比较理想。

一般来说,一个模型如果合适,则模型的残差应该满足均值为0的正态分布,换句话说,模型的残差应该满足独立正态分布,本文利用Ljung-Box test评价模型,Box.test函数可以检验残差的自相关系数是否都为0,在本实验中,模型残差的p值为0.9339远大于显著性水平,接受原假设,即可以认为残差的自相关系数为0,是白噪声序列。但残差并不符合正态分布,前后存在较大的波动,中间比较聚集。拟合结果(图4)与QQ图检验(图5)如下:

Figure 4. The fitting results

图4. 拟合结果

Figure 5. Residual normal Q-Q graph

图5. 残差正态Q-Q图

4. CPI短期预测与分析

以上建立了基于ARIMA的时间序列模型,为了验证模型的有效性,对2018年第一季度上海市居民消费水平指数进行预测,采取自动预测,ARIMA模型直接预测和Holt指数平滑预测三种方法,并与实际值进行对比发现Holt指数平滑预测效果最好,平均相对误差为 e = 0.1801 ,但随着预测时间的增长,预测精度有所下降,也说明了该模型更适用于短期预测。

预测结果如表2表3所示。

Table 2. Comparison of prediction accuracy results

表2. 预测精度结果对比

Table 3. Model prediction versus real value

表3. 模型预测与真实值对比

5. 总结

本文以上海市2008~2017年间的居民消费指数的月数据作为样本,进行差分选阶,建立了ARIMA模型并利用Holt指数平滑进行短期预测,结果表明该模型对于短期预测具有很好的性能,效果较为理想。该模型易于理解,在实际生活中有广泛的应用,能为短期预测提供很好的借鉴。

基金项目

辽宁省自然科学基金指导计划项目(编号:2019-ZD-0471)。

参考文献

[1] 王谦, 管河山. 中国进出口总额时间序列SARIMA模型的实证[J]. 经济论坛, 2018(12): 78-83.
[2] 常月, 冯宇旭, 曹显兵. 基于非线性时间序列模型的股票分析与预测[J]. 数学的实践与认识, 2018, 48(22): 21-26.
[3] 李欣阳, 李素娟, 刘晓迪, 樊安彤, 闫萍, 刘洪庆. 自回归移动平均乘积季节模型在甲型肝炎发病数中的应用[J]. 山东大学学报(医学版), 2018, 56(12): 103-108.
[4] 孙皖宁, 杨静, 杨依依, 刘桐同, 白晓东. 基于SARIMA模型对中国GDP分析及预测[J]. 中国集体经济, 2018(36): 78-80.
[5] 张春露, 白艳萍. ARIMA时间序列模型和BP神经网络组合预测在铁路客座率中的应用[J]. 数学的实践与认识, 2018, 48(21): 105-113.
[6] 杨进, 陈亮. 基于小波神经网络与ARIMA组合模型在股票预测中的应用[J]. 经济数学, 2018, 35(2): 62-67.