基于改进SARIMA模型的比较分析与实证研究
Comparative Analysis and Empirical Research Based on Improved SARIMA Model
摘要: 为提升季节性周期波动数据的预测精度,本研究提出融合一阶滞后滤波的改进SARIMA模型,通过一阶滞后滤波算法过滤部分极端值对模型参数的影响,增强了数据平稳性。同时,本论文通过分析山东省2015~2019年铁路月度客流量数据,对比研究了经典SARIMA(3,1,0) × (1,1,0)12模型与改进SARIMA(0,1,1) × (1,1,0)12模型的性能及预测效果。最终实证表明,改进模型的残差通过白噪声检验(LB检验P > 0.05),各参数都t检验显著(P < 0.001);同时在测试集(2019年8~12月)预测准确度与预测稳健性上有明显提高;AIC (660.44)与BIC (665.65)显著优化。该方法在一定程度上提升了传统SARIMA模型的预测稳健性,为高噪声交通数据预测提供一种有效的解决方案。
Abstract: To improve the prediction accuracy of seasonal cycle fluctuation data, this study proposes an improved SARIMA model that integrates first-order lag filtering. The first-order lag filtering algorithm is used to filter out the influence of some extreme values on the model parameters, enhancing the stationarity of the data. At the same time, this paper analyzes the monthly passenger flow data of railways in Shandong Province from 2015 to 2019, and compares the performance and prediction effects of the classic SARIMA(3,1,0) × (1,1,0)12 model and the improved SARIMA(0,1,1) × (1,1,0)12 model. The final empirical results showed that the residuals of the improved model passed the white noise test (LB test P > 0.05), and all parameters were t-test significant (P < 0.001); At the same time, there was a significant improvement in both prediction accuracy and robustness in the test set (August~December 2019); AIC (660.44) and BIC (665.65) were significantly optimized. This method has improved the prediction robustness of traditional SARIMA models to a certain extent, providing an effective solution for predicting high noise traffic data.
文章引用:肖仕维. 基于改进SARIMA模型的比较分析与实证研究[J]. 统计学与应用, 2025, 14(8): 307-315. https://doi.org/10.12677/sa.2025.148237

1. 引言

铁路作为国家重要基础设施、国民经济大动脉,是推动实现国家现代化的重要发动引擎。铁路客运也是现代化国家的重要出行方式,而客流量预测是客运调控的基础,精确的预测结果能够为铁路的运营管理及应急处置提供关键的决策依据。客流量数据作为一类描述事物发展客观规律的连续性时间序列数据,其本身带有明显的趋势性与周期性,为充分提取数据本身的趋势性和周期性特征,保证模型预测的精确性,统计学上多采用时间序列分析方法进行建模预测。

SARIMA模型[1] (Seasonal Autoregressive Integrated Moving Average Model),也称季节自回归差分移动平均模型,是时间序列分析方法中较为常用的一种,常用于处理带有明显趋势性的时间序列数据,其在客流量预测方面也有着广泛的应用。王莹[2]选用SARIMA模型对北京地铁进站客流量进行了动态预测与静态预测,实现对于进出站客流量的精准预测;白丽[3]以ARIMA时间序列预测算法为基础,针对客流影响因素建立了时间序列及回归分析的组合模型,取得了良好的预测效果。考虑到中国经济逐步发展和节日旅客流动的客观因素影响,铁路客流量数据必然存在一定的上升趋势,以及以春运为代表的节假日季节周期性波动趋势,特别地,季节性周期波动干扰使得经典SARIMA模型预测的稳健性较差。而刘艳菲和宋耀莲提出了使用一阶滞后滤波时间序列重组[4],用平均结果作为更新后的时间序列,再进行时间序列分析,其方法对序列的周期性波动干扰具有良好的抑制作用。

综合评估两类模型在客流量时间序列数据建模效果,本文结合山东省铁路客运流量数据设立测试集和预测集,通过测试集数据建立SARIMA乘积模型与基于一阶滤波滞后的SARIMA乘积模型,之后选取拟合效果更有效的模型进行预测集误差研究实证分析,综合评估模型拟合效果。

2. 模型简介

2.1. ARIMA模型

ARIMA模型(Autoregressive Integrated Moving Average Model),也称自回归差分移动平均模型,是时间序列分析方法中较为常用的一种,常用于处理带有明显趋势性的时间序列数据。其要由三部分构成,分别为自回归模型(AR)、差分过程(I)和移动平均模型(MA),具体地,首先通过d次差分过程,将带有趋势项的非平稳数据平稳化;再通过提取前p期时间序列数据拟合自回归模型;最后通过前q期时间序列数据中自回归模型与真实数据的误差值数据构建移动平均模型对原本的自回归模型进行误差修正,保证预测的准确性,主要公式如下:

将差分算子记为 ,有一阶差分如下:

2 y t =( y t y t1 )

将延迟算子记为 B ,有p期自回归模型如下:

y tp = B p y t  p1

即有k阶差分算子:

k = ( 1B ) k

对于非平稳时间序列 y t ,设在d次差分后,有 d y t 是平稳时间序列,拟合其为 ARMA( p,q ) 模型,即

Φ( B )( d y t )=θ( B ) ε t

其中 Φ( B )=1 ϕ 1 B ϕ p B p 为自回归系数多项式; θ( B )=1 θ 1 B θ 2 B 2 θ p B p 为滑动平均系数多项式。 ε t 为白噪声序列。模型简记记为 ARIMA( p,d,q ) p为自回归项数,d为使原时间序列调整为平稳时间序列所使用的差分次数,q为滑动平均项数。

2.2. SARIMA模型

2.2.1. 简单SARIMA加法模型

时间序列数据大多不仅存在着趋势效应,也包含着季节效应。当这种两种效应和随机波动之间可以较为容易地区分的时候,即序列中季节效应和其他效应之间是加法关系,可以表示为:

x t = S t + T t + I t

其中 x t  表示原时间序列, S t 表示季节效应, T t 表示趋势效应, I t 表示随机波动。

通过一定的因素分解方法将序列的各种效应提取出来,再分别进行ARIMA模型的拟合,得到模型结构如下:

{ D d x t = Θ( B ) Φ( B ) ε t Θ( B )=1 θ 1 B θ q B q ,q Φ( B )=1 ϕ 1 B ϕ p B p ,p

其中, d 为差分阶数, D 为周期步长; ε t 为白噪声序列,且:

E( ε t )=0Var( ε t )= σ t 2

2.2.2. SARIMA乘积模型

简单SARIMA加法模型只能针对序列的趋势效应、季节效应以及随机波动效应这些因素的交互影响很弱时的情况。但更为常见的情况是,这几种效应之间存在非常复杂的影响关系。这时序列的短期相关性和季节效应之间具有乘积关系,所以拟合的SARIMA模型实际上为趋势项 ARIMA( p,d,q ) 和季节项 ARIMA( P,D,Q ) 的乘积。即SARIMA乘积模型,模型的完整结构为:

{ d S D x t = Θ( B ) Θ S ( B ) Φ( B ) Φ S ( B ) ε t Θ( B )=1 θ 1 B θ q B q Φ( B )=1 ϕ 1 B ϕ p B p Θ S ( B )=1 θ 1 B S θ Q B QS Φ S ( B )=1 ϕ 1 B S ϕ p B PS 

该乘积模型简记为 ARIMA( p,d,q )× ( P,D,Q ) S ,其中 p,d,q 为趋势项ARIMA模型参数, P,D,Q 为季节项ARIMA模型参数,S为季节周期, ε t 为白噪声序列,

2.3. 模型整体显著性检验

模型的显著性检验主要检验模型的有效性。一个模型是否显著有效主要看它提取的信息是否充分。即模型总体显著性检验就是对模型拟合得到的残差序列的白噪声检验,检验所建立的假设如下:

{ H 0 : ρ 1 = ρ 2 ρ m =0 H 1 : ρ k 0 ,m1 ,km,m

建立的检验统计量为LB (Ljung-Box)统计量[5]

LB=n( n+2 ) k=1 m ( ρ k 2 ^ nk ) χ 2 ( m ),m>0

如果检验拒绝原假设,表示模型残差序列中还保留着有效信息,模型总体显著性检验不通过,需要重新选择模型;反之则说明拟合模型显著有效。

2.4. 模型参数显著性检验

当拟合模型通过的总体显著性检验后就可以进行单个参数的显著性检验。参数的显著性检验就是要检验每一个未知参数是否显著非零,这个检验的目的是为了使模型最精简。

假设检验的原假设和备择假设为:

H 0 : β j =0 vs  H 1 : β j 0,1jm

参数估计值除以标准差即为该参数的T统计量,即:

T= β j ^ σ ~t( ndm )

如果某个模型参数不显著,即表示这个参数所对应的自变量对因变量的影响不显著,该自变量就应从模型中剔除,最终模型将由一系列参数显著非零的自变量表示。

2.5. AIC与BIC准则

AIC准则即最小化信息量准则[6] (Akaike Information Criterion)结构如下:

AIC=2ln( L )+2k,L,k

由赤池弘次于1971年提出,其方法是寻找可以最好地解释数据并且包含最少自由参数的模型。当样本容量很大时,使用AIC准则的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多。BIC (Bayesian Information Criterion)贝叶斯信息准则弥补了AIC准则的不足,其结构如下:

BIC=2ln( L )+kln( n ),L,k,n

在模型选择中这两个指标越小越好。

3. 经典ARIMA乘积季节模型建模

3.1. 数据来源与预处理

选取山东省2015年1月至2019年12月的铁路客运量为实验样本,其中2015年1月至2019年7月共55个样本数据作为训练集,剩余5个月即2019年8月至12月作为测试集。画出训练集数据的客流量时序图(见图1),结合山东省铁路客运发展趋势,可以明显的看出数据有逐渐上升的趋势效应和以年为周期的季节效应波动规律,显然为非平稳序列。之后对原序列进行一阶差分消除趋势效应,再进行一阶12步的差分消除季节效应,差分后序列通过ADF检验( p=0.01 ),即差分后序列为平稳序列,可以进行ARIMA模型建模。

Figure 1. Time series chart of railway passenger volume in Shandong province

1. 山东省铁路客运量时序图

3.2. ARIMA模型选择

模型的识别需要借助自相关函数(ACF)和偏自相关函数(PACF),以此来确定 ARIMA( p,d,q )× ( P,D,Q ) S 模型的参数,自相关函数和偏自相关函数如图2所示。

图2的ACF图和PACF图可以初步判断拟合 ARIMA( 3,1,0 )× ( 1,1,0 ) 12 ARIMA( 3,1,0 )× ( 1,1,1 ) 12 ARIMA( 3,1,1 )× ( 1,1,0 ) 12 ARIMA( 3,1,0 )× ( 1,1,1 ) 12 这四种拟合模型。由于除 ARIMA( 3,1,0 )× ( 1,1,0 ) 12 模型外,其他模型均有参数未通过参数t检验,所以后续只对该模型进行后续的估计和检验。

3.3. 经典季节ARIMA参数估计与检验

确定好参数后,对模型进行模型的整体显著性检验以及模型参数估计及检验,模型整体显著性检验结果见表1,即各延迟阶数的下LB统计量的检验P值都远大于0.01,即可以认为残差序列为白噪声序列,模型充分提取了原数据中的信息,拟合模型显著有效。

Figure 2. ACF and PACF plots

2. ACF与PACF图

Table 1. Table of overall significance test results for the model

1. 模型整体显著性检验结果表

延迟阶数

LB统计量值

P

6

2.4676

0.8721

12

11.96

0.4489

18

18.182

0.4437

通过模型整体显著性检验,进行模型的参数估计及参数检验,结果见表2,可以看出,各参数的t检验P值都较小,在0.05显著性水平下,各模型各参数都通过了参数显著性检。说明 ARIMA( 310 )× ( 110 ) 12 模型建模成功,即得到的最终模型为:

12 x t = 1+0.8739B+0.8222 B 2 +0.3525 B 3 1+0.4331 B 12 ε t

Table 2. Table of model parameter estimation and significance test results

2. 模型参数估计及显著性检验结果表

待估参数

待估参数( β j ^ )

s.e.标准误( σ )

T= β j ^ σ

P (单侧)

P (双侧)

ar1

−0.8739

0.1478

−5.91272

1.495151e−07

0.001

ar2

−0.8222

0.1643

−5.00426

3.477583e−08

0.001

ar3

−0.3525

0.1778

−1.982565

0.001766357

0.004

smal

−0.4331

0.1632

−2.653799

9.603112e−10

0.001

4. 一阶滤波改进SARIMA模型

4.1. 一阶滞后滤波

一阶滞后滤波又称作RC低通滤波、一阶惯性滤波、一阶低通滤波等。是常用的嵌入式ADC数字滤波的一种,数学算法公式为:

Y n =α X n +( 1α ) Y n1

其中, Y n 为本次滤波输出值, α 是滤波系数, X n 是本次采样观测值, Y n1 是上次滤波输出。滤波的目标是过滤掉数据的各种干扰,得到期望的稳定值,使得系统收敛,特别地,一阶滞后滤波算法假设在上一个时刻的输出值 Y n1 是稳定值。因为除第一个数据外,所有数据都有前驱(上次输出值),而当前值的滤波与前驱有关时,那么随着时间的推移,所有的数据会形成一个相关的链条。最终,只要前值发生变化,那么后面的值都会发生变化。通过限定这些变化的敏感度,就可以过滤掉一些极端的周期干扰性较强的部分异常值。

在进行建模前需要实现一阶滞后滤波,本论文通过excel表格内置的函数功能运行简单的一阶滞后滤波数学算法。取训练集即201501~201907的55个数据中的前四项的算术平均值为新序列的第一个值 Y 1 ,然后固定滤波变化敏感度 α=0.5 进行后续的滤波算法,得到滤波后时序图,见图3,可以通过时序图观察到,处理后的序列(系列二)较之原序列(系列一)有平稳化的趋势,同时一定程度上降低了较为敏感的极端值影响。

Figure 3. Time series graph after filtering

3. 滤波后时序图

4.2. 改进模型参数估计与参数检验

通过R软件自动建模函数,得到最佳模型为 ARIMA( 0,1,1 )× ( 1,1,0 ) 12 ,模型整体显著性检验与参数估计与检验结果见表3,结果显示,在各延迟阶数下,模型整体显著性检验统计量LB的检验P值都显著大于显著性水平0.05,可以认为模型残差序列为白噪声序列,即模型提取了原数据中的所有有效信息,模型通过整体显著性检验;并且参数的显著性检验P值都非常小,基本说明两参数都显著有效,说明模型 ARIMA( 0,1,1 )× ( 1,1,0 ) 12 拟合合适,模型参数为:

12 x t = 1+0.478 B 12 1+0.7249B ε t

5. 模型对比与总结

5.1. 模型对比

至此,本论文基于客运流量建立了经典模型 ARIMA( 3,1,0 )× ( 1,1,0 ) 12 和一阶滞后滤波改进后的改进模型 ARIMA( 0,1,1 )× ( 1,1,0 ) 12 模型,两个模型都通过了模型的总体显著性检验,即两个模型都是有效的。结合前文所得出的模型检验参数等得到表4,根据AIC与BIC最小准则,改进模型的AIC值和BIC值都相对于原模型较小,即基于一阶滞后滤波的改进的SARIMA季节模型在一定程度上优于经典ARIMA乘积季节模型。

Table 3. Table of improved model parameter estimation and verification

3. 改进模型参数估计及检验表

模型整体显著性检验

参数估计及显著性检验

延迟阶数

LB统计量值

P

待估参数

t统计量

P

3

1.0827

0.7812

ma1

−4.478073

0.001

6

5.5242

0.4785

sar1

−3.25835

0.001

9

13.739

0.1319

Table 4. Comparison of AIC and BIC parameters

4. AIC与BIC参数对比

模型

AIC

BIC

经典模型

723.14

731.82

改进模型

660.44

665.65

同时对比两个模型的预测值与实际值(测试集),即2019年7月~12月客运流量数据,得到表5两模型预测值对比表,可以看出改进后的SARIMA模型的预测误差更小,即改进后的SARIMA模型有更好的预测稳健性。

Table 5. Comparison table of predicted values between two models

5. 两模型预测值对比表

7

8

9

10

11

12

实际值

35,570

37,884

29,873

31,903

27,080

26,306

预测值(经典)

32,981

34,396

32,423

32,668

30,235

29,138

预测值(改进)

35,570

35,811

30,450

32,913

27,802

28,041

Figure 4. Comprehensive line chart

4. 综合折线图

5.2. 总结

综合考虑模型整体AIC与BIC准则和模型预测效果,可以看出改进SARIMA模型在AIC与BIC显著优化,且预测值对比也表明基于滤波算法的改进SARIMA模型的预测效果稳健性更强。最后,其基于训练集与改进SARIMA模型得到的预测值与实际测试集可以得到图4折线图,其中蓝色实线表示预测值,蓝色区域表示基于80% (深蓝)和95% (浅蓝)置信度下的预测区间,而红色虚线表示实际值(测试集),可以看出模型预测的趋势基本吻合实际值的变化趋势;在预测验证部分,实际值均在95%置信区间内波动,说明模型有效且一定程度上预测效果较为理想,即改进SARIMA模型在客流量预测研究方面具有显著优势。

参考文献

[1] 王燕. 应用时间序列分析[M]. 北京: 中国人民大学出版社, 2005.
[2] 王莹, 韩宝明, 张琦, 等. 基于SARIMA模型的北京地铁进站客流量预测[J]. 交通运输系统工程与信息, 2015, 15(6): 205-211.
[3] 白丽. 城市轨道交通常态与非常态短期客流预测方法研究[J]. 交通运输系统工程与信息, 2017, 17(1): 127-135.
[4] 刘艳菲, 宋耀莲. 改进的ARIMA乘积季节模型的研究[J]. 信息技术, 2018(12): 9-16.
[5] 汤银才. R语言与统计分析[M]. 北京: 高等教育出版社, 2008.
[6] 刘晓斐. 冲击地压电磁辐射前兆信息的时间序列数据挖掘及群体识别体系研究[D]: [博士学位论文]. 徐州: 中国矿业大学, 2008.