1. 引言
铁路作为国家重要基础设施、国民经济大动脉,是推动实现国家现代化的重要发动引擎。铁路客运也是现代化国家的重要出行方式,而客流量预测是客运调控的基础,精确的预测结果能够为铁路的运营管理及应急处置提供关键的决策依据。客流量数据作为一类描述事物发展客观规律的连续性时间序列数据,其本身带有明显的趋势性与周期性,为充分提取数据本身的趋势性和周期性特征,保证模型预测的精确性,统计学上多采用时间序列分析方法进行建模预测。
SARIMA模型[1] (Seasonal Autoregressive Integrated Moving Average Model),也称季节自回归差分移动平均模型,是时间序列分析方法中较为常用的一种,常用于处理带有明显趋势性的时间序列数据,其在客流量预测方面也有着广泛的应用。王莹[2]选用SARIMA模型对北京地铁进站客流量进行了动态预测与静态预测,实现对于进出站客流量的精准预测;白丽[3]以ARIMA时间序列预测算法为基础,针对客流影响因素建立了时间序列及回归分析的组合模型,取得了良好的预测效果。考虑到中国经济逐步发展和节日旅客流动的客观因素影响,铁路客流量数据必然存在一定的上升趋势,以及以春运为代表的节假日季节周期性波动趋势,特别地,季节性周期波动干扰使得经典SARIMA模型预测的稳健性较差。而刘艳菲和宋耀莲提出了使用一阶滞后滤波时间序列重组[4],用平均结果作为更新后的时间序列,再进行时间序列分析,其方法对序列的周期性波动干扰具有良好的抑制作用。
综合评估两类模型在客流量时间序列数据建模效果,本文结合山东省铁路客运流量数据设立测试集和预测集,通过测试集数据建立SARIMA乘积模型与基于一阶滤波滞后的SARIMA乘积模型,之后选取拟合效果更有效的模型进行预测集误差研究实证分析,综合评估模型拟合效果。
2. 模型简介
2.1. ARIMA模型
ARIMA模型(Autoregressive Integrated Moving Average Model),也称自回归差分移动平均模型,是时间序列分析方法中较为常用的一种,常用于处理带有明显趋势性的时间序列数据。其要由三部分构成,分别为自回归模型(AR)、差分过程(I)和移动平均模型(MA),具体地,首先通过d次差分过程,将带有趋势项的非平稳数据平稳化;再通过提取前p期时间序列数据拟合自回归模型;最后通过前q期时间序列数据中自回归模型与真实数据的误差值数据构建移动平均模型对原本的自回归模型进行误差修正,保证预测的准确性,主要公式如下:
将差分算子记为
,有一阶差分如下:
将延迟算子记为
,有p期自回归模型如下:
即有k阶差分算子:
对于非平稳时间序列
,设在d次差分后,有
是平稳时间序列,拟合其为
模型,即
其中
为自回归系数多项式;
为滑动平均系数多项式。
为白噪声序列。模型简记记为
。p为自回归项数,d为使原时间序列调整为平稳时间序列所使用的差分次数,q为滑动平均项数。
2.2. SARIMA模型
2.2.1. 简单SARIMA加法模型
时间序列数据大多不仅存在着趋势效应,也包含着季节效应。当这种两种效应和随机波动之间可以较为容易地区分的时候,即序列中季节效应和其他效应之间是加法关系,可以表示为:
其中
表示原时间序列,
表示季节效应,
表示趋势效应,
表示随机波动。
通过一定的因素分解方法将序列的各种效应提取出来,再分别进行ARIMA模型的拟合,得到模型结构如下:
其中,
为差分阶数,
为周期步长;
为白噪声序列,且:
2.2.2. SARIMA乘积模型
简单SARIMA加法模型只能针对序列的趋势效应、季节效应以及随机波动效应这些因素的交互影响很弱时的情况。但更为常见的情况是,这几种效应之间存在非常复杂的影响关系。这时序列的短期相关性和季节效应之间具有乘积关系,所以拟合的SARIMA模型实际上为趋势项
和季节项
的乘积。即SARIMA乘积模型,模型的完整结构为:
该乘积模型简记为
,其中
为趋势项ARIMA模型参数,
为季节项ARIMA模型参数,S为季节周期,
为白噪声序列,
2.3. 模型整体显著性检验
模型的显著性检验主要检验模型的有效性。一个模型是否显著有效主要看它提取的信息是否充分。即模型总体显著性检验就是对模型拟合得到的残差序列的白噪声检验,检验所建立的假设如下:
建立的检验统计量为LB (Ljung-Box)统计量[5]:
如果检验拒绝原假设,表示模型残差序列中还保留着有效信息,模型总体显著性检验不通过,需要重新选择模型;反之则说明拟合模型显著有效。
2.4. 模型参数显著性检验
当拟合模型通过的总体显著性检验后就可以进行单个参数的显著性检验。参数的显著性检验就是要检验每一个未知参数是否显著非零,这个检验的目的是为了使模型最精简。
假设检验的原假设和备择假设为:
参数估计值除以标准差即为该参数的T统计量,即:
如果某个模型参数不显著,即表示这个参数所对应的自变量对因变量的影响不显著,该自变量就应从模型中剔除,最终模型将由一系列参数显著非零的自变量表示。
2.5. AIC与BIC准则
AIC准则即最小化信息量准则[6] (Akaike Information Criterion)结构如下:
由赤池弘次于1971年提出,其方法是寻找可以最好地解释数据并且包含最少自由参数的模型。当样本容量很大时,使用AIC准则的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多。BIC (Bayesian Information Criterion)贝叶斯信息准则弥补了AIC准则的不足,其结构如下:
,
在模型选择中这两个指标越小越好。
3. 经典ARIMA乘积季节模型建模
3.1. 数据来源与预处理
选取山东省2015年1月至2019年12月的铁路客运量为实验样本,其中2015年1月至2019年7月共55个样本数据作为训练集,剩余5个月即2019年8月至12月作为测试集。画出训练集数据的客流量时序图(见图1),结合山东省铁路客运发展趋势,可以明显的看出数据有逐渐上升的趋势效应和以年为周期的季节效应波动规律,显然为非平稳序列。之后对原序列进行一阶差分消除趋势效应,再进行一阶12步的差分消除季节效应,差分后序列通过ADF检验(
),即差分后序列为平稳序列,可以进行ARIMA模型建模。
Figure 1. Time series chart of railway passenger volume in Shandong province
图1. 山东省铁路客运量时序图
3.2. ARIMA模型选择
模型的识别需要借助自相关函数(ACF)和偏自相关函数(PACF),以此来确定
模型的参数,自相关函数和偏自相关函数如图2所示。
由图2的ACF图和PACF图可以初步判断拟合
、
、
、
这四种拟合模型。由于除
模型外,其他模型均有参数未通过参数t检验,所以后续只对该模型进行后续的估计和检验。
3.3. 经典季节ARIMA参数估计与检验
确定好参数后,对模型进行模型的整体显著性检验以及模型参数估计及检验,模型整体显著性检验结果见表1,即各延迟阶数的下LB统计量的检验P值都远大于0.01,即可以认为残差序列为白噪声序列,模型充分提取了原数据中的信息,拟合模型显著有效。
Figure 2. ACF and PACF plots
图2. ACF与PACF图
Table 1. Table of overall significance test results for the model
表1. 模型整体显著性检验结果表
 
  
    | 延迟阶数 | LB统计量值 | P值 | 
  
    | 6 | 2.4676 | 0.8721 | 
  
    | 12 | 11.96 | 0.4489 | 
  
    | 18 | 18.182 | 0.4437 | 
 通过模型整体显著性检验,进行模型的参数估计及参数检验,结果见表2,可以看出,各参数的t检验P值都较小,在0.05显著性水平下,各模型各参数都通过了参数显著性检。说明
模型建模成功,即得到的最终模型为:
Table 2. Table of model parameter estimation and significance test results
表2. 模型参数估计及显著性检验结果表
 
  
    | 待估参数 | 待估参数(
) | s.e.标准误(
) | 
 | P (单侧) | P (双侧) | 
  
    | ar1 | −0.8739 | 0.1478 | −5.91272 | 1.495151e−07 | 
 | 
  
    | ar2 | −0.8222 | 0.1643 | −5.00426 | 3.477583e−08 | 
 | 
  
    | ar3 | −0.3525 | 0.1778 | −1.982565 | 0.001766357 | 0.004 | 
  
    | smal | −0.4331 | 0.1632 | −2.653799 | 9.603112e−10 | 
 | 
 4. 一阶滤波改进SARIMA模型
4.1. 一阶滞后滤波
一阶滞后滤波又称作RC低通滤波、一阶惯性滤波、一阶低通滤波等。是常用的嵌入式ADC数字滤波的一种,数学算法公式为:
其中,
为本次滤波输出值,
是滤波系数,
是本次采样观测值,
是上次滤波输出。滤波的目标是过滤掉数据的各种干扰,得到期望的稳定值,使得系统收敛,特别地,一阶滞后滤波算法假设在上一个时刻的输出值
是稳定值。因为除第一个数据外,所有数据都有前驱(上次输出值),而当前值的滤波与前驱有关时,那么随着时间的推移,所有的数据会形成一个相关的链条。最终,只要前值发生变化,那么后面的值都会发生变化。通过限定这些变化的敏感度,就可以过滤掉一些极端的周期干扰性较强的部分异常值。
在进行建模前需要实现一阶滞后滤波,本论文通过excel表格内置的函数功能运行简单的一阶滞后滤波数学算法。取训练集即201501~201907的55个数据中的前四项的算术平均值为新序列的第一个值
,然后固定滤波变化敏感度
进行后续的滤波算法,得到滤波后时序图,见图3,可以通过时序图观察到,处理后的序列(系列二)较之原序列(系列一)有平稳化的趋势,同时一定程度上降低了较为敏感的极端值影响。
Figure 3. Time series graph after filtering
图3. 滤波后时序图
4.2. 改进模型参数估计与参数检验
通过R软件自动建模函数,得到最佳模型为
,模型整体显著性检验与参数估计与检验结果见表3,结果显示,在各延迟阶数下,模型整体显著性检验统计量LB的检验P值都显著大于显著性水平0.05,可以认为模型残差序列为白噪声序列,即模型提取了原数据中的所有有效信息,模型通过整体显著性检验;并且参数的显著性检验P值都非常小,基本说明两参数都显著有效,说明模型
拟合合适,模型参数为:
5. 模型对比与总结
5.1. 模型对比
至此,本论文基于客运流量建立了经典模型
和一阶滞后滤波改进后的改进模型
模型,两个模型都通过了模型的总体显著性检验,即两个模型都是有效的。结合前文所得出的模型检验参数等得到表4,根据AIC与BIC最小准则,改进模型的AIC值和BIC值都相对于原模型较小,即基于一阶滞后滤波的改进的SARIMA季节模型在一定程度上优于经典ARIMA乘积季节模型。
Table 3. Table of improved model parameter estimation and verification 
表3. 改进模型参数估计及检验表
 
  
    | 模型整体显著性检验 | 参数估计及显著性检验 | 
  
    | 延迟阶数 | LB统计量值 | P值 | 待估参数 | t统计量 | P值 | 
  
    | 3 | 1.0827 | 0.7812 | ma1 | −4.478073 | 
 | 
  
    | 6 | 5.5242 | 0.4785 | sar1 | −3.25835 | 
 | 
  
    | 9 | 13.739 | 0.1319 | - | - | - | 
 Table 4. Comparison of AIC and BIC parameters
表4. AIC与BIC参数对比
 
  
    | 模型 | AIC值 | BIC值 | 
  
    | 经典模型 | 723.14 | 731.82 | 
  
    | 改进模型 | 660.44 | 665.65 | 
 同时对比两个模型的预测值与实际值(测试集),即2019年7月~12月客运流量数据,得到表5两模型预测值对比表,可以看出改进后的SARIMA模型的预测误差更小,即改进后的SARIMA模型有更好的预测稳健性。
Table 5. Comparison table of predicted values between two models
表5. 两模型预测值对比表
 
  
    |  | 7月 | 8月 | 9月 | 10月 | 11月 | 12月 | 
  
    | 实际值 | 35,570 | 37,884 | 29,873 | 31,903 | 27,080 | 26,306 | 
  
    | 预测值(经典) | 32,981 | 34,396 | 32,423 | 32,668 | 30,235 | 29,138 | 
  
    | 预测值(改进) | 35,570 | 35,811 | 30,450 | 32,913 | 27,802 | 28,041 | 
 
Figure 4. Comprehensive line chart
图4. 综合折线图
5.2. 总结
综合考虑模型整体AIC与BIC准则和模型预测效果,可以看出改进SARIMA模型在AIC与BIC显著优化,且预测值对比也表明基于滤波算法的改进SARIMA模型的预测效果稳健性更强。最后,其基于训练集与改进SARIMA模型得到的预测值与实际测试集可以得到图4折线图,其中蓝色实线表示预测值,蓝色区域表示基于80% (深蓝)和95% (浅蓝)置信度下的预测区间,而红色虚线表示实际值(测试集),可以看出模型预测的趋势基本吻合实际值的变化趋势;在预测验证部分,实际值均在95%置信区间内波动,说明模型有效且一定程度上预测效果较为理想,即改进SARIMA模型在客流量预测研究方面具有显著优势。