1. 引言
城市轨道交通是城市公共交通的重要组成部分,具有安全性高、运载能力强、低碳环保等特点,已成为支撑经济快速发展和推动城市化进程的重要支柱。重庆轨道交通作为全国轨道交通运输的代表,精确预测轨道交通客流量,是解决山地城市交通管理复杂问题的关键所在[1] [2]。
本文依据2015年到2023年期间重庆市轨道交通的月度客流量数据,运用自回归积分滑动平均模型(ARIMA)、长短期记忆网络(LSTM),以及ARIMA与LSTM相结合的混合模型,对2024年的客流量加以预测。研究先分别构建ARIMA模型和LSTM模型进行独立的预测分析,接着利用ARIMA模型的残差序列构建LSTM模型,将两种模型的预测结果综合起来,混合模型结合了ARIMA模型在长期趋势预测方面的优势以及LSTM模型在适应短期波动方面的强项,提升了预测的精确度和实用性[3]。
2. 模型介绍
2.1. ARIMA模型
ARIMA模型全称为自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;I是差分,d为时间序列成为平稳时所做的差分次数;MA是移动平均,q为移动平均项数[4]。
ARIMA(p,d,q)模型的结构为:
2.2. LSTM模型
LSTM模型全称为长短期记忆网络(Long Short-Term Memory,简记LSTM),是一种特殊的循环神经网络(RNN) [5]。LSTM专门用于处理和预测时间序列数据中存在的长距离依赖文体。其核心思想是通过门控机制(包括遗忘门、输入门、输出门)和细胞状态(Cell State),实现对信息保留与遗忘的动态控制,从而捕捉时间序列中的复杂非线性关系。
1) LSTM单元结构图见图1:
Figure 1. Structure of LSTM unit
图1. LSTM单元结构图
2) 遗忘门计算公式
3) 输入门计算公式
4) 细胞状态进行更新迭代公式
5) 输出门计算公式
模型介绍部分中涉及的各个公式里的参数符号的说明见表1:
Table 1. Parameter symbol explanation
表1. 参数符号说明
符号 |
含义 |
|
当前时刻的输入(如客流量特征) |
|
前一时刻的隐藏状态(短期记忆) |
|
前一时刻的细胞状态(长期记忆) |
|
权重矩阵(可训练参数) |
|
偏置项(可训练参数) |
2.3. ARIMA-LSTM混合模型[6]
混合模型(ARIMA-LSTM),其核心想法是:借助ARIMA去提取数据当中的线性成分,接着依靠LSTM对残差即线性模型没有解释的非线性部分进行建模,最后把两者的预测结果融合起来。
模型结构示意图见图2:
Figure 2. Schematic diagram of model structure
图2. 模型结构示意图
3. 实证分析
3.1. 数据来源与预处理
1) 数据来源
本研究使用的月度客流量数据覆盖重庆城市轨道交通的全部运营路线(包含地铁、单轨),时间跨度为2015年1月至2023年12月。数据来源为中国城市轨道交通协会《城市轨道交通统计和分析报告》以及重庆市轨道交通(集团)有限公司发布的《重庆市轨道交通年度运营报告》(2015~2023年)。原始数据见表2所示:
Table 2. Monthly data of rail transit passenger volume in Chongqing from 2015 to 2023 (Unit: 10,000 people)
表2. 2015~2023年重庆市轨道交通客运量月度数据(单位:万人)
时间 |
客运量 |
时间 |
客运量 |
时间 |
客运量 |
时间 |
客运量 |
时间 |
客运量 |
2015-01 |
4462.23 |
2016-11 |
5920.92 |
2018-09 |
7493.14 |
2020-07 |
8608.00 |
2022-05 |
8774.00 |
2015-02 |
3865.86 |
2016-12 |
6373.15 |
2018-10 |
7724.70 |
2020-08 |
8308.00 |
2022-06 |
9691.00 |
2015-03 |
4911.89 |
2017-01 |
5245.61 |
2018-11 |
7336.59 |
2020-09 |
8755.00 |
2022-07 |
10029.00 |
2015-04 |
5144.94 |
2017-02 |
4538.27 |
2018-12 |
7889.67 |
2020-10 |
9154.00 |
2022-08 |
6602.00 |
2015-05 |
5395.58 |
2017-03 |
5779.04 |
2019-01 |
8140.00 |
2020-11 |
9280.00 |
2022-09 |
7841.00 |
2015-06 |
5149.73 |
2017-04 |
6050.01 |
2019-02 |
6635.00 |
2020-12 |
8943.00 |
2022-10 |
7990.00 |
2015-07 |
5816.50 |
2017-05 |
6345.59 |
2019-03 |
8939.00 |
2021-01 |
8702.00 |
2022-11 |
2252.00 |
2015-08 |
6033.73 |
2017-06 |
6056.82 |
2019-04 |
8724.00 |
2021-02 |
6749.00 |
2022-12 |
3635.00 |
2015-09 |
5515.62 |
2017-07 |
6836.22 |
2019-05 |
8799.00 |
2021-03 |
10072.00 |
2023-01 |
- |
2015-10 |
5690.83 |
2017-08 |
7091.75 |
2019-06 |
8487.00 |
2021-04 |
9984.00 |
2023-02 |
- |
2015-11 |
5399.98 |
2017-09 |
6484.89 |
2019-07 |
9226.00 |
2021-05 |
10243.00 |
2023-03 |
11447.00 |
2015-12 |
5813.11 |
2017-10 |
6688.76 |
2019-08 |
8786.00 |
2021-06 |
9668.00 |
2023-04 |
11396.00 |
2016-01 |
4894.06 |
2017-11 |
6348.91 |
2019-09 |
8884.00 |
2021-07 |
10171.00 |
2023-05 |
11377.00 |
2016-02 |
4238.74 |
2017-12 |
6834.13 |
2019-10 |
9303.00 |
2021-08 |
7731.00 |
2023-06 |
11290.00 |
2016-03 |
5392.07 |
2018-01 |
6049.11 |
2019-11 |
9190.00 |
2021-09 |
9233.00 |
2023-07 |
11902.00 |
2016-04 |
5641.82 |
2018-02 |
5256.75 |
2019-12 |
9073.00 |
2021-10 |
9800.00 |
2023-08 |
11269.00 |
2016-05 |
5916.30 |
2018-03 |
6662.71 |
2020-01 |
6957.00 |
2021-11 |
7773.00 |
2023-09 |
10969.00 |
2016-06 |
5650.49 |
2018-04 |
6984.94 |
2020-02 |
4160.00 |
2021-12 |
9593.00 |
2023-10 |
12035.00 |
2016-07 |
6375.63 |
2018-05 |
7326.56 |
2020-03 |
3046.00 |
2022-01 |
8904.00 |
2023-11 |
11497.00 |
2016-08 |
6610.69 |
2018-06 |
6997.14 |
2020-04 |
5772.00 |
2022-02 |
7979.00 |
2023-12 |
- |
2016-09 |
6047.53 |
2018-07 |
7893.98 |
2020-05 |
7175.00 |
2022-03 |
8823.00 |
|
|
2016-10 |
6238.59 |
2018-08 |
8184.71 |
2020-06 |
7562.00 |
2022-04 |
8722.00 |
|
|
注:数据包含地铁、单轨等全部制式,2023年1月、2月、12月存在缺失(标记为“-”)。
2) 数据预处理
针对3个月份(占比2.8%)的缺失数据,采用移动平均法进行插补:
对单个缺失值(如2023年12月)计算公式为,
对连续缺失值(如2023年1~2月)计算公式为,
该方法通过相邻时段均值估计缺失值,保留数据的局部趋势与季节性特征。对于疫情封城以及解封时出现的异常值进行保留,在后续模型中通过干预变量进行专项处理。
3) 数据特征分析
预处理后数据呈现显著特征其结果见图3:1) 长期趋势:2015~2019年稳态增长(年均增速8.5%),2020年后受疫情扰动;2) 季节性:年度双高峰(7~8月暑期、10~12月年末)与春节低谷(1~2月);3) 外部事件响应:2020年初疫情冲击、2022年末解封等结构性突变。
Figure 3. Time series of passenger flow after preprocessing
图3. 预处理后的客流量时序图
3.2. 平稳性检验
Table 3. Results of ADF test on time series
表3. 时间序列的ADF检验结果
延迟阶数 |
统计量T值 |
P值 |
4 |
−3.3904 |
0.0659 |
如表3所示,ADF检验的原假设为“序列非平稳”,此时P = 0.0659 > 0.05没有充分的理由拒绝原假设,故进行差分处理,差分结果见图4所示,可看出处理之后的序列是平稳的。
3.3. 模型定阶
设计四个模型,通过AIC、BIC准则选取四个模型相对最优的模型作为轨道交通运量的拟合和预测模型,四个模型对应的AIC、BIC值见表4所示。
综合比较摘取的四个模型,ARIMA(1,1,1) × (0,0,2)12乘法模型的AIC、BIC信息量较小,是四个模型中相对最优的模型,因此,将运用ARIMA(1,1,1) × (0,0,2)12模型展开参数估计、模型检验与预测。
Figure 4. Time series of first-order 12-step difference
图4. 一阶12步差分的时间序列
Table 4. The AIC and BIC values of the four models
表4. 四个模型对应AIC、BIC值
模型形式 |
AIC值 |
BIC值 |
ARIMA(1,1,1) × (0,0,2)12 |
1826.42 |
1839.83 |
ARIMA(1,1,1) × (0,0,1)12 |
1830.49 |
1841.21 |
ARIMA(0,1,1) × (0,0,1)12 |
1833.16 |
1838.52 |
ARIMA(0,1,0) × (0,0,1)12 |
1834.99 |
1843.04 |
其模型的表达式为:
根据重庆市轨道交通客运量2015年1月至2023年12月期间的数据利用模型ARIMA(1,1,1) × (0,0,2)12对轨道交通客运量未来一年数据进行预测,预测的结果见图5所示。
Figure 5. ARIMA model fitting and prediction results
图5. ARIMA模型拟合图及预测结果
3.4. 模型优化
1) 干预模型
ARIMA(1,1,1) × (0,0,2)12模型所给出的预测结果说明,在2018年至2023年这段时间内,拟合曲线较好地捕捉到客流量所呈现出的季节性波动特征。但模型对于2020年1月至2022年12月疫情期间出现的客流异常波动情况,明显表现出了不适应的状况,为捕捉COVID-19疫情对客流的结构性冲击,研究采用脉冲干预ARIMA模型对城市轨道交通客流量进行建模,以捕捉突发事件的影响。模型的基础结构为ARIMA(1,1,1) × (0,0,2)12,其数学表达式为:
其中,模型引入了四个关键脉冲干预变量见表5所示:
Table 5. Parameter estimation of intervention variables
表5. 干预变量参数估计
变量名称 |
描述 |
系数 |
P值 |
初始疫情冲击 |
2020年2月 |
−4045.82 |
P < 0.001 |
衰减效应 |
2020年3~5月 |
−6233.82 |
P < 0.001 |
疫情解封 |
2022年11月 |
−5108.34 |
P < 0.001 |
疫情解封 |
2022年12月 |
−4014.79 |
P <0.001 |
实证结果显示,该模型具有更好的预测性能。模型拟合的RMSE为809.05,优于原始ARIMA模型(1072.51);MAE为742.1731,优于原始ARIMA模型(565.21);MAPE为7.87%,显著优于原始ARIMA模型(MAPE = 13.94%);AIC值为1774.75,表明模型简洁有效;Ljung-Box检验P值为0.8797,证实残差满足白噪声假设。干预修正模型的预测结果见图6所示:
Figure 6. Interference model fitting and prediction results
图6. 干预模型拟合图及预测结果
经过干预修正的ARIMA模型,在各项预测精度指标上呈现出有统计学意义的提升,虽然干预模型取得了改进,但其相对改进幅度仍有一定的限制,这为后续采用混合模型提供了理论依据。
2) LSTM模型
LSTM层是整个模型的核心,包含四个重点考虑对象,分别是units (单元数量)、return_sequences参数、dropout以及recurrent_dropout。与ARIMA模型不同,模型中的神经元个数、隐含层层数、时间步长等参数需要通过人为事先设定,经过多次实验结果,对比误差不断调节,得出较好的参数组合。
其数学模型为:
预测结果见图7所示:
Figure 7. Passenger volume prediction of LSTM model in 2024
图7. LSTM模型2024年客运量预测
从整体来看,预测结果呈现出节假日对轨道交通客流量所产生的影响,同时也体现出疫情对客流量有持续的作用,使得客流量相对保持平稳,但低于疫情之前的水平。LSTM模型在预测上呈现出的局限性,表现主要源于以下原因:其一、训练数据仅为2015~2020年的月度数据,应对疫情期间极端事件样本不足,导致模型对异常值学习不充分;其二、单一LSTM结构对长期趋势和短期波动的协同捕捉能力有限。后续研究将通过采用混合建模框架,将LSTM与ARIMA的优势相结合,加以改进。
3) 混合模型预测
为了保证模型的泛化能力和预测精度,根据相关学者研究和实践经验,将残差序列中前80%数据作为训练集,后20%数据作为测试集。预处理后的残差序列见图8所示。
Figure 8. Residual sequence diagram
图8. 残差序列图
在单一LSTM模型中加入特征工程可以提升模型捕捉非线性模式的能力,故引入上述外部特征:1)节假日特征:标记元旦(1月)、春节(2月)、五一(5月)、国庆(10月);2) 疫情冲击特征:2020~2023年标记为1,其余为0,见图9和图10所示。
Figure 9. Holiday characteristics and pandemic impact
图9. 节假日特征及疫情影响
将ARIMA模型的预测值与LSTM模型对残差序列的预测值相加得到最终预测结果见图10所示。
Figure 10. Comparison between actual value and ARIMA-LSTM fitting value
图10. 实际值与ARIMA-LSTM拟合值对比
实证分析显示,ARIMA-LSTM混合模型在预测性能方面相较于单一模型具有显著优势。该模型的均方根误差(RMSE, 728.04)较基础ARIMA模型(1072.51)和LSTM模型(1372.51)分别降低了32.1%和46.9%;平均绝对误差(MAE, 515.57)较上述两者分别降低了30.5%和44.1%;平均绝对百分比误差(MAPE, 6.89%)也明显优于基础ARIMA模型(13.94%)和LSTM模型(19.31%),优化后的干预ARIMA模型(RMSE = 809.05, MAPE = 7.87%)性能仍稍逊于混合模型。此结果验证了混合模型在极端值预测以及常规误差控制方面的双重优越性,表明其预测精度的稳健特性。研究证实,融合时序特征提取与非线性学习的混合建模方法能够有效提高预测精度,为轨道交通客流管理提供了更为可靠的技术支撑。
4. 结论及建议
本文在混合模型构建以及短期预测领域取得了一定成果,不过,仍存在诸多可改进与扩展之处,针对未来研究方向,给出以下几方面展望:其一,在模型改进方面,当前模型虽已有不错的预测效果,但仍有潜力依靠引入更多影响因素提升精准度,可考虑加入天气数据、节假日信息以及周边商业活动具体情况等多维度数据,这些数据的融入可使模型更全面地捕捉影响客流变化的复杂因素,让预测结果更精确可靠。其二,在实际应用方面,现有研究主要聚焦于常规情况下的客流预测,对于特殊情景,如大型活动举办或极端天气条件下的客流变化,需深入探讨,未来研究应着重开发针对这些特殊情景的客流预测方法,构建更全面灵活的预测系统,契合不同场景实际需求。