1. 引言
城市地铁作为城市公共交通的核心组成部分,在缓解交通压力、提升出行效率中发挥着不可替代的作用。尤其对于大型城市而言,精准的地铁客流预测是优化运营调度[1]、实现高效客流管理及支持个人出行规划的重要基础。地铁网络本质上是一个具有复杂时空特征的动态系统,其客流模式不仅随时间呈现周期性变化,还因站点功能、周边环境等因素存在显著差异。例如,图1显示了杭州三个不同地铁站在一周内的客流量变化。1号站点作为中转枢纽,整体客流模式并不规律,一天内波动幅度较其它两站更大。早晚时段虽然也会出现高峰,但峰值的持续时间和强度常常在不同工作日或周末间存在明显差异。出站客流同样具有较大起伏,体现了不同线路换乘乘客在不同时段集中或分散出站的复杂特征。2号站点早上7:00~9:00的进站流量高峰显著,傍晚17:00~19:00虽然也出现客流上扬,但相对早高峰而言更为温和,出站客流体现了较强的早晨出站需求,而晚间出站的增加幅度较小。3号站在下午至傍晚时段出现了大幅度的上升,形成了较高的晚高峰。这些现象表明,地铁客流预测本质上是一个时空预测任务,其核心在于从数据中挖掘动态的时空依赖关系[2]。
早期的研究主要采用传统统计方法,如ARIMA [3]、SARIMA [4]等时间序列模型,但这些方法难以有效建模客流数据中复杂的时空关联。随后,机器学习方法如支持向量回归(SVR) [5]、K近邻(K-NN) [6]等被引入,但仍受限于对高维非线性时空模式的学习能力。近年来,深度学习技术为交通预测提供了新的思路:循环神经网络(RNN) [7]及其变体(如LSTM、GRU)擅长捕捉时间序列的局部依赖;卷积神经网络(CNN) [8]则通过空间卷积提取区域关联特征。二者的融合模型[9]进一步实现了时空联合建模,显著提升了预测性能[10]。此外,图神经网络(GNN) [11]因其对图结构数据的天然适配性,成为建模地铁网络空间依赖关系的有效工具。例如,王金水等[12]提出的时空超图卷积模型,通过超图卷积提取站点间的高阶交互,实现了短时客流预测。随着Transformer架构[13]的兴起,注意力机制被广泛应用于交通预测。王雪琴等[14]结合图卷积网络(GCN)、门控循环单元(GRU)与注意力机制,构建混合模型以提升短时预测精度,禹倩等[15]提出一种深度集成神经网络的短时客流预测模型,该模型利用门控循环单元提取进站客流的时间依赖性,同时利用Transformer获取出站客流对于进站客流的影响。
Figure 1. Three stations with different passenger flow patterns
图1. 三个站点的不同客流模式
尽管已有研究取得一定进展,现有方法仍存在明显局限:其一,多数基于GNN的模型依赖预定义的静态邻接矩阵[16]或固定图融合策略[17],难以刻画真实场景中动态演化的空间关系(如高峰时段站点关联强度变化);其二,部分研究将地铁站点视为同质节点,忽视了个性化流量模式(如枢纽站与普通站的差异)。这些缺陷导致模型对复杂时空动态的适应性不足,制约了预测精度的进一步提升。
针对现有方法在动态空间关系建模与站点个性化特征刻画上的不足,本文提出一种自适应时空图交互模型(ASTGN)。该模型通过异构节点嵌入模块自适应学习站点的个性化时空表征,精准区分枢纽站、通勤站等差异化流量模式;动态图依赖建模模块直接从时空数据中挖掘站点间的动态空间依赖关系,突破传统方法对预定义静态邻接矩阵的依赖;结合多步时序注意力模块,基于Transformer架构的自注意力机制捕捉长期时间依赖,有效缓解传统RNN的误差累积问题;此外,动态融合机制通过时空特征的协同交互与自适应加权,显著增强模型对节假日、突发事件等客流突变的适应能力。实验表明,ASTGN在杭州地铁数据集上对15分钟至60分钟的多粒度预测任务中,较基准模型均取得了较低的误差,且高峰期预测曲线与真实客流波动高度契合,为地铁运营调度优化与公众出行规划提供了高精度、强鲁棒性的参考方案。
采用基于Transformer的长期时间关系预测模块对地铁长期流进行预测。预测结果可为城市地铁运营管理和个人出行规划提供有益参考。
使用杭州的地铁数据集进行了实验。与10种基线方法相比,实验结果的预测性能有明显提高。
2. 模型构建
模型的总体架构如图2所示,它由时空嵌入模块、动态图依赖建模模块、多步时序注意力模块和动态融合模块组成。首先,模型引入异构节点嵌入模块(HNE),以针对不同地铁站点学习个性化的时空表示,并捕捉站点特定的流量模式。随后,动态图依赖建模模块(DGDM)自适应地学习站点间的动态空间交互关系,从地铁流量数据中自动提取站点间的动态依赖,而无需依赖预定义的拓扑结构。接着,模型采用多步时序注意力模块(MSTA),基于自注意力机制建模时间维度上的长时序依赖关系,从而提升长期预测能力,使预测结果更加适用于实际的地铁运营管理和客流调度。最后,动态融合模块(DFM)对时空特征进行整合,使得空间和时间信息相互补充,以提高模型的整体预测性能。
Figure 2. Diagram of the practical teaching system of automation major
图2. 自动化专业实践教学体系图
2.1. 问题定义
首先定义和表示地铁流预测任务和相关的概念符号。在第i站,时段t的地铁流量可表示为
,其中包含乘客的进站流量和出站流量。整个地铁网络的流量信息可以表示为
,其中N代表地铁站点的数量。本研究关注地铁客流的两个关键方面:乘客的进站流量与出站流量。地铁站点流量预测任务可以定义为在给定历史流量序列的情况下,预测未来一段时间的流量序列。
(1)
式中,f表示模型的预测过程,n为输入流序列的长度,m为预测流序列的长度。
2.2. 时空嵌入模块
2.2.1. 异构节点嵌入模块
在流量预测任务中,传统方法通常假设图上所有节点共享相同的权重和偏差参数,如式(2)所示:
(2)
其中
为图的邻接矩阵,D为度矩阵,
为单位矩阵,
为图卷积网络层的输入,
为图卷积网络层的输出,C、F分别为嵌入维数。
和
分别表示可学习权重和偏差。
然而,实际交通网络中的不同节点往往表现出不同的流量模式,这种差异可能源于节点周围的兴趣点(POI)分布、天气条件、以及流量模式的不同属性。因此,为了更精准地预测流量,需要对不同节点的特征进行建模,而不是采用全局共享参数的方式。为此,本文采用异构节点嵌入模块(Heterogeneous Node Embedding, HNE)来学习特定节点的个性化模式。该模块通过构建节点嵌入矩阵
和权值矩阵
来计算学习权重和偏差,结合邻接信息,使得不同节点可以拥有不同的特征表达形式。最终,该模块在计算公式(2)的基础上进行改进,具体如下:
(3)
其中,
为不同节点提供独立的表征,而
赋予了每个节点不同的学习参数,从而从所有站点时间序列模式中学习节点特定的流量模式,偏置b也用同样的方法计算。
2.2.2. 动态图依赖建模模块
在地铁客流预测场景中,由于车站之间在先验拓扑上通常是固定连通的,传统的静态邻接关系往往难以反映某些时刻下可能出现的动态交互。而乘客流量又具有显著的时间变化特性,同一车站在不同时刻与周边车站间的关联程度并不恒定。针对上述问题,在模型中引入了动态图依赖建模模块(Dynamic Graph Dependency Modeling, DGDM),旨在自适应地挖掘不同时段内站点间的时空关联,为后续的预测提供更加精准的图结构信息。首先对所有节点随机初始化一个可学习节点嵌入字典
。在模型训练过程中,
将被动态更新。
的每一行表示节点的嵌入表示,
表示节点嵌入的维数。然后将
与
相乘计算节点间的空间依赖关系,最后得到生成的图拉普拉斯矩阵,如下式所示。
(4)
其中,ReLU(⋅)用于提取正向相关性,softmax(⋅)函数用于对学习到的自适应矩阵进行归一化,以保证每个节点的连边权重能够进行概率化解释,从而能够在当前时间片刻动态刻画车站间的潜在关系,而不再局限于静态邻接信息。有了这一动态图邻接结构后,可以通过图卷积网络(GCN)来更新节点的特征表示。其更新方式可为:
(5)
由于客流数据存在显著的时间依赖,进一步在时间维度使用门控循环单元(GRU)来建模节点表示随时间演化的过程。对时间步t的节点表示,GRU的核心更新方程可描述如下:
(6)
其中
为串联运算,为元素相乘,
、
、
、
、
、
、
为需要学习的参数,
、
为时间步长t的输入和输出。
2.2.3. 多步时序注意力模块
为了更准确地预测地铁流量的长期变化趋势,提出多步时序注意力模块(Multi-Step Temporal Attention, MSTA)以捕捉时间序列的长期依赖关系和全局特征。MSTA采用基于Transformer的框架,包含多头自注意力机制、前馈神经网络层和层归一化处理,能够有效整合不同时间步的信息,提高预测精度。
多头自注意力层计算时间序列中各个时间点的相关性,权衡远近时间步之间的影响。注意力计算公式如公式(7)所示。计算所有按键和给定查询之间的点积,除以
,然后乘以V。最后,使用Softmax函数来计算每个位置的注意力分数。这些注意力分数将被用作权重,以聚合来自不同部分的信息。长期时间相关性是在高维潜在子空间中计算的。
(7)
其中Q、K和V分别表示所有节点的查询子空间、关键字子空间和值子空间。由于自注意力机制本身不具备时间顺序信息,MSTA采用位置编码来补充时间维度的特征,使得模型能够识别数据的时间先后关系,位置编码的公式如下所示:
(8)
这一编码方式通过正弦和余弦函数生成不同频率的信号,为每个时间步引入独特的数值表示,使模型能够更好地学习长期时间相关性。
2.2.4. 动态融合模块
为了有效利用捕获的时空依赖关系,引入动态融合模块(Dynamic Fusion Module, DFM),用于整合时空学习到的特征,使得模型能够更精准地捕捉时空交互关系。其计算方式如下所示:
(9)
其中
是空间关系学习模块的输出,
是时间关系学习模块的输出,是Hadamard乘积,
和
是可学习的权重参数。
3. 实验设置
3.1. 数据描述
使用杭州地铁系统的刷卡交易记录构建了HZMetro数据集,该数据集涵盖2019年1月的地铁客流情况,包括80个站点,这些站点通过248条物理轨道连接。杭州地铁的日均客流量约235万人次,数据按照15分钟的时间间隔统计每个站点的进出站流量,以捕捉地铁客流的动态变化特征。表1概况了HZMetro的主要信息。
Table 1. HZMetro dataset
表1. HZMetro数据
数据 |
HZMetro |
城市 |
杭州 |
站点 |
80 |
物理边数量 |
248 |
时间间隔 |
15 min |
日工作时间 |
5:30~23:30 |
训练时间范围 |
1/01/2019~1/18/2019 |
验证时间范围 |
1/19/2019~1/20/2019 |
测试时间范围 |
1/21/2019~1/25/2019 |
3.2. 评估指标
使用了时空预测任务中常用的三个指标:平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)来评价该方法的性能。公式如下:
(10)
(11)
(12)
其中,
表示实际流入值或实际流出值,
表示相应的预测值,n为样本总数。
3.3. 基线模型与实验设置
将ASTGN模型与10个基线模型进行了比较。这些模型可以分为四类,包括:1) 一个传统的时间序列模型,2) 两个单一的深度学习模型,3) 近年来提出的用于交通预测或多变量时间序列预测六个图时空网络模型,4) 一个基于transformer的交通预测模型。这些模型的详细描述如下。
历史平均(HA):该模型通过对同一时间片中的历史流量进行平均来获得当前流量。此方法每次针对单个时间序列进行计算。
长短期记忆(LSTM):这是一种经典的时间序列深度学习方法,它捕获时空序列的时间相关性。
门控递归单元(GRU):作为RNN的一种变体模型,它也能捕捉时空序列中的时间序列相关性,但不能学习空间相关性。它是一种基于深度学习的时间序列预测方法。
DCRNN:为了捕捉道路网络复杂的空间相关性和非线性时间动力学,提出了一种用于交通预测的扩散卷积递归神经网络。它是基于图神经网络的时空序列预测的经典方法之一。
STGCN:这是一个基于卷积结构的时空图卷积网络,用于交通预测。该算法训练速度快,参数少。
AGCRN:该方法不需要预定义的空间图,是一种自适应图卷积网络,可以从时空数据中学习时空依赖关系。
STTN:这是一个基于Transformer的交通预测时空模型。
Graph WaveNet:它使用节点嵌入的方法来学习自适应的空间图结构,提出了一种结合图卷积和扩张因果卷积的时空图网络方法。
Mulit-STGCnet:它是一种将图卷积网络和LSTM相结合的地铁客流预测模型。
GMAN:这是一个用于长期交通预测的图形多注意力编解码器模型。
使用PyTorch深度学习框架实现ASTGN模型和比较方法中的模型。所有实验均在Windows 10系统(CPU:Intel (R) Core (TM) i5-7300HQ 2.5 GHz,RAM:16 GB随机存取内存,GPU:NVIDIA GTX 1050,3 GB内存)上运行。在杭州地铁数据集中,每天23:30~05:30之间的刷卡数据被直接删除,因为该时段不在地铁的运营时间范围内,不会有乘客进出站。数据集按照时间顺序划分为训练集、验证集和测试集。批量大小设为64。使用Adam优化器来优化模型,最大训练200轮,并采用早停策略,耐心值设为50,学习率设为0.01。以4个历史时间点的数据为输入,以接下来4个时间点的数据为输出。
4. 实验结果分析
表2所示,在HZMetro数据集上的实验表明,所提出的ASTGN模型在短时客流预测任务中表现优异,并在多个时间粒度上均取得了较低的误差。ASTGN在预测精度、时空依赖建模能力和稳定性等方面均展现出明显优势。在15分钟的短时预测中,传统时间序列方法HA的误差较大,MAE和RMSE值远高于其他模型,表明其在复杂的轨道交通客流预测任务中表现较差。与基于图神经网络的AGCRN (MAE = 23.70)和GMAN (MAE = 24.26)相比,ASTGN的MAE进一步降低约1.1%,表明其异构节点嵌入(HNE)模块能更精准地捕捉站点个性化流量模式(如枢纽站与通勤站的差异)。相比之下,LSTM和GRU等基于时间序列的深度学习方法显著降低了预测误差,但仍然受限于对复杂时空依赖关系的建模能力。在30 min短时预测上,相较于LSTM、GRU等时间序列模型降低了3~5个百分点,并优于DCRNN、STGCN等时空图神经网络模型,展现出更强的短时客流变化捕捉能力。同时,在60 min长时预测上,ASTGN的误差控制能力优于STGCN、DCRNN等基线模型,表现出更好的稳定性。相比AGCRN,GMAN (在大多数情况下表现最好和次好),ASTGN不仅在短时预测中保持更低的误差,同时在长时间粒度下依然保持较高的精度,避免了部分模型在时间步长增加后预测性能下降的问题。
Table 2. Comparison of prediction performance across models
表2. 各模型的预测性能比较基线方法在HZMETRO数据集上的性能比较
模型 |
15 min |
30 min |
45 min |
60 min |
MAE |
RMSE |
MAPE (%) |
MAE |
RMSE |
MAPE (%) |
MAE |
RMSE |
MAPE (%) |
MAE |
RMSE |
MAPE (%) |
HA |
71.81 |
136.8 |
60.89 |
71.81 |
136.8 |
60.89 |
71.81 |
136.8 |
60.89 |
71.81 |
136.8 |
60.89 |
LSTM |
28.19 |
50.02 |
26.49 |
28.53 |
51.19 |
26.92 |
28.33 |
51.61 |
27.08 |
29.54 |
53.42 |
33.09 |
GRU |
27.58 |
48.54 |
24.92 |
28.04 |
49.71 |
25.74 |
28.30 |
51.08 |
26.35 |
28.79 |
51.58 |
30.53 |
DCRNN |
27.20 |
49.51 |
22.61 |
31.34 |
57.98 |
26.09 |
36.97 |
70.57 |
28.84 |
43.14 |
85.00 |
32.68 |
STGCN |
28.07 |
48.95 |
30.26 |
32.04 |
56.54 |
35.68 |
37.40 |
65.75 |
42.52 |
44.22 |
77.96 |
60.89 |
AGCRN |
23.70 |
40.54 |
22.97 |
25.04 |
43.04 |
26.57 |
25.76 |
45.30 |
25.38 |
27.32 |
46.72 |
30.96 |
STTN |
27.98 |
48.45 |
23.98 |
28.77 |
49.43 |
27.35 |
28.35 |
49.33 |
25.56 |
30.73 |
52.51 |
34.99 |
Graph wavenet |
24.96 |
42.75 |
24.67 |
27.26 |
44.93 |
27.75 |
29.34 |
50.80 |
28.34 |
31.76 |
55.88 |
32.36 |
Multi-STGCnet |
44.56 |
92.23 |
33.75 |
43.49 |
92.08 |
33.95 |
44.2 |
92.81 |
33.46 |
45.07 |
93.82 |
37.67 |
GMAN |
24.26 |
39.94 |
23.32 |
24.89 |
40.90 |
21.61 |
25.02 |
42.82 |
25.25 |
26.02 |
44.42 |
22.16 |
ASTGN |
23.45 |
39.82 |
20.91 |
23.49 |
40.55 |
21.33 |
24.86 |
42.93 |
22.53 |
25.46 |
44.91 |
25.91 |
如图3所示,从进出站流量预测曲线来看,ASTGN在高峰期的预测误差较小,尤其在站点1的进站(红色曲线)和出站(红色曲线)预测上,与真实值(黑色虚线)吻合度较高,能够精准刻画早晚高峰的客流波动趋势,这主要得益于动态图依赖建模(DGDM)模块对站点间动态关联强度的自适应捕捉(如换乘客流的瞬时激增)。而在站点2,ASTGN同样能够较好拟合真实流量变化,尤其在低客流时段(20~40时间点),预测曲线平稳,避免了传统时间序列模型容易出现的误差积累和波动放大问题。这说明ASTGN能有效建模地铁客流的时空依赖特性,在不同客流密度下均能保持较高的预测精度。
Figure 3. Prediction performance for entry and exit passenger flow
图3. 进站和出站预测效果
5. 结论
本文提出了一种新的自适应时空图交互模型(ASTGN),用于城市轨道交通客流预测。ASTGN能够有效建模不同地铁站的流量模式,并通过动态图依赖建模模块捕捉站点间的动态空间交互关系。此外,ASTGN结合多步时序注意力机制,能够学习长期时间依赖关系,从而提升长期预测能力。在杭州地铁数据集上对模型进行了验证,并与10种基线方法进行了对比实验,结果表明ASTGN在多个时间粒度上均取得了显著的性能提升。尽管ASTGN模型在杭州地铁数据集上展现了优越的预测性能,但仍存在以下局限性。
1) 数据依赖性与泛化能力:模型的训练和验证均基于单一的杭州地铁数据,未验证其在其他城市或不同规模轨道交通系统中的适用性。此外,数据质量(如噪声、缺失值)可能显著影响模型表现,尤其是在低客流时段或突发事件场景下。
2) 长期预测的稳定性:虽然模型在60分钟预测中表现良好,但更长时间跨度(如数小时或全天)的预测性能仍需验证,且可能存在误差累积问题。
未来,计划进一步探索外部因素(如天气、事件和POI)对地铁客流变化的影响,并研究突发大客流的检测和应对策略,以提升模型的实用性。此外,开发可视化的工具(如注意力权重热力图、动态图演化轨迹),可以揭示模型对时空依赖关系的捕捉逻辑。通过上述改进,ASTGN模型有望进一步为城市轨道交通系统的智能化管理提供更可靠的技术支持。