基于低秩分解的时空图神经网络交通流量预测方法

doi:10.12677/ojtt.2025.144045

期刊菜单

基于低秩分解的时空图神经网络交通流量预测方法
Low-Rank Decomposition Method for Spatiotemporal Graph Neural Network-Based Traffic Flow Prediction

DOI: 10.12677/ojtt.2025.144045, PDF, HTML, XML, 科研立项经费支持
作者: 乔毅晨^*, 程泽生^#：青岛大学计算机科学技术，山东青岛
关键词: 图卷积网络；低通滤波器；去噪；交通流量预测；Graph Convolutional Network； Low-Pass Filter； Denoising； Traffic Flow Prediction

摘要: 针对现有图神经网络(Graph Neural Network, GNN)模型在交通流量预测中存在的结构冗余与计算复杂度较高问题，提出一种基于谱图理论与图信号处理的GNN优化方法。通过将时空图卷积网络模型与k阶奇异值分解相结合，能够有效抑制预测过程中的高频噪声干扰，在保持模型结构简洁性的同时显著提升预测精度。基于3个公开交通流数据集的实验结果表明，所提模型在短时预测精度和长时预测稳定性上均达到或超越了当下先进模型的性能水平。

Abstract: To address the structural redundancy and high computational complexity issues inherent in existing Graph Neural Network (GNN) models for traffic flow prediction, this study proposes an optimized GNN method based on spectral graph theory and graph signal processing. By integrating a Spatiotemporal Graph Convolutional Network (STGCN) model with k-order Singular Value Decomposition (k-SVD), the proposed approach effectively reduces high-frequency noise interference during predictions while maintaining structural simplicity and significantly enhancing prediction accuracy. Experimental evaluations on three publicly available traffic flow datasets demonstrate that the proposed model achieves or surpasses the performance of state-of-the-art models in both short-term prediction accuracy and long-term prediction stability.

文章引用：乔毅晨, 程泽生. 基于低秩分解的时空图神经网络交通流量预测方法[J]. 交通技术, 2025, 14(4): 446-458. https://doi.org/10.12677/ojtt.2025.144045

1. 引言

全球机动车保有量激增导致城市交通超负荷运行，传统交通管理系统的不足日益凸显。智能交通系统(Intelligent Transportation Systems, ITS)作为破解“拥堵–污染–能耗”恶性循环的关键技术，其核心在于构建高效的交通流量预测体系[1]-[3]。精确的流量预测可提升路网通行效率，并为交通规划者在道路通行能力设计、路面结构优化以及交叉口控制策略制定等方面提供科学依据[4]-[6]。现实场景中，相关数据多通过政府及有关部门设置的传感器或监控摄像等设备获取。但数据采集面临多维约束：固定式传感器存在空间覆盖盲区，移动检测设备受恶劣天气影响显著，导致原始数据存在时变噪声与结构化缺失[7]。为此，研究者们借助机器学习和大数据分析技术，结合成本较低的数据，模拟并预测成本较高的交通流数据[8]-[10]。此方法已成为广泛认可的解决方案之一，并持续得到优化和改进。交通流数据是普遍被视为难以在欧式空间中直接表示的非结构化数据类型[11]-[13]。GNN凭借谱域分析框架与节点消息传递机制[14]-[16]，能够有效捕获路网节点间的高阶依赖关系。因此，GNN已成为交通流量预测的核心技术范式。早期代表性工作如时空图卷积网络(STGCN [17])，通过融合图卷积网络(Graph Convolutional Network, GCN [18])与时间卷积网络(Temporal Convolutional Network, T-CN [19])，实现了对交通流数据时空特征的解耦提取，其基于切比雪夫多项式的单跳邻域聚合机制兼具效率与精度优势。后续研究围绕提升时空建模能力展开：时序图卷积网络(Temporal Graph Convolutional Network, T-GCN [20])引入门控循环单元(Gated Recurrent Unit, GRU [21])增强时序动态表征；基于注意力机制的时空图卷积网络(Attention-based Spatiotemporal Graph Convolutional Network, ASTGCN [22])通过时空权重分配优化局部特征提取；扩散卷积递归神经网络(Diffusion Convolutional Recurrent Neural Network, DCRNN [23])则借助无限阶扩散过程捕捉多跳传播效应。在实际的交通流量预测任务里，多跳邻域模型的性能要优于单跳模型。其核心优势在于，多跳邻域的消息传递机制能够更为精准地捕捉节点间的高阶依赖关系，这对复杂交通流特征的建模起着关键作用。然而，现有主流模型通过堆叠深度学习模块捕获多跳邻域消息，虽取得一定进展，却导致模型复杂度显著增加。如何平衡模型效率与特征提取能力，仍是亟待解决的关键问题。针对上述问题，本研究提出一种基于k阶奇异值分解(k-order Singular Value Decomposition, k-SVD)的谱域低通滤波方法，将k-SVD的低频特征保留策略嵌入STGCN框架，在无需依赖复杂动态图结构优化的前提下，实现对高频噪声的抑制与核心时空特征的定向强化。

2. 图谱理论与图信号处理

2.1. 谱图理论基础

设无权图 $G = {V, E}$ ，其中V代表节点集合，而E代表节点之间边的集合。在交通流量预测任务中，交通网络常被抽象为无向且无权的简单图。邻接矩阵A，其中A_ij表示上游节点i到下游节点j之间边的权重值(在无权图中为1)。度矩阵D是一个对角阵，其中D_ii表示节点i的度数，即与其它相连边的权重值之和。拉普拉斯矩阵L定义为 $L = D - A$ ，描述了相邻节点间的差异，进而用于衡量图信号的平滑性。

谱图理论通过图的拉普拉斯矩阵特征分解实现图信号的谱域转换。通过特征值分解 $L = U Λ U^{T}$ ，可将图信号 $x \in R^{N}$ 转换至谱域： $\hat{x} = U^{T} x$ 。其中U^T是特征向量矩阵U的转置， $Λ = diag (λ_{1}, λ_{2}, \dots, λ_{n})$ 特征值对角矩阵，满足 $0 = λ_{1} \leq λ_{2} \leq \dots \leq λ_{n}$ 。分量 ${\hat{x}}_{i} = u^{T} x_{i}$ 表示信号在频率 $λ_{i}$ 上的投影强度。这一过程的实现有效地规避了图空间域中非结构化数据难以处理的问题。同时也可以通过逆变换 $x = U \hat{x}$ 则可将信号从谱域转换回空间域。原始GCN模型的核心公式为：

$H^{n + 1} = σ (U g (Λ) U^{- 1} H^{n} ω)$ (1)

其中， $H^{n}$ 表示第n层的输入特征矩阵，U表示拉普拉斯矩阵的特征向量矩阵， $Λ$ 表示拉普拉斯矩阵的特征值对角矩阵， $σ (\cdot)$ 表示非线性激活函数。GCN模型通过谱域变换函数 $g (Λ)$ 与卷积层权重矩阵 $ω$ 学习对信号进行谱域处理。GCN通过将信号从空间域变换至谱域，在该域中进行处理后再转换回空间域，这一过程使得GCN能够提取每一跳邻域节点间传递消息的共性特征。从数学角度，拉普拉斯算子的二次型为：

$\begin{matrix} x^{T} L x = [x_{1}^{T} x_{2}^{T} \dots x_{n}^{T}] [\begin{matrix} d_{1} & - a_{12} & \dots & - a_{1 n} \\ - a_{21} & d_{2} & \dots & - a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ - a_{n 1} & - a_{n 2} & \dots & d_{n} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = [x_{1}^{T} x_{2}^{T} \dots x_{n}^{T}] [\begin{matrix} d_{1} x_{1} - \sum_{1 \leq j \leq n, j \neq 1} a_{1 j} x_{j} \\ d_{2} x_{2} - \sum_{1 \leq j \leq n, j \neq 2} a_{2 j} x_{j} \\ ⋮ \\ d_{n} x_{n} - \sum_{1 \leq j \leq n, j \neq n} a_{n j} x_{j} \end{matrix}] \\ = \sum_{1 \leq i \leq n} d_{i} x_{i}^{T} x_{i} - \sum_{i \leq i, j \leq n, i \neq j} a_{i j} x_{i}^{T} x_{j} = \sum_{i \leq i, j \leq n, i \neq j} a_{i j} x_{i}^{T} (x_{i} - x_{j}) \\ = \sum_{1 \leq i, j \leq n, i \leq j} [a_{i j} x_{i}^{T} (x_{i} - x_{j}) + a_{i j} x_{j}^{T} (x_{j} - x_{i})] = \sum_{(i, j) \in E} A_{i j} {(x_{i} - x_{j})}^{T} (x_{i} - x_{j}) \end{matrix}$ (2)

设 $x$ 为拉普拉斯矩阵L的特征向量， $λ$ 为对应的特征值，则

$x^{T} L x = x^{T} λ x = λ x^{T} x = \sum_{(i, j) \in E} A_{i j} {(x_{i} - x_{j})}^{T} (x_{j} - x_{i})$ (3)

式(2)和(3)衡量了图信号的平滑度。由于二次型的非负性，当 $λ_{i} \to 0$ 时， $x^{T} L x \to 0$ ，即信号 $x$ 与其相邻节点特征差异趋于零(低频信号)。交通流数据中，区域路网的流量呈现空间连续性，相邻路段流量相近，即低频信号。相反，高频信号对应相邻节点特征的剧烈波动，通常由测量噪声(如传感器误差)或瞬时扰动(如交通事故)引起。

然而拉普拉斯算子特征值分解的时间复杂度高达 $O (n^{3})$ ，不适用于规模较大的图。因此，研究者通过切比雪夫多项式近似的方法代替拉普拉斯算子特征值分解

$H^{n + 1} = σ ({(D + I)}^{- \frac{1}{2}} (A + I) {(D + I)}^{- \frac{1}{2}} H^{n} ω)$ (4)

这使谱域内的训练仅需关注与每个卷积层权重矩阵 $ω$ 的学习，并直接利用包含自环的邻接矩阵传递信息。从谱域的角度表示式(4)

${(D + I)}^{- \frac{1}{2}} (A + I) {(D + I)}^{- \frac{1}{2}} = Z (I - \tilde{Λ}) Z^{T} ({\hat{λ}}_{i} \in [0, 2) for {\hat{λ}}_{i} \in \tilde{Λ})$ (5)

其中，Z表示归一化拉普拉斯矩阵 $\tilde{L} = I - {(D + I)}^{- \frac{1}{2}} (A + I) {(D + I)}^{- \frac{1}{2}}$ 的特征向量矩阵， $\tilde{Λ}$ 表示 $\tilde{L}$ 的特征值

矩阵。特征值 ${\hat{λ}}_{i} \in [0, 2)$ ，此时GCN在谱域的传播规则的本质是对谱域信号施加线性低通滤波 $g (λ_{i}) = 1 - λ_{i}$ 。同时p层GCN堆叠后的总频响函数为： $g_{total} (λ_{i}) = {(1 - λ_{i})}^{p}$ ，表示每层聚合一跳邻域信息，p层堆叠等价于p跳邻域覆盖。当高频分量经过p次指数衰减 ${(1 - λ_{i})}^{p}$ ，例如 $λ_{i} = 1.5$ 时，5层GCN可使该频率分量衰减至 ${0.5}^{5} \approx 0.03$ ，即原始值的6%。

2.2. k阶奇异值分解(k-SVD)

奇异值分解是一种适用于任意大小矩阵的矩阵分解方法。设任意矩阵M解为左奇异矩阵P、奇异值矩阵 $\sum$ 和右奇异矩阵Q

$M^{T} M = {(P \sum Q^{T})}^{T} P \sum Q^{T} = Q \sum^{T} \sum Q^{T}$ (6)

$M M^{T} = P \sum Q^{T} {(P \sum Q^{T})}^{T} = P \sum \sum^{T} P^{T}$ (7)

其中，左奇异矩阵和右奇异矩阵分别对应于原始矩阵的行空间和列空间。将带自环的邻接矩阵定义为 $\tilde{A} = A + I$ ，其作用于信号 $x$ 后得到

$\tilde{A} x = {[\begin{matrix} x_{1} + \sum_{j = 2}^{n} a_{1 j} x_{j} & x_{2} + \sum_{j = 1, j \neq 2}^{n} a_{2 j} x_{j} & \dots & x_{n} + \sum_{j = 1}^{n - 1} a_{n j} x_{j} \end{matrix}]}^{T}$ (8)

若 $x$ 是 $\tilde{A}$ 的奇异向量，对应的奇异值 $σ$ 为

$\tilde{A} x = [\begin{matrix} 1 & a_{12} & \dots & a_{1 n} \\ a_{21} & 1 & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & 1 \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] = [\begin{matrix} x_{1} + \sum_{i = 1}^{n} a_{1 i} x_{i} \\ x_{2} + \sum_{i = 1}^{n} a_{2 i} x_{i} \\ ⋮ \\ x_{n} + \sum_{i = 1}^{n} a_{n i} x_{i} \end{matrix}] \Rightarrow {(\tilde{A} x)}^{T} (\tilde{A} x) = \sum_{i = 1}^{n} {(x_{i} + \sum_{j = 1}^{n} a_{i j} x_{j})}^{2}$ (9)

$[{(\tilde{A} x)}^{T} (\tilde{A} x)] x = σ^{2} x \Rightarrow σ = \sqrt{1 + 2 \sum_{i, j = 1}^{n} a_{i j} x_{i} x_{j} + {(\sum_{i, j = 1}^{n} a_{i j} x_{j})}^{2}}$ (10)

假设 $x$ 为低频信号，相邻节点特征相似，即满足 $x_{i} \approx x_{j}$ ，此时

$\sum_{i, j} a_{i j} x_{i} x_{j} \approx \sum_{i, j} a_{i j} x_{i}^{2} = x_{i}^{2} \sum_{i, j} a_{i j} = x_{i}^{2} d_{i}$ (11)

其中， $d_{i}$ 为节点i的度数，因此有

$σ \approx \sqrt{1 + 2 x_{i}^{2} d_{i} + {(x_{i} d_{i})}^{2}} = \sqrt{{(1 + x_{i} d_{i})}^{2}} = 1 + x_{i} d_{i}$ (12)

若 $x$ 为高频信号，相邻节点特征差异较大，例如 $x_{i} = - x_{j}$ ，此时

$\sum_{i, j} a_{i j} x_{i} x_{j} = - \sum_{i, j} a_{i j} x_{i}^{2} = - x_{i}^{2} d_{i}$ (13)

$σ \approx \sqrt{1 - 2 x_{i}^{2} d_{i} + {(x_{i} d_{i})}^{2}} = \sqrt{{(1 - x_{i} d_{i})}^{2}} = | 1 - x_{i} d_{i} |$ (14)

观察式(12)和(14)，当 $x_{i} d_{i} > 1$ 或 $x_{i} d_{i} < 1$ ，高频信号对应的 $σ$ 都远小于低频信号。k-SVD通过保留前k个最大的奇异值(对应低频成分)，等效于将高频成分的权重置为0，从而实现理想低通滤波的效果。

在交通流量预测中，STGCN模型的输出矩阵S兼具时间序列与图结构的双重特性。分从空间与时间维度分析：节点间的空间相关性表现为矩阵S的列向量具有低秩性，即低频成分占据主导地位；而交通流量变化的周期性和连续性表现为矩阵S的行向量具有低秩性，即时序特征呈现平滑性。k-SVD通过保留前k个最大奇异值及其对应的奇异向量，对原矩阵进行低秩近似：

$S_{k} = P_{k} \sum_{k} Q_{k}^{T} \approx S$ (15)

上述过程在时空域同步实现去噪：在空间域，通过保留左奇异矩阵 $P_{k}$ (对应空间低频分量)，有效抑制空间高频噪声(如孤立节点的异常波动、传感器误差导致相邻节点流量突变)；在时间域，通过保留右奇异矩阵 $Q_{k}$ (对应时间主成分)，抑制时序预测中的误差积累(如突发事件引发流量异常波动、长期预测中的噪声扩散效应)。特别地，在长时预测场景中，噪声会随着时间步长逐渐积累，而k-SVD的低频截断特性会强制预测结果保持时空的平滑性，避免因高频成分干扰导致的预测发散问题，从而提升模型在长期预测中的稳定性。

3. 方法描述

3.1. 线性低通滤波器到理想低通滤波器

为了避免高维特征分解的计算代价，STGCN采用切比雪夫多项式进行局部滤波近似，一阶切比雪夫多项式对应于一个线性低通滤波器。如图1所示，展示了在不同p值下对应的滤波函数图像。对于p阶多项式堆叠滤波函数表示为 ${(1 - \tilde{λ})}^{p}$ ，这种非线性衰减虽然增强了低频保留能力，但仍属于连续型滤波器。当消息传递次数趋近无穷时，系统将仅保留零频分量(全局均值)，导致过度平滑。因此，合理选择截断阶数p成为平衡特征提取与信息保真的关键。

Figure 1. Filtering functions with different p values and the ideal low-pass filter

图1. 具有不同p值的滤波函数与理想低通滤波器

在图信号处理中，k-SVD过程等价于在谱域中仅保留k个最低频率分量，实现理想的频率截断效果。本研究设计了并行模块(Model-P)，通过并联两个子模块实现多级滤波：子模块1采用一阶切比雪夫多项式(线性低通滤波器)，子模块2采用k-SVD (理想低通滤波器)，结构如图2所示。

通过可训练权重 $α$ 和 $β$ 动态融合子模块的输出，最终形成完整的图卷积操作：

$y = α \cdot ChebConv (x) + β \cdot k -SVD (x)$ (16)

其中， $ChebConv (x)$ 为线性低通滤波器函数， $k -SVD (x)$ 为理想低通滤波器函数。这一设计既保留了传统图卷积的局部特征提取能力，又通过k-SVD增强了对全局低频信息的捕捉，从而在复杂交通场景中实现更精准的时空特征建模。

Figure 2. Parallel model Model-P

图2. 并行模型Model-P

3.2. 串行模型Model-C

尽管Model-P并行模块在理论框架上具有创新性，但存在两方面缺陷：一是引入额外可训练参数导致模型复杂度上升；二是需依赖复杂的后期处理才能实现理想预测精度。为此，本研究提出串行模块Model-C，具体结构如图3所示。

Figure 3. Serial model Model-C

图3. 串行模型Model-C

模型仅在训练周期后对输出矩阵执行k-SVD，此改进显著提升了性能，达到与最新基准模型相当的水平。具体原因主要体现在以下三个方面：

首先，权衡模型复杂性和计算效率。由于Model-P引入了额外的可训练参数(可训练权重 $α$ 和 $β$ )，需要在训练过程中反复执行k-SVD矩阵分解，导致训练时间显著增加(时间复杂度为 $O (k n^{2})$ )，同时加剧了过拟合风险。此外，Model-P的融合机制缺乏有效的约束，导致GCN模块与k-SVD模块的梯度更新方向会产生冲突。相较之下，Model-C通过保持原始STGCN的简洁架构，避免引入额外可训练参数，并且仅在训练周期结束时应用一次k-SVD操作，有效得避免了梯度冲突，额外计算开销可控(尤其是k远小于n时)。

其次，从对原始模型的干扰程度分析。Model-P的并行结构在训练中面临严格低频约束问题：k-SVD的理想低通特性对特征空间施加严格低频限制，可能滤除具有实际意义的中等频率成分(如早晚高峰过渡期的流量波动、区域性拥堵的传播特征)及部分高频有效信号，导致特征多样性下降。这种过度平滑效应在长时预测中尤为明显，会导致误差累积效应随时间步长放大，限制了模型对复杂时空特征的学习能力。反观Model-C，其k-SVD作为独立后处理步骤，允许STGCN自由学习时空特征，仅对最终输出矩阵进行低秩优化以抑制噪声。实验结果表明Model-P在长时预测(如60分钟)任务中性能下降明显(如BEIJING数据集上RMSE = 14.941对比Model-C的13.486)。

最后，关于理论方面，考虑到STGCN架构由两大核心组件构成：两个TCN模块以及一个GCN模块。其输出矩阵的每一行代表图上所有节点在某一特定时间的流量数据，每一列则反映了单个节点在所有时间段内的流量变化，奇异值分解得到的左奇异矩阵和右奇异矩阵分别对应了STGCN输出矩阵的空间域和时域。对于空间信息处理，可将STGCN模型的输出矩阵S近似为 $\tilde{A} x$ ，其中 $\tilde{A} x$ 体现了目标节点与其一跳相邻节点间的信息传递。式(10)表明，空间域中 $k -SVD (\tilde{A} x)$ 可视为图信号的一种理想低通滤波处理。同时，在时间信息处理上与空间信息类似，k-SVD方法能够有效地保留时间信息的主要成分，去除高频时序噪声。特别是在时间序列预测任务中，噪声(或误差)随时间步长积累，通过保留主成分也会抑制误差传播。由于时间模块并非本研究的核心创新点，其具体实现细节将不在此详述。

4. 实验与分析

4.1. 数据集

实验使用3个数据集(表1)，涵盖不同规模交通网络，数据按照7:1.5:1.5的比例划分为训练集、验证集和测试集。实验中，模型从过去3、6和12个时间片中提取特征信息，进而预测未来的交通流量。为确保评估结果的可靠性，所有模型在同一数据集上进行了10次重复的训练与测试。实验用服务器为Intel Xeon W-2133@3.6Hz CPU和32 RAM的NVIDIA V100 GPU。

Table 1. Dataset

表1. 数据集

数据集	节点数	时间片数	说明
BEIJING [24]	3126	21,576	Beijing, China
PEMSD7M [17]	228	12,672	District 7, the state of California
METR-LA [23]	207	34,272	Los Angeles Metropolitan

Model-P作为Model-C的消融实验变体，仅针对空间特征提取部分引入k-SVD并行模块，其中k值取3。STGCN作为较早将GCN应用于交通流量预测任务的模型，随着相关技术的不断更新，STGCN模型逐渐失去了竞争力。因此，若k-SVD这一简单流程能够取得优于结构更为复杂的模型的性能表现，则更能充分彰显本研究提出方法的有效性。

4.2. 评价指标

使用3个评价指标来评价模型的性能，均方根： $RMSE = \sqrt{\frac{1}{m} \sum_{i = 1}^{n} {(h (x_{i}) - y_{i})}^{2}}$ ，平均绝对误差： $MAE = \frac{1}{m} \sum_{i = 1}^{n} | h (x_{i}) - y_{i} |$ ，平均绝对百分比误差： $MAPE = \frac{100}{m} \sum_{i = 1}^{n} | \frac{h (x_{i}) - y_{i}}{y_{i}} |$ 。

4.3. 实验结果

6个基准模型和提出模型(Model-P和Model-C)的实验结果见表2。Model-C在3个数据集(各含3个时间片)的9项实验中，7项性能最优，2项为列前三，仅在METR-LA数据集15分钟的预测结果排第四，其中的一些结果甚至比基线模型高出10%以上。

Table 2. Experimental results

表2. 实验结果

数据集	模型	15 min			30 min			60 min
数据集	模型	RMSE	MAE	MAPE	RMSE	MAE	MAPE	RMSE	MAE	MAPE
BEIJING	STGCN	10.257	5.133	9.61%	12.89	6.264	12.39%	16.533	8.042	16.10%
	ASTGCN	9.704	4.631	10.13%	12.653	6.069	12.38%	15.275	6.796	14.80%
	GMAN	9.597	4.855	14.04%	12.01	5.985	14.71%	13.77	6.338	16.60%
	DCRNN	9.02	4.389	9.69%	12.163	5.635	13.12%	14.918	6.558	15.90%
	MTGNN	8.624	4.079	9.03%	11.525	5.057	11.77%	13.756	5.954	14.30%
	DGCRN	8.577	4.309	8.69%	11.181	4.911	11.09%	13.487	5.79	13.88%
	Model-P	9.764	5.391	11.57%	11.429	6.207	13.71%	14.941	7.745	16.01%
	Model-C	8.273	3.97	8.28%	10.87	4.753	11.79%	13.486	5.805	13.72%
PEMSD7M	STGCN	4.264	2.4	5.35%	5.599	3.143	7.05%	6.788	3.782	8.93%
	ASTGCN	4.369	2.521	5.86%	5.513	2.989	7.70%	6.592	3.603	9.53%
	GMAN	5.736	2.909	7.34%	6.185	3.144	7.87%	7.993	3.993	10.03%
	DCRNN	4.433	2.343	5.57%	5.736	2.96	7.46%	7.223	3.679	9.85%
	MTGNN	4.031	2.205	5.04%	5.42	2.735	6.80%	6.549	3.124	8.32%
	DGCRN	4.069	2.218	5.20%	5.446	2.768	6.78%	6.734	3.336	8.57%
	Model-P	4.170	2.41	5.23%	5.411	2.914	6.96%	6.667	3.578	8.67%
	Model-C	3.984	2.132	5.09%	4.973	2.732	6.45%	6.321	3.36	8.29%
METR-LA	STGCN	6.279	3.542	9.06%	8.155	4.12	10.70%	9.504	4.622	12.53%
	ASTGCN	6.271	3.619	8.72%	7.555	4.178	10.33%	9.991	4.758	13.12%
	GMAN	8.805	5.591	10.03%	9.273	5.969	10.96%	10.245	7.165	12.78%
	DCRNN	6.292	3.54	8.70%	7.504	4.111	10.37%	9.661	4.757	12.31%
	MTGNN	6.245	3.239	9.04%	7.448	3.681	10.58%	9.052	4.221	12.21%
	DGCRN	6.045	3.141	7.95%	7.292	3.482	9.69%	8.691	4.133	12.04%
	Model-P	6.256	3.5	8.93%	8.009	4.06	10.51%	9.5	4.593	12.51%
	Model-C	6.273	3.222	8.50%	7.261	3.478	9.66%	8.666	4.143	11.80%

如图4所示，Model-C与STGCN在METRO-LA数据集(60分钟预测)的250周期训练损失对比，观察结果可以得出Model-C在训练稳定性方面优于STGCN。通过实验结果(表2) Model-C相较STGCN稳定提升约5%，结合图4的损失函数曲线可知，两者共同验证了Model-C和k-SVD去噪方法的有效性，同时证实了多跳邻域消息传递机制的重要性，以及k-SVD作为低通滤波器的设计合理性。

实验结果表明，Model-P的各项指标普遍劣于Model-C。具体而言，在BEIJING数据集60分钟预测中，Model-P的RMSE为14.941，显著高于Model-C的13.486。又如在METR-LA数据集30分钟预测中，Model-P的RMSE为8.009，也高于Model-C的7.261。深入分析表明，Model-C的串行设计更契合交通流数据的时空多尺度特性：首先通过STGCN的切比雪夫多项式卷积提取多跳邻域的局部特征(包含中等频率成分)，继而利用k-SVD实现全局高频噪声抑制，形成“特征学习–噪声过滤”的分层处理机制。

反观Model-P的并行架构，其强制融合线性低通滤波与理想低通滤波的设计存在内在缺陷：一方面，额外引入的可训练参数导致训练时间复杂度显著提升，且双模块梯度更新方向的潜在冲突易引发优化目标紊乱；另一方面，训练阶段k-SVD的理想低通特性对特征空间施加严格低频约束，可能误将早晚高峰过渡特征等中等频率有效信号及部分高频有用信息滤除，造成特征多样性损耗。

Figure 4. Comparison of loss function curves between Model-C and STGCN (METR-LA dataset, 60-minute prediction)

图4. Model-C与STGCN的损失函数曲线对比(METR-LA数据集，60分钟预测)

4.4. 交通流量预测的分析

Figure 5. Predict result comparison on BEIJING dataset, 12 steps (60 mins)

图5. 在BEIJING数据集12步(60分钟)的预测结果对比

Figure 6. Predict result comparison on PEMSD7M dataset, 12 steps (60 mins)

图6. 在PEMSD7M数据集12步(60分钟)的预测结果对比

Figure 7. Predict result comparison on METR-LA dataset, 12 steps (60 mins)

图7. 在METR-LA数据集12步(60分钟)的预测结果对比

Figure 8. Prediction results for Model-C vs. ground truth

图8. Model-C的预测结果与真实值对比

本节通过实验评估模型在交通流量预测中的性能。如图5~7所示，分别比较了同一数据集中不同模型在同一时间片上对随机选择300个顶点的预测结果(结果越收敛于直线 $y = x$ ，则预测性能越好)，Model-C预测结果非常突出，例如BEIJING数据集的预测误差显著低于基线(图5)。

如图8所示，Model-C在九个不同数据集上针对不同时间片的目标节点的预测结果与实际交通流结果的对比。预测总时长为1天，即12 * 24 = 288个时间片。实验结果表明，Model-C的预测结果与真实值高度吻合。

时间序列分析(图8)表明，Model-C可以有效捕捉交通流量的高峰、低谷及稳态特征，并做出合理的预测。然而，但随着预测跨度越长(从3个时间片到6个时间片再到12个时间片)，模型对细微波动的捕捉能力下降，预测结果就越平滑。此时，模型对小幅波动的敏感度降低，预测效果变差。这是由于时间模块本身存在的缺陷所致，时间序列分析中的长程依赖问题一直难以有效解决。

此外，从图5~7进一步分析发现，与基线模型相比，Model-C对高流量节点预测精度更优，而对低流量节点误差较高。这可能是由于Model-C的基本原理是低通滤波，即图信号通过Model-C后会变得更加平滑。在城市交通系统中，高流量节点多位于连通热点区域，节点密集且流量相似，滤波后的平滑处理有助于精确预测。另一方面，低流量节点和非热点区域则倾向于分散在热点区域周围，且彼此之间仅通过少数节点连接，这些节点的流量差异可能较大，但低通滤波抑制了这类高频变化。这可能是Model-C呈现出图5~7所示特征的原因。此外，影响Model-C性能的另一个因素是，部分预测结果误差极大，甚至成为异常值。若未来研究中能有效解决这一问题，有望使整个模型在交通流量预测任务中表现更优。

5. 结束语

本文提出一种将k-SVD与STGCN相结合的交通流量预测方法，通过在STGCN训练周期后对输出矩阵执行k-SVD的串行模块设计，能在不引入额外可训练参数的前提下，有效抑制预测过程中的高频噪声干扰，在保持模型结构简洁性的同时显著提升预测精度。实验结果表明，所提Model-C模型在3个公开交通流数据集上的短时预测精度和长时预测稳定性均达到或超越当下先进模型的性能水平，验证了去噪机制对模型泛化能力的强化作用。但当前模型对低流量节点的预测误差较高，未来研究将针对稀疏节点的高频噪声特性，设计自适应低通滤波机制，进一步提升模型在多尺度交通场景中的泛化能力与预测精度。

基金项目

RZ2400004850强随机性下短时交通流量预测的图滤波与神经网络耦合模型研究；RZ2300000922基于交通大数据的交通网络图属性推断研究。

NOTES

^*第一作者。

^#通讯作者。

参考文献

[1]	Boukerche, A., Tao, Y. and Sun, P. (2020) Artificial Intelligence-Based Vehicular Traffic Flow Prediction Methods for Supporting Intelligent Transportation Systems. Computer Networks, 182, Article ID: 107484. [Google Scholar] [CrossRef]
[2]	Liu, Y., Wu, F., Liu, Z., Wang, K., Wang, F. and Qu, X. (2023) Can Language Models Be Used for Real-World Urban-Delivery Route Optimization? The Innovation, 4, Article ID: 100520. [Google Scholar] [CrossRef] [PubMed]
[3]	Zhang, J., Wang, F., Wang, K., Lin, W., Xu, X. and Chen, C. (2011) Data-Driven Intelligent Transportation Systems: A Survey. IEEE Transactions on Intelligent Transportation Systems, 12, 1624-1639. [Google Scholar] [CrossRef]
[4]	Andreotti, E., Selpi and Boyraz, P. (2023) Potential Impact of Autonomous Vehicles in Mixed Traffic from Simulation Using Real Traffic Flow. Journal of Intelligent and Connected Vehicles, 6, 1-15. [Google Scholar] [CrossRef]
[5]	Lu, Q., Tettamanti, T., Hörcher, D. and Varga, I. (2019) The Impact of Autonomous Vehicles on Urban Traffic Network Capacity: An Experimental Analysis by Microscopic Traffic Simulation. Transportation Letters, 12, 540-549. [Google Scholar] [CrossRef]
[6]	Zhang, Z., Li, M., Lin, X., Wang, Y. and He, F. (2019) Multistep Speed Prediction on Traffic Networks: A Deep Learning Approach Considering Spatio-Temporal Dependencies. Transportation Research Part C: Emerging Technologies, 105, 297-322. [Google Scholar] [CrossRef]
[7]	Lee, J., Hong, B., Lee, K. and Jang, Y. (2015) A Prediction Model of Traffic Congestion Using Weather Data. 2015 IEEE International Conference on Data Science and Data Intensive Systems, Sydney, 11-13 December 2015, 81-88. [Google Scholar] [CrossRef]
[8]	Coretti Sanchez, N., Martinez, I., Alonso Pastor, L. and Larson, K. (2022) On the Simulation of Shared Autonomous Micro-Mobility. Communications in Transportation Research, 2, Article ID: 100065. [Google Scholar] [CrossRef]
[9]	Liu, Z., Liu, Y., Meng, Q. and Cheng, Q. (2019) A Tailored Machine Learning Approach for Urban Transport Network Flow Estimation. Transportation Research Part C: Emerging Technologies, 108, 130-150. [Google Scholar] [CrossRef]
[10]	Xie, P., Li, T., Liu, J., Du, S., Yang, X. and Zhang, J. (2020) Urban Flow Prediction from Spatiotemporal Data Using Machine Learning: A Survey. Information Fusion, 59, 1-12. [Google Scholar] [CrossRef]
[11]	Lv, M., Hong, Z., Chen, L., Chen, T., Zhu, T. and Ji, S. (2021) Temporal Multi-Graph Convolutional Network for Traffic Flow Prediction. IEEE Transactions on Intelligent Transportation Systems, 22, 3337-3348. [Google Scholar] [CrossRef]
[12]	Peng, H., Du, B., Liu, M., Liu, M., Ji, S., Wang, S., et al. (2021) Dynamic Graph Convolutional Network for Long-Term Traffic Flow Prediction with Reinforcement Learning. Information Sciences, 578, 401-416. [Google Scholar] [CrossRef]
[13]	Sarker, I.H. (2021) Machine Learning: Algorithms, Real-World Applications and Research Directions. SN Computer Science, 2, Article No. 160. [Google Scholar] [CrossRef] [PubMed]
[14]	Zhou, J., Cui, G., Hu, S., Zhang, Z., Yang, C., Liu, Z., et al. (2020) Graph Neural Networks: A Review of Methods and Applications. AI Open, 1, 57-81. [Google Scholar] [CrossRef]
[15]	Xu, K., Hu, W., Leskovec, J., et al. (2018) How Powerful Are Graph Neural Networks?
[16]	Scarselli, F., Gori, M., Hagenbuchner, M., Monfardini, G., et al. (2009) The Graph Neural Network Model. IEEE Transactions on Neural Networks, 20, 61-80. [Google Scholar] [CrossRef] [PubMed]
[17]	Yu, B., Yin, H. and Zhu, Z. (2018) Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting. Proceedings of the 27th International Joint Conference on Artificial Intelligence, Stockholm, 13-19 July 2018, 3634-3640. [Google Scholar] [CrossRef]
[18]	Kipf, T.N. and Welling, M. (2016) Semi-Supervised Classification with Graph Convolutional Networks.
[19]	Lea, C., Flynn, M.D., Vidal, R., Reiter, A. and Hager, G.D. (2017) Temporal Convolutional Networks for Action Segmentation and Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 156-165. [Google Scholar] [CrossRef]
[20]	Zhao, L., Song, Y., Zhang, C., Liu, Y., Wang, P., Lin, T., et al. (2020) T-GCN: A Temporal Graph Convolutional Network for Traffic Prediction. IEEE Transactions on Intelligent Transportation Systems, 21, 3848-3858. [Google Scholar] [CrossRef]
[21]	Chung, J., Gulcehre, C., Cho, K., et al. (2014) Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling.
[22]	Guo, S., Lin, Y., Feng, N., Song, C. and Wan, H. (2019) Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 922-929. [Google Scholar] [CrossRef]
[23]	Li, Y., Yu, R., Shahabi, C., et al. (2017) Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting.
[24]	Cai, Z., Jiang, R., Yang, X., Wang, Z., Guo, D., Kobayashi, H.H., et al. (2023) MemDA: Forecasting Urban Time Series with Memory-Based Drift Adaptation. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, Birmingham, 21-25 October 2023, 193-202. [Google Scholar] [CrossRef]

为你推荐

友情链接