1. 引言
随着经济的快速增长,机动车的保有量不断增加,人们的出行也变得越来越便捷,但随着也产生了交通拥堵问题。根据中国城市规划设计研究院发布的《2022年中国主要城市通勤监测报告》所知,2021年主要城市平均通勤时耗为36分钟。报告还指出在44个中国主要城市中,76%的通勤者45分钟以内可达目的地,更为严重的是有超过1400万人承受着60分钟以上的极端通勤。交通流量预测对优化通勤效率具有重要意义。
然而,对交通数据的动态时空相关性进行建模以实现交通流预测具有挑战性,因为交通流通常表现出高度的非线性和复杂性 [1]。例如,交通流量受其历史交通状况和上游道路状况的影响。目前国内外主要的交通流预测方法有传统方法预测和图卷积方法预测。其中传统方法预测的有基于支持向量机预测 [2] [3]。基于图卷积的预测又分为基于同构图卷积的预测 [4] [5] [6] [7] 和基于异构图卷积的预测 [8] [9] [10] [11]。此外,利用其他领域模型 [12] [13] [14] 进行交通流量预测也是一种重要的预测方法。
在交通流量预测研究的初期,Jiang等人 [15] 提出将城市的交通道路信息建模为网格并利用卷积神经网络(CNN)对网格内的道路信息进行特征提取,由于将具有高维特征信息的交通路网降维为网格,导致交通网络的高维信息丢失,预测结果差强人意。
为了更好的挖掘交通网络的高维信息,获得节点与节点之间的空间相关性。Chen等人 [16] 提出图卷积神经网络(GCN)使用了非欧几里得图结构表示交通路网以更好的捕捉路网的拓扑结构。
但是独立的GCN不能很好的捕捉交通流量的时间相关性,为解决这一问题,Zhao等人 [17] 提出时间图卷积神经网络(T-GCN),它引入GCN捕捉交通路网的拓扑结构,以建模空间相关性。为了建模时间相关性,它又引入GRU来获取道路上交通数据的动态变化。
虽然说T-GCN对交通流量预测的精准度有明显提示,但是由于它使用GRU模型,其含有大量的参数且不支持并行处理,导致算法训练起来困难。为解决这一问题,Yu等人 [18] 提出时空图卷积网络(STGCN),它使用切比雪夫近似简化的GCN建模空间相关性,并引入完全卷积的时间卷积网络(TCN)去建模时间相关性,大大增加了模型的收敛速度。
虽然它在很大程度上降低了模型的复杂度,加快了模型的训练速度。但是它仅考虑每条道路之间的连通性,而忽略了其他影响交通流量的因素,如天气、道路条件等,因此其对空间相关性的建模还有很大的可提升空间。
为了解决上述问题,即提高交通流量预测的精确度,我们做了如下工作:
· 我们提出一个基于时空卷积的异质图模型,设计它来捕捉时间特征和空间特征并将两种特征进行融合,提升交通图的信息表达能力,进而提高交通流量预测的精准度。
· 在空间特征上,不再利用邻接矩阵构建传统的同质图,而是考虑到图中边的信息的充分利用,我们将实时的天气情况和道路的维护情况嵌入到边信息中,然后将同质图中的结点信息和边的信息重构为异质图,以此来增加各影响因素之间的相关性,更好地提取交通图的空间特征。
· 在时间特征上,不再使用目前主流的门控循环单元(GRU)和长短时记忆(LSTM)网络。因为它们难以保存非常长期的序列信息,这导致在前进路径中时间序列中长期时间依赖性的丧失。其次他们内部都由多个全连接层(MLP)组成,导致训练起来十分困难。为了解决训练困难的问题,本文提出使用卷积操作,其可支持并行处理。它通过控制卷积的膨胀系数和步长,来实现对序列数据中的前后相关性的挖掘,进而完成对数据集时间特征的提取,提高训练效率。
· 使用本文提出的模型,在真实数据集上进行实验,实验结果表明该模型在MAE和RMSE两个指标上均优于其他基线模型。
2. 相关工作
2.1. 交通流量预测
目前,交通流量预测模型的主要任务是提取交通数据的特征。具体来说,特征主要指时间特征和空间特征。路段之间的相关性以及特征提取的好坏直接影响模型的预测精度。现有的交通预测模型主要分为两类,传统预测模型和基于机器学习方法的预测模型。具体而言,典型的传统预测模型包括动态建模方法和自回归综合移动平均模型。ARIMA [19] 和卡尔曼滤波器 [20] 分析模型。这些方法需要数据满足某些假设,但交通数据过于复杂而无法满足这些假设,因此在实践中往往表现不佳。基于机器学习方法的模型包括K最近邻(KNN) [21] 、支持向量机(SVM)和神经网络(NN) [22] [23] [24]。虽然它们可以对更复杂的数据进行建模,但它们严重依赖特征工程,这些方法难以挖掘和整合交通流数据的时空特征。除了交通流量预测以外其他领域的流量预测也很有参考意义。其中有基于图卷积的水流量预测 [25],室内避障情况下的流量预测 [26],网络资源竞争的流量预测 [27],交通路口行人深轨迹预测 [28],基于交通状况特征融合的出租车出行时间预测 [29],基于集成经验模式分解和深度学习的城市出行需求预测 [30]。
2.2. 图卷积
传统的卷积可以有效地提取数据的局部特征,但只能应用于标准的网格数据。图卷积的出现很好的解决了这个问题。N. Kipf等人 [31],提出了一种图卷积神经网络(GCN),它使用非欧几里德图结构来表示交通道路网络。由于它可以更好地保留交通网络的高维信息,因此在交通流预测任务上表现出比以往方法更好的性能。GCN在挖掘空间相关性方面非常有效,但GCN不能很好地捕获交通网络的时间相关性。Bruna等人 [32],提出了一种基于图拉普拉斯算子的通用图卷积框架,然后Defferrard等人 [33],通过使用Chebyshev多项式逼近优化了该方法。Sun等人 [34],提出了一种基于图神经网络的神经注意模型,用于从长而稀疏的轨迹中恢复人类的移动性。使用图形神经网络捕获复杂的位置转换模式。然后通过两种注意力机制,分别捕获人类活动的多级周期性和移动周期性。Cai等 [35],提出了一种基于图卷积和Transformer的模型。它使用图卷积模型来捕获交通道路网络拓扑结构的空间相关性。此外,它还提出将以翻译着称的Transformer模型应用到交通数据中,通过设计不同的时间信息编码策略来捕捉时间序列的连续性和周期性,两者的结合可以很好地模拟时空相关性。
2.3. 异质图
为了进一步提高交通流量预测的精度,有关利用异质图来建模的方法应运而生。通过从各种传感器获得的异构数据源进行集成融合,可以达到很好的预测效果。Yang等人 [36] 将图CNN和LSTM深度学习模型融合,引出异构数据源和数据的时空特性对停车占用率的影响。但是,其没有将节假日、ETA数据源纳入他们的数据集,仅专注于单尺度占用预测,这样很难提高预测的准确率。Hong和Li等人 [37],提出将路网地图转化为异构多相关信息网络并引入车辆轨迹图联合考虑车辆行为模型,另外将时间特征的提取分为近期、日周期、周周期,然后对每个时间模块分别建模,以此来预计到达时间(ETA)。
3. 方法论
本文提出的交通流量预测模型特征提取分为两部分,交通网络的空间特征提取和交通网络的时间特征提取,模型的架构图如图1所示。对于空间特征的提取,本文采用边异质图卷积神经网络(REGCN),它首先通过边的类型对邻居结点进行分类,然后逐类别的进行GCN中的采样、聚集操作,最后将从各个类别聚集来的嵌入与自身的嵌入进行合并,以此来获取结点和邻居结点的空间特征;本文使用基于GLU的一维因果卷积来提取交通网络的时间特征,它不仅能实现对时序数据的间接采样,而且它还能对数据进行并行处理。除此之外它还能在保留模型非线性特征的同时缓解梯度消失,因此它在交通流量预测问题上能取得较好的效果。
3.1. 数据定义
3.1.1. 问题定义
本文规定交通流量数据
,其中M为历史数据序列的输入窗口大小,N为路网中的交叉路口个数,交通路网G的抽象表达为A。本文规定预测未来
时段的交通流量数据
,其中
表示在未来
时间段中整个交通网络
中的流量状态,右上角标
代表交叉路口的编号。交通流量预测任务就是把给定的交通流量数据X和路网信息构建的图的抽象表达A传递给流量预测函数F来得出未来时段
内所有节点的交通流量数据Y,具体公式如下所示:
(1)
3.1.2. 异质图定义
大多数交通流量预测模型都基于同质图构建交通网络,虽然同质图能表达交通网络基本的空间特征,但是它会忽略一些重要特征。比如交通网络中的单行道和环岛路口。本文注意到产生这一问题的原因是同质图是基于邻接矩阵实现的,在邻接矩阵中仅存储两个数值,分别是0和1,用来表示两个节点的连通和不连通。这导致其表达能力十分受限。本文提出对邻接矩阵进行拓展,将邻接矩阵中的值抽象为道路的类型,用
表示不同类型的道路,以此增强交通网络的表达能力,使得STREGCN模型能够更好的挖掘交通网络的空间相关性。图2展示出将交通网络抽象为异质图相比同质图有更好的表达能力。

Figure 2. Definition of heterogeneous graph
图2. 异质图的定义
3.2. 时空特征提取模块介绍
3.2.1. 基于边异质图卷积神经网络的空间特征提取
在现实的城市交通中,存在大量的路口和道路,要进行交通网络的空间特征提取,首先要对现实中的城市交通进行建模抽象。我们把路口抽象为异质图中的节点,将经过路口的车流量和平均车速等特征抽象为节点的嵌入,把路口与相邻路口之间的道路抽象为异质图中连接两个节点的边。
REGECN首先将与节点相连的边按照类型的不同进行分组,然后对每个分组依次采用GCN的方法进行处理,其计算公式可以表示为:
(2)
其中l表示为所处传播层数,i和j均为节点标识,
表示i节点在l+1层的嵌入参数,
为非线性激活函数,R为关系的集合,N为邻居的集合,
表示与节点i有r关系的节点集合,C为正则化系数,
表示传播到l层时关系r的权重矩阵,
表示传播到l层时,i节点自身的权重参数。其具体流程就是基于目标节点对其所邻接的节点分别进行采样以得到它们的特征信息,然后将采样得到的特征信息进行汇聚,最后将从各个邻接节点汇聚来的特征信息与自身的特征进行融合。
3.2.2. 基于时间卷积网络的时间特征提取
由于交通网络普遍稀疏和复杂,因此处理交通流量的时序数据时对处理效率有很高的要求。因为卷积操作运算简单且需要较少参数,可以大幅提升模型的训练速度,所以本文使用一维因果卷积和线性门控单元挖掘交通流量的时间相关性,其表达式如下所示:
(3)
(4)
其中x为输入数据,
为ReLu非线性激活函数,其数学表达式如式(6)所示,
为卷积操作,其数学表达式如式(7)所示,
为Sigmoid非线性激活函数,其数学表达式如式(5)所示。式(7)是一维因果卷积的数学表达,其中的函数h和u都为序列,k和j都代表在序列中的下标。
(5)
(6)
(7)
3.3. 输出定义
输入数据在经过堆叠的两个时空STREGCNBlock模块后,其形状为
,其中B为批量大小,N为训练集中的测速节点数,FN为特征数量,A为特征的通道数量,然后进入输出层中,输出层用时间维度的卷积将之前的输出数据的时间维度进行合并,合并之后再经过一个卷积输出最终的预测数据,具体公式如(8)所示。其中P为预测的时间片大小,C为中间状态通道数64,NTI为初始时间片大小,T是经过两层的时空模块后时间片大小。
(8)
4. 实验
4.1. 数据准备
本文在加利福尼亚州的高速公路交通数据集PeMSD8上验证了STRGCN模型。数据集由Caltrans性能测试系统每30秒实时收集一次。该系统在加利福尼亚州的高速公路上部署了39,000个探测器,数据集中包含传感器的地理信息,以便生成交通路网。PeMSD8中共有170个探测器,交通数据每5分钟汇总一次,换句话说每个检测器每天会有288个数据点。
4.2. 实验环境
本文使用Adam作为STRGCN模型的优化器,因果卷积的卷积核大小为1 × 3,训练学习率设为0.001,衰减参数设置为0.9,批次大小设置为50,训练轮次也设置为50。本文将整个数据集分为两部分,一部分为训练集占比60%,另一部分为测试集占比40%。该模型的实现基于Python语言,使用DGL [38] 和Pytorch来快速的构建模型。其流程为首先使用平均值为0且方差为1的正态分布来初始化权重参数,然后使用时空卷积模块进行前向传播,最后由Adam梯度下降算法来进行反向传播,以优化权重参数。
4.3. 定量实验分析
本文采用了平方绝对误差(MAE)和均方根误差(RMSE)对模型训练结果进行评估。
· 门控循环单元(GRU):一个更具解释性的循环神经网络,可以很好的提取时序数据中的长期依赖关系,并且它的参数量更少,适用于构建较大的网络。
· 图卷积神经网络(GCN):它可以对图结构的结构信息和节点的属性信息同时学习,共同得到最终的节点特征表示并将节点之间的结构关联性也考虑进模型。
· 时空动态网络(STDN):其通过流量门控机制来跟踪区域间的动态空间相似性,通过周期性转移注意机制来跟踪时间周期相似性。
· 时间图卷积神经网络(T-GCN):该模型结合了GCN和门控递归单元GRU。GCN用于学习复杂的拓扑结构来捕获空间依赖关系,GRU用于学习交通数据的动态变化来捕获时间特征。
· 时空图卷积神经网络(STGCN):它可以对交通流的时间动态和空间依赖进行建模。利用广义图对交通网络建模,而不是将交通流看成各个离散的部分(比如网格)。

Table 1. Error performance of each model on PeMSD8
表1. PeMSD8上各模型的误差表现
在本实验中,我们对交通流量数据进行初始筛选和去噪。我们将STREGCN模型的预测结果与5个基线模型的结果进行了比较。从表1可以看出,GRU和GCN在预测高度离散的交通流量数据时效果较差。在5分钟和30分钟的时间步长时,GRU的MAE值分别高达52.43和61.56,RMSE值分别高达81.56和95.63。另外,GCN的MAE值分别高达53.52和60.73,RMSE值分别高达83.23和93.12。GRU和GCN分别用于时间序列和空间序列建模。但是,如果对复杂的交通流量数据进行建模,仅仅依靠建立时间相关性和空间相关性无法很好的拟合数据。所以,这两个模型的预测结果是所有模型中最差的。
与GRU模型相比,STDN模型在时间步为5分钟和30分钟时的MAE分别降低了11.3%和16.7%,RMSE分别降低了6.55%和16.1%。尽管STDN的预测精度有所提高,但由于其所获取数据的空间相关性和时间相关性不够彻底,使得预测结果并不够理想。T-GCN是在GCN中再加入GRU组成新的模型结构,以提取时间序列特征。与STDN相比,T-GCN模型在时间步为5分钟和30分钟时的MAE分别降低了7.01%和12.99%,RMSE分别降低了16.86%和14.70%。STGCN模型由一层GCN和两层序列网络组成的时空卷积块组成。其预测结果与TCN相比,在时间步为5分钟和30分钟的情况下,MAE分别降低了5.89%和8.49%,RMSE分别降低了8.11%和12.96%。STREGCN模型使用异构图来构建交通路图,这使其能够更好地探索数据集中节点的时空相关性。它采用REGCN来获取空间相关性,TCN用来获取时间相关性。从表1可以看出,STREGCN模型在对比的基线模型中表现最好。在时间步为5分钟和30分钟的情况下,它比STGCN在MAE指标上分别提高了5.94%和3.84%,RMSE分别提高了3.07%和2.75%。
4.4. 定性实验分析
为了能更直观的体现本文提出的模型的预测效果,在实验测试环节,本文选择了五个相关模型,分别为GRU、GCN、STDN、T-GCN和STGCN,来与STREGCN进行对比。我们在数据集PeMS上随机选择了一条道路,并从这条道路中选择一个探测器,然后对这一路段的交通流量情况进行可视化,以对比各个模型的预测值与真实值之间的差距,如图3所示。
在本实验中,折线图代表STREGCN和基线模型对真实数据的拟合程度。散点图很好的显示了STREGCN和基线模型与真实的交通流量数据之间的差异。如图3中(a)和(c)所示,GRU和GCN的预测结果与真实值差距较大,对于波动较大的时间区间,两者均出现不同程度的欠拟合现象。GRU可以对时间序列进行建模,并且具有长时记忆功能,但是它不能很好的获取交通流量数据的空间相关性。GCN虽然可以通过谱域变换实现不规则空间结构的特征提取,但显然不能很好的提取时间特征。如图3中(b)和(d)所示,GRU和GCN的预测结果不能很好的拟合真实数据。如图3中(e)所示,STDN模型在短时间步时拟合效果很好,但是其随着时间的推移出现严重的欠拟合情况。如图3中(g)和(h)所示,T-GCN模型在短时间步和长时间步与真实数据的拟合情况很好,但是在中间时间步出现抖动和欠拟合情况。如图3中(i)和(j)所示,STGCN模型的预测结果在各个时间步的拟合程度与其他基线模型相比都有很大提示,但是它的部分细节拟合的仍不够准确,仅能预测交通流量变化的总体趋势。STREGCN模型引入异质图后,获取空间相关性又较基线模型的时空特征提取方法有所增强,这证明了加强对空间相关性的挖掘对交通流量预测有积极效果。
5. 结论
为提高交通流量预测任务的预测精度,本文提出一种基于异质图的深度时空模型STREGCN,它由边异质图卷积神经网络和线性门控单元模块组成。它使用关系图卷积神经网络来提取空间特征,使用线性门控单元来提取时间特征,并通过改进邻接矩阵的结构,使其用来构建异质图,提高交通图的表达能力,进而使其能够更好的提取路网的空间特征。实验结果表明,本文提出的模型具有良好的预测效果。后续工作将优化时间特征提取模型和改进空间特征与时间特征的融合,进一步提高预测准确率。
基金项目
本研究得到国家重点研发计划重点专项项目2018YFB2100303,山东省高校青年创新科技计划创新团队项目2020KJN011,山东省自然科学基金项目ZR2020MF060的部分资助山东省博士后创新人才计划资助号40618030001,国家自然科学基金资助号61802216,中国博士后科学基金资助号2018M642613。
NOTES
*通讯作者。