1. 引言
随着我国国务院办公厅于2020年底发布的《新能源汽车产业发展规划(2021~2035年)》,明确提出力争在2025年前实现高度自动驾驶汽车在特定区域和场景下的商业化应用,自动驾驶技术迅速成为未来交通发展的核心方向之一[1]。为了实现安全高效地驾驶,自动驾驶车辆需要像人类一样检测和识别其他物体,并预测和反应这些物体在短期内的行为。因此,准确预测其他道路参与者的轨迹是自动驾驶车辆做出明智决策的基础。
当前,车辆轨迹预测方法主要分为基于物理运动学的方法、基于传统机器学习的方法和基于深度学习的方法。基于物理运动学的方法如卡尔曼滤波(Kalman Filter) [2]和切换卡尔曼滤波(Switched Kalman Filter, SKF)等[3],虽然能够在一定程度上捕捉车辆的运动规律,但在处理非线性和多主体交互的复杂场景时表现不足。传统机器学习方法,如高斯过程回归[4]、支持向量机(SVM) [5]和隐马尔科夫模型(HMM) [6],通过预测车辆的机动意图并生成轨迹,提升了预测性能,但其难以适应多变的实际驾驶环境,且通常忽略了车辆之间的复杂交互作用,导致预测精度有限[7]。
近年来,基于深度学习的方法因其强大的特征学习能力和对复杂场景的适应性,逐渐成为轨迹预测研究的主流方向。循环神经网络(RNN) [8]和长短期记忆网络(LSTM) [9]在捕捉时间序列数据的动态特征方面表现出色。卷积神经网络(CNN)和注意力机制(Attention) [9]的引入,进一步提升了轨迹预测的性能,能够提取更丰富的交互信息。例如,Chen等人[10]提出的LSTM编解码模型通过卷积–社交池化层更好地学习车辆间的相互依赖关系,Pengbo [11]等人结合LSTM编码器与地图信息实现基于行为的轨迹预测,Dekai [12]等人引入注意力机制以强调邻近车辆对自车未来状态的重要性,Wang [13]等人则采用CNN-LSTM混合网络建模不同道路间的交互作用。这些方法在一定程度上提升了轨迹预测的精度,但在复杂动态环境下的实时性和鲁棒性仍需进一步加强。
针对上述问题,本文提出了一种名为BiFSTNet的新型车辆轨迹预测模型。在空间特征提取方面,引入视觉Transformer处理多车辆历史轨迹。与卷积操作相比,ViT的自注意力机制能直接建模场景中所有车辆对的全局交互,能够更有效地从由大量智能体构成的复杂场景中提取统一的上下文特征表示。在时空交互建模方面,本文设计了仿射全注意力机制,采用一种时序优先的序贯处理流程。车辆的行为首先由其自身的历史轨迹(时间维度)所主导,再与周围环境(空间维度)发生交互。这种设计允许模型先独立地强化每个车辆轨迹内部的长程时间依赖关系,再在每一时间步的语义空间中精确计算车辆间的空间交互权重,避免了时空信号过早混合带来的混淆,实现了更清晰、更有效的时空模式捕获。最终,通过双向LSTM编码器–解码器架构整合上述特征,实现端到端的未来轨迹预测。
2. 问题描述
轨迹预测问题可描述为:基于观测场景中所有物体的历史轨迹,预测它们在未来时刻的轨迹。考虑到与预测物体位置相比,预测速度相对更容易,因此输入包括历史位置与速度,模型负责预测未来的速度。最终位置的预测通过累加预测的速度与最近观测到的位置获得。
设当前时刻为
,历史观测窗口长度为
,则在时间区间
内,每个离散时刻
均可观测到场景中N个目标。第i个目标在时刻
的状态向量用式(1)表示。
(1)
其中,
为目标在平面坐标系中的位置坐标,
为目标在该时刻的速度分量。
将历史时间窗口内所有目标的观测数据集合表示为式(2)。
(2)
设定预测时长为
,模型需对未来时刻
至
内所有目标的速度进行预测。将这些未来速度预测结果集合表示为式(3)。
(3)
在获得未来速度预测Y后,利用最后一次观测到的位置
对预测的速度进行逐步积分与累加,得到各目标在未来每个时间步的预计位置轨迹。
3. 网络模型
图1显示了BiFSTNet的模型架构,该模型由四个组件组成:输入预处理模块、ViT特征提取模块、仿射全注意力机制编码模块、轨迹预测模块。
Figure 1. Workflow of the proposed BiFSTNet algorithm
图1. BiFSTNet算法流程图
3.1. 输入预处理模块
3.1.1. 输入表示
在交通场景中,每个时间步
的车辆轨迹数据由
辆车的状态组成。经过归一化处理后,输入数据表示为式(4)。
(4)
其中,
表示车辆的位置坐标,
表示车辆的速度信息。通过归一化,将数据值限定在特定范围内,以便后续处理。
3.1.2. 空间图构建
在交通场景中,车辆之间的相互关系对运动建模具有重要意义。为刻画这种关系,针对每个时间步
,构建无向图
,其中:
节点集:
,每个节点表示一辆车辆;
边集:
表示满足特定交互条件的车辆对。
具体而言,若两车辆间的距离满足
,且车道差满足
,则认为车辆
和
存在交互关系,用邻接矩阵
表示该关系,定义如式(5)。
(5)
上述邻接矩阵
随时间步
变化,形成邻接矩阵序列
。与车辆状态序列
共同构成模型输入,用于刻画车辆间的动态空间关系。
3.2. ViT特征提取模块
在获得车辆时序状态序列
及其对应的邻接矩阵序列
后,需要进一步提取高层特征以捕
捉复杂的时空交互关系。为此,可将每一时间步的数据表示为一组适合Transformer结构处理的token序列,并利用ViT从中提取全局上下文特征。
首先,对每个时间步
的节点数据
进行特征映射,将每个节点
映射至
维特征空间。定义节点嵌入函数
,见式(6)。
(6)
由此,可获得时间步
的节点特征序列,见式(7)。
(7)
考虑到Transformer对输入序列敏感,于是对序列加入位置嵌入(Positional Embedding)
以编码节点的空间排列和场景结构信息,见式(8)。
(8)
将
输入至ViT编码器(ViT Encoder)中。ViT编码器由多层Multi-Head Self-Attention和前馈网络组成。经过L层编码器后得到输出,见式(9)。
(9)
表示节点(车辆)的数量,
表示用于预测的历史时间步数长度,
表示ViT编码器输出特征的模型隐含维度。此时,
为处理后得到的高层语义特征序列,能够较好地表示车辆间的全局时空交互关系。
3.3. 仿射全注意力机制模块
仿射全注意力机制模块由时间多头注意力机制、空间多头注意力机制、残差连接、归一化层等组成,如图2所示。给定从VIT模块获得的输入数据
,执行以下操作。
Figure 2. Component layout of the affine full-attention module
图2. 仿射全注意力机制组成模块
3.3.1. 时间多头注意力模块
时间多头注意力模块用于从车辆轨迹序列中提取时间依赖性,并通过掩蔽多头注意力机制,确保当前时间步只访问历史时间步的信息,满足时间因果性。输入为从ViT模块获得的嵌入特征
,其中
表示车辆数量,
表示时间序列长度,
表示嵌入特征的维度。
对于车辆
在时间步
的嵌入特征记为
。通过线性映射函数
,分别计算查询矩阵
、键矩阵
和值矩阵
,具体表示为式(10)。
(10)
其中
和
分别表示查询/键的维度和值的维度。
是共享的线性变换函数。
在时间步
,车辆
对所有历史时间步
的注意力分数通过查询和键计算得到式(11)。
(11)
其中
表示时间步
与时间步
之间的相关性分数,
用于数值归一化,防止注意力权重的数值过大。为了满足时间因果性,引入掩蔽机制,规范化注意力分数以生成注意力权重如式(12)。
(12)
其中
表示时间步
对时间步
的注意力权重,并通过掩蔽确保仅考虑的时间步。基于注意力权重,时间步
的上下文表示可通过值向量
加权求和得到式(13)。
(13)
表示从历史轨迹中提取的时间信息。
为增强模型表达能力,引入多头注意力机制。设共有
个注意力头,每个头独立计算注意力,如式(14)。
(14)
其中
是第
个注意力头的输出。将所有头的输出拼接后,通过全连接层
进行映射,得到最终时间多头注意力的输出式(15)。
(15)
其中
是车辆
在时间步
的最终特征表示。
经过时间多头注意力模块,所有车辆的特征表示被更新为
,其中包含从轨迹中提取的时间依赖性信息。
3.3.2. 空间图多头注意力网络
基于获得的
,应用空间图多头注意力网络来提取观测车辆之间的空间交互。
自注意力机制可以被视为在无向完全连接图上的信息传递。对于某一时间步
,从
中获取
辆车的
特征
,并将其对应的查询向量、键向量和值向量分别表示为式(16)。
(16)
计算
、
、
如式(17)所示。
(17)
并将车辆
到车辆
在完全连接图中的信息传递定义为式(18)。
(18)
然后,时间步
的注意力计算如式(19)所示。
(19)
然而,将车辆之间的空间交互视为完全连接图是不高效的。因此,使用邻接矩阵A来替代完全连接图,这确保了车辆
到车辆
的信息传递仅在当前两辆车之间的距离小于阈值
且两辆车位于相邻车道时才发生。然后,重写车辆
在时间步
的注意力计算如式(20)所示。
(20)
其中,
表示车辆
的邻居集合。类似地,车辆
在时间步
计算多头注意力(共
个头),见式(21)、式(22)。
(21)
其中,
(22)
是一个全连接层,用于合并
个头的信息。在为每辆车
和每个时间步
计算完多头注意力
后,获得
,它包含了从历史轨迹中提取的车辆间交互信息。堆叠六个仿射全注意力机制层,以捕捉更复杂和抽象的时间和空间信息。
3.4. 轨迹预测模块
将上一节得到的时空特征序列
按时间送入双向LSTM,得到第
辆车的的上下文向量
,其中
同时融合先行与滞后信息;随后以
作为隐藏状态、以零向量
作为记忆单元,并以最后观测速度
作为解码器首帧输入,启动单层LSTM-Decoder;在预测步
内,递推关系见式(23)~(25)。
(23)
其中上一步输入
直接取模型预测速度
;随后通过线性映射获得二维速度估计;
(24)
最后以固定步长
累积速度得到位置
(25)
其中
为最后观测坐标;迭代
步即可输出未来5 s内每辆车完整、物理一致的速度–位置轨迹
。
3.5. 算法整体实施步骤
首先,输入层接收历史轨迹张量
,其中
为车辆数、
为历史帧数(
)、
对应位置与速度
,并同步读取邻接矩阵序列
以刻画每帧车辆间的空间关联;随后编码层将
经位置编码与空间图编码注入时序与拓扑信息先后送入ViT与仿射全注意力机制,输出统一的时空特征
;解码层利用Bi-LSTM先汇总历史上下文得到隐藏状态,再按自回归方式逐帧输出未来速度序列
(预测窗口
对应5 s);最后输出层以
对速度积分,得到位置预测
,并据此计算各时刻RMSE,实现从“历史轨迹 + 动态邻接”到“未来轨迹”端到端的预测映射。
4. 实验与结果分析
4.1. 数据集
所提出的模型使用公开的NGSIM US-101和I-80数据集进行训练和评估。这两个数据集均以10 Hz的采样率捕捉了45分钟的交通数据,并分为三个15分钟的时段。这些时段分别代表了轻度、中度和拥挤的交通状况。这两个数据集包含了真实高速公路交通中的车辆轨迹。每辆车的轨迹被分割为8秒的片段,其中前3秒作为观测轨迹历史,剩余5秒作为预测时间范围[14]。按照Deo [15]等人的方法,轨迹数据从10Hz下采样至5Hz,即每秒五帧。上述两个数据集被合并为一个数据集,随机打乱后按7:1:2的比例划分为训练集、验证集和测试集。
4.2. 评估指标
采用与其他方法相同的评价指标,以预测未来轨迹在5秒预测范围内每个时间步的均方根误差(RMSE)作为评价结果。时间步
的RMSE计算公式如式(23)所示。
(23)
其中,
表示测试数据集中车辆的数量,
和
分别表示时间步
时的预测位置和真实位置。
4.3. 对比实验
4.3.1. 基线模型
DSCAN [16]:该方法使用注意力机制判断哪些周围车辆对目标车辆更为重要,并结合约束网络捕捉周围环境信息,综合动态和静态上下文进行轨迹预测。
GAT-LSTM:此方法基于动作生成多模态轨迹分布,选择概率最高的模式进行评估,与V-LSTM不同,它能够更好地模拟复杂的驾驶行为。
V-LSTM:此方法仅利用目标车辆的轨迹特征,不考虑周围车辆的交互,采用基于LSTM的编码器–解码器结构进行轨迹预测。
TSMHA:此方法采用卷积社交池化层,通过空间网格捕捉目标车辆与周围车辆的交互关系,输出单模态轨迹分布。
S-LSTM [17]:与V-LSTM不同,此方法通过全连接层将目标车辆及其周围车辆的历史轨迹特征进行融合,从而在解码过程中建模车辆间交互。
CV:该方法利用恒速卡尔曼滤波器,仅依赖目标车辆的速度信息进行轨迹预测。
S-TF:该方法采用基于Transformer的框架,将目标车辆与周围车辆的时空特征作为序列输入进行编码解码,从而对车辆轨迹进行预测。
4.3.2. 对比结果
表1和表2分别展示了各方法在NGSIM数据集US-101和Peachtree Street子数据集上的RMSE性能对比。实验结果表明,仅依赖单车轨迹的基线方法(CV和V-LSTM)表现较差,平均RMSE超过3.4 m,而融合多车辆交互信息的方法能够提升预测精度。其中,S-LSTM、GAT-LSTM和TSMHA等方法通过建模邻近车辆动态关系,将平均误差降低至2.0~2.4 m范围。所提出的BiFSTNet方法在两个数据集上均实现最优性能,在US-101数据集上平均RMSE为1.77 m,在Peachtree Street数据集上为2.06 m,相比次优方法分别提升9.7%和7.6%。特别是在长期预测场景(4 s和5 s)中,BiFSTNet表现出显著优势,验证了仿射全注意力机制在建模多车辆长期交互关系方面的有效性。
Table 1. Experimental results on NGSIM US-101 sub-dataset
表1. NGSIM中US-101子数据集实验结果
模型 |
RMSE/m |
1 s |
2 s |
3 s |
4 s |
5 s |
平均 |
V-LSTM |
0.71 |
1.82 |
3.23 |
4.86 |
7.02 |
3.53 |
S-LSTM |
0.65 |
1.52 |
2.13 |
3.18 |
4.47 |
2.39 |
GAT-LSTM |
0.74 |
1.29 |
2.02 |
2.96 |
4.18 |
2.24 |
TSMHA |
0.56 |
1.18 |
1.94 |
2.78 |
3.76 |
2.05 |
S-TF |
0.86 |
1.47 |
1.92 |
2.22 |
3.33 |
1.96 |
DSCAN |
0.58 |
1.26 |
2.03 |
2.98 |
4.13 |
2.12 |
CV |
0.73 |
1.78 |
3.13 |
4.78 |
6.68 |
3.42 |
BiFSTNet (Ours) |
0.53 |
1.13 |
1.79 |
2.16 |
3.25 |
1.77 |
Table 2. Experimental results on NGSIM Peachtree Street sub-dataset
表2. NGSIM中Peachtree Street子数据集实验结果
模型 |
RMSE/m |
1 s |
2 s |
3 s |
4 s |
5 s |
平均 |
V-LSTM |
0.81 |
1.96 |
4.27 |
6.41 |
8.34 |
4.36 |
S-LSTM |
0.76 |
1.67 |
2.69 |
3.44 |
5.15 |
2.74 |
GAT-LSTM |
0.93 |
1.59 |
2.47 |
3.19 |
4.64 |
2.56 |
TSMHA |
0.65 |
1.38 |
2.34 |
2.95 |
4.37 |
2.34 |
续表
S-TF |
0.94 |
1.52 |
2.15 |
2.57 |
3.98 |
2.23 |
DSCAN |
0.64 |
1.47 |
2.36 |
3.18 |
4.45 |
2.42 |
CV |
0.81 |
1.89 |
3.36 |
5.28 |
6.96 |
3.66 |
BiFSTNet (Ours) |
0.61 |
1.33 |
2.06 |
2.46 |
3.75 |
2.06 |
4.4. 消融实验
为验证BiFSTNet各模块的有效性,本文在US-101数据集上进行了消融实验,结果如表3和表4所示。实验结果表明,去除ViT模块、时间嵌入和空间图嵌入后,模型平均RMSE分别从1.772 m上升至2.552 m、3.020 m和3.086 m,性能显著下降,验证了各组件在多尺度特征提取和时空关系建模中的关键作用。解码器对比实验显示,采用RNN和GRU替换BiLSTM后,平均RMSE分别增加至2.420 m和2.486 m,特别是在长期预测(5 s)中,误差从3.25 m增至4.43 m和4.56 m,表明双向LSTM在捕获长期时序依赖方面具有提升作用。
Table 3. Ablation study results on NGSIM US-101 sub-dataset
表3. NGSIM中US-101子数据集的消融实验结果
模型 |
RMSE/m |
1 s |
2 s |
3 s |
4 s |
5 s |
平均 |
去除ViT模块 |
0.64 |
1.36 |
2.61 |
3.47 |
4.68 |
2.552 |
去除时间嵌入 |
0.68 |
1.54 |
2.74 |
4.21 |
5.93 |
3.020 |
去除空间图嵌入 |
0.69 |
1.56 |
2.81 |
4.24 |
6.13 |
3.086 |
BiFSTNet (Ours) |
0.53 |
1.13 |
1.79 |
2.16 |
3.25 |
1.772 |
Table 4. Performance comparison of different decoders on NGSIM US-101 sub-dataset
表4. 采用不同的解码器在US-101子数据集对性能的影响
模型 |
RMSE/m |
1 s |
2 s |
3 s |
4 s |
5 s |
平均 |
RNN |
0.59 |
1.29 |
2.47 |
3.32 |
4.43 |
2.420 |
GRU |
0.60 |
1.32 |
2.56 |
3.39 |
4.56 |
2.486 |
BiLSTM (Ours) |
0.53 |
1.13 |
1.79 |
2.16 |
3.25 |
1.772 |
5. 结语
本文针对复杂交通场景下车辆轨迹预测的挑战,提出了一种基于ViT与仿射全注意力机制的车辆轨迹预测模型。模型通过ViT编码器有效提取了场景中多车辆轨迹的全局空间特征,并通过仿射全注意力机制序贯地捕获了长程时间依赖和动态空间交互,克服了现有方法在全局上下文提取和时空联合建模方面的不足。在NGSIM公开数据集上的实验结果表明,BiFSTNet的性能优于多种基线模型。在US-101和I-80数据集上的平均RMSE分别达到1.77米和2.06米,尤其在4 s、5 s等长期预测范围内保持了较高的精度。消融实验进一步证实了ViT模块、时间嵌入、空间图嵌入以及双向LSTM解码器各个组件对提升模型预测性能的关键作用。