1. 引言
交通流预测是智能交通系统、城市规划和拥堵管理中的关键任务[1]。精确的交通流预测能够为城市交通管理部门提供有力支持,优化道路资源配置,减少交通拥堵,并提升交通安全性。传统交通流预测方法包括基于统计学的模型(如回归分析、时间序列分析等)和深度学习方法(如卷积神经网络、循环神经网络等)。这些方法在一定程度上提高了预测精度,但它们依赖大规模数据的训练,且普遍存在可解释性差、难以捕捉复杂时空动态特性的缺点。尤其是对于复杂的城市交通流,传统方法通常无法准确建模交通流在不同时间和空间维度上的变化[2]。
近年来,大语言模型的跨领域应用成为研究热点,然而通用模型(如GPT系列、Claude等)在交通流预测任务中面临显著瓶颈[3]。这类模型虽在文本生成和理解上表现卓越,但其固有的架构设计难以直接适配交通数据的时空动态特性,且高昂的训练成本与领域适配性问题限制了实际部署[4]。在开源社区中,DeepSeek模型展现出了卓越的高效推理能力[5]。这意味着在处理大规模交通流数据时,能够快速给出预测结果,满足实时交通管理的时效性需求。因此,DeepSeek模型的出现为交通流预测提供了新的思路,尤其是在实时性和精度之间取得了良好的平衡,展现了广泛的应用潜力。
本文提出了一种新的交通流预测方法DynaSeek模型。它结合了DeepSeek大语言模型微调与动态建模技术,旨在提升交通流预测的精度和可解释性,并有效捕捉交通流的复杂时空动态特性。本文的主要贡献如下:
通过将DeepSeek大语言模型与动态建模技术相结合,解决了传统方法在可解释性和时空动态建模方面的不足,有效捕捉由多种时空因素(如天气、区域属性、时间周期等)引起的交通流变化。
引入了动态建模技术,量化了时空因素对交通流的影响。通过构建可解释的级联修正流程,模型能够根据实时数据进行动态修正,并提供对交通流变化规律的直观解释。
采用了LoRA (Low-Rank Adaptation)微调策略,显著降低了训练成本。在加利福尼亚州多模态数据集上进行实验验证,结果表明本文方法在预测准确性和解释能力方面均优于现有基线模型。
2. 相关工作
2.1. 深度学习应用于交通流预测
近期深度学习方法在交通流预测中得到了广泛应用,特别是长短期记忆网络(LSTM)、门控循环单元(GRU)和Transformer模型等[6]。T-GCN模型将图卷积网络(GCN)与GRU相结合,学习交通数据的动态变化以获取时间相关性[7]。PDFormer模型结合了GCN和Transformer的优势,通过有效建模交通流的时空依赖关系,提升了交通流预测的准确性[8]。但这些模型没有考虑到空间异质性,不同区域(如商业区、住宅区、教育区)和不同时间段(如早高峰、夜间过渡期)的流量模式存在显著差异。ST-SSL提出一种时空图上的自适应一致性感知数据增强方法来应对噪声,通过自监督学习任务识别时空异质性[9]。但模型缺乏对交通流变化规律的清晰解释,用户无法理解为何在某一特定时刻、特定区域内预测的流量值会发生变化,这对实际应用和决策支持造成了障碍。
2.2. 大语言模型应用于交通流预测
大语言模型在多个领域展现了出色的性能,交通流预测领域也开始探索如何将LLMs与传统交通流预测方法相结合。TP-LLM结合基于CNN的序列嵌入层和基于GCN的图嵌入层,分别提取序列特征和空间特征,将内容整合成适合LLM的输入,采用LoRA微调方法促进模型高效学习[10]。TrafficGPT通过将LLMs与交通基础模型(TFMs)结合,旨在提高城市交通管理和控制系统的效率和智能化水平[11]。LLMs通过文本–数据映射方法,将结构化交通数据(如交通流量、车速等)转化为自然语言描述。TF-LLM通过将空间信息、时间因素、天气条件和兴趣点(PoIs)等多模态因素作为语言输入,生成更加直观且可解释的预测结果[12]。然而,现有的模型大多依赖于固定数据集进行训练,缺乏对动态变化的适应能力。它们在面对交通流的时空动态变化时,无法有效应对不同时间和地点的流量模式。
2.3. DeepSeek模型及应用
DeepSeek是一种基于大语言模型(LLMs)的方法,其提出了从长期注意力机制的角度推动开源模型发展的思路,重点探讨了大语言模型在规模上的效应[13]。在交通流预测中,历史交通流量数据、时空因素以及外部影响因素等构成了复杂的长序列信息,DeepSeek的这种发展思路能够更好地捕捉这些信息之间的长期依赖关系,从而为准确预测未来交通流量奠定基础。DeepSeek-V3通过激活少量的专家网络来提高计算效率,平衡模型的性能与算力成本,为大模型在实际应用中的优化提供了新的思路[14]。而DeepSeek-R1则采用纯强化学习方法,提升了大语言模型的推理能力,减少了对监督数据的依赖[15]。因此,可以运用DeepSeek的优势,通过与环境的交互学习,不断优化模型的推理策略,更好地适应交通流预测中复杂多变的环境。
在本文中,我们将交通流预测任务转化为自然语言描述,使得DeepSeek-R1能够提供更为直观和清晰的解释。这种方法不仅有助于提高交通流预测的准确性,还使交通管理者和决策者能够更加明确地理解模型预测的依据与逻辑。
3. 问题描述
交通流预测是依赖历史数据和外部因素来预测未来的交通流量。本文的目标是通过动态建模方法,基于历史交通流量、时空因素还实时整合外部因素(如天气、节假日、交通事件等)的变化预测未来的交通流量,动态调整预测结果。可以通过以下公式表示:
(1)
其中,
是预测模型,
为历史数据,
为未来的交通流量预测值,
为外部因素,表示与交通流相关的外部影响。
表示外部因素的动态变化,例如天气突变、突发交通事件或节假日等因素对交通流量的即时影响。
本文通过将交通流预测任务转化为动态语言模型任务,并微调来进一步增强预测的时效性和准确性。通过动态调整模型,使其能够实时响应外部因素的变化。模型的输出可以通过以下公式进行动态更新:
(2)
在公式(2)中,
表示未来交通流量的预测值,
表示时空特征,
是外部因素的动态变化,模型通过动态调整机制来融合历史数据、时空特征以及外部因素,以提供更加精确的交通流量预测。
4. 方法
4.1. 整体框架
DynaSeek框架由动态建模文本模块(图1(a))、DeepSeek模型微调(图1(b))和LoRA模块(图1(c))三部分构成。首先通过动态建模模块量化时空因素对交通流的影响,构建级联修正模型,它将这些时空信息转化为模型能够理解的文本特征,帮助模型捕捉交通流变化的规律,并在预测过程中加以应用。其次采用LoRA策略对DeepSeek模型进行参数高效微调,将多模态时空特征转化为语言模型可理解的输入表示;通过LoRA方法,仅对模型中关键子模块进行训练,显著降低了计算成本,同时保持了模型的高效性,能够更好地适应交通流预测任务中的多模态特征。最终在预测阶段融合历史数据与实时时空信息,通过动态修正流程生成最终预测结果。
Figure 1. DynaSeek framework diagram
图1. DynaSeek框架图
4.2. 动态建模框架
4.2.1. 全时段动态文本特征建模
交通流的变化本质上是人类活动、区域功能与自然条件协同作用的结果,这一规律已在长期的交通观测与城市运行实践中得到验证。从常识角度看,通勤、商业运营、货运等活动在时间轴上的分布具有明显规律性,驱动交通流形成可识别的时段特征;从历史研究视角,交通领域对时段划分与流量模式的探索由来已久,为本文建模提供了实践依据。基于对交通流这一固有属性的认知,结合现实交通场景的时段划分常识及历史数据映射的流量演变规律,本文展开全时段动态文本特征建模,具体划分早间基本时段(5:00~9:00)、白天活跃时段(9:00~16:00)、复合高峰期(16:00~20:00)、夜间过渡期(20:00~23:00)、深夜稳定期(23:00~5:00),如图2为具体的全时段动态文本展示。
Figure 2. Dynamic text modeling prompts for all time periods
图2. 全时段动态文本建模提示
4.2.2. 气象与时段耦合文本修正
气象条件和时段效应共同影响交通流量的变化,因此,本文提出了气象与时段耦合的文本修正机制,以动态调整交通流量预测。气象因素如降水、温度和能见度会显著影响交通流的变化。例如,降水强度增加会导致交通流量减少,特别是在暴雨天气条件下;低温环境则会抑制出行需求,而高温环境则可能推动出行流量的增加;低能见度(如浓雾或大雨)会降低交通效率,导致交通流量的衰减。模型根据这些气象条件动态调整流量预测,确保在不同天气下的预测结果准确。
另一方面,时段效应反映了交通流量在不同时间段的规律性变化。例如,高峰时段通常伴随着流量的增加,夜间时段流量则趋向稳定并逐渐衰减。模型根据这些时间段特征进行预测调整,还要考虑早高峰与晚高峰时段流量的增多,以及节假日效应对流量规律的影响。通过将气象数据与时段特性结合,模型在每个时段内引入相应的修正系数,实时调整预测值,捕捉交通流量的时空变化,确保模型能够应对复杂的时空因素,提供更精确的交通流量预测。
4.3. DeepSeek模型微调策略
4.3.1. 低秩适应(LoRA)参数优化
针对交通流预测任务的多模态特性与动态建模需求,本文提出一种基于LoRA的参数高效微调方法。该方法通过冻结预训练模型主体参数,仅对关键子模块的参数进行微调,从而实现了在保持模型精度的同时降低计算成本。具体而言,LoRA策略通过对预训练模型的部分参数进行优化,确保了模型对外部因素和时空特征的高效适应。具体来说,目标模型的权重矩阵W可以表示为:
(3)
其中
为预训练的参数矩阵,
和
为低秩矩阵,秩参数
。通过引入低秩矩阵,LoRA优化方法有效降低了计算复杂度,并通过微调实现了更为精确的动态模型调整,从而保证了交通流预测任务中的时效性和准确性。
4.3.2. 多模态数据嵌入机制
为适配交通流预测任务的多模态输入需求,本文设计了时空特征文本化模块,将结构化交通数据(历史流量序列、道路属性)与非结构化环境信息(天气描述、区域类型)转化为统一的语言表示。具体而言,输入特征通过嵌入层
转换为词向量序列,并采用残差连接机制融合不同模态信息:
(4)
其中
为历史12小时流量序列,
为时空特征向量,
为气象文本描述。该设计不仅保留了原始数据的数值特性,还通过自然语言描述增强了模型对复杂时空关联的理解能力。
4.3.3. 多阶段优化策略
为实现模型性能与计算效率的平衡,本研究采用三阶段优化策略,分层次对模型训练过程进行调控第一阶段为初始优化阶段,首先通过模型量化技术将模型精度降低至占原始模型的50%,从而减少存储需求。量化过程通过以下公式进行
(5)
其中s为比例因子,z为零点偏移,
为量化位数。同时启用梯度检查点技术,将前向传播产生的中间激活张量从显存中卸载,仅在反向传播时重新计算,从而减少60%以上的激活内存消耗。
第二阶段为参数优化阶段,在此阶段采用余弦退火学习率调度策略来优化模型的训练过程。该策略通过调整学习率,提升模型对细节的敏感度,使得模型在不同训练阶段更高效。学习率的变化可以通过以下公式表示:
(6)
其中
为初始学习率,
为最小学习率,t为当前训练步数,T为总训练步数。通过这一策略,模型能够更好地优化每一步的训练效果,进而加速训练过程。
第三阶段为动态调整阶段。在训练过程中,根据当前模型的使用情况进行自适应调整。通过以下公式更新模型的批处理大小
:
(7)
引入早停机制,当验证集损失在连续5个周期内无显著下降时终止训练。为防止过拟合,在损失函数中加入权重衰减项:
(8)
其中
为正则化系数,w为可训练参数。通过上述三阶段优化策略,模型在保证预测精度的前提下,将训练显存需求从128 GB降至56 GB,训练时间缩短35%,同时保持LoRA微调的高效性。
5. 实验
5.1. 数据集及实验设置
本次实验采用CATraffic数据集,该数据集是从LargeST数据集中筛选出的1000个传感器的数据,覆盖了大洛杉矶(GLA)和大湾区(GBA)等地区。数据的时间范围是从2018年1月1日到2019年12月30日,采样频率为每小时一次。然而,由于计算资源的限制,本次研究仅使用2018年1月1日至2018年3月8日100个地区的交通流量数据,包括传感器数据、气象信息、兴趣点(POIs)数据以及节假日信息。在实验过程中,将数据集按照70%、15%、15%的比例划分为训练集、验证集和测试集。
5.2. 结果与分析
5.2.1. DynaSeek与基线模型预测结果对比分析
为了评估DynaSeek模型的表现,我们把预测数值结果与以下基线模型进行了对比。预测结果使用平均绝对误差
和均方根误差
作为评估指标。
LSTM为时间序列预测方法,能够有效捕捉交通流量中的时序依赖性[16]。
STGCN通过图卷积网络建模交通网络中的空间依赖性,用时间卷积网络捕捉时序数据的变化[17]。
ASTGCN在STGCN的基础上,引入了注意力机制,根据时间步长和空间节点的影响力加权计算[18]。
GWNET结合了图卷积网络和WaveNet架构,利用图卷积捕捉空间依赖性,处理长时间依赖[19]。
AGCRN结合GCN和RNN,引入注意力机制来动态调整空间和时间的依赖性[20]。
STTN有效处理时空数据中的非线性关系,能够捕捉复杂的空间和时间模式[21]。
DSTAGNN通过深度学习模型和注意力机制,显著提高了交通流量预测的准确性[22]。
TP-LLM采用大语言模型技术,通过处理交通数据的文本信息来预测未来的交通流量[10]。
DeepSeek-R1是本文模型的基础,使用大语言逻辑推理进行交通流量预测[15]。
Table 1. Comparison results of DynaSeek model and other baseline models on CATraffic dataset
表1. DynaSeek模型与其他基线模型在CATraffic数据集的对比结果
Steps |
Metrics |
LSTM |
STGCN |
ASTGCN |
GWNET |
AGCRN |
STTN |
DSTAGNN |
TP-LLM |
DeepSeek-R1 |
Ours |
3 |
MAE |
40.00 |
25.83 |
44.47 |
25.56 |
25.67 |
26.00 |
34.06 |
20.20 |
20.67 |
17.00 |
RMSE |
62.65 |
43.43 |
66.60 |
42.59 |
43.92 |
43.41 |
51.79 |
40.34 |
20.82 |
18.57 |
6 |
MAE |
48.10 |
27.94 |
49.47 |
28.27 |
28.94 |
30.79 |
33.72 |
22.70 |
37.17 |
16.83 |
RMSE |
74.69 |
46.64 |
75.07 |
45.91 |
48.92 |
51.63 |
53.44 |
44.53 |
40.79 |
17.89 |
9 |
MAE |
49.60 |
30.16 |
53.43 |
28.70 |
30.74 |
33.11 |
36.45 |
23.89 |
34.11 |
20.11 |
RMSE |
77.61 |
50.04 |
81.76 |
46.61 |
52.06 |
56.19 |
56.21 |
45.89 |
37.93 |
23.45 |
12 |
MAE |
42.05 |
33.20 |
43.40 |
30.47 |
32.70 |
38.27 |
37.91 |
24.99 |
39.92 |
22.33 |
RMSE |
69.86 |
54.91 |
69.75 |
49.79 |
56.13 |
61.38 |
60.33 |
47.82 |
43.61 |
25.21 |
从表1中可以看出,DynaSeek模型在CATraffic数据集上与其他基线模型进行比较时,表现出显著的优势。在所有的预测步骤(3步、6步、9步、12步)中,DynaSeek在MAE和RMSE指标上均优于其他模型,尤其是在12步预测时,DynaSeek的MAE为22.33,RMSE为25.21,明显低于其他模型。这表明DynaSeek能够更好地捕捉交通流量的时空依赖关系,具有较强的预测能力和稳定性。并且DeepSeek在未训练直接进行预测时效果较差,说明了本文方法的重要性。
5.2.2. 不同大语言模型预测结果对比
为验证本文提出的DynaSeek模型在交通流量预测任务中的有效性,本研究将其与当前主流大语言模型在CATraffic数据集上进行对比实验,使用相同的文本在不同模型进行预测未来12小时交通流量,通过MAE和RMSE作为定量评价指标。结果如表2所示,DynaSeek在MAE和RMSE上均显著优于其他模型,除了DeepSeek之外,KimiChat表现得较好;而ChatGPT 4o与通义千文因误差较高,可能受限于通用领域预训练范式对交通时序特征的适配不足。
Table 2. Comparison results of different large language models on the CATraffic dataset
表2. 不同大语言模型在CATraffic数据集的对比结果
Metrics |
MAE |
RMSE |
DynaSeek |
22.33 |
25.21 |
DeepSeek-R1 |
39.92 |
43.61 |
豆包 |
51.83 |
60.49 |
KimiChat |
46.17 |
57.48 |
通义千文 |
94.42 |
109.04 |
文心一言 |
51.83 |
60.49 |
ChatGPT 4o |
94.83 |
122.35 |
5.2.3. 预测结果可解释性评估
进一步地,本研究选择对DynaSeek模型和除DeepSeek之外表现较好的KimiChat模型在CATraffic数据集上进行数值上的评估以及预测结果的可解释性的评估,其预测流程如图3与图4,基于因果关联透明度和推理过程的可塑性进行分析。
Figure 3. DynaSeek prediction results and logic
图3. DynaSeek预测结果及逻辑
Figure 4. KimiChat prediction results and logic
图4. KimiChat预测结果及逻辑
从因素关联透明度的角度来看,DynaSeek深度融合了多维度影响因素,以确保每个预测结果的清晰性与透明性。例如,在中午12点,模型结合商业区午间活动的规律,并叠加18%的修正系数,得出了112的流量预测值;下午1点,基于教育区放学时段的特征,模型加入了12%的动态因子,预测值为132;在下午3点,考虑到商业区活动指数的衰减(每小时−10%),预测流量为158;而在晚上8点,融入了“低温加速衰减”因子,预测值为75。这些预测值每小时都与区域属性(如商业区、教育区)、时段特征(如白天活跃期、夜间过渡期)和天气条件(如低温影响)等因素紧密相关,形成了一个清晰的“数据–影响因素–修正机制–结果”的透明化逻辑链条。相比之下,Kimichat仅呈现了预测数值结果,缺乏对时空信息、天气条件及历史数据等因素的整合说明。每个小时的预测值未赋予合理的修正逻辑,无法追溯预测值的生成依据,其过程完全处于“黑箱”状态。
从推理过程可追溯性来看,DynaSeek构建了一个完整的推理框架,确保了每个预测结果的理论与数据支撑。从“美国加利福尼亚州埃尔多拉多市第3区”的道路场景定位,到“气温3.4℃、晴朗、能见度10.0英里”的天气影响分析,再到“时段划分”下的交通模式解析(如复合高峰期、夜间过渡期),每个环节都经过明确的理论与数据支持。最终,结合历史数据进行趋势判断,使得每一预测结果都具备可验证性。例如,晚上10点流量预测为48时,依托于“州际货运稳定期模型”,预测过程得以复现和验证。相较之下,Kimichat未展示从输入数据到预测结果的推导过程,既未分析“US50-W高速公路西行方向”的空间特征,也没有考虑“非节假日”时段规律,缺乏对天气因素量化影响的说明。其预测结果显得过于简化,缺乏可追溯的推理路径,给人一种“结论直出”的感觉。
5.3. 消融实验
本部分通过消融实验评估DynaSeek模型中各个组件的贡献,分析模型不同部分对最终预测性能的影响。具体地,我们通过逐步去除或替换模型中的关键组件,包括去除LoRA微调(No LoRA Fine-tuning)、去除动态建模(No Dynamic Modeling)、去除时段修正(No Temporal Correction)、去除气象修正(No Weather Correction)、基准模型(Baseline Model),来评估模型在不同配置下的表现,并探讨哪些因素对预测结果起到决定性作用,使用MAE作为评估指标,全面衡量模型在不同配置下的性能表现,进而明确对预测结果起决定性作用的因素(见图5:DynaSeek模型的消融实验)。
Figure 5. Ablation experiment of DynaSeek model
图5. DynaSeek模型的消融实验
通过消融实验结果可以看出,DynaSeek完整模型表现最佳,表明在所有组件的共同作用下,能够提供最优的交通流量预测。当去除LoRA微调和动态建模这两个关键组件后,模型性能呈现显著下降趋势。LoRA微调通过优化模型参数,提升了模型对多模态数据的学习能力;动态建模则有效捕捉了交通流的时空动态特征。二者的缺失严重削弱了模型的预测精度,充分证明了它们在优化预测过程中的关键有效性;去除时段修正和气象修正后,模型性能同样出现恶化情况。在交通流量变化显著的高峰时段,以及受特殊天气条件影响较大的场景下,这种恶化尤为明显。时段修正机制依据不同时间段的交通流量规律进行动态调整,气象修正机制则考虑了天气因素对交通流的影响。它们的缺失使得模型无法充分适应复杂多变的交通环境,表明时段和气象修正机制在提升模型精度方面具有不可忽视的作用。总之,DynaSeek模型的各个组件都对最终性能发挥了积极作用,去除任何一个组件都会影响模型的预测能力。
6. 结论
本文提出了一种基于DeepSeek微调和动态建模相结合的交通流量预测方法(DynaSeek)。该方法通过引入时空动态建模、气象与时段耦合的修正机制,以及LoRA微调策略,成功提高了交通流量预测的准确性和可解释性。DynaSeek的优势是能够结合历史数据、实时气象信息和时段特征,对交通流量进行全时段动态预测,通过修正机制有效应对不同气象条件和时段效应的影响。未来的工作可以进一步扩展DynaSeek框架,探索更多的外部因素对交通流量预测的影响,如交通事件、突发事故等。此外,如何更有效地评估预测结果的可解释性仍然是值得深入研究的方向。