1. 引言
随着城市化进程的加快,交通拥堵问题变得更加严重。智能交通系统(ITS)在缓解交通压力和提高运输效率方面起着重要作用[1]。交通流预测作为ITS的重要组成部分,旨在通过分析历史交通数据来预测未来的交通状况,为交通管理和决策提供依据[2]。
近年来,深度学习技术在交通流预测领域取得了显著进展。基于卷积神经网络(CNNs)、循环神经网络(RNNs)以及图神经网络(GNNs)的模型被广泛应用于捕捉交通数据中的时空特征[3]-[5]。然而,这些复杂的深度学习模型通常被视为“黑箱”,缺乏对输入输出过程的直观解释,限制了其在实际应用中的透明性和可信度[6]。此外,交通数据本身复杂且多样,且在数据收集过程中经常出现缺失,这使得处理缺失数据成为交通流预测中的一大难题。传统的数据补全方法在处理多模态交通数据时效果有限,且很难平衡预测精度和可解释性[7]。
为解决以上问题,本文提出了一种基于大语言模型的可解释性缺失数据交通预测模型(LLM-MTFP)。该模型通过将多模态交通数据转化为自然语言描述,利用大语言模型(LLMs)的语言理解和生成能力,捕捉复杂的时空特征和外部影响因素,并通过语言指令对模型进行微调,从而实现高精度的交通流预测和可靠的结果解释。本文的主要贡献包括:
λ 提出了一种将多模态交通数据转换为自然语言描述的方法,为大语言模型在交通流预测中的应用奠定基础。
λ 设计了基于大语言模型的交通预测框架,能够有效处理缺失数据并提供可解释的预测结果。
λ 在加利福尼亚州多模态数据集上进行了广泛的实验验证,结果表明本文方法在预测准确性和解释能力方面均优于现有基线模型。
2. 相关工作
2.1. 缺失数据交通流预测方法
交通流预测在智能交通系统中至关重要,但其性能常受数据缺失问题的制约。传统方法如插值法和均值填充仅适用于小规模随机缺失,难以处理大规模连续缺失或复杂时空依赖性问题[8]。最近,基于深度学习的补全与预测联合建模成为研究热点。例如,图时空自编码器(GSTAE)通过多任务学习框架,同时处理缺失值估算和预测任务,避免了误差积累问题,提升了数据连续缺失场景下的预测精度[9]。低秩张量补全(LRTC)通过引入时空克里金和图拉普拉斯正则化,能在低观测率下有效恢复交通数据的多维相关性。时空卷积神经网络(STCNN)结合掩码矩阵标记缺失数据,直接利用时空矩阵提取特征,无需依赖完整数据预处理,适用于随机和连续缺失场景[8]。
然而,现有研究仍存在一些问题,大多数方法需要先补全再预测,而直接处理缺失数据的端到端方法较少。基于GAN或自编码器的生成方法虽然能补全数据,但可能会因生成数据偏离真实分布而影响预测的可靠性。
2.2. 可解释性交通流预测方法
随着深度学习模型在交通流预测中的广泛应用,模型的可解释性逐渐成为研究的重点。传统深度学习模型,如LSTM和GNNs,难以理解和解释其内部决策过程。这限制了这些模型在需要透明决策支持的交通管理中的应用。
为了解决这个问题,研究者提出了多种方法。一种常用的方法是引入注意力机制,通过时空注意力权重可视化模型关注的区域(如拥堵节点或高峰时段),或者从模型中提取决策规则来解释预测过程[10]。这种方法可以揭示模型在预测过程中关注的关键因素,如交通流预测中,注意力机制帮助识别最影响预测结果的时空特征。另一种方法是规则提取技术,它从训练好的深度学习模型中提取决策规则,提供直观的解释[11]。这些方法在一定程度上提高了模型的可解释性,但在处理复杂交通数据时仍然有局限性。
2.3. 大语言模型在交通领域的应用
大语言模型(LLMs)在自然语言处理领域取得的成功,激发了研究者将其应用到交通领域。TransGPT通过微调LLM来处理单模态或多模态交通数据(如传感器数据、轨迹和天气),支持生成交通报告和场景合成[12]。TP-LLM引入时空嵌入和部分冻结的注意力机制,增强了LLM对交通序列时空异质性的捕捉能力,在全样本和少量样本预测任务中表现出色,证明了预训练LLM在交通预测中的有效性[11]。TrafficGPT结合交通基础模型(TFM)与LLM,支持自然语言任务分解(如“优化早高峰信号灯配时”)与结果修正反馈,提升了交通控制系统的自适应能力[13]。
尽管LLMs在交通领域的应用前景广阔,但其在实际应用中仍面临一些挑战。例如,LLMs的计算开销较大,在处理大规模交通数据时可能需要大量的计算资源。此外,LLMs的训练和微调过程需要大量的标注数据,在实际交通场景中难以获得。
3. 问题描述
交通流量预测是时间序列预测问题之一,需依据历史数据预测未来值。本框架目标是预测未来值,并基于历史值和外部因素生成解释,可用公式表示
(1)
其中
是预测模型,
、
为历史和未来值,
是外部因素,表示与交通流相关的外部影响。本研究通过将大语言模型作为
来建模,处理交通流量预测的任务。具体而言,将流量预测转化为语言建模问题,并通过语言模型的微调进一步改进预测性能。模型输出序列
自回归重建为公式(2),以此生成解释,增强模型生成连贯相关解释的能力。
(2)
4. 方法
本研究提出了一种基于大语言模型的可解释性缺失数据交通流预测模型(LLM-MTFP),通过自然语言处理技术,解决交通流预测中的缺失数据处理和模型可解释性问题。如图1所示,LLM-MTFP模型框架主要由三个核心模块组成:数据文本化设计、基于大语言模型的训练与优化,以及预测与解释,以下对所提模块进行详细阐述。
Figure 1. Traffic flow prediction and interpretation system framework diagram
图1. 交通流量预测与解释系统框架图
4.1. 数据文本化设计
4.1.1. 缺失数据处理
为了充分利用大语言模型在文本理解与生成方面的优势,解决交通流预测中的缺失数据问题,本文将多源异构交通数据转换为自然语言描述,从历史流量信息、日期节日、天气与温度数据、POI (兴趣点)分布及时空标识等多个方面提取关键字段。当数据缺失时,使用占位符(如“[MASK]”)进行标记。通过这种方法,LLM可以利用上下文信息推测缺失部分或忽略对应字段。如果某个特征(如车流量、温度、POI等)缺失,模型可以根据其他信息做出稳健的预测,从而提高了对不完整数据的鲁棒性。
4.1.2. 多模态数据到自然语言的转换
交通流预测任务涉及多个来源的数据,如历史交通流量、天气条件、时间信息(如日期、节假日)和空间信息(如区域类型:住宅区、商业区、教育区等)。为了更好地利用大语言模型的语义理解能力,本文设计了一种将多模态数据转换为自然语言的机制。如图2所示,原始的多模态交通数据被转换为结构化的自然语言描述。例如,“过去12小时的交通流量为19,44,98”被转换成自然语言描述,既保留了数据的语义信息,又为大语言模型处理提供了统一的输入格式。外部因素(如天气、温度、能见度等)也被转化为自然语言描述。例如,“今天的天气为晴天,温度为6.0℃,能见度为10.0英里”。通过这种转换,模型能够更好地理解和处理复杂的多模态交通数据。
Figure 2. System architecture and logical reasoning process
图2. 模型的系统架构与逻辑推理流程
4.1.3. 因果关系与逻辑推理方法
为增强交通流预测的合理性和可解释性,本研究在任务指令和数据格式设计中加入了因果关系和逻辑推理机制,并将其融入到大语言模型的提示和输出中,如图2所示。在指令输入阶段,模型获得了关于时空环境和交通变化的因果线索,并提供了动态预测校正的思路。在“逻辑推理”策略下,模型生成下一时段交通量时,首先根据历史模式和外部特征做初步预测,然后根据早期时段(如凌晨1点至3点)的预测结果调整后续时段(如凌晨4点至12点)的交通量。这种递归式的预测策略可以有效捕捉误差和上下游交通变化的关联,改善整体预测精度。
在因果关系方面,本研究在指令和上下文信息中明确了潜在的时空因果关系。例如,商业区在午餐时段交通量通常因就餐需求而增加,旅游景点在节假日会出现流量高峰。这些因果关系帮助大语言模型在缺失数据或突发环境变化时,基于合理的因果逻辑做出更有解释力的推断,而不是仅依赖历史数据的相关模式。为了确保模型有效利用这些因果信息,指令文本中列举了多个典型场景,如“如果该地区是商业区且时间为午餐时段,交通量往往会上升”,使模型在预测时能根据时段和区域属性进行调整。
完整版输入指令如图3所示。
4.2. 基于大语言模型的训练与优化
大语言模型(LLM)是LLM-MTFP的核心部分,负责从自然语言描述中提取交通数据的时空特征。我们使用预训练的大语言模型(Qwen2-7B-Instruct)作为基础,并通过微调使其适应交通流预测任务。大语言模型能通过强大的语义理解和生成能力,捕捉交通数据中的时间依赖性和空间相关性。
在时间维度上,大语言模型能够识别交通流量的周期性变化(如早晚高峰)和突发事件的短期影响(如交通事故或恶劣天气)。在空间维度上,模型可以理解不同区域(如住宅区、商业区、教育区)的交通模式差异。例如,模型能够识别商业区在午餐时间和下班后交通流量显著增加,教育区在学校高峰时段的交通流量较大。
在模型训练过程中,我们使用了课程学习策略,逐步增加训练数据的复杂度和缺失比例。模型首先在完整的交通数据上进行训练,然后逐步引入缺失数据,让模型能够学习如何处理各种情况。此外,我们还使用了低秩适应(LoRA)技术对大语言模型进行微调。LoRA通过低秩矩阵分解,减少了微调过程中的参数量,从而提高了模型的训练效率和泛化能力。
Figure 3. Enter a detailed text description
图3. 详细输入文字描述
4.3. 预测与解释
模型根据历史交通流量数据、天气条件、时间信息(如节假日)和空间信息(如区域类型),预测未来12小时的交通流量并给出解释,如图4。例如,模型首先根据历史数据和当前的外部条件(如天气、节假日等)进行预测。如果当前是节假日且天气不好,模型会预测交通流量较低。然后,结合因果关系和逻辑推理,对预测结果进行调整。通过使用历史数据、外部因素、因果关系和推理,模型提供了准确的预测,并帮助用户理解交通流量的变化和原因。
Figure 4. Output prediction results and explanation examples
图4. 输出预测结果及解释示例
5. 实验
5.1. 数据集及评价指标
由于大模型训练要求设备较高,本实验使用miniCATraffic数据集,CATraffic数据集是从LargeST数据集中选取了1000个传感器的数据,涵盖大洛杉矶(GLA)和大湾区(GBA)等地区,数据时间跨度为2018年1月1日至2019年12月30日,采样频率为每小时一次。由于算力问题,本次研究使用miniCATraffic数据集,时间跨度为2018年1月1日至2018年3月8日的100个地区的交通流量数据集。其中包括传感器数据、气象信息、兴趣点(PoIs)数据和节假日信息。并人工设置随机缺失比例到10%、30%和50%,以及多种缺失模式(车流量、温度、天气等各项缺失)进行实验。
5.2. 实验设置
本文选择Qwen2-7B-Instruct作为核心大语言模型(LLM),主要考虑了其在算力需求、响应速度和性能方面的最佳平衡。相比于其他更大参数的模型(如Yi-34B-Chat和Qwen1.5-32B-Chat),Qwen2-7B-Instruct具有较低的计算开销,能够在有限的资源下高效运行,并且在响应速度上表现良好。
在对每个数据集进行文本化转换及指令封装后,分别将其输入到Qwen2-7B-Instruct模型进行LoRA微调。为在性能与计算开销之间得到平衡,设置了以下超参数:LoRA Rank为32,LoRA Alpha为64,优化了计算资源和表示能力的平衡;Batch Size大大提高了训练效率和精度,但增加了显存占用,将Global Batch Size设为128,Micro Batch Size为4,以提高训练效率并有效利用显存;Epochs设置为3,选择了3e-4的初始学习率,以确保稳定训练;由于学习率过大导致模型不稳定,过小则训练缓慢,所以采用线性学习率调度(Linear),使得学习率在训练过程中逐渐降低,避免局部最优解。
在推断阶段,将测试集文本与系统提示一起输入模型,令其先返回下一个12小时或更多时段的流量预测值,再附带解释性文本。传统基线方法则不生成解释,仅提供流量预测结果。
5.3. 结果与分析
由于预测结果解释为生成文本,没有前例可以比较,所以以数值预测为标准,采用平均绝对误差MAE和MAPE (%)两大指标,以衡量在不同时段、不同缺失场景下的精度表现。我们与以下基线模型进行对比:
λ LSTM是一种经典的RNN变体,用于处理和预测时间序列数据,能捕捉长期依赖关系[14]。
λ DCRNN结合了GCN和RNN的优点,通过传播过程模型捕捉空间和时间的依赖关系,能有效处理带有空间相关性的时序数据[15]。
λ STGCN通过GCN来建模交通网络中的空间依赖关系,结合时间卷积来捕捉时序数据的变化[16]。
λ ASTGCN进一步增强了STGCN,通过引入注意力机制来加权不同时间步长和空间节点的影响力[17]。
λ GWNET结合了GCN和WaveNet架构,适用于复杂的交通网络,通过图卷积捕捉空间依赖,通过WaveNet捕捉长时间的依赖[18]。
λ AGCRN结合了GCN和RNN,使用注意力机制来动态调整空间和时间依赖,提升了模型在复杂时空数据上的表现[19]。
λ STTN是专门为交通流量预测设计的网络架构,能够有效处理时空数据中的非线性关系,并且能够捕捉复杂的空间和时间模式[20]。
λ DSTAGNN通过深度学习和注意力机制来强化交通流量预测,在捕捉空间和时间的依赖关系方面有显著的优势[21]。
λ TP-LLM是基于大语言模型(LLM)的交通流量预测方法,通过处理输入的交通数据文本,预测未来的交通流量[11]。
Table 1. Comparison of LLM-MTFP and baseline models on the complete CATraffic dataset
表1. 完整CATraffic数据集LLM-MTFP与基线模型对比
Steps |
Metrics |
LSTM |
DCRNN |
STGCN |
ASTGCN |
GWNET |
AGCRN |
STTN |
DSTAGNN |
TP-LLM |
Ours |
3 |
MAE |
40.00 |
37.32 |
25.83 |
44.47 |
25.56 |
25.67 |
26.00 |
34.06 |
20.20 |
19.73 |
MAPE |
24.75 |
24.52 |
16.09 |
28.36 |
15.96 |
15.60 |
16.22 |
23.90 |
9.94 |
10.26 |
6 |
MAE |
48.10 |
45.83 |
27.94 |
49.47 |
28.27 |
28.94 |
30.79 |
33.72 |
22.70 |
22.34 |
MAPE |
33.98 |
31.57 |
15.75 |
33.10 |
18.00 |
17.31 |
18.99 |
21.27 |
11.39 |
10.67 |
9 |
MAE |
49.60 |
47.97 |
30.16 |
53.43 |
28.70 |
30.74 |
33.11 |
36.45 |
23.89 |
22.85 |
MAPE |
39.26 |
32.22 |
17.52 |
35.35 |
19.88 |
18.38 |
20.69 |
24.00 |
12.09 |
11.23 |
12 |
MAE |
42.05 |
43.08 |
33.20 |
43.40 |
30.47 |
32.70 |
38.27 |
37.91 |
24.99 |
22.58 |
MAPE |
25.99 |
25.05 |
19.27 |
28.03 |
20.46 |
19.50 |
26.09 |
24.23 |
12.30 |
11.74 |
Figure 5. Comparison results of TP-LLM model and LLM-MTFP model under different missing rates
图5. 不同缺失率下TP-LLM模型与LLM-MTFP模型对比结果
表1给出了在完整数据集上LLM-MTFP与各基线模型对比。结果显示,我们的模型在所有预测时间步长(3、6、9、12小时)下均表现较好,除了在3步长时与TP-LLM模型相差不大,但随着时间步长的增加,所有模型的误差有所上升,我们的模型依然在所有时间步长中保持最低的预测误差,展示了其在交通流量预测任务中的优越性和鲁棒性。
图5是TP-LLM模型与LLM-MTFP模型预测未来12小时的不同缺失车流量比例下的对比结果。可以看出,当缺失率较低(10%)时,TP-LLM与LLM-MTFP相差较小。随着缺失率增大至50%,TP-LLM误差增加,LLM-MTFP效果依然较好,验证了文本化缺失处理对于复杂、多源不完整数据的适应能力。
5.4. 消融实验
Figure 6. Ablation comparison experiment of different variants
图6. 不同变体的消融对比实验
为了分析LLM-MTFP中子模块的效果,我们通过评估模型的几种变体对CATraffic数据集进行了消融研究。使用MAE进行评估指标预测未来12小时车流量结果,每个变体都会禁用特定组件以评估它们对整体性能的影响。变体定义如下:
λ LLM-MTFP-sa:去除空间信息的描述,包括POI兴趣点、特定区域交通模式、地理位置
λ LLM-MTFP-ta:去除时间信息的描述,包括当前时间、是否节假日周末、天气
λ LLM-MTFP-cr:去除对因果关系的描述
λ LLM-MTFP-lr:去除对递归推理的描述
λ LLM:去除所有附加信息,直接用大语言模型进行预测
根据图6可以看出,不同子模块对LLM-MTFP模型的性能有很大影响。去除空间信息(LLM-MTFP-sa)后,MAE值增加,说明空间信息对交通流量预测有重要作用。去除时间信息(LLM-MTFP-ta)也影响了模型的表现,说明时间信息对捕捉交通流动模式非常重要。去除因果关系描述(LLM-MTFP-cr)和递归推理模块(LLM-MTFP-lr)后,性能下降,说明思维链中的因果关系和递归推理在长期预测中也很重要。最后,当所有附加信息都去除,只使用大语言模型时,准确率大幅降低,说明多种信息的结合是提高模型预测能力的关键。结果表明,空间信息、时间信息、因果关系和递归推理都是LLM-MTFP模型中不可缺少的部分。
5.5. 缺失数据下可解释性对比实验
将模型用于完整CATraffic数据集进行零样本预测,选取缺失POI等所有地点提示(如图7),并与ChatGPT-4o (不提供因果关系和逻辑推理)进行可解释性对比。本文模型预测结果如图8,ChatGPT-4o预测结果如图9,准确结果为[116, 106, 95, 65, 49, 38, 22, 14, 11, 9, 11, 28]。
Figure 7. Remove the location hint text
图7. 去除地点提示的文本
Figure 8. LLM-MTFP model prediction results for missing location text
图8. LLM-MTFP模型对缺失地点文本预测结果
Figure 9. chatgpt-4o model prediction results for missing location text
图9. Chatgpt-4o模型对缺失地点文本预测结果
可以从对比结果得出,LLM-MTFP模型通过融合因果分析与逻辑推理,将历史交通数据与多维度影响因素相结合。考虑了假期效应、天气条件及不同时段的人类活动模式。从因果关系出发,下午4时后,随着人们返程,商业和教育活动减少,交通流量开始下降;晚高峰结束后,交通流量进一步降低;而在22时至次日凌晨3时,大部分人处于休息状态,交通流量降至最低,整体结果受缺失数据影响较小。相比之下,ChatGPT-4o模型虽然对预测结果进行了阐释,但其因果关联的分析和推理深度不足。
6. 结论
本文提出了一种基于大语言模型的交通流预测模型(LLM-MTFP),并且能够在缺失数据情况下预测效果较好。该模型通过将多模态交通数据转化为自然语言,并且利用大语言模型的语义理解能力,在复杂的时空背景下做出准确的交通流量预测并提供合理解释。实验结果表明,在处理不同缺失场景时,该方法的预测精度明显优于传统基线模型,尤其是在缺失率较高的情况下,能够保持稳定表现。随着智能交通系统的发展,未来基于大语言模型的交通流预测方法将在数据处理、预测精度和可解释性方面发挥更广泛的作用。