1. 引言
近几年,随着经济持续增长,车辆保有量不断增加,交通拥堵情况日趋严重。为了缓解和治理此类现象,短时交通量 [1] 预测技术应运而生,该技术是智能交通系统(Intelligent Transportation System, ITS) [2] 的关键,其基本原理基于实时或历史交通数据预测未来短时间内(如几分钟、几小时等)道路交通流量的变化情况 [3] ,在交通管理与控制中扮演重要的角色。对于城市交通管理者而言,准确地预测未来几个小时的交通量有助于调整路网的信号配时 [4] ,优化交通系统的运行效率;对于智能交通系统而言,精准预测未来一段时间的交通量可以提供更加精准的路况信息,从而指导出行者选择最优路径、减少交通拥堵,进而缩短出行时间。
随着深度学习的发展,人们意识到单向LSTM模型在处理序列数据时存在信息获取的局限性。因此,Alex Graves [5] 等人在2015年提出了双向长短期记忆网络(Bi-LSTM),以解决这一问题。Bi-LSTM是基于LSTM模型,通过添加反馈连接建立反向传输层,实现正向传递信息和反向传递信息的充分利用,有助于提高预测精度。Bi-LSTM由前、后向LSTM组合而成,且预测结果比LSTM的预测结果更优。同时,与单步预测只关注下一个时刻的预测不同,多步预测要求模型能够同时预测未来多个时刻的值。多步预测是指在时间序列分析中,预测未来多个时刻的数值或状态,这在许多实际运用中是十分关键的。
为了加强污水处理过程监控和故障的检测,肖红军(2016) [6] 通过运用多步预测,从输出质量变量和输入过程变量两个方面对基于数据驱动的污水处理过程故障诊断与多步预测展开了研究,实现了对污水处理过程进行故障诊断和提前预测,尽可能地避免故障的产生。
顾溢(2019) [7] 通过构建Bi-LSTM-CRF模型,利用了中文构词造句的特征,基于位置信息对中文字符向量的表示进行优化,利用主题模型框架构造出中文字符主题概率向量作为辅助特征,补充特征表示中的全局信,实现复杂中文命名实体识别技术。
姜猛等(2019) [8] 通过BERT预训练模型对文本信息进行特征提取,将其输出的语义字向量作为下一阶段Bi-LSTM的输入,搭建了一种Bert-Bi-LSTM-CRF模型框架,该模型是BERT模型和Bi-LSTM的结合,识别效果相比于其他模型均有显著优势。
孙弋,梁兵涛(2021) [9] 为了解决原始模型的训练时间问题,提出一种改进的BERT-Bi-GRU-MHA-CRF模型,结果表明优化模型性能有了大幅度提升。
陈波(2022) [10] 运用多步预测原理,提出一种提升溶解氧预测精度的特征选择方法,提高了河流溶解氧特征组合全局搜索能力,结果表明该方法预测精度更高,具有良好的预测性能,能够为河流水质管理提供参考。
韩玉银(2023) [11] 为了缓解海上交通拥堵,减少事故的发生,促进水上交通管理的智能和高效运行,构建PSO-Bi-LSTM模型,实现了对船舶轨迹进行准确、高效、实时预测。
根据上述综述可以得出,预测技术在智能交通系统、污水处理、中文命名实体识别、河流水质管理和海上交通管理等领域得到了广泛的应用和发展。特别是深度学习技术的应用,如Bi-LSTM模型,可以有效地提高预测精度和促进多步预测技术的进步。
2. 基于Bi-LSTM模型的短时交通量多步预测方法
2.1. 多步预测方法
2.1.1. 递归多步预测
在短时交通流中进行递归多步预测 [12] 是指在每一步预测过程中,利用上一步的预测结果作为输入,并结合历史数据进行下一步的预测,然后持续循环这个过程,逐步推进预测结果的准确性。这里我们用输出的Bi-LSTM预测结果的值替换掉原始数据,得到新数据
,再次输入至Bi-LSTM网络层进行训练可得到
步预测结果。递归多步预测的流程图见图1。

Figure 1. Flow chart of Bi-LSTM algorithm
图1. Bi-LSTM算法流程图
2.1.2. 多步预测方法对比
尽管直接多步预测方法操作简单,但是却需要建立多个模型,不仅增加了计算和维护,而且没有考虑不同时间步的依赖关系;递归多步预测方法,模型复杂度较低,只需建立一个可迭代使用的单步预测模型,但随着预测步数增大,误差会明显增大;直接递归混合多步预测方法,综合递归和直接策略克服了单个方法的局限性,但是建立多个模型仍会增加前期计算和后期维护负担;多输出预测,虽然前期计算和后期维护成本较低,但是模型的构建十分复杂(表1)。综上,本文最终选用递归多步方法对交通量进行多步预测。

Table 1. Comparison of different forecasting models
表1. 不同预测模型的对比
2.2. Bi-LSTM模型介绍
针对短时交通量多步长预测的问题,相较于长短时记忆神经网络(LSTM),双向长短时记忆模型(Bi-LSTM)能够通过前后两个单向的LSTM连接来同时学习过去与未来时刻的时间序列数据特征,其独立的两个LSTM隐藏层处理正向和反向的时间序列数据,在训练时可以更加全面地学习变量间的相互关系,这提高了数据的利用率,更好地利用了时间序列的时间特征。
LSTM模型的内部结构有四个不同的组成部分,即输入门、遗忘门、记忆单元和输出门 [13] ,用于在反馈误差函数随梯度下降时选择性地调用其修正参数。LSTM网络模型结构如图2所示。

Figure 2. LSTM model structure diagram
图2. LSTM模型结构图
其工作原理分为以下三个步骤:
1) 对输入的短时交通量数据进行预选处理(保留或遗弃)
通过遗忘门读取
和
,给每个在细胞状态中的数字输出一个在[0, 1]间的数值。其中0表示丢弃1表示保留。为控制遗忘门行为的权重矩阵,最终通过遗忘门获得的结果如下所示:
(1)
式中
表示t时刻需要遗忘的数据函数,
表示sigmoid函数,
表示
各门控单元的权值矩阵,
表示隐藏状态,
表示
门控单元的权值矩阵,
表示t时刻的输入向量,
各门控单元的偏置参数。
2) 进行数据的保留和选择
通过Sigmoid和tanh进行新值的确定。处理后的交通流数据通过Sigmoid将新数据信息存放在细胞状态中,进而决定更新值。而tanh层会创建一个新候选值向量,将其加入到状态中,最后进行更新。
(2)
(3)
式中
、
表示各门控单元的权值矩阵,
、
表示
各门控单元的权值矩阵,
、
表示各门控单元的偏置参数。
3) 进行数据新的替换和更新
记忆块单元的状态由过去时刻状态和当前时刻状态共同决定,其中过去时刻状态是由过去时刻单元
的状态与被遗忘的开关单元的输出结果根据相应的元素相乘而得到的,而当前时刻状态是由当前时刻单元的状态与输入的当前时刻开关单元根据相应的元素相乘而得到。具体表达形式如下:
(4)
式中
表示遗忘门控单元,
输入门控单元
最终确定的数值。
2.3. Bi-LSTM模型建立
在LSTM的基础上,结合输入在两个方向上的交通流信息,对于t时刻输出,前向LSTM具有t时刻及t时刻之前的交通流信息,后向LSTM具有t时刻及t时刻之后的交通流信息,在训练时,对模型进行双向预测,最后将得到的两个结果融合作为输出。其模型结构图如图3所示。

Figure 3. Bi-LSTM model structure diagram
图3. BI-LSTM模型结构图
其计算方法如下所示:
(5)
(6)
式中:
、
表示t时刻正向LSTM网络的隐藏层状态,
表示t时刻的输入,
、
表示
时刻状态正向LSTM网络的隐藏层状态。
将两部分隐藏层状态
和
组合,从而构成网络整体隐藏状态以上为Bi-LSTM的基本结构及原理,它由两个LSTM神经网络组成,具体操作过程与LSTM模型保持一致,每一步结束后,双向进行训练过程的特征提取,得到最终预测结果。
3. 案例应用分析
3.1. 数据说明
短时交通量数据来源于重庆某主干道路的路口,数据统计间隔为5 min。通过数据预处理方法对数据进行缺失值替换,标准化处理后,对数据集进行划分,将数据集分划成两部分,一部分作为训练集,一部分作为测试集,通常情况下将大约2/3~4/5的样本用于训练,所以本文以8:2的比例划分训练数据集和测试数据集。划分的结果如图4所示。

Figure 4. Time series of short-term traffic volume at the A entrance road
图4. A进口道短时交通量时间序列
3.2. 评价准则
为了更好地评估Bi-LSTM模型的预测效果,本文选取平均绝对误差(MAE, Mean Absolute Error)、平均绝对百分比误差(MAPE, Mean Absolute Percent Error)、均方根误差(RMSE, Root Mean Squared Error)和相对均方根误差(RMSRE, Root Mean Squared Error Relative)作为本文的评价指标,当MAE、MAPE、RMSE和RMSRE的值越小,则该模型预测误差越小,即模型越精确。
其计算式如下所示:
(7)
(8)
(9)
(10)
3.3. 案例应用
本文运用Bi-LSTM模型对短时交通量数据进行多步预测研究,对于Bi-LSTM模型,参数主要分为两类,一类是模型自动拟合的参数,另一类是通过测试算法优化获得的参数。该模型所需的超参数众多且较为复杂,这些超参数会在一定程度上影响模型预测效果,现阶段,一般通过试算法或经验法对这部分超参数进行调整。本文激活函数选择tanh函数,目标函数为RMSE,优化函数为adam函数,用来衡量Bi-LSTM网络的性能,预测结果如图5。
为证明Bi-LSTM模型的预测优势,本文选取两种模型作为对比,分别为ARIMA模型 [14] 和BP神经网络模型 [15] 。通过数据测试,最终确定建立ARIMA (1, 1, 1)实现交通流的多步预测来进行预测对比。其中ARIMA模型能够有效处理具有线性特征的数据 [16] ,训练时间短且易于操作,该模型预测结果如图6;BP神经网络模型具有强大的自学习和自适应性能力 [17] ,具有广泛的适用性,该模型预测结果如图7。

(a) A进口道单步预测
(b) A进口道三步预测
(c) A进口道五步预测
Figure 5. Multi-step prediction results of Bi-LSTM model
图5. Bi-LSTM模型的多步预测结果

(a) A进口道单步预测
(b) A进口道三步预测
(c) A进口道五步预测
Figure 6. Multi-step prediction results of ARIMA model
图6. ARIMA模型的多步预测结果

(a) A进口道单步预测
(b) A进口道三步预测
(c) A进口道五步预测
Figure 7. Multi-step prediction results of BP neural network model
图7. BP神经网络模型的多步预测结果

Table 2. Multi-step prediction index of Bi-LSTM model
表2. Bi-LSTM模型多步预测指标

Table 3. Multi-step prediction index of ARIMA model
表3. ARIMA模型多步预测指标

Table 4. Multi-step prediction index of BP neural network model
表4. BP神经网络模型多步预测指标
分别选取ARIMA模型和BP神经网络模型这两个模型的多步长预测结果与Bi-LSTM模型的多步长预测结果进行对比,能进一步体现Bi-LSTM模型的优越性。这三种模型的评价指标结果分别见表2~4。
3.4. 预测结果分析
由上述结果可以看出Bi-LSTM模型在短时交通量多步预测研究中预测结果较好,其在本文采用的四个评价指标的平均值分别为:RMSE = 1.9992,MAE = 1.6525,MAPE = 6.84%,RMSRE = 19.31%,均小于ARIMA模型和BP神经网络模型的平均评价指标结果。说明Bi-LSTM模型的预测结果更加精确,表明双向长短时记忆网络Bi-LSTM模型的自身特性针对短时交通量这种非线性数据有较好的预测效果。不同模型评价指标折线对比如图8所示。

Figure 8. Line chart of evaluation indexes of different models
图8. 不同模型评价指标折线对比图
同时,随着预测步长的增加,多步预测的误差趋势也随之平稳缓慢增加,第五步时的预测误差最大。其他两种模型也出现了这种结果。该结果表明:在多步长预测中,第一步预测对短时交通量数据的预测能力最强,预测效果也最好,第二步至第五步短时交通量数据预测值和实际交通量数据的差值存在逐渐变大的趋势。
4. 结论
本文对重庆某主干道路的路口的交通量数据进行分析研究。在确定性预测的基础上又进行了多步长预测的分析研究,利用Bi-LSTM模型的正反两层LSTM在时间维度上考虑前向和后向的双向时间序列,挖掘时间序列过去与未来数据之间的联系,使得多步预测更加准确和可靠。
将Bi-LSTM模型应用在交通量多步长预测中,并与ARIMA模型,BP神经网络模型进行对比,分析误差指标发现Bi-LSTM在交通量多步预测上具有较大优势,对未来交通状态的研判提供了更多支持。
基金项目
全国大学生创新创业训练项目,项目编号:X202310618004。
NOTES
*通讯作者。