1. 研究背景
近年来,随着科技水平与社会经济的飞速发展,城市化进程不断加快,城市机动车保有量呈现出逐年激增的趋势。国务院安委会办公室关于印发《“十四五”全国道路交通安全规划》的通知中指出,“十三五”末,全国机动车保有量3.7亿辆,机动车驾驶人4.6亿人,公路通车里程519.8万公里,与“十二五”相比分别增长33.5%、39.3%;“十四五”时期处于“两个一百年”奋斗目标的历史交点,人、车、路等道路交通要素仍将持续快速增长,预计到2025年,我国机动车保有量、驾驶人数量、公路通车里程将超过4.6亿辆、5.5亿人和55万公里。
如今,城市人口与流动需求间的矛盾有愈演愈烈之势,交通拥堵已成为阻碍社会可持续发展的突出问题之一城市交通无法保障社会生活的正常运行。怎样着力解决人民群众普遍关注的交通问题,提高本市交通道路安全水平,进而提升人民幸福感是我们现阶段正待解决的问题。
智能交通系统依靠对行驶车辆运行状态的监控、诱导,优化交通流在路网中的分布,能够有效的缓解道路交通拥堵、交通事故的发生,是目前全世界公认的解决交通问题的最有效途径。城市交通流量预测可以提高交通运输效率,减少资源浪费,优化城市规划设计,从而推进智慧城市建设,推动社会可持续发展。
2. 文献综述
当今社会中,交通拥堵已成为交通事故频发、环境污染和社会资源浪费的重要因素。而交通流量预测是对缓解交通拥堵的主要有效方法之一。因此,如何更精准的预测交通流量已成为交通领域学者所研究的重要课题。
早在二十世纪六十年代,外国学者就展开了短期交通流量预测这一领域的研究,并取得了一些实际性适用性的可观效果。随后,机器学习方法在交通流量预测中得到了广泛应用。覃大坚等人[1]采用三层结构的RBF来构造组合预测模型,提高了交通流量预测精度。沈国江等人[2]提出了一种新的短时交通流量智能组合预测模型,得出组合模型和预测精度更高。景辉鑫等人[3]提出建立灰色ELM神经网络模型来短时交通流量。利用灰色模型对短时交通流数据进行累加,将短时交通流变为长时交通流,利用长时交通流规律性明显、确定性强的特点,对长时交通流进行预测,然后还原成短时交通流预测的结果,提高预测精度。
近年来,国内外研究者利用深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer等通过多层次的非线性变换来学习数据的表示,其中,卷积神经网络在空间特征提取方面表现出良好的性能。因此常用来分析交通流量数据中潜在的空间特性,从而实现更精准的预测。张玺君等人[4]提出了一种基于聚类算法和图神经网络的短时交通流量预测模型,通过图神经网络和门控循环网络建模学习交通流量的空间相关性和时间相关性,进行交通流量预测。谷振宇等人[5]通过研究时间相似性和空间特征,建立了考虑时空相似性的动态图卷积神经网络模型来预测交通流量。
此外,韩成艳[6]提出了一种跨模态融合内参关联性的交通流量预测模型。通过构建多模态特征融合模块,融合交通流内部参数特征、时间依赖特征、空间特征及外部气象特征,得到多模态融合特征,进而通过全连接实现基于多模态特征融合的交通流预测。此种多模态数据融合的方法能提高预测的准确性和鲁棒性。
基于此,我们采用GM (1, N)融合神经网络组合模型,结合灰色GM (1, N)模型减弱原始数据的随机性的优点以及神经网络能以任意精度逼近像交通流量这种具有非线性函数的优点,且利用BP神经网络将误差极力减小,提高了交通流量预测模型的准确性。我们项目的创新点在于将GM (1, N)预测值代入到ANN中,对以往的研究将原数据累加后代入ANN有所改进。
3. 研究目的
人们如果可以预先知道未来某日车流量,就可以通过数据择优选择交通方式,减少道路拥挤,从而优化道路交通、缓解道路设施压力,本项目组聚焦此社会问题,着力研究交通流量预测,具体研究目的如下:
(1) 设计相关该城市交通问题方面的调查问卷,通过多样化形式,了解处于不同年龄段、不同时间段的该市人们出行的方式以及影响出行的因素,进一步明确项目主题,为后续建立模型提供一定支持。
(2) 通过SPSS对数据进行预处理以及相关性分析,研究每天固定时间段、非极端天气的阴晴状况和空气质量、节假日、有无学校、旅游景点驻地等对于交通流量预测的影响,针对该些因素做皮尔逊相关性分析。进而通过灰色GM (1, N)预测模型得出初步预测值,观察预测值与实际值的误差大小。
(3) 通过GM (1, N)-ANN模型,用GM (1, N)模型预测值当做样本不断训练,用ANN网络内部自适应算法不断调整其权值,得出最优权值,并进行流量预测。
(4) 采用BP神经网络对于GM (1, N)-ANN模型的预测值,进行反向误差传播,不断优化其最优权值,使用预测的误差最小,满足精度要求。
4. 问卷调查
4.1. 设计调查问卷与结果分析
经结合当地实际情况,多方面综合考虑,我们了解到影响的特征分为两部分,一部分是当地自身发展水平及GDP。另一部分是上下班高峰期、附近是否有学校驻地以及景点、人们对交通规则的遵守程度、发生交通事故以及客观的天气原因。采取线上问卷调查法更加深入准确的了解当地人们对于城市交通的主要看法。对后续研究分析问题提供一定帮助(见图1)。
Figure 1. Screenshot of the questionnaire
图1. 调查问卷截图
4.2. 收集结果、进行分析探究
问卷调查结果显示,有近一半的人对当地这一商业圈的三条路段交通系统持一般或不满态度。人们绝大多数以私家车出行,而一小部分以共享单车的方式出行,造成道路拥堵。超半数人认为红绿灯设置红灯时间过长,加重了道路拥堵的程度。通过结果表明上下班高峰期以及附近为学校驻地为人们所普遍认为的交通拥堵原因(见图2)。调查结果将对后续模型建立和预测结果方面提供可靠性支持。
Figure 2. Results of the questionnaire on causes of traffic congestion
图2. 交通拥堵原因调查问卷结果
5. 模型准备
5.1. 数据来源
选择临沂某商业圈中三条道路的路口作为数据采集点,交通流量数据由交通检测器实时采集。数据的采集范围为2024年3月1日~4月15日,以1 h为采样间隔点进行记录。成员查找并记录了收集的车流量数据所对应某日期的天气阴晴状况以及空气质量,得到我们处理这个问题所需的实际信息。
5.2. 数据预处理
在使用之前,我们先对数据进行预处理。
我们通过SPSS对数据进行缺失值分析。成员采集的数据中其中一条道路3月25日总交通车流量值缺失,用均值代替该日期的总流量。
在数据异常值分析中,受是否为工作日、是否为早晚高峰以及节假日多方面因素影响,我们假设被系统认定为异常值的数据是没有问题的,具有实际意义。
然后,我们对天气阴晴状况以及空气质量数据做Z-Scores归一化处理,方便后续进行相关性分析。
5.3. 相关性分析
项目组成员通过分析其中一条道路的部分数据得出一周工作日各时段车流量图(见图3)。明显得出车流量与早晚上下班时段具有显著相关性。
Figure 3. Traffic volume by time period on weekday working days in a week
图3. 一周工作日各时段车流量
再由SPSS对所有日期的空气质量作变量归一化处理之后的数据与车流量进行相关性分析得到以下结果。据皮尔逊相关性分析可知,在0.01级别(双尾)内,相关性显著。
由上面相关性分析表可得出在所统计的相关月份中,空气质量对交通流量的影响程度不大。由于在采集数据的对应日期内,没有出现极端空气质量差的情况,没有影响交通流量,故对于本研究,建立模型时不考虑天气影响因素。
6. 建立并优化模型
6.1. 初步构建GM (1, 1)模型
灰色预测模型GM (1, 1)是一种通过少量的、不完全的信息,建立数学模型并做预测的方法。灰色系统理论中最基础、应用最广泛的是GM (1, 1)预测模型。GM(1, 1)预测模型的基本思想是对一原始非负数据序列,经过一次累加得到一个新的递增数列,累加的次数越多,得到的新数列就越逼近某一指数函数,利用最小二乘原理求解该指数函数的相应参数,从而可以预测下一个累加值,最后通过累减运算,还原得到原始数列的预测值。
设原始数据为
。首先计算数列的级比:
,
其中
。如果所有的级比都落在可容覆盖区间
内,则数列
可建立GM(1, 1) 模型进行灰色预测。求得预测图像(见图4)。
Figure 4. GM (1, 1) forecasting diagram
图4. GM (1, 1)预测图
上图采用的是某条道路相对平稳的4月1日至4月11日采集的数据代入GM (1, 1)模型求解得出的预测图像。由此图可得,GM (1, 1)模型的预测值和实际值存在较大的误差。
6.2. 构建灰色GM (1, N)模型
6.2.1. GM (1, N)模型简介
灰色预测的方式是通过生成的方式减弱离散随机数的随机性,并形成有明显规律的生成数组合,再将这些数组合成微分方程形式预测模型。在灰色系统理论中,利用离散随机数生成具有规律性的生成数,可以在一定时期内对变化过程进行描述,进而构建微分方程形式模型,其核心为建立微分方程时的系数。当灰色预测中一个因变量受到多个因子的影响时,可以选择GM (1, N)模型进行预测处理[7]。
灰色GM (1, N)模型的本质为包含N个变量的1阶微分方程。与常见的GM (1, 1)的区别在于其输入的数据变量是n个。
6.2.2. 建立GM (1, N)模型
GM (1, 1)模型中的预测数据与实际值误差相对较大,因此对GM (1, 1)模型进行修正。因GM (1, 1)模型只以时间作为变量,但当因变量受多个因素影响(例如某天的交通流量受到该路段地形、周围是否有景点以及学校驻地、节假日、该市天气湿度、空气质量)时,GM (1, 1)不符合预期效果,故建立GM (1, N)模型,进而求得预测值。
在此,我们只考虑早晚时间段对交通流量的影响,得到如下GM (1, N)交通流量预测图(图5)。
Figure 5. GM (1, N) forecasting diagram
图5. GM (1, N)预测图
团队成员选取该商业圈中的交通流量最大的一条道路,用该道路相对平稳的3月10日至3月21日采集的数据代入GM (1, N)模型求解得出的预测图像如图所示。由此图可得,GM (1, N)模型的预测值和实际值之间仍存在相对较大的误差。GM (1, N)模型仍然需要继续优化和改进。
6.3. 基于GM融合神经网络组合模型的交通流量预测
6.3.1. ANN模型
神经网络映射辨识方法主要通过大量的样本进行训练,通过网络内部自适应算法不断调整其权值,达到最终优化的目的。神经元基本结构图如图6。
Figure 6. Structural diagram of a neuron
图6. 神经元结构图
上图中,
表示神经网络中用于接受信息的输入值,
分别表示前面每个输入值所占的权值,
是偏置量,
为某激活函数。
6.3.2. 基于GM融合ANN神经网络组合模型
Figure 7. GM-integrated neural network diagram
图7. GM融合神经网络图
对于GM (1, N)模型预测出的数据集,我们将其作为ANN的输入层。
将GM (1, N)预测数据集为Q,令
,将其分为n组,每组有s个数据,
,
。
取其中第
组,取前s − 1项作为网络输入,第n项为期望输入。将分成n组的数构成网络的输入矩阵集X和目标矩阵集Y
,
则
,
。
设神经网络的实际输出矩阵T为
,
为输入层和隐藏层之间的权值,a为隐含层神经元的个数。记
,
为隐含层第i个点的偏置量,
为隐含层第i个节点与输出层的权值(
,
为图7中
与
)。
在该模型中调用激活函数Sigmod函数:
。
据神经网络原理有隐藏层第i个节点的输入值(
)为
,
则隐藏层第i个节点的输出值
,
输出层为
,
则
,其中
。
经最小二乘法计算,得出最优权值
,该
为最合适的隐藏层和输出层间的权值。则有
。
该GM融合神经网络组合模型的流程图如图7。
6.3.3. 微调优化模型
BP (Back Propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。BP神经网络与ANN的结构相似,通常由输入层、隐含层和输出层构成,但是其是一种按照误差逆向传播算法训练的多层前馈神经网络。
计算网络输出后的误差,假设一组样本中有i个样本,RMSE为总输出误差(均方根误差),公式为
,
其中,
为实际输出误差,
为期望误差。
计算各层误差信号,公式为
。
调整修正各层权值,权值调整量,公式为
.
我们将GM融合ANN神经网络的输出值与实际输入值计算误差,反向传播不断修正其权值,训练模型得到拟合的数据,如果不满足总误差<0.01,则不断采用步骤进行操作。检查误差达到误差要求,则训练结束。
7. 不同模型对比
为了验证模型的优越性,将其与LSTM、KNN进行对比,并选择均方根误差作为评价指标。LSTM通过引入遗忘门、输入门、输出门机制,有效记忆和遗忘数据中的重要信息。KNN通过寻找数据集中与目标最相似的k个邻居来预测。三种模型预测精度对比结果如下(见表1)。
Table 1. Comparison of prediction accuracy among three models
表1. 3种模型预测精度对比
预测精度 |
LSTM |
KNN |
GM-BP组合模型 |
|
6.83 |
7.14 |
4.29 |
结果表明,GM融合神经网络模型在预测中表现最佳,误差最小。我们结合了灰色模型、人工神经网络和反向传播神经网络各自的优点,利用较少的数据处理高度复杂的非线性问题,具有更强的适用性和预测能力,对于GM (1, N)-ANN模型的预测值和权重,采用BP神经网络的反向误差传播来不断计算误差,使得误差足够小,解决了预测结果可能存在一定的波动的问题,能够为交通流量预测提供有力的支持。模型可以应用到实际中,根据实际情况不断优化改进。
基金项目
此文系山东省大学生创新创业项目成果,项目编号:S202410446105。