1. 引言
随着智能网联汽车(ICV)技术的快速发展,无人驾驶汽车与人类驾驶车辆的共存成为当前过渡阶段的常态[1]。在自动驾驶中,纵向控制(如自适应巡航控制)起着关键作用,它不仅能协助驾驶员避免追尾碰撞,还能提升交通安全性和道路容量。尽管自动驾驶汽车能满足驾驶自动化的要求,但在控制设计中很少考虑个性化的自动驾驶需求,如驾驶风格、偏好和模式。
传统的汽车跟驰模型,如Gipps模型[2]和智能驾驶员模型(IDM) [3],主要基于运动学原理构建,用于模拟人类驾驶员的跟随行为。然而,这些模型并没有考虑人类驾驶员的特征,在区分人类驾驶跟车行为和自动驾驶跟车行为的本质上存在明显缺陷。强化学习(RL)因其自我学习能力和处理复杂多变场景的能力,在自动驾驶领域备受青睐。Zhu [4]等人开发了一种基于RL的汽车跟随轨迹控制方法,该方法在速度控制、安全性和舒适性方面均优于人类驾驶员和MPC算法。在Gong等人[5]和周等人[6]中,DRL用于优化安全性和效率。尽管自动驾驶汽车能满足驾驶自动化的要求,但在自动驾驶汽车决策控制设计中还很少考虑个性化的自动驾驶,如某些特定的驾驶风格、基于驾驶员的偏好和驾驶模式。
因此,为解决上述问题,本研究提出了一种基于深度强化学习的自适应车辆跟驰决策算法,以适应不同驾驶风格中的车辆跟驰。
2. 跟车场景提取与划分
2.1. 数据预处理
本研究使用了下一代仿真(NGSIM)项目的车辆轨迹数据US-101 [7],US-101研究区域长约640米,由整个路段的五条主线车道组成。NGSIM数据集中的每条记录包含25个字段,存储车辆长度、车辆类别、车道ID、车速、车辆加速度等信息。但是NGSIM的轨迹数据存在误差,如车辆位置误差严重、轨迹重叠等,为了提高数据质量,我们使用Savitzky-Golay滤波器对NGSIM轨迹数据进行去噪和平滑,并重新计算了车辆的速度和加速度。
为了保证提取的数据能充分反映跟驰行为的特点,本文遵循一定的规则对数据进行筛选,提取跟驰事件样本。提取跟驰事件的规则如下:
(1) 前后两车间距在120米以下;
(2) 后车跟驰时间达到15秒以上;
(3) 在同一跟驰事件中,后车的车道ID及前车ID保持不变,保证主车不发生换道行为,且跟随对象为同一辆车;
(4) 选择的车辆类型为汽车,避免车型不同对驾驶风格识别产生影响。
按照以上4条规则,共提取出5347个跟驰事件的样本,每个样本包含150个以上(15 s × 10 Hz = 150)的数据点。
2.2. 驾驶风格评价指标和场景分类
车头时距(TH)与碰撞时间(TTC)是评价驾驶危险程度的重要指标,二者数值越小,后车与前车碰撞危险越大。因此选取车头时距、速度和加速度特征向量的均值和标准差作为特征参数,使用K-Means算法将驾驶员聚类为激进型、平稳型和保守型三种驾驶风格。对于每种驾驶风格创建一个单独的数据集。如表1所示,激进驾驶风格的平均车头时距比保守驾驶风格短,平均车速和加速度比保守驾驶风格的要快。
Table 1. Descriptive statistics for different driving styles in car-following events
表1. 跟车事件中不同驾驶风格的描述性统计
描述性统计(平均值) |
激进型 |
平稳型 |
保守型 |
|加速度| (m/s2) |
0.6532 |
0.6109 |
0.5363 |
车头时距(s) |
2.1578 |
3.3269 |
5.1351 |
|相对车速| (m/s) |
0.8728 |
0.9896 |
1.0473 |
跟车间距(m) |
15.7244 |
18.1651 |
20.4148 |
3. 深度确定性策略梯度算法
由于车辆加速度是一个连续变量,因此采用了深度确定性策略梯度(DDPG)算法。引入粒子群算法并进行改进,增强粒子的全局搜索能力和避免局部最优解的能力,同时利用DDPG算法在连续动作空间和高维状态空间中的高效学习能力,在决策过程中动态调整策略,提高寻优速度和精度。
3.1. 奖励函数设计
奖励函数的设计关系到强化学习训练过程中跟驰车辆是否能够达到预期决策行为,本文奖励函数的设计主要考虑了安全性、行车效率、舒适性和紧急制动等因素。
3.1.1. 安全
安全应该是自动驾驶汽车跟随最重要的因素[8]。碰撞时间(TTC)是一种广泛使用的安全指标,它表示两辆车发生碰撞前的剩余时间。TTC 与碰撞风险呈负相关,较小的TTC值对应于较高的碰撞风险,因此安全性目标奖励函数被构造为公式(1):
(1)
其中K为TTC阈值,当两车之间的TTC小于阈值K时,通过对数函数计算得到的奖励值将会逐渐减小。当TTC趋近于0时,即碰撞即将发生,奖励值将趋近于负无穷,代表对这种极度危险情况进行严厉惩罚。
3.1.2. 行车效率
对于效率指标则利用车头时距进行衡量。车头时距表示前车和后车先后到达指定位置存在的时间差,合适的车头时距可以在安全条件下有效提高车辆跟驰效率[9]。
对三种驾驶风格跟车事件的车头时距的分布情况进行拟合,其结果近似于对数正态分布,其概率密度函数如公式(3)所示:
(2)
其中,x是分布变量,代表本研究中的车头时距,
、
是变量x的平均值和对数标准差。效率目标奖励函数构建为车头时距估计对数正态分布的概率密度值,如公式(4)所示:
(3)
3.1.3. 舒适性
为了使智能体学习避免频繁的加减速以提高乘客舒适度并降低能耗,我们将抽搐特征作为奖励函数的一部分。这部分奖励函数如公式(4)所示。
(4)
我们重新对每种风格数据的加速度分布进行绘制,并基于99%的置信率求出了加速度集中分布的区间范围,基于舒适性指标计算公式,可将其进行归一化处理,将特征缩放到[0,1]的范围内。
3.1.4. 紧急制动
考虑到跟车过程中的两种紧急制动情况:一是前车以最大制动加速度刹车,后车以大多数驾驶员的舒适加速度刹车,将此时后车的速度记为ve,即后车需要以可接受的减速度刹车时的速度;二是前车以舒适加速度刹车,而后车以最大制动加速度刹车,将此时后车的速度记为vm,即后车最大车速。
在评估碰撞风险时,我们考虑了人类驾驶员的反应时间(PRT)。此外,为确保两车之间不会发生碰撞,我们在计算两车之间的距离差
时,添加了一个额外的1.5米。这一设计确保即使前车突然刹车,后车与前车之间也至少保持1.5米的间隙。为了引导自动驾驶系统在保证安全性的同时,维持一个合理的行驶速度,我们设计了一个分段奖励函数。该函数的目标是在每个时间步长内,使后车的速度
尽可能地保持在期望速度附近,同时不超过最大速度边界。奖励函数如公式(5)所示。
(5)
3.1.5. 融入改进粒子群算法的奖励函数
在自动驾驶汽车的跟随任务中,奖励函数作为关键的训练信号,用于指导车辆如何根据当前状态和所执行的动作来调整其行为。为了确保跟驰车辆的安全性和性能,我们基于前面构建的特征的线性组合来设计奖励函数,奖励函数如公式(6)所示:
(6)
其中
为各部分奖励函数权重,并满足各部分权重系数之和为1。
不同驾驶员在速度、舒适性和安全性等方面的不同偏好,等权重的奖励函数在自动驾驶汽车跟驰任务中可能无法全面满足所有驾驶人的个性化需求。为此,我们引入了粒子群优化算法来动态调整奖励函数中各指标的权重,以实现更加合理和个性化的权重分配。
本研究将奖励函数加权系数变为未知量,在奖励函数中引入三种风格化跟驰决策模型奖励函数收敛后的加和平均值作为粒子群迭代寻优的梯度方向。因此,求解风格化模型最优权重组合的问题,便转化为以奖励函数最小为优化目标的粒子群寻优的问题。
(7)
利用风格化数据对模型进行不断的训练,在该过程中通过粒子群的迭代寻优,求解上述优化问题,最终使得模型奖励值达到收敛状态,得到每种风格跟驰模型的最优加权组合。
3.2. 状态与动作
在本研究中,我们考虑跟随车辆可以感知两车之间的距离d和相对速度
。RL环境的状态用
,
和跟随车辆的车速
来描述。状态的更新可以用经典的运动学模型计算,如公式(8)所示:
(8)
式中
为前车车速,
为仿真过程的时间片,根据NGSIM设置为0.1 s。本文RL模型中的动作为车辆在跟车过程中的纵向加速度,用
表示。通过输出模型控制的跟随车辆在每个时间步t的加速度,并不断迭代,使得跟随车辆可以在同一方向上跟随前车。
3.3. 神经网络
对三个不同驾驶风格的网络框架设计,我们为每个风格构建了相同的结构,如图1所示,这些结构包含演员网络和评论家网络。将当前车辆状态
作为演员网络的输入,输出车辆的加速度
,该加速度将作为控制信号应用于车辆,以调整其行驶状态。
Figure 1. Neural network architecture
图1. 神经网络架构
4. 实验
4.1. 模型训练
我们分别使用保守型、平稳型、激进型三个训练集训练对应模型。在训练阶段设置的粒子个数为20,共迭代10代,DDPG-MSPSO算法的总训练周期为1500次,共经历300,000次循环,确定了三种风格下的多目标权重。不同风格跟驰模型标定的粒子权重如表2。
Table 2. Stylized reward function weights particle vector values
表2. 风格化奖励函数权重粒子向量值
权重系数 |
安全权重ω1 |
效率权重ω2 |
舒适权重ω3 |
紧急制动ω4 |
激进型 |
0.25 |
0.13 |
0.35 |
0.27 |
平稳型 |
0.25 |
0.21 |
0.26 |
0.28 |
保守型 |
0.25 |
0.35 |
0.12 |
0.28 |
基于表2分析,保守型跟驰模型减少舒适性权重至0.13,增加效率权重至0.35,以优化跟驰效率;激进型则相反,增加舒适性权重至0.35,减少效率权重至0.13,以提升跟驰舒适性。平稳型模型微调权重,平衡舒适性与效率,保持驾驶稳定性。整体而言,保守型与激进型调整幅度较大,平稳型则微调以维持平衡。
Figure 2. Rolling average episode reward under different driving style
图2. 不同驾驶风格下的滚动平均奖励
图2展示了在模型训练阶段三种不同驾驶风格对应的情节奖励随迭代次数的演变趋势。在训练过程中,当轮数达到250时,我们提出的算法开始表现出显著的收敛特性。这一收敛状态标志着模型通过不断的学习和调整,已经能够稳定地适应环境并做出有效的驾驶决策。
4.2. 算法验证与分析
为了验证所提出方法的实际效能,我们在三个不同风险水平的测试集所包含的所有场景中进行了全面的测试。我们将每个模型的性能数据与基准模型和人类驾驶员的表现进行了细致的对比,从而准确衡量这些模型在相对意义上的有效性。
我们进一步分析了不同驾驶风格下4种指标的变化,表3为深度自适应控制方法与人类驾驶员和基准模型的实验结果。从表3可以明确看出,我们提出的算法在针对保守风格与平稳风格的驾驶测试环境中,展现出了平均车头时距分别为2.8秒与3.9秒的优秀表现,这一数值相较于人类驾驶员在验证集上的平均表现有所缩短。这一结果显著表明,在相对低风险的驾驶情境下,我们的车辆控制算法能够更紧密地跟随前车行驶,有效提升了道路交通的流畅度与效率。激进驾驶风格的测试集则采取了更为谨慎的策略,其平均时间间隔达到了2.2秒,略高于人类驾驶员的2.10秒以及基准模型的1.86秒。这一策略调整,为激进驾驶风格下的车辆提供了额外的安全缓冲,从而降低了潜在的碰撞风险。进一步分析,平均跟车距离的统计也呈现出与车头时距相似的变化趋势,进一步验证了模型策略的合理性与有效性。在保守与平稳驾驶场景下,我们的模型能超越人类驾驶员的平均速度,展现出卓越的驾驶效率。而在面对更为激进的驾驶环境时,模型则主动放缓速度,以牺牲部分效率为代价,换取更高的驾驶安全性,这一决策体现了其高度的灵活性与适应性。
Table 3. Model performance of deep adaptive control models
表3. 深度自适应控制模型的模型性能
驾驶风格 |
指标(平均值) |
NGSIM人类驾驶 |
DDPG-MSPSO |
激进型 |
车头时距(s) |
2.1019 |
2.2045 |
车速(m/s) |
7.3732 |
7.2689 |
|Jerk|(m/s3) |
3.6793 |
0.7189 |
跟车间距(m) |
14.8186 |
16.078 |
平稳型 |
车头时距(s) |
3.336 |
2.8459 |
车速(m/s) |
6.2566 |
6.3576 |
|Jerk|(m/s3) |
2.7617 |
0.4954 |
跟车间距(m) |
19.6705 |
17.7520 |
保守型 |
车头时距(s) |
5.1683 |
3.9071 |
车速(m/s) |
3.3307 |
3.4546 |
|Jerk|(m/s3) |
1.5113 |
0.5239 |
跟车间距(m) |
16.1074 |
13.4520 |
为了说明DDPG-MSPSO模型的安全性和舒适性,从三种驾驶风格场景库中随机选择了两个汽车跟随事件。图3显示了观测到的车辆间距、加速度、jerk、车头时距和速度和基于MSPSO-DDPG算法生成的相应结果。
(a) 激进型跟车事件样本
(b) 保守型跟车事件样本
Figure 3. Demonstration of the following car event
图3. 跟车事件演示
基于NGSIM数据的分析,人类驾驶员的驾驶方式表现为加速度的频繁且大幅度变化。相较之下,我们提出的模型实现了加速度的平稳输出,其波动幅度显著降低,从而大幅提升了驾驶的平稳性和乘客的舒适度。如图3所示,该模型的速度轮廓展现出极高的平滑性,有效规避了突然制动的情况,确保了车辆运行的连续性和安全性。同时,模型在维持车头时距与跟车间距方面也表现出了卓越的稳定性,能有效提升道路通行效率,减少交通事故风险。
5. 结论
综上所述,本文提出了一种结合多策略粒子群优化和深度强化学习的自适应车辆纵向控制算法,成功解决了现有轨迹控制方法未能优化驾驶员偏好的问题。研究表明,该算法在不同驾驶风格下都能实现车辆速度的安全、舒适和高效控制,并且能够平衡安全性、效率、舒适性等多个关键指标。通过使用NGSIM研究中的真实驾驶数据进行训练,并与基准模型及人类驾驶数据进行对比分析,结果显示该模型在安全性、效率和舒适性方面均显著优于人类驾驶员。这表明,本文提出的算法不仅有效优化了跟车任务中的驾驶行为,还能够适应不同驾驶偏好,提升了自动驾驶系统的整体性能。
此外,未来研究可以在当前基础上进一步扩展,增加节能驾驶等新目标,并建立更多元的交通场景库,以支持该算法的进一步开发和测试。
基金项目
山东省自然科学基金项目(No. ZR2022MF345);山东省重大科技创新项目(No. 2020CXGC010110)。