自动驾驶车辆多风格自适应跟驰决策

doi:10.12677/ojtt.2024.136044

期刊菜单

自动驾驶车辆多风格自适应跟驰决策
Multi-Style Adaptive Following Decision Making for Automated Vehicles

DOI: 10.12677/ojtt.2024.136044, PDF, HTML, XML, 科研立项经费支持
作者: 虢力源, 高嵩：山东交通学院信息科学与电气工程学院，山东济南；潘为刚：山东交通学院轨道交通学院，山东济南
关键词: 跟车驾驶；速度控制；强化学习；深度确定性策略梯度；Car-Following； Velocity Control； Reinforcement Learning； Deep Deterministic Policy Gradient

摘要: 本研究提出了一种适用于自动驾驶车辆的多风格自适应跟驰决策框架，结合深度强化学习(DRL)与改进的粒子群优化算法，实现了对不同驾驶风格的精确控制。该框架通过DRL算法设计自适应的跟驰速度控制策略，并基于驾驶安全性、效率、舒适性和紧急制动等因素构建了复杂的奖励机制。为进一步优化跟驰性能，本文在传统粒子群优化算法中引入了莱维扰动，以精确计算奖励函数中的最优权重组合，确保算法在不同驾驶场景下均能灵活应对。实验结果显示，该算法在多种复杂交通场景中具有鲁棒性，提供了更安全、高效且舒适的驾驶体验。

Abstract: In this study, a multi-style adaptive following decision framework for self-driving vehicles is proposed, which combines deep reinforcement learning (DRL) with an improved particle swarm optimization algorithm to achieve accurate control of different driving styles. The framework designs an adaptive following speed control strategy through the DRL algorithm. In order to further optimize the following speed performance, this paper introduces the Lévy perturbation into the tradi-tional particle swarm optimization algorithm to accurately calculate the optimal weight combinations in the reward function, ensuring that the algorithm can flexibly cope with different driving scenarios. Experimental results show that the algorithm is robust in multiple complex traffic scenarios, providing a safer, more efficient and comfortable driving experience.

文章引用：虢力源, 潘为刚, 高嵩. 自动驾驶车辆多风格自适应跟驰决策[J]. 交通技术, 2024, 13(6): 403-411. https://doi.org/10.12677/ojtt.2024.136044

1. 引言

随着智能网联汽车(ICV)技术的快速发展，无人驾驶汽车与人类驾驶车辆的共存成为当前过渡阶段的常态[1]。在自动驾驶中，纵向控制(如自适应巡航控制)起着关键作用，它不仅能协助驾驶员避免追尾碰撞，还能提升交通安全性和道路容量。尽管自动驾驶汽车能满足驾驶自动化的要求，但在控制设计中很少考虑个性化的自动驾驶需求，如驾驶风格、偏好和模式。

传统的汽车跟驰模型，如Gipps模型[2]和智能驾驶员模型(IDM) [3]，主要基于运动学原理构建，用于模拟人类驾驶员的跟随行为。然而，这些模型并没有考虑人类驾驶员的特征，在区分人类驾驶跟车行为和自动驾驶跟车行为的本质上存在明显缺陷。强化学习(RL)因其自我学习能力和处理复杂多变场景的能力，在自动驾驶领域备受青睐。Zhu [4]等人开发了一种基于RL的汽车跟随轨迹控制方法，该方法在速度控制、安全性和舒适性方面均优于人类驾驶员和MPC算法。在Gong等人[5]和周等人[6]中，DRL用于优化安全性和效率。尽管自动驾驶汽车能满足驾驶自动化的要求，但在自动驾驶汽车决策控制设计中还很少考虑个性化的自动驾驶，如某些特定的驾驶风格、基于驾驶员的偏好和驾驶模式。

因此，为解决上述问题，本研究提出了一种基于深度强化学习的自适应车辆跟驰决策算法，以适应不同驾驶风格中的车辆跟驰。

2. 跟车场景提取与划分

2.1. 数据预处理

本研究使用了下一代仿真(NGSIM)项目的车辆轨迹数据US-101 [7]，US-101研究区域长约640米，由整个路段的五条主线车道组成。NGSIM数据集中的每条记录包含25个字段，存储车辆长度、车辆类别、车道ID、车速、车辆加速度等信息。但是NGSIM的轨迹数据存在误差，如车辆位置误差严重、轨迹重叠等，为了提高数据质量，我们使用Savitzky-Golay滤波器对NGSIM轨迹数据进行去噪和平滑，并重新计算了车辆的速度和加速度。

为了保证提取的数据能充分反映跟驰行为的特点，本文遵循一定的规则对数据进行筛选，提取跟驰事件样本。提取跟驰事件的规则如下：

(1) 前后两车间距在120米以下；

(2) 后车跟驰时间达到15秒以上；

(3) 在同一跟驰事件中，后车的车道ID及前车ID保持不变，保证主车不发生换道行为，且跟随对象为同一辆车；

(4) 选择的车辆类型为汽车，避免车型不同对驾驶风格识别产生影响。

按照以上4条规则，共提取出5347个跟驰事件的样本，每个样本包含150个以上(15 s × 10 Hz = 150)的数据点。

2.2. 驾驶风格评价指标和场景分类

车头时距(TH)与碰撞时间(TTC)是评价驾驶危险程度的重要指标，二者数值越小，后车与前车碰撞危险越大。因此选取车头时距、速度和加速度特征向量的均值和标准差作为特征参数，使用K-Means算法将驾驶员聚类为激进型、平稳型和保守型三种驾驶风格。对于每种驾驶风格创建一个单独的数据集。如表1所示，激进驾驶风格的平均车头时距比保守驾驶风格短，平均车速和加速度比保守驾驶风格的要快。

Table 1. Descriptive statistics for different driving styles in car-following events

表1. 跟车事件中不同驾驶风格的描述性统计

描述性统计(平均值)	激进型	平稳型	保守型
\|加速度\| (m/s²)	0.6532	0.6109	0.5363
车头时距(s)	2.1578	3.3269	5.1351
\|相对车速\| (m/s)	0.8728	0.9896	1.0473
跟车间距(m)	15.7244	18.1651	20.4148

3. 深度确定性策略梯度算法

由于车辆加速度是一个连续变量，因此采用了深度确定性策略梯度(DDPG)算法。引入粒子群算法并进行改进，增强粒子的全局搜索能力和避免局部最优解的能力，同时利用DDPG算法在连续动作空间和高维状态空间中的高效学习能力，在决策过程中动态调整策略，提高寻优速度和精度。

3.1. 奖励函数设计

奖励函数的设计关系到强化学习训练过程中跟驰车辆是否能够达到预期决策行为，本文奖励函数的设计主要考虑了安全性、行车效率、舒适性和紧急制动等因素。

3.1.1. 安全

安全应该是自动驾驶汽车跟随最重要的因素[8]。碰撞时间(TTC)是一种广泛使用的安全指标，它表示两辆车发生碰撞前的剩余时间。TTC 与碰撞风险呈负相关，较小的TTC值对应于较高的碰撞风险，因此安全性目标奖励函数被构造为公式(1)：

$R_{s a f e} = \log (\frac{TTC}{K})$ (1)

其中K为TTC阈值，当两车之间的TTC小于阈值K时，通过对数函数计算得到的奖励值将会逐渐减小。当TTC趋近于0时，即碰撞即将发生，奖励值将趋近于负无穷，代表对这种极度危险情况进行严厉惩罚。

3.1.2. 行车效率

对于效率指标则利用车头时距进行衡量。车头时距表示前车和后车先后到达指定位置存在的时间差，合适的车头时距可以在安全条件下有效提高车辆跟驰效率[9]。

对三种驾驶风格跟车事件的车头时距的分布情况进行拟合，其结果近似于对数正态分布，其概率密度函数如公式(3)所示：

$f (x | μ, σ) = \frac{1}{x σ \sqrt{2 π}} e^{\frac{- {(\ln x - μ)}^{2}}{2 σ^{2}}} x > 0$ (2)

其中，x是分布变量，代表本研究中的车头时距， $μ$ 、 $σ$ 是变量x的平均值和对数标准差。效率目标奖励函数构建为车头时距估计对数正态分布的概率密度值，如公式(4)所示：

$R_{h d} = f (h e a d w a y | μ, σ)$ (3)

3.1.3. 舒适性

为了使智能体学习避免频繁的加减速以提高乘客舒适度并降低能耗，我们将抽搐特征作为奖励函数的一部分。这部分奖励函数如公式(4)所示。

$R_{j e r k} = - \frac{J e r k^{2}}{J e r k_{\max}^{2}}$ (4)

我们重新对每种风格数据的加速度分布进行绘制，并基于99%的置信率求出了加速度集中分布的区间范围，基于舒适性指标计算公式，可将其进行归一化处理，将特征缩放到[0,1]的范围内。

3.1.4. 紧急制动

考虑到跟车过程中的两种紧急制动情况：一是前车以最大制动加速度刹车，后车以大多数驾驶员的舒适加速度刹车，将此时后车的速度记为v_e，即后车需要以可接受的减速度刹车时的速度；二是前车以舒适加速度刹车，而后车以最大制动加速度刹车，将此时后车的速度记为v_m，即后车最大车速。

在评估碰撞风险时，我们考虑了人类驾驶员的反应时间(PRT)。此外，为确保两车之间不会发生碰撞，我们在计算两车之间的距离差 $d (t - 1)$ 时，添加了一个额外的1.5米。这一设计确保即使前车突然刹车，后车与前车之间也至少保持1.5米的间隙。为了引导自动驾驶系统在保证安全性的同时，维持一个合理的行驶速度，我们设计了一个分段奖励函数。该函数的目标是在每个时间步长内，使后车的速度 $v_{f} (t)$ 尽可能地保持在期望速度附近，同时不超过最大速度边界。奖励函数如公式(5)所示。

$R_{s c r} = {\begin{cases} \log (\frac{v_{f} (t)}{v_{e}}) + 5, 0 < v_{f} (t) \leq v_{e} \\ \frac{(- 10 - 5) \times {(v_{f} (t) - v_{e})}^{2}}{{(v_{m} - v_{e})}^{2}} + 5, v_{e} < v_{f} (t) \leq v_{m} \\ - 10, v_{f} (t) > v_{m} \end{cases}$ (5)

3.1.5. 融入改进粒子群算法的奖励函数

在自动驾驶汽车的跟随任务中，奖励函数作为关键的训练信号，用于指导车辆如何根据当前状态和所执行的动作来调整其行为。为了确保跟驰车辆的安全性和性能，我们基于前面构建的特征的线性组合来设计奖励函数，奖励函数如公式(6)所示：

$R e w a r d = ω_{1} R_{s a f e} + ω_{2} R_{h d} + ω_{3} R_{j e r k} + ω_{4} R_{s c r} + R_{c o l l i s i o n}$ (6)

其中 $ϖ_{i}, i = 1, 2, 3, 4$ 为各部分奖励函数权重，并满足各部分权重系数之和为1。

不同驾驶员在速度、舒适性和安全性等方面的不同偏好，等权重的奖励函数在自动驾驶汽车跟驰任务中可能无法全面满足所有驾驶人的个性化需求。为此，我们引入了粒子群优化算法来动态调整奖励函数中各指标的权重，以实现更加合理和个性化的权重分配。

本研究将奖励函数加权系数变为未知量，在奖励函数中引入三种风格化跟驰决策模型奖励函数收敛后的加和平均值作为粒子群迭代寻优的梯度方向。因此，求解风格化模型最优权重组合的问题，便转化为以奖励函数最小为优化目标的粒子群寻优的问题。

$\min J = R e w a r d - R_{a v g}$ (7)

利用风格化数据对模型进行不断的训练，在该过程中通过粒子群的迭代寻优，求解上述优化问题，最终使得模型奖励值达到收敛状态，得到每种风格跟驰模型的最优加权组合。

3.2. 状态与动作

在本研究中，我们考虑跟随车辆可以感知两车之间的距离d和相对速度 $Δ v (t)$ 。RL环境的状态用 $d (t)$ ， $Δ v (t)$ 和跟随车辆的车速 $v_{f} (t)$ 来描述。状态的更新可以用经典的运动学模型计算，如公式(8)所示：

$\begin{array}{l} v_{f} (t + 1) = v_{f} (t) + a_{f} (t) \cdot Δ T \\ Δ v (t + 1) = v_{f} (t + 1) - v_{p} (t + 1) \\ Δ S (t + 1) = Δ S (t) + \frac{Δ v (t) + Δ v (t + 1)}{2} \cdot Δ T \end{array}$ (8)

式中 $v_{p}$ 为前车车速， $Δ T$ 为仿真过程的时间片，根据NGSIM设置为0.1 s。本文RL模型中的动作为车辆在跟车过程中的纵向加速度，用 $a_{f} (t)$ 表示。通过输出模型控制的跟随车辆在每个时间步t的加速度，并不断迭代，使得跟随车辆可以在同一方向上跟随前车。

3.3. 神经网络

对三个不同驾驶风格的网络框架设计，我们为每个风格构建了相同的结构，如图1所示，这些结构包含演员网络和评论家网络。将当前车辆状态 $S_{t} = (Δ S (t), v (t), v_{f} (t))$ 作为演员网络的输入，输出车辆的加速度 $a_{f} (t)$ ，该加速度将作为控制信号应用于车辆，以调整其行驶状态。

Figure 1. Neural network architecture

图1. 神经网络架构

4. 实验

4.1. 模型训练

我们分别使用保守型、平稳型、激进型三个训练集训练对应模型。在训练阶段设置的粒子个数为20，共迭代10代，DDPG-MSPSO算法的总训练周期为1500次，共经历300,000次循环，确定了三种风格下的多目标权重。不同风格跟驰模型标定的粒子权重如表2。

Table 2. Stylized reward function weights particle vector values

表2. 风格化奖励函数权重粒子向量值

权重系数	安全权重ω₁	效率权重ω₂	舒适权重ω₃	紧急制动ω₄
激进型	0.25	0.13	0.35	0.27
平稳型	0.25	0.21	0.26	0.28
保守型	0.25	0.35	0.12	0.28

基于表2分析，保守型跟驰模型减少舒适性权重至0.13，增加效率权重至0.35，以优化跟驰效率；激进型则相反，增加舒适性权重至0.35，减少效率权重至0.13，以提升跟驰舒适性。平稳型模型微调权重，平衡舒适性与效率，保持驾驶稳定性。整体而言，保守型与激进型调整幅度较大，平稳型则微调以维持平衡。

Figure 2. Rolling average episode reward under different driving style

图2. 不同驾驶风格下的滚动平均奖励

图2展示了在模型训练阶段三种不同驾驶风格对应的情节奖励随迭代次数的演变趋势。在训练过程中，当轮数达到250时，我们提出的算法开始表现出显著的收敛特性。这一收敛状态标志着模型通过不断的学习和调整，已经能够稳定地适应环境并做出有效的驾驶决策。

4.2. 算法验证与分析

为了验证所提出方法的实际效能，我们在三个不同风险水平的测试集所包含的所有场景中进行了全面的测试。我们将每个模型的性能数据与基准模型和人类驾驶员的表现进行了细致的对比，从而准确衡量这些模型在相对意义上的有效性。

我们进一步分析了不同驾驶风格下4种指标的变化，表3为深度自适应控制方法与人类驾驶员和基准模型的实验结果。从表3可以明确看出，我们提出的算法在针对保守风格与平稳风格的驾驶测试环境中，展现出了平均车头时距分别为2.8秒与3.9秒的优秀表现，这一数值相较于人类驾驶员在验证集上的平均表现有所缩短。这一结果显著表明，在相对低风险的驾驶情境下，我们的车辆控制算法能够更紧密地跟随前车行驶，有效提升了道路交通的流畅度与效率。激进驾驶风格的测试集则采取了更为谨慎的策略，其平均时间间隔达到了2.2秒，略高于人类驾驶员的2.10秒以及基准模型的1.86秒。这一策略调整，为激进驾驶风格下的车辆提供了额外的安全缓冲，从而降低了潜在的碰撞风险。进一步分析，平均跟车距离的统计也呈现出与车头时距相似的变化趋势，进一步验证了模型策略的合理性与有效性。在保守与平稳驾驶场景下，我们的模型能超越人类驾驶员的平均速度，展现出卓越的驾驶效率。而在面对更为激进的驾驶环境时，模型则主动放缓速度，以牺牲部分效率为代价，换取更高的驾驶安全性，这一决策体现了其高度的灵活性与适应性。

Table 3. Model performance of deep adaptive control models

表3. 深度自适应控制模型的模型性能

驾驶风格	指标(平均值)	NGSIM人类驾驶	DDPG-MSPSO
激进型	车头时距(s)	2.1019	2.2045
	车速(m/s)	7.3732	7.2689
	\|Jerk\|(m/s³)	3.6793	0.7189
	跟车间距(m)	14.8186	16.078
平稳型	车头时距(s)	3.336	2.8459
	车速(m/s)	6.2566	6.3576
	\|Jerk\|(m/s³)	2.7617	0.4954
	跟车间距(m)	19.6705	17.7520
保守型	车头时距(s)	5.1683	3.9071
	车速(m/s)	3.3307	3.4546
	\|Jerk\|(m/s³)	1.5113	0.5239
	跟车间距(m)	16.1074	13.4520

为了说明DDPG-MSPSO模型的安全性和舒适性，从三种驾驶风格场景库中随机选择了两个汽车跟随事件。图3显示了观测到的车辆间距、加速度、jerk、车头时距和速度和基于MSPSO-DDPG算法生成的相应结果。

(a) 激进型跟车事件样本

(b) 保守型跟车事件样本

Figure 3. Demonstration of the following car event

图3. 跟车事件演示

基于NGSIM数据的分析，人类驾驶员的驾驶方式表现为加速度的频繁且大幅度变化。相较之下，我们提出的模型实现了加速度的平稳输出，其波动幅度显著降低，从而大幅提升了驾驶的平稳性和乘客的舒适度。如图3所示，该模型的速度轮廓展现出极高的平滑性，有效规避了突然制动的情况，确保了车辆运行的连续性和安全性。同时，模型在维持车头时距与跟车间距方面也表现出了卓越的稳定性，能有效提升道路通行效率，减少交通事故风险。

5. 结论

综上所述，本文提出了一种结合多策略粒子群优化和深度强化学习的自适应车辆纵向控制算法，成功解决了现有轨迹控制方法未能优化驾驶员偏好的问题。研究表明，该算法在不同驾驶风格下都能实现车辆速度的安全、舒适和高效控制，并且能够平衡安全性、效率、舒适性等多个关键指标。通过使用NGSIM研究中的真实驾驶数据进行训练，并与基准模型及人类驾驶数据进行对比分析，结果显示该模型在安全性、效率和舒适性方面均显著优于人类驾驶员。这表明，本文提出的算法不仅有效优化了跟车任务中的驾驶行为，还能够适应不同驾驶偏好，提升了自动驾驶系统的整体性能。

此外，未来研究可以在当前基础上进一步扩展，增加节能驾驶等新目标，并建立更多元的交通场景库，以支持该算法的进一步开发和测试。

基金项目

山东省自然科学基金项目(No. ZR2022MF345)；山东省重大科技创新项目(No. 2020CXGC010110)。

参考文献

[1]	Xu, Z., Li, X., Zhao, X., Zhang, M.H. and Wang, Z. (2017) DSRC versus 4G-LTE for Connected Vehicle Applications: A Study on Field Experiments of Vehicular Communication Performance. Journal of Advanced Transportation, 2017, 1-10. [Google Scholar] [CrossRef]
[2]	Gipps, P.G. (1981) A Behavioural Car-Following Model for Computer Simulation. Transportation Research Part B: Methodological, 15, 105-111. [Google Scholar] [CrossRef]
[3]	Treiber, M., Hennecke, A. and Helbing, D. (2000) Congested Traffic States in Empirical Observations and Microscopic Simulations. Physical Review E, 62, 1805-1824. [Google Scholar] [CrossRef] [PubMed]
[4]	Zhu, M., Wang, Y., Pu, Z., Hu, J., Wang, X. and Ke, R. (2020) Safe, Efficient, and Comfortable Velocity Control Based on Reinforcement Learning for Autonomous Driving. Transportation Research Part C: Emerging Technologies, 117, 102662. [Google Scholar] [CrossRef]
[5]	Gong, Y., Abdel-Aty, M., Yuan, J. and Cai, Q. (2020) Multi-objective Reinforcement Learning Approach for Improving Safety at Intersections with Adaptive Traffic Signal Control. Accident Analysis & Prevention, 144, 105655. [Google Scholar] [CrossRef] [PubMed]
[6]	Zhou, M., Yu, Y. and Qu, X. (2020) Development of an Efficient Driving Strategy for Connected and Automated Vehicles at Signalized Intersections: A Reinforcement Learning Approach. IEEE Transactions on Intelligent Transportation Systems, 21, 433-443. [Google Scholar] [CrossRef]
[7]	U.S. Department of Transportation Federal Highway Administration (2016) Next Generation Simulation (NGSIM) Vehicle Trajectories and Supporting Data.
[8]	Pu, Z., Li, Z., Jiang, Y. and Wang, Y. (2021) Full Bayesian Before-After Analysis of Safety Effects of Variable Speed Limit System. IEEE Transactions on Intelligent Transportation Systems, 22, 964-976. [Google Scholar] [CrossRef]
[9]	Zhang, G., Wang, Y., Wei, H. and Chen, Y. (2007) Examining Headway Distribution Models with Urban Freeway Loop Event Data. Transportation Research Record: Journal of the Transportation Research Board, 1999, 141-149. [Google Scholar] [CrossRef]

为你推荐

友情链接