1. 引言
在混合驾驶的高速公路场景中,自动驾驶车辆与网联人类驾驶车辆均有着不同的驾驶风格,如何合理建模自车与网联人类驾驶车辆间的交互以提升决策规划的安全性,是自动驾驶的关键问题之一[1]。近年来自动驾驶决策研究可以分为四类方法:基于规则的方法[2]、基于优化的方法[3]、基于学习的方法[4]和基于博弈论的方法[5]。Gipps [6]提出了一种典型的换道决策模型,将决策过程分为是否执行换道操作、选择目标车道以及判断是否满足安全间隙条件三个阶段,这种基于规则的方法结构清晰,但是难以应对高速公路等动态变化剧烈、交互复杂度高的交通环境。Zeinali [7]设计了基于效用函数的换道模型,结合节能性、安全性和舒适性,可以用于高速公路驾驶,但这种基于优化的方法难以适应复杂的动态交通环境。Lu等人[8]提出了一种基于层次强化学习和社会偏好的自动超车系统,该系统利用马尔可夫决策过程模块优化了超车决策,但其性能受限于离线数据集,当面对训练数据未覆盖的动态突发情况时,其适应性便会下降。
相较于其他方法,基于博弈论的方法能显式建模车辆间的交互作用,从而避免因遗漏关键信息而产生次优解。Nan等人[9]提出的三阶段决策框架,通过结合GMM-HMM与SVM进行意图预测,并利用混合策略纳什均衡理论进行运动规划,有效减少了不必要的保守性驾驶。Yu等人[10]提出了一种基于不完全信息博弈论的自动变道控制器,通过实时建模交通中各个车辆的交互策略,联合决策是否变道以及加速度选择,从而实现更接近人类驾驶员的、具有高度适应性的变道行为。Wei等人[11]等基于博弈论对匝道合并场景下的合并车辆与跟随车辆交互作用进行建模,并提出了驾驶风格估计方法,但是这种估计方法比较简化。另一方面,他车运动不确定性会影响自动驾驶车辆决策安全性,但目前博弈论研究中很少考虑到这点。此外,现有研究中也较少对自动驾驶决策和轨迹规划进行联合建模。
针对以上问题,本文提出了一种考虑车辆驾驶风格的主从博弈决策规划算法。具体而言,本文使用了主从博弈建模自动驾驶车辆与网联人类驾驶车辆间的交互作用,通过引入车辆的驾驶风格来模拟真实的驾驶场景,并基于高斯分布量化他车运动的不确定性,从而得出更加安全的自动驾驶决策。在轨迹规划模块,为了实现自动驾驶决策和轨迹规划模块的联合建模,本文将主从博弈决策模块得到的最优解输入轨迹规划模块。轨迹规划模块采用路径规划和速度规划解耦的方法,再将得到的轨迹信息整合后发送至控制模块。
2. 问题描述与系统框架
如图1所示,在高速公路上,自车EV为自动驾驶车辆,其他车辆均为网联人驾车。所有车辆的驾驶风格有保守型、正常型和激进型,驾驶风格可以根据车辆的状态信息进行估计,且可以通信技术(V2V)进行交互。位于自车前方的车辆FV3的速度低于EV的速度时,EV需要决策是选择间隙2进行减速跟车,还是选择间隙1或3进行换道行驶。
Figure 1. Scene of a highway
图1. 高速公路场景图
本文以此为例,开展高速公路自动驾驶换道决策规划研究,提出如图2所示的自动驾驶决策规划方法。该方法由主从博弈决策模块和轨迹规划模块两个主要模块组成。输入信息是环境感知模块给出的车道线信息、车辆状态信息和他车轨迹预测信息。主从博弈决策成本函数包括安全成本、舒适成本和效率成本。该主从博弈的均衡解可以转换为双层规划进行求解。轨迹规划模块使用路径规划和速度规划解耦的规划方法。
Figure 2. Framework diagram
图2. 框架图
3. 主从博弈决策模型构建
3.1. 驾驶风格聚类分析
目前的研究主要将驾驶风格分为激进型、正常型、保守型三类[12],本文使用NGSIM数据集中US101道路上的车辆行驶数据,引入K-means聚类算法对速度,加速度和车头时距进行聚类分析。聚类结果如图3所示。
Figure 3. Distribution map of driving parameters for three driving styles
图3. 三种驾驶风格行驶参数分布图
由图3(a)、图3(d)可知,激进型驾驶员的速度平均值最大,其速度平均值的中位数是17.32 m/s;保守型驾驶员的速度平均值最小,其速度平均值的中位数是13.64 m/s,这说明激进型驾驶员更注重通行效率。由图3(b)、图3(e)可知,激进型驾驶员的加速度平均值最大,正常型驾驶员次之,保守型驾驶员的加速度平均值最小,这说明保守型驾驶员更注重驾驶舒适性。由图3(c)、图3(f)可知,激进型驾驶员的车头时距最小,这说明保守型和正常型驾驶员倾向于预留更大的安全驾驶空间。由于三种驾驶风格对通行效率、舒适度和安全性方面存在偏好,可依据行驶特征分布,设定相应的权重系数,刻画不同驾驶风格驾驶员的博弈决策过程。因此,本文的权重系数的设置如下:保守型的安全系数
为0.7,舒适性系数
为0.2,通行效率系数
为0.1。正常型的安全系数
为0.5,舒适性系数
为0.3,通行效率系数
为0.2。激进型的安全系数
为0.2,舒适性系数
为0.1,通行效率系数
为0.7。
3.2. 他车运动不确定性建模
运动预测模块给出了周围其他车辆的预测轨迹点后,本文基于高斯分布对其运动不确定性进行数学建模,量化碰撞风险。自车EV的位置
是固定的,周围他车的位置
服从高斯分布。自车与他车的相对位置
依然服从高斯分布,即:
(1)
式中,
是他车的预测轨迹点的位置,
为纵向位置,
为横向位置,
表示高斯分布,
为平均位置状态组成的行向量,
表达运动不确定性的协方差。
根据公式(1),可以得出相对位置的概率密度函数为:
(2)
本文以自车的外轮廓覆盖区域作为碰撞区域
,使用上式概率密度函数进行积分可以得出总的碰撞概率:
(3)
式中,n是周围其他车辆的数量。
3.3. 自车博弈成本函数构建
本文使用主从博弈来构建自动驾驶自车EV和目标车道后车RV之间的交互,同时考虑了后车的运动不确定性和驾驶风格,分别建立博弈双方的成本函数,以最小化EV博弈成本为目标求解EV的最优决策解。EV的策略集
,其中
为EV的纵向速度。
是换道指令,
,分别代表左换道、不换道和右换道。RV的策略集
,其中
为RV的纵向速度。在EV与RV的博弈交互过程中,需要考虑车辆行驶安全性、通行效率和舒适性。
为了提高自动驾驶换道决策的安全性,本文在构建自车安全成本函数时,使用公式(3)计算得到的碰撞概率。因此,自车的安全成本函数设置如下:
(4)
式中,
是EV的纵向安全成本,
是EV的横向安全成本。
EV跟车行驶时,利用相对速度差和距离差来衡量其纵向安全成本。因此纵向安全成本为:
(5)
(6)
式中,
和
分别是调节速度与距离的权重系数。
、
、
、
分别是当前车道中位于自车前方的车辆FV与EV在当前车道内
时刻的横纵位置。
和
分别是FV的速度和当前车道最高限速。
是匝道入口加速车道长度。
EV产生换道动机后,换道博弈的对象是RV。对于自车,两车相对速度差和距离差与自车横向安全成本关系表示为:
(7)
(8)
本文以EV的速度与前车的速度差值来衡量自车通行效率成本:
(9)
式中,
是在当前车道上,位于自车前方的车辆的车速,
是在目标车道上,位于自车前方的车辆的速度。
此外,乘坐舒适性成本用车辆行驶过程中横向加速度和纵向加速度来衡量:
(10)
式中,
、
分别是横向、纵向加速度。
综上,主从博弈自车EV总成本函数为:
(11)
3.4. 目标车道后车博弈成本函数构建
目标车道后车RV的博弈成本函数考虑了行驶安全性、通行效率和舒适性三个方面。本文利用车辆间的位移差、速度差来构建后车的安全成本函数:
(12)
式中,
是后车与它的前方车辆的纵向安全成本,
是后车与自车的横向安全成本。
(13)
(14)
式中,
,
,
分别是位于人驾车前方车辆的速度,纵向位置,横向位置。
和
分别是后车纵向安全成本中调节速度与距离的权重系数。
自车换道行驶过程中,车辆的横向安全是由自车和后车共同决定的。因此:
(15)
通行效率成本使用RV与其前方车辆的速度差值作为衡量标准:
(16)
由于后车的策略只包含不同纵向速度,乘坐舒适性成本以车辆行驶过程中纵向加速度作为的衡量依据:
(17)
综上,后车博弈成本函数为:
(18)
3.5. 博弈模型求解
从博弈过程来看,EV的驾驶行为会对RV产生影响,RV会基于EV的行驶来响应其策略。因此,在博弈模型中,EV可视作领导者,而RV则作为追随者。在RV与EV之间形成的策略互动关系,可将其建模为一个双层规划问题。本文利用公式(11)和公式(18),将该双层博弈问题的求解转化为求解其Stackelberg均衡解:
(19)
式中:
,
,
,
分别为自车和后车的策略、策略集;
为自车的最优决策解;
为后车的最优决策解。
4. 自车轨迹规划
本节设计了自车解耦式轨迹规划算法,主要包含基于主从博弈的路径规划和速度规划算法。
4.1. 路径规划
假设采样周期为T,本文在Frenet坐标系中构建采样空间,在该周期内的采样点可表示为
。采样点的横纵向位置为
(20)
(21)
式中:
是自车的初始时刻
的纵向位置,
是采样点的行数,
是车道的宽度。
是采样点的纵向位置,
采样点的横向位置。
在此基础上,本文使用动态规划算法生成初始路径。任意相邻采样点之间使用五次多项公式(22)连接,并再构建代价函数后使用回溯算法找到代价最小的最优路径。
(22)
(23)
(24)
(25)
(26)
公式(24)是障碍物的成本,表示路径点到障碍物的距离,
是安全距离阈值。公式(25)是舒适性成本。公式(26)是参考车道成本,
是参考车道的纵向位置。
由于基于动态规划生成的路径的采样点密度较小,所以使用二次规划算法对生成的路径进行平滑从而得到最终的路径。目标函数如(27)所示,包括平滑性、动态规划生成的路径点、与参考车道的距离要求。
(27)
s.t.
(28)
(29)
公式(28)是连续性约束。公式(29)是路径边界约束。
4.2. 速度规划
本小节设计了基于主从博弈的自动驾驶自车速度规划,该规划同时考虑了自动驾驶自车的运动学、目标车道限速和博弈参与车辆的车速约束。
第一,利用动态规划算法进行凸空间搜索。首先通过路径规划的结果在s-t图中创建一个凸空间,通过采样和搜索的方法找到一个粗略的速度剖面。代价函数(公式(30))包括参考车速成本(公式(31))、舒适成本(公式(32))、障碍物成本(公式(33))。
(30)
(31)
(32)
(33)
式中,
是各自的系数。
是安全距离阈值。
其次,使用二次规划平滑速度曲线从而得到最终的速度曲线。
(34)
s.t.
(35)
(36)
(37)
公式(35)是连续性约束,公式(36)是运动学约束,公式(37)是博弈参与车辆速度约束。
和
分别是目标车道上前后车的车速。
5. 实验及结果分析
为了验证本文所提算法的有效性,使用Matlab/Simulink,CarSim和PreScan联合仿真平台设计自车换道合流的仿真场景。PreScan负责生成虚拟场景并提供传感器数据,Matlab/Simulink搭建车辆决策规划和控制算法的建模与仿真,而CarSim为车辆运动仿真提供动力学模型。
5.1. 场景1的仿真及分析
如图4所示,自车EV和目标车道后车RV的驾驶风格是正常型。EV、FV和RV的初始纵向位置分别是51.4 m、102.6 m和1.4 m。EV、FV和RV初始纵向速度均为17.3 m/s。
Figure 4. PreScan road scenario of scene 1
图4. 场景1的PreScan道路场景
图5展示了场景1中不同驾驶风格EV的行驶轨迹。在此场景中,使用主从博弈对EV与RV之间的交互过程进行建模。由图可知,保守型EV倾向于在早期完成换道合流,以确保更大的安全间隙。正常型EV在适中时机实施换道,兼顾了安全性与效率。而激进型EV则选择在相对靠后的位置进行操作,以最大化利用可行驶空间。结果表明,不同驾驶风格的EV在换道过程中均未发生碰撞,且其行驶轨迹保持平滑连续,验证了所提方法在复杂交互场景中的有效性与安全性。
Figure 5. Actual trajectories of vehicles in scene 1
图5. 场景1各车实际行驶轨迹图
如图6所示,场景1中不同驾驶风格EV的纵向速度均呈现“先加速、后缓慢减速”的动态特征,即在换道初始阶段车辆通过加速以获取足够的速度优势,而在完成换道接近稳定车道时逐渐减速趋稳。进一步对比不同驾驶风格下EV的速度曲线可知,激进型EV在整个过程中纵向速度峰值最高,正常型次之,而保守型最低。这一结果表明,驾驶风格对EV换道过程中的纵向运动特性具有显著影响,其中激进型驾驶者更倾向于通过较高的速度峰值实现换道,而保守型驾驶者则表现出更加平缓的速度变化特征。
Figure 6. Longitudinal velocity profiles of vehicles in scene 1
图6. 场景1各车纵向速度图
5.2. 场景2的仿真及分析
如图7所示,在高速公路合流区,自车EV的驾驶风格是正常型,后车RV的驾驶风格是保守型。EV、FV和RV的初始纵向位置分别是113 m、161 m和47 m。EV、FV和RV的初始纵向速度为16.8 m/s、19.5 m/s和17 m/s。
Figure 7. PreScan road scenario of scene 2
图7. 场景2的PreScan道路场景
图8展示了各车辆在不同时刻时的位置及EV的规划路径。图8(a)给出了各车初始的位置。t = 0.6 s时,EV和RV间的交互通过主从博弈建模,决策结果为EV选择左车道作为参考车道,如图8(b)所示。图8(c)和图8(d)分别对应了EV在换道过程中和换道完成后的各车位置状态,同时给出了EV的规划路径。由图可见,EV在整个过程中始终保持与其他车辆的安全间距,未发生碰撞,同时其规划路径具有连续性且平滑性。
Figure 8. Vehicle positions at different time steps and the planned trajectory of the ego vehicle
图8. 不同时刻各车的位置及自车的规划路径图
图9(a)和图9(b)分别给出了场景2中各车的实际行驶轨迹和纵向速度。由图9(b)可以看出,EV的初始速度是16.8 m/s,换道过程中加速至21.5 m/s,换道完成后缓慢减速。RV的初始速度是17 m/s,在EV换道过程中RV主动减速让行,之后缓慢加速。
Figure 9. Simulation results of scene 2: (a) Actual trajectories of vehicles; (b) Longitudinal speeds of vehicles
图9. 场景2的仿真结果图:(a) 各车实际行驶轨迹图;(b) 各车纵向速度图
5.3. 场景3的仿真及分析
如图10所示,在高速公路合流区,自车EV的驾驶风格是正常型,后车RV的驾驶风格是激进型。EV、FV和RV的初始纵向位置分别是119 m、157 m和87.3 m。EV、FV和RV的初始纵向速度为16.9 m/s、19.4 m/s和17.2 m/s。
Figure 10. PreScan road scenario of scene 3
图10. 场景3的PreScan道路场景
图11(a)和图11(b)分别给出了各车辆实际行驶轨迹和纵向速度。由图11(b)可见,当RV是激进型的驾驶风格时,本方法基于主从博弈对EV和RV间的交互进行建模,决策结果为EV保持在当前车道且减速行驶。
Figure 11. Simulation results of scene 3: (a) Actual trajectories of vehicles; (b) Longitudinal speeds of vehicles
图11. 场景3结果图:(a) 各车实际行驶轨迹图;(b) 各车纵向速度图
6. 总结
本文提出了一种考虑车辆驾驶风格的主从博弈决策规划算法。首先,使用K-means聚类法将车辆驾驶风格划分为激进型、正常型、保守型。然后,引入主从博弈对自车与他车间的交互冲突进行建模,同时,基于高斯分布量化他车运动不确定性,从而求解出决策最优解。将该最优解输入轨迹规划模块,利用路径规划和速度规划解耦的轨迹规划方法得出轨迹规划结果。本文基于PreScan、Matlab和CarSim联合仿真平台,分别对比了自车不同驾驶风格的决策规划结果,以及在目标车道后车是保守型和激进型场景下的表现。仿真结果表明,所提出的决策规划算法能够有效应对上述场景。然而,本文所提出的算法仍存在一定局限性。本文在划分驾驶风格时,依赖于聚类方法及训练数据,难以全面反映驾驶员在复杂交通环境中的动态驾驶行为特征。另外,本文的实验主要基于联合仿真平台,真实交通场景的多样性可能导致本算法的泛化能力不足。因此,未来的研究将进一步开展:(1) 使用更精细化和动态化的驾驶风格建模方法,比如贝叶斯推理或深度学习,以提升模型对个体差异的适应性。(2) 结合更丰富的真实交通数据,增强算法在复杂交通场景下的泛化能力。(3) 进一步通过硬件在环平台与实车实验,验证算法在真实交通环境中的有效性与可靠性。
NOTES
*第一作者。
#通讯作者。