1. 引言
跟车是日常驾驶中最常见的场景之一,其主要任务是控制车速,以确保与前车保持安全且舒适的车距。自动跟车速度控制有望减轻驾驶员的负担,提升交通安全性,同时也能增加道路的通行效率[1]。驾驶员模型是速度控制系统的关键要素[2]。近年来,研究人员提出了各种车辆跟驰模型,一般可分为两类。第一类是传统的基于规则的模型,如Gipps模型[3]、智能驾驶员模型(IDM) [4]。[4]中模型能够模拟各种拥堵交通状态,并通过调整相关参数来呈现不同状态之间的转换过程,进一步解释这些状态在不同交通流量和道路条件下的表现。它可以预测道路瓶颈(如匝道、坡道、车道减少、交通事故等)对交通流的影响。研究表明,瓶颈的存在通常会导致上游发生拥堵,而拥堵的类型和严重程度则取决于瓶颈的特性和交通流量的大小。通过分析不同交通状态的形成条件及其演变规律,智能驾驶员模型(IDM)可以为交通控制策略的制定提供理论支持。该模型考虑了车辆之间的相对速度,因此能够模拟避免碰撞的驾驶行为,其加速和减速规律更符合实际驾驶情况,避免了其他模型中可能出现的极端加减速现象。此外,IDM模型的参数具有明确的物理意义,并可通过实地数据进行校准,计算效率较高,适合大规模交通仿真应用。
基于规则的模型通常依赖于手工设定的规则和标准来模拟人类驾驶员的驾驶行为。这些规则通常是根据驾驶员的经验和行为模式进行设计的,因此具有较高的可解释性。然而,由于这些模型依赖于手工制定的标准和规则,基于规则的模型往往缺乏足够的灵活性和泛化能力[5]。在现实交通环境中,复杂和不规则的场景是不可避免的,因此,单纯依靠这些模型无法满足自动驾驶汽车在多变道路条件下的需求。
为了解决基于规则的模型存在的局限性,研究人员将重点转向了第二类模型,即基于学习的模型。这些模型通过借助机器学习的方法,尤其是深度神经网络,来提升泛化能力,以应对更复杂的驾驶场景。在这种情况下,我们可以根据是否利用人类驾驶员的真实数据,将这些模型进一步划分为基于监督学习(SL)和基于深度强化学习(DRL)两类模型。基于监督学习(SL)的模型通常采用深度神经网络对人类驾驶员的车辆轨迹数据进行回归,旨在学习与人类驾驶员相似的跟车模式[6] [7]。然而,训练基于监督学习(SL)的模型需要大量的人类驾驶轨迹数据,而收集和标注这些数据既昂贵又费时。此外,由于人类驾驶车辆很难收集事故或接近事故情境的真实数据,这对提高基于SL模型的性能至关重要[8]。另一方面,模仿人类驾驶员的跟车决策并不是自动驾驶汽车的最优选择,用户可能不希望自动驾驶汽车以他们这样的方式行驶[9]。首先,人类驾驶员在跟车决策中存在许多缺点,例如驾驶员性格差异可能导致过于保守或过于激进的跟车行为[10]。其次,相比于人类驾驶员,自动驾驶汽车配备了更先进的传感器,能够更精准、更全面地感知周围环境,从而有潜力做出更加高效和合理的跟车决策。
为此,研究人员致力于使用DRL方法开发跟驰决策模型[11] [12],这可以有效地减少基于SL模型对人类驾驶员真实数据的依赖。基于DRL的模型旨在通过与模拟交通环境的试错交互来学习车辆跟驰决策。借助奖励函数的反馈指导,模型期望能够学习到表现优异的跟驰决策策略。同时,由于DRL模型能够通过在模拟环境中进行大量可承受的试错学习来不断优化,因此智能体在学习过程中会遭遇各种潜在风险场景。这促使训练好的模型能够在面对罕见的风险情况下,依然作出更安全的决策[13]。
然而,现有的基于DRL的跟驰模型存在以下关键缺陷。深度强化学习模型(DRL)应用于加速度搜索时,由于其探索空间过于广泛,可能导致计算资源的浪费以及优化效率的低下。传统的DRL方法通过不断试探和调整参数来寻找最优解,但这一过程往往需要大量的训练和反复试验,尤其在加速度调节这种具有复杂约束和多重目标的场景中,探索空间的广泛性会使得学习过程难以迅速收敛。
因此,我们提出了一种基于DRL智能体的启发式跟驰模型DDPG with IDM。通过在DRL算法的搜索范围内引入启发式搜索策略,我们能够在合理的搜索空间内进行快速且高效的优化。启发式搜索利用经验法则和简单的规则,引导搜索过程避免无谓的盲目探索,从而在较小的范围内快速找到最优解[14]。相比传统的DRL方法,这种启发式搜索不仅减少了计算复杂度,还能有效缩小搜索空间,提高优化精度和收敛速度。总的来说,结合启发式搜索与深度强化学习的方法,不仅保持了DRL在处理复杂动态环境中的强大适应性,还通过引导搜索过程实现了更加高效的优化。
2. 深度强化学习方法
深度强化学习是指使用神经网络来近似值函数
,策略
,或系统模型的强化学习算法。
2.1. 强化学习
强化学习(RL)通过让RL智能体与环境交互来优化顺序决策问题。在时间步
,智能体观察状态,并基于从状态
映射到动作
的策略
从某个动作空间
中选择动作
。同时,系统给智能体一个奖励
,并转移到下一个状态
。此过程将继续,直到达到终端状态,然后智能体将重新启动。智能体打算获得最大折扣,累积奖励
,折扣因子为
。一般来说,有两种类型的强化学习方法:基于值的和基于策略的。
2.2. 深度Q网络
深度
学习使用神经网络作为函数近似器来估计动作–值函数,而不是为每个状态–动作对计算
。选择具有最大
值的操作。深度
网络(DQN)在离散的动作空间中工作得很好,但在连续的动作空间中失败了,就像我们的例子一样。为了解决这个问题,Lillicrap等人[15]开发了一种称为深度确定性策略梯度(DDPG)的算法。DDPG在DQN中引入了一种行动者–批评者机制,可用于连续控制问题。
2.3. 深度确定性政策梯度
DDPG使用两个独立的网络来分别近似演员和评论家。权值为
的评价网络负责估计行动价值函数
。权重为
的行动者网络负责显式地表示智能体的策略
。该算法采用了DQN中的经验回放和目标网络技术,提高了学习的稳定性和鲁棒性。
·经验回放
应用重放缓冲器以避免从顺序生成的相关经验样本中学习。重放缓冲器是存储从环境采样的转换
的有限大小的高速缓存
。重放缓冲区通过用新样本替换旧样本而不断更新。在每个时间步,演员和评论家网络都是在来自重放缓冲区的随机小批量转换上训练的。
·目标网络
目标网络用于表示主网络的目标值,以避免算法的发散。两个目标网络
和
被分别建立为主要的评论者和演员网络。它们具有与主网络相同的体系结构,但具有不同的网络参数。目标网络的参数通过让它们缓慢地跟踪主网络来更新:
。这样,目标值被约束为缓慢更新,极大地增强了学习的稳定性。
DDPG算法首先初始化重放缓冲区和演员,评论家和相应的目标网络。在每个时间步,根据探索性策略采取动作
。然后,观察奖励
和新状态
并将其存储在重放存储器
中。评论家是用从重放存储器中采样的小批量来训练的。之后,通过对采样的策略梯度执行梯度上升步骤来更新动作器。最后,更新具有权重
和
的目标网络,以缓慢跟踪演员和评论家网络。
3. 数据准备
下一代仿真(NGSIM)项目。如图1所示,轨迹数据是2005年4月13日在加利福尼亚州埃莫里维尔的弗朗西斯科湾区从I-80东行获取的。调查区域长约500米(1640英尺),由六条高速公路车道组成,其中包括一条高载客率车辆(HOV)车道。在整个数据集中,可访问45分钟的数据集合,分为三个15分钟的时间段:下午4:00至下午4:15;下午5时至5时15分;以及下午5:15到5:30。这些时段包含拥堵累积,或非拥堵和拥堵交通状态之间的州际,以及高峰时段期间的完全拥堵。该数据提供了每辆车的精确位置信息,采样率为10 Hz。为了提高数据质量,使用了重建的NGSIM I-80数据[16]。
通过应用Wang等人[17]所述的车辆跟踪过滤器提取车辆跟踪事件。跟车事件定义为:
·引导车辆和跟随车辆保持在同一车道上;
·事件持续时间 > 15秒:确保车辆跟随持续足够长的时间以进行分析。
本研究共提取并使用了1341个跟车事件。
Figure 1. I-80 Aerial photos and schematics of the research area
图1. I-80研究区域的航拍照片和示意图
4. 奖励函数特点
在这一节中,提出了捕捉车辆跟驰速度控制的相关目标的特征,最终目的是构建适当的奖励函数。
4.1. 安全
安全性应该是自动跟车的最重要的因素。碰撞时间(TTC)用于表示安全性。TTC作为一种广泛使用的安全指示器,代表了两辆车相撞前所剩的时间。其计算公式如下:
(1)
其中
表示时间;
和
分别表示前车和后车;
,
组合表示与前车和后车相关的变量:
是间隙距离,
是相对速度(前车速度–后车速度)。
TTC与碰撞风险成反比。为了将TTC应用为反映安全性的特征,应确定安全限值(TTC的下限)。然而,文献中报告了不同的阈值(从1.5 s到5 s) [18]。在本研究中,我们尝试了从1 s到9 s的安全限制,发现它们对最终的跟车性能没有太大影响。使用4秒的最终限制是因为它导致最佳的整体性能。TTC功能构建为:
(2)
这样,如果TTC小于4 s,TTC特性将为负。当TTC接近零时,TTC特性将接近负无穷大,这代表了对接近撞车情况的严重惩罚。
4.2. 效率
在本研究中,高效驾驶是指保持安全和短时间的车头时距。车头时距定义为前车(LV)和后车(FV)到达指定点之间经过的时间。在安全范围内保持短的车头时距可以提高交通流效率,因为短车头时距对应于大的道路通行能力。
本研究基于经验NGSIM数据确定了适当的车头时距。对所有提取的1341个跟车事件中的车头时距数据对数正态分布拟合。对数正态分布是对数具有正态分布的概率分布。对数正态分布的概率密度函数为:
(3)
其中
是分布变量,即本研究中的车头时距,
分别是变量
的平均值和对数标准差。基于经验数据,估计的
和分别为0.4226和0.4365。
车头时距特征被构建为估计的车头时距对数正态分布的概率密度值:
(4)
根据该车头时距特征,车头时距为1.26 s对应于最大车头时距特征值(约0.65);而车头时距过长或过短对应于低特征值。通过这种方式,RL代理被鼓励保持大约1.26 s的恒定时间间隔。请注意,为了鼓励恒定的时间间隔,也可以使用正态分布的密度函数,但我们发现拟合的对数正态密度函数恰好优于正态密度函数,这导致模型性能不稳定。
4.3. 舒适性
被定义为加速度的变化率的加加速度被用于测量驾驶舒适度,因为它对乘客的舒适度有很大的影响。加加速度特征构造为:
(5)
加加速度特征的较小值对应于较不舒适的驾驶。将加加速度的平方除以基值(3600)以将特征缩放到[0, 1]的范围内。基础值由以下直觉确定:
1) 数据的采样间隔为0.1 s;
2) 基于所有跟车事件的观测FV加速度,加速度被限制在−3到3 m/s2之间;
3) 因此,最大加加速度值为
,如果平方,我们得到3600。
5. 启发式DDPG算法
在本节中,解释了使用DDPG学习速度控制策略的方法。
5.1. 状态和动作
在一定的时间步长
处,车辆跟随过程的状态由FV速度
,间隙距离
,相对速度
。动作是FV的纵向加速度
。给定时间步
的状态和动作,下一步状态由运动学点质量模型更新:
(6)
(7)
(8)
其中
是模拟时间间隔,在本研究中设置为0.1 s,
是外部输入的领头车辆(LV)的速度。
5.2. 仿真设置
为了使RL智能体能够从试错中学习,实现了一个简单的数值跟驰仿真环境。仿真仅涉及LV和FV两个智能体,LV遵循经验数据,FV由RL算法控制。用经验给定的下列车辆速度、间隙距离和速度差进行初始化,
,
,和
,RL智能体用于计算FV的加速度
。给定加速度,未来FV速度,相对速度和间隙距离,然后根据公式(6) (7) (8)代生成。在每个时间步,仿真环境向RL代理提供奖励值(基于车间时距、TTC和加加速度计算)作为反馈。一旦跟车事件到达其终点,则利用下一事件的经验数据重新初始化状态。事件被随机打乱,以避免顺序的影响。
5.3. 奖励函数
奖励函数
用作训练信号,以在期望任务的上下文中鼓励或阻止行为。对于自动跟车任务,基于第4节中构建的特征的线性组合建立了奖励函数:
(9)
其中
,
和
是特征的系数,在当前研究中均设为1。
5.4. 动作探测噪声
通过在原Actor策略中加入从噪声过程中采样的噪声,构造了一种探测策略。如[15]所建议的,使用
且
的Ornstein-Uhlenbeck过程[19]。Ornstein-Uhlenbeck过程模拟具有摩擦的布朗粒子的速度,产生以零为中心的时间相关值。时间相关的噪声使智能体能够在具有动量的物理环境中很好地探索。
5.5. IDM模型启发式约束
智能驾驶员模型(IDM)考虑了车辆之间的相对速度,因此能够模拟避免碰撞的驾驶行为,其加速和减速规律更符合实际驾驶情况,避免了其他模型中可能出现的极端加减速现象。此外,IDM模型的参数具有明确的物理意义,并可通过实地数据进行校准,计算效率较高,适合大规模交通仿真应用。我们设计两种IDM风格来限定智能体的输出加速度,使智能体输出的加速度限定于这个区间中。
根据数据测试,选出两组风格参数,激进型IDM风格:期望速度 = 25 m/s,安全时间间隔 = 1 s,最大加速度 = 3 m/s2,舒适减速度 = 4.5 m/s2,加速度指数 = 4,最小间距 = 2 m,最大减速限制 = −9 m/s2;保守型IDM风格:期望速度 = 25 m/s,安全时间间隔 = 3 s,最大加速度 = 1.2 m/s2,舒适减速度 = 2 m/s2,加速度指数 = 4,最小间距 = 2 m,最大减速限制 = −9 m/s2;IDM模型具体计算公式如下:
(10)
(11)
5.6. 训练IDM约束的DDPG速度控制模型
对于提取的1341个跟车事件,70% (938)用于训练,30%用于测试。在训练阶段,RL代理顺序地模拟训练数据中随机混洗的跟车事件。也就是说,当跟车事件终止时,从938个训练事件中随机选择一个新事件,并且用新事件的经验数据初始化智能体的状态。重复训练3000次。本研究中的事件是指跟车事件。图2展示了是否加了IDM约束的DDPG算法的碰撞对比,可以看出蓝色实线加了IDM约束的模型比没加约束的模型大大避免了碰撞。图3示出了滚动平均事件奖励相对于训练事件的变化。平均事件奖励是在跟车事件的所有时间步长(采样间隔 = 0.1 s)上聚合的平均奖励,滚动平均事件奖励是大小为100的滚动窗口上的平均事件奖励的平均值。进行多次训练,并汇总结果:蓝色实线表示没加IDM约束模型的多次训练的平均值与橙色虚线是加了IDM约束的模型进行对比,可以看出,DDPG with IDM模型在训练集达到约550时开始收敛,当模型收敛时,智能体收到的奖励值约为0.18,对比没加IDM约束的模型有更高的奖励值。这是通过以使TTC和加加速度特征值接近0并获得最大车头时距特征的方式选择动作来实现的。
Figure 2. Comparison chart of collisions in different constrained DDPG algorithms
图2. 不同约束DDPG算法的碰撞对比图
Figure 3. Comparison of average rewards of different constrained DDPG algorithms
图3. 不同约束DDPG算法的平均奖励对比图
6. 验证
在本节中,将加入IDM模型进行约束的DDPG模型与无约束的模型进行比较,以证明该模型安全、高效和舒适地跟随领先车辆的能力。所有的分析都是基于测试数据。DDPG模型通过将领先车辆轨迹作为输入来产生跟随车辆轨迹。
6.1. 安全驾驶
在跟车事件中,基于TTC来评价驾驶安全性。图4显示了有无IDM模型约束DDPG算法模拟的TTC累积分布。为了更好地解释,仅列出了0至50 s范围内的TTC值。可以看出,0~3 s的高危险区域内,IDM约束的DDPG模型比无IDM约束的DDPG算法具有更低的累积概率。这意味着由IDM约束的DDPG模型生成的跟车行为比没约束的DDPG算法中观察到的驾驶员行为更安全。
6.2. 高效驾驶
在跟车过程中,基于车头时距评价行车效率。在跟车事件的每个时间步长计算车头时距,这些车头时距的累积分布如图5所示。DDPG with IDM模型、DDPG without IDM模型的平均车头时距分别为1.24 s、和1.61 s。可以看出,无约束的DDPG模型具有更宽的时间间隔分布范围(0 s至8 s)。其中包括一些小于1秒的危险车头时距,也包括一些大于3秒的低效车头时距。因此,可以得出结论,IDM约束的DDPG模型可以跟随领先车辆与一个有效的和安全的时间车头时距。
Figure 4. Empirical cumulative distribution of TTC during car following
图4. 跟车过程中TTC的经验累积分布
Figure 5. Empirical cumulative distribution of time headway during car following
图5. 跟驰过程中车头时距的经验累积分布
6.3. 舒适驾驶
根据跟车过程中的加加速度值评价驾驶舒适性。与车头时距类似,它是针对跟车事件的每个时间步长计算的。图6示出了在车辆跟随事件期间加加速度值的累积分布。DDPG with IDM模型、DDPG without IDM模型的加加速度的平均值分别为0.67 m/s3和1.68 m/s3。由于加加速度的绝对值越小,驾驶越舒适,因此可以得出结论,在NGSIM数据中,加了IDM约束的DDPG模型可比没加约束的模型以更舒适的方式控制车辆速度。
Figure 6. Empirical cumulative distribution of jerk during car following
图6. 跟驰过程中加加速度的经验累积分布
7. 结论
综上所述,本研究使用启发式RL来学习如何以安全、有效和舒适的方式控制车辆在跟驰过程中的速度。使用NGSIM研究中的真实的世界的人类驾驶数据来训练模型。将该模型与没加IDM约束的模型进行比较,以评估模型的性能。仿真结果表明,该模型具有安全、高效、舒适的驾驶性能。与DDPG without IDM算法相比,所提模型在安全性、舒适性、尤其是运行速度等方面明显优于没加约束的算法。研究结果表明,启发式RL方法有助于自动驾驶系统的发展。