基于FMCW毫米波雷达的驾驶员头手动作识别
Driver’s Head-Hand Action Recognition Based on FMCW Millimeter-Wave Radar
摘要: 随着经济水平上升,汽车逐渐成为人们出行的主要选择之一。车内驾驶员的驾驶状态是影响行驶安全的重要因素,而当前的基于视觉识别的驾驶员动作和状态检测易受光照和遮挡等问题影响,且涉及用户隐私问题。毫米波雷达具有高探测精度,高集成、不受光线等因素影响、低成本等优点,已经广泛应用与体征信号、动作识别等领域,但目前对于驾驶姿态的动作识别种类较少。为此,本文基于77 GHz毫米波雷达,对驾驶员在车内动作进行信号采集,构建了包含静止、点头、左右环视、顿头(瞌睡)、前后剧烈晃动(急刹)、手部平移(抽烟)、手部抬起(打电话)七种动作的数据集。同时开发了基于VGG16-LSTM-CBAM的深度学习网络模型,对微多普勒频谱图进行分类识别。实验结果显示,本文提出的模型识别准确率达到99.16%,有效地提高了对驾驶员头手协同动作的识别精度。
Abstract: As the economic level rises, automobile gradually becomes one of the main choices for people’s traveling. The driving status of the driver in the car is an important factor that affects driving safety, and the current visual recognition-based driver action and status detection is susceptible to problems such as light and occlusion, and involves user privacy issues. Millimeter-wave radar has the advantages of high detection accuracy, high integration, insensitivity to light and other factors, and low cost, and thus has been widely used in the fields of body signals and action recognition. However, for recognition of driver’s postures, existing studies are limited to only a few actions. In this paper, using a 77 GHz millimeter wave radar, we constructed a dataset containing seven kinds of driver’s actions, including stationary, nodding head, left and right looking around, head-stopping (dozing), front and rear violent shaking (sharp braking), hand panning (smoking), hand lifting (phone call). A deep learning network model based on VGG16-LSTM-CBAM is also developed to classify and recognize micro-Doppler spectrograms. The experimental results show that the recognition accuracy of the proposed model reaches 99.16%, which effectively improves the recognition accuracy of driver actions.
文章引用:张连龙, 刁寅亮. 基于FMCW毫米波雷达的驾驶员头手动作识别[J]. 人工智能与机器人研究, 2025, 14(2): 461-470. https://doi.org/10.12677/AIRR.2025.142045

1. 引言

近些年来,我国汽车保有量随经济发展迅速上升 [1] 。随着人工智能的兴起,智慧驾驶系统也迅速发展 [2] 。在自动驾驶系统方面,近年发展了一种新兴技术——端到端自动驾驶 [3] ,这种技术将传感器信息作为输入,在深度学习网络中生成对车辆的路径规划和运动控制。而在驾驶员与汽车系统交互中,汽车也推出了基于多种传感器的交互设计 [4] ,如视觉、触觉、听觉、体感等,汽车通过传感器获取用户手部姿势与力度、用户声音和姿态信息等,根据不同场景和需求辅助驾驶员安全便捷的行驶。

对驾驶员驾驶动作和状态的智能检测是汽车智慧驾驶系统设计的重要一环。目前,国内外已有相关学者在驾驶员动作与状态监测方面作了许多研究,这些研究主要采用光学摄像头作为传感器;通过计算机视觉方法进行动作和状态的识别。例如,穆高原 [5] 研制了一种基于单目摄像头的嵌入式轻量级危险驾驶行为识别系统,实现了对8种行为的实时识别,王子睿 [6] 通过YOLOv5目标识别算法与OpenPose模型对驾驶员人脸、嘴巴、眼睛和骨骼关键点进行定位,并实现驾驶员六种动作的检测,刘玉焘 [7] 使用九轴MEMS (MicroElectro-Mechanical System)惯性传感器融合方案来进行姿态测量。熊群芳等 [8] 提出了一种基于卷积神经网络算法来进行人脸检测,以实时跟踪驾驶员是否在驾驶过程中出现打电话的动作。陈思佳等人 [9] 使用表面肌电进行手势识别,通过长短时记忆和卷积神经网络一定程度提高了手势识别的精准度。秦康等人 [10] 提出一种基于X3D卷积神经网络的驾驶员动作识别方法,实现在低配置车载硬件条件下也可以达到较高精度的驾驶员动作检测效果。李春贺等人 [11] 提出了一种基于多模态信息联合判断的驾驶员危险行为检测系统,利用近红外图像作为输入,同时完成人脸检测、表情识别和危险动作分类等任务。但是针对驾驶员动作识别,以上研究仍然有一定的不足之处。如计算机视觉常常包含用户面部信息等相关数据,在被采集与处理过程中,这些信息有被泄露和滥用的隐患 [12] ,接触式识别方法虽然具有较高的识别精度,但其使用前提是必须穿戴传感器设备 [13] ,在驾驶环境中存在安全隐患,并且传感器的安装和维护也需要较高的成本。

毫米波雷达由于具有高探测精度,高集成、不受光线等因素影响、低成本的特性,在体征信号检测,动作和姿态识别领域中得到了广泛应用。Ali [14] 等人提出了一种端到端的方法来识别手势动作,利用机器学习分别识别并分类六个不同的手势,并在测试集上达到了95%的精度。Visshnu [15] 等人结合毫米波雷达与摄像头模块,对自行车骑手的骑行状态进行分析,并评估碰撞威胁来警告骑手,在实际道路上测试准确率高达96.7%。Bresnahan [16] 等人将毫米波雷达应用在深层肌腱反射的检测当中,通过创建频谱图来快速准确的分析患者的反射状况。Arsalan [17] 等人提出了一种基于脉冲神经网络(SNN)的手势识别方法,并且在对八个动态手势的识别中达到了99.5%的精度。Arab [18] 等人利用24 GHz毫米波雷达对八个不同的人体动作进行采样分析,并使用双分支CNN架构的网络模型对动作进行分类,分类精度最高达到98.85%。而目前,许多毫米波雷达的研究指向车辆的驾驶辅助上,各类研究人员一直在研究如何通过毫米波雷达技术实现智能汽车来提高日常生活中的驾驶安全性 [19] ,而除了车外的辅助驾驶功能以外,毫米波雷达还可以应用于车内的驾驶员状态检测和动作识别以协助驾驶员安全驾驶。相比于目前常用的视觉传感器,毫米波雷达将更能保护使用者的隐私安全。Nguyen [20] 等人利用毫米波雷达与CNN神经网络模型对四种驾驶员头部运动情况进行了识别与分类,以判断驾驶员的异常行为。Chen [21] 等人利用微调卷积神经网络(FT-CNN)模型对疲劳动作进行分类和识别,并且通过毫米波雷达采集了人体不同状态下的呼吸信号用于分析判断人是否疲劳。Chae [22] 等人通过FMCW雷达来采集驾驶员了六种头部运动信号来获取头部运动和颈部运动时的距离多普勒和多普勒频谱图,并证明了使用雷达监测驾驶员头部运动的可行性。Jung [23] 等人通过在方向盘上安装毫米波雷达采集了驾驶员四种不同的头部动作信号,并采用CNN网络对动作信号的频谱图进行识别分类。Drew G [24] 等人将毫米波雷达安装于汽车仪表盘上,采集了八种常见的驾驶员头部动作信号,并采用了DCNN卷积神经网络分类和识别这八种运动类别。然而,上述研究考虑的驾驶员头部动作类型较少,且没有考虑到驾驶员在驾驶行为中的手部动作信号,因此在实际应用中难以精确的分析驾驶员驾驶行为。

本文通过毫米波雷达采集驾驶员驾驶时头部与手部的动作信号,利用深度学习方法对微多普勒特征进行分类识别,实现驾驶员的驾驶动作检测。针对识别准确率问题进一步在vgg16-lstm网络模型中加入了注意力机制和残差连接。开发的VGG16-LSTM-CBAM的网络模型,能够提高驾驶动作的识别精度。实验结果表明,本文所提的方案可以准确的检测驾驶员的驾驶行为。

2. 相关理论

2.1. 毫米波雷达回波模型

本文主要采用毫米波雷达信号模型对驾驶员驾驶动作信号进行采样,其中毫米波雷达可以发射调频连续波,调频连续波具有距离分辨率高,抗干扰能力强,发射功率低等特点。

毫米波雷达的发射信号可表示为:

s ( t ) = A T cos ( 2 π f c t + π B T t 2 + ϕ 0 )

其中, A T 是发射信号的幅值, f c 是雷达载波频率, T 是脉冲间隔, B 是带宽。

雷达所接收到相应的回波信号可表示为

s ( t ) = A R cos ( 2 π f c ( t τ ) + π B T ( t τ ) 2 + φ 0 )

其中, A R 是回波信号的振幅, τ = 2 r / c 是可波信号租对十发射信号延迟的时间长度。其中 r 是雷达和目标之间的距离, c 是光速

综上所述,最后将发射信号与接收到的回波信号进行混频,得到差频信号,其表示如下:

S I F ( t ) = A I F cos ( 2 π f c τ + π B T ( 2 t τ ) τ ) = A I F cos ( 2 π f c τ + 2 π B T τ π B T τ 2 )

其中 A I F 是差频信号的幅值。

2.2. 微多普勒频谱图的获取

在雷达采集的信号中,运动目标的回波信号将与发射信号存在频率上的偏离,这种偏离被称作为多普勒效应。在驾驶员驾驶动作产生的雷达回波当中,其频率还会产生额外的旁瓣,即微多普勒效应 [25] 。提取微多普勒特征如今已是研究人体行为常用的研究手段,微多普勒特征的计算公式如下:

S ( ω , τ ) = F ( x ( t ) ω ( t τ ) ) = + x ( t ) ω ( t τ ) e j ω t d t

其中 x ( t ) 为人体目标信号, ω ( t ) 为窗口函数

图1所示,为得到驾驶员不同动作下的微多普勒特征,本文首先对采集到的雷达回波信号的快时间维度进行加窗距离-FFT,通过谱峰频率的横坐标,根据雷达距离分辨率求解目标的实际距离。接着在慢时间维度上进行傅里叶变换,得到距离多普勒频谱特征,然后依次使用CA-CFAR算法与角度FFT生成距离角热度图,通过DBSCAN聚类算法提取驾驶员主体运动部位数据,再使用STFT (Short Time Fourier Transform)获取信号序列中的时间信息,最终得到包含驾驶员动作微多普勒特征的时频图。

Figure 1. Flowchart of radar signal processing

图1. 雷达信号处理流程图

3. VGG16-LSTM-CBAM网络模型

在图像识别中,当前研究有许多出色的网络模型可供参考,而不同的模型对不同种类的图像分类识别适配性各有差异。在本文第三章所描述的数据集当中,本文通过得到微多普勒特征频谱图构建了数据集,其中这些图像在通过预处理后类别之间差异性明显,因此本文选取了几个较为经典的图像分类网络并对比他们的训练精度,最后选择了VGG16作为图像处理网络部分。提出的网络结构如图2所示,该网络主要基于VGG16模块修改,由13个卷积层、2个全连接层和LSTM模块以及CBAM注意力模块组成,此外,网络中还包含了多个最大池化层和ReLU激活函数层。本文在VGG16与LSTM网络间引入了CBAM注意力机制,使得模型可以关注到更多细致的特征信息,并忽略无关信息,提高目标分类的精度。

3.1. VGG16-LSTM

VGG网络模型在2014年由牛津大学视觉课题组提出 [26] ,如今该网络模型已更迭出许多版本,其中VGG-16模型主要由16层卷积层组成,因此其命名为VGG16。

VGG16使用了大量尺寸为3 × 3的卷积核,这在图像识别中使得其可以使用更小的感受野提取更加细致的图像特征信息,可以有效减少在池化过程中对于特征压缩而造成的特征丢失,本文的网络模型主要建立在VGG16模型上进行模块改进。

在VGG16网络后,将三维张量降维展开为二维张量特征序列,并将该特征序列输入到LSTM网络中,LSTM可以有效的捕捉图像中隐藏的特征和信息,在网络最后使用softmax对融合网络VGG16-LSTM的结果进行分类识别,最后得到预测目标。

由于数据集在CNN-LSTM网络训练上已经得到相对较好的训练结果,在更换VGG16网络后,考虑到网络层数的加深,因此在网络中加入了残差连接来防止由于层数加深而出现网络训练过拟合的情况,同时关注了低级特征,有助于网络在更换后依旧得到相对较好或更好的性能。

Figure 2. VGG16-LSTM-CBAM network model

图2. VGG16-LSTM-CBAM网络模型

3.2. CBAM

为了帮助VGG16在图像处理分析中更加精准的捕获图像中的关键信息,本文还在网络中加入了注意力机制模块,通过引入注意力机制,帮助模型在做出决策过程中更加关注输入数据中的关键部分,从而提高网络训练的精度和效率,本文中所添加的注意力机制模块主要为CBAM (Convolutional Block Attention Module)注意力机制模块。CBAM结合了通道注意力和空间注意力来增强网络的学习能力,两个模块通过串行的组合方式连接在一起,即输入特征图首先通过通道注意力模块修正得到新的特征图后再进入空间注意力模块中,最后输出经过了CBAM处理过的特征图。

Figure 3. Schematic diagram of adding CBAM to VGG-LSTM

图3. VGG-LSTM加入CBAM示意图

图3所示,本文在VGG16与LSTM网络间引入了CBAM注意力机制,使得模型可以关注到更多细致的特征信息,并忽略无关信息,提高目标分类的精度。对于VGG16-LSTM网络中,比较关键的位置就是融合网络特征传递的过程,因此将CBAM注意力机制的位置放于两个网络之间,使其作为一个特征融合和信息传递的桥梁,起到承上启下的作用,令VGG16所提取的特征充分筛选整合后再送入到LSTM网络当中进行下一步特征提取与行为预测,这样使得网络在不增加深度的情况下,充分利用计算机资源,提高网络预测精度。

4. 数据集

4.1. 实验设置

本次实验主要设备为TI公司的毫米波雷达传感器AWR1843BOOST和数据采集适配器DCA1000EVM,使用该设备对驾驶员动作信号进行采集,并生成微多普勒频谱图像作为本次实验数据集,其中AWR1843BOOST雷达传感器具有三根发射天线和四根接收天线,其与DCA1000EVM采集板连接实物图如图4所示。

Figure 4. Connection diagram of AWR1843BOOST radar sensor and DCA1000EVM acquisition board

图4. AWR1843BOOST雷达传感器与DCA1000EVM采集板连接图

4.2. 数据获取

数据集设计的驾驶员驾驶动作示意图如图5所示,分别为静止、左右环视、打电话、抽烟、瞌睡、点头、急刹7种驾驶情况产生的动作,其中瞌睡动作主要针对头部运动设计,为驾驶员头部下垂或快速点头,即因头部不稳定而产生的上下晃动或颤抖 [27] ,抽烟由于驾驶员常常将香烟伸出车窗外,因此设计该动作为驾驶员抽烟时横向移动香烟,接打电话动作设计为将手机由身侧拿起放于耳边。为模拟汽车驾驶场景,实验数据采集时目标全程坐在椅子上面对正前方,雷达摆放于目标右前方距离目标约0.7 m处,雷达参数设置详见表1

本次实验一共有5人参加,分别为三名男性,两名女性,年龄在22~26岁之间,均有驾驶经验。参与实验人员每种动作重复20次,一共采集700组数据。采用五折交叉验证将采集到的数据分成五个子集,每个子集都作一次测试集,其余4个子集作训练集,重复此流程五次,取五次的平均交叉验证准确率作为模型的评价指标。

Figure 5. Schematic diagram of different actions

图5. 不同动作的示意图

Table 1. Parameter configuration for TI AWR1843 FMCW millimeter-wave radar

表1. TI AWR1843 FMCW毫米波雷达参数配置

5. 实验结果及分析

性能分析

本实验模型训练是在NVIDIA RTX 4090D上进行的,深度学习网络中,各超参数设置如下:batchsize为8,损失函数为交叉熵损失函数,网络的epoch数一共为120。

对于深度学习训练模块,本文结合准确率和混淆矩阵来进行性能分析,如图6所示,随着训练轮次的增加,准确率也在逐步提高,在前30次训练迭代当中,训练准确率跌宕变化明显,而在训练了40个epoch后模型收敛,训练精度和验证精度在99%左右。

Figure 6. Training and validation accuracy plot for VGG16-LSTM-CBAM

图6. VGG16-LSTM-CBAM训练与验证精度图

Figure 7. Confusion matrix for VGG16-LSTM-CBAM

图7. VGG16-LSTM-CBAM混淆矩阵图

图7为VGG16-LSTM-CBAM训练验证时所输出的混淆矩阵图,其中A1~A7分别对应点头、顿头(瞌睡)、左右环视、前后剧烈晃动(急刹)、静止、手部抬起(打电话)、手部平移(抽烟)。由图可见,在模型测试集当中效果最好的是摇头、静止与打电话,三者的准确率都达到了百分之一百,由于点头和顿头动作行为上较为相似,该网络对于这两个动作的识别存在着较小的误差,同时对于抽烟动作与前后剧烈晃动动作也存在着一定的误判。

6. 结论

本文在VGG16-LSTM的基础上,设计了基于VGG16-LSTM-CBAM的驾驶员动作识别方法,通过毫米波雷达采集了人体头部与手部的动作信号并生成多普勒频谱特征图,构建了驾驶动作雷达回波数据集。本文提出的动作识别方法有效的保护了驾驶人员的个人隐私,并在对7种驾驶动作的识别中取得了较为良好的识别精度,在实际应用中具有一定的参考价值。但实验过程中所设计人体动作较为固定和简单,实际场景中将会出现更加复杂的动作干扰,提升检测困难,因此在后续的研究开展中将尝试引入更多复杂的驾驶员驾驶动作,并针对面部特征做进一步的识别检测。

参考文献

[1] 陈婉. 《2019中国主要城市交通分析报告》发布城市交通呈现向好趋势[J]. 环境经济, 2020(6): 48-51.
[2] 徐佩玉. 高阶智驾正走向大众化[N]. 人民日报海外版, 2024-09-11(011).
[3] 陈妍妍, 田大新, 林椿眄, 等. 端到端自动驾驶系统研究综述[J]. 中国图象图形学报, 2024, 29(11): 3216-3237.
[4] 蔡婷,孙云霞. 智慧驾驶应用场景下的新能源汽车导航交互设计策略[J]. 汽车与新动力, 2024, 7(2): 28-31.
[5] 穆高原. 基于深度学习的危险驾驶行为识别研究[D]: [硕士学位论文]. 杭州: 杭州电子科技大学, 2020.
[6] 王子睿. 基于视频的驾驶员行为检测方法研究[D]: [硕士学位论文]. 北京: 华北电力大学, 2022.
[7] 刘玉焘. 基于可穿戴式传感器的人体动作捕获与识别研究[D]: [博士学位论文]. 哈尔滨: 哈尔滨工业大学, 2020.
[8] 熊群芳, 林军, 岳伟, 等. 基于深度学习的驾驶员打电话行为检测方法[J]. 控制与信息技术, 2019(6): 53-56, 62.
[9] 陈思佳, 罗志增. 基于长短时记忆和卷积神经网络的手势肌电识别研究[J]. 仪器仪表学报, 2021, 42(2): 162-170.
[10] 秦康, 张小俊, 张明路, 等. 基于3DCNN的驾驶员细微动作识别[J]. 电子测量技术, 2023, 46(8): 51-58.
[11] 李春贺, 陶帅. 基于多模态信息联合判断的驾驶员危险行为监测系统[J]. 科学技术与工程, 2021, 21(21): 9012-9019.
[12] Liu, J., Tang, Z., Sun, N., Han, G. and Kwong, S. (2020) Visual Privacy-Preserving Level Evaluation for Multilayer Compressed Sensing Model Using Contrast and Salient Structural Features. Signal Processing: Image Communication, 89, Article 115996.
https://doi.org/10.1016/j.image.2020.115996
[13] Lara, O.D. and Labrador, M.A. (2013) A Survey on Human Activity Recognition Using Wearable Sensors. IEEE Communications Surveys & Tutorials, 15, 1192-1209.
https://doi.org/10.1109/surv.2012.110112.00192
[14] Ali, A., Parida, P., Va, V., Ni, S., Nguyen, K.N., Ng, B.L., et al. (2022) End-to-End Dynamic Gesture Recognition Using Mmwave Radar. IEEE Access, 10, 88692-88706.
https://doi.org/10.1109/access.2022.3199411
[15] Govindaraj, V. (2021) Forward Collision Warning System with Visual Distraction Detection in Bikes. University of Twente.
[16] Bresnahan, D.G., Koziol, S. and Li, Y. (2024) Investigation of Patellar Deep Tendon Reflex Using Millimeter-Wave Radar and Motion Capture Technologies. IEEE Access, 12, 9220-9228.
https://doi.org/10.1109/access.2024.3351605
[17] Arsalan, M., Santra, A. and Issakov, V. (2022) Radarsnn: A Resource Efficient Gesture Sensing System Based on Mm-Wave Radar. IEEE Transactions on Microwave Theory and Techniques, 70, 2451-2461.
https://doi.org/10.1109/tmtt.2022.3148403
[18] Arab, H., Ghaffari, I., Chioukh, L., Tatu, S.O. and Dufour, S. (2022) A Convolutional Neural Network for Human Motion Recognition and Classification Using a Millimeter-Wave Doppler Radar. IEEE Sensors Journal, 22, 4494-4502.
https://doi.org/10.1109/jsen.2022.3140787
[19] Gharamohammadi, A., Khajepour, A. and Shaker, G. (2023) In-Vehicle Monitoring by Radar: A Review. IEEE Sensors Journal, 23, 25650-25672.
https://doi.org/10.1109/jsen.2023.3316449
[20] Nguyen, H.N., Lee, S., Nguyen, T. and Kim, Y. (2022) One‐Shot Learning‐Based Driver’s Head Movement Identification Using a Millimetre‐Wave Radar Sensor. IET Radar, Sonar & Navigation, 16, 825-836.
https://doi.org/10.1049/rsn2.12223
[21] Chen, H., Han, X., Hao, Z., Yan, H. and Yang, J. (2023) Non-Contact Monitoring of Fatigue Driving Using FMCW Millimeter Wave Radar. ACM Transactions on Internet of Things, 5, 1-18.
https://doi.org/10.1145/3614442
[22] Chae, R., Wang, A. and Li, C. (2019) FMCW Radar Driver Head Motion Monitoring Based on Doppler Spectrogram and Range-Doppler Evolution. 2019 IEEE Topical Conference on Wireless Sensors and Sensor Networks (WiSNet), Orlando, 20-23 January 2019, 1-4.
https://doi.org/10.1109/wisnet.2019.8711807
[23] Jung, J., Lim, S., Kim, B. and Lee, S. (2021) CNN-Based Driver Monitoring Using Millimeter-Wave Radar Sensor. IEEE Sensors Letters, 5, 1-4.
https://doi.org/10.1109/lsens.2021.3063086
[24] Bresnahan, D.G. and Li, Y. (2021) Classification of Driver Head Motions Using a mm-Wave FMCW Radar and Deep Convolutional Neural Network. IEEE Access, 9, 100472-100479.
https://doi.org/10.1109/access.2021.3096465
[25] 陈爱武. 微多普勒效应分析与应用研究[D]: [硕士学位论文]. 南京: 南京理工大学, 2007.
[26] Simonyan, K. and Zisserman, A. (2014) Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv: 1409. 1556.
https://doi.org/10.48550/arXiv.1409.1556
[27] 杨巨成, 魏峰, 林亮, 等. 驾驶员疲劳驾驶检测研究综述[J]. 山东大学学报(工学版), 2024, 54(2): 1-12.