FM-VXNet:一种基于MVX-Net改进的多模态3D目标检测算法的研究
FM-VXNet: A Study on an Improved Multimodal 3D Object Detection Algorithm Based on MVX-Net
摘要: 多模态3D目标检测通过融合不同模态信息,有效克服了单一模态的局限性,在自动驾驶和机器人导航等领域展现出重要价值。然而,现有方法仍存在图像分支对全局语义的建模能力有限、跨模态融合多依赖简单拼接,未能充分挖掘模态间的互补潜力、点云体素特征在密度分布不均时易受噪声或冗余信息干扰等不足。针对上述问题,本文提出频域多模态体素网络(Frequency-domain Multimodal Voxel Network, FM-VXNet)模型。该模型是基于多模态体素网络(Multimodal Voxel Network, MVX-Net)设计,它包含三个核心模块:(1) 在图像分支中引入频域–空间域融合模块(Frequency and Spatial Fusion Module, FFCM),借助快速傅里叶变换增强全局语义感知能力;(2) 提出双向跨模态门控注意力模块(Bidirectional Cross-Modal Gated Attention, Bi-CMGA),实现图像与点云特征间的双向交互融合,并引入通道级门控机制以抑制噪声干扰,提升融合特征的判别力;(3) 在体素特征编码阶段设计双模态密度感知注意力模块(Bimodal Density-aware Attention, BiDA),通过密度感知与通道重标定机制,有效缓解稀疏体素中的噪声问题和密集体素中的冗余现象。改进后的FM-VXNet算法在KITTI数据集上的实验表明,FM-VXNet在鸟瞰图(BEV)检测任务中,全类平均精度(mean Average Precision, mAP)在简单、中等和困难场景下分别达到96.3%、95.2%和92.9%;在3D检测任务中,mAP分别达到96.2%、88.9%和87.7%,相较BEVFusion、MVX-Net等主流算法平均提升5.7%~8.2%。本研究创新性地引入频域分析、双向门控注意力与密度感知机制,为多模态3D目标检测提供了新的研究思路。
Abstract: Multimodal 3D object detection, by fusing data from different modalities, effectively overcomes the limitations of single-modal approaches and has demonstrated significant value in fields such as autonomous driving and robot navigation. However, current methods still face several shortcomings: the image branch has a limited capacity for global semantic modeling; cross-modal fusion often relies on simple feature concatenation, failing to fully exploit the complementary potential between modalities; and point cloud voxel features are susceptible to noise or redundant information when the density distribution is uneven. To address these issues, this paper proposes the Frequency-domain Multimodal Voxel Network (FM-VXNet). Designed based on the Multimodal Voxel Network (MVX-Net), the model incorporates three core modules: (1) the Frequency and Spatial Fusion Module (FFCM), which leverages the Fast Fourier Transform (FFT) to enhance global semantic perception in the image branch; (2) the Bidirectional Cross-Modal Gated Attention (Bi-CMGA) module, which enables bidirectional interactive fusion between image and point cloud features and introduces a channel-wise gating mechanism to suppress noise and improve the discriminative power of the fused features; (3) the Bimodal Density-aware Attention (BiDA) module, which operates during the voxel feature encoding stage and effectively mitigates noise in sparse voxels and redundancy in dense voxels through density-aware and channel re-calibration mechanisms. Experiments on the KITTI dataset show that the enhanced FM-VXNet algorithm achieves mean Average Precision (mAP) scores of 96.3%, 95.2%, and 92.9% for the Bird’s Eye View (BEV) detection task under easy, moderate, and hard settings, respectively. For the 3D detection task, it achieves mAP scores of 96.2%, 88.9%, and 87.7% across the respective difficulty levels, outperforming state-of-the-art methods like BEV Fusion and MVX-Net by an average of 5.7% to 8.2%. This research innovatively introduces frequency-domain analysis, bidirectional gated attention, and density-aware mechanisms, offering a new direction for multimodal 3D object detection research.
文章引用:郑广海, 张薇, 张倩. FM-VXNet:一种基于MVX-Net改进的多模态3D目标检测算法的研究[J]. 计算机科学与应用, 2025, 15(11): 143-155. https://doi.org/10.12677/csa.2025.1511292

1. 引言

随着3D传感技术的发展,3D目标检测在自动驾驶、机器人导航等领域的需求日益迫切。激光雷达与相机作为主流感知设备各具优势:激光雷达能提供精确的三维几何信息,但存在稀疏性和高成本的局限;相机可捕获丰富的纹理与语义特征,但其深度感知能力较弱且易受环境影响[1]-[3]。因此,融合两种模态数据以突破单模态局限,成为提升3D目标检测性能的关键,对推动自动驾驶感知系统实用化具有重要意义[4] [5]

现有研究主要围绕单模态优化与多模态融合两个方向展开。在激光雷达方面,研究者们提出了点云稀疏补全[6]、半监督域自适应[7]、轻量化网络设计[8]及去噪技术[9]等方法以提升性能。在相机方面,工作重点包括引入深度感知Transformer [10]、几何一致性约束[11]、去噪自编码器[12]、无监督域适应[13]以及轻量化和恶劣天气下的鲁棒性研究[14] [15]。多模态融合方面,早期研究如MVX-Net [16]通过体素或点级融合实现多模态交互;近期方法则探索了合作感知[17]、遮挡感知融合[18]、跨模态与跨尺度平衡[19]等多种策略。然而,这些方法在全局语义建模、跨模态交互机制和体素特征鲁棒性方面存在共性瓶颈。现有方法存在三方面不足:一是图像特征提取依赖卷积操作,缺乏全局语义建模能力,难以捕获长程依赖;二是跨模态融合多采用简单拼接或静态加权,无法动态挖掘模态间互补信息;三是点云体素特征受密度不均影响,稀疏体素易引入噪声,密集体素存在冗余,导致特征判别性低。

综上所述,这些不足共同构成了当前多模态3D检测性能提升的主要瓶颈。为了解决上述问题,本文提出一种兼顾全局特征建模与双向跨模态融合的多模态3D目标检测模型,对推动自动驾驶感知系统的实用化具有重要意义。本文提出FM-VXNet模型,引入FFCM模块:将频域建模引入多模态3D检测的图像分支,通过FFT实现全局语义捕获,弥补卷积网络的长程依赖缺陷,尤其提升远距离、遮挡目标的表征能力;设计Bi-CMGA模块:构建双向跨模态注意力交互与门控融合机制,动态平衡相机与点云的模态贡献,解决传统拼接方法的信息丢失问题;提出BiDA模块:在VFE阶段引入密度感知双重注意力,分别处理稀疏体素噪声与密集体素冗余,提升LiDAR点云体素特征的判别性。

2. 相关工作与基线模型分析(MVX-Net模型)

本节首先简要综述多模态融合的典型思路,并重点分析本文的基线模型MVX-Net。该模型的PointFusion策略是本研究的起点,但其局限性也直接引出了本文的创新方向。MVX-Net [16]是早期多模态3D检测的经典框架,通过扩展VoxelNet架构,实现LiDAR点云与相机特征的早期融合。其核心优势在于单阶段检测效率与多模态早期交互。MVX-Net通过PointFusion与VoxelFusion两种方式实现多模态融合,本文以PointFusion为基础进行改进,其架构如图1所示。

Figure 1. MVX-Net model diagram

1. MVX-Net模型图

在图像特征提取模块,采用预训练的Faster R-CNN (ResNet-50 + FPN)作为2D检测器,从RGB图像中提取高层语义特征图(conv5层,256维)。通过相机内外参矩阵,将LiDAR点云投影至2D图像平面,获取每个3D点对应的像素坐标,进而采样图像特征向量,实现“点–像素”特征关联。点云特征增强模块:原始LiDAR点云以三维坐标(x, y, z)表示,将每个点的坐标特征(3维)与对应的图像语义向量(256维)逐点拼接,形成259维增强特征。若多个点投影至同一像素,共享该像素的图像特征,减少计算冗余,但可能降低局部区分度。多模态融合检测模块:将增强点云划分为均匀体素网格(0.2 m × 0.2 m × 0.2 m),每个体素内的点通过VFE层提取局部特征(如均值、最大值);通过3D卷积聚合体素级全局特征,生成BEV特征图;基于BEV特征图生成3D候选框,通过分类与回归头输出检测结果。

然而,作为早期工作,MVX-Net仍存在明显的局限性,这些局限性也正是本文旨在解决的核心问题:在图像特征提取方面,其依赖于基于CNN的ResNet-50主干网络,CNN擅长捕获局部特征,但由于感受野有限,难以建模全局长程依赖,从而导致远距离或被遮挡目标的特征表征不足。在跨模态融合方面,MVX-Net仅采用“坐标特征 + 图像特征”的逐点拼接策略,未能显式考虑LiDAR点云的几何结构与相机的语义特性差异,容易丢失关键的互补信息。在体素特征建模方面,其VFE层仅对体素内点进行统计聚合,缺乏对体素密度差异的建模能力:稀疏体素易受噪声干扰,而密集体素则存在冗余信息,从而降低了特征判别性。针对上述不足,本文提出FM-VXNet模型,并通过FFCM、Bi-CMGA与BiDA三个创新模块实现全面改进。

综上所述,MVX-Net作为多模态融合的早期代表,其存在的三方面局限性恰恰对应了第1节所提出的当前领域面临的共性挑战:其一,其基于CNN的图像特征提取模块缺乏全局语义建模能力,对应引言中所述“图像分支全局建模不足”的问题;其二,其采用简单的点级拼接融合策略,未能实现模态间的深度互补,对应跨模态融合简单的问题;其三,其VFE层“对体素密度变化不敏感,对应体素特征鲁棒性差”的问题。这些局限性为本研究的改进提供了明确的方向。因此,本文在第3节提出FM-VXNet模型,旨在通过FFCM、Bi-CMGA和BiDA三个模块分别针对上述问题予以系统性解决。

3. FM-VXNet网络

FM-VXNet基于MVX-Net的PointFusion策略进行改进,其整体架构如图2所示,主要包含四个部分:图像特征提取分支(ResNet-50 + FFCM + FPN)、LiDAR点云特征处理分支(体素化 + BiDA + VFE)、跨模态融合模块(Bi-CMGA)与3D检测头(SECOND + 3D Region Proposal Network, 3DRPN)。以下将详细阐述三个核心模块的设计动机与具体结构。

Figure 2. FM-VXNet network architecture

2. FM-VXNet网络架构

本研究的三个模块分别针对第1节分析的三个核心问题:首先,针对图像全局建模不足的问题,MVX-Net的ResNet-50分支依赖局部卷积,难以捕获图像的长程语义(如远距离目标的上下文关联、遮挡区域的语义补全)。因此,本文引入FFCM模块,通过FFT将图像特征映射至频域,实现全局结构建模,同时保留局部空间细节,形成“全局–局部”互补特征。其次,针对跨模态融合简单的问题,MVX-Net的PointFusion采用“点云特征 + 图像特征”逐点拼接,未考虑模态差异:LiDAR点云擅长几何定位,相机擅长语义分类,简单拼接易导致“模态主导”(如近距场景点云主导,远距场景图像主导),丢失互补信息。为此,本文提出Bi-CMGA模块,通过双向注意力交互与门控融合,动态平衡模态贡献。最后,针对体素特征鲁棒性问题,MVX-Net的VFE层仅对体素内点进行统计聚合(如max-pooling),未处理体素密度差异稀疏体素(如远距离目标)易受噪声点干扰,密集体素(如近距目标)易引入冗余信息,导致特征判别性低。相应地,借鉴C2BG-Net [20]的LGVAE全局聚合思想,本文提出BiDA模块,在VFE前后分别引入密度门控与通道重标定,提升体素特征鲁棒性。

3.1. FFCM模块

FFCM模块旨在解决图像分支全局语义建模能力不足的问题。该模块嵌入ResNet-50的C2~C5层,与卷积分支形成残差融合,FFCM模块结构如图3所示。在局部空间特征提取:输入特征经逐点卷积(Pointwise Convolution, PConv)压缩通道后,分为两路深度可分离卷积(DConv3 × 3、5 × 5),分别捕获不同感受野的局部细节;两路特征经GeLU激活与PConv处理后拼接,得到多尺度局部特征。全局频域特征建模:拼接后的局部特征通过2DFFT映射至频域,经PConv学习通道间全局依赖,再通过批归一化(BN)与ReLU激活增强表达;最后通过逆FFT (iFFT)将频域特征映射回空间域,以实现全局频域特征建模。最后,全局频域特征与局部空间特征以残差形式相加,经PConv进一步融合,输出兼具全局语义与局部细节的图像特征并与C2~C5特征进行融合。这样既保证了局部几何信息的保留,又显式增强了全局语义建模能力,从而显著改善了图像分支对远距和遮挡目标的表征能力,并在多模态融合阶段提供更判别、更鲁棒的图像特征。

Figure 3. FFCM module structure diagram

3. FFCM模块结构

设输入图像特征为 X in H×W×C (HW为特征图尺寸,C为通道数),FFCM的核心过程可表达如下:

1) 局部特征提取:

F local 1 = DConv 3×3 ( PConv( X in ) ) (1)

F local 2 = DConv 5×5 ( PConv( X in ) ) (2)

F local =PConv( Concat( F local 1 , F local 2 ) ) (3)

2) 频域全局建模:

F freq =( F local ) (4)

F freq =PConv( ReLU( BN( F freq ) ) ) (5)

F global = 1 ( F freq ) (6)

3) 残差融合:

X out =PConv( F local + F global )+ X in (7)

其中 X out 为FFCM输出特征,残差项确保 X in 原始卷积特征不丢失。

与MVX-Net只利用ResNet-50提取图像特征相比,引入FFCM既保证局部几何信息,又增强全局语义建模能力,从而有效解决图像分支长程依赖缺失的问题,显著改善了图像分支对远距和遮挡目标的表征能力。

3.2. BiDA模块

BiDA模块旨在提升点云体素特征在密度不均场景下的鲁棒性和判别性。该模块嵌入LiDAR点云特征处理分支,分为“逐点增强”(VFE前)与“体素重标定”(VFE后)两阶段,如图4所示。逐点增强(VFE前):对每个LiDAR点云,通过两层线性变换投影至“语义子空间”,增强特征表达;计算点所属体素的密度(体素内点数),经log压缩与Sigmoid生成密度门控标量,抑制稀疏体素的噪声干扰;密度门控与语义子空间特征逐通道相乘,实现“密度自适应”的逐点增强。体素重标定(VFE后):对VFE输出的体素特征,沿通道轴施加1D局部卷积,捕获通道间局部依赖;卷积结果经Sigmoid生成通道门控向量,动态突出关键通道(如几何特征通道),抑制冗余通道;通道门控与原始体素特征逐通道相乘,实现体素级特征重标定。

Figure 4. BiDA module framework

4. BiDA模块框架

设第i个点的输入特征记为 f i C in 可由坐标、反射强度及先验编码拼接得到),BiDA的过程可以表达如下:

1) VFE之前:逐点增强。

(a) 归一化与两层仿射–非线性变换(“语义”子空间投影):

s i =tanh( Linear 2 ( GELU( Linear 1 ( LN( f i ) ) ) ) ) (8)

(b) 对体素密度 N v 做对数压缩后经Sigmoid得到标量门控,并在通道维广播至C维::

d v =σ( log( N v +1 ) ) (9)

d ˜ i = Broadcast C ( d v ) (10)

其中, d v 表示密度门控标量, d ˜ i 表示 d v 在通道维的广播。该门控用于在稀疏/密集体素间自适应调节增益强度,避免稀疏噪声被放大。

(c) 逐通道残差加权(乘性)将“语义”向量与密度门控耦合得到逐点的通道增益,并以残式乘性方式施加到原始特征:

m i =α( s i ( 1+β d ˜ i ) ) (11)

f ˜ i = f i ( 1+ m i ) (12)

其中 α 在实验中设置为0.1, β 为1.0,两者用于控制语义与密度两路增益的幅度; f ˜ i 为为逐点增强后的输出。

2) VFE之后

为在通道轴刻画局部相互作用,对VFE输出体素特征 V C 施加同长一维卷积并经Sigmoid生成通道门控:

g channel =σ( Conv1D( V,k ) ) (13)

其中卷积核长度为k (本文设置为3),边界按零填充处理。最后以残差乘性方式对通道进行重标定,突出几何判别通道、抑制冗余响应:

V =V( 1+γ g channel ) (14)

其中, V 为VFE之后的体素级重标定输出; γ 控制通道门控注入强度,在本文设置为0.5。

BiDA通过“密度门控 + 通道重标定”双重机制,有效解决了VFE层的固有缺陷:a) 稀疏体素鲁棒性:密度门控抑制噪声点影响,提升远距离目标的特征质量;b) 密集体素判别性:通道重标定突出关键几何特征,减少冗余信息,提升近距目标的分类精度。

3.3. Bi-CMGA模块

Bi-CMGA模块旨在实现精细化的跨模态融合,以替代简单的特征拼接。该模块将来自图像分支FPN模块中的特征与BiDA输出的点云特征进行跨模态融合,其结构如图5所示。Bi-CMGA将FPN输出的多尺度图像特征(P2~P6)通过双线性插值统一至点云特征分辨率,得到图像语义向量 F i N×C (N为点云数量,C为通道数);点云特征经BiDA增强后为 F p N×C ;双向注意力交互中,点云到图像注意力以点云特征为查询,图像特征为键值,计算注意力权重,为点云补充语义信息;图像到点云注意力以图像特征为查询,点云特征为键值,计算注意力权重,为图像补充几何信息;门控融合引入通道级门控函数,动态加权两路注意力输出,抑制噪声模态(如遮挡场景抑制点云,增强图像);残差注入融合特征以残差形式注入点云特征,保留原始几何信息,输出最终跨模态特征 fusio n L+C

Figure 5. Bi-CMGA module framework

5. Bi-CMGA模块框架

Bi-CMGA的过程可以表达如下:

设对齐后的图像特征 F i N×C ,点云特征 F p N×C ,Bi-CMGA过程如下:

1) 双向注意力计算:

A p2i =Softmax( Q p K i T d ) (15)

F p2i = A p2i V i (16)

A i2p =Softmax( Q i K p T d ) (17)

F i2p = A i2p V p (18)

其中 Q p = F p W p K i = F i W k V i = F i W v ,同理可得 Q i K p V p

2) 门控融合:

g=σ( Linear( Concat( F p2i , F i2p ) ) ) (19)

F fuse =g F p2i +( 1g ) F i2p (20)

3) 残差注入:

fusio n L+C = F p +γ F fuse (21)

其中,d为键向量的维度。 γ 为超参数(本文设置为0.5),控制融合强度, fusio n L+C 为最终跨模态特征。

与传统拼接及静态加权相比,Bi-CMGA具有显著优势:a) 双向交互:点云与图像的双向注意力,充分挖掘互补信息,解决了简单拼接信息丢失问题;b) 动态门控:通道级门控函数适配复杂场景(如遮挡、远距),平衡模态贡献;c) 几何保留:残差注入确保点云原始几何信息不丢失,提升定位精度

4. 实验与结构分析

4.1. 实验细节

实验硬件平台配置为计算节点搭载两颗Intel Xeon Gold 6330 CPU@ 2.0 GHz (总计56核心)及256 GB DDR4内存;GPU加速单元采用2张NVIDIA GeForce RTX 4090D显卡(总计显存48 GB),通过PCIe 4.0 x16互联;软件环境基于PyTorch 1.11.0框架,CUDA 11.3及Python 3.8。训练阶段设置批量大小(batch_size)为16,训练轮数(epoch)为200,初始学习率为0.01并采用余弦退火策略衰减至1 × 106。输入图像尺寸统一调整为640 × 640像素,点云体素化网格大小设为0.2 m × 0.2 m × 0.2 m。

4.2. 数据集与评估指标

本研究选用KITTI数据集开展实验评估,该数据集包含7481个训练样本以及7518个测试样本,并依据检测难度划分为简单、中等、困难三个级别。为了更科学地评估模型性能,按惯例将训练集划分为3712个样本用于训练,3769个样本用于验证。在实验过程中,采用平均精度(mAP)作为核心指标,BEV检测与3D检测的IoU阈值均设为0.7。

4.3. 对比实验

为验证FM-VXNet的性能优势,本文在KITTI数据集的汽车类别上与19种主流方法进行对比,涵盖单模态(仅相机C、仅激光雷达L)和多模态(C + L)两类方案,结果如表1所示。单模态方法对比:仅依赖相机的方法(如MMono3D [10]、3DOP [21])受限于深度信息缺失,BEV和3D检测mAP均显著低于多模态方法,其中MMono3D [10]在BEV简单场景下mAP仅5.22%,验证了单相机模态的固有局限。仅依赖激光雷达的方法(如PV-RCNN [22]、Voxel-RCNN [23])通过高精度几何信息实现了较高检测性能,PV-RCNN [22]的BEV中等场景mAP达91.1%,3D中等场景mAP达84.8%,但受限于语义信息不足,在复杂遮挡场景下性能仍有提升空间。多模态方法对比:早期多模态方法如MV3D [24]通过简单特征拼接实现融合,BEV中等场景mAP为78.1%,3D中等场景mAP为62.7%,性能受限明显。FM-VXNet的基准模型MVX-Net (PF) [16]通过PointFusion实现点云与图像特征的早期融合,BEV中等场景mAP提升至84.9%,3D中等场景mAP达73.3%,但因缺乏全局语义建模和动态融合机制,与当前最优方法仍有差距。近年来的多模态优化方法中,GraphAlign [20]通过图对齐机制增强跨模态关联,BEV中等场景mAP达92.8%;SSLFusion [25]引入自监督学习优化特征一致性,3D简单场景mAP达94.1%;DVF [26]通过动态体积融合提升BEV检测性能,简单场景mAP达96.2%然而,在困难场景下,这些方法的性能仍有提升空间。DVF [26]的BEV困难场景mAP为89.2%,3D困难场景mAP为83.1%。

实验结果表明,FM-VXNet在所有评估场景下均达到了最先进的性能,BEV检测中简单/中等/困难场景mAP分别为96.3%/95.2%/92.9%,3D检测中分别为96.2%/88.9%/87.7%。与主流多模态方法相比,平均提升5.7%~8.2%:较MVX-Net (PF) [16]的BEV中等场景提升10.3%,3D中等场景提升15.6%;较BEVFusion [27]的3D中等场景相对性提升4.1%,困难场景提升5.4%。FM-VXNet的性能优势主要源于其更精细的融合策略(Bi-CMGA)和更强的噪声抑制能力(BiDA与FFCM协同),使其在复杂场景下能更有效地利用互补信息。尤其在困难场景(如远距离、遮挡目标)中,FM-VXNet的BEV和3D检测mAP分别超出次优方法(GraphAlign [20]) 1.5%和3.0%。这一结果验证了FFCM模块的全局语义建模、Bi-CMGA模块的动态融合以及BiDA模块的体素优化的协同作用,表明本模型能更有效地处理复杂场景下的感知挑战。

实验结果表明,FM-VXNet通过三大模块的创新设计,有效弥补了现有方法在全局语义捕获、跨模态互补信息挖掘以及体素特征鲁棒性方面的不足,在复杂交通场景中展现出更优的检测精度和鲁棒性,为自动驾驶多模态感知提供了高效解决方案。

在3D检测任务中,FM-VXNet同样表现优异,其mAP分别为96.2%、88.9%和87.7%,较MVX-Net (PF) [16] (85.5%/73.3%/67.4%)提升显著,尤其在中等和困难场景下优势更为明显。这表明FFCM模块的频域全局建模、Bi-CMGA模块的双向门控融合以及BiDA模块的密度感知机制有效协同,增强了模型对复杂场景(如遮挡、远距离、点云稀疏)的适应能力。同时,FM-VXNet在多模态融合方法中取得了当前最佳性能,验证了其在语义–几何互补性挖掘与噪声抑制方面的优势。可视化结果如图6所示,进一步展示了FM-VXNet在复杂场景(如遮挡、远距离)下的检测效果,该模型能够实现更精确的目标定位与分类,即使在点云极为稀疏的区域也保持了良好的鲁棒性。

将FM-VXNet与主流方法在KITTI测试集上对比,结果如表1所示。

Table 1. Comparison of the improved models

1. 改进后的模型对比

在汽车类别上(0.7-0.5-0.5)

AP-BEV

AP-3D

模型

模态类型

easy

moderate

hard

easy

moderate

hard

MMono3D

C

5.22

5.19

4.13

2.53

2.31

2.31

3DOP

C

12.6

9.49

7.5

6.55

5.07

4.1

VeloFCN

C

40.1

32

30.4

15.2

13.6

15.9

MV3D

C

86.2

77.3

76.3

71.2

56.6

55.3

VoxelNet

C

89.6

84.8

78.6

82

65.5

62.9

MV3D

C + L

86.6

78.1

76.7

71.3

62.7

56.6

F-PointNet

C + L

88.2

84

76.4

83.8

70.9

63.7

MVX-Net (VF)

C + L

88.6

84.6

78.6

82.3

72.2

66.8

MVX-Net (PF)

C + L

89.5

84.9

79

85.5

73.3

67.4

PointRCNN

L

88.9

78.6

77.4

PV-RCNN

L

95.8

91.1

88.9

92.6

84.8

82.7

VoxeI-RCNN

L

95.5

91.3

89

92.4

85.3

82.9

M3DETR

L

92.3

85.4

82.9

Octr

L

89.8

87

79.3

CLOCs

C + L

93.5

92

89.5

92.8

85.9

83.3

CAT-Det

C + L

90.1

81.5

79.3

DVF

C + L

96.2

91.7

89.2

93.1

85.8

83.1

MLF-Det

C + L

89.7

87.3

79.3

GraphAlign

C + L

95.7

92.8

91.4

92.4

87

84.7

SSLFusion

C + L

95.6

91.6

91.4

94.1

85.7

85.4

Ours

C + L

96.3

95.2

92.9

96.2

88.9

87.7

Figure 6. Example of FM-VXNet detection visualization

6. FM-VXNet检测可视化示例

4.4. 消融实验

为验证各模块的独立贡献与协同作用,本研究以MVX-Net (PointFusion)为基线,在KITTI数据集上逐步引入BiDA、FFCM与Bi-CMGA模块,并评估不同组合下的检测性能(见表2)。

单模块结果表明,BiDA在hard场景下提升最为显著(AP-3D由67.4%提高至84.6%,+17.2%),说明其密度感知机制能有效缓解远距稀疏体素的噪声干扰;FFCM在moderate/hard场景分别提升13.3%和17.6% (由73.3%/67.4%提高至86.6%/85.0%),验证频域–空间融合显著增强了图像分支的全局语义建模;Bi-CMGA在各指标上均取得最优的单模块表现(AP-3D moderate达87.7%),体现了双向跨模态注意力在语义与几何互补中的有效性。

两两组合进一步揭示了模块间的互补特性。BiDA + FFCM(a + b)在3D检测moderate/hard提升至87.1%/86.0%,相较单模块最高值(86.6%/85.0%)分别提高约0.5%~1.0%,表明几何净化与全局语义增强的结合能显著提升复杂场景的鲁棒性;BiDA + Bi-CMGA(a + c)获得最高的组合性能(3D moderate/hard: 88.5%/87.3%),较单独Bi-CMGA提高约0.8%~0.9%,说明“净化后融合”的策略能有效强化跨模态交互;FFCM + Bi-CMGA (b + c)亦取得显著增益(3D moderate/hard: 88.4%/87.1%),但受稀疏噪声影响略低于a + c。

当三者联合使用(a + b + c, FM-VXNet)时,模型在所有指标上均达到最优(BEV moderate: 95.2%, 3D moderate: 88.9%),相较a + c进一步提升0.4%。结果表明,FFCM、BiDA与Bi-CMGA在几何稳定、语义一致性与跨模态融合三方面形成递进式协同,从而实现多模态3D检测性能的系统性提升。

Table 2. Ablation experiment

2. 消融实验

AP-BEV

AP-3D

easy

moderate

hard

easy

moderate

hard

Baseline

89.5

84.9

79

85.5

73.3

67.4

a (Baseline + BiDA)

95.1

93.7

91.3

94.7

86.2

84.6

b (Baseline + FFCM)

94.9

93.9

91.5

94.5

86.6

85.0

c (Baseline + Bi-CMGA)

95.7

94.6

92.1

95.5

87.7

86.4

a + b (BiDA + FFCM)

95.6

94.4

91.9

95.4

87.1

86.0

a + c (BiDA + Bi-CMGA)

96.1

95.0

92.6

96.0

88.5

87.3

b + c (FFCM + Bi-CMGA)

96.0

94.9

92.5

95.8

88.4

87.1

a + b + c (Ours, FM-VXNet)

96.3

95.2

92.9

96.2

88.9

87.7

5. 结论与展望

本文针对多模态3D目标检测中图像全局建模不足、跨模态融合简单、体素特征鲁棒性差这三个核心问题,提出了FM-VXNet模型,该模型通过引入FFCM模块,并精心设计了Bi-CMGA和BiDA模块,分别从图像特征提取、跨模态融合以及LiDAR点云体素特征优化三个关键层面,对多模态3D目标检测任务进行了全面改进。在KITTI数据集上的实验结果充分表明,FM-VXNet在性能上显著超越MVX-Net、BEVFusion等现有主流方法,为多模态3D目标检测领域提供了一种创新且高效的解决方案。未来工作将集中于以下方面:一是探索端到端训练策略,进一步提升模型效率与精度;二是将模型扩展至更复杂的多类别目标检测任务中。

NOTES

*通讯作者。

参考文献

[1] 顾芳铭, 况博裕, 许亚倩, 等. 面向自动驾驶感知系统的对抗样本攻击研究综述[J]. 信息安全研究, 2024, 10(9): 786-794.
[2] 尹彦鑫, 孟志军, 赵春江, 等. 大田无人农场关键技术研究现状与展望[J]. 智慧农业(中英文), 2022, 4(4): 1-25.
[3] 王若萱, 吴建平, 徐辉. 自动驾驶汽车感知系统仿真的研究及应用综述[J]. 系统仿真学报, 2022, 34(12): 2507-2521.
[4] 魏海跃, 杨奎河. 自动驾驶场景下的多模态3D目标检测算法[J]. 长江信息通信, 2024, 37(6): 28-30.
[5] 代振钊. 面向自动驾驶的多模态融合感知技术研究[D]: [硕士学位论文]. 北京: 北方工业大学, 2024.
[6] Liu, C., Gao, C., Liu, F., Liu, J., Meng, D. and Gao, X. (2022) SS3D: Sparsely-Supervised 3D Object Detection from Point Cloud. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 8418-8427. [Google Scholar] [CrossRef
[7] Wang, Y., Yin, J., Li, W., Frossard, P., Yang, R. and Shen, J. (2023) SSDA3D: Semi-Supervised Domain Adaptation for 3D Object Detection from Point Cloud. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 2707-2715. [Google Scholar] [CrossRef
[8] Bai, Z., Wu, G., Barth, M.J., Liu, Y., Sisbot, E.A. and Oguchi, K. (2023) VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection. Mechanical Systems and Signal Processing, 204, Article 110723. [Google Scholar] [CrossRef
[9] Xu, W., Jin, J., Xu, F., Li, Z. and Tao, C. (2023) Denoising and Reducing Inner Disorder in Point Clouds for Improved 3D Object Detection in Autonomous Driving. Electronics, 12, Article 2364. [Google Scholar] [CrossRef
[10] Huang, K.C., Wu, T.H., Su, H.T., et al. (2022) MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 4002-4011. [Google Scholar] [CrossRef
[11] Lian, Q., Ye, B., Xu, R., Yao, W. and Zhang, T. (2022) Exploring Geometric Consistency for Monocular 3D Object Detection. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 1675-1684. [Google Scholar] [CrossRef
[12] Nakatsuka, C. and Komorita, S. (2021) Denoising 3D Human Poses from Low-Resolution Video Using Variational Autoencoder. 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Prague, 27 September-1 October 2021, 4625-4630. [Google Scholar] [CrossRef
[13] Zhang, C., Chen, W., Wang, W. and Zhang, Z. (2024) MA-ST3D: Motion Associated Self-Training for Unsupervised Domain Adaptation on 3D Object Detection. IEEE Transactions on Image Processing, 33, 6227-6240. [Google Scholar] [CrossRef] [PubMed]
[14] Li, P. and Jin, J. (2022) Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 3875-3884. [Google Scholar] [CrossRef
[15] Zhang, C., Wang, H., Cai, Y., Chen, L., Li, Y., Sotelo, M.A., et al. (2022) Robust-FusionNet: Deep Multimodal Sensor Fusion for 3-D Object Detection under Severe Weather Conditions. IEEE Transactions on Instrumentation and Measurement, 71, 1-13. [Google Scholar] [CrossRef
[16] Sindagi, V.A., Zhou, Y. and Tuzel, O. (2019) MVX-Net: Multimodal VoxelNet for 3D Object Detection. 2019 International Conference on Robotics and Automation (ICRA), Montreal, 20-24 May 2019, 7276-7282. [Google Scholar] [CrossRef
[17] Xia, B., Zhou, J., Kong, F., You, Y., Yang, J. and Lin, L. (2024) Enhancing 3D Object Detection through Multi-Modal Fusion for Cooperative Perception. Alexandria Engineering Journal, 104, 46-55. [Google Scholar] [CrossRef
[18] Chu, H., Liu, H., Zhuo, J., Chen, J. and Ma, H. (2024) Occlusion-Guided Multi-Modal Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection. Pattern Recognition, 157, Article 110939. [Google Scholar] [CrossRef
[19] Ding, B., Xie, J., Nie, J., Wu, Y. and Cao, J. (2024) C2BG-Net: Cross-Modality and Cross-Scale Balance Network with Global Semantics for Multi-Modal 3D Object Detection. Neural Networks, 179, Article 106535. [Google Scholar] [CrossRef] [PubMed]
[20] Song, Z., Wei, H., Bai, L., Yang, L. and Jia, C. (2023) GraphAlign: Enhancing Accurate Feature Alignment by Graph Matching for Multi-Modal 3D Object Detection. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, 1-6 October 2023, 3335-3346. [Google Scholar] [CrossRef
[21] Chen, X., Kundu, K., Zhu, Y., et al. (2015) 3D Object Proposals for Accurate Object Class Detection. Advances in Neural Information Processing Systems, Montreal, 7-12 December 2015, 424-432.
[22] Shi, S., Guo, C., Jiang, L., Wang, Z., Shi, J., Wang, X., et al. (2020) PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10526-10535. [Google Scholar] [CrossRef
[23] Deng, J., Shi, S., Li, P., Zhou, W., Zhang, Y. and Li, H. (2021) Voxel R-CNN: Towards High Performance Voxel-Based 3D Object Detection. Proceedings of the AAAI Conference on Artificial Intelligence, 35, 1201-1209. [Google Scholar] [CrossRef
[24] Chen, X.Z., Ma, H.M., Wan, J., Li, B., et al. (2017) Multi-View 3D Object Detection Network for Autonomous Driving. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6526-6534. [Google Scholar] [CrossRef
[25] Ding, B., Xie, J., Nie, J. and Cao, J. (2025) SSLFusion: Scale and Space Aligned Latent Fusion Model for Multimodal 3D Object Detection. Proceedings of the AAAI Conference on Artificial Intelligence, 39, 2735-2743. [Google Scholar] [CrossRef
[26] Li, Z., Gu, J., Li, K., et al. (2023) DVF: Dynamic Voxel Fusion for 3D Object Detection in Point Clouds. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, 17-24 June 2023, 17580-17589.
[27] Liu, Z., Tang, H., Amini, A., et al. (2022) BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework. Advances in Neural Information Processing Systems, 35, 10421-10434.