1. 引言
随着3D传感技术的发展,3D目标检测在自动驾驶、机器人导航等领域的需求日益迫切。激光雷达与相机作为主流感知设备各具优势:激光雷达能提供精确的三维几何信息,但存在稀疏性和高成本的局限;相机可捕获丰富的纹理与语义特征,但其深度感知能力较弱且易受环境影响[1]-[3]。因此,融合两种模态数据以突破单模态局限,成为提升3D目标检测性能的关键,对推动自动驾驶感知系统实用化具有重要意义[4] [5]。
现有研究主要围绕单模态优化与多模态融合两个方向展开。在激光雷达方面,研究者们提出了点云稀疏补全[6]、半监督域自适应[7]、轻量化网络设计[8]及去噪技术[9]等方法以提升性能。在相机方面,工作重点包括引入深度感知Transformer [10]、几何一致性约束[11]、去噪自编码器[12]、无监督域适应[13]以及轻量化和恶劣天气下的鲁棒性研究[14] [15]。多模态融合方面,早期研究如MVX-Net [16]通过体素或点级融合实现多模态交互;近期方法则探索了合作感知[17]、遮挡感知融合[18]、跨模态与跨尺度平衡[19]等多种策略。然而,这些方法在全局语义建模、跨模态交互机制和体素特征鲁棒性方面存在共性瓶颈。现有方法存在三方面不足:一是图像特征提取依赖卷积操作,缺乏全局语义建模能力,难以捕获长程依赖;二是跨模态融合多采用简单拼接或静态加权,无法动态挖掘模态间互补信息;三是点云体素特征受密度不均影响,稀疏体素易引入噪声,密集体素存在冗余,导致特征判别性低。
综上所述,这些不足共同构成了当前多模态3D检测性能提升的主要瓶颈。为了解决上述问题,本文提出一种兼顾全局特征建模与双向跨模态融合的多模态3D目标检测模型,对推动自动驾驶感知系统的实用化具有重要意义。本文提出FM-VXNet模型,引入FFCM模块:将频域建模引入多模态3D检测的图像分支,通过FFT实现全局语义捕获,弥补卷积网络的长程依赖缺陷,尤其提升远距离、遮挡目标的表征能力;设计Bi-CMGA模块:构建双向跨模态注意力交互与门控融合机制,动态平衡相机与点云的模态贡献,解决传统拼接方法的信息丢失问题;提出BiDA模块:在VFE阶段引入密度感知双重注意力,分别处理稀疏体素噪声与密集体素冗余,提升LiDAR点云体素特征的判别性。
2. 相关工作与基线模型分析(MVX-Net模型)
本节首先简要综述多模态融合的典型思路,并重点分析本文的基线模型MVX-Net。该模型的PointFusion策略是本研究的起点,但其局限性也直接引出了本文的创新方向。MVX-Net [16]是早期多模态3D检测的经典框架,通过扩展VoxelNet架构,实现LiDAR点云与相机特征的早期融合。其核心优势在于单阶段检测效率与多模态早期交互。MVX-Net通过PointFusion与VoxelFusion两种方式实现多模态融合,本文以PointFusion为基础进行改进,其架构如图1所示。
Figure 1. MVX-Net model diagram
图1. MVX-Net模型图
在图像特征提取模块,采用预训练的Faster R-CNN (ResNet-50 + FPN)作为2D检测器,从RGB图像中提取高层语义特征图(conv5层,256维)。通过相机内外参矩阵,将LiDAR点云投影至2D图像平面,获取每个3D点对应的像素坐标,进而采样图像特征向量,实现“点–像素”特征关联。点云特征增强模块:原始LiDAR点云以三维坐标(x, y, z)表示,将每个点的坐标特征(3维)与对应的图像语义向量(256维)逐点拼接,形成259维增强特征。若多个点投影至同一像素,共享该像素的图像特征,减少计算冗余,但可能降低局部区分度。多模态融合检测模块:将增强点云划分为均匀体素网格(0.2 m × 0.2 m × 0.2 m),每个体素内的点通过VFE层提取局部特征(如均值、最大值);通过3D卷积聚合体素级全局特征,生成BEV特征图;基于BEV特征图生成3D候选框,通过分类与回归头输出检测结果。
然而,作为早期工作,MVX-Net仍存在明显的局限性,这些局限性也正是本文旨在解决的核心问题:在图像特征提取方面,其依赖于基于CNN的ResNet-50主干网络,CNN擅长捕获局部特征,但由于感受野有限,难以建模全局长程依赖,从而导致远距离或被遮挡目标的特征表征不足。在跨模态融合方面,MVX-Net仅采用“坐标特征 + 图像特征”的逐点拼接策略,未能显式考虑LiDAR点云的几何结构与相机的语义特性差异,容易丢失关键的互补信息。在体素特征建模方面,其VFE层仅对体素内点进行统计聚合,缺乏对体素密度差异的建模能力:稀疏体素易受噪声干扰,而密集体素则存在冗余信息,从而降低了特征判别性。针对上述不足,本文提出FM-VXNet模型,并通过FFCM、Bi-CMGA与BiDA三个创新模块实现全面改进。
综上所述,MVX-Net作为多模态融合的早期代表,其存在的三方面局限性恰恰对应了第1节所提出的当前领域面临的共性挑战:其一,其基于CNN的图像特征提取模块缺乏全局语义建模能力,对应引言中所述“图像分支全局建模不足”的问题;其二,其采用简单的点级拼接融合策略,未能实现模态间的深度互补,对应跨模态融合简单的问题;其三,其VFE层“对体素密度变化不敏感,对应体素特征鲁棒性差”的问题。这些局限性为本研究的改进提供了明确的方向。因此,本文在第3节提出FM-VXNet模型,旨在通过FFCM、Bi-CMGA和BiDA三个模块分别针对上述问题予以系统性解决。
3. FM-VXNet网络
FM-VXNet基于MVX-Net的PointFusion策略进行改进,其整体架构如图2所示,主要包含四个部分:图像特征提取分支(ResNet-50 + FFCM + FPN)、LiDAR点云特征处理分支(体素化 + BiDA + VFE)、跨模态融合模块(Bi-CMGA)与3D检测头(SECOND + 3D Region Proposal Network, 3DRPN)。以下将详细阐述三个核心模块的设计动机与具体结构。
Figure 2. FM-VXNet network architecture
图2. FM-VXNet网络架构
本研究的三个模块分别针对第1节分析的三个核心问题:首先,针对图像全局建模不足的问题,MVX-Net的ResNet-50分支依赖局部卷积,难以捕获图像的长程语义(如远距离目标的上下文关联、遮挡区域的语义补全)。因此,本文引入FFCM模块,通过FFT将图像特征映射至频域,实现全局结构建模,同时保留局部空间细节,形成“全局–局部”互补特征。其次,针对跨模态融合简单的问题,MVX-Net的PointFusion采用“点云特征 + 图像特征”逐点拼接,未考虑模态差异:LiDAR点云擅长几何定位,相机擅长语义分类,简单拼接易导致“模态主导”(如近距场景点云主导,远距场景图像主导),丢失互补信息。为此,本文提出Bi-CMGA模块,通过双向注意力交互与门控融合,动态平衡模态贡献。最后,针对体素特征鲁棒性问题,MVX-Net的VFE层仅对体素内点进行统计聚合(如max-pooling),未处理体素密度差异稀疏体素(如远距离目标)易受噪声点干扰,密集体素(如近距目标)易引入冗余信息,导致特征判别性低。相应地,借鉴C2BG-Net [20]的LGVAE全局聚合思想,本文提出BiDA模块,在VFE前后分别引入密度门控与通道重标定,提升体素特征鲁棒性。
3.1. FFCM模块
FFCM模块旨在解决图像分支全局语义建模能力不足的问题。该模块嵌入ResNet-50的C2~C5层,与卷积分支形成残差融合,FFCM模块结构如图3所示。在局部空间特征提取:输入特征经逐点卷积(Pointwise Convolution, PConv)压缩通道后,分为两路深度可分离卷积(DConv3 × 3、5 × 5),分别捕获不同感受野的局部细节;两路特征经GeLU激活与PConv处理后拼接,得到多尺度局部特征。全局频域特征建模:拼接后的局部特征通过2DFFT映射至频域,经PConv学习通道间全局依赖,再通过批归一化(BN)与ReLU激活增强表达;最后通过逆FFT (iFFT)将频域特征映射回空间域,以实现全局频域特征建模。最后,全局频域特征与局部空间特征以残差形式相加,经PConv进一步融合,输出兼具全局语义与局部细节的图像特征并与C2~C5特征进行融合。这样既保证了局部几何信息的保留,又显式增强了全局语义建模能力,从而显著改善了图像分支对远距和遮挡目标的表征能力,并在多模态融合阶段提供更判别、更鲁棒的图像特征。
Figure 3. FFCM module structure diagram
图3. FFCM模块结构
设输入图像特征为
(H、W为特征图尺寸,C为通道数),FFCM的核心过程可表达如下:
1) 局部特征提取:
(1)
(2)
(3)
2) 频域全局建模:
(4)
(5)
(6)
3) 残差融合:
(7)
其中
为FFCM输出特征,残差项确保
原始卷积特征不丢失。
与MVX-Net只利用ResNet-50提取图像特征相比,引入FFCM既保证局部几何信息,又增强全局语义建模能力,从而有效解决图像分支长程依赖缺失的问题,显著改善了图像分支对远距和遮挡目标的表征能力。
3.2. BiDA模块
BiDA模块旨在提升点云体素特征在密度不均场景下的鲁棒性和判别性。该模块嵌入LiDAR点云特征处理分支,分为“逐点增强”(VFE前)与“体素重标定”(VFE后)两阶段,如图4所示。逐点增强(VFE前):对每个LiDAR点云,通过两层线性变换投影至“语义子空间”,增强特征表达;计算点所属体素的密度(体素内点数),经log压缩与Sigmoid生成密度门控标量,抑制稀疏体素的噪声干扰;密度门控与语义子空间特征逐通道相乘,实现“密度自适应”的逐点增强。体素重标定(VFE后):对VFE输出的体素特征,沿通道轴施加1D局部卷积,捕获通道间局部依赖;卷积结果经Sigmoid生成通道门控向量,动态突出关键通道(如几何特征通道),抑制冗余通道;通道门控与原始体素特征逐通道相乘,实现体素级特征重标定。
Figure 4. BiDA module framework
图4. BiDA模块框架
设第i个点的输入特征记为
可由坐标、反射强度及先验编码拼接得到),BiDA的过程可以表达如下:
1) VFE之前:逐点增强。
(a) 归一化与两层仿射–非线性变换(“语义”子空间投影):
(8)
(b) 对体素密度
做对数压缩后经Sigmoid得到标量门控,并在通道维广播至C维::
(9)
(10)
其中,
表示密度门控标量,
表示
在通道维的广播。该门控用于在稀疏/密集体素间自适应调节增益强度,避免稀疏噪声被放大。
(c) 逐通道残差加权(乘性)将“语义”向量与密度门控耦合得到逐点的通道增益,并以残式乘性方式施加到原始特征:
(11)
(12)
其中
在实验中设置为0.1,
为1.0,两者用于控制语义与密度两路增益的幅度;
为为逐点增强后的输出。
2) VFE之后
为在通道轴刻画局部相互作用,对VFE输出体素特征
施加同长一维卷积并经Sigmoid生成通道门控:
(13)
其中卷积核长度为k (本文设置为3),边界按零填充处理。最后以残差乘性方式对通道进行重标定,突出几何判别通道、抑制冗余响应:
(14)
其中,
为VFE之后的体素级重标定输出;
控制通道门控注入强度,在本文设置为0.5。
BiDA通过“密度门控 + 通道重标定”双重机制,有效解决了VFE层的固有缺陷:a) 稀疏体素鲁棒性:密度门控抑制噪声点影响,提升远距离目标的特征质量;b) 密集体素判别性:通道重标定突出关键几何特征,减少冗余信息,提升近距目标的分类精度。
3.3. Bi-CMGA模块
Bi-CMGA模块旨在实现精细化的跨模态融合,以替代简单的特征拼接。该模块将来自图像分支FPN模块中的特征与BiDA输出的点云特征进行跨模态融合,其结构如图5所示。Bi-CMGA将FPN输出的多尺度图像特征(P2~P6)通过双线性插值统一至点云特征分辨率,得到图像语义向量
(N为点云数量,C为通道数);点云特征经BiDA增强后为
;双向注意力交互中,点云到图像注意力以点云特征为查询,图像特征为键值,计算注意力权重,为点云补充语义信息;图像到点云注意力以图像特征为查询,点云特征为键值,计算注意力权重,为图像补充几何信息;门控融合引入通道级门控函数,动态加权两路注意力输出,抑制噪声模态(如遮挡场景抑制点云,增强图像);残差注入融合特征以残差形式注入点云特征,保留原始几何信息,输出最终跨模态特征
。
Figure 5. Bi-CMGA module framework
图5. Bi-CMGA模块框架
Bi-CMGA的过程可以表达如下:
设对齐后的图像特征
,点云特征
,Bi-CMGA过程如下:
1) 双向注意力计算:
(15)
(16)
(17)
(18)
其中
,
,
,同理可得
,
,
。
2) 门控融合:
(19)
(20)
3) 残差注入:
(21)
其中,d为键向量的维度。
为超参数(本文设置为0.5),控制融合强度,
为最终跨模态特征。
与传统拼接及静态加权相比,Bi-CMGA具有显著优势:a) 双向交互:点云与图像的双向注意力,充分挖掘互补信息,解决了简单拼接信息丢失问题;b) 动态门控:通道级门控函数适配复杂场景(如遮挡、远距),平衡模态贡献;c) 几何保留:残差注入确保点云原始几何信息不丢失,提升定位精度
4. 实验与结构分析
4.1. 实验细节
实验硬件平台配置为计算节点搭载两颗Intel Xeon Gold 6330 CPU@ 2.0 GHz (总计56核心)及256 GB DDR4内存;GPU加速单元采用2张NVIDIA GeForce RTX 4090D显卡(总计显存48 GB),通过PCIe 4.0 x16互联;软件环境基于PyTorch 1.11.0框架,CUDA 11.3及Python 3.8。训练阶段设置批量大小(batch_size)为16,训练轮数(epoch)为200,初始学习率为0.01并采用余弦退火策略衰减至1 × 10−6。输入图像尺寸统一调整为640 × 640像素,点云体素化网格大小设为0.2 m × 0.2 m × 0.2 m。
4.2. 数据集与评估指标
本研究选用KITTI数据集开展实验评估,该数据集包含7481个训练样本以及7518个测试样本,并依据检测难度划分为简单、中等、困难三个级别。为了更科学地评估模型性能,按惯例将训练集划分为3712个样本用于训练,3769个样本用于验证。在实验过程中,采用平均精度(mAP)作为核心指标,BEV检测与3D检测的IoU阈值均设为0.7。
4.3. 对比实验
为验证FM-VXNet的性能优势,本文在KITTI数据集的汽车类别上与19种主流方法进行对比,涵盖单模态(仅相机C、仅激光雷达L)和多模态(C + L)两类方案,结果如表1所示。单模态方法对比:仅依赖相机的方法(如MMono3D [10]、3DOP [21])受限于深度信息缺失,BEV和3D检测mAP均显著低于多模态方法,其中MMono3D [10]在BEV简单场景下mAP仅5.22%,验证了单相机模态的固有局限。仅依赖激光雷达的方法(如PV-RCNN [22]、Voxel-RCNN [23])通过高精度几何信息实现了较高检测性能,PV-RCNN [22]的BEV中等场景mAP达91.1%,3D中等场景mAP达84.8%,但受限于语义信息不足,在复杂遮挡场景下性能仍有提升空间。多模态方法对比:早期多模态方法如MV3D [24]通过简单特征拼接实现融合,BEV中等场景mAP为78.1%,3D中等场景mAP为62.7%,性能受限明显。FM-VXNet的基准模型MVX-Net (PF) [16]通过PointFusion实现点云与图像特征的早期融合,BEV中等场景mAP提升至84.9%,3D中等场景mAP达73.3%,但因缺乏全局语义建模和动态融合机制,与当前最优方法仍有差距。近年来的多模态优化方法中,GraphAlign [20]通过图对齐机制增强跨模态关联,BEV中等场景mAP达92.8%;SSLFusion [25]引入自监督学习优化特征一致性,3D简单场景mAP达94.1%;DVF [26]通过动态体积融合提升BEV检测性能,简单场景mAP达96.2%然而,在困难场景下,这些方法的性能仍有提升空间。DVF [26]的BEV困难场景mAP为89.2%,3D困难场景mAP为83.1%。
实验结果表明,FM-VXNet在所有评估场景下均达到了最先进的性能,BEV检测中简单/中等/困难场景mAP分别为96.3%/95.2%/92.9%,3D检测中分别为96.2%/88.9%/87.7%。与主流多模态方法相比,平均提升5.7%~8.2%:较MVX-Net (PF) [16]的BEV中等场景提升10.3%,3D中等场景提升15.6%;较BEVFusion [27]的3D中等场景相对性提升4.1%,困难场景提升5.4%。FM-VXNet的性能优势主要源于其更精细的融合策略(Bi-CMGA)和更强的噪声抑制能力(BiDA与FFCM协同),使其在复杂场景下能更有效地利用互补信息。尤其在困难场景(如远距离、遮挡目标)中,FM-VXNet的BEV和3D检测mAP分别超出次优方法(GraphAlign [20]) 1.5%和3.0%。这一结果验证了FFCM模块的全局语义建模、Bi-CMGA模块的动态融合以及BiDA模块的体素优化的协同作用,表明本模型能更有效地处理复杂场景下的感知挑战。
实验结果表明,FM-VXNet通过三大模块的创新设计,有效弥补了现有方法在全局语义捕获、跨模态互补信息挖掘以及体素特征鲁棒性方面的不足,在复杂交通场景中展现出更优的检测精度和鲁棒性,为自动驾驶多模态感知提供了高效解决方案。
在3D检测任务中,FM-VXNet同样表现优异,其mAP分别为96.2%、88.9%和87.7%,较MVX-Net (PF) [16] (85.5%/73.3%/67.4%)提升显著,尤其在中等和困难场景下优势更为明显。这表明FFCM模块的频域全局建模、Bi-CMGA模块的双向门控融合以及BiDA模块的密度感知机制有效协同,增强了模型对复杂场景(如遮挡、远距离、点云稀疏)的适应能力。同时,FM-VXNet在多模态融合方法中取得了当前最佳性能,验证了其在语义–几何互补性挖掘与噪声抑制方面的优势。可视化结果如图6所示,进一步展示了FM-VXNet在复杂场景(如遮挡、远距离)下的检测效果,该模型能够实现更精确的目标定位与分类,即使在点云极为稀疏的区域也保持了良好的鲁棒性。
将FM-VXNet与主流方法在KITTI测试集上对比,结果如表1所示。
Table 1. Comparison of the improved models
表1. 改进后的模型对比
在汽车类别上(0.7-0.5-0.5) |
|
|
AP-BEV |
AP-3D |
模型 |
模态类型 |
easy |
moderate |
hard |
easy |
moderate |
hard |
MMono3D |
C |
5.22 |
5.19 |
4.13 |
2.53 |
2.31 |
2.31 |
3DOP |
C |
12.6 |
9.49 |
7.5 |
6.55 |
5.07 |
4.1 |
VeloFCN |
C |
40.1 |
32 |
30.4 |
15.2 |
13.6 |
15.9 |
MV3D |
C |
86.2 |
77.3 |
76.3 |
71.2 |
56.6 |
55.3 |
VoxelNet |
C |
89.6 |
84.8 |
78.6 |
82 |
65.5 |
62.9 |
MV3D |
C + L |
86.6 |
78.1 |
76.7 |
71.3 |
62.7 |
56.6 |
F-PointNet |
C + L |
88.2 |
84 |
76.4 |
83.8 |
70.9 |
63.7 |
MVX-Net (VF) |
C + L |
88.6 |
84.6 |
78.6 |
82.3 |
72.2 |
66.8 |
MVX-Net (PF) |
C + L |
89.5 |
84.9 |
79 |
85.5 |
73.3 |
67.4 |
PointRCNN |
L |
|
|
|
88.9 |
78.6 |
77.4 |
PV-RCNN |
L |
95.8 |
91.1 |
88.9 |
92.6 |
84.8 |
82.7 |
VoxeI-RCNN |
L |
95.5 |
91.3 |
89 |
92.4 |
85.3 |
82.9 |
M3DETR |
L |
|
|
|
92.3 |
85.4 |
82.9 |
Octr |
L |
|
|
|
89.8 |
87 |
79.3 |
CLOCs |
C + L |
93.5 |
92 |
89.5 |
92.8 |
85.9 |
83.3 |
CAT-Det |
C + L |
|
|
|
90.1 |
81.5 |
79.3 |
DVF |
C + L |
96.2 |
91.7 |
89.2 |
93.1 |
85.8 |
83.1 |
MLF-Det |
C + L |
|
|
|
89.7 |
87.3 |
79.3 |
GraphAlign |
C + L |
95.7 |
92.8 |
91.4 |
92.4 |
87 |
84.7 |
SSLFusion |
C + L |
95.6 |
91.6 |
91.4 |
94.1 |
85.7 |
85.4 |
Ours |
C + L |
96.3 |
95.2 |
92.9 |
96.2 |
88.9 |
87.7 |
Figure 6. Example of FM-VXNet detection visualization
图6. FM-VXNet检测可视化示例
4.4. 消融实验
为验证各模块的独立贡献与协同作用,本研究以MVX-Net (PointFusion)为基线,在KITTI数据集上逐步引入BiDA、FFCM与Bi-CMGA模块,并评估不同组合下的检测性能(见表2)。
单模块结果表明,BiDA在hard场景下提升最为显著(AP-3D由67.4%提高至84.6%,+17.2%),说明其密度感知机制能有效缓解远距稀疏体素的噪声干扰;FFCM在moderate/hard场景分别提升13.3%和17.6% (由73.3%/67.4%提高至86.6%/85.0%),验证频域–空间融合显著增强了图像分支的全局语义建模;Bi-CMGA在各指标上均取得最优的单模块表现(AP-3D moderate达87.7%),体现了双向跨模态注意力在语义与几何互补中的有效性。
两两组合进一步揭示了模块间的互补特性。BiDA + FFCM(a + b)在3D检测moderate/hard提升至87.1%/86.0%,相较单模块最高值(86.6%/85.0%)分别提高约0.5%~1.0%,表明几何净化与全局语义增强的结合能显著提升复杂场景的鲁棒性;BiDA + Bi-CMGA(a + c)获得最高的组合性能(3D moderate/hard: 88.5%/87.3%),较单独Bi-CMGA提高约0.8%~0.9%,说明“净化后融合”的策略能有效强化跨模态交互;FFCM + Bi-CMGA (b + c)亦取得显著增益(3D moderate/hard: 88.4%/87.1%),但受稀疏噪声影响略低于a + c。
当三者联合使用(a + b + c, FM-VXNet)时,模型在所有指标上均达到最优(BEV moderate: 95.2%, 3D moderate: 88.9%),相较a + c进一步提升0.4%。结果表明,FFCM、BiDA与Bi-CMGA在几何稳定、语义一致性与跨模态融合三方面形成递进式协同,从而实现多模态3D检测性能的系统性提升。
Table 2. Ablation experiment
表2. 消融实验
|
AP-BEV |
AP-3D |
|
easy |
moderate |
hard |
easy |
moderate |
hard |
Baseline |
89.5 |
84.9 |
79 |
85.5 |
73.3 |
67.4 |
a (Baseline + BiDA) |
95.1 |
93.7 |
91.3 |
94.7 |
86.2 |
84.6 |
b (Baseline + FFCM) |
94.9 |
93.9 |
91.5 |
94.5 |
86.6 |
85.0 |
c (Baseline + Bi-CMGA) |
95.7 |
94.6 |
92.1 |
95.5 |
87.7 |
86.4 |
a + b (BiDA + FFCM) |
95.6 |
94.4 |
91.9 |
95.4 |
87.1 |
86.0 |
a + c (BiDA + Bi-CMGA) |
96.1 |
95.0 |
92.6 |
96.0 |
88.5 |
87.3 |
b + c (FFCM + Bi-CMGA) |
96.0 |
94.9 |
92.5 |
95.8 |
88.4 |
87.1 |
a + b + c (Ours, FM-VXNet) |
96.3 |
95.2 |
92.9 |
96.2 |
88.9 |
87.7 |
5. 结论与展望
本文针对多模态3D目标检测中图像全局建模不足、跨模态融合简单、体素特征鲁棒性差这三个核心问题,提出了FM-VXNet模型,该模型通过引入FFCM模块,并精心设计了Bi-CMGA和BiDA模块,分别从图像特征提取、跨模态融合以及LiDAR点云体素特征优化三个关键层面,对多模态3D目标检测任务进行了全面改进。在KITTI数据集上的实验结果充分表明,FM-VXNet在性能上显著超越MVX-Net、BEVFusion等现有主流方法,为多模态3D目标检测领域提供了一种创新且高效的解决方案。未来工作将集中于以下方面:一是探索端到端训练策略,进一步提升模型效率与精度;二是将模型扩展至更复杂的多类别目标检测任务中。
NOTES
*通讯作者。