1. 引言
近年来,多模态目标检测因其对不同模态信息的有效融合能力,受到越来越多的关注。通过结合不同模态的特定信息,多模态检测方法可以显著提高检测模型的准确性和鲁棒性,因此广泛应用于诸如自动驾驶、交通监控等实际场景。然而,单一模态的检测方法在复杂环境下往往难以满足需求[1] [2]。例如,RGB图像在低光照或恶劣天气条件下,因噪声增大和特征丢失,往往难以提供可靠的目标信息。而IR图像具有良好的环境适应性,即使在黑暗或被遮挡条件下,也能通过能量辐射成像提供目标轮廓信息。然而,IR图像缺乏颜色和纹理特征,信息表达能力有限[3] [4]。因此,将RGB和IR模态结合,利用它们的互补特性,成为提升目标检测性能的关键方法[5]。
尽管如此,多模态目标检测依然面临诸多挑战。有效融合RGB和IR模态特征不仅需要捕捉模态间的长距离依赖关系,还需对模态间质量差异进行动态权重调整,以应对如光照变化、恶劣天气等复杂场景[6]。此外,融合过程中还需在局部细节和全局语义之间实现平衡,避免信息损失和冗余引入。传统基于卷积神经网络(CNN)的特征融合方法在多模态目标检测中有着广泛应用,依赖于局部感受野的卷积操作能够捕获精细的局部特征,但却无法建模模态间的长距离特征关系,同时对图像错位较为敏感[7]。基于Transformer的跨模态融合方法因其优越的全局建模能力,逐渐成为解决这一问题的重要工具[8]。然而,直接堆叠Transformer模块虽然可以捕获全局依赖,但会带来计算复杂度和参数量的激增,难以在实际应用中推广[7]。
针对上述问题,ICAFusion [7]通过迭代跨模态注意力机制,实现了对RGB和IR模态的有效特征融合,在一定程度上解决了CNN和Transformer的上述缺陷。然而,ICAFusion依然存在两个不足:1) 其跨模态特征增强模块(CFE)缺乏动态权重调整机制,无法适应不同模态质量的差异,可能导致信息冗余或模态间重要特征的丢失;2) 其迭代跨模态特征增强模块(ICFE)在特征的精细化优化方面能力有限,尤其在局部信息的提取和优化上表现不足,未能充分发挥RGB和IR模态的互补性。
为了解决这些不足,本文提出了一种改进的多模态特征融合方法。在CFE模块中引入动态门控机制和注意力遮掩策略,自适应地调整模态间的特征贡献并过滤无效或冗余信息,从而增强模态间的适应能力。在ICFE模块中加入精细化特征优化模块(FRFM),结合局部卷积、线性变换和门控机制,对输入特征进行多层次优化,既捕获局部空间信息,又确保全局特征的完整性和表达能力。这些改进有效提升了特征融合质量和模型的检测性能,特别是在复杂场景中表现出更强的鲁棒性。
2. 相关工作
2.1. 多模态目标检测数据集
深度学习的快速发展推动了多模态目标检测的进步,而高质量数据集如KAIST [9]和FLIR [10]为该领域提供了重要的基准支持。
KAIST是一个广泛应用的多光谱行人检测数据集,覆盖了不同光照条件(包括白天和夜晚)的场景。该数据集包含8963对RGB和IR对齐的训练图像和2252对测试图像,图像分辨率为640 × 512。KAIST主要用于评估模型在低光照条件下的行人检测能力,具有很强的挑战性。FLIR是一个多光谱目标检测数据集,涵盖白天和夜间场景,标注了“人”、“车”和“自行车”三类目标。数据集包含5142对RGB和IR对齐的图像,其中4129对用于训练,1013对用于测试。与KAIST相比,FLIR数据集种类更丰富,适用于评估多类物体的检测性能。如图1所示,RGB图像在良好光照条件下能提供丰富的颜色和纹理信息(图1(a)),而IR图像在光线不足时仍能捕捉物体的清晰轮廓(图1(b))。这种模态互补性为多模态目标检测提供了重要支撑,使得KAIST和FLIR成为研究中常用的基准数据集。
Figure 1. Sample display of the FLIR dataset
图1. FLIR数据集样本展示
2.2. 多模态目标检测
多模态目标检测的核心目标与单模态检测一致,许多研究基于传统的RGB目标检测模型扩展而来,例如RetinaNet [11]和YOLO [12]。Heng等人[13]在RetinaNet的基础上增加了一个骨干网络用于提取IR模态特征,并通过三个卷积模块实现输入模态的跨模态交互和内注意力特征处理。文献[14]基于YOLOv5提出了一种多模态检测器,采用交叉模态注意力模块来识别和融合输入模态之间的关联特征。
针对多光谱行人检测中的模态不平衡问题,Zhou等人[15]提出了MBNet网络,通过差异模态感知融合模块(DMAF)和光照感知特征对齐模块(IAFA)实现模态特征的平衡与对齐。Zhang等人[10]提出了一种循环融合与细化模块(CFR),通过循环方式融合和优化多光谱特征,有效提高了特征一致性和检测性能。Shen等人[16]提出了一种基于多光谱FCOS框架的行人检测方法,其中引入掩码引导的局部互注意力模块(LMA)增强目标区域的特征表达,并通过置信度分数融合策略提升弱外观目标的检测性能。Zhang等人[17]设计了一种弱对齐跨模态学习方法,用于解决颜色和热成像模态弱对齐引起的性能下降问题。他们提出了区域特征对齐模块(RFA),自适应地校正模态间的区域特征,并结合置信度感知融合策略选择可靠的模态特征进行权重加权。此外,Liu等人[18]提出了一种基于多光谱深度神经网络的行人检测方法,设计了四种卷积网络融合架构(早期融合、半程融合、后期融合和置信度融合),系统研究了不同深度阶段下的模态特征融合效果。Sun等人[19]则提出了一种基于无人机的RGB-IR跨模态车辆检测方法(UA-CMDet),通过不确定性感知模块(UAM)量化模态间的不确定性,并结合照明感知非极大值抑制(IA-NMS)策略,在复杂场景下显著提高了车辆检测的精度。
尽管上述方法在多模态目标检测中取得了一定的进展,但仍存在以下不足:许多方法仅关注模态间的简单特征融合,缺乏对模态特征质量差异的动态调整能力,无法充分适应复杂场景的多样性。此外,现有方法在局部细节的优化和特征间的深度交互方面存在不足,导致模态互补性未能得到充分发挥。为此,本文提出了一种改进的多模态特征融合框架,通过引入动态门控机制和精细化特征优化模块,实现对模态特征的自适应调整与深度优化,从而进一步提升多模态目标检测的精度与鲁棒性。
3. 算法模型
3.1. ICAFusion模型概述
Figure 2. ICAFusion architecture
图2. ICAFusion架构
如图2所示,ICAFusion是一个设计用于多模态目标检测的双分支主干网络,包含RGB图像分支和红外图像分支。RGB图像分支主要提取颜色、纹理和边缘等细节信息,而红外图像分支则从热信号中提取目标的轮廓和显著特征。首先这两种模态的图像分别通过单独的特征提取网络(如VGG16、ResNet或CSPDarkNet)生成多尺度特征图。每个分支的C1~C5模块逐层提取特征,其中低层(如C1~C3)捕获颜色和纹理等细节特征,高层(如C4~C5)逐步聚合抽象的语义信息,以适应不同尺度目标的检测需求。这种分层特征提取机制能够确保模型在小目标和大目标检测任务中均具有良好的适应性。
在特征提取之后,多尺度特征图会在C3、C4和C5层之间通过双模态特征融合模块(DMFF)进行融合。DMFF模块基于双跨模态注意力Transformer,能够同时捕获RGB和红外模态之间的全局关联信息,并充分利用两种模态的互补特性,从而生成辨别能力更强的融合特征。值得注意的是,DMFF模块引入了迭代学习策略,通过共享参数的方式逐步优化跨模态特征的交互,这不仅有效提升了融合特征的质量,还显著降低了模型参数规模和计算复杂度,为多模态目标检测任务提供了高效且鲁棒的解决方案。
融合后的特征图被传递至多尺度特征聚合模块(Neck模块),该模块通过整合不同尺度的融合特征,进一步增强特征的语义表达能力和目标定位精度。在检测阶段,ICAFusion使用YOLOv5框架完成目标检测任务。具体而言,经过多尺度特征聚合的特征图被输入到YOLOv5的目标检测头(Head模块),进行目标的分类和边界框回归,最终输出目标类别和位置的检测结果。通过结合YOLOv5的高效检测能力和ICAFusion的多模态融合优势,该框架在精度与速度方面均表现出色,适用于多种实际应用场景。此外,ICAFusion对模态缺失或质量较差的情况具有良好的鲁棒性,为多光谱目标检测提供了一个高效且通用的解决方案。
3.2. DMFF模块
Figure 3. Structure of the DMFF module
图3. DMFF模块结构
如图3所示,DMFF模块由空间特征压缩模块(SFS)、迭代跨模态特征增强模块(ICFE)和双模态特征融合模块组成。首先,SFS模块对RGB和热模态的特征图(
和
)进行压缩,以降低计算复杂度并保留关键信息;随后,ICFE模块通过双跨模态特征增强模块(CFE)分别对RGB和热模态特征进行增强,利用多头注意力机制捕获模态间的全局关联信息,并通过迭代优化进一步提升特征表示能力;最后,双模态特征融合模块基于NIN融合策略对增强后的特征进行融合,生成更强判别力的最终特征
,用于后续的目标检测任务。整个模块设计在兼顾计算效率的同时,充分利用了RGB和热模态的互补特性。然而,CFE模块在现有设计中缺乏动态权重调整机制,无法根据模态特征质量的变化灵活调整其贡献,容易导致冗余特征的引入或重要特征的缺失。此外,ICFE模块尽管通过多次迭代优化提升了特征表示能力,但其在局部特征的细化处理方面仍然不足,尤其在对RGB和IR模态特有细节信息的捕获和优化上表现有限。为此本文针对这些问题提出改进设计,通过引入动态门控机制、注意力遮掩和精细化特征优化模块(FRFM),进一步提升DMFF模块在复杂场景中的检测性能和鲁棒性。
3.3. CFE模块改进
在本研究中,我们对原有的CFE模块进行了改进,以提升其在可见光(RGB)与红外光(IR)多模态特征融合中的性能。CFE模块的框架结构如图4所示,CFE模块通过对RGB和IR模态的特征(
和
)分别进行归一化处理,然后将其映射到查询(Q)、键(K)和值空间(V),利用跨模态注意力机制计算两种模态之间的全局相关性,通过另一模态的补充信息生成增强后的特征,并通过残差连接与原始特征融合,最终输出经过优化的多模态增强特征。这一过程充分利用了RGB和IR特征的互补性,实现了模态间的高效交互与特征增强。
Figure 4. Structure of the CFE module
图4. CFE模块结构
Figure 5. Structure of the GCFE module
图5. GCFE模块结构
改进后的CFE模块(图5),以下简称为跨模态门控注意力融合模块GCFE,在原有的跨模态注意力机制基础上,GCFE加入了门控机制和注意力遮掩策略,从而实现更加灵活和有效的特征融合。具体而言,GCFE模块首先对输入的RGB和IR特征进行独立的查询(Q)、键(K)和值(V)投影,得到
,
,
和
,
,
。跨模态注意力权重矩阵通过以下公式计算得到:
其中,
,
分别表示RGB模态对IR模态和IR模态对RGB模态的注意力权重矩阵,
为键的维度,T表示转置操作。为了增强注意力机制的鲁棒性,使用遮掩矩阵M对注意力矩阵进行遮掩处理:
其中,
表示元素级乘法,
为二值遮掩矩阵,B为批量大小,H为注意力头数,N为特征长度。随后,对注意力矩阵应用Softmax归一化并进行Dropout正则化:
加权后的输出特征通过线性投影得到初步融合结果:
其中,
和
分别为RGB和IR模态的输出投影矩阵,用于将加权后的值映射回原始特征维度。
为了进一步优化特征融合,GCFE引入了门控机制,通过可学习的门控权重动态调整RGB与IR模态特征的重要性:
其中,σ为Sigmoid激活函数,
为门控权重矩阵,
为偏置项,和分别为归一化后的RGB和IR输入特征。随后通过门控权重对注意力加权后的输出特征进行加权:
其中,和分别为融合后的RGB和IR特征。
3.4. ICFE模块改进
为了进一步提升多模态(可见光与红外光)特征融合的效果,本研究对迭代跨模态特征增强(ICFE)模块进行了显著改进。改进后的ICFE模块集成了特征精炼融合模块FRFM,以增强特征融合的灵活性与表达能力,从而提升目标检测的精度和鲁棒性。
在改进后的ICFE-FRFM模块中,初步融合的RGB和IR特征由GCFE模块生成,其结果分别为和。这些特征随后被送入FRFM模块进行进一步优化。FRFM模块通过局部特征提取和全局特征优化,增强了融合特征的表达能力,并显著提升了模型对复杂场景的适应性。FRFM模块的具体结构如图6所示。输入特征(HW × C)通过层归一化(Layer Norm, LN)进行初步归一化,并经过部分卷积(Partial Convolution, PConv)和线性变换调整维度。随后,特征被分割为两部分,其中一部分通过深度可分离卷积(Depthwise Convolution, DWConv)提取局部特征,另一部分保持不变。两部分特征通过逐元素乘法融合后,再次通过线性变换恢复至原始维度,最终与初始输入进行残差连接,得到优化后的输出特征。优化后的RGB和IR特征表示为:
FRFM模块通过对融合后的特征进行细粒度的优化,进一步提升特征的表达能力和局部感知能力,而可学习系数为模型提供了动态调整不同模态权重的能力。这种创新设计使得改进后的ICFE-FRFN模块能够更加高效、鲁棒地处理复杂场景下的多模态信息,最终在可见光与红外光融合的目标检测任务中实现了更优异的性能,显著提升了模型的检测精度和适应性。
Figure 6. Structure of the FRFM module
图6. FRFM模块结构
4. 实验结果与分析
4.1. 实验环境
本研究在YOLOv5-L检测框架的基础上进行实验,利用其作为多模态目标检测的骨干网络。所使用的数据集包括KAIST多模态行人检测数据集和FLIR红外数据集,分别提供可见光与红外光模态下的目标检测样本,以验证模型在多模态信息融合下的检测性能。
实验在一台配备NVIDIA RTX 4090 GPU (24 GB显存)的机器上完成,软件环境包括Python 3.8.10和PyTorch 2.0.0 + cu118。具体实验参数设置如下:训练阶段进行了60个epoch,batch size为8,使用SGD优化器,初始学习率为1.0 × 10 − 21.0 × 10 − 2,动量为0.937,权重衰减因子为0.0005。学习率衰减方法采用余弦退火(Cosine Annealing)策略,以逐步降低学习率,促进模型的优化稳定性。输入图像的尺寸为640 × 640 (训练)和640 × 512 (测试)。在数据增强方面,采用了mosaic拼接和随机翻转操作,以增加训练样本的多样性,提升模型的泛化能力。损失函数采用ICAFusion原始论文中的设计,确保在特征提取和目标检测阶段保持一致的优化目标。
4.2. 改进后的结果对比
为了验证本文提出方法的有效性,本文分别在FLIR和KAIST数据集上与原方法YOLOv5-IC进行了对比实验。表1和表2分别展示了两种方法在FLIR和KAIST数据集上的实验结果。
在FLIR数据集上(表1),本文方法在所有类别(All)上的P、R、mAP50、mAP75和mAP50-95分别达到了0.834、0.769、0.821、0.348和0.414,与YOLOv5-IC相比,高阈值指标mAP75和mAP50-95分别提升了2.7%和2.4%,表明本文方法能够更有效地融合模态特征,增强目标检测的鲁棒性。具体类别上,本文方法在“Person”类别的mAP50从0.839提升至0.853,mAP75从0.291提升至0.311,显示出更高的检测精度和在复杂场景下的鲁棒性;在“Car”类别中,mAP50和mAP75分别提升至0.905和0.634,表明本文方法在车辆检测任务中能够充分利用模态互补性;在小目标类别“Bicycle”上,本文方法在mAP50-95指标上实现了明显提升,从0.234提高到0.259,进一步验证了改进模型对小目标检测的能力。
在KAIST数据集上(表2),本文方法针对“Person”类别的P、R、mAP50、mAP75和mAP50-95分别达到0.749、0.785、0.716、0.768和0.337。尽管mAP50和mAP75与YOLOv5-IC的结果接近,但在mAP50-95这一综合指标上略微下降0.1%。这一现象表明本文方法在高阈值检测任务上仍有一定优化空间。
综合来看,本文提出的改进方法通过动态门控机制、注意力遮掩策略和精细化特征优化模块(FRFM)的设计,在多模态特征融合和检测性能上取得了显著进展,尤其是在FLIR数据集上表现出卓越的效果,为多模态目标检测提供了更优的解决方案。
Table 1. Experimental results on the FLIR dataset
表1. 在FLIR数据集上的实验结果
Class |
网络模型 |
P |
R |
mAP50 (%) |
mAP75 (%) |
mAP50-95 (%) |
All |
Yolov5-IC |
0.811 |
0.754 |
0.823 |
0.321 |
0.39 |
Ours |
0.834 |
0.769 |
0.821 |
0.348 |
0.414 |
Person |
Yolov5-IC |
0.861 |
0.732 |
0.839 |
0.291 |
0.383 |
Ours |
0.87 |
0.761 |
0.853 |
0.311 |
0.399 |
Car |
Yolov5-IC |
0.842 |
0.845 |
0.9 |
0.603 |
0.553 |
Ours |
0.848 |
0.856 |
0.905 |
0.634 |
0.584 |
Bicycle |
Yolov5-IC |
0.73 |
0.685 |
0.73 |
0.0697 |
0.234 |
Ours |
0.785 |
0.691 |
0.704 |
0.101 |
0.259 |
Table 2. Experimental results on the KAIST dataset
表2. 在KAIST数据集上的实验结果
Class |
网络模型 |
P |
R |
mAP50 (%) |
mAP75 (%) |
mAP50-95 (%) |
Person |
Yolov5-IC |
0.747 |
0.782 |
0.716 |
0.77 |
0.338 |
Ours |
0.749 |
0.785 |
0.716 |
0.768 |
0.337 |
4.3. 与YOLOv8算法结果对比
为了进一步验证本文方法的有效性,本文与YOLOv8-L和YOLOv8-X两种模型在FLIR和KAIST数据集上进行了对比实验。表3和表4展示了不同模型在单模态(RGB或IR)和多模态(RGB + IR)输入下的检测性能。
在FLIR数据集上(表3),本文方法(RGB + IR)的mAP50和mAP50-95分别达到了0.821和0.414,相比于单模态输入的YOLOv8模型均有显著提升。例如,YOLOv8-X在IR输入下的mAP50为0.768,而本文方法提升了5.3%;在高阈值指标mAP50-95上,YOLOv8-X为0.416,本文方法保持了与其相当的性能,同时在综合指标上更具优势。这表明本文方法能够更有效地融合RGB和IR模态的互补信息,提升检测精度和鲁棒性。
在KAIST数据集上(表4),本文方法(RGB + IR)的mAP50和mAP50-95分别为0.716和0.337,相较于YOLOv8模型单模态输入的最佳结果(mAP50为0.688,mAP50-95为0.323),分别提升了4.1%和4.3%。这一结果验证了本文方法在多模态目标检测任务中的有效性,尤其在复杂场景下能够充分挖掘模态间的互补性。
总的来说,本文方法在FLIR和KAIST数据集上均优于YOLOv8模型的单模态检测性能。这主要得益于本文提出的动态门控机制和精细化特征优化模块,有效提升了模态特征融合的能力,为多模态目标检测提供了一种更加高效的解决方案。
Table 3. Experimental results on the FLIR dataset
表3. 在FLIR数据集上的实验结果
Data |
网络模型 |
P |
R |
mAP50 (%) |
mAP50-95 (%) |
FLIR-RGB |
Yolov8-L |
0.716 |
0.547 |
0.616 |
0.304 |
FLIR-IR |
Yolov8-L |
0.758 |
0.677 |
0.748 |
0.405 |
FLIR-RGB |
Yolov8-X |
0.73 |
0.544 |
0.615 |
0.298 |
FLIR-IR |
Yolov8-X |
0.783 |
0.678 |
0.768 |
0.416 |
FLIR-RGB + IR |
Ours |
0.834 |
0.769 |
0.821 |
0.414 |
Table 4. Experimental results on the KAIST dataset
表4. 在KAIST数据集上的实验结果
Data |
网络模型 |
P |
R |
mAP50 (%) |
mAP50-95 (%) |
KAIST-RGB |
Yolov8-L |
0.736 |
0.43 |
0.555 |
0.24 |
KAIST-IR |
Yolov8-L |
0.725 |
0.615 |
0.687 |
0.311 |
KAIST-RGB |
Yolov8-X |
0.748 |
0.424 |
0.559 |
0.247 |
KAIST-IR |
Yolov8-X |
0.752 |
0.599 |
0.688 |
0.323 |
KAIST-RGB + IR |
Ours |
0.749 |
0.785 |
0.716 |
0.337 |
5. 结论
本文针对多模态目标检测任务,提出了一种改进的特征融合方法,通过动态门控机制、注意力遮掩策略和精细化特征优化模块(FRFM)的设计,有效提升了模型在复杂场景中的检测性能。相比于原有的ICAFusion模型和主流检测算法(如YOLOv8),本文方法在FLIR和KAIST数据集上均取得了更高的检测精度和鲁棒性。
实验结果表明,本文方法能够充分利用RGB和IR模态的互补性,通过动态调整模态特征的权重、自适应过滤冗余信息,以及优化特征细节表达,实现了多模态特征的深度融合。在FLIR数据集上,本文方法的mAP50和mAP50-95分别提升至0.821和0.414;在KAIST数据集上,mAP50和mAP50-95分别达到0.716和0.337,均显著优于对比方法。本文提出的方法在保证计算效率的同时,实现了更优的特征表达和目标检测性能,为多模态目标检测任务提供了一种高效且鲁棒的解决方案。未来工作将聚焦于进一步降低模型复杂度并提升对小目标检测的性能。
NOTES
*通讯作者。