1. 引言
传统的深度学习目标检测方法通常依赖于大规模的标注数据集来实现理想的性能,这在许多领域并不现实,因为获取大量标注数据往往需要耗费巨大的时间和资源,特别是在医学影像分析、遥感监测和工业检测等领域。因此,小样本学习(Few-Shot Learning, FSL) [1]成为备受关注的研究课题。
小样本学习的核心理念是通过少量的标注样本训练出具有良好泛化能力的模型,从而在新的任务或类别上实现有效的检测和识别。这一过程不仅要求模型具备从有限样本中学习的能力,还需要具备跨任务迁移知识的能力以提高学习效率。为克服小样本学习带来的挑战,研究者们提出了多种策略,包括迁移学习、元学习、数据增强和生成对抗网络(GAN) [2]等,这些方法为相关领域的应用与发展提供了新的思路与实践途径。
随着语言辅助视觉模型的发展,小样本学习取得了进一步的发展。然而,现有的这些语言辅助视觉的小样本研究主要集中在基本的图像分类任务[3],对目标检测任务的关注相对较少。与图像分类不同,目标检测不仅需要识别对象的类别,还需要在海量候选区域中精确定位目标。这一额外任务显著增加模型复杂度和检测难度。此外,传统的小样本目标检测依赖于手动标注类别来训练模型,难以适应不同领域的数据和任务。每当面对新任务时,都需要进行大量的训练数据,导致模型难以在未知的类别或环境下有效泛化。本文针对这些挑战做出以下创新工作:
1) 开放场景下的轻量化小样本模型微调策略的优化与应用。本文提出并详细探讨了小样本微调对开放模型性能的优化。验证了在少量标注数据的情况下,通过两阶段的微调策略,能够显著提升小样本目标检测性能,特别是在AP和AP50等指标上均表现出稳定的提升。
2) 在COCO和LVIS数据集上对不同规模的模型进行性能评估。实验结果表明,所提出的方法在小样本条件下表现出了明显的性能提升。与传统模型相比,该方法在精度和速度均具有较强的优势,并在泛化能力和任务适应性方面展现出良好的效果。
2. 相关工作
2.1. 小样本学习
小样本目标检测(Few-Shot Object Detection, FSOD)已成为计算机视觉领域的重要研究方向,旨在从有限数量的标记样本中训练出具备良好泛化能力的目标检测模型。在许多场景下,例如医学影像、遥感监测和工业检测等专业领域,获取大规模标注数据集既困难又昂贵,因此这一研究在实际应用中尤为关键。
早期的目标检测方法依赖于人工特征和滑动窗口技术,例如方向梯度直方图(HOG)和尺度不变特征变换(SIFT),以及支持向量机(SVM)等分类器。这些方法虽在一定程度上提高了目标检测性能,但在复杂场景下仍存在局限性。随着深度学习的兴起,基于卷积神经网络(CNN)的检测方法(如R-CNN等) [4]极大地提高了在复杂场景下的检测精度。然而,这些方法在训练时通常需要大量的标注数据,难以适应小样本场景。为了在有限数据下提升检测性能,研究者引入了迁移学习、元学习等小样本学习概念。迁移学习通过在大型数据集上预训练模型并在小数据集上微调,使模型在新任务中取得良好性能;元学习则通过“学习如何学习”的方法使模型快速适应新任务,例如模型无关的元学习(MAML)和原型网络(ProtoNet)等方法表现突出。
目前主流的小样本目标检测方法主要包括:基于度量学习[5]的方法:如孪生网络,通过学习一个良好的特征空间来区分不同类别;基于注意力机制[6]方法:通过关注重要的特征区域来提升目标检测的准确性,如 Attention RPN (区域提议网络);基于数据增强[7]的方法:通过生成更多训练样本来增强模型的泛化能力。除此之外,小样本目标检测在多模态学习[8]、自监督学习[9]和改进神经网络架构[10]等方面取得了显著进展。多模态学习通过结合图像和文本等多种数据模态来提高模型性能;自监督学习利用无标签数据进行预训练,然后在有限标注数据上微调;而Vision Transformers (ViT)等架构通过结合Transformer技术提升特征提取能力,进一步提高小样本检测效果。
尽管小样本研究领域已经取得了显著进展,但大多数方法仍然依赖预定义和训练好的对象类别,这在开放场景下存在诸多挑战。首先,现有方法通常假设目标类别在训练阶段已经出现过,或至少与训练类别具有相似的特征表示,然而在实际应用中,模型往往需要识别完全未知或不相关的类别,这种局限性导致其检测性能大幅下降;其次,现实场景中的数据分布通常具有长尾特性,即少数主流类别占据了大部分数据,而大量类别的数据量极少,这使得传统小样本目标检测方法难以适应动态变化,并在类别不均衡的情况下难以保持良好的检测效果。最后,在诸如自动驾驶、安防监控等需要高效响应的应用场景下,模型往往需要快速适应新类别,而现有方法大多依赖额外的训练,缺乏足够的灵活性和实时性。因此,如何摆脱对固定类别的依赖,提高模型在开放场景中的泛化能力、适应性和实时性,仍然是当前亟待解决的关键问题。
2.2. 目标检测器YOLO
YOLO (You Only Look Once) [11]-[13]系列的发展显著推动了目标检测领域的进步,提供了一种在速度与精度之间取得平衡的实时检测框架。与Faster R-CNN [14]和Mask R-CNN [15]等双阶段检测器不同,YOLO模型采用单阶段架构,这不仅简化了检测流程、减少了计算开销,也增强对多尺度物体的检测能力。YOLO团队持续优化网络架构(YOLOv1-YOLOv8版本),实现了其在各种场景下的强适应性和高检测性能。
随着视觉语言模型在开放词汇目标检测(Open-Vocabulary Object Detection, OVD)中的应用,检测器迫切需要具备识别未见类别的能力。YOLO-World [16]作为YOLO系列的一个创新扩展,结合视觉语言建模,实现了开放词汇检测,并在零样本场景中表现出色。YOLO-World通过引入可重参数化的视觉–语言路径聚合网络(RepVL-PAN)和区域–文本对比损失来支持高效的开放词汇检测。这种方法使YOLO-World能够在传统固定词汇模型与现代需求之间架起桥梁,为现实世界应用中的上下文感知检测提供了有前途的解决方案。通过集成视觉–语言预训练,YOLO-World在多样化场景下的检测更加精准和鲁棒。此外,与其他开放视觉小样本模型如GroundingDINO [17]相比,YOLO-World由于采用单阶段检测,参数量更小,计算成本更低,更便于部署,为开放场景下的目标检测提供了一个轻量化、高效的解决方案。虽然其在零样本目标检测有很好的效果,但是小样本目标检测领域依然缺失。本文在YOLO-World的基础上进行改进,使其更加适应小样本目标检测任务,并进一步提升其检测性能与泛化能力。
3. 基于YOLO-World的二阶段微调方法
本文采用二阶段微调方法对YOLO-World模型进行改进,将其强大的零样本场景检测能力拓展至小样本目标检测任务,从而更好地解决目标检测中样本不足问题。
3.1. 第一阶段:基础模型
基础模型主要由三个核心组件组成:文本编码器、YOLO视觉检测器以及可重新参数化的视觉语言路径聚合网络(RepVL-PAN),模型整体架构如图1所示。其中,文本编码器负责将输入文本转换为文本嵌入,供后续模型处理;YOLO视觉检测器中的图像编码器负责从输入图像中提取多尺度特征,以捕捉丰富的视觉信息;RepVL-PAN通过跨模态融合机制将图像特征和文本嵌入结合,增强两者的联合表示能力。这种跨模态融合机制不仅提升了视觉和语言信息的表达效果,也增强了YOLO-World在多模态任务中的鲁棒性和高效性,使其在小样本目标检测等任务中表现更优。
Figure 1. YOLO-World architecture
图1. YOLO-World结构图
在基本模型训练过程中,YOLO-World通过区域–文本对比损失进行学习,以提升目标检测的跨模态理解能力。对于给定的马赛克样本
及其对应的文本
,YOLO-World输出
个对象预测
,并生成注释集合
。为确保预测结果与真实标签的准确对齐,该方法采用了任务对齐的标签分配策略,将预测结果与真实注释进行匹配,并将每个正样本的预测分配给相应的文本索引作为分类标签。区域–文本对比损失
通过优化对象与文本(区域–文本)相似性和对象–文本分配之间的交叉熵来构建。此外,为了提高边界框预测的准确性,该方法结合了IoU (Intersection over Union)损失和分布式焦点损失(DFL)进行优化,使模型在目标定位上更加精确,同时增强检测的稳定性和泛化能力。
因此,总的训练损失函数定义为:
(1)
其中,
是一个指示因子。当输入图像I来自检测或图像–文本关联数据时,
;当图像来自图像–文本数据时,
。由于图像–文本数据集中存在噪声边界框,回归损失仅对具有精确边界框的样本进行计算。
3.2. 第二阶段:视觉文本多尺度微调
为了使预训练的YOLO-World模型适配小样本目标检测,本文提出了一种高效的微调策略。该策略在充分利用预训练的多模态特征的同时,聚焦于模型的特定组件进行优化,而无需重新训练整个模型,从而在保证性能的同时提升效率和任务适应性。具体而言,主干网络采用混合结构,用于同时处理视觉和文本输入,如图2所示。该结构在使用提取图像特征的基础上,进一步结合文本信息,使模型能够更好地理解小样本场景下的目标,并提高跨模态的泛化能力。为适配小样本目标检测任务,本文在视觉特征提取及文本嵌入机制上进行了针对性调整,以提升模型的泛化能力和推理效率。
Figure 2. Multi scale fine-tuning of visual text model structure
图2. 视觉文本多尺度微调后模型结构
3.2.1. 视觉特征提取方法
为了高效提取图像中的丰富视觉信息,本文采用了YOLO-World框架中的主干网络——YOLOv8作为基础视觉特征提取模型。YOLOv8融合了EfficientNet与CSPNet两大架构优势,通过解耦头部设计和先进的数据增强策略,可以实现高精度目标定位和实时检测。而为了减轻模型的计算开销、提升推理速度及细粒度特征捕捉不足的问题,本文在第二阶段对原始模型结构进行了针对性优化。具体改进措施为:
结构简化与模块替换:第二阶段转向对较小的数据集的优化,如本文中COCO数据集,以更好适应具体的目标类别,文本特征的引导不再是最关键的任务,无需再依赖第一阶段复杂的视觉语言融合。因此本文移除原模型中的T-CSPLayers模块和Image-Pooling Attention模块(即移除了RepVL-PAN结构),简化模型结构,以降低模型复杂度,减少参数冗余,提升推理速度。
多尺度卷积特征提取:采用改进的卷积网络架构实现多尺度特征提取,通过生成分层特征图,使模型在保持计算高效性的同时,能够捕获更丰富的局部细粒度信息与全局上下文语义。
这种改进策略不仅可以简化模型结构,还能降低对大规模数据的依赖,而且在小样本情景下可以显著提升特征表达能力和模型鲁棒性。
3.2.2. 文本嵌入模块
针对目标检测任务中类别语义信息的有效利用,本文提出了一种基于预先计算提示嵌入的文本嵌入模块。与传统的YOLO-World系列方法不同,我们在第二阶段训练过程中不再引入额外的语言编码器,而是直接将预先生成的文本嵌入作为语义输入,为检测头提供与类别紧密关联的特征信息。
预计算的类语义嵌入:文本嵌入采用基于CLIP的文本编码器或图文融合模型预先生成,将每个类别的名称映射为固定维度(D = 512)的特征向量。在微调阶段,为进一步降低语义噪声,我们仅使用单词作为文本输入,而非完整语句,从而使预计算的类语义嵌入更加精炼。以COCO数据集为例,我们为其中80个类别分别生成了对应的512维文本特征向量,并在模型加载时直接注入检测框架中。
多模态特征融合:在整个检测网络中,这些预计算且冻结的文本嵌入在Neck阶段与多尺度视觉特征进行深度融合,使得生成的特征图中蕴含了显式的类别语义信息。借助这种融合策略,检测头(Head)无需在推理阶段在线调用文本编码器,即可利用融合后的多模态特征直接进行分类与定位预测。该设计大大降低了计算复杂度和推理时延,提升了检测效率,尤其在小样本场景下展现出更为显著的优势。
通过将预先计算的文本嵌入引入到目标检测流程中,本文方法可以有效解决传统方法中仅依赖纯视觉特征进行类别判别时可能遇到的多类分布不均和高阶语义信息缺乏的问题。
4. 实验
4.1. 数据集
第一阶段训练基于YOLO-World所提供的预训练模型,该模型已在基础类别数据上进行了充分训练,具备良好的通用视觉特征提取能力。其常用数据集组合及其特点如下:O365 + GoldG + CC3M-Lite:此组合的预训练模型涵盖更广泛的视觉概念,但其精度相对略低;O365 + GoldG:该组合包含较少的检测类别,但模型的精度更高。为了进一步提升模型对不同类别的适应能力,本文采用O365 + GoldG预训练模型,以在精度和泛化能力之间取得平衡。
在第二阶段微调过程中,我们使用COCO数据集[18] (Common Objects in Context)对模型进行进一步训练和算法评估,以验证其在具体任务上的检测性能。COCO 数据集提供了丰富的图像和标注信息,是目标检测领域中最为广泛使用的标准数据集之一。为了实现小样本学习,我们从原始的COCO数据集中提取了一个子集,目的是为每个类别提供少量的图像用于训练。在此过程中,我们限制了每个类别的最大图像数量,并根据不同的实验需求生成了多个子集。例如,对于每个类别,我们创建了10-shot和30-shot子集。这些子集保证了每个类别的样本数量在有限的范围内,使得模型能够在有限的样本条件下进行有效的训练和评估。在COCO数据集的标准注释文件基础上,我们通过随机选择每个类别的图像,生成了多个不同规模的子集,这些子集包含了训练所需的图像及其相关标注。每个子集的构建都以类别为单位,确保了各个类别在不同实验条件下的图像数量可控。通过这样的处理,我们能够对小样本目标检测进行更加精细的实验和模型评估。
4.2. 实验环境和训练策略
4.2.1. 实验环境
实验使用的计算机的GPU是Tesla K80 (11 GB)*12。CPU是40 vCPU Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz。PyTorch版本为1.11.0,Python版本为3.9.0,CUDA版本为11.2。
4.2.2. 训练策略
在训练过程中,所有输入图像的分辨率统一为
,以确保实验结果的一致性;学习率从预训练时的
缩小20倍至
;训练的最大轮次为80轮,并设置了每个GPU的训练批次大小为4,这样即使在Tesla K80偏旧的设备上训练,也有很快的微调模型的速度。另外,我们采用参数冻结策略来稳定模型学习。具体而言,冻结主干网络(backbone)的前四层,同时对neck和head部分的所有层进行冻结,使其在训练过程中不更新参数。此举确保视觉特征提取保持稳定、特征融合中引入的预计算提示嵌入信号保持一致,并避免检测头对嵌入特征的破坏性改动,从而在整体训练流程中有效维护小样本检测能力与多模态语义特征对齐的稳定性。此外,训练过程中每隔5个周期进行一次验证。训练过程中还使用了EMA平滑技术,以提高模型的稳定性和准确性。
4.3. 实验结果
4.3.1. 多尺度模型适应性实验
针对YW-FSVOD模型,本小节通过配置L (Large)、M (Medium)、S (Small)三种参数规模的模型来评估该方法的性能表现,并将实验结果整理如下表1。
Table 1. Accuracy performance under different shot settings
表1. 不同shot下精度表现
模型 |
Config |
AP |
AP50 |
AP75 |
YOLO-World-v2-S |
Zero-shot |
37.6 |
52.3 |
40.7 |
YW-FSVOD-S (Ours) |
10-shot |
37.8 |
52.9 |
41.4 |
YW-FSVOD-S (Ours) |
30-shot |
38.5 |
53.4 |
41.8 |
YOLO-World-M |
Zero-shot |
42.8 |
58.3 |
46.4 |
YW-FSVOD-M (Ours) |
10-shot |
43.0 |
58.6 |
47.1 |
YW-FSVOD-M (Ours) |
30-shot |
43.5 |
59.1 |
47.5 |
YOLO-World-v2-L |
Zero-shot |
45.7 |
61.6 |
49.8 |
YW-FSVOD-L (Ours) |
10-shot |
45.9 |
61.8 |
50.3 |
YW-FSVOD-L (Ours) |
30-shot |
46.3 |
62.3 |
50.7 |
实验结果表明,本实验对于不同参数大小的YW-FSVOD (L、S、M)均带来了显著的性能提升。在YW-FSVOD版本中,通过10-shot微调,模型的AP从零样本阶段的45.76%提升至45.96%,而30-shot微调将其进一步提升至46.36%。类似地,AP50也从零样本的49.8%提升至50.3%和50.7%。由此可见,即使只有少量的标注样本,也能够显著增强模型的视觉特征学习能力,并提高检测精度。
对于YOLO-World-v2-S和YOLO-World-v2-M版本,小样本微调同样展现了较为显著的提升效果。YOLO-World-v2-S通过30-shot微调,其AP从37.65%提升至38.55%,AP50则从40.7%提升至41.8%;而YOLO-World-v2-M在30-shot微调下,AP从42.85%提升至43.55%,AP50从46.4%提升至47.5%。这些结果表明,小样本微调在模型性能方面表现出重要作用,特别是在泛化能力和任务适应性方面。
4.3.2. 与传统小样本模型对比
在本实验中,我们提出的YW-FSVOD模型在多个标准小样本物体检测任务上表现优异,并与传统的方法进行了对比。根据表2中的结果,我们可以看到,YW-FSVOD在视觉语言模型下,10-shot和30-shot设置的配置在多个评价指标(AP、AP50和AP75)都显著的高于传统小样本模型。
具体而言,YW-FSVOD-S、YW-FSVOD-M和YW-FSVOD-L在10-shot的AP分数上分别为37.8、43.0和45.9,相较于其他方法(如TFA w/ fc、FSCE和MPSR)提升了约27.8至35.9个点。在30-shot设置中,YW-FSVOD-L更是表现出色,AP分数高达46.3,领先于现有最好的方法Meta Faster R-CNN,其AP50和AP75也分别超过了59.1和50.7,充分展示了我们的模型在小样本检测任务中的强大能力。
Table 2. Comparison of object detection models on the COCO dataset
表2. COCO数据集上的目标检测模型对比
Model/Method |
10-shot AP |
10-shot AP50 |
10-shot AP75 |
30-shot AP |
30-shot AP50 |
30-shot AP75 |
TFA w/ fc [10] |
10.0 |
19.2 |
9.2 |
13.4 |
24.7 |
13.2 |
TFA w/ cos [10] |
10.0 |
19.1 |
9.3 |
13.7 |
24.9 |
13.4 |
MPSR [20] |
9.8 |
17.9 |
9.7 |
14.1 |
25.4 |
14.2 |
FSCE [9] |
11.9 |
- |
10.5 |
16.4 |
- |
16.2 |
Meta Faster R-CNN [21] |
12.7 |
25.7 |
10.8 |
16.6 |
31.8 |
15.8 |
YW-FSVOD-S (Ours) |
37.8 |
52.9 |
41.4 |
38.5 |
53.4 |
41.8 |
YW-FSVOD-M (Ours) |
43.0 |
58.6 |
47.1 |
43.5 |
59.1 |
47.5 |
YW-FSVOD-L (Ours) |
45.9 |
61.8 |
50.3 |
46.3 |
62.3 |
50.7 |
4.3.3. 参数效率及资源受限场景的适用性
本研究将新提出的YW-FSVOD与YOLO-World和Grounding DINO-T在LVIS [19]进行了对比,后两者代表了零样本检测领域的先进方法。需要注意的是,虽然YOLO-World和Grounding DINO-T能够在没有特定类别样本的情况下直接进行推理,但本文的YW-FSVOD系列模型是基于小样本检测进行微调的,需要依赖于少量标注样本,因此无法与零样本检测方法直接等量对比。然而,即便在这种情况下,我们的新方法在LVIS数据集上的表现仍展示了显著的优势,尤其是在参数量和推理速度(FPS)方面,如表3所示。具体而言,YW-FSVOD-S仅具有12.8M参数,其推理速度(76.2 FPS)优于YOLO-World-S (13M参数,74.1 FPS),并且在多个指标(包括AP、APr、APc、APf)上均取得了更高的表现。此外,YW-FSVOD-M仅包含28M参数,相较于Grounding DINO-T (172M参数),在保持极小模型规模的同时,YW-FSVOD-M以59.0 FPS的推理速度远超越了Grounding DINO-T,且在检测精度上也具有优势。这表明YW-FSVOD在计算效率和检测精度之间实现了良好的平衡,具有实际应用潜力,特别是在需要快速推理和低计算成本的场景中具有独特优势。
Table 3. The evaluation results of different models on LVIS
表3. 不同模型在LVIS上的评估结果
Method |
Backbone |
Params |
Pre-trained Data |
FPS |
AP |
APr |
APc |
APf |
Grounding DINO-T |
Swin-T |
172M |
O365, GoldG |
1.5 |
25.6 |
14.4 |
19.6 |
32.2 |
YOLO-World-S |
YOLOv8-S |
13M |
O365, GoldG |
74.1 |
26.2 |
19.1 |
23.6 |
29.8 |
YW-FSVOD-S(Ours) |
YOLOv8-S |
12.8M |
O365, GoldG |
76.2 |
26.8 |
20.5 |
24.2 |
30.6 |
YOLO-World-M |
YOLOv8-M |
29M |
O365, GoldG |
58.1 |
31.0 |
23.8 |
29.2 |
33.9 |
YW-FSVOD-M (Ours) |
YOLOv8-M |
28.5M |
O365, GoldG |
59.0 |
32.4 |
24.6 |
30.1 |
35.0 |
5. 结论
本文提出了一种基于YOLO-World的开放词汇小样本目标检测方法YW-FSVOD,旨在解决传统小样本目标检测方法在开放场景中的应用限制。本文引入YOLO-World视觉–语言模型的多模态能力,并在视觉模块移除了RepVL-PAN结构,降低模型复杂度,减少参数冗余;而对语言模块不再引入额外的语言编码器,将预先生成的文本嵌入作为语义输入,为检测头提供与类别紧密关联的特征信息。最后在训练时对backbone的前四层、neck和head部分冻结。
实验表明,在10-shot和30-shot下,YW-FSVOD模型的精度对比传统的小样本检测模型有显著优势。而与现有的视觉语言模型Grounding DINO-T对比,其参数量和速度都有显著的优势,证明了本方法高效的轻量设计。