1. 引言
基于计算机视觉的无人机航拍图像目标检测主要用于识别与定位检测画面中的车辆、行人等目标[1],已经应用到城市安防[2]、交通监控[3]、农业观察[4]、灾情监测[5]等多个场景中,但由于其目标尺寸较小,背景干扰较多且环境条件复杂,提高了特征提取的难度,对检测精度的提升带来了严峻挑战。
无人机航拍图像的目标检测方法,从特征的生成方式上可分为两类,一类是依据人工特征设计的传统模型,另一类是基于深度学习的模型。以方向梯度直方图特征和支持向量机分类器(HOG + SVM)为代表的传统模型在无人机高空、多角度拍摄的情况下,特征表示能力很差,容易受复杂背景影响,易在检测任务中出现漏检、误检的情况[6]。
而深度学习方法直接从数据中学习特征表示,能够自动提取比传统方法更具表达力的特征[7]。根据检测阶段数量的不同,深度学习模型主要分为单阶段模型与两阶段模型。
两阶段检测模型的过程为:先生成大量候选区域,然后提取候选区域进行特征提取,利用卷积神经网络进行分类;最后通过处理方式实现目标边界框的定位,该类模型包括R-CNN [8]、Faster R-CNN [9]、Masked R-CNN [10]等。
两阶段模型在检测精度和定位精度上已经达到较高的程度,但还是无法满足实际应用的实时性要求。
YOLO系列模型近年来得到了广泛的关注,YOLO系列模型设计的目的就是将分类和定位任务融合在一起,模型基于回归思想解决检测问题,可以通过一次前向传播就实现输入图像到输出边界框坐标及对应类别的全过程。
虽然第一代YOLOv1模型[11]检测速度快于SSD模型,但对于密集排列的目标和小的目标群难以检测。
YOLOv2 [12]对检测框架进行了改进,添加针对小目标的锚框机制,以实现对小尺寸目标的识别。YOLOv3 [13]的框架采用YOLOv2的框架,主要改进是采用金字塔网络,将多层次的特征进行融合,大大提升了模型的小尺度目标检测能力。YOLOv4 [14]延续了YOLOv3检测头的设计思路并进行了架构改进。它使得模型在保持小目标精度的同时,提高了对不同尺寸目标的识别能力。YOLOv5 [15]技术进一步优化,使用GIoU作为边界框回归损失函数,并加入Adam优化器等改进方式,使模型在密集遮挡的场景下检测效率更高;YOLOv6 [16]和YOLOv7 [17]在此以后,主要针对模型层面的改进进行研究,如网络结构和训练方法等。
YOLOv8引入了支持更广泛任务(如分割和追踪)的功能,并采用了无锚点检测机制,显著增强了其在各类数据集上实现泛化的能力。
相较于之前YOLO系列模型,YOLOv11是演进路线的最新一代[18],使用了一些新的架构增强方法,包括注意力、提取层和无锚框,以适应复杂场景下的小目标、遮挡目标和高速运动车辆等识别任务,同时保持模型的高效性。
研究人员基于目前现有的模型检测精度不足的问题进行改进,提出一系列改进措施。
Pham等人[19]在YOLOv3的基础上提出一种改进的目标检测框架,可以对融合层中的不同特征进行检测,提高模型检测精度。Gu等人[20]在YOLOv5架构中使用SPD卷积模块替换原有结构中的标准卷积与池化层,这一改进有效缓解了特征丢失问题,使模型能够更好地保留输入图像的细节信息,同时增强了网络的特征表征能力。Bangbang Chen等人[21]在YOLOv8中引入BiFPN-GLSA网络替代颈部网络中的路径聚合网络(PANet),优化主干网络与颈部网络特征层的融合,增强模型捕捉全局与局部空间特征的能力。
尽管现有的改进模型在目标检测的精度都有所提高,但是无人机航拍图像的小目标由于其像素占比低、特征表达差,无法被常规模型所识别,而最新的YOLOv11在保持较高检测速度与精度的同时,具备了优秀的特征提取与多尺度预测能力。因此,本文以最新的检测模型YOLOv11s为基线模型,提出了改进YOLOv11s的小目标检测模型RB-YOLOv11s,以有效提高小目标的检测性能。
2. 模型介绍
Figure 1. RB-YOLOv11s network architecture diagram
图1. RB-YOLOv11s网络结构图
如图1所示,为本文提出的RB-YOLOv11s模型的网络结构。本文的创新为设计了重参数化幽灵跨阶段高效聚合网络(RepGhostCSPELAN Net,简称RGNet),该网络能够增强特征提取和梯度流通的能力,并且采用廉价的操作生成一部分冗余特征图,以此来降低计算量和参数量。此外,本文在颈部结构设计中引入BiFPN-GLSA网络,以替代原有的路径聚合网络(PANet),旨在优化主干与颈部网络特征层的融合过程,进而增强模型捕获全局与局部空间信息的能力。
2.1. 重参数化幽灵跨阶段高效聚合网络RGNet
本文设计了重参数化幽灵跨阶段高效聚合网络(RGNet),RGNet网络由RepGhostCSPELAN、GhostNCSP以及GhostNBottleneck模块组成,其结构如图2所示。这种网络的设计能够减小参数规模、提高计算效率以及强化特征表示能力,从而可以在资源有限的设备上实现高效部署,同时保持高检测能力,以达到模型轻量化和性能表现的平衡。
Figure 2. Block diagram of RepGhostCSPELAN, GhostNCSP, and GhostNBottleneck modules
图2. RepGhostCSPELAN、GhostNCSP以及GhostNBottleneck模块结构图
如图2(a)所示,RepGhostCSPELAN通过集成多层级卷积和GhostNCSP的输出,可以增强对上下文信息和细节特征的提取能力,改善模型的特征表示能力,从而更好地获取多尺度目标信息,提升模型鲁棒性,最终提高无人机航拍图像中小目标的检测精度。
如图2(b)所示,GhostNCSP通过双分支结构处理输入特征图,以增强多尺度特征的捕获能力。每个分支在减少参数量的同时,有效降低了整体模型的计算复杂度。由于其中的一个GhostNBottleneck分支未采用瓶颈连接,为补偿由此可能带来的性能损失,另一分支引入了重参数化卷积。该设计在训练阶段通过多路径梯度反馈促进更丰富的特征学习;在推理时则可将多个卷积层融合为单次运算,从而显著提升计算效率。最终,两个分支提取的差异化特征进行融合,使模型能够整合更为丰富的语义信息,进而提升对小目标的检测性能。
如图2(c)所示,GhostNBottleneck模块通过组卷积和线性变换构建轻量化特征生成方法,能够快速创建更多的特征图,进一步展示更深层的特征,从而增强模型表征能力和最终检测效果,还可以降低计算开销,提高推理效率,更加适合模型实际使用。
2.2. BIFPN-GLSA网络
在YOLOv11的颈部设计中,基础架构采用了路径聚合网络(PANet) [22]。相比特征金字塔网络(FPN) [23]等传统设计,PANet通过增加自底向上的传播路径构建了双向融合机制。这一改进既强化了深层特征的语义表征,又有效维护了浅层特征的细节与定位信息,从而减轻了FPN因单向信息流所造成的特征衰减问题。
然而,当处理背景复杂、目标尺寸较小的无人机航拍图像时,PANet对于细微特征的提取与增强能力仍然有限。这使其难以有效提升小目标特征的显著性,从而可能对复杂环境中的检测精度造成影响。
为提升特征融合效果,本研究采用BiFPN-GLSA网络对YOLOv11s的颈部结构进行重构。该设计通过融合骨干网络与颈部输出的多层级特征,有效增强了模型捕捉全局与局部空间特征的能力。在BiFPN结构中,其第10至12层的卷积块由全局–局部空间聚合模块(Global-to-local spatial aggregation,简称GLSA) [24]所取代,如图3所示,该模块同时集成了全局空间注意力(GSA)与局部空间注意力(LSA)组件,从而兼顾了非局部与局部的空间建模能力。
Figure 3. GLSA module structure diagram
图3. GLSA模块结构图
具体而言,64通道的特征映射
被划分为两个子集
,并分别输入至GSA模块与LSA模块。这两个模块的输出结果随后通过1 × 1卷积进行处理,最终在通道维度上进行拼接融合。此过程由公式(1)与公式(2)描述。
(1)
(2)
其中,
表示全局空间注意力,
表示局部空间注意力,而
为输出的特征。
Figure 4. GSA module structure diagram
图4. GSA模块结构图
如图4所示,GSA模块通过关注像素之间的长距离依赖关系来强化特征表征,并与局部空间注意力
机制相互补充。该模块基于输入
生成全局空间注意力图
,其具体计算过程参见公式(3)与公式(4)。
Figure 5. LSA module structure diagram
图5. LSA模块结构图
(3)
(4)
在公式中,
代表注意力计算操作,
表示
卷积,符号
指代矩阵乘法。
采用两层全连接结构,其中包含ReLU非线性激活函数及归一化处理。第一层将输入映射至高维空间,其维度扩展比为2;第二层则把特征投影回原始尺寸,从而实现维度恢复。
(5)
(6)
如图5所示,局部空间注意力(LSA)模块能够从输入特征图中,沿空间维度高效聚焦并提取关键的局部特征信息,这对于小目标检测尤为重要。如图5所示,该模块以局部空间注意力响应作为输入,其具体计算流程由公式(5)与公式(6)详细定义。其中,
的结构由三个级联的
卷积层与一个
的深度卷积层共同构成。在
中,通道数被调整为32。
指局部注意力操作,
是Sigmoid函数,符号
表示逐点乘法。该结构能够在参数受限的条件下,高效实现局部空间信息的整合。
3. 实验设计
3.1. 数据集与评估指标
本文选用公开数据集VisDrone2019 [25]进行模型验证,其采集于多样化的真实道路场景,包含行人、车辆等共10类无人机航拍检测目标。该数据集已划分为训练集(6471张)、验证集(548张)及测试集(1610张),适用于无人机视角下的性能评估。实验在统一环境中进行,通过对比改进前后的模型表现,以精确率、召回率、mAP、参数量、计算量以及FPS等指标综合评价性能。
3.2. 实验环境
实验在Ubuntu 20.04系统下采用Python 3.8与Pytorch 2.0.0环境,设置batch size为8,训练300 epoch,输入图像尺寸为640 × 640,具体硬件与参数配置见表1。
Table 1. Training parameter settings
表1. 训练参数设置
Types |
Configuration |
Type |
Value |
GPU |
RTX 4090 |
Learning rate |
|
CPU |
Intel (R) 5418Y |
momentum |
0.9 |
CUDA |
11.8 |
optimizer |
AdamW |
CuDNN |
8.7.0 |
batch |
8 |
4. 结果分析
4.1. 消融实验
将设计重参数化幽灵跨阶段高效聚合网络(RGNet)记为改进方案A,BIFPN-GLSA网络替换原YOLOv11s模型的颈部网络PANet记为改进方案B,下表2中YOLOv11s + A为只加入改进方案A,YOLOv11s + B为只加入改进方案B,YOLOv11s + A + B为将改进方案A和B都加入,也就是本文提出的模型RB-YOLOv11s。
Table 2. Various improved ablation experiments
表2. 各个改进的消融实验
Model |
Precise (%) |
Recall (%) |
mAP50 (%) |
mAP50:95 (%) |
P (M) |
G (G) |
FPS |
YOLOv11s |
46.3 |
33.9 |
32.7 |
18.7 |
9.4 |
21.3 |
556 |
YOLOv11s + A |
45.7 |
35.3 |
33.7 |
19.1 |
8.1 |
20.9 |
526 |
YOLOv11s + B |
46.1 |
35.3 |
33.7 |
19.5 |
7.7 |
23.3 |
455 |
YOLOv11s + A + B |
46.8 |
35.7 |
34.6 |
20.0 |
7.1 |
24.3 |
385 |
如表2所示,加入改进方案A后,YOLOv11s+A模型的mAP50和mAP50:95分别为33.7%和19.1%,相比YOLOv11s,分别提升了1%和0.4%,并且参数量和计算量分别下降了1.3 M和0.4 G,说明所设计的重参数化幽灵跨阶段高效聚合网络(RGNet)有效增强了小目标的特征表征能力,在实现模型轻量化的同时,显著提升了小目标检测精度。加入改进方案B后,YOLOv11s + B模型的mAP50和mAP50:95分别为33.7%和19.5%,相比YOLOv11s,分别提升了1%和0.8%,并且参数量下降了1.7 M,说明BIFPN-GLSA网络通过增强多尺度特征融合能力,有效改善了小目标的检测性能,并在提升精度的同时实现了模型结构的精简。将改进方案A和B一起加入到YOLOv11s后,YOLOv11s + A + B模型的mAP50和mAP50:95分别为34.6%和20.0%,相比YOLOv11s,分别提升了1.9%和1.3%,参数量下降了2.3 M,说明重参数化幽灵跨阶段高效聚合网络(RGNet)与BIFPN-GLSA网络通过协同增强小目标的特征表征能力与多尺度特征融合,有效提升了检测精度,并实现了模型参数的显著精简。
4.2. 对比实验
如表3所示,RB-YOLOv11s在VisDrone2019测试集上的mAP50达到34.6%,其检测精度优于原YOLOv11s模型及YOLO与DETR系列的其他对比模型。该模型的精确率为46.8%,召回率为35.7%,分别高于原模型的46.3%和33.9%,表明其在提升小目标检测准确性的同时,有效降低了误检与漏检。在模型复杂度方面,RB-YOLOv11s的参数量和计算量分别为7.1 M和24.3 G,虽然计算量较原模型略有增加,但参数量仍低于同级别的YOLOv8s。在实时性方面,RB-YOLOv11s的FPS为285,虽略低于原模型,但仍可满足实时检测要求。
Table 3. Comparative experiments of different VisDrone models
表3. VisDrone不同模型的对比实验
Model |
Precise (%) |
Recall (%) |
mAP50 (%) |
mAP50:95 (%) |
P (M) |
G (G) |
FPS |
YOLOv5s |
38.7 |
31.0 |
27.6 |
14.4 |
7.0 |
15.8 |
204 |
YOLOv8s |
44.8 |
35.0 |
32.8 |
18.7 |
11.1 |
28.5 |
625 |
YOLOv9s |
49.1 |
35.5 |
34.9 |
20.6 |
9.6 |
38.8 |
278 |
YOLOv10s |
45.4 |
34.6 |
33.0 |
18.6 |
7.2 |
21.4 |
526 |
YOLOv11s |
46.3 |
33.9 |
32.7 |
18.7 |
9.4 |
21.3 |
556 |
TOOD |
—— |
—— |
33.6 |
20.4 |
32.03 |
199 |
46 |
Faster-RCNN |
—— |
—— |
32.6 |
21.7 |
41.4 |
208 |
51 |
Atss_r50_fpn |
—— |
—— |
33.8 |
20.4 |
38.91 |
110 |
47 |
Retinanet_r50_fpn |
—— |
—— |
27.6 |
16.4 |
36.517 |
210 |
58 |
Cascade-Mask-Rcnn |
—— |
—— |
32.6 |
19.7 |
69.29 |
236 |
49 |
DETR |
—— |
—— |
33.2 |
17.4 |
60 |
187 |
21 |
Deformable-DETR |
—— |
—— |
30.7 |
16.9 |
40.101 |
193 |
30 |
RB-YOLOv11s |
46.8 |
35.7 |
34.6 |
20.0 |
7.1 |
24.3 |
385 |
4.3. 检测结果可视化对比分析
Figure 6. Detection performance comparison between YOLOv11s and RB-YOLOv11s models
图6. YOLOv11s与RB-YOLOv11s模型的检测效果对比图
如图6所示,在第一列图像中,YOLOv11s错误地将左下角的背景目标识别为卡车,而RB-YOLOv11s则未产生此误检。在第二列图像中,YOLOv11s漏检了右上角的卡车,RB-YOLOv11s则能准确识别。上述对比结果表明,RB-YOLOv11s模型有效增强了对小目标的特征辨别能力,显著减少了复杂背景下的误检与漏检。
5. 结论
本文提出的RB-YOLOv11s模型是一种基于YOLOv11s的无人机航拍图像小目标检测模型,可为农业病虫害监测、交通流量分析与灾害应急评估等应用提供关键的技术支持。
在VisDrone2019数据集上的实验表明,RB-YOLOv11s模型通过重参数化幽灵跨阶段高效聚合网络RGNet和BiFPN-GLSA网络增强了小目标特征表征与多尺度融合,相比原模型YOLOv11s,RB-YOLOv11s模型的mAP50、mAP50:95分别提升了1.9%与1.3%。为适应无人机平台的部署要求,后续将通过轻量化技术降低模型的参数量和计算量。