1. 引言
随着科技与社会的发展进步,无人机红外目标检测技术[1]被越来越广泛地需求与应用,也对检测算法提出了更高要求。YOLO作为单阶段[2]目标检测算法的代表,推理速度快、轻量化程度高,高度适配部署于算力有限而又对实时检测需求高的无人机平台。因此基于YOLO框架进行针对性适配改进,是当前无人机红外目标检测领域的主要研究方向,且具有广阔的前景与可挖掘的潜力[3]。红外成像能够克服夜间照明不足、烟尘雾霾遮蔽等[4]依赖环境光照的可见光成像无法应对的挑战,但获取的红外图像也普遍存在空间分辨率低、纹理细节少、信噪比不佳等问题[5]。同时,现阶段的无人机航拍图像目标检测也仍有许多亟待解决的问题,如目标尺寸小、距离远、尺度变化大导致的特征提取困难问题[6];目标密集、相互遮挡导致的漏检误检问题[7];背景复杂、环境多变导致的检测不稳定问题[8]。无人机红外目标检测算法,尤其在检测精度方面仍存在较大提升空间。目前,在基于YOLO的无人机目标检测领域算法改进方向,已有众多研究者进行了许多工作:Zhang等人[9]引入全维度动态卷积,通过根据输入特征图的内容动态调整卷积核的权重,在保证性能与计算开销取得良好平衡的同时,有效地强化了模型的特征提取能力,更灵活准确地捕捉重要特征;Du等人[10]提出了改进的金字塔结构,在双向特征金字塔网络的基础上引入注意力机制,将尺度间的自适应加权与通道上的自适应选择相结合,更精准地提取多尺度目标的特征;Wan等人[11]在骨干网络中引入感受野注意力模块,自适应地调整每个局部感受野内特征的权重,更有效地提取和区分密集分布的小目标,同时在颈部网络中引入任务感知注意力块,自适应地激活或抑制不同的特征通道,将每一个通道的激活值均以最优方式传递至检测端。针对无人机航拍红外图像的特性与检测难点,通过卷积、金字塔结构、注意力机制的多方面创新,YOLOv11算法的特征提取与多尺度目标判别能力得到了显著强化。增加的计算复杂度处于可接受范围内的前提下,目标检测的精度与鲁棒性得到了有效提升[12],进一步满足了对无人机红外目标检测的需求。
2. YOLOv11目标检测算法
YOLO (You Only Look Once)系列算法将目标检测任务构建为一个单一的回归问题,实现“只看一次”的快速检测[13]。相较于其他版本,YOLOv11在其架构中多处引入了全新的C3K2模块以优化卷积计算方式,使用更少的参数即可取得更高的精度。其中,YOLOv11n是最轻量的版本,适用于如无人机航拍等计算资源有限而又存在实时目标检测处理需求的场景。在轻量化与高效率的同时,检测精度仍能得到保证。
YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。骨干网络主要通过交替堆叠卷积层与C3k2模块进行特征提取,末端分别加入多尺度汇聚与上下文整合的增强模块和空间重加权的特征提取模块,为后续颈部融合与检测头预测提供稳定可靠的特征支撑。颈部网络则采用双向特征金字塔结构,高层信息自上而下、低层信息自下而上双向交流传递,以实现不同尺度特征信息的融合。通过上采样将高层语义特征与低层细节特征拼接,再交由C3k2模块对拼接后的特征进行进一步处理与提炼。最终,由多个预测模块构成的检测头部分将接收来自颈部的多尺度融合特征图,并直接在这些特征图上进行目标分类与边界框回归的预测。
Figure 1. Overall network architecture of YOLOv11n
图1. YOLOv11n整体网络结构图
3. 算法改进
针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。改进后的网络架构如图2所示。
Figure 2. Network architecture of the improved model
图2. 改进模型网络结构图
3.1. 增加P2小目标检测层
在无人机红外图像中,目标往往尺寸较小、对比度偏低,经过多次下采样后在常规的P3/P4尺度上,边缘与纹理容易被削弱,网格间距又相对过大,既不易被激活,也容易产生定位偏差。为缓解上述问题,本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),直接取用浅层特征,通过1 × 1卷积完成通道对齐,与P3~P5分支并行参与预测,并在颈部与其他层级进行必要的跨层融合。
该设置的作用主要体现在两点:一方面,将浅层的边缘、纹理和位置信息保留在更高分辨率上参与检测,减少下采样带来的信息流失;另一方面,更密集的采样网格能减轻量化误差与中心偏移,使小目标更早获得稳定响应。由此,P2分支缩短了小目标从出现到被感知的路径,从源头提升了微小目标的可分离性与定位稳定性。
3.2. 双向多分支辅助特征金字塔网络
在增加P2层的基础上,本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。该结构形成四层输出,网络最终由四个不同分辨率的特征图共同完成检测,分别侧重于微小、小型、中型与大型目标,从而在保持计算开销可控的前提下覆盖更广的目标尺度范围,网络结构如图3所示。
Figure 3. BIMAFPN network architecture
图3. BIMAFPN网络结构图
为提升跨尺度信息的传递质量与可学习性,BIMAFPN将融合策略设计为加权融合,在每个融合节点对多源特征按可学习权重进行归一化组合,如式(1)所示。
(1)
其中
为各路输入特征,
为非负可训练权重,
为数值稳定项。该机制在结构上实现了更深的多尺度融合与自适应的信息分配,能够有效平衡不同尺度特征映射的贡献,减轻高层语义对低层细节的覆盖或稀释问题,进而同时提升对大尺度与小尺度目标的检出与定位表现,为后续检测头提供了更稳健、更具判别力的多尺度表征。
3.3. NWD-Inner-MPDIoU损失函数
为提升无人机场景中小目标的定位稳健性,参考NWD-MPDIoU思路,本文在预测框与真实框之间加入中心内含约束,构建NWD-Inner-MPDIoU损失函数。首先,设预测框与真实框分别如式(2)、式(3)所示,其中,
为预测框中心坐标,
为真实框中心坐标,
为预测框宽高,
为真实框宽高,则归一化高斯Wasserstein相似度的定义如式(4)所示。
(2)
(3)
(4)
其中
用中心与尺度参数的二范数距离近似,常数C用于尺度归一化。其次,MPDIoU在IoU基础上引入两框对角点(极点)距离的归一化惩罚,其形式如式(5)所示。
(5)
其中
为左上角与右下角对应点的欧氏距离,
为输入图像宽高。接着,中心内含约束刻画中心超出对方框的归一化残差距离,具体形式如式(6)所示。
(6)
最后得到NWD-Inner-MPDIoU损失函数如式(7)所示,其中,
为权衡系数,
为惩罚强度。
(7)
3.4. 动态注意力检测头
为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。采用动态检测头替代原有检测头,可以在几乎不增加计算开销的前提下显著提升模型的表征与适配能力。鉴于特征张量维度高,直接在全维度学习注意力成本过大,DyHead将注意力功能拆分为相互独立且可串联的三种机制:尺度注意力用于自适应选择更合适的金字塔层,空间注意力用于突出关键区域、缓解轻微错位带来的影响,任务注意力用于按需分配通道信息、兼顾分类与回归。三种机制依次作用于统一的金字塔特征表示,能更充分地利用高分辨率细节与高层语义,在低对比、背景复杂、目标尺度较小的红外场景中进一步提升召回与定位稳定性,其整体结构如图4所示。
Figure 4. DyHead network architecture
图4. Dyhead网络结构图
4. 实验结果与分析
4.1. 数据集
本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。该数据集专为红外热成像目标检测构建,由43,470帧视频中筛选得到的2898张红外图像组成,覆盖校园、停车场、道路、操场等典型场景,标注类别包括人、汽车、自行车、其他车辆及忽略类(DontCare),以边界框形式标注。数据按7:2:1随机划分为训练集、验证集和测试集,分别为2029张、579张和290张。不同航高带来的目标尺寸与外观差异使样本覆盖更广的尺度分布,有利于模型学习多尺度特征,从而提升对不同尺度输入的适应性与整体泛化鲁棒性。
4.2. 实验环境
本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。
4.3. 评价指标
为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。
精准率衡量预测为正样本中有多少为真正例,如式(8)所示:
(8)
召回率刻画真实正样本被模型检出的比例,其中TP、FP、FN分别表示真正例、假正例、假负例的数量,如式(9)所示:
(9)
mAP用于综合评估分类与定位效果,定义为各类别平均精度AP的均值,如式(10)所示:
(10)
GFLOPs反映前向计算的浮点运算量,数值越小表示单位样本的计算开销越低。上述指标共同用于对比权衡不同方法的精度、速度与复杂度。
4.4. 消融实验
为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。各模块与指标之间呈现清晰变化关系:小目标检测层扩展了检测尺度并细化采样网格,首带来召回率与mAP50的回升。在此基础上,双向多分支辅助特征金字塔网络通过双向多分支与加权融合强化跨层信息传递,进一步改善准确率与召回率。随后更换为NWD-Inner-MPDIoU损失函数,在低重叠与边界不清样本上提供更稳定的回归信号,在不增加结构开销的前提下继续提升精度。最后引入动态注意力检测头,在尺度、空间与通道三个维度进行自适应重加权,进一步压低误检并稳定定位,使整体性能达到表中的较高水平。
Table 1. Results of ablation experiment
表1. 消融实验结果
模型 |
P/% |
R/% |
Params/M |
GFLOPs/G |
mAP50/% |
YOLOv11n |
89.9 |
90.1 |
2.6 |
6.3 |
90.6 |
模型A |
89.8 |
90.7 |
2.9 |
6.6 |
91.3 |
模型B |
89.9 |
91.1 |
3.6 |
7.3 |
92.1 |
模型C |
90.2 |
91.3 |
3.8 |
7.6 |
92.4 |
模型D |
90.5 |
91.7 |
3.9 |
7.8 |
92.8 |
4.5. 对比实验
为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。早期检测模型的准确率与召回率处于较低水平,同时参数量和计算量偏大;随模型更新迭代,检测精度提升并显著降低开销,体现出现代轻量模型在精度与效率上的进步。与基线模型相比,本文改进模型的mAP50达到92.8%,提升2.2%。同时,召回率91.7%、准确率90.3%,分别高出基线模型1.6%和0.6%,说明对目标的检测能力和定位稳定性同步增强。代价方面,参数量由2.6 M增至3.9 M,计算量由6.3提升到7.8 GFLOPs,增幅可控,仍属轻量级。在相近开销下,改进模型的mAP50较YOLOv8n和YOLOv10n分别高出2.6%和3.2%。综合上述,所提方法在不显著增加计算成本的前提下,提升了无人机红外场景的检测性能。
Table 2. Results of comparative experiment
表2. 对比实验结果
模型 |
P/% |
R/% |
Params/M |
GFLOPs/G |
mAP50/% |
Faster R-CNN |
79.7 |
67.5 |
41.2 |
156.3 |
70.2 |
SSD |
75.1 |
67.8 |
24.5 |
87.9 |
72.1 |
YOLOv3-tiny |
70.9 |
68 |
8.9 |
17.8 |
74.5 |
YOLOv5n |
75.3 |
82.3 |
2.2 |
4.5 |
81.5 |
YOLOv6n |
79.2 |
69.6 |
4.2 |
11.8 |
72.3 |
YOLOv8n |
89.2 |
92.2 |
3 |
6.6 |
90.2 |
YOLOv10n |
88.1 |
91.2 |
2.7 |
7.8 |
89.6 |
YOLOv11n |
89.9 |
90.1 |
2.6 |
6.3 |
90.6 |
改进模型 |
90.5 |
91.7 |
3.9 |
7.8 |
92.8 |
5. 小结
本文面向无人机红外图像中“目标尺度小、对比度低、位移抖动明显”的检测难题,提出了一种基于YOLOv11n的系统化改进方案。方法在结构与学习机制上协同优化:在原有多尺度框架上增设小目标检测层,并构建双向多分支辅助特征金字塔,同时引入NWD-Inner-MPDIoU损失函数,缓解低重叠与边界模糊带来的梯度不稳,在检测头侧采用动态注意力检测头,以尺度、空间与通道的自适应建模提升特征利用效率。上述改进旨在保持轻量计算的同时,增强模型对微小、低对比目标的表征与定位能力。
基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。
尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。
基金项目
本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。
NOTES
*通讯作者。