基于深度学习的遥感图像小目标检测技术研究
Research on Small Object Detection Technology in Remote Sensing Images Based on Deep Learning
DOI: 10.12677/csa.2025.157191, PDF, HTML, XML,    科研立项经费支持
作者: 余 江, 杨晓青*:南昌职业大学校长办公室,江西 南昌
关键词: 深度学习遥感图像小目标测试技术Deep Learning Small Targets in Remote Sensing Images Testing Technology
摘要: 本文针对遥感图像小目标检测中存在的特征提取困难、背景干扰严重以及检测精度和速度难以平衡等问题,深入探讨了多种创新方法。通过对相关算法如YOLOv11系列的改进,引入新型模块与机制,显著提升了小目标检测性能。在多个公开数据集及自建数据集上的实验表明,改进后的算法在小目标检测的准确率、召回率等指标上有显著提升,为遥感图像小目标检测的实际应用提供了有力的技术支持与参考。
Abstract: This article explores various innovative methods to address the difficulties in feature extraction, severe background interference, and difficulty in balancing detection accuracy and speed in small object detection in remote sensing images. By improving related algorithms such as the YOLOv11 series and introducing new modules and mechanisms, the performance of small object detection has been significantly improved. Experiments on multiple public and self-built datasets have shown that the improved algorithm significantly improves the accuracy and recall of small object detection, providing strong technical support and reference for the practical application of small object detection in remote sensing images.
文章引用:余江, 杨晓青. 基于深度学习的遥感图像小目标检测技术研究[J]. 计算机科学与应用, 2025, 15(7): 182-194. https://doi.org/10.12677/csa.2025.157191

1. 引言

随着科技的迅猛发展,遥感技术作为现代科技的重要组成部分,正逐渐改变着我们的生活。遥感技术通过传感器收集地球表面的信息,包括图像、光谱等数据,为农业、环保、城市规划等领域提供了便捷、高效的监测手段。在农业领域,遥感技术可以实时监测作物生长环境,为农业灾害预警和农田管理提供有力支持。在环保领域,遥感技术可以捕捉海洋、陆地、大气等自然环境的实时变化,为环境保护和污染治理提供重要依据。在城市规划领域,遥感技术可以为城市规划提供全面、准确的地理信息和环境监测数据,助力城市可持续发展。

遥感图像的目标检测[1]是一个备受关注的研究方向。国内外学者已经取得了一些研究成果。Lindeberg [2]提出了一种尺度不变特征变换(SIFT)算法,该算法对图像域内的平移、旋转和缩放变换具有不变性,对适度透视变换和光照变化具有鲁棒性。Tomasi [3]提出了一种方向直方图(Histograms of Oriented Gradient, HOG)算法,采用中心差分法对已划分的大小固定图像进行梯度近似计算,并在每个单元格内累积梯度方向的直方图,再归一化处理以降低对比度的变化。Cheng等人[4]提出了一种学习旋转不变HOG特征的方法,通过改进一种新的目标函数来学习旋转不变模型,使旋转前后的训练样本具有相似特征,从而实现旋转不变性。Cai等人[5]提出了一种面向对象的遥感图像变化检测方法,通过融合Gabor纹理与马尔可夫随机场纹理等多种特征,并利用加权模糊c均值算法和Relief算法确定的特征权重,提高变化检测的准确性,降低单一权重特征带来的不确定性。Peng等人[6]提出了一种差异增强密集注意力卷积神经网络(DDCNN),旨在对双时相光学遥感图像中的变化进行有效识别。Cao等人[7]提出了一种基于Swin-Transformer和YOLOv5的融合模型,通过引入完整的交并比和改进K-means聚类算法,优化锚框生成,增强全局上下文信息提取,并采用坐标注意力机制提升特征检测精度。Chen等人[8]提出了一种全局上下文空间注意力网络(GCSANet),通过整合全局上下文空间注意力机制与密集连接的卷积网络,有效地提取了遥感场景中的多尺度全局特征。Ye等人[9]提出了一种基于自适应注意力融合机制的卷积网络(AAFM),该网络模型基于EfficientDet [10]的骨干网络,旨在自动融合最优特征信息,并克服对多尺度对象的敏感性,提高卷积神经网络在遥感目标检测中的性能。

2. 遥感图像小目标检测算法

YOLOv11模型结构及工作原理

1、YOLOv11模型结构

YOLOv11 [11]是Ultralytics公司于2024年官方发布的最新一款基于图像的深度学习模型。YOLOv11摒弃传统的卷积神经网络(CNN)骨干,转而采用Transformer架构。Transformer通过自注意力机制,能够有效捕捉长距离依赖关系,克服了CNN感受野的限制,尤其在检测小目标时表现出色。比如在复杂场景的遥感图像中,微小的建筑物或车辆等小目标,以往的CNN骨干网络可能难以精准识别,而YOLOv11的Transformer骨干网络可通过全局上下文信息,更准确地定位和分类这些小目标。其性能指标相较于前代产品有质的提高,如图1所示。

Figure 1. Performance comparison diagram between YOLOv11 and other YOLO models

1. YOLOv11与其他YOLO模型性能对比图

相较于传统的CNN骨干网络,如在早期YOLO系列中广泛应用的Darknet系列,Transformer骨干网络具有多方面的优势。CNN的卷积操作虽然在局部特征提取方面表现出色,但随着网络层数的加深,梯度消失和梯度爆炸问题逐渐凸显,限制了模型对全局信息的获取能力。此外,Transformer在参数共享方式上也与CNN不同,它通过多头注意力机制,能够同时关注图像的不同方面,学习到更丰富、更具代表性的特征,进一步提升了模型的泛化能力和检测性能。YOLOv11的网络结构如下图2所示。

Figure 2. Network architecture diagram of YOLOv11

2. YOLOv11的网络结构图

YOLOv11作为流行的目标检测算法家族中较新的一员,Jocher和他的团队[12]进行了多项改进和优化。主要有以下三个创新点:

1) 提出C3K2机制:YOLOv11引入了C3K2机制,其中C3K2模块是由C2F模块演变而来的。当参数C3k设置为False时,C3K2模块相当于C2F模块,如图3所示。

Figure 3. The second parameter of C3K2 is set to False diagram

3. C3K2第二个参数被设置为False图

当C3k设置为True时,Bottleneck模块被替换为C3k模块,C3k机制的网络结构图如图4所示。

Figure 4. C3k mechanism diagram

4. C3k机制图

2) 创造C2PSA机制:C2PSA是对C2f模块的扩展,结合了PSA (Position-Sensitive Attention:位置信息的注意力机制)模块,旨在通过多头注意力机制和前馈神经网络来增强特征提取能力。它可以选择性地添加残差结构(shortcut)以优化梯度传播和网络训练效果。同时,使用FFN可以将输入特征映射到更高维的空间,捕获输入特征的复杂非线性关系,允许模型学习更丰富的特征表示,如图5所示。

3) 引用深度可分离卷积(DWConv):YOLOv11在其分类检测模块集成了两层深度卷积(Depthwise Convolution),该设计显著削减了参数数量与计算负荷。DWConv作为一种高效卷积运算,凭借对各通道的独立处理降低了运算量,并与1 × 1的点态卷积组合,形成深度可分离的卷积(具体见图6)。

在分类检测头中,YOLOv11插入了两个DWConv,这样的做法大幅度减少参数量和计算量,原有的两个普通的Conv卷积和由3变为了1。

2、基于ACMix的自注意力机制的遥感图像小目标检测算法

ACMix乃是一种融合型架构,它巧妙地结合了自注意力单元与卷积运算各自的长处。其核心理念在于,传统卷积处理及自注意力模块中的多数运算均可借由1 × 1卷积高效完成。ACMix在初始运作时,使用1 × 1卷积来投射输入的特征图谱,进而生成一系列中间状态的特征表达。之后,它会依据自注意力或卷积这类相异的计算范式,对这些中间特征分别进行复用与整合。如此设计使得ACMix既能利用自注意力的全局感知优势,又能通过卷积捕捉局部细微特征,从而在控制运算成本的同时,提升模型整体性能。整体算法结构如图7所示。

Figure 5. C2PSA mechanism diagram

5. C2PSA机制图

Figure 6. Comparison diagram of decoupling heads between YOLOv8 and YOLOv11

6. YOLOv8与YOLOv11解耦头对比图

Figure 7. Structure schematic diagram of YOLO-ACMix algorithm

7. YOLO_ACMix算法结构示意图

ACMix模型关键的改良机制可归纳为两大方面。其一为自注意力与卷积的协同整合。此法将自注意力技术及卷积技术加以融合,旨在实现两者优点的结合。其二则是运算的解析及重塑。此概念是指将传统的卷积运算和自注意力运算予以拆分,随后重新构建为效率更高的形式。

1) 自注意力与卷积的协同整合

自注意力与卷积的协同整合具体途径包括:

(a) 特征的拆解:自注意力机制中的查询(query)、键(key)、值(value)以及卷积操作均通过11卷积进行特征拆解。

(b) 运算资源共享:卷积路径和自注意力路径共用相同的1 × 1卷积运算,借此减少了重复计算。

(c) 特征的融汇:在ACMix模型内部,由卷积与自注意力产生的特征通过求和操作进行合并,以此增强模型的特征提取效能。

(d) 模块化的设计理念:ACMix因其模块特性,能够灵活植入到多样化的网络体系之中,并有助于优化网络的特征展现能力。

Figure 8. Convolution, self-attention, and ACMix construction and computational overhead diagram

8. 卷积、自注意力及ACMix构造与计算开销图

图8阐明了ACMix的核心理念,它对卷积、自注意力机制以及ACMix自身的结构和计算开销进行了对比分析。图中内容细分如下:

(a) 卷积模块:展示了其标准运作流程,其中包含一个K平方(K2)规模的1 × 1卷积环节,这代表了卷积核的尺寸范畴及卷积运算的聚合效应。

(b) 自注意力机制:阐释了此种自注意力构造,其关键在于三次使用1 × 1卷积,这种设计体现了多头架构下各个头部的线性变换过程,并且整合了自注意力机制的聚合步骤。

(c) ACMix:介绍了ACMix (即本研究提出的方法),它融合了卷积与自注意力的聚合功能,关键之处在于1 × 1卷积在这两种路径间实现了共享,目的在于降低运算耗费并集成轻量化的聚合操作。

从整体上看,ACMix致力于通过共享计算组件(特别是1 × 1卷积)并结合两种相异的聚合方式,来优化特征通道层面的计算复杂度。

2) 运算的解析及重塑

在ACMix架构体系内,所谓运算的解析及重塑,其核心要义在于对传统的卷积操作及自注意力计算过程进行拆解,并将其转变成一种更具运行效率的实现形式。此方法主要通过下列步骤得以达成:

(a) 对卷积与自注意力进行分解处理:此举将标准的卷积核心拆分为数个1 × 1卷积单元,各单元用以处理不同的特征区域;此外,自注意力组件中用以产生查询(query)、键(key)与数值(value)的过程,也被转换为基于1 × 1卷积的运算。

(b) 重构为集成的混合模块:接着,这些经过分解的运算被重新构建为一个一体化的混合式模块,该模块既保有卷积获取空间细节的专长,也融合了自注意力执行全局信息聚合的独特优势。

(c) 提升整体运算效能:此种分解及重塑的方案,由于有效地减少了重复性的计算步骤,因此显著增强了运算的综合效率,并同步减轻了模型构建的内在复杂性。

Figure 9. Construction diagram of ACMix mixing module

9. ACMix混合模块构造图

图9清晰地展示了ACMix所提出的混合模块的构造。该图具体阐释如下:

(a) 卷积模块:关于卷积操作,其中尺寸为3 × 3的卷积是借由1 × 1卷积方法被拆解的,此部分揭示了特征映射的变换流程。

(b) 自注意力机制:说明了输入信号首先被变换为查询(query)、键(key)以及数值(value),此过程是运用1 × 1卷积来达成的,且经由相似性的匹配来运算注意力分配的权重。

(c) ACMix:阐述了ACMix本身,它融合了前述(a)与(b)两部分的特性;其初始步骤运用三次独立的1 × 1卷积来对输入特征映射执行投射操作,接下来的阶段则将两条不同路径所获得的特征予以加和,以此形成最终的输出结果。

图8揭示了ACMix单元的运作流程,着重突出了两种核心机制的有机结合,并且给出了各个运算单元所对应的计算开销。

3. 数据集构建与处理

3.1. 数据集的获取

在机器学习任务中,特别是在目标侦测方面,合适的数据集选择至关重要。数据集不仅直接影响着模型的表现与精确度,还会对实际应用效果产生长远影响。为完成目标识别任务,本实验中使用的是DOTA数据集[13],是由Google earth等卫星拍摄,数据集由12,013张图像组成,包含188,282个实例,共有15种分类。如图10所示,该数据集有15种不同的目标分类,分别为飞机、棒球场、桥梁、操场跑道、小型车辆、大型车辆、轮船、网球场、篮球场、储油罐、足球场、环路、港口、游泳池和直升机。图片的分辨率范围从400 × 400至4000 × 4000,涵盖了各种方向和形状的目标。其中,训练集、验证集和测试集之间是严格独立的。

Figure 10. Distribution diagram of the number of categories in the dataset

10. 数据集中各类别数量分布图

3.2. 数据集的预处理与标注

1) 数据集的预处理

数据集预处理是保证模型训练效果的关键步骤,特别是在处理图像数据时,统一图片尺寸有助于提升模型的稳定性和性能。为此,本研究利用Roboflow平台对所有图片进行了尺寸规范化处理成416 × 416,确保输入数据的一致性,从而优化训练过程和模型表现。如图11所示。

Figure 11. Preprocessed data diagram of Roboflow platform

11. Roboflow平台预处理数据图

2) 数据集标注

本文标注采取人工标注。标注工具是LabelImg。其操作界面简洁,通过手动绘制矩形框,精确框选遥感图像中的小目标,并赋予相应的类别标签。在标注过程中,需严格遵循统一的标注规范,例如对于车辆目标,明确规定无论车辆处于静止还是行驶状态,只要能清晰识别轮廓,均需标注。人工标注虽然耗时耗力,但能够保证标注的高质量。标注界面如图12所示。

Figure 12. LabelImg labeling diagram

12. LabelImg标注图

3.3. 数据集的划分与分析

本文通过随机划分的方式,将资料集划分为训练、验证及测试三组,各组比例定为7:2:1。数据分配详情如下:训练集部分涵盖了8408幅图片资料,验证部分持有2402幅,而测试部分则包括1203幅。采用此种划分方案,其目的在于确保各个数据组别均能充分地代表整体样本并且维持分布上的均衡状态。

Table 1. Statistics table of the number of various labels in the dataset

1. 数据集各类标签数量统计表

标签

Car

Track

Plane

Ship

Tennis

训练集

4918

700

700

1400

690

验证集

1405

200

200

400

197

测试集

703

100

100

200

100

总计

7026

1000

1000

2000

987

表1中,各类别的样本数量表现不均衡,尤其是car和ship类样本比较多,而track、plane和tennis类样本比较少,符合小目标种类多样性特征,适合运用于多任务学习场景。验证集所含样本的规模,约占训练样本总量的百分之二十五。整体图像资料数量相当可观,特别是在car和ship这两个类别上,为模型学习过程奠定了坚实的数据基础。此数据集适于构建能够辨识不同类别的模型,进而有助于提升其泛化性能。验证与测试部分的样本规模合理,这将有助于精确衡量所建模型的实际效能。配合适宜的预处理技术及训练策略,可有效利用此图像资料在模型构建与成效评估环节的价值。

4. 实验分析

1) 算法性能分析比较

为了进一步验证改进算法在遥感图像目标检测任务中的性能,本实验中将YOLOv5 [14]、YOLOv11和本文算法作为对比实验,为确保比较的公正性,各项实验中的YOLO模型均使用了相同的数据资料来源及一致的划分标准,并且训练阶段的超参数设定也维持不变。实验结果如下图13所示。

各模型的实验评估趋势在图11中得以呈现。图中清晰列示了关键性能指标,例如召回率、mAP和精度。其中YOLOv11的mAP达到最高,但其召回率和精度并不是最高。从图中可以看出从YOLOv5至YOLOv11_ACMix模型的精确度不断提高,YOLOv11_ACMix的精度最高。

Figure 13. Comparison diagram of YOLOv5, YOLOv11 and YOLOv11_ACMix models

13. YOLOv5、YOLOv11和YOLOv11_ACMix模型对比图

Table 2. Detailed experimental results table of animal identification

2. 动物识别详细实验结果表

模型

指标

综合

Car

Track

Plane

Ship

Tennis

YOLOv5

mAP

0.923

0.993

0.812

0.902

0.995

0.913

Recall

0.894

0.981

0.765

0.862

0.988

0.875

YOLOv11

mAP

0.925

0.991

0.831

0.891

0.995

0.915

Recall

0.892

0.975

0.779

0.857

0.998

0.854

YOLOv11_ACMix

mAP

0.924

0.993

0.827

0.890

0.995

0.917

Recall

0.899

0.981

0.787

0.847

0.995

0.885

表2中列出了所有实验详细数据信息,从综合指标上看,YOLOv11的mAP最高,达到92.5%,而YOLOv11_ACMix的召回率和精确度最高,分别为89.9%和96.3%。YOLOv11_ACMix模型表现效果最好。具体从召回率(recall)和平均精确度均值(mAP)两个方面进行分析。在mAP指标上,YOLOv11表现最佳,总体mAP达到92.5%。此外,YOLOv11_ACMix总体mAP数值仅次于YOLOv11,达到了92.4%。而YOLOv5的整体mAP也达到了92.3%。在召回率方面,YOLOv11_ACMix的综合召回率排名最高,达到89.9%。

根据表3的数据,对以上三种模型的浮点数和参数量展开对比分析。YOLOv5在FLOPs上高于YOLOv11和YOLOv11_ACMix,但Parameters低于YOLOv11和YOLOv11_ACMix,而YOLOv11与YOLOv11_ACMix的FLOPs相等,但YOLOv11的Parameters低于YOLOv11_ACMix的Parameters。较低的参数量和较低的FLOPs意味着模型更加轻量化,计算效率更高,运行速度更快。综合分析表2表3的数据可见,YOLOv11_ACMix在识别准确性与运算速度两方面均有出色建树,因此更适合应用于小目标识别的应用场景之中。

Table 3. Comparison table of floating-point numbers and parameter quantities for YOLOv5, YOLOv11, and YOLOv11_ACMix models

3. YOLOv5、YOLOv11和YOLOv11_ACMix模型浮点数和参数量对比表

选取模型

FLOPs (G)

Parameters

YOLOv5

7.1

2,503,319

YOLOv11

6.3

2,583,127

YOLOv11_ACMix

6.3

2,593,359

2) 可视化结果分析

图14展示了YOLOv11_ACMix模型在训练阶段的收敛表现曲线。观察此图可知,该模型的收敛进程展现出平稳且迅速的特性,约在100个训练周期之后趋于稳定。此种现象表明,YOLOv11_ACMix模型在应对动物识别类任务时,具备了良好的运行稳定性与卓越的数据拟合效果。另外,模型能够迅速收敛也反映出其在学习阶段可以高效捕捉数据集内的核心特征,从而减小了发生过拟合的可能性。这不仅增强了模型在实际应用中的可靠度,亦为后续的改进与功能拓展奠定了基础。借由对数据资料集的优化或对训练参数的精细调整,有望进一步提升其检测的精确度及泛化适应性,从而更好地契合实际应用场景的需要。

Figure 14. YOLOv11_ACMix model training convergence diagram

14. YOLOv11_ACMix模型训练收敛图

图15展示了应用本文提出的算法得到的一系列可视化结果,这些结果证明了算法在处理多样化背景下的车辆检测任务上的卓越性能。无论是穿梭于城市道路的轿车、停泊在停车场的轿车、隐藏在住宅区间的汽车,还是停靠在路边的各类车辆,算法均能够以高度的准确性进行识别和定位。

Figure 15. Visualization diagram of test results

15. 检测结果可视化图

5. 结束语

本文深入探讨了遥感图像小目标检测问题,并基于YOLOv11网络开发了一种先进的目标检测网络:YOLOv11_ACMix,提出了一种基于ACMix的自注意力机制的遥感图像小目标检测算法,这种算法在处理具有复杂背景的水平和有向标注数据集时,展现出了优异的检测性能。

基金项目

2022年江西省教育厅科学技术研究项目(GJJ2204508)。

NOTES

*通讯作者。

参考文献

[1] Zou, Z., Chen, K., Shi, Z., Guo, Y. and Ye, J. (2023) Object Detection in 20 Years: A Survey. Proceedings of the IEEE, 111, 257-276.
https://doi.org/10.1109/jproc.2023.3238524
[2] Lindeberg, T. (2012) Scale Invariant Feature Transform. Scholarpedia, 7, Article 10491.
https://doi.org/10.4249/scholarpedia.10491
[3] Tomasi, C. (2022) Histograms of Oriented Gradients. Computer Vision Sampler, 1-6.
[4] Cheng, G., Zhou, P., Yao, X., Yao, C., Zhang, Y. and Han, J. (2016) Object Detection in VHR Optical Remote Sensing Images via Learning Rotation-Invariant HOG Feature. 2016 4th International Workshop on Earth Observation and Remote Sensing Applications (EORSA), Guangzhou, 4-6 July 2016, 433-436.
https://doi.org/10.1109/eorsa.2016.7552845
[5] Cai, L., Shi, W., Hao, M., Zhang, H. and Gao, L. (2018) A Multi-Feature Fusion-Based Change Detection Method for Remote Sensing Images. Journal of the Indian Society of Remote Sensing, 46, 2015-2022.
https://doi.org/10.1007/s12524-018-0864-1
[6] Peng, X., Zhong, R., Li, Z. and Li, Q. (2021) Optical Remote Sensing Image Change Detection Based on Attention Mechanism and Image Difference. IEEE Transactions on Geoscience and Remote Sensing, 59, 7296-7307.
https://doi.org/10.1109/tgrs.2020.3033009
[7] Cao, X., Zhang, Y., Lang, S. and Gong, Y. (2023) Swin-Transformer-Based YOLOv5 for Small-Object Detection in Remote Sensing Images. Sensors, 23, Article 3634.
https://doi.org/10.3390/s23073634
[8] Chen, W., Ouyang, S., Tong, W., Li, X., Zheng, X. and Wang, L. (2022) GCSANet: A Global Context Spatial Attention Deep Learning Network for Remote Sensing Scene Classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15, 1150-1162.
https://doi.org/10.1109/jstars.2022.3141826
[9] Ye, Y., Ren, X., Zhu, B., Tang, T., Tan, X., Gui, Y., et al. (2022) An Adaptive Attention Fusion Mechanism Convolutional Network for Object Detection in Remote Sensing Images. Remote Sensing, 14, Article 516.
https://doi.org/10.3390/rs14030516
[10] Tan, M., Pang, R. and Le, Q.V. (2020) EfficientDet: Scalable and Efficient Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10778-10787.
https://doi.org/10.1109/cvpr42600.2020.01079
[11] https://github.com/ultralytics/ultralytics
[12] Jegham, N., Chan, Y.K. and Marwan, A. (2024) Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors. arXiv: 2411.00201v1.
[13] Xia, G., Bai, X., Ding, J., Zhu, Z., Belongie, S., Luo, J., et al. (2018) DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 3974-3983.
https://doi.org/10.1109/cvpr.2018.00418
[14] Liu, Y., Shao, Z. and Hoffmann, N. (2021) Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions. arXiv: 2112.05561.