基于改进YOLOv8的轻量化农业害虫检测算法
A Lightweight Agricultural Pest Detection Algorithm Based on Improved YOLOv8
摘要: 针对农业害虫检测任务中普遍存在的模型计算开销大、小尺度目标识别能力不足以及复杂背景干扰严重等问题,本文提出了一种名为C3Ghost-EMA YOLOv8的轻量化目标检测方法。该方法以YOLOv8为基础架构,通过引入GhostConv轻量化卷积算子及C3Ghost模块来优化网络结构,在保证特征表达能力的同时有效缩减模型参数规模并降低计算复杂度,进而实现网络结构的轻量化。在此基础上,通过在网络颈部结构中嵌入高效多尺度注意力机制(EMA),利用跨维度并行交互与多尺度特征融合策略,增强模型对小目标害虫的感知与定位能力。基于自建IP9害虫数据集的实验结果表明,所提方法在实现显著轻量化的同时保持了较高的检测精度,其参数量仅为1.91 M并使计算量降低至5.7GFLOPs,较基准YOLOv8模型分别减少约39.4%和36.0%,且mAP@0.5达到81.3%,相比原模型提升了5.9%。实验数据验证了C3Ghost-EMA YOLOv8在检测精度与推理效率之间取得了良好平衡,从而为资源受限场景下农业害虫的实时智能检测提供了一种有效且可行的解决方案。
Abstract: Targeting the prevalent issues in agricultural pest detection tasks—such as high model computational overhead, insufficient capability for small-scale object recognition, and severe interference from complex backgrounds—this paper proposes a lightweight object detection method named C3Ghost-EMA YOLOv8. Based on the YOLOv8 architecture, the proposed method introduces the GhostConv lightweight convolution operator and the C3Ghost module to optimize the network structure. This approach effectively reduces the model parameter size and computational complexity while maintaining feature expression capability, thereby achieving a lightweight network structure. Furthermore, an Efficient Multi-Scale Attention (EMA) mechanism is embedded into the network neck structure. By utilizing cross-dimensional parallel interaction and multi-scale feature fusion strategies, this mechanism enhances the model’s perception and localization capabilities for small pest targets. Experimental results on a self-constructed IP9 pest dataset demonstrate that the proposed method achieves significant lightweighting while maintaining high detection accuracy. The model’s parameter count is only 1.91 M, and the computational load is reduced to 5.7 GFLOPs, representing reductions of approximately 39.4% and 36.0%, respectively, compared to the baseline YOLOv8 model. Meanwhile, the mAP@0.5 reaches 81.3%, an improvement of 5.9% over the original model. These experimental data verify that C3Ghost-EMA YOLOv8 achieves a favorable balance between detection accuracy and inference efficiency, providing an effective and feasible solution for real-time intelligent agricultural pest detection in resource-constrained scenarios.
文章引用:李奥, 严碧波. 基于改进YOLOv8的轻量化农业害虫检测算法[J]. 建模与仿真, 2026, 15(2): 72-84. https://doi.org/10.12677/mos.2026.152035

1. 引言

农业作为国民经济的重要基础性产业,在保障粮食安全并促进社会经济稳定发展中发挥着不可替代的作用。然而,作为影响农作物生长与产量的主要生物胁迫因素之一[1],农业害虫的发生范围与危害程度呈现出明显上升趋势,对农业生产体系与粮食安全构成了严峻挑战。因此,研发高效且精准的农业害虫检测与识别技术,对于实现精准植保管理、降低化学农药施用强度并推动农业可持续发展具有重要的现实意义和应用价值[2]

传统的农业害虫识别主要依赖人工观测与专家经验判断,不仅检测效率较低且受主观因素影响显著,从而难以满足大规模自动化监测的实际需求。随着计算机视觉技术的发展,研究者开始尝试利用基于图像处理的边缘、颜色与纹理等特征工程方法开展害虫识别研究,但此类方法对复杂田间环境的适应能力有限,在光照变化、背景干扰及目标尺度差异较大的场景中往往表现出泛化性能不足的缺陷。近年来,深度学习技术的快速发展尤其是卷积神经网络(CNN)在图像理解领域的广泛应用为农业害虫自动检测提供了新的技术路径,相关研究表明基于深度特征的模型在复杂背景下具备更强的特征表达与鲁棒性。例如,Cheng等利用深度卷积神经网络实现了储粮害虫图像的自动分类[3];Ding和Taylor基于CNN对诱捕器图像中的害虫目标进行了检测与计数[4];Shen等人采用Faster R-CNN框架在复杂背景条件下实现了储粮害虫的有效检测[5];此外,Li等通过引入多尺度图像增强策略,显著提升了模型对尺度变化显著害虫目标的识别性能[6]。上述研究充分验证了深度学习方法在农业害虫检测领域的应用潜力,但在模型复杂度控制与小目标检测精度方面仍存在进一步优化空间。

在众多目标检测模型中,YOLO (You Only Look Once)系列模型凭借端到端的单阶段检测架构与较高的推理效率,在实时目标检测任务中得到了广泛应用。该类方法通过将目标定位与类别预测统一建模为回归问题,实现了在单次前向传播过程中同时完成检测与分类,在速度与精度之间取得了较好的平衡。因此,YOLO系列模型逐渐成为农业害虫实时检测领域的重要研究方向之一。现有的YOLO模型在面对高比例小目标与复杂背景干扰时,往往需要通过增加网络深度或宽度来提升检测精度,从而导致模型参数规模与计算开销显著增加,限制了其在资源受限设备上的部署与应用。因此,如何在保证检测精度的前提下,实现模型的轻量化设计并增强其对多尺度小目标的检测能力,仍然是当前农业害虫检测研究中解决的关键问题。

针对上述问题,本文提出了一种基于YOLOv8的轻量化害虫检测模型C3Ghost-EMA YOLOv8。该方法在兼顾检测精度与计算效率的前提下,对网络结构与特征增强机制进行了优化。本文的主要贡献可概括如下:

(1) 在YOLOv8的颈部网络中引入高效的多尺度注意力机制(Efficient Multi-Scale Attention, EMA),通过跨维度并行交互与多尺度空间上下文建模,实现对关键通道与空间区域的自适应增强,有效提升了模型在复杂背景下对小尺度及遮挡害虫目标的特征感知与定位能力。

(2) 引入基于GhostNet的轻量化设计思想,以GhostConv替换部分标准卷积算子,并使用C3Ghost模块替代原有的C2f模块,在保持特征表达能力的同时显著降低模型参数与计算复杂度,提高了模型在资源受限设备上的部署可行性。

(3) 在自构建的IP9害虫数据集上对所提出模型进行了系统实验验证,结果表明,该方法在参数量与计算开销大幅降低的情况下仍保持了较高的检测精度,验证了所提出改进策略的有效性与实用价值。

2. 数据集

本文实验所用的IP9数据集源自公开数据集IP102,即通过从中筛选出9类常见的农业害虫图像进而构建而成,图1为数据集中的部分样本示例。为了深入了解数据集中目标的尺度与空间分布特性,本文对IP9数据集中所有标注边界框的中心坐标(x, y)、宽度(width)和高度(height)进行了统计分析,结果如图2所示。图中对角线上的直方图分别给出了各变量在[0, 1]归一化坐标下的分布情况,可以看到,大部分边界框宽度和高度集中在较小的取值范围内,说明小尺度害虫目标在数据集中占据大多数;非对角线子图展示了不同变量之间的联合分布关系,其中(x, y)的散点分布表明目标在图像中心区域出现的概率更高,而(width, height)的二维密度图则进一步印证了小目标占比较大的特点。综上,该数据集不仅包含复杂背景和多样光照条件,而且以小尺寸害虫目标为主,这意味着模型的小目标检测性能对整体检测效果具有很大影响,也从数据层面说明了在轻量化设计的同时增强小尺度目标检测能力的必要性。

Figure 1. Example images of some samples from the IP9 dataset

1. IP9数据集中部分样本图像示例

Figure 2. Statistics of the true boundaries of targets in the IP9 dataset

2. IP9数据集目标的真实边界统计

3. 方法

本研究的核心是在YOLOv8模型引入GhostConv轻量化卷积、C3Ghost模块以及多尺度注意力机制,旨在提高模型对于小目标害虫的检测能力并减少模型的计算量。

3.1. YOLOv8

Figure 3. The overall architecture of the YOLOv8 model

3. YOLOv8整体模型架构图

YOLOv8模型在继承端到端检测框架与高效推理特性的基础上对网络结构与训练策略进行了进一步优化,并综合了YOLOv5、YOLOv6及YOLOX等方法的设计优势,从而在检测精度、推理速度与模型泛化能力之间实现了较为合理的平衡。鉴于YOLOv8在实时检测任务中的良好性能表现及其较强的工程可扩展性,本文选择其作为基础检测框架并在此之上针对农业害虫检测中小目标比例高、背景复杂以及计算资源受限等特点对网络结构进行有针对性的改进与优化,YOLOv8整体模型架构如图3所示。

3.2. EMA注意力机制

在实际农业害虫检测场景中,目标往往呈现出尺度差异显著、形态细微且易受复杂背景干扰等特点,尤其是小尺度害虫目标,其判别特征在深层网络中容易被弱化或淹没。传统注意力机制多侧重于单一维度的信息建模,例如通道注意力主要刻画不同通道之间的重要性关系,而空间注意力侧重于突出关键空间区域,二者在多尺度细粒度特征建模方面均存在一定局限性,难以同时兼顾局部细节与全局上下文信息。

为解决小尺度害虫特征在深层网络中易被弱化以及传统注意力机制难以兼顾局部细节与全局上下文的问题,我们在YOLOv8颈部网络中引入了高效多尺度注意力机制(EMA)。EMA模块结构如图4所示,该模块采用并行的双路径结构,通过跨维度交互与多尺度空间上下文建模,在保持较低计算开销的同时实现了对关键通道与空间区域的自适应增强。该机制能够有效捕获像素级的成对关系并突出害虫目标的显著特征,进而显著提升模型在复杂背景下对小目标及遮挡目标的感知能力与定位精度[7]

Figure 4. Structure of the Efficient Multi-Scale Attention (EMA) module

4. EMA模块结构图

3.3. 基于Ghost模块的轻量化设计

为降低模型复杂度与计算开销,使其更适合在资源受限的设备中部署,本工作引入了GhostConv轻量化卷积及其衍生模块,对YOLOv8的基础结构进行了替换与优化。

GhostConv是一种高效的轻量化卷积算子,如图5所示,其核心思想在于利用线性变换生成“幻影”特征图来替代部分冗余的标准卷积计算,从而在保证特征信息完整性的前提下大幅减少参数量与运算成本[8]

Figure 5. Schematic diagram of the GhostConv lightweight convolution

5. GhostConv轻量化卷积示意图

在此基础上,我们进一步构建了由GhostBottleneck单元级联而成的C3Ghost模块来替换原有的C2f结构,其结构如图6所示,通过并行分支与残差连接的高效设计,该模块在显著降低计算复杂度的同时维持了对多尺度特征的强大提取能力,最终实现了模型结构的深度轻量化[9]

Figure 6. Structure of the C3Ghost module

6. C3Ghost模块结构图

3.4. 改进后的模型结构

图7展示了改进后的C3Ghost-EMA YOLOv8模型架构。基于原YOLOv8模型架构,我们进行了三方面的系统性改进:在模型的颈部网络中嵌入高效多尺度注意力模块以通过其并行的跨维度交互路径与多尺度空间上下文提取机制实现对不同尺度目标的特征自适应增强,同时采用轻量化卷积模块GhostConv替代原模型中的部分标准卷积层以在保持特征表达能力的同时大幅降低模型的计算复杂度和参数量,并将原模型中的C2f模块替换为C3Ghost模块以在实现多尺度特征高效提取的同时进一步减少冗余计算,从而在维持模型表征能力的前提下显著提升特征提取的效率。

Figure 7. Architecture of the improved C3Ghost-EMA YOLOv8 model

7. 改进后的C3Ghost-EMA YOLOv8模型架构图

3.5. 特征图可视化分析

为了从特征表示角度验证Ghost模块与EMA注意力机制的有效性,本文对原始YOLOv8模型与改进后C3Ghost‑EMA YOLOv8模型的部分中间特征进行了可视化分析。我们在相同输入图像(图8)和网络配置下,利用Ultralytics YOLOv8框架导出指定层的输出特征,将各通道沿通道维度进行加和融合(Merged: sum),得到单通道的合并特征图。

Figure 8. Test case image

8. 测试用例图片

图9给出了原始YOLOv8中第3层标准卷积(Conv)与改进模型中第3层GhostConv的特征图对比。可以看到,原模型Conv层的特征图(图9左)虽然在害虫头部附近存在较强响应,但背景区域仍保留了较多离散激活;相比之下,采用GhostConv后(图9右),害虫整体轮廓更加完整清晰,翅膀和躯干等结构呈现连续的高响应区域,而背景噪声明显减弱。这表明GhostConv在减少卷积计算量的同时,仍能够有效捕获虫体的边缘和纹理信息。

Figure 9. Comparison of feature maps before and after introducing GhostConv in the third layer of the model

9. 模型第3层引入GhostConv前后特征图的对比

图10展示了原始YOLOv8第6层C2f模块与改进模型第6层C3Ghost模块的特征图对比影响。由图10 (左)可以看出,C2f层的响应较为分散,害虫目标与周围背景区域的激活强度差异不够明显;而C3Ghost层的特征图(图10 (右))在害虫头部和胸部等关键部位形成了更加集中的高响应区域,背景区域整体亮度较低,前景与背景的对比更为清晰。

Figure 10. Comparison of feature maps before and after introducing C3Ghost in layer 6 of the model

10. 模型第6层引入C3Ghost前后特征图的对比

Figure 11. Comparison of feature maps before and after introducing EMA at the 17th layer of the model’s neck

11. 模型颈部第17层引入EMA前后特征图的对比

为验证EMA注意力机制在抑制背景干扰和聚焦目标区域方面的作用,本文选取了颈部网络中接近检测头的高层特征进行对比,可视化结果如图11所示。原始YOLOv8在对应位置的Concat/C2f层合并特征图(图11 (左))中,害虫周围的背景区域仍存在较强激活,目标与背景之间的响应差异有限;在引入EMA模块后,改进模型第17层的特征图(图11 (右))在害虫主体区域呈现出更强、更集中的高响应,而图像边缘和背景区域的激活明显被限制,虫体轮廓更加突出。该结果表明,EMA能够通过多尺度空间上下文建模和跨维度特征交互,自适应地增强与害虫相关的关键区域,减弱不相关背景信息,从而有效提升小尺度及遮挡害虫目标的感知与定位能力。

4. 实验结果与分析

4.1. 实验环境

训练所使用的计算机配置如下:英特尔Core i5处理器、NVIDIA GeForce RTX 2060 GPU、16 GB内存和1 TB SSD。实验在Windows10专业版64位操作系统上进行,python版本是3.9.7,主要的深度学习框架为torch1.10.2。

4.2. 评估标准

本研究选择精准率(P)、召回率(R)、平均精确率(AP)和均值平均精确率(mAP)、F1分数作为评估指标,计算公式见式(1~5)。其中精确率,为正类的样本所占的比例,反映了模型预测结果的准确性,召回率,是模型在所有实际为正类的样本中,正确预测为正类的样本所占的比例,反映了模型的检测能力,平均精确率是精确率在不同召回率水平下的积分平均值,均值平均精确率是所有类别AP的算术平均值,F1分数是精确率与召回率的调和平均数,用于平衡二者的权重。

Precision( P )= TP TP+FP (1)

Recall( R )= TP TP+FN (2)

A P i = 0 1 P i ( R i )d R i (3)

mAP= 1 C i=1 C A P i (4)

F1= 2×P×R P+R (5)

式中TP表示真正例,指被模型正确识别为害虫的目标数量;FP表示假正例,指被模型错误识别为害虫的背景或其他物体数量;FN表示假负例,指未被模型检测出来的真实害虫目标数量;P(R)表示精确率-召回率曲线(P-R曲线)函数,表示在不同召回率P下对应的精确率R值;C表示数据集中害虫的类别总数(在本研究IP9数据集中,C = 9)。

4.3. 实验结果

图12为改进模型的精确率–召回率(P-R)曲线,改进后的C3Ghost-EMA YOLOv8模型mAP可达81.3%,最高AP达到99.4%;

图13为F1分数曲线,改进后的C3Ghost-EMA YOLOv8模型总体F1分数达到76%,在所有类别上的F1分数均有不同程度的提升,尤其是在置信度阈值较高时表现更为明显。

Figure 12. P-R curve and mAP@0.5 results of the improved model on the test set

12. 改进模型在测试集上的P-R曲线及mAP@0.5结果

Figure 13. F1 score curve of the improved model

13. 改进模型的F1分数曲线

为了更直观地验证改进模型的实际检测效能,我们在IP9测试集上进行了可视化推理实验,部分检测结果如图14所示。图中展示了模型在多样化场景下的表现,涵盖了不同种类的害虫目标。观察结果表明,即使面对复杂的背景干扰、多变的光照条件以及不同尺度的目标形态,改进后的模型依然能够精准地定位害虫位置并给出较高的置信度分数。

Figure 14. Visualization of partial detection results on the IP9 test set

14. 测试集上的部分检测结果可视化

4.4. 其他经典模型的比较

为验证C3Ghost-EMA YOLOv8模型的有效性与优越性,本研究在相同数据集与实验环境下将其与基于卷积架构的RepVGG、AlexNet,基于Transformer架构的Vision Transformer以及改进前的基准模型YOLOv8等当前主流的目标检测模型进行了综合性能对比。各模型的参数量、计算复杂度、精度、召回率、平均精度均值(mAP@0.5)与F1分数等关键性能指标如表1所示。

Table 1. Performance comparison of different detection models on the IP9 dataset

1. 不同检测模型在IP9数据集上的性能对比

Model

Params(M)

P

R

mAP@0.5

GFLOPs

F1

YOLOv8

3.15

69.73

73.69

75.41

8.9

71

RepVGG

12.82

65.02

64.66

69.51

2.64

64.57

Twins-PCVT

43.32

42.41

34.67

43.55

6.45

34.88

Vision Transformer

88.19

47.52

41.85

49.08

16.86

42.63

AlexNet

57.04

42.89

44.41

54.44

0.71

43.38

C3Ghost-EMA YOLOv8

1.91

72.67

77.57

81.34

5.7

76

实验结果表明,我们的C3Ghost-EMA YOLOv8模型在保持轻量化的同时,在检测精度与计算效率上均表现出显著优势。C3Ghost-EMA YOLOv8的参数量仅为1.91M,低于原版的YOLOv8模型及其他对比模型。在检测性能方面,其mAP@0.5达到81.34%,较原版YOLOv8模型提升5.93%,同时也优于其他对比模型。除此之外,我们模型的准确率与召回率分别达到77.57%与72.67%,在各类模型中也处于领先水平,体现出良好的检测稳健性。在计算效率方面,本模型的计算量为5.7GFLOPs,低于原始YOLOv8,此外,本模型的F1分数达到76%,在各项对比中均为最优,进一步说明其在综合性能上的均衡优势。

综上所述,C3Ghost-EMA YOLOv8在保持较低参数量与计算负担的同时实现了检测精度的显著提升,验证了本研究在轻量化设计与特征增强方面的改进有效性并体现了其在资源受限的实际应用场景中具有良好的部署潜力。

4.5. 消融实验

在本研究中,我们通过一系列的消融实验来评估每一项模型改进对C3Ghost-EMA YOLOv8模型性能的影响。结果如表2所示。

Table 2. Ablation study results of the impact of improvement strategies on model performance

2. 改进策略对模型性能影响的消融实验结果

Model

Params(M)

mAP@0.5

GFLOPs

YOLOv8

3.15

75.4

8.9

YOLOv8 + EMA

3.01

78.8

8.3

YOLOv8 + C3Ghost

1.72

80.3

5.2

C3Ghost-EMA YOLOv8

1.91

81.3

5.7

原始YOLOv8模型在3.15M的参数量下实现了75.4%的mAP@0.5,虽然在基础任务上表现出色但模型的计算复杂度相对较高(GFLOPs为8.9)。在引入EMA模块后(YOLOv8 + EMA),参数量略微减少至3.01 M且mAP@0.5显著提高至78.8%并使GFLOPs下降至8.3,这表明EMA模块有效增强了模型对多尺度特征的关注并提高了检测精度,同时优化了计算资源的使用。而在引入C3Ghost模块后(YOLOv8 + C3Ghost),参数量大幅减少至1.72 M且mAP@0.5提升至80.3%并使GFLOPs显著降低至5.2,这表明C3Ghost模块在保持甚至提高模型精度的同时有效地减少了模型的计算复杂度。最终结合了C3Ghost和EMA模块的C3Ghost-EMA YOLOv8模型参数量为1.91 M,mAP@0.5进一步提升至81.3%且GFLOPs为5.7,这表明这两个模块的结合不仅提升了模型的检测精度还在资源使用效率方面有显著的提升。

5. 结论

本文针对农业害虫检测中模型计算开销大、小目标识别能力弱的问题,提出了一种轻量化的C3Ghost-EMA YOLOv8算法。该方法通过引入GhostConv与C3Ghost模块显著降低了模型参数量(降低39.4%)与计算复杂度(降低36.0%),并通过嵌入EMA注意力机制增强了对小尺度害虫的特征捕捉能力,使mAP@0.5提升至81.3%。消融实验与可视化分析表明,本文的轻量化设计在保持特征表达能力的同时有效提升了检测精度与效率,为农业害虫检测提供了可行方案。

NOTES

*通讯作者。

参考文献

[1] Jiao, L., Xie, C., Chen, P., Du, J., Li, R. and Zhang, J. (2022) Adaptive Feature Fusion Pyramid Network for Multi-Classes Agricultural Pest Detection. Computers and Electronics in Agriculture, 195, Article ID: 106827. [Google Scholar] [CrossRef
[2] Parsa, S., Morse, S., Bonifacio, A., Chancellor, T.C.B., Condori, B., Crespo-Pérez, V., et al. (2014) Obstacles to Integrated Pest Management Adoption in Developing Countries. Proceedings of the National Academy of Sciences, 111, 3889-3894. [Google Scholar] [CrossRef] [PubMed]
[3] Cheng, X., Wu, Y., Zhang, Y. and Yue, Y. (2018) Image Recognition of Stored Grain Pests Based on Deep Convolutional Neural Network. Chinese Agricultural Science Bulletin, 34, 154-158.
[4] Ding, W. and Taylor, G. (2016) Automatic Moth Detection from Trap Images for Pest Management. Computers and Electronics in Agriculture, 123, 17-28. [Google Scholar] [CrossRef
[5] Shen, Y., Zhou, H., Li, J., Jian, F. and Jayas, D.S. (2018) Detection of Stored-Grain Insects Using Deep Learning. Computers and Electronics in Agriculture, 145, 319-325. [Google Scholar] [CrossRef
[6] Liu, L., Wang, R., Xie, C., Yang, P., Wang, F., Sudirman, S., et al. (2019) PestNet: An End-to-End Deep Learning Approach for Large-Scale Multi-Class Pest Detection and Classification. IEEE Access, 7, 45301-45312. [Google Scholar] [CrossRef
[7] Xu, D., Xiong, H., Liao, Y., Wang, H., Yuan, Z. and Yin, H. (2024) EMA-YOLO: A Novel Target-Detection Algorithm for Immature Yellow Peach Based on Yolov8. Sensors, 24, Article No. 3783. [Google Scholar] [CrossRef] [PubMed]
[8] Li, J., Li, J., Zhao, X., Su, X. and Wu, W. (2023) Lightweight Detection Networks for Tea Bud on Complex Agricultural Environment via Improved YOLOv4. Computers and Electronics in Agriculture, 211, Article ID: 107955. [Google Scholar] [CrossRef
[9] Zhang, Y., Cai, W., Fan, S., Song, R. and Jin, J. (2022) Object Detection Based on YOLOv5 and GhostNet for Orchard Pests. Information, 13, Article No. 548. [Google Scholar] [CrossRef