GBSA-YOLOv8:面向复杂田间场景稻田害虫的多尺度实时检测模型
GBSA-YOLOv8: A Multi-Scale Real-Time Detection Model for Rice Field Pests in Complex Field Scenarios
摘要: 精准农业发展背景下,基于计算机视觉的水稻害虫智能识别技术是病虫害高效防治的关键方向。受稻田光照不均、叶片遮挡、害虫体积微小等因素影响,现有模型存在小目标漏检率高、背景干扰严重、部署效率低等问题。针对YOLOv8模型局限,本文提出3阶段改进:将C2f模块升级为融合Ghost与动态卷积的C2f-Ghost-DynamicConv模块,降参提效;用BiFPN替换PANet,强化多尺度特征双向融合;嵌入SE通道注意力机制,抑制噪声并突出害虫关键特征。实验表明,改进模型精确度、召回率、平均精度分别提升3.6%、1.7%、1.9%,mAP达97.9%,有效缓解漏检误检,满足无人机田间巡检实时性需求,为水稻病虫害智能监测提供有力支撑。
Abstract: In the context of precision agriculture development, computer vision-based intelligent identification technology for rice pests has become a key direction for efficient pest control. Existing models face challenges such as high false-negative rates for small targets, severe background interference, and low deployment efficiency due to factors like uneven light distribution in rice paddies, leaf shading, and tiny pest sizes. To address the limitations of the YOLOv8 model, this paper proposes three-stage improvements: upgrading the C2f module to a C2f-Ghost-DynamicConv module that integrates Ghost and dynamic convolution for parameter reduction and efficiency enhancement; replacing PANet with BiFPN to strengthen bidirectional multi-scale feature fusion; and embedding a SE channel attention mechanism to suppress noise and highlight key pest features. Experimental results demonstrate that the improved model achieves 3.6% accuracy improvement, 1.7% recall rate increase, and 1.9% average precision gain, with mAP reaching 97.9%. This effectively reduces false negatives and false positives, meets the real-time requirements for drone field inspections, and provides robust support for intelligent rice pest monitoring.
文章引用:付欣蕊, 韩天佑, 袁丽君, 石峻烨, 樊永军, 王晨灿, 王芳. GBSA-YOLOv8:面向复杂田间场景稻田害虫的多尺度实时检测模型[J]. 人工智能与机器人研究, 2026, 15(2): 616-628. https://doi.org/10.12677/airr.2026.152059

1. 引言

随着精准农业的快速发展,水稻种植过程中的害虫分布具有规模小和密度高等特性,导致其识别具有挑战性[1]。水稻是最重要的粮食作物之一,养活了全球一半以上人口[2],其病虫害的精准识别与防控对保障粮食安全至关重要。传统害虫检测依赖人工田间巡检,效率低且易受主观因素影响。基于计算机视觉的水稻害虫智能识别技术成为农业病虫害防治的关键研究方向。基于深度学习的目标检测模型为自动化害虫监测提供了新思路。然而,水稻田环境复杂,存在光照不均、叶片遮挡、害虫形态微小(如稻飞虱体长仅2~3 mm)等挑战,导致现有模型面临小目标漏检率高、复杂背景干扰大及边缘设备部署效率低等核心问题。智能识别及图像处理等技术在农业中的应用较多,可提高农业生产效率;如吴小燕等[3]利用YOLOv8s模型对移栽甘蓝的状态进行监测和识别,提高了移栽质量;李林轩[4]提出了基于改进YOLOv8s的农业多目标虫害的小目标检测算法,有效提高了小目标害虫的检测率[2]。基于深度学习的目标检测算法研究主要包括双阶段与单阶段算法:在双阶段算法方面,R. Girshick团队提出了R-CNN系列[5] (含Fast R-CNN、Faster R-CNN)、Kaiming He团队构建了SPPNet和Mask R-CNN的完整技术体系[6]。在单阶段算法方面,Joseph等提出了YOLO系列[7],并提出了SSD、RetinaNet及后续的YOLOv4、v5、v7、v9等,持续推动速度与精度提升。Cai等提出了Cascade R-CNN,主要通过多阶段优化提升精度[8]。旷视科技在YOLOX中引入解耦头。美团将YOLOv6与RepVGG结构结合增强了特征提取[9]

YOLO系列模型因其高效的实时检测性能,在农业虫害检测中也得到了广泛应用。YOLOv8是Ultralytics公司于2023年1月开源发布的YOLOv5的下一代版本[10],通过扩展高效层聚合网络(E-ELAN)结构和引入动态标签分配(OTA)策略,在通用目标检测上取得了更佳表现。但直接应用于水稻病虫害检测时,YOLOv8存在以下问题:

(1) 细粒度特征提取能力不足。主干网络的C3模块采用固定卷积堆叠,对微小害虫的局部细节(如翅脉纹理)提取不充分,导致小目标易漏检[11];(2) 多尺度特征融合不充分。颈部网络沿用的PANet仅采用由上而下的单向特征融合[12],缺乏自下而上的反馈通路,浅层特征中的小目标定位信息在向高层传播时逐渐衰减,再加上简单的拼接融合无法根据不同层级特征的重要性动态调节权重,造成对密集虫群检测不力;(3) 缺乏针对性的注意力机制抑制背景干扰[13]。稻田背景噪声抑制能力弱,稻田中的叶片纹理、水渍反光等干扰导致误检率升高。上述局限导致YOLOv8模型在复杂稻田场景中漏检率和误检率偏高,难以满足实际需求。针对以上问题,贾世娜等[14]在YOLOv5中融入CBAM注意力机制,增强了模型对目标的关注能力。郝紫霄等[15]采用GhostNet轻量化主干网络,加快了推理速度。然而,这些改进主要面向通用场景,并未充分考虑农业害虫的小尺寸形态特征和田间复杂背景。为此,本文基于YOLOv8框架,围绕水稻病虫害检测任务提出了如下3阶段改进策略:

(1) 提升细粒度的特征提取能力:利用C2f (Compact Contractive fusion)模块替换原主干网络的C3模块,并融合Ghost卷积和DynamicConv动态卷积技术,从而提升细粒度的特征提取能力。(2) 双向上下文融合:为了强化多尺度特征的上下层次交互与融合,通过双向特征金字塔网络BiFPN (Bidirectional feature pyramid network)取代传统PANet颈部网络。(3) 背景噪声干扰的抑制:将SE (Squeeze-and-Excitation)通道注意力模块嵌入模型关键特征层,重标定特征通道,实现对背景噪声干扰的抑制。

2. 数据处理与模型构建

2.1. 数据采集

本研究采用来自全国农业技术推广服务中心农作物病虫监测物联网平台的稻田害虫图像数据[16]。原始样本库涵盖102种农作物常见虫害,总计约18万张图像。并针对常见的水稻虫害选取稻纵卷叶螟(rice leaf roller)、稻螟蛉(rice leaf caterpillar)、水稻蝇蛆(paddy stem maggot)、二化螟(asiatic rice borer)、三化螟(yellow rice borer)、稻瘿蚊(rice gall midge)、稻秆蝇(rice stemfly)、灰飞虱(brown plant hopper)、白背飞虱(white backed plant hopper)、褐飞虱(small brown plant hopper)、稻水象甲(rice water weevil)、稻叶蝉(rice leafhopper)、稻蓟马(grain spreader thrips)和稻苞虫(rice shell pest) 14种水稻害虫共计1248张图像(不同类别样本量不均衡)。所有图像分辨率统一调整为640 × 640像素。图1展示了部分虫害图像样本。

(a) 稻水象甲 (b) 稻苞虫 (c) 稻秆蝇 (d) 稻螟蛉

Figure 1. Some pest image samples

1. 部分虫害图像样本

2.2. 数据处理

受姚宏志等[12]启发,对原始图像进行数据增强处理:首先对每张样本图像随机执行水平翻转、垂直翻转等几何变换操作,并采用多图像混合的马赛克(Mosaic)数据增强策略将四张图像拼接成一张,实现多背景、多目标的复合增强。通过上述操作,样本总数由1248扩充至10,960张。在训练模型的过程中,引入颜色抖动、对比度调整等复合数据增强策略,构建多样化的训练样本集合,提高模型在不同光照、角度条件下的鲁棒性和抗过拟合能力。然后使用LabelImg软件对获取的虫害图像样本数据按照矩形框目标检测的方式进行数据标注,同时按照VOCdevkit的数据格式创建XML类型标注数据文件。最后按照7:3的比例随机选取7672个样本作为训练集,剩下的3288个样本按照1:2比例划分为验证集和测试集。各类害虫检测数据集统计见表1

Table 1. Target statistics of various pest detection datasets Unit: sheet

1. 各类害虫检测数据集统计 单位:张

类别

训练集

测试集

验证集

总计

稻纵卷叶螟

1120

320

160

1600

稻螟蛉

504

144

72

720

水稻蝇蛆

196

56

28

280

二化螟

784

224

112

1120

三化螟

784

224

112

1120

稻瘿蚊

532

152

76

760

稻秆蝇

644

184

92

920

灰飞虱

168

48

24

240

白背飞虱

476

136

68

680

褐飞虱

476

136

68

680

稻水象甲

392

112

56

560

稻叶蝉

728

208

104

1040

稻蓟马

672

192

96

960

稻苞虫

196

56

28

280

2.3. GBSA-YOLOv8改进模型

YOLOv8模型采用了改进的架构以提升检测性能,其主干网络使用了扩展高效层聚合网络(E-ELAN)结构,通过跨层级的残差连接和分组卷积,提高了特征复用效率和梯度传递稳定性。尽管如此,其关键的C3模块仍由固定结构的卷积层堆叠而成,它提取微小目标的细节特征能力有限。这可能会导致水稻害虫检测中飞虱翅脉等细微纹理在深层特征中丢失。另外,YOLOv8的颈部网络是PANet特征金字塔结构,它通过自上而下的路径将高层语义特征逐级传递到低层,从而实现多尺度特征融合。但是,它缺少自下而上的信息反馈,将会导致浅层的小目标定位特征在传递过程中逐渐衰减。此外,PANet通过特征图拼接(concat)的方式融合不同尺度的特征,并没有针对各尺度特征的重要性进行动态权重调整,可能导致田间背景噪声与目标特征混杂,影响模型对真实目标的聚焦。最后,YOLOv8的检测头将分类和回归任务共享特征图进行了耦合设计,虽然它在常规场景下具备较好的精度和效率,但是面对稻田中密集分布的虫群时,不同目标的特征容易相互干扰,导致分类置信度下降、边界框回归不精确。虽然YOLOv8引入的OTA标签分配策略通过全局最优匹配提高了训练稳定性,但并没有增强对虫体关键部位特征的关注,对形态多样、互相遮挡的病虫目标仍显不足。

由以上分析可知,原始YOLOv8模型应用于复杂田间环境时,具有3方面的不足:(1) 细节特征丢失:它所使用的固定卷积核和通道压缩策略,导致模型对微小害虫的精细特征提取力不足。(2) 只具有单向特征融合且无加权:单向的PANet金字塔无法充分挖掘多尺度上下文信息,不同尺度特征融合时缺少自适应权重,限制了密集虫群的检测性能。(3) 缺失注意力机制:它缺乏有效的注意力模块抑制复杂背景的噪声干扰,使其鲁棒性受限。针对上述不足,本文提出了GBSA-YOLOv8改进模型(GBS分别代表Ghost、BiFPN和SE 3个模块)如图2所示,通过在YOLOv8中集成新模块来提升检测性能。具体而言,我们在主干网络引入C2f-Ghost-DynamicConv模块以增强特征提取,在颈部网络引入BiFPN模块以强化特征融合,并在关键层嵌入SE注意力机制以抑制干扰,从而构建面向水稻病虫害检测任务的改进YOLOv8模型框架。

Figure 2. GBE-YOLOv8 network structure

2. GBE-YOLOv8网络结构图

2.3.1. C2f-Ghost-DynamicConv主干特征提取模块

为了使模型能够在资源贫乏、设备不足的农业地区的微型监控嵌入式设备上进行高精度检测,本文将Ghost Bottleneck和DynamicConv集成到C2f中,从而提出C2f-Ghost-DynamicConv (CGt-DConv)模块,原理如图3所示。DynamicConv相较于传统的静态卷积[17],具有增强的特征表示能力。通过将Ghost [18]特征图和内在特征图进行拼接输出,并对内在特征图采取重复利用的策略,在保证神经网络结构深度恒定的情况下,有效增强网络的特征学习与表达性能。Ghost Bottleneck由Ghost Module组成,有两种结构,将特征图的大小减少为输入的一半[19]

在原有YOLOv8模型中,C2f模块虽然能够进行特征融合,但其特征提取能力不如C2f-Ghost-DynamicConv模块强大,尤其是在处理复杂纹理和细节时。C2f模块在面对不同特征分布时,其适应性和表现力不如DynamicConv。在特定的检测任务中,如水稻籽粒检测和识别中,C2f模块可能无法充分捕捉到水稻籽粒的细微特征,导致模型在这些任务上的表现力不足。而改进后模型显著增强模型对遮挡目标的召回率和平均精度,同时提高了模型的轻量化。

Figure 3. Schematic diagram of CGt-DConv module

3. CGt-DConv模块原理图

1在毛涵巍等的研究[20]中C2f-RepGhost模块虽然可以通过引入Replicated Ghost Module结构、参数共享机制实现轻量化,提升模型表达能力,但是CGt-DConv模块可以根据输入特征动态调整卷积核参数,增强了对不同特征的适应性与针对性,能够更精准地捕捉图像中复杂多变的特征模式。同时,它通过多分支并行处理与特征拼接,能够进一步丰富特征的多样性与表达能力,使模型在保持轻量的同时,对各类场景下的特征提取更具灵活性与有效性,尤其在处理特征差异较大的复杂图像任务时,能更好地平衡模型轻量化与特征表达性能。

2.3.2. BiFPN双向特征融合模块

在水稻虫害的检测中,传统YOLOv8的颈部网络因单向特征融合机制,导致浅层定位信息在深层网络中衰减,难以有效捕捉田间密集虫群的多尺度特征。原有的Concat方法虽然能够简单直接地将不同层次的特征图进行拼接,在一定程度上综合了多尺度特征信息,但这种拼接方式只是单纯地堆叠特征,没有充分考虑不同特征图之间的重要性差异,也缺乏对特征信息的有效交互和增强。在目标检测模型中,特征融合是提升模型性能的关键环节。而BiFPN [21]主要用于目标检测任务,它通过双向的跨尺度连接和加权融合机制,能够自适应地调整不同输入特征的权重,更好地利用多尺度特征,提升模型对不同大小目标的检测能力。

BiFPN主要由自上而下和自下而上的两条路径组成,实现了从上到下和从下到上的深浅特征的双向融合,增强不同网络层特征信息的传递[22]。自上而下的路径用于传递高层语义信息,自下而上的路径则用于传递底层的细节信息。在每一层的融合节点,会根据输入特征的重要性分配不同的权重,使得重要的特征能够在融合过程中得到更多的关注。BiFPN替换Concat后,可以增强多尺度特征的交互能力,显著提升模型对稻飞虱(体长2~3 mm)等微小害虫的检测精确度,为复杂田间环境提供鲁棒性支持,从而提升整体的目标检测性能,BiFPN颈部网络如图4所示。

Figure 4. BiFPN neck network

4. BiFPN颈部网络

2张亚军等[23]的研究是通过引入特征选择与融合模块,提出了HSFPN,可以减少冗余信息,但是BIFPN双向特征金字塔网络采用双向跨尺度连接,可以更高效地进行多尺度特征融合,不仅自顶向下传递高层语义特征,还自底向上强化底层细节特征,让不同尺度特征交互更充分。同时,它对重要特征图设置可学习权重,精准分配各尺度特征的贡献度,提升有用特征的影响力。这种结构在复杂道路损伤检测场景中,既减少了像YOLOv8原FPN + PAN结构的冗余,又能更好地平衡高层语义与底层细节,降低微小损伤漏检率,减弱噪声干扰,增强对复杂环境下道路损伤的判别与定位能力,在多尺度特征融合的有效性与灵活性上更具优势。

2.3.3. SE通道注意力机制

稻田背景中叶片纹理、水渍反光等噪声干扰会导致模型背景区域误判为害虫目标。现有YOLOv8中的注意力机制包含空间注意力、通道注意力等多种形式。SE机制为通道注意力机制,它包括Squeeze (压缩)和Excitation (激励)两个步骤。Squeeze是利用全局平均池化,将特征图的空间维度信息聚合,得到每个通道的全局表示。Excitation通过全连接层和激活函数,学习通道间的依赖关系,为每个通道生成权重,进而对原始特征图的通道进行加权,突出重要通道,抑制不重要通道。引入SE机制可使模型更关注对目标检测起关键作用的特征通道,有效抑制背景噪声等干扰信息,在提升模型对目标特征的提取和表示能力方面效果明显,能在一定程度上提高模型的精确率。SE注意力机制如图5所示,在SPPF之后引入SE注意力机制可提高主干网络的特征提取能力[24],通过对特征通道进行自适应重标定,有效增强了模型对关键信息的关注[25]

Figure 5. SE attention mechanism

5. SE注意力机制

3王宗阳等人[26]提出了ASCPA,在多尺度空间信息利用、小目标检测等方面表现出色。SE可以重新标定通道维度的特征,并对通道间依赖关系进行建模,精准地为不同通道分配权重,突出关键通道的特征贡献,在通道特征的精细化调整上具有高效性与简洁性。其计算复杂度相对较低、参数少,可以在不显著增加模型计算开销的前提下,有效增强通道维度的特征表达能力。

3. 实验结果与分析

3.1. 实验环境和参数设置

本实验使用的是PyTorch框架,操作系统为Windows11,GPU型号为RTX 4060,运行内存为16 GB,编程语言为Python,编译器为Pycharm,CUDA版本为12.3。使用PyTorch深度学习框架训练目标检测模型。初始学习率设置为0.01,迭代次数为300,批次大小为32,其他为默认设置。本文针对水稻虫害的检测任务,采用了多个评价指标来全面评估模型的性能表现,其中包括精确率P (Precision)、F1分数(F1-Score)、召回率R (Recall)、平均精度AP (Average Precision)和平均精度均值mAP (mean Average Precision)。

精确率表示模型预测为正样本(检测到的目标)中,真正是正样本的比例,反映模型的“准确性”,计算公式为

P= TP TP+FP (1)

其中,TP为真正例,FP为假正例。召回率表示在所有真实的正类样本中,被模型正确预测为正类的比例。

召回率用来衡量模型对正类样本的“捕捉能力”,即真实存在的目标有多少被检测到,计算公式为

R= TP TP+FN (2)

其中,TP为真正例,FN为假负例。精确率和召回率是一对矛盾的度量,通常精确率高时,召回率往往偏低,反之亦然。

F1分数就是为了平衡这两个指标,它是精确率和召回率的调和平均数,计算公式为

F1=2× P×R P+R = 2×TP 2×TP+FP+FN (3)

平均精度为精确率–召回率曲线(PR曲线)下的面积,它通过计算模型在所有可能的置信度阈值下的精确率和召回率,综合评估模型对某一类别的检测能力。AP值越高,说明模型对该类别的检测效果越好,计算公式为

AP= i=1 n1 ( r i+1 r 1 )×p( r i+1 ) (4)

平均精度均值是所有类别AP的平均值,用于评估模型对多类别目标的整体检测性能。计算公式为

mAP= i=1 n1 A P i N (5)

3.2. 消融实验

为验证本文提出的改进模型在水稻病虫害目标检测中的性能优势,在VOCdevkit数据集上,以GBE-YOLOv8模型作为基线模型,在相同实验条件下,依次更换改进模块,进行消融实验,以此来评估各个改进模块的有效性。消融实验的结果如表2所示。

表2可见,任一单个改进模块的引入均对模型性能产生了积极影响:与基线模型1相比,模型2 (仅BiFPN)尽管精确率略有下降(P从91.4%降至90.8%),但召回率明显提升(R从0.918提高到93.4%),使mAP由96.0%增至96.5%,表明BiFPN有助于找回更多漏检目标;模型3 (仅CGt-DConv)在轻量化的同时保持了精确度,Precision和Recall均比基线略有提高;模型4 (仅SE)对Precision贡献较大(提高至92.3%),也带来一定的Recall提升,最终mAP达到96.6%。对于组合改进,双模块协同作用使性能进一步增强:模型5 (BiFPN + CGt-DConv) mAP提升至97.3%,模型6 (BiFPN + SE)和模型7 (CGt-DConv + SE)的mAP分别提升至96.9%和97.0%。

最后,集成全部3种模块的模型8取得了最优的Precision、Recall和mAP (分别达到95.0%、93.1%和97.9%)。这验证了各改进模块从不同角度(特征融合、轻量化处理、注意力机制)对检测性能均有帮助,而且模块间具有一定的互补增益,当同时应用时,模型性能远优于仅加单一模块的效果。例如,相比模型2和模型3,模型5同时具备BiFPN增强召回和CGt-DConv提高精确度的优点,mAP较任一单模块模型都有明显上升;模型8相较模型5进一步引入SE后,Precision从92.9%跃升至95.0%,Recall也有所提高,充分说明3种模块协同可以从不同维度共同优化模型性能。

Table 2. Results of ablation experiment

2. 消融实验结果

Model

BiFPN

CGt-DConv

SE

P/%

R/%

mAP/%

1

×

×

×

91.4

91.8

96.0

2

×

×

90.8

93.4

96.5

3

×

×

91.6

92.1

96.3

4

×

×

92.3

92.6

96.6

5

×

92.9

92.3

97.3

6

×

94.3

92.5

96.9

7

×

94.1

92.9

97.0

8

95.0

93.1

97.9

3.3. Grad CAM可视化对比

本节对不同方案进行了热力图可视化,如图6所示。由对比结果可知,不同方案下模型对各类昆虫的关注区域呈现出明显差异。其中CGD + BiFPN + SE的表现尤为突出,无论是针对飞蛾、中间型昆虫还是象甲,其热力图都能更精准地聚焦于昆虫主体,大幅减少对周围无关背景的过度关注,这表明CGt-DConv + BiFPN + SE融合的方案在引导模型捕捉关键特征、提升决策针对性方面更具优势。

(a) 原图 (b) CGD (c) CGD + BiFP (d) CGD + BiFPN + SE

Figure 6. Comparison diagram of Grad CAM

6. Grad CAM对比图

3.4. 对比实验

(1) 不同模型的对比实验

为了探究本文提出的GBSA-YOLOv8算法的精确性,对Faster-RCNN、YOLOv8n、YOLOv8s、YOLOv8、YOLOv8-DM [27]、CBAM-YOLOv8 [28]和GBE-YOLOv8进行对比实验。在VOCdevkit数据集上的对比实验结果见表3

表3可见,GBE-YOLOv8在检测精确度P、召回率RmAP 3项关键指标上相较其他算法表现出优势。其中,Precision方面,GBE-YOLOv8达到95.0%,比排名第二高的CBAM-YOLOv8高出1.3%,说明本模型对虫害目标的识别准确性更高,错误检测更少。Recall方面,GBE-YOLOv8达到93.1%,比最快的YOLOv8s高出4.1%,表明本模型能捕获更多实际存在的虫害目标,不易漏检。综合指标mAP方面,GBE-YOLOv8以97.9%的数值领先其它模型,反映了其整体检测性能最优;相比基础模型YOLOv8n和YOLOv8s,本文模型在精确度和召回率上均有大幅提升;即使与加入注意力模块的CBAM-YOLOv8和专用优化的YOLOv8-DM相比,GBE-YOLOv8也分别高出约1%和3.8%。这充分验证了本文改进模型的有效性。

Table 3. Comparison of experimental results of different models

3. 不同模型的对比实验结果

算法

P/%

R/%

mAP/%

Faster-RCNN

86.9

85.2

89.0

YOLOv8n

91.5

85.7

92.1

YOLOv8s

90.5

89.0

93.5

YOLOv8-DM [27]

92.5

88.7

94.1

CBAM-YOLOv8 [28]

93.7

91.5

96.9

GBE-YOLOv8

95.0

93.1

97.9

(2) 不同场景下的检测效果

为进一步验证改进模型在各种实际场景中的适用性,我们选取了小目标密集场景、目标数量众多场景以及光照昏暗场景下的部分图像,对比原始YOLOv8模型和GBE-YOLOv8改进模型的检测效果。如图所示,左侧为原模型检测结果,右侧为改进模型结果。可以观察到,在小目标密集的场景中(图7),原模型漏掉了一些体型较小、光照不强的害虫目标,而改进模型几乎检测出了所有虫体,且定位边界更准确,检测到的目标数量和精确度均有提升;在目标数量多、分布密集的田块场景(图8)中,原模型因目标间干扰漏检了一些个体,改进模型则准确识别出了大部分目标,显著降低了漏检和误检情况;在光线较差或存在强反光的夜间场景(图9)中,原模型难以区分害虫与噪声,部分虫体未被检测或被错误分类,改进模型借助注意力机制在复杂背景下依然保持了良好的检测能力,检测出的虫害目标类别和数量更多,对每个目标的置信度也更高。以上对比证明,GBE-YOLOv8的多策略改进模型相较原始模型,在各种复杂环境下均具有更强的鲁棒性和更高的检测精确度。

Figure 7. Comparison chart of detection effects in small object scenarios

7. 小目标情况下检测效果对比图

Figure 8. Comparison chart of effects under large target scale differences

8. 目标数量较多情况下效果对比图

Figure 9. Comparison chart of detection effects under dim conditions

9. 复杂条件下检测效果对比图

4. 结论

本文面向水稻病虫害目标检测任务,围绕YOLOv8模型,构建了GBE-YOLOv8模型。首先,集成了CGt-DConv轻量模块,融合Ghost卷积的低冗余特性与动态卷积核自适应能力,在减少50%模型参数的同时增强了对害虫局部细节(翅脉、触角等)的捕捉能力,使被遮挡目标的召回率提升。其次,通过引入BiFPN双向特征金字塔,有效解决了浅层定位特征衰减和多尺度特征交互不足的问题,小目标检测精确度显著提升,对稻飞虱等小型害虫的AP提高了36%。最后,在SPPF后引入了SE通道注意力机制,通过通道重标定抑制背景杂波(如泥水反光、叶片纹理),使模型在复杂环境下的误检率降低。实验结果表明,改进后的模型在Precision、Recall、mAP等指标上均显著优于原始YOLOv8模型,mAP得到了提升,满足边缘设备的实时应用需求。未来我们将融合多源数据进行多模态虫害检测,将光谱信息、天气数据等与图像检测结果结合,提高模型在极端天气和复杂光照条件下的泛化能力。

基金项目

2025年燕山大学大学生创新创业训练计划项目(CXXL20250658);2023年燕山大学创新创业教育教学改革与实践项目(2023xjcxcy013);河北省教育科学“十四五”规划2025年度课题,2503200;2025年河北省省级创新创业课程建设,2025cxkc020。

参考文献

[1] 张荣华, 白雪, 樊江川. 复杂场景下害虫目标检测算法: YOLOv8-Extend [J]. 智慧农业, 2024, 6(2): 49-61.
[2] 邓相红. 基于YOLOv8s的水稻害虫图片智能识别[J]. 安徽农学通报, 2025, 31(2): 97-100.
[3] 吴小燕, 郭威, 朱轶萍, 等. 基于改进YOLOv8s的大田甘蓝移栽状态检测算法[J]. 智慧农业, 2024, 6(2): 107-117.
[4] 李林轩. 农业多目标虫害的小目标检测[D]: [硕士学位论文]. 荆州: 长江大学, 2024.
[5] He, K., Zhang, X., Ren, S. and Sun, J. (2015) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 1904-1916. [Google Scholar] [CrossRef] [PubMed]
[6] Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 779-788. [Google Scholar] [CrossRef
[7] 张正, 赵海明, 田青. 改进YOLOv11s的距离选通图像人脸检测算法[J/OL]. 计算机工程与应用, 1-13.
https://kns.cnki.net/kcms2/article/abstract?v=FCWB7knoBeRWBU5IM_X8pTUMA2qcmDPYWIsxALsR0FIwLe0EE2i06iJJrRB8VuH-LoQo4SN7P-rGuYBimzL3hgoa6CPFoPhVYMNPrl-381M3VIjWqNLRcq3219QieNu_csRpVw3iUVHE4OeOiVgfUwKJxDTsKMjWtFVLWLBdFjI=&uniplatform=NZKPT&language=CHS, 2025-09-10.
[8] Cai, Z. and Vasconcelos, N. (2018) Cascade R-CNN: Delving into High Quality Object Detection. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 6154-6162. [Google Scholar] [CrossRef
[9] 刘桂超, 王怀光, 任国全, 等. 基于深度学习的单目视觉目标检测综述[J]. 计算机工程与应用, 2026, 62(1): 1-19.
https://link.cnki.net/urlid/11.2127.TP.20250619.1429.002
[10] 刘鹏, 张天翼, 冉鑫, 等. 基于PBM-YOLOv8的水稻病虫害检测[J]. 农业工程学报, 2024, 40(20): 147-156.
[11] 张冀, 王定邦, 曹锦纲, 等. 改进YOLOv8的轻量化钢材表面缺陷检测[J/OL]. 智能系统学报, 1-15.
https://link.cnki.net/urlid/23.1538.TP.20250924.1242.002, 2025-09-24.
[12] 姚宏志, 王柯, 王玉笛, 等. 基于改进YOLOv8n的水稻籽粒检测模型[J/OL]. 重庆工商大学学报(自然科学版): 1-11.
https://link.cnki.net/urlid/50.1155.N.20250114.1152.002, 2025-09-24.
[13] 朱立成, 王文贝, 赵博, 等. 基于SDE-YOLO的矮砧密植化果园苹果检测方法[J]. 农业机械学报, 2025, 56(9): 638-647.
[14] 贾世娜. 基于改进YOLOv5的小目标检测算法研究[D]: [硕士学位论文]. 南昌: 南昌大学, 2022.
[15] 郝紫霄, 王琦. 基于YOLO-v7的无人机航拍图像小目标检测改进算法[J]. 软件导刊, 2024, 23(1): 167-172.
[16] 李学琨. 基于深度学习的虫害预测系统的设计与实现[D]: [硕士学位论文]. 哈尔滨: 黑龙江大学, 2025.
[17] Cao, J., Zhang, Z., Tao, F., Zhang, L., Luo, Y., Zhang, J., et al. (2021) Integrating Multi-Source Data for Rice Yield Prediction across China Using Machine Learning and Deep Learning Approaches. Agricultural and Forest Meteorology, 297, Article ID: 108275. [Google Scholar] [CrossRef
[18] Chen, Y.P., Dai, X.Y., Liu, M.C., et al. (2020) Dynamic Convolution: Attention Over Convolution Kernels. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 13-19 June 2020, 11027-11036.
[19] Han, K., Wang, Y.H., Tian, Q., et al. (2020) GhostNet: More Features from Cheap Operations. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 13-19 June 2020, 1577-1586.
[20] 毛涵巍, 李士心, 周立明, 等. 改进YOLOv8的雾天目标检测算法: BRES-YOLO [J]. 现代电子技术, 2025, 48(17): 85-92.
[21] 高腾, 张先武, 李柏. 深度学习在安全帽佩戴检测中的应用研究综述[J]. 计算机工程与应用, 2023, 59(6): 13-29.
[22] 刘贵锁, 狄巨星, 杨阳, 等. 基于YOLOv8的水稻虫害检测算法[J]. 长江信息通信, 2024, 37(9): 13-16.
[23] 张亚军, 苗皓源, 马薇, 等. 基于YOLOv8改进的无人机航拍路面损伤检测算法[J/OL]. 电子测量技术, 1-12.
https://link.cnki.net/urlid/11.2175.TN.20250901.0954.002, 2025-09-03.
[24] 戴林华, 黎远松, 石睿. 基于改进YOLOv8n算法的水稻叶片病害检测[J]. 湖北民族大学学报, 2024, 42(3): 382-388.
[25] 苗全龙, 周扬, 李建涛, 等. 基于YOLOv8-ABSeg的双孢蘑菇表型参数提取方法[J]. 农业机械学报, 2025, 56(3): 158-168.
[26] 王宗阳, 黄莉, 江都. 基于APW-YOLOv8的无人机高空图像小目标检测[J/OL]. 计算机系统应用, 1-11. 2025-09-03.[CrossRef
[27] 杨威, 张长胜, 刘辉. YOLOv8-DM轻量化光伏组件缺陷检测方法[J]. 国防科技大学学报, 2025, 47(4): 158-169.
[28] 廖新芝, 孔国希, 林桂潮, 等. 基于CBAM-YOLOv8的温室番茄果实识别研究[J/OL]. 中国瓜菜, 1-15. 2025-09-10.[CrossRef