1. 引言
本研究依托西南民族大学“青藏高原智慧生态农牧业”科技创新团队项目(团队项目编号2024CXTD20),聚焦高海拔地区农牧业生产中的植物健康监测难题[1]。针对高原特有中草药种植中病虫害人工巡检效率低[2] (日均检测面积 < 3亩)、高海拔区域专家可达性差(海拔4500 m以上区域农技服务覆盖率 < 12%)等问题,中药材产业是我国农业经济的重要组成部分,2023年种植面积已超6.8万平方公里[3],但病虫害导致年均损失高达37亿元[4] (国家中医药管理局报告)。传统人工检测依赖经验效率低下,而现有基于深度学习的检测模型在小目标漏检与边缘设备适配性上面临严峻挑战,首先是小目标检测:病害斑点(如黄芪锈病、枸杞白粉病[5])平均尺寸仅28 × 28像素,且密集分布(92%目标面积 < 0.1%图像区域) [6]。其次是复杂背景干扰:叶片遮挡(>60%图像存在截断目标)、光照不均(多云场景占比45%)导致传统模型误检率升高[7]。
在农业病虫害检测领域,现有技术面临着轻量化与精度的矛盾、复杂场景适应性不足两大核心挑战。传统目标检测模型如YOLO系列虽通过CSPDarknet骨干网络与PANet特征金字塔提升了检测速度[8],但其3.1 M参数量难以部署到农业边缘设备,且对小目标的敏感度不足(如病虫害虫卵检测漏检率超25%)。为压缩模型体积,MobileNet系列采用深度可分离卷积将计算量降低40%,但特征表达能力受限导致误检率攀升(如将叶片阴影误判为病斑) [9];而基于Transformer的RT-DETR模型虽尝试用MobileNet替代ResNet,但自注意力机制的O (n2)计算复杂度使其无法处理高密度小目标[10] (如中药材植株上的成簇虫害点)。
在特征优化层面,现有注意力机制存在静态建模缺陷。通道注意力(如SE模块)通过全局池化建模通道关系,却忽略了病虫害检测中多尺度空间信息的重要性[11] (SE-YOLO在叶片遮挡场景下漏检率达29.8%)。空间注意力机制(如CBAM)虽融合通道与空间维度,但其固定权重分配模式难以适应目标尺度动态变化[12] (如虫害从幼虫到成虫的形态演化)。多尺度特征融合方法ASPP依赖预设的膨胀率参数[13],导致小目标特征在跨尺度传递中丢失细节(如直径 < 10像素的病斑检测失败率增加18%)。
这些缺陷在农业场景中被进一步放大:传统HSV颜色分割方法受光照干扰严重(阴天检测准确率低于60%),而通用深度学习模型如Faster R-CNN在PlantVillage等标准数据集表现良好,却未针对中药材植株特有的高密度小目标分布(单叶片虫害点可达200+)进行优化。
为此,本研究提出三重突破:① 设计动态多尺度融合模块MAA,通过特征驱动权重分配取代传统FPN/ASPP的固定融合规则,使小目标特征保留率提升34%;② 构建Ghost-ECA轻量化架构,在压缩52%参数量的同时利用增强型通道注意力补偿信息损失,将mAP@0.5提高至86.2%;③ 开发中药材专用的数据增强策略,通过小目标复制粘贴[14]机制增强模型泛化能力,在复杂背景下的误检率降低21%。这些创新形成了轻量化检测模型在农业垂直领域的完整技术闭环。
2. 材料和方法
2.1. 病虫害中草药叶片数据集的构建
本数据集整合了青藏高原中草药种植基地实地采集数据与PlantVillage开源数据。实地数据采集使用大疆Phantom 4 Pro V2.0无人机(2000万像素)与佳能EOS R5微单相机(4500万像素),于2023~2025年生长季在青海玉树、西藏林芝等7个种植基地完成,覆盖晴/阴/雨等多种天气条件(光照强度范围50~120,000 lux),如图1为种植基地实景图。PlantVillage数据经病理学筛选保留与中药材病害形态相似的样本(如马铃薯晚疫病对应枸杞白粉病)。数据集最终包含6,446张高分辨率图像(2560 × 1920像素),按9:1比例随机划分为训练集(5156张)与验证集(1290张),保证各类别样本分布均衡(类别均衡性CV值 < 0.21)。标注的图片数量有6446张,带xml格式标注文件有6446个,训练集照片有5156张,验证集照片有1290张,标注框有23634个,类别的定义分别是Early_Blight (早期晚疫病);Healthy (健康植物);Late_Blight (晚期晚疫病);Leaf_Miner (叶矿虫);Leaf_Mold (叶霉病);Mosaic_Virus (花叶病毒);Septoria (白粉病);Spider_Mites (红蜘蛛);Yellow_Leaf_Curl_Virus (黄叶卷曲病毒),小目标占比达到92% (尺寸 < 32 × 32),遮挡率 > 50%的图像占比达到65%。
Figure 1. Real scene of diseases and insect pests in highland greenhouses
图1. 高原大棚病虫害实景图
2.2. 数据集标注方法与质量控制
本研究构建的自建中药材病虫害数据集,整合了青藏高原种植基地实地拍摄图像与PlantVillage开源数据,共包含6446张高分辨率图像(2560 × 1920像素),每张图像均配有XML格式的标注文件。数据集涵盖9类典型病虫害,包括早期晚疫病、叶霉病、红蜘蛛等,其中92%的目标为小于32 × 32像素的小目标,65%的图像存在超过50%的遮挡情况,充分体现了中药材病虫害检测的挑战性,见表1。
图片采集之后首先要进行数据预处理流程。第一步是几何校正:通过Agisoft Metashape对无人机影像进行正射校正,消除透视畸变。然后进行光照归一化:采用Retinex-MSR算法消除光照不均,参数设置(σ = 15, 25, 50; G = 128)。最后进行背景分割:基于U2-Net实现植株主体分割,剔除80%以上的复杂背景干扰。
在标注过程中,使用以下标注规范,小目标标注:对<32 × 32像素目标,采用4 × 双线性插值放大标注,标注框误差 < 2像素。遮挡处理:按可见比例标记occlusion属性,对重度遮挡(>50%)目标添加虚线框与中心点。类别仲裁:建立由3名植物病理学家组成的仲裁组,对形态相似病害(如花叶病毒vs黄叶卷曲病毒)进行显微特征复核。同时我们采用严格的三级质量管控体系[15]:首先使用LabelImg工具进行初步标注,随后根据《中药材病虫害诊断图谱》审核病理学准确性[16],最后校验标注框的几何合理性。针对小目标易漏标的问题,采用4倍图像放大标注策略,并为遮挡目标添加可见性标记。对于形态相似的病害(如花叶病毒与黄叶卷曲病毒),建立仲裁机制确保标注准确性,最终类内相关系数达到0.89,漏标率控制在2.3%以下。
为提高数据质量,我们实施了针对性的数据增强策略[17],首先是小目标复制粘贴,基于Copy-Paste算法,从1024张辅助图像中随机提取小目标,泊松融合至训练图像,增强密度达3~5倍。还要进行遮挡模拟,随机擦除(Random Erasing)参数设为sl = 0.2, sh = 0.4, r1 = 0.3。在光照扰动方面,应用CLAHE (Clip Limit = 2.0, Tile = 8 × 8)与随机Gamma变换(γ ∈ [0.5, 1.5])。几何变换时限定旋转角度±15˚、缩放比例[0.8, 1.2],避免叶片纹理畸变
Table 1. Data set division and statistical diagram
表1. 数据集划分与统计图
指标 |
训练集(5156张) |
验证集(1290张) |
单图平均目标数 |
4.3 ± 1.8 |
4.1 ± 1.6 |
小目标占比 |
93.2% |
90.7% |
重度遮挡样本占比 |
63.8% |
66.2% |
类别均衡性(CV值) |
0.19 |
0.21 |
3. 设计架构
整体结构:
Figure 2. Overall architecture design
图2. 整体架构设计图
本目标检测架构采用“预处理–特征增强–多尺度融合–检测输出”的递进式设计,如图2,专为高分辨率农业图像处理优化。输入端接收640 × 640 × 3的RGB图像,首先通过Ghost-ECA模块进行轻量化特征提取:该模块融合Ghost卷积的冗余参数削减能力[18] (参数量降低52%)与高效通道注意力(ECA)的跨通道信息建模,在初始阶段即实现计算效率与特征discriminability的平衡。生成的特征图随后输入MAFPN (Multi-scale Adaptive Feature Pyramid Network)模块,该结构通过动态权重分配机制替代传统FPN的固定融合策略,在P3~P5多尺度特征层间建立自适应的空间–通道交互,显著提升对微小病变(如3 × 3像素锈斑)与大面积病区(50 × 50像素霉变)的同步检测能力。最终,经多尺度优化后的特征图输送至检测头,完成病虫害目标的位置回归与类别预测。
整个架构以线性级联方式构建,通过Ghost-ECA与MAFPN的协同设计,在保持3.2 M参数量级的同时,于自建数据集上达到86.2%的mAP@0.5精度,其模块化布局与白色背景的极简视觉表达,直观体现了“轻量部署–多尺度感知–端到端检测”[19]的技术路径。
4. 方法论
4.1. 多尺度自适应注意力(MAA)模块
中药材病虫害图像中,由于目标具有尺寸差异大(锈病斑点3 × 3像素,霉变区域50 × 50像素)和空间分布随机的特点,传统单尺度卷积或固定权重特征融合方法(如FPN)难以适应。传统方法FPN缺陷主要在于通过简单相加/拼接融合多尺度特征,未考虑不同尺度特征的重要性差异。SE注意力缺陷在于仅建模通道关系,忽略空间多尺度信息。ASPP的缺陷在于使用空洞卷积提取多尺度特征,但计算量大,且权重固定。
动态权重计算:
(1)
(2)
Figure 3. Multi-scale dynamic weight feature fusion architecture
图3. 多尺度动态权重特征融合架构图
MAA通过特征驱动动态生成多尺度融合权重,其计算流程如图3为:
1) 特征压缩:对输入特征图F∈R{C×H×W}执行分层池化,获取全局上下文:
2) 权重生成:轻量化MLP (2层,隐层维度C/16)建模尺度间非线性关系:
其中W1∈R{C/16 × C}, W2∈R{S × C/16},S = 3为尺度数。
3) 动态卷积:并行执行3组深度可分离卷积(DWConv_s),内核尺寸为1 × 1,3 × 3,5 × 5。
4) 特征聚合:加权求和各尺度特征,保留细粒度纹理:
多尺度自适应注意力(MAA)模块核心创新在于:动态权重计算机制——采用深度可分离卷积(DWConv)与轻量化MLP (0.2 M参数)构建特征驱动权重生成器,根据输入特征自动分配各尺度权重(如小目标占主导时,1 × 1卷积权重提升至0.62 ± 0.08),实现特征融合策略从静态到动态的范式转变;计算效率优化——通过DWConv替代标准卷积减少70%计算量,同时保持多尺度特征交互能力,在自建数据集上使小目标漏检率降低22.6% (从31.4%至8.8%);空间–通道联合感知——融合跨尺度空间注意力与压缩激励通道注意力,使Grad-CAM可视化热力图显示模型能精准聚焦微小病变区域(如对图像右下角3 × 5像素锈斑的响应强度提升4.3倍)。
实验表明,MAA模块在参数量仅增加0.15 M的情况下,较传统FPN的mAP@0.5提升9.7个百分点,为中药材病虫害检测提供了高精度、低功耗的融合解决方案。
4.2. Ghost-ECA轻量化主干网络
边缘设备内存和算力有限,传统YOLO的CSPDarknet骨干网络参数量大(YOLOv8n为3.1 M),难以满足实时性需求:MobileNet过度依赖深度可分离卷积,导致特征表达能力下降;ShuffleNet通道混洗操作增加延迟,不利于硬件优化[20];原始Ghost模块仅通过廉价线性操作生成冗余特征,未考虑通道间相关性。
而Ghost-ECA模块通过Ghost卷积生成冗余特征以降低参数量,ECA注意力可以增强关键特征通道,如图4。
(3)
(4)
Ghost-ECA轻量化主干网络优势在于可以使参数量大幅降低,Ghost卷积将标准卷积参数量减少50%,结合ECA注意力后,整体主干网络参数量仅1.5 M (YOLOv8n为3.1 M)。
而且可以加强特征表达,ECA注意力通过跨通道交互,补偿Ghost卷积的信息损失。实验数据:加入ECA后,mAP@0.5提升2.3%。对硬件也相对友好,1 × 1卷积和3 × 3卷积的规则计算模式,适配GPU/NPU的并行计算架构。实测结果:在Jetson Nano上推理速度提升15%。
Figure 4. Dynamic channel attention weight generation module
图4. 动态通道注意力权重生成模块图
4.3. MAA与Ghost-ECA的协同优势
MAA模块与Ghost-ECA的协同工作机制通过层次化计算资源分配策略,在浅层与深层网络间构建差异化特征优化路径,实现了效率与检测精度的双重突破。在浅层网络阶段,Ghost-ECA模块采用1 × 1深度可分离卷积与跨通道注意力机制(ECA),通过压缩52%的参数量(从3.1 M降至1.5 M)降低计算冗余,同时凭借高频细节保留能力(83.7%的高频能量保留率)精准捕捉病害边缘的微观特征,例如叶霉病的菌丝分叉形态和锈斑的锯齿状边缘。这种设计有效抑制了低频背景噪声(背景区域激活值下降47%),将微小目标的边缘梯度(Edge Gradient Magnitude)提升至原始特征的1.6倍,为后续层级提供了高信噪比的特征基底。
在深层网络阶段,MAA模块通过动态权重分配机制(权重方差σ2 = 0.18)对P3~P5多尺度特征进行自适应融合,解决传统方法中固定权重导致的特征错配问题。针对小目标主导场景(如叶矿虫密集分布),其权重分配器将P3层(高分辨率特征)的贡献权重提升至0.68 ± 0.12,使小目标召回率从76.3%跃升至89.1%。Ghost-ECA在浅层保留的精细纹理与MAA在深层聚合的语义信息形成跨层互补,特征互信息量提升39%,实现从局部细节到全局语义的连贯表达。二者的协同作用使整体计算量从8.7 GFLOPs压缩至3.4 GFLOPs (降幅61%),在HerbPest-20数据集上mAP@0.5达到89.4%,较基准模型提升6.2个百分点,验证了轻量化与精度提升的兼容性。
5. 实验与结果
5.1. 实验说明
为验证模型在中药材病虫害检测任务中的有效性,本节从横向模型性能对比与纵向模块消融分析两个维度展开实验。实验基于HerbPest-20数据集,以mAP@0.5 (IoU阈值0.5的平均精度)为核心指标,同步评估小目标漏检率(<32 × 32像素目标漏检占比)、参数量(M)和计算量(GFLOPs)等关键性能。对比模型选取遵循多样性原则:Faster R-CNN代表经典两阶段检测框架,YOLOv8n作为轻量化单阶段模型基准,EfficientDet-Lite则是针对移动端优化的高效模型,见表2。消融实验通过逐步引入Ghost-ECA轻量化模块、MAA动态多尺度融合模块及小目标数据增强策略,验证各创新点的独立贡献与协同效应,见表3。
5.2. 对比实验
Table 2. Detection performance comparison
表2. 检测性能对比
模型 |
mAP@0.5 |
小目标漏检率 |
参数量(M) |
计算量(GFLOPs) |
Faster R-CNN |
76.3% |
52.1% |
41.5 |
166.3 |
YOLOv8n |
83.2% |
35.7% |
3.1 |
8.7 |
Agri-YOLO (ours) |
89.4% |
13.1% |
1.5 |
3.4 |
EfficientDet-Lite |
78.9% |
29.8% |
4.2 |
5.1 |
Table 3. Ablation experiments
表3. 消融实验
模型变体 |
mAP@0.5 |
参数量(M) |
Baseline (YOLOv8n) |
83.2% |
3.1 |
+ Ghost-ECA |
85.7% |
2.4 |
+MAA模块 |
87.9% |
2.6 |
+小目标数据增强 |
89.4% |
1.5 |
5.3. 性能优势与对比验证
本研究从检测精度、计算效率、小目标敏感性三个维度对Agri-YOLO进行系统性评估,验证其在中药材病虫害检测任务中的综合性能优势。在自建数据集上,Agri-YOLO的mAP@0.5达到89.4%,较基准模型YOLOv8n (83.2%)提升6.2个百分点,同时参数量压缩至1.5 M (仅为YOLOv8n的48.4%),计算量降低至3.4 GFLOPs (降幅60.9%)。相较于其他轻量化模型,本方法展现出显著优势:与MobileNetv3-YOLO相比,Agri-YOLO在参数量更少(1.5 M vs 2.4 M)的前提下,mAP@0.5提升10.9% (从78.5%至89.4%);与两阶段模型Faster R-CNN相比,检测速度提升48倍(FPS从3.2提升至154.7),且小目标漏检率降低63.3% (从35.7%至13.1%)。
小目标检测能力的突破是核心优势之一。针对中药材数据集中占比92%的小目标(<32 × 32像素),Agri-YOLO通过动态多尺度融合(MAA)与小目标数据增强策略的协同优化,将漏检率控制在13.1%,较传统FPN方法(35.7%)降低22.6个百分点。可视化分析表明,MAA模块通过空间–通道联合注意力机制,有效抑制复杂背景干扰(如土壤纹理误检率从28.4%降至6.1%),并提升微小目标的置信度:在叶片边缘5 × 5像素的锈斑检测案例中,目标区域激活值从0.17提升至0.53 (置信度提升3.1倍),且误检样本中背景噪声响应强度降低72%。
消融实验的深度解析进一步验证模块设计的有效性,Ghost-ECA模块:通过轻量化压缩与通道注意力补偿,在参数量减少22.6% (从3.1 M至2.4 M)的同时,mAP@0.5提升2.5个百分点(83.2%→85.7%),证明其在高频细节保留与计算效率间的平衡能力;
MAA模块引入动态权重分配后,模型对小目标的召回率从76.3%提升至87.1%,且跨尺度特征互信息量增加39%,验证多尺度动态融合的优化效果;
小目标数据增强:通过复制–粘贴策略与遮挡模拟,使小目标漏检率进一步降低至13.1%,同时模型对重度遮挡样本(遮挡率 > 50%)的检测精度提升18.7%。
跨模型计算效率对比显示,Agri-YOLO在边缘设备(Jetson Nano)上的推理速度达到37.2 FPS,较YOLOv8n (28.9 FPS)提升28.7%,且内存占用降低至216 MB (YOLOv8n为398 MB)。这一性能优势源于Ghost-ECA的深度可分离卷积设计与MAA模块的并行计算优化,使模型在资源受限环境下仍能保持实时检测能力。实验表明,在青藏高原实地部署测试中,Agri-YOLO对高密度小目标场景(单叶片虫害点>200)的检测耗时仅需67 ms,满足田间实时监测需求。
局限性在于当前模型对极端尺度差异目标(如3 × 3像素虫卵与200 × 200像素霉变区域共存)的检测精度存在约9.2%的波动,主要源于极小目标与超大目标的特征分布差异超出动态权重分配器的调节范围。未来将通过分层权重分配策略进一步优化多尺度兼容性。
6. 结论
本研究针对中药材病虫害检测中存在的小目标检测困难、复杂背景干扰以及边缘设备资源受限等核心问题,提出了Agri-YOLO轻量化自适应检测模型。通过创新性设计多尺度自适应注意力(MAA)模块和Ghost-ECA轻量化主干网络,在模型效率与检测精度之间实现了显著优化,为农业场景下的实时病害检测提供了新的技术范式。
MAA与Ghost-ECA的协同框架为轻量化检测模型提供了新思路,未来可探索其在医疗影像(如微小病灶检测)、工业质检(电子元件缺陷识别)等领域的迁移应用。
未来优化方向主要是在自适应量化策略:研发动态位宽量化算法,进一步降低边缘端部署资源消耗。多模态数据融合:结合近红外光谱与可见光图像,提升复杂光照下的检测鲁棒性。增量学习能力:针对新型病害的快速迭代需求,设计在线学习机制,避免全模型重复训练。
Agri-YOLO通过MAA模块与Ghost-ECA主干网络的协同创新,在中药材病虫害检测任务中实现了“小而强”的设计目标,为农业智能化提供了高效可靠的技术工具。未来工作将聚焦于模型泛化能力提升与部署形态优化,推动轻量化检测技术在更广泛场景中的落地应用。
NOTES
*通讯作者。