1. 引言
1.1. 任务背景
茶叶作为我国乃至世界范围内的关键经济作物之一,在国民经济和社会领域中扮演着至关重要的角色,其产地之多,产量之大,主产区主要划为华南江南西南等地区。茶叶植物中的茶多酚具有抗氧化、防辐射、抗衰老、降血脂、降血糖、抑菌抑酶等多种生理活性,极其有益于人体健康。然而,茶叶稳产保供仍面临巨大压力,一方面,经济快速增长和消费结构升级导致茶叶刚性需求上升,茶叶供需缺口加大;另一方面,各类病害如茶饼病、茶炭疽病、茶白星病等,不仅严重影响茶叶的产量,还会大幅降低其品质,每年因此导致的减产幅度约占10%~15%,给茶产业带来巨大的经济损失[1]。因此,开发精确、高效的茶叶病害检测方法,及时识别病害类型与严重程度,已成为保障茶产业可持续发展和标准化茶园管理的核心环节。
传统的茶叶病害识别主要依靠人工观察和经验判断。这种方法不仅效率低下,诊断准确性不高,而且主观性强,容易导致误诊或漏诊。尽管聘请经验更丰富的专业人员能让检测精准率更加可控,但高昂的人工成本和人力资源限制使其难以在大规模茶园中推广应用。随后,虽然有研究尝试使用无人机或多传感器融合技术,但所获取的图像信息仍过于庞杂,距离高效精确的识别仍有不足,因此本研究设计了一套完整的茶叶病害自动识别系统,能够自动从图像中提取特征,实现对茶叶病害的自动化检测,为茶园管理提供科学依据。
1.2. 检测方法
随着计算机视觉技术在农业领域的广泛应用,从作物生长监测到病虫害识别,智能化检测已成为行业发展的必然趋势[2]。在茶叶病害的检测方法发展历程中,原始的CNN检测重度依赖手工特征工程。这意味着需要先由专计算机和茶叶工作者共同定义病斑的颜色、纹理或形状等特征,再设计对应的针对性检测方式。这种方式不仅费时费力,且特征的表达能力有限。其次,这些手工特征对光照变化、背景干扰等环境因素高度敏感,导致模型训练的图像输入质量参差不齐,影响系统检测效果,因此降低了模型的泛化能力。难以应用在茶园实际场景的茶叶病灶检测任务中。
茶叶病害检测经历了从人工经验判断到自动化检测的演变。早期基于支持向量机(SVM)等传统机器学习的方法严重依赖人工设计的颜色或纹理特征,难以适应茶园复杂多变的光照与背景环境,泛化能力有限。在深度学习领域,虽然以Faster R-CNN为代表的双阶段目标检测算法在精度上表现优异,但其复杂的候选区域生成机制导致推理速度较慢,难以满足智慧农业对实时监测的严苛要求。相比之下,以YOLO系列为代表的单阶段检测算法通过端到端的回归策略,在保障高精度的同时显著提升了检测速度。因此选用开源的YOLOv12模型(项目地址:https://github.com/sunsmarterjie/yolov12)作为核心检测模型,利用其注意力架构优势,专门解决茶叶病斑细微、特征易混淆及背景复杂等检测难题,以实现高效、精准的实时识别[3]。
1.3. 大语言模型应用
大语言模型(Large Language Model, LLM)是深度学习领域最前沿的分支之一,基于Transformer、MoE、DeepSeed、vLLM等各种框架,通过海量文本数据预训练获得强大的自然语言理解与生成能力。模型通常经历“预训练–监督微调–人类反馈强化学习”三个阶段逐步掌握通用知识、任务指令遵循能力以及与人类价值观对齐的应答特性。自2018年GPT-1开启生成式预训练范式以来,大语言模型规模迅速增长,至2022年ChatGPT的出现显著推动了技术的普及与应用生态的形成。此后,国外如Anthropic的Claude等模型持续迭代,国内亦涌现出如DeepSeek、阿里巴巴的通义千问等优秀开源与商用模型。LLM已展现出赋能各行各业的巨大潜力。将大语言模型集成到YOLOv12茶叶病害检测系统的智慧农业平台中,可显著提升系统的分析、交互与决策智能化水平[4]。在该系统中,LLM的任务高度聚焦:改善了人机交互体验,允许用户使用自然语言进行查询,并且能主动解析YOLOv12输出的检测结果,结合本地知识库自动生成包含病害类型、防治建议的综合报告,并能将报告结果存入历史检测数据,辅助管理者结合历史检测数据进行趋势分析和病害溯源,构建成一个完整、闭环解决问题的智慧化农业系统,从而有效降低了对外部农业专家的依赖及由此产生的人工咨询成本。
2. 相关研究
2.1. 农业目标检测技术的演变与发展
在智慧农业的早期发展阶段,农作物病害与果实的检测主要依赖人工观察,这种方式不仅劳动强度大、效率低下,还极易受检测人员主观经验和疲劳程度等各种因素影响而导致误判。随着计算机视觉技术的兴起,基于传统机器学习的图像识别方法曾一度成为主流。这类方法通常依赖人工设计的特征工程,通过提取图像的颜色、纹理或形状特征,结合支持向量机(SVM)、Adaboost等分类器进行识别。然而,传统方法对光照变化、背景复杂度和果实重叠等非结构化环境因素高度敏感,特征提取过程繁琐且泛化能力较差,难以满足实际农业生产中针对于高效实时性、高精度的检测需求[5]。
近年来,卷积神经网络(CNN)的突破性进展推动了农业目标检测技术的变革。早期的尝试如结合图像分类技术对棉花发育期的自动识别,已初步证明了深度学习在农业特征提取上的潜力[6]。目前的深度学习检测算法主要分为两个种类:一类是以Faster R-CNN为代表的双阶段算法,此类算法通过区域生成网络(RPN)先提取候选框再进行分类,虽然精度较高但计算复杂、检测速度较慢,不能完成部署实时系统的任务;另一类是以YOLO系列和SSD为代表的单阶段算法。该类算法通过将目标定位与分类的问题转化为回归问题,实现了端到端的快速检测,在检测速度与精度之间取得了极佳的平衡,因此在工业、农业及遥感领域有更为广泛的应用[7]。
2.2. 复杂农业场景下的算法优化策略
针对农业场景中普遍存在的背景复杂、目标密集、遮挡严重及光照不均等挑战,大量研究基于YOLO架构进行了针对性的改进,主要集中在提升小目标检测能力、多源数据融合以及抗干扰鲁棒性方面。
在解决小目标与密集遮挡问题方面,针对自然环境下果实相互遮挡及小目标检测难的痛点,在YOLOv5模型中引入Transformer模块和BiFPN结构,可利用注意力机制增强全局特征提取,并通过双向加权特征金字塔优化特征融合效率,显著提升了检测精度[8]。对于自然场景下分布密集且颜色多变的作物识别,通过采用Mosaic数据增强策略,可有效解决样本不均衡和背景干扰问题,进一步证实了YOLO算法在处理复杂背景下小目标果实问题中的高鲁棒性[9]。此外,针对密集果实的严重粘连问题,基于改进YOLOv4-LITE模型的研究通过引入高分辨率的细粒度特征层(如104 × 104尺度),可大幅提升对微小及遮挡目标的识别能力[10]。此外,利用YOLO网络对水稻秧苗行线进行精准提取,为视觉导航提供了可靠依据[11];利用改进YOLOv3网络结合DIoU损失函数,实现了对生姜种芽的快速识别与朝向判定,解决了不规则农产品在自动化播种中的定位难题[12]。
在应对环境干扰与数据质量方面,为解决成熟期果实在复杂光照和藤蔓遮挡下的误识别问题,将YOLO网络与HSV颜色空间分割相结合的混合算法,可通过颜色特征辅助剔除干扰背景,证明了该策略在提升抗干扰鲁棒性方面的有效性[13]。针对样本小、背景复杂的问题,基于YOLOv5的设计方法在小样本情况下依然实现了对四种典型样本的高精度识别[14]。数据的多样性对于模型的泛化能力至关重要,通过构建包含监测设备、诱捕器等多种背景的多源数据集,利用YOLOv5实现了对水稻主要害虫的高精度识别,可验证多源异构数据对提升模型在实际田间环境中表现的重要性[15]。此外,针对光照变化大、尘土干扰等极端环境,结合深度图像与神经网络的拖拉机识别定位方法,也展示了多模态数据在提升系统鲁棒性方面的优势[16]。
2.3. 轻量化模型与边缘计算部署
为了适应农业移动终端和嵌入式设备计算资源有限的特点,轻量化网络设计成为当前研究的热点。将YOLOv4的主干网络替换为MobileNetV3,并引入轻量级注意力机制,可在保证识别率的同时显著降低计算量和模型体积,实现识别模型在嵌入式设备上的高效运行[17]。针对全景图像数据量大的问题,基于改进YOLOv3-tiny的研究通过轻量化设计实现了农田障碍物的实时检测,验证了轻量化模型在广角视野下的有效性[18]。同样地,采用深度可分离卷积替代普通卷积的策略也被广泛应用于模型压缩中,有效提升了检测速度,使其更适于采摘机器人等移动平台。基于YOLOv11n引入ShuffleNetv2主干网络和HS-FPN结构,在普洱茶加工检测中实现了极致的轻量化与高精度的平衡,将浮点运算量降低了60%以上,展现了该系列算法在农产品加工及边缘计算领域的巨大潜力[19]。此外,通过改进Darknet-20主干网络和多尺度检测结构设计的IMS-YOLO模型,也有效解决了复杂环境下果实快速识别与计算资源受限之间的矛盾[20]。
2.4. 现有研究局限与本研究切入点
尽管现有研究在农业目标检测领域已取得了丰硕成果,但在面向智慧化茶园管理的实际应用中仍存在以下局限性:首先是检测与决策的割裂,现有研究多集中于“视觉识别”环节,即解决“是什么”和“在哪里”的问题,但缺乏对检测结果的深度分析与决策支持,系统往往无法直接给出科学的防治建议;其次是模型性能的瓶颈,虽然YOLOv5、v8乃至v11已表现优异,但在面对茶叶病害这种纹理相似度极高、细微特征难以区分的任务时,仍需更强大的特征提取能力;最后是系统闭环的缺失,多数研究缺乏一个集检测、查询、智能分析于一体的综合性交互平台。针对上述问题,本研究提出了一种基于YOLOv12与大语言模型深度融合的智慧化茶叶病害检测系统。本研究率先将YOLOv12应用于茶叶病害检测,利用其以注意力为中心的设计理念解决微小病斑和相似病害的混淆问题;同时,创新性地引入本地部署的DeepSeek-R1-14B大语言模型,打通了从“图像检测”到“病害诊断”再到“防治决策”的信息闭环;并结合工业级Basler相机与Dash交互平台,实现了从算法模型到实际应用系统的完整跨越。
3. 实验设计
3.1. 数据集与实验环境介绍
数据集由kaggle平台提供,茶叶病害图样2723张、按照8:1:1分配为训练集2178张,测试集273张,验证集272张,包含:茶藻斑病(algal-leaf-spot),茶褐枯病(brown-blight)和茶灰枯病(grey-blight)三种主要茶叶病害。为确保实验结果具有统计学意义及泛化价值,本研究在数据集构建阶段实施了严格的质量控制策略。首先,采用分层抽样方法进行数据集划分,确保茶藻斑病、茶褐枯病及茶灰枯病三类样本在训练集、验证集与测试集中的分布比例一致,减少类别不平衡产生的误差。其次,在标注阶段引入多人交叉验证机制:所有图像经初次标注后,人工进行二轮复核,剔除或修正交并比低于0.85的标注框,从而保证了数据集划分的高可信度。此外,测试集专门包含了阴天、强光直射及傍晚低照度等多种非理想光照条件下的样本,充分验证模型在实际田间环境中的鲁棒性,其中模型训练过程中评估性能的验证集验证结果示例如图1所示。
Figure 1. Sample images and detection results on the validation set
图1. 验证集病害样本及结果示例
使用的实验环境及超参数情况如表1所示:
Table 1. Experimental environment and hyperparameter settings
表1. 实验环境与超参数设置
(a) Experimental environment configuration (a) 实验环境配置 |
(b) Model training hyperparameter settings (b) 模型训练超参数设置 |
配置项 |
版本 |
关键参数 |
值 |
Python |
3.11.13 |
batch |
16 |
Ubuntu |
24.02 |
patience |
100 |
PyTorch |
2.3.0 |
epochs |
300 |
Dash |
3.3.0 |
workers |
8 |
3.2. 评价指标
为客观评估模型在茶叶病害检测任务上的性能,本研究采用了一系列标准化的评价指标。核心指标为mAP@0.5,即在交并比(IoU)阈值为0.5时,所有类别的平均精度(AP)的均值。该指标综合了模型的精确度(Precision, P)和召回率(Recall, R)。
精确度(P)衡量模型检测结果的准确性,即在所有被预测为正例的样本中,有多少是真正的正例。其计算公式如式(1)所示:
(1)
召回率(R)则衡量模型检测的完整性,即在所有真实的正例中,有多少被模型成功检出。其计算公式如式(2)所示:
(2)
在上述公式中,TP (True Positives)代表正确的检测结果(阈值0.5);FP (False Positives)代表错误的或冗余的检测结果;FN (False Negatives)代表被模型遗漏的真实目标。mAP作为最终的综合评价指标,是n个类别AP值的平均值,计算如式(3)所示:
(3)
3.3. 实验结果
本实验通过检测精度、模型复杂度和实时性能三个方面验证了所提模型的有效性。为了评估模型在不同置信度阈值下的综合检测性能,本研究分析了F1-置信度曲线(F1-Confidence Curve),如图2(a)所示。F1分数作为精确率与召回率的调和平均数,是衡量模型稳健性的关键指标。从图中可以看出,随着置信度的变化,各病害类别的F1曲线保持了较高的一致性。其中,所有类别的综合F1分数(图中蓝色粗线)在置信度阈值为0.575时达到峰值0.91。这一结果表明,该模型在保证高置信度的同时,能够有效平衡误检率与漏检率,在复杂背景下表现出优异的鲁棒性。
训练完成后,模型的最终性能由图2(b)的精确召回率(Precision-Recall, P-R)曲线进一步解释。如图中深蓝色所示,模型在所有类别上的平均精度均值(mAP@0.5)标注为0.955。P-R曲线的整体形态贴近图表的右上角(P = 1,R = 1点),直观地表明模型在Precision和Recall两项指标上均达到了较高水平。具体到图2(b)标注的各个类别,brown-blight (茶褐枯病)的单类平均精度(AP)为0.971;algal-leaf-spot (茶藻斑病)的AP为0.956;grey-blight (茶灰枯病)的AP为0.939。如下表2所示为训练过程中,模型对三种病灶分别的预测情况。所有类别的mAP@0.5为0.9120,mAP@0.5~0.95为0.8457。同时,它列出了各单项指标,例如algal-leaf-spot (茶藻斑病)的Precision为0.9529,brown-blight (茶褐枯病)的Recall为0.8950,grey-blight (茶灰枯病)的mAP50为0.9073。
(a) (b)
Figure 2. Model training metrics (400 epochs). (a) F1-Confidence curve; (b) P-R curve of training results
图2. 模型训练指标(400周期)。(a) F1-置信度曲线图;(b) 训练结果P-R曲线图
Table 2. Class-wise detection performance metrics
表2. 模型逐类检测性能指标
ClassName |
Precision |
Recall |
mAP50 |
mAP50-95 |
algal-leaf-spot |
0.9529 |
0.8863 |
0.9567 |
0.8618 |
brown-blight |
0.9471 |
0.8950 |
0.9015 |
0.8376 |
grey-blight |
0.9373 |
0.8664 |
0.9073 |
0.8376 |
allclasses |
0.9457 |
0.8817 |
0.9120 |
0.8457 |
此外,模型在实现高精度的同时,展现了轻量化特性与实时检测性能。如下表3所示,训练后的模型参数量(Parameters)为2,557,313 (约2.56 M),计算量(GFLOPs)为6.3,模型文件大小(Model File Size)为5.3 MB。这种架构带来了较快的推理速度,单张图片的纯推理时间(推理时间/一张图)仅需0.003764秒,折算达到265.64 FPS (推理)。即便包含前处理(0.000655 s)和后处理(0.000863 s)的完整流程,系统的端到端检测速度依然达到189.30 FPS,系统的模型参数量和端到端检测速度已经卓有成效,满足了系统实时检测的需求。
Table 3. Model lightweight characteristics and inference speed metrics
表3. 模型轻量化与推理速度指标
性能指标 |
结果 |
GFLOPs |
6.3 |
Parameters |
2,557,313 |
前处理时间 |
0.000655 s |
推理时间 |
0.003764 s |
后处理时间 |
0.000863 s |
FPS (前处理 + 模型推理 + 后处理) |
189.30 |
FPS (仅推理) |
265.64 |
Model File Size |
5.3 MB |
4. 系统设计
4.1. 技术分析
本系统旨在构建一个集成了先进检测算法和智能分析功能的轻量化交互平台。在技术选型上,系统采用Python-web技术栈开发,选用dash作为前端交互框架。dash利用Web Workers进行数据计算,具有高性能的特点,可确保界面流畅性。此外,其丰富的组件库和直观的API,支持鼠标、键盘等多种交互方式,降低了开发难度,同时提升了用户体验。系统的后端核心分为两部分:一是基于YOLOv12模型的检测核心,负责处理图像和视频流;二是基于本地部署的DeepSeek-R1-14B大语言模型的智能分析核心[21] [22]。考虑到需要保障企业数据安全的战略,茶园的生产数据必须保留在本地,所以采用了本地方式来部署大语言模型。
Figure 3. System functional structure diagram
图3. 系统功能结构图
基于上述技术选型,本系统的整体功能结构如图3所示。系统有三个核心模块,“检测功能页”、“数据查询功能页”和“人工智能助手分析页”。其中,“检测功能页”作为数据输入的主要入口,承担图像、批量及视频检测任务,其输出(“检测结果”与“预警通报”)构成了“信息数据记录”的数据源。“数据查询功能页”负责对这些历史数据进行调用,实现“数据查询”和“图表分析”。“人工智能助手分析页”通过调用“茶叶病害分析知识库”,对数据进行“文件理解”和“分析对话”,最终输出“智慧回复”,形成了一个从数据采集到智能决策的完整闭环。
为了支撑DeepSeek-R1-14B大语言模型在农业垂直领域的精准推理,构建了两个知识数据库,辅助从数据输入到知识决策的跨越:(1) D1病害数据库(结构化存储):基于关系型数据库构建,用于存储系统实时生成的结构化检测数据。数据表设计涵盖检测ID、病害类别、置信度评分、检测时间戳及采集终端ID等核心字段。(2) D2茶叶知识库(非结构化向量存储):基于向量数据库构建。数据源涵盖《中国茶树病虫测报办法》、近五年农业核心期刊的防治文献以及本地植保专家的经验记录,并对这些非结构化文本进行了清洗、分块及向量化处理,构建了包含病害病理特征、发病规律、药剂推荐及物理防治措施在内的专业问答索引。系统通过检索增强生成技术,使DeepSeek模型能够精准调用该库中的专业知识,确保了生成建议的科学性与时效性。
4.2. 系统数据流分析
为了清晰地展示系统的内部逻辑和数据流向,本研究绘制了系统的分层数据流图(DFD),如图4所示。
Figure 4. Hierarchical Data Flow Diagram (DFD) of the system
图4. 系统分层数据流图(DFD)
该图采用自顶向下的方式进行分解:顶层DFD定义系统的顶层抽象,将“智慧茶叶病害检测系统”视为一个单一过程。外部实体“用户”通过“检测请求”和“查询/分析请求”与系统交互,系统则返回“检测/查询结果”和“智能回复”;0层DFD将系统分解为三个核心过程,对应系统的三大功能模块:“01检测功能”、“02数据查询功能”和“03人工智能助手”。此层级引入了系统的数据存储:“D1病害数据库”用于记录检测信息,“D2茶叶知识库”为人工智能助手提供专业知识。数据流清晰地显示了用户请求如何被分发到不同过程,以及各过程如何与数据库交互以生成最终的系统响应;1层DFD进一步分解了核心的“01检测功能”。用户的请求被细分为“单张图像”、“批量图像”和“视频流”,分别由“01.1”、“01.2”和“01.3”子过程处理。所有“原始检测数据”汇集到“01.4格式化与存储结果”过程,该过程统一处理数据,一方面向用户返回“检测结果”和“预警通报”,另一方面将“检测记录”写入“D1病害数据库”。
4.3. 系统功能构成
本系统基于Dash框架构建了模块化的Web交互平台,其功能逻辑严谨地划分为病害检测、数据管理与智能分析三个核心板块,各板块间通过后端数据库实现数据流的实时交互与业务闭环。其中,病害检测功能页作为系统的核心数据入口,集成了单张图像、批量处理及实时视频流三种检测模式,支持用户上传待测数据并即时调用后台YOLOv12模型进行毫秒级推理,检测结果与置信度数据将实时渲染于前端并自动同步至数据库存储;数据查询功能页承担数据看板职能,提供多维度的历史记录检索、可视化图表统计及Excel报表导出功能,辅助管理者直观掌握病害发生规律;人工智能助手分析页则内嵌基于本地部署DeepSeek大模型的对话引擎,能够结合本地专业知识库对检测报告进行深度解读与归因分析,即时生成科学的防治决策建议,从而实现了从前端视觉感知到后端智慧决策的全流程自动化管理。
4.4. 硬件设计
确保从源头获取高质量的图像数据,本系统在硬件设计上,采用ace2Basler工业相机,型号a2A5328-4gmIP67。此相机可装配GigE接口,搭载Sony (索尼) IMX540CMOS芯片,可在2440万像素的分辨率下提供4 fps的帧速率;并且可提供符合IP65/67标准的全面防尘防水保护,并配有安装好的镜头外壳和线缆。借助均匀一致的光源,确保在严苛的环境条件下采集到高质量的图像,完美适配智慧化农业系统中的茶叶病灶图像收集与检测。
5. 结论
本研究成功构建了一个基于YOLOv12的智慧化茶叶病害检测系统,有效应对了传统人工检测效率低下的挑战。通过在包含茶藻斑病、茶褐枯病和茶灰枯病的公开数据集上进行训练与验证,所采用的模型表现出卓越的检测性能,平均精度均值(mAP@0.5)达到了0.955,且在各类病害上均展现了均衡、鲁棒的识别能力。本工作的核心创新在于将高效的YOLOv12视觉检测核心与本地部署的DeepSeek-R1-14B大语言模型相结合。通过dash开发的轻量化交互平台,系统不仅实现了高精度的病害识别,还集成了数据查询和智能分析功能,显著降低了专业诊断的门槛。结合“ace2Basler相机”等专业硬件,本方案为智慧农业在茶叶种植领域的实际应用提供了高效且数据安全的解决方案。
未来的优化方向应集中于扩大病害数据集的种类与规模,进一步提升模型对复杂田间环境(如光照变化、叶片遮挡)的鲁棒性,持续深化AI助手与本地生产知识库的智能融合。未来的优化方向将集中在这些层面:算法层面,除了继续扩大病害数据集的种类与规模,还可引入高级数据增强方法,并探索开发病害跟踪算法,以实现对特定病灶发展趋势的连续监测,进一步提升数据精确性,减少人工复检率。硬件层面,针对茶园复杂多变的田间环境,可在现有IP67防护相机的基础上,增加镜头自动清洁和光照自校准功能,并配备备用设备,以确保系统在极端天气下的稳定性。在智能分析层面,可持续训练人工智能助手,提升其能力,从当前的结果解读升级为引入多维度(如温湿度、土壤)的环境传感器数据,建立病害爆发的趋势预测模型,为茶园的预防性维护提供更强的数据支持。最后,在预警功能方面,根据检测到的茶叶病害严重程度,设置声音提示、界面颜色编码及短信通知等多级、多样化的报警方式,提高系统预警的针对性和响应速度。
NOTES
*通讯作者。