1. 引言
苹果是世界上最重要的温带果树作物之一,具有重要的经济价值和营养价值[1]。根据2024年《中国苹果产业发展报告》数据,2023年世界苹果产量达到8310万吨,中国苹果产量为4960.17万吨,占世界总产量的57.36%,连续多年位居世界第一,其次为欧盟(15.29%)、土耳其(6.0%)和美国(5.2%) [2]。苹果产业不仅是许多国家重要的经济支柱,也是保障食品安全、促进农民增收的关键产业。随着全球人口增长和生活水平提高,对优质苹果的需求持续增长,2023年全国苹果平均批发价格达到8.97元/公斤,比2022年上涨15.24%,优质优价趋势日益明显[3]。
苹果品质检测与分级是果品产业链的关键环节,直接影响产品市场价值和消费者满意度。高品质苹果的市场价格通常比普通苹果高出30%~50%,优质率每提高1%,果农收入可增加5%~8%。传统的苹果品质检测主要依赖人工目视检查,检测人员根据苹果的外观颜色、形状、表面缺陷等特征进行分级。然而,这种方法存在诸多问题,一是检测效率低下,熟练工人平均检测速度仅为3~5个/分钟,难以满足大规模商业化生产需求;二是主观性强,不同检测人员的判断标准存在差异,同一检测人员在不同时间的判断也可能不一致;三是劳动强度大,长时间重复性工作容易导致视觉疲劳,影响检测准确性;四是人工成本高,检测人员培训周期长,人力资源短缺问题日益突出。近年来,随着工业4.0和智慧农业概念的兴起,农产品品质检测自动化成为发展趋势。计算机视觉技术作为实现农业智能化的重要手段,在农产品外观品质检测方面展现出巨大潜力。早期的计算机视觉方法主要基于传统图像处理技术,通过提取颜色、纹理、形状等手工特征进行分类识别。其中一个重要的技术突破是基于多视图融合的水果表面缺陷检测方法,通过创建表面图来减少分析操作和避免缺陷重复计数,为桃子、柠檬、苹果和番茄分别实现了94.58%、88.23%、70%和93.33%的准确率[4]。Lu等[5]开发了基于二维经验模式分解(BEMD)的图像增强技术,有效减少了苹果缺陷检测中的图像渐晕和噪声影响,为结构化照明反射成像系统提供了有效的图像增强工具。然而,这些方法高度依赖人工设计的特征,泛化能力有限,在面对复杂光照条件、多样化缺陷类型时表现不稳定。
深度学习技术的快速发展为农产品品质检测带来了革命性变化。深度学习特别是卷积神经网络(CNN)在图像识别任务中表现出优异的性能,能够自动学习图像的层次化特征表示,从低级的边缘、纹理特征到高级的语义特征,克服了传统方法依赖手工特征设计的局限性。与传统机器学习方法相比,深度学习具有以下优势。一是特征学习能力强,能够自动从原始数据中学习最优特征表示;二是泛化能力好,对新样本和环境变化具有较强的适应性;三是端到端学习,可以直接从输入图像到输出结果进行优化;四是处理能力强,能够处理大规模、高维度的数据。目前,已有众多研究者将深度学习应用于水果品质检测领域,取得了显著进展。在苹果相关检测方面,最新的智能视觉与机器学习驱动的苹果分级技术研究中,轻量级检测算法FDNet-p在果柄检测任务上实现了96.6%的mAP@0.5,模型大小仅为2.5 MB,而GBDT分级模型在苹果分级实验中达到了95.06%的加权Jaccard分数[6]。Jia等[7]提出了RS-Net网络用于绿色重叠苹果的稳健分割,通过嵌入高斯非局部注意力机制,在合理运行时间内达到85.6%的AP box和86.2%的AP mask。Zhang等[8]开发了基于多任务卷积神经网络的水果新鲜度检测方法,通过优化新鲜度检测和水果类型分类并行任务,在新鲜度检测任务上达到93.24%的准确率。Wang等[9]设计了MGA-YOLO轻量级网络用于苹果叶病检测,替换普通卷积为Ghost模块并集成CBAM注意力机制,实现了89.3%的mAP和84.1的FPS,模型大小仅为10.34 MB。在其他果品检测方面,Nithya等[10]利用深度卷积神经网络检测芒果果实缺陷,准确率达到98%;最新的柑橘病害检测研究中,InceptionV3和DenseNet121在包含黑斑病、溃疡病、黄龙病等9个病害类别的分类任务上均达到了99.12%的准确率[11]。
然而,现有方法在实际应用中仍面临诸多挑战。一是检测精度有待提升,特别是对小尺寸缺陷和细微质量差异的识别能力不足;二是处理速度与精度难以兼顾,高精度模型往往计算复杂度高,难以满足实时检测需求;三是对复杂背景和光照变化的鲁棒性不强,在实际生产环境中性能下降明显;四是数据集规模有限,多数研究仅针对单一品种或特定缺陷类型,缺乏针对多品种苹果的综合检测研究;五是模型可解释性差,难以理解算法的决策过程,影响在实际生产中的可信度和可接受度。为了解决上述问题,本研究基于YOLOv8目标检测架构,提出一种改进的苹果品质检测算法。针对苹果缺陷尺度变化大、背景干扰复杂、样本分布不均等特点,设计了多尺度特征融合模块(MSFM)、卷积块注意力机制(CBAM)和改进的Focal Loss损失函数,以提升小目标缺陷检测精度、降低背景干扰并解决样本不平衡问题。同时构建了包含15000张高分辨率图像的多品种苹果品质检测数据集,涵盖主要品种和缺陷类型。实验结果表明,改进算法在检测精度和处理速度方面相比现有方法有所提升,为苹果品质自动化检测提供了一种可行的技术方案。
2. 材料与方法
2.1. 数据集构建
在山东、陕西、新疆等主要苹果产区收集样本,构建大规模苹果品质检测数据集。数据收集时间跨度为2023年9月至2024年3月,涵盖不同采摘期和储存阶段(表1)。使用高分辨率数码相机(Canon EOS R5, 4500万像素)在标准化光照条件下拍摄,图像分辨率为3840 × 2560像素。
2.2. 改进的YOLOv8网络架构
YOLOv8作为当前先进的实时目标检测算法,在速度和精度方面表现优异,具有统一的网络架构、高效的特征提取能力和良好的部署适应性。然而,面对苹果品质检测的特殊需求,本研究针对原始架构仍存在一些局限性提出以下改进。
Table 1. Detailed composition of the dataset
表1. 数据集详细构成
苹果品种 |
样本数量 |
优质比例/% |
良品比例/% |
次品比例/% |
主要缺陷类型 |
红富士 |
3,500 |
65.3 |
13.2 |
21.5 |
表面斑点、机械损伤、变色 |
嘎啦 |
2,800 |
70.5 |
11.6 |
17.9 |
虫眼、划痕、软化区域 |
黄元帅 |
2,200 |
62.8 |
12.8 |
24.4 |
锈斑、凹陷、霉变 |
青苹果 |
2,100 |
68.7 |
11.6 |
19.7 |
成熟度不足、擦伤 |
蛇果 |
2,000 |
74.2 |
11.0 |
14.8 |
表皮皱缩、色泽不均 |
国光 |
2,400 |
64.5 |
13.3 |
22.2 |
病斑、裂纹、畸形 |
合计 |
15,000 |
67.2 |
12.2 |
20.6 |
- |
注:数据标注采用三级分类体系,品种识别(6类)、品质等级(优质、良品、次品)和缺陷类型(12类)。组织5名具有10年以上经验的果品分级专家进行标注,采用多轮交叉验证确保标注一致性达到96.3%。
1) 多尺度特征融合模块(MSFM)
苹果缺陷在尺度上差异显著,从0.5 cm2的微小斑点到5 cm2以上的大面积损伤,跨越近10倍的尺度范围。为增强对不同尺寸缺陷的检测能力,本研究在原始特征金字塔网络(FPN)基础上设计了多尺度特征融合模块。该模块通过增加更多尺度分支和特征交互路径,实现不同层级特征的充分融合,提高小目标缺陷的特征表达能力。其中,P3-P6分别对应不同尺度的特征图,P6_new为新增的大尺度特征分支,增强了对小目标的感知能力。特征增强过程采用跨尺度特征融合策略,使每个尺度的特征都包含多层级的语义信息。
MSFM_output = Concat([P3_enhanced, P4_enhanced, P5_enhanced, P6_new])
P6_new = Conv(P5, kernel_size=3, stride=2, padding=1)
P3_enhanced = P3 + Upsample(P4_refined, scale=2)
P4_enhanced = P4 + P4_refined + Downsample(P3, scale=0.5)
P5_enhanced = P5 + Downsample(P4_refined, scale=0.5)
2) 卷积块注意力机制(CBAM)
苹果品质检测中,缺陷区域通常只占图像的很小部分,而叶片、枝条、包装材料等背景信息往往会干扰检测结果。为解决这一问题,本研究引入卷积块注意力机制,通过通道注意力和空间注意力的联合作用,使模型能够自动定位并关注缺陷区域,抑制无关背景信息干扰。通道注意力机制通过全局平均池化和最大池化操作,学习不同通道的重要性权重;空间注意力机制则通过卷积操作生成空间权重图,突出图像中的关键区域。两种注意力机制的串联使用,既保证了特征通道的选择性,又实现了空间位置的精确定位。
F' = CBAM(F) = Spatial_Attention(Channel_Attention(F) ⊗ F) ⊗ Channel_Attention(F) ⊗ F
3) 改进的损失函数
针对苹果品质检测中正负样本严重不平衡的问题,采用加权Focal Loss替代传统交叉熵损失函数。Focal Loss通过动态调整困难样本和易分样本的权重,使模型更加关注难以分类的缺陷样本,有效提升对稀有缺陷类型的检测能力。
Ltotal = α·Lcls + β·Lbox + γ·Lobj + δ·Lfocal
Lfocal = −αt(1−pt)γ log(pt)
其中,α为类别权重,p为预测概率,γ为聚焦参数(设为2),α、β、γ、δ分别设为1.0、7.5、1.0、0.5。
2.3. 训练策略与优化
采用两阶段训练策略。第一阶段冻结主干网络,仅训练检测头(50轮);第二阶段解冻全网络进行端到端训练(250轮)。使用AdamW优化器,初始学习率0.001,采用余弦退火调度策略(图1)。
Figure 1. Loss function and accuracy variation curve during the training process
图1. 训练过程中损失函数和准确率变化曲线
3. 结果与讨论
3.1. 整体性能评估
在测试集上对改进算法进行全面评估,与多种基线方法进行对比。实验结果表明(表2),改进的YOLOv8算法在各项指标上均显著优于对比方法。具体而言,相比原始YOLOv8算法,改进算法的准确率提升了4.5个百分点(从92.3%提升至96.8%),精确率提升了4.3个百分点(从91.6%提升至95.9%),召回率从90.8%提升至96.2%提升了5.4个百分点,F1分数从91.2%提升至96.0%,mAP值提升了5.8个百分点。在处理速度方面,改进算法达到45.1 FPS,相比原始YOLOv8的38.2 FPS提升了18.1%,这主要得益于优化的特征融合策略和高效的注意力机制设计。与其他算法相比,改进YOLOv8的处理速度分别是Faster R-CNN的5.2倍、ResNet-50的3.6倍、传统SVM的19.6倍,充分体现了实时检测的优势。参数量方面,改进算法为13.7M参数,相比原始YOLOv8增加了2.5M (22.3%),这一适度的参数增长换取了显著的性能提升,体现了良好的效率–精度平衡。相比参数量更大的Faster R-CNN (41.8M)和ResNet-50 (25.6M),改进算法在保持更少参数的同时实现了更高的检测精度。
Table 2. Performance comparison of different algorithms
表2. 不同算法性能对比
算法 |
准确率/% |
精确率/% |
召回率/% |
F1分数/% |
mAP/% |
FPS |
参数量/M |
传统SVM |
73.2 |
71.8 |
68.5 |
70.1 |
- |
2.3 |
- |
ResNet-50 |
85.6 |
84.2 |
83.7 |
83.9 |
78.4 |
12.5 |
25.6 |
Faster R-CNN |
88.9 |
87.3 |
86.8 |
87.0 |
82.1 |
8.7 |
41.8 |
原始YOLOv8 |
92.3 |
91.6 |
90.8 |
91.2 |
87.9 |
38.2 |
11.2 |
改进YOLOv8 |
96.8 |
95.9 |
96.2 |
96.0 |
93.7 |
45.1 |
13.7 |
图2采用雷达图形式对六个关键指标进行可视化对比分析。雷达图清晰地显示了各算法在不同维度上的性能差异。改进YOLOv8在雷达图中形成了最大的覆盖面积,在所有六个指标上都表现优异,特别是在准确率、mAP和处理速度三个关键指标上明显领先其他方法。传统SVM方法在所有指标上都表现最差,形成了最小的覆盖面积;ResNet-50在精度指标上有一定优势,但处理速度明显不足;Faster R-CNN虽然精度较高,但在处理速度上存在明显短板;原始YOLOv8在速度和精度之间取得了良好平衡,但整体性能仍不及改进算法。这一可视化结果进一步验证了改进YOLOv8算法的优越性和实用性。
Figure 2. Comparison of radar performance of different algorithms
图2. 不同算法性能雷达图对比
3.2. 各品种苹果检测性能分析
对6个苹果品种的检测性能进行详细分析,结果显示改进算法对不同品种均有良好的检测效果。从图3可以看出,各品种的准确率、精确率和召回率三项指标均保持在95%以上。蛇果的检测性能最为突出,准确率达到98.1%,精确率为97.8%,召回率为98.0%,三项指标均为所有品种中的最高值。这主要归因于蛇果外观特征相对明显,表皮光滑且缺陷对比度较高,便于算法识别。嘎啦苹果紧随其后,准确率为97.2%,精确率96.9%,召回率97.0%,表现同样优异。相比之下,黄元帅的检测性能相对较低,准确率为95.2%,精确率94.6%,召回率95.0%,但仍远高于传统方法。性能相对较低的原因主要是黄元帅表面容易出现锈斑、细微划痕等不易区分的缺陷类型,增加了检测难度。红富士、青苹果和国光的检测性能介于两者之间,准确率分别为96.5%、96.8%和95.8%。值得注意的是,各品种间性能差异较小,最高(蛇果98.1%)与最低(黄元帅95.2%)的准确率差异仅为2.9个百分点,说明改进算法具有良好的品种适应性,能够有效应对不同苹果品种在外观特征、缺陷模式等方面的差异。这一结果为算法在实际多品种混合分拣场景中的应用提供了技术参考。
3.3. 缺陷检测能力分析
针对12种主要缺陷类型进行检测性能评估,深入分析算法对不同尺度和类型缺陷的识别能力。从表3可以看出,算法对各类缺陷都表现出良好的检测性能,但存在明显的尺度相关性特征。统计分析显示,算法对大尺寸明显缺陷的检测能力显著优于小尺寸缺陷。机械损伤(平均面积2.1 cm2)和变色区域(平均面积3.2 cm2)的检测准确率分别达到97.8%和96.9%,这类缺陷由于面积较大、边界清晰,容易被算法准确识别。相比之下,虫眼平均面积0.5 cm2和表面斑点平均面积0.8 cm2等小尺寸缺陷的检测准确率相对较低,分别为95.1%和94.6%,但仍高于传统方法的85%~90%水平。
Figure 3. Comparison of detection performance of various apple varieties
图3. 各品种苹果检测性能对比
Table 3. Detection performance of different defect types
表3. 不同缺陷类型检测性能
缺陷类型 |
样本数量 |
准确率/% |
精确率/% |
召回率/% |
平均缺陷面积/cm2 |
表面斑点 |
1,245 |
94.6 |
93.8 |
94.2 |
0.8 ± 0.3 |
机械损伤 |
987 |
97.8 |
97.2 |
97.5 |
2.1 ± 0.8 |
变色区域 |
856 |
96.9 |
96.3 |
96.6 |
3.2 ± 1.2 |
虫眼 |
734 |
95.1 |
94.6 |
94.8 |
0.5 ± 0.2 |
锈斑 |
623 |
93.7 |
92.9 |
93.3 |
1.3 ± 0.5 |
软化区域 |
578 |
92.8 |
91.9 |
92.3 |
2.8 ± 1.0 |
图4的散点分布清晰揭示了缺陷检测准确率与缺陷面积之间的正相关关系(R2 = 0.73, p < 0.01)。当缺陷面积超过2.0 cm2时,检测准确率普遍达到96%以上;而面积小于1.0 cm2的微小缺陷,检测准确率主要分布在93%~95%区间。这一结果验证了多尺度特征融合模块的有效性,该模块通过增强小目标特征表达能力,使得算法对0.5 cm2以下的微小缺陷仍能保持90%以上的检测准确率,相比原始YOLOv8算法提升了约8个百分点。值得注意的是,软化区域虽然面积2.8 cm2较大但检测准确率92.8%相对较低,这主要因为软化缺陷的边界模糊、对比度低,增加了算法识别的难度。
Figure 4. Relationship between detection accuracy and defect area for different defect types
图4. 不同缺陷类型检测准确率与缺陷面积关系
3.4. 消融实验
为验证各改进组件的有效性,设计了详细的消融实验。采用控制变量法逐步添加改进组件,定量分析每个模块对算法性能的贡献度(表4;图5)。消融实验结果表明,每个组件都对最终性能有积极贡献。多尺度特征融合模块(MSFM))的贡献最为显著,单独添加该模块使mAP从87.9%提升至90.7%,净提升2.8个百分点(表4),验证了多尺度特征融合对小目标缺陷检测的重要作用。注意力机制(CBAM)的贡献次之,从90.7%到92.8%进一步提升2.1个百分点,有效降低了背景干扰对检测结果的影响。值得注意的是,Focal Loss的单独贡献相对较小(+0.4%,从92.8%到93.2%),但这并不意味着其作用有限。进一步分析发现,Focal Loss在处理稀有缺陷类型时效果显著,将锈斑、软化区域等低频缺陷的召回率平均提升了3.2个百分点。数据增强策略的加入使完整模型性能进一步提升0.5个百分点,更重要的是改善了模型的泛化能力,在跨环境测试中准确率下降幅度从8.3%降低至2.1%。
Table 4. Results of ablation experiment
表4. 消融实验结果
配置 |
MSFM |
CBAM |
Focal Loss |
数据增强 |
mAP/% |
FPS |
基线(YOLOv8) |
× |
× |
× |
× |
87.9 |
38.2 |
+MSFM |
√ |
× |
× |
× |
90.7 |
35.8 |
+MSFM+CBAM |
√ |
√ |
× |
× |
92.8 |
34.1 |
+MSFM+CBAM+FL |
√ |
√ |
√ |
× |
93.2 |
34.1 |
完整模型 |
√ |
√ |
√ |
√ |
93.7 |
45.1 |
从计算效率角度分析,MSFM和CBAM的引入导致处理速度下降,FPS分别降至35.8和34.1,这主要由于增加的特征融合计算和注意力权重计算开销。然而,通过优化数据增强策略和推理流程,完整模型的FPS反而提升至45.1,相比基线提升18.1%。这一现象说明合理的系统优化能够在提升精度的同时改善计算效率。
Figure 5. Performance contribution analysis of each component in the ablation experiment
图5. 消融实验各组件性能贡献度分析
3.5. 计算效率分析
在不同硬件平台上测试算法的计算效率,结果显示改进算法在保持高精度的同时具有良好的实时性能,满足实际应用需求(表5)。测试结果显示,改进算法在高端GPU平台上表现优异,RTX 4090上达到45.1 FPS的处理速度,能够满足实时检测需求。在中端GPU RTX 3080和RTX 2070上,处理速度分别为32.8和24.6 FPS,虽有所下降但仍能支持准实时应用。值得关注的是,算法在嵌入式设备Jetson AGX Xavier上的表现,8.3 FPS的处理速度虽然无法满足实时要求,但对于离线批量处理场景仍具有实用价值。内存占用方面,GPU平台保持在3.2~3.5 GB的合理范围内,嵌入式设备仅需2.1 GB,体现了良好的内存效率。功耗分析表明,高性能GPU的功耗较高(280~320 W),但嵌入式设备仅需30 W,为移动端应用提供了可能。然而,算法在CPU平台上的性能存在明显不足,仅能达到2.1 FPS,难以满足实际应用需求。这一局限性提示未来需要进一步优化算法结构,提高CPU平台的执行效率。
Table 5. Performance testing of different hardware platforms
表5. 不同硬件平台性能测试
硬件平台 |
FPS |
内存占用/GB |
功耗/W |
mAP/% |
延迟/ms |
RTX 4090 |
45.1 |
3.2 |
320 |
93.7 |
22.2 |
RTX 3080 |
32.8 |
3.2 |
280 |
93.6 |
30.5 |
RTX 2070 |
24.6 |
3.5 |
215 |
93.4 |
40.6 |
Jetson AGX Xavier |
8.3 |
2.1 |
30 |
92.8 |
120.5 |
Intel i7-12700K (CPU) |
2.1 |
4.8 |
125 |
93.5 |
476.2 |
4. 结论与展望
本研究基于YOLOv8架构提出了一种改进的苹果品质智能检测算法,通过引入多尺度特征融合模块、注意力机制和优化损失函数,在检测精度和处理速度方面取得了显著提升。实验结果表明,改进算法达到96.8%的准确率、93.7%的mAP值和45.1 FPS的处理速度,相比原始YOLOv8分别提升4.5%、5.8%和18.1%,对6个苹果品种的检测准确率均超过95%,对0.5~4.0 cm2范围内不同尺度缺陷的检测准确率保持在92.8%~97.8%区间。尽管算法在复杂环境适应性、极小缺陷识别和计算资源优化等方面仍存在局限性,但为苹果品质自动化检测提供了有效的技术方案。未来研究可从轻量化模型设计、多模态融合检测、自适应域迁移、实时优化部署和可解释性增强等方向继续深入,进一步推动基于深度学习的农产品品质检测技术在现代农业中的广泛应用。
基金项目
智能计算与信息处理教育部重点实验室开放课题(2023ICIP05);铜仁市大数据智能计算与应用重点实验室项目(铜仁市科研[2022] 5号)。