1. 引言
1.1. 研究背景与意义
草莓成熟度检测在产业链中发挥关键作用,从采摘环节影响果实品质与口感,到销售环节指导策略制定,再到加工环节决定产品适用性。传统检测方法主要依赖人工观察外观特征,存在主观偏差与低效率问题,无法满足规模化生产需求。在加工流程中,精准评估成熟度有助于将成熟果实用于高附加值产品如果酱或果汁,而未成熟果实则适用于特定用途;然而,传统检测效率低下,常导致原料浪费与产品质量波动。
深度学习算法为草莓成熟度检测提供有效解决方案。该算法通过学习大量图像数据,精准提取成熟度特征,实现自动化与智能化评估,从而大幅提高检测效率、降低人力成本并消除人为误差。自动化系统可与加工生产线整合,支持从原料分选到成品包装的全流程自动化,提升整体生产效率并减少成本。
1.2. 研究内容
在草莓成熟度检测领域,原始YOLOv8算法面临多项挑战。小目标草莓在算法下采样过程中易丢失细节信息,导致漏检频发。本研究提出基于改进YOLOv8框架的检测方法,其技术流程如图1所示。为适应草莓图像特性,数据增强策略包括图像变暗、模糊、添加噪声和旋转操作,从而显著提升模型泛化能力。基于标注完备的草莓图像训练集,通过分层抽样策略确保数据分布一致,将总体样本按预设比例分配至训练集、验证集和测试集。在模型架构中,引入CBAM (Convolutional Block Attention Module)注意力机制,利用通道与空间双重权重分配强化对成熟特征(如颜色饱和度和表皮纹理)的关注。同时,以轻量化FasterNet替换原始骨干网络,通过参数共享和深度可分离卷积优化,在维持检测精度的基础上降低模型复杂度。该优化策略旨在减少参数规模与计算负担,支持硬件资源受限的嵌入式或移动端部署,实现草莓目标检测的实时高效处理。
Figure 1. Strawberry detection flowchart
图1. 草莓检测流程图
1.3. 国内外研究现状
草莓是一种营养价值极高的水果[1],从全球范围看,中国的草莓种植规模与总产出持续稳居世界首位[2]。然而,草莓种植业的快速增长带来了劳动力短缺问题,尤其是在收获过程中,草莓的采摘约占整个生产过程的四分之一,且采摘相关成本占劳动力成本的40%~60% [3]。而且,其果实易在抓取采摘过程中遭受损伤[4] [5]。在此背景下,研发具备自动化识别、检测与采摘功能的草莓采摘机器人,已成为提升收获效率的重要突破口[6]。草莓果实的成熟度检测是采摘机器人精准作业的前提,其成熟度直接影响收获时间、果实品质和市场价值。自动化成熟度检测能够降低人工需求[7],通过对草莓图像的分析和处理,可以准确判断果实的成熟度,为智能采摘提供可靠依据。因此,设计一款高效便捷的草莓成熟度检测模型对草莓的采摘起到重要作用。
近年来,国内外研究者在草莓识别领域投入了大量精力。传统的图像处理技术通常依赖于RGB图像,通过颜色空间转换、白平衡调整等方法进行识别[8]-[12]。易杰等[13]提出了一种轻量化且高精度的草莓成熟度检测模型YOLOv10-IAS。该模型基于改进的YOLOv10,通过替代Neck层的C2f模块中的Bottleneck层的残差相加操作为iAFF,YOLOv10-IAS在平均精度均值、准确度、召回率和检测帧率上分别提升了4.5%、5.4%、1.1%和2.2%,YOLOv10-IAS模型参数量较小,且识别性能最优。李红丹[14]提出一种基于YOLOv7改进模型和一种基于多源图像融合模型,相较于原本的基线模型而言,可以对草莓这类小目标有更好的检测效果,具有更好的鲁棒性和泛化性,并可以对草莓生长环境进行监测和管理,还可以为智能采摘的检测系统提供参考,便于进一步提升草莓产业的生产效率和品质。李佳俊等[15]通过改进Faster R-CNN模型,提升了草莓的自动识别与计数能力。在ResNet50下,成熟草莓的AP达到0.8930,未成熟草莓的AP达到0.8207,mAP为0.8569,显著优于原始Faster R-CNN模型。杨滨硕等[16]使用GIoU替换原损失函数,改善了边界框回归的收敛速度和检测精度实验表明,在参数量增加1.1%和浮点数计算量减少2.8%的情况下,召回率提升了2.7%,平均精度@0.5提升了2.1%,显著提升了模型的整体性能。刘苏杭等[17]提出通过优化YOLOv5模型结构,提升了草莓植株生长状况的识别精度和速度,其中mAP@0.5较同平台搭建的YOLOv5和YOLOv8模型分别提高了13.6%和10.3%,检测速度提升了25.3%,为精准施肥施药提供了技术支撑。姜业帆等[18]通过优化YOLOv8n模型,提出了PCIA-YOLO算法,通过替换模块、引入自注意力机制、改进损失函数和增加ATSS机制,在保持高检测精度的同时实现了模型轻量化和高效实时性,展现了强大的环境适应性和最低计算量需求。Lemsalu等[19]使用YOLOv5来检测采摘系统的浆果和果梗。该网络对草莓的检测平均精度(AP)为91.5%,对果梗的检测平均精度为43.6%。R.Raj等[20]将草莓的全光谱信息输入到支持向量机(SVM)中检测草莓成熟度,达到98%的准确率。但高光谱信息具有数据量大并且信息冗余多的缺点,使得信息的预处理与提取计算变得复杂、繁琐。İlker等[21]基于改进的YOLO12n-Seg架构,通过引入GhostConv模块和全局注意力机制(GAM),构建了一个轻量级模型,实现了柑橘果实成熟度(未成熟/完全成熟)与红圆蚧虫害的同步检测,在保持高精度(mAP@0.5达0.980)的同时显著降低了参数量和计算成本。Liang等[22]提出一种结合无人机遥感与改进YOLOv8的荔枝成熟度检测方法,通过引入轻量化模块与注意力机制,在实现87.7%检测精度的同时显著降低模型参数量,并突破了现有方法仅能进行二分类的局限,为果园精准管理提供了有效解决方案。
2. 相关技术
2.1. 数据采集与预处理
2.1.1. 数据采集
本次实验使用源自百度飞浆公开数据集的草莓图像数据集。如图2所示,该数据集通过精心策划和收集,确保代表草莓在不同生长阶段及环境条件下的外观。它包含3100张高质量图片,这些图片覆盖草莓从青绿未成熟到鲜艳红熟的成熟阶段,并包括不同光照条件和种植密度。该数据集为模型训练与验证过程提供视觉数据基础。
Figure 2. Partial dataset
图2. 部分数据集
2.1.2. 数据预处理
本研究对原始数据实施了随机变换,这一做法旨在增强草莓成熟度检测模型应对复杂情况的泛化能力与鲁棒性,如图像变暗、模糊、添加噪声、旋转等,以模拟实际拍摄过程中可能遇到的各种情况。如图3所示,图像变暗处理通过调整图像的亮度,模拟在光线较暗的环境下草莓的成像效果,提高模型在暗光环境下的检测性能,即使在低光条件下也能保持较高的检测准确性。模糊处理应用模糊效果,模拟由于相机抖动或对焦不准确导致的图像模糊,更好地适应模糊图像,提升模型对图像中边界不清或特征不显著果实的识别表现。在图像中添加噪声,模拟传感器噪声或传输过程中的干扰。提高模型对噪声的鲁棒性,即使在噪声环境下仍能保持较高的检测精度。图像旋转处理由将输入图像按不同角度进行旋转变换,模拟草莓在空间中的多向成像特点,以提升模型对方向性变化目标的识别稳健性,全面理解目标特征,在面对不同角度的草莓时,准确地进行检测和分类。
Figure 3. Data Augmentation
图3. 数据增强
本研究运用随机化策略对原始数据集实施前述数据增强操作,具体为从图像变暗、模糊处理、噪声添加及旋转操作中随机选取单一方法对各图像样本进行增强处理。得到7100张图像,并按照8:1:1的比例分为训练集、验证集和测试集。训练集由5680个图像组成,其中包含17,408个未成熟草莓类;3910个半熟草莓类;4536个成熟草莓类。验证集由710个图像组成,其中包含2176个未成熟草莓类;489个半熟草莓类;567个成熟草莓类。其余710个图像包含2176个未成熟草莓类;489个半熟草莓类;567个成熟草莓类,它们构成测试集。表1是数据集的划分。
Table 1. Dataset division
表1. 数据集划分
|
划分 |
比重 |
图片数量 |
未成熟标签个数 |
半熟标签个数 |
成熟标签个数 |
数据集 |
训练集 |
80% |
5680 |
17408 |
3910 |
4536 |
验证集 |
10% |
710 |
2176 |
489 |
567 |
测试集 |
10% |
710 |
2176 |
489 |
567 |
总计 |
|
100% |
7100 |
21760 |
4888 |
5670 |
2.2. YOLOV8算法优化
本文针对YOLOv8 [23]模型进行如下优化:在Backbone部分使用,C2f_Faster模块替代了传统的C2f模块,优化计算效率,降低计算复杂度和参数量。然后在第9层后,加入了CBAM注意力机制模块,通过通道注意力和空间注意力机制,动态调整特征图的权重,增强模型对目标特征的捕捉能力。整个改进模型在保持较高检测精度的同时,降低了计算复杂度和参数量,适用于资源受限的环境,同时增强对复杂场景的适应能力。图4是改进后的YOLOv8模型的网络结构。
Figure 4. Improved YOLOv8 network structure diagram
图4. YOLOv8改进网络结构图
2.3. 具体改进方法
2.3.1. CBAM注意力机制
在YOLOv8的网络结构中引入注意力机制模块。注意力机制通过动态调整特征图的权重,使模型更加关注与目标相关的特征,忽略背景或不相关的信息。本文所引入的CBAM [24]注意力机制由通道注意力模块和空间注意力模块组成,如图5所示。其中通道注意力模CAM (ChannelAttention Module)首先将输入特征图F (H × W × C)经过基于width和height的最大池化和平均池化,基于两个维度对特征映射压缩,得到两个1 × 1 × C的特征图;其次将最大池化和平均池化的结果用共享的全连接层进行处理,先通过一个全连接层下降通道数,再通过另一个全连接层恢复通道数;然后将共享全连接层得到的结果进行相加,使用Sigmoid激活函数,生成最终的通道注意力特征,获得输入特征层每一个通道的权重(0~1之间);最后将权重通过乘法通道加权到输入特征层上,最终输出特征F′,以供后续空间注意力模块处理之用。在草莓图像中,颜色和纹理是判断成熟度的关键特征,通道注意力机制能够突出与这些特征相关的通道,提升对草莓成熟度特征的提取能力。空间注意力机制首先在特征图的空间维度上分别应用平均池化与最大池化操作,随后将得到的两个特征映射进行拼接融合,该拼接结果经由卷积层进一步处理,最终输出能够表征不同空间位置重要性的权重分布,从而聚焦于草莓所在的空间区域,忽略背景干扰,在不同光照条件下都能更精准地捕捉草莓的关键特征。
Figure 5. CBAM network structure diagram
图5. CBAM网络结构图
2.3.2. FasterNet轻量化网络
FasterNet [25]是一种轻量化的卷积神经网络,引入了PartialConv (PConv)结构和稀疏化卷积核采样,显著降低了计算复杂度和内存占用,同时保留了特征表达能力。PConv在提取空间特征时,仅对部分输入通道实施标准卷积运算,其余通道则保持原始状态。这种设计显著降低了模型所需的参数总量与计算复杂度。其FLOPs计算公式为h × w × k2 × pcout,其中h和w分别为输入特征图的宽和高,k为卷积核大小,cout为输出通道数,p为部分通道的比例。相比常规卷积,PConv在保持高精度的同时减少了内存访问,实现了更高的FLOPS。
FasterNet还提出了一种面向任务对齐学习的动态分配策略。该机制根据预测与真实标签的对齐程度动态分配样本权重,并对未对齐样本施加相应惩罚,提高训练效率并解决样本不平衡问题。在计算资源分配上,后两个阶段被分配了更多资源,因为它们内存访问量低且FLOPS更高,这一改进使得检测系统在精度损失极小的前提下,速度获得显著提升,能够满足复杂场景下的实际部署要求。
在YOLOv8算法的改进中,本研究将原有的骨干网络替换为C2f_Faster。与原C2f模块的普通卷积相比,C2f_Faster 通过PConv仅对1/2输入通道进行卷积操作,其余通道直接传递,在减少计算量的同时保留关键特征,在此基础上有效地减少了冗余的计算与内存访问,使模型大幅轻量化的同时,保证了检测性能。改进后C2f_Faster网络的瓶颈结构如图6所示。
Figure 6. C2f_Faster bottleneck structure
图6. C2f_Faster瓶颈结构
3. 实验与结果分析
3.1. 实验环境与参数设置
为了进行草莓成熟度检测算法的研究,本研究构建了一个基于Python 3.9、CUDA 11.3.1和PyTorch 1.11.0的深度学习环境。实验环境如表2所示,使用的硬件包括AMD Ryzen 7 7735H处理器和NVIDIA GeForce RTX 4060 GPU,显存大小为8GB。本文选择了合适的优化器SGD,并将学习率设置为0.01,批量大小(batch)为16,训练轮数(epochs) 100个epoch。这些配置确保了模型训练的稳定性和效率,以实现高精度的草莓成熟度检测。
3.2. 评价指标
在目标检测任务中,常用的评估指标包括准确率、召回率、F1值和平均精度均值(mAP)。实验选用通用目标检测任务的常规评估指标作为衡量标准(如准确率、召回率、F1值、mAP等)对不同算法的实验结果进行分析,比较改进算法与其他算法的性能差异。
本研究采用精确率(P)、召回率(R)与平均精度均值(mAP)作为核心评估指标,以系统衡量目标检测模型的综合性能。具体而言,精确度反映了模型预测为正类的样本中确实属于正类的比例;而召回率则表征了模型从所有真实正类样本中成功识别出的比例。精确率、召回率和平均精度均值计算如式(1)~式(3)所示。
(1)
(2)
(3)
式中:C表示检测的类别总数;TP表示模型将正样本预测为正样本的个数。
FP表示模型将负样本预测为正样本的个数;FN表示模型将正样本预测为负样本的个数;
表示类别索引类别为i的AP值;N为训练集中类别总数。
3.3. 结果分析
为验证改进后YOLOv8模型的实际效果,本研究选取两组密集型草莓图像进行对比测试。在保持相同s型网络结构的前提下,分别采用原始YOLOv8算法与本文改进方案对测试图像进行检测分析。首组图像的检测结果显示,原YOLOv8模型出现了明显的误检现象,这表明其在处理高密度目标或复杂场景时模型的识别性能尚显不足。与之相比,改进后的YOLOv8模型不仅避免了错检情况,而且整体识别率也较高,所以改进后的模型在该场景下能够展现出其更可靠的检测性能。通过第2组对比图片可知,在密集型果实和遮挡情况下,传统模型整体识别率较低,改进后的算法能够更准确地识别出目标物体。结果对比如图7所示。
根据表2的消融实验结果,可以清晰看到CBAM和FasterNet两个改进模块对YOLOv8模型性能的具体贡献。实验结果表明,优化后的模块在维持原有模型性能的基础上,有效压缩了计算复杂度与参数规模。对YOLOv8s模型进行改进后,其在目标检测任务中的表现与运行效率均有明显改善。加入CBAM模块后,模型召回率由91.7%提高到92.2%,平均精度均值从96.4%上升至96.7%,而参数规模与计算量仍维持原有水平,反映出该模块在增强模型能力的同时未带来额外资源消耗。随后引入的C2f_Faster
Figure 7. Comparison of detection results
图7. 检测结果对比图
Table 2. Ablation study
表2. 消融实验
模型 |
Precision (%) |
Recall (%) |
mAP@0.5 (%) |
Param (M) |
GFLOPS (G) |
Yolov8s |
91.6 |
91.7 |
96.4 |
11.1 |
28.4 |
Yolov8s + CBAM |
91.2 |
92.2 |
96.7 |
11.1 |
28.7 |
Yolov8s + C2f_Faster |
91.5 |
92.2 |
96.8 |
5.9 |
18.9 |
Yolov8s + CBAM + C2f_Faster |
91.3 |
92.6 |
97.2 |
7.3 |
19.1 |
模块进一步优化了模型结构,参数总量由11.1 M压缩至5.9 M,GFLOPS从28.4 G下降至18.9 G。与此同时,模型识别性能持续改善,召回率达到92.2%,平均精度均值提升至96.8%,说明该结构在实现模型轻量化的同时仍能保障检测精度。当同时使用CBAM与C2f_Faster模块时,改进模型展现出更全面的优势。参数总量降至7.3 M,较初始版本降低16.2%;计算负载同步减少32.7%,GFLOPS指标为19.1 G。在模型复杂度得到控制的前提下,召回率与平均精度均值分别进一步提升至92.6%和97.2%,验证了两种改进模块组合应用能够兼顾效率与性能的提升需求。
结合表3各注意力机制对比,本文可以对CBAM和其他注意力机制进行对比分析。CBAM在模型文件大小(18.8)、mAP@0.5 (96.7%)、参数量(11.1 M)等指标上表现均衡。选择CBAM,是因为它在提升检测精度(mAP@0.5从96.4%升至96.7%)的同时,参数量未增加,还具备轻量化特性,不会加重模型计算负担。相比SEA、ECA,CBAM在性能与轻量化的平衡上更具优势,能有效助力YOLOv8模型在保持检测能力的前提下,实现高效运行,这也是其在消融实验中展现出良好协同作用的基础。
从表4各轻量化模型对比来看,C2f_Faster在轻量化与性能的平衡上表现突出。其模型文件大小仅14.9,远小于原模型YOLOv8s的22.5;参数量5.9 M、GFLOPS18.9G,较YOLOv8s大幅降低,同时mAP@0.5达到96.8%,比YOLOv8s还高0.4个百分点。相比C2f-iRMB-DRB和C2f_Star,C2f_Faster在模型大小、参数量、计算量上更具优势,检测精度也不落下风。这说明C2f_Faster模块能在显著降低模型复杂度的同时,有效提升检测性能,在轻量化模型中展现出良好的实用性与高效性,是实现模型轻量化优化的优选方案。
Table 3. Comparison of various attention mechanisms
表3. 各注意力机制对比
算法 |
Model File Size |
mAP@0.5 (%) |
Param (M) |
GFLOPS (G) |
Yolov8s |
22.5 |
96.4 |
11.1 |
28.4 |
CBAM |
18.8 |
96.7 |
11.1 |
28.7 |
SEA |
19.1 |
96.7 |
10.7 |
28.9 |
ECA |
18.9 |
96.6 |
11.1 |
28.7 |
Table 4. Comparison of various lightweight models
表4. 各轻量化模型对比
算法 |
Model File Size |
mAP@0.5 (%) |
Param (M) |
GFLOPS (G) |
Yolov8s |
22.5 |
96.4 |
11.1 |
28.4 |
C2f_Faster |
14.9 |
96.8 |
5.9 |
18.9 |
C2f-iRMB-DRB |
15.1 |
96.7 |
6.2 |
18.9 |
C2f_Star |
18.2 |
96.6 |
8.9 |
23.5 |
4. 结论
本研究采用改进的YOLOV8模型进行草莓成熟度识别,通过引入C2f_Faster结构与CBAM注意力机制,在检测精度和效率方面均获得显著提升。C2f_Faster结构采用部分卷积(PConv)方法,有效减少了冗余计算与内存占用,使模型实现大幅轻量化,同时保持了良好的检测性能。CBAM注意力机制则帮助模型更精准地聚焦于图像关键区域,从而提高了识别准确率。为进一步增强模型适应性,研究采用了图像变暗、模糊、添加噪声和旋转等数据增强方法。这些处理有效提升了模型在不同光照和颜色偏差条件下的泛化能力,使其在实际应用中表现更加稳定。
实验结果表明,改进后的模型在草莓成熟度检测任务中,mAP@0.5指标上达到了97.2%的检测精度,相比之前的YOLOv8提升了0.8个百分点。此外,模型结构得到优化,参数量压缩了16.2%,运算量也降低了32.7%。该研究为轻量化目标检测模型在农业场景的落地提供了理论依据与技术范式,同时验证了注意力机制与结构优化策略在复杂目标检测任务中的协同增效作用。
基金项目
重庆合川区科研项目(HCKJ-2025-085)。
NOTES
*通讯作者。