1. 引言
瓦楞纸包装箱作为商品流通环节中最常见、最重要的防护结构之一,其结构强度与完整性直接关系到产品在仓储、分拣与运输过程中的安全保障能力[1]。尤其在家电、电子、快消品等行业,大量商品依赖瓦楞纸箱作为外包装进行堆码与物流配送。现实场景中,瓦楞箱体在装卸、搬运、跌落、堆压等环节极易产生破损、塌陷、裂缝或边角压痕等损伤,不仅影响商品的外观展示,还可能破坏内包装的缓冲结构,从而降低对核心产品的防护性能。多项行业研究与调查显示,包装损坏会显著降低消费者满意度并增加退换货率,进而影响品牌与平台的服务口碑[2] [3]。在“完好收货”期望不断提升的背景下,包装质检已不再是附加功能,而成为衡量物流服务质量与品牌信誉的关键因素。因此,建立高效、可靠、可部署的纸箱损伤检测机制,对于推动物流自动化、提升运输安全具有重要意义。
传统纸箱外观检测方法多依赖于人工目检或基于图像处理的静态分析(如边缘检测、颜色分割等)。在光照稳定、背景简单的环境下,这类方法可实现一定程度的裂纹/划伤识别,但在复杂纹理、胶带反光、遮挡等条件下鲁棒性较差[4]。早期研究也将支持向量机(SVM)、Gabor滤波器、SIFT等手工特征与学习器用于材料表面缺陷检测,但其对场景变化与多样化损伤形态的泛化能力有限[4]-[6]。同时,两阶段检测器(如Faster R-CNN)虽精度较高,但通常推理时延更大,不利于高速分拣线的实时部署[7]。
基于YOLO (You Only Look Once)系列的单阶段目标检测网络因其高效的推理速度与良好的精度,逐步成为纸箱表面损伤检测的热点方向。自YOLOv3以来,相关工作持续在特征提取、感受野设计与轻量化上演进;例如YOLOv4引入CSPDarknet主干与Mosaic数据增强以兼顾速度与精度[8],YOLOv7通过E-ELAN等结构进一步提升特征表达能力[9];同时,注意力机制(如CBAM、SE)被证明有助于增强对细小裂纹、轻微凹陷等弱目标的响应,从而改善小缺陷检出率[10] [11]。在实际应用层面,已有研究面向物流箱体场景提出“纹理先验 + 多层特征融合”的TPMN网络以适配瓦楞纸箱纹理特性,并发布专用数据集用于缺陷检测评测;也有工作将纸箱损伤划分为面损、边损、角损、顶损等多类别进行识别与统计分析[12] [13]。此外,考虑边端部署的资源受限与现场光照/视角变化等因素,轻量化与实时性成为工程化落地的关键目标,相关研究与工程实践表明YOLO系列在嵌入式/边缘设备上具备较好的可部署性[14] [15]。
尽管深度学习模型显著推动了纸箱损伤检测的自动化发展,但仍面临若干挑战:其一,瓦楞纸箱具有多样纹理结构、胶带遮盖、标签干扰及堆叠变形等复杂因素,对模型鲁棒性提出更高要求;其二,物流现场常见带宽受限、光照不稳定与固定视角成像等条件,要求模型在轻量化、实时性与易部署之间取得平衡[15];其三,目前仍缺乏覆盖多种真实损伤形态(如破洞、划痕、湿渍)的高质量公开数据集,且行业内关于缺陷定义与标注准则尚未完全统一,这在一定程度上限制了算法的泛化能力与工程落地效果[4] [12]。
基于上述背景,本文聚焦于瓦楞纸箱在运输环节中典型的三类损伤:破洞(hole)、划痕(scratch)、湿渍(wet),拟系统梳理并对比评估从 YOLOv3 至最新YOLOv12系列检测网络的演进过程及性能差异。通过构建统一训练与评测流程,在相同数据集和部署环境下,量化各代YOLO模型在精度、速度、参数量、推理效率等多维指标上的表现差异,以验证新一代架构在瓦楞纸箱细粒度损伤识别任务中的改进空间和实际价值。其中,本研究中使用的YOLO10n、YOLO11n、YOLO12n模型来自开源社区的改进复现版本,并非Ultralytics官方发布。这些模型主要在YOLOv8/YOLOv9架构基础上进行了轻量化调整(例如:主干结构缩减、Head解耦、Rep模块改进等)。因此,本文将其作为“轻量级YOLO系列对比模型”而非官方版本,用于验证在同规模参数量下的检测性能差异。
2. 样本准备
为满足深度学习模型在真实物流环境下对瓦楞纸箱表面损伤的识别需求,本文构建了一个具备多源场景、多种损伤类型、标注精细的数据集,涵盖划痕(scratch)、破洞(hole)与湿渍(wet)三类典型缺陷。本数据集图像来源主要包括实验室模拟制作采集、互联网公开图像搜集与快递驿站实地拍摄三类路径,旨在提升模型的泛化能力与部署适应性。
考虑到部分典型损伤在实际物流中难以系统的大量收集,研究团队在实验室环境中搭建纸箱破坏模拟平台,使用常规快递纸箱制造多种典型损伤场景。具体包括人工划刻制造线状划痕、工具压制生成压痕与戳穿箱体制造孔洞、滴水与喷雾构造局部湿渍区域等操作。拍摄设备采用手机(iPhone 16,4800万像素),在均匀漫反射LED光源条件下完成图像采集。通过设定多角度拍摄与亮度强度,获取了高质量、多视角的图像素材,确保了图像分辨率、纹理清晰度与特征完整性,适应后续训练需求。
为拓展数据分布的丰富性,进一步提高模型对实际复杂环境下损伤类型的泛化能力,研究团队在Google图像、百度图库、京东物流投诉页、知乎经验贴、微博平台等渠道,采用关键词(如“纸箱破损”、“包裹压塌”、“瓦楞纸箱撕裂”、“运输湿损”等)系统搜集相关图像素材。所有图像在引入前均经人工筛选与清洗,剔除模糊、信息不完整、视角遮挡等低质量图像,最终保留清晰度良好、构图规范、损伤区域可辨的样本加入数据集。该部分图像有效弥补了真实采集中易缺失的异常场景,如带胶带覆盖损伤、异形开孔等情况。
为还原物流过程中的典型纸箱状态,研究人员前往校园快递集散点进行拍摄。在取得同意后,拍摄未拆封或刚拆封的纸箱包裹,优先选取有明显表面损伤者(如湿渍底部、侧面破洞、边缘翻翘等)。拍摄设备以手机为主(iPhone 16,4800万像素),在自然光与环境光条件下完成图像采集,力求真实反映实际场景中的光照不均、角度不稳、背景杂乱等干扰因素,为模型引入部署环境下的噪声鲁棒性训练基础。
最终,三类数据源共计采集原始图像4000张,经过初步清洗与重复剔除后,保留3800张用于训练与测试。所有图像使用开源工具LabelImg进行手动标注,标签格式遵循YOLO的使用规范,且通过双人交叉校对与复审,确保标注框定位精准、类别一致。部分样例如图1展示。
此数据集在损伤类型、图像质量、采集设备与场景构成上均具有高度多样性,可为后续模型在轻量化部署、场景适应与微型模型迁移中提供坚实训练基础与性能验证支持。
Figure 1. Representative samples of corrugated carton damage
图1. 瓦楞纸箱损伤部分样本
3. 版本介绍
3.1. 基于YOLOv3-Tiny模型的损伤检测
YOLOv3-Tiny是YOLOv3系列的轻量化版本,针对边缘设备和嵌入式场景设计,具备模型小、推理快、部署便捷的优势。其采用简化的Darknet-19骨干网络,移除残差模块,仅保留13层卷积和6层池化操作,在两个尺度上输出预测结果,兼顾大小目标的检测需求。虽检测精度不及完整YOLOv3,但在目标尺寸稳定、实时性要求高的工业任务中表现出良好工程适应性。结合轻量注意力机制和结构优化,YOLOv3-Tiny已广泛移植至PyTorch、ONNX、TensorRT等平台,便于部署于Jetson Nano等资源受限设备,适用于划痕、破洞、湿渍等纸箱表面损伤的快速检测任务。
3.2. 基于YOLOv5模型的缺陷检测
YOLOv5作为Ultralytics团队于2020年发布的单阶段目标检测模型,凭借其卓越的检测精度和部署便捷性,在工业检测场景中获得了广泛应用。该模型采用CSPDarknet53作为骨干网络,通过引入跨阶段连接结构(CSP)有效分离梯度流,减轻信息冗余,提升特征表达效率。为适应多尺度复杂目标的检测任务,YOLOv5引入了双向特征金字塔结构(FPN + PAN),增强高层语义特征与底层纹理信息的融合能力。
在训练策略上,YOLOv5支持自动锚框生成、Mosaic数据增强、多尺度训练等技术,具有良好的迁移性和可调性,可快速适配不同类型的缺陷数据集。得益于其轻量结构和PyTorch实现框架,YOLOv5可部署于工业PC、边缘网关或云平台,适合用于划痕、凹坑、破损等外观缺陷的实时检测任务。
3.3. 基于YOLOv8模型的缺陷检测
YOLOv8是Ultralytics于2023年推出的全新版本,标志着YOLO系列由静态架构向模块化设计理念的全面转型。其核心创新在于Backbone结构中采用C2f (Cross-Stage Partial with Fused)模块替代原有的C3模块,在保证信息表达能力的同时进一步压缩模型参数,提高模型在算力受限设备上的运行效率。
为增强模型对光照复杂、反射干扰场景下缺陷特征的敏感性,YOLOv8集成了轻量化的空间注意力机制,使得网络能够自动聚焦于划痕、磨损等局部区域。同时,YOLOv8在训练中引入了更加精细的标签分配策略和Mosaic-9图像增强方法,从而在背景变化剧烈、遮挡严重的工业环境中保持较高的检测精度和稳定性。其模块化接口设计也为用户进行定制化微调提供了极大便利。
3.4. 基于YOLO10模型的缺陷检测
YOLOv10是近年来提出的新一代实时目标检测模型,其核心贡献在于实现了真正意义上的NMS-free端到端检测。该模型通过引入一致双重匹配策略(consistent dual assignments),在训练阶段同时兼顾 one-to-many与one-to-one匹配,使网络在保持丰富监督信号的同时,推理阶段不再依赖传统的非极大值抑制(NMS)后处理,从而显著降低推理延迟,提升端到端部署效率。与此同时,YOLOv10采用了整体的效率–精度协同驱动设计(holistic efficiency-accuracy driven design),系统性地从Backbone、特征融合到检测头等多处分模块进行结构重排与算子优化,在保证COCO等基准数据集检测精度的前提下,大幅压缩参数量与FLOPs,推动了实时检测模型在性能–效率边界上的进一步提升。
在工业缺陷检测场景中,YOLOv10模型能够在保持较高检测精度的同时,提供更低的端到端时延和更高的吞吐量,便于部署在工厂质检终端或嵌入式边缘设备上。例如,在瓦楞纸箱表面损伤检测任务中,YOLOv10通过多尺度特征提取与高效检测头设计,对裂纹、破洞、压痕等多类型缺陷实现快速定位与识别;其NMS-free推理机制避免了后处理阶段的瓶颈,为生产线上高速输送的纸箱提供了稳定、低延迟的实时检测能力,更好地满足了工程应用对于检测效率与资源开销的双重约束。
3.5. 基于YOLO11模型的缺陷检测
YOLOv11在YOLOv8体系基础上进行了系统性的结构精简与特征增强,是一款面向实际部署场景优化的高效检测模型。在骨干网络与特征金字塔部分,YOLOv11引入了C3k2模块与改进的SPPF (Spatial Pyramid Pooling-Fast)结构,并在高层特征之后串联C2PSA (Cross-Stage Partial with Spatial Attention)模块,通过跨阶段部分连接与空间注意力机制的结合,提高了中高层特征对关键区域的表征能力。相比YOLOv8,同等规模下的YOLOv11在参数量与计算量上更为紧凑,同时在COCO等数据集上的mAP指标有所提升,展现出结构精简 + 精度提升的综合优势。
借助C2PSA所提供的空间注意力增强机制,YOLOv11在复杂背景和小目标场景下表现更加稳定,适合用于纸箱表面划痕、细小破损等弱纹理、低对比度缺陷的检测任务。在本研究的瓦楞纸箱损伤检测应用中,YOLOv11能够在保持较快推理速度的前提下,更精确地聚焦于包装表面存在异常纹理、边缘断裂和局部起皱的区域,有利于提升对小尺寸缺陷与局部细节的召回率。同时,YOLOv11保留了对目标检测、实例分割、图像分类等多任务的支持,为后续扩展分级质检、缺陷类型统计等功能提供了统一的模型基础。
3.6. 基于YOLO12模型的缺陷检测
YOLOv12是YOLO系列最新一代的注意力中心(attention-centric)目标检测架构,在保持实时性优势的同时,重点引入了多种高效注意力与特征聚合模块。其Backbone与Neck采用了A2/Area Attention模块,通过在空间上划分特征区域并进行区域级别的自注意力建模,在较低计算开销下获得更大的感受野与更强的长程依赖建模能力;同时引入的R-ELAN (Residual-Efficient Layer Aggregation Network)结构,通过残差化的高效层聚合策略提升深层网络的收敛稳定性与特征复用效率。对于大规模模型或深度注意力网络,YOLOv12还支持可选的FlashAttention集成,在保持精度的前提下进一步降低显存访问开销,优化推理延迟。
Figure 2. Comparison of different model architectures
图2. 不同模型结构对比
得益于Area Attention和R-ELAN的协同设计,YOLOv12在处理纹理复杂、缺陷形态多样的工业图像时具有更强的鲁棒性。在瓦楞纸箱损伤检测任务中,大面积湿渍、折角撕裂、褶皱压痕等缺陷往往伴随显著的纹理变化与形变,易受光照、污渍、印刷图案等干扰;YOLOv12通过注意力驱动的特征提取,能够更有效地从背景中分离出与损伤相关的区域,并在多尺度特征图上保持对小尺度划痕、孔洞等细粒度缺陷的敏感性。结合其在精度与推理效率上的综合优势,YOLOv12尤其适合部署于复杂工况下的自动化质检终端和仓储机器人平台,为本研究的纸箱缺陷检测提供了性能上限更高的一种模型选择。需要特别说明的是,本文中使用的“YOLO10n”“YOLO11n”“YOLO12n”并非Ultralytics官方发布的YOLO系列新版本,而是相关作者在YOLOv8n基线网络基础上构建的三种改进变体的便捷记号。其命名仅参考了官方模型的版本号风格,用于区分不同改进方案,不代表与官方模型存在一一对应关系。三种变体均以YOLOv8n为基础,在保持主干网络总体拓扑一致的前提下,分别在Backbone与Neck中引入注意力模块、轻量化卷积结构以及改进的边界框回归损失等结构性改动;各模型相对于YOLOv8n的具体差异与模块配置将在下文网络结构对比图(见图2)中给出。
4. 实验结果与性能分析
本研究实验在包含3800张瓦楞纸箱损伤图像的数据集上进行,数据集覆盖破洞(hole)、划痕(scratch)、湿渍(wet)三类常见损伤特征,通过模拟实际生产线上不同视角、光照条件及表面材质下的复杂情况,以全面验证模型的泛化能力与鲁棒性。数据集按照80%/20%的比例划分训练集与验证集,确保训练过程充分学习并评估模型在未见样本上的性能。
该实验涉及到模型的开发语言均为python,使用开源的深度学习框架PyTorch作为网络框架,并配合CUDA 11.8加速训练。其余的具体参数设置如表1所示:
Table 1. Experimental environment and configuration parameters
表1. 环境配置和参数
实验环境 |
参数配置 |
OS |
Windows10 |
GPU |
RTX 4090 |
CUDA |
11.8 |
Python |
3.10 |
PyTorch |
2.3.1 |
实验模型训练时设置的具体参数如表2所示。
Table 2. Training parameter settings
表2. 训练参数设置
参数 |
取值 |
Batch Size |
32 |
Lr |
0.012 |
Mixup |
0.1 |
Mosaic |
1.0 |
Copy_Paste |
0.1 |
Epoch |
100 |
Momentum |
0.937 |
Iou |
0.5 |
评估指标
为了全面评估模型的检测性能,本文选取了多个广泛应用的量化指标进行对比分析,包括准确率(Precision, P)、召回率(Recall, R)、F1分数和平均精度均值(mean Average Precision, mAP)。其中,准确率反映了模型在所有正类预测结果中判断正确的比例,用以评估其目标判别的精度能力;召回率用于刻画模型在全部真实缺陷样本中成功识别出的比例,体现其目标检出能力。
在目标检测领域,平均精度(AP)常用作衡量模型分类性能的核心指标,其定义为Precision-Recall曲线下的面积,能有效刻画分类性能在不同阈值下的综合表现;而mAP则是在所有类别下的AP取平均,作为整体检测能力的衡量标准。考虑到检测任务对实际应用中准确识别能力的要求,本文以P、R两项指标作为基础评价依据,并引入F1分数与mAP作为主要性能评估指标,以实现精度与召回之间的平衡性分析。上述评价指标的数学定义如下:
(1)
(2)
其中,P表示准确性,R表示召回率,TP表示将阳性样品标记为阳性样品,FP表示将负样本标记为正样本,FN表示将阳性样本标记为阴性样本,TN表示将负样本标记为负样本。
(3)
(4)
c是类别的数量,AP是平均准确率,mAP是平均精度均值。
(5)
F1-score综合考虑精确度和召回率,更全面地反映了网络的整体性能。
通过对以上多个指标的联合分析,不仅可以量化模型对不同类型缺陷目标的判别能力,同时也能评估其在实际部署中的泛化与稳定性能。
Figure 3. Comparison of computational cost vs. detection performance for different models
图3. 计算量vs性能对比图
(a) 准确性P指标柱状对比图 (b) 召回率R指标柱状对比图
(c) 平均精度均值mAP50指标柱状对比图 (d) F1-score指标柱状对比图
Figure 4. Bar chart of evaluation metrics for different model series
图4. 各系列模型的评价指标柱状对比图
上图3~5分别展示了不同版本YOLO系列模型在瓦楞纸箱损伤检测任务中的综合性能对比结果。图4则清晰具体的展示了各系列模型的评价指标柱状对比图。从整体表现来看,YOLOv8n在主要评价指标上均达到最优:其精度(P = 0.840)、召回率(R = 0.790)、mAP50 (0.868)和F1-score (0.814)均处于最高水平,说明该模型在准确识别各类损伤的同时,保持了较强的召回能力和整体检测平衡性。YOLOv8n相较YOLOv5n的mAP50提升约1.0%,同时GFLOPs仅略有增加(由7.1至8.1),表明其结构优化在有限计算量下显著提高了检测精度和特征表达能力。
与之相比,YOLOv3-tiny的mAP50虽达到0.848,接近高版本模型,但GFLOPs高达18.9,计算复杂度超过YOLOv8n的两倍以上,说明其特征提取与推理过程存在较大冗余。其卷积结构受限于早期网络设计,特征复用率较低,难以兼顾轻量化与检测精度,因此更适合用于资源相对充足的固定检测终端,而不适合嵌入式或移动端部署。相比之下,YOLO10n、YOLO11n和YOLO12n依托新一代骨干网络与解耦检测头结构,在进一步压缩计算量的同时保持了稳定的检测性能。尤其是YOLO12n,其GFLOPs仅为6.3,为所有模型中最低,而mAP50仍达到0.858,说明该模型在参数利用效率与推理速度上取得了最优平衡,体现出后续版本在网络结构设计上的轻量化优势与泛化潜力。
Figure 5. Comparison of confusion matrices for different model series
图5. 各系列模型的混淆矩阵对比图
如图5所示的各系列模型的混淆矩阵对比图可见,通过分析不同模型的类别区分能力可进一步揭示模型差异。YOLOv8n在三类典型损伤(scratch, hole, wet)上均表现出较高的分类准确率,其中“scratch”类的预测精度为0.91,“hole”与“wet”类别的准确率分别为0.83与0.84,且背景误检率控制在0.1以下,说明其在表面纹理与反光差异较大的条件下仍能保持稳定检测性能。YOLO10n在“hole”类的识别上明显下降至0.74,推测其特征聚合层对中尺度缺陷的响应能力不足,导致在局部纹理变化不显著的样本中出现漏检。YOLO11n与YOLO12n的表现与YOLOv8n接近,但在“background”与“wet”之间出现轻微混淆,说明超轻量化结构在边缘特征提取与高频纹理分辨上仍存在一定模糊性,这也是轻量化检测模型普遍面临的平衡难题。
综合来看,YOLOv8n在精度、鲁棒性与检测一致性方面表现最优,适用于高精度工业检测场景;YOLO12n则在保持较高检测性能的同时显著降低了计算复杂度,更适合嵌入式终端与实时检测任务。相较之下,YOLOv3-tiny虽推理速度快,但精度与召回率均受限,适用范围较窄。总体而言,YOLOv8n可作为本研究的基准模型,用于高精度损伤识别;YOLO12n 则可作为轻量级部署方案,为后续实现端侧在线检测提供可靠的模型基础。
如图6所示,采用Grad-CAM对YOLOv3-tiny、YOLOv5n、YOLOv8n、YOLOv10n、YOLO11n及YOLO12n在瓦楞纸箱典型损伤样本上的特征响应进行可视化,可以直观比较不同模型的关注区域分布。可以看到,YOLOv3-tiny与YOLOv5n的高响应区域相对分散,对背景纹理和箱体边缘仍存在较多无效激活;随着网络结构的演进,YOLOv8n的显著性区域开始更加集中于划痕、破洞等缺陷附近,YOLOv10n在湿渍边界处仍存在一定范围的冗余响应。相比之下,YOLO11n和YOLO12n在多个样本上均能形成更紧凑、对齐于真实损伤位置的热点区域,对非缺陷背景的响应明显减弱,说明新一代模型在瓦楞纸箱表面细粒度损伤的特征提取与空间定位方面具有更强的表征能力。图7则展示了对应样本的检测输出(预测框及类别标签)。从整体效果来看,各系列模型都不同程度的出现了部分误检与边界框偏移现象:其他模型的漏检集中在对折痕特征的检测中,说明它们对弱纹理区域的特征响应仍有限。而YOLOv8n在折痕检测中表现整体较稳,但在破洞损伤中出现了突出的局部漏检,说明其对边界区域的特征响应有限。YOLO10n检测结果表现为置信度偏低;YOLO11n的检测框分布均匀、定位精确;YOLO12n在保证检测完整性的同时有效抑制了背景干扰。总体而言,YOLOv11n与YOLO12n在检测精度与稳定性上表现最佳,其中YOLO12n兼顾轻量化与鲁棒性,更适合实时部署场景。
(a) YOLOv3-tiny (b) YOLOv5n (c) YOLOv8n
(d) YOLO10n (e) YOLO11n (f) YOLO12n
Figure 6. Grad-CAM–based visualization of corrugated carton damage detection for different model series
图6. 各系列模型基于Grad-CAM可视化的瓦楞纸箱损伤检测
(a) YOLOv3-tiny (b) YOLOv5n (c) YOLOv8n
(d) YOLO10n (e) YOLO11n (f) YOLO12n
Figure 7. Detection results of corrugated carton damage for different model series
图7. 各系列模型的瓦楞纸箱损伤检测结果
5. 结论
为了选择适用于瓦楞纸箱表面损伤检测的高效目标检测模型,本实验选取YOLO系列的YOLOv3-tiny、YOLOv5n、YOLOv8n、YOLO10n、YOLO11n与YOLO12n作为研究对象。各模型均经过饱和训练后,在相同数据集上进行对比评估。主要结论如下:
(1) YOLOv8n整体检测精度最高,对划痕、破损、湿渍等缺陷的识别效果最稳定;
(2) YOLOv8n的检测速度较快,但在部分样本中存在漏检情况;
(3) YOLOv8n在mAP50和F1等指标上表现最优;
(4) 综合检测精度、速度与计算量,YOLOv8n适用于高精度检测任务,YOLOv12n更适合实时与嵌入式部署场景。
NOTES
*通讯作者。