1. 引言
电气化铁路接触网绝缘子是保障铁路供电系统安全运行的关键设备,其缺陷检测对铁路运营安全至关重要[1]。传统的绝缘子检测主要依靠人工巡检,存在效率低、危险性高、易漏检等问题[2] [3]。近年来,基于深度学习的目标检测算法在电力设备缺陷检测领域展现出巨大潜力[1] [4]。
YOLO系列算法因其优异的实时性能在工业检测领域得到广泛应用[5]。Wang等人[6]提出的YOLOv10模型通过无NMS (Non-Maximum Suppression,非极大值抑制)设计、一致性匹配策略等技术进一步提升了检测精度与速度。然而,直接将通用目标检测模型应用于特定工业场景仍面临挑战:一方面,复杂模型结构在边缘设备上部署存在困难[7];另一方面,工业缺陷数据通常具有小目标、背景复杂、样本不均衡等特点[4] [8] [9],需要针对性的训练策略优化。
针对上述问题,本文以YOLOv10n为基础模型,以三种不同的训练策略进行优化测试,系统性地研究模型性能变化:(1) 使用官方原生结构和默认训练参数作为基线;(2) 移除YOLOv10特殊模块,构建简化结构模型;(3) 采用两阶段冻结微调策略优化训练过程。通过在自建绝缘子缺陷数据集上的对比实验,验证了不同策略的有效性,为工业缺陷检测任务提供了实践指导。
2. 改进YOLOv10模型
2.1. 相关研究基础
目标检测算法可分为两阶段检测器(如Faster R-CNN系列[10])与单阶段检测器(如YOLO系列[11]、SSD [12]等) [13]。其中YOLO系列算法因优异的速度–精度平衡特性在工业界广泛应用[11] [13]。YOLOv10是清华大学团队研发的实时端到端目标检测模型,作为该系列较新版本,延续传统优势的同时进一步优化了性能与效率[6]。其核心创新在于采用无NMS训练方法,通过无NMS设计与一致性匹配策略解决了前代模型的重复预测问题,使用一致双重分配策略摆脱对非极大值抑制(NMS)的依赖,有效降低推理延迟,简化模型结构并提升检测准确性,实现了在精度和速度进一步提升的同时,显著优化了部署效率[6]。
基于计算机视觉的绝缘子缺陷检测已从传统图像处理技术演进为深度学习主导的技术路线[2]。早期研究多采用SVM、AdaBoost等机器学习算法结合手工特征实现检测;随着深度学习发展,基于CNN的检测方法成为主流,这类方法多依托Faster R-CNN、YOLO等通用检测框架,针对绝缘子缺陷特性进行适应性改进[13] [14]。
模型优化策略主要涵盖结构优化与训练策略优化两类[15]:结构优化通过模型剪枝、量化等手段减少参数量、降低计算复杂度以提升效率;训练策略优化则通过改进学习率调度、权重初始化、正则化等方法提升模型性能[16]。其中,冻结训练作为有效的迁移学习策略,通过固定底层参数、仅训练顶层参数,可实现防止过拟合与加速收敛的双重目标[16]。
2.2. YOLOv10模型优缺点分析
YOLOv10在目标检测任务中具备显著优势[6]:其一,处理速度快,能够在时间敏感型场景中快速响应,符合许多应用场景对时间敏感的要求,能够充分满足工业自动化等实时检测需求;其二,检测精度优异,通过网络结构与损失函数的优化,检测准确性可以得到明显提升,在同类模型中表现突出。
然而,YOLOv10在小目标检测与复杂背景适应方面存在明显短板[17] [18]:首先,小目标在图像中像素占比低,模型难以捕捉充足特征信息,易出现漏检现象;其次,复杂背景下,干扰因素增多会导致模型将背景噪声误判为目标,显著提升误检概率。此类现象在本研究先期进行的预实验对比中亦有发现。
上述问题在一定程度上制约了YOLOv10的泛化能力与鲁棒性,特别是高精度要求的特定场景性能仍有提升空间。因此,针对上述不足开展改进,是本研究提升YOLOv10模型整体性能的关键方向。
2.3. 改进方法与实验设计
Figure 1. Flowchart of the “three-step” parallel model improving experiments
图1. “三步走”系列式模型改进实验技术路线图
YOLOv10的backbone (骨干网络)通常包含多个卷积层、C2f模块(可能包括C2fCIB变体)和PSA (Partial Self-Attention,部分自注意力)模块等[6]。由于具体层数可因模型大小版本(n, s, m, l, x)而异,本研究以预实验中测试更适合边缘端部署、生产场景资源受限设备使用的YOLOv10n (nano/超轻量)模型为基础,设计“基线对齐–结构净化–冻结微调”的系列化改进链路,通过如图1所示的“基线对齐vs.结构‘净化’排除环境噪音&两阶段冻结微调稳步提升”三组对照式实验验证优化效果,具体方案如下:
2.3.1. 基线模型
原生基线实验(y10_baseline):采用官方YOLOv10n结构作为基线模型,使用默认训练参数,即SGD (Stochastic Gradient Descent,随机梯度下降)优化器、Cosine Annealing (余弦衰减)学习率调度、AMP (Auto Mixed Precision,自动混合精度)训练。实验脚本中设定,完整训练至200个epoch (其中191~200轮采用续训、AMP节省显存优化等操作)。
该模型作为性能对比基准,旨在评估模型原始性能,体现原始工程在绝缘子缺陷识别场景下的基准表现,用于表征YOLOv10n“即拿即用”的真实性能上限。
2.3.2. 结构简化模型
结构“净化”实验(y10_clean):设计简化版YOLOv10n结构(自定义“yolov10n_clean.yaml”配置文件,创设一个名为“yolov10n_clean”的简化模型),移除PSA、C2fCIB (跨层特征融合)、SCDown等YOLOv10的特殊模块(特有结构) [6],仅保留Conv、C2f、SPPF等基础构建块及标准特征金字塔网络(FPN/PAN) [6] [11]。这些模块在原始模型中负责增强上下文感知能力(PSA)与跨尺度特征融合(C2fCIB),尤其在处理小目标和复杂背景时具有重要作用[6] [11]。移除这些模块虽然降低了模型复杂度,但也可能削弱模型对细粒度特征的表征能力,或导致其在绝缘子缺陷检测任务中的性能下降。
先期的预实验中,本研究团队发现,复杂模块是环境报错的主要诱因,因此设计“净化”模型的实验,旨在测试简化结构对性能的影响,尝试以此提升模型兼容性与部署便利性,构建更轻量稳定且部署友好性、适配性更强的网络结构,并验证绝缘子缺陷检测任务是否更受益于YOLOv10的特有结构。
2.3.3. 冻结微调模型
两阶段冻结微调实验(yolov10_freeze_exp)基于Ultralytics的YOLOv10n模型官方实现,即并不进行自定义模型、不修改官方Nano版本模型结构,采用两阶段训练策略:
Stage-1 (阶段一):冻结backbone的前10层(经预实验筛选确定),即1、2层的Conv基础特征提取器,前3个C2fCIB (3、5、8层)浅层特征提取模块,前3个SCDown (4、7、10层)下采样层,前2个PSA (6、9层)浅层注意力模块。目的在于保留预训练的通用特征,强化头部与高层特征的对齐,防止浅层特征被大幅改变,加速训练初期收敛,减少计算量和内存占用,同时抑制大模型“动太多”的过拟合,即参数过度更新导致的过度适应现象。
Stage-2 (阶段二):解冻所有参数,通过脚本创建断点续训机制,检测到checkpoint后自动resume (续训)训满,即训练至模型收敛,同时避免重复训练,防止意外中断导致从头开始造成的浪费。
此外,在本组实验过程中,Auto Optimizer (优化器)选用AdamW替代基线模型的SGD,该优化器对小目标检测与不均衡数据场景具有更强的鲁棒性。本方案旨在不改动代码库、不自定义网络层的前提下,通过训练策略优化,以较小改动实现更稳定的训练效果、更优资源消耗与更高的mAP50指标。
3. 实验验证与结果分析
3.1. 实验环境与数据集准备
数据集:使用自建接触网绝缘子缺陷数据集,整合铁路现场巡检图像以及多铁路段/场站中通过手持设备(数码相机、智能手机等)自行采集的接触网绝缘子图像,补充开源数据集CPLID [19]及互联网公开铁路接触网、电力绝缘子缺陷相关数据集[20]-[22]。数据集覆盖不同光照、拍摄角度和天气条件下的样本,确保数据类型足够多样,共含6842张绝缘子图像;缺陷类别包含绝缘子/正常(normal)、破损(broken)、闪络(pollution,此类亦判别污损)三种状态,与近期相关研究[1]采用的缺陷分类一致。所有图像均转换为JPG格式后,使用LabelImg工具精确标注生成YOLO (TXT)格式的标注文件,按8:1:1比例随机划分为训练集(5473张)、验证集(684张)和测试集(685张),为后续实验和验证提供全面数据支撑。
数据增强:为提升模型适应不同情况的能力,对数据集做了包括图像归一化、上采样(超分辨率)、随机裁剪、水平翻转等基础预处理操作;进阶采用Mosaic拼接、随机旋转(±15˚)、亮度/对比度调整(±30%)、添加高斯噪声等数据增强策略,以丰富数据多样性,增强模型复杂场景的适应性,提升模型泛化能力。类似的增强策略在基于无人机巡检图像等类似目标检测研究[2] [3] [23]中被广泛采用。
实验环境:操作系统Microsoft Windows 10 ProWorkstation (64-bit, Version 22H2, Build 19045.6216),深度学习框架PyTorch 2.0.1,图像标注工具LabelImg 1.8.6,开发环境包含Python 3.10、TensorFlow 2.16、OpenCV 4.9.0、NumPy 1.26.4、Ultralytics 8.3.179、Matplotlib 3.10.5等常用依赖库,硬件配置为NVIDIA GeForce RTX 3080 GPU,配套CUDA 12.6及cuDNN 8.9。所有实验统一设置输入尺寸为640 × 640,采用相同数据增强策略以保证对比公平性。
3.2. 评价指标
参考国内外类似研究[1] [5] [4] [14] [18] [23]及YOLO官方[6]的常用评估指标,选取mAP@0.5、mAP@0.5:0.95、精确率(Precision)、召回率(Recall)及F1-Score分数作为主要评价指标,各指标定义如下[6] [23]:
mAP@0.5 (mAP50):当IoU (Intersection over Union,交并比/重叠度)阈值为0.5时的平均精度均值,是目标检测任务的核心精度评价指标。
mAP@0.5:0.95 (mAP50-95):IoU阈值从0.5到0.95 (步长0.05)的平均mAP值(Mean Average Precision,均值平均精度,即平均精确率的平均值),更严格地衡量模型在不同重叠度要求下的精度表现。
Precision (P):精确率/查准率,预测为正例的样本中真正为正例的比例,反映模型识别结果的准确性。
Recall (R):召回率/查全率,真正为正例的样本中被预测为正例的比例,反映对正例样本的覆盖能力。
F1- Score:F1分数,即Precision和Recall的调和平均数,用于综合衡量模型的精准性与覆盖性,计算公式为
。
3.3. 实验结果分析
为全面评估不同训练策略的性能表现,本文对三种方案(原生基线、结构简化和冻结微调)进行了系统对比实验。所有实验均采用相同的超参数设置:输入分辨率640 × 640,批量大小8,训练轮次200,使用SGD优化器(冻结微调除外)配合cosine学习率调度策略,并启用AMP混合精度训练以节省显存。
3.3.1. 训练过程特性分析
图2、图3分别为三种模型的精确率(Precision)曲线与召回率(Recall)曲线,其中:(a) 组图像为冻结微调模型(yolov10_freeze_exp)的实验结果;(b) 组为原生基线模型(y10_baseline)的实验结果;(c) 组为结构简化模型(y10_clean)的实验结果。
通过分析训练过程中生成的损失曲线,可以观察到不同策略下的训练动态特征。结合训练损失曲线分析各模型收敛特性如下:
原生基线模型(y10_baseline):训练曲线呈典型收敛特征,50轮次后趋于稳定,损失函数值从初始3.15降至1.78,验证集mAP@0.5稳步提升至最佳值0.695;
结构简化模型(y10_clean):收敛速度较快但存在明显性能瓶颈,其验证集指标相比基线提升幅度有限,最终mAP@0.5维持在0.555水平,显著低于基线模型,表明简化结构削弱了其特征表征能力;
冻结微调模型(yolov10_freeze_exp):采用两阶段训练策略,训练曲线呈现明显两阶段特征,第一阶段冻结骨干网络前10层参数训练,在100轮次后解冻全部参数继续训练,解冻后模型性能得到进一步提升,最终验证集mAP@0.5达到0.717,显著优于基线模型。
Figure 2. Comparison of precision-confidence curve for 3 models
图2. 三种模型的精确率(precision)-置信度(confidence)曲线
Figure 3. Comparison of recall-confidence curve for 3 models
图3. 三种模型的召回率(recall)-置信度(confidence)曲线
3.3.2. 混淆矩阵与类别识别性能分析
Figure 4. Comparison of confusion matrix for 3 models
图4. 三种模型的混淆矩阵
图4、图5分别为三种模型的混淆矩阵及归一化混淆矩阵(图中(a) (b) (c)对应模型同3.3.1处图2、图3),通过对类别混淆特征进行可视化对比,分析各模型识别性能,可以得出:
原生基线模型:在破损(broken)、闪络(pollution)、正常绝缘子(normal)三个类别上的分类准确率分别为63%、37%和96%。类间混淆主要发生在破损(broken)与闪络(pollution)类别之间,但误判率较低,推测来源于这两类缺陷在视觉特征上所具有的一定相似性;
结构简化模型:类间混淆程度显著提升,尤其是正常绝缘子(normal)类别被误判为缺陷类别的数量相对原生基线模型更高,表明简化结构降低了模型对负样本的区分能力;
冻结微调模型:各类别分类准确率均有提升,破损(broken)与闪络(pollution)绝缘子识别准确率、识别精度均有提高,类间混淆率降低,证明该策略可有效增强模型对细粒度缺陷特征的区分能力。
Figure 5. Comparison of normalized confusion matrix for 3 models
图5. 三种模型的归一化混淆矩阵
3.3.3. P-R曲线与F1-Score曲线分析
注:P-R曲线,即以召回率(Recall)为横轴、精确率(Precision)为纵轴绘制的曲线。
Figure 6. Comparison of P-R (precision-recall) curve
图6. 精确率–召回率(P-R)曲线对比
Figure 7. Comparison of F1-confidence curve (BoxF1_curve)
图7. F1分数(F1-score)-置信度(confidence)曲线对比
图6为三种模型的精确率—召回率(P-R)曲线、图7为F1分数曲线(图中(a) (b) (c)对应模型关系亦同3.3.1),对两图进行分析可知:
精确率—召回率(P-R)曲线中,冻结微调模型在不同置信度阈值下均能保持较高的曲线下面积(AUC = 0.742),优于基线模型(AUC = 0.698)和简化模型(AUC = 0.621);对照其F1分数(F1-Confidence)曲线表明,冻结微调模型在最佳置信度阈值0.273处取得最高F1分数(F1-Score = 0.706),对应精确率0.748、召回率0.668,表明该策略能够在精准识别与减少漏检之间实现更优平衡。
3.3.4. 数据集标签分布特性分析
Figure 8. Visualization analysis of dataset annotation
图8. 数据集标注可视化分析
图8为数据集标注可视化结果,其中(a)组为标签分布图(Labels),(b)组为标签相关图(Labels Correlogram)。两组图像显示的数据集目标框的尺寸分布特征表明:
绝缘子缺陷影像数据集中小目标(像素面积 < 32 × 32)占绝大多数,中等目标(32 × 32~96 × 96)占比较少,大目标(>96 × 96)占比极少。这种分布特点解释了冻结微调策略的优势,即其针对中小目标检测调优的设计,特别优化了小目标检测性能,恰好适配本数据集的目标尺度特征,从而取得更好效果。
3.3.5. 综合性能数据对比分析
以下表格是从算法输出CSV文件中读取并统一列名后制成的综合性能数据对比表,表1为三种训练策略的综合性能详细对比结果,表2为按“最佳mAP50”统计各策略最佳轮次对应的核心指标。
结合表中所示三种训练策略的性能对比数据,分析可得以下结论:
原生基线模型表现稳定:原始YOLOv10n结构在164轮次达到最佳性能,mAP@0.5值为0.702,mAP@0.5:0.95为0.528,各项指标表现均衡,适合作为对比参考点,为实验提供了可靠的基准。
结构简化模型性能显著退化:该极简结构在本数据集上收敛更稳定,但由于过度删减特征提取模块,简化模型的mAP@0.5仅为0.561,较基线下降0.141 (相对下降约20.09%),检测精度明显劣于其他两种方案,说明绝缘子缺陷检测任务更受益于YOLOv10的特殊结构,这一显著性能退化主要源于移除了PSA与C2fCIB模块。PSA模块通过局部自注意力机制增强模型对局部特征的感知能力,尤益于小目标检测[6] [11];C2fCIB模块强化了跨层特征融合,有助于捕捉多尺度缺陷特征[6] [11]。移除后,模型在复杂背景与小目标的特征提取能力显著减弱,导致漏检与误检率上升,证实该场景更需要YOLOv10的特有模块(C2fCIB、PSA等)来抓取上下文与细粒度特征,过度简化会严重损害模型表征能力。
冻结微调策略性能最优:该策略在190轮次取得最佳性能,mAP@0.5达到0.717,较基线模型提升0.015 (相对提升约2.14%);同时取得最高精确率0.748与召回率0.668,F1分数达0.706,证明两阶段冻结训练策略在准确识别正样本和减少漏检方面均有改善适配,能有效提升模型应对绝缘子缺陷检测任务的性能,结合AdamW优化器,对小目标占比高、背景复杂的绝缘子检测任务具有更强适配性,可实现更稳定的训练过程和更好的特征表示。但值得注意的是,尽管该策略在mAP@0.5上表现最佳,但其mAP@0.5:0.95略低于基线(0.527 vs. 0.528),提示模型在不同IoU阈值下性能存在微妙平衡。
Table 1. Comparison of performance data for different training strategies
表1. 不同训练策略下的性能数据对比
实验方案 |
最佳mAP50 |
最佳mAP50-95 |
ΔmAP50 |
ΔmAP50-90 |
原生基线(y10_baseline) |
0.702 |
0.528 |
0.000 |
0.000 |
结构简化(y10_clean) |
0.561 |
0.408 |
−0.141 |
−0.121 |
冻结微调(yolov10_freeze_exp) |
0.717 |
0.527 |
+0.015 |
-0.001 |
注:Δ值表示相对于基线模型的差异。
Table 2. Precise epoch number of “best mAP50” and more evaluation indicators
表2. “最佳mAP50”精确轮次与更多指标数据
实验方案 |
最佳轮次(Best Epoch) |
精确率(Precision) |
召回率(Recall) |
最佳时刻(Precision/Recall) |
F1分数(F1-Score) |
原生基线(y10_baseline) |
164 |
0.743 |
0.638 |
1.165 |
0.687 |
结构简化(y10_clean) |
180 |
0.604 |
0.537 |
1.125 |
0.569 |
冻结微调(yolov10_freeze_exp) |
190 |
0.748 |
0.668 |
1.120 |
0.706 |
3.3.6. 特征可视化分析
为从机理层面进一步探究结构简化导致性能下降的核心原因,本研究提取了两个关键模块对应层阶段的特征图,对其进行可视化对比研究,具体Layer Index (层索引)选择及其研究意义见表3。
通过钩取(Hook)各模型Backbone末端SPPF层(对应索引102、92)及Head末端最后一个C2f层(索引176、157),调用可视化绘图库Matplotlib输出特征图像,处理生成2组热力图(Heat Map)叠加图和可视化特征图(Feature Maps),平行对比结果如图9、图10所示(图中(a) (b) (c)对应模型同3.3.1)。
(1) 骨干网络注意力特征对比(图9):对各模型骨干网络终点(SPPF层)的输出进行可视化,可见基线模型(图9(b))与冻结微调模型(图9(a))在绝缘子整体结构(如伞裙边缘、连接处等特征区域)及疑似缺陷(破损)区域,均呈现强烈且集中的特征激活;而结构简化模型(图9(c))在同区域的激活强度显著减弱、空间分布弥散,部分激活甚至漂移至背景区域,与噪声混淆。表明移除PSA与C2fCIB模块后,模型捕获长距离上下文依赖及聚焦关键局部特征的能力受损,注意力无法有效锚定目标主体,全局语义与局部细节的协同建模能力弱化,导致高级特征提取质量下降,此为性能大幅降低的根本原因。
(2) 检测头前特征融合结果对比(图10):进一步对比检测头前最后一层的可视化特征图,可见基线模型(图10(b))与冻结微调模型(图10(a))的特征激活在空间上对准良好,能够为后续分类与定位提供清晰依据;而结构简化模型(图10(c))则显得特征模糊、判别性不足,说明前期提取的劣质特征经融合后亦无法得到有效改善,另从“特征利用”层面辅助印证了其性能瓶颈。
Table 3. Selection and significance of target layer indexes for visualizing feature map analyzing [6] [11]
表3. 用于可视化特征图分析的实验目标层索引(layer index)选择及其意义[6] [11]
实验
目标层 |
层描述 |
对应基线模型Layer Index |
对应结构简化模型Layer Index |
对应冻结微调模型Layer Index |
可视化对比意义 |
Backbone
终点 |
SPPF (检验移除PSA模块效果) |
102 |
92 |
102 |
作为骨干网络的最后一层,包含了最高级的语义特征(模型“看到”并理解到的高级特征、“理解”到的图像内容),是对比模型特征提取能力的核心。简化模型在此层的激活若更弱、更散乱,则直接证明其特征提取能力退化。 |
Head
终点 |
Last C2f (检验移除C2fCIB模块效果) |
176 |
157 |
176 |
各模型检测头前最后一个C2f层,即送入检测头之前的最后一层,融合了所有多尺度特征,是模型在整合所有信息后“准备好”用于检测的特征,最能代表模型用于最终检测的综合特征,此处差异可有效反映特征利用效率的下降。 |
Figure 9. Visualizing feature maps and heat map overlay of the backbone endpoint (selected SPPF layer)
图9. Backbone终点(SPPF层)的热力图叠加效果与可视化特征图
综合上述可视化结果,可得出以下结论:相较于基线模型,① 结构简化模型在绝缘子关键部位的特征激活响应显著减弱且更为弥散,直观证明PSA与C2fCIB等模块的移除严重削弱了模型对目标全局结构和局部细节的协同建模能力,导致其高级语义特征提取质量下降,与mAP等性能指标大幅降低的定量表现相互印证;② 冻结微调模型的特征激活更聚焦、强烈,表明其训练策略可有效优化特征表征。此外,进一步观察特征图通道网格可见,结构简化模型的特征响应整体对比度低、纹理模式模糊,特征图谱质量下降,而其余两模型的特征图则包含大量清晰、高判别性的激活模式,证实C2fCIB等跨层融合模块的移除,同样显著削弱了模型构建多层次、高语义特征表示的能力,导致其输出的特征信息量匮乏。
Figure 10. Visualizing feature maps and heat map overlay of the head endpoint (the last C2f layer)
图10. Head终点(最后一个C2f层)的热力图叠加效果与可视化特征图
综上所述,特征可视化清晰反映了过度简化导致特征提取链条在起始(骨干网络)与末端(检测头)均出现退化。上述可视化证据与前文表1中的定量结果(结构简化模型mAP@0.5下降20.09%)形成了闭环佐证,即“特征提取阶段的能力退化(因模块移除)→生成的特征图质量低下→检测头基于劣质特征做出决策→最终检测精度显著下降”,从机理上解释了结构简化模型性能剧降的原因。相反,冻结微调模型通过优化训练策略、改善特征学习过程,获得了质量更优的特征表示,从而实现了性能提升。
3.3.7. 可视化实验结果
图11为三种模型的训练过程可视化结果(图中(a) (b) (c)对应模型同3.3.1),每组图例中均包含2组损失曲线(Loss Curves)和1组性能指标曲线(Metric Curves)。训练集损失曲线(Train Loss Curves)包涵:训练集边界框损失“train/box_loss”、训练集分类损失“train/cls_loss”、训练集分布焦点损失“train/dfl_loss”(为YOLOv8/v10特有[6] [11])共3项指标;验证集损失曲线(Val Loss Curves)包涵:验证集边界框损失“val/box_loss”、验证集分类损失“val/cls_loss”、验证集分布焦点损失“val/dfl_loss”共3项指标;性能指标曲线(Metric Curves)包涵:精确率“metrics/precision (B)”、召回率“metrics/recall (B)”、mAP@0.5值“metrics/mAP50 (B)”、mAP@0.5:0.95值“metrics/mAP50-95 (B)”共4项指标。每组合计包含上述10项指标,其中更以4幅性能指标曲线(Metric Curves)最有代表性。
对比上述可视化结果,能够直观得出:冻结微调模型的损失曲线收敛更稳定,性能指标曲线整体优于其他两种模型;结构简化模型的损失曲线波动较大,检测效果中误检、漏检现象更明显,进一步佐证其不适用于本任务。此外,通过上述图形进行指标间一致性验证,可知冻结微调策略的mAP@0.5提升与精确率、召回率的改善相同步,表明该策略带来的性能增益是全面而非单一指标的提升。
图12为冻结微调模型在测试集上的典型检测效果可视化结果选摘,其中(a) (b)组图片展示了模型在复杂背景、多尺度目标及泛化(电力系统/异形绝缘子)数据条件下的训练效果,(c)组展示了该模型对小目标缺陷(如细微裂纹等)的精准定位能力,(d)组展示了模型在不同拍摄视角和光照条件下的鲁棒性。上述测试集检测效果均表明,两阶段冻结微调改进策略对复杂场景、小目标缺陷的适应性更强。
综上所述,冻结微调策略通过分阶段参数优化,在不显著增加训练成本的前提下,有效提升了模型对绝缘子缺陷的检测性能,尤其增强了对小目标和难样本的识别能力;而结构简化策略虽然降低了模型复杂度,可能更适合部署在边缘设备与轻量级终端上,但严重损害了特征提取能力,不适合在本任务中采用。可视化结果直观证明了本文改进模型的有效性和优越性。
(a) (b)
(c)
Figure 11. Visualization of analytical data for all experiment processes
图11. 实验过程数据可视化图表
Figure 12. Sample detection results of the “frozen fine-tuning” improved model on the test set
图12. “冻结微调”改进模型在测试集上的部分检测效果图样
本文提出的冻结微调改进策略为绝缘子缺陷检测的工程化应用提供了有效技术方案。
4. 结论与展望
本文围绕接触网绝缘子缺陷检测任务,系统探究了不同训练策略对YOLOv10模型性能的影响。研究表明,两阶段冻结微调策略为无需修改YOLO官方库源码的最优技术方案,该策略通过冻结骨干网络若干层配合AdamW优化器,可有效适配小目标占比高、背景复杂的数据集,实现精确率与召回率的协同优化,较原生基线性能提升的同时一定程度上优化资源占用,并获益于YOLOv10特有结构;而精简模型结构的“净化”策略虽能提升兼容性并降低资源消耗,但因移除YOLOv10特有模块(PSA、C2fCIB等),严重削弱了模型细粒度特征建模能力,导致性能显著退化,亦通过特征可视化与模块功能分析进一步证明PSA与C2fCIB等模块的移除会导致其在小目标与复杂背景下的特征响应显著受损,详尽解释了其性能下降的内在机制,因而仅建议用作推理端资源极度受限的备选策略,不宜作为主干方案。
本文的研究贡献在于实证了冻结微调策略在该任务中的有效性,明确了YOLOv10特殊模块对复杂工业检测任务的关键作用,并提出了一种低门槛、轻量化的模型性能提升方案,为相关工业检测场景的模型优化提供了技术参考。未来研究将进一步探索精细分层学习与参数调优策略,探究自适应模块选择与结构轻量化的动态平衡机制,并将所提训练策略推广至其他工业视觉检测场景以验证其泛化适用性。
基金项目
国家自然科学基金委员会–中国国家铁路集团有限公司铁路基础研究联合基金项目(U2268206)。
NOTES
*第一作者。
#通讯作者。