摘要: 针对重载铁路轨道场景中背景纹理复杂(如道床碎石干扰)、缺陷目标细小(如螺栓、扣件)以及裂纹特征难以提取导致检测精度不足的问题,文章提出了一种基于改进YOLOv8的重载铁路轨道缺陷检测方法。首先,利用ConvNeXt V2网络替换原有的主干,通过大核卷积与GRN层设计,显著增强了模型的多尺度特征表达与长程依赖建模能力,有效抑制了复杂背景干扰。其次,引入SFS-Conv (空频选择卷积)替代部分标准卷积,利用空间–频率双域协同建模与通道适应选择机制,强化了对钢轨裂纹高频纹理及细小扣件结构的感知敏感度。实验结果表明,改进后的模型在包含3870张图像的轨道缺陷数据集上表现优异,mAP@0.5达到95.0%,相比原始YOLOv8在精度、召回率及综合检测性能上均有显著提升。该方法有效解决了复杂环境下螺栓缺失与钢轨裂纹的误检、漏检问题,具有较高的工程应用价值。
Abstract: In heavy-haul railway track scenarios, complex background textures (e.g., ballast gravel interference), tiny defect targets (e.g., bolts and fasteners), and the difficulty of extracting crack features often result in insufficient detection accuracy. To address these challenges, this paper proposes an improved YOLOv8-based method for heavy-haul railway track defect detection. The original backbone is replaced with ConvNeXt V2, which leverages large-kernel convolutions and Global Response Normalization (GRN) layers to significantly enhance multi-scale feature representation and long-range dependency modeling, effectively suppressing complex background interference. Additionally, Space-Frequency Selection Convolution (SFS-Conv) is introduced to replace selected standard convolutions, enabling joint spatial-frequency domain modeling and adaptive channel selection, thereby markedly improving sensitivity to high-frequency crack textures and fine-grained fastener structures. Experimental results on a track defect dataset comprising 3870 images demonstrate that the improved model achieves an mAP@0.5 of 95.0%, with substantial gains in precision, recall, and overall performance over the baseline YOLOv8. The proposed approach effectively mitigates missed and false detections of bolt loss and rail cracks in complex environments, exhibiting strong practical engineering value for heavy-haul railway maintenance.
1. 引言
铁路运输是现代综合交通体系的重要组成部分,重载铁路因其高轴重、高运量、高密度运行特点,对轨道结构的完整性与稳定性提出了更为严苛的要求[1]。螺栓脱落、扣件缺失、钢轨裂纹等缺陷若未能及时发现和处理,极易引发轨道结构松动甚至钢轨断裂等重大事故[2]。因此,实现重载铁路轨道缺陷的自动化、实时化、高精度检测一直是轨道工程与计算机视觉领域的核心研究方向[3]。传统轨道巡检主要依赖人工目视或基于简单图像处理的检测方法,存在劳动强度大、效率低、主观性强、易受光照与环境干扰等问题[4]。近年来,随着深度学习的快速发展,基于卷积神经网络的目标检测算法已被广泛应用于铁路基础设施智能监测,如Faster R-CNN [5]、YOLO系列[6]-[10]等,在钢轨表面缺陷、扣件状态识别等领域取得了显著进展。
YOLOv8在COCO等通用数据集上展现了优异的准确率与实时性[11]。然而,直接将原始YOLOv8应用于轨道缺陷检测仍面临以下挑战:主干特征表达能力不足以应对复杂纹理与极小目标:轨道场景中既有长条状钢轨裂纹,又有尺寸小的螺栓、扣件,且背景道床碎石纹理丰富,易造成混淆;传统卷积对频率信息利用不足:常规卷积主要在空间域进行局部感知,难以显式建模高频纹理与低频结构,导致对细小裂纹、粗糙表面等频域特征敏感性不足。为解决上述问题,本文提出一种基于ConvNeXt V2 [11]主干与SFS-Conv卷积[12]改进的YOLOv8重载铁路轨道缺陷检测方法。主要贡献如下:
1) 将ConvNeXtV2引入YOLOv8检测框架,替代传统CSPDarknet主干,显著增强多尺度与长程特征表达能力;
2) 将SFS-Conv卷积迁移至轨道RGB图像检测任务,实现空间–频率双域协同建模与通道自适应选择;
3) 在轨道缺陷数据集上进行实验,验证了两种改进的有效性与整体性能提升。
2. 网络结构
2.1. 总体网络结构图
模型的总体网络结构如图1所示。输入图像首先被统一缩放至640 × 640 × 3,然后输入到ConvNeXt V2主干网络进行特征提取。网络依次输出三个不同深度层次的特征图,过程中部分标准卷积层被替换为空频选择卷积。最终,通过三个检测头对各类缺陷进行检测。接下来将详细介绍各个模块的功能与实现。
Figure 1. Overall network structure diagram
图1. 整体网络结构图
2.2. ConvNeXt V2主干网络结构
ConvNeXt V2通过与全卷积掩码自编码器联合设计,并引入GRN层,形成了一种纯卷积架构[5]。与原始ConvNeXt相比,它在分类、检测和分割等多个任务上取得了显著提升,同时保持了高效推理的优势。其主要创新包括:使用大核设计替代小卷积 + 池化组合,建立更大的初始感受野;采用7 × 7深度可分离卷积代替3 × 3卷积,增强长距离空间依赖建模;引入LayerNorm + GELU + GRN激活组合,替换BatchNorm并实现通道级全局响应归一化,提升特征区分性;
在本文中,我们选择了参数量和计算量适中的ConvNeXt V2-Tiny作为YOLOv8的主干替换方案,首先,移除ConvNeXt V2原始架构中的全局平均池化层和分类头,只保留四个阶段的特征金字塔输出;其次,通过调整各阶段下采样步幅,确保输出特征图的步幅与原YOLOv8的C3~C5层特征尺度完全对齐;最后,将这三组特征直接接入YOLOv8原有结构,无需额外的过渡模块。替换后的主干在轨道缺陷检测任务中展现了明显的优势:更大的初始感受野和增强的长程建模能力使得模型能够迅速捕捉轨道图像中细长裂纹的整体走向;同时,GRN层强化了通道间的竞争,帮助模型更有效地突出螺栓、扣件等关键结构特征,并有效抑制道床碎石等复杂背景的干扰。
2.3. SFS-Conv结构
SFS-Conv (Space-Frequency Selection Convolution)主要思想是解决标准卷积层在通道维度上的冗余问题,并提升对空间与频率信息的建模能力。SFS-Conv通过引入三单元结构,空间感知单元(SPU)、频率感知单元(FPU)和通道选择单元(CSU),在单个卷积层内部提高特征多样性(见图2)。SPU通过多尺度空间卷积来增强对目标上下文和结构信息的感知,FPU则利用频率域特征提取技术来增强对裂纹、粗糙表面等高频纹理的响应,而CSU则通过无参数方式选择最具判别力的空间–频率通道组合,从而减少冗余特征,提升通道利用效率。
在本文的研究中,SFS-Conv被应用于YOLOv8的主干网络和颈部结构,主要通过替换3 × 3卷积来提升模型的性能。重点在于优化输出特征的中高层,尤其是用于小目标和纹理复杂特征的层,同时强化Neck中多尺度融合的关键层。这样改进后的网络具有多方面的优势:一方面,频率感知分支能增强模型对裂纹等纹理主导缺陷的识别,空间感知分支则通过多尺度感受野提升对螺栓或扣件缺失的稳健性;另一方面,通道选择单元有效减少特征冗余,提高了通道利用率。
Figure 2. SFS-Conv structure diagram
图2. SFS-Conv结构图
3. 实验与结果
3.1. 实验设置
实验所用的硬件配置包括AMD Ryzen 9 9950X处理器,配备NVIDIA GeForce RTX 5090显卡,具有32 GB内存和2 TB存储,提供强大的计算能力以支持大规模深度学习训练。在软件环境方面,使用了PyTorch 2.8.0框架,并搭配CUDA 129版本,确保了在GPU加速下的高效计算和训练性能。
本实验使用的数据集来源于网络爬虫收集和实地相机拍摄的重载铁路轨道缺陷图像,经过精心筛选和标注,最终构建了一个包含3870张图像的数据集。其中包括螺栓缺失895个框,扣件缺失837个框,钢轨裂纹972个框,正常钢轨1264个框。图像分辨率预处理为640 * 640大小,为了提升模型在复杂环境中的鲁棒性,图像经过多种数据增强处理,包括模拟雾霾、强光照、夜间和阴影遮挡等,确保了数据集在光照和天气变化下的多样性。数据集按8:2的比例划分为训练集和测试集,用于评估模型的性能。
在训练过程中,使用AdamW优化器[13]和余弦退火[14]学习率调度策略,初始学习率设定为0.01,并逐步衰减以提高模型的训练稳定性。模型训练了200个epoch,批量大小为32。训练后,使用Precision (P)、Recall (R)、mAP50和mAP50-95等指标对模型在测试集上的表现进行了评估。
3.2. 实验结果与分析
根据表1的对比实验结果,本文模型在重载铁路轨道缺陷检测任务中与YOLOv5和YOLOv8相比,所有主要指标均取得显著提升,具体如下:在精度与召回率方面,与YOLOv5相比,本文模型Precision提高0.175,Recall提高0.193;与YOLOv8相比,Precision提高0.151,Recall提高0.142。在综合评价指标上,与YOLOv5相比,本文模型mAP@0.5提高0.198,mAP@0.5:0.95提高0.222;与YOLOv8相比,mAP@0.5提高0.140,mAP@0.5:0.95提高0.167。在各类别AP@0.5指标上,螺栓缺失类别与YOLOv5相比提高0.220、与YOLOv8相比提高0.212,扣件缺失类别与YOLOv5相比提高0.090、与YOLOv8相比提高0.041,钢轨裂纹类别与YOLOv5相比提高0.377、与YOLOv8相比提高0.222,正常轨道类别与YOLOv5相比提高0.105、与YOLOv8相比提高0.085。在模型的效率评估方面,虽然有所降低但是总体效率下降不大,取得了效率和精度的有效平衡。上述结果表明,本文模型在螺栓/扣件缺失及钢轨裂纹等关键缺陷检测中具有更高的准确性和鲁棒性,尤其在复杂光照、阴影干扰等实际场景下表现更优,验证了所提改进方法的有效性。
Table 1. Comparative test data table
表1. 对比试验数据表
模型 |
AP 0.5 |
P |
R |
mAP 0.5 |
mAP 0.5:0.95 |
参数量(M) |
GFLOPs (G) |
FPS |
螺栓缺失 |
扣件缺失 |
钢轨裂纹 |
正常钢轨 |
YOLOv5 |
0.660 |
0.883 |
0.583 |
0.881 |
0.761 |
0.706 |
0.75 |
0.50 |
7.2 |
16.5 |
109 |
YOLOv8 |
0.668 |
0.932 |
0.738 |
0.901 |
0.785 |
0.757 |
0.81 |
0.55 |
11.2 |
28.6 |
97 |
本文模型 |
0.880 |
0.973 |
0.960 |
0.986 |
0.936 |
0.899 |
0.95 |
0.72 |
12.3 |
29.8 |
93 |
为了进一步验证本文模型的有效性,对其可视化检测结果进行了分析。如图3所示,展示了不同模型在重载铁路轨道缺陷检测场景下的检测表现。通过对比不同缺陷类型(如裂纹、螺栓/扣件缺失等)的检测框位置与实际情况,可以直观观察到本文模型在复杂背景中的优异表现:不仅能够准确识别多种缺陷,还对光照变化、阴影干扰等因素表现出较强的鲁棒性。
Figure 3. Comparison chart of visualization results
图3. 可视化结果对比图
根据图3中图A可以看出,本文模型在该场景下未出现漏检与误检现象,识别结果完整且可靠。图B中,本文模型对各类目标的检测置信度明显更高,同时无错误检测,体现出更好的稳定性。图C进一步表明,仅有本文模型实现了无遗漏、无误检的检测效果,展现出卓越的鲁棒性。图D说明,在面对尺寸较小的目标时,本文模型依然能够准确检出,具备更强的小目标检测能力。图E显示,本文模型未出现重复检测或漏检情况,且置信度较高,检测框更加清晰明确。图F中,本文模型的检测框位置与缺陷实际轮廓更加贴合,检测结果更为准确合理。
为了验证ConvNeXt V2和SFS-Conv各自的贡献,我们增加了消融实验,通过YOLOv8 + ConvNeXt V2验证ConvNeXt V2的有效性,通过YOLOv8 + SFS-Conv验证SFS-Conv的有效性。根据表2的实验结果,在单独增加ConvNeXt V2或SFS-Conv后,各评价值指标均有一定增加,证明了各自的有效性。
Table 2. Data table of ablation test
表2. 消融试验数据表
模型 |
AP 0.5 |
mAP 0.5 |
mAP 0.5:0.95 |
螺栓缺失 |
扣件缺失 |
钢轨裂纹 |
正常钢轨 |
YOLOv8 |
0.668 |
0.932 |
0.738 |
0.901 |
0.81 |
0.55 |
YOLOv8 + ConvNeXt V2 |
0.817 |
0.939 |
0.924 |
0.953 |
0.91 |
0.68 |
YOLOv8 + SFS-Conv |
0.729 |
0.953 |
0.865 |
0.938 |
0.87 |
0.63 |
本文模型 |
0.880 |
0.973 |
0.960 |
0.986 |
0.95 |
0.72 |
Figure 4. Graph showing changes in various indicators during the training process
图4. 训练过程中的各项指标变化图
图4展示了本文模型在训练过程中的各项指标变化情况。横坐标为训练轮次(epoch),纵坐标为相应的损失值或性能指标。训练曲线包括:边框回归损失(train/box_loss, val/box_loss)、分类损失(train/cls_loss, val/cls_loss)、分布匹配损失(train/dfl_loss, val/dfl_loss),以及性能评价指标,如精确率(metrics/precision(B))、召回率(metrics/recall (B))、mAP50 (metrics/mAP50 (B))和mAP50-95 (metrics/mAP50-95 (B))。由图可知,随着训练轮数的增加,三类损失(边框、分类、分布匹配)均呈持续下降趋势,且训练集与验证集曲线走势一致,说明模型未出现明显过拟合现象。在性能指标方面,精确率、召回率、mAP50与mAP50-95均稳步上升,并在后期趋于稳定,表明模型检测能力不断提升。训练曲线反映出本文模型在轨道缺陷检测任务中具有良好的收敛性和学习效果。在定位精度、分类准确性以及整体检测性能方面均实现了显著提升,同时有效降低了误检与漏检风险,进一步提高了预测结果的可靠性。
图5展示了测试集的精确率–召回率(Precision-Recall, P-R)曲线。从图中可以观察到,随着召回率的提高,精确率整体呈现缓慢下降但保持在较高水平的趋势。各类别的平均精确率均达到较高水平,其中螺栓缺失(bolt_missing)为0.880、扣件缺失(clip_missing)为0.973、裂纹(crack)为0.960、正常轨道(normal_track)为0.986,所有类别的mAP@0.5达到0.950,表明模型在轨道缺陷检测任务中具有出色的分类与识别能力。从曲线形态可见,模型在高召回率条件下仍能保持较高的精确率,说明其在减少漏检的同时也有效控制了误检。该模型能够稳健地识别不同类型的轨道缺陷,为轨道结构健康监测提供了可靠的技术支持。
Figure 5. Graph showing the changes in precision and recall rates during the training process
图5. 训练过程中的精确率–召回率变化图
4. 总结
本文提出一种ConvNeXt V2主干结合SFS-Conv卷积的改进YOLOv8重载铁路轨道缺陷检测方法,在3870张复杂场景数据集上精度提升至95.0%,对螺栓失与钢轨裂纹等高危缺陷的检测能力大幅增强,具备一定实际工程部署价值。实验结果证明,ConvNeXt V2与SFS-Conv具有良好的协同效应,为复杂工业场景下的小目标与纹理缺陷检测提供了新思路。但是对于新型或罕见缺陷的识别能力、在极端天气下的性能边界效果还有很大的提升空间,未来可进一步扩展检测类别至轨枕破损、异物侵限等,构建全病害智能检测系统;同时可以与轨检车、无人机平台深度集成,实现端到端的在线实时监测。