1. 引言
工业产品表面缺陷检测作为智能制造的核心环节,面临微小缺陷识别(如微米级划痕)、多尺度特征融合(局部凹坑与全局形变)及复杂背景干扰(油污、反光)等严峻挑战,传统人工检测与早期机器视觉方法存在效率低、漏检率高的问题。
在深度学习领域,目标检测方法主要根据其检测流程的差异,划分为两阶段(Two-Stage)检测方法和单阶段(One-Stage)检测方法两大主流模式。单阶段检测算法YOLO将目标检测简化为单一回归问题,在实时缺陷检测任务中应用广泛。以钢材表面缺陷检测为例,近年来,许多研究基于YOLO系列模型进行改进。Ren等采用可变形卷积替换YOLOv5部分常规卷积[1],提升模型对钢材表面缺陷的检测精度;Teng等将YOLOv7检测头替换为高效解耦检测头[2],增强了模型对钢材表面缺陷的分类和定位能力;Zhu等提出了一种基于YOLOv7的带钢表面缺陷检测算法[3],将C2f组件集成到特征金字塔网络,加快了YOLOv7训练速度,但模型体积较大;刘昱等提出的YOLOv8-RDP采用Pconv检测头减少计算量[4],但对钢材表面缺陷的检测精度提升有限;Jiang等提出的YOLOv8n-SDEC缺陷检测算法用SPPCSPC替换SPPF模块[5],并用EIoU替代CIoU函数,提升检测精度,但复杂背景下检测仍有不足。尽管基于CNN的检测模型(如YOLO系列、FasterR-CNN)通过局部卷积特性提升效率,但其单阶段方法在浅层细节与深层语义的协同利用上存在一定局限性,而两阶段模型因计算冗余往往难以满足实时需求。
近年来,Transformer架构凭借其强大的全局上下文信息捕捉能力和并行化优势,在自然语言处理领域取得巨大成功后,迅速被引入计算机视觉领域。以Detection Transformer (DETR)为代表的检测器,通过将目标检测视为一个端到端的集合预测问题,消除了传统方法中对人工设计组件(如非极大值抑制NMS和锚框Anchor)的依赖,展现了巨大的潜力[6]。然而,尽管前景广阔,将Transformer模型直接应用于工业缺陷检测仍面临严峻挑战。首先,工业现场对检测的实时性要求极高,而标准Transformer的自注意力机制计算复杂度随图像尺寸平方增长,难以满足高吞吐量的在线检测需求。其次,工业缺陷(如细微划痕、低对比度斑点)通常仅占图像的极小部分,如何让Transformer在关注全局信息的同时,不丢失对微小缺陷的敏感度是一个关键问题。此外,现有的视觉大模型虽泛化性强,但在特定工业场景下要达到专家级的检测精度,仍需针对性的结构优化。而现有的一些改进方案(如RT-DETR [7]的混合编码器等)仍对多尺度缺陷的高精度定位存在一定不足。
针对RT-DETR在工业缺陷检测场景下的优化,本文提出了一种基于DBF-RTDETR的缺陷检测算法。该模型通过系统性的结构优化,显著提升了模型在复杂背景干扰下的鲁棒性、对小目标的敏感度以及整体计算效率。模型中的RT-DETR框架融合了双卷积模块(Dual ConvBlock)与双向特征金字塔网络(BiFPN),通过并行的卷积分支,在减少参数量的同时增强了微小缺陷的细节捕获能力。此外,设计了跨层级双向特征交互路径与动态权重分配机制,提升了多尺度缺陷的融合效率。实验表明,研究方法在工业数据集上的表现良好,为复杂工业场景提供了高精度、高效率的缺陷检测解决方案。
2. 本文方法
RT-DETR模型虽通过端到端Transformer架构避免了手工锚框设计,但其在工业产品缺陷检测中存在微小目标特征丢失、多尺度缺陷定位偏差及计算冗余导致实时性不足等瓶颈[8] [9]。基于此,本文进行了三重针对性的研究:(1) 设计了分支特征增强模块,引入了双卷积模块;(2) 构建了双向特征金字塔网络(BiFPN);(3) 采用了新型多样分支块(Diverse Branch Block, DBB)。本模型从特征提取网络、卷积模块设计、多尺度特征融合机制以及损失函数优化等多个维度对基准模型进行了系统性的结构改进,提出了一种名为DBF-RTDETR的创新检测方法。该方法通过引入深度可变形卷积模块增强了模型对不规则缺陷形态的空间自适应表征能力;采用双向特征金字塔结构强化了多尺度特征的融合效率,尤其提升了小目标缺陷的检出率;并优化了边界框回归损失函数,加速了模型收敛过程并提高了定位精度。这些协同改进显著增强了模型在复杂工业场景下的特征表示能力、目标检测精度与推理速度,从而整体提升了模型对于钢材、PCB等产品表面缺陷的检测性能。
DBF-RTDETR模型的整体框架如图1所示,其主要由三个核心组件构成:改进的DC-CSPDarknet骨干网络、高效混合编码器以及配备辅助预测头的Transformer解码器。该设计旨在解决传统实时检测器在复杂工业场景下面临的挑战,如复杂背景干扰、小目标检测精度低以及模型部署效率问题。双卷积模块是本文为增强特征表达而设计的结构性创新,而多样分支块(DBB)模块是一种提升模型性能且不增加推理成本的训练与优化策略。它们共同协作,分别从特征提取能力和模型效率两个方面提升DBF-RTDETR模型的整体性能。AIFI (Attention-Based Intra-Scale Feature Interaction,基于注意力的尺度内特征交互)模块源自RT-DETR模型的高效混合编码器设计。其核心思想是仅对主干网络输出的最高级特征图应用Transformer自注意力机制。这是因为高级特征图包含了丰富的语义信息,自注意力操作能有效捕捉图像中概念实体(物体)之间的全局关联,有助于后续的定位与识别。同时,通过避免在低级特征上计算昂贵的注意力,显著降低了计算成本。模型的工作流程如下:输入图像首先通过改进的DC-CSPDarknet骨干网络提取多尺度特征图(P3, P4, P5)。这些特征随后被送入高效混合编码器进行深度处理,最后通过Transformer解码器生成端到端的检测结果,无需依赖非极大值抑制(NMS)后处理[10]。
2.1. DC-CSPDarknet骨干网络
本文对骨干网络架构进行了针对性优化设计,采用了一种改进的DC-CSPDarknet设计。该设计的核心是引入了交叉阶段部分网络(Cross Stage Partial, CSP)结构。相较于基础模型,该设计能够显著降低模型的整体计算复杂度,同时增强梯度流的传播效率,从而有效提升网络的特征学习能力。原始的RT-DETR模型所采用的HGNetV2骨干网络,在多尺度特征融合能力方面存在一定的局限性。特别是在处理小尺寸目标检测任务时,该网络在深度和宽度的设计上可能受到约束,导致其特征提取的丰富性以及最终的检测精度有所妥协。本文所提出的改进型网络结构,旨在强化模型的特征提取效能,图2具体展示了DC-CSPDarknet骨干网络的详细架构。
Figure 1. Architecture of the DBF-RTDETR model
图1. DBF-RTDETR模型结构图
Figure 2. DC-CSPDarknet backbone network structure
图2. DC-CSPDarknet骨干网络结构
传统CSPDarknet骨干网络依赖堆叠标准卷积层提取特征,单路径卷积结构难以兼顾微小缺陷的局部细节与大面积缺陷的全局上下文关联。在本研究中,双分支架构所产生的特征输出通过通道注意力机制实现了动态融合,该过程如公式1所示。
(1)
其中
为Sigmoid函数,⊕表示通道拼接,GAP为全局平均池化,动态权重分配使模型自适应增强了关键缺陷特征的响应强度。
2.2. 双卷积模块(Dual ConvBlock)
在特征融合网络中,我们采用了双卷积模块进行局部特征增强。该模块由两个连续的卷积层构成,每个卷积层后均包含BN层和激活函数。传统卷积操作受限于固定感受野与单一特征提取路径,难以同时捕捉微米级缺陷的精细纹理(如微小裂纹)和跨区域缺陷的上下文关联(如大面积腐蚀斑块)。为此,本文设计了双分支并行卷积结构(Dual ConvBlock)。
(1) 采用3 × 3深度可分离卷积,通过分离空间与通道维度卷积操作,在保持特征分辨率的同时减少计算量,其输出特征Flocal聚焦于缺陷边缘的梯度变化与局部纹理细节;
(2) 引入1 × 1空洞卷积,输出特征Fglobal捕获跨区域的上下文语义信息(如短路区域与邻近线路的异常关联)。首先对Flocal与Fglobal进行通道维度拼接,经全局平均池化(GAP)生成通道描述向量,再通过两层全连接网络与Sigmoid函数生成自适应权重系数
,最终融合公式(2)为
(2)
该策略使模型能够依据缺陷尺度动态调整特征贡献权重。
2.3. 多样分支块(Diverse Branch Block, DBB)
为平衡训练时的表征能力与推理时的效率,我们在主干网络中采用了多样分支块(DBB)模块。针对工业场景中微小缺陷检测的精度与效率瓶颈,通过异构卷积操作协同优化与结构重参数化技术,在不增加推理耗时的前提下提升了模型容量,显著增强了RT-DETR模型在复杂背景下的多尺度特征表达能力[11]。DBB模块在训练阶段采用多分支异构操作,包含并行5 × 5卷积、3 × 3深度可分离卷积及平均池化层,通过不同尺度的感受野捕捉局部细节特征与全局上下文关联。这种多分支设计模拟了Inception架构的特征空间多样性优势,既保留特征提取的丰富性,又避免计算量的线性增长。
在模型架构中,DBB模块主要嵌入了RT-DETR的下采样层与特征金字塔网络:一方面,将原始步长为2的3 × 3卷积替换为DBB多分支下采样模块,通过并行平均池化与深度可分离卷积减少信息丢失;另一方面,在特征金字塔的跨尺度连接处引入DBB模块,利用空洞卷积与5 × 5卷积的序列操作增强多层级特征的语义一致性。
2.4. BIFPN结构
针对工业视觉任务中多尺度目标检测的鲁棒性与效率需求,本文在模型中引入双向特征金字塔网络(BiFPN),如图3所示,显著提升了模型对微小缺陷、复杂背景及尺度差异的适应能力[12]。BiFPN的核心设计思想源于传统特征金字塔网络(FPN)的局限性——单向特征传递导致高层语义信息与低层细节特征的交互不足,尤其在高密度工业场景中易出现微小目标漏检或跨区域误判问题[13]。
Figure 3. Architecture of the bidirectional feature pyramid network (BiFPN)
图3. 双向特征金字塔网络图
BiFPN通过双向路径拓扑与加权特征融合重构多尺度特征交互机制。在自顶向下的路径中,高层语义特征通过上采样与低层特征融合,增强了微小目标的细节响应[14];在自底向上的路径中,低层高分辨率特征通过下采样与高层特征结合,扩展了全局上下文感知范围。传统FPN对不同尺度特征采用直接相加或拼接方式,忽略了不同层级特征的重要性差异[15]。BiFPN引入可学习的通道权重参数,通过归一化加权实现特征贡献度的动态校准。具体而言,对于输入特征图
与
,其融合权重
与
通过可训练参数生成,并经过Softmax归一化处理,最终融合公式(3)为:
(3)
该机制使模型能够自主调整不同层级特征的融合权重,综上,BiFPN通过双向跨尺度交互与动态权重机制,为工业检测模型提供了高效、鲁棒的多尺度特征融合方案。
2.5. 损失函数
在工业缺陷检测任务中,损失函数的设计直接影响了模型对微小目标、复杂背景及多尺度缺陷的感知能力[16] [17]。本文综合交叉熵、FocalLoss及SIoU损失函数的优势,构建了多任务协同优化机制,解决了工业场景中样本分布不均、定位精度低与分类置信度漂移等核心问题[18] [19]。在定位优化方面,模型引入SIoU (Shape-AwareIoU)损失,通过角度成本、距离成本与形状对齐机制提升边界框回归精度[20]。该损失函数将传统IoU指标扩展为四元组计算:
(4)
其中,
为预测框与真实框中心连线与水平轴的夹角,
为归一化距离偏差,
与
为高宽比差异系数。
3. 实验与分析
3.1. 数据集
为验证本文所提方法的有效性与泛化能力,本研究选取了两个具有代表性的公开工业缺陷检测数据集进行测试评估,分别为东北大学(NEU)发布的钢材表面缺陷基准数据集(NEU-DET)以及北京大学的PCB缺陷数据集。实验旨在通过在不同类型、不同场景的缺陷数据上检验模型性能,确保评估结果的全面性与可靠性。同时,为系统评估本文所提出的DBF-RTDETR模型在工业缺陷检测任务中的综合性能,本研究设计了全面的实验验证方案,其核心包括消融实验与对比实验两个部分,分别验证模型内部各改进模块的有效性及其在同类算法中的综合性能。
3.2. 数据集与实验环境
实验采用东北大学NEU-steel-defect钢材表面缺陷基准数据集和北京大学智能机器人开放实验室提供的PCB缺陷数据集。
东北大学钢材表面缺陷数据集涵盖了热轧钢带表面常见的六类典型缺陷:轧制氧化皮、夹杂物、斑块、麻面、裂纹和划痕,如图4所示。数据集中的所有原始图像均具有200 × 200像素的固定分辨率。在数据构成上,每类缺陷均包含300张样本图像,使得数据集总规模达到1800张图像,且各类别样本数量分布均匀,这有助于避免模型训练过程中因类别不平衡而可能引发的偏差。在数据集划分方面,为确保模型评估的可靠性,本研究采用随机分层抽样方法,将全部图像按照8:1:1的比例划分为三个独立子集。此种划分策略在保证模型有充足数据进行训练的同时,也为模型性能的准确评估提供了可靠的数据基础。
北京大学智能机器人开放实验室提供的PCB缺陷数据集(PKU Market PCB),为保障模型训练与评估的有效性,本研究采用随机分层抽样方法,将全部图像按8:1:1的比例划分为三个独立子集,训练集包含1109张图像,验证集包含139张图像,测试集包含138张图像。
在深度学习模型训练中,超参数的配置对模型的收敛速度、计算资源消耗及最终性能至关重要。本研究选用AdamW作为优化器,该优化器通过引入解耦权重衰减,有助于提升模型的泛化能力。训练过程中,初始学习率设定为1 × 10−4,并采用余弦退火策略对其进行动态调整,该策略能够有效平滑地降低学习率,辅助模型在训练后期更稳定地逼近局部最优点。同时,权重衰减系数设置为1 × 10−4,以约束模型复杂度,防止过拟合。整个模型的训练轮数为200个周期,批量大小设置为4。其余参数均遵循深度学习框架的默认设置。
Figure 4. Defect category distribution in steel surface defect dataset
图4. 钢材表面缺陷数据集中缺陷的类别
3.3. 评价指标
为客观评估本研究提出的改进RT-DETR模型在缺陷检测任务中的综合性能,需将其与原始RT-DETR模型以及其他主流检测模型在相同实验设置下进行系统对比。为客观评估目标检测模型的综合性能,本研究采用精确率(Precision)、召回率(Recall)、平均精度(Average Precision, AP)与平均精度均值(mean Average Precision, mAP)作为核心评估指标,其计算公式如下所示:精确率(P),用于衡量模型预测为正例的结果中真正为正例的比例,反映检测结果的可靠性,计算如式(5)所示,其中,真正例(True Positive, TP)是指模型正确识别出的正类样本数量,即模型预测的边界框与真实标注框的交并比(IoU)不低于设定阈值(如0.5),且类别预测正确。假正例(False Positive, FP)则包括两类情形:一是定位错误,即边界框与真实标注的IoU低于阈值;二是分类错误,即边界框定位准确但类别预测错误。召回率(R),用于衡量所有实际为正例的样本中被模型正确预测出来的比例,反映模型对正类样本的覆盖能力,计算如式(6)所示,其中,假负例FN (False Negative)是指那些实际属于正类别的样本(例如图像中存在特定目标),但被模型错误地判定为负类别的情况,这类错误表明模型未能识别出本应识别出的目标,通常对应于漏检现象。平均精度(AP),是精确率–召回率曲线下的面积,能够综合反映模型在不同召回率水平下的精确率表现。平均精度均值(mAP)则是所有类别AP的平均值,常用于多类别目标检测任务中衡量模型的整体检测精度,特别是在交并比(IoU)阈值为0.5时的mAP (即mAP@0.5)是常见的评估指标。除了检测精度指标,推断速度是实际应用中的关键性能指标,通常以每秒帧数(Frames Per Second, FPS)来衡量。FPS值越高,表明模型的处理速度越快,实时检测能力越强。通过综合考量mAP、精确率、召回率以及FPS等指标,可以对模型的检测准确性和实时性进行全面评估。
(5)
(6)
(7)
(8)
3.4. 消融实验
本研究以RT-DETR (HGNetV2)作为基线模型,设计并执行了一组严谨的消融实验,系统评估本文所提出的算法改进策略对模型性能的贡献。该实验方案旨在通过控制变量的方式,细致量化分析每个改进模块对最终检测性能的独立影响与协同效应。实验通过依次引入各个改进模块,观察其对检测性能的影响。最终,将所有四个改进模块(A + B + C + D)同时集成到基线模型中,构建出完整的改进模型,并评估其综合性能。表1定量记录了在相同实验环境下,基准模型及逐步引入DC-CSPDarknet骨干网络(模块A)、动态瓶颈模块(模块B)、加权双向特征金字塔网络(模块C)以及SIOU损失函数(模块D)后,模型在多项关键性能指标上的具体表现。这些指标涵盖了检测精度与效率两个核心维度,具体包括精确率(Precision, P)、召回率(Recall, R)、平均精度均值(mean Average Precision, mAP)以及帧率(Frames Per Second, FPS)。
Table 1. Ablation study results with performance metrics
表1. 消融实验各项指标对比
模型 |
P/(%) |
R/(%) |
mAP50/(%) |
FPS/(f/s) |
RT-DETR |
71.5 |
57.6 |
63.7 |
72 |
RT-DETR + A |
76.7 |
66.4 |
68.4 |
79 |
RT-DETR + A + B |
80.3 |
77.9 |
70.1 |
80 |
RT-DETR + A + B + C |
82.6 |
80.3 |
73.7 |
85 |
RT-DETR + A + B + C + D(ours/本文模型) |
84.1 |
83.7 |
74.2 |
86 |
由表1中数据可知,原始RT-DETR模型的精确率(P)为71.5%,召回率(R)为57.6%,平均精度均值(mAP)为63.7%,推理速度为72 FPS。以此为基础,逐步引入各项改进后,实验结果显示每一项改进均对模型性能产生了积极的促进作用。例如,引入DC-CSPDarknet骨干网络(模块A)有望在保持较高推理速度的同时增强特征提取能力,从而可能提升召回率与mAP;DBB模块(模块B)的加入旨在通过增强卷积结构的多样性来提升模型的表征能力;BiFPN模块(模块C)致力于更高效地融合多尺度特征,特别是增强对小目标的检测能力;而SIOU损失函数(模块D)则关注于优化边界框回归的准确性和收敛速度。为系统评估本文提出的DBF-RTDETR模型的综合性能,在完成全部模块集成与参数优化后,于标准测试集上进行了最终验证。实验结果表明,该改进模型在多项核心评估指标上均达到了当前最优水平,具体表现为:精确率达到84.1%,召回率达到83.7%,平均精度均值为74.2%,同时推理速度保持在86 FPS。与原始RT-DETR基线模型相比,本文所提模型展现出全面的性能提升。在检测精度方面,精确率显著提升了13.1个百分点,召回率大幅提高了26.1个百分点,平均精度均值提升了10.5个百分点。与此同时,模型的计算效率也得到改善,推理速度提升了14 FPS。当所有改进模块协同工作时,模型在检测精度与效率方面达到了最佳平衡,各项指标均获得显著提升,充分验证了本文所提改进策略的有效性与协同效应。
3.5. 对比实验
为系统评估本文提出的DBF-RTDETR模型在目标检测任务中的综合性能,本研究设计了一套横向对比实验方案。为系统评估本文所提出模型的综合性能,本研究选取了六种具有代表性的较为先进目标检测架构作为对比基线。这些模型涵盖了单阶段检测(YOLO系列)与基于Transformer的端到端检测(RT-DETR)两种主流技术路线,以确保比较的全面性。所有对比实验均在相同的硬件与软件训练环境下进行,采用统一的数据集,并为每个参与对比的模型应用其官方推荐或广泛使用的最优超参数设置,以确保比较的公平性与结果的可信度。
表2所示为在钢材表面缺陷检测数据集对比试验结果,可见本文所研究的方法在数据集中表现优秀。在钢材检测数据集中,P、R、mAP50上实现了最佳性能,分别达到了84.1%、83.7%和72.4%,平均帧数FPS为86f/s仅次于YOLOv8n,但同样优于其他模型。表3所示为在PCB缺陷检测数据集的对比试验结果。本文的DBF-RTDETR模型在准确率与mAP上均取得最优秀的性能,分别为95.7%与90.1%,在召回率方面也仅次于RT-DETR-X的86.8%。
Table 2. Comparative study of steel surface defect detection performance
表2. 对比试验结果(钢材表面缺陷检测)
模型 |
P/(%) |
R/(%) |
mAP50/(%) |
FPS/(f/s) |
RT-DETR-r18 |
71.5 |
57.6 |
63.7 |
72 |
RT-DETR-X |
71.1 |
64.6 |
67.2 |
48 |
YOLOv5n |
67.0 |
75.4 |
67.2 |
51 |
YOLOv8n |
72.8 |
70.9 |
72.8 |
112 |
YOLOv10n |
83.0 |
67.0 |
72.5 |
81 |
Ours (DBF-RTDETR) |
84.1 |
83.7 |
74.2 |
86 |
Table 3. Comparative study of PCB surface defect detection performance
表3. 对比试验结果(PCB表面缺陷检测)
模型 |
P/(%) |
R/(%) |
mAP50/(%) |
RT-DETR-r18 |
89.5 |
82.9 |
88.1 |
RT-DETR-X |
90.6 |
86.8 |
88.3 |
YOLOv5n |
88.0 |
76.0 |
85.0 |
YOLOv8n |
87.4 |
82.1 |
88.3 |
YOLOv10n |
81.0 |
78.7 |
84.0 |
Ours (DBF-RTDETR) |
95.7 |
78.5 |
90.1 |
本研究选取了精确率(Precision, P)、召回率(Recall, R)以及交并比阈值为0.5时的平均精度均值(Map50)作为核心评价指标。P与R指标的高水平同步提升,说明模型在有效控制误检(低假阳性)的同时,也显著降低了漏检(低假阴性)的发生概率。而Map50指标的优异表现,则进一步证实了模型对于数据集中存在的多类别缺陷均能保持稳定的高精度识别能力,体现出其优异的泛化性能。图5通过直观对比不同算法在典型样本上的检测效果,清晰展示了本文方法在复杂背景干扰下对小目标缺陷的精准定位与识别能力,进一步佐证了其在实际工业应用中的有效性与鲁棒性。因此,本文提出的DBF-RTDETR算法在工业缺陷检测任务中展现出卓越的综合性能。其在精确率、召回率以及平均精度均值(Map50)等核心评价指标上均取得了优异的表现,同时保持了较高的推理速度(FPS)。该模型在检测精度与计算效率之间取得了良好平衡,不仅能够精准识别各类复杂缺陷,尤其在小目标和复杂背景干扰场景下表现出较强的鲁棒性,而且其轻量化设计和高效的计算特性使其能够满足实际工业产线对实时检测与快速部署的严格要求。
Figure 5. Qualitative comparison of visual detection results
图5. 检测结果对比图
本研究选取了多种具有代表性的先进目标检测模型进行对比实验,全面评估本文所提出的DBF-RTDETR模型的检测性能。参与对比的模型包括单阶段检测器YOLO系列中的YOLOv5n、YOLOv8n、YOLOv10n,以及基于Transformer架构的RT-DETR系列中的RT-DETR-r18和RT-DETR-X。所有实验均在公开的钢材表面缺陷数据集与PCB缺陷检测数据集上进行,以确保评估的客观性与普适性。实验结果表明,本文提出的DBF-RTDETR模型在多项关键评估指标上均表现出显著优势。相较于其他参比模型,DBF-RTDETR在复杂背景干扰下对细微缺陷的检出率与识别置信度均有明显提升,尤其是在应对钢材表面裂纹以及PCB微小瑕疵等挑战性场景时,其检测性能更为优异。这验证了模型结构改进在增强特征提取能力与多尺度特征融合方面的有效性。
4. 结论
本文旨在应对现有基于RT-DETR的工业产品表面缺陷检测模型在复杂背景干扰、较高内存占用以及小目标检测精度不足等方面的主要挑战。为此,本研究提出一种改进的DBF-RTDETR检测方法。该方法通过三个关键层面的创新实现性能提升:首先采用DC-CSPDarknet结构作为骨干网络,通过引入交叉阶段部分网络(CSP)机制增强特征提取能力并降低计算复杂度;其次设计多样分支块(DBB),结合可变形卷积与注意力机制提升模型对不规则缺陷的空间自适应能力;最后引入加权双向特征金字塔网络(BiFPN)加强多尺度特征融合,显著提升小目标的检测精度。这些改进使模型在保持较高推理速度的同时,有效提升了复杂工业场景下的检测性能。实验结果表明,相较于原始RT-DETR算法,本文所提模型在钢材表面缺陷与PCB缺陷两类数据集上均表现出显著的性能提升,尤其在复杂工业背景下的鲁棒性与对小缺陷的敏感度方面改善明显。综上所述,本研究为工业产品表面缺陷检测提供了一种可行且高效的解决方案,在检测精度、模型可解释性及计算效率之间取得了良好平衡。未来的研究工作将聚焦于模型的进一步轻量化设计及其在多样化工业场景中的实际应用推广。
NOTES
*通讯作者。