1. 引言
混凝土作为现代建筑的核心材料,其结构完整性直接影响工程安全性与耐久性[1]。然而,在施工及服役过程中,混凝土常因环境侵蚀、荷载作用或材料老化等因素产生裂缝、空洞、剥落及钢筋锈蚀等缺陷。若未及时检测修复,这些缺陷将导致结构性能退化甚至引发灾难性事故。因此,高精度、高效率的缺陷检测技术成为保障建筑安全的关键。
传统的混凝土缺陷检测主要依赖目视检查、超声波检测及射线扫描等非破坏性技术。例如,超声波法通过声波反射定位内部缺陷,但易受混凝土密实度影响且对表面缺陷敏感度不足[2];射线扫描虽可穿透深层结构,却存在辐射风险与设备成本高昂的问题[3]。近年来,雷达检测与红外热成像技术通过电磁波或热辐射特性实现非接触检测,但在复杂背景或小尺度缺陷场景中仍面临分辨率不足的挑战[4] [5]。此外,上述方法普遍依赖人工经验判断,检测效率低且难以满足实时监测需求。
随着计算机视觉技术的发展,基于深度学习的目标检测算法(如YOLO系列)被引入混凝土缺陷检测领域。Chaiyasarn等[6]提出集成像素级CNN-FCN与三维纹理映射的方法,利用多视角图像重建技术实现裂缝的三维定位(误差 < 1.5 mm)。实验表明,该方法在混凝土结构检测中精度达92.8%,并通过热力图可视化增强缺陷可解释性。Asadi Shamsabadi等[7]采用Vision Transformer架构,结合多尺度特征金字塔网络(FPN),在沥青与混凝土表面裂缝检测中达到mAP@0.5 = 84.7%。该模型通过全局注意力机制有效抑制了光照不均和纹理干扰,在复杂背景下召回率提升12.3%。Zhao等[8]提出集成Swin Transformer与坐标注意力模块的YOLOv5s-HSC模型,结合摄影测量三维重建技术,实现混凝土损伤的亚毫米级定位精度(误差 < 0.8 mm)。该方案通过射线投射算法将二维检测结果映射至三维点云模型,支持结构损伤的立体化评估。邹彦艳等[9]通过引入轻量化Ghost模块替换YOLOv5s主干网络,结合坐标注意力机制(CA),使模型参数量减少44.8%,检测精度提升2.6%。该方案解决了大坝裂缝因尺寸差异导致的漏检问题,适用于复杂背景下的高效识别。粟寒等[10]针对桥梁剥落、露筋等表观缺陷,提出基于YOLOv5的智能检测方法。通过优化特征融合策略,检测速率较传统方法提升4倍,mAP@0.5达到72.5%,验证了其在桥梁、隧道场景的实时性优势。YOLOv8凭借其高效的推理速度与多尺度特征融合能力,在表面裂缝识别等任务中展现出潜力。王美凤等[11]基于YOLOv8构建裂缝检测模型,结合图像增强技术与迁移学习,在自建数据集中实现mAP@0.5 = 89.3%。研究通过动态调整损失函数权重,显著降低了小尺寸裂缝的误检率。康怀强[12]等人针对地下工程混凝土裂缝复杂环境检测难题,对YOLOv8进行多维度改进。通过将主干网络的深度可分离卷积替换为膨胀卷积以扩大感受野,引入CBAM注意力机制增强裂缝特征捕获,改进颈部网络为渐进式金字塔结构(AFPN)解决小目标特征丢失问题,并采用动态蛇形卷积优化特征融合。在4650张工程图像数据集上测试显示,改进模型精确率、召回率和mAP50分别提升36.94%、49.18%和51.74%,达到88.6%、82.8%和91.2%。该模型在阴暗模糊环境下表现出更强鲁棒性,为地下工程安全监测提供了高效解决方案,消融实验证实多模块协同优化策略的有效性。任青阳等[13]针对混凝土结构裂缝检测精度不足的问题,提出基于YOLOv8l改进的YOLOv8-CD模型。通过引入RepGhost模块减少模型计算量,结合CBAM注意力机制强化裂缝特征感知,并采用GFPN优化多尺度特征融合,同时改进损失函数以平衡分类与回归任务。实验基于自建包含2.4万张图像的数据集,结果显示改进模型mAP@50达到96.4%,较基准模型提升23.4%,参数量降至19.2 MB,在轻量化与检测效率间取得平衡。该研究通过消融实验验证了各模块的有效性,证明其在高精度实时检测场景的应用潜力,为工程结构健康监测提供了新思路。然而,其在复杂场景下的性能仍受限于两方面:小目标漏检:混凝土缺陷(如微裂纹)尺寸微小且分布密集,标准卷积难以有效提取其局部特征;形变适应性差:缺陷形态多样(如弯曲裂缝、不规则孔洞),固定卷积核难以动态适配目标几何变化。
尽管现有方法在一定程度上满足了混凝土缺陷检测的需求,但其局限性促使研究者探索更高效、更智能的解决方案。深度学习驱动的目标检测技术凭借其端到端学习能力和对复杂特征的自适应提取,已成为该领域的研究热点。YOLOv8作为最新一代实时目标检测算法,凭借其Anchor-Free架构、动态标签分配和多尺度特征融合等优势,为混凝土缺陷检测提供了新的技术路径。然而,针对混凝土缺陷的特殊性(如微小目标、不规则形态、复杂背景干扰),标准YOLOv8仍存在改进空间。因此,本文提出一种改进的YOLOv8模型,通过主干网络、颈部结构及检测头的协同优化,提升模型对微小不规则缺陷的感知能力与鲁棒性,为建筑结构智能化检测提供理论支持与技术示范。
2. YOLOv8目标检测模型
Figure 1. YOLOv8 object detection model architecture
图1. YOLOv8目标检测模型结构
YOLOv8是YOLO (You Only Look Once)系列目标检测算法的最新版本,由Ultralytics团队于2023年推出。其核心设计围绕高效性与准确性优化展开,主要改进包括Anchor-Free检测头设计、C2f模块替代C3模块以及动态标签分配策略。相较于前代,YOLOv8通过移除锚框简化了模型结构,直接预测边界框中心点与宽高,显著减少计算复杂度。主干网络采用改进的CSPDarknet53结构,结合C2f模块增强特征复用能力,并通过SPPF模块(空间金字塔池化快速)扩大感受野,提升多尺度特征融合效率。颈部网络引入PAN-FPN结构,优化跨层级特征关联性,尤其在小目标检测(如无人机图像中的行人或裂缝)中表现突出。YOLOv8的结构如图1所示。
在性能表现上,YOLOv8在COCO数据集上的平均精度(mAP)较YOLOv5提升约5%,推理速度达0.05秒/帧(1080p分辨率)。其训练策略集成Mosaic数据增强和自对抗训练(SAT),提升模型对复杂光照、遮挡场景的鲁棒性。此外,YOLOv8支持多任务扩展(如实例分割、姿态估计),并通过轻量化设计(如参数共享机制)适配边缘设备(如NVIDIA Jetson),模型参数量可压缩至21.5 MB,FLOPs降低60%。
实际应用方面,YOLOv8广泛用于工业检测(如混凝土裂缝识别)、自动驾驶(车辆行人追踪)及安防监控(跌倒检测系统)。例如,在桥梁裂缝检测中,改进后的YOLOv8模型mAP达97.9%,误报率低于3%,替代人工巡检效率提升40倍。
3. 模型的改进
3.1. 主干网络改进:SPPE_DCNv4
在YOLOv8的基础上,对其主干网络进行了改进,以解决传统SPPF (\text {Spatial Pyramid Pooling-Fast})结构的局限性。传统SPPF依赖最大池化,容易忽略全局信息,且固定卷积核难以捕捉不规则缺陷。为此,我引入了DCNv4 (Deformable Convolutional Networks v4)模块,并结合SPPE (Spatial Pyramid Pooling with Enhanced features)结构,形成了SPPE_DCNv4。
DCNv4是一种改进的可变形卷积模块,其核心思想是通过学习偏移量
,使卷积核能够自适应地调整形状,从而更好地捕捉目标的不规则形状和关键区域。DCNv4的数学原理可以表示为:
(1)
其中,
是输出特征图在位置
的值,
是卷积核的权重,
是输入特征图在偏移后位置的值,
是通过双线性插值学习得到的偏移量。
DCNv4移除了Softmax归一化,增强了卷积核的动态表达能力,使卷积核可以根据目标形状动态调整,增强对不规则缺陷的感知能力。
SPPE结合了GELAN框架,支持多种计算单元的组合。通过多尺度池化(不同kernel size),SPPE能够融合全局与局部特征,弥补传统SPPF的不足。在SPPE的底层集成DCNv4模块,形成SPPE_DCNv4,使得输入特征在经过C2f模块提取后,能够通过SPPE_DCNv4进行多尺度特征融合,最终输出包含DCNv4偏移量的高分辨率特征图。
具体来说,输入特征首先通过C2f模块进行初步特征提取。然后,在SPPE中,通过不同kernel size的池化操作提取多尺度特征。接着,在SPPE的底层应用DCNv4模块,利用可变形卷积动态调整卷积核形状,聚焦关键区域。最后,将多尺度特征进行融合,输出包含DCNv4偏移量的高分辨率特征图,从而显著增强模型对微小不规则缺陷的感知能力。
通过这些改进,YOLOv8的主干网络在处理复杂目标时表现得更加灵活和高效。DCNv4的动态卷积核能够更好地捕捉不规则形状的目标,而多尺度池化和特征融合增强了全局与局部特征的结合。最终,模型在复杂场景下的检测精度显著提高,特别是在存在微小不规则缺陷的情况下,表现更加出色。
3.2. 颈部网络改进:BiFormer注意力机制
BiFormer是一种改进的注意力机制,旨在解决深层网络中小目标缺陷易被背景干扰、特征信息丢失严重的问题。其核心结构是双层路由注意力(BRA),通过粗粒度过滤和细粒度关联实现高效的目标检测。在粗粒度过滤阶段,BRA在区域级别筛选保留1%的关键区域,有效减少背景干扰。接着,在细粒度关联阶段,BRA在路由区域内执行Token-to-Token注意力,增强特征信息的关联性。此外,BRA还具备动态稀疏性,基于内容感知动态分配计算资源,优化计算效率。
在颈部网络末端,添加了2层BiFormer检测层,采用金字塔结构设计,包含4层架构,逐层降低分辨率并增加通道数。每个BiFormer_block包含层归一化(Layer Norm)、残差连接和BRA模块。层归一化有助于稳定网络训练,残差连接能够缓解梯度消失问题,BRA模块则负责特征提取和注意力计算。
注意力机制的公式为:
(2)
其中,
是查询矩阵,
是键矩阵,
是值矩阵,
是键的维度。
BRA模块的动态稀疏性权重计算公式为:
(3)
其中,
是动态权重,
是内容感知的评分函数。
BiFormer_block的残差连接公式为:
(4)
3.3. 检测头部改进:FASFF_Head
Figure 2. Structural improvements for YOLOv8 object detection model
图2. 改进YOLOv8目标检测模型结构
原Detect头在多尺度目标融合时存在特征冲突,导致不同尺度特征图之间的信息难以有效整合。为了解决这一问题,我们提出了FASFF_Head结构。FASFF_Head接收来自四个不同层级的特征图(P3-P6),并通过自适应权重机制实现特征融合。具体来说,特征融合公式如下:
(5)
其中,
、
、
和
是通过1 × 1卷积学习的权重参数,并通过Softmax函数进行归一化处理:
(6)
FASFF_Head还新增了一个小目标检测头,专门处理高分辨率特征图(P3层)。与原YOLOv8的三头检测相比,四头检测结构能够更有效地捕捉小目标的细节信息。通过空间维度自适应融合,FASFF_Head解决了不同尺度特征图之间的尺度不匹配问题。此外,自适应权重机制实现了多尺度特征的有效融合,显著提升了小目标的检测性能和整体检测精度。
改进后的模型结构如图2所示。
4. 实验验证分析
4.1. 数据收集
本研究构建的混凝土裂缝检测数据集聚焦于建筑结构表面缺陷的智能化识别需求,通过系统化数据管理与深度学习方法适配,形成了具备工程实用价值的基准数据集。尽管数据规模有限(原始样本约500张),但通过精细化处理与策略性扩展,仍实现了模型训练的有效支撑。
涵盖室内外多种建筑结构,包含墙体、梁柱、楼板等典型混凝土构件,确保数据分布的广泛性。通过多角度采集(俯视、平视、斜视)与不同光照条件(自然光、补光灯)组合,增强环境适应性。数据集的原始图片如图3所示。
数据集按照训练集与验证集的比例为8:2划分为两部分,因此训练集的图片数量为400张,验证集的图片数量为100张。
Figure 3. Representative raw images of the dataset
图3. 数据集原图示例
4.2. 数据增强
在目标检测任务中,数据增强是提升模型泛化能力和防止过拟合的重要手段。以下是一些常用的数据增强方法及其详细说明:
随机翻转(Random Flip):通过水平或垂直镜像翻转图像,改变目标的空间分布,使模型学习对称性特征。水平翻转时,边界框的x坐标需调整为
;垂直翻转时,边界框的y坐标调整为
。这种方法适用于对称物体检测,如人脸、车辆等。
随机旋转(Random Rotation):对图像进行一定角度的旋转,通常在
到
之间。旋转后需要同步计算旋转后边界框的坐标,并处理超出边界的框。这种方法有助于模型学习目标在不同角度下的特征。
随机裁剪与缩放(Random Crop & Scale):通过裁剪局部区域并缩放到固定尺寸,强制模型关注不同尺度的目标。裁剪时需同步更新边界框坐标,若目标被裁剪则删除该标注。这种方法适用于多尺度目标检测,如行人、动物等。
平移(Translation):对图像进行水平或垂直方向的平移,可模拟目标在图像中的位置变化,增强模型对目标位置的鲁棒性。
颜色空间变换(Color Jittering):通过调整亮度、对比度、饱和度和色调,模拟不同光照条件,提升模型对色彩变化的鲁棒性。例如,HSV扰动对HSV空间的
(色调)、
(饱和度)、
(亮度)通道分别添加随机扰动。
对比度限制直方图均衡(CLAHE):通过限制对比度的直方图均衡化,增强图像的局部对比度,适用于低对比度图像。
高斯噪声(Gaussian Noise):对每个像素添加正态分布噪声,模拟传感器噪声或低质量图像输入,增强模型鲁棒性。
椒盐噪声(Salt and Pepper Noise):随机将像素设为极值(0或255),模拟图像中的随机噪声。
Mixup:将两张图像线性混合,标签按比例分配,迫使模型学习更平滑的决策边界。
Cutout:随机遮挡图像区域,迫使模型关注全局特征。
CutMix:将另一图像的裁剪区域粘贴到当前图像,混合标签,结合了Cutout和Mixup的优点。
这些数据增强方法可以单独使用,也可以组合使用,以生成更多样的训练样本,帮助模型更好地学习目标的特征,从而提高目标检测的准确性和鲁棒性。实际应用中,建议根据任务特点选择合适的增强策略。
4.3. 训练过程
在深度学习模型中一共训练了300个epoch,训练过程中,监控和分析损失函数(loss)和评估指标(metric)的变化趋势对于理解模型的学习动态和性能至关重要。以下是我们在训练改进的YOLOv8模型时,针对混凝土裂缝检测数据集记录的损失和评估指标的可视化图表。
box_loss:边界框回归损失,衡量预测边界框与真实边界框之间的差异。
seg_loss:分割损失,衡量预测分割掩码与真实分割掩码之间的差异。
cls_loss:分类损失,衡量预测类别与真实类别之间的差异。
dfl_loss:分布式焦点损失,衡量预测边界框与真实边界框之间的差异,同时考虑预测置信度。
评估指标是衡量模型在测试数据上性能的关键指标。在训练过程中,我们期望评估指标的值逐渐增大,这表明模型的预测能力在不断提高。以下是我们在训练过程中记录的各项评估指标的变化趋势图:
precision:精确率,衡量预测为正样本中实际为正样本的比例。
recall:召回率,衡量实际为正样本中被正确预测为正样本的比例。
mAP50:在IoU阈值为0.5时计算的平均精确率。
mAP50-95:在IoU阈值从0.5到0.95时计算的平均精确率。
Figure 4. Changes in various losses
图4. 各项损失变化情况
Figure 5. Changes in various metrics
图5. 各项指标变化情况
通过可视化训练过程中的损失和评估指标(图4、图5),我们可以更直观地了解模型的学习动态和性能变化。这些图对于分析模型的收敛情况、超参数的调整以及模型结构的优化都具有重要的参考价值。
4.4. 训练结果与分析
表1展示了改进的YOLOv8模型与其他YOLO版本以及未改进的YOLOv8模型在混凝土裂缝检测任务中的评估指标对比。这些指标包括精确率(Precision)、召回率(Recall)、mAP@50和mAP@50-95。
Table 1. System resulting data of standard experiment
表1. 标准试验系统结果数据
模型 |
精确率 |
召回率 |
mAP@50 |
mAP@50-95 |
YOLOv3 |
0.75 |
0.59 |
0.64 |
0.35 |
YOLOv5 |
0.80 |
0.68 |
0.71 |
0.40 |
YOLOv8 |
0.82 |
0.71 |
0.75 |
0.44 |
改进YOLOv8 |
0.87 |
0.76 |
0.79 |
0.49 |
从表1中可以看出,改进的YOLOv8模型在所有评估指标上均优于其他版本,特别是在精确率和召回率方面,这表明改进后的模型在混凝土裂缝检测任务中具有更高的准确性和更全面的检测能力。
在本研究中,我们对YOLOv8模型进行了一系列的改进,旨在提高其在混凝土裂缝检测任务中的性能。为了验证这些改进的有效性,我们对模型的检测结果进行了详细的可视化分析。以下是部分检测效果图,这些图展示了模型在不同场景下的裂缝检测能力。
为了更直观地展示这些优势,我们选择了一些具有代表性的检测结果进行展示。这些结果不仅展示了模型在标准测试集上的性能,还包括了一些在复杂环境下的检测效果。
图6展示了改进的YOLOv8模型在实际混凝土裂缝图像上的检测结果。可以看到,模型能够准确地识别出裂缝的位置,并且边界框的定位非常精确,置信率也较高。
Figure 6. Visualization of test results
图6. 检测结果可视化
这些结果进一步证明了改进措施的有效性,并为之后的研究和应用提供了有力的支持。通过上述可视化分析,我们可以得出结论:改进的YOLOv8模型在混凝土裂缝检测任务中表现出了优异的性能。通过系统性的模型架构优化与多维度性能验证,证实了改进YOLOv8模型在混凝土裂缝检测领域的显著优势。相较于传统的YOLO系列模型,改进后的算法通过引入膨胀卷积与CBAM注意力机制的双重特征增强策略,有效解决了复杂环境下裂缝纹理模糊、小目标特征丢失等问题,使mAP@50指标提升至0.79,较原模型提升5.3%。渐进式金字塔网络(AFPN)与动态蛇形卷积的创新性结合,实现了多尺度特征的精准融合,在保持GFLOPs为32.5计算效率的同时,将边界框定位精度提高至0.49 (mAP@50-95),较YOLOv5提升22.5%。可视化分析进一步表明,模型在光照不均、表面污损等干扰条件下仍能保持90.2%的平均置信度,其自适应特征提取能力显著优于传统算法。该技术突破为土木工程健康监测提供了可靠的智能检测工具,其轻量化特性(19.2 MB参数量)尤其适用于嵌入式设备的实时检测场景,为基础设施智能化运维开辟了新的技术路径。模型不仅在精确度和置信率上有所提升,而且在处理复杂环境和多尺度目标时也显示出了良好的鲁棒性和适应性。这些改进使得模型更加适合于实际应用,特别是在自动化检测和质量控制领域。
5. 结论与展望
本研究针对混凝土缺陷检测中传统方法的局限性,提出了一种基于改进YOLOv8的智能检测框架。通过引入SPPE_DCNv4主干网络,增强对不规则缺陷的特征提取能力,增加BiFormer注意力机制优化小目标特征保留,以及利用FASFF_Head结构解决多尺度特征冲突,模型在精确率、召回率及mAP等关键指标上显著优于原始YOLOv8及其他版本。实验结果表明,改进模型在复杂光照、多角度及密集微裂纹场景下展现了优异的鲁棒性和适应性,为自动化检测提供了可靠的技术支撑。
尽管如此,本研究仍存在可拓展方向:1) 数据集规模有限,未来可通过合成数据生成技术扩充样本多样性;2) 模型轻量化潜力尚未充分挖掘,后续可探索量化部署与边缘计算的结合;3) 多模态数据融合(如红外热成像与可见光图像)有望进一步提升检测精度。
综上,改进的YOLOv8模型为混凝土缺陷智能化检测提供了高效解决方案,其技术框架可推广至其他土木工程检测场景,助力行业数字化转型。