1. 引言
随着智慧交通系统的快速发展,路面损伤检测作为保障道路安全与维护效率的关键环节,受到了广泛关注。传统的路面损伤检测方法主要依赖人工巡检,不仅效率低下,且难以保证检测的全面性和准确性。近年来,基于计算机视觉的目标检测技术为路面损伤检测提供了新的解决方案,通过自动识别和分析路面图像中的损伤特征,实现了高效、精准的检测[1]。
深度学习作为人工智能领域的一个热门研究方向,已经在图像识别、目标检测和分割等方面取得了显著进展,特别是在图像处理领域,深度学习技术能够自动从数据中学习特征和规律,表现出强大的特征提取和分类能力。深度学习技术的崛起为路面损伤检测提供了新的思路,特别是基于卷积神经网络(CNN)的目标检测算法,在路面损伤检测领域得到了广泛应用[2]。这些算法通过自动提取图像特征,能够实现对路面损伤目标的快速、准确检测,其中,YOLO (You Only Look Once)系列算法以其高准确性和高效率的特点,成为实时目标检测领域的佼佼者[3]。
文献[4]针对道路检测任务优化了YOLOv5s模型,通过引入CBAM注意力机制替代主干网络中的C3模块以强化关键信息提取能力,并采用EIoU损失函数替代传统GIoU,在减少定位误差的同时加速模型收敛并提升回归精度。文献[5]则提出融合Transformer与SimAM的轻量化路面损伤检测方案,在显著降低模型计算量与参数规模的同时,实现了检测精度的提升。文献[6]聚焦中国乡镇及社区街道场景,基于YOLOv3算法开发了路面病害检测方法,可快速识别裂缝、坑洼等损伤类型,并构建了适配本土场景的增补数据集。文献[7]设计的AUG-YOLOv8-D轻量化检测算法通过多项创新优化:采用Adown模块替代YOLOv8n卷积模块,引入UIB模块优化C2f结构,在骨干网络末端集成多模态注意力机制,并构建Ghost-Head检测头配合通道级知识蒸馏提升性能。文献[8]基于无人机巡检场景,构建了16,000张增广数据集,通过三阶段优化策略改进YOLOv8s-G模型,在保持检测精度的同时提升推理效率,为轨道基础设施维护提供高效技术方案。文献[9]提出了轻量化的道路损伤检测算法DFS-YOLO,其包含三大创新点:C2f-DWR模块增强高层语义信息利用,快速层次尺度特征金字塔FHSFPN优化特征融合效率,ShapeIoU损失函数聚焦损伤形状尺度特性以提升模型鲁棒性。
YOLOv11作为最新一代模型,通过融合创新架构与多项优化技术,在目标检测精度和速度上实现了平衡突破,成为路面损伤检测的理想选择[10]。然而,针对路面损伤检测任务的特殊性,如损伤类型多样、尺度变化大、背景复杂等,对检测算法的特征提取能力和计算效率提出了更高要求。为此,本文在YOLOv11的基础上,设计了一种新型的RC-G-ELAN模块,旨在通过优化网络结构,进一步提升特征提取效率并降低计算复杂度,从而满足路面损伤检测的实际需求。本文首先介绍了YOLOv11的网络结构和优势,随后详细阐述了RC-G-ELAN模块的设计思路和创新点,最后通过仿真实验验证了所提算法的性能。
2. 本文总体方案
2.1. YOLOv11网络结构
YOLOv11是由位于美国和西班牙的Ultralytics团队开发并推出的最新一代YOLO算法模型,于2024年9月30日正式发布,该模型通过融合创新架构与多项优化技术,在目标检测领域实现了精度与速度的平衡突破。YOLOv11的网络结构如图1所示,在核心架构层面,YOLOv11采用模块化设计,包含三大核心组件:主干网络(Backbone)以C3K2模块为基础,通过分割特征图并结合Bottleneck Block、SPPF (空间金字塔池化)和C2PSA (部分空间注意力)模块,显著提升特征提取效率;颈部网络(Neck)专注于多尺度特征融合,增强模型对复杂场景的解析能力;头部网络(Head)则负责生成最终预测结果,支持多任务处理。此外,模型还集成Transformer块以捕捉全局上下文信息,采用Mosaic数据增强技术提升泛化性能,并引入动态锚点与置信度阈值机制,使检测过程更加灵活精准。
Figure 1. Network structure of YOLOv11
图1. YOLOv11网络结构
YOLOv11的优势体现在多个维度:在精度方面,其中型版本(YOLOv11m)在COCO数据集上以比YOLOv8m减少22%的参数规模,实现了更高的平均精度(mAP);速度层面,经过GPU优化后,推理速度较YOLOv10提升2%,延迟降低25%,充分满足实时应用需求;功能扩展上,模型支持目标检测、实例分割、姿态估计及定向边界框检测(OBB)等多种任务,展现出强大的多任务处理能力;部署兼容性方面,YOLOv11可无缝适配边缘设备、云平台和NVIDIA GPU系统,为不同场景提供灵活解决方案。
凭借上述优势,YOLOv11在诸多领域展现出广阔的应用前景。在智慧交通领域,它可助力自动驾驶系统精准识别行人、车辆及交通标志,同时实现交通流量监测与事故预防;智能安防场景中,模型支持人脸识别、异常行为检测及远程监控,提升安全管理效率;医疗健康方面,YOLOv11可用于医学影像分析(如肿瘤检测)、细胞计数与分类等任务;工业制造环节,它能实现生产线产品质量检测、机器人视觉导航及仓库货物管理;零售商业领域,则可应用于顾客行为分析、库存盘点及虚拟试衣/试妆等场景;此外,在教育和文化遗产保护领域,YOLOv11也为资源分类与图像分析提供了技术支持。
2.2. 改进方案
YOLOv11算法相较于YOLOv10算法的改进主要在于:提出了新的核心模块C3k2 (如图1深黄色模块所示),并以此替代了YOLOv10算法中的核心模块C2f。YOLOv11的C3k2模块相比YOLOv10的C2f模块,在结构设计、计算效率、特征提取能力等方面均有显著提升。结构设计上,C3k2采用双并行卷积层,将输入特征分为两部分处理,一部分直接传递保留浅层细节,另一部分通过Bottleneck或C3k子模块进行深度特征提取后融合。这种设计增强了特征多样性和层次性,并通过可变卷积核(如3 × 3、5 × 5)扩展感受野,提升复杂场景下的多尺度目标检测能力。此外,C3k2还提供灵活性参数,允许调整模型性能与计算效率的平衡。计算效率方面,C3k2结合分组卷积技术,显著减少参数量和计算复杂度。相比C2f,其并行结构和分组卷积设计降低冗余计算,提高推理速度,更适合自动驾驶、智能监控等实时应用场景。同时,多尺度特征融合优化也提升了计算效率,减少特征信息丢失。特征提取能力上,C3k2的多尺度特征融合和可变卷积核设计,使其在遮挡严重、姿态变化大的目标场景中仍能提取丰富上下文信息,提高检测精度。此外,C3k2常与C2PSA模块结合,动态调整特征权重,增强对关键区域的关注,提升复杂场景检测性能。轻量化与部署优势方面,C3k2通过分组卷积和通道压缩技术,在保持精度的同时大幅减少参数量,更适合资源受限的移动端或嵌入式设备部署,降低了硬件资源需求,提高了模型实用性和可扩展性。与C2f相比,C3k2在结构设计、特征提取能力、计算效率和灵活性上均表现出明显优势,使其能更好地适应复杂场景中的目标检测任务,提高计算效率和部署优势,在自动驾驶、工业检测等实时性和精度要求较高的应用中表现出色。
Figure 2. Network structure of C3k2
图2. C3k2网络结构
C3k2模块的网络结构如图2所示,虽然C3k2模块相较于C2f模块有较大的改进和性能提升,但是其核心组成依然是Bottleneck子模块,Bottleneck子模块是CSP (Cross Stage Partial)网络的基础结构,通过两个卷积层提取特征,并可选shortcut连接以增强梯度传播。虽然Bottleneck模块本身设计轻量,但在C3k2中结合多个Bottleneck或C3k子模块可能增加模型复杂度,影响训练速度和部署效率。另外在一些特定场景下,如简单目标检测任务中,使用多个Bottleneck子模块可能引入冗余计算,增加不必要的参数,导致模型过拟合或推理速度下降。为了进一步降低算法的复杂度和降低计算量,本文设计了一种新的RC-G-ELAN (RepConv-Ghost-ELAN)模块取代C3k2模块。
Figure 3. Network structure of RC-G-ELAN
图3. RC-G-ELAN网络结构
RC-G-ELAN模块的网络结构如图3所示,设计的核心思想是:1) 参考GhostNet网络模型中的思想,即主流CNN计算的中间特征映射存在广泛的冗余,采用廉价的操作生成一部分冗余特征图,以此来降低计算量和参数量。2) 引入重参数化卷积RepConv,弥补因舍弃Bottleneck残差块所带来的性能损失,增强特征提取和梯度流通的能力。3) 引入分流控制因子α,针对不同的检测任务,可以调整网络模型的大小,找到最适合当前任务的控制因子,增加整体网络的应用适应性。RC-G-ELAN模块的创新点主要在以下几个方面:
1) 网络输入前端引入RepConv模块
RepConv (Re-parameterizable Convolution)模块是一种通过结构重参数化技术优化模型效率和性能的卷积模块,其核心思想是在训练阶段采用多分支结构学习丰富特征,推理阶段合并分支为高效单分支结构。RepConv模块的核心优势在于训练阶段采用多分支卷积结构(如1 × 1、3 × 3卷积及恒等映射)增强特征提取能力,而在推理阶段将多分支参数融合为单个3 × 3卷积层,显著降低了计算复杂度。该模块将卷积层与批归一化(BN)层的参数高效融合,进一步减少冗余运算,同时支持通道数的动态调整,在保持参数量稳定的前提下提升模型表达能力。在网络前端引入RepConv模块的主要目的是在图像特征信息最完整的时候进行特征信息的充分融合和有效提取,以此弥补因舍弃Bottleneck残差块所带来的性能损失。
2) 采用Conv 3 × 3模块替代C3k模块
在C3k2网络结构中,其核心组成是C3k模块,而在RC-G-ELAN网络结构中,核心组成为Conv 3 × 3模块。C3k模块的核心是Bottleneck模块,其主要操作为卷积加残差操作,而Conv 3 × 3模块表示的是3 × 3的卷积操作,与C3k模块相比,Conv 3 × 3模块去掉了残差结构,减少了大量的残差操作,因此网络结构更简洁,计算量更少。
3) 串行结构改为并行结构
如图2所示,在C3k2的网络结构中,数据经过第一个CBS模块后,分别作为了后续每一个C3k模块的额外输入数据,而这些额外输入数据在参与完当前级C3k模块的处理后,又会作为下一级的C3k模块的输入,这些由第一个CBS模块产生的额外数据,串行参与了多个C3k模块的数据处理,而且越靠前的CBS分支数据参与的C3k模块数据处理越多,显然这样的串行结构产生了一定的冗余操作。因此,本文将C3k2这种串行结构进行改进,设计了如图3所示的并行结构。在图3中,RepConv模块的输出只会作为第一个Conv 3 × 3模块的输入,不会作为后续Conv 3 × 3模块的输入,另外将每级的Conv 3 × 3模块的输出直接并联到最后的Concat模块,实现数据的拼接,这样的并行结构能够一定程度地减少数据的冗余操作。
4) 网络后端添加Conv 1 × 1模块
Conv 1 × 1模块不仅能引入非线性特性,增强网络深度学习复杂函数的能力,从而提升模型表达能力,还能通过调整通道数实现网络维度的灵活升降。在网络后端添加Conv 1 × 1模块,一方面能够减少计算量,降低运算复杂度,减少过拟合风险;另一方面还能促进了通道间的跨通道信息交互与整合,使得不同通道的特征信息得以融合,有助于网络提取更加丰富的高级特征。
基于本文设计的RC-G-ELAN模块对YOLOv11的网络结构进行重构,用RC-G-ELAN模块替代C3k2模块,重构的网络结构如图4所示,本文改进后的算法称之为RCGELAN-YOLOv11算法。
Figure 4. Network structure of proposed algorithm
图4. 本文所提算法的网络结构
3. 仿真实验与结果分析
3.1. 实验数据集
GRDDC2020数据集汇聚了来自印度、日本和捷克三国的道路图像,专为道路损伤检测挑战赛[11]而设,于2020年作为全球道路损伤检测挑战赛的一部分正式发布。数据集中,捷克提供了2829个样本,印度7706个,日本则贡献了10,506个,总计21,041个样本。该数据集涵盖了10种道路损伤类型,具体包括:d00 (纵向损伤)、d01 (纵向拼接缝,d0w0为错误标签)、d10 (横向损伤)、d11 (横向拼接缝)、d20 (龟裂)、d40 (坑洞)、d43 (十字路口模糊)、d44 (井盖)、d50 (白线模糊)。在GRDDC2020原数据集的21,041个图像中,仅14,569个带有标注标签。本文研究中,将这14,569个数据以7:1:2的比例分配为训练集、验证集和测试集,具体数量为训练集10,198张、验证集1457张、测试集2914张。图5展示了数据集中部分具有代表性的图像,直观反映了多种道路损伤状况。
Figure 5. Road damage dataset images
图5. 路面损伤数据集图片
3.2. 仿真实验
本节通过仿真实验验证本文所提算法的性能,具体的实验参数如表1所示。
Table 1. Experimental parameters
表1. 实验参数
参数名 |
参数值 |
训练集图片 |
10,198 |
验证集图片 |
1457 |
测试集图片 |
2914 |
epoch |
300 |
学习率 |
0.01 |
batchsize |
32 |
优化器 |
SGD |
图6展示了本文提出算法的训练流程。其中,前三列子图呈现了损失值随训练进程的变化情况,具体地,横轴代表迭代轮次epoch,纵轴则表示loss值;而后两列子图则描绘了准确性的变化趋势,同样以迭代轮次epoch为横轴,以准确率为纵轴。在训练期间,可以清晰地观察到,随着迭代轮次epoch的逐步增加,分类损失clc_loss、预测边界框损失box_loss以及分布特征损失dlf_loss均呈现持续下降态势,而预测精准度precision、召回比率recall以及全局平均精度mAP则稳步提升,直至最终趋于稳定。
Figure 6. Training procedure of proposed algorithm
图6. 本文所提算法的训练过程
为了验证本文所提算法的性能,我们将本文所提算法与YOLOv11算法在检测精度和复杂度两方面进行了对比,对比结果如图7和表2所示。从图7中可以看到,本文所提算法在检测精度上与YOLOv11算法差别不大,对全类型损伤的检测精度mAP50仅仅降低了0.7%左右(0.558→0.551),在某些道路损伤情况上,如D01 (纵向拼接缝)、D20 (龟裂)和D50 (白线模糊),本文所提算法的检测精度甚至高于YOLOv11算法(实验结果表明本文所提算法对横线型的目标识别能力较强,主要原因是本文所提算法简化了网络结构,减少了卷积运算,因此反而对一些特征图像比较直接的目标检测能力较强)。
(a) YOLOv11检测精度 (b) RCGELAN-YOLOv11检测精度
Figure 7. Comparison of the algorithm detection accuracy (mAP50)
图7. 算法检测精度对比(mAP50)
本文所提算法的重要价值是在复杂度上的降低,为比较两种算法的复杂度,以网络层数(Layers)参数量(Parameters)、梯度计算量(Gradients)和每秒10亿次浮点运算数(Giga Floating-point Operations Per Second, GFLOPs)作为评估指标,本文算法和YOLOv11算法的最小模型YOLOv11n进行比较,比较结果如表2所示。从表2中可以看到,与YOLOv11n算法对比,本文所提算法在上述的四个指标中都有大幅度的下降,其中Layers降低了19.33%,Parameters降低了15.84%,Gradients降低了22.81%,GFLOPs降低了6.15%。因此本文所提算法能够大幅度地降低YOLOv11的网络层数、参数量与计算量,大幅度地降低算法的复杂度。
Table 2. Comparison of the algorithm complexity
表2. 算法复杂度对比
模型 |
Layers |
Parameters |
Gradients |
GFLOPs |
YOLOv11n |
238 |
2616248 |
2616232 |
6.5 |
本文所提算法 |
192★ |
2201818★ |
2019560★ |
6.1★ |
为了进一步验证本文所提算法的性能,在测试数据集上对不同类型的路面损伤情况进行检测,检测结果如图8所示。从图8中可看出,本文所提的算法能精准识别横纵向裂缝、拼接缝、龟裂、井盖、白线模糊等各类路面损伤。另外,对于一张图像中存在有多种不同类型路面损伤的情况,该算法也能实现准确识别。
4. 结论
本文提出了一种基于RCGELAN-YOLOv11的路面损伤检测算法,通过设计RC-G-ELAN模块替代YOLOv11中的C3k2模块,实现了网络结构的优化和计算复杂度的降低。在GRDDC2020数据集上的实验结果表明,与YOLOv11相比,本文所提算法在保持检测精度的同时,显著减少了网络层数、参数量、梯度计算量和每秒十亿次浮点运算数,有效提升了算法的效率和实用性,因此本文所提算法在一些存储空间有效、运行能力较差的移动终端上更有竞争力和实际应用价值。未来的工作集中在两方面:一是优化网络结构和模块功能,提高对微弱模糊目标的检测能力,以提供检测精度;另一方面进一步简化
Figure 8. Testing situation of the proposed algorithm
图8. 本文所提算法的测试情况
RC-G-ELAN模块的结构和参数,探索其在其他目标检测任务中的应用潜力,并推动算法在实际道路检测系统中的部署和测试,为智慧交通系统的发展贡献力量。
基金项目
贵州交通职业大学高层次人才科研启动基金项目:复杂交通环境下的多目标检测研究(KYQD2022004)。