1. 引言
高速公路作为全球交通网络的重要组成部分,对于现代社会和经济的正常运行具有重要作用 [1] 。然而,路面裂缝对驾驶者的舒适度和行车安全构成严重威胁 [2] 。传统的人工检测方法无法满足大规模、高效率的公路裂缝检测需求 [3] 。因此,有效、准确地检测高速公路表面裂缝,对于维护道路状况和预防交通事故具有重要意义 [4] 。
许多研究人员对此进行了努力,Lekshmipathy等人 [5] 和Zhang等人 [6] 利用加速度传感器、陀螺仪和磁传感器收集的路面状态数据,设计人工神经网络,实现了对桥头堡裂缝、坑洼和车辆跳跃等路面条件的高精度分类。但是,这个方法只能探测到轮子经过的地方,而不能探测到轮子外面的地方。
形态学操纵被广泛应用于公路病害的诊断 [7] [8] 。Amhaz等人 [9] 利用裂纹相邻像素之间的相干性,实现了二维图像中的裂纹自动识别。Peng et al. [10] 对图像中的局部裂纹斑块进行了处理。虽然形态学操作能去除不相干的结构,使得计算机能更好的对图像进行识别和理解,但算法精度低、自适应差。
近年来,基于深度卷积神经网络的建筑裂纹检测与分类方法得到了广泛的应用 [11] [12] 。Mao [13] 等提出了一种以VGG-16 [14] 网络模型为基础的道路裂缝分类网络。Opara [15] 等基于YOLOv3对裂纹、凹坑进行了检测。Arya等 [16] 利用轻型移动网(MobileNet)络完成了公路裂缝探测任务 [17] 。Hedge et al. [18] 采用了YOLOv5对象探测模型和数据增强策略。Doshi和Yilmaz [19] 采用基于YOLOv4 [20] 的模型。Pei等 [21] 利用CascadeR-CNN模型 [22] 和各种数据增强方法,得到F1评分0.629。
虽然上述方法优于传统模型,但是卷积神经网络感受野的大小受限于卷积层的层数,由于计算量的限制,感受野的大小往往没有达到最佳值。受近年Transformer在CV领域的火热的启发,本文提出了一种基于改进的ViT-YOLO检测算法。工作的贡献如下:
1) 针对形状不规则和小目标的高速公路表面裂缝问题,提出了一种基于改进的ViT-YOLO结构的裂缝目标检测算法。
2) 采用双向特征金字塔网络(BiFPN)特征融合结构,并通过学习得到权重参数来融合不同层的特征映射。
3) 采用了Transformer的核心思想,设计了自注意力模块,增加有用特征的权重,抑制无效特征的权重。同时还引入了改进的Squeeze-and-Excitation (SE)注意力机制,使模型能够对输入特征图的不同通道给予不同的重视程度。
2. YOLOv5网络及原理
YOLOv5骨干网将Focus架构与CSP架构相结合,实现了对输入样本量的有效提取。YOLOv5采用PANet结构对特征层进行融合,并对特征层进行了三种尺度的预测。PANet是一个以FPN为基础的自底向上的增强型网络,它取代了原有的单向网络,实现了双向网络的融合。本文从精度、效率和规模三个方面综合考量,提出一种基于YOLOv5的高速公路地表裂纹识别网络优化方案。图1所示为最初的YOLOv5中的网络架构。
![](//html.hanspub.org/file/21-2571175x8_hanspub.png?20231222095234590)
Figure 1. Original YOLOv5 network structure
图1. 原始YOLOv5网络结构
![](//html.hanspub.org/file/21-2571175x9_hanspub.png?20231222095234590)
Figure 2. Network structure of the PANet header
图2. PANet头部网络结构
从图2可以看出,一个PANet包含了一个自上而下的融合路线和一个自下而上的融合路线。该算法先用2次上采样来校正最近的特性图X,然后再用1 × 1 × 1的卷积方法把该特性图Y加入到预分层特性图Y中。
3. 改进的网络结构
3.1. BiFPN头部特征融合网络
与FPN和PAN等其他特征融合结构相比,双向特征金字塔网络结构(BiFPN)可以实现更高效的双向跨尺度连接和加权特征融合。FPN最开始应用于YOLOv3,但此特征融合结构本质上受到单向信息流的限制,该结构如图3(a)所示,FPN自上而下传输特征信息,并通过低级别特征融合高级别特征,以获得用于预测的特征图,由于FPN对位置信息的丢失。Yolov4和Yolov5采用PAN特征融合结构在FPN的基础上增加了一个额外的自下而上的路径聚合网络。该结构如图3(b)所示,它将浅层定位信息传输到深层,在多个尺度上增强了定位能力。图3(c)的NAS结构广泛运用于强化学习,旨在搜索出合适的网络结构,虽然该模型效果好,但是搜索空间大耗时长。BiFPN特征融合结构如图3(d)所示。将双向(自下而上和自上而下)路径视为特征网络层,并多次重复同一层以实现更高级别的特征融合。
Google Brain在FPN结构的基础上提出了名为EfficientDet的目标检测算法,和同时期的其他目标检测算法如YOLOv3、MaskRCNN、NAS-FPN等相比,在准确率和检测速度和运算量上EfficientDet均是一枝独秀,如图4可以看到详细的实验数据对比图。虽然随着YOLO算法的发展,EfficientDet算法的性能已经比不上YOLOv4和YOLOv5,但是它提出的BiFPN特征融合结构却值得参考和借鉴。本文将BiFPN特征融合结构引入YOLOv5算法,改进后的YOLOv5的模型网络结构如图5所示。
头部网络结构在改进为BiFPN结构的同时保持了骨干层的网络结构,例如,输入640 × 640像素的图片,通过骨干层后,输出为1024个大小4 × 4的特征图。在第6层中,通过ATCSP层,采用三倍层叠,通过多次卷积等操作,输出512个尺寸为8 × 8的特征图。在第10层中,使用1 × 1的卷积核运算,获得了512个大小4 × 4的特征图样。在第11层,利用上采样操作,可以获得大小8 × 8的特征图。在第12层,将从第6层得到的512个特征图样与之相结合,可以获得1024个大小8 × 8的特征图。CSP层的内部结构如图6所示。
![](//html.hanspub.org/file/21-2571175x10_hanspub.png?20231222095234590)
Figure 3. Feature fusion network structure
图3. 特征融合网络结构
![](//html.hanspub.org/file/21-2571175x11_hanspub.png?20231222095234590)
Figure 4. EfficientDet performance compared with other algorithms
图4. EfficientDet与其他算法的性能对比图
![](//html.hanspub.org/file/21-2571175x12_hanspub.png?20231222095234590)
Figure 5. Improved header network structure
图5. 改进后的头部网络结构
![](//html.hanspub.org/file/21-2571175x13_hanspub.png?20231222095234590)
Figure 6. Internal structure of CSP layer
图6. CSP层的内部结构
14至17层使用与10至13层相同的网状构造,在14层中1024个大小为8 × 8的特性图形产生256个大小16 × 16的特性图形,并将其应用于第17层。在第18层,使用3 × 3的卷积核心,进行连续的两个卷积层运算,可获得大小为8 × 8的256个本征图样。在第19层,将BiFPN的特征融合模式的理念与之相结合,实现了双向的跨尺度连接。
对特征图尺寸同为8 × 8的第19层、第14层和第6层进行多尺度特征融合,得到1024个尺寸为8 × 8的特征图。在第20层通过CSP层,采用三倍层叠,通过多次卷积等操作输出512个尺寸为8 × 8的特征图。同理,在21层到23层采用与18层到20层一样的网络结构,其中,在22层采用双向跨尺度连接,对特征图尺寸同为4 × 4的第22层、第10层和第9层进行多尺度特征融合,得到2048个尺寸为4 × 4的特征图。最终,在23层输出1024个尺寸为4 × 4的特征图,检测层也保持与原有的Yolov5一致的结构。改进后的模型用于苹果叶部初次检测,由于该模型保留了原始Yolov5模型的骨干网络,方便了对成熟的苹果叶部检测的Yolov5模型进行迁移学习。
3.2. 自注意力机制
Transformer机制最早被用在了很多NLP任务上。近年来,有些学者改进Transformer机制,使得能应用到计算机视觉任务中。该算法仅对目标像素的局部邻域进行自动关注,未对其整体进行处理。本文将使用一种可扩充的逼近方法,来获得一种具有全局自注意力的稀疏转换方法。本研究借鉴Transformer的核心理念引入自注意力机制,构建传输器结构模型。图7显示了Transformer层的结构。
图7中Q,K,V分别代表query (请求)、key (键值)、value (值),其中,V表示训练好的模型中数据K对应的值,Q代表输入K中的需要预测的数据。后续通过计算比较输入的Q值与K的相似度,然后将相似度进行概率化,将概率化后的值作为各自的权重,实现自注意功能。具体关系如下图8所示。
![](//html.hanspub.org/file/21-2571175x14_hanspub.png?20231222095234590)
Figure 7. Structure of the TRANSFORMER layer
图7. Transformer层的结构
上图中,输入Q的值位于K2、K3之间,通过计算Q与K1、K2、K3相似度赋予不同的权重,实现Q的V值预测。
图9显示了多头注意力模块的结构,多头自注意力模块是设计特征融合网络的基本组成部分。
注意力机制计算公式(1)如下:
(1)
式中;
,
,
表示多维情况下的输入矩阵,除以
是为了缓解梯度消失。
![](//html.hanspub.org/file/21-2571175x21_hanspub.png?20231222095234590)
Figure 9. Structure of multi-head attention module
图9. 多头注意力模块的结构
将注意机制扩展到多个头部,使该机制能够考虑不同的注意分布,并使模型关注信息的不同方面。多头注意机制见下公式(2)、(3):
(2)
(3)
式(2)中,乘以
是为了降低维度,式(3)中
、
、
是没有经过线性变换的
,
,
参数矩阵。
高速公路表面损伤的种类和大小多种多样,同一种类的损伤大小也可能不固定。
纵向裂缝和横向裂缝都呈现独特的特征。纵向裂缝通常颜色较深并从路面突出,而横向裂缝则通常呈现浅色,损坏的地方会出现凹陷。而在有些情况下,这些裂缝可能呈现灰色,并在内部具有网状的纹路。
鳄鱼裂缝的特征是连续的裂缝成簇出现并集中在某个局部区域。这类裂缝通常形状复杂,呈现出网格形状,呈浅灰色,影响区域较大。
而对于坑洞,这类损伤通常会在整个车道上产生明显的影响。坑洞的表面覆盖着明显的颜色变化,深度较大的坑洞是黑色的,较浅的坑洞呈现黄色。
3.3. SE注意力机制
在本研究中,引入了一种改进的Squeeze-and-Excitation (SE)注意力机制,并将其集成到YOLOv5模型中,以提高道路裂缝检测系统的性能。SE注意力机制的基本原理是通过动态调整每个通道的特征权重,以显式建模模型的注意力,使模型能够对输入特征图的不同通道给予不同的重视程度。
然而,针对复杂的道路裂缝特征,传统的SE注意力机制可能存在捕捉信息不充分的问题。为了解决这个问题,本文对SE注意力机制进行了以下改进。
在YOLOv5的网络结构中,选择了一些关键的位置,在这些卷积层之后插入了改进的SE模块。这些位置主要是一些降采样层之后的位置,因为这些位置的特征图包含了更丰富、更高层次的信息。本文的改进策略主要是通过SE模块动态地调整这些高级特征的权重,以优化模型的表现。在这种情况下,特征权重调整可以被表示为:
(4)
式中;F代表原始输入的特征图,avgpool代表全局平均池化,FC代表全连接层,ReLU是非线性激活函数,Sigmoid是将权重映射到0~1之间的激活函数,
为对应的权重。
本文在SE模块中进行了进一步的改进。首先调整了全连接层的大小,使其更适合处理道路裂缝检测任务的特性。然后,在SE模块中添加了一些额外的层,例如归一化层,以进一步增强模型的性能。本文的改进策略主要是通过增加模型的深度,以改进模型的特征提取能力。
在训练过程中,采用了端到端的训练策略,使得整个网络能够进行联合优化。这样,网络不仅能够优化单个卷积层或SE模块,而且能够优化整个特征表示,从而在整个系统上提高道路裂缝检测的性能。在这种情况下,整个网络的优化目标可以表示为:
(5)
其中
为分类损失,
为位置回归损失,
为SE模块的损失,
和
是权重系数,用于控制不同损失之间的相对重要性。
总的来说,通过在YOLOv5中集成改进的SE注意力机制,期望模型能够更好地捕捉和利用道路裂缝的特性,从而提高道路裂缝检测的准确性和鲁棒性。这种结合深度学习和注意力机制的策略,为进一步提高道路裂缝检测系统的性能提供了一种有效的途径。
4. 实验结果与讨论
4.1. RDD2020道路裂缝数据集
RDD2020数据集包括26,336幅来自印度,日本,捷克共和国的公路受损情况的图片,并对其进行了标签。其中包含纵裂裂纹、横裂裂纹、鳄鱼裂纹、凹坑四个类别。数据集中除了包含损坏的道路还包含一部分完好的道路的图片,被用来探测虚警。
4.2. 数据增强
由于数据集受到室外光照的影响,在拍摄过程中,会使图像整体亮度分布不均匀,在图像部分位置亮度过亮或过暗,因此需要调整图像的对比度,实现对图像的增强。
(1) 直方图均衡化
图像直方图是表示图像中亮度分布的直方图,描述了图像中每个亮度值的像素数,直方图均衡化是通过改变图像直方图来改变图像中各像素的灰值,把原始图像的直方图变换为均衡的形式,对像素个数较多的灰度值进行扩展,对像素个数较少的灰度值进行并归,从而增大对比度,达到对图像增强的效果。直方图均衡化的数学表达式如式(6)所示:
(6)
式中,
为
的像素数,n为像素总数,k为灰度级数,L为可能出现的灰度级总数。
虽然直方图均衡化后的图像整体亮度提升,但对于图像中地面上过亮的区域更亮,所在过暗的区域没有起到明显的增强效果。
(2) 改进直方图均衡化
针对上述问题,利用自适应阈值的方法对图像直方图均衡化,通过对图像局部对比度的调整使整幅图像的对比度得到增强。
首先将图像分成多个小块,分别计算每个小块图像的直方图,然后根据每个小块图像直方图的峰值,计算每个小块图像的阈值,同时为了防止每个小块图像的对比度过高或者过低,图像子块之间的对比度差距过大从而引入新的噪声。对相邻块的阈值进行插值,使得整幅图像的阈值低于某个限制值。通过动态调整找到图像直方图的某个阈值X,使过高幅值的小块图像直方图降至阈值X,同时对于幅值过低的区域进行填补,通过对整幅图像局部阈值的调整,从而解决图像过亮或过暗的区域对比度没有明显增强的问题。
在自适应直方图均衡化的基础上,对训练集原始裂缝图像进行旋转、随机亮度增强、随机色度增强、随机对比度增强和锐化。经过上述步骤能有效的解决图像过亮或过暗的区域对比度没有明显增强的问题,减小后续图像特征提取的计算量。
4.3. 训练环境和评价指标
为了衡量改进的算法相比原始算法的性能改善情况,本文采用mAP@0.5" target="_self">mAP@0.5、mAP@0.5" target="_self">mAP@0.5:0.95和召回率(R)作为评价指标。
精度(P)为所有的预测出的目标中预测正确的目标所占的比例,数学计算表达式如下:
(7)
召回率(R)为所有标注为正确的目标中预测正确的目标所占的比值,数学计算表达式如下:
(8)
其中,上述两个公式中的参数TP表示预测正确的正面示例数,FP表示预测错误的反面示例数,FN表示预测错误的正面示例数。
平均精度(AP)是衡量训练出的网络模型在单个类别上的优劣的重要指标,数学计算表达式如下:
(9)
式中
表示,P (Precision)和R (Recall)形成的曲线。
所有类别的平均精度(mAP)是衡量训练出的网络模型在每个类别上的平均优劣的重要指标,mAP就是取所有类别上AP的平均值。它通常分为mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5和mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5:0.95,其中,mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5指将IoU设为0.5时,所有类别图片的AP平均值。mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5" target="_self">mAP@0.5:0.95指IoU阈值从0.5到0.95,步长0.05上的平均mAP。IoU是指预测框和真实框的交集部分的面积与预测框和真实框的并集部分的面积比值。IoU和mAP的数学计算表达式如下:
(10)
(11)
4.4. 实验结果分析
本研究中的道路裂缝检测应同时考虑精确度和召回率,原始网络YOLOv5s训练参数如图10,改进后的网络训练结果如图11。
本小节利用mAP、召回率等参数来验证模型的性能,并对检测结果进行评价。为了确认改进后的YOLOv5网络的各组件对最终性能的影响。通过ATCSP模块的整合,mAP@0.5从0.076516提升到0.35236,提高了0.275844,召回率从0.13881提升到0.45422,提高了0.31541。这表明改进后的YOLOv5可以过滤其他级别的特征,并将有用的信息保持在该级别,以提高对小裂缝的检测精度。然后,采用Transformer机制设计了Transformer层模块。它可以增加有用特征的权重,抑制无效特征的权重,利用多头注意结构,提高目标检测的精度。
![](//html.hanspub.org/file/21-2571175x48_hanspub.png?20231222095234590)
Figure 10. Original network training parameter diagram
图10. 原始网络训练参数图
![](//html.hanspub.org/file/21-2571175x49_hanspub.png?20231222095234590)
Figure 11. Improved network training parameter graph
图11. 改进后网络训练参数图
本文给出了每种裂缝的F1评分曲线,以便进行更全面的模型评估。F1分数是精度和召回率的总和平均值,在评估模型时将两者考虑在内。图12显示,当置信水平在0.2和0.4之间时,模型对所有裂缝的平均F1得分都很高,而在置信水平为0.38时,F1平均得分最高,为0.277。结果表明,改进后的YOLOv5能够较好地对4种道路裂缝进行分类,满足实际应用场景的检测需求。
同时做了其他经典单阶段算法的mAP_0.5对比,如SSD、FasterRCNN,结果如下图13所示,效果远不如改进后的YOLOv5算法。这些改进意味着所提出的ATCSP可以在复杂的背景下检测道路裂缝。综上所述,本文提出的改进的YOLOv5算法可以在满足实时检测要求的同时,保持较高的精度水平。实验结果表明,改进的ViT-YOLO网络在高速公路损伤检测方面具有显著优势。FasterRCNN和SSD仅在模型尺寸方面优于所提出的模型,但在精度方面更差,并且具有较低的最终验证精度。此外,ViT-YOLO在其他比较模型中实现了最高的精度和FPS,综上所述,表明复杂度相对较低,所提模型检测速度快,易于在实践中实现。与目前最先进的检测模型相比,该模型的平均精度更高,更适合高速公路图像中的路面损伤检测。
![](//html.hanspub.org/file/21-2571175x51_hanspub.png?20231222095234590)
Figure 13. Experimental results of FasterRCNN and SSD
图13. FasterRCNN和SSD的实验结果
5. 结论
本研究基于高速公路表面裂缝检测的需求,对YOLOv5网络的头部网络进行了改进。引入了双向特征金字塔网络(BiFPN)特征融合结构,自注意力机制和改进的Squeeze-and-Excitation (SE)注意力机制,对原始网络进行了优化。BiFPN相比于FPN及FPN改进型结构,考虑了输入特征不同的分辨率对特征融合的贡献并引入了相应的权值,同时反复进行多尺度特征融合。这种改进在提升召回率的同时,有效地提升了平均精度。引入了Transformer的核心思想,设计了Transformer层模块,增强了模型关注信息的不同方面的能力。改进的SE注意力机制通过动态地调整每个通道的特征权重,对模型的注意力进行显式建模,使模型能够对输入特征图的不同通道给予不同的重视程度。在网络的关键位置插入改进的自注意力模块,有效地调整了这些高级特征的权重,从而在整个系统上提高道路裂缝检测的性能。
通过以上一系列的改进,模型在高速公路表面裂缝检测中的平均精度mAP@0.5提升了0.28。这项成果为高速公路表面裂缝检测的实际应用提供了更高效、更准确的算法方案。在未来的研究中,将进一步优化和完善模型的结构,以期在道路损伤检测方面取得更好的效果。同时也将探索更多新的注意力机制,以提升模型的性能和鲁棒性。
基金项目
盐城市创新创业领军人才项目(yccx2019219);盐城工学院研究生科研与实践创新计划项目(SICX21_XY028);盐城工学院校级科研项目资助(xjr2019029)。
参考文献
NOTES
*通讯作者。