1. 引言
随着自动驾驶技术的快速发展,交通标志检测系统已[1]成为智能车辆环境感知体系的核心组件。作为道路基础设施的重要组成部分,交通标志[2]通过图形符号传递限速、转向、警示等关键信息,直接影响行车安全与交通管理效率。据统计,全球每年因驾驶员误判或忽视交通标志导致的交通事故占比超过12%,而准确率低于95%的检测系统可能引发每秒数米的车辆定位偏差。因此,开发具备实时性、高鲁棒性的交通标志检测算法[3],对推动智能交通系统(ITS)落地具有迫切需求。
目前交通标志的检测方法主要有两种:基于传统特征提取的方法和基于深度学习的方法。传统交通标志检测方法主要依赖人工设计的特征提取与模式识别技术,其核心思想是通过颜色、形状、纹理等先验知识构建特征描述子,结合分类器实现标志定位与识别。在复杂环境下识别准确率低、识别速度慢,不能满足检测需求。近年来,深度学习技术的突破为目标检测领域带来范式变革。基于深度学习的目标检测算法主要分为两类,一类是两阶段算法,典型的有R-CNN [4]、Fast R-CNN [5]、R-FCN [6]、Mask R-CNN [7]等算法,通过“候选框生成 + 精细检测”两步骤实现高精度定位与分类,但计算复杂度较高,推理速度较低,适用于对实时性要求不严苛的场景(如医学图像分析);另一类是单阶段算法,以YOLO [8]和SSD [9]算法为代表。单阶段目标检测算法通过端到端架构直接预测目标位置与类别,摒弃传统两阶段方法中的候选框生成步骤,大幅提升检测效率。其核心思想是将检测任务建模为密集网格回归问题,通过锚框机制在图像网格单元中直接回归边界框坐标、置信度及类别概率。YOLO算法将输入图像划分为S × S网格并利用多尺度特征图进行预测,结合全局上下文信息实现高效检测,其中YOLOv5/v8通过优化特征融合与损失函数,在COCO数据集上以45%的mAP和超过30 FPS的速度平衡精度与实时性。单阶段算法凭借高计算效率广泛应用于自动驾驶[10]、视频监控等实时场景,但其轻量化需求(如采用MobileNet主干网络)与模型压缩技术(如量化、剪枝)的结合,仍是平衡边缘设备部署中精度与速度的关键挑战。
2. YOLOv8算法
YOLOv8 (You Only Look Once version 8)是Ultralytics公司于2023年推出的目标检测算法,其结构模型如图1所示,作为YOLO [11]系列的最新一代模型,它在速度、精度和易用性之间实现了进一步平衡。该模型继承YOLO系列核心架构,通过改进特征金字塔网络和损失函数策略,在PASCAL VOC、COCO等基准数据集上的实验表明,其单阶段检测架构有效平衡了计算效率与检测精度。
Figure 1. YOLOv8 model
图1. YOLOv8 结构图
2.1. 主干结构
该模型的主干网络主要由Conv模块、C2f (Cross Stage Partial Fusion)模块、SPPF (Spatial Pyramid Pooling-Fast)模块组成。基础卷积模块由卷积层、批归一化层与SiLU激活函数构成,典型配置为3 × 3核、步长2和64输出通道,兼顾特征提取效率与训练稳定性。批归一化层通过标准化处理加速收敛,而SiLU函数增强非线性表达能力。
跨阶段特征融合单元采用双分支结构优化计算效率:短连接分支保留原始特征,另一分支通过堆叠Bottleneck层提取高阶语义信息,最终融合两路特征实现梯度流优化。此设计通过减少冗余计算提升推理速度,同时增强多层级特征复用能力。
末端的多尺度池化组件采用级联策略聚合不同感受野特征:并行执行5 × 5、9 × 9、13 × 13池化操作后,通过拼接与卷积压缩整合多尺度上下文信息。相比传统金字塔池化结构,其计算效率提升显著,尤其在小目标检测任务中精度优势明显。
整体架构通过模块协同实现精度与速度平衡:基础模块保障特征提取鲁棒性,融合单元强化梯度传播,池化组件提升多尺度表征能力,最终在复杂场景中达成高效检测目标。
2.2. 颈部结构
目标检测模型的颈部结构承担着多层级特征整合与优化的关键功能。其核心设计通过多模块协同实现跨尺度信息融合,以增强检测任务的特征表达能力。其中,特征金字塔网络(FPN)模块通过双向跨层连接机制,将高分辨率低阶特征与深层高阶语义特征进行融合,构建具有丰富多尺度信息的金字塔结构。这种架构使得浅层特征保留细节纹理,适用于微小目标识别,而深层特征携带全局语义,助力大目标定位,二者互补显著提升模型尺度适应性。
在特征处理流程中,通道扩展模块率先对主干网络输出进行通道维度调整,通过卷积操作扩展特征图容量,为后续处理提供充足的特征空间。紧随其后的特征复用模块采用双分支拓扑结构:主支路保留原始特征传递路径,支路通过多层非线性变换结构提取高阶语义,最终通过通道维度拼接实现特征复用。这种设计在减少计算量的同时,增强了对交通标志边缘纹理的表征能力。
多级模块的堆叠式应用进一步强化特征交互,通过重复执行通道调整、特征复用和跨尺度融合操作,构建递进式的特征增强机制。最终,优化后的多尺度特征被输送至检测头,其中高层特征负责大目标粗定位,中层特征平衡语义与细节,底层特征专注微小目标捕捉。有效平衡了精度与效率的工程化需求。
2.3. 检测头
目标检测模型的头部结构承担着特征解码与预测任务的核心功能,其设计直接影响最终检测精度与推理效率。在典型框架中,多层级特征首先经过通道调整层处理,通过3 × 3卷积与SiLU激活函数增强局部特征表达能力,同时保持空间分辨率不变。针对分类与回归任务的差异性,模型采用任务解耦机制,通过独立分支网络分别优化类别概率预测和边界框坐标回归,实验表明该策略可使检测精度提升约3.5%。在回归分支中,模型摒弃传统锚框机制,采用中心点直接预测方法,通过输出目标宽高与中心偏移量简化计算流程,减少参数冗余。
损失函数设计方面,引入复合交并比优化策略(CIoU),综合考虑边界框重叠区域、中心点距离及宽高比匹配度,有效缓解倾斜目标的定位偏差问题。针对预测结果的后处理,基于置信度阈值与空间重叠度评估的非极大值抑制算法(NMS)被用于消除冗余检测框,优先保留高置信度预测结果。此外,通过动态权重分配机制平衡不同尺度目标的损失贡献,提升小目标检测的敏感性。整体架构通过模块化协同优化,在工业级硬件平台上实现了精度与效率的工程化平衡。
3. YOLOv8n算法改进
3.1. 轻量化改进
在道路交通标志检测中,实时性尤为重要。为了提升检测过程中的速度,将YOLOv8n中的传统卷积模块Conv被轻量化卷积模块GhostConv替换,基于此,YOLOv8对原始模型的C2F结构进行改造,用GhostC2f来替代C2F。GhostNet由华为诺亚方舟实验室提出,是一种面向移动端与嵌入式设备的高效轻量化网络架构。其核心创新在于Ghost模块,通过“特征冗余利用”思想重构传统卷积:将输入特征拆分为“本征特征”与“Ghost特征”,前者通过少量常规卷积提取核心信息,后者利用低成本深度卷积或线性变换生成冗余特征,最后拼接两部分结果作为输出。该设计显著降低计算量,例如生成相同数量特征图时,Ghost模块的计算成本仅为传统卷积的1/4。GhostConv的基本结构如图2所示。
Figure 2. The basic architecture of GhostConv
图2. GhostConv的基本结构
3.2. SPPF-LSKA改进
SPPF (Spatial Pyramid Pooling Fast)模块是YOLOv8主干网络(Backbone)的关键组件之一,位于特征提取网络的末端,负责聚合多尺度上下文信息,增强模型对不同尺寸目标的检测能力。其核心功能是通过多级池化操作融合不同感受野的特征,提升模型在复杂场景(如小目标密集、目标尺度变化大)下的鲁棒性。SPPF模块是对传统SPP (Spatial Pyramid Pooling)的优化版本,主要改进在于计算效率与特征融合方式。SPPF-LSKA (Spatial Pyramid Pooling Fast with Large Selective Kernel Attention)是一种结合了多尺度池化与大选择性核注意力的复合模块,旨在提升目标检测和图像识别任务中对多尺度目标、复杂背景的特征提取能力。LSKA [12]注意力机制(Large Kernel Attention)是一种高效的大核注意力模块,旨在通过扩展感受野捕获长距离依赖关系,同时避免传统大核卷积的计算负担。其核心设计将大核卷积分解为深度卷积(Depthwise Convolution)与自适应空洞卷积(Dilated Conv)的组合,在保持大尺度上下文感知能力的前提下,将计算复杂度降低至传统方法的1/4。LSKA通过动态通道权重调整聚焦关键区域,在图像分类、目标检测任务中显著提升模型对复杂背景与微小目标的区分能力,适用于自动驾驶、医学影像等需高分辨率输入的实时场景。因此,本文在YOLOV8基础模型SPPF模块中引入LSKA注意力机制用于增强对多尺度目标的特征表达能力,得到SPPF-LSKA,如图3所示
(a) LSKA (b) SPPF-LSKA
Figure 3. SPPF-LSKA
图3. SPPF-LSKA
3.3. 损失函数改进
YOLOv8模型采用的CIoU (Complete Intersection over Union)损失函数是一种针对边界框回归优化的高级损失计算方法,旨在提升目标检测的定位精度。CIoU在传统IoU (交并比)的基础上,综合了三个关键因素:重叠区域面积、中心点距离和宽高比一致性,从而更全面地衡量预测框与真实框的匹配程度。相较于早期版本,CIoU通过引入宽高比惩罚项,解决了目标形状不一致导致的定位偏差问题。但其仍存在动态场景适应性不足、对极端尺度目标敏感等不足。因此本文选择引入SIoU (Shape-Enhanced Intersection over Union)替换原始模型的CIou,提高模型的检测效果。其计算公式如下,其中
表示预测框与真实框的角度差异惩罚项;
代表预测框和真实框代表预测框与真实框中心点欧氏距离的平方;
代表最小包围框的对角线长度;
和
代表预测框的宽高,
和
代表真实框的宽高。
(1)
3.4. 改进后的YOLOv8结构
针对交通标志检测对实时性与精度的双重需求,本文提出一种基于轻量化架构与注意力增强的目标检测模型优化策略。在模型效率优化方面,采用轻量化卷积模块GhostConv替代传统卷积层,同时,重构跨阶段特征复用模块(C2f),用GhostC2f去替代,加速模型推理过程。在精度提升维度方面,设计多尺度通道注意力检测头(SEAMHead),并且进一步优化边界框回归损失函数,采用SIoU损失函数替代传统CIoU损失函数。最终改进后的YOLOv8结构如图4所示
Figure 4. Improved YOLOv8 structure
图4. 改进后的YOLOv8结构
4. 实验结果与分析
4.1. 实验环境及参数设置
本文采用云服务器平台AutoDL提供的算力进行模型训练。实验环境为,硬件配置:CPU为16 vCPU Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz,运行内存为120 GB。GPU型号是单张显存为24GB的RTX 4090;采用Pytorch1.11.0框架,Python3.8,Cuda11.3作为实验环境。整个训练过程分为300个epoch进行,批次为16,初始学习率为0.01,动量大小为0.937,权重衰减系数为0.0005。
4.2. 数据集及数据扩充
本实验使用清华–腾讯100K (TT100K) [13]数据集,这是清华大学和腾讯联合创建的大规模交通标志识别数据集。TT100K数据集由9176张大小为2048 × 2048的高分辨率图像组成,涵盖了151种不同类型的道路交通标志。该数据集的丰富种类很适合卷积神经网络的特征学习机制。但该数据集存在图片数量不均衡现象,一些类别(如禁令标志)样本量达千张,而部分类别有效样本不足十例,并且数据集目标尺寸分布存在结构性失衡。因此为了确保有效的模型训练,需要对该数据集进行预处理。在本文中,使用了旋转图片(如图5)、调整图片亮度(如图6)、增加检测目标(如图7)三种数据增强方法,以提升模型在复杂场景下的鲁棒性和适应性。除此之外,本文还随机组合使用这三种数据增强方法进行数据增强,每次数据增强时随机选择是否应用旋转、亮度调整以及增加检测目标这三种方法中的一个、两个或全部三种。通过这种方式,每张图片在增强过程中都有机会经历不同的变换组合,从而大大增加了数据的多样性。最终得到增强后的数据集由11584张图像组成,训练集中有8901张图像,测试集中有2683张图像。
Figure 5. Image rotation
图5. 图像旋转
Figure 6. Image brightness adjustment
图6. 图像亮度调整
Figure 7. Add detection target
图7. 增加检测目标
4.3. 评价指标
在本文中,主要涉及到的评价指标有P (Precision)精确度、R (Recall)召回率、AP (Average Precision)平均精度、mAP (Mean Average Precision)平均精度均值等指标。精确度P的计算公式如式(2)下,其中TP (True Positive)是指正确检测的正样本数,FP(False Positive)是指代表误检为目标的负样本数。
(2)
召回率R的计算公式如式(3)所示,其中FN(False Negative)代表模型漏检的正样本数,
(3)
平均精度AP的计算公式如式(4)所示。
(4)
平均精度均值mAP的公式如式(5)所示,N代表类别总数,该指标是AP的均值,用于评价模型的整体性能。
(5)
4.4. 实验结果
本文对YOLOv8n模型进行了改进,通过引入不同的模块来提升模型的检测速度和准确率,并对改进后的模型进行了性能评估。为验证模型改进后的效果,在训练集、验证集和测试集上进行实验,结果如表1所示。
Table 1. Comparison table of ablation experiment data
表1. 消融实验数据对照表
Model |
YOLOv8n |
Ghost (G) |
SPPF-LSKA (SL) |
SIoU (S) |
mAP (%) |
Parameters |
Model |
YOLOv8n |
Ghost (G) |
YOLOv8n |
√ |
|
|
|
68.8 |
3.02 |
8.2 |
6.1 |
4.3 |
YOLOv8n-G |
√ |
√ |
|
|
66.4 |
1.73 |
5.2 |
3.6 |
2.7 |
YOLOv8n-SL |
√ |
|
√ |
|
72.9 |
3.29 |
8.5 |
6.5 |
4.6 |
YOLOv8n-S |
√ |
|
|
√ |
72.7 |
3.02 |
8.2 |
6.1 |
4.4 |
YOLOv8n-GSLS |
√ |
√ |
√ |
√ |
72.3 |
2.13 |
5.9 |
4.0 |
3.1 |
实验结果表明,不同改进策略对目标检测模型的性能产生显著差异。引入Ghost模块的轻量化改进模型(YOLOv8n-G)在参数规模(1.73 M)、计算量(5.2 × 109)及模型体积(3.6 MB)方面较基线模型压缩显著,推理速度提升至2.7 ms,但其检测精度(mAP)出现约1.6%的轻微下降,表明轻量化设计虽能有效降低资源消耗,但需辅以特征增强机制缓解精度损失。相比之下,嵌入SPPF-LSKA模块的多尺度感知模型(YOLOv8n-SL)通过大感受野特征融合,将mAP提升至72.9%,但代价是参数量增至3.29 M、计算量升至8.5 × 109,模型体积扩展至6.5 MB,推理延迟增至4.6 ms,适用于算力充裕的高精度需求场景。值得注意的是,仅采用SIoU损失函数优化的模型(YOLOv8n-S)在不增加参数规模(3.02 M)与计算量(8.2G FLOPs)的前提下,使mAP达到72.7%,验证了损失函数设计对定位精度提升的有效性。最终的综合改进模型(YOLOv8n-GSLS)集成轻量化架构、多尺度感知与损失函数优化策略,在精度(72.3% mAP)、效率(3.1 ms)与资源消耗(2.13 M、5.9 × 109)间实现均衡,模型体积压缩至4.0 MB。这一结果表明,模型在保持较高检测精度的同时,实现了参数量、计算量和模型大小的减少,以及推理速度的提升,展现了较好的性能平衡。
为了直观地对比本文YOLOv8n-GSLS模型改进的效果,本文特选取了三组图片进行各个模型的效果对比,对比的结果如下图8所示。
(a) YOLOv8n (b) YOLOv8n-GSLS
Figure 8. Comparison of detection results before and after improvements
图8. 改进前后检测效果对比
由图可知,原始YOLOv8n模型与改进型YOLOv8n-GSLS模型在交通标志检测任务中均表现出优异的识别精度,且均未出现漏检现象。然而,深入分析显示,优化后的YOLOv8n-GSLS模型在多数测试场景中展现出更优的综合性能:其检测框定位精度与分类置信度较基线模型均有所提升。这些结果充分验证了本文提出的轻量化架构优化与多尺度特征增强策略的有效性,证明YOLOv8n-GSLS模型在交通标志检测任务中具有更强的工程化优势。
4.5. 主流模型对比实验
为验证本文所提出算法的优越性,将本文改进后的算法与目前主流的交通标志检测算法进行对比,选取YOLOv8n、YOLOv5n、YOLOv6n、YOLOv9n与本文改进算法进行对比实验,从平均精度(mAP)、参数量、计算量(GFLOPs)、模型大小和推理速度五个维度进行评估。实验结果如表2。
Table 2. Algorithm comparison
表2. 算法对比
模型 |
mAP (%) |
Pa-rameters |
GFLOPs (10) |
Size (MB) |
mAP (%) |
YOLOv8n |
68.8 |
3.02 |
8.2 |
6.1 |
4.3 |
YOLOv5n |
65.1 |
2.51 |
7.2 |
5.3 |
4.4 |
YOLOv6n |
66.8 |
4.24 |
11.9 |
8.7 |
5.6 |
YOLOv9n |
67.5 |
7.30 |
27.4 |
28.7 |
12.5 |
YOLOv8n-GSLS |
723 |
2.13 |
5.9 |
4.0 |
3.1 |
5. 结束语
本研究针对现有交通标志检测模型在复杂场景下小目标识别精度不足及背景干扰引发的漏检问题,提出一种以YOLOv8n为框架[14]的优化检测模型。通过引入多尺度特征增强机制与动态注意力引导策略,强化模型对微小标志的纹理捕捉能力及复杂环境下的抗干扰性能。实验结果表明,改进模型在交通标志数据集上的平均精度均值(mAP)达到72.3%,相较基线模型性能提升3.5%,并且参数量相较原模型也大大减少。后续将同时推进算法在嵌入式硬件平台(如Jetson Orin)的工程化部署,为自动驾驶系统的实时环境感知提供高可靠技术支撑。
NOTES
*通讯作者。