1. 引言
目标检测作为计算机视觉领域的核心研究课题,在智能监控和自动驾驶等应用中发挥着关键作用。近年来,随着深度学习的快速发展,行人检测领域取得了显著进展[1]。传统检测方法中,基于方向梯度直方图和支持向量机(HOG + SVM)的算法因其计算效率而被广泛采用[2],然而该方法在复杂场景下的检测性能(特别是对遮挡情况的处理)存在明显局限[3]。当前研究主要集中在基于深度学习的检测框架,包括以Faster R-CNN为代表的两阶段检测器[4]和以YOLO [5]为代表的单阶段检测器,以及基于Transformer架构的DETR检测模型[6],这些方法在检测精度和鲁棒性方面展现出显著优势。
尽管现有目标检测方法在常规场景下已取得显著进展,但在雨雾等极端天气条件下,检测性能(尤其是对小尺度行人目标)仍面临严峻挑战。研究表明,浓雾天气可导致检测精度显著下降。例如YOLOV8模型在Roboflow Pedestrian Yolo v5 dataset的行人检测准确率为0.98 [7],而在FOG-TRAINVAL数据集上的准确率仅为0.81 [8],此外,雨雾环境会导致行人检测的漏检率显著增加。例如YOLOv5s在CUHK遮挡行人跟踪,ExDark和COCO数据集的mAP值为0.84 [9],而在Foggy Cityscapes [10]数据集上的mAP值仅有0.48 [11]。
值得注意的是,现有公开的数据集在复杂气象条件下的目标检测研究中存在显著局限性。以广泛使用的ACDC [12]为例,如图1所示:其针对行人、自行车和电动汽车等小型目标的标注样本比例较低,且场景相对单一。与此相比,RESIDE数据集[13] [14]包含了足够多的真实图像,这些图像是在真实的雨天和雾天环境下拍摄的。但是不难发现,该数据集在标注质量上存在不足。为缓解上述问题,Sakaridis等人[10]引入合成雨雾的方法,通过物理模型模拟不同雾浓度场景,并有较好的标注质量,但其基于Cityscapes的人工合成方法导致了两个新问题,如图2所示:1) 纹理真实度不足;2) 缺乏动态场景,无法有效模拟真实物理现象,如雨滴运动和车窗水膜。这些局限性直接影响了模型的泛化能力。
综上所述,当前计算机视觉领域亟需构建一个兼具大规模高质量标注的真实雨雾数据集。本研究基于Li等人[13]提出的RESIDE数据集框架,通过系统性的数据优化与标注增强,构建了一个更符合真实物理特性的雨雾数据集。实验结果表明,所构建的数据集在视觉真实性和模型泛化能力方面均有显著提升,为恶劣天气条件下的视觉感知研究提供了更可靠的基准。
Figure 1. ACDC dataset
图1. ACDC数据集
Figure 2. Foggy cityscapes dataset
图2. Foggy cityscapes数据集
2. 相关工作
目前,雨雾天气数据集已在图像去雾和目标检测任务中得到广泛应用。随着研究的深入,这类数据集不断得到补充和完善,为算法在复杂环境下的性能评估提供了重要支撑。Li等人[13]提出了一种全新的单图像去雾基准——真实单图像去雾数据集RESIDE (Realistic Single Image Dehazing)。该数据集不仅包含大规模合成训练集,还专门设计了两套子数据集,分别用于客观质量评估和主观质量评估,为去雾算法的性能验证提供了全面而系统的测试平台。为进一步丰富真实场景下的去雾研究,Ancuti等人[15] [16]相继提出了NH-HAZE和Dense-Haze数据集。其中,NH-HAZE数据集聚焦于非均匀雾霾场景,而Dense-Haze数据集则提供了真实雾霾场景及其对应的无雾参考图像,有效弥补了其他数据集在无雾场景数据方面的不足,为去雾算法的实际应用提供了更具挑战性的测试环境。在语义雾化场景理解(Semantic Foggy Scene Understanding, SFSU)研究中,Sakaridis等人[10]通过先进的雾合成技术构建了Foggy Cityscapes数据集,该数据集包含20,550张精细标注的图像,为复杂天气条件下的计算机视觉研究提供了重要基准。这一工作显著推进了雾天场景理解领域的发展,并为后续研究提供了可靠的数据支撑。
而在当前研究中,尽管已有工作对雨雾天气数据集进行了扩充或提出了类似的数据集,但仍缺乏专门针对雨雾天气下行人目标检测的高质量、高标准数据集。研究人员在开展相关实验时,往往需要自行构建数据集,或通过数据清洗和筛选,从现有资源中提取适合的子集以满足研究需求。这一现状不仅增加了研究成本,也限制了算法的可比性和可复现性。
综上所述,现有的数据集存在的三个关键问题:1) 行人目标标注标准过高,导致雾霾中的模糊小目标被系统性忽略;2) 雨雾天气目标轮廓严重退化,类别分辨界限不明显;3) 大量背景图片中不存在待检测目标却仍被保留。
3. 基准的构建
本数据集基于RESIDE的RTTS (Realistic Task-driven Testing Set)子集构建,通过系统性的重构与优化,其主要是通过对数据集进行系统性数据清洗、精细化重新标注以及多轮次模型训练等关键步骤,以验证实验成果的有效性与可靠性。具体而言,数据清洗旨在剔除空样本,确保数据质量;重新标注则通过人工校验与规则优化,提升标注的准确性与一致性;模型训练阶段,我们采用多种先进算法进行对比实验,以全面评估重构后数据集的训练效果。
3.1. 评测目标与评估维度
本研究从场景多样性、算法兼容性、标注可靠性三个维度出发,构建了一套面向自动驾驶感知任务的雾天数据集评估体系。具体而言:在场景覆盖性验证层面,采用分层随机抽样策略,基于KITTI地理标签构建六类典型雾天场景组合(含城市日间雾、高速夜间雾、植被区轻雾等),通过计算场景特征分布熵值(Scene Entropy Score, SES)量化数据集的场景表征能力。模型兼容性测试环节部署YOLOv8至YOLOv12全系列模型架构,设计渐进式训练方案(baseline → fine-tuning → full-training),动态监测Precision-Recall曲线、mAP@0.5:0.95等14项指标随epoch的变化趋势。为确保数据质量,建立四阶段质量验证体系:首先通过对抗样本检测(FGSM攻击)筛选异常样本,其次采用三独立标注交叉验证,计算标注者间IoU ≥ 0.85的样本直接采纳,争议样本提交仲裁,由计算机视觉专家对模糊目标进行最终判定。
3.2. 检测目标类别再分析与调整
在数据集构建的初步分析阶段,我们对目标类别标注进行了深入审查,识别出以下关键问题并据此调整类别策略:首先,摩托车、电动车与自行车之间存在显著的类间相似性与视觉歧义(例如,轻型摩托车与电动自行车外观难以区分),导致标注判定困难并引入严重的类别争议,威胁标注一致性。其次,行人标注覆盖存在明显不足,初始策略主要关注清晰目标,致使大量模糊、小尺寸、遮挡或低光照状态的行人实例被遗漏,削弱了数据集对现实挑战性场景的表征能力。第三,三轮车作为重要的交通参与者类别在初始体系中完全缺失。此外,初始类别设置包含了汽车等与行人检测核心任务无关的类别,这些类别的存在不仅增加了标注负担,还可能作为噪声干扰模型对行人特征的专注学习。为优化数据集质量、提升模型训练效率并聚焦核心任务,我们实施以下调整:1) 将摩托车、电动车及自行车合并为统一的“两轮交通工具”类别以消除视觉歧义;2) 强制要求标注所有可见行人实例(无论状态或尺寸),确保困难样本覆盖;3) 新增三轮车为独立类别以完善交通参与者多样性;4) 剔除所有与行人检测任务无关的类别(如汽车)。
3.3. 数据集构建
本数据集基于RESIDE的RTTS (Realistic Task-driven Testing Set)子集构建,该子集专门收录真实雾天交通场景图像。在数据筛选过程中,我们首先从4322张原始图像中剔除了重复场景和极端低质量样本;其次基于KITTI地理标签对6类典型场景(包括城市道路、高速公路、居民区等)进行均衡分布;然后通过大气散射模型估算能见度,按照轻雾(>200 m)、中雾(50~200 m)和浓雾(<50 m)以5:3:2的比例进行分层采样;最后通过目标分布优化,确保每张入选图像至少包含1个行人或1个交通工具实例。需要特别说明的是,如图3所示的四轮车辆不属于本研究的检测目标范畴,因此在数据清洗阶段已剔除不包含待检目标的背景图像。
Figure 3. The RTTS dataset without pedestrians
图3. 不包含行人的RTTS数据集
在本研究中,我们观察到数据集中摩托车、电动车和自行车的分类存在显著争议。即便在清晰图像中,这些目标的类别界限模糊,难以准确区分。如图4所示,在雨雾天气条件下,由于图像质量下降、目标特征模糊,这一问题进一步加剧。如图5所示,通过初次标注后的模型预测分析,我们发现这些类别之间存在较高的误检率,严重影响了检测结果的准确性。
Figure 4. Electric bikes and motorcycles in rainy and foggy weather
图4. 雨雾天气下的电动车和摩托车
Figure 5. Images predicted by the training results of the YOLOv8 model
图5. 通过YOLOv8模型训练结果预测的图像
基于此观察,本研究本着提升模型鲁棒性与检测准确性的原则,决定将摩托车、电动车和自行车统一归类为“两轮车”类别。这一策略不仅有效降低了因类别模糊导致的误检问题,还可以增强模型在复杂环境下的适用性与可靠性。
如图6(a)所示,在对原始RTTS数据集的分析中,我们观察到该数据集只标注了清晰的行人目标,大量目标模糊、尺寸较小的行人图像未被标注。然而,在雨雾天气条件下的目标检测任务中,此类小目标恰恰是检测的重点,尤其是在自动驾驶领域,若此类目标发生漏检,可能导致严重后果。因此,本研究特别关注这些未被充分标注的小目标,并对其进行重新标注,以提升模型在复杂环境下的检测性能。
此外,如图6(b)所示,在研究行人检测任务时,原数据集存在的四轮车(汽车)目标的存在对训练效率产生了一定干扰。为了提高模型的训练效率与针对性,本研究决定剔除掉四轮车(汽车)的检测目标,以减少不必要的计算力消耗。
同时,如图6(c)所示,我们还注意到数据集中存在大量未被处理的三轮车图像。鉴于三轮车在实际场景中的重要性,尤其是在特定交通环境下的检测需求,本研究决定对这些目标进行系统性标注,以进一步增强数据集的完整性与实用性。
(a)
(b)
(c)
Figure 6. The RTTS dataset without pedestrians
图6. 不包含行人的RTTS数据集
综上所述,针对行人目标检测任务,本研究选取行人、二轮车(包括电动车、自行车和摩托车)以及三轮车作为主要检测目标。通过系统的数据清洗和精细化标注工作,最终构建了包含2400张图像的评测基准数据集,其中有效图像2399张,背景图像1张。数据集中各目标类别的实例数量分别为:行人7903个、二轮车1665个、三轮车114个。
4. 实验设计与结果分析
4.1. 数据集划分及模型选择
在本研究中,我们构建了一个包含2400张图片的数据集,并将其划分为训练集、测试集和验证集,分别为2000张、200张和200张。YOLO模型在工业部署方向主流模型中最常用的模型,为了评估不同目标检测模型的性能,我们采用了YOLOv8至YOLOv12系列模型进行训练与验证。通过这一实验设计,我们旨在比较这些模型在雨雾天气下行人目标检测任务中的表现,并探讨在雨雾场景下的各个模型的泛化能力与鲁棒性。
4.2. 实验环境
实验操作系统为Windows11、采用GPU型号为RTX 4050显卡,显存6 GB,CPU型号为13th Gen Intel (R) Core (TM) i5-13500H,深度学习框架为PyTorch2.6.0,编程语言为Python-3.9。
4.3. 评价指标
本文评价指标体系涵盖目标检测领域。对于目标检测模型的性能评估,则依据精确率(Precision, P)、召回率(Recall, R)、平均精度均值(Mean Average Precision, mAP)等为指标进行。
精确率与召回率分别从不同角度反映了模型的分类性能:精确率强调预测结果的准确性,而召回率则关注模型对正类样本的覆盖能力。其计算公式可分别表述如下:
其中,TP (True Positive)表示真正例,即模型正确预测为正类的样本数;FP (False Positive)表示假正例,即模型错误预测为正类的样本数。
其中,FN (False Negative)表示假反例,即模型错误预测为负类的样本数。
mAP分为mAP@0.5和mAP@ [0.5:0.95]两种统计方式在目标检测任务中,mAP (mean AveragePrecision)通常采用两种不同的评估方式:mAP@0.5和mAP@ [0.5:0.95]。
对于每个类别,平均精度(AP)的计算公式为:
mAP是所有类别AP的平均值:
mAP@[0.5:0.95]的计算公式为:
4.4. 实验结果与分析
4.4.1. 不同模型与数据集分析对比
在本研究中,我们对YOLOv8、YOLOv9 [17]、YOLOv10、YOLOv11和YOLOv12 [18]模型在同一训练集上进行了训练,并对比了它们在Precision、Recall和mAP (mean Average Precision)等关键指标上的表现,以全面评估模型的性能。因为我们设置了100轮无明显提醒便停止,所以取最后100轮的平均值。具体结果如表1所示。
Table 1. Performance comparison of YOLO series models on the self-made dataset in this study
表1. YOLO系列模型在本研究自制数据集上的性能对比
模型 |
P |
R |
mAP@0.5 |
mAP@0.5~0.95 |
YOLOv8 |
0.697 |
0.611 |
0.648 |
0.298 |
YOLOv9 |
0.694 |
0.608 |
0.648 |
0.313 |
YOLOv10 |
0.616 |
0.500 |
0.551 |
0.262 |
YOLOv11 |
0.619 |
0.548 |
0.573 |
0.274 |
YOLOv12 |
0.682 |
0.598 |
0.630 |
0.296 |
本研究进一步通过跨域性能评估(Cross-domain Performance Evaluation),系统性地对比分析了YOLO系列模型在多个典型雨雾数据集上的检测性能指标,以验证模型在恶劣天气条件下的泛化能力。具体结果如表2所示。
Table 2. Performance comparison of the YOLO series models on other public datasets
表2. YOLO系列模型在其他公开数据集上的性能对比
模型 |
数据集 |
P |
R |
mAP@0.5 |
mAP@0.5~0.95 |
Yolov10m [19] |
Simulated Datasets |
- |
- |
0.395 |
- |
Yolov5 [20] |
RTTS |
- |
- |
0.549 |
0.339 |
Yolov9 |
RTTS |
0.793 |
0.737 |
0.808 |
0.607 |
Yolov8 |
RTTS |
0.800 |
0.480 |
0.729 |
0.479 |
如图7所示,为了进一步评估模型性能,我们对RTTS数据集和本研究所构建数据集上的训练结果进行了对比分析,通过多组图像样本的预测结果比对,系统比较了两个数据集训练效果的差异。
Figure 7. Comparison of the detection effect of the YOLOv8 model on the RTTS dataset and the self-made dataset (in the figure: the left side shows the training results of RTTS, and the right side shows the training results of the self-made dataset in this study)
图7. YOLOv8模型在RTTS数据集与自制数据集上的检测效果对比(图中:左侧为RTTS训练结果示例,右侧为本研究自制数据集训练结果示例)
4.4.2. 检测任务关键性能指标分析
从实验结果可以看出,YOLOv8至YOLOv12模型在本研究自制数据集上的表现均低于其他数据集,无论是准确率(Precision)、召回率(Recall)还是mAP (mean Average Precision)值都处于较低水平。其中,YOLOv8的表现相对较好,但其准确率、召回率和mAP值也仅为0.697、0.611和0.648,均未达到0.700的阈值。这表明模型在正样本识别能力与预测可靠性上存在显著缺陷。此外,mAP@0.5~0.95的值非常低,甚至未达到0.300。
这一结果反映出RTTS数据集等在应对高模糊环境下的行人目标检测训练任务时存在明显局限性。尽管原RTTS数据集标注了雨雾天气下的行人目标,但由于其图像中行人特征仍相对清晰,未能完全模拟高模糊环境下的真实场景。结合图7的实验结果分析,本研究提出的自制数据集更加贴近实际雨雾天气中的低能见度条件,能够更全面地评估模型在复杂环境下的检测能力,这为目标检测领域的研究提供了新的挑战和改进方向。
4.4.3. 失败案例分析
如图8所示,本研究通过实验分析揭示了新数据集存在的两个主要检测缺陷。首先,如图8(a)所示,行人目标检测中出现了大量误检现象,经分析这可能源于负样本覆盖不足,特别是对栅栏、脚手架等具有明显线条结构的背景特征学习不充分所致。其次,如图8(b)和图8(c)所示,三轮车检测表现出较高的误检率和漏检率,这主要是由于数据集中该类别的实例数量不足(仅114个),且未能充分满足KITTI地理标签对6类典型场景的均衡分布要求所导致。
(a)
(b) (c)
Figure 8. Typical error detection on the new dataset
图8. 新数据集上的典型错误检测
5. 讨论
本研究构建的雨雾环境行人检测数据集共包含2400张标注图像。从实验结果来看,这一数据规模虽然能够满足YOLO系列模型的训练需求数量,但对于基于Transformer架构的检测模型(如DETR等)而言则明显不足。这种差异主要源于不同模型架构对训练数据量的需求差异:YOLO系列模型凭借其固有的卷积归纳偏置(convolutional inductive bias),在中等规模数据集上仍能保持相对稳定的表现;而Transformer类模型由于需要学习长程依赖关系,通常需要更大规模的训练数据才能充分发挥其性能优势。
其次,实验结果显示到三轮车(pedicab)类别的识别性能显著低于其他类别,如图9所示,这一现象直接导致了模型在该类别上的准确率(precision)和召回率(recall)等关键指标表现不佳。具体而言,这一问题的成因可归结为以下两方面:首先,数据集中三轮车类别的标注样本数量存在显著不足,这限制了模型在训练过程中对该类别特征的充分学习,进而影响了其泛化能力;其次,原始图像的低分辨率导致三轮车的形态特征难以被清晰捕捉,同时其与两轮(cycle)交通工具在结构上存在较高的相似性,进一步加剧了类别间的混淆问题。这种特征混淆现象在低质量图像条件下尤为突出,不仅降低了模型的分类精度,还增加了误判的可能性。上述因素的综合作用显著制约了三轮车类别的识别效果,成为模型整体性能提升的主要瓶颈之一。
(a)
(b)
(c)
(d)
Figure 9. Statistical example of YOLO v8 training results
图9. YOLO v8训练结果统计示例
6. 总结与展望
本研究围绕雨雾天气下的行人目标检测任务展开,针对YOLO系列模型在复杂气象条件下的检测性能与局限性,构建并优化一个包含2400张图像的自制数据集,我们对YOLOv8至YOLOv12模型进行了系统性训练与评估。实验结果表明,尽管YOLO系列模型在常规场景下表现优异,但在高模糊环境下的行人检测任务中,其准确率、召回率以及mAP等关键指标均未达到理想水平。
针对这些问题,本研究提出了针对性的改进策略,包括清洗现有雨雾天气下的数据集、补充低分辨率的三轮车样本以及重新构建基准数据集等。这些措施旨在提升模型在复杂环境下的泛化能力与检测精度。
而针对三轮车实例数不足问题,本研究提出以下改进方向:首先,可探索跨域迁移学习,利用其他交通场景数据集中的三轮车样本进行知识迁移;其次,引入代价敏感学习机制,在损失函数中为三轮车类别分配更高的权重系数;此外,可采用基于生成对抗网络(GAN)的数据增强方法,通过StyleGAN等模型合成不同视角和雾浓度下的三轮车样本。这些方法有望显著缓解类别不平衡问题,提升模型对少数类别的检测性能。
此外,就目前公开的数据集而言,未来研究需着重提升动态模糊建模的关键维度。在运动模糊梯度方面,亟待构建包含变速运动(加速/减速)行人的数据集,以更准确地捕捉非线性模糊特征。能见度动态衰减的建模应摒弃简化的离散等级,转向基于连续指数函数的表征方法,从而真实反映雾气密度变化对能见度的影响规律。对于瞬态干扰(如车辆溅水),亟需开发更高采样频率的捕捉方案,以确保能完整记录其短暂而复杂的动态演变过程。突破这些技术瓶颈将显著提升模型在真实雨雾场景中对动态模糊特性的建模精度。
综上所述,本研究不仅构建了雨雾天气下的行人检测基准数据集,弥补了现有数据在复杂气象条件下的不足,同时提出了针对此类数据集相应的优化方向。相关成果可为自动驾驶、智能监控等实际应用提供更可靠的行人检测技术支持,对提升恶劣天气下的交通安全与智能系统性能具有重要价值。