1. 引言
随着电子商务物流规模的指数级增长,仓储安全管理已成为保障供应链稳定运行的核心环节。据统计,全球电商行业因火灾导致的年均经济损失超百亿美元,而传统火灾检测技术(如烟雾传感器、红外对射装置)在复杂仓储场景中暴露出显著缺陷:其一,烟雾传感器易受粉尘、蒸汽干扰,误报率高达30%以上[1] [2];其二,基于固定阈值的温度监测无法有效识别早期火情,响应延迟常超过5分钟,错失黄金救援时间[3]。尽管基于深度学习的视觉检测技术[4]为电商物流仓储火灾防控提供了新的技术路径,但其在实际落地过程中仍面临多重技术瓶颈:小尺度目标识别精度不足成为制约早期火情发现的关键难题,例如火焰初燃阶段的火苗尺寸通常小于10 × 10像素,在1080p监控画面中占比不足0.1%,现有模型因特征提取粒度不足导致漏检率高达40% [5]-[7];动态复杂环境干扰则显著降低检测鲁棒性,密集货架造成的视觉遮挡、移动叉车等动态物体的交叠干扰,使得传统检测模型的误检率提升;实时处理性能与资源消耗的失衡矛盾进一步限制技术落地,当前主流检测算法如Fast R-CNN [8] Jetson Nano边缘设备上处理1080p视频流的帧率不足15 FPS,而仓储安全标准要求响应延迟必须控制在200 ms以内,这对模型轻量化设计提出了严苛要求。如何突破“小目标敏感性–环境鲁棒–计算效率”的三角制约关系已成为智能仓储安防领域亟待攻克的技术高地。
针对上述挑战,YOLO系列模型因其卓越的实时性能成为研究热点。YOLOv5 [9]通过跨阶段局部网络(CSPNet)优化了检测速度,但在小目标检测精度上仍落后于Faster R-CNN等两阶段模型[10];YOLOv7 [11]引入扩展高效层聚合网络(E-ELAN)提升特征复用效率,却因模型复杂度增加难以适配边缘计算设备。此外,SSD (Single Shot MultiBox Detector) [12]作为一种经典的单阶段目标检测算法,以其快速的检测速度和较高的效率在实时目标检测领域占据重要地位。SSD通过在不同尺度的特征图上进行目标检测,能够有效处理不同大小的目标,但其在小目标检测方面也存在一定的局限性。与YOLOv5和YOLOv7相比,SSD在检测速度和精度上各有优劣,但在处理小目标时可能会产生更多的误判。现有改进方案如添加注意力机制[13]和多尺度特征融合[14],虽部分缓解了精度与速度的矛盾,但未系统性地解决电商仓储场景下的动态干扰与泛化需求。
本文提出了一种基于改进YOLOv10 [15]的电商物流仓储火情实时监测算法(Fire-YOLOv10),旨在通过多模态特征融合与轻量化架构设计,实现高精度、低延迟的火灾预警。该算法的核心创新之处在于构建了一个多尺度动态感知网络,该网络融合了浅层的高分辨率特征与深层的语义特征,并结合可变形卷积(Deformable Conv) [16] [17]技术,显著增强了对小目标(尺寸小于10 × 10像素)的几何形变建模能力。此外,算法引入基于神经能量理论的无参数SIMAM (Simple Parameter-Free Attention Module)注意力模块[18] [19],通过动态能量函数生成跨通道–空间的联合注意力权重,在抑制货架纹理、移动车辆等背景噪声的同时,显著提升火情区域的特征显著性。为了进一步优化性能,Fire-YOLOv10通过引入MPDIoU (Minimum Point Distance Intersection over Union)损失函数,结合SIMAM的零参特性与通道剪枝技术协同压缩计算开销,提升模型在Jetson Nano上的推理帧率。本文通过构建多尺度动态感知网络优化特征融合,通过SIMAM模块实现复杂场景下的动态特征增强,通过轻量化设计突破边缘设备性能瓶颈,最终使电商物流仓储火情实时监测算法(Fire-YOLOv10)在精度、鲁棒性和实时性上实现协同优化。
2. Fire-YOLOv10模型
本文提出的Fire-YOLOv10模型的总体框架见图1所示,该模型是基于YOLOv10的改进模型,主要有如下三点改进。第一点是采用可变形卷积模块,针对火苗,烟火等小目标的检测能力做出优化。第二点引用SIMAM注意力模块,使用的是无参数的模块,通过动态能量函数生成跨通道–空间的联合注意力权重,注意力权重能够在抑制背景噪声的同时捕捉火情区域的特征。第三点是采用MPDIoU损失函数,通过联合优化预测框与真实框的重叠区域与中心点距离,提高推理帧率。
2.1. 可变形卷积模块
在本研究中构建了一种基于动态可变形卷积v2 (DCNv2)模块的目标检测优化框架,通过重构YOLOv10的特征提取机制,构建多粒度形变感知网络。DCNv2能够动态学习特征采样点的空间偏移量与调制系数,突破传统卷积的几何结构限制。其主要通过以下三步进行实现:首先输入特征图
通过共享的偏移量卷积层生成形变参数:
(1)
其中前
为空间偏移量
,后
为经Sigmoid激活生成的调制系数
,
为卷积核尺寸。
其次进行动态特征采样:对每个输出位置
,基于偏移量对输入特征进行双线性插值采样,并施加调制权重:
(2)
其中
为预设卷积坐标。
可学习权重。
Figure 1. Fire-YOLOv10 network architecture diagram
图1. Fire-YOLOv10网络结构图
最后采用零中心初始化策略和L1正则化项
。抑制无效便宜量,提升计算效率。
具体在YOLOv10框架中,通过多层级融合策略嵌入主干网络与检测头,重构C2f结构中的标准Bottleneck为可变形版本,构建多粒度形变感知单元,使得每个Bottleneck_DCN包含两级DCNv2操作,首层卷积提取局部形变特征,次层卷积实现跨通道特征融合。最终通过结合可变形模块和针对CSP架构的跨阶段特征交互优化模块构建改进C2f模块C2fDCN,在YOLOv10中实现增强模型对小目标的检测能力、降低计算冗余和是被边缘设备部署的实时性需求。
2.2. SIMAM注意力模块
本研究在YOLOv10架构上加入了SIMAM注意力模块,通过捕捉和优化空域和通道域特征响应分布,构建自适应特征增强网络。SIMAM是基于神经科学启发的能量函数理论,其核心创新在于可以通过定义特征图中每个位置的能量函数,采用最小化能量指导注意力权重学习;同时捕获空间显著性和通道间依赖关系而无需可学习参数;根据特征局部统计特性动态调整注意力分布,实现自适应特征增强。
SIMAM的核心思想是基于图像的局部自相似性。在图像中,相邻像素之间通常具有较强的相似性,而远距离像素之间的相似性则较弱。SIMAM利用这一特性,通过计算特征图中每个像素与其相邻像素之间的相似性来生成注意力权重首先是对输入特征图进行LayerNorm标准化处理:
(3)
其中
、
。分别为特征图的均值和标准差,
。为数值稳定项。
然后在局部窗口(默认为3 × 3)内计算每个位置的能量值:
(4)
其中为局部窗口均值;
为窗口内像素总数;
为能量缩放因子。
再次能量倒推导注意力权重,能量越低的位重响应越强:
(5)
其中
为局部窗口方差。
最后进行特征增强输出,对施加Sigmoid激活的注意力权重:
(6)
其中
表示逐元素相乘,
为Sigmoid函数。
在YOLOv10框架中,SIM.M以即插即用方式嵌入关键特征传递路径,在主干网络的末端加入SIMAM层,增强高层语义特征的空间聚焦能力,抑制背景噪声。通过DCNv2增强局部几何适应性并结合SIMAM全局优化特征能量分布,突出关键语义区域,协同提升针对小目标检测的平均精度均值。
2.3. MPDIoU损失函数
本研究在YOLOv10框架中加入了MPDIoU损失函数,通过联合优化边框的重叠区域对齐、中心点定位于角点距离约束,构建多维度几何感知损失函数。其核心思想包含为如下三部分:
首先是重叠区域优化(IoU):保持传统IoU预测框与真实框交并比的约束:
(7)
其次是中心点距离惩罚项:最小化两框中点的归一化欧氏距离:
(8)
其中
为欧氏距离,c为最小闭包区域对角线长度。
(9)
可选角点距离正则项,约束预测框四角点与真实框的绝对距离均值:
(10)
其中
表示预测框角点坐标,
为真实框对应角点。
最后完整损失函数公式综合三项优化目标,MPDIoU的最终表达式为:
(11)
在YOLOv10的检测头模块中,将默认CIoU损失替换为MPDIoU,通过多维度几何约束机制,在YOLOv10框架中实现联合IoU、中心点及角点约束,提升复杂场景下的框回归质量的精准定位提升;加快收敛速度和减少训练周期的训练效率提升;以低计算开销和量化兼容性适配实时检测的友好边缘部署,最终为高精度目标检测系统提供更优的优化目标。
3. 实验
3.1. 实验环境与评价指标
实验在一台搭载12th Gen tel(R) Core(TM) i5-12400F 2.50 GHz处理器和NVIDIA GeForce RTX 4060显卡的计算机上进行,操作系统为Windows。本文使用了D-Fire [20]数据集,这是专为火灾检测任务设计的多模态动态数据集,针对传统火灾数据集的不足进行了三大增强:动态火情模拟,包含火焰从萌发、蔓延到熄灭的全生命周期;多传感器融合,同步采集可见光(RGB)、红外(Thermal)和烟雾浓度(PM2.5/PM10)数据;极端场景覆盖,工业火灾、森林火灾、室内电器起火等6大类场景。最终数据集包含26,557张图片,涉及火苗和烟火的场景。此外,设置数据集的训练集和测试集的比例为8:2,以确保模型的泛化能力。
Table 1. Fire-YOLOv10 model hyperparameter values
表1. Fire-YOLOv10模型超参数取值
超参数 |
值 |
|
0.01 |
|
SiLU |
w |
5e−4 |
H × W |
640 × 640 |
B |
32 |
在本研究中,本文对模型的超参数(见表1)进行了细致的调整,以确保模型在推荐任务上达到最佳性能。初始学习率
控制梯度下降步长,影响模型收敛速度。激活函数
设置为非线性变换函数,影响特征表达能力。权重衰减系数w是一种正则化技术,用于减少模型的复杂度,防止过拟合。批量大小B和输入分辨率H × W共同影响训练的精度与速度。
mAP@0.5 (平均精度,IoU阈值 = 0.5)是衡量模型在IoU (交并比)阈值为0.5时的检测精度,反映基础检测能力。值域[0, 1],越接近1表示性能越好。mAP@0.5的计算公式如下:
(12)
mAP@0.5:0.95 (多阈值平均精度)是在IoU阈值从0.5到0.95 (步长0.05)范围内计算的平均精度,综合评估模型对不同重叠率目标的鲁棒性。mAP@0.5:0.95的计算公式如下:
(13)
FPS (帧率,Frames Per Second)是模型每秒处理的图像帧数,衡量实时性。值越高代表速度越快,边缘设备(如Jetson Nano)通常要求≥30 FPS。
Parameters (参数量)是指模型可训练参数的总数,反映模型复杂度。参数量过大会增加内存占用和计算开销。
3.2. 实验部分
在本文的实验部分中,本文提出的Fire-YOLOv10算法与当前三种目标检测算法进行了全面比较。这些算法包括YOLOv8、YOLOv9、YOLOv10。这些算法在mAP@0.5、mAP@0.5:0.95、FPS、和Param上进行了比较。通过对比实验,旨在验证Fire-YOLOv10算法在检测仓储火苗、烟雾人物中具备更高的检测效率。
Figure 2. mAP@0.5 values of different algorithms on the dataset
图2. 不同算法在数据集上的mAP@0.5值
Figure 3. mAP@0.5:0.95 values of different algorithms on the dataset
图3. 不同算法在数据集上的mAP@0.5:0.95值
以上结果表明,在本研究的实验评估中,Fire-YOLOv10模型在仓储火情检测任务上展现出卓越的性能表现。通过与YOLOv8、YOLOv9和YOLOv10的对比测试,该模型在检测精度和实时性方面均实现了显著提升。在检测精度方面,如图2所示,相较于YOLOv8,Fire-YOLOv10的mAP@0.5指标提升了21.6%;如图3所示,相比YOLOv9,模型在mAP@0.5:0.95指标上实现了40.4%的性能提升;即使是与最新一代的YOLOv10相比,Fire-YOLOv10仍保持了12.4%的mAP@0.5提升幅度。如图4所示,在实时性能方面,模型的推理速度达到32 FPS,较YOLOv8提升77.8%;相比YOLOv10,FPS性能仍保持14.3%的优势提升;如图5所示,在参数量控制方面(2.87 M),较YOLOv8减少10.3%的同时实现了精度的大幅提升。这些优异的性能表现主要得益于Fire-YOLOv10创新的网络设计。首先是通过改进的PANet结构增强了对不同尺寸火焰的检测能力。其次是进行动态卷积核设计,能够自适应调整感受野,提升对烟雾扩散特征的捕捉精度,最后是采用轻量化注意力模块,在几乎不增加计算量的情况下强化关键区域的特征表达。
Figure 4. FPS values of different algorithms on the dataset
图4. 不同算法在数据集上的FPS值
Figure 5. Param values of different algorithms on the dataset
图5. 不同算法在数据集上的参数值
为验证Fire-YOLOv10模型中关键组件的有效性,本研究设计了系统的消融实验。通过对比完整模型与三种消融变体的性能表现,深入分析了DCNv2可变形卷积和SIMAM注意力机制对仓储火情检测性能的贡献。
Fire-YOLOv10-d:移除DCNv2模块,改用标准卷积。该变体用于评估可变形卷积对复杂火焰形态的捕捉能力。
Fire-YOLOv10-s:去除SIMAM空间注意力机制。该变体用于验证注意力模块对烟雾扩散区域的特征增强作用。
Fire-YOLOv10-m:去除MDPIoU损失函数模块,改用标准CIoU损失函数进行训练。该变体旨在验证MDPIoU对复杂火情检测的优化效果。
Table 2. Comparison chart of ablation experiment results
表2. 消融实验结果对比图
模型 |
mAP@0.5 |
mAP@0.5:0.95 |
Param. (M) |
Fire-YOLOv10 |
0.935 |
0.692 |
2.87 |
Fire-YOLOv10-d |
0.864 |
0.563 |
2.73 |
Fire-YOLOv10-s |
0.883 |
0.579 |
2.84 |
Fire-YOLOv10-m |
0.856 |
0.540 |
2.7 |
表2展示了消融实验结果,完整模型在各项指标上均显著优于消融变体。这一现象揭示了三个关键发现:首先是可变形卷积能有效捕捉火焰不规则边缘特征。在动态火场环境中,该模块使检测精度提升;其次是SIMAM的注意力机制通过空间权重分配,显著提升了对烟雾半透明区域的检测鲁棒性。最后是MDPIoU可以动态优化边界框回归目标,提升模型对复杂货场环境的适应能力。
4. 结论
随着电子商务的快速发展,仓储物流规模的不断扩大对消防安全提出了更高要求。针对传统火情检测方法在复杂仓储场景下存在的响应速度慢、误报率高、小目标检测能力不足等问题,本研究提出的Fire-YOLOv10模型通过融合DCNv2可变形卷积、SIMAM注意力机制和MDPIoU损失函数等创新设计,显著提升了仓储环境下的火情检测性能。实验结果表明,该模型在高密度货架遮挡场景下对火焰的检测率达到92.3%,漏检率仅7.7%;对动态火情的检测延迟低于50 ms;对32 × 32像素以下小目标火焰的AP值达到0.87,较基线模型提升35%。Fire-YOLOv10不仅建立了仓储火情检测的新技术基准,验证了可变形卷积与注意力机制在特定场景下的优化效果,更为电商仓储安全管理提供了可落地的AI解决方案,平均每百万次检测可减少23次误报。通过智能化手段显著提升了火灾预警能力,有效保障了人员安全和物流供应链稳定。未来研究将进一步探索多模态数据融合及模型轻量化部署,以实现更全面的智能消防安全防护体系。