1. 引言
近年来,随着我国城市化进程持续加速,老旧居民小区的消防安全隐患愈发突出。狭长的楼道空间常被居民存放泡沫板、纸箱、快递包装袋等大量易燃杂物,一旦发生燃烧,火势蔓延迅速且难以在第一时间得到有效控制。此外,许多老旧楼栋缺乏完善的布线条件,导致楼道内普遍没有安装烟雾报警器或其他常规消防设施,一旦出现火灾征兆,无法及时预警,极易造成严重财产损失和人员伤亡。据某省消防部门的统计,2024年因楼道内杂物堆积引发的住宅火灾占全部住宅火灾的37.6%,其中80%以上的案件因未能在初期发现烟雾或火焰而导致火势迅速失控[1]。
针对这一问题,智能消防技术在新建楼宇中已逐步推广,包括剩余电流式火灾探测器、测温光纤传感器等多种方案。然而,这些技术在老旧小区的应用受限于现场布线困难、电源不稳定、维护成本高等因素,难以实现大规模部署。近年来,基于深度学习和计算机视觉的火灾检测方案因其安装便捷、布线需求低而备受关注。例如,Kim B等[2]提出基于卷积神经网络的烟雾识别方法,利用VGG16特征提取结合SVM分类器,在公共火灾图像集上取得了良好效果。Dimitropoulos K等人进一步提出融合光流信息和时序建模的火灾检测框架,在动态视频中实现了对烟雾和火焰的准确识别[3]。张硕羲等[4]开发的基于YOLOv3的火焰识别系统,通过颜色与纹理特征学习,在理想实验室环境中检测准确率可达97.32%。
然而,这些方法仍存在一定局限性。一方面,许多研究依赖于高质量、稳定的视频输入环境,而在实际楼道中常常存在光照变化、图像模糊、遮挡等干扰因素,模型泛化能力不足[5];另一方面,当前主流模型仍以单帧图像为处理单位,忽略了火灾从初燃到扩散的连续性特征,未能有效利用时序信息,导致在高动态复杂环境下易出现瞬时误报或漏报[6]。此外,现有火焰和烟雾检测多依赖卷积神经网络对单帧图像进行分类或回归,缺乏对时间序列信息的深度挖掘,无法充分利用相邻帧中烟雾扩散的连续性特征,从而导致在高动态场景下的检测稳定性和准确性不足。
为克服上述瓶颈,本研究提出一种时序感知型楼道火灾烟雾检测系统,主要贡献点如下:
(1) 多尺度时序特征融合:在改进的YOLOv10-n模型中引入分层特征金字塔网络和混合注意力模块,强化对烟雾渐变边缘和细微纹理的捕获能力;
(2) 双模态状态跟踪机制:结合短期记忆缓冲(5帧特征)与基于马尔可夫链的长期置信度模型,通过置信度累积算法动态调整报警阈值,有效抑制瞬时误报;
(3) 轻量化边缘部署方案:基于树莓派5 + NPU加速模块的软硬件协同优化,实现模型在楼道环境下的实时快速推理,并附带低功耗和远程运维支持。
2. 系统架构
本系统采用树莓派 5 (Raspberry Pi 5)作为主计算单元[7],辅以Google Coral USB Accelerator NPU模块提升本地推理性能。树莓派 5配备64位四核Cortex‑A76 CPU,主频最高可达2.4 GHz,集成VideoCore VII图形处理器,并支持最高8 GB LPDDR4X内存和原生USB 3.0接口,内置PCIe Gen2 × 1通道,数据吞吐能力相比树莓派 4B提升约4倍。这些硬件升级使图像解码、数据预处理与结果回传的时延显著降低,工程实测预处理阶段时延下降约30%,有利于楼道火灾烟雾的快速响应。
为适应老旧小区既有监控体系,将树莓派5与Coral NPU模块集成于一个紧凑型外壳内,通过USB3.0接口连接至老旧居民社区楼道中的CVBS/RTSP网络摄像头。系统实时获取视频流,并在本地进行图像预处理、目标检测与火灾烟雾识别推理。通过火灾烟雾检测的程度不同,设计三级预警机制实现风险分级响应。整个预警系统支持PoE (Power over Ethernet)及独立PoE HAT模块供电,可通过4G/5G或社区WiFi实现远程维护与OTA模型升级。整个系统架构如图1所示。
Figure 1. System architecture diagram of this paper
图1. 本文系统架构图
3. 融合时序特征的火灾烟雾检测
在现代目标检测领域,YOLO (You Only Look Once)系列算法以其端到端、单阶段的框架设计实现了速度与精度的最佳平衡[8]。自YOLOv1提出以来,通过连续的迭代优化,YOLOv4引入了跨阶段部分连接(CSP)和多尺度预测;YOLOv5则在PyTorch平台上进一步简化训练流程并提升了部署效率;最新的YOLOv10在网络结构上采用深度可分离卷积和轻量级注意力模块,显著减少了参数量与计算量,同时保持了接近主干网络的检测性能。此类设计使得YOLO系列在实时性要求极高的应用场景(如无人机巡检、边缘监控)中得到广泛应用。
鉴于楼道火灾烟雾检测需要在资源受限的树莓派5上部署,本文选用YOLOv10的轻量化版本(常称为YOLOv10‑n) [9]。该版本通过通道剪枝、深度可分离卷积及量化策略,将模型大小缩小约60%,浮点运算量降低近70%,使得在树莓派5的四核Cortex‑A76 CPU和Coral NPU 4 TOPS加速下,能够实现实时推理速度,而检测精度仅轻微下降。
3.1. 多尺度时序融合模块
多尺度时序融合模块基于YOLOv10深度学习网络,在其中间结构中针对不同层次的特征图,设计了多尺度特征融合模块。该模块首先对浅层和深层特征分别进行通道压缩,然后通过串联和拼接的方式,将各个尺度的特征统一到同一空间维度。随后,利用卷积操作进行通道信息的融合和权重调整,自动强化与抑制不同尺度下的烟雾和火焰细节。
在标准的YOLOv10网络中,Neck层通过特征金字塔(FPN)实现不同空间尺度的融合,但仅针对单帧特征,无法利用时间维度的信息。这种做法在静态目标检测效果良好,但面对烟雾生成与扩散的动态过程时存在两大缺陷:
(1) 微弱初始烟雾难以捕捉:烟雾刚出现时往往仅在图像中留下一些模糊、微弱的纹理,而单帧模型无法兼顾大小不同的区域特征,容易漏检。
(2) 大面积烟云形态忽略时序演变:当烟云扩散形成明显大块区域时,空间上的多尺度融合虽能捕获整体形状,但容易忽视前几帧的生成趋势,导致时序不连贯。
为弥补上述不足,本模块在FPN的基础上引入时序特征金字塔(TFPN),将连续三帧
在多尺度上的特征进行联合处理,实现空间与时间的协同感知。其设计思路及数据流动过程如下:
Step1. 特征收集:从Backbone提取三帧的多尺度特征
。
Step2. 通道压缩与对齐:对每一帧的特征图先做1 × 1卷积降维,使各帧特征在通道数上保持一致,方便后续融合。
Step3. 时空特征提取:利用小尺寸3D卷积核(时间×空间),在三个对齐后的特征图上滑动,对相同空间位置的跨帧信息进行卷积操作,初步提取烟雾的动态变化信号。
Step4. 注意力加权:将3D卷积结果送入通道注意力模块,根据每个通道在当前场景中的重要性分配权重,以增强烟雾边缘或火焰纹理等关键特征。
Step5. 特征聚合与输出:将加权后的时序特征与当前帧
在空间维度上拼接,对拼接结果再做一次1 × 1卷积融合,得到最终的时空融合特征
,计算结果如下:
(1)
其中,
是可学习权重参数,初始值分别为[0.2, 0.3, 0.5]。
是sigmoid激活函数,
表示逐元素相乘运算符。
Step6. 下游传递:将
输入至后续的Detection Head,用于目标分类与框回归。这种跨帧、跨层的融合方式,使得模型既能聚焦烟雾最初的微弱迹象,也能捕捉其后续大面积扩散变化,有效提升了动态烟雾检测的召回率和稳定性。
3.2. 双模态记忆模块
在楼道中,光斑反射、局部遮挡或短暂光影变化都可能让单帧检测结果产生剧烈波动。若直接以当前帧结果触发报警,易造成高误报率。火灾演变具有持续性和阶段性,短期平滑难以捕捉长期趋势;同时,一次短时烟雾闪现并不一定意味着真正燃烧,需要结合历史状态作综合判断。为此,本模块引入短期记忆子模块与长期状态跟踪子模块,结合快速响应与趋势分析,提升检测的稳定性和可靠性。
短期记忆池:实时维护最新N (在本文中取N = 5)帧的编码特征,并采用可学习的通道注意力机制,对各帧特征分配不同的权重。通过这种机制,模块能够自动衰减偶发噪声,同时保留烟雾初期的上升趋势。短期平滑后的分数能够有效抑制偶发噪声,使系统对突发干扰的敏感度降低,同时保持对烟雾初期增量的响应能力。
(2)
其中,
为特征编码器,通过可学习的通道加权分配的权重,用于平滑当前帧与历史帧的特征。
长期状态机:基于统计学方法构建火灾状态概率转移模型,对当前帧的平滑输出与历史状态进行联合推理。通过软融合策略,系统可在检测到烟雾初期时及时预警,并在确认火势后持续跟踪,避免误报和漏报。
(3)
其中,
控制长期趋势与短期响应的融合权重。该机制能够有效捕捉火灾演变的长期依赖关系,实现对火灾全过程的连续跟踪。
3.3. 置信度累积与分级报警机制
在多尺度特征融合和时序状态推断的结果基础上,本模块针对火灾烟雾的持续性变化和误报风险,设计了历史趋势与当前响应并重的置信度累积策略,并依据不同风险级别触发相应报警。
为兼顾近期检测结果和历史趋势,引入短期特征得分
与长期趋势得分
的加权融合。综合置信度得分
计算如下:
(4)
(5)
(6)
其中:
,更多偏重近期,用于兼顾实时响应与平稳趋势。而
,平衡历史信息与新观测。
根据综合置信度及其变化速率
,设定三级报警等级:
(7)
一级报警(高危):当
时,可视为高度确信火灾正在发生,系统立即触发声光警报并自动呼叫救援接口(119/社区消防)。
二级报警(中危):当
时,表示烟雾浓度正快速上升,系统进入复核流程(视觉回放、人员确认),确认后再触发报警。
三级报警(低危):当
时,为低置信度情形,仅记录日志并发送监控端提醒,避免不必要的干扰。
3.4. 轻量化改进策略
针对树莓派5与Coral NPU的计算限制,在计算资源受限环境下,保持模型精度的同时提升推理速度和降低内存占用至关重要。本节通过三阶段压缩策略:通道动态剪枝、混合精度量化和算子融合优化,详述轻量化设计的原理、实现与优势。
(1) 通道动态剪枝
深度网络中部分通道对目标检测贡献有限,裁剪这些通道可减少计算量而仅带来微小精度下降。定义通道
的重要性指标
,衡量该通道卷积核权重
在激活后的平均响应:
(8)
若
,则移除该通道;
为全局剪枝率(建议0.15)。
(2) 混合精度量化
硬件加速模块(如Coral NPU)对INT8运算支持更高效,同时部分关键层保留FP16可避免精度损失。对Backbone主干网络采用半精度浮点(FP16),保持表达能力;对Neck和Detection Head模块进行8位整数(INT8)量化,加速推理。混合精度量化策略:
(9)
(3) 算子融合优化
标准网络往往将卷积(Conv)、批归一化(BN)和激活函数(ReLU)拆分为多个算子调用,增加内存访问和调度开销。针对Coral NPU提供的硬件指令集,重写常用3 × 3、1 × 1卷积等算子,减少内存拷贝与算子切换。利用树莓派NPU特性重构算子:
(10)
(11)
4. 实例分析
4.1. 数据集构建
本文训练所使用的数据集有以下三种:
(1) 上海、无锡、杭州、苏州等地共37个小区近5年的监控视频。
(2) 使用干冰烟雾机的火灾模拟数据。
(3) 互联网公开数据https://github.com/OlafenwaMoses/FireNET/tree/master。
使用CVAT图像标注工具与自研时序标注插件对数据集进行标注,标注流程如图2所示。
Figure 2. Dataset annotation flowchart
图2. 数据集标注流程图
4.2. 模型训练
将数据集按照7:2:1分别划分为训练集,验证集和测试集,使用如表1所示的参数进行训练。
Table 1. Training parameter settings
表1. 训练参数设置
参数名 |
参数值 |
深度学习框架 |
PyTorch 1.12.1 |
优化器 |
Adam |
batch_size |
8 |
学习率 |
1e−4 |
迭代次数 |
200 |
经过200次迭代后,火焰和烟雾的检测精度和误差如图3所示。
(a) 火焰检测精度
(b) 烟雾检测精度
Figure 3. Model training results
图3. 模型训练结果
4.3. 实验结果与分析
为了量化本文所提方法的有效性,选择平均精度均值mAP和时序一致性指标TCI作为评估指标。mAP可以综合反映定位与分类精度,计算公式如下:
(12)
在本文中,mAP包含火灾的检测精度和烟雾的检测精度,因此C = 2。
TCI可以量化检测结果的时间连续性,计算公式如下:
(13)
式中,
为视频总帧数;
为时间窗半径(本文取5);
为第t帧的检测状态(0:正常,1:火灾);
为指示函数,条件为真时取1,否则取0。
为验证各模块的有效性,以YOLOv10-n为基线模型,逐步引入时序融合、双模态记忆和轻量化策略,进行消融实验,结果如表2所示。
Table 2. Results of ablation experiments
表2. 消融实验结果
实验组 |
时序融合 |
双模态记忆 |
轻量化 |
mAP@0.5 |
TCI |
FPS |
A |
× |
× |
× |
78.2 |
0.52 |
12.3 |
B |
√ |
× |
× |
83.5 (+5.3) |
0.71 |
10.8 |
C |
√ |
√ |
× |
87.1 (+8.9) |
0.83 |
9.6 |
D (本方法) |
√ |
√ |
√ |
86.3 (+8.1) |
0.85 |
24.7 |
从表2中可以看出,基线模型在不引入任何改进模块的情况下,mAP为78.2,TCI为0.52,FPS为12.3,表现一般。引入时序融合模块后,mAP提升至83.5,TCI提升至0.71,说明该模块有效增强了模型对时间信息的捕捉能力,但由于增加了计算量,FPS降至10.8。在实验B的基础上增加双模态记忆模块,mAP进一步提升至87.1,TCI提升至0.83,表明该模块在捕捉火灾演变过程中的长期依赖关系方面具有显著效果,但计算复杂度进一步增加,FPS降至9.6。在引入轻量化策略后,虽然mAP略微下降至86.3 (下降0.8),但TCI提升至0.85,FPS显著提升至24.7,表明轻量化策略在保持较高精度的同时,大幅提升了模型的推理速度,适应了资源受限的部署环境。
为了验证双模态记忆模块中短期记忆长度N和融合系数λ对系统性能的影响,我们在实验组C的基础上进行了详细的参数敏感性实验。实验结果如下:
Table 3. Effect of different short-term memory lengths N on system performance
表3. 不同短期记忆长度N对系统性能的影响
参数N |
mAP@0.5 |
TCI |
FPS |
3 |
84.2 |
0.78 |
22.1 |
5 |
86.3 |
0.85 |
24.7 |
7 |
87.0 |
0.87 |
23.4 |
9 |
86.9 |
0.86 |
21.9 |
Table 4. Effect of different fusion coefficients λ on system performance
表4. 不同融合系数λ对系统性能的影响
参数N |
mAP@0.5 |
TCI |
FPS |
0.3 |
85.1 |
0.82 |
25.3 |
0.5 |
86.0 |
0.84 |
24.5 |
0.7 |
86.3 |
0.85 |
24.7 |
0.9 |
85.8 |
0.83 |
23.8 |
从表3中可以看出,当N从3增加到5时,mAP@0.5和TCI均显著提升,分别从84.2和0.78增加到86.3和0.85。这表明适当增加短期记忆长度能够更好地平滑偶发噪声,同时保留烟雾初期的上升趋势。当N超过7帧后,mAP@0.5和TCI的提升幅度变小,而FPS开始下降。这表明过长的记忆长度不仅无法进一步提高性能,反而可能增加计算负担,影响实时性。因此,选择N作为短期记忆长度是一个较为合理的平衡点,能够在精度和实时性之间取得较好的折中。
从表4中可以看出,当
时,系统在mAP@0.5 (86.3)、TCI (0.85)和FPS (24.7)之间达到了最佳平衡。当λ过低(例如0.3),长期趋势的捕捉不足,导致TCI下降至0.82,且mAP@0.5略有下降至85.1。当λ过高(例如0.9),系统对短期响应的敏感度降低,可能导致对突发烟雾的响应滞后,同时FPS有所下降至23.8。因此,选择
能够在长期趋势捕捉和短期响应之间取得最佳平衡,保证系统的稳定性和实时性。
为进一步验证本方法的先进性,我们将其与主流目标检测模型和时序建模方法进行对比,对比结果如表5和表6所示。
Table 5. Comparison of detection performance of different methods
表5. 不同方法的检测性能对比
模型 |
mAP@0.5 |
FPS |
参数量(M) |
Faster R-CNN [10] |
79.8 |
4.2 |
41.5 |
EfficientDet-D2 [11] |
81.4 |
14.7 |
8.4 |
YOLOv8s [12] |
84.6 |
18.9 |
11.2 |
本文方法 |
86.3 |
24.7 |
5.3 |
Table 6. Comparison of timing metrics for different methods
表6. 不同方法的时序指标对比
模型 |
TCI |
误报率 |
漏报率 |
帧差分法[13] |
0.61 |
11.2 |
11.2 |
LSTM + CNN [14] |
0.73 |
8.7 |
6.5 |
3D-CNN [15] |
0.68 |
9.2 |
7.8 |
本文方法 |
0.85 |
4.1 |
2.7 |
通过表5可以发现,Faster R-CNN虽然在精度方面表现尚可,但在树莓派5的硬件配置下推理速度较慢,参数量大,不适合实时检测任务。EfficientDet-D2在保持较小参数量的同时,提升了推理速度,但精度仍不及本方法。YOLOv8s在精度和速度之间取得了较好的平衡,但参数量较大,在树莓派5这种资源有限的条件下部署成本较高。本方法在保持较小参数量的同时,实现了最高的mAP和FPS,表明其在精度和效率之间取得了最佳平衡,适合部署在树莓派5上。
通过表6可以发现,帧差分法通过计算相邻帧差异检测运动或烟雾,但只关注两帧的像素变化,无法建立更长时序的关联,导致时序连续性较差(TCI = 0.61)。对光斑、阴影等非烟雾运动极为敏感,易将这些短暂变化误判为烟雾,因此误报率高达11.2%。LSTM + CNN的方法能够记忆长短期依赖,改善了连续性捕捉。但仅以全局特征输入LSTM,忽略了空间细节,时序一致性仍有限。误报率相比帧差分法降低了约22%,对偶发噪声有一定抑制,但仍不能完全过滤环境干扰。3D-CNN通过三维卷积同时建模空间与时间,但受限于固定时间窗口,难以兼顾初期和后期阶段的一致性。在烟雾中期扩散阶段检测效果尚可,但对烟雾初生与后期稀薄阶段表现不足,所以漏报率高达7.8%。本文方法结合短期记忆池与长期状态机,不仅平滑了短期噪声,还利用状态转移概率捕捉了事件的整体演变趋势。相较于LSTM + CNN,TCI提升约16.4% (从0.73到0.85),证明了对跨帧连续性的更好建模。误报率相比最优的LSTM + CNN (8.7%)下降约52.9%,极大减少了无效警报对用户和运维的干扰。漏报率相比3D‑CNN (7.8%)减少约65.4%,保证了火灾初期与后期均能被检测到。
5. 结语
本文方法在时序性能和报警准确度方面均优于传统时序建模与单帧检测方案,特别适合部署在资源受限的如老旧小区的楼道边缘设备上,实现对潜在火灾的早期和持续监测。本系统成本较低,可通过政府补贴,纳入“老旧小区改造”专项基金。或者通过物业共担模式,与社区安防系统集成。在未来,可集成热成像传感器提升暗光环境检测性能,同时结合数字孪生技术建立楼道消防态势仿真系统优化应急预案。