1. 引言
强对流天气预报作为现代天气预报领域的重要任务之一[1],特指对局部区域未来0~2小时内的天气状况开展高分辨率时空预报[2]。其中,强对流极端降水具有突发性强、破坏性大的特征,其引发的局部极端降水会对人类生命财产安全构成严重威胁。临近预报作为现代强对流天气预报的重要工具,可提供未来2小时内及时且精准的降水预报,对农业生产、航空运输等领域的防灾减灾工作具有重要指导意义。该预报技术已在气象领域引起研究人员的高度重视并投入了大量精力[3]。近年来,众多针对临近预报的模型相继提出,并取得了显著成效。
2. 相关工作
2.1. 临近预报方法
数值天气预报(Numerical Weather Prediction, NWP)和基于雷达回波外推(Radar Echo Extrapolation, REE)的算法,是开展临近预报的两类主要方法。NWP通过求解大气运动方程组获取未来的气象要素信息,从而实现中长期天气预报。然而,由于气候变化等复杂时空过程的机理尚未被人类完全掌握,构建精确又高效的NWP模型仍面临巨大挑战[4]。
REE不依赖复杂的物理方程,而是基于雷达观测数据的时空连续性假设,通过追踪历史雷达回波图像的运动趋势,估算其运动矢量并进行外推,从而预测未来短时间内的降水分布和强度。REE的主要优势在于物理意义直观、计算效率高,且能较准确地捕捉已有降水系统的移动与演变规律,因此在突发性强对流天气的短时预报中表现较好[5]。但其不足也较为明显:当降水系统发生新生或消散时,时空连续性假设被破坏,模型难以有效刻画这类剧烈变化[6]。REE模型主要包括雷达回波相关跟踪法(Tracking Radar Echoes by Correlation, TREC)、光流法,以及在此基础上发展起来的深度学习方法。
交叉相关法与光流法是传统REE的两种代表性技术。前者通过计算相邻时次雷达回波场中不同区域的最优空间相关系数来确定回波的移动矢量,适用于层状云降雨系统的短时预报。但在强对流性降水过程中,随着预报时效的增加,其精度会迅速下降,表现出明显的局限性[7]。光流法则通过计算雷达回波场的光流场来获取运动矢量,更适用于快速发展的强对流天气。然而,该方法存在累积误差,并且难以充分利用较长时间序列的回波信息[8]。
2.2. 基于深度学习的临近预报方法
近年来,随着人工智能技术的迅速发展,深度学习方法在临近降水预报领域展现出巨大潜力。与传统的雷达回波外推REE方法不同,深度学习通过端到端建模直接学习降水演变的复杂时空特征,在刻画风暴形变及非线性发展方面具有显著优势。Shi等(2015)首次提出卷积长短期记忆网络(Convolutional Long Short-Term Memory, ConvLSTM) [9],该模型将长短期记忆网络(Long Short-Term Memory, LSTM) [10]与卷积操作相结合,能够较好地捕捉雷达回波的空间结构与时间演化特征,为降水临近预报开辟了新途径。随后大量研究在此基础上进行了拓展与改进。本文将此类模型按照结构特征分为五类:循环神经网络(Recurrent Neural Network, RNN)、卷积神经网络(Convolutional Neural Network, CNN)、基于注意力机制的网络、基于频域分析的网络以及扩散模型。
TrajGRU [11]通过动态学习递归连接结构来捕捉降水场复杂多变的非平稳运动,其连接路径类似于预测的“轨迹”(Trajectory),从而较ConvLSTM能更精确地模拟降水系统的运动方向。PredRNN [12]通过引入贯穿所有时间步的统一时空记忆单元,在深层网络中建立了信息流动的“高速通道”,能够同时建模复杂的时空演化动态,显著提升了降水预报能力。这类基于RNN的模型擅长捕获时序依赖关系,能够充分利用雷达回波的历史序列信息,并在回波连续性和一致性预测方面取得较好效果。然而,由于模型结构复杂、计算开销较大,RNN类模型在训练过程中容易出现梯度消失和梯度爆炸等问题[13]。
SimVP [14]采用由纯卷积结构构成的编码器–变换器–解码器框架,在保持一定预测精度的同时,显著减少了模型参数量并提升了计算效率。STConvS2S [15]是一种时空卷积序列到序列网络,通过将卷积核分解为空间卷积和时间卷积两部分,分别处理空间与时间依赖关系,从而提高了临近预报的精度。然而,基于卷积神经网络的模型往往仅以堆叠方式叠加卷积层,忽视了不同卷积层在结构位置上的作用,导致预报性能受限。相比之下,注意力机制能够有效捕获长期依赖关系,综合管理多尺度特征,并同时关注局部与全局信息,从而显著提升了预报的准确性[16]。
Rainformer [17]采用编码器——解码器结构,将基于窗口的多头自注意力(Window-based Multi-head Self-Attention, W-MSA)、移位窗口多头自注意力(Shifted Window-based Multi-head Self-Attention, SW-MSA)以及卷积块注意力模块(Convolutional Block Attention Module, CBAM) [18]相结合,实现了对输入特征的高效提炼与注意力分配。LPT-QPN [19]提出了一种嵌入多层Transformer的编码器——解码器框架,通过在损失函数中引入对流——扩散方程,使预测结果遵循物理约束。值得注意的是,Transformer的自注意力机制需要计算序列中所有位置之间的相关性,其计算复杂度为
,其中
为序列长度。因此,在处理高分辨率、长时序的雷达回波图像时,该方法的计算与显存开销巨大,不利于业务的实时应用[20]。
AFNOnet [21]引入快速傅里叶变换(Fast Fourier Transform, FFT)分析降水过程在频域中的特征。FIT [22]同样利用FFT将图像转换至频域,使模型能够预测相关频域系数,并通过逆变换恢复图像。从频域视角研究气象数据有助于增强对周期性结构的识别能力并抑制噪声干扰,但这种方法同时会削弱时间定位能力并增加计算复杂度。该类方法为多尺度过程的理解提供了新的研究视角,但在捕捉瞬态与非线性特征方面仍存在一定局限。
Prediff [23]将扩散模型与知识对齐机制相结合,提高了临近降水预报的准确性与物理一致性。DiffCast [24]在扩散框架中引入残差机制,以缓解传统扩散模型在处理复杂时空数据时的过度随机性与细节丢失问题。尽管扩散模型在生成后期能够避免模糊化现象,但其训练周期较长、推理速度较慢,这限制了其在实际业务中的应用。
为进一步提升预测精度并降低模型复杂度,本文提出了一种基于深度可分离组卷积的深度学习模型。该模型在SEVIR数据集上的实验结果表明,相较于其他模型,所提方法进一步提升了临近降水预报的准确性,并在参数量上实现了大幅削减。本研究为深度学习在临近降水预报中的应用提供了新的思路,有助于推动该领域的持续发展与完善。
3. 研究方法
3.1. 问题定义
临近预报可视为一种典型的序列到序列(Sequence-to-Sequence, Seq2Seq)预测问题[22]。在基于雷达回波外推的临近预报中,其核心挑战在于如何根据历史回波来预测最可能的未来回波序列。该问题通常通过将连续的雷达回波片段划分为两个连续部分来构建:前段作为历史参考帧,后段代表待预测的未来目标帧。给定
表示当前时刻t采集到的雷达回波,其中C、H、W分别代表通道数、高度和宽度,则
可被用来表示历史参考序列,
则可被用来表示未来目标序列。其中B表示批次大小,m与n分别表示输入序列与预报序列的个数,在本文中
,
,即用过去5帧(25分钟)雷达回波预报未来20帧(100分钟)的雷达回波序列。因此,该临近预报任务即可表示为:
(1)
其中,
表示预报出的雷达回波序列,
表示所使用的深度学习模型。
3.2. 网络结构
本文通过提出DSGC-PN (Depthwise Separable Group Convolution Network for Precipitation Nowcasting)模型进行降水预报。该模型通过将原始雷达回波依次进行分层编码、转换与解码流程从而进行临近预报。其内部结构图如图1所示。
首先,编码器对输入序列X进行n个独立的1 × 1卷积操作,初步完成对输入序列的特征提取。随后,转换器对特征之间的相关性进行充分的多层次特征提取。最后,使用译码器将高度抽象特征还原回雷达回波。
3.3. 编码器
编码器由
个连续堆叠的块组成,每个块均包含了3 × 3卷积、层归一化(LN)、n个独立的1 × 1卷积、GELU激活函数以及残差连接,编码器对原始雷达回波进行初级特征提取,为后续转换器进一步特征提取做铺垫。编码器整个工作流程可以用公式(2)和公式(3)来表示。
(2)
(3)
本文使用3 × 3卷积对输入序列X进行强降水间长距离依赖关系的学习,随后使用n个独立的1 × 1卷积进行不同方向的特征捕获,最后引入LN与残差连接得到最终的初级抽象特征
。
Figure 1. Diagram of the DSGC-PN
图1. DSGC-PN结构图
3.4. 转换器
转换器用于深入挖掘
中降水模式的相关性。该模块由三个核心组件构成:多分支深度可分离组卷积模块(M-DSGC)、双向多级特征交互模块(BMFC)以及加权特征融合模块(WFF)。输入特征
依次通过这些组件进行传播,从而实现渐进式的高级抽象特征提取。
3.4.1. 多分支深度可分离组卷积
多分支深度可分离组卷积(Multi-Branch Depthwise Separable Group Convolution, M-DSGC)作为DSGC-PN的核心组件,它能够同时捕获降水模式中的全局与局部特征。该模块由多条并行分支组成,每条分支均包含两个深度可分离卷积(Depthwise Separable Convolution, DSC)、组归一化(Group Normalization)层以及GELU激活函数。模型结构如图2所示。
Figure 2. Architecture of the DSGC
图2. DSGC结构图
在DSGC模块内部,我们对传统DSC中的逐点卷积(Pointwise Convolution)进行了分组改进:在通道维度上将特征划分为若干子组(例如每组三个通道),并对每个子组独立执行逐点卷积运算,从而实现分组逐点卷积。该设计能够在保持特征表达能力的同时显著减少计算量。通过输出通道的分组化处理,卷积操作得以并行执行,从而有效提升模型的计算效率与训练速度[25]。该处理流程如图3所示。
Figure 3. Graphical processes for pointwise convolution in DSC (left) and grouped pointwise convolution in DSGC (right)
图3. DSC中的逐点卷积过程(左)与DSGC中的分组逐点卷积(右)
在原始DSC的逐点卷积运算过程中,所有输入特征均需经过对应通道数量的滤波器处理才可以生成输出特征,这一过程存在严重的资源消耗问题。在本变体设计中,我们将输入特征划分为多个特征组(每组包含3个特征),通过对这些分组后的子特征实施权重共享的逐点卷积操作(红色虚线表示)获得输出特征。公式(4)为两个过程所需的参数对比。
(4)
这种分组版本的逐元素卷积在模型性能没有出现明显降低的同时将模型的参数量减少为原本的3/M。
3.4.2. 双向多级特征交互模块
为解决不同层次特征间的信息不流通问题,本文设计了如图4所示的双向多级特征交互模块(Bidirectional Multi-Level Feature Communication module, BMFC)。具体而言,在输入端,我们将输入特征
在通道维度上以
为大小进行子输入特征分割,得到了
个子块,其中
表示隐藏层的维度。以第一层为例,各层的首个子块先拼接,再与该层特征
逐元素相加生成
,经M-DSGC得到该层的输出
。随后执行逆向操作获得到
再次通过M-DSGC得到
。两次迭代后输出
,其余层操作都是相同的。
这种层间拼接与求和的交互方式有效强化了多层特征的相关性,在无需额外计算的情况下更充分地捕获降水的全局结构特征。
3.4.3. 加权特征融合单元
为了对BMFC的多层输出进行融合,本文提出了加权特征融合单元(Weighted Feature Fusion Unit, WFFU)。该单元通过为每一层的数据添加一个初始权重从而实现对该层权重的动态调节,最终,将进行加权后的特征进行求和得到转换器的输出。该过程可以用公式(5)表示。
(5)
其中,
表BMFC中第i层的输出,
即为该层对应的权重。
Figure 4. Schematic diagram of BMFC feature interaction
图4. BMFC特征交互示意图
3.5. 解码器
本质上解码器是编码器的逆操作,除了转置卷积[26]以外,其余操作均与编码器类似。此外,本文在编码器的输出
与转换器的输出
之间使用了残差连接来稳定训练过程。
4. 实验结果与分析
为验证DSGC-PN的有效性,本文在SEVIR数据集上与五个模型进行了对比实验。结果表明,DSGC-PN在SEVIR上取得了有竞争力的性能,消融研究也进一步证明了模型设计的合理性。
4.1. 数据集介绍
SEVIR (风暴事件图像) [27]数据集包括10,000多个天气事件,每个事件覆盖4小时内384 km × 384 km公里的区域。本研究选取垂直累积液态水含量(VIL)子集,该子集由20,393个降水事件组成,空间分辨率为384 km × 384 km,时间分辨率为5分钟。数据按序列划分为训练集(共35,718幅灰度图),验证集(共9060幅灰度图)和测试集(共12,159幅灰度图)。
4.2. 实验设置
本文在训练阶段将回波图缩放至大小为128 × 128,输入5帧预测未来20帧,以PyTorch 1.13.1 和PyTorch-Lightning 2.2.0作为模型实现框架。模型训练中batch size设置为16,最多迭代100轮,早停20轮,优化器为AdamW (初始学习率0.001) [28],并采用余弦退火策略。我们采用均方误差(MSE)为损失函数,训练过程中保存验证集上CSI最优的模型版本用于测试集。对比模型包括ConvLSTM、SmaAt-UNet、LPT-QPN、Rainformer和SimVP。
4.3. 评价指标
我们采用气象指标与图像质量指标进行预报性能评估,并参考[29]设置灰度阈值16、74、133、160、181、219。气象评估指标采用临界成功指数(Critical Success Index, CSI)、检测概率(Probability of Detection, POD)以及偏差评分(BIAS)来衡量预报性能的准确性。CSI与POD在0~1之间,值越高表示效果越准确。BIAS等于1表示无偏差预测,效果最佳。
为方便指标表达与计算,我们规定若预测回波格点数据大于灰度值,则该位置存在降水(标记为1),反之为0。遍历预测图像与真实图像可得四种情况:TP = (真实 = 1,预测 = 1),FP = (真实 = 0,预测 = 1),TN = (真实 = 0,预测 = 0),FN = (真实 = 1,预测 = 0)。所使用的气象评估指标计算公式如公式(6)~(8)所示。
(6)
(7)
(8)
此外,采用均方误差(Mean Squared Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)来衡量模型的预测图像在图像质量方面表现,两者的定义如公式(9)和(10)所示。
(9)
(10)
其中H和W表示雷达图像的空间维度,
和
分别表示地面实况和模型预测。MAE衡量绝对强度差异,MSE强调平方误差以惩罚较大的偏差。数值越小则性能越好。这些指标的结合使用能够全面评估模型在临近降水预报中的性能表现。
4.4. 实验结果量化对比
在对比分析中,各模型在SEVIR数据集上的表现如表1所示(最佳结果以黑体标注)。DSGC-PN在所有评估指标上均取得最优性能。CSI的提升表明其在降水空间分布预测上更精确,POD的提高显示预测雨区与实况更一致,而MSE与MAE的下降说明预测与真实值的像素差异显著缩小。
具体而言,DSGC-PN在阈值16下的CSI达0.76,较次优模型SmaAt-UNet提升11.76%。尽管所有模型的CSI随阈值增大均出现明显下降,但DSGC-PN的衰减强度系数仅为0.50,优于SmaAt-UNet的0.61。在极端阈值219下,DSGC-PN的CSI为Rainformer的3.05倍。POD指标同样表现突出,在阈值16时达到0.92,较LPT-QPN提升1.09%,在阈值219时更为Rainformer的2.67倍。两项指标的平均值(CSI_mean与POD_mean)均进一步验证了DSGC-PN的稳定性与优越性。
同时,表1展示了所有模型的参数规模大小。DSGC-PN以1.5M的模型参数量成为所有模型中参数量最少的模型,充分体现了其轻量化的特性。
Table 1. Quantitative evaluation results of different models at various thresholds
表1. 不同模型在不同阈值下的量化对比结果
|
ConvLSTM |
LPT-QPN |
Rainformer |
SimVP |
SmaAt-UNet |
DSGC-PN |
CSI_mean↑ |
0.3173 |
0.3214 |
0.3398 |
0.3371 |
0.3314 |
0.4867 |
CSI_16↑ |
0.6671 |
0.6557 |
0.6815 |
0.6831 |
0.6834 |
0.7649 |
CSI_74↑ |
0.5970 |
0.6025 |
0.6033 |
0.5932 |
0.5954 |
0.7048 |
CSI_133↑ |
0.3003 |
0.3003 |
0.3136 |
0.3136 |
0.3051 |
0.4609 |
CSI_160↑ |
0.1668 |
0.1749 |
0.1965 |
0.1999 |
0.1884 |
0.3778 |
CSI_181↑ |
0.1212 |
0.1285 |
0.1580 |
0.1535 |
0.1424 |
0.3789 |
CSI_219↑ |
0.0502 |
0.0667 |
0.0862 |
0.0790 |
0.0736 |
0.2629 |
POD_mean↑ |
0.4019 |
0.4062 |
0.4193 |
0.4178 |
0.4087 |
0.5923 |
POD_16↑ |
0.9029 |
0.9138 |
0.8899 |
0.8785 |
0.8758 |
0.9251 |
POD_74↑ |
0.7474 |
0.7374 |
0.7373 |
0.7192 |
0.7334 |
0.8293 |
POD_133↑ |
0.3946 |
0.3822 |
0.4019 |
0.4167 |
0.3935 |
0.5900 |
POD_160↑ |
0.1828 |
0.1947 |
0.2223 |
0.2359 |
0.2165 |
0.4595 |
POD_181↑ |
0.1303 |
0.1379 |
0.1742 |
0.1711 |
0.1552 |
0.4152 |
POD_219↑ |
0.0521 |
0.0709 |
0.0942 |
0.0855 |
0.0783 |
0.3349 |
MSE (10−3) |
5.8404 |
5.6200 |
5.4985 |
5.7266 |
5.7701 |
3.3839 |
MAE (10−3) |
36.1031 |
36.8421 |
34.665 |
34.4505 |
34.2323 |
25.7876 |
Parameters (M) |
15.3669 |
4.6367 |
179.8109 |
13.5951 |
4.0337 |
1.5756 |
4.5. 可视化对比
为更直观展示各模型的预报表现,我们在测试集中随机选取一组样本的雷达回波图进行可视化展示,展示结果如图5所示。第一行为输入5帧历史雷达回波,第二行为未来20帧(100分钟)真实雷达回波,第三行及之后依次为各模型的预测结果。相比其他模型,DSGC-PN在整个预测时段内能够准确捕捉降水的形变与演变趋势,对低、中、高强度降水的预报均表现出较高的准确性。随着预测时间的延长,DSGC-PN仍能保持较清晰的回波结构,而其他模型普遍出现了预报模糊的现象。
Figure 5. Visual comparison of all models
图5. 所有模型的视觉对比
4.6. 消融实验
为了验证各个组成部分的有效性,我们进行了消融实验,结果如表2所示。
Table 2. Ablation study results
表2. 消融实验对比结果
Ablation |
Baseline |
NO_Encoder |
NO_M-DEGC |
NO_BMFU |
NO_WFFU |
NO_Decoder |
CSI |
0.4867 |
0.4535 |
0.4552 |
0.4654 |
0.4734 |
0.3442 |
POD↑ |
0.5923 |
0.5499 |
0.5598 |
0.5901 |
0.5803 |
0.7383 |
MSE (10−3) |
3.3839 |
3.6132 |
3.9360 |
4.0862 |
3.6021 |
5.1166 |
MAE (10−3) |
25.7876 |
26.7030 |
28.0716 |
28.8306 |
25.8752 |
35.7023 |
在消融实验中,“NO_Encoder”表示移除编码器并以1 × 1卷积替代的实验结果,其他组件设置类似。表2的结果显示,去除任一关键模块/单元均会导致性能下降,其中缺失解码器的情况下降最为明显。这主要是因为DSGC-PN采用对称式结构设计,编码器提取的多层信息需通过解码过程进行还原。
5. 结论与展望
本文提出的DSGC-PN模型采用编码–转换–解码结构,通过深度可分离组卷积实现多尺度特征提取,并引入层间特征融合机制以提升预报精度。在SEVIR数据集上,总体而言,DSGC-PN的CSI值达到0.4867,比其他模型平均提升了约47.66% (提升范围在43%到53%之间)。这表明DSGC-PN在预报效果上有较好的提升。然而,当前模型未引入物理先验知识,导致部分预测结果可能偏离物理规律。未来研究将结合物理约束机制,以进一步提升模型预测的合理性与物理一致性。
NOTES
*通讯作者。