1. 引言
高精度洪水预报是防洪减灾的重要非工程措施[1]。然而,径流形成过程受到降水、地形、土壤湿度等多种因素的影响[2],具有高度非线性和时空变异性[3] [4]。传统水文模型通常依赖于复杂的数学物理公式诠释水文过程[5],且在适用条件上存在限制,难以准确预报洪水过程。
近年来,深度学习技术的快速发展为洪水预报提供了新的解决思路[6]-[8]。以深度学习算法为代表的数据驱动模型不需要考虑复杂的水文参数[9],能够从数据中挖掘潜在规律进行模拟预测,在洪水预报等复杂的水文预测任务中展现出显著的优势[10]。其中,长短期记忆网络(Long Short Term Memory, LSTM)是应用较为广泛的深度学习模型。LSTM通过引入记忆单元和门控机制,克服了传统的递归神经网络(RNN)临梯度消失和梯度爆炸的问题,在捕捉长时间依赖关系方面表现突出[11] [12]。Kao等[13]构建了LSTM多步输出洪水预报模型,并在我国台湾地区石门水库入库洪水预测中取得较好的预报效果;殷兆凯等[14]以水文气象数据作为模型输入,不同预见期(0~3 d)分别建立了LSTM洪水预测模型,在江西省锦江流域不同预见期的洪水预测中LSTM模型均表现出优于新安江模型的预测性能;周研来等[15]构建了LSTM洪水预报模型并将其应用于三峡水库的入库洪水预报,结果表明LSTM模型的整体预报效果优于BPNN和动态神经网络模型。可以看出,LSTM在洪水预报中的应用效果良好。LSTM通过其门控结构动态调整信息流动,但其本质上并没有对不同时间步的预测贡献进行精细的加权,未能充分考虑各时间步对洪水预测的相对重要性[16],这限制了模型在捕捉关键时刻的预测能力。从机理层面看,LSTM的门控机制在过滤噪声的同时,其滤波作用可能会导致关键水文特征被过度平滑,降低模型对局部突变事件的捕捉精度。此外,LSTM模型在预测过程中仅依赖过去时间序列的顺序信息,未能充分利用时间序列中存在的前后依赖关系,限制了模型在捕捉长期依赖关系时的能力。
针对上述LSTM的局限性,本文以福建闽江建溪流域为研究区域,通过提取卷积神经网络捕捉时空局部特征,提出了耦合时空特征贡献与深度学习的洪水预报方法(CNN-BiLSTM-Attention),并在此基础上建立双向水文时序模型,同时考虑了关键时间步的动态权重分配问题,实现对洪水过程的高精度预报。
2. 研究区域与数据
2.1. 流域概况
建溪流域位于福建省闽江上游,是闽江的主要支流之一,介于北纬26˚31'至28˚31'、东经117˚31'至119˚00'之间。流域面积约为14,787 km2 [17],地形特征以丘陵和山地为主,其水系呈树枝状分布。流域地处亚热带季风气候区,气候温和且降水丰富,降水主要集中在4月至9月,年均降水量达到2200 mm,年径流量为164亿m3 [18],流域最大汇水时间为12 h[19]。建溪流域水系及水文站雨量站网分布见图1。
图1. 建溪流域水系及站网分布
2.2. 数据来源及划分
本研究收集和整理了2005年至2023年中的38场场次洪水资料,包括7个流量站、16个雨量站、蒸发量等资料进行模型的构建与性能评估。在数据集的划分上,前30场洪水用于模型参数训练,后8场洪水用于模型测试,训练集、测试集的占比大致为4:1。
3. CNN-BiLSTM-Attention耦合模型
3.1. 耦合理论与方法
3.1.1. 卷积神经网络(CNN)
卷积神经网络(CNN)是一类具有层次化结构和特征提取能力的深度学习模型[20],其结构通常由卷积层、池化层和全连接层三部分组成[21]。在本研究中,卷积层利用多个一维卷积核
沿时间轴滑动,提取局部时间段内水文气象变量间的高阶时空特征[22]。设模型输入样本
,其中
为时间序列长度,
为输入变量维度,其计算过程如下:
(1)
式(1)中,
表示第
个卷积核,
为时间窗口长度,
为偏置项,
表示第
个变量在第
个时间步的观测值。
3.1.2. 双向长短期记忆网络(BiLSTM)
BiLSTM网络是LSTM网络的一种变体[23]。与传统的LSTM仅考虑前向信息不同,BiLSTM引入两个独立的LSTM网络,能够同时处理序列数据的双向信息[24]。在本研究中,BiLSTM通过并行计算正向和反向两个方向的状态序列,捕捉洪水过程中各时间步上的历史驱动因素与未来趋势信息[25] [26],其计算过程如下:
(2)
式(2)中,
为时刻
的输入特征向量,LSTM单元为标准LSTM网络计算过程,
和
分别表示时刻
的前向和后向隐藏层状态,
、
分别为权重矩阵和偏置项,
为激活函数,
为输出特征。
3.1.3. 注意力机制(Attention)
注意力机制(Attention)的核心在于对输入序列不同位置分配差异化权重,突出对目标任务更具贡献的信息[27]。在本研究中,该机制被引入以识别不同历史时刻输入特征对当前流量预测的相对重要性,具体计算过程如下:
(3)
式(3)中,
为
时刻的输入特征向量,
为特征
对应的注意力权重值,
为归一化后的权重值,
和
分别为权重参数和偏置系数,
为注意力层的输出。
3.1.4. CNN-BiLSTM-Attention耦合算法
针对传统时序模型在局部特征捕捉、单向信息流动和关键时段权重分配方面存在的不足,本文提出了一种耦合时空特征贡献与深度学习的洪水预报方法(CNN-BiLSTM-Attention)。该预报模型的结构如图2所示,主要由输入层、卷积层、BiLSTM层、注意力层和输出层组成,具体结构如下:
记输入数据时间序列矩阵
,矩阵
具有时间和空间两个维度,可展开表达为:
(4)
式中,
为
个变量在时刻
的实测值集合,
为第
个变量在
个历史时刻的实测值序列。本文设定
,
,即选取当前时刻
前72小时的降雨量、上游入流量、当前站点流量与蒸发量四个特征,构成输入的多维时间序列矩阵,全面反映了影响未来流量变化的多种因素。
CNN模块位于输入层之后,作为首个特征提取单元,通过一维卷积层(Conv1D)的卷积操作,分别从输入的降雨序列、蒸发序列和流量序列中提取局部时空特征,捕捉降雨量的短期波动、上游流量的变化与当前站点流量之间的瞬时依赖关系。提取后的特征被转化为高维特征图,实现了多维时序数据的压缩和特征的有效提取,为后续时序建模提供重要的输入信息。
基于上述前置处理方法,卷积层提取的局部高阶特征图以时间步为单位进行重构,形成具有时序结构的嵌入向量序列,并作为输入传递至双向长短期记忆网络(BiLSTM)模块,进一步建立多变量间的时序依赖关系。在BiLSTM内部,前向LSTM沿时间顺序提取历史降雨、流量与气象条件等驱动因子对当前时刻流量响应的累积影响;后向LSTM则从时序末端回溯,强化当前时刻在整个洪水过程中所处的阶段及其对后续洪水演化趋势的调控作用。最终,BiLSTM模块通过双向隐藏状态的融合,输出一组包含各时间步上下文信息的状态序列,为模型识别洪水过程各阶段及模拟流量连续变化过程提供了更为完整的时序特征表示。
在时序数据预测中,历史各时刻对当前预测结果的影响程度是不同的。为增强模型对关键信息的关注,本研究在BiLSTM层之后集成了注意力机制(Attention),依据不同历史时段的时序特征对当前流量预测的相关性,自适应地调整各时间步的权重,从而动态突出关键时刻的特征贡献,减少冗余信息的干扰。这种基于贡献差异的动态加权机制不仅提高了模型对峰值流量、峰现时间等关键指标的预测精度,也提升了模型在应对复杂洪水演进过程中的稳定性与可靠性。
经注意力机制加权融合后的时序特征被输入到全连接层(Dense)进行线性变换,映射到最终的输出维度
,对应未来
小时的预测流量序列
。该耦合结构通过局部特征提取、双向时序建模与动态权重聚焦的递进式建模,弥补了传统LSTM在局部细节感知方面的不足,突破了单一信息流建模的局限,有效挖掘并利用洪水过程中的时空特征信息,显著提升了对未来流量变化的预测能力。
图2. CNN-BiLSTM-Attention耦合模型
3.2. 模型参数设置
为确保对比模型的公平性,两个模型均采用Adam优化器,初始学习率为0.001,每个批次样本大小为64。模型训练中采用Huber损失函数,最大训练轮次为500,并设置早停机制防止过拟合。两个模型的结构参数设置见表1。
表1. 模型结构参数设置
模块 |
参数 |
取值 |
CNN |
卷积核数量 |
128 |
卷积核大小 |
3 |
BiLSTM |
隐藏层层数 |
1 |
隐藏层神经元个数 |
128 |
Attention |
激活函数 |
tanh |
注意力权重维度 |
128 |
LSTM |
隐藏层层数 |
1 |
隐藏层神经元个数 |
128 |
3.3. 评价指标
根据《水文情报预报规范》(GB/T 22482-2008) [28],本研究选取洪水总量相对误差(
)、洪峰相对误差(
)、峰现时间误差(
)三个指标的合格率(
)以及确定性系数(
)对模型精度进行评价。具体计算公式如下:
1) 确定性系数
(5)
式中,
为确定性系数,
、
分别时刻
的预测、实测的洪水流量,
为资料序列长度,
为实测流量均值。
2) 洪水总量相对误差
(6)
式中,
为洪水总量相对误差,
、
分别为预测、实测的洪水总量。
允许误差范围为实测洪水总量的20%。
3) 洪峰相对误差
(7)
式中,
为洪峰流量相对误差,
、
分别为预测、实测的洪峰流量。
允许误差范围为实测洪峰的20%。
4) 峰现时间误差
(8)
式中,
为峰现时间误差,
、
分别为预测、实测的洪峰出现时刻。
允许误差范围在实测峰现时间与模拟峰现时间之间时距的30%之内,最大不超过3 h。
5) 合格率
(9)
式中,
为预报要素的合格率;
为预报总次数,
为合格预报次数。
根据合格率可以评价模型预报精度等级,规定如表2所示。
表2. 模型预报洪水精度等级
精度等级 |
甲级 |
乙级 |
丙级 |
合格率(
) |
|
|
|
4. 结果分析与讨论
4.1. 预报精度评定
考虑到建溪流域最大汇流时间为12小时[19],为验证模型在完整水文响应周期内的性能差异,本文以12小时预见期为基准,构建12h-LSTM与12h-CNN-BiLSTM-Attention模型,并基于测试集洪水过程评定模型精度,结果如图3(a)~(d)所示。
图3. 预报精度评定指标及结果
图3(a)为两个模型测试集场次洪水洪峰流量预报值与实测值对比图,灰色区域代表峰值合格范围,并给出了洪峰合格率(QRP)。可以看出,CNN-BiLSTM-Attention模型的洪峰合格率为87.5%,符合甲级标准;LSTM模型洪峰预测值呈现低估趋势,洪峰合格率低于70%,仅满足丙级标准。图3(b)展示了两个模型洪量误差分布情况。两个模型的洪量误差均在误差允许范围内,合格率达到100%,满足甲级标准。CNN-BiLSTM-Attention的洪量误差均值较LSTM更小,且误差分布离散度更低,表明该模型的预报性能更加稳定。图3(c)对比了两个预报模型的峰现时间误差,正值表示预测峰现时间滞后,负值表示提前。CNN-BiLSTM-Attention的峰现时间合格率为87.5%,满足甲级标准。LSTM模型峰现时间合格率为75%,达到乙级标准,且存在12h的极端滞后样本,峰值时效性偏弱。图3(d)展示了两个模型在30次独立计算中的NSE统计结果。可以看出,CNN-BiLSTM-Attention模型的NSE均值相比LSTM模型提升了0.07,分布区间整体更高且更集中,进一步验证了该模型在多次实验中拟合精度更优、预报结果更为稳定的优势。
综合结果表明,12 h-CNN-BiLSTM-Attention的洪峰、洪量、峰现时间合格率均达到甲级标准,确定性系数整体水平更高,波动性更小,较12 h-LSTM的预报精度等级有明显提升,可有效支撑高精度洪水预报需求。
4.2. 不同预见期模拟预测结果分析
为分析CNN-BiLSTM-Attention预报模型在不同预见期下的表现,本文对测试期洪水在1~24小时预见期下的预测结果进行分析,并设置LSTM作为对比模型。考虑到模型训练过程中存在一定的随机性,分别对两个模型进行了30组独立计算,采用各预见期下NSE均值来衡量洪水过程预测的准确性,结果如图4所示。
图4展示了两种模型在不同预见期下的NSE对比结果。从图中可以看出,随着预见期的延长,两种模型的NSE值均呈下降趋势。然而,CNN-BiLSTM-Attention模型在各预见期下的NSE均优于LSTM模型,表明其对洪水过程有更强的捕捉能力。
具体而言,两种模型在不同的预见期阶段表现出不同的趋势。在1~12小时短预见期内,两种模型均表现出较高的预报精度。其中,CNN-BiLSTM-Attention模型的NSE始终保持在0.87以上,LSTM模型的NSE值略低,但仍保持在0.79以上。可以看出,CNN-BiLSTM-Attention模型在短时间尺度内表现出了明显的精度优势,其引入的卷积模块和注意力机制能够有效提取并强化降雨与流量之间的关键特征,从而实现了更高的预测精度。
在13~16小时中长预见期内,两种模型NSE值逐渐下降,与短预见期表现出截然不同的下降速率。CNN-BiLSTM-Attention模型在16小时预见期时NSE值仍能保持到0.75以上,相比之下LSTM模型预测精度下降更快,在14小时预见期,NSE值已降0.73,并在16小时进一步降至0.64。两种模型在性能上的差异主要与输入
图4. 不同预见期纳什系数结果
特征的筛选机制有关。LSTM模型因缺乏显式的特征选择模块,当预见期超过流域最大汇流时间后,对重要输入特征的捕捉能力明显减弱;相较之下,CNN-BiLSTM-Attention模型通过其双向LSTM模块增强了时间序列的双向建模能力,同时利用注意力机制动态分配权重,使模型在中长预见期内的预测性能保持稳定,延长了2小时有效预见期。
在17小时~24小时长预见期,随着预见期的延长,预报精度明显降低,洪水过程的不确定性对模型性能的影响逐渐增强。但CNN-BiLSTM-Attention模型的下降幅度显著小于LSTM模型,进一步验证了CNN-BiLSTM-Attention模型在长时间尺度上的鲁棒性。
4.3. 典型洪水过程模拟预测分析
为探究模型对复杂洪水过程的响应机制,本文基于12小时预见期下的预测结果,选取四场不同量级的典型洪水进行分析。
图5展示了两个模型的预测流量过程,相关计算指标见表3,其中洪峰相对误差和峰现时间误差均在最大洪峰处进行统计。从图表中可以看出,两个预测模型整体上能够较好地拟合洪水的涨落趋势,特别是在涨水阶段与退水阶段的预测较为稳定,但在洪峰段的预测仍存在一定误差,主要表现为峰现时间的偏移以及洪峰流量的误差。
在洪峰流量预测方面,LSTM在不同量级的洪水中普遍存在低估现象。相比之下,CNN-BiLSTM-Attention模型在洪峰处的预测值有所增大,其中20190708号、20200708号、20210629号洪水的洪峰相对误差分别减少了6.96%、27.92%、18.08%,且对于小量级的洪水,CNN-BiLSTM-Attention模型的提升幅度更为明显。分析原因在于,这三场典型洪水的主降雨中心均集中在流域上游,而在预测过程中采用的面平均雨量弱化了空间异质性,LSTM模型未能充分考虑到上游暴雨中心的造峰作用,造成其预报洪峰偏低且误差较大。对于CNN-BiLSTM-Attention模型,CNN模块能够识别上游强降水区域的影响范围;结合BiLSTM的双向信息通道,在涨水阶段更充分地学习前期降雨对后期洪水演进的影响,提高了对流量变化趋势的捕捉能力;Attention机制进一步加强了
图5. 典型洪水过程预报结果
对关键时段降雨的响应,使得模型在洪峰形成阶段对上游降雨的造峰作用更敏感,从而改善了洪峰预测效果。
对于洪水量级最大的20220616号洪水,CNN-BiLSTM-Attention模型在预测洪峰流量时出现过高估计的情况,在峰值处并未表现出明显优势。通过分析发现,训练集中场次洪水的峰值集中在6000 m3/s至9000 m3/s之间,仅有两场洪水的洪峰超过13,000 m3/s。训练集中大洪水样本的代表性不足,导致洪峰预测误差偏大。实际预报过程中可通过及时更新和扩展大洪水样本,进一步优化模型在极端洪水情境下的预测性能。
此外,在峰现时间误差上,CNN-BiLSTM-Attention模型相较于LSTM有明显提升。尤其是在20190708号、20220616号这两场LSTM预测误差较大的洪水事件中,CNN-BiLSTM-Attention模型通过增强对上游降雨的时空响应能力,将峰现时间误差分别从−6 h缩短至−2 h,以及从12 h缩短至6 h,误差减少幅度达50%及以上,进一步优化了峰现时间的预测精度。
表3. 测试集两种模型的预报流量指标
模型 |
洪号 |
实测洪峰(m3/s) |
模拟洪峰(m3/s) |
RPE (%) |
RET (h) |
RVE (%) |
LSTM |
20190708 |
10,780 |
8582.87 |
−20.38 |
−6 |
−17.44 |
20200708 |
5821 |
3424.30 |
−41.17 |
3 |
−15.20 |
20210629 |
8898 |
7087.16 |
−20.35 |
1 |
−2.52 |
20220616 |
13,760 |
11881.28 |
−13.65 |
12 |
−5.75 |
CNN-BiLSTM-Attention |
20190708 |
10,780 |
9333.43 |
−13.42 |
−2 |
−10.38 |
20200708 |
5821 |
5049.95 |
−13.25 |
0 |
−16.91 |
20210629 |
8898 |
8696.10 |
−2.27 |
1 |
−5.27 |
20220616 |
13,760 |
15864.63 |
15.30 |
6 |
2.79 |
5. 结论
本文提出了一种考虑耦合时空特征贡献与深度学习的洪水预报模型,通过不同尺度预见期测试与典型洪水验证,得出主要结论如下:
1) 通过对测试集全样本统计评估,12 h-CNN-BiLSTM-Attention的综合预报精度等级优于12 h-LSTM。12 h-CNN-BiLSTM-Attention的洪峰、洪量、峰现时间指标均达到甲级标准,符合建溪流域高精度预报需求。
2) 在不同预见期下,CNN-BiLSTM-Attention模型较LSTM表现出更优的预报精度和稳定性,且有效延长了洪水预报的高精度适用范围。在短预见期(1~12小时)内,两个模型的精度都较好;但在中长预见期(13~16小时)及长预见期(17~24小时),LSTM模型的性能下降较为明显。相比之下CNN-BiLSTM-Attention的性能下降趋势变缓,在保持模型精度合格的要求下,有效预见期延长了2小时。因此认为CNN-BiLSTM-Attention模型在一定预见期内具有更强的鲁棒性和稳定性。
3) 对于典型洪水,CNN-BiLSTM-Attention在洪峰段的预报精度提升最为明显。CNN-BiLSTM-Attention有效改善了LSTM的峰现时间偏移与流量峰值低估等问题,主要原因是CNN-BiLSTM-Attention考虑到降雨–径流过程中关键步的时空特征贡献,能更好捕捉到降雨过程中时空变化等复杂情况。后续可在不同气候区、不同流域推广验证该模型的适用性,进一步提高泛化能力。
NOTES
作者简介:余燕杉(2001-),女,重庆万州人,硕士研究生,研究方向为洪水预报,Email: yanshan.yu@whu.edu.cn
*通讯作者Email: chua@whu.edu.cn