1. 引言
对于内陆地区来说,暴雨是引起的江、河、湖水量迅速增加或水位迅猛上涨的水流现象。当流域内发生暴雨产生径流时,都依其远近先后汇集于河道的出口断面处;或者当近处的径流到达时,河水流量开始增加,水位相应上涨,以及至大部分高强度的地表径流汇集到出口断面时造成的洪水。而洪水泛滥是目前最频繁暴发的自然灾害之一。由于在暴雨过后随时都有可能发生。目前河流洪水是一个全球性的问题,给生活在河边周围的居民带来了严重的问题。四川省乐山市五通桥区位于岷江和大渡河交汇处,发生洪水灾害事件的概率更高。2020年8月18日因发生这种灾害,导致流离失所的家庭数量急剧增加。洪水风险正在由于人口增长,洪泛区的洪水风险正在增加,这个问题是由于周边环境治理差又加上气候变化的影响而更加严重,洪灾不仅仅会破坏当地基础建设还会带来严重传染病 [1],同时也给居民的生活带来极大负担 [2],所以洪水治理显得刻不容缓。而目前能够使用中径流值较为准确预测洪水泛滥是首要选择,它描绘了单位时间内通过水断面的水量。根据径流值能刻画出洪水淹没区域,能够更好的提前起到洪水灾害的预警作用,减少人员伤亡以及财产损失。
为了更好的治理和预防这种严重的自然灾害世界国内外研究人员采用不同水文模型来预测径流值(如基于物理的 [3] [4]、经验的 [5]、概念的 [6] 和概率模型 [7])被世界各地研究人员用于径流值预测。其中黑箱模型 [5] 是纯经验性的,如果数据较为缺乏,他的预测结果与真实值结果相差较远,且该模型的水文径流值的预测过程完全是由输入以及输出产生的参数之间的度量所决定的。于物理流量模型是预测径流值的方法之一,径流的本质就是河流动力学,物理模型考虑到了河流动力中物理过程但物理模型 [4] 要考虑到复杂的物理特性以及流域的动态性质。概念模型 [8] 的校准过程涉及到集水区的物理解释,需要对集水区的物理知识有深刻的了解,需要对所考虑的集水区的物理特征有深刻的了解。水文过程的复合性质和输入参数的非线性特征使水文过程的复合性质和输入参数的非线性特征使得选择适当的洪水预报模型变得困难。适当的模型进行洪水预报。流域的性质、建模的目的、模型的适当性和输入参数的质量,如降雨量、温度、湿度、土地利用、土地覆盖和时空变化等,都会影响洪水预报的可靠性 [6]。
如今,快速发展的机器为我们学习提供了大量技术改进机会。深度学习,是侧重于信息处理的算法,以解决径流模型拟合中非线性部分的性质 [9]。人工神经网络(ANN)是一种广泛使用的机器学习技术,已被开发为一种替代水流的水文模型的方法 [10]。在 [11] 中chenchen等采用CNN网络构造,在各个降雨站点之间采用反距离差分法然后规划12.5 m × 12.5 m网格送入CNN网络,用于预测在目标区域的径流值,但其需要数据量较大,需要大量遥感图片来学习降雨量对目标区域径流值的影响,往往在实际应用上不是一种合适模型。在 [12] 中作者选择多层感知网络来对目标区域径流值进行预测,作者选取了湿度指数、温度、降雨量为预测目标区域径流值的指标,将指标分配给网络后进行学习,但是模型没有考虑上游径流值对目标区域的径流影响较其他模型而言准确度较低 [3]。作者选取了埃塞俄比亚地区巴罗–阿科博基地作为研究区域,该区域常年降雨导致洪水频发,作者使用ANN模型来对该区域河流径流值进行预测,其中采用土壤湿度指数(TWI)、降雨量、气温以及观测的径流值输入网络,降雨量的输入采用与 [1] 相同的放距离加权法,最终输出的测试集径流值预测结果NSE值为0.88具有较高预测准确度。针对以上问题本问题出一种添加注意力机制的LSTM网络对径流值进行预测,在精度上超过了以往的网络,不但添加了上游径流对下流的影响,还考虑了距离对径流值的影响。
在本文中将采用LSTM网络对目标流域五通桥区径流值进行预测;在这实验过程中发现预测结果在极端值处的效果较差,为了解决这一问题将添加注意力机制来改善。在添加实验结果后得出的准确率较之前在极端值上有较大的提升。相较以往模型的准确率我们的模型在准确率上有提升,对于河道径流值预测有着重大意义。
2. 理论基础
2.1. LSTM (长短期记忆网络)算法
标准的RNN神经网络由于其网络结构的影响,在处理较长序列数据时,由于梯度消失和梯度爆炸等问题,会导致较长时间步的历史信息对输出结果出现迅速衰减或者指数增长等问题。长短期记忆网络的出现是针对这一现象的改进。记忆细胞包含了三个门结构,分别是输入门,遗忘门及输出门,细胞之间传递信息包含当前时间步信息也包含了过去时间步信息。
LSTM记忆单元状态更新公式如下:
(1)
(2)
(3)
(4)
(5)
LSTM结构(见图1)中,
,
,
,
分别为t时刻记忆单元的输入门、遗忘门、细胞状态和输出门;
,
为t时刻记忆单元的输入和输出;W和b为各个门之间对应的权重矩阵和偏置向量;
为sigmoid激活函数。
LSTM [13] 网络组成主要有三个部分遗忘、输入和输出,遗忘部分主要功能是对上个细胞传入信息进行非重要遗忘,就是重要信息记住,非重要的信息选择遗忘;输入部分主要功能是对当期输入细胞进行选择性记忆,非重要的信息加以选择性记忆;输出部分这时候细胞会对信息做出输出处理,此刻的细胞将会将会决定哪些隐藏状态信息将会传入下个细胞,然后重复此过程。
2.2. 注意力机制
注意力机制 [13] 网络是对人的注意力的模拟,通过训练权重可以帮助网络在众多信息中计算选择对当前目标更关键的信息 [14]。本文将不同的时刻的LSTM隐藏状态注意力值量化为0~1之间的权重值,并且所有隐藏值的权重和为1。其注意力的输出计算公式如下:
(6)
(7)
(8)
为注意力层的输出;
为最后一个时间步输出的隐藏状态
为其他细胞输出隐藏状态,
为注意力层偏移值。
3. 模型结构
模型流程图(见图2)第一层是输入层包含了输入水文站以及降雨站。输入后到达LSTM层在这层中输出每个LSTM细胞的隐藏状态,之后就是注意力机制层,该层的主要作用就是五通桥站点与其他站点做相关性得出注意力机制得分计算结果,最后经过全连接层得出最终预测结果。
在注意力机制模块(见图3)中
分别与前面的
到
做相关性计算(如式(9)所示)得出相关性得分系数
到
在有对应得h相乘(如式(10))最后再相加得出注意力机制模块
(如式(11)所示),最终与
一起送入全连接层进行计算,模型的损失函数如图3所示。
(9)
(10)
(11)
4. 实验及结果分析
4.1. 数据及数据预处理
五通桥区位于四川省乐山市,在地理上它位于东经103˚北纬29˚,全区总面积达474平方公里。而五通桥区在河流地理上位于大渡河与岷江交汇处。
本文采用官方获取2012年到2015年间四川省乐山市的水文站径流值(见表1)以及降雨站点(见表2)的降雨量。站点名以及单位如下。
数据归一化,在网络学习中,归一化能极大加快网络学习能够快速收敛同时也防止梯度爆炸和消失。归一化的具体作用是归纳统一样本的统计分布,把数据分布归一在(0, 1)之间概率分布;或者归一在(−1, 1)之间的坐标分布。无论是为了建模还是为了计算,首先基本度量单位要同一, [15] 神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,且sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。归一化是统一在0~1之间的统计概率分布,当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。另外在数据中常存在奇异样本数据,奇异样本数据存在所引起的网络训练时间增加,并可能引起网络无法收敛。为了避免出现这种情况及后面数据处理的方便,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。计算公式如下。
(12)
在公式中
表示要归一化的特征的最小值,
则表示其中的最大值,x是要归一化的值。
4.2. 实验
基于以往模型本文提出一种基于注意力机制的LSTM网络来对目标区域的径流值进行预测,添加注意力机制能将距离对目标区域的影响添加进入网络。且该模型在精度上超越了 [4] 中的结果,使得预测值与真实值之间的差距更小。
本文中所选取的模型在RTX3060型号显卡计算机上进行训练,训练过程中采用训练的轮数是500轮,在模型中保留训练损失(见图4)最小的时刻得出的参数作为模型的使用参数。模型的损失函数选取的是MSE函数。将五通桥区径流量数据第25个时间步作为标签来制作数据集,制作后的数据没64个为一组送入网络进行学习;在全连接层选用sigmoid作为激活函数,而输出层则是Relu为激活函数。
为了验证模型的准确性文中采用了NSE(纳什效率系数)、MSE和RMSE等评价指标。
4.3. 模型评价
4.3.1. Nash-Sutcliffe效率
主要作用就是量化模型的精准度(常用于验证水文模型模拟结构的好坏)。

Figure 4. Loss curve, in which the network gets the optimal parameters 300 rounds ago
图4. Loss曲线图,图中网络在300轮前得到最优参数
(13)
评价表如下。
NSE评价表(见表3),NSE是预测模型对变量的预测值,Qo是观察到的排放(m3/s),Qs是模拟排放(m3/s),Qo是平均排量(m3/s)。NSE取值为负无穷至1,NSE接近1,表示模式质量好,模型可信度高;NSE接近0,表示模拟结果接近观测值的平均值水平,即总体结果可信,但过程模拟误差大;NSE远远小于0,则模型是不可信的。
4.3.2. MSE和RMSE
MSE(均方误差)是参数的估计值与参数的真实值之差平方的期望;MSE的值越小说明实验预测的结构约精确
(14)
RMSE(均方根误差)是参数的估计值与参数的真实值之差平方的根号的期望
(15)
4.4. 模型评价
实验数据采用了四川省五通桥区2015年1月27日到2015年2月28日小时数据用于验证模型的准确性,模型真实值与预测值对比图如下。

Table 4. NSE value comparison before and after adding attention mechanism
表4. 添加注意力机制前后NSE值对比

Figure 5. Comparison chart of predicted value and real value
图5. 预测值与真实值对比图
对比图中(见图5)左图为未添加注意力机制前预测值与真实值的对比图,右图为添加了注意力机制后的预测值与真实值的对比图,结果在测试集上添加注意力机制前的NSE值为0.76添加注意力机制后的NSE值为0.91 (见表4),结果在精度上有较大提升。

Table 5. NSE value comparison between the model and other models
表5. 模型与其他模型NSE值对比
在以往径流值预测中 [4] MLP、 [16] SWAT-ANN和SWAT-MLP/WOA在测试集上NSE值为0.88和0.79以及0.81,准确度有明显的提升(见表5)。其中MSE值为8793,RMSE值为93.77。在未添加注意力机制前预测结果在较大极端值上预测的结果较差,由于模型在没有考虑各个站点由于距离因素各个站点对目标河流区站点径流值得影响;而在添加注意力机制之后考虑到了水文站点和雨量站点距离对目标区域的影响,改善了极端值的影响,充分考虑了距离对目标河流区域站点的影响,使得结果更加具有有效性,真实值与预测值对比图如图5所示。
5. 结束语
本文利用了四川省乐山市12年到15年降雨数据以及水文历史数据,提出了一个基于LSTM网络结构的河流径流值预测模型,该模型通过考虑了上游水文站点以及降雨站点对目标五通桥站点径流值的影响,通过加入注意力机制增加了距离对目标区域径流值的影响,该模型充分考虑了降雨的时空特征。输入为每个小时站点数据进入一个LSTM细胞,然后进行注意力机制层计算最终通过全连接层输出运算结果。实验中2012年到2014年数据参与训练得出最优参数解,而2015年数据用作验证,通过对比真实数据以及预测数据得出本文构建河流径流值模型符合预测要求。利用该模型能够有效的预测目标河流的径流值,在准确度上较以往模型有着明显的提升,这样对于日后洪水灾害的预防以及治理有着至关重要的意义。
在未来工作中将引用更多特征例如蒸发、植被、土壤和其他因素,以进一步提高径流值预测能力,同时可以进一步加入洪水淹没范围预测模型,能够将径流值数据转化为更直接的洪水淹没范围图,能对洪水灾害的预防提供更好的建议。
基金项目
四川国家应用数学中心开放基金重点项目2022-KFJJ-02-001。