1. 引言
中长期径流预报的预见期通常为3天以上,1年以内。与短期径流预报相比,中长期径流预报对判研水库中长期水情变化,制定更加科学的防洪调度、发电调度方案具有重要指导意义 [1]。随着区域水资源的统一调度管理的加强,对中长期径流预报精度要求也越来越高 [2]。受气象因素、下垫面等多种因素的影响,径流序列呈现出随机性与不确定性,而中长期优化调度结果十分依赖径流预报精度,因此寻求合适的方法对中长期入库径流进行准确预报意义重大。
根据预报机理不同,中长期径流预报可分为基于模型驱动的机理分析模型和数据分析的数据驱动模型两大类。前者将气象预报信息输入到具有产汇流机制的水文预报模型中进行径流预报,然后受前期影响雨量与气象预报精度的影响,预报精度有待提高。后者为基于数据分析的数据驱动模型,通过构建径流与相关影响因子的统计模型,以影响因子的实测值作为输入,从而开展中长期径流预报。随着计算机技术的发展与普及,基于数据分析的数据驱动模型逐渐成为中长期径流预报研究的重点。基于时间序列分析的数据驱动模型(如滑动平均自动回归模型等)以及其改进策略最早应用与中长期径流预报 [3] [4],之后神经网络、支持向量基等模型广泛应用于中长期径流预报,并取得了较为精确的预报结果 [5] [6]。
基于数据驱动的中长期径流预报,大都以实测历史径流作为模型的输入,较少的考虑中长期气象预报对径流预报的影响,随着数值天气预报技术与计算机技术的发展,中长期气象预报精度越来越高。因此在中长期径流预报过程中很有必要考虑气象预报因素对中长期径流预报精度的影响 [7]。因此本文提出一种基于气象相似性和BP神经网络相结合的中长期径流预报方法,首先基于信息熵因子筛选法获得影响中长期入库流量变化的关键因子,并对各个因子权重进行校核后模糊聚类分析,再将聚类后的因子集输入到BP神经网络中进而对中长期径流进行预报,最后开展一个月的中长期径流预报,并与支持向量机、滑动平均自动回归模型预报结果相比验证了所提方法的有效性。
2. 求解方法与策略
2.1. 偏互信息法
偏互信息法(partial mutual information, PMI),既能度量输入变量与输出结果的线性与非线性关系,也可消除互信息的耦合对预报结果的影响,从而保证了变量选择的可靠性与准确性 [8] [9]。针对中长期径流预报影响因子筛选来说,偏互信息能有效剔除已选预测因子对新加入预测因子的影响,能有效计算出新加入的预测因子(特征量)与预测流量的相关性。偏互信息可按下述策略进行求解。
(1)
(2)
(3)
式中:fX(xi)与fY(yi)分别表示随机变量X、Y的边缘概率密度函数;fX,Y(xi,yi)表示X、Y的联合概率密度函数;E为随机变量的数学期望;x为选择的输入变量;y为需要预报值;B表示选择的随机变量集合;x、y分别表示排除B影响的x与y的残差值。
针对偏互信息中随机变量的边缘密度分布函数和联合分布密度函数估计,采用高斯函数作为核函数估计样本的概率密度 [10]。
(4)
式中:f表示随机变量X在xi处的密度函数估计值;d为x的维数;S为随机变量X的协方差矩阵;det S为S的行列式;λ为核密度估计的窗口宽度,根据经验 [11],λ可表示为:
(5)
偏互信息的显著性检验标准可按Hampel显著性检验,从而确定选择边界 [12]。计算公式为:
(6)
(7)
式中:
与
分别表示为Mx与PMI的中位数;Lx为显著性边界对于备选因子x,若Lx > 3则认为备选输入因子与预报对象显著相关。
2.2. 聚类分析
聚类分析的基本原理是认为所研究的样本的影响因子之间存在相似性,通过一定的手段和方法,将数据分类到不同的类或者簇这样的一个过程,使得相同类或簇间差异尽可能的小,不同类或簇间差异尽可能大的方法。聚类分析具有广泛的实用价值,然而实际过程中,分类往往具有模糊性,分类并不是两者是否有关,而是关系的深浅,故采用模糊数学语言更加贴合实际。因此本文采用模糊数学的方法确定样本的亲疏程度,从而实现样本分类。假设共有n个影响因子,影响中长期径流预报结果,并把
记为第i预测阶段的特征向量。为了描述任何两个阶段的相似程度,引入了相似度的概念,设共有i、j两个阶段,其因素量化指标Mi、Mj则这两个阶段的相似性为:
(8)
通常来讲,i,j两个阶段影响因素越接近,相似度Ri,j就越大。
2.3. BP神经网络
BP神经网络是按照误差逆传播算法训练的多层前置网络,能根据误差值不断调整网络的权重和阀值,从而使预测值逼近实际值。BP神经网络具有三层结构,具有很强的映射能力,被广泛应用于水文预报中。详情参考文献 [13] [14]。
2.4. 评价指标
为评价中长期流量预测结果的合理性,引入归一化的平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)、均方根误差(Root Mean Squared Error, RMSE)、平均百分比误差(Mean Absolute Percentage Errors, MAPE)与确定性系数(Deterministic Coefficient, DC)、合格率(Qualified Rate, QE)对预测结果进行评价。根据《水文情报预测规范》(GB/T 22482-2008)规定,中长期径流预报误差小于20%为合格。依据预报等级评价表,对预报精度进行进一步评价。
3. 应用分析
以我国南方地区酉水流域凤滩水库为例,验证所提方法的有效性。该流域面积为17,500 km2,处于亚热带季风气候,平均温度17.6摄氏度。降雨主要集中在3~6月,约占全年的60%,雨量充沛,降雨集中,中长期径流预报难度较大。流域内的预报降雨与蒸发数据根据流域内的27个气象站,采用泰森多边形计算得到。本次计算选取2011年1月~2020年12月共计10年的数据实测径流与气象预报数据进行研究对未来15日的平均径流进行预报。
3.1. 预测因子选取
采用偏互信息法对备选输入变量的遴选分为两个阶段。首先确定可能影响径流的关键影响因子,经过分析预报降雨、降雨时间、蒸发等信息可能影响中长期日平均径流预报结果,根据经验备选的影响因子如表1所示。在此基础上将上一阶段选出的输入变量重新组合备选输入变量,再次采用偏互信息法剔除相互影响的冗余变量,计算结果如表2所示,
、
、
、
的
均大于3,可认为其对中长期日平均径流预报结果影响较大。最终计算结果见表2。

Table 1. Candidate factors affecting long-term runoff process change
表1. 中长期径流过程变化影响候选因子

Table 2. Final selection results of input variables by partial mutual information method in this calculation
表2. 偏互信息法对输入变量的最终遴选结果
3.2. 聚类分析与权重校核
在聚类分析前为了使中长期径流预报结果具有代表性,分别在汛期、过渡期、枯水期进行权重率定。首先确定初始解,由于逐日平均降雨量、逐日6小时最大降雨量、逐日6小时最大降雨量的起始时间、预测前15日逐日平均径流对径流预报影响较大,其初始解的范围均设置为
。按逐日平均降雨量、逐日6小时最大降雨量、逐日6小时最大降雨量的起始时间、预测前15日逐日平均径流特征量的顺序采用逐步优化的方式分别对其权重进行校核,给定精度
。表3给出了最优预报结果的权重值。

Table 3. Optimal weight of each eigenvalue
表3. 各特征值最优权重
3.3. 预测结果分析
训练集取2011年1月~2016年12月的实测径流数据与气象预报数据,验证集取2017年1月~2018年12月的实测径流数据与气象预报数据,测试集选取2019年1月~2020年12月的实测径流数据与气象预报数据。为验证所提方法的有效性,取2020年12月份测试集数据进行验证,三种模型的逐日滚动预测效果如表4所示。

Table 4. Comparison between the prediction results of each model and the actual situation
表4. 各模型预报结果与实际对比
注:最大值差、最小值差:表示径流处于最大值、最小值时预测值与实际值之差。
从表4中可以直观看出,BP神经网络的预测效果最好,这是由于BP神经网络的容错能力与泛化能力较强。采用BP神经网络的RMSE为9.76%,小于支持向量基的13.03%、数据驱动模型的18.20%。采用BP网络预测最大值与最小值预测效果均优于支持向量机、数据驱动模型,说明BP预测结果更能反应预测曲线拐点变化情况,更接近真实预测效果。
为了进一步验证聚类前后,BP神经网络的预测效果,分别选取丰水期(A1)、平水期(A2)、枯水期(A3)未来15日逐日径流预报,选取最优的15日径流预报结果,如图1所示:
(a)
(b)
(c)
Figure 1. (a) Forecast results of wet season; (b) Forecast results of normal water period; (c) Forecast results in low water period
图1. (a) 丰水期预报结果;(b) 平水期预报结果;(c) 枯水期预报结果

Table 5. Prediction results of A1, A2, A3 BP before and after clustering
表5. 聚类前后A1,A2,A3 BP预测结果
根据图1,对时段A1,A2,A3三个时段分析,可以看出,采用本文提出的方法,预测得到的日平均明显比只采用BP神经网络预测效果,预测曲线更加接近真实值。其原因是聚类后增加的BP神经模型的泛化能力,使得预测效果更好,具体结果见表5。本章采用的方法充分的利用历史资料与气象预报资料,对15日平均径流进行预测,预测精度相对较高。

Table 6. Qualified rate and certainty coefficient of BP prediction results before and after clustering
表6. 聚类前后BP预测结果合格率与确定性系数
由表6可以看出,丰水期、平水期、枯水期聚类后采用BP网络预测合格率为86.67%、93.33%、100%,确定性系数为0.91、0.93、0.94预测等级达到甲级标准。聚类后采用神经网络对日平均径流预测结果的合格率、确定性系数均高于聚类前。
基金项目
特别感谢“水电工程水文气象重大关键技术应用研究课题一——水文气象及流域水电开发大数据平台研究设计”提供的资金支持。
参考文献