1. 引言
雨量站作为水文数据监测的主要设施分布范围广泛、数量大,大量的雨量站在监测降雨数据时难免出现缺测、漏测、错报等异常情况。降雨数据作为水文模型输入数据,数据的质量和真实性对模型输出的结果具有很大的影响。水文模型的输出结果又将影响洪水预报、水资源分配、水库调度[1]等实际生产过程。在建模过程中水文工作者需要准备多年的降雨资料作为模型的输入,面对大量的雨量数据如何精确筛选出异常站点的数据,对流域精细化水文模拟具有重要作用。通过站点筛选在降低密度的条件下,为水文模型提供优质的数据输入能否对水文模拟的精度有所提高,需要通过实验设计进一步探究剔除区域异常雨量数据前后对水文模型模拟精度具有怎样的影响。
异常值是偏离群体的离群值[2],在流域内雨量站监测的异常降雨数据表现为降雨过程或记录的数值不符合降雨规律。目前,异常检测技术主要包括统计学法、深度学习(Deep Learning, DL)、机器学习(Machine Learning, ML)三大类[3]。降雨数据的异常检测多采用统计学的方法,如Hampel法、格拉布斯准则,拉依达准则等方法。统计学方法通过计算数据的统计量作为置信区间,将超出区间范围的降雨数据视为异常[4]-[6]。刘秀林等人采用格拉布斯准则对累积雨量值进行检测,筛选出可疑站点的年降雨数据[7]。高月明等人将拉依达准则、肖维勒准则、格拉布斯检验、狄克逊检验等统计学方法运用到空间维度上检测某点上的雨量是否异常[8]。田济扬等人将Hampel法、格拉布斯准则与雷达辅助校验结合进行大规模降雨监测数据的异常识别[9]。Chaudhary U等人通过变异系数、偏度、峰度等统计量来识别雨量数据中的异常值[10]。深度学习通过构建多层的神经网络结构,对海量数据进行训练从中提取到复杂的特征,进而提供精准的预测结果[11]。对于水文时间序列数据,大多采用长短期记忆(Long Short-Term Memory, LSTM)网络模型学习时间特征,并结合其他检测算法构建耦合模型[12] [13],通过模拟预测来识别异常数据。机器学习是通过各种算法组合从大量样本中“学习”规律,然后利用规律对数据样本进行分类、预测[14],其中聚类算法是将数据集中的相似度高的样本放在同一簇,相似度低的样本放在不同簇中,实现对数据集中异常样本的检测。
DBSCAN是一种基于密度聚类的算法,可适应任意形状分布的数据聚类,不需要设定聚类的簇数,且能有效识别出其中存在的异常点[15]。在一定区域范围内,雨量站点监测的降雨数据具有一定的相关性[16] [17],因此,可采用DBSCAN聚类算法对流域内的降雨数据进行聚类检测出异常值。而DBSCAN聚类算法受到邻域半径(Eps)和邻域半径内最小数据点个数(Minpts)两个参数的影响[18] [19]。为了提高聚类结果的准确性,许多学者对聚类算法的参数选择进行了大量研究[20]-[22]。Jahirabadkar等人根据数据的分布情况确定参数来适应密度变化的数据集[23]。JH Kim等人提出了近似自适应密度聚类算法(AA-DBSCAN)确定Eps参数,提高了聚类性能[24]。Khan等人提出ADBSCAN算法自动确定合适的Eps和Minpts值以识别数据集中的所有聚类[25]。
为研究降雨数据输入对水文模型模拟精度的影响,本文以鄱阳湖乐安河流域作为研究区域,对雨量站中存在缺测异常的降雨数据进行检测,通过剔除存在异常的雨量站点数据来提升水文模型输入的质量。首先根据距离权重计算出雨量站的降雨过程缺测指数、降雨过程相似指数;其次根据计算的降雨过程指数通过DBSCAN聚类算法对站点的缺测异常、奇异点进行检测;最后通过实验设计探究不同降雨数据输入下对水文模型模拟的影响。
2. 研究区概况及数据
乐安河流域位于江西省东北部,发源于江西省婺源县鄣公山南麓,自东向西最终流入鄱阳湖,流域面积8376 km2。本文的研究区域位于乐安河香屯站以上的闭合流域,该流域面积3893 km2,包括84个雨量站点,流域内雨量站点之间的平均距离为31.9 km,每个站点包含8年的降雨监测数据。研究区各雨量站点的分布情况见图1。
图1. 研究区雨量站点分布图
3. 研究方法
本文对降雨数据缺测异常进行检测,分别从缺测检测和奇异点检测对雨量站点进行筛选,然后对研究区域的香屯站构建集总式新安江模型,对剔除异常雨量站前后的1 h、3 h、6 h时段长方案分别进行水文模拟,探究不同降雨数据输入对新安江模型模拟精度的影响。本文研究总体流程图如图2所示。
图2. 研究总体流程图
3.1. 降雨过程缺测指数
区域内雨量站点的空间分布会影响雨量监测数据的相似性,为了体现邻近站点雨量数据的相似性高于偏远站点引入距离权重(Distance weighting, DW),本文选用高斯函数计算雨量站点的距离权重,公式如下:
(1)
式中:
表示站点间的直线距离;
表示最大权重值;
表示最小站点间的距离值;
为调节站点间最大距离对应最小权重的参数值。
降雨过程缺测指数(Rainfall process missing index, RPMI),用来描述中心站点相对其他站点在相同时间段内降雨数据缺测情况的大小,将需要计算的站点记为中心站点,公式如下:
(2)
式中:
表示中心站点与第
个站点在相同时间段内未监测出降雨数据的个数;
表示中心站点与第
个站点间的距离权重。
3.2. 降雨过程相似指数
站点的降雨过程相似指数(Rainfall process similarity index, RPSI)用来描述雨量站点之间监测的降雨过程的相似程度,将计算的降雨过程相似指数进行归一化,公式如下:
(3)
(4)
(5)
式中:
是中心站点的雨量数据与第
个站点雨量数据之间的欧式距离;
为区域内雨量站的个数;
为雨量站降雨数据的时刻个数。
3.3. DBSCAN聚类
DBSCAN聚类算法是一种基于密度的空间聚类算法,根据数据集在空间上的密集程度作为聚类的依据,因此不需要设定聚类的簇数。DBSCAN聚类算法可实现任意分布数据的聚类,并有效地识别出异常点。图3是DBSCAN聚类算法聚类过程示意图。
图3. DBSCAN聚类算法聚类示意图
图3中DBSCAN聚类算法的邻域半径Eps取7,邻域内最小数据点个数Minpts取4。从核心点A开始搜索,在Eps范围内包括B、C、F三个数据点,由于F点在Eps范围内未能达到Minpts的需求,所以F点为边界点。核心点由A点传播到B点,在核心点B的Eps范围内包含的数据点达到Minpts的需求。以此类推,核心点从A点传播到D点,当传播到达E点时,由于在其Eps范围内未达到Minpts的要求,所以E点也为边界点,聚类结束。图中红色数据点超出各个核心点的Eps范围并且未能由其他核心点进行传播,即为异常点。通过上述过程最终A~F数据点被聚为一类,其余数据点被识别为异常点。
3.4. 奇异点检测
格拉布斯准则是通过衡量离群点远离样本均值的程度来判断该离群点是否异常[8],为了消除同侧异常值的屏蔽效应将原式中的平均数替换为中位数[26]。通过格拉布斯准则对区域内雨量站点的年累积雨量进行检测,筛选出年累计雨量存在异常的雨量站点。公式如下:
(6)
(7)
(8)
式中:
,
分别是样本序列
排序后的最大值和最小值;
为样本序列
的中位数;
为样本序列
的标准差。
格拉布斯准则判别异常过程如下,其中
为统计临界系数通过查格拉布斯临界值表获得,若
且
,则判断
为异常值并剔除;若
且
,则判断
为异常值并剔除;若
且
,则不存在异常值。若存在异常值,将其剔除之后用剩余样本重新上述过程,直到无异常值被剔除。
将格拉布斯准则筛选的可疑站点和DBSCAN聚类算法对降雨过程相似指数检测的可疑站点,通过与邻近非可疑站点在相同时间段内的监测雨量值进行雨量等级对比,当可疑站点的某一时段的雨量值与邻近站点相同时段的雨量值相差都超过一个雨量等级时[9],且监测的降雨值为0,则判断可疑站点在此时间段的监测雨量值为奇异点。表1为降雨等级划分表。
表1. 降雨等级划分表
等级 |
雨量(mm) |
1 h |
3 h |
6 h |
12 h |
24 h |
小雨 |
0.1~1.5 |
0.1~2.9 |
0.1~3.9 |
0.1~4.9 |
0.1~9.9 |
中雨 |
1.6~6.9 |
3~9.9 |
4~12.9 |
5~14.9 |
10~24.9 |
大雨 |
7~14.9 |
10~19.9 |
13~24.9 |
15~29.9 |
25~49.9 |
暴雨 |
15~39.9 |
20~49.9 |
25~59.9 |
30~69.9 |
50~99.9 |
大暴雨 |
40~49.9 |
50~69.9 |
60~119.9 |
70~139.9 |
100~249.9 |
特大暴雨 |
≥50 |
≥70 |
≥120 |
≥140 |
≥250 |
注:参考气象部门降雨等级划分规范。
3.5. 模型率定和检验
本文采用纳西效率系数(NS),水量模拟的相对误差(Re)作为模型模拟效果的评价指标[27]。NS系数反映模型模拟的整体效果,当NS越接近1时,说明模型模拟得越好;Re为正值说明模拟值高于真实值,为负值则说明模拟值低于真实值,当Re越接近0时说明模型模拟的结果越好。
4. 结果分析
4.1. 站点间距离权重计算结果
根据公式(1)计算距离权重,其中参数a取1,参数b取0,参数c根据最大站点距离对应的权重值为0.01反算求得。如图4所示为研究区域站点间的距离权重计算结果图,图中颜色越偏向橙色说明站点间的距离越近,计算的距离权重越接近1,监测降雨数据的相似性越高;颜色越偏向蓝色说明站点间的距离越远,计算的距离权重越接近0,监测降雨数据的相似性越低。
图4. 研究区域站点间的距离权重结果图
图5. 研究区2016年各站点月降雨缺失指数
4.2. 基于距离权重计算的降雨数据指数
以3 h时段长方案为例,图5为研究区2016年各站每个月份的降雨过程缺测指数计算结果,图6为研究区2016~2023年站点的降雨过程相似指数计算结果。
图6. 研究区2016~2023年各站点降雨过程相似指数
通过DBSCAN聚类算法对每年各月站点的降雨过程缺测指数进行聚类,检测出异常站点。将缺测站点检测的结果进行人工核对,检测结果的召回率如表2所示,召回率为实际为正的样本中被预测为正样本的百分比。从表2结果中可以表明本文缺测站点检测方法的召回率达到75%以上,可以有效地检测出缺测站点。
表2. 研究区3 h时段长方案缺测站点检测率
年份 |
2016 |
2017 |
2018 |
2019 |
2020 |
2021 |
2022 |
2023 |
召回率 |
100% |
81% |
78% |
86% |
75% |
88% |
92% |
100% |
4.3. 异常站点检测对新安江模型模拟结果分析
为了比较流域内异常雨量站点检测对水文模型的模拟精度的影响,在乐安河流域香屯站以上的闭合流域建立集总式新安江模型,分别对1 h、3 h、6 h时段长的雨量数据进行水文模拟,采用泰森多边形分别计算检测异常雨量站点前后流域的平均面雨量。本研究将2016~2021年共6年雨量数据作为模型的率定期,2022年、2023年两年作为模型的检验期。新安江模型参数采用合作搜索算法(Cooperative Search Algorithm, CSA)搜寻全局最优的参数。根据本文的检测方法对研究区域2016至2023年站点1 h、3 h、6 h时段长的雨量数据进行逐年检测。表3为不同时段长方案异常雨量站点检测结果统计表。
流域异常雨量站点检测前后模型率定结果见表4。从表4可以看出经过异常雨量站检测后不同时段长方案的香屯站新安江模型率定期模拟过程的纳西效率系数均在0.896以上,水量模拟的相对误差均在−29.1%以内,检验期模拟过程的纳西效率系数均在0.929以上,水量模拟的相对误差均在−28.9%以内;未经过异常雨量站检测的不同时段长方案的香屯站新安江模型率定期模拟过程的纳西效率系数均在0.869以上,水量模拟的相对误差均在−39.8%以内,检验期模拟过程的纳西效率系数均在0.916以上,水量模拟的相对误差均在−33.7%以内。
图7至图9所示为香屯站1 h、3 h、6 h时段长方案模拟年径流总量结果对比图。由结果对比图可知通过检测异常雨量站点的不同时段长方案模拟的平均年径流总量更接近实测总量,并且经过异常雨量站点检测的1 h、3 h、6 h时段长方案模拟的平均年水量相对误差分别为−29.5%、−28.3%、−26%,而未经过异常雨量站点检测的1 h、3 h、6 h时段长方案模拟的平均年水量相对误差分别为−28.5%、−34.7%、−39.1%。根据以上分析结果可知,通过检测异常站点后的香屯站新安江模型模拟的流量过程相比未检测异常站点的模拟流量过程更接近实测值,说明通过去除流域内异常雨量站点的数据可以提升新安江模型模拟的精度。
表3. 研究区1 h、3 h、6 h时段长方案异常站点检测结果统计表
方案 |
2016年 |
2017年 |
2018年 |
2019年 |
2020年 |
2021年 |
2022年 |
2023年 |
1 h |
10 |
27 |
10 |
14 |
13 |
18 |
21 |
12 |
3 h |
15 |
23 |
10 |
12 |
6 |
19 |
17 |
12 |
6 h |
10 |
30 |
14 |
9 |
5 |
16 |
13 |
13 |
表4. 香屯站新安江模型率定结果表
方案 |
率定期(2016~2021年) |
检验期(2022~2023年) |
NS |
Re (%) |
NS |
Re (%) |
1 h |
检测 |
0.917 |
−29.1 |
0.931 |
−28.9 |
未检测 |
0.916 |
−29.3 |
0.939 |
−23.0 |
3 h |
检测 |
0.918 |
−27.4 |
0.937 |
−28.7 |
未检测 |
0.869 |
−35.5 |
0.916 |
−29.1 |
6 h |
检测 |
0.896 |
−25.5 |
0.929 |
−26.5 |
未检测 |
0.892 |
−39.8 |
0.926 |
−33.7 |
图7. 香屯站1 h时段长方案模拟年径流总量结果对比
图8. 香屯站3 h时段长方案模拟年径流总量结果对比
图9. 香屯站6 h时段长方案模拟年径流总量结果对比
5. 结论
基于本文提出的区域异常雨量站点检测的方法,对香屯站以上的闭合流域建立集总式新安江模型,分别建立1 h、3 h、6 h时段长方案。其中经过异常雨量站点检测的模型率定期纳西效率系数均为0.896以上,验证期纳西效率系数均为0.929以上;未经过异常雨量站点检测的模型率定期纳西效率系数均为0.869以上,验证期纳西效率系数均为0.916以上。经过异常雨量站点检测1 h时段长方案平均年水量相对误差为−29.5%,3 h时段长方案平均年水量相对误差为−28.3%,6 h时段长方案平均年水量相对误差为−26%;未经过异常雨量站点检测1 h时段长方案平均年水量相对误差为−28.5%,3 h时段长方案平均年水量相对误差为−34.7%,6 h时段长方案平均年水量相对误差为−39.1%。说明通过本文的检测方法在剔除异常雨量站之后可以提高水文模型模拟的精度,可为流域精细化水文数据模拟提供思路和方法。
基金项目
长江流域智慧化产汇流及洪水预报模型研究(SKR-2022011水利部重大科技项目);长江上游山坡径流模拟与山洪形成机理(U2240216国家自然科学基金长江水科学研究联合基金重点支持项目)。
NOTES
作者简介:马振亮(1999.12.30-),安徽阜阳人,硕士研究生,研究方向为水文学与水资源。Email: 2016826573@qq.com