1. 研究背景
洪水灾害的数据分析与预测[1]
洪水是暴雨、急剧融冰化雪、风暴潮等自然因素引起的江河湖泊水量迅速增加,或者水位迅猛上涨的一种自然现象,是自然灾害。洪水又称大水,是河流、海洋、湖泊等水体上涨超过一定水位,威胁有关地区的安全,甚至造成灾害的水流。洪水一词,在中国出自先秦《尚书·尧典》。从那时起,四千多年中有过很多次水灾记载,欧洲最早的洪水记载也远在公元前1450年。在西亚的底格里斯–幼发拉底河以及非洲的尼罗河关于洪水的记载,则可追溯到公元前40世纪。2023年6月24日8时至25日8时,中国15条河流发生超警洪水。2023年,全球洪水等造成了数十亿美元的经济损失。
洪水的频率和严重程度与人口增长趋势相当一致。迅猛的人口增长、扩大耕地、围湖造田、乱砍滥伐等人为破坏不断地改变着地表状态,改变了汇流条件,加剧了洪灾程度。在降水多的年份,洪水是否造成灾害,以及洪水灾害的大小,也离不开人为因素,长期以来人为的森林破坏是其重要原因。长江上游乱砍滥伐的恶果是惊人的水土流失。现已达35万平方千米,每年土壤浸融量达25亿吨。河流、湖泊、水库淤积的泥沙量达20亿吨。仅四川一省一年流入长江各支流的泥沙,如叠成宽高各1米的堤,可以围绕地球赤道16圈。我国第一大淡水湖洞庭湖每年沉积的泥沙达1亿多吨,有专家惊呼:“这样下去,要不了50年,洞庭湖将从地球上消失!”长江之险,险在荆江,由于泥沙俱下,如今荆江段河床比江外地面高出十多米,成了除黄河之外名副其实的地上河。对森林的肆意砍伐不仅危害自己,而且祸及子孙后代,世界上许多地方,如美索不达米亚、小亚细亚、阿尔卑斯山南坡等由于过度砍伐森林,最后都变成了不毛之地[2]。
1) 将洪水发生的概率聚类成不同类别,分析具有高、中、低风险的洪水事件的指标特征。
2) 选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型。
3) 最后进行模型的灵敏度分析。
4) 政策制定:制定防洪减灾相关政策,加强洪水预警和应急响应系统。
需要我们对洪水概率数据进行聚类分析,将洪水事件分为高、中、低风险类别。分析不同类别洪水事件的指标特征,计算各指标的权重,建立预警评价模型,并进行模型的灵敏度分析。
1) 聚类分析:使用层次聚类算法,根据洪水发生概率将洪水事件分为高、中、低风险类别。
2) 特征分析:分析不同风险类别的指标特征,找出高风险类别中显著的指标特征。
3) 权重计算:使用因子分析,计算各指标在不同风险类别中的权重。
4) 预警评价模型:建立加权评分模型,对每个洪水事件进行风险评估和预警。
5) 灵敏度分析:通过调整模型参数,评估模型对不同参数变化的敏感性,确保模型的稳定性和可靠性。
2. 数学模型
基于K-means聚类的洪水风险聚类与基于灰色关联分析的预警评价模型[3],模型符号说明见表1。
Table 1. Explanation of terminology symbols
表1. 术语符号说明
术语/符号 |
定义/说明 |
|
季风强度:反映季风对洪水发生的影响。 |
|
地形排水:反映地形和排水条件对洪水的影响。 |
|
河流管理:反映河流管理措施对洪水的影响。 |
|
森林砍伐:反映森林砍伐对洪水的影响。 |
|
城市化:反映城市化水平对洪水的影响。 |
|
气候变化:反映气候变化对洪水的影响。 |
|
大坝质量:反映大坝质量对洪水的影响。 |
|
淤积:反映淤积程度对洪水的影响。 |
|
农业实践:反映农业活动对洪水的影响。 |
|
侵蚀:反映土壤侵蚀对洪水的影响。 |
|
无效防灾:反映防灾措施的有效性对洪水的影响。 |
|
排水系统:反映排水系统对洪水的影响。 |
|
海岸脆弱性:反映海岸脆弱性对洪水的影响。 |
|
滑坡:反映滑坡对洪水的影响。 |
|
流域:反映流域特征对洪水的影响。 |
|
基础设施恶化:反映基础设施状况对洪水的影响。 |
|
人口得分:反映人口密度对洪水的影响。 |
|
湿地损失:反映湿地损失对洪水的影响。 |
|
规划不足:反映规划不足对洪水的影响。 |
|
政策因素:反映政策对洪水的影响。 |
|
每个指标
对应得到分样本下的洪水概率发生值 |
|
总样本下的指标值 |
|
总样本下的洪水概率发生值 |
|
总样本下各指标的均值。 |
|
总样本下各指标对应洪水发生的均值。 |
|
总样本下各指标与洪水发生概率下的皮尔逊相关系数 |
|
各个指标对应的线性回归系数 |
|
线性回归模型的误差项 |
|
洪水是否发生的概率 |
聚类分析模型采用K-means聚类算法对洪水概率进行聚类,以确定洪水风险的高、中、低类别。K-means聚类是一种基于迭代优化的非监督学习方法,其数学原理可以通过以下步骤描述:
1) 初始步骤:选择
个初始聚类中心(即质心),通常随机选取。
Figure 1. Clustering results of flood risk between the top 10 indicators and flood occurrence probability
图1. 前10个指标与洪水发生概率之间的洪水风险聚类结果
Figure 2. Clustering results of flood risk between the latter 10 indicators and flood occurrence probability
图2. 后10个指标与洪水发生概率之间的洪水风险聚类结果
2) 分配步骤:对于数据集中的每个数据点
,计算其与每个质心
的距离,将
分配到距离最近的质心所在的簇。距离通常使用欧氏距离衡量,即:
其中,
是数据的维度,
和
分别表示数据点
和质心
在第
个维度的值。
Figure 3. Evaluation results of flood risk early warning between the top 10 indicators and flood occurrence probability
图3. 前10个指标与洪水发生概率之间的洪水风险预警评价结果
Figure 4. Evaluation results of flood risk early warning between the latter 10 indicators and flood occurrence probability
图4. 后10个指标与洪水发生概率之间的洪水风险预警评价结果
3) 更新步骤:计算每个簇的新质心。新质心是簇中所有数据点的均值,即:
其中,
表示第
个簇的集合,
是簇中数据点的数量。
Figure 5. Output score distribution and error bar chart of the flood risk early warning evaluation model between indicators and flood occurrence probability
图5. 指标与洪水发生概率之间的洪水风险预警评价模型输出评分分布图和误差条形图
Figure 6. Output score distribution and error bar chart of the flood risk early warning evaluation model between indicators and flood occurrence probability.
图6. 指标与洪水发生概率之间的洪水风险预警评价模型输出评分分布图和误差条形图
4) 迭代步骤:重复分配步骤和更新步骤,直到质心位置不再变化或变化小于设定的阈值。K-means聚类的目标是最小化所有数据点到其所属簇质心的距离平方和,即:
其中,
是损失函数,
是聚类的数量,
是第
个簇,
是第
个簇的质心。通过Python绘图,我们得到如图1、图2所示的洪水风险聚类结果。
5) 基于灰色关联分析的洪水预警评价模型:灰色关联分析是一种多变量分析方法,适用于处理数据不完备或信息不确切的情况。在洪水预警评价模型中,符号说明见表1,可以通过以下步骤应用灰色关联分析[4]:
① 数据准备:选择关键因素并对数据进行归一化处理,以确保不同因素处于相同的量纲和尺度。
② 灰色关联度计算:对于第
个因素,计算其与洪水发生概率序列
的关联度。灰色关联度
可通过以下公式计算:
其中,
是关联函数,
是平滑系数,通常取一个很小的正数,以避免分母为零的情况。
③ 确定权重:将计算得到的灰色关联度
标准化为权重
,使得各因素的权重之和为1。
即:
这里,
是因素的总数。
Figure 7. Output score distribution and error bar chart of the flood risk early warning evaluation model between indicators and flood occurrence probability after repeated runs
图7. 重复运行后指标与洪水发生概率之间的洪水风险预警评价模型输出评分分布图和误差条形图
Figure 8. Output score distribution and error bar chart of the flood risk early warning evaluation model between indicators and flood occurrence probability after repeated runs
图8. 重复运行后指标与洪水发生概率之间的洪水风险预警评价模型输出评分分布图和误差条形图
Figure 9. Distribution diagram or error bar chart results of the flood risk early warning evaluation model output scores between indicators and flood occurrence probability after running the model repeatedly for more than 5 times
图9. 重复运行模型5次以上,指标与洪水发生概率之间的洪水风险预警评价模型输出评分的分布图或误差条形图结果
④ 风险等级评估:综合各因素的权重和实际数据,评估洪水的风险等级。高灰色关联度对应高风险,低灰色关联度对应低风险[5]。
通过灰色关联分析,我们可以更准确地评估洪水事件的风险等级,并提供相应的预警建议和管理措施,以降低潜在的洪水影响。
通过Python画图我们得到如图3、图4所示的洪水风险预警评价结果。
由图3、图4,我们容易看出基础设施恶化、地形排水、排水系统、季风强度、气候变化这些指标是洪水高风险预警评价等级最相关的指标,人口得分、农业实践、海岸脆弱性这些指标是洪水低风险预警评价等级最不相关的指标。
灵敏度分析:为保证模型输出稳定性,我们重复运行模型5次以上,比较多次运行的结果,分析模型输出的一致性和稳定性。绘制模型输出评分的分布图或误差条形图,以展示模型在不同运行中输出结果的变化情况。通过Python画图,我们得到如图5~9所示的洪水风险预警评价模型输出评分的分布图或误差条形图结果(这里只展示最佳的一次结果,更多结果见[6])。
由图9,容易观察得到我们的模型灵敏度较高,重复运行模型5次以上之后,指标与洪水发生概率之间的洪水风险预警评价模型输出评分的分布符合正态分布,误差较小。
3. 研究结论
基于K-means聚类和灰色关联分析的基础理论模型[7],我们建立了具体的洪水风险聚类和预警评价结果,如图1~4所示,通过这些图的结果,我们发现基础设施恶化、地形排水、排水系统、季风强度、气候变化这些指标是洪水高风险预警评价等级最相关的指标,人口得分、农业实践、海岸脆弱性这些指标是洪水低风险预警评价等级最不相关的指标。
另外,为保证模型输出稳定性,我们重复运行模型5次以上,比较多次运行的结果,分析模型输出的一致性和稳定性。绘制模型输出评分的分布图或误差条形图,以展示我们的模型在不同运行中输出结果的变化情况。
得到如图5~9所示的洪水风险预警评价模型输出评分的分布图或误差条形图结果。并由此说明我们的模型灵敏度较高,重复运行模型5次以上之后,指标与洪水发生概率之间的洪水风险预警评价模型输出评分的分布符合正态分布[8],误差较小,说明我们的模型拟合度较高、较合理。