1. 引言
元阳梯田位于中国云南省红河哈尼族彝族自治州元阳县,该区域地表切割强烈,海拔变化显著,降水充沛,自2013年元阳梯田成功申请成为世界文化遗产保护区后,该区域人类活动显著增加加剧了地质灾害的风险,在多种自然环境和人类活动因素的影响下该区域的滑坡呈现出多发、高发的态势。这样的情况不仅严重制约着该区域的发展而且还威胁着人民的生命财产安全,通过滑坡易发性评估可以分析影响滑坡发生的因素定量化评估该区域滑坡发生的可能性与风险程度,可以及时预警滑坡灾害的发生。因此,对此区域进行滑坡易发性评估研究对于科学制定防灾减灾策略、保护人民生命财产安全具有重要意义[1]。
在滑坡易发性评估中评价单元是评估的基础,直接影响易发性评估结果的精度和可靠性。目前研究常用的是栅格单元和斜坡单元两种,其中栅格单元因为形状规则、结构简单被广泛应用[2],但是滑坡通常由一系列相互作用的地质和水文过程驱动,在高山深谷或陡峭地形中,滑坡常以坡面为单位,使用栅格单元的划分方法会破坏天然斜坡的整体性,可能使得数据在空间上被割裂,降低单元与滑坡影响因子之间的联系,影响易发性评估结果的精度。相比而言斜坡单元可以弥补栅格单元中存在的不足,它根据地形特征划分以分水岭线和汇水线为边界,将大区域划分为彼此独立的小单元,与实际地形地貌的吻合度高,能较好地体现区域斜坡的整体性和滑坡的实际发育状况[3]。然而目前在该区域的滑坡易发性评估研究大多都是基于栅格单元,对使用斜坡单元的滑坡易发性评估研究较少。
因此,针对研究区存在的问题本文通过引入斜坡单元作为评价的基本单元进行斜坡单元滑坡易发性评估。目前的滑坡易发性评估研究多是使用数据驱动的的机器学习模型如随机森林和支持向量机等模型。不同模型使用不同的评价单元的滑坡影响因子会得到不同的结果。因此,本文通过构建随机森林和支持向量机模型进行不同评价单元的滑坡易发性评估并对其进行分析,旨在为梯田区滑坡易发性评估研究的评价单元和机器学习模型的选择提供借鉴,并且为元阳县地质灾害防治与土地利用规划提供科学的参考和依据。
2. 研究区与数据
2.1. 研究区概况
元阳梯田位于云南红河哈尼族彝族自治州元阳县,接壤云南与广西,地理坐标为22˚49'~23˚19'N,102˚27'~103˚13'E。研究区如图1所示,位于横断山和哀牢山的东部,靠近元江与藤条江,面积为183.63 km2,共有524处滑坡,每平方千米约有3处滑坡。这是由于元阳梯田地区地表切割强烈,丘陵起伏,沟壑纵横,坡陡谷深,海拔高度变化显著,最高达2881米,最低仅604米。气候属亚热带季风气候,年降水量充沛,集中在夏季。地质条件复杂,以易软化、崩解的砂岩、片麻岩、变粒岩为主。近年来,在哈尼梯田成功申请成为世界物质文化遗产后,红河哈尼梯田吸引了大量游客,与旅游相关的人类活动加剧,部分区域的植被遭受破坏,特别是道路建设和梯田的开垦对区域生态系统稳定性构成威胁。加剧了研究区滑坡、泥石流等地质灾害的发生频率。
Figure 1. study area map
图1. 研究区图
2.2. 数据源
滑坡易发性评估选择合适的数据至关重要,结合研究区的特点选择了地貌、地质、水文和人文共20个滑坡影响因子[4]。所使用的数据来源如表1所示。
Table 1. Sources of research data
表1. 研究数据来源
其中有8个地貌因子包括:数字高程模型数据、坡度、坡向、曲率、地形起伏度、地形粗糙度、地表切割深度、高程变异系数;岩性、断层、土壤类型3个地质因子;降雨量、距离河流的距离、水流强度指数、地形湿度指数、土壤侵蚀指数5个水文因子;距离道路距离、土地利用、归一化植被指数、遥感生态指数4个人文因子。
3. 研究方法
传统的滑坡易发性评估研究仅使用栅格单元忽略了斜坡单元内滑坡影响因子效能作用,存在明显不足。基于此,研究将斜坡单元作为研究区的基本单元基于机器学习模型开展滑坡易发性评估。研究方法分为4个部分。
1) 栅格单元滑坡影响因子提取。使用ArcGis将不同数据来源的滑坡影响因子统一坐标系,统一分辨率为30 M。对于岩性、土壤类型等离散型影响因子按照其属性进行栅格化处理,对于降雨、遥感生态指数、数字高程模型等连续型数据则将其统一坐标系和分辨率即可。
2) 斜坡单元影响因子提取。基于的数字高程模型数据使用水文斜坡分析法,以6000阈值提取斜坡单元并使用斜坡单元以栅格单元滑坡影响因子为基础提取斜坡单元滑坡影响因子[3]。
3) 滑坡影响因子多重共线性检验。对生成滑坡影响因子进行多重共线性检验,剔除存在共线性的因子。
4) 滑坡易发性评估与分析。使用不同评价单元提取的滑坡影响因子结合随机森林模型和支持向量机模型进行滑坡易发性评估研究。最后使用(Receiver Operator Characteristic, ROC)曲线下的面积(Area Under Curve, AUC)值对结果进行评定。
3.1. 斜坡单元
滑坡评价单元的选取十分重要,它是进行滑坡易发性研究的基础。使用水文分析法提取斜坡单元。该方法的原理如图2所示。该方法是一种基于地形和水文特征的划分方法,它将研究区域按照坡面流向、地形特性和水文过程划分为多个单独的空间单元,利用正反数字高程数据量化流向和流量进而提取流域的边界线,之后通过河流链进一步生成研究区的正反集水面并对其进行合并处理生成斜坡单元,最后修正那些会影响斜坡单元合理性的破碎、拉长的不合理单元。水文分析法不仅考虑当前的地形条件,还综合考虑降水、径流等水文活动,可以最大限度的反映研究区水文环境条件和地势起伏情况,有助于提高滑坡易发性评估结果的可靠性[5]。
Figure 2. Hydrological slope unit extraction schematic
图2. 水文斜坡单元提取原理图
3.2. 多重共线性检验
用于滑坡易发性评估研究的影响因子间如果存在共线性,则表示因子中可能会包含一些冗余的信息增加数据的复杂度,还会使滑坡易发性评价结果偏离真实情况,降低模型的可靠性和稳定性[6]。基于此在进行滑坡易发性评估之前为避免滑坡影响因子间共线性,使用多重共线性检验剔除存在共线性和相关性的因子,即VIF小于10或者TOL大于0.1的影响因子。其计算方法如公式(1)所示。
(1)
其中
表示第i个因子与其他因子的多重相关系数的平方和,Rij表示第i个因子与第j个因子之间的相关系数。一般认为,当VIF大于10时或者TOL小于0.1时可能存在严重的多重共线性。
3.3. 机器学习模型
3.3.1. 模型优化
研究使用粒子群算法来对机器学习模型进行参数选择与优化保证模型的性能,粒子群优化是一种基于群体智能的全局优化算法,其核心思想是模拟生物群体寻找食物的行为,通过粒子在搜索空间内的位置和速度更新来寻找最优解,如式(2)和(3)所示。
(2)
(3)
其中v是速度更新,x是位置更新
是粒子i在第t轮的速度;
是粒子i在第t轮的位置;是惯性权重;c1,c2是学习因子;r1,r2是随机数;pBesti是粒子i的历史最佳位置;gBest整个种群的历史最佳位置。
3.3.2. 支持向量机
支持向量机是一种由Vapnik在1995年提出的非线性分类和回归的机器学习方法,原理为结构风险最小化,通过构建一个高维特征空间中的决策超平面,然后利用核函数将输入的滑坡影响因子特征映射到高维特征空间以寻找最佳的分离超平面[7]。将经验误差和不确定性最小化提高模型的泛化能力。其中最优超平面可以通过以下函数求解:
(4)
式中,(xi, yi)为样本数据;w为确定超平面方向的权重向量;b为偏差;
为松弛变量;c为惩罚因子,控制对超出误差的样本的惩罚程度。基于对偶理论,该函数可以转化为一个等价的对偶问题:
(5)
式中,
为拉格朗日乘数;c为惩罚项。
用于新数据分类的决策函数为:
(6)
式中
是核函数;b为偏差。
使用粒子群算法优化支持向量机模型的惩罚参数C,在避免模型过拟合的同时保持良好的分类性能,优化了其在处理小样本、高维数据时的泛化能力以及收敛速度保证了模型的性能。
3.3.3. 随机森林模型
随机森林(Random Forest, RF)通过结合Bagging的思想和随机特征选择的方法构建多个决策树来完成分类或回归任务[8]。该模型引入随机决策树避免了模型过拟合提高预测精度,随机森林模型的原理如图3所示。研究使用粒子群算法优化随机森林模型的关键参数如决策树数量、最大特征数、最大树深度等。其中决策树数量为150,选择最大特征数为12,最大树深度为35。
随机森林模型在滑坡易发性中的应用主要有训练和预测两个阶段。在训练阶段会随机生成大量的决策树,每一棵树都随机有放回地从训练集中抽取m个训练样本作为该树的训练集,从训练集中随机选择一部分特征子集训练该决策树模型。每次树进行分裂时根据基尼指数最小化准则进行分裂形成二叉树,分裂后的节点按照同样规则继续分枝到满足分枝停止规则或者基尼指数为0的时候停止分裂。在预测阶段,每棵树都独立产生滑坡易感性评估结果,将所有决策树的预测结果取平均值得到最终输出结果。
Figure 3. Schematic diagram of the principle of the random forest model
图3. 随机森林模型原理示意图
4. 结果
4.1. 斜坡单元提取结果
斜坡单元对以斜坡作为基本单元能够较好的体现研究区的地形地貌特征,对滑坡有较好的控制作用。作为滑坡易发性评估的基本单元其在一定程度上会直接影响滑坡易发性的结果,因此研究使用水文分析法基于数字高程模型数据提取出适合研究区的斜坡单元,首先将水文分析法的阈值设定为8000,6000,3000,12,000四种情况,对结果进行对比分析后选择阈值6000情况下的斜坡单元,其与实地情况最为吻合。结合遥感影像分析其在梯田、丘陵、高山区的具体划分结果。如图4所示,此阈值下的斜坡单元无论是在梯田、丘陵还是高山区都有出色的结果,与实际地形地貌都很贴合。
Figure 4. Plot of slope unit extraction results, (a) is the slope extraction results in terraced area, (b) is the slope extraction results in high mountainous area, (c) is the slope extraction results in hilly area
图4. 斜坡单元提取结果图,(a)是梯田区域斜坡提取结果,(b)是高山区斜坡提取结果,(c)是丘陵区斜坡提取结果
4.2. 影响因子多重共线性检验结果
滑坡易发性评估使用的数据集共有20个滑坡影响因子,使用多重共线性检验剔除方差大于10,容差小于0.1的共线性滑坡影响因子,其中地表起伏度、地形粗糙度、地表切割深度、高程变异系数以及降雨量这5个影响因子的容差约等于0存在共线性情况将之剔除。剩余的滑坡影响因子如图5所示,其容差都大于0.1,方差都小于10,证明不存在共线性情况可以用于后续的滑坡易发性评估研究。
Figure 5. Plot of covariance test results
图5. 共线性检验结果图
4.3. 滑坡易发性评估结果
针对研究区存在的问题本文通过使用不同的机器学习模型和不同的评价单元对元阳梯田进行滑坡易发性评估研究。
4.3.1. 随机森林模型评价单元对比分析
研究使用随机森林模型分别进行了栅格单元和斜坡单元的滑坡易发性评估,使用自然断点法将其分为极低易发区、低易发区、中易发区、高易发区和极高易发区,结果如图6所示。
(a) (b)
(c)
Figure 6. Plot of the results of the different evaluation units based on the Random Forest Model, (a) is the result of the slope unit susceptibility assessment based on the Random Forest Model, (b) is the result of the grid unit susceptibility assessment based on the Random Forest Model, and (c) is the result of the AUC assessment
图6. 基于随机森林模型的不同评价单元结果图,(a)是基于随机森林模型的斜坡单元易发性评估结果,(b)是基于随机森林模型的栅格单元易发性评估结果,(c)是AUC评估结果
基于随机森林模型的斜坡单元滑坡易发性评估结果的AUC值为0.913,而栅格单元的滑坡易发性评估结果的AUC为0.880,斜坡单元滑坡易发性评估结果的AUC值更高。如图所示在滑坡易发性评估结果中高和极高易发区主要是集中在研究区的西南部和北部,两种评价单元的滑坡易发性结果分布趋势较为一致,在南部高和极高易发区主要分布在断裂带和道路附近,极低易发区分布在远离道路和断裂带的东部,这说明对道路的修建以及断裂带的活动是该区域造成滑坡的主要因素。虽然两个结果的易发性等级分布存在一致的部分但是仍然存在差异,主要是在东北部以及西南部区域而且从精度上分析证明基于随机森林模型的斜坡单元滑坡易发性评估具有更好的结果。
4.3.2. 支持向量机模型评价单元对比分析
使用支持向量机模型分别进行了栅格单元和斜坡单元的滑坡易发性评估,使用自然断点法将其分为5个等级结果如图7所示。
(a) (b)
(c)
Figure 7. Plot of the results of different evaluation units based on the support vector machine model, (a) is the result of the slope unit susceptibility assessment based on the support vector machine model, (b) is the result of the raster unit susceptibility assessment based on the support vector machine model, and (c) is the result of the AUC assessment
图7. 基于支持向量机模型的不同评价单元结果图,(a)是基于支持向量机模型的斜坡单元易发性评估结果,(b)是基于支持向量机模型的栅格单元易发性评估结果,(c)是AUC评估结果
基于支持向量机模型的斜坡单元滑坡易发性评估结果的AUC值为0.892,而栅格单元的滑坡易发性评估结果的AUC为0.865,斜坡单元滑坡易发性评估结果的AUC值更高。如图所示在滑坡易发性评估结果中高和极高易发区主要是集中在研究区的西南部和北部,两种评价单元的滑坡易发性结果的差异主要是在南部,在南部靠近断裂带和道路附近的区域是高和极高易发区但是在栅格单元的易发性结果中这块区域更多的是中、低易发区,存在不合理性。结合精度评估分析证明基于斜坡单元的滑坡易发性评估具有更好的结果。
4.3.3. 模型对比
研究使用随机森林模型和支持向量机模型分别进行了斜坡单元的滑坡易发性评估,使用自然断点法将其分为极低易发区、低易发区、中易发区、高易发区和极高易发区,结果如图8所示。
(a) (b)
(c)
Figure 8. Plot of landslide susceptibility results for slope units based on branching different models, (a) is the result of slope unit susceptibility assessment based on Random Forest model, (b) is the result of slope unit susceptibility assessment based on Support Vector Machine model, (c) is the result of AUC assessment
图8. 基于不同模型的斜坡单元滑坡易发性结果图,(a)是基于随机森林模型的斜坡单元易发性评估结果,(b)是基于支持向量机模型的斜坡单元易发性评估结果,(c)是AUC评估结果
基于随机森林模型的斜坡单元滑坡易发性评估结果的AUC值为0.913,而基于支持向量机模型的滑坡易发性评估结果的AUC为0.892,随机森林模型的滑坡易发性评估结果的AUC值更高。如图所示在随机森林模型滑坡易发性评估结果中高和极高易发区主要是集中在研究区的西南部和北部,两种模型的滑坡易发性结果差异主要是在北部区域,两者相比支持向量机的结果在北部主要是中易发区而随机森林模型的结果是以高和极高易发区为主,结合精度对比分析证明支持向量机的结果对滑坡高危险区评估存在不足,导致精度低于随机森林模型。
4.3.4. 不同尺度斜坡单元对比
研究使用不同尺度的斜坡单元提取出滑坡影响因子然后基于随机森林模型分别进行了3000、6000、8000、12,000尺度的斜坡单元滑坡易发性评估,并对其进行对比分析。结果如图9所示,其中(a)是6000尺度下的滑坡易发性评估结果,(b)是3000尺度下的滑坡易发性评估结果,(c)是8000尺度下的滑坡易发性评估结果,(d)是12,000尺度下的滑坡易发性评估结果,(e)是AUC评估结果。
(a) (b)
(c) (d)
(e)
Figure 9. Landslide susceptibility results based on slope units at different scales. (a) Susceptibility assessment results for slope units at a scale of 6000, (b) Susceptibility assessment results for slope units at a scale of 3000, (c) Susceptibility assessment results for slope units at a scale of 8000, (d) Susceptibility assessment results for slope units at a scale of 12,000, (e) AUC evaluation results
图9. 基于不同尺度的斜坡单元滑坡易发性结果图,(a)是6000尺度的斜坡单元易发性评估结果,(b)是3000尺度的斜坡单元易发性评估结果,(c)是8000尺度的斜坡单元易发性评估结果,(d)是12,000尺度的斜坡单元易发性评估结果,(e)是AUC评估结果
基于随机森林模型的6000尺度的斜坡单元滑坡易发性评估结果的AUC值为0.913,3000尺度的滑坡易发性评估结果的AUC值为0.873,8000尺度的滑坡易发性评估结果的AUC值为0.868,12,000尺度的滑坡易发性评估结果的AUC值为0.851。6000尺度拥有最高的精度,而其它尺度的结果虽然都具有不错的精度和可靠性,但是仍然没有6000尺度的高。而且发现在其他尺度的易发性评估结果中会出现低估或者高估的现象在研究区的南部和东北部区域。这证明不同的尺度的斜坡单元会影响结果的精度和可靠性,在进行斜坡单元滑坡易发性评估研究时需要选择合适的尺度进行评估。
综上,斜坡单元和随机森林模型的组合与栅格单元和支持向量机模型分别对比后证明斜坡单元与随机森林模型组合在6000尺度下的滑坡易发性评估结果精度最高分布最合理。所以在斜坡单元滑坡易发性评估研究中需要关注斜坡单元的尺度以及模型的选择问题。
5. 结论
1) 两种评价单元和两种评价模型的易发性结果在空间上分布较为一致,极高易发区分布在南部接近断裂带和道路的附近,极低易发区则是分布研究区东部远离道路和活动岩层的地域。斜坡单元的滑坡易发性评估相较于栅格单元的滑坡易发性评估结果在随机森林和支持向量机模型中分别提高了3.3%和2.1%,表明斜坡单元确实是适合该区域的评价单元,它的使用提高了易发性结果的精度。
2) 随机森林在栅格评价单元内比支持向量机模型的精度高1.5%,在斜坡单元内比支持向量机模型的精度高2.1%。表明随机森林模型相较于支持向量机模型更适用于该研究区的易发性评估研究。
3) 使用不同尺度的斜坡单元提取出滑坡影响因子然后基于随机森林模型分别进行了3000、6000、8000、12,000尺度的斜坡单元滑坡易发性评估。在6000尺度下进行的斜坡单元滑坡易发性评估具有最高的精度达到0.913。表明尺度在斜坡单元滑坡易发性评估研究中是需要关注的问题,而且在此研究区中6000是合适的尺度。
综上,针对研究区存在的问题本文通过使用不同的机器学习模型和不同的评价单元对元阳梯田进行滑坡易发性评估研究。证明随机森林模型和斜坡单元的组合是最适用该区域滑坡易发性评估的组合。