基于信息量模型与随机森林模型的滑坡易发性评价——以海东市为例
Landslide Susceptibility Assessment Based on Information Volume Model and Random Forest Model—Taking Haidong City as an Example
DOI: 10.12677/sa.2025.143080, PDF, HTML, XML,   
作者: 常锦春, 程传美, 牛鹏飞:浙江师范大学地理与环境科学学院,浙江 金华
关键词: 地质灾害信息量模型随机森林易发性评价Geological Hazards Information Model Random Forest Susceptibility Assessment
摘要: 为进一步推进塔吉克斯坦地区的地质灾害评估工作,本文采用信息量模型和随机森林模型对海东市的滑坡灾害进行易发性评价,并通过ROC曲线对这两种模型的性能进行了评估。结果表明,信息量模型与随机森林模型均表现出良好的分类能力,然而随机森林模型的表现更优于信息量模型。信息量模型在对相关因子的分级分析中表现卓越,能够有效识别某因子分级内对滑坡影响最深的区间。而随机森林模型则在衡量因子的相对重要性方面具有优势。两种模型各具特色,结合使用能够更全面地掌握滑坡灾害的成因与易发性,为后续的地质灾害防治措施提供科学依据。
Abstract: To further advance the assessment of geological disasters in the Tajikistan region, this paper employs the information value model and the random forest model to evaluate the susceptibility to landslides in Haidong City, and assesses the performance of these two models using ROC curves. The results indicate that both the information value model and the random forest model demonstrate good classification capabilities; however, the random forest model outperforms the information value model. The information value model excels in the graded analysis of relevant factors, effectively identifying the intervals within a factor’s grading that have the most significant impact on landslides. In contrast, the random forest model has an advantage in measuring the relative importance of factors. Each model has its unique characteristics, and their combined use can provide a more comprehensive understanding of the causes and susceptibility of landslide disasters, offering a scientific basis for subsequent geological disaster prevention and control measures.
文章引用:常锦春, 程传美, 牛鹏飞. 基于信息量模型与随机森林模型的滑坡易发性评价——以海东市为例[J]. 统计学与应用, 2025, 14(3): 293-306. https://doi.org/10.12677/sa.2025.143080

1. 引言

塔吉克斯坦地处中亚地区,位于喜马拉雅山脉和帕米尔高原的交汇处,地势高峻,地形复杂,气候属典型的大陆性气候,气温变化明显,降水稀少[1]。塔国境内滑坡灾害频发,给当地居民的居住和生产带来了极大的困扰,同时也对一带一路的建设和运营产生了潜在的威胁[2]

海东市位于青海省东部与甘肃省的交界处,处于青藏高原的东部边缘,地处祁连山与青海南山之间,地质构造复杂多样。气候属温带大陆性气候。由于海东市降水条件以及总体地形条件和地质构造特征与塔吉克斯坦存在相似之处,特别是在高山地区。通过研究海东市滑坡,可以深入了解滑坡发生的机制、条件及其与地质结构、地形、降水等因素的关系。这些知识对于塔吉克斯坦高山地区的滑坡风险评估和防灾减灾措施制定具有重要指导意义。

地质灾害易发性评价是对引发地质灾害的多种环境因素进行综合评估,以预测地质灾害发生空间概率的方法,是对潜在灾害环境的定量评估[3]。在过去几十年中,各种地质灾害易发性评估模型已经建立并得到广泛的应用[4]-[7]。这些模型通常可分为定性模型和定量模型,其中定量模型又可进一步分为物理定量模型和数据驱动模型[3]。一般来说,物理模型的建立是基于精确的土壤力学参数、水文环境因素、以及滑坡体类型与特征等重要指标之上的,因此该模型的应用,尤其是在大区域范围内是十分有限的[8]。数据驱动模型主要包括以频率比法[9] [10]、证据权重法[11] [12]、信息量法[13] [14]等为代表的通用统计模型,和以决策树[15]、随机森林[16]、逻辑回归[17]、支持向量机[18]以及人工神经网络[19]等为代表的机器学习模型。相比之下,数据驱动模型只需使用一定数量的样本数据即可预估大面积的滑坡易发性指数,[20]。因此,数据驱动模型更适用于大型研究领域的易发性评价。然而,就哪种模型最适用于地质灾害易发性评价这一问题目前尚无定论,对于不同研究区域而言,哪种模型能够发挥更好的作用也未可知。因此,研究和比较多种不同模型以获取可靠的易发性评价结果仍然是一个备受关注的议题[21]-[24]

本文选取海东市作为研究对象,综合利用信息量法和随机森林模型,对该区滑坡灾害易发性进行定量分析,从而为该区日后的灾害防治提供指导,为塔国地质灾害的预测和防治提供科学依据,助力一带一路更好的建设与运营。

2. 研究方法

2.1. 信息量法

信息量法(Information Value, IV)是一种用于特征选择和变量重要性评估的统计方法,常用于评分模型、风险模型等领域。它的核心思想是利用信息熵来综合衡量一个变量对预测目标的影响程度。地质灾害是在多种因素相互作用下形成的,通过对各致灾因子信息量的计算和加权叠加,可以评估该因子对地质灾害发生的贡献程度,建立地质灾害易发性评价模型。公式如下:

Y i = N i N ÷ S i S

I= i=1 n log Y i

I为总信息量值,Ni表示每个因子分级里面灾害点的数量,N表示研究区内灾害点总数,Si表示各因子分级的面积,S表示研究区总面积。I越大,则滑坡发生的概率越大。

2.2. 随机森林

随机森林(Random Forest)是一种集成学习方法,通常用于分类和回归任务。它通过构建多棵决策树并对它们的结果进行平均来提高预测准确性和泛化能力。上世纪八十年代Breima等人发明分类树的算法[25],通过反复二分数据进行分类或回归。

决策树是一种树形结构,由根节点、分支、叶子节点组成,每一个节点表示一个类,分支表示由某特征取值划分的子特征类型,叶子特征表示最终的分类结果。决策树算法使用信息增益的方法来实现最优节点特征的选择。

信息增益(InformationGain, IG)是一种基于熵的概念构建的用来定量评估不同因子对事件发生的贡献率大小的方法[26] [27]。熵是指某一能量在空间中分布的均匀程度,熵越大,表示能量的能量分布越均匀,不确定性越高。信息增益则表示在某一种状态下,信息熵的降低程度。假设随机变量x的信息熵为H(x),在随机变量y的特征条件下观测到x的信息熵为H(x|y),信息增益值为:

IG( X,Y )=H( X )H( X|Y )

信息增益越大,该变量不确定性的降低程度越高,换句话说也就是在该特征条件下越趋向于稳定,该条件的贡献率越高。

假设总数据集S中有n个元组: R i ( i=1,2,3,,n ) ,将这些元组分为m个独立的类: C j ( j=1,2,3,,m ) ,该数据集S的熵定义为:

E( S )= j=1 m p i log 2 p i

Pi为任意元组Ri属于Cj的概率,即Cj类别中Ri的数量除以集合S中元组的总数n。当概率值越接近于1时,熵值越低,表明分类的不确定性越低,分类效果越好。首先计算初始集合的熵值,然后将每一个因子作为分类条件,进行分类后再计算子类的熵值,并进行相加得到总熵值,再与初始熵值进行比较,二者的差值就是信息增益值,表示不确定性的降低程度越大,分类效果越好,由此筛选出最适合做根节点的因子。

2001年Breiman把分类树组合成随机森林[28],即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。其主要步骤如下:

1) 随机抽样

使用自助法重采样技术(Bootstrap抽样)从训练数据中随机选择样本,用于每棵决策树的训练。这意味着每棵树的训练集可能会有重复的样本,也可能会有部分样本未被选择到。

2) 随机特征选择

在每次节点分裂时,从所有特征中随机选择一部分特征来作为候选特征。这确保了每棵决策树的构建都是在不同的特征子集上进行的。

3) 建立多棵决策树

通过上述随机抽样和随机特征选择的方式,构建多棵决策树。每棵树都独立地学习和做出预测。

4) 集成预测

对于分类问题,随机森林通过投票机制(多数表决)来确定最终的预测结果;对于回归问题,取多棵树预测结果的平均值作为最终预测值。

随机森林通常能够提供比单棵决策树更高的准确性和更好的泛化能力,对于高维数据和大规模数据集的处理,通过并行计算来加速训练过程,在运算量与运算时间没有显著提高的前提下却能够提高预测精度,且由于使用了随机抽样和特征选择,每棵树的构建相对独立,可以有效减少过拟合的风险,已经被广泛应用于金融、医疗、生态学等领域。

2.3. ROC曲线

ROC曲线(Receiver Operating Characteristic Curve),又称为受试者工作特性曲线,是一种用于评估分类模型性能的方法,被广泛应用于机器学习领域[29]。ROC曲线的横坐标是假正例率(False Positive Rate, FPR),表示模型错误识别负例为正例的比率;纵坐标是真正例率(True Positive Rate, TPR),表示模型正确识别正例的比率。它通过绘制不同阈值下FPR与TPR的点所组成的曲线来展示模型的性能。曲线下面积(Area Under the Curve, AUC)是评估模型性能的一个重要指标,AUC值越接近1,表明模型的性能越好。计算公式为:

TPR= TP TP+FN

FPR= FP FP+TN

其中TP是真正例(True Positive),FN是假负例(False Negative),FP是假正例(False Positive),TN是真负例(True Negative)。

3. 研究区概况

3.1. 研究区概况

海东市位于我国青海省东部,地处青藏高原的东北边缘,东临甘肃省,南接西宁,西界海北藏族自治州,北部与甘肃省相邻。其地理坐标大约为北纬36˚36',东经102˚06'。海东市下辖区县共11个,分别是平安县、乐都区、民和回族土族自治县、互助土族自治县、化隆回族自治县、循化撒拉族自治县、东川区及大通回族土族自治县。海东市地处青藏高原与黄土高原的过渡地带,地势南北高,中部低,南部为垃脊山脉,北部为达坂山脉,其间为湟水谷地,地貌以山地、丘陵和平原为主。流经该区域的主要河流有湟水河和大通河。气候属于典型的高原半干旱气候,年均温度在4℃至8℃之间,降水量少且主要集中在夏季。海东市的地质构造受到青藏高原和周边地质环境的影响,地质单元复杂,主要的地质单元包括祁连山地块、藏南拉脊山地向斜褶皱带以及湟水河谷凹陷区。古生代变质岩和中生代沉积岩分布广泛,新生代第四系上更新统马兰组风积黄土,主要分布于湟水谷地以及浅山区。复杂的地质背景和水文条件,使得该地区地质灾害发生的风险极高[30]

Figure 1. Overview map of the study area

1. 研究区概况图

3.2. 数据来源

① 地形数据以研究区90 m分辨率DEM数据为基础,在ArcGIS软件中使用表面分析工具,提取坡度、坡向信息;② 地质数据来源于中国地质调查局发展研究中心和国土资源部咨询研究中心产出的《1:250万数字地质图空间数据库》,使用ArcGIS软件对岩性数据进行栅格化处理,并对距断层的距离建立不同等级的缓冲区,得到研究区距断层的距离和岩性两个因子;③ 降水数据使用2022年中国1 km分辨率年均降水量数据,在arcgis软件中进行重分类;④ 水系数据来源于Open Street Map网站,原始数据是osm格式的,需要将其转化为shp格式,并建立不同等级的缓冲区,得到距离水体的距离。⑤ 植被覆盖数据使用中国科学院地理科学与资源研究所土地利用与全球变化遥感团队生产的2020年中国30 m年最大NDVI数据,该数据集空间分辨率为30 m,在ArcGIS软件中进行重分类处理;⑥ 将道路作为人类活动对地质灾害产生的影响代表性评价因子,数据来源于Open Street Map网站,建立不同等级的道路缓冲区,得到距离道路的距离。本文所使用的滑坡灾害点编录数据来源于全球灾害数据平台 (https://www.gddat.cn/)。

3.3. 评价因子

评价因子的选择与处理对滑坡易发性评价至关重要[31]。本文在借鉴前人评价因子体系的基础上,通过对海东市地质灾害发育特征以及时空分布规律的分析,从地形地貌、水文气象、地质条件、植被覆盖和人类活动五个方面选择了相关指标因子。研究区内地质灾害的分布在垂直高程上具有明显不均匀性,高程较低区域滑坡形成的物质基础较松散,人类工程活动比较多,导致高程较高的区域较高程低的区域滑坡发生频次多[32];坡度是滑坡的重要影响因子,是滑坡易发性评价的重要参数之一[33];不同的坡向会造成温度、光照、湿度、降雨等的差异,从而导致地表覆盖物的差异,进而造成物理风化和化学分化作用的差异,影响滑坡的发生[34]。岩土体的结构和强度特征直接影响斜坡的稳定性,断层是岩石中由于构造应力而产生的破裂带,断层带通常伴随着岩体结构破坏、力学性质改变以及地下水活动等,使得滑坡风险大大增加[35]。河流的下切侵蚀作用使得陡壁和悬崖发育,波浪冲击会对坡岸产生显著的影响,从而为滑坡的发生提供条件。其次植被覆盖度作为生态环境质量的一个重要参数,直接影响着土壤侵蚀程度和坡面改造程度[36]。道路建设严重改变了山区的边坡稳定性,大大增加了滑坡发生的概率,是研究区内具代表性的人类工程活动[37]。结合前人研究成果、研究区域特点、滑坡发生的机制以及可利用的数据源,本文选取了高程、坡向、坡度、岩性、距离断层、归一化植被指数、年平均降水量、距离河流和距离道路等9个因子来进行滑坡易发性评价。为了确保数据类型的一致性,首先对各个连续型因子进行了离散化处理,如图1所示。为了避免环境因子之间的共线性问题,本研究采用了SPSS软件对这9个环境因子进行了相关分析。分析结果显示,所有因子之间相关系数最大值仅为0.451,这表明这些环境因子之间的相关性较弱,互不干扰。因此,这9个因子可以被有效地用于海东市的滑坡易发性评价。

4. 易发性评价模型

4.1. 信息量模型

将各评价因子分级栅格图与滑坡灾害点分布图叠加,将各个评价因子中各类别的统计结果代入式(1),即可得出各评价因子中各分级分别对滑坡灾害发生所贡献的信息量值(见表1)。

据表可知,地质灾害集中发生于高程2000~3000 m处,大于4000 m处几乎没有地质灾害发生;此外计算结果表明坡度10~30度是滑坡高发区,随着坡度的升高,滑坡发生的概率降低,两者呈负相关;坡向信息量整体较低,东坡和东南坡向略优于西坡和北坡。同时在砂质粘土夹砂层、砂砾层透镜体、底部为砾石层的区域与砂岩、泥岩、粉砂岩与石膏岩互层分布区滑坡发生频率较高,即软硬互层的岩体,或岩体中含有夹层的岩体分布区域,容易发生滑坡,而滑坡发生与距离断层的距离关系在本研究区中关系甚微。分析表明,首先,当前的地质灾害编录数据的精度存在不足之处;其次,本评价模型将复杂的地质灾害现象简化为一个单一的点,这一处理方式在一定程度上导致了提取信息的偏差,从而可能影响到整体的分析结果和决策支持。从水分条件上看,滑坡集中发生在年降水量400~500毫米区间,降水量大的地区反而滑坡发生频率较小,考虑可能是降水量较大的区域往往植被丰富,有助于稳定土体,或长期遭受雨水冲刷松散物质积累匮乏。河流对地质灾害的发育表现出一定的距离效应,从滑坡分布来看,河网密度越大,地质灾害越集中,距离河流200~400 m区间内,信息量值越大,随着距离的增加河流对滑坡灾害发育的影响逐渐变小。此外,滑坡还集中发生在NDVI值0.4~0.5区间,与植被之间也存在密切的关系。在距离道路1.2 km范围以内,信息量值均较大于0,超过1.2 km信息量值为负,这表明以道路为代表的人类活动也对滑坡的发生起到一定的作用。

Table 1. Information value of each environmental factor

1. 环境因子信息量值

因子

分级

灾害点 个数

总灾害 个数

分级栅格 数量

分级栅格 面积(m2)

栅格总面积 (万km2)

信息量值

水系/m

0~200

13

363

533334

480000600

1300.22

−0.030

200~400

27

363

512548

461293200

1300.22

0.740

400~600

13

363

496257

446631300

1300.22

0.042

600~800

11

363

483419

435077100

1300.22

−0.099

800~1000

5

363

474027

426624300

1300.22

−0.868

1000~1200

13

363

463404

417063600

1300.22

0.110

>1200

281

363

11483893

10335503700

1300.22

−0.027

降水/mm

300~400

10

363

1047

721278300

1295.20

−0.704

400~500

345

363

11087

7637834300

1295.20

0.477

500~600

7

363

5819

4008709100

1295.20

−2.776

>600

/

363

848

584187200

1295.20

−18.914

DEM/m

1000~2000

5

363

756873

610463487

1300.00

−1.227

2000~3000

356

363

10513454

8479731458

1300.00

0.408

3000~4000

2

363

4637621

3740519594

1300.00

−3.956

>4000

/

363

208542

168201636

1300.00

−17.665

坡度/(˚)

0~10

93

363

3737179

3014259094

1300.00

0.098

10~20

69

363

4234698

3415538019

1300.00

−0.325

20~30

184

363

5190956

4186817471

1300.00

0.452

30~40

10

363

2344309

1890825867

1300.00

−1.665

40~50

1

363

529169

426806549

1300.00

−2.480

>50

/

363

56338

45439977

1300.00

−16.358

坡向

平面

/

363

72119

58168301

1300.00

−16.605

27

363

1714727

1383030209

1300.00

−0.359

东北

45

363

1898224

1531031549

1300.00

0.050

46

363

2316003

1867995380

1300.00

−0.127

东南

50

363

2077323

1675485639

1300.00

0.065

45

363

1848392

1490839052

1300.00

0.076

西南

39

363

1952306

1574651927

1300.00

−0.121

西

51

363

2275014

1834935292

1300.00

−0.006

西北

58

363

1938541

1563549629

1300.00

0.282

断层/m

>1800

333

363

10955518

9859966200

1300.00

0.190

续表

1500~1800

4

363

466973

420275700

1300.21

−1.076

1200~1500

6

363

511545

460390500

1300.21

−0.762

900~1200

5

363

558101

502290900

1300.21

−1.031

600~900

8

363

608511

547659900

1300.21

−0.648

300~600

3

363

653720

588348000

1300.21

−1.700

<300

3

363

692380

623142000

1300.21

−1.758

道路/m

>1200

163

363

8592806

7630755440

1302.95

−0.266

1000~1200

27

363

771070

684741003

1302.95

0.347

800~1000

23

363

833245

739954890

1302.95

0.109

600~800

30

363

903563

802400087

1302.95

0.294

400~600

36

363

995853

884357298

1302.95

0.379

200~400

34

363

1130142

1003611302

1302.95

0.196

<200

49

363

1445497

1283659156

1302.95

0.315

NDVI

−0.02~0.1

/

363

82214

59934006

1309.94

−16.625

0.1~0.2

/

363

17566

12805614

1309.94

−15.082

0.2~0.3

2

363

318669

232309701

1309.94

−1.169

0.3~0.4

37

363

2338973

1705111317

1309.94

−0.245

0.4~0.5

206

363

5463795

3983106555

1309.94

0.624

0.5~0.6

109

363

5655272

4122693288

1309.94

−0.047

>0.6

8

363

4092467

2983408443

1309.94

−2.335

岩性

1

/

363

419812

377830800

1300.22

−18.474

2

/

363

10634

9570600

1300.22

−14.798

3

1

363

182575

164317500

1300.22

−1.523

4

7

363

746286

671657400

1300.22

−0.985

5

/

363

486888

438199200

1300.22

−18.622

6

3

363

462440

416196000

1300.22

−1.354

7

95

363

2758755

2482879500

1300.22

0.315

8

15

363

1755385

1579846500

1300.22

−1.079

9

1

363

1182228

1064005200

1300.22

−3.391

10

204

363

5796654

5216988600

1300.22

0.337

11

1

363

632584

569325600

1300.22

−2.766

12

/

363

12620

11358000

1300.22

−14.970

4.2. 随机森林模型

在建模过程中,样本数据集需要包含正例(滑坡)和非正例(非滑坡) [38],本文非正例样本通过ArcGIS软件随机产生,正例样本与非正例样本个数比例为1:1,样本总数为726。将总样本数据集划分为训练集和测试集两部分,分别占总数据集的70%和30%,训练集用于训练模型,而测试集用于评估模型的性能。

在Pycharm软件中,使用python语言对数据进行归一化处理。数据归一化是预处理数据的重要步骤之一,主要目的是将不同量纲的特征转换到同一范围内,以便进行更有效地分析和建模。常见的归一化方法有最小–最大归一化(Min-Max Normalization)和Z-score标准化(Standardization)。本文使用的是最小–最大归一化将数据缩放到[0, 1]的区间[39]。公式如下:

X = X X min X max X min

参数调整是提升模型性能的重要步骤,它可以显著影响模型的预测能力和泛化能力。随机森林模型常用的参数有:森林中决策树的数量(n_estimators)、每棵树的最大深度(max_depth)、内部节点再分裂所需的最小样本数(min_samples_split)、叶子节点所需的最小样本数(min_samples_leaf)、考虑寻找最佳分裂时的最大特征数(max_features)、是否使用自助采样(bootstrap)。通常来讲n_estimators数量越大,效果往往越好,同时计算时间也会随之增加。但要注意的是,当树的数量超过一个临界值之后,算法的效果并不会很显著地变好[40]。本文选取n_estimators和max_depths两个超参数值对模型进行优化。袋外误差(Out Of Bag)是指在生成随机森林的决策树时,袋外数据的观测值与预测值之间的差异,本质上是预测新样本时的泛化误差。由图可知,max_depths为30时,模型整体误差最低。随着森林中决策树的数量的增加,误判率在快速下降,在决策树为100棵左右的时候,整体的误判率达到最低,并趋于稳定。此时模型的均方误差MSE为0.032,R-squared为0.871,表明模型效果较好。基于最优参数得到的模型目标方程为:0.197 × DEM + 0.050 × 坡度 + 0.019 × 坡向 + 0.137 × NDVI + 0.440 × 降水 + 0.097 × 岩性 + 0.035 × 断层 + 0.016 × 道路 + 0.010 × 水系。

Figure 2. OOB curve of the random forest model

2. 随机森林模型OOB曲线图

训练后的随机森林模型包含每个特征的重要性属性,据图可知,在这些因子中,年平均降雨量和岩性是最重要的两个因子,其重要性均超过20%,表明它们对滑坡发生的影响最大。其次是高程和NDVI。距离断层的距离、坡向、坡度、距道路距离和距离水体的距离对断层的影响程度均小于10%,位于最后几位。

将研究区划分为100 m × 100 m的网格作为评价单元。使用训练好的随机森林模型对研究区网格进行预测。将随机森林模型计算出的易发性指数导入到ArcGIS中,利用ArcGIS中几何间隔法将易发性指数划分为5个等级(极低、较低、中等、较高、极高)以绘制研究区。

Figure 3. Feature importance

3. 特征重要性

Figure 4. Susceptibility classification map

4. 易发性评价分级图

4.3. 模型评估

ROC曲线(Receiver Operating Characteristic Curve)是评估分类模型性能的一种常用方法,通过在不同阈值下绘制FPR和TPR来展示模型的性能。曲线下的面积(AUC, Area Under Curve)可以用来量化模型的分类能力,值越接近1,模型性能越好。从模型预测结果的ROC曲线图(图5)可以明显看出,尽管信息量模型的AUC值略低于随机森林模型,但0.836的AUC值仍然指示该模型能够有效区分正负样本,并且在实际应用中也是具有参考价值的。随机森林模型的0.851 AUC值则表明其在分类任务中的性能更优。

为了验证信息量法、随机森林模型在滑坡易发性评价中的合理性,我们将实际滑坡位置作为验证数据,统计各易发性等级下的滑坡数量、滑坡百分比、栅格数量、栅格百分比以及滑坡密度(表2)。结果显示,各易发性分级区域的面积占总面积的百分比分别为:13.8%、34.1%、23.3%、10%、18.6%。其中大约10%的滑坡发生在低易发区、较低易发区和中易发区,而90%的滑坡均发生于较高易发区和高易发区。高易发区的面积仅占总区域的18.6%,而该区的滑坡数量却占总滑坡数量的51.2%,这一结果进一步验证了模型在滑坡易发性评价中的有效性和可靠性。

Figure 5. ROC curve

5. ROC曲线图

Table 2. System resulting data of standard experiment

2. 标准试验系统结果数据

易发性分级

栅格数量

栅格百分比

滑坡点个数

滑坡点百分比

滑坡密度

5703

0.138

1

0.002

0.014

较低

14074

0.341

17

0.046

0.135

9652

0.233

16

0.044

0.189

较高

4116

0.1

141

0.388

3.88

7670

0.186

186

0.512

2.753

5. 结果与讨论

本文运用信息量模型和随机森林模型,选取9个评价因子对海东市滑坡易发性进行了评估。通过ROC曲线对两种模型的精度进行比较,结果表明,随机森林模型的效果优于信息量模型。为验证模型的合理性,对区域滑坡样本与易发性分级的栅格数量统计进行,结果显示高易发区和较高易发区的滑坡密度最大,这与实际情况相吻合。因此,本研究使用的方法为塔吉克斯坦的滑坡预测提供了有效的参考。信息量模型结果说明高程与降水是滑坡发生的限制性环境因子,在此基础上,滑坡集中发生于归一化植被指数在0.4~0.5区间,坡度在10~30度区间,且位于道路集中区或水系延展区的抗剪强度较低的软弱岩体或软硬互层岩体,坡向与断层对该区域滑坡发生的作用较小。随机森林模型显示,降水与岩性是滑坡发生的最重要的因子,其次是高程和NDVI。

致 谢

谨向我的导师伍永秋教授致以最诚挚的谢意,您严谨的治学态度与悉心指导为研究指明了方向。感谢实验室同窗的协作支持,家人朋友的鼓励陪伴,以及评审专家们的宝贵意见,在此一并致以最深切的感激。

参考文献

[1] 孔锋, 申丹娜, 吕丽莉, 等. “一带一路”沿线综合气象灾害防范国际合作[J]. 阅江学刊, 2017, 9(6): 69-75+142.
[2] 刘大文. “一带一路”地质调查工作刍议[J]. 中国地质, 2015, 42(4): 819-827.
[3] Corominas, C., Frattini, W.P., et al. (2014) Recommendations for the Quantitative Analysis of Landslide Risk. Bulletin of Engineering Geology and the Environment, 73, 209-263.
[4] Devkota, K.C., Regmi, A.D., Pourghasemi, H.R., Yoshida, K., Pradhan, B., Ryu, I.C., et al. (2012) Landslide Susceptibility Mapping Using Certainty Factor, Index of Entropy and Logistic Regression Models in GIS and Their Comparison at Mugling-Narayanghat Road Section in Nepal Himalaya. Natural Hazards, 65, 135-165.
https://doi.org/10.1007/s11069-012-0347-6
[5] Huang, F., Chen, L., Yin, K., Huang, J. and Gui, L. (2018) Object-Oriented Change Detection and Damage Assessment Using High-Resolution Remote Sensing Images, Tangjiao Landslide, Three Gorges Reservoir, China. Environmental Earth Sciences, 77, Article No. 183.
https://doi.org/10.1007/s12665-018-7334-5
[6] Wu, X., Shen, S. and Niu, R. (2016) Landslide Susceptibility Prediction Using GIS and PSO-SVM. Geomatics and Information Science of Wuhan University.
[7] Li, L., Lan, H., Guo, C., Zhang, Y., Li, Q. and Wu, Y. (2016) A Modified Frequency Ratio Method for Landslide Susceptibility Assessment. Landslides, 14, 727-741.
https://doi.org/10.1007/s10346-016-0771-x
[8] Pradhan, A.M.S. and Kim, Y.T. (2016) Evaluation of a Combined Spatial Multi-Criteria Evaluation Model and Deterministic Model for Landslide Susceptibility Mapping. Catena, 140, 125-139.
https://doi.org/10.1016/j.catena.2016.01.022
[9] Ding, Q., Chen, W. and Hong, H. (2016) Application of Frequency Ratio, Weights of Evidence and Evidential Belief Function Models in Landslide Susceptibility Mapping. Geocarto International, 32, 619-639.
https://doi.org/10.1080/10106049.2016.1165294
[10] Kannan, M., Saranathan, E. and Anabalagan, R. (2012) Landslide Vulnerability Mapping Using Frequency Ratio Model: A Geospatial Approach in Bodi-Bodimettu Ghat Section, Theni District, Tamil Nadu, India. Arabian Journal of Geosciences, 6, 2901-2913.
https://doi.org/10.1007/s12517-012-0587-5
[11] Kayastha, P., Dhital, M.R. and De Smedt, F. (2012) Landslide Susceptibility Mapping Using the Weight of Evidence Method in the Tinau Watershed, Nepal. Natural Hazards, 63, 479-498.
https://doi.org/10.1007/s11069-012-0163-z
[12] Lee, S. and Choi, J. (2004) Landslide Susceptibility Mapping Using GIS and the Weight-of-Evidence Model. International Journal of Geographical Information Science, 18, 789-814.
https://doi.org/10.1080/13658810410001702003
[13] Sarkar, S., Roy, A.K. and Martha, T.R. (2013) Landslide Susceptibility Assessment Using Information Value Method in Parts of the Darjeeling Himalayas. Journal of the Geological Society of India, 82, 351-362.
https://doi.org/10.1007/s12594-013-0162-z
[14] Sharma, L.P., Patel, N., Ghose, M.K. and Debnath, P. (2014) Development and Application of Shannon’s Entropy Integrated Information Value Model for Landslide Susceptibility Assessment and Zonation in Sikkim Himalayas in India. Natural Hazards, 75, 1555-1576.
https://doi.org/10.1007/s11069-014-1378-y
[15] Kadavi, P.R., Lee, C. and Lee, S. (2019) Landslide-Susceptibility Mapping in Gangwon-Do, South Korea, Using Logistic Regression and Decision Tree Models. Environmental Earth Sciences, 78, Article No. 116.
https://doi.org/10.1007/s12665-019-8119-1
[16] Youssef, A.M., Pourghasemi, H.R., Pourtaghi, Z.S. and Al-Katheeri, M.M. (2015) Landslide Susceptibility Mapping Using Random Forest, Boosted Regression Tree, Classification and Regression Tree, and General Linear Models and Comparison of Their Performance at Wadi Tayyah Basin, Asir Region, Saudi Arabia. Landslides, 13, 839-856.
https://doi.org/10.1007/s10346-015-0614-1
[17] Shahabi, H., Khezri, S., Ahmad, B.B. and Hashim, M. (2014) RETRACTED: Landslide Susceptibility Mapping at Central Zab Basin, Iran: A Comparison between Analytical Hierarchy Process, Frequency Ratio and Logistic Regression Models. Catena, 115, 55-70.
https://doi.org/10.1016/j.catena.2013.11.014
[18] 黄发明, 殷坤龙, 蒋水华, 等. 基于聚类分析和支持向量机的滑坡易发性评价[J]. 岩石力学与工程学报, 2018, 37(1): 156-167.
[19] Ermini, L., Catani, F. and Casagli, N. (2005) Artificial Neural Networks Applied to Landslide Susceptibility Assessment. Geomorphology, 66, 327-343.
https://doi.org/10.1016/j.geomorph.2004.09.025
[20] Kalantar, B., Pradhan, B., Naghibi, S.A., Motevalli, A. and Mansor, S. (2017) Assessment of the Effects of Training Data Selection on the Landslide Susceptibility Mapping: A Comparison between Support Vector Machine (SVM), Logistic Regression (LR) and Artificial Neural Networks (ANN). Geomatics, Natural Hazards and Risk, 9, 49-69.
https://doi.org/10.1080/19475705.2017.1407368
[21] Vakhshoori, V. and Zare, M. (2016) Landslide Susceptibility Mapping by Comparing Weight of Evidence, Fuzzy Logic, and Frequency Ratio Methods. Geomatics, Natural Hazards and Risk, 7, 1731-1752.
https://doi.org/10.1080/19475705.2016.1144655
[22] Wang, L., Guo, M., Sawada, K., Lin, J. and Zhang, J. (2015) A Comparative Study of Landslide Susceptibility Maps Using Logistic Regression, Frequency Ratio, Decision Tree, Weights of Evidence and Artificial Neural Network. Geosciences Journal, 20, 117-136.
https://doi.org/10.1007/s12303-015-0026-1
[23] Mohammady, M., Pourghasemi, H.R. and Pradhan, B. (2012) Landslide Susceptibility Mapping at Golestan Province, Iran: A Comparison between Frequency Ratio, Dempster-Shafer, and Weights-of-Evidence Models. Journal of Asian Earth Sciences, 61, 221-236.
https://doi.org/10.1016/j.jseaes.2012.10.005
[24] Yesilnacar, E. and Topal, T. (2005) Landslide Susceptibility Mapping: A Comparison of Logistic Regression and Neural Networks Methods in a Medium Scale Study, Hendek Region (Turkey). Engineering Geology, 79, 251-266.
https://doi.org/10.1016/j.enggeo.2005.02.002
[25] Gordon, A.D., Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984) Classification and Regression Trees. Biometrics, 40, 874.
https://doi.org/10.2307/2530946
[26] Donoho, D.L. (1995) De-Noising by Soft-Thresholding. IEEE Transactions on Information Theory, 41, 613-627.
https://doi.org/10.1109/18.382009
[27] 刘庆和, 梁正友. 一种基于信息增益的特征优化选择方法[J]. 计算机工程与应用, 2011, 47(12): 130-132+136.
[28] Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32.
https://doi.org/10.1023/a:1010933404324
[29] Fawcett, T. (2006) An Introduction to ROC Analysis. Pattern Recognition Letters, 27, 861-874.
https://doi.org/10.1016/j.patrec.2005.10.010
[30] 巩云鹏. 青海乐都地区地质环境适宜性评价[D]: [硕士学位论文]. 西安: 长安大学, 2018.
[31] 马国超. 强震区汶川县地质灾害危险性评价研究[D]: [硕士学位论文]. 成都: 成都理工大学, 2015.
[32] 陈洪凯, 魏来, 谭玲. 降雨型滑坡经验性降雨阈值研究综述[J]. 重庆交通大学学报(自然科学版), 2012, 31(5): 990-996.
[33] Salciarini, D., Godt, J.W., Savage, W.Z., Conversini, P., Baum, R.L. and Michael, J.A. (2006) Modeling Regional Initiation of Rainfall-Induced Shallow Landslides in the Eastern Umbria Region of Central Italy. Landslides, 3, 181-194.
https://doi.org/10.1007/s10346-006-0037-0
[34] 杨乐, 彭海游, 周莫林, 谢洪斌, 罗真富, 谭亮. 基于层次分析法的奉节县城地质环境承载力评价[J]. 重庆交通大学学报(自然科学版), 2014, 33(2): 95-99.
[35] 刘希林, 王士革, 张信宝. 论地质条件对滑坡发育的影响: 以云南昭通地区为例[J]. 灾害学, 1991(3): 31-34.
[36] Sidle, R.C. and Ochiai, H. (2013) Landslides: Processes, Prediction, and Land Use.
[37] Gupta, R.P. and Joshi, B.C. (1990) Landslide Hazard Zoning Using the GIS Approach—A Case Study from the Ramganga Catchment, Himalayas. Engineering Geology, 28, 119-131.
https://doi.org/10.1016/0013-7952(90)90037-2
[38] Kornejady, A., Ownegh, M. and Bahremand, A. (2017) Landslide Susceptibility Assessment Using Maximum Entropy Model with Two Different Data Sampling Methods. Catena, 152, 144-162.
https://doi.org/10.1016/j.catena.2017.01.010
[39] 刘明吉, 王秀峰, 黄亚楼. 数据挖掘中的数据预处理[J]. 计算机科学, 2000, 27(4): 54-57.
[40] Probst, P., Wright, M.N. and Boulesteix, A. (2019) Hyperparameters and Tuning Strategies for Random Forest. WIREs Data Mining and Knowledge Discovery, 9, e1301.
https://doi.org/10.1002/widm.1301