基于随机森林与最大相关最小冗余的泥石流信号识别模型
Debris Flow Signal Identification Model Based on Random Forest and Maximum Relevance Minimum Redundancy
摘要: 本文基于最大相关最小冗余(mRMR)准则与随机森林算法,提出一种具有数学可解释性的泥石流信号识别模型。以瑞士Illgraben地区地震信号数据为基础,从时域、频域及时频域提取多维特征,并基于互信息理论构建mRMR特征筛选模型,通过优化对应目标函数遴选出5个最具判别力且冗余度最低的特征。利用该特征子集训练随机森林模型,依据基尼不纯度最小化原则生成决策树,并通过集成投票机制实现分类。结果表明,所建模型在准确率与AUC (Area Under the Curve)方面均优于传统机器学习方法,仅用5个特征即达到与全特征随机森林相当的识别性能,且在6场独立事件测试中全部正确分类。本研究不仅提供了有效的泥石流识别工具,也从特征约简与集成学习耦合的角度为地质灾害信号处理建立了数学模型支撑。
Abstract: This paper proposes a mathematically interpretable debris flow signal identification model based on the Maximum Relevance and Minimum Redundancy (mRMR) criterion and the Random Forest algorithm. Using seismic signal data from the Illgraben area in Switzerland, multi-dimensional features are extracted from the time, frequency, and time-frequency domains. A feature selection model based on mutual information theory is constructed using mRMR, and by optimizing the corresponding objective function, the five most discriminative and least redundant features are selected. This feature subset is used to train a Random Forest model, where decision trees are generated based on the principle of Gini impurity minimization, and classification is achieved through an ensemble voting mechanism. The results show that the proposed model outperforms traditional machine learning methods in both accuracy and AUC, achieving recognition performance comparable to that of a full-feature Random Forest model using only five features, and correctly classifying all 6 independent event tests. This study not only provides an effective tool for debris flow identification but also establishes a mathematical model support for geological hazard signal processing from the perspective of coupling feature reduction and ensemble learning.
文章引用:李晓鹏. 基于随机森林与最大相关最小冗余的泥石流信号识别模型[J]. 理论数学, 2025, 15(10): 102-110. https://doi.org/10.12677/pm.2025.1510253

1. 引言

在全球变暖的背景下,泥石流灾害的发生频率与强度显著上升,对人民生命与财产安全构成严重威胁,实现泥石流的准确识别与预警已成为灾害防治领域的重大课题[1] [2]。然而,泥石流事件具有较强的突发性与随机性[3],且破坏力巨大,致使布设于沟道附近的视频监测仪、水量计等传统仪器极易损毁,从而限制了其监测能力。近年来,地震仪为远距离泥石流信号识别提供了新的技术途径:现代地震仪器能够在数十公里的距离外记录泥石流引发的振动信号,从而规避了直接布设在危险区域的风险。然而,地震信号中泥石流成分往往与环境振动、人类活动及其他地质扰动混杂,如何从复杂信号中实现泥石流的准确检测与识别,成为一个关键的科学问题[4]

传统方法多基于阈值判定算法进行信号识别,该方法通常依据振幅、频率或持续时间等单一或多个简单指标的预设门槛进行判断,虽然计算效率较高,但其判别效力有限。由于依赖人工经验设定阈值,这类方法灵活性和泛化能力较差,难以适应不同沟道环境或信号强度波动,尤其在高噪声背景下容易发生误报和漏报,稳健性显著不足。随着人工智能算法的不断发展,机器学习方法为泥石流信号识别提供了新的解决思路。以随机森林为代表的集成学习算法[5],能够自动从大量特征中学习信号与噪声之间的复杂非线性关系,凭借其良好的抗过拟合能力和对高维特征空间的处理能力,特别适用于此类复杂模式识别任务。然而,该方法的有效性高度依赖于特征选择的质量。由于原始地震信号中提取的时域、频域及时频域特征往往存在大量冗余甚至噪声,如何从中筛选出具有强判别力且互补性高的特征子集,就成为提升模型识别性能、可解释性及计算效率的核心问题。

本文基于瑞士Illgraben地区近十年的泥石流地震信号数据,从时域、频域及时频域等多个维度提取信号特征,并结合mRMR特征选择算法与随机森林分类器,构建了一种融合滤波式特征选择与集成学习的泥石流识别模型。该方法不仅实现了较高的信号分类准确率,还通过mRMR算法明确了识别中最具数学区分度的特征子集,从而在理论上揭示了泥石流信号的本质表征结构。本研究旨在为真实环境条件下的泥石流信号识别提供一种具有普适性的数学框架与方法支撑,对提升地质灾害防治能力具有重要的学术价值与现实意义。

2. 实验准备

2.1. 数据

本文选取瑞士Illgraben地区的部分公开泥石流信号数据集,该数据集包含了泥石流信号的振幅与时间的二维格式,同时记录了泥石流事件的开始和结束时间,这为后续的模型训练奠定了良好的基础。本次共选取70个泥石流样本事件,泥石流信号的示意图如下图1所示:

Figure 1. 24-hour recorded debris flow signal

1. 24小时记录的泥石流信号

2.2. 特征提取

根据Hibert [6]等人提出的泥石流信号特征提取框架,本研究选取一分钟时间窗口内的地震信号片段,系统性地提取了时域、频域及时频域三个维度的特征参数,共计57个特征量。时域特征主要包括均值、方差、幅度、过零点率等统计量;频域特征涉及频谱峰值、中心频率、带宽及谱熵等参数;时频域特征则通过小波变换提取各子带的能量占比与系数统计量。该特征集能够全面表征泥石流信号的短时波形形态、频谱结构及其时变特性,为后续机器学习识别提供了丰富的信息基础。

3. 理论基础与模型构建

3.1. 随机森林算法

随机森林是一种集成学习算法,它通过构建并结合多个决策树来完成分类或回归任务[7]。其核心思想是通过汇聚大量决策树的预测结果,以获得一个更强大、更稳定、更不易过拟合的模型。其逻辑运作机制主要基于两大核心思想:Bootstrap Aggregating (Bagging)和随机特征选择。

随机森林的训练过程如下:首先进行Bootstrap 抽样,从原始训练集中使用有放回抽样随机抽取n个样本,形成一个大小为n的Bootstrap训练集。这个过程重复t次,生成t个相互独立又略有差异的训练子集。然后并行构建决策树,对于每一个Bootstrap训练子集,并行地训练一棵决策树。在决策树构建的每个节点进行分裂时,并非从全部M个特征中选取最优特征,而是首先随机选取m个特征子集(通常 m= M ),然后从这m个特征中选择最优分裂特征和分裂点。这种随机性进一步确保了森林中树的多样性。最终进行集成输出,将所有训练好的决策树组合成随机森林。对于分类任务,最终的预测结果由所有决策树进行投票决定,即选择票数最多的类别;对于回归任务,则对所有决策树的输出取平均值。

在随机森林算法中,给定一个样本X,表示第t棵决策树的分类预测结果(输出一个类别标签),整个森林的最终预测 H( x ) 是所有树投票的众数:

H( X )=argmax t=1 T F( h t ( x )=c ) (1)

其中,T是森林中树的总数,C是目标类别, F( h t ( x )=c ) 是指示函数,当括号内条件为真时返回1,否则返回0。

针对输入特征重要性的度量,随机森林提供了一种基于基尼不纯度减少或袋外误差的特征重要性评估方法。对于单次分裂,特征j的重要性计算为分裂前后子节点不纯度的减少量,乘以到达该节点的样本比例。单棵树中特征j的重要性是其在所有节点分裂中重要性的总和,表示为:

t( j )= 使j ( ΔGini ) (2)

其中,基尼不纯度的减少量 ΔGini 计算公式为:

ΔGini=Gin i ( N N Gin i + N N Gin i ) (3)

其中, Gin i Gin i Gin i 分别是父节点、左子节点、右子节点的基尼不纯度; N N N 分别是父节点、左子节点、右子节点的样本数。

最终,特征j在整个随机森林中的重要性是其所有树中重要性的平均值

( j )= 1 T t=1 T t( j ) (4)

该值通常会被归一化,使得所有特征的重要性之和为1。

总之,随机森林通过Bagging和随机特征选择引入随机性,构建出多样化的决策树群,从而有效降低了模型的方差,增强了泛化能力。其数学本质是通过大量弱模型的“平均”或“投票”机制来逼近最优预测,同时其内置的特征重要性评估机制为后续的mRMR特征筛选提供了坚实基础。

3.2. mRMR算法

mRMR是一种基于滤波式的特征选择方法[8],其核心思想是找到一个最优的特征子集S,该子集中的每一个特征不仅与目标类别(如“泥石流”或“非泥石流”)具有最大的相关性,并且特征彼此之间还具有最小的冗余性。mRMR方法通过优化一个单一的目标函数来同时满足这两个准则,从而筛选出鉴别能力强且信息互补的特征,有效避免了传统方法只考虑相关性而导致的特征冗余问题。

mRMR算法的逻辑流程可以概括为一种基于增量优化的搜索策略:

第一步:对特征子集初始化:定义特征子集S为空;

第二步:进行最大相关筛选,从全部特征集合Ω中寻找与目标类别c相关性最大的特征,并将其加入集合S中,该过程能确保所选特征具有最强的预测能力;

第三步:进行最大相关最小冗余迭代筛选,在剩余的特征的候选特征集合 ΩS 中,逐个计算每个特征 X j 的得分。该得分是其特征与目标类别的相关性 D减去其与当前已选特征子集 S中所有特征的平均冗余度R,即

max x j ΩS [ D( x j ,c )R( x j ,S ) ] (5)

第四步:将得分最高的特征加入到集合S中,并重复第三步骤,达到预设的特征数量k

mRMR的数学基础是互信息。互信息可以衡量两个随机变量之间的非线性依赖关系,其值越大,表明变量间的相关性越强。对于两个离散随机变量xy,其互信息定义为:

I( x;y )= i,j p( x i , y j )log p( x i , y j ) p( x i )p( y j ) (6)

其中, p( x,y ) 是联合概率分布, p( x ) p( y ) 是边缘概率分布。基于互信息,最大相关准则旨在最大化已选特征子集S与目标类别c的平均互信息:

maxD( S,c ),D= 1 | S | x i S I( x i ;c ) (7)

同时,最小冗余准则旨在最小化已选特征子集S内部特征之间的互信息

minR( S ),R= 1 | S | 2 x i , x i S I( x i ; x j ) (8)

将这两个准则合并,便得到mRMR的优化目标。在实际的增量搜索过程中,假设已选特征子集Sm特征,现在需要从候选特征集 ΩS 中选择第 m+1 个特征。通过优化以下准则来实现:

max x j ΩS { I( x i ;c ) 1 m x i S I( x j ; x i ) } (9)

其中, I( x i ;c ) 是候选特征 x j 与目标类别c的互信息(相关性); 1 m x i S I( x j ; x i ) 是候选特征 x j 与当前已选特征子集S中所有特征的平均互信息(冗余度)。mRMR法通过互信息量化特征与目标的相关性以及特征间的冗余度,并采用一种基于增量优化的搜索策略来逐步选择那些能对模型提供最大信息增益且信息互补的特征。该方法的优势在于能够高效地剥离冗余特征,降低特征集的维度,从而提升后续分类模型(如随机森林)的训练效率、可解释性和泛化性能。这为本文构建高性能的泥石流信号识别模型奠定了至关重要的特征工程基础。

3.3. 基于随机森林与mRMR的泥石流信号识别算法

本节将详细阐述基于随机森林与mRMR的泥石流信号识别模型的整体框架与实现流程。该模型的核心思想是:利用mRMR算法从原始高维特征中筛选出最优特征子集,再将该子集作为输入,训练一个高性能的随机森林泥石流分类器。其整体流程图如图2所示。

首先,对采集到的原始信号进行预处理并构建特征数据集。数据包括泥石流信号和非泥石流信号两类,其中非泥石流信号来源于泥石流发生前后半小时内采集的数据,主要包含各类环境干扰信号,如风雨声、背景噪声及人为活动声等。特征构建工作包括去噪、归一化和分段等操作。对每段信号,以1分钟为窗口分段截取,并系统提取各段的时域、频域及时频域特征,最后计算各特征在窗口内的平均值。例如均值、方差、小波能量与频谱峰值等,从而构建初始的高维特征集合及其相应的标签数据集。接着,基于mRMR算法对预处理后的特征集进行最优特征子集筛选,通过设定目标特征数k,并采用逐步前向搜索策略,以互信息为评价准则,迭代地选出与“泥石流”类别相关性最大、而特征间冗余度最小的k个特征,形成鉴别能力最优的特征子集。然后,利用该特征子集重构数据集,将原始M维特征降至k维,大幅降低数据复杂度,并基于该精简特征集训练随机森林模型。通过构建大量决策树并集成其输出,建立起一个鲁棒的泥石流信号分类模型;同时采用交叉验证方法对关键超参数(如决策树数量和最大深度等)进行优化,以获取最佳分类性能。最后,将训练好的模型应用于新采集信号的识别:首先对待测信号进行与训练阶段一致的预处理和特征提取,随后输入至随机森林模型中进行分类推断,最终输出“泥石流”或“非泥石流”的判别结果。

Figure 2. Flowchart of debris flow signal identification algorithm based on Random Forest and mRMR

2. 基于随机森林与mRMM的泥石流信号识别算法流程图

4. 实验结果与评价

本文采用准确率与AUC (Area Under the Curve)两项机器学习中常用的评估指标[9],以全面评价模型性能。其中,准确率反映了模型正确预测的样本占总样本的比例,直观体现了分类的整体效果;AUC则通过衡量分类器在不同阈值下的综合性能,评估其区分正负类别的能力,尤其适用于不平衡数据集。本次实验基于70次泥石流事件实例开展研究。单次泥石流事件平均持续时间约为30分钟,经分段处理后,共得到2065个时长为1分钟的“泥石流”正样本。为保障模型训练的稳定性与泛化能力,遵循正负样本平衡原则,我们选取了2065个“非泥石流”负样本作为对照。在后续所有模型的性能评估中,均采用五折交叉验证方法进行训练与测试,以确保评估结果的稳健性和统计显著性。

在mRMR特征选择算法中,为确定降维后特征数量k的最优取值,本文依次遍历k从1至10的取值,并分别计算相应特征子集所训练模型的性能指标。如表1所示,当 k=5 时,模型在准确率与AUC两项指标上均表现稳定,波动较小,且绝对值达到较优水平,因此本研究最终选定 k=5 作为泥石流信号识别任务中的特征数量。

Table 1. Relationship between k value and accuracy/AUC. The model’s performance stabilizes at k = 5 for both metrics

1. k值与准确率、AUC的关系。k = 5时,模型两项指标已逐步稳定

k

准确率

AUC

k

准确率

AUC

1

55.32%

0.468

6

95.51%

0.963

2

63.74%

0.653

7

95.53%

0.963

3

74.69%

0.728

8

95.80%

0.965

4

85.17%

0.826

9

95.81%

0.967

5

95.48%

0.961

10

95.81%

0.967

为进一步验证本文所提出的随机森林与mRMR融合算法(以下简称“融合算法”)的有效性,我们将其与支持向量机(SVM)、K近邻(KNN)以及使用全部特征的随机森林(RF)模型进行对比实验。为保证对比的公平性并最大化各模型性能,所有模型的关键超参数均通过贝叶斯优化框架自动搜寻确定。实验结果如表2所示。

Table 2. Performance and feature quantity comparison between the fusion model and other models

2. 融合模型与其它模型性能与特征数量对比

模型

准确率

AUC

特征数量

SVM

88.72

0.896

57

KNN

85.48%

0.863

57

RF

96.01%

0.972

57

融合模型

95.48%

0.961

5

此外,本研究额外选取了6次未参与前期训练与超参数优化的独立泥石流事件作为外部测试集,以全面评估模型在复杂真实场景中的泛化能力。测试集涵盖三类具有代表性的挑战性场景:包括2次低信噪比事件,用于检验模型在强噪声干扰下的鲁棒性;2次存在明显信号趋势偏移(如传感器漂移或基线扰动)的事件,用于验证模型对非平稳信号的适应能力;以及2次发生于同一24小时周期内的密集事件,用于测试模型对连续灾害的区分与识别稳定性。实验结果表明,模型对所有6次事件均实现正确识别,准确率达到100%。具体而言,在低信噪比条件下,模型通过有效的特征提取仍能保持高准确率输出;面对信号趋势偏移,模型表现出对干扰成分的抑制能力和对本质特征的聚焦能力;而对短时内连续发生的泥石流,模型未出现误检或漏检,体现了良好的时序判别稳定性。结果充分表明,所提出的算法在不同噪声环境、数据质量条件和事件发生模式中均具有优异的泛化性能和实际应用价值。

图3展示了经mRMR特征选择算法筛选后得到的5个关键特征在正负样本上的数值分布对比。为消除量纲影响并凸显分布规律,所有特征值均经过归一化处理。如图所示,这5个特征在正样本(泥石流事件)中表现出明显的响应,其数值集中分布于接近1的区间;而在负样本(非泥石流事件)中,这些特征的数值则显著偏低,多集中于0附近。这种显著且一致的分布差异表明,所选特征对泥石流信号具有强区分力:它们能够有效捕捉泥石流特有的时频或能量模式,从而为分类模型提供稳定、可靠的判别依据,这也是其成为识别与分类泥石流关键特征的根本原因。

Figure 3. Distribution of key feature values in positive and negative samples (Normalized)

3. 正负样本下各关键特征的数值分布(归一化)

5. 结论

1. 本研究通过系统性地结合mRMR特征选择与随机森林算法,构建了一种高效的泥石流信号识别模型。工作表明,通过遍历k值并评估模型性能,确定当k = 5时模型在准确率与AUC指标上均达到较优且稳定水平。该方法仅使用5个最优特征即可达到与使用全部特征的随机森林模型相近的分类性能,显著提升了特征利用效率,在保证识别精度的同时大幅降低了计算复杂度。

2. 所提出的融合算法在泥石流识别任务中表现出显著优势,验证了特征选择与分类器结合的有效性。通过与SVM、KNN等传统机器学习模型的对比实验,证明本融合算法在准确率、AUC等多项指标上均具有更优性能,表明随机森林与mRMR的结合在泥石流信号分类问题中具有较强的判别能力与稳定性。

3. 模型在独立外部测试集上表现良好,显示出优异的泛化能力和工程应用潜力。通过采用未参与训练的6次真实泥石流事件样本进行验证,模型实现了100%的识别准确率,表明所建算法不仅适用于实验数据,也具备应对新数据的鲁棒性,为泥石流实时监测与预警系统的构建提供了可靠的方法基础。

参考文献

[1] 谭万沛. 泥石流及其灾害的极大值[J]. 灾害学, 1987, 2(3): 79-83.
[2] 李树德, 任秀生, 岳升阳, 等. 地震与泥石流活动[J]. 水土保持研究, 2001, 8(2): 26-27.
[3] 吴积善, 田连权. 泥石流及其综合治理[M]. 北京: 科学出版社, 1993: 51-59.
[4] 陈景武, 陈精日. 泥石流监测预警站的组建[J]. 山地研究, 1992, 10(1): 67-72.
[5] 崔培琪. 基于随机森林与ARIMA模型的降水变化与灾害风险评估[J]. 理论数学, 2025, 15(1): 237-258.
[6] Hibert, C., Provost, F., Malet, J., Maggi, A., Stumpf, A. and Ferrazzini, V. (2017) Automatic Identification of Rockfalls and Volcano-Tectonic Earthquakes at the Piton De La Fournaise Volcano Using a Random Forest Algorithm. Journal of Volcanology and Geothermal Research, 340, 130-142. [Google Scholar] [CrossRef
[7] 董娅婷. 随机森林与传统经典方法在回归与分类问题中的比较[J]. 统计学与应用, 2023, 12(2): 255-260.
[8] 刘亚文, 温勇. 基于最大化联合互信息和最小化联合熵的特征选择[J]. 应用数学进展, 2023, 12(4): 1451-1460.
[9] 姚世祎, 杨盛腾, 李裕梅. 基于混淆矩阵的机器学习分类评价指标研究及Python实践[J]. 数据挖掘, 2022, 12(4): 351-367.