基于集成学习的煤与瓦斯突出预测研究
Research on Prediction of Coal and Gas Outburst Based on Integrated Learning
DOI: 10.12677/ME.2023.112018, PDF, HTML, XML, 下载: 162  浏览: 652 
作者: 张 杰:贵州省能源安全技术中心,贵州 贵阳;邓 森:贵州大学矿业学院,贵州 贵阳
关键词: 集成学习决策树煤与瓦斯突出预测Ensemble Learning Decision Tree Coal and Gas Outburst Prediction
摘要: 为了提升煤与瓦斯突出事故预测的准确性和可行性,使用主成分分析法对影响煤与瓦斯突出的12个影响因素的原始数据进行降维处理,进而得到包含原始数据85%信息量的8个主成分,以此8个主成分作为输入通过AdaBoost并以单层决策树作为弱分类器进行学习,建立起主成分分析法与AdaBoost相结合的煤与瓦斯突出预测模型。并选取实例利用64组数据为训练样本,16组为预测样本,通过混淆矩阵判断证明模型的稳定性。结果表明:基于AdaBoost算法以单层决策树为弱分类器的预测模型预测精度达到100%,且总体水平稳定,可为安全生产提供理论依据。
Abstract: In order to improve the accuracy and feasibility of coal and gas outburst accident prediction, prin-cipal component analysis is used to reduce the dimensionality of the original data of 12 factors af-fecting coal and gas outburst, and then the information content containing 85% of the original data is obtained. The 8 principal components are used as input through Adaboost and the single- layer decision tree is used as a weak classifier to learn, and a coal and gas outburst prediction model combining principal component analysis and AdaBoost is established. And select examples to use 64 sets of data as training samples and 16 sets as prediction samples, and prove the stability of the model by judging the confusion matrix. The results show that the prediction accuracy of the prediction model based on the AdaBoost algorithm and the single-layer decision tree as the weak classifier reaches 100%, and the overall level is stable, which can provide a theoretical basis for safe production.
文章引用:张杰, 邓森. 基于集成学习的煤与瓦斯突出预测研究[J]. 矿山工程, 2023, 11(2): 142-148. https://doi.org/10.12677/ME.2023.112018

1. 引言

煤与瓦斯突出是一种类型的瓦斯特殊涌出的现象,即在压力作用下,破碎的煤与瓦斯由煤体内突然向采掘空间大量喷出的现象。煤与瓦斯突出是煤矿井下生产的一种强大的自然灾害,他严重威胁着煤矿的安全生产,具有极大的破坏性。准确的煤与瓦斯突出预测,对于及时撤出人员、减少伤亡具有重要的意义。

因此,如何快速准确地预测瓦斯突出的发生成为矿井安全生产的重中之重,近年来大批专家学者提出了自己的看法,其中周世宁等 [1] 通过对含瓦斯煤样进行三维受力分析,建立含瓦斯煤样蠕变行为模型,发现若条件具备各类煤层均有突出可能。蒋承林等 [2] 通过理论分析提出煤与瓦斯突出的失稳假说并通过实验进行了相关验证。匡芳君等 [3] 通过混沌粒子群算法对混合核支持向量机参数进行优化,建立可准确预测煤与瓦斯突出的改进混沌粒子群与支持向量机结合的模型。李鑫灵等将主成分分析法与支持向量机相结合,结合实例,建立了更为稳定准确的瓦斯涌出预测方法。温建强等 [4] 通过将BP神经网络与灰色理论相连并结合相关实例,得到预测瓦斯含量的模型。周西华等 [5] 对层次分析法进行改进并与BP神经网络结合,建立更为准确的煤与瓦斯突出预测模型。李映洁等 [6] 采用改进粒子群算法对最小二乘支持向量机进行参数寻优。但上述方法存在一定的局限,虽然在特定数据集预测相对准确,但泛化能力弱,受参数影响大,而研究表明AdaBoost泛化能力强,精度高,无需调参,适合二分类和多分类。通过主成分分析法进行简化降低了模型的训练时间,可提升模型运行效率。

基于上述原因,通过将主成分分析法于AdaBoost相结合,得到了主成分分析法和AdaBoost相结合的煤与瓦斯突出预测模型,通过对原始数据进行主成分分析,将处理后的数据输入以单层决策树为弱模型的Adaboost模型对煤与瓦斯突出进行预测,提升了运算效率以及预测精准率可以更好地为安全生产提供指导。

2. 算法原理

神经网络也称为人工神经网络(ANN),由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。否则,不会将数据传递到网络的下一层。深度学习中的“深度”指的只是神经网络中层的深度。由三层以上组成的神经网络(包含输入和输出)可视为深度学习算法或深度神经网络。只有两层或三层的神经网络只是基本神经网络,而集成学习指的是通过将多个基学习器结合,通常都会获得比单一学习器显著优越的泛化性能。为了使模型运行更加快捷,使用主成分分析法对原始数据进行处理,主成分分析是对于原先提出的所有变量,将重复的变量删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

2.1. 主成分分析法

主成分分析法是机器学习中一种非监督学习方法,该方法利用正交变换将线性相关的若干组数据转换成少数几个由线性无关的变量称为主成分。主成分的个数通常小于原始数据的个数,因此主成份分析法属于降维方法。

主成分分析法计算公式如下所示:假设是m维随机变量,其均值向量是其协方差矩阵考虑由m维随机变量的线性变换其中求主成分的方法如下第一步,在x所有线性变换中,在条件下,求方差最大,得到第二主成分;第k步,在与不相关的x的所有变换中,在条件下,方差最大,则为第k主成分,主成分分析算法适用于对复杂数据进行降维。

2.2. AdaBoost算法

Figure 1. Algorithm flow chart

图1. 算法流程图

AdaBoost算法是一种常用的统计学习方法,应用广泛且十分有效,它通过改变训练样本权重,学习多个分类器,将这些分类器进行线性组合,从而达到提高分类效果的目的,AdaBoost算法的使用条件是必须满足基础模型的准确率要达到50%以上。

AdaBoost算法步骤如下 [7] :

1) 假设训练数据具有均匀的权值分布,即每个训练样本在基本分类器中具有相同的。输入训练集 T = { ( x 1 , y 1 ) ( x 2 , y 2 ) , , ( x N , y N ) } ,其中xi ∈ X,X属于实例空间,yi ∈ [−1, 1]。

2) 初始化训练网络权值分布 D 1 = ( w 1 i , , w 1 N ) , w 1 i = 1 N , i = 1 , 2 , 3 , , N 使用具有权值分布Dm,m ∈ 1, 2, 3, …, M的训练数据集学习,得到基本的分类器Gm(x),并计算Gm(x)在训练集上的误差率 e m = i = 1 N P ( G ( x i ) y i ) = i = 1 N w m i I ( G m ( x i y i ) ) ,计算Gm(x)系数 a m = 1 2 log 1 e m e m ,更新训练集权值分布 D m + 1 = ( w m + 1 , 1 , , w m + 1 , i , , w m + 1 , N ) w m + 1 , i = w m i Z m exp ( a m y i G m ( x i ) ) , i = 1 , 2 , 3 , , N ,这里Zm是规范因子 Z m = i = 1 N exp ( a m y i G m ( x i ) ) 它使Dm+1成为一个概率分布。

3) 构成基本分类器的线性组合 f ( x ) = m = 1 M a m G m ( x ) ,得到最终的分类器 G m ( x ) = sign ( f ( x ) ) = sign ( m = 1 M a m G m ( x ) ) 图1为算法流程。

3. 实例分析

3.1. 煤与瓦斯突出的影响因素

通过查阅得到煤与瓦斯突出的主要影响因素:瓦斯含量(A)、瓦斯压力(B)、瓦斯放散初速度(C)、煤的坚固系数(D)、煤层埋深(E)、煤的破坏类型(F)、瓦斯浓度变化率(G)、煤层厚度变化率(H)、顶岩性变化(I)、与地质构造带距离(J)、煤的硬度变化率(K)、最大钻屑量(L)来预测煤与瓦斯突出的发生各影响因素原始数据见表1 [8] 。

Table 1. Raw data of main influencing factors of coal and gas

表1. 煤与瓦斯主要影响因素原始数据

3.2. 原始数据的主成分分析

对煤与瓦斯突出主要影响因素相关原始数据进行分析。根据表1中数据可知共有12个特征,对其进行主成分分析,根据上述主成分分析法的原理和方法,计算各成分的方差贡献率及累计贡献,结果如表2所示。表2为各成分的方差贡献率及累计贡献率,主成分贡献率是指主成分的方差在所考察的随机变量的总方差中所占的比例,主要用以度量主成分对于原变量变异性的解释能力。主成分累积贡献率是选择有效主成分的重要依据。表3为主成分分析结果。选取前q个特征值的累积百分数大于等于80%的因子为主成分,依照表2结果,选取公共因子8个,覆盖将近原信息量的93%。

Table 2. Variance contribution rate and cumulative contribution rate

表2. 方差贡献率及累计贡献率

Table 3. Principal component analysis results

表3. 主成分分析结果

3.3. 主成分分析与AdaBoost的预测模型

将原始数据进行主成分分析,并将得到的主成分作为新的特征输入AdaBoost模型进行预测。采用Python 3.6进行编写,将单层决策树作为弱分类器,弱分类器数量n = 3,初试情况为均匀分布,即所有样本都为1/n,对每个弱分类器进行训练,更新每个弱分类器的权重,训练完成后采用最终的分类器对数据进行预测。随机抽选16组做为预测组,预测结果如表4所示。

Table 4. Comparison of predicted results with the real situation

表4. 预测结果与真实情况的对比

由分析可知使用主成分分析法对数据样本进行处理,并基于决策树使用Adaboost模型预测样本精度可达100%,模型具有良好的煤与瓦斯突出预测的准确性,适用于煤与瓦斯突出预测研究

4. 结论

(1) 采用主成分分析法,对AdaBoost模型输入进行降维处理,用较少的输入特征代替原有的数据,从而构建的主成分分析法和AdaBoost结合的方法,可以提高预测的准确度以及运行速度。

(2) 随机挑选16组训练样本数据对改进的AdaBoost模型进行学习、训练,并将预测值与实际值对比,正确率为100%,证明训练完成的改进AdaBoost模型具有良好的预测效果。

(3) 采用经主成分分析法改进的AdaBoost模型从训练样本中随机选取16组作为预测样本,正确率为100%,证明了基于主成分分析与AdaBoost结合的方法用于煤与瓦斯突出预测是可行的,并且预测结果具有良好的准确性。

参考文献

参考文献

[1] 周世宁, 何学秋. 煤和瓦斯突出机理的流变假说[J]. 中国矿业大学学报, 1990, 19(2): 1-8
[2] 蒋承林, 俞启香. 煤与瓦斯突出机理的球壳失稳假说[J]. 煤矿安全, 1995(2): 17-25.
[3] 匡芳君, 徐蔚鸿, 张思扬. 基于改进混沌粒子群的混合核SVM参数优化及应用[J]. 计算机应用研究, 2014, 31(3): 671-674+687.
[4] 温建强, 张岩, 高帅帅, 高望. 基于灰色理论-BP神经网络预测瓦斯含量[J]. 能源技术与管理, 2020, 45(1): 44-45+55.
[5] 周西华, 郭坤, 白刚, 宋东平. 改进的AHP结合BP神经预测煤与瓦斯突出[J]. 物探化探计算技术, 2019, 41(1): 121-127.
[6] 李映洁, 杨永国. 基于改进PSO优化LS-SVM参数的煤与瓦斯突出预测研究[J]. 煤炭技术, 2017, 36(9): 129-131.
[7] 吕晓玲, 宋捷. 大数据挖掘与统计机器学习[M]. 北京: 中国人民大学出版社, 2016: 239.
[8] 高参天. 基于SFES-PSO-BP算法的矿井突出预测系统研究[D]: [硕士学位论文]. 厦门: 厦门理工学院, 2019.