基于PCA-Bayes综合判别方法的祁东矿煤层顶板突水水源判别研究

doi:10.12677/ME.2022.103029

期刊菜单

基于PCA-Bayes综合判别方法的祁东矿煤层顶板突水水源判别研究
Research on the Source of Water Inrush from Coal Roof in Qidong Mine Based on PCA-Bayes Comprehensive Discrimination Method

DOI: 10.12677/ME.2022.103029, PDF, HTML, XML,
作者: 彭涛声, 胡友彪, 琚棋定, 胡泰丰：安徽理工大学地球与环境学院，安徽淮南
关键词: 矿井突水；水源判别；主成分分析法；Bayes判别；Mine Water Inrush； Identification of Water Source； Principal Component Analysis； Bayes Discriminant

摘要: 祁东煤矿煤层顶板压架突水事故频发，准确、快速地识别突水水源是防止突水再次发生的关键。为此，从祁东煤矿二类含水层中提取了28个训练水样以及潘二矿三类含水层的11个水样作为验证样本，以Ca²⁺、Mg²⁺、Na⁺+ K²⁺、HCO₃^-、CI^-、SO₄^2-为评价变量。采用主成分分析法消除训练样本中的冗余离子变量，然后结合Bayes法建立模型，判别结果表明：新生界松散含水层(I)水样判别正确率为100%，煤系砂岩水(II)水样判别正确率为66.67%，太原组灰岩水(III)水样判别正确率为100%，模型的综合精度为90.91%。与单一Bayes判别方法相比，该方法具有准确率高、速度快等优点，基于该模型判别结果，可在煤矿突水事故发生后快速查明突水原因，有效预防矿井水害。

Abstract: Because water inrush accidents occurred frequently in Qidong Coal Mine’s roof pressing support, it’s the key to identify the source of water inrush accurately and rapidly to prevent water inrush from happening again. Based on the hydrogeological data collected in Qidong Coal Mine, according to the hydrochemical characteristics of aquifer, Ca²⁺, Mg²⁺, Na⁺+ K²⁺, HCO₃^-、CI^-、SO₄^2- were selected to establish a water inrush source discrimination model based on the combination of Principal Component Analysis and Bayes discrimination. Taking 28 water samples from Qidong Coal Mine as training samples and 11 water samples from Pan NO.2 Coal Mine as verification samples, the model is tested and applied. The Principal Component Analysis method is used to eliminate redundant ion variables in the training samples, and then the Bayes method is used to establish a model. The discriminant results show that the discriminant accuracy of Cenozoic loose aquifer (I) water samples is 100 %, the discriminant accuracy of coal measure sandstone water (II) water samples is 66.67 %, the discriminant accuracy of Taiyuan Formation limestone water (III) water samples is 100 %, and the comprehensive accuracy of the model is 90.91 %. Compared with the direct Bayes discrimination, the model reduces the calculation error caused by a large number of redundant original data and improves the calculation accuracy, makes the discrimination more accurate.

文章引用：彭涛声, 胡友彪, 琚棋定, 胡泰丰. 基于PCA-Bayes综合判别方法的祁东矿煤层顶板突水水源判别研究[J]. 矿山工程, 2022, 10(3): 244-257. https://doi.org/10.12677/ME.2022.103029

1. 引言

煤炭是我国宝贵的能源资源，大规模的煤矿开采严重地影响了地下水赋存环境，地下水动力条件以及不同含水层之间的水力联系势必发生改变，从而导致煤矿区水文地质条件复杂化 [1]。随着浅部煤炭资源的逐渐枯竭，煤炭开采正以每年10~25 m的速度快速向深部进行 [2]，逐年增加的矿井突水事故严重影响了煤矿的安全生产，造成了重大的经济损失和人员伤亡。

近年来国内外学者从不同层次，采用各种方法识别矿井突水水源 [3]。徐星 [4] 采取具有全局最优功能的遗传算法(GA)优化BP神经网络，从而建立具有仿真输出结果总误差最小、精度最高优点的突水水源的GA-BP神经网络；郭中安 [5] 结合主成分分析、遗传算法和极限学习机(Extreme Learning Machine, ELM)，通过GA优化ELM，结合良庄煤矿51101工作面实测数据资料建立判别模型，有效地消除水化学离子指标间的相互影响，优化分类模型的权值和阈值，使矿井突水水源判别更为准确。张妹 [6] 结合PCA分析法和Fisher判别法建立矿井突水水源判别模型，并与BP神经网络判别模型进行对比，具有较高的可行性与准确性。曲兴玥等 [7] 用因子分析和距离判别法判别突水水源，提高了判别准确率。但以上判别方法都有一些不足，BP神经网络较为繁琐，计算较为复杂；Fisher判别方法只针对非线性问题，应用有一定局限性；因子分析与距离判别模型在计算中，因子得分容易失效。笔者针对祁东煤矿近年来压架突水事故，在主成分分析的基础上结合Bayes理论建立判别模型，该模型能高效且精准地判别突水水源，在此基础上及时调查和处理含水层的充水通道和充水强度，可以有效防止突水事故的发生。该模型仅针对水化学信息的定量分析，因此，也可应用于其他类似矿井水源判别，具有广泛的适用性。

2. 研究区概况

2.1. 地层

2.1.1. 矿井地层

祁东矿区地处淮北煤田的东南边缘，在地层区划上属于华北地层区鲁西地层分区徐宿小区，此区域的地层裸露出的较少，大部分是第四系冲积、洪积平原覆盖。该区域内发育的地层从老至新的顺序为青白口系、震旦系、寒武系、奥陶系、石炭系、二叠系、侏罗系、白垩系、上第三系和第四系。

1) 石炭系上统太原组(C3t)

厚度192.81 m，其中以石灰岩为主、占本组地层厚度的40%左右。石灰岩有8~14层，一般11~12层。石灰岩编号自上而下为一灰~十二灰。其中第三层灰岩、第四层灰岩、第十二层灰岩比较厚，基本上处于稳定状态。顶部一灰厚度一般2~3 m，顶部含泥质，富含动物化石及其碎屑，细晶–粗晶结构，是下部煤组对比的重要标志。本组含煤6~8层，总厚平均3.58 m，属不稳定煤层。

2) 二叠系下统山西组(P1s)

厚度120~165 m，平均135 m，以125~150 m为多。本组岩性由砂岩、粉砂岩、泥岩和煤层组成。含10、11两个煤组，含煤系数0.80%，10煤层上偶含薄煤线。10煤层为本矿井局部可采煤层之一，11煤层一般不可采且不稳定。与下伏地层整合接触。

3) 二叠系下统下石盒子组(P1xs)

大部分为三角洲平原沉积，本组以铝质泥岩之底为下届，以K3砂岩之底为顶。地层厚度变化较大，揭露厚度为205~245 m，平均235 m，全区以220~230 m为主。含4、6、7、8、9五个煤层(组)，含煤10~13层，煤层总厚15.53 m。含煤系数6.69%。本组为本矿井主要含煤段。岩性主要由砂岩、粉砂岩、泥岩、铝质泥岩和煤层组成。砂岩多在63~9煤层(组)间和4煤(组)上。

4) 第三系(R)

第三系揭露有中新统、上新统，厚度约在171.50 m至369.300 m之间，平均275.60 m，与下伏地层呈不整合接触。据钻孔岩性岩相组合特征，化石孢粉资料与有关地层剖面对比，第三系包括：渐新统(E3)、中新统(N1)、上新统(N2)。

5) 第四系(Q)

厚度70.55~101.60 m，平均87.80 m，与下伏新近系呈假整合接触。

2.1.2. 含煤地层

1) 32煤层

32煤层在石盒子组下部，距离煤层23约110 m，魏庙断层北部可作为采区，以南部分保留，煤层厚度在0.31 m至4.11 m之间，整体平均厚度约为1.62 m，变异系数53%，区内开采80%，开采指数为0.82，具有较为复杂的采区工作面，主要为1~2层泥岩或泥炭夹煤矸，煤层顶板以泥岩为主，砂岩、粉砂岩零星分布，是一个相对稳定的煤层，大部分地区均可开采。

2) 61煤层

位于下石盒子组的中部，位于60煤下大约11 m处是6煤组中发育较为完全的一层。此处区域可以提供大多数可开采的煤层，该煤层的厚度在0到5.21 m之间，平均厚度在1.56 m，变异系数为56%，可采指数为0.77，可采面积率为70%。泥岩夹矸石较少，煤层顶部有少量粉砂岩和砂岩，岩浆在四点穿透，是该矿的重要组成部分，煤层稳定。

3) 71煤层

为7煤组的上层，处于下石盒子中下部，63煤一般约30 m。该区大部分为可采区，厚度在0 m至4.78 m之间，平均1.87 m，变异系数57%，可采指数0.83，可采面积70%，碳结构复杂，多为1~2层夹矸；顶板以粘土和粉砂岩为主，其次为砂岩。71煤层是一个相对稳定的煤炭网络，可以在大多数地区开采。

4) 82煤层

位于下石盒子组下部，81煤下7~18 m，一般约11 m，可开采区域面积相对较大，煤层厚度在0 m至5.54 m之间，平均1.61 m，变异系数49%，开采指数0.95，面积可采率90.5%，煤层顶板以砂岩为主，泥岩、粉砂岩较少。82煤层相对于其他煤层较为稳定，可开采区域面积较大。

5) 9煤层

靠近下石盒子组下部，82煤层下部约10 m至21 m处，平均约16 m，可开采区域面积相对较大，煤层厚度在0 m至5.78 m之间，平均2.57 m，变异系数57%，可采面积率为70%，有50个岩浆岩断点，占穿过点的25%，10号煤层后第二个煤层破坏最为严重，以砂岩为主，粉砂岩和泥岩比重较小。

2.1.3. 含水层

1) 直接充水含水层

砂岩厚度处于7.50 m至65 m之间，大部分集中在21 m，细粒砂岩占大部分。该层砂岩裂缝发育较不完全，一小部分发育较为完全，尤其是平坦部分，当K3砂岩处于风氧化带时，裂隙较发育。现场施工时，32碳及下部砂岩进入矿井24-25-10、30-8、j5-5孔时，在32煤上、下砂岩发生漏水。根据矿井25-26-7、27-12、j4-5钻孔泵送数据：q = 0.0039~0.00815 l/sm，k = 0.002~0.1114 m/d。该含水层整体富水性较弱，但少部分区域有一定富水性。

主采煤层71层和82层的直接顶板主要为砂岩。地下含水层总厚度11~65 m，平均30 m。现场施工期间，30-6、30-3，28-5、24-12、29-3、29-6孔有漏水现象。此处砂岩裂隙发育比较好，但是发育不全面且不均匀，各段存在较大的发育差距，富水性基本都没有其他段强。根据矿区已知钻孔，如36-2、30-11进行抽水实验测得该，q最低为0.0042 L/sm，最大为0.0755 L/sm，k最大为0.0754 m/d，属于弱~中等含水层。因此，煤层间顶底板砂岩裂隙含水层为可采煤层的直接充水含水层。

2) 间接充水含水层

a) 第一含水层

底板埋深在20 m至41.60 m之间，一般约31 m，含水砂总厚度6.60~31.00 m，一般15~20 m。通常在垂直深度约20 m处发育，厚度约1~1.5 m，含化石或贝壳碎片，表面附近0.50 m为棕黄色。根据附近水井的抽水试验数据，q = 0.5387 L/sm，K最大为2.9094 m/d，最小为3.11 m/d，它是一个中等富水含水层。

b) 第二含水层

底板埋深78.10~100.70 m，一般为86~88 m，含水砂层厚度5.45~39.30 m，一般10~25 m，岩性以褐黄色为主，浅肉质、细砂、砂质，夹2~3层粘土或砂岩。砂层结构较为松散，水位的变化基本上与第一含水层的升降同步，滞后于第一含水层。

c) 第三含水层

底板埋深159.80~218.50 m，一般为185~200 m，含水层砂层厚度19.20~99.20 m，一般50~70 m。岩性主要为褐红色、粉砂、泥质砂，夹3~5层褐黄色。上部为1~3层透镜状灰岩，厚度1~3 m，坚硬，局部分辨率较高，上部砂层厚度大，富水性强。下部砂层不发育。单层厚度小，质量不干净，泥浆质量增加，富水性差。

d) 第四含水层

底板埋深最小为189.25 m，最大为453 m，一般集中在285 m、300 m、350 m附近。含水砂层厚度集中在0至59 m之间。谷口冲洪积扇北部为粗粒相，南部为细粒相。粗粒相砾石的粒径多数 ≥ 3 mm，一般夹粘土、砂质粘土0~6层，夹层总厚0~5 m。细粒相砾石粒径多数 < 3 mm，一般夹粘土。据抽水试验资料，水位标高最低为16.77 m，最高位69.50 m，q最小为0.0258 L/sm，最大为0.4318 L/sm，K最小为0.079 m/d，最大为3.282 m/d，含水层富水性比较低。矿化度最小为1.458 g/L，最大为1.582 g/L，全硬度最小为31.52德国度，最大为44.15德国度，水质为SO4·Cl-Na·Ca·Mg型。

e) 太原组石灰岩岩溶裂隙含水层(段)

太原组地层总厚度192.81 m，岩溶裂隙发育程度决定含水性强弱，岩溶柱发育程度不一，导致其含水性也有很大的差别。第一、二层石灰石厚度小，质量纯；第三层和第四层石灰岩较厚。1~4号灰岩平均总厚度39.27 m，1~4号灰岩岩溶柱发育，水动力条件好，含水率高。各断面距离仅几米，石灰岩裂隙在平坦部位大，随着向深部发展而逐渐减弱。富水性在裂隙发育时呈现较强性质，反之富水性较弱。25-26-2、26-27-6、27-11、VII-3和J1-1钻孔出现严重泄漏。对25-26-2井太原组1~4煤灰进行了抽水试验，静水位标高8.09~19.60 m，Q = 0.3798 L/sm，K = 34.223 m/d，为中等富水含水层。5~14煤灰埋深远离主煤层，煤层发育差，水动力条件相对较差。

但在受扰动影响的局部地段，地下水管厚度较低，岩性破碎，降低了地下水导体的性能，并且随着从断面采掘深度的增加，矿井发生突水的情况非常严重，因此可能导致10号煤夜间与灰分含量“对应”接触。太原市1~2号粉煤灰厚度较小，难以形成大型地下水储运系统，3~4号灰岩为中厚灰岩，岩溶裂隙发育，储水疏水能力强。它是台州盆地最重要的地下水储存和转运系统，是预防和控制水害的中心目标。

f) 奥灰水

区域厚度500多米，本矿26-27-6孔揭露，厚度10.33 m。根据区内相关水文地质资料，奥陶系灰岩中岩溶柱发育极不均匀。由于奥陶系灰岩的导水体距离开采煤层较远，正常情况下对矿井无直接影响，但是，不排除在导水断层或波浪拉伸技术中的岩溶塌陷情况下发生水破裂的可能性。奥灰水对矿井生产的影响主要取决于奥陶系灰岩、太原灰岩与煤系砂岩水管之间是否存在水力联系。该水力连接的通道主要为引水或引水岩溶柱。

3. 理论方法

3.1. 主成分分析法

主成分分析算法是经典的降维方法，作为一种统计方法，主成分分析旨在通过正交变换将一组潜在相关变量转换为一组线性不相关的新变量；通过变换得到的新变量称为主成分，它们能够在表达信息方面保持原始信息不变。基于PCA的数据处理在有效消除高维数据相关性、实现数据降维、简化数据结构等方面发挥了重要作用 [8]。主成分分析的数学模型如下所示 [9]。

原始数据矩阵 $X (X_{1}, X_{2}, \dots, X_{p})$ 的P变量形成一个线性组合，表示为Y = AX，即，

${\begin{cases} Y_{1} = a_{11} X_{1} + a_{12} X_{2} + \dots + a_{1 p} X_{p} \\ Y_{2} = a_{21} X_{1} + a_{22} X_{2} + \dots + a_{2 p} X_{p} \\ ⋮ \\ Y_{p} = a_{p 1} X_{1} + a_{p 2} X_{2} + \dots + a_{p p} X_{p} \end{cases}$ (1)

式中： $Y_{1}, Y_{2}, \dots, Y_{p}$ 表示各个变量的主成分值； $X_{1}, X_{2}, \dots, X_{p}$ 表示原始数据矩阵X的一个线性组合；a_pp表示各个变量之间的协方差矩阵A。

主成分分析法一般步骤如下：

1) 将原始数据变量先标准化，再计算各个变量之间的协方差矩阵A；

2) 求出的协方差矩阵的特征向量可以排序为 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{p}$ ，对应的单位特征向量为 $T_{1}, T_{2}, \dots, T_{p}$ 。在转换矩阵A = T'的情况下，A的第i行代表第i个位置的特征值T_i总和；并且第i个主成分 Y_i 的方差也只是第i个位置的特征值 $λ_{i}$ 总和；

3) 第m个主成分Y_m的方差贡献率为 $ξ_{m} = λ_{m} / \sum_{m = 1}^{s} λ_{m} = 1$ 。若取 $n (n < s)$ 个主成分，主成分累计贡献率为 $ξ_{n} = \sum_{m = 1}^{n} λ_{m} / \sum_{m = 1}^{s} λ_{m}$ 。

4) 主要成分数量的确定一般取决于累积方差贡献率。通常，累积方差贡献率达到至少80%的事实表明可以满足以下要求：提取的前m个主成分的样本信息包含大部分关于初级样本的信息。

3.2. Bayes判别分析

贝叶斯判别有大量的统计理论予以支持，主要依据贝叶斯概率法则，其主要研究对象为多元分布的样本集，所得到的样本后验概率来源于多元正态分布的概率密度中包含的信息。从G个样本集中抽取了n个样本，这n个样本有p个变量，因此可以假设存在一个p维空间，这n个样本就可以看成空间中存在的n个离散的点。在判别过程中，划分错误难以避免，一旦划分出错便有产生损失量，如果将某一未知样本 $X = (x_{1}, x_{2}, \dots, x_{p})$ 划归为任意母体都会产生损失，但是未知样本被划归为A_g母体时，产生的损失量最小，那么将这个未知样本划归为A_g母体。

如果已知g个母体的概率分布为f_g(x)，某一未知样本应该属于母体A_g，设将这个样本错误的划归为母体A_h的概率是：P{h/g}，那么下式 [10] 成立：

$P (h, g) = \int_{R h} f_{g} (x) d x$ (2)

式中：P(h/g)表示样本错误划归的概率；f_g(x)为g个母体的概率分布函数；Rh表示求积分下限。

为了将样本被错误划归时所产生的损失量降到最低，Bayes推导出划分空间{R}需要满足的条件为：

${R_{g}} : \sum_{g = 1, g \neq h}^{G} L (h / g) q_{g} f_{g} (x) > \sum_{g = 1, g \neq h}^{G} L (h / g) q_{h} f_{h} (x)$ (3)

式中：L(g/h)为将样本错误的划归为母体A_g时所产生的损失记为；q_gf_g(x)为将样本错误的划归为母体A_g时的后验概率；q_hf_h(x)为将样本错误的划归为母体A_g时的先验概率。

换言之，如果将未知样本划归为母体A_g的后验概率比未知样本被划归为其他母体的后验概率都要大，就将这个未知样本划归为母体A_g。q_gf_g(x)最大就相当于后验概率最大。那么可以推导出在判别任意一个样本 $X = (x_{1}, x_{2}, \dots, x_{p})$ 属于某一母体时的判别函数，G 个判别函数表达式 [11] [12] 如下：

$q_{g} f_{g} (x) = q_{g} {(2 π)}^{- p / 2} {| Σ^{- 1} |}^{1 / 2} \exp [- \frac{1}{2} {(x - a_{g})}^{'} Σ^{- 1} (x - a_{g})]$ (4)

式中： $x = {(x_{1}, x_{2}, \dots, x_{p})}^{'}$ ；参数a_g表示A_g的均值； $Σ$ 为一协方差矩阵； $g = 1, 2, \dots, G$ ；

依据Bayes准则，进一步计算可知，正态母体多类线性判别函数表达式如下：

$Z (x) = b_{0 g} + b_{1 g} X_{1} + \dots + b_{p g} X_{p}$ (5)

式中：X_p为样本集中的第p个指标的数值；b_pg为判别系数。将最终结果 $Z_{1} (x), Z_{2} (x), \dots, Z_{g} (x)$ 的数值大小进行比较，最大值所对应的母体就是待判样本 $X = (x_{1}, x_{2}, \dots, x_{p})$ 所属的母体。

3.3. PCA-Bayes综合判别步骤

1) 对原始数据进行标准化处理，排除数量级和量纲对结果造成的影响；

2) 计算各标量之间的协方差矩阵及相应特征向量与特征值；

3) 计算第k个主成分的方差贡献率( $k = 1, 2, \dots, n$ )；

4) 按照累积方差贡献率 > 80%或特征值大于1的原则选取主成分；

5) 通过主成分得分系数矩阵，由Y = AX线性组合得到主成分值；

6) 通过建立Bayes判别法，将得出的主成分值代入线性判别函数；

7) 将最终结果的数值大小进行比较，最大值所对应的母体就是待判样本所属的母体。

3.4. PCA-Bayes综合判别影响因素

在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上)，其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p (除非p本身较小)，否则维数降低的优势可能抵不过主成分含义不如原始变量清楚的弊端。

在主成分分析和贝叶斯综合判别法识别突水水源类型时，需要大量的基础数据进行训练，从而提高模型判别的精度。

4. 突水水源判别模型的建立

4.1. 取样和测试

Figure 1. Location of sampling points

图1. 取样点位置图

祁东煤矿水文地质条件复杂，松散层突水事故频发，主要充水含水层包括新生界水、煤系砂岩裂隙水、老空水等，因此需要对这些影响矿井安全较大的含水层进行重点研究。于2020年9月在对祁东煤矿进行实地勘察选取其中28个水样(图1)，其中新生界松散含水层(I)样本12个，二叠系煤系砂岩裂隙含水层(II)样本16个，取样点分布情况详见图1。取样后主要对Na⁺ + K⁺、Ca²⁺、Mg²⁺、 ${HCO}_{3}^{-}$ 、 ${Cl}^{-}$ 和 ${SO}_{4}^{2 -}$ 六个参数进行测试，取样时应携带便携式水质分析仪对PH和水温等参数进行测试，所有水样均通过现场0.45 µm膜过滤，用于阳离子分析的水样应用硝酸酸化至PH < 2，采用电感耦合等离子体原子发射光谱法(ICP-AES)测定主要阳离子的浓度，准确度为3%。通过离子色谱法(DX-120, Dionex)测定氯化物和硫酸盐，分析准确度小于5%，通过现场滴定法测定碳酸氢根离子浓度，所有样品的离子电荷平衡小于5%，测试结果具体见表1。

Table 1. Training samples of Qidong mine (unit: mg/L)

表1. 祁东矿训练样本表(单位：mg/L)

4.2. 训练样本主成分分析

首先采用SPSS 26对水样数据进行异常值判断，判断出异常值之后采用使用平均值代替异常值的方法进行处理。求出训练样本Person相关系数矩阵，通过表2可以看到：各离子之间是有关联的，例如 ${HCO}_{3}^{-}$ 和Na+ + K+的关联度达到了96.8%。这表明各个指标之间有重叠信息，不能直接使用这6种离子进行水源判别，否则会形成多余或重复的信息，使其计算量增大，也可能降低水源判别的精度，造成错误判别。因此，对样本进行主成分分析法处理是有必要的 [13] [14] [15] [16]。

Table 2. Pearson correlation coefficient matrix

表2. Pearson相关系数矩阵

注：黑体部分呈显著相关性。

对训练样本做主成分分析，可以得到主成分解释方差率表(表3)以及主成分分析碎石图(图2)，通过表3可以得出训练样本前两个主成分累计贡献率约占总成分方差累计率的81%，可以对样本总体有效的描述。因此，选前两个成分为主成分。

Table 3. Variance rate of principal component interpretation

表3. 主成分解释方差率表

Figure 2. Composition of crushed stone

图2. 成分碎石图

通过主成分得分系数矩阵(见表4)再结合公式(1)可以得出两个主成分F₁和F₂的线性函数模型，见公式(6)，进而计算出主成分值。

${\begin{cases} F_{1} = 0.317 X_{1} + 0.319 X_{2} - 0.046 X_{3} - 0.084 X_{4} + 0.242 X_{5} + 0.325 X_{6} \\ F_{2} = 0.069 X_{1} + 0.098 X_{2} + 0.424 X_{3} + 0.37 X_{4} + 0.549 X_{5} + 0.153 X_{6} \end{cases}$ (6)

Table 4. Principal component score coefficient matrix

表4. 主成分得分系数矩阵

5. 突水水源判别

5.1. 水源判别模型的建立

如不使用主成分分析进行Bayes判别建立判别模型，由公式(1)可得：

${\begin{cases} Y_{1} = 0.086 X_{1} + 0.102 X_{2} + 0.042 X_{3} - 0.012 X_{4} + 0.064 X_{5} - 0.005 X_{6} - 13.955 \\ Y_{2} = 0.217 X_{1} + 0.228 X_{2} + 0.037 X_{3} - 0.01 X_{4} + 0.072 X_{5} - 0.004 X_{6} - 20.217 \end{cases}$ (7)

式中，Y₁，Y₂分别为中新生界松散含水层和二叠系煤系砂岩裂隙含水层的判别函数值。明显数据较多，容易出错且正确度不高。

如使用主成分分析，用已经得出的两个主成分，通过建立Bayes判别法，根据公式(5)可得两个含水层水样的判别模型，数学函数如公式(8)。

${\begin{cases} Z_{1} = 0.013 F_{1} + 0.014 F_{2} - 5.704 \\ Z_{2} = 0.036 F_{1} + 0.015 F_{2} - 8.451 \end{cases}$ (8)

式中，Z₁，Z₂分别为中新生界松散含水层和二叠系煤系砂岩裂隙含水层的判别函数值。判别方法为哪一含水层的判别函数值大，则此水样即为此含水层。

5.2. 水源判别模型效果验证

将28组训练样本数据代入到判别公式(5)中得出通过主成分分析后的Bayes判别结果与实际水源类型对比情况见表5。

Table 5. Discrimination results

表5. 判别结果表

由表5可知，未使用主成分分析的Bayes判别结果中，I类水样16个，判断正确15个，错误率6.25%，II类水样12个，判断正确10个，错误率16.67%，综合错误率10.71%；使用主成分分析的Bayes判别结果中I类水样16个，判断正确14个，错误率12.50%，II类水样12个，判断正确12个，错误率0%，综合错误率7.14%。PCA-Bayes判别模型比传统Bayes判别模型正确率高，主成分可以减少冗余信息，方法高效，可用来实际判别突水水源问题。

5.3. 模型应用

利用已经建立的基于主成分分析的Bayes判别模型，以潘二矿新生界松散层水I、煤系砂岩水II、太原组灰岩水III三个类别突水水源的11个水样进行判别，判别结果见表6。

Table 6. Results of judgment

表6. 判别结果

Table 7. Judgment results of original index data

表7. 原指标数据回判结果

从表7的判别结果可以得出，在5个I类水样中，5个水样判别正确，正确率为100%；3个II类水样中，2个水样判别正确，正确率为66.67%；3个III类水样中，3个水样判断正确，正确率为100%；结合三类水样，综合判别正确率为90.91%。结果表明本文的方法比单一Bayes判别更加准确，极大的消除了样本之间的影响。

6. 结论

1) 结合主成分分析与Bayes判别法，基于祁东矿地下水水样数据，建立了突水水源判别模型。采用主成分分析法提取水化学指标的主成分因子，用于压缩和对原始数据信息进行降维，简化模型，提高计算精度和效率，避免信息冗余带来的误差。贝叶斯判别建立的判别函数模型简单，只需将待测水样的指标浓度带入计算。将计算结果进行对比，哪个数据最大即属于哪一类型，因此可以较快地判别出突水水源类型。

2) 根据矿井突水水源的特点，分别采用基于PCA-Bayes的突水水源判别模型和单独Bayes判别模型对比的方法，以祁东煤矿的28组突水水样作为训练样本以及潘二矿的11组突水水样作为检验样本进行突水水源进行识别，其中基于主成分分析的Bayes判别准确率分别为92.86%和90.91%。结果表明，采用主成分分析法对数据进行处理后，矿井突水水源的识别精度比单纯采用贝叶斯判别法有较大提高。

3) 在本研究中，当水样数据运用到识别模型时，由于训练样本数量相对不足，出现了一些误判。为了提高模型的预测精度，在后续研究中，应大量收集水化学数据，建立矿井水化学综合数据库，加强模型的训练，提高识别模型的识别精度。

参考文献

[1]	袁亮. 我国深部煤与瓦斯共采战略思考[J]. 煤炭学报, 2016, 41(1): 1-6.
[2]	Gui, H., Song, X. and Lin, M. (2017) Water-Inrush Mechanism Research Mining above Karst Confined Aquifer and Applications in North China Coalmines. Arabian Journal of Geosciences, 10, Article No. 180. [Google Scholar] [CrossRef]
[3]	Kalantari, H. and Ali Ghoreishi-Madiseh, S. (2019) Study of Mine Exhaust Heat Recovery System with Coupled Heat Exchangers. Energy Procedia, 158, 3976-3981. [Google Scholar] [CrossRef]
[4]	徐星, 孙光中, 田坤云. GA-BP神经网络在煤矿突水水源判别中的应用[J]. 煤炭技术, 2018, 37(10): 172-174.
[5]	郭中安, 吴洪斌, 姜海滨, 李相通, 张海龙. 主成分分析与遗传算法优化ELM模型的矿井突水水源识别方法[J]. 中国科技论文, 2021, 16(9): 1010-1016+1022.
[6]	张妹, 刘启蒙, 张宇通. 基于PCA水水源Fisher判别模型[J]. 煤炭技术, 2018, 37(3): 172-174.
[7]	曲兴玥, 施龙青. 基于Matlab因子分析及距离判别模型的矿井突水水源识别[J]. 煤炭科学技术, 2018, 46(8):178-182
[8]	Farnham, I.M., Stetzenbach, K.J., Singh, A.K. and Johannesson, K.H. (2000) Deciphering Groundwater Flow Systems in Oasis Valley, Nevada, Using Trace Element Chemistry, Multivariate Statistics, and Geographical Information System. Mathematical Geology, 32, 943-968. [Google Scholar] [CrossRef]
[9]	胡友彪, 邢世平, 张淑莹. 基于可拓模型判别矿井突水水源[J]. 安徽理工大学学报(自然科学版), 2017, 37(6): 34-40.
[10]	Uddin, M.P., Mamun, M.A. and Hossain, M.A. (2019) Effective Feature Extraction through Segmentation-Based Folded-PCA for Hyperspectral Image Classification. International Journal of Remote Sensing, 40, 7190-7220. [Google Scholar] [CrossRef]
[11]	向晓蕊. 兴隆庄矿井水化学特征演化及识别模式研究[D]: [硕士学位论文]. 廊坊: 华北科技学院, 2016.
[12]	徐星, 李垣志, 张文勇, 曾珠. MPSO-BP模型在矿井突水水源判别中的应用[J]. 自然灾害学报, 2017, 26(5): 140-148.
[13]	李小胜, 陈珍珍. 如何正确应用 SPSS 软件做主成分分析[J]. 统计研究, 2010, 27(8): 105-108.
[14]	张好, 姚多喜, 鲁海峰, 朱宁宁, 薛凉. 主成分分析与Bayes判别法在突水水源判别中的应用[J]. 煤田地质与勘探, 2017, 45(5): 87-93.
[15]	刘向远, 刘丹, 刘建. 灰色局势决策法在地下水水质评价中的应用[J]. 工业安全与环保, 2007, 33(1): 45-47.
[16]	曹丽文, 吴圣林, 于宗仁, 王忠胜. 基于灰色局势决策理论的工程投标决策方法[J]. 华中科技大学学报(自然科学版). 2004, 32(7): 27-30.

为你推荐

友情链接