1. 引言
渝西地区页岩气资源丰富,但其复杂性和不确定性严重制约着该地区深层页岩气的高效开发[1]。渝西地区足201井区相同地质条件下水平井间产能差异明显、产能预测误差较大。因此,通过页岩气产能主控因素分析明确影响足201井区产能的主控因素对于解决该地区产能差异较大和减小产能预测误差至关重要。
影响深层页岩气产能的因素包括地质因素、工程因素等多个方面,地质因素涵盖沉积环境、岩石类型、有机质丰度、孔隙结构及渗透率等,这些因素直接决定了页岩气的储集能力和渗流条件[2];工程因素则涉及水平井长度、压裂液用量、支撑剂选择等,它们对页岩气的开采效率和最终采收率具有显著影响。此外,地质构造特征、地层压力系数以及埋深等也是不可忽视的重要影响因素[3]。本研究将系统分析这些因素对足201井区深层页岩气产能的具体影响程度,为后续的产能预测和开发策略制定提供科学依据。
目前针对页岩气产能主控因素分析,前人使用的方法有基于数学公式法的数值求解,通常采用数学公式法进行数值求解、统计分析法进行定量分析、灰色关联法进行相关性分析[4],少数学者采用非线性相关分析法、主成分分析法。例如,韩珊等采用统计分析法分析各因素与产能之间的定性关系,并结合灰色关联法和随机森林法对产能主控因素进行了分析,并得出主控因素为平均含油饱和度、孔隙度及钻遇油层厚度等,但该研究分析工程因素时,一些因素之间相关性较小,使用不同的学习方法的排序存在着较小的差异性[5];Zhen等通过统计分析法对页岩气井主控因素进行了研究,结果表明不同地区页岩气井的含气量与总有机碳(TOC)呈良好的正相关系,该方法仅仅对地质因素进行了分析,并没有考虑到工程因素。页岩气产能预测常用的方法与产量递减法、机器学习算法[6]。传统的产量递减法预测精度较低,无法深入捕捉页岩气产能的复杂性;李丹采用机器学习中的集成学习算法,通过多种算法模型对比,优选出了一种误差更小、预测精度更高的算法模型[7]。该方法克服了单一模型的不足,但实用性并不高。
本研究旨在通过核主成分分析对研究区页岩气产能进行主控因素分析,在此基础上,将主控因素分析结果作为支持向量回归(SVR)和多元线性回归产能预测模型的输入,分别建立SVR产能预测模型和多元线性回归模型,并优选预测精度高的模型为研究区页岩气产能的预测模型。本研究为页岩气产能主控因素分析与预测提供了一种新方法。
2. 数据集及数据处理
2.1. 数据集
本研究以渝西地区足201井区17口井(足201、足206、足208和足211区块)的初期产能数据、后期产能数据、测井解释数据、示踪剂、压裂施工数据等为基础数据集,并且数据经统计后已完成初步清洗和校验。其中初期产能数据选择实际生产数据中开始生产一年内产能平稳段(产能变化幅度在±0.5 × 104方/天)的平均值,后期产能数据则为一年后产能平稳后的平均值;从测井数据中获得孔隙度、渗透率、一类储层厚度、TOC等研究区页岩气产能地质参数,从示踪剂、压裂施工数据中获得加砂量、加砂强度、用液强度、实际段长等工程参数。部分参数(前五口井)如表1所示:
Table 1. Display of partial original data
表1. 部分原始数据展示
井名 |
初期
产能 |
后期
产能 |
一类
储层
厚度 |
孔隙度 |
含水
饱和度 |
渗透率 |
总有
机碳 |
含气量 |
加砂量 |
实际段长 |
压裂
液量 |
用液
强度 |
足201H8-8 |
6.60 |
5.85 |
7.39 |
5.15 |
32.12 |
183.40 |
4.68 |
4.51 |
297.88 |
2862.31 |
40.27 |
6.60 |
足201H8-9 |
6.68 |
6.06 |
7.30 |
5.33 |
31.96 |
178.12 |
4.46 |
4.70 |
301.47 |
2901.86 |
40.54 |
6.68 |
足201H8-10 |
6.75 |
5.94 |
7.22 |
5.27 |
36.98 |
175.61 |
4.69 |
4.53 |
290.65 |
2794.74 |
40.39 |
6.75 |
足201H16-1 |
24.60 |
19.10 |
8.52 |
5.24 |
36.79 |
179.69 |
3.83 |
3.84 |
304.17 |
3043.15 |
44.07 |
24.60 |
足201H16-2 |
20.29 |
18.20 |
8.68 |
5.33 |
35.87 |
183.82 |
3.81 |
3.90 |
301.70 |
3042.60 |
43.62 |
20.29 |
2.2. 数据处理
从表1统计结果可以看出各井的产能数据和地质–工程参数无异常值、缺失值等,由于各井的实际段长不同,为了排除实际段长对产能的影响,将每口井产能数据单位段长化,调整后的数据如表2所示。
产能数据单位段长化的目的是为了排除段长对产能的影响,同时能提高产能数据的可信度。
Table 2. Partial original data is displayed after adjustment
表2. 部分原始数据调整后展示
井名 |
初期
产能 |
后期
产能 |
一类储层厚度 |
孔隙度 |
含水
饱和度 |
渗透率 |
总有
机碳 |
含气量 |
加砂量 |
压裂
液量 |
用液
强度 |
足201H8-8 |
5.75 |
5.09 |
7.39 |
5.15 |
32.12 |
183.40 |
4.68 |
4.51 |
297.88 |
40.27 |
6.60 |
足201H8-9 |
5.80 |
5.26 |
7.30 |
5.33 |
31.96 |
178.12 |
4.46 |
4.70 |
301.47 |
40.54 |
6.68 |
足201H8-10 |
6.00 |
5.27 |
7.22 |
5.27 |
36.98 |
175.61 |
4.69 |
4.53 |
290.65 |
40.39 |
6.75 |
足201H16-1 |
22.62 |
17.56 |
8.52 |
5.24 |
36.79 |
179.69 |
3.83 |
3.84 |
304.17 |
44.07 |
24.60 |
足201H16-2 |
19.22 |
17.24 |
8.68 |
5.33 |
35.87 |
183.82 |
3.81 |
3.90 |
301.70 |
43.62 |
20.29 |
3. 产能主控因素分析
影响页岩气产能的因素众多,并且根据众多学者研究可知,仅通过单因素线性分析出的页岩气产能影响因素并不准确,原因是其并未排除影响因素之间的影响[8]。因此本研究选择核主成分分析方法通过多因素非线性分析去优选研究区页岩气产能的主控因素。页岩气产能主控因素分析的目的是从研究区页岩气产能的众多地质、工程参数中筛选出对产能影响较大并且排除掉参数之间的影响,具体做法是通过核主成分分析方法筛选出单个方差贡献率最大的主成分,并从该主成分中筛选出主成分贡献度最大的影响因素(通常为前6个参数) [9]。
核主成分分析的特点是在主成分分析的基础上引入了核函数的思想,将原始的非线性实验数据通过核函数映射到高维度空间,使其变成线性数据,再利用主成分分析进行降维。核主成分分析的具体处理方式如下:
在实验数据中,假设影响因素的个数为m,样本维度为n,则将数据集表示为m*n的矩阵形式,如式(1)所示:
(1)
由于实验数据是非线性的,因此采用一个函数φ,就能将实验数据从低维度空间映射到高维度空间,结果如式(2)所示:
(2)
之后计算协方差矩阵,如式(3)所示:
(3)
在式(3)中,
表示协方差矩阵的特征值,在空间中的向量
可以由这个空间中所有的φ(X)线性表达出来,如式(4)所示:
(4)
将式(4)与式(3)结合,消除
,得到式(5):
(5)
在式(5)中,α表示
的特征向量。基于
式隐函数,所以不能直接得到其具体表达式,针对这个问题本研究决定采用高斯核函数K来解决。如式(6)所示:
(6)
将式(5)与式(6)结合,得到式(7):
(7)
因此,利用式(7)就能求出核矩阵的特征值,并且计算出每个特征值所对应的主成分贡献率。通过对主成分贡献率按大小排序,筛选出主成分贡献率前90%的主成分,根据页岩气产能主控因素分析大量实验表明,主成分贡献率超过86%就可视为对所有的数据的信息特征进行了提取。在筛选出的主成分内部,每一个影响因素的载荷绝对值大小代表该影响因素对整个主成分信息的反映程度。其中贡献率高的影响因素(通常选择前4个因素)即可表示为主控因素,将主成分内部所有影响因素的载荷绝对值用多元一次表达式统计即可表示为权重表达式。
4. 产能预测分析
产能预测分析的目的是对比优选预测精度高的模型作为研究区页岩气产能的预测模型。具体做法是建立产能预测模型、模型参数设置、模型训练与调优、模型评估、模型预测效果验证。通过这一系列步骤即可建立页岩气产能预测模型。最终通过模型评估指标的对比,优选出预测精度高的模型作为研究区页岩气产能预测模型。其中,产能预测模型的输入是数据集中每口井的产能及其对应的主控因素,模型的输出是页岩气产能。在建立预测模型过程后,仅通过输入页岩气产能的主控因素即可输出预测的产能。
4.1. 产能预测模型建立
本研究选择支持向量回归算法(SVR)建立SVR产能预测模型,选择多元线性回归算法建立多元线性回归产能预测模型,SVR的优势在于该方法通过构造最优超平面,在保证结构风险最小化的前提下实现训练数据的最佳拟合,能显著提高回归模型的预测精度,并且具有处理高维特征空间和解决非线性问题,特别适用于本研究小样本场景下的建模需求[10];多元线性回归算法的优势在于可塑性强,对本研究小样本数据预测相对稳健。
4.2. 模型参数设置
在支持向量回归算法中,核函数(Kernel)的选择直接影响着数据空间变换的效果。本研究采用高斯径向基函数(rbf)作为核函数,其关键参数gamma控制着特征空间的映射维度。在实验中发现,较大的gamma值虽然能提升训练集的拟合效果,但可能导致模型泛化性能下降和过拟合问题。为此,本研究采用“auto”模式,由算法自动优化gamma参数的取值。
在多元线性回归算法中,模型核心参数设置为包含截距项,以确保能够完整捕捉数据特征间的基本关系。考虑到各特征变量量纲差异对模型性能的影响,在训练前对全部自变量进行了标准化处理,消除不同地质参数和工程参数之间的量级差异。
4.3. 模型训练与调优
为确保模型性能评估的公正性与泛化能力,本研究采用严格的“按井划分”策略以避免数据泄露。具体而言,将所有17口井随机划分为建模集(14口井,约82%)和固定测试集(3口井,约18%),其中所有数据的处理和扩充均在建模集内进行,固定测试集保持不变。具体实现步骤如下:
原始17口井对应的主控因素和产能数据仅有17条,为了扩充数据从而保证模型训练的准确性,本研究采用微幅数据扰动法,在原始数据中引入一个随机扰动因子Xi,Xi是在[−0.005, 0.005]内服从均匀分布的随机数,即每个数据点的扰动幅度在原始值的±0.5%,由此将原始数据集扩充至1000条。±0.5%的扰动幅度远小于地质统计学变差函数中的变程所表征的变异尺度,因此能够有效模拟这种在空间上连续且微小的自然涨落,而不会发生突变。
为了在有限的建模集内更稳健地评估模型性能和选择参数,本研究采用了“按井的K折交叉验证”。将建模集(14口井)随机划分为K个折,在每一轮交叉验证中轮流选择1个折作为验证集,其余K − 1个折作为训练集,确保每一口井都会且仅会被作为一次验证集。对于本研究14口井的建模集来说,取K = 5,这样每折包含2~3口井,验证集大小合理,同时也能保证足够的训练数据。
4.4. 模型评估
本研究模型评估指标选择均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)以及R2。其中MSE的优势在于能直接反映预测值与真实值的偏离程度,MSE也能对误差的平方惩罚(放大较大误差),便于优化和数学处理;RMSE是对MSE值进行放大,更加直观解释数据;MAE能直接反映平均预测误差的绝对大小,并且鲁棒性强,对异常值不敏感;而MAPE值的大小能直接表示模型的优劣,MAPE值越小,表示模型预测精度越高。
5. 结果
5.1. 主控因素分析结果
5.1.1. 初期产能主控因素分析结果
Table 3. Table of variance contribution rate of all wells in the initial stage
表3. 初期所有井方差贡献率表
|
主成分1 |
主成分2 |
主成分3 |
主成分4 |
主成分5 |
主成分6 |
单个方差贡献率 |
0.36 |
0.29 |
0.17 |
0.11 |
0.04 |
0.03 |
累计方差贡献率 |
0.36 |
0.65 |
0.82 |
0.93 |
0.97 |
1 |
Figure 1. Interpretation variance ratio chart for all wells in the initial stage
图1. 初期所有井解释方差比例图
由表3可知,前4个主成分的累计方差贡献率达到了93%,表明了前4个主成分就能概括所有的信息含量(见图1)。由此可知,只需提取前4个主成分即可获得所有数据所包含的信息。其中每个主成分包含的影响因素及其大小表4所示,每个影响因素大小的绝对值表示该影响因素对整个主成分信息的反映量。
Table 4. Initial contribution table of all well core principal components
表4. 初期所有井核主成分贡献度表
|
主成分1 |
主成分2 |
主成分3 |
主成分4 |
压裂液量 |
0.3959 |
0.2736 |
0.2568 |
0.0773 |
含气量 |
0.377 |
0.0717 |
0.1853 |
0.4755 |
加砂量 |
0.3764 |
0.1014 |
0.5126 |
0.1907 |
一类储层厚度 |
0.3682 |
0.2532 |
0.3929 |
0.2258 |
TOC |
0.3526 |
0.1754 |
0.5297 |
0.1778 |
渗透率 |
0.2948 |
0.4356 |
0.0364 |
0.1621 |
含水饱和度 |
0.2838 |
0.375 |
0.1284 |
0.5054 |
孔隙度 |
0.2688 |
0.4654 |
0.3831 |
0.0644 |
用液强度 |
0.1498 |
0.5176 |
0.1936 |
0.6025 |
将主成分1中各因素的主成分贡献度转换为数学公式为:
(8)
在式(8)中,Y1表示主成分1,X1~X9分别表示压裂液量、含气量、加砂量、一类储层厚度、TOC、渗透率、含水饱和度、孔隙度、用液强度9个影响因素,其中X1~X9前面的系数表示该因素在该主成分中的贡献度。其余主成分计算公式与之类似。
根据各因素在主成分中系数绝对值大小可知:压裂液量在主成分1中主成分贡献度占比最大,为0.3959,因此主成分1主要反映压裂液量的信息;同理,主成分2主要反映用液强度的信息;主成分3主要反映TOC的信息;主成分4主要反映用液强度的信息。
综上所述,研究区页岩气初期产能时期主控因素为压裂液量、用液强度、TOC。
5.1.2. 后期产能主控因素分析结果
Table 5. Variance contribution rate table for all wells in the later stage
表5. 后期所有井方差贡献率表
|
主成分1 |
主成分2 |
主成分3 |
主成分4 |
主成分5 |
主成分6 |
单个方差贡献率 |
0.50 |
0.21 |
0.12 |
0.09 |
0.04 |
0.03 |
累计方差贡献率 |
0.50 |
0.71 |
0.83 |
0.92 |
0.96 |
0.99 |
由表5可知,前4个主成分的累计方差贡献率达到了92%,表明了前4个主成分就能概括所有的信息含量(见图2)。由此可知,只需提取前4个主成分即可获得所有数据所包含的信息。其中每个主成分包含的影响因素及其大小表6所示,每个影响因素大小的绝对值表示该影响因素对整个主成分信息的反映量。
Figure 2. Variance ratio chart of all well interpretations in the later stage
图2. 后期所有井解释方差比例图
Table 6. Initial contribution table of all well core principal components
表6. 后期所有井核主成分贡献度表
|
主成分1 |
主成分2 |
主成分3 |
主成分4 |
含气量 |
0.4171 |
0.0474 |
0.1584 |
0.2530 |
一类储层厚度 |
0.3862 |
0.2253 |
0.4529 |
0.3327 |
压裂液量 |
0.3506 |
0.2474 |
0.3931 |
0.4214 |
TOC |
0.3129 |
0.1845 |
0.5137 |
0.1891 |
加砂量 |
0.2715 |
0.1513 |
0.4916 |
0.1086 |
渗透率 |
0.2273 |
0.4137 |
0.0526 |
0.2035 |
含水饱和度 |
0.1891 |
0.3385 |
0.1428 |
0.5341 |
孔隙度 |
0.1657 |
0.5051 |
0.3784 |
0.4438 |
用液强度 |
0.1236 |
0.4476 |
0.2196 |
0.2766 |
将主成分1中各因素的主成分贡献度转换为数学公式为:
(9)
在式(9)中,Y1表示主成分1,X1~X9分别表示含气量、一类储层厚度、压裂液量、TOC、加砂量、渗透率、含水饱和度、孔隙度、用液强度9个影响因素,其中X1~X9前面的系数表示该因素在该主成分中的贡献度。其余三个主成分计算公式与之类似。
根据各因素在主成分中系数绝对值大小可知:含气量在主成分1中主成分贡献度占比最大,为0.4171,因此主成分1主要反映压裂液量的信息;同理,主成分2主要反映孔隙度的信息;主成分3主要反映TOC的信息;主成分4主要反映含水饱和度的信息。
综上所述,研究区页岩气后期产能时期主控因素为含气量、孔隙度、TOC、含水饱和度。
5.2. 产能预测结果
Table 7. Capacity prediction and evaluation table
表7. 产能预测评估表
|
MSE |
RMSE |
MAE |
MAPE |
R2 |
SVR预测初期产能 |
0.593 |
0.770 |
0.517 |
5.49% |
92.13% |
多元线性回归预测初期产能 |
2.985 |
1.728 |
1.444 |
21.05% |
77.7% |
SVR预测后期产能 |
0.112 |
0.334 |
0.259 |
4.13% |
93.46% |
多元线性回归预测初期产能 |
1.252 |
1.119 |
0.901 |
17.01% |
87.6% |
Figure 3. SVR model initial (a) and later (b) production capacity prediction results chart
图3. SVR模型初(a)、后(b)期产能预测结果图
Figure 4. Preliminary (a) and later (b) production capacity prediction results of multiple linear regression model
图4. 多元线性回归模型初(a)、后(b)期产能预测结果图
由表7可知,SVR预测模型对初期产能和后期产能的RMSE和MAPE以及R2均比多元线性回归模型低,表明对研究区页岩气产能预测来说,SVR预测模型预测效果远比多元线性回归法好,并且SVR模型预测初期产能的相对误差为5.49%、R2为92.13%,预测后期产能的相对误差为4.13%、R2为93.46%。
6. 结论
(1) 研究区页岩气初期产能主控因素为压裂液量、用液强度、TOC,表明研究区页岩气初期产能受压裂液量、用液强度、TOC共同控制,其中TOC作为地质“内因”,定义了储层的原始产能潜力;压裂液量和用液强度作为工程“外因”,共同决定了潜力被激活和释放的效率,三者共同构成一个完整的“潜力–规模–效率”产能控制体系。因此,在页岩气开采初期时实现高产必须依赖于地质靶体的精准识别与工程参数的协同优化。
(2) 研究区页岩气后期产能主控因素为含气量、孔隙度、TOC、含水饱和度,表明研究区页岩气后期产能主要取决于储层的内在含气性与赋存状态。高含气量与高孔隙度是储集能力的体现,构成了产能的存量基础;高TOC通过解吸作用提供了重要的补给来源;而低含水饱和度则是保障这些气体能够被高效采出的关键渗流条件。四者共同定义了储层的长期产出能力。
(3) 本研究通过支持向量回归(SVR)算法建立了SVR产能预测模型,该模型对研究区初期产能和后期产能预测的相对误差分别为5.49%和4.13%,R2分别为92.13%和93.46% (见图3(a)和图3(b))。而多元线性回归模型预测的相对误差分别为21.05%和17.01% (见图4(a)和图4(b)),R2分别为77.7%和87.6%。综合表明研究区SVR预测模型比多元线性回归模型预测效果更优异。但有3口井的预测值与实际产能存在显著的偏差,通过对异常样本的回溯分析发现,预测效果不佳的井位主要呈现以下特征:一是位于构造复杂带的井,其储层非均质性超出了模型对“地质甜点”的常规界定;二是工程参数组合异常的井,如高TOC储层配合过低用液强度,或低孔隙度储层采用激进压裂规模,导致地质–工程匹配失当。这些案例揭示了模型在捕捉特殊地质构造与非常规工程组合方面的局限。本研究所建立的模型预测效果高度依赖于目标区块的地质背景条件,其核心适用区域可概括为:构造相对完整、储层连续性好且工程工艺标准化的开发单元。
基金项目
重庆科技大学研究生科技创新项目“渝西地区201区块深层页岩气产能影响因素分析及智能预测方法研究”(立项编号:YKJCX2420114)资助。
NOTES
*通讯作者。