1. 引言
Figure 1. Technical route
图1. 技术路线图
随着油气勘探开发的不断深入,常规油气产量持续下降,人类能源需求持续增加,全球范围内正在开展页岩气储层、页岩油储层、致密油气储层等非常规储层研究。很多学者针对非常规油气藏进行了大量研究,页岩储层的有机质含量(TOC)决定了其最终能产生的碳氢化合物数量,反映了页岩地层的烃类生成能力,是评估页岩储层质量的重要参数[1]-[5]。TOC含量可通过地球化学实验确定。然而,通过岩心实验测量整个井的TOC是不现实的。因此,目前的主流方法是通过岩心实验获得地层TOC含量,然后利用测井曲线建立TOC评价模型。目前的TOC评价方法研究主要集中在两个方面:(1) ∆logR方法及改进∆logR方法[6];(2) 使用机器学习方法来提高TOC预测精度[7]-[9]。本论文的研究内容是,利用岩石物理模型与机器学习方法评价烃源岩,提高页岩储层TOC含量的预测精度。技术路线如图1,选取实验区域的岩心分析数据和常规测井数据,建立∆logR、变基线、DD∆logR三种岩石物理模型和BP神经网络、LSTM神经网络两种机器学习算法,分别对目标区域TOC进行评价。然后建立结合物理模型的神经网络[10] [11],以∆logR模型输出结果与测井曲线组合作为神经网络输入,基于BP神经网络与LSTM神经网络进行TOC评价。
2. 烃源岩测井响应特征
烃源岩定义为:富含有机质,可以生成油气并且排出油气的岩石,包括油源岩、气源岩和油气源岩,习惯上通常叫作生油岩。烃源岩通常为石灰泥岩和页岩,它们在地质发展和地层演化的过程中生成大量的烃类物质,包括石油和天然气。所以非烃源岩的主要组成可以划分为粘土矿物、非粘土矿物、内部流体,烃源岩的主要组成划分为粘土矿物、非粘土矿物、有机质、内部流体。
研究区域的测井响应见图2,数据来源于鄂尔多斯盆地西北缘地区XX井,结合多条曲线特征分析。
Figure 2. Well logging response in the study area
图2. 研究区域测井响应
密度测井:相对于其他矿物成分,有机质的密度较低,在富含有机质的烃源岩地层,可以观察到密度测井曲线呈现低值。
声波时差测井:有机质的密度低,可以得到其声波时差较高的特性,有机质含量越高,声波时差就会越高,如果烃源岩含有气,则声波时差曲线会出现异常高值。
电阻率测井:随着烃源岩成熟阶段的提高,岩石中的油气含量不断升高,油气等烃类属于不导电介质,这些将会导致岩石电阻率升高,并且有机质含量越高,电阻率异常越大。
自然伽马测井:烃源岩中富含有机质,有机质吸附的铀元素将在伽马能谱曲线贡献高值,随着有机质含量增加,自然伽马测井曲线不断升高。
补偿中子测井:利用双探测器消除井眼对测量结果的影响的同位素源中子测井方法,主要反映地层对快中子的减速能力,显示出地层含氢量的变化。烃源岩中富含有机质,含氢很高,所以随有机质含量的增加会在中子曲线上呈现高值。
研究区域地层为富含有机质的页岩地层,存在大量的干酪根组分,在测井曲线上主要反映为低密度、高声波时差、高电阻率、高自然伽马和高补偿中子。
3. 基于物理模型的烃源岩有机质含量评价方法
3.1. 基于ΔLogR方法评价烃源岩有机质
∆logR技术是埃克森于1979年开始开发和测试的,该技术已成功应用于生产实践[12]。尽管其他方法和新工具(如诱导伽马射线能谱测井)在直接测量有机碳含量方面可能具有特定的优势,但∆logR技术已被发现在碳酸盐岩和碎屑岩烃源岩中都能充分发挥作用,并且可以大范围准确预测TOC,∆logR的计算公式如下:
(1)
公式1中,R是电阻率取值,
是电阻率基线,∆t是声波时差,
是声波时差基线,式中0.02是指在地层中一定电阻率范围内声波时差的近线性变化系数,与地层因素有关。∆LogR分离与总有机碳线性相关,是成熟度的函数,∆LogR的分离可以通过函数计算转换为总有机碳(TOC),公式如下:
(2)
∆LogR模型的应用效果如图3所示,图中横坐标为模型计算值,纵坐标为岩心实验分析值。利用均方误差(MSE)来评价方法的应用效果。均方误差是一种用于衡量预测模型误差的指标,在机器学习和统计学中MSE被广泛应用,计算公式如下:
(3)
公式中n表示样本数量,
表示预测值,
表示真实值,MSE的值越小,说明模型的预测能力越好。结合交汇图与MSE可以看出,交汇点分布在直线Y = X两侧且分布散乱,MSE为3.413,说明使用∆LogR模型评价研究区域井段的烃源岩有机碳含量效果不是很好,有待改进。
∆LogR方法自提出以来,应用一直十分广泛,其作者指出在有机质含量低的地层中∆LogR分离也可能发生,但在大多数情况下,这种异常的分离主要发生在以下情况:(a) 油气藏,(b) 钻孔条件差,(c) 未压实的沉积物,(d) 致密层,(e) 火成岩,(f) 蒸发岩。并且该方法对声波曲线、密度曲线和中子曲线的计算中采用曲线均值代替基线或会对计算结果有影响。
Figure 3. ∆LogR model results
图3. ΔLogR模型结果
3.2. 基于变基线方法评价烃源岩有机质
变基线方法(Zhao, 2017)是基于原始∆LogR模型和修正模型(Wang, 2016)的改进,指出∆LogR模型中手动确定基线存在的误差,提出用建立理论基线取代近线性基线,并且明确给出理论基线确定方法并验证其可行性,通过数学方法得到了不同的基线数值[13]。在贫岩数据区域建立理论基线,有机碳含量高的烃源岩声波时差和电阻率都比贫岩段的岩心点数据要高。进行∆LogR模型有机碳含量计算时,不同点位的岩心都会有对应的基线点,反应为每个岩心点在理论基线上都有一距离的最小值点相对应。对每个岩心点计算得到相应的基线值后,使用改进后的公式计算TOC:
(4)
aa、bb、cc为模型参数,使用多元回归的方法计算,参数必须根据油藏实际情况进行计算,不同井对应不同的模型参数。图4是变基线模型对于研究区域的TOC含量计算结果,可以看到变基线模型的预测数据与真实岩心数据交汇在Y = X直线附近,并且MSE数值为2.034,相较于Passey的∆logR模型有较为明显的改进,说明Zhao的改进模型有效,在改进∆logR模型基线手动标定取定值问题后,变基线模型更适合研究区域TOC含量的评价。
Figure 4. TOC prediction results of variable baseline model
图4. 变基线模型预测TOC
该模型建立理论基线取代近线性基线提高了∆LogR模型计算精度,对于理论基线的建立,需要注意数据选取时需根据地层测井数据整体分析,选取合适的岩心点数据。而在整体烃源岩含量都不低的井段,选取到的数据可能会导致理论基线值偏高,计算TOC偏低。
3.3. 基于DDΔLogR方法评价烃源岩有机质
DD∆LogR的方法(Zhu, 2019)是对Passey提出∆logR (1990)模型的改进,此方法考虑到岩石矿物成分的变化和孔隙扩大的影响,有效地提高了∆logR的计算精度,极大地扩展了∆logR方法的适用性,可以有效地帮助页岩油藏的勘探和开发[14]。将基于各种矿物的体积和声波时差响应模型的体积模型演化为基于声波时差的体积模型,如图5所示。由于粘土和石英的∆t值差异较大,前者的声波时差值几乎接近后者的两倍,此外,页岩储层的粘土含量通常大于40%,因此粘土的影响是建立页岩的∆t响应特性的体积模型时,必须要考虑的问题。方解石、白云石、黄铁矿等矿物的∆t响应值与石英无显著差异,可以在非粘土基质部分进行综合考虑。
Figure 5. Acoustic volume model
图5. 声学体积模型
图5中(a)图是理论的声学体积模型,(b)图是Zhu在文中新建立的声学体积模型,对于低有机质岩石∆t体积模型:
(5)
是岩石声波时差,
是不含黏土骨架声波时差,
是孔隙体积占比,
黏土体积占比。根据∆t公式计算页岩储层孔隙度:
(6)
将
式子带入阿尔奇公式
,得到:
(7)
新的理论关系考虑了矿物变化对∆t的影响,提取的∆logR结果不受矿物成分变化的影响。第二,理论关系曲线的形状发生了变化,曲线的形状与粘土含量有关,因此,该曲线将基线值的变化与矿物成分的变化联系起来。动态理论关系曲线考虑了矿物的影响,从而提高了∆logR计算精度。
(8)
(9)
(10)
反应有机岩,
反应有机贫岩,
可以看作为烃源岩有机碳特征提取。GR曲线可以显著提高预测和测量的TOC含量之间的相关性,可作为岩石类型指标,降低有机贫、高电阻率非源岩(页岩层间、含烃、非常细粒砂岩–粉砂岩)对TOC含量的影响。在组成页岩的主要矿物中,具有较强放射性的矿物(OM除外)是粘土,如果用放射性曲线来准确地表征TOC的含量,就必须排除粘土等放射性矿物的影响。由于动态理论关系曲线的精确测定随深度的变化,需要测定粘土含量;因此,文章直接使用粘土含量曲线来反映粘土的比例,最终推导出的公式如下:
(11)
在此公式中,不仅做了自然伽马校正,由于钾长石对自然伽马也作很大比例的贡献,所以又进行了钾长石的校正。最终DD∆logR模型表示如下:
(12)
DDΔlogR模型评价TOC结果如图6所示,模型的预测数据与真实岩心数据交汇在
直线附近,并且MSE数值为1.645,相较于Passey的
模型有较为明显的改进,说明双差分的改进模型有效,并且双差分模型较为适合该研究区域TOC含量的研究。目标研究层段为页岩储层,方解石、白云石、黄铁矿等矿物含量不高,使用该模型进行非粘土基质等效对结果不会有很大影响,不过在碳酸盐岩和碎屑岩中,石英、长石、云母和重矿物含量升高会对模型结果产生很大影响,DDΔlogR模型不再适用。
Figure 6. DD∆LogR model results
图6. DD∆LogR模型结果
4. 基于机器学习的烃源岩有机质含量评价方法
4.1. 基于BP神经网络评价烃源岩有机质
BP神经网络预测TOC结构如图7所示:BP神经网络包括有1个输入层、数个隐层(本实验中设置5个隐层)和1个输出层组成[15]。优选与TOC相关性高的测井曲线作为输入,以岩心TOC为标签,设置合适超参数,完成网络训练,之后用训练好的网络处理未经训练的数据集,完成TOC评价。
Figure 7. Structure diagram of TOC predicted by BP network
图7. BP神经网络预测TOC结构示意图
在进行数据训练之前,先讨论数据的输入问题,由测井响应与TOC的相关性分析得到岩心TOC与GR、AC、CNL、Rt、SP是正相关,相关系数是0.667、0.752、0.639、0.501和0.439;TOC与DEN为负相关,相关系数是−0.622,根据相关性的绝对值大小比较来看,AC、GR、CNL、DEN四条测井曲线与岩心TOC相关性较高,均大于0.6,Rt与SP曲线与岩心TOC的相关性较低,分别是0.501和0.439。在关于输入数据的选择上,J Utans等认为只输入与目标数据相关性好的数据可以得到较好的训练结果[16],姚立忠等学者认为相关性好的和坏的数据合理进行输入,可以使得神经网络更加全面地了解输入数据的特征和规律,提高对数据的理解和学习能力[17]。基于此问题的讨论,针对本次研究,本文做了曲线的优选实验,分别选择不同的输入曲线组合,在参数设置相同的情况下,观测其结果,为了避免误差存在,对同一种曲线组合进行10次训练,取其验证集的相关性和均方误差10次测量的平均值作为比较样本,最终得到数据结果如表1所示:
Table 1. Curve optimization table
表1. 曲线优选表格
曲线组合 |
高相关组合 |
+RT |
+SP |
+RT SP |
GR AC |
3.789 |
3.166 |
3.712 |
3.283 |
CNL DEN |
4.238 |
3.364 |
3.272 |
3.475 |
AC CNL |
4.354 |
3.123 |
7.989 |
3.699 |
GR DEN |
3.689 |
2.926 |
3.054 |
3.664 |
AC CNL GR |
4.205 |
3.554 |
3.931 |
3.748 |
AC CNL DEN |
3.656 |
3.638 |
3.647 |
3.398 |
AC DEN GR |
2.918 |
3.158 |
4.667 |
3.135 |
CNL DEN GR |
3.419 |
3.364 |
3.292 |
2.868 |
AC CNL GR DEN |
3.238 |
3.056 |
3.826 |
3.293 |
表格中分别讨论9种相关性好的测井曲线的不同组合,然后再分别添加一条和两条相关性差的测井曲线,表中一共是36种不同的测井曲线组合进行比较其相关性和均方误差。从表格可以看出,只使用相关性差的数据作为输入结果是最差的,只使用相关性好的数据结果也不是最好的;在给相关性好的输入组添加相关性差曲线的27种组合中,只有5中组合数据结果变差,其余的22中添加组合结果均变好,也就是给相关性好的数据输入组合添加相关性差的数据会使结果更好的概率是81.48%。最终得到的最优测井曲线输入组合为CNL、DEN、GR、Rt、SP,该组合MSE最低,且相关性最高。说明,在进行神经网络输入时,输入相关性较好数据和相关性较坏数据合理进行输入,可以使得神经网络更加全面地了解输入数据的特征和规律,提高对数据的理解和学习能力。同时,只输入相关性较好数据可能会导致过拟合的问题,即模型过度适应训练数据,而在实际使用中表现不佳。
使用最优测井曲线组合作为输入,为了更全面的评价BP神经网络方法,随机抓取100个岩心点位作为训练集,44个岩心作为测试集,评价研究区域的TOC结果见图8:可以看到,使用BP神经网络评价TOC,十次训练MSE最高是3.968,最低是1.995,十次均值为2.868。
Figure 8. Prediction of TOC results by BP neural network
图8. BP神经网络预测TOC结果
4.2. 基于LSTM神经网络评价烃源岩有机质
LSTM是Long Short Term Memory简称,又叫长短期记忆神经网络,是为了解决RNN (循环神经网络)长期依赖问题设计出的神经网络,通过多个门函数将数据的重要特征进行保留,有效减缓了长序列问题中可能出现的梯度消失或爆炸问题,表现优于传统RNN神经网络[18] [19]。
选择4.1小节中优选的最佳测井曲线组合作为LSTM神经网络的输入,随机抓取100个岩心点位作为训练集,44个岩心作为测试集,评价研究区域的TOC结果见图9所示,使用LSTM神经网络评价TOC,十次训练MSE最高是2.986,最低是1.709,十次均值为2.141。
Figure 9. Prediction of TOC results by LSTM neural network
图9. LSTM神经网络预测TOC结果
4.3. 基于结合物理模型的神经网络评价烃源岩有机质
本次实验对神经网络与物理模型做结合,进行TOC含量的预测。由于变基线模型和双差分模型的计算结果都是进行了多元回归得到的,为防止过拟合问题,不作为选取,所以此次的结合选取Passey的∆logR模型,其计算结果全部来自公式计算而来,有数值上的误差。把本次实验中Passey的∆logR模型计算结果分别作为BP神经网络和LSTM神经网络的输入,又考虑到单一输入对神经网络训练效果影响较大,导致过拟合问题。最终选取最佳测井曲线组合一同作为神经网络输入,然后以真实岩心TOC作为标签,随机抓取训练集,进行训练。
图为四种神经网络方法评价TOC:BP神经网络、LSTM神经网络、结合∆logR模型的BP神经网络、结合∆logR模型的LSTM神经网络,见图10四种神经网络方法进行对比:
Figure 10. Comparison of TOC in neural network evaluation
图10. 神经网络评价TOC对比
结合物理模型的神经网络评价TOC效果要优于不结合物理模型的神经网络,LSTM神经网络整体评价TOC效果优于BP神经网络,LSTM神经网络处理像TOC含量这种连续性数据具有更好的效果,四种神经网络中,结合∆logR物理模型的LSTM神经网络表现最好,MSE均值最小为1.934。图11为十次神经网络训练中随机一次训练效果展示:
Figure 11. Comparison of TOC in neural network evaluation
图11. 神经网络评价TOC对比
LSTM神经网络评价效果优于BP神经网络,因为LSTM神经网络对长序列数据处理更具优势,它可以记忆先前的数据输入并将其作为后续预测的一部分考虑。结合∆logR模型的神经网络,评价效果优于未与物理模型结合神经网络,这说明结合物理模型后提升了神经网络的性能。综合对比四种神经网络模型,结合∆logR模型的LSTM神经网络评价TOC效果最好。
5. 结论
本文基于常规测井数据,对鄂尔多斯盆地中晚三叠世湖盆西北缘地区烃源岩TOC进行评价。共使用了三种物理模型(∆logR模型、变基线模型和DD∆logR模型),以及四种神经网络(BP神经网络和LSTM神经网络;与∆logR结合的BP神经网络,与∆logR结合的LSTM神经网络)评价TOC,通过实际数据处理,得到以下结论:
(1) ∆logR模型在研究区域的效果不佳,变基线方法改进了∆logR方法中基线确定的方法,较好地提高了∆logR模型预测精度;双差分方法考虑矿物成分变化与孔隙的影响,同时也解决手动标定基线不稳定问题,在变基线的基础上进一步改进了模型,在三种物理模型中评价TOC效果最佳。
(2) 神经网络可以更准确地预测TOC,LSTM神经网络的效果优于BP神经网络。与∆logR模型结合的神经网络,可以提高神经网络的预测能力,在四种神经网络中,与∆logR模型结合的LSTM神经网络评价TOC效果最优。
(3) 在进行神经网络训练时,只输入相关性好的数据,模型过度适应训练数据,可能会导致模型过拟合的问题,在实际使用中表现不佳。将与神经网络相关性较好与相关性较差的参数合理组合作为输入,可以提高神经网络预测能力。