1. 引言
机器学习在人工智能领域具有相当大的影响,其深度学习是构建分层模型结构 [1],对输入数据从底层到高层逐级进行提取并建立对应关系。就实际贡献而言,深度学习也许是近十年来机器学习领域最成功的课题。Geoffrey Hinton [2] 因提出训练深度神经网络的方法,使深度学习因其强大的表现数据内部结构的能力获得了各领域学者们的广泛关注,自2012年深度学习成功应用于图像识别和语音识别以来,各领域的学者便一直在积极扩展深度学习的应用范围和影响力,目前正成为资源勘查领域的一个非常吸引人的技术。
神经网络技术具有求解问题时的强抗干扰能力和非线性映射能力,为测井解释的发展开拓了一个新的研究思路。与传统的测井解释方法相比,神经网络技术的独特优势体现在:不需要建立具体的解释模型和具体的计算公式;不需要对大量的参数进行选取;不需要太多的专家经验 [3]。深度学习是在神经网络的基础上使其层数更加深入,它可以从海量数据中自动提取特征,并通过逐层特征变化进而解决复杂的分类或预测问题。因此,为了解决复杂的储层解释问题,机器学习在地球物理测井中的应用必将越来越多。
随着测井技术的发展,测井方法越来越多、精度越来越高、数据量越来越大。每一条测井曲线对地层岩性信息都有相应的响应,如果同时解释多条测井曲线,就需要同时解决复杂的多维度非线性问题和多种测井数据综合形成的大数据的问题 [4] [5],这是传统的交会图法等方法无法解决的。作为智能算法,机器学习具有从大量数据中自动提取特征,并通过逐层特征变化解决复杂的分类或预测问题的特点,其在测井领域已经有了应用。对机器学习在测井中的应用进行调研并总结分析,可为测井智能解释奠定基础。
2. 机器学习的概述
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习的方法有很多,包括神经网络法、支持向量机算法、决策树算法等 [6],机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
其分为两个阶段:浅层学习和深度学习。在20世纪80年代末期,发明了人工神经网络的反向传播算法(BP算法) [7]。该算法可以让一个人工神经网络模型从大量训练样本中学习统计规律,并利用此规律对未知的事件做出预测。但是此时的神经网络模型隐层层数过浅,所以也被称为浅层学习。在2006年,Hinton和他的学生Salakhutdinov在学术刊物《Science》上发表了一篇文章 [8],该文章提出了深度学习的概念。这篇文章主要提出了对于很多隐层的人工神经网络具有良好的特征学习能力,可以学习得到更精准的数据特征,更有利于数据分类,这里提到的神经网络模型就已经是多隐层层数的了,所以可以被称为深度学习。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用 [8] [9] [10]。
3. 机器学习在测井地层评价中的应用
尽管浅层学习时期发明的BP算法可以使人工神经网络模型从大量训练样本中学习统计规律,并利用此规律对未知事件做出预测,但是这些模型的结构隐层节点层数极少,不能满足测井的需要。深度学习的本质是通过构建含有很多隐层节点的机器学习模型,使用大量的数据进行训练,来学习更多更有用的特征,从而提高分类或预测的精准度。所以,是用深度模型的方法,对样本进行特征学习。
3.1. 机器学习在测井岩性识别中的应用
岩性识别是储层含油气性评价、油藏描述等方面的重要内容之一,是求解油气储层各种参数的基础。与其它岩性识别方法(如取岩心)相比,利用测井资料识别岩性速度快、费用低,也正因此才被广泛采用。常规的利用测井资料识别地层岩性的方法主要有交会图法 [11] [12] 、统计学方法 [13] 以及成像测井 [14],但是传统识别方法精度低、效率慢并且人为因素影响大,而成像测井价格昂贵,不利于广泛实际应用,因此研究出一种高精度自动识别岩性的方法对于测井数据解释具有重要的意义。神经网络、决策树和支持向量机在测井岩性识别领域具有良好的应用前景。
神经网络(Artificial Neural Network, ANN)是由大量处理单元(神经元)互相连接组成的大规模、非线性、自适应动力学系统 [15]。信息由输入层到输出层不断传递,中间神经元根据某种准则不断调整对接收到的相应信号的处理方式,最终使输出层得到想要的信息 [16]。目前,在测井岩性识别中实际效果好且应用最广泛的有2种神经网络模型:误差反传神经网络(BPNN)、径向基函数神经网络(RBFNN)。BPNN是一种全局逼近神经网络,在训练过程中误差逐层向输入层逆向传播,对网络中出现的所有权值和阈值进行修正,RBFNN是一种局部逼近网络,对于每个训练样本,它只需要对少量的权值和阈值进行修正,另外RBFNN通过径向基函数将低维空间中非线性可分的问题映射到高维空间,使其在高维空间中线性可分。BPNN与RBFNN两者功能相近,可以互相替代,但理论上后者结构简单、收敛速度快,能够逼近任意非线性函数,相比BPNN更适用于测井岩性识别 [17]。
决策树(Decision Tree, DT)是一个类似流程图的树状结构,可以从一组无规则、无次序的分类样本中推理出分类规则。DT通过根节点到叶节点的顺序对样本进行分类,其中每个节点代表一个因变量,每个分支代表它所连接的上节点在其自变量上的可能取值。分类时采取自顶向下的递归方式,在内部节点进行因变量的比较,并根据不同的因变量值判断从该节点向下的分支,在树的叶节点得到结论即因变量y,整个过程都是以新节点为根的子树上的重复 [18]。DT的建立由建树和剪枝组成 [19],所有DT算法都遵循这2个阶段,所产生的算法有C5.0,CART,QUEST和CHAID,差异只在于测量指标不同,如在建树过程中如何确定首先使用哪个自变量和自变量取值作为拆分点。其中,C5.0算法与其他算法相比,通常不需要很长的训练次数,而且面对数据缺失和数据量大的问题时稳健性明显高于其他算法 [6],这在测井岩性识别时优势明显。
支持向量机(Support Vector Machine, SVM)建立在统计学理论和结构风险最小原理基础上,在学习精度和学习能力之间寻求最佳折中,可最大化模型的预测能力,是一项功能强大的分类和回归技术 [20]。对于线性不可分问题,SVM的主要原理是:用核函数将样本映射到高维特征空间,在高维特征空间中构造最优分割面,避免了在原空间中进行非线性曲面分割的计算,样本通过核函数映射到高维空间,增加了线性分割概率。但对某些情况仍然无法实现线性分割,如数据有噪声。SVM则允许样本点在一定程度上偏离最优分割面,样本点xi允许偏离最优分割面的量称为松弛变量ξi。因此,实现最优分类需调节松弛变量,使其达到最优 [21] [22]。与调节松弛变量相比,核函数的选择才是影响分类效果的关键,包括线性核函数、多项式核函数、RBF核函数和Sigmeid核函数,而核函数的选择没有唯一确定的准则,在测井岩性识别中需要根据实际情祝进行尝试和比较 [21] [23]。
前人对进行岩性识别主要使用的是BP神经网络:侯俊胜和王颖(1999)对煤气层测井资料进行了定量解释识别 [24],卢新卫和金章东(1999)对胜利油田某测井岩性进行识别 [25],范训礼等(1999)对塔里木油田TZ4测井的岩性进行了识别 [26],他们用的都是BP神经网络手段,而且相同的是识别结果准确率均不高。蔡磊和程国建等人(2010)采用极限学习机的方法对测井岩性进行识别 [27]。在蔡磊(2010)的文章中使用了机器学习的支持向量机方法。在这次验证中,蔡磊的研究对象选择了自然伽玛,深感应电阻率,中子–密度孔隙度差,平均中子–密度孔隙度,光电效应这5条测井曲线,选取了10口井中的6口作为训练集3150个样本,2口作为验证集421个样本,2口作为测试集431个样本。最终结果显示岩性识别正确率如表1。识别结果较好,表明了基于支持向量机的机器学习算法也能在岩性识别中发挥很好的作用。

Table 1. Results of lithology identification of Cai Lei et al. (2010) [28]
表1. 蔡磊等(2010)岩性识别结果表 [28]
安鹏和曹丹平(2018)基于深度学习对测井岩性识别进行了研究 [28],构建了一个包含多个隐层的深度神经网络模型(图1),其中激励函数采用的是Relu函数,神经网络优化算法采用的是Adagrad算法,并且在原始输出层和最终输出层之间添加了softmax层将神经网络输出转变成一个概率分布。

Figure 1. Deep neural network constructed by An and Cao (2018) [28]
图1. 安鹏和曹丹平(2018)构建的深度神经网络 [28]
深度神经网络使用前馈传播(Forward propagation)将训练数据输入到网络中,逐层训练至输出层,得到本次的样本数据的预测估计值,然后将预测估计值带入交叉熵损失函数计算误差,然后使用反向传播算法获得每一个神经元的误差值。接着使用基于梯度的Adagrad优化算法,首先根据代价函数计算模型的每一个参数的梯度,根据梯度计算“惩罚值”,调整模型参数,使预测结果向优化目标(即岩性标签)接近。
3.2. 机器学习在测井孔隙度预测中的应用
储层孔隙度的准确计算队估算石油、天然气等资源的储量具有极大的影响。如果要计算孔隙度,要先从储层测井曲线的特征出发,对测井资料进行综合分析 [29]。对于砂泥岩剖面,有体积模型法、基于岩心分析资料拟合法等 [30]。对于碳酸盐岩储层,借助核磁测井、电成像等测井方法对储层空间类型进行孔隙度求解 [31] [32]。但有些地区缺少核磁测井、电成像测井等资料,又由于碳酸盐岩储层非均质性强 [33] [34],孔隙度与测井曲线并无确定的线性关系,所以在复杂岩性的碳酸盐岩储层中,要利用BP神经网络的非线性的映射能力进行储层孔隙度的预测 [35]。用神经网络法来解释孔隙度,就是通过给训练样本进行学习得到一种解释模型,用该模型对未知井进行孔隙度预测 [36] [37] [38],网络的输出层单元只有实测的孔隙度。王娜娜等 [39] 改进了传统的BP算法,改进后的BP算法收敛速度快,图2为王娜娜所用BP网络计算孔隙度的模型。
周雪晴等 [38] 利用邻域粗糙集选取孔隙度敏感曲线,并将磷虾觅食算法和BP神经网络相结合,建立了最终神经网络孔隙度预测模型。在实验中,周雪晴等人得到的不同隐含层数目的误差的比较,如表2。
图2. 王娜娜等(2008)计算孔隙度的BP网络孔隙度模型 [38]

Table 2. Comparison of errors of different hidden layers by Zhou et al. (2017) [39]
表2. 周雪晴等(2017)部分不同隐含层数目的误差的比较 [39]
周雪晴等(2017)选用不同的训练函数,为效果较好的部分训练函数结果。选取训练效果最好的训练函数trainlm为最终孔隙度模型训练函数。最终对资料进行处理,结果如图3所示。
3.3. 机器学习在测井渗透率预测中的应用
反映储层非均质性最直接的参数是就渗透率,使用常规方法解释的渗透率精度一直较低 [40] [41]。神经网络是深度学习中的一种模型,人工神经网络具有结构、神经元传递函数及学习算法3个属性 [42] [43],在实际应用中,大多采用的是BP网络,由于渗透率的影响因素较多,不确定性、非结构化现象严重,因此,适用BP网络方法预测砂岩储层的渗透率。

Figure 3. Comparison of different porosity prediction methods by Zhou Xueqing et al. (2017) [39]
图3. 周雪晴等(2017)不同孔隙度预测方法对比 [39]
李继安(2010)以十红滩铀矿床为例实验的神经网络在渗透率预测的应用 [44],李继安选择用测井资料向量组成训练模式对,由多个训练模式对组成学习样本集,建立对应实际地层情况的测井信息,形成输入样本,并以此对其他钻孔进行渗透率的预测。在建立渗透率预测的神经网络模型时,李继安等人采用了三层网络模型,理论已证明:“一个三层网络能以任何精度近似任何连续函数” [45]。起构造的神经网络结构如图4所示。最终预测结果见表3。绝对误差小于0.2的为合格结果,总体合格率为58.30%,效果较好。

Figure 4. The permeability prediction neural network constructed by Li Ji’an (2010) [45]
图4. 李继安(2010)构造的渗透率预测神经网络 [45]

Table 3. Comparison of predicted permeability and measured permeability in Shihongtan area by Li Ji’an (2010) [45]
表3. 李继安(2010)十红滩地区预测渗透率与实测渗透率对比表 [45]
3.4. 机器学习AdaBoost.M2算法在砂砾岩流体识别中的应用 [46]
流体识别是测井评价的重要环节。在某些储层情况下,流体很难准确识别,如图5所示,该地区利用密度与电阻率难以识别流体。因而,选取反映储层岩性、物性、流体性质的SP、GR (伽马)、RT、AC (声波时差)、CNL、(补偿中子)、DEN (密度)等六种测井资料,运用机器学习算法,提取反映流体的信息,多参数结合实现砂砾岩中的流体识别。
首先在关键井中,根据核磁共振、录井油气显示、试油等结果选取多个井段的储层样本,综合考虑岩性、孔隙结构、地层水矿化度等因素选取.上述六种测井资料作为输入,建立研究区干层、水层、油水同层、油层识别模型。
建模前,对输入参数做归-化处理消除量纲的影响。图6为不同流体类型测井数据归-化后的平行坐标系,从左到右分别为DEN、CNL、GR、AC、SP、RT测井类型。每一个样本为一条曲线,不同颜色的曲线代表不同类型的流体。从图中可以看出,不同类型流体测井响应特征不同,同一种流体各测井响应特征也不完全一致。因此,采用单一测井曲线无法对复杂储层流体类型进行划分,需要多个测井参数进行学习分类获得学习模型,识别油水层。

Figure 5. Resistivity-density crossplot of the study area
图5. 研究区电阻率–密度交会图

Figure 6. Parameter parallel coordinate system after normalization
图6. 归一化后的参数平行坐标系
3.5. 机器学习在重建三维多孔介质建模中的应用 [47]
岩石物理是测井评价的基础。数字岩心作为一种新的手段,可以弥补常规岩石物理实验的不足。Lukas Mosser等开发了利用一类无监督机器学习方法生成对抗网络(GAN)进行三维数字岩心建模的方法。生成对抗网络由两个可区分的函数组成:鉴别器D和生成器G。鉴别器D接收“真实”数据集的样本数据和生成器G从隐藏的潜在空间Z中创建的“伪”样本G(z) (潜在空间Z由独立的实际随机变量组成,通常是正态或均匀分布的,表示发生器G的随机输入)。然后生成器G将潜在空间Z中的随机变量映射到空间中生成图像。GAN的训练流程如图7所示。
4. 结论与展望
在测井解释中,机器学习覆盖范围极广。调研发现深度学习技术运用在岩性识别、孔隙度渗透率预测中,不仅极大地提高了工作的效率,而且识别的准确率也相当高。现有的机器学习应用直观的体现了机器学习技术在测井中的发展。随着计算机人工智能等快速发展,机器学习在大量数据预测,数据处理过程中具有显著优势,并且在很大程度上也会带动测井仪器朝着高精度高维度高分辨率方向发展。
近年来,机器学习在图像分类方面前景广阔,况且电成像技术在测井剖面解释中直观的展现了地下地质情况,因此将机器学习应用到电成像裂缝识别中意义重大。深度信念网络(机器学习中的一种)也可以引入煤田测井数据处理中。相信在不远的将来,机器学习会在更多的地球物理勘探手段中实现更深入的应用。
基金项目
长江大学大学生创新创业训练计划项目(2018038),国家自然科学基金项目(41504094)。
NOTES
*通信作者。