1. 前言
油田开发是一个典型的高技术含量、高危险性和高成本投入领域,需要考虑到地质勘探、工程设计、设备选型、资金投入等多个工程设计环节,同时也面临着诸如天然气价格、政策法规等外部因素的影响。这些因素的复杂性和不确定性以及具有海量、多元、异构特征的油田勘探开发数据导致油田复杂问题的决策需要同时考虑到各种内部和外部因素的影响以及多元异构的油田数据的复杂性,如何提供精准、快速、有效的决策支持是关键问题。然而,传统决策技术由于缺乏挖掘数据背后隐藏知识的能力,无法应对复杂决策分析、超前预测、大数据处理等多方面的挑战。智能决策是一种在传统决策方法的基础上应用了人工智能和大数据等新兴技术的智能化辅助决策方法。其通过多种算法和模型的综合应用来实现从大量油田开发数据中提取潜在信息关系、发现规律以及自适应学习和分析,最终得出高效、客观、准确的决策。智能决策技术已广泛应用在金融、医疗卫生、制造业、物流和农业等领域。智能决策技术在油田领域涉及勘探、开发、钻井等多个环节。在海量油田开发数据的基础上,应用定性分析推理技术和机器学习方法对复杂决策问题进行决策是该技术在油田开发领域的经典应用方式,也是解决油田开发领域复杂决策问题和油气行业降本增效的有效方法。基于人工智能及大数据方法的智能决策技术能够以油田海量的分散异构的数据为支撑,进而解决油田复杂决策问题。与传统决策方法相比,智能决策技术在油田开发领域专以解决钻井预警、钻速预测及优化等半结构化、非结构化问题为目的。智能决策技术还可以将科学分析方法与人类经验知识相结合,进一步降低决策风险和误判概率。该论文从油田传统决策现状入手,根据智能决策技术底层依赖的算法原理不同,归纳为由传统机器学习驱动和神经网络驱动两类,探究了不同技术的底层原理和基本架构。然后列举了智能决策技术在油田的典型应用并对相关技术进行了简要的对比分析,为油田科学决策提供理论依据。最后提出未来多技术交叉融合的群决策技术的发展方向。
2. 传统决策技术在油田应用中存在的挑战
油田利用物联网、云计算、大数据等技术、通过传感、射频、通信途径实现了实时监测与自动采集油田物资、仓库、人员等方面数据,进而感知油田的生产、勘探、开采情况。但现场收集到的生产数据信息有质量差、相互耦合、冗余和数量庞大的特点。如何充分利用这些数据并从中获取到高价值信息,快速得出准确、科学、有效的决策依据对决策来说至关重要。
传统决策技术主要有基于数据、模型、知识和方案这四类,通常是将已知的数据或经验知识作为决策所需的元信息,把每次自动进行的一系列规则判断、逻辑计算与流程选择的过程视为决策过程一同存储,并作为之后输入的相似输入问题的参考。智能决策技术与传统决策方法的显著区别在于能否根据实时生产数据自动分析、建立准确合理的模型,以及能否主动学习并适时调整各项超参数,最终找到最优模型,自主、可靠、高效地提供决策支持与管理建议。传统决策技术存在处理和挖掘复杂数据能力弱、选择策略规则模糊、模型结构和方法的局限性等问题。
3. 智能决策技术现状
3.1. 传统机器学习驱动的决策技术
3.1.1. 集成学习方法
集成学习方法的原理是将多个基学习器以一定策略结合起来抵消单个模型可能产生的过拟合或欠拟合情况(过拟合与欠拟合都会导致模型在新样本的预测准确度变差,如图1所示)以得到更高准确性和鲁棒性的学习效果。
Figure 1. Underfitting, normal fitting, and overfitting
图1. 欠拟合、正常拟合与过拟合
随机森林作为最具代表性的集成学习方法之一,通过随机选择特征和样本来减少决策树过拟合的风险,并用多个决策树共同进行分类、回归或聚类等任务。每棵决策树都仅使用训练数据的随机子集,并随机选择特征,最终汇集每棵树的投票结果或取平均值作为预测结果,来提高整体模型的准确性[1]。因此随机森林通常相对于单个非集成学习的机器学习模型来说具有较高的精度、鲁棒性和可解释性,在各类数据分析、图像识别、自然语言处理和优化参数预测等场景得到广泛应用。随机森林算法通过集成多棵决策树来实现自身的稳定性和准确性,对于其中的每一棵决策树,其训练与预测流程的主要节点如图2所示,其中训练过程(决策树的构造、学习过程)包含生成初始树结构、剪枝算法、计算出分类规则(考虑设定的阈值),预测过程多包含一个计算新数据集误差阈值的重新改良步骤。
Figure 2. Learning and prediction process of a single decision tree in the random forest algorithm
图2. 随机森林算法中单棵决策树的学习及预测流程
3.1.2. 智能优化方法
遗传算法与强化学习均可应用在油田的控制与优化问题,如寻找最优钻井方案或采油参数、优化包括水驱油生产、油气输送等在内的复杂问题求解,这些问题通常难以通过传统方式解决。
遗传算法与深度学习不同,是一种基于生物进化原理和遗传机制的启发式优化算法,类似算法还有粒子群优化算法、退火算法、人工蜂群算法、蚁群优化算法等,旨在求得复杂问题的最优解,以一种明确的策略来尽可能避免陷入局部最优。例如遗传算法是通过模仿自然选择、交叉和变异等基本生物进化过程和基于达尔文的“适者生存,优胜劣汰”的遗传理论,以及人工构建适应度函数来实现对可行解的评价,基于达尔文的“适者生存,优胜劣汰”的遗传理论,以生成新一代解的方式来不断迭代寻找最优解决方案[2]。
强化学习也是一类优化算法,其特点是通过“试错”与“反馈”找到最优行动策略,即不断采取各种动作与环境进行交互得到奖惩,以获得最大奖赏积累值为目标,使智能体在复杂环境下持续进行参数优化而最终得到最优模型。在实践中利用强化学习方法能够随时适应交互环境的变化,自动调整参数,解决了传统方法不能根据环境变化迅速做出调整的问题[3]。
3.1.3. 回归分析预测方法
机器学习实现预测能力的两大方法分别是回归与分类,其中回归分析预测是依据变量间的关联关系进行预测的方法,通过计算各因素与目标的函数关系构建回归预测方程来实现预测。此方法可根据特征因子数量不同分为一元和多元,也可根据因素间的相关关系分为线性回归预测和非线性回归预测。对于蕴含潜在时间序列特征关系的钻井数据而言,回归预测方法常用于产量预测、钻速预测、钻井参数模拟等场景。
3.2. 神经网络驱动的深度学习决策技术
深度学习是一种基于神经网络模型的技术,通过将多个神经网络层状拼接,上一层神经元的输出即为下一层神经元的输入,利用多个隐藏层提取输入数据中高层次、抽象和复杂的特征映射,识别出能反映油田动态变化特征的关键参数以及数学模型难以处理的非线性特征关系[4],其一种典型结构如图3所示。该方法求解问题不需要建立精确数学模型,这对油田开发领域复杂决策的建模提供了便利,例如要构造油气层损害类型和影响敏感性因素之间精确的数学模型是十分困难的,或者其解释结果误差很大而不能直接使用,就需要一种可以处理不完全、不精确信息的分析模型和方法来对其进行评价。
Figure 3. Structure of neural network classification model with multiple hidden layers
图3. 含多个隐含层的神经网络分类模型结构
神经网络利用其自适应性与推理能力,通过网络的前向计算和误差的反向传播来对输入问题进行倾向性输出。每个神经元通过主动学习获得不同的权值与阈值,实现数据—知识—策略的最优非线性映射,其计算本质是求取特征数据集到分类数据集的函数映射。换言之,神经网络的“学习”就蕴含在网络的连接权值与阈值中。基于神经网络的智能决策技术可实现自适应、联想推理和决策支持,作为一种间接方法能够快速、经济地解决和优化钻井问题,而这正是油田开发智能决策技术的研究发展方向。神经网络广泛应用于钻速及钻井液密度预测、钻井液类型选择与性能优化、钻井井下风险预测等方面[5] [6]。
3.2.1. 长短期记忆网络
油田开发涉及到的数据资料通常都与时间绑定,天然呈现时间序列属性。而循环神经网络及其变体网络如长短期记忆网络,已经被广泛应用于文本、视频、音频等序列数据,尤其当数据中存在一定时间依赖性如油田生产过程中的历史数据分析、组合预测等任务,长短期记忆网络相比其他预测模型在长时间序列中有更好表现。
长短期记忆网络通过设置输入门、遗忘门、输出门三个门控单元和细胞状态来控制信息的流动,能够自适应选择遗忘和保留哪些信息,有效解决了长时间步长预测和梯度消失问题,是循环神经网络的一大进展,其模型结构如图4所示。有学者对比发现该网络能以较高精度预测页岩气产能,可以为页岩气产能预测和压裂完井参数设计提供决策依据。
Figure 4. Structure of an improved long short-term memory network model
图4. 一种改进的长短期记忆网络模型结构
3.2.2. 卷积神经网络
卷积神经网络作为最具代表性的深度学习网络模型,相比BP神经网络结构更简单,适应性更强,能有效捕获2D或3D数据的空间相关性,是传统神经网络模型的改进[7] [8]。卷积神经网络基本结构包含卷积层和池化层,卷积层中每个神经元与前层局部连接并提取数据特征,池化层是在不损坏数据内部特征的前提下进行属性降维[9]。卷积神经网络的输出层常常与BP神经网络或LSTM、GRU、TCN等时序网络相连接来提高模型的分类或时序预测能力。使用卷积神经网络进行油田高维特征提取,再使用其他网络进行时序预测或目标分类,相比单使用一种神经网络有诸多优点:① 网络避免复杂的数据特征处理,隐式自学习输入数据多维特征,方便油田开发领域数据建模与训练;② 通过局部感受野逐渐形成全局特征显示,减少网络优化次数;③ 相比分别独立对高维数据的每维特征向量进行训练,更能兼顾到特征间相关性,预测结果精度更高。两种典型的卷积神经网络变体结构如图5所示。
(a)
(b)
Figure 5. Typical convolutional neural network variant structure diagram (left input data is multi-dimensional drilling sequence data). (a) A typical convolutional neural network variant structure (the output data is in matrix form); (b) A typical convolutional neural network variant structure (the output data is in the form of a single-dimensional vector)
图5. 典型的卷积神经网络变体结构示意图(左侧输入数据为多维钻井序列数据)。(a) 一种典型的卷积神经网络变体结构(输出数据为矩阵形式);(b) 一种典型的卷积神经网络变体结构(输出数据为单维向量形式)
卷积神经网络在工业领域的图像、语音、文字等方面已有许多成熟应用,在油田开发领域也有相关应用案例:在图像识别方面,徐朝晖等人首次基于卷积神经网络算法,依据测井曲线对大庆油田某区块加密井网地层数据进行对比试验并取得了较好效果[10]。在预测方面,使用该方法能够准确分析判断测井资料、储层岩相等高维、非线性复杂数据,提高勘探开发效率,在实践中均获得了不错的效果[11]-[13]。
需要注意的是,卷积是一种思想而不局限于某种固定结构、形式和领域,这体现在此网络的输入不一定只能是图像,任何可以用矩阵表示的数据形式,不论2D或3D都可以使用卷积进行操作,卷积核的局部感受野是为了避免多层全连接之后产生巨量参数,使用多卷积核的目的是从多个不同角度进行特征学习,以减少精度损失。
4. 智能决策技术在油田中的典型应用
Table 1. Advantages and disadvantages of different intelligent decision-making methods and application scenarios
表1. 不同智能决策方法的优缺点与应用场景
智能决策方法 |
优势 |
劣势 |
常用优化方法 |
在油田开发领域应用场景 |
随机森林 |
① 能够处理高维数据;②同时适用于解决分类与回归问题;③ 输出结果由多棵决策树投票得到,具有很好的准确度和稳定性;④ 能够处理非平衡数据 |
① 相比单棵决策树,计算复杂度较高,运行时间更长;② 对噪声和离群点敏感,可能会造成过拟合 |
增加树的个数和深度、更改样本数量和比例、更改特征数量和比例等 |
地震波峰识别、沉积物属性解释、井控预测等场景 |
强化学习 |
在面对未知复杂环境时能够表现出较好的性能,并按照奖励信号不断改进决策 |
① 对于未知情况下的探索需要一定程度的经验积累才能逐步完善策略,训练过程非常耗时;② 需要大量样本数据才能达到较好效果 |
Q-Learning、蒙特卡洛策略搜索等 |
油田井控优化、钻孔参数调整、注水效果优化等场景 |
BP神经网络 |
① 具有良好的非线性拟合能力;② 能够自适应地学习复杂的输入输出映射。 |
① 容易陷入局部最优;② 网络层数过多时可能存在过拟合问题 |
神经网络结构优化、学习率调整、正则化、使用优化算法帮助避免局部最优等 |
井底储层孔隙度、剪切模量和渗透率预测等场景 |
长短期记忆网络 |
① 善于处理油田的时序数据,相比传统循环网络有记忆性;② 能够实现长时间序列预测 |
① 训练时间较长;② 网络层数过多时可能存在过拟合问题;③ 对于非序列型数据及分类问题的处理能力欠佳 |
更新门和重置门比重优化、隐藏层和输出层添加优化等 |
油气预测、地震勘探、井壁稳定性预测、含油气饱和度估算等场景 |
卷积神经网络 |
① 具有较好的图像识别和特征提取能力;② 能够有效提高深层网络的训练速度 |
①对于较长序列不易进行有效训练;② 当网络层数多时可能过拟合 |
批标准化、降采样等 |
地震资料形态特征提取,油藏岩石分类,注采井参数建模等场景 |
优化算法 |
① 能够在多目标优化问题中处理复杂的变量关系及约束条件;② 具有全局寻优能力,常应用于对各类神经网络的超参数自动寻优 |
①优化算法本身同样存在局部最优问题;②迭代次数、步长等参数的选择对结果影响较大 |
参数初始化、重组操作、交叉操作、变异操作等 |
目标函数曲线拟合、油藏压裂设计、最优采油方案规划等场景 |
回归分析预测 |
① 能够显式地对变量间关系建模,使结果具有良好的可解释性与统计特征;② 适合数据拟合及预测问题,尤其是对于趋势预测和周期性分析类问题具有较好的性能 |
① 对离群点敏感,可能需要对源数据进行平滑处理;② 在非线性数据的拟合上可能表现欠佳 |
特征选择、模型定阶等 |
沉积物粒度预测、含油饱和度估算、油气藏储量评估等场景 |
油田开发具有高投入、高风险、过程动态变化与不可逆的特点。因此,科学、正确的决策尤为重要。智能决策技术是[14]提高油田开发水平与油田实现降本增效和可持续发展的有效手段[15]。近年来,国内外在随钻导向、钻速预测、井眼轨道优化、井筒完整性监测和井下异常工况识别等场景下的智能决策进行了有益探索[16]-[18]。
在随钻导向方面,传统随钻地质导向是一种将地质学原理和工程手段相结合从而提高勘探开发的精度和效率的方法,页岩气水平井及复杂油气藏等勘探开发热点资源有着广泛的应用前景。在此基础上融合智能决策技术,利用神经网络对60口井的3000条决策数据进行训练,智能决策模型准确率达到89.7%,提高了地质导向决策分析的准确性。
智能决策技术在钻井监测和预警方面有大量应用。对于井漏、堵钻、溢流、井喷、钻具刺漏等情况可利用基于神经网络、决策树、随机森林与支持向量机等机器学习算法模型进行智能预测和决策处理:将大量已钻井的漏失数据进行聚类和关联分析并对漏失特征、裂缝性质进行数据挖掘,可对同井段存在井漏倾向时提出风险预警和针对性堵漏施工方案,从而提高防漏堵漏效果。在实际应用中,对5口已完钻井和3口正钻井进行堵漏方案推送验证,其中推送方案与完钻井实际堵漏方案符合率60%,与正钻井实际堵漏方案符合率50%,一次堵漏成功率达52.9%,相较传统方法提高了13.8个百分点,取得了不错的现场应用效果[19];渤中19-6勘探项目集成了智能决策技术与水动力模型、摩阻与扭矩模型、钻速优化模型等钻井工程计算模型,以摩阻与扭矩、水力参数模拟精度90%、地层孔隙压力精度97%顺利实现了井下异常情况的准确预警[20];利用支持多参数实时计算的专家系统决策技术,对高难度井进行实时数据采集与三维动态监测,实现了在具有危险性,操作难度高的作业开始前进行预演,观测作业过程中各项参数的数值变化情况来对作业进行评估和优化,在钻井期间快速解决了漏失问题[21];中海油针对海洋石油钻井的复杂情况,设计研发了一套支持钻前预演以及钻时评估优化的智能决策系统,通过对已钻的单井或区域多井进行整体分析,为后续施工与临井设计提供优化方案。该系统通过对比传感器实测的钻井数据与模型计算结果来实现钻井异常提示与报警,同时可以实时监测与评价井下工具的工作状态,不断优化钻井参数以提高井下工具的使用寿命,避免井下事故的发生[22]。
该论文对不同智能算法驱动的四大类决策技术进行分析,描述各自的优缺点与对应优化方案,以及在油田开发领域的应用场景如表1所示。
5. 思考
实践表明,只有当决策技术拥有丰富的知识与强大的信息分析和处理能力时才能向决策者提供准确有效的决策支持。该论文通过调研发现在实践中通常会使用多种智能决策技术相互补充、取长补短,站在不同技术、模型或算法对处理某类问题的优势的角度考虑决策支持的组合方案,一些常见的站在数据角度考虑模型需求的思路如表2所示。例如通过对神经网络模型进行训练和测试后可以用来识别岩性,但神经网络同时存在着诸如过拟合、容易陷入局部最优以及收敛速度慢等缺点,常见做法是与智能优化算法结合,最终在可行解空间中找到全局最优解。类似的结合方式还有很多,根据耦合的粒度不同,可以只是对几种决策算法进行拼接组合,比如先使用卷积神经网络对高维数据进行特征自动识别,再使用多组长短期记忆网络或BP神经网络对提取出的特征向量进行时序或分类预测。也可以是对多种完整决策模型进行融合,最后依据误差、可信度对其赋权重来取最终决策结果的方式,比如通过融合神经网络技术,将油气藏原始数据转化为研究知识,为油气藏决策提供强有力的支持。
需要注意的是,并不是所有智能决策技术的组合都一定会呈现很好的效果,需要充分考虑到技术方法本身的适应度,合理组合多种决策技术才能达到更好的决策效果。
Table 2. Common ideas for considering model requirements from the perspective of data
表2. 常见的站在数据角度考虑模型需求的思路
需求描述/考虑维度 |
考虑的技术选择 |
考虑需要解决的是回归/分类/聚类问题 |
线性回归、多项式回归、决策树回归、随机森林回归、梯度提升回归/逻辑回归、决策树分类、随机森林、梯度提升、支持向量机、K最近邻算法、朴素贝叶斯分类、神经网络/K均值聚类、层次聚类、区间估计聚类、谱聚类 |
大型数据集(数千到数百万行) 或小型数据集(小于1000行) |
随机森林、神经网络或深度学习模型/逻辑回归、决策树或朴素贝叶斯 |
数据集是否已有标注 |
若为标记数据则一般使用监督学习,如逻辑回归或决策树;若为未标记数据则需要无监督学习,如k-means或主成分分析(PCA) |
数据集缺失值的数量 |
若数据集缺失值较多则可使用决策树、随机森林、k-means聚类方法;否则可考虑线性回归,逻辑回归,支持向量机,神经网络 |
模型的解释性和准确性哪个更重要 |
一些机器学习模型比其他模型更容易解释。如果需要解释模型的结果,可以选择决策树或逻辑回归等模型。如果准确性更关键,那么更复杂的模型,如随机森林或深度学习可能更适合 |
数据的复杂度(如变量间存在非线性关系等) |
低复杂度:线性回归,逻辑回归;中等复杂度:决策树、随机森林、朴素贝叶斯;复杂度高:神经网络,支持向量机 |
更需要模型的训练速度或模型的准确度 |
速度更重要:决策树、朴素贝叶斯、逻辑回归、k-均值聚类;精度更重要:神经网络,随机森林,支持向量机 |
数据的异常值、离群值数量 |
对离群值敏感的模型:线性回归、逻辑回归;鲁棒性高的模型:决策树,随机森林,支持向量机 |
数据集是否为高维数据或有噪声(对于高维或有噪声的数据,可能需要使用降维技术或可以处理噪声的模型) |
低噪声:线性回归,逻辑回归。适度噪声:决策树,随机森林,k-均值聚类。高噪声:神经网络,支持向量机 |
Figure 6. A decision unit structure in the group decision model architecture
图6. 群决策模型架构中的一个决策单元结构
此外,从系统论的观点看,决策对象往往是由许多相互关联,互相制约的要素所构成的一个复杂系统,仅使用一种智能技术则只能提供基于某个视角下的决策支持,而忽略了其他角度提供的信息。因此该论文认为,未来智能决策的科学结构应该是将多种决策技术配合为群决策矩阵,通过互相补充或先独立决策再投票取信的方式,对决策任务进行分解,经过不同模型间协作、通信与管理,最终提高模型整体的决策准确度与可信度。通过分析油田智能决策案例以及决策技术本身的发展趋势发现,油田复杂决策问题的解决都伴随多种决策技术相互结合,故在此简单构想一种融合了神经网络、数据挖掘、机器学习、专家系统以及预测算法等多种智能决策方法的群决策技术。群决策模型架构中的一个决策单元结构如图6所示。
该结构可视为一种通用的群决策设计框架,可广泛应用在油田群智能决策场景,比如将井场随钻测量的数据通过油井数据采集系统实时传送给井场数据库阵列,再使用基于数据挖掘、神经网络等多种算法的融合智能决策模型进行分析处理,同时使用专家系统对决策结果进行评估。当评估结果处于安全阈值时由多个独立的决策模块进行分权投票,最终使用模糊置信等方式采纳决策并输出。反之则对异常情况进行预警并结合专家系统给出最优解决方案。
6. 总结
本文研究了基于人工智能方法实现的智能决策技术在油气领域,尤其是钻井工程场景中的应用情况,并根据实践中出现的共性问题提出了未来重点研究方向。主要进行了以下工作:
(1) 将智能决策技术根据底层原理不同分为四类,着重分析了其中机器学习和深度学习驱动的技术原理、优缺点以及在钻井工程的适用场景;
(2) 梳理了智能决策技术在钻井工程中的应用情况,分析了对应场景的技术方案设计、关键参数选取以及适用情况,为研究人员提供启发式智能决策技术的应用方案设计;
(3) 根据在油田实践中出现的数据样本少、过拟合风险、数据噪声影响,以及模型的泛化能力、稳定性、可解释性弱等问题,提出了未来油田智能决策场景下的多模型集成学习研究思路。
基金项目
辽宁省科技厅应用基础研究项目[2023JH2/101300223];辽宁省教育厅研究项目[JYTM20231443];辽宁省科技厅国际科技合作项目[2023JH2/10700020]。
NOTES
*通讯作者。