1. 引言
在石油和化工领域,液体在气井或油气集输管道中的滞留显著阻碍了气体的流动,导致井底压力升高和产量下降,严重时甚至造成停喷,还会加剧管道腐蚀和结垢。增加运行能耗与维护成本。而持液率是描述液体在管道内所占体积分布的重要参数,直接影响流动特性、压降、传热传质效率及工程设备设计等方面。持液率定义为单位长度管道中被液体所占的体积分数,反映了液体在气液两相共存流动中的空间分布情况。在油气井生产、油气集输等工程中,准确掌握和预测持液率对合理调控流动状态、优化生产工艺具有重要意义。由于气液界面复杂,流型多样,持液率通常依赖实验测量、经验模型估算,而实验测量较为繁琐,经验模型计算存在误差。
目前,已有大量学者进行了油气井或管道中持液率与气液两相流动测量相关实验,Kokal [1]通过在直径50.8 mm、长度21.3 m的有机玻璃试验段中注入空气–水和空气–甘油水混合物等介质,在倾角范围为−5˚至+5˚条件下测量了不同气液速比下的持液率与压降变化。Mandhane [2]开展了空气–水两相在水平管道中流动实验,研究不同气液表观速度组合下的流型变化规律。识别并归类了泡状流、弹状流、波状流、分层流等典型流型,并根据实验结果绘制了详细的流型图谱。Hughmark [3]在直径38.1 mm、长5.49 m的垂直管道内进行了系统的气液两相流实验,系统测量了不同气体表观速度、液体表观速度范围内的持液率与压降。基于实验数据建立了经验关联式并修正了Zuber-Findlay等经典模型。Minami [4]基于直径101.6 mm的水平和微倾斜管道,考虑三种实验介质(煤油/空气、水/空气、水–表面活性剂/空气混合物),在气速10~40 m/s、极低液率(液气比 < 0.01)的工况下,采用Gamma射线与电容探测测量了瞬时与时间平均持液率分布。Kokal [5]在一段直径38.1 mm、长度18米的可调角度实验管道中,系统研究了空气–水两相流在微倾斜(−2˚至+5˚)条件下的流动特性。通过控制气速与液速范围,测量了各工况下的持液率与压降,并识别出不同流型的演化路径。Beggs [6]在直径38.1 mm、长度18.3 m的透明管段中,观察了空气–水两相在微倾斜角(±5˚)下的流动特性。通过调节气速与液速,测得了各流型下的液体持液率与压降数据。最终建立了以气液速率与倾角为变量的经验模型。Mukherjee [7]直径50.8 mm、长度9.1 m的倾斜管道中开展空气–水两相流实验,测量了倾角从−10˚到+10˚条件下的流型演化、液体持液率和沿程压降特性。结果表明,在上倾时更容易形成液体堆积。Abdul-Majeed [8]基于空气–煤油两相混合物在水平管道中的流动,采用直径50.8 mm、长36 m的水平塑料管道,测量了压力、温度和流速等参数,并通过快速关闭阀门法获取了89组持液率数据(范围0.009~0.61),并修正了Taitel-Dukler模型在分层平滑流中持液率计算较低的缺点。Ajani [9]基于空气–水–表面活性剂混合体系,考虑表面活性剂类型(阴离子、两性、磺酸盐、阳离子)、浓度(200~3000 ppm)、管径(50.8 mm和101.6 mm)、倾角(90˚垂直管)等因素,通过小规模实验(表面张力、稳定性和液体卸载测试)和大规模实验(垂直管中的持液率、压降、泡沫持率及气相截留分数测量),基于泡沫多相流实验数据建立了持泡率模型。Kong W [10]考虑了流体流动特性、光纤探针阵列的有效测量区域、重复干扰区域以及流体扰动等因素。通过气液两相流实验平台,验证了该传感器在分层流和波状流条件下测量持液率的准确性和可靠性。Alsarkhi [11]综合分析了1340个实验数据点,涵盖不同管径(12.7~156 mm)、流体性质(密度759~1000 kg/m³、黏度1~962 cP)、倾角(−9˚至90˚)和表面张力(0.033~0.074 N/m)。揭示了现有HLS关联式的存在缺陷,并提出以VSL/VSG为关键参数的新模型。Al-Safran E [12]基于自主搭建的50.8 mm内径水平管道实验系统对高粘度液体(180~587 mPa·s)与气体在水平管道中两相流动的实验进行研究,采用Bent-Hyperbola非线性回归,拟合得到经验关联式。
除了传统的持液率测量实验与模型建立,许多学者还研究了利用机器学习(ML)和深度学习(DL)方法来预测持液率。这些研究通常基于多传感器数据融合(如电导、电容、超声波、光纤探针等)或流型图像分析,结合监督学习(如支持向量机SVM、随机森林RF)和深度学习(如卷积神经网络CNN、长短期记忆网络LSTM)进行建模。Zhang X [13]收集1390组公开实验数据,采用PGNN模型来预测气液两相流中的持液率和压降,PGNN的持液率预测MAPE (16.99%)显著低于其他模型。He H [14]提出一种结合CNN、LSTM和注意力机制的深度学习模型(CNN-LSTM-Attention),采用1800组实验数据,覆盖管道直径(11~152 mm)、倾角(−90˚至90˚)、油/水表观速度(0.01~7.58 m/s)及油相黏度(1.88~228 mPa·s)等参数,构建了包含10类流动模式(如分层流ST、分散流D o/w)和持油率预测的训练集。通过特征相关性分析(油相速度影响最大)和模型优化,该模型在流动模式分类中准确率达98.3%,持油率预测误差 < 15%。Azizi [15]从文献获取468组实验数据,涵盖不同倾角、油水表观速度及流动模式,采用人工神经网络(ANN)模型,预测精度R2为99.8,但仅考虑了油水表观速度和倾角。Xu L [16]采用一种双圆形电导探针阵列获取实验数据作者在工业级实验装置(16 m长、125 mm内径水平管道)中采集了220种流量条件下的探针响应数据,建立了非线性支持向量回归(SVR)模型和线性最小二乘回归(LSR)模型。非线性SVR模型表现最优,其拟合优度(R2均值0.9909)显著优于线性LSR模型(R2均值0.9686)。El-Sebakhy E A [17]通过模糊规则生成和最小二乘参数估计,实现了流型识别(分类准确率98.85%)和持液率预测(平均绝对误差7.346%)。对比实验表明,该ANFIS-TSK模型在RMSE (3.183)和相关系数(0.9929)上均优于传统神经网络和12种经验关联式。
目前持液率研究主要依赖实验测量、经验模型估算以及机器学习预测,但存在以下局限性:
(1) 传统实验方法如快速关闭阀门法、Gamma射线测量等虽然精度较高,但操作繁琐、成本高昂,且难以实现实时监测。
(2) 基于实验数据建立的Beggs-Brill、Eaton、Mukherjee等经验关联式在特定工况下表现良好,但普遍存在外推性差、适用范围窄的问题。
(3) 近年来兴起的机器学习方法(如ANN、SVM、CNN-LSTM等)虽显示出强大潜力,但仍存在现有研究多关注单一流型或有限工况,缺乏通用性强的预测框架。
针对上述问题,本文提出了一种基于SSA-RF (麻雀算法优化随机森林)的持液率预测模型采用麻雀优化算法(SSA)自动优化RF的关键参数,避免人工调参的主观性,构建多尺度特征选择机制,综合考虑流体物性、管道几何等多维度参数,引入识别模块,实现不同流型下的持液率预测。
2. 持液率预测模型建立
2.1. 数据库预处理
2.1.1. 数据库建立
在持液率数据库的建立过程中,为了支撑具有广泛适用性和高精度的持液率预测模型开发,本文整合了1219组来自国内外不同学者的气水、气油两相流持液率实验数据。数据集系统涵盖了管径、气相折算速度、液相折算速度、压力、温度、管道倾角、持液率等关键影响参数,构成了一个多维度、跨工况条件的数据集。其中数据来源包括Mukherjee、Minami、Beerens、Abdul-Majeed等多项经典两相流实验文献,实验条件覆盖了多种管径(38.1~77.93 mm)、气液速度范围(气相0.004~275.1 m/s,液相0.0024~50.29 m/s)、倾角区间(0˚~90˚)、压力范围(142.72~919.1 kPa)及温度区间(4.44~74.16˚C) (表1)。
Table 1. Experimental range of gas-liquid two-phase flow holdup by different scholars
表1. 不同学者气液两相流持液率实验范围
文献来源 |
介质 |
液相速度/(m·s−1) |
气相速度/(m·s−1) |
倾角/(˚) |
管径/(mm) |
压力/(kPa) |
温度/(˚C) |
实验组数 |
Mukherjee [7] |
空气–煤油 |
0.0024~50.29 |
0.015~41.45 |
0˚、30˚、45˚、50˚、60˚、70˚、80˚、90˚ |
38.1 |
142.72~646 |
4.44~74.16 |
591 |
Minami [4] |
空气–煤油 空气–水 |
0.005~0.95 |
0.47~16.59 |
0˚ |
77.93 |
301.3~641.9 |
24.44~47.22 |
111 |
Beggs [6] |
空气–水 |
0.052~5.54 |
4.64~275.1 |
0˚、5˚、15˚、20˚、35˚、50˚、55˚、75˚、85˚、90˚ |
38.1 |
444.64~682.37 |
18.05~37.2 |
461 |
Abdul-Majeed [8] |
空气–水 |
0.315~45.87 |
0.004~1.53 |
0˚ |
50.8 |
216.5~919.1 |
27.3~48.3 |
56 |
参数范围 |
空气–煤油 空气–水 |
0.0024~50.29 |
0.004~275.1 |
0˚~90˚ |
38.1~77.9 |
142.72~919.1 |
4.44~74.16 |
1219 |
2.1.2. 数据预处理
在机器学习建模过程中,为提升模型训练的准确性与稳健性,本文对持液率数据库中的原始数据进行了系统的数据清洗处理。主要采用3σ法则(3-Sigma)进行异常值识别[18],即基于各特征数据的均值和标准差,判别落在μ ± 3σ之外的数据为异常值。对于检测出的异常值,本文采取替换为该特征均值的方式进行修正,以减少极端值对模型学习过程的干扰,保证数据整体分布的合理性和模型训练的稳定性。通过该方法,确保数据集在清洗后具备良好的统计特性,为后续持液率预测模型的训练提供了高质量、无严重异常值污染的数据基础。
1) 计算数据的均值和标准差
(1)
(2)
2) 计算数据的均值和标准差
上限:μ + 3σ
下限:μ − 3σ
数据点落在[μ − 3σ,μ + 3σ]区间之外的即为异常值。
2.1.3. 相关性分析
如图1,相关性分析结果显示,持液率与各输入特征之间呈现出不同程度的相关性特征。其中,液相速度与持液率呈现负相关(相关系数−0.41),表明随着液相速度增加,管道内液体滞留明显,整体持液率增加;气相折算速度与持液率呈现低至中等正相关(0.31),说明不同气体流速下,持液率变化较大。管径与持液率存在弱负相关(−0.18),不同管径下持液率有略微变化。其他参数如温度(−0.1)、压力(0.0075)、倾角(0.084)与持液率相关性均较弱,影响相对有限。整体来看,气相速度、液相速度是影响持液率的主要特征变量。
Figure 1. Correlation analysis of different features
图1. 不同特征相关性分析
2.2. 模型评估指标
在评估机器学习模型训练精度和性能时,这些评价指标各自反映了模型不同的误差或拟合能力。均方根误差RMSE与均方误差MSE用来确定模型预测性能,平均绝对误差MAE来确定模型可靠性,决定系数R2评估模型的拟合效果与泛化能力。
(3)
(4)
(5)
(6)
(7)
式中:n是样本数量;yi是第i个样本的真实值;yj第i个样本的预测值;S为残差的标准差;ym是样本平均值。
2.3. 模型原理
麻雀搜索算法(SSA)是一种新兴的群体智能优化算法,由薛建凯等人于2020年提出[19],灵感来源于麻雀的觅食和警戒行为。SSA具有简单易实现、全局搜索能力强、收敛速度快等优点,广泛用于解决各类全局优化问题[20] (图2)。
Figure 2. Sparrow algorithm flow chart
图2. 麻雀算法流程图
麻雀种群分为两类角色:
发现者(Discoverer):主导搜索过程,负责寻找食物,具备更高的适应度;
加入者(Joiner):跟随发现者,在局部区域内进行搜索;
警戒机制:当发现环境中存在捕食者(高风险区域)时,麻雀群体会调整搜索策略以避险,提高算法跳出局部最优的能力。
(1) 初始化种群
随机生成一组候选解X = {x1, x2,..., xn},每个个体代表一组优化变量,并计算初始种群适应度值;
(2) 位置更新
发现者负责全局搜索其位置更新如下所示:
(8)
式中:xi,jt+1是第t + 1代第i个麻雀在第j维上的位置;α是常数,通常设为1;Tmax是最大迭代次数;R~U (0, 1)是随机数;ST属于[0.5, 1)之间,为环境安全值。Q是正态分布随机数;L为1向量;
加入者主要执行局部搜索,更新公式:
(9)
式中:xworst,j是当前种群中第j维最差个体的位置;xg是当前全局最优位置;K服从U (−1, 1)的随机数;f (xi)是第i个麻雀对应的适应度值;f (xg)是当前全局最优个体适应度值。
警戒者调整机制,为增强算法跳出局部最优能力,采用如下更新策略:
(10)
式中:β∼N (0, 1)符合正太分布;K为[−1, −1]之间的随机数;ε为一个较小的数字,防止分母为0。
重复上述步骤,直到达到最大迭代次数Tmax,输出全局最优解。
随机森林(RF)是一种基于Bagging策略的集成学习方法,由Leo Breiman和Adele Cutler在2001年提出来[21],由多棵回归树组成,通过对不同子样本集训练多棵树,再将各树预测结果进行平均,提升模型的泛化能力和预测精度[22]-[24]。
(1) 对原始训练集进行放回采样,生成T个子训练集Dt。
(2) 对每个子训练集Dt,训练一颗决策树,在每个树节点划分时,随机选取部分特征进行最优划分。对于回归树,最常用划分指标为均方误差如公式(4)。
(3) 训练完成后,形成一个由T棵树组成的森林{h1 (x), h2 (x), h3(x), ..., hT (x)}
(4) 通过投票分类和回归任务确定最终结果。
(11)
(12)
式中:ht (x)是第t颗决策书对输入x预测值;T是森林中决策树的数量;yn是最终预测值。
(5) 特征重要性评估
常用指标是平均不纯度减少(Mean Decrease Impurity, MDI),例如基于Gini指数或MSE的减少量。
(13)
式中:ΔI (n)是节点n分裂后对应指标的减少值;p (n)是节点样本占比;node (t, j)是第t颗树种使用了特征j的所有节点集合。
本研究采用的数据集系统涵盖影响持液率预测的多项关键参数,包括管径、气相折算速度、液相折算速度、压力、温度及管道倾角,构建基于麻雀搜索算法–随机森林(SSA-RF)的组合预测模型。首先,按照80%和20%的比例将数据集划分为训练集与测试集,训练集用于模型训练及参数优化,测试集用于模型性能评估。随后,采用麻雀搜索算法(SSA)对随机森林(RF)模型的超参数进行全局优化,利用训练集数据在每次迭代中通过适应度函数(以回归误差指标为评价标准)指导群体搜索,迭代更新最优参数组合。最终,基于优化后的RF模型对测试集数据进行持液率预测,验证模型的预测性能与泛化能力(图3)。
Figure 3. Training process
图3. 训练流程
3. 结果与讨论
模型预测
将数据清洗后的1219条持液率样本数据作为本模型的输入集,以管径、气相折算速度,液相折算速度,压力,温度,倾角作为本模型的训练特征,持液率作为本模型的输出特征。
首先按照训练集与测试集比例为7:3进行划分,其中852组训练集,366组测试集。将训练集与测试集分别归一化处理,确保所有特征范围在0~1之间,其次采用SSA算法优化RF随机森林的最优决策树数量以及最优决策数节点数两个参数。然后将优化后的参数输出至RF模型中。设定初始种群个数为15,最大迭代次数50次进行模型训练,最终优化参数最优决策树数量为37、最优决策树节点数为1。当满足适应度值误差小于设定值时或达到最大迭代次数终止计算。
图4所示为SSA-RF模型在训练集与测试集上的拟合结果。训练集拟合R2达到0.93513,模型拟合趋势与实际数据高度一致,残差较小,未出现明显过拟合现象。测试集拟合R2同样达到0.913721,残差水平与训练集保持一致,表明SSA-RF模型具有优良的泛化能力与稳健性。在不同气液两相流动工况下,模型均能保持较高预测精度,验证了麻雀优化算法在RF参数调优中的有效性。
图5展示了SSA-RF模型优化过程中适应度值随迭代轮次的变化趋势。可以看出,模型在优化初期,适应度值继续缓慢下降,SSA开始在局部优区进行精细搜索。最终在第5次迭代后适应度值趋于稳定,表明算法成功收敛至最优解且优化过程无明显震荡,收敛性良好、稳定性高。
表2给出了SSA-RF模型在训练集与测试集上的主要评价指标。从表中可以看出,训练集和测试集上的MAE分别为0.0466和0.0572,RMSE分别为0.0642和0.0716,表明模型整体预测误差较低,具备良好的拟合能力和泛化性能。RPD值分别为3.81和3.18,均大于3,说明模型在训练集和测试集上均具有较高的预测精度,属于优秀预测模型范畴。决定系数R2在训练集和测试集上分别达到0.935和0.913,拟合优度较高,进一步证明模型能够有效捕捉复杂输入特征与持液率之间的关系。整体来看,SSA-RF模型在持液率预测任务中表现出良好的准确性、稳健性与泛化能力,具有较好的工程应用前景。
Figure 4. Prediction fitting diagram
图4. 预测拟合图
Figure 5. Optimal fitness
图5. 最佳适应度
Table 2. Evaluation indicators of the model
表2. 模型的评价指标
评价指标 |
MAE |
MSE |
RMSE |
RPD |
R2 |
训练集 |
0.46557 |
0.00432 |
0.064187 |
3.8066 |
0.93513 |
测试集 |
0.057167 |
0.00618 |
0.071585 |
3.1752 |
0.91321 |
4. 结论
(1) 本文针对复杂气液两相流持液率预测问题,提出了一种基于麻雀搜索算法优化随机森林(SSA-RF)的持液率预测模型。研究构建包含1219组多维持液率数据的高质量数据库,并通过3σ法则优化数据质量,保障模型训练的稳定性。
(2) 实验结果表明,SSA-RF模型在训练集和测试集上分别取得了R2 = 0.935、R2 = 0.913,预测误差低,稳定性强,优于传统机器学习和深度学习模型。
基金项目
重庆科技大学研究生创新计划项目“泡沫排水采气中泡沫携液机理及模型建立研究”(编号:YKJCX2420144)。
NOTES
*第一作者。