1. 引言
随着复杂地层中隧道建设的需求不断增加,泥水平衡盾构机(SPB)因为有较好的地层适应性,被广泛用于复杂地层中隧道的建设[1]。泥水平衡盾构通过带压泥浆来平衡开挖面前方的水土压力。泥水平衡盾构推进过程中,泥浆在泥水舱内泥浆压力和开挖面前方水压力差的作用下会沿土体颗粒间孔隙向地层渗透形成泥膜。泥膜封闭渗流通道同时也为支护压力提供了有效的作用面。盾构推进时,呈现泥膜被刀盘切削后又因泥浆渗透迅速形成的动态循环[2]。由此可见,泥水平衡盾构隧道开挖面稳定性是一个极其复杂的问题。如果泥水支护压力过小,开挖面前方土体会发生主动失稳,造成地表沉降;如果泥水支护压力过大,开挖面前方土体会发生被动失稳导致地面隆起或地表冒泥冒浆。近年来因开挖面失稳造成地层劈裂冒浆、掌子面塌方江海水倒灌等重大工程事故屡有发生。如南京长江纬三路过江通道建设过程中发生的开挖面失稳冒浆险情,荷兰Heinenroord第二隧道发生的塌方进水事故等。
传统的开挖面稳定性评估方法包括理论分析与数值模拟[3]-[5],这两种方法都难以反映泥浆与地层间的相互作用。理论分析和数值模拟针对的是确定的工况,无法对盾构推进过程中开挖面的稳定性进行实时分析。数值模拟方法相当耗时,难以对突发情况做出指导。隧道开挖过程中能采集到大量的传感器数据,且隧道工程中的问题往往需要考虑多方面的因素。基于机器学习、深度学习方法通过学习数据间的联系进行预测,不需要任何假设且训练完成以后运行速度极快,已应用于包括盾构隧道掘进参数预测[6] [7]、最大沉降预测[8]、地层条件识别[9]等方面。深度学习方法更适用于解决高维的复杂问题,在经过大量数据的训练后其表现比机器学习方法更好,因此深度学习方法更受关注[10]。
开挖面稳定性评估作为隧道工程的一大难题,其错误评估会给施工带来极大的困扰甚至人员伤亡。但是,目前开挖面稳定性的研究集中于理论分析与数值模拟,并不能提前对开挖面稳定性进行感知。面对施工过程中的突发情况,这些方法也无法及时给出应对策略。
针对上述问题,本文提出了一种基于注意力机制与LSTM的深度神经网络模型。该模型通过注意力机制与LSTM学习数据不同特征维度(即不同盾构掘进参数)和时间上的联系,且可在实际应用中通过迁移学习进行微调以适用新工程。随后,本文通过对模型进行修改建立了另外三个模型:Attn-Attn-LSTM、Attn-GRU-Attn-LSTM、LSTM-Attn-LSTM,以讨论不同神经网络层在预测过程中的作用。最后,在沪通铁路吴淞口长江隧道站前Ⅳ标工程验证了模型的有效性。
2. 基于Attn-LSTM的智能预测模型
2.1. 长短时记忆神经网络(LSTM)
人脑中除了注意力能够帮助处理信息外,记忆力在信息处理中也能发挥很大作用。人脑通常会记住和忘记一些事情。基于此,科学家们提出了长短时记忆神经网络(LSTM) [10]。在时间序列预测上面,通过“遗忘”与“记住”一些信息,LSTM对时间效应的把控也有更加精准。本文研究的时间序列问题时间跨度大,因此,借助LSTM“遗忘”掉与当前时间步无关的历史数据,可以更好地提高预测的精度。
LSTM通过遗忘门、输入门、输出门进行信息的控制与传递。当一个信息传到LSTM单元时,遗忘门、输入门、输出门会对其进行处理,分别判断该时刻应该保留多少历史信息、输入多少当前信息以及有多少信息输出。以第t时间步的输入xt为例,遗忘门、输入门、输出门的计算方式分别为:
(1)
(2)
(3)
其中,σ()为Logistic函数,ht−1为上一时刻的隐藏状态;W,U,b为可学习的参数;[ht−1; xt]表示矩阵拼接。LSTM单元中还有候选状态、记忆单元以及隐藏状态,在确定了遗忘门、输入门、输出门后,三者可分别由式(4)~(6)计算:
(4)
(5)
(6)
从式(1)~(6)中可以看出,不同时间步中LSTM神经元的信息由ht,ct传递。同时,不同时刻的ht也是每个时间步的输出。
2.2. 注意力机制
动物的各个感官系统接收了大量的信息,但是这些信息受到的关注程度是不同的。动物的注意力能够让其将只关注最有价值的部分信息[11]。受此影响,深度学习领域的学者们提出了注意力机制(attention mechanism),用于选择关键信息,提高神经网络效率[12]。通俗来讲,注意力机制将一些权重赋予不同向量,从而实现信息的选择。
例如对于输入向量[x1, …, xN],为了从中对关键信息施加较高的注意力,需要引入一个“提示”,也就是与任务相关的查询向量q。通过打分函数可以计算每个输入向量与q之间的相关性。那么,每个向量的注意力权重可以由式(7)计算:
(7)
(8)
其中
称为注意力分布,
为加性注意力打分函数。当计算完所有向量的注意力权重后,对所有向量计算加权平均得到最终输出。
2.3. 模型架构
Hübner等人的研究结果表明将注意力机制分为两阶段建模能得到较好地结果[13]。因此本文采用的模型架构如图1所示。该模型由编码器和解码器两部分组成,两部分均基于注意力机制与LSTM (后文简称该模型为Attn-LSTM)。编码器中,我们参考Qin等人提出的注意力机制[14],结合LSTM对输入序列的不同时间步、不同维度的特征予以权重,实现关键信息的选择。解码器采用类似的方式进行,不过解码器采用了时间注意力机制进行编码器隐藏状态的选择。
Figure 1. Deep neural network architecture based on Attn-LSTM
图1. 基于Attn-LSTM的深度神经网络架构
2.4. 模型评价体系
本文选取回归问题中常用的评价指标均方误差(MSE)、均方根误差(RMSE)以及平均相对百分比误差(MAPE)对最终预测结果进行评价。三个指标的值越小,代表着预测值与真实值越接近,模型精度越高。MSE、RMSE以及MAPE可以分别由下式计算:
(9)
(10)
(11)
其中n为预测值的个数,
为真实值,
为预测值。三者均用于衡量预测值与真实值之间的差距,但各有不同:
MSE表示真实值与预测值之间距离的平方,其常作为模型训练中的损失函数,不难看出,二者之间的差距越大,损失函数对其的“惩罚”比RMSE和MAPE更多。
RMSE将量纲进行了统一,反映了真实值与预测值之间的平均绝对误差。
MAPE表示绝对误差的百分比,能直观的反映模型的预测精度。
3. 工程实例
3.1. 工程概况
中俄东线天然气管道工程(永清–上海)在江苏省南通市与常熟市之间将相继穿越新江海河、常熟港海轮锚地、主航道、专用航道、白茆河及其之间区域,穿越长度约为10.23 km,穿越水面宽度约为7.5 km。隧道直径为7.60 m。该工程目前已完成推进,有丰富的训练数据。
沪通铁路吴淞口长江隧道站前Ⅳ标工程,正线迄止里程为DK140 + 700~DK144 + 210,线路长度2.905 km,位于上海市宝山区境内,包括1号工作井、明挖暗埋段、陆域段隧道,总长约2.28 km,隧道直径为10.69 m。该工程目前正在进行,可用于迁移学习和模型验证。
在施工过程中,为了确保盾构机顺利运行,盾构机内部存在大量的传感器以一定频率实时记录盾构掘进参数。记录的参数包括刀盘转速、推进压力、排浆流量、注浆压力等多个参数。在开挖过程中,驾驶员将根据记录的历史数据对盾构机掘进参数进行调整,以确保盾构机的正常行驶。
实际工程中以采样频率为单位进行预测并无太大意义,不同工程的采样频率也不一致,本文对原始数据进行了30 s的均值重采样。需要注意的是,重采样后的数据仍存在大量的停机数据以及一定比例的异常数据。在数据驱动的机器学习/深度学习方法中,这些数据会严重降低模型的性能,因此,本文在记录的数据中删除了停机数据并从中提取了有效掘进循环构成数据集。
3.2. 输入参数选取
在建立开挖面稳定性智能预测模型之前,需要确实如何判断开挖面是否失稳。虽然学者们针对开挖面稳定性问题做了很多理论研究。但是在预测方面,用什么参数预测?怎样通过预测的参数判断稳定性?目前还没有理论与工程实例。
结合盾构机的实际开挖过程,我们发现当开挖面失稳时,前方土体会产生塌陷。一方面,这些土体落入盾构机内部,会影响泥水舱中泥浆的密度,造成进浆密度与排浆密度的出现较大差异。另一方面,一些土渣与传感器产生碰撞也会造成测量值突变。因此,本文将排浆密度与进浆密度确定为开挖面稳定性预测指标。
如2.1节中所述,记录的数据中包含了936个掘进参数。但是,同时将除输出参数之外的所有参数作为特征输入数据驱动模型,往往会导致“维数灾难”。为了解决上述问题,本文通过文献调研初选了14个参数,并采用皮尔逊相关系数计算不同特征间的相关系数,其计算公式与结果分别如式(15)和图2示。
(12)
其中xt,yt表示不同序列的第t个值;
和
表示不同序列的均值;n表示序列长度。
需要注意的是,虽然地勘报告中记录了不同桩号下样本的压缩模量、粘聚力以及内摩擦角,但这样记录的数据离散性大,且隧道的同一截面内存在多组性质不同的样本。同时,随着隧道的开挖,盾构机对地层不断产生扰动,开挖前测得的数据不一定符合实际工程情况。本文的依托工程在盾构机掘进过程中实时记录了贯入度。该参数具有实时性,能够准确地反映地层在开挖时的性质,因此,本文将采用贯入度这一参数作为反应地层性质的输入参数。
Figure 2. Pearson correlation coefficient heatmap between selected parameters
图2. 所选参数间的皮尔逊相关系数热力图
在所选的14个参数中,总推进力、泥浆压力两个参数与排浆密度、进浆密度的皮尔逊相关系数远大于0.6。参考Liu等提出的阈值[9],本文排除了总推进力与泥浆压力两个参数以避免过拟合。最后选择的输入参数、输出参数以及二者相关统计指标如表1所示。表1中的参数组成如下:
Table 1. Input and output parameters with their statistical characteristic indices
表1. 输入与输出参数及相关统计指标
掘进参数 |
单位 |
最大值 |
最小值 |
平均值 |
标准差 |
刀盘转速 |
rpm |
6.00 |
0 |
0.25 |
0.42 |
刀盘扭矩 |
kN∙m |
9957.21 |
−225.28 |
263.73 |
457.84 |
推进速度 |
mm/min |
129.36 |
0 |
13.93 |
24.09 |
排浆流量 |
m3/h |
2000.00 |
0 |
425.61 |
551.73 |
进浆流量 |
m3/h |
2000.00 |
0 |
444.63 |
546.02 |
排浆密度测量 |
t/m3 |
1.50 |
1.00 |
1.25 |
0.18 |
进浆密度测量 |
t/m3 |
1.50 |
1.00 |
1.27 |
0.18 |
泥水舱液位1 |
m |
92.89 |
−89.37 |
2.14 |
15.11 |
泥水舱液位2 |
m |
2.29 |
−2.00 |
−0.03 |
−0.69 |
推进B组压力值 |
bar |
400.00 |
0 |
129.17 |
68.09 |
盾体俯仰角 |
mm/m |
5.00 |
−5.00 |
−0.34 |
0.99 |
贯入度 |
mm |
145.18 |
0 |
15.50 |
27.12 |
直接反映开挖面稳定性的盾构掘进参数:刀盘转速、刀盘扭矩、推进速度、推进B组压力值。
间接反映开挖面稳定性和地层性质的泥浆相关参数:泥水仓液位、进排浆流量、进排浆密度。
盾构机姿态相关的盾构掘进参数:盾体俯仰角反应地层性质的参数:贯入度。
综上,输入模型的10个参数能够全面地反映盾构机掘进过程中开挖面稳定的相关情况。
4. 模型训练与预测
4.1. 数据集划分
同2.1节所述,本文参考Zhang等[8]的方法对数据集进行清洗。之后,以8:1:1的比例划分为训练集、验证集和测试集,分别用于模型的训练、超参数的选择以及模型性能的评估。由于输入参数的数量级有较大的差异(表1),直接输入可能导致模型训练过程中损失函数收敛较慢甚至无法收敛。因此,本文在特征(即不同输入参数)维度对数据进行归一化:
(13)
其中xmin和xmax分别代表某一输入参数所有数据的最小值与最大值。
4.2. 模型训练策略
本文采用的模型超参数优化方法为随机搜索算法。根据进行的文献调研[15] [16],将超参数限制在一定范围内。此时的所有超参数形成了一个搜索空间(表2),本文在该搜索空间中进行一定次数的随机搜索,实现最优超参数的选择。
Table 2. Hyperparameter searching space
表2. 超参数搜索空间
超参数类型 |
范围 |
时间窗口长度 |
[20, 40, 60] |
初始学习率 |
[0.0001, 0.0002, 0.001] |
批量大小 |
[32, 64, 128] |
编码器隐藏单元数 |
[16, 32, 64, 128] |
解码器隐藏单元数 |
[16, 32, 64, 128] |
搜索过程中,以模型在验证集上的MSE为评价指标进行超参数的更新,最后保留的超参数即为最优超参数。另外,在训练过程中,引入了学习率衰减,即,在训练过程迭代一定次数后将学习率 × 0.9,使得模型的更新在后期没有太大波动从而更加接近最优解[17]。
为了对比结构性能,本节还通过对Attn-LSTM模型结构的更改建立了另外三个神经网络模型:编码器不使用注意力机制的LSTM-Attn-LSTM模型、编码器只使用注意力机制的Attn-Attn-LSTM模型以及将编码器中的LSTM替换为GRU的Attn-GRU-Attn-LSTM模型。他们的超参数搜索空间均为表2所示。需要注意的是,所有模型都采用了Adam优化器,最终得到的最佳组合如表3所示。
Table 3. The optimal combination of hyperparameters
表3. 超参数最佳组合
模型类型 |
超参数类型 |
值 |
Attn-LSTM |
时间窗口长度 |
40 |
初始学习率 |
0.0001 |
批量大小 |
64 |
编码器隐藏单元数 |
64 |
解码器隐藏单元数 |
128 |
LSTM-Attn-LSTM |
时间窗口长度 |
40 |
初始学习率 |
0.0001 |
批量大小 |
64 |
编码器隐藏单元数 |
16 |
解码器隐藏单元数 |
32 |
Attn-Attn-LSTM |
时间窗口长度 |
40 |
初始学习率 |
0.0001 |
批量大小 |
64 |
编码器隐藏单元数 |
- |
解码器隐藏单元数 |
32 |
Attn-GRU-Attn-LSTM |
时间窗口长度 |
40 |
初始学习率 |
0.0001 |
批量大小 |
64 |
编码器隐藏单元数 |
64 |
解码器隐藏单元数 |
128 |
需要注意的是,该训练策略仅在中俄东线天然气管道工程数据集上用于智能预测模型的训练。在实际应用(沪通铁路吴淞口长江隧道站前Ⅳ标工程)中,应对训练完成的模型,使用迁移学习方法进行微调。
4.3. 模型预测结果分析
图3展示了Attn-LSTM模型的排浆密度与进浆密度预测结果,从图中可以看出Attn-LSTM模型能够精准地预测二者的变化趋势。在时间序列图中真实值出现波动甚至剧烈波动的时候,Attn-LSTM模型仍能精确预测。频数分布直方图表示了0.01 t/m3的间隔内预测值与真实值的差异。不难看出,二者的频数分布直方图基本重合,表现出极高的精度。排浆密度真实值和预测值的散点图基本围绕着最佳预测线在极小区域内分布。但是进浆密度真实值与预测值的散点图却出现了较大波动,结合该参数时间序列图与频数分布直方图分析,可能的原因是该参数突变的地方较多,导致模型在无法完美捕捉所有突变处的变化趋势。尽管如此,该模型在训练集、测试集上仍表现出了较高的预测精度。
Figure 3. Comparison between true values and values predicted by Attn-LSTM in the test set
图3. 测试集中真实值与Attn-LSTM预测值对比:(a) 排浆密度;(b) 进浆密度
为了进一步验证该模型的性能,还对4.2节提出的另外三个模型在同样数据集上进行训练与预测。为了更直观的提现四个模型性能的优劣,将他们在训练集与测试集上的评价指标汇总到表4、表5中。
Table 4. Evaluation indicators of different models on train set
表4. 不同模型在训练集上的评价指标
模型 |
RMSE |
MAPE |
Attn-LSTM |
1.7223 × 10−2 |
0.8430% |
LSTM-Attn-LSTM |
4.0221 × 10−2 |
2.4248% |
Attn-GRU-Attn-LSTM |
2.5389 × 10−2 |
1.3419% |
Attn-Attn-LSTM |
2.0802 × 10−2 |
1.0112% |
Table 5. Evaluation indicators of different models on test set
表5. 不同模型在测试集上的评价指标
模型 |
RMSE |
MAPE |
Attn-LSTM |
3.9194 × 10−3 |
0.1858% |
LSTM-Attn-LSTM |
2.1464 × 10−2 |
1.6729% |
Attn-GRU-Attn-LSTM |
6.8545 × 10−3 |
0.4235% |
Attn-Attn-LSTM |
6.3790 × 10−3 |
0.4230% |
4.4. 模型应用
将该模型用于沪通铁路吴淞口长江隧道站前IV标工程以检验所得最优智能预测模型(Attn-LSTM)的泛化性能。需要注意的是,4.2节中的模型训练过程中并未使用该工程的数据。为了更全面地考察模型的泛化性能,分别使用来自新数据集0环、50环、100环、200环的数据进行微调,微调后的误差如图4所示。可以看到,随着来自新数据集的数据增加,预测精度逐渐提高,这是因为智能模型通过掘进参数直接和间接地学习到了地层信息和施工工法信息。从定量数据来看,数据的加入将进排浆密度预测值的RMSE从0.131 g/cm3降低到了0.074 g/cm3,MAPE从10.28%降低到了5.62%,精度提升了约50%,有效验证了模型的适用性。
Figure 4. Application effectiveness of predictive models in new engineering projects
图4. 预测模型在新工程中的应用效果
仅使用新工程数据按4.2节的策略对模型进行重新训练,得到的结果与微调后的结果总结到了表6中。由于新工程数据量小,模型在小样本数据中无法学习到完整的进排浆密度与掘进参数之间的联系,因此模型性能相对较差。另外,新工程的地表存在既有建筑,需要根据地表沉降调整运行策略,受人为因素的影响大,而中俄东线输气工程属于海底隧道,地表沉降对其影响较小,主要考虑开挖面稳定性,人为因素影响小,因此模型在新工程上的表现较差。从表6中可以看出,尽管未经迁移学习的模型预测精度略低于重新训练的模型,但随着新数据的加入,模型在迁移学习过程中学到了更多不同掘进参数与进排浆密度的联系,模型的预测精度逐渐提高。
Table 6. Comparative analysis of model transfer performance
表6. 模型迁移性能对比
模型 |
RMSE |
MAPE |
仅新工程数据400环 |
0.116 g/cm3 |
9.37% |
新工程数据0环微调 |
0.131 g/cm3 |
10.28% |
新工程数据50环微调 |
0.094 g/cm3 |
7.82% |
新工程数据100环微调 |
0.085 g/cm3 |
6.43% |
新工程数据200环微调 |
0.074 g/cm3 |
5.62% |
5. 结论
本文针对开挖面稳定性预测问题,分析了反映开挖面稳定性的掘进参数,构建了基于Attn-LSTM的深度神经网络智能预测模型,并在中俄东线天然气管道工程以及沪通铁路吴淞口长江隧道站前Ⅳ标工程中得到了验证,主要结论如下:
1) 采用的模型在测试集中的MAPE达到了0.1858%,相比于Attn-Attn-LSTM、LSTM-Attn-LSTM、Attn-GRU-Attn-LSTM三种模型分别下降了56.08%、88.89%、56.13%。这说明本文采用的模型对进浆密度、排浆密度的预测优于另外三种模型。
2) 从训练集真实值曲线与预测值曲线的变化趋势来看,Attn-LSTM对时间效应的把握优于其他模型。LSTM-Attn-LSTM模型虽然精度在四个模型中最差,但是对时间效应的把握优于Attn-GRU-Attn-LSTM和Attn-Attn-LSTM模型起。
3) 本文建立的Attn-LSTM模型有良好的适用性,尽管在完全未知的新工程中模型预测结果会有较大误差,但随着相关数据的加入,模型的预测误差会大幅提升,说明该智能模型有良好的学习性能。