基于Multi-Head Attention的BiLSTM改进模型光纤多事件识别
Multi-Head Attention-Based BiLSTM Improved Model for Fiber Optic Multi-Event Recognition
摘要: 针对相位敏感光时域反射计(φ-OTDR)分布式光纤传感系统对多事件(如挖掘、敲打、振动等)进行检测和识别的问题,提出一种基于双向长短期记忆网络(BiLSTM)和多头注意力机制(Multi-Head Attention)结合,并用Lookahead优化算法进行改进的深度学习网络模型。将获取的历史记录数据中的训练集进行处理后导入到改进后的预测模型进行训练,利用BiLSTM处理序列信号的能力,再结合多头注意力机制将输入向量分成多个子空间(即多个头),每个头独立进行计算权重并加权求和,最后将所有头的输出拼接并线性变换得到最终结果。测试集数据进行模拟仿真,将BiLSTM-Multi-Head Attention改进模型与神经网络(CNN)、长短期记忆网络(LSTM)、双向长短期记忆网络及未改进的BiLSTM-Multi-Head Attention等模型进行对比,研究了对光纤多事件的分类识别能力,验证了该模型相对其他基准模型有更好的预测精度。
Abstract: In order to solve the problem of detecting and identifying multiple events (such as mining, tapping, vibration, etc.) in the phase-sensitive optical time domain reflectometer (φ-OTDR) distributed optical fiber sensing system, a deep learning network model based on the combination of Bidirectional Long Short-Term Memory Network (BiLSTM) and Multi-Head Attention mechanism and improved by Lookahead optimization algorithm is proposed. The training set in the obtained historical data is processed and imported into the improved prediction model for training, and the ability of BiLSTM to process sequence signals is used, and then the input vector is divided into multiple subspaces (i.e., multiple heads) by combining with the multi-head attention mechanism, and each head independently calculates the weights and weights the sum, and finally the output of all heads is spliced and linearly transformed to obtain the final result. The improved BiLSTM-Multi-Head Attention model was compared with the Convolutional neural network (CNN), Long Short-Term Memory network (LSTM), bidirectional long short-term memory network and the unimproved BiLSTM-Multi-Head Attention models. The model’s ability to classify and recognize the classification for multiple events in optical fibers is investigated to verify that the model achieves better prediction accuracy.
文章引用:时敏, 杨乐鑫, 石开明. 基于Multi-Head Attention的BiLSTM改进模型光纤多事件识别[J]. 人工智能与机器人研究, 2025, 14(6): 1561-1572. https://doi.org/10.12677/airr.2025.146146

1. 引言

近年来,分布式光纤传感技术凭借其高分辨率、监测范围广以及抗干扰能力强等显著优势,成为安全监测领域的研究热点。其中,相位敏感光时域反射计(φ-OTDR)在管道与桥梁监测、地震与地质勘探以及入侵预警等多个领域得到了广泛应用[1]-[5]φ-OTDR的工作原理基于光纤中的瑞利散射信号与参考光的干涉效应。当光纤沿线发生扰动时,瑞利散射信号的相位会发生变化,从而导致干涉信号的相位调制。通过解调这些相位变化,可以实现对光纤沿线物理量的监测[6]。通过分析这些物理量的变化,可以更准确地评估线路的健康状况,及时预警潜在风险,从而保障电力系统的稳定运行。光纤多个事件识别监测在安全领域中有着重要地位。目前,关于光纤多事件识别的研究已经从理论探索研究发展到实际应用阶段,研究人员越来越多地利用机器学习、深度学习进行实验研究,并取得较多成果。文献[6]提出基于小波分解和小波包分解的方法可以提取不同事件信号的特征,并通过人工神经网络进行分类,识别率达到94.4%。文献[7]提出通过提取信号时域和频域的平均值、方差、均方差以及信号功率特征,利用二叉树结构建立基于SVM算法的分类器,对扰动进行判别并对扰动模式进行识别,其正确扰动判别率在96%以上。文献[8]提出基于多尺度一维卷积神经网络的方法,能够在时间和频率尺度上提取振动信号特征,对敲击、干扰和破坏三类目标振动事件三类振动事件识别正确率达到96%以上。文献[9]提出一种包含多维度时间信息特征的信号特征提取算法,并结合卷积长短期记忆全连接深度神经网络(CLDNN)对具体振动传感事件进行识别和分类,对5类信号进行识别与分类,平均识别率均达到96%以上。然而现有研究方法对于光纤事件识别在复杂实际应用场景下,特别是在电力通信系统中,针对多种扰动事件进行高精度、鲁棒性识别仍面临挑战。传统深度学习模型网络结构较为单一,缺乏对长时依赖信息和全局特征权重的有效建模。此外,传统优化算法容易在训练过程中进入局部最优,导致模型的收敛速度与稳定性不足。为了进一步提升φ-OTDR系统在复杂环境中的事件识别能力,本文提出了一种新的事件识别算法。该算法采用加入多头注意力机制的BiLSTM和Lookahead优化算法改进的预测分类模型,该改进模型优势在于利用BiLSTM处理时间序列数据的能力,同时用多头注意力机制合理分配各种提取特征的权重系数,再引入Lookahead优化算法使内部循环优化器更新快速、慢速权重的方式,集三者所长,提高整个模型的识别分类精度。通过6类事件进行实验对比分析,改进后的模型相对于其他基准模型具有更好的识别精度。

2. 模型介绍

2.1. 基于Multi-Head Attention的BiLSTM改进模型

基于多头注意力机制的BiLSTM的改进模型对光纤多事件识别的流程见图1。训练数据依次通过LSTM层,Multi-Head Attention模块和全连接层捕获时序特征,然后再通过Lookahead优化算法Lookahead优化器优化模型的收敛速度和分类精度。最终,训练得到的预测模型通过在测试集上的模型评估来验证其性能。

Figure 1. Flowchart of the improved BiLSTM model based on multi-head attention

1. 基于Multi-Head Attention的BiLSTM改进模型流程图

2.2. LSTM神经网络

循环神经网络(RNN)广泛用于处理序列数据的网络模型。在处理数据过程中,每个隐藏层神经元的状态 h t 由当前输入和前一时刻隐藏状态共同决定。然而,这种结构也存在一些问题。由于长期依赖的存在,RNN容易积累冗余信息,导致模型权重更新减缓,并随着序列长度的增加,逐渐出现信息丢失问题。为了克服这些问题,研究人员对RNN结构进行改进,提出了长短时记忆网络(LSTM)。该网络特别适用于处理长序列的时间序列数据。LSTM通过引入专门的门控机制,有效缓解了传统RNN在训练过程中常出现的梯度消失和或梯度爆炸问题。在LSTM网络,每个LSTM单元包含一个状态 C t 的记忆单元,其存储单元由三个门控机制输入门 i t 、遗忘门 f t 和输出门 o t 共同控制。在给定输入序 X=( x 1 , x 2 ,, x t ) ,其中 x t R n n表示因子数量,LSTM通过这些门控单元来调控信息的存储、保留与输出,从而有效建模长期依赖信息。LSTM单元的结构如图2所示。

Figure 2. Structure diagram of LSTM Unit

2. LSTM单元结构图

遗忘门主要负责决定从上一时刻的细胞状态 C t1 中丢弃多少信息,以减少冗余数据在网络中的传播。该门通过sigmoid激活函数生成一个取值在[0, 1]之间的权重,决定保留信息的程度,其计算方式如公式(1)所示。

f t =σ( W f [ h t1 , x t ]+ b f ) (1)

输入门决定当前时刻的输入信息 x t ,有多少部分需要加入细胞状态中。它通过两部分完成计算,首先用Sigmoid激活函数计算输入门的值 I t ,决定哪些信息需要更新,再用tanh函数计算当前时刻的候选细胞状态 C t ,其计算方式如公式(2)和(3)所示。

i t =σ( W i [ h t1 , x t ]+ b i ) (2)

C ˜ t =tanh( W C [ h t1 , x t ]+ b C ) (3)

输出门则决定当前的细胞状态有多少要作为输出。同样地,输出门结合sigmoid和tanh激活函数来调节输出,其计算方式如公式(4)所示:

o t =σ( W o [ h t1 , x t ]+ b o ) (4)

2.3. 基于BiLSTM的时序提取模型

通过连续的回车符(换行符)调整段间距双向长短期记忆网络(BiLSTM)的结构是结合了向前和向后两个方向的LSTM,分别处理序列的前向与后向信息,从而更充分地挖掘和利用时间序列中的上下文特征。与单向LSTM仅依赖过去信息不同,BiLSTM能够同时捕获前文和后文对当前时刻的影响,从而更全面地建模时序依赖关系。在前向LSTM中,每个时间步的隐藏状态 h t 由其前一时刻的状态 h t1 决定;而在后向LSTM中,当前隐藏状态 h t 则受到后续时间步状态 h t+1 的影响。两个方向的信息最终通过拼接或加权融合,形成一个更具表现力的特征表示,用于后续的预测或分类任务。

我们采用BiLSTM提取φ-OTDR采集的光纤数据的特征,这是由于传统LSTM在序列建模过程中对前序信息过于依赖。这种依赖可能导致对全局信息的利用效率偏低,从而影响预测性能。而BiLSTM通过前向和后向两个子网络的协同,能够分别提取数据在时间t处在其前后上下文中的时序特征,从而增强全局信息的建模能力。通过BiLSTM网络数据的输出隐藏状态向量:

h t =Forward-LSTM( x 1 , x 2 ,, x t ) (5)

h t =Backward-LSTM( x t , x t1 ,, x 1 ) (6)

最终的特征向量为两者的拼接:

h t =[ h t , h t ] (7)

该特征向量可作为后续任务如故障类型分类、事件点定位或信号异常检测等任务的输入。相比传统方法,BiLSTM更有效地捕捉φ-OTDR信号中潜藏的长期依赖关系和局部变化,从而提升对反射事件与损耗突变点的识别能力。这不仅增强了系统对光纤链路状态的感知精度,也可以提高系统的稳定性。BiLSTM神经网络的结构如图3所示。

Figure 3. Structure of BiLSTM neural network

3. BiLSTM神经网络结构

3. 特征权重分配与参数优化

3.1. 基于Multi-Head Attention的特征权重分配

注意力机制通过将神经网络与注意机制结合,于大量输入中筛选出最具价值的特征信息,提升了模型对关键信息的提取能力。Attention机制的核心思想在于通过计算为输入序列中的每一个元素分配不同的权重,突出其中的重要信息[10]。引入注意力机制后,模型能够在长时间序列中保持较强的表达能力,有效、快速地聚焦于最相关的内容,减少无关信息对结果的干扰。这一机制通常分为两类:硬注意力与软注意力。硬注意力通过选择输入中的相关区域来降低计算复杂度,但训练过程不可微分;相较之下,软注意力机制则为所有输入位置分配可学习的权重,训练过程可导,适用于梯度下降等优化方法[11]。本文提出的改进模型所采用的Multi-Head Attention就是在软注意力机制的基础上改进的。

多头注意力机制(Multi-Head Attention),更准确地说是多头自注意力机制,通过输入的特征序列分别映射到多个注意力头i中,从不同的子空间学习特征之间的关联关系。每一个注意力头在学习时都会生成一组独立的注意力权重矩阵,分别对输入的不同部分进行加权建模。这样使得我们对光纤特征提取实现多个维度的提取,并且可以增强BiLSTM对长距离依赖的建模能力。最终,多头注意力输出的多个加权特征表示通过拼接融合后送入BiLSTM层,进一步学习全局时序依赖,完成对φ-OTDR光纤链路信号的高效表征。Multi-Head Attention结构图如图4所示。

Figure 4. Structure diagram of multi-head attention mechanism

4. 多头注意力机制结构图

在本文所提到的BiLSTM-Multi-Head Attention改进模型中,总共做 i=4 次小注意力,我们对BiLSTM层的输出H( H R batch_size×time_steps×128 ),其中,batch_size表示的是一次输入的样本的数量,time_steps为输入序列的步长。应用多头自注意力机制,将其结果分给这4个小注意力,每个小头从H中学习自己的一套Query、Key、Value特征子空间,再分别计算每个小头的权重,分别对每个头的结果进行加权求和,再将其拼接在一起进行线性变换,最终得到attention后的特征,并取最后一个时间步输出分类,其计算公式为:

Q=H W Q ,K=H W K ,V=H W V (8)

A ( i ) =softmax( Q ( i ) ( K ( i ) ) T d k ) (9)

Z ( i ) = A ( i ) V ( i ) (10)

Z=Concat( Z ( 1 ) , Z ( 2 ) , Z ( 3 ) , Z ( 4 ) ) W 0 (11)

z T = Z T (12)

其中 W Q , W K , W V R 128×32 Z ( i ) R T× d v W 0 R T×128 Z R T×128 d v = d k =32

3.2. Lookahead优化算法

Lookahead优化算法是一种深度学习中的梯度下降优化方法,该方法通过在训练中结合快权重和慢权重参数的更新策略来提升模型的训练性能和稳定性[12]。快参数通过Adam、SGD等常规优化器更新,慢参数则定期通过速权重的短期变化预测最优方向进行参数更新。这种机制加速了算法的收敛性,有效避免局部最优解。在参数更新方面,一般设置将慢参数的学习率取值为快参数学习率的 α 倍(默认 α=0.5 ),且每隔k个周期更新一次。这种参数更新方式可使得慢速权重平滑快速权重的波动,提高训练的稳定性。

算法流程为:

(1) 设置初始化快速权重参数 θ 、慢速权重参数 ϕ 、目标函数L、同步函数K (即内层循环次数)、学习率插值系数 α 以及基础优化器A(如SGD、Adam等)。

对于每个训练步t

(2) 快速权重参数更新。从数据分布D中采样一个小批量数据d,然后使用基础优化器A根据目标函数L、上一步的参数 θ 和当前采样数据d来更新快速权重参数,即:

θ t,i = θ t,i1 +A( L, θ t,i1 ,d )( d~D,i=1,2,,k ) (13)

式中:i为基础优化器循环更新次数;

(3) 慢速权重参数更新。以最后一个快参数的方向为指引,通过线性插值的方式更新慢参数,即:

ϕ t = ϕ t1 +α( θ t,k ϕ t1 ) (14)

(4) 重置快速权重参数。即:

θ t,k = ϕ t (15)

对于lookahead算法的复杂度,由于参数复制和基本算术运算,Lookahead优化算法存在固定的计算

开销,而这种开销会在k次内循环更新中进行分摊。其运算次数是内部优器运算次数的 O( k+1 k ) 倍。本

文利用keras、Tensorflow实现Lookahead优化算法并将其引入Bilstm-Multi-Head Attention模型中,对模型网络进行优化。

4. 仿真对比分析

模型训练采用公开的数据集[13],该数据集包含6类OTDR事件(噪声(Backgrn)、挖掘(Dig)、敲打(Knock)、水侵(Water)、摇晃(Shake)、行走(Walk))大规模时序数据集,覆盖实际工程中的典型扰动场景。数据集总计15,419个样本,采用8:2比例划分,且每个样本为10,000 × 12的矩阵,包含长时间序列(10,000时间步长)和多维度特征(12通道),能够全面反映OTDR事件的时空演化特性。数据分布中,各事件类别样本量均衡,为模型训练提供了充分的类别多样性。

4.1. 评估指标

采用四个核心评估指标对模型预测性能进行多维度考量:准确度(Accuracy, ACC)、F1分数(F1 Score)、精确率(Precision)和召回率(Recall)。这些指标协同作用,为模型性能评估提供了全面的分析框架。准确度(ACC)表示模型预测正确的样本占总样本的比例;精确率即为预测为正类样本中实际为正类的准确率;而召回率与之互补,即实际为正类样本中被正确预测的比例;F1分数作为精确率与召回率的调和平均,用于权衡模型在正负样本上的表现。指标计算公式如下:

ACC= TN+TP TN+TP+FN+FP (16)

Precision= TP TP+FP (17)

Recall= TP TP+FN (18)

F1= 2TP 2TP+FN+FP (19)

(16)~(19)中TP和FP分别代表被正确预测为相互作用的样本数和被错误预测为相互作用的样本数,TN和FN分别表示被正确预测为非相互作用的样本数和被错误预测为非相互作用的样本数。

4.2. 模型验证

在对本文所提出的改进BiLSTM-Multi-Head Attention改进模型进行训练时,训练集准确率99.90% (极高),最后在测试集准确率98.93% (轻微下降),表明其准确率与泛化性均处于优秀状态。其在测试集上达到98.93%的整体分类准确率,展现了显著的性能优势。我们统计了各个事件类型的精确率、召回率以及F1分数,如表1所示。

Table 1. Evaluation of the recognition results of test samples

1. 测试样本的识别结果评估

Sample typle

Precission/%

Recall/%

F1/%

Backgrnd

98.82

99.15

98.98

Dig

99.00

99.00

99.00

Knock

99.41

99.60

99.51

Water

98.88

98.00

98.44

Shake

98.56

100.00

99.27

Walk

98.94

97.49

98.21

表1可以看出,BiLSTM-Multi-Head Attention改进模型对该6类OTDR事件的识别结果都处于相对较高的水准。尽管对Shake这类事件预测精度要低于其他事件,但也达到了98.56%的精确率和99.27%的F1分数,可以说明该模型对各个样本的识别结果整体表现优异。

4.3. 对比实验

φ-OTDR通过分析反射和散射的光信号来定位事件,而这些信号的时间序列长度、噪声水平、事件类型的多样性等都是我们进行模型选择的因素。因此,我们选择CNN、SVM、LSTM、BiLSTM和Bilstm-Multi-Head Attention这五类模型与Bilstm-Multi-Head Attention改进模型进行对比。其中,SVM的核函数选择径向基函数(RBF),模型参数均为函数默认值。表2为各个模型准确率、精确率、召回率和F1分数的值。

Table 2. Comparison between the improved BiLSTM-multi-head attention model and other models

2. BiLSTM-multi-head attention改进模型和其他模型比较

Models

Accuracy/%

Precission/%

Recall/%

F1/%

SVM

83.11

83.75

82.25

82.30

CNN

92.87

92.70

92.60

92.65

LSTM

95.74

95.69

95.61

95.64

BiLSTM

96.42

96.36

96.31

96.17

BiLSTM-MHA

98.57

98.56

98.52

98.54

BiLSTM-MHA (Lookahead)

98.93

98.94

98.87

98.90

表2中可以看出以SVM和CNN为代表的传统事件检测算法和模型的总体准确率偏低。基于改进后的模型如LSTM和BiLSTM的准确率有了一定提高,分别达到95.74%和96.42%,在加入多头注意力机制并使用Lookahead优化算法之后准确率进一步提高,达到98.93%。为了直观地观察不同的方法在训练过程中损失和准确率的变化,将这些方法在训练和验证过程中的损失和准确率可视化,如图5所示。

Figure 5. Loss and accuracy of different models

5. 不同模型的损失与准确率

随着训练进行,各种模型的训练损失不断减小,准确率稳步提升。从图5中可以看出,BiLSTM-MHA模型在测试集准确率方面明显优于其他模型,而在使用Lookahead算法进行优化之后准确率进一步提升。

(a) SVM (b) CNN

(c) LSTM (d) BiLSTM

(e) BiLSTM-MHA (f) BiLSTM-MHA (Lookahead)

Figure 6. Confusion matrices of different models

6. 不同模型的混淆矩阵

为了更直观地反映分类结果,使用混淆矩阵对分类结果进行可视化。混淆矩阵以简洁明了的表格形式,将模型预测结果与实际类别进行交叉呈现,让我们能迅速洞察模型在各个类别上的表现。在多分类问题中,混淆矩阵的优势更为显著,它能清晰地展现出不同类别之间的混淆情况。由图6的混淆矩阵可以看出,传统模型如SVM和CNN存在较多误判。从LSTM到BiLSTM,再到加入多头注意力机制的BiLSTM-MHA,最后到使用Lookahead优化算法改进后的BiLSTM-MHA (Lookahead),随着模型结构的优化和改进,混淆矩阵中正确预测的比例逐渐增加,误判情况逐渐减少。这清晰地展示了模型性能逐步提升的趋势,说明BiLSTM捕捉时间序列依赖关系、多头自注意力机制分配特征权重以Lookahead优化算法加速收敛和避免局部最优等改进措施,有效提升了模型的识别能力。

5. 结论

针对φ-OTDR系统中的多事件识别问题,本文提出了一种基于BiLSTM-Multi-Head Attention改进模型的深度学习方法,通过结合双向长短期记忆网络(BiLSTM)、多头注意力机制(Multi-Head Attention)以及Lookahead优化算法,显著提升了模型的分类性能和训练稳定性。实验结果表明,该模型在背景噪声、挖掘、敲打、水侵、摇晃、行走六类事件的识别任务中表现优异,训练集准确率达到99.90%,测试集准确率为98.93%,各项评估指标(精确率、召回率、F1分数)均优于传统方法(如SVM、CNN)和单一BiLSTM模型。

基金项目

中国南电网科技项目(GZKJXM20232598,光纤分布式多参量传感及业务故障自愈技术研究及应用)。

NOTES

*第一作者。

参考文献

[1] Wang, J., Wang, L., Su, X., Xiao, R. and Cheng, H. (2022) Temperature, Stress, Refractive Index and Humidity Multi Parameter Highly Integrated Optical Fiber Sensor. Optics & Laser Technology, 152, Article ID: 108086. [Google Scholar] [CrossRef
[2] 王鹏, 娄淑琴, 梁生, 等. 选择性平均的φ-OTDR分布式光纤扰动传感系统阈值算法[J]. 红外与激光工程, 2016, 45(3): 271-276.
[3] Yang, W., He, J., Chen, G., Du, B., Xu, B. and Wang, Y. (2024) Real-Time φ-OTDR System Based on FPGA Digital Signal Processing Scheme. 2024 Asia Communications and Photonics Conference (ACP) and International Conference on Information Photonics and Optical Communications (IPOC), Beijing, 2-5 November 2024, 1-4. [Google Scholar] [CrossRef
[4] Shi, Y., Kang, X., Lin, Z., Yan, Q., Wei, Z. and Wei, C. (2024) CycleGAN-Based Data Augmentation for Enhancing Classification Accuracy in φ-OTDR Systems. 2024 22nd International Conference on Optical Communications and Networks (ICOCN), Harbin, 26-29 July 2024, 1-3. [Google Scholar] [CrossRef
[5] 崔光磊, 衣文索, 牛卫丛, 等. 基于分布式光纤传感器的管涌监测系统[J]. 长春理工大学学报(自然科学版), 2018, 41(1): 39-43.
[6] Wu, H., Qian, Y., Zhang, W. and Tang, C. (2017) Feature Extraction and Identification in Distributed Optical-Fiber Vibration Sensing System for Oil Pipeline Safety Monitoring. Photonic Sensors, 7, 305-310. [Google Scholar] [CrossRef
[7] 张俊楠, 娄淑琴, 梁生. 基于SVM算法的φ-OTDR分布式光纤扰动传感系统模式识别研究[J]. 红外与激光工程, 2017, 46(4): 212-218.
[8] 吴俊, 管鲁阳, 鲍明, 许耀华, 叶炜. 基于多尺度一维卷积神经网络的光纤振动事件识别[J]. 光电工程, 2019, 46(5): 79-86.
[9] 周子纯, 刘琨, 江俊峰, 等. 基于卷积长短期记忆全连接深度神经网络的光纤振动传感事件识别[J]. 光学学报, 2021, 41(13): 153-161.
[10] Tong, C., Zhang, L., Li, H. and Ding, Y. (2022) Temporal Inception Convolutional Network Based on Multi‐Head Attention for Ultra‐Short‐Term Load Forecasting. IET Generation, Transmission & Distribution, 16, 1680-1696. [Google Scholar] [CrossRef
[11] 方鹏, 高亚栋, 潘国兵, 等. 基于LSTM神经网络的中长期光伏电站发电量预测方法研究[J]. 可再生能源, 2022, 40(1): 48-54.
[12] Zhang, M.R., Lucas, J., Hinton, G., et al. (2019) Lookahead Optimizer: K Steps Forward, 1 Step Back. Proceedings of the 33rd International Conference on Neural Information Processing Systems, New Orleans, 10-16 December 2023, 9597-9608.
[13] Cao, X., Su, Y., Jin, Z. and Yu, K. (2023) An Open Dataset of φ-OTDR Events with Two Classification Models as Baselines. Results in Optics, 10, Article ID: 100372. [Google Scholar] [CrossRef