基于双流Swinc Transformer的工业过程故障诊断
Industrial Process Fault Diagnosis Based on Two Stream Swinc Transformer
DOI: 10.12677/MOS.2023.122074, PDF, HTML, XML, 下载: 308  浏览: 1,700  国家自然科学基金支持
作者: 徐 磊, 田 颖:上海理工大学,光电信息与计算机工程学院,上海
关键词: 工业过程故障诊断视频分类Swin Transformer双流网络交叉注意力机制Industrial Process Fault Diagnosis Video Classification Swin Transformer Two-Stream Network Cross Attention Mechanism
摘要: 传统工业过程的故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,而视频数据的出现为工业过程的故障诊断提供了新的方向,因此本研究提出了一种基于双流Swinc Transformer视频分类的工业过程故障诊断模型。在该方法中,为了捕获视频的时间特征和空间特征,本研究首先在Swin Transformer的Swin Transformer Block中加入了3D卷积模块,构建了Swinc Transformer深度学习模型。随后,为了进一步捕获视频的时间特征,使用Swinc Transformer作为主干网络,引入双流网络,将光流图像与RGB图像作为输入。最终,为了更好的将光流特征与图像特征融合,引入了交叉注意力机制(CAM),以自适应的分配光流与RGB图像特征权重。采用PRONTO基准数据集对该方法进行验证,实验结果表明,本研究中提出的双流Swinc Transformer方法相较于其他视频分类模型具有较好的分类性能,同时,相较于普通工业过程数据,视频数据在故障诊断精度方面也更具优势,其分类精度值为95.26%。
Abstract: The data set used for fault diagnosis of traditional industrial process is generally industrial process data, that is, sensor numerical data. In recent years, industrial process fault diagnosis has encoun-tered a bottleneck in accuracy, and then the emergence of video data provides a new direction for industrial process fault diagnosis. Therefore, this study proposes a video classification industrial process fault diagnosis model based on Two Stream Swinc Transformer. In this method, in order to capture the temporal and spatial features of video, this study adds a 3D convolution module to the Swin Transformer Block of Swin Transformer first, thus constructs Swinc Transformer deep learn-ing model. Then, in order to further capture the temporal features of video, Swinc Transformer is used as the backbone network, and two-stream network is introduced. Finally, in order to better integrate optical flow features and image features, Cross Attention Mechanism (CAM) is introduced to adaptively allocate the weight of optical flow and RGB image features. The PRONTO benchmark data set is used to verify the method. The experimental results show that the proposed Two Stream Swinc Transformer method has better classification performance than other video classification models. At the same time, compared with ordinary industrial process data, video data has more advantages in fault diagnosis accuracy. The classification accuracy is 95.37%.
文章引用:徐磊, 田颖. 基于双流Swinc Transformer的工业过程故障诊断[J]. 建模与仿真, 2023, 12(2): 777-785. https://doi.org/10.12677/MOS.2023.122074

1. 引言

工业生产过程日益集成化、多样化、复杂化,一旦发生故障,会发生十分严重的经济损失和社会安全问题。为了维持工业生产过程的安全稳定运行,实现精确的工业过程的故障诊断是一直以来的研究重点 [1] 。

传统故障诊断方法一般采用基于知识的方法,然而该方法中的数据库并不具备特异性,因此在故障诊断过程中存在不适用性,且该方法要求工作人员具备相应的专业知识技能,要求较高。基于数据驱动的方法相较于传统故障诊断的方法,不需要建立复杂的数学模型,也不需要准确的先验知识,对于处理高维度的数据具有很大的优势,适用于复杂的工业过程,附加成本低,易维护 [2] 。随着信息平台的不断发展,一方面,工业过程中数据量急剧增加,另一方面,数据类型也朝着多元化发展,因此数据具有多源异构的特点。大量的数据为传统的工业过程故障诊断转为由数据驱动的故障诊断提供了可能。传统基于数据的工业过程故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,因此视频监控数据的出现为工业过程的故障诊断提供了新的方向。

在视频故障诊断分类领域,起初,研究人员将图像分类方法应用到视频分类中,Andrej Karpathy [3] 等人通过将视频分帧然后利用二维CNN方法对视频进行分类。N Davari [4] 等人从配电线路的视频中提取帧,使用Faster R-CNN在每一帧中检测电源设备,然后在整个视频帧中对其进行跟踪,然后,使用双流充气3D卷积(Inflated 3D ConvNet, I3D)来分别识别每个设备的图像中的电晕放电,确定初始故障严重程度。Ji Lin [5] 等人则通过将部分信道沿时间维进行移位,便于相邻帧之间的信息交换,提出了时间转移模块(Temporal Shift Module, TSM)。Mehmet Karakose [6] 等人通过改进的ViT对火车故障铁轨进行分类,实现了在线识别铁轨之间的故障类别。

近年来,由于Transformer [7] 在自然语言处理(NLP) [8] 领域展现的惊人潜力,研究人员开始尝试将Transformer应用到计算机视觉(CV)领域。Dosovitskiy [9] 提出了视觉Transformer (VIT),通过简单堆叠Transformer模块增强图像的空间特征提取能力,虽然在图像识别基准测试上取得了巨大的成功,计算复杂度却大幅增加。对于传统检测方法铁路接触网吊弦故障状态检测过程中存在的识别率低等问题,Xu等人 [10] 故提出了一种基于轻量型网络EfficientDet与VIT网络相结合的接触网吊弦状态检测算法。利用改进的Efficient Det [11] 用于吊弦定位,将定位后的吊弦送入改进Vision Transformer网络进行故障类别检测。该方法有效提高了故障检测准确率,同时提高了检测的效率。VIT的计算复杂度是图像大小的二次方,为了降低复杂度,Liu [12] 等人提出了Shifted Windows Transformer (Swin Transformer),引入了局部窗口和移动窗口的概念,在窗口区域和跨窗口进行无重叠的自注意计算。该方法克服了VIT中窗口之间缺乏连接以及计算复杂度过大的问题。

考虑到上述问题,本文提出了双流Swinc Transformer故障诊断视频分类模型,主要贡献如下:

1) Swin Transformer原模型只是一个二维的模型,改进了Swin Transformer Block,加入了3D卷积模块,构建了Swinc Transformer模型,将特征提取扩展到三维,既可以提取时间特征,又可以提取空间特征。

2) 引入了双流网络,以Swinc Transformer作为主干网络,进一步提取视频时间维度上的流动特征。

3) 引入了交叉注意力机制模块,用于融合光流特征和RGB特征,该模块在训练过程中自适应的调整光流特征和RGB特征的融合权重,以便于获取更高的分类精度。

2. 基本原理

2.1. 双流Swinc Transformer Block网络结构

视频分类主要就是关注两方面的特征,一是时间维度上连续帧之间的信息,二是空间维度上单帧图像所包含的特征信息,为此,我们提出了双流Swinc Transformer网络,整体结构如图1所示,为了捕获视频连续帧之间的流动特征,在Swin Transformer的Swin Transformer Block中加入了3D卷积模块,将模型维度扩充到了三维,提出了Swinc Transformer,并以Swinc Transformer作为

主干网络,引入双流网络,将光流图像与RGB图像作为输入,进一步捕获视频的连续特征。最终,为了更好的将光流特征与图像特征融合,采用了交叉注意力机制(CAM),可以自适应的分配视频特征权重,以便获取更全面的视频特征。将特征融合后经过全连接层进行故障分类。

Figure 1. Video fault classification model

图1. 视频故障分类模型

2.2. Swin Transformer Block

Swin Transformer在VIT的基础上引入了移动窗,使得相邻的两个窗口之间有了交互,且复杂度相对图片大小为线性相关,计算效率较高。Swin Trasnformer提出了基于窗口的多头自注意力机制(W-MSA)和基于移位窗口的多头自注意力机制(SW-MSA)。在W-MSA中,输入特征将被划分为非重叠窗口,每个窗口包含M × M个小切片,默认大小为7*7。W-MSA仅在本地窗口内进行自注意力计算。如图2所示, z ^ l z l 分别表示第l层中W-MSA和LN & Linear模块的输出,计算如下:

Figure 2. Swin Transformer block

图2. Swin Transformer Block

z ^ l = W_MSA ( L N ( z l 1 ) ) + z l 1 (1)

z l = MLP ( L N ( z ^ l ) ) + z ^ l (2)

W-MSA的问题是在窗口之间缺乏有效的信息交互,SW-MSA引入跨窗口交互而无需额外计算,它通过循环移位将特征窗口往左上角上移,溢出部分往反方向填充,这样在移位之后,特征窗口可能由特征映射中的多个非相邻子窗口组成,并同时保持相同数量的特征处理窗口作为常规分区。自注意力计算在W-MSA和SW-MSA的局部窗口内进行,计算相似度时会考虑相对位置偏差。通过这种移位窗口划分机制,SW-MSA和LN & Linear模块的输出 z ^ l + 1 z l + 1 可以表示为

z ^ l + 1 = SW_MSA ( LN ( z l ) ) + z l (3)

z l + 1 = MLP ( LN ( z ^ l + 1 ) ) + z ^ l + 1 (4)

VIT的计算复杂度是图像大小的二次方,这使得许多密集预测和高分辨率图像任务很难进行。Swin Transformer自注意力是在小窗口之内算的,它的计算复杂度是随着图像大小而线性增长,而不是平方级增长,计算复杂度如公式所示:

Ω ( MSA ) = 4 h w C 2 + 2 ( h w ) 2 C (5)

Ω ( W_MSA ) = 4 h w C 2 + 2 M 2 h w C (6)

其中h、w表示图片的高和宽,每张图片包含的切片数量为M*M。

2.3. Swinc Transformer Block

由于Swin Transformer Block主要是用于提取视频的空间特征,而忽略了视频的时间特征,为了提取视频中水流流动的连续特征,我们在Swin Transformer Block加入了3D卷积模块,提出了Swinc Transformer Block,结构如图1右图所示,主要包含窗口多头自注意模块(W-MSA)、3D卷积模块、移动窗口多头自注意模块(SW-MSA)。Swinc Transformer Block的输出 z l 可以表示为:

z ^ l = 3 D ( W_MSA ( LN ( z l 1 ) ) ) + z l 1 (7)

z l = MLP ( LN ( z ^ l ) ) + z ^ l (8)

2.4. CAM

交叉注意力机制模块,用于融合光流特征和RGB特征,该模块在训练过程中可以自适应的调整光流特征和RGB特征的融合权重,模型结构如图3所示。为了挖掘光流图像与RGB图像特征通道之间的相关性,首先通过式(9)使用全局平均池化操作在特征图每个通道维度大小为 ( H × W ) 的特征上进行压缩变换,得到模态特征的通道描述符 Y R C = [ y 1 , y 2 , , y ] , y c R ,然后再根据公式(10)获取对应模态的权重系数,记为 R C

y c = 1 H × W h , w = 1 H , W x c ( h , w ) (9)

= softmax ( q k ) = softmax ( ( W 1 Y ) ( W 2 Y ) ) (10)

其中 W 1 W 2 是可训练参数,表示线性映射。

由上方法可分别得到光流图像特征与RGB图像特征对应的权重系数 p v 。然后再根据式(11)、(12)使用权重系数交叉激活对应数据特征,使得两种数据特征信息相互引用,达到相互增强的目的。

p o = P Y (11)

V o = v Y (12)

p o V o 分别表示经过交叉注意力后模态特征的输出。

Figure 3. Cross attention mechanism

图3. 交叉注意力机制(CAM)

3. 实验结果与分析

3.1. 实验数据集

本文使用的数据集是PRONTO基准数据集 [13] ,收集自克兰菲尔德大学过程系统工程实验室的全自动、高压、多相流设备。该设施为研究多相流的输送、测量和控制而设计的,允许对包括水、空气和油在内的多相流进行研究。该设施,描述了不同操作条件下的测试和诱发的故障。有两种数据类型,包括工业过程数据,即传感器数值数据,视频数据。每种数据包含三种相同的故障类型,分别是空气泄露、空气堵塞、分流。过程数据是由31传感器以1 hz的采样率采集到的数据,包括2800组数据,每组数据由31个传感器以1 hz的频率采样获得。视频数据拍摄的是透明管道中水流的流动状态,时长为10~30秒。视频数据被分为960个精细视频片段,剪辑的长度不小于一秒,不超过5秒。在此数据集中,训练、测试集的比例为7:3。

3.2. 实验细节

在实验中使用Adam优化器 [14] 更新网络参数,使用交叉熵损失函数用于计算分类损失 [15] ,先求出所有类别的总的精确度和召回率,然后计算出的f1分数即为Micro F1分数 [16] ,它可以很好的评价一个多分类模型的性能,因此使用准确率、Micro F1分数,精确度,召回率作为评价指标。

在训练过程中,需要调整的超参数有:学习率,视频帧批量大小,网络的层数表示每个Basic Layer中Swinc Transformer Block的个数,移动窗口的大小模型中移动子窗口的大小,网络的隐藏层维度大小表示每个Basic Layer中Swinc Transformer Block的维度大小,注意力头数表示Swinc Transformer Block的注意力头数,丢弃率,超参数的值如表1所示。

Table 1. Super parameter setting

表1. 超参数设置

3.3. 实验结果与可视化分析

表2中,是视频数据故障诊断模型精度对比以及消融实验,同时,为了验证视频数据是作为增强故障诊断的新方向,实验中还加入了过程的数据的故障诊断模型作为对比。可以看到,整体上,在普通的故障诊断方法中,过程数据的故障诊断精度更具优势,然而在将SwinTransformer扩充到3维后,视频数据的故障诊断精确度有了明显的提升。本文所提模型实验结果如实验18所示,相比其他视频故障分类模型和过程数据故障分类模型,具有显著优势。GRU解决了RNN长时间“遗忘”的问题,在过程数据故障分类模型中准确率最高。视频分类模型中,Deep Video的性能最差,原因是它是按照图像的方法去处理视频的,并没有考虑时间维度。而对于工业过程的视频而言,只有充分考虑水流的流动信息才能知道该视频属于哪个工业过程,因此,对于该工业过程视频数据,考虑时间维度的特征是十分有必要的。实验7、8、9是3D卷积的相关模型对比,可以看到实验10到实验14的模型整体上性能要优于3D卷积相关模型,原因是虽然3D卷积学习了空间特征的同时也学习了时间特征,但它提取时间流动信息的能力有限,不如光流。另外,实验12、13采用特定的方法对视频的连续帧进行操作计算,提取时间特征的能力相较于3D卷积有所加强,但是比光流特征弱。这与以往的研究不同,原因可能是对于PRONTO水流视频数据集,模型的分类性能过于依赖水流的流动信息。而光流图像正是提取流动信息的最佳方式。VIT和Swin Transformer由于没有考虑时间维度,分类性能较低,在引入3D卷积和双流网络后,分类性能得到大幅提升,实验18比17提升明显,表明双流模块相比3D卷积可以获得更好的分类性能。

为了更直观的展示本文所提出的模型的优越性,图4所示为消融实验的损失值随epoch的增加的变化曲线,可以看到本文所提模型损失下降收敛的最快,而且震荡最小,Swin Transformer模型损失下降最慢。图5是基于双流Swinc Transformer的混淆矩阵,可以直观的看到我们所提模型对于不同故障的预测性能,其中,分流故障的预测性能最佳,预测虽然也存在误差,但是相比于其他类型,预测性能最佳。

Figure 4. Loss convergence curve of ablation experimental model

图4. 消融实验模型的损失收敛变化曲线

Figure 5. Confusion matrix based on two stream Swinc Transformer

图5. 基于双流Swinc Transformer的混淆矩阵

Table 2. Comparison results of fault diagnosis classification models

表2. 故障诊断分类模型对比结果

4. 结束语

传统工业过程的故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,因此视频数据的出现为工业过程的故障诊断提供了新的方向。本文提出了一种双流Swinc Transformer故障诊断方法。该方法将Swin Transformer扩充到了三维并引入了双流网络,实现了同时提取视频时间和空间特征的效果。在PRONTO基准数据集中,该方法具有较好的故障诊断性能。

为了获取更高的故障诊断精度,考虑到工业过程数据和视频数据在信息特征上具有互补的特点,未来可以考虑通过多模态融合的方式来提取更全面的信息特征,实现更高精度的故障诊断。

基金项目

国家自然科学基金(61903251)。

参考文献

[1] 罗浩, 霍明夷, 尹珅, Kaynak Okyay. 复杂工业系统故障诊断与安全控制方法[J]. 信息与控制, 2021, 50(1): 20-33.
https://doi.org/10.13976/j.cnki.xk.2021.0426
[2] Yin, S., Ding, S.X., Xie, X., et al. (2014) A Review on Basic Da-ta-Driven Approaches for Industrial Process Monitoring. IEEE Transactions on Industrial Electronics, 61, 6418-6428.
https://doi.org/10.1109/TIE.2014.2301773
[3] Karpathy, A., Toderici, G. and Shetty, S., et al. (2014) Large-Scale Video Classification with Convolutional Neural Networks. Computer Vision & Pattern Recognition, Columbus, 23-28 June 2014, 1725-1732.
https://doi.org/10.1109/CVPR.2014.223
[4] Davari, N., Akbarizadeh, G. and Mashhour, E. (2021) Intelligent Diagnosis of Incipient Fault in Power Distribution Lines Based on Corona Detection in UV-Visible Videos. IEEE Transactions on Power Delivery, 36, 3640-3648.
https://doi.org/10.1109/TPWRD.2020.3046161
[5] Lin, J., Gan, C. and Han, S. (2018) TSM: Temporal Shift Module for Efficient Video Understanding. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 7082-7092.
https://doi.org/10.1109/ICCV.2019.00718
[6] Karakose, M., Yaman, O., Baygin, M., et al. (2017) A New Computer Vision Based Method for Rail Track Detection and Fault Diagnosis in Railways. International Journal of Mechanical Engi-neering and Robotics Research, 6, 22-27.
https://doi.org/10.18178/ijmerr.6.1.22-27
[7] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017.
[8] Chowdhury, G.G. (2003) Natural Language Processing. Annual Review of Information Science and Technology (ARIST), 37, 51-89.
[9] Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020) An Image Is Worth 16x16 Words: Trans-formers for Image Recognition at Scale.
[10] 卞建鹏, 薛秀茹, 崔跃华, 徐皓, 鲁一铭. 基于EfficientDet与Vision Trans-former的接触网吊弦故障检测[J/OL]. 铁道科学与工程学报, 1-10.
https://doi.org/10.19713/j.cnki.43-1423/u.T20221010, 2022-12-29.
[11] Tan, M., Pang, R. and Le, Q.V. (2020) Effi-cientDet: Scalable and Efficient Object Detection. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 10778-10787.
https://doi.org/10.1109/CVPR42600.2020.01079
[12] Liu, Z., Lin, Y., Cao, Y., et al. (2021) Swin Transformer: Hierar-chical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 9992-10002.
https://doi.org/10.1109/ICCV48922.2021.00986
[13] Stief, A., Tan, R., Cao, Y., et al. (2019) PRONTO Heterogeneous Benchmark Dataset.
[14] Kingma, D. and Ba, J. (2014) Adam: A Method for Stochastic Optimization. 3rd International Con-ference for Learning Representations, San Diego, 7-9 May 2015.
[15] Miller, F.P., Vandome, A.F. and Mcbrewster, J. (2010) Cross-Entropy Method. Handbook of Monte Carlo Methods, 26, 20, 300.
[16] Le, L. and Li, L. (2014) The Values of Mac-ro-Precision, Macro-Recall, Macro-F1 and Micro-F1 under Different Topic Features from LDA Method.