1. 引言
随着工业生产的不断发展,工业过程的稳定性和效率成为确保生产高产量和高质量的关键因素。在这一背景下,故障诊断的准确性和及时性对于保障工业过程的持续运行至关重要。
传统故障诊断方法都是基于数据模型,现代工业生产过程的集成度和复杂度的不断提升,生产过程通常表现出规模庞大、包含多个单元并且流程复杂的特点使得精确地建立数学模型变得极具挑战性。然而,随着传感器技术的发展,更多的过程变量数据可以被收集到。因此,基于过程数据(传感器数据)的机器学习算法用于工业过程故障诊断,例如:Principle Component Analysis (PCA) [1]、Support Vector Machine (SVM) [2]和Random Forest (RF) [3]。
更进一步地,随着大数据技术的发展,工业过程视频数据被拍摄收集。因此,基于视频数据的故障诊断成为研究的热点。N Davari [4]线路的视频中提取帧,使用Faster R-CNN在每一帧中检测电源设备,然后在整个视频每一帧中对其进行跟踪,然后,使用双流充气3D卷积(Inflated 3D ConvNet, I3D)来分别识别每个设备的图像中的电晕放电,确定初始故障严重程度。徐磊[5]等人在Swin Transformer Block中加入3D卷积形成Swinc Transformer,并以Swinc Transformer为主干网络构建双流模型对化工过程视频进行故障分类,相比较于其他基于视频数据的故障诊断模型取得更高的准确率。
尽管深度学习模型在故障诊断任务表现很好,但其参数量过于庞大难以被应用到实际生产过程中。为了进一步解决上述问题,本文结合工业过程实际特点提出了双流Mobile Vit视频分类模型用于故障诊断。首先,视频数据被预处理成RGB帧和光流的形式。随后,两条主干网络Mobile Vit分别提取RGB帧和光流中所包含的空间特征和时序特征。在两条主干网络的末端Convolution Attention Fusion Mechanism将被提取出来的空间特征和时序特征充分融合。最终融合后的特征被输入到分类器中实现系统状态诊断。尽管双流Mobile Vit中主干网络采用的是Mobile Vit,其重要组成中有参数量过大卷积层和全连接层。因此,模型需要进一步被剪枝和实现轻量化。该模型主要优势如下:
(1) Mobile Vit核心模块Mobile Vit Block中采用相比于传统卷积更加轻量化的Transformer进行全局建模;
(2) 采用Mobile Vit作为主干网络,构建双流模型将Mobile Vit中的轻量化方法从图像数据迁移到视频数据;
(3) 剪枝和作为先进的轻量化方法在确保模型的故障诊断进度的前提下可以有效的降低模型的大小。
下文可以被总结为如下几个部分:第二部分介绍了相关工作;第三部分详细介绍双流Mobile Vit模型的结构、组成和所用到的轻量化方法;第四部分介绍和分析所用的数据集以及实验结果;第五部分给出本研究的总结和展望。
2. 相关工作
在过去十年,深度学习不仅在图像任务上取得了长足的发展,在视频任务上也在不断突破。在视频任务中,研究人员起初将图像中的方法用到视频上,Karpathy [6]将视频中的每一帧提取出来,再用2DCNN方法对视频分类。为了得到视频的动态特征,Simonyan [7]等人提出了Two-Stream Convolutional Networks,利用CNNS同时对视频的对视频每一帧RGB图像和光流图进行特征提取用于视频分类。Wang L [8]在发现了从视频中间隔式提取视频帧的数据处理模式对时间维度建模和对分类结果有着很大影响的基础上提出TSN。为了简化模型和训练效率,Du Tran [9]在2D卷积核的基础上增加了时间维度构建3D卷积提取时空特征。
由于现有移动诊断设备无法支撑模型的落地使用,因此对基于深度学习的故障诊断模型轻量化操作始终是研究热点。深度学习模型轻量化主要有模型设计和模型压缩两个方面构成。在模型设计方面:Andrew [10]等人利用深度可分离卷积来构建量级卷积神经网络;Zhang [11]等人为提高计算效率,引入通道混洗和逐点分组卷积;Forrest N. Iandola [12]等人在Squeeze Net中提出Fire Module以压缩模型体量;Alexey DosoVitskiy [13]等人将NLP中的Transformer思想迁移到图像数据上构建全局学习模型Vit替代CNN; Sachin Mehta [14]等人在Vit的基础上引入unfolding operation并依赖CNNs形成超量化模型Mobile Vit。在模型压缩方面:Hinton [14]等人将一个复杂的、训练良好的复杂神经网络(教师网络)的知识蒸馏提取出来,然后用一个简单的神经网络(学生网络)来学习这个知识,以达到和复杂网络相似的性能。随后, Zagoruyko [15]等人通过正确定义卷积神经网络的注意力,迫使学生CNN网络模仿强大的教师网络的注意力图,从而显著提高学生CNN网络的性能。Liu [16]等人提出了通道剪枝策略以降低模型复杂度,通道重要性的评价标准使用的是Batch Normalization层中的缩放因子。这两种轻量化方法各有优缺点,设计较少可训练参数的模型可以更深度学习数据特征,但在降低模型体量上不具备优势。模型压缩可以大幅度地降低模型体量,但不能学习更深层数据特征。
在本研究中,我们主要设计了适用于工业视频数据分类模型达到对工业过程实施故障诊断的目的。如图1所示,本文提出了基于工业过程视频双流模型用于故障诊断的双流Mobile Vit,该模型由两条完全相同的主干网络Mobile Vit和Convolution Attention Fusion Mechanism (CAFM) [17]构成。为使模型更加轻量化,权重剪枝技术被用来剪去双流Mobile Vit中卷积层和全连接层中根据剪枝标准不重要的权重,以达到进一步降低模型大小的目的。
3. 基本原理
3.1. 双流Mobile Vit网络结构
本研究的主要目的在于解决基于过程数据和图像数据的工业过程故障诊断模型诊断精度较低以及模型体量过大无法被部署到实际工业生产过程中。我们设计了轻量化双流并行网络双流Mobile Vit提取视频的时序特征和空间特征,如图1所示,我们的双流Mobile Vit 除了视频预处理模块由两条不仅在结构上且在参数上完全相同的主干2D轻量化网络Mobile Vit构成。一条主干用于提取视频的空间特征,另一条用于提取视频的时间特征,并且在两条主干网络的末端使用轻量化卷积注意力机制CAFM按照重要程度进行充分融合。在整个网络模型,由Mobile Vit block、MV2 [18]组成的Mobile Vit作为模型的主干网络;在融合层中,主要用了分组卷积和激活函数。除以上介绍的模块,如图7所示的结构化通道剪枝将用来剪去双流Mobile Vit中卷积层和全连接层中相对不重要的权重。
为了让输入符合模型结构,首先提取视频帧并形成光流图。对于一个视频数据
,其中
代表一个视频中的帧数,C,H,W分别代表一帧RGB图像的通道数,高度和宽度。经过预处理,一个视频转变成
张形状为
的RGB图像和
张形状相同的光流图。
视频特征主要体现在时序特征和空间特征两个维度上,时间特征通过视频中相邻的两帧随着时间变化生成的光流图来表征,空间特征即为视频中每一帧的RGB特征。为了确保两个维度上特征的提取同步性,双流并行网络可以提取完整的时空特征。
Figure 1. Entire diagram of two-stream Mobile Vit
图1. 双流Mobile Vit的完整结构图
3.1.1. Mobile Vit Block
Figure 2. Diagram of Mobile Vit block
图2. Mobile Vit块结构图
如图2所示,Mobile Vit Block由Local Feature Extraction模块、Universal Features模块构成和Fusion构成,分别用于提取输入X的局部特征和全局特征以及保证工业过程视频上数据的完整性。下面分别对以上每个模块详细介绍。
(1) 在Local Feature Extraction中,先用
的标准卷积提取输入
的局部特征,一个逐点卷积随后将局部特征映射到更高维的d维空间。
(2) 在Universal Feature Extraction中,拥有更广阔视野域的Vision Transformer被用来进行全局特征建模。为降低Transformer中自注意力的运算成本和利用空间归纳偏差学习图像的全局特征,在全局特征建模之前,首先将局部特征
经过Unfolding operation得到
。Unfolding operation (如图3所示)可以被分为两步:第一步将输入图像打成N块大小为
的patch;第二步将每个patch中像素展平并在通道维度上拼接。如图4所示,Vision Transformer作为特征提取的核心。整个学习过程如下:为降低模型发生过拟合的可能性和提升收敛速度,采用layer norm机制对输入unfolded patches归一化。随后,如图4所示的Multiple Head Attention对归一化数据进行多头注意力计算,具体计算过程如式(1)所示,其中
为注意力机制的头数。
Figure 3. Flowchart of Unfold operation
图3. Unfold操作流程图
Figure 4. Structure diagram of MHA
图4. MHA结构图
(1)
经过两次投影后,scaled Dot-Product Attention利用每个头的
,
,
经行注意力计算,计算式如下:
(2)
为了确保模型在不同位置共同关注来自不同表征子空间特征,MHA可以将多个头拼接。Multi-Head Attention利用参数矩阵
降低每个头数维度以确保总的运算复杂度与单头注意力保持相同[13],完整计算过程如下式所示:
(3)
3.1.2. MV2与MV2
Figure 5. Structure diagram of MV2 and MV2↓
图5. MV2和MV2↓结构图
MV2指MobileNetV2,是一种轻量化卷积神的经网络,重要作用是辅助Mobile Vit Block特征学习。本网络使用了图5所示两种结构,一种是MV2↓倒残差结构,一种是直流结构MV2。MV2↓中“↓”表明MV2↓中使用步长为1逐点卷积Conv 1 × 1对特征图进行下采样。MV2↓中的倒残差结构不仅可以缓解模型中CNN部分梯度消失问题,还可以通过直接将输入X直接传输到输出来保护工业过程特征的完整性。
3.1.3. Convolution Attention Fusion Mechanism
Figure 6. Structure diagram of CAFM
图6. CAFM结构图
本研究中提出的模型由两条主干网络构成的工业视频分类网络,分别用于提取视频的空间(RGB特征)特征和时间特征(Optical特征)。有效的融合两种不同维度的特征对模型的鲁棒性和提升分类准确率有着重要意义,我们提出如图6所示的由卷积和激活函σ构成Convolution Attention Fusion Mechanism。卷积通过自身局部监督和激活函数的归一化功能生成注意力图,使有效特征能充分流入到下一阶段。注意力的引导特性在特征传播过程中具有降低数据冗余的作用。
3.2. 结构化剪枝
结构化剪枝是一种模型压缩技术,目的是在减少模型计算量和存储需求的同时,尽可能保持模型的性能。它通过剪除网络中的整个结构单元,使剪枝后的网络仍具有规则的结构,从而便于高效推理和硬件加速[19]。其中,通道剪枝是结构化剪枝的一种常用方法,专注于剪掉冗余的通道以减少模型参数量和计算复杂度。通道剪枝的主要步骤为依次进行通道重要性评估、剪枝决策、通道裁剪,模型微调。通道重要性评估一般是通过计算每个通道的重要性得分。剪枝决策是通过设定阈值或剪枝率裁决定重要性较低的通道。通道裁剪是剪去重要性较低的通道。微调是将被剪枝后的模型再次训练实现更好的性能。本文中采用的通道剪枝方法是通过L1范数判定整个模型中卷积层和全连接层中每个通道权重的重要性得分,再对重要性得分排序并设定剪枝率决定被保留的通道权重。剪枝具体方法如图7所示,其中
、
分别代表原有的权重通道数和剪枝率,
代表取整函数。
Figure 7. Structural channel pruning
图7. 结构化通道剪枝
4. 数据集与实验
4.1. PRONTO视频数据集与数据增强
本研究采用的是PRONTO [20]基准视频数据集,该视频数据集收集自克兰菲尔德大学过程系统工程实验室的全自动、高压、多相流设备。该设施为研究多相流的输送、测量和控制而设计的,允许对包括水、空气和油在内的多相流进行研究。该设施,描述了不同操作条件下的测试和诱发的故障。
本研究使用的视频数据集是根据PRONTO基准数据通过人为仿真三种系统状态并记录得到的,该数据集中包含3种系统状态,分别是:正常、空气泄露以及分流,其中空气泄露和分流是通过人为操作引发的故障。本实验将视频按照7:3的比例划分训练集和验证集。
考虑到数据来源的单一性,对数据进行增强及其重要。数据增强部分由图像随机裁剪,图像大小随机调整,图像随机垂直翻转和归一化三大部分组成。图像随机裁剪,图像大小随机调整,图像随机垂直翻转能提高数据的多样性以改善模型的泛化能力。对图像数据的归一化不仅可以降低模型过拟合的可能性,还可以降低数据分布范围广而导致溢出问题的可能性。
4.2. 实验
本实验是建立在Python 3.7 and PyTorch 1.7环境之上,cuda版本为11.1,操作系统为Ubuntu 22。由两张NVIDIA GeForce RTX 3090 GPU驱动代码执行,超参数配置如表1所示。
Table 1. Configuration of hyper parameter
表1. 超参数配置
参数 |
参数值 |
批量大小 |
8 |
训练轮数 |
150 |
学习率 |
0.0001 |
损失函数 |
交叉熵损失函数 |
优化器 |
Adam [21] |
权重衰减率 |
0.001 |
剪枝率 |
0.5 |
我们采取准确率,精度,召回率和F1Score四种性能指标来全面分析并评估提出的模型的故障诊断能力,采用准确率表示模型正确分类的样本占总样本数的比例;精确率是在预测为正例的样本中,真正是正例的比例;召回率是在真实正例样本中,被正确预测为正例的比例;精确率和召回率的调和平均值,用于综合衡量分类模型的性能。四种指标的计算公式如式(4)所示。
(4)
TP代表模型正确地将属于某个类别的样本分类为该类别的样本数。TN表示模型正确地将不属于某个类别的样本分类为其他类别的样本数。FP代表模型错误地将不属于某个类别的样本分类为该类别的样本数;FN表示模型错误地将属于某个类别的样本分类为其他类别的样本数。
除上述四种性能指标以外,Paras将被采用衡量模型的大小。Paras这一指标表明整个模型中所包含的参数的数量。
4.2.1. 不同故障诊断模型之间的比较
由表2可得,双流Mobile Vit取得了最好的故障诊断性能。由于双流Mobile Vit中使用的是双流并行架构以及Mobile Vit Block中采用先局部特征提取后全局特征提取的顺序,为此取得了最高的故障诊断精度。在模型大小上,双流Mobile Vit中Mobile Vit Block中在对全局特征学习前,首先对特征进行unfold操作,用过降低了运算复杂度来减小参数量。为进一步降低所提出来的模型对的大小,结构化通道剪枝这一模型轻量化方法被用来降低模型的参数量。从实验结果来看,虽然被剪枝后的模型的故障诊断准确率比原来模型的准确率低了两个百分点左右,但是依然优于其他三个模型效果。在模型大小上,结构化剪枝方法使模型的参数量大约降低了百分之三十。
Table 2. Diagnosis results of the different model based video data
表2. 不同基于视频数据的故障诊断模型的诊断结果
模型 |
Accuracy |
Precision |
Recall |
F1score |
Paras |
C3D |
73.26 |
73.15 |
75.33 |
74.32 |
79.92M |
Two Stream Swinc Transformer |
95.26 |
95.68 |
95.06 |
95.73 |
32.58M |
双流Mobile Vit |
99.02 |
99.63 |
99.72 |
99.82 |
3.25M |
剪枝后的双流 Mobile Vit |
97.36 |
99.56 |
98.32 |
99.23 |
2.13M |
Figure 8. Comparison between confusion matrixes of the original proposed model and the pruned proposed model
图8. 原始模型混淆矩阵与剪枝后模型混淆矩阵对比
4.2.2. 消融实验
本实验是为了探究Mobile Vit Block中shortcut连接对工业过程特征的完整性是否有保护作用。为验证其作用,本实验采取对比验证方式,一个实验结果是整个被提出来模型的Mobile Vit block带有中shortcut连接,另一个实验模型中不带有shortcut连接。实验结果如表3所示,模型在使用带有shortcut连接的情况下,故障诊断准确率要比不使用shortcut连接的准确率高出5个百分点。以上结果表明在提取工业过程视频特征的过程中,shortcut连接对工业过程特征的完整性有着显著的保护性。
Table 3. The impact of Shortcuts on the integrity of industrial process video data
表3. Shortcut对工业过程视频数据完整性的影响
模型中Mobile Vit block是否带有Shortcut链接 |
Accuracy |
Yes |
99.02 |
No |
94.44 |
5. 结论与总结
本文提出了一种基于轻量化Vision Transformer模型Mobile Vit的双流工业过程视频故障诊断模型Two Stream Mobile Vit来解决基于过程数据和图像数据的故障诊断精度较低和模型无法被应用到实际工业生产中的双重问题。首先,利用对视频数据进行预处理,预处理的过程包括提取视频帧和计算稠密光流形成光流图,视频帧和稠密光流分别作为工业过程的时序特征和空间特征。第二步,利用Mobile Vit提取时空特征。第三步利用CAFM融合时空特征,最终分类器利用融合后的特征对工业过程视频数据分类实现状态诊断。从实验结果来看,本文中所提出的模型在视频数据上取得的准确率比其他模型都高。另一方面在取得较高准确率的同时,参数极大地降低。为了更大幅度地降低模型大小,结构化剪枝技术降低了原模型百分之三十的参数量,并且剪枝后的模型各项指标也高于其他模型。除此之外,Mobile Vit block中Shortcut连接可以有效保护工业过程的完整性。未来的工作可以将Mobile Vit的思想直接从二维数据迁移到三维数据上,这样模型结构会更加简单。
基金项目
本工作受国家自然科学基金(61903251)资助。