1. 引言
随着工业发展的日益复杂和自动化程度的提高,由于各种原因导致机械设备故障的情况也越来越普遍。故障诊断作为解决上述问题的重要途径,已经成为了工业自动化领域中的一个核心问题 [1] 。
传统的故障检测技术主要依赖于从振动信号的时间和空间特性来探究问题的原因,这些技术涵盖了短期傅里叶变换 [2] 、小波变换 [3] 、变分模式分解 [4] 等常见的故障检测手段。尽管如此,这些手段依旧依赖于先抽取出问题的特性,然后根据自身的经验来对问题进行归类,因此总的来说,它们的效能并不够优秀。
伴随着计算能力的显著增强以及计算机视觉行业的飞速进步,诸如深度学习这样的人工智能科技已经实现了巨大的进步。在故障诊断领域,越来越多的方法实现了端到端的故障诊断,通过对振动信号的处理,将处理后的信号传入模型中进行诊断。谢星怡等 [5] 基于信号特征提取获取有效故障特征值,并使用卷积神经网络对提取特征值完成故障分类。程亮等 [6] 通过对一维卷积神经网络的改进,与注意力机制相结合提高了故障诊断的识别精度。陆浩博 [7] 使用二维卷积神经,通过图像识别技术应用于时间序列分类,完成逆变器故障诊断研究。李超 [8] 基于时频图的2DCNN模型并引入改进EMD算法,解决了传统模型精度较低、收敛过程波动较大等一系列问题,最终提高了故障诊断准确率。宋乾坤等 [9] 针对滚动轴承传统故障诊断方法训练收敛速度慢、识别准确率不高、抗噪性能差等问题,提出CWT-CNN的轴承故障诊断模型,解决了原始模型抗噪能力差的问题。陈向民等 [10] 为解决旋转机械设备在多工况、小样本状态下故障诊断精度不高的问题,将VMD信号分解方法与多尺度一维卷积神经网络相结合。所构造的网络模型能够更好的提取深层次的特征,从而提高模型在多工况及小样本状态下的诊断准确率。
以上研究方法虽然在一定场景下诊断效果比较好,但仍存在以下不足:1) 编码图像技术不能充分表示隐藏特征信息;2) 网络模型训练样本需求量大且鲁棒性差;3) 针对与不同工况条件下的故障诊断泛化能力和鲁棒性差,训练准确率不高。
ConvNeXt模型 [11] 是一种基于ResNet模型,仿照Swin Transformer [12] 的结构进行改进而得到的纯卷积模型,并结合基础模型的优势 [13] ,大大提高了模型在故障特征提取方面的能力。杨文哲等 [14] 使用一维ConvNeXt网络对齿轮箱进行了故障诊断,网络模型参数量得到了降低且拥有了较高的识别精度。查世康等 [15] 基于ConvNeXt模型和注意力机制,使用跨阶段局部连接结构以及卷积注意力机制,对架空线路绝缘子的自爆故障进行了有效识别与检测。但该模型存在以下缺点:1) 为了模型训练速度的提高,使用大卷积核进行特征提取 [16] ,但在滚动轴承故障诊断的小样本分类任务中,大卷积核的特征提取性能不佳;2) 在实际工况的轴承故障诊断的任务中,模型中的数据增强模块会影响该网络的鲁棒性和泛化性能。
针对滚动轴承实际故障诊断任务中,现有ConvNeXt网络模型存在的一些缺点,本文提出一种改进型ConvNeXt网络模型。通过融入注意力机制、编码技术、改进深度卷积层结构以及数据增强模块,提高模型在轴承故障诊断任务中特征提取能力。最后,利用CWRU滚动轴承数据集进行试验,在不同故障直径条件下,所改进模型在特征提取能力上有所提高,并且模型的鲁棒性和泛化能力得到改善。
2. 基本原理
2.1. 格拉姆角差场
格拉姆角差场(Gramian Angular Difference Field, GADF)编码图像(如图1(b)所示)是一种用于时间序列数据分析的方法,它可以在故障诊断方向上发挥重要作用,通常应用于机械故障诊断、信号处理和模式识别等领域。格拉姆角差场的核心思想是通过将时间序列数据转换为格拉姆矩阵,然后计算其角差场,可以获得一种图像表示 [17] 。GADF提取的图像特征可以捕捉到时间序列数据中的频谱信息和模式(如图1(a)所示),有助于揭示潜在的故障特征。
(a) 时域信号波形图 (b) GADF编码图像
Figure 1. Time domain signal waveform and GADF encoded image
图1. 时域信号波形图及GADF编码图像
2.2. ConvNeXt模型
ConvNeXt是一种基于ResNet模型,仿照Swin Transformer的结构进行改进而得到的纯卷积模型,基本结构采用了多分支结构,其中每个分支是由一组卷积层组成。这些分支具有相同的结构,但其卷积核的大小在水平和垂直方向上是不同的,这种非对称卷积核的设计允许模型捕捉不同方向上的特征 [18] 。此外,ConvNeXt模型还采用了并行卷积操作,通过特征融合的方式,将各个分支的特征进行融合,以得到最终的输出特征图。所以ConvNeXt模型不仅减少了参数数量,还提高了分类性能。因此,其在机械故障状态的分类应用中,发挥着重要的作用。
3. 改进型ConvNeXt模型
3.1. 改进数据增强模块
为了解决ConvNeXt网络模型在训练过程中存在的一些问题,例如模型鲁棒性能差、泛化能力不足。对原始模型中的数据增强模块进行改进。通过对滚动轴承GADF编码图像采用随机裁剪、随机水平翻转、旋转及高斯模糊等方式,从而生成多样化的数据样本并提高模型在小样本训练下的鲁棒性和泛化能力,如图2所示。

Figure 2. Improvement of data augmentation module
图2. 数据增强模块改进
3.2. 非对称卷积网络模块
3.2.1. 非对称卷积神经网络模型(ACNet)
目前现有网络模型的计算量较多以及特征提取能力不强,针对这些原因,Ding等 [19] 在其论文中提出了一种名为ACNet的非对称卷积神经网络模型。该网络模型对传统卷积神经网络的卷积核进行重构分解,得到三个不同形状的卷积核叠加,具体为1 × 3卷积核、3 × 1卷积核和3 × 3卷积核。
较小的卷积核能够更好地捕捉局部特征,而较大的卷积核则有助于提取更全局的特征。这种组合可以增强网络对样本中的细节和整体信息的感知能力,从而提高分类准确性。大量实验证实了ACNet网络模型中非对称卷积结构的有效性,证明其在特征提取方面具有显著的优势 [19] 。
3.2.2. ConvNeXt深度卷积层结构改进
ConvNeXt网络基础模型在进行特征提取时采用大卷积核,以此来提高模型训练速度,减少数据的计算量 [20] 。在实际滚动轴承故障诊断中却面临的是小样本图像数据任务,会导致模型的深度卷积层(Depthwise Conv2D)的特征提取性能不佳。为了解决这一问题,本文结合ACNet网络模型的思想,对ConvNeXt网络模型深度卷积层进行了以下改进:
首先,基于卷积可加性原理,将原ConvNeXt模型深度卷积层里的7 × 7大卷积核进行分解重构,得到如图3所示的非对称卷积结构,这种非对称卷积结构保留了原本模型的优势,但在计算量和参数量上得到了优化。

Figure 3. Asymmetric convolutional structure
图3. 非对称卷积结构
原ConvNeXt网络模型里的ConvNeXt Block如图4所示,由于采用非对称卷积结构,虽然可以增加深度卷积层的深度,但同时也会引发梯度弥散问题,从而导致模型的特征提取性能下降 [21] 。为了解决这个问题,本文采用了以下方法。

Figure 4. ConvNeXt Block structure diagram
图4. ConvNeXt Block结构图
首先,对于归一化层(Layer Normalization, LN)和激活函数GELU的替换,可以选择使用批量标准化层(Batch Normalization, BN)和ReLU函数;其次,可以在每个3 × 3、1 × 3、3 × 1和1 × 1的小卷积核之后添加BN层和ReLU激活函数。通过引入BN层,可以加快神经网络的训练和收敛速度,提升网络的特征提取效率。同时,激活函数ReLU的应用有助于增强网络的非线性表示能力,有效防止模型出现梯度弥散问题 [22] 。通过以上方法的改进,得到如图5所示的ACNext Block。

Figure 5. ACNext Block structure diagram
图5. ACNext Block结构图
3.3. CBAM注意力机制
注意力机制(attention mechanism)是一种通过参数更新来确定重要特征的方法,以高效准确地完成任务 [23] 。在各个领域中,注意力机制被广泛应用,其中常见的注意力机制包括SK-Net [24] (Selective Kernel Networks)、ECA-Net [25] (Efficient Channel Attention)、SE-Net [26] (Squeeze and Excitation)和CBAM [27] (Convolutional Block Attention Module)等。
在故障诊断任务中,注意力机制可以应用于神经网络的不同层级,提高网络模型对故障特征提取的能力。通过对常见的注意力机制进行实验对比,实验结果表明CBAM注意力机制能更好地与ConvNeXt网络相融合,提升网络模型的准确率,故最终选用CBAM注意力机制作为本模型的注意力模块(Attention Block) [28] ,CBAM的核心目标是利用通道注意力模块(CAM, Channel Attention Module)和空间注意力模块(SAM, Spatial Attention Module)来提升模型的感知能力,同时不增加网络的复杂性,从而提高性能。CBAM整体结构如图6所示。
3.4. 改进型ConvNeXt网络模型设计
3.4.1. 改进型ConvNeXt模型整体结构
所改进型ConvNeXt模型结构如图7所示,整体结构主要由改进数据增强模块(Data augmentation module)、非对称卷积网络模块(ACNext Block)、CBAM注意力模块(Attention Block)以及下采样模块(Downsample)4部分构成。

Figure 7. The overall structure of the improved ConvNeXt model
图7. 改进型ConvNeXt模型整体结构
3.4.2. 改进型ConvNeXt模型故障诊断流程
本文所提方法结合GADF图像编码技术和改进型ConvNeXt模型的强大特征提取优势,从而高效地完成故障诊断任务。改进型ConvNeXt模型故障诊断方法流程如图8所示。
首先,根据故障模拟实验台的电机转速和采样频率,将采集到的时域信号截取构造样本。然后,通过GADF编码技术将构造的样本转换为二维特征图像,并按照6:2:2的比例划分训练集、验证集和测试集;为了验证改进型ConvNeXt模型的分类性能,将训练集输入到模型中进行训练,通过验证集对模型进行调整,最后将测试集输入训练好的模型中输出最终的分类结果。

Figure 8. Improved ConvNeXt model fault diagnosis flowchart
图8. 改进型ConvNeXt模型故障诊断流程图
4. 实验设置与结果分析
4.1. 实验运行硬件环境
操作系统为Windows10 64位,CPU为13th Gen Intel(R) Core(TM) i5-13600K,NVIDIA GeForce RTX 3060 Ti,显存8G,内存32G,python版本为3.8.16,深度学习框架为PyTorch。
4.2. 实验数据集
本实验采用网上公开的凯斯西储大学(CWRU)滚动轴承数据 [29] 进行实验验证。使用采样仪器采集滚动轴承的振动信号,本文采用轴承驱动端的数据进行实验,其中电机载荷为3马力,故障直径分别为0.1778 mm,0.3556 mm,0.5334 mm,总共包含9种故障类型以及1种健康状态。
根据获取的CWRU数据集的采样频率和电机转速,我们可以截取构造出长度为416的样本。通过GADF图像编码技术将截取到的每个样本进行二维图像转换。按照6:2:2的比例,将每种类型的230张二维图像样本划分为训练集、验证集和测试集。表1展示了10种不同状态样本的构成情况。

Table 1. Construction of 2D image samples
表1. 二维图像样本构造

(a) 正常轴承(b) 内圈故障0.1778 mm (c) 内圈故障0.3556 mm (d) 内圈故障0.5334 mm
图9展示的是使用GADF编码技术将10种不同故障状态样本生成对应的轴承故障特征图。通过故障特征图的对比,我们可以发现滚动轴承振动信号中的故障信息,基本能通过不同颜色的像素点进行表示。相较于传统的故障诊断方法,这种编码方式减少了轴承振动信号去噪预处理的需求 [30] 。
4.3. 数据增强处理
为增加数据的多样性和泛化能力,我们采用了一种改进的数据增强模块,通过上述方法将滚动轴承的时域信号转换为二维特征图像并进行相应的数据增强。在具体实验中,我们以轴承外圈故障二维特征图像为例,如图10所示。

(a) 右下角平移 (b) 随机裁剪 (c) 随机旋转 (d) 随机水平翻转
Figure 10. 2D image data augmentation of outer circle faults
图10. 外圈故障二维图像数据增强
4.4. 模型训练
将表1中构造的二维图像样本,输入进改进型ConvNeXt网络模型中,经过100次的迭代训练,得到如图11所示的故障识别准确率和损失函数(Loss)变化曲线图,从图中可以观察出,模型的训练集识别准确率基本已经达到了100%,最终在测试集上进行测试,最终的平均准确率在98.3%。由Loss函数图可知Loss函数值也降低到了0.001以下,最终改进模型处于稳定的收敛状态。说明本文提出的改进型ConvNeXt网络模型对不同直径的滚动轴承故障状态具有良好的识别能力。
(a) 训练准确率曲线 (b) Loss函数变化曲线
Figure 11. Curve chart of model classification recognition effect
图11. 模型分类识别效果曲线图
图12展示了使用分类混淆矩阵和T‑SNE可视化来表示改进型模型对滚动轴承故障状态的具体分类情况。
(a) 分类混淆矩阵 (b) T-SNE可视化
(c) 其他文献可视化
Figure 12. Model classification rendering
图12. 模型分类效果图
综合图11和图12可以看出,本研究提出的改进型ConvNeXt网络模型,能够在短时间下高效收敛,并具备优秀的识别准确率。它能够正确地识别和分类不同故障直径的滚动轴承状态特征。与之前使用相同的CWRU数据集的研究 [9] (使用了RP + ResNet模型)相比,我们提出的改进型模型在不同故障直径的滚动轴承状态分类上表现更为优异。
4.5. 不同图像编码技术对诊断结果的影响
为了展示本文所采用的GADF编码技术结合改进的网络模型的优越性,我们将同样实验数据分别使用MTF和RP编码技术编码,生成相应的故障特征图输入至改进型ConvNeXt网络模型中进行实验。我们取10次测试集分类准确率的平均值作为最终结果 [9] 。如图13所示,可以观察到使用GADF编码技术在故障识别上取得了最好的效果,得到了最高的识别准确率。
4.6. 不同网络模型对诊断结果的影响
为了验证本文所改进网络模型的优越性,我们将表1中的滚动轴承图像数据输入至6个具有代表性的网络模型及原始ConvNeXt模型中,并取诊断10次的平均值作为对滚动轴承故障识别的最终准确率 [9] ,最终结果如表2所示。通过不同网络模型对比实验,我们可以看到改进型ConvNeXt网络模型在不同故障直径的滚动轴承故障分类任务中效果更佳。

Figure 13. The impact of different image encoding techniques on model accuracy
图13. 不同图像编码技术对模型准确率的影响

Table 2. Recognition accuracy of different network models
表2. 不同网络模型的识别准确率
5. 结论
本文为解决现有神经网络无法将滚动轴承深层次故障特征充分表示,训练数据样本需求大,模型整体鲁棒性和泛化能力不够,基于ConvNeXt网络基础模型,提出改进型模型。
首先使用格拉姆角差场图像编码技术将故障深层次特征充分表示,生成相应的故障特征图,相比较其他图像编码技术对于故障诊断准确率的提高有一定的优势。其次在原有ConvNeXt上改进数据增强模块,从而提高数据的多样性和模型的鲁棒性。同时引入非对称卷积块来改进原有的ConvNeXt Block结构,加入CBAM注意力机制,更好地与ConvNeXt网络相融合,提高了模型在处理故障诊断方面的特征提取能力。最后通过在CWRU滚动轴承数据上的实验验证,改进型ConvNeXt网络模型对滚动轴承不同故障直径的识别准确率达到了98.3%,相比较GADF + VggNet,GADF + ResNet,GADF + ConvNeXt等网络模型,分别提高了16.7%,1.4%和4.05%。结果表明,改进型ConvNeXt网络模型在故障诊断的准确率以及鲁棒性上的表现都优于其他相同实验背景的模型,从而说明,本文提出的改进型网络模型对故障诊断分类具有较好的效果。
基金项目
国家自然科学基金资助项目(72174121)。