1. 引言
滚动轴承是旋转机械的关键基础部件,其运行状态直接影响整机的稳定性与安全性[1]。然而,长期在复杂载荷、高速运转等恶劣环境下工作,滚动轴承易受到摩擦、冲击和疲劳等多重因素作用而产生故障,严重时甚至可能导致设备损毁乃至人员伤亡[2]。因此,对其进行及时、可靠的状态监测与故障诊断具有重要的工程意义。
近年来,基于深度学习的智能故障诊断方法凭借其强大的自动特征提取能力和端到端学习模式而得到广泛应用[3]。Xu等[4]提出改进的多尺度卷积神经网络,有效诊断了复杂和非稳态环境下的轴承故障;耿志强等[5]提出连续小波卷积神经网络,用小波卷积层替代常规卷积以提升对关键信号的敏感性和诊断精度;Wang等[6]提出轻量级C-ECAFormer显著提升了小样本与强噪声下的故障诊断性能。然而,上述研究大多聚焦于单一故障模式的识别,实际工业场景中,轴承故障往往以多种损伤并存的复合形式存在,形成复合故障。在复合故障中,不同类型的故障特征相互耦合、相互影响,机理复杂且难以解析,导致诊断难度更大,危害性也更高[7]。
针对这一问题,研究者们开始探索基于深度学习的复合故障诊断方法,旨在将复合故障智能解耦为其组成的单一故障单元。Huang等人[8]提出了基于多标签学习的一维深度卷积神经网络,该方法可以输出单个或多个标签用于识别和解耦复合故障;Cui等[9]结合生成对抗网络和迁移学习,有效解决了少样本条件下复合故障诊断难题;Liang等[10]利用小波变换获取二维时频特征,并将其输入卷积神经网络,实现齿轮箱复合故障诊断。值得注意的是,以上方法基于卷积神经网络,其在池化操作逐层抽象特征时,易丢失特征间的空间层次关系,并且在变工况等复杂场景下的适应性与鲁棒性仍有待提升[11]。
在上述背景下,胶囊网络被引入故障诊断领域。该网络采用向量神经元(胶囊)和动态路由算法,能有效保留特征的位置、姿态等空间信息,更适用于处理复杂的特征关系。Huang等[12]提出了深度解耦卷积神经网络,该方法使用多个胶囊层来构建解耦分类器,首次成功地将复合故障与单故障数据解耦;Li等人[13]提出一种WavCapsNet的复合故障诊断方法,提高了故障诊断模型在决策过程中的透明度和可解释性。尽管如此,现有研究仍存在一定的局限:其一,此类研究多停留于单一时域分析,难以保留完整的时频信息,进而制约模型的识别能力与鲁棒性;其二,前端常规卷积计算开销较高、特征聚焦有限,限制计算与推理效率;其三,后端经典胶囊网络侧重局部“部分–整体”关系,对同层胶囊的横向依赖建模不足。
为解决上述问题,本文提出了一种高效的基于连续小波变换和改进卷积胶囊网络的复合故障诊断框架(CWT-ECCN),保留了完整时频信息,提高了胶囊网络对复合故障的精准识别能力。
2. 基本原理
2.1. 连续小波变换
连续小波变换(Continuous Wavelet Transform, CWT)以一个可平移、可伸缩的母小波为核,对一维振动信号进行无下采样的连续卷积,得到二维彩色时频图[14],既可全面反映信号的时间–频率联合分布,又能够高精度定位局部瞬态冲击等微弱故障特征。由于不丢失任何采样信息,它在强噪声和复杂谐波背景下依然能有效检测轴承早期微小损伤,具备极高的诊断灵敏度与分辨率。公式如下:
(1)
其中,
分别为尺度参数与平移参数;
表示原始时域信号;
为母小波函数;
是其共轭复数;
则为信号在特定尺度与平移下的变换系数。
2.2. 卷积注意力层
本文提出了一种轻量化的卷积注意力层用于关键特征提取,其结构如图1所示。首层通过标准卷积提取初始特征。接着,采用深度可分离卷积[15]与深度卷积交替使用构建轻量化主干,大幅减少参数量的同时兼顾通道间信息融合与通道内细粒度特征提取,在保证精度的前提下压缩了模型规模和推理成本。其次,在关键层使用不同扩张率的膨胀卷积[16],以零参数开销扩大感受野,捕获复合故障的多尺度信息,并增强对跨区域耦合特征的感知能力。此外,在不同深度策略性地嵌入了双重注意力机制:在浅层刚从时频域映射学习到基本模式时引入时频注意力[17],可迅速识别并强化关键时段与频段,抑制初始噪声;在深层则利用归一化通道注意力[18]重标定特征通道,凸显最具判别力的高阶信息。并且结构通道数从32到256按倍数依次增长,确保模型容量随着网络深度稳步提升。
Figure 1. Structure of the convolutional attention layer
图1. 卷积注意力层结构图
卷积注意力层将多种卷积与注意力机制协同优化,最终形成一个计算高效、感知全面的特征提取体系,能够精准解码隐藏于时频图中的多层次、多尺度故障信息。
2.3. 胶囊网络
2.3.1. 基于注意力路由的胶囊网络
在完成前端特征提取后,进一步设计胶囊网络结构以实现特征关系建模与分类。
胶囊网络以向量形式的“胶囊”单元替代传统神经网络中的标量神经元,这种设计能够同时编码特征的存在概率和实例化参数(如位置、方向、尺度等),保存了更丰富的信息。胶囊向量的模长表示实体存在的概率,方向则编码实例化参数。网络结构包含卷积层、初级胶囊层和高级胶囊层。
在初级胶囊层中,先执行卷积操作,再将得到的神经元聚合成向量,并通过squash函数对向量进行激活。设
为第
层的第
个胶囊向量,公式为:
(2)
路由算法利用胶囊之间的相似性来计算耦合系数,本文采用相比传统动态路由算法更高效的自注意力路由算法[19],如图2所示,
表示初级胶囊层有
个胶囊,每个胶囊维度为
;
表示高级胶囊层有
个胶囊,每个胶囊维度为
;
为先验矩阵,包含所有权重的判别信息;
为权重矩阵;
为耦合系数矩阵。
Figure 2. Structure of the self-attention routing mechanism
图2. 自注意路由结构图
在初级胶囊层中,对于激活后的第
个胶囊
,
包含了这个胶囊对高级胶囊层所有胶囊的预测,公式如下:
(3)
接着计算自注意张量
来衡量胶囊间的相关性:
(4)
其中,
用于提升训练稳定性,同时实现耦合系数与先验矩阵之间的平衡调节。
然后,通过自注意张量计算初级胶囊与高级胶囊层之间的耦合系数矩阵:
(5)
最终,高级胶囊通过以下公式计算:
(6)
2.3.2. 全局上下文增强模块
本文提出了一种全局上下文增强模块(Global Context Module, GCM),首次加入胶囊网络中,该结构可以自适应地增强信息丰富的胶囊特征,同时抑制冗余或噪声胶囊,其结构如图3所示。
Figure 3. Structure of the Global Context Module (GCM)
图3. 全局上下文增强模块(GCM)结构图
首先,设输入胶囊集
(其中
为批次大小;
为胶囊数;
为胶囊维度)。通过对初级胶囊层每个胶囊的特征维度进行平均池化,生成一个全局上下文描述子
,编码各胶囊的整体激活强度:
(7)
随后,利用一个包含降维与升维的瓶颈结构来学习胶囊间的非线性相关性,并生成归一化的注意力权重向量
:
(8)
其中,
和
分别为降维和升维变换的权重矩阵;
是瓶颈层的维度;
为降维比率;
代表Sigmoid函数。
最后,将生成的注意力权重
逐元素乘以原始胶囊集,得到增强后的输出
:
(9)
全局上下文增强模块与自注意力路由机制形成了功能互补的协同效应。全局上下文增强模块负责横向的、层内的全局信息整合;自注意力路由则处理纵向的、层间的信息传递。这种正交结构的信息流设计构建了一个更全面的特征整合网络。
3. 基于CWT-ECCN的滚动轴承复合故障诊断框架
本文提出的基于连续小波变换与改进卷积胶囊网络的复合故障诊断框架,命名为CWT-ECCN (Continuous Wavelet Transform–Enhanced Convolutional Capsule Network),整体结构如图4所示。该框架包含两个串子块:第一个串子块利用连续小波变换(CWT)对滑动切割后的滚动轴承振动信号进行时频变换,生成二维时频图,保留信号完整时频特征,提升模型对瞬时故障的敏感性;随后,将时频图输入第二个串子块改进卷积胶囊网络(ECCN):首先,通过卷积注意力层提取关键特征并输入初级胶囊层,再经过GCM重标定胶囊特征权重,增强胶囊间的关联建模能力,然后通过自注意路由将信息传递至高级胶囊层,最终通过L2范数计算输出胶囊的模长即各单一故障的预测概率。将各单一故障预测概率的均值作为识别阈值,对所有超过阈值的类别予以输出;当内圈与外圈两类同时被选出时,则视为对应的复合故障类别。
Figure 4. CWT-ECCN-based framework for compound fault diagnosis of rolling bearings
图4. 基于CWT-ECCN的滚动轴承复合故障诊断框架
另外,模型训练采用边界损失函数(Margin Loss Function),公式为:
(10)
其中,
为故障类别;
为类别
的间隔损失;
为分类指示函数(分类正确取1,错误取0);
为识别类别的概率;
为上界,取0.9;
为下界,取0.1;
为比例系数,取0.5。
4. 实验验证及结果分析
为验证CWT-ECCN在滚动轴承复合故障诊断中的有效性与鲁棒性,分别在华中科技大学轴承数据集(HUST)和东南大学变速箱数据集(SEU)进行了消融分析和对比试验。所有实验均在Windows 10系统环境下进行,编程语言为Python,深度学习框架为TensorFlow,硬件配置为Intel Core i5-9300H处理器和NVIDIA GeForce GTX 1660 Ti GPU。
4.1. 数据集介绍与处理
华中科技大学(HUST)公共轴承数据集由Spectra-Quest机械故障实验台采集,实验装置如图5所示。所测轴承型号为ER-16,采样频率为2560 Hz。实验选取了该数据集在65 Hz (3900 rpm)工况下四种典型的健康状态:健康、内圈中度故障、外圈中度故障和内外圈中度复合故障。
① 速度控制器;② 电机;③ 轴;④ 加速度传感器;⑤ 轴承;⑥ 数据采集卡
Figure 5. Experimental test rig of the HUST bearing dataset
图5. HUST轴承数据集试验台
将采集到的轴承振动信号按1024点为一窗口切分样本,滑动窗口步长为500点;经CWT转换为128 × 128尺寸的RGB时频图。各故障类型均采集500个样本,随后按照8:2比例完成训练与测试集划分,相应的标签设置和样本分布如表1所示。为降低随机性影响,所有实验均重复10次并取平均值。
Table 1. Data labels and distribution
表1. 数据标签及分布
故障类型 |
标签 |
样本数/个 |
训练集 |
测试集 |
健康 |
100 |
400 |
100 |
内圈故障 |
010 |
400 |
100 |
外圈故障 |
001 |
400 |
100 |
复合故障 |
011 |
400 |
100 |
4.2. 模型参数设置
将时频图作为ECCN深度学习模型输入,具体参数设置如表2所示。每层卷积后使用了批归一化加快收敛并稳定训练。模型训练过程采用Adam优化器,学习率采用指数衰减的方式,初始学习率为0.0002,衰减率为0.97,Batchsize为20。
Table 2. Structural parameter design of ECCN
表2. ECCN结构参数设计
层数 |
结构名称 |
卷积核大小/步长 |
输出 |
0 |
输入 |
- |
(128, 128, 3) |
1 |
标准卷积 |
3/2 |
(64, 64, 32) |
2 |
深度可分离卷积+膨胀卷积(扩张率 = 2) |
3/1 |
(64, 64, 64) |
3 |
深度卷积 |
3/2 |
(32, 32, 64) |
4 |
时频注意力 |
7/1 |
(32, 32, 64) |
5 |
深度可分离卷积 |
3/1 |
(32, 32, 128) |
6 |
深度卷积+膨胀卷积(扩张率 = 4) |
3/2 |
(16, 16, 128) |
7 |
归一化通道注意力 |
- |
(16, 16, 128) |
8 |
深度可分离卷积 |
5/2 |
(6, 6, 256) |
9 |
初级胶囊层 |
- |
(32, 8) |
10 |
全局上下文增强模块 |
- |
(32, 8) |
11 |
高级胶囊层 |
- |
(3, 16) |
12 |
输出层 |
- |
(3) |
关键超参数的确定基于实验寻优与理论分析的综合考量,旨在实现诊断精度、训练稳定性与计算效率的最佳平衡。首先,将CWT变换后的时频图尺寸设定为128 × 128,不同尺寸对比实验由表3所示。相比之下,64 × 64尺寸因分辨率不足导致微弱故障特征丢失,致使准确率下降;而256 × 256尺寸虽能维持高精度,却带来了显著的参数冗余与计算开销;而128 × 128的尺寸在保留关键时频细节与控制计算成本之间取得了平衡。其次,在胶囊网络的架构配置上,选定32 × 8 × 16 (初级胶囊层数量N × 初级胶囊层维度D1 × 高级胶囊层维度D2)为最佳组合,对比实验如表4所示。在所有实现100%准确率的配置中,该组合的训练耗时最短,优于其他组合,表明其在保证特征表达的同时最小化了路由计算负担。同时,实验发现高级胶囊维度过低(8维),特征表达受限导致准确率有所下降;而过高(24维)则引发参数冗余和训练波动。最终,32 × 8 × 16配置成功平衡了特征表达与计算资源,被确定为模型的最优解。
Table 3. CWT time-frequency map size experimental results
表3. CWT时频图尺寸选择实验结果
CWT时频图尺寸 |
时间/s |
准确率/% |
参数/个 |
64 × 64 |
164 |
99.78 |
490,399 |
128 × 128 |
195 |
100.00 |
657,311 |
256 × 256 |
278 |
100.00 |
1,059,323 |
Table 4. Capsule network hyperparameter selection experimental results
表4. 胶囊网络参数选择实验结果
N × D1 × D2 |
时间/s |
准确率/% |
参数/个 |
64 × 4 × 16 |
278 |
100.00 |
65,8211 |
32 × 8 × 16 |
195 |
100.00 |
65,7311 |
16 × 16 × 16 |
221 |
100.00 |
65,7053 |
32 × 8 × 8 |
243 |
99.87 |
45,4559 |
32 × 8 × 24 |
213 |
99.28 |
56,0063 |
4.3. 消融实验
为进一步阐明各关键组成部分的性能贡献,本研究以全结构CWT-ECCN为基线模型,针对模块去除情形设置了消融实验。模型一中特征提取模块全部采用标准卷积且移除了双注意力机制,用以对比特征提取模块的效果;模型二将自注意路由替换为动态路由算法(迭代3次),旨在验证新路由机制的优势;模型三在完整模型的基础上移除了全局上下文增强模块,以量化其贡献。为增强模型鲁棒性和结果可区分性,实验在振动信号中叠加了−2 dB信噪比的高斯白噪声,实验结果如表5所示。
Table 5. Results of ablation experiments
表5. 消融实验结果
模型名称 |
时间/s |
准确率/% |
参数/个 |
模型一 |
204 |
98.68 |
1,577,911 |
模型二 |
257 |
97.78 |
51,014,188 |
模型三 |
205 |
98.25 |
657,019 |
CWT-ECCN |
195 |
99.25 |
657,311 |
由表5可知,模型一完全采用标准卷积结构,参数量达到CWT-ECCN的2.4倍,准确率却没有提高,说明本文提出的卷积注意力层在保障特征提取能力的前提下能够显著降低模型的复杂度和计算开销。模型二中,自注意路由相较于动态路由算法,将训练时间缩短了27%,参数量大幅降低,且准确率提升了1.47%,表明自注意力路由在准确性、效率和计算成本方面均优于传统算法。模型三中,GCM作为轻量结构,仅增加292个参数,却将准确率提升了1.0%,且运行时间最短,验证了其在捕获胶囊间全局关联信息方面的重要作用,同时该模块与自注意路由在横向整合与纵向传递上形成协同互补,进一步提升了模型的整体诊断能力。
4.4. 对比实验
为验证CWT-ECCN分别在噪声与变工况下的故障诊断准确率和泛化能力,本文与常见的深度学习方法(WT-MLCNN、MSCNN-CapsNet、ICN、和ResNet-18)进行了对比实验。为了匹配分类任务,对网络的参数进行了微调,网络结构介绍如下:
1) WT-MLCNN:Liang等人提出的多标签复合故障诊断框架,该方法将小波变换生成的时频图输入至多标签卷积神经网络(含6个卷积层、4个池化层),采用Sigmoid输出和二元交叉熵损失进行训练;
2) MSCNN-CapsNet:Li等人提出,其方法将短时傅里叶变换生成的时频图输入至一个三通道多尺度卷积网络以提取并融合特征,随后由一个采用动态路由的胶囊网络完成故障诊断;
3) ICN:袁洪芳等人提出,其结构集成了卷积层、池化层、SE模块与采用自注意路由的胶囊层。原模型直接输入一维信号,在本研究中,为公平比较,将其输入调整为二维时频图;
4) ResNet-18:He等人提出的经典深层残差网络,由1个初始卷积层和8个残差模块组成。为适应多标签任务,其输出层修改为Sigmoid函数,并采用二元交叉熵损失进行优化。
4.4.1. 噪声环境下的性能分析
由于实际采集的振动信号不可避免地掺杂各种噪声,为检验CWT-ECCN在噪声背景下的鲁棒表现,本研究向原始数据加入了具有不同信噪比(SNR)的高斯白噪声,并对五种方法的抗噪性能进行实验评估,结果如表6和图6所示。为便于直观对比,图7和图8分别展示了−2 dB信噪比下,五种方法的诊断混淆矩阵以及通过t-SNE降维后的特征分布情况。
Figure 6. Comparison of accuracy of different SNRs on the HUST dataset
图6. HUST数据集不同信噪比下的准确率对比
Table 6. Accuracy of different signal-to-noise ratios (SNRs)
表6. 不同信噪比下的准确率
模型 |
噪声/dB |
−5 |
−2 |
0 |
5 |
10 |
平均值 |
WT-MLCNN |
91.20% |
96.20% |
96.38% |
98.38% |
99.03% |
96.24% |
MSCNN-CapsNet |
63.40% |
81.70% |
87.70% |
92.28% |
96.85% |
84.39% |
ICN |
93.25% |
97.04% |
97.73% |
97.88% |
98.19% |
96.82% |
ResNet-18 |
87.45% |
93.50% |
95.63% |
99.32% |
99.50% |
95.08% |
CWT-ECCN |
95.78% |
99.11% |
99.77% |
99.85% |
99.93% |
98.77% |
(a) WT-MLCNN
(b) MSCNN-CapsNet (c) ICN
(d) ResNet-18 (e) CWT-ECCN
Figure 7. Comparison of confusion matrices for different methods
图7. 不同方法的混淆矩阵对比
由表6和图6可知,随着信噪比减小,诊断准确率都明显降低。而本文所提方法CWT-ECCN在所有噪声环境下均表现出最优的性能,平均准确率达到了98.77%,尤其在−5 dB的强噪声干扰下,其准确率仍能维持在95.78%,展现了较好的鲁棒性。
(a) WT-MLCNN
(b) MSCNN-CapsNet
(c) ICN
(d) ResNet-18
(e) CWT-ECCN
Figure 8. t-SNE feature visualization of different methods
图8. 不同方法的t-SNE特征可视化
由图7的混淆矩阵可知,在−2 dB噪声下,CWT-ECCN呈现出清晰的对角线分布,四种状态几乎没有发生混淆,其他方法则或多或少出现了明显错误分类的情况,特别是内圈故障与复合故障,两者特征存在的相似性与耦合性使得解耦性能较差的网络出现了误判,而对本文所提方法则没有大的影响。
由图8的t-SNE特征可视化进一步可知,CWT-ECCN学习到的特征类内聚合度更高、类间可分性更强。这得益于CWT-ECCN的协同设计:CWT完整保留了高分辨的完整时频信息;ECCN前端的各轻量化卷积展现出了良好的特征提取性能;时频注意力机制使得模型聚焦于更加关键的时频特征,归一化注意力机制则更加专注权重更大的通道,一定程度上削弱了噪声的干扰,突出了故障特征;后端的改进胶囊网络能稳健解析特征间复杂关系,进一步实现高效准确的故障分类。
4.4.2. 不同数据集和不同工况下的性能分析
为进一步检验框架在不同数据集和不同工况下的泛化能力与鲁棒性,特别是在实际工程中常见的变载荷条件下的故障诊断性能,采用了东南大学(SEU)轴承数据集进行跨数据集验证。实验选取了两种涵盖不同转速与负载的典型工况(20 Hz-0 V与30 Hz-2 V)。数据处理方式和样本构建方式与4.1节保持一致。故障类型包括健康、内圈裂纹、外圈裂纹以及内外圈裂纹复合故障四类;每类故障均选取400个训练样本和100个测试样本。诊断准确率结果如表7所示,模型对比结果如图9所示。
Table 7. Accuracy under different working conditions on the SEU dataset
表7. SEU数据集不同工况下的准确率
模型 |
20 Hz-0 V |
30 Hz-2 V |
平均值 |
WT-MLCNN |
96.43% |
96.68% |
96.56% |
续表
MSCNN-CapsNet |
70.17% |
95.55% |
82.86% |
ICN |
99.86% |
97.94% |
98.90% |
ResNet-18 |
98.40% |
97.30% |
97.85% |
CWT-ECCN |
99.45% |
99.00% |
99.23% |
Figure 9. Comparison of accuracy of different working conditions on the SEU dataset
图9. SEU数据集不同工况下的准确率对比
由表7和图9可知,在SEU数据集的两种不同工况下,CWT-ECCN再次展现出卓越的诊断性能和领先的稳定性。两种工况的诊断准确率都很高,分别达到99.45%与99.00%,平均准确率为99.23%,相比其他方法高出0.33%~16.37%。需要指出的是,对比模型WT-MLCNN和MSCNN-CapsNet虽同样利用了时频变换生成的输入,但在噪声与变工况下仍存在特征保留不足和解耦能力有限的问题。而CWT-ECCN不仅能在单一数据集条件下实现精确诊断,还具备良好的工况迁移能力与环境鲁棒性,能够有效应对因转速和负载变化带来的特征分布偏移问题,具备出色的泛化能力与工程适应性。
5. 结论
滚动轴承在实际工况中易发生多部位同时损伤,形成复合故障。为解决传统方法在时频信息保留与解耦能力方面存在的局限,本文提出了一种基于CWT-ECCN的复合故障诊断框架。该方法通过CWT生成高分辨二维时频图,完整保留信号的瞬时频率与能量特征;构建了卷积注意力层进行高效特征提取和关键时频信息聚焦;改进自注意路由的胶囊网络,设计了GCM模块,有效缓解了胶囊网络在长程依赖建模和计算效率上的核心痛点,增强了故障解耦能力。综合来看,本文方法可以高效地实现复合故障诊断。在HUST和SEU两个公开数据集上的实验结果表明,CWT-ECCN在噪声干扰和变工况下的平均诊断准确率分别高达98.77%和99.23%,展现出卓越的性能与泛化能力。未来工作是将诊断任务拓展至包含更多故障类型的复杂工况,以全面应对真实工业场景的挑战。
基金项目
本工作受中央引导地方科技发展资金项目(YDZJSX2025A001)、山西省科技创新人才团队项目(202304051001032)、山西省重点研发计划项目(202302150401002,202402150101005)、留学人员科技活动项目择优资助经费(20250027)资助。
NOTES
*通讯作者。