1. 引言
工业轴承作为机械装置运行的核心部件,其服役状态直接影响机械装置的工作能力,从而决定着机械装置的运行安全[1]。在实际服役过程中,工业轴承长期处于变载荷、强噪声、非平稳工况的复杂运行环境中,故障特征呈现出显著的微弱性与耦合性特征。传统的轴承智能故障诊断方法主要先采用时频信号处理技术如时频域特征统计分析、快速傅里叶变换、短时傅里叶变换、经验模态分解、连续小波变换等进行故障特征提取,然后再利用支持向量机(Support Vector Machine, SVM)、BP神经网络和k近邻(k-Nearest Neighbor, KNN)等方法进行故障分类识别[2]。这类方法难以实现复杂故障模式下特征的精准提取与有效识别,且通常需要操作人员和轮对进行直接性接触,会造成工业运维成本增加[3]。
当前工业轴承故障诊断方法主要分为经验模型法与机器学习法两大类。经验模型法依赖于工程人员对轴承故障机理的深入理解与先验知识。传统的故障诊断方法如基于经验的规则或传统信号处理技术,往往依赖人工特征提取,存在一定的局限性[4]。而机器学习方法[5]凭借其非线性处理单元的自主学习能力,能够对故障信号中的非线性、非平稳特征进行自适应挖掘与表征,为解决复杂工况下轴承故障诊断的难点问题提供了有效途径。已有众多学者将机器学习方法应用于轴承故障诊断领域,如卷积神经网络(CNN)、长短期记忆网络(LSTM)、CNN-LSTM混合模型等,实现了变工况下的轴承故障诊断方法[6]。
但上述研究均基于故障目标数据的直接学习,而实际工程中轴承故障样本数据存在严重的稀缺性问题,难以通过目标数据训练得到高性能的诊断模型[7]。现有研究多采用非目标相关数据(如不同传感器、不同工况、不同部件的关联数据)辅助训练以弥补样本缺失,但传统深度学习模型如CNN、LSTM、CNN-LSTM等,无法对非目标数据与目标故障诊断任务之间的关联程度进行有效区分与自适应权重分配,易导致辅助数据的无效干扰,降低模型诊断性能。尽管注意力(Attention)机制已被应用于旋转机械故障诊断领域以强化关键特征[8],但针对轴承故障目标数据稀缺场景,将Attention机制用于非目标辅助数据与目标任务的关联量化及权重自适应分配的研究,目前尚未见相关报道。
基于此,本文针对轴承故障目标数据稀缺、传统深度学习模型无法实现辅助数据权重自适应分配的问题,结合多传感器融合技术[9]与深度学习方法[10],开展源域故障诊断研究。本文的研究目标为:① 构建时域、频域、时频域及包络域多维度特征提取体系,充分挖掘轴承故障的特征信息;② 设计多传感器数据组合场景,筛选最优数据输入方案,提升数据信息密度;③ 对比CNN、CNN-LSTM及CNN-LSTM-Attention三种模型的诊断性能,验证Attention机制在权重分配中的有效性,确定适配轴承故障特征的最优模型架构;④ 为复杂工况下、样本稀缺场景中的工业轴承故障诊断提供高精度源域基准模型,为后续跨工况迁移诊断提供技术支撑。
2. 材料与方法
2.1. 数据来源与预处理
源域数据来源于轴承试验台架振动数据,包含驱动端(DE)、风扇端(FE)和基座(BA)三个位置的加速度信号[8]。数据采样频率包括12 kHz和48 kHz两种,目标域数据采样频率为32 kHz [11]。为确保数据一致性,对所有信号进行重采样处理,统一至32 kHz采样频率(图1)。此外,使用scipy.signal库对源数据做抗混叠滤波,并统一至32 kHz采样频率,采取去均值去趋势处理(图2)后做下一步分析。
Figure 1. Comparison of signal sampling frequency before and after processing
图1. 信号采样频率处理前后对比
本研究使用的轴承数据来自美国凯斯西储大学(Case Western Reserve University, CWRU)轴承数据中心,包含两种型号的深沟球轴承:SKF6205 (安装在驱动端)和SKF6203 (安装在风扇端)。SKF6205轴承的几何参数为:滚动体直径d = 0.3126英寸,轴承节径D = 1.537英寸[12]。滚动体个数Nd = 9;SKF6203轴承的几何参数为:滚动体直径d = 0.2656英寸,轴承节径D = 1.122英寸,滚动体个数Nd = 9。实验在0马力、1马力、2马力、3马力四种负载条件下进行,转速分别为1797 rpm、1772 rpm、1750 rpm、1730 rpm。故障类型包括外圈故障(OR)、内圈故障(IR)、滚动体故障(B)和正常状态(N),故障直径分别为0.007英寸、0.014英寸和0.021英寸。
Figure 2. Comparison before and after de-averaging and de-trending of signals
图2. 信号去均值和去趋势前后对比
本研究对每个样本的时域信号做小波去噪(选用db4小波基,分解层数5),通过软阈值法去噪(Stein无偏风险估计确定阈值) [13]。小波去噪技术在轴承故障信号处理中已被证实具有良好的噪声抑制效果,能够有效保留故障冲击特征。
在对工业轴承数据进行分析前,为了更好地捕捉故障特征,需要对数据进行窗口重采样处理。源域样本信号长度为1秒(32,000个采样点),目标域为8秒(256,000个采样点),为避免长时信号冗余,同时保留局部冲击特征,设计窗口长度L:32 kHz × 0.5 s = 16,000个采样点,窗口步长8000个采样点。每个源域1秒信号生成2个窗口样本,目标域8秒信号生成16个窗口样本,为后续可视化与特征提取提供标准化输入。该窗口设置方式参考了现有轴承故障诊断研究中常用的局部特征捕捉策略。
2.2. 时域特征和频域特征
轴承故障常见的类型包括滚动体故障、外圈故障、内圈故障[14]。故障信号通常表现为周期性冲击信号,其频率成分可由轴承几何参数与转速计算得出。由于发生故障的机理不同,其信号也表现出不同的特性:1) 外圈故障通常由于轴承外圈剥落所导致,时域图中会出现以外圈故障特征频率为周期的周期性脉冲,在频谱图中会出现以外圈固有频率为中心,以外圈故障频率为间隔的谱线;2) 内圈由于与轮轴相连,因此内圈故障会被轮轴转频调制,在频谱图中会出现以轴承内圈固有频率为中心,以内圈故障特征频率为间隔的谱线和以转频为间隔的谱线[15];3) 滚动体故障时,在频谱图中会出现以滚动体固有频率为中心,以滚动体故障频率为间隔的谱线和以滚动体公转频率为间隔的谱线[16]。
不同故障类型的理论特征频率计算公式如表1所示。其中,fr = n/60为轴承转频,n为轴承内圈转速(单位:rpm),d为滚动体直径,D为轴承节径,Nd为滚动体个数。
时域特征是直接对振动时间序列计算统计量,反映的是振动信号的幅值分布以及能量大小。设振动信号为
,N为采样长度,得到时域特征计算公式(表2)。本研究提取了16个时域特征指标,包括:最大值、均值、平均幅值、方根幅值、均方值、均方根值、方差、标准差、偏斜度、峭度、波形因数、峰值因素、脉冲因素、裕度指标、峭度指标和偏度指标[15]。这些指标能够全面反映信号的幅值特性、能量分布和冲击特性,是轴承故障诊断中最常用的时域特征集。
Table 1. Geometrical characteristic frequency
表1. 几何特征频率
特征参数 |
表达式 |
转频 |
|
外圈故障(BPFO) |
|
内圈故障(BPFI) |
|
滚动体故障(BSF) |
|
Table 2. Time-domain characteristics
表2. 时域特征
特征参数 |
表达式 |
特征参数 |
表达式 |
最大值 |
|
偏斜度 |
|
均值 |
|
峭度 |
|
平均幅值 |
|
波形因数 |
|
方根幅值 |
|
峰值因素 |
|
均方值 |
|
脉冲因素 |
|
均方根值 |
|
裕度指标 |
|
方差 |
|
峭度指标 |
|
标准差 |
|
偏度指标 |
|
通过快速傅里叶变换(FFT)将时域信号转换至频域。假设信号x经FFT变换后的谱线为s(k) (k = 1, 2, ∙∙∙, K,K为谱线数,fk为第k条谱线所对应的频率值) [17]。本研究提取了12个频域特征指标,包括:幅值平均值、中心频率、均方频率、频率方差、均方根频率、幅值方差、幅值偏度指标、幅值峭度指标、频率标准差、频域频率歪度、频域频率峭度和平方根比率[18]。这些指标能够有效识别故障特征频率成分(表3)。
采用EEMD分解(自适应处理非平稳信号)提取时频特征。EEMD通过多次向原始信号注入不同白噪声后进行EMD分解并集合平均,有效抑制了传统EMD的模态混叠问题,更适配轴承振动这类非平稳、含冲击成分的信号[19]。通过EEMD分解得到的IMF分量能量分布,能够捕捉非平稳信号中的故障信息[20]。
对振动信号经“带通滤波-Hilbert变换”得到包络信号,然后对包络信号做FFT得到包络谱[21]。本研究提取了9个包络域特征指标,见表4。
Table 3. Frequency-domain characteristic index
表3. 频域特征指标
特征参数 |
表达式 |
特征参数 |
表达式 |
幅值平均值 |
|
幅值偏度指标 |
|
中心频率 |
|
幅值峭度指标 |
|
均方频率 |
|
频率标准差 |
|
频率方差 |
|
频域频率歪度 |
|
均方根频率 |
|
频域频率峭度 |
|
幅值方差 |
|
平方根比率 |
|
Table 4. Envelope characteristic index
表4. 包络特征指标
特征参数 |
表达式 |
总能量 |
|
带内索引 |
|
带内峰值 |
|
带内能量 |
|
能量占比 |
|
倍频能量 |
|
倍频占比 |
|
边带能量 |
|
边带比 |
|
2.3. 深度学习方法
基于不同传感器与故障轴承的传递路径差异,设计三种数据场景:1) All场景:融合全部传感器数据(DE + FE + BA),充分利用多源数据但可能引入冗余噪声;2) Connect场景:融合关键传感器数据(DE + FE),DE端与FE端传感器距离故障轴承最近,故障特征最显著;3) Only DE场景:仅使用DE端传感器数据,简化数据输入但可能丢失部分有效信息。该场景设计思路参考了现有多传感器融合故障诊断研究中的数据筛选策略。
构建3种深度学习模型:
1) CNN模型:卷积神经网络(CNN)聚焦空间维度的局部特征关联,通过卷积核滑动扫描多域特征,捕捉相邻特征的组合模式(如“时域峰度 + 频域BPFO峰值”的故障特异性组合)。本研究使用1D-CNN设置两个卷积层,卷积核为1 × 1,步长为1,滤波器为32,激活函数为ReLU,设置两个全连接层,第一层为64神经元,激活函数为ReLU,第二层为4神经元,激活函数为Softmax,用于判断故障类型OR、IR、B、N四类[4] (图3)。CNN模型在轴承故障诊断中已被广泛应用,其局部特征提取能力已得到充分验证。
Figure 3. One-dimensional CNN model with one convolution layer and two fully connected layers
图3. 具有一个卷积层和两个全连接层的一维CNN模型
2) CNN-LSTM融合模型:在CNN模型的基础上,移除“扁平化层”,将CNN输出的3维特征图直接输入LSTM模块。设置两个卷积层、两个LSTM层(每层64个神经元)、两个全连接层[22] (图4)。该模型能够同时捕捉空间局部特征和时序依赖关系,适用于具有周期性冲击特征的轴承故障诊断。
Figure 4. CNN-LSTM, with one convolution layer, two LSTM layers, and two fully connected layers
图4. CNN-LSTM模型,具有一个卷积层、两个LSTM层和两个全连接层
3) CNN-LSTM-Attention融合模型:在CNN-LSTM模型的基础上,新增注意力(Additive Attention)模块,动态计算LSTM输出特征的重要性权重,强化故障特异性特征(如BPFO/BPFI/BSF峰值、时域峰度),抑制冗余噪声特征。卷积模块后引入全连接注意力机制,通过一层Softmax激活的全连接层生成与输入维度一致的权重分布并进行归一化处理,从而得到Attention加权后的特征输入进入全连接层(图5)。该模型能够自适应地关注关键特征,提升对类别不平衡数据的诊断性能[23]。
Figure 5. Framework of CNN attention model
图5. CNN注意力模型的框架
2.4. 深度学习评价指标
为全面评估模型性能,本研究采用以下评价指标:1) 准确率(Accuracy):正确分类的样本数占总样本数的比例,反映模型整体诊断性能[24];2) 精确率(Precision):被预测为正类的样本中真正为正类的比例,采用加权平均(weighted)和宏平均(macro)两种方式计算;3) 召回率(Recall):真正为正类的样本中被正确预测为正类的比例,同样采用加权平均和宏平均两种方式;4) F1-score:精确率和召回率的调和平均数,综合考虑模型的精确性和完整性。
通过混淆矩阵直观展示各场景模型的分类结果,验证量化指标的可靠性。混淆矩阵能够清晰展示每类故障的正确分类数和误分类数[25],便于分析模型在不同故障类型上的诊断性能差异,特别是识别哪些故障类型容易被混淆。
2.5. 数据处理
本研究的数据管理和处理采用以下软件工具:1) 数据管理:采用Microsoft Office 2022进行数据的整理、存储和初步分析,利用Excel进行数据表格的管理和统计;2) 信号处理与特征提取:采用Python 3.9编程语言,使用NumPy、Pandas进行数据处理,使用SciPy进行信号处理(包括重采样、滤波、FFT变换等),使用PyWavelets进行小波去噪,使用EMD-signal进行EEMD分解;3) 深度学习建模:采用TensorFlow 2.8和Keras框架构建CNN、CNN-LSTM和CNN-LSTM-Attention模型;4) 数据可视化与绘图:采用Origin 2022进行专业科研绘图,包括信号波形图、频谱图、特征分布图、性能对比图和混淆矩阵等。
模型训练采用Adam优化算法,学习率设置为0.001,批量大小设置为64,训练轮次为200轮。在超参数调整阶段,评估了不同的架构:一个和两个卷积层,每个卷积层有24、32或48个滤波器,内核大小等于1、2或3;为避免过度拟合,在每个卷积层之后添加Dropout层,评估了0、0.2和0.4三种丢弃率。采用分层抽样(保持各类别比例)将筛选后的5693个源域数据按8:2划分为训练集与验证集。
3. 结果
3.1. 不同故障的特征表现
采用db4小波基对原始振动信号进行5层分解,可以得到很高的信噪比,通过软阈值法去噪[26]。以源域BA样本(12 kHz → 32 kHz)为例,去噪效果如图6所示。去噪前信号含高频毛刺(噪声),峰峰值约0.15 g;去噪后信号冲击脉冲清晰,峰峰值降至0.10 g,信噪比(SNR)从3~4 dB提升至6~8 dB,满足后续特征提取和模型训练的要求。
Figure 6. Comparison of base (BA) vibration signal before and after wavelet demodulation
图6. 基座(BA)振动信号小波去噪前后对比
Figure 7. Spectrum diagram of different fault types and normal state of bearing
图7. 轴承不同故障类型及正常状态的频谱图
对四类故障的去噪窗口样本做快速傅里叶变换(FFT),计算理论特征频率,验证频域峰值显著性。频域可视化结果(图7)显示,故障样本均在理论特征频率附近出现尖锐峰值,而正常样本无显著峰值。外圈故障在BPFO频率处出现明显峰值,内圈故障在BPFI频率处出现峰值并伴随转频调制边带,滚动体故障在BSF频率处出现峰值,验证了特征提取的有效性。
对不同轴承类型(DE端故障、FE端故障、正常状态)的时域特征(均值、方差等)分布进行比较分析(图8),明确具备有效区分能力的特征。各时域特征在DE端故障(DE)、FE端故障(FE)、正常状态(Normal)三类轴承上的分布存在显著差异,能有效区分“正常/故障”及“不同故障端(DE/FE)”[10]。因此,它们能够有效刻画不同轴承状态(正常/故障、不同故障端)的时域统计规律,具备作为故障诊断模型输入特征的潜力。
Figure 8. Comparison of time-domain characteristic distribution of different bearing types
图8. 不同轴承类型时域特征分布比较
3.2. 模型性能对比结果
通过Accuracy、Precision (weighted/macro)、Recall (weighted/macro)、F1-score (weighted/macro)评估指标对三种模型在三种传感器数据场景下的性能进行评价。性能对比结果如图9所示。实验结果表明:纯CNN模型在所有场景下均优于“CNN + LSTM”与“Attention增强模型”;Connect场景(DE + FE数据融合)是最优数据方案——剔除BA端冗余信号后,模型聚焦于故障特征显著的DE与FE数据,信息密度提升,使得CNN模型准确率达96.61%,为所有场景最高。
Figure 9. Comparison of fault diagnosis performance of different models in three sensor data scenarios
图9. 不同模型在三种传感器数据场景下的故障诊断性能对比
Figure 10. Comparison of fault diagnosis confusion matrices for different models in All scenario
图10. All场景下不同模型的故障诊断混淆矩阵对比
通过混淆矩阵直观展示各场景模型的分类结果,验证量化指标的可靠性(图10~12)。在Connect场景下CNN模型正确分类占比极高:B类106个(真实109个,召回率97%)、IR类108个(100%召回)、N类23个(100%)、OR类189个(真实201个,召回率94%);在All场景下CNN模型正确分类:B类240个(282个,召回率85%)、IR类253个(280个,召回率90%)、N类23个(100%)、OR类484个(560个,召回率86%);在Only DE场景下CNN模型正确分类:B类99个(109个,召回率91%)、IR类97个(108个,召回率90%)、N类12个(100%)、OR类190个(201个,召回率95%)。综上所述,确定Connect场景下的纯CNN模型为源域最优诊断模型。
Figure 11. Comparison of fault diagnosis confusion matrices for different models in Connect scenario
图11. Connect场景下不同模型的故障诊断混淆矩阵对比
Connect场景下的CNN模型表现最优,准确率达96.61%,加权F1-score达0.965;All场景因包含BA端冗余数据,模型性能略有下降;Only DE场景因数据维度单一,滚动体故障召回率仅91%。CNN模型在所有场景下均优于CNN-LSTM与CNN-LSTM-Attention模型,主要原因:轴承故障特征以局部空间组合模式(如“时域峰度 + 频域BPFO峰值”)为主,时序依赖关系较弱,过度叠加LSTM与注意力模块易导致模型过拟合,增加计算复杂度。Connect场景下CNN模型的混淆矩阵显示:内圈故障(IR)召回率100% (108/108),外圈故障(OR)召回率94.1% (189/201),滚动体故障(B)召回率80% (106/109),正常状态(N)召回率100% (23/23)。滚动体故障召回率相对较低,主要因滚动体故障特征受公转与自旋调制,特征区分度略低于内圈、外圈故障,属机理层面的合理误差。
Figure 12. Comparison of fault diagnosis confusion matrices for different models in Only De scenario
图12. Only DE场景下不同模型的故障诊断混淆矩阵对比
4. 结论
本文提出一种基于多传感器融合与深度学习的工业轴承源域故障诊断方法,通过数据预处理、多域特征提取、多场景数据设计与多模型对比,得出以下结论:
1) 关键传感器融合场景(DE + FE)能有效提升模型性能,剔除BA端冗余数据后,信息密度显著提高,为模型提供高质量输入。Connect场景下的CNN模型准确率达96.61%,优于All场景(93.2%)和Only DE场景(94.5%)。
2) 纯CNN模型适配轴承故障特征的提取需求,其捕捉局部空间特征的能力优于复杂时序模型,在保证诊断精度的同时,简化了模型结构。CNN模型在所有场景下均优于CNN-LSTM与CNN-LSTM-Attention模型,表明轴承故障特征以空间组合模式为主,时序依赖关系较弱。
3) 该方法在源域数据上的诊断准确率达96.61%,内圈故障召回率100%,外圈故障召回率94.1%,滚动体故障召回率80%,有效解决了类别不平衡问题,为后续跨工况迁移诊断提供了高精度基准模型。
未来研究可进一步拓展至复合故障诊断场景,结合迁移学习技术实现从台架数据到实际数据的知识迁移,提升模型的工程适配性。同时,可探索更先进的注意力机制和多传感器融合策略,进一步提升滚动体故障的诊断精度。