1. 引言
滚动轴承作为旋转机械的关键传动部件,其运行状态将直接影响设备的安全性和稳定性。因此,准确并及时地诊断轴承故障,对于预防设备故障、延长使用寿命具有重要意义[1]。随着工业自动化和智能化的发展,轴承故障诊断方法也经历了从传统的信号处理技术到机器学习和深度学习方法的演变。传统方法主要依赖于手工提取时域和频域特征,虽在一定程度上有效,但在复杂工况下的适应性和准确性有限[2]。近年来,基于机器学习和深度学习的诊断方法因其具备强大的特征学习能力,逐渐被广泛研究与应用[3]。
然而,实际应用中,源域和目标域之间常存在分布差异,导致模型在目标域上的性能下降[4]。为解决这一问题,领域自适应(Domain Adaptation, DA)技术应运而生。领域自适应是迁移学习的一个重要分支,通过学习新的特征映射方法,来对齐源域和目标域的数据分布,使得模型迁移至目标域后仍能有较好的泛化性能[5],故基于领域自适应的轴承故障诊断方法受到广泛关注。例如,通过采用对抗训练网络,以减少不同工况下的数据分布差异,从而提高模型的泛化能力[6]。
然而,上述方法大多依赖于源域数据的存在,无法在源域数据缺失的情况下进行有效的领域适应。在实际应用中,基于商业保密、知识产权等原因[7],源域数据或难以获得。而无源域自适应[8] (Source-Free Domain Adaptation, SFDA)是解决此问题的一种新方法,其无需源域数据即可实现领域间的自适应,具有重要的研究意义。
本文旨在提出一种基于无源域自适应的轴承故障诊断策略,主要贡献如下:
1) 无源域数据条件下的领域自适应:模型能在源域数据缺失的场景下,仅凭由源域训练所得模型与目标域数据有效地进行领域自适应。
2) 伪标签生成与动态阈值策略的构建:基于源域训练所获得的模型,为目标域数据生成伪标签,并使用自适应阈值过滤掉不可靠的伪标签,用作后续目标域模型的微调。
本文其余部分安排如下:第2章回顾轴承故障诊断及领域自适应技术的研究进展,特别是无源域自适应的应用与挑战;第3章详细说明本文所提出的无源域自适应轴承故障诊断策略,包含源域模型预训练、伪标签生成与过滤及目标域模型微调等内容;第4章介绍实验数据集与设计,并对比传统域自适应(使用源域数据)与无源域自适应方法之故障诊断性能;第5章总结全文内容,并展望未来研究方向。
2. 相关工作
本章回顾轴承故障诊断领域的研究进展,以及领域自适应技术的应用,并介绍无源域自适应的一些现有方法。
2.1. 轴承故障诊断方法
轴承故障诊断方法可以大致分为基于信号处理的方法和基于数据驱动的方法。传统的信号处理方法,如时域、频域和时频域分析,已广泛应用于轴承故障诊断中[9]。例如,基于时频域特征的快速傅里叶变换[10]、小波变换[11]等方法,能够有效提取轴承故障的关键特征,并通过统计分析[12]进行故障分类。这些方法在简单工况下取得了不错的效果,但在复杂工况或噪声干扰较大的情况下,准确性和鲁棒性较为有限。
随着计算能力的提升,基于机器学习和深度学习的轴承故障诊断方法逐渐成为主流。机器学习方法如支持向量机(SVM) [13]、随机森林(RF) [14]和K近邻(KNN) [15]等,已较多应用于故障诊断,惟上述方法通常依赖大量的人工特征提取。而深度学习方法,尤其是卷积神经网络(CNN) [16]和长短时记忆网络(LSTM) [17],能从原始数据中自动提取多层次的特征,具有较强的自动特征学习能力,逐渐成为轴承故障诊断的研究热点。Tian等[18]提出了残差Wasserstein生成对抗网络(RWGAN-GP),通过引入残差连接和梯度惩罚技术,有效提高不平衡故障数据的生成质量,从而提升故障诊断的准确性。
然而,上述基于机器学习和深度学习的方法通常假设源域和目标域数据的分布一致。在实际应用中,源域和目标域数据之间往往由于工况、型号等改变,存在显著的分布差异,导致模型在目标域上的泛化性能下降[19]。为解决这一问题,领域自适应技术逐渐成为研究热点。
2.2. 领域自适应技术
领域自适应的基本假设是,源域和目标域具有相同的任务(如故障分类),但数据分布不同。源域数据集为
,其中
和
表示源域数据及其对应标签,
为源域中第i个样本,
是源域数据的标签,C为类别数,
为源域样本数据量;目标域数据集为
,其中
表示目标域数据,
为目标域中第j个样本,
为目标域样本数据量。此外,源域
与目标域
数据分别服从不同概率分布
和
,即
。而领域自适应的目标是减小源域和目标域的分布差异,从而提高模型在目标域上的泛化性能。其核心思想是通过学习一个映射函数,令通过该函数映射后的源域和目标域数据在同一特征空间中分布尽可能接近,使得源域上学习到的知识可在目标域上有效地迁移。
较为常用的领域自适应方法可被分为两类,即特征对齐与对抗训练方法。特征对齐通过在深度学习模型中引入了额外的分布度量指标,以减少源域和目标域之间的分布差异。例如,Yang等[20]通过最小化最大均值差异(Maximum Mean Discrepancy, MMD)损失函数来减少源域和目标域数据的分布差异,MMD指标度量了源域与目标域分布间的差异。进一步地,还有多核MMD [21]等改进的分布度量指标。
领域自适应中另一种较为常用的技术是对抗训练(Adversarial Training),这种方法通过在源域和目标域之间创建一个对抗过程来进行训练,目的是使得源域和目标域数据的特征分布尽可能一致。最典型的方法之一是域对抗神经网络[22] (Domain-Adversarial Neural Networks, DANN)。该方法[22]的基本思想来源于生成对抗网络[23] (Generative Adversarial Network, GAN),通常使用一个特征生成器G与一个领域判别器(Domain Discriminator) D进行对抗训练。生成器负责从输入数据中提取特征,而判别器则试图判断输入数据x是来自源域数据还是目标域数据。模型的目标是通过对抗训练使得生成器学习所得特征令判别器无法区别源域与目标域数据,以最小化源域和目标域数据在特征空间中的分布差异,从而实现领域间的对齐。Wu等[24]将DANN和注意力机制相结合,提取域不变的关键特征,缓解噪声干扰,从而提高轴承故障诊断的准确性。
2.3. 无源域自适应技术
无源域自适应的基本假设建立在2.2节领域自适应问题的基础之上,同样包含源域数据集
和目标域数据集
,且二者概率分布不同。进一步地,无源
域自适应的目标是学习一个目标域模型
用于预测目标域样本的标签
,仅能使用预训练获得的源域模型
和无标签的目标域数据
。
目前,针对无源域自适应问题,已有一些方法被提出,有源域替代样本生成、对比学习等方法[25]。
源域替代样本生成方法利用GAN生成源域数据的替代样本,从而解决源域数据无法获取之问题,进而达到领域自适应的目的。例如,条件GAN能够在不使用源域标签的情况下,通过图像到图像的转换方法学习到源域与目标域之间的映射[26]。
而基于对比学习(Contrastive Learning)的方法,通过最大化目标域样本之间的相似度,最小化不同样本之间的距离,从而学习到目标域数据的特征表示。这类方法能够有效减小源域与目标域之间的分布差异,提高目标域模型的泛化能力[27]。
然而,现有的无源域自适应方法主要应用于图像分类、目标检测和语义分割等领域[25],应用于工业故障诊断相关领域的研究较少。
3. 研究方法
本章说明用于无源域自适应滚动轴承故障诊断的模型,该模型主要分为三个主要部分,即源域模型预训练、伪标签生成与过滤及目标域模型微调。
3.1. 源域模型预训练
如图1所示在无源域自适应框架中,首先需在源域上训练一个故障诊断模型,随后利用该模型和相关不确定性指标生成和筛选可靠的目标域伪标签,最后利用目标域数据和伪标签对目标域模型进行微调。由于源域数据通常标签信息丰富,故可利用源域数据进行有监督学习,训练一个基于深度学习的模型。源域模型的任务是学习从轴承振动信号中提取有效特征,并进行故障类型的分类。
选择卷积神经网络作为特征提取器,因其能有效地处理原始信号并提取其时频特征。在源域模型中,输入信号
经过卷积层和池化层提取特征,并经过全连接层,输出一个故障类别的预测
。
在CNN中,卷积层是用于自动提取输入信号局部特征的核心模块,其基本思想是通过局部感受野和共享权重,将原始信号转化为多层次的特征表示。假设
表示第
层中第i个滤波器核提取的特征。下一层中第j个滤波器的经激活函数的特征,记为
,如式(1)计算。
(1)
式中,
为激活函数,*表示卷积,
和
代表权重和偏置。
池化层通常跟随在卷积层之后,用于降低特征图的尺寸,同时保持主要特征。通常采用两种池化层,即最大池化层和平均池化层,分别用来获取特征图的最大值和均值。通过连接多个卷积层与池化层形成特征提取器,处理原始信号并提取数据特征。将所提取的特征展平,连接至分类器的全连接层,预测数据所属故障类别。
源域模型的分类损失函数为交叉熵损失,如式(2)所示。
Figure 1. Structural diagram of the proposed source free domain adaptation model
图1. 本文提出的无源域自适应模型结构图
(2)
其中,
为类别数,
标识源域样本第i个类别的真实标签(若样本属于该类别,则为1,否则为0)。
通过在源域数据上进行训练,源域模型能学习到轴承故障的特征模式,并为后续的无源域自适应提供一个较为有效的初步模型。
3.2. 伪标签生成与筛选
对于传统的领域自适应技术,减小源域和目标域的分布差异较为容易,因其在训练过程中可同时访问源域与目标域数据,从而直接对齐二者的特征分布。而对于无源域自适应,由于无法访问源域数据,模型只能依赖于源域预训练模型和无标签的目标域数据进行领域适应,令对齐源域和目标域的特征分布变得更加困难。
伪标签(Pseudo-Labeling)是一种常用策略,通过使用模型对无标签目标域数据的预测结果作为伪标签,微调预训练的源域模型以提升模型性能。而伪标签可能包含噪声,影响模型后续训练[28]。为提高伪标签的质量,可通过计算模型对无标签数据预测的信息熵,评估预测的不确定性。具体地,信息熵是衡量随机变量不确定性的指标,当模型对某个样本的预测分布趋于集中时,即某一类别的概率远高于其他类别,熵值较低,说明模型对该预测较为自信,伪标签更可靠;反之,熵值较高时,表明模型对某一样本预测分类存在较大不确定性,伪标签或不可靠。目标样本信息熵的计算公式如式(3)所示。
(3)
式中,
表示样本x的预测概率,X为所有目标样本的集合。
利用预训练的源域模型的softmax层,可得到每个目标样本
的一个预测概率分布,
,其中
是类别的总数,每个
表示样本属于类别i的概率。使用该概率分布和式(3),计算样本的信息熵。为使不同类别之间的熵值具有可比性,对熵进行归一化,如式(4)所示。
(4)
其中,
是熵的最大可能值(即当所有类别概率相同时),因此通过除以
将所有熵值归一化到0和1之间。熵值越低,说明模型对该样本的预测越确定。
为了进一步利用这些熵值来筛选每个类别中较为可靠的样本,将所有预测为同一类别c的目标样本的归一化自熵值收集起来,构成集合
,如式(5)所示。
(5)
其中,
表示被模型预测为类别c的目标样本集合。如此,
方为类别c中各个样本的熵值的集合。
为进一步筛选可靠的低熵样本,通过计算每个类别中最小熵值,再取各类别的最小熵值的最大值,得到一个全局自适应阈值
,如式(6)所示。
(6)
该阈值用于筛选每个类别中熵值低于
的样本,从而认定这些样本噪声较低,较为可靠,堪用于构建各类别的故障原型和后续伪标签的生成。
在高维特征空间中,余弦相似度(Cosine Similarity)能够有效反映样本间的方向一致性,不同类别的样本往往在特征方向上具有一定的聚类趋势。通过计算目标样本与各类别故障原型之间的余弦相似度,可较为稳定地判定样本的归属类别,从而选取最匹配的类别作为伪标签。假设
是类别c的原型集合,使用余弦相似度来衡量目标样本
与类别c的原型的相似度
,如式(7)所示。
(7)
对于每个目标样本,计算其与每个类别原型的相似度。计算获得某个目标样本与每个类别原型的相似度后,选择相似度最高的类别作为该目标样本的伪标签,如式(8)所示。
(8)
3.3. 目标域模型微调
前文已完成源域模型预训练,并已生成目标域数据的伪标签,可用于本节目标域模型的微调。目标域模型的初始参数采用预训练所得源域模型的参数。在微调过程中,采用交叉熵损失函数来衡量目标域样本的分类效果,如式(9)所示,计算模型输出与伪标签之间的损失,并反向传播更新模型参数。为避免微调过程中容易出现过拟合现象,采用Dropout等方法来提高模型的泛化能力。
(9)
其中,
标识目标域样本第i个类别按3.2节方法生成的伪标签(若样本属于该类别,则为1,否则为0)
综上,本文所提出的无源域自适应方法的步骤如下:首先,利用带标签的源域数据进行有监督预训练,得到一个源域故障诊断模型,该模型作为后续目标域模型微调的初始参数基础;其次,通过计算目标域样本预测概率分布的信息熵,筛选出低熵(高置信度)的样本,并以此作为构建各故障类别的故障原型的依据;再次,利用余弦相似度计算每一目标域样本与各故障原型的相似性,将相似度最高的类别,作为该样本的伪标签,从而实现对目标域数据的可靠标注;最后,通过使用源域模型的参数对目标域模型进行初始化,利用在双重伪标签生成与筛选机制下获得的目标域样本及其伪标签,对目标域模型进行微调训练,进一步提升模型在目标域数据上的诊断性能和稳定性。
4. 实验结果与分析
4.1. 数据集描述
本文使用的数据集系来自凯斯西储大学(Case Western Reverse University, CWRU)的滚动轴承故障诊断数据集[29]。该数据集广泛应用于工业故障诊断领域,包含了多种负载工况下的轴承振动信号,如正常状态、不同类型的故障状态等。
实验装置如图2所示,含一个2马力的电动机,配备扭矩传感器、测功机和电子控制器。通过电火花加工方法,在滚动轴承的内圈(IR)、外圈(OR)和滚动体(BA)上引入直径尺寸分别为0.007英寸(约0.1778毫米)、0.014英寸(约0.3556毫米)和0.021英寸(约0.5334毫米)的单点故障。前述计9种故障类别,另含正常工作状态(NO),合计10种类别。
振动信号通过安装在电机壳体上的加速度传感器采集,其位于驱动端的12点钟位置,并在多种负载条件下记录,分别为0马力、1马力(约0.735千瓦)、2马力(约1.471千瓦)和3马力(约2.207千瓦)。该振动信号通过16通道数据记录器采集,其采样频率为12,000赫兹。
Figure 2. Experiment apparatus of CWRU rolling bearing dataset
图2. CWRU滚动轴承数据集的实验装置
本文对CWRU数据集进行划分中的目标域数据,通过无源域自适应技术进行轴承故障诊断,探索如何在缺乏源域数据的情况下,利用目标域数据进行高效的故障识别。
4.2. 实验设计
如4.1节所述,CWRU数据集含多种负载条件下采集的数据可供划分领域,且有多种故障类别可供诊断,本文采用滑动窗口法将原始信号切割为多个样本,切分所得的样本(部分)如图3所示。
Figure 3. Samples obtained by segmenting the raw signal using the sliding window method (partial)
图3. 采用滑动窗口法对原始信号切割所得样本(部分)
表1展示了A、B和C三个领域的划分信息,表中还列出了各领域的转速、负载及各故障类别的样本数量。不同领域之间样本数量差异和工作负载条件的变化,使得各领域之间的数据分布存在一定差异,为评估无源域自适应技术在实际工况中解决分布偏移问题提供了依据。
本文所提出的无源域自适应方法利用源域数据,通过有监督学习预训练一个源域故障诊断模型,接着对目标域数据进行伪标签标注与过滤,随后使用源域模型参数对目标域模型参数进行初始化,最后利用筛选后的目标域样本及其伪标签,对目标域模型进行微调。表2展示了前文所提及的源域模型与目标域模型的网络结构。
Table 1. Domain partitioning of the rolling bearing dataset and sample counts for each fault category
表1. 滚动轴承数据集领域划分及各故障类别样本数量
领域编号 |
A |
B |
C |
转速(r/min) |
1797 |
1772 |
1750 |
负载(千瓦) |
0 |
0.735 |
1.471 |
NO |
237 |
471 |
471 |
BA-07 |
118 |
117 |
117 |
BA-14 |
117 |
118 |
118 |
BA-21 |
118 |
117 |
118 |
IR-07 |
117 |
118 |
118 |
IR-14 |
117 |
117 |
117 |
IR-21 |
118 |
117 |
117 |
OR-07 |
118 |
118 |
117 |
OR-14 |
117 |
118 |
117 |
OR-21 |
118 |
118 |
118 |
Table 2. Network architecture of the proposed model
表2. 所提出模型的网络结构
模型 |
层 |
卷积核/神经元数量 |
卷积核尺寸 |
激活函数 |
特征提取 |
Conv1 |
16 |
(32, 2) |
LReLU + BatchNorm |
MaxPool1 |
- |
(2, 2) |
|
Conv2 |
32 |
(16, 1) |
LReLU + BatchNorm |
MaxPool2 |
- |
(2, 2) |
|
Conv3 |
64 |
(8, 1) |
LReLU + BatchNorm |
MaxPool3 |
- |
(2, 2) |
|
Flatten |
1600 |
- |
- |
分类器 |
FC1 |
256 |
- |
LReLU + Dropout |
FC2 |
64 |
- |
LReLU + Dropout |
FC3 |
10 |
- |
LReLU + Softmax |
4.3. 结果与分析
本章对所提出的无源域自适应方法进行实验,通过设计多种实验评估诸方法在不同领域之间的迁移能力。具体地,在A、B和C三个领域间进行迁移,共形成6种不同的迁移任务。本文模型在训练时的损失值如图4所示,可见模型的损失随着训练轮数的增加逐渐降低,在最终阶段达到最小值且几乎无变化,表明了模型的收敛性和稳定性。
为了进一步全面评估各方法的性能,与多种经典的深度学习和领域自适应方法进行了比较:TCA (Transfer Component Analysis)是一种基于特征变换的领域自适应方法,通过最大化源域和目标域的协方差矩阵的相似性,来进行特征对齐;CORAL (Correlation Alignment)通过最小化源域和目标域特征分布的
Figure 4. The training loss curve of the proposed model
图4. 本文模型的训练损失变化曲线
相关性差异来实现领域自适应,从而降低领域间的分布偏移;CNN通过使用源域数据进行有监督训练,然后直接应用于目标域数据进行故障诊断。由于未采取领域自适应策略,该方法仅代表传统的深度学习模型;DANN通过深度对抗训练进行领域自适应。引入一个领域分类器,使得特征提取器学习到的特征在源域和目标域之间无法区分,从而实现领域对齐。
表3展示了上述各方法在不同迁移任务下的分类准确率。图5展示了各方法所提取特征的t-SNE降维可视化。
Table 3. Accuracy (%) of various methods across multiple transfer tasks
表3. 各方法在多个迁移任务下的准确率(%)
方法 |
A→B |
B→A |
A→C |
C→A |
B→C |
C→B |
平均 |
TCA |
46.91 |
33.18 |
47.85 |
45.63 |
43.95 |
42.82 |
43.39 |
CORAL |
35.34 |
21.68 |
35.04 |
20.38 |
33.81 |
33.01 |
29.88 |
CNN |
74.36 |
75.69 |
73.49 |
74.64 |
70.86 |
71.22 |
73.38 |
DANN |
83.95 |
83.22 |
83.57 |
84.67 |
77.23 |
75.11 |
81.29 |
本文 |
95.56 |
94.49 |
96.77 |
94.38 |
95.24 |
93.75 |
95.03 |
TCA和CORAL作为两种浅层的域自适应方法,通过特征变换来减小源域和目标域之间的分布差异。虽然这些方法在某些领域间迁移时表现出一定的效果,但二者的性能整体上较为有限,尤其在目标域与源域差异较大的情况下。二者平均准确率分别为43.39%和29.88%,性能相对较低,表明其在处理复杂的领域迁移问题时的局限性。
CNN作为一种传统的深度学习方法,其在源域上进行训练后直接迁移到目标域,其准确率为73.38%,性能相较前二者有所提升。然而,由于未考虑领域自适应,该方法在处理领域间的分布差异时缺乏有效的对齐策略,导致其在某些领域迁移上的效果较弱。
Figure 5. t-SNE visualization of different methods (using transfer task A→B as an example): (a) TCA; (b) CORAL; (c) CNN; (d) DANN; (e) Proposed Method
图5. 各方法的t-SNE可视化(以迁移任务A→B为例):(a) TCA;(b) CORAL;(c) CNN;(d) DANN;(e) 本文
DANN通过引入对抗训练来减小源域和目标域的分布差异,取得了较好的效果。其准确率为81.29%,在迁移时的表现优于TCA、CORAL和CNN,能较好地应对源域与目标域之间的分布差异。
本文方法主要采用了伪标签生成与过滤的方法,在所有领域间的迁移表现上都取得了最优的结果,表明本文方法能够有效减少目标域数据的标签噪声,提高故障诊断的准确性。该方法不仅在大部分领域的迁移上表现优异,还能较好地适应不同领域间的分布差异,平均准确率达95.03%。
5. 结论
本文提出的无源域自适应方法在滚动轴承故障诊断任务中取得了较好结果,在多个迁移任务中均展现了卓越的性能,平均准确率达95.03%,在源域与目标域之间的分布差异较大的情况下,依然能有效地提高故障诊断的准确性,较好地解决了源域数据缺失条件下领域自适应的问题。
本文方法的核心在于双重伪标签生成与筛选机制:首先,通过信息熵计算并筛选可靠的低熵故障原型样本,以减少伪标签中的噪声干扰;然后,基于余弦相似度衡量目标域样本与故障原型的匹配程度,从而生成更可靠的伪标签。这一策略不仅提高了目标域数据的伪标签质量,还增强了目标域模型微调过程中的收敛性与稳定性,最终有效提升了故障诊断性能。
本文提出的方法在无源域自适应轴承故障诊断中展现了良好的效果,而当前的双重伪标签生成与过滤策略主要依赖于熵值和相似度计算,未来的研究或可探索更多无源域自适应的伪标签筛选方法,以进一步提高伪标签的质量。
基金项目
本工作受国家自然科学基金(61903251)资助。
NOTES
*通讯作者。