轴承的剩余使用寿命预测
Prediction of the Remaining Useful Life of the Bearing
DOI: 10.12677/aam.2025.143100, PDF, HTML, XML,   
作者: 贾小林, 刘 佳:青岛大学数学与统计学院,山东 青岛
关键词: 轴承预测分类器Bearing Prediction Classifiers
摘要: 轴承在现代机械设备中具有广泛的应用,其主要功能是支持旋转或线性运动部件,减少摩擦,承载负荷,确保设备平稳运行。对轴承进行剩余使用寿命预测,不仅可以减少故障风险和不必要的停机时间,还能降低维护成本,提高设备的可靠性与生产效率,是企业管理设备资产、提升生产水平的重要手段。本文对一轴承的振动频率数据集进行特征提取,进而分析提取到的特征使用不同的分类方法对轴承的剩余使用寿命进行预测。
Abstract: Bearings have a wide range of applications in modern machinery and equipment, and their main function is to support rotating or linear moving parts, reduce friction, carry loads, and ensure the smooth operation of equipment. Predicting the remaining service life of bearings can not only reduce the risk of failure and unnecessary downtime, but also reduce maintenance costs, improve equipment reliability and production efficiency, and is an important means for enterprises to manage equipment assets and improve production levels. In this paper, the vibration frequency dataset of a bearing is extracted, and then the extracted features are analyzed, and the remaining service life of the bearing is predicted by different classification methods.
文章引用:贾小林, 刘佳. 轴承的剩余使用寿命预测[J]. 应用数学进展, 2025, 14(3): 140-148. https://doi.org/10.12677/aam.2025.143100

1. 引言

轴承作为易损伤部件,并且长期在恶劣的工作环境中高负荷运行,不可避免地会出现故障,这会导致经济损失,引发安全事故[1]。因此,为了保障现代机械设备的安全平稳运行,对轴承零件进行剩余使用寿命预测是非常必要的[2]。在本文中,我们从初始数据中提取特征,再分别使用LightGBM和Catboost分类器进行分类,从而对轴承的剩余使用寿命进行预测。

LightGBM (Light Gradient Boosting Machine)是一种高效的分类器,是由微软研究院开发,旨在提高传统GBDT模型的训练速度和性能,特别是在大数据和高维数据场景下[3]。LightGBM被广泛应用于各种机器学习任务中,可以用于解决金融风险预测,欺诈预测,文本分类,图像分类,个性化推荐,广告点击率预测等各种问题。Catboost (Categorical Boosting)是一个能够高效处理类别数据的分类器,由俄罗斯Yandex公司开发,基于梯度提升树(Gradient Boosting Tree)算法的实现。可以应用于信用评分预测,用户推荐系统,疾病预测,自然语言处理等众多方面。

2. 预备知识

2.1. 梯度提升决策树算法(Gradient Boosting Decision Trees, GBDT)

梯度提升决策树(GBDT)是以决策树为基础学习器的一种提升算法,它在每一轮迭代中都建立一个决策树,使得当前模型的残差在梯度方向上逐步减少,然后将这个决策树与当前模型进行线性组合得到一个新的模型,根据这个迭代不断进行循环,直到决策树数目达到预期的值,得到最终的学习器[4]。GBDT经过这一系列的迭代得到了性能更强,准确性更高,适用性更强,鲁棒性更高的学习器。并且在金融领域可以解决信用评分,反欺诈检测,风险预测等问题。在自然语言处理领域,可以解决文本分类,情感分析等问题。

GBDT回归算法:

输入:训练集 D= { ( x i , y i ) } i=1 m ,其中 x i X R d , y i YR ,损失函数 L

过程:

1. 初始化模型 H 0 ( x ) ,估计使损失函数最小化的常数值 γ ,初始模型是只有一个根节点的树。

H 0 ( x )= argmin γ i=1 m L( y i ,γ )

2. 对迭代轮次 t=1,2,,T

对样本 i=1,2,,m ,计算当前模型的广义残差:

r ti = [ L( y y ,H( x i ) ) H( x i ) ] H( x )= H t1 ( x )

利用 ( x i , r ti ),i=1,2,,m 拟合回归树,得到第 t 棵树的叶结点区域 R tj ,j=1,2,,J

对每个叶结点区域 R tj ,j=1,2,,J ,计算能使区域 R tj 损失函数最小化的最佳预测值 γ tj

γ tj =arg min γ x i R tj L( y i ,H( x i )+γ )

得到本轮最佳拟合回归树:

h t ( x )= j=1 J γ tj I( x R tj )

更新本轮迭代的加法模型:

H t ( x )= H t1 ( x )+ h t ( x )= H t1 ( x )+ j=1 J γ tj I( x R tj )

得到最终的增强学习器:

H( x )= H T ( x )= t=1 T j=1 J γ tj I( x R tj )

输出:回归树 H( x )

2.2. 网格搜索(Grid Search)

网格搜索是一种用于超参数优化的技术,广泛应用于机器学习模型的调优过程中。其主要目标是通过遍历给定的超参数空间,选择最优的超参数组合,从而提升模型的性能[5]。网格搜索不仅简单而且易于理解,还可以保证找到超参数空间中所有可能的组合,从而确保不会遗漏任何最佳参数。

假设有一个模型有两个参数需要进行调参,分别为C和gamma,C的值可以是[0.1, 1, 10],gamma的值可以是[0.01, 0.1, 1]。我们可以把参数的所有可能取值列出来,用表格进行表示,循环过程就是在每个网格里遍历,搜索。表1是参数所有可能出现的组合情况。

Table 1. Possible values for parameters

1. 参数可能取值

C = 0.1

C = 1

C = 10

gamma = 0.01

C = 0.1, gamma = 0.01

C = 1, gamma = 0.01

C = 10, gamma = 0.01

gamma = 0.1

C = 0.1, gamma = 0.1

C = 1, gamma = 0.1

C = 10, gamma = 0.1

gamma = 1

C = 0.1, gamma = 1

C = 1, gamma = 1

C = 10, gamma = 1

3. 方法

本文共介绍了两种方法进行轴承的剩余使用时间预测,第一可以通过计算均方根(root mean square, RMS)来寻找轴承发生故障的时间节点,第二可以考虑更多的特征,计算更多的特征进行整合,寻找出最重要的几个特征,使用分类器进行分类从而对轴承的剩余使用时间进行预测。

3.1. RMS方法

这是一种异常值检测的基线方法,我们知道加速度的RMS是检测轴承故障的一个很好的指标[6],所以我们可以计算每15步长的RMS值,RMS的计算公式为:

x rms = 1 N i=0 N x i 2

σ= 1 N i=0 N ( x i μ ) 2

计算完RMS值之后,我们可以根据RMS值的变化趋势确定一个轴承是否健康的阈值,然后得到阈值内RMS值的范围,超出范围的值我们视为轴承出现了故障。

3.2. 分类器方法

使用原始振动信号并不是我们可以采取的最佳方法。传统观点认为,在波形中应用信号处理技术,压缩、分析和解释数据,并提取有用的信息以用于进一步的诊断和预测。我们可以通过提取时域和频域中的特征来分析波形[7]

时域特征:

1. 统计矩(均值,方差,偏度,峰度)。

2. 香农熵:

H( x )= i=1 n P( x i ) log 2 P( x i )

P( x i ) 是事件 x i 发生的概率。将输入的数据分成500份,计算每个区间中数据出现的频次。

3. 平滑性和均匀性

S( f )= a b ( d n d x n f( x ) ) 2 dx

U( x )= 1 n i=1 n | x i μ |

4. 绝对值,峰值到峰值

P2P=max( x 1 , x 2 ,, x n )min( x 1 , x 2 ,, x n )

5. 形状因子,峰值因子,脉冲因子,余量因子:

= RMS 1 T i=1 n | x i |

= max( | x 1 |,| x 2 |,,| x n | ) RMS

= max( | x 1 |,| x 2 |,,| x n | ) 1 T i=1 n | x i |

= max( | x 1 |,| x 2 |,,| x n | ) RMS

6. 自回归系数

频域特征:

1. 机器特征频率下的振动水平;

2. 频率中心;

3. 均方频率和均方根频率。

f i 是第 i 个频率点的频率, S( f i ) 是频率 f i 处的功率谱密度值(或振幅的平方)。

f MS 2 = i f i 2 S( f i ) i S( f i )

f RMS = f MS 2

4. 频率的方差,频率的根方差

σ f 2 = i ( f i f mean ) 2 S( f i ) i S( f i )

5. 谱偏度,谱峰度,谱熵

γ = i ( f 1 f mean ) 3 S( f i ) ( i ( f i f mean ) 2 S( f i ) ) 3 2

β = i ( f i f mean ) 4 S( f i ) ( i ( f i f mean ) 2 S( f i ) ) 2

H( f )= i S( f i ) S total log 2 ( S( f i ) S total )

对于时域特征根据计算公式进行计算,对于频域特征我们使用包装函数来进行特征提取,以谱密度为例,首先计算谱密度,然后从谱中返回统计矩和一些其他的特征,比如说谱的熵,信号的功率等,然后根据转速频率将谱分成三部分,低于转速频率的是低频区域,在转速频率和10倍转速频率之间的是中频区域,高于10倍转速频率的是高频区域,最后将这一方法推广到所有频域特征中。我们将提取到的上述特征放在一个包装器中,然后添加一些标签到数据集中,有正常、内圈损坏和外圈损坏三个特征,并且将他们储存在一个文件中。然后训练一个随机森林模型用来提取特征的重要性,我们得到前10的重要特征,根据这前10重要的特征,分别使用LightGBM和Catboost分类器对数据进行分类,从而确定滚动轴承的健康状态。

4. 实例验证

4.1. 数据集

数据集来源kaggle,链接为https://www.kaggle.com/datasets/vinayak123tyagi/bearing-dataset。该数据集描述了一个轴承从开始测试到测试失败的实验,四个轴承安装在一根轴上,旋转速度恒定在2000 RPM,且所有轴承都是强制润滑的。数据集由单独的文件组成,这些文件是以特定间隔记录的1秒振动信号快照,每个文件由20,480个点组成,文件名指示数据收集的时间,我们使用的数据集1共有2156个文件,记录了8个频道的数据。图1是2003年10月22日的一个时刻的八个频道的数据:

Figure 1. Data for eight channels on 22 October 2003

1. 2003年10月22日八个频道数据

4.2. 结果

4.2.1. RMS方法

首先以15个数据点为一个区间计算加速度的RMS值,得到的结果如图2所示,由RMS值的趋势,轴承3和轴承4是非正常的,由此我们将前25天看做正常,计算前25天最大标准差出现的次数,结果如图3所示,得到最大的RMS值为1.2562,将这个值设为正常的阈值,超过这个值的部分我们定义为故障。从图4我们看到轴承4在30天之前(即实验结束前5天)可靠地处于检测到的异常值状态。对于轴承3,在23.1天和26.1天后可能会有两次误报,但在30.9天后,我们得到了我们认为是正确的结果。

Figure 2. RMS value

2. RMS值

Figure 3. The number of times different RMS values occur

3. 不同RMS值出现的次数

Figure 4. Bearing failure results

4. 轴承故障结果

4.2.2. 分类器方法

使用随机森林的方法,我们得到的重要性排名前20的特征如图5所示。

Figure 5. Top 20 characteristics in importance

5. 重要性排名前20特征

下面使用重要性排名前十的特征进行后续的验证。首先,将数据集分为训练集和测试集,其中训练集占总数据集的70%,测试集占总数据集的30%,然后使用网格搜索进行了10倍三次重复交叉验证找到最优的梯度增强分类器。下面分别使用上面得到的最优的梯度增强分类器,LightGBM分类器和迭代次数为1000次,树的深度为10,学习率为0.05的Catboost分类器分别进行预测。表2是三种不同分类器预测的精确度以及运行的时间比较。

Table 2. The accuracy of the forecast

2. 预测的精确度

梯度增强分类器

LightGBM

Catboost

Accuracy

0.94

0.9417

0.9471

Time

3.5 h

9 s

1 m 29 s

梯度增强分类器是一个基础的算法,通过迭代构建决策树,然后每次迭代都试图更改之前的错误,最小化损失函数,但是梯度增强算法的时间成本更多,实现起来更加缓慢。LightGBM分类器是一个基于直方图的决策树算法,这个算法通过构建直方图,加速算法的实现,这个算法支持特征和数据并行计算,所以运行效率更高,更加适合大规模的数据。Catboost分类器也是一种梯度提升算法,但其针对类别特征进行了优化,能够处理类别特征有效防止过拟合,这个算法使用有序提升算法,可以有效防止信息泄露,提高训练速度。

5. 总结

我们使用了三种不同的分类器,以此来确定滚动轴承的健康状况,并且识别故障类型。我们在特征提取和减少方面进行了很多实验,这使得我们在测试集上取得了高于90%的准确率,这说明我们的工作是有意义的。除此之外在测试集上的预测存在一部分无意义的结果,但这部分的存在是合理的,这是从正常到故障的过渡部分,如何减少没有意义的预测结果使得正常与故障的界限更加清晰是我们需要解决的一个问题。

参考文献

[1] 郭玉荣, 茅健, 赵嫚. 基于CNN与注意力BiLSTM的轴承剩余使用寿命预测方法[J]. 上海工程技术大学学报, 2023, 37(1): 96-104.
[2] 范强飞, 廖爱华, 丁亚琦. 基于RVM和WPHM的滚动轴承剩余寿命预测[J]. 上海工程技术大学学报, 2019, 33(4): 334-338.
[3] 胡澜也, 蒋文博, 李艳婷. 基于LightGBM的风力发电机故障诊断[J]. 太阳能学报, 2021, 42(11): 255-259.
[4] Friedman, J.H. (2001) Greedy Function Approximation: A Gradient Boosting Machine. Annals of Statistics, 1189-1232.
https://doi.org/10.1214/aos/1013203451
[5] 赵玉程, 李英建, 沈世民, 等. 基于网格搜索和投票分类模型的喷油器故障诊断研究[J]. 机床与液压, 2024, 52(5): 213-220.
[6] Qiu, H., Lee, J., Lin, J. and Yu, G. (2006) Wavelet Filter-Based Weak Signature Detection Method and Its Application on Rolling Element Bearing Prognostics. Journal of Sound and Vibration, 289, 1066-1090.
https://doi.org/10.1016/j.jsv.2005.03.007
[7] 李立森. 基于时域和频域信息融合的股票趋势预测模型[D] : [硕士学位论文]. 济南: 山东大学, 2023.