奇异值分解与深度学习在轴承故障诊断中的应用

doi:10.12677/DSC.2018.71001

期刊菜单

奇异值分解与深度学习在轴承故障诊断中的应用
Application of Singular Value Decomposition and Deep Learning in Bearing Fault Diagnosis

DOI: 10.12677/DSC.2018.71001, PDF, HTML, XML,
作者: 华智力, 吴青娥, 陈虎, 李康宇：郑州轻工业学院电气信息工程学院，河南郑州；刘磊：郑州轻工业学院建筑环境工程学院，河南郑州
关键词: 滚动轴承；奇异值分解；深度信念网络；故障诊断；Rolling Bearings； Singular Value Decomposition； Deep Belief Nets； Fault Diagnosis

摘要: 滚动轴承作为机械设施不可或缺的零部件，为了避免不堪设想的后果我们应该及时发现故障。为了解决这一问题，本文提出由奇异值分解(SVD)对波形进行特征提取，并将其提取的特征作为深度信念网络(DBN)的输入并进行故障诊断。该方法先对原始输入波形信号进行采样、重构和奇异值分解，然后将分解后的值视为特征，将其输入模型进行诊断。实验结果表明：经过多次实验后，与支持向量机(SVM)方法比较，本文提出方法的诊断故障准确率均值为98.4%，方差为0.42，诊断速度为0.3秒，而现有SVM诊断方法的诊断准确率均值为94.7%，方差为0.50，诊断速度为0.6秒。说明本文方法有很好的精确性、稳定性和快速性，与传统方法比较该方法优势在于精确性有了进一步提高。

Abstract: Rolling bearings are important parts of mechanical equipment, if not timely detection of failure will cause significant losses. In order to solve this problem, this paper proposes the feature extraction of the waveform by singular value decomposition (SVD), and input the extracted feature into the deep belief network (DBN) for fault diagnosis. Firstly, the input signal is reconstructed and is decomposed by singular value, and then the singular value is taken as the characteristic, which is taken as the input of the deep belief network (DBN) for fault diagnosed. Experiments show: In many experiments, comparison with existing support vector machine (SVM) fault diagnosis method, the accuracy of the proposed method is 98.4%, the variance is 0.42, the diagnostic speed is 0.3 seconds, and the diagnostic accuracy of the existing SVM diagnostic method is 94.7%, the variance is 0.50, and the diagnostic speed is 0.6 second. The method proposed has good accuracy, stability and fastness.

文章引用：华智力, 吴青娥, 刘磊, 陈虎, 李康宇. 奇异值分解与深度学习在轴承故障诊断中的应用[J]. 动力系统与控制, 2018, 7(1): 1-10. https://doi.org/10.12677/DSC.2018.71001

1. 引言

滚动轴承在各种机械设备中应用广泛，小到汽车制造行业，大到重型机械、飞机轮船都能见到它们的身影。如果不能及时发现机械设备中的轴承损伤，其后果不堪设想。不管是机械损失，还是财产、人员损失，这些损失都是人们不想看到的，也是应该可以避免的，所以对滚动轴承进行监测和诊断必不可少。

大部分关于非平稳信号问题，首要任务都是提取表征初始信号的有效信息，轴承故障分类也不例外，也需要这样处理。轴承故障诊断由早期的人工检测到后来的计算机检测直到今天的智能化检测，现在人工智能检测方法很多，但是在机械故障诊断中应用最为广泛的还是支持向量机(Support vector machine, SVM)和神经网络。直至今日，中外的研究者们已经提出过很多科学的方法，其中就包括人工神经网络和支持向量机。Kankar等人利用多项逻辑回归与WPT相结合的方法来诊断故障 [1] 。Huang等人提出了一种基于改进的SVM的多故障诊断方法，该方法结合了经验模式分解方法和径向基核函数 [2] 。王欣彦等利用神经网络完成了对转子裂纹故障的定量精确识别 [3] 。姜涛等人对传统小波神经网络模型改进，使其能够对轴承故障有效诊断 [4] 。上述几种方法都能对故障进行有效的诊断，但是这几种方法在多分类或者精度上都有着自己的不足。

由于各种不同的因素我们采集的信号会渗杂一些噪声。奇异值分解原理如图1(a)中所示的，经过该过程原始信号变为了比较纯净的重构信号。因此，本文结合初始信号的特点，提出了如图1(b)所示的流程进行诊断。

(a) (b)

Figure 1. Algorithm structure

图1. 算法流程

2. 背景知识

2.1. SVD的特征提取算法

2.1.1. 奇异值分解原理

采样序列为 $y = {x_{1}, x_{2}, x_{3}, \dots, x_{k}}$ ，其长度为K的电机振动采样数据，可以由y构造一个 $m \times n$ 的矩阵D，然后我们利用Hankel矩阵对离散信号y进行构造 [5] ，构造的D如下：

$D = (\begin{matrix} x_{1} & x_{2} & \dots & x_{n} \\ x_{2} & x_{3} & \dots & x_{n + 1} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{m} & x_{m + 1} & \dots & x_{m + n - 1} \end{matrix})$ (1)

式中，D是 $m \times n$ 维。D的分解表达式为：

$D = U S V^{T}$ (2)

式中， $U$ 是 $m \times m$ 维， $V$ 是 $n \times n$ 维， $S$ 是 $\min {M, N}$ 维。表达式如下：

$\begin{array}{l} U = [u_{1}, u_{2}, \dots, u_{M}] \in R^{M \times M}, \\ V = [v_{1}, v_{2}, \dots, v_{N}] \in R^{N \times N}, \\ D = [diag [λ_{1}, λ_{2}, \dots, λ_{Q}], 0] (Q = \min {M, N}) \end{array}$ (3)

$D$ 分解后的值向量为 $(λ_{1}, λ_{2}, \dots, λ_{Q})$ ，其中 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{Q}$ 。并将 $λ_{i} (i = 1, 2, \dots, Q)$ 的值视为模型特征。

2.1.2. 轴承故障特征提取

对于机械轴承的初始信号 $y = f (x)$ ，对其采样得到尺寸为k序列 $x_{1}, x_{2}, x_{3}, \dots, x_{k}$ 。将序列进行矩阵构造(Hankel矩阵)、然后将其分解并将分解后得到的奇异值 $λ_{1}, λ_{2}, \dots, λ_{Q}$ 视为初始信号的特征。由于奇异值的特点：值越大越能反映该值对于初始信号的重要性，值越小往往反映为该值对信号影响小，比较小的值往往是噪声的体现。因此选取适当数量的较大奇异值，然后将其视为故障特征。

2.2. 深度学习方法

深度学习算法是多层网络，而单层网络是非线性的，所以它具有更好的数学表达能力。深度信念网络(deep belief nets, DBN)是由Hinton等人在2006年提出来的,它是在受限玻尔兹曼机基础上构建的 [6] 。(RBM) Roux和Bengio从理论上证明，只要网络单元足够多，RBM就能够拟合任意离散分布的信号 [7] 。在该算法中，从输入层开始每相邻两层组成一个受限玻尔兹曼机，这些玻尔兹曼机连接在一起，构成一个深度信念网络(DBN)。在DBN中上层网络会从下层网络中提取更高阶的特征，它是一种无监督的深度学习算法。RBM是由1个显示层v，一个隐藏层h组成的，它的特点是层间相互连接，层内相互独立的结构。受限玻尔兹曼机结构图如图2所示。图中的底部神经元v为显示层，W为两层相互连接层的连接权值矢量，上层神经元h为隐藏层。

RBM是一个层间相互独立并且全连接的条件概率模型。因此想得到每个隐层神经元的状态，可以借助于概率 $P (h / v) = \prod_{j = 1}^{N} p (h_{j} / v)$ ，前提是显层状态已知。这里假设隐藏层单元个数为n。同样，通过隐层状态求导显层状态模式一样，只不过依赖的条件概率为： $P (v / h) = \prod_{i = 1}^{M} p (v_{i} / h)$ ，这里假设显层单元个数为M。在设计RBM时，我们需要设计显示层维数(等于输入数据维度大小)和隐藏层单元数目(提前设定)。假设训练一个RBM模型，可见层单元数目M，偏置为m维列向量，隐藏单元数目n，偏置为n维列向量，这样就需要训练 $(M \times N + m + n)$ 个值。RBM的训练算法采用CD [8] 算法，详细步骤如下：

第一步，初始化连接权重W，根据网络的训练规则，定义激励函数表达式为 $h = W \times x + a$ ，这里 $x = (x_{1}, x_{2}, \dots, x_{M})$ ，确定隐藏层的输入值;

第二步，将第一步得到的激励函数h作为隐藏层的输入，由网络稳定性要求，定义隐藏层神经元的

开启状态函数即开启状态的概率值 $p (h_{j}) = \frac{1}{1 + e^{- h_{j}}}$ ，隐藏层输出的激励函数采用logistic函数 $f (x) = \frac{1}{1 + e^{- x}}$ ，通过上述计算公式计算出每个隐藏神经元开启状态的概率值。用0代表关闭状态，用1

代表开启状态。由于隐层神经元的状态为二值，则为了确定每个隐元的状态，需要确定一个0，1均匀分布的概率分布 $u = U (0, 1)$ ，将每次训练得到的概率 $p (h_{j} = 1)$ 与随机得到的u比较，公式如下：

$h_{j} = {\begin{matrix} 1, & p (h_{j} = 1) \geq u \\ 0, & p (h_{j} = 1) \leq u \end{matrix}$ (4)

第三步，确定显层神经元开启状态。计算方法与第二步相似。

通过CD算法得到的训练结果为整体次优分布。进行DBN的训练时，采用贪心算法，即假设每一步得到的RBM视为每一层的最优结果，然而对整个DBN来说结果是次优的，为了得到全局最优的理想结果，下一步就是进行全局微调。DBN具体训练过程如下 [9] ：

第一步，训练第一个RBM模型；

第二步，固定第一步得到的权值和偏置，将输出结果当作下一个RBM的输入；

第三步，根据设计的隐层数，确定下一个RBM。计算方法与前两步相同；

第四步，进行全局调优。

Figure 2. Restricted Boltzmann model

图2. 受限玻尔兹曼机模型

3. 奇异值分解与深度学习在轴承故障诊断中的应用

3.1. 数据预处理

机械设备中轴承原始数据为模拟信号，需要对信号进行离散采样，实验验证所使用的轴承故障数据由凯斯西储大学提供。这些数据来自于一个测试驱动系统，实验仪器主要部件是一个马达、一个力矩传感器和一个测力计。马达由6205-2RS JEM SKF轴承支撑。轴承被研究的位置为内圈、滚珠、外圈3点位置(这里简称外圈故障位置1)、外圈6点位置(这里简称外圈故障位置2)、外圈12点位置(这里简称外圈故障位置3)，故障是通过电火花加工由人工给定的单点故障，采样频率为12k赫兹。图3数据的类别从上到下依次是健康、滚珠故障、内圈故障、外圈位置1故障、外圈位置2故障、外圈位置3故障。

轴承的转速为1797 r/min，根据旋转频率轴承旋转一周大约采集400个点，所以每400个采样点作为一次采样结果。为了能够更加全面的反映数据，在第一次采样基础上向后推移10个采样点，作为第二批采样数据，以此类推，直到推移轴承旋转一周时，采样点数为400个为止。

3.2. 奇异值分解进行特征提取

在对数据进行处理后，接下来进行奇异值分解，离散序列为 $x_{i} (i = 1, 2, \dots, 400)$ 表示第i个采样点。根据Hankel矩阵构造规则，构造y为矩阵 $A (50 \times 350)$ 如下式：

$A = (\begin{matrix} x_{1} & \dots & x_{350} \\ ⋮ & ⋱ & ⋮ \\ x_{50} & \dots & x_{400} \end{matrix})$ (5)

由于不同信号之间存在差异，所以得到的奇异值也存在差异，图4为不同故障所得到的奇异值，从图中可以看出奇异值前25维有明显的区别，这里选择前25维作为特征向量。

Figure 3. Bearing vibration signal

图3. 轴承振动信号

Figure 4. Singular value distribution curve

图4. 奇异值分布曲线

3.3. 模型训练

经过奇异值分解后的特征向量经过归一化处理后才能输入BDN模型。DBN是一个概率模型，不能够直接用作故障诊断模型，需要进行相应的设计。为了能够进行多分类，需要在模型的顶层添加分类器y，这里选用softmax分类器。DBN模型如图5所示，模型在进行数据识别时，先将从数据中得到的特征向量输入input层，然后经过一层一层的隐藏层后到达softmax层进行识别，最后得到数据的分类结果。

大量研究证明，理论上网络结构越深，网络结构越复杂，表达数据的能力也越强。但是网络结构越深，意味着训练的困难程度越大、稳定性越差、速度越慢，难以进行合适的训练，结果反而更不理想。在设计DBN时我们需要考虑网络的深度、各个隐层神经元数目以及训练过程中要考虑怎样初始化权值和偏置。

3.3.1. DBN网络深度

实验选择的隐藏层的层数及每层神经元的个数为下面a，b，c，d四种情况，结构图如图6所示。

通过这四种不同深度的DBN模型，对给定的输入数据进行分类识别。由仿真结果知，在同一样本情况下，采用不同深度模型其分类结果不同。这四种不同深度的DBN分类器对测试集的识别精度比较结果如表1所示。

从上表可以看出，DBN分类器精度随着隐层数目的增多先上升后下降，不难发现当隐层数目为3层时精度达到最高，因此这里选择隐藏层的层数为3。

3.3.2. 隐藏层单元个数

Hinton在2012年的研究 [10] 中指出，模型的训练过程中，用来表征样本的类别需要的比特数，通常等于一个训练样本施加在参数上的约束项的数量，可以用如下表达式计算：

Figure 5. DBN classifier structure

图5. DBN分类器结构

(a) (b) (c) (d)

Figure 6. DBN four different depth classifiers

图6. DBN四种不同深度的分类器

Table 1. Recognition accuracy of BDN at different depths

表1. 不同深度BDN的识别精度

$bits = - \log_{2} x$ (6)

公式中，x是样本的类型数。确定比特数后，用其乘上训练集的容量，在这个结果基础上选择比其低一个数量级的值作为隐元个数 [8] 。对于高度冗余的训练集，可用更少的隐层神经元。可以用如下表达式计算：

$N_{p} = N_{s} \times bits / 10$ (7)

其中 $N_{p}$ 代表隐元数目， $N_{s}$ 代表训练集容量，根据以上公式(6)、(7)设置3个隐层神经元数目分别为100，100，200。

3.3.3. 权重初始化、批量选择和全局优化算法选择

在进行DBN模型的参数训练时，模型被训练的步骤主要包括以下两步：

第一步，贪心逐层训练。首先初始化每一个参数(包括每一层的权值和偏置)，一般情况下，将每一层之间的权值W按照正态分布N(0,0.01)生成的值进行赋值 [10] ，而对于所有偏置设置为0。学习率应该在0到1之间，根据样本训练经验，在实验过程中学习率选为0.1比较合适，所以这里选择学习率为0.1。

更新DBN全部参数时，综合考虑计算量和训练时间应该选择小批量训练数据，即每次从全体训练集中选取一个容量小一点的数据集。再进行小批量训练时，批量容量大小的选择至关重要，如果批量选得太小则训练不够充分；如果选择批量容量太大则容易错过最优点。Geoffrey Hinton [10] 给的建议是，若数据集中数据类别是等概率的，则批量的理想尺寸应该与样本类别的总数量相等，并且尽可能批量中包含每个类别的样本。反之，凭经验选择10~100视为小批量容量。本实验数据集是等概率类别，我们选择的批次大小为6，选取每6个为一个小批量将训练集分批训练。在使用小批量数据后，在更新参数过程中也需要做相应的修改 [11] ，通常使用平均梯度，表达式如下式：

$θ^{(t + 1)} = θ^{(t)} + ε (\frac{1}{B} \sum_{t^{l} = B \times t + 1}^{B (t + 1)} \frac{\partial \log P (v^{t^{l}} / θ)}{\partial θ})$ (8)

B为小批量的容量。

第二步，使用监督算法进行整体微调并进行识别。对整个网络用普通神经网络训练方法进行参数调整，在方法选择上分别采用随机梯度下降法(SGD)、动量项学习率法(Mom) [10] 、Adagrad变学习率法 [12] 。训练结果如图7所示。

图中横坐标为迭代次数，纵坐标为精度。由仿真可以得出，当应用Adagrad变学习率进行全局训练时精度最高，因此选择Adagrad变学习率进行识别。

3.4. 实验结果分析

本实验采取交叉验证方法。每一种类型数据的训练样本和测试样本的比例都设定为9:1，每次都是随机抽取训练样本，剩余为测试样本。进行10次实验，10次实验的结果如图8所示。

Figure 7. Global training accuracy

图7. 全局训练精度

经过十次实验，奇异值DBN方法对轴承故障数据的分类识别精度分别是：0.997、0.982、0.979、0.991、0.975、0.982、0.985、0.99、0.98、0.984。求这10次精度的均值为98.4%，

方差是0.42。说明本文给出的奇异值DBN方法是可行有效的。

3.5. 奇异值DBN方法与现有识别方法的比较

为了验证采用本文方法进行故障诊断的优越性，本文还同时与小波变换、支持向量机、小波神经网络等方法进行了对比，结果如表2所示。由仿真结果知，本文给出的奇异值DBN方法对轴承故障的识别效果比现有这几种识别方法要好，因为本奇异值DBN方法不但具有较高的识别精度，而且稳定性好、鲁棒性强。

通过对比以上四种方法可以看出，采用本文奇异值DBN方法得到的精确度最高，其中本文方法的准确率为：98.4%，采用小波变换平均精确度为92.6%，采用支持向量机平均精确度为94.7%，采用小波神经网络精确度为95.3%。

4. 结论

实验使用的初始信号为轴承振动信号，由于各种原因，信号中难免会混入噪声，所以选择如本文图1所示流程进行轴承多故障诊断实验，最后的模型为深度信念网络。实验结果表明，采用本文给出的奇异值DBN方法是一种有效轴承故障方法，其对轴承的故障识别的正确率为98.4%。该方法优缺点总结如下：

Figure 8. 10 experimental results

图8. 10次实验结果

Table 2. Comparing results

表2. 比较结果

1) 首先对数据集进行了特征提取，可以滤除掉一部分的噪声，同时结合使用能够更好拟合数据的深度学习方法，所以能够取得更好的精度。

2) 本文应用的深度学习方法需要充足的数据作为支撑，实验数据以及应用数据需要充足，如果没有充足的数据作为支持，效果可能会很不理想。

3) 迁移学习可以进一步解决(2)中涉及的缺点，因此在数据不够充足的情况下可以借助与迁移学习、深度学习结合方法来进行一定的补偿。

NOTES

^*通讯作者。

参考文献

[1]	Kankar, P.K., Sharma, S.C. and Harsha, S.P. (2011) Rolling Element Bearing Fault Diagnosis Using Wavelet Transform. Neurocomputing, 74, 1638-1645. [Google Scholar] [CrossRef]
[2]	Huang, J., Hu, X. and Yang, F. (2011) Support Vector Machine with Genetic Algorithm for Machinery Fault Diagnosis of High Voltage Circuit Breaker. Measurement, 44, 1018-1027. [Google Scholar] [CrossRef]
[3]	王欣彦, 王立鹏, 李新. 基于LM-BP神经网络的电机转子裂纹故障诊断[J]. 微特电机, 2015, 43(4): 18-20.
[4]	姜涛, 袁胜发. 基于改进小波神经网络的滚动轴承诊断[J]. 华中农业大学学报, 2014, 33(1): 131-136.
[5]	代荡荡, 王先培, 赵宇, 田猛, 龙嘉川, 朱国威, 张龙飞. 一种改进的奇异值降噪阶次选取方法用于紫外光谱信号去噪的研究[J]. 光谱学与光谱分析, 2016, 36(7): 2139-2143.
[6]	Hinton, G.E., Osindero, S. and Teh, Y.W. (2006) A Fast Learning Algorithm for Deep Belief Nets. Neural Computation, 18, 1527-1554.
[7]	Roux, N.L. and Bengio, Y. (2008) Representational Power of Restricted Boltzmann Machines and Deep Belief Networks. Neural Computation, 20, 1631-1649. [Google Scholar] [CrossRef] [PubMed]
[8]	张春霞, 姬楠楠, 王冠伟. 受限波尔兹曼机[J]. 工程数学学报, 2015, 32(2): 1005-3085.
[9]	马帅, 沈韬, 王瑞琦, 赖华, 余正涛. 基于深层信念网络的太赫兹光谱识别[J]. 光谱学与光谱分析, 2015, 35(12): 3325-3325.
[10]	Hinton, G.E. (2012) A Practical Guide to Training Restricted Boltzmann Machines. In: Neural Networks: Tricks of the Trade, Springer Berlin Heidelberg, 599-619.
[11]	Fischer, A. and Igel, C. (2013) Training Restricted Boltzmann Machines: An Introduction. Pattern Recognition, 47, 25-39. [Google Scholar] [CrossRef]
[12]	贺昱曜, 李宝奇. 一种组合型的深度学习模型学习率策略[J]. 自动化学报, 2016, 42(6): 953-958.

为你推荐

友情链接