基于ResNeXt的异常声音检测算法

doi:10.12677/mos.2024.136574

期刊菜单

基于ResNeXt的异常声音检测算法
Anomaly Sound Detection Algorithm Based on ResNeXt

DOI: 10.12677/mos.2024.136574, PDF, HTML, XML, 科研立项经费支持
作者: 章璇, 唐加山：南京邮电大学理学院，江苏南京；周正康：南京城建隧桥智慧管理有限公司，江苏南京
关键词: 声音异常检测；无监督；深度学习；Anomaly Sound Detection； Unsupervised； Deep Learning

摘要: 本文提出了一种用于异常检测的新方法，结合了ResNeXt神经网络、改进的损失函数SCAdaCos以及高斯混合模型(GMM)进行异常判断。我们在风扇、泵、滑块、阀门和玩具车五种机器类型上进行了评估，仅使用正常声音数据进行训练。该架构从音频信号中提取log-mel特征，通过ResNeXt模型的组卷积实现高效的特征学习，增强了模型在处理复杂模式上的表现力。SCAdaCos损失函数引入子簇自适应性，使得每个类可以由多个中心表示，克服了单一中心的局限性，进而提升表示学习的精度。GMM则用于对学到的嵌入进行分类，基于负对数似然函数计算异常分数，并设立90%分位数作为阈值进行判断。与当前最优算法相比，我们的算法在AUC平均值上提高了2.43%，在pAUC上提高了6.27%，展示了该方法在不同机器类型上的优越性能。

Abstract: This paper proposes a novel approach for anomaly detection, combining the ResNeXt neural network, an improved loss function called SCAdaCos, and Gaussian Mixture Models (GMM) for anomaly classification. We evaluated this method on five machine types: fan, pump, slider, valve, and ToyCar, using only normal sound data for training. The architecture extracts log-mel features from audio signals and leverages the ResNeXt model’s group convolutions for efficient feature learning, enhancing its capability to handle complex patterns. The SCAdaCos loss function introduces sub-cluster adaptivity, allowing each class to be represented by multiple centers, overcoming the limitations of single-center representation and improving the precision of learned representations. GMM is employed to classify the learned embeddings, using the negative log-likelihood to represent anomaly scores, with the 90th percentile as the threshold for detection. Compared to the current state-of-the-art algorithms, our method demonstrates an average improvement of 2.43% in AUC and 6.27% in pAUC, highlighting its effectiveness across different machine types.

文章引用：章璇, 周正康, 唐加山. 基于ResNeXt的异常声音检测算法[J]. 建模与仿真, 2024, 13(6): 6274-6282. https://doi.org/10.12677/mos.2024.136574

1. 引言

在工业设备和机械系统中，异常声音检测作为预防性维护和故障预警的关键技术之一，具有广泛的应用前景。设备的早期故障常伴有异常声音的出现，及时检测并分析这些异常声音，不仅可以延长设备的使用寿命，还能够减少维护成本和停工时间。传统的异常声音检测方法通常依赖于规则制定和特征工程，这些方法在应对复杂多样的设备环境时往往表现不佳，难以适应实际生产中多变的声音场景[1]。

随着深度学习技术的兴起，基于自动特征学习的异常声音检测方法得到了广泛研究和应用。卷积神经网络(CNN)作为一种常用的深度学习模型，已在许多音频处理任务中取得了显著效果[2]。如Ritwik Giri [3]、Pawel Daniluk [4]提出了关于自编码器的异常声音检测算法，Paul Primus [5]将无监督机器状态监测重新定义为具有异常值暴露分类器的监督分类任务，薛英杰[6]等利用生成对抗网络的方法，相对于传统的自编码器在对声音进行重构方面做出了改进，姜慧天[7]利用了改进的残差卷积神经网络，对原始网络中的全连接网络结构进行了改进。然而，在处理多类音频数据时，现有的模型面临着特征表达不充分、不同类间区分困难以及易受过拟合影响的问题。因此，如何有效提升模型的泛化能力和检测准确性成为研究的重点。

为了解决这些问题，本文提出了一种结合ResNeXt神经网络、SCAdaCos损失函数[8]以及高斯混合模型(GMM)的新型异常声音检测方法。与传统方法相比，ResNeXt模型通过引入分组卷积(grouped convolution)，能够在保证计算效率的同时更好地捕捉音频信号中的局部特征[9]。SCAdaCos损失函数则通过引入子簇自适应机制，使得每个类别可以由多个子簇表示，进一步提升了模型在复杂数据分布下的判别能力。高斯混合模型(GMM)被用于对嵌入向量进行分类，并通过计算负对数似然值生成异常分数，从而实现更精确的异常检测。

本文方法在五种常见工业设备上进行了实验验证，包括风扇、泵、滑块、阀门和玩具车。实验结果表明，本文提出的检测方法在AUC (Area Under Curve)和pAUC (partial Area Under Curve)指标上相较于当前最优算法分别提升了2.43%和6.27%，在实际应用中展示了较强的鲁棒性和泛化能力。此外，本文方法仅使用正常数据进行训练，这种无监督学习的特性也使其具有更强的实用性。

2. 算法模型

本算法模型由数据预处理、特征提取、计算异常得分并判断异常三个部分组成，流程图如图1所示。

Figure 1. Flow chart of abnormal sound detection system

图1. 异常声音检测系统流程图

2.1. 数据预处理

2.1.1. 将音频数据转化为向量

对于一段时长为10秒、采样率为16,000 Hz的音频信号，我们可以得到一个包含160,000个数据点的序列。这是因为采样率表示每秒钟采集的次数，因此在10秒内，采集的次数为10秒 × 16,000次/秒 = 160,000个数据点。每个数据点反映了音频信号在对应时间的振幅变化。本文采用了16,000 Hz的采样率，能够精确捕捉到音频信号中的微小细节，从而以高保真度还原原始音频。这个包含160,000个样本点的序列将音频转换成了数据格式，便于后续的数据处理、特征提取，或作为深度学习模型的输入。

2.1.2. 数据增强

为提升模型的泛化能力，本文引入了Mixup数据增强技术，对音频数据进行处理，增加样本多样性。具体方法为：

$x^{'} = λ x_{i} + (1 - λ) x_{j}, y^{'} = λ y_{i} + (1 - λ) y_{j}$ (1)

公式(1)中，λ的值通过从均匀分布中随机采样，范围为0到1。本文在每个批次内对数据进行逆序排序，并与原始顺序的数据进行组合。例如，第一个音频样本与最后一个样本配对进行数据增强。通过这种方式，每个样本都会与不同的样本进行混合，确保数据和标签的多样性，从而有助于提升模型的鲁棒性和泛化性能。

2.2. 特征提取

2.2.1. 对数梅尔频谱

音频转换为对数梅尔频谱的具体步骤如下：

① 首先，对音频信号进行短时傅里叶变换(STFT)，即将音频划分为多个短时片段(称为帧)，并对每个帧执行傅里叶变换，以计算其频谱信息，如公式(2)所示：

$S T F T {x [n]} (m, k) = \sum_{n = 0}^{N - 1} x [n] \cdot w [n - m] \cdot e^{- j 2 π k n / N}$ (2)

其中 $x [n]$ 表示输入的时间域信号； $m$ 为帧的索引； $k$ 是频率索引； $w [n - m]$ 是窗函数，用于提取信号片段，常用的窗函数有汉宁窗； $N$ 是每个帧的长度； $e^{- j 2 π k n / N}$ 是傅里叶变换的核心，表示复数指数函数，将时间信号映射到频率域。

② 从STFT的结果中提取每帧的功率谱，用于表示信号在不同频率上的能量分布，见公式(3)：

$| X (m, k) | = \sqrt{R e {(X (m, k))}^{2} + I m {(X (m, k))}^{2}}$ (3)

③ 应用梅尔滤波器组，对频率进行非线性变换，使其更符合人耳听觉感知：

梅尔频率是一种根据人类听觉系统特性调整的频率尺度，它更接近人耳对声音频率的实际感知方式。与线性频率不同，梅尔频率反映了人类对不同频率变化的敏感度。具体来说，人类对低频声音的变化非常敏感，能够清晰地分辨出细微的频率差异；然而，随着频率的增加，尤其是在高频范围内，人耳对频率变化的分辨能力逐渐减弱。因此，在高频段，即使频率发生较大的变化，人类感知到的差异也相对较小，频率转换图如图2和公式(4)所示。

$M (f) = 2595 \cdot \log_{10} (1 + \frac{f}{700})$ (4)

Figure 2. Mel frequency conversion

图2. 梅尔频率转换

④ 最后，对每个滤波器输出取对数，生成最终的对数梅尔频谱图，如公式(5)：

$\log - m e l (M (f)) = 10 \cdot \log_{10} (\max (ϵ, M (f)))$ (5)

2.2.2. ResNeXt网络

本文使用了带有32个基数(Cardinality) ResNeXt的架构，即将输入特征划分为32组并行处理。每个组内进行独立的卷积操作，而不是传统的全局卷积。这种设计不仅提升了网络的特征提取能力，还保持了计算效率的相对稳定。具体而言，输入特征首先经过一个7 × 7的卷积层，该层使用了64个卷积核，步幅为2，随后经过批量归一化和ReLU激活函数，再通过3 × 3的最大池化进行下采样，减小计算量，如图3所示。

Figure 3. ResNeXt neural network structure

图3. ResNeXt神经网络结构

Figure 4. Schematic diagram of the ResNeXt block

图4. ResNeXt块示意图

在每个ResNeXt残差块中，输入特征被划分为32组，每组内首先通过1 × 1的卷积进行降维，接着使用3 × 3的卷积独立处理各自的特征，最后再通过1 × 1的卷积恢复特征维度，如图4所示。这种分组卷积能够有效提升网络的灵活性，使模型能够捕捉到多样的局部特征，同时避免显著增加计算复杂度。通过残差连接将分组卷积的输出与输入相加，确保网络在深度增加时仍能保持稳定，避免梯度消失的问题，从而加速了模型的收敛。

ResNeXt架构的这种分组卷积设计允许模型同时处理多个特征表示，增加了特征的多样性，尤其是在处理复杂的音频数据时，能够更好地捕捉异常声音中的细微特征。分组卷积的主要优势在于能够提升网络的特征表示能力，而无需显著增加参数量，确保了在处理大规模数据时的高效性。

在本文的网络结构中，32组的分组卷积充分利用了音频信号中的多维特征，使得模型在捕捉局部信息的同时保留了全局特征。这种架构对于异常声音检测中的复杂信号处理尤为有效，能够增强模型对多种特征的感知能力，从而提高分类性能和模型的鲁棒性。

2.2.3. SCAdaCos损失函数

与传统的交叉熵损失函数、人脸识别损失函数、自适应余弦度量损失函数(Adacos) [10]，本文使用了一种子簇自适应余弦损失函数(SCAdaCos) [8]。

子簇是指在Sub-Cluster AdaCos中，每个类别不再仅由一个单一的中心向量代表，而是通过多个聚类中心来表征。这些聚类中心用于表示类别内部不同数据点的局部结构。它克服了单一中心的局限性：传统的AdaCos或ArcFace中，每个类别由一个中心向量表示，这在数据分布比较简单时效果很好。但是，当类别内部数据点分布复杂时，仅用一个中心表示会导致信息丢失，降低模型的判别能力。

通过多个聚类中心，模型可以对类别内部的不同子分布进行更精细的区分。每个子族表示了类别内部的一部分局部结构，从而提升了模型的表示能力，见公式(6)。

$L = \frac{1}{N} \sum_{i = 1}^{N} (- \log \frac{\sum_{s = 1}^{S} \exp (s \cdot \cos (θ_{y_{i}}^{(s)}))}{\sum_{k = 1}^{C} \sum_{s = 1}^{S} \exp (s \cdot \cos (θ_{k}^{(s)}))})$ (6)

其中N表示样本数量，C为类别数量，S表示子类簇的数量， $θ$ 为用于计算余弦相似度的角度。

3. 异常分数计算

3.1. 高斯混合模型GMM

高斯混合模型是一种概率模型，用于表示具有多个高斯分布成分的数据分布。它可以捕捉数据的多模态特性，适合用于建模复杂的嵌入空间分布，分布见公式(7)。

$p (x) = \sum_{k = 1}^{K} π_{k} \cdot N (x | μ_{k}, Σ_{k})$ (7)

其中， $x$ 代表数据点， $K$ 表示高斯分布的数量， $π_{k}$ 是第k个高斯分布的权重(满足所有权重之和为1)， $μ_{k}$ 代表第k个高斯分布的均值， $Σ_{k}$ 表示第k个高斯分布的协方差矩阵。

训练集数据经过GMM处理后生成了20个模型。通过为每类音频数据拟合多个高斯分布，GMM能够有效捕捉数据的复杂性和潜在多样性。具体而言，GMM为不同类别的数据建模，生成多个子集群，并对这些子集群分别拟合高斯分布，以提高模型区分正常和异常样本的能力。

这种方法能够自动发现音频数据的内部结构，更好地反映类别之间的差异，尤其适用于异常检测任务。在处理复杂音频信号时，GMM生成的20个混合模型能够增强模型对未见过异常数据的鲁棒性，并有效提高分类和检测的准确性。

3.2. 计算异常分数

通过GMM的训练，每个音频最终可以得出属于每一类的概率以及对数似然值。这个值越小，表示样本与模型的适应度越差，因而可以被认为是越“异常”的。以负对数似然值为异常分数，取其90%分位数为阈值，高于这个值即判定为异常。

4. 实验

4.1. 数据集

本文使用的数据集来源于DCASE2020-Task2的数据集，涵盖了风扇、泵、滑块、阀门和玩具车五类机器。每类机器又由不同的ID组成，每条音频的时长为10秒，采样率为16,000 Hz，单声道保存。数据集的详细构成如下表1：

Table 1. Dataset composition

表1. 数据集构成

训练集ID	训练集音频数	测试集ID	测试集音频数量
ID1	1000正常	ID5	200正常 + 200异常
ID2	1000正常	ID6	200正常 + 200异常
ID3	1000正常	ID7	200正常 + 200异常
ID4	1000正常

训练集数据经过GMM(高斯混合模型)处理后生成了20个模型。通过为每类音频数据拟合多个高斯分布，GMM能够有效捕捉数据的复杂性和潜在多样性。具体而言，GMM为不同类别的数据建模，生成多个子集群，并对这些子集群分别拟合高斯分布，以提高模型区分正常和异常样本的能力。

这种方法能够自动发现音频数据的内部结构，更好地反映类别之间的差异，尤其适用于异常检测任务。在处理复杂音频信号时，GMM生成的20个混合模型能够增强模型对未见过异常数据的鲁棒性，并有效提高分类和检测的准确性。通过多个高斯分布的组合，GMM不仅能够捕捉数据的局部模式和全局特征，还能提升模型的泛化能力，确保在实际应用中实现更优的检测性能。

4.2. 对比实验

表2展示了各模型在不同机器类别上的AUC (曲线下面积)和pAUC (部分曲线下面积)表现。相比[11]-[15]其他研究中的结果，本文提出的模型在各个类别上的表现均表现出卓越的性能，特别是在泵、滑块、阀门和玩具车类别上，AUC和pAUC值均显著高于其他模型。

具体而言，本文模型在滑块类别上达到了99.80%的AUC和98.96%的pAUC，表明在该类别上具有极高的分类精度。而在玩具车类别上，模型的AUC和pAUC也分别达到98.61%和94.65%，同样表现出卓越的异常检测能力。图5和图6展现了本文方法和目前已知的先进方法进行了对比。这些结果表明，本文方法不仅在整体表现上优于现有方法，还能够在不同机器类别中展现出更强的泛化能力和稳定性。

Table 2. The results are displayed

表2. 结果展示

	fan	fan	pump	pump	slider	slider	valve	valve	ToyCar	ToyCar
	(AUC)	(pAUC)	(AUC)	(pAUC)	(AUC)	(pAUC)	(AUC)	(pAUC)	(AUC)	(pAUC)
Grollmisch_IDMT	89.65%	78.33%	87.99%	71.28%	91.05%	70.01%	94.98%	83.61%	94.07%	86.78%
Hayashi_HDL	92.72%	80.52%	90.63%	73.61%	95.68%	81.48%	97.43%	89.69%	91.75%	83.97%
Wilkinghoff_FKIE	93.75%	80.68%	93.19%	81.10%	95.71%	79.45%	94.87%	83.58%	94.06%	86.80%
Lopez_IL	93.09%	90.67%	93.98%	90.72%	98.88%	95.38%	96.80%	90.61%	86.59%	81.85%
Giri_Amazon	94.54%	84.30%	93.65%	81.73%	97.63%	89.73%	96.13%	90.89%	94.34%	89.73%
本文	93.35%	84.73%	97.43%	92.71%	99.80%	98.96%	99.42%	97.31%	98.61%	94.65%

Figure 5. Comparison of AUC results

图5. AUC结果对比

Figure 6. Comparison of pAUC results

图6. pAUC结果对比

综上所述，本文模型在所有类别上的AUC和pAUC均优于现有的最佳模型，证明了其在工业音频异常检测任务中的优越性和鲁棒性。

5. 结果与展望

本文提出了一种基于ResNeXt的声音异常检测系统，首先对数据进行Mixup增强，经过ResNeXt网络，再经由自适应余弦距离损失函数(SCAdaCos)得到最后的128维度的特征向量，由高斯混合模型计算异常分数从而进行分类，结果证明本文的系统优于大部分已经提出的系统。

虽然可以使用来自同一机器类型的多台机器的声音来提高检测性能，但通常只有有限数量的机器可用于一种机器类型，且实际生活中机器的声音会随着环境和使用条件的变化而产生域偏移，后续研究中可以考虑这部分的内容。本文的方法在未来的工作中可以得到启示，进一步改进域泛化的能力和声音异常检测的准确度。

基金项目

项目种类：横向项目，项目编号：2023外221，项目名称：隧道异常事件数据分析研究，项目主持人：唐加山，项目起止时间：2023.6~2024.12，项目研究内容：隧道等道路系统异常事件相关数据统计建模，本文内容与项目的关系：本文研究内容是声音异常检测。

参考文献

[1]	Chandola, V., Banerjee, A. and Kumar, V. (2009) Anomaly Detection: A Survey. ACM Computing Surveys, 41, 1-58. https://doi.org/10.1145/1541880.1541882
[2]	Hershey, S., Chaudhuri, S., Ellis, D.P.W., Gemmeke, J.F., Jansen, A., Moore, R.C., et al. (2017) CNN Architectures for Large-Scale Audio Classification. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, 5-9 March 2017, 131-135. https://doi.org/10.1109/icassp.2017.7952132
[3]	Giri, R., Tenneti, S.V., Helwani, K., Cheng, F.Z., Isik, U. and Krishnaswamy, A. (2020) Unsupervised Anomalous Sound Detection Using Self-Supervised Classification and Group Masked Autoencoder for Density Estimation. Tech. Rep., DCASE2020 Challenge.
[4]	Daniluk, P., Gozdziewski, M., Kapka, S. and Kosmider, M. (2020) Ensemble of Auto-Encoder Based Systems for Anomaly Detection. Tech. Rep., DCASE2020 Challenge.
[5]	Primus, P. (2020) Reframing Unsupervised Machine Condition Monitoring as a Supervised Classification Task with Outlier-Exposed Classifiers. Tech. Rep., DCASE2020 Challenge.
[6]	薛英杰, 韩威, 等. 基于生成对抗单分类网络的异常声音检测[J]. 吉林大学学报(理学版), 2021, 59(6): 1517-1524.
[7]	姜慧天. 用于机器异常声音检测的自监督学习方法研究[D]: [硕士学位论文]. 成都: 电子科技大学, 2023.
[8]	Wilkinghoff, K. (2021) Sub-Cluster AdaCos: Learning Representations for Anomalous Sound Detection. 2021 International Joint Conference on Neural Networks (IJCNN), Shenzhen, 18-22 July 2021, 1-8. https://doi.org/10.1109/ijcnn52387.2021.9534290
[9]	Xie, S., Girshick, R., Dollar, P., Tu, Z. and He, K. (2017) Aggregated Residual Transformations for Deep Neural Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 1492-1500. https://doi.org/10.1109/cvpr.2017.634
[10]	Zhang, X., Zhao, R., Qiao, Y., Wang, X. and Li, H. (2019) AdaCos: Adaptively Scaling Cosine Logits for Effectively Learning Deep Face Representations. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 10815-10824. https://doi.org/10.1109/cvpr.2019.01108
[11]	Grollmisch, S., Johnson, D., AbeBer, J. and Lukashevich, H. (2020) IAEO3—Combining OpenL3 Embeddings and Interpolation Autoencoder for Anomalous Sound Detection. Tech. Rep., DCASE2020 Challenge.
[12]	Hayashi, T., Yoshimura, T. and Adachi, Y. (2020) Conformer-Based ID-Aware Autoen-Coder for Unsupervised Anomalous Sound Detection. Tech. Rep., DCASE2020 Challenge.
[13]	Wilkinghoff, K. (2020) Anomalous Sound Detection with Look, Listen, and Learn Embeddings. Tech. Rep., DCASE2020 Challenge.
[14]	Lopez, J., Hong, L., Lopez-Meyer, P., Nachman, L., Stemmer, G. and Huang, J. (2020) A Speaker Recognition Approach to Anomaly Detection. Tech. Rep., DCASE2020 Challenge.
[15]	Giri, R., Tenneti, S.V., Helwani, K., Cheng, F.Z., Isik, U. and Krishnaswamy, A. (2020) Un-Supervised Anomalous Sound Detection Using Self-Supervised Classification and Group Masked Autoencoder for Density Estimation. Tech. Rep., DCASE2020 Challenge.

为你推荐

友情链接