基于原型联邦学习的工业故障诊断方法
A Prototype Federated Learning Based Approach to Industrial Fault Diagnosis
DOI: 10.12677/mos.2024.136565, PDF, HTML, XML,   
作者: 徐丹丹, 杨夏洁, 樊重俊*:上海理工大学管理学院,上海;尤艳丽:上海市静安区业余大学(上海开放大学静安分校),上海
关键词: 联邦学习原型网络时间序列分类分布式故障诊断Federated Learning Prototype Networks Time Series Classification Distributed Fault Diagnosis
摘要: 故障诊断是保障工业系统安全运行的关键。当前,数据异构导致的非独立同分布问题使得传统的中心化数据处理方法在工业故障诊断领域面临着巨大的挑战。基于此本文提出一种基于原型联邦学习的时序数据处理方法AP-FED,该方法分为基础阶段和原型学习阶段。基础阶段进行数据增强、特征提取与全局参数的传递;原型学习阶段进行边缘设备端的原型提取与云端的全局原型聚合,确保在全局类原型的指导下,联邦学习的局部网络能够更有效地学习到特征表示。为验证模型有效性,使用真实工业数据集与多个联邦学习基线方法进行对比。经仿真实验,所提方法在FD、CWRU与CNC三个数据集中分别至少提升15.37%、21.30%与1.81%,证明该方法具有较高的精度和泛化能力。
Abstract: Fault diagnosis is the key to ensuring the safe operation of industrial systems. Currently, the non-independent homogeneous distribution problem caused by data heterogeneity makes the traditional centralized data processing method face great challenges in industrial fault diagnosis. This paper proposes a temporal data processing method AP-FED based on prototype federated learning, divided into a foundation phase and a prototype learning phase. The foundation phase carries out data enhancement, feature extraction, and global parameter transfer; the prototype learning phase carries out prototype extraction at the edge device end and global prototype aggregation in the cloud, ensuring that the local network of federated learning learns the feature representations more efficiently under the guidance of the global class prototypes. To validate the model’s effectiveness, real industrial datasets are used for comparison with multiple federated learning baseline methods. After simulation experiments, the proposed method improves at least 15.37%, 21.30%, and 1.81% in the three datasets of FD, CWRU, and CNC, respectively, which proves that the method has high accuracy and generalization ability.
文章引用:徐丹丹, 尤艳丽, 杨夏洁, 樊重俊. 基于原型联邦学习的工业故障诊断方法[J]. 建模与仿真, 2024, 13(6): 6164-6176. https://doi.org/10.12677/mos.2024.136565

1. 引言

工业故障诊断作为生产运维的重要内容,对提高工业生产效率、降低维修成本、保障设备安全和可靠性起到重要作用[1]。近年来,具有监控、感知能力的传感器在工业生产中大量部署,智能装配线上实时与流式数据增加,以数据驱动生产的理念逐渐成为工业企业的共识。由于传感器数据中标签、特征、质量、数量偏差等导致的数据异构,即数据的非独立同分布(Non-independent identically distributed, Non-IID)问题逐渐显现,数据中含有的潜在知识无法在生产中得到有效利用,传统的中心化数据处理方法面临着巨大的挑战[2]

联邦学习作为一种新兴的分布式机器学习技术,在防止隐私泄露的同时,可实现跨设备的模型共享与协同学习,为工业企业数据处理与利用提供了全新的解决方案[3]。为了解决工业故障诊断的数据异构问题,已进行的联邦研究主要包括三个方面:一是调整全局模型的聚合过程,如修改聚合权重、使用聚类方法等,如Lai等人[4]提出Oort,通过引导式客户端选择算法优先使用有高质数据与高效训练的客户端,提高联邦训练和测试的性能,但简单的聚合依旧可以通过模型的训练偏好反推用户偏好,仍然面临潜在的隐私风险;二是通过个性化的客户端训练,但是该方法无法充分利用客户端中所包含的基础知识,如Zhou等人提出一种基于深度特征转换网络的个性化联合学习方法FedFTN [5];三是部署公共数据集,如FedBoost [6]通过预训练和部署公共数据集来解决数据异构并实现高效通信,但增加额外部署与标注成本。以上方法未能利用客户之间的基础知识,客户端多样性依旧可能暴露数据的内部结构,数据隐私风险增加。因此,如何利用客户端内部知识处理数据异构值得进一步研究。

受2017年Snell等学者提出的原型思想的启发[7],异构客户端上不同数据分布的特征表示的集合可以按类别形成潜在原型知识。以轴承为例,不同轴承的使用状况会与购置时间、使用强度等相关,但可能由于相似的原因导致了轴承的故障,客户端的相同类别应具有相似特征。当前,何心等人[8]针对小样本齿轮箱故障诊断问题,使用半监督原型网络与对比学习相结合方法得到出色的故障识别精度,但该方法仅针对隐私保护领域,而未解决数据异构问题。徐炜钦等人[9]利用平衡信息的联邦原型学习,针对客户端数据异构性动态地调整局部学习和全局学习之间的比例,但该方法仅在CIFAR-10和MNIST等图像数据集进行验证,无法迁移至工业故障诊断领域的时序信号数据。

因此,提出一种基于增强原型联邦学习的异构时序数据处理方法AP-FED。具体来说,AP-FED包括两个阶段,在基础阶段,进行时序数据的增强及特征提取;在第二阶段,在边缘设备端除了传递参数外,还在边缘设备端和中央服务器中进行原型共享与传递,通过汇集原型知识对模型训练的指导,避免领域偏移问题,且原型传递以类别为单位,其传递过程的通信开销远小于直接对模型参数进行传递。

本文的主要内容如下:(1) 针对时间序列数据,设计了一个基于原型的联邦学习框架AP-FED。该框架引入全局类原型,在模型聚合阶段,除基础参数传递外,利用全局类原型修正局部训练,结合数据增强在保护隐私的情况下同时不增加通信成本;(2) 设计了针对原型的复合损失,实现在异构时序数据下的有效训练。复合损失为真实标签与预测标签的交叉熵损失、原型损失以及当前参数与最优参数的正则化项组合;(3) 通过三个实际的工业故障诊断数据集,并对比多种最新基线方法,验证该方法在故障诊断领域的有效性。

2. 问题描述

假设智能工厂中的物联网系统存在K个边缘设备与一个云服务器,每个边缘设备通过本地传感器收集本地数据,并由传感器反馈进行标注,即第 k( 1kK ) 个设备将通过本地传感器收集一组时间序列样本 D k = { ( x i , y i ) } i=1 N x i 为输入数据时间, y i 为对应设备的状态标签,设备状态类别为C

传统集中式训练方法将使用所有边缘设备数据的集合 | D |= k=1 K | D k | 训练全局模型,并通过对参数 θ 的传递与迭代完成对模型的训练,实现数据的“可用不可见”。其全局参数 θ G 更新方式为本轮边缘设备参数的均值:

θ G t+1 = k=1 K | D k | | D | θ k t+1 (1)

在智能工厂这一复杂动态的环境中,由于设备类型、工作环境等原因造成的数据的类失衡将导致传统联邦学习框架无法匹配工厂需求。因此,该智能系统的优化目标是找到一个由参数 θ G 定义的深度学习模型,调整参数更新方向,使得异常检测模型性能接近全局模型,式中 k 为本文建立的各分布式设备的损失函数:

arg θ G min( θ G )= | D k | | D | k=1 K k ( F( θ,x ),y ) (2)

3. AP-FED方法

本文提出一种基于AP-FED联邦学习的分布式故障诊断算法,故障诊断算法框架如图1所示。具体包括以下几个步骤:

(1) 数据加载与处理。对传感器采集到的时间序列数据D的数据维度进行调整对齐并进行数据增强得到 D aug ,增强操作包括缩放和抖动。

(2) 根据边缘设备的本地数据对CNN进行训练。将数据经过基础知识表示层 ϕ 输出的特征向量保存至原型列表,再将特征向量经过最后预测层得到输出 y ^ i 与可用于交叉熵损失的logits向量。

(3) 边缘设备对类原型进行计算,即对每一个类别的所有特征向量R求平均。此时每一个类别均有一个类原型 p i ,将边缘设备的类原型上传至云端服务器。

(4) 云端服务器收到类原型后对类原型进行聚合,得到新的类原型P下发给边缘设备。

(5) 在边缘设备得到原型损失和监督学习损失的组合损失。以最小化损失函数为目标,采用随机梯度下降法对设备网络参数进行优化。当损失函数收敛或达到最大运行轮次时,结束训练;否则反复执行步骤(2)~(5)。

(6) 将测试数据输入边缘设备端网络对故障进行分类,得到故障类型。

接下来将从数据增强、模型结构、云到端模型训练、端到云原型聚合四个角度,对AP-FED方法进行详细介绍。

Figure 1. AP-FED framework diagram

1. AP-FED框架图

3.1. 时间序列数据增强

深度学习模型在处理时间序列数据时,通常需要大量的数据进行训练以避免过拟合问题,并提高模型的泛化能力,然而实际上稳定采集长时间的工业设备较少,训练数据规模有限。抖动是最简单有效的基于变换的数据增强方法之一,有助于减轻神经网络模型的时间序列漂移[10]。缩放则是通过随机标量值改变序列的全局幅度或强度[11],与图像域中的不同,它只是指增加元素的量值,而不是扩大时间序列。以第k个边缘分布式设备为例,给定原始数据 x i ={ t 1 , t 2 , t 3 ,, t T } ,通过先缩放再抖动的数据增强,如式(3)所示得到增强后的数据 x i ={ t 1 , t 2 , t 3 ,, t T }

t T =( t T a )+b (3)

其中高斯噪声 b~N( 0, σ 2 ) ,标度参数a也通过高斯分布 a~N( 1, σ 2 ) 来确定,T为时间序列长度,不同设备收集到的时间序列长度也可能由于设备状态导致不等,实际训练数据将变为原始时间序列数据与增强数据的并集,即 D k aug ={ x 1 , x 2 ,, x t , x 1 , x 2 ,, x T }

3.2. AP-FED模型结构

异构环境中,很难通过简单的平均式更新获得性能优异的全局模型,但异构数据中存在可共享的全局知识却有助于故障预测[12]。故基于异构边缘设备特点,如图2所示将边缘设备k的训练模型分为知识表示层 ϕ: d m 和预测层 h k : m Y C ,即d维时间序列数据首先映射到表示空间 m ,再映射到标签空间 Y C 。若分别使用函数 R k ( ) G k ( ) 作为 ϕ h k 的参数化表示,则第k个边缘设备的模型为 F k ( ϕ, h k )=( R k ( ϕ )° G k ( h k ) ) ,因此全局目标也可表示为:

min ϕ k=1 K | D k | | D | k ( θ,h( ϕ,x ) ) (4)

知识表示层 ϕ 的内部由三个卷积块和一个全连接层组成。具体而言,每个卷积块实际包括卷积层、归一化层、激活函数和池化层。其中卷积层通过卷积核的移动进行局部特征提取;归一化层用于保证特征处理的稳定性;激活函数使得模型能够捕捉复杂的数据关系;池化层通过最大池化操作简化计算并提取特征。数据x依次通过三个卷积块后,将得到特征向量 R i 用于后续原型计算,最终经由分类预测层生成可用于交叉熵损失的logits向量。

Figure 2. AP-FED model structure diagram

2. AP-FED模型结构图

3.3. 云到端本地模型训练

监督模型使用卷积神经网络,将第k个边缘设备上数据 D k aug 通过知识表示层 R k ( ϕ; x i aug ) ,对每一个输入将得到表征向量 R i ={ r 1 , r 2 , r 3 ,, r T } 。边缘设备根据类别数c,对表征 R i 向量取均值进行聚合,对于边缘设备上每个 x i aug 将得到类原型 p i ( c ) ={ p 1 ( 1 ) , p 2 ( 2 ) ,, p N ( C ) } ,其中属于相同类别的数据样本,将获得相同的原型。因此,对于任意边缘设备,都将有对应类别数目的原型 p k ( c ) ={ p (1) , p (2) p (C) } ,即第k个边缘设备原型计算方法为:

p k ( c ) = 1 | D k,c aug | ( x i aug , y i ) D k,c aug R k ( ϕ; x i aug ) (5)

模型训练损失的第一部分为预测标签 y i 与真实标签 y ^ i 的基础交叉熵损失,即:

CE = i=1 N y i log ( y ^ i ) (6)

模型训练损失的第二部分为原型损失。其基本思路是对于每一个类创建一个原型表示,通过相似类别样本之间距离尽量小,而不同类别间的样本差异尽量大,从而利用底层类别的知识表示有效减少数据异构产生的模型差异。将计算边缘设备端的类原型 p i 与云端服务器传递原型 P ¯ i 的欧式距离作为原型损失:

proto = i=1 N d( p i , P ¯ i ) = i=1 N c=1 C ( p i ( c ) P ¯ i ( c ) ) 2 (7)

模型训练损失的第三部分为正则化项用于防止模型过拟合。假设参数的集合称作 θ θ G 是当前全局模型的参数, θ * 是上一轮本地训练的最优参数。通过最小化参数差异的二范数,可以防止模型参数发生过大变化,从而提高模型的稳定性和泛化能力,其全局损失此时如下,其中 λ 1 λ 2 λ 3 为固定标量超参数:

Total = λ 1 CE + λ 2 Proto + λ 3 2 θ G θ * 2 (8)

3.4. 端到云全局原型聚合

原型网络将每个类别的原始样本映射到一个新的样本空间中,使得在这个新空间中同类样本距离更近,不同类别的样本距离更远。原型网络对度量空间中不同类别的特征距离进行分类时,参与方非原始数据,而是由原型衍生而来的类原型,可在保护隐私的前提下进行联合学习。式(6)将每个边缘设备端将对自身设备中所拥有的类原型进行聚合,由于数据异构的存在,不同边缘设备端持有的故障类集有所不同且存在重叠。故还需对分布式边缘设备所有可能出现的情况进行聚合,依旧利用所有端的均值进行整体本地类原型计算,用于后续原型传递:

P ( c ) = 1 K k=1 K p k ( c ) (9)

云服务器根据式(9)接收所有边缘设备传送的类原型,并聚合全局类原型 P ( c ) P ¯ ={ P ( 1 ) , P ( 2 ) ,, P ( c ) } 。与此同时,在本地设备端进行本地训练后,云服务器将接收客户端模型参数 θ k ,并使用均值对本地模型参数进行聚合得到全局参数:

θ G t+1 = k=1 K | D k aug | | D aug | θ G t+1 (10)

更新后的原型 P ¯ ={ P ( 1 ) , P ( 2 ) ,, P ( c ) } 将下发至对应类别c存在的本地设备,并计算客户端 proto 用于样本损失计算;更新后的全局模型参数 θ G 被发送回每个边缘设备,用于本轮损失计算与下一轮本地训练,其优化目标更新如下:

argmin θ G ( D k aug , θ G )= λ 1 i=1 N k=1 K | D k aug | | D aug | CE ( i ( θ G ; x i aug ), y i ) + λ 2 i=1 N c=1 C Proto ( P ¯ i , p i ) + λ 3 2 θ G θ * 2 (11)

其中, θ G 为全局模型参数, D k aug 为增强后数据。 λ 是权重参数,控制损失函数中的原型约束项与模型参数约束项的影响。

4. 仿真实验

为了验证本文方法的有效性,本文将AP-FED方法应用在轴承数据BD [13]与CWRU [14],以及机床数据CNC [15]三个工业故障诊断数据集。此外,本文将AP-FED方法与其他几种联邦学习方法进行比较,结果表明本文所提的AP-FED方法比其他方法有更高的诊断精度。

4.1. 实验设置

实验数据:为了全面评估本文模型,使用了三个工业领域故障诊断数据:

1) BD (Bearing Data)数据[13]是帕德博恩大学使用32个测试轴承,通过四种不同转速、扭矩和径向载荷的运行条件,得到不同工况下内圈故障(IR)、外圈故障(OR)和正常(N)状态信号。2) 凯斯西储大学(CWRU)轴承数据[14]是在12 kHz采样频率下传感器震动信号,除数据集BD中的三种状态外,还存在滚珠故障(B),且这三种故障将可能出现在0.007 hp、0.014 hp、0.021 hp不同直径位置,故产生九种故障类。3) CNC数据[15]是CNC铣床收集的真实工业振动数据的集合,使用2 kHz采样率的加速度传感器对X、Y和Z三轴进行记录,共收集从2018年10月到2021年8月持续6个月的正常和异常数据,并进行相应标记。不同于前两个数据在采样时对数据分布进行控制,该数据集收集时就存在异常样本数目远小于正常样本,异常样本仅占总样本的3.1%。三个数据集的具体数据格式如下表1

Table 1. Data set related parameters

1. 数据集相关参数

数据集

训练样本

测试样本

样本长度

通道数

采样频率(Hz)

类别数

BD

8184

2728

5120

1

12 k

3

CWRU

24,000

8000

4096

1

25 k

10

CNC

32,233

10,745

4096

3

2 k

2

实验设置:所有实验均在英伟达3090GPU上执行,使用pytorch2.0.1、cuda11.7和python3.10.12,同时基于PFL个性化联邦学习平台[16]。为模仿数据异构,将所有数据合并后,再将数据集随机分配至30个边缘设备,构建Non-IID数据时使用狄利克雷分布[17]。即在本实验中,构造参与方30个,令每个参与方的样本数 n k ~Di r N ( α ) ,其中 N= n k 为总样本数,浓度参数 α( 1,0.9,0.1 ) α 描述数据的不平衡程度,当 α 值减小时,数据标签的倾斜程度将增大。

以轴承故障诊断数据BD为例,如图3所示,原始数据符合独立同分布,即每个边缘设备的总数据量相同,各边缘设备端不同标签的样本数量也基本一致。在 α=0.9 时,各边缘设备端的数据量大小发生改变,其样本数量范围(0, 1300);标签分布开始不均衡,部分边缘设备端存在只有两种工况的数据。在 α=0.1 时,各边缘设备端的数据量大小发生显著改变,其样本数量范围(0, 2000);标签分布开始不均衡,绝大多数本地端存在两种工况的数据,少数本地端只有一种标签。在对比实验中 α=0.9 ,使其模仿常规数据异构情况。为模仿设备异构情况,则随机将其中10%边缘设备设置为慢速设备,学习率减半。各边缘设备训练样本比例为0.75,local epoch = 5。

(a) α=1 (b) α=0.9

(c) α=0.1

Figure 3. Distribution of data at different concentration parameters

3. 不同浓度参数下数据分布情况

所有实验中的批量大小都设置为128,学习率为0.01,权重衰减为0.01,联邦学习中采用SGD优化器,动量为0.9,优化器Adam的超参数设置为 β 1 =0.9 β 2 =0.99 ,数据增强的比率设置为1.1,超参数设定为 λ 1 =1 λ 2 =1 λ 3 =0.5

实验模型:数据增强和CNN的组合作为联邦学习训练的监督模型。在数据导入后接入数据增强模块。数据增强为缩放和抖动操作的组合,设置二者 σ 值均为0.8。CNN分为知识表示层和分类预测部分,可有效捕捉时间序列特征。知识表示层由三个卷积块组成,大小分别为1 × 32 × 32、32 × 64 × 8与64 × 128 × 8,每个卷积块都包括卷积层、归一化层、激活函数和池化层。分类预测层由一个线性层组成,其大小为128维的输出特征长度与类别数的乘积,生成可用于交叉熵损失的logits向量。即BD数据的线性层大小设置为128 × 162 × 3,CWRU数据为128 × 130 × 10,CNC数据设置为128 × 130 × 2。

基准算法:将本文的算法与Non-IID设置中的多个先进FL基线进行比较:1) FedAvg [18]是基础联邦算法,以加权平均生成新全局模型。2) FedProx [19]为FedAvg的改进,引入正则项限制局部与全局模型间距离,以增强模型稳定性和收敛速度。3) FedPer [20]提出“基础层 + 个性化层”架构缓解统计异质性,该方法将深度前馈神经网络分层,个性化层针对各客户端特定需求训练。4) FedProto [21]是一种基于原型学习的联邦学习方法,首次通过使用原型来表示全局模型,并允许每个客户端根据自己的数据特征选择合适的原型进行训练。5) FedPhp [22]是一种联邦个性化方法,旨在保持和传递历史个性化知识到新下载的全局模型。6) FedDistill [23]为基于知识蒸馏的联邦学习方法。

评估方法:本研究进行了多项实验,除使用一般监督学习的指标准确率(Accuracy, Acc)外,还使用宏观平均(Macro-averaged F1 Score, MF1-score),以证明所提方法的性能,MF1-score表示为:

MF1= 1 C i=1 C 2× Precision i × Recall i Pr ecision i +Re call i (12)

Pr ecision i = T P i T P i +F P i (13)

Recall i = T P i T P i +F N i (14)

其中 T P i F P i F N i 分别表示第i类的真正例、假正例和假负例,N代表样本总数,C代表数据集中的类别总数,结果预期在0到1的范围内,以百分比形式呈现。宏观平均方法对每个类别独立计算精确度与召回率性能指标,对每个类别一视同仁,给予相同的权重计算这些指标的算术平均值,是不平衡样本评估的重要指标。

4.2. 结果分析

4.2.1. 模型性能对比

实验在30个分布式边缘设备端分别载入 α=1 α=0.9 α=0.1 分布下的重新分配后的数据,对不同的方法的准确率和MF1分数进行检验,AP-FED方法对不同的数据分割程度依旧保持了很强的鲁棒性。表2为所有边缘设备在通信轮数不断增加时卷积神经网络的精度的平均值变化情况:

Table 2. Comparison of ACC values of different methods (Unit: per cent)

2. 不同方法的准确率对比(单位:%)

数据集

BD

CWRU

CNC

方法

α=1

α=0.9

α=0.1

α=1

α=0.9

α=0.1

α=1

α=0.9

α=0.1

FedAvg

95.69

74.54

50.89

99.43

70.64

30.45

94.46

94.46

94.45

FedProx

96.75

60.48

46.14

56.91

74.85

32.88

94.43

94.42

93.87

FedProto

90.91

52.18

50.18

98.96

61.24

29.03

93.30

81.93

31.74

FedPhp

45.49

31.31

40.49

17.71

15.76

12.70

94.46

94.48

93.83

MOON

45.33

31.23

30.71

20.6

18.03

17.52

94.41

83.62

85.08

FedDistill

90.96

50.29

49.21

98.89

51.03

26.12

93.30

82.08

31.52

FedPer

96.84

45.97

49.98

99.60

76.34

32.46

94.46

94.46

94.46

AP-FED

98.49

89.91

54.99

99.96

97.64

68.82

96.84

96.29

94.47

由上表2可知,面对三个工业数据集,各联邦学习方法对于均衡标签下的数据均展现出较为优异的效果,边缘设备端测试精度随着通信轮数的增加而升高。AP-FED方法在所有数据集上的表现优异,其准确率均在95%以上。以BD数据为例,AP-FED方法展现出了最高的性能,其准确率达到了89.91%,远超其他方法,相比FedAvg提高了约15.37%,表明AP-FED方法在分类任务的准确性上具有明显优势,能够更有效地从分布式数据中学习并做出准确预测。接下来对数据异构条件下的不同数据表现进行分析:

1) BD数据集: α=0.9 时,各方法呈现不同程度下降,部分方法准确率降低近40%,可见数据分布混乱程度将严重影响故障诊断的精度,而AP-FED方法的Acc值仅降低8.58%,该方法对于数据异构情况具有一定的抵抗能力; α=0.1 ,数据分布极度不均,部分边缘设备不存在所有标签的情况下,所有方法的精度均被影响,降低至50%左右,而AP-FED方法精确度为54.99%,略高于其他方法。2) CWRU数据集: α=0.9 ,虽改变数据分布使得精度下降,但由于其样本数量足够多,影响程度却不如BD数据集,AP-FED方法仅降低2.32%;而将 α 值调整为0.1时,数据异构问题将显著影响模型精度,此时AP-FED方法的Acc值约为其他对比方法两倍。3) CNC数据集:各模型均表现良好,其Acc值在80%以上。对比改变分布后的场景,其他模型性能略有降低,AP-FED方法则表现稳定。造成此现象原因可能是CNC初始数据为标签异构情况,在正常样本远多于异常样本下,修改后的数据依旧接近原始数据分布。

Table 3. Comparison of MF1-Score values of different methods (Unit: per cent)

3. 不同方法的MF1-Score值对比(单位:%)

数据集

BD

CWRU

CNC

方法

α=1

α=0.9

α=0.1

α=1

α=0.9

α=0.1

α=1

α=0.9

α=0.1

FedAvg

96.40

72.11

47.29

99.43

70.66

30.45

65.79

65.83

65.75

FedProx

97.13

62.60

42.75

56.58

74.74

32.88

65.70

65.58

65.82

FedProto

88.02

48.43

44.55

98.95

61.13

29.02

71.18

65.55

65.37

FedPhp

38.34

28.77

38.86

17.87

15.60

12.50

65.81

65.75

65.78

MOON

38.21

28.87

28.56

20.38

17.87

17.52

65.84

59.70

62.90

FedDistill

87.77

43.86

46.00

98.89

50.93

26.10

70.25

65.76

64.56

FedPer

97.20

45.53

39.06

99.60

76.31

32.32

65.87

66.00

65.69

AP-FED

98.60

86.94

59.45

99.96

97.64

68.64

87.22

84.16

65.90

在不同的条件下,观察各方法的宏平均F1值以对不平衡样本进行评估,如表3:1) 对于BD数据集,在 α=0.9 情况下,AP-FED的MF1分数相对FedAvg算法提高了约14.83%,F1分数的显著增加进一步证实了AP-FED在处理类别不平衡或复杂分类任务时的优越性。调整 α=0.1 ,同样将导致MF1值下降,这是由于标签不均衡程度加剧,但AP-FED的MF1值依旧显著优于其他方法,高达59.45%。2) 转向CWRU数据集,AP-FED在MF1值上领先各类联邦学习算法,在 α=0.9 α=0.1 的条件下值分别为97.64%和68.64%。3) 对于CNC数据,各模型MF1值均显著低于表5-1的Acc值,且对于普通联邦学习方法,其值在65%左右浮动,造成此现象原因可能是CNC初始数据为标签极度异构情况,正例远少于负例,导致精确度和召回率均较低,从而导致MF1分数相较于其他数据集较低,且即使通过AP-FED方法也无法获得较大的提升。

数据分布越异构,AP-FED方法的个性化越好,这可能是因为在原型引导表示上训练分类器可以更好地适应局部分布。当数据为IID时,个性化方法的准确性普遍降低,而对异质性敏感的AP-FED的准确性增加,优于其他方法,这表明我们的方法可以在个性化和泛化之间取得更好的平衡。

4.2.2. 消融实验

本节研究AP-FED中每个组成部分对工业设备数据异构场景的有效性。如下表4所示,将分别训练有无数据增强、有无原型损失、有无正则化项对模型效果的影响。由表可知,在所有数据集上,包含所有三个组件的模型性能最佳。这验证了增强策略、正则化方法和原型损失各自的重要性,以及它们之间的互补性。特别是在BD数据集上,包含所有组件的模型相比其他组合在准确率和MF1分数上都有显著提升,这表明增强数据表示和引入原型损失对于该数据集更为有效。在没有原型损失的情况下,相比包含原型损失的组合各有下降,在BD数据上下降6.51%,在CWRU数据上下降5.41%,在CNC数据上下降1.39%。表明原型损失对于提高模型的分类能力,特别是在CWRU和CNC数据集上,具有关键作用。在没有增强策略的情况下,正则化和原型损失的组合性能略低于增强和原型的组合,但高于仅包含正则化的组合。在BD数据上,数据增强提升7.85%,这可能是由于BD数据序列长度高于CWRU与CNC,增强策略在处理复杂或高维数据时有较好效果。

Table 4. Comparison of ablation experiments with different modules (Unit: per cent)

4. 不同模块的消融实验对比(单位:%)

数据集

BD

CWRU

CNC

组件

Acc

MF1

Acc

MF1

Acc

MF1

增强 + 正则 + 原型

89.91

86.94

98.53

98.53

96.29

84.16

增强 + 正则

83.34

85.47

93.12

93.1

94.9

71.29

正则 + 原型

82.06

84.46

97.64

97.64

94.64

68.45

增强 + 原型

85.13

87.1

97.72

97.72

94.66

68.7

4.2.3. 超参数对模型性能影响

为考察不同超参数对AP-FED模型性能的影响,本文使用 α=0.9 下的BD数据,将不同的 λ 下的边缘设备平均精度值进行对比分析。由图4可知,不同 λ 将使得模型精确度在(0.83, 0.9)范围内波动,选择合适的 λ 可有效提高模型性能。当 λ 1 设置为1; λ 2 设置为1; λ 3 设置为0.5时,故障诊断精度最高,可达90.5%,且故障诊断精度随着 λ 1 λ 2 的升高而增高。 λ 1 值变化并没有呈现出明显的单调上升或下降趋势,但其值为1.0时准确度有少量上升。 λ 3 的变化对模型性能的影响趋势并不明显,这可能是因为正则化项的作用主要是防止过拟合,而在当前的数据集和模型配置下,过拟合的风险可能相对较低。 λ 2 对于模型精度有着显著影响,这是因为不同类别具有不同的底层知识,提高原型损失对模型的影响能够有助于模型快速收敛,也进一步印证了原型知识提取对模型训练的重要性。因此需要合理设置不同 λ 2 值,进而有效提高该方法在边缘设备的诊断精度。

Figure 4. The influence of different λ values on the model performance

4. 不同λ值对模型效果的影响

5. 结论

本文针对工业场景下边缘设备不断增加、各企业生产数据敏感性导致的数据Non-IID问题,提出使用原型联邦算法对工业分布式传感器上的多源异构数据进行训练,设计了一种基于原型网络的联邦学习增强框架,得到有效的时间序列分类模型,以排除故障隐患,降低企业的经济损失。具体来说,该方法分为监督学习和原型学习两部分,在监督学习部分,实施了相应的数据增强策略,并使用预测值和真实值的交叉熵损失使得模型朝着精度上升的方向更新参数;在原型学习部分,为每个类别均使用特征向量的平均值作为类原型传递给云端,显著降低模型的参数数量,并加入原型损失用以调整和优化局部训练过程。横向上使用精确度、宏观平均分数等指标,纵向上与FedAvg、FedProx等前沿联邦学习方法进行对比。所提方法在 α=0.9 Non-IID水平下,FD、CWRU与CNC三个数据集中精确度分别至少提升15.37%、21.30%与1.81%,MF1值分别至少提升14.83%、21.33%与18.16;在 α=0.1 Non-IID水平下,精确度分别至少提升4.10%、35.94%与0.01%,MF1值分别至少提升12.16%、35.76%与0.08%。实验结果表明,本文所提出的方法能在轴承故障诊断、机床故障诊断等工业故障诊断领域的边缘设备上实现较高精度的故障诊断,且展现出卓越的泛化性。尽管实验证明该方法在异构状态下时间序列分类是有效的,但如何处理多维度与多通道工业数据问题需要进一步研究。后续工作将探索联邦学习下多维度工业数据的模型设计与组合策略,以期进一步提升其适应复杂环境的能力。

NOTES

*通讯作者。

参考文献

[1] 刘强, 柴天佑, 秦泗钊, 等. 基于数据和知识的工业过程监视及故障诊断综述[J]. 控制与决策, 2010, 25(6): 801-807+813.
[2] 郭桂娟, 田晖, 皮慧娟, 等. 面向非独立同分布数据的联邦学习研究进展[J]. 小型微型计算机系统, 2023, 44(11): 2442-2449.
[3] 刘晶, 朱家豪, 袁闰萌, 等. 非独立同分布工业大数据下联邦动态加权学习方法[J]. 计算机集成制造系统, 2023, 29(5): 1602-1614.
[4] Lai, F., Zhu, X., Madhyastha, H.V., et al. (2021) Oort: Efficient Federated Learning via Guided Participant Selection. Operating Systems Design and Implementation, 14-16 July 2021, 19-35.
[5] Zhou, B., Xie, H., Liu, Q., Chen, X., Guo, X., Feng, Z., et al. (2023) FedFTN: Personalized Federated Learning with Deep Feature Transformation Network for Multi-Institutional Low-Count PET Denoising. Medical Image Analysis, 90, Article ID: 102993.
https://doi.org/10.1016/j.media.2023.102993
[6] Hamer, J., Mohri, M. and Suresh, A.T. (2020) FedBoost: A Communication-Efficient Algorithm for Federated Learning. International Conference on Machine Learning. PMLR, 13-18 July 2020, 3973-3983.
[7] Snell, J., Swersky, K. and Zemel, R. (2017) Prototypical Networks for Few-Shot Learning. NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 4080-4090.
[8] 何心, 段亚穷, 王子栋, 等. 具有隐私保护功能的半监督小样本齿轮箱故障诊断[J]. 中国科学: 技术科学, 2024, 54(6): 1105-1119.
[9] 徐炜钦, 肖婷, 王喆. 平衡信息与动态更新的原型表示联邦学习[J]. 华东理工大学学报(自然科学版), 2024: 1-9.
[10] Arslan, M., Guzel, M., Demirci, M. and Ozdemir, S. (2019). SMOTE and Gaussian Noise Based Sensor Data Augmentation. 2019 4th International Conference on Computer Science and Engineering (UBMK), Samsun, 11-15 September 2019, 1-5.
https://doi.org/10.1109/ubmk.2019.8907003
[11] Um, T.T., Pfister, F.M.J., Pichler, D., Endo, S., Lang, M., Hirche, S., et al. (2017). Data Augmentation of Wearable Sensor Data for Parkinson’s Disease Monitoring Using Convolutional Neural Networks. Proceedings of the 19th ACM International Conference on Multimodal Interaction, Glasgow, 13-17 November 2017, 216-220.
https://doi.org/10.1145/3136755.3136817
[12] Cheng, D., Zhang, L., Bu, C., Wang, X., Wu, H. and Song, A. (2023) ProtoHAR: Prototype Guided Personalized Federated Learning for Human Activity Recognition. IEEE Journal of Biomedical and Health Informatics, 27, 3900-3911.
https://doi.org/10.1109/jbhi.2023.3275438
[13] Lessmeier, C., Kimotho, J.K., Zimmer, D. and Sextro, W. (2016) Condition Monitoring of Bearing Damage in Electromechanical Drive Systems by Using Motor Current Signals of Electric Motors: A Benchmark Data Set for Data-Driven Classification. PHM Society European Conference, 3, No. 1.
https://doi.org/10.36001/phme.2016.v3i1.1577
[14] Smith, W.A. and Randall, R.B. (2015) Rolling Element Bearing Diagnostics Using the Case Western Reserve University Data: A Benchmark Study. Mechanical Systems and Signal Processing, 64, 100-131.
https://doi.org/10.1016/j.ymssp.2015.04.021
[15] Tnani, M., Feil, M. and Diepold, K. (2022) Smart Data Collection System for Brownfield CNC Milling Machines: A New Benchmark Dataset for Data-Driven Machine Monitoring. Procedia CIRP, 107, 131-136.
https://doi.org/10.1016/j.procir.2022.04.022
[16] Tan, A.Z., Yu, H., Cui, L. and Yang, Q. (2023) Towards Personalized Federated Learning. IEEE Transactions on Neural Networks and Learning Systems, 34, 9587-9603.
https://doi.org/10.1109/tnnls.2022.3160699
[17] Wang, Y., Tong, Y. and Shi, D. (2020) Federated Latent Dirichlet Allocation: A Local Differential Privacy Based Framework. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 6283-6290.
https://doi.org/10.1609/aaai.v34i04.6096
[18] McMahan, B., Moore, E., Ramage, D., et al. (2017) Communication-Efficient Learning of Deep Networks from Decentralized Data. Artificial Intelligence and Statistics. PMLR, Fort Lauderdale, 20-22 April 2017, 1273-1282.
[19] Li, T., Sahu, A.K., Zaheer, M., et al. (2020) Federated Optimization in Heterogeneous Networks. Proceedings of Machine Learning and Systems, Vol. 2, 429-450.
[20] Hu, R., Guo, Y., Li, H., et al. (2020) Personalized Federated Learning with Differential Privacy. IEEE Internet of Things Journal, 7, 9530-9539.
https://par.nsf.gov/servlets/purl/10183051
[21] Tan, Y., Long, G., LIU, L., Zhou, T., Lu, Q., Jiang, J., et al. (2022) FedProto: Federated Prototype Learning across Heterogeneous Clients. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 8432-8440.
https://doi.org/10.1609/aaai.v36i8.20819
[22] Li, X., Zhan, D., Shao, Y., Li, B. and Song, S. (2021) FedPHP: Federated Personalization with Inherited Private Models. European Conference, ECML PKDD 2021, Bilbao, 13-17 September 2021, 587-602.
https://doi.org/10.1007/978-3-030-86486-6_36
[23] Seo, H., Park, J., Oh, S., et al. (2022) Federated Knowledge Distillation. In: Eldar, Y.C., Goldsmith, A., Gündüz, D. and Poor, H.V., Eds., Machine Learning and Wireless Communications, Cambridge University Press, 457-485.