1. 引言
随着智能电网技术演进,用电量需求预测已发展为支撑电网智能化运营的一项关键技术[1]。尽管现有研究已提出多种基于时间序列分析的预测模型[2],但该领域仍存在两个关键问题:其一,用电峰值波动特征的精确建模与其噪声鲁棒性之间的平衡;特别值得注意的是“数据孤岛”现象的存在,使得局部区域因训练样本不足而引发的模型过拟合问题尤为突出,制约了传统预测模型的实际应用性能[3] [4]。其二,用电量数据固有的空间离散化分布特性,即数据分散存储于不同地理区域及产业部门[3],这种分布模式不仅因涉及敏感工业信息而需遵循严格的隐私保护规范,更导致数据难以进行集中式整合分析。在此背景下,联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习范式,为同时解决数据隐私保护与跨区域协同建模这一对矛盾需求提供了新的技术路径。
尽管联邦学习已被证实为用电量预测领域有效的分布式机器学习方法[5],当前大部分基于联邦学习的预测方法仍受制于两个难点:其一,“数据孤岛”效应导致客户端(如区域电力公司)本地数据稀缺时,模型易陷入过拟合困境,稀疏的历史用电记录难以全面建模复杂的用电行为模式,特别是对生产事件敏感且受噪声干扰的用电峰值波动特征[6],这种数据匮乏性会迫使局部模型过拟合到特定噪声模式,削弱其在新场景下的泛化性能[7];其二,传统的联邦聚合机制存在特征稀释风险,当整合具有显著参数差异的本地模型时(源于训练数据分布异质性[8]),全局模型容易过度平滑化,无法有效保留客户端特有的用电特征等关键判别信息[9]。上述挑战共同揭示了开发适用于用电量预测任务的FL框架的必要性,需在用电量需求预测任务中实现模型泛化能力与客户端特定适应性的平衡。
针对联邦学习框架下用电量需求预测存在的局部数据过拟合与全局模型过平滑挑战,本文提出了一种基于自适应参数聚合的联邦双分支图神经网络(Federated Dual-branch Graph Neural Network with adaptive parameter aggregation, FDGN)。所提出的FDGN在联邦学习架构中同时建模用电数据的时序特征和峰值变化特征,其主要工作集中在局部模型和全局模型构建两方面,具体而言,在局部建模阶段,FDGN首先整合时间序列分析技术,构建用电量数据的联合特征表示,充分表达用电数据的时序特征和峰值变化特征。然后基于这种联合特征表示,FDGN设计了双分支图结构来实现时序特征和峰值变化特征的建模和处理:双分支图结构的第一个分支是设计的用电量时序图及其对应的多尺度图注意力网络以提取用电量数据的时序模式特征,捕获用电数据中跨时间尺度的周期模式与趋势;另一个分支是设计的数值相关图及其对应的高斯自编码器,对于易导致过拟合的峰值变化特征,该分支将峰值变化特征建模为参数化高斯分布中的期望和动态协方差,通过在预测均值上引入动态协方差,从而在预测峰值变化数据时产生可控的预测波动,在保障预测精确性的同时通过这种波动性缓解过拟合问题。最后,FDGN融合两个分支的特征以生成最终预测结果。实验表明,FDGN在2个真实电网数据集上的测试结果较基线有所提升,验证了FDGN的有效性。
本文的主要贡献如下:
1) 提出了基于自适应参数聚合的联邦双分支图神经网络FDGN,分别建模用电量数据的时序特征和峰值变化模式。通过整合序列分析和双分支图,FDGN减轻了客户端数据有限导致的过拟合,捕捉用电峰值变化。
2) 针对全局模型提出了动态融合聚合方法,在全局模型构建过程中引入相似度参数,通过动态聚合与参数化高斯分布形式的建模来缓解过平滑问题。旨在提高不同用电模式下的预测精度和泛化能力。
本文的结构安排如下:第2节回顾了用电量预测的相关工作。第3节介绍所提出的FDGN框架。第4节通过实验验证所提出的FDGN的有效性,最后一节总结全文。
2. 相关工作
2.1. 传统用电量预测方法
传统的用电量预测方法主要包括基于时间序列的方法、基于回归的方法和灰色预测方法[2]。时间序列方法分析用电量的历史时间序列数据以预测未来值。然而,这些方法假设数据具有一定的统计规律性,且对数据异常值敏感[3]。基于回归的方法,如多元线性回归,建立用电量与影响因素之间的函数关系[2] [10]。但它们在处理复杂的非线性关系时往往面临困难。灰色预测方法适用于数据有限的预测场景,但长期预测的精度相对较低[11]。
2.2. 基于机器学习的预测方法
随着机器学习技术的发展,神经网络、支持向量机和随机森林等方法已广泛应用于用电量预测[12]。神经网络,特别是深度神经网络,能够自动从数据中提取特征,并具有强大的非线性拟合能力[13]。例如,长短期记忆(Long Short-Term Memory, LSTM)网络能有效处理时间序列数据,并在用电量预测中取得了良好效果[14]。然而,这些基于机器学习的方法通常需要大量集中数据进行训练,在面临数据孤岛问题时难以实现[3]。深度学习的出现标志着该领域的变革,随后出现了用于分层特征提取的多尺度LSTM架构和双向LSTM (Bidirectional LSTM, BiLSTM)模型[15],它们结合双向上下文以提高短期预测精度。同时,频域方法,如经验模态分解(Empirical Mode Decomposition, EMD) [16]和傅里叶分析[17]的信号分解,也得到了广泛应用。尽管基于傅里叶的神经架构能有效捕捉周期性模式,但它们往往在时间分辨率和频率定位之间难以平衡,可能导致瞬态特征丢失。基于小波的多分辨率分析[18]通过使用适合异质时间序列数据的自适应基函数缓解了这一问题,但却引入了更高的计算复杂度。
2.3. 联邦学习应用
联邦学习是一种保护隐私的机器学习范式,支持在去中心化数据源上协同训练共享模型,同时保持数据机密性[19]。与传统的集中式方法不同,FL采用客户端–服务器架构,客户端(如移动设备、医院或工业传感器)使用自己的数据训练本地模型,仅将模型更新发送给中央服务器进行聚合[20]。其主要挑战包括处理非独立同分布(non-IID)数据分布、优化通信效率和减轻安全漏洞[21]。最新进展提出了联邦平均(Federated Averaging, FedAvg) [22]、自适应聚合算法和差分隐私机制[23]等解决方案,展示了FL在医疗、金融和物联网领域的适用性。智能电网因其分布式基础设施和严格的数据隐私要求,成为FL的一个有吸引力的应用场景[24]。FL使电力公司和用户能够协同训练电力需求预测和负载均衡模型[25],而无需集中收集数据。
3. 提出的FDGN模型
Figure 1. The model graph of FDGN
图1. FDGN模型图
本文提出了具有自适应参数聚合的联邦双分支图神经网络用于用电量需求预测。下面详细介绍该模型。FDGN的模型结构如图1所示。
本文提出了一种基于具有自适应参数聚合的联邦双分支图神经网络的用电量需求预测方法。具体过程如下。
3.1. 用电量需求预测局部模型构建
本文认为用电量数据本质上具有双分支属性:时间维度反映用电量随时间的变化,用电量沿时间序列变化;空间维度反映用电量数据峰值波动之间的数值相关性。当前用电量数据的预测依赖于时序变化趋势和用电量峰值变化的数值相关性。因此,为了建模用电量数据的这些分支属性,本文设计了双分支图。
3.1.1. 数据预处理与双分支图构建
在预处理中,进行特征融合增强,使用滑动窗口计算统计特征(均值/方差)。使用基于局部加权回归的季节-趋势分解(Seasonal-Trend Decomposition Using LOESS, STL)将数据分解为三个分量:[趋势分量T、季节分量S、残差分量R]。然后,对用电量数据应用集成经验模态分解(Ensemble Empirical Mode Decomposition, EEMD)以获得模态函数(IMF)分量。因此,对于每个时间片,数据向量f由[data, T, S, R, Mean, Variance, IMF1, …, IMFk]组成,从而构建用电量的联合数据表示。
接下来,构建用电量数据的双分支图。我们在公式(1)中将用电量数据表示为双分支图。
(1)
设时间序列为X = {x1, x2, ..., xn}∈Rn×d,其中每个时间点xt对应一个图节点vt,节点特征向量为ft = [xt, Tt, St, Rt, meant, variancet, IMF1t, ..., IMFkt]。DualG包含两种类型的边,一种边用于建模时序关系,表示为Etemp,对应的邻接矩阵为Atemp。另一种边建模用电量数据中的数值相关性,表示为Esim,对应的邻接矩阵为Asim。具体而言,边的计算过程如下。
为了建模用电量数据的时间特性,时序边定义如公式(2)
(2)
其中K是时间窗口,ft = [xt, Tt, St, Rt, meant, variancet, IMF1t,..., IMFkt],Etemp是边。在这种情况下,时间序列中与当前时间片t较近的节点将具有较高的权重,连接权重随时间衰减。这与用电量随时间变化的相关模式一致。
为了在建模用电量时序模式的同时确保预测值的准确性,我们需要建模用电量的数值相关性。基于这些相关性,指导当前时间片的用电需求预测。因此,我们定义特征相似性边Esim如公式(3)
(3)
其中Cosine表示余弦相似度。为了防止过平滑、易于预测的用电量数据的干扰,我们设置阈值τ来过滤、留下具有明显波动性的数据。然后,基于这些数据的相关性,建模用电量过程中的数值关系。
由此,我们构建了双分支图。接下来,利用这些双分支图设计基于图神经网络的预测模型。
3.1.2. 用于用电量需求预测的图神经网络
FDGN设计了一种多尺度的图注意力机制来建模双分支图。
1) 对于时序图:
FDGN设计了多尺度图自注意力神经网络,提取不同尺度的注意力特征,建模不同时间序列长度的时序特征。具体而言,FDGN利用多尺度图注意力网络提取多尺度注意力特征,它包含三个核心部分:(1) 量化图中的节点之间关联的相似度度量;(2) 建模输入关系差异影响的注意力系数;(3) 构建多尺度聚合的注意力特征。
两个输入向量之间的相似度计算如公式(4)
, (4)
其中
是图邻接矩阵的h尺度邻域,
是i和j之间的h尺度相似度特征,Ph是可学习权重矩阵,基于此h尺度相似度函数,h尺度注意力系数定义如公式(5)
, (5)
其中
是注意力系数。FDGN计算H个尺度的注意力系数,然后基于H个尺度的注意力系数计算i的注意力特征如公式(6)
, (6)
其中Qh是可训练权重。
2) 对于数值相关图:
FDGN设计了基于多跳注意力的图高斯自编码器,用于建模用电量的数值特征。本文设计的基于多跳注意力的编码器分为3跳,过滤出与当前用电量值最相关的特征。
以节点i的注意力特征为例,首先全局扫描输入的数值相关图的图节点,计算初步注意力权重,然后选择重要区域或节点。
(7)
其中,Asim是邻接矩阵,超参数dk设置为1,f是特征,T是转置操作。
基于第一跳的结果,进一步分析所选区域内的子结构。
(8)
这里,W是随机初始化的可学习掩码矩阵。
聚合多跳结果,形成最终的注意力分布特征。
(9)
其中,W1和W2是可学习参数,特征被参数化为高斯分布的均值和协方差。解码器随后通过合成这些加权关联来增强注意力的表示。
3.1.3. 基于双分支特征的用电量预测
经过上述步骤,合成双分支特征计算用电量数据的最终预测,如公式(10)所示。
. (10)
这里,SLP-layer是输出预测结果的全连接输出层,
表示Z与feature的元素积。任务目标是最小化如公式(11)所示的损失。
. (11)
其中,CrossEntropy表示交叉熵,λ表示相似性度量系数,用于平衡重构损失和交叉熵,这里我们取0.005。
3.2. 基于模型参数相似度的全局自适应动态参数聚合
为了解决客户端模型在全局模型聚合中的过平滑问题,我们提出了一种基于模型参数相似度的自适应参数聚合方法。对于全局模型,通过参数差异检测和权重调整解决过平滑问题,同时在局部模型中引入全局正则化项,防止本地模型对不一致的模型参数过拟合。
在服务器端:
(12)
其中ε是历史参数保留系数。
在客户端,使用接收的全局模型更新本地模型时,引入全局模型正则化项,损失函数如公式(13)所示
(13)
这里,parameter指用于预测的全连接层SLP-layer的模型参数。
4. 实验分析
我们的实验通过比较分析评估三个关键结论:(1) 所提出的FDGN在预测方面优于基准方法;(2) 所提出的双分支图相比传统的序列建模方法具有优势;(3) 基于相似度的自适应参数聚合能有效缓解参数不一致问题。
4.1. 数据集
本文使用2个数据集进行实验。
1) 源于Kaggle的摩洛哥得土安的用电量数据集[26] (Data_kaggle)
(https://www.kaggle.com/datasets/fedesoriano/electric-power-consumption)
该数据集包含52,416条观测记录,间隔为10分钟,每条记录具有9个特征:时间戳(10分钟窗口)、环境温度、相对湿度、风速和一般扩散流——该术语描述低温流体排放(<0.2℃至100℃),通常与硫化物丘和细菌垫等地质构造相关。该数据集还包括三个指定区域(区域1~3)的用电量指标,而环境变量(温度、湿度、风速、扩散流)作为特征向量f中的辅助属性。其中区域2的用电量趋势如图2所示。其中,X轴表示收集的数据点数量(按时间顺序,该数据集采用10分钟窗口),Y轴表示归一化的用电量。
Figure 2. Electricity consumption data in Zone 2
图2. 区域2的用电量数据
2) 第二个用电量数据集(Data_Southern)来自中国南方电网运营辖区的5个地区(2025年12月1日~5月31日) (https://pan.baidu.com/s/1F7diPhFfdCIZG01tmRIOeg?pwd=r2vy)。用电量数据来自南方电网的5个地区,每个地区有小时级的用电量记录。不同地区的用户结构(包括工业、居民等)不同,导致用电量分布特征存在显著差异。图3显示了中国南方电网某地区的用电量数据,其中,X轴表示收集的数据点数量,Y轴表示归一化的用电量数据。
Figure 3. Consumption data in an area of the China Southern Power Grid
图3. 中国南方电网某地区的用电量数据
如图3所示,用电量数据呈现近似周期性和峰值变化。这2个数据集均可用于用电量预测任务。在实验中,第一个数据集包含3个不同地区的用电量数据,第二个数据集包含5个不同地区的用电量数据。我们将这些用电量数据作为不同客户端的数据,创建联邦学习环境,以验证本文提出的FDGN算法的有效性。
4.2. 基准模型
本文采用联邦学习下的一组基准模型,进行评估和比较。
1) 第一组将常见的用电量预测方法与典型的联邦学习框架(如平均联邦学习AvgFL和基于相关性的主动客户端选择策略FedCor)相结合,形成诸如AvgFL-SVR、AvgFL-BiLSTM、AvgFL-多尺度注意力模型(AvgFL-MSattention)、FedCor-SVR、FedCor-BiLSTM和FedCor-多尺度注意力模型(FedCor-MSattention)等模型。其中,SVR指支持向量回归模型,BiLSTM指双向LSTM模型,多尺度注意力模型指多尺度注意力模型。
2) CNN-LSTM FED [27]:这是一种基于数据增强的预测模型。在该研究中,使用生成对抗网络(GANs)生成用电量数据,通过数据增强缓解客户端数据的过拟合问题。
3) 自适应堆叠LSTM [28]:该用电量预测框架融合了自适应学习、联邦学习和边缘计算概念。
4) SparseMoE [29]:混合专家(MoE)架构的专家网络通过基于Transformer的深度学习模型Metaformer实现。它利用指数移动平均操作和池化算子进行预测。
4.3. FDGN的实验结果分析
4.3.1. 在Data_kaggle上的验证
对于用电量预测,我们首先使用得土安用电量数据(Data_kaggle)验证FDGN的有效性。表1和图4记录了预测结果,展示了用电量预测情况。
Table 1. Test MSE on Data_kaggle dataset
表1. Data_kaggle数据集上的测试MSE
模型 |
区域 1 |
区域2 |
区域3 |
AvgFL-SVR |
0.179 |
0.257 |
0.211 |
AvgFL-BiLSTM |
0.169 |
0.238 |
0.197 |
AvgFL-MSattention |
0.167 |
0.232 |
0.194 |
FedCor-SVR |
0.164 |
0.244 |
0.207 |
FedCor-BiLSTM |
0.152 |
0.222 |
0.192 |
FedCor-MSattention |
0.153 |
0.225 |
0.189 |
CNN-LSTM FED |
0.135 |
0.205 |
0.183 |
Adaptive Stacked LSTM |
0.134 |
0.213 |
0.179 |
SparseMoE |
0.127 |
0.206 |
0.181 |
FDGN |
0.115 |
0.193 |
0.173 |
Figure 4. Test MAE on Data_kaggle dataset
图4. Data_kaggle数据集中的测试MAE
表1和图4结果证实,在Data_kaggle用电量数据集上,所提出的FDGN在所有区域均实现了最低的MSE和MAE。FDGN优于FedCor和AvgFL等传统联邦学习方法。此外,FDGN的性能优于CNN-LSTM FED等基于数据增强的FL方法和自适应堆叠LSTM等自适应FL方法。值得注意的是,FDGN在高波动期间保持了稳健的性能,表明其在建模基准用电量和用电量峰值方面的能力有所增强。区域2的预测用电量和原始用电量如图5所示。
Figure 5. The forecasted electricity consumption curve in Zone 2
图5. 区域2的预测用电量曲线
4.3.2. 在Data_Southern上的验证
在以下实验中,我们展示了FDGN在中国南方电网数据集上的用电量预测性能。表2显示了FDGN使用中国南方电网数据集的用电量数据的预测性能。表2中以MSE表示的结果和测试MAE如图6所示。
Table 2. The global MSE of the FDGN model on the China Southern Power Grid dataset
表2. FDGN模型在中国南方电网数据集上的全局MSE
模型 |
区域 1 |
区域2 |
区域3 |
区域4 |
区域5 |
AvgFL-SVR |
0.171 |
0.193 |
0.182 |
0.188 |
0.229 |
AvgFL-BiLSTM |
0.159 |
0.182 |
0.171 |
0.183 |
0.217 |
AvgFL-MSattention |
0.153 |
0.179 |
0.167 |
0.180 |
0.212 |
FedCor-SVR |
0.151 |
0.188 |
0.175 |
0.189 |
0.223 |
FedCor-BiLSTM |
0.143 |
0.179 |
0.169 |
0.181 |
0.211 |
FedCor-MSattention |
0.141 |
0.173 |
0.165 |
0.179 |
0.207 |
CNN-LSTM FED |
0.136 |
0.165 |
0.160 |
0.169 |
0.195 |
Adaptive Stacked LSTM |
0.133 |
0.159 |
0.153 |
0.173 |
0.197 |
SparseMoE |
0.129 |
0.156 |
0.156 |
0.172 |
0.194 |
FDGN |
0.122 |
0.155 |
0.144 |
0.164 |
0.191 |
Figure 6. Test MAE of electricity consumption in the China Southern Power Grid dataset
图6. 中国南方电网数据集的测试MAE
如表2和图6所示,FDGN在所有区域均实现了最低的MSE和MAE。这一性能突显了与传统用电量预测框架相比,FDGN在数据拟合和预测精度方面的增强能力。Data_Sourthern区域1的工业预测用电量和原始用电量如图7所示。
Figure 7. The forecasted electricity consumption curve in Area 1 of Data_Sourthern
图7. Data_Sourthern区域1的预测用电量曲线
接下来,我们详细描述实验,分析全局模型如何影响本地模型,从而验证全局模型的聚合对本地数据的学习有积极促进作用。实验结果如下:
Table 3. The influence of the global model for clients (Test MSE) on Data_Sourthern
表3. 全局模型对客户端的影响(Data_Southern上的测试MSE)
模型 |
FDGN |
FDGN-local |
区域1 |
0.122 |
0.147 |
区域2 |
0.155 |
0.178 |
区域3 |
0.144 |
0.171 |
区域4 |
0.164 |
0.182 |
区域5 |
0.191 |
0.221 |
如表3所示,FDGN-local指不进行全局聚合的FDGN本地模型。FDGN优于FDGN-local,这验证了全局模型的聚合对本地数据的学习有积极促进作用。
4.4. FDGN的消融实验
为验证所提出的FDGN框架的有效性,我们针对其核心组件进行消融研究:双分支图、用于建模峰值变化的高斯图注意力自编码器和动态融合聚合方法。评估了4个消融变体:1) FDGN-temporal (移除双分支图中的数值结构图);2) FDGN-AE (用AE替换高斯图注意力自编码器);3) FDGN-Avg (用标准AvgFL替换动态融合聚合方法);4) FDGN-AttAE (用传统注意力机制替代分层编码)。这些变体在两个用电量预测数据集上与完整的FDGN模型进行基准比较。实验结果如下。
Table 4. The ablation MSE of the FDGN on Tetouan-Electricity-Consumption dataset
表4. FDGN在得土安用电量数据集上的消融MSE
模型 |
区域1 |
区域2 |
区域3 |
FDGN-AttAE |
0.117 |
0.197 |
0.180 |
FDGN-Avg |
0.123 |
0.201 |
0.179 |
FDGN-AE |
0.121 |
0.197 |
0.179 |
FDGN-temproal |
0.122 |
0.202 |
0.180 |
FDGN |
0.115 |
0.193 |
0.173 |
Table 5. The ablation MSE of the FDGN on China Southern Power Grid dataset
表5. FDGN在中国南方电网数据集上的消融MSE
模型 |
区域1 |
区域2 |
区域3 |
区域4 |
区域5 |
FDGN-AttAE |
0.130 |
0.161 |
0.152 |
0.169 |
0.194 |
FDGN-Avg |
0.129 |
0.161 |
0.153 |
0.167 |
0.192 |
FDGN-AE |
0.127 |
0.159 |
0.151 |
0.166 |
0.191 |
FDGN-temproal |
0.129 |
0.162 |
0.150 |
0.169 |
0.194 |
FDGN |
0.122 |
0.155 |
0.144 |
0.164 |
0.191 |
如表4和表5所示,实验量化了每个架构对整体性能的单独贡献。所设计的组件提高了用电量预测的性能。
5. 结论
随着智能电网技术的快速发展,用电量需求预测已成为支撑电网智能化运营的核心技术。尽管现有时间序列预测模型已取得一定进展,但数据孤岛引发的局部过拟合问题与数据空间离散化带来的隐私保护挑战,仍制约了传统方法的实际应用。联邦学习虽为协同建模与隐私保护提供了新思路,但其在用电量预测中仍面临局部数据稀缺导致的过拟合风险,以及传统聚合机制造成的特征稀释问题。针对上述挑战,本文提出的联邦双分支图神经网络(FDGN)通过自适应参数聚合机制,创新性地设计了时序特征与峰值变化特征的双分支建模框架。实验结果表明,FDGN在真实电网数据集上优于基线模型,提升了预测精度与泛化能力。未来研究将进一步探索FDGN在跨区域电网协同调度中的动态优化潜力,为智能电网的智能化升级提供更可靠的技术支撑。
基金项目
本工作得到了中国南方电网有限责任公司科技项目的支持(项目编号:070000KC24110002)。
NOTES
*通讯作者。