1. 引言
在全球能源需求不断攀升以及对可持续能源迫切追寻的大背景下,能源市场正面临着意义深远的变革。各类分布式能源资产正以更高效率的模式运作,并逐步实现有机整合。需求响应(Demand Response, DR) [1]作为一种创新策略,旨在把用户端的负荷资源当作供应端电能的可替代资源加以运用。它通过激励机制[2],引导用户在特定时间段内调整自身的用电行为,由此产生负荷响应量[3]。从专业定义来看,负荷响应量指的是用户在未参与DR时本应消耗的负荷量,与参与DR后实际消耗的负荷量,两者差值的绝对值。其中,前者被称作用户基线负荷,而后者则代表用户在DR期间的实际用电负荷。
目前,国内外众多学者已针对用户基线负荷的预测展开了广泛且深入的研究。在众多预测方法中,平均法应用较为普遍[4],它主要是依据历史非DR日的日负荷平均值来实施预测[5]。在固定电价的情形下,Chen等借助支持向量机回归(Support Vector Regression, SVR)模型对办公楼宇的基线负荷进行预测[6]。研究结果显示,相较于传统模型,SVR模型展现出更优的性能。此外,Wang等深入剖析了现有用户负荷基线预测产生误差的内在机理,并创新性地提出了一种基于同步模式匹配原理的居民用户负荷基线预测方法[7]。针对居民用户在不同分时电价下的用电行为特点,胡可心等人构建了一种适用于动态分时电价下的居民基线负荷预测模型[8]。该模型将电价差、峰谷属性以及历史负荷等因素,视为影响用户用电行为的关键特征,并运用多元线性回归等回归方法来开展对用户负荷基线的预测工作。在后续的相关研究中,学者们更加关注预测估计精度的提升。例如,刘春阳等人提出了一种基于聚类-估计联动的集群负荷基线(Aggregated Baseline Load, ABL)估计方法[9]。此方法直接将估计精度作为调整用户聚类的指引方向,致力于探寻一种最优的用户聚类方式,从而实现ABL估计精度的最大化。除了上述传统的预测方法外,近年来,以人工神经网络、聚类等算法为典型代表的数据挖掘方法,也逐渐被应用于基线负荷的计算领域。如詹硕等人提出了一种基于BP神经网络的用户基线负荷预测模型,该模型充分考虑了气象条件、响应日类型等多种因素对用电负荷所产生的影响[10]。
综合国内外研究现状,现有负荷基线估计多聚焦于工商业或居民用户,而针对负荷聚合商的研究较为稀缺。虚拟电厂(Virtual Power Plant, VPP)作为一个聚合多种可控资源的市场主体,其内部存在数据的多源异构性以及标准化等复杂问题,尤其在负荷基线估计方面面临显著挑战。尽管五日平均法在估计大型工业用户的基线负荷时表现良好,但在居民用户的应用中误差较大,导致其不适用于这种用户类型。因此,针对VPP这种多类型用户混合的情况,亟需开发一种能够耦合多种数据特征的负荷基线估计方法,以更精确地反映各类用户的负荷特性。
2. 多变量时间序列与状态空间建模理论
针对VPP多源异构数据的建模需求,本节重点介绍多变量时间序列与状态空间建模的理论框架,为后续负荷基线估计提供方法论支撑。
2.1. 多变量时间序列模型原理
2.1.1. 梯度提升回归树
在处理具有较多非线性特征的多变量数据时,决策树及其集成算法常用于回归建模。简单决策树可被视为对特征空间的分段,而梯度提升回归树(Gradient Boosting Regression Tree, GBRT)则是迭代累加若干棵弱回归树来逼近真值。其基本思想可表述为:
首先初始化,对初始模型:
(1)
式中,
为损失函数。
随后进入迭代优化过程,在第m次迭代时,计算负梯度
,对每个样本i则有:
(2)
构建回归树模型以拟合这些残差
,得到最佳叶节点划分。最后更新模型:
(3)
式中,
为学习率。
经过M次迭代后,就可以得到最终模型:
(4)
在构建回归树模型时,可将气象特征(如气温、湿度)、时段特征(如小时标识、区分周末或工作日)以及滞后负荷等多个维度的信息,同时作为输入自变量
。
2.1.2. 支持向量回归
SVR的目标是寻找一个“几何间隔”最优的超平面,使得大部分数据点都落在
-不敏感区间内;若有点超出该区间,则需要付出惩罚代价。
给定训练样本
,其中
为输入特征向量,
为目标值,回归问题可以转化为以下优化问题:
(5)
(6)
式中,惩罚系数
用于调节模型对超出
-不敏感带的样本点的惩罚强度;松弛变量
和
分别表示样本
点
在
-不敏感带上方和下方的偏差;经验风险项
用于衡量训练数据中超出
-不敏感
带的样本点的累计偏差;超平面的法向量
决定了回归函数的方向;截距项
则用于调整回归函数的位置,使其更好地拟合数据。
2.2. 状态空间模型基本概念与负荷动态特性描述
在需求侧响应与负荷建模过程中,用户的行为模式、季节性波动以及随机干扰等因素通常表现出动态演化的特征,这使得传统的静态模型难以充分捕捉系统的复杂性。状态空间模型作为一种有效的动态建模工具,能够将系统的动态过程通过“状态方程”和“观测方程”的结合,准确表征系统内部的不可见机制。该模型通过引入状态向量和观测向量的关系,在时间序列分析中提供了对系统状态和观测数据之间的动态联系的清晰描述。
一个离散时间状态空间模型可由公式(7)表示:
(7)
式中,
是状态向量,表示系统在时刻t的内部状态(如用户潜在的用电行为或负荷自然发展状态);
是观测向量,表示实际可测量的量(如实际抄表的负荷值):
是系统的外部输入(如需求侧响应中的激励信号);
为系统矩阵,分别描述状态转移、输入控制、状态到观测的映射;
和
分别是过程噪声和观测噪声,通常假设为高斯分布,分别表示系统内部的不确定性和观测误差。
3. 基于负荷基线估计的响应潜力评估理论
本文所采用的基于负荷基线估计的响应潜力评估方法,其核心逻辑是通过制定负荷基线并计算其与理论实际负荷的差异来量化响应潜力。负荷基线的制定过程综合考虑了多维数据特征,例如历史负荷数据、天气条件、节假日因素等,以此预测基准负荷曲线。而理论实际负荷则是考虑需求弹性系数中的价格因素基础上,经过如DR、调度策略等多种外部调节影响后生成的负荷曲线。通过计算两者差值的绝对值,可以准确评估各时段的响应潜力。具体计算原理如下:
(8)
式中,
表示负荷基线,即用户在无激励情况下的正常用电曲线;
表示理论实际负荷,即用户在有激励情况下的用电量;
表示负荷变化量,即预计的用户在该时刻的可调节负荷量。
为了进一步提高方法的可靠性,本文还引入了潜力评估的阈值机制。在缺乏精确需求弹性数据或个体化信息的情况下,可以采用简单可行的固定比例法设定可调节潜力阈值。例如,基于历史经验、系统安全裕度以及政策最新要求,假定基线负荷最大可上调3%,最大可下调5%,从而快速提供最大可调容量参考。这种方法在初步分析或快速部署中具有较高的实用性。
4. 基线与潜力计算流程及模型算法实现流程
4.1. 负荷基线计算与可调潜力估计流程
首先基于多维数据特征(如历史负荷数据、天气条件、节假日因素等)进行负荷预测,生成基准负荷曲线,即负荷基线。随后,获取考虑多种外部调节影响下的理论实际负荷数据。通过计算负荷基线与理论实际负荷的差值绝对值,量化各时段的预计响应潜力。为了提高方法的可靠性,引入潜力评估的阈值机制,在缺乏精确需求弹性数据的情况下,采用固定比例法,将基线负荷的最大可上调3%和最大可下调5%作为DR潜力的阈值,从而提供可调容量的参考依据。具体的负荷基线计算与可调潜力估计流程如图1所示。
Figure 1. Flow chart of load baseline calculation and adjustable potential estimation
图1. 负荷基线计算与可调潜力估计流程图
4.2. 模型与算法实现流程
4.2.1. 数据来源与预处理
本研究基于华东地区电网调度系统全年运行数据开展,包含总负荷、分布式电源出力、统调负荷及全口径用电量等核心字段,时间分辨率设定为小时级。重点针对夏季(6~8月) DR显著时段进行数据治理。数据预处理流程如下:首先实施数据完整性校验,采用插值法或邻近值填充法完成缺失值修复;其次开展数据标准化处理,统一单位与数据类型,并将逻辑型特征(如节假日标识、高峰时段标识)转换为0~1数值型变量;随后建立时间序列索引,实现变量与时间戳的精准对齐;最终筛选6~8月数据作为核心分析样本。经过数据预处理流程,形成标准化数据集,为后续基线负荷预测与DR潜力评估提供数据支撑。为保障模型泛化能力,按8:2比例划分为训练集与测试集。通过上述流程,生成标准化数据集,为后续特征工程与模型训练提供数据基础。
4.2.2. 特征工程处理
1) 时间特征
首先,提取了与时间相关的特征,例如一天中的小时数(HOD)、一周中的星期几(DOW)、是否周末(IWK)和一年中的月份(MOY)等信息。这些特征能够帮助捕捉用电行为的日周期和周周期规律,为模型提供时间维度的上下文信息。
2) 滞后特征
为了反映历史负荷对当前时刻的影响,加入了前1小时负荷滞后特征(LAG1)和前24小时负荷滞后特征(LAG24)。这些特征在负荷预测中尤为重要,尤其是在夏季时段,负荷通常会随着气温变化和用户行为模式呈现明显的日周期性变化。
3) 气象特征
考虑到气象因素对电力负荷的影响,还本研究特别引入了温湿度复合特征(Temp & Hum)作为关键预测变量。温度和湿度的协同作用直接影响人体的热舒适度感知,能够更准确地反映环境对电力需求的实际影响。
4) 标准化处理
为了避免不同特征的量纲差异导致模型训练不稳定或学习效率不均衡,对数值特征进行了标准化处理,使其满足“零均值、单位标准差”的要求。具体公式如公式(9)所示:
(9)
式中,
是训练集特征的均值;
是训练集特征的标准差。在测试集上采用相同的均值和标准差进行标准化处理,以确保评估结果的公平性。
4.2.3. 回归模型训练
在负荷预测任务中,回归树类方法和支持向量机类方法是两种常见的非线性模型选择。它们能够结合多维特征(如时段、天气、滞后负荷等)对真实负荷曲线进行较为精确的拟合,并具有较好的可解释性或泛化能力。综合考虑实际数据量、特征维度以及计算效率,本文选取了SVR模型和GBRT模型进行对比。在模型训练阶段,为实现性能最优化,采用多轮参数寻优实验确定各主要参数的最佳超参数组合。基于交叉验证方法开展迭代调优,通过多组对比实验筛选出最优参数配置,保障模型在测试集上的预测精度与泛化能力达到最优水平。
4.2.4. 性能评价指标与模型选择
为系统评估机器学习模型性能,本研究选取以下四项评价指标:决定系数(R²)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE),分别从不同维度量化模型的预测精度与稳定性。通过对比分析GBRT与SVR模型在训练集及测试集的指标表现,若某回归模型在测试集评估中同时满足:RMSE、MAE、MAPE指标更低,且R²值更高,则可判定该模型在当前特征工程与超参数优化条件下达到最优或次优性能水平。
5. 算例分析
5.1. 模型相关分析
5.1.1. 数据特性分析
基于4.2.1节预处理的标准化数据,本节重点分析负荷的时序特性与波动规律。图2详细展示了6月至9月期间电力负荷的时序变化特征。从6月初开始,随着气温的持续攀升,电力总负荷呈现渐进式增长趋势,这反映了各类用户对制冷设备的依赖度逐步提升。在7~8月的用电高峰期,负荷曲线呈现出显著的双重波动特征:首先,极端高温天气导致居民区、商业建筑和工业厂房的制冷系统持续高负荷运转,直接推高了基础用电需求;其次,叠加工业生产旺季和商业活动高峰等因素,进一步放大了电力负荷的波动幅度。这种复合型负荷峰值对电力系统的安全稳定运行构成了重大考验,要求电网运营商在电源规划、备用容量配置和需求侧管理等方面采取针对性的应对措施。值得注意的是,9月以后负荷曲线呈现稳定下降趋势,这与气温回落导致的制冷需求减少密切相关,同时也预示着季节性用电高峰的结束。
Figure 2. Summer load variation diagram
图2. 夏季负荷变化图
5.1.2. 对比实验
根据实验数据统计结果,表1详细列出了各机器学习模型的性能评估指标。实验结果表明,GBRT在测试集上展现出最优的预测性能,其R2达到96.28%,同时RMSE和MAPE分别保持在342.5335 MW和3.94%的较低水平。在训练集上,该模型同样表现优异,R2、MAPE和RMSE指标分别为97.81%、2.43%和239.6677 MW。训练集与测试集性能指标的高度一致性充分证明了GBRT模型具有出色的泛化能力,能够有效处理未见数据,这主要得益于其集成学习机制对数据特征的稳健建模能力。GBRT的集成机制通过多棵弱回归树的梯度迭代,有效捕捉了负荷数据的非线性特征,而SVR对高维稀疏特征的敏感性导致其在复杂时序任务中泛化能力受限。
Table 1. Performance evaluation of SVR and GBRT models
表1. SVR和GBRT模型的性能评估
数据集 |
模型 |
R2 |
RMSE |
MAE |
MAPE |
训练集 |
SVR |
0.9326 |
434.777 |
306.0021 |
0.0321 |
GBRT |
0.9781 |
239.6677 |
168.6817 |
0.0243 |
测试集 |
SVR |
0.9153 |
621.3852 |
430.4497 |
0.0496 |
GBRT |
0.9628 |
342.5335 |
256.0702 |
0.0374 |
5.1.3. 超参数分析
为确保SVR与GBRT的超参数优化过程具有科学性和可比性,本研究采用标准化参数调优流程。如表2和表3分别详细列述了SVR与GBRT模型的待优化超参数的可行域以及通过系统化调参获得的最优参数组合。本研究采用5折交叉验证的网格搜索策略,以测试集RMSE最小化为目标函数,筛选最优参数组合。首先,针对SVR和GBRT的核心超参数,根据文献经验与预实验结果设定合理取值范围;其次,在调参时,严格遵循控制变量原则:每次迭代仅调整单一参数,其余参数保持默认设置,以此精确评估各参数对模型性能的影响;然后,利用过拟合风险控制方法确定GBRT模型的学习率和树深度等个别关键参数;最后,每一组参数组合的性能均通过5折交叉验证评估,最终选择在训练集和测试集上均表现稳定的参数配置。实验结果表明,经过标准化调参流程后,两种模型均能达到理论最优性能状态,这为后续的模型对比分析奠定了可靠的基础。
Table 2. Hyperparameters to be tuned and their optimal values for SVR model
表2. SVR模型需要调整的超参数以及最优取值
超参数 |
参数名称 |
取值范围 |
取值 |
Kernel Function |
核函数类型 |
linear、polynomial、gaussian等 |
gaussian |
Cost |
惩罚系数 |
(0, +∞) |
1 |
Epsilon |
容忍度 |
[0, +∞) |
0.1 |
Gamma |
高斯核系数 |
(0, +∞) |
0.02 |
Standardize |
是否标准化数据 |
true、false |
true |
Table 3. Hyperparameters to be tuned and their optimal values for GBRT model
表3. GBRT模型需要调整的超参数以及最优取值
超参数 |
参数名称 |
取值范围 |
取值 |
Num learning cycles |
迭代次数 |
[10, 500] |
102 |
Learn rate |
学习率 |
[0.001, 0.999] |
0.1 |
Max num splits |
每棵回归树的最大分裂次数 |
[2, 50] |
20 |
Min samples split |
节点划分所需的最小样本数 |
[2, 25] |
16 |
Min samples leaf |
叶节点所需的最小样本数 |
[1,10] |
4 |
Max depth |
树的最大深度 |
[5, 15] |
7 |
5.1.4. 模型解释
进一步通过对比两种模型的特征贡献度评估,验证了特征选择过程的科学性。图3展示了SVR和GBRT两种模型的特征重要性评估结果,虽然两者在特征重要性值的具体分布上存在细微差异,但其重要性排序表现出高度一致性。滞后1期负荷(LAG1)和滞后24期负荷(LAG24)在两个模型中均被识别为最重要的预测变量,其次是温湿度复合特征(Temp & Hum),而时序特征如星期几(HOD)、周末标识(IWK)和年日序的重要性值均相对较低。这种跨模型的一致性特征排序结果,不仅证实了历史负荷数据的时序依赖特性在电力负荷预测中的核心地位,同时也验证了GBRT模型特征选择机制的可靠性。因此,基于GBRT模型构建的负荷基线预测模型具有坚实的理论基础和实证支持,其预测结果的可靠性得到了双重验证。滞后负荷特征(LAG1/LAG24)的高重要性反映了电力负荷的强时序依赖性,用户用电行为具有显著的日周期和周周期规律;温湿度复合特征(Temp & Hum)的贡献则体现了环境因素对制冷需求的直接影响。
(a) SVR模型特征重要性结果 (b) GBRT模型特征重要性结果
Figure 3. Feature importance plot of SVR and GBRT models
图3. SVR和GBRT模型特征重要性图
5.1.5. 消融实验
在现代机器学习框架下,广义消融实验的范畴已拓展至超参数、数据集及特征维度。鉴于本研究模型未采用神经网络架构,难以通过分析各组件对模型性能的作用来解释各部分实际贡献。由于实验选用了多组特征变量,故可以通过评估各关键特征对模型性能的影响来揭示各部分的实际作用。借助消融实验方法,进一步分析SVR模型与GBRT模型中各关键特征的贡献度。依次从模型中剔除每个主要特征,并评估剩余特征构成的子框架性能表现。
Table 4. Results of the ablation study on different key features in the SVR model
表4. SVR模型下不同关键特征的消融实验结果
模型 |
RMSE |
MAE |
MAPE |
SVR |
621.3852 |
430.4497 |
0.0496 |
no LAG1 |
659.2384 |
439.2029 |
0.0683 |
no LAG24 |
639.2834 |
436.298 |
0.0526 |
no Temp & Hum |
629.8372 |
434.3942 |
0.0512 |
SVR➡VAR |
733.384 |
495.3914 |
0.0835 |
Table 5. Results of the ablation study on different key features in the GBRT model
表5. GBRT模型下不同关键特征的消融实验结果
模型 |
RMSE |
MAE |
MAPE |
GBRT |
342.5335 |
256.0702 |
0.0374 |
no LAG1 |
438.9418 |
362.8239 |
0.0738 |
no LAG24 |
402.7974 |
339.3875 |
0.0642 |
no Temp & Hum |
363.3851 |
289.8491 |
0.0412 |
GBRT➡ARIMA |
498.2084 |
402.3762 |
0.0852 |
表4和表5展示了两种模型及移除各关键特征后子框架的实验结果。分析实验数据可知,LAG1、LAG24与Temp & Hum的组合在不同数据集中均取得最优预测效果,而任何关键特征的缺失均会导致模型性能衰减。具体而言,当剔除LAG1时,模型性能降幅最为显著,其次为LAG24与温湿度特征,这一现象验证了本研究引入时序滞后因素的必要性。此外,采用传统VAR模型替代SVR、ARIMA模型替代GBRT的实验显示,替代后模型性能出现显著退化。消融实验通过“组件移除”与“模型替换”双重验证机制,证实:时间滞后特征与温湿度特征是提升预测精度的核心要素,时序滞后特征(LAG1/LAG24)的缺失会导致模型性能显著下降(RMSE增加5%~30%),验证了负荷预测对历史数据的强依赖性,而温湿度特征(Temp & Hum)的移除则使MAPE上升约1%,凸显了气象因素在夏季负荷预测中的必要性;SVR与GBRT模型架构由于融合更多外部特征,在当前任务中具有不可替代性,其性能显著优于传统时间序列模型(如VAR、ARIMA)。
5.2. DR可调潜力结果分析
本研究的可调潜力评估方法建立在准确预测负荷基线的基础上,可调潜力本质上是通过对比理论实际负荷(实施DR措施后的负荷)与预测基线负荷(未实施措施的负荷)的差值来计算的。模型性能评估结果表明,GBRT在本任务中表现最优,后续分析将基于此模型展开。
5.2.1. 预测结果
为确保评估结果的可靠性,对GBRT模型预测的基线负荷与实际负荷进行了系统性对比分析。图4展示了电力系统在夏季运行期间实际负荷曲线与基于GBRT的基线负荷曲线的时序对比分析。分析显示,实际负荷与预测的基线负荷的波动模式呈现高度同步性,尤其在日周期和负荷峰值形态上表现出显著的一致性。在7月下旬至8月中旬的一些峰值时段,实际负荷略高于基线负荷,说明当时气温或其他用电需求激增;在部分低谷时段,也可能出现基线高估或低估的情形,这些零星误差往往与用户生产调度或突发性天气因素相关。虽然存在局部时段的预测偏差,但整体MAPE控制在3.8%以内,证实了GBRT模型能够有效捕捉负荷变化的时序特征和周期规律。
Figure 4. Comparison of actual and baseline loads (Jun~Sep) based on GBRT model
图4. 基于GBRT模型的6~9月实际负荷与基线负荷对比图
5.2.2. 响应潜力分析
图5展示了6~9月期间电力系统的实际负荷、基线负荷及其调节潜力分布态势。理论调节潜力虽源于实际负荷与基线负荷的差值,但为提升电网应对突发事件的调节能力并满足峰谷调节需求,特别在基线曲线周围设置了上下调节裕度带。VPP在负荷高峰时段具备向下调节5%的削峰能力以减轻电网供电压力,低谷时段则可通过向上调节3%提升设备利用率。分析表明:基线曲线始终处于实际负荷波动带的核心区域,与实测数据的偏差幅度基本稳定在预设裕度范围内。这种设计确保了VPP在大部分运行时段内具备有效调节能力,为电网调度提供了一定的动态调节空间,可通过挖掘这些潜力来维持电力供需平衡,保证电网稳定运行。
Figure 5. Comparison of power load and regulation potential (Jun~Sep)
图5. 6~9月电力负荷及调节潜力态势图
为便于更精细地分析负荷调节潜力,图6展示了基于典型夏季日负荷数据的VPP调节潜力评估结果,图上展示了基线负荷、实际负荷以及削峰和填谷响应区间的变化情况。实际负荷是经过DR调控手段后测量得到的负荷,而基线负荷则是通过预测得出的未参与DR的负荷。两者的差值能够量化VPP的调节潜力。分析表明,当基线负荷低于实际负荷时,如凌晨至上午的低谷时段,系统处于负荷低谷期,可通过VPP提升负荷实现填谷操作,提高设备利用率;相反,当基线负荷高于基线负荷时,如午后及晚间的负荷高峰时段,则需启动削峰响应以缓解电网压力;在平常时段,大部分时间无需通过VPP进行DR。VPP调节能力的评估通常通过一条曲线呈现,而非单一数值。这条调节曲线反映了虚拟电厂在不同时间段的动态调节潜力,其中,黄色区域代表预计的填谷响应区间,绿色区域代表预计的削峰响应区间。这些响应区间的划分为电力系统的负荷调节和供需平衡优化提供了直观的参考依据,有助于提高电力系统的稳定性和经济性。
Figure 6. Schematic diagram of daily load response intervals
图6. 典型日负荷响应区间示意图
6. 结语
本研究围绕VPP负荷基线建模与可调潜力评估的协同机制展开系统性分析,提出并验证了一种基于多元时序建模与动态需求弹性分析的集成方法。研究结果表明:1) 通过融合用电行为特征、环境变量及历史负荷数据的多元时间序列模型,可有效解决中小型分布式用户负荷分散性导致的基线估计难题,模型在负荷高峰时段展现出显著的预测稳定性与可靠性,为DR潜力的精准量化奠定了理论基础;2) 结合需求弹性系数的协同分析揭示了系统可调潜力的时变分布规律,负荷低谷期存在可调资源填谷窗口以提升设备利用率,而负荷高峰期则具备削峰潜力以缓解电网运行压力,验证了差异化DR策略设计的必要性;3) 精细化时序分析表明,实际负荷与基线负荷的动态差异具有显著时段依赖性,VPP通过调度可控资源可在夜间提升负荷水平实现填谷,并在午间及晚间高峰时段削减峰荷优化负荷分配,凸显了DR策略动态优化的工程价值。研究成果为系统运营商制定时空差异化的DR策略、提升VPP对分布式资源的聚合调度能力提供了理论依据与技术支撑,对增强电力系统灵活性、促进高比例可再生能源消纳具有重要意义。
NOTES
*通讯作者。