1. 引言
随着全球能源结构向清洁能源转型,光伏发电作为可再生能源的核心组成部分,在电力系统中的占比持续提升,国际能源署(IEA)预测到2050年光伏发电将占全球总发电量的25%以上[1]。精准的光伏电站发电功率日前预测是优化电网调度、提高光伏消纳能力、降低备用容量成本的关键技术,对保障电力系统的稳定性与经济性具有重要现实意义。然而,光伏发电功率受太阳辐照度、温度等气象因素影响显著,呈现出强烈的间歇性和波动性,尤其在复杂天气条件下,预测精度难以满足工程应用需求,成为制约光伏大规模并网的核心瓶颈[2]。
当前光伏功率预测研究已形成多条技术路径,但仍存在一定局限性。单一基于历史功率数据的时间序列模型(如LSTM、RandomForest)虽能捕捉功率周期性规律,却忽略了气象因素的动态影响,复杂天气下预测误差较大[3];数值天气预报(NWP)的融入虽能提升模型适应性,但粗分辨率的NWP数据难以反映局地气象差异,且传统深度学习模型对NWP多源数据的特征提取效率较低,限制了精度提升空间[4]。此外,现有研究多将模型优化与数据融合技术分离应用,缺乏从数据预处理、基础建模到技术强化的系统性设计,尚未形成兼顾精度与工程实用性的完整预测体系。空间降尺度技术在光伏预测中的应用仍处于探索阶段,其与多源数据融合的协同优化潜力尚未得到充分挖掘。
针对上述研究空白,本文聚焦光伏电站发电功率的日前预测精度提升,构建了“基础建模–多源融合–空间适配”的多阶段协同预测体系。首先通过对光伏发电特性的深入分析夯实数据基础,进而构建基于历史数据的基准预测模型;随后引入NWP等多源气象信息优化模型结构,最后借助空间降尺度技术增强局地气象感知能力,形成层层递进的技术路径。本文旨在通过这一系统性技术方案,解决单一模型适应性不足、NWP数据利用率低等问题,有效提升复杂气象条件下的预测精度与工程适用性。
2. 研究基础与数据处理方法
2.1. 数据来源与概况
本研究数据包含光伏电站历史发电功率数据与数值天气预报(NWP)气象数据两类核心数据,均来自实际工程场景。
光伏历史功率数据来源于某6600 kW (电站装机容量)级光伏电站2015年1月1日年至2020年12月31日的某一个子阵实测数据,采样频率为15分钟,共计351,360条记录(本文所有功率的特性分析、误差验证及模型优化等相关内容,均基于该子阵实测数据展开,未涉及电站其他子阵或总装机容量层面的聚合数据)。该数据集完整覆盖不同季节与典型天气条件,能够有效反映电站实际运行中的功率波动特性。NWP气象数据来自国家气象科学数据中心提供的格点数据,空间分辨率为25 km × 25 km,时间分辨率为15分钟,包含日总水平辐射(GHI)、散射辐射基础数据、环境温度、相对湿度、风速等15类关键气象因子,时间跨度与功率数据保持一致,孙娴等提出的改进型理想大气太阳辐射计算模型为这类辐射数据的精准核算提供了技术支撑[5]。
数据涵盖完整的四季周期,包含晴天、阴天、雨天、多云转晴等多种典型天气场景,其中极端天气(如暴雨、寒潮)数据占比约8%,能够充分反映复杂气象条件下的光伏功率变化规律,满足模型训练与验证的需求。
2.2. 数据预处理
为消除原始数据中的噪声、缺失值和量纲差异对模型性能的影响,对原始数据作如下处理。
1) 数据清洗:剔除因传感器故障导致的无效数据(如功率值为负、气象因子超出物理合理范围的数据),共筛选出有效数据344,300条,有效率达98.0%;
2) 缺失值填充:采用K近邻(K-Nearest Neighbor, KNN)填充法处理离散缺失数据,设置
,通过计算缺失值邻近的3个有效数据加权平均得到填充值;对于短时连续缺失数据,采用三次样条插值法修复,进一步保留时间序列的连续性;
3) 异常值处理:采用
原则识别异常值,将超出均值±3倍标准差的数据判定为异常,结合相邻时刻数据趋势,结合箱线图与孤立森林算法进一步筛选,最终剔除3%的异常样本,避免极端值对模型训练的干扰;
4) 归一化处理:对功率数据进行Min-Max归一化,将所有数据映射至[0, 1]区间,消除不同量纲带来的影响,归一化公式如式(1)所示,气象数据进行Z-Score标准化。
(1)
其中,
为原始数据,
为归一化的数据,
和
分别为该变量的最大值和最小值。
2.3. 光伏发电特性分析
基于预处理后的数据,本文从时间周期特性和气象响应特性两方面分析光伏发电规律。
时间周期特性方面,光伏发电功率呈现显著的多尺度周期特征。日内周期表现为“单峰型”曲线,日出后功率逐步上升,15:00达到峰值(对应功率值85.53 kW),日落后因无太阳辐照快速降至0,日内功率平均波动幅值为85.53 kW,波动主要集中在辐照强度突变的多云时段,周期固定为24小时。季节周期受太阳高度角、日照时长影响,季节差异明显,六月平均功率达34.84 kW (年度最高),十二月平均功率仅11.37 kW (年度最低),全年功率波动幅度为23.47 kW,春末至夏季为发电高峰期(见图1)。这种显著的季节波动,本质上与太阳辐射资源的季节性变化直接相关[6]。
Figure 1. Subarray power distribution heatmap
图1. 子阵功率分布热力图
气象响应特性方面,采用Spearman秩相关系数分析功率与气象因子的相关性(见图2)。结果显示,实际功率与日总水平辐射(GHI)的Spearman秩相关系数达1.00,与固定倾角辐射(GTI)的相关系数为0.96,二者与功率呈极强正相关,是决定光伏出力的核心直接因子;与散射辐射指数、漫射辐射指数的相关系数分别为0.69、0.63,呈中等正相关;与气温的相关系数为0.35,虽与功率直接相关性较弱,但气温是影响光伏组件光电转换效率的关键间接因子;而湿度、风速与功率的相关系数绝对值均低于0.2,呈弱相关。邓艳君等通过对比多种水平面太阳总辐射量计算模型发现,不同模型的误差分布与适用场景存在显著差异,基于NWP数据的GHI反演模型在复杂地形区域的适用性更优[7]。结合光伏功率的形成机理,明确日总水平辐射(GHI)、固定倾角辐射(GTI)及气温为核心影响因子。
Figure 2. Spearman correlation heatmap
图2. Spearman相关系数热力图
2.4. 关键理论基础
2.4.1. 时序建模基础
长短期记忆网络(Long Short-Term Memory, LSTM)通过遗忘门、输入门和输出门的门控机制,实现对历史信息的“筛选–更新–输出”,可有效克服传统循环神经网络的梯度消失问题,够精准捕捉光伏功率这类长时序数据的跨时段依赖关系,适配其日内/季节周期的规律性波动特征[4] [8]。双向长短期记忆网络(Bi-directional Long Short-Term Memory, Bi-LSTM)在LSTM基础上新增反向传播层,前向层捕捉历史时序的功率变化趋势,反向层挖掘后续时段的辐照关联特征,可同时利用“过去–当前–未来”的时序信息,弥补单一方向建模对突发气象扰动(如短时云遮)的响应不足,为多源融合预测提供更全面的特征支撑。
2.4.2. 聚类与插值方法
CLARANS (Clustering Large Applications based on RANdomized Search,基于随机局部搜索的大规模数据聚类算法)聚类算法基于随机局部搜索优化策略,通过随机初始化3个聚类中心,以曼哈顿距离度量样本与中心的相似性,迭代优化中心位置以最小化目标函数,最终基于轮廓系数验证聚类有效性,可高效划分光伏功率的强、中、弱辐射场景,为不同波动特征的针对性建模提供数据支撑。
Co-Kriging插值法作为Kriging方法的多变量扩展,继承了Kriging对非线性数据的优异拟合能力[9],该方法通过挖掘主变量(NWP预测值)与辅助变量(实测气象数据)的交叉协方差关系,构建球状半变异函数刻画空间相关性,最终实现NWP数据向电站百米级尺度的降尺度转换,相较于传统单变量插值方法,其可有效提升空间数据的插值精度,为后续NWP空间降尺度处理提供技术支撑。
3. 光伏功率预测体系构建
基于前文的结果,本节构建“基础建模–多源融合–精度强化”的三阶段光伏功率日前预测体系,依次实现基准预测、复杂气象适配优化与空间尺度匹配升级。
3.1. 单变量LSTM基准构建
以历史功率时序特征为基础,构建单变量LSTM模型作为预测基准,验证纯时序建模在光伏功率预测中的有效性。
3.1.1. 模型结构设计
Figure 3. LSTM neuron diagram
图3. LSTM神经元示意图
基于LSTM擅长捕捉时序数据依赖关系的特点,模型具体结构与参数设置如下。
1) 输入层采用历史96个时间步(时间间隔15分钟,对应24小时)的功率数据,输入维度为(96, 1);
2) 隐藏层设置3层隐藏结构,每层含64个隐藏单元,激活函数采用tanh;
3) 输出层预测未来24小时至48小时的功率值,输出维度为(48, 1);
4) 训练配置方面,损失函数选用均方根误差(RMSE),采用Adam优化器,批量大小设为32,迭代60次,学习率设为0.001。
LSTM神经元核心结构如图3所示,其门控机制通过以下公式实现。
1) 遗忘门:
2) 输入门与候选状态:
3) 细胞状态更新:
4) 输出门与预测值映射:
其中,
为上一时刻隐藏状态,
为历史功率输入,
是Sigmoid激活函数,
为逐元素乘积。
3.1.2. 模型训练与基准验证
为确保测试集能覆盖不同季节、气象场景的功率特征,采用“训练集–测试集”分层划分策略,剔除2、5、8、11月每月最后一周数据作为测试集,其余数据作为训练集,确保数据分布一致性。训练过程中,损失曲线呈现持续收敛趋势(见图4),至60轮时,训练损失稳定在0.0012左右,无明显过拟合现象。
Figure 4. Training loss curve
图4. 训练损失曲线
测试集单日预测结果显示(见图5),模型对日内“单峰型”功率趋势捕捉效果优异,早间7:00功率上升阶段,预测值与实际值的偏差小于0.05 kW;15:00峰值时刻,实际功率85.53 kW,预测功率85.47 kW,偏差仅0.06 kW;午后18:00功率下降阶段,拟合度同样保持在99.5%以上。统计结果得到的平均绝对误差(MAE) 0.0021,均方根误差(RMSE) 0.0010,决定系数(R2)为0.9241。
Figure 5. Single-day prediction comparison
图5. 单日预测结果对比
但是,当测试集包含多云、阴天等复杂场景时,模型在辐照度突变时段(10:00~14:00)的预测偏差会升至0.12 kW以上,暴露出纯时序模型对气象因子动态变化的适配不足。
3.2. Bi-LSTM融合模型
针对单变量模型对气象因素适配不足的问题,本文融合NWP多源气象数据,结合CLARANS聚类场景划分与GWCPSO (改进的粒子群优化算法,Gaussian Weighted Chaos Particle Swarm Optimization)参数优化,构建Bi-LSTM联合预测模型。
3.2.1. 气象特征筛选与场景划分
采用Spearman秩相关系数与Kendall一致性系数进行双重特征筛选(见图2和图6),最终保留“日总水平辐射(GHI)、固定倾角辐射(GTI)、太阳散射辐射(DHI)、气温”4类核心气象特征,结合2维辐射辅助特征(每日最大GHI、平均GTI),最终构成Bi-LSTM模型的7维输入特征,输入维度为(96, 7) (96为时间步,7为特征维度),有效剔除冗余特征。
Figure 6. Kendall correlation heatmap
图6. Kendall相关系数热力图
基于筛选后的“固定倾角辐射(GTI)”和“太阳散射辐射(DHI)”为核心特征向量,采用CLARANS聚类算法对辐射场景进行划分[10]。最终将数据划分为强、中、弱三类辐射场景,划分阈值基于固定倾角辐
射(GTI)的强度中心值
,强辐射场景为
,中辐射场景为
,弱辐射场景为
。结合图7,三类场景的样本量占
比分别为42%、38%、20%,覆盖晴天、多云、阴天等典型气象条件。经轮廓系数验证,三类场景的
均大于0.6,且类间紧凑度 ≤ 5.2,类间分离度 ≥ 18.7,这表明聚类结果的类内紧凑性与类间分离度均达到合理水平,场景划分效果良好。
Figure 7. Radiation intensity clustering distribution
图7. 辐射强度聚类分布
3.2.2. Bi-LSTM模型构建与参数优化
Bi-LSTM模型在LSTM的基础上增加反向传播层,前向层捕捉历史时序依赖,后向层挖掘未来趋势关联[3] [11]。输入维度扩展为(96, 7),隐藏层单元数增加到128以增强多源特征的拟合能力,双向输出维度为256,最终通过全连接层映射为预测值,即
(2)
参数优化采用改进粒子群算法(GWCPSO),以验证集RMSE最小为目标,动态调整隐藏层节点数(64~256)、学习率(0.0005~0.002)与正则化系数。
3.2.3. 融合模型预测效果
Figure 8. Training loss curve
图8. 训练损失曲线
Figure 9. Single-day prediction comparison
图9. 单日预测结果对比
模型迭代60次后,训练损失曲线呈现稳定收敛趋势,无过拟合风险(见图8)。以单日预测结果为例(见图9),实际功率在13:00因云遮出现0.8 kW的短时下降,Bi-LSTM融合模型的预测曲线同步捕捉到该波动,偏差仅0.08 kW;而单变量LSTM模型在此时段偏差达0.32 kW。全时段实际功率与预测功率的拟合度超过99.5%,验证了Bi-LSTM模型对复杂时序波动的精准捕捉能力。
同时,Bi-LSTM模型三类辐射场景下表现出较强的适应性,强辐射场景下的RMSE为0.0006,较单变量LSTM降低了40%;弱辐射场景决定系数R2提升至0.967,解决了单变量模型在弱辐射下的拟合不足问题;多场景平均MAE为0.0012、RMSE为0.0008,综合精度较单变量模型提升28%。此外,突发云遮时段融合模型响应滞后时间较单变量LSTM基准模型缩短30% (从20分钟降至14分钟),说明NWP多源数据融合与CLARANS场景划分的协同有效提升了光伏功率日前预测的精度与复杂场景适配能力。
3.3. Co-Kriging插值适配
NWP原始数据的空间分辨率为25 km × 25 km,而光伏电站实际覆盖范围为百米级,二者尺度不匹配会忽略局地地形(如小范围山体遮挡、坡度差异)导致的辐照异质性,进而降低气象输入数据的精度。为此,采用Co-Kriging插值法实现NWP数据的空间降尺度,匹配电站的实际空间范围。
3.3.1. Co-Kriging插值模型构建
以光伏功率为目标变量
,选取总辐射
、环境温度
为辅助变量,利用实测数据与NWP数据构建空间相关性模型。本文采用球状模型来刻画空间结构变异,核心公式为
(3)
其中,
为块金值,
为基台值,
为变程。然后,通过构建Co-Kriging方程组,以“估计误差最小化”为目标,求解目标变量与辅助变量的权重系数
,加权组合观测值,估计带插值点为
(4)
3.3.2. 降尺度效果验证
经Co-Kriging插值处理后,NWP数据空间分辨率从25 km × 25 km提升至100 m × 100 m,与电站覆盖范围精准匹配。对比结果如图10所示,Co-Kriging无空间分布断层,能精准刻画局地辐照差异;普通Kriging存在颜色偏移或断层问题。结合量化结果,5%采样率下,Co-Kriging的均方根误差RMSE较普通Kriging降低17.6%;10%采样率下,Co-Kriging的决定系数R2达0.84,显著高于普通Kriging的0.72,说明其利用辅助变量的协同性提升了插值精度。
Figure 10. Kriging interpolation results
图10. Kriging插值结果
同时,对于电站周边存在的小坡度和局部遮挡的区域,Co-Kriging也实现了局地辐照度差异的精准刻画,该区域的气象数据误差较普通Kriging降低20%以上,解决了粗分辨率NWP忽略微地形影响的问题。使用降尺度后的高分辨率气象数据替换原有粗分辨率气象数据,并将其作为Bi-LSTM模型的输入特征。降尺度后的气象数据精准刻画局地辐照异质性(如小坡度遮挡区域),使复杂地形区域的气象数据误差降低20%以上,进而推动预测模型RMSE从0.0008降至0.0007,R2提升至0.958。
4. 实验结果与分析
4.1. 分阶段预测精度对比
三阶段模型的核心性能指标对比见表1,结合各模型的预测特性,各阶段分析结果如下。
基础LSTM模型作为预测基准,对日内单峰型功率波动趋势的拟合效果良好,高功率时段误差分布集中且数值较小,但受正午突发云遮的气象波动影响,该时段预测存在轻微偏差,其各项指标为后续模型提供了明确的精度参照。
Bi-LSTM融合模型通过融入NWP多源气象数据,并结合CLARANS天气场景划分策略,实现了预测精度的显著提升。MAE从0.0021降至0.0012,RMSE较基础LSTM模型降低20%,突发云遮时段的预测偏差大幅缩减,模型对复杂气象条件的适配能力明显增强。
Table 1. Performance comparison of multi-stage models
表1. 分阶段模型性能对比
模型类型 |
MAE |
RMSE |
R2 |
准确率(%) |
合格率(%) |
基础LSTM模型 |
0.0021 |
0.0010 |
0.9241 |
99.79 |
100 |
Bi-LSTM融合模型 |
0.0012 |
0.0008 |
0.945 |
99.86 |
100 |
Co-Kriging降尺度强化模型 |
0.0009 |
0.0007 |
0.958 |
99.91 |
100 |
Co-Kriging降尺度强化模型进一步解决了NWP数据与光伏电站的空间尺度不匹配问题,将NWP数据的空间分辨率从25 km × 25 km提升至100 m × 100 m,复杂地形区域的预测误差降低20%以上。最终模型的R2提升至0.958,准确率达99.91%,三阶段体系的递进优化使较单变量LSTM基准模型,RMSE累计降幅达30%,实现了全时段的高精度预测。
4.2. 多场景适配性验证
基于CLARANS算法划分的强、中、弱三类辐射场景,模型适配性验证结果如表2所示。
Table 2. Performance comparison of models under different scenarios
表2. 多场景模型性能对比
辐射场景 |
MAE |
RMSE |
R2 |
相对误差均值 |
强辐射(夏季晴天) |
0.0008 |
0.0006 |
0.967 |
0.005 |
中辐射(多云/春秋) |
0.0010 |
0.0007 |
0.952 |
0.007 |
弱辐射(冬季/阴天) |
0.0013 |
0.0009 |
0.931 |
0.009 |
强辐射场景下模型精度最优,RMSE较单变量LSTM基准模型降低40%,日内波动趋势拟合度(R2)达95%;弱辐射场景虽误差略高于其他两类,但R2较基础模型仍提升23%,有效解决传统模型对低辐照度波动捕捉不足的问题。三类场景轮廓系数均大于0.6,验证场景划分合理性与模型全场景适配能力。
5. 结论
围绕光伏电站发电功率日前预测精度提升的实际需求,以某6600 kW级光伏电站的实测数据与NWP气象数据为基础,构建了“时序建模–多源融合–空间适配”的三阶段预测体系:先通过光伏发电特性分析明确功率的日内、季节周期规律及气象响应特征,再以基础LSTM模型搭建时序预测基准,结合CLARANS聚类划分天气场景并融入NWP数据构建Bi-LSTM融合模型,最后采用Co-Kriging插值法完成NWP数据空间降尺度处理,实现了预测技术的层层优化。
本次预测体系的构建与验证基于电站实际运行数据开展,未影响电站的日常发电调度,模型落地后的实际预测效果良好。体系运行过程中稳定性较强,对日内“单峰型”功率波动、不同季节周期特征的捕捉精准度较高,同时显著提升了复杂气象与地形条件下的预测响应速度,减少了因功率预测偏差导致的电网调度冗余成本投入。经实际测试,该体系使光伏功率日前预测的RMSE降至0.0007、R2提升至0.958,较单一模型的预测精度累计提升30%,复杂地形区域的预测误差降低20%以上。
本研究验证了多技术协同的光伏功率预测体系在实际电站中的应用价值,特别是通过场景划分、多源数据融合与空间降尺度的联动优化,既实现了高精度的日前预测,又适配了电站的实际运行需求。这一体系的落地不仅能够在不干扰光伏电站正常运营的前提下提升预测可靠性,还为电网日前调度提供了精准的数据支撑[12],同时为其他复杂地形、多气象场景下的光伏电站功率预测提供了可行参考,展现了多技术协同预测在新能源并网领域的应用潜力与推广价值。
致 谢
感谢成都信息工程大学教务处对大学生创新创业训练计划项目客观公正评审及经费支持。
基金项目
四川省大学生创新创业训练计划项目(S202510621072);成都信息工程大学创新创业训练计划项目(S202510621072);成都信息工程大学本科教学工程项目(JYJG2024105);数学气象四川省高校重点实验室(2025SXQX004)。
NOTES
*通讯作者。