1. 引言
目前,由于全球化石能源一类不可再生能源产能逐渐衰减,世界专家学者纷纷将研究目光转向可再生能源,如潮汐能、水能、风能等。我国也提出了“碳达峰”和“碳中和”目标,以削减化石能源占比,促进电力系统向新能源供电为主体转型[1],这是未来能源发展的必然选择。近年来我国陆地和海上风电机组装机容量也在大幅提升,而风电机组设计寿命一般为20年[2]。因此,风电场业主尤为重视风电机组后期运行维护工作,在运维过程中需要解决的关键问题是要准确地获得风电机组的性能。而风电机组功率曲线能够捕捉风速和输出功率之间的关系,是评价风力发电机组性能的重要指标之一,常用于机组性能监测,在机组发电量预测中也起着重要作用。因此,风电机组的功率数据处理和曲线建模是目前研究的热点之一。以下对风电数据处理、功率曲线建模等相关研究做简要分析。
在风电机组数据处理方面,Yin X q等人针对风电机组监控和数据采集(SCADA)历史数据中的异常数据,提出了一种改进3σ标准差对拟合曲线进行数据清理方法[3]。Abeba D T等人基于直接剔除、线性插值方法对原始监控和数据采集(SCADA)数据中的异常值进行处理[4]。蒋世宇等人建立了以机组运行数据散点图为输入、功率曲线图像为输出的Res-UNet模型,并通过像素映射得到功率曲线的数值表达实现了数据处理[5]。Bull L A等人提出了一种基于替代方法来推断缩减功率数据中的多值关系,基于整个数据库、重叠混合概率回归模型处理风电场内的机组数据[6]。Wang W等人针对恶劣环境中工作机组容易产生的异常数据,提出了一种基于隔离林(I-Forest)与平均位移算法相结合的风电曲线数据清理的有效算法[7]。然而文献[3]-[7]是通过理论数据或3σ准则对机组异常数据进行处理,或通过散点图像转换等方法进行处理,处理效果往往达不到对参数不敏感、计算简单、易于自动化的效果。因此,研究一种基于3σ准则、四分位法与基于空气密度优化的风电机组运行数据处理方法,以达到减小风功率曲线建模误差,进而达到数据处理计算简单、数据利用率最大化的目标。
在风功率曲线模型构建方面,Zha W T等人提出了一种基于风速矢量的高精度风速曲线建模方法[8]。Al-Motasem A等人提出了基于一种五参数和六参数逻辑函数的风功率速数据拟合方法[9]。Mehrjoo M等人提出了一种基于加权平衡损失函数的混合估计方法,该函数通过缩小估计到标准化目标模型来考虑估计误差和拟合优度,进一步实现风功率曲线估计[10]。Astolfi D等人提出一种基于环境信息、工作参数作为数据驱动模型的输入变量,输出是功率的多元回归曲线建模方法[11]。Lázaro R等人提出了基于高斯混合联结模型(GMCM)、回归人工神经网络(ANN)和贝叶斯人工神经网络(BANN)的功率曲线多元模型[12]。Zou R m等人构建了一种基于灰狼优化器和回溯搜索算法优势的混合智能优化方法GWO-BSA的功率曲线模型[13]。付德义等人提出了一种基于相关向量信息熵技术的风电机组运行功率曲线构建方法[14]。褚景春等人基于自组织核回归(AAKR)方法建立了多变量功率曲线模型[15]。Jing B等人提出了一种基于分位数回归(QRLF)的逻辑函数风功率曲线建模方法[16]。Barreto G A等人提出一种基于神经网络和模糊算法风电机组功率曲线建模方法[17]。
上述文献[8]-[17]为提高风功率曲线构建精度多使用统计损失函数、几种混合模型、混合智能优化等算法来风电数据进行建模,存在数据处理过程复杂、对算法依赖性较高、处理时间长等问题。而保序回归(Isotonic Regression: IR)是一种可以使资源利用率最大化的机器学习算法,在数据资源利用上有较好的处理效果[18]。BIN方法是IEC-61400-12-1、IEC-61400-26-2国际功率特性评估标准[19] [20]中使用的风功率曲线建模方法,但BIN方法往往数据存在数据资源利用不充分的问题。因此,考虑充分利用两种方法优势,研究一种基于IR-BIN算法的风功率曲线建模方法,使风电机组数据利用率最大化,减小数据流失,以准确构建风功率曲线模型。
在风功率曲线模型综合性能评估方面,目前最新研究基于均方根误差(Root Mean Squared Error: RMSE)、R2、平均绝对误差(Mean Absolute Error: MAE)等曲线模型拟合优度检验方法对风功率曲线模型的综合性能实施分析,以准确评估风功率曲线模型性能[17] [21]。因此,基于RMSE、R2、RMBE等曲线模型评估指标对构建的风功率曲线模型进行综合评估。
综上,为解决风电大数据情形下风电机组功率曲线模型构建准确性低的问题。首先,为达到减小风功率曲线建模误差,实现数据处理计算简单、数据利用率最大化目标,研究一种基于3σ准则、四分位法、分段式风电机组数据处理方法。其次,为实现风电机组数据利用率最大化,减小数据流失,准确构建风功率曲线模型,提出一种基于IR-BIN算法的风功率曲线建模方法。再次,基于RMSE、R2、RMBE等曲线模型评估指标对构建的风功率曲线模型进行综合评估。最后,为验证所提曲线建模方法有效性、准确性,基于实际风电场风电机组SCADA数据,对所提建模方法与现有功率曲线建模方法做对比分析。创新点如下:
1) 所提风电机组SCADA异常数据清洗方法,为风电机组运行异常数据处理提供了一种用于清洗、过滤的新方法。
2) 所提基于IR-BIN算法的风功率曲线构建方法,为解决风电机组功率曲线建模准确性低的问题提供了一种的新方案。
3) 构建的风功率曲线模型,为风电机组功率特性评估、机组健康性能评估提供了新思路。
2. 风电机组运行数据处理
2.1. 数据处理
由于风电机组SCADA运行数据是一庞大数据库、机组运行过程中由于受外界、内部影响容易存在异常数据。为更好地处理异常数据、减小功率曲线建模误差,基于IEC61400-1标准将机组原始“秒级”数据处理为“10 min”等级数据[2]。缺失数据进行针对性过滤或剔除处理,并基于四分位法、“
准则”数据处理方法对异常数据进行处理,处理方法如下:
1) 将预处理后的数据经排序、划分为4组,划分点分别为排序后数据中1/4、1/2、3/4处的数值点,称为四分位数[22],分别为:
、
、
:
(1)
(2)
(3)
其中,IQR为四分位距,
、
、
为数据组
的四分位数值点,通常
时,易造成真实数据损失,影响建立的曲线模型误差,使曲线模型不能准确表征风电机组真实状态。而“
准则”能够很好的保留99.74%以上的数据,故整合两种数据处理方法,以实现数据流失小,又能去除异常数据的目标。
2) 计算四分位参数
。首先,计算风速数据标准差
,平均值
。其次,基于最佳优先搜索算法确定参数
。最后,基于“
准则”保留数据分布在
中的数据。
3) 基于IEC61400-12-1 [19]标准中按时间序列对数据再次进行限制筛选、过滤、清洗得到较好的干净数据。
2.2. 基于空气密度的风电机组运行数据标准化
由于风速计位于风电机组后端与测风塔高度和地形不同等原因,易造成风电机组与测风塔风速数据间存在误差。因此为减小风速与功率误差,基于空气密度对风速、功率标准化如式(4)-(5)所示。
(4)
(5)
其中,
为标准化风速,
为每10min平均风速,
为标准化功率,
为每10min平均功率,
为标准空气密度,
为每10min平均空气密度。
3. 基于IR-BIN算法的风电机组功率曲线构建
3.1. IR算法原理
保序回归(Isotonic Regression: IR)是一种单调回归监督学习算法,其通过提前预设超参数n,将数据区域分为n段,在每段设置一个估计器,估计该区域内的点所对应的值,最后得到模型函数[18]。该模型函数满足先验条件,且单调递增,在测试数据序列中:
(6)
选定数据序列
,基于损失函数
训练,得到递增数据序列
,根据递增序列得到拟合函数
:
(7)
其中,
函数被分为了n段,每段为线性函数:
,
当
时,在条件
下使得损失函数最小。超参数n如果设置过大,容易导致过拟合。损失函数:
(8)
其中,
为样本i的权重,必须为正数,其中
、
为测试数据,
为IR模型的训练数据,
为模型最小化函数,
为随机权重因子[23];
为第i个风速区间平均值数据。
3.2. 基于IR-BIN算法的风功率曲线构建算法
为进一步解决数据处理过程复杂、对算法依赖性较高、数据利用率不充分、处理时间长等问题,准确构建风功率曲线模型,提出一种基于IR-BIN算法的风功率曲线建模方法,实施流程如图1所示。
Figure 1. Power modeling process based on IR-BIN algorithm
图1. 基于IR-BIN算法的风电机组功率建模流程
如图1所示,IR-BIN算法风电机组功率曲线模型构建步骤如下:
1) 原始数据空值去除与数据预处理。
2) 基于3σ准则、四分位法时间序列处理得到数据集:
,
。
3) 确定损失函数
、设置IR模型超参数n、样本i的权重
,随机权重因子
。
4) 基于损失函数
训练,将测试数据导入IR模型训练得到新数据集,基于式(4)~(5)对数据再次进行标准化,得到数据集
,
。
5) 基于BIN方法构建风速区间
,其中
分别为切入风速、切出风速。
6) 将
分割为N个风速区间:
,N为正整数。
7 )确定风速小区间中风速点
。风速小区间为:
,其中
且
,K为整数,间距
如式(9)所示。
(9)
8) 计算风速期望值
。将
划分为m个区间,计算第i个区间内风速期望值
:
(10)
(11)
其中,
为
位于第i个风速区间的概率,
为第i个风速段数据量,n为第K个风速段内的数据量。
9) 风速
对应功率计算如式(12)所示。
(12)
其中,
为第i个区间风速
对应功率。
10) 基于数据集
构建构建实际风功率曲线模型,并基于所提IR-BIN算法构建理论风功率曲线模型。
11) 综合各曲线与理论曲线偏差、曲线契合率、模型评估指标等分析结果,评估所提方法构建的风功率曲线模型性能与准确性。
3.3. 风电机组功率曲线模型评价指标
为验证所提方法构建风功率曲线模型性能,基于平均绝对误差(Mean Absolute Error: MAE) [24]、均方根误差(Root Mean Squared Error: RMSE) [25]、平均绝对百分比误差(Mean Absolute Percentage Error: MAPE) [26]等预测模型评价指标对决策树回归(DTR)构建曲线模型、贝叶斯回归(BR)构建曲线模型、KNN构建曲线模型、IR构建曲线模型、IR-BIN模型构建曲线进行分析,计算方法如式(13)~(16) [27]。
(13)
(14)
(15)
(16)
其中,
为各曲线模型数据,
为平均数据值,
为理论数据,N为数据量。
4. 实例分析
4.1. 风电机组功率曲线模型构建
为验证所提基于IR-BIN算法的风电机组功率建模方法的有效性,以2019年5月份内蒙古塞罕坝风电场2.5 MW型风电机组运行数据为例进行实验研究。
4.1.1. 数据处理
为减小后续研究过程中异常数据对模型构建的误差,首先对原始数据量级进行处理由“秒”级处理为“10 min”级;其次,对原始数据空值去除与数据预处理;最后,基于3σ准则、四分位法时间序列处理得到数据集。数据处理结果如图2所示。由图2可见:1) 原始数据冗余且数据量较高,若直接建模势必会影响建模准确率与建模速度,同时对后续风电机组健康性能的研判造成较大误差。2) 基于IEC61400-1国际标准将数据处理为“10 min”等级数据得到预处理数据,数据量明显减少,但仍存在较多异常数据。3) 经3σ准则、四分位法处理后的数据显然较预处理后的数据异常数据点更少、数据密度更高,这也体现了所提数据处理方法的有效性。
Figure 2. Processed data scatter plot (10 min level)
图2. 处理后数据散点图(10 min级)
4.1.2. 风电机组功率曲线构建
为更好地对比分析所提风功率曲线建模方法优越性,进一步进行实际、理论功率曲线偏差分析,基于图1所提基于IR-BIN算法的风电机组功率建模流程,对处理后的风功率数据分别通过IR、IR-BIN方法进行曲线建模,所建模型如图3、图4所示。图3中红色曲线为基于IR方法构建的风功率模型,该模型几乎处于处理后的绿色数据点中间位置,这表明所建曲线能够非常准确地表征处理后的数据点。但该曲线模型光滑度、连续性不强、出现离散表征点。为了解决这一问题基于IR-BIN算法对该功率曲线建模进一步作光滑度、连续性、数据表征能力优化,结果如图4所示。
Figure 3. Power curves were constructed by the IR method
图3. IR方法构建功率曲线
Figure 4. The IR-BIN method constructed the curve compared with the theoretical curve model
图4. IR-BIN方法构建曲线与理论曲线模型对比
图4为基于IR-BIN方法构建实际功率曲线、理论功率曲线和未经处理风功率数据曲线模型对比图。由图4可知:1) 图4中3条曲线模型可知所提方法构建风功率曲线模型更加贴近理论功率曲线,且构建功率曲线附近数据点密度更加稠密。2) 未经处理的数据曲线模型在风速高于8.6 m/s时曲线模型出现较大波动,一方面体现了当风速高于8.6 m/s时风电机组性能不稳定出现异常数据点,另一方面也体现了本文所以提方法处理异常数据的有效性。
为更好验证所提方法构建功率曲线模型的准确性,基于4种曲线模型建模方法对处理后的风电数据进行建模对比试验,以下对所提模型有效性、准确性进行详细分析。
4.2. 风电机组功率曲线模型对比分析
为验证所提风功率曲线构建模型有效性,基于决策树回归模型(DTR)、贝叶斯回归模型(BR)、KNN曲线构建模型、IR曲线构建模型对处理后的风功率数据构建功率曲线模型,结果如图5所示。
图5(a)~(d)分别为DTR方法构建曲线模型、BR方法构建曲线模型、KNN方法构建曲线模型、IR方法构建曲线模型与所提方法构建实际、理论功率曲线模型对比图。由图5(a)~(d)图可看出相比于其余4种方法构建曲线模型本文所提方法与理论功率曲线契合程度更高。为更好地展现所提方法较其余4种曲线构建方法优势,构建了各模型构建曲线综合对比,如图6所示。
Figure 5. Comparing each model with the proposed method
图5. 各模型与所提方法构建曲线模型对比
Figure 6. Comprehensive comparison diagram of each model construction curve
图6. 各模型构建曲线综合对比图
进一步理论曲线为基准,计算各方法构建曲线与其偏差情况,以确定所提方法构建曲线模型准确性,功率曲线偏差、契合度计算,如式(17)~(18)所示[28]。
(17)
(18)
其中,
为各方法构建曲线
与理论曲线
的偏差,
、
分别为构建曲线中风速数据最大、小值,
、
分别为理论数据风速最大、小值。
为曲线契合率,
为所提IR-BIN、IR、DTR、BR、KNN构建功率曲线函数,
为理论曲线函数。
基于式(18)对图6中曲线模型契合率计算结果:所提IR-BIN方法构建曲线与理论曲线契合率约为0.9214,DTR、BR、KNN、IR模型构建曲线与理论曲线契合率分别为0.8015、0.7924、0.7856、0.8741。这表明所提方法构建功率曲线与理论功率曲线相比其余4种方法误差最小、曲线契合程度最高。为进一步研究所提方法构建功率曲线模型的性能,基于2.3节MAE、RMSE、MAPE、R2曲线模型评价指标,对上述5种方法构建风功率曲线模型进行评估,评估结果,如表1、图7所示。
基于图6、图7、表1中模型评价指标、曲线契合率可以看出:1) 所提方法构建曲线模型评价指标均最小,其中,R2均值为0.9814。2) 所提构建曲线方法建模准确性、曲线效果比其余4种方法更好。3) 所提方法构建曲线与理论曲线契合率最高,这验证了所提方法构建曲线模型比其余4种传统曲线构建模型性能、建模效果更好。

Figure 7. Comparison of the curve model evaluation index
图7. 曲线模型评估指标对比
Table 1. Model building curve model evaluation index
表1. 模型构建曲线模型评估指标
指标 模型 |
MAE |
MAPE |
R2 |
RMSE |
决策树模型(DTR) |
85.4565 |
0.2003 |
0.9774 |
110.4040 |
贝叶斯模型(BR) |
72.1748 |
0.1352 |
0.9751 |
104.2309 |
KNN |
87.0843 |
0.2758 |
0.9748 |
111.8555 |
IR |
74.5975 |
0.1475 |
0.9763 |
100.4151 |
本文所提方法 |
65.5261 |
0.106 |
0.9814 |
97.2622 |
最小差值 |
6.6487 |
0.0292 |
0.005 |
3.1529 |
基于处理后的数据,其余4种曲线建模方法出现以上结果其主要原因为:1) DTR、BR、KNN、IR模型构建曲线不能准确表征所给数据主要特征。2) DTR、BR、KNN、IR模型构建曲线与理论曲线偏差较大,即与理论功率曲线契合率不高。3) 4种方法在构建风功率曲线过程中对于游离状态数据处理性能不强。
4.3. 风电机组功率曲线应用分析
风电机组功率曲线是反映风电机组发电效能、健康状态、零部件老化等业主所关注的运维决策重要关键指标之一。为此,构建一条能够准确反映风电机组健康状态是业主运维决策与盈利的关键。而文章所提风功率曲线构建方法能够在一定程度上有助于业主制定风电场运维策略。在利用风功率曲线评估风电机组健康性能过程中:首先,应划分、建立健康性能区域;其次,构建风电机组实际、理论功率曲线以及各健康区极限功率曲线;最后,基于健康性能区域、发电效能(EBA)、风功率曲线偏差等关键评估指标综合评估风电机组健康性能,制定风电机组健康运行报告与运维策略。基于文献[29]风电机组健康性能评估方法,得到如下结果:1) 该风电机组5月份健康性能处于健康状态,发电性能与上一个月性能大致相同,发电效能达到91.05%。2) 平均功率输出偏差、发电效能、实际与理论静态最优功率曲线偏差均处于正常状态。因此,该风电机组有功功率正常,但机组有功功率并未达到最佳。3) 为保障该机组高效运行,业主应整机巡检、优化机组控制系统,进而达到机组理论有功功率。4) 所提方法构建风功率曲线应用于风电机组功率特性评估、健康性能评估,评估结果与实际情况基本一致。
5. 结束语
文章提出了基于IR-BIN方法的风电机组功率曲线构建方法,所提风功率曲线构建方法能够准确构建了风功率曲线模型,构建曲线模型性能、效果好于传统预测模型。基于实验分析得到以下结论:
1) 所提数据处理方法能够有效剔除异常、冗余等数据,提高风电机组功率曲线构建准确性。
2) 所提基于IR-BIN方法的风电机组功率曲线构建方法相比于最优传统方法构建风功率曲线模型的MAE均值、rmse均值、MAPE均值分别降低了6.6487、0.0292、3.1529;R2均值提高了0.005。
3) 所提IR-BIN方法构建曲线与理论曲线契合率约为0.9214,高于其余4种方法构建曲线契合率,能够较好的表征海量风功率数据,对进一步评估风电机组功率特性、健康性能具有重要意义。
基金项目
国家自然科学基金(62461004);广西高校中青年教师科研基础能力提升项目(2023KY0792)资助。
NOTES
*第一作者。
#通讯作者。