基于四种人工智能模型的极端干旱区参考作物蒸散量研究
Study of Reference Crop Evapotranspiration in Extreme Arid Zone Based on Four Artificial Intelligence Models
DOI: 10.12677/HJAS.2022.127084, PDF, HTML, XML, 下载: 245  浏览: 755 
作者: 张楚楠, 王俣浩, 李冠龙, 张敬宇, 贾志军*:成都信息工程大学大气科学学院,四川 成都
关键词: 人工智能模型极端干旱区参考作物蒸散量Artificial Intelligence Model Extreme Arid Area Reference Crop Evapotranspiration
摘要: 本文利用新疆维吾尔自治区阿克苏市气象站点的逐日气象数据,通过支持向量机(SVM)、高斯过程回归(GPR)、提升树(BT)以及BP神经网络(BPNN)四种人工智能算法模型,对1978~2018年极端干旱区的参考作物蒸散量(ET0)进行模拟,结果表明:1) 当输入气象因子相同时,SVM、GPR和BPNN的模型精度较高且较为接近,相比之下BT模型的精度稍差;四种人工智能模型当全部因子(Tmax, Tmin, Rmean, n, u2, Ra)输入时模拟精度最好,其中GPR模型精度最高;当只输入4种气象因子时,各模型在组合4 (Tmax, Tmin, u2, Ra)条件下的模拟精度较高,其中BPNN模型的模拟效果最好,为极端干旱区的模拟ET0首选模型。2) 就季节尺度而言,BPNN模型对秋季ET0模拟效果最好,而对夏季ET0的模拟效果最差。3) 与传统经验公式Hargreaves、Irmark-Allen、Jensen-Haise、Makkink相比,人工智能模型在模拟ET0时有明显的优势。
Abstract: In order to simulate the crop evapotranspiration (ET0) in extreme arid areas from 1978 to 2018, based on daily gauge observations from Aksu, Xinjiang Uygur Autonomous Region, four artificial intelligence algorithm models including Support Vector Machine (SVM), Gaussian Process Regression (GPR), Boosting Tree (BT), and BP Neural Network (BPNN) are established. The results suggest that: 1) Compared with the result of BT, when the input meteorological factors are the same, the SVM, GPR, and BPNN show the higher and closer accuracy, BT’s result is weaker than other models. The four models exhibit the highest accuracy when the input factors are complete (Tmax, Tmin, Rmean, n, u2, Ra), and GPR is the best among them. When the number of the input factors is four, the accuracy under combination-4 (Tmax, Tmin, u2, Ra) is superior, and the simulation effect of BPNN is the best, so it is the favored model to simulate the ET0 in extreme arid areas. 2) On the seasonal scale, the BPNN demonstrates the highest simulation accuracy in autumn and the lowest accuracy occurs in summer. 3) Compared with the traditional empirical formulas involving Hargreaves, Irmark Allen, Jensen Haise, and Makkink, the artificial intelligence model has obvious advantages in simulating ET0.
文章引用:张楚楠, 王俣浩, 李冠龙, 张敬宇, 贾志军. 基于四种人工智能模型的极端干旱区参考作物蒸散量研究[J]. 农业科学, 2022, 12(7): 589-597. https://doi.org/10.12677/HJAS.2022.127084

1. 引言

参考作物蒸散量(ET0)指在水分充沛、生长状况良好的气候条件下,当冠层蒸散阻力为70 s/m、总反照率为0.23、高为12 cm的植物完全覆盖在地表时的蒸散量,其既是计算作物需水量的关键,又是灌溉预报和农田水分资源管理的重要参数之一,准确计算ET0对作物需水量预测、区域农业用水优化调控和水资源管理具有重要意义 [1]。目前联合国粮农组织(Food and Agriculture Organization, FAO)将Penman-Monteith模型作为计算ET0的标准模型,但该模型需要输入非常详尽的气象资料,使得其应用范围受到很大限制 [2],因此找到合适的ET0简化计算方法始终是国内外研究的热点。

进入21世纪以来,随着人工智能研究的不断深入,许多机器学习模型用于模拟ET0,并取得了很好的模拟效果。鲍玲玲等人 [3] 基于5种人工智能的机器学习模拟出了重庆地区参考作物的蒸散量模型,发现高斯指数模型(GEM)表现出了较高的精度;冯禹等人 [4] 基于极限学习机模拟川中丘陵区参考作物蒸散量的预测模型,其发现极限学习机算法(ELM)运行速度快、精度高、泛化能力好;刘小华等人 [5] 统计结果表明,在相同输入资料条件下,四种智能模型中多元自适应回归样条法(MARS)模拟精度最高,其次是支持向量机(SVM),广义神经网络模型(GRNN)和多层感知器模型(MLP)。徐颖等 [6] 基于极限学习机模型,计算了西北旱区ET0,确定了最优激活函数及参数组合输入。

人工智能模型计算ET0的精度明显优于其他简化算法(例如基于气温的Hargreaves模型,基于辐射的Makkink和Pristley-Taylor模型),然而模型参数都具有区域局限性,每一个区域的适用模型都不尽相同。极端干旱区一般地广人稀,气象观测站点少,观测设备较不完善,气象资料获取困难,因此对于极端干旱区ET0的研究比较少见。本文以Penman-Monteith模型计算的ET0为标准值,以极端干旱区典型代表站点——阿克苏市气象站点的逐日最高温度、最低温度、平均湿度、日照时数、风速和大气层顶辐射量为输入参数,采用支持向量机、高斯过程回归、提升树以及BP神经网络模型四种机器学习算法来模拟极端干旱区ET0,并对各种气象因子组合作为输入参数时模拟结果进行比较分析,以期为当地制定作物灌溉措施和评估农业生产提供科学依据。

2. 材料与方法

2.1. 研究区概况

阿克苏地区(78˚02'~84˚05'E,39˚31'~42˚41'N)位于新疆中部,处于塔里木盆地北缘、天山山脉中段以南,占新疆总面积的8%。该地区处于亚欧大陆腹地,属于北半球暖温带、干旱半干旱大陆性荒漠气候区,以气候干燥、降水稀少、年际变化大为主要气候特点,属于极端干旱的地区 [7]。与同纬度地区相比,其夏季温度偏高,冬季偏低,春秋季节气温升降剧烈,常常出现春季低温和秋季过早降温,多年平均气温在11℃以上,无霜期较长,全年日照数可达2900小时以上,主要降雨时段集中在5~9月,春季有浮尘,夏季有冰雹,有时出现夏季持续高温天气;该地区农作物一年一熟制,主要作物有棉花、水稻等,是国家重要的优质棉生产基地。

2.2. 数据来源

本文选取国家气象中心制作的中国地面气候资料日值数据集(V3.0) (http://data.cma.cn) 1978~2018年的逐日气象数据,包括最高温度(Tmax)、最低温度(Tmin)、平均温度(Tmean)、平均湿度(Rmean)、日照时数(n)、10 m高风速(u10),大气层顶辐射(Ra),其中风速用风廓线公式换算到2 m高风速(u2)。缺失的部分气象要素数据做以下处理:若缺测数据连续天数 ≤ 5 d,则用线性插值补齐;若缺测数据连续天数 > 5 d,用站点多年同一日平均值;若缺测数据连续天数 > 20 d,则舍弃该部分数据。

2.3. 研究方法

2.3.1. 四种人工智能模型

1) 支持向量机

支持向量机(Support Vector Machine, SVM) [8] 由统计学理论作为依据而产生的一种对数据进行拟合的机器学习算法,它在1992年被Vapnik等人提出。它提出的函数能够解决不同的问题,也可用于回归分析。其构造决策函数为:

g ( x ) = i = 1 l α i y i K ( x i , x j ) + b (1)

x表示从第i到第j个样本的样本特征向量,y为从第i到第j个样本数量,α表示从第i到第j的拉格朗日算子, K ( x , y ) 表示核函数,b表示偏置 [9]。

2) 高斯回归模型

高斯回归模型(Gaussian Process Regression, GPR) [10] 需假设一个样本集合内有限随机变量的结合分布满足高斯分布,然后高斯过程的先验概率被服从与本次的随机过程,所以模型能够利用贝叶斯理论对本次过程地后验概率进行估计,也可利用最大似然估计法计算最优参数。设x为预测输入因子,y为输出因子,且y可表示为:

y i = f ( x i ) + ε i (2)

其中 ε i = N ( 0 , σ n 2 ) σ n 2 为方差 [11]。

3) 提升树模型

提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法。以决策树为基函数的提升方法称为提升树(Boosting Tree, BT) [12]。对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型:

f M ( x ) = m = 1 M T ( x ; θ m ) (3)

其中, T ( x ; θ m ) 表示决策树; θ m 为决策树的参数;M为树的个数。利用最速下降法的近似方法,关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合回归树。

4) BP神经网络

BP神经网络(BPNN)一般包含三个部分,即输入层、中间层和隐藏层 [13]。它是一种多层前馈神经网络。机器学习的过程主要包含数据的正向传输和误差数据的反向传输两个方面。数据在正向传输的过程中,数据由进入层向隐含层发送和存储之后,终将到达输入输出层。如果对数据的预测值和实际值间的偏差不能满足要求的时候,将对错误信息进行反向发送,然后错误信息又从输入输出层向隐蔽层发送并再次返回进入层,从各层神经元中得到的错误信息,将用于改变各层神经元的权重和阈值 [14]。

2.3.3. 模型验证因子

本文选用均方根误差(RMSE)、平均绝对误差(MAE)、纳什效率系数(NSE)和确定系数(R2)来反映不同模型模拟的精度,评价各模型计算结果与标准值之间的误差以及一致性 [15] [16] [17]。具体公式如下:

RMSE = 1 n i = 1 n ( C i P i ) 2 (4)

MAE = 1 n i = 1 n | C i P i | (5)

NSE = 1 i = 1 m ( P i C i ) 2 i = 1 m ( C i C ¯ ) 2 (6)

R 2 = [ ( C i C ¯ ) ( P i P ¯ ) ( C i C ¯ ) 2 ( P i P ¯ ) 2 ] 2 (7)

式中:n为收据样本数量,Ci为观测的第i日值,Pi为模型计算的第i日标准值, C ¯ Ci的平均值, P ¯ Pi的平均值。RMSE、MSE、MAE越小,表示模型偏差越小;R2越接近1,表示模型拟合程度越高,模型模拟结果更加可靠,吻合度更高。因为评价指标太多,使得单一评价指标难以对各种模式进行对比。在此基础上,引入对应的综合指标GPI (Global Performance Indicator)来全面评估模型预测结果 [18]。具体公式如下:

GPI i = j = 1 4 α j ( g j y i j ) (8)

式中: α j 为常数,代表指标性质与精度最优之间的距离,因此对于负相关指标RMSE、MAE,其值取−1,对于R2和NSE其值取1;gj为不同指标的缩放值的中位数;yij为不同指标的尺度值。GPI数值越高,表明该模型精度越高。

2.4. 模型准备

为了验证不同气象因子作为输入量时的模型精度,评估适合不同区域的较优的人工智能蒸散模型,本文选取了五种观测气象因子TmaxTminRmeannu2和大气层顶辐射Ra作为输入量,其中Ra (大气层顶辐射)可以通过站点纬度和年日序数得到。将不同的气象因子进行组合,组合见表1

Table 1. Different combinations of meteorological factors

表1. 不同气象因子组合

3. 结果与分析

3.1. 不同算法的日值对比

为了检验四种智能模型在ET0计算中的适用性,本文将阿克苏站1978~2008年的数据作为训练组,2009~2018年作为验证组进行模拟。各模型在不同气象要素组合方式下的ET0计算精度评价见表2

首先在输入相同气象因子组合的条件下,SVM、GPR和BPNN的模型精度较高且较为接近,而BT模型的精度要稍差。例如输入气象因子组合1 (Tmax, Tmin, Rmean, n, u2, Ra),前三个模型的GPI指数分别为1.794、1.837、1.821,均在1.8左右,而BT模型只有1.452;又如输入气象因子组合2 (Tmax, Tmin, Rmean, n, u2),前三个模型的GPI指数分别为1.534、1.480、1.459,BT模型为1.238,GPI指数落后0.3左右。其次从因子组合分析,四种人工智能模型在全部因子输入时模拟精度最好,其中GPR模型精度最高,RMSE为0.095,R2为0.996,GPI指数达到1.837,其次为BP神经网络模型;组合2的GPI指数比组合1平均落后0.3左右,表明大气层顶辐射的输入对模型精度的提高有一定效果;在只输入四种气象因子(组合3、4、5)时,各个模型对参考作物蒸散量ET0的模拟精度略有下降。其中组合4 (Tmax, Tmin, u2, Ra)的模拟精度最高,SVM、GPR、BPNN模型的GPI指数在1.3左右,平均要超过其它两种组合的GPI指数0.2~0.3左右;BPNN-4的RMSE为0.335,R2为0.978,GPI指数为1.404,为组合4中最高;组合3 (Tmax, Tmin, Rmean, Ra)和组合5 (Tmax, Tmin, n, Ra)的GPI指数相近且落后于组合4,表明风速的输入可以有效提高ET0的模拟精度,而平均湿度和日照时长的对ET0模拟精度的影响相近且作用小于风速,其中SVM、GPR和BPNN模型精度的提高较为明显。组合6 (Tmax, Tmin, Ra)的模拟精度最低,四种模型的GPI指数均小于1,说明只有温度因子和大气层顶辐射输入下的模型精度较低,必须有其它气象因子的输入。

通过以上分析可见,在构建人工智能模型时如果能够获得全部因子,其模拟的效果是最好的;在模拟蒸散量时大气层顶辐射量的输入可以一定程度上提高模型模拟精度;平均湿度、风速和日照时数是必不可少的输入量,不能均不输入,其中风速对模型的提高较为明显,平均湿度和日照时长对ET0模拟精度的影响较弱且相近,故在气象数据获取较困难的极端干旱区推荐BPNN-4模型为首选的模型。

Table 2. Day-by-day ET0 simulation accuracy of four artificial intelligence models

表2. 四种人工智能模型逐日ET0模拟精度

注:SVM-1表示SVM算法在气象因子组合1下的模型,其它模型名同理。

3.2. 各季节模型模拟效果

由于极端干旱区四季气候变化较大,为了评价在BPNN-4模型在不同季节对蒸散量的预测效果,将阿克苏站1978~2008年季节数据作为训练组,2009~2018年作为预测验证组,模拟效果如图1。从图1可以看出,BPNN模型在秋季模拟效果最好,拟合斜率为0.944,R2为0.93,模型在夏季的模拟效果最差,拟合斜率只有0.6566,R2为0.5。总体来看,BPNN在缺少气象因子输入下的模拟精度较好,拟合斜率大多在0.9左右,只有在夏季模拟精度稍差。

Figure 1. Simulated effect of BPNN on ET0 in different seasons: (a) Spring; (b) Summer; (c) Autumn; (d) Winter

图1. 不同季节下BPNN对ET0的模拟效果图:(a) 春季;(b) 夏季;(c) 秋季;(d) 冬季

3.3. 经验模型模拟精度

为了验证人工智能模型模拟ET0的优势,本文计算了Hargreaves、Irmark-Allen、Jensen-Haise和Makkink四种经验模型模拟的ET0,并与人工智能模型计算的结果进行了对比,其中Hargreaves和Irmark-Allen与组合6 (Tmax, Tmin, Ra)的输入因子类似,Jensen-Haise和Makkink与组合5 (Tmax, Tmin, n, Ra)的气象因子输入类似,具有一定的可比性。表3为四种不同的经验模型在计算日均ET0值所得结果。从表3分析得出,四种经验模型GPI指数大多在1.0附近,其中Hargreaves和Makkink模型的精度分别为同类型最高。Hargreaves的GPI指数为0.927,SVM、GPR、BPNN三种模拟效果较好的智能模型在组合6 (Tmax, Tmin, Ra)下的GPI指数均在0.97左右,高于传统经验模型;Makkink的RMSE为0.393,R2为0.872,GPI指数为1.048,而三种智能模型在组合5下的GPI指数在1.1左右,故可以分析得出智能模型ET0的模拟精度高于经验模型的精度,人工智能模型在模拟ET0上有明显的优势。

Table 3. ET0 simulation accuracy of four empirical models

表3. 四种经验模型的ET0模拟精度

4. 讨论和结论

本文研究表明,风速的输入可以明显提高SVM、GPR和BPNN三种模型模拟ET0的精度,而平均湿度的作用较弱,这可能是由于在极端干旱区相对于平均湿度,风速的输入值较为稳定,而平均湿度受降水、灌溉等多方面条件影响,差别较大,不利于模型进行持续学习;BPNN模型在夏季的模拟效果最差,可能是由于夏季极端干旱区会出现极端高温的天气较多,且降水变化较大,不利于模型的模拟,而在秋冬季极端干旱区气候条件较为稳定,故模型模拟精度较好。本文只选取了极端干旱区的代表性站点,不能全面表征极端干旱区的气候情况,在今后的工作中还需要完善。

本文利用位于极端干旱区阿克苏站点1978~2018年的逐日气象数据和4种人工智能模型进行研究分析,得出如下结论:1) 在输入相同的气象因子组合下,SVM、GPR和BPNN的模型精度较高且较为接近,而BT模型的精度要稍差。四种人工智能模型在全部因子输入时模拟精度最好,其中GPR模型精度最高,其次为BP神经网络模型;在模拟蒸散量时大气层顶辐射量的输入可以一定程度上提高模型模拟精度;在模拟ET0时不能只输入温度因子和辐射量,还必须输入其他气象因子来提高模拟精度,其中风速对模型的提高较为明显,在极端干旱区推荐BPNN-4模型为首选的模型。2) BPNN模型在秋季模拟效果最好,模型在夏季的模拟效果最差,总体来看,BPNN在缺少气象因子输入下的模拟精度较好,拟合斜率大多在0.9左右。3) 在同种气象因子组合下,人工智能模型的GPI指数高于经验模型所得,智能蒸散模型的模拟精度高于经验模型,人工智能模型在模拟ET0上有一定的优势。

NOTES

*通讯作者。

参考文献

[1] 张泉. 作物需水量及灌溉需水量趋势性分析及方法[J]. 河南水利与南水北调, 2021, 50(6): 81-83.
[2] 贾悦, 王凤春, 高悦, 李鹏程. 河北省典型区域典型作物ET估算方法研究[J]. 水利水电技术, 2020, 51(11): 68-77.
[3] 鲍玲玲, 杨永刚, 刘建军, 张卫华. 基于5种人工智能模型计算重庆地区参考作物蒸散量[J]. 水土保持研究, 2021, 28(1): 85-92.
[4] 冯禹, 崔宁博, 龚道枝, 魏新平, 王君勤. 基于极限学习机的参考作物蒸散量预测模型[J]. 农业工程学报, 2015, 31(S1): 153-160.
[5] 刘小华, 魏炳乾, 吴立峰, 杨坡. 4种人工智能模型在江西省参考作物蒸散量计算中的适用性[J]. 排灌机械工程学报, 2020, 38(1): 102-108.
[6] 徐颖, 张皓杰, 崔宁博, 冯禹, 胡笑涛, 龚道枝. 基于不同ELM的西北旱区参考作物蒸散量模拟模型[J]. 中国农村水利水电, 2019(1): 6-12.
[7] 胡欣欣, 张玉虎, 向柳. 新疆阿克苏地区气象干旱特征研究[J]. 安徽农业科学, 2015, 43(35): 96-100+104.
[8] Vapink, V. (1999) The Nature of Statistical Learning Theory. Springer-Verlag, New York.
[9] 李阳, 常佳乐, 王宇阳. 基于群体智能优化的MKL-SVM算法及肺结节识别[J]. 工程科学学报, 2021, 43(9): 1157-1165.
[10] Nguyen-Tuong, D., Seeger, M. and Peters, J. (2009) Model Learning with Local Gaussian Process Regression. Advanced Robotics, 23, 2015-2034.
https://doi.org/10.1163/016918609X12529286896877
[11] 周靖楠, 刘振男, 陆之洋, 焦卫国. 基于MI-KPCA与高斯回归过程的北汝河中长期径流预测[J]. 水电能源科学, 2021, 39(5): 42-45.
[12] Friedman, J.H. (2001) Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics, 29, 1189-1232.
https://doi.org/10.1214/aos/1013203451
[13] Wang, L., et al. (2020) Application of BP Neural Network to the Prediction of Coal Ash Melting Characteristic Temperature. Fuel, 260, Article ID: 116324.
https://doi.org/10.1016/j.fuel.2019.116324
[14] 郭映映, 齐贺香, 李素文, 牟福生. 基于粒子群算法的BP神经网络在大气NO2浓度预测中的应用研究[J]. 大气与环境光学学报, 2022, 17(2): 230-240.
[15] Willmott, C.J., Ackleson, S.G., Davis, R.E., Feddema, J.J., Klink, K.M., Legates, D.R., O’Donnell, J. and Rowe, C.M. (1985) Statistics for the Evaluation of Model Performance. Journal of Geophysical Research Oceans, 90, 8995-9005.
https://doi.org/10.1029/JC090iC05p08995
[16] Nash, J.E. and Sutcliffe, J.V. (1970) River Flow Forecasting through Conceptual Models, Part I: A Discussion of Principles. Journal of Hydrology, 10, 282-290.
https://doi.org/10.1016/0022-1694(70)90255-6
[17] Singh, K.P., et al. (2009) Artificial Neural Network Modeling of the River Water Quality—A Case Study. Ecological Modelling, 220, 888-895.
https://doi.org/10.1016/j.ecolmodel.2009.01.004
[18] Desideri, U., Zepparelli, F., Morettini, V., et al. (2013) Com-parative Analysis of Concentrating Solar Power and Photovoltaic Technologies: Technical and Environmental Evaluations. Applied Energy, 102, 765-784.
https://doi.org/10.1016/j.apenergy.2012.08.033