STL-BiLSTM模型在多气象因子水稻NDVI预测中的应用
Application of the STL-BiLSTM Model in Predicting Rice NDVI Based on Multiple Meteorological Factors
摘要: 归一化差异植被指数(NDVI)作为表征植被生长状况的核心指标,是水稻产量动态预测与农业精准决策的关键支撑。当前水稻NDVI预测存在气候因子耦合深度不足、模型时序特征捕捉能力有限、区域适配性不强等问题,传统模型或依赖有限气象变量,或忽视NDVI时序结构与多因子协同效应,难以满足高精度预测需求。为解决上述问题,本研究以黑龙江省哈尔滨、齐齐哈尔、鸡西、佳木斯、绥化5个水稻主产区为研究区,基于1983~2022年逐日NDVI数据与气象数据,提出一种融合STL时序分解与双向长短期记忆网络(BiLSTM)的NDVI预测模型。研究首先通过STL方法将NDVI序列解构为趋势、季节及残差分量,厘清各分量与气象因子的多尺度关联特征;随后构建“STL分解-BiLSTM预测”一体化架构,融合多尺度气候指标与NDVI分层特征,形成多元输入的预测模型。预测结果表明,STL-BiLSTM模型预测精度优异,五市NDVI预测值与真实值的决定系数(R2)均≥0.994,显著优于对比模型;气象因子与NDVI分量存在尺度差异化关联,气温主要驱动季节分量波动,降水量主导趋势分量演化,验证了多尺度耦合机制的合理性。本研究的创新点在于建立了气候因子与STL分层特征的精准耦合机制、构建了时序分解与双向时序建模的一体化架构、优化了多元气象数据的输入模式,为水稻NDVI高精度预测提供了新范式,也为基于NDVI的水稻产量预测与粮食安全保障提供了参考价值。
Abstract: The Normalized Difference Vegetation Index (NDVI), a core indicator of vegetation growth, is crucial for dynamic rice yield prediction and precision agricultural decision-making. However, current rice NDVI prediction faces challenges: insufficient climate factor coupling, limited model capability in capturing temporal features, and weak regional adaptability, as traditional models either depend on limited meteorological variables or overlook NDVI’s temporal structure and multi-factor synergies, failing to meet high-precision demands. To solve these problems, this study developed an NDVI prediction model integrating STL time series decomposition and Bidirectional Long Short-Term Memory (BiLSTM) network, focusing on five major rice-producing cities in Heilongjiang Province (Harbin, Qiqihar, Jixi, Jiamusi, Suihua) and using daily NDVI and meteorological data from 1983 to 2022. The STL method first decomposed NDVI sequences into trend, seasonal, and residual components to clarify their multi-scale correlations with meteorological factors; an integrated “STL decomposition-BiLSTM prediction” framework was then constructed to fuse multi-scale climate indicators with NDVI layered features, forming a multi-variable input model. Results showed that the STL-BiLSTM model achieved superior accuracy, with the coefficient of determination (R2) between predicted and observed NDVI values ≥ 0.994 in all five cities, significantly outperforming comparison models. Moreover, meteorological factors exhibited scale-differentiated correlations with NDVI components: temperature primarily drove seasonal component fluctuations, while precipitation dominated trend component evolution, verifying the rationality of the multi-scale coupling mechanism. This study innovates by establishing a precise coupling mechanism between climate factors and STL layered features, building an integrated framework for time series decomposition and bidirectional temporal modeling, and optimizing multi-source meteorological data input modes. It provides a new paradigm for high-precision rice NDVI prediction and valuable references for NDVI-based rice yield prediction and food security guarantee.
文章引用:周晞. STL-BiLSTM模型在多气象因子水稻NDVI预测中的应用[J]. 统计学与应用, 2025, 14(12): 265-282. https://doi.org/10.12677/sa.2025.1412363

1. 引言

归一化差异植被指数(NDVI)作为表征植被覆盖、生长状况及生态系统动态的核心指标,已广泛应用于湿地保护、喀斯特生态修复、农业产量预测及干旱监测等领域。近年来,伴随遥感技术的持续更新与机器学习算法的快速发展,NDVI的数据源处理、驱动机制解析及动态预测方法不断优化,为生态系统可持续管理与农业精准决策提供了关键支撑。

国外NDVI研究以全球及非洲、亚洲喀斯特等区域为核心,在高分辨率数据处理、多因子驱动解析及深度学习创新方面特色鲜明。数据处理上,D’Ercole等(2024) [1]环境开发SEVIRI每日NDVI数据集,云污染去除效果优于MODIS合成数据;Hamouda等(2024) [2]结合NDVI与土壤电导率实现梨园智能灌溉节水50%;Dibaba等(2025) [3]通过Landsat数据揭示戈杰布河流域植被退化机制。驱动机制研究中,Yang等(2024) [4]针对亚洲喀斯特集中分布区(AKC),证实亚洲喀斯特区人类活动对NDVI的主导作用。机器学习领域,Khan等(2024) [5]以美国玉米带为研究区,构建深度神经网络(DNN)等模型,证实1D卷积神经网络(1D-CNN)模型预测精度最优;Fathollahi等(2024) [6]构建全球尺度NDVI预测模型,验证了深度学习在全球NDVI时空预测中的通用性;Diniz等(2025) [7]聚焦巴西咖啡种植园,发现TiDE模型无需高分辨率数据即可实现100%分类准确率,为低成本作物遥感分类提供新路径。

国内研究聚焦黄河流域、青藏高原等关键区域,侧重NDVI模型改进与本地化适配。王正东等(2024) [8]整合MODIS/GIMMS NDVI数据与土地覆盖数据,为区域植被动态研究提供标准化VDCALC框架。在气候因子关联与预测模型基础构建方面,郭岩等(2023) [9]针对黄河流域构建多层多变量LSTM模型,显著提升预测精度;李彩琳等(2024) [10]以羌塘草原为研究区,明确随机森林模型为最优预测模型,并模拟出植被改善的最优情景。在机器学习模型改进与精准预测方面,孙颖等(2023) [11]基于气象数据构建BiLSTM模型,证实深度学习在植被胁迫监测中的潜力;刘菲等(2024) [12]提出STL-BiLSTM混合模型,有效解决北京小麦NDVI谷值预测不足的问题;刘宇航等(2025) [13]融合CMIP6气候数据与注意力机制,构建BiLSTM + Attention模型,为青藏高原植被动态预测提供新方法。总体而言,国外侧重跨区域创新与模型泛化,国内深耕本土适配与气候耦合,但两者均需平衡区域适用性与模型复杂度。

目前,水稻产量预测体系存在明显的局限性。传统模型依赖有限变量,遥感方法则过度关注关键生育期单点数据,忽视逐日时序数据对短期波动的响应及人地因素协同作用,导致预测准确性与可解释度不足,难以支撑精准农业决策。

本研究围绕NDVI预测场景下气候要素耦合紧密性不足、建模协同能力有限及区域适用效能欠佳等问题,提出创新点如下:一是建立多尺度气候指标与STL分层特征的精准耦合机制,依据时间尺度和生态意义匹配NDVI趋势、周期及残差项,融入区域气候滞后效应,突破传统简单叠加模式;二是构建“STL分解-BiLSTM预测”一体化架构,对STL分解后的各成分与气候因子进行时序特征融合,强化多源数据的时序关联与核心信息提取;三是针对多元数据输入优化模型,将逐日最高气温、最低气温及降水量纳入NDVI预测构成多元输入,提升预测精度结合多生态区验证,以通用参数结合区域校正因子平衡本土化适配与跨区域迁移能力。

2. 材料与方法

2.1. 研究区域

黑龙江省是中国水稻产量第一大省,其全省粳稻产量占全国总量的50%,在国家粮食安全战略中占据着“压舱石”的关键地位。本研究参照2022年水稻种植面积的大小,选择最靠前五位的哈尔滨市、齐齐哈尔市、佳木斯市、鸡西市和绥化市作为研究区域。这些地区位于中国东北部,属于温带季风气候,四季分明,冬季寒冷,夏季温暖湿润。该地区的气候条件对水稻生长具有重要影响,尤其是在5月至9月的生长季期间,极端气候事件的发生频率以及类型会对当年的水稻产量产生重大影响。

2.2. 数据来源及处理

2.2.1. 数据来源

气象资料来源于黑龙江省气象数据中心和国家气象数据中心,包括黑龙江省哈尔滨、齐齐哈尔、鸡西、佳木斯、绥化五个水稻产区城市1983~2022年的逐日气温及降水量数据。

NDVI数据来源于西北工业大学陕西秦岭生态智能监测与保护重点实验室等单位的学者李慧文等人(2024)关于美国国家海洋和大气管理局(NOAA)气候数据记录(CDR)计划的研究成果[14]。数据范围为全国,基于逐日归一化植被指数(NDVI)数据,采用天地图国家地理信息公共服务平台发布的审图号为GS(2024)0650号的2024年省市县三级行政区划Shp数据,对每个黑龙江这五个市内的栅格值进行了求平均数处理,得到了市级的逐日归一化植被指数。

2.2.2. 数据处理

首先对主要预测指标NDVI进行相关性分析。选取最高气温、最低气温、平均气温、降水量、气压、风速、露点温度等气象条件特征指标,使用Spearman等级相关系数法对参数指标进行相关性分析,最终选择三个相关度最高的指标,即最高气温、最低气温和降水量。

进一步,由于从观测平台获取的大量NDVI与气象参数数据缺乏统一量纲规范,同时部分时间序列数据或遭到环境及设备等外部因素的影响导致数据偏差。因此,为了更好地对NDVI预测研究,先要对其采集数据进行归一化处理,其具体的表达形式由以下公式给出[15]

x = x x min x max x min

式中的 x max 为数据集观测值的最大项, x min 为数据集观测值的最小项, x 为归一化之后的数据,其取值范围为[0, 1]。最后,还需要对指标进行异常值检验及处理。本研究通过四分位法对异常值进行处理,即超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在下边缘。

2.3. 研究方法

2.3.1. STL方法

STL (Seasonal-Trend decomposition using Loess)是一种强大的时间序列分解方法[16],核心是以鲁棒局部加权回归作为平滑手段。

STL假设时间序列数据满足加法模型( Y v = T v + S v + R v ),其中:趋势成分( T v )反映数据的长期变化方向;季节性成分( S v )捕捉周期性波动(如月度、季度规律);残差成分( R v )代表随机噪声或异常值。

此外,若原始数据为乘法模式(如指数增长),需先进行对数变换转换为加法模型再进行分解,具体实现流程如图1所示。

Figure 1. STL method technology roadmap

1. STL方法技术路线图

2.3.2. BiLSTM模型介绍

1) LSTM单元

在介绍BiLSTM之前,我们先了解一下LSTM (长短期记忆网络)单元[17]。LSTM单元由输入门(input gate)、遗忘门(forget gate)、输出门(output gate)和细胞状态(cell state)组成。其主要公式如下:

输入门: i t =σ( W xi x t + W hi h t1 + W ci c t1 + b i )

遗忘门: f t =σ( W xf x t + W hf h t1 + W cf c t1 + b f )

细胞状态更新: c ˜ t =tanh( W xc x t + W hc h t1 + b c )

细胞状态更新: c t = f t c t1 + i t c ˜ t

输出门: o t =σ( W xo x t + W ho h t1 + W co c t + b o )

隐状态更新: h t = o t tanh( c t )

其中, x t 是时间步 t 的输入, h t1 是上一个时间步的隐状态, c t1 是上一个时间步的细胞状态, i t f t c ˜ t c t o t 分别是输入门、遗忘门、细胞状态、输出门和隐状态, W b 是模型参数, σ 是sigmoid函数,tanh是双曲正切函数,具体神经网络结构如图2所示。

Figure 2. LSTM network structure

2. LSTM网络结构

2) BiLSTM模型

BiLSTM是由两个独立的LSTM组成,分别负责从两个方向(正向和逆向)对输入序列进行处理。这允许模型同时获取当前时间步之前和之后的信息。BiLSTM的输出通常由两个方向的隐藏状态拼接而成,神经网络结构如下图3所示。

3. 构建预测模型

3.1. 模型的结构

NDVI生态预估模型的技术路径总体依照“数据解析–特征融合–模型训练–效果验证”的逻辑体系:

Figure 3. BiLSTM neural network structure

3. BiLSTM神经网络结构

首要环节对多城市遥感NDVI及生态气象要素数据(降水量、气温)实施生态数据预处理操作,通过STL分解将NDVI序列拆解为趋势、季节及残差分量;随后融合这些分量与气象指标构建特征集,经标准化后输入BiLSTM模型捕捉时序关联;模型训练采用城市独立建模策略,通过正则化机制优化泛化能力;最终输出NDVI预测结果,并通过多维度指标与统计检验完成效能评估,形成从数据到预测的完整技术闭环。构建模型流程主要由输入气象指标、分解NDVI时序指标、选择相关指标、模型训练及预测结果输出这几个步骤组成。

3.2. STL季节分解

从统计学视角出发,首先需要通过参数敏感性分析确定STL分解的季节窗口n(s),即选取分解质量最佳的季节周期。STL分解质量可通过方差解释能力(趋势、季节、残差解释方差占比)、残差统计特性(残差均值、标准差、自相关)及信噪比综合评判。若季节解释方差高、残差解释方差低,说明季节成分捕获充分;残差自相关接近0、残差均值接近0且标准差小,表明残差具白噪声特性;信噪比越高,信号与噪声比越优。

以绥化数据为例,当季节周期分别取90、180、365、730时,分解结果(如表1所示)差异显著:季节周期为365和730时,季节解释方差分别达94.69%和94.79%,残差解释方差仅1.70%和1.81%,信噪比较高,表明季节模式捕获充分。由于年周期365天对该数据的季节分解质量最优,而季节周期选取需匹配数据真实季节模式,后续将直接影响模型对季节成分的利用精度。其他四个城市结果也与绥化的分析结果一致,所以统一选择365天作为季节窗口。

Table 1. Parameter sensitivity analysis

1. 参数敏感性分析

季节周期

趋势解释方差(%)

季节解释方差(%)

残差解释方差(%)

残差自相关

信噪比

分解质量

90

80.7801

0.4008

18.8191

0.9986

4.3138

一般

180

43.0926

11.6583

45.2490

0.9990

1.2100

较差

365

3.6014

94.6946

1.7040

0.9947

54.0526

730

3.3945

94.7891

1.8164

0.9971

57.6838

进一步,对黑龙江省5个水稻主产区城市1983~2022年逐日NDVI进行STL分解,结果如图4所示,5个城市的NDVI原始序列均呈现显著的年际周期性波动,与植被季节生长节律一致;趋势成分整体呈波动上升态势,尤其是2010年后上升趋势更为明显,反映水稻产区植被生长能力的长期向好特征;季节性成分均表现出稳定的年周期波动,凸显气候季节变化对NDVI的强烈驱动作用;残差成分无系统性趋势,表明趋势与季节性成分已被有效提取,剩余波动多由极端天气、短期人为干扰等随机因素引发。这一分解结果为后续最高气温、最低气温、降水量等结合气象因子开展NDVI预测研究,为分析不同时间尺度的影响机制提供了基础作用。

(a) 哈尔滨-NDVI时间序列STL分解

(b) 齐齐哈尔-NDVI时间序列STL分解

(c) 鸡西-NDVI时间序列STL分解

(d) 绥化-NDVI时间序列STL分解

(e) 佳木斯-NDVI时间序列STL分解

Figure 4. STL decomposition results of five cities in Heilongjiang Province

4. 黑龙江省五市STL分解结果

通过对黑龙江省五市NDVI进行STL分解后分析其趋势项、季节项、残差项与平均气温、降水量的关联,考虑到平均气温能整合昼夜温差信息,更贴合植被生理活动对温度的综合响应需求,故选用平均气温替代最高、最低气温开展关联分析。由图5可知,NDVI季节项与平均气温呈显著非线性递增趋势且在五市间高度一致,直观反映出气温对植被生长季节波动的核心驱动作用;降水量主要与NDVI趋势项存在多尺度关联,体现了水分条件对植被长期变化的影响差异。该类气候指标与NDVI组分的差异化相关性,从生态机理层面佐证了“多尺度气候指标-STL分层特征”耦合机制的合理性。

3.3. BiLSTM模型构建

该模型构建以NDVI时间序列预测为目标,采用按城市独立建模的BiLSTM框架,核心流程与关键设定如下:

1) 数据预处理与特征工程。将STL分解后的NDVI分量与相关性分析选取的三个气象指标进行数据预处理。选取NDVI_trend、NDVI_seasonal、NDVI_resid及最高气温、最低气温、降水量为输入特征,模型训练前采用Min-Max标准化方法对各城市输入特征与NDVI分别进行独立处理,将数值映射至[0, 1]区间,消除量纲差异;

2) 模型架构集参数配置。模型结构采用BiLSTM网络捕捉NDVI时间序列中的双向时序依赖关系,含两层各32个神经元的BiLSTM层(均接入dropout率为0.2的正则化层)、含16个神经元的ReLU激活全连接层及输出层,以Adam优化器(学习率0.001)、均方误差(MSE)为损失函数训练,结合EarlyStopping (耐心值10)与ReduceLR On Plateau (衰减因子0.5、耐心值5)回调机制避免过拟合。

(a) 哈尔滨-STL成分与气候变量关系

(b) 齐齐哈尔-STL成分与气候变量关系

(c) 鸡西-STL成分与气候变量关系

(d) 绥化-STL成分与气候变量关系

(e) 佳木斯-STL成分与气候变量关系

Figure 5. Relationship between climate variables and STL components in five cities in Heilongjiang Province

5. 黑龙江省五市气候变量与STL成分关系图

关键训练参数设置如下:最大训练轮次(epochs) = 50,批次大小(batch_size) = 32。时间序列样本生成采用滑动窗口法,设定30天为回溯窗口,具体而言依托过去30天NDVI及气象参数数据。预测未来1天的NDVI,确保捕捉短期动态所需的充足时序上下信息。

3) 数据集划分。为避免数据泄露并契合时间序列的时序特性,每个城市的数据集采用时间序贯划分法分为训练集与验证集。具体而言,按照时间顺序划分,训练集与验证集比例为8:2。

4) 模型评估。采用性能指标、统计检验双重综合评估框架验证模型有效性:

误差指标:均方误差(MSE,量化平方偏差)、均方根误差(RMSE,MSE的平方根,反映原始单位下的误差幅度)、平均绝对误差(MAE,衡量平均绝对偏差,对异常值稳健)、决定系数(R2,评估模型解释的方差比例);

统计检验:单样本t检验。检验预测残差均值是否显著偏离0,验证预测的无偏性;Shapiro-Wilk检验。评估残差的正态性,验证误差分布的合理性;Pearson相关性检验。量化预测值与观测值的线性关联强度,通过p值判断相关性的显著性。

该框架确保了NDVI预测结果的稳健性、可解释性与泛化能力,为生态监测及植被动态分析提供了严谨的方法学支撑。

3.4. 模型评价

3.4.1. 性能评价指标选取

在预测NDVI的过程中,预测模型的好坏往往决定着预测模型的精确度。因此,在利用采集的数据建立NDVI预测模型之后,通常需要对所建立的模型预测精度进行评价。本研究中对模型的误差评价指标有均方误差(Mean Square Error, MSE),均方根误差(Root Mean Square Error, RMSE),平均绝对误差(Mean Absolute Error, MAE)以及决定系数R2 (Coefficient of Determination)。

3.4.2. 主模型结果评价

基于1983~2022年黑龙江省哈尔滨、齐齐哈尔、绥化、鸡西、佳木斯5个水稻主产区的逐日气象与NDVI数据,采用STL-BiLSTM模型开展NDVI预测,结果如图6所示:黑龙江五市NDVI预测值与真实值拟合度极高(R2均≥0.994)。该模型兼具STL时序分解能力与BiLSTM双向时序特征捕获优势,可高效解构NDVI时序成分并挖掘双向依赖关系。这一发现为农业遥感时序数据预测提供了高效范式,也为基于NDVI的水稻产量预测奠定了可靠基础,有望推动作物产量预测向高精度、优时效性发展,为农业决策与粮食安全保障赋能。

Figure 6. Comparison of the predicted results and actual results of the STL-BiLSTM model

6. STL-BiLSTM模型预测结果与实际结果对比图

3.4.3. 模型对比

为了将STL-BiLSTM模型与其他模型性能进行对比,对NDVI单独进行ARIMA、LSTM的模型构建,然后对STL分解后的NDVI输入到LSTM构建STL-LSTM模型。最后一个使用最高气温、最低气温、降水量组合NDVI输入LSTM中进行预测。一共有四个对比参照模型,建模结果如表2所示。

Table 2. Comparison of error indicators

2. 误差性指标对比

模型

MSE

RMSE

MAE

R2

主模型:STL-BiLSTM

0.000305

0.0172346

0.014085

0.99512

ARIMA

0.4147912

0.5434178

0.4756666

−5.4958

LSTM

0.000569

0.0315134

0.0580878

0.90778

STL-LSTM

0.0000898

0.0292992

0.0236402

0.92858

多元气象-LSTM

0.000414

0.0106528

0.017884

0.95822

模型比较结果显示,本研究所提出的STL-BiLSTM主模型在NDVI预测任务中表现显著优于其他模型。其均方误差为0.000305,均方根误差为0.0172,平均绝对误差为0.0141,均为所有模型中最小,表明预测值与真实值的整体偏差和平均偏差最小;决定系数达0.9951,接近1,远高于LSTM (0.9078)、STL-LSTM (0.9286)和多元气象-LSTM (0.9582),较LSTM模型对NDVI时序变异的可解释性提升8.73个百分点,能解释99.51%的NDVI时序变异,而传统ARIMA模型决定系数为−5.4958,表现最差。这一结果证实,STL分解对NDVI时序特征的结构化提取与BiLSTM对双向时序依赖的捕捉相结合,有效提升了预测精度与稳定性,凸显了STL-BiLSTM在NDVI时间序列预测中的技术先进性。

关于主模型和参照机器学习模型的网络架构及调参方法如表3所示,此外,ARIMA模型调参过程中,对自回归阶数p、移动平均阶数q在[0, 1, 2, 3]的范围中搜索,依据AIC最小化原则确定最终值,具体操作中使用逐步搜索(stepwise)来寻找最小AIC的参数组合;对差分阶数d在[0, 1, 2]的范围中搜索,依据ADF检验数据平稳性的结果确定最终值;此外还需要依据数据确定是否存在明显季节性,以此完成模型超参数的调整。

Table 3. Model structure and parameter adjustment information table

3. 模型结构及调参信息表

模型名称

输入维度

网络层结构

输出维度

超参数调优方法

主模型:STL-BiLSTM

(30,6)

BiLSTM(32) → Dropout → BiLSTM(32) → Dropout → Dense(16) → Dropout → Dense(1)

1

网格搜索 + K折交叉验证

LSTM

(30, 1)

LSTM(32) → Dropout → LSTM(32) → Dropout → Dense(16) → Dropout → Dense(1)

1

STL-LSTM

(30, 3)

LSTM(32) → Dropout → LSTM(32) → Dropout → Dense(16) → Dropout → Dense(1)

1

多元气象-LSTM

(30, 4)

LSTM(32) → Dropout → LSTM(32) → Dropout → Dense(16) → Dropout → Dense(1)

1

在BiLSTM和LSTM这类机器学习模型超参数调优中,为平衡正则化效果与模型性能,Dropout率在[0.1, 0.2, 0.3, 0.5]区间搜索,最终STL-BiLSTM、LSTM、STL-LSTM、气象-LSTM均选定0.2;为避免过拟合且使模型效果最佳,网络层数在[1, 2, 3]中确定;为使验证集损失最小,LSTM单元数在[16, 32, 64, 128]范围内均选取32;为平衡训练稳定性与收敛速度,学习率在[0.1, 0.01, 0.001, 0.0001]中一致选定0.001;鉴于Adam优化器具备自适应学习率且收敛快速的特性,在[Adam, RMSprop, SGD]中均选择Adam。各模型经相应参数调整方法得到最佳参数选择,部分具体结果如下表(表4)所示。

Table 4. Hyperparameter setting table

4. 超参数设置表

超参数

STL-BiLSTM

LSTM

STL-LSTM

气象-LSTM

时间步长

30

30

30

30

LSTM单元数

32

32

32

32

隐藏层单元

16

16

16

16

Dropout率

0.2

0.2

0.2

0.2

学习率

0.001

0.001

0.001

0.001

批大小

32

32

32

32

训练轮数

50

50

50

50

早停耐心

10

10

10

10

学习率调整耐心

5

5

5

5

3.5. 模型解释

SHAP值的计算是基于对所有特征的可能组合进行评价,通常用于对模型进行解释分析,其数学公式如下[18]

其中, ϕ i 是特征i的SHAP值;|P|是子集P中的特征个数;|P|是所有特征的总数; f( P ) 是模型在特征子集上的预测值; f( P{ i } ) 是模型在特征子集P和第i个特征上的预测值。

以绥化市为例,SHAP分析结果如图7所示,基于SHAP值对STL-BiLSTM模型预测其1983~2022年逐日NDVI的解释性分析表明,t − 1最高气温是对模型输出边际贡献最强的输入变量,其SHAP值分布的广度与幅度直观体现了前一日高温对植被生长状态预测的关键驱动作用;NDVI季节性组分(t − 1至t − 7_NDVI_seasonal)作为植被物候节律的核心表征,在多时间滞后尺度下持续发挥主导性解释作用,反映了植被季节性生长模式对自身后续状态预测的强关联性;NDVI残差组分(t – 1, t – 2, t − 3_NDVI_resid)则体现了短期非周期性波动对NDVI预测的即时影响,呈现明显的短期效应特征。综上,不同类型输入变量的时间滞后特征在模型输出中呈现出层次化的重要性差异,这种差异既源于植被生长对物候节律、气象条件的内在响应规律,也与STL-BiLSTM模型对时序特征的捕捉能力密切相关,为解析五个城市的NDVI动态的驱动机制提供了精细化的模型解释视角。

Figure 7. SHAP-based analysis of model input feature importance

7. 基于SHAP的模型输入特征重要性分析

4. 结论与展望

4.1. 结论

本研究以黑龙江省哈尔滨、齐齐哈尔、绥化、鸡西、佳木斯5个水稻主产区为研究区,旨在通过NDVI时序预测为水稻产量预测奠定基础。基于1983~2022年最高气温、最低气温、降水量等逐日气象与NDVI数据,首先通过相关性分析筛选出关键气象变量,进而构建STL-BiLSTM模型开展NDVI预测,主要结论如下:

1) 相关性分析有效支撑了模型特征选择,筛选出的最高气温、最低气温和降水量与NDVI存在显著关联,为预测模型提供了可靠的辅助变量;

2) STL-BiLSTM模型预测性能优异,五市NDVI预测值与真实值拟合度极高(R2均≥0.994),残差近似正态分布且集中于0,模型损失收敛稳定,展现出高精度的预测能力;

3) 模型融合STL时序分解与BiLSTM的优势:STL可有效解构NDVI的趋势、季节和残差分量,尤其增强了对季节性变化的捕捉能力;BiLSTM较LSTM更优的双向时序信息捕获能力,能深度挖掘NDVI序列的前后向依赖关系;

4) 气象变量与NDVI分量的关联具有尺度差异性:气温主要驱动NDVI季节分量的波动,反映其对植被生长季节性变化的核心作用;降水量则与NDVI趋势项存在多尺度关联,体现水分条件对植被长期演化的影响,从生态机理上验证了“气象指标-STL分层特征”耦合机制的合理性。

4.2. 展望

本研究通过STL-BiLSTM模型实现了水稻主产区NDVI的高精度预测,其核心价值体现在方法论与应用层面的双重突破。在方法论上,STL分解与BiLSTM的结合并非简单技术叠加:STL对NDVI时序结构的分层解构,解决了原始序列中趋势、季节与随机成分混叠导致的特征提取难题;BiLSTM的双向建模能力则弥补了传统LSTM对后向时序依赖捕捉不足的缺陷,二者协同提升了模型对复杂植被动态的刻画能力。这种“分层解构–双向捕捉”的框架,为农业遥感时序数据(如作物物候、植被覆盖度)的预测提供了可推广的范式。

在应用层面,研究为基于NDVI的水稻产量预测提供了关键支撑。NDVI作为水稻生长状况的有效替代指标,其高精度预测结果可直接服务于产量形成过程的动态模拟,有助于提升产量预测的时效性与准确性。气象变量与NDVI分量的差异化关联分析,进一步揭示了气候因子对水稻生长的多尺度影响机制,为解析“气候–植被–产量”的耦合关系提供了科学依据。

未来研究可从三方面拓展:1) 扩展研究区域至全国主要稻区,验证模型的区域适应性;2) 融合高分辨率遥感数据与作物生理参数,提升预测的空间精细化程度;3) 结合迁移学习方法优化模型在数据稀缺区域的表现,推动技术向基层农业决策场景落地。最终通过持续提升预测精度与应用广度,为粮食安全预警和农业可持续发展提供更多技术支撑。

参考文献

[1] D’Ercole, R., Casella, D., Panegrossi, G. and Sanò, P. (2024) A High Temporal Resolution NDVI Time Series to Monitor Drought Events in the Horn of Africa. International Journal of Applied Earth Observation and Geoinformation, 135, Article ID: 104264. [Google Scholar] [CrossRef
[2] Hamouda, F., Puig-Sirera, À., Bonzi, L., Remorini, D., Massai, R. and Rallo, G. (2024) Design and Validation of a Soil Moisture-Based Wireless Sensors Network for the Smart Irrigation of a Pear Orchard. Agricultural Water Management, 305, Article ID: 109138. [Google Scholar] [CrossRef
[3] Dibaba, W.T., Dibaba, B.T. and Hirpa, G.D. (2025) Spatiotemporal Analysis of the Wetland Dynamics Using Geospatial Techniques: Case of Gojeb River Sub-Basin, Ethiopia. Environmental Monitoring and Assessment, 197, Article No. 844. [Google Scholar] [CrossRef] [PubMed]
[4] Yang, S., Zhao, Y., Yang, D. and Lan, A. (2024) Analysis of Vegetation NDVI Changes and Driving Factors in the Karst Concentration Distribution Area of Asia. Forests, 15, Article 398. [Google Scholar] [CrossRef
[5] Khan, S.N., Li, D. and Maimaitijiang, M. (2024) Using Gross Primary Production Data and Deep Transfer Learning for Crop Yield Prediction in the US Corn Belt. International Journal of Applied Earth Observation and Geoinformation, 131, Article ID: 103965. [Google Scholar] [CrossRef
[6] Fathollahi, L., Wu, F., Melaki, R., Jamshidi, P. and Sarwar, S. (2024) Global Normalized Difference Vegetation Index Forecasting from Air Temperature, Soil Moisture and Precipitation Using a Deep Neural Network. Applied Computing and Geosciences, 23, Article ID: 100174. [Google Scholar] [CrossRef
[7] Laussac Diniz, E. and Gomede, E. (2025) Scalable Coffee Crop Classification Using NDVI Time Series from SATVeg and Machine Learning Models. Smart Agricultural Technology, 12, Article ID: 101360. [Google Scholar] [CrossRef
[8] Wang, Z., Li, H., Guo, P. and Wan, H. (2024) VDCALC Framework: A Comprehensive Approach for Assessing Vegetation Dynamics. Ecological Indicators, 165, Article ID: 112167. [Google Scholar] [CrossRef
[9] Guo, Y., Zhang, L., He, Y., Cao, S., Li, H., Ran, L., et al. (2024) LSTM Time Series NDVI Prediction Method Incorporating Climate Elements: A Case Study of Yellow River Basin, China. Journal of Hydrology, 629, Article ID: 130518. [Google Scholar] [CrossRef
[10] 李彩琳, 宋彦涛, 张靖, 等. 基于随机森林算法的羌塘草原NDVI时空格局及预测模型[J]. 生态学杂志, 2024, 43(6): 1664-1673.
[11] Sun, Y., Lao, D., Ruan, Y., Huang, C. and Xin, Q. (2023) A Deep Learning-Based Approach to Predict Large-Scale Dynamics of Normalized Difference Vegetation Index for the Monitoring of Vegetation Activities and Stresses Using Meteorological Data. Sustainability, 15, Article 6632. [Google Scholar] [CrossRef
[12] Liu, F., Liu, J. and Chen, W. (2024) STL-BiLSTM-Based Segmental Prediction Model for Wheat NDVI. 2024 4th International Conference on Computer Communication and Artificial Intelligence (CCAI), Xi’an, 24-26 May 2024, 405-410. [Google Scholar] [CrossRef
[13] 刘宇航, 庞国锦, 王学佳, 等. 融合注意力机制双向LSTM模型对青藏高原NDVI预测[J]. 遥感信息, 2025, 40(4): 110-119.
[14] Li, H., Cao, Y., Xiao, J., Yuan, Z., Hao, Z., Bai, X., et al. (2024) A Daily Gap-Free Normalized Difference Vegetation Index Dataset from 1981 to 2023 in China. Scientific Data, 11, Article No. 527. [Google Scholar] [CrossRef] [PubMed]
[15] Khairy, D., Alharbi, N., Amasha, M.A., Areed, M.F., Alkhalaf, S. and Abougalala, R.A. (2024) Prediction of Student Exam Performance Using Data Mining Classification Algorithms. Education and Information Technologies, 29, 21621-21645. [Google Scholar] [CrossRef
[16] Xiong, T., Li, C. and Bao, Y. (2018) Seasonal Forecasting of Agricultural Commodity Price Using a Hybrid STL and ELM Method: Evidence from the Vegetable Market in China. Neurocomputing, 275, 2831-2844. [Google Scholar] [CrossRef
[17] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[18] 李京栋, 王海玉, 王俊东, 等. 基于ABC-LightGBM模型和SHAP解释的热连轧带钢宽度预测[J/OL]. 材料与冶金学报: 1-14.
https://link.cnki.net/urlid/21.1473.TF.20251119.1650.002, 2025-12-18.