1. 引言
玉米是我国重要的粮食作物和饲料作物,其产量水平直接关系到农业生产决策、粮食安全保障以及区域农业经济的稳定发展。受气候条件、农业投入水平和生产管理方式等多种因素的综合影响,玉米产量时间序列往往呈现出显著的非线性特征和复杂的时序波动规律,这在一定程度上增加了产量预测的难度[1]。
近年来,BP神经网络、支持向量机、随机森林等传统机器学习方法被广泛应用于作物产量预测研究,在多特征建模和非线性回归方面取得了一定成效。然而,此类方法通常依赖人工特征构造,对时间序列中长期依赖关系和多尺度变化特征的刻画能力有限,在复杂农业系统建模中仍存在一定局限性。随着深度学习技术的发展,长短期记忆网络(LSTM)和Transformer等模型在时间序列预测领域表现出较强优势,能够有效捕捉序列中的长期依赖关系和关键时刻特征,为作物产量预测提供了新的研究思路[2]。
尽管深度学习模型在理论上具有更强的特征表达能力,但在农业统计数据场景下仍面临两方面挑战:一是农业产量数据通常具有非平稳性和多尺度波动特征,单一时域建模方式难以充分挖掘其潜在信息;二是农业统计数据样本规模有限,深度模型参数较多,容易出现过拟合问题,从而影响模型的泛化性能[3]。此外,单一预测模型在复杂系统建模中往往难以兼顾预测精度与稳定性,限制了其在实际农业生产中的应用效果[4]。
针对上述问题,本文构建了一种融合时频分析、深度学习与集成学习的玉米产量预测方法。首先,通过引入连续小波变换对原始时间序列进行多尺度分解,并结合卷积神经网络、双向长短期记忆网络和Transformer注意力机制,构建CLT-Net深度预测模型,以增强对玉米产量时间序列多尺度特征和长期依赖关系的建模能力。在此基础上,为进一步提升模型的泛化性能和预测稳定性,引入改进的Stacking组合预测策略,通过融合多模型优势实现性能互补。同时,针对农业样本规模有限的问题,采用LSTM优化的条件生成对抗网络(LSTM-CGAN)对训练样本进行数据增强,以缓解小样本对深度模型训练的不利影响。通过上述方法的协同作用,实现对玉米产量的高精度预测,为区域尺度农业生产决策提供技术支持。
2. 数据来源与特征分析
2.1. 数据来源与预处理
本文数据来源于国家统计年鉴,选取我国31个省(自治区、直辖市) 1982~2023年的农业相关统计数据,共计1302条样本,选取31个省份的面板数据构建预测模型,以河北省作为重点研究区域,对模型预测性能进行验证与分析包含农业机械总动力、农业总产值、有效灌溉面积、玉米播种面积、单位面积产量等12类变量。
为保证数据质量,对原始数据进行了系统预处理,处理后的数据如表1所示。首先,对数据进行重复值检测与异常值处理;其次,采用线性插值方法填补缺失值;最后,通过标准化与归一化处理消除量纲差异,为后续模型训练提供统一的数据输入[5]。
Table 1. Partial presentation of the preprocessed data
表1. 预处理后的部分数据展示
年份 |
省份 |
农业机械总动力 (万千瓦) |
农业总产值 (亿元) |
有效灌溉面积 (千公顷) |
单位面积产量 (公斤/公顷) |
玉米播种面积 (千公顷) |
玉米产量 (万吨) |
1982 |
河北省 |
1355.53 |
96.21 |
3561.13 |
3496.8 |
2073.3 |
725 |
1983 |
河北省 |
1578.53 |
117.55 |
3576.6 |
3449.7 |
2001.6 |
690.5 |
1984 |
河北省 |
1830.29 |
126.49 |
3584.8 |
3523.2 |
1816.5 |
640 |
|
|
|
|
…… |
|
|
|
2021 |
河北省 |
8096.81 |
3413.34 |
3952.24 |
5983.51 |
3454.11 |
2066.77 |
2022 |
河北省 |
8249.08 |
3645.02 |
4102.86 |
6061.3 |
3455.87 |
2094.7 |
2023 |
河北省 |
8403.77 |
4035.67 |
4122 |
5902.1 |
3442.24 |
2014.28 |
2.2. 玉米产量影响因素分析
为避免不相关或弱相关变量对预测模型性能产生干扰,本文采用灰色关联分析(GRA)、Pearson相关系数、Spearman相关系数、Kendall相关系数、Lasso回归及方差膨胀因子(VIF)分析等多种方法,对玉米产量影响因素进行综合评估。各方法结果经加权汇总后,得到影响因素的综合相关度[6]。通过综合多种相关性分析方法,可从不同角度刻画影响因素与玉米产量之间的关系,从而提高特征筛选结果的可靠性与稳定性。
为直观展示不同因素与玉米产量之间的相关性关系,将主要影响因素的相关性结果进行可视化,如表2所示。结果表明,单位面积产量、有效灌溉面积、化肥施用量和机械总动力等因素与玉米产量具有较强相关性,为后续CLT-Net深度模型及组合预测模型提供统一的输入特征空间。
Table 2. Correlation degree of each factor
表2. 各因素相关度
影响因素 |
单位面积产量 |
有效灌溉面积 |
化肥施用量 |
农村用电量 |
机械总动力 |
受灾面积 |
相关度 |
0.854 |
0.794 |
0.778 |
0.772 |
0.756 |
0.666 |
影响因素 |
成灾面积 |
玉米播种面积 |
农业总动力 |
乡村人口 |
农业总产值 |
|
相关度 |
0.609 |
0.609 |
0.603 |
0.601 |
0.361 |
|
3. 玉米产量预测模型构建
3.1. 单一预测模型
为全面评估不同模型在玉米产量预测任务中的表现,并为后续组合模型与深度预测模型的构建提供对比基线,本文选取多种具有代表性的单一预测模型进行建模与分析。这些模型既包括传统机器学习方法,也包括近年来广泛应用于时间序列预测的深度学习模型。
在传统机器学习模型方面,本文构建了多元线性回归、BP神经网络、支持向量机(SVM)、随机森林(RF)、决策树(DT)、梯度提升决策树(GBDT)以及岭回归(Ridge)等模型。上述模型在处理非线性关系和多特征回归问题方面具有一定优势,已被广泛应用于农业预测研究[7]。
在主流时序预测模型方面,进一步引入长短期记忆网络(LSTM)和门控循环单元(GRU)作为深度学习基线模型,以增强对时间序列长期依赖关系的建模能力[8]。同时,考虑到XGBoost在非线性建模和特征交互方面的优异表现,构建经超参数调优的XGBoost模型作为对比模型。
所有单一预测模型均在相同的数据划分方式、输入特征和预处理流程下进行训练与测试,并采用统一的评价指标体系进行性能评估,以保证模型对比结果的公平性与可比性[9]。通过上述单一模型的对比分析,为后续CLT-Net深度预测模型及组合预测模型的性能提升提供参考依据。然而,上述模型在多尺度特征融合和长期依赖建模方面仍存在局限,为此有必要构建更具表达能力的深度预测模型。
3.2. CLT-Net深度预测模型
为提升农业时间序列预测的准确性与稳定性,本文提出一种融合连续小波变换、卷积神经网络、双向LSTM与Transformer注意力机制的深度预测模型(CLT-Net),其结构如图1所示。
CLT-Net首先利用连续小波变换对原始时间序列进行多尺度分解,以提取不同频段特征;随后通过CNN对局部特征进行提取;再由BiLSTM捕获时间序列的双向依赖关系;最后引入Transformer注意力机制增强模型对关键信息的关注能力,并通过全连接层输出玉米产量预测结果[10]。
Figure 1. Schematic architecture of the CLT-Net deep prediction model
图1. CLT-Net深度预测模型结构示意图
4. 组合预测模型与数据增强
4.1. 改进Stacking组合预测模型
Figure 2. Schematic structure of the improved Stacking ensemble prediction model
图2. 改进Stacking组合预测模型结构
为进一步提升预测精度和模型稳定性,基于Stacking集成思想构建组合预测模型,其整体结构如图2所示。模型在基学习器层选取多种性能互补的预测模型,在元学习器层引入残差感知的动态权重分配机制,并结合五折交叉验证以避免信息泄露,从而提高模型的泛化能力[11]。
4.2. LSTM-CGAN数据增强方法
针对农业样本规模有限的问题,引入LSTM优化的条件生成对抗网络(LSTM-CGAN)对训练样本进行数据增强,LSTM-CGAN并非独立预测模型,而是一种用于缓解小样本问题的训练数据增强策略,其网络结构如图3所示。其中,生成器采用双向LSTM提取条件变量的时序特征,判别器通过LSTM网络对生成样本与真实样本进行区分。通过对生成样本进行筛选与融合,将增强数据引入组合模型训练过程。在数据增强过程中,通过限制生成样本的取值范围并结合判别器判别结果对生成数据进行筛选[12],以保证增强样本在统计分布和时序特征上与真实数据保持一致。
为严格规范数据增强实验流程并防止数据泄露,本文对LSTM-CGAN的训练与数据使用过程进行了明确约束和规范化设计。具体而言,LSTM-CGAN模型仅基于训练集数据进行训练,生成的合成样本仅用于扩充训练集,不参与测试集的构建与评估。
在实验过程中,首先按照时间顺序对原始数据进行划分,构建训练集和测试集,其中测试集完全由时间上位于训练集之后的真实样本组成,严格满足时间序列预测中“样本外预测”的基本要求。随后,仅使用训练集数据对LSTM-CGAN模型进行训练,并基于该模型生成合成样本以扩充训练集规模。模型测试阶段所使用的数据全部为原始真实观测数据,未引入任何生成样本,且生成数据在整个测试阶段均不可见,从而从实验设计层面彻底避免了数据泄露问题。上述流程确保了模型预测性能评估结果的可靠性与客观性。
Figure 3. Structure of the LSTM-CGAN data augmentation model: generator and discriminator
图3. LSTM-CGAN数据增强模型结构:生成器、判别器
5. 实验结果与分析
在实验过程中,采用历史数据构建训练集与测试集,其中训练集与测试集按时间顺序划分,训练集占比约为80%,测试集占比约为20%。在组合模型构建过程中,引入五折交叉验证策略对元模型进行训练,以避免信息泄露并提升模型的泛化能力。所有模型均在相同数据划分与评价指标体系下进行对比分析,以保证实验结果的公平性与可比性。
5.1. 不同模型预测结果对比
为从误差幅度、相对误差及整体预测精度等不同角度评估模型性能,本文采用平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)和预测准确率(Accuracy)作为评价指标,其中Accuracy定义为预测误差小于实际值±10%的样本比例。不同预测模型的玉米产量预测结果对比如表3所示。结果表明,CLT-Net在预测精度和稳定性方面均优于传统单一模型。
Table 3. Comparison of prediction results across different single models
表3. 不同单一预测模型的预测结果对比
模型 |
MAE |
RMSE |
MAPE |
Accuracy |
BP |
265.78 |
267.64 |
13.02% |
86.98% |
SVM |
276.27 |
312.77 |
13.44% |
86.56% |
RF |
729.05 |
730.95 |
35.65% |
64.35% |
DT |
864.75 |
865.59 |
42.31% |
57.69% |
GBDT |
231.57 |
234.12 |
11.66% |
88.34% |
Ridge |
315.93 |
317.15 |
15.45% |
84.55% |
LSTM |
362.67 |
366.27 |
17.15% |
82.85% |
GRU |
278.82 |
279.39 |
14.08% |
85.92% |
XGBoost |
347.55 |
350.16 |
16.98% |
83.02% |
CLT-Net |
185.12 |
198.76 |
8.01% |
90.99% |
5.2. CLT-Net消融实验
对不同预测模型性能进行对比分析,可以看出CLT-Net在玉米产量预测精度和稳定性方面均表现出明显优势。然而,CLT-Net各组成模块对模型性能的具体贡献仍有必要进一步分析和验证。为此开展CLT-Net的消融实验,以系统评估各模块在模型中的作用。
消融实验严格采用与前述实验相同的数据来源、数据预处理方法和评价指标体系,训练集与测试集按照时间顺序进行划分,测试集全部由时间上位于训练集之后的真实样本构成。在模型结构方面,本文构建了四种不同的网络结构用于对比分析:① 完整的CLT-Net模型、② 去除连续小波变换CWT的模型、③ 去除Transformer注意力机制的模型、④ 去除双向长短期记忆网络BiLSTM的模型。除网络结构差异外,其余训练参数设置保持一致,各模型在相同条件下进行训练与测试,消融实验结果如表4所示。
Table 4. Ablation experiment results
表4. 消融实验结果
模型 |
CWT |
CNN |
Transformer |
BiLSTM |
MAE |
RMSE |
MAPE |
Accuracy |
1 |
√ |
√ |
√ |
√ |
185.12 |
198.76 |
8.01% |
90.99% |
2 |
|
√ |
√ |
√ |
271.34 |
274.78 |
14.27% |
85.73% |
3 |
√ |
√ |
|
√ |
268.89 |
307.15 |
12.68% |
87.32% |
4 |
√ |
√ |
√ |
|
698.45 |
704.36 |
25.42% |
74.58% |
综上,去除任一模块后模型预测性能均出现不同程度的下降,表明CLT-Net各组成模块在提升模型预测能力方面均发挥了积极作用,验证了CLT-Net模型结构设计的合理性与有效性。各模块在特征提取、时序建模及关键信息增强等方面相互配合,共同提升了模型在玉米产量预测任务中的表现,为后续引入组合模型与数据增强方法奠定了基础。
5.3. 数据增强对预测性能的影响分析
为验证数据增强方法的有效性,将引入LSTM-CGAN数据增强前后的组合模型预测性能进行对比分析,其结果如表5所示。可以看出,融合数据增强的组合模型在各项评价指标上均取得明显提升,预测准确率由95.09%提升至99.58%,说明数据增强方法在缓解样本不足、提升模型泛化能力方面具有显著效果。由于各评价指标之间差异较为明显,本文采用表格形式对数据增强前后的预测性能进行对比,以便于定量分析模型性能变化。
Table 5. Comparison of ensemble model prediction performance with and without data augmentation
表5. 数据增强前后组合模型预测性能对比
模型 |
MAE |
RMSE |
MAPE |
Accuracy |
CLT-Net + SVM→GBDT |
101.27 |
115.53 |
4.91% |
95.09% |
CGAN: CLT-Net + SVM→GBDT |
8.32 |
8.50 |
0.41% |
99.59% |
6. 结论
本文针对玉米产量预测问题,提出了一种融合深度学习、集成学习与数据增强的组合预测方法。通过构建CLT-Net深度预测模型、改进Stacking组合策略以及引入LSTM-CGAN数据增强方法,有效提升了玉米产量预测的精度和稳定性。实验结果表明,该方法在多项评价指标上均取得了较优表现,可为区域尺度玉米产量预测及农业生产管理提供有效的技术支持,具有一定的实际应用价值。需要指出的是,本文方法主要适用于年度尺度的区域玉米产量预测,对于更高时间分辨率或其他作物类型的适用性仍有待进一步研究。