深度集成框架的玉米产量预测
Corn Yield Prediction with a Deep Ensemble Framework
摘要: 玉米产量预测对农业生产决策与粮食安全保障具有重要意义。针对传统机器学习模型在农业时间序列预测中对非线性特征和长期依赖关系建模能力不足,以及农业统计数据样本规模有限等问题,本文以河北省玉米产量数据为预测对象,构建了一种融合深度学习与集成学习的玉米产量预测方法。首先,采用灰色关联分析、多元相关系数分析及机器学习特征筛选方法,对玉米产量影响因素进行综合评估;在此基础上,提出一种融合连续小波变换(CWT)、卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)和Transformer注意力机制的深度预测模型,下文简称为CLT-Net。引入残差感知动态权重机制的Stacking组合预测模型,并结合LSTM优化的条件生成对抗网络(LSTM-CGAN)对训练样本进行数据增强。实验结果表明,与BP神经网络、支持向量机等传统模型相比,CLT-Net在预测精度和稳定性方面均具有明显优势;融合LSTM-CGAN数据增强的组合模型预测准确率最高可达99.58%。研究结果表明,所提出的方法在玉米产量预测中具有较好的预测性能和稳定性。
Abstract: Maize yield prediction plays an important role in agricultural production decision-making and food security assurance. To address the limitations of traditional machine learning models in modeling nonlinear characteristics and long-term dependencies in agricultural time series, as well as the problem of limited agricultural statistical samples, this study takes maize yield data from Hebei Province as the research object and develops a maize yield prediction method integrating deep learning and ensemble learning. First, the influencing factors of maize yield are comprehensively evaluated using grey relational analysis, multivariate correlation analysis, and machine learning–based feature selection methods. On this basis, a deep prediction model integrating continuous wavelet transform (CWT), convolutional neural networks (CNN), bidirectional long short-term memory networks (BiLSTM), and a Transformer attention mechanism is proposed, hereinafter referred to as CLT-Net. Furthermore, a Stacking ensemble prediction model with a residual-aware dynamic weighting mechanism is introduced, and an LSTM-optimized conditional generative adversarial network (LSTM-CGAN) is employed to augment the training samples. Experimental results show that, compared with traditional models such as backpropagation neural networks and support vector machines, CLT-Net exhibits significantly superior prediction accuracy and stability. The ensemble model combined with LSTM-CGAN-based data augmentation achieves a maximum prediction accuracy of 99.58%. The results indicate that the proposed method demonstrates strong predictive performance and robustness in maize yield prediction.
文章引用:许帆. 深度集成框架的玉米产量预测[J]. 计算机科学与应用, 2026, 16(2): 358-365. https://doi.org/10.12677/csa.2026.162065

1. 引言

玉米是我国重要的粮食作物和饲料作物,其产量水平直接关系到农业生产决策、粮食安全保障以及区域农业经济的稳定发展。受气候条件、农业投入水平和生产管理方式等多种因素的综合影响,玉米产量时间序列往往呈现出显著的非线性特征和复杂的时序波动规律,这在一定程度上增加了产量预测的难度[1]

近年来,BP神经网络、支持向量机、随机森林等传统机器学习方法被广泛应用于作物产量预测研究,在多特征建模和非线性回归方面取得了一定成效。然而,此类方法通常依赖人工特征构造,对时间序列中长期依赖关系和多尺度变化特征的刻画能力有限,在复杂农业系统建模中仍存在一定局限性。随着深度学习技术的发展,长短期记忆网络(LSTM)和Transformer等模型在时间序列预测领域表现出较强优势,能够有效捕捉序列中的长期依赖关系和关键时刻特征,为作物产量预测提供了新的研究思路[2]

尽管深度学习模型在理论上具有更强的特征表达能力,但在农业统计数据场景下仍面临两方面挑战:一是农业产量数据通常具有非平稳性和多尺度波动特征,单一时域建模方式难以充分挖掘其潜在信息;二是农业统计数据样本规模有限,深度模型参数较多,容易出现过拟合问题,从而影响模型的泛化性能[3]。此外,单一预测模型在复杂系统建模中往往难以兼顾预测精度与稳定性,限制了其在实际农业生产中的应用效果[4]

针对上述问题,本文构建了一种融合时频分析、深度学习与集成学习的玉米产量预测方法。首先,通过引入连续小波变换对原始时间序列进行多尺度分解,并结合卷积神经网络、双向长短期记忆网络和Transformer注意力机制,构建CLT-Net深度预测模型,以增强对玉米产量时间序列多尺度特征和长期依赖关系的建模能力。在此基础上,为进一步提升模型的泛化性能和预测稳定性,引入改进的Stacking组合预测策略,通过融合多模型优势实现性能互补。同时,针对农业样本规模有限的问题,采用LSTM优化的条件生成对抗网络(LSTM-CGAN)对训练样本进行数据增强,以缓解小样本对深度模型训练的不利影响。通过上述方法的协同作用,实现对玉米产量的高精度预测,为区域尺度农业生产决策提供技术支持。

2. 数据来源与特征分析

2.1. 数据来源与预处理

本文数据来源于国家统计年鉴,选取我国31个省(自治区、直辖市) 1982~2023年的农业相关统计数据,共计1302条样本,选取31个省份的面板数据构建预测模型,以河北省作为重点研究区域,对模型预测性能进行验证与分析包含农业机械总动力、农业总产值、有效灌溉面积、玉米播种面积、单位面积产量等12类变量。

为保证数据质量,对原始数据进行了系统预处理,处理后的数据如表1所示。首先,对数据进行重复值检测与异常值处理;其次,采用线性插值方法填补缺失值;最后,通过标准化与归一化处理消除量纲差异,为后续模型训练提供统一的数据输入[5]

Table 1. Partial presentation of the preprocessed data

1. 预处理后的部分数据展示

年份

省份

农业机械总动力

(万千瓦)

农业总产值

(亿元)

有效灌溉面积

(千公顷)

单位面积产量

(公斤/公顷)

玉米播种面积

(千公顷)

玉米产量

(万吨)

1982

河北省

1355.53

96.21

3561.13

3496.8

2073.3

725

1983

河北省

1578.53

117.55

3576.6

3449.7

2001.6

690.5

1984

河北省

1830.29

126.49

3584.8

3523.2

1816.5

640

……

2021

河北省

8096.81

3413.34

3952.24

5983.51

3454.11

2066.77

2022

河北省

8249.08

3645.02

4102.86

6061.3

3455.87

2094.7

2023

河北省

8403.77

4035.67

4122

5902.1

3442.24

2014.28

2.2. 玉米产量影响因素分析

为避免不相关或弱相关变量对预测模型性能产生干扰,本文采用灰色关联分析(GRA)、Pearson相关系数、Spearman相关系数、Kendall相关系数、Lasso回归及方差膨胀因子(VIF)分析等多种方法,对玉米产量影响因素进行综合评估。各方法结果经加权汇总后,得到影响因素的综合相关度[6]。通过综合多种相关性分析方法,可从不同角度刻画影响因素与玉米产量之间的关系,从而提高特征筛选结果的可靠性与稳定性。

为直观展示不同因素与玉米产量之间的相关性关系,将主要影响因素的相关性结果进行可视化,如表2所示。结果表明,单位面积产量、有效灌溉面积、化肥施用量和机械总动力等因素与玉米产量具有较强相关性,为后续CLT-Net深度模型及组合预测模型提供统一的输入特征空间。

Table 2. Correlation degree of each factor

2. 各因素相关度

影响因素

单位面积产量

有效灌溉面积

化肥施用量

农村用电量

机械总动力

受灾面积

相关度

0.854

0.794

0.778

0.772

0.756

0.666

影响因素

成灾面积

玉米播种面积

农业总动力

乡村人口

农业总产值

相关度

0.609

0.609

0.603

0.601

0.361

3. 玉米产量预测模型构建

3.1. 单一预测模型

为全面评估不同模型在玉米产量预测任务中的表现,并为后续组合模型与深度预测模型的构建提供对比基线,本文选取多种具有代表性的单一预测模型进行建模与分析。这些模型既包括传统机器学习方法,也包括近年来广泛应用于时间序列预测的深度学习模型。

在传统机器学习模型方面,本文构建了多元线性回归、BP神经网络、支持向量机(SVM)、随机森林(RF)、决策树(DT)、梯度提升决策树(GBDT)以及岭回归(Ridge)等模型。上述模型在处理非线性关系和多特征回归问题方面具有一定优势,已被广泛应用于农业预测研究[7]

在主流时序预测模型方面,进一步引入长短期记忆网络(LSTM)和门控循环单元(GRU)作为深度学习基线模型,以增强对时间序列长期依赖关系的建模能力[8]。同时,考虑到XGBoost在非线性建模和特征交互方面的优异表现,构建经超参数调优的XGBoost模型作为对比模型。

所有单一预测模型均在相同的数据划分方式、输入特征和预处理流程下进行训练与测试,并采用统一的评价指标体系进行性能评估,以保证模型对比结果的公平性与可比性[9]。通过上述单一模型的对比分析,为后续CLT-Net深度预测模型及组合预测模型的性能提升提供参考依据。然而,上述模型在多尺度特征融合和长期依赖建模方面仍存在局限,为此有必要构建更具表达能力的深度预测模型。

3.2. CLT-Net深度预测模型

为提升农业时间序列预测的准确性与稳定性,本文提出一种融合连续小波变换、卷积神经网络、双向LSTM与Transformer注意力机制的深度预测模型(CLT-Net),其结构如图1所示。

CLT-Net首先利用连续小波变换对原始时间序列进行多尺度分解,以提取不同频段特征;随后通过CNN对局部特征进行提取;再由BiLSTM捕获时间序列的双向依赖关系;最后引入Transformer注意力机制增强模型对关键信息的关注能力,并通过全连接层输出玉米产量预测结果[10]

Figure 1. Schematic architecture of the CLT-Net deep prediction model

1. CLT-Net深度预测模型结构示意图

4. 组合预测模型与数据增强

4.1. 改进Stacking组合预测模型

Figure 2. Schematic structure of the improved Stacking ensemble prediction model

2. 改进Stacking组合预测模型结构

为进一步提升预测精度和模型稳定性,基于Stacking集成思想构建组合预测模型,其整体结构如图2所示。模型在基学习器层选取多种性能互补的预测模型,在元学习器层引入残差感知的动态权重分配机制,并结合五折交叉验证以避免信息泄露,从而提高模型的泛化能力[11]

4.2. LSTM-CGAN数据增强方法

针对农业样本规模有限的问题,引入LSTM优化的条件生成对抗网络(LSTM-CGAN)对训练样本进行数据增强,LSTM-CGAN并非独立预测模型,而是一种用于缓解小样本问题的训练数据增强策略,其网络结构如图3所示。其中,生成器采用双向LSTM提取条件变量的时序特征,判别器通过LSTM网络对生成样本与真实样本进行区分。通过对生成样本进行筛选与融合,将增强数据引入组合模型训练过程。在数据增强过程中,通过限制生成样本的取值范围并结合判别器判别结果对生成数据进行筛选[12],以保证增强样本在统计分布和时序特征上与真实数据保持一致。

为严格规范数据增强实验流程并防止数据泄露,本文对LSTM-CGAN的训练与数据使用过程进行了明确约束和规范化设计。具体而言,LSTM-CGAN模型仅基于训练集数据进行训练,生成的合成样本仅用于扩充训练集,不参与测试集的构建与评估。

在实验过程中,首先按照时间顺序对原始数据进行划分,构建训练集和测试集,其中测试集完全由时间上位于训练集之后的真实样本组成,严格满足时间序列预测中“样本外预测”的基本要求。随后,仅使用训练集数据对LSTM-CGAN模型进行训练,并基于该模型生成合成样本以扩充训练集规模。模型测试阶段所使用的数据全部为原始真实观测数据,未引入任何生成样本,且生成数据在整个测试阶段均不可见,从而从实验设计层面彻底避免了数据泄露问题。上述流程确保了模型预测性能评估结果的可靠性与客观性。

Figure 3. Structure of the LSTM-CGAN data augmentation model: generator and discriminator

3. LSTM-CGAN数据增强模型结构:生成器、判别器

5. 实验结果与分析

在实验过程中,采用历史数据构建训练集与测试集,其中训练集与测试集按时间顺序划分,训练集占比约为80%,测试集占比约为20%。在组合模型构建过程中,引入五折交叉验证策略对元模型进行训练,以避免信息泄露并提升模型的泛化能力。所有模型均在相同数据划分与评价指标体系下进行对比分析,以保证实验结果的公平性与可比性。

5.1. 不同模型预测结果对比

为从误差幅度、相对误差及整体预测精度等不同角度评估模型性能,本文采用平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)和预测准确率(Accuracy)作为评价指标,其中Accuracy定义为预测误差小于实际值±10%的样本比例。不同预测模型的玉米产量预测结果对比如表3所示。结果表明,CLT-Net在预测精度和稳定性方面均优于传统单一模型。

Table 3. Comparison of prediction results across different single models

3. 不同单一预测模型的预测结果对比

模型

MAE

RMSE

MAPE

Accuracy

BP

265.78

267.64

13.02%

86.98%

SVM

276.27

312.77

13.44%

86.56%

RF

729.05

730.95

35.65%

64.35%

DT

864.75

865.59

42.31%

57.69%

GBDT

231.57

234.12

11.66%

88.34%

Ridge

315.93

317.15

15.45%

84.55%

LSTM

362.67

366.27

17.15%

82.85%

GRU

278.82

279.39

14.08%

85.92%

XGBoost

347.55

350.16

16.98%

83.02%

CLT-Net

185.12

198.76

8.01%

90.99%

5.2. CLT-Net消融实验

对不同预测模型性能进行对比分析,可以看出CLT-Net在玉米产量预测精度和稳定性方面均表现出明显优势。然而,CLT-Net各组成模块对模型性能的具体贡献仍有必要进一步分析和验证。为此开展CLT-Net的消融实验,以系统评估各模块在模型中的作用。

消融实验严格采用与前述实验相同的数据来源、数据预处理方法和评价指标体系,训练集与测试集按照时间顺序进行划分,测试集全部由时间上位于训练集之后的真实样本构成。在模型结构方面,本文构建了四种不同的网络结构用于对比分析:① 完整的CLT-Net模型、② 去除连续小波变换CWT的模型、③ 去除Transformer注意力机制的模型、④ 去除双向长短期记忆网络BiLSTM的模型。除网络结构差异外,其余训练参数设置保持一致,各模型在相同条件下进行训练与测试,消融实验结果如表4所示。

Table 4. Ablation experiment results

4. 消融实验结果

模型

CWT

CNN

Transformer

BiLSTM

MAE

RMSE

MAPE

Accuracy

1

185.12

198.76

8.01%

90.99%

2

271.34

274.78

14.27%

85.73%

3

268.89

307.15

12.68%

87.32%

4

698.45

704.36

25.42%

74.58%

综上,去除任一模块后模型预测性能均出现不同程度的下降,表明CLT-Net各组成模块在提升模型预测能力方面均发挥了积极作用,验证了CLT-Net模型结构设计的合理性与有效性。各模块在特征提取、时序建模及关键信息增强等方面相互配合,共同提升了模型在玉米产量预测任务中的表现,为后续引入组合模型与数据增强方法奠定了基础。

5.3. 数据增强对预测性能的影响分析

为验证数据增强方法的有效性,将引入LSTM-CGAN数据增强前后的组合模型预测性能进行对比分析,其结果如表5所示。可以看出,融合数据增强的组合模型在各项评价指标上均取得明显提升,预测准确率由95.09%提升至99.58%,说明数据增强方法在缓解样本不足、提升模型泛化能力方面具有显著效果。由于各评价指标之间差异较为明显,本文采用表格形式对数据增强前后的预测性能进行对比,以便于定量分析模型性能变化。

Table 5. Comparison of ensemble model prediction performance with and without data augmentation

5. 数据增强前后组合模型预测性能对比

模型

MAE

RMSE

MAPE

Accuracy

CLT-Net + SVM→GBDT

101.27

115.53

4.91%

95.09%

CGAN: CLT-Net + SVM→GBDT

8.32

8.50

0.41%

99.59%

6. 结论

本文针对玉米产量预测问题,提出了一种融合深度学习、集成学习与数据增强的组合预测方法。通过构建CLT-Net深度预测模型、改进Stacking组合策略以及引入LSTM-CGAN数据增强方法,有效提升了玉米产量预测的精度和稳定性。实验结果表明,该方法在多项评价指标上均取得了较优表现,可为区域尺度玉米产量预测及农业生产管理提供有效的技术支持,具有一定的实际应用价值。需要指出的是,本文方法主要适用于年度尺度的区域玉米产量预测,对于更高时间分辨率或其他作物类型的适用性仍有待进一步研究。

参考文献

[1] 付海美, 马巧云, 张春梅, 等. 基于气象数据的东北三省玉米产量预测[J]. 农业展望, 2024, 20(9): 40-48.
[2] 李培, 张莉, 许莉. 基于Transformer-LSTM的农产品产量预测[J]. 现代农业科技, 2026(1): 167-170.
[3] Raza, A., Miao, Y.X., et al. (2025) Optimizing On-Farm Corn Yield Prediction by a Multi-Source Data Fusion Approach Using Remote Sensing and Machine Learning. Smart Agricultural Technology, 12, Article ID: 101630. [Google Scholar] [CrossRef
[4] Hukare, V. and Kumbhar, V. (2025) Optimization of Feature Selection Methods to Improve the Performance of Machine Learning Models for Crop Yield Prediction. ES Food & Agroforestry, 20, Article 1474.
[5] 孙伟健, 武丽媛, 赵喜清, 等. 多源数据融合的张家口地区芸豆产量预测研究[J]. 信息技术与信息化, 2025(11): 140-144.
[6] 曾健铭, 李玥, 魏霖静, 等. 基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究[J]. 智能计算机与应用, 2024, 14(2): 166-171.
[7] 庞兰苏, 王杨, 蒋薇, 等. 基于机器学习的短生产周期碳酸盐岩气井产量预测研究[J]. 特种油气藏, 2023, 30(2): 134-141.
[8] 李长军, 李秀珍, 石军, 等. 日照市玉米产量的预测模型构建[J]. 湖北农业科学, 2019, 58(5): 101-103.
[9] 黄灿, 田冷, 王恒力, 等. 基于条件生成式对抗网络的油藏单井产量预测模型[J]. 计算物理, 2022, 39(4): 465-478.
[10] 林霞, 武博宇, 王洪亮, 等. 基于机器学习的油田产量预测的方法比较[J]. 信息系统工程, 2019(8): 120-122.
[11] 王宏轩, 于珍珍, 李海亮, 等. 基于GA-BP神经网络的鲜食玉米产量预测[J]. 中国农机化学报, 2025, 45(6): 156-162.
[12] 刘月峰, 刘世峰, 张振荣. 基于StaMaLSTM和多源数据的玉米产量预测[J]. 中国农机化学报, 2025, 46(9): 81-90.