1. 引言
近年来,我国乡村耕地资源因城市化进程加速而持续缩减,传统种植模式面临收益不稳定与资源浪费的双重挑战。现有研究多集中于单一目标优化,缺乏对多因素耦合影响的系统性分析。本文在2024年全国大学生数学建模竞赛C题背景下,以某华北乡村为研究对象,基于2023年种植数据,构建包含收益、风险与可持续性指标的多目标优化模型。通过改进遗传算法与NSGA-II算法,解决了传统方法易陷入局部最优的缺陷;结合正交实验与贝叶斯调参,显著提升了模型在不确定性环境下的适应性。研究成果可为乡村经济可持续发展提供理论支持[1]。
2. 数据预处理
数据来源于2024年全国大学生数学建模竞赛C题。首先对原始数据进行清洗,剔除重复记录并填补缺失值。数据清洗过程中,针对极端异常值的处理采用箱线图统计法,并结合具体情况进行分类处理。
具体操作如下:首先,计算各变量的第一四分位数(Q1)、第三四分位数(Q3)和四分位距(IQR = Q3 − Q1)。定义异常值为小于Q1 − 1.5IQR或大于Q3 + 1.5IQR的数据点。绘制箱线图(见图1)可视化各农作物销售单价、亩产量及种植成本的分布。
对于识别出的异常值,采用以下分类处理策略:通过溯源原始数据或参考相邻区域数据进行修正;保留数据但标注为特殊事件,后续模型中加入气候风险因子以反映此类不确定性;采用Winsorize缩尾法,将超出1%和99%分位数的值替换为边界值,避免直接剔除导致信息损失;使用中位数替换法进行修正,以避免信息丢失。如,在处理亩产量数据时,通过该方法修正了5.2%的异常值,确保数据集的稳健性。
在处理亩产量数据时,首先通过箱线图识别出异常值,然后根据上述分类处理策略进行处理。对于极端气候导致的真实异常,我们保留了数据并标注为特殊事件;对于无明确原因的统计异常,我们采用了Winsorize缩尾法;对于合理范围内的极端值,我们使用了中位数替换法,最终修正了5.2%的异常值,确保数据集的稳健性。对于缺失值占比低于5%的特征,采用KNN插值法进行填充;对于缺失比例较高的特征(如极端天气导致的局部数据缺失),结合同区域历史数据进行线性插值补充。
通过以上数据清洗和异常值处理步骤,我们有效地提高了数据的质量和稳健性,为后续的模型构建和分析奠定了坚实的基础。
Figure 1. Each crop sales unit price, per mu yield and planting cost box diagram
图1. 各农作物销售单价、亩产量及种植成本箱线图
3. 问题一:不同超产处理方式的最优种植方案(2024~2030)
在构建一个基于改进后的遗传算法(Genetic Algorithm, GA)模型时,通常会考虑多个方面来优化标准遗传算法的性能,包括选择策略、交叉操作、变异操作、适应度函数的设计以及引入新的遗传算子(如迁移、精英保留等)。通过一系列公式和文本描述来详细阐述这样一个模型。
3.1. 模型超参数贝叶斯调参
模型优化过程中,采用高斯过程贝叶斯优化算法对遗传算法参数(如交叉概率、变异概率、种群规模)进行调优[2]。具体步骤如下:
1) 代理模型选择:采用高斯过程(Gaussian Process, GP)作为目标函数的代理模型,通过核函数(Matérn 5/2)捕捉超参数间的非线性关系。
2) 先验分布设定:
种群大小(N):离散均匀分布U{50, 200},覆盖合理的种群规模范围。
交叉概率(Pc):Beta分布B(2, 5),偏向较低概率以控制过早收敛,同时允许一定程度的探索。
变异概率(Pm):Gamma分布Γ(2, 0.1),鼓励小幅变异以维持种群多样性,同时避免过大变异导致的稳定性问题。
3) 目标函数定义:以5折交叉验证的平均利润作为评估指标,通过最小化负对数边际似然函数构建代理模型,迭代搜索最优参数组合。
4) 采集函数优化:采用期望改进(Expected Improvement, EI)平衡探索与利用,迭代20次后超参数收敛。
经过20轮迭代,模型在测试集上的利润预测误差降低了18.7%,同时超体积指标(Hypervolume)提升了18.7%,Pareto前沿分布更均匀。这些结果验证了贝叶斯调参在提升模型泛化能力和多目标优化性能方面的有效性。
3.2. 基本步骤
1) 初始化种群
首先,需要随机生成一个初始种群
,种群大小为
,每个个体
表示为一个基因序列(通常是二进制串或实数向量)。
(1)
2) 适应度函数
适应度函数用于评估个体的优劣,是遗传算法优化的目标。根据具体问题,适应度函数的设计各不相同。
(2)
3) 选择操作
选择操作基于个体的适应度进行,有多种策略,如轮盘赌选择、锦标赛选择等。这里以轮盘赌选择为例,个体
被选中的概率为:
(3)
4) 交叉操作
交叉操作(又称杂交)是遗传算法中产生新个体的主要手段。对于二进制编码,常用的交叉方式有单点交叉、多点交叉等。以单点交叉为例,随机选择一个交叉点
,交换两个父代
和
在交叉点后的基因序列:
(4)
对于实数编码,可能采用算术交叉:
(5)
其中,
是一个介于0和1之间的随机数。
5) 变异操作
变异操作以较小的概率
改变个体中的某些基因,以增加种群的多样性。对于二进制编码,变异操作可以简单地翻转某些基因的值。
(6)
对于实数编码,可能采用高斯变异:
(7)
其中,
是变异步长,
是标准正态分布随机数。
6) 精英保留策略
精英保留策略是将当前种群中适应度最高的个体直接复制到下一代种群中,以避免优秀个体在遗传操作中丢失。
(8)
其中,
是经过选择、交叉、变异后产生的新个体集合,“Elite”函数用于选择精英个体。
7) 终止条件
遗传算法通常运行到满足某个终止条件为止,如达到最大迭代次数
,或适应度函数值达到预设阈值。
(9)
3.3. 模型求解结果
曲线在420次迭代之后曲线趋于平稳,逐渐接近问题的最优解,由此可见算法避免陷入局部最优解,进而求得全局较优解。
情况1下各作物的产量和种植面积如下图2、图3所示(情况2见附录图S1)。
Figure 2. Situation 1 production of each crop
图2. 情况1各作物产量
Figure 3. Situation 1 planting area of each land
图3. 情况1各土地种植面积
4. 问题二:考虑预期销售、亩产、成本、价格及风险的最优种植方案(2024~2030)
4.1. 基于正交数组设计不确定性检验方案
对问题二中各种农作物不确定性的变化进行总结,得到的结果如下表1所示。
Table 1. Uncertain changes of various crops
表1. 各种农作物不确定性变化情况
种类 |
变化范围 |
小麦、玉米预期销售量年增长率 |
5%~10% |
除小麦、玉米外农作物销售量 |
±5% |
农作物亩产量 |
10% |
种植成本平均年增长率 |
5% |
蔬菜类作物销售价格年增长率 |
5% |
除羊肚菌外食用菌销售价格年缩减率 |
1%~5% |
羊肚菌销售价格年缩减率 |
5% |
正交实验法是一种设计实验的方法,目的是同时考虑多个因素对实验结果的影响,以确定各个因素之间的相互作用和最优的因素组合。其特点是通过有限次试验来获得全面和可靠的信息。它基于正交表,将多个因素的不同水平进行组合,保证各个因素之间相互独立,以避免因素间的干扰。通过改变不同因素的水平,可以观察和测量不同因素对实验结果的影响,进而确定最优的因素组合。
正交实验法的核心是正交表,正交表L由三个要素组成,其数学表达式为
,其中s为输入因素的个数,q为每个因素实验点的个数,n为实验总个数。对于本文中农作物不确定性变化情况,可以使用正交实验法中的正交数组来构建实验矩阵。为了控制实验的次数,采用L16(215)正交数组对农作物各种变化因素进行评估,得到正交实验方案。
4.1.1. 风险与可持续性指标的量化方法
在构建双目标优化模型前,需对风险和可持续性指标进行量化:
1) 风险指标
通过产量波动率和市场价格波动系数综合评估,计算公式为:
,其中产量变异系数为各作物近5年产量的标准差与均值之比(反映产量稳定性),价格波动标准差为销售价格的年际波动幅度(通过历史数据计算得到)。
2) 可持续性指标
包含土壤肥力指数和生态负荷指数,计算公式为:
,其中土壤肥力指数通过有机质含量、pH值、全氮含量等实测数据标准化后加权求和,权重分别为0.5、0.3、0.2。生态负荷指数对农药使用量、水资源消耗量进行逆向标准化(数值越大表示负荷越低),反映种植活动对环境的影响。
4.1.2. 指标权重的确定方法
采用层次分析法(AHP) [3]确定收益、风险、可持续性指标的权重,具体步骤如下:
1) 构建层次结构:
目标层:最优种植方案;
准则层:收益、风险、可持续性;
指标层:销量、价格、产量波动率等(见4.1.1节)。
2) 专家打分与判断矩阵:
邀请5位农业经济、土壤生态领域专家,对准则层指标进行两两比较,形成判断矩阵。例如,收益与风险的重要性比为3:1 (收益更重要),收益与可持续性的重要性比为2:1,风险与可持续性的重要性比
为1:1,构建初始判断矩阵A:
。
3) 权重计算与一致性检验:
通过特征值法计算权重向量,得到收益、风险、可持续性的权重分别为0.549、0.238、0.213。
计算一致性指标
,随机一致性指标
(0.3时),一致性比率
,一致性检验,权重有效。
最终权重分配:收益权重 = 0.55,风险权重 = 0.24,可持续性权重 = 0.21。
该权重体系体现了在保障收益的前提下,平衡风险控制与生态可持续性的目标。
4.2. 建立双目标优化模型
1) 确定目标函数
以最大化收益及最大化所有正交实验情况中最小利润为目标,可得目标函数如下:
其中,H为所有正交情况中的平均利润,
为第n年的收入,
为第n年的支出。
第n年的收入及第n年的支出计算公式如下:
其中,
为第n年的第d季作物q的销售价格,
为第m地块在第n年的第q季种植的作物q的成本。
2) 确定决策变量和约束条件
决策变量即为
,代表第m地块在第n年的第d季种植的作物q的亩数,其余约束条件与问题一保持一致。
3) 双目标线性规划模型
综上所述,对上述步骤进行汇总得到双目标线性规划模型为:
(10)
4.3. 基于NSGA-Ⅱ算法求解模型
NSGA-II算法旨在解决多目标优化问题,这类问题通常涉及多个相互冲突或竞争的目标,需要在这些目标之间找到最佳的权衡解。该算法通过结合遗传算法的原理和方法,并引入非支配排序和拥挤度分配的策略,以寻找Pareto前沿解[4]。其算法流程图如下图4所示。
Figure 4. Flowchart of NSGA-Ⅱ algorithm
图4. NSGA-Ⅱ算法流程图
4.4. 模型求解结果
经过450次迭代以后,收敛曲线逐渐趋于平稳,最终利润的收敛值稳定在18,000,000左右。最后得到该乡村2024~2030年农作物的最优种植方案,对结果做可视化处理得到各农作物产量图及各耕地种植面积图,如图5、图6所示。
Figure 5. Map of crop yields of each crop in 2024~2030
图5. 2024~2030年各农作物产量图
Figure 6. Map of planting area of each cultivated land in 2024~2030
图6. 2024~2030年各耕地种植面积图
5. 问题三:综合因素下的最优种植方案
5.1. 可替代性和K-S检验
在日常生活中,农作物间均存在着一定的可替代性与互补性,在选择种植农作物的种类时,应当考虑这种特性,从而使得收益最大化。
1) 可替代性
其中,
和
为第i年第j个季度两种存在替代关系的农作物。
2) 互补性
具有互补性的农作物间可以进行捆绑销售,即:一方销量上升时另一方销量也会随之上升,令
表示两者间互补销售的互补因子。则:
Table 2. K-S tests the normality of the index
表2. K-S检验指标正态性
指标 |
显著性(P) |
销量 |
3.1768E−7 |
售价 |
7.6122E−25 |
成本 |
0.000075 |
由表2可知,销量、售价和成本的P值均小于0.05,故均不服从正态分布。由于皮尔逊相关系数要求指标数据必须服从正态分布,故只能使用斯皮尔曼相关系数。
5.2. 多元非线性回归模型的求解
5.2.1. 差分进化算法优化模型求解
差分进化算法(Differential Evolution)是一种有效的全局优化算法,特别适用于实数编码的优化问题。其基于群体智能和遗传算法的思想,通过变异、交叉和选择三个基本操作来迭代优化问题的解。
变异操作:
(11)
其中,
是变异因子,
是随机索引且互不相同且不等于i。
交叉操作:
(12)
其中,
是交叉概率,
是随机选择的维度索引。
选择操作:
(13)
变种和扩展公式
DE/best变异策略:
(14)
其中,
是当前种群中的最佳个体。
DE/current-to-best变异策略:
(15)
DE/rand-to-best变异策略:
(16)
自适应变异因子F:
可以在每一代根据种群多样性或收敛速度动态调整F。
例如,使用简单的线性递减策略:
(17)
经过800次迭代后,获得较好的
组合,如下表3所示。
Table 3. Parameter solution table
表3. 参数求解表
参数 |
结果 |
|
899.584587448924 |
|
31205.5445145548 |
|
1.97315252258456 |
|
1.40145625662563 |
|
39201.8155645556 |
|
423.558881486548 |
|
39.5617742699256 |
5.2.2. 多元非线性回归模型的求解
Figure 7. Multivariate nonlinear regression model convergence curve
图7. 多元非线性回归模型收敛曲线
由于获得了销量、售价和成本三者间的关系式,针对问题二进行改进,通过销售价格和种植成本计算预期销售量,从而为农作物的种植提供科学指南。模型的迭代过程如图7所示。
当迭代次数达到260次时,曲线开始趋于平缓,模型逐渐靠近最优解。
将求得的结果进行可视化,如图8、图9所示。
与问题二的柱状图进行对比可知,加入农作物间的可替代性和互补性后,种植方案更加合理,能够保证农民的最大收益。
Figure 8. Histogram of planting area of each block in 2024~2030
图8. 2024~2030年各地块种植面积柱状图
Figure 9. Histogram of yields of each crop in 2024~2030
图9. 2024~2030年各农作物产量柱状图
6. 模型评价与推广
6.1. 模型评价
6.1.1. 优点
1) 改进后的遗传算法模型能够跳出局部最优解搜索全局最优解,并且对初始种群和参数设置不敏感,具有较好的稳定性。
2) 贝叶斯算法能够根据已有的观察结果调整搜索空间,能够快速找到较好的模型超参数。
3) NSGA-II算法保证了优秀个体保留的同时,降低计算的复杂度,提高搜索效率,并且能够保持种群的多样性,有利于全局搜索。
6.1.2. 缺点
1) 当种群规模较大、目标函数较多时,NSGA-Ⅱ算法计算成本仍然较高。
2) 多元非线性回归模型可能非常复杂,难以解释和应用,特别是对于大规模数据集,计算成本可能很高。
6.2. 模型推广
基于多目标优化和改进的遗传算法,能够有效地处理包含多个相互冲突目标的复杂决策问题,并在不确定性的条件下寻求最优解。可用其做社会生产中的经济发展规划或结构优化等,例如生产与供应链优化、金融投资、城市规划与交通管理等。
附 录
Figure S1. Complete chart of Situation 2 in Question 1
图S1. 问题一情况2完整图