1. 引言
草原生态系统是许多牧民生活的基础,同时也是我国生态安全和食品安全的重要支柱。近年来,随着我国的生活水平的提高,我国居民在食物方面的消费结构发生了很大的变化,对于肉类的需求开始大量增长 [1]。其中就以内蒙古为例,草牧业快速发展,牲畜数量极具增加,造成草地退化严重。草地退化严重损害草地的生态功能,大大限制了牧区中的畜牧业生产能力,同时随着全球变暖、水资源短缺等情况下,我国的草地资源和保护面临严峻的挑战。草原中的土壤湿度是影响草地生态过程、生态承载能力以及退化后的重建和恢复能力的关键因素之一 [2]。同时还对植物的生长期发育和产量有着直接作用 [3]。故对于草原土壤中湿度预测是十分必要的,对于之后放牧策略调整和草原资源保护都有着十分重要的意义。因此本文根据草原历史湿度数据、草原土壤历史蒸发量和草原历史降水等数据,建立模型对保持当前的放牧策略不变的情况下对2022年、2023年不同土壤深度的湿度进行预测(数据来源于锡林郭勒统计年鉴2012~2021) [4]。
2. 模型建立与求解
本文用到的符号及其含义如表1所示:
2.1. Lasso回归
2.1.1. 共线性分析
首先观察锡林郭勒统计年鉴中的降水数据,发现给定的样本中存在大量为NAN值的变量,这些变量无法进行相应分析预测,故全部删去。之后进行多重共线性分析,多重共线性是指在线性回归模型当中两个或者两个以上的变量具有精确的相关关系或者是有着高度相关关系,这样就会导致模型估计不准确更有甚者会导致模型失真。故要对模型的变量进行共线性分析。对处理后的数据进行初步回归并检查其方差膨胀因子VIF,其方差膨胀因子值远大于10,根据经验规则:若VIF > 10,则认为回归存在严重的多重共线性。
对于具有严重多重共线性的高维数据进行降维可以采用Lasso回归的方法,相比传统的OLS (ordinary least squares)和岭回归,Lasso (Least absolute shrinkage and selection operator)回归可以将与因变量相关性极小的变量的回归系数压缩至零,从而提供一个稀疏解,用此方法筛选出的变量相互独立且具有代表性。并使用K折交叉验证来最小化均方误差。
共线性分析结果见表2所示。

Table 2. Collinear analysis results (part)
表2. 共线性分析结果(部分)
2.1.2. 回归结果
在Lasso回归前,由于数据中各变量的量纲不同,需要对数据进行标准化,通过Matlab进行标准化操作,然后用Stata将处理完的数据不同深度土壤湿度进行Lasso回归。
当调整Lasso回归中的参数于不同的值时,回归系数的结果也会产生很大的不同。这里可以使用K折交叉验证的方法来选择最佳的调整参数,即将样本随机分为K份,先将第一个子样本作为验证集,使用剩下的子样本来估计模型并预测第一个子样本,(计算与其的MSPE值。再将第二个子样本作为验证集,类推下去,通过调整参数,使所有子样本的MSPE值之和达到最小,从而得到最好的预测能力。
表3列出了Lasso回归的部分结果,共计筛选出6个变量,表中第二列为筛选出变量的Lasso回归的系数,其余变量对不同深度土壤湿度的回归系数均为0。表中第三列数据为仅用筛选出的6个变量针对不同深度土壤湿度进行普通最小二乘法回归的系数。
2.2. ARIMA模型
通过对统计数据的分析,得出平均最高气温,平均最低气温,最高气温极值,平均气温 ≤ 0℃的天数,平均海平面气压,平均最大持续风速的六个变量对不同深度土壤湿度的回归系数不为0。

Table 3. Lasso regression results (part)
表3. Lasso回归结果(部分)
故土壤湿度与平均最高气温,平均最低气温,最高气温极值,平均气温 ≤ 0℃的天数,平均海平面气压,平均最大持续风速和土壤蒸发量有关,建立定性的数学模型如下:
(1)
其中
指平均最高气温;
指平均最低气温;
指最高气温极值;
指平均气温 ≤ 0℃的天数;
指平均海平面气压;
指平均最大持续风速;
指土壤蒸发量。
在预测2022年、2023年不同深度土壤湿度时,需要对Lasso回归所筛选变量和土壤蒸发量变量的相应月份数据进行确认,由于材料中并未给定2022年,2023年的相关数据,需要针对以往年月数据进行预测。
往年数据所给定的是以月份为周期,时间序列分析便是根据过去的变化趋势利用统计学方式预测未来,通常符合事物发展的规律;在考虑发展趋势的同时,更注重周期性变化对具体时间点的影响,更加准确;承认随机变量可能对最终结果造成的影响。ARIMA模型是时间序列预测分析方法之一,模型将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列,这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值;其模型简单,仅需要内生变量而不需要借助其他外生变量。
2.2.1. ARIMA建模
通过ARIMA(p, q, d)预测筛选变量和土壤蒸发量变量数据 [5]。其中,p、d和q分别为自回归项数、时间序列成为平稳序列时所做的差分次数和移动平均数。构建ARIMA模型,基于基期(2012~2022年)数据预测(2022~2023年)各个变量相应月份的数据,从经过Lasso回归后(2012~2022年)的数据(平均最高气温,平均最低气温,最高气温极值,平均气温 ≤ 0℃的天数,平均海平面气压,平均最大持续风速,土壤蒸发量)作为ARIMA模型的初始条件,具体逻辑步骤如下:首先,为消除异方差,统计(2012~2022年)各月份变量值并取对数,然后对该时间序列进行平稳性检验,如果检验不平稳,可对原序列进行差分,直至序列平稳。其次,在以上步骤的基础上建立平稳时间序列的基础模型,再根据赤池信息准则选择AIC值最小的基础模型构建相应的ARIMA(p, q, d)模型,用于拟合(2012~2022年)各月份变量值。最后,应用赤池信息准则选择AIC值最小的模型ARIMA(p, q, d),对(2022~2023年)各月份变量值进行预测分析。操作流程如图1。
2.2.2. ARIMA预测结果
针对Lasso回归所筛选变量和土壤蒸发量变量分别进行建模,对于每个模型,预测从所请求估算期范围内的最后一个非缺失值之后开始,并结束于最后一个所有预测变量都有可用的非缺失值的周期,或者在所请求预测期的结束日期结束,以较早者为准。
图2列出了ARIMA预测的结果,共计7个变量预测模型,图中黑直线后表示后续预测数据,从图中可以看出预测线与实测线高度重合,说明ARIMA模型的预测结果十分贴合实际结果。预测结果具有较高可信度。2022年、2023年具体预测结果见表4。

Table 4. ARIMA forecasts results in 2022 and 2023
表4. ARIMA预测2022、2023年结果
2.3. 自适应神经模糊推理系统
根据上述分析所得变量及预测数据结果,对保持目前放牧策略不变情况下对2022年、2023年不同深度土壤湿度进行预测。首先需要建立Lasso回归所筛选变量和土壤蒸发量变量与不同深度土壤湿度的模型,进而通过模型去预测(2022~2023)不同深度土壤湿度数据。
人工神经网络对于处理非线性的问题有很好的效果同时还具有自学习和自适应的能力,但是它不能很好的表现人脑的推理功能,其中的原因之一就是缺少透明度。仅仅模糊系统自身是没有自适应能力的。自适应神经模糊推理系统(ANFIS)融合了神经网络和模糊系统的优点,使得不仅具有自学习,自适应的能力,同时还具有了语言推理的能力,弥补了单一系统的不足。自适应神经模糊推理系统(ANFIS)属于神经模糊系统的一种。同其他神经模糊系统相比,ANFIS具有便捷高效的特点,能处理复杂预测的问题。
2.3.1. ANFIS建模
为了实现T-S模糊模型的学习过程,一般将其转化为一个自适应网络,即ANFIS模型 [6],模型结构如图3。

Figure 3. Adaptive network-based fuzzy inference system (ANFIS)
图3. 自适应神经模糊推理系统(ANFIS)
2.3.2. ANFIS预测结果
建立输入(平均最高气温,平均最低气温,最高气温极值,平均气温 ≤ 0℃的天数,平均海平面气压,平均最大持续风速和土壤蒸发量变量)和输出(不同深度土壤湿度)模型,针对ANFIS模型,其建模数据为(2012~2021年)每个月的检测结果,其训练集、测试集和验证集比例:7:2:1。本次使用模型结构为七个输入一个输出,网络结构见图4所示,针对不同深度土壤湿度(10 cm, 40 cm, 100 cm, 200 cm)分别建立四个模型,以下以10 cm深度土壤湿度建模为例。其模型训练结果如图5所示,模型训练平均误差如表5所示,整体数据集合训练拟合度均在85%以上,该模型较为准确。

Figure 4. Seven input and one output network structure diagram
图4. 七输入一输出网络结构图
(a)
(b)
(c)
Figure 5. Model training results. (a) Training set; (b) Test set; (c) Verification set
图5. 模型训练结果图。(a) 训练集;(b) 测试集;(c) 验证集

Table 5. Model training mean error
表5. 模型训练平均误差
针对ANFIS建立的模型进行预测,其输入为ARIMA模型预测所获得的(2022~2023年)数据,输出为不同深度土壤湿度(10 cm, 40 cm, 100 cm, 200 cm),具体预测结果见图6,具体数据见表6所示。2012~2021年的预测值与实际值重合率很高,故可以认为预测模型是比较准确的,预测值具有较高的可信度。
(a)
(b)
(c)
(d)
Figure 6. Prediction results of soil moisture at different depths. (a) Prediction results of soil moisture at a depth of 10 cm; (b) Prediction results of soil moisture at a depth of 40 cm; (c) Prediction results of soil moisture at a depth of 100 cm; (d) Prediction results of soil moisture at a depth of 200 cm
图6. 不同深度土壤湿度预测结果。(a) 10 cm深度土壤湿度预测结果;(b) 40 cm深度土壤湿度预测结果;(c) 100 cm深度土壤湿度预测结果;(d) 200 cm深度土壤湿度预测结果

Table 6. Prediction results of soil moisture at different depths during 2022~2023
表6. 2022~2023年不同深度土壤湿度预测结果
3. 结论
本文发现提供的数据具有较强的共线性,通过Lasso回归的方法对参数进行降维,在预测2022年、2023年不同深度土壤湿度时,材料中并未给定相关数据,需要ARIMA时间序列方法对以往年月数据进行预测。通过ARIMA模型预测所筛选的主变量和土壤蒸发量在2022~2023年的数据。建立输入(Lasso回归所筛选变量和土壤蒸发量变量)和输出(不同深度土壤湿度) ANFIS模型,对往年所测数据进行训练且整体数据集合训练拟合度均在85%以上,该模型较为准确。通过ARIMA模型预测得到的相关参数数据去预测2022年、2023年不同深度土壤湿度。本研究对于以后放牧策略的变化和草原生态系统的保护具有重要意义。