1. 引言
降水量对农业生产及重大旱涝灾害的产生起着十分重要的作用。但气象条件具有复杂性、多样性和不可预知性,导致降水量在不同地区和不同时间的不均衡性。因此精确的降水量的预报对农业生产和旱涝灾害的控制非常重要。自从1999年冯耀龙等 [1] 首次在我国提出加权马尔可夫链预测的概念以来,国内很多学者利用加权马尔可夫链预测模型成功的对不同地区降雨量进行了预测 [2] - [10] 。
加权马尔可夫链预测模型是一个步骤清楚、计算方便且客观可靠的方法,值得深入研究和推广。本文从上海气象局官网选取了上海地区1970~2020年51年的年降水量数据为样本降水序列,采用均值-标准差分级法,根据上海地区降水量特点,建立了适用于上海地区年降雨量的分级标准,并用加权马尔可夫链对上海地区的2021和2022年的年降雨量状态进行了预测。预测结果所在的状态跟真实的降水量所在的状态一致。再结合模糊集理论的级别特征值,对降水量做了具体预测。结果显示跟真实值相比,平均误差为4.5%,预测精度较高。
2. 加权马尔可夫模型
马尔可夫过程是一类随机过程,是研究事物的状态和状态转移规律的理论。由俄国数学家A. A. 马尔可夫于1907年提出。它通过不同状态的初始概率和状态之间的转移概率来确定状态的变化趋势,从而达到预测的目的。马尔可夫链具有无后效性特征,这也被后人称为马尔可夫性(“马氏性”)。马尔科夫链预测模型的基本原理。先分别依据前面若干年降水量所对应的状态对某时段的状态做预测,然后按照前面各时段与该时段相关关系的强弱对转移概率进行加权求和。
3. 计算步骤
3.1. 样本分组(均值–均方差法)
上海地区1970~2020年的年平均降水量数据
的样本均值和样本均方差分别为
,
。以样本均值
为中心,将数据序列分成如下五组(本均值–均方差(标准差)分组法)
根据上海地区降水量特点,取
。依据上面的样本均值–均方差分组法将1970~2020年的年降水量分为5个等级(组),分别为丰涝年、偏丰年、正常年、偏旱年、干旱年,具体分级情况见下表1。

Table 1. Scale of annual precipitation
表1. 年降水量分级表
根据表1的分级标准,定义将1970~2020的降水量所对应状态如表2 (因表格大小限制,下表中每一行列出7年的状态,每行从左到右分别是7年对应的状态)。

Table 2. Annual precipitation status table
表2. 年降水量状态表
3.2. “马氏性”检验
采用
(卡方分布)来检验该序列是否具有“马氏性”。设m为状态数,即m = 5。对服从自由度为
的
分布,给定一个显著性水平
,查表得
的值。如果
,则拒绝原假设,即认为序列具备“马氏性”。反之,则序列不具备“马氏性”。
统计量为:
其中概率
,边际概率
(
表示本年是状态i而经过一年后是状态j的年份数量)。如果
,则
,且
,规定
。
3.3. 计算各阶的相关系数和权重
令
表示第k阶(k为步长(滞时),
)的自相关系数。其公式为:
定义权重:
故
且
。
3.4. 利用各阶转移概率矩阵预测状态
以前面若干时段的状态作为初始状态,利用其相应的各阶转移概率矩阵,即可得该时段的概率
,k为步长。将同一状态的各时段概率加权和作为处于该状态的概率
。这些概率中最大的
所对应的状态即为该时段的预测状态。
3.5. 利用模糊集理论中的级别特征值预测年降水量的值
根据状态概率可得到当年降雨量预测值
,依据模糊集理论中的级别特征值求法,对各状态定义相应的权重
,
为最大概率的作用系数,通常取为2或4。级别特征值
。如果年降雨量预测状态为i,则年降雨量预测值为
,期中
为状态i区间值的下限。
上面公式在应用时结果并不十分理想,因此本文在大量计算的基础上对公式进行了分类改进 [9] 。
4. 计算各步长的转移概率矩阵
4.1. 步长为1年的转移概率矩阵
取步长为1年,对1970~2020这51年进行统计总结状态变化次数如表3 (如果本次是1970年的状态,下次状态就是1971年的状态。表3中状态
所在的行与
所在的列交叉位置的数字记为
,表示本年是状态i而下一年是状态j的年份数量。如
)。

Table 3. Statistical table of precipitation state of step size 1
表3. 步长为1年的降水量状态统计表
由表3可得步长为1年的转移概率矩阵
。
根据表3中的数据计算可得各种状态的边际概率(见表4)

Table 4. The marginal probability of each state
表4. 各种状态的边际概率
4.2. “马氏性”检验
由表3和表4及步长为1年的转移概率矩阵,计算得卡方分布
。给定显著性水平
,自由度
。查表可知
,
,拒绝原假设,满足“马氏性”。
4.3. 各阶的自相关系数和权重
由3.3中公式得:(表5)

Table 5. Autocorrelation coefficient and weight of each order
表5. 各阶的自相关系数和权重
4.4. 步长为2~5年的转移概率矩阵
类似于步长为1年的情形,可得步长为2~5年的转移概率矩阵分别为:
5. 结果预测
5.1. 2021年降水量的预测结果
用2016~2020年的年降水量状态,对应的状态转移概率矩阵及表5对2021年的年降水量状态进行预测,结果见表6:

Table 6. Using 2016~2020 data to predict precipitation status in 2021
表6. 用2016~2020年的数据预测 2021年的降水量状态
由表6得0.2950最大,其对应的状态为2。故预测2021年降水量所对应的状态为2。而根据得到的数据中可以得知2021年的降水量为1478.5,对应的为状态2,预测成功。根据模糊集理论计算可得H = 2.69,年降水量1523.40。与实际降水量相对误差为3.0%。预测效果较好。
5.2. 2022年降水量的预测结果
同样的方法利用2017~2021年的年降水量数据,可以预测2022年降水量。
由表7可知,0.3130最大,因此最大加权预测2022年降水量所对应的状态为4。而根据得到的数据中可以得知2022年的降水量为1079.4,对应的为状态4,预测成功。根据模糊集理论计算可得H = 3.20,年降水量1014.97。与实际降水量相对误差为5.9%。预测效果较好。

Table 7. Using 2017~2021 data to predict precipitation status in 2022
表7. 用2017~2021年的数据预测2022年的降水量状态
5.3. 遍历性与平稳分布
以相依性最强的步长为2的马尔可夫链进行分析,由于降雨量的5个状态是互通的,没有周期性。因此这是一个不可约的正常返的马尔可夫链。此链具有遍历性,其极限分布即为为平稳分布。令状态为i,j的平稳分布分别为
,各状态重现的周期为
,则有方程组:
。
设各状态重现的周期为
,根据步长为2的状态转移矩阵,可得
与
,见表8:

Table 8. Limit distribution and recurrence period of each state
表8. 极限分布与各状态重现周期
由表8可知,按照本文的分级标准,在1970~2020年共51年的降水过程中,偏丰年出现的概率最大,平均每隔3.0371年出现一次;丰涝年出现的概率最小,平均每隔11.0375年才出现一次。
6. 模型拓展训练
将上面所建模型应用到不同城市(选择南方和北方共10个城市),取上述城市最近2000~2020年的降水量数据,预测2021年的降水量。计算显示,在预测降水量状态方面,除了杭州、南京的错了以外,别的城市的降水量状态都预测准确。在用模糊集理论预测降雨量方面(见表9),相对误差超过20%的占20%,相对误差在20%内的占80%,相对误差在10%内的占70%,总体预测效果较好。南方的城市相对来说误差比较高,有的甚至预测失败,这说明所建模型还有需要改进的地方。

Table 9. Predicted values for different cities
表9. 不同城市的预测值
7. 结语
加权马尔可夫链对降水量的预测北方地区的准确率要高于南方 [9] [10] 。上海地区属于南方,降水量大,本文根据上海的降雨量特点做了有针对性的分组,并在大量计算的基础上对模糊集理论的公式做了一些修改以使得预测结果更加准确。结果显示平均误差为4.5%,预测精度较高。将所建模型应用到不同城市,结果显示大部分城市预测结果较好,但有部分城市预测失败。这说明模型有需要提高的地方,这是后面继续研究要解决的问题。
基金项目
本文由上海工程技术大学大学生创新项目:螺纹钢期货价格影响因素分析(项目编号:CS2221003)资助。