1. 引言
1.1. 研究背景与意义
自然灾害,尤其是台风活动,对社会和环境造成了巨大的影响。这种天气现象不仅对人们的生命和财产构成威胁,还可能导致长期的社会和经济影响。随着全球气候变化的不断加剧,对台风活动进行准确预测变得尤为关键,以更好地理解和应对其潜在威胁。在过去的研究中,时间序列分析已经被广泛应用于气象和气候相关的领域。
时间序列是指将某种现象在不同时间的观测值按时间先后顺序排列而成的数列 [1] 。通常,一组时间序列的时间间隔为固定值,因此可以将时间序列作为离散时间数据进行分析和处理。时间序列分析广泛应用于金融经济、农业、气象水文、信号处理、工程等领域 [2] 。其中,SARIMA (Seasonal Autoregressive Integrated Moving Average)模型以其对时间序列数据中季节性和趋势性变化的有效捕捉而备受关注。SARIMA模型在考虑历史数据的基础上,结合了自回归、差分和移动平均等成分,使其成为一种强大的工具,可用于对台风频次进行预测。本文探索了SARIMA模型在台风频次预测中的潜在应用,旨在通过考虑季节性和趋势性变化,对未来台风频次进行预测。
1.2. 模型选取
过去几十年来,时间序列分析已经成为研究气象学、经济学和其他领域问题的重要方法。相关文献强调了时间序列分析在捕捉随时间变化的数据模式和趋势中的优越性。自回归(AR)、差分(I)、移动平均(MA)等组成部分的组合在解释时间序列中的自相关性和趋势性方面取得了显著进展 [3] [4] 。
SARIMA模型作为时间序列分析的扩展,通过引入季节性成分,弥补了传统ARIMA模型对季节性数据分析的不足。相关文献表明,在捕捉时间序列中的季节性和趋势性变化方面,SARIMA模型具有显著的优越性 [5] 。其综合考虑了自回归、差分、移动平均和季节性成分,使其成为适用于研究多变量时间序列的强大工具。在过去的研究中,SARIMA模型在气象学、经济学和流行病学等领域的成功应用引起了广泛关注。对这些应用的深入分析表明,SARIMA模型在处理季节性数据和趋势性变化方面具有出色的性能。
对于气象灾害的预测,台风频次的研究一直备受关注。先前的文献突出了台风预测的重要性,尤其是在气候变化日益引起关注的今天。过去的研究努力提高了对台风路径和强度的预测准确性,但频次预测的可靠性同样至关重要,特别是在风险管理和紧急响应方面。由于台风生成频次具有明显的季节性,因此本文采用具有季节性差分的SARIMA模型对台风频次进行建模和预测。SARIMA模型在时间序列分析和台风预测中的重要性,为本研究提供了坚实的理论基础。在此基础上,本文将进一步探讨SARIMA模型在预测台风频次方面的潜在优势,并通过实证研究验证其在实际应用中的效果。
2. SARIMA季节性差分自回归滑动平均模型
2.1. 模型介绍
时间序列分析方法由Box-Jenkin于1976年提出,它适用于各种领域的时间序列分析。ARIMA模型是一种用来实现时间序列预测分析的模型,ARIMA预测模型通常可以分解为长期趋势、季节性变化和随机波动三方面。
由于台风发生频次具有明显的季节性,且季节效应、长期趋势效应和随机波动之间可能存在复杂的交互影响关系,因此使用ARIMA模型的预测效果并不好,所以本文采用季节性差分的SARIMA模型 [6] [7] 对台风发生频次进行预测,其基本模型为ARIMA(p,d,q) × (P,D,Q)[s],其中d和D分别为使时间序列平稳化所需要进行的逐期差分和季节差分的阶数,p和q分别为自回归和移动平均的阶数,P和Q分别为季节自回归和季节移动平均的阶数 [8] ,s为季节差分步长。
上述SARIMA模型可记为:
(1)
其中,
为非季节自回归多项式;
为季节P阶自回归算子多项式;
为差分算子;
为季节差分算子;
为原始时间序列;
为非季节移动平均多项式;
为季节Q阶移动平均算子多项式;
为白噪声序列 [9] [10] [11] 。
2.2. SARIMA模型实现基本步骤
(1) 数据平稳性检验
在分析时间序列数据之前,首先要求时间序列是平稳的,因为非平稳时间序列会出现伪回归,导致结果不确定。因此,需要先对时间序列绘图,观察数据是否平稳,并进行ADF单位根检验,进一步判断是否为平稳时间序列。若数据是平稳的,则可以直接使用SARIMA模型进行建模分析,否则需要进行d阶差分和D阶差分处理 [12] ,直到数据通过平稳性检验。
(2) 白噪声检验
白噪声检验,即判断经过处理的稳定时间序列数据是否是随机序列,因为随机序列不具有分析意义。
(3) 确定参数
实现前两个步骤后,所需要进行分析的时间序列已成为满足建立SARIMA模型条件的平稳的、非随机的时间序列数据 [13] 。因此,接下来需要对SARIMA(p,d,q)(P,D,Q)[s]模型进行参数的确定。可以通过分析时间序列的自相关系数图(ACF图)和偏自相关系数图(PACF图),判断时间序列是否为拖尾或截尾,由此确定趋势自回归阶数p、趋势移动平均阶数q、季节性自回归阶数P以及季节性移动平均阶数Q [14] ,但是该方法具有一定的主观性,因此还可借助AIC (最小化信息量准则)和BIC (贝叶斯信息准则)方法,通过遍历参数寻找AIC或BIC值最小的模型,从而确定模型的最佳参数 [15] [16] [17] 。
(4) 判断检验
建立SARIMA(p,d,q)(P,D,Q)[s]模型后,需要确定模型的残差序列是否为白噪声,即是否属于随机序列,若是,则说明原始时间序列中的信息已经被提取,不用再进一步分析了,否则需要重新进行参数的调整和确定 [18] 。此外,还要观察残差图是否符合正态分布。
(5) 模型评估及预测
根据所选的最佳SARIMA(p,d,q)(P,D,Q)[s]模型,对测试集进行预测,将预测值与观测值进行比较。可通过计算均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)等标准来测试模型的拟合效果 [19] 。这三个判断标准的计算公式如下:
(2)
(3)
(4)
若误差较小,则说明该模型的拟合效果较好,具有良好的预测性能,若模型误差较大,则说明模型预测的性能较差。若模型拟合效果较好,则可以使用该模型对未来数据进行预测 [20] 。
本文基于SARIMA时间序列模型对台风频次进行预测,主要包括数据平稳化处理、白噪声检验、确定模型参数、判断检验、模型评估及预测五个步骤,其框架如图1所示。

Figure 1. SARIMA time series model establishment process
图1. SARIMA时间序列模型建立流程
3. 实验研究
3.1. 划分数据集和测试集
本文中所用数据为2000年1月~2022年12月的台风生成频次,所采用的模型为SARIMA模型。
将2000年1月~2022年12月的台风频次数据集进行划分,2000年1月~2019年12月的前240个数据作为训练集,2020年1月~2022年12月的36个数据作为测试集。
3.2. 时间序列平稳性检验
绘制2000年1月~2022年12月台风频次的时间序列分解图,如图2所示。原始时间序列经ADF检验,得到ADF = −3.61,而置信水平为1%、5%和10%的临界值分别为−3.46、−2.87和−2.57。由此可以看出,ADF统计量小于这三组临界值,同时p = 0.0056,小于0.05,因此可以拒绝原假设,接受备择假设,即认为该时间序列是平稳的 [21] ,因此可以直接使用SARIMA模型进行建模分析。

Figure 2. Time series decomposition of typhoon frequency from January 2000 to December 2022
图2. 2000年1月~2022年12月台风频次的时间序列分解图
3.3. 白噪声测试
并非所有的平稳时间序列都具有相关性,这种纯随机的、没有记忆的时间序列被称为“白噪声”序列。“白噪声”序列虽然是平稳序列,但其过去的行为对将来的发展没有任何影响,不具有分析价值和待挖掘的相关性 [22] 。因此需要在建模前进行白噪声测试,以确保该平稳时间序列具有相关性,存在继续分析的价值。
Ljung-Box检验法可用于检验m阶滞后范围内时间序列的自相关性是否显著,来判断时间序列是否为白噪声序列。本文运用Ljung-Box检验法,借助python编程工具statsmodels库中的acorr_ljungbox函数对该平稳时间序列进行白噪声测试。原始平稳数据时间序列经检验,p值小于0.001,说明该时间序列为非白噪声时间序列,即非随机序列,可以继续分析。
3.4. 模型定阶
SARIMA(p,d,q)(P,D,Q)[s]总共7个参数,可以分成2类,3个非季节参数(p,d,q),和4个季节参数(P,D,Q,s)。
自回归阶数p、趋势移动平均阶数q、季节性自回归阶数P、季节性移动平均阶数Q可以根据ACF图和PACF图来确定,也可以通过遍历AIC和BIC最小参数组合来确定 [23] 。本文通过绘制ACF图和PACF图观察以及借助pmdarima库中的auto.arima()函数确定模型的最佳参数为p = 0,d = 0,q = 0,P = 1,D = 0,Q = 1。
原始数据的自相关图和偏自相关图,如图3所示。auto.arima()函数可以通过遍历自动尝试不同的阶数组合并挑选出可能的最优模型,它选择最优模型的判断标准默认是AIC,信息准则越小,说明参数的选择越好。由图2的季节性图可以看出,原序列有明显的周期性,而且是以12个月为一个周期,由此确定s = 12。
综上,确定模型为SARIMA(0,0,0)(1,0,1)[12]。经过白噪声测试,模型的残差为随机序列,说明信息已经被提取。

Figure 3. Typhoon frequency autocorrelation and partial autocorrelation maps of raw data from January 2000 to December 2019
图3. 2000年1月~2019年12月原始数据台风频次自相关图和偏自相关图
3.5. 模型评估和残差检验
要对时间序列模型进行评估,可以使用各种指标来衡量模型的性能和预测的准确性。本文通过计算均方根误差(RMSE)和平均绝对误差(MAE)对模型进行评估。
RMSE是预测值与观测值之间差异的平方和的平均值的平方根,它衡量了模型的平均预测误差大小,数值越小越好。MAE是预测值与观测值之间差异的绝对值的平均值它衡量了模型的平均预测误差的大小,数值越小越好 [24] [25] 。本文计算SARIMA(0,0,0)(1,0,1)[12]模型的均方根误差RMSE = 1.3932,平均绝对误差MAE = 1.0389。运用该模型预测测试集2020年1月~2022年12月的台风频次,使用Matplotlib库绘制了预测结果与观测值的对比图,如图4所示,可以直观地观察预测结果与实际观测值之间的差异。其中,黄色实线为预测结果,蓝色实线为观测结果。

Figure 4. Comparison of predicted and observed typhoon frequency in 2024
图4. 2024年台风发生频次预测值与观测值对比
最后使用Matplotlib库绘制SARIMA(0,0,0)(1,0,1)[12]的残差分布和自相关图,如图5所示。


Figure 5. Typhoon frequency SARIMA (0,0,0) × Residual distribution and autocorrelation diagram of the (1,0,1) [12] model
图5. 台风频次SARIMA(0,0,0)×(1,0,1)[12]模型残差分布和自相关图
通过观察,可以发现整体数据均分布在标准红线两侧,偏差相对较小。自相关图(ACF图)中第二个点之后的所有点都在蓝色置信区间内,说明模型残差的自相关为理想结果。由模型检验结果图可知,标准残差图中的点基本落在一条水平带附近,且模型残差密度图接近正态分布 [26] 。上述检验可以证明,残差接近正态分布且互相独立,证明建模的合理性。
3.6. 预测数据
根据拟合的SARIMA(order=(0,0,0), seasonal_order=(1,0,1,12))模型对2024年台风发生频次做为期12个月的预测,结果表1所示,并绘制折线图,如图6所示:

Table 1. Predict the frequency of typhoons in each month of 2024
表1. 预测2024年各月的台风频次

Figure 6. Monthly typhoon frequency prediction results for 2024
图6. 2024年逐月台风频次预测结果
4. 结论
本文基于时间序列分析中的SARIMA模型对2024年的逐月台风频次进行了预测。图6给出了模型预测的2024年各月的台风生成频次。通过时间序列平稳化,数据白噪声测试,模型定阶,模型评估以及残差检验等步骤对2000年1月至2019年12月逐月的台风生成频次序列建立了最佳的SARIMA模型,并用该模型对2020年1月至2022年12月逐月的台风生成频次进行了预测。结果表明:预测结果与观测值较为吻合,台风在7至10月生成频次较多,较为活跃。
虽然SARIMA模型在对时间序列进行分析时,只考虑了其自身历史时间序列的变化而不直接考虑其他因素对时间序列的影响,但这并不等于可以完全忽视这些因素的影响,因为时间序列本身正是在各种相关因素的相互作用下形成的 [27] 。对历史数据变动规律的概括,也正是对各种复杂因素影响时间序列规律的概括。
从模型预测的台风生成频次的结果来看,SARIMA模型对台风发生频次具有一定的预测能力,但仍在存在漏报、错报的情况,其精确度需要在接下来的工作中进行进一步的提高,以实现更好的防灾减灾作用。