1. 引言
气温是指大气层中气体的温度,而月最高气温则是指一个月中出现过的最高温度,在直接受日射所影响的同时,气温也是受位置、大气、地形、洋流、植被和厄尔尼诺现象等自然条件及地球温室效应等人为活动影响的复杂变量,被多种不可确定成分所控制,从而使利用传统的建模方法搭建模型十分困难,尤其是在预测月最高气温这种变化较频繁的数据时,模型的构筑更为困难。所以要对月最高气温的变化规律有一定的认识,不止需要传统理论分析工具的协助,还有必要通过新技术、新方法,从不同的角度,借助不同的理论对月最高气温变化规律进行更加深入的分析,以期寻找到合适且准确的描述月最高气温变化的工具,并提高月最高气温的预测精度。
时间序列分析是统计学科的一个重要分支,它通过对离散指标的随机过程的统计分析,研究数据序列的互相依赖关系,最后进行对未知序列的定量预测,包括一般的统计分析、统计模型的建立与推断及数据序列的最优预测和控制等内容 [1]。时间序列分析在日常生产生活中的研究和应用十分活跃,并在经济、金融、天文、气象、海洋、物理、化学、医学、质量控制等诸多领域都有广泛的应用,并且由于其模型建立便捷、预测结果有效等诸多原因,目前已经成为众多行业经常使用的统计方法。近些年,计算技术和信号处理技术的迅速发展使得时间序列分析的理论及方法愈发完善,尤其是在参数估计、模型定阶及架构等方面,更是取得了显著的成果 [2]。与此同时,基于时间序列分析的应用也日益广泛,且所得出的成果水平不断提高。本文就是利用了时间序列分析方法中一种重要的因素分解方法(Holt-Winters三参数指数平滑法)来建立合适的模型,以对某地区的月最高气温进行预测。
2. Holt-Winters三参数指数平滑加法模型
时间序列的种类是多种多样的,其中最基础的可将时间序列分为平稳时间序列、非平稳时间序列和白噪声序列,不同种类的时间序列都有自己独特的规律和性质。在众多性质规律不同的时间序列中,有一部分带有季节效应,且呈现出周期波动规律。根据统计学家100多年来对于时间序列中季节性、周期性信息的提取方法的研究,目前针对有季节效应的序列的分析方法主要分为基于因素分解方法和基于自回归移动平均模型方法(Autoregressive Integrated Moving Average Model,简记ARIMA)两大类。由于本文中的序列使用ARIMA加法模型所拟合出来的模型预测效果并不理想,且温度会出现零的情况故不能使用ARIMA乘法模型,所以最终选择使用因素分解的方法对序列进行时序分析而不是ARIMA模型。使用基于因素分解的思想进行确定性时序分析,一是可以克服其他因素的干扰,单纯测度出某个确定性因素(诸如季节、趋势、交易日)对序列的影响;二是能够根据序列呈现的确定性特征选择适当的方法对序列进行综合预测 [3]。而通过对序列长期趋势和季节效应的判断,可以将序列主要分为三类:没有长期趋势也没有季节效应的序列可选择简单指数平滑模型进行预测;有长期趋势但没有季节效应的序列可通过Holt两参数指数平滑模型进行对序列未来发展的预测;而对长期趋势不做要求但必须有季节效应时,预测模型则应选择Holt-Winters三参数指数平滑模型(分为加法模型和乘法模型)。这里主要介绍季节加法模型的构造原理。
对于季节加法模型,序列可用如下式子表示:
其中
是截距;b是斜率;
是随机波动,且
;
是t时刻由季节效应导致的序列偏差。
假设每个季节周期长度为n,每期的季节指数分别为
,如若设t时刻为季节周期的第j期
,此时
可以写为:
则
可以表示为如下公式:
记
易知,
为
时刻消除季节效应的序列截距项的无偏估计值,
为t时刻斜率b的无偏估计值,
为t时刻季节指数
的无偏估计值。
此时
可以表示为:
Holt-Winters三参数指数平滑法就是指分别使用指数平滑的方法,不断迭代递推参数
,
和
的值,递推公式如下所示:
式子中,
是序列在t时刻得到的最新观察值;n是季节效应的周期长度;
均为平滑系数,且满足
。
使用Holt-Winters三参数指数平滑加法公式,向前k期的预测值为:
若设
期为季节周期的第j期,则
。
3. 实例分析
本文采用黑龙江克山气象站站点(区站号为50658,经度为125˚88′,纬度为48˚05′,高度为236.5 m)的每月最高气温为例进行数据的分析与预测。
选取黑龙江克山站1952年到2017年各月的最高气温作为该模型的支撑数据。在处理数据过程中,使用以下步骤对数据进行分析预测:
第1步:数据输入
将该站点1952年到2016年各月的最高气温这780个数据写入Excel表格,并导入R软件,生成时间序列。
第2步:判断平稳性
使用R软件对数据进行分析,得出时间序列的时序图、自相关图和偏相关图,结果分别见图1、图2和图3。分析图1可以看出该序列为有季节性的非平稳时间序列,分析图2和图3可以明显看出序列的自相关系数和偏相关系数呈正弦波动趋势,可以得出该序列是非平稳的时间序列。
第3步:建立模型
从图1中可以看出,该序列具有以年为周期的季节效应,但既没有线性趋势,也没有较大的循环波动特征,所以判断这个序列受到两个因素的影响:季节效应和随机波动。
图1显示,每个季节的振幅相对来说是比较稳定的,所以选择加法模型。现使用Holt-Winters三参数指数平滑模型对该序列进行适当的拟合与预测。
使用R软件可以直接得出模型的参数,结果如表1所示:
通过Holt-Winters三参数指数平滑加法迭代公式,可以得到三参数最后的迭代值为:
参数
的最后12个估计值对应的是12个月的季节指数,如表2所示。
Table 2. Month and corresponding season index
表2. 月份及对应季节指数
因此,此序列向前任意k期的预测值为
式中,j为t + k期对应的季节。
第4步:模型检验
基于R软件对所建立的模型进行白噪声检验,检验P值为0.1401,大于0.05,不能拒绝原假设,残差序列可视为白噪声序列,所以模型显著性成立,检验通过,可以认为使用Holt-Winters三参数指数平滑法所建立的模型是合理有效的。
第5步:结果预测
可以利用所建立的模型对未来的12个月即2017年每个月的最高温度进行预测,继而与2017年实际每月最高温度进行对比,来检验模型的准确性。预测及对比结果见表3与图4,其中图4中虚线为序列的实际观察值,实线为序列的指数平滑估计预测值,深色阴影部分为预测值的80%置信区间,浅色阴影部分为预测值的95%置信区间,可以看出预测值与实际观察值的趋势大致相似,经计算可得实际数据与预测数据的平均绝对误差值为29.5%。
Table 3. Comparison table of predicted value and actual value
表3. 预测值与实际值对照表
通过模型的建立,参数估计,模型检验三个步骤,能够得到一个完整的Holt-Winters三参数指数平滑模型,模型虽然合理有效,但经计算的平均绝对百分误差MAPE值为29.5%,误差还是相对较大,实际预测结果并不理想。说明该季节加法模型虽能大体预测出月最高气温的变化趋势,但所预测的数值还是有所偏差,且因月最高气温受较多因素影响,仅凭因素分解的方法不能十分准确的预测月最高气温。
4. 结语
在对黑龙江克山站点的月最高气温序列进行分析预测的过程中,首先通过对时间序列固定特征的判断,确定了选用Holt-Winters三参数指数平滑法中的季节加法模型,其次借助了R软件拟合建立了合理的具体模型,最后经过白噪声检验,认为所建立的最高气温预测模型是合理有效的,最终可对相应的时间序列做出未来发展情况的预测。
由于影响一个地区的月最高气温变化的因素是多种多样的,例如:降水量变化、其他地区的洋流影响、生态环境的改变、厄尔尼诺现象、以及人为因素的影响等,只用时间序列分析方法来预测月最高气温的效果较差,需考虑多方面的因素,综合现有的预测模型,建立适合当地的月最高气温预测模型,从而使得月最高气温预测更为可靠 [4]。
参考文献