1. 引言
中国地处太平洋西海岸,近年来随着经济的高速发展,航运业取得了巨大的发展。于是处于航运业发展核心的港口的发展越显其重要性。其中集装箱吞吐量是衡量一个港口能力的重要指标,是港口发展战略研究的重要内容,对于确定港口发展方向、扩建港口,新建码头,合理制定港口作业计划和港口基本设施规划,提高港口的通过能力和运营效率都具有十分重要的意义,而这些正是保证港口服务能力供给的基础。因此,准确预测港口吞吐量是协调港口服务能力的供给与区域对港口服务需求之间的桥梁,科学合理的预测港口吞吐量对于港口服务供应链内部和外部协同都具有重要的意义。
目前在港口吞吐量预测领域的国内外相关研究中,预测方法比较全面,包括回归分析[1] ,支持向量机[2] ,神经网络[3] 等模型。但现有研究中的主要问题是:预测时段绝大都是关于港口年度吞吐量的预测,而很少研究港口月度吞吐量的变动,这对港口在战术和运作层面上的支持是远远不够的。从月度角度分析,在港口运输中,年末由于一方面港口为了完成全年生产指标都会努力提高港口吞吐量,同时由于圣诞元旦春节假期的临近,对货物的需求旺盛也使得港口吞吐量增加。而在以年为统计单位的港口吞吐量变化时,周期趋势并不显著。年度数据一般只含有增长性和随机因素,而月度数据还要包含周期性规律,这就使得港口年度数据和月度数据所反映的内涵差别较大。ARIMA乘积季节模型对港口月度吞吐量的变化进行研究,更好地反映了吞吐量的周期性规律,预测精度更高,结果也更加可信。
本文以上海港集装箱吞吐量为例,对其8年的历史数据进行系统地分析,建立了
乘积季节模型,结果表明该模型的预测精度较高,可采用该模型对上海港2011年的集装箱吞吐量进行预测。
2. 知识准备
2.1. 时间序列分析
时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法是基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。其基本原理:一是承认事物发展的延续性,应用过去数据,就能推测事物的发展趋势;二是考虑到事物发展的随机性,任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。根据时间序列分析,可以对未来进行预测,其预测一般反映了趋势性,周期性以及随机性三种实际变化规律。纵观时间序列分析方法的发展历史可将其分为频域分析方法和时域分析方法两大类,本文主要研究的是时域分析方法[4] [5] 。
2.2. 数据的预处理
拿到一个观察值序列后,首先应对其平稳性和纯随机性进行检验。通过平稳性检验,序列又可分为平稳序列和非平稳序列两大类。若为平稳序列,还需进一步对其的纯随机性进行检验。一个序列经预处理被识别为平稳非白噪声序列,则说明了该序列是一个蕴含着相关信息的平稳序列,需建立一个线性模型拟合该序列发展,借此提取序列中有用信息。到目前为止,差分方法被认为是一种简便,有效的确定信息的提取的方法,是由Box和Jenkins提出并用大量的案例证明了。差分运算具有很强大的确定性信息提取能力,许多非平稳序列差分后会显示出平稳序列的性质,这时称该非平稳序列为差分平稳序列。实际生活中,绝大部分序列是非平稳的,当平稳性检验分析结果为非平稳序列,则还需通过有效的手段提取序列中所蕴含的确定性信息,将其化为平稳序列。
2.3. ARIMA乘积季节模型
时间序列模型有许多种类型,其中有三种是最经典和最重要的,他们是依靠原始时间序列的线性关系[5] -[7] ,分别是AR(自回归)模型、MA(移动平均)模型[8] 和ARIMA (非平稳自回归移动平均)模型。
模型适用于拟合经差分运算后具有短期相关性的序列,但当经差分运算后的序列还具有季节效应,并且季节效应本身仍具有相关性时,则其季节相关性可采用以周期步长为单位的
模型提取[9] -[11] ,这样的序列则适合采用
乘积季节模型进行拟合,它的完整结构为[12] :

式中


2.4. 预测
所谓预测就是要利用序列已观测到的样本值对序列在未来某个时刻的取值进行估计。目前对平稳序列最常用的预测方法是线性最小方差预测。线性是指预测值为观测值序列的线性函数,最小方差是使预测方差达到最小。
3. 上海港集装箱吞吐量预测
本文研究2002年1月至2009年12月上海港的集装箱吞吐量月度数据,如表1所示。
3.1. 数据的分析
数据的分析包括描述性,平稳性和相关性分析。首先画出上海港集装箱吞吐量的时序图,如图1所示。
由图1可看出,上海港集装箱吞吐量逐年递增,序列具有长期递增趋势,明显属于非平稳序列,并且具有平稳的以年为周期的季节性波动,因此应对原序列作一步差分,提取线性递增趋势,紧接着还应对一阶差分后的序列再进行12步同周期差分,提起季节性波动信息。根据图2可知,经一阶十二步差分后,序列基本平稳。
3.2. 模型构建
原序列在取一阶十二步差分之后,非零的自相关只是在延迟为1,11,12和13处。于是笔者确定了

Table 1. Natural Logarthms of monthly container handling capacities (measured in thousands TEU) in Shanghai Port
表1. 取对数后的上海港集装箱吞吐量(万吨)月度数据

Figure 1. Monthly container handling capacities of Shanghai Port
图1. 上海港集装箱吞吐量的时序图
上海港的集装箱吞吐量模型为
:
(1)
模型为
阶。该模型显然可以写为:
(2)
其中
表示时间序列值,
表示白噪声序列,
表示差分算子,
描述确定性趋势。这个模型的可逆域由
的根在单位圆外这一条件所要求,它由如下不等式定义
和
。注意在式(1)右边的移动平均算子
的阶为
。
3.3. 参数估计
由式(2)该模型可以视为
,这是一个
的13阶MA模型。于是
的自协方差可以通过如下计算获得[12] :

特别地,这些表达式蕴含
,
,因此,
值不受模型(1)中存在的MA季节因子
的影响,而
值不受模型(1)中的非季节MA因子
的影响。经过一阶十二步差分后的序列的自协方差估计值如表2所示。
接下来,令观察的相关函数等于它们的期望值,可以得到参数
和
的近似值。再将样本估计值
和
作为
和
的近似值带入下面表达式:

我们得到估计值
,
,
。
3.4. 模型诊断检验(累积周期图检验)
在季节时间序列拟合中,恐怕很可能会未充分考虑到序列的周期特性,因此,我们应注意残差中的周期性。自相关函数对于这类随机状态的偏离并不能给出灵敏的指示,因为周期效应本身常常融汇在自相关之中。而另一方面,周期图就是为检验在白噪声背景下周期波形的模式而设计的。
一个时间序列
,
的周期图是[12]

其中
为频率。因此周期图是把
和不同频率的正弦和余弦波相联系的一种工具。在残差中若含给定的频率
,则自该频率上响应的正弦或余弦波会使波形增强从而产生大的
值。
白噪声的功率谱
在0~5周的频率区域上都具有常值
。因此,白噪声的累积功率谱

对
作图就是从
到
的直线,即
是一条从
到
的直线。

Figure 2. Seasonal differenced container handling capacities of Shanghai Port
图2. 上海港集装箱吞吐量差分后序列时序图

Table 2. Estimated autocorrelations of various differences of the logged container handling capacity data
表2. 取对数后的集装箱吞吐量自相关系数
现在,如果模型是恰当的且参数精确地已知,那么,
就可以从数据算出,并得到一个白噪声序列。对于白噪声序列来说,
对于
的图就将会散布在连接点
和
的直线附近。另一方面,模型不恰当将会产生非随机的
,累积周期图就会表现出对上述直线的系统偏离。
对于真正随机序列或白噪声序列,将会以时间的比例
被越过。他们画在理论值线、下方的距离为
处,其中,若
为偶数,
,若
为奇数,
。

在我们的研究中,周企图检验结果如图3所示。从图3可以看到累积周期图的点紧密地聚集在期望直线附近,所以可以确定我们之前估计的参数值充分地符合该乘积季节模型。
3.5. 模型评价
在这一节,我们要应用已经构建出的乘积季节模型去预测2010年2月至10月上海港集装箱吞吐量,并与实际的数据进行比较从而证明该模型的适用性和准确性。
直接由差分方程本身来计算预测值是最好的办法。因此,由于

Figure 3. Cumulative perodogram check of the model fitted to the series of container handling capacity
图3. 集装箱吞吐量序列的累积周期图检验
表3. 从2010年2月开始往后9个月的集装箱吞吐量的实际值和预测值
确切地已知,并假设序列
的信息一直延伸到遥远的过去。为了得到预测值,我们简单地用预测值来代替未知的
,而用0来代替未知的
。已知
当然是已计算出的提前1期外推预测误差,即
。
应用该预测方法,得出2010年2月至10月上海港集装箱吞吐量的预测值如表3所示。
对比真实值和模型的预测值(如表3所示),可看出,预测值和真实值十分接近,相对误差较小,接下来,我们使用均方误差对预测值进行评价。均方误差的计算公式如下:

通过上式得到该乘积季节模型的预测值的均方误差为0.048,从而说明了我们构建的ARMA
乘积模型的拟合效果较好,预测精度较高,可用来预测未来几个月的上海港集装箱吞吐量。
4. 结语
本文通过系统地分析上海港集装箱吞吐量,建立的
乘积模型能够很好地拟合实际数据,具有较高的预测精度。因此,对于港口吞吐量这样的数据,既含有季节效应又含有长期趋势效应,并且相互之间有着复杂的先关纠缠关系,最好要采用乘积季节模型进行预测,这样可以得到比较精确的结果。