1. 引言
港口吞吐量不仅是衡量港口发展的重要数据,同时也是腹地综合经济实力的重要指标。港口吞吐量预测是一个复杂的问题,其准确性受到不确定的社会经济因素的影响。合理的预测港口吞吐量,发现港口的发展优势以及存在的问题,可以为港口提供发展规划和合理建设的新思路。目前,国内外文献对港口吞吐量预测研究较多,主要有回归分析法、神经网络法、指数平滑法和时间序列分析法等。Liupeng Jiang等人(2019)引入博弈论对多元贝叶斯回归模型进行了改进,精确模拟了重叠腹地的港口货流状况 [1];Intihar M等人(2017)采用动态因子分析和自回归移动平均模型(ARIMAX)对集装箱吞吐量建立了预测模型 [2];Feng-Ming Tsaiand Linda J.W. Huang (2015)利用人工神经网路同时了预测亚洲主要港口之间的集装箱流量 [3];Gang Xie等人(2013)提出了三种基于最小二乘支持向量回归模型的港口集装箱吞吐量预测混合方法 [4]。以往的研究大多为根据经验选取影响指标,本文采用灰色关联分析从候选变量中提取出相关性较高的影响因素,将其作为神经网络的输入变量,建立RBF神经网络模型。最后,以上海港口吞吐量及其影响因素的数据为例,比较三种方法预测的实际值,验证了基于灰色关联度的RBF神经网络模型的性能有很大提高。
2. 灰色关联分析
灰色关联度是两个系统或两个指标之间关联性大小的度量 [5]。其具体计算过程如下:
第一步:确定参考指标列和子序列。
根据评价目的选取参考指标列
, 其他因素序列为子序列
,其中n为数列的长度,l为收集到的指标个数。
第二步:数据无量纲化处理。
由于收集到各指标量纲不同,不便于比较分析,这里采用均值化方法,公式如下:
(1)
第三步:计算灰色关联系数。
(2)
其中
为分辨系数,取值范围为
。若
越小,关联系数间差异越大,区分能力越强。
第四步:计算灰色关联度。
计算各指标与参考指标的关联系数的均值,即关联序列。
(3)
求出灰色关联度后,对指标进行排序,便可直观得出哪些指标与参考数据关系密切,一般选取关联度大于0.8的指标。最后,重复以上步骤,将提取出的影响指标依次作为参考数列,求出各影响因素指标之间的灰色关联度,得出灰色关联矩阵,保留关联度较小的指标,剔除关联度高的指标数据,避免影响指标间的共线性 [6]。
3. RBF神经网络基本原理
径向基神经网络(RBF Neural Network)是由J. Moody和C. Darken于20世纪80年代末提出的,是一种模拟人脑神经元细胞局部调节的网络结构。它通过特有的网络拓扑结构解决研究问题,具有网络结构简单、训练速度快且稳定和全局逼近最优等优点。神经网络通常由三部分组成:输入层,非线性传递的隐藏神经层和输出层 [7]。
RBF神经网络模型的隐含层常采用高斯函数:
(4)
RBF神经网络输出公式为:
(5)
其中,
为径向基函数的中心,
代表输入变量x和中心点
之间的距离;
代表网络连接权重;
表示基函数围绕中心点
的神经元宽度;i 表示隐含层结点数个数;
表示实际输出。
4. 实证分析
4.1. 数据选取与说明
选取上海市1969~2018年的年度港口货物吞吐量作为参考指标列。由于港口吞吐量的影响因素广泛且复杂,综合相关文献,初步选取10项影响指标,见表1。即选取1969~2018年港口货物吞吐量影响因素的年度数据作为灰色关联分析的子序列。数据均来源于《中国统计年鉴》。

Table 1. Factors influencing port cargo throughput
表1. 港口货物吞吐量影响因素
4.2. 数据处理与模型建立
4.2.1. 数据的处理与分析
本文使用的软件为Matlab,首先对数据建立灰色关联分析模型。由于这些影响因素之间的相关性大小不一,为选取具有代表性且相关性较小的影响指标,首先求解出以上指标与港口货物吞吐量的灰色关联度。为消除各原始数据量纲差异的影响,将参考指标列数据和子序列数据进行均值化处理,如式(1)。再根据式(2)、(3)计算出灰色关联系数和灰色关联度。其中,分辨系数的选取并不改变相关性的强弱,这里选取
。具体计算结果及排序见表2。
Table2. Grey correlation degree and sorting
表2. 灰色关联度及排序
选取与上海市港口货物吞吐量相关度在0.8之上的指标,有客运量、货运量、第一产业总产值、第二产业总产值和固定资产投资总额,且关联度
。其余指标在0.6至0.8之间,说明这些指标对港口货物吞吐量有一定的影响,但不是主要影响,因此在预测港口货物吞吐量时可以忽略这些指标。为了避免以上指标对港口货物吞吐量影响的重叠性,消除指标间的相互共线性,求出这5个指标的相关系数矩阵,见表3。

Table 3. Correlation coefficient matrix
表3. 相关系数矩阵
从表3中数据可知,X2与X4相关度在0.89之上,有较强的相关性,保留任意一个即可,且由
,去掉相关性较小的指标X2,保留X4 ;其次在指标X9 与X10中关联度也超过0.8,由
,故剔除X9 ;X2、X4、X9 、X10与X3的关联度在0.8以下,说明X3 对其他指标具有弱相关性,保留X3 。综上分析,最后确定X3、X4 与X10 作为模型训练指标。
4.2.2. 模型确立与评估
根据灰色关联分析结果,选取三个主要影响因素,建立RBF神经网络模型并进行预测。将1969~2018年的第一产业总产值(X3) 、第二产业总产值(X4) 和客运量(X10) 作为RBF神经网络的输入端,1969~2018年的港口货物吞吐量为输出端。本文共选取50组数据,其中,1969~2015年47组数据作为训练样本进行模型的建立,2016~2018年3组数据作为测试样本,验证模型的可行性。由于数据间量纲的影响,以及
考虑到RBF神经网络的收敛速度,将样本数据归一化,公式为
。其中,
为x的最大值,
为x的最小值。
由前述可知,本文建立的模型中因变量和自变量的数目分别为1和3,即模型的输入端有3个节点,输出端为1个节点。RBF神经网络的扩散因子spread 也会影响模型的精度,spread 值越大,函数拟合效果越平滑。但若spread 值过大,模型的逼近误差也会变大,若spread 值过小,会出现过拟合现象,都会影响模型的性能。本文采用网格法来确定spread 和隐含层节点n的最优值。参数优化方法如下 [7]:
1) 根据经验公式,
,
取1至10之间整数。由此初步确定n 的取值范围为3至12之间。
2) spread 选定默认值1.0,动态改变隐含层节点n,以预测误差最小为目标找到隐含层节点n优选区间为
,见图1(左)。
3) 取隐含层节点
,动态改变spread,以预测误差最小为目标找到spread 的优选区间
,见图1(右)。

Figure 1. Search the optimal interval for the spread and hidden layer nodes
图1. 搜索spread和隐含层节点的最优区间
4) 搜索全局最优区间。为避免搜索过程存在遗漏,适当的减少搜索步长并外延优选区间。最终得到RBF神经网络最优参数为
,
。此时模型收敛结果稳定且预测误差最小,模型拟合精度达到99%。
为检测基于灰色关联分析的RBF神经网络模型的可靠性,对相同数据建立递归神经网络模型和BP神经网络模型,具体结果见表4。使用MAPE来对比四种神经网络预测的平均绝对百分比误差。公式为:
(6)
其中,
为实际值,
为预测值,n为样本数量。

Table 4. Comparison of prediction results and errors
表4. 预测结果及误差比较
由表4可知,运用灰色关联分析优化后的模型相比直接使用神经网络模型,减少了相关性较小的输入变量,模型计算时间明显减少,预测误差也显著下降。基于灰色关联分析的BP神经网络单年误差预测结果不稳定,最大误差达到4.3%,最小0.8%。基于灰色关联分析的递归神经网络误差预测结果较稳定,但整体误差略大。基于灰色关联分析的RBF神经网络预测单年误差最小可达到0.18%,平均绝对百分比误差达到1.1%,预测结果较稳定。通过上述实证分析,基于灰色关联分析的RBF神经网络适合具有非线性指标的港口货物吞吐量预测建模。
5. 总结
本文从影响港口货物吞吐量的多个指标来分析和预测港口货物吞吐量,将灰色关联分析与RBF神经网络模型结合用于港口吞吐量预测。通过比较几种常用数学模型的结果,该模型的预测精度良好,具有一定的实用性和可操作性,可应用于港口建设项目,通过调整港口货物吞吐量的影响因素,提供重要的港口规划和建设。同时,该模型具有较强的泛化能力,对文献 [8] 中算例,应用此方法建模结果均有提升。因此,对于具有多种复杂影响因素的问题预测时,该模型是可行且有效的,但在神经网络参数优化方法上还有待进一步改进。
基金项目
辽宁省自然科学基金指导计划项目(编号:2019-ZD-0471)。