1. 引言
受上游径流、河口区潮汐动力、河口地形、风力风向等多重因素影响[1] [2] ,河口区咸潮上溯具有高度非线性与复杂性特征[3] [4] 。研究预测多重因素影响下河口区咸潮上溯,对河口区淡水资源的开发利用,保障供水安全具有重要的理论和实践意义。
当前,咸潮上溯预测模型研究主要包括数学模型与物理模型两类。现行数学模型多以数值模拟为主,难以准确描述众多因素对咸潮入侵的影响,如一维或二维数值模型都因无法模拟垂向密度差异等因素的影响导致咸潮预测效果欠佳[5] ;理论模式中savenije涨憩模式虽然能快速模拟预报一个潮周期内最大咸度及咸潮最大影响范围,但所需资料参数过多导致推广应用难度大[6] ;物理模型则以大量实地观测为主,耗时长,费用高,成本大。由Vapnik [7] 提出的基于统计学习理论的支持向量机(Support Vector Machine, SVM),以结构风险最小化原则为基础,在处理小样本、非线性问题上具有明显的优势,克服了人工神经网络的过学习、局部优化等问题。目前,支持向量机方法已经广泛运用于洪水预报、径流预测、地下水预报等领域,并逐步运用于河口区咸潮上溯预报(刘德地[8] )。
本文从统计学习理论角度,利用支持向量机对小样本、非线性问题的自组织、自学习和联想记忆等优势,综合考虑径流、潮汐对咸潮上溯的影响,运用支持向量机回归(SVR)和分类(SVC)联合建模的方法,建立了咸潮上溯预测模型,并采用动态反馈机制分别对逐日最大咸度和超标历时进行了预测。
2. 研究背景区
本文选取平岗站为研究站点,平岗站位于磨刀门水道中游河段,距出海口35 km,该站点每年的盐度序列数据代表性良好,能较好反映每年咸潮入侵磨刀门水道的基本情况,是珠海市重要的取水泵站。根据珠江三角洲的水力条件,选用马口水文站与三水水文站的日均合流量(简称马 + 三流量)作为上游来水资料,马口站及三水站具备长序列流量资料,其径流量变化特征具有良好的代表性。下游潮汐资料选用三灶站,该站距离磨刀门16 km左右,其潮位特征同时受外海潮汐、上游径流来水来沙以及河口区地形条件影响,是珠江河口区最重要验潮站之一。磨刀门水道及各测站位置示意图见图1。
3. 咸潮上溯预测模型
3.1. 支持向量机基本原理 [7]
支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则上的,根据有限的样本信息在模型复杂性与学习能力之间寻求最佳折衷,以求获得最佳推广能力的新型学习方法。它具有回归拟合与分类识别功能,在解决小样本、非线性及高维问题中有很强的优势。
1) 支持向量机回归(SVR)
支持向量机回归问题是利用非线性变换将样本映射到高维特征空间(Hilbert空间),从而将输入空间中的非线性函数估计问题转化为高维特征空间中的线性函数估计问题。同时将其最小化风险函数等价如下优化问题:
(1)
(2)
式中,
为输入的非线性映射集合,
为权向量,
为惩罚因子,
为偏置量,
为不敏感参数,
为松弛变量。利用对偶原理、拉格朗日乘子法和核函数技术,上述优化问题转化为对偶问题并求解,最终可得到回归函数如下,其中
为一个满足Mercer条件的核函数。
(3)
2) 支持向量机分类(SVC)
支持向量机分类问题原理与SVR类似,将输入空间通过非线性变换映射到高维特征空间,构造线性的最优分类超平面。其最小化风险函数可等价如下优化问题:
(4)
(5)
式中,
为输入的非线性映射集合,
为权向量,
为惩罚因子,
为偏置量,
为松弛变量。利用对偶原理、拉格朗日乘子法和核函数技术,上述优化问题转化为对偶问题并求解,最终得到分类函数为:
(6)
3.2. 咸潮上溯预测模型构建
1) 基于SVR的日均咸度预测模型
珠江口咸潮上溯受上游径流和下游潮汐作用明显[9] ,在咸度预测模型输入端需考虑上游径流因素(上游马 + 三流量)与下游潮汐作用(三灶站日潮差过程)的影响;另一方面,路剑飞等[10] 发现咸度序列具有一定自相关性,滞后步长在2 d以内自相关系数超过80%。因此将前两日的历史咸度资料也作为模型输入条件。输出端为预测当天的平岗站日均咸度。日均咸度预测模型如下:
(7)
式中,
为马 + 三流量,
为三灶站日潮差,
、
为第
、
天平岗站的日均咸度,
为预测当天日均咸度。
为消除变量量纲影响,减少训练过程中数值运算的复杂程度,采用比例压缩法对样本数据归一化处理;选取高斯径向基(RBF)函数作为核函数[11] ;利用Grid-Search方法搜索模型的主要参数惩罚因子C与核函数参数g,搜索区间为[2−8, 28],步长为0.5;运用K折交叉验证法(k-fold cross-validation) [12] 检验参数。
2) 基于SVC的超标历时预测模型
运用支持向量机分类(SVC)的识别功能,对超标历时进行识别分类,从而预测超标历时过程,分类标准见表1。模型输入端考虑上游马 + 三流量、下游三灶站日潮差过程、平岗站的日均咸度等历史资料;输出端为预测当天平岗站的日超标历时类别。超标历时预测模型如下:
(10)

Table 1. The classification criteria of hours for daily excessing standards salinity
表1. 日超标历时分类标准
式中,
为马 + 三流量,
为三灶站日潮差,
、
为第
、
天平岗站的日均咸度,
为预测当天日均咸度,这里引入日均咸度预测模型的预测结果;
为平岗站预测当天的超标历时分类。
3.3. 模型检验指标
为评价模型的拟合效果,分别选用效果系数、一致性指标、分类准确率等三个拟合度度量指标表征。
1) “效果系数”(coefficient of efficiency),用E表示。效果系数E愈接近1,则说明预测值愈接近实测值,但效果系数E对系列中的极值是敏感的,因此需要结合一致性指标D判断来消除此影响。
(11)
2) “一致性指标”(index of agreement),用D表示。一致性指标D的取值在0~1之间,取值越大,说明模型预测值变化与实测值越一致。
(12)
3) 分类准确率,用T表示。是用来衡量模型分类结果准确性的指标。
(13)
式中,
为实测值,
为预测值,
为实测平均值,
为实测值类别,
为预测值类别,N为样本数。
4. 结果分析
选取2003年12月1日至
2004 年 2 月 29 日
的实测资料(上游马 + 三流量、三灶站日潮差与平岗站日均咸度同步资料)为计算样本。其中,选用
2003 年 12 月 1 日
至
2004 年 1 月 31 日
的数据作为训练集,选取
2004 年 2 月 1 日
至2月29日共29天的数据作为模型检验样本。
4.1. 基于SVR的日均咸度预测模型结果分析
比较不同径流、潮汐序列组合输入的模型模拟结果(见表2),发现当输入条件选择前三日马 + 三流量
与前三日三灶站日潮差的平均值
时,模型拟合效果最好,效果系数E达到0.9081,一致性指标D达到0.9749。因此,确定该组合为最佳输入条件;经过参数优选,确定模型参数C = 256,g = 0.5,

Table 2. Simulation of different model input conditions
表2. 不同径流与潮差组合输入的模型模拟结果对比
注:
、
、
分别为前三天的马+三流量,
为
、
、
的平均值。
、
、
分别为前三天的三灶站潮差,
为
、
、
的平均值。
不敏感参数
取0.001。具体参数优选和模拟结果见图2。
为分析模型的预测精度,分别对比了普通SVR模型(未采用动态反馈机制)、常用BP神经网络模型和动态反馈SVR模型的预测结果,结果见图3。其中,动态反馈机制,是将模型执行过一天的预测,作为最新的当天实测数据加入训练集并重新训练模型,通过动态反馈机制使模型在使用过程中不断提炼。分析图4,动态反馈SVR模型的预测效果最好,测试集效果系数E达到0.9779,一致性指标D达到0.9941;普通SVR模型测试集效果系数E只有0.8167,一致性指标D只有0.9391;由于样本数目较少,导致BP神经网络模型的训练神经网络并不成熟,泛化能力较差,其测试集效果系数E只有0.7706,一致性指标D也只有0.9118。由此可见,支持向量机在小样本的学习问题更为出色,动态反馈机制也能有效地提高模型预测精度。
4.2. 基于SVC的超标历时预测模型结果分析
比较不同径流、潮汐组合输入的超标历时预测模型模拟结果,见表3。当输入选择前三日马 + 三流
(a) 参数选择 (b) 模拟结果
Figure 2. The parameter selection and simulation results for average daily salinity prediction model
图2. 日均咸度预测模型参数优选与模拟结果

Figure 3. The compassion of different model prediction for average daily salinity
图3. 日均盐度模型预测结果对比图
量
与前三日三灶站日潮差的平均值
时,模型模拟准确率最高,分类准确率T达到100%。经过
参数优选,确定模型参数C = 1,g = 5.6569。具体参数优选和模拟结果见图4。
加入动态反馈机制,分析普通SVC模型、常用BP神经网络模型和动态反馈SVC模型的预测效果(图5)。
(a) 参数选择 (b) 模拟结果
Figure 4. The parameter selection and simulation results for the prediction model of excessing standard salinity
图4. 日均咸度超标历时模型参数与模拟结果

Figure 5. The compassion of different model prediction for the prediction model of excessing standard salinity
图5. 日均盐度超标历时模型预测结果对比图

Table 3. The classification accuracy of different model input conditions
表3. 不同径流与潮差组合输入的超标历时分类模拟结果(T) (单位:%)
可以得出,动态反馈SVC模型的测试集预测分类准确率最理想,达到93.10%,较普通SVC模型的分类准确率提高了6.90%;BP神经网络模型的分类预测效果明显欠佳,分类准确率只有55.2%。表明动态反馈SVC模型能更好地预测超标历时分类。
5. 结论
受径流、潮汐、地形、风向等多重因素影响,珠江河口区咸潮上溯现象异常复杂。本文尝试运用支持向量机回归(SVR)与分类(SVC)联合建模方法,综合考虑上游径流和河口区潮汐因素,建立珠江河口区磨刀门水道咸潮上溯预测模型,得出以下结论:
1) 支持向量机方法具有很强的自组织、自学习与联想记忆能力,能较好应用于咸潮上溯这种资料较为缺乏的小样本、非线性问题。本文构建的基于支持向量机的咸潮上溯预测模型,采用动态反馈机制,能较好模拟磨刀门水道平岗站日均咸度和超标历时,模型预测效果明显优于人工神经网络。
2) 通过比较模型不同径流、潮汐组合输入的模型计算结果,确定前三日马+三流量序列和前三日三灶站平均潮差序列为最佳输入条件。
基金项目
广东省水利科技创新项目(2013-13);国家自然科学基金项目(50909106,51009156);广东省科技计划项目(2011B0308 00008)。