1. 引言
渤海作为中国重要的半封闭内海,因陆源污染物排放、近海开发强化及区域经济快速扩张,正面临日益加剧的生态压力。其中,石油污染物因其显著的生态毒性效应和生物累积特性,已成为威胁海洋生态系统的关键环境风险因子。近年监测数据显示,尽管渤海表层水体石油浓度总体符合《海水环境质量标准》(GB3097-1997) I-II类限值(0.05 mg/L),但辽东湾、莱州湾等敏感区域持续超出II类水质标准阈值,形成典型的环境质量梯度分布特征[1]。更值得关注的是,作为石油重要环境归宿介质的沉积物,其污染状况更为严峻。Wang、Yebao等通过十年数据整合发现,渤海沉积物中石油含量呈现显著的时间递增趋势,该结论与Zhou等(2014)的研究结果相吻合——其在渤海湾表层沉积物中测得的石油浓度已超过《海洋沉积物质量》(GB18668-2002)规定的限值[2] [3]。这种污染模式的形成机制与环渤海地区密集的石油开采(现有海底油井超过2000口)、繁忙的海上航运(年船舶通航量超过10万艘)以及频繁的溢油事故密切相关[4]。在此背景下,开展渤海石油空间分布模拟研究,不仅能为规划实施提供科学依据,更是提升海洋环境治理能力现代化水平的重要技术实践[5]。
尽管插值技术已在复杂数值建模领域广泛应用,但仍存在某些局限性,尚有进一步发展和改进的空间[6] [7]。但其局限性包括:影响半径选择困难、对稀疏数据适应性不足、插值结果过度平滑、未考虑背景值、计算效率较低,且相较其他方法精度不足导致插值误差较大[8]。因此,我们需要在确保拟合精度的同时,使方法更适应数据分布特性,且无需复杂的参数假设与调整过程。迄今,基于切比雪夫基函数的正交多项式拟合(CPF)技术已涉及人工智能、图像处理、海洋科学等多学科领域,该方法在海洋大气研究中也已成功应用。王等学者提出将伴随同化模型与切比雪夫基函数CPF技术相结合的新方法,旨在确定渤海和黄海浅水区的潮汐谐波成分。研究表明CPF在浅水区具有极高分辨率,有助于生成更精确的潮汐谐波图[9]。李等利用CPF成功揭示了中国中南部PM2.5的时空分布特征[10]。该方法以高精度、数据适应性、细节捕捉能力和鲁棒性为特征,在海洋领域的空间插值中具有广阔应用前景。
石油分布通常呈现高度非线性特征,导致空间自相关结构具有显著各向异性,单一研究方法可能导致模型偏差[11]。因此,有必要基于不同算法的理论假设和权重机制,通过交叉验证和验证指标的统计分析,定量评估模型的稳健性,最终建立适用于渤海石油污染特征的优化插值体系[12] [13]。因此,本研究选取多种拟合方法,从算法原理、数据适应性、精度等多维度进行分析。通过比较可清晰呈现不同方法处理石油数据的优劣势,进而验证石油数据处理的优化方向,为精准把握石油空间分布提供有力支撑。
本研究基于切比雪夫基函数的CPF方法,对我国渤海区域石油浓度进行估算。论文结构如下:第一部分阐述研究背景与区域特征;第二部分详细描述研究区域和数据分析;第三部分对研究方法进行深入解析;第四部分第五部分为讨论总结。
2. 研究区域与数据分析
研究区域共分布265个监测站点。本次研究采用国家海洋科学数据中心(https://mds.nmdis.org.cn/) 2018年石油浓度数据集,该数据经年度平均处理后为本研究提供支持。图1展示了2018年研究区265个监测站的石油年均浓度分布,各监测站的颜色深度直观地反映了该位置的石油浓度程度。采用四种方法分析了渤海区域石油浓度的空间分布。
Figure 1. Annual average concentrations of petroleum hydrocarbons at 265 monitoring stations in the Bohai Sea, 2018
图1. 2018年渤海265个监测站石油年均浓度分布图
3. 研究方法与实验
3.1. 研究方法
(1) 切比雪夫多项式拟合法(CPF)能在拟合精度与复杂度之间取得平衡,从而在各类应用场景中实现最优拟合效果。基于切比雪夫基函数描述正交多项式拟合(CPF)方法[14]:
在此表达式中,
(其中
代表一系列
坐标点,
表示
方向上多项式的最高次数)。
是
阶的切比雪夫多项式,其系数记为
(其中
是
阶多项式的第
个系数),计算方式如下:
表示石油浓度分布,可拟合:
是常数系数,也可通过最小二乘法确定。
3.2. 验证方法
(1) 为提高数据利用率并全面评估本研究中各种插值或拟合方法的性能,我们将采用交叉验证方法。具体而言,交叉验证方法将插值数据集分为
部分,其中
部分用于构建空间插值的训练集,其余部分作为循环验证的验证集[15]。本研究采用了十折交叉验证法。
(2) 将MAE与RMSE结合作为评估指标,可对预测结果的准确性进行更全面的评估[16] [17]:
MAE计算公式:
其中
为测试数据总数
,
为石油观测值,
为石油模型预测值。
RMSE计算公式为:
其中
为测试数据总数
,
为石油观测值,
为石油预测值。
3.3. 实验过程
首先采用10倍随机交叉验证法确定CPF法和TPF法最优适配的顺序组合(
及
)。使用CPF和TPF方法拟合石油碳氢化合物浓度值,对每组随机组合进行验证 (
、
),进行10个循环,并通过计算所有交叉验证中拟合结果的平均误差来评估拟合结果。对两种拟合方法的结果进行了10次随机交叉验证评估,通过比较交叉验证中拟合结果的平均误差来评估两种方法的准确性,并选择准确性较高的拟合方法来重建渤海地区的石油浓度空间发布。
4. 敏感性分析
通过比较所有交叉验证中插值拟合结果的平均误差来评估两种拟合方法的准确性,并选择准确性较高的拟合方法来重建渤海地区的石油污染物浓度空间场。
本研究对CPF方法各阶数组合进行分析,计算出对应组合的平均绝对误差(MAE)和均方根误差(RMSE),具体数据见表1和表2。数据表明,在充足数据支撑下,CPF方法的多项式阶数组合对交叉验证平均误差结果影响甚微,仅呈现轻微波动,未因阶数变化导致显著误差增大。即使面对数据分布不均的情况,充足的数据量仍至关重要,能有效提升高阶CPF模型的拟合精度。在所有CPF阶数组合中,误差指标的比较分析表明CPF 52产生最低误差值,因此被确定为后续实验的最佳阶数组合。
Table 1. MAEs of CPF method (unit: mg/L)
表1. CPF方法的MAE值(单位:mg/L)
Kmax |
Smax |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
0.0111 |
0.0106 |
0.0105 |
0.0105 |
0.0106 |
0.0107 |
0.0108 |
0.0108 |
2 |
0.0102 |
0.0100 |
0.0095 |
0.0100 |
0.0103 |
0.0101 |
0.0101 |
0.0100 |
3 |
0.0104 |
0.0098 |
0.0098 |
0.0095 |
0.0098 |
0.0100 |
0.0100 |
0.0100 |
4 |
0.0101 |
0.0097 |
0.0096 |
0.0096 |
0.0100 |
0.0100 |
0.0101 |
0.0101 |
5 |
0.0100 |
0.0094 |
0.0095 |
0.0096 |
0.0099 |
0.0100 |
0.0100 |
0.0099 |
6 |
0.0100 |
0.0096 |
0.0097 |
0.0099 |
0.0102 |
0.0102 |
0.0103 |
0.0104 |
7 |
0.0100 |
0.0097 |
0.0098 |
0.0100 |
0.0103 |
0.0103 |
0.0106 |
0.0106 |
8 |
0.0098 |
0.0100 |
0.0098 |
0.0101 |
0.0104 |
0.0102 |
0.0106 |
0.0106 |
表中加粗数据为最优值。
Table 2. RMSEs of CPF method (unit: mg/L)
表2. CPF方法的RMSE值(单位:mg/L)
Kmax |
Smax |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
0.0176 |
0.0167 |
0.0168 |
0.0169 |
0.0171 |
0.0172 |
0.0173 |
0.0173 |
2 |
0.0169 |
0.0163 |
0.0161 |
0.0163 |
0.0166 |
0.0164 |
0.0164 |
0.0164 |
3 |
0.0167 |
0.0163 |
0.0163 |
0.0163 |
0.0163 |
0.0164 |
0.0164 |
0.0164 |
4 |
0.0164 |
0.0162 |
0.0161 |
0.0162 |
0.0166 |
0.0166 |
0.0165 |
0.0166 |
5 |
0.0164 |
0.0160 |
0.0162 |
0.0164 |
0.0167 |
0.0168 |
0.0167 |
0.0166 |
6 |
0.0164 |
0.0161 |
0.0163 |
0.0167 |
0.0171 |
0.0170 |
0.0171 |
0.0171 |
7 |
0.0165 |
0.0163 |
0.0166 |
0.0169 |
0.0173 |
0.0172 |
0.0176 |
0.0176 |
8 |
0.0164 |
0.0165 |
0.0166 |
0.0171 |
0.0172 |
0.0173 |
0.0176 |
0.0175 |
表中加粗数据为最低误差值。
对于TPF方法,采用10折随机交叉验证法确定最佳拟合阶数组合相关统计结果见表3和表4。从统计结果看,MAE和RMSE两个指标均随阶数增加呈现上升趋势。尤其当
时,MAE与RMSE值显著增大。该局限性源于多项式函数本身的特性[14]。在TPF的有理交叉实验中,当阶数设定为特定值时,TPF51的MAE达到最低值。此外,表4分析表明:在10折随机交叉验证中,所有阶数组合的RMSE变化规律与MAE基本一致,这进一步证实了TPF51在误差控制方面的稳定性和优越性,故后续实验可统一采用TPF51模型。
Table 3. MAEs of TPF method (unit: mg/L)
表3. TPF方法的MAE值(单位:mg/L)
Kmax |
Smax |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
0.0105 |
0.0103 |
0.0100 |
0.0100 |
0.0102 |
0.0106 |
0.0109 |
0.0111 |
2 |
0.0100 |
0.0101 |
0.0099 |
0.0101 |
0.0106 |
0.0109 |
0.0114 |
0.0123 |
3 |
0.0100 |
0.0099 |
0.0103 |
0.0107 |
0.0112 |
0.0127 |
0.0152 |
0.0202 |
4 |
0.0100 |
0.0101 |
0.0110 |
0.0117 |
0.0136 |
0.0172 |
0.0281 |
0.0647 |
5 |
0.0098 |
0.0113 |
0.0124 |
0.0146 |
0.0184 |
0.0386 |
0.0836 |
0.2891 |
6 |
0.0101 |
0.0114 |
0.0123 |
0.0164 |
0.0285 |
0.0801 |
0.3860 |
100.2814 |
7 |
0.0103 |
0.0126 |
0.0153 |
0.0273 |
0.0512 |
0.4106 |
421.0813 |
51.5078 |
8 |
0.0109 |
0.0130 |
0.0177 |
0.0361 |
0.2288 |
167.3617 |
131.6728 |
36.3915 |
表中加粗数据为最低误差值。
Table 4. RMSEs of TPF method (unit: mg/L)
表4. TPF方法的RMSEs值(单位:mg/L)
Kmax |
Smax |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
1 |
0.0168 |
0.0167 |
0.0162 |
0.0164 |
0.0165 |
0.0168 |
0.0171 |
0.0173 |
2 |
0.0164 |
0.0165 |
0.0162 |
0.0167 |
0.0174 |
0.0182 |
0.0190 |
0.0210 |
3 |
0.0163 |
0.0165 |
0.0171 |
0.0181 |
0.0192 |
0.0227 |
0.0285 |
0.0380 |
4 |
0.0163 |
0.0169 |
0.0181 |
0.0203 |
0.0240 |
0.0307 |
0.0595 |
0.1500 |
5 |
0.0166 |
0.0182 |
0.0208 |
0.0256 |
0.0331 |
0.0839 |
0.2650 |
0.8804 |
6 |
0.0168 |
0.0192 |
0.0212 |
0.0310 |
0.0596 |
0.1903 |
1.1319 |
252.4707 |
7 |
0.0171 |
0.0218 |
0.0283 |
0.0596 |
0.1073 |
1.1965 |
1502.0080 |
142.1318 |
8 |
0.0179 |
0.0229 |
0.0335 |
0.0731 |
0.6624 |
502.7002 |
356.8144 |
74.6917 |
表中加粗数据为最低误差值。
表5展示了两种方法所有交叉验证的均方误差结果。两种拟合方法CPF52与TPF51的结果相对接近,各交叉验证实验中均方误差(MAE)与均方根误差(RMSE)的差异均不超过0.0023 mg/L。交叉验证实验结果表1~4所示。在部分交叉验证实验组(CV3、CV4、CV8、CV9)中,CPF52表现优于TPF51;其余实验组中两种方法差异较小。在所有交叉验证实验中,CPF52与TPF52获得的RMSE值趋势最接近,但CPF52的平均RMSE值高于TPF51。其RMSE值比TPF51低0.0006 mg/L,最小RMSE值约为0.0085 mg/L。
Table 5. The mean values of MAE and RMSE of each method in the ten-fold cross-validation
表5. 十折交叉验证中各方法MAE与RMSE的均值
|
CPF52 |
TPF51 |
MAE |
0.0094 |
0.0098 |
RMSE |
0.0160 |
0.0166 |
此外,图2显示了在10倍交叉验证条件下,估计值与观测石油浓度呈对比关系。中红色虚线划定偏差小于0.03 mg/L的边界范围。CPF52方法结果表明,其估算的石油浓度与观测值高度吻合,96.54%的值处于偏差小于0.03 mg/L的范围内,充分证明该方法在石油浓度估算中具有高精度与可靠性。相比之下,TPF51结果为95.00%,反映出在石油估算方面与CPF52法存在一定差距,这进一步凸显了CPF52法在本研究中的优势与应用价值,为后续相关研究与实践中的方法选择提供了依据。
Figure 2. Scatterplot of the match between estimated and observed oil concentrations. The black line is the 1:1 line and the red dashed line is the cut-off line for deviations less than 0.03 mg/L. ((a) CPF52, and (b) Tri51) (Percentage of deviation: CPF52: 96.54%; TPF51: 95.00%)
图2. 石油浓度估计值与观测值的散点图。黑线为1:1基准线,红虚线为偏差小于0.03 mg/L的截断线。((a) CPF52,(b) Tri51) (偏差百分比:CPF52:96.54%;TPF51:95.00%)
而通过对空间分布结果的深入研究,TPF51虽具有良好的误差表现,但在反映现象真实性的平滑度上不及CPF52 (图3(a)),尤其在渤海区域,TPF51在石油浓度空间分布中呈现明显的“靶心”现象(图3(b)),无法清晰描绘石油烃的空间分布特征。进一步验证了CPF52在渤海油浓度空间分布模拟任务中具备显著的性能优势,如图3所示。基于上述分析,CPT52是本研究中建模石油浓度的最优插值方法,交叉验证结果支持该结论。
Figure 3. Petroleum hydrocarbon concentrations in the experiment calculated using (a) CPF52 and (b) TPF51
图3. 采用(a) CPF52和(b) TPF51模拟石油浓度分布
5. 讨论
基于交叉验证实验与空间分布模拟结果,CPF52方法在捕捉渤海石油浓度空间变异性方面具有显著优势。为进一步验证该方法在有效捕捉时变性方面的复杂行为[18],本研究选取2018年3月1日至5月29日(春季)、2018年6月9日至8月31日(夏季)、10月2日至11月22日(秋季)及2018年1月(冬季)观测数据,采用CPF52方法模拟2018年渤海石油浓度季节动态。本研究采用CPF52方法模拟了2018年渤海石油浓度季节变化规律,旨在分析区域环境因素对渤海石油浓度空间分布的影响,为渤海油污染精准治理提供更有针对性的科学理论支撑和实践指导。
5.1. 评价方法
本研究采用《国家环境保护部水环境质量标准(GB3097-1997)》中I类(II类)海水质量标准作为海水污染评价基准,并运用单因素污染指数评价法对渤海海域石油浓度进行评估,计算公式如下[19]:
其中,为测得石油浓度值,
代表国家海水水质标准(GB3097-1997)规定的I/II类石油限值(0.05 mg/L)。若
,表明该海域石油含量不符合对应功能分区的环境目标,即超过《GB3097-1997海水环境质量标准》I类(II类)标准。
5.2. 评价结果
本研究依据《海水环境质量标准》(GB3097-1997)规定的污染指数法,对渤海海域表层海水油浓度进行了科学评估。表6列出了2018年渤海海域及三大重要海湾表层海水油浓度的纬度和经度范围、季度平均值、超标比例及污染指数。2018年渤海海域整体表层海水油类浓度四季平均值为0.0256 mg/L~0.1458 mg/L,冬季油类浓度最高,平均浓度0.1458 mg/L,超标率36.87%;其次为秋季,平均浓度0.1377 mg/L,超标率25.12%;春季次之,平均浓度0.0435 mg/L,超标率16.46%;夏季浓度最低,平均浓度0.0256 mg/L,超标率9.59%。就平均污染指数而言,秋冬季污染指数分别为2.754和2.916,超过国家海水一级(二级)水质标准;春夏两季污染指数分别为0.870和0.512,符合国家海水一级(二级)水质标准。总体而言,渤海海域与Reddy等(2005)的研究结果一致,表明CPF52模型在模拟渤海石油浓度季节变化方面具有较高合理性和可靠性,能够更真实地反映渤海石油浓度的季节特征[20]。
Table 6. Seasonal changes in mean petroleum hydrocarbon values in surface seawater
表6. 渤海表层海水平均石油值的季节变化
区域 |
经度纬度 |
季节 |
平均值(mg/L) |
超标百分比
(>0.05 mg/L) |
平均值Pi |
渤海 |
117.6˚E~122.2˚E 37˚N~41˚N |
春 |
0.0435 |
18.46% |
0.870 |
夏 |
0.0256 |
9.59% |
0.512 |
秋 |
0.1377 |
25.12% |
2.754 |
冬 |
0.1458 |
36.87% |
2.916 |
图4为渤海海域四季表层水体石油浓度分布情况。相较于其他三季,冬季石油浓度较高,尤其在近海区域更为显著。具体到渤海管辖的三个海湾,春夏两季海湾水域石油浓度均符合国家I类(II类)海水水质标准。秋季时,渤海湾石油浓度超过国家I类(II类)海水水质标准,其中渤海湾近岸区域石油浓度显著高于其他区域。冬季时,渤海湾与莱州湾的石油浓度显著高于辽东湾,均超过国家一类(二类)海水水质标准。尽管辽东湾海域整体符合国家一类(二类)海水水质标准,但辽东海域东岸存在小范围高浓度石油污染区域。
从图中可见,高浓度石油污染主要集中于近岸区域。陆源排放可能是导致渤海油污染的关键因素之一。Yu等发现,渤海正面临由石油平台作业、船舶航行及港口活动引发的多重油污染威胁。近几十年来,每年约有84万吨石油类污染物通过主要河流排入渤海,导致渤海水质持续恶化[4]。与此同时,Wang等运用地理信息系统评估了渤海石油污风险,结果显示辽东湾与渤海湾为高风险区域,陆源输入是渤海石油污染的重要来源[2]。
(a) (b)
(c) (d)
Figure 4. Characteristics of the planar distribution of oil in surface seawater by season. CPF51 four-season concentration map: (a) Spring, (b) Summer, (c) Autumn, (d) Winter
图4. 不同季节表层海水中石油平面分布特征。CPF52四季浓度分布图:(a) 春季,(B) 夏季,(c) 秋季,(d) 冬季
渤海海域石油污染物浓度及水质状况呈现显著的季节性差异。春季河流处于枯水期,陆源石油输入通量减少,但由于渤海半封闭的水体特性,污染物扩散能力较弱,使得沿岸区域石油污染物浓度仍维持较高水平,整体水质大致符合国家I~II类海水水质标准[21]。夏季径流量增加,在水动力稀释、微生物降解、东南风驱动的扩散作用以及高温促进降解等多重因素共同影响下,加之悬浮固体浓度较低,抑制了颗粒态石油的二次释放,石油浓度降至全年最低,水质基本符合国家I~II类标准[22]。秋季陆源输入持续,同时受半封闭地形、水动力扩散减弱、西北风作用及水温下降导致的微生物活性抑制等因素叠加,形成正反馈机制[2],石油污染物逐渐富集,水质明显超过国家I~II类标准,其中渤海湾近岸区域尤为显著。冬季受干旱期径流减少、水体交换能力弱、低温抑制微生物好氧降解、光照不足导致石油蒸发与光解减缓,以及北向季风输送等多重因素耦合影响[23],石油浓度显著超标,污染主要集中于三大海湾的入海口及沿岸区域,以辽东湾右岸最为突出。
6. 讨论
研究探讨了两种不同拟合方法在模拟渤海石油浓度空间分布中的有效性。通过分析2018年渤海265个监测站点的年均石油浓度数据,发现CPF52法在交叉验证中表现出最小的均方根误差(MAE)和均方根误差(RMSE),分别为0.0094 mg/L和0.0160 mg/L。这表明CPF52法在处理非均匀分布的石油浓度数据时具有高精度与高准确度。交叉验证结果显示,该方法在大多数交叉实验中的平均误差均低于其他三种方法,尤其在CV3、CV4、CV8和CV9交叉实验中表现尤为突出。此外,CPF52方法的误差主要集中在0~0.03 mg/L区间,该区间误差占比达98.08%。而TPF51方法虽在低阶时表现接近CPF52,但因多项式特性,高阶(
)时误差显著增大,存在过拟合风险。这表明CPF52方法在抑制大误差发生概率方面表现卓越,能更有效避免因大偏差导致的数据扭曲和结果偏倚,其中96.54%的数值偏差小于0.03 mg/L,显著优于其他方法。此外,在空间分布模拟方面,CPF52方法呈现出更平滑的浓度空间分布模式,与观测结果一致。季节性模拟进一步揭示了渤海石油浓度的动态机制:冬季高浓度(高达0.4988 mg/L)可能与北风驱动的海流聚集效应及海冰阻碍水体交换有关,而夏季低浓度则与船舶排放减少及禁渔期水体混合增强相关。此外,陆源输入和海洋活动对油浓度分布具有显著影响,验证了人类活动与自然过程相互作用对污染物分布的驱动作用[21]。
本研究在模拟渤海石油浓度空间时,因设备限制或环境干扰导致冬季数据较为稀疏,致使拟合精度降低,未能真实反映辽东湾的石油浓度分布特征[22]。后续研究需整合渤海石油多源数据,拓展拟合数据来源以降低误差。同时应借鉴生态系统建模方法,运用敏感性分析驱动参数优化以提升拟合精度[10]。未来需建立针对渤海石油动态特征的区域定制化参数体系,并探索多算法融合方案。