1. 引言
近年来,随着人口的快速增长和经济高速发展,水资源压力与水环境污染问题变得尤为严峻。水量短缺、水质恶化等挑战不断浮现,为科学应对这些问题,系统性地规划和管理成为关键,准确预测地表水体的污染程度及其趋势是有效管理的重要组成部分。为此,地表水水质预测模型应运而生,为决策者制定有效的污染防治策略提供了重要的数据支持。为了对秦皇岛市地表水水质情况进行更好地分析和预测,以秦皇岛市戴河口为例,对研究区地表水开展研究来进行水质分析和预测。传统水质数学模型依赖大量难以获取的水文和水质参数,这限制了其适用性和准确性。相比之下,机器学习方法能够直接处理实测数据,自动识别复杂模式,减少了对预先定义参数的需求。这种方法不仅提高了预测的精度,还增强了模型的适应性。随着人工智能技术的进步,包括深度学习在内的多种算法为水质预测提供了新的解决方案,使得研究人员可以更准确地评估和应对水质问题。
在水质预测中,考虑到水质数据既具有时间变化的周期性,又受到多种因素的影响而表现出复杂的变化特征,结合经典统计模型与深度学习的优势能够充分发挥ARIMA对线性趋势和季节性的捕捉能力,以及BiGRU对复杂非线性时序依赖的敏感性。文章以秦皇岛市戴河口点位自动监测站提供的数据为基础,建立了不同预测模型:传统时间序列模型ARIMA、深度学习模型BiGRU以及ARIMA-BiGRU组合模型。其中,ARIMA通过差分运算和自回归移动平均机制,能够有效提取序列中的线性趋势与周期性规律,尤其适用于具有稳定特征的水质指标预测;而BiGRU作为双向门控循环网络,通过同时捕获数据的前后向依赖关系,可挖掘水质参数中隐含的非线性动态特征,在应对突发污染事件等复杂变化时表现出更强的适应性。两者的组合模型通过融合ARIMA的显式趋势分解能力与BiGRU的深度特征学习优势,先利用ARIMA提取序列的线性成分,再通过BiGRU对残差中的非线性模式进行建模,从而实现对水质变化规律的多层次解析。相较于单一模型,这种组合策略既保留了传统统计方法在可解释性方面的优势,又继承了深度学习对复杂关系的表征能力。通过对比不同模型(包括ARIMA、BiGRU以及ARIMA-BiGRU组合模型)对溶解氧、氨氮等关键指标的预测效果,研究发现组合模型在长短期预测任务中均展现出更高的精度和稳定性。这种融合方法不仅为水质预测提供了兼顾线性与非线性建模的新思路,其预测结果还能为管理者提供跨时间尺度的决策支持,助力制定兼顾短期应急响应与长期生态保护的水环境治理方案。
2. 研究现状分析
20世纪20年代至80年代,水质模型的发展经历了初级阶段,这一时期的起点是Streeter-Phelps模型[1]对水体中有机物的氧化过程进行了描述,在此基础上O’Connor和Dobbins [2]改进了复氧速度常数,并引入了时变模型的概念。20世纪80年代至90年代中期,水质模型的研究迎来了快速发展期,这些模型通过数值方法求解方程来实现对污染物动态变化的有效分析[3],如一维稳态模型QUAL II [4]及二维和三维模型EFDC [5]。在实际应用这些模型时需要精确设定边界条件和模型参数,并划分细致的计算网格,这对资料的完整性和准确性提出了较高要求,想要通过数学方法完全准确地描述这些过程非常困难。
20世纪90年代中期以来,机器学习技术在水质预测模型研究中的应用取得了长足的发展。支持向量机(SVM)能够通过最大化分类间隔来寻找最优决策边界,适用于小样本、非线性及高维模式识别问题,因此在水质评估和预测方面具有较高的实用价值[6]。随着算法的不断优化,神经网络及其变种模型逐渐成为水质预测领域的主流,以其强大的非线性映射能力显著提升了水质预测的准确性和可靠性。李霖等[7]提出由CNN卷积神经网络驱动的领域预测模型,它能够同时考虑水质的时间和空间变化规律,有效捕捉水质数据中复杂的非线性结构,提高了赣江流域水质预测精度。Zhi等[8]采用长短期记忆网络(LSTM)构建了湖泊溶解氧的预测模型,LSTM模型能够捕捉到长期依赖关系,适合处理具有时间序列特性的水质数据,能够更好地模拟水质指标随时间的变化规律,提高预测的准确性。王昱文等[9]展示了复合神经网络在长江流域四项水质指标预测中的优越性,该模型相较于传统神经网络和其他机器学习方法,显示出更好的适用性和准确性。Shi等[10]证明了神经网络在高频地表水水质预测任务中的高效性。郑淏等[11]针对渭河咸阳段的水质数据,利用BP神经网络的自适应与自组织能力进行了模拟和验证,确定了此方法在预测水质变化情况中的可行性。周朝勉等[12]提出一种基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的混合模型来预测安徽省蚌埠闸水质中的溶解氧浓度,试验结果表明CNN-LSTM混合模型要优于单一的LSTM模型和BP神经网络模型。
近年来,研究者们还探索了更多先进的深度学习架构,如门控循环单元(GRU)等。徐倩文[13]建立门控循环神经网络模型(GRU)对维多利亚港的水质进行预测,结果表明GRU神经网络模型的预测精度要高于LSTM模型,具有可靠性和适应性。韩旭等[14]提出了一种基于多头注意力机制的CNN-BiGRU混合模型用于水质预测,通过融合CNN的特征提取能力和BiGRU的时间序列预测优势,实现了高精度的水质预测,为水环境污染治理提供了技术支持。BiGRU继承了GRU的门控机制,减少了参数数量,提高了计算效率,尤其适合处理具有前后向依赖关系的水质数据。在预测河流水质变化时,BiGRU可以同时考虑上游和下游的影响,提供更加全面的预测结果。
3. 变量指标与数据获取
本文的数据来源于国家地表水水质自动监测实时数据发布系统(国家水质自动综合监管平台),特别选取了位于河北省秦皇岛市海河流域的戴河口断面监测站点。本次研究所使用的数据涵盖了从2018年6月至2024年3月的时间段,期间采取每4小时一次的高频次采样策略,旨在捕捉水质参数的动态变化特性。针对水质评估与预测的目的,我们选择了以下六项重要指标:pH值、电导率(EC)、溶解氧(DO)、高锰酸盐指数(IMn)、总磷(TP)以及氨氮(
)。这些指标被广泛认为是衡量水质状况的关键参数,能够有效反映水体的物理、化学及生物性质。通过分析这些参数的变化趋势,可以为水资源管理、污染控制措施制定提供科学依据,并对未来的水质状况做出合理的预测。此外,为了确保数据的准确性和可靠性,所有采集的数据均经过严格的质量控制程序,包括数据校验、异常值检测和处理等步骤,提升了研究结果的可信度,也为进一步深入探讨水质变化规律及其驱动因素奠定了坚实基础。
为了确保数据采集的准确性和及时性,我们根据各个数据源发布数据的频率设定了相应的定时任务。国家地表水水质自动监测实时数据发布系统每4小时更新一次各站点的水质监测数据,具体更新时间为每日的0时、4时、8时、12时、16时和20时左右。基于此,我们利用Python爬虫技术设置了每4小时执行一次的数据采集任务,确保获取最新发布的水质数据。通过对收集到的数据进行初步质量审查,分析数据缺失情况、数据异常情况等,剔除异常值确保了后续分析的准确性,从2018年6月17日至2024年3月17日的时间跨度内,共整理出69个月的数据用于后续研究。
4. 模型的建立与研究
4.1. 模型设计思路及数据预处理
针对水质时间序列数据中复杂的线性和非线性特征,本文提出了一种基于ARIMA-BiGRU的混合模型。该模型结合了传统时间序列分析方法(ARIMA)与深度学习技术双向门控循环单元(BiGRU),旨在通过以下方式提升分类性能:线性特征提取,利用ARIMA模型捕捉水质数据中的趋势性、周期性和平稳性特征;非线性特征挖掘,通过BiGRU网络建模数据中的复杂时序依赖关系和非线性模式;特征融合与优化,将ARIMA的残差即未捕捉的噪声信息与原始特征结合,作为BiGRU的输入,从而增强模型对数据多尺度特征的表达能力。在进行数据加载与清洗时,以“监测时间”为索引,按时间顺序对齐水质指标(水温、pH值、溶解氧等)及类别标签(I-劣V类),采用线性插值法填充缺失值,确保时序连续性。然后进行标准化与编码,对连续型特征进行Z-score标准化,消除量纲差异,使用LabelEncoder将水质类别I-劣V类映射为数值标签0~5,适配分类任务需求。再进行平稳性检验与差分处理,通过ADF检验(Augmented Dickey-Fuller Test)验证时间序列的平稳性,对非平稳序列进行差分操作,直至通过检验(p-value < 0.05)。
4.2. ARIMA模型构建
ARIMA(自回归积分滑动平均)模型是一种经典的时间序列分析方法,适用于捕捉数据中的线性特征,如趋势和周期性。其核心思想是通过自回归(AR)、差分(I)和滑动平均(MA)三个部分对时间序列进行建模。ARIMA模型表示为ARIMA (p, d, q),其中:p为自回归阶数,表示当前值与过去p个值的线性关系;d为差分阶数,用于使非平稳时间序列平稳化;q为滑动平均阶数,表示当前值与过去q个残差的线性关系。具体模型公式为:
其中L为滞后算子,
、
为系数,
为白噪声。
通过ADF检验确定差分阶数d,使序列平稳。利用自相关图(ACF)和偏自相关图(PACF)分别确定q和p。基于AIC准则优化参数组合,拟合ARIMA模型。计算ARIMA预测残差
,反映模型未捕捉的非线性信息。将残差作为新特征输入至BiGRU模型,增强特征表达能力。通过ARIMA模型,能够有效提取时间序列中的线性特征,为后续BiGRU建模提供重要补充。
4.3. BiGRU模型构建
双向门控循环单元(BiGRU)是一种改进的循环神经网络(RNN),通过引入双向结构,能够同时捕捉时间序列数据中的前向和后向依赖关系,适用于建模复杂的非线性时序特征。BiGRU在传统GRU的基础上,增加了反向传播路径,从而更全面地提取时序信息。BiGRU由两个独立的GRU层组成,分别从前向和后向处理输入序列:前向GRU:从时间步t = 1到t = T处理序列,生成隐藏状态
;后向GRU:从时间步t = T到t = 1处理序列,生成隐藏状态
。最终,BiGRU的输出为前向和后向隐藏状态的拼接:
,其中,
表示向量拼接操作。每个GRU单元通过以下公式更新隐藏状态:重置门
;更新门
;候选隐藏状态
;最终隐藏状态
。其中,
为Sigmoid函数,
表示逐元素乘法,
、
、
为可学习参数。
在网络设计中,输入层是接收维度为(N, T, F)的时序数据,其中N为样本数,T为时间步长,F为特征数。BiGRU层隐藏单元数为64,输出维度为(N, T, 128) (双向拼接后)。Dropout层的丢弃率为0.5,用于防止过拟合。输出层通过Softmax函数输出六类水质的概率分布。损失函数中的稀疏交叉熵,适用于多分类任务。Adam优化器,初始学习率为0.0005,配合动态学习率衰减。正则化中早停策略(patience = 10),监控验证集损失以避免过拟合。类别权重则是根据样本频率来计算,提升模型对少数类的分类性能。通过BiGRU模型,能够有效捕捉水质时间序列中的非线性依赖关系,结合ARIMA提取的线性特征,显著提升分类性能。
4.4. ARIMA-BiGRU模型
本文通过结合ARIMA与BiGRU,实现对水质时间序列数据的高效建模与分类。其核心思想是通过ARIMA提取线性特征,并通过BiGRU捕捉复杂的非线性依赖关系,从而实现特征的多尺度融合与优化。ARIMA模块用于捕捉时间序列中的线性特征如趋势性和周期性,通过拟合ARIMA模型生成预测值
,并计算残差
,反映ARIMA未能捕捉的非线性信息。BiGRU模块用于建模时间序列中的非线性特征和复杂依赖关系,输入为原始特征与ARIMA残差的拼接,输出为水质类别的概率分布,此模块输出的分类结果为
,其中
为BiGRU的隐藏状态,
和
为输出层的权重和偏置。
ARIMA-BiGRU模型通过特征级融合将ARIMA的线性特征与BiGRU的非线性特征结合,将原始特征
与ARIMA残差
拼接,形成增强特征集
,其中
表示特征维度拼接。ARIMA残差
包含线性模型未捕捉的噪声和非线性信息,BiGRU通过双向结构进一步提取时序依赖关系,增强后的特征集
输入BiGRU网络,同时建模线性和非线性特征。ARIMA模块负责显性趋势如长期水质变化,BiGRU模块挖掘隐性模式如突发污染事件的特征关联,残差传递机制使模型自适应调整特征权重,避免单一模型对特定特征的过拟合。在模型训练过程中采用适用于多分类任务的稀疏交叉熵损失函数,即
,其中
为真实标签,
为预测概率。在模型优化过程中Adam
优化器的初始学习率设为0.0005,配合动态学习率衰减,当验证损失停滞时按因子0.2降低学习率。设置早停机制来监控验证损失,若连续10轮无改善则提前终止训练,恢复最佳权重。并进行类别权重调整,根据训练集样本分布计算权重,提升模型对少数类(劣V类)的分类敏感性。Dropout层设置丢弃率 = 0.5,在BiGRU层后加入,随机屏蔽部分神经元,防止过拟合。
本文构建的ARIMA-BiGRU混合模型在水质分类任务中展现出较高的分类性能与泛化能力,验证了时序线性特征与非线性特征结合的有效性。通过实验结果分析,得出以下结论,模型在测试集上取得88.8%的准确率,五折交叉验证平均准确率达88.0%,表明其具有较强的稳定性。训练过程中验证准确率从初始35.3%逐步提升至峰值90.3%,并在训练后期稳定于88.0%-89.6%区间,证明模型能有效学习水质数据的时序特征与非线性关系。
Table 1. Classification report
表1. 分类报告
类别 |
精确度 |
召回率 |
F1值 |
I |
0.62 |
1.00 |
0.77 |
II |
0.93 |
0.95 |
0.94 |
Ⅲ |
0.91 |
0.85 |
0.88 |
Ⅳ |
0.87 |
0.83 |
0.85 |
V |
0.79 |
0.96 |
0.87 |
劣V |
0.94 |
0.68 |
0.79 |
宏平均 |
0.84 |
0.88 |
0.85 |
加权平均 |
0.89 |
0.89 |
0.89 |
本文通过分类模型对多个类别进行了预测,并基于预测结果生成了详细的分类报告。根据上表1的各项指标,模型的加权平均精确度、召回率和F1分数分别为0.89、0.89和0.89,表明模型在整体数据集上展现出了良好的性能。这证明了所选模型在处理此类分类任务时的有效性和可靠性。II类(F1-score 0.94)、V类(F1-score 0.87)水质识别效果最佳,宏平均精确度、召回率和F1分数分别为0.84、0.88和0.85,这些指标提供了对所有类别性能的总体评估,即整体性能良好。
从图1的混淆矩阵及评估结果来看,模型在水质分类任务中展现出较好的整体性能。混淆矩阵主对角线值显著高于非对角线元素,表明模型对多数水质类别具备较强的辨识能力。测试集准确率达到88.8%,验证了ARIMA-BiGRU混合架构在时序水质数据特征提取中的有效性。
从图2基于多分类的ROC曲线也可以看出ARIMA-BiGRU混合模型在水质分类任务中展现出卓越的判别能力。所有水质类别的AUC值均高于0.98,其中I类(Class 0)和Ⅳ类(Class 3)的AUC达到1.00,表明模型能够近乎完美地区分正负样本,验证了其在高维时序特征提取与非线性关系建模中的有效性。I类水质(Class 0)的AUC为1.00,结合混淆矩阵中100%的召回率,表明模型对高等级水质(如I类)的识别具有绝对可靠性。劣V类(Class 5)的AUC为0.98,虽低于其他类别,但仍处于极高水平,其召回率偏低(68%)更多源于样本复杂性而非模型判别能力不足。高AUC值(均 > 0.98)表明模型在实际水质监测场景中具备较强的鲁棒性,尤其在区分相邻水质类别(Ⅲ类与Ⅳ类)时表现稳定,可为环境管理部门提供高可信度的分类结果。
从表2中可以看出,五次交叉验证的平均准确率为88.01%,且各折叠间准确率波动较小(86.99%~89.56%),表明模型在不同数据子集上均表现出较强的稳定性与泛化能力。II类水质(平均召回率 > 90%)和V类水质(平均召回率 > 92%)的识别效果最佳,宏平均F1值为84.60%,加权平均F1值为88.00%,说明模型在整体分类任务中具备较高的综合性能。
总体研究结果表明模型在整体数据集上表现出较高的预测能力,加权平均精确度、召回率和F1分数均达到较高水平,但也存在一些误差因素会对模型性能造成影响。首先,数据质量与特征选择对模型性能具有直接影响。数据中的噪声、异常值以及特征选择的合理性均可能限制模型的预测准确性,未来会通过特征工程筛选更具代表性的特征,以减少冗余信息对模型性能的干扰。其次,模型复杂度与类别
Figure 1. Confusion matrix
图1. 混淆矩阵
Figure 2. ROC curve and AUC value
图2. ROC曲线及AUC值
Table 2. Cross-validation results
表2. 交叉验证结果
组别 |
准确率 |
召回率 |
F1值 |
Fold1 |
86.99% |
82.00% |
84.00% |
Fold2 |
89.56% |
88.00% |
88.00% |
Fold3 |
87.88% |
80.00% |
81.00% |
Fold4 |
88.03% |
87.00% |
85.00% |
Fold5 |
87.58% |
85.00% |
85.00% |
平均 |
88.01% |
84.60% |
84.60% |
不平衡问题也是影响预测结果的重要因素,可能使模型在少数类别上的预测表现不佳。未来会探索更先进的模型架构如深度学习模型来捕捉数据中的复杂关系,并采用重采样或代价敏感学习等方法处理类别不平衡问题。此外,水质指标的选择与测量准确性对预测结果具有重要影响,未来会充分考虑水质指标间的相互作用及其对水质类别判定的影响。时间尺度也是关键因素,水质状况会随时间不断变化,模型需具备捕捉时间动态的能力以提高预测准确性。综上所述,未来的研究会进一步优化数据预处理、特征选择、模型架构,并充分考虑水质指标和时间尺度的影响,以提升模型的预测准确性和泛化能力。
5. 结论
本文提出的基于ARIMA-BiGRU混合模型的时序水质分类方法,从实际监测数据中提取多维特征进行实证研究。实验结果表明,通过双向GRU层与ARIMA的结合,模型能够有效捕捉水质数据的时序依赖性与非线性关系。利用五折交叉验证对模型性能进行评估,平均准确率达到88.01%,验证了模型的稳定性与泛化能力。通过混淆矩阵与ROC曲线分析,进一步证实了模型在高精度分类任务中的优越性,尤其在多数类(II类、V类水质)识别中表现突出。该模型可为水质监测与评估提供科学依据,为环境管理部门决策提供支持。