1. 引言
水质在线监测能够准确地反映水环境的污染情况以及水体质量的变化,是实施水环境保护和水资源管理的重要、有效手段。水质检测方法主要有生物法 [1] 、电化学法 [2] [3] 和光谱测量法 [4] [5] 等。生物法利用水生生物受水污染物影响而产生的各种机体反应来检测水体的污染程度,能够有效监测水体毒性,具有覆盖范围广、实用性好的优点,但同时存在检测耗时长、操作繁琐、不可重复使用等问题,使得生物法在水质检测中的应用效果不佳。电化学法使用特制的双镀层电极,通电后电解产生的氢基直接氧化水样中的有机物,具有测量速度快、测量方法简单的优点,但电极使用寿命过短、无法连续多次测量的问题使得电化学法适用范围较窄,难以适应大范围、多次数的测量环境。光谱测量法根据水中有机物对不同波长的光产生特定的光谱数据,通过光谱分析技术检测水样的各项参数。光谱分析技术是近年来发展迅速的一种间接测量分析技术,目前已广泛应用于食品 [6] 、生物 [7] 、环境 [8] [9] 等领域。
但近年来迅猛发展的单一光谱法存在诸多缺陷,诸如:紫外吸收光谱法对低浓度的水样灵敏度较差,不能区分水中有机物的种类;近红外光谱法容易受外界干扰且光谱信噪比较低;荧光光谱法存在猝灭、自吸收等不稳定因素,没有有效的去噪方法。基于此,基于多源光谱法的水质在线监测近年来成为研究热点,为水质分析提供新的研究思路。多源光谱法相较于单一光谱法具有显著优势:抗干扰能力强,各光谱法相互互补;将多种光谱数据比对分析,有效减小误差;能够适应更加复杂的水质环境,适用范围广泛。多源光谱法在水质分析中的应用,不仅提供了一种新的解决办法,同时也大大提高检测数据的精度,实现了高效快速地检测水质参数,为搭建水质在线监测系统提供了理论依据。
2. 多源光谱应用于水质分析的原理
多源光谱法的原理是联合不同光谱检测水质时各自的优点,利用数据融合理论对不同光谱特征数据对水质COD进行建模分析。多源光谱法的基本步骤是:分别采集不同源的水质光谱曲线,预处理后提取光谱对水样的特征有效数据,然后建立特征模型预测水样的化学需氧量。水中化合物对不同波长的光产生不同的吸收光谱,结合不同光谱的吸收峰,利用各光谱的优势弥补互相的缺点,是多源光谱法优于单一光谱法的核心要素。多源光谱法结合不同光谱间的互补性,将两种光谱特征数据预处理后送入预测模型对比,再辅以特殊的算法计算出检测结果,极大地提高了检测精度。
多源光谱法按照联用光谱种类主要分为紫外–近红外多源光谱法 [10] 和紫外–荧光多源光谱法 [33] 两种方法。紫外–近红外多源光谱法原理是利用近红外光吸光系数小、可穿透性高的优点,结合水体物质对紫外光吸收较好的特点,通过特征光谱数据融合建模预测水质参数,建模过程如图1所示,将采集的光谱预处理后,对光谱数据进行特征处理,最后采用数据融合建模算法对数据完成建模。近红外光波长较长,具有很强的衍射性,适用于高散射、高吸收度的介质中。近红外吸收光谱作为紫外吸收光谱在长波长上的延伸,较好地弥补了紫外吸收光谱容易受水中化合物散射影响的缺点。近红外吸收峰包含有大量的结构信息,为有机物的识别和定量分析提供了数据基础。目前,近红外光谱法在化工、医药、食品等方面得到了广泛应用,在有机物的定量分析方面也取得了显著成果。由于水分子对近红外光的吸收度较高,不利于水中微量化合物的检测,所以常常作为紫外吸收光谱的补充和参考 [11]。

Figure 1. Data fusion modeling flow chart
图1. 数据融合建模流程图 [33]
紫外–荧光多源光谱法的原理是利用水中物质能够吸收激发光的基础上,结合它们在紫外光激发下产生不同荧光光谱的特性,提出光谱数据互补的方法测量水质参数,其原理如图2所示,特征信号的组合与平衡关键在于将紫外与荧光的光谱进行互补,两者具有很强的相关性。首先将待测水样通过透射光路和发射光路分别生成紫外吸收光谱和荧光发射光谱;然后对数据特征提取与干扰剔除;最后将特征信号组合与平衡后送入融合模型分析得出数据结果。在短波长的照射下,水样中某些污染物会产生长波长的荧光。荧光光谱的强度与污染物的浓度和种类相关,因此可以对污染物进行识别和分析。水样中某些污染物在在紫外吸收光谱中很难区分,但在荧光光谱中较为明显,所以荧光光谱与紫外吸收光谱有很强的互补性,常常将两种光谱联合检测水质参数,提高数据精度。

Figure 2. UV-fluorescence multi-source spectroscopy schematic
图2. 紫外–荧光多源光谱法原理图 [29]
3. 基于多源光谱的特征建模算法
作为传统化学法的替代测量方法,光谱分析技术测量水质参数已被广泛应用。利用光谱分析技术检测水质参数,首先需要建立对应的数学模型,而数学模型的优劣也是决定测量精度的重要因素。多源光谱法在此基础上,探讨了几种模型优化算法,提高了检测结果的精度。相较于传统建模方法,模型优化算法能够求出当前检测水样的最优参数,加快了模型的建立,极大地增强了模型的准确度。基于此,对几种优化模型算法进行了分析和讨论。
基于非负矩阵分解的最小二乘支持向量机算法。非负矩阵分解(non-negative matrix factorization, NMF)具有理论性好、解释性好的特点,在处理大数据样本时相较于传统矩阵分解算法有独特的优势,目前已广泛应用于图像处理、语音处理等领域 [12] [13]。非负矩阵分解可以描述为:假设有n个数据点由矢量表示,用矩阵
表示整个数量集 [14],寻找非负矩阵因子U和V,使得两个因子的乘积是原始矩阵的近似值,其数学表达式为:
(1)
其中,U和V是非负矩阵因子,X为两个因子乘积的近似值。
支持向量机(support vector machine, SVM)是Vapnik根据统计学原理提出的一种通用学习方法 [15],在解决非线性、高维数问题方面有较好表现。最小二乘支持向量机(least squares support vector machine, LSSVM)是在支持向量机的基础上提出的改进方法,将二次规划问题转换为线性方程组问题来求解 [16],大大降低了计算复杂度,提高了运算速度。基于NMF_LSSVM算法的建模方法为:首先利用非负矩阵分解对光谱数据进行特征提取,然后将不同的特征组合送入最小二乘支持向量机训练解出最优模型参数,最后建立特征模型。
基于粒子群的最小二乘支持向量机算法。粒子群算法(Particle Swarm optimization, PSO)具有容易理解、易于实现的特点,被广泛应用于函数优化、神经网络训练等领域。粒子群算法源于鸟群捕食行为的研究,是一种基于群体的优化计算方法,适用于复杂和非线性问题。粒子群算法可以描述为:在一个多维的空间中,粒子的当前位置是由速度适量来更新的 [17],第i个粒子的速度和位置分别为:
(2)
(3)
式中
,
是加速系数,
,
是[0,1]范围内的均匀随机数,
和
分别表示粒子i在第t次迭代中第d维的速度和位置,
代表粒子i在第d维的个体极点的位置,
代表整个群在第d维的全局极值点的位置。
PSO_LSSVM算法建模方法可以表述为:通过主成分分析算法对光谱数据进行预处理,然后利用粒子群算法对最小二乘支持向量机的函数参数进行优化,最后送入最小二乘支持向量机训练解出最优模型参数。相较于NMF_LSSVM算法,PSO_LSSVM算法对光谱数据进行了降维处理,简化了数据处理,显著加快数据处理速度,为在线水质检测系统奠定了基础。
4. 国内外多源光谱的研究现状
目前,基于光谱分析的水质COD检测技术主要是紫外吸收光谱法 [18] [19],汤斌等 [20] 提出了一种基于粒子群的最小二乘支持向量机优化模型,引入主元分析算法显著提高了模型精度,但紫外吸收光谱受水中悬浮物的干扰较大,检测范围较窄,仅适用于成分变化不大的水样检测;近红外吸收光谱法 [21] [22] 在水质检测方面也有研究,但由于光谱信噪比低、易受外界干扰的缺点,使得近红外光谱法的应用较少;荧光光谱法 [23] 也能完成水质COD的检测,但荧光光谱自吸收、猝灭等不稳定因素尚待解决,因此应用不多。基于此,提出了多源光谱检测水质COD等参数,较好地解决了单一光谱检测水质参数存在的不足。
多源光谱广泛应用于各个领域,国内外都有相关报道。2013年,Alamprese等 [24] 采用近红外、紫外–可见、中红外三种光谱联用对在碎牛肉中残留的火鸡肉进行了检验,结果显示三种光谱联用的实验结果较好。2015年,Martelo-Vidal等 [25] 联合近红外和紫外可见光谱并利用人工神经网络测定了水溶液中葡萄糖、乳酸等的含量。2016年,焦爱权等 [26] 利用中红外和近红外光谱的特征波段融合检测了黄酒中的总酚含量及其抗氧化能力,结果证明两种光谱的融合技术可显著提高模型的预测精度。2018年,徐伟杰等 [27] 利用近红外反射光谱和拉曼散射光谱联合检测了火星表面相关矿物的数据,结果表明光谱融合建立的分类模型预测准确度更高。2019年,邹小波等 [28] 运用近红外及中红外融合技术对小麦的产地和烘干程度进行了检测,结果表明光谱数据融合建模后的小麦识别率显著提高。
近年来,多源光谱应用于水质分析成为新的研究热点,许多学者取得了显著的研究成果。2010年,穆海洋等 [29] 运用光谱信息融合理论研制了多参数水质分析仪,可快速检测水质COD等参数。2011年,吴国庆 [30] 等提出了联合近红外和紫外光谱对水质化学需氧量进行检测,实验结果证明联合融合建模预测效果显著优于使用单一光谱。2012年,Hur等 [31] 联合三维荧光光谱和紫外吸收光谱分析了城市河流的水质化学需氧量等参数,实验证明效果良好。
2007年,浙江大学的李艳君团队 [32] 提出了紫外吸收光谱与荧光光谱相结合的水质检测方法,采用光谱信息融合理论,自主设计了仪器的分析方法、硬件结构、软件算法。其工作原理是对水质样品的紫外光吸收光谱和三维荧光光谱的测量进行分析。李艳君团队将紫外光吸收光谱和三维荧光光谱相结合的方法,体现了两者的相关性和互补性,使得检测数据更加准确。
2014年,燕山大学的毕卫红团队 [10] 提出了联合紫外和近红外光谱对水体参数进行检测的方法探究。主要工作原理是分别采集紫外吸收光谱和近红外光谱,对数据预处理后,通过非负矩阵分解算法进行数据的特征提取,然后送入样本集通过粒子群最小二乘支持向量机算法对水样的化学需氧量进行分析。毕卫红团队提出了一种基于NMF_LSSVM多源光谱特征组合算法的水质COD检测模型,证明了多源光谱特征组合算法的精确性和多源光谱检测水质参数的可行性。
2018年,毕卫红团队 [33] 提出了基于紫外–荧光多光谱融合的水质化学需氧量检测方法,其原理是采集紫外和荧光光谱数据,然后提取特征数据,最后通过基于粒子群的最小二乘支持向量机算法建立水质模型。毕卫红团队提出,在建立特征模型时,采用基于粒子群的最小二乘支持向量机算法(PSO_LSSVM)建模较为理想,并通过实验与紫外吸收光谱模型和荧光发射光谱模型作对比,结果证明了融合光谱建模方法优于单一光谱建模方法。
5. 发展趋势及关键技术问题
在水污染日趋严重和在线监测仪器应用于水质分析的迫切需求下,多源光谱在水质监测领域的应用将呈现以下几种趋势:
1) 便携化与小型化。传统的光谱水质检测系统包括光源、样品槽、计算机系统等模块,占用面积大,移动困难,维修成本高,常用于水质监测站。为了满足移动检测、成本低、功耗低的要求,提高设备便携性,设计出小型化、数字化的移动检测终端成为了必然趋势。设备的成本得以控制,费用不再高昂,降低了水质检测试验条件。光谱仪体积不断减小,更适用于野外检测,再加上仪器精密度提高,也大大提高了便携性。
2) 实时化与数字化。水质检测的实时化是未来的发展趋势,搭建在线水质分析系统,将仪器的检测数据通过数字化系统上传到云端网络,建立云端数据库,提高数据精度。深度学习是近年来机器学习的研究热点,在图像识别等多个领域取得重大研究成果。利用深度学习对光谱数据进行处理,大大加快了数据处理速度,提高系统的整体效率。深度学习与云端数据相结合的在线水质分析系统将显著提高检测精度和速度,再加上仪器的便携化和小型化,使得野外无污染、体积小、快速的水质检测系统成为了可能。
3) 光谱多源化。目前,多源光谱水质分析主要是联用两种光谱互补分析,三种及三种以上的方法罕见报道。联合三种及以上的光谱数据对水质参数进行分析,对算法和数据融合的要求较高,所以还没有一套成熟的系统来支撑三种光谱联用。根据两种光谱联用的特点,可以预测未来三种光源联合的研究思路是将一种光谱作为主要检测数据,另外两种作为参考和补充。三源及多源的研究也将是未来光谱检测水质参数的研究方向,多光谱的联用也将进一步提高数据精度。
6. 结论
作为一种新的光谱分析改进方法,多源光谱应用于水质分析近年来受到学者的广泛关注。多源光谱法的出现,弥补了单一光谱法容易受到环境干扰的短板,应用范围更加广泛,相较于单一光谱法而言,显著提高了检测效率和数据精度,更是一种高效、绿色的检测方法。多源光谱法将两种不同特征光谱互补,再辅以特殊的算法,实现了更高效、更先进的水质检测方法,为以后水质检测的应用指明了研究方向。紫外–荧光多源光谱法可行性高、原理性好,为水质参数提供了可靠的检测方法,在未来必将得到广泛应用。然而,多源光谱在水质分析中的应用还存在诸多问题和困难,在提高检测精度、设备便携性、在线检测网络等方面仍需进一步的研究。
基金项目
国家自然科学基金(61805029),重庆市社会事业与民生保障科技创新专项(cstc2017shmsA00004),重庆理工大学研究生创新基金(ycx20192053)资助。
NOTES
*通讯作者。