函数型数据方法在水质分析中的应用
The Application of the Functional Data Method in Water Quality Analysis
DOI: 10.12677/MOS.2022.115127, PDF, HTML, XML, 下载: 250  浏览: 453 
作者: 吴尚文:北京建筑大学理学院,北京
关键词: 函数型数据多元回归模型水质分析Functional Data Multiple Regression Model Water Quality Analysis
摘要: 研究水质变化趋势是水质监测的重要内容。水质变化过程是一个连续的过程,只是我们监测到的数据是离散的。由于水质监测数据具有不等时间观测、非线性变化的特点以及其数据内部表现出的函数性特征,考虑采用函数型数据分析方法进行研究。在本文中,我们在对样本数据进行函数化处理的基础上,本文将函数型回归模型应用于松花江肇源段的水质分析中,预测效果良好,为该地区的水质监测提供参考。
Abstract: Studying the variation trend of water quality is an important part of water quality monitoring. Though the data we got via monitoring is discrete, the variation process of water quality is continuous. Considering the monitoring data of water quality has the characteristics of unequal time observation, nonlinear change and functional feature, we selected functional data analysis. Based on the functional processing of sample data, we used functional multiple regression method to predict water quality of Zhaoyuan section of Songhua River. And the cluster was carried out according to principal components scores. The results show that the functional data analysis method is effective. This method provides a reference for water quality monitoring in this area.
文章引用:吴尚文. 函数型数据方法在水质分析中的应用[J]. 建模与仿真, 2022, 11(5): 1352-1357. https://doi.org/10.12677/MOS.2022.115127

1. 引言

大多数水质变化过程是一个连续的过程,这个过程生成的统计数据可以用一个类似函数的特征表达式来描述,而通过现有的统计手段所获取的信息往往是一个不连续的、片段的、离散的有界、有序的数列。函数型数据分析方法则能较好地处理这一类的数据:它将观测数据的产生当作一个函数过程,认为样本数据之中存在着某种函数型特征,采用连续函数的方法将原本的离散数据有效地联系起来,更好地探究了数据本身的非线性变化趋势 [1];针对函数数据的研究的目的与其他传统的统计学一样:在统计学思想和分析的指导下阐述问题;研究能够凸显数据重要特征的表现方式;为观测得到的数据建立统计模型等等 [2] [3] [4] [5]。水质预测是一个经典问题,使用的方法很多,回归分析是其中最常用的方法之一。但这些方法都是基于离散数据的方法,忽略了数据背后隐藏的连续性,采用函数型数据分析可以挖掘数据的隐藏信息。实际上,函数数据分析中的各个方法比如回归分析、聚类分析等在水质数据分析、空气质量数据分析等领域得到较为广泛地应用 [6] [7] [8] [9]。

本文将应用函数型数据分析方法进行黑龙江肇源水质数据的预测问题,实现更有效地监测水质的目的。

2. 函数型数据及函数型多元回归模型

2.1. 函数型数据

函数型数据(Function Data)是指一个集合,该集合中的元素均为定义在某个连续区间上的函数。

F ( x 1 , x 2 , , x p ) = ( f 1 ( x 1 , x 2 , , x p ) f 2 ( x 1 , x 2 , , x p ) f n ( x 1 , x 2 , , x p ) ) , (1)

x j ( , + ) , j = 1 , 2 , , p

函数型数据是连续的数据,而一般的数据采集都是离散的。因为通过观察得到的原始数据通常以表格形式存储,这可以理解为对函数数据的截取,是自变量取一些特定的值所对应的函数值,他们是函数离散化的记录形式。显然,Ramsay所提出的函数型数据的定义域是整个区间,所以函数型数据可以包含的信息,比常见的以数据表形式出现的离散数据所包含的信息更多。

从离散的观测数据中提取连续的函数数据,我们可以用基函数法、小波变换、核函数等 [10]。本文中,我们介绍基函数法,其核心是用离散的观测值来估计其函数模型,可用下列公式表示

x ^ ( t ) = k = 1 K c k φ k ( t ) (2)

其中基函数 φ k ( t ) ( k = 1 , 2 , 3 , , K ) 的选择和系数向量 c = ( c 1 , , c k ) 的估计是两个难点。我们可以选择傅里叶变换和样条插值作为基函数,前者针对周期性数据,后者针对非周期性数据,系数向量则通过最小二乘法来解决。

2.2. 函数型多元回归模型

多元线性回归分析是一个被广泛应用的重要方法。在自然科学和社会科学的诸多领域都有很好的应用 [11] [12]。根据回归模型的不同,多元回归分析又可以分为线性回归和非线性回归两个大类。其中线性回归模型最为成熟,其应用也是最为广泛;此外,许多非线性回归模型也可以转化为线性回归模型来求解。

Y ( t ) = β 1 X 1 ( t ) + β 2 X 2 ( t ) + + β p X p ( t ) + ε ( t ) (3)

在函数型数据分析领域内,与普通离散数据的多元线性回归分析技术相对应的就是函数型数据的常系数多元线性回归问题。与普通的多元线性回归分析的不同之处在于其因变量Y和自变量 X 1 , , X p ,以及随机误差项 ε 都是以函数曲线形式存在的函数数据。而函数数据线性回归分析的目的就是通过研究因变量Y的曲线形态与自变量 X 1 , X 2 , , X p 的曲线形态之间的关系,建立因变量曲线与自变量曲线的线性回归模型 [13]。

函数型数据的常系数多元回归模型的建立步骤如下:

首先,我们给出点积的定义。对于普通的离散数据而言,两个p维变量x和y的点积定义为: x , y = i = 1 p x i y i 。显然,因为函数型数据的特殊性,这样的定义形式不适合定义数据型数据的点积,特此引用以下积分形式定义函数数据的点积,如下:

在函数数据空间中,对于 x ( t ) L 2 [ a , b ] y ( t ) L 2 [ a , b ] x ( t ) y ( t ) 的点积定义为:

x ( t ) , y ( t ) = a b x ( t ) y ( t ) d t (4)

简记为:

x ( t ) , y ( t ) = x ( t ) y ( t ) d t (5)

另外,称 I ( t ) = 1 , t [ a , b ] 为单位函数。

假设因变量 y ( t ) 和p个自变量 x 1 ( t ) , x 2 ( t ) , , x p ( t ) 均属于 L 2 [ a , b ] 。若观测了n个样本,则多元线性回归总体模型可以写成:

y i ( t ) = β 0 I ( t ) + β 1 x i 1 ( t ) + β 2 x i 2 ( t ) + + β p x i p ( t ) + ε i ( t ) , i = 1 , 2 , , n (6)

其中, ε i ( t ) 为随机误差项,并且 ε ( t ) ~ N ( 0 , σ 2 ) , t [ a , b ] β 0 , β 1 , , β p 是模型的待估参数,记其估计值为 β ^ 0 , β ^ 1 , , β ^ p ,则多元线性回归模型为:

y ^ i ( t ) = β ^ 0 I ( t ) + β ^ 1 x i 1 ( t ) + β ^ 2 x i 2 ( t ) + + β ^ p x i p ( t ) (7)

根据前面函数数据的点积定义,多元线性回归模型的残差平方和SSE可以由下列公式表示:

SSE = i = 1 n y i ( t ) β ^ 0 I ( t ) j = 1 p β ^ j x i j ( t ) 2 = i = 1 n [ y i ( t ) β ^ 0 I ( t ) j = 1 p β ^ j x i j ( t ) ] 2 d t (8)

根据最小二乘原则,对上式求偏导,得:

SSE β ^ 0 = 2 i = 1 n I ( t ) [ y i ( t ) β ^ 0 I ( t ) j = 1 p β ^ j x i j ( t ) ] d t = 0 (9)

SSE β ^ k = 2 i = 1 n x i k ( t ) [ y i ( t ) β ^ 0 I ( t ) j = 1 p β ^ j x i j ( t ) ] d t = 0 , k = 1 , 2 , , p (10)

整理后得到正则方程如下:

β ^ 0 i = 1 n I 2 ( t ) d t + j = 1 p β ^ j i = 1 n I ( t ) x i j ( t ) d t = i = 1 n I ( t ) y i ( t ) d t (11)

β ^ 0 i = 1 n x i k ( t ) I ( t ) d t + j = 1 p β ^ j i = 1 n x i k ( t ) x i j ( t ) d t = i = 1 n x i k ( t ) y i ( t ) d t , k = 1 , 2 , , p (12)

用矩阵表示上述方程,有,

[ i = 1 n I 2 ( t ) d t i = 1 n x i 1 ( t ) I ( t ) d t i = 1 n x i p ( t ) I ( t ) d t i = 1 n x i 1 ( t ) I ( t ) d t i = 1 n x i 1 2 ( t ) d t i = 1 n x i p ( t ) x i 1 ( t ) d t i = 1 n x i p ( t ) I ( t ) d t i = 1 n x i p ( t ) x i 1 ( t ) d t i = 1 n x i p 2 ( t ) d t ] [ β ^ 0 β ^ 1 β ^ p ] = [ i = 1 n I ( t ) y i ( t ) d t i = 1 n x i 1 ( t ) y i ( t ) d t i = 1 n x i p ( t ) y i ( t ) d t ] (13)

这是一个典型的线性方程组问题,可以很方便地采用经典的高斯消元法来求解,从而得到回归系数 β ^ = [ β ^ 0 β ^ 1 β ^ p ]

回归模型即为:

y ^ ( t ) = β ^ ( I ( t ) x 1 ( t ) x 2 ( t ) x p ( t ) ) (14)

特别的,若函数数据 x i ( t ) y ( t ) 是由标准正交基 φ 展开得到的,那我们的计算将会得到很大程度的简化,因为:

x ( t ) , y ( t ) = x ( t ) y ( t ) d t = ( a 1 φ q + a 2 φ 2 + + a p φ p ) ( b 1 φ 1 + b 2 φ 2 + + b p φ p ) d t = ( a 1 b 1 φ 1 2 + a 2 b 2 φ 2 2 + + a p b p φ p 2 + a 1 b 2 φ 1 φ 2 + + a p b p 1 φ p φ p 1 ) d t = i = 1 p a i b i (15)

3. 案例研究

3.1. 研究区域及数据

松花江肇源江段位于黑龙江省西南部的松嫩平原第二松花江与嫩江汇合口以下,是松花江哈尔滨江段的门户。松花江肇源江段的地理位置使水环境对其影响很大。松花江上游的吉林化工企业及嫩江流域齐齐哈尔等工业城市的废水排放量很大,大庆油田的废水经古恰闸门也排入松花江,同时,吉林油田,大庆油田沿江在泛洪区和江中岛上的采油作业也对肇源地区的水环境产生很大影响,肇源江段水环境问题是松花江重要的环境问题之一。并在松花江污染防治中占有重要作用。水质数据选取4个变量,y——PH,x1——溶解氧(mg/L),x2——化学需氧量(mg/L),x3——氨氮(mg/L),原始数据见表1

我们选取黑龙江肇源2006~2011年水质监测的数据,如下表所示:

Table 1. Water quality monitoring data of Zhaoyuan section of Songhua River from 2006 to 2011

表1. 松花江肇源段 2006~2011年水质监测数据

3.2. 水质预测模型

3.2.1. 模型建立

对这4个变量进行8项傅里叶级数曲线拟合。然后,按照函数型数据多元回归建模方法实现下列线性方程组的计算:

[ i = 1 n I 2 ( t ) d t i = 1 n x i 1 ( t ) I ( t ) d t i = 1 n x i p ( t ) I ( t ) d t i = 1 n x i 1 ( t ) I ( t ) d t i = 1 n x i 1 2 ( t ) d t i = 1 n x i p ( t ) x i 1 ( t ) d t i = 1 n x i p ( t ) I ( t ) d t i = 1 n x i p ( t ) x i 1 ( t ) d t i = 1 n x i p 2 ( t ) d t ] [ β ^ 0 β ^ 1 β ^ p ] = [ i = 1 n I ( t ) y i ( t ) d t i = 1 n x i 1 ( t ) y i ( t ) d t i = 1 n x i p ( t ) y i ( t ) d t ] (16)

得到的结果是:

[ 271 2054 1645 170 2054 16014 12217 1360 1645 12217 10446 983 170 1360 983 137 ] [ β ^ 0 β ^ 1 β ^ 2 β ^ 3 β ^ 4 ] = [ 2020 15324 12238 1276 ]

计算得到:

β ^ = ( 7.8367 0.0454 0.0407 0.3327 )

所以最终得到的回归模型是:

y = 7.8367 0.0454 x 1 0.0407 x 2 + 0.3227 x 3

3.2.2. 模型拟合优度

拟合优度 R 2 是检验回归模型优劣的重要指标,是检验模型拟合实际数据的接近程度。该模型的拟合优度为( R 2 越接近1,效果越好):

R 2 = SSR SST = 0.9089

从理论上讲,模型考虑了数据的连续性,能挖掘数据的隐藏信息,实际计算的拟合优度 R 2 > 0.9 ,说明模型的效果优良,可以放入更大型的数据中进行水质数据的预测工作,为水质监测工作提供参考。

4. 结论

水质数据本质上是连续性数据,本文利用函数型数据中的回归方法进行黑龙江省松花江肇源段水质数据的预测工作。该方法具有理论优势,模型精确度也较高。该方法的引入有利于对水质监测工作进行科学合理地改进。

参考文献

[1] Ramsey, J.O. (1982) When the Data Are Functions. Psychometrika, 47, 379-396.
https://doi.org/10.1007/BF02293704
[2] 米子川, 赵丽琴. 函数型数据分析的研究进展和技术框架[J]. 统计与信息论坛, 2012, 27(6): 13-20.
[3] 靳雪晴. 函数型数据分析若干方法[J]. 现代计算机, 2021, 27(34): 77-80.
[4] 靳刘蕊. 函数性数据分析方法及其应用研究[D]: [博士学位论文]. 厦门: 厦门大学, 2008.
[5] 严明义. 函数性数据的统计分析: 思想、方法和应用[J]. 统计研究, 2007, 24(2): 87-94.
[6] Henderson, B. (2005) Exploring between Site Differences in Water Quality Trends: A Functional Data Analysis Approach. Environmetrics, 17, 65-80.
https://doi.org/10.1002/env.750
[7] 刘阳, 王欢, 唐萍, 余晓美. 环巢湖河流水环境质量的时空变化分析[J]. 安徽农业科学, 2021, 49(14): 72-75.
[8] 余晓美, 沈永昌. 中国环境保护重点城市空气质量的动态特征分析[J]. 统计与决策, 2019, 35(11): 91-94.
[9] 朱佳. 基于函数型数据分析和广义分位数回归的PM2.5数据探究[D]: [硕士学位论文]. 厦门: 厦门大学, 2018.
[10] 王劼. 函数型数据的分类方法研究及其应用[D]: [硕士学位论文]. 北京: 北京航空航天大学, 2009.
[11] 高惠璇. 应用多元统计分析[M]. 北京: 北京大学出版社, 2005.
[12] 郑明, 陈子毅, 汪嘉冈. 数理统计讲义[M]. 上海: 复旦大学出版社, 2006.
[13] 丁辉, 许文超, 朱汉兵, 王国长, 张涛, 张日权. 函数型数据回归分析综述[J]. 应用概率统计, 2018, 34(6): 630-654.