1. 引言
在许多研究领域的建模与数据处理工作中,为了不遗漏重要的信息,研究人员往往倾向于选择数量较多的初始变量。这样形成的数据集具有高维度,变量中的冗余信息较多。很多时候自变量集合中包含严重的多重相关性,如果直接采用所有这些变量进行建模,还将对分析结论造成不良影响。很多的多元统计方法比如多元线性回归、Fisher判别、聚类分析等都具有变量筛选的功能。然而从理论上看,当变量集合中存在严重的多重相关性时,这些方法的计算精度都会受到影响。在数据降维方面也有许多非常经典的方法,例如主成分分析、因子分析、典型相关分析等。已经被广泛应用于环境问题中高维数据的降维和分类 [1] - [8] 。这些方法的共同特点是依照某种最优化原则,在原变量中提取成分,然后再利用这些成分进行相关的分析工作。但是,由于每一个成分都是原始变量的线性组合,所以这些方法都没有变量筛选的功能。一个突破性的研究进展是文献 [9] 提出的改良主成分分析方法。该方法通过变量筛选,找到原始变量集合的一个子集,使得筛选后的变量尽可能地在表现主成分的结构方面与原变量有很相似的效果。此外,一种简便可靠的基于Gram Schmidt过程的主基底分析方法被提出来并应用于指标筛选 [10] 。该方法可以消除重叠信息的所有冗余变量,在信息的损失降低到最少的前提下,得到一组正交基,可以更有效地进行变量筛选。
本文中,将应用这种方法进行太子河水质数据的指标筛选,更有效地选择具有代表性的变量。
2. 基于Gram-Schmidt变换的变量筛选方法
2.1. 主基底分析方法
用于指标筛选的主基底分析方法就是基于主成分分析的Gram-Schmidt过程 [10] 。它的原理如下:
定义1:记是秩为的向量集,是经过Gram-Schmidt过程后得到的正交向量。如果满足条件,并且达到最大值,则就是相应于原始变量的主基底。
从Gram-Schmidt过程和定义1得到,最大方差法可以被用于得到一组变量的主基底,具体计算过程如下:
1) 对向量进行标准化;
2) 令,要求满足
(1)
不妨假设,那么;
3) 对于剩下的变量,继续分别和进行Gram-Schmidt变换,得到一组相应的变量:
(2)
4) 对于,选择这组变量中方差最大的一个记为,that is
(3)
不妨假设,也就是是第二个进行Gram-Schmidt变换的向量;
5) 对于剩下的变量,分别和进行Gram-Schmidt变换。得到一组相应的变量:
(4)
6) 对于,选择具有最大方差的变量记为,即
(5)
7) 重复以上的过程,得到一组相互正交的向量。
根据主基底中信息量的特点,下面给出净信息总量和净信息含量比的概念:
定义2:是秩为的一组向量。经过Gram-Schmidt变换后得到主基底,主基底的信息总量就是原始向量的信息总量。
定义3:对任意的,定义它所携带的“净信息含量比”为
(6)
根据累计的净信息含量比,就可以最终确定在应用分析中所需要的主基底的维数。
2.2. 主基底分析和主成分分析的比较
设原始变量集合为,则该数据集合的总信息量为,经主成分分析计算后得到的主成分集合为,并且有。如果最终保留了m个成分,则原始变量的总信息量被分解为两个部分,这可以表达为
(7)
其中,为保留的信息;为被删除的信息。
由于有,所以很显然,主成分分析不能解决变量筛选的问题。而且,变量之间的多重相关性和冗余信息还会对主成分分析的计算结论产生重要的影响。
与之相反,主基底分析中的信息分解与选择则采用了完全不同的一种形式。对于一组秩为的变量集合,经过主基底分析后,得到s个主基底变量。为了记号方便起见,这里不妨设与对应的关联变量分别为。于是,其信息分解方式可以表达为
其中,为保留信息,也为全部的净信息;为被删除变量的信息。特别值得关注的部分是,这里是在由得到的过程中,逐渐被剥离的重叠信息的总和。式(19)说明,通过Gram-Schmidt过程不但可以完整地删除所有的冗余变量,而且还可以有效地拆分和去除之间多重相关性的冗余信息。
3. 案例研究
3.1. 研究区域及数据
太子河发源于抚顺,全长约413 km,流域面积约13,883 km2。太子河辽阳段位于太子河中游,经本溪市进入辽阳市境内,入口与参窝水库相接,出口进入鞍山境内,境内流程142.8 km,流域面积约4000 km2,约占全市总面积的85%。太子河辽阳段及其支流汤河、北沙河和柳壕河与参窝水库和汤河水库构成了辽阳地表水监测体系。太子河辽阳段干流上共设有3个监测断面,分别为入市断面参窝坝下断面、国控断面下王家桥断面和出市断面下口子断面。本文采用太子河流域的一个监测点参窝坝下2012年月度监测数据,选取了13个变量,——流量(m3/s),——水温(℃),——pH,——电导率(MS/m),——溶解氧(mg/l),——高锰酸盐指数(mg/l),——五日生化需氧量(mg/l),——氨氮(mg/l),——石油类(mg/l),——挥发酚(mg/l),——总磷(mg/l),——氟化物(mg/l),——阴离子表面活化剂(mg/l)。原始数据见表1。
3.2. 水质监测指标的筛选
将主基底分析方法应用于太子河的水质数据,进行监测指标的筛选。
首先,对于原始变量做标准化处理,之后,选取,使得
从表2中对应的最大数值可知,。
通过计算这13个变量的相关系数矩阵,可以发现,在自变量集合间存在非常严重多重相关性。
然后分别将与做Gram-Schmidt变换,并计算的方差,见表3。由表3中对应的最大数值可知,,所以是主基底采用的第2个变量。重复以上过程,直到所有的变量都经过Gram-Schmidt变换变成相互正交的变量。
Table 1. Original data
表1. 原始数据表
Table 2. Values of
表2.的数值
Table 3. Variance of
表3.的方差
计算每个变量的净信息含量,得到主基底中各维变量的净信息含量比 (见表4)。该表的第1行中,括号内的变量为各个所对应的原始变量。
由表4得到的各变量累计净信息含量比,见图1可见,经过Gram-Schmidt正交变换后,的累积净信息含量比达到96.096%。所以在太子河水质数据的研究中,选取8个原变量——挥发酚(毫克/升),——pH,——石油类(毫克/升),——高锰酸盐指数(毫克/升),——阴离子表面活化剂(毫克/升),——氨氮(毫克/升),——流量(m3/s),——电导率(MS/m),——总磷(毫克/升),便可以96.096%的精度代表所有原变量集合中的净信息量。
Table 4. RNI of variables
表4. 每个变量的RNI值
Figure 1. The cumulative net information content ratio
图1. 累计净信息含量比
4. 结论
在实际工作中,数据分析人员往往要面对变量数目庞大的数据.本文利用基于Gram-Schmidt变换的一种主基底分析方法进行太子河水质数据的监测指标筛选工作。有效地利用主基底分析方法对大规模变量集中的信息进行筛选,并且通过对所选基底的“净信息含量比”的测度从13个监测指标中选择具有代表性的8个水质监测变量。有利于对水质监测工作进行科学合理的改进。
基金项目
国家自然科学基金(No. 51478025)资助。
参考文献