1. 引言
成分数据是描述整体由部分构成的特殊数据形态——它以比例、百分比或浓度等形式存在,核心特征是所有分量的总和恒为常数(如1、100%或106 ppm),且各分量均为非负值。
从古人通过“五谷配比”总结农耕经验,到现代科学家解析母乳中2000余种营养成分的协同作用,从考古学家通过陶瓷釉层元素占比溯源窑口,到经济学家分析家庭消费结构的变迁规律,成分数据早已渗透到自然科学与社会科学的每一个角落。
然而,这种“定和约束”的特性,使其与传统数据存在本质区别:将常规统计方法直接应用于成分数据,会产生虚假相关、负偏差等悖论,例如生态研究中某物种占比上升必然导致其他物种占比下降,导致各成分协方差阵出现无意义的负值。
直至1986年,英国统计学家艾奇逊(J. Aitchison)出版《成分数据的统计分析》[1],构建了成分数据的艾奇逊空间,标志着成分数据分析成为独立学科。
在艾奇逊空间中,设成分向量
,则扰动运算定义为
;幂运算定义为
;内积定义为
;距离定义为:
。
针对成分数据因“定和约束”导致的传统统计方法失效问题,艾奇逊在1986年首次提出中心对数比变换(CLR),将单纯形上的成分数据映射至欧氏空间,还对已有的非对称对数比变换(ALR)进行了系统梳理与性质分析,明确其作为CLR特例的数学定位;2003年,Egozcue等进一步优化该体系,提出等距对数比变换(ILR) [2],通过正交基构造解决了ALR的非等距性与CLR多重共线性问题,完善了成分向量的向量空间结构。
这三种变换分别为
;
;
。
三种变换的转换基及逆变换是不同的。ALR变换的转换基为
,相应逆变换为
;CLR变换的转换基:
,相应逆变换为
;ILR变换的转换基
为一组正交基,相应逆变换为
。
艾奇逊空间作为成分数据的数学理论基础(含扰动运算、幂运算、艾奇逊内积与距离定义),厘清了ALR,CLR,ILR三种变换的提出脉络、核心公式与本质目标——通过从单纯形空间到欧氏空间的映射,彻底打破成分数据的分析桎梏。
接下来就这三种变换详细分析它们的异同。
2. 三种对数比变换的差异性
(一) 等距性
所谓等距性指的是在单纯形与欧氏空间的转换过程中,距离度量属性得以保留,即欧式空间中两点的距离与两点经过相应对数比逆变换后的艾奇逊空间中两点的距离相等[1]。
定理1:对于任意成分向量
,有
证明:令
,
,则
又
同理:
整理可得
CLR等距证明与ALR的类似,这里不再展现。
对于ILR,令
,
,其中
为艾奇逊标准正交基,
;
,所以
。
ALR不具等距性,因其丢弃了参考成分与其他成分间的部分距离信息;CLR变换具有等距性,但是CLR系数有零和约束;ILR变换亦具有等距性,使其广泛应用于聚类、主成分分析等依赖距离度量的统计分析中。
(二) 保角性
所谓保角性指的是两成分向量在艾奇逊空间的夹角与变换后相应向量在欧氏空间的夹角保持一致[1]。对于成分向量
和
,艾奇逊夹角定义为
。
定理2:对于任意成分向量
,有:
证明:
即
,
故
。
又
,且
,故
。
由定理1可知
,欧氏模长:
,同理
,故
,即
。
ILR变换是艾奇逊空间到欧氏空间的等距同构,具有内积和距离完全保持的性质,同时ILR变换也是保角变换,这是ILR变换得以在成分数据统计分析中广泛应用的原因之一。
(三) 矩阵表示及转换
对于成分向量
,三种对数比变换的矩阵表示各不相同。
ALR变换矩阵
,满足
。结构颇具规律性,即:
,其中
是元素全为1的行向量。
性质1:1) 列线性无关性。变换矩阵
的
个列向量线性无关,保证了变换后的数据无信息丢失,保证了变换的可逆性。
2) 左零空间特性。左零空间为全1行向量的张成空间
,这一特性对应成分数据的归一化约束。
CLR变换矩阵
,满足
。结构颇具规律性,即:
。
性质2:1) 正交性。矩阵的行和与列和均为零,是对称阵,行向量均与全1向量正交。
2) 幂等性。满足
,即CLR变换是投影变换,对数向量经
投影一次后,再投影一次的结果与第一次完全相同。
ILR变换矩阵为
,满足
,其中1,
。其结构本质是通过一系列正交的组内或组间对数比构建而成。
性质3:1) 正交性。矩阵行向量两两正交,即
。
2) 投影等价性。
,即
与
是同一投影矩阵,ILR变换可看作先通过
中心化投影,再通过
提取正交基,实现无冗余降维。
事实上,三种对数比变换之间是可以相互转换的。
定理3:
,
;
,
;
,
。
其中
,为摩尔–彭罗斯广义逆。
证明:给定
为单纯形
的一组标准正交基,则有
,
,
。
又由定理4,且
,可知
由CLR变换的保内积性,可得
通过对数比的拆分,可将ALR变换的每个分量表示为CLR变换分量的线性组合,即
,即
。
进一步可得:
。
3. 三种对数比变换的一致性
(一) 三种对数比变换的三元图示几何意义一致性
以下给出欧氏空间中常见长方形及椭圆通过三种对数比变换后的三元图图示结果。
(a) 二维长方形 (b) ALR逆变换 (c) ILR逆变换
(d) 三维长方体 (e) CLR逆变换
Figure 1. Three kinds of log-ratio inverse transformations of rectangles in Euclidean space
图1. 欧氏空间中矩形的三种对数比逆变换
如图1、图2所示,三元图中无法呈现出三种对数比的保角性和保距性等性质。为解决这一问题,需要借助从单纯形空间到欧式空间的三种变换,进而利用变换后的欧氏空间图形空间关系进行相应空间位置关系确定。
基于欧氏空间中两个向量夹角与距离的几何意义可知三元图中两个成分向量夹角反映相应成分向量变化方向的相似性,距离衡量相应成分向量的相似度。
以一个具体事实说明两成分向量夹角和距离的意义。假设研究某饮料中3种基础成分(果汁A、糖浆B、水C)的三款配方,成分占比之和均为1。如表1、表2所示。
Table 1. Original beverage formula
表1. 饮料原配方
基础配方 |
A |
B |
C |
配方1 (常规款) |
0.3 |
0.2 |
0.5 |
配方2 (微调款) |
0.32 |
0.18 |
0.5 |
配方3 (差异款) |
0.1 |
0.4 |
0.5 |
Table 2. Modified formula based on “Formula 1”
表2. 基于“配方1”的改良配方
改良配方 |
A |
B |
C |
配方X (增甜) |
0.25 |
0.25 |
0.5 |
配方Y (增浓) |
0.35 |
0.15 |
0.5 |
配方Z (微调增甜) |
0.28 |
0.15 |
0.5 |
三种对数比变换两向量夹角大小皆反映了相应成分向量比例变化的相似性。以ILR变换为例,ILR变换后
,由表2与表1对比可以看出,配方
进行减A加B,配方
。
(a) 二维椭圆 (b) ALR逆变换 (c) ILR逆变换
(d) 三维球体 (e) CLR逆变换
Figure 2. Three kinds of log-ratio inverse transformations of ellipses in Euclidean space
图2. 欧式空间中椭圆的三种对数比逆变换
进行加A减B,变化方向完全相反,因此变换后两向量角度越大,变化方向越差异;同理,
,两向量夹角越小,变化方向越一致。三种对数比变换后两向量距离大小与相应成分向量比例结构相似度有关。以ALR变换为例,ALR变换后
,由表1可以看出,配方2是对配方1的微调,因此两者距离越小,比例结构越相似;同理,
,两成分向量距离越大,差异越显著。
(二) 三种对数比变换的线性组合
设LR代表三种对数比变换ALR,CLR,ILR中的任意一种。
定理4:对于成分项
以及实数
,有
证明:
CLR证明与ALR同理,这里不再展现。
4. 三种对数比变换的应用
ALR适用于具有明确基准成分的统计分析,突出了其他成分相对基准成分的变化,但其缺乏对称性,不具等距性、保角性,且基准成分的选择对分析结果至关重要。以古代玻璃文物化学成分数据为例,对相应成分向量进行ALR、CLR、ILR 3种不同的对数比变换,基于KMO检验和Bartlett球形度检验只有ALR后的数据更适合做主成分分析,且获得的结果更加准确,此研究过程为成分向量的主成分分析提供了有效的借鉴思路和方法[3]。
CLR适用于描述成分向量的整体构成,整体变化情况,满足对称性,但变换后向量数据受制零和限制,存在共线性,不适宜进行多元回归分析,主要用于探索性数据分析。为提取湘西北铅锌矿所在区域的水系沉积物常量元素组合异常,采用CLR等多种对数比变换对沉积物原始数据预处理,再进行偏最小二乘降维分析。尽管该研究中指出等距对数比变换效果更优,但CLR变换同样有效解决了元素含量数据的闭合效应问题,为后续异常提取排除了伪相关干扰,且变换后的数据能更好适配多元统计模型[4]。
由于ILR能保持成分向量的空间形态,不受定和限制,适用于多元成分向量的降维及回归、聚类、因子分析等场景,但不具对称性且结果解释较为复杂。在区域化探数据分析中,ILR可以有效构建化探数据的标准正交基,消除其闭合效应,解释数据的组成性质,为区域化物探数据的定量分析和找矿预测提供了更为可靠的理论支撑[5]。
5. 总结
成分数据在地质学、生态学、食品科学等众多领域中应用广泛,但受限于“定和”约束,传统多元统计分析方法难以直接应用。本文系统梳理了三种对数比变换的差异性与一致性。在差异性方面,从几何特性(等距性、保角性)与数学表达(矩阵表示及转换)两个维度,揭示了不同变换的区别;在一致性方面,以三元成分向量为例(可扩展到三元以上),通过三元图呈现不同变换对原始数据相对结构的特性保留,并验证了三类变换在数据线性关系传递上的共性规律。同时,本文进一步结合具体研究场景,明确了不同对数比变换的适用条件与选择依据。本文对成分数据的理论研究与应用实践皆具有一定的参考价值与指导意义。
基金项目
大学生创新训练项目“成分数据初探”(项目编号:202507011)。
NOTES
1单纯形上不同正交基的相应变换矩阵并不相同,此处只给出了一种较为常见的情形。