1. 引言
在经典情形,充分降维(Sufficient Dimension Reduction, SDR)考虑在给定
的条件下,
的分布仅通过X的一组线性组合来依赖X [1]。如果存在一个矩阵
且
,使得
,其中
表示独立性,那么由
的列向量张成的子空间表示中心子空间
,d称为中心子空间的维数。参考切片逆回归(Sliced Inverse Regression, SIR) [1],切片平均方差估计(Sliced Average Variance Estimate, SAVE) [2],轮廓回归(Contour Regression, CR) [3]和方向回归(Directional Regression, DR) [4]。
近年来,一个重要的发展是将上述方法推广到多元响应变量情形。Setodji和Cook (2004) [5]提出了对多元Y进行高效分组的策略,并直接估计整个降维空间。Saracco (2005) [6]通过组合边际降维子空间来估计中心子空间,并且发展了估计的渐近分布。然而,这些方法受限于维度灾难,无法完全恢复中心子空间。Li等(2008) [7]提出的投影重采样方法(Projective Resampling Method, PR)克服了这两大难题,解决了响应变量是多维的问题。
随着数据生成和获取技术的快速发展,线性形式的
已经无法满足我们的需求,例如数据集中在流形时,线性方法通常无法寻找这种非线性结构。幸运的是,可以将数据嵌入希尔伯特空间的非线性映射,并且在这种空间中的线性方法可以捕捉低维结构。此时,可以通过核方法将数据映射到由核函数诱导的特征空间来解决问题。如果在希尔伯特空间中通过内积能够计算出低维结构的投影,就可以使用核技巧(kernel trick) [8]来获得简单且高效的估计方法。假设将p维数据通过特征映射
投影到希尔伯特空间
中,
可以表示为
。估计标量Y的降维方法可参考Wu (2008) [9]提出的核切片逆回归(Kernel Sliced Inverse Regression, KSIR),Shotaro (2001) [10]、Bach和Jordan (2002) [11]、Fukumizu等(2007) [12]提出的核典型相关分析(Kernel Canonical Correlation Analysis, KCCA),以及Lee等人(2013) [13]提出的广义切片平均方差估计(Generalized Sliced Average Variance Estimator, GSAVE)。
然而,当响应Y是一个向量时,还没有好的估计方法。Li等(2008) [7]提出了投影重采样方法来处理多元线性降维,并验证了其具有良好的性质。然而,该方法未考虑非线性情形,因此在处理多元非线性降维问题时仍然存在挑战。受此启发,我们将投影重采样方法推广至非线性情形,使用核方法来估计
,并且提出了四种新的降维方法。本文着重于研究这些方法的性质及适用条件。
本文的组织结构如下:第二节介绍了Mercer核,并推导了新的关系表达式。进一步,我们得到了四种新的非线性投影重采样方法。第三节给出了所提方法的理论性质。第四节通过模拟和实际数据集验证了这些方法的性质。最后,第五节对本文进行了总结。定理的证明见附录。
2. 非线性投影重采样方法
2.1. Mercer核和非线性降维
给定预测变量
,Mercer核[14]是一个连续且半正定的函数
,其具有如下谱分解形式:
,
其中
为特征函数,
为相应的非负、非递增的特征值。Mercer核的一个重要性质是,每个核函数k唯一对应一个再生核希尔伯特空间(reproducing kernel Hilbert space, RKHS),如下所示:
,
其中集合
的基数即为再生核希尔伯特空间的维度,该维度可能是无穷的[14]。
给定一个Mercer核,存在一个唯一的映射
从
到由该核的特征值和特征函数定义的希尔伯特空间。该映射的形式如下:
。
由该映射所诱导的希尔伯特空间具有标准内积
,并且该空间与再生核希尔伯特空间是同构的,我们将两个希尔伯特空间都记作
[15]。当核k是无限维的情况下,
。此外,在核方法中,表示定理的关键作用在于,将可能在无限维希尔伯特空间
上的优化问题简化为求解有限维的优化问题。
设Z是
中的随机元素,满足
,其中
表示由内积
诱导的
中的范数。期望
被定义为
中的一个元素,对于所有
,满足
。若
,则Z的协方差算子被定义为
,其中
,对于
。随机变量
诱导了再生核希尔伯特空间中的一个随机元素
。不失一般性,假设
,并且有界性也意味着协方差算子
是紧的,并且具有谱分解:
,
其中
和
分别为特征值和特征函数。类似地,随机变量
诱导了再生核希尔伯特空间中的一个随机元素。因此,有
,
和
。
我们假设Y和X之间的关系具有如下模型:
其中
,且误差项
的分布独立于X。该模型意味着响应变量Y仅通过一个d维的总结统计量
来依赖于X。虽然
在
中是一个线性总结统计量,但它提取了原始预测变量X空间中的非线性特征。
Li (1991) [1]使用矩阵
的特征向量来估计线性充分降维中的
;而非线性特征则通过算子
的特征函数来恢复。例如,Wu (2008) [9]提出的核切片逆回归(KSIR)方法首先将Y的样本分成若干个切片,然后取
的切片均值来形成候选矩阵,并在此矩阵上进行谱分解。Lee 等(2016) [16]则考虑回归算子来处理给定Y时X的函数的条件期望。即,对于
。因此,Li (2018) [17]给出了T的两种形式:
这些方法被称为广义切片逆回归(Generalized Sliced Inverse Regression, GSIR)。虽然KSIR在数值上与GSIR相似,但KSIR背后的理论基础却有很大不同:它假设
对于
是线性的,而这一假设类似于线性充分降维(SDR)的假设。而GSIR并不需要这一假设。需要注意的是,中心化的Gram矩阵K是由核函数
定义的,其中
。此外,我们可以为协方差算子中添加一个正则化项[17],以防止其不可逆。那么,
(1)
.(2)
其中
和
是通过交叉验证算法[13]获得的参数,
表示一个矩阵最大的特征值。
根据矩阵的选择,GSIR可以分为两种形式,称为GSIR1和GSIR2,分别对应于表达式(1)和(2)的基矩阵。类似地,其他非线性方法也是在寻找不同的矩阵T来获得解。下一节将PR与这些核方法结合起来,发展出新的降维方法。
2.2. 投影重采样方法
回到多元非线性问题中,设X和Y的维度分别为p和q。对于
,考虑n个投影样本
。假设给定一个用于单响应变量的基本方法,例如前文描述的GSIR1。则总体水平的矩阵T由
给出。那么,对于每一个
,可以获得一个半正定矩阵
,它用于估计
。最后,这些矩阵取平均值以估计
。
当然,实际操作中不可能对
中每一个u都执行
对X的降维。Li等(2008) [7]提出,我们可以通过适当的分布生成一个有限集u。研究表明,只要这个集合相对于样本量足够大,基于该有限集u所得到的估计与对
中每一个u进行降维所得到的估计是渐近等价的。接下来我们给出对于给定d (其估计将在后续讨论)和给定的基估计矩阵
的具体算法:
算法1:PR-GSIR1算法 |
1) 选择蒙特卡洛样本大小
满足
比n趋于无穷的速度快,比如
或
。取
独立同分布于
,那么得到
个投影
。 2) 对每个
,对
使用GSIR1来计算
,即:
, 这个过程得到了
个矩阵。 3) 计算
,对
执行谱分解得到d个主特征向量
,那么总结统计量
的估计为。 |
上述方法是投影重采样与广义切片逆回归的第一种矩阵结合起来得到的新方法,我们把它命名为PR-GSIR1。需要注意的是,参数
是通过Lee等(2013) [13]提出的交叉验证算法得到的,在最后一步对求逆过程进行类似于岭回归的正则化是为了提高精确度。类似地,算法PR-GSIR2可以通过将算法1的第2步替换为
来得到:
。
算法与第一种方法类似,我们不做过多解释。为了表明投影重采样适用于非线性充分降维,我们也将投影重采样与Akaho (2001) [10],Bach和Jordan (2002) [11]和Fukumizu等(2007) [12]发展的核典型相关分析结合起来,可以得到第三种方法(PR-KCCA)通过使用
:
。
但是,上述提到的三种方法都只适合于提取响应变量的条件均值,因此我们也引入使用广义切片平均方差估计得到的新方法,其对于提取响应的条件方差效果更好,我们会在第4节模拟部分验证。为了引入广义切片平均方差估计的算法,还需要建立一些关系。
是元素全是1的n维向量,矩阵
,
,
。那么可以计算:
,令
为C的第i列,计算
,以及
,对于
。第四种降维方法(PR-GSAVE)的算法如下:
算法2:PR-GSAVE算法 |
1) 与算法1中第1步一致,得到
个投影。 2) 对每个
,对
使用GSAVE来计算
,即:
这个过程得到了
个矩阵。 3) 计算
,对
执行谱分解得到d个主特征向量
,那么总结统计量
的估计为。 |
对上述PR-GSAVE中的投影体现在从
到
的改变。这4种方法的性质会在第4节的模拟部分验证。
在算法过程中,我们使用Zhu等(2006) [18]介绍的贝叶斯信息准则来确定中心子空间的维数d。其他贝叶斯信息准则可参考,在Wang和Yin (2008) [19],Li等(2010) [20]以及Guo等(2015) [21]。下一节研究非线性投影重采样方法的性质。
3. 非线性投影重采样的性质
3.1. 费希尔一致性
对于每个
,令
是一个
的半正定矩阵满足
,其中
是非线性降维方法的总体水平矩阵。例如,对于广义切片逆回归,
。那么可以得到以下定理:
定理3.1:假设u是均匀分布在
上的随机向量,对于每个固定的
,
都有
。那么
。
对于定理3.1需要说明的是,虽然使用均匀分布得到投影,但是分布的选取对定理证明并没有起到关键的作用。所以我们可以使用其他分布,例如算法中使用的正态分布。并且定理3.1表明,如果我们想估计
,就可以用对
的估计来代替。这表明了算法的可行性及合理性。而期望
可以用蒙特卡洛近似来求解积分
,
来近似估计,其中
是在
上的均匀分布。对于
的原因在于确保
的贡献是可测的,即:对
中的两个不同的点
和
,那么
和
对积分
的贡献不会被抵消。
3.2.
一致性和蒙特卡洛效应
很明显,只要
对每个u都是
一致的并且满足一些均匀分布条件,那么执行蒙特卡洛过程无穷多次,可以得到估计量
将会收敛于
,那么
也是
一致的。假设
有以下展开式:
,(3)
其中,对每个u,
这一项都是均值为0且有限二阶距。余项
满足
,(4)
其中
表示矩阵的F范数。对于条件(3)和(4)的细节和应用可参考Fernholz (2012) [22]。下一个定理表明
的
一致性。
定理3.2:如果条件(3)和(4)均成立,
,那么
。
该定理(参见Li等(2008) [7]——虽然仅展示了线性情况,但将其扩展到流形上的推导是直接的)告诉我们,为了实现对联合统计量
的
一致性,只需对
个随机采样u的边际统计量
进行估计即可。接下来,我们研究
和
渐进相等时,
的速度,这意味着蒙特卡洛效应会消失。令
表示对矩阵A的向量化,令B表示矩阵
,
。那么可以得到如下定理:
定理3.3:如果条件(3)和(4)均成立,那么当
时,
。
并且也满足
,那么当
时,
。
这个定理(参见Li等(2008) [7]——虽然仅展示了线性情况,但将其扩展到流形上的推导是直接的)很明显地说明,如果
趋于无穷的速度比n快,那么
和
有相同的渐进正态分布。这就意味着使用
和
来估计T是渐进一致的,也验证了3.1节中当
时用蒙特卡洛近似求积分的误差可以忽略。下一节我们通过模拟来检验新方法的性质及适用条件。
4. 模拟比较
4.1. 模拟数据对比
由于2.2节所述的原因,我们在充分预测因子出现在条件均值时比较PR-GSIR1与PR-GSIR2和PR-KCCA,同时在充分预测因子出现在条件方差比较PR-GSAVE与PR-GSIR1、PR-GSIR2和PR-KCCA。使用如下的可加高斯核:
,
其中
。为了验证我们的方法确实适用于非线性降维问题,我们还采用了Li等(2008) [7]提出的PR方法进行比较。由于该方法以SIR作为其基础算法,将其记作PR-SIR。
首先选择充分预测因子为条件均值,考虑以下三个模型:
模型I:
模型II:
模型III:
其中
,Δ满足
。
X的维数是p,Y的维数q固定为3,生成的样本数为n,选择蒙特卡洛样本大小
。通过估计的充分预测因子与多维响应的接近程度来评估算法结果,由于只关注预测因子的单调函数,我们使用Spearman相关性作为接近程度的衡量标准。对于样本数
和X的维数
的四种结合,分别产生模型I、模型II和模型III的100个样本。对于PR-SIR,切片的数量是10。然后求出相应的Spearman相关系数的平均值。结果见表1。
Table 1. Average absolute Spearman correlation coefficients between estimated predictors and each Yi for PR-SIR, PR-GSIR1, PR-GSIR2, and PR-KCCA across different sample sizes and predictor dimensions for Models I, II, and III (100 Repetitions)
表1. PR-SIR、PR-GSIR1、PR-GSIR2和PR-KCCA在不同样本数和不同预测因子维数,对于模型I、II和III,估计预测因子与每个Yi的Spearman相关系数绝对值在100重复得到的平均值
(n, p) |
模型 |
PR-SIR |
PR-GSIR1 |
PR-GSIR2 |
PR-KCCA |
Y1 |
Y2 |
Y1 |
Y2 |
Y1 |
Y2 |
Y1 |
Y2 |
(100, 10) |
I |
0.24 |
0.16 |
0.92 |
0.71 |
0.82 |
0.39 |
0.83 |
0.38 |
II |
0.47 |
0.10 |
0.87 |
0.71 |
0.82 |
0.54 |
0.79 |
0.57 |
III |
0.42 |
0.13 |
0.83 |
0.74 |
0.79 |
0.60 |
0.79 |
0.61 |
(100, 20) |
I |
0.26 |
0.16 |
0.94 |
0.74 |
0.91 |
0.19 |
0.91 |
0.57 |
II |
0.47 |
0.18 |
0.91 |
0.76 |
0.87 |
0.72 |
0.88 |
0.70 |
III |
0.44 |
0.22 |
0.88 |
0.77 |
0.86 |
0.74 |
0.85 |
0.74 |
续表
(200, 10) |
I |
0.22 |
0.12 |
0.89 |
0.64 |
0.80 |
0.29 |
0.80 |
0.32 |
II |
0.45 |
0.07 |
0.85 |
0.67 |
0.74 |
0.44 |
0.76 |
0.48 |
III |
0.39 |
0.07 |
0.81 |
0.70 |
0.73 |
0.51 |
0.71 |
0.52 |
(200, 20) |
I |
0.22 |
0.15 |
0.93 |
0.75 |
0.88 |
0.42 |
0.90 |
0.48 |
II |
0.49 |
0.10 |
0.89 |
0.78 |
0.87 |
0.65 |
0.87 |
0.62 |
III |
0.44 |
0.11 |
0.86 |
0.76 |
0.85 |
0.71 |
0.85 |
0.71 |
从上表可以看出三种非线性方法都有着满意的结果,且PR-GSIR1的结果比另两种方法更佳。然而,PR-SIR效果较差,这验证了本文提出的方法确实适合于处理非线性降维问题。并且可以看出,这三种非线性方法均不受维数灾难的影响。
接下来,我们比较当预测因子只影响方差时,PR-GSAVE、PR-GSIR1、PR-GSIR2和PR-KCCA这四种方法的性质。前三个模型中,我们计算多元响应的每个分量与估计的充分预测因子之间的相关性,接下来我们提出一个新的标准来综合考虑多元响应与预测因子的相关程度。因为
,对于
生成的可积函数类空间的正交补中的元素
,则有
,从而对于
,
,所以
与
的相关系数为0,因此一个好的估计应该使得
与
的相关系数尽可能小。
Figure 1. Boxplots of the absolute values of the correlation coefficients between
and
obtained by the four methods in Model IV
图1. 四种方法在模型IV得到的
与
的相关系数绝对值的箱线图
Figure 2. Boxplots of the absolute values of the correlation coefficients between
and
obtained by the four methods in Model V
图2. 四种方法在模型V得到的
与
的相关系数绝对值的箱线图
考虑以下两个模型:
模型IV:
模型V:
其中
,Δ满足
。
生成的样本数
,选择蒙特卡洛样本大小
。结果见图1和图2。
图1,图2分别是模型IV,模型V产生来自
三维正态随机数
,使用四种方法计算
与
的复相关系数的箱线图,从图中可以看出,PR-GSAVE的效果是最好的,这验证了广义切片平均方差估计处理响应的条件方差效果更好。
4.2. 真实数据分析
实际数据集使用R软件程序包dr (下载网址:http://mirrors.xmu.edu.cn/CRAN/)中自带数据集ais,为澳大利亚体育研究所收集202名男女运动员身体各个指标的数据,选取瘦体重(lean body mass, LBM)、脂肪率(body fat percentage, Bfat)为2维响应变量,身高(height, Ht)、体重(weight, Wt)、红细胞数量(red blood cell count, RCC)、白细胞数量(white blood cell count, WCC)、红细胞比容(hematocrit, Hc)、血色素(hemoglobin, Hg)、血浆铁蛋白浓度(plasma ferritin concentration, Ferr)、体质指数(body mass index, BMI)、皮肤褶皱(skinfold thickness, SSF)为9维协变量,结果见图3。图3为来自
三维正态随机数
,使用四种方法计算
与
的复相关系数的箱线图,可以看出PR-GSAVE的效果相对其他三种方法较差,而PR-GSIR1的效果最好。
Figure 3. Boxplots of the absolute values of the correlation coefficients between
and
obtained by the four methods on the dataset of the athlete physical indicators
图3. 四种方法在运动员身体指标数据集得到的
与
的相关系数绝对值的箱线图
综上分析,可以得出初步结论。对于一般的多元非线性降维问题,PR-GSIR1的效果应该是最好的,并且这种方法也是最简单的。这与线性降维中情况一致,即切片逆回归是简单且使用最广泛的方法之一。对于预测因子出现在条件方差的情形中,PR-GSAVE的效果就相对较好了,这也与线性中情况一致。我们可以将PR与其他降维方法结合,寻找更优的降维方法。
5. 结论
投影重采样基于这样一个事实:一个随机向量在所有方向上的投影唯一确定了该随机向量的联合分布。这一方法能够简单而有效地将多元响应降维转换为单变量响应降维,从而避免维数灾难,提高精确度。我们将投影重采样这种用于处理多元响应的降维技术与一般非线性降维方法相结合,得到了四种新的降维方法。令人振奋的是,我们的方法只需要在蒙特卡洛样本大小比n趋于无穷的速度快,就能保证良好的性质。在模拟实验中,我们验证了新方法的有效性,结果显示这些新方法仍然保留了原降维方法的特点。例如,PR-GSAVE能够更好地处理预测因子为条件方差的情况,这类似于广义切片平均方差估计和切片平均方差估计。我们也期望将投影重采样与其他核方法相结合,以获得更多具有良好性质的降维方法,这将成为未来的研究方向。
基金项目
本文得到山西省自然科学基金(项目编号:RD2200002021)的支持。
附录:证明
定理3.1的证明:
由于T表示
,令P表示在
上的投影函数,
是在
上的投影函数。
我们首先表明
。根据统计量
的定义,
。因此,对
,有
。这表明,对
,都可以得到
,或者等价地
。令
,那么对
都有:
,因此
,从而
。
接下来我们证明
。只需证明对
。
因为
等价于
,对所有
都足以证明上述表达式。并且由于特征函数是连续的,这足以证明对
的一些密子集中的u上式均成立。这就证明了定理3.1。
NOTES
*第一作者。
#通讯作者。