1. 引言
变量选择或变量筛选在高维数据分析中起着重要的作用。通过考虑协变量与响应变量之间的关联强度来选择重要变量对于超高维数据是必不可少的,并且在最近的文献中受到了广泛的关注。Fan和Lv (2008) [1] 提出了线性模型的确定独立筛选(SIS),它基于对协变量与响应的边际Pearson相关性的大小进行排序。此后其他研究者做了大量的工作来将这一过程推广到各种其他类型的模型,包括:广义线性模型 [2] 、非参数加性模型 [3] 、Cox比例风险模型 [4] 、线性分位数模型 [5] 和变系数模型(Fan等2014 [6] ,Zhang等 [7] )。不假设任何特定的先验模型的无模型筛选方法也已发展。包括:Li等人(2012)的基于距离相关的方法 [8] ,Mai等人(2015)的融合Kolmogorov滤波器 [9] ,Liu和Wang (2017)的条件距离相关方法 [10] ,Huang和Zhu (2016)的基于最大相关的方法 [11] ,Shao和Zhang (2014)的基于鞅差分的方法 [12] ,Feng等人(2017)的基于平滑带宽的方法 [13] ,张等(2018)的边际条件期望变量筛选方法 [14] 。这些方法的主要理论结果是所谓的“确定筛选属性”,即在适当的条件下,可以将特征空间的维度从
降至更小的
,同时保留所有相关预测因子的概率接近1。然而,它是基于连续响应变量的,不能很好地用于分类响应变量。本文旨在研究一种有效的不限定模型的特征筛选方法,用于分类响应变量超高维数据。
本文提出了一种有效的判别分析的确定筛选方法:GINI超高维特征筛选方法(GCSIS)。该方法在超高维判别分析的背景下,对具有分类响应的数据进行筛选。在不假设预测因子矩条件的情况下,建立了确定的筛选和排序一致性性质。数值研究表明,该方法具有良好的性能。它有以下优点:它是无模型的,因为它的实现不需要指定回归模型;其相应的边际效用可以很容易地评估,而不涉及数值优化;可直接应用于具有分类预测因子的连续响应数据。在全基因组关联研究(GWAS)等实际应用中,该方法尤为有用,其中表型(即响应)是连续的,而单核苷酸多态性(SNPs)等预测因子则是分类的。因此,通过这种方法,可以更有效地筛选出与连续响应相关的重要特征,为科学研究提供有力支持。
本文的其余部分安排如下:第2章通过考虑一维数值变量和分类变量之间相关性出发建立与GINI均值差异的联系。广义GINI相关的性质在2.1节中进行了研究。变量筛选方法(GCSIS)在2.2节中提出。第2.3节是GCSIS的理论性质。在第3章中,通过仿真和真实数据应用进行了实验研究,以展示GCSIS的优势。
2. 筛选方法
2.1. GINI距离
设
是分类(K类)响应变量,
,其中
为协变量X的支持集合。为了研究X和Y之间的相关性,本文很自然地考虑给定Y和X的的条件分布函数,表示为
。用
表示X的无条件分布函数,用
表示给定
,
的X的条件分布函数,
的联合分布是
,X的边际分布是
。如果对于任
何
且
,有
,则X和Y是独立的。为了衡量X和Y之间的相关性,Dang等(2019) [15] 考虑了以下条件分布函数和边际分布函数之间的距离相关度量。
(1)
显然,当且仅当X和Y独立时,相关性为零。F的GINI平均差(GMD) ( [16] [17] [18] )是
(2)
它表示两个独立随机变量之间的期望距离,其中X和
是
中具有有限一阶矩的分布F中的独立随机变量。Dorfman (1979) [19] 证明了对于非负随机变量,
(3)
注意(3)也适用于离散随机变量。因此,相关性可以写成
(4)
其中
是
的GINI系数(GMD)。
当且仅当X和Y是独立的。
2.2. GINI相关系数变量筛选方法
本文提出了一种新的无模型确定独立筛选方法,使用
对超高维定量和定性协变量进行筛选。设Y为具有离散支持
(
)的响应变量,
为预测向量,其中
且n是样本量。在不指定回归模型的情况下,通过
定义重要预测变量子集,用
表示非重要预测变量子集。由第2.1节的(4)式知
可以度量
与Y之间的相关性。令
其中
,
。
注意到,当部分正交条件(Huang, Horowitz和Ma, 2008 [20] ;Fan和Song, 2010 [2] )成立时,即
与
独立,当
时
,当
时
,所以
可以作为选择重要变量的一个标准。因此选择重要变量
只和Y的相关性有关,与模型的选择无关。
假设样本数据
,
。设
为
样本点的索引集,则
由该类别的样本比例估计,即
,其中
为
中的元素数。下面给出
的一个点估计量。
(5)
基于
本文选择了一组具有较大
的重要预测因子,
其中
且
。
2.3. 理论性质
显然,
和
为U统计量。应用U统计量理论 [21] [22] ,在以下的假设条件下,可以建立
和
的渐近性质。
· C1. 矩条件:存在正常数
和
使得
且
· C2. 存在
和
,有
。
定理2.1 在条件C1下,对于任意
,存在正常数
和
,使得
此外,令
,
,假设条件(C2)成立,则
证明:注意到
可以表示为如下形式:
因此,
是标准的U-统计量。利用马尔可夫不等式,可以得到,对任意的
,其中
,有
通过Serfling (1980) [23] 的5.1.6,U-统计
可以表示为独立且同分布的随机变量的平均值;即
,其中每个
是
个独立的同分布随机变量的平均值,
表示
种排列
. 记
,
。由于指数函数是凸函数,它遵循Jensen不等式
结合以上两个结果,有
其中
。注意到
,且对于任意随机变量Y,泰勒展开式
,其中
,且
是介于0和s之间的常数。因此
(6)
由条件C1可得存在常数C (n和p的独立性)使得
,即
对于充分小的s,可以通过选择足够小的t来实现,有
,因此
(7)
结合结果(6),(7)和
,可以得到对任意
,存在一个充分小的
,使得
。这里用符号
来强调s依赖于
。同理,可以证明对于任何
,
。
下面考虑
。首先证明
离0有统一的边界,其概率趋于1。由条件C1,存在
使得
且对于
使得
。则由(7)可知对某个正常数
,有
因此
(8)
(8)的第二项是
(9)
其中
。从条件C1可以知道
有界,并假设
。
因此(7)简化为
(10)
其中
。这就完成了定理2.1第一部分的证明。
进一步在条件(C2)下,证明
根据
的定义和条件C2,
这就完成了定理2.1第二部分的证明。
3. 数值研究
在本节中,首先通过蒙特卡罗模拟研究评估提出的GINI相关未来筛选(GCSIS)的有限样本性能。然后,通过两个真实数据实例进行实证分析,以说明所提出的GCSIS方法的有效性。
3.1. 模拟研究
本文使用包括所有重要变量的最小模型大小(MMS)来衡量每种筛选方法的效果。另外,对于给定的模型大小
,其中n为样本量,
为x的整数部分。用
表示包含单个重要变量
的比例,用
表示包含所有重要变量的比例。所有数值研究都是使用R代码进行的。
例3.1 (超高维线性判别分析(Cui, et al.) [24] )在这个例子中,本文考虑一个具有超高维预测变量的线性判别分析问题,通过遵循Pan,Wang和Li (2013) [25] 中的类似设置。对于每个第i次的观测样本,类别响应
由两个不同的分布生成:1) 均衡的,有K个类别的离散均匀分布,其中
,
;2) 非均衡的,概率序列
是一个等差数列
。例如,当Y是二进制时,
,
。给定
,则通过令
生成第i个预测变量
,其中平均项
是p维向量,第k个分量
,而其他分量均为零,
是一个p维误差项。这里,考虑两种情况下的误差项:1)
;2)
分别对每个
成立。请注意,情况2)使每个预测变量都具有重尾,其目的是检查独立筛选方法的稳健性。为了系统地检查GSIS和其他方法,考虑2000个预测因子和
的二元响应变量,以及每种情况下
的10分类响应。即分别取
和
。

Table 1. Simulation results of linear discriminant analysis, R = 2 (example 3.1)
表1. 线性判别分析的仿真结果,R = 2 (例3.1)

Table 2. Simulation results of linear discriminant analysis, R = 10 (example 3.1)
表2. 线性判别分析的仿真结果,R = 10 (例3.1)
首先,比较了GSIS与MV-SIS (Cui, et al., 2015) [24] 、SIS (Fan和Lv, 2008) [1] 、SIRS (Zhu, et al., 2011) [26] 、DC-SIS (Li, Zhong和Zhu, 2012) [8] 、Kolmogorov Filter (Mai和Zou等, 2015) [9] 和PSIS (Pan, Wang和Li, 2013) [25] 在二元响应变量的性能,其中X1和X2是重要变量。表1总结了在给定模型大小
下,每种方法基于500次模拟的MMS的中位数及其相关的标准偏差的稳健估计(RSD = IQR/1.34),括号中的为
,
。
接下来,考虑10个类别的响应,其中
是重要变量。注意到,响应变量Y是一个名义数字,这使得SIS、SIRS和Kolmogorov Filter不适用。为了使DC-SIS适用于该问题,将10个分类响应转换为9个虚拟二元变量,定义为一个新的多重响应变量。注意到,Li,Zhong和Zhu (2012) [8] 认为DC-SIS可以用于多重响应。Pan, Wang和Li (2013) [25] 提出了一种成对确定独立筛选(PSIS)来处理分类反应。PSIS每次对每一对类
使用
作为预测变量
的边际信号,其中
表示
对于
的样本平均值。表2总结了在给定模型大小
下,基于500次模拟的MMS的中位数及其相关的稳健标准偏差(括号中为
)。
表1和表2都表明,在线性判别分析中,本文提出的GCSIS在变量筛选方面优于其他比较方法。当误差项是重尾的并且响应类别的数量增加时,GCSIS的最小模型大小(MMS)要小得多,并且与其他独立筛选相比,GCSIS在所选模型中包含所有重要变量的概率要高得多。因此,GCSIS的鲁棒性是一个重要的特征,使得它在实践中更有用。当误差项为正态时,GCSIS的估计和预测性能与PSIS非常接近。然而,当误差偏离正态分布时,PSIS会恶化,而GCSIS仍然表现良好。
例3.2 为了模拟等位基因频率相等的SNP,本文用
表示第j个SNP对第i个受试者的优势效应,并以如下方式生成:如果
,
;如果
,
;如果
,
,其中
,
其中
。
和
分别是标准正态分布的第一个和第三个四分位数。然后,通过以下方式生成响应变量(某些特征或疾病):
其中
,
,其中
,
且
,误差项
在
或
之后。

Table 3. Simulation results for example 3.2
表3. 例3.2的模拟结果
有5个有效的SNP,分别是
和
。前4个活性SNP与响应Y呈线性相关,而SNP
与Y呈非线性相关。有趣的是,显性效应的绝对值
是遗传学中对应的加成效应。在这里,考虑5种不同的独立筛选方法:MV-SIS、SIS、DC-SIS、SIRS、RRCS (Li et al., 2012 [8] )和GCSIS,并设置
和
,每个实验重复500次。在表3中总结了
的模拟结果。
由表3可知,当误差服从正态分布时,由于与响应呈线性相关关系,5种独立筛选都能有效地筛选出前4个活性SNP。然而,只有DC-SIS、MV-SIS和GCSIS可以选择对Y有非线性贡献的
。当误差由很大程度上是重尾的
产生时,所有独立筛选方法的表现都不如以前。然而,GCSIS的性能仍然是最好的。由此,可以得出GCSIS可以有效地选择与响应变量线性或非线性相关的活性分类SNP。
例3.3 (非参数可加模型)根据Meier,Geer和Buhlmann (2009) [27] ,本文定义了以下四个函数
然后考虑以下加性模型:
其中预测变量独立于
生成。为了检验每种独立筛选方法的鲁棒性,本文考虑误差项
的两种情况:1)
;2)
,
。设n = 200,p = 2000,每个错误情况下每个实验重复500次。在我们的模拟中,使用第一、第二和第三、四分位数作为GSIS的节,将每个预测器离散为一个4分类变量。表4中报告了给定模型尺寸
的模拟结果。
表4表明,GCSIS在离散化每个预测因子后表现非常好。虽然DCSIS可能会检测到非线性,但它偶尔会遗漏
和
。可能的原因是Y与前两个预测因子之间的距离相关性相对较弱。另一方面,GCSIS仍然可以有效地选择主动预测因子,这再次显示了它的鲁棒性。

Table 4. Simulation results for example 3.3
表4. 例3.3的模拟结果
3.2. 真实数据示例
3.2.1. 肺癌数据
Gordon等人(2002) [28] 和Fan和Fan (2008) [29] 先前对肺癌数据进行了分析,以区分肺恶性胸膜间皮瘤(MPM)和肺腺癌(ADCA)。共有来自两类的12。533个基因和181个组织样本:MPM类31个,ADCA类150个。训练数据集包含32个样本(16个MPM和16个ADCA),而剩下的149个样本(15个MPM和134个ADCA)用于测试。
首先将数据标准化为零均值和单位方差。Fan和Fan (2008) [29] 表明,他们的特征退火独立规则(FAIR)选择了31个重要基因,没有产生训练误差和7个测试误差,而Tibshiran等(2002) [30] 提出的最近萎缩质心(NSC)方法选择了26个基因,没有产生训练误差和11个测试误差。然后,考虑MV-SIS,DC-SIS,PSIS和我们的GCSIS方法(用GCSIS1表示),使用LDA来解决这个超高维分类问题。注意到FAIR在t检验筛选后使用了对角线性判别分析(LDA)。为了进行公平的比较,还增加了一个将t检验筛选与LDA相结合的方法,用FAIR*表示,MV-SIS后接LDA (即MV-SIS1),MV-SIS后接SDA (即MV-SIS2)。本例还采用了Witten和Tibshirani (2011) [31] 提出的惩罚LDA方法(用PenLDA表示)和Clemmensen等(2011) [32] 提出的稀疏判别分析(用SDA表示进行比较)。此外,本文将GCSIS与SDA结合起来,认为这种两阶段方法是另一种潜在的方法,用GCSIS2表示。
为了评估预测性能,将所有181个组织样本随机划分为两部分:包括100个样本的训练集和其余81个样本的测试集。将上述过程应用于训练数据,并通过训练集和测试集的分类误差来评估它们的性能。为了公平的比较,本文使用相同的BIC标准为所有方法选择最佳的模型大小。重复实验100次,表5中总结了训练和测试分类误差与被选基因数的均值及其相关标准差(括号内)。结果表示,GCSIS1表现相当好,平均使用12个左右的基因,训练和测试误差都很小。其中,SDA方法对训练样本分类效果较好,测试错误率较小。然而,SDA倾向于选择相当多的基因,因此可能会失去一些模型的可解释性。值得注意的是,GCSIS2可以用更少的基因数量实现最小的测试错误率。这进一步证明了将GCSIS与SDA相结合的两阶段方法的优点。

Table 5. Performance evaluation of Lung Cancer Data
表5. 肺癌数据的性能评估
3.2.2. 肺癌数据
该人类肺癌数据是通过mRNA表达谱分析的(Bhattacharjee, et al., 2001) [33] 。203例快速冷冻肺肿瘤和正常肺的mRNA表达量为12,600个。203个标本被分为5个亚类:肺腺癌(ADEN) 139个,鳞状细胞肺癌(SQUA) 21个,小细胞肺癌(SCLC) 6个,肺类癌(COID) 20个,其余17个正常肺样本(normal)。在分类之前,首先将数据标准化到零均值和单位方差。为了评估所提出方法的预测性能,随机从每个子类中选择大约
的观测值作为训练样本,其余
的观测值作为测试样本,其中
。
注意到,前面提到的NSC和FAIR仅针对二元分类问题提出,因此它们不适用于这种多类判别分析。将带有LDA的psi、DC-SIS、MV-SIS和GCSIS应用于训练集,并通过测试样本对其性能进行评价。对于DC-SIS、MV-SIS (表示为MV-SIS1)和GCSIS (表示为GSIS1),采用LDA方法,采用留一交叉验证方法为训练数据选择最优模型大小。此外,还考虑了惩罚LDA (PenLDA),MV-SIS,然后SDA (MV-SIS2)和GCSIS (GCSIS2)进行比较,并使用10折叠交叉验证而不是留一交叉验证来选择最佳模型大小,以减少计算时间。虽然SDA可以直接应用于给定模型尺寸的多类判别分析,但对于多类超高维数据,为SDA寻找最佳模型尺寸的计算成本非常高。因此,使用GCSIS降维,然后使用SDA (即GSIS2),而不是在示例中单独使用SDA。
接下来,本文选择的值为:
,分别重复实验100次。根据前面的示例(第3.2.1节),训练和测试分类误差的方法以及所选基因的相应数量及其相关的标准差(在表6中报告了括号内的数据)。可以清楚地观察到,虽然所有方法在肿瘤分类中都表现得相当好,但在训练和测试分类误差以及选择基因的数量方面,LDA或SDA的GCSIS方法都明显优于其他方法。具体来说,就是GCSIS+SDA(即GSIS2)方法利用少量顶级基因实现最佳性能。此外,可以发现GCSIS选择的顶级基因不是正态分布的,并且存在潜在的异常值。这一观察结果解释了为什么其他方法的性能相对较差,并证实了所提出的GCSIS的鲁棒性特征。该实例进一步证明了将GCSIS方法与判别分析相结合的两阶段方法在实际中更有利于超高维数据的处理。

Table 6. Performance evaluation of Lung Cancer Data
表6. 肺癌数据的性能评价
4. 结论与展望
本文提出了一种新的基于GINI相关系数的超高维判别分析方法,创新性地提出了GINI相关特征筛选策略。此方法不仅在重尾分布和潜在异常值存在的场景下展现出良好的稳健性,更值得一提的是,它没有特定的模型限制,因此可以灵活应用于各种参数和非参数模型。此外,对于非正态分布的数据,该方法同样能够准确识别出关键变量,这在实际应用中具有重要意义。然而,该方法也有其局限性。在处理固定线性模型时,其效果可能不如确定独立筛选(SIS)方法。未来,我们将致力于进一步优化这一方法,以使其在更多场景下都能达到理想的效果。
NOTES
*通讯作者。