1. 引言
随着数据生成和采集技术的快速发展,在许多科学领域经常会遇到具有大量特征的海量数据。对于经典的统计方法,高维性同时对计算成本、统计准确性和算法稳定性提出了挑战[1] [2]。为了简化计算过程,一种自然的策略是在详细分析之前筛选出最不相关的特征。这个过程被称为特征筛选。随着维数从高降至低,分析难度大大降低。在文献中,这方面已经做了大量的工作;其中,基于相关性的筛选方法引起了学者们的广泛关注。这些方法基于特征与响应之间的某种关联度量进行筛选,弱相关性的特征被视为不相关的特征,将被删除。这种类型的方法可以在没有强模型假设(甚至无模型)下方便地实现。因此,它们通常用于分析具有复杂结构的高维数据,例如,Fan和Lv (2008)提出了基于皮尔逊相关的确定独立性筛选(SIS) [3],随后他们又把SIS方法进一步推广到广义线性模型和非参数可加模型中[4] [5]。Zhu等(2011)提出了一种基于效用度量的确定独立排序和筛选(SIRS),该度量与给定预测因子的响应的整个条件分布有关[6]。Li等(2012)提出了基于Kendall秩相关的鲁棒秩相关筛选(RRCS) [7]。Li等(2012)开发了一种基于距离相关的无模型确定独立筛选程序(DC-SIS) [8]。Wu和Yin (2015)提出了一种分布函数确定独立性筛选(DF-SIS)方法,该方法使用一种度量来检验两个变量之间的独立性[9]。Zhou等(2019)提出了一种鲁棒相关度量来筛选包含极值的特征[10]。
特征筛选[11]在许多应用中已被证明是一个有吸引力的策略。现有的方法大多是在特征数p较大,但样本量N为中等的情况下开发的。然而,在现代科学研究中,数据分析师不得不处理大数据集(其中p和N都是巨大的)的情况越来越普遍,例如,在现代全基因组基因研究[12]中,对数十万名参与者进行了数以百万计的SNP基因分型。在互联网研究中,一个杀毒软件每分钟可以扫描数百万个URL中的数万个关键字。当面对大p大N的数据时,由于存储瓶颈和算法可行性,直接采用经典筛选方法在数值上效率低下,例如,对于N = p = 10,000的数据集,众所周知的DC-SIS需要大约60小时才能在具有3.2 GHz CPU和32 GB内存的计算机上进行全面筛选。因此,在实践中开发方便计算的大数据筛选方法[13]-[15]是可取的。
当数据集太大而无法在一台计算机上处理时,考虑使用分而治之策略是很自然的。在该策略中,先将一个大问题分解为较小的可管理子问题,然后将相应的子输出组合得到最终输出。本着这种思想,许多机器学习和统计方法都已经被重建用于处理大数据(例如,Chen和Xie,2014 [16];Xu et al.,2016 [17];Jordan等人,2019 [18];Banerjee et al.,2019 [19])。这些鼓舞人心的工作激励我们探索利用这种有前景的策略进行大数据特征筛选的可行性。
本文提出了一种基于聚合相关测度的分布式特征筛选框架,并将其称为聚合相关筛选(ACS)。在ACS中,我们将相关度量表示为几个组成参数的函数,每个组成参数都可以使用来自数据段的自然U统计量进行分布估计。将无偏分量估计结合在一起,我们得到了一个聚合的相关估计,可以很容易地用于特征筛选。在本文提出的ACS框架中,将海量数据集分成m个可管理的数据段进行处理,这些数据段可存储在多台计算机中,并通过并行计算完成相应的局部估计。因此,它为大p大N数据的特征筛选提供了一条计算上有吸引力的途径。此框架也适用于数据自然存储在不同位置的设置(例如,医院级别的医疗数据)。分量参数的U统计量估计作为一种有效、方便的降阶技术,保证了聚合相关估计量的高精度和相应筛选过程的可靠性。在一般条件下,我们证明了在概率收敛界和均方误差(MSE)率方面,聚合相关估计器与经典的集中估计器一样有效。这种全效率对m的选择不敏感,m的选择可以由问题本身指定,也可以由用户决定。对于广泛的相关度量,我们进一步证明了ACS在不需要指定参数模型(无模型)的情况下具有确定的筛选特性。
本文所提出的ACS植根于分量估计。在文献中,该思想已被用于分布式恢复由数据段中可分离的光滑估计方程定义的集中估计量(例如,Chen等人,2008 [20];Lin and Xi,2011 [21])。不幸的是,这些工作不能直接适用于基于相关性的筛选,因为许多常用的相关度量的集中估计量通常不是由估计方程定义的,并且在数据段(例如,SIRS和DC)中不可分离。本文所提出的ACS来自于集中相关估计量的自然组合;它并不寻求完全恢复集中式估计器,而是提供一种有效且计算负担得起的替代方案。我们的研究结果为使用这种自然策略进行分布式特征筛选提供了理论支持。
2. 核估计中的筛选方法
2.1. 大数据特征筛选
设
是
的N个独立同分布的样本,其中Y是一个支持
的响应变量,
是一个p维协变量向量。我们感兴趣的是p和N都很大的情况。当一个数据集是大量的且高维时,通常可以合理地假设只有少数的协变量(特征)与响应相关。设
是Y给定条件下
的条件分布函数。如果
依赖于Y,则认为这个特征
是相关的。我们使用M来表示相关特征的索引集,并定义
。特征筛选的目标是在详细分析之前,用
去除大多数不相关的特征
。
具体来说,设
是Y和
之间相关性强度的一个度量。设
是基于D的
的集中估计。预先设定阈值
,则可以保留在
中的特征并把其他的去除。当样本量N适中时,这种经典方法是有效的。然而,当p和N都很大时,基于完整数据集D计算
在数值上可能是昂贵的。
2.2. 逆回归聚合筛选法
受近期分布式学习工作的启发,我们考虑采用分而治之的思想[22]来解决大数据特征筛选问题。不失一般性,假设初始完整数据集D被相等地划分为m个可管理的片段
,每个片段包含
个观测值。根据计算环境的不同,这些数据段可以分布地存储在多台计算机上并进行处理,也可以由单台计算机按顺序进行处理。
我们考虑通过逆回归(Li, 1991) [23]基于核矩阵
进行特征筛选,不失一般性,假定
,
,令
,
,
。
设
,
,对于
,
,若
与Y独立,则有
。因此,重写活动集
。
现在我们通过核方法估计
。令
表示Y的密度函数,
为
的副本,定义
用核平滑方法[1]估计
如下:
且
(1)
这里h表示带宽,
为核函数,对于带宽的选择按照plug-in方法(Ruppert et al., 1996 [24])。
本文所提出的分布式筛选采用了逆回归方法和核估计器。我们首先进行组件初始化
,然后将它们组合在一起,得到一个很容易用于特征筛选的聚合估计。我们将该方法命名为AIK (聚合逆回归方法和核估计)。
2.3. 理论分析
现在,我们提供一些使用AIK方法的理论证明。显然,AIK的筛选性能依赖于聚合相关估计
的准确性。我们表明,
是一种有效的估计
的工具;这是AIK的理论基础。我们的理论研究基于以下技术条件:
C1. 密度函数
在
上有连续的二阶导数,且
具有有限上界,即对于某正数
,
,
[25] [26]。
C2. 核函数
一致有界,且
。
C3. 对于正的常数
,
。
基于上述条件,我们推导了所提方法AIK的统一筛选框架。
定理2.1 在条件C1~C3下,假定带宽
,
在条件C3中定义,对于一些正常数
,
且若取
,则
这里
为正常数。
3. 定理证明
引理1. 对任意随机变量X,下列两个语句等价:
引理2. 假定X是一个随机变量,对于某个
有
。则对于任意
,存在正常数b和c使得
引理3. (霍丁夫不等式[27] [28])设独立随机变量
对于一些
满足
。则对任意
,有
(2)
这里
。
引理4. 设
和
是u的两个一致有界函数,即存在
,
,使得
,
。对于给定的
,
和
是基于大小为n的样本的
和
的估计。假定对任意小的
,存在正常数
和s,使得[29]
(3)
(4)
则
(5)
(6)
定理2.1的证明. 证明步骤如下:
步骤1:证明对任意的
,
,可以找到一个正常数C使得
注意到
(7)
上述第一个等式是表示
为
。
又有
因为
是对称的,
。此外,
[26] (8)
因此通过控制收敛定理以及条件C1~C2,
一致有界,对于
及一些常数
,
一致有界,也就是说,
即取
时,
。因此,(7)式变为
(9)
其中
,
。
根据引理3可知
,再由引理2可知
。则
(10)
又因为
,
,这里
,对于大的N,
因此,(10)式变为
相似地,我们也可以证得对于正常数
,
步骤2:证明对任意的
,推导出
的上界。
注意到
(11)
利用同样的思想,我们可以证明
。又
,
是一个正常数。取
,即对正常数
,
,有
。则上式变为
步骤3:取
,证明
。
以上就完成了定理2.1的证明。
NOTES
*通讯作者。