1. 引言
随着大数据兴起,科学家们面临的数据规模也逐渐庞大,前所未有的数据量为研究人员提供了前所未有的机遇和挑战。然而如何在有限的计算资源下处理规模巨大、结构复杂的数据越来越受到人们的关注。
针对线性回归模型,目前处理大规模数据比较流行的方法有分治方法(Lin等,2011) [1]、数据流在线更新方法(Schifano等,2016) [2] 以及子抽样方法(Politis等,1999) [3]。Ma和Sun (2015) [4] 在子抽样方法(Politis等) [3] 基础上提出了杠杆抽样方法,其方法成功的关键是利用不同权重构造非均匀抽样概率,使有影响的数据点以高概率抽样(Ma,Yu和Mahoney,2015) [5]。Ma等(2020) [6] 还研究了杠杆抽样估计的渐近正态性和渐近无偏性。还有很多将子抽样方法应用到其它问题上,Drineas等 [7] 针对L2回归模型提出了子抽样算法。Drineas等(2011) [8] 提出两种子抽样算法来解决线性回归中最小二乘逼近问题。Dhillon等(2013) [9] 针对线性回归中的普通最小二乘快速估计问题使用了子抽样算法。最优子抽样方法是子抽样方法的延伸之一,Zhu等(2015) [10] 针对线性回归模型提出了两种子抽样方法,即最优子抽样方法和预测长度的子抽样方法。Wang等 [11] 针对线性回归子抽样提出基于信息的最优子抽样方法(IBOSS)。
在广义线性模型下,Chen和Xie [12] 在广义线性模型(GLM)上利用分治方法处理海量数据。Wang等(2018) [13] 在logistic回归模型上提出最优子抽样方法来有效地逼近在全数据下的最大似然估计,该方法通过最小化估计量的渐近均方误差来确定最优子抽样概率。Yao等(2018) [14] 在Wang等 [13] 基础上研究了多分类logistics回归模型的最优子抽样算法。Wang和Ma (2021) [15] 研究了分位数回归的最优子抽样,推导出一般子抽样估计量的渐近性质以及两种最优子抽样概率。此外,李莉莉等(2022) [16] 针对岭回归模型提出最优子抽样算法,从而处理了变量间存在多重共线性问题,并证明了估计量的渐近性质。牛晓阳等(2022) [17] 对非参数局部多项式回归模型提出最优子抽样算法,提出OPT和PL两种抽样算法。
Gamma回归模型作为广义线性模型中的一个特例 [18],它在很多方面有所应用,比如周围等(2021) [19] 将Gamma分布应用在海面目标检测中,并介绍了在Gamma分布杂波背景下的检测器;吴林林(2014) [20] 利用Gamma回归研究了雨滴谱对移动双偏振雷达的影响;王俊轶(2019) [21] 利用Gamma回归研究了图像质量的影响因素。针对Gamma回归估计问题,陈超(2015) [22] 总结了双参数Gamma分布参数估计方法,同时利用矩思想,证明了形状参数存在的相合性和渐近正态性。针对双参数Gamma回归多重共线性问题,Muhammad Qasim等(2018) [23] 使用了Liu估计器。根据模拟研究,表明Liu估计器总是优于最大似然估计。左卫兵和钱莉等 [24] 针对Gamma回归模型的多重共线性问题,提出了Gamma回归模型的几乎无偏岭估计方法,同时给出了该估计优于极大似然估计和一般岭估计的存在性定理。
在本文中,我们将最优子抽样方法应用到Gamma回归模型中。本文的剩余部分组织如下:在第二部分中,我们分别建立了单参数Gamma回归和双参数Gamma回归的最大似然估计。在第三部分中,我们首先考虑了在
已知情况下Gamma回归的一般子抽样算法。通过三条正则性假设,在给定全数据下,我们建立了一般子抽样算法估计量的相合性和渐近正态性。最后我们考虑了在
未知情况下Gamma回归的一般子抽样算法。在第四部分中,我们基于
已知情况下一般子抽样估计量的渐进性质,提出两种最优子抽样概率。由于最优子抽样概率取决于未知量,我们提出了单参数Gamma回归的两步算法来近似逼近全数据下的估计量。在
未知情况下,我们提出了双参数Gamma回归的两步算法。在第五部分中,我们进行了广泛的仿真研究,以验证我们的方法的有效性。在第六部分中,我们总结了本文。所有证明细节见附录。
2. Gamma回归
假设
是一个独立且同分布的随机变量序列,当响应变量
为正偏态且服从伽马分布时,Gamma回归模型非常有用。假设在给定协变量
条件下,响应变量
服从伽马分布,则下述模型
(1)
称为Gamma回归模型。其中,
是响应变量
的数学期望且有限,即
;假设
是d维感兴趣参数,属于
的紧子集;
为Gamma函数;
是连接函数,它建立了样本总体均值与线性预测值之间的关系,在Gamma回归模型中我们一般采用对数连接函数,即
,从而
;
为离散参数。下面我们分别在
已知和
未知这两种情况下估计我们所感兴趣的参数
。
2.1.
已知的Gamma回归
我们先考虑
已知情况。由于
已知,根据(1)式我们很容易可以写出Gamma回归模型,即
Gamma回归模型是广义线性模型的一种特殊情况。在Y关于
的最大化对数似然函数的运算过程中,可以只考虑含参数
的项,则Y的对数似然函数可以简洁的表达为
(2)
估计Gamma回归中未知参数
通常是最大化对数似然函数。然而,
一般没有封闭解,通常采用迭代方法来进行数值求解,牛顿迭代法是一种常用的迭代方法。根据式(2),我们可得到下面公式,
(3)
2.2.
未知的Gamma回归
现在我们考虑
未知情况。根据(1)式我们可以写出,在已知协变量
情况下,响应变量
的概率密度函数为
由于
未知,所以回归中有两个未知参数
与
待估计,记
。估计
通常是最大化对数似然函数,然而,
一般没有封闭解,所以我们通常使用牛顿迭代算法。Y关于参数
的对数似然函数可以表达为
根据牛顿迭代公式,我们可得到下面公式,
(4)
其中,
、
分别是Gamma回归模型的得分函数和Fisher信息矩阵。
在(3)式中,我们发现每次迭代需要
时间,
为所需迭代次数,因此,整个优化过程需要
时间。由于
是
维向量,所以(4)式每次迭代需要
时间,整个优化过程需要
时间。然而对于超大样本,(3)式单次运行的所需计算时间太长了,更别说计算(4)式了。所以我们使用子抽样算法来解决超大样本问题。
3. 一般子抽样
对于海量数据,为了缩短其计算时间,我们利用抽样概率
,从全部数据中有放回随机抽取
个子样本,其中
,
既取决于完整数据
,也取决于响应变量。我们需要使用
的倒数作为子样本对数似然函数的权重,否则,估计结果往往是有偏差的。我们首先考虑在
已知情况下的Gamma回归模型的子抽样。
3.1.
已知的Gamma回归的子抽样
子样本表示为
,子抽样概率是
,
为子样本估计器,通过最大化(5)式的加权对数似然函数,可得到基于子样本的估计值。
(5)
最大化(5)式以获得基于子样本的估计值
。由于
的凸性,最大化可以用牛顿迭代法法来实现,反复应用以下公式,直到
和
足够接近,
(6)
在
已知情况下,我们研究子样本估计量
的渐近性质。在整篇论文中,
指依概率有界。
表示向量v的欧几里德范数,即
。下面我们列出一些正则性假设。
假设1. 当
时,有
依概率收敛于正定矩阵,并且
。
假设2.
。如果
,有
,
。
假设3.
,
。
假设1中
关于
的二阶导函数是渐近非奇异的,而且
的四阶矩是依概率有界的,这个假设是很易实现的。在假设2中,当
时,
的四阶矩是依概率有界的,同时,我们还对子抽样概率引入了一些条件,如果子抽样概率选为均匀子抽样概率
,我们不难发现,协变量
的
阶矩依概率有界。在假设1和假设2成立的条件下,假设3对指数分布族均成立,这个假设是合理的。
定理1. 如果假设1、2和3均成立,当
和
时,在给定全数据
的条件下,近似误差
依概率收敛于0,同时收敛速度是
,也就是说,对任意
,存在一个有限的
和
,使得
对任意
均成立。
定理2. 如果假设1、2和3均成立,当
和
时,在给定全数据
的条件下,近似误差
的条件分布渐近服从正态分布,即
其中
定理1和定理2表明,使用足够大的子样本,可以使近似误差
尽可能小,并且其渐近服从正态分布。在这里当n和N都趋于无穷,对它们的相对阶数并没有限制。即使n大于N,这个定理仍然有效,但是过抽样在计算上没有好处,所以在实践中
是很典型的。下面我们考虑在
未知情况下的Gamma回归模型的子抽样。
3.2.
未知的Gamma回归的子抽样
在
未知下,假设子样本为
,子抽样概率是
,
为子样本估计器,通过最大化(7)式的加权对数似然函数,可得到基于子样本的估计值。
(7)
我们假设
表示是否选择了第i个数据点的指标变量,即当
在子样本时,
,否则
。我们假设
的分布是带参数的伯努利分布,即
(7)式可以等价地写成
最大化(7)式以获得基于子样本的估计值
。由于
的凸性,最大化可以用牛顿迭代法法来实现,反复应用以下公式,直到
和
足够接近,
(8)
其中
分别是(7)式的得分函数和Fisher信息矩阵。
4. 最优子抽样
我们发现无论在(6)式,还是在(8)式,最关键的是选择一个最佳的子抽样概率
。使用均匀子抽样概率
的算法往往不是“最优”的。从定理2可以看出,渐近方差矩阵
取决于子抽样概率。因此,我们可以导出使渐近方差矩阵最小的最优子抽样概率。由于
是矩阵,“最小化”含义需要定义,这里我们采用A-最优性和L-最优性准则(Kiefer, 1959 [25] )。在
已知情况下,通过采用两种不同的最优性准则,下面的定理分别给出了两种最优子抽样概率,同时这两种最优子抽样概率分别最小化了
和
的渐近均方误差。
定理3. 使迹
最小的最优子抽样概率为
(9)
使迹
最小的最优子抽样概率为
(10)
最优子抽样概率
需要计算
,消耗
时间。而对于
是需要计算
,其在计算上只需要消耗
时间,所以
在计算上优于
,同时
也避免对矩阵求逆和减少出现奇异值的现象。要想使用
和
,我们发现(9)和(10)式的抽样概率均取决于
,这正是需要完整数据来估计参数所得到的,因此最优子抽样概率不能直接使用。为了更加清晰的表达,下面我们描述了在
已知情况下Gamma回归估计的两步算法过程。
5. 模拟研究
在本节中,我们将使用第4节中提出的算法1以及算法2在R上进行数值模拟实验,分别评估其性能。假设
是7维向量,将参数
的真实值设为
。我们考虑样本大小为
的完整数据集,其中X分布情况如下,
a) 协变量X服从均值为0,方差为
的多元正态分布,即
,其中
是一个矩阵,所有对角元素等于1,非对角元素等于0.5;
b) 协变量X服从均值非零,方差为
的多元正态分布,即
,其中
与a)相同;
c)
,其中
与情况a)相同;
d) 协变量X的分量是独立的,且每个分量都服从指数分布,速率参数为2。
5.1.
已知的模拟研究
在
已知情况下,我们假设
,在这一节中我们研究了
的均方误差和CPU运行时间等,来评估算法1的性能。
5.1.1. 数据集分布、子样本量与
的MSE
为了评估在算法1的性能,我们对上述四种情况分别进行探讨,研究数据集分布、子样本量与MSE的关系。我们固定第一步子样本量
,第二步子样本大小
,重复执行
次,每次循环要计算估计值
的均方误差。为了进行比较,我们提供了子样本大小为
的均匀子抽样的均方误差结果,并使用1000个bootstrap样本计算了全数据的估计值。图1结果表明,对于四种不同的分布,算法1比均匀子抽样方法更有优势,并且基于抽样概率
的算法1优于基于
的算法1。

Figure 1. n0 = 200, MSE of different data sets with n not fixed and different sampling methods
图1. n0 = 200,不同数据集在n不固定和不同抽样方法下的MSE
5.1.2. 子样本量与CPU运行时间
在第一步样本量
和第二步子样本量为
下,我们分别记录了CPU运行时间。经模拟研究,我们在全数据下使用了1000次bootstrap抽样,其CPU运行时间为15.761秒。表1给出了基于抽样概率为
和
的算法1以及均匀子抽样在情况(a)上的结果。每种算法我们重复循环1000次,并记录所使用的CPU时间。由于其它三种数据集的结果相似,因此在这省略它们以节省空间。我们不难发现,均匀子抽样算法计算时间最短。其次,基于
的算法1比基于
的算法需要的计算时间更长,同时这三种算法均比不上在全数据下的bootstrap抽样花费的时间长,这是符合常理的。

Table 1. n0 = 200, CPU times for case (a) with n not fixed and different sampling methods
表1. n0 = 200,情况(a)在n不固定和不同抽样方法下的CPU时间
5.1.3. 样本量与CPU时间
为了进一步研究在大样本高维情况下算法1的性能,我们将维数扩大至9维,将参数
的真实值设为
,并考虑样本量分别为
。表2我们探讨了在不同抽样方法下的样本量与CPU时间的关系。在数据情况(a)下,我们每次抽样方法重复循环200次,同时固定第一步和第二步样本大小分别为
、
。
结果表明,随着样本量N的增加,每种抽样方法所使用的CPU时间都有所增加;在相同样本量下,最优子抽样方法相对于全数据方法大大减少了计算时间,计算效率明显提高,同时,基于
的算法1在计算上占有很大优势,这个实验结论和表1的是一样的。

Table 2. n0 = 200, n = 1000 and d = 10, case (a) CPU times under different N and different sampling methods
表2. n0 = 200,n = 1000和d = 10,情况(a)在N不同和不同抽样方法下的CPU时间
5.2.
未知的模拟研究
在
未知情况下,我们假设初始值
。我们利用算法2分别研究
和
的均方误差,进而评估算法2的性能,最后还与算法1进行比较。
5.2.1. 数据集分布、子样本量与
的MSE
在本节中,我们研究数据集分布、子样本量与
均方误差的关系,进而评估算法2的性能。我们选取第一步子样本量
,第二步子样本大小为
。为了节省计算时间,本节重复执行
次,利用算法2计算估计值并分别求出
的均方误差
。为了进行比较,我们提供了子样本大小为
的均匀子抽样的均方误差结果,并使用500次bootstrap抽样计算了在全数据下估计值的均方误差。图2结果表明,对于四种不同的分布,使用最优子抽样算法比均匀子抽样方法更有优势,并且算法2在基于抽样概率
的MSE小于基于
的MSE。值得注意的是,对于EXP后尾数据集,算法2优于均匀抽样,同时基于抽样概率
的算法2与基于
的性能差距不明显。

Figure 2. n0 = 200, MSE of
for different data sets with n not fixed and different sampling methods
图2. n0 = 200,不同数据集在n不固定和不同抽样方法下的
MSE
5.2.2. 数据集分布、子样本量与
的MSE
针对情况(c)和情况(d)数据集,我们还考虑了在不同抽样方法和不同第二步子样本量下对算法2的影响。为了进行比较,我们使用
的均方误差
作为指标。第一步子样本量、第二步子样本量、迭代次数以及抽样方法与(5.2.1)节一样。图3结果表明,针对情况(c)和情况(d)的数据集,算法2均优于均匀子抽样方法。这个实验结论与前面一致。
5.2.3.
与
的MSE比较
我们通过比较
与
的均方误差,进而比较算法1与算法2的性能。在情况(a)和情况(c)下分别研究子样本量与MSE的关系。固定第一步子样本量
,第二步子样本量n = 300, 500, 800, 1500, 2000, 2500, 3000, 3200, 3300, 3500为了缩短计算时间,我们重复执行
次。在图4中,我们发现算法1与算法2的性能差距不大,随着子样本量的逐渐增加,几乎没有差距。

Figure 3. n0 = 200, MSE of
for different data sets with n not fixed and different sampling methods
图3. n0 = 200,不同数据集在n不固定和不同抽样方法下的
MSE

Figure 4. n0 = 200, MSE for different data sets with n not fixed and different sampling probabilities
图4. n0 = 200,不同数据集在n不固定和不同抽样概率下的MSE
6. 结论
在本文中,我们提出了两种算法分别有效地逼近
已知和未知的Gamma回归在全数据下的最大似然估计。在
已知下,我们首先建立了一般子抽样估计量的渐近分布,利用其渐近性质导出使渐近均方误差最小的最优子抽样概率。根据L-最优性准则,我们还提出了另一种最优子抽样概率,从而缩短了计算时间。由于最优子抽样概率取决于全数据估计量,我们提出单参数两步算法有效地解决了此问题。在
未知下,我们使用在
已知情况下所提出的两种子抽样概率,由于子抽样概率取决于参数
以及全数据估计量,因此我们提出了双参数两步算法解决此问题。最后使用数值模拟分别评估这两种两步算法性能,数值结果均表明了两种算法在大样本高维下提取有价值信息具有巨大潜力。
附录
引理1. 如果假设1和2成立,则
(11)
(12)
其中
。
证明(引理1):通过计算,可直接得出
(13)
根据赫尔德不等式、假设2以及假设1,我们有
(14)
根据(13)式和(14)式结果,并利用切比雪夫不等式,可证明出(11)式。下面证明(12)式,我们通过计算很容易得到
(15)
利用假设2和赫尔德不等式,我们有
(16)
通过(15) (16)式和切比雪夫不等式,可证出(12)式。
证明(定理1):我们记
,
。则
,
。通过计算,我们可以直接得出
(17)
(18)
最后一个等式是根据假设3得出的。根据(17)式和(18)式以及切比雪夫不等式,在给定全数据
的条件下,我们有
。根据定理5.9 (Van der Vaart, 1998 [26] ),我们得到
(19)
使用泰勒定理(Ferguson, 1996 [27] ),我们有
(20)
其中
是
关于
的偏导,并且
(21)
利用假设3和马尔可夫不等式,当
时,
因此,
(22)
将(19)式和(22)式带入(21)式中,于是
(23)
通过(20)式、(23)式以及引理1,得出
(24)
证明(定理2):
(25)
给定
,
是独立同分布的。其均值
(26)
通过假设2和赫尔德不等式,可计算出其方差为
(27)
同时,对任何
,存在
,
最后一个等式是利用假设2以及赫尔德不等式得出。根据(25) (26) (27)式以及Lindeber-Feller中心极限定理,在
条件下,
从(24)式,得出
(28)
利用引理1结果,我们可得到
(29)
根据假设1和(27)式,经验证
(30)
因此,通过(28) (29) (30)式,我们可得到
由于在
条件下,
。因此
即证明出定理2。下面利用定理2的结果来证明定理3。
证明(定理3):利用迹的性质以及柯西–施瓦茨不等式可知,
当且仅当
等号成立,即证明出(9)式。
当且仅当
等号成立,即证明出(10)式。