超高维数据下半参数工具变量模型的双惩罚正则估计
Double Penalized Regularization Estimation for Semiparametric Instrumental Variable Models with Ultrahigh Dimensional Data
DOI: 10.12677/AAM.2022.118578, PDF, HTML, XML, 下载: 179  浏览: 278  国家社会科学基金支持
作者: 赵培信*:重庆工商大学数学与统计学院,重庆 ;唐新蓉:重庆工商大学资产管理处,重庆
关键词: 超高维数据工具变量惩罚估计半参数模型内生性变量Ultra-High Dimensional Data Instrumental Variable Penalty Estimation Semiparametric Model Endogenous Variables
摘要: 在超高维数据下,考虑一类含内生性协变量的半参数工具变量模型的估计。结合惩罚估计技术以及SIS特征筛选方法,提出了一种识别有效工具变量的双惩罚正则估计方法,并得到了模型参数分量和非参数分量的工具变量调整估计。在一些正则条件下,证明了参数分量和非参数分量的估计均是相合的。最后通过一些数值仿真模拟研究了所提方法的有限样本性质。
Abstract: The estimation of a semiparametric instrumental variable model with endogenous covariates is considered under ultra-high dimensional data. Combined with penalty estimation technology and SIS feature screening method, a double penalized regularization estimation method for identifying optimal instrumental variables is proposed, and an optimal instrumental variable adjusted esti-mator of model parameter and nonparametric components are obtained. Under some regular con-ditions, it is proved that the estimators of parametric and nonparametric components are con-sistent. Finally, the finite sample properties of the proposed method are studied by some numerical simulations.
文章引用:赵培信, 唐新蓉. 超高维数据下半参数工具变量模型的双惩罚正则估计[J]. 应用数学进展, 2022, 11(8): 5484-5497. https://doi.org/10.12677/AAM.2022.118578

1. 引言

{ X i , Z i , U i , Y i } i = 1 , , n 表示一组容量为n的样本,其中 X i Z i U i 是协变量, Y i 是响应变量。本文考虑如下一类带变系数的半参数模型:

Y i = X i T β + Z i T θ ( U i ) + ε i , i = 1 , , n (1)

其中 β = ( β 1 , , β p ) T 是一个p维的未知参数向量, θ ( U i ) = ( θ 1 ( U i ) , , θ k ( U i ) ) T 是一个k维的未知非参数函数系数向量, ε i 表示模型误差。模型(1)同时含有参数分量和非参数函数分量,因此在对实际问题统计建模过程中具有较好的灵活性和广泛的适应性。该模型近来引起了许多学者的广泛关注,并且对模型中的参数和非参数分量提出了大量的估计方法(参见文 [1] [2] [3])。但是以上文献是在假定所有协变量均为外生性协变量的前提下对模型的估计问题进行讨论,而对高维数据进行统建模中假定所有协变量均为外生性协变量是不切实际的。如果某些协变量具有内生性,上述文献提出的估计方法给出的估计则不是相合的,而是会产生一定的内生性偏差。

对于具有内生性变量的模型,工具变量调整技术则可以提供一个消除内生性偏差的方法,进而得到模型的相合估计。由于半参数模型具有较好的灵活性和广泛的适应性,近年来对含内生性变量的半参数模型的统计推断也越来越受到广泛的关注。例如,Cai和Xiong [4] 对一类含内生协变量的变系数部分线性模型的估计问题,提出了一种基于工具变量调整的三阶段估计方法。Yuan等 [5] 对一类含内生协变量的变系数部分线性模型的变量选择问题,提出了一种基于工具变量调整的变量选择方法。Yang等 [6] 则对一类含内生性变量的部分线性单指标模型的经验似然统计推断问题,提出了一种工具变量调整的经验似然估计方法。

注意到上述文献所提出工具变量调整方法均是在工具变量的维数为固定的低维数据下进行的,对超高维数据下的半参数工具变量模型的估计问题,上述给出的基于工具变量调整的估计方法将不能直接使用。为此,本文讨论当某些协变量为内生性协变量并且工具变量为超高维数据的情况下,研究模(1)的估计问题。具体地,假定模型(1)中的 Z i U i 为外生性协变量,而 X i 为内生性协变量,并满足:

X i = Γ ξ i + e i , i = 1 , 2 , , n (2)

其中 ξ i 是一个由工具变量构成的q维向量, Γ 是一个 p × q 维的未知参数矩阵。 e i 是模型误差。注意到 Z i U i 为外生性协变量,而 X i 为内生性协变量,那么本文可假定 Z i U i 直接影响响应变量 Y i ,这表明 Z i U i 均与 X i 相互独立。另外,在接下来的估计过程中假定协变量 X i 的维数p是固定的,而工具变量 ξ i 为超高维工具变量,即 ξ i 的维数q远远大于样本容量n。进一步,本文假设未知参数矩阵 Γ 是稀疏的,即 Γ 中只有一小部分参数是非零的,这也意味着只有小部分工具变量是有效工具变量。

本文的目标是识别并估计 Γ 中的非零参数,进而识别有效工具变量。并利用识别出的有效工具变量以及工具变量调整技术对模型(1)中的参数和非参数分量给出一个估计过程。具体地,首先结合内生协变量 X i 和工具变量 ξ i 的相关关系构建一个辅助的回归模型,基于构建的辅助回归模型,并利用SIS (Sure Independence Screening)特征筛选方法提出了一种有效工具变量的识别方法。值得一提的是,注意到 X i 是一个多维向量以及 Γ 是一个超高维矩阵,因此经典的SIS方法(参见文 [7])将不能再直接应用。本文提出了一种基于辅助回归模型的SIS特征筛选方法,并给出了一种基于双惩罚的迭代算法,改进并推广了已有的SIS变量筛选过程。其次,利用识别出的有效工具变量并采用工具变量调整技术,对模型(1)中的参数和非参数分量给出了一种基于工具变量调整的估计方法,并在一些正则条件下证明了所得估计是渐近相合估计量。

2. 估计过程及迭代算法

注意到 X i 为内生性协变量, ξ i 为对应的工具变量,所以有 E ( ε i | X i ) 0 E ( ε i | ξ i ) = 0 。由第1节中的讨论可知外生性协变量 Z i U i 均与内生性协变量 X i 相互独立。那么结合 X i = Γ ξ i + e i ,可以证明工具变量 ξ i 也独立于外生性协变量 Z i U i 。记 ξ i s 为工具变量 ξ i = ( ξ i 1 , , ξ i q ) T 的第s个分量,那经计算可得:

C o v ( Y i , ξ i s ) = j = 1 p C o v ( X i j , ξ i s ) β j + j = 1 k C o v ( Z i j , ξ i s ) θ j ( U i ) + C o v ( ε i , ξ i s ) = j = 1 p C o v ( X i j , ξ i s ) β j (3)

另外,Bound等 [8] 以及Didelez等 [9] 指出,当 ξ i s 是有效工具变量时, ξ i s 应与内生性变量 X i 高度相关。即如果对所有 j { 1 , , p } C o v ( X i j , ξ i s ) = 0 ,那么 ξ i s 是一个无效的工具变量。另外注意到 β 0 ,因此(3)式表明如果 C o v ( Y i , ξ i s ) 0 显著成立,那么 ξ i s 则是一个有效工具变量。基于该结论并利用SIS特征筛选方法,本文可以根据响应变量 Y i 和工具变量 ξ i s s { 1 , , q } 之间的边际相关性选择有效工具变量。具体地,首先定义响应变量 Y i 和工具变量 ξ i s s { 1 , , q } 的一个辅助回归模型如下:

Y i = ω 1 ξ i 1 + ω 2 ξ i 2 + + ω q ξ i q + v i , i = 1 , , n (4)

其中 v i 是模型误差满足 E ( v i | ξ i 1 , , ξ i q ) = 0 。对于任给定的 s { 1 , , q } ,结合模型(4)并利用类似张等 [10] 的估计方法,定义关于分量的边际回归模型为 Y i = ω s ξ i s + v i ,并且 ω s 的边际最小二乘估计可通过最小化以下目标函数给出。

i = 1 n Q ( Y i , ω s ξ i s ) i = 1 n ( Y i ω s ξ i s ) 2 (5)

通过最小化(5)式,可以得到边际最小二乘估计量为

ω ^ s M = ( i = 1 n ξ i s 2 ) 1 i = 1 n ξ i s Y i (6)

结合(4)和(6)式,则可识别出有效工具变量的子集如下:

M ^ v n = { 1 s q : | ω ^ s M | v n } (7)

其中 v n 是预先给定的一个门限值。另外,利用类似张等 [10] 的讨论可知,基于边际回归所识别出的有效工具变量可能会存在一定的选择性偏差。比如,某一有效工具变量与内生性变量 X i 的某些分量存在高度相关,但该工具变量可能与响应变量 Y i 相关性不显著,进而导致无法识别出该有效工具变量。为了克服这个问题,本文提出了一个新的基于双惩罚的迭代算法。在如下迭代算法中,我们还利用识别出的有效工具变量提出了内生性变量的调整过程,并给出了基于有效工具变量调整的模型参数分量 β 和非参数分量 θ ( u ) 的估计过程。具体算法如下:在此算法中,本文首先预先确定一个稀疏参数大小 d = O ( n / ln n ) 。然后,算法如下。

第一阶段:有效工具变量识别算法

第1步:对所有的 s { 1 , , q } ,由(7)式识别出一个包含 S 1 个有效工具变量的子集 A 1 ,其中 S 1 = 2 d / 3 以及 d = n / ln n

第2步:记 ξ A 1 为集合 A 1 对应的有效工具变量,并且模型(2)中的对应系数矩阵则为 Γ A 1 。然后基于模型(2),通过最小化如下惩罚目标函数来选择 A 1 的子集 M 1

1 n i = 1 n X i Γ A 1 Z i , A 1 2 2 + p λ ( Γ A 1 )

其中 p λ ( ) 是一个惩罚函数。在实际应用中,Lasso惩罚,SCAD惩罚以及MCP惩罚等惩罚函数均可以使用。令 Γ ^ A 1 Γ A 1 的惩罚估计矩阵,有 M 1 Γ ^ A 1 的非零列对应的指标集。

第3步:对任给定的 s M 1 c = { 1 , , q } \ M 1 ,基于模型(4),最小化如下惩罚目标函数:

i = 1 n [ Y i ( ξ i , M 1 T ω M 1 + ξ i s ω s ) ] 2 + p λ ( ω s )

对任意 s M 1 c ,令 ω s 的估计量为 ω ^ s ( 2 ) ,那么通过排序 { | ω ^ s ( 2 ) | : s M 1 c } 选择一个大小为 k 2 = min ( 5 , d | M 1 | ) 的指数子集 A 2 。进一步,用第2步的算法从 M 1 A 2 中选择一个子集 M 2

第4步:对第3步进行迭代直到有 M l d M l = M l 1 ,所选的最终子集表示为 M f i n a l 。注意 M f i n a l 满足 | M f i n a l | d < n ,因此,提出的迭代算法可实现降低维数的效果。

第二阶段:基于有效工具变量的内生性协变量的工具变量调整算法

首先用 ξ * 表示 M f i n a l 集合中对相应的工具变量。那么 ξ * 则是识别出的有效工具变量组成的一个向量。另外,从模型(2)中可知 E { X ξ T } = Γ E { ξ ξ T } ,那么 Γ 中有效工具变量对应的参数矩阵的矩估计量可表示为:

Γ ^ = ( i = 1 n X i ξ i * T ) ( i = 1 n ξ i * ξ i * T ) 1

因此,基于有效工具变量调整的协变量可定义为 X = Γ ^ ξ

第三阶段:模型参数和非参数分量的估计

B ( u ) = ( B 1 ( u ) , , B L ( u ) ) T 为表示阶数为m的B样条基数,其中 L = κ + m κ 为内部结点的个数。那么 θ s ( u ) 可以渐近表示为 θ s ( u ) B ( u ) T γ s ,其中 γ s = ( γ s 1 , , γ s L ) T 是基函数系数向量。记 W i = I k B ( U i ) Z i 以及 γ = ( γ 1 T , , γ k T ) T ,那么通过最小化如下目标函数来给出 β γ 的估计。

M n ( β , γ ) = 1 n i = 1 n ( Y i X i * T β W i T γ ) 2 (8)

β ^ γ ^ 为最小化(8)式的解,那么 β ^ 则是基于工具变量调整的参数分量 β 估计量,并且非参数分量 θ s ( u ) 的估计可以定义为 θ ^ s ( u ) B ( u ) T γ ^ s

另外在上述算法过程中对非参数函数系进行样条展开时,内部结点取为等距结点,并且内部结点个数 κ 通过最小化如下交叉验证得分函数进行得到。

C V ( κ ) = 1 n i = 1 n { Y i X i T β ^ [ i ] Z i T θ ^ [ i ] ( U i ) } 2

其中 β ^ [ i ] θ ^ [ i ] ( u ) 表示删除第i个样本个体后,基于(8)式得到的 β θ ( u ) 估计量。

3. 渐近性质

S ( Y i , ω s ξ i s ) = Q ( Y i , ω s ξ i s ) / ω s ,其中 Q ( . , . ) 由式(5)定义,那么由(6)式定义的估计量 ω ^ s M 也是估计方程 i = 1 n S ( Y i , ω s ξ i s ) = 0 的解。另外对每一个 s { 1 , , q } ,定义 ω s M E { S ( Y i , ω s ξ i s ) } = 0 的解。那么结合(5)式并简单计算可得

ω s M = E ( ξ s Y ) / E ( ξ s 2 ) (9)

进一步,记 M = { 1 s q : ω s 0 } 表示所有有效工具变量构成的指标集,假设 | M | = m < q ,即有效工具变量只是所有工具变量一个子集。此外令 B = { ω s : | ω s | B } 其中B为一个给定的常数。为了给出有效工具变量识别以及所得估计量的渐近性质,首先给出如下的一些正则性条件。

C1:记 I ( ω s M ) = E { S ( Y i , ω s M ξ i s ) } ,那么假定 I ( ω s M ) B = sup ω s M B I ( ω s M ) 存在上界 c 0 ,其中 c 0 表示某一正常数。

C2:对 B 中任意的 ω s ω s ,函数 Q ( , ) 满足以下利普席茨条件:

| Q ( Y i , ω s ξ i s ) Q ( Y i , ω s ξ i s ) | c 1 | ξ i s | | ω s ω k |

其中 c 1 表示某一正常数。

C3:对所有的 ω s B ,函数 Q ( Y i , ω s ξ i s ) 关于 ω s 是凸函数且满足:

| E { Q ( Y i , ω s ξ i s ) Q ( Y i , ω s M ξ i s ) } | c 2 | ω s ω s M | 2

其中 c 2 表示某一正常数。

C4:对任意的 s { 1 , , q } ,概率趋于1, | ξ i s | c 3 | Y i | c 3 以概率趋于1成立,其中 c 3 表示某一正常数。

C5:存在一个正常数 c 4 ,使得 sup s M | ω s M | c 4 成立。此外,对任给定的 s M ,存在一个正常数 c 5 有:

| E { Q ( Y i , ω s M ξ i s ) Q ( Y i , 0 ) } | c 5 n k

其中 k ( 0 , 1 / 2 )

在这些正则性条件下,如下定理1给出了边际估计量 ω ^ s M ( s = 1 , , q ) 的一致收敛性。

定理1. 假定正则性条件C1~C5成立。那对任给定的 c 6 > 0 ,存在一个正常数 c 7 有:

P { max 1 s q | ω ^ s M ω s M | c 6 n k } q exp ( c 7 n 1 2 k )

其中k在条件C5中定义。

定理1表明本文提出的有效工具变量识别方法允许工具变量的维数为 q = ο ( exp ( n 1 2 k ) ) ,即在一些正则性条件下,提出的有效工具变量识别方法可以处理超高维的工具变量。另外,如下定理2表明本文提出的有效工具变量识别方法可以渐近以概率1识别出所有的有效工具变量。

定理2. 令 v n = c 8 n 2 k ,其中 c 8 是一个正常数并且满足 0 < c 8 b 1 / 2 b 1 = c 5 / ( c 1 c 3 ) ,那么在正则性条件C1~C5下,可得

P { M M ^ v n } 1 m exp ( c 7 n 1 2 k )

其中 m = | M | 表示 M 中的指标个数。

显然,如果 max s M | ω s M | = ο ( n k ) 成立,那么从定理1有,对于任给定的 b 2 > 0 max s M | ω ^ s M | b 2 n k 以概率趋于1成立。因此通过定理2中 v n 的选择,可以保证有效工具变量的识别具有一致相合性,即 P { M = M ^ v n } = 1 ο ( 1 )

接下来研究模型参数分量估计 β ^ 和非参数函数系数估计 θ ^ ( u ) 的渐进性质。记 Γ * 表示所识别出的有效工具变量 ξ * 对应的系数矩阵。再结合定理2可知,内生性协变量 X i 以概率趋于1可写为 X i = Γ Z i + e i i = 1 , , n 。为了给出 β ^ θ ^ ( u ) 的渐进性质,首先给出一些关于模型(1)和(2)的正则性条件如下:

C6:非参数函数系数 θ ( u ) 在区间 [ 0 , 1 ] 内r阶连续可微,其中 r 2

C7:记 c 1 , , c k [ 0 , 1 ] 的内部结点。那么存在常数c,使得 max { | Δ i + 1 Δ i | } = ο ( κ 1 ) 以及 max { Δ i } / min { Δ i } c ,其中 Δ i = c i c i 1 c 0 = 0 c κ + 1 = 1 κ 表示内部结点的个数。

C8:有效工具变量对应的系数矩阵 Γ 是一个行满秩的矩阵。另外记 τ 1 τ 2 分别成为矩阵 E ( ξ ξ T ) 的最小和最大的特征值,并且 ρ 1 ρ 2 分别是矩阵 Γ Γ T 的最小和最大的特征值,那么存在常数 0 < ρ 1 < ρ 2 < 0 < τ 1 < τ 2 < ,使得 ρ 1 < ρ 1 < ρ 2 < ρ 2 τ 1 < τ 1 < τ 2 < τ 2 成立。

在正则性条件C1~C8下,如下定理3表明估计量 β ^ 是一致相合的。

定理3. 假设正则性条件C1~C8成立,并且内部结点的数量 κ 满足 κ = O ( n 1 / ( 2 r + 1 ) ) 。那么有

β ^ β 0 = O p ( κ / n )

其中 β 0 β 的参数真值,r由条件C6定义。

另外如下定理4表明非参数函数系数的估计量 θ ^ ( u ) 也是一致相合的,并达到了最优的非参数收敛速度。

定理4. 假设正则性条件C1~C8成立,并且内部结点的数量 κ 满足 κ = O ( n 1 / ( 2 r + 1 ) ) 。那么有

θ ^ s ( u ) θ s ( u ) = O p ( n r / ( 2 r + 1 ) )

其中r由条件C6定义。

4. 数值模拟研究

在本节中,我们通过一些蒙特卡洛数值模拟实验来研究本文估计方法的限样本性质。为实施模拟,数据从如下模型产生:

{ Y i = X i β + Z i θ ( U i ) + ε i X i = Γ ξ i + α ε i

其中 β = 2 θ ( u ) = 0.5 sin ( u ) + 0.5 cos ( u ) 。我们取 Γ = ( 2 , 1.5 , 1 , 0.5 , 0 , , 0 ) 是一个 1 × q 维矩阵,并且工具变量由 ξ i s ~ N ( 1 , 1.5 ) s = 1 , , q 产生。显然,从工具变量的生成机制可以看出 ξ i s s = 1 , , 4 是有效工具变量,且其他工具变量是无效工具变量。内生性变量 X i 根据模型产生,其中模型误差取为 ε ~ N ( 0 , 0.5 ) ,并且 α 可分别取为 α = 0.2 α = 0.8 两种情况用来表示协变量内生性的不同水平。另外,外生性变量 U i 来自 U i ~ U ( 0 , 1 ) Z i 来自 Z i ~ N ( 0 , 1 ) ,响应变量 Y i 根据模型生成。

在我们的迭次算法中有许多惩罚性函数可供使用,例如SCAD惩罚(参见Tibshirani [11])、Lasso惩罚(参见Fan和Li [12])和MCP惩罚(参见Zhang [13])等。注意到Zhao和Xue [14] 指出变量选择的模拟结果对惩罚函数的选择不是太敏感,因此在接下来的模拟中,我们仅给出基于SCAD惩罚的数值模拟结果。另外样本大小选择分别为 n = 200 、400以及600三种情况,工具变量的维数也分别为 q = 500 、1000和1500三种情况,并且对于每一种情况,数值模拟实验进行重复1000次模拟运行。

接下来首先模拟有效工具变量识别的有限样本性质。为此我们选取如下指标进行模拟:包含所有有效工具变量的最小模型大小(MMS)、把真实的有效工具变量正确识别为有效工具变量的个数(TP),把无效工具变量错误识别为有效工具变量的个数(FP)以及错误选择率(FSR),其中FSR定义为 FSR = FP / ( TP + FP ) 。显然,FSR代表了错误识别成有效工具变量的无效工具变量个数在所有识别成有效工具变量个数中所占的比例。在我们的模拟中,所有这些评价指标都是基于1000次重复模拟实验的平均值。基于1000次模拟运行,模拟结果如表1所示。从表1中,我们可以得出以下观察结果:

1) 对模拟过程中所设定的每一种情况,所提出的有效工具变量识别方法均可以给出相对较小的MMS。这表明所提出的有效工具变量识别方法可以有效地控制有效工具变量的边际信号,对于工具变量维数的变化是比较稳定的。

2) 对于任意给定的样本量n和工具变量维数q,在内生性协变量的两种内生性水平下得到的TP、FP和FSR等指标的表现是非常相似的。这表明当内生性水平较低时,所提出的有效工具变量识别方法仍可以识别出有效的工具变量。

3) 对于任意给定的协变量内生性水平,模拟的FP和FSR指标均随着样本量n的增加而减小,而TP指标随着样本量的增加趋于真实有效工具变量的个数。这表明所提出的有效工具变量识别方法可以渐近相合地识别出有效工具变量。

Table 1. The simulation results of the optimal instrumental variable identification

表1. 有效工具变量识别的模拟结果

接下来,我们模拟参数分量 β 和非参数函数系数 θ ( u ) 的估计效果。为了进行比较,我们把本文所提出的基于工具变量调整的估计(IVE)方法与忽略协变量的内生性的朴素估计(NE)方法进行比较。这里的朴素估计方法是指忽略协变量 X i 的内生性,并通过直接最小化如下目标函数来得到 β θ ( u ) 的估计量:

i = 1 n ( Y i X i T β W i T γ ) 2

其中 W i = B ( U i ) Z i θ ( u ) θ ( u ) B ( u ) T γ 近似逼近。

对于参数分量 β ,本文仅给出当工具变量维数为 q = 1000 时的模拟结果。在工具变量维数为其他情况下的模拟结果是类相似的,因此不再一一展示。基于1000次重复模拟实验,关于参数分量 β 估计量的1000个绝对偏差值 | β ^ β | 的箱线图见图1图2,其中图1是在内生性水平为 α = 0.02 下的模拟结果,图2是在内生性水平为 α = 0.08 下的模拟结果。由图1图2可以得到如下结论:

1) 随着样本量的增加,基于IVE估计方法给出的绝对偏差值则明显减小,而基于NE方法给出的绝对偏差值即使样本量增加的情况下仍然较大。这就表明所提出的IVE方法优于NE方法,而且忽略变量内生性的NE方法将会产生一定的内生性偏差。

2) 对于任意给定的样本量n,基于IVE估计方法所给出的模拟结果在不同的内生性水平下是非常相似的。这也表明本文提出的工具变量调整机制可以减弱协变量内生性对估计精度带来的影响。

Figure 1. Under the endogenous level α = 0.2 , the box-plots of absolute bias values for the estimator β ^

图1. 在内生性水平 α = 0.2 下,估计量 β ^ 的绝对偏差箱线图

Figure 2. Under the endogenous level α = 0.8 , the box-plots of absolute bias values for the estimator β ^

图2. 在内生性水平 α = 0.8 下,估计量 β ^ 的绝对偏差箱线图

另外,图3给出了在样本量 n = 400 的情况下,非参数函数系数 θ ( u ) 的模拟结果,其中短虚线表示基于IVE方法得到的估计曲线,点虚线表示基于NE方法得到的估计曲线,实线表示 θ ( u ) 的真实曲线。从图3可以看出,NE方法给出的估计曲线有相对较大的估计偏差,而本文提出的IVE方法则可以减弱估计偏差,给出的估计曲线非常接近真实曲线。另外还可以看出,在不同的内生性水平下,基于IVE方法给出的估计曲线是非常相似的。综上,上述模拟结果表明,协变量的内生性将会影响参数分量和非参数分量估计的一致相合性,而本文所提出的IVE方法可有效地削弱协变量的内生性对模型参数分量及非参数分量估计的影响。

Figure 3. The estimator of θ ( u ) under the the endogenous level α = 0.2 (a) and α = 0.8 (b), respectively

图3. θ ( u ) 的估计曲线,其中(a)是在内生性水平为 α = 0.2 时的模拟结果,(b)是在 α = 0.8 时的模拟结果

5. 定理的证明

在本节中,我们将给出定理1~4的详细证明过程。令 E n { m ( Y , ξ s ) } = n 1 i = 1 n m ( Y i , ξ i s ) 表示数学期望对应的经验测度。另外,定义 B s ( N ) = { ω s B : | ω s ω s M | N } 其中 N > 0 为某一正常数,并进一步定义 F s ( N ) = sup ω s B s ( N ) | ( E n E ) { Q ( Y i , ω s ξ i s ) Q ( Y i , ω s M ξ i s ) } | 。首先给出一些定理证明过程中需要的引理。

引理1. 假设正则条件C1~C5成立,那么有

min s M | ω s M | b 1 n k

其中 k ( 0 , 1 / 2 ) b 1 = c 5 / ( c 1 c 3 ) ω s M 由(9)式定义。

证明:根据条件C2可知

| Q ( Y i , ω s M ξ i s ) Q ( Y i , 0 ) | c 1 | ω s M | | ξ i s | (10)

对(10)式两边同时取期望可得

| E { Q ( Y i , ω s M ξ i s ) Q ( Y i , 0 ) } | E { | Q ( Y i , ω s M ξ i s ) Q ( Y i , 0 ) | } c 1 | ω s M | E { | ξ i s | } c 1 c 3 | ω s M | (11)

另外由条件C5可知

| E { Q ( Y i , ω s M ξ i s ) Q ( Y i , 0 ) } | c 5 n k (12)

从(11)和(12)式可知,对任意 s M ,则有 | ω s M | b 1 n k 。即引理1的证明完毕。

引理2. 假设正则条件C1~C5成立,那么对任给定的 ζ > 0 s { 1 , , q } ,则有:

P { F s ( N ) 4 N b 3 n 1 / 2 ( 1 + ζ ) } exp ( 2 ζ 2 )

其中 b 3 = c 1 c 3

证明:结合条件C2,并利用对称化定理(参见Vaart和Wellner [15])可得

E { F s ( N ) } 2 E { sup ω s B s ( N ) | E n δ i [ Q ( Y i , ω s ξ i s ) Q ( Y i , ω s M ξ i s ) ] | } 4 c 1 E { sup ω s B s ( N ) | E n [ δ i ξ i s ( ω s ω s M ) ] | } (13)

其中 δ 1 , , δ n 表示分别以概率为1/2取值为±1的独立且同分布随机变量序列。另外再通过利用Jensen不等式可以得到

E { sup ω s B s ( N ) | E n [ δ ξ i s ( ω s ω s M ) ] | } sup ω s B s ( N ) | ω s ω s M | × E [ | E n δ ξ i s | ] N ( E | E n δ ξ i s | 2 ) 1 / 2 = N n [ E { δ 2 ξ i s 2 } ] 1 / 2 N c 3 n 1 / 2 (14)

结合(13)和(14)式则可以得到 E { F s ( N ) } 4 N b 1 n 1 / 2 。另外再由条件C2可知在集合 B s ( N ) 上有

| Q ( Y i , ω s ξ i s ) Q ( Y i , ω s M ξ i s ) | b 1 N

因此,令 L = 2 N b 1 并利用集中定理(参见Massart [16])可得

Pr { F s ( N ) 4 N b 1 n 1 / 2 ( 1 + ζ ) } Pr [ F s ( N ) E { F s ( N ) } + 4 N b 1 n 1 / 2 ζ ] exp [ n ( 4 N b 1 n 1 / 2 ζ ) 2 / ( 2 L 2 ) ] = exp ( 2 ζ 2 )

即引理2证明完毕。

定理1证明. 令 ω λ s = λ ω ^ s M + ( 1 λ ) ω s M ,其中 λ = ( 1 + | ω ^ s M ω s M | / N ) 1 1 ,且N满足条件(C1)和(C2)。则一个简单的计算有 | ω λ s ω s M | = λ | ω ^ s M ω s M | N ,其表明 ω λ s B s ( N ) 。因为 ω ^ s M E n { Q ( Y i , ω s ξ i s ) } 的最小取值,然后调用凸性,我们得到

E n { Q ( Y i , ω λ s ξ i s ) } λ E n { Q ( Y i , ω ^ s M ξ i s ) } + ( 1 λ ) E n { Q ( Y i , ω s M ξ i s ) } λ E n { Q ( Y i , ω s M ξ i s ) } + ( 1 λ ) E n { Q ( Y i , ω s M ξ i s ) } = E n { Q ( Y i , ω s M ξ i s ) } (15)

另外,注意到 ω s M E { S ( Y i , ω s ξ i s ) } = 0 的解,因此有 ω s M E { Q ( Y i , ω s ξ i s ) } 的最小值点。因此有

E { Q ( Y i , ω s M ξ i s ) } E { Q ( Y i , ω λ s ξ i s ) } (16)

进而结合(15)和(16)式,通过简单计算可以得到

E { Q ( Y i , ω λ s ξ i s ) } E { Q ( Y i , ω s M ξ i s ) } ( E E n ) { Q ( Y i , ω λ s ξ i s ) Q ( Y i , ω s M ξ i s ) } F s ( N ) (17)

其中 F s ( N ) = sup ω s B s ( N ) | ( E E n ) { Q ( Y i , ω λ s ξ i s ) Q ( Y i , ω s M ξ i s ) } | 。另外再由条件C5可得

| E { Q ( Y i , ω λ s ξ i s ) } E { Q ( Y i , ω s M ξ i s ) } | c 2 | ω λ s ω s M | 2 (18)

因此,结合(17)和(18)式可以得到

| ω λ s ω s M | ( F s ( N ) / c 2 ) 1 / 2 (19)

对任给定的 δ 并结合(19)式可得 P ( | ω λ s ω s M | δ ) P ( F s ( N ) c 2 δ 2 ) 。取 δ = N / 2 ,那么有

P ( | ω λ s ω s M | N / 2 ) P ( F k ( N ) c 2 N 2 / 4 ) (20)

结合 ω λ s 的定义,简单计算可得 ω λ s ω s M = λ ( ω ^ s M ω s M ) 。因此可以得到

P ( | ω λ s ω s M | N / 2 ) = P ( | ω ^ s M ω s M | λ 1 N / 2 ) = P ( | ω ^ s M ω s M | [ 1 + | ω ^ s M ω s M | / N ] N / 2 ) = P ( | ω ^ s M ω s M | N ) (21)

N = 16 ( c 1 c 3 / c 2 ) n 1 / 2 ( 1 + ζ ) ,则由(20)和(21)可得

P ( | ω ^ s M ω s M | 16 ( c 1 c 3 / c 2 ) n 1 / 2 ( 1 + ζ ) ) P ( F s ( N ) 4 N c 1 c 3 n 1 / 2 ( 1 + ζ ) ) (22)

因此结合(22)式并利用引理2可得

P { n | ω ^ s M ω s M | 16 ( c 1 c 3 / c 2 ) ( 1 + ζ ) } exp ( 2 ζ 2 )

1 + ζ = ( c 2 c 6 ) / ( c 1 c 3 ) n 1 / 2 k / 16 ,那么则有

P ( | ω ^ s M ω s M | c 6 n k ) exp ( 2 [ ( c 2 c 6 ) / ( c 1 c 3 ) n 1 / 2 k / 16 1 ] 2 ) (23)

注意到 [ ( c 2 c 6 ) / ( c 1 c 3 ) n 1 / 2 k / 16 1 ] 2 = O ( n 1 2 k ) ,因此由(23)式可得

P ( | ω ^ s M ω s M | c 6 n k ) exp ( c 7 n 1 2 k ) (24)

其中 c 7 为一个正常数。另外简单计算可得

P ( max 1 s q | ω ^ s M ω s M | c 6 n k ) s = 1 q P ( | ω ^ s M ω s M | c 6 n k ) (25)

进而结合(24)和(25)式可得

P ( max 1 s q | ω ^ s M ω s M | c 6 n k ) q exp ( c 7 n 1 2 k )

这就完成了定理1的证明。

定理2证明. 我们首先定义 A n 如下

A n = { max s M | ω ^ s M ω s M | b 1 n k / 2 }

其中 b 1 在引理1中定义。由引理1可知对任意 s M | ω s M | 2 b 1 n k ,因此在 A n 上利用三角不等式可以得到

| ω ^ s M | | ω s M | | ω ^ s M ω s M | | ω s M | max s M | ω ^ s M ω s M | b 1 n k / 2

v n = c 8 n k ,其中 0 < c 8 < b 1 / 2 ,那么可得

P ( M M ^ v n ) 1 P ( A n c ) = 1 P ( max s M | ω ^ s M ω s M | b 1 n k / 2 ) (26)

另外由定理1可得

P ( max s M | ω ^ s M ω s M | b 1 n k / 2 ) m exp ( c 7 n 1 2 k ) (27)

其中m是 M 中的元素数。那么结合(26)和(27)式则完成了定理2的证明。

定理3证明. 由第3节中的讨论可知 X i = Γ ξ i + e i 以概率趋于1成立。另外注意 Γ ^ Γ 的矩估计量,因此可得 Γ ^ = Γ + O p ( 1 / n ) 。再结合 E ( e i ) = 0 ,并通过简单计算可得

1 n i = 1 n ( X i X i * ) T β = 1 n i = 1 n ( Γ ξ i + e i Γ ^ ξ i ) T β = 1 n i = 1 n ξ i T ( Γ Γ ^ ) T β + 1 n ( 1 n i = 1 n e i T β ) = O p ( Γ Γ ^ ) + O p ( n 1 / 2 ) = O p ( 1 / n ) (28)

β = β 0 + δ n η 1 γ = γ 0 + δ n η 2 R ( U i ) = Z i T θ ( U i ) W i T γ 0 ,其中 δ n = κ / n β 0 γ 0 是参数真值,且 η 1 η 2 表示常数向量。那么由(28)式可得到

M n ( β , γ ) = 1 n i = 1 n ( Y i X i T β W i T γ ) 2 = 1 n i = 1 n [ e i T β 0 + ε i + R ( U i ) δ n ξ i T Γ T η 1 δ n W i T η 2 ] 2 + O p ( Γ Γ ^ 2 ) = 1 n i = 1 n [ e i T β 0 + ε i + R ( U i ) δ n ψ i T η ] 2 + O p ( 1 / n ) (29)

其中 ψ i = ( ξ i T Γ T , W i T ) T η = ( η 1 T , η 2 T ) T 。类似地,我们可得到

M n ( β 0 , γ 0 ) = 1 n i = 1 n ( Y i X i T β 0 W i T γ 0 ) 2 = 1 n i = 1 n [ e i T β 0 + ε i + R ( U i ) ] 2 + O p ( 1 / n ) (30)

进一步记 Δ n ( β , γ ) = M n ( β , γ ) M n ( β 0 , γ 0 ) ,那么由(29)和(30)可得

Δ n ( β , γ ) = 1 n i = 1 n δ n 2 ψ i T η η T ψ i 2 n i = 1 n δ n ( e i T β 0 + ε i ) ψ i T η 2 n i = 1 n δ n R ( U i ) ψ i T η + ο p ( δ n 2 ) J 1 + J 2 + J 3 + O p ( δ n 2 ) (31)

结合 E ( e i T β 0 + ε i | ξ i , W i ) = 0 ,简单计算可得

J 2 = 2 δ n n [ 1 n i = 1 n ( e i T β 0 + ε i ) ψ i T η ] = O p ( δ n n ) η = ο p ( δ n 2 ) η (32)

另外由Schumaker [17] 可知 R ( U i ) = O p ( k r ) = O p ( δ n ) 。因此简单计算可得

J 3 = O p ( δ n R ( U i ) ) η = O p ( δ n 2 ) η (33)

注意到 J 1 = O p ( δ n 2 ) η 2 ,那么对于一个充分大的常数C,在 η = C 条件下 J 2 J 3 完全可由 J 1 控制。另外注意 J 1 是一个正数,因此结合(31)~(33)式可得,对任给的 υ > 0 ,存在一个大常数C使得

P { inf η = C M n ( β , γ ) > M n ( β 0 , γ 0 ) } 1 υ (34)

另外由 M n ( . , . ) 的凸性可知,(34)式表明存在一个局部最小值点 β ^ γ ^ ,使得 β ^ β 0 = O p ( δ n ) γ ^ γ 0 = O p ( δ n ) 以不小于 1 υ 的概率成立。再由 υ 的任意性,则完成定理3的证明。

定理4证明. 利用类似Zhao和Xue [14] 的讨论可得

θ ^ s ( u ) θ s ( u ) 2 2 ( γ ^ s γ s 0 ) T H ( γ ^ s γ s 0 ) + 0 1 R s ( u ) 2 d u (35)

其中 R s ( u ) = θ s ( u ) B T ( u ) γ s 0 H = 0 1 B ( u ) B T ( u ) d u 。另外,由定理3的证明过程可知

γ ^ s γ s 0 = O p ( κ / n ) 。结合条件C6和 κ = O ( n 1 / ( 2 r + 1 ) ) ,则可以得到 O p ( κ / n ) = O p ( n r / ( 2 r + 1 ) ) 。因此再结合 H = O ( 1 ) 可得

( γ ^ s γ s 0 ) T H ( γ ^ s γ s 0 ) = O p ( n 2 r 2 r + 1 ) (36)

另外注意到 R s ( u ) = O ( κ r ) = O ( n r 2 r + 1 ) ,则可以得到

0 1 R s ( u ) 2 d u = O p ( n 2 r 2 r + 1 ) (37)

结合(35)~(37)式则完成了定理4的证明。

6. 结论

本文在工具变量为超高维的情况下,对一类含内生性协变量的半参数模型的估计问题进行了研究。结合构造辅助回归模型和惩罚估计技术,提出了一种基于双惩罚的正则估计方法。所提出的估计方法不仅可以给出模型参数分量和非参数分量的相合估计,还可以识别出有效工具变量。模拟研究表明,即使工具变量为超高维数据的情况下,本文提出的方法仍可以相合的识别出所有有效工具变量。另外,模拟结果还表明本文提出的基于工具变量调整的估计方法对模型参数和非参数函数系数的估计也是行之有效的。

注意到本文考虑的半参数模型具有较好的灵活性和广泛的适应性,经典的线性模型、部分线性模型以及部分线性可加模型均是本文所研究模型的特殊情形。因此,本文提出的双惩罚正则估计方法可以方便地推广到超高维数据下部分线性模型以及部分线性可加模型等半参数模型的统计推断研究上。另外,在本文的研究中,工具变量 ξ i 假定为超高维数据,而内生性协变量 X i 则假定为维数固定的低维数据。因此,接下来一个值得进一步研究的课题是在工具变量 ξ i 和内生性协变量 X i 均为超高维数据的情况下,研究超高维半参数工具变量模型的统计推断问题。

基金项目

本文研究成果得到国家社会科学基金项目《高维内生协变量的半参数建模及其在环境治理绩效测度中的应用》(编号:18BTJ035)资助。

NOTES

*通讯作者。

参考文献

[1] Fan, J. and Huang, T. (2005) Profile Likelihood Inferences on Semiparametric Varying Coefficient Partially Linear Mod-els. Bernoulli, 11, 1031-1057.
https://doi.org/10.3150/bj/1137421639
[2] Kai, B., Li, R. and Zou, H. (2011) New Efficient Estimation and Variable Selection Methods for Semiparametric Varying-Coefficient Partially Linear Models. The Annals of Statistics, 39, 305-332.
https://doi.org/10.1214/10-AOS842
[3] Li, D., Chen, J. and Lin, Z. (2011) Statistical Inference in Partially Time-Varying Coefficient Models. Journal of Statistical Planning and Inference, 141, 995-1013.
https://doi.org/10.1016/j.jspi.2010.09.004
[4] Cai, Z. and Xiong, H. (2012) Partially Varying Coeffi-cient Instrumental Variables Models. Statistica Neerlandica, 66, 85-110.
https://doi.org/10.1111/j.1467-9574.2011.00497.x
[5] Yang, Y., Chen, L. and Zhao, P. (2017) Empirical Likeli-hood Inference in Partially Linear Single Index Models with Endogenous Covariates. Communications in Statistics, The-ory and Methods, 46, 3297-3307.
https://doi.org/10.1080/03610926.2015.1060341
[6] Yuan, J., Zhao, P. and Zhang, W. (2016) Semiparametric Variable Selection for Partially Varying Coefficient Models with Endogenous Variables. Computational Statistics, 31, 693-707.
https://doi.org/10.1007/s00180-015-0601-y
[7] Fan, J. and Lv, J. (2008) Sure Independence Screening for Ultrahigh Dimensional Feature Space. Journal of the Royal Statistical Society: Series B, 70, 849-911.
https://doi.org/10.1111/j.1467-9868.2008.00674.x
[8] Bound, J., Jaeger, D. and Baker, R. (1995) Problems with Instrumental Variables Estimation When the Correlation between the Instruments and the Endogeneous Explanatory Var-iable Is Weak. Journal of the American Statistical Association, 90, 443-450.
https://doi.org/10.2307/2291055
[9] Didelez, V., Meng, S. and Sheehan, N. (2010) Assumptions of IV Methods for Observational Epidemiology. Statistical Science, 25, 22-40.
https://doi.org/10.1214/09-STS316
[10] Zhang, S., Zhao, P., Li, G. and Xu, W. (2019) Nonparametric Independence Screening for Ultra-High Dimensional Generalized Varying Coefficient Models with Longitudinal Data. Journal of Multivariate Analysis, 171, 37-52.
https://doi.org/10.1016/j.jmva.2018.11.002
[11] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58, 267-288.
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[12] Fan, J. and Li, R. (2001) Variable Selection via Non-concave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360.
https://doi.org/10.1198/016214501753382273
[13] Zhang, C. (2010) Nearly Unbiased Variable Selection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942.
https://doi.org/10.1214/09-AOS729
[14] Zhao, P. and Xue, L. (2010) Variable Selection for Semiparametric Varying Coefficient Partially Linear Errors-in-Variables Models. Journal of Multivariate Analysis, 101, 1872-1883.
https://doi.org/10.1016/j.jmva.2010.03.005
[15] Vaart, A. and Wellner, J. (1996) Weak Convergence and Empirical Processes. Springer, New York.
[16] Massart, P. (2000) About the Constants in Talagrand’s Concentration Inequalities for Empirical Processes. The Annals of Probability, 28, 863-884.
https://doi.org/10.1214/aop/1019160263
[17] Schumaker, L. (1981) Spline Function. Wiley, New York.