部分函数线性模型的调整经验似然估计
Adjusted Empirical Likelihood Estimation for Partial Functional Linear Models
DOI: 10.12677/sa.2025.147197, PDF, HTML, XML,    科研立项经费支持
作者: 蒙海苗*, 吕 蒙:广西科技师范学院数学与计算机工程学院,广西 来宾;贾慧英:桂林师范学院教育系,广西 桂林
关键词: 部分函数线性模型调整经验似然置信域Partial Functional Linear Model Adjusted Empirical Likelihood Confidence Region
摘要: 本文主要利用调整经验似然的理论,研究部分函数线性回归模型中感兴趣参数的估计问题。通过构造回归系数的调整对数经验似然比统计量,并从理论上给出该估计量的统计性质,即在满足一定的条件下,这个统计量是渐近服从于卡方分布的,接着给出渐近性质的理论证明。最后,利用这一理论性质构造回归系数的置信域。
Abstract: This paper mainly studies the problem of adjusted empirical likelihood estimation of partial function linear regression models, constructs the adjusted empirical likelihood ratio statistic of regression coefficients, and further gives the statistical properties of the estimator in theory, that is, under certain conditions, the statistic is asymptotically subject to chi square distribution, and gives theoretical proof, using this result to construct the confidence region of regression coefficients.
文章引用:蒙海苗, 贾慧英, 吕蒙. 部分函数线性模型的调整经验似然估计[J]. 统计学与应用, 2025, 14(7): 202-209. https://doi.org/10.12677/sa.2025.147197

1. 研究背景

近年来,数据统计分析成为很多领域的发展较为重要的研究工具,对于观测时间和空间等很多复杂的数据,可以描述为关于时间或者空间的函数,在统计上称这些数据为函数型数据。函数型数据主要来源于应用于气象学、生物力学、经济学和医学等领域,这类数据也逐渐成为统计学方向的研究热点。

函数型数据的分析是由加拿大麦吉尔大学的心理学与统计学教授Ramsay和英国布里斯托大学的统计学教授Silverman [1]一起率先提出的,其主要想法是利用来源于实际问题的数据,通过讨论数据生成过程的光滑性,进而解释如何运用泛函方法来发现数据的新特点。相较于回归分析等传统的数据分析,函数型数据分析有更好的优点,具备无限维的空间特征,从而可以降低对数据采集频率的要求,具有更好的灵活性。

分析函数型数据的最重要的模型之一是部分函数型线性模型,有较多的学者对这类模型进行了研究。例如,胡玉萍等通过非参数估计的方法研究部分函数模型,构造回归系数的置信域,并且通过蒙特卡罗模拟,结合覆盖率和区间宽度这两个因素,比较经验似然方法与传统方法的优点和不足[2],通过分析,得出经验似然方法所得结果比传统方法要好,最后结合实例,验证该结论合理性。江志强和范国良[3]共同研究了在鞅差误差下部分函数线性模型的经验似然估计问题,构造回归系数的经验似然比统计量,并从理论上给出回归系数的统计性质。吴成鑫[4]研究了在缺失数据下部分函数线性模型的经验似然推断问题,并利用研究结论构造相关参数的置信域。文怡方[5]利用部分函数型线性模型来描述标量响应变量与函数型和非函数型变量之间的回归关系,进而用惩罚经验似然的方法对部分函数型线性回归模型进行变量选择与统计推断,利用该方法能够识别出重要变量,并提高估计值的可解释性。

本文主要研究下列部分函数线性模型,即

Y= β T Z+ 0 1 γ( t )X( t )dt +ε (1)

在上述模型(1)中, Y 是定义在概率空间 ( Ω,B,P ) 上的实值响应变量, Z 是可观测的随机向量,且取值于 R p X( t ) 是定义在 ( Ω,B,P ) 上的随机过程,且有 E( X( t ) )=0 E X 2 ( t )< ,对任意的 tT ,其所有的样本函数都是 T 上的平方可积的函数, X( t ) L 2 ( T ) γ( t ) T 上的平方可积函数; ε 是随机误差,期望为零,方差有限,且与 Z X 是独立的; β 是回归系数。为方便起见,不妨假设 T=[ 0,1 ]

经验似然方法是由Owen [6] [7]最早提出的一种非参数似然估计的方法,在很多领域的实际问题中都有广泛的应用。Owen [8]把经验似然的思想和方法应用到线性回归模型;Qin and Lawless [9]在Owen的研究基础上给出了在一般情况下的经验似然估计方法,该方法要满足的条件是零值要在估计函数的凸包内,此时经验似然比函数才有解;Tsao [10]指出在小样本下,有较高的概率零不在估计函数的凸包内;Chen, Variyath and Abraham [11]提出了调整经验似然法,目的是确保了零值始终在估计函数凸包的内部,保证估计方程有解。在解决实际问题中,部分函数线性模型的经验似然函数中的参数方程会有无解的情况,基于以上研究,本文主要利用调整经验似然法研究部分函数模型中回归系数的估计问题。

2. 主要讨论

由模型(1)产生的一组独立同分布的可观测随机样本,记为 { ( Z i , X i ), Y i } i=1 n X i ( t ) 为平方可积的协变量轨道,即

Y i = β T Z i + 0 1 γ( t ) X i ( t )dt + ε i (2.1)

其中 ε i 是相互独立的模型误差,且 E( ε i )=0 Var( ε i )= σ 2 < i=1,2,,n 。符号 , 分别表示 L 2 [ 0,1 ] 空间的内积和范数,用 K X 表示随机过程 X( t ) 的协方差函数,若 K X T×T 上连续,Mercer’s定理证明

K X ( s,t )= i=1 λ i ϕ i ( s ) ϕ i ( t ),

其中 ( λ i , ϕ i ) 是协方差算子 K X 的成对的特征值和特征函数, λ 1 λ 2 ,函数 ϕ 1 , ϕ 2 , 为平方可积空间 L 2 [ 0,1 ] 的一组正交基。于是有 X( t ) 的Karhunen-Loeve表示为

X( t )= i=1 U i ϕ i ( t )

其中 U i 是互不相关的,且它们的均值都为0,方差分别为 λ i 。对于 L 2 空间中的每一个函数都有Karhunen-Loeve表达式,所以模型(2.1)式可以近似的表示为

Y i = β T Z i + j=1 m γ j X i , ϕ j + ε i (2.2)

在(2.2)中 γ i = γ, ϕ j m 足够大,在实际问题中,为了估计 β γ j ( j=1,,m ) ,我们必须找到 ϕ 的替代估计 ϕ ^ ,基于此,我们考虑 X( t ) 的如下样本协方差阵

K ^ X ( s,t )= 1 n i=1 n X i ( s ) X i ( t ) = i=1 λ ^ i ϕ ^ i ( s ) ϕ ^ i ( t )

其中 ( λ ^ i , ϕ ^ i ) 是协方差算子 K ^ X 的成对的特征值和特征函数, λ ^ 1 λ ^ 2 0

根据胡玉萍等[2]的研究,记 ( λ i , ϕ i ) 的估计为 ( λ ^ i , ϕ ^ i ) i=1,2,,m ,从而(2.2)式可以写为

Y=Zβ+ U m γ+ε (2.3)

其中 Y= ( Y 1 ,, Y n ) T Z= ( Z 1 ,, Z n ) T U m = { X i , ϕ ^ j } 1in,1jm γ= ( γ 1 ,, γ m ) T

ε= ( ε 1 ,, ε n ) T 。不妨先假定 β 是已知的,由最小二乘法可得 γ 的“伪估计”为

γ ^ = ( U m T U m ) 1 U m T ( YZβ ) (2.4)

此时可得

Y=Zβ+ U m ( U m T U m ) 1 U m T ( YZβ )=Zβ+ S m Y S m Zβ

其中 S m = U m ( U m T U m ) 1 U m T

胡玉萍等用经验似然的方法研究部分函数模型(2.1),为构造 β 的经验似然比函数,利用Zhu and Xue [12]中运用Plug-in方法构造辅助随机变量的方法,引入了辅助随机变量

η i ( β )= Z i ( Y i β T Z i ( U i ) T γ ^ )

其中 U i = [ X i , ϕ ^ 1 ,, X i , ϕ ^ m ] T i=1,2,,n 。当 β 是真实参数时, E( η i ( β ) )=o( 1 ) ,这个无穷小的速度对渐近结果的影响不大,几乎没有影响。

一般情况下的经验似然估计方法,该方法要满足的条件是零值要在估计函数的凸包内,此时经验似然比函数才有解,但是当样本量较小时,有较高的概率零不在估计函数的凸包内,从而会产生经验似然比函数无解的情况;为了解决这一问题,Chen, Variyath and Abraham提出了调整经验似然法,确保了零值始终在估计函数凸包的内部,保证估计方程有解。

根据调整经验似然法的想法,在上述随机样本的假设前提下,再添加一个随机样本点

η n+1 ( β )= a n n i=1 n η i ( β ),

其中 a n =max( 1, log( n ) 2 ) 。可构造回归系数 β 的调整经验似然比函数为

AEL( β )=sup{ i=1 n+1 [ ( n+1 ) p i ] : p i 0; i=1 n+1 p i =1; i=1 n+1 p i η i =0 }.

用拉格朗日乘数法,可以计算得出在 x i 处的概率质量为

p i = 1 ( n+1 )( 1+ λ T η i )

其中 λ 满足下列方程

i=1 n+1 η i 1+ λ T η i =0.

此外,相应的调整对数经验似然比函数为

AL( β )= i=1 n+1 log [ 1+ λ T η i ].

为了得到 AL( β ) 的渐近性质,需要以下条件:

(1) 平方可积的随机函数 X 满足 E X 4 <

(2) 对每个 j 都有 E[ U j 4 ]C λ j 2 ,其中C为不依赖于n的正的任意常数,C每次出现可以取不同的值(下同)。

(3) 对特征值 λ j 都有 C 1 j a λ j C j a λ j λ j+1 C j a1 j1 a1

(4) 对于 γ j ,都有 | γ j |C j b j1 ,其中 b> a 2 +1

(5) 对于调整参数 m ,假定 m~ n 1/ ( a+2b )

(6) 对于随机向量 Z 满足 E Z R p 4 < X R p = ( X T X ) 1/2 是空间 R p 中向量的范数。

(7) 对任意 k 都有 | K Z k X , ϕ j |C j ( b+a ) j1

(8) 令

B= K Z j=1 K ZX , ϕ j K ZX , ϕ j λ j ,

B kk 为矩阵B的第k个对角元素,B为正定阵。

定理2.1 假设条件(1)~(8)成立,如果 β 是参数真值,则

2AL( β ) L χ p 2

其中 L 表示依分布收敛。

根据定理2.1可构造基于调整经验似然方法的参数 β 的一个置信水平为 100( 1α )% 的置信域为

{ β:2AL( β ) χ α 2 ( 1 ) }.

3. 定理的证明

引理1 假设条件(1)~(8)成立,如果 β 是参数真值,则有

( 1/ n ) i=1 n η i ( β ) L N( 0, σ 2 B ).

证明 根据胡玉萍等[2]在上述条件(1)~(8)都成立的条件下,若 β 是参数的真值。由 η i ( β )= Z i ( Y i β T Z i ( U i ) T γ ^ ) ,有

1 n i=1 n η i ( β ) = 1 n ( Z 1 ,, Z n )( Y 1 β T Z 1 ( U 1 ) T γ ^ Y n β T Z n ( U n ) T γ ^ ) = 1 n Z T [ YZβ ( U 1 ,, U n ) T γ ^ ] = 1 n Z T [ YZβ U m ( U m T U m ) 1 U m T ( YZβ ) ] = 1 n Z T [ YZβ S m ( YZβ ) ] = 1 n [ Z T ( I S m )Y Z T ( I S m )Zβ ] = 1 n [ B ^ B ^ 1 Z T ( I S m )Yn B ^ β ] = n B ^ [ n 1 B ^ 1 Z T ( I S m )Yβ ]

由Shin [13]可知 ( 1/ n ) i=1 n η i ( β ) L N( 0, σ 2 B ) .

引理2 假设条件(1)~(8)成立,如果 β 是参数真值,则有

1 n i=1 n η i ( β ) η i T ( β ) P σ 2 B.

证明 由上述假设有

η i ( β )= Z i ( Y i β T Z i ( U i ) T γ ^ ) =( Z i j=1 m K ^ ZX , ϕ ^ j X i , ϕ ^ j λ ^ j )( γ, X i + ε i ) =( Z i j=1 m K ^ ZX , ϕ ^ j X i , ϕ ^ j λ ^ j ) γ, X i +( j=1 K ^ ZX , ϕ ^ j X i , ϕ ^ j λ ^ j    j=1 m K ^ ZX , ϕ ^ j X i , ϕ ^ j λ ^ j ) ε i + i=1 n ( Z i j=1 K ^ ZX , ϕ ^ j X i , ϕ ^ j λ ^ j ) ε i A i1 + A i2 + A i3 ,

由此可知,

1 n i=1 n η i ( β ) η i T ( β ) = 1 n i=1 n [ A i1 + A i2 + A i3 ][ A i1 T + A i2 T + A i3 T ] = 1 n i=1 n [ A i1 A i1 T + A i1 A i2 T + A i1 A i3 T + A i2 A i1 T + A i2 A i2 T + A i2 A i3 T + A i3 A i1 T + A i3 A i2 T + A i3 A i3 T ] D 1 + D 2 ++ D 9

A i3 =( Z i j=1 K ZX , ϕ j X i , ϕ j / λ j ) ε i ,且 A 13 , A 23 ,, A n3 是独立的

随机变量, E[ ( Z j=1 K ZX , ϕ j X i , ϕ j / λ j )ε ]=0 ,并且有

Var[ ( Z j=1 K ZX , ϕ j X, ϕ j λ j )ε ] = σ 2 E[ ( Z j=1 K ZX , ϕ j X, ϕ j λ j ) ( Z j=1 K ZX , ϕ j X, ϕ j λ j ) T ε ] = σ 2 B

根据大数定律可知

D 7 = 1 n i=1 n A i3 A i3 T P σ 2 B.

根据胡玉萍等[2]的讨论有, D 1 , D 2 , D 3 , D 4 , D 5 , D 6 , D 7 , D 9 均为 O p ( 1 )

所以有

1 n i=1 n η i ( β ) η i T ( β ) P σ 2 B .

定理2.1的证明:

根据胡玉萍等[2]的讨论有

max 1in η i ( β ) = o p ( n 1/2 ) λ = O P ( n 1/2 ) .

ξ i = λ T η i ( β ) η ¯ = 1 n i=1 n η i S= 1 n i=1 n η i ( β ) η i T ( β )

则有 max 1in | ξ i |= O p ( n 1/2 ) o p ( n 1/2 )= o p ( 1 )

η i 2 ( β )= η i ( β ) η i T ( β ) ,由 λ 满足下列方程

i=1 n+1 η i 1+ λ T η i =0

0= 1 n i=1 n+1 η i ( β ) 1+ λ T η i ( β ) = 1 n i=1 n+1 η i ( β )+ λ T η i 2 ( β ) λ T η i 2 ( β ) 1+ λ T η i ( β ) = 1 n i=1 n+1 η i ( β ) 1 n i=1 n+1 λ T η i 2 ( β ) 1+ λ T η i ( β ) = 1 n i=1 n η i ( β ) + 1 n η n+1 ( β ) 1 n i=1 n+1 λ T η i 2 ( β )+ λ T η i 3 ( β ) λ T η i 3 ( β ) 1+ λ T η i ( β ) = 1 n i=1 n η i ( β ) λ T n i=1 n+1 η i 2 ( β ) + 1 n i=1 n+1 λ T η i 3 ( β ) 1+ λ T η i ( β ) + 1 n η n+1 ( β ) = η ¯ λ T n i=1 n η i 2 ( β ) λ T n η n+1 2 ( β )+ o p ( 1 ) = η ¯ λ T S+ o p ( 1 )

λ= η ¯ S + o p ( 1 )

所以

2AL( β )=2 i=1 n+1 log( 1+ λ T η i ( β ) ) =2 i=1 n+1 [ λ η i ( β ) 1 2 λ 2 η i 2 ( β )+o( 1+θ η i ( β ) ) ] =2 i=1 n+1 λ η i ( β ) i=1 n+1 λ 2 η i 2 ( β ) +o( 1 ) =2nλ 1 n i=1 n η i ( β ) +2λ η n+1 ( β )n λ 2 1 n i=1 n η i 2 ( β ) λ 2 η n+1 2 ( β )+o( 1 ) =2nλ η ¯ n λ 2 S+o( 1 ) =n η ¯ 2 S +o( 1 )= ( n η ¯ ) 2 S +o( 1 ).

由引理1和引理2得,

2AL= ( n η ¯ ) 2 S +o( 1 ) L χ p 2 .

定理得证。

4. 结束语

本文主要研究了部分函数线性模型回归系数的调整经验似然估计。通过构造回归系数的调整对数经验似然比统计量,并证明了在一定条件下,该统计量渐近服从卡方分布。本研究在一定程度上完善了统计学的相关理论,为实践研究提供一定的理论依据。

基金项目

广西高校中青年教师科研基础能力提升项目(自然科学) (2025KY0903);广西科技师范学院产学合作协同育人项目(2024GKSCX06)。

NOTES

*通讯作者。

参考文献

[1] Ramsay, J.O. and Silverman, B.W. (1997) Functional Data Analysis. Springer.
https://doi.org/10.1007/978-1-4757-7107-7
[2] 胡玉萍, 冯三营, 薛留根. 部分函数线性模型的经验似然推断[J]. 应用概率统计. 2015, 31(2): 146-157.
[3] 江志强, 范国良. 鞅差误差下部分函数线性模型的经验似然推断[J]. 安徽工程大学学报, 2016, 31(5): 75-79, 84.
[4] 吴成鑫. 缺失数据下部分函数线性模型的经验似然推断[J]. 安徽工程大学学报, 2017, 32(5): 80-84.
[5] 文怡方. 基于惩罚高维经验似然的部分函数型线性模型的统计推断[D]: [硕士学位论文]. 厦门: 厦门大学, 2020.
[6] Owen, A.B. (1988) Empirical Likelihood Ratio Confidence Intervals for a Single Functional. Biometrika, 75, 237-249.
https://doi.org/10.1093/biomet/75.2.237
[7] Owen, A. (1990) Empirical Likelihood Ratio Confidence Regions. The Annals of Statistics, 18, 90-120.
https://doi.org/10.1214/aos/1176347494
[8] Owen, A. (1991) Empirical Likelihood for Linear Models. The Annals of Statistics, 19, 1725-1747.
https://doi.org/10.1214/aos/1176348368
[9] Qin, J. and Lawless, J. (1994) Empirical Likelihood and General Estimating Equations. The Annals of Statistics, 22, 300-325.
https://doi.org/10.1214/aos/1176325370
[10] Tsao, M. (2004) Bounds on Coverage Probabilities of the Empirical Likelihood Ratio Confidence Regions. The Annals of Statistics, 32, 1215-1221.
https://doi.org/10.1214/009053604000000337
[11] Chen, J., Variyath, A.M. and Abraham, B. (2008) Adjusted Empirical Likelihood and Its Properties. Journal of Computational and Graphical Statistics, 17, 426-443.
https://doi.org/10.1198/106186008x321068
[12] Zhu, L. and Xue, L. (2006) Empirical Likelihood Confidence Regions in a Partially Linear Single-Index Model. Journal of the Royal Statistical Society Series B: Statistical Methodology, 68, 549-570.
https://doi.org/10.1111/j.1467-9868.2006.00556.x
[13] Shin, H. (2009) Partial Functional Linear Regression. Journal of Statistical Planning and Inference, 139, 3405-3418.
https://doi.org/10.1016/j.jspi.2009.03.001