Hilbert空间中一类可数维线性回归模型的参数估计
A Parameter Estimation for an Infinite Dimensional Linear Regression Model in Hilbert Space
DOI: 10.12677/PM.2022.126105, PDF, HTML, XML, 下载: 233  浏览: 358  科研立项经费支持
作者: 曹志娟, 邓伟奇*:云南财经大学,统计与数学学院,云南 昆明
关键词: Hilbert空间正交分解法可数维线性回归模型参数估计Hilbert Space Orthogonal Decomposition Countable Dimensional Linear Regression Model Parameter Estimation
摘要: 现有回归模型中的解释变量往往是有限多个,然而被解释变量实际上常常受到无穷多种因素的影响,这使得有限维线性回归模型很有可能遗漏某些重要的解释变量,从而导致模型模拟现实的效用大为减弱。鉴于此,本文提出了一类可数维线性回归模型的参数估计问题,并利用实Hilbert空间中的正交分解定理,以及泛函分析中的压缩映射原理和相关定理,在一定的条件下,通过Picard迭代程序,寻求可数维线性回归模型参数估计的唯一逼近解。
Abstract: The existing linear regression models usually include finite explanatory variables, but in fact, the dependent variables are affected by infinite factors so that some important explanatory variables are probably omitted, which would lead to weaker efficacy of the models. In this article, we pro-posed a parameter estimation for a countable dimensional linear regression model under certain conditions by using the orthogonal decomposition theorem in real Hilbert space. In other words, the Picard iteration program is used to find the unique approximate solution for parameter estimation for a countable dimensional linear regression model under certain conditions by using the orthogonal decomposition theorem in real Hilbert space and the compression mapping theorem in functional analysis and some related lemmas.
文章引用:曹志娟, 邓伟奇. Hilbert空间中一类可数维线性回归模型的参数估计[J]. 理论数学, 2022, 12(6): 962-970. https://doi.org/10.12677/PM.2022.126105

1. 引言

在统计学中,线性回归是指利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量称为一元回归,有多个自变量称为多元回归。回归分析是根据实验数据去估计回归函数,进行点估计、区间估计、假设检验等问题研究。回归分析是研究相关关系的一种数学工具,使我们能够从一个变量的取值,去估计另一变量的取值 [1]。

线性回归分析中的参数估计是指,当随机变量分布类型已知,但有未知参数的情况,利用随机变量的一组样本值来估计已知分布类型中的参数。通常先建立它们的一般线性回归模型,然后通过最小二乘法或极大似然估计法得到未知参数的估计。最小二乘法是一种数学优化方法,通过最小化误差的平方和寻找数据的最佳函数匹配,使模型能较好地拟合样本数据的参数估计量。极大似然估计法的思想基于:从总体中随机抽取n组样本,最合理的参数估计量应该是使得这组样本出现的概率最大 [1]。两者在求解参数估计时,都有它们的优缺点。最小二乘法的优点是:容易通过计算机的简单程序实现;其缺点是:不能得到无理数根的这种确定解并且计算十分麻烦。而极大似然估计的优点是具有良好的收敛性,即使样本量增加也比任何其他替代技术都更简单,因此计算复杂度更低;缺点是极大似然估计的参数只拟合观测到的样本,如果观测到的样本并不能很好的代表总体样本的分布,那么极大似然估计是不准确的。

作者在原有求解参数估计方法的基础上,运用实Hilbert中的正交分解定理,在一定条件下,寻求可数维线性回归模型回归系数估计的近似解。

首先,运用实Hilbert空间中的正交分解定理,导出一个关于模型参数估计的可数维线性方程组,并将其转化为求解某个非线性映射的不动点问题。

然后,在一定条件下,通过泛函分析中的压缩映射原理,证明了该映射为压缩映射且存在唯一的不动点,从而判定该线性方程组有唯一解。

最后,通过Picard迭代算法,得到可数维线性回归模型中的回归系数估计的逼近解。

2. 预备知识

2.1. 多元线性回归分析

一般情况下,一个变量会受多个因素的影响,所以线性回归模型中的解释变量就会有多个,而这样f的模型被称为多元线性回归模型。

1) 多元线性回归模型的一般形式为:

Y i = β 0 + β 1 x 1 i + β 2 x 2 i + + β k x k i + ε i ( i = 1 , 2 , , n )

其中 ε i ~ N ( 0 , σ 2 ) ,各 ε i 相互独立, β 0 , β 1 , , β k 代表回归系数,即模型估计的目标。我们可将模型用矩阵的形式进行表示,如下所示:

Y = X B + N

其中

Y = [ Y 1 Y 2 Y n ] n × 1 , X = [ 1 x 11 x 21 x n 1 1 x 12 x 22 x 2 n 1 x 1 n x 1 n x k n ] n × ( k + 1 )

B = [ β 0 β 1 β k ] ( k + 1 ) × 1 , N = [ u 1 u 2 u n ] n × 1 .

2) 利用最小二乘法估计参数

多元线性回归模型在满足下列基本假设的情况下,可以采用普通最小二乘法估计参数。

a) 解释变量是非随机或固定的,而且各X之间互不相关。

b) n × ( k + 1 ) 矩阵X非随机,且X的秩 p ( X ) = k + 1 时, X T X 满秩。

满足以上条件时,根据最小二乘法原理,参数估计值是方程组

B ^ ( Y X B ^ ) ( Y X B ^ ) = 0

的解,求解方程组得到参数的最小二乘法估计值为:

B ^ = ( X X ) 1 X Y .

2.2. Hilbert空间中的相关知识

希尔伯特空间又叫完备的内积空间,是有限维欧几里得空间的一个推广,它不局限于实数的情形和有限的维数,但又不失完备性(而不像一般的非欧几里得空间那样破坏了完备性)。与欧几里得空间相似,希尔伯特空间也是一个内积空间,其上有距离和角的概念,由此引伸出正交性概念。此外,希尔伯特空间还是一个完备的空间,根据其定义可知其上所有的柯西列等价于收敛列。希尔伯特空间为基于任意正交系上的多项式表示的傅里叶级数和傅立叶变换提供了一种有效的表达方式,这也是泛函分析的核心概念之一 [2]。本文主要围绕实希尔伯特空间中的正交性进行问题的讨论。

定义2.2.1 [2] 设 ( X , ) 是一个赋范空间,若对于X的任意Cauchy列 { x n } ,存在 x 0 X 使得

x n x 0

则称X是完备的。

定理2.2.2 [2] 设M是内积空间H中的完备凸集,则对任意存在 x 0 M ,使得

x x 0 = d ( x , M ) = inf y M x y .

定理2.2.3 [2] (正交分解)设M是Hilbert空间H的闭子空间,则对任意 x H ,存在唯一的 x 0 M y M 使得 x = x 0 + y

定理2.2.4 [2] 设H是内积空间,则对任意 x , y H

| x , y | 2 x , x y , y .

定理2.2.5 [2] (压缩映射原理)设 ( X , d ) 是完备距离空间, T : X X ,并且对任意 x , y X ,不等式

d ( T x , T y ) θ d ( x , y )

成立,其中 0 < θ < 1 ,则存在唯一的 x ¯ X ,使得 T x ¯ = x ¯

2.3. 问题推理过程中需要的引理

定义2.3.1 [2] 空间 l 2 是满足 n = 1 | ξ k | 2 < 的实数列 x = { ξ k } k = 1 的全体。

根据坐标定义线性运算,则空间 l 2 是一个线性空间。对于 x l 2 x = { ξ k } n = 1 定义

x = ( k = 1 | ξ k | 2 ) 1 2 .

可据离散情形的Minkowski不等式,即 x , y l 2 x = { ξ k } y = { η k } ,有不等式

( k = 1 | ξ k + η k | 2 ) 1 2 ( k = 1 | ξ k | 2 ) 1 2 + ( k = 1 | η k | 2 ) 1 2 .

可证空间 l 2 是一个完备的线性赋范空间,即Banach空间。

引理2.3.2 [2] 赋范空间 l 2 是Hilbert空间。

引理2.3.3 [2] (柯西不等式) a = { a k } k = 1 b = { b k } k = 1 l 2

( k = 1 a k b k ) 2 ( k = 1 a k 2 ) ( k = 1 b k 2 ) .

3. 寻求可数维线性回归模型参数估计

3.1. 利用实Hilbert空间中的正交分解,寻求关于参数估计的线性方程组

由引理2.3.2,可知赋范空间 l 2 是Hilbert空间。

设可数维线性回归模型为:

y = α 1 x 1 + α 2 x 2 + + α n x n + + ε , n = 1 , 2 , (1)

其中 y , x 1 , x 2 , , x n , l 2 ,且 x 1 , , x n , 线性相关。

为求解(1)式中的回归系数最优参数估计,可将问题转化为求解最小误差项“长度”,将(1)式转化为:

min α y ( α 1 x 1 + α 2 x 2 + + α n x n + ) ,

其中 α = ( α 1 , , α n , ) l 2

设M是由空间 l 2 中线性无关的元 x 1 , , x n , ,张成的线性空间的闭包,即可表示为:

M = Span { x 1 , , x n , } ¯ ,

其中

Span { x 1 , , x n , } = { k = 1 m λ k x n k : x m k { x n } n = 1 } ,

及由

{ k = 1 m λ k x n k : x m k { x n } n = 1 }

张成的完备的线性赋范空间M为Hilbert空间 l 2 的闭子空间。

因为M为Hilbert空间 l 2 的闭子空间,根据定理2.2.3可得,对于任意的 y l 2 ,存在唯一的 y 0 M ,以及 z M ,使得

y = y 0 + z .

y l 2 ,令

P M y = y 0 .

P M 是由 l 2 到M上的投影映射。于是 y l 2 ,可作如下分解:

y = ( y P M y ) + P M y .

根据第一节的推理结果,由定理2.2.2可得,存在 P M y = i = 1 a i x i ,使得

y P M y = d ( x , M ) .

再由正交分解定理2.2.3,

y P M y M ,

它等价于

y P M y , x j = 0 , ( j = 1 , 2 , )

i = 1 α i x i , x j = y , x j , ( j = 1 , 2 , )

i = 1 x i , x j α i = y , x j , ( j = 1 , 2 , )

显然上式为一个可数维线性方程组,矩阵表示为:

A α = b (2)

其中

A = ( x i , x j ) ( i , j = 1 , 2 , ) ,

α 和b是可数维的数列,

α = { α i } i = 1 , b = { y , x j } j = 1 .

由(2)式可转化为,

( I A ) α + b = α ,

其中

I = ( e i j ) , e i j = { 1 , i = j 0 , i j ( i , j = 1 , 2 ) ,

( I A ) = j = 1 ( e i j x i , x j ) .

T x = ( I A ) x + b , x l 2 (3)

可见T是由 l 2 l 2 的一个自映射。

3.2. 判定可数维线性方程组是否有解

假设

i = 1 j = 1 ( e i j x i , x j ) 2 < 1 ,

证T是由 l 2 l 2 的一个压缩映射。

证明:由(3)式可得,

T x T y = ( I A ) x + b ( I A ) y b = ( I A ) x ( I A ) y = ( I A ) ( x y )

x , y l 2 x = { ξ j } j = 1 y = { η j } j = 1 ,

则有

T x T y = { j = 1 ( e i j x i , x j ) ξ j } i = 1 { j = 1 ( e i j x i , x j ) η j } j = 1 = { j = 1 ( e i j x i , x j ) ( ξ j η j ) } i = 1

ζ i = j = 1 ( e i j x i , x j ) ( ξ j η j ) , ( i = 1 , 2 )

我们有

T x T y = { ζ i } i = 1 = ( i = 1 ζ i 2 ) 1 2 = i = 1 { j = 1 ( e i j x i , x j ) ( ξ j η j ) } 2

根据柯西不等式,即引理2.3.3,由上式可得

T x T y i = 1 { j = 1 ( e i j x i , x j ) 2 j = 1 ( ξ j η j ) 2 } i = 1 j = 1 ( e i j x i , x j 2 ) j = 1 ( ξ j η j ) 2 i = 1 j = 1 ( e i j x i , x j 2 ) x y

由此可得

T x T y θ x y .

其中

θ = i = 1 j = 1 ( e i j x i , x j ) 2 < 1.

由压缩映射原理,即定理2.2.5,可知T是 l 2 l 2 的一个压缩映射,则T存在唯一的不动点。即存在唯一的 α l 2 使得

T α = α

α 是线性方程组 A α = b 的唯一解。

3.3. 寻求线性方程组的唯一逼近解

(1)为得到线性方程组(2)的唯一逼近解,我们使用Picard迭代程序,即对任意的已知 β 1 l 2 ,我们得到 l 2 中的点列 { β n } ,从关系式

β n + 1 = T β n , n = 1 , 2 , (4)

其中

β n = ( β n ( 1 ) , β n ( 2 ) , , β n ( k ) , ) l 2

可以看出,如果 { β n } 收敛,又因为T的连续性,这个序列的极限就是T的一个不动点。

事实上,由

β 2 β 3 = T β 1 T β 2 θ β 1 T β 1 , β 3 β 4 = T β 2 T β 3 θ β 2 β 3 θ 2 β 1 T β 1 ,

一般地,

β n β n + 1 θ n β 1 T β 1 ( n = 1 , 2 , ) .

于是,对任意自然数p,

β n β n + p β n β n + 1 + β n + 1 β n + 2 + + β n + p 1 β n + p ( θ n + θ n + 1 + + θ n + p 1 ) β 1 T β 1 θ 2 ( 1 θ p ) 1 θ β 1 T β 1 θ n 1 θ β 1 T β 1 .

0 < θ < 1 ,可知 { β n } 是一个Cauchy列,因为 l 2 是完备的,所以存在已知 β l 2 ,使得

β n β ( n ) ,

令式(4)的两边 n ,即得 T β = β 。则 β 是线性方程组 A α = b 的唯一逼近解。

4. 注记

针对实际问题进行回归分析时,由于样本容量有限,可考虑将可数维线性回归模型式(1)转换为有限维线性回归模型,使之具有广泛的应用性 [3] - [8]。

y , x 1 , x 2 , n ,显然有 n l 2 ,对于可数多维解释变量 { x 1 , x 2 , , x n , } ,存在一组基 B { x 1 , x 2 , , x n , } ,为方便起见,不妨设 B = { x 1 , x 2 , , x n } ,使得任意一个解释变量均可以由B唯一地线性表出,即有

x n + j = i = 1 n c j ( i ) x i , ( j = 1 , 2 , ) ,

于是可数维线性回归模型式(1)可写为,

y = α 1 x 1 + α 2 x 2 + + α n x n + α n + 1 i = 1 n c 1 ( i ) x i + α n + 2 i = 1 n c 2 ( i ) x i + + ε = ( α 1 + α n + 1 c 1 ( 1 ) + α n + 2 c 2 ( 1 ) + ) x 1 + ( α 2 + α n + 1 c 1 ( 2 ) + α n + 2 c 2 ( 2 ) + ) x 2 + + ( α n + α n + 1 c 1 ( n ) + α n + 2 c 2 ( n ) + ) x n + ε = ( α i + j = 1 α n + j c j ( i ) ) x i + ε ( i = 1 , 2 , , n )

注意到基中的元素可根据具体问题背景,选取对被解释变量y有显著影响的主要变量,这意味着其余解释变量对y影响微弱,因此我们可以假设级数 j = 1 α n + j c j ( i ) 收敛,并令 α i + j = 1 α n + j c j ( i ) = β i , ( i = 1 , 2 , , n ) ,则可数维线性回归模型式(1)可进一步写为,

y = β 1 x 1 + β 2 x 2 + + β n x n + ε .

由于本文是初次探索可数维线性回归模型参数估计的问题,且偏重于理论研究,所以尚未找到适当的仿真例子来说明文中方法的有效性,我们期望在后续的研究工作中能就此有所突破 [9] [10] [11]。

5. 结论

本文所讨论的是在一定条件下,建立可数维线性回归模型,假设其试验样本值是已知的情况下,寻求可数维线性模型中的回归系数的参数估计。在已知随机变量的试验样本值后,将正交分解定理与线性回归模型参数估计相结合,通过实Hilbert空间中的正交分解定理,导出一个关于模型参数估计的可数维线性方程组,并推导得出该线性方程组的唯一解,即利用实Hilbert空间中的正交分解寻求可数维线性回归模型参数估计 [12] [13]。

基金项目

云南省教育厅科学研究基金项目(2018JS314)。

NOTES

*通讯作者。

参考文献

[1] 塞伯. 线性回归分析[M]. 方开泰, 译. 北京: 科学出版社, 1987.
[2] 刘炳初. 泛函分析第二版[M]. 北京: 科学出版社, 1998: 37-59, 107-126.
[3] 盛骤, 谢式千, 潘承毅. 概率论与数理统计第四版[M]. 浙江: 高等教育出版社, 2001: 244-257.
[4] 张恭庆, 林源渠. 泛函分析讲义[M]. 北京: 北京大学出版社, 1987.
[5] 张禾瑞. 高等代数第五版[M]. 北京: 高等教育出版社, 2007: 177-186.
[6] 李芳. DE算法在多元线性回归模型参数估计中的应用[J]. 软件导刊, 2013, 11(6): 46-48.
[7] 李晓华. 多元线性回归模型的参数估计及性质[D]: [硕士学位论文]. 郑州: 华北水利电学院, 2012: 1-19.
[8] 张晶, 余旌胡. 线性回归模型参数估计方法的分辨率[J]. 数学物理学报: A辑, 2020, 40(5): 1381-1392.
[9] 杨凯凡. 无限维Hilbert空间上一类算子方程的解[J]. 安徽大学学报(自然科学版), 2021, 45(3): 6-9.
[10] 李小胜, 王申令. 带线性约束的多元线性回归模型参数估计[J]. 统计研究, 2016, 33(11): 85-92.
[11] 于卓熙, 靳雨佳. 基于改进人工鱼群算法的回归模型参数估计[J]. 统计与决策, 2018, 34(22): 75-77.
[12] 周武, 宋建成. Hilbert空间中一类新的随机集值隐拟变分不等式[J]. 西南民族大学学报(自然科学版), 2021, 47(3): 330-334.
[13] 蔡钢. Hilbert空间上新的变分不等式问题和不动点问题的粘性迭代算法[J]. 数学学报, 2019, 62(5): 765-776.