1. 引言
考虑如下线性模型:
,
, (1)
其中,
为
的观测向量,
为
已知的列满秩设计阵,
为
的未知参数向量,
为
的误差向量,
为未知参数,本文主要研究模型中回归系数的估计问题。
众所周知,
为回归系数的普通最小二乘估计,并且在线性无偏估计类中具有较好的性质。然而,当估计类扩展到有偏估计类或非线性估计类时,普通最小二乘估计的优势不复存在。特别,当模型存在复共线性时,普通最小二乘估计表现出极大的方差。为此,学者们针对病态设计阵,提出了许多改进普通最小二乘估计的方法。如James和Stein [1]提出了著名的James-Stein估计,证明了其在二次损失下优于普通最小二乘估计;Massy [2]针对病态设计均阵提出了主成分估计;Hoerl和Kennard [3]提出了岭估计;Liu [4]结合Stein估计和岭估计,提出了Liu估计;Ozkale和Kaciranlar [5]综合岭估计和Liu估计思想提出了两参数估计。以上估计统称为有偏估计,它们是在牺牲无偏性的基础上降低均方误差。但是,在这个过程中,有时候会使引入的这些有偏估计的偏差很大。所以有必要研究如何在减小均方误差的同时,使得偏差也比较小。文献中有两种减小偏差的方法:(1) 刀切法。刀切法是由Quenuille [6]于1949年提出的,它是一种非参数估计方法,应用时不受统计分布的影响,具有能够减小估计偏性的特点。(2) 几乎无偏估计的思想。该方法由Kadiyala [7]提出,并证明一类几乎无偏压缩估计优于同类有偏估计和普通最小二乘估计。为此,相关学者基于这两种方法对各类有偏估计进行改进,具体可参阅文献[8]-[12]。然而,以上两种方法虽然可以适当减少偏差,但它们还是有偏差的。为此,Crouse, Jin和Hanumara [13]提出了利用先验信息来改进有偏估计,并提出了经验无偏岭估计;Sakalloglu和Akdeniz [14]提出了经验无偏Liu估计;Wu [15]提出了经验无偏两参数估计;Lukman等[16]提出了经验无偏改进岭估计。以上经验无偏估计,不仅弱化了有偏估计的偏性,也提高了估计的精度。众所周知,刀切Liu估计能够较好地缩小Liu估计的偏差,并在一定条件下优于Liu估计,但其仍然是有偏的。为此,本文拟提出一种经验无偏刀切Liu估计来弱化刀切Liu估计的偏差,同时提高估计的精度。
论文结构安排如下:第2节,给出经验无偏刀切Liu估计的定义;第3节对经验无偏刀切Liu估计的优良性质进行分析;第4节通过数值模拟论证估计的优良性;第5节给出实例说明;第6节给出论文结论。
2. 经验无偏刀切Liu估计
假设
,由于
是正定矩阵,可知存在
阶正交矩阵
使得
,其中
为
的特征值。对模型(1)进行典则化处理,得到如下模型:
(2)
其中
、
和
。
由模型(2)可知,
的普通最小二乘估计为:
(3)
当设计矩阵存在多重共线性时,
的Liu估计定义为:
(4)
其中
为Liu算子。参照文献[17],刀切Liu估计定义为:
(5)
其中
为刀切Liu算子。
由模型(2)可知最小二乘估计
服从正态分布
。假设
服从
,且与
无关。接下来,利用经验信息
来构建经验无偏估计。考虑如下组合估计:
(6)
其中
为
的矩阵。此时
是
的无偏估计,并且它的均方误差为:
(7)
由(7)式可知,要使
为最优无偏估计当且仅当
(8)
由(8)可知
,即
。明显地,无偏估计
是由有偏估计
综合经验信息
得到的。因此,我们称
为参数
的经验无偏估计。由经验无偏估计的定义可知,当
,经验无偏刀切Liu估计可定义为:
(9)
其中
。
容易验证
是
的无偏估计,方差为
。根据
可得到回归系数的普通最小二乘估计
,一般Liu估计
,刀切Liu估计
和经验无偏刀切Liu估计
。接下来,我们对经验无偏刀切Liu估计的优良性进行分析。
3. 优良性分析
引理1 [18]:设
是一个正定矩阵,
是一非零向量,
为正标量,
是负定矩阵当且仅当
。
定理1:当
时,在均方误差准则下
一致优于最小二乘估计
。
证明:直接计算可知
(10)
和
(11)
则
(12)
其中
,
。由上式可知
优于
当且仅当
为正定矩阵,即
,直接计算可知该条件恒成立。
定理2:当
时,在均方误差准则下
优于
当且仅当
,其中
是一个正定矩阵,这里
,
。
证明:直接计算可知
(13)
和
(14)
则
(15)
上式(15)与引理1结合可知,
当且仅当
,
是一个正定矩阵,这里
,
。
定理3:当
时,在均方误差准则下
优于
当且仅当
,其中
。
证明:直接计算可知
(16)
则
(17)
上式(17)结合引理1可知,
当且仅当
,其中
为正定矩阵。
4. 模拟分析
本节基于数值模拟分析估计的优良性,实验是在个人PC机上基于R 4.4.1完成的,具体步骤如下:
步骤1:随机产生
维向量
、参数
和实数
;
步骤2:利用公式
生成
的列满秩矩阵
,其中
代表了解释变量之间的相关性,
,
,
;
步骤3:随机产生
维向量
,按模型
获得样本
;
步骤4:将
正交化,获得典则化模型
;
步骤5:在典则化模型下,获得参数
的估计
、
、
和
,进一步根据
得到
的对应估计
、
、
和
;
步骤6:重复步骤3~5合计N次,分别得到估计
、
、
和
的N个估计值,假设各个估计的第
个估计值分别为
,
,
,
,则每个估计对应的EMSE、ABIAS、ASE估计值为:
, (18)
, (19)
, (20)
, (21)
, (22)
, (23)
, (24)
, (25)
, (26)
其中,
、
、
、
表示各个估计的第k次模拟中各个估计的第i个分量的估计值;
代表
的任意一个估计,
代表分量的样本标准差。
令
和
,
,条件数
分别取0.75、0.85和0.9,同时
在首次模拟产生后保持不变。取
,
,
。根据以上步骤模拟得到各个估计EMSE估计值如下:
Table 1. EMSE values of each estimator when
表1. 当
时,各个估计的EMSE值
|
|
|
|
|
|
|
|
|
|
|
0.001735 |
0.002324 |
0.003434 |
0.005427 |
0.008513 |
0.014178 |
|
0.010907 |
0.017872 |
0.023939 |
0.011474 |
0.026212 |
0.035860 |
|
0.001779 |
0.002381 |
0.003596 |
0.005427 |
0.008546 |
0.014048 |
|
0.001727 |
0.002316 |
0.003393 |
0.005410 |
0.008447 |
0.014046 |
|
|
0.0011222 |
0.001605 |
0.001885 |
0.004903 |
0.006916 |
0.009412 |
|
0.0038995 |
0.008837 |
0.011283 |
0.008693 |
0.017062 |
0.023064 |
|
0.0011175 |
0.001652 |
0.001898 |
0.004876 |
0.006902 |
0.009358 |
|
0.0011220 |
0.001601 |
0.001875 |
0.004869 |
0.006894 |
0.009328 |
|
|
0.0005619 |
0.0008324 |
0.001292 |
0.002365 |
0.003149 |
0.004720 |
|
0.0016005 |
0.0030454 |
0.003920 |
0.003072 |
0.004464 |
0.007990 |
|
0.0005624 |
0.0008328 |
0.001291 |
0.002363 |
0.003147 |
0.004716 |
|
0.0005615 |
0.0008323 |
0.001287 |
0.002360 |
0.003143 |
0.004713 |
Table 2. EMSE values of each estimator when
表2. 当
时,各个估计的EMSE值
|
|
|
|
|
|
|
|
|
|
|
0.001319 |
0.002469 |
0.003292 |
0.006682 |
0.010995 |
0.012223 |
|
0.004686 |
0.008571 |
0.020028 |
0.009543 |
0.022110 |
0.024289 |
|
0.001322 |
0.002460 |
0.003386 |
0.006672 |
0.010993 |
0.012142 |
|
0.001315 |
0.002456 |
0.003277 |
0.006666 |
0.010940 |
0.012120 |
|
|
0.001069 |
0.001590 |
0.002104 |
0.004097 |
0.005846 |
0.008121 |
|
0.002696 |
0.004442 |
0.010453 |
0.005858 |
0.006700 |
0.012208 |
|
0.001070 |
0.001593 |
0.002135 |
0.004092 |
0.005825 |
0.008105 |
|
0.001067 |
0.001587 |
0.002098 |
0.004087 |
0.005823 |
0.008103 |
|
|
0.0005210 |
0.000903 |
0.001175 |
0.002024 |
0.003525 |
0.004509 |
|
0.0001243 |
0.002057 |
0.003094 |
0.002683 |
0.005094 |
0.007293 |
|
0.0005212 |
0.000903 |
0.001173 |
0.002023 |
0.003528 |
0.004504 |
|
0.0005205 |
0.000901 |
0.001171 |
0.002021 |
0.003521 |
0.003402 |
Table 3. EMSE values of each estimator when
表3. 当
时,各个估计的EMSE值
|
|
|
|
|
|
|
|
|
|
|
0.001919 |
0.001860 |
0.002687 |
0.006389 |
0.009722 |
0.014494 |
|
0.002588 |
0.003634 |
0.005250 |
0.007953 |
0.011789 |
0.015288 |
|
0.001917 |
0.001859 |
0.002687 |
0.006380 |
0.009701 |
0.014445 |
|
0.001916 |
0.001857 |
0.002685 |
0.006383 |
0.009714 |
0.014467 |
|
|
0.001008 |
0.001568 |
0.002237 |
0.004316 |
0.007341 |
0.009340 |
|
0.001542 |
0.002340 |
0.002963 |
0.004478 |
0.007823 |
0.010837 |
|
0.001008 |
0.001567 |
0.002234 |
0.004314 |
0.007329 |
0.009319 |
|
0.001007 |
0.001566 |
0.002232 |
0.004315 |
0.007331 |
0.009325 |
|
|
0.000522 |
0.000846 |
0.001026 |
0.0022856 |
0.0028967 |
0.004560 |
|
0.000696 |
0.001137 |
0.001567 |
0.0023649 |
0.0030456 |
0.004869 |
|
0.000522 |
0.000846 |
0.001026 |
0.0022852 |
0.0028963 |
0.004557 |
|
0.000521 |
0.000845 |
0.001025 |
0.0022853 |
0.0028969 |
0.004558 |
Table 4. EMSE values of each estimator when
表4. 当
时,各个估计的EMSE值
|
|
|
|
|
|
|
|
|
|
|
0.052911 |
0.062000 |
0.079941 |
0.100972 |
0.132164 |
0.162993 |
|
0.207496 |
0.307930 |
0.397344 |
0.177680 |
0.366097 |
0.441463 |
|
0.053844 |
0.067960 |
0.093890 |
0.100992 |
0.134871 |
0.169768 |
|
0.052876 |
0.061829 |
0.079254 |
0.100663 |
0.131967 |
0.161288 |
|
|
0.047360 |
0.053559 |
0.071726 |
0.081170 |
0.112182 |
0.137410 |
|
0.123223 |
0.168586 |
0.220389 |
0.133759 |
0.263422 |
0.274795 |
|
0.047373 |
0.054035 |
0.072602 |
0.081112 |
0.112585 |
0.137198 |
|
0.047288 |
0.053392 |
0.071157 |
0.081090 |
0.111969 |
0.136924 |
|
|
0.030941 |
0.037303 |
0.042719 |
0.060549 |
0.075754 |
0.094601 |
|
0.077124 |
0.091359 |
0.128562 |
0.088147 |
0.131367 |
0.162614 |
|
0.052911 |
0.062000 |
0.079941 |
0.100972 |
0.132164 |
0.162993 |
|
0.207496 |
0.307930 |
0.397344 |
0.177680 |
0.366097 |
0.441463 |
Table 5. EMSE values of each estimator when
表5. 当
时,各个估计的EMSE值
|
|
|
|
|
|
|
|
|
|
|
0.057792 |
0.057557 |
0.089747 |
0.105591 |
0.125732 |
0.166151 |
|
0.13474 |
0.111300 |
0.180432 |
0.134019 |
0.138409 |
0.268394 |
|
0.058045 |
0.057689 |
0.089603 |
0.105542 |
0.125538 |
0.166504 |
|
0.057878 |
0.057481 |
0.089515 |
0.105535 |
0.125474 |
0.165820 |
|
|
0.042054 |
0.053936 |
0.065093 |
0.084771 |
0.118439 |
0.112835 |
|
0.060903 |
0.086391 |
0.106682 |
0.095196 |
0.135445 |
0.130637 |
|
0.042049 |
0.053968 |
0.065077 |
0.084741 |
0.118396 |
0.112777 |
|
0.042039 |
0.053902 |
0.065068 |
0.084719 |
0.118319 |
0.112736 |
|
|
0.027629 |
0.036841 |
0.044298 |
0.059232 |
0.075030 |
0.091243 |
|
0.032174 |
0.046575 |
0.062928 |
0.063406 |
0.081997 |
0.105419 |
|
0.027629 |
0.036837 |
0.044286 |
0.059231 |
0.075019 |
0.091217 |
|
0.027628 |
0.036832 |
0.044277 |
0.059219 |
0.075018 |
0.091185 |
Table 6. ASE values of each estimator when
表6. 当
时,各个估计的ASE值
|
|
|
|
|
|
|
|
|
|
|
0.00079 |
0.00088 |
0.001257 |
0.001415 |
0.001992 |
0.002365 |
|
0.000756 |
0.000833 |
0.001116 |
0.001364 |
0.001855 |
0.002147 |
|
0.000789 |
0.000877 |
0.001239 |
0.001413 |
0.001982 |
0.002344 |
|
0.00079 |
0.000879 |
0.001249 |
0.001412 |
0.001981 |
0.002348 |
|
|
0.000681 |
0.000771 |
0.000956 |
0.001355 |
0.001632 |
0.001975 |
|
0.000659 |
0.000737 |
0.000895 |
0.001307 |
0.001554 |
0.001844 |
|
0.000681 |
0.000769 |
0.000952 |
0.001349 |
0.001628 |
0.001966 |
|
0.000681 |
0.000769 |
0.000951 |
0.001349 |
0.001628 |
0.001967 |
|
|
0.000452 |
0.000554 |
0.000711 |
0.000918 |
0.001098 |
0.001327 |
|
0.0004445 |
0.000542 |
0.000685 |
0.000904 |
0.001075 |
0.001285 |
|
0.000452 |
0.000554 |
0.00071 |
0.000917 |
0.001098 |
0.001326 |
|
0.000452 |
0.000554 |
0.00071 |
0.000917 |
0.001098 |
0.001326 |
Table 7. ABIAS values of each estimator when
表7. 当
时,各个估计的ABIAS值
|
|
|
|
|
|
|
|
|
|
|
0.021238 |
0.023961 |
0.029115 |
0.039761 |
0.048883 |
0.058868 |
|
0.060497 |
0.082263 |
0.108987 |
0.065885 |
0.113959 |
0.137254 |
|
0.021413 |
0.024521 |
0.031171 |
0.039750 |
0.049234 |
0.059853 |
|
0.021235 |
0.023832 |
0.028949 |
0.039713 |
0.048855 |
0.058540 |
|
|
0.016567 |
0.022048 |
0.024806 |
0.034003 |
0.062364 |
0.047256 |
|
0.040243 |
0.042179 |
0.075334 |
0.05838 |
0.001554 |
0.096027 |
|
0.016568 |
0.022002 |
0.024878 |
0.034019 |
0.038362 |
0.047564 |
|
0.016567 |
0.021990 |
0.024750 |
0.033942 |
0.038253 |
0.047221 |
|
|
0.011528 |
0.013454 |
0.017178 |
0.022838 |
0.029887 |
0.033218 |
|
0.018807 |
0.026775 |
0.036736 |
0.030505 |
0.039380 |
0.049040 |
|
0.011529 |
0.013458 |
0.017195 |
0.022839 |
0.029891 |
0.033233 |
|
0.011525 |
0.013455 |
0.017169 |
0.022833 |
0.029882 |
0.003321 |
表3中粗体数字表示在EMSE准测下,经验无偏刀切Liu估计的精度弱于刀切Liu估计。根据表1~7可得如下结果:
(1) 在ASE准测下,普通最小二乘估计
、Liu估计
、刀切Liu估计
和经验无偏刀切Liu估计
的平均标准误差都较小,表明它们在当前数据下提供了较为精确的估计。其中,Liu估计
略微更优的精度,其他估计量的精度也非常接近,表现出相当的稳定性。
(2) 在ABIAS准测下,普通最小二乘估计
、刀切Liu估计
和经验无偏刀切Liu估计
的平均绝对偏差较低,表明这些方法的估计相对更接近真实值。而Liu估计
的平均绝对偏差较大,表明相对于其他三个估计方法表现较差。
(3) 在EMSE准测下,经验无偏刀切Liu估计
一致优于普通最小二乘估计
,并在一定的条件下分别优于刀切Liu估计
和Liu估计
,和理论结果一致。
(4) 随着样本量
的增加,各估计的EMSE值显著下降;随着
值的增加,各估计的EMSE值普遍增加,即样本量
的增加可以提高估计的精确度,而较高的
值会增加估计的误差。
5. 实例分析
本节采用Woods等人[19]提出的Portland数据集对所提出估计的优良性进行分析。该数据主要探究硅酸盐水泥在凝固和硬化过程中释放的热量与四种主要化合物含量之间的关系。这四种化合物分别为铝酸三钙、硅酸三钙、铁铝酸四钙和硅酸二钙,记作
。经过180天的固化过程后,每克水泥所释放的热量(以卡路里为单位),记作
。假设
与
具有线性关系,理论模型为
,其中
,
计算得到
的特征值分别为
,
,
,
,
,对应条件数为3.6679307。因此,设计矩阵存在显著的多重共线性。
由于
和
是未知的,首先利用
和
的最小二乘估计
和
代替真实值,根据理论模型计算得到:
和
。接下来根据理论结果分别得到
、
和
的估计值。考虑到利用先验信息生成
具有随机性,会影响经验无偏刀切Liu估计的取值。为此,通过随机生成1000个
,利用它们的平均值作为
的取值,使得估计
的值更为稳定。当
,取
时,对应参数的三个估计的回归系数结果和相应的评价值,见表8。
表8中的结果表明,经验无偏刀切Liu估计
相比Liu估计
和刀切Liu估计
分别具有最小的EMSE、ABIAS和ASE估计值。
同时,直接计算各个估计与真实值的差异程度,采用欧氏公式
计算,
为
的任意估计,并绘制了各个估计与真实值的差异值随
变化的图形,见图1。
Table 8. Regression coefficient results and corresponding evaluation values
表8. 回归系数结果和相应的评价值
|
|
|
|
|
15.6936 |
27.4143 |
27.4905 |
|
2.02136 |
1.91110 |
1.9096 |
|
0.9944 |
0.8708 |
0.8701 |
|
0.5860 |
0.4700 |
0.4687 |
|
0.32935 |
0.2094 |
0.2087 |
|
643.4197 |
244.9744 |
243.9082 |
|
11.7246 |
7.2866 |
7.27056 |
|
46.7216 |
34.9985 |
34.9223 |
Figure 1. Estimation errors versus true values across different d parameters
图1. 各估计与真实值差异大小随d的变化情况
由图1可知,当
时,
一致优于
;
时,
不能优于
,无法满足特定条件时,在个别点
下出现
优于
的情形,主要由
的随机性产生的。另外,此实例中
一致优于
。所得结果与理论分析和模拟分析一致。
6. 结论
本文利用经验无偏的思想在刀切Liu估计基础上获得了回归系数的经验无偏刀切Liu估计。在平均绝对偏差、平均标准误差和均方误差方面,将该估计的性能与刀切Liu估计、Liu估计、普通最小二乘估计进行了比较。该估计减少了刀切Liu估计的偏性,同时在一定的条件下优于刀切Liu估计。它是有偏估计和无偏估计的线性组合,通过经验无偏信息来调节有偏估计的偏性,核心要点是找到经验无偏估计,在实际应用中具有一定的主观性。考虑到在实际应用中,存在变量无法精确测量,这也启发了我们,能否在非线性模型、部分线性模型和高维稀疏模型中引入测量误差,再从有偏估计出发,附加更复杂的先验信息,从贝叶斯分析角度得到回归系数的线性贝叶斯估计,值得后期进一步研究。
基金项目
国家自然科学基金(11661003);江西省自然科学基金(20192BAB201006)。
NOTES
*通讯作者。